CN110738527A - 一种特征重要性排序方法、装置、设备和存储介质 - Google Patents

一种特征重要性排序方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110738527A
CN110738527A CN201910990220.6A CN201910990220A CN110738527A CN 110738527 A CN110738527 A CN 110738527A CN 201910990220 A CN201910990220 A CN 201910990220A CN 110738527 A CN110738527 A CN 110738527A
Authority
CN
China
Prior art keywords
correlation
features
feature
purchasing behavior
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910990220.6A
Other languages
English (en)
Inventor
邓杨
高宏华
王杰明
傅立霖
张佳煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN201910990220.6A priority Critical patent/CN110738527A/zh
Publication of CN110738527A publication Critical patent/CN110738527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种特征重要性排序方法、装置、设备和存储介质,该方法包括:确定样本对象的特征以及样本对象的购买行为标签;确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。本发明实施例由于特征排序模型训练的输入特征考虑了特征与购买行为标签的相关性,所以提高了特征排序模型输出结果的准确性,从而构建的购买客群画像精准性提高。

Description

一种特征重要性排序方法、装置、设备和存储介质
技术领域
本发明实施例涉及信息处理领域,尤其涉及一种特征重要性排序方法、装置、设备和存储介质。
背景技术
越来越多的行业开始重视大数据客户洞察的应用,例如银行、保险企业。基于对大数据的分析挖掘和机器学习等技术,提供客户画像、行为预测以及智能推荐等服务。例如保险企业基于对客户数据的分析,构建意外险客群画像,可以帮助了解客户,实现对客户的精准营销,提升客户满意度。
现有的意外险客群画像一般基于保险公司内部数据,对内部数据进行分析进而对潜在客户进行挖掘。然而这种模型的构建方法缺少对外部数据的引入和整合,无法客观全面的反映意外险客群特征,并且缺少对客户特征的重要性筛选,只是针对所获取的数据进行简单筛选,缺少对客户特征的针对性分析。
发明内容
本发明实施例提供一种特征重要性排序方法、装置、设备和存储介质,以提高特征重要性排序的准确度。
第一方面,本发明实施例提供了一种特征重要性排序方法,包括:
确定样本对象的特征以及样本对象的购买行为标签;
确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
第二方面,本发明实施例还提供了一种特征重要性排序装置,包括:
特征及标签确定模块,用于确定样本对象的特征以及样本对象的购买行为标签;
特征筛选模块,用于确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
特征重要性排序模块,用于根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的特征重要性排序方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的特征重要性排序方法。
本发明实施例基于对样本对象的特征及购买行为标签的确认,并判断特征与购买行为标签的相关性,根据需要选择相关性高的特征作为训练特征排序模型的输入特征,特征排序模型的输出即为对样本对象特征的重要性评分,根据评分对特征重要性进行排序。由于特征排序模型训练的输入特征考虑了特征与购买行为标签的相关性,所以提高了特征排序模型输出结果的准确性,从而构建的购买客群画像精准性提高。
附图说明
图1是本发明实施例一中的特征重要性排序方法的流程图;
图2是本发明实施例二中的特征重要性排序方法的流程图;
图3是本发明实施例三中的特征重要性排序装置的结构示意图;
图4是本发明实施例四中的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的特征重要性排序方法的流程图,本实施例可适用于确定样本对象特征对购买行为标签影响的重要性排序,从而根据特征重要性排序构建购买客群画像的情况。该方法可以由特征重要性排序装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置在计算机设备中,例如计算机设备可以是后台服务器等具有通信和计算能力的设备。如图1所示,该方法具体包括:
步骤101、确定样本对象的特征以及样本对象的购买行为标签。
其中,样本对象是指所要进行判断的特征所属对象,例如意外险购买对象和意外险潜在购买对象。特征是指根据样本对象的属性获取到的对样本对象的特性进行表征的数据,示例性的,特征包括样本对象的身份特质、资产负债、投资偏好、行为信息、信用评分等特征数据,例如,当样本对象为意外险购买客群时,身份特质包括客户年龄、性别、学籍学历、职业、婚姻状况、客户等级等;资产负债包括客户时点资产管理规模(Asset UnderManagement,AUM)、贷款时点AUM、信用卡余额、保险时点余额、基金时点余额等;投资偏好包括客户理财产品大类偏好、客户投资风险偏好、客户投资期限偏好等;行为信息包括产品覆盖个数、账务性交易笔数、飞行次数、航空等级、消费偏好等;信用评分包括个人综合信用评分、房贷行为评分、信用卡行为评分等。
购买行为标签是指根据样本对象的历史购买行为区分样本对象的标注。例如购买行为标签包括意外险购买行为标签,则具有购买行为标签的样本对象为购买过意外险的样本对象,不具有购买行为标签的样本对象为从未购买过意外险的样本对象。示例性的,根据购买行为标签可以将样本对象分为两种:正样本对象和负样本对象,正样本对象即为具有购买行为标签的样本对象,负样本对象即为不具有购买行为标签的样本对象。
具体的,根据银行、保险企业、运营商、航旅、税务、海关、法院等多维度进行获取样本对象,可以设定时间范围,从多维度的数据库中选取购买意外险的客群对象作为正样本对象,选取从未购买意外险的客群对象作为负样本对象。并获取所选取客群对象的特征数据。通过多维度对样本对象进行选取,并获取特征数据,保证了样本对象特征数据的完整性。
可选的,可以预先根据相关经验对特征数据进行初步筛选,去除和购买行为相关性为零的特征数据,例如可以根据专家经验,从特征数据中选取与意外险客户有较强相关性的信息。通过初步筛选去除无关信息有利于提高对特征重要性进行排序的效率。
步骤102、确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征。
其中,相关性是指特征与购买行为标签之间的关联程度,可选的,相关性可以用数值大小或散点图进行表征。可选的,通过判断特征的变化对购买行为标签有没有规律性变化,若有规律性变化,则说明该特征与购买行为标签之间有关联;若没有规律性变化,则说明该特征与购买行为标签之间没有关联。
具体的,获取到样本对象的特征数据后,通过在二维空间构建特征数据和购买行为标签之间的散点图,观察散点图上特征数据与购买行为标签有无规律性变化,从得到的相关性结果中选取预设数量的相关程度高的特征。
可选的,确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征,包括:
构建特征与购买行为标签之间的相关性表现,获取相关性系数;其中,所述相关性表现包括线性表现和非线性表现;
根据所述相关性系数从所述特征中筛选出所述相关性系数满足预设条件的目标特征;其中,预设条件包括相关性系数达到预设相关阈值,或者,将所述特征按照相关性系数从大到小进行排序后,排序在预设顺序以前。
其中,相关性系数是指对相关性表现进行体现的数字化表现,线性表现是指变量之间存在一次方函数关系,即特征和购买行为标签存在一次方函数关系,非线性表现是指特征和购买行为标签既不是正比例也不是反比例的情形。
具体的,可采用最大互信息系数(Maximal Information Coefficient,MIC)进行特征与购买行为标签之间的相关性表现构建,MIC的计算分为以下三个步骤:首先,对特征值与购买行为标签构成的散点图进行i行j列的网格化,并求出最大互信息值;然后对最大互信息值进行归一化,最后选取不同i和j的的尺度网格下互信息的最大值作为MIC值。也就是说,MIC是把两个变量之间的关系离散在二维空间,通过散点图和网格化的思想,计算散点在各个方格中落入的情况,这就是联合概率的计算。
Figure BDA0002238019210000061
其中,x和y表示特征和购买行为标签的相对应值,a,b是在x和y方向上的网格的个数,B是经验值,一般取数据总量的0.6或者0.55次方。I(x,y)表示最大互信息,可通过如下公式进行计算:
Figure BDA0002238019210000062
其中,p(x,y)当前是特征和购买行为标签的联合概率密度函数,而p(x)和p(y)分别是特征和购买行为标签的边缘概率密度函数。
使用MIC对特征与购买行为标签之间的相关性表现进行构建,可以更好地在特征样本量充足的情况下捕获更多关联关系,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),也就是说MIC能够均衡覆盖特征与购买行为标签之间所有的函数关系,有利于通过MIC值对特征进行筛选,使得筛选结果更加准确,避免遗漏关联关系不明显的特征,筛选掉真正无关的特征,提高特征重要性排序的效率。
步骤103、根据样本对象的至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
其中,特征排序模型是指利用机器学习算法对特征值与购买行为标签进行训练得到的模型,模型输出结果为特征的重要性评分,即该特征对购买行为标签的影响程度,重要性评分值越大,影响程度越深。根据模型输出的重要性评分获取特征的重要性排序结果,可选的,将特征按照其对应的重要性评分值的大小进行从大到小的排序,得到的排序结果即为特征重要性从大到小的排序结果。
具体的,将样本对象按照一定的比例划分训练集和测试集,如8:2的比例,其中,训练集用于训练模型,测试集用于检验模型预测效果。将训练集样本对象和其对应的特征数据构成的特征矩阵作为模型训练的输入矩阵,以y={1,0}={意外险购买客户,非意外险购买客户}为输出向量。利用XGBoost算法进行训练,XGBoost算法是由一系列决策树作为基学习器组合而成的强学习器,在模型前一轮的预测结果基础上,对预测的误差进行学习,从而提升模型的预测精确度。
在训练过程中,模型在在进行第t轮学习时,需要最小化目标函数
Figure BDA0002238019210000071
其中yi为真实值,
Figure BDA0002238019210000072
为第t轮学习后得到的预测值,目标函数的前一部分为损失函数,后一部分为约束模型复杂度的惩罚函数。并且在单个决策树中通过每个特征划分点改进性能度量的增量来计算特征重要性。在每个节点上,历遍特征所有可能的划分点,根据划分前后目标函数的变化量
Figure BDA0002238019210000073
来决定是否对该节点进行划分以及最优的划分点,其中GL是切分点左区域对应的gi之和,HL是切分点左区域对应的hi之和,GR、HR同理。
Figure BDA0002238019210000081
可选的,可以根据划分后目标函数的变化量来衡量特征对模型的贡献程度,特征越多地被用于增强决策树构造的关键决策,则该特征的重要度得分就越高。不断地递归调用上述划分过程,最终得到一个较好的树结构。综合每棵树的预测结果作为模型最终的输出结果。
可选的,利用测试集对由训练集得到的模型预测效果进行检验的具体方法如下所示:首先,统计测试集正样本中输出结果为1的样本个数TP、正样本中输出结果为0的样本个数FN、负样本中输出结果为1的样本个数FP、负样本中输出结果为0的样本个数TN。然后,分别计算精准率、召回率、准确率及F1值(F1-score),具体计算公式如下:精确率
Figure BDA0002238019210000082
召回率
Figure BDA0002238019210000083
Figure BDA0002238019210000084
准确率并绘制接受者操作特性曲线(Receiver Operating Characteristic curve,ROC曲线),根据曲线计算AUC值,即ROC曲线右下方面积;AUC(Area Under Curve)值越大,模型的预测效果越好。最后,通过不断调整XGBoost算法中的学习率、决策树数量等参数,计算评价指标精准率、召回率、准确率及F1值,选取预测效果最优的参数。可选的,还可以通过不断调整正负样本比例、训练集测试集比例,计算评价指标,选取最优的正负样本比例及训练集测试集比例,确定模型输出结果和特征重要性评分。
本发明实施例基于对样本对象的特征及购买行为标签的确认,并判断特征与购买行为标签的相关性,根据需要选择相关性高的特征作为训练特征排序模型的输入特征,特征排序模型的输出即为对样本对象特征的重要性评分,根据评分对特征重要性进行排序。由于特征排序模型训练的输入特征考虑了特征与购买行为标签的相关性,所以提高了特征排序模型输出结果的准确性,从而构建的购买客群画像精准性提高。
实施例二
图2是本发明实施例二中的特征重要性排序方法的流程图,本实施例二在实施例一的基础上进行进一步地优化。如图2所示,所述方法包括:
步骤201、确定样本对象的特征以及样本对象的购买行为标签。
可选的,确定样本对象的特征以及样本对象的购买行为标签,还包括:
对所述样本对象的特征进行预处理操作,得到预处理后的样本对象的特征;其中,预处理操作至少包括缺失值处理和/或异常值处理。
其中,预处理操作是指对获取到的样本对象的特征数据进行初步处理,处理操作至少包括缺失值处理和/或异常值处理。缺失值处理是指对于获取到样本对象的特征数据不完整的情况进行相应的处理。示例性的,针对意外险样本对象的特征数据可分为两种类型进行缺失值处理,一种是连续型特征数据,即该特征数据的具有连续性。如反映对象金融特征、消费行为的特征,例如年龄、资产、投资购买数据等。对于此类连续型特征数据的缺失值选用特定数据进行填补,例如用“0”进行缺失值填补。或者其他特殊特征数据,可以根据实际情况选用均值进行填补,例如月收入可以使用该年龄段的月收入均值进行填补或者根据所在地区最低月工资进行填补。另一种是离散型特征数据,对于离散型特征数据的一般操作是将字符型取值转变为数值型取值,如对婚姻状况、学历、职业等特征按照类别进行转变,可以将缺失值划分为新的类别。可选的,可根据类别编码适应性选取编码值为“0”或“99”或“999”对缺失的离散型特征数据进行填补。
异常值处理是指在每种特征数据中与平均水平偏差较大的特征数据。例如对于特征是年龄的数据,当出现年龄值为110时,则该数据为异常值。可选的,对异常值可按照以下方式进行修正:将每类特征的数据按照从小到大进行排序,取处于前预设阈值和后预设阈值的数据,即下位数和上位数,将前预设阈值的特征数据按下位所处特征数据值进行修正,将后预设阈值的特征数据按上位所处特征数据值进行修正。例如,对于样本对象的资产值来说,所选取对象的资产值按照从小到大的顺序进行排序分别是:500、1000、2000、3000、4000、5000、6000、7000、8000、30000,预设阈值为样本对象总数的十分之一,样本总数为10,则前1个和后一个的样本数据为异常值,需要对前1个和后一个的样本数据进行处理,则处理后的资产值数据分别是1000、1000、2000、3000、4000、5000、6000、7000、8000、8000。可选的,异常值的选取还可以根据特征数据的平均值进行选取,根据求得的平均值设置相应的异常值阈值,将大于异常值阈值的特征数据认定为异常值,示例性的,异常值阈值可以是平均值的三倍。
通过对特征数据进行预处理操作,对异常值和缺失值进行修正和填补,可以提高特征数据的准确性和完整性,进而提高特征重要性排序结果的准确性。
步骤202、确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征。
可选的,确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征,包括:
确定所述预处理后的样本对象的特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的预处理后的样本对象的特征。
具体的,确定进行缺失值和异常值处理之后的样本对象的特征,计算处理后的特征与购买行为标签之间的相关性,选取处理后的特征中预设数量的相关性大的特征。通过对预处理后的特征进行相关性筛选,有助于提高相关性筛选的准确性,避免缺失值和异常值给相关性结果带来不利的影响。
步骤203、根据样本对象的至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
步骤204、对所述特征的重要性排序结果中的特征进行正负相关性判断,从而根据特征的正负相关性分别对特征进行重要性排序。
其中,正负相关性是指特征与购买行为标签的相关性的具体属性,即特征对购买行为标签的影响的正负性。可选的,可以通过散点图观察得到特征对购买行为标签的影响的正负性。
具体的,通过观察特征与购买行为标签构建的散点图观察该特征对购买行为标签的影响关系,若特征值越大,购买行为标签出现的概率越小,则说明该特征对购买行为能力是负影响;若特征值越大,购买行为标签出现的概率越大,则说明该特征对购买行为能力是正影响。判断所有特征的正负相关性后,按照正负相关性将特征进行区别,并分别对正负相关性进行重要性排序,即对正相关的特征单独进行重要性排序,再对负相关的特征单独进行重要性排序。通过对正负相关性的特征分别进行重要性排序,可以对模型输出的结果更加直观地进行解释,便于后续对意外险客群画像进行更加清楚的描述。
可选的,对所述特征的重要性排序结果中的特征进行正负相关性判断,包括:
利用所述特征的重要性排序结果中的特征训练回归模型,得到回归方程,根据回归方程的回归系数的正负来判断特征的正负相关性;其中,若所述回归系数为正数,则对应特征的相关性为正相关;若所述回归系数为负数,则对应特征的相关性为负相关。
具体的,利用套索算法(Least Absolute Shrinkage and Selection Operator,lasso回归)进行回归模型训练,lasso回归可以减少变量的多重共线性的影响,同时它的收缩系数接近0。使用特征排序模型输出的特征重要性排序结果中前20的特征作为回归模型的输入变量,再运用lasso回归建立模型,lasso回归由简单的线性回归模型增加一个带有l1先验的正则项,其最小目标函数转换为:
Figure BDA0002238019210000121
其中,α是一个常数,||w||1是参数向量的l1-norm范数,通过坐标下降法求解得到使目标函数达到全局最小的
Figure BDA0002238019210000122
通过上述得到特征的回归系数和回归方程,根据回归方程计算样本对象的购买行为标签的预测值,根据回归系数的正负可以判定特征对于购买行为标签的正负影响,并且根据预测值估计客户的购买概率。通过lasso回归对特征的正负影响和购买概率进行计算,可以更好地为特征重要性排序的结果进行直观的说明,并且可以根据特征的正负相关性以及特征的重要性排序结果选取相应的符合要求的特征进行构建购买客群画像,使得画像的描述更加准确,针对性增强。
本发明实施例在根据特征排序模型得到的特征重要性排序结果的基础上,对特征进行正负相关性判断,根据正负相关性可以得到特征对购买行为标签的正负影响,使得对特征重要性排序可以更好地解释。正负相关性结合特征重要性排序结果可以更清楚地了解特征对购买行为标签的影响,提高构建购买客群画像的准确性。
实施例三
图3是本发明实施例三中的特征重要性排序装置的结构示意图,本实施例可适用于确定样本对象特征对购买行为标签影响的重要性排序,从而根据特征重要性排序构建购买客群画像的情况。如图3所示,该装置包括:
特征及标签确定模块310,用于确定样本对象的特征以及样本对象的购买行为标签;
特征筛选模块320,用于确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
特征重要性排序模块330,用于根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
本发明实施例基于对样本对象的特征及购买行为标签的确认,并判断特征与购买行为标签的相关性,根据需要选择相关性高的特征作为训练特征排序模型的输入特征,特征排序模型的输出即为对样本对象特征的重要性评分,根据评分对特征重要性进行排序。由于特征排序模型训练的输入特征考虑了特征与购买行为标签的相关性,所以提高了特征排序模型输出结果的准确性,从而构建的购买客群画像精准性提高。
可选的,所述装置还包括:
正负相关性判断模块,用于对所述特征的重要性排序结果中的特征进行正负相关性判断,从而根据特征的正负相关性分别对特征进行重要性排序。
可选的,所述正负相关性判断模块中执行对所述特征的重要性排序结果中的特征进行正负相关性判断操作,具体包括:
利用所述特征的重要性排序结果中的特征训练回归模型,得到回归方程,根据回归方程的回归系数的正负来判断特征的正负相关性;其中,若所述回归系数为正数,则对应特征的相关性为正相关;若所述回归系数为负数,则对应特征的相关性为负相关。
可选的,所述特征筛选模块320,具体用于:
构建特征与购买行为标签之间的相关性表现,获取相关性系数;其中,所述相关性表现包括线性表现和非线性表现;
根据所述相关性系数从所述特征中筛选出所述相关性系数满足预设条件的目标特征;其中,预设条件包括相关性系数达到预设相关阈值,或者,将所述特征按照相关性系数从大到小进行排序后,排序在预设顺序以前。
可选的,所述特征及标签确定模块310,还包括:
特征预处理单元,用于对所述样本对象的特征进行预处理操作,得到预处理后的样本对象的特征;其中,预处理操作至少包括缺失值处理和/或异常值处理,
相应的,所述特征筛选模块320,具体用于:
确定所述预处理后的样本对象的特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的预处理后的样本对象的特征。
本发明实施例所提供的特征重要性排序装置可执行本发明任意实施例所提供的特征重要性排序方法,具备执行特征重要性排序方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储装置28,连接不同系统组件(包括系统存储装置28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储装置28可以包括易失性存储装置形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储装置32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储装置28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储装置28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储装置28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的特征重要性排序方法,包括:
确定样本对象的特征以及样本对象的购买行为标签;
确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的特征重要性排序方法,包括:
确定样本对象的特征以及样本对象的购买行为标签;
确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种特征重要性排序方法,其特征在于,包括:
确定样本对象的特征以及样本对象的购买行为标签;
确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
2.根据权利要求1所述的方法,其特征在于,在得到至少两个待排序的特征的重要性排序结果之后,所述方法还包括:
对所述特征的重要性排序结果中的特征进行正负相关性判断,从而根据特征的正负相关性分别对特征进行重要性排序。
3.根据权利要求2所述的方法,其特征在于,对所述特征的重要性排序结果中的特征进行正负相关性判断,包括:
利用所述特征的重要性排序结果中的特征训练回归模型,得到回归方程,根据回归方程的回归系数的正负来判断特征的正负相关性;其中,若所述回归系数为正数,则对应特征的相关性为正相关;若所述回归系数为负数,则对应特征的相关性为负相关。
4.根据权利要求1所述的方法,其特征在于,确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征,包括:
构建特征与购买行为标签之间的相关性表现,获取相关性系数;其中,所述相关性表现包括线性表现和非线性表现;
根据所述相关性系数从所述特征中筛选出所述相关性系数满足预设条件的目标特征;其中,预设条件包括相关性系数达到预设相关阈值,或者,将所述特征按照相关性系数从大到小进行排序后,排序在预设顺序以前。
5.根据权利要求1所述的方法,其特征在于,确定样本对象的特征以及样本对象的购买行为标签,还包括:
对所述样本对象的特征进行预处理操作,得到预处理后的样本对象的特征;其中,预处理操作至少包括缺失值处理和/或异常值处理,
相应的,确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征,包括:
确定所述预处理后的样本对象的特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的预处理后的样本对象的特征。
6.一种特征重要性排序装置,其特征在于,包括:
特征及标签确定模块,用于确定样本对象的特征以及样本对象的购买行为标签;
特征筛选模块,用于确定所述特征与购买行为标签的相关性,并根据所述相关性筛选出至少两个待排序的特征;
特征重要性排序模块,用于根据样本对象的所述至少两个待排序的特征得到特征排序模型,并依据特征排序模型得到至少两个待排序的特征的重要性排序结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
正负相关性判断模块,用于对所述特征的重要性排序结果中的特征进行正负相关性判断,从而根据特征的正负相关性分别对特征进行重要性排序。
8.根据权利要求7所述的装置,其特征在于,所述特征筛选模块,具体用于:
构建特征与购买行为标签之间的相关性表现,获取相关性系数;其中,所述相关性表现包括线性表现和非线性表现;
根据所述相关性系数从所述特征中筛选出所述相关性系数满足预设条件的目标特征;其中,预设条件包括相关性系数达到预设相关阈值,或者,将所述特征按照相关性系数从大到小进行排序后,排序在预设顺序以前。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的特征重要性排序方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的特征重要性排序方法。
CN201910990220.6A 2019-10-17 2019-10-17 一种特征重要性排序方法、装置、设备和存储介质 Pending CN110738527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990220.6A CN110738527A (zh) 2019-10-17 2019-10-17 一种特征重要性排序方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990220.6A CN110738527A (zh) 2019-10-17 2019-10-17 一种特征重要性排序方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110738527A true CN110738527A (zh) 2020-01-31

Family

ID=69270092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990220.6A Pending CN110738527A (zh) 2019-10-17 2019-10-17 一种特征重要性排序方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110738527A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401041A (zh) * 2020-03-23 2020-07-10 北京奇艺世纪科技有限公司 一种问题预测方法、装置、电子设备及存储介质
CN112200667A (zh) * 2020-11-30 2021-01-08 上海冰鉴信息科技有限公司 一种数据处理方法、装置及计算机设备
CN113177613A (zh) * 2021-05-25 2021-07-27 中国工商银行股份有限公司 系统资源数据分配方法及装置
CN113361482A (zh) * 2021-07-07 2021-09-07 南方科技大学 核性白内障识别方法、装置、电子设备以及存储介质
CN113595999A (zh) * 2021-07-15 2021-11-02 北京淇瑀信息科技有限公司 基于单向特征筛选的用户设备认证方法、装置及电子设备
CN113780481A (zh) * 2021-11-11 2021-12-10 中国南方电网有限责任公司超高压输电公司广州局 电力设备的监控方法、装置、计算机设备和存储介质
CN114003724A (zh) * 2021-12-30 2022-02-01 北京云迹科技有限公司 一种样本筛选方法、装置及电子设备
CN114139657A (zh) * 2022-02-07 2022-03-04 深圳索信达数据技术有限公司 客群画像生成方法、装置、电子设备和储存介质
CN114219307A (zh) * 2021-12-16 2022-03-22 中国建设银行股份有限公司 产品确定方法、装置、设备及计算机存储介质
CN114565030A (zh) * 2022-02-17 2022-05-31 北京百度网讯科技有限公司 特征筛选方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294131A (zh) * 2016-07-26 2017-01-04 南京航空航天大学 一种蕴含相关性特征面向系统测试用的仿真流式大数据生成方法
CN107392644A (zh) * 2017-06-19 2017-11-24 华南理工大学 一种商品购买预测建模方法
CN107578332A (zh) * 2017-09-22 2018-01-12 深圳乐信软件技术有限公司 一种推荐现金商品的方法、装置、设备及存储介质
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN109767308A (zh) * 2018-11-30 2019-05-17 连连银通电子支付有限公司 金融欺诈检测中时间与成本特征选择方法、设备、介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294131A (zh) * 2016-07-26 2017-01-04 南京航空航天大学 一种蕴含相关性特征面向系统测试用的仿真流式大数据生成方法
CN107392644A (zh) * 2017-06-19 2017-11-24 华南理工大学 一种商品购买预测建模方法
CN107578332A (zh) * 2017-09-22 2018-01-12 深圳乐信软件技术有限公司 一种推荐现金商品的方法、装置、设备及存储介质
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN109767308A (zh) * 2018-11-30 2019-05-17 连连银通电子支付有限公司 金融欺诈检测中时间与成本特征选择方法、设备、介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401041A (zh) * 2020-03-23 2020-07-10 北京奇艺世纪科技有限公司 一种问题预测方法、装置、电子设备及存储介质
CN112200667A (zh) * 2020-11-30 2021-01-08 上海冰鉴信息科技有限公司 一种数据处理方法、装置及计算机设备
US11367019B1 (en) 2020-11-30 2022-06-21 Shanghai Icekredit, Inc. Data processing method and apparatus, and computer device
CN113177613A (zh) * 2021-05-25 2021-07-27 中国工商银行股份有限公司 系统资源数据分配方法及装置
CN113361482A (zh) * 2021-07-07 2021-09-07 南方科技大学 核性白内障识别方法、装置、电子设备以及存储介质
CN113595999A (zh) * 2021-07-15 2021-11-02 北京淇瑀信息科技有限公司 基于单向特征筛选的用户设备认证方法、装置及电子设备
CN113595999B (zh) * 2021-07-15 2023-02-03 北京淇瑀信息科技有限公司 基于单向特征筛选的用户设备认证方法、装置及电子设备
CN113780481B (zh) * 2021-11-11 2022-04-08 中国南方电网有限责任公司超高压输电公司广州局 电力设备的监控方法、装置、计算机设备和存储介质
CN113780481A (zh) * 2021-11-11 2021-12-10 中国南方电网有限责任公司超高压输电公司广州局 电力设备的监控方法、装置、计算机设备和存储介质
CN114219307A (zh) * 2021-12-16 2022-03-22 中国建设银行股份有限公司 产品确定方法、装置、设备及计算机存储介质
CN114003724A (zh) * 2021-12-30 2022-02-01 北京云迹科技有限公司 一种样本筛选方法、装置及电子设备
CN114139657A (zh) * 2022-02-07 2022-03-04 深圳索信达数据技术有限公司 客群画像生成方法、装置、电子设备和储存介质
CN114139657B (zh) * 2022-02-07 2022-04-26 深圳索信达数据技术有限公司 客群画像生成方法、装置、电子设备和储存介质
CN114565030A (zh) * 2022-02-17 2022-05-31 北京百度网讯科技有限公司 特征筛选方法、装置、电子设备和存储介质
CN114565030B (zh) * 2022-02-17 2022-12-20 北京百度网讯科技有限公司 特征筛选方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110738527A (zh) 一种特征重要性排序方法、装置、设备和存储介质
CN108564286B (zh) 一种基于大数据征信的人工智能金融风控授信评定方法和系统
McCarthy et al. Applying predictive analytics
CN106095942B (zh) 强变量提取方法及装置
US10614073B2 (en) System and method for using data incident based modeling and prediction
US20220343433A1 (en) System and method that rank businesses in environmental, social and governance (esg)
US10248974B2 (en) Assessing probability of winning an in-flight deal for different price points
US7124054B2 (en) System and method for mining model accuracy display
CN111738331A (zh) 用户分类方法及装置、计算机可读存储介质、电子设备
US11995667B2 (en) Systems and methods for business analytics model scoring and selection
Lipyanina et al. Assessing the investment risk of virtual IT company based on machine learning
CN111179051A (zh) 金融目标客户确定方法、装置及电子设备
CN113313538A (zh) 用户消费能力预测方法、装置、电子设备和存储介质
Al-Rawahnaa et al. Data mining for Education Sector, a proposed concept
CN117934154A (zh) 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品
CN111815435A (zh) 一种群体风险特征的可视化方法、装置、设备及存储介质
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
WO2022271431A1 (en) System and method that rank businesses in environmental, social and governance (esg)
KR102499182B1 (ko) 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113870007A (zh) 一种产品推荐方法、装置、设备及介质
Rodpysh Model to predict the behavior of customers churn at the industry
Gupta et al. Risks in supply chain management and its mitigation
Mahalle et al. Data Acquisition and Preparation
US20200051175A1 (en) Method and System for Predicting and Indexing Probability of Financial Stress

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220915

Address after: 12 / F, 15 / F, 99 Yincheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant after: Jianxin Financial Science and Technology Co.,Ltd.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131

RJ01 Rejection of invention patent application after publication