CN111626821B - 基于集成特征选择实现客户分类的产品推荐方法及系统 - Google Patents

基于集成特征选择实现客户分类的产品推荐方法及系统 Download PDF

Info

Publication number
CN111626821B
CN111626821B CN202010453817.XA CN202010453817A CN111626821B CN 111626821 B CN111626821 B CN 111626821B CN 202010453817 A CN202010453817 A CN 202010453817A CN 111626821 B CN111626821 B CN 111626821B
Authority
CN
China
Prior art keywords
feature
data
recommended
index
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010453817.XA
Other languages
English (en)
Other versions
CN111626821A (zh
Inventor
魏莹
邓媛洁
李玉军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010453817.XA priority Critical patent/CN111626821B/zh
Publication of CN111626821A publication Critical patent/CN111626821A/zh
Application granted granted Critical
Publication of CN111626821B publication Critical patent/CN111626821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本公开公开了基于集成特征选择实现客户分类的产品推荐方法及系统,包括:获取待推荐客户的历史产品购买数据;对待推荐客户的历史产品购买数据进行预处理;对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品。

Description

基于集成特征选择实现客户分类的产品推荐方法及系统
技术领域
本公开涉及人工智能技术领域,特别是涉及基于集成特征选择实现客户分类的产品推荐方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
随着经济的不断发展,各商业银行的信用业务在逐渐增加,对客户进行风险评估或评分是每个金融机构和银行的重要过程。通过有效的风险评估,可以很大程度上降低银行承担的金融风险。评估过程可根据客户的个人信息和银行业务记录等对其进行客观的风险分类,分类的高准确性有助于降低银行金融业务过程中的风险,同时,高准确度的客户分类,能够在推送适合客户的信贷业务方面为银行提供决策依据。
评估分类需要通过对每个客户的多维特征进行分析,因此特征选择是影响评估效率和准确率的关键部分。选择对分类较好的特征和适当的维数是特征选择的主要目的。
目前主流的特征选择方法主要包括三种:过滤式特征选择、封装式特征选择和嵌入式特征选择。
过滤式特征选择的主要思想是对每一维的特征“打分”,即给每一维的特征赋予代表着重要性大小的权重,然后依据权重排序。此种方法较简单,但选择特征的标准较单一,只能从一个维度上去衡量特征。
封装式特征选择方法的主要思想是将特征选择看作是一个搜索寻优问题,生成不同的特征组合,对特征组合进行评价,再与其他特征组合进行比较,因此计算量和时间消耗较大,选择过程较繁琐。
嵌入式特征选择方法是在模型既定的情况下学习出对提高模型准确率最好的特征,常见的方法是加入正则化等,此种方法一般应用于决策树算法的模型中。
传统的产品推送方法没有针对性,对所有客户推送同样的产品,这样比较盲目,不能实现很好的产品推广,会出现一些无意义的数据推送,严重影响客户的体验。
发明内容
为了解决现有技术的不足,本公开提供了基于集成特征选择实现客户分类的产品推荐方法及系统;一方面对单一特征的类间数据进行分析,另一方面评估多维特征对分类的贡献,为提高预测的准确率选择更优的特征子集。
第一方面,本公开提供了基于集成特征选择实现客户分类的产品推荐方法;
基于集成特征选择实现客户分类的产品推荐方法,包括:
获取待推荐客户的历史产品购买数据;
对待推荐客户的历史产品购买数据进行预处理;
对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;
将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;
将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品。
第二方面,本公开提供了基于集成特征选择实现客户分类的产品推荐系统;
基于集成特征选择实现客户分类的产品推荐系统,包括:
获取模块,其被配置为:获取待推荐客户的历史产品购买数据;
预处理模块,其被配置为:对待推荐客户的历史产品购买数据进行预处理;
特征选择模块,其被配置为:对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;
第一输出模块,其被配置为:将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;
第二输出模块,其被配置为:将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品。
第三方面,本公开还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本公开还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本公开的有益效果是:
本公开通过数据预处理方法对客户数据进行数据转换、异常值检测删除和数据归一化处理,为客户特征提取做好铺垫;
本公开通过集成特征选择,对预处理后的客户数据进行特征选择,使特征选择的结果更加准确;
本公开通过产品推荐和客户特征选择数据相结合,实现客户感兴趣产品的个性化推荐;
本公开增加了多维特征信息的数据预处理过程,将偏态的定量指标的数据转换成符合正态分布的数据,检测并剔除了异常值,降低了噪声对数据特性和分类器的影响。
本公开提出了一种集成特征选择方法,基于核密度估计,分析了单一特征的类间数据分布,从多个维度综合选择了用于分类的特征子集,可以在减少计算量的同时保证了特征选择的有效性和可靠性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开提出的基于集成特征选择的风险评估方法的流程示意图;
图2是本公开提出的集成特征选择方法的流程示意图;
图3(a)-图3(n)是本公开实施例一中信贷审批数据样本中各个特征的核密度估计曲线;
图4(a)-图4(f)是本公开实施例一中信贷审批数据样本中异常值的检测示意图;
图5(a)-图5(n)是本公开实施例一中信贷审批数据样本经预处理之后各个特征的核密度估计曲线;
图6是本公开实施例一中信贷审批数据样本中各个特征选择指标的分数排序;
图7是本公开实施例一中信贷审批数据样本中的集成特征选择方法的分数排序。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于集成特征选择实现客户分类的产品推荐方法;
如图1所示,基于集成特征选择实现客户分类的产品推荐方法,包括:
S101:获取待推荐客户的历史产品购买数据;
S102:对待推荐客户的历史产品购买数据进行预处理;
S103:对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;
S104:将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;
S105:将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品。
作为一个或多个实施例,所述S101中,获取待推荐客户的历史产品购买数据;历史产品购买数据包括:每一种类产品的购买次数、每一种类产品的购买时间、每一种类产品的购买频率、每一种类产品的浏览次数或每一种类产品的浏览时长、现有账户状态、信用历史、贷款目的、贷款金额、就业情况、婚姻/家庭情况、年龄、房屋或工作。
作为一个或多个实施例,所述S102中,对待推荐客户的历史产品购买数据进行预处理;具体步骤包括:
S1021:对待推荐客户的历史产品购买数据进行数据转换;
S1022:对经过数据转换后的数据,进行异常值的检测和删除;
S1023:对异常值检测和删除后的数据,进行归一化处理。
应理解的,采集客户的多维特征数据,对数据集进行预处理。预处理是进行分类的前提和重要的一步,会直接影响到评估分类的准确率。在本公开中数据集的预处理包括数据转换、异常值的检测和删除、数据归一化。数据集中包含类别型特征和数值型特征。类别特征指该特征数据是定性的,表现为互不相容的类别或属性,而数值型特征数据是具有取值分布的,因此我们针对数据集中的数值型特征进行数据分布的转换和异常值检测,最后对所有特征进行线性归一化。
作为一个或多个实施例,所述S1021中,对待推荐客户的历史产品购买数据进行数据转换;具体步骤包括:
对待推荐客户的历史产品购买数据中每一维数值型特征,计算其偏度值;
如果偏度值大于设定阈值,则对特征进行变换,以改善数据的正态性。
进一步地,对特征进行变换,以改善数据的正态性,具体是采用Box-Cox变换来完成。
示例性地,数据转换具体包括:针对数据集中每一维数值型特征,计算其偏度值,即表征概率分布密度曲线相对于平均值不对称程度的特征数。偏度计算公式为其中μ和σ分别是特征X的均值和标准方差,x是该特征下的取值。如果偏度较大说明基于该特征下的数据分布是非正态分布,趋于正偏态或负偏态,这可能会影响分类的效果。Box-Cox变换用于连续变量不满足正态分布的情况,采用Box-Cox变换后可以改善数据的正态性,在一定程度上可以减小不可观测的误差和预测变量之间的相关性。变换公式为:
式中y(λ)为经Box-Cox变换后得到的新变量,y为原始连续因变量,λ为变换参数。
示例性地,对经过数据转换后的数据集进行异常值的检测和删除,具体包括:以每个特征数据的四分位数和四分位距为基础进行异常值检测,借助箱线图可视化异常值。相比于3σ规则和Z-score方法,四分位数具有一定的耐抗性,异常值不会影响箱形图的数据形状,因此通过箱线图识别异常值的结果比较客观。数据样本容量为n,计算每个特征下的中位数Q2,上四分位数和下四分位数/>下限为Q1-1.5*(Q3-Q1),上限为Q3+1.5*(Q3-Q1),超过上下限的数值即为异常值。检测出异常值后删除,再进行线性归一化得到预处理后的数据集。
作为一个或多个实施例,所述S103中对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;具体步骤包括:
对预处理后的数据,基于四个指标进行特征选择,综合分析四个指标实际值,当某个预处理后的数据特征的四个指标实际值均达到对应指标的最优值时,当前特征即为被选择出来的特征。
进一步地,所述指标实际值达到指标最优值,通过指标实际值与指标最优值之间的欧式距离来计算,距离越小,则特征分数越高,特征排序越靠前。
进一步地,对预处理后的数据,基于四个指标进行特征选择,所述四个指标包括:
指标一:每个特征的误分类概率;
指标二:同一个特征下,不同类别数据的相关性;
指标三:各个特征和标签数据的相关性;
指标四:各个特征对标签数据的信息增益。
进一步地,所述指标一:每个特征的误分类概率的计算过程为:
计算数据集的每个特征中两类样本的核密度估计值,计算同一个特征下两条概率密度函数的曲线重叠面积,重叠面积即为误分类概率。
进一步地,所述指标二:同一个特征下,不同类别数据的相关性;计算过程为:
计算单个特征下两个类别的核密度估计值;
计算里两个类别的和密度估计值的相关性,即为同一个特征下,不同类别数据的相关性。
示例性地,如图2所示,对预处理后的数据集进行特征选择,采用本公开公开的集成特征选择方法。
具体包括:对于预处理后的各个特征维度数据,基于高斯核函数进行核密度估计,计算每个特征的误分类概率作为指标一;计算同一特征下,不同类别数据的相关性作为指标二;计算各个特征和标签数据的相关性作为指标三;计算各个特征对标签数据的信息增益作为指标四;综合分析四个指标,当每个指标都取较优值时该特征即为较好的特征,因此引入欧氏距离,计算每个特征的指标取值和最优值的距离,距离越小则特征分数越高,选择排名在前的特征作为特征子集。
首先对数据集各个维度特征的不同类别进行核密度估计,具体步骤如下:由于采集的客户多维特征数据是未知的数据分布,因此采用非参数估计方法,对数据分布不附加任何假定,即从数据样本本身出发研究数据分布特征。核密度估计是通过核函数将每个数据点的数据和带宽当作核函数的参数,得到N个核函数,再线性叠加就形成了核密度的估计函数,归一化后得到核密度概率密度函数。
概率密度估计函数的公式为:
其中h>0为一个平滑参数,称作带宽(bandwidth)或窗口。xi是数据集中某一特征下某一类别的每个观测样本点,为缩放核函数(scaled Kernel)。在本公开中,我们采用的高斯核函数为:/>则最终对数据集进行核密度估计的公式为:
计算每个特征的误分类概率作为指标一,记为S,具体步骤包括:由上述核密度估计方法所得的,将数据集的每个特征中的两类样本做单变量的核密度估计,计算同一特征下两条概率密度函数的曲线重叠面积S,我们认为S是两类样本被误分的概率,概率越大,特征的区分性就越差。
计算同一特征下,不同类别数据的相关性作为指标二,记为P0,1,具体步骤包括:由上述核密度估计方法所得的,单个特征下两个类别的核密度估计,即数据分布,计算两类数据分布之间的相关性,相关性越大,说明该特征下的类别区分越不明显,越不利于分类器的分类。相关性用皮尔逊相关系数来度量,计算公式如下:
其中f0,i和f1,i分别表示在同一个特征下样本数据集标签为0和标签为1的核密度估计取值,和/>表示f0,i和f1,i的均值,n是样本数量。
计算各个特征和标签数据的相关性作为指标三,记为r,具体步骤包括:计算每个特征关于分类标签的相关系数。特征和标签的相关性越大,说明特征越有利于分类。计算方法如下:
此时Xi和Yi表示在一个特征下样本数据集的特征取值和标签取值,和/>表示Xi和Yi的均值。
计算各个特征对标签数据的信息增益作为指标四,记为IG,具体步骤包括:信息增益描述的是得知特征X的信息使得类Y的信息不确定性减少的程度。数值越大说明提供的信息越多,特征相对更重要。假设数据集类别数为K,样本数为S,第k个类中有Sk个样本。其中特征f中有m个不同取值,每种取值都对应一个样本集合Sj,j最大取值为m,其中Sj,k是Sj中第k个类的样本个数。对于特征f计算信息增益的步骤如下:数据集的信息熵特征f的条件熵:/>则该特征的信息增益为:IG(f)=H(S1,S2,...SK)-E(f)。
根据上述四个指标,计算最终特征分数的排序,具体步骤包括:在四个指标中,S、P0,1和r的最大值是1。其中S取值越小表示该特征误分类的概率越小,则该特征的性能越好;P0,1取值越小表示该特征的不同数据类型的差异越大,该特征性能越好;r取值越小表示特征和标签之间的相关性越大,则该特征对分类的贡献越大。IG表示特征给类别标签提供多少信息,取值越大越好,但最大值不是1。根据四个指标的不同取值特性,为统一判别标准,我们进一步处理S、P0,1和IG,使它们标准化到(0,1)的范围。基于这四个指标,我们建立了一个四维坐标系,每个维度代表一个指标,所有特征都分布在这个坐标系的不同点上。点(1,1,1,1)是特征最重要的理想值。每个点与(1,1,1,1)之间的距离是基于欧几里德距离计算的。特征点和理想值越近,它们所代表的特征就越重要。我们将计算所得的距离值取倒数作为基于欧氏距离的集成特征选择方法得到的特征得分,最后将得分进行排序,组合排名靠前(前60%)的特征形成用于分类的特征子集。
作为一个或多个实施例,所述S104中,将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;其中第一神经网络的训练过程包括:
构建第一神经网络模型;
构建第一训练集;所述第一训练集,包括:已知不同客户类别标签的客户历史购物特征;
将训练集输入到神经网络模型中,对神经网络模型进行训练,当神经网络的损失函数达到最小值时,停止训练,得到训练好的神经网络模型。
示例性地,将选择的特征子集送入BP(back propagation)神经网络中,进行评估分类。具体步骤包括:按照十倍交叉验证的规则将特征选择后的数据集分割成训练集和测试集,BP神经网络包括输入层、隐藏层和输出层,sigmoid激活函数用于计算隐藏层神经元的输出。为了调整权重和偏差,我们使用弹性反向传播(RPROP)算法,将隐藏层神经元个数作为一个超参数,在神经网络训练过程中根据准确率选择最优的隐藏层单元数。
作为一个或多个实施例,所述S105中,将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品;其中,预训练的第二神经网络模型的训练步骤包括:
构建第二神经网络模型;
构建第二训练集;所述第二训练集,包括:已知不同类别客户的推荐产品名称;
将训练集输入到神经网络模型中,对神经网络模型进行训练,当神经网络的损失函数达到最小值时,停止训练,得到训练好的神经网络模型。
风险评估是目前金融业务和商业银行业务普遍且重要的一项工作。实施例1中,本公开公开的一种基于集成特征选择的风险评估方法在UCI网站的澳大利亚信贷审批数据集上进行了验证。该信贷审批数据集中的样本大小为690,总共有14个特征和1个标签项,其中标签为0的样本数是383,表示信用较好的客户;标签为1的样本数是307,表示信用不好的客户。数据集的详细描述如下表所示:
表1数据集描述
在进行分类之前,我们通过python语言绘制出每一特征下不同类别数据的核密度估计曲线,以和预处理后的数据集进行对照,如图3(a)-图3(n)所示。
首先进行数据集的预处理。预处理过程包括数据转换、异常值的检测和删除、数据归一化。在澳大利亚信贷审批数据集中包含8个类别型特征和6个数值型特征。针对数据集中每一维数值型特征,计算其偏度值。偏度计算公式为其中μ和σ分别是X的均值和标准方差。如果偏度较大说明基于该特征下的数据分布是非正态分布,趋于正偏态或负偏态,这可能会影响分类的效果。该数据集中6个特征的计算结果如下表所示:
表2偏度值
由表2可发现,该数据样本中的6个特征存在偏度较大的情况,这可能会对数据特性分布和分类器产生影响,因为我们对其进行数据转换。采用Box-Cox变换后可以改善数据的正态性,在一定程度可以上减小不可观测的误差和预测变量之间的相关性。变换公式为:
式中y(λ)为经Box-Cox变换后得到的新变量,y为原始连续因变量,λ为变换参数。
对经过数据转换后的6个特征数据进行异常值的检测和删除。以每个特征数据的四分位数和四分位距为基础进行异常值检测,我们通过箱线图对异常值进行可视化,如图4(a)-图4(f)所示,删除特征12中的6个异常值。对584个样本进行线性归一化构成预处理后的数据集。
对于预处理后的各个特征维度数据,基于高斯核函数进行核密度估计,计算每个特征的误分类概率作为指标一;计算同一特征下,不同类别数据的相关性作为指标二;计算各个特征和标签数据的相关性作为指标三;计算各个特征对标签数据的信息增益作为指标四;综合分析四个指标,通过计算欧式距离得到最终的特征分数排序,选择排名在前特征组合成特征子集。
首先对澳大利亚信贷审批数据集14个特征的2个类别分别进行核密度估计,我们采用的高斯核函数为:则对数据集进行核密度估计的公式为:
其中h>0为一个平滑参数,称作带宽(bandwidth)或窗口。xi是数据集中某一特征下某一类别的每个观测样本点,为缩放核函数(scaled Kernel)。图5(a)-图5(n)是本公开实施例一中信贷审批数据样本经预处理之后各个特征的核密度估计曲线;
计算每个特征的误分类概率作为指标一,记为S。该数据集中令某一特征的标签为0的核密度估计记为f0,标签为1的核密度估计记为f1,计算同一特征下两条概率密度函数的曲线重叠面积:
我们认为S是该特征下两类样本被误分的概率,概率越大,特征的区分性就越差。
计算同一特征下,不同类别数据的相关性作为指标二,记为P0,1。由上述核密度估计方法所得的,单个特征下两个类别的核密度估计f0、f1,计算两个数据分布之间的相关性,计算公式如下:
其中f0,i和f1,i分别表示在同一个特征下样本数据集标签为0和标签为1的核密度估计取值,和/>表示f0,i和f1,i的均值,n是样本数量。
计算各个特征和标签数据的相关性作为指标三,记为r。计算每个特征关于分类标签的相关系数。计算公式为:
此时Xi和Yi表示在一个特征下样本数据集的特征取值和标签取值,和/>表示Xi和Yi的均值。
计算各个特征对标签数据的信息增益作为指标四,记为IG,信息增益描述的是得知特征X的信息使得类Y的信息不确定性减少的程度。数据集类别数为K=2,样本数S=684,第k个类中有Sk个样本。特征f中有m个不同取值,每种取值都对应一个样本集合Sj,j最大取值为m,其中Sj,k是Sj中第k个类的样本个数。对于特征f计算信息增益的步骤如下:
数据集的信息熵
特征f的条件熵:该特征的信息增益为:IG(f)=H(S1,S2,...SK)-E(f)。
根据上述四个指标,计算最终特征分数的排序。在四个指标中,S、P0,1和r的最大值是1。其中S取值越小表示该特征误分类的概率越小,则特征性能越好;P0,1取值越小表示该特征的不同数据类型的差异越大,该特征性能越好;r取值越小表示特征和标签之间的相关性越大,则该特征对分类的贡献越大。IG表示特征给类别标签提供多少信息,取值越大越好,但最大值不是1。根据四个指标的不同取值特性,为统一判别标准,我们进一步处理S、P0,1和IG,使它们标准化到(0,1)的范围。令:
'
S=1-S
'
P0,1=1-P0,1
每个特征的四个指标得分如图6所示。
基于这四个指标,我们建立一个四维坐标系,每个维度代表一个指标,所有特征都分布在这个坐标系的不同点上。点(1,1,1,1)是特征最重要的理想值。每个点与理想值(1,1,1,1)之间的距离是基于欧几里德距离计算的。特征点和理想值越近,它们所代表的特征就越重要。我们将计算所得的距离值dis取倒数作为基于欧氏距离的集成特征选择方法得到特征得分score,最后将得分排序如图7所示。计算公式为:
组合排名靠前的特征形成用于分类的特征子集。在澳大利亚信贷审批数据集14个特征中,我们选择特征分数较高的前9个特征进行评估分类,分类器为包含一层隐藏层的BP神经网络,将隐藏层神经元个数作为一个超参数,在训练过程中根据准确率选择最优的隐藏层单元数。
为了分析所提出方法的性能,使用如表3所示的混淆矩阵。这是评估分类问题的最常用指标:准确率,精确率,召回率,F1值。准确率Accuracy显示了分类器的预测性能,如果数据集中的一个类存在显着的类不平衡,则该预测性能不足以作为性能度量。本实施例中使用的数据集是二元类数据集,两类分布均衡。召回率R表示灵敏度,精确率P测量被拒绝样本的预测准确度。F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。
表3混淆矩阵
实际为正例 实际为负例
预测为正例 TP FP
预测为负例 FN TN
训练过程中经调试,BP神经网络在隐层节点数目为13时效果最佳,结果如下表所示:
表4隐层节点数=13
由上表可得,对比预处理前后的数据、进行集成特征选择前后的数据,采用本公开提出的数据预处理方法和集成特征选择方法的评估分类准确率更高,更有效。
本公开公开了一种基于集成特征选择的风险评估方法,包括:进行客户数据的预处理,即进行数据转换、异常值的检测和删除;对于预处理后的各个特征维度,进行核密度估计,计算每个特征的误分类概率作为指标一,计算同一特征下,不同类别数据的相关性作为指标二;计算各个特征和标签数据的相关性作为指标三;计算各个特征对标签数据的信息增益作为指标四;综合分析四个指标,通过计算欧式距离得到最终的特征分数排序,选择排名在前特征组合成特征子集,将特征子集送入BP神经网络分类器,得到银行客户的评估分类结果。
实施例二
本实施例提供了基于集成特征选择实现客户分类的产品推荐系统;
基于集成特征选择实现客户分类的产品推荐系统,包括:
获取模块,其被配置为:获取待推荐客户的历史产品购买数据;
预处理模块,其被配置为:对待推荐客户的历史产品购买数据进行预处理;
特征选择模块,其被配置为:对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;
第一输出模块,其被配置为:将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;
第二输出模块,其被配置为:将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品。
此处需要说明的是,上述获取模块、预处理模块、特征选择模块、第一输出模块和第二输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (5)

1.基于集成特征选择实现客户分类的产品推荐方法,其特征是,包括:
获取待推荐客户的历史产品购买数据;
对待推荐客户的历史产品购买数据进行预处理;
对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;
将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;
将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品;
历史产品购买数据包括:每一种类产品的购买次数、每一种类产品的购买时间、每一种类产品的购买频率、每一种类产品的浏览次数或每一种类产品的浏览时长、现有账户状态、信用历史、贷款目的、贷款金额、就业情况、婚姻/家庭情况、年龄、房屋或工作;
对待推荐客户的历史产品购买数据进行预处理的具体步骤包括:
对待推荐客户的历史产品购买数据进行数据转换;
对经过数据转换后的数据,进行异常值的检测和删除;
对异常值检测和删除后的数据,进行归一化处理;
对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征的具体步骤包括:
对预处理后的数据,基于四个指标进行特征选择,综合分析四个指标实际值,当某个预处理后的数据特征的四个指标实际值均达到对应指标的最优值时,当前特征即为被选择出来的特征;
对预处理后的数据,基于四个指标进行特征选择,所述四个指标包括:
指标一:每个特征的误分类概率;
指标二:同一个特征下,不同类别数据的相关性;
指标三:各个特征和标签数据的相关性;
指标四:各个特征对标签数据的信息增益;
所述指标一:每个特征的误分类概率的计算过程为:
计算数据集的每个特征中两类样本的核密度估计值,计算同一个特征下两条概率密度函数的曲线重叠面积,重叠面积即为误分类概率;
所述指标二:同一个特征下,不同类别数据的相关性;计算过程为:
计算单个特征下两个类别的核密度估计值;
计算里两个类别的和密度估计值的相关性,即为同一个特征下,不同类别数据的相关性;
所述每个特征的误分类概率的计算公式为:
f0为标签为0的核密度估计,f1为标签为1的核密度估计;
所述同一个特征下,不同类别数据的相关性的计算公式为:
其中f0,i和f1,i分别表示在同一个特征下样本数据集标签为0和标签为1的核密度估计取值,和/>表示f0,i和f1,i的均值,n是样本数量;
所述各个特征和标签数据的相关性的计算公式为:
Xi和Yi表示在一个特征下样本数据集的特征取值和标签取值,X和Y表示Xi和Yi的均值;
所述各个特征对标签数据的信息增益计算过程为:
计算数据集的信息熵
计算特征的条件熵:
计算特征的信息增益为:IG(f)=H(S1,S2,...SK)-E(f);
K为数据集类别数,S为样本数,Sk为第k个类的样本数,f表示特征,m为特征f中不同取值的总数,Sj为每种取值的样本集合,j为特征f中第j个取值,Sj,k为Sj中第k个类的样本个数;
基于上述四个指标得到特征得分,计算公式为:
其中,S'=1-S,P′0,1=1-P0,1
2.如权利要求1所述的方法,其特征是,对待推荐客户的历史产品购买数据进行数据转换;具体步骤包括:
对待推荐客户的历史产品购买数据中每一维数值型特征,计算其偏度值;
如果偏度值大于设定阈值,则对特征进行变换,以改善数据的正态性。
3.基于集成特征选择实现客户分类的产品推荐系统,其特征是,包括:
获取模块,其被配置为:获取待推荐客户的历史产品购买数据;
预处理模块,其被配置为:对待推荐客户的历史产品购买数据进行预处理;
特征选择模块,其被配置为:对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征;
第一输出模块,其被配置为:将选择的特征,输入到预训练的第一神经网络模型中,输出待推荐客户的类别;
第二输出模块,其被配置为:将待推荐客户的类别,输入到预训练的第二神经网络模型中,输出待推荐客户的推荐产品;
历史产品购买数据包括:每一种类产品的购买次数、每一种类产品的购买时间、每一种类产品的购买频率、每一种类产品的浏览次数或每一种类产品的浏览时长、现有账户状态、信用历史、贷款目的、贷款金额、就业情况、婚姻/家庭情况、年龄、房屋或工作;
对待推荐客户的历史产品购买数据进行预处理的具体步骤包括:
对待推荐客户的历史产品购买数据进行数据转换;
对经过数据转换后的数据,进行异常值的检测和删除;
对异常值检测和删除后的数据,进行归一化处理;
对预处理后的数据基于设定的指标进行特征选择,选择出若干个特征的具体步骤包括:
对预处理后的数据,基于四个指标进行特征选择,综合分析四个指标实际值,当某个预处理后的数据特征的四个指标实际值均达到对应指标的最优值时,当前特征即为被选择出来的特征;
对预处理后的数据,基于四个指标进行特征选择,所述四个指标包括:
指标一:每个特征的误分类概率;
指标二:同一个特征下,不同类别数据的相关性;
指标三:各个特征和标签数据的相关性;
指标四:各个特征对标签数据的信息增益;
所述指标一:每个特征的误分类概率的计算过程为:
计算数据集的每个特征中两类样本的核密度估计值,计算同一个特征下两条概率密度函数的曲线重叠面积,重叠面积即为误分类概率;
所述指标二:同一个特征下,不同类别数据的相关性;计算过程为:
计算单个特征下两个类别的核密度估计值;
计算里两个类别的和密度估计值的相关性,即为同一个特征下,不同类别数据的相关性;
所述每个特征的误分类概率的计算公式为:
f0为标签为0的核密度估计,f1为标签为1的核密度估计;
所述同一个特征下,不同类别数据的相关性的计算公式为:
其中f0,i和f1,i分别表示在同一个特征下样本数据集标签为0和标签为1的核密度估计取值,和/>表示f0,i和f1,i的均值,n是样本数量;
所述各个特征和标签数据的相关性的计算公式为:
Xi和Yi表示在一个特征下样本数据集的特征取值和标签取值,X和Y表示Xi和Yi的均值;
所述各个特征对标签数据的信息增益计算过程为:
计算数据集的信息熵
计算特征的条件熵:
计算特征的信息增益为:IG(f)=H(S1,S2,...SK)-E(f);
K为数据集类别数,S为样本数,Sk为第k个类的样本数,f表示特征,m为特征f中不同取值的总数,Sj为每种取值的样本集合,j为特征f中第j个取值,Sj,k为Sj中第k个类的样本个数;
基于上述四个指标得到特征得分,计算公式为:
其中,S'=1-S,P′0,1=1-P0,1
4.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-2任一项所述的方法。
5.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-2任一项所述的方法。
CN202010453817.XA 2020-05-26 2020-05-26 基于集成特征选择实现客户分类的产品推荐方法及系统 Active CN111626821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010453817.XA CN111626821B (zh) 2020-05-26 2020-05-26 基于集成特征选择实现客户分类的产品推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010453817.XA CN111626821B (zh) 2020-05-26 2020-05-26 基于集成特征选择实现客户分类的产品推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111626821A CN111626821A (zh) 2020-09-04
CN111626821B true CN111626821B (zh) 2024-03-12

Family

ID=72259267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010453817.XA Active CN111626821B (zh) 2020-05-26 2020-05-26 基于集成特征选择实现客户分类的产品推荐方法及系统

Country Status (1)

Country Link
CN (1) CN111626821B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163963B (zh) * 2020-09-27 2024-04-02 中国平安财产保险股份有限公司 业务推荐方法、装置、计算机设备和存储介质
CN112184315A (zh) * 2020-09-29 2021-01-05 深圳市尊信网络科技有限公司 识别异常购彩行为的方法、装置、设备和存储介质
CN112468556B (zh) * 2020-11-16 2022-10-04 深圳壹账通智能科技有限公司 一种服务产品信息的推送方法及装置、计算机设备、介质
CN112667709B (zh) * 2020-12-24 2022-05-03 山东大学 基于Spark的校园卡租借行为检测方法及系统
CN113408626A (zh) * 2021-06-22 2021-09-17 浙江省烟草公司宁波市公司 商户分类方法
CN113962158A (zh) * 2021-10-29 2022-01-21 山东大学 基于改进决策树的压路机施工工艺知识库构建方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412429B1 (en) * 2007-11-15 2008-08-12 International Business Machines Corporation Method for data classification by kernel density shape interpolation of clusters
CN105528374A (zh) * 2014-10-21 2016-04-27 苏宁云商集团股份有限公司 一种电子商务中的商品推荐方法及其系统
CN107403345A (zh) * 2017-09-22 2017-11-28 北京京东尚科信息技术有限公司 畅销商品预测方法及系统、存储介质及电子终端
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法
CN109060860A (zh) * 2018-09-13 2018-12-21 枘熠集成电路(上海)有限公司 一种二次离子质谱分析曲线的比较方法及装置
CN109242631A (zh) * 2018-09-17 2019-01-18 平安科技(深圳)有限公司 产品智能推荐方法、服务器及存储介质
CN109828168A (zh) * 2019-01-31 2019-05-31 福州大学 基于核密度估计的变换器故障诊断方法
CN110135942A (zh) * 2019-04-12 2019-08-16 深圳壹账通智能科技有限公司 产品推荐方法、装置及计算机可读存储介质
CN110458637A (zh) * 2019-06-19 2019-11-15 中国平安财产保险股份有限公司 基于神经网络的产品推送方法、及其相关设备
CN110489642A (zh) * 2019-07-25 2019-11-22 山东大学 基于行为特征分析的商品推荐方法、系统、设备及介质
CN110866043A (zh) * 2019-10-12 2020-03-06 上海上湖信息技术有限公司 数据预处理方法及装置、存储介质、终端
CN110969516A (zh) * 2019-12-25 2020-04-07 清华大学 一种商品推荐方法及装置
CN111080502A (zh) * 2019-12-17 2020-04-28 清华苏州环境创新研究院 一种区域企业数据异常行为的大数据识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412429B1 (en) * 2007-11-15 2008-08-12 International Business Machines Corporation Method for data classification by kernel density shape interpolation of clusters
CN105528374A (zh) * 2014-10-21 2016-04-27 苏宁云商集团股份有限公司 一种电子商务中的商品推荐方法及其系统
CN107403345A (zh) * 2017-09-22 2017-11-28 北京京东尚科信息技术有限公司 畅销商品预测方法及系统、存储介质及电子终端
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法
CN109060860A (zh) * 2018-09-13 2018-12-21 枘熠集成电路(上海)有限公司 一种二次离子质谱分析曲线的比较方法及装置
CN109242631A (zh) * 2018-09-17 2019-01-18 平安科技(深圳)有限公司 产品智能推荐方法、服务器及存储介质
CN109828168A (zh) * 2019-01-31 2019-05-31 福州大学 基于核密度估计的变换器故障诊断方法
CN110135942A (zh) * 2019-04-12 2019-08-16 深圳壹账通智能科技有限公司 产品推荐方法、装置及计算机可读存储介质
CN110458637A (zh) * 2019-06-19 2019-11-15 中国平安财产保险股份有限公司 基于神经网络的产品推送方法、及其相关设备
CN110489642A (zh) * 2019-07-25 2019-11-22 山东大学 基于行为特征分析的商品推荐方法、系统、设备及介质
CN110866043A (zh) * 2019-10-12 2020-03-06 上海上湖信息技术有限公司 数据预处理方法及装置、存储介质、终端
CN111080502A (zh) * 2019-12-17 2020-04-28 清华苏州环境创新研究院 一种区域企业数据异常行为的大数据识别方法
CN110969516A (zh) * 2019-12-25 2020-04-07 清华大学 一种商品推荐方法及装置

Also Published As

Publication number Publication date
CN111626821A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626821B (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
Neves et al. Improving bankruptcy prediction with hidden layer learning vector quantization
CN110008349B (zh) 计算机执行的事件风险评估的方法及装置
Wang et al. Input feature selection method based on feature set equivalence and mutual information gain maximization
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
Liu et al. Improving financial distress prediction using financial network-based information and GA-based gradient boosting method
Behrens et al. A test of the joint efficiency of macroeconomic forecasts using multivariate random forests
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
JP2020524346A (ja) 短期利益を予測する方法、装置、コンピューターデバイス、プログラムおよび記憶媒体
CN111309577A (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
Zhang et al. Can sentiment analysis help mimic decision-making process of loan granting? A novel credit risk evaluation approach using GMKL model
Yang et al. Detecting Falsified Financial Statements Using a Hybrid SM-UTADIS Approach: Empirical Analysis of Listed Traditional Chinese Medicine Companies in China
Hu Overdue invoice forecasting and data mining
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
Stepashko et al. A technique for integral evaluation and forecast of the performance of a complex economic system
Moradi et al. An application of support vector machines in bankruptcy prediction; Evidence from Iran
Basha et al. Enhancing red wine quality prediction through Machine Learning approaches with Hyperparameters optimization technique
Yang et al. Asset price prediction via machine-learning method: a review
Liu et al. A comparison of machine learning algorithms for prediction of past due service in commercial credit
Harsha et al. Addressing Challenges in Stock Selection: A Financial Decision Support System Approach
CN113538020B (zh) 获取客群特征关联度方法、装置、存储介质和电子装置
Nawaiseh et al. Financial Statement Audit Utilising Naive Bayes Networks, Decision Trees, Linear Discriminant Analysis and Logistic Regression
CN111160419B (zh) 一种基于深度学习的电子式互感器数据分类预测方法及装置
Pudil et al. Identification of Corporate Competitiveness Factors-Comparing Different Approaches
CN117994026A (zh) 一种基于大数据的金融风险智能分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant