CN110276369B

CN110276369B - 基于机器学习的特征选择方法、装置、设备及存储介质

Info

Publication number: CN110276369B
Application number: CN201910342060.4A
Authority: CN
Inventors: 陈刚; 兰翔; 钟磊
Original assignee: Wuhan Zhongbang Bank Co Ltd
Current assignee: Wuhan Zhongbang Bank Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2021-07-30
Anticipated expiration: 2039-04-24
Also published as: CN110276369A

Abstract

本发明公开了一种基于机器学习的特征选择方法、装置、设备及存储介质，所述方法包括：获取用户的交易数据以及预设个参考特征选择模型；提取所述交易数据中的参考特征信息；通过所述参考特征选择模型对所述参考特征信息进行特征选择；根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果；根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息，从而通过多种模型结合，选择出最优的特征选择模型进特征选择，相较于单一变量选择方法有很大的效率提升，显著提升了模型对变量选择的分类精度和泛化能力。

Description

基于机器学习的特征选择方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于机器学习的特征选择方法、装置、设备及存储介质。

背景技术

自互联网技术蓬勃发展以来，线上贷款突飞猛进，借款人数量增大的同时，恶意借款占比也急剧上升，并且线上贷款收集数据非金融特征远多于金融特征，数据样本量和结构复杂度远超以往，传统的评分卡特征选择通常是基于单一算法人工选择特征，比如证据权重值(Weight of Evidence，WOE)值，人工计算强度大，效率低。

发明内容

本发明的主要目的在于提出一种基于机器学习的特征选择方法、装置、设备及存储介质，旨在解决采用传统信用评分技术效率低的技术问题。

为实现上述目的，本发明提供一种基于机器学习的特征选择方法，所述基于机器学习的特征选择方法包括以下步骤：

获取用户的交易数据以及预设个参考特征选择模型；

提取所述交易数据中的参考特征信息；

通过所述参考特征选择模型对所述参考特征信息进行特征选择；

根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果；

根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息。

优选地，所述参考特征选择模型包括单变量回归模型；

所述通过所述参考特征选择模型对所述参考特征信息进行特征选择，包括：

获取单变量回归模型，根据所述单变量回归模型查找所述参考特征信息的取值范围，根据所述取值范围将所述参考特征信息划分为K个小区间；

从所述小区间中选择参考区间，并获取所述参考区间中的参考特征信息的参考特征个数；

获取所述小区间的区间个数，根据所述区间个数及对应的参考特征个数得到特征容量信息；

根据所述特征容量信息得到特征概率信息，根据所述特征概率信息对所述参考特征信息进行特征选择。

优选地，所述参考特征选择模型还包括相关性模型；

获取第一预设变量，根据所述相关性模型评估所述参考特征信息与第一预设变量的相关性；

根据评估结果对所述参考特征信息进行特征选择。

优选地，所述参考特征选择模型还包括预设分组模型，所述预设分组模型包括主要成分分析模型、聚类模型、线性回归模型以及逻辑回归模型；

根据所述预设分组模型将所述参考特征信息进行分组；

在所述预设分组模型为主要成分分析模型时，创建预设组件并获取第二预设变量，通过所述预设组件评估分组后的参考特征信息与第二预设变量的相关性，在评估结果满足第一预设条件时对所述参考特征信息进行特征选择；

在所述预设分组模型为聚类模型时，创建预设集群，通过所述预设集群评估分组后的所述参考特征信息的相关性，在评估结果满足第二预设条件时对所述参考特征信息进行特征选择；

在所述预设分组模型为线性回归模型或逻辑回归模型时，分别通过线性回归模型或逻辑回归模型对分组后的参考特征信息进行特征选择。

优选地，所述参考特征选择模型还包括信息值模型；

根据所述信息值模型得到所述参考特征信息的变量信息值；

将所述变量信息值与预设信息值阈值进行比较，根据比较结果对所述参考特征信息进行特征选择。

优选地，所述根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果之前，所述方法还包括：

获取预设K颗树，根据所述预设K颗树以及参考特征选择模型建立随机森林模型；

通过所述随机森林模型执行根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果的步骤。

优选地，所述根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果，包括：

获取所述参考特征信息对应的权重信息；

根据选择出的参考特征信息以及权重信息对所述参考特征选择模型进行评分，得到模型评分结果。

此外，为实现上述目的，本发明还提出一种基于机器学习的特征选择装置，所述基于机器学习的特征选择装置包括：

获取模块，用于获取用户的交易数据以及预设个参考特征选择模型；

提取模块，用于提取所述交易数据中的参考特征信息；

特征选择模块，用于通过所述参考特征选择模型对所述参考特征信息进行特征选择；

评分模块，用于根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果；

模型选择模块，用于根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息。

此外，为实现上述目的，本发明还提出一种基于机器学习的特征选择设备，所述基于机器学习的特征选择设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的特征选择程序，所述基于机器学习的特征选择程序配置为实现如上所述的基于机器学习的特征选择方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于机器学习的特征选择程序，所述基于机器学习的特征选择程序被处理器执行时实现如上文所述的基于机器学习的特征选择方法的步骤。

本发明提出的基于机器学习的特征选择方法，通过获取用户的交易数据以及预设个参考特征选择模型；提取所述交易数据中的参考特征信息；通过所述参考特征选择模型对所述参考特征信息进行特征选择；根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果；根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息，从而通过多种模型结合，选择出最优的特征选择模型进特征选择，相较于单一变量选择方法有很大的效率提升，显著提升了模型对变量选择的分类精度和泛化能力。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于机器学习的特征选择设备结构示意图；

图2为本发明基于机器学习的特征选择方法第一实施例的流程示意图；

图3为本发明基于机器学习的特征选择方法一实施例的随机森林模型选择流程示意图；

图4为本发明基于机器学习的特征选择方法第二实施例的流程示意图；

图5为本发明基于机器学习的特征选择方法第三实施例的流程示意图；

图6为本发明基于机器学习的特征选择装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于机器学习的特征选择设备结构示意图。

如图1所示，该基于机器学习的特征选择设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对基于机器学习的特征选择设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于机器学习的特征选择程序。

在图1所示的基于机器学习的特征选择设备中，网络接口1004主要用于连接外网，与其他网络设备进行数据通信；用户接口1003主要用于连接用户设备，与所述用户设备进行数据通信；本发明设备通过处理器1001调用存储器1005中存储的基于机器学习的特征选择程序，并执行本发明实施例提供的基于机器学习的特征选择的实施方法。

基于上述硬件结构，提出本发明基于机器学习的特征选择方法实施例。

参照图2，图2为本发明基于机器学习的特征选择方法第一实施例的流程示意图。

在第一实施例中，所述基于机器学习的特征选择方法包括以下步骤：

步骤S10，获取用户的交易数据以及预设个参考特征选择模型。

需要说明的是，本实施例的执行主体为基于机器学习的特征选择设备，例如基于机器学习的特征选择服务器等，还可为其他设备，本实施例对此不作限制。

在具体实现中，申请用户可通过应用程序，填写所需的信息，例如个人身份信息、职业信息和联系人信息等，完善身份认证，人脸识别和活体识别，绑定手机号码和银行卡等，为提升客户体验还可采用光学字符识别(Optical Character Recognition，OCR)等技术获取数据，目的在于确保基础信息的真实性，防止伪冒申请，还可通过监控程序，获取授权账号对应的用户的交易数据，从而实现对用户信息的提取。

步骤S20，提取所述交易数据中的参考特征信息。

在本实施例中，可将所述交易数据与预设关键字信息进行比较，将所述交易数据中含有所述预设关键字信息的目标交易信息作为所述参考特征信息，其中，所述预设关键字信息可为贷款金额以及还款日期等与用户的还款概率相关的关键字信息，从而通过关键字信息进行有效信息的提取，提高用户特征的有效性。

步骤S30，通过所述参考特征选择模型对所述参考特征信息进行特征选择。

在本实施例中，如图3所示，所述参考特征选择模型包括单变量回归模型、相关性分析模型、主成分分析模型、聚类分析模型、线性回归模型、逻辑回归模型以及信息值模型，通过历史交易数据进行训练，从而得到所述单变量回归模型、相关性分析模型、主成分分析模型、聚类分析模型、线性回归模型、逻辑回归模型以及信息值模型。

在具体实现中，可通过结合上述多种选择模型进行特征选择，从而和根据实际需求自动选择最优的模型进行特征选择，达到提高特征选择精度的目的。

步骤S40，根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果。

为了提高模型的精度，可通过对参考特征选择模型进行评分，根据评分结果选择出最优特征选择模型，例如逻辑回归模型的评分结果为90分，信息值模型的评分结果为70，则逻辑回归模型比信息值模型的评分结果高，在这种情况下，逻辑回归模型为最优选择模型，通过逻辑回归模型对交易特征信息进行选择，达到自动选择模型的目的。

步骤S50，根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息。

本实施例通过上述方案，通过获取用户的交易数据以及预设个参考特征选择模型；提取所述交易数据中的参考特征信息；通过所述参考特征选择模型对所述参考特征信息进行特征选择；根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果；根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息，从而通过多种模型结合，选择出最优的特征选择模型进特征选择，相较于单一变量选择方法有很大的效率提升，显著提升了模型对变量选择的分类精度和泛化能力。

在一实施例中，如图4所示，基于第一实施例提出本发明基于机器学习的特征选择方法第二实施例，所述参考特征选择模型包括单变量回归模型；所述步骤S30，包括：

根据所述单变量回归模型查找所述参考特征信息的取值范围，根据所述取值范围将所述参考特征信息划分为K个小区间。

在本实施例中，通过建立一个逻辑(二元相关)或线性回归模型，用一个独立变量单独评估每个变量，通过卡方检验步骤，首先提出原假设：H0：总体X的分布函数为F(x)，如果总体分布为离散型，则假设具体为H0：总体X的分布律为P{X＝xi}＝pi，i＝1，2，...将总体X的取值范围分成k个互不相交的小区间A1，A2，A3，…，Ak，如可取A1＝(a0，a1]，A2＝(a1，a2]，...，Ak＝(ak-1,ak)。

从所述小区间中选择参考区间，并获取所述参考区间中的参考特征信息的参考特征个数。

其中a0可取-∞，ak可取+∞，区间的划分视具体情况而定，使每个小区间所含的样本值个数不小于5。

获取所述小区间的区间个数，根据所述区间个数及对应的参考特征个数得到特征容量信息。

把落入第i个小区间的Ai的样本值的个数记作fi，成为实际组频数，所有组频数之和f1+f2+...+fk等于样本容量n。

需要说明的是，当H0为真时，根据所假设的总体理论分布，可算出总体X的值落入第i个小区间Ai的概率pi，于是，npi就是落入第i个小区间Ai的样本值的理论频数，当H0为真时，n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近，当H0不真时，则fi/n与pi相差很大，得到，统计量

其中，所述n表示样本容量，pi表示理论概率，fi表示实际组频数，k表示自由度，x表示卡方分布。

在0假设成立的情况下服从自由度为k-1的卡方分布，将p值小于或等于maxpuni的变量为选择出的参考特征信息。

在一实施例中，所述参考特征选择模型还包括相关性模型，所述步骤S30，包括：

获取第一预设变量，根据所述相关性模型评估所述参考特征信息与第一预设变量的相关性。

在本实施例中，所述第一预设变量为corrcut变量输入的参数，通过计算与因变量的相关性来评估每个变量，通过将关联设置为yes来打开，无符号关联大于或等于corrcut的变量通过此测试，根据评估结果对所述参考特征信息进行特征选择。

在一实施例中，所述参考特征选择模型还包括预设分组模型，所述预设分组模型包括主要成分分析模型、聚类分析模型、线性回归模型以及逻辑回归模型，所述步骤S30，包括：

步骤S301，根据所述预设分组模型将所述参考特征信息进行分组。

在本实施例中，对所述参考特征信息进行分组，对分组后的参考特征信息进行分析，从而使分析更易于管理。

步骤S302，在所述预设分组模型为主要成分分析模型时，创建预设组件以及获取第二预设变量，通过所述预设组件评估分组后的参考特征信息与第二预设变量的相关性，在评估结果满足第一预设条件时对所述参考特征信息进行特征选择。

在具体实现中，所述第一预设变量为minprin变量输入的参数，所述第一预设条件无符号相关大于或等于minprin的变量，所述预设组件为NPRIN组件，通过将Principal设置为yes来打开的，每个组创建NPRIN组件。然后，变量与计算的每个分量都有相关性，并保持最大值，将无符号相关大于或等于minprin的变量被组合起来，然后再次通过逻辑传递，第二遍中将无符号相关大于或等于minprin的所有变量都通过此测试，从而实现对所述参考特征信息进行特征选择。

步骤S303，在所述预设分组模型为聚类模型时，创建预设集群，通过所述预设集群评估分组后的所述参考特征信息的相关性，在评估结果满足第二预设条件时对所述参考特征信息进行特征选择。

在具体实现中，所述预设集群为maxc集群，所述第二预设条件合并的特征参数平方比小于或等于maxratio的变量，它是通过将cluster设置为yes来打开的，为每个组创建maxc集群。然后合并的特征参数平方比小于或等于maxratio的所有变量，并再次通过逻辑传递，第二遍中合并的特征参数平方比小于或等于maxratio的所有变量都通过此测试，从而实现对所述参考特征信息进行特征选择。

步骤S304，在所述预设分组模型为线性回归模型或逻辑回归模型时，分别通过线性回归模型或逻辑回归模型对分组后的参考特征信息进行特征选择。

在线性回归模型中，通过使用正向选择和显著性水平构建线性回归模型，结合alpharag的输入，评估变量，它是通过将回归设置为yes来打开的，为每个组建立一个模型，然后将输入模型的所有变量组合在一起，并构建最终模型，所有进入第二个模型的变量都通过了这个测试，从而实现对所述参考特征信息进行特征选择。

在逻辑回归模型中，通过使用正向选择和显著性水平建立逻辑回归模型，结合alphalo输入，评估变量，通过将logistic设置为yes来打开它，为每个组建立一个模型，然后将输入模型的所有变量组合在一起，并构建最终模型，所有进入第二个模型的变量都通过了这个测试，从而实现对所述参考特征信息进行特征选择。

在一实施例中，所述参考特征选择模型还包括信息值模型，所述步骤S30，包括：

根据所述信息值模型得到所述参考特征信息的变量信息值。

它通过将信息设置为yes来打开。每个变量都使用小数作为要使用的最大箱子数汇总到箱子中。然后计算变量信息值。信息值大于或等于infvcut的变量通过此测试。

本实施例提供的方案，通过结合上述多种选择模型进行特征选择，从而和根据实际需求自动选择最优的模型进行特征选择，达到提高特征选择精度的目的。

在一实施例中，如图5所示，基于第一实施例或第二实施例提出本发明基于机器学习的特征选择方法第三实施例，在本实施例中，基于第一实施例进行说明，所述步骤S40之前，所述方法还包括：

获取预设K颗树，根据所述预设K颗树以及参考特征选择模型建立随机森林模型，通过所述随机森林模型执行步骤S40。

在实施例中，继续如图3所示通过随机森林进行特征选择模型的选择，随机森林是基于bagging框架下的决策树模型，随机森林包含了很多颗树，通过随机森林构建自动挑选变量，首先随机选择K颗树，然后再每棵树对以上七种变量选择算法选择出来的变量构建学习模型，输出每棵树的模型分值Score，对输出的k个学习模型，按照模型分值Score进行投票最后得到最优学习模型，对最优学习模型输出的特征进行排序，最终得到最优的目标特征信息。

在一实施例中，所述步骤S40，包括：

步骤S401，获取所述参考特征信息对应的权重信息。

在本实施例中，所述权重信息可预先通过历史样本数据进行学习得到的，由于特征的多样性，为提高特征预测的准确性，可将更有效的特征信息设置较高的权重。

步骤S402，根据选择出的参考特征信息以及权重信息对所述参考特征选择模型进行评分，得到模型评分结果。

本实施例提供的方案，通过随机森林模型进行特性选择模型的自动选择，可根据不同的特征信息选择出最优的特性选择模型，从而提高特性选择模型的灵活性。

本发明进一步提供一种基于机器学习的特征选择装置。

参照图6，图6为本发明基于机器学习的特征选择装置第一实施例的功能模块示意图。

本发明基于机器学习的特征选择装置第一实施例中，该基于机器学习的特征选择装置包括：

获取模块10，用于获取用户的交易数据以及预设个参考特征选择模型。

提取模块20，用于提取所述交易数据中的参考特征信息。

在本实施例中，可将所述交易数据与预设关键字信息进行比较，将所述交易数据中含有所述预设关键字信息的目标交易信息作为所述参考特征信息，其中，所述预设关键字信息可为贷款金额以及还款日期等与用户的还款概率相关的关键字信息，从而通过关键字信息进行有效信息的提取，提高用户的特征的有效性。

特征选择模块30，用于通过所述参考特征选择模型对所述参考特征信息进行特征选择。

评分模块40，用于根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果。

模型选择模块50，用于根据所述模型评分结果选择出目标特征选择模型，将所述目标特征选择模型选择出的参考特征信息作为目标特征信息。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于机器学习的特征选择程序，所述基于机器学习的特征选择程序被处理器执行如上文所述的基于机器学习的特征选择方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台智能终端设备(可以是手机，计算机，终端设备，空调器，或者网络终端设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习的特征选择方法，其特征在于，所述基于机器学习的特征选择方法包括：

获取用户的交易数据以及预设个参考特征选择模型，所述参考特征选择模型包括单变量回归模型、相关性分析模型、主成分分析模型、聚类分析模型、线性回归模型、逻辑回归模型以及信息值模型；

提取所述交易数据中的参考特征信息，将所述交易数据中含有预设关键字信息的目标交易信息作为所述参考特征信息；

2.如权利要求1所述的基于机器学习的特征选择方法，其特征在于，所述参考特征选择模型包括单变量回归模型；

3.如权利要求1所述的基于机器学习的特征选择方法，其特征在于，所述参考特征选择模型还包括相关性模型；

根据评估结果对所述参考特征信息进行特征选择。

4.如权利要求1所述的基于机器学习的特征选择方法，其特征在于，所述参考特征选择模型还包括预设分组模型，所述预设分组模型包括主要成分分析模型、聚类模型、线性回归模型以及逻辑回归模型；

根据所述预设分组模型将所述参考特征信息进行分组；

5.如权利要求1所述的基于机器学习的特征选择方法，其特征在于，所述参考特征选择模型还包括信息值模型；

根据所述信息值模型得到所述参考特征信息的变量信息值；

6.如权利要求1至5中任一项所述的基于机器学习的特征选择方法，其特征在于，所述根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果之前，所述方法还包括：

7.如权利要求1至5中任一项所述的基于机器学习的特征选择方法，其特征在于，所述根据选择出的参考特征信息对所述参考特征选择模型进行评分，得到模型评分结果，包括：

获取所述参考特征信息对应的权重信息；

8.一种基于机器学习的特征选择装置，其特征在于，所述基于机器学习的特征选择装置包括：

获取模块，用于获取用户的交易数据以及预设个参考特征选择模型，所述参考特征选择模型包括单变量回归模型、相关性分析模型、主成分分析模型、聚类分析模型、线性回归模型、逻辑回归模型以及信息值模型；

提取模块，用于提取所述交易数据中的参考特征信息，将所述交易数据中含有预设关键字信息的目标交易信息作为所述参考特征信息；

9.一种基于机器学习的特征选择设备，其特征在于，所述基于机器学习的特征选择设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习的特征选择程序，所述基于机器学习的特征选择程序配置为实现如权利要求1至7中任一项所述的基于机器学习的特征选择方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于机器学习的特征选择程序，所述基于机器学习的特征选择程序被处理器执行时实现如权利要求1至7中任一项所述的基于机器学习的特征选择方法的步骤。