CN107480686B

CN107480686B - 一种筛选机器学习特征的方法和装置

Info

Publication number: CN107480686B
Application number: CN201610405496.XA
Authority: CN
Inventors: 张柯; 褚巍; 施兴; 姜晓燕
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2021-03-30
Anticipated expiration: 2036-06-08
Also published as: CN107480686A

Abstract

本申请提出一种筛选机器学习特征的方法和装置，涉及机器学习模型领域，包括：利用机器学习算法对收集的特征进行初步筛选，获得训练特征集合；利用所述训练特征集合内的全部特征进行模型训练，并获得所述训练特征集合全量特征的性能结果；分别去掉所述训练特征集合中的每一个特征，利用所述训练特征集合中剩下的特征进行模型训练，并获得所述训练特征集合去掉所述特征的性能结果；比较所述全量特征的性能结果和去掉所述特征的性能结果，获得去掉所述特征的性能结果衰减率；根据所述衰减率确定满足预设条件的特征作为筛选特征集合。最大程度地降低了模型的复杂度，从而大大减少人工成本与时间成本，提升工作效率。

Description

一种筛选机器学习特征的方法和装置

技术领域

本发明涉及机器学习模型领域，具体涉及一种筛选机器学习特征的方法和装置。

背景技术

目前对金融相关模型进行建模，主要是通过先收集大量特征，利用机器学习算法对大数据进行分类或回归计算，为了能简便的得到对机器学习有贡献的特征，需要对所有特征进行梳理，相关技术中，人为地利用业务经验选取与其有关联的特征，然后再综合特征的可解释性以及指标等不同维度对特征进行详细优化，能够运用到可能对金融相关模型产生影响的特征纷繁复杂，种类繁多，据初步统计，能够用来金融相关模型训练的特征数有上千个甚至上万个，这中间的每步都需要大量地人工进行干预，而靠人工筛选特征的工作量非常大，导致建模的周期拉长，已经成为了整个建模开发周期的瓶颈。而且特征的选取直接影响到模型的训练效果，建模人员需要具备相当强的业务经验，工作效率大大降低。

目前，急需引入既高效又能实现程序自动化的方法来帮助建模人员筛选出比较优质的特征。

发明内容

本发明提供一种筛选机器学习特征的方法和装置，通过挖掘自变量特征与因变量特征之间的依赖关系将整个建模筛选特征的过程实现自动化。

为了实现上述发明目的，本发明采取的技术方案如下：

一种筛选机器学习特征的方法，包括：

利用机器学习算法对收集的特征进行初步筛选，获得训练特征集合；

利用所述训练特征集合内的全部特征进行模型训练，并获得所述训练特征集合全量特征的性能结果；

分别去掉所述训练特征集合中的每一个特征，利用所述训练特征集合中剩下的特征进行模型训练，并获得所述训练特征集合去掉所述特征的性能结果；

比较所述全量特征的性能结果和去掉所述特征的性能结果，获得去掉所述特征的性能结果衰减率；

根据所述衰减率确定满足预设条件的特征作为筛选特征集合。

优选地，所述的方法还包括：

获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数；

根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。

优选地，利用所述训练特征集合内的全部特征进行模型训练，并获得所述训练特征集合全量特征的性能结果包括：

将所述训练特征集合内的全部特征利用逻辑回归算法进行训练，计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。

优选地，分别去掉所述训练特征集合中的每一个特征，利用所述训练特征集合中剩下的特征进行模型训练，并获得所述训练特征集合去掉所述特征的性能结果包括：

去掉所述训练特征集合中的第i个特征，将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练，计算出评价模型的曲线面积性能指标AUC_i和区分点性能指标KS_i，N为所述训练特征集合中包含的特征的个数，1≤i≤N。

优选地，比较所述全量特征的性能结果和去掉所述特征的性能结果，获得去掉所述特征的性能结果衰减率包括：

利用如下公式计算去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUC_i和区分点性能指标KS_i衰减率：

其中，α_i为去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUC_i的衰减率，β_i为去掉所述训练特征集合中的第i个特征的区分点性能指标KS_i的衰减率。

优选地，根据所述衰减率确定满足预设条件的特征作为筛选特征集合包括：

将衰减率α_i大于或者等于0且衰减率β_i大于或者等于0对应的特征从所述训练特征集合中删除，获得所述筛选特征集合。

优选地，根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括：

根据所述剩余特征的权重值、体现所述剩余特征波动性的样本值和所述剩余特征的性能结果衰减率的单调递增函数，确定所述剩余特征的波动特征参数。

利用如下公式计算所述剩余特征的波动特征参数：

Score_k表示第k个剩余特征的波动特征参数，x_ik表示第k个剩余特征的第j条样本的值，

表示第k个剩余特征的平均值，w_k为第k个剩余特征的权重值，n为采样总数，1≤j≤n，α_k为第k个剩余特征的性能指标AUC_k的衰减率，β_k为第k个剩余特征的性能指标KS_k的衰减率。

优选地，获得所述筛选特征集合中每个剩余特征的信息价值包括：

利用如下公式计算所述剩余特征的信息价值：

goodNum_q与badNum_q分别表示第q个分位区间的负样本数与正样本数，bad_q％表示第q个分位区间的正样本比例，good_q％表示第q个分位区间的负样本比例，n为采样总数，1≤q≤n。

优选地，根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合包括：

将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序；

按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。

本发明实施例还提供一种筛选机器学习特征的装置，包括：

初选模块，设置为利用机器学习算法对收集的特征进行初步筛选，获得训练特征集合；

全量训练模块，设置为利用所述训练特征集合内的全部特征进行模型训练，并获得所述训练特征集合全量特征的性能结果；

特征训练模块，设置为分别去掉所述训练特征集合中的每一个特征，利用所述训练特征集合中剩下的特征进行模型训练，并获得所述训练特征集合去掉所述特征的性能结果；

衰减模块，设置为比较所述全量特征的性能结果和去掉所述特征的性能结果，获得去掉所述特征的性能结果衰减率；

特征筛选模块，设置为根据所述衰减率确定满足预设条件的特征作为筛选特征集合。

优选地，所述的装置还包括：

波动模块，设置为获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数；

特征保留模块，设置为根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。

优选地，所述全量训练模块设置为:

优选地，所述特征训练模块设置为：

优选地，所述衰减模块设置为：

优选地，所述特征筛选模块设置为：

优选地，所述波动模块根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数是指：

利用如下公式计算所述剩余特征的波动特征参数：

优选地，所述波动模块获得所述筛选特征集合中每个剩余特征的信息价值是指：

利用如下公式计算所述剩余特征的信息价值：

优选地，所述特征保留模块设置为：

本发明和现有技术相比，具有如下有益效果：

本发明针对金融相关模型自身的建模特点，结合统计学上的因果关系理论，通过挖掘自变量特征与因变量特征之间的依赖关系将整个建模筛选特征的过程实现自动化，在没有任何人工干预的情况下从数量繁多的特征中选取出最优质的特征用以模型训练，在保证模型性能效果的同时，最大程度地降低了模型的复杂度，从而大大减少人工成本与时间成本，提升工作效率。

附图说明

图1为本发明实施例的筛选机器学习特征的方法的流程图；

图2为本发明实施例的筛选机器学习特征的装置的结构示意图；

图3为本发明实施例1的筛选机器学习特征任务的流程图。

具体实施方式

为使本发明的发明目的、技术方案和有益效果更加清楚明了，下面结合附图对本发明的实施例进行说明，需要说明的是，在不冲突的情况下，本申请中的实施例和实施例中的特征可以相互任意组合。

如图2所示，本发明实施例提供一种筛选机器学习特征的方法，包括：

S101、利用机器学习算法对收集的特征进行初步筛选，获得训练特征集合；

S102、利用所述训练特征集合内的全部特征进行模型训练，并获得所述训练特征集合全量特征的性能结果；

S103、分别去掉所述训练特征集合中的每一个特征，利用所述训练特征集合中剩下的特征进行模型训练，并获得所述训练特征集合去掉所述特征的性能结果；

S104、比较所述全量特征的性能结果和去掉所述特征的性能结果，获得去掉所述特征的性能结果衰减率；

S105、根据所述衰减率确定满足预设条件的特征作为筛选特征集合。

如果去除衰减率不满足预设条件的特征之后，获得的筛选特征集合不满足需求，则进行：

S106、获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数；

S107、根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。

其中，步骤S101的主要目的在于对收集的所有特征进行一次初步的梳理，把明显与目标变量不相关的特征过滤掉，可以使用线性模型(如LR(逻辑回归，LogisticRegression)等)，也可以使用非线性模型(如GBDT(Gradient Boosting Decision Tree，梯度提升决策树))。

其中，步骤S102具体包括:

其中，步骤S103具体包括：

去掉所述训练特征集合中的第i个特征，将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练，计算出评价模型性能指标的曲线面积性能指标AUC_i和区分点性能指标KS_i，N为所述训练特征集合中包含的特征的个数，1≤i≤N。

性能指标AUC是Area Under roc Curve的缩写，表示ROC(Receiver OperatingCharacteristic，受试者工作特征)曲线与横坐标轴或纵坐标轴之间的面积，主要是从模型对目标变量的总体抓坏覆盖角度的评价指标，性能指标KS是Kolmogorov–Smirnov的缩写，柯尔莫哥洛夫-斯摩洛夫，用来检验特征的分布是不是符合一个理论的已知分布，是从模型对目标变量分类能力角度的评价指标，这两个指标的取值范围都在0到1之间，越接近1代表模型性能越好。

其中，步骤S104包括：

利用如下公式计算去掉所述训练特征集合中的第i个特征的性能指标AUC_i和KS_i衰减率：

其中，α_i为去掉所述训练特征集合中的第i个特征的性能指标AUC_i的衰减率，β_i为去掉所述训练特征集合中的第i个特征的性能指标KS_i的衰减率。

如果α_i小于0或着β_i小于0，说明该特征在模型中的干扰性较强，故应该优先丢弃这样的特征，因此步骤S105包括：

步骤S106中根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括：

具体地，利用如下公式计算所述剩余特征的波动特征参数：

是n个所述剩余特征样本值的标准差，体现了所述剩余特征波动性，

分别是关于性能指标AUC_k的衰减率和性能指标KS_k的衰减率的单调递增函数，衰减率越大，函数值越大，结合所述剩余特征的权重值、体现所述剩余特征波动性的样本值和所述剩余特征的性能结果衰减率的单调递增函数，获得所述剩余特征的波动特征参数体现所述剩余特征的综合得分。

步骤S106中获得所述筛选特征集合中每个剩余特征的信息价值包括：

利用如下公式计算所述剩余特征的信息价值：

分位区间是根据分位点来进行区间划分的，分位点是将样本空间排序后按照预设划分为若干区间的第一样本的特征值。

剩余特征的信息价值iv体现剩余特征在使用、汇总、整合、分析过程中产生的价值和贡献度。

步骤S107包括：

如图2所示，本发明实施例还提供一种筛选机器学习特征的装置，包括：

所述的装置还包括：

所述全量训练模块设置为:

所述特征训练模块设置为：

所述衰减模块设置为：

所述特征筛选模块设置为：

所述波动模块根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数是指：

利用如下公式计算所述剩余特征的波动特征参数：

所述波动模块获得所述筛选特征集合中每个剩余特征的信息价值是指：

利用如下公式计算所述剩余特征的信息价值：

所述特征保留模块设置为：

按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。。

实施例1

如图3所示，本发明实施例说明筛选机器学习特征任务的步骤：

第一步，利用机器学习算法对特征进行筛选，将明显与目标变量不相关的特征过滤掉。

第二步，将剩余特征进行模型训练并评估其性能结果。用逻辑回归算法对剩余特征进行训练，计算出用于评价模型性能的指标AUC与KS，同时记w1、w2、…wn表示每个特征在模型中的权重值。

第三步，分别去掉每个特征进行模型训练及评估。分别去掉每一个特征用逻辑回归模型进行重新训练，得出评估指标，记去掉第i个特征的模型性能指标分别为AUC_i、KS_i。

第四步，丢弃特征：通过以上步骤的计算，计算得到了全部特征的AUC、KS以及去掉第i个特征的AUC_i、KS_i。记α_i和β_i分别表示去掉第i个特征后AUC与KS的衰减率，公式分别为：

如果α_i小于0或着β_i小于0，说明该特征在模型中的干扰性较强，故这样的特征应该优先丢弃。

第五步，保留特征：为剩下每个特征进行波动特征参数打分，具体Score公式为：

其中，Score_k表示第k个剩余特征的波动特征参数，x_ik表示第k个剩余特征的第j条样本的值，

将剩余特征按score分进行降序排序，按照所述排序保留满足数量需求的剩余特征，例如TOP5特征可以直接进入保留特征集合。

引入信息价值iv值计算公式：

按照信息价值iv排序保留满足数量需求的剩余特征，例如除了TOP5特征可以直接被保留之外，如果score分与iv值的排名分别都排在TOP20之内的特征，也可进入保留特征集合。

第六步，判断全部保留特征数量是否满足需求。如果满足，则退出。如不满足，将丢弃特征与保留特征同时剥离出现有特征，利用剩余的特征返回第二步，继续进行新一轮的筛选。

虽然本发明所揭示的实施方式如上，但其内容只是为了便于理解本发明的技术方案而采用的实施方式，并非用于限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭示的核心技术方案的前提下，可以在实施的形式和细节上做任何修改与变化，但本发明所限定的保护范围，仍须以所附的权利要求书限定的范围为准。

Claims

1.一种筛选机器学习特征的方法，其特征在于，包括：

根据所述衰减率确定满足预设条件的特征作为筛选特征集合；

其中，根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括：

第k个剩余特征的波动特征参数根据第一结果、第二结果、第三结果的乘积确定，

分别计算第k个剩余特征的第1至第n条样本的值与第k个剩余特征的平均值的差值的平均值作为第四结果，所述第一结果为第k个剩余特征的权重值除以开平方后的第四结果；所述第二结果为1加上第k个剩余特征的性能指标AUC_k的衰减率与1减去所述第k个剩余特征的性能指标AUC_k的衰减率的商；所述第三结果为1加上第k个剩余特征的性能指标KS_k的衰减率与1减去所述第k个剩余特征的性能指标KS_k的衰减率的商；

获得所述筛选特征集合中每个剩余特征的信息价值包括：

所述剩余特征的信息价值根据第五结果和第六结果的乘积在第q个分位区间至第n个分位区间的和确定，n为采样总数，1≤q≤n，

所述第五结果为第q个分位区间的负样本数与正样本数的差值，所述第六结果为对第q个分位区间的正样本比例与第q个分位区间的负样本比例的商取以常数e为底数的对数的值。

2.如权利要求1所述的方法，其特征在于：还包括：

3.如权利要求1所述的方法，其特征在于：利用所述训练特征集合内的全部特征进行模型训练，并获得所述训练特征集合全量特征的性能结果包括:

4.如权利要求3所述的方法，其特征在于：分别去掉所述训练特征集合中的每一个特征，利用所述训练特征集合中剩下的特征进行模型训练，并获得所述训练特征集合去掉所述特征的性能结果包括：

5.如权利要求4所述的方法，其特征在于：比较所述全量特征的性能结果和去掉所述特征的性能结果，获得去掉所述特征的性能结果衰减率包括：