CN110334773A

CN110334773A - 基于机器学习的模型入模特征的筛选方法

Info

Publication number: CN110334773A
Application number: CN201910627409.9A
Authority: CN
Inventors: 程林涛; 卫浩; 刘嵩
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-15

Abstract

本发明涉及基于机器学习的模型入模特征的筛选方法，包括：A.计算特征的重要性指数IV；B.通过对所述的特征进行10折交叉验证，得到一组特征重要性向量IF；C.将所述的重要性指数IV和特征重要性向量IF进行加权得到特征加权重要性FWI列表；D.根据所建立的模型得到一组KS值，在测试集中将该组KS值中的最大KS值对应的特征加权重要性FWI所对应的特征作为最终的入模特征。本发明基于机器学习的模型入模特征的筛选方法，通过特征加权重要性FWI对入模特征进行筛选，只需建立k个模型，并且k＜＜n,使得模型的复杂度得到了极大的降低，提高了模型的表现，也大幅度缩短了模型训练的时间。

Description

基于机器学习的模型入模特征的筛选方法

技术领域

本发明涉及基于机器学习的模型入模特征的筛选方法。

背景技术

随着互联网发展至今，很多企业已经采集到了用户成千上万维度的数据，通过机器学习模型来挖掘有用的信息已成为普遍做法。在机器学习领域的其中一个共识就是数据质量决定了机器学习的上限，而模型和算法一直都是在逼近这个上限。因此特征工程的重要性就显得尤为突出，在含有成千上万的特征池中，选出稳定性高、区分能力强的特征对机器学习分类算法是一个巨大的挑战。

对于高维特征，现在常见的做法有两种：

1.对单变量进行重要性分析，利用信息量(Information Value)或信息增益(Information Gain)筛选出相对重要的特征；

2.利用机器学习算法模型本身输出的特征重要性进行筛选，例如决策树、梯度下降树(GBDT)算法等，是统计出特征最终出现在树中的次数，从而输出特征的重要性。

上述方法存在的问题如下：

第一种方法：使用单变量进行特征筛选，虽然可以分析出单变量的区分能力，但是容易忽略特征组合的作用，这也是为何单变量区分能力强的变量，而在最终模型中的重要性不高。

第二种方法：目前大多数企业采集的数据具有高维度、低饱和度(数据中的信息量少)的特点，例如逾期特征、黑名单特征等，这些特征本身覆盖的人群低，天然缺失率高，另外一些分类型变量通过one-hot编码后会使得数据变的更加稀疏，大大增加了模型的复杂度。低饱和度的特征也容易导致模型判断失准，而模型复杂度过高容易导致模型训练缓慢，这对基于大数据的建立模型可以说是灾难的。由于低饱和度和高复杂度的影响，模型筛选的入模特征组IF(Importance of Model Features)往往不是最优组合。

发明内容

本发明提供了一种基于机器学习的模型入模特征的筛选方法，以使建模时筛选的特征在提高模型表现的同时，也可以缩短模型训练的时间。

本发明基于机器学习的模型入模特征的筛选方法，包括：

A.计算特征的重要性指数IV；

B.通过对所述的特征进行10折交叉验证，得到一组特征重要性向量IF；

C.将所述的重要性指数IV和特征重要性向量IF进行加权得到特征加权重要性FWI列表；

D.根据所建立的模型得到一组KS值，在测试集中将该组KS值中的最大KS值对应的特征加权重要性FWI所对应的特征作为最终的入模特征。

具体的，步骤A包括：

A1.按照业务类型对所有的特征按照好样本或坏样本进行分组，并分别统计各组中好样本和坏样本分别具有的数量；

A2.通过计算每组样本的坏好比，得到特征的重要性指数IV。

进一步的，步骤A2中计算重要性指数IV为：

iv_i＝(p(b_i)-p(g_i))*woe_i

woe_i：第i组中坏样本和好样本的坏好比取对数；

b_i：第i组中坏样本的数量；

g_i：第i组中好样本的数量；

p(b_i)：第i组中的坏样本占所有坏样本的比例；

p(g_i)：第i组中的好样本占所有好样本比例；

b_sum：所有坏样本数；

g_sum：所有好样本数；

iv_i：第i组特征的重要性指数。

具体的，步骤B中，先将特征分为训练集和测试集，将训练集中的特征进行10次10折交叉验证，对得到10个特征重要性数据IF_ii∈{0,1,…,10}中相同的特征名分别计算重要性平均值if_i，再分别对每个重要性平均值if_i进行标准化映射到[0,1]区间内，得到一组特征重要性向量IF。

进一步的，步骤B中，所述的对重要性平均值if_i进行标准化的方式为：

其中min(IF_avg)为所有重要性平均值if_i中的最小值，max IF_avg为所有重要性平均值if_i中的最大值。

具体的，步骤D中，根据步骤C中加权计算时的加权系数的可取值的个数k，分别得到对应的k组特征加权重要性FWI，根据每组特征加权重要性FWI中重要度排序的前M个元素对应的特征通过机器学习算法建立模型，得到k个KS(Kolmogorov-Smirnov)值，将最大KS值对应的特征作为最终的入模特征。

传统的入模变量筛选方法有前向搜索、后向搜索法。以前向搜索为例，通过循环不断的增加新的特征，如果模型表现提高值大于预期阈值，则新增特征入模，否则丢弃。通过这种方式不断新增特征，最后给出入模变量。这种方法每一步都相当于重新建立了一个新的模型，建立的模型数和特征数成正比，复杂度为O(n)，其中n为特征数。对于大数据来说，这样的方式无疑会带来巨大的计算量。

本发明基于机器学习的模型入模特征的筛选方法，通过特征加权重要性FWI对入模特征进行筛选，只需建立k个模型，并且k＜＜n,使得模型的复杂度得到了极大的降低，提高了模型的表现，也大幅度缩短了模型训练的时间。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明基于机器学习的模型入模特征的筛选方法的流程图。

图2为实施例中KS值的取值示意图。

具体实施方式

如图1所示本发明基于机器学习的模型入模特征的筛选方法，包括：

A.计算特征的重要性指数IV：

A1.按照业务类型对所有的特征按照好样本或坏样本进行分组，并分别统计各组中好样本和坏样本分别具有的数量。例如银行申请贷款的客户，申请的结果有两种，逾期和非逾期，逾期的客户称为坏样本(客户)，非逾期客户称为好样本(客户)。建模的目的就是区分出原始数据中的好样本和坏样本。

例如，将所有用户的年消费额进行分组，如表1所示：

表1：

A2.通过计算每组样本的坏好比，计算特征的重要性指数IV：

iv_i＝(p(b_i)-p(g_i))*woe_i

woe_i：第i组中坏样本和好样本的坏好比取对数；

b_i：第i组中坏样本的数量；

g_i：第i组中好样本的数量；

p(b_i)：第i组中的坏样本占所有坏样本的比例；

p(g_i)：第i组中的好样本占所有好样本比例；

b_sum：所有坏样本数；

g_sum：所有好样本数；

iv_i：第i组特征的重要性指数。

B.将特征分为训练集和测试集，如表2所示，将训练集中的特征进行10次10折交叉验证，对得到10个特征重要性数据IF_ii∈{0,1,…,10}中相同的特征名分别计算重要性平均值if_i，再分别对每个重要性平均值if_i进行标准化映射到[0,1]区间内，得到一组特征重要性向量IF。所述对重要性平均值if_i进行标准化的方式为：

表2：

C.将所述的重要性指数IV和特征重要性向量IF进行加权：

FWI＝α·IV+(1-a)·IF(0<a<1)

得到特征加权重要性FWI的表3，其中加权系数α在0到1之间取值，通常是等距取值，例如按照0.1的步长等距，如取值为0、0.1、0.2、…1。

表3：

特征名	IV	IF	FWI
				特征1	v<sub>1</sub>	f<sub>1</sub>	fwi<sub>1</sub>＝α*v<sub>1</sub>+(1-α)f<sub>1</sub>
特征2	v<sub>2</sub>	f<sub>2</sub>	fwi<sub>2</sub>＝α*v<sub>2</sub>+(1-α)f<sub>2</sub>
				…	…	…	…
特征n	v<sub>n</sub>	f<sub>n</sub>	fwi<sub>n</sub>＝α*v<sub>n</sub>+(1-α)f<sub>n</sub>

D.利用网格搜索的思路，步骤C中的加权系数α有k种取值情况：每种α_i都可以对应得到一组特征加权重要性FWI，最终可以得到k组特征加权重要性FWI。对每组特征加权重要性FWI都进行降序排列，选取每组特征加权重要性FWI中重要度排序前M个元素对应的特征，M的取值根据最后的模型效果而定，例如取重要度前10个元素和取前20个元素最后的得到的模型效果差别不大，则M为前10个元素。通过现有的GBDT机器学习算法建立模型，得到k个KS(Kolmogorov-Smirnov)值，如表4所示：

表4：

最后将最大KS值对应的特征作为最终的入模特征。这里的KS值用来刻画模型的分类效果，KS值越大模型的分类能力越强，表现的越好，KS值是根据每个模型得出的混淆矩阵进行计算，如表5所示：

表5：

其中：

TPR：真实的正例中被预测为正例的比例。

FPR：真实的负例中被预测为正例的比例。

TP(True Positive)：真阳性，样本的真实类别是正例，并且模型预测的结果也是正例。

TN(True Negative)：真阴性，样本的真实类别是负例，并且模型预测的结果也是负例。

FP(False Positive)：假阳性，样本的真实类别是负例，但是模型预测结果却为正例。

FN(False Negative)：假阴性，样本的真实类别是正例，但是模型预测结果却为负例。

采用上述本发明的方法，例如建模数据的样本量为67117个，特征数为1718个的数据集，其中样本的好坏比为10:1,样本按照7:3分为训练集和测试集，通过计算得到每个特征标准化后的特征重要性指数IV和特征重要性向量IF，加权得到特征加权重要性FWI，加权系数α介于0到1之间(包含0和1)，每隔0.1选取一次，因此得到11组特征加权重要性FWI。对每组特征加权重要性FWI进行降序排列，选取排名靠前的100个特征建立GBDT模型，在测试集上计算KS值，得到如图2所示的实验结果。

从图2中可以看出，加权系数α＝0.7时选取的特征组建立的模型，在测试集中KS达到的0.237为最高值，因此选取KS＝0.237对应的特征作为入模特征。而单纯的依靠特征重要性指数IV或特征重要性向量IF选取的特征组建立的模型，KS值分别为0.223和0.18，表现相对较差。

Claims

1.基于机器学习的模型入模特征的筛选方法，其特征包括：

A.计算特征的重要性指数IV；

2.如权利要求1所述的基于机器学习的模型入模特征的筛选方法，其特征为：步骤A包括：

A2.通过计算每组样本的坏好比，得到特征的重要性指数IV。

3.如权利要求2所述的基于机器学习的模型入模特征的筛选方法，其特征为：步骤A2中计算重要性指数IV为：

iv_i＝(p(b_i)-p(g_i))*woe_i

woe_i：第i组中坏样本和好样本的坏好比取对数；

b_i：第i组中坏样本的数量；

g_i：第i组中好样本的数量；

p(b_i)：第i组中的坏样本占所有坏样本的比例；

p(g_i)：第i组中的好样本占所有好样本比例；

b_sum：所有坏样本数；

g_sum：所有好样本数；

iv_i：第i组特征的重要性指数。

4.如权利要求1所述的基于机器学习的模型入模特征的筛选方法，其特征为：步骤B中，先将特征分为训练集和测试集，将训练集中的特征进行10次10折交叉验证，对得到10个特征重要性数据IF_i i∈{0,1,…,10}中相同的特征名分别计算重要性平均值if_i，再分别对每个重要性平均值if_i进行标准化映射到[0,1]区间内，得到一组特征重要性向量IF。

5.如权利要求4所述的基于机器学习的模型入模特征的筛选方法，其特征为：步骤B中，所述的对重要性平均值if_i进行标准化的方式为：

其中min(IF_avg)为所有重要性平均值if_i中的最小值，maxIF_avg为所有重要性平均值if_i中的最大值。

6.如权利要求1所述的基于机器学习的模型入模特征的筛选方法，其特征为：步骤D中，根据步骤C中加权计算时的加权系数的可取值的个数k，分别得到对应的k组特征加权重要性FWI，根据每组特征加权重要性FWI中重要度排序的前M个元素对应的特征通过机器学习算法建立模型，得到k个KS值，将最大KS值对应的特征作为最终的入模特征。