CN110334773A - 基于机器学习的模型入模特征的筛选方法 - Google Patents

基于机器学习的模型入模特征的筛选方法 Download PDF

Info

Publication number
CN110334773A
CN110334773A CN201910627409.9A CN201910627409A CN110334773A CN 110334773 A CN110334773 A CN 110334773A CN 201910627409 A CN201910627409 A CN 201910627409A CN 110334773 A CN110334773 A CN 110334773A
Authority
CN
China
Prior art keywords
feature
group
importance
value
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910627409.9A
Other languages
English (en)
Inventor
程林涛
卫浩
刘嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN201910627409.9A priority Critical patent/CN110334773A/zh
Publication of CN110334773A publication Critical patent/CN110334773A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于机器学习的模型入模特征的筛选方法,包括:A.计算特征的重要性指数IV;B.通过对所述的特征进行10折交叉验证,得到一组特征重要性向量IF;C.将所述的重要性指数IV和特征重要性向量IF进行加权得到特征加权重要性FWI列表;D.根据所建立的模型得到一组KS值,在测试集中将该组KS值中的最大KS值对应的特征加权重要性FWI所对应的特征作为最终的入模特征。本发明基于机器学习的模型入模特征的筛选方法,通过特征加权重要性FWI对入模特征进行筛选,只需建立k个模型,并且k<<n,使得模型的复杂度得到了极大的降低,提高了模型的表现,也大幅度缩短了模型训练的时间。

Description

基于机器学习的模型入模特征的筛选方法
技术领域
本发明涉及基于机器学习的模型入模特征的筛选方法。
背景技术
随着互联网发展至今,很多企业已经采集到了用户成千上万维度的数据,通过机器学习模型来挖掘有用的信息已成为普遍做法。在机器学习领域的其中一个共识就是数据质量决定了机器学习的上限,而模型和算法一直都是在逼近这个上限。因此特征工程的重要性就显得尤为突出,在含有成千上万的特征池中,选出稳定性高、区分能力强的特征对机器学习分类算法是一个巨大的挑战。
对于高维特征,现在常见的做法有两种:
1.对单变量进行重要性分析,利用信息量(Information Value)或信息增益(Information Gain)筛选出相对重要的特征;
2.利用机器学习算法模型本身输出的特征重要性进行筛选,例如决策树、梯度下降树(GBDT)算法等,是统计出特征最终出现在树中的次数,从而输出特征的重要性。
上述方法存在的问题如下:
第一种方法:使用单变量进行特征筛选,虽然可以分析出单变量的区分能力,但是容易忽略特征组合的作用,这也是为何单变量区分能力强的变量,而在最终模型中的重要性不高。
第二种方法:目前大多数企业采集的数据具有高维度、低饱和度(数据中的信息量少)的特点,例如逾期特征、黑名单特征等,这些特征本身覆盖的人群低,天然缺失率高,另外一些分类型变量通过one-hot编码后会使得数据变的更加稀疏,大大增加了模型的复杂度。低饱和度的特征也容易导致模型判断失准,而模型复杂度过高容易导致模型训练缓慢,这对基于大数据的建立模型可以说是灾难的。由于低饱和度和高复杂度的影响,模型筛选的入模特征组IF(Importance of Model Features)往往不是最优组合。
发明内容
本发明提供了一种基于机器学习的模型入模特征的筛选方法,以使建模时筛选的特征在提高模型表现的同时,也可以缩短模型训练的时间。
本发明基于机器学习的模型入模特征的筛选方法,包括:
A.计算特征的重要性指数IV;
B.通过对所述的特征进行10折交叉验证,得到一组特征重要性向量IF;
C.将所述的重要性指数IV和特征重要性向量IF进行加权得到特征加权重要性FWI列表;
D.根据所建立的模型得到一组KS值,在测试集中将该组KS值中的最大KS值对应的特征加权重要性FWI所对应的特征作为最终的入模特征。
具体的,步骤A包括:
A1.按照业务类型对所有的特征按照好样本或坏样本进行分组,并分别统计各组中好样本和坏样本分别具有的数量;
A2.通过计算每组样本的坏好比,得到特征的重要性指数IV。
进一步的,步骤A2中计算重要性指数IV为:
ivi=(p(bi)-p(gi))*woei
woei:第i组中坏样本和好样本的坏好比取对数;
bi:第i组中坏样本的数量;
gi:第i组中好样本的数量;
p(bi):第i组中的坏样本占所有坏样本的比例;
p(gi):第i组中的好样本占所有好样本比例;
bsum:所有坏样本数;
gsum:所有好样本数;
ivi:第i组特征的重要性指数。
具体的,步骤B中,先将特征分为训练集和测试集,将训练集中的特征进行10次10折交叉验证,对得到10个特征重要性数据IFii∈{0,1,…,10}中相同的特征名分别计算重要性平均值ifi,再分别对每个重要性平均值ifi进行标准化映射到[0,1]区间内,得到一组特征重要性向量IF。
进一步的,步骤B中,所述的对重要性平均值ifi进行标准化的方式为:
其中min(IFavg)为所有重要性平均值ifi中的最小值,max IFavg为所有重要性平均值ifi中的最大值。
具体的,步骤D中,根据步骤C中加权计算时的加权系数的可取值的个数k,分别得到对应的k组特征加权重要性FWI,根据每组特征加权重要性FWI中重要度排序的前M个元素对应的特征通过机器学习算法建立模型,得到k个KS(Kolmogorov-Smirnov)值,将最大KS值对应的特征作为最终的入模特征。
传统的入模变量筛选方法有前向搜索、后向搜索法。以前向搜索为例,通过循环不断的增加新的特征,如果模型表现提高值大于预期阈值,则新增特征入模,否则丢弃。通过这种方式不断新增特征,最后给出入模变量。这种方法每一步都相当于重新建立了一个新的模型,建立的模型数和特征数成正比,复杂度为O(n),其中n为特征数。对于大数据来说,这样的方式无疑会带来巨大的计算量。
本发明基于机器学习的模型入模特征的筛选方法,通过特征加权重要性FWI对入模特征进行筛选,只需建立k个模型,并且k<<n,使得模型的复杂度得到了极大的降低,提高了模型的表现,也大幅度缩短了模型训练的时间。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明基于机器学习的模型入模特征的筛选方法的流程图。
图2为实施例中KS值的取值示意图。
具体实施方式
如图1所示本发明基于机器学习的模型入模特征的筛选方法,包括:
A.计算特征的重要性指数IV:
A1.按照业务类型对所有的特征按照好样本或坏样本进行分组,并分别统计各组中好样本和坏样本分别具有的数量。例如银行申请贷款的客户,申请的结果有两种,逾期和非逾期,逾期的客户称为坏样本(客户),非逾期客户称为好样本(客户)。建模的目的就是区分出原始数据中的好样本和坏样本。
例如,将所有用户的年消费额进行分组,如表1所示:
表1:
A2.通过计算每组样本的坏好比,计算特征的重要性指数IV:
ivi=(p(bi)-p(gi))*woei
woei:第i组中坏样本和好样本的坏好比取对数;
bi:第i组中坏样本的数量;
gi:第i组中好样本的数量;
p(bi):第i组中的坏样本占所有坏样本的比例;
p(gi):第i组中的好样本占所有好样本比例;
bsum:所有坏样本数;
gsum:所有好样本数;
ivi:第i组特征的重要性指数。
B.将特征分为训练集和测试集,如表2所示,将训练集中的特征进行10次10折交叉验证,对得到10个特征重要性数据IFii∈{0,1,…,10}中相同的特征名分别计算重要性平均值ifi,再分别对每个重要性平均值ifi进行标准化映射到[0,1]区间内,得到一组特征重要性向量IF。所述对重要性平均值ifi进行标准化的方式为:
其中min(IFavg)为所有重要性平均值ifi中的最小值,max IFavg为所有重要性平均值ifi中的最大值。
表2:
C.将所述的重要性指数IV和特征重要性向量IF进行加权:
FWI=α·IV+(1-a)·IF(0<a<1)
得到特征加权重要性FWI的表3,其中加权系数α在0到1之间取值,通常是等距取值,例如按照0.1的步长等距,如取值为0、0.1、0.2、…1。
表3:
特征名 IV IF FWI
特征1 v<sub>1</sub> f<sub>1</sub> fwi<sub>1</sub>=α*v<sub>1</sub>+(1-α)f<sub>1</sub>
特征2 v<sub>2</sub> f<sub>2</sub> fwi<sub>2</sub>=α*v<sub>2</sub>+(1-α)f<sub>2</sub>
特征n v<sub>n</sub> f<sub>n</sub> fwi<sub>n</sub>=α*v<sub>n</sub>+(1-α)f<sub>n</sub>
D.利用网格搜索的思路,步骤C中的加权系数α有k种取值情况:每种αi都可以对应得到一组特征加权重要性FWI,最终可以得到k组特征加权重要性FWI。对每组特征加权重要性FWI都进行降序排列,选取每组特征加权重要性FWI中重要度排序前M个元素对应的特征,M的取值根据最后的模型效果而定,例如取重要度前10个元素和取前20个元素最后的得到的模型效果差别不大,则M为前10个元素。通过现有的GBDT机器学习算法建立模型,得到k个KS(Kolmogorov-Smirnov)值,如表4所示:
表4:
最后将最大KS值对应的特征作为最终的入模特征。这里的KS值用来刻画模型的分类效果,KS值越大模型的分类能力越强,表现的越好,KS值是根据每个模型得出的混淆矩阵进行计算,如表5所示:
表5:
其中:
TPR:真实的正例中被预测为正例的比例。
FPR:真实的负例中被预测为正例的比例。
TP(True Positive):真阳性,样本的真实类别是正例,并且模型预测的结果也是正例。
TN(True Negative):真阴性,样本的真实类别是负例,并且模型预测的结果也是负例。
FP(False Positive):假阳性,样本的真实类别是负例,但是模型预测结果却为正例。
FN(False Negative):假阴性,样本的真实类别是正例,但是模型预测结果却为负例。
采用上述本发明的方法,例如建模数据的样本量为67117个,特征数为1718个的数据集,其中样本的好坏比为10:1,样本按照7:3分为训练集和测试集,通过计算得到每个特征标准化后的特征重要性指数IV和特征重要性向量IF,加权得到特征加权重要性FWI,加权系数α介于0到1之间(包含0和1),每隔0.1选取一次,因此得到11组特征加权重要性FWI。对每组特征加权重要性FWI进行降序排列,选取排名靠前的100个特征建立GBDT模型,在测试集上计算KS值,得到如图2所示的实验结果。
从图2中可以看出,加权系数α=0.7时选取的特征组建立的模型,在测试集中KS达到的0.237为最高值,因此选取KS=0.237对应的特征作为入模特征。而单纯的依靠特征重要性指数IV或特征重要性向量IF选取的特征组建立的模型,KS值分别为0.223和0.18,表现相对较差。

Claims (6)

1.基于机器学习的模型入模特征的筛选方法,其特征包括:
A.计算特征的重要性指数IV;
B.通过对所述的特征进行10折交叉验证,得到一组特征重要性向量IF;
C.将所述的重要性指数IV和特征重要性向量IF进行加权得到特征加权重要性FWI列表;
D.根据所建立的模型得到一组KS值,在测试集中将该组KS值中的最大KS值对应的特征加权重要性FWI所对应的特征作为最终的入模特征。
2.如权利要求1所述的基于机器学习的模型入模特征的筛选方法,其特征为:步骤A包括:
A1.按照业务类型对所有的特征按照好样本或坏样本进行分组,并分别统计各组中好样本和坏样本分别具有的数量;
A2.通过计算每组样本的坏好比,得到特征的重要性指数IV。
3.如权利要求2所述的基于机器学习的模型入模特征的筛选方法,其特征为:步骤A2中计算重要性指数IV为:
ivi=(p(bi)-p(gi))*woei
woei:第i组中坏样本和好样本的坏好比取对数;
bi:第i组中坏样本的数量;
gi:第i组中好样本的数量;
p(bi):第i组中的坏样本占所有坏样本的比例;
p(gi):第i组中的好样本占所有好样本比例;
bsum:所有坏样本数;
gsum:所有好样本数;
ivi:第i组特征的重要性指数。
4.如权利要求1所述的基于机器学习的模型入模特征的筛选方法,其特征为:步骤B中,先将特征分为训练集和测试集,将训练集中的特征进行10次10折交叉验证,对得到10个特征重要性数据IFi i∈{0,1,…,10}中相同的特征名分别计算重要性平均值ifi,再分别对每个重要性平均值ifi进行标准化映射到[0,1]区间内,得到一组特征重要性向量IF。
5.如权利要求4所述的基于机器学习的模型入模特征的筛选方法,其特征为:步骤B中,所述的对重要性平均值ifi进行标准化的方式为:
其中min(IFavg)为所有重要性平均值ifi中的最小值,maxIFavg为所有重要性平均值ifi中的最大值。
6.如权利要求1所述的基于机器学习的模型入模特征的筛选方法,其特征为:步骤D中,根据步骤C中加权计算时的加权系数的可取值的个数k,分别得到对应的k组特征加权重要性FWI,根据每组特征加权重要性FWI中重要度排序的前M个元素对应的特征通过机器学习算法建立模型,得到k个KS值,将最大KS值对应的特征作为最终的入模特征。
CN201910627409.9A 2019-07-12 2019-07-12 基于机器学习的模型入模特征的筛选方法 Pending CN110334773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910627409.9A CN110334773A (zh) 2019-07-12 2019-07-12 基于机器学习的模型入模特征的筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627409.9A CN110334773A (zh) 2019-07-12 2019-07-12 基于机器学习的模型入模特征的筛选方法

Publications (1)

Publication Number Publication Date
CN110334773A true CN110334773A (zh) 2019-10-15

Family

ID=68146499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627409.9A Pending CN110334773A (zh) 2019-07-12 2019-07-12 基于机器学习的模型入模特征的筛选方法

Country Status (1)

Country Link
CN (1) CN110334773A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078520A (zh) * 2019-12-17 2020-04-28 四川新网银行股份有限公司 对银行用户界面操作慌忙程度的判断方法
CN111126627A (zh) * 2019-12-25 2020-05-08 四川新网银行股份有限公司 基于分离度指数的模型训练系统
CN111860630A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 基于特征重要性的模型建立方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022508A (zh) * 2016-05-06 2016-10-12 陈丛威 预测线上理财平台的用户邀请好友行为的方法和装置
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022508A (zh) * 2016-05-06 2016-10-12 陈丛威 预测线上理财平台的用户邀请好友行为的方法和装置
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078520A (zh) * 2019-12-17 2020-04-28 四川新网银行股份有限公司 对银行用户界面操作慌忙程度的判断方法
CN111078520B (zh) * 2019-12-17 2023-04-11 四川新网银行股份有限公司 对银行用户界面操作慌忙程度的判断方法
CN111126627A (zh) * 2019-12-25 2020-05-08 四川新网银行股份有限公司 基于分离度指数的模型训练系统
CN111860630A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 基于特征重要性的模型建立方法及系统
CN111860630B (zh) * 2020-07-10 2023-10-13 深圳无域科技技术有限公司 基于特征重要性的模型建立方法及系统

Similar Documents

Publication Publication Date Title
CN108345911A (zh) 基于卷积神经网络多级特征的钢板表面缺陷检测方法
WO2017143921A1 (zh) 一种多重抽样模型训练方法及装置
CN110334773A (zh) 基于机器学习的模型入模特征的筛选方法
CN108346145A (zh) 一种病理切片中非常规细胞的识别方法
CN108520114A (zh) 一种纺织布疵点检测模型及其训练方法和应用
CN110852288B (zh) 一种基于两阶段卷积神经网络的细胞图像分类方法
CN109344907A (zh) 基于改进评判标准分类算法的判别方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN108363810A (zh) 一种文本分类方法及装置
CN109657610A (zh) 一种高分辨率多源遥感影像的土地利用变化检测方法
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN110458201A (zh) 一种遥感影像面向对象分类方法及分类装置
CN108446616B (zh) 基于全卷积神经网络集成学习的道路提取方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN108614997A (zh) 一种基于改进AlexNet的遥感图像识别方法
CN110008853A (zh) 行人检测网络及模型训练方法、检测方法、介质、设备
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN105975611A (zh) 自适应组合降采样增强学习机
CN107239964A (zh) 用户价值评分方法和系统
CN110530779A (zh) 一种白细胞检测方法及装置
CN110009040A (zh) 一种面向不平衡金融数据的分类方法
CN107305640A (zh) 一种不均衡数据分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015