CN107480686B - 一种筛选机器学习特征的方法和装置 - Google Patents

一种筛选机器学习特征的方法和装置 Download PDF

Info

Publication number
CN107480686B
CN107480686B CN201610405496.XA CN201610405496A CN107480686B CN 107480686 B CN107480686 B CN 107480686B CN 201610405496 A CN201610405496 A CN 201610405496A CN 107480686 B CN107480686 B CN 107480686B
Authority
CN
China
Prior art keywords
feature
training
characteristic
result
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610405496.XA
Other languages
English (en)
Other versions
CN107480686A (zh
Inventor
张柯
褚巍
施兴
姜晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610405496.XA priority Critical patent/CN107480686B/zh
Publication of CN107480686A publication Critical patent/CN107480686A/zh
Application granted granted Critical
Publication of CN107480686B publication Critical patent/CN107480686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种筛选机器学习特征的方法和装置,涉及机器学习模型领域,包括:利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;根据所述衰减率确定满足预设条件的特征作为筛选特征集合。最大程度地降低了模型的复杂度,从而大大减少人工成本与时间成本,提升工作效率。

Description

一种筛选机器学习特征的方法和装置
技术领域
本发明涉及机器学习模型领域,具体涉及一种筛选机器学习特征的方法和装置。
背景技术
目前对金融相关模型进行建模,主要是通过先收集大量特征,利用机器学习算法对大数据进行分类或回归计算,为了能简便的得到对机器学习有贡献的特征,需要对所有特征进行梳理,相关技术中,人为地利用业务经验选取与其有关联的特征,然后再综合特征的可解释性以及指标等不同维度对特征进行详细优化,能够运用到可能对金融相关模型产生影响的特征纷繁复杂,种类繁多,据初步统计,能够用来金融相关模型训练的特征数有上千个甚至上万个,这中间的每步都需要大量地人工进行干预,而靠人工筛选特征的工作量非常大,导致建模的周期拉长,已经成为了整个建模开发周期的瓶颈。而且特征的选取直接影响到模型的训练效果,建模人员需要具备相当强的业务经验,工作效率大大降低。
目前,急需引入既高效又能实现程序自动化的方法来帮助建模人员筛选出比较优质的特征。
发明内容
本发明提供一种筛选机器学习特征的方法和装置,通过挖掘自变量特征与因变量特征之间的依赖关系将整个建模筛选特征的过程实现自动化。
为了实现上述发明目的,本发明采取的技术方案如下:
一种筛选机器学习特征的方法,包括:
利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;
利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;
分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;
比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;
根据所述衰减率确定满足预设条件的特征作为筛选特征集合。
优选地,所述的方法还包括:
获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数;
根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。
优选地,利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果包括:
将所述训练特征集合内的全部特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。
优选地,分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果包括:
去掉所述训练特征集合中的第i个特征,将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUCi和区分点性能指标KSi,N为所述训练特征集合中包含的特征的个数,1≤i≤N。
优选地,比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率包括:
利用如下公式计算去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi和区分点性能指标KSi衰减率:
Figure BDA0001013101930000031
Figure BDA0001013101930000032
其中,αi为去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi的衰减率,βi为去掉所述训练特征集合中的第i个特征的区分点性能指标KSi的衰减率。
优选地,根据所述衰减率确定满足预设条件的特征作为筛选特征集合包括:
将衰减率αi大于或者等于0且衰减率βi大于或者等于0对应的特征从所述训练特征集合中删除,获得所述筛选特征集合。
优选地,根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括:
根据所述剩余特征的权重值、体现所述剩余特征波动性的样本值和所述剩余特征的性能结果衰减率的单调递增函数,确定所述剩余特征的波动特征参数。
优选地,根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括:
利用如下公式计算所述剩余特征的波动特征参数:
Figure BDA0001013101930000033
Scorek表示第k个剩余特征的波动特征参数,xik表示第k个剩余特征的第j条样本的值,
Figure BDA0001013101930000034
表示第k个剩余特征的平均值,wk为第k个剩余特征的权重值,n为采样总数,1≤j≤n,αk为第k个剩余特征的性能指标AUCk的衰减率,βk为第k个剩余特征的性能指标KSk的衰减率。
优选地,获得所述筛选特征集合中每个剩余特征的信息价值包括:
利用如下公式计算所述剩余特征的信息价值:
Figure BDA0001013101930000041
goodNumq与badNumq分别表示第q个分位区间的负样本数与正样本数,badq%表示第q个分位区间的正样本比例,goodq%表示第q个分位区间的负样本比例,n为采样总数,1≤q≤n。
优选地,根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合包括:
将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序;
按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。
本发明实施例还提供一种筛选机器学习特征的装置,包括:
初选模块,设置为利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;
全量训练模块,设置为利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;
特征训练模块,设置为分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;
衰减模块,设置为比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;
特征筛选模块,设置为根据所述衰减率确定满足预设条件的特征作为筛选特征集合。
优选地,所述的装置还包括:
波动模块,设置为获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数;
特征保留模块,设置为根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。
优选地,所述全量训练模块设置为:
将所述训练特征集合内的全部特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。
优选地,所述特征训练模块设置为:
去掉所述训练特征集合中的第i个特征,将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUCi和区分点性能指标KSi,N为所述训练特征集合中包含的特征的个数,1≤i≤N。
优选地,所述衰减模块设置为:
利用如下公式计算去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi和区分点性能指标KSi衰减率:
Figure BDA0001013101930000051
Figure BDA0001013101930000052
其中,αi为去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi的衰减率,βi为去掉所述训练特征集合中的第i个特征的区分点性能指标KSi的衰减率。
优选地,所述特征筛选模块设置为:
将衰减率αi大于或者等于0且衰减率βi大于或者等于0对应的特征从所述训练特征集合中删除,获得所述筛选特征集合。
优选地,所述波动模块根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数是指:
利用如下公式计算所述剩余特征的波动特征参数:
Figure BDA0001013101930000061
Scorek表示第k个剩余特征的波动特征参数,xik表示第k个剩余特征的第j条样本的值,
Figure BDA0001013101930000062
表示第k个剩余特征的平均值,wk为第k个剩余特征的权重值,n为采样总数,1≤j≤n,αk为第k个剩余特征的性能指标AUCk的衰减率,βk为第k个剩余特征的性能指标KSk的衰减率。
优选地,所述波动模块获得所述筛选特征集合中每个剩余特征的信息价值是指:
利用如下公式计算所述剩余特征的信息价值:
Figure BDA0001013101930000063
goodNumq与badNumq分别表示第q个分位区间的负样本数与正样本数,badq%表示第q个分位区间的正样本比例,goodq%表示第q个分位区间的负样本比例,n为采样总数,1≤q≤n。
优选地,所述特征保留模块设置为:
将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序;
按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。
本发明和现有技术相比,具有如下有益效果:
本发明针对金融相关模型自身的建模特点,结合统计学上的因果关系理论,通过挖掘自变量特征与因变量特征之间的依赖关系将整个建模筛选特征的过程实现自动化,在没有任何人工干预的情况下从数量繁多的特征中选取出最优质的特征用以模型训练,在保证模型性能效果的同时,最大程度地降低了模型的复杂度,从而大大减少人工成本与时间成本,提升工作效率。
附图说明
图1为本发明实施例的筛选机器学习特征的方法的流程图;
图2为本发明实施例的筛选机器学习特征的装置的结构示意图;
图3为本发明实施例1的筛选机器学习特征任务的流程图。
具体实施方式
为使本发明的发明目的、技术方案和有益效果更加清楚明了,下面结合附图对本发明的实施例进行说明,需要说明的是,在不冲突的情况下,本申请中的实施例和实施例中的特征可以相互任意组合。
如图2所示,本发明实施例提供一种筛选机器学习特征的方法,包括:
S101、利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;
S102、利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;
S103、分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;
S104、比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;
S105、根据所述衰减率确定满足预设条件的特征作为筛选特征集合。
如果去除衰减率不满足预设条件的特征之后,获得的筛选特征集合不满足需求,则进行:
S106、获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数;
S107、根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。
其中,步骤S101的主要目的在于对收集的所有特征进行一次初步的梳理,把明显与目标变量不相关的特征过滤掉,可以使用线性模型(如LR(逻辑回归,LogisticRegression)等),也可以使用非线性模型(如GBDT(Gradient Boosting Decision Tree,梯度提升决策树))。
其中,步骤S102具体包括:
将所述训练特征集合内的全部特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。
其中,步骤S103具体包括:
去掉所述训练特征集合中的第i个特征,将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练,计算出评价模型性能指标的曲线面积性能指标AUCi和区分点性能指标KSi,N为所述训练特征集合中包含的特征的个数,1≤i≤N。
性能指标AUC是Area Under roc Curve的缩写,表示ROC(Receiver OperatingCharacteristic,受试者工作特征)曲线与横坐标轴或纵坐标轴之间的面积,主要是从模型对目标变量的总体抓坏覆盖角度的评价指标,性能指标KS是Kolmogorov–Smirnov的缩写,柯尔莫哥洛夫-斯摩洛夫,用来检验特征的分布是不是符合一个理论的已知分布,是从模型对目标变量分类能力角度的评价指标,这两个指标的取值范围都在0到1之间,越接近1代表模型性能越好。
其中,步骤S104包括:
利用如下公式计算去掉所述训练特征集合中的第i个特征的性能指标AUCi和KSi衰减率:
Figure BDA0001013101930000081
Figure BDA0001013101930000082
其中,αi为去掉所述训练特征集合中的第i个特征的性能指标AUCi的衰减率,βi为去掉所述训练特征集合中的第i个特征的性能指标KSi的衰减率。
如果αi小于0或着βi小于0,说明该特征在模型中的干扰性较强,故应该优先丢弃这样的特征,因此步骤S105包括:
将衰减率αi大于或者等于0且衰减率βi大于或者等于0对应的特征从所述训练特征集合中删除,获得所述筛选特征集合。
步骤S106中根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括:
根据所述剩余特征的权重值、体现所述剩余特征波动性的样本值和所述剩余特征的性能结果衰减率的单调递增函数,确定所述剩余特征的波动特征参数。
具体地,利用如下公式计算所述剩余特征的波动特征参数:
Figure BDA0001013101930000091
Scorek表示第k个剩余特征的波动特征参数,xik表示第k个剩余特征的第j条样本的值,
Figure BDA0001013101930000092
表示第k个剩余特征的平均值,wk为第k个剩余特征的权重值,n为采样总数,1≤j≤n,αk为第k个剩余特征的性能指标AUCk的衰减率,βk为第k个剩余特征的性能指标KSk的衰减率。
Figure BDA0001013101930000093
是n个所述剩余特征样本值的标准差,体现了所述剩余特征波动性,
Figure BDA0001013101930000094
分别是关于性能指标AUCk的衰减率和性能指标KSk的衰减率的单调递增函数,衰减率越大,函数值越大,结合所述剩余特征的权重值、体现所述剩余特征波动性的样本值和所述剩余特征的性能结果衰减率的单调递增函数,获得所述剩余特征的波动特征参数体现所述剩余特征的综合得分。
步骤S106中获得所述筛选特征集合中每个剩余特征的信息价值包括:
利用如下公式计算所述剩余特征的信息价值:
Figure BDA0001013101930000101
goodNumq与badNumq分别表示第q个分位区间的负样本数与正样本数,badq%表示第q个分位区间的正样本比例,goodq%表示第q个分位区间的负样本比例,n为采样总数,1≤q≤n。
分位区间是根据分位点来进行区间划分的,分位点是将样本空间排序后按照预设划分为若干区间的第一样本的特征值。
剩余特征的信息价值iv体现剩余特征在使用、汇总、整合、分析过程中产生的价值和贡献度。
步骤S107包括:
将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序;
按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。
如图2所示,本发明实施例还提供一种筛选机器学习特征的装置,包括:
初选模块,设置为利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;
全量训练模块,设置为利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;
特征训练模块,设置为分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;
衰减模块,设置为比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;
特征筛选模块,设置为根据所述衰减率确定满足预设条件的特征作为筛选特征集合。
所述的装置还包括:
波动模块,设置为获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数;
特征保留模块,设置为根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。
所述全量训练模块设置为:
将所述训练特征集合内的全部特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。
所述特征训练模块设置为:
去掉所述训练特征集合中的第i个特征,将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUCi和区分点性能指标KSi,N为所述训练特征集合中包含的特征的个数,1≤i≤N。
所述衰减模块设置为:
利用如下公式计算去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi和区分点性能指标KSi衰减率:
Figure BDA0001013101930000111
Figure BDA0001013101930000112
其中,αi为去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi的衰减率,βi为去掉所述训练特征集合中的第i个特征的区分点性能指标KSi的衰减率。
所述特征筛选模块设置为:
将衰减率αi大于或者等于0且衰减率βi大于或者等于0对应的特征从所述训练特征集合中删除,获得所述筛选特征集合。
所述波动模块根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数是指:
利用如下公式计算所述剩余特征的波动特征参数:
Figure BDA0001013101930000121
Scorek表示第k个剩余特征的波动特征参数,xik表示第k个剩余特征的第j条样本的值,
Figure BDA0001013101930000122
表示第k个剩余特征的平均值,wk为第k个剩余特征的权重值,n为采样总数,1≤j≤n,αk为第k个剩余特征的性能指标AUCk的衰减率,βk为第k个剩余特征的性能指标KSk的衰减率。
所述波动模块获得所述筛选特征集合中每个剩余特征的信息价值是指:
利用如下公式计算所述剩余特征的信息价值:
Figure BDA0001013101930000123
goodNumq与badNumq分别表示第q个分位区间的负样本数与正样本数,badq%表示第q个分位区间的正样本比例,goodq%表示第q个分位区间的负样本比例,n为采样总数,1≤q≤n。
所述特征保留模块设置为:
将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序;
按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。。
实施例1
如图3所示,本发明实施例说明筛选机器学习特征任务的步骤:
第一步,利用机器学习算法对特征进行筛选,将明显与目标变量不相关的特征过滤掉。
第二步,将剩余特征进行模型训练并评估其性能结果。用逻辑回归算法对剩余特征进行训练,计算出用于评价模型性能的指标AUC与KS,同时记w1、w2、…wn表示每个特征在模型中的权重值。
第三步,分别去掉每个特征进行模型训练及评估。分别去掉每一个特征用逻辑回归模型进行重新训练,得出评估指标,记去掉第i个特征的模型性能指标分别为AUCi、KSi
第四步,丢弃特征:通过以上步骤的计算,计算得到了全部特征的AUC、KS以及去掉第i个特征的AUCi、KSi。记αi和βi分别表示去掉第i个特征后AUC与KS的衰减率,公式分别为:
Figure BDA0001013101930000131
Figure BDA0001013101930000132
如果αi小于0或着βi小于0,说明该特征在模型中的干扰性较强,故这样的特征应该优先丢弃。
第五步,保留特征:为剩下每个特征进行波动特征参数打分,具体Score公式为:
Figure BDA0001013101930000133
其中,Scorek表示第k个剩余特征的波动特征参数,xik表示第k个剩余特征的第j条样本的值,
Figure BDA0001013101930000134
表示第k个剩余特征的平均值,wk为第k个剩余特征的权重值,n为采样总数,1≤j≤n,αk为第k个剩余特征的性能指标AUCk的衰减率,βk为第k个剩余特征的性能指标KSk的衰减率。
将剩余特征按score分进行降序排序,按照所述排序保留满足数量需求的剩余特征,例如TOP5特征可以直接进入保留特征集合。
引入信息价值iv值计算公式:
Figure BDA0001013101930000135
goodNumq与badNumq分别表示第q个分位区间的负样本数与正样本数,badq%表示第q个分位区间的正样本比例,goodq%表示第q个分位区间的负样本比例,n为采样总数,1≤q≤n。
按照信息价值iv排序保留满足数量需求的剩余特征,例如除了TOP5特征可以直接被保留之外,如果score分与iv值的排名分别都排在TOP20之内的特征,也可进入保留特征集合。
第六步,判断全部保留特征数量是否满足需求。如果满足,则退出。如不满足,将丢弃特征与保留特征同时剥离出现有特征,利用剩余的特征返回第二步,继续进行新一轮的筛选。
虽然本发明所揭示的实施方式如上,但其内容只是为了便于理解本发明的技术方案而采用的实施方式,并非用于限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭示的核心技术方案的前提下,可以在实施的形式和细节上做任何修改与变化,但本发明所限定的保护范围,仍须以所附的权利要求书限定的范围为准。

Claims (14)

1.一种筛选机器学习特征的方法,其特征在于,包括:
利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;
利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;
分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;
比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;
根据所述衰减率确定满足预设条件的特征作为筛选特征集合;
获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数;
其中,根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括:
第k个剩余特征的波动 特征参数根据第一结果、第二结果、第三结果的乘积确定,
分别计算第k个剩余特征的第1至第n条样本的值与第k个剩余特征的平均值的差值的平均值作为第四结果,所述第一结果为第k个剩余特征的权重值除以开平方后的第四结果;所述第二结果为1加上第k个剩余特征的性能指标AUCk的衰减率与1减去所述第k个剩余特征的性能指标AUCk的衰减率的商;所述第三结果为1加上第k个剩余特征的性能指标KSk的衰减率与1减去所述第k个剩余特征的性能指标KSk的衰减率的商;
获得所述筛选特征集合中每个剩余特征的信息价值包括:
所述剩余特征的信息价值根据第五结果和第六结果的乘积在第q个分位区间至第n个分位区间的和确定,n为采样总数,1≤q≤n,
所述第五结果为第q个分位区间的负样本数与正样本数的差值,所述第六结果为对第q个分位区间的正样本比例与第q个分位区间的负样本比例的商取以常数e为底数的对数的值。
2.如权利要求1所述的方法,其特征在于:还包括:
根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。
3.如权利要求1所述的方法,其特征在于:利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果包括:
将所述训练特征集合内的全部特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。
4.如权利要求3所述的方法,其特征在于:分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果包括:
去掉所述训练特征集合中的第i个特征,将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUCi和区分点性能指标KSi,N为所述训练特征集合中包含的特征的个数,1≤i≤N。
5.如权利要求4所述的方法,其特征在于:比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率包括:
利用如下公式计算去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi和区分点性能指标KSi衰减率:
Figure FDA0002780230660000021
Figure FDA0002780230660000022
其中,αi为去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi的衰减率,βi为去掉所述训练特征集合中的第i个特征的区分点性能指标KSi的衰减率。
6.如权利要求5所述的方法,其特征在于:根据所述衰减率确定满足预设条件的特征作为筛选特征集合包括:
将衰减率αi大于或者等于0且衰减率βi大于或者等于0对应的特征从所述训练特征集合中删除,获得所述筛选特征集合。
7.如权利要求2所述的方法,其特征在于:根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合包括:
将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序;
按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。
8.一种筛选机器学习特征的装置,其特征在于:包括:
初选模块,设置为利用机器学习算法对收集的特征进行初步筛选,获得训练特征集合;
全量训练模块,设置为利用所述训练特征集合内的全部特征进行模型训练,并获得所述训练特征集合全量特征的性能结果;
特征训练模块,设置为分别去掉所述训练特征集合中的每一个特征,利用所述训练特征集合中剩下的特征进行模型训练,并获得所述训练特征集合去掉所述特征的性能结果;
衰减模块,设置为比较所述全量特征的性能结果和去掉所述特征的性能结果,获得去掉所述特征的性能结果衰减率;
特征筛选模块,设置为根据所述衰减率确定满足预设条件的特征作为筛选特征集合;
波动模块,设置为获得所述筛选特征集合中每个剩余特征的信息价值和/或根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数;
其中,根据所述筛选特征集合中每个剩余特征的权重值获得每个剩余特征的波动特征参数包括:
第k个剩余特征的波动 特征参数根据第一结果、第二结果、第三结果的乘积确定,
分别计算第k个剩余特征的第1至第n条样本的值与第k个剩余特征的平均值的差值的平均值作为第四结果,所述第一结果为第k个剩余特征的权重值除以开平方后的第四结果;所述第二结果为1加上第k个剩余特征的性能指标AUCk的衰减率与1减去所述第k个剩余特征的性能指标AUCk的衰减率的商;所述第三结果为1加上第k个剩余特征的性能指标KSk的衰减率与1减去所述第k个剩余特征的性能指标KSk的衰减率的商;
获得所述筛选特征集合中每个剩余特征的信息价值包括:
所述剩余特征的信息价值根据第五结果和第六结果的乘积在第q个分位区间至第n个分位区间的和确定,n为采样总数,1≤q≤n,
所述第五结果为第q个分位区间的负样本数与正样本数的差值,所述第六结果为对第q个分位区间的正样本比例与第q个分位区间的负样本比例的商取以常数e为底数的对数的值。
9.如权利要求8所述的装置,其特征在于:还包括:
特征保留模块,设置为根据所述剩余特征的波动特征参数和/或信息价值确定满足需求的剩余特征作为保留特征集合。
10.如权利要求8所述的装置,其特征在于:所述全量训练模块设置为:
将所述训练特征集合内的全部特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUC和区分点性能指标KS。
11.如权利要求10所述的装置,其特征在于:所述特征训练模块设置为:
去掉所述训练特征集合中的第i个特征,将所述训练特征集合中剩下的N-1个特征利用逻辑回归算法进行训练,计算出评价模型的曲线面积性能指标AUCi和区分点性能指标KSi,N为所述训练特征集合中包含的特征的个数,1≤i≤N。
12.如权利要求11所述的装置,其特征在于:所述衰减模块设置为:
利用如下公式计算去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi和区分点性能指标KSi衰减率:
Figure FDA0002780230660000051
Figure FDA0002780230660000052
其中,αi为去掉所述训练特征集合中的第i个特征的曲线面积性能指标AUCi的衰减率,βi为去掉所述训练特征集合中的第i个特征的区分点性能指标KSi的衰减率。
13.如权利要求12所述的装置,其特征在于:所述特征筛选模块设置为:
将衰减率αi大于或者等于0且衰减率βi大于或者等于0对应的特征从所述训练特征集合中删除,获得所述筛选特征集合。
14.如权利要求9所述的装置,其特征在于:所述特征保留模块设置为:
将获得的所述筛选特征集合中每个剩余特征的信息价值和/或波动特征参数进行降序排序;
按照所述排序保留满足数量需求的剩余特征获得所述保留特征集合。
CN201610405496.XA 2016-06-08 2016-06-08 一种筛选机器学习特征的方法和装置 Active CN107480686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610405496.XA CN107480686B (zh) 2016-06-08 2016-06-08 一种筛选机器学习特征的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610405496.XA CN107480686B (zh) 2016-06-08 2016-06-08 一种筛选机器学习特征的方法和装置

Publications (2)

Publication Number Publication Date
CN107480686A CN107480686A (zh) 2017-12-15
CN107480686B true CN107480686B (zh) 2021-03-30

Family

ID=60594404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610405496.XA Active CN107480686B (zh) 2016-06-08 2016-06-08 一种筛选机器学习特征的方法和装置

Country Status (1)

Country Link
CN (1) CN107480686B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408772A (zh) * 2018-10-11 2019-03-01 四川长虹电器股份有限公司 对连续性数据中的异常数据的恢复方法
CN113348254A (zh) * 2018-10-18 2021-09-03 免疫医疗有限责任公司 用于确定针对癌症患者的治疗的方法
CN110796381A (zh) * 2019-10-31 2020-02-14 深圳前海微众银行股份有限公司 建模数据评价指标的处理方法、装置、终端设备及介质
CN113496335A (zh) * 2020-04-07 2021-10-12 厦门邑通软件科技有限公司 一种记录决策行为的方法、系统和设备
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统
CN112364012B (zh) * 2021-01-14 2021-04-09 上海冰鉴信息科技有限公司 数据特征确定方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002061678A3 (en) * 2001-01-31 2004-01-22 Prediction Dynamics Ltd Feature selection for neural networks

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367300C (zh) * 2006-07-07 2008-02-06 华中科技大学 一种基于人工神经网络的特征选择方法
US9406017B2 (en) * 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
CN103679211A (zh) * 2013-12-05 2014-03-26 河海大学 基于神经网络敏感性的特征选择方法及其装置
CN105389471A (zh) * 2015-11-19 2016-03-09 电子科技大学 一种机器学习训练集缩减方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002061678A3 (en) * 2001-01-31 2004-01-22 Prediction Dynamics Ltd Feature selection for neural networks

Also Published As

Publication number Publication date
CN107480686A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN107480686B (zh) 一种筛选机器学习特征的方法和装置
CN107122594B (zh) 一种新能源车辆电池的健康预测方法和系统
US10606862B2 (en) Method and apparatus for data processing in data modeling
CN109271374B (zh) 一种基于机器学习的数据库健康度打分方法和打分系统
CN108898479B (zh) 信用评价模型的构建方法及装置
WO2017143921A1 (zh) 一种多重抽样模型训练方法及装置
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN110928764A (zh) 移动应用众包测试报告自动化评估方法及计算机存储介质
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
CN109163997B (zh) 一种基于声谱图深度学习的岩石表面强度测定方法
CN110826785B (zh) 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法
CN110263827A (zh) 基于交易规律识别的异常交易检测方法及装置
CN108647729B (zh) 一种用户画像获取方法
CN110568483A (zh) 基于卷积神经网络的地震线性噪声压制效果自动评估方法
CN110956277A (zh) 一种交互式的迭代建模系统及方法
CN114662793A (zh) 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN113077271A (zh) 一种基于bp神经网络的企业信用评级方法及装置
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
CN110196797B (zh) 适于信用评分卡系统的自动优化方法和系统
CN111738870A (zh) 基于特征工程的工程履约保证保险风险识别方法与平台
CN107957944B (zh) 面向用户数据覆盖率的测试用例自动生成方法
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN115860141A (zh) 一种自动化机器学习交互式黑箱可视建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211103

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG TMALL TECHNOLOGY Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.