CN105740388B - 一种基于分布漂移数据集的特征选择方法 - Google Patents

一种基于分布漂移数据集的特征选择方法 Download PDF

Info

Publication number
CN105740388B
CN105740388B CN201610056798.0A CN201610056798A CN105740388B CN 105740388 B CN105740388 B CN 105740388B CN 201610056798 A CN201610056798 A CN 201610056798A CN 105740388 B CN105740388 B CN 105740388B
Authority
CN
China
Prior art keywords
feature
fss
data set
abs
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610056798.0A
Other languages
English (en)
Other versions
CN105740388A (zh
Inventor
汤奇峰
薛守辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201610056798.0A priority Critical patent/CN105740388B/zh
Publication of CN105740388A publication Critical patent/CN105740388A/zh
Application granted granted Critical
Publication of CN105740388B publication Critical patent/CN105740388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于分布漂移数据集的特征选择算法,具体包括过滤器和包装器两种版本,该算法通过引入特征泛化有效性分数(FGES)解决特征漂移问题,在给定数据集D、特征候选集F、需要选的特征数量N的设定下,可以产出对分类问题最有效的前N个特征及其排序。本发明使机器学习分类算法面对分布漂移数据集时,仍然可以使用过滤器和包装器类方法进行特征选择,进而提高机器学习分类算法运行效率、可扩展性和模型效果。

Description

一种基于分布漂移数据集的特征选择方法
技术领域
本发明涉及机器学习领域的特征选择和特征排序问题,尤其涉及了基于特征泛化能力有效性分数(FGES)的分布漂移数据集过滤器特征选择方法(DDFSF)和分布漂移数据集包装器特征选择方法(DDFSW)。
背景技术
近年来,随着大数据行业的发展,很多行业都产生了海量数据,包括数据种类、数据规模和数据维度都在不断膨胀。为了从大量数据中发现知识和价值,机器学习算法在工业界的应用越来越广泛。除了数据样本不断膨胀,数据特征种类和维度也在迅猛增长,特征维度可以达到千万甚至更大。海量的特征会给后续机器学习算法在可扩展性和效果方面带来一些问题。海量特征数据可能包含大量无关和冗余的特征,进而很大程度上降低了机器学习算法的效果。因此,当数据集包含大量特征数据时,在进行机器学习算法任务之前,进行特征选择是非常必要的。
特征选择算法通常被归纳为两种基本类型:过滤器(filter)和包装器(wrapper)。过滤器方法基于数据集的一般特性而不涉及具体机器学习算法;包装器方法则依赖特定的提前选择好的机器学习算法,然后根据其效果表现来评估和确定哪些特征被选择。
目前,无论是过滤器还是包装器,都有很多具体的特征选择算法可供选择,但其潜在假设都是基于静态数据集的,即通常假设训练集和测试集数据分布相同。这类方法通过在验证数据集上选择出特征子集,然后给后续机器学习算法使用,在测试数据集上往往是有效果的。在很多实际场景中(例如转化率预测、用户行为建模),数据集是动态变化的,进而导致特征分布也在动态变化。因此,这种情况的问题难点不仅在于特征维度高、无关特征、冗余特征这些特性,还在于特征数据的分布稳定程度或漂移程度。运用传统的特征选择方法,无论是过滤器还是包装器,在遇到分布漂移数据集时,选择出来的特征子集或者特征排序列表会因为数据分布漂移而失效。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于分布漂移数据集的特征选择方法,使传统的过滤器方法和包装器方法可以适用于分布漂移的动态数据集。
本发明的目的是通过以下技术方案实现的:
本发明首先提供了一种过滤器特征选择方法,包括以下步骤:
步骤1,给定数据集D,特征候选集合F,需要选择的特征数量N;
步骤2,计算特征候选集合F中每个特征的特征相关度分数FRS;
步骤3,计算特征候选集合F中每个特征的特征漂移程度分数FSS;
步骤4,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;
步骤5,将特征候选集合F的所有特征根据特征泛化能力有效性分数从大到小排序,得到特征排序列表;
步骤6,根据步骤5的特征排序列表,选出特征排序列表的前N个特征,作为最终的特征排序列表。
本发明还提供了包装器特征选择方法,包括以下步骤:
步骤1,给定机器学习模型M,给定数据集D、特征候选集合F,需要初选的特征数量N;
步骤2,计算特征候选集合F中每个特征的特征相关度分数FRS;
步骤3,计算特征候选集合F中每个特征的特征漂移程度分数FSS;
步骤4,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;
步骤5,将特征候选集合F的所有特征根据特征泛化能力有效性分数从大到小排序,得到特征排序列表;
步骤6,根据步骤5的特征排序列表,选出特征排序列表的前N个特征,作为初选特征排序列表。
步骤7,根据步骤6产生的初选特征排序列表,从前往后依次加入每个特征,依次形成N个特征子集,对每个特征子集训练机器学习模型M的评估效果;
步骤8,当机器学习模型M的效果达到要求或者N个特征都完成循环后,选出表现最好的机器学习模型M对应的特征子集。
上述的两种特征选择方法,其中,所述特征相关度分数FRS的计算方法为:互信息方法,即根据数据集D计算特征候选集合F中的每个特征的特征与标签的互信息,采用特征与标签的互信息作为每个特征的特征相关度分数FRS。
上述的两种特征选择方法,其中,所述特征相关度分数FRS的计算方法为:分类指标方法,即根据数据集D,通过包装器算法计算得出特征候选集合F中的每个特征的AUC指标或分类错误率,采用AUC指标或分类错误率作为每个特征的特征漂移程度分数FRS。
上述的两种特征选择方法,其中,所述特征漂移程度分数FSS通过以下方法计算:特征分布KL距离方法,即从数据集D中取出不重叠时间范围的两个子集D1和D2,对应的某特征f的分布分别为s1和s2,则FSS(f)=KL(s1,s2),KL即Kullback-Leibler Divergence方法。
上述的两种特征选择方法,其中,所述特征漂移程度分数FSS通过以下方法计算:特征标签联合分布KL距离方法,即从数据集D中取出不重叠时间范围的两个子集D1和D2,假设D1和D2中正例中特征f的分布分别为ps1,ps2,负例中特征f的分布分别为ns1,ns2,另外根据需要设定正、负例加权系数分别为pw和nw,则FSS=pw*KL(ps1,ps2)+nw*KL(ns1,ns2),通常取pw=nw=0.5。
上述的两种特征选择方法,其中,所述特征漂移程度分数FSS通过以下方法计算:特征统计量变化率方法,即即从数据集D中取出不重叠时间范围的两个子集D1和D2,分别计算这两个数据子集的某特征f的均值和方差,均值分别为v1、v2,方差分别为u1、u2,则FSS(f)=w1*abs(v2-v1)/abs(v1)+w2*abs(u2-u1)/abs(u1),其中,abs表示绝对值,abs(v2-v1)/abs(v1)为均值的相对变化率,abs(u2-u1)/abs(u1)为方差的相对变化率,w1和w2分别为均值和方差的加权系数,通常取w1=w2=0.5。
上述的两种特征选择方法,其中,所述特征漂移程度分数FSS通过以下方法计算:特征标签统计量变化率方法,即从数据集D中取出不重叠时间范围的两个子集D1和D2,假设D1和D2中正例中某特征f的均值分别为pv1、pv2,方差分别为pu1、pu2,负例的均值分别为nv1、nv2,方差分别为nu1、nu2,则FSS(f)=pw*(vw*abs(pv2-pv1)/abs(pv1)+uw*abs(pu2-pu1)/abs(pu1))+nw*abs(vw*abs(nv2-nv1)/abs(nv1)+uw*abs(nu2-nu1)/abs(nu1)),其中,pw和nw分别为正、负例的加权系数,vw和uw分别为均值和方差的加权系数,通常取pw=nw=0.5,vw=uw=0.5。
上述的两种特征选择方法,其中,所述特征泛化能力有效性分数FGES的计算公式为:FGES=g(FRS,FSS),其中g为FRS的非减函数,且为FSS的非增函数。
上述的两种特征选择方法,其中,所述特征泛化能力有效性分数FGES的计算公式为:FGES=FRS/FSS。
上述的两种特征选择方法,其中,所述特征泛化能力有效性分数FGES的计算公式为:FGES=log(FRS)/log(FSS)。
上述的两种特征选择方法,其中,所述特征泛化能力有效性分数F6ES的计算公式为:FGES=(1/rank(FRS))*(1/rrank(FSS));其中,rank为特征在特征候选集合F中根据某一指标按顺序排序的序号;rrank为特征在特征候选集合F中根据某一指标按逆序排序的序号,序号从1开始。
综上所述,与现有技术相比,本发明有以下优点和有益效果:
1、本发明提出的特征泛化能力有效性分数,作为一种特征排序指标,第一次解决了分布漂移数据集如何衡量特征有效性的问题。
2、本发明提出的分布漂移数据集过滤器特征选择方法和分布漂移数据集包装器特征选择方法、以及几种不同的计算方式,适用于不同应用场景下衡量数据集漂移的程度,可以用来改进、调试、和解释机器学习算法和运行效果。
3、本发明提出的分布漂移数据集上过滤器特征选择算法,第一次解决了分布漂移数据集上传统过滤器方法失效的问题。通过该过滤器特征选择算法,使后续机器学习算法在分布漂移数据集上的运行效率和效果都有显著提高。
4、本发明提出的分布漂移数据集上包装器特征选择算法,第一次解决了分布漂移数据集上传统包装器方法失效的问题。通过该包装器特征选择算法,使后续机器学习算法在分布漂移数据集上的运行效率和效果都有显著提高。
附图说明
图1是本发明一种基于分布漂移数据集的特征选择方法的分布漂移数据集过滤器特征选择方法的流程图。
图2是本发明一种基于分布漂移数据集的特征选择方法的分布漂移数据集包装器特征选择方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作详细介绍,请参见图1、图2。
实施例1
本发明是一种基于分布漂移数据集的特征选择方法,通过输入分布漂移数据集和特征候选集合,并同时考虑特征、标签之间的相关程度和特征随时间的漂移程度,得到最后的特征候选子集和特征排序列表。
本发明的特征选择方法基于一种特征评价指标:特征泛化能力有效性分数FGES。特征泛化能力有效性分数FGES是本发明提出的一个全新的概念,其计算综合了特征相关程度分数FRS和特征漂移程度分数FSS。特征相关程度分数FRS是指特征与标签之间的相关程度或重要程度;特征漂移程度分数是指特征分布随时间变化的程度或者特征标签组合随着时间变化的程度。
本发明针对过滤器方法和包装器方法分别提供了特征选择方法,即分布漂移数据集过滤器特征选择方法和分布漂移数据集包装器特征选择方法,分布漂移数据集过滤器特征选择方法和分布漂移数据集包装器特征选择方法都基于特征泛化能力有效性分数FGES这个特征排序指标。
本发明提出的分布漂移数据集过滤器特征选择方法和分布漂移数据集包装器特征选择方法,第一次解决了传统方法不能解决的数据漂移问题,给后续机器学习算法和模型提供了有效的特征子集。本发明使这些机器学习算法面对分布漂移数据集时,仍然可以使用过滤器和包装器类方法进行特征选择,进而提高机器学习算法运行效率、可扩展性和模型效果。
特征相关程度分数FRS采用下列方法的任意一种计算:
(1)互信息方法,记为FRS1,即根据数据集D计算特征候选集合F中的每个特征的特征与标签的互信息,采用特征与标签的互信息作为每个特征的特征相关度分数FRS。
例如,某广告数据集D,特征为“广告展示时间是星期几”,标签是“广告是否会被点击”,通过在数据集上计算“广告展示时间是星期几”与“广告是否会被点击”两列数据的互信息,假设计算结果为0.6,则特征“广告展示时间是星期几”的FRS为0.6。
(2)分类指标方法,记为FRS2,即根据数据集D,通过包装器算法计算得出特征候选集合F中的每个特征的AUC指标或分类错误率,采用AUC指标或分类错误率作为每个特征的特征漂移程度分数FRS。
例如,某广告数据集D,特征为“广告展示时间是星期几”,标签是“广告是否会被点击”,通过在数据集上仅使用特征“广告展示时间是星期几”来训练逻辑回归模型,并在测试集(D的子集)上评估AUC为0.814或分类错误率为0.023,对应的特征“广告展示时间是星期几”的FRS为0.814或者0.023。
特征漂移程度分数FSS采用下列方法的任意一种计算:
(1)特征分布KL距离方法,记为FSS1,即从数据集D中取出不重叠时间范围的两个子集D1和D2,对应的某特征f的分布分别为s1和s2,则FSS(f)=KL(s1,s2),KL即Kullback-Leibler Divergence方法。
例如,选取广告数据集D,共14天数据;D1为前7天数据,D2为后7天数据;D1和D2中特征“广告历史展示率”的分布分别为ps1,ps2;根据ps1和ps2计算两个分布的KL距离为0.356,则“广告历史展示率”特征的FSS为0.356。
(2)特征标签联合分布KL距离方法,记为FSS2,即从数据集D中取出不重叠时间范围的两个子集D1和D2,假设D1和D2中正例中特征f的分布分别为ps1,ps2,负例中特征f的分布分别为ns1,ns2,另外根据需要设定正、负例加权系数分别为pw和nw,则FSS=pw*KL(ps1,ps2)+nw*KL(ns1,ns2),通常取pw=nw=0.5。
例如,选取广告数据集D,共14天数据;D1为前7天数据,D2为后7天数据;D1和D2中正例的特征“广告历史展示率”的分布分别为ps1,ps2,计算KL距离为KL(ps1,ps2)=0.3;D1和D2中负例的特征广告历史展示率特征f的分布分别为ns1,ns2,计算KL距离为KL(ns1,ns2)=0.2;设定pw=nw=0.5,则最终计算特征“广告历史展示率”的FSS=0.5*0.3+0.5*0.2=0.25。
(3)特征统计量变化率方法,记为FSS3,即从数据集D中取出不重叠时间范围的两个子集D1和D2,分别计算这两个数据子集的某特征f的均值和方差,均值分别为v1、v2,方差分别为u1、u2,则FSS(f)=w1*abs(v2-v1)/abs(v1)+w2*abs(u2-u1)/abs(u1),其中,abs表示绝对值,abs(v2-v1)/abs(v1)为均值的相对变化率,abs(u2-u1)/abs(u1)为方差的相对变化率,w1和w2分别为均值和方差的加权系数,通常取w1=w2=0.5。
例如,选取广告数据集D,共14天数据;D1为前7天数据,D2为后7天数据;D1和D2中特征“广告历史展示率”的均值分别为v1=0.01、v2=0.02,方差分别为u1=0.001、u2=0.001,设定w1=w2=0.5,则根据上述公式计算特征“广告历史展示率”的FSS=0.5*abs(0.02-0.01)/0.01+0.5*abs(0.001-0.001)/0.001=0.5。
(4)特征标签统计量变化率方法,记为FSS4,即从数据集D中取出不重叠时间范围的两个子集D1和D2,假设D1和D2中正例中某特征f的均值分别为pv1、pv2,方差分别为pu1、pu2,负例的均值分别为nv1、nv2,方差分别为nu1、nu2,则FSS(f)=pw*(vw*abs(pv2-pv1)/abs(pv1)+uw*abs(pu2-pu1)/abs(pu1))+nw*abs(vw*abs(nv2-nv1)/abs(nv1)+uw*abs(nu2-nu1)/abs(nu1)),其中,pw和nw分别为正、负例的加权系数,vw和uw分别为均值和方差的加权系数,通常取pw=nw=0.5,vw=uw=0.5。
例如,选取广告数据集D,共14天数据;D1为前7天数据,D2为后7天数据;D1和D2中所有正例中特征“广告历史展示率”的均值分别为pv1=0.02、pv2=0.04,方差分别为u1=0.001、u2=0.002,D1和D2的所有负例中特征“广告历史展示率”的均值分别为nv1=0.01、nv2=0.02,方差分别为u1=0.001、u2=0.002;设定pw=nw=0.5且vw=uw=0.5,则根据上述公式计算特征“广告历史展示率”的FSS=0.5*(0.5*abs(0.04-0.02)/0.02+0.5*abs(0.002-0.001)/0.001)+0.5*(0.5*abs(0.02-0.01)/0.01+0.5*abs(0.002-0.001)/0.001)=1.0。
特征泛化能力有效性分数FGES的计算公式为:FGES=g(FRS,FSS),其中g为FRS的非减函数,且为FSS的非增函数。
函数g的选择具体情况包括以下几种:
(1)直接相除法,记为FGES1,g(FRS,FSS)=FRS/FSS。
(2)取对数相除法,记为FGES2,g(FRS,FSS)=log(FRS)/log(FSS),缓解了指标不平衡问题,使指标的稳定性变好。
(3)排序索引法,记为FGES3,g(FRS,FSS)=(1/rank(FRS))*(1/rrank(FSS));其中,rank为特征在特征候选集合F中根据某一指标按顺序排序的序号;rrank为特征在特征候选集合F中根据某一指标按逆序排序的序号,序号从1开始,本发明优先选择采用此方法。
FGES输入参数的选择共有8种:(FRS1,FSS1),(FRS1,FSS2),(FRS1,FSS3),(FRS1,FSS4),(FRS2,FSS1),(FRS2,FSS2),(FRS2,FSS3),(FRS2,FSS4)。
本发明提出的分布漂移数据集过滤器特征选择方法,包括以下步骤:
步骤1,给定数据集D,特征候选集合F,需要选择的特征数量N;
步骤2,计算特征候选集合F中每个特征的特征相关度分数FRS;
步骤3,计算特征候选集合F中每个特征的特征漂移程度分数FSS;
步骤4,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;
步骤5,将特征候选集合F的所有特征根据特征泛化能力有效性分数从大到小排序,得到特征排序列表;
步骤6,根据步骤5的特征排序列表,选出特征排序列表的前N个特征,作为最终的特征排序列表。
本发明提出的分布漂移数据集包装器特征选择方法,包括以下步骤:
步骤1,给定机器学习模型M,给定数据集D、特征候选集合F,需要初选的特征数量N;
步骤2,计算特征候选集合F中每个特征的特征相关度分数FRS;
步骤3,计算特征候选集合F中每个特征的特征漂移程度分数FSS;
步骤4,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;
步骤5,将特征候选集合F的所有特征根据特征泛化能力有效性分数从大到小排序,得到特征排序列表;
步骤6,根据步骤5的特征排序列表,选出特征排序列表的前N个特征,作为初选特征排序列表。
步骤7,根据步骤6产生的初选特征排序列表,从前往后依次加入每个特征,依次形成N个特征子集,对每个特征子集训练机器学习模型M的评估效果;
步骤8,当机器学习模型M的效果达到要求或者N个特征都完成循环后,选出表现最好的机器学习模型M对应的特征子集。
实施例2
计算特征泛化能力有效性分数FGES:
给定数据集D和特征候选集合F,特征候选集合F={A、B、C、D、E、F、G、H、I、J};对特征候选集合F中的每个特征,计算特征相关程度分数(FRS),本实施例采用“特征与标签的互信息”方法计算FRS,每个特征的FRS参见下列表一的对应列;对F集合中的每个特征,计算特征漂移程度分数FSS,本实施例采用“特征的KL距离”方法计算FSS,每个特征的FSS参见下列表一的对应列;对F集合中的每个特征,采用FGES=log(FRS)/log(FSS)的融合方法计算FGES,每个特征的FGES参见下列表一的对应列。
表一
Feature FRS FSS FGES
A 0.2 20 -0.53724
B 0.3 21 -0.39546
C 0.4 25 -0.28466
D 0.2 30 -0.4732
E 0.1 5 -1.43068
F 0.6 20 -0.17052
G 0.8 100 -0.04846
H 0.2 30 -0.4732
I 0.1 15 -0.85027
J 0.5 20 -0.23138
实施例3
分布漂移数据集过滤器特征选择方法:
(1)给定数据集D、特征候选集合F,需要选择的特征数量N;本实施例中,F={A、B、C、D、E、F、G、H、I、J},N=4。
(2)选择一种方法,计算特征候选集合F中每个特征的特征相关度分数FRS;本实施例中,采用“特征与标签的互信息”的方法计算FRS,具体值参见表一的对应列。
(3)选择一种方法,计算特征候选集合F中每个特征的特征漂移程度分数FSS;本实施例中,采用“特征的KL距离”的方法计算FSS,具体值参加表一的对应列;
(4)选择一种方法,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;本实施例中,采用FGES=log(FRS)/log(FSS)的融合方法计算FGES,具体值参加表一的对应列。例如FGES(G)=log(0.8)/log(100)=-0.04846。
(5)将特征候选集合F中的所有特征根据特征泛化能力有效性分数FGES按从大到小顺序排序;本实施例中,根据FGES给所有候选特征排序,构成排序列表,参见下列表二的Feature列和FGES列。
(6)根据表二,选出前N个特征的FGES值从大到小的排序列表作为算法最终产出;本实施例中,给出前N=4个特征作为选择算法产出的排序列表:G、F、J、C。
表二
Feature FRS FSS FGES
G 0.8 100 -0.04846
F 0.6 20 -0.17052
J 0.5 20 -0.23138
C 0.4 25 -0.28466
B 0.3 21 -0.39546
D 0.2 30 -0.4732
H 0.2 30 -0.4732
A 0.2 20 -0.53724
I 0.1 15 -0.85027
E 0.1 5 -1.43068
实施例4
分布漂移数据集包装器特征选择方法:
(1)给定机器学习模型M,给定数据集D、特征候选集合F,需要初选的特征数量N;本实施例中,机器学习模型M为逻辑回归,特征候选集合F={A、B、C、D、E、F、G、H、I、J},N=4。
根据分布漂移数据集上过滤器特征选择方法选择出前N个特征排序列表,作为初选特征排序列表;本实施例中,前N个特征排序列表为:G、F、J、C。
(2)根据初选特征排序列表{G、F、J、C},从前往后依次加入每个特征,形成特征子集,并训练机器学习模型M评估效果;本实施例中,依次加入每个特征后,并采用机器学习模型M训练数据,评估后得到的效果指标AUC(Area Under Curve)对应为:{(G):0.71,(G,F):0.73,(G,F,J):0.74,(G,F,J,C):0.73}。
(3)当模型效果达到要求时或者N个特征都完成循环后,选出表现最好的模型对应的特征子集作为算法最终产出;本实施例中,N个特征都已循环完毕,根据(2)的计算结果选出FGES最大值0.74对应的特征子集为:(G,F,J)。
综上所述,与现有技术相比,本发明有以下优点和有益效果:
1、本发明提出的特征泛化能力有效性分数,作为一种特征排序指标,第一次解决了分布漂移数据集如何衡量特征有效性的问题。
2、本发明提出的分布漂移数据集过滤器特征选择方法和分布漂移数据集包装器特征选择方法、以及几种不同的计算方式,适用于不同应用场景下衡量数据集漂移的程度,可以用来改进、调试、和解释机器学习算法和运行效果。
3、本发明提出的分布漂移数据集上过滤器特征选择算法,第一次解决了分布漂移数据集上传统过滤器方法失效的问题。通过该过滤器特征选择算法,使后续机器学习算法在分布漂移数据集上的运行效率和效果都有显著提高。
4、本发明提出的分布漂移数据集上包装器特征选择算法,第一次解决了分布漂移数据集上传统包装器方法失效的问题。通过该包装器特征选择算法,使后续机器学习算法在分布漂移数据集上的运行效率和效果都有显著提高。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡依本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。

Claims (11)

1.一种基于分布漂移数据集的特征选择方法,其特征在于,是一种过滤器特征选择方法,包括以下步骤:
步骤1,给定数据集D,特征候选集合F,需要选择的特征数量N;
步骤2,计算特征候选集合F中每个特征的特征相关度分数FRS;其中,所述特征相关度分数FRS是指特征与标签之间的相关程度或重要程度;
步骤3,计算特征候选集合F中每个特征的特征漂移程度分数FSS;其中,所述特征漂移程度分数FSS是指特征分布随时间变化的程度或者特征标签组合随着时间变化的程度;
步骤4,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;其中,所述特征泛化能力有效性分数FGES为一种特征评价指标,FGES=g(FRS,FSS),其中g为FRS的非减函数,且为FSS的非增函数;其计算综合了所述特征相关度分数FRS和所述特征漂移程度分数FSS;
步骤5,将特征候选集合F的所有特征根据特征泛化能力有效性分数从大到小排序,得到特征排序列表;
步骤6,根据步骤5的特征排序列表,选出特征排序列表的前N个特征,作为最终的特征排序列表。
2.一种基于分布漂移数据集的特征选择方法,其特征在于,是一种包装器特征选择方法,包括以下步骤:
步骤1,给定机器学习模型M,给定数据集D、特征候选集合F,需要初选的特征数量N;
步骤2,计算特征候选集合F中每个特征的特征相关度分数FRS;其中,所述特征相关度分数FRS是指特征与标签之间的相关程度或重要程度;
步骤3,计算特征候选集合F中每个特征的特征漂移程度分数FSS;其中,所述特征漂移程度分数FSS是指特征分布随时间变化的程度或者特征标签组合随着时间变化的程度;
步骤4,计算特征候选集合F中每个特征的特征泛化能力有效性分数FGES;其中,所述特征泛化能力有效性分数FGES为一种特征评价指标,FGES=g(FRS,FSS),其中g为FRS的非减函数,且为FSS的非增函数;其计算综合了所述特征相关度分数FRS和所述特征漂移程度分数FSS;
步骤5,将特征候选集合F的所有特征根据特征泛化能力有效性分数从大到小排序,得到特征排序列表;
步骤6,根据步骤5的特征排序列表,选出特征排序列表的前N个特征,作为初选特征排序列表;
步骤7,根据步骤6产生的初选特征排序列表,从前往后依次加入每个特征,依次形成N个特征子集,对每个特征子集训练机器学习模型M的评估效果;
步骤8,当机器学习模型M的效果达到要求或者N个特征都完成循环后,选出表现最好的机器学习模型M对应的特征子集。
3.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征相关度分数FRS的计算方法为:互信息方法,具体方法为:根据数据集D计算特征候选集合F中的每个特征的特征与标签的互信息,采用特征与标签的互信息作为每个特征的特征相关度分数FRS。
4.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征相关度分数FRS的计算方法为:分类指标方法,具体方法为:根据数据集D,通过包装器算法计算得出特征候选集合F中的每个特征的AUC指标或分类错误率,采用AUC指标或分类错误率作为每个特征的特征相关度分数FRS。
5.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征漂移程度分数FSS通过以下方法计算:特征分布KL距离方法,具体方法为:从数据集D中取出不重叠时间范围的两个子集D1和D2,对应的某特征f的分布分别为s1和s2,则FSS(f)=KL(s1,s2)。
6.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征漂移程度分数FSS通过以下方法计算:特征标签联合分布KL距离方法,具体方法为:从数据集D中取出不重叠时间范围的两个子集D1和D2,D1和D2中的正例中特征f的分布分别为ps1,ps2,负例中特征f的分布分别为ns1,ns2,根据需要设定正、负例加权系数分别为pw和nw,则FSS=pw*KL(ps1,ps2)+nw*KL(ns1,ns2),取pw=nw=0.5。
7.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征漂移程度分数FSS通过以下方法计算:特征统计量变化率方法,具体方法为:从数据集D中取出不重叠时间范围的两个子集D1和D2,分别计算这两个数据子集的某特征f的均值和方差,均值分别为v1、v2,方差分别为u1、u2,则FSS(f)=w1*abs(v2-v1)/abs(v1)+w2*abs(u2-u1)/abs(u1),其中,abs表示绝对值,abs(v2-v1)/abs(v1)为均值的相对变化率,abs(u2-u1)/abs(u1)为方差的相对变化率,w1和w2分别为均值和方差的加权系数,取w1=w2=0.5。
8.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征漂移程度分数FSS通过以下方法计算:特征标签统计量变化率方法,具体方法为:从数据集D中取出不重叠时间范围的两个子集D1和D2,D1和D2中正例中某特征f的均值分别为pv1、pv2,方差分别为pu1、pu2,负例的均值分别为nv1、nv2,方差分别为nu1、nu2,则FSS(f)=pw*(vw*abs(pv2-pv1)/abs(pv1)+uw*abs(pu2-pu1)/abs(pu1))+nw*abs(vw*abs(nv2-nv1)/abs(nv1)+uw*abs(nu2-nu1)/abs(nu1)),其中,abs表示绝对值,pw和nw分别为正、负例的加权系数,vw和uw分别为均值和方差的加权系数,取pw=nw=0.5,vw=uw=0.5。
9.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征泛化能力有效性分数FGES的计算公式为:FGES=FRS/FSS。
10.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征泛化能力有效性分数FGES的计算公式为:FGES=log(FRS)/log(FSS)。
11.根据权利要求1或2所述的一种基于分布漂移数据集的特征选择方法,其特征在于,所述特征泛化能力有效性分数FGES的计算公式为:FGES=(1/rank(FRS))*(1/rrank(FSS));其中,rank为特征在特征候选集合F中根据某一指标按顺序排序的序号;rrank为特征在特征候选集合F中根据某一指标按逆序排序的序号,序号从1开始。
CN201610056798.0A 2016-01-27 2016-01-27 一种基于分布漂移数据集的特征选择方法 Active CN105740388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610056798.0A CN105740388B (zh) 2016-01-27 2016-01-27 一种基于分布漂移数据集的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610056798.0A CN105740388B (zh) 2016-01-27 2016-01-27 一种基于分布漂移数据集的特征选择方法

Publications (2)

Publication Number Publication Date
CN105740388A CN105740388A (zh) 2016-07-06
CN105740388B true CN105740388B (zh) 2019-03-05

Family

ID=56247696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610056798.0A Active CN105740388B (zh) 2016-01-27 2016-01-27 一种基于分布漂移数据集的特征选择方法

Country Status (1)

Country Link
CN (1) CN105740388B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
CN109412969B (zh) * 2018-09-21 2021-10-26 华南理工大学 一种移动App流量统计特征选择方法
CN110210559B (zh) * 2019-05-31 2021-10-08 北京小米移动软件有限公司 对象筛选方法及装置、存储介质
CN112149700A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 特征漂移幅度的识别方法、装置、设备和存储介质
CN110942149B (zh) * 2019-10-31 2020-09-22 河海大学 一种基于信息变化率及条件互信息的特征变量选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559205A (zh) * 2013-10-09 2014-02-05 山东省计算中心 基于MapReduce的并行特征选择方法
CN104268572A (zh) * 2014-09-23 2015-01-07 南京大学 面向后台多源数据的特征提取和特征选择方法
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559205A (zh) * 2013-10-09 2014-02-05 山东省计算中心 基于MapReduce的并行特征选择方法
CN104268572A (zh) * 2014-09-23 2015-01-07 南京大学 面向后台多源数据的特征提取和特征选择方法
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105183813A (zh) * 2015-08-26 2015-12-23 山东省计算中心(国家超级计算济南中心) 基于互信息的用于文档分类的并行特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于遗传算法和互信息公式结合的特征选择";涂昌慧 等;《华南师范大学学报( 自然科学版)》;20141130;全文
"针对类别不平衡和代价敏感分类问题的特征选择和分类算法";王瑞;《中国博士学位论文全文数据库 信息科技辑》;20131015;18-21页

Also Published As

Publication number Publication date
CN105740388A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740388B (zh) 一种基于分布漂移数据集的特征选择方法
CN106651519B (zh) 基于标签信息的个性化推荐方法和系统
CN103399858B (zh) 基于信任的社会化协同过滤推荐方法
Bernard et al. Using artificial neural networks to identify learning styles
CN102495864A (zh) 基于评分的协同过滤推荐方法及系统
CN106339756A (zh) 训练数据的生成方法、搜索方法以及装置
CN103678431A (zh) 一种基于标准标签和项目评分的推荐方法
Pizzol et al. Identifying marginal supplying countries of wood products via trade network analysis
CN104166732B (zh) 一种基于全局评分信息的项目协同过滤推荐方法
CN113191838B (zh) 一种基于异质图神经网络的购物推荐方法及系统
CN102591915A (zh) 一种基于标签迁移学习的推荐方法
CN105404687A (zh) 学习行为的个性化推荐方法及系统
CN103136694A (zh) 基于搜索行为感知的协同过滤推荐方法
CN108319585A (zh) 数据处理方法及装置、电子设备、计算机可读介质
CN110188268A (zh) 一种基于标签和时间信息的个性化推荐方法
Mueller et al. Are Australian wine consumers becoming more environmentally conscious? Robustness of latent preference segments over time
CN108052680B (zh) 基于数据图谱、信息图谱和知识图谱的图像数据目标识别增强方法
US20170372331A1 (en) Marking of business district information of a merchant
Kim et al. Kernel ridge regression with lagged-dependent variable: Applications to prediction of internal bond strength in a medium density fiberboard process
Udemba et al. Environmental performance of Turkey amidst foreign direct investment and agriculture: A time series analysis
CN103678709B (zh) 一种基于时序数据的推荐系统攻击检测方法
CN104867032A (zh) 电子商务客户评价鉴别系统
CN101882259A (zh) 用于对实体关系实例进行过滤的方法和设备
CN104933082B (zh) 评价信息处理方法及其装置
CN116089504A (zh) 一种关系型表格数据生成方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant