CN109800790A - 一种面向高维数据的特征选择方法 - Google Patents
一种面向高维数据的特征选择方法 Download PDFInfo
- Publication number
- CN109800790A CN109800790A CN201811580747.3A CN201811580747A CN109800790A CN 109800790 A CN109800790 A CN 109800790A CN 201811580747 A CN201811580747 A CN 201811580747A CN 109800790 A CN109800790 A CN 109800790A
- Authority
- CN
- China
- Prior art keywords
- feature
- character subset
- selection
- high dimensional
- dimensional data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向高维数据的特征选择方法,涉及一种特征选择方法。提供能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。具体步骤:1)特征的稳定性评分;2)特征子集的选择;3)特征子集的评价;4)特征子集有效性的验证,具体方法如下:对于选出的特征子集,通过不同的分类器进行验证,说明所选的特征子集在不同分类器上具有的泛化性和代表性,进而说明特征选择方法的有效性。提出了一种新的面向高维数据的特征选择方法,通过结合wrapper和embedded的思想,能够获得较优的特征子集。结合贪心策略,可以自定义搜索的步长,能够较好地确定特征维度,并及时终止特征选择过程。
Description
技术领域
本发明涉及一种特征选择方法,尤其是能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。
背景技术
特征选择对于高维数据的分类问题至关重要,它是从一组特征中挑选出一些最为重要的特征以降低特征空间的维数[1]。特征选择结果的好坏直接影响分类结果的准确率。特征选择方法在生物信息学领域[2-4]、图像领域[5-7]和文本领域[8-10]等都具有广泛的应用。特征选择一般为:特征子集搜索过程、特征子集评价方法、特征子集搜索停止准则和特征子集有效性验证这四个步骤[11]。常用的特征选择方法包含filter、wrapper和embedded等。Filter方法可以实现快速的特征选择,但是很难获得较高的准确率;wrapper方法可以获得较高的准确率,但是计算代价大,不易于推广[12]。Embedded方法基于分类算法对特征进行评分,然后实现特征选择,但是特征的维度不能很好的确定。
参考文献:
[1]Bian Z Q,Zhang X G.Pattern recognition[M].2nd ed.Beijing:TsinghuaUniversity Publisher,2000.
[2]Shen C,Ding Y,Tang J,et al.An Ameliorated Prediction of Drug–Target Interactions Based on Multi-Scale Discrete Wavelet Transform andNetwork Features[J].International journal of molecular sciences,2017,18(8):1781.
[3]Ding Y,Tang J,Guo F.Identification of drug-target interactions viamultiple information integration[J].Information Sciences,2017,418:546-560.
[4]Abusamra,Heba.A Comparative Study of Feature Selection andClassification Methods for Gene Expression Data of Glioma[J].ProcediaComputer Science,2013,23(Complete):5-14.
[5]Wen X,Shao L,Fang W,et al.Efficient Feature Selection andClassification for Vehicle Detection[J].IEEE Trans.Circuits Syst.VideoTechn.,2015,25(3):508-517.
[6]José Bins,Draper B A,Faculdade De Informática.Feature Selectionfrom Huge Feature Sets[C]//IEEE International Conference on ComputerVision.IEEE,2001.
[7]M,M,K.Breast density classification using multiplefeature selection[J].automatika,2012,53(4):362-372.
[8]Forman G.An extensive empirical study of feature selection metricsfor text classification[J].Journal of machine learning research,2003,3(Mar):1289-1305.
[9]Liu T,Liu S,Chen Z,et al.An evaluation on feature selection fortext clustering[C]//Proceedings of the 20th International Conference onMachine Learning(ICML-03).2003:488-495.
[10]Markatou M,Ball R,Botsis T,et al.Text mining for large medicaltext datasets and corresponding medical text classification using informativefeature selection:U.S.Patent 9,075,796[P].2015-7-7.
[11]Dash M,Liu H.Feature selection for classification[J].Intelligentdata analysis,1997,1(3):131-156.
[12]姚旭,王晓丹,张玉玺,等.特征选择方法综述[J].控制与决策,2012,27(2):161-166.
[13]LIU Yang,BAI Hui,BO Xiaochen.Application of large scale geneexpression profiles in anticancer drug development.Big data research[J],2016,2(5):2016051-doi:10.11959/j.issn.2096-0271.2016051.
发明内容
本发明的目的在于提供能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。
本发明包括以下步骤:
1)特征的稳定性评分;
在步骤1)中,所述特征的稳定性评分的具体方法可为:采用稳定选择方法(Randomized Logistic Regression,RLR)通过对数据集进行多次的子采样,获得多个子集;在每个子集上通过随机的添加正则化项,对数据集的特征进行评分;然后再将多次评分综合在一起获得数据集特征的一个稳定性评分。
2)特征子集的选择;
在步骤2)中,所述特征子集的选择的具体方法可为:利用稳定选择方法可以通过一次计算获得数据集特征的一个稳定性评分,然后在对特征的重要性进行降序排序,根据贪心策略中的后向序列选择思想;每次从特征集中选出一个特征子集。
3)特征子集的评价;
在步骤3)中,所述特征子集的评价的具体方法可为:对选择出的特征子集进行评价,判断选出的特征子集是否符合特征选择终止的条件,利用具有二次决策边界的分类器(Quadratic Discriminant Analysis,QDA)形成非线性的边界,并且不同的类所属的高斯分布具有不同的协方差矩阵;经过特征选择后的数据集通过QDA分类器训练一个分类模型,原始数据集也通过QDA分类器训练一个分类模型,然后比较两个分类模型的性能,判断选出的特征子集是否符合终止特征选择的条件。
4)特征子集有效性的验证,具体方法如下:对于选出的特征子集,通过不同的分类器进行验证,说明所选的特征子集在不同的分类器上具有的泛化性和代表性,进而说明特征选择方法的有效性。
本发明源于wrapper和embedded方法的互补性,结合两种方法可以实现更高效、稳定的特征选择过程,其基础是:1.通过embedded的多次随机正则化和多次的数据集随机子采样综合,可以对数据集的特征进行一个稳定性的评分。2.wrapper方法递归地进行特征子集的评价能够很好地确定特征子集的数量,及时地终止特征选择过程。
由于RLR是使用Logistic Regression(LR)作为选择算法,通过在原始数据集中不断重复的重采样为每个特征的重要性给出评分。LR是构建一个非线性模型,即通过sigmoid非线性变化,找到一个决策边界,使其能够最小化损失函数,高效的处理0/1分类问题。在LR的目标函数中添加正则化项能够很好地对特征的有效性进行评价。RLR通过多次的子采样和随机的正则化有点类似于随机森林算法的核心思想,这样子能够获得特征的稳定性评价,避免对特征集进行多次的评分,增加重复计算。
在特征维数的确定方面,wrapper方法通过重复的训练分类器,对特征集进行评分,可以很好地确定需要保留的特征维度。本发明借鉴这个思想,结合后续序列选择方法,以QDA为分类器,重复地进行特征子集的选择和评价操作,省去了不断的特征评估这个过程可以实现快速的特征选择过程,获得较好的特征子集。
本发明的突出技术效果在于:1.提出了一种新的面向高维数据的特征选择方法,通过结合wrapper和embedded的思想,能够获得较优的特征子集。2.结合贪心策略,可以自定义搜索的步长,能够较好地确定特征维度,并及时终止特征选择过程。
附图说明
图1为特征选择流程图。
图2为每个特征的重要性评分图。
图3为不同维度特征子集的分类准确率评价图。
图4为不同维度特征子集的分类AUC评价图。
图5为基于分类准确率的特征子集有效性验证图。
图6为基于分类AUC的特征子集有效性验证图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
1)特征的稳定性评分:
Randomized Logistic Regression(RLR)是一种稳定性选择技术,通过多次抽样计算能对数据集的特征有稳定性的评分。本发明只需对数据集进行一次评分计算,就可以获得特征的评分,后续不需要对特征进行重复的评价。然后就可以根据特征之间不同的评分进行特征子集的搜索。具体的特征评分结果如图2,其含义是特征对应的评分越高,该特征的重要性越强。
2)特征子集的选择:
不同的特征具有不同的评分,特征之间的评分存在差异性。将特征的重要性按照评分高低进行降序排序。然后从排好序的特征集中不断地剔除一部分评分较低的特征,即可选出一个特征子集。
3)特征子集的评价:
特征子集的评价是通过分类器的分类准确率、AUC进行判断,QDA分类器通过二分类决策平面能够很好地对数据进行划分。具体特征子集评价过程如图3、4所示,其含义是不同数量的特征子集都会对应一个分类准确率和AUC。准确率和AUC越高,说明该特征子集越具有代表性。
4)特征子集有效性的验证:
不同的分类器对于同一份数据可能会获得相差较大的分类结果。让选择的特征子集通过不同的分类器进行验证可以消除分类器性能的原因带来的影响。将经过特征选择之后的数据集和原始的数据集分别通过同一个分类器进行训练模型,然后比较两份数据在同一个分类器上的结果,可以验证特征选择的有效性。若与原始数据相差不大或者优于原始数据,则说明选出的特征子集具有较好的代表性。具体的有效性验证如图5、6所示。
本发明实施例的整体流程如图1所示,包括以下步骤:
1)特征的稳定性评分:
在LINCS[13]计划公布的数据集中,VCAP细胞系具有较高维度的表达谱数据,使用RLR算法对该细胞系的数据集的1956维特征进行评分,每个特征的评分如图2所示。通过图2可以发现每个特征的重要性并不相同,特征之间存在差异,比如一部分特征的得分极低,这表明并不是所有特征都是非常重要的。
2)特征子集的选择:
根据贪心策略中的后向序列选择思想,将特征的重要性按照评分高低进行降序排序,每次以10个特征为单位,从数据的特征集剔除评分最低的10个特征,构造出一个较优的特征子集。
3)特征子集的评价:
Dash et al.[11]认为在分类精度不会显著降低的情况下,特征选择试图选择最小尺寸的特征子集。并且在仅给定所选特征子集时,所得到的类别分布尽可能接近原始数据给定所有特征时的类别分布。分类器的分类准确率、Area Under Curve(AUC)作为评价标准,若QDA分类器的准确率和AUC低于原始数据时,则终止特征选择过程。认为这保留下来的特征子集是最优的特征集,特征数量不能再做删减。结合Dash et al.[11]的观点,从整个特征集中删掉580个特征,将最终保留的特征数量确定为1376个。
4)特征子集有效性的验证:
让选择的特征子集通过不同的分类器进行验证可以消除分类器性能的原因带来的影响。在使用中,为了验证选出的特征能够很好地代表原始的数据集,在原始数据集上和经过特征选择的数据集上采用不同分类器进行分类。这里使用的分类器都是经典的分类器,包括RandomForest(RF),Stochastic Gradient Descent(SGD),Gradient BoostingDecision Tree(GBDT)、GaussianNB(NB),AdaBoost(AdaB)和LogisticRegression(LR)。在这两种数据集上进行交叉验证实验,实验结果的评价指标是模型在验证集上的分类准确率和AUC。具体的特征子集有效性验证结果如图5和6所示。
Claims (4)
1.一种面向高维数据的特征选择方法,其特征在于包括以下步骤:
1)特征的稳定性评分;
2)特征子集的选择;
3)特征子集的评价;
4)特征子集有效性的验证,具体方法如下:对于选出的特征子集,通过不同的分类器进行验证,说明所选的特征子集在不同的分类器上具有的泛化性和代表性,进而说明特征选择方法的有效性。
2.如权利要求1所述一种面向高维数据的特征选择方法,其特征在于在步骤1)中,所述特征的稳定性评分的具体方法为:采用稳定选择方法通过对数据集进行多次的子采样,获得多个子集;在每个子集上通过随机的添加正则化项,对数据集的特征进行评分;然后再将多次评分综合在一起获得数据集特征的一个稳定性评分。
3.如权利要求1所述一种面向高维数据的特征选择方法,其特征在于在步骤2)中,所述特征子集的选择的具体方法为:利用稳定选择方法通过一次计算获得数据集特征的一个稳定性评分,然后在对特征的重要性进行降序排序,根据贪心策略中的后向序列选择思想;每次从特征集中选出一个特征子集。
4.如权利要求1所述一种面向高维数据的特征选择方法,其特征在于在步骤3)中,所述特征子集的评价的具体方法为:对选择出的特征子集进行评价,判断选出的特征子集是否符合特征选择终止的条件,利用具有二次决策边界的分类器形成非线性的边界进行分类;经过特征选择后的数据集通过具有二次决策边界的分类器训练一个分类模型,原始数据集也通过具有二次决策边界的分类器训练一个分类模型,然后比较两个分类模型的性能,判断选出的特征子集是否符合终止特征选择的条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811580747.3A CN109800790B (zh) | 2018-12-24 | 2018-12-24 | 一种面向高维数据的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811580747.3A CN109800790B (zh) | 2018-12-24 | 2018-12-24 | 一种面向高维数据的特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800790A true CN109800790A (zh) | 2019-05-24 |
CN109800790B CN109800790B (zh) | 2022-08-19 |
Family
ID=66557452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811580747.3A Active CN109800790B (zh) | 2018-12-24 | 2018-12-24 | 一种面向高维数据的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800790B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443305A (zh) * | 2019-08-06 | 2019-11-12 | 北京明略软件系统有限公司 | 自适应特征处理方法及装置 |
CN111382366A (zh) * | 2020-03-03 | 2020-07-07 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN112651416A (zh) * | 2019-10-11 | 2021-04-13 | 中移动信息技术有限公司 | 特征选择方法、装置、设备和介质 |
CN113537280A (zh) * | 2021-05-21 | 2021-10-22 | 北京中医药大学 | 一种基于特征选择的智能制造工业大数据分析方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101370946A (zh) * | 2005-10-21 | 2009-02-18 | 基因信息股份有限公司 | 用于使生物标志产物水平与疾病相关联的方法和装置 |
CN102073995A (zh) * | 2010-12-30 | 2011-05-25 | 上海交通大学 | 基于纹理金字塔与正则化局部回归的色彩恒常方法 |
CN104504373A (zh) * | 2014-12-18 | 2015-04-08 | 电子科技大学 | 一种用于fmri数据的特征选择方法 |
CN104537108A (zh) * | 2015-01-15 | 2015-04-22 | 中国矿业大学 | 一种高维数据特征选择方法 |
CN105677564A (zh) * | 2016-01-04 | 2016-06-15 | 中国石油大学(华东) | 基于改进的Adaboost软件缺陷不平衡数据分类方法 |
CN105787501A (zh) * | 2015-12-17 | 2016-07-20 | 武汉大学 | 输电线路走廊区域自动选择特征的植被分类方法 |
CN106073706A (zh) * | 2016-06-01 | 2016-11-09 | 中国科学院软件研究所 | 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统 |
US20170116544A1 (en) * | 2015-10-27 | 2017-04-27 | CONTROLDOCS.COM, Inc. | Apparatus and Method of Implementing Batch-Mode Active Learning for Technology-Assisted Review of Documents |
CN106991296A (zh) * | 2017-04-01 | 2017-07-28 | 大连理工大学 | 基于随机化贪心特征选择的集成分类方法 |
CN107256245A (zh) * | 2017-06-02 | 2017-10-17 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN107273387A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 面向高维和不平衡数据分类的集成 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN107586852A (zh) * | 2017-11-06 | 2018-01-16 | 福建医科大学附属协和医院 | 基于22个基因的胃癌腹膜转移预测模型及其应用 |
CN108776809A (zh) * | 2018-05-30 | 2018-11-09 | 华东理工大学 | 一种基于Fisher核的双重采样集成分类模型 |
CN108960436A (zh) * | 2018-07-09 | 2018-12-07 | 上海应用技术大学 | 特征选择方法 |
CN109033833A (zh) * | 2018-07-13 | 2018-12-18 | 北京理工大学 | 一种基于多特征与特征选择的恶意代码分类方法 |
-
2018
- 2018-12-24 CN CN201811580747.3A patent/CN109800790B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101370946A (zh) * | 2005-10-21 | 2009-02-18 | 基因信息股份有限公司 | 用于使生物标志产物水平与疾病相关联的方法和装置 |
CN102073995A (zh) * | 2010-12-30 | 2011-05-25 | 上海交通大学 | 基于纹理金字塔与正则化局部回归的色彩恒常方法 |
CN104504373A (zh) * | 2014-12-18 | 2015-04-08 | 电子科技大学 | 一种用于fmri数据的特征选择方法 |
CN104537108A (zh) * | 2015-01-15 | 2015-04-22 | 中国矿业大学 | 一种高维数据特征选择方法 |
US20170116544A1 (en) * | 2015-10-27 | 2017-04-27 | CONTROLDOCS.COM, Inc. | Apparatus and Method of Implementing Batch-Mode Active Learning for Technology-Assisted Review of Documents |
CN105787501A (zh) * | 2015-12-17 | 2016-07-20 | 武汉大学 | 输电线路走廊区域自动选择特征的植被分类方法 |
CN105677564A (zh) * | 2016-01-04 | 2016-06-15 | 中国石油大学(华东) | 基于改进的Adaboost软件缺陷不平衡数据分类方法 |
CN107273387A (zh) * | 2016-04-08 | 2017-10-20 | 上海市玻森数据科技有限公司 | 面向高维和不平衡数据分类的集成 |
CN106073706A (zh) * | 2016-06-01 | 2016-11-09 | 中国科学院软件研究所 | 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统 |
CN106991296A (zh) * | 2017-04-01 | 2017-07-28 | 大连理工大学 | 基于随机化贪心特征选择的集成分类方法 |
CN107256245A (zh) * | 2017-06-02 | 2017-10-17 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN107586852A (zh) * | 2017-11-06 | 2018-01-16 | 福建医科大学附属协和医院 | 基于22个基因的胃癌腹膜转移预测模型及其应用 |
CN108776809A (zh) * | 2018-05-30 | 2018-11-09 | 华东理工大学 | 一种基于Fisher核的双重采样集成分类模型 |
CN108960436A (zh) * | 2018-07-09 | 2018-12-07 | 上海应用技术大学 | 特征选择方法 |
CN109033833A (zh) * | 2018-07-13 | 2018-12-18 | 北京理工大学 | 一种基于多特征与特征选择的恶意代码分类方法 |
Non-Patent Citations (3)
Title |
---|
M.DASH 等: "Feature Selection for Classification", 《INTELLIGENT DATA ANALYSIS 1》 * |
NICOLAI MEINSHANSEN 等: "Stability Selection", 《ARXIV》 * |
邬伟三: "高维数据中几种常用的统计分类方法", 《白城师范学院学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443305A (zh) * | 2019-08-06 | 2019-11-12 | 北京明略软件系统有限公司 | 自适应特征处理方法及装置 |
CN112651416A (zh) * | 2019-10-11 | 2021-04-13 | 中移动信息技术有限公司 | 特征选择方法、装置、设备和介质 |
CN111382366A (zh) * | 2020-03-03 | 2020-07-07 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN111382366B (zh) * | 2020-03-03 | 2022-11-25 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN113537280A (zh) * | 2021-05-21 | 2021-10-22 | 北京中医药大学 | 一种基于特征选择的智能制造工业大数据分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109800790B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Perera et al. | Generative-discriminative feature representations for open-set recognition | |
CN109800790A (zh) | 一种面向高维数据的特征选择方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN107944480A (zh) | 一种企业行业分类方法 | |
Beikmohammadi et al. | SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN | |
CN106021578B (zh) | 一种基于聚类和隶属度融合的改进型文本分类算法 | |
CN103679191B (zh) | 基于静态图片的自动套牌车检测方法 | |
CN102663401B (zh) | 一种图像特征提取和描述方法 | |
CN102982349A (zh) | 一种图像识别方法及装置 | |
CN104239858A (zh) | 一种人脸特征验证的方法和装置 | |
CN108460421A (zh) | 不平衡数据的分类方法 | |
CN106909946A (zh) | 一种多模态融合的商品分类系统 | |
CN103077399B (zh) | 基于集成级联架构的生物显微图像分类方法 | |
CN103871044B (zh) | 一种图像签名生成方法和图像验证方法及装置 | |
CN110263215A (zh) | 一种视频情感定位方法及系统 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN105809113A (zh) | 三维人脸识别方法及应用其的数据处理装置 | |
CN104156690A (zh) | 一种基于图像空间金字塔特征包的手势识别方法 | |
CN108416369A (zh) | 基于Stacking和翻转随机降采样分类方法、系统、介质及设备 | |
Song et al. | Fingerprint indexing based on pyramid deep convolutional feature | |
CN106203508A (zh) | 一种基于Hadoop平台的图像分类方法 | |
CN109816030A (zh) | 一种基于受限玻尔兹曼机的图像分类方法及装置 | |
CN106295635A (zh) | 车牌识别方法及系统 | |
Kiruthika et al. | Image quality assessment based fake face detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |