CN109800790A

CN109800790A - 一种面向高维数据的特征选择方法

Info

Publication number: CN109800790A
Application number: CN201811580747.3A
Authority: CN
Inventors: 张仲楠; 郑辉辉
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-24
Anticipated expiration: 2038-12-24
Also published as: CN109800790B

Abstract

一种面向高维数据的特征选择方法，涉及一种特征选择方法。提供能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。具体步骤：1)特征的稳定性评分；2)特征子集的选择；3)特征子集的评价；4)特征子集有效性的验证，具体方法如下：对于选出的特征子集，通过不同的分类器进行验证，说明所选的特征子集在不同分类器上具有的泛化性和代表性，进而说明特征选择方法的有效性。提出了一种新的面向高维数据的特征选择方法，通过结合wrapper和embedded的思想，能够获得较优的特征子集。结合贪心策略，可以自定义搜索的步长，能够较好地确定特征维度，并及时终止特征选择过程。

Description

一种面向高维数据的特征选择方法

技术领域

本发明涉及一种特征选择方法，尤其是能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。

背景技术

特征选择对于高维数据的分类问题至关重要，它是从一组特征中挑选出一些最为重要的特征以降低特征空间的维数^[1]。特征选择结果的好坏直接影响分类结果的准确率。特征选择方法在生物信息学领域^[2-4]、图像领域^[5-7]和文本领域^[8-10]等都具有广泛的应用。特征选择一般为：特征子集搜索过程、特征子集评价方法、特征子集搜索停止准则和特征子集有效性验证这四个步骤^[11]。常用的特征选择方法包含filter、wrapper和embedded等。Filter方法可以实现快速的特征选择，但是很难获得较高的准确率；wrapper方法可以获得较高的准确率，但是计算代价大，不易于推广^[12]。Embedded方法基于分类算法对特征进行评分，然后实现特征选择，但是特征的维度不能很好的确定。

参考文献：

[1]Bian Z Q,Zhang X G.Pattern recognition[M].2nd ed.Beijing:TsinghuaUniversity Publisher,2000.

[2]Shen C,Ding Y,Tang J,et al.An Ameliorated Prediction of Drug–Target Interactions Based on Multi-Scale Discrete Wavelet Transform andNetwork Features[J].International journal of molecular sciences,2017,18(8):1781.

[3]Ding Y,Tang J,Guo F.Identification of drug-target interactions viamultiple information integration[J].Information Sciences,2017,418:546-560.

[4]Abusamra,Heba.A Comparative Study of Feature Selection andClassification Methods for Gene Expression Data of Glioma[J].ProcediaComputer Science,2013,23(Complete):5-14.

[5]Wen X,Shao L,Fang W,et al.Efficient Feature Selection andClassification for Vehicle Detection[J].IEEE Trans.Circuits Syst.VideoTechn.,2015,25(3):508-517.

[6]José Bins,Draper B A,Faculdade De Informática.Feature Selectionfrom Huge Feature Sets[C]//IEEE International Conference on ComputerVision.IEEE,2001.

[7]M,M,K.Breast density classification using multiplefeature selection[J].automatika,2012,53(4):362-372.

[8]Forman G.An extensive empirical study of feature selection metricsfor text classification[J].Journal of machine learning research,2003,3(Mar):1289-1305.

[9]Liu T,Liu S,Chen Z,et al.An evaluation on feature selection fortext clustering[C]//Proceedings of the 20th International Conference onMachine Learning(ICML-03).2003:488-495.

[10]Markatou M,Ball R,Botsis T,et al.Text mining for large medicaltext datasets and corresponding medical text classification using informativefeature selection:U.S.Patent 9,075,796[P].2015-7-7.

[11]Dash M,Liu H.Feature selection for classification[J].Intelligentdata analysis,1997,1(3):131-156.

[12]姚旭,王晓丹,张玉玺,等.特征选择方法综述[J].控制与决策,2012,27(2):161-166.

[13]LIU Yang,BAI Hui,BO Xiaochen.Application of large scale geneexpression profiles in anticancer drug development.Big data research[J],2016,2(5):2016051-doi:10.11959/j.issn.2096-0271.2016051.

发明内容

本发明的目的在于提供能高效、稳定地进行筛选特征的一种面向高维数据的特征选择方法。

本发明包括以下步骤：

1)特征的稳定性评分；

在步骤1)中，所述特征的稳定性评分的具体方法可为：采用稳定选择方法(Randomized Logistic Regression，RLR)通过对数据集进行多次的子采样，获得多个子集；在每个子集上通过随机的添加正则化项，对数据集的特征进行评分；然后再将多次评分综合在一起获得数据集特征的一个稳定性评分。

2)特征子集的选择；

在步骤2)中，所述特征子集的选择的具体方法可为：利用稳定选择方法可以通过一次计算获得数据集特征的一个稳定性评分，然后在对特征的重要性进行降序排序，根据贪心策略中的后向序列选择思想；每次从特征集中选出一个特征子集。

3)特征子集的评价；

在步骤3)中，所述特征子集的评价的具体方法可为：对选择出的特征子集进行评价，判断选出的特征子集是否符合特征选择终止的条件，利用具有二次决策边界的分类器(Quadratic Discriminant Analysis，QDA)形成非线性的边界，并且不同的类所属的高斯分布具有不同的协方差矩阵；经过特征选择后的数据集通过QDA分类器训练一个分类模型，原始数据集也通过QDA分类器训练一个分类模型，然后比较两个分类模型的性能，判断选出的特征子集是否符合终止特征选择的条件。

4)特征子集有效性的验证，具体方法如下：对于选出的特征子集，通过不同的分类器进行验证，说明所选的特征子集在不同的分类器上具有的泛化性和代表性，进而说明特征选择方法的有效性。

本发明源于wrapper和embedded方法的互补性，结合两种方法可以实现更高效、稳定的特征选择过程，其基础是：1.通过embedded的多次随机正则化和多次的数据集随机子采样综合，可以对数据集的特征进行一个稳定性的评分。2.wrapper方法递归地进行特征子集的评价能够很好地确定特征子集的数量，及时地终止特征选择过程。

由于RLR是使用Logistic Regression(LR)作为选择算法，通过在原始数据集中不断重复的重采样为每个特征的重要性给出评分。LR是构建一个非线性模型，即通过sigmoid非线性变化，找到一个决策边界，使其能够最小化损失函数，高效的处理0/1分类问题。在LR的目标函数中添加正则化项能够很好地对特征的有效性进行评价。RLR通过多次的子采样和随机的正则化有点类似于随机森林算法的核心思想，这样子能够获得特征的稳定性评价，避免对特征集进行多次的评分，增加重复计算。

在特征维数的确定方面，wrapper方法通过重复的训练分类器，对特征集进行评分，可以很好地确定需要保留的特征维度。本发明借鉴这个思想，结合后续序列选择方法，以QDA为分类器，重复地进行特征子集的选择和评价操作，省去了不断的特征评估这个过程可以实现快速的特征选择过程，获得较好的特征子集。

本发明的突出技术效果在于：1.提出了一种新的面向高维数据的特征选择方法，通过结合wrapper和embedded的思想，能够获得较优的特征子集。2.结合贪心策略，可以自定义搜索的步长，能够较好地确定特征维度，并及时终止特征选择过程。

附图说明

图1为特征选择流程图。

图2为每个特征的重要性评分图。

图3为不同维度特征子集的分类准确率评价图。

图4为不同维度特征子集的分类AUC评价图。

图5为基于分类准确率的特征子集有效性验证图。

图6为基于分类AUC的特征子集有效性验证图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

1)特征的稳定性评分：

Randomized Logistic Regression(RLR)是一种稳定性选择技术，通过多次抽样计算能对数据集的特征有稳定性的评分。本发明只需对数据集进行一次评分计算，就可以获得特征的评分，后续不需要对特征进行重复的评价。然后就可以根据特征之间不同的评分进行特征子集的搜索。具体的特征评分结果如图2，其含义是特征对应的评分越高，该特征的重要性越强。

2)特征子集的选择：

不同的特征具有不同的评分，特征之间的评分存在差异性。将特征的重要性按照评分高低进行降序排序。然后从排好序的特征集中不断地剔除一部分评分较低的特征，即可选出一个特征子集。

3)特征子集的评价：

特征子集的评价是通过分类器的分类准确率、AUC进行判断，QDA分类器通过二分类决策平面能够很好地对数据进行划分。具体特征子集评价过程如图3、4所示，其含义是不同数量的特征子集都会对应一个分类准确率和AUC。准确率和AUC越高，说明该特征子集越具有代表性。

4)特征子集有效性的验证：

不同的分类器对于同一份数据可能会获得相差较大的分类结果。让选择的特征子集通过不同的分类器进行验证可以消除分类器性能的原因带来的影响。将经过特征选择之后的数据集和原始的数据集分别通过同一个分类器进行训练模型，然后比较两份数据在同一个分类器上的结果，可以验证特征选择的有效性。若与原始数据相差不大或者优于原始数据，则说明选出的特征子集具有较好的代表性。具体的有效性验证如图5、6所示。

本发明实施例的整体流程如图1所示，包括以下步骤：

1)特征的稳定性评分：

在LINCS^[13]计划公布的数据集中，VCAP细胞系具有较高维度的表达谱数据，使用RLR算法对该细胞系的数据集的1956维特征进行评分，每个特征的评分如图2所示。通过图2可以发现每个特征的重要性并不相同，特征之间存在差异，比如一部分特征的得分极低，这表明并不是所有特征都是非常重要的。

2)特征子集的选择：

根据贪心策略中的后向序列选择思想，将特征的重要性按照评分高低进行降序排序，每次以10个特征为单位，从数据的特征集剔除评分最低的10个特征，构造出一个较优的特征子集。

3)特征子集的评价：

Dash et al.^[11]认为在分类精度不会显著降低的情况下，特征选择试图选择最小尺寸的特征子集。并且在仅给定所选特征子集时，所得到的类别分布尽可能接近原始数据给定所有特征时的类别分布。分类器的分类准确率、Area Under Curve(AUC)作为评价标准，若QDA分类器的准确率和AUC低于原始数据时，则终止特征选择过程。认为这保留下来的特征子集是最优的特征集，特征数量不能再做删减。结合Dash et al.^[11]的观点，从整个特征集中删掉580个特征，将最终保留的特征数量确定为1376个。

4)特征子集有效性的验证：

让选择的特征子集通过不同的分类器进行验证可以消除分类器性能的原因带来的影响。在使用中，为了验证选出的特征能够很好地代表原始的数据集，在原始数据集上和经过特征选择的数据集上采用不同分类器进行分类。这里使用的分类器都是经典的分类器，包括RandomForest(RF)，Stochastic Gradient Descent(SGD)，Gradient BoostingDecision Tree(GBDT)、GaussianNB(NB)，AdaBoost(AdaB)和LogisticRegression(LR)。在这两种数据集上进行交叉验证实验，实验结果的评价指标是模型在验证集上的分类准确率和AUC。具体的特征子集有效性验证结果如图5和6所示。

Claims

1.一种面向高维数据的特征选择方法，其特征在于包括以下步骤：

1)特征的稳定性评分；

2)特征子集的选择；

3)特征子集的评价；

2.如权利要求1所述一种面向高维数据的特征选择方法，其特征在于在步骤1)中，所述特征的稳定性评分的具体方法为：采用稳定选择方法通过对数据集进行多次的子采样，获得多个子集；在每个子集上通过随机的添加正则化项，对数据集的特征进行评分；然后再将多次评分综合在一起获得数据集特征的一个稳定性评分。

3.如权利要求1所述一种面向高维数据的特征选择方法，其特征在于在步骤2)中，所述特征子集的选择的具体方法为：利用稳定选择方法通过一次计算获得数据集特征的一个稳定性评分，然后在对特征的重要性进行降序排序，根据贪心策略中的后向序列选择思想；每次从特征集中选出一个特征子集。

4.如权利要求1所述一种面向高维数据的特征选择方法，其特征在于在步骤3)中，所述特征子集的评价的具体方法为：对选择出的特征子集进行评价，判断选出的特征子集是否符合特征选择终止的条件，利用具有二次决策边界的分类器形成非线性的边界进行分类；经过特征选择后的数据集通过具有二次决策边界的分类器训练一个分类模型，原始数据集也通过具有二次决策边界的分类器训练一个分类模型，然后比较两个分类模型的性能，判断选出的特征子集是否符合终止特征选择的条件。