CN111833966A

CN111833966A - 一种基于自适应lasso的特征选择方法及系统

Info

Publication number: CN111833966A
Application number: CN202010644128.7A
Authority: CN
Inventors: 李海晟; 赵炳君
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-27

Abstract

本发明提出了一种基于自适应LASSO的特征选择方法，适用于对具有高维度、低样本量特点的基因微阵列数据进行特征选择的问题。首先，计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵，以此得到每个特征向量与分类标签之间的对称不确定度；然后，根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则，用ReliefF算法计算每个特征的同异类差异度；最后，分别将上述两种评价指标作为自适应LASSO算法的特征权重进行特征选择，将得到两批特征子集合合并生成最终筛选出的特征集合。

Description

一种基于自适应LASSO的特征选择方法及系统

技术领域

本发明属于特征工程中的特征选择技术领域，涉及数学和计算机科学，可应用于机器学习领域，包括基因微阵列数据处理、文本分析、模式识别等方面。

背景技术

作为一种基因表达数据的载体，DNA微阵列被广泛应用于疾病诊断领域[1-3]。对于DNA微阵列数据而言，高维度和低样本量是两大特点。随着生物芯片技术的不断发展，其数据高维度的特点愈演愈烈，带来“维度灾难”[4]这一挑战。为了应对这一难题，数据的预处理不可避免。特征选择和特征提取是两种常用的特征预处理方法，其区别在与前者从原始特征集合中筛选出重要的特征子集而后者则利用原始特征构建出的新的特征集合来将其代替。尽管特征提取在处理高维数据时十分常用，但会使数据解释性的特点使其对于基因微阵列数据而言并不合适。因此在处理基因微阵列数据时，特征选择的使用更加的广泛。

根据特征选择方法与学习模型的关系，特征选择方法可以被大致分为过滤法、包装法和嵌入法三类。过滤法无需构建学习集即可进行特征选择，通常会使用一些特定的评价指标对特征进行评分，再通过设定一定的阈值进行特征筛选。Relief[5]算法通过记录每个样本在相应特征上的最近同类样本距离与最近异类样本距离，根据同类样本距离应该越小而异类样本距离应该越大的原则，对特征进行评价。Hall[6]根据特征与分类标签的相关性应该越大而特征间相关性应该越低的原则，提出了CFS算法。通过计算特征与分类标签的相关性以及特征与其他特征的平均相关性，CFS算法可以对每个特征进行评分并选择得分高的特征。在此基础上，Yu等人[7]对特征的筛选方法做出了改进提出了效率更高的FCBF算法。包装法通过结合学习算法来对特征进行评价并逐步的筛选出重要的特征。Guyon等人[8]基于线性SVM模型提出了SVM-RFE算法。该方法以SVM模型的估计量的绝对值作为特征重要性的评价指标来递归的排除评价较差的特征。Diaz-Uriarte等人[9]提出了一种基于随机森林的特征选择算法，通过对特征值进行随机排列，计算各特征的OOB(Out-of-bag)误差的差值来对特征进行评价。嵌入法在学习算法训练的同时进行特征的选择，通常使用正则化惩罚项来实现，比如Tibshirani[10]基于L1正则化提出了LASSO算法。然而，Zou[11]提出LASSO在某些情况下无法保证选出的特征的一致性，提出了对每个特征的正则化项添加系数的自适应LASSO方法。

发明内容

本发明提出了一种基于自适应LASSO的特征选择方法：首先计算所有输入特征的对称不缺度和同异类差异度；然后分别用它们作为自适应LASSO的系数进行特征选择；最后取特征集合的并集作为最终筛选出的特征。

本发明提出了一种基于自适应LASSO的特征选择方法，包括以下步骤：

步骤A：计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵，根据信息熵与条件熵计算出每个特征与分类标签之间的互信息，再对互信息进行归一化处理得到相应的对称不确定度。

步骤B：根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则，以欧氏距离为度量，用ReliefF算法计算特征的同异类差异度。

步骤C：将步骤A和步骤B中得到的两种特征评价指标分别作为自适应LASSO算法的权重，进行特征选择，合并两次LASSO算法选择的特征子集，得到最终筛选出的特征集。

本发明步骤A中计算特征的对称不确定度的具体步骤见算法1。

算法1：对称不确定度的计算

输入：训练集S{F₁,F₂,…,F_d,C}，其中F_i代表每个特征向量，C代表分类标签向量。

步骤A1：计算分类标签的类别数N_C，将特征向量F_i等距分为N_C等份。

步骤A2：计算每个特征向量的信息熵H(F_i)和条件熵H(F_i|C)，以及信息增益Gain(F_i|C)＝H(F_i)-H(F_i|C)。

步骤A3：对每个特征的信息增益进行归一化处理，由此得到的衡量特征的分类能力指标称为对称不确定度SU(F_i|C)＝2×Gain(F_i|C)/(H(F_i)+H(C))。

输出SU向量(s₁,s₂,…,s_d)，其中s_i＝SU(F_i|C)。

本发明步骤B中使用ReliefF算法计算特征的同异类差异度的具体步骤如下：

步骤B1：对每个特征的每个样本，确定k个最近同类样本和最近异类样本，计算其同类距离差的平方和与异类距离差的平方和。记第i个特征向量的第j个分量为

最近k个同类样本和异类样本分别记为

和

同类与异类距离差的平方和计算公式为

和

步骤B2：分别计算每个特征的同类距离和与异类距离和，它们的差值定义为同异类差异度，即

输出ReliefF向量(r₁,r₂,…,r_d)，其中r_i＝ReliefF(F_i)。

本发明步骤C中使用的两种特征评价指标分别SU向量(s₁,s₂,…,s_d)和ReliefF向量(r₁,r₂,…,r_d)。两个自适应LASSO算法得到两个特征子集记为F_SU和F_Relief，则选择的最终特征集F_select＝F_SU∪F_Relief。

本发明还提出了一种基于自适应LASSO的特征选择系统，包括：

对称不确定度计算模块，基于输入的数据，用算法1计算特征向量的对称不确定度；

同异类差异度计算模块，依据输入的数据，用ReliefF算法计算特征向量的同异类差异度；

自适应LASSO模块，以对称不确定度计算模块和同异类差异度计算模块的输出作为输入，分别用对称不确定度和同异类差异度作为权重，求解加权LASSO，计算得到两个特征子集。它们的并集作为筛选出来的特征子集。

本发明提出的基于自适应LASSO的特征选择方法技术效果：特征选择属于特征工程的常见方法之一，在机器学习领域起着十分重要的作用。良好的特征选择方法不仅能简化模型，使之更易于被研究人员或用户理解，同时还能提高模型的泛化性能，提升模型效果，在DNA微阵列数据处理、疾病诊断、数据分类和文本分析等领域广泛应用。本发明提出的基于自适应LASSO的特征选择方法，基于集成学习的思想，与一些常见的特征选择方法，如reliefF[12],信息增益(IG)[13],mRMR[14],FCBF[7],SVM-RFE[8],LASSO[10]和LPR-FS[15]等相比，在筛选出的相近特征数量的情况下，数据分类性能更好，表明选取的特征与类别关联性强、信息丢失少。下面给出本发明方法与上述7种方法的实验比较结果。表1给出了实验使用的6种常用微阵列数据的基本信息。

表1数据集基本信息

标记	数据集	特征数量	样本数量	类别数量
					Colon	Colon Tumor	2000	60	2
CNS	Central Nervous System	7129	60	2
					AA	ALL-AML	7129	72	2
AA-3	ALL-AML-3	7129	72	3
					MLL	MLL	12582	72	3
SRBCT	SRBCT	2308	83	4

表2给出了本方法与上述7种方法在表1的六种数据集上进行50次.632bootstrap[16]特征选择之后每次平均选出的特征数量。

表2平均选择特征数量对比

表3给出了本方法与上述7种方法使用50次.632bootstrap选择出的特征进行疾病预测的平均准确率。K近邻(KNN)，朴素贝叶斯(NB)和支持向量机(SVM)等三种分类器被用于分类效果的测试，对错数量比显示了本发明方法筛选的特征在分类性能上要明显强于其它7种方法。

表3平均分类准确率对比

参考文献

[1]J.Khan,J.S.Wei,M.Ringner,L.H.Saal,M.Ladanyi,F.Westermann,F.Berthold,M.Schwab,C.R.Antonescu,C.Peterson,et al.,Classification anddiagnostic prediction of cancers using gene expression profiling andartificial neural networks,Nature medicine7(6)(2001)673.

[2]S.L.Pomeroy,P.Tamayo,M.Gaasenbeek,L.M.Sturla,M.Angelo,M.E.McLaughlin,J.Y.Kim,L.C.Goumnerova,P.M.Black,C.Lau,etal.,Prediction ofcentral nervous system embryonal tumour outcome based on gene expression,Nature415(6870)(2002)436.

[3]R.-h.Xu,W.Wei,M.Krawczyk,W.Wang,H.Luo,K.Flagg,S.Yi,W.Shi,Q.Quan,K.Li,etal.,Circulating tumour dna methylation markers for diagnosis andprognosis of hepatocellular carcinoma,Nature materials16(11)(2017)1155.

[4]R.Bellman,Dynamic programming,princeton,nj:Princeton univ,versityPress.BellmanDynamic Programming1957.

[5]K.Kira,L.A.Rendell,et al.,The feature selection problem:Traditional methods and a new algorithm,in:Aaai,Vol.2,1992,pp.129-134.

[6]Hall MA.Correlation-based Feature Selection for Machine Learning[D].The University of Waikato,1999.

[7]L.Yu,H.Liu,Feature selection for high-dimensional data:A fastcorrelation-based filter solution,in:Proceedings of the20th internationalconference on machine learning(ICML-03),2003,pp.856–863.

[8]I.Guyon,J.Weston,S.Barnhill,V.Vapnik,Gene selection for cancerclassification using support vector machines,Machine learning46(1-3)(2002)389–422.

[9]R.Diaz-Uriarte,S.A.DeAndres,Gene selection and classification ofmicroarray data using random forest,BMC bioinformatics7(1)(2006)3.

[10]R.Tibshirani,Regression shrinkage and selection via the lasso,Journal of the Royal Statistical Society:Series B(Methodological)58(1)(1996)267-288.

[11]H.Zou,The adaptive lasso and its oracle properties,Journal of theAmerican statistical association 101(476)(2006)1418-1429.

[12]I.Kononenko,Estimating attributes:analysis and extensions ofrelief,in:European conference on machine learning,Springer,1994,pp.171-182.

[13]A.Arauzo-Azofra,J.L.Aznarte,J.M.Benitez,Empirical study offeature selection methods based on individual feature evaluation forclassification problems,Expert Systems with Applications38(7)(2011)8170-8177.

[14]H.Peng,F.Long,C.Ding,Feature selection based on mutualinformation:criteria of max-dependency,max-relevance,and min-redundancy,IEEETransactions on Pattern Analysis&Machine Intelligence(8)(2005)1226-1238.

[15]T.Zhang,P.Ren,Y.Ge,Y.Zheng,Y.Y.Tang,C.P.Chen,Learning proximityrelations for feature selection,IEEE Transactions on Knowledge and DataEngineering28(5)(2016)1231-1244.

[16]J.Chimka,Bootstrap methods:A practitioner'sguide,IIETransactions35(6)(2003)583-583.

附图说明

图1为本发明基于自适应LASSO的特征选择方法的示意图。

具体实施方式

结合以下具体实施例，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

算法1：对称不确定度的计算

输出SU向量(s₁,s₂,…,s_d)，其中s_i＝SU(F_i|C)。

本发明步骤B中使用ReliefF算法计算特征的同异类差异度的具体步骤如下。

最近k个同类样本和异类样本分别记为

和

同类与异类距离差的平方和计算公式为

和

输出ReliefF向量(r₁,r₂,…,r_d)，其中r_i＝ReliefF(F_i)。

实施例1

本实施例中的数据来自于The Cancer Genome Atlas(TCGA)数据库，使用的是肝癌细胞的甲基化表达数据，其中癌症样本取自癌症器官细胞内，正常样本取自距癌症器官一定距离的器官细胞内。数据集合维度为485577，样本数量为100个，其中癌症样本50个，正常样本50个。按照70％训练集，30％测试集的比例将数据集分成两部分，对训练集实施特征选择方法。首先对训练数据进行学生t检验，选择出p值最小的1000个特征；然后，对该1000个特征数据实施本方法进行特征选择，筛选得到8个特征。分别使用这8个特征和1000个特征训练线性SVM模型进行对测试集进行验证，最终在测试集上得到了同样的分类准确率，96.7％。

实施例2

本实施例中的数据来自于Uci Machine Learning Repository，使用的是Sentiment Labelled Sentences Data Set。数据随机取样于亚马逊的购物评论，用来判断该评论情感是否为积极。数据集合有样本1000个，其中积极样本和消极样本各500个。通过词袋模型将文本数据进行向量化，得到1897维的训练数据。按照70％训练集，30％测试集的比例将数据集分成两部分，对训练集实施特征选择方法。因为本数据集为离散化数据，不能使用Relief算法计算同异类差异度，故仅使用了对称不确定度的自适应Lasso方法进行特征选择，筛选得到了224个特征。分别使用这224个特征和1897个特征训练线性SVM模型进行对测试集进行验证，最终在测试集上得到了75.0％和73.6％的分类准确率。

本发明提出的基于自适应LASSO的特征选择方法，适用于对具有高维度、低样本量特点的基因微阵列数据进行特征选择的问题。首先，计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵，以此得到每个特征向量与分类标签之间的对称不确定度；然后，根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则，用ReliefF算法计算每个特征的同异类差异度；最后，分别将上述两种评价指标作为自适应LASSO算法的特征权重进行特征选择，将得到两批特征子集合合并生成最终筛选出的特征集合。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于自适应LASSO的特征选择方法，其特征在于，包括以下步骤：

步骤A：计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵，根据信息熵与条件熵计算出每个特征与分类标签之间的互信息，再对互信息进行归一化处理得到相应的对称不确定度；

步骤B：根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则，以欧氏距离为度量分别计算与每个样本距离最近的同类样本和异类样本之间的距离，用ReliefF算法计算特征的同异类差异度；

2.如权利要求1所述的基于自适应LASSO的特征选择方法，其特征在于，步骤A中，根据样本分类标签的类别数量，对特征变量进行等距分箱，再计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵，用于计算特征的对称不确定度，包括：

输入：训练集S{F₁,F₂,…,F_d,C}，其中F_i代表每个特征向量，C代表分类标签向量；

步骤A1：计算分类标签的类别数N_C，将特征向量F_i等距分为N_C等份；

步骤A2：计算每个特征向量的信息熵H(F_i)和条件熵H(F_i|C)，以及信息增益Gain(F_i|C)＝H(F_i)-H(F_i|C)；

步骤A3：对每个特征的信息增益进行归一化处理，由此得到的衡量特征的分类能力指标称为对称不确定度SU(F_i|C)＝2×Gain(F_i|C)/(H(F_i)+H(C))；

输出SU向量(s₁,s₂,…,s_d)，其中s_i＝SU(F_i|C)。

3.如权利要求1所述的基于自适应LASSO的特征选择方法，其特征在于，在步骤B中，使用ReliefF算法计算每个特征的同异类差异度，包括：

步骤B1：对每个特征的每个样本，确定k个最近同类样本和最近异类样本，计算其同类距离差的平方和与异类距离差的平方和，记第i个特征向量的第j个分量为

最近k个同类样本和异类样本分别记为

和

同类与异类距离差的平方和计算公式为

和

输出ReliefF向量(r₁,r₂,…,r_d)，其中r_i＝ReliefF(F_i)。

4.如权利要求1所述的基于自适应LASSO的特征选择方法，其特征在于，在步骤C中，分别使用步骤A和步骤B中计算得到的SU向量(s₁,s₂,…,s_d)和ReliefF向量(r₁,r₂,…,r_d)作为特征权重向量构建两个自适应LASSO模型，求解得到两个特征子集F_SU和F_Relief，对两个特征集合求并集得到最终的特征集合F_select＝F_SU∪F_Relief。

5.一种基于自适应LASSO的特征选择系统，其特征在于，采用如权利要求1-4之任一项所述的方法，所述系统包括：

对称不确定度计算模块，基于输入的数据，用权利要求2所述的方法计算特征向量的对称不确定度；

同异类差异度计算模块，依据输入的数据，用权利要求3所述的方法计算特征向量的同异类差异度；

自适应LASSO模块，以对称不确定度计算模块和同异类差异度计算模块的输出作为输入，用权利要求4所述的方法计算并输出筛选出来的特征子集。