CN111833966A - 一种基于自适应lasso的特征选择方法及系统 - Google Patents

一种基于自适应lasso的特征选择方法及系统 Download PDF

Info

Publication number
CN111833966A
CN111833966A CN202010644128.7A CN202010644128A CN111833966A CN 111833966 A CN111833966 A CN 111833966A CN 202010644128 A CN202010644128 A CN 202010644128A CN 111833966 A CN111833966 A CN 111833966A
Authority
CN
China
Prior art keywords
feature
vector
calculating
difference
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010644128.7A
Other languages
English (en)
Inventor
李海晟
赵炳君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010644128.7A priority Critical patent/CN111833966A/zh
Publication of CN111833966A publication Critical patent/CN111833966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于自适应LASSO的特征选择方法,适用于对具有高维度、低样本量特点的基因微阵列数据进行特征选择的问题。首先,计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵,以此得到每个特征向量与分类标签之间的对称不确定度;然后,根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则,用ReliefF算法计算每个特征的同异类差异度;最后,分别将上述两种评价指标作为自适应LASSO算法的特征权重进行特征选择,将得到两批特征子集合合并生成最终筛选出的特征集合。

Description

一种基于自适应LASSO的特征选择方法及系统
技术领域
本发明属于特征工程中的特征选择技术领域,涉及数学和计算机科学,可应用于机器学习领域,包括基因微阵列数据处理、文本分析、模式识别等方面。
背景技术
作为一种基因表达数据的载体,DNA微阵列被广泛应用于疾病诊断领域[1-3]。对于DNA微阵列数据而言,高维度和低样本量是两大特点。随着生物芯片技术的不断发展,其数据高维度的特点愈演愈烈,带来“维度灾难”[4]这一挑战。为了应对这一难题,数据的预处理不可避免。特征选择和特征提取是两种常用的特征预处理方法,其区别在与前者从原始特征集合中筛选出重要的特征子集而后者则利用原始特征构建出的新的特征集合来将其代替。尽管特征提取在处理高维数据时十分常用,但会使数据解释性的特点使其对于基因微阵列数据而言并不合适。因此在处理基因微阵列数据时,特征选择的使用更加的广泛。
根据特征选择方法与学习模型的关系,特征选择方法可以被大致分为过滤法、包装法和嵌入法三类。过滤法无需构建学习集即可进行特征选择,通常会使用一些特定的评价指标对特征进行评分,再通过设定一定的阈值进行特征筛选。Relief[5]算法通过记录每个样本在相应特征上的最近同类样本距离与最近异类样本距离,根据同类样本距离应该越小而异类样本距离应该越大的原则,对特征进行评价。Hall[6]根据特征与分类标签的相关性应该越大而特征间相关性应该越低的原则,提出了CFS算法。通过计算特征与分类标签的相关性以及特征与其他特征的平均相关性,CFS算法可以对每个特征进行评分并选择得分高的特征。在此基础上,Yu等人[7]对特征的筛选方法做出了改进提出了效率更高的FCBF算法。包装法通过结合学习算法来对特征进行评价并逐步的筛选出重要的特征。Guyon等人[8]基于线性SVM模型提出了SVM-RFE算法。该方法以SVM模型的估计量的绝对值作为特征重要性的评价指标来递归的排除评价较差的特征。Diaz-Uriarte等人[9]提出了一种基于随机森林的特征选择算法,通过对特征值进行随机排列,计算各特征的OOB(Out-of-bag)误差的差值来对特征进行评价。嵌入法在学习算法训练的同时进行特征的选择,通常使用正则化惩罚项来实现,比如Tibshirani[10]基于L1正则化提出了LASSO算法。然而,Zou[11]提出LASSO在某些情况下无法保证选出的特征的一致性,提出了对每个特征的正则化项添加系数的自适应LASSO方法。
发明内容
本发明提出了一种基于自适应LASSO的特征选择方法:首先计算所有输入特征的对称不缺度和同异类差异度;然后分别用它们作为自适应LASSO的系数进行特征选择;最后取特征集合的并集作为最终筛选出的特征。
本发明提出了一种基于自适应LASSO的特征选择方法,包括以下步骤:
步骤A:计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵,根据信息熵与条件熵计算出每个特征与分类标签之间的互信息,再对互信息进行归一化处理得到相应的对称不确定度。
步骤B:根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则,以欧氏距离为度量,用ReliefF算法计算特征的同异类差异度。
步骤C:将步骤A和步骤B中得到的两种特征评价指标分别作为自适应LASSO算法的权重,进行特征选择,合并两次LASSO算法选择的特征子集,得到最终筛选出的特征集。
本发明步骤A中计算特征的对称不确定度的具体步骤见算法1。
算法1:对称不确定度的计算
输入:训练集S{F1,F2,…,Fd,C},其中Fi代表每个特征向量,C代表分类标签向量。
步骤A1:计算分类标签的类别数NC,将特征向量Fi等距分为NC等份。
步骤A2:计算每个特征向量的信息熵H(Fi)和条件熵H(Fi|C),以及信息增益Gain(Fi|C)=H(Fi)-H(Fi|C)。
步骤A3:对每个特征的信息增益进行归一化处理,由此得到的衡量特征的分类能力指标称为对称不确定度SU(Fi|C)=2×Gain(Fi|C)/(H(Fi)+H(C))。
输出SU向量(s1,s2,…,sd),其中si=SU(Fi|C)。
本发明步骤B中使用ReliefF算法计算特征的同异类差异度的具体步骤如下:
输入:训练集S{F1,F2,…,Fd,C},其中Fi代表每个特征向量,C代表分类标签向量。
步骤B1:对每个特征的每个样本,确定k个最近同类样本和最近异类样本,计算其同类距离差的平方和与异类距离差的平方和。记第i个特征向量的第j个分量为
Figure BDA0002572495810000021
最近k个同类样本和异类样本分别记为
Figure BDA0002572495810000022
Figure BDA0002572495810000023
同类与异类距离差的平方和计算公式为
Figure BDA0002572495810000024
Figure BDA0002572495810000025
步骤B2:分别计算每个特征的同类距离和与异类距离和,它们的差值定义为同异类差异度,即
Figure BDA0002572495810000026
输出ReliefF向量(r1,r2,…,rd),其中ri=ReliefF(Fi)。
本发明步骤C中使用的两种特征评价指标分别SU向量(s1,s2,…,sd)和ReliefF向量(r1,r2,…,rd)。两个自适应LASSO算法得到两个特征子集记为FSU和FRelief,则选择的最终特征集Fselect=FSU∪FRelief
本发明还提出了一种基于自适应LASSO的特征选择系统,包括:
对称不确定度计算模块,基于输入的数据,用算法1计算特征向量的对称不确定度;
同异类差异度计算模块,依据输入的数据,用ReliefF算法计算特征向量的同异类差异度;
自适应LASSO模块,以对称不确定度计算模块和同异类差异度计算模块的输出作为输入,分别用对称不确定度和同异类差异度作为权重,求解加权LASSO,计算得到两个特征子集。它们的并集作为筛选出来的特征子集。
本发明提出的基于自适应LASSO的特征选择方法技术效果:特征选择属于特征工程的常见方法之一,在机器学习领域起着十分重要的作用。良好的特征选择方法不仅能简化模型,使之更易于被研究人员或用户理解,同时还能提高模型的泛化性能,提升模型效果,在DNA微阵列数据处理、疾病诊断、数据分类和文本分析等领域广泛应用。本发明提出的基于自适应LASSO的特征选择方法,基于集成学习的思想,与一些常见的特征选择方法,如reliefF[12],信息增益(IG)[13],mRMR[14],FCBF[7],SVM-RFE[8],LASSO[10]和LPR-FS[15]等相比,在筛选出的相近特征数量的情况下,数据分类性能更好,表明选取的特征与类别关联性强、信息丢失少。下面给出本发明方法与上述7种方法的实验比较结果。表1给出了实验使用的6种常用微阵列数据的基本信息。
表1数据集基本信息
标记 数据集 特征数量 样本数量 类别数量
Colon Colon Tumor 2000 60 2
CNS Central Nervous System 7129 60 2
AA ALL-AML 7129 72 2
AA-3 ALL-AML-3 7129 72 3
MLL MLL 12582 72 3
SRBCT SRBCT 2308 83 4
表2给出了本方法与上述7种方法在表1的六种数据集上进行50次.632bootstrap[16]特征选择之后每次平均选出的特征数量。
表2平均选择特征数量对比
Figure BDA0002572495810000031
Figure BDA0002572495810000041
表3给出了本方法与上述7种方法使用50次.632bootstrap选择出的特征进行疾病预测的平均准确率。K近邻(KNN),朴素贝叶斯(NB)和支持向量机(SVM)等三种分类器被用于分类效果的测试,对错数量比显示了本发明方法筛选的特征在分类性能上要明显强于其它7种方法。
表3平均分类准确率对比
Figure BDA0002572495810000042
Figure BDA0002572495810000051
参考文献
[1]J.Khan,J.S.Wei,M.Ringner,L.H.Saal,M.Ladanyi,F.Westermann,F.Berthold,M.Schwab,C.R.Antonescu,C.Peterson,et al.,Classification anddiagnostic prediction of cancers using gene expression profiling andartificial neural networks,Nature medicine7(6)(2001)673.
[2]S.L.Pomeroy,P.Tamayo,M.Gaasenbeek,L.M.Sturla,M.Angelo,M.E.McLaughlin,J.Y.Kim,L.C.Goumnerova,P.M.Black,C.Lau,etal.,Prediction ofcentral nervous system embryonal tumour outcome based on gene expression,Nature415(6870)(2002)436.
[3]R.-h.Xu,W.Wei,M.Krawczyk,W.Wang,H.Luo,K.Flagg,S.Yi,W.Shi,Q.Quan,K.Li,etal.,Circulating tumour dna methylation markers for diagnosis andprognosis of hepatocellular carcinoma,Nature materials16(11)(2017)1155.
[4]R.Bellman,Dynamic programming,princeton,nj:Princeton univ,versityPress.BellmanDynamic Programming1957.
[5]K.Kira,L.A.Rendell,et al.,The feature selection problem:Traditional methods and a new algorithm,in:Aaai,Vol.2,1992,pp.129-134.
[6]Hall MA.Correlation-based Feature Selection for Machine Learning[D].The University of Waikato,1999.
[7]L.Yu,H.Liu,Feature selection for high-dimensional data:A fastcorrelation-based filter solution,in:Proceedings of the20th internationalconference on machine learning(ICML-03),2003,pp.856–863.
[8]I.Guyon,J.Weston,S.Barnhill,V.Vapnik,Gene selection for cancerclassification using support vector machines,Machine learning46(1-3)(2002)389–422.
[9]R.Diaz-Uriarte,S.A.DeAndres,Gene selection and classification ofmicroarray data using random forest,BMC bioinformatics7(1)(2006)3.
[10]R.Tibshirani,Regression shrinkage and selection via the lasso,Journal of the Royal Statistical Society:Series B(Methodological)58(1)(1996)267-288.
[11]H.Zou,The adaptive lasso and its oracle properties,Journal of theAmerican statistical association 101(476)(2006)1418-1429.
[12]I.Kononenko,Estimating attributes:analysis and extensions ofrelief,in:European conference on machine learning,Springer,1994,pp.171-182.
[13]A.Arauzo-Azofra,J.L.Aznarte,J.M.Benitez,Empirical study offeature selection methods based on individual feature evaluation forclassification problems,Expert Systems with Applications38(7)(2011)8170-8177.
[14]H.Peng,F.Long,C.Ding,Feature selection based on mutualinformation:criteria of max-dependency,max-relevance,and min-redundancy,IEEETransactions on Pattern Analysis&Machine Intelligence(8)(2005)1226-1238.
[15]T.Zhang,P.Ren,Y.Ge,Y.Zheng,Y.Y.Tang,C.P.Chen,Learning proximityrelations for feature selection,IEEE Transactions on Knowledge and DataEngineering28(5)(2016)1231-1244.
[16]J.Chimka,Bootstrap methods:A practitioner'sguide,IIETransactions35(6)(2003)583-583.
附图说明
图1为本发明基于自适应LASSO的特征选择方法的示意图。
具体实施方式
结合以下具体实施例,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明提出了一种基于自适应LASSO的特征选择方法:首先计算所有输入特征的对称不缺度和同异类差异度;然后分别用它们作为自适应LASSO的系数进行特征选择;最后取特征集合的并集作为最终筛选出的特征。
本发明提出了一种基于自适应LASSO的特征选择方法,包括以下步骤:
步骤A:计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵,根据信息熵与条件熵计算出每个特征与分类标签之间的互信息,再对互信息进行归一化处理得到相应的对称不确定度。
步骤B:根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则,以欧氏距离为度量,用ReliefF算法计算特征的同异类差异度。
步骤C:将步骤A和步骤B中得到的两种特征评价指标分别作为自适应LASSO算法的权重,进行特征选择,合并两次LASSO算法选择的特征子集,得到最终筛选出的特征集。
本发明步骤A中计算特征的对称不确定度的具体步骤见算法1。
算法1:对称不确定度的计算
输入:训练集S{F1,F2,…,Fd,C},其中Fi代表每个特征向量,C代表分类标签向量。
步骤A1:计算分类标签的类别数NC,将特征向量Fi等距分为NC等份。
步骤A2:计算每个特征向量的信息熵H(Fi)和条件熵H(Fi|C),以及信息增益Gain(Fi|C)=H(Fi)-H(Fi|C)。
步骤A3:对每个特征的信息增益进行归一化处理,由此得到的衡量特征的分类能力指标称为对称不确定度SU(Fi|C)=2×Gain(Fi|C)/(H(Fi)+H(C))。
输出SU向量(s1,s2,…,sd),其中si=SU(Fi|C)。
本发明步骤B中使用ReliefF算法计算特征的同异类差异度的具体步骤如下。
输入:训练集S{F1,F2,…,Fd,C},其中Fi代表每个特征向量,C代表分类标签向量。
步骤B1:对每个特征的每个样本,确定k个最近同类样本和最近异类样本,计算其同类距离差的平方和与异类距离差的平方和。记第i个特征向量的第j个分量为
Figure BDA0002572495810000061
最近k个同类样本和异类样本分别记为
Figure BDA0002572495810000062
Figure BDA0002572495810000063
同类与异类距离差的平方和计算公式为
Figure BDA0002572495810000071
Figure BDA0002572495810000072
步骤B2:分别计算每个特征的同类距离和与异类距离和,它们的差值定义为同异类差异度,即
Figure BDA0002572495810000073
输出ReliefF向量(r1,r2,…,rd),其中ri=ReliefF(Fi)。
本发明步骤C中使用的两种特征评价指标分别SU向量(s1,s2,…,sd)和ReliefF向量(r1,r2,…,rd)。两个自适应LASSO算法得到两个特征子集记为FSU和FRelief,则选择的最终特征集Fselect=FSU∪FRelief
本发明还提出了一种基于自适应LASSO的特征选择系统,包括:
对称不确定度计算模块,基于输入的数据,用算法1计算特征向量的对称不确定度;
同异类差异度计算模块,依据输入的数据,用ReliefF算法计算特征向量的同异类差异度;
自适应LASSO模块,以对称不确定度计算模块和同异类差异度计算模块的输出作为输入,分别用对称不确定度和同异类差异度作为权重,求解加权LASSO,计算得到两个特征子集。它们的并集作为筛选出来的特征子集。
实施例1
本实施例中的数据来自于The Cancer Genome Atlas(TCGA)数据库,使用的是肝癌细胞的甲基化表达数据,其中癌症样本取自癌症器官细胞内,正常样本取自距癌症器官一定距离的器官细胞内。数据集合维度为485577,样本数量为100个,其中癌症样本50个,正常样本50个。按照70%训练集,30%测试集的比例将数据集分成两部分,对训练集实施特征选择方法。首先对训练数据进行学生t检验,选择出p值最小的1000个特征;然后,对该1000个特征数据实施本方法进行特征选择,筛选得到8个特征。分别使用这8个特征和1000个特征训练线性SVM模型进行对测试集进行验证,最终在测试集上得到了同样的分类准确率,96.7%。
实施例2
本实施例中的数据来自于Uci Machine Learning Repository,使用的是Sentiment Labelled Sentences Data Set。数据随机取样于亚马逊的购物评论,用来判断该评论情感是否为积极。数据集合有样本1000个,其中积极样本和消极样本各500个。通过词袋模型将文本数据进行向量化,得到1897维的训练数据。按照70%训练集,30%测试集的比例将数据集分成两部分,对训练集实施特征选择方法。因为本数据集为离散化数据,不能使用Relief算法计算同异类差异度,故仅使用了对称不确定度的自适应Lasso方法进行特征选择,筛选得到了224个特征。分别使用这224个特征和1897个特征训练线性SVM模型进行对测试集进行验证,最终在测试集上得到了75.0%和73.6%的分类准确率。
本发明提出的基于自适应LASSO的特征选择方法,适用于对具有高维度、低样本量特点的基因微阵列数据进行特征选择的问题。首先,计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵,以此得到每个特征向量与分类标签之间的对称不确定度;然后,根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则,用ReliefF算法计算每个特征的同异类差异度;最后,分别将上述两种评价指标作为自适应LASSO算法的特征权重进行特征选择,将得到两批特征子集合合并生成最终筛选出的特征集合。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (5)

1.一种基于自适应LASSO的特征选择方法,其特征在于,包括以下步骤:
步骤A:计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵,根据信息熵与条件熵计算出每个特征与分类标签之间的互信息,再对互信息进行归一化处理得到相应的对称不确定度;
步骤B:根据同类样本之间的特征表达差异度较小、异类样本之间差异度较大的原则,以欧氏距离为度量分别计算与每个样本距离最近的同类样本和异类样本之间的距离,用ReliefF算法计算特征的同异类差异度;
步骤C:将步骤A和步骤B中得到的两种特征评价指标分别作为自适应LASSO算法的权重,进行特征选择,合并两次LASSO算法选择的特征子集,得到最终筛选出的特征集。
2.如权利要求1所述的基于自适应LASSO的特征选择方法,其特征在于,步骤A中,根据样本分类标签的类别数量,对特征变量进行等距分箱,再计算每个特征向量和分类标签各自的信息熵以及特征和标签之间的条件熵,用于计算特征的对称不确定度,包括:
输入:训练集S{F1,F2,…,Fd,C},其中Fi代表每个特征向量,C代表分类标签向量;
步骤A1:计算分类标签的类别数NC,将特征向量Fi等距分为NC等份;
步骤A2:计算每个特征向量的信息熵H(Fi)和条件熵H(Fi|C),以及信息增益Gain(Fi|C)=H(Fi)-H(Fi|C);
步骤A3:对每个特征的信息增益进行归一化处理,由此得到的衡量特征的分类能力指标称为对称不确定度SU(Fi|C)=2×Gain(Fi|C)/(H(Fi)+H(C));
输出SU向量(s1,s2,…,sd),其中si=SU(Fi|C)。
3.如权利要求1所述的基于自适应LASSO的特征选择方法,其特征在于,在步骤B中,使用ReliefF算法计算每个特征的同异类差异度,包括:
输入:训练集S{F1,F2,…,Fd,C},其中Fi代表每个特征向量,C代表分类标签向量;
步骤B1:对每个特征的每个样本,确定k个最近同类样本和最近异类样本,计算其同类距离差的平方和与异类距离差的平方和,记第i个特征向量的第j个分量为
Figure FDA0002572495800000011
最近k个同类样本和异类样本分别记为
Figure FDA0002572495800000012
Figure FDA0002572495800000013
同类与异类距离差的平方和计算公式为
Figure FDA0002572495800000014
Figure FDA0002572495800000015
步骤B2:分别计算每个特征的同类距离和与异类距离和,它们的差值定义为同异类差异度,即
Figure FDA0002572495800000016
输出ReliefF向量(r1,r2,…,rd),其中ri=ReliefF(Fi)。
4.如权利要求1所述的基于自适应LASSO的特征选择方法,其特征在于,在步骤C中,分别使用步骤A和步骤B中计算得到的SU向量(s1,s2,…,sd)和ReliefF向量(r1,r2,…,rd)作为特征权重向量构建两个自适应LASSO模型,求解得到两个特征子集FSU和FRelief,对两个特征集合求并集得到最终的特征集合Fselect=FSU∪FRelief
5.一种基于自适应LASSO的特征选择系统,其特征在于,采用如权利要求1-4之任一项所述的方法,所述系统包括:
对称不确定度计算模块,基于输入的数据,用权利要求2所述的方法计算特征向量的对称不确定度;
同异类差异度计算模块,依据输入的数据,用权利要求3所述的方法计算特征向量的同异类差异度;
自适应LASSO模块,以对称不确定度计算模块和同异类差异度计算模块的输出作为输入,用权利要求4所述的方法计算并输出筛选出来的特征子集。
CN202010644128.7A 2020-07-07 2020-07-07 一种基于自适应lasso的特征选择方法及系统 Pending CN111833966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010644128.7A CN111833966A (zh) 2020-07-07 2020-07-07 一种基于自适应lasso的特征选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644128.7A CN111833966A (zh) 2020-07-07 2020-07-07 一种基于自适应lasso的特征选择方法及系统

Publications (1)

Publication Number Publication Date
CN111833966A true CN111833966A (zh) 2020-10-27

Family

ID=72900243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644128.7A Pending CN111833966A (zh) 2020-07-07 2020-07-07 一种基于自适应lasso的特征选择方法及系统

Country Status (1)

Country Link
CN (1) CN111833966A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885409A (zh) * 2021-01-18 2021-06-01 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN113553535A (zh) * 2021-07-09 2021-10-26 常州大学 一种基于改进的ReliefF多路信号特征优化方法
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116522210A (zh) * 2023-07-03 2023-08-01 中国医学科学院生物医学工程研究所 基于脑网络差异性分析的运动想象脑电信号分类方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885409A (zh) * 2021-01-18 2021-06-01 吉林大学 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN113553535A (zh) * 2021-07-09 2021-10-26 常州大学 一种基于改进的ReliefF多路信号特征优化方法
CN113553535B (zh) * 2021-07-09 2023-09-01 常州大学 一种基于改进的ReliefF多路信号特征优化方法
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116052885B (zh) * 2023-02-07 2024-03-08 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116522210A (zh) * 2023-07-03 2023-08-01 中国医学科学院生物医学工程研究所 基于脑网络差异性分析的运动想象脑电信号分类方法
CN116522210B (zh) * 2023-07-03 2023-09-01 中国医学科学院生物医学工程研究所 基于脑网络差异性分析的运动想象脑电信号分类方法

Similar Documents

Publication Publication Date Title
Pansombut et al. Convolutional neural networks for recognition of lymphoblast cell images
CN111833966A (zh) 一种基于自适应lasso的特征选择方法及系统
Haq et al. Combining multiple feature-ranking techniques and clustering of variables for feature selection
Zhou et al. Least squares support vector machines ensemble models for credit scoring
Demidova et al. Big data classification using the SVM classifiers with the modified particle swarm optimization and the SVM ensembles
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Peng et al. Improved support vector machine algorithm for heterogeneous data
Fazakis et al. Iterative robust semi-supervised missing data imputation
Albergante et al. Estimating the effective dimension of large biological datasets using Fisher separability analysis
Raza et al. Understanding and using rough set based feature selection: concepts, techniques and applications
Shi et al. Dynamic barycenter averaging kernel in RBF networks for time series classification
Torkey et al. Machine learning model for cancer diagnosis based on RNAseq microarray
Syafiandini et al. Multimodal deep boltzmann machines for feature selection on gene expression data
AL-Bermany et al. Microarray gene expression data for detection alzheimer’s disease using k-means and deep learning
Li et al. Multi-label feature selection with high-sparse personalized and low-redundancy shared common features
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
Hu et al. A novel quality prediction method based on feature selection considering high dimensional product quality data.
Rahman et al. Analyzing and evaluating boosting-based CNN algorithms for image classification
CN112906751A (zh) 一种非监督学习识别异常值的方法
Elizondo et al. Choice effect of linear separability testing methods on constructive neural network algorithms: An empirical study
Ji et al. Neural network-based assessment of prognostic markers and outcome prediction in bilharziasis-associated bladder cancer
Cui et al. esearch on Credit Card Fraud Classification Based on GA-SVM
Lindroos Transformers for breast cancer classification
Meegahapola et al. Prior activation distribution (PAD): A versatile representation to utilize DNN hidden units
Cai et al. Realize Generative Yet Complete Latent Representation for Incomplete Multi-View Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201027

WD01 Invention patent application deemed withdrawn after publication