CN101145171A - 一种基于独立分量集成学习的基因微阵列数据预测方法 - Google Patents

一种基于独立分量集成学习的基因微阵列数据预测方法 Download PDF

Info

Publication number
CN101145171A
CN101145171A CNA2007101323912A CN200710132391A CN101145171A CN 101145171 A CN101145171 A CN 101145171A CN A2007101323912 A CNA2007101323912 A CN A2007101323912A CN 200710132391 A CN200710132391 A CN 200710132391A CN 101145171 A CN101145171 A CN 101145171A
Authority
CN
China
Prior art keywords
component
sorter
independent
weight
classifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101323912A
Other languages
English (en)
Inventor
黄德双
刘昆宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CNA2007101323912A priority Critical patent/CN101145171A/zh
Publication of CN101145171A publication Critical patent/CN101145171A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于独立分量集成学习的基因微阵列数据预测方法,该方法依据独立分量集成判别系统的微阵列数据判别,其步骤包括:对微阵列数据进行独立分量分析变化;基于随机分量选择的独立分量分类器构建;分类器集成系统的构造。首先对微阵列数据进行独立分量变换,在获得的独立分量集合中,随机选择一个子集构造分类器。重复构造50个分类器,在此基础上,由加权投票法将这些基分类器组合构成一个分类器集成系统。本发明保证了使用的独立分量分类器集成系统比单个分类器有较高的精确度和稳健性;无需考虑具体参数选择的问题,提高了系统的易用性;集成分类器训练时间、存储容量要求不高。

Description

一种基于独立分量集成学习的基因微阵列数据预测方法
所属领域  本发明涉及生物信息学技术领域,特别涉及一种基于独立分量集成学习的基因微阵列数据预测方法。
背景技术  DNA微阵列技术是一种物理学、微电子学与分子生物学综合交叉形成的高新技术,最早由Fodor等人于1993年提出,并一直被不断地发展和完善。当前,DNA微阵列技术不仅是基因组信息学研究的主要支撑技术,而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的应用。在人类基因组计划读出全部基因组序列后,DNA微阵列数据分析也使得从大规模基因水平上揭示疾病的本质并进行彻底的治疗成为可能,癌症研究及其临床预防与治疗发生了革命性的变革。作为生物信息学的一个重要分支,DNA微阵列数据分析已经成为当今生命科学乃至整个自然科学的重大前沿领域之一。
DNA微阵列技术巨大的科学价值不仅在于能够帮助人们探索生物体内基因调控及其相互作用机理,更重要的是它联系了人类基因组序列与临床医学。癌症DNA微阵列数据分析(癌症微阵列数据分析)使得人们能够进行正常和疾病两种状态下基因表达状况的比较研究,并在生物体最根本的基因分子水平进行疾病性状的定义,从而帮助人们更好地理解肿瘤生成生长机理,促进致癌基因识别、癌症诊断与分类和癌症防治等相关课题的研究。2002年,德国科学家研制出新型癌症诊断基因芯片;2004年7月14日,台湾高雄医学大学发布“癌症诊断晶片”技术。基于微阵列数据分析的癌症诊断与分类方法以其快速经济,能够避免传统癌症诊断侵犯性检查和新颖可靠三大优点而被人们寄与厚望。
DNA微阵列技术为生物学和医学研究带来前所未有的机遇的同时,其所产生的海量和复杂的微阵列数据却对现有的数据处理和分析方法提出了巨大的挑战。首先,微阵列数据具有很高的维度(基因),通常有5,000-15,000维,而且这些基因维之间又有非常复杂的关系。第二,实验的复杂和费用的昂贵导致微阵列数据具有较少的样本,并与巨大的基因数目构成不平衡矛盾。这种矛盾造成大多数经典模式识别和机器学习方法不能被直接应用,比如,Fisher线性分析所要求的总类内样本协方差矩阵将成为奇异阵。第三,微阵列数据天生具有高噪声和高变异等数据分析难点。第四,微阵列数据中大量有用变量被隐藏。这可能需要使用概率统计的方法以挖掘和推导这些潜在的生物信息。另外,当考虑时间问题(比如死亡时间,癌症复发时间)时,又会产生不期望的审查中止(right-censoring)以致数据分析变得更加困难。
其实,基于癌症微阵列数据的癌症诊断与分类最大的难点在于高维(p)与小样本(n)之间的不平衡问题。这种不平衡问题导致了许多模式识别方法不能直接在癌症微阵列数据上应用。主分量分析等常用方法只对二阶信息敏感,因此有必要对数据分析方法进行扩展,从而充分挖掘数据中的高阶信息,最终提高癌症微阵列数据的分类效率。
独立分量分析(Independent Component Analysis,简写为ICA)可以看作是主分量分析的一种扩展,有以下几个优点:一是它可以提供一个更符合实际的统计模型,能更好的用来确定数据在高维空间的具体位置;二是ICA能得到唯一的混合矩阵A;三是ICA提供了一个非正交基空间,当信号存在噪声时,可以更好的对信号进行重建;四是ICA对高阶信息比较敏感,而主分量分析只对二阶统计信息敏感。此外,ICA可以利用所有的基因表达谱数据来设计样本分类器,而不是只利用其中的一小部分。目前基于ICA的微阵列数据分析主要集中于分析ICA模型中的混合矩阵A,例如通过分析A中各列的取值分布以来揭示一些数据中隐含的生物特征。另一个要研究的内容是在特征样本中表现比较特别的基因,用这些关键基因来对肿瘤样本进行分析,可能得到一些关键的信息。
关于探讨基于ICA的微阵列数据分类模型的文献是:郑春厚等提出的先使用T-test方法选择基因,而后进行ICA变换,进而使用支持向量机进行识别[C.H.Zheng,Y. Chen,X.X.Li,Y.X.Li,and Y.P. Zhu,Tumor classificationbased on independent component analysis,International Journal of PatternRecognition and Artifical Intelligence 20(2)(2006)297-310]。
还有黄德双等提出的利用ICA对基因表达数据进行分析,然后利用惩罚性优化得分算法对分类器进行训练,最终得到优化的分类器[D.S.Huang,C.H.Zheng,Independent component analysis-based penalized discriminant method fortumor classification using gene expression data,Bioinformatics 22(2006)1855-1862.]。目前基于ICA的癌症微阵列数据分类预测系统,因此这是一个有待进一步深化的研究领域。
对于一个典型的ICA变化,假定对于一个n×p维的矩阵X,每一个行向量ri(i=1,...,n)对应一个观测变量,每一个列向量cj(j=1,...,p)为变量的特征,对X进行ICA变化的过程可表述为:
X=AS                                            (1)
其中假定A为n×n的特征向量矩阵,S为n×p分离矩阵,其每一行分量达到最大的统计独立性,每一行分量可称为一个独立分量(Independentcomponent,简写为IC)。对独立分量的估计可以根据以下公式:
U=S=A-1X=WX                                (2)
若X表示基因表达数据,则其可以表示为独立分量基快照(特征值)S与未知混合矩阵A的线性混合。基于此方法,ICA用于寻找一使得矩阵U的行向量尽可能统计独立的矩阵W。使用U矩阵的行向量推算出的独立分量用于表达基因快照。
为用于估算独立分量,初始的训练数据集Xtn和新样本集合Xtt需要根据以下公式进行相应的变化:
U=WtnXtn=Atn -1Xtn             (3)
Xtn=AtnU                                   (4)
其中Atn包含了训练集Xtn的统计源线性混合系数。由此,测试集Xtt可以计算得:
Att=XttU-1                             (5)
在相应变化之后,可以根据相应独立分量构建ICA分类器。在此,我们只使用最近邻(1-NN)分类器来构建ICA分类器。常见的支持向量机、神经网络等分类器均可用于ICA分类器的构造。由于独立分量分析理论不如主分量分析那么成熟完善,所以基于独立分量分析的数据分析是一个相对新颖的课题。ICA模型描述了不同表达模式对各个基因上的独立影响。
在基因芯片数据分析中,在不同独立分量中的基因数量、分布不同,因此从生物的角度分析,不同的独立分量具有不同的生物意义,对癌症判断的准确性有着不同影响。因此,如果选择了适当的独立分量,由此构建出最适合微阵列数据预测的子空间,则可能提高原基于ICA构造的分类预测模型的准确度。我们已经分析了独立分量选择算法对提高基于独立分量分析模型预测精确度的重要影响,并用试验证明了独立分量选择能进一步提升基于独立分量分析模型的癌症数据分析预测能力[C.H.Zheng,D.S.Huang and S.Li,Feature selection in independent component subspace for microarray dataclassification,Neurocomputing 69(2006)2407-2410.;K.H.Liu,D.S.Huang andB.Li.Improving the Performance of ICA Based Microarray Data PredictionModel with Genetic Algorithm,IEEE Proceeding of CEC 2007(2007)]。在进行了IC分量选择之后,公式(1-5)与相关分析仍将成立,只是若选择了m个IC分量,需将Atn调整为n×m的矩阵,S为m×p矩阵,Att为k×m矩阵。
虽然独立分量选择的重要性对基于独立分量分析的微阵列数据判别模型在论文中得到论证,在上述文献中,已采用的方法主要有两种:基于前向浮动搜索算法和基于进化计算的方法。这两种方法都有其相应的缺陷:前者不能够真正搜索到最优的独立分量子集,而后者虽然有搜索到最优子集的可能,却需要耗费较多的时间,而且需要的时间较长。
Kuncheva在[L.I.Kuncheva,“Combining pattern classifiers:methods andalgorithms,”Wiley,2004]书中指出,由多个分类器共同构造出的分类器集成系统将比单个优秀的分类器有更好的稳健性。基于分类器集成系统的癌症微阵列数据预测是目前研究的一个趋势。
发明内容  本发明的发明目的是:基于现有技术的不足之处,我们提出了基于独立分量子集的集成学习方法,方法能有效解决搜索最优子集和预算效率的问题,并获得较为稳定高质量的预测结果。
本发明的技术方案是:一种基于独立分量集成学习的基因微阵列数据预测方法,特别是该方法的操作步骤如下所示:
1、数据的获取与预处理
对试验的训练样本进行ICA变化,获得一组IC分量集合。
2、IC分量子集的生成
从IC分量集合中随机有重复地选择出一半的IC分量,用于构建一个IC分量子集。重复以上步骤50次,形成50个独立的IC分量子集。
3、基分类器的生成
使用生成的IC分量子集分别用于训练最近邻分类器,从而构造50个基于随机独立分量选择的最近邻分类器。
4、构建分类器集成系统
对新的样本的测试中,首先根据公式(5)将新样本进行变换,而后分别使用50个最近邻分量器对新样本进行测试。测试的输出使用加权投票法的方式综合起来,从而构建出一个分类器集成系统。
使用加权投票法时,首先使用Bootstrap.632+算子通过测试样本对分类器Ci的预测精度进行估计,将相应的预测准确率作为该分类器输出判别可靠性的权重wi。之后,将权重归一化,即W′i=Wi/∑W。由此,若分类器i对新样本s的类别判定为Ois,集成系统最终的判定是根据公式: O s = Σ i = 1 50 w i O is .
需要说明的是:
1、由于对基因微阵列数据的ICA变换存在不可重复性,在IC子集的选择中也存在随机性,本发明设计的系统将可能是不可完全重复的。然而我们的重复实验表明,系统的预测准确率相对稳定。
2、如果使用更多的IC分量子集构建更多的基分类器,随着其数目的增加,集成系统的预测准确度将有进一步的提升。
3、尽管使用分类器集成系统对硬件的要求比使用单个分类器的要求更高,但由于最近邻分类器训练与判别需要的时间和空间复杂度低,比起其余的集成系统,本发明对硬件的要求较低,能确保在较短时间内获得最终的判定结果。
4、尽管在本发明中,只使用最近邻分类器作为基分类器,但一些常用且预测精度更高的分类器,如神经网络、支持向量机等,都可以作为基分类器,使用本发明的方法来构建分类器集成系统。因此任何熟悉本领域的技术人员可以轻易想到的变化和替换,都应涵盖在本发明的保护范围之内。
本发明的有益效果是:
其一,虽然独立分量选择的重要性对基于独立分量分析的微阵列数据判别模型在现有技术的论文中已经有了论证,但目前已采用的方法都有其相应的缺陷。主要有两种:基于前向浮动搜索方法和基于进化计算的算法。前者不能够真正搜索到最优的独立分量子集,而后者虽然有搜索到最优子集的可能,却需要耗费较多的时间。采用本方法,我们无需关注搜索最优子集的问题,因此虽然选择了50个基分类器,但算法运算速度较快,而且有较优的结果。
其二,设计了一种基于IC分量集成选择的分类器集成系统,用于基因微阵列数据的分类判别。其方法的操作步骤如下:
数据的获取与预处理,对试验的训练样本进行ICA变化,获得一组IC分量集合;
IC分量子集的生成,从IC分量集合中随机有重复地选择出一半的IC分量,用于构建一个IC分量子集,重复以上步骤50次,形成50个独立的IC分量子集;
基分类器的生成,使用生成的IC分量子集分别用于训练最近邻分类器,从而构造50个基于随机独立分量选择的最近邻分类器;
根据公式(5)将新样本进行变换,而后分别使用50个最近邻分量器对新样本进行测试,测试的输出使用加权投票法的方式综合起来,从而构建出一个分类器集成系统。
由于本方法中并没有太多的参数需要设置,也无需大量的训练样本,因此本方法极易推广。
其三,尽管微阵列数据训练样本数量较少,由于IC分量子集是随机有重复选择生成的,本发明能确保在用于训练最近邻分类器的IC分量子集存在较大的差异度,从而使得各个基分类器的构架存在较大区别,因而在新样本的判定中,某些基分类器的误判能够被其余分类器的判别校正,从而确保了最终输出判定的准确性和稳定性。
附图说明
图1是本发明的流程示意图,其具体工作方法流程是:
对试验的训练样本进行预处理(步骤100),然后对训练样本进行ICA变化,获得一组IC分量集合(步骤110);从IC分量集合中随机重复地选择出一半的IC分量,用于构建一个IC分量子集(步骤120);使用生成的IC分量子集分别用于训练最近邻分类器,从而构造基于随机独立分量选择的最近邻分类器(步骤130);使用Bootstrap.632+算子估测基分类器的预测精度(步骤140);在步骤150中判断需要的基分类器数量是否达到要求,如否则继续从步骤120开始重复产生IC分量子集并用于训练最相邻分类器,如是则开始使用产生的各分类器分别在相应的独立分量子集空间对新的样本进行测试(步骤160);使用加权投票法集成各基分类器测试的输出结果,(步骤170)对基因芯片数据的类型进行预测输出,结束整个流程(步骤180)。
图2以前列腺癌数据集为例,给出了微阵列数据预测的十次准确率的平均值随集分类器数量不同而变化的图示。从图2中可以看出,随着集分类器数量的增多,预测准确率趋于稳定。当分类器的数量超过30,预测结果稳定在一个较高的精确度上。这一结论同样适用于在其余两个数据集。因此,集分类器的数量设置为50,从而能确保结果的稳健性。
具体实施方式
采用网络上公布的三个公共数据集对发明中提出的方法进行测试。数据集分别是:前列腺癌数据集;肝癌数据集和乳腺癌数据集。这些数据集都是采集自医疗的真实数据,所以实验结果有较高的可信度。在表一给出了关于这三个数据集的一个概述。
表一、三个肿瘤样本基因表达数据集简介
训练集 测试集 基因数目
前列腺癌数据集 102 34 12600
肝癌数据集 33 27 7129
乳腺癌数据集 78 19 24188
评价微阵列数据预测方法的性能,通常有主要使用预测的准确率,即正确预测的样本数目和总样本数目的比例。这三个数据集都是癌症基因数据集,所以预测分类的性能评价是准确判断数据中记录的病人癌症与非癌症的程度。采用本发明的方法,对以上三个癌症微阵列数据集进行测试。测试过程中,按原测试集与训练集的比例随机重新划分训练集与测试集10次,以获得真实客观的评价。
具体测试结果详见表二。表中方法1表示采用现有技术,使用单个基于独立分量预测分类器所能达到的预测准确度;方法2表示采用现有技术,使用基于前向浮动搜索算法进行独立分量选择获得的预测分类器所能达到的预测准确度;方法3表示采用本发明方法能达到的预测准确度。由表中数据可知,本发明的方法能极大提高对癌症基因的分类预测能力,从而能提高基于微阵列芯片数据分析的疾病确诊率。
表二、对三个数据集的预测结果
 前列腺癌数据集  肝癌数据集  乳腺癌数据集
 方法1  92.06±8.26  66.68±7.15  65.63±7.33
 方法2方法3  93.65±6.7398.82±7.81  67.13±6.4669.45±5.91  65.52±8.4571.90±9.75

Claims (2)

1.一种基于独立分量集成学习的基因微阵列数据预测方法,其特征在于该方法的操作步骤如下:
数据的获取与预处理,对试验的训练样本进行独立分量分析(IndependentComponent Analysis,简写为ICA)变化,获得一组独立分量(IndependentComponent,简写为IC)集合;
独立分量子集的生成,从IC分量集合中随机有重复地选择出一半的IC分量,用于构建一个IC分量子集,重复以上步骤50次,形成50个独立的IC分量子集;
基分类器的生成,使用生成的IC分量子集分别用于训练最近邻分类器,从而构造50个基于随机独立分量选择的最近邻分类器;
将新样本在各个新的IC分量子集所代表的分量空间中进行变换,而后分别使用50个最近邻分量器对新样本进行测试,测试的输出使用加权投票法进行综合,从而构建出一个分类器集成系统。
2.根据权利要求1所述的一种基于独立分量集成学习的基因微阵列数据预测方法,其特征是:所述的测试的输出使用加权投票法是使用Bootstrap.632+算子通过测试样本对分类器Ci的预测精度进行估计,将相应的预测准确率作为该分类器输出判别可靠性的权重wi。之后,将权重归一化,即Wi′=Wi/∑W,若分类器i对新样本s的类别判定为Ois,集成系统最终的判定是根据公式: O s = Σ i = 1 50 w i O is .
CNA2007101323912A 2007-09-15 2007-09-15 一种基于独立分量集成学习的基因微阵列数据预测方法 Pending CN101145171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101323912A CN101145171A (zh) 2007-09-15 2007-09-15 一种基于独立分量集成学习的基因微阵列数据预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101323912A CN101145171A (zh) 2007-09-15 2007-09-15 一种基于独立分量集成学习的基因微阵列数据预测方法

Publications (1)

Publication Number Publication Date
CN101145171A true CN101145171A (zh) 2008-03-19

Family

ID=39207697

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101323912A Pending CN101145171A (zh) 2007-09-15 2007-09-15 一种基于独立分量集成学习的基因微阵列数据预测方法

Country Status (1)

Country Link
CN (1) CN101145171A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706876B (zh) * 2009-11-13 2011-08-24 西安电子科技大学 基于混合子空间学习选择性集成的微钙化簇检测方法
CN101515313B (zh) * 2009-03-27 2012-02-01 吉林大学 一组微阵列误标记样本检测方法
CN102016881B (zh) * 2008-04-25 2013-06-12 皇家飞利浦电子股份有限公司 样本数据的分类
CN104063459A (zh) * 2014-06-26 2014-09-24 中国科学院微生物研究所 一种基于流感病毒刺激的细胞差异基因数据分类系统
CN104331642A (zh) * 2014-10-28 2015-02-04 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN105471647A (zh) * 2015-12-03 2016-04-06 国网江西省电力公司信息通信分公司 一种电力通信网故障定位方法
CN106066936A (zh) * 2016-05-30 2016-11-02 北京千安哲信息技术有限公司 一种提高药物不良反应预测精度的方法及系统
CN107633265A (zh) * 2017-09-04 2018-01-26 深圳市华傲数据技术有限公司 用于优化信用评估模型的数据处理方法及装置
CN108629155A (zh) * 2018-05-14 2018-10-09 浙江大学 一种参数最优的白血病癌细胞检测仪
CN108629158A (zh) * 2018-05-14 2018-10-09 浙江大学 一种智能肺癌癌细胞检测仪
CN108647491A (zh) * 2018-05-14 2018-10-12 浙江大学 一种智能白血病癌细胞检测仪
CN108664764A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的结肠癌癌细胞检测仪
CN108664763A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的肺癌癌细胞检测仪
CN108875305A (zh) * 2018-05-14 2018-11-23 浙江大学 一种群智能寻优的白血病癌细胞检测仪
CN108897988A (zh) * 2018-05-14 2018-11-27 浙江大学 一种群智能寻优的结肠癌癌细胞检测仪
CN110070060A (zh) * 2019-04-26 2019-07-30 天津开发区精诺瀚海数据科技有限公司 一种轴承设备的故障诊断方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016881B (zh) * 2008-04-25 2013-06-12 皇家飞利浦电子股份有限公司 样本数据的分类
CN101515313B (zh) * 2009-03-27 2012-02-01 吉林大学 一组微阵列误标记样本检测方法
CN101706876B (zh) * 2009-11-13 2011-08-24 西安电子科技大学 基于混合子空间学习选择性集成的微钙化簇检测方法
CN104063459A (zh) * 2014-06-26 2014-09-24 中国科学院微生物研究所 一种基于流感病毒刺激的细胞差异基因数据分类系统
CN104063459B (zh) * 2014-06-26 2017-02-22 中国科学院微生物研究所 一种基于流感病毒刺激的细胞差异基因数据分类系统
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104391860B (zh) * 2014-10-22 2018-03-02 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104331642A (zh) * 2014-10-28 2015-02-04 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN104331642B (zh) * 2014-10-28 2017-04-12 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN105471647B (zh) * 2015-12-03 2018-09-21 国网江西省电力公司信息通信分公司 一种电力通信网故障定位方法
CN105471647A (zh) * 2015-12-03 2016-04-06 国网江西省电力公司信息通信分公司 一种电力通信网故障定位方法
CN106066936A (zh) * 2016-05-30 2016-11-02 北京千安哲信息技术有限公司 一种提高药物不良反应预测精度的方法及系统
CN107633265A (zh) * 2017-09-04 2018-01-26 深圳市华傲数据技术有限公司 用于优化信用评估模型的数据处理方法及装置
CN107633265B (zh) * 2017-09-04 2021-03-30 深圳市华傲数据技术有限公司 用于优化信用评估模型的数据处理方法及装置
CN108629155A (zh) * 2018-05-14 2018-10-09 浙江大学 一种参数最优的白血病癌细胞检测仪
CN108629158A (zh) * 2018-05-14 2018-10-09 浙江大学 一种智能肺癌癌细胞检测仪
CN108647491A (zh) * 2018-05-14 2018-10-12 浙江大学 一种智能白血病癌细胞检测仪
CN108664764A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的结肠癌癌细胞检测仪
CN108664763A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的肺癌癌细胞检测仪
CN108875305A (zh) * 2018-05-14 2018-11-23 浙江大学 一种群智能寻优的白血病癌细胞检测仪
CN108897988A (zh) * 2018-05-14 2018-11-27 浙江大学 一种群智能寻优的结肠癌癌细胞检测仪
CN110070060A (zh) * 2019-04-26 2019-07-30 天津开发区精诺瀚海数据科技有限公司 一种轴承设备的故障诊断方法

Similar Documents

Publication Publication Date Title
CN101145171A (zh) 一种基于独立分量集成学习的基因微阵列数据预测方法
Ruiz et al. Incremental wrapper-based gene selection from microarray data for cancer classification
CN102272764B (zh) 从基因库选择候选基因集合的方法和系统
Liu et al. Selecting informative genes with parallel genetic algorithms in tissue classification
CN102282559A (zh) 数据分析方法和系统
Li et al. Gene selection using genetic algorithm and support vectors machines
CN1741036A (zh) 构造分类属于不同状态的生物样本的模型的方法
Dunkler et al. Statistical analysis principles for Omics data
Kim et al. Prediction of colon cancer using an evolutionary neural network
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
CN105243296A (zh) 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN103678954A (zh) 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
Dash et al. Performance analysis of clustering techniques over microarray data: A case study
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
Huang et al. Gene expression profiling for prediction of clinical characteristics of breast cancer
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
Wu On biological validity indices for soft clustering algorithms for gene expression data
Yu et al. Simple rule-based ensemble classifiers for cancer DNA microarray data classification
Irigoien et al. Identification of differentially expressed genes by means of outlier detection
Bolón-Canedo et al. Feature selection in DNA microarray classification
Li et al. Feature selection for partial least square based dimension reduction
Mramor et al. Conquering the curse of dimensionality in gene expression cancer diagnosis: tough problem, simple models
Li et al. Information recognition of pathogenic modules in gene statistics of big data
Ghai et al. Proximity measurement technique for gene expression data
Reyes et al. A supervised methodology for analyzing dysregulation in splicing machinery: an application in cancer diagnosis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication