CN101145171A

CN101145171A - 一种基于独立分量集成学习的基因微阵列数据预测方法

Info

Publication number: CN101145171A
Application number: CNA2007101323912A
Authority: CN
Inventors: 黄德双; 刘昆宏
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2007-09-15
Filing date: 2007-09-15
Publication date: 2008-03-19

Abstract

本发明涉及一种基于独立分量集成学习的基因微阵列数据预测方法，该方法依据独立分量集成判别系统的微阵列数据判别，其步骤包括：对微阵列数据进行独立分量分析变化；基于随机分量选择的独立分量分类器构建；分类器集成系统的构造。首先对微阵列数据进行独立分量变换，在获得的独立分量集合中，随机选择一个子集构造分类器。重复构造50个分类器，在此基础上，由加权投票法将这些基分类器组合构成一个分类器集成系统。本发明保证了使用的独立分量分类器集成系统比单个分类器有较高的精确度和稳健性；无需考虑具体参数选择的问题，提高了系统的易用性；集成分类器训练时间、存储容量要求不高。

Description

一种基于独立分量集成学习的基因微阵列数据预测方法

所属领域本发明涉及生物信息学技术领域，特别涉及一种基于独立分量集成学习的基因微阵列数据预测方法。

背景技术 DNA微阵列技术是一种物理学、微电子学与分子生物学综合交叉形成的高新技术，最早由Fodor等人于1993年提出，并一直被不断地发展和完善。当前，DNA微阵列技术不仅是基因组信息学研究的主要支撑技术，而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据，在生物学和医学研究中正受到越来越多的应用。在人类基因组计划读出全部基因组序列后，DNA微阵列数据分析也使得从大规模基因水平上揭示疾病的本质并进行彻底的治疗成为可能，癌症研究及其临床预防与治疗发生了革命性的变革。作为生物信息学的一个重要分支，DNA微阵列数据分析已经成为当今生命科学乃至整个自然科学的重大前沿领域之一。

DNA微阵列技术巨大的科学价值不仅在于能够帮助人们探索生物体内基因调控及其相互作用机理，更重要的是它联系了人类基因组序列与临床医学。癌症DNA微阵列数据分析(癌症微阵列数据分析)使得人们能够进行正常和疾病两种状态下基因表达状况的比较研究，并在生物体最根本的基因分子水平进行疾病性状的定义，从而帮助人们更好地理解肿瘤生成生长机理，促进致癌基因识别、癌症诊断与分类和癌症防治等相关课题的研究。2002年，德国科学家研制出新型癌症诊断基因芯片；2004年7月14日，台湾高雄医学大学发布“癌症诊断晶片”技术。基于微阵列数据分析的癌症诊断与分类方法以其快速经济，能够避免传统癌症诊断侵犯性检查和新颖可靠三大优点而被人们寄与厚望。

DNA微阵列技术为生物学和医学研究带来前所未有的机遇的同时，其所产生的海量和复杂的微阵列数据却对现有的数据处理和分析方法提出了巨大的挑战。首先，微阵列数据具有很高的维度(基因)，通常有5,000-15，000维，而且这些基因维之间又有非常复杂的关系。第二，实验的复杂和费用的昂贵导致微阵列数据具有较少的样本，并与巨大的基因数目构成不平衡矛盾。这种矛盾造成大多数经典模式识别和机器学习方法不能被直接应用，比如，Fisher线性分析所要求的总类内样本协方差矩阵将成为奇异阵。第三，微阵列数据天生具有高噪声和高变异等数据分析难点。第四，微阵列数据中大量有用变量被隐藏。这可能需要使用概率统计的方法以挖掘和推导这些潜在的生物信息。另外，当考虑时间问题(比如死亡时间，癌症复发时间)时，又会产生不期望的审查中止(right-censoring)以致数据分析变得更加困难。

其实，基于癌症微阵列数据的癌症诊断与分类最大的难点在于高维(p)与小样本(n)之间的不平衡问题。这种不平衡问题导致了许多模式识别方法不能直接在癌症微阵列数据上应用。主分量分析等常用方法只对二阶信息敏感，因此有必要对数据分析方法进行扩展，从而充分挖掘数据中的高阶信息，最终提高癌症微阵列数据的分类效率。

独立分量分析(Independent Component Analysis，简写为ICA)可以看作是主分量分析的一种扩展，有以下几个优点：一是它可以提供一个更符合实际的统计模型，能更好的用来确定数据在高维空间的具体位置；二是ICA能得到唯一的混合矩阵A；三是ICA提供了一个非正交基空间，当信号存在噪声时，可以更好的对信号进行重建；四是ICA对高阶信息比较敏感，而主分量分析只对二阶统计信息敏感。此外，ICA可以利用所有的基因表达谱数据来设计样本分类器，而不是只利用其中的一小部分。目前基于ICA的微阵列数据分析主要集中于分析ICA模型中的混合矩阵A，例如通过分析A中各列的取值分布以来揭示一些数据中隐含的生物特征。另一个要研究的内容是在特征样本中表现比较特别的基因，用这些关键基因来对肿瘤样本进行分析，可能得到一些关键的信息。

关于探讨基于ICA的微阵列数据分类模型的文献是：郑春厚等提出的先使用T-test方法选择基因，而后进行ICA变换，进而使用支持向量机进行识别[C.H.Zheng，Y. Chen，X.X.Li，Y.X.Li，and Y.P. Zhu，Tumor classificationbased on independent component analysis，International Journal of PatternRecognition and Artifical Intelligence 20(2)(2006)297-310]。

还有黄德双等提出的利用ICA对基因表达数据进行分析，然后利用惩罚性优化得分算法对分类器进行训练，最终得到优化的分类器[D.S.Huang，C.H.Zheng，Independent component analysis-based penalized discriminant method fortumor classification using gene expression data，Bioinformatics 22(2006)1855-1862.]。目前基于ICA的癌症微阵列数据分类预测系统，因此这是一个有待进一步深化的研究领域。

对于一个典型的ICA变化，假定对于一个n×p维的矩阵X，每一个行向量r_i(i＝1，...，n)对应一个观测变量，每一个列向量c^j(j＝1，...，p)为变量的特征，对X进行ICA变化的过程可表述为：

X＝AS (1)

其中假定A为n×n的特征向量矩阵，S为n×p分离矩阵，其每一行分量达到最大的统计独立性，每一行分量可称为一个独立分量(Independentcomponent，简写为IC)。对独立分量的估计可以根据以下公式：

U＝S＝A^-1X＝WX (2)

若X表示基因表达数据，则其可以表示为独立分量基快照(特征值)S与未知混合矩阵A的线性混合。基于此方法，ICA用于寻找一使得矩阵U的行向量尽可能统计独立的矩阵W。使用U矩阵的行向量推算出的独立分量用于表达基因快照。

为用于估算独立分量，初始的训练数据集X_tn和新样本集合X_tt需要根据以下公式进行相应的变化：

U＝W_tnX_tn＝A_tn ^-1X_tn (3)

X_tn＝A_tnU (4)

其中A_tn包含了训练集X_tn的统计源线性混合系数。由此，测试集X_tt可以计算得：

A_tt＝X_ttU^-1 (5)

在相应变化之后，可以根据相应独立分量构建ICA分类器。在此，我们只使用最近邻(1-NN)分类器来构建ICA分类器。常见的支持向量机、神经网络等分类器均可用于ICA分类器的构造。由于独立分量分析理论不如主分量分析那么成熟完善，所以基于独立分量分析的数据分析是一个相对新颖的课题。ICA模型描述了不同表达模式对各个基因上的独立影响。

在基因芯片数据分析中，在不同独立分量中的基因数量、分布不同，因此从生物的角度分析，不同的独立分量具有不同的生物意义，对癌症判断的准确性有着不同影响。因此，如果选择了适当的独立分量，由此构建出最适合微阵列数据预测的子空间，则可能提高原基于ICA构造的分类预测模型的准确度。我们已经分析了独立分量选择算法对提高基于独立分量分析模型预测精确度的重要影响，并用试验证明了独立分量选择能进一步提升基于独立分量分析模型的癌症数据分析预测能力[C.H.Zheng，D.S.Huang and S.Li，Feature selection in independent component subspace for microarray dataclassification，Neurocomputing 69(2006)2407-2410.；K.H.Liu，D.S.Huang andB.Li.Improving the Performance of ICA Based Microarray Data PredictionModel with Genetic Algorithm，IEEE Proceeding of CEC 2007(2007)]。在进行了IC分量选择之后，公式(1-5)与相关分析仍将成立，只是若选择了m个IC分量，需将A_tn调整为n×m的矩阵，S为m×p矩阵，A_tt为k×m矩阵。

虽然独立分量选择的重要性对基于独立分量分析的微阵列数据判别模型在论文中得到论证，在上述文献中，已采用的方法主要有两种：基于前向浮动搜索算法和基于进化计算的方法。这两种方法都有其相应的缺陷：前者不能够真正搜索到最优的独立分量子集，而后者虽然有搜索到最优子集的可能，却需要耗费较多的时间，而且需要的时间较长。

Kuncheva在[L.I.Kuncheva，“Combining pattern classifiers：methods andalgorithms，”Wiley，2004]书中指出，由多个分类器共同构造出的分类器集成系统将比单个优秀的分类器有更好的稳健性。基于分类器集成系统的癌症微阵列数据预测是目前研究的一个趋势。

发明内容本发明的发明目的是：基于现有技术的不足之处，我们提出了基于独立分量子集的集成学习方法，方法能有效解决搜索最优子集和预算效率的问题，并获得较为稳定高质量的预测结果。

本发明的技术方案是：一种基于独立分量集成学习的基因微阵列数据预测方法，特别是该方法的操作步骤如下所示：

1、数据的获取与预处理

对试验的训练样本进行ICA变化，获得一组IC分量集合。

2、IC分量子集的生成

从IC分量集合中随机有重复地选择出一半的IC分量，用于构建一个IC分量子集。重复以上步骤50次，形成50个独立的IC分量子集。

3、基分类器的生成

使用生成的IC分量子集分别用于训练最近邻分类器，从而构造50个基于随机独立分量选择的最近邻分类器。

4、构建分类器集成系统

对新的样本的测试中，首先根据公式(5)将新样本进行变换，而后分别使用50个最近邻分量器对新样本进行测试。测试的输出使用加权投票法的方式综合起来，从而构建出一个分类器集成系统。

使用加权投票法时，首先使用Bootstrap.632+算子通过测试样本对分类器C_i的预测精度进行估计，将相应的预测准确率作为该分类器输出判别可靠性的权重w_i。之后，将权重归一化，即W′_i＝W_i/∑W。由此，若分类器i对新样本s的类别判定为O_is，集成系统最终的判定是根据公式：

O_{s} = Σ_{i = 1}^{50} w_{i} O_{is} .

需要说明的是：

1、由于对基因微阵列数据的ICA变换存在不可重复性，在IC子集的选择中也存在随机性，本发明设计的系统将可能是不可完全重复的。然而我们的重复实验表明，系统的预测准确率相对稳定。

2、如果使用更多的IC分量子集构建更多的基分类器，随着其数目的增加，集成系统的预测准确度将有进一步的提升。

3、尽管使用分类器集成系统对硬件的要求比使用单个分类器的要求更高，但由于最近邻分类器训练与判别需要的时间和空间复杂度低，比起其余的集成系统，本发明对硬件的要求较低，能确保在较短时间内获得最终的判定结果。

4、尽管在本发明中，只使用最近邻分类器作为基分类器，但一些常用且预测精度更高的分类器，如神经网络、支持向量机等，都可以作为基分类器，使用本发明的方法来构建分类器集成系统。因此任何熟悉本领域的技术人员可以轻易想到的变化和替换，都应涵盖在本发明的保护范围之内。

本发明的有益效果是：

其一，虽然独立分量选择的重要性对基于独立分量分析的微阵列数据判别模型在现有技术的论文中已经有了论证，但目前已采用的方法都有其相应的缺陷。主要有两种：基于前向浮动搜索方法和基于进化计算的算法。前者不能够真正搜索到最优的独立分量子集，而后者虽然有搜索到最优子集的可能，却需要耗费较多的时间。采用本方法，我们无需关注搜索最优子集的问题，因此虽然选择了50个基分类器，但算法运算速度较快，而且有较优的结果。

其二，设计了一种基于IC分量集成选择的分类器集成系统，用于基因微阵列数据的分类判别。其方法的操作步骤如下：

数据的获取与预处理，对试验的训练样本进行ICA变化，获得一组IC分量集合；

IC分量子集的生成，从IC分量集合中随机有重复地选择出一半的IC分量，用于构建一个IC分量子集，重复以上步骤50次，形成50个独立的IC分量子集；

基分类器的生成，使用生成的IC分量子集分别用于训练最近邻分类器，从而构造50个基于随机独立分量选择的最近邻分类器；

根据公式(5)将新样本进行变换，而后分别使用50个最近邻分量器对新样本进行测试，测试的输出使用加权投票法的方式综合起来，从而构建出一个分类器集成系统。

由于本方法中并没有太多的参数需要设置，也无需大量的训练样本，因此本方法极易推广。

其三，尽管微阵列数据训练样本数量较少，由于IC分量子集是随机有重复选择生成的，本发明能确保在用于训练最近邻分类器的IC分量子集存在较大的差异度，从而使得各个基分类器的构架存在较大区别，因而在新样本的判定中，某些基分类器的误判能够被其余分类器的判别校正，从而确保了最终输出判定的准确性和稳定性。

附图说明

图1是本发明的流程示意图，其具体工作方法流程是：

对试验的训练样本进行预处理(步骤100)，然后对训练样本进行ICA变化，获得一组IC分量集合(步骤110)；从IC分量集合中随机重复地选择出一半的IC分量，用于构建一个IC分量子集(步骤120)；使用生成的IC分量子集分别用于训练最近邻分类器，从而构造基于随机独立分量选择的最近邻分类器(步骤130)；使用Bootstrap.632+算子估测基分类器的预测精度(步骤140)；在步骤150中判断需要的基分类器数量是否达到要求，如否则继续从步骤120开始重复产生IC分量子集并用于训练最相邻分类器，如是则开始使用产生的各分类器分别在相应的独立分量子集空间对新的样本进行测试(步骤160)；使用加权投票法集成各基分类器测试的输出结果，(步骤170)对基因芯片数据的类型进行预测输出，结束整个流程(步骤180)。

图2以前列腺癌数据集为例，给出了微阵列数据预测的十次准确率的平均值随集分类器数量不同而变化的图示。从图2中可以看出，随着集分类器数量的增多，预测准确率趋于稳定。当分类器的数量超过30，预测结果稳定在一个较高的精确度上。这一结论同样适用于在其余两个数据集。因此，集分类器的数量设置为50，从而能确保结果的稳健性。

具体实施方式

采用网络上公布的三个公共数据集对发明中提出的方法进行测试。数据集分别是：前列腺癌数据集；肝癌数据集和乳腺癌数据集。这些数据集都是采集自医疗的真实数据，所以实验结果有较高的可信度。在表一给出了关于这三个数据集的一个概述。

表一、三个肿瘤样本基因表达数据集简介

	训练集	测试集	基因数目
	训练集	测试集	基因数目	前列腺癌数据集	102	34	12600
肝癌数据集	33	27	7129	前列腺癌数据集	102	34	12600
肝癌数据集	33	27	7129	乳腺癌数据集	78	19	24188

评价微阵列数据预测方法的性能，通常有主要使用预测的准确率，即正确预测的样本数目和总样本数目的比例。这三个数据集都是癌症基因数据集，所以预测分类的性能评价是准确判断数据中记录的病人癌症与非癌症的程度。采用本发明的方法，对以上三个癌症微阵列数据集进行测试。测试过程中，按原测试集与训练集的比例随机重新划分训练集与测试集10次，以获得真实客观的评价。

具体测试结果详见表二。表中方法1表示采用现有技术，使用单个基于独立分量预测分类器所能达到的预测准确度；方法2表示采用现有技术，使用基于前向浮动搜索算法进行独立分量选择获得的预测分类器所能达到的预测准确度；方法3表示采用本发明方法能达到的预测准确度。由表中数据可知，本发明的方法能极大提高对癌症基因的分类预测能力，从而能提高基于微阵列芯片数据分析的疾病确诊率。

表二、对三个数据集的预测结果

前列腺癌数据集		肝癌数据集	乳腺癌数据集
前列腺癌数据集		肝癌数据集	乳腺癌数据集	方法1	92.06±8.26	66.68±7.15	65.63±7.33
方法2方法3	93.65±6.7398.82±7.81	67.13±6.4669.45±5.91	65.52±8.4571.90±9.75	方法1	92.06±8.26	66.68±7.15	65.63±7.33

Claims

1.一种基于独立分量集成学习的基因微阵列数据预测方法，其特征在于该方法的操作步骤如下：

数据的获取与预处理，对试验的训练样本进行独立分量分析(IndependentComponent Analysis，简写为ICA)变化，获得一组独立分量(IndependentComponent，简写为IC)集合；

独立分量子集的生成，从IC分量集合中随机有重复地选择出一半的IC分量，用于构建一个IC分量子集，重复以上步骤50次，形成50个独立的IC分量子集；

将新样本在各个新的IC分量子集所代表的分量空间中进行变换，而后分别使用50个最近邻分量器对新样本进行测试，测试的输出使用加权投票法进行综合，从而构建出一个分类器集成系统。

2.根据权利要求1所述的一种基于独立分量集成学习的基因微阵列数据预测方法，其特征是：所述的测试的输出使用加权投票法是使用Bootstrap.632+算子通过测试样本对分类器C_i的预测精度进行估计，将相应的预测准确率作为该分类器输出判别可靠性的权重w_i。之后，将权重归一化，即W_i′＝W_i/∑W，若分类器i对新样本s的类别判定为O_is，集成系统最终的判定是根据公式：

O_{s} = Σ_{i = 1}^{50} w_{i} O_{is} .