CN105243296A

CN105243296A - 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法

Info

Publication number: CN105243296A
Application number: CN201510627272.9A
Authority: CN
Inventors: 李小波
Original assignee: Lishui University
Current assignee: Lishui University
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2016-01-13

Abstract

本发明公开了一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，按照以下步骤具体实施：步骤1、通过mRNA和microRNA表达谱芯片检测到大量基因的表达值，采用过滤式特征基因选择方法对所有基因的相关性进行排序，去除大量的低相关度基因，留下少量与肿瘤分类密切相关的基因；步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合并，形成基因池U；步骤3、通过遗传算法，对基因池进一步选择基因，消除冗余基因，搜索获得一个最优特征的最优基因集S。本发明的方法，步骤简单，结果准确性高。

Description

联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法

技术领域

本发明属于生物医学数据分析技术领域，涉及一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法。

背景技术

目前快速发展的基因芯片技术具有高通量的优势，它为肿瘤研究提供了一种系统性的研究手段。肿瘤的病因复杂，涉及基因组水平、基因调控水平和表观遗传水平的改变，利用传统的方法难以全面展开研究，基因芯片技术可以用来区别多种常见肿瘤的分类标志，用于帮助发现肿瘤的新分型以及与肿瘤相关的新的疾病生物标记，因此采用基因芯片技术有明显的优势。

mRNA表达谱芯片能一次检测成千上万个基因的表达值，是最早用于肿瘤研究的基因芯片产品。1999年，Golub等人[1]率先采用mRNA表达谱芯片对白血病的两种亚型AML与ALL的分类问题进行了研究。Van’t等人[2]将mRNA基因表达谱用于乳腺癌的诊断中，利用包含70个基因的表达谱，区分预后好和预后差的亚型，效果好于临床参数。

继mRNA表达谱芯片之后，microRNA表达谱芯片成为肿瘤新的研究热点。microRNA是在真核生物中发现的一类内源性的具有调控功能的非编码RNA，其大小长约20～25个核苷酸，microRNA通过阻断翻译或诱导靶mRNA降解，在转录后水平调节基因表达，从而精细地调节多种生物学过程，包括生长发育、信号转导、免疫调节、细胞死亡、细胞凋亡、细胞周期、细胞增殖及肿瘤发生等。多数microRNA还具有高度保守性、时序性和组织特异性。人类肿瘤microRNA表达模式与肿瘤诊断、分期、进展、预后及对治疗的反应密切相关[3]。

在基因芯片技术中，一个众所周知的问题是其基因的数目远远大于样品数量。基因芯片数据具有数据量大，样本数小(一般小于100)，基因数量多(一般多于10000)的特点，给后期的数据分析和处理带来很大的挑战。特征基因选择是基于基因芯片数据分类中的关键技术[4-9]。基因选择的目的是消除噪声基因，将基因数量减至最小，减少后续的分类任务中的计算负担，并提高学习模型的预测性能[7]。此外，一个较小的最优基因子集可能包含着肿瘤生物标志物，且它们与某些肿瘤的表型间的生物学关系可以更方便地在后续的分子生物学实验中进行验证，从而更好地理解肿瘤发生发展的分子机制[4,8]。

常见的特征选择算法有三种[10]，即过滤(Filter)法、缠绕(Wrapper)法和嵌入(embedded)法。过滤法的评估函数与分类器无关，过滤法的评价函数又可以分为距离测度[11]、信息测度[12]、相关性测度[13]等。尽管使用过滤器的基因选择方法简单快速，但它也有几个不足之处：首先，过滤法中的基因选择的标准不一定与分类器直接相关；其次，过滤法并没有考虑到基因之间的相关性，从而降低了所选定的基因在分类器中的有效性；最后，过滤法对于最终确定选择多少基因并无有力的理论支持，所选择的基因数量往往是随意的。

缠绕法[14,15]采用分类器的分类错误率或正确率作为评价函数，缠绕法模式的基因选择方法在某种程度上可以克服过滤法的上述问题。在缠绕法模式的基因选择方法中，基因逐个顺序选择，并以优化分类器准确度的方式进行。也就是说，首先使用单个基因训练分类器，并逐个加入新的基因到训练分类器；该过程持续进行，直到分类器具有足够高的准确度。与过滤器模式相反，缠绕法模式的基因选择方法采取为特定分类器“量身订做”的方式。此外，该方法确保新加入的基因与已经选择的基因是互补的，而不是相关的。该方法还提供了一个停止条件，当选择的基因数量达到所需的准确度时，计算终止。然而，该方法的一个主要缺点是，其对计算的要求是比较高，特别是当原始的基因集所含基因数目比较大的情况下。

嵌入法[5]考虑到分类器的内部特征(比如支持向量机分类器里的支持向量)，能与分类器较好地耦合，从而具有较高的精确度，但同对参与特征选择的分类器依赖性大，选择结果适应性差，需要检验选择基因对其他分类器的有效性。

尽管研究人员大量采用包括mRNA和microRNA表达谱芯片等多种基因芯片工具，试图揭示肿瘤发生发展的分子机制，但为数众多的研究往往只是考虑一个平台的数据。比如说，单独采用mRNA表达谱芯片进行特征基因的选择，并对肿瘤进行分子分类。然而研究结果显示，肿瘤相关基因不但相互之间存在调控，构成网络，而且也受到包括microRNA等非编码基因的调控。

发明内容

本发明提供了一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，解决了现有技术往往只是考虑一个平台的数据，难以从多层面、多角度揭示肿瘤相关的分子生物学改变的缺陷，以及单一平台对理解肿瘤的发生、发展机制以及研发诊断、判断预后的分子标志物和治疗靶标，难以充分发挥有效的作用的问题。

本发明的技术方案是，一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，按照以下步骤具体实施：

步骤1、通过mRNA和microRNA表达谱芯片检测到大量基因的表达值，采用过滤式特征基因选择方法对所有基因的相关性进行排序，去除大量的低相关度基因，留下少量与肿瘤分类密切相关的基因，

通过过滤式特征基因选择方法的选择实施，分别去除mRNA和microRNA表达谱芯片中大量的低相关度基因，留下少量与肿瘤分类密切相关的基因，分别在mRNA和microRNA表达谱中选取得分最高的n个基因；

步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合并，形成基因池U；

步骤3、通过遗传算法，对基因池进一步选择基因，消除冗余基因，搜索获得一个最优特征的最优基因集S，使其具有更少的基因数量和更好的分类性能。

本发明的有益效果是，本发明提出了一个联合mRNA和microRNA表达谱芯片的混合模型，希望能从多层面、多角度揭示肿瘤相关的分子生物学改变，为理解肿瘤的发生、发展机制以及研发诊断、判断预后的分子标志物和治疗靶标奠定基础，具体包括：

1)联合mRNA和microRNA表达谱芯片各自的优势，获得了分类准确度更高的基因集；2)获得的基因集既包含mRNA基因，又包含microRNA基因，便于更进一步分析它们之间的调控关系；3)该方法最终选择的基因可以被认为是更鲁棒性，并且更有资格作为可靠的生物标志物；4)该混合模型已经包含过滤法和缠绕法，可以综合各类基因选择方法的优势。

附图说明

图1是本发明方法的工作原理示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

参照图1，本发明的方法基于联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择混合模型，该模型的设置是，首先，分别使用多重过滤器在mRNA和microRNA表达谱芯片中选择各自的特征基因，使用多个过滤器的过滤指标，确保在初始过滤阶段不会排除掉有用的生物标志物。其次，将获取的mRNA和microRNA特征基因进行合并，形成基因池。最后，采用遗传算法，进一步选择基因，目的是消除冗余基因，搜索一个最佳的子集，使其具有更少的基因数量和更好的分类性能。

该(肿瘤特征基因选择混合模型)的设置特征是，

首先是过滤法选择，设定n＝每个过滤器选择的基因数目：

采用不同过滤器F_i，分别计算mRNA和microRNA表达谱芯片原始基因集中所有基因的得分并排序，选取得分最高的n个基因。

其次、将不同过滤器获得的基因进行合并，得到合并基因集U。

最后、采用遗传算法，对合并基因集U进一步选择。

输入：将合并基因集U作为训练数据集，该训练数据集中包含特征数n₁，采用遗传算法训练包含特征数n₁的训练数据集，遗传算法的具体过程如下：

1)编码方案。每个个体都是由n₁位二进制字符串编码，其中“1”代表选择相应的基因，而“0”表示未选择。

2)适应度函数。适应度函数用来最大限度地减少分类错误率，由一个SVM分类器评估一个群体中每个个体的分类错误率。

3)遗传算子，以轮盘赌选择算子为选择算子，采用一点交叉算子作为交叉算子，并用位点变异算子作为变异算子。

输出最优基因集S，该数据集中包含特征数n₂，也称为最优特征集。

本发明的联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，按照以下步骤具体实施：

步骤1、通过基因芯片(即mRNA和microRNA表达谱芯片)检测到大量基因的表达值，其中多数基因与肿瘤相关性不大，对肿瘤的分类贡献也小，往往采用过滤式特征基因选择方法对所有基因的相关性进行排序，去除大量的低相关度基因，留下少量与肿瘤分类密切相关的基因，

过滤式特征基因选择方法具体涉及到以下几种：(在步骤1中，如果mRNA表达谱芯片采用7种过滤式方法中的一种，建议microRNA表达谱芯片也使用相应的方法，比如在实施例中，mRNA表达谱芯片采用卡方(Chi-Squared)法，则对microRNA表达谱芯片亦采用卡方法。7种方法可以依次使用，以分别验证本发明的效果。后面的具体实施例中只使用了其中的卡方选择法。)

1.1)卡方选择法

卡方选择法[16](Chi-Squared，χ²)采用每个基因的卡方统计值(χ²)单独评价每个基因，首先将顺序或数字的特征属性值进行离散化，随后采用下式(1)计算每个基因的χ²值，

χ^{2} = Σ_{i = 1}^{k} Σ_{j = 1}^{n} \frac{{(A_{i j} - E_{i j})}^{2}}{E_{i j}}, - - - (1)

其中k表示间隔数，n为类的数量，A_ij表示第i间隔第j类的实际总模式数，E_ij为A_ij的理论频数。

1.2)基于相关性的特征选择法

基于相关性的特征选择法[17](Correlation-basedFeatureSelection，CFS)，其核心思想是所选择的特征子集里的每个特征与每一个类高度相关，但特征子集相互间的相关度最低，评价特征子集的标准定义为下式(2)：

M_{t} = \frac{l \overset{&OverBar;}{t_{c f}}}{\sqrt{l + l (l - 1) \overset{&OverBar;}{t_{f f}}}}, - - - (2)

其中M_t表示特征子集T的得分值，该特征子集T含有l个特征，表示特征子集T内每个特征与类间的平均相关度，表示特征子集T内每个特征相互之间的平均相关度。

1.3)信息增益选择法

信息增益选择法[18](InformationGain，IG)是基于熵的衡量方法，对于每个特征属性的计算公式如下式(3)：

InfoGain(Class,Attribute)＝H(Class)-H(Class|Attribute),(3)

其中H(Class)为每个类的总熵，H(Class|Attribute)为计算给定属性下每个类的条件熵。

1.4)信息增益率选择法

信息增益率选择法(GainRatio，GR)计算每个属性的信息增益率,GR用于衡量每个属性与类间的相对熵值，计算公式如下式(4)：

GainRatio(Class,Attribute)＝InfoGain(Class,Attribute)/H(Attribute),(4)

其中H(Attribute)表示每个属性的熵值，InfoGain(class,Attribute)代表每个特征的信息增益。

1.5)对称不确定性选择法

对称不确定性选择法[17](SymmetricalUncertainty，SU)计算每个属性的SU值，SU选择法是针对信息增益选择法偏向选择具有较大信息增益值的特征而进行的调整，计算公式如下式(5)：

SU(Class,Attribute)＝2*InfoGain(Class,Attribute)/(H(Class)+H(Attribute)),(5)

其中InfoGain(class,Attribute)代表每个特征的信息增益，H(Class)为每个类的总熵，H(Attribute)表示每个属性的熵值。

1.6)ReliefF选择法

在ReliefF选择法[19]中，良好的分类特征被定义为在同一类中具有相同的属性值，并在不同的类中具有不同的属性值，ReliefF法采用最近邻方法来计算每个属性的相关性得分，通过对实施例的重复采样，根据最近的相同类和不同类的实例，评估每个属性的得分值。

1.7)基于支持向量机的递归特征基因消除法

Guyon等人[5]提出了基于支持向量机的递归特征基因消除法(supportvectormachinemethodbasedonrecursivefeatureelimination，SVM-RFE)。SVM-RFE方法从原始基因集中逐个消除对分类器贡献最小的基因，基因对分类器贡献的重要性采用基因排序得分(generankingscore)评估，基因排序得分定义为支持向量机权重向量w的平方和，w的计算公式如下式(6)：

w = Σ_{i = 1}^{n} α_{i} y_{i} x_{i}, - - - (6)

其中x_i为训练集中样本i的基因表达向量，y_i∈[-1,+1]为样本i的类标签，α_i从训练集计算得到；大多数样本的α_i为零，α_i为非零的向量为支持向量[5]。

通过步骤1中各个方法的选择实施，分别去除mRNA和microRNA表达谱芯片中大量的低相关度基因，留下少量与肿瘤分类密切相关的基因，分别在mRNA和microRNA表达谱中选取得分最高的n个基因。

步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合并，形成基因池U。

步骤3、通过遗传算法，对基因池进一步选择基因，目的是消除冗余基因，搜索获得一个最优特征的最优基因集S，使其具有更少的基因数量和更好的分类性能，遗传算法的基本组成如下：

3.1)编码方案，每个个体都是由n₁位二进制字符串编码，其中“1”代表选择相应的基因，而“0”表示未选择；

3.2)适应度函数，适应度函数的设计以最大限度地减少分类错误率，由一个SVM分类器评估一个群体中每个个体的分类错误率；

3.3)遗传算子，以轮盘赌选择算子为选择算子，采用一点交叉算子作为交叉算子，并用位点变异算子作为变异算子；

采用支持向量机分类器评估一个群体中每个个体的分类错误率，支持向量机分类器包括normalizedpolykernel，polykernel，RBF和stringkernel四种核函数；采用K折交叉验证法评估分类器的性能，在K折交叉验证法中，初始数据集被分割成K个子集，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练；交叉验证重复K次，每个子样本验证一次，最后将K次计算结果平均，即成。

本发明实施例的结果与分析

为测试本发明方法的实用性及有效性，下载了mRNA和microRNA表达谱芯片数据，采用Lu等人发表论文[20]所提供的数据集，该数据集可从下列网址下载：

http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi？mode＝view&paper_id＝114。该数据集是个多类别肿瘤数据集，共有89个肿瘤和正常组织样本，其中肿瘤68个(11类肿瘤)，正常组织21个。数据集同时包含mRNA和microRNA表达谱芯片数据，其中microRNA表达谱芯片数据含217条micorRNA表达值，mRNA表达谱芯片数据含16,063个基因表达值。

采用支持向量机执行分类任务。本发明实施例选择其中的多项式核函数(polykernel)，惩罚参数设置为100。采用10折交叉验证法评估分类器的性能，在10折交叉验证法中，数据被随机划分为10个子集，分类器被训练10次，每次以9个子集作为训练数据，另一个子集作为测试集，最后将10次计算结果平均。在实验中，遗传算法参数设置为：

probabilityofcrossover＝1，probabilityofmutation＝0.02，numberofgenerations＝50，populationsize＝30。

首先，以卡方(Chi-Squared)过滤法分别从mRNA和microRNA表达谱选择得分最高的20个基因组成支持向量机分类器，分别以10折交叉验证法评估分类器，再联合mRNA和microRNA表达谱得分最高的20个基因，组成融合分类器，并以10折交叉验证法评估分类器。由表1可见，采取mRNA表达谱得分最高的20个基因组成的分类器可获得60.67％的分类准确度，采取microRNA表达谱组成的分类器则获得了74.16％的分类准确度，联合mRNA和microRNA表达谱的基因集相比有明显的优势，获得了82.02％的更高分类准确度。

表1，各基因集的10折交叉验证法分类准确度

mRNA表达谱得分

microRNA表达谱

联合mRNA和microRNA

最高的20个基因	得分最高的20个基因	表达谱的基因集
			60.67％	74.16％	82.02％

通过遗传算法进一步搜索解空间，以期消除基因集里的冗余基因，获得基因数量更少且分类准确度更高的最优基因子集。由于遗传算法是一种随机搜索方法，在每个基因集分别进行了3次试验，将结果平均。运行遗传算法后，各个基因集的分类准确度均有所提升，mRNA表达谱得到了70.04％的10折交叉验证法平均分类准确度(见表2)，microRNA表达谱则获得79.78％的平均分类准确度(见表3)，联合mRNA和microRNA表达谱基因集分类器的优势仍然明显，获得了90.64％的平均分类准确度(见表4)。

表2，遗传算法运行后mRNA表达谱的10折交叉验证法分类准确度

	第1轮	第2轮	第3轮	平均
					分类准确度	69.66％	68.54％	71.91％	70.04％

表3，遗传算法运行后microRNA表达谱的10折交叉验证法分类准确度

	第1轮	第2轮	第3轮	平均
					分类准确度	79.78％	79.78％	79.78％	79.78％

表4，遗传算法运行后联合mRNA和microRNA表达谱的10折交叉验证法分类准确度

	第1轮	第2轮	第3轮	平均
					分类准确度	91.01％	87.64％	93.26％	90.64％

由表4可见，其中第3轮所得到的分类准确度最高(93.26％)，称之为“最优基因集”。表5给出了该基因集所包含的27个具体基因名称，包括10个mRNA基因和17个microRNA基因。实验结果表明，mRNA基因和microRNA基因同时参与了肿瘤的发生发展过程，联合mRNA和microRNA表达谱的特征基因选择方法有助于提升分类准确度，有助于了解mRNA和microRNA基因在肿瘤分子机制中的联合调控关系，有助于研究人员识别肿瘤标志基因。

表5，本发明实施例最终得到的最优基因集

综上所述，肿瘤的病因复杂，是一个多阶段、多基因、多通路的发生发展过程，利用传统的实验方法不能开展全面的研究，而采用高通量的基因芯片技术有明显的优势。本发明的联合mRNA和microRNA表达谱芯片的混合模型及方法，能从多层面、多角度揭示肿瘤相关的分子生物学改变，为理解肿瘤的发生、发展机制以及研发诊断、判断预后的分子标志物和治疗靶标奠定基础。无论从理论的角度进行分析，还是根据上述实验的结果表明，本发明方法能联合mRNA和microRNA表达谱芯片各自的优势，获得了分类准确度更高的基因集，且获得的基因集既包含mRNA基因，又包含microRNA基因，便于更进一步分析它们之间的调控关系。

Claims

1.一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，其特征在于，按照以下步骤具体实施：

2.根据权利要求1所述联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，其特征在于，所述的步骤1中，过滤式特征基因选择方法涉及以下方法，实际使用过程中选择使用以下一种或多种方法：

1.1)卡方选择法

卡方选择法采用每个基因的卡方统计值χ²单独评价每个基因，首先将顺序或数字的特征属性值进行离散化，随后采用下式(1)计算每个基因的χ²值，

χ^{2} = Σ_{i = 1}^{k} Σ_{j = 1}^{n} \frac{{(A_{i j} - E_{i j})}^{2}}{E_{i j}}, - - - (1)

其中k表示间隔数，n为类的数量，A_ij表示第i间隔第j类的实际总模式数，E_ij为A_ij的理论频数；

1.2)基于相关性的特征选择法

基于相关性的特征选择法，其核心思想是所选择的特征子集里的每个特征与每一个类高度相关，但特征子集相互间的相关度最低，评价特征子集的标准定义为下式(2)：

M_{t} = \frac{l \overset{&OverBar;}{t_{c f}}}{\sqrt{l + l (l - 1) \overset{&OverBar;}{t_{f f}}}}, - - - (2)

其中M_t表示特征子集T的得分值，该特征子集T含有l个特征，表示特征子集T内每个特征与类间的平均相关度，表示特征子集T内每个特征相互之间的平均相关度；

1.3)信息增益选择法

信息增益选择法是基于熵的衡量方法，对于每个特征属性的计算公式如下式(3)：

InfoGain(Class,Attribute)＝H(Class)-H(Class|Attribute),(3)

其中H(Class)为每个类的总熵，H(Class|Attribute)为计算给定属性下每个类的条件熵；

1.4)信息增益率选择法

信息增益率选择法计算每个属性的信息增益率,GR用于衡量每个属性与类间的相对熵值，计算公式如下式(4)：

GainRatio(Class,Attribute)＝InfoGain(Class,Attribute)/H(Attribute),(4)

其中H(Attribute)表示每个属性的熵值，InfoGain(class,Attribute)代表每个特征的信息增益；

1.5)对称不确定性选择法

对称不确定性选择法计算每个属性的SU值，SU选择法是针对信息增益选择法偏向选择具有较大信息增益值的特征而进行的调整，计算公式如下式(5)：

SU(Class,Attribute)＝2*InfoGain(Class,Attribute)/(H(Class)+H(Attribute)),(5)

其中InfoGain(class,Attribute)代表每个特征的信息增益，H(Class)为每个类的总熵，H(Attribute)表示每个属性的熵值；

1.6)ReliefF选择法

在ReliefF选择法中，良好的分类特征被定义为在同一类中具有相同的属性值，并在不同的类中具有不同的属性值，ReliefF法采用最近邻方法来计算每个属性的相关性得分，通过对实施例的重复采样，根据最近的相同类和不同类的实例，评估每个属性的得分值；

1.7)基于支持向量机的递归特征基因消除法

基于支持向量机的递归特征基因消除法，从原始基因集中逐个消除对分类器贡献最小的基因，基因对分类器贡献的重要性采用基因排序得分评估，基因排序得分定义为支持向量机权重向量w的平方和，w的计算公式如下式(6)：

w = Σ_{i = 1}^{n} α_{i} y_{i} x_{i}, - - - (6)

其中x_i为训练集中样本i的基因表达向量，y_i∈[-1,+1]为样本i的类标签，α_i从训练集计算得到；大多数样本的α_i为零，α_i为非零的向量为支持向量。

3.根据权利要求1所述联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法，其特征在于，

所述的步骤3中，遗传算法的具体过程如下：

采用支持向量机分类器评估一个群体中每个个体的分类错误率，采用K折交叉验证法评估分类器的性能，在K折交叉验证法中，初始数据集被分割成K个子集，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练；交叉验证重复K次，每个子样本验证一次，最后将K次计算结果平均，即成。