CN103678954A

CN103678954A - 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法

Info

Publication number: CN103678954A
Application number: CN201310680407.9A
Authority: CN
Inventors: 王莹莹; 蔡云鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2014-03-26
Anticipated expiration: 2033-12-11
Also published as: CN103678954B

Abstract

本发明提供的由生物芯片数据构建多类别特异表达分子集及类别网的方法包括：设置和输入n组芯片数据；筛选多组间差异表达的分子；计算差异表达分子在任意两组间的表达差异，得到每个分子的差异表达模式编码；将具有相同编码模式的分子归为同一组，得到m个阶段特异表达分组；采用单侧Fisher精确检验进行富集分析，得到类别特异表达的分子集合；构建各状态间的连接网络，得到类别网。该方法有利于对疾病状态进展的预测，对临床的诊疗具有重要意义。此外，本发明还提供了一种评价由生物芯片数据构建的多类别特异表达分子集的分类能力的方法，以及一种由生物芯片数据构建多类别特异表达分子集及类别网的方法的应用。

Description

一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法

技术领域

本发明涉及生物信息学领域，具体涉及一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法。

背景技术

随着人类基因组测序的完成，基于高通量的生物芯片分析，可显著提高寻找生物学标记的能力，极大的提高制药业等行业的研发效率，加快产业化进程。一次芯片实验可获取大量分子的表达信息，如人类mRNA芯片可一次性检测3万左右的基因，人类microRNA芯片一次性可检测1千左右的microRNA。

分析芯片数据最重要的步骤之一为合理的从大量分子表达信息中挖掘表达具有生物学意义的分子，即差异表达的分子。要进行差异表达的分析必须保证样本类别至少为两类。对于两类样本的芯片数据，传统的方法通常为倍数分析法或t检验。t检验可检测两类样本的分子表达值的均值间是否存在显著的统计学差异。对于多类样本，传统的方法为采用方差分析的方法。方差分析是从观测变量的方差入手，研究众多控制变量中哪些变量是对观测变量有显著影响的变量。

但是，仅从统计学角度出发会导致结果不具备实际应用价值。

因此，有必要提供一种兼顾统计分析、模式识别以及生物学意义对生物芯片数据进行差异表达分析，提高分析结果的实际应用价值的方法。

发明内容

为解决上述问题，本发明第一方面提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法，该方法通过基于差异表达模式对生物芯片进行多类别的分析，综合了统计学分析、模式识别以及生物学意义的优势。该方法还构建了类别网络，有利于对疾病状态进展的预测，对临床的诊疗具有重要意义。本发明第二方面提供了一种评价由生物芯片数据构建的多类别特异表达分子集的分类能力的方法，本发明第三方面提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法的应用。

第一方面，本发明提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法，包括以下步骤：

（1）设置和输入n组芯片数据；

（2）筛选多组间差异表达的分子，包括：

对任意一个分子进行多组间的单因素方差分析，并为所得统计值设定阈值；判断所得统计值是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果，执行下一步；

（3）通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异，为所得统计值设定阈值；

并针对多组间差异表达分子中的每个分子，构建长度为的向量，如果所得统计值高于阈值，则在向量中相应的位置记为0，反之，记为1，得到多组间差异表达分子中的每个分子的差异表达模式编码；

（4）根据步骤（3）所得每个分子的差异表达模式编码将分子进行分组，其中，具有相同编码模式的分子归为同一组，得到m个阶段特异表达分组；

（5）筛选多组间差异表达的分子，包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析，包括：

以基因注释生物学信息为对照，对各阶段特异表达分组中的每个分子进行注释，保留各阶段特异表达分组中可以富集到相同生物功能节点的分子，组成类别特异表达的分子集合；

（6）根据类别特异分子集构建各状态间的连接网络，得到类别网。

本发明提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法，该方法先采用统计学的方法筛选出差异表达分子，并统计差异表达分子的表达编码模式，然后再结合生物注释数据库的已知信息，对差异表达分子的表达编码模式进行富集分析，并构建了类别网络。本发明提供的方法综合了统计学分析、模式识别以及生物学意义的优势。该方法构建的类别网络，有利于对疾病状态进展的预测，对临床的诊疗具有重要意义。

本发明提供的方法首先对任意一个分子进行多组间的单因素方差分析，筛选出多组间差异表达的分子，初步筛除非差异表达的分子。随后，通过统计学检验的方法计算所得多组间差异表达分子在任意两组间的表达差异，找出差异表达分子具体在哪两组数据中存在表达差异；并为每个分子在不同组间的差异表达情况标记表达编码0或1，将具有同一种表达编码模式的分子归为一类。之后结合现有的生物数据库等信息，对归类后的差异表达分子进行富集分析，筛选出具有生物意义的差异表达分子，为临床等实际研究、应用提供参考。

优选地，所述步骤（1）中，所述n不小于3，所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组。

优选地，所述步骤（2）中，所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验，包括：

为每个分子计算统计量p值，计算公式为

p＝P{F(r-1,n-r)＞F}。

优选地，所述步骤（2）中，所述所得统计值设定的阈值为0.05。

优选地，所述步骤（2）中，所述判断所得统计值是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果，执行下一步的过程包括：如果统计量p大于阈值，则抛弃此分子；如果统计量p不大于阈值，则输出识别结果，执行下一步，其中，所述阈值为0.05。

优选地，所述步骤（3）中，所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验。

优选地，所述步骤（3）中，所述为统计值设定的阈值为0.05。

优选地，所述步骤（4）中，所述m为自然数，且不大于

优选地，所述步骤（5）中，所述对所得m个阶段特异表达分组进行富集分析所采用的Fisher精确检验为单侧Fisher精确检验。

所述步骤（5）中，所述对所得m个阶段特异表达分组进行富集分析的方法优选为采用单侧Fisher精确检验，其他具有类似分析功能的统计学分析方法为本发明采用的单侧Fisher精确检验的较差替代。

优选地，所述步骤（5）中，所述基因注释生物学信息为以下数据库或信息：基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息中的一种或多种。

优选地，所述步骤（5）中，所述基因注释生物学信息包括但不限于以下数据库或信息：基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息。

优选地，所述步骤（5）中，所述保留各阶段特异表达分组中可以富集到相同节点的分子的过程包括：对所得每个生物学功能节点的统计量p，设定阈值为0.05，如果统计值p大于阈值，则抛弃相应的节点；如果统计值p不大于阈值，则保留相应的节点，并保留富集到此节点的分子。

第二方面，本发明提供了一种评价由生物芯片数据构建的多类别特异表达分子集分类能力的方法，包括以下步骤：

S01、取如权利要求1步骤（5）所述的任一个类别特异表达分子集，每个分子集合中的样本数目记为m_B，给每个分子集合标记组标签，记为G₁…G_B，其中，m_B和B为自然数；

S02、采用k均值聚类对所述m组数据进行分析，得到C类，给每个类标记类标签，记为K₁…K_C，每类中的样本数目记为S_C，其中，S_C和C为自然数；

S03、对C类中的每个类别进行分析，将第K_C类中来源于同一G_B组的样本数进行统计，分别记为n_G1…n _GB，将n_G1…n _GB除以相应的样本数m₁…m_B进行标准化后，计算f_score的分值，计算的公式为：

f_score=n _GB/m_B/S_C，

将每个C类中具有最大f_score的类标签记为该类的最终的类标签；

S04、若得到C类最终类标签，且所述最终类标签互不相同，则说明如权利要求1步骤（5）所述的多类别特异表达分子集的分类能力较好。

优选地，所述步骤（7）中，根据类别特异分子集构建各状态间的连接网络，得到类别网的步骤包括：将每个类别作为网络中的一个节点，如果两个状态间存在类别特异表达分子集，则将二者用边连接起来。

第三方面，本发明提供了如第一方面所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法在分析基因表达谱数据、代谢组学生物芯片检测数据及microRNA生物芯片检测数据中的应用。

优选地，如第一方面所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法在分析基因表达谱数据中的应用。

本发明提供了的由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法具有如下有益效果：

（1）本发明提供的由生物芯片数据构建多类别特异表达分子集及类别网的方法，通过基于差异表达模式对生物芯片进行多类别的分析，综合了统计学分析、模式识别及生物学功能等多方面的优势；

（2）本发明提供的由生物芯片数据构建多类别特异表达分子集及类别网的方法，构建了类别网络，有利于对疾病状态进展的预测，对临床的诊疗具有重要意义；

（3）本发明还提供了一种评价由生物芯片数据构建的多类别特异表达分子集的分类能力的方法；

（4）本发明提供的由生物芯片数据构建多类别特异表达分子集及类别网的方法可用于分析基因表达谱数据、代谢组学生物芯片检测数据及microRNA生物芯片检测数据。

附图说明

图1为本发明方法的流程图；

图2为本发明实施例提供的本发明方法优选的流程图；

图3为本发明实施例提供的差异表达模式分组及每种模式中基因的数目统计图；

图4为本发明实施例所构建的类别网络图。

具体实施方式

下面结合附图，对发明做更进一步的解释。

如图1所示，本发明实施例提供一种由生物芯片数据构建多类别特异表达分子集及类别网的方法。步骤1是初始动作，包括用户设置和输入数据；步骤2为筛选多类别间差异表达分子；步骤3计算多组间差异表达的分子在任意两组间的差异表达；步骤4得出每个分子差异表达模式编码；步骤5根据每个分子的差异表达模式编码进行分子差异表达模式分组，并通过筛选得到类别特异表达的分子集合；步骤6为根据所得类别特异表达的分子集合构建类别网。

图2为本发明实施例提供的本发明方法优选的流程图，是对图2的进一步详细说明。包括：

1、设置和输入n组芯片数据

所述n不小于3，所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组。

比如A、B、C、D和E5个样本，A、B为正常状态的样本，C为肝硬化状态的样本，D为肝细胞癌状态的样本，E为非肿瘤的癌旁状态的样本，则将A～E的所有样本数据分为四个类别（组），即：正常状态2个样本，肝硬化状态1个样本，肝细胞癌状态1个样本，非肿瘤的癌旁状态1个样本。

2、筛选多类别间差异表达的分子

对任意一个分子进行多组间的单因素方差分析，并为所得统计值设定阈值；判断所得统计值是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果，执行下一步。

该步骤可以筛选出多类别间差异表达的分子，作为候选差异表达分子，进入下一个步骤；并将多类别间非差异表达的分子筛除。

具体方法为：

判断所得统计值是否符合阈值要求的步骤为：

1）设零假设H₀为分子i在各组状态间的表达有显著差异；

2）为每个分子计算统计量p值，计算公式为

p＝P{F(r-1,n-r)＞F}

其中，统计量p值为服从自由度为(r-1,n-r)的F分布的随机变量大于F的概率，F为设定的阈值；

F分布中，

F = \frac{S_{A} / (r - 1)}{S_{E} / (n - r)}

组间平方和的计算公式为：

组内平方和的计算公式为

S_{E} = Σ_{i = 1}^{r} Σ_{j = 1}^{n_{i}} {(x_{ij} - {\overset{&OverBar;}{x}}_{i .})}^{2}, {\overset{&OverBar;}{x}}_{i .} = \frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} x_{ij} .

3）如果统计量p大于阈值，则抛弃此分子；如果统计量p不大于阈值，则输出识别结果，执行下一步，其中，所述阈值优选为0.05。

3、计算多组间差异表达的分子在任意两组间的差异表达

通过统计学检验，计算每个经筛选后得到的多组间差异表的分子在任意两个状态间的表达差异情况，并为所得统计值设定阈值。

所述表达差异情况有优选为下述两种情况：

a.某候选分子在此组合下表达无显著差异变化；

b.某候选分子在此组合下表达存在显著差异变化。

优选地，所述统计学检验为t检验，其中，所述阈值优选为0.05。

假设共有n组，计算每个经筛选后得到的多组间差异表的分子在任意两组间表达差异的表达差异情况时，每个分子共有

种组合；本发明优选采用t检验的统计方法检验每个基因在种组合中的表达差异情况，并得到针对每个分子的统计量。

4、得出分子差异表达模式编码

在步骤3计算得到的每个分子在任意两组间差异表达的所得统计值的基础上，针对每个分子，构建长度为

的向量；如果所得统计值高于阈值，则在向量中相应的位置记为0，反之，记为1，得到每个分子的差异表达模式编码。

本发明针对每个分子构建长度为的向量，如果步骤3所得统计值高于阈值，则在向量中相应的位置记为0，即表示相应的基因在此组合下表达无显著差异变化，反之，记为1，表示相应的基因在此组合下表达存在显著差异变化。向量中相应的位置即种组合分别对应了一个位置，某种组合的表达差异情况记在该组合在向量中相对应的位置。当该长度为的向量的所有位置都标记了0或1后，即得该分子的差异表达模式编码。

5、根据每个分子的差异表达模式编码进行分子差异表达模式分组，并通过筛选得到类别特异表达的分子集合，具体包括如下步骤：

5-1、根据每个分子的差异表达模式编码将分子进行分组，其中，具有相同编码模式的分子归为同一组，得到m个阶段特异表达分组；

5-2、采用单侧Fisher精确检验对各阶段特异表达分组进行富集分析，以基因注释生物学信息为对照，对各阶段特异表达分组中的每个分子进行注释，保留各阶段特异表达分组中可以富集到相同生物功能节点的分子，组成类别特异表达的分子集合；

步骤5-1中，所述m为自然数，且不大于

根据每个筛选出的差异表达分子的表达模式编码将其划分入相应的组中。该步骤可得出m种表达模式、以及每种表达模式下的分子数。

步骤5-2中，所述基因注释生物学信息包括但不限于以下数据库或信息：基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病相关信息。

步骤5-2具体方法为：

采用单侧Fisher精确检验进行富集分析，即利用超几何检验的原理推测多种生物功能数据中包含的阶段性特异表达分子的比例是否与所有输入数据中差异表达分子的比例相同。具体的数值关系可以用如下表格来表示：

	差异表达分子	非差异表达分子	总数
				属于某生物功能节点数据	a	b	M
不属于某生物学功能节点数据	d	d	N-M
				总数	k	N-k	N

Fisher精确检验的p值表示在k个阶段性特异表达的分子中，至少有x个被生物功能节点数据S注释的概率，具体为：

p = 1 - Σ_{i = 0}^{x - 1} \frac{(\begin{matrix} M \\ i \end{matrix}) (\begin{matrix} N - M \\ k - i \end{matrix})}{(\begin{matrix} N \\ k \end{matrix})}

保留每个分子差异表达模式分组中可以富集到相同节点的分子，具体操作为：对所得每个生物学功能节点的统计量p，设定阈值为0.05，如果统计值p大于阈值，则抛弃相应的节点；如果统计值p不大于阈值，则保留相应的节点，并保留富集到此节点的分子。

所述富集分析的过程为对每组都进行Fisher精确检验，具体为：假设任意一组有k个特异表达的分子，以所有输入的分子（N）为背景，把其余所有分子作为非差异表达分子来进行Fisher精确检验。

经过该富集分析步骤，保留了每个阶段特异表达的基因集合中可以富集到相同节点的分子；筛除了无法注释到功能节点的分子，可以得到初步筛选结果。

本发明还采用k均值聚类方法，评价经初步筛选得到的每一种类别特异表达的分子集合的分类能力，该方法具体为：

随机选取k个对象作为初始的聚类中心；及

计算每个对象与各个种子聚类中心之间的距离，将每个对象分配给距离其最近的中心，形成一类；及

当所有样本均获得某一类标签后，则根据现有的样本重新计算类中心，直到误差平方和局部最小为止。

取如步骤5-2所述的任一个类别特异表达分子集，每个分子集合中的样本数目记为m_B，给每个分子集合标记组标签，记为G₁…G_B，其中，m_B和B为自然数；

S03、对C类中的每个类别进行分析，将第K_C类中来源于同一G_B组的样本数进行统计，分别记为n_G1…n_GB，将n_G1…n_GB除以相应的样本数m₁…m_B进行标准化后，计算f_score的分值，计算的公式为：

f_score=n_GB/m_B/S_C，

6、根据所得类别特异表达的分子集合构建类别网。具体方法为将每个类别视作网络中的一个节点，如果两个状态间存在类别特异表达分子集，则将二者用边连接起来，得到类别网。

为充分说明本发明的有益效果，本发明实施例还提供了本发明方法的应用实施例，步骤如下：

选取来自公共数据库NCBI GEO中包含四类生理状态的数据为测试数据，根据图1以及图2的步骤，进行分析：

1.数据分为四个类别（生理状态）：正常状态6个样本（记为HS）、肝硬化状态40个样本（记为CS）、肝细胞癌状态268个样本（记为HCS）、非肿瘤的癌旁状态243个样本（记为AS）。

2.经方差分析后，选p值不大于0.05的27255个探针为多类别间差异表达的分子。

3.本测试数据有四个类别，故共有6种组合。通过t检验计算每个基因在6种组合中的表达差异情况。

4.为每个基因构建长度为6的向量。在测试数据中，共有60种差异表达模式编码，与理论上的2⁶=64相比，缺少的4种均为根据临床知识确定存在性较小的疾病发展方式，故从一定角度反映出此方法的应用价值。完成对所有基因的分析后，得到的表达模式及每个模式中基因的数目如图3表示。图3中，每一列表示一种组合方式，共6列；每一行表示一种阶段性特异基因组中基因的数目。灰色表示0，表示相应的基因在此组合下表达无显著差异变化；黑色表示1，表示相应的基因在此组合下表达存在显著差异变化。

5.根据生物学数据，利用单侧Fisher精确检验进行多种层面的功能富集分析，选取人类全基因组作为背景基因集合，在每组中筛除一部分无法注释到功能节点的分子。

6.根据类别特异基因集，构建各个状态间的连接网络，如图4所示。图4所示的类别网为采用本发明应用实施例步骤4提供的60种差异表达模式中的一种构建类别网的结果，由图4可知，除肝硬化状态（CS）与非肿瘤的癌旁状态（AS）两者之间没有筛选到类别特异表达分子集，其他正常状态（HS）、肝硬化状态（CS）、肝细胞癌状态（HCS）以及非肿瘤的癌旁状态（AS）两两之间皆具有类别特异表达分子集，即通过现有的生物数据库或相关信息注释后，筛留到了在组合间具有相同表达变化趋势的分子集，这些分子能为临床或研究提供重要指导意义。

综上，本发明提供的方法基于差异表达模式对生物芯片进行多类别的分析和富集，构建的类别网络将使疾病状态进展的预测成为可能，对临床的诊疗具有重要意义。

Claims

1.一种由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，包括以下步骤：

（1）设置和输入n组芯片数据；

（2）筛选多组间差异表达的分子，包括：

并针对多组间差异表达分子中的每个分子，构建长度为

的向量，如果所得统计值高于阈值，则在向量中相应的位置记为0，反之，记为1，得到多组间差异表达分子中的每个分子的差异表达模式编码；

2.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（1）中，所述n为不小于3的自然数，所述n组芯片数据的分组依据为根据不同生理状态将Q个样本数据进行分组，其中，Q为不小于3的自然数。

3.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（2）中，所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验，包括：

为每个分子计算统计量p值，计算公式为

p＝P{F(r-1,n-r)＞F}；

所述所得统计值设定的阈值为0.05；

所述判断所得统计值是否符合阈值要求，如果判断结果为否，则抛弃；

如果判断结果为是，则输出识别结果，执行下一步的过程包括：如果统计量p大于阈值，则抛弃此分子；如果统计量p不大于阈值，则输出识别结果，执行下一步，其中，所述阈值为0.05。

4.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（3）中，所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验，所述为统计值设定的阈值为0.05。

5.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（4）中，所述m为自然数，且不大于

6.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（5）中，所述对所得m个阶段特异表达分组进行富集分析所采用的Fisher精确检验为单侧Fisher精确检验；所述基因注释生物学信息为以下数据库或信息：基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息中的一种或多种。

7.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（5）中，所述保留各阶段特异表达分组中可以富集到相同节点的分子的过程包括：对所得每个生物学功能节点的统计量p，设定阈值为0.05，如果统计值p大于阈值，则抛弃相应的节点；如果统计值p不大于阈值，则保留相应的节点，并保留富集到此节点的分子。

8.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法，其特征在于，所述步骤（6）中，根据类别特异分子集构建各状态间的连接网络，得到类别网的步骤包括：将每个类别作为网络中的一个节点，如果两个状态间存在类别特异表达分子集，则将二者用边连接起来。

9.一种评价由生物芯片数据构建的多类别特异表达分子集分类能力的方法，其特征在于，包括以下步骤：

f_score=n _GB/m_B/S_C，

10.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法在分析基因表达谱数据、代谢组学生物芯片检测数据及microRNA生物芯片检测数据中的应用。