CN101565747B

CN101565747B - 一种提取多种基因集合特征表达模式的方法

Info

Publication number: CN101565747B
Application number: CN2009100328636A
Authority: CN
Inventors: 顾祖光; 王进; 王军玲; 李捷; 高翔
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2009-06-04
Filing date: 2009-06-04
Publication date: 2012-11-28
Anticipated expiration: 2029-06-04
Also published as: CN101565747A

Abstract

本发明公开了一种提取多种基因集合特征表达模式的方法，包括以下步骤：输入芯片数据；判断基因表达谱芯片所含基因所属的基因集合；判断每一个基因集合中基因的个数是否在基因集合容量大小设置的范围之内，如果判断结果为否，则抛弃此基因集合；否则，执行下一步；计算基因集合的单态显著性和多态显著性；对原始p值进行校正；判断基因集合的单态显著性和多态显著性是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果。本发明方法能够有效识别多种特征表达模式，甄别无效的干扰噪音，大大提高了基因表达谱在实际应用中的价值。

Description

一种提取多种基因集合特征表达模式的方法

技术领域

本发明涉及高通量生物芯片基因表达检测方法，特别涉及基因表达谱芯片检测中一种利用加权分布提取多种基因集合特征表达模式的方法，用于提取有明显生物学意义的基因集合。

背景技术

高通量生物芯片检测是对生物体各过程、各状态进行各个层次的快速、并行、大信息量检测的先进技术。可以广泛应用于疾病预警、寻找新的疾病基因、以及分子生理和分子病理研究等方面。其关键技术之一是对基因集合表达模式的识别，某基因集合中，基因表达的同向性称之为单态模式，基因表达的异向性称之为多态模式。单态模式下，集合中的基因表达变化倾向于全部上调或者全部下调，这种情形意味着该集合中的基因可能受相似的机制调控；多态模式下，集合中的基因部分倾向于上调而部分倾向于下调，这种情形意味着这些基因所属的调控网络可能存在负反馈作用。基因集合多种表达模式的有效鉴别可以为研究病变机理、药物靶点预测以及临床治疗提供有效的帮助。目前这方面的技术仅能识别显著性基因集合，大多通过计算基因集合中每个基因在各组实验间的相关性，然后将其合并成为基因集合的统计量，并与随机重排样本的统计结果进行比较，从而识别表达变化有显著性的基因集合。表达模式的识别在提取显著性基因集合后进行，影响了模式识别的准确度。现有方法的问题是不直接识别基因表达模式，限制了基因表达检测技术在实际应用中的效果和价值。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术识别基因集合特征表达模式的准确度低、无法对多种表达模式进行检测的不足，提供一种提取多种基因集合特征表达模式的方法。

技术方案：本发明公开了一种提取多种基因集合特征表达模式的方法，包括以下步骤：

步骤1，输入芯片数据，设置表达谱芯片所含基因的类型，物种名称，基因集合数据库，基因集合容量大小的上限和下限；

步骤2，判断基因表达谱芯片所含基因所属的基因集合；

步骤3，判断每一个基因集合中基因的个数是否在基因集合容量大小设置的范围之内，如果判断结果为否，则抛弃此基因集合；否则，执行下一步；

步骤4，计算基因集合的单态显著性和多态显著性；

步骤5，对计算出的p值进行多假设检验的FDR控制，即对原始p值进行校正；FDR控制是本领域技术，一开始不需要对原始p值进行设置，只是将原始p值作为输入，经过控制之后得到修正后的p值，再设置修正后p值的阈值。

步骤6，根据设定的修正后的p值的阈值，判断基因集合的单态显著性和多态显著性是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果。

本发明中所述p值为置信度或者显著性。

本发明中，步骤1中，设置和输入数据包括将荧光信号图像扫描获得的数据进行预处理(数据转换、缺失数据拟合、归一化等常规处理)，对参数的设置。

本发明中，步骤3中，设置基因集合中所含基因数，比如，在10到500之间，一般根据本领域中实际应用中常见的情况而定的。

本发明中，步骤4中计算基因集合的单态显著性和多态显著性的方法具体包括以下步骤：步骤11基因表达值的奇异值的剔除；步骤12计算基因集合中每个基因经过双样本t检验之后的t值；步骤13分别将数据作归一化处理；步骤14拟合表达变化率概率密度分布；步骤15计算每个基因的上调贡献率和下调贡献率；步骤16计算基因集合的上调贡献率和下调贡献率；步骤17对原始芯片数据进行随机重排，计算在零假设下基因集合上调贡献率和下调贡献率的分布。

本发明步骤13中所述的归一化处理公式为：

x_{i}^{'} = \frac{x_{i} - μ}{\sqrt{S^{2}}},

y_{j}^{'} = \frac{y_{j} - μ}{\sqrt{S^{2}}}

其中，对于表达谱芯片上的每个基因，在控制组(class 1)和实验组(class 2)中分别重复测量若干次表达值，控制组(class 1)做了n₁次重复，实验组(class 2)中做了n₂次重复。基因在class 1和class 2中的表达值向量分别记为(x₁，...，

)和(y₁，...，

)；μ和S²为向量(x₁，...，

y₁，...，

)的均值和方差。芯片实验通常会做两组，一组是控制组，一组是实验组，通过比较基因在实验组和控制组中表达情况的差别来筛选重要的基因。其中，每组为了保证数据的有效性，都要做若干次重复实验。向量(x₁，...，)是控制组中重复测量结果的向量，(y₁，...，)是实验组中重复测量结果的向量。然后每个y向量中的值减去每个x向量中的值，差作为表达变化率。举例来说，假设控制组的测量值为(a₁，a₂，a₃)，实验组的测量值为(b₁，b₂，b₃)，那么实验组和控制组之间的表达变化率定义为(b₁-a₁，b₁-a₂，b₁-a₂，b₂-a₁，b₂-a₂，b₂-a₃，b₃-a₁，b₃-a₂，b₃-a₃)。

本发明中步骤14包括以下步骤：经过归一化后的表达值数据，实验组(class 2)中每一个表达值数据分别减去控制组(class 1)中每一个表达值数据，将其差值定义为表达变化率；对于表达变化率，拟合表达变化率的概率密度分布。

本发明步骤15中，用表达变化率作为一阶权重，其中每个基因的上调贡献率和下调贡献率计算公式分别为：

E^{(+)} = {&Integral;}_{0}^{+ \infty} r \cdot f_{r > 0} (r) dr

E^{(-)} = {&Integral;}_{- \infty}^{0} r \cdot f_{r < 0} (r) dr

其中，E⁽⁺⁾和E^(-)分别为基因的上调贡献率和下调贡献率，r为表达变化率，f_r＞0(r)和f_r＜0(r)分别为概率密度分布函数f(r)大于0和小于0的两个部分。

本发明步骤16中基因集合的上调贡献率和下调贡献率为属于此基因集合中所有基因上调贡献率和下调贡献率的经过奇异值处理之后的加权算术平均值。

本发明方法中，所述的基因集合的单态显著性和多态显著性的计算方法为：

当

(E_{S 0}^{(+)}, E_{S 0}^{(-)}) &Element; (E_{S 0}^{(+)} > E_{S (media)}^{(+)} \cap E_{S 0}^{(-)} < E_{S (media)}^{(-)}) \cap (E_{S 0}^{(+)} / E_{S 0}^{(-)} > 2)

时，

P_{mono} = P (E_{S}^{(+)} > E_{S 0}^{(+)}, E_{S}^{(-)} < E_{S 0}^{(-)})

当

(E_{S 0}^{(+)}, E_{S 0}^{(-)}) &Element; (E_{S 0}^{(+)} < E_{S (media)}^{(+)} \cap E_{S 0}^{(-)} > E_{S (media)}^{(-)}) \cap (E_{S 0}^{(-)} / E_{S 0}^{(+)} > 2)

时，

P_{mono} = P (E_{S}^{(+)} < E_{S 0}^{(+)}, E_{S}^{(-)} > E_{S 0}^{(-)})

其余的情况，

P_{poly} = P (E_{S}^{(+)} > E_{S 0}^{(+)}, E_{S}^{(-)} > E_{S 0}^{(-)})

其中P_mono和P_poly分别表示基因集合中基因表达的单态显著性和多态显著性，E_S ⁽⁺⁾和E_S ^(-)为随机变量，分别表示零假设下基因集合S的上调贡献率和下调贡献率，E_S0 ⁽⁺⁾和E_S0 ^(-)表示实际的基因集合S的上调贡献率和下调贡献率，E_S(media) ⁽⁺⁾和E_S(media) ^(-)表示通过随机重排模拟零假设下E_S ⁽⁺⁾和E_S ^(-)的中值。

本发明方法中，所述的阈值要求为：p值为置信度或者显著性，即将观察结果认为有效(具有总体代表性)的犯错概率。p值越低，结果的可信度越高，在本发明中，所述的p值的阈值设定为0～0.05，该取值为经验值，通过对多个芯片检测结果与已知基因表达情况的比较得出，实际意义是识别的灵敏度与特异性之间的平衡。

本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的检测设备。

有益效果：本发明方法能够有效识别多种特征表达模式，甄别无效的干扰噪音，大大提高了基因表达谱在实际应用中的价值。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是基因表达谱芯片检测和识别装置的工作流程图。

图2是本发明方法的流程图。

图3是本发明产生基因集合的单态显著性和多态显著性的流程图。

图4a是本发明基因集合中基因的热图。

图4b是本发明基因上调贡献率和下调贡献率柱状图。

图4c是本发明t值柱状图。

图5是本发明零假设下基因集合上调贡献和下调贡献的分布。

具体实施方式：

如图1所示，将样本进行荧光标记后，加样于高通量生物芯片基因表达检测与识别装置中，与基因芯片上的探针杂交；杂交完毕后清洗去杂物，光电部分检测并记录基因表达强度数据；将数据进行预处理，产生基因表达的芯片检测数据；然后用如图2所示的识别机制对其进行分析处理，识别具有特征表达模式的基因集合。

本发明的方法如图2所示。步骤1是初始动作，包括用户输入待分析的基因表达谱芯片数据(通常以矩阵格式存储的文本文件，每列为不同的样本，每行为基因在相应样本中的表达值)，设置表达谱芯片所含基因的类型(如Symbol)，物种名称(如Homo sapiens)，基因集合数据库(GO或者KEGG)，基因集合容量大小的上限和下限(如10至500)；步骤2判断基因表达谱芯片所含基因是否属于某个基因集合，对于预定义的已经分类好的基因集合数据库，查找表达谱芯片上基因在基因集合数据库中出现的记录，计算每个基因集合所包含的表达谱芯片上基因的个数；步骤3判断每一个基因集合中基因的个数是否在基因集合容量大小设置中定义个数的范围之内，如果判断结果否，则抛弃此基因集合；否则，执行步骤4。步骤4计算每一个基因集合单态性和多态性的显著性。该步骤将在后面的部分结合图3具体介绍；步骤5对p值修正，进行多假设检验下的FDR控制，即控制结果的假阳性发现率；步骤6根据设定的p值的阈值，对修正后的p值进行判断，如果判断结果为否，则抛弃；否则进入步骤7，输出识别结果。

图3详细说明了图2的步骤4，包括：步骤11对基因表达值的奇异值的剔除；步骤12计算基因集合中每个基因经过双样本t检验之后的t值；步骤13分别将数据作归一化处理；步骤14拟合表达变化率概率密度分布；步骤15计算每个基因的上调贡献率和下调贡献率；步骤16计算基因集合的上调贡献率和下调贡献率；步骤17对原始芯片数据进行随机重排，计算在零假设下基因集合上调贡献率和下调贡献率的分布。

具体而言，假设一次芯片试验分成两个等级(class)，一个为控制组(class 1)，共做了n₁次重复，一个为实验组(class 2)，共做了n₂次重复，(x₁，...，

)和(y₁，...，)分别为某个基因这两个class中的表达值向量。具体步骤如下：

11.剔除奇异值

对每个基因，对于n₁个控制组class 1或者n₂个实验组class 2。分别将数据排序，计算上四分位数和下四分位数，如果两个四分位数外部的数据距离相应四分位数的距离超过两个四分位数之间距离的1.5倍以上，则剔除掉这些数据，如果有数据被剔除掉，则相应的表达值向量长度缩短，两个class中表达值向量长度被分别修正为n′₁和n′₂。

12.计算每个基因的双样本t检验的t值：

假设μ₁和S₁ ²是某个基因在class 1中表达值向量的均值和方差，μ₂和S₂ ²是某个基因在class 2中表达值向量的均值和方差，用如下公式计算双样本t检验的t值：

t = \frac{μ_{1} - μ_{2}}{\sqrt{\frac{(n_{1}^{'} - 1) \cdot S_{1}^{2} + (n_{2}^{'} - 1) \cdot S_{2}^{2}}{(n_{1}^{'} + n_{2}^{'} - 2)}} \cdot \sqrt{\frac{1}{n_{1}^{'}} + \frac{1}{n_{2}^{'}}}},

其中n′₁和n′₂分别是在步骤11中修正之后的向量长度。

13.表达值向量的归一化：

对于某个基因在class 1和class 2中的表达值向量(x₁，...，

)，(y₁，...，

)，其每个x_i和y_j，用如下公式对其进行转换：

x_{i}^{'} = \frac{x_{i} - μ}{\sqrt{S^{2}}},

y_{j}^{'} = \frac{y_{j} - μ}{\sqrt{S^{2}}}

其中，μ和S²为向量(x₁，...，

y₁，...，

)的均值和方差。转换之后的表达值向量为(x′₁，...，

)和(y′₁，...，

)。

14.计算表达变化率分布：

经过归一化后的表达值数据，实验组(class 2)中每一个表达值数据分别减去控制组(class 1)中每一个表达值数据，将其差值定义为表达变化率；对于表达变化率，拟合表达变化率的概率密度分布。

对于(x′₁，...，

)和(y′₁，...，

)，定义r_k，k≤n′₁·n′₂，用如下公式计算r_k：

r_k＝y′_j-x′_i，

&ForAll; i \leq n_{1}^{'}, &ForAll; j \leq n_{2}^{'}

当n′₁＝n′₂时，r的均值近似等于

(μ_{1} - μ_{2}) / \sqrt{(S_{1}^{2} + S_{2}^{2}) / 2},

方差近似等于2。

如果r_k＞1，则y′_j关于x′_i表现出上调。

计算r的概率密度分布f(r)，将此f(r)分为大于0和小于0两个部分，分别记为f_r＞0(r)和f_r＜0(r)。

15.计算每个基因的上调贡献和下调贡献：

设定E⁽⁺⁾和E^(-)分别为某个基因的上调贡献和下调贡献，其计算方法如下：

E^{(+)} = {&Integral;}_{0}^{+ \infty} r \cdot f_{r > 0} (r) dr

E^{(-)} = {&Integral;}_{- \infty}^{0} r \cdot f_{r < 0} (r) dr

在实际计算中，使用频度分布代替概率密度分布，用加和代替积分。

16.计算每个基因集合的上调贡献率和下调贡献率：

假设某个基因集合记之为S，基因集合上调贡献率即为该集合中所有基因上调贡献率的平均值，基因集合下调贡献率为其中所有基因下调贡献率的平均值。设E_S0 ⁽⁺⁾和E_S0 ^(-)是此基因集合的上调贡献率和下调贡献率，则

E_{S 0}^{(+)} = \frac{1}{m} \underset{g_{i} &Element; S}{Σ} G_{i} \cdot E_{i}^{(+)} \cdot t_{i}, E_{S 0}^{(-)} = \frac{1}{m} \underset{g_{i} &Element; S}{Σ} G_{i} \cdot E_{i}^{(-)} \cdot t_{i},

m = Σ G_{i} \{\begin{matrix} G_{i} = 1, g_{i} &Element; S \\ G_{i} = 0, g_{i} &NotElement; S \end{matrix}

其中g_i表示基因i。

如果某个基因的E_i ⁽⁺⁾或E_i ^(-)是奇异值(其定义见下文)，则整个基因集合的E_S0 ⁽⁺⁾会由此一个基因所控制，因此对这样的情形必须进行处理，处理步骤如下：将某个基因集合中的E_i ⁽⁺⁾进行排序，分为三种情形：1.如果最大值超过第二大值1.5倍，而第二大值未超过第三大值1.5倍，则认为最大值是奇异值，对此情形的处理方法是使用第二大值的1.5倍代替最大值；2.如果最大值超过第二大值1.5倍，第二大值也超过第三大值1.5倍，则认为最大值和第二大值均是奇异值，对此情形的处理方法是使用第三大值的2.25倍代替最大值，第三大值的1.5倍代替第二大值；3.如果最大值未超过第二大值1.5倍，而第二大值超过第三大值1.5倍，则也认为最大值和第二大值均是奇异值，对此情形的处理方法是使用第三大值的1.5倍乘以最大值与第二大值的比例代替最大值，第三大值的1.5倍代替第二大值。也就是说本发明只处理出现两个或一个奇异值的情况，而出现三个或三个以上，则本发明视为一种强烈的共表达。

17.对原始芯片数据进行随机重排，计算在零假设下基因集合上调贡献率和下调贡献率的分布。

设计两组假设检验，分别来检验基因集合中基因表达的单态性和多态性。通过随机重排基因若干次，得到(E_S(1) ⁽⁺⁾，...，E_S(n) ⁽⁺⁾)和(E_S(1) ^(-)，...，E_S(n) ^(-))。即为零假设下的E_S ⁽⁺⁾和E_S ^(-)的联合分布。当基因集合中基因的数目比较大时，()近似服从二维正态分布。

为检验基因集合中基因表达的单态性和多态性，用如下准则：

当

(E_{S 0}^{(+)} > E_{S (media)}^{(+)} \cap E_{S 0}^{(-)} < E_{S (media)}^{(-)}) \cap (E_{S 0}^{(+)} / E_{S 0}^{(-)} > 2),

P_{mono} = P (E_{S}^{(+)} > E_{S 0}^{(+)}, E_{S}^{(-)} < E_{S 0}^{(-)})

当

(E_{S 0}^{(+)} < E_{S (media)}^{(+)} \cap E_{S 0}^{(-)} > E_{S (media)}^{(-)}) \cap (E_{S 0}^{(-)} / E_{S 0}^{(+)} > 2),

P_{mono} = P (E_{S}^{(+)} < E_{S 0}^{(+)}, E_{S}^{(-)} > E_{S 0}^{(-)})

其余，

P_{poly} = P (E_{S}^{(+)} > E_{S 0}^{(+)}, E_{S}^{(-)} > E_{S 0}^{(-)})

其中P_mono和P_poly分别表示基因集合中基因表达的单态显著性和多态显著性，E_S(media) ⁽⁺⁾和E_S(media) ^(-)表示通过随机重排模拟零假设下E_S ⁽⁺⁾和E_S ^(-)的中值。

图4a是基因集合中基因的热图，，第一行不同的色块表示控制组和实验组，下面行中不同颜色的深度表示了不同的基因在控制组和实验组的表达变化率；图4b为基因上调贡献率和下调贡献率，图4c为t值柱状图。每一行对应同一个基因。从热图上可以直观地看到基因表达变化差异情况，贡献率柱状图表现的是经过加权之后，每个基因所表现出的上调和下调的贡献。

图5是零假设下基因集合上调贡献和下调贡献的分布图。蓝色的点表示分布的中心，红色的点表示基因集合实际的上调贡献和下调贡献。从图中可以看出，此基因集合远离零假设下的分布，具有很高的显著性，并且此基因集合位于零假设分布的右下角，表现出单态性。

本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的设备，不需要硬件上的任何改动，因而更加显示出本方法在具体实施中的兼容性，大大降低了方法在实践应用中的成本。

本发明提供了一种提取多种基因集合特征表达模式的方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部份均可用现有技术加以实现。