CN101250584B

CN101250584B - 一种识别显著差异表达基因集合的方法

Info

Publication number: CN101250584B
Application number: CN2008100198623A
Authority: CN
Inventors: 王进; 顾祖光; 杨嵘; 张辰宇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2008-03-19
Filing date: 2008-03-19
Publication date: 2012-06-13
Anticipated expiration: 2028-03-19
Also published as: CN101250584A

Abstract

本发明公开了一种识别显著差异表达基因集合的方法，它包括以下步骤：(1)设置和输入数据；(2)将基因归属至各个基因集合；(3)检查每一个基因集合中基因的个数是否大于设置中定义的个数，如果结果为否，则抛弃此基因集合；(4)计算每一个基因集合的表达变化指数；(5)将整张芯片上所有基因作为背景基因，计算背景基因集合的表达变化指数；(6)从背景基因中随机抽样，检验各基因集合E值的显著性；(7)根据设定的E值和p值的阈值，输出符合阈值要求的基因集合作为识别结果。本发明方法对大基因集合识别效果优良，保证了在较少检测次数的情况下有较高的准确率，大大提高了基因表达值在实际应用中的价值。

Description

一种识别显著差异表达基因集合的方法

技术领域

本发明涉及高通量生物芯片基因表达检测方法，特别涉及基因表达谱芯片检测中一种识别显著差异表达基因集合的方法。

背景技术

高通量生物芯片检测是对生物体各过程、各状态进行各个层次的快速、并行、大信息量检测的先进技术。可以广泛应用于疾病预警、寻找新的疾病基因、以及分子生理和分子病理研究等方面。其关键技术之一是显著差异表达基因集合的识别。目前识别差异表达基因集合的方法是对基因表达值进行t检验后按t值排序，并与随机重排样本的统计结果进行比较，从而识别显著改变的基因集合。该方法的问题是对大基因集合识别效果不佳，且识别效果受实验重复性和检测次数的影响很大，若检测次数少则识别效果差。所以现有识别方法难以适应检测次数不多的现实状况，大大降低了基因表达值在实际应用中的价值。

发明内容

发明目的：本发明的主要目的是针对现有技术识别显著表达基因集合的准确度低、对检测次数要求过高的问题，提供一种基于表达值加权分布的识别显著差异表达基因集合的方法。

技术方案：本发明公开了一种识别显著差异表达基因集合的方法，它包括以下步骤：

(1)设置和输入芯片数据；

(2)将基因表达谱芯片所含基因归属至各个基因集合；

(3)判断每一个基因集合中基因的个数是否大于设置中定义的个数，如果判断结果为否，则抛弃此基因集合；否则，执行下一步；

(4)计算每一个基因集合的表达变化指数，即E’值；

(5)将整张芯片上所有基因作为背景基因，按照步骤4的方法计算背景基因集合的表达变化指数；对每一个基因集合去除背景，产生真实的基因集合表达变化指数E值；

(6)检验各基因集合E值的显著性；

(7)根据设定的E值和p值的阈值，判断是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果；

其中，步骤(7)中所述p值为置信度。

本发明中，步骤(1)中，设置和输入数据包括将荧光信号图像扫描获得的数据进行预处理(数据转换、缺失数据拟合、归一化等常规处理)后，根据检测目的所计算的基因表达水平比值，以及判断阈值，包括基因集合的表达变化指数E值和p值。

本发明中，步骤(3)中，设置基因集合中所含基因数，比如，大于10，一般根据本领域中实际应用中常见的情况而定的。

本发明中，步骤(4)中计算基因集合的表达变化指数的方法具体包括以下步骤：(11)基因表达值的离散化；(12)计算表达分布的一阶权重得分；(13)计算基因集合的表达变化指数。其中，优选地，步骤(12)包括以下步骤：计算上调区和下调区的差异表达离散分布和权重分布得分；对于有重复实验的单样本芯片数据，计算差异表达权重分布后，将所有重复实验中的加权表达值叠加；对于有重复试验的多样本芯片数据，将样本分级并赋予标签值，组合各种标签值的加权表达值。其中所述的赋予标签值，根据所识别基因集合的要求，样本之间正相关取+1，样本之间负相关取-1。步骤(13)中用上调区和下调区得分的比值取对数(E’值)来表示在此集合中的基因表达变化指数。

本发明中，步骤(6)检验各基因集合E值的显著性，从背景基因中随机挑选与选定基因集合数目相同的基因，按步骤(4)和步骤(5)的做法计算真实的基因集合表达变化指数E值，重复抽样(比如1000次)，获得各集合的E值的显著性。

本发明中，所述的权重分布计算使用一阶权重公式为：

U = \overset{x > 0}{Σ} x \cdot P (x), D = \overset{x < 0}{Σ} | x | \cdot P (x) .

本发明方法中，所述的阈值要求为：基因集合的表达变化指数E值的绝对值大于1。p值为置信度，即将观察结果认为有效(具有总体代表性)的犯错概率。p值越低，结果的可信度越高，在本发明中，所述的p值的阈值可以设定为0～0.05，该取值为经验值，通过对多个芯片检测结果与已知基因表达情况的比较得出，实际意义是识别的灵敏度与特异性之间的平衡。

本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的检测设备。

有益效果：本发明方法对大基因集合识别效果优良，且识别效果受实验重复性和检测次数的影响很小，保证了在较少检测次数条件下较高的准确率，大大提高了基因表达值在实际应用中的价值。

附图说明

图1是基因表达谱芯片检测和识别装置的工作流程图。

图2是本发明方法的流程图。

图3是产生基因集合表达变化指数的流程图。

图4是基因集合表达变化指数的散点图的对比图。

具体实施方式

下面结合附图对发明做更进一步的解释。

如图1所示，将样本进行荧光标记后，加样于高通量生物芯片基因表达检测与识别装置中，与基因芯片上的探针杂交，杂交完毕后清洗去杂物，光电部分检测并记录基因表达强度，将数据预处理，产生基因表达芯片数据。如图2所示，然后由识别机制对其进行处理，来识别显著表达变化的基因集合。

本发明的方法如图2所示。步骤1是初始动作，包括用户设置和输入数据；步骤2将芯片所含基因归属至各个基因集合；步骤3判断每一个基因集合中基因的个数是否大于设置中定义的个数，如果判断结果否，则抛弃此基因集合；否则，执行步骤4。步骤4计算每一个基因集合的表达变化指数(E’值)。该步骤将在后面的部分结合图3具体介绍。步骤5先计算背景基因集合的E’值，将整张芯片上所有基因作为背景基因，按步骤4的做法计算所有基因表达值分布的E’值。然后对每一个基因集合去除背景，产生真实的基因集合表达变化指数E值；步骤6检验各基因集合E值的显著性，从背景基因中随机挑选与选定基因集合数目相同的基因，按步骤4的做法计算E值，重复抽样(比如1000次)，获得各集合的E值的显著性；步骤7根据设定的E值和p值的阈值，进行判断，输出识别结果。

图3详细说明了图2的步骤4，包括：步骤11基因表达值的离散化；步骤12计算表达分布的一阶权重得分；步骤13计算基因集合的表达变化指数。其作用是计算基因集合的表达变化指数。具体而言，对于单实验单样本的芯片数据{G|e}，其中G表示基因，e表示相应基因的表达值，设S_i是某一个给定的基因集合，其中包含的基因为G₁，G₂，…，G_n，芯片数据中属于此集合的基因为G₁，G₂，…，G_m(m≤n)。这些基因的表达值存在一个分布，以合适的区间作为分隔(比如0.1)，可以得到一个离散型的表达值分布，记为P(x)。其中x＞0的部分为上调基因的分布，x＜0的部分为下调基因的分布。通过本发明专门设计的公式计算此集合中的上调区U和下调区D的权重分布得分：

U = \overset{x > 0}{Σ} x \cdot P (x), D = \overset{x < 0}{Σ} | x | \cdot P (x)

其中使用每个区间分布的区间值作为分布的权重，那么差异表达较大的基因就会在这个基因集合中有较大的权重，而差异表达较小的基因则权重较小。这样，表达差异明显的基因集合和不明显的基因集合可以很好地区分开来。

对于有重复实验的单样本芯片数据，记为{G|e₁，e₂，…，e_n}，e_i表示第i次重复实验。对于一个指定的基因集合S_i，在每一次重复实验e_i中，处于此基因集合中的基因在芯片上的表达值都会有一个分布，记为P_i(x)，将所有重复实验中的加权表达值叠加，上调区和下调区的权重分布得分用本发明专门设计的公式表示：

U = Σ_{i}^{n} \overset{x_{i} > 0}{Σ} x_{i} \cdot P_{i} (x), D = Σ_{i}^{n} \overset{x_{i} < 0}{Σ} | x_{i} | \cdot P_{i} (x)

其中n是重复实验的次数。同样，在某次重复实验中差异表达较大的基因会占有较大的权重。

对于有重复试验的多样本芯片测试，不同样本属于不同的级别(class)，用C₁，C₂，…，C_n来表示，芯片数据记为：

{G | e_{1, c_{1}}, e_{2, c_{1}}, . . ., e_{n, c_{1}}, e_{1, c_{2}}, e_{2, c_{2}}, . . ., e_{n, c_{2}}, e_{1, c_{n}}, e_{2, c_{n}}, . . ., e_{n, c_{n}}},

表示在C_j中的第i次重复实验。对于一个指定的基因集合S_i，在每一次重复试验中，处于此基因集合中的基因在芯片上的表达值都有一个分布，记为P_i(x)，上调区和下调区的权重分布得分用本发明专门设计的公式表示如下：

U = Σ_{j}^{C_{n}} Σ_{i}^{e_{n, C_{j}}} \overset{{label}_{C_{j}} \cdot x_{i, j} > 0}{Σ} x_{i, j} \cdot P_{i, j} (x), D = Σ_{j}^{C_{n}} Σ_{i}^{e_{n, C_{j}}} \overset{{label}_{C_{j}} \cdot x_{i, j} < 0}{Σ} | x_{i, j} | \cdot P_{i, j} (x)

其中第一个求和符号是将所有的样本叠加，第二个求和符号是将某个样本中所有的重复实验叠加，第三个是将每个实验中基因表达分布加权后叠加。其中n是级别的总数，此处的上调区和下调区与单样本数据不一样，在多样本数据中一般需要的是样本之间的比较，本发明给每个样本赋予一个label值，将多样本数据模拟为单样本数据。label_Cj是指第j个样本的标记，如果需要找出在样本1的中被上调而在样本2中被下调的基因集合，则样本1中所有实验的label记为l，样本2中所有实验的label记为-1。相当于将样本2中所有数据的正负颠倒过来，研究样本1和样本2合并为一张芯片后的被显著上调的基因。

本专利中，用上调区和下调区得分的比值的对数来表示在此集合中基因被上调或者下调的程度，如果对数值大于0，则表示该基因集合被上调，反之亦然。

本专利中，也可以用上调区和下调区得分的比值来表示在此集合中基因被上调或者下调的程度，如果比值大于1，则表示该基因集合被上调，反之亦然。

图4是基因集合E值随基因集合中基因个数的散点图。图4a是对一个实际样本的处理结果，连续的曲线代表显著性等于p＝0.05的E值，曲线之外的区域是具有统计显著性的区域。用本方法识别出31个显著差异表达的基因集合。图4b是随机数据对照(随机生成一套和原芯片数据大小相同的数据，依据正态分布，均值取每个样本中所有基因表达值的均值，方差取每个样本中所有基因表达值的方差)，其中，几乎所有的散点都有较大的p值。与图4b相比，图4a下方显示出较多的散点，与随机分布相比有明显下调偏移。该图展示了本发明方法的有效性，也用于决定相应E值的阈值。

本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的设备，不需要硬件上的任何改动，因而更加显示出本方法在具体实施中的兼容性，大大降低了方法在实践应用中的成本。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种识别显著差异表达基因集合的方法，其特征在于，它包括以下步骤：

(1)设置和输入芯片数据；

(2)将基因表达谱芯片所含基因归属至各个基因集合；

(4)计算每一个基因集合的表达变化指数，即E’值；

(6)检验各基因集合E值的显著性；

其中，步骤(7)中所述p值为置信度；

步骤(4)中计算基因集合的表达变化指数的方法具体包括以下步骤：

(11)基因表达值的离散化；

(12)计算表达分布的一阶权重得分；

(13)计算基因集合的表达变化指数；

步骤(12)包括以下步骤：

计算上调区和下调区的差异表达离散分布和权重分布得分；

对于有重复实验的单样本芯片数据，计算差异表达权重分布后，将所有重复实验中的加权表达值叠加；

对于有重复实验的多样本芯片数据，将样本分级并赋予标签值，组合各种标签值的加权表达值；

步骤(13)用上调区和下调区得分比值的对数来表示在此集合中的基因表达变化指数；

所述的权重分布得分计算使用一阶权重公式为：

U = \overset{x > 0}{Σ} x \cdot P (x), D = \overset{x < 0}{Σ} | x | \cdot P (x)

其中，U为上调区权重分布得分和D为下调区的权重分布得分；P(x)为离散型的表达值分布；其中x＞0的部分为上调基因的分布，x＜0的部分为下调基因的分布；

其中所述的赋予标签值，根据所识别基因集合的要求，样本之间正相关取+1，样本之间负相关取-1；

所述的阈值要求为：基因集合的表达变化指数的绝对值大于1；p值不大于0.05。