CN103093119A

CN103093119A - 一种利用网络结构信息识别显著生物通路的方法

Info

Publication number: CN103093119A
Application number: CN2013100281424A
Authority: CN
Inventors: 顾祖光; 范垚; 李捷; 王进
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-01-24
Filing date: 2013-01-24
Publication date: 2013-05-08

Abstract

本发明公开了一种利用网络结构信息识别显著生物通路的方法，包括以下步骤：输入基因芯片数据；将基因芯片中测量的所有基因归属到已知的生物通路集合中；使用网络结构信息计算每条生物通路的差异性；构造随机对照数据，计算随机情况下每条生物通路差异性的分布，并且计算p值；对原始p值进行校正；判断每条生物通路的显著性是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果。本发明方法能够有效识别当生物条件发生变化时被显著影响的生物通路，同时也能从多种角度发现导致这些生物通路发生变化的关键基因和调控路径。

Description

一种利用网络结构信息识别显著生物通路的方法

技术领域

本发明涉及高通量生物芯片基因表达检测方法，特别涉及基因表达谱芯片检测中利用网络结构信息识别被显著影响的生物通路的方法。

背景技术

高通量技术和组学技术的发展，使得人们可以在系统水平上对生物体内部的分子过程进行检测，从而有助于了解基因及其它生物分子所参与的复杂的相互作用。基因芯片技术被广泛应用于测量基因组水平的基因表达值，从而产生出海量的生物数据，对这些数据的生物意义解读是当前基因芯片技术的一个难点。由于生物系统主要是通过基因与基因之间的相互作用而实现功能，因此，与传统的单基因分析方法不同，基因芯片数据处理的新挑战是如何找出被一组相关基因所影响的生物过程。特定生物过程常用其生物通路来表述，即指一组基因和小分子以化学反应、分子修饰或者信号传导的方式来实现特定生物功能的分子网络。由于生物通路通过基本的基因网络回路来实现特定的生物功能，那么对生物通路的干扰必定导致正常生物系统的紊乱。因此，在特定的生物条件下去寻找显著变化的生物通路能够有助于研究人员把注意力集中到对生物系统最为重要的一组基因上去。但是由于目前寻找显著的生物通路的方法把所有基因视为等同地位，因此在具体应用中还无法达到满意的效果。生物中通路包含着最重要的信息，即，其中的成员基因是如何与其他基因进行相互作用的。很明显对生物通路中关键基因的干扰要比对非关键基因的干扰对整个生物通路的影响更大。生物通路的形式是一个网络或者图，其中包含了节点和边，因此，网络的结构信息对于衡量生物通路的显著性是至关重要的。目前的方法并没有考虑到生物通路的结构信息，因此在实际的应用中对于揭示由于关键基因和关键调控路径所影响的生物通路还存在着很大的不足，无法找到真正起关键作用的生物通路。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术识别显著生物通路方法的不足，提出一种更加有效的利用网络结构信息的识别显著生物通路的方法，这种方法找到的生物通路能够揭示出其中重要的关键基因和调控路径。

技术方案：本发明公开了一种利用网络结构信息识别显著生物通路的方法，包括以下步骤：

步骤1，输入基因芯片数据，选择基因ID类型；

步骤2，整理和使用公共的生物通路数据集，将基因芯片所含基因归属到所属已知的生物通路中；

步骤3，使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分；

步骤4，构建随机对照数据，计算每条生物通路的显著性，即p值；

步骤5，对计算出的p值进行多假设检验的FDR控制，即对原始p值进行校正；

步骤6，根据设定的修正后的p值的阈值，判断每条生物通路的显著性是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果。

本发明中，步骤1中，输入的基因芯片数据一般为矩阵格式，其中行对应着基因，列对应着不同的实验样本。基因统一使用Symbol来表示。

本发明中，步骤2中，使用公共的生物通路数据集，对其中的每一条生物通路，判断基因芯片中的基因是否属于此生物通路。

本发明中，步骤3中使用生物通路的网络结构信息和基因芯片表达信息计算每条生物通路的差异性具体包括以下步骤：步骤11将生物通路中的基因映射为网络节点；步骤12计算网络中心性指标；步骤13使用基因芯片数据判断网络节点被差异表达影响的程度；步骤14计算生物通路整体差异性的总得分；

步骤11中，对生物通路中的每个节点判断其是否包含基因以及所包含基因的数目。

步骤12中所述的网络中心性指标一共有三种：

a)度：与网络中某个节点直接相连的节点个数，衡量一个基因调控其他基因的个数，按照网络边的方向，度分为入度和出度；

b)最短路径中间性：衡量经过一个节点的信息流数量，在网络结构中,衡量起枢纽作用的关键基因,定义为，

C_{spd} (v) = \underset{s &NotEqual; v &Element; V}{Σ} \underset{t &NotEqual; v &Element; V}{Σ} \frac{σ_{st} (v)}{σ_{st}},

其中，C_spd(v)是节点v的最短路径中间性的得分，σ_st是节点s到节点t最短路径的条数，σ_st(v)是节点s到节点t经过节点v的最短路径的条数，V是生物通路的网络结构；

c)最大传播距离：衡量节点信息所能传播或者接受的最远距离,在网络结构中,衡量基因所能调控的深度，具有方向性的，记为入最大传播距离和出最大传播距离，定义为，

C_{lr}^{in} (v) = \max_{w &Element; V} {d (w, v)},

C_{lr}^{out} (v) = \max_{w &Element; V} {d (v, w)},

其中，

和

分别是节点v的入最大传播距离和出最大传播距离，d(w,v)是从节点w开始到节点v结束的最短路径长度，d(v,w)是从节点v开始到节点w结束的最短路径长度，V是生物通路的网络结构。

步骤13中所述的使用基因芯片数据判断网络节点被差异表达影响的程度具体包括以下步骤：a）计算节点的表达值向量，如果节点只包含单个基因，则此节点的表达值向量为该基因的表达值向量；如果节点包含多个基因，则成员基因表达值矩阵的第一主成分作为该节点的表达值向量；b）计算每个节点的差异变化值：根据节点的表达值向量计算节点的差异变化值向量d。

步骤14所述的使用生物通路的网络结构信息和基因芯片的表达信息计算每个生物通路的差异性总得分，具体为依次计算在三种不同的中心性指标下（度，最短路径中间性和最大传播距离）的生物通路的差异性总得分，使用统一的计算公式：

s=f(wd)，

其中，s是生物通路的差异性总得分，w为一条生物通路中节点在相应网络中心性指标下的中心性值向量，d为某条生物通路中节点差异变化值向量，f为对w和d向量乘积的最大值函数或者加和函数；如果使用度作为中心性指标，最后的生物通路的差异性总得分记为s_d；如果使用最短路径中间性作为中心性指标，最后的生物通路的差异性总得分记为s_spd；如果使用最大传播距离作为中心性指标，最后的生物通路的差异性总得分记为s_lr。

本发明中，步骤4中所述的构建随机对照数据，计算每条生物通路的显著性，实施具体如下：将原始的基因表达值矩阵随机打乱，基于打乱的数据使用步骤3计算随机条件下在度、最短路径中间性和最大传播距离三种中心性指标下生物通路的差异性总得分

和

总共进行n次的数据随机打乱，获得3n个随机的生物通路整体差异性的总得分，在对应的中心性指标下，计算差异性得分的显著性p值：

p_{d} = # {s_{d} > s_{d}^{r}} / n,

p_{spd} = # {s_{spd} > s_{spd}^{r}} / n,

p_{lr} = # {s_{lr} > s_{lr}^{r}} / n,

其中p_d，p_spd和p_lr分别为在度、最短路径中间性和最大传播距离下的差异性总得分的显著性p值；在公式的右半部分，分子是基于真实的基因芯片数据计算得到的差异性总得分大于随机情况下的次数。

本发明中，步骤5中，使用本专业领域常用的本杰明尼-霍赫贝格方法（Benjamini-Hochberg procedure）对原始的p值进行校正，以控制假阳性。

本发明中，步骤6中，对每一条生物通路，判断其在中心性指标下差异总得分的显著性。只要在度、最短路径中间性或最大传播距离三者中任意一个指标下生物通路的显著性超过阈值设定，该条生物通路就是一条显著的生物通路。

本发明方法中，所述的阈值要求为：显著性p值的判断与统计学中置信度的阈值判断相同，即将观察结果认为有效（具有总体代表性）的犯错概率。p值越低，结果的可信度越高，在本发明中，所述的p值的阈值设定为0.05～0.01，实际意义是识别的灵敏度与特异性之间的平衡。

本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的检测设备。

申请人曾经申请并获得授权过一种识别显着差异表达基因集合的方法，专利号200810019862.3，一种提取多种基因集合特征表达模式的方法，专利号200910032863.6，以上两个专利与本申请的区别在于，其解决的是寻找广义的显著基因集合问题，无法解决本申请提出的寻找具有生物网络结构的生物通路问题。因此，本申请与以上两个专利相比，其优点在于利用了生物通路的网络结构信息，因此能够有效的更加合理的找出真正其作用的生物通路，同时也更加贴近实际的生物学问题。便于更加迅速有效地定位对正常的生物系统起主导作用的生物通路。

有益效果：本发明方法能够有效识别在生物条件发生变化过程中被显著影响的生物通路，并且能够找出其中的起重要作用的关键基因和调控路径，大大提高了基因表达谱在实际应用中的价值。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是基因表达谱芯片检测和识别装置的工作流程图。

图2是本发明方法的流程图。

图3是本发明使用生物通路的网络结构信息和基因芯片的表达信息计算生物通路差异性的流程图。

图4是本发明主要结果的示意图。

图5是本发明中生物通路在不同网络中心性下显著性的热图。

图6是本发明中生物通路差异性总得分的分布图。

图7是本发明中生物通路差异变化的网络结构图。

具体实施方式：

如图1所示，准备实验样本，将样本进行荧光标记，加样于高通量生物芯片基因表达检测与识别装置中，与基因芯片上的探针杂交；杂交完毕后清洗去杂物，光电部分检测并记录基因表达强度数据；将数据进行预处理，产生基因表达的芯片检测数据；然后用如图2所示的识别机制对其进行分析处理，识别被显著影响的生物通路。

本发明的方法如图2所示。步骤1是初始动作，包括用户输入待分析的基因表达谱芯片数据（通常是以矩阵格式存储的文本文件，每列为不同的样本，每行为基因在相应样本中的表达值），将表达谱芯片中的基因用正确的ID类型（Symbol）表示；步骤2整理和使用公共的生物通路数据集（如Pathway Interaction Database，BioCarta等），将基因芯片中所含的所有基因归属到已知的生物通路中；步骤3使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分，该步骤将在后面的部分结合图3具体介绍；步骤4通过对基因芯片数据中样本的随机重排构建随机对照数据，通过和步骤3相同的方式，计算在随机条件下生物通路的差异性分布，并且与真实生物通路的差异性进行比较，得出真实生物通路的显著性，即p值，该步骤将在后面的部分具体介绍；步骤5对p值修正，进行多假设检验下的FDR控制，即控制结果的假阳性发现率；步骤6根据设定的p值的阈值，对修正后的p值进行判断，如果判断结果为否，则抛弃；否则进入步骤7，输出识别结果。

图3详细说明了图2的步骤3，包括：步骤11将生物通路中的基因映射为网络节点；步骤12计算网络中心性指标；步骤13判断网络节点被差异表达影响的程度；步骤14计算生物通路差异性的总得分。

11.将生物通路中的基因映射为网络节点

网络节点包含一个或多个基因，将某一个网络节点记为Node_i{Gene_i1,…}，其中花括号内表示节点i中所包含的基因列表。对于不包含基因的网络节点，例如只包含小分子化合物的节点，使用空列表来表示此节点，记为Node_j{}。

12.计算网络中心性指标

网络中心性被用来衡量网络中节点的重要性。网络中心性是按照某种准则对网络中的节点进行排序的一系列方法。不同的网络中心性指标可以从不同角度对网络节点重要性进行衡量。本发明中使用的中心性指标如下：

a)度：与网络中某个节点直接相连的节点个数，衡量一个基因调控其他基因的个数，按照网络边的方向，度分为入度和出度；在实际计算中，入度是直接指向某个基因的基因数目，出度是某个基因直接指向的其他基因数。参见Jeong H等人使用度作为衡量生物网络中蛋白的重要性（Jeong H,Mason S P，BarabásiAL,Oltvai ZN:Lethality and centrality in protein networks.Nature2001,411:41-42.）。

C_{spd} (v) = \underset{s &NotEqual; v &Element; V}{Σ} \underset{t &NotEqual; v &Element; V}{Σ} \frac{σ_{st} (v)}{σ_{st}},

其中，C_spd(v)是节点v的最短路径中间性的得分，σ_st是节点s到节点t最短路径的条数，σ_st(v)是节点s到节点t经过节点v的最短路径的条数，V是生物通路的网络结构。实际应用中，Joy MP等人使用最短路径中间型作为度量，去寻找蛋白质相互作用网络中最为重要的关键蛋白（Joy MP，BrockA,Ingber DE,Huang S:High-betweenness proteins in the yeast protein interaction network.J BiomedBiotechnol2005,2005:96-103）；

C_{lr}^{in} (v) = \max_{w &Element; V} {d (w, v)},

C_{lr}^{out} (v) = \max_{w &Element; V} {d (v, w)},

其中，

和

分别是节点v的入最大传播距离和出最大传播距离，

d(w,v)是从节点w开始到节点v结束的最短路径长度，d(v,w)是从节点v开始到节点w结束的最短路径长度，V是生物通路的网络结构。

本发明中网络中心性的选择是开放性的，除了缺省的中心性选项以外，其他任何可以从生物学角度来解释的中心性均可以使用。为了能够对当前所研究的生物系统有一个全面的了解，本发明同时使用以上三种中心性指标进行评价，其中每一种中心性指标都能够从特定的角度来揭示生物通路中不同节点的特殊性质。

13.使用基因芯片数据判断网络节点被差异表达影响的程度

首先使用一个表达值向量来表示某个网络节点。对于只包含单个基因的节点，基因的表达值向量即为节点的表达值向量；对于包含多个基因的节点，首先对其成员基因表达值矩阵进行主成分分析（Principle Component Analysis），取其第一主成分作为该节点的表达值向量。使用节点表达值向量的t统计量作为节点的差异变化值。假设节点表达值向量为(x₁,...,x_k)，则节点的差异变化如下计算：

t = \frac{μ}{σ / \sqrt{k}},

其中μ为向量的均值，σ为向量的标准差，k为向量中元素的个数。对于一条生物通路，其中所有节点的差异变化值所构成的向量用d来表示。

14.计算生物通路差异性的总得分

具体为依次计算在三种不同的中心性指标下（度，最短路径中间性和最大传播距离）的生物通路的差异性总得分，使用统一的计算公式：

s=f(wd)，

构建随机对照数据，计算每条生物通路的显著性，实施具体如下：将原始的基因表达值矩阵随机打乱，基于打乱的数据使用步骤3计算随机条件下在度、最短路径中间性和最大传播距离三种中心性指标下生物通路的差异性总得分

和

p_{d} = # {s_{d} > s_{d}^{r}} / n,

p_{spd} = # {s_{spd} > s_{spd}^{r}} / n,

p_{lr} = # {s_{lr} > s_{lr}^{r}} / n,

对每一条生物通路，判断其在中心性指标下差异总得分的显著性。只要在度、最短路径中间性或最大传播距离三者中任意一个指标下生物通路的显著性超过阈值设定，便称此条生物通路是一条显著的生物通路。

实施例1

图4是实施例1产生的主要结果示意图，以表格的形式展现。本方法同时从多个中心性角度对每条生物通路的显著性进行判断，体现在在图中的表格里，每一行代表一条已知的生物通路，第一列是生物通路列表，图中所示的生物通路来自于PathwayInteraction Data base数据库，从第二列开始至第七列分别是在不同中心性指标下（依次为对照，入度，出度，最短路径中间性，入最大传播距离和出最大传播距离）生物通路的显著性，以p小于等于0.01为阈值。本方法规定，对于每一条生物通路，只要在一种中心性指标下显著的生物通路即可以称之为显著的生物通路，而在图中，这些显著的生物通路列在表格的顶部，并用深色的背景高亮（灰度加深部分）。

图5是生物通路在不同网络中心性下显著性的热图，这是图4的另外一种表现方式。图5中，每条生物通路在指定的中心性指标下的显著性用颜色的深浅表示，其中每行表示不同的中心性，列表示不同的生物通路，因此其中的某个方块便表示某条生物通路在某个中心性指标下的显著性，生物通路的名字列在热图的下方，中心性指标的名字列在热图的右侧。

实施例2

图6是生物通路差异性得分分布图。通过随机打乱原始的基因芯片数据构造随机数据，通过随机数据计算随机条件下生物通路在某个中心性指标下的差异性总得分，随机进行1000次，得到1000个随机的差异性总得分。图中所示的柱状图便是是1000次随机模拟中生物通路差异性总得分的分布，而箭头位置表示真实情况下生物通路的差异性总得分。通过此图可以判断生物通路差异性总得分的显著性。

实施例3

图7是某条生物通路差异变化的网络结构图。在图中，基因与基因的相互作用通过直接相连的边来表示，而边的方向表示的是相互作用的方向。图中节点的大小表示节点的重要程度，节点越大表示节点越重要。节点颜色的深浅表示节点差异表达的程度，节点的颜色越深表示节点中基因的差异表达越明显。通过此图可以直观的看到重要节点在生物通路中的地位和作用。

实施例4

有效性验证：采用本发明方法，本实施例被应用在一组公共的肝癌基因芯片的分析中。肝癌基因芯片数据来自于GEO数据库，ID号为GSE22058。本方法和传统方法相比，能够找到额外的8条显著生物通路，比传统方法提高了40%，并且本方法能够额外的找出显著生物通路中的重要基因，比如，本方法发现，在肝癌生成过程中，MAPK通路是关键通路，并且其中发挥重要的基因是下游的转录因子，如FOS，CDK5等，而这些是传统方法无法给出的。

重复性验证：采用本发明方法，本实施例中，在进行理论分析中，基于不同的网络中心性的分类，选取了12组，每组重复实验1000次，发现应用传统方法时,出现假阳性的比率较高，而我们的方法能够很好的控制假阳性。视所使用的中心性指标不同，与传统的方法相比，本实施例能够减少的假阳性率在40%到90%不等，如使用度作为中心性指标，可以降低40%的假阳性，而使用最大传播距离作为中心性指标，可以降低50%的假阳性。

本实施例方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的设备，不需要硬件上的任何改动，因而更加显示出本方法在具体实施中的兼容性，大大降低了方法在实践应用中的成本。

本发明提供了一种利用网络结构信息识别显著生物通路的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部份均可用现有技术加以实现。

Claims

1.一种利用网络结构信息识别显著生物通路的方法，其特征在于，包括以下步骤：

步骤（1），输入基因芯片数据，选择基因ID类型；

步骤（2），整理和使用公共的生物通路数据集，将基因芯片所含基因归属到所属已知的生物通路中；

步骤（3），使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分；

步骤（4），构建随机对照数据，计算每条生物通路的显著性p值；

步骤（5），对计算出的p值进行多假设检验的FDR控制，即对原始p值进行校正；

步骤（6），根据设定的修正后的p值的阈值，判断每条生物通路的显著性是否符合阈值要求，如果判断结果为否，则抛弃；如果判断结果为是，则输出识别结果。

2.根据权利要求1所述的一种利用网络结构信息识别显著生物通路的方法，其特征在于，步骤（3）中使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分具体包括以下步骤：

（11）将生物通路中的基因映射为网络节点；

（12）计算网络中心性指标；

（13）使用基因芯片数据判断网络节点被差异表达影响的程度；

（14）计算生物通路整体差异性的总得分。

3.根据权利要求2所述的一种利用网络结构信息识别显著生物通路的方法，其特征在于，步骤（12）中所述的网络中心性指标包括三种中心性值向量：

b)最短路径中间性：衡量经过一个节点的信息流数量，在网络结构中，衡量起枢纽作用的关键基因，定义为，

C_{spd} (v) = \underset{s &NotEqual; v &Element; V}{Σ} \underset{t &NotEqual; v &Element; V}{Σ} \frac{σ_{st} (v)}{σ_{st}},

c)最大传播距离：衡量节点信息所能传播或者接受的最远距离，在网络结构中，衡量基因所能调控的深度，具有方向性的，记为入最大传播距离

和出最大传播距离

计算方法为，

C_{lr}^{in} (v) = \max_{w &Element; V} {d (w, v)},

C_{lr}^{out} (v) = \max_{w &Element; V} {d (v, w)},

其中，d(w,v)是从节点w开始到节点v结束的最短路径长度，d(v,w)是从节点v开始到节点w结束的最短路径长度。

4.根据权利要求2所述的一种利用网络结构信息识别显著生物通路的方法，其特征在于，步骤（13）所述的使用基因芯片数据判断网络节点被差异表达影响的程度具体包括以下步骤：a）计算节点的表达值向量，如果节点只包含单个基因，则此节点的表达值向量为该基因的表达值向量；如果节点包含多个基因，则成员基因表达值矩阵的第一主成分作为该节点的表达值向量；b）计算每个节点的差异变化值：根据节点的表达值向量计算节点的差异变化值向量d。

5.根据权利要求3所述的一种利用网络结构信息识别显著生物通路的方法，其特征在于，步骤（14）所述的使用生物通路的网络结构信息和基因芯片的表达信息计算每个生物通路的差异性总得分，具体为依次计算在三种中心性指标下的生物通路的差异性总得分：

s=f(wd)，

其中，s是生物通路的差异性总得分，w为一条生物通路中节点在相应网络中心性指标下的中心性值向量，d为某条生物通路中节点差异变化值向量，f为对w和d向量乘积的最大值函数或者加和函数；使用度作为中心性指标时，最后的生物通路的差异性总得分记为s_d；使用最短路径中间性作为中心性指标时，最后的生物通路的差异性总得分记为s_spd；使用最大传播距离作为中心性指标时，最后的生物通路的差异性总得分记为s_lr。

6.根据权利要求5所述的一种利用网络结构信息识别显著生物通路的方法，其特征在于，步骤（4）中构建随机对照数据，计算每条生物通路的显著性p值，包括如下步骤：将原始的基因表达值矩阵随机打乱，基于打乱的数据使用步骤（3）计算随机条件下在度、最短路径中间性和最大传播距离三种中心性指标下生物通路的差异性总得分

和

p_{d} = # {s_{d} > s_{d}^{r}} / n,

p_{spd} = # {s_{spd} > s_{spd}^{r}} / n,

p_{lr} = # {s_{lr} > s_{lr}^{r}} / n,

7.根据权利要求6所述的一种利用网络结构信息识别显著生物通路的方法，其特征在于，步骤（6）中度、最短路径中间性和最大传播距离下的差异性总得分的显著性p值只要任意一个超过阈值，则判定该条生物通路为显著生物通路。