CN103514381A

CN103514381A - 整合拓扑属性和功能的蛋白质生物网络模体识别方法

Info

Publication number: CN103514381A
Application number: CN201310307364.XA
Authority: CN
Inventors: 骆嘉伟; 李光辉; 王伟胜; 江海; 刘智明; 蔡洁
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2014-01-15
Anticipated expiration: 2033-07-22
Also published as: CN103514381B

Abstract

本发明公开了一种整合拓扑属性和功能的蛋白质生物网络模体识别方法，本发明从模体的生物学意义出发，通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质相互作用的生物显著性，提出了一种整合拓扑属性和功能的蛋白质生物网络模体识别方法(Ecc-GOSS)。本发明实现简单，只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体，且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。

Description

整合拓扑属性和功能的蛋白质生物网络模体识别方法

技术领域

本发明属于系统生物学领域，涉及一种整合拓扑属性和功能的蛋白质生物网络模体识别方法。

背景技术

在后基因组时代，为更好地理解生物分子交互和运作的机制，功能基因组学研究的主要目标是识别和分析细胞环境中的分子相互作用。蛋白质相互作用是一种特定类型分子相互作用，在传送信号、构建分子机器、参与酶反应等生物过程中起着核心作用。近年来，随着高通量蛋白质组技术的发展，可获得的蛋白质相互作用数据迅速增长。蛋白质相互作用被构建为无向图(其中顶点对应蛋白质，边对应蛋白质之间的相互作用)有助于从网络水平上理解细胞机制的基本构件和组织。蛋白质相互作用网络类似于复杂网络，拥有小世界和无尺度等全局特性。而在2002年由R.Milo等首次提出的网络模体则是其中非常重要的一种局部性质，网络模体定义为一种在给定网络中频繁出现的连通子图，并且其出现的次数要多于在相应的随机网络中的次数，被认为是复杂网络的基本构件块。所以，有效地识别网络模体对预测蛋白质相互作用、预测关键蛋白质及解释特定的生物进程具有十分重要的意义。

网络模体发现的计算复杂度非常高，它涉及到子图的同构测试及需要产生大量的随机网络来确定子图的唯一性。现有的网络模体发现方法主要有精确的枚举法和近似的采样方法。穷尽递归搜索(ERS)、枚举子图(ESU)和紧凑的拓扑模体属于精确方法。边采样方法(ESA)、顶点采样方法(RAND-ESU)及树过滤搜索方法(NEMOFINDER)属于近似方法。最近，Kim等人首次定义生物网络模体为生物上具有显著性的小的连通子图，并指出传统结构上的网络模体不足以解释模体的生物意义，因为部分结构上的非模体也具有生物意义;为有效的发现生物网络模体，Kim提出了EDGEGO-BNM，EDGEBETWEENNESS-BNM，NMF-BNM，NMFGO-BNM和VOLTAGE-BNM五种方法，实验结果表明，基于蛋白质对的共同GO短语深度的EDGEGO-BNM方法和基于边介数的EDGEBETWEENNESS-BNM方法评价结果优于其他方法。

尽管Kim等提出的方法能较好的发现生物网络模体，但仍有几个挑战是研究者必须面对的。首先，目前每一个物种的蛋白质相互作用数据是不完整的;其次，蛋白质相互作用数据存在大量假阳性，特别是从大规模高通量实验得到的数据。对于假阳性，一般是通过使用不同的权重方法来评估相互作用的可靠性。此外，网络模体被认为是复杂网络的基本构件块，且树形结构的子图通常不是模体，那么网络模体中的相互作用是倾向于形成高密度连通的簇。

因此，有必要设计一种整合拓扑属性和功能的蛋白质生物网络模体识别方法。

发明内容

本发明所要解决的技术问题是提供一种整合拓扑属性和功能的蛋白质生物网络模体识别方法，该整合拓扑属性和功能的蛋白质生物网络模体识别方法只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体，且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。

发明的技术解决方案如下:

一种整合拓扑属性和功能的蛋白质生物网络模体识别方法，包括以下步骤:

1)建立蛋白质相互作用无向图:

输入一组蛋白质相互作用信息，过滤掉其中的重复相互作用和自相互作用，建立蛋白质相互作用无向图G；重复相互作用指一对蛋白质相互作用信息被记录了2次及以上【其被多种实验方法所证实而得到】；

其中，蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合；每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质；

2)计算蛋白质相互作用无向图G中每条边的生物显著性值;

3)将蛋白质相互作用无向图G中的每条边按照生物显著性值以非递减的顺序排序，删除最前的r条的边【即较小的生物显著性值的r条边】，得到图G';

4)采用ESU方法枚举图G'中所有k个顶点的导出子图，所有被查找到的子图即所要识别的生物网络模体，整个识别过程结束;

所述的ESU方法为枚举子图法。

所述的生物显著性值由下式计算:

p_{c} (u, v) = {[C_{u, v}^{(4)}]}^{α} \times {[{ss}^{*} (u, v)]}^{β};

其中α和β都是控制边聚集系数与语义相似性的相对重要性的参数，α和β分别取值为1和2【使查找到的子图在复合物与功能模块中都具有较高的比例】;

为边聚集系数，有

C_{u, v}^{(g)} = \frac{z_{u, v}^{(g)} + 1}{s_{u, v}^{(g)}};

ss(u，v)为语义相似性，有

ss (u, v) = \max_{c_{i} &Element; C_{u}, c_{j} &Element; Cv} ISM (c_{i}, c_{j});

通过调整参数r，使得在图G′中所查找到的子图数为原图G中子图数的30%;k取值为4和5，即查找顶点数为4和5的导出子图。

从计算角度来看，模体是相对于随机网络而言在真实网络中频繁出现的子图，而从生物学角度来看，模体是指生物网络中的基本构件块。这里参照Kim等提出的生物网络模体的定义，即生物网络模体的发现是尽可能的找到生物上具有显著性的小的连通子图，它不涉及子图的同构测试，也不需要产生大量的随机网络来进行子图的过表达测试。本发明通过在原网络中去掉一些生物上非显著的边来减少查询的子图数目同时增加了生物网络模体的发现比例。例如，如果去掉20%左右的边，那么原网络中的子图数将减少到30%。

该方法通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性，然后根据该值的大小去掉生物上非显著性的边。该方法的基本思想是:(1)生物网络模体的相互作用倾向于形成高密度连通的簇;(2)蛋白质对的GO语义相似性值越大，则两个蛋白质之间发生相互作用的概率越高。

事实上，在GO短语所表示的DAG图中，每一个短语可能有多条不同长度的路径到达根短语，因此，短语的深度不是一个精确的特异性的指标。而且，边介数是一种全局度量，所需的计算复杂度非常高。为了克服以上挑战，本发明提出了一种新的方法Ecc-GOSS:通过整合边聚集系数和GO短语的语义相似性来综合评价蛋白质相互作用的生物显著性，边聚集系数从拓扑结构上能有效地描述两个蛋白质共簇的概率，但它的有效性严重依赖于蛋白质相互作用网络的可靠性，为此，引入GO短语的语义相似性，它能从功能上有效评估蛋白质相互作用的可靠程度。该方法不仅提高了计算效率，而且对于存在的假阳性数据提高了鲁棒性。

有益效果:

本发明的整合拓扑属性和功能的蛋白质生物网络模体识别方法(Ecc-GOSS)，从模体的生物学意义出发，通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性，在拓扑属性和生物功能两方面得到了一个较好的融合。本发明实现简单，只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体，为进一步研究提供有价值的参考信息，且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。

实验证明，Ecc-GOSS有效地克服了生物网络中的假阳性数据，使查找到的子图在复合物与功能模块中都具有较高的比例，且相比于其他方法具有最高的GO短语聚类分数，具体实验参数和对比表详见实施例。

附图说明

图1是本发明Ecc-GOSS的流程图;

图2是蛋白质相互作用无向图实例;

图3是6种非同构的4顶点子图的形状和标签;

图4是6种方法在DIPCore netwrok中找到的4顶点的6种子图的相对频率;

图5是6种方法在Y2k网络中找到的4顶点的6种子图的相对频率。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明:

实施例1:

一、基于整合拓扑属性和功能的蛋白质生物网络模体识别模型

本发明将生物网络模体定义为:通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性，然后根据该值的大小去掉生物上非显著性的边，在剩余子图中查找到的小规模连通子图。

为了清晰描述基于整合拓扑属性和功能的蛋白质生物网络模体识别模型，发明人将该模型的相关定义如下:

这里提出了一个衡量蛋白质对的生物显著性值指标p_c，其表达形式如下:

p_{c} (u, v) = {[C_{u, v}^{(4)}]}^{α} \times {[{ss}^{*} (u, v)]}^{β}

其中，

代表4阶环边聚集系数，

代表蛋白质u和v的语义相似性。

基于整合拓扑属性和功能的蛋白质生物网络模体识别模型的目标是识别具有生物显著性的小规模连通子图。通过在原网络中去掉一些生物上非显著的边来减少查询的子图数目，同时增加了生物网络模体的发现比例。例如，如果去掉20%左右的边，那么原网络中的子图数将减少到30%。

基于整合拓扑属性和功能的蛋白质生物网络模体识别方法的整个流程如图1所示。首先输入一组蛋白质相互作用信息和相关基因本体论信息。方法Ecc-GOSS可以划分为6个子过程:

1)建立蛋白质相互作用无向图:输入一组蛋白质相互作用信息，过滤其中的重复相互作用和自相互作用，建立蛋白质相互作用无向图G(如图2所示);其中，蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合;每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质;重复相互作用指一对蛋白质相互作用信息被记录了2次及以上【其被多种实验方法所证实而得到】;

2)计算图G中每条边的边聚集系数;

3)计算图G中每条边的语义相似性;

4)计算图G中每条边的生物显著性值;

5)图G中的每条边按照生物显著性值以非递减的顺序排序，去掉前r条较小的边【即较小的生物显著性值的r条边】，得到图G';

6)采用ESU方法枚举图G'中所有k个顶点的导出子图，所有被查找的子图即所要识别的生物网络模体，整个识别过程结束。

二、基于整合拓扑属性和功能的蛋白质生物网络模体识别方法有效性验证

为了验证方法Ecc-GOSS的有效性，将Ecc-GOSS方法应用于两个酵母蛋白质相互作用数据集，一个来源于相互作用的蛋白质数据库(DIP，Database of Interacting Proteins)，使用的是酵母20101010版本的核心数据集，记为DIP Core netwrok，去掉自相互作用和冗余的相互作用后总共包括2158个蛋白质和4301个相互作用;另一个来源于高通量的实验数据，使用其中的2455个高置信度水平的相互作用，总共含有988个蛋白质，通常称为Y2k网络。由于这个网络是一个大规模图，因此只限于考虑大小为4和5的子图。将方法Ecc-GOSS与ESU、RAND-ESU、MFINDER、EDGEGO-BNM和EDGEBETWEENNESS-BNM等5个方法在预测生物网络模体的包含在复合物中的比例、包含在功能模块中的比例及GO短语聚类分数等方面进行了比较。此外，在本实例中，还分析了参数α、B的设置对方法结果的影响及生物网络模体与结构网络模体的关系。

模体包含在复合物

若一个己知蛋白质复合物包含了子图g的所有顶点，则称子图g被包含在蛋白质复合物中。‘模体包含在复合物中的比例'定义为包含在复合物中的子图数与全部发现的子图数之比。

模体包含在功能模块

类似于上面的方法，若一个己知蛋白质功能模块包含了子图g的所有顶点，则称子图g被包含在蛋白质功能模块中。‘模体包含在功能模块中的比例'定义为包含在功能模块中的子图数与全部发现的子图数之比。

在具体实验中，使用具有蛋白质功能注解的MIPS(Munich Information Center for Protein Sequences:ftp://ftpmips.gsf.de/yeast/)中CYGD(Comprehensive Yeast Genome Database)数据库中的数据集。用于分析和比较的蛋白质复合物列表选用complexcat_data_l8052006，功能注解表选用funcat_2.1_data_20070316.

GOterm聚类分数

使用超几何聚集分布来计算子图g中某个GO短语的p-value，如下所示

p - value = 1 - Σ_{i = 0}^{k - 1} \frac{(\begin{matrix} M \\ i \end{matrix}) (\begin{matrix} N - M \\ n - i \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})}

其中N为背景分布中的蛋白质数，这里使用SGD(Saccharomyces Genome Database:http://genome-www.stanford.edu/Saccharomyces/)数据库中的蛋白质的GO注释，M为背景分布中注释了该GOterm的蛋白质数，n为所分析的子图g的大小，k为该子图中标注了该GOterm的蛋白质数。

因为GO短语由BP、MF、CC三个相对独立的本体组成，因此需分别计算子图g在这三个域中的p-value。子图g在一个域中的p-value为该子图所注释的该域中的GO term中的最小p-value。参照先前的p-value阀值设置，当子图g的p-value＜0.1时，才认为该子图是显著性的。

采用GO::Termfinder软件包来计算子图的p-value(withBonferroni corrected)，但该软件包一次只能处理一个子图，因此使用Perl语言开发了一个过程来批量处理多个子图。

为评估方法找到的所有子图的生物显著性，计算聚类分数:

clusteringscore = 1 - \frac{Σ_{i = 1}^{n_{s}} \min (pi) + (ni \cdot cutoff)}{(n_{s} + n_{i}) \cdot cutoff}

其中n_s为显著性子图的数，n_i为非显著性子图数，min(pi)为显著性子图的最小p-value(i=1to n_s)

1.方法Ecc-GOSS与其他方法比较结果分析

表1:DIP Core network中4顶点生物网络模体的结果

为产生30%子图，在Ecc-GOSS方法中参数r＝861，(α，β)＝(1，2)

表2:DIP Core network中5顶点生物网络模体的结果

为产生30%子图，在Ecc-GOSS方法中参数r＝517，(α，β)＝(1，2)

表3:Y2k network中4顶点生物网络模体的结果

为产生30%子图，在Ecc-GOSS方法中参数r＝884，(α，β)＝(1，2)

表4:Y2k network中5顶点生物网络模体的结果

为产生30%子图，在Ecc-GOSS方法中参数r＝794，(α，β)＝(1，2)

使用ESU方法枚举所有大小为4或5个顶点的子图，而所有其他方法通过调整参数，产生大约30%的子图。表1比较了6种方法在DIP Cofe network中发现4顶点生物网络模体的性能，每种评价方法的最好结果在表中使用粗体标记，可以看到，EDGEBETWEENNESS-BNM方法对于‘模体包含在复合物中的比例'指标值最高，而Ecc-GOSS方法在其它几个性能指标上要优于其他方法，特别是在GO聚类分数的三个指标上。该实验结果表明，相比于蛋白质对的共同GO深度，蛋白质对的GO短语语义相似性更具有生物显著性。在表2给出了5个顶点的生物网络模体的结果，类似于表1中的结果，除了‘模体包含在复合物中的比例'指标外，Ecc-GOSS方法在其它的指标上得到了最好的结果。

同样在Y2k网络中，使用上述6种方法查找生物网络模体。表3和表4分别给出了4个顶点和5个顶点的生物网络模体的结果。与在DIP Core network中的结果一致，相比于其他方法，Ecc-GOSS方法总体上的性能是最好的。且从实验结果可以看到，相比于EDGEGO-BNM方法，Ecc-GOSS方法在‘模体包含在功能模块中的比例'指标上有一定的下降，但在‘模体包含在复合物中的比例'指标上得到了提高，这在一定程度上是由于Ecc-GOSS方法整合了拓扑结构信息和生物信息的结果。因为拓扑属性有利于提高‘模体包含在复合物中的比例'，正如EDGEBETWEEMqESS-BNM方法在该指标上明显优于其他方法。这也意味着通过使用网络的拓扑结构信息(如边介数、边聚集系数等)来发现蛋白质复合物是可行的。

2.参数α、β的设置对方法结果的影响

表5:α、β的不同组合对DIPCorenetwork中4顶点生物网络模体的结果影响

α反映边聚集系数对相互作用的生物显著性的相对重要程度，β反映蛋白质对的GO语义相似性对相互作用的生物显著性的相对重要程度。α、β的不同组合对方法的结果有很大的影响，表5给出了α、β的不同组合对DIP Core network中4顶点生物网络模体的结果影响。可以看到，当(α，β)＝(1，0)时，即仅考虑边聚集系数的作用，得到的子图包含在复合物中的比例是最高的，而其余指标值是最低的;但随着β的增加，即考虑增加蛋白质对的GO语义相似性的作用时，得到的子图包含在复合物中的比例在逐渐减少，而其余指标值在逐渐增加，反之亦然。同时该实验结果进一步表明，利用拓扑结构信息可以发现蛋白质复合物，而整合GO注释信息有利于发现蛋白质功能模块。

3.生物网络模体与结构网络模体的关系

表6：DIP Core network中4顶点的6种子图统计特性

表7:Y2knetwork中4顶点的6种子图统计特性

表8:DIPCorenetwork中4顶点的6种子图的相对频率

方法	C～	C^	CN	Cr	CF	CR
							ESU	0.01	0.10	0.49	0.00	0.00	0.39
RAND-ESU	0.01	0.10	0.50	0.00	0.00	0.39
							MFINDER	0.04	0.20	0.38	0.02	0.01	0.35
EDGEGO-BNM	0.04	0.18	0.40	0.01	0.01	0.36
							EDGEBW-BNM	0.04	0.19	0.45	0.02	0.01	0.29
Ecc-GOSS	0.04	0.19	0.38	0.01	0.01	0.37

表9:Y2knetwork中4顶点的6种子图的相对频率

方法	C～	C^	CN	Cr	CF	CR
							ESU	0.05	0.09	0.33	0.01	0.20	0.33
RAND-ESU	0.05	0.09	0.32	0.00	0.20	0.34
							MFINDER	0.12	0.17	0.37	0.01	0.14	0.19
EDGEGO-BNM	0.06	0.12	0.36	0.01	0.15	0.30
							EDGEBW-BNM	0.14	0.22	0.37	0.01	0.13	0.14
Ecc-GOSS	0.07	0.12	0.35	0.01	0.15	0.30

在考察生物网络模体与结构网络模体的关系，通过使用FANMOD软件分别得到DIP Core network、Y2k网络中的每一种4顶点的类型子图的统计特性，具体见表6、表7。第一列为每一种子图的标签，第二列为在原网络中每一种子图的频率，第三、四列分布为与原网络具有相同度分布的1000个随机网络的平均频率和标准差。最后两列的Z-score和P-value给出了每一种类型子图的结构统计性。当一类子图的Z-score大于2.0或者它的P-value小于0.01，则其为一个结构上的网络模体。图4、图5分别显示了以上6种方法在DIP Core network、Y2k网络中找到的4顶点的6种子图的相对频率，其中水平轴列出了6种类型子图，纵轴给出了它的相对频率，具体频率值分别见表8、表9。从图中可以明显看到，尽管除了ESU方法，所有其它方法只产生30%的子图，但每一种子图的相对频率与ESU所得到的是相近的。这表明Ecc-GOSS方法也适用于找到结构网络模体。

Claims

1.一种整合拓扑属性和功能的蛋白质生物网络模体识别方法，其特征在于，包括以下步骤：

1)建立蛋白质相互作用无向图：

输入一组蛋白质相互作用信息，过滤掉其中的重复相互作用和自相互作用，建立蛋白质相互作用无向图G；重复相互作用指一对蛋白质相互作用信息被记录了2次及以上；

其中，蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合；

每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质；

2)计算蛋白质相互作用无向图G中每条边的生物显著性值；

3)将蛋白质相互作用无向图G中的每条边按照生物显著性值以非递减的顺序排序，删除最前的r条的边，得到图G’；

4)采用ESU方法枚举图G′中所有k个顶点的导出子图，所有被查找到的子图即所要识别的生物网络模体，整个识别过程结束；

所述的ESU方法为枚举子图法。

2.根据权利要求1所述的整合拓扑属性和功能的蛋白质生物网络模体识别方法，其特征在于，所述的生物显著性值由下式计算：

p_{c} (u, v) = {[C_{u, v}^{(4)}]}^{α} \times {[{ss}^{*} (u, v)]}^{β};

其中α和β都是控制边聚集系数与语义相似性的相对重要性的参数，α和β分别取值为1和2；

为边聚集系数，有

C_{u, v}^{(g)} = \frac{z_{u, v}^{(g)} + 1}{s_{u, v}^{(g)}};

ss(u，v)为语义相似性，有

ss (u, v) = \max_{c_{i} &Element; C_{u}, c_{j} &Element; Cv} ISM (c_{i}, c_{j});

3.根据权利要求1或2所述的整合拓扑属性和功能的蛋白质生物网络模体识别方法，其特征在于，通过调整参数r，使得在图G’中所查找到的子图数为原图G中子图数的30％；k取值为4和5，即查找顶点数为4和5的导出子图。