CN106355044A

CN106355044A - 基于随机游走模型的蛋白质复合物识别方法

Info

Publication number: CN106355044A
Application number: CN201610669027.9A
Authority: CN
Inventors: 林志杰
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2017-01-25

Abstract

本发明提供的一种基于随机游走模型的蛋白质复合物识别方法借助于随机游走算法来预测蛋白质网络上真正存在的相互作用数据，那些假阴性或者假阳性的噪声数据。在去掉假阴性、假阳性这些噪声数据的蛋白质相互作用网络上，本发明定义H‑index图模型来识别具有生物意义的蛋白质复合物，最后根据GO本体计算蛋白质复合物之间的语义相似性，最终确定所识别的蛋白质复合物。本发明提供的算法对输入参数不敏感，通过实验验证了提出算法的有效性。

Description

基于随机游走模型的蛋白质复合物识别方法

技术领域

本发明涉及一种去除蛋白质相互作用网络上假阴性或者假阳性的噪声数据，从而预测蛋白质网络上真正存在相互作用的数据的方法。

背景技术

在后基因时代，蛋白质再一次成为生物科学家们的研究热点，全基因组的序列信息并不能充分地解释及推测细胞的各种生命现象，蛋白质才是细胞活性及功能的最终执行者。因此，识别出细胞中各种蛋白质之间的相互作用有利于理解生物细胞中的各种生理过程。迄今为止，已经有很多实验的方法用于识别蛋白质的相互作用，这些方法大致分为两类：小规模(低通量)方法、大规模(高通量)方法。

在蛋白质网络较大时，需要检测的蛋白质对数量也会非常庞大，如采用小规模(低通量)方法来检测相互作用，所耗费的时间和资源都非常巨大，所以这时一般采用大规模(高通量)方法来识别蛋白质的相互作用。但是与小规模(低通量)方法相比，大规模(高通量)方法识别出的数据集更容易出现错误，其可靠性相对较低。这些错误分为两种：假阳性(falsePositive，FP)和假阴性(False Negative，FN)。假阳性是指实验检测出两个蛋白质间存在相互作用而在真实的蛋白质网络中并不存在的相互作用；假阴性是指实验没有检测出来而真实的蛋白质网络中却存在的相互作用。在用大规模(高通量)方法检测出来的数据集中，这两种错误出现的概率相差很大，其中绝大部分(甚至高达92.5％)错误是假阴性。

蛋白质互作网络PPI发展至今，蛋白质数据的量不高是研究人员面临的普遍问题。应用不同的试验方法得到蛋白质相互作用数据的数据质量差异性很大，即便是应用相同的试验方法，不同条件不同的实验人员得到的相互作用数据也不尽相同，因此所获得的数据噪声较多，存在大量的假阴性、假阳性数据。所以一般认为，通过大规模(高通量)方法获得的数据集中，蛋白质间如果不存在相互作用，在一定程度上不能说明该相互作用在真实的蛋白质互作网络PPI中不存在，而更可能的是实验没有检测出这个相互作用。因此非常有必要设计具有针对性、能更相互作用也是亟待考虑的问题。

目前，主流蛋白质互作网络PPI的模块识别研究已经取得了阶段性的成果，提出了众多有使用价值的模块识别算法，所以在基于蛋白质拓扑结构识别蛋白质功能模块方面，已经积累了很多蛋白质复合物识别的宝贵经验，揭示了很多具有重要生物意义的蛋白质复合物，解释许多不为人知的生命过程和生命现象。但目前现阶段的研究仍没达到全面、系统地解释生命现象的要求，因此需要进一步深入研究。主要面临如下问题：

目前主流的蛋白质复合物识别算法，通过识别蛋白质网络中的全联通图或者是极大团的方法来识别蛋白质复合物，或者定义新颖的图模型结构(如H-index)来进行识别。但是由于目前能够识别的蛋白质相互作用不全，而且已经构建的蛋白质互作网络PPI还存在假阴性和假阳性的相互作用，仅通过挖掘全联通图来识别蛋白质复合物存在很大的局限性。

另外，这些单纯的依据蛋白质互作网络PPI的拓扑结构特征来进行模块识别，把网络中的稠密子图(Dense Subgraph，DS)作为所要找寻的蛋白质复合物或功能模块，这些算法存在的一个共同的缺点：由于蛋白质模块中的所有蛋白质在生物系统中共同完成某种生物功能，而这样的模块并非与蛋白质互作网络PPI中的稠密子图一一精确一致对应，所以单纯的依据拓扑结构特征进行模块识别，识别会影响到后期蛋白质功能预测的精度及可信度。因此，如何在考虑蛋白质网络拓扑结构特征的基础上，确定性地衡量网络中的稠密子图的功能意义是一个急需解决的问题。

发明内容

本发明的目的是解决蛋白质数据集中包含假阴性和假阳性噪声数据的问题，并克服利用图模型寻找蛋白质复合物结构固定的局限性。

为了达到上述目的，本发明的技术方案是提供了一种基于随机游走模型的蛋白质复合物识别方法，其特征在于，包括以下步骤：

第一步、对整个加权的蛋白质相互作用网络进行重启型的随机游走，实现各蛋白质节点按照对蛋白质相互作用网络的重要性进行排序，将不重要的蛋白质结点过滤掉，保留重要的蛋白质结点，形成新的蛋白质相互作用网络；

第二步、通过蛋白质复合物模型，在第一步得到的蛋白质相互作用网络上使用HPCMiner算法找到所有的蛋白质复合物；

第三步、计算各蛋白质复合物中各蛋白质之间的相似性，对于当前蛋白质复合物而言，若两个蛋白质间的相似性大于预先设定的阈值一，则认为当前两个蛋白质之间存在相互作用，保留在当前蛋白质复合物的内部，否则，认为当前两个蛋白质之间不会发生相互作用，即被认定为假阳性，过滤出当前蛋白质复合物，其中，任意两个蛋白质间的相似性通过两个蛋白质的GO注释短语间的语义相似性来计算。

优选地，在所述第一步中，随机游走的过程根据PageRank算法得到。

优选地，所述第一步包括以下步骤：

步骤1、加权的蛋白质相互作用网络有N个蛋白质节点，用无向图G来表示蛋白质相互作用网络，G＝(V，E，W)，式中，V是无向图G中顶点的集合，V＝{v₁，v₂，…，v_n，…，v_N}，v_n为无向图G中第n个顶点，对应蛋白质相互作用网络中的第n个蛋白质节点，E是无向图G中边的集合，E＝{□v_i，v_j□|v_i，v_j∈V}，每条边对应两个蛋白质节点之间的相互作用，W是蛋白质节点相互作用边上的权值；

步骤2、用邻接矩阵A来描述无向图G，对于邻接矩阵A中第i行第j列的元素a_ij而言，若无向图G中第i个蛋白质节点与第j个蛋白质节点之间有相互作用，且作用权值为w_ij，则a_ij＝w_ij，若无向图G中第i个蛋白质节点与第j个蛋白质节点之间无相互作用，则a_ij＝0；

步骤3、计算对角矩阵D，对角矩阵D中第i行第i列元素d_ii的值为邻接矩阵A中位于第i列的所有元素的值的和；

步骤4、计算概率转移矩阵T_Γ，概率转移矩阵T_Γ第i行第j列元素t_ij的值为在蛋白质相互作用网络上随机游走时从第i个蛋白质节点跳转至第j个蛋白质节点存在的概率，T_Γ＝D□1A；

步骤5、用p^t表示从当前蛋白质节点开始，在t时刻可能跳转至所有其他蛋白质节点的概率分布，则通过公式p^t+1＝(1-α)p^tT_Γ+αp⁰迭代计算p^t，直到p^t停止改变或收敛为止，式中，p⁰为预先设定的单位向量，α∈(0，1]为重启概率；

步骤6、根据步骤5计算得到的p^t对所有蛋白质节点进行降序或升序排列，排在最前或最后的多个蛋白质节点为重要的蛋白质结点，从而形成新的蛋白质相互作用网络。

优选地，在所述第三步中，任意两个蛋白质间的相似性的计算方法包括以下步骤：

得到两个蛋白质的GO注释短语组成的两个矩阵，计算两个矩阵中每一对GO注释短语的相似性，将获得的相似性中的最大值作为当前两个蛋白质间的相似性，或将获得的相似性的平均值作为当前两个蛋白质间的相似性，或将获得的所有大于预先设定的阈值二的所有相似性的平均值作为当前两个蛋白质间的相似性。

本发明借助于随机游走算法来预测蛋白质网络上真正存在的相互作用数据，那些假阴性或者假阳性的噪声数据。在去掉假阴性、假阳性这些噪声数据的蛋白质相互作用网络上，本发明定义H-index图模型来识别具有生物意义的蛋白质复合物，最后根据GO本体计算蛋白质复合物之间的语义相似性，最终确定所识别的蛋白质复合物。本发明提供的算法对输入参数不敏感，通过实验验证了提出算法的有效性。

附图说明

图1为蛋白质加权网络计算示例图；

图2为蛋白质加权网络随机游走示意图；

图3为本发明的算法流程图；

图4(a)及图4(b)为蛋白质互作网络Yeast，Human复合物分析结果图；

图5(a)及图5(b)为蛋白质互作网络Mouse，Rat复合物分析结果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

结合图3，本发明涉及一种基于随机游走模型的蛋白质复合物识别方法，包括以下步骤：

第一步、对整个加权的蛋白质相互作用网络进行重启型的随机游走，实现各蛋白质节点按照对蛋白质相互作用网络的重要性进行排序，将不重要的蛋白质结点过滤掉，保留重要的蛋白质结点，形成新的蛋白质相互作用网络。

蛋白质相互作用网络可以用无向图G来表示，通常表示为G＝(V，E，W)式中，V是无向图G中顶点的集合，V＝{v₁，v₂，…，v_n，…，v_N}，v_n为无向图G中第n个顶点，对应蛋白质相互作用网络中的第n个蛋白质节点，E是无向图G中边的集合，E＝{□v_i，v_j□|v_i，v_j∈V}，每条边对应两个蛋白质节点之间的相互作用，W是蛋白质节点相互作用边上的权值。

根据蛋白质之间的相互作用关系，无向图G可以使用邻接矩阵A来描述。对于邻接矩阵A中第i行第j列的元素a_ij而言，若无向图G中第i个蛋白质节点与第j个蛋白质节点之间有相互作用，且作用权值为w_ij，则a_ij＝w_ij，若无向图G中第i个蛋白质节点与第j个蛋白质节点之间无相互作用，则a_ij＝0。

例如对于如图1所示的蛋白质加权网络，其邻接矩阵可以表示为：

A = [\begin{matrix} 0 & 0.8 & 0 & 0 & 0.6 & 0 & 0.9 & 0 \\ 0.8 & 0 & 0.9 & 0.7 & 0 & 0 & 0 & 0 \\ 0 & 0.9 & 0 & 0.6 & 0.2 & 0.4 & 0 & 0 \\ 0 & 0.7 & 0.6 & 0 & 0 & 0.3 & 0 & 0 \\ 0.6 & 0 & 0.2 & 0 & 0 & 0.1 & 0 & 0 \\ 0 & 0 & 0.4 & 0.3 & 0.1 & 0 & 0 & 0.9 \\ 0.9 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0.9 & 0 & 0 & 0 \end{matrix}] - - - (1)

同时，本发明还定义一个对角矩阵D，对角矩阵D中第i行第i列元素d_ii的值为邻接矩阵A中位于第i列的所有元素的值的和。

对于式(1)表示的邻接矩阵A，其对角矩阵D表示为：

D = [\begin{matrix} 2.3 \\ 2.4 \\ 2.1 \\ 1.6 \\ 1.8 \\ 0.8 \\ 0.9 \\ 0.9 \end{matrix}] - - - (2)

在对蛋白质网络进行随机游走的时候，从从第i个蛋白质节点跳转至第j个蛋白质节点存在一定的概率，从而可以定义一个概率转移矩阵T_Γ，T_Γ＝D□1A，显然概率转移矩阵T_Γ是一个行归一化的邻接矩阵。

对于式(2)表示的对角矩阵D及式(1)表示的邻接矩阵A，计算得到概率转移矩阵T_Γ为：

T_{Γ} = [\begin{matrix} 0 & \frac{8}{24} & 0 & 0 & \frac{6}{18} & 0 & 1 & 0 \\ \frac{8}{23} & 0 & \frac{9}{21} & \frac{7}{16} & 0 & 0 & 0 & 0 \\ 0 & \frac{9}{24} & 0 & \frac{6}{16} & \frac{2}{18} & \frac{4}{8} & 0 & 0 \\ 0 & \frac{7}{24} & \frac{6}{21} & 0 & 0 & \frac{3}{8} & 0 & 0 \\ \frac{6}{23} & 0 & \frac{2}{21} & 0 & 0 & \frac{1}{18} & 0 & 1 \\ 0 & 0 & \frac{4}{21} & \frac{3}{16} & \frac{1}{8} & 0 & 0 & 0 \\ \frac{9}{23} & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & \frac{9}{18} & 0 & 0 & 0 \end{matrix}] - - - (3)

用p^t表示从当前蛋白质节点开始，在t时刻可能跳转至所有其他蛋白质节点的概率分布，则通过公式(4)迭代计算p^t，直到p^t停止改变或收敛为止：

p^t+1＝(1-α)p^tT_Γ+αp⁰ (4)

式(4)中，p⁰为预先设定的单位向量，表示初始向量，α∈(0，1]为重启概率，即随机游走过程中会以α的概率回到原点。

显然，公式(4)是基于马尔科夫链的，而有限状态马尔科夫链的平稳分布是存在的，所以蛋白质网络上的随机游走过程转化为了一个寻找蛋白质网络上所有蛋白质结点的概率的稳定分布的过程。本发明通过这个随机游走的过程得到的p^t向量也称为马尔科夫链的一个稳定分布，或者该马尔科夫链的不便测度。这个随机游走的过程其实是根据经典的PageRank算法得到。

已知PageRank算法通过网页网络的拓扑特性在全网络中对网页的重要性进行排序，并且该算法在网页搜索中已经取得了很广泛的应用。那么，这种随机游走模型在其他网络，比如蛋白质相互作用网络中会有不错的作用。

本发明根据计算得到的p^t对所有蛋白质节点进行降序或升序排列，排在最前或最后的多个蛋白质节点为重要的蛋白质结点，从而形成新的蛋白质相互作用网络。

在第一步中，本发明用蛋白质加权网络上随机游走方法，对加权网络上的蛋白质节点的重要性进行排序，进行第一次蛋白质相互作用数据中的假阳性过滤。通过加权网络上的随机游走，过滤掉一些不重要的蛋白质结点，挑选出重要的蛋白质结点，并根据这些重要的蛋白质结点恢复原来的网络上的相互作用关系。

此次蛋白质相互作用网络预测的过程如图2所示。在经过随机游走的蛋白质相互作用网络执行一次蛋白质网络相互作用过滤。

第二步、通过蛋白质复合物模型，在第一步得到的蛋白质相互作用网络上使用HPCMiner算法找到所有的蛋白质复合物。但是进行这一步还没完成最终要找到的蛋白质复合物。在下一步中，本发明通过使用基因本体GO语义相似性过滤方法，对初步形成的蛋白质复合物内部做蛋白质相互作用的假阳性过滤，来最终确认蛋白质相互作用网络上的复合物的构成。

本发明通过GO语义相似性过滤方法执行蛋白质复合内部的假阳性过滤，采用Wang等定义的术语语义相似性度量方法。这种方法首次考虑了两类语义类型关系“is-a”和“part-of”对术语语义的影响，将这两种关系对术语语义的贡献进行了量化，比如如果两个术语的关系是“is-a”，则对这两个语义相似性的贡献度是0.8，如果两个术语之间的关系是“part-of”，则语义相似的贡献度为0.6。该语义相似度度量方法从这个特定(具体)GO术语开始到其所在的本体根节点(MF，BP或CC)结束的有向无环图DAG来表示。

为了叙述语义相似性定义公式方便，本发明用有向无环图DAG的术语对方法进行描述，将GO术语A表示为DAGA＝(TA，EA)，其中，TA为DAGA中所有的GO术语集合，即包括术语A以上直到根节点ROOT所有的祖先术语的集合，EA表示DAGA中所有的边的集合，即所有语义关系的集合。为了对DAGA中所有GO术语对术语A的语义贡献进行量化，定义术语A的语义值为所有祖先结点语义值的和(根据GO术语的层次结构，术语A的语义是继承其所有祖先结点的语义，满足继承原则)。越靠近术语A的词汇，对术语A的贡献越大，反之距离术语A的距离越远则贡献值越小。关于术语A的继承术语t的量化贡献语义值为S_A(t)，用公式(5)表示为：

\{\begin{matrix} s_{A} (t) = 1 & t = A \\ s_{A} (t) = \max {w_{e} \times S_{A} (t^{'}) t &Element; c h i l d r e n o f (t)} & t &NotEqual; A \end{matrix} - - - (5)

公式(5)中，w_e是连接术语A与术语t的边e的贡献因子，childrenof(t)返回的是术语t的直接孩子结点，S_A(t′)是术语A的继承术语t’的量化语义值。Wang通过大量实验得出“is-a”的理想取值为0.8，而“part-of”语义关系取值为0.6或0.7。在DAGA中，术语A是最特殊的术语，定义术语A对其自身的语义贡献值为1。图DAGA中的其他术语比术语A概化，因此其贡献值都比术语A小。对于有0＜w_e＜1的限制，在获取到图DAGA中所有术语的SA(t)后，可以按照公式(6)计算术语A包含的语义值SV(A)：

S V (A) = \underset{t &Element; T_{A}}{Σ} S_{A} (t) - - - (6)

公式(6)中T_A是术语A的继承术语集合。

已知对于术语A和术语B对应的DAGA＝(TA，EA)和DAGB＝(TB，EB)，采用公式(7)定义两个术语间的语义相似性S_Go(AB)：

S_{G O} (A B) = \frac{{ΣL}_{t &Element; T_{A} \cap T_{B}} (S_{A} (t) + S_{B} (t))}{S V (A) + S V (B)} - - - (7)

在公式(7)中，S_B(t)是术语B的继承术语t的量化贡献语义值，SV(B)是术语B包含的语义值，T_B是术语B的继承术语集合。后来，Wang通过结合注释基因术语对的相似性定义，得到了基因G₁与基因G₂间的功能相似性S_Wang(G₁G₂)计算公式(8)：

S_{W a n g} (G_{1} G_{2}) = \frac{Σ_{{go}_{1} &Element; G_{1}} s ({go}_{1}, G_{2}) + Σ_{{go}_{2} &Element; G_{2}} s ({go}_{2}, G_{1})}{| G_{1} | + | G_{2} |} - - - (8)

式(8)中，go1是基因G1的基因编码片段，go2是基因G2的基因编码片段，s(go₁，G₂)是go1在G1中相对应G2位置基因编码的相似度，s(go₂，G₁)是go2在G2中相对应位置G1位置基因编码的相似度。

Wang等利用其基因本体定了了两个GO术语之间的语义相似性，并开发了基于网页的计算工具G-SESAME。本发明正是利用G-SESAME通过计算两个GO术语之间的相似性，进而从生物功能层面衡量两个蛋白质之间的相似性，并与规定阈值比较，用于过滤蛋白质复合物中假阳性相互作用，对识别到的蛋白质复合物做进一步的过滤检查，以保证得到的蛋白质复合物的生物功能和有效性。

需要说明的是GO组织者提供了包括酵母、蠕虫、人类等物种蛋白的GO注释信息。这样计算蛋白质之间的相似性时，就可以通过蛋白质的GO注释短语间的语义相似性来计算。例如这里有A和B分别用PA和PB来表示，PA的生物过程(BP)、分子功能(MF)、细胞组分(CC)分别用NBP(PA)、NMF(PA)、NCC(PA)来表示。现在暂时只考虑CC的情况，PA被五个CC短语NCC(PA)＝{Nal，Na2，Na3，Na4，Na5}，PB被六个MF短语NMF(PB)＝{Nb1，Nb2，Nb3，Nb4，Nb5，Nb6}注释。那么蛋白质PA和PB之间的相似程度，可以由这两个蛋白质包含的注释短语间的5×6的矩阵中每一对短语的语义相似性来得到。

通过矩阵中每对蛋白质注释短语的语义相似性值来计算蛋白质之间相似性的方法很多，通常考虑的方法有：矩阵中所有相似性值的最大值；矩阵中所有相似性值的平均值；矩阵中所有大于一定阈值的相似性值的平均值等。本发明直接取相似性值中的最大值作为蛋白质之间的相似性值。

若两个蛋白质之间的相似性越大，表示两个蛋白质之间发生或者具有相互作用的可能性越大。反之，两个蛋白质相似性的值越小，则两个蛋白质之间发生或者具有相互作用的可能性相应的也就越小。本发明通过设定阈值，衡量蛋白质复合物内部相互作用的存在合理性，如果蛋白质之间的相似性阈值大于某个值，则认为蛋白质之间相互作用存在合理，便保留在蛋白质复合物的内部；否则，如果蛋白质之间的语义相似度没有达到指定的阈值，则认为蛋白之间不会发生相互作用，即被认定为假阳性过滤出蛋白质复合物。

实验结果与分析

本部分通过实验结果的分析，验证了本发明算法的有效性、实用性和正确性。首先介绍实验所使用的蛋白质相互作用数据的详细信息；其次介绍实验验证的结果评价标准及其所代表的含义。最后使用相关评价标准评估本文提出蛋白质复合物识别算法的有效性。

1)实验数据

由于目前蛋白质相互作用数据较多，质量参差不齐，所以本研究采用目前使用较多，比较受研究人员关注的数据。本发明一共采用四个蛋白质相互作用数据：Yeast、Human、Mouse、Rat，数据集均为有权的蛋白质相互作用网络。这四个蛋白质相互作用数据集是从DIP蛋白质相互作用数据库下载获取。

同样，本发明还利用Graphweb工具。Graphweb工具是一个公共的基于图分析数据的生物网络web服务器，也是一个生物网络图数据分析工具，该生物工具可以分析包括基因、蛋白质和基因表达微阵列数据等有向生物网络、无向生物网络、加权网络、无权网络生物数据集。在实验中，将四个生物数据集经过处理，得到GraphWeb可以识别的规定的数据格式，利用该实验工具，分别上传四个生物蛋白质相互作用数据集包括human、mouse、rat和yeast，得到每个蛋白质互作网络的结点(nodes)、边(edges)、边密度(Edge Density，ED)和结点的平均度密度(Average node Degree，AveD)信息，来了解和认识这些生物网络的特征，详细的统计信息见下表：

	Nodes	Edges	ED	AveD
					Yeast	1982	6838	0.3％	6.4
Human	15327	6838	0.3％	6.4
					Mouse	7766	6838	0.3％	6.4
Rat	5474	33673	0.2％	12.3

2)实验结果展示

本发明提出的算法(简称为RWSPFinder)对四个蛋白质互作网络数据集Yeast、Human、Mouse、Rat进行蛋白质复合物识别，最终在四个数据集上得到的蛋白质复合物数量分别是369个、1646个、344个、65个。为了清晰的表达蛋白质复合物的识别结果，将识别出的酵母蛋白质网络的复合物数量分为几组，进行统计分析。对于四个蛋白质互作网络，对RWSPFinder算法识别出蛋白质复合物个数做分段统计，在这些蛋白质复合物中包含蛋白质数量大于100个的为Agroup，大于50小于100个蛋白质的蛋白质复合物为Bgroup，大于30个蛋白质小于50个蛋白质的蛋白质复合物为Cgroup，大于2个蛋白质小于30个蛋白质的蛋白质复合物为Dgroup。

从这个统计结果也证实了酵母蛋白质网络仅有几个很大的簇，约96.02％的蛋白质复合物包含的蛋白质个数都小于30。这也意味着通过我们的模型和算法得到的蛋白质复合物的大小在2到30正常的范围之内。在Human数据集上，所有寻找到的蛋白质复合物中包含蛋白质个数都小于30的达到97.93％，而在Mouse数据集上，蛋白质复合物包含的蛋白质个数小于30的几乎达到99％，在Rat数据上的比率竟然几乎达到100％。

在本发明中，对每个蛋白质复合物都计算比例此Rcp，根据设定的不同的P-value阈值测量出的所有蛋白质复合物的P-value，根据所统计的P-value的平均值展示所找到的蛋白质复合物的质量如图4(a)、(b)，图5(a)、(b)所示。图4(a)、(b)，图5(a)、(b)展示了分别设定Rcp值为0.6、0.8、1来观察和衡量蛋白质复合物的质量。Rcp＝1意味着整个蛋白质复合物所有的蛋白质都符合测定P-value阈值。

由图4(a)、(b)，图5(a)、(b)可见，当设置P-value为0.01时，在Yeast蛋白质数据集上满足比例Rcp平均值0.8以上的蛋白质复合物达到78.8％。甚至当设定P-value阈值为0.001时，满足比例Rcp平均值0.6以上的蛋白质复合物达到56.9％。在Human数据集上，同样设置的P-value分别为0.01、0.001、0.0001，满足比例Rcp平均值分别为0.6、0.8和1，得到的比例偏低，分析认为是因为由于人类蛋白质网络的相互作用数据稀疏导致，因为迄今为止，人类的蛋白质相互作用数据近90％未知。对于大鼠和小鼠的蛋白质相互作用数据集，设置同样的P-value和Rcp平均值，结果在图中有清晰表现。这个实验结果表明，基于随机游走模型以及GO本体过滤假阳性数据的蛋白质复合物识别方法是非常有效的，能够找到具有生物意义的蛋白质复合物。

Claims

1.一种基于随机游走模型的蛋白质复合物识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于随机游走模型的蛋白质复合物识别方法，其特征在于，在所述第一步中，随机游走的过程根据PageRank算法得到。

3.如权利要求1所述的一种基于随机游走模型的蛋白质复合物识别方法，其特征在于，所述第一步包括以下步骤：

4.如权利要求1所述的一种基于随机游走模型的蛋白质复合物识别方法，其特征在于，在所述第三步中，任意两个蛋白质间的相似性的计算方法包括以下步骤：