CN110517729A

CN110517729A - 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

Info

Publication number: CN110517729A
Application number: CN201910821860.4A
Authority: CN
Inventors: 刘桂霞; 赵贺; 王荣全; 宋佳智
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-11-29
Anticipated expiration: 2039-09-02
Also published as: CN110517729B

Abstract

本发明公开了一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，包括：步骤一、构建具有权重的动态蛋白质相互作用网络和具有权重的静态蛋白质相互作用网络；步骤二、在具有权重的动态蛋白质相互作用网络和具有权重的静态蛋变质相互作用网络中，识别蛋白质复合物的核；步骤三、根据蛋白质复合物的核，在在具有权重的动态蛋白质相互作用网络和具有权重的静态蛋变质相互作用网络中，基于启发式搜索算法构建蛋白质复合物；步骤四、根据社区模型分数给蛋白质复合物进行打分，舍弃低于平均分的蛋白质复合物，进而得到高于平均分的蛋白质复合物；步骤五、在高于平均分的蛋白质复合物中，分别两两计算相似性，得到最终挖掘出的蛋白质复合物。

Description

一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

技术领域

本发明涉及蛋白质复合物识别的技术领域，具体涉及一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法。

背景技术

基于静态蛋白质相互作用网络(静态PPI网络)识别蛋白质复合物的方法主要分为三类：第一类方法基于种子节点的筛选和扩张搜寻PPI网络中的稠密子图来识别蛋白质复合物，但是其时间复杂度很高而且准确率很低。第二类方法基于核附属结构识别蛋白质复合物，如Wu等人COACH算法。该算法分为两步，首先基于稠密度挖掘蛋白质复合物，然后将挖掘到的蛋白质复合物与附属蛋白结合，形成最后识别的蛋白质复合物。第三类方法是基于模型的聚类算法，如ClusterONE算法，他为PPI网络定义一个内聚性模型，以此预测重叠的蛋白质复合物。

为了过滤PPI网络中假阳性和假阴性相互作用边，科学家们提出了许多方法使挖掘到的蛋白质复合物更加准确。有的方法利用拓扑结构属性为相互作用边打分，以此衡量这些边的可靠性；还有一些方法融合若干生物信息，比如GO注释信息，基因表达数据，亚细胞定位数据等等，来提高蛋白质复合物预测的精确度。但是这些方法都是基于静态PPI网络，事实上，PPI网络中的相互作用关系是动态的而不是静态的。

目前，已有大量基于动态蛋白质相互作用网络(动态PPI网络)识别蛋白质复合物的方法被提出，这些方法大多融合了PPI拓扑结构信息和若干生物信息。比如Li等人通过结合基因表达数据和亚细胞定位数据，构建了一个在时间和空间上活跃的PPI网络，基于这个网络识别蛋白质复合物。

最后，总结蛋白质复合物识别方法需要考虑以下几个方面；(1)识别出精确度较高并且生物学意义显著的蛋白质复合物。(2)模型的假设更符合真实蛋白质复合物。(3)识别重叠蛋白质复合物的能力。(4)对PPI网络中的噪声具有较强适应性。(5)充分融合PPI网络和蛋白质复合物的拓扑信息和生物学信息。(6)参数尽可能少，最好没有。目前迫切需要一种新的算法同时满足以上所有要求。

发明内容

本发明设计开发了一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，本发明的发明目的是通过该方法可以识别出精确度较高并且生物学意义显著的蛋白质复合物，同时模型的假设更符合真实蛋白质复合物，识别重叠蛋白质复合物的能力较高，对PPI网络中的噪声具有较强适应性；充分融合PPI网络和蛋白质复合物的拓扑信息和生物学信息，并且没有任何参数。

本发明提供的技术方案为：

一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，包括如下步骤：

步骤一、构建具有权重的动态蛋白质相互作用网络和具有权重的静态蛋白质相互作用网络；

步骤二、在所述具有权重的动态蛋白质相互作用网络和所述具有权重的静态蛋变质相互作用网络中，识别蛋白质复合物的核；

步骤三、根据所述蛋白质复合物的核，在在所述具有权重的动态蛋白质相互作用网络和所述具有权重的静态蛋变质相互作用网络中，基于启发式搜索算法构建蛋白质复合物；

步骤四、根据社区模型分数给所述蛋白质复合物进行打分，舍弃低于平均分的蛋白质复合物，进而得到高于平均分的蛋白质复合物；

步骤五、在所述高于平均分的蛋白质复合物中，分别两两计算相似性，根据所述相似性判断当两个蛋白质复合物高度重叠时，舍弃其中分数低的蛋白质复合物，进而得到最终挖掘出的蛋白质复合物。

优选的是，在所述步骤一中通过融合GO-slim数据、网络拓扑结构和基因共表达数据构建具有权重的动态蛋白质相互作用网络，包括如下步骤：

步骤1、构建动态蛋白质相互作用网络为DPG＝{DPG₁,DPG₂,...,DPG_n}，其中n＝12；

其中，DPG_i＝(V_i,E_i,APV_i,APE_i)，i＝1～n；

式中，APV_i:V_i→[0,1]表示每个蛋白在特定时间点i下活跃的概率，APE_i:E_i→[0,1]，APE_i(v,u)＝V_i(v)×V_i(u)表示蛋白质v和蛋白质u在时间点i下存在相互作用边的可能性；

步骤2、对所述动态蛋白质相互作用网络DPG＝{DPG₁,DPG₂,...,DPG_n}，在时间点i下，计算蛋白质v和蛋白质u交互的权重为

其中，

式中，GO_v为蛋白质v的GO-slim，GO_u为蛋白质u的GO-slim，|GO_v∩GO_u|为蛋白质v和蛋白质u公共GO-slims的个数，Avg(GO)为所有蛋白质GO-slims的平均数；

步骤3、在所述动态蛋白质相互作用网络DPG＝{DPG₁,DPG₂,...,DPG_n}中去掉所述蛋白质对的权重是0和邻居数量不大于2的蛋白质，进而得到具有权重的动态蛋白质相互作用网络。

优选的是，在所述步骤一中通过融合GO-slim数据和网络拓扑结构构建具有权重的静态蛋白质相互作用网络，包括如下步骤：

步骤1、构建静态蛋白质相互作用网络为G＝(V,E,W)；

式中，V为蛋白质的集合，E为蛋白质对的集合，W为蛋白质对的可靠性；

步骤2、计算蛋白质对交互的权重为

其中，

式中，GO_v为蛋白质v的GO-slim，GO_u为蛋白质u的GO-slim，|GO_v∩GO_u为蛋白质v和蛋白质u公共GO-slims的个数，Avg(GO)为所有蛋白质GO-slims的平均数。

优选的是，APV_i取值为0.9973、0.9545、0.6827和0。

优选的是，与基因g相对应的蛋白质在特定时间点i下活跃的概率AP_i(g)的计算过程为：

其中，

式中，Ge_i(g)为基因g在特定时间点i下的表达值(Ge(i))，Avg(g)为表达值在时间点1到n上的算数平均数，σ(g)为表达值的在时间点1到n上的标准差，k为sigma倍数，k∈[0,3]，i∈[1,12]。

优选的是，在所述步骤二中，识别蛋白质复合物的核包括如下步骤：

步骤1、分别在每个动态蛋白质相互作用网络和静态蛋白质相互作用网络中确定蛋白质v的邻居子图G'(v)＝(V',E',W')；

步骤2、在所述邻居子图G'(v)＝(V',E',W')中的蛋白质u，如果deg_weight(u)≥Avdeg_weight(G'(v))，则把蛋白质u加入到集合initial_cluster_v中，否则加入到集合left_proteins中；

步骤3、在所述集合left_proteins中的蛋白质w，如果|N_w∩initail_cluster_v|≥2且将蛋白质w加入到集合initial_cluster_v中，得到所述蛋白质复合物的核；

其中，V'＝N_v，

优选的是，在所述步骤三中，构建蛋白质复合物包括如下步骤：

步骤1、将所有的所述蛋白质复合物的核记为簇C＝(V_C,E_C,W_C)，确定其邻居集合Neighbor(C)；

步骤2、从所述邻居集合Neighbor(C)中挑选蛋白质u使得close_function(u,C)取最大值，如果Score(C+{u})＞Score(C)，则将蛋白质u加入簇C中，并将其从所述邻居集合Neighbor(C)中删除，直到所述邻居集合Neighbor(C)为空或者所述簇C中加入使得close_function(u,C)取最大值的蛋白质u不再使Score(C)增加；以及从集合Boundary_node(C)中挑选蛋白质v使得close_function(v,C)取最小值，如果Score(C-{v})＞Score(C)且|C|＞2，则将蛋白质v从簇C和Boundary_node(C)中删除，直到集合Boundary_node(C)为空或者Boundary_node(C)中删除使得close_function(v,C)取最小值的蛋白质v不再使Score(C)减小；

直到所述簇C不再发生变化，得到所述蛋白质复合物；

其中，

式中，W(u,v)为蛋白质v和蛋白质u相互作用边的权重，wⁱⁿ(C)为簇C中所有蛋白质相互作用边的权重的平均值，w^bound(C)为簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值，Boundary_node(C)为簇C的内边界节点的集合，close_function(u,C)为候蛋白质u和簇C的关系。

优选的是，在所述步骤四中，计算识别出的所有蛋白质复合物的社区模型得分Score(C)，将所有低于平均分的蛋白质复合物舍弃，

对所述蛋白质复合物通过如下方式进行打分：

式中，wⁱⁿ(C)为簇C中所有蛋白质相互作用边的权重的平均值，w^bound(C)为簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值。

优选的是，在所述步骤五中，对于剩下得分较高的蛋白质复合物，两两计算其相似性，如果OS(PC_i，PC_j)≥α，说明两个蛋白质复合物高度重叠，此时舍弃社区模型得分较低的一个，得到的结果为最终识别出的全部蛋白质复合物；

其中，所述相似性计算公式为：

式中，是蛋白质复合物PC_i中所有蛋白质的集合，是蛋白质复合物PC_j中所有蛋白质的集合。

优选的是，α＝0.8。

本发明与现有技术相比较所具有的有益效果：本发明针对当前方法精度偏低，容忍PPI网络中的噪声能力较弱，模型的假设不符合实际蛋白质复合物的问题，参数偏多提出了一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法，从而体高精度，增强容忍PPI网络中的噪声能力，使模型的假设更符合实际蛋白质复合物，而且没有任何参数；针对当前方法存在识别重叠蛋白质复合物的能力较弱的问题，提出当OS(PC_i，PC_j)≥0.8舍弃社区模型得分较低的一个；针对当前方法没有融合蛋白质复合物的拓扑信息和生物学信息，提出为蛋白质复合物打分时融合蛋白质复合物的拓扑信息和生物学信息。

附图说明

图1为本发明所述的一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供了一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法，具体步骤如下：

步骤一S110、构建动态PPI网络；

利用如下公式表示特定时间点下的基因表达值：

式中，T(i)表示在特定时间点i下的基因表达值；如果基因表达值大于特定时间点下的阈值，那么该时间点下的该蛋白质被看做是活跃的，我们利用3-sigma模型为每个蛋白质计算阈值；

式中Ge_i(g)为基因g在特定时间点i下的表达值(Ge(i))，Avg(g)为表达值在时间点1到n上的算数平均数，σ(g)为表达值的在时间点1到n上的标准差。

式中，k为sigma倍数，k的取值越大，Active_threshold_k(g)的取值就越大，显然会获得更高的置信度，k∈[0,3]。

根据3-sigma原则，当Ge_i(g)＞Avg(g)+3·σ(g)时，与基因g相对应的蛋白质活跃的概率是99.7％，而当Ge_i(g)＞Avg(g)+σ(g)时，与基因g相对应的蛋白质活跃的概率仅为68.3％。基于Active_threshold_k(g)，可以计算与基因g相对应的蛋白质在时间点i下活跃的概率；通常，一个蛋白在特定时间下活跃的概率可以代表其活跃程度。

PPI网络可以抽象成无向加权图G＝(V,E,W)；其中，V是节点(蛋白质)的集合，E是边(蛋白质对)的集合，W是n×n(n＝|V|)的矩阵，用来表示每个蛋白质对的可靠性。

一个动态概率PPI网络可以表示成：DPG＝{DPG₁,DPG₂,…,DPG_n}；其中，n＝12；DGP由12个概率PPI网络组成，每个网络都属于一个特定的时间点；

更具体地，DPG_i＝(V_i,E_i,APV_i,APE_i)，i＝1～n；其中，APV_i:V_i→[0,1]表示每个蛋白在特定时间点i下活跃的概率，APE_i:E_i→[0,1]，APE_i(v,u)＝V_i(v)×V_i(u)表示蛋白质v和蛋白质u在时间点i下存在相互作用边的可能性；在本实施例中，作为一种优选，APV_i的取值包括0.9973，0.9545，0.6827，0.0；

Go-Slim数据是生物信息学中GO(Gene Ontology)的精简版，Go-Slim数据提供了GO注释来解释生物过程(BP)、分子功能(MF)、细胞成分(CC)中的蛋白质，将GO-slim数据融合到动态网络中；

式中，GO_v和GO_u分别表示蛋白质v和蛋白质u的GO-slims；|GO_v∩GO_u|表示蛋白质v和蛋白质u公共GO-slims的个数，Avg(GO)代表所有蛋白质GO-slims的平均数；

引入高阶公共邻居相似度(HCNs)估算两个蛋白质之间相互作用的可靠性，计算如下：

NCN(v,u)＝|N_v∩N_u|；

N_v＝{u|(u,v)∈E,u∈V}；

式中，N_v和N_u分别表示蛋白质v和蛋白质u的邻居，对于一个动态PPI网络DPG_i＝(V_i,E_i,APV_i,APE_i)，在特定时间点i下，蛋白质v和蛋白质u交互的权重定义为：

对于边的权重是0以及邻居数量小于等于2的蛋白质将会被视为噪音，并从加权动态PPI子网络中删掉。此时加权动态PPI网络构建完毕；

步骤二S120、构建静态PPI网络；

通过GO_Score(v,u)和HCNs_i(v,u)确定权重，具体公式为：

步骤三S130、是否存在未处理子网络；

对于动态PPI网络，需要在每个子网络中分别找蛋白质复合物的核；

步骤四S140、找蛋白质复合物的核；

确定蛋白质v的邻居图G'(v)＝(V',E',W')；

其中，V'＝N_v，蛋白质v的加权度

邻居图G'(v)的平均加权度

邻居图G'(v)的加权密度

对于动态和静态PPI网络中的每个蛋白质v的邻居子图为G'(v)，对于G'(v)中的每个蛋白质u，如果deg_weight(u)≥Avdeg_weight(G'(v))，则把蛋白质u加入到initial_cluster_v，那么G'(v)中的蛋白质被分入两个集合，分别是initial_cluster_v和left_proteins，G'(v)中不属于initial_cluster_v的蛋白质都属于left_proteins；

对于left_proteins中的每个蛋白质w，如果|N_w∩initail_cluster_v|≥2(N_w表示蛋白质w的邻居)且则表明该蛋白质是多功能蛋白质，这种蛋白质参与多个蛋白质复合物的形成，将蛋白质c加入initial_cluster_v；

步骤五S150、采用启发式搜索算法实现最大加权社区模型构建候选蛋白复合物。

由于蛋白质复合物具有高内聚低耦合的性质，我们提出全新的模型估算簇C＝(V_C,E_C,W_C)是蛋白质复合物的可能性，具体计算方法如下：

其中，W(u,v)是步骤一S110和步骤二S120中计算出的蛋白质v和蛋白质u相互作用边的权重，wⁱⁿ(C)表示簇C中所有蛋白质相互作用边的权重的平均值，w^bound(C)表示簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值，Boundary_node(C)是簇C的内边界节点的集合，这些节点属于簇C而且至少与簇C的一个邻居节点相连，close_function(u,C)衡量候选蛋白质u和簇C的关系。

对于步骤四S140中识别出的蛋白质复合物的核(initial_cluster_v)，记为簇C，其邻居的集合为Neighbor(C)；在簇C基础上构建候选蛋白质复合物大体分为两步：

第一步，不断地从集合Neighbor(C)挑选蛋白质u，使得close_function(u,C)取最大值，如果Score(C+{u})＞Score(C)，则将蛋白质u加入簇C并将其从集合Neighbor(C)中删除；重复整个过程，直到集合Neighbor(C)为空或向簇C中加入使得close_function(u,C)取最大值的节点u不再使Score(C)增加；

第二步，不断地从Boundary_node(C)中挑选蛋白质v，使得

close_function(v,C)取最小值，如果Score(C-{v})＞Score(C)且|C|＞2，则将蛋白质v从簇C和Boundary_node(C)中删除；重复整个过程直到集合Boundary_node(C)为空或|C|≤2或从Boundary_node(C)中(也是簇C中)减去使得close_function(v,C)取最小值的蛋白质v也不能使Score(C)减小；

当簇C不再发生变化，整个贪婪搜索过程结束，最终识别出一个蛋白质复合物；

步骤六S160、舍弃低于均分的蛋白质复合物；

整合从动态和静态PPI网络中识别出的所有蛋白质复合物，依据社区模型给蛋白质复合物打分，舍弃低于平均分的蛋白质复合物；

步骤七S170、舍弃高度重叠且社区模型得分低的蛋白质复合物；

对于剩下得分较高的蛋白质复合物，两两计算其相似性，具体公式为：如果OS(PC_i,PC_j)≥α说明两个蛋白质复合物高度重叠，此时舍弃社区模型得分较低的一个，进而得到最终挖掘出的蛋白质复合物；作为一种优选，在本实施例中，α取值为0.8。

本发明针对当前方法精度偏低，容忍PPI网络中的噪声能力较弱，模型的假设不符合实际蛋白质复合物的问题，参数偏多提出了一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法，从而提高精度，增强容忍PPI网络中的噪声能力，使模型的假设更符合实际蛋白质复合物，而且没有输入任何参数；针对当前方法存在识别重叠蛋白质复合物的能力较弱的问题，提出当OS(PC_i,PC_j)≥0.8舍弃社区模型得分较低的一个；针对当前方法没有融合蛋白质复合物的拓扑信息和生物信息，提出为蛋白质复合物打分时融合蛋白质复合物的拓扑信息和生物信息。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，在所述步骤一中通过融合GO-slim数据、网络拓扑结构和基因共表达数据构建具有权重的动态蛋白质相互作用网络，包括如下步骤：

其中，DPG_i＝(V_i,E_i,APV_i,APE_i)，i＝1～n；

其中，

3.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，在所述步骤一中通过融合GO-slim数据和网络拓扑结构构建具有权重的静态蛋白质相互作用网络，包括如下步骤：

步骤1、构建静态蛋白质相互作用网络为G＝(V,E,W)；

步骤2、计算蛋白质对交互的权重为

其中，

式中，GO_v为蛋白质v的GO-slim，GO_u为蛋白质u的GO-slim，|GO_v∩GO_u|为蛋白质v和蛋白质u公共GO-slims的个数，Avg(GO)为所有蛋白质GO-slims的平均数。

4.如权利要求2所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，APV_i取值为0.9973、0.9545、0.6827和0。

5.如权利要求2所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，与基因g相对应的蛋白质在特定时间点i下活跃的概率AP_i(g)的计算过程为：

其中，

6.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，在所述步骤二中，识别蛋白质复合物的核包括如下步骤：

其中，V'＝N_v，

7.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，在所述步骤三中，构建蛋白质复合物包括如下步骤：

步骤2、从所述邻居集合Neighbor(C)中挑选蛋白质u使得close_function(u,C)取最大值，如果Score(C+{u})＞Score(C)，则将蛋白质u加入簇C中，并将其从所述邻居集合Neighbor(C)中删除，直到所述邻居集合Neighbor(C)为空或者所述簇C中加入使得close_function(u,C)取最大值的蛋白质u不再使Score(C)增加；以及

从集合Boundary_node(C)中挑选蛋白质v使得close_function(v,C)取最小值，如果Score(C-{v})＞Score(C)且|C|＞2，则将蛋白质v从簇C和Boundary_node(C)中删除，直到集合Boundary_node(C)为空或者Boundary_node(C)中删除使得close_function(v,C)取最小值的蛋白质v不再使Score(C)减小；

直到所述簇C不再发生变化，得到所述蛋白质复合物；

其中，

8.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，在所述步骤四中，计算识别出的所有蛋白质复合物的社区模型得分Score(C)，将所有低于平均分的蛋白质复合物舍弃，

对所述蛋白质复合物通过如下方式进行打分：

9.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，在所述步骤五中，对于剩下得分较高的蛋白质复合物，两两计算其相似性，如果OS(PC_i,PC_j)≥α，说明两个蛋白质复合物高度重叠，此时舍弃社区模型得分较低的一个，得到的结果为最终识别出的全部蛋白质复合物；

其中，所述相似性计算公式为：

10.如权利要求9所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法，其特征在于，α＝0.8。