CN111667886B

CN111667886B - 一种动态蛋白质复合物识别方法

Info

Publication number: CN111667886B
Application number: CN202010324055.3A
Authority: CN
Inventors: 梁冰; 吕嘉庆; 张益嘉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2023-04-18
Anticipated expiration: 2040-04-22
Also published as: CN111667886A

Abstract

本发明提供一种动态蛋白质复合物识别方法。本发明方法，结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络；基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类；通过核心附着结构对聚类结果进行优化，合并具有核心蛋白质的聚类和包含附着蛋白质的聚类；滤除高度重叠的蛋白质复合物，输出最终蛋白质复合物集合。本发明方法不但可以抑制小类的产生，而且能够识别重叠的蛋白质。本发明提出了从动态蛋白质相互作用网络中识别蛋白质复合物的计算方法，更符合实际生物过程的PPI网络，提供更准确的蛋白质复合物识别结果。

Description

一种动态蛋白质复合物识别方法

技术领域

本发明涉及生物信息学技术领域，具体而言，尤其涉及一种动态蛋白质复合物识别方法。

背景技术

随着高通量技术的进步，生成了大规模蛋白质相互作用(Protein-ProteinInteraction，PPI)数据。蛋白质很少单独起作用，它们通常结合在一起形成复合物实现生物学功能。蛋白质复合物在理解大多数细胞功能的基本机制中起着重要作用。从PPI网络中识别蛋白质复合物有助于预测蛋白质功能并阐明多种疾病的细胞机制。在细胞周期的不同阶段，细胞对外部刺激有一种快速反应机制，真实的PPI网络一直在变化。因此，将真实的PPI网络建模为动态的PPI网络可以准确地识别出更多的蛋白质复合物。现有的许多研究都是针对静态PPI数据的不能提供准确的生物学结果。

发明内容

根据上述提出的技术问题，而提供一种动态蛋白质复合物识别方法。本发明方法首先结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络；基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类，通过核心附着结构对聚类结果进行优化，合并具有核心蛋白质的聚类和包含附着蛋白质的聚类；滤除高度重叠的蛋白质复合物，输出最终蛋白质复合物集合。本发明方法不但可以抑制小类的产生，而且能够识别重叠的蛋白质。

本发明采用的技术手段如下：

一种动态蛋白质复合物识别方法，包括如下步骤：

S1、结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络；

S2、基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类；

S3、通过核心附着结构对步骤S2中的聚类结果进行优化，合并具有核心蛋白质的聚类和包含附着蛋白质的聚类；

S4、滤除高度重叠的蛋白质复合物，输出最终蛋白质复合物集合。

进一步地，所述步骤S1具体为：

S11、静态PPI网络建模为无向图G＝(V,E)，其中V表示蛋白质节点集合，E表示蛋白质节点之间边的集合；

S12、基于基因表达数据判断蛋白质的活跃度，将N个蛋白质在T个时间点的基因表达数据表示为N×T的矩阵H；在时间点t，假设一个蛋白质i的基因表达式值大于或等于其激活阈值ACT(i)，则该蛋白质i被认为是活跃的；其激活阈值ACT(i)的表达式如下：

ACT(i)＝u(i)+3σ(i)(1-F(i))

其中，

表示蛋白质i从时刻1到T的平均值，σ(i)表示蛋白质i从时刻1到T的标准差；F(i)＝1/(1+σ²(i))为权重方程，反映了蛋白质i表达值的波动；

S13、基于步骤S11和步骤S12构建动态蛋白质相互作用网络，具体为：

G^T＝{G₁,G₂,…,G_T}

其中，G_T＝(V,E_T)，E_T表示T时刻蛋白质节点之间边的集合、如果e_ij∈E，并且H_it≥ACT(i)，H_jt≥ACT(j)，那么e_ij∈E_T；即蛋白质i和j在时刻t的活跃度都大于等于阈值时，e_ij在动态蛋白质相互作用网络G^T中存在；e_ij表示蛋白质节点i和蛋白质节点j之间的边、H_it表示蛋白质i在t时刻的基因表达数据、H_jt表示蛋白质j在t时刻的基因表达数据。

进一步地，所述步骤S2具体为：

S21、建立邻接矩阵，公式如下：

其中，(v_i,v_j)表示蛋白质节点i和j之间的边，w_ij表示边(v_i,v_j)的权值，w_ix表示边(v_i,v_x)的权值，max_x≠iw_ix表示所有与i相连的边中权值的最大值；

S22、标准概率矩阵，公式如下：

其中，M表示在图上随机游走的转移概率，M(i,j)表示节点v_i转移到节点v_j的概率，M(k,j)表示节点v_k转移到节点v_j的概率，k表示蛋白质节点的序号，n表示蛋白质节点的个数；

S23、扩展操作，对所述概率矩阵进行e次幂运算，公式如下：

M_exp＝M×M

S24、膨胀操作对所述概率矩阵内元素进行r次幂运算，再进行标准化，公式如下：

其中，M^r(i,j)表示矩阵内元素M(i,j)进行r次幂运算，膨胀操作将概率矩阵中每一个值进行幂运算，强化连接紧密的点，弱化松散的点，增强区分度；

S25、重复步骤S23和步骤S24，直至所述概率矩阵稳定；

S26、将稳定的概率矩阵转化为聚类C^T，C^T＝{C₁,C₂,…,C_T}；

其中，C^T表示T个时刻形成的聚类集合，C₁,C₂,…,C_T分别表示时刻1的聚类、时刻2的聚类至时刻T的聚类。

进一步地，所述步骤S3具体为：

S31、选择种子节点，计算每个节点的聚类系数，选择聚类系数大于给定阈值的节点作为种子节点，加入到当前时刻t的种子节点集合S_t中，节点v_i的聚类系数公式如下：

其中，

表示在时刻t节点i的邻居节点数，

表示在时刻t节点i的邻居节点之间边的个数；

S32、扩展种子节点v_i，生成核心蛋白F；当v_i的邻居节点v_j，满足Coh(F,v_j)≥α时，将v_j添加到核心蛋白F中，其中，α＝0.8，公式如下：

其中，Coh(F,v_j)表示节点v_j与核心蛋白的紧密度，α表示紧密度的阈值，在时刻t，

是节点

连接核心蛋白F的边数，|V_f|是核心蛋白F的节点数，

是核心蛋白F的密度，

|V_f|和|E_f|分别表示核心蛋白F的节点数和边数；

S33、通过核心蛋白F，对聚类进行合并，生成蛋白质复合物；对T个时刻的聚类C^T＝{C₁,C₂,…,C_T}进行核心附着优化，生成T个时刻的蛋白质复合物集合Comp^T＝{Comp₁,Comp₂,…,Comp_T}，Comp^T表示T个时刻形成的复合物集合，Comp₁表示时刻1形成的复合物集合，Comp₂表示时刻2形成的复合物集合，Comp_T表示时刻T形成的复合物集合；

当

时，

表示核心蛋白质集合，

是含有核心蛋白

的聚类，β表示判定

是否具有核心蛋白的阈值，其中，β≥0.7；

是不含有核心蛋白F的聚类，如果

中所有蛋白质与

中的核心蛋白F相连的边数不少于核心蛋白F内节点数的一半，则

中的节点为核心蛋白F的附属节点；最终形成蛋白质复合物

其中

Comp_t表示时刻t的蛋白质复合物集合。

进一步地，所述步骤S4具体为：

S41、使用重叠分数sim(comp_i,comp_j)，测量两个蛋白质复合物comp_i和comp_j的相似性，所述重叠分数sim(comp_i,comp_j)的公式如下：

其中，

和

表示蛋白质复合物comp_i和comp_j节点的个数；当sim(comp_i,comp_j)≥γ并且

则移除蛋白质复合物

其中γ是阈值，

和

分别表示蛋白质复合物comp_i和comp_i的密度。

S42、采用上述方法，滤除T个时刻的蛋白质复合物集合Comp^T中高度重叠的蛋白质复合物，输出最终的蛋白质复合物集合COMP。

较现有技术相比，本发明具有以下优点：

本发明提供的动态蛋白质复合物识别方法，不但可以抑制小类的产生，而且能够识别重叠的蛋白质。本发明提出了从动态蛋白质相互作用网络中识别蛋白质复合物的计算方法，更符合实际生物过程的PPI网络，提供更准确的蛋白质复合物识别结果。蛋白质复合物在生物体内控制细胞活动中起着重要作用，用本发明的方法预测的蛋白质复合物的信息可以为生物学家提供参考。

基于上述理由本发明可在生物信息学等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明方法识别出的蛋白质复合物。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种包括如下步骤：

基因表达是指将来自基因的遗传信息合成功能性基因产物的过程，基因表达产物通常是蛋白质。利用基因表达数据提取蛋白质的动态信息，因此结合基因表达数据可以研究蛋白质相互作用的动态变化。

进一步地作为本发明优选的实施方式，所述步骤S1具体为：

ACT(i)＝u(i)+3σ(i)(1-F(i))

其中，

G^T＝{G₁,G₂,…,G_T}

进一步地作为本发明优选的实施方式，所述步骤S2具体为：

S21、建立邻接矩阵，公式如下：

S22、标准概率矩阵，公式如下：

S23、扩展操作，对所述概率矩阵进行e次幂运算，e＝2，公式如下：

M_exp＝M×M

S24、膨胀操作对所述概率矩阵内元素进行r次幂运算，r＝2，再进行标准化，公式如下：

S25、重复步骤S23和步骤S24，直至所述概率矩阵稳定；

S26、将稳定的概率矩阵转化为聚类C^T，C^T＝{C₁,C₂,…,C_T}；

S3、通过核心附着结构对步骤S2中的聚类结果进行优化，合并具有核心蛋白质的聚类和包含附着蛋白质的聚类；根据核心蛋白质有以下三个主要特征对聚类结果进行优化。

(1)每个蛋白质复合物都有唯一的核心蛋白集合；

(2)核心蛋白质之间有相对较多的连接；

(3)附属蛋白质与和核心蛋白质相连接而组成蛋白质复合物。

进一步地作为本发明优选的实施方式，所述步骤S3具体为：

S31、选择种子节点，计算每个节点的聚类系数，选择聚类系数大于给定阈值的节点作为种子节点，加入到当前时刻t的种子节点集合S_t中，种子节点是候选聚类中心，代表不同蛋白质复合物聚类。根据图的拓扑性，蛋白质复合物中心通常对应着高聚类系数的子图。节点v_i的聚类系数公式如下：

其中，

表示在时刻t节点i的邻居节点数，

表示在时刻t节点i的邻居节点之间边的个数；

其中， Coh(F,v_j)表示节点v_j与核心蛋白的紧密度， α表示紧密度的阈值，在时刻t，

是节点

连接核心蛋白F的边数，|V_f|是核心蛋白F的节点数，

是核心蛋白F的密度，

|V_f|和|E_f|分别表示核心蛋白F的节点数和边数；

当

时，

表示核心蛋白质集合，

是含有核心蛋白

的聚类，β表示判定

是否具有核心蛋白的阈值，其中，β≥0.7；

是不含有核心蛋白F的聚类，如果

中所有蛋白质与

中的节点为核心蛋白F的附属节点；最终形成蛋白质复合物

其中

Comp_t表示时刻t的蛋白质复合物集合。

进一步地作为本发明优选的实施方式，所述步骤S4具体为：

其中，

和

则移除蛋白质复合物

其中γ是阈值，

和

分别表示蛋白质复合物comp_i和comp_i的密度。

S42、采用上述方法，滤除T个时刻的蛋白质复合物集合Comp^T中高度重叠的蛋白质复合物，输出最终的蛋白质复合物集合COMP。如图2所示，为本发明方法识别出的蛋白质复合物。

为了验证本发明方法的有效性，本发明还与ClusterONE(clustering withoverlapping neighborhood expansion，基于重叠邻居扩张的聚类)、MCL(MarkovClustering，马尔可夫聚类算法)、COACH(Core-Attachment，核心扩展算法)、RRW(repeatedrandom walks，随机游走算法)、MCODE(Molecular Complex Detection，MCODE，分子复合物侦测算法)这5种方法的性能进行了比较，在实验中采用的蛋白质相互作用数据集包括DIP、BioGrid、Gavin、Collins，见表1：

表1蛋白质相互作用数据集

序号	数据集	蛋白质个数	相互作用个数
				1	DIP	5221	24918
2	BioGrid	7161	53791
				3	Gavin	1430	6531
4	Collins	1622	9074

基因表达数据来自GEO数据库的GSE3431。预测的蛋白质复合物与基准数据库CYC2008、MIPS中的酵母标准蛋白质复合物做对比，见表2：

表2标准蛋白质复合物数据库

序号	数据集	蛋白质个数	相互作用个数	蛋白质复合物个数
					1	CYC2008	1627	408	408
2	MIPS	1189	11119	203

上述5种方法都是根据静态PPI网络设计的蛋白质复合物识别方法，将这5种方法应用于静态网络并将本发明方法应用于构建的动态PPI网络。结果表明，本发明方法在DIP，BioGrid，Gavin和Collins数据库上的性能优于其他5种方法，本发明方法具有高召回率和精确性。

为了进一步验证本发明方法的有效性，分析了预测蛋白复合物的生物学意义。蛋白质复合物与GO注释的p值相关联。如果p值小于0.01，则预测的复合物具有生物学意义。在BioGrid和未加权Gavin数据集上，本发明方法的P值远高于MCODE和MCL，这表明本发明方法预测的蛋白质复合物具有重要的生物学功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种动态蛋白质复合物识别方法，其特征在于，包括如下步骤：

所述步骤S1具体为：

ACT(i)＝u(i)+3σ(i)(1-F(i))

其中，表示蛋白质i从时刻1到T的平均值，σ(i)表示蛋白质i从时刻1到T的标准差；F(i)＝1/(1+σ²(i))为权重方程，反映了蛋白质i表达值的波动；

G^T＝{G₁,G₂,…,G_T}

其中，G_T＝(V,E_T)，E_T表示T时刻蛋白质节点之间边的集合、如果e_ij∈E，并且H_it≥ACT(i)，H_jt≥ACT(j)，那么e_ij∈E_T；即蛋白质i和j在时刻t的活跃度都大于等于阈值时，e_ij在动态蛋白质相互作用网络G^T中存在；e_ij表示蛋白质节点i和蛋白质节点j之间的边、H_it表示蛋白质i在t时刻的基因表达数据、H_jt表示蛋白质j在t时刻的基因表达数据；

2.根据权利要求1所述的动态蛋白质复合物识别方法，其特征在于，所述步骤S2具体为：

S21、建立邻接矩阵，公式如下：

S22、标准概率矩阵，公式如下：

S23、扩展操作，对所述概率矩阵进行e次幂运算，公式如下：

M_exp＝M×M

S25、重复步骤S23和步骤S24，直至所述概率矩阵稳定；

S26、将稳定的概率矩阵转化为聚类C^T，C^T＝{C₁,C₂,…,C_T}；

3.根据权利要求1所述的动态蛋白质复合物识别方法，其特征在于，所述步骤S3具体为：

其中，表示在时刻t节点i的邻居节点数，表示在时刻t节点i的邻居节点之间边的个数；

其中，Coh(F,v_j)表示节点v_j与核心蛋白的紧密度，α表示紧密度的阈值，在时刻t，是节点连接核心蛋白F的边数，|V_f|是核心蛋白F的节点数，是核心蛋白F的密度，|V_f|和|E_f|分别表示核心蛋白F的节点数和边数；

当时，表示核心蛋白质集合，是含有核心蛋白的聚类，β表示判定是否具有核心蛋白的阈值，其中，β≥0.7；是不含有核心蛋白F的聚类，如果中所有蛋白质与中的核心蛋白F相连的边数不少于核心蛋白F内节点数的一半，则中的节点为核心蛋白F的附属节点；最终形成蛋白质复合物其中Comp_t表示时刻t的蛋白质复合物集合。

4.根据权利要求1所述的动态蛋白质复合物识别方法，其特征在于，所述步骤S4具体为：

其中，和表示蛋白质复合物comp_i和comp_j节点的个数；当sim(comp_i,comp_j)≥γ并且则移除蛋白质复合物其中γ是阈值，和分别表示蛋白质复合物comp_i和comp_i的密度；