CN108932402A

CN108932402A - 一种蛋白质复合物识别方法

Info

Publication number: CN108932402A
Application number: CN201810675888.7A
Authority: CN
Inventors: 沈显君; 蒋兴鹏; 胡小华; 何婷婷; 周锦; 解丹
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-04

Abstract

本发明公开了一种蛋白质复合物识别方法，其将蛋白质基因表达数据、GO功能注释数据及其相互作用数据进行整合，构建了多源动态蛋白质网络，然后基于局部密度与相对距离对蛋白质节点进行聚类，并对初始的蛋白质复合物聚类模块基于聚类偏好度与所述多源动态蛋白质网络的平均聚类偏好度的大小进行优化与更新，并最终实现蛋白质复合物的识别，从而控制了算法的局部搜索能力与全局搜索能力，挖掘出更具有生物学意义的动态复合物。

Description

一种蛋白质复合物识别方法

技术领域

本发明涉及生物信息学技术领域，具体涉及一种蛋白质复合物识别方法。

背景技术

蛋白质是基因表达的产物，是生物体生理功能的执行者，也是生命现象的直接体现者。蛋白质组学是对蛋白质所含特性进行系统化研究的学科，能为生物系统在健康和疾病状态下的结构、功能和调控提供详细的描述。几乎所有的生物过程，都是通过一系列的蛋白质相互作用完成的。从系统生物学的角度，利用蛋白质相互作用网络研究和分析生物功能具有重要的前景和实用价值。

蛋白质复合物是在相同时间和空间通过相互作用组成的一个多分子机制的蛋白质集合，它是蛋白质执行其功能的主要形式。识别蛋白质复合物不仅有利于理解复杂的生命活动，同时为挖掘复杂疾病生成机理及合理的药物开发提供理论支撑。

目前，蛋白质复合物的挖掘方法大致可以分为3类：一是基于传统图理论的识别方法，例如：基于划分方式聚类的RNSC算法，基于密度方式聚类的MCODE算法，基于层次方式聚类的GN算法，上述方法能够节省一定的时间成本，但由于对聚类中心、数据、参数等比较敏感，会在一定程度上影响算法的整体效率；二是基于多组学数据融合的识别方法，该类方法通常是将生物信息数据整合到现有的蛋白质网络中，增强网络的精确度与可靠度，从而弥补相互作用数据中存在的假阳性与假阴性等问题，但不可避免的局限性难以满足算法的性能要求；三是基于智能优化的识别方法，该类方法通过模拟自然界生物的各种群体行为，利用个体间的交互合作，寻找所求问题的近似最优解展现出良好的性能，例如蚁群优化算法、粒子群优化算法等，但是上述方法耗时耗力，收敛速度慢，搜索效率低并且容易陷入局部最优。

发明内容

本发明所要解决的技术问题是提供一种蛋白质复合物识别方法，该方法将蛋白质基因表达数据、GO功能注释数据及其相互作用数据进行整合，构建了多源动态蛋白质网络，然后基于局部密度与相对距离对蛋白质节点进行聚类，并对初始的蛋白质复合物聚类模块的聚类偏好度与所述多源动态蛋白质网络的平均聚类偏好度的相对大小对初始的蛋白质聚类模块进行优化与更新，并最终实现蛋白质复合物的识别。

为解决上述问题，本发明采用的技术方案的具体内容如下：

一种蛋白质复合物识别方法，包括以下步骤：

S1：将蛋白质相互作用网络看成是全连通图，预处理，得到多源动态蛋白质网络；

S2：对多源动态蛋白质网络中的所有蛋白质节点进行聚类，得到初始的蛋白质聚类模块；

S3：基于初始的蛋白质聚类模块的聚类偏好度与所述多源动态蛋白质网络的平均聚类偏好度的大小对初始的蛋白质聚类模块进行优化，得到更新的蛋白质复合物模块；

S4：对更新的蛋白质复合物模块进行后期处理过程，去除在每个蛋白质复合物模块中与其他蛋白质节点没有相连边的孤立节点，并去除所有规模小于3的蛋白质复合物模块，经过处理得到的蛋白质复合物模块即为该方法识别的最优蛋白质复合物。

作为一种优选的实施方式，所述多源动态蛋白质网络通过以下步骤得到：

S11：获取蛋白质相互作用数据库和基因表达数据库；

S12：将蛋白质相互作用数据库中的蛋白质节点在细胞连续代谢周期进行表达并获取活跃基因表达集合，将活跃基因表达集合映射到蛋白质相互作用网络上得到初始动态子网；

S13：基于蛋白质拓扑结构和GO功能注释信息集定义蛋白质节点间的相对距离，构建所述多源动态蛋白质网络。

作为一种优选的实施方式，初步的蛋白质聚类模块通过以下步骤得到：

S21：基于蛋白质节点的局部密度和相对距离选取聚类中心；

S22：基于所述聚类中心，根据聚类原则对蛋白质节点进行聚类，以此得到初步的蛋白质聚类模块。

作为一种优选的实施方式，基于蛋白质节点的局部密度和相对距离选取聚类中心包括以下步骤：

S211：计算蛋白质节点的相对距离和局部密度，并且相对距离表示为：

NI(i)和NI(j)分别为蛋白质节点i和蛋白质节点j的相邻节点以及其本身组成的集合，Δ，∩和∪分别表示两个集合的对称差运算，交运算和并运算，当两个节点间不存在共同邻居节点时，相对距离为最大值1，当共有的邻居节点完全相同时，节点间的距离为0；G(i)和G(j)分别为蛋白质节点i和蛋白质节点j的GO功能注释集条目数；

局部密度表示为：ρ_i＝∑_iχ(d(i，j)-d_c)，其中d_c为大于0的截断阈值，当d(i，j)＜d_c时，χ(d_ij-d_c)等于1；当d(i，j)＞d_c时，χ(d_ij-d_c)等于0；

S212：定义度量指标，并且度量指标表示为：γ_i＝ρ_iδ_i，其中，

S213：基于γ值对蛋白质节点进行降序排列，确定聚类中心的个数N，并找出前N个蛋白质节点所对应的ρ_i和δ_i的最小值，记为ρ_min和δ_min，当节点i满足：ρ_i＞ρ_min且δ_i＞δ_min时，则节点i即为聚类中心；

作为一种优选的实施方式，所述聚类原则为：将蛋白质节点划分到与该节点的相对距离最小且局部密度大于该节点的聚类中心所在的模块。

作为一种优选的实施方式，基于初始的蛋白质聚类模块的偏好度与所述多源动态蛋白质网络的平均聚类偏好度的大小对初步的蛋白质聚类模块进行优化包括以下步骤：

S31：计算初始的蛋白质聚类模块的聚类偏好度以及平均聚类偏好度，其中聚类偏好度表示为：其中，Connection_c表示聚类c中含有的总连接数，i和j为聚类c中的两个节点，Degree(i)和Degree(j)分别为节点i和节点j与其他节点相连的度数；

平均聚类偏好表示为：其中，N为聚类中心的个数；

S32：当CPD_c≥avg_CPD时，通过进行节点转移形成新的聚类模块，并且新的聚类模块的聚类偏好度为CPD_c0；

或者，当CPD_c＜avg_CPD时，通过进行聚类融合形成新的聚类模块，并且新的聚类模块的聚类偏好度为CPD_c0；

S33：将CPD_c0和CPD_c进行比较，如果CPD_c0＜CPD_c，则重复S31和S32，直到CPD_c0＞CPD_c，即可得到更新的蛋白质复合物模块。

相比现有技术，本发明的有益效果在于：

本发明公开的蛋白质复合物识别方法将蛋白质基因表达数据、GO功能注释数据及其相互作用数据进行整合，构建了多源动态蛋白质网络，然后基于局部密度与相对距离对蛋白质节点进行聚类，并对初始的蛋白质复合物聚类模块基于聚类偏好度与所述多源动态蛋白质网络的平均聚类偏好度的大小进行优化与更新，并最终实现蛋白质复合物的识别，从而控制了算法的局部搜索能力与全局搜索能力，挖掘出更具有生物学意义的动态复合物。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较优选实施例，并配合附图，详细说明如下。

附图说明

图1为本发明的蛋白质复合物识别的流程示意图；

具体实施方式

为更进一步阐述本发明为达成预期发明目的所采取的技术手段，以下结合附图及较优选实施例，对依据本发明的具体实施方式、结构以及特征，详细说明如下：

如图1所示，本发明所述的蛋白质复合物识别方法，包括以下步骤：

S11：获取蛋白质相互作用数据库和基因表达数据库；

具体地，从公共网站上获取蛋白质相互作用数据库，并从蛋白质相互作用数据库下载原始静态数据，其中含有5093个不同的蛋白质节点，并且其中4969个蛋白质节点具有表达谱；同时，从公共网站上获取基因表达数据库，并将该基因表达数据库中包含的9335个基因在细胞3个连续代谢周期(即36个不同时刻)下的表达值相映射，涵盖静态PPI网络中98％的蛋白质，即得到4858个基因。

具体地，根据4858个基因在36个时刻下的表达序列获得了36个活跃基因表达集合，将活跃基因表达集合映射到蛋白质相互作用网络上得到初始动态子网，其中，采用3-sigma方法区分蛋白质在一个细胞周期时间内的活性状态变化，以3-sigma原则为基础的蛋白质活性阈值公式为：

蛋白质相互作用(ProteinProtein Interaction，PPI)网络为蛋白质节点及其之间紧密联系的相互作用G＝(V，E)，V表示蛋白质节点的集合，E表示蛋白质间相互作用的集合。通常以矩阵的方式存储这些相互作用网络，矩阵中的每个元素表示两个蛋白质间相互作用程度，这里用网络中点与点之间的相对距离来度量蛋白质间的这种紧密联系程度。

S21：基于蛋白质节点的局部密度和相对距离选取聚类中心；

NI(i)和NI(j)分别为蛋白质节点i和蛋白质节点j的相邻节点以及其本身组成的集合，Δ，∩和∪分别表示两个集合的对称差运算，交运算和并运算，当两个节点间不存在共同邻居节点时，相对距离为最大值1，当共有的邻居节点完全相同时，节点间的距离为0；G(i)和G(j)分别为蛋白质节点i和蛋白质节点j的GO功能注释集条目数，具体是Uniprot数据库中下载完整的功能注释集集合，经过去除重复条目以及筛选出蛋白质节点的编号与GO注释编号列项后得到所需要的GO功能注释集条目；

局部密度表示为：ρ_i＝∑_jχ(d(i，j)-d_c)，其中d_c为大于0的截断阈值，具体在本实施例中，截断阈值的选择依据是网络中所有节点之间的相互距离中升序排列在总数2％的位置距离大小。

并且，当d(i，j)＜d_c时，χ(d_ij-d_c)等于1；当d(i，j)＞d_c时，χ(d_ij-d_c)等于0，说明某一节点的局部密度即为距离该节点的相对距离小于d_c的相邻节点的个数。

S213：基于γ值对蛋白质节点进行降序排列，并找出前N个蛋白质节点所对应的ρ_i和δ_i的最小值，记为ρ_min和δ_min，当节点i满足：ρ_i＞ρ_min且δ_i＞δ_min时，则节点i即为聚类中心；

具体地，将蛋白质节点以γ值的大小进行降序排列，然后以节点为横坐标，γ值为纵坐标构建散点图，结果表明：当节点为聚类中心时，其γ值所对应的曲线表示出很明显的波动；相反，其γ值所对应的曲线相对平坦，由此根据曲线的波动确定聚类中心的个数；由于将γ值以散点图的形式投射到平面后，平面上将会形成一条波动明显的曲线，此时以过渡很明显的点在整个排序中所处的位置就可以确定N的大小，然后找出前N个蛋白质节点所对应的ρ_i和δ_i的最小值，记为ρ_min和δ_min，当节点i满足：ρ_i＞ρ_min且δ_i＞δ_min时，则节点i即为聚类中心。

由于早期的蛋白质复合物的识别方法中，一旦蛋白质被划分到某个复合物中后难以更改，本发明基于群体决策方法，对初始的蛋白质聚合物进行更新优化。由于本发明在初始的蛋白质复合物聚类模块形成的过程中，只考虑了各个节点与各个聚类中心的权值大小关系，并没有考虑到初始的聚类模块的各个节点之间以及与其他聚类模块中各个节点之间的相互关系，因此，本发明基于初始的蛋白质聚类模块的聚类偏好度与所述多源动态蛋白质网络的平均聚类偏好度的大小对初始的蛋白质聚类模块进行优化，其包括以下步骤：

需要说明的是：所述总连接数是指聚类c中所有节点之间存在连接的总数目；度数是指聚类c中与节点i和节点j有连接的节点个数；

平均聚类偏好表示为：其中，N为聚类中心的个数；

S32：当CPD_c≥avg_CPD时，通过进行节点转移形成新的聚类模块，并且新的聚类模块的聚类偏好度为CPD_c0，具体地，所述节点转移通过以下方式实现：对于聚类c中的节点i，选取节点i的邻居集合中随机的一个不在聚类c中的点或者聚类c中除节点i以外的其他节点的邻居集合中随机的一个不在聚类c中的点与节点i进行相互转移；

或者，当CPD_c＜avg_CPD时，通过进行聚类融合形成新的聚类模块，并且新的聚类模块的聚类偏好度为CPD_c0；所述聚类融合通过以下方式实现：对于聚类c中的中心节点i，选取聚类中心i的邻居集合中随机的一个不在聚类c中的点所在的聚类或者聚类c中除中心节点i以外的其他节点的邻居集合中随机的一个不在聚类c中的点所在的聚类与聚类c进行相互融合；而且，如果更新后的蛋白质复合物聚类模块的avg_CPD不再发生改变，则将形成的规模较大的聚类重新拆分成两个小的聚类。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种蛋白质复合物识别方法，其特征在于：包括以下步骤：

2.如权利要求1所述的蛋白质复合物识别方法，其特征在于：所述多源动态蛋白质网络通过以下步骤得到：

S11：获取蛋白质相互作用数据库和基因表达数据库；

S13：基于蛋白质拓扑结构和GO功能注释信息集定义初始动态子网中蛋白质节点之间的相对距离，构建所述多源动态蛋白质网络。

3.如权利要求2所述的蛋白质复合物识别方法，其特征在于：初步的蛋白质聚类模块通过以下步骤得到：

S21：基于蛋白质节点的局部密度和相对距离选取聚类中心；

4.如权利要求3所述的蛋白质复合物识别方法，其特征在于：基于蛋白质节点的局部密度和相对距离选取聚类中心包括以下步骤：

局部密度表示为：ρ_i＝∑_jχ(d(i,j)-d_c)，其中d_c为大于0的截断阈值，当d(i,j)<d_c时，χ(d_ij-d_c)等于1；当d(i,j)>d_c时，χ(d_ij-d_c)等于0；

S213：基于γ值对蛋白质节点进行降序排列，确定聚类中心的个数N，并找出前N个蛋白质节点对应的ρi和δ_i的最小值，记为ρ_min和δ_min，当节点i满足：ρ_i>ρ_min且δ_i>δ_min时，则节点i即为聚类中心。

5.如权利要求3所述的蛋白质复合物识别方法，其特征在于：所述聚类原则为：将蛋白质节点划分到与该节点的相对距离最小且局部密度大于该节点的聚类中心所在的模块。

6.如权利要求1所述的蛋白质复合物识别方法，其特征在于：基于初始的蛋白质聚类模块的聚类偏好度与所述多源动态蛋白质网络的平均聚类偏好度的大小对初始的蛋白质聚类模块进行优化包括以下步骤：

S31：计算初始的蛋白质聚类模块的聚类偏好度以及所述多源动态蛋白质网络的平均聚类偏好度，其中聚类偏好度表示为：其中，Connection_c表示聚类c中含有的总连接数，i和j为聚类c中的两个节点，Degree(i)和Degree(j)分别为节点i和节点j与其他节点相连的度数；

平均聚类偏好度表示为：其中，N为聚类中心的个数；

S32：当CPD_c≥avg_CPD时，通过进行节点转移形成新的聚类模块，并且新的聚类模块的聚类偏好度为CPD_c0；或者，当CPD_c<avg_CPD时，通过进行聚类融合形成新的聚类模块，并且新的聚类模块的聚类偏好度为CPD_c0；