CN111667886B - 一种动态蛋白质复合物识别方法 - Google Patents

一种动态蛋白质复合物识别方法 Download PDF

Info

Publication number
CN111667886B
CN111667886B CN202010324055.3A CN202010324055A CN111667886B CN 111667886 B CN111667886 B CN 111667886B CN 202010324055 A CN202010324055 A CN 202010324055A CN 111667886 B CN111667886 B CN 111667886B
Authority
CN
China
Prior art keywords
protein
comp
node
time
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010324055.3A
Other languages
English (en)
Other versions
CN111667886A (zh
Inventor
梁冰
吕嘉庆
张益嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010324055.3A priority Critical patent/CN111667886B/zh
Publication of CN111667886A publication Critical patent/CN111667886A/zh
Application granted granted Critical
Publication of CN111667886B publication Critical patent/CN111667886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/30Dynamic-time models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种动态蛋白质复合物识别方法。本发明方法,结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类;通过核心附着结构对聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。本发明方法不但可以抑制小类的产生,而且能够识别重叠的蛋白质。本发明提出了从动态蛋白质相互作用网络中识别蛋白质复合物的计算方法,更符合实际生物过程的PPI网络,提供更准确的蛋白质复合物识别结果。

Description

一种动态蛋白质复合物识别方法
技术领域
本发明涉及生物信息学技术领域,具体而言,尤其涉及一种动态蛋白质复合物识别方法。
背景技术
随着高通量技术的进步,生成了大规模蛋白质相互作用(Protein-ProteinInteraction,PPI)数据。蛋白质很少单独起作用,它们通常结合在一起形成复合物实现生物学功能。蛋白质复合物在理解大多数细胞功能的基本机制中起着重要作用。从PPI网络中识别蛋白质复合物有助于预测蛋白质功能并阐明多种疾病的细胞机制。在细胞周期的不同阶段,细胞对外部刺激有一种快速反应机制,真实的PPI网络一直在变化。因此,将真实的PPI网络建模为动态的PPI网络可以准确地识别出更多的蛋白质复合物。现有的许多研究都是针对静态PPI数据的不能提供准确的生物学结果。
发明内容
根据上述提出的技术问题,而提供一种动态蛋白质复合物识别方法。本发明方法首先结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类,通过核心附着结构对聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。本发明方法不但可以抑制小类的产生,而且能够识别重叠的蛋白质。
本发明采用的技术手段如下:
一种动态蛋白质复合物识别方法,包括如下步骤:
S1、结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;
S2、基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类;
S3、通过核心附着结构对步骤S2中的聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;
S4、滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。
进一步地,所述步骤S1具体为:
S11、静态PPI网络建模为无向图G=(V,E),其中V表示蛋白质节点集合,E表示蛋白质节点之间边的集合;
S12、基于基因表达数据判断蛋白质的活跃度,将N个蛋白质在T个时间点的基因表达数据表示为N×T的矩阵H;在时间点t,假设一个蛋白质i的基因表达式值大于或等于其激活阈值ACT(i),则该蛋白质i被认为是活跃的;其激活阈值ACT(i)的表达式如下:
ACT(i)=u(i)+3σ(i)(1-F(i))
其中,
Figure BDA0002462518980000021
表示蛋白质i从时刻1到T的平均值,σ(i)表示蛋白质i从时刻1到T的标准差;F(i)=1/(1+σ2(i))为权重方程,反映了蛋白质i表达值的波动;
S13、基于步骤S11和步骤S12构建动态蛋白质相互作用网络,具体为:
GT={G1,G2,…,GT}
其中,GT=(V,ET),ET表示T时刻蛋白质节点之间边的集合、如果eij∈E,并且Hit≥ACT(i),Hjt≥ACT(j),那么eij∈ET;即蛋白质i和j在时刻t的活跃度都大于等于阈值时,eij在动态蛋白质相互作用网络GT中存在;eij表示蛋白质节点i和蛋白质节点j之间的边、Hit表示蛋白质i在t时刻的基因表达数据、Hjt表示蛋白质j在t时刻的基因表达数据。
进一步地,所述步骤S2具体为:
S21、建立邻接矩阵,公式如下:
Figure BDA0002462518980000022
其中,(vi,vj)表示蛋白质节点i和j之间的边,wij表示边(vi,vj)的权值,wix表示边(vi,vx)的权值,maxx≠iwix表示所有与i相连的边中权值的最大值;
S22、标准概率矩阵,公式如下:
Figure BDA0002462518980000031
其中,M表示在图上随机游走的转移概率,M(i,j)表示节点vi转移到节点vj的概率,M(k,j)表示节点vk转移到节点vj的概率,k表示蛋白质节点的序号,n表示蛋白质节点的个数;
S23、扩展操作,对所述概率矩阵进行e次幂运算,公式如下:
Mexp=M×M
S24、膨胀操作对所述概率矩阵内元素进行r次幂运算,再进行标准化,公式如下:
Figure BDA0002462518980000032
其中,Mr(i,j)表示矩阵内元素M(i,j)进行r次幂运算,膨胀操作将概率矩阵中每一个值进行幂运算,强化连接紧密的点,弱化松散的点,增强区分度;
S25、重复步骤S23和步骤S24,直至所述概率矩阵稳定;
S26、将稳定的概率矩阵转化为聚类CT,CT={C1,C2,…,CT};
其中,CT表示T个时刻形成的聚类集合,C1,C2,…,CT分别表示时刻1的聚类、时刻2的聚类至时刻T的聚类。
进一步地,所述步骤S3具体为:
S31、选择种子节点,计算每个节点的聚类系数,选择聚类系数大于给定阈值的节点作为种子节点,加入到当前时刻t的种子节点集合St中,节点vi的聚类系数公式如下:
Figure BDA0002462518980000033
其中,
Figure BDA0002462518980000034
表示在时刻t节点i的邻居节点数,
Figure BDA0002462518980000035
表示在时刻t节点i的邻居节点之间边的个数;
S32、扩展种子节点vi,生成核心蛋白F;当vi的邻居节点vj,满足Coh(F,vj)≥α时,将vj添加到核心蛋白F中,其中,α=0.8,公式如下:
Figure BDA0002462518980000041
其中,Coh(F,vj)表示节点vj与核心蛋白的紧密度,α表示紧密度的阈值,在时刻t,
Figure BDA0002462518980000042
是节点
Figure BDA0002462518980000043
连接核心蛋白F的边数,|Vf|是核心蛋白F的节点数,
Figure BDA0002462518980000044
是核心蛋白F的密度,
Figure BDA0002462518980000045
|Vf|和|Ef|分别表示核心蛋白F的节点数和边数;
S33、通过核心蛋白F,对聚类进行合并,生成蛋白质复合物;对T个时刻的聚类CT={C1,C2,…,CT}进行核心附着优化,生成T个时刻的蛋白质复合物集合CompT={Comp1,Comp2,…,CompT},CompT表示T个时刻形成的复合物集合,Comp1表示时刻1形成的复合物集合,Comp2表示时刻2形成的复合物集合,CompT表示时刻T形成的复合物集合;
Figure BDA0002462518980000046
时,
Figure BDA0002462518980000047
表示核心蛋白质集合,
Figure BDA0002462518980000048
是含有核心蛋白
Figure BDA0002462518980000049
的聚类,β表示判定
Figure BDA00024625189800000410
是否具有核心蛋白的阈值,其中,β≥0.7;
Figure BDA00024625189800000411
是不含有核心蛋白F的聚类,如果
Figure BDA00024625189800000412
中所有蛋白质与
Figure BDA00024625189800000413
中的核心蛋白F相连的边数不少于核心蛋白F内节点数的一半,则
Figure BDA00024625189800000414
中的节点为核心蛋白F的附属节点;最终形成蛋白质复合物
Figure BDA00024625189800000415
其中
Figure BDA00024625189800000416
Compt表示时刻t的蛋白质复合物集合。
进一步地,所述步骤S4具体为:
S41、使用重叠分数sim(compi,compj),测量两个蛋白质复合物compi和compj的相似性,所述重叠分数sim(compi,compj)的公式如下:
Figure BDA00024625189800000417
其中,
Figure BDA00024625189800000418
Figure BDA00024625189800000419
表示蛋白质复合物compi和compj节点的个数;当sim(compi,compj)≥γ并且
Figure BDA00024625189800000420
则移除蛋白质复合物
Figure BDA00024625189800000421
其中γ是阈值,
Figure BDA00024625189800000422
Figure BDA00024625189800000423
分别表示蛋白质复合物compi和compi的密度。
S42、采用上述方法,滤除T个时刻的蛋白质复合物集合CompT中高度重叠的蛋白质复合物,输出最终的蛋白质复合物集合COMP。
较现有技术相比,本发明具有以下优点:
本发明提供的动态蛋白质复合物识别方法,不但可以抑制小类的产生,而且能够识别重叠的蛋白质。本发明提出了从动态蛋白质相互作用网络中识别蛋白质复合物的计算方法,更符合实际生物过程的PPI网络,提供更准确的蛋白质复合物识别结果。蛋白质复合物在生物体内控制细胞活动中起着重要作用,用本发明的方法预测的蛋白质复合物的信息可以为生物学家提供参考。
基于上述理由本发明可在生物信息学等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明方法识别出的蛋白质复合物。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种包括如下步骤:
S1、结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;
基因表达是指将来自基因的遗传信息合成功能性基因产物的过程,基因表达产物通常是蛋白质。利用基因表达数据提取蛋白质的动态信息,因此结合基因表达数据可以研究蛋白质相互作用的动态变化。
进一步地作为本发明优选的实施方式,所述步骤S1具体为:
S11、静态PPI网络建模为无向图G=(V,E),其中V表示蛋白质节点集合,E表示蛋白质节点之间边的集合;
S12、基于基因表达数据判断蛋白质的活跃度,将N个蛋白质在T个时间点的基因表达数据表示为N×T的矩阵H;在时间点t,假设一个蛋白质i的基因表达式值大于或等于其激活阈值ACT(i),则该蛋白质i被认为是活跃的;其激活阈值ACT(i)的表达式如下:
ACT(i)=u(i)+3σ(i)(1-F(i))
其中,
Figure BDA0002462518980000061
表示蛋白质i从时刻1到T的平均值,σ(i)表示蛋白质i从时刻1到T的标准差;F(i)=1/(1+σ2(i))为权重方程,反映了蛋白质i表达值的波动;
S13、基于步骤S11和步骤S12构建动态蛋白质相互作用网络,具体为:
GT={G1,G2,…,GT}
其中,GT=(V,ET),ET表示T时刻蛋白质节点之间边的集合、如果eij∈E,并且Hit≥ACT(i),Hjt≥ACT(j),那么eij∈ET;即蛋白质i和j在时刻t的活跃度都大于等于阈值时,eij在动态蛋白质相互作用网络GT中存在;eij表示蛋白质节点i和蛋白质节点j之间的边、Hit表示蛋白质i在t时刻的基因表达数据、Hjt表示蛋白质j在t时刻的基因表达数据。
S2、基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类;
进一步地作为本发明优选的实施方式,所述步骤S2具体为:
S21、建立邻接矩阵,公式如下:
Figure BDA0002462518980000071
其中,(vi,vj)表示蛋白质节点i和j之间的边,wij表示边(vi,vj)的权值,wix表示边(vi,vx)的权值,maxx≠iwix表示所有与i相连的边中权值的最大值;
S22、标准概率矩阵,公式如下:
Figure BDA0002462518980000072
其中,M表示在图上随机游走的转移概率,M(i,j)表示节点vi转移到节点vj的概率,M(k,j)表示节点vk转移到节点vj的概率,k表示蛋白质节点的序号,n表示蛋白质节点的个数;
S23、扩展操作,对所述概率矩阵进行e次幂运算,e=2,公式如下:
Mexp=M×M
S24、膨胀操作对所述概率矩阵内元素进行r次幂运算,r=2,再进行标准化,公式如下:
Figure BDA0002462518980000073
其中,Mr(i,j)表示矩阵内元素M(i,j)进行r次幂运算,膨胀操作将概率矩阵中每一个值进行幂运算,强化连接紧密的点,弱化松散的点,增强区分度;
S25、重复步骤S23和步骤S24,直至所述概率矩阵稳定;
S26、将稳定的概率矩阵转化为聚类CT,CT={C1,C2,…,CT};
其中,CT表示T个时刻形成的聚类集合,C1,C2,…,CT分别表示时刻1的聚类、时刻2的聚类至时刻T的聚类。
S3、通过核心附着结构对步骤S2中的聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;根据核心蛋白质有以下三个主要特征对聚类结果进行优化。
(1)每个蛋白质复合物都有唯一的核心蛋白集合;
(2)核心蛋白质之间有相对较多的连接;
(3)附属蛋白质与和核心蛋白质相连接而组成蛋白质复合物。
进一步地作为本发明优选的实施方式,所述步骤S3具体为:
S31、选择种子节点,计算每个节点的聚类系数,选择聚类系数大于给定阈值的节点作为种子节点,加入到当前时刻t的种子节点集合St中,种子节点是候选聚类中心,代表不同蛋白质复合物聚类。根据图的拓扑性,蛋白质复合物中心通常对应着高聚类系数的子图。节点vi的聚类系数公式如下:
Figure BDA0002462518980000081
其中,
Figure BDA0002462518980000082
表示在时刻t节点i的邻居节点数,
Figure BDA0002462518980000083
表示在时刻t节点i的邻居节点之间边的个数;
S32、扩展种子节点vi,生成核心蛋白F;当vi的邻居节点vj,满足Coh(F,vj)≥α时,将vj添加到核心蛋白F中,其中,α=0.8,公式如下:
Figure BDA0002462518980000084
其中, Coh(F,vj)表示节点vj与核心蛋白的紧密度, α表示紧密度的阈值,在时刻t,
Figure BDA0002462518980000085
是节点
Figure BDA0002462518980000086
连接核心蛋白F的边数,|Vf|是核心蛋白F的节点数,
Figure BDA0002462518980000087
是核心蛋白F的密度,
Figure BDA0002462518980000088
|Vf|和|Ef|分别表示核心蛋白F的节点数和边数;
S33、通过核心蛋白F,对聚类进行合并,生成蛋白质复合物;对T个时刻的聚类CT={C1,C2,…,CT}进行核心附着优化,生成T个时刻的蛋白质复合物集合CompT={Comp1,Comp2,…,CompT},CompT表示T个时刻形成的复合物集合,Comp1表示时刻1形成的复合物集合,Comp2表示时刻2形成的复合物集合,CompT表示时刻T形成的复合物集合;
Figure BDA0002462518980000089
时,
Figure BDA00024625189800000810
表示核心蛋白质集合,
Figure BDA00024625189800000811
是含有核心蛋白
Figure BDA00024625189800000812
的聚类,β表示判定
Figure BDA00024625189800000813
是否具有核心蛋白的阈值,其中,β≥0.7;
Figure BDA00024625189800000814
是不含有核心蛋白F的聚类,如果
Figure BDA00024625189800000815
中所有蛋白质与
Figure BDA00024625189800000816
中的核心蛋白F相连的边数不少于核心蛋白F内节点数的一半,则
Figure BDA00024625189800000817
中的节点为核心蛋白F的附属节点;最终形成蛋白质复合物
Figure BDA00024625189800000818
其中
Figure BDA00024625189800000819
Compt表示时刻t的蛋白质复合物集合。
S4、滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。
进一步地作为本发明优选的实施方式,所述步骤S4具体为:
S41、使用重叠分数sim(compi,compj),测量两个蛋白质复合物compi和compj的相似性,所述重叠分数sim(compi,compj)的公式如下:
Figure BDA0002462518980000091
其中,
Figure BDA0002462518980000092
Figure BDA0002462518980000093
表示蛋白质复合物compi和compj节点的个数;当sim(compi,compj)≥γ并且
Figure BDA0002462518980000094
则移除蛋白质复合物
Figure BDA0002462518980000095
其中γ是阈值,
Figure BDA0002462518980000096
Figure BDA0002462518980000097
分别表示蛋白质复合物compi和compi的密度。
S42、采用上述方法,滤除T个时刻的蛋白质复合物集合CompT中高度重叠的蛋白质复合物,输出最终的蛋白质复合物集合COMP。如图2所示,为本发明方法识别出的蛋白质复合物。
为了验证本发明方法的有效性,本发明还与ClusterONE(clustering withoverlapping neighborhood expansion,基于重叠邻居扩张的聚类)、MCL(MarkovClustering,马尔可夫聚类算法)、COACH(Core-Attachment,核心扩展算法)、RRW(repeatedrandom walks,随机游走算法)、MCODE(Molecular Complex Detection,MCODE,分子复合物侦测算法)这5种方法的性能进行了比较,在实验中采用的蛋白质相互作用数据集包括DIP、BioGrid、Gavin、Collins,见表1:
表1蛋白质相互作用数据集
序号 数据集 蛋白质个数 相互作用个数
1 DIP 5221 24918
2 BioGrid 7161 53791
3 Gavin 1430 6531
4 Collins 1622 9074
基因表达数据来自GEO数据库的GSE3431。预测的蛋白质复合物与基准数据库CYC2008、MIPS中的酵母标准蛋白质复合物做对比,见表2:
表2标准蛋白质复合物数据库
序号 数据集 蛋白质个数 相互作用个数 蛋白质复合物个数
1 CYC2008 1627 408 408
2 MIPS 1189 11119 203
上述5种方法都是根据静态PPI网络设计的蛋白质复合物识别方法,将这5种方法应用于静态网络并将本发明方法应用于构建的动态PPI网络。结果表明,本发明方法在DIP,BioGrid,Gavin和Collins数据库上的性能优于其他5种方法,本发明方法具有高召回率和精确性。
为了进一步验证本发明方法的有效性,分析了预测蛋白复合物的生物学意义。蛋白质复合物与GO注释的p值相关联。如果p值小于0.01,则预测的复合物具有生物学意义。在BioGrid和未加权Gavin数据集上,本发明方法的P值远高于MCODE和MCL,这表明本发明方法预测的蛋白质复合物具有重要的生物学功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种动态蛋白质复合物识别方法,其特征在于,包括如下步骤:
S1、结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;
所述步骤S1具体为:
S11、静态PPI网络建模为无向图G=(V,E),其中V表示蛋白质节点集合,E表示蛋白质节点之间边的集合;
S12、基于基因表达数据判断蛋白质的活跃度,将N个蛋白质在T个时间点的基因表达数据表示为N×T的矩阵H;在时间点t,假设一个蛋白质i的基因表达式值大于或等于其激活阈值ACT(i),则该蛋白质i被认为是活跃的;其激活阈值ACT(i)的表达式如下:
ACT(i)=u(i)+3σ(i)(1-F(i))
其中,表示蛋白质i从时刻1到T的平均值,σ(i)表示蛋白质i从时刻1到T的标准差;F(i)=1/(1+σ2(i))为权重方程,反映了蛋白质i表达值的波动;
S13、基于步骤S11和步骤S12构建动态蛋白质相互作用网络,具体为:
GT={G1,G2,…,GT}
其中,GT=(V,ET),ET表示T时刻蛋白质节点之间边的集合、如果eij∈E,并且Hit≥ACT(i),Hjt≥ACT(j),那么eij∈ET;即蛋白质i和j在时刻t的活跃度都大于等于阈值时,eij在动态蛋白质相互作用网络GT中存在;eij表示蛋白质节点i和蛋白质节点j之间的边、Hit表示蛋白质i在t时刻的基因表达数据、Hjt表示蛋白质j在t时刻的基因表达数据;
S2、基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类;
S3、通过核心附着结构对步骤S2中的聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;
S4、滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。
2.根据权利要求1所述的动态蛋白质复合物识别方法,其特征在于,所述步骤S2具体为:
S21、建立邻接矩阵,公式如下:
其中,(vi,vj)表示蛋白质节点i和j之间的边,wij表示边(vi,vj)的权值,wix表示边(vi,vx)的权值,maxx≠iwix表示所有与i相连的边中权值的最大值;
S22、标准概率矩阵,公式如下:
其中,M表示在图上随机游走的转移概率,M(i,j)表示节点vi转移到节点vj的概率,M(k,j)表示节点vk转移到节点vj的概率,k表示蛋白质节点的序号,n表示蛋白质节点的个数;
S23、扩展操作,对所述概率矩阵进行e次幂运算,公式如下:
Mexp=M×M
S24、膨胀操作对所述概率矩阵内元素进行r次幂运算,再进行标准化,公式如下:
其中,Mr(i,j)表示矩阵内元素M(i,j)进行r次幂运算,膨胀操作将概率矩阵中每一个值进行幂运算,强化连接紧密的点,弱化松散的点,增强区分度;
S25、重复步骤S23和步骤S24,直至所述概率矩阵稳定;
S26、将稳定的概率矩阵转化为聚类CT,CT={C1,C2,…,CT};
其中,CT表示T个时刻形成的聚类集合,C1,C2,…,CT分别表示时刻1的聚类、时刻2的聚类至时刻T的聚类。
3.根据权利要求1所述的动态蛋白质复合物识别方法,其特征在于,所述步骤S3具体为:
S31、选择种子节点,计算每个节点的聚类系数,选择聚类系数大于给定阈值的节点作为种子节点,加入到当前时刻t的种子节点集合St中,节点vi的聚类系数公式如下:
其中,表示在时刻t节点i的邻居节点数,表示在时刻t节点i的邻居节点之间边的个数;
S32、扩展种子节点vi,生成核心蛋白F;当vi的邻居节点vj,满足Coh(F,vj)≥α时,将vj添加到核心蛋白F中,其中,α=0.8,公式如下:
其中,Coh(F,vj)表示节点vj与核心蛋白的紧密度,α表示紧密度的阈值,在时刻t,是节点连接核心蛋白F的边数,|Vf|是核心蛋白F的节点数,是核心蛋白F的密度,|Vf|和|Ef|分别表示核心蛋白F的节点数和边数;
S33、通过核心蛋白F,对聚类进行合并,生成蛋白质复合物;对T个时刻的聚类CT={C1,C2,…,CT}进行核心附着优化,生成T个时刻的蛋白质复合物集合CompT={Comp1,Comp2,…,CompT},CompT表示T个时刻形成的复合物集合,Comp1表示时刻1形成的复合物集合,Comp2表示时刻2形成的复合物集合,CompT表示时刻T形成的复合物集合;
时,表示核心蛋白质集合,是含有核心蛋白的聚类,β表示判定是否具有核心蛋白的阈值,其中,β≥0.7;是不含有核心蛋白F的聚类,如果中所有蛋白质与中的核心蛋白F相连的边数不少于核心蛋白F内节点数的一半,则中的节点为核心蛋白F的附属节点;最终形成蛋白质复合物其中Compt表示时刻t的蛋白质复合物集合。
4.根据权利要求1所述的动态蛋白质复合物识别方法,其特征在于,所述步骤S4具体为:
S41、使用重叠分数sim(compi,compj),测量两个蛋白质复合物compi和compj的相似性,所述重叠分数sim(compi,compj)的公式如下:
其中,表示蛋白质复合物compi和compj节点的个数;当sim(compi,compj)≥γ并且则移除蛋白质复合物其中γ是阈值,分别表示蛋白质复合物compi和compi的密度;
S42、采用上述方法,滤除T个时刻的蛋白质复合物集合CompT中高度重叠的蛋白质复合物,输出最终的蛋白质复合物集合COMP。
CN202010324055.3A 2020-04-22 2020-04-22 一种动态蛋白质复合物识别方法 Active CN111667886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010324055.3A CN111667886B (zh) 2020-04-22 2020-04-22 一种动态蛋白质复合物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010324055.3A CN111667886B (zh) 2020-04-22 2020-04-22 一种动态蛋白质复合物识别方法

Publications (2)

Publication Number Publication Date
CN111667886A CN111667886A (zh) 2020-09-15
CN111667886B true CN111667886B (zh) 2023-04-18

Family

ID=72382769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010324055.3A Active CN111667886B (zh) 2020-04-22 2020-04-22 一种动态蛋白质复合物识别方法

Country Status (1)

Country Link
CN (1) CN111667886B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470737A (zh) * 2021-07-03 2021-10-01 中国科学院新疆理化技术研究所 一种基于高阶结构的生物网络聚类方法和系统
CN113936743B (zh) * 2021-11-12 2024-04-26 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004051544A2 (en) * 2002-12-02 2004-06-17 Mount Sinai Hospital Methods and products for representing and analyzing complexes of biological molecules
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN106228036A (zh) * 2016-07-26 2016-12-14 陕西师范大学 一种采用烟花算法识别蛋白质复合物的方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN108932402A (zh) * 2018-06-27 2018-12-04 华中师范大学 一种蛋白质复合物识别方法
CN109509509A (zh) * 2018-09-29 2019-03-22 江西理工大学 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法
CN110517729A (zh) * 2019-09-02 2019-11-29 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113004A1 (en) * 2015-12-31 2017-07-06 Cyclica Inc. Methods for proteome docking to identify protein-ligand interactions

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004051544A2 (en) * 2002-12-02 2004-06-17 Mount Sinai Hospital Methods and products for representing and analyzing complexes of biological molecules
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN106228036A (zh) * 2016-07-26 2016-12-14 陕西师范大学 一种采用烟花算法识别蛋白质复合物的方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN108932402A (zh) * 2018-06-27 2018-12-04 华中师范大学 一种蛋白质复合物识别方法
CN109509509A (zh) * 2018-09-29 2019-03-22 江西理工大学 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法
CN110517729A (zh) * 2019-09-02 2019-11-29 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

Also Published As

Publication number Publication date
CN111667886A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
Beaumont Detecting population expansion and decline using microsatellites
Meng et al. scAAGA: Single cell data analysis framework using asymmetric autoencoder with gene attention
CN111667886B (zh) 一种动态蛋白质复合物识别方法
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
Xu et al. From function to interaction: A new paradigm for accurately predicting protein complexes based on protein-to-protein interaction networks
CN113361954A (zh) 归因分析方法、装置、设备及存储介质
Recanati et al. A spectral algorithm for fast de novo layout of uncorrected long nanopore reads
Liu et al. A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks
CN106844533B (zh) 一种数据分组聚集方法及装置
Miller et al. Post-glacial expansion dynamics, not refugial isolation, shaped the genetic structure of a migratory bird, the yellow warbler
Ma et al. Fuzzy nodes recognition based on spectral clustering in complex networks
JP2012079225A (ja) 協調フィルタリング処理方法およびプログラム
CN112966156B (zh) 基于结构扰动与线性优化的有向网络链路预测方法
Patra et al. Motif discovery in biological network using expansion tree
Faridoon et al. Combining SVM and ECOC for identification of protein complexes from protein protein interaction networks by integrating amino acids’ physical properties and complex topology
Shemirani et al. Selecting Clustering Algorithms for IBD Mapping
Das et al. A novel clustering method to identify cell types from single cell transcriptional profiles
Das et al. Evolutionary biclustering with correlation for gene interaction networks
CN110504004A (zh) 一种基于复杂网络结构可控性基因的识别方法
Casagrande et al. Translating time-course gene expression profiles into semi-algebraic hybrid automata via dimensionality reduction
Zhou et al. Ant-MST: An ant-based minimum spanning tree for gene expression data clustering
Luo et al. A cell-core-attachment approach for identifying protein complexes in ppi network
Mahdipour et al. Biological Network Alignment Using Hybrid Genetic Algorithm and Simulated Annealing
Zervou et al. Efficient dynamic analysis of low-similarity proteins for structural class prediction
CN109474574B (zh) 一种数据加密方法及装置、一种数据解密方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant