CN111916149A - 基于层次聚类的蛋白质相互作用网络全局比对方法 - Google Patents

基于层次聚类的蛋白质相互作用网络全局比对方法 Download PDF

Info

Publication number
CN111916149A
CN111916149A CN202010838335.6A CN202010838335A CN111916149A CN 111916149 A CN111916149 A CN 111916149A CN 202010838335 A CN202010838335 A CN 202010838335A CN 111916149 A CN111916149 A CN 111916149A
Authority
CN
China
Prior art keywords
node
nodes
similarity score
similarity
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010838335.6A
Other languages
English (en)
Other versions
CN111916149B (zh
Inventor
陈璟
田盼盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010838335.6A priority Critical patent/CN111916149B/zh
Publication of CN111916149A publication Critical patent/CN111916149A/zh
Application granted granted Critical
Publication of CN111916149B publication Critical patent/CN111916149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于层次聚类的蛋白质相互作用网络全局比对方法,包括:获取两个生物网络的数据及序列相似性文件,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j),根据序列相似性文件计算序列相似性得分B(i,j),结合T(i,j)和B(i,j)计算节点相似性得分S(i,j);采用层次聚类算法和组合优化算法筛选种子;计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)扩展种子得到扩展集;构建二分图比对剩余节点对,合并得到比对集。本发明更全面地计算T(i,j),筛选种子并扩展、合并,提高比对结果的拓扑性能且覆盖范围更广;采用层次聚类算法和组合优化算法筛选种子,提升拓扑性能的同时保证生物性能,提高效率。

Description

基于层次聚类的蛋白质相互作用网络全局比对方法
技术领域
本发明涉及生物信息学中对蛋白质相互作用网络的分析领域,具体涉及一种基于层次聚类的蛋白质相互作用网络全局比对方法。
背景技术
蛋白质相互作用(PPI,Protein-protein interaction)是指蛋白质分子之间的相关性,并从生物化学、信号转导和遗传网络的角度研究这种相关性。近年来,随着高通量筛选技术的发展,通过实验方法检测到蛋白质相互作用的数量有了大幅度增加,形成了越来越多的蛋白质相互作用网络。对蛋白质相互作用网络的分析能够增进对生物学过程的理解,不同物种间相互作用组的比对在蛋白质功能预测、保守功能成分检测、物种间知识转移等方面有着重要意义。因此,将两个蛋白质相互作用网络进行一对一比对,在两个网络中找到节点间的最佳映射关系得到了越来越多的研究。
常见的两个网络间的比对方法有二步算法和基于目标函数的搜索算法。二步算法分为两步进行,第一步是计算输入网络间的节点相似性,构建节点得分矩阵;第二步是节点相似性得分为权重,构建二分图,利用贪心或其他算法求解二分图的最大加权匹配问题,从而得到比对结果。基于目标函数的搜索算法是先构建目标函数,以目标函数为优化目标,用搜索算法不断调整比对结果以产生更优解。目标函数一般由拓扑相似性和生物相似性构成,拓扑相似性计算节点在网络结构上的相似性,现有的计算方法有计算度、Importance等;生物相似性可以是序列相似性,例如BLAST bit score、BLAST E-value等,也可以是功能相似性,利用蛋白质的GO(Gene ontology,基因本体论)术语计算节点间的语义相似性以此比较蛋白质的功能相似性。SPINAL(见文献SPINAL:scalable protein interactionnetwork alignment.[J].Bioinformatics,2013)方法将比对过程被分为粗粒度阶段和细粒度阶段,在粗粒度阶段,构建邻域二分图计算节点间的相似性;在细粒度阶段,先选择相似性得分最高的节点对为种子,先比对上种子节点,以当前比对集合中的节点对构建邻域二分图,以节点相似性为权重,寻找最大加权匹配,对匹配结果做局部优化找到最佳匹配结果并将比对结果添加到比对集合中,得到最终比对。但此方法对节点的拓扑信息研究不充分,导致比对结果中拓扑结果较差。ModuleAlign(见文献Somaye H,Jianzhu M,Hammad N,et al.ModuleAlign:module-based global alignment of protein–proteininteraction networks[J].Bioinformatics(17):i658-i664)方法首先利用HAC-ML算法划分网络模块,基于模块计算节点间的同源得分,将同源得分与节点对的拓扑得分Importance结合构成节点的比对得分矩阵。然后分两步开始比对:第一步,利用匈牙利算法计算网络中节点间的最佳匹配,以此比对拓扑和功能一致的蛋白质;第二步,通过更新比对得分来最大化进化保守相互作用的数量,重复此过程直至小网络中的节点都被比对上。这种方法利用模块化的思想来计算节点间的同源得分,但模块化的选择不适合,导致其生物性能较差,且运行时间较长、效率低。PROPER(见文献ROPER:global proteininteractionnetwork alignment through percolationmatching,BMC bioinformatics,2016,17(1):527)方法首先根据序列相似性筛选部分得分较高的节点对为种子节点,接着根据种子计算其邻居节点的结构相似性,选择得分最高的节点对扩展至比对集合,再对新添加的比对节点对计算其邻居节点的结构相似性,重复上述过程直到没有可选择的节点对。这种方法在筛选种子时,仅依靠序列信息,但序列信息存在不完整性,会导致比对错误;并且扩展过程不能覆盖到小网络中的所有节点,存在部分节点应该被比对上却未比对上的问题,拓扑性能不好。
发明内容
本发明要解决的技术问题是提供一种对两个蛋白质相互作用网络进行比对,在保证生物性能的同时提升拓扑性能,提高效率及扩大比对覆盖范围的基于层次聚类的蛋白质相互作用网络全局比对方法。
为解决上述技术问题,本发明提供了一种基于层次聚类的蛋白质相互作用网络全局比对方法,包括以下步骤:
步骤1:输入两个生物网络G1、G2,获取网络结构数据及其序列相似性文件,将蛋白质看做节点,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对间的拓扑相似性得分T(i,j),根据序列相似性文件计算节点对的序列相似性得分B(i,j),结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j);
步骤2:采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,筛选出节点对作为种子;
步骤3:计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)选择节点对加入种子集合,不断扩展种子直到覆盖所有可能的节点对,得到扩展集;
步骤4:构建二分图对剩余节点对比对,将比对结果合并到扩展集中,得到最终的比对集,即为最终找出的网络G1、G2中节点间的一对一的映射关系的集合。
进一步地,所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为:
步骤1-1:获取两个输入网络G1=(V1,E1),G2=(V2,E2),V1、V2表示节点集合,节点表示蛋白质;E1、E2表示边集合,边表示蛋白质间的相互作用;N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合。拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性,计算节点i、j的拓扑相似性得分T(i,j)的过程如下:
首先,初始化T0(i,j)=1;其次,构建二分图Gb=(Vb,Eb),其中Vb由N(i)的节点和N(j)的节点的两个不相交集合组成,Eb中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成,其中i'∈N(i),j'∈N(j),边的权重w(i',j')=Tt(i',j');接着,找到Gb的匹配集合M;最后,计算该匹配M对应的Tt+1(i,j)值:
Figure BDA0002640503490000041
其中,d(i)、d(j)表示节点i、j的度,MaxD表示在G1、G2所有节点中度的最大值,t是预设的迭代次数,θ是平衡邻居节点和节点本身拓扑相似性比重的参数,0≤θ≤1。多次迭代后,Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分;
步骤1-2:根据序列相似性文件计算节点对的序列相似性得分B(i,j):
Figure BDA0002640503490000042
其中,blast(i,j)表示节点i、j之间的BLAST bit-score得分,即序列相似性文件中的值;Minb表示G1、G2网络中节点对的BLAST bit-score得分的最小值,Maxb表示网络中节点对的BLAST bit-score得分的最大值;
步骤1-3:结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j),计算节点相似性得分S(i,j):
S(i,j)=α×B(i,j)+(1-α)×T(i,j)
其中,α是平衡拓扑和序列权重的参数,0≤α≤1。
进一步地,所述步骤1-1中找到Gb的匹配集合M的方法为采用贪心算法,具体过程为先选中权重最大的边加入到匹配集合M中,其中每一条边对应一组节点的映射关系,再删除这条边连接的两个节点及其相连的其他边,接着重复上述步骤,直到图中没有可选择的边,则比对结束,得到最终的匹配集合M。
进一步地,所述步骤2中采用的组合优化算法为匈牙利算法。
进一步地,所述步骤2中筛选种子节点对的具体过程如下:
步骤2-1:采用层次聚类方法从网络中提取功能模块,将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块;
步骤2-2:根据功能模块内的节点相似性得分S(i,j),将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分,即所有模块间的相似性之和最大时的一种模块对应关系;
步骤2-3:利用匈牙利算法对各个功能模块间的相似性得分进行处理,得到最佳功能模块匹配结果,即各个功能模块间的相似性得分的排序集合,并筛选出节点对作为种子。
进一步地,所述步骤2-1中采用的层次聚类算法为Jerarca算法,具体为先计算节点间的加权距离,接着将距离矩阵转换成层次结构树,最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块,以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。
进一步地,所述步骤2-3中筛选出节点对作为种子,其中筛选出的种子为最佳模块匹配结果中前15%的节点。
进一步地,所述步骤3中不断扩展种子直到覆盖所有可能的节点,具体过程为:
步骤3-1:将与种子节点直接连接的且跨度为1的节点集合作为邻居节点,计算种子中各节点对的邻居节点的结构相似性得分score(i,j),将种子节点作为匹配集,score(i,j)为该节点对中其邻居节点对中属于种子的节点对数;
步骤3-2:选择结构相似性得分score(i,j)最大的节点对添加到匹配集;
步骤3-3:更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j);
步骤3-4:重复步骤3-2和步骤3-3,直到覆盖所有可能的节点,得到扩展集。
进一步地,所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时,若存在多个节点对满足此条件,则进一步计算这几个节点对的度差值,选择度差值最小的节点对加入;若最小度差值也有多个节点对,则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。
进一步地,所述步骤4中构建二分图对剩余节点比对的过程为:
步骤4-1:查找出两个生物网络G1、G2中不属于扩展集的节点,构建二分图Gb',图中所有边的权重为该节点对的节点相似性得分S(i,j);
步骤4-2:选择二分图Gb'中权重最大的边,若此边对应的节点对均未在扩展集中出现过,则将该节点对添加到扩展集中,同时删除该节点对在二分图Gb'中的相应节点对和相关的边,剩余节点对和边保持不变;
步骤4-3:重复步骤4-2,直到二分图Gb'中无可选择的节点对存在,比对结束,得到最终的比对集。
本发明的有益效果:
通过同时考虑节点本身以及邻居节点的拓扑特征,更全面地计算节点对的拓扑相似性得分;通过结构相似性得分对种子进行扩展,并在扩展后对剩余节点构建二分图,进行最大加权匹配并合并,使得所有节点都有参加比对的机会,提高比对的拓扑性能,产生更多的比对节点数、覆盖范围更广。
通过采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,从密集模块中筛选种子,减少了种子筛选错误的影响,提升拓扑性能的同时保证了生物性能,有效提高了对比效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
术语“包括”意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备,没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
参照图1本发明的流程图,一种基于层次聚类的蛋白质相互作用网络全局比对方法的实施例,包括以下步骤:
步骤1:输入两个生物网络G1、G2,获取网络数据,即网络中需要比对的两个物质的结构信息及序列相似性文件,序列相似性文件是从生物角度可以找到的蛋白质序列间的相似性得分,输入的是由节点间的BLAST bit-score得分构成的相似性文件,将蛋白质看做节点,节点i、节点j分别属于两个网络。考虑节点本身以及邻居节点的拓扑特征计算节点对间的拓扑相似性得分T(i,j),根据序列相似性文件计算节点对的序列相似性得分B(i,j),结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j)。
步骤1-1:两个输入网络G1=(V1,E1),G2=(V2,E2),V1、V2表示节点集合,节点表示蛋白质;E1、E2表示边集合,边表示蛋白质间的相互作用;N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合。拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性,计算节点i、j的拓扑相似性得分T(i,j)的过程如下:
首先,初始化T0(i,j)=1;其次,构建二分图Gb=(Vb,Eb),其中Vb由N(i)的节点和N(j)的节点的两个不相交集合组成,Eb中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成,其中i'∈N(i),j'∈N(j),边的权重w(i',j')=Tt(i',j');接着,用贪心算法找到Gb的匹配集合M,具体过程是先选中权重最大的边加入到匹配集合M中,其中每一条边对应一组节点的映射关系,再删除这条边连接的两个节点及其相连的其他边,接着重复上述步骤,直到图中没有可选择的边,则比对结束,得到最终的匹配集合M;最后,计算该匹配M对应的Tt+1(i,j)值:
Figure BDA0002640503490000081
其中,d(i)、d(j)表示节点i、j的度,MaxD表示在G1、G2所有节点中度的最大值,t是迭代次数,本实施例中,设置的设迭代次数为2,达到迭代次数,计算结束,θ是平衡邻居节点和节点本身拓扑相似性比重的参数,本实施例中,设置的θ值为0.5。多次迭代后,Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分。
步骤1-2:根据序列相似性文件计算节点对的序列相似性得分B(i,j):
Figure BDA0002640503490000082
其中,blast(i,j)表示节点i、j之间的BLAST bit-score得分,即序列相似性文件中的值;Minb表示G1、G2网络中节点对的BLAST bit-score得分的最小值,Maxb表示网络中节点对的BLAST bit-score得分的最大值。
步骤1-3:结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j),计算节点相似性得分S(i,j):
S(i,j)=α×B(i,j)+(1-α)×T(i,j)
其中,α是平衡拓扑和序列权重的参数,本实施例中,设置的α值为0.4。
步骤2:利用层次聚类算法从网络中提取功能模块,采用匈牙利算法比对功能模块,筛选出节点对作为种子。
步骤2-1:利用Jerarca(见文献ALDECOA R,MARIN I.Jerarca:efficientanalysis of complex networks using hierarchical clustering[J].Plos One,2010,5(7):e11585)层次聚类方法提取功能模块,首先计算节点间的加权距离,接着将距离矩阵转换成层次结构树,最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块,以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。
步骤2-2:根据功能模块内的节点相似性得分S(i,j),将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分,即所有模块间的相似性之和最大时的一种模块对应关系。
步骤2-3:利用匈牙利算法对各个功能模块间的相似性得分进行处理,得到最佳功能模块匹配结果,即各个功能模块间的相似性得分的排序集合,并从中筛选出前15%的节点对作为种子。
步骤3:计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)选择节点对加入种子集合,不断扩展种子直到覆盖所有可能的节点对,得到扩展集;
步骤3-1:将与种子节点直接连接的且跨度为1的节点集合作为邻居节点,计算种子中各节点对的邻居节点的结构相似性得分score(i,j),将种子节点作为匹配集。score(i,j)为该节点对中其邻居节点对中属于种子的节点对数,本实施例中,对于节点对(i,j),当且仅当(i,i')∈E1,(j,j')∈E2,则(i',j')∈V1×V2是节点对(i,j)的邻居节点对。
步骤3-2:选择结构相似性得分score(i,j)最大的节点对添加到匹配集;若存在多个节点对满足此条件,则进一步计算这几个节点对的度差值,选择度差值最小的节点对加入;若最小度差值也有多个节点对,则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。
步骤3-3:更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j)。
步骤3-4:重复步骤3-2和步骤3-3,直到所有score(i,j)≥1的节点对都比对上,结束比对,得到扩展集。
步骤4:构建二分图对剩余节点对比对,将比对结果合并到扩展集中,得到最终的比对集,即为最终找出的网络G1、G2中节点间的一对一的映射关系的集合。
步骤4-1:查找出两个生物网络G1、G2中不属于扩展集的节点,构建二分图Gb',图中所有边的权重为该节点对的节点相似性得分S(i,j)。
步骤4-2:选择二分图Gb'中权重最大的边,若此边对应的节点对均未在扩展集中出现过,则将该节点对添加到扩展集中,同时删除该节点对在二分图Gb'中的相应节点对和相关的边,剩余节点和边保持不变。
步骤4-3:重复步骤4-2,直到二分图Gb'中无可选择的节点对存在,比对结束,得到最终的比对集。使得网络中所有的节点对都有机会被比对上,从而得到更好的比对结果。
本发明的有益效果:
通过同时考虑节点本身以及邻居节点的拓扑特征,更全面地计算节点对的拓扑相似性得分;通过结构相似性得分对种子进行扩展,并在扩展后对剩余节点构建二分图,进行最大加权匹配并合并,使得所有节点都有参加比对的机会,提高比对的拓扑性能,产生更多的比对节点数、覆盖范围更广。
通过采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,从密集模块中筛选种子,减少了种子筛选错误的影响,提升拓扑性能的同时保证了生物性能,有效提高了对比效率。
为了更好地说明本发明的技术效果,实施例对本发明进行试验验证。实施例在Isobase数据库的真实网络上选择ce、sc、dm、hs四个物种的网络数据,不同物种的网络中节点数和边数不同,网络规模也不同,设置四组的实验组比较本发明在不同物种对中的比对效果,表明本发明在大多数物种中的适用度。同时在NAPAbench的合成网络CG(公用的提供合成网络数据的数据库,CG是其中一组网络数据)上进行实验。设置三种方法PROPER、SPINAL、ModuleAlign与本发明进行比较,并通过拓扑指标EC(Edge correctness,边正确性)、ICS(induced con-served-structure score,诱导保守子结构得分)和S3(Symmetricsub-structure score,对称子结构得分),生物指标FC(Functional Coherence,功能一致性),比对节点数和运行时间对结果进行分析,其中EC、ICS、S3和FC的值越高,表示对应性能越好。
EC通过计算f映射下保守边在源网络中的比例来评估比对的质量,f表示一种映射关系,全局比对f:V1→V2,是将G1中的V1节点映射到G2的V2节点上,形成一对一的映射关系,EC的计算公式:
Figure BDA0002640503490000111
其中,f(E1)={(f(u),f(u))∈E2|(u,v)∈E1},f(V1)={f(v)∈V2|v∈V1}。|E1|表示G1网络的边数,|f(E1)|表示G1中以f映射方式覆盖G2中的边的边数。
ICS的计算公式:
Figure BDA0002640503490000112
其中,
Figure BDA0002640503490000113
表示G2的诱导子网络的边数,诱导子网络指由G2中比对上的所有节点构成的子网络。
S3的计算公式:
Figure BDA0002640503490000114
其中,分母表示根据比对f将图G1、G2诱导子图重叠得到的复合图中唯一边的数目。
FC利用GO术语计算,Isobase库中有网络对应的GO文件,其中有蛋白质及其对应的GO注释术语,FC的计算公式:
Figure BDA0002640503490000115
Figure BDA0002640503490000116
其中,GO(u)和GO(f(u))表示节点u和f(u)被注释的GO集合。
表1为不同方法在NAPAbench的合成网络CG下的比较结果。表2为不同方法在Isobase数据库真实网络下的比较结果,其中ce-sc表示ce和sc两个物种网络的比对结果,ce-dm表示ce和dm两个物种网络的比对结果,ce-hs表示ce和hs两个物种网络的比对结果,sc-hs表示sc和hs两个物种网络的比对结果,sc-dm表示sc和dm两个物种网络的比对结果,dm-hs表示dm和hs两个物种网络的比对结果。表3为本发明与PROPER算法在比对上的节点数上的比较结果。
EC ICS S<sup>3</sup> FC
本发明JAlign 0.82 0.84 0.71 0.71
PROPER 0.61 0.63 0.45 0.59
SPINAL 0.81 0.82 0.69 0.73
ModuleAlign 0.68 0.68 0.52 0.63
表1不同算法在NAPAbench的合成网络CG下的比较结果
Figure BDA0002640503490000121
Figure BDA0002640503490000131
表2不同算法在Isobase数据库真实网络下的比较结果
CG ce-sc ce-dm ce-hs sc-hs sc-dm dm-hs
本发明 2117 2679 2668 2766 5349 5093 6827
PROPER 1794 2641 2608 2697 5049 6627 5271
表3本发明与PROPER算法在比对上的节点数上的比较结果
从表1可以看出,在拓扑指标上,本发明的结果优于其他三种算法;在生物指标FC上,SPINAL、本发明分别是0.73、0.71,差距很小,PROPER的结果最差。总体而言,本发明在合成网络上的结果在几种算法表现最好。
从表2的前三组实验ce-sc、ce-dm、ce-hs可以看出,ModuleAlign的EC结果最好,本发明仅次于ModuleAlign,PROPER结果最差;ICS和S3结果都是本发明最好。在表2的后三组实验sc-hs、sc-dm、dm-hs中,除了在dm-hs中的EC结果略差于ModuleAlign,其余所有拓扑性能的指标都是结果最好的,PROPER次于本发明,这表明本发明在拓扑性能上结果最好。在生物指标FC上,PROPER表现最好,本发明和效果第二的SPINAL差距很小。结合拓扑性能效果第二的PROPER来看,本发明在保证生物性能的基础上,实现了最好的拓扑功能。
在保证生物性能的同时实现最好拓扑性能的基础上,如表3所示继续将本发明与PROPER在比对上的节点数上进行比较,除了在sc-dm中,本发明找出的节点对数都比PROPER多,能产生更多的比对节点数,本发明在覆盖范围上结果更广,进一步证明了本发明相较于PROPER带来的有益效果。在运行时间上,继续将本发明与SPINAL、ModuleAlign进行比较,SPINAL、ModuleAlign得到比对集分别需要121分50.840秒、207分46.732秒,而本发明只需要52分28.320秒,大大缩短了运行时间,提高比对效率,进一步证明了本发明相较于SPINAL、ModuleAlign带来的有益效果。
总体来看,本发明和PROPER相比在拓扑性能方面明显有很大改进,在生物性能方面略为下降,但在覆盖范围上结果更好;本发明和SPINAL、ModuleAlign相比,在拓扑性能和生物性能上都得到了提高,且运行时间大大缩短。因此,本发明在保证生物性能的基础上实现了最好的拓扑功能,且比对覆盖范围和效率都得到了提高。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于,包括以下步骤:
步骤1:输入两个生物网络G1、G2,获取网络结构数据及其序列相似性文件,将蛋白质看做节点,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j),根据序列相似性文件计算节点对的序列相似性得分B(i,j),结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j);
步骤2:采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,筛选出节点对作为种子;
步骤3:计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)选择节点对加入种子集合,不断扩展种子直到覆盖所有可能的节点对,得到扩展集;
步骤4:构建二分图对剩余节点对比对,将比对结果合并到扩展集中,得到最终的比对集,即为最终找出的网络G1、G2中节点间的一对一的映射关系的集合。
2.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为:
步骤1-1:获取两个输入网络G1=(V1,E1),G2=(V2,E2),V1、V2表示节点集合,节点表示蛋白质;E1、E2表示边集合,边表示蛋白质间的相互作用;N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合;拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性,计算节点i、j的拓扑相似性得分T(i,j)的过程如下:
首先,初始化T0(i,j)=1;其次,构建二分图Gb=(Vb,Eb),其中Vb由N(i)的节点和N(j)的节点的两个不相交集合组成,Eb中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成,其中i'∈N(i),j'∈N(j),边的权重w(i',j')=Tt(i',j');接着,找到Gb的匹配集合M;最后,计算该匹配M对应的Tt+1(i,j)值:
Figure FDA0002640503480000021
其中,d(i)、d(j)表示节点i、j的度,MaxD表示在G1、G2所有节点中度的最大值,t是预设的迭代次数,θ是平衡邻居节点和节点本身拓扑相似性比重的参数,0≤θ≤1;多次迭代后,Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分;
步骤1-2:根据序列相似性文件计算节点对的序列相似性得分B(i,j):
Figure FDA0002640503480000022
其中,blast(i,j)表示节点i、j之间的BLAST bit-score得分,即序列相似性文件中的值;Minb表示G1、G2网络中节点对的BLAST bit-score得分的最小值,Maxb表示网络中节点对的BLASTbit-score得分的最大值;
步骤1-3:结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j),计算节点相似性得分S(i,j):
S(i,j)=α×B(i,j)+(1-α)×T(i,j)
其中,α是平衡拓扑和序列权重的参数,0≤α≤1。
3.根据权利要求2所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤1-1中找到Gb的匹配集合M的方法为采用贪心算法,具体过程为先选中权重最大的边加入到匹配集合M中,其中每一条边对应一组节点的映射关系,再删除这条边连接的两个节点及其相连的其他边,接着重复上述步骤,直到图中没有可选择的边,则比对结束,得到最终的匹配集合M。
4.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2中采用的组合优化算法为匈牙利算法。
5.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2中筛选种子节点对的具体过程如下:
步骤2-1:采用层次聚类方法从网络中提取功能模块,将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块;
步骤2-2:根据功能模块内的节点相似性得分S(i,j),将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分,即所有模块间的相似性之和最大时的一种模块对应关系;
步骤2-3:利用匈牙利算法对各个功能模块间的相似性得分进行处理,得到最佳功能模块匹配结果,即各个功能模块间的相似性得分的排序集合,并筛选出节点对作为种子。
6.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2-1中采用的层次聚类算法为Jerarca算法,具体为先计算节点间的加权距离,接着将距离矩阵转换成层次结构树,最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块,以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。
7.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2-3中筛选出节点对作为种子,其中筛选出的种子为最佳模块匹配结果中前15%的节点。
8.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤3中不断扩展种子直到覆盖所有可能的节点,具体过程为:
步骤3-1:将与种子节点直接连接的且跨度为1的节点集合作为邻居节点,计算种子中各节点对的邻居节点的结构相似性得分score(i,j),将种子节点作为匹配集,score(i,j)为该节点对中其邻居节点对中属于种子的节点对数;
步骤3-2:选择结构相似性得分score(i,j)最大的节点对添加到匹配集;
步骤3-3:更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j);
步骤3-4:重复步骤3-2和步骤3-3,直到覆盖所有可能的节点,得到扩展集。
9.根据权利要求8所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时,若存在多个节点对满足此条件,则进一步计算这几个节点对的度差值,选择度差值最小的节点对加入;若最小度差值也有多个节点对,则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。
10.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤4中构建二分图对剩余节点比对的过程为:
步骤4-1:查找出两个生物网络G1、G2中不属于扩展集的节点,构建二分图Gb',图中所有边的权重为该节点对的节点相似性得分S(i,j);
步骤4-2:选择二分图Gb'中权重最大的边,若此边对应的节点对均未在扩展集中出现过,则将该节点对添加到扩展集中,同时删除该节点对在二分图Gb'中的相应节点对和相关的边,剩余节点对和边保持不变;
步骤4-3:重复步骤4-2,直到二分图Gb'中无可选择的节点对存在,比对结束,得到最终的比对集。
CN202010838335.6A 2020-08-19 2020-08-19 基于层次聚类的蛋白质相互作用网络全局比对方法 Active CN111916149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010838335.6A CN111916149B (zh) 2020-08-19 2020-08-19 基于层次聚类的蛋白质相互作用网络全局比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010838335.6A CN111916149B (zh) 2020-08-19 2020-08-19 基于层次聚类的蛋白质相互作用网络全局比对方法

Publications (2)

Publication Number Publication Date
CN111916149A true CN111916149A (zh) 2020-11-10
CN111916149B CN111916149B (zh) 2024-05-03

Family

ID=73279196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010838335.6A Active CN111916149B (zh) 2020-08-19 2020-08-19 基于层次聚类的蛋白质相互作用网络全局比对方法

Country Status (1)

Country Link
CN (1) CN111916149B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446492A (zh) * 2020-12-14 2021-03-05 江南大学 基于遗传算法的生物网络比对方法
CN113066524A (zh) * 2021-05-19 2021-07-02 江南大学 基于模拟退火的多蛋白质相互作用网络比对方法
CN113223619A (zh) * 2021-06-17 2021-08-06 南京诺因生物科技有限公司 比对不同全基因组测序方法的测序结果覆盖率的方法
CN114974400A (zh) * 2022-03-29 2022-08-30 江南大学 一种全局生物网络比对方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090262664A1 (en) * 2008-04-18 2009-10-22 Bonnie Berger Leighton Method for identifying network similarity by matching neighborhood topology
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN108319677A (zh) * 2018-01-30 2018-07-24 中南大学 动态变化的网络关系图的对齐方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法
CN111145830A (zh) * 2019-12-26 2020-05-12 长沙学院 基于网络传播的蛋白质功能预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090262664A1 (en) * 2008-04-18 2009-10-22 Bonnie Berger Leighton Method for identifying network similarity by matching neighborhood topology
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN108319677A (zh) * 2018-01-30 2018-07-24 中南大学 动态变化的网络关系图的对齐方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法
CN111145830A (zh) * 2019-12-26 2020-05-12 长沙学院 基于网络传播的蛋白质功能预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446492A (zh) * 2020-12-14 2021-03-05 江南大学 基于遗传算法的生物网络比对方法
CN112446492B (zh) * 2020-12-14 2024-04-05 江南大学 基于遗传算法的生物网络比对方法
CN113066524A (zh) * 2021-05-19 2021-07-02 江南大学 基于模拟退火的多蛋白质相互作用网络比对方法
CN113066524B (zh) * 2021-05-19 2022-12-20 江南大学 基于模拟退火的多蛋白质相互作用网络比对方法
CN113223619A (zh) * 2021-06-17 2021-08-06 南京诺因生物科技有限公司 比对不同全基因组测序方法的测序结果覆盖率的方法
CN114974400A (zh) * 2022-03-29 2022-08-30 江南大学 一种全局生物网络比对方法

Also Published As

Publication number Publication date
CN111916149B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN111916149B (zh) 基于层次聚类的蛋白质相互作用网络全局比对方法
Datta et al. Evaluation of clustering algorithms for gene expression data
CN106055928B (zh) 一种宏基因组重叠群的分类方法
Van der Laan et al. A new algorithm for hybrid clustering of gene expression data with visualization and the bootstrap
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
He et al. Evolutionary graph clustering for protein complex identification
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN109545275B (zh) 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法
Zaki et al. Identifying protein complexes in protein-protein interaction data using graph convolutional network
Peng et al. Mining relationships among multiple entities in biological networks
Mall et al. Differential community detection in paired biological networks
ur Rehman et al. Multi-dimensional scaling based grouping of known complexes and intelligent protein complex detection
Ghosh et al. Fuzzy Correlated Association Mining: Selecting altered associations among the genes, and some possible marker genes mediating certain cancers
Su et al. A multi-objective optimization method for identification of module biomarkers for disease diagnosis
Gao et al. Balanceali: multiple PPI network alignment with balanced high coverage and consistency
CN111382765A (zh) 投诉热点区域聚类方法、装置、设备、介质
Omranian et al. Computational identification of protein complexes from network interactions: Present state, challenges, and the way forward
Li et al. Single-cell RNA sequencing data interpretation by evolutionary multiobjective clustering
O'Connor et al. Biclustering using message passing
Anitha et al. Review on analysis of gene expression data using biclustering approaches
Maskey et al. Survey of biological network alignment: Cross-species analysis of conserved systems
CN111192639A (zh) 一种基于复杂网络的肿瘤转移关键基因检索方法
CN111709846A (zh) 基于线图的局部社区发现算法
Agrawal et al. Cancer subtype identification pipeline: A classifusion approach
Liu et al. Efficient regularized regression for variable selection with L0 penalty

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant