CN111916149A - 基于层次聚类的蛋白质相互作用网络全局比对方法 - Google Patents
基于层次聚类的蛋白质相互作用网络全局比对方法 Download PDFInfo
- Publication number
- CN111916149A CN111916149A CN202010838335.6A CN202010838335A CN111916149A CN 111916149 A CN111916149 A CN 111916149A CN 202010838335 A CN202010838335 A CN 202010838335A CN 111916149 A CN111916149 A CN 111916149A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- similarity score
- similarity
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000006916 protein interaction Effects 0.000 title claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 16
- 102000004169 proteins and genes Human genes 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000000547 structure data Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000004850 protein–protein interaction Effects 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- VQHSOMBJVWLPSR-JVCRWLNRSA-N lactitol Chemical compound OC[C@H](O)[C@@H](O)[C@@H]([C@H](O)CO)O[C@@H]1O[C@H](CO)[C@H](O)[C@H](O)[C@H]1O VQHSOMBJVWLPSR-JVCRWLNRSA-N 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于层次聚类的蛋白质相互作用网络全局比对方法,包括:获取两个生物网络的数据及序列相似性文件,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j),根据序列相似性文件计算序列相似性得分B(i,j),结合T(i,j)和B(i,j)计算节点相似性得分S(i,j);采用层次聚类算法和组合优化算法筛选种子;计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)扩展种子得到扩展集;构建二分图比对剩余节点对,合并得到比对集。本发明更全面地计算T(i,j),筛选种子并扩展、合并,提高比对结果的拓扑性能且覆盖范围更广;采用层次聚类算法和组合优化算法筛选种子,提升拓扑性能的同时保证生物性能,提高效率。
Description
技术领域
本发明涉及生物信息学中对蛋白质相互作用网络的分析领域,具体涉及一种基于层次聚类的蛋白质相互作用网络全局比对方法。
背景技术
蛋白质相互作用(PPI,Protein-protein interaction)是指蛋白质分子之间的相关性,并从生物化学、信号转导和遗传网络的角度研究这种相关性。近年来,随着高通量筛选技术的发展,通过实验方法检测到蛋白质相互作用的数量有了大幅度增加,形成了越来越多的蛋白质相互作用网络。对蛋白质相互作用网络的分析能够增进对生物学过程的理解,不同物种间相互作用组的比对在蛋白质功能预测、保守功能成分检测、物种间知识转移等方面有着重要意义。因此,将两个蛋白质相互作用网络进行一对一比对,在两个网络中找到节点间的最佳映射关系得到了越来越多的研究。
常见的两个网络间的比对方法有二步算法和基于目标函数的搜索算法。二步算法分为两步进行,第一步是计算输入网络间的节点相似性,构建节点得分矩阵;第二步是节点相似性得分为权重,构建二分图,利用贪心或其他算法求解二分图的最大加权匹配问题,从而得到比对结果。基于目标函数的搜索算法是先构建目标函数,以目标函数为优化目标,用搜索算法不断调整比对结果以产生更优解。目标函数一般由拓扑相似性和生物相似性构成,拓扑相似性计算节点在网络结构上的相似性,现有的计算方法有计算度、Importance等;生物相似性可以是序列相似性,例如BLAST bit score、BLAST E-value等,也可以是功能相似性,利用蛋白质的GO(Gene ontology,基因本体论)术语计算节点间的语义相似性以此比较蛋白质的功能相似性。SPINAL(见文献SPINAL:scalable protein interactionnetwork alignment.[J].Bioinformatics,2013)方法将比对过程被分为粗粒度阶段和细粒度阶段,在粗粒度阶段,构建邻域二分图计算节点间的相似性;在细粒度阶段,先选择相似性得分最高的节点对为种子,先比对上种子节点,以当前比对集合中的节点对构建邻域二分图,以节点相似性为权重,寻找最大加权匹配,对匹配结果做局部优化找到最佳匹配结果并将比对结果添加到比对集合中,得到最终比对。但此方法对节点的拓扑信息研究不充分,导致比对结果中拓扑结果较差。ModuleAlign(见文献Somaye H,Jianzhu M,Hammad N,et al.ModuleAlign:module-based global alignment of protein–proteininteraction networks[J].Bioinformatics(17):i658-i664)方法首先利用HAC-ML算法划分网络模块,基于模块计算节点间的同源得分,将同源得分与节点对的拓扑得分Importance结合构成节点的比对得分矩阵。然后分两步开始比对:第一步,利用匈牙利算法计算网络中节点间的最佳匹配,以此比对拓扑和功能一致的蛋白质;第二步,通过更新比对得分来最大化进化保守相互作用的数量,重复此过程直至小网络中的节点都被比对上。这种方法利用模块化的思想来计算节点间的同源得分,但模块化的选择不适合,导致其生物性能较差,且运行时间较长、效率低。PROPER(见文献ROPER:global proteininteractionnetwork alignment through percolationmatching,BMC bioinformatics,2016,17(1):527)方法首先根据序列相似性筛选部分得分较高的节点对为种子节点,接着根据种子计算其邻居节点的结构相似性,选择得分最高的节点对扩展至比对集合,再对新添加的比对节点对计算其邻居节点的结构相似性,重复上述过程直到没有可选择的节点对。这种方法在筛选种子时,仅依靠序列信息,但序列信息存在不完整性,会导致比对错误;并且扩展过程不能覆盖到小网络中的所有节点,存在部分节点应该被比对上却未比对上的问题,拓扑性能不好。
发明内容
本发明要解决的技术问题是提供一种对两个蛋白质相互作用网络进行比对,在保证生物性能的同时提升拓扑性能,提高效率及扩大比对覆盖范围的基于层次聚类的蛋白质相互作用网络全局比对方法。
为解决上述技术问题,本发明提供了一种基于层次聚类的蛋白质相互作用网络全局比对方法,包括以下步骤:
步骤1:输入两个生物网络G1、G2,获取网络结构数据及其序列相似性文件,将蛋白质看做节点,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对间的拓扑相似性得分T(i,j),根据序列相似性文件计算节点对的序列相似性得分B(i,j),结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j);
步骤2:采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,筛选出节点对作为种子;
步骤3:计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)选择节点对加入种子集合,不断扩展种子直到覆盖所有可能的节点对,得到扩展集;
步骤4:构建二分图对剩余节点对比对,将比对结果合并到扩展集中,得到最终的比对集,即为最终找出的网络G1、G2中节点间的一对一的映射关系的集合。
进一步地,所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为:
步骤1-1:获取两个输入网络G1=(V1,E1),G2=(V2,E2),V1、V2表示节点集合,节点表示蛋白质;E1、E2表示边集合,边表示蛋白质间的相互作用;N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合。拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性,计算节点i、j的拓扑相似性得分T(i,j)的过程如下:
首先,初始化T0(i,j)=1;其次,构建二分图Gb=(Vb,Eb),其中Vb由N(i)的节点和N(j)的节点的两个不相交集合组成,Eb中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成,其中i'∈N(i),j'∈N(j),边的权重w(i',j')=Tt(i',j');接着,找到Gb的匹配集合M;最后,计算该匹配M对应的Tt+1(i,j)值:
其中,d(i)、d(j)表示节点i、j的度,MaxD表示在G1、G2所有节点中度的最大值,t是预设的迭代次数,θ是平衡邻居节点和节点本身拓扑相似性比重的参数,0≤θ≤1。多次迭代后,Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分;
步骤1-2:根据序列相似性文件计算节点对的序列相似性得分B(i,j):
其中,blast(i,j)表示节点i、j之间的BLAST bit-score得分,即序列相似性文件中的值;Minb表示G1、G2网络中节点对的BLAST bit-score得分的最小值,Maxb表示网络中节点对的BLAST bit-score得分的最大值;
步骤1-3:结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j),计算节点相似性得分S(i,j):
S(i,j)=α×B(i,j)+(1-α)×T(i,j)
其中,α是平衡拓扑和序列权重的参数,0≤α≤1。
进一步地,所述步骤1-1中找到Gb的匹配集合M的方法为采用贪心算法,具体过程为先选中权重最大的边加入到匹配集合M中,其中每一条边对应一组节点的映射关系,再删除这条边连接的两个节点及其相连的其他边,接着重复上述步骤,直到图中没有可选择的边,则比对结束,得到最终的匹配集合M。
进一步地,所述步骤2中采用的组合优化算法为匈牙利算法。
进一步地,所述步骤2中筛选种子节点对的具体过程如下:
步骤2-1:采用层次聚类方法从网络中提取功能模块,将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块;
步骤2-2:根据功能模块内的节点相似性得分S(i,j),将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分,即所有模块间的相似性之和最大时的一种模块对应关系;
步骤2-3:利用匈牙利算法对各个功能模块间的相似性得分进行处理,得到最佳功能模块匹配结果,即各个功能模块间的相似性得分的排序集合,并筛选出节点对作为种子。
进一步地,所述步骤2-1中采用的层次聚类算法为Jerarca算法,具体为先计算节点间的加权距离,接着将距离矩阵转换成层次结构树,最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块,以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。
进一步地,所述步骤2-3中筛选出节点对作为种子,其中筛选出的种子为最佳模块匹配结果中前15%的节点。
进一步地,所述步骤3中不断扩展种子直到覆盖所有可能的节点,具体过程为:
步骤3-1:将与种子节点直接连接的且跨度为1的节点集合作为邻居节点,计算种子中各节点对的邻居节点的结构相似性得分score(i,j),将种子节点作为匹配集,score(i,j)为该节点对中其邻居节点对中属于种子的节点对数;
步骤3-2:选择结构相似性得分score(i,j)最大的节点对添加到匹配集;
步骤3-3:更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j);
步骤3-4:重复步骤3-2和步骤3-3,直到覆盖所有可能的节点,得到扩展集。
进一步地,所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时,若存在多个节点对满足此条件,则进一步计算这几个节点对的度差值,选择度差值最小的节点对加入;若最小度差值也有多个节点对,则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。
进一步地,所述步骤4中构建二分图对剩余节点比对的过程为:
步骤4-1:查找出两个生物网络G1、G2中不属于扩展集的节点,构建二分图Gb',图中所有边的权重为该节点对的节点相似性得分S(i,j);
步骤4-2:选择二分图Gb'中权重最大的边,若此边对应的节点对均未在扩展集中出现过,则将该节点对添加到扩展集中,同时删除该节点对在二分图Gb'中的相应节点对和相关的边,剩余节点对和边保持不变;
步骤4-3:重复步骤4-2,直到二分图Gb'中无可选择的节点对存在,比对结束,得到最终的比对集。
本发明的有益效果:
通过同时考虑节点本身以及邻居节点的拓扑特征,更全面地计算节点对的拓扑相似性得分;通过结构相似性得分对种子进行扩展,并在扩展后对剩余节点构建二分图,进行最大加权匹配并合并,使得所有节点都有参加比对的机会,提高比对的拓扑性能,产生更多的比对节点数、覆盖范围更广。
通过采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,从密集模块中筛选种子,减少了种子筛选错误的影响,提升拓扑性能的同时保证了生物性能,有效提高了对比效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
术语“包括”意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备,没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
参照图1本发明的流程图,一种基于层次聚类的蛋白质相互作用网络全局比对方法的实施例,包括以下步骤:
步骤1:输入两个生物网络G1、G2,获取网络数据,即网络中需要比对的两个物质的结构信息及序列相似性文件,序列相似性文件是从生物角度可以找到的蛋白质序列间的相似性得分,输入的是由节点间的BLAST bit-score得分构成的相似性文件,将蛋白质看做节点,节点i、节点j分别属于两个网络。考虑节点本身以及邻居节点的拓扑特征计算节点对间的拓扑相似性得分T(i,j),根据序列相似性文件计算节点对的序列相似性得分B(i,j),结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j)。
步骤1-1:两个输入网络G1=(V1,E1),G2=(V2,E2),V1、V2表示节点集合,节点表示蛋白质;E1、E2表示边集合,边表示蛋白质间的相互作用;N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合。拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性,计算节点i、j的拓扑相似性得分T(i,j)的过程如下:
首先,初始化T0(i,j)=1;其次,构建二分图Gb=(Vb,Eb),其中Vb由N(i)的节点和N(j)的节点的两个不相交集合组成,Eb中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成,其中i'∈N(i),j'∈N(j),边的权重w(i',j')=Tt(i',j');接着,用贪心算法找到Gb的匹配集合M,具体过程是先选中权重最大的边加入到匹配集合M中,其中每一条边对应一组节点的映射关系,再删除这条边连接的两个节点及其相连的其他边,接着重复上述步骤,直到图中没有可选择的边,则比对结束,得到最终的匹配集合M;最后,计算该匹配M对应的Tt+1(i,j)值:
其中,d(i)、d(j)表示节点i、j的度,MaxD表示在G1、G2所有节点中度的最大值,t是迭代次数,本实施例中,设置的设迭代次数为2,达到迭代次数,计算结束,θ是平衡邻居节点和节点本身拓扑相似性比重的参数,本实施例中,设置的θ值为0.5。多次迭代后,Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分。
步骤1-2:根据序列相似性文件计算节点对的序列相似性得分B(i,j):
其中,blast(i,j)表示节点i、j之间的BLAST bit-score得分,即序列相似性文件中的值;Minb表示G1、G2网络中节点对的BLAST bit-score得分的最小值,Maxb表示网络中节点对的BLAST bit-score得分的最大值。
步骤1-3:结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j),计算节点相似性得分S(i,j):
S(i,j)=α×B(i,j)+(1-α)×T(i,j)
其中,α是平衡拓扑和序列权重的参数,本实施例中,设置的α值为0.4。
步骤2:利用层次聚类算法从网络中提取功能模块,采用匈牙利算法比对功能模块,筛选出节点对作为种子。
步骤2-1:利用Jerarca(见文献ALDECOA R,MARIN I.Jerarca:efficientanalysis of complex networks using hierarchical clustering[J].Plos One,2010,5(7):e11585)层次聚类方法提取功能模块,首先计算节点间的加权距离,接着将距离矩阵转换成层次结构树,最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块,以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。
步骤2-2:根据功能模块内的节点相似性得分S(i,j),将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分,即所有模块间的相似性之和最大时的一种模块对应关系。
步骤2-3:利用匈牙利算法对各个功能模块间的相似性得分进行处理,得到最佳功能模块匹配结果,即各个功能模块间的相似性得分的排序集合,并从中筛选出前15%的节点对作为种子。
步骤3:计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)选择节点对加入种子集合,不断扩展种子直到覆盖所有可能的节点对,得到扩展集;
步骤3-1:将与种子节点直接连接的且跨度为1的节点集合作为邻居节点,计算种子中各节点对的邻居节点的结构相似性得分score(i,j),将种子节点作为匹配集。score(i,j)为该节点对中其邻居节点对中属于种子的节点对数,本实施例中,对于节点对(i,j),当且仅当(i,i')∈E1,(j,j')∈E2,则(i',j')∈V1×V2是节点对(i,j)的邻居节点对。
步骤3-2:选择结构相似性得分score(i,j)最大的节点对添加到匹配集;若存在多个节点对满足此条件,则进一步计算这几个节点对的度差值,选择度差值最小的节点对加入;若最小度差值也有多个节点对,则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。
步骤3-3:更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j)。
步骤3-4:重复步骤3-2和步骤3-3,直到所有score(i,j)≥1的节点对都比对上,结束比对,得到扩展集。
步骤4:构建二分图对剩余节点对比对,将比对结果合并到扩展集中,得到最终的比对集,即为最终找出的网络G1、G2中节点间的一对一的映射关系的集合。
步骤4-1:查找出两个生物网络G1、G2中不属于扩展集的节点,构建二分图Gb',图中所有边的权重为该节点对的节点相似性得分S(i,j)。
步骤4-2:选择二分图Gb'中权重最大的边,若此边对应的节点对均未在扩展集中出现过,则将该节点对添加到扩展集中,同时删除该节点对在二分图Gb'中的相应节点对和相关的边,剩余节点和边保持不变。
步骤4-3:重复步骤4-2,直到二分图Gb'中无可选择的节点对存在,比对结束,得到最终的比对集。使得网络中所有的节点对都有机会被比对上,从而得到更好的比对结果。
本发明的有益效果:
通过同时考虑节点本身以及邻居节点的拓扑特征,更全面地计算节点对的拓扑相似性得分;通过结构相似性得分对种子进行扩展,并在扩展后对剩余节点构建二分图,进行最大加权匹配并合并,使得所有节点都有参加比对的机会,提高比对的拓扑性能,产生更多的比对节点数、覆盖范围更广。
通过采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,从密集模块中筛选种子,减少了种子筛选错误的影响,提升拓扑性能的同时保证了生物性能,有效提高了对比效率。
为了更好地说明本发明的技术效果,实施例对本发明进行试验验证。实施例在Isobase数据库的真实网络上选择ce、sc、dm、hs四个物种的网络数据,不同物种的网络中节点数和边数不同,网络规模也不同,设置四组的实验组比较本发明在不同物种对中的比对效果,表明本发明在大多数物种中的适用度。同时在NAPAbench的合成网络CG(公用的提供合成网络数据的数据库,CG是其中一组网络数据)上进行实验。设置三种方法PROPER、SPINAL、ModuleAlign与本发明进行比较,并通过拓扑指标EC(Edge correctness,边正确性)、ICS(induced con-served-structure score,诱导保守子结构得分)和S3(Symmetricsub-structure score,对称子结构得分),生物指标FC(Functional Coherence,功能一致性),比对节点数和运行时间对结果进行分析,其中EC、ICS、S3和FC的值越高,表示对应性能越好。
EC通过计算f映射下保守边在源网络中的比例来评估比对的质量,f表示一种映射关系,全局比对f:V1→V2,是将G1中的V1节点映射到G2的V2节点上,形成一对一的映射关系,EC的计算公式:其中,f(E1)={(f(u),f(u))∈E2|(u,v)∈E1},f(V1)={f(v)∈V2|v∈V1}。|E1|表示G1网络的边数,|f(E1)|表示G1中以f映射方式覆盖G2中的边的边数。
表1为不同方法在NAPAbench的合成网络CG下的比较结果。表2为不同方法在Isobase数据库真实网络下的比较结果,其中ce-sc表示ce和sc两个物种网络的比对结果,ce-dm表示ce和dm两个物种网络的比对结果,ce-hs表示ce和hs两个物种网络的比对结果,sc-hs表示sc和hs两个物种网络的比对结果,sc-dm表示sc和dm两个物种网络的比对结果,dm-hs表示dm和hs两个物种网络的比对结果。表3为本发明与PROPER算法在比对上的节点数上的比较结果。
EC | ICS | S<sup>3</sup> | FC | |
本发明JAlign | 0.82 | 0.84 | 0.71 | 0.71 |
PROPER | 0.61 | 0.63 | 0.45 | 0.59 |
SPINAL | 0.81 | 0.82 | 0.69 | 0.73 |
ModuleAlign | 0.68 | 0.68 | 0.52 | 0.63 |
表1不同算法在NAPAbench的合成网络CG下的比较结果
表2不同算法在Isobase数据库真实网络下的比较结果
CG | ce-sc | ce-dm | ce-hs | sc-hs | sc-dm | dm-hs | |
本发明 | 2117 | 2679 | 2668 | 2766 | 5349 | 5093 | 6827 |
PROPER | 1794 | 2641 | 2608 | 2697 | 5049 | 6627 | 5271 |
表3本发明与PROPER算法在比对上的节点数上的比较结果
从表1可以看出,在拓扑指标上,本发明的结果优于其他三种算法;在生物指标FC上,SPINAL、本发明分别是0.73、0.71,差距很小,PROPER的结果最差。总体而言,本发明在合成网络上的结果在几种算法表现最好。
从表2的前三组实验ce-sc、ce-dm、ce-hs可以看出,ModuleAlign的EC结果最好,本发明仅次于ModuleAlign,PROPER结果最差;ICS和S3结果都是本发明最好。在表2的后三组实验sc-hs、sc-dm、dm-hs中,除了在dm-hs中的EC结果略差于ModuleAlign,其余所有拓扑性能的指标都是结果最好的,PROPER次于本发明,这表明本发明在拓扑性能上结果最好。在生物指标FC上,PROPER表现最好,本发明和效果第二的SPINAL差距很小。结合拓扑性能效果第二的PROPER来看,本发明在保证生物性能的基础上,实现了最好的拓扑功能。
在保证生物性能的同时实现最好拓扑性能的基础上,如表3所示继续将本发明与PROPER在比对上的节点数上进行比较,除了在sc-dm中,本发明找出的节点对数都比PROPER多,能产生更多的比对节点数,本发明在覆盖范围上结果更广,进一步证明了本发明相较于PROPER带来的有益效果。在运行时间上,继续将本发明与SPINAL、ModuleAlign进行比较,SPINAL、ModuleAlign得到比对集分别需要121分50.840秒、207分46.732秒,而本发明只需要52分28.320秒,大大缩短了运行时间,提高比对效率,进一步证明了本发明相较于SPINAL、ModuleAlign带来的有益效果。
总体来看,本发明和PROPER相比在拓扑性能方面明显有很大改进,在生物性能方面略为下降,但在覆盖范围上结果更好;本发明和SPINAL、ModuleAlign相比,在拓扑性能和生物性能上都得到了提高,且运行时间大大缩短。因此,本发明在保证生物性能的基础上实现了最好的拓扑功能,且比对覆盖范围和效率都得到了提高。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.一种基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于,包括以下步骤:
步骤1:输入两个生物网络G1、G2,获取网络结构数据及其序列相似性文件,将蛋白质看做节点,节点i、节点j分别属于两个网络,考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j),根据序列相似性文件计算节点对的序列相似性得分B(i,j),结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j);
步骤2:采用层次聚类算法提取功能模块,采用组合优化算法比对功能模块,筛选出节点对作为种子;
步骤3:计算种子的邻居节点的结构相似性得分score(i,j),根据score(i,j)选择节点对加入种子集合,不断扩展种子直到覆盖所有可能的节点对,得到扩展集;
步骤4:构建二分图对剩余节点对比对,将比对结果合并到扩展集中,得到最终的比对集,即为最终找出的网络G1、G2中节点间的一对一的映射关系的集合。
2.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为:
步骤1-1:获取两个输入网络G1=(V1,E1),G2=(V2,E2),V1、V2表示节点集合,节点表示蛋白质;E1、E2表示边集合,边表示蛋白质间的相互作用;N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合;拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性,计算节点i、j的拓扑相似性得分T(i,j)的过程如下:
首先,初始化T0(i,j)=1;其次,构建二分图Gb=(Vb,Eb),其中Vb由N(i)的节点和N(j)的节点的两个不相交集合组成,Eb中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成,其中i'∈N(i),j'∈N(j),边的权重w(i',j')=Tt(i',j');接着,找到Gb的匹配集合M;最后,计算该匹配M对应的Tt+1(i,j)值:
其中,d(i)、d(j)表示节点i、j的度,MaxD表示在G1、G2所有节点中度的最大值,t是预设的迭代次数,θ是平衡邻居节点和节点本身拓扑相似性比重的参数,0≤θ≤1;多次迭代后,Tt+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分;
步骤1-2:根据序列相似性文件计算节点对的序列相似性得分B(i,j):
其中,blast(i,j)表示节点i、j之间的BLAST bit-score得分,即序列相似性文件中的值;Minb表示G1、G2网络中节点对的BLAST bit-score得分的最小值,Maxb表示网络中节点对的BLASTbit-score得分的最大值;
步骤1-3:结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j),计算节点相似性得分S(i,j):
S(i,j)=α×B(i,j)+(1-α)×T(i,j)
其中,α是平衡拓扑和序列权重的参数,0≤α≤1。
3.根据权利要求2所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤1-1中找到Gb的匹配集合M的方法为采用贪心算法,具体过程为先选中权重最大的边加入到匹配集合M中,其中每一条边对应一组节点的映射关系,再删除这条边连接的两个节点及其相连的其他边,接着重复上述步骤,直到图中没有可选择的边,则比对结束,得到最终的匹配集合M。
4.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2中采用的组合优化算法为匈牙利算法。
5.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2中筛选种子节点对的具体过程如下:
步骤2-1:采用层次聚类方法从网络中提取功能模块,将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块;
步骤2-2:根据功能模块内的节点相似性得分S(i,j),将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分,即所有模块间的相似性之和最大时的一种模块对应关系;
步骤2-3:利用匈牙利算法对各个功能模块间的相似性得分进行处理,得到最佳功能模块匹配结果,即各个功能模块间的相似性得分的排序集合,并筛选出节点对作为种子。
6.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2-1中采用的层次聚类算法为Jerarca算法,具体为先计算节点间的加权距离,接着将距离矩阵转换成层次结构树,最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块,以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。
7.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤2-3中筛选出节点对作为种子,其中筛选出的种子为最佳模块匹配结果中前15%的节点。
8.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤3中不断扩展种子直到覆盖所有可能的节点,具体过程为:
步骤3-1:将与种子节点直接连接的且跨度为1的节点集合作为邻居节点,计算种子中各节点对的邻居节点的结构相似性得分score(i,j),将种子节点作为匹配集,score(i,j)为该节点对中其邻居节点对中属于种子的节点对数;
步骤3-2:选择结构相似性得分score(i,j)最大的节点对添加到匹配集;
步骤3-3:更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j);
步骤3-4:重复步骤3-2和步骤3-3,直到覆盖所有可能的节点,得到扩展集。
9.根据权利要求8所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时,若存在多个节点对满足此条件,则进一步计算这几个节点对的度差值,选择度差值最小的节点对加入;若最小度差值也有多个节点对,则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。
10.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法,其特征在于:所述步骤4中构建二分图对剩余节点比对的过程为:
步骤4-1:查找出两个生物网络G1、G2中不属于扩展集的节点,构建二分图Gb',图中所有边的权重为该节点对的节点相似性得分S(i,j);
步骤4-2:选择二分图Gb'中权重最大的边,若此边对应的节点对均未在扩展集中出现过,则将该节点对添加到扩展集中,同时删除该节点对在二分图Gb'中的相应节点对和相关的边,剩余节点对和边保持不变;
步骤4-3:重复步骤4-2,直到二分图Gb'中无可选择的节点对存在,比对结束,得到最终的比对集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010838335.6A CN111916149B (zh) | 2020-08-19 | 2020-08-19 | 基于层次聚类的蛋白质相互作用网络全局比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010838335.6A CN111916149B (zh) | 2020-08-19 | 2020-08-19 | 基于层次聚类的蛋白质相互作用网络全局比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111916149A true CN111916149A (zh) | 2020-11-10 |
CN111916149B CN111916149B (zh) | 2024-05-03 |
Family
ID=73279196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010838335.6A Active CN111916149B (zh) | 2020-08-19 | 2020-08-19 | 基于层次聚类的蛋白质相互作用网络全局比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111916149B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446492A (zh) * | 2020-12-14 | 2021-03-05 | 江南大学 | 基于遗传算法的生物网络比对方法 |
CN113066524A (zh) * | 2021-05-19 | 2021-07-02 | 江南大学 | 基于模拟退火的多蛋白质相互作用网络比对方法 |
CN113223619A (zh) * | 2021-06-17 | 2021-08-06 | 南京诺因生物科技有限公司 | 比对不同全基因组测序方法的测序结果覆盖率的方法 |
CN114974400A (zh) * | 2022-03-29 | 2022-08-30 | 江南大学 | 一种全局生物网络比对方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090262664A1 (en) * | 2008-04-18 | 2009-10-22 | Bonnie Berger Leighton | Method for identifying network similarity by matching neighborhood topology |
CN104978498A (zh) * | 2015-04-16 | 2015-10-14 | 上海大学 | 生物分子网络拓扑结构比对的自适应方法 |
CN108319677A (zh) * | 2018-01-30 | 2018-07-24 | 中南大学 | 动态变化的网络关系图的对齐方法 |
CN109767809A (zh) * | 2019-01-16 | 2019-05-17 | 中南大学 | 蛋白质相互作用网络的对齐方法 |
CN111145830A (zh) * | 2019-12-26 | 2020-05-12 | 长沙学院 | 基于网络传播的蛋白质功能预测方法 |
-
2020
- 2020-08-19 CN CN202010838335.6A patent/CN111916149B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090262664A1 (en) * | 2008-04-18 | 2009-10-22 | Bonnie Berger Leighton | Method for identifying network similarity by matching neighborhood topology |
CN104978498A (zh) * | 2015-04-16 | 2015-10-14 | 上海大学 | 生物分子网络拓扑结构比对的自适应方法 |
CN108319677A (zh) * | 2018-01-30 | 2018-07-24 | 中南大学 | 动态变化的网络关系图的对齐方法 |
CN109767809A (zh) * | 2019-01-16 | 2019-05-17 | 中南大学 | 蛋白质相互作用网络的对齐方法 |
CN111145830A (zh) * | 2019-12-26 | 2020-05-12 | 长沙学院 | 基于网络传播的蛋白质功能预测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446492A (zh) * | 2020-12-14 | 2021-03-05 | 江南大学 | 基于遗传算法的生物网络比对方法 |
CN112446492B (zh) * | 2020-12-14 | 2024-04-05 | 江南大学 | 基于遗传算法的生物网络比对方法 |
CN113066524A (zh) * | 2021-05-19 | 2021-07-02 | 江南大学 | 基于模拟退火的多蛋白质相互作用网络比对方法 |
CN113066524B (zh) * | 2021-05-19 | 2022-12-20 | 江南大学 | 基于模拟退火的多蛋白质相互作用网络比对方法 |
CN113223619A (zh) * | 2021-06-17 | 2021-08-06 | 南京诺因生物科技有限公司 | 比对不同全基因组测序方法的测序结果覆盖率的方法 |
CN113223619B (zh) * | 2021-06-17 | 2024-07-09 | 南京诺因生物科技有限公司 | 比对不同全基因组测序方法的测序结果覆盖率的方法 |
CN114974400A (zh) * | 2022-03-29 | 2022-08-30 | 江南大学 | 一种全局生物网络比对方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111916149B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916149B (zh) | 基于层次聚类的蛋白质相互作用网络全局比对方法 | |
Datta et al. | Evaluation of clustering algorithms for gene expression data | |
He et al. | Evolutionary graph clustering for protein complex identification | |
CN111599406B (zh) | 结合网络聚类方法的全局多网络比对方法 | |
Yu et al. | Predicting protein complex in protein interaction network-a supervised learning based method | |
CN109545275B (zh) | 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 | |
Zaki et al. | Identifying protein complexes in protein-protein interaction data using graph convolutional network | |
CN106055928A (zh) | 一种宏基因组重叠群的分类方法 | |
Peng et al. | Mining relationships among multiple entities in biological networks | |
Faceli et al. | Partitions selection strategy for set of clustering solutions | |
Omranian et al. | Computational identification of protein complexes from network interactions: present state, challenges, and the way forward | |
ur Rehman et al. | Multi-dimensional scaling based grouping of known complexes and intelligent protein complex detection | |
Ghosh et al. | Fuzzy Correlated Association Mining: Selecting altered associations among the genes, and some possible marker genes mediating certain cancers | |
Gao et al. | Balanceali: multiple PPI network alignment with balanced high coverage and consistency | |
Manners et al. | Performing local network alignment by ensembling global aligners | |
O'Connor et al. | Biclustering using message passing | |
Nguyen et al. | A knowledge-based multiple-sequence alignment algorithm | |
CN112669907A (zh) | 基于分治整合策略的成对蛋白质相互作用网络比对方法 | |
Xu et al. | A method to improve the prediction performance of cancer-gene association by screening negative training samples through gene network data | |
CN111192639A (zh) | 一种基于复杂网络的肿瘤转移关键基因检索方法 | |
Li et al. | A comparative study for identifying the chromosome-wide spatial clusters from high-throughput chromatin conformation capture data | |
CN111709846A (zh) | 基于线图的局部社区发现算法 | |
Agrawal et al. | Cancer subtype identification pipeline: A classifusion approach | |
Zhu et al. | Algorithm for predicting weighted protein complexes by using modularity function | |
Jiang et al. | A robust algorithm based on link label propagation for identifying functional modules from protein-protein interaction networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |