CN113066524B - 基于模拟退火的多蛋白质相互作用网络比对方法 - Google Patents
基于模拟退火的多蛋白质相互作用网络比对方法 Download PDFInfo
- Publication number
- CN113066524B CN113066524B CN202110547632.XA CN202110547632A CN113066524B CN 113066524 B CN113066524 B CN 113066524B CN 202110547632 A CN202110547632 A CN 202110547632A CN 113066524 B CN113066524 B CN 113066524B
- Authority
- CN
- China
- Prior art keywords
- candidate cluster
- node
- nodes
- candidate
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000002922 simulated annealing Methods 0.000 title claims abstract description 34
- 230000003993 interaction Effects 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 70
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000000137 annealing Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000006916 protein interaction Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 238000001816 cooling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 29
- 230000008827 biological function Effects 0.000 abstract description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 230000004850 protein–protein interaction Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physiology (AREA)
- Biophysics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及基于模拟退火的多蛋白质相互作用网络比对方法。本发明包括:包括:获取输入比对网络和序列相似性信息;构建候选簇集合;采用模拟退火算法,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合,并根据加入候选簇前后的状态目标函数得分的差值进行状态更新;目标函数得分差值大于零,则无条件接受新比对结果;若目标函数得分差值小于零,则计算接受当前比对的概率;判断是否达到退火终止条件。本发明通过利用序列相似性信息构建的相似性图中搜索最大加权团,能够提高比对的质量;使用模拟退火算法迭代搜索候选簇,能够避免在生成比对过程中产生局部最优问题,提高了算法的生物功能质量。
Description
技术领域
本发明涉及生物网络比对技术领域,尤其是指基于模拟退火的多蛋白质相互作用网络比对方法。
背景技术
蛋白质相互作用(PPI,Protein-protein interaction)是指蛋白质分子之间的相关性,并从生物化学、信号转导和遗传网络的角度研究这种相关性。近年来,随着高通量筛选技术的发展,通过实验方法检测到蛋白质相互作用的数量有了大幅度增加,形成了越来越多的蛋白质相互作用网络。对蛋白质相互作用网络的分析能够增进对生物学过程的理解,不同物种间相互作用组的比对在蛋白质功能预测、保守功能成分检测、物种间知识转移等方面有着重要意义。现有一些对蛋白质相互作用比对方法存在以下问题:
“IsoRankN:spectral methods for global alignment of multiple proteinnetworks”(期刊出处:Bioinformatics,2009,25(12):253-258)算法使用一种通过PageRank算法与光谱聚类算法相结合的比对算法。对于任意两个输入网络中的节点,根据节点的邻居通过特征值结合序列相似性信息计算节点间的相似性得分R。根据节点间的相似得分利用迭代的光谱聚类算法生成最终的比对结果,删除节点数少于二的簇并输出比对结果。此算法存在的问题:迭代步骤需要时间过长,且产生的比对簇数目较少,导致最终产生的比结果的拓扑质量和生物功能质量都不高。
“NetCoffee:a fast and accurate global alignment approach to identifyfunctionally conserved proteins in multiple networks”(期刊出处:Bioinformatics,2014,30(4):540-548)算法提出了一种基于T-Coffee算法利用三角形的相似性得分计算方法来生成比对的候选节点对,并采用了模拟退火算法进行迭代求最优解。此算法存在的问题:基于T-Coffee算法的三角形计算方法使得算法仅能比对三个及三个以上的网络,不能进行两个网络的比对;且初始生成节点对的候选集合,导致生成的比对簇间节点联系不够紧密,从而使其生物功能质量较差。
“NetCoffee2:a novel global alignment algorithm for multiple PPInetworks based on graph feature vectors”(会议出处:Intelligent ComputingTheories and Application(ICIC),2018,241-246)算法对NetCoffee算法进行了改进,首先解决了NetCoffee算法仅能比对三个及三个以上网络的问题,通过图标签向量计算节点间的相似性得分来生成候选节点对,并采用与NetCoffee算法相同的模拟退火算法迭代生成最终的比对结果。此算法存在的问题:虽然解决了能够比对两个网络的问题,但其在计算节点相似性得分时,需要两种序列相似性信息bit score和e-value,使得算法的输入内容更多,但并没有获得更好的比对效果,导致算法输入内容更加复杂,但比对结果的生物功能质量依旧较差。
“Multiple network alignment via multiMAGNA++”(期刊出处:IEEE/ACMTransactions on Computational Biology and Bioinformatics,2017,15(5):1669-1682)算法采用遗传算法进行比对结果的优化,通过将初始种群不断迭代交叉变异产生具有更高目标函数得分的比对结果,能够有效解决算法陷入局部最优的问题。此算法存在的问题:由于初始种群是随机生成,且通常需要较大的迭代次数,不仅花费时间较长,而且比对的质量与设定的初始种群与迭代次数有较大关系。
“A novel computational approach for global alignment for multiplebiological networks”(期刊出处:IEEE/ACM Transactions on Computational Biologyand Bioinformatics,2018,15(6):2060-2066)算法是对NetCoffee算法的改进,首先改进了NetCoffee算法不能比对两个网络的缺陷,并且在计算节点间的相似性得分时除了网络的拓扑和序列相似性信息之外,还加入了功能相似性GO注释信息来计算,并采用与NetCoffee算法相同的模拟退火算法进行优化得到最终的比对结果。此算法存在的问题:需要输入额外的GO注释信息,但由于GO注释信息通常也用来衡量比对结果,所以在输入时加入GO注释信息有些矛盾,导致降低了算法的适用性。
发明内容
为此,本发明提出了基于模拟退火的多蛋白质相互作用网络比对方法,主要解决的技术问题包括:
1.解决了传统网络比对算法优化时容易出现的局部最优问题;
2.利用序列相似性信息构建的相似性图中寻找加权最大团的方式生成候选簇集合,解决了提高比对节点的相似性的问题;
3.在模拟退火过程中处理多个节点候选簇的状态更新方法,提高了算法的比对效率,且能够保证比对的生物质量。
为解决上述技术问题,本发明提供了基于模拟退火的多蛋白质相互作用网络比对方法,包括:步骤1:获取输入比对网络和序列相似性信息;步骤2:对输入比对网络和序列相似性信息进行处理后,构建候选簇集合;步骤3:采用模拟退火算法,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合,并根据加入候选簇前后比对的目标函数得分的差值进行状态更新;步骤4:目标函数得分差值大于零,则无条件接受新比对结果;若目标函数得分差值小于零,则根据Metropolis准则计算接受当前比对的概率;步骤5:判断是否达到退火终止条件,是,则结束比对,输出比对结果,否则返回至步骤3。
在本发明的一个实施例中,所述步骤2中,所述对输入比对网络和序列相似性信息进行处理过程包括:对两个节点相关的最大序列相似性得分进行归一化,归一化计算公式为:
其中,w(u,v)为节点u和节点v之间的序列相似性得分,wmax(u)为与节点u相关的序列相似性得分中的最大值,wmax(v)为与节点v相关的序列相似性得分中的最大值。
在本发明的一个实施例中,所述步骤2中,所述对输入比对网络和序列相似性信息进行处理过程还包括:对于某一条边,若其边的得分小于相应边的阈值,则删除这条边,过滤的计算公式为:
w(u,v)<β×max(u,v)
其中,β为用户设定的参数,取值在0到1之间;max(u,v)为与节点u或节点v相关连的序列相似性得分的最大值。
在本发明的一个实施例中,所述步骤2中,所述构建候选簇集合包括:通过构建序列相似性加权k-部图S并通过相似图S搜索加权最大k团构建候选簇集合,所述搜索加权最大k团采用分支限界法进行搜索,按广度优先策略搜索问题的解空间树,解空间树中任意一层i中的节点数为i+1,搜索的上界计算公式如下:
其中,wmax(u,r)表示节点u与图S中节点r之间最大的序列得分权重,EW(S)表示该分支所有节点的权重之和的最大值,PWmax(NS)表示该分支所有节点在图S中的邻居节点的最大权重和,Rep(NU)表示在节点η的邻居节点中存在于序列相似图S中的节点集合,当且仅当该分支所有节点的潜在权重之和超过该分支计算的最大值时,选择该分支,将该节点加入簇中,继续扩展下一个节点。
在本发明的一个实施例中,采用模拟退火算法,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合,并根据加入候选簇前后比对的目标函数得分的差值判断是否接受新比对结果的方法为:
d、模拟退火算法初始以一个空比对开始,第一次迭代时,在候选簇中选择权重最大的团作为第一个比对;
e、在其后的每一迭代中,将上一轮迭代的候选簇作为种子,在多蛋白质相互作用网络中对该种子中节点的邻居节点进行扩展,将以种子节点的邻居节点为中心生成的候选簇加入本轮迭代的候选簇集合NG中;
f、进行降温步骤后,在上一步生成的候选簇集合NG中随机选取一个候选簇,并计算加入这个候选簇后当前比对的目标函数得分;
d、若新比对与上一次迭代产生的比对的目标函数得分差值大于零,则无条件接受新比对结果;若两次比对之间的目标函数差值小于零,则根据Metropolis准则计算接受当前比对的概率,在0到1之间取一个任意值,若任意值小于接受当前对比的概率则接受产生的新比对,否则进入下一次循环,一直循环算法到温度降至最小值为止。
在本发明的一个实施例中,所述步骤3中,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合时,当候选簇中的节点与已比对上的节点簇集合之间满足时,将候选簇加入比对簇集合;其中,c={v1,v2,…,vl}为每一次迭代过程中选择的候选簇,l≤k,k为迭代次数,Cl={cl1,cl2,…,cln}为已比对上的节点簇集合。
在本发明的一个实施例中,所述步骤3中,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合时,当候选簇节点与已比对上的节点簇集合重叠的节点满足:|c∩Cl|=|c|,则表示当前迭代选择的候选簇都表示已经比对,则不考虑这个候选簇的节点。
在本发明的一个实施例中,所述步骤3中,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合时,对于已比对上的节点簇集合中任意一个节点簇cli∈Cl,满足:则将候选簇中未重复的节点与其在同一个网络中的节点进行替换,通过局部扰动产生一个新的状态解。
在本发明的一个实施例中,所述步骤3中,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合时,当候选簇节点与已比对上的节点簇集合重叠的节点满足:则将候选簇中的重复节点移除,并将剩余节点构成的簇加入候选簇中,以便进行下一次迭代搜索。
在本发明的一个实施例中,所述目标函数计算公式如下:
AS(A)=α×CIO(A)+(1-α)ICO(A)
其中,参数α是控制目标函数中拓扑和序列信息所占比重的参数,CIQ为衡量簇间节点的拓扑质量的指标,计算公式如下:
其中,E(Cli)表示在图s中与簇Cli中节点相连的边的集合,wmax(u)表示与节点u相连的边权重的最大值,w(u,v)表示节点u和节点v之间的序列相似性得分。
在本发明的一个实施例中,根据网络性质,β在合成网络上设置为0.2,在真实网络上设置为0.4。
本发明的上述技术方案相比现有技术具有以下优点:
1)使用基于序列相似性信息构建的k-部图中寻找加权最大团的方式生成候选簇,使得生成的候选簇中节点都是最相似的节点,来提高比对结果的质量;
2)使用模拟退火算法迭代搜索候选簇,能够避免在生成比对过程中产生局部最优问题;
3)根据节点重叠情况提出的状态更新方式能够将包含多个节点的候选簇进行更新,能够较大程度保留节点间的相似性联系,提高了算法的生物功能质量。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是一种基于模拟退后的多蛋白质相互作用网络比对方法的流程图。
图2是不同算法在合成网络数据集CG、DMC和DMR上比对结果的覆盖量Coverage。
图3是不同算法在合成网络数据集CG、DMC和DMR上比对结果的CIQ、SPE、MNE、nGOC得分。
图4是不同算法在真实网络数据集IsoBase上比对结果的覆盖量Coverage。
图5是不同算法在真实网络数据集IsoBase上比对结果的CIQ、SPE、MNE、nGOC得分,其中CIQ为拓扑衡量指标,SPE、MNE和nGOC是生物功能指标,其中除了MNE是得分越小越好外,其他指标均为越大越好。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明的基于模拟退火算法的多蛋白质相互作用网络比对方法,包括以下步骤:
步骤1:获取输入比对网络和序列相似性信息;
步骤2:对输入比对网络和序列相似性信息进行处理后,构建候选簇集合;
步骤3:采用模拟退火算法,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合,并根据加入候选簇前后比对的目标函数得分的差值判断是否接受新比对结果;
步骤4:若目标函数得分差值大于零,则无条件接受新比对结果;若目标函数得分差值小于零,则计算接受当前比对的概率;
步骤5:判断是否达到模拟退火算法的退火终止条件,是,则结束比对,输出比对结果,否则返回至步骤3。
具体过程如下:
所述步骤2中,为了使得序列相似性信息能够更加准确的反映节点间的相似性且序列相似性信息通常是不完整的,因此需要对序列相似性信息进行处理。首先将序列相似性bit score得分进行归一化,即通过两个节点相关的最大序列相似性得分进行归一化,归一化的计算如公式(1)。
其中w(u,v)为节点u和节点v之间的序列相似性bit score得分,wmax(u)为与节点u相关的序列相似性得分中的最大值,wmax(v)为与节点v相关的序列相似性得分中的最大值。
在对序列相似性信息进行归一化后,需要对序列相似性信息进行过滤。采用一个用户设定的阈值β,对于某一条边,若其边的得分小于相应阈值与其相关的序列相似性得分的最大值的乘积,则删除这条边,过滤的计算如公式(2)。
w(u,v)<β×max(u,v) (2)
其中β为用户设定的参数,取值在0到1之间;根据网络性质,通常在合成网络上设置为0.2,在真实网络上设置为0.4,max(u,v)为与节点u或节点v相关连的序列相似性bitscore得分的最大值。
所述步骤2中,由于k-部加权最大团中任意两个节点间均有边且来自同一网络中的节点最多仅有一个,且该团中节点间边的权值之和最大,所以通过搜索k-部加权最大团的方式使得生成的候选簇内的节点间的联系更加紧密。序列相似性信息构建的加权k-部图S,图中的节点表示蛋白质,节点间的边表示与边相连的两个节点间序列相似,且边的权重表示该序列相似性信息的bit score得分。在S图中对于任意一个节点以节点u为中心生成节点u及其邻居节点构成的在图S上的保守子图NGu。在子图NGu上搜索包含节点u的拥有最大权重的k团,k团是指在团内来自每个网络中的节点有且仅有一个,这与一对一网络比对的定义类似,所以本发明采用寻找最大权重的k团的方式产生候选簇。生成权重最大团采用分支限界法进行搜索,按广度优先策略搜索问题的解空间树,解空间树中任意一层i中的节点数为i+1,搜索的上界计算如公式(3)所示:
式中,wmax(u,r)表示节点u与图S中节点r之间最大的序列得分权重,EW(S)表示该分支所有节点的权重之和的最大值,PWmax(Ns)表示该分支所有节点在图S中的邻居节点的最大权重和;Rep(NU)表示在节点η的邻居节点中存在于序列相似图S中的节点集合。当且仅当该分支所有节点的潜在权重之和超过该分支计算的最大值时,选择该分支,将该节点加入簇中,继续扩展下一个节点。
所述步骤3中,通过模拟退火算法在候选簇集合中随机选取,并根据加入候选簇前后的状态目标函数得分的差值进行状态更新,来达到防止优化过程中产生局部最优解的问题。模拟退火算法初始化时,需要对参数进行初始化设定初始温度Tmax,最低温度Tmin,迭代次数k和降温系数s。
算法初始以一个空比对开始,第一次迭代时,在候选簇中选择权重最大的团作为第一个比对;而在其后的每一迭代中,将上一轮迭代的候选簇做为种子,在PPI网络中对该种子中节点的邻居节点进行扩展,将以种子节点的邻居节点为中心生成的候选簇加入本轮迭代的候选簇集合NG中。进行降温步骤后,在上一步生成的候选簇集合NG中随机选取一个候选簇,并计算加入这个候选簇后当前比对的目标函数得分。
所述步骤4中,若新比对与上一次迭代产生的比对的目标函数得分差值大于零,则无条件接受新比对结果;若两次比对之间的目标函数差值小于零,则根据Metropolis准则计算接受当前比对的概率,在0到1之间取一个任意值,若任意值小于接受当前解的概率则接受产生的新比对,否则进入下一次循环,算法一直循环到温度降至最小值为止。
所述目标函数计算公式如公式(7)所示,
AS(A)=α×CIQ(A)+(1-α)ICQ(A) (7)
其中,参数α是控制目标函数中拓扑和序列信息所占比重的参数。CIQ为衡量簇间节点的拓扑质量的指标,计算公式如公式(8)所示,
其中,E(Cli)表示在图s中与簇Cli中节点相连的边的集合,wmax(u)表示与节点u相连的边权重的最大值。w(u,v)表示节点u和节点v之间的序列相似性得分。
步骤3中,对于包含多个节点的候选簇的更新需要考虑到节点重复的多种情况,使得每一次的状态更新都能够尽可能获得的新状态具有较高的目标函数得分。每一次迭代过程中选择的候选簇为c={v1,v2,…,vl},其中l≤k;已比对上的节点簇集合为Cl={cl1,cl2,…,cln}。当候选簇与已比对上的簇集合之间满足时,将候选簇加入比对簇集合。当时,分为以下三种情况进行更新:
(1)所有节点都有重叠可以分为重叠的节点都在同一个簇中和重叠的节点分散在不同簇中两种情况,在这两种情况下当前迭代选择的候选簇都表示已经比对,则不考虑这些节点。满足条件如公式(12)所示。
|c∩Cl|=|c| (12)
(2)当簇中超过一半以上的节点有重合时,表示这两个簇之间的相关性很高,所以将簇c中未重复的节点与其在同一个网络中的节点进行替换,通过局部扰动产生一个新的状态解。对于簇集合中任意一个簇cli∈Cl,满足条件如公式(13)所示。
(3)对于簇c中重复的节点,若簇c中的节点与已比对上的簇中节点的关联性不高,且重叠的节点所占比例较小,所以将簇c中的重复节点移除,并将剩余节点构成的簇加入候选簇中,以便进行下一次迭代搜索。满足条件如公式(14)所示。
本方法分别在公共的真实和合成网络数据集上进行验证。真实网络来源于IsoBase包含五个真核生物,合成网络来源于NAPAbench的CG、DMC和DMR三种数据集。以合成网络CG数据集的8个网络为例:
1.按设定的输入文件顺序读取8个网络和28个BLAST相似性文件;
2.根据公式(1)、(2)对序列相似性信息进行归一化和过滤,构建8-部相似性图S;
3.在相似性图S中通过寻找最大k(k<=8)团的方式生成候选簇集合C。
4.模拟退火算法每一步迭代时,在候选簇集合中随机选取一个候选簇;
5.判断选取的候选簇与已比对簇之间的重叠情况,以生成新的状态解;
6.根据公式(3)计算新旧状态解的目标函数差值,差值大于0无条件接受新状态,否则以Metropolis准则判断是否接受新状态解,接受新状态后将该候选簇从候选簇集合C中删除;
7.判断是否达到最低温度或是否候选簇集合为空,是则结束比对得到最终比对结果,否则重复进行步骤4。
由附图2可知,(a)图为不同算法在三种合成网络数据集上比对结果簇的Coverage,表示产生的比对簇的数目,此时NetCoffee和NetCoffee2算法产生的簇数目更多;(b)图为不同算法在三种合成数据集上比对结果一致簇的Coverage,表示产生的具有生物意义的比对簇数目,此时SAMNA算法产生的一致簇数目最多,表明SAMNA算法能够产生更多具有生物意义的比对簇。附图3为不同算法在三种合成网络数据集上不同评价指标的结果,其中CIQ为拓扑指标,SPE、MNE和nGOC为生物功能指标,如图可知SAMNA算法的生物功能指标远高于其他几个算法,能够获得更具生物意义的比对结果。附图4和附图5分别为不同算法在真实网络上的Coverage和不同指标的得分结果,真实网络上的结果可知,SAMNA算法能够获得具有更高生物意义的比对结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.基于模拟退火的多蛋白质相互作用网络比对方法,其特征在于,包括:
步骤1:获取输入比对网络和序列相似性信息;
步骤2:对输入比对网络和序列相似性信息进行处理后,构建候选簇集合:通过构建序列相似性加权k-部图S并通过相似图S搜索加权最大k团构建候选簇集合,所述搜索加权最大k团采用分支限界法进行搜索,按广度优先策略搜索问题的解空间树,解空间树中任意一层i中的节点数为i+1,搜索的上界计算公式如下:
其中,wmax(u,r)表示节点u与图S中节点r之间最大的序列得分权重,EW(S)表示该分支所有节点的权重之和的最大值,PWmax(NS)表示该分支所有节点在图S中的邻居节点的最大权重和,Rep(NU)表示在节点η的邻居节点中存在于序列相似图S中的节点集合,当且仅当该分支所有节点的潜在权重之和超过该分支计算的最大值时,选择该分支,将该节点加入簇中,继续扩展下一个节点;
步骤3:采用模拟退火算法,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合,并根据加入候选簇前后比对的目标函数得分的差值判断是否接受新比对结果;
步骤4:若目标函数得分差值大于零,则无条件接受新比对结果;若目标函数得分差值小于零,则计算接受当前比对的概率;
步骤5:判断是否达到模拟退火算法的退火终止条件,是,则结束比对,输出比对结果,否则返回至步骤3。
3.根据权利要求2所述的基于模拟退火的多蛋白质相互作用网络比对方法,其特征在于,所述步骤2中,所述对输入比对网络和序列相似性信息进行处理过程还包括:对于某一条边,若其边的得分小于相应边的阈值,则删除这条边,过滤的计算公式为:
w(u,v)<β×max(u,v)
4.根据权利要求1所述的基于模拟退火的多蛋白质相互作用网络比对方法,其特征在于,采用模拟退火算法,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合,并根据加入候选簇前后比对的目标函数得分的差值判断是否接受新比对结果的方法为:
a、模拟退火算法初始以一个空比对开始,第一次迭代时,在候选簇中选择权重最大的团作为第一个比对;
b、在其后的每一迭代中,将上一轮迭代的候选簇作为种子,在多蛋白质相互作用网络中对该种子中节点的邻居节点进行扩展,将以种子节点的邻居节点为中心生成的候选簇加入本轮迭代的候选簇集合NG中;
c、进行降温步骤后,在上一步生成的候选簇集合NG中随机选取一个候选簇,并计算加入这个候选簇后当前比对的目标函数得分;
d、若新比对与上一次迭代产生的比对的目标函数得分差值大于零,则无条件接受新比对结果;若两次比对之间的目标函数差值小于零,则根据Metropolis准则计算接受当前比对的概率,在0到1之间取一个任意值,若任意值小于接受当前对比的概率则接受产生的新比对,否则进入下一次循环,一直循环算法到温度降至最小值为止。
6.根据权利要求1所述的基于模拟退火的多蛋白质相互作用网络比对方法,其特征在于,所述步骤3中,在候选簇集合中随机选取一个候选簇进行迭代后加入候选簇集合时,当候选簇节点与已比对上的节点簇集合重叠的节点满足:|c∩Cl|=|c|,则表示当前迭代选择的候选簇都表示已经比对,则不考虑这个候选簇的节点。
9.根据权利要求1所述的基于模拟退火的多蛋白质相互作用网络比对方法,其特征在于,所述目标函数计算公式如下:
AS(A)=a×CIQ(A)+(1-a)ICQ(A)
其中,参数α是控制目标函数中拓扑和序列信息所占比重的参数,CIQ为衡量簇间节点的拓扑质量的指标,计算公式如下:
其中,E(Cli)表示在图s中与簇Cli中节点相连的边的集合,wmax(u)表示与节点u相连的边权重的最大值,w(u,v)表示节点u和节点v之间的序列相似性得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547632.XA CN113066524B (zh) | 2021-05-19 | 2021-05-19 | 基于模拟退火的多蛋白质相互作用网络比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547632.XA CN113066524B (zh) | 2021-05-19 | 2021-05-19 | 基于模拟退火的多蛋白质相互作用网络比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113066524A CN113066524A (zh) | 2021-07-02 |
CN113066524B true CN113066524B (zh) | 2022-12-20 |
Family
ID=76568609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110547632.XA Active CN113066524B (zh) | 2021-05-19 | 2021-05-19 | 基于模拟退火的多蛋白质相互作用网络比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066524B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016134659A1 (zh) * | 2015-02-25 | 2016-09-01 | 苏州大学张家港工业技术研究院 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
CN110988933A (zh) * | 2019-10-31 | 2020-04-10 | 太原理工大学 | 一种基于模拟退火和梯度下降的选星方法 |
CN111599406A (zh) * | 2020-05-25 | 2020-08-28 | 江南大学 | 结合网络聚类方法的全局多网络比对方法 |
CN111916149A (zh) * | 2020-08-19 | 2020-11-10 | 江南大学 | 基于层次聚类的蛋白质相互作用网络全局比对方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8000949B2 (en) * | 2001-06-18 | 2011-08-16 | Genego, Inc. | Methods for identification of novel protein drug targets and biomarkers utilizing functional networks |
CN107679616B (zh) * | 2017-10-20 | 2020-12-04 | 江南大学 | 一种引入序列信息的残基相互作用网络比对方法si-magna |
CN112582027B (zh) * | 2020-12-15 | 2022-04-29 | 武汉大学 | 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 |
-
2021
- 2021-05-19 CN CN202110547632.XA patent/CN113066524B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016134659A1 (zh) * | 2015-02-25 | 2016-09-01 | 苏州大学张家港工业技术研究院 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
CN110988933A (zh) * | 2019-10-31 | 2020-04-10 | 太原理工大学 | 一种基于模拟退火和梯度下降的选星方法 |
CN111599406A (zh) * | 2020-05-25 | 2020-08-28 | 江南大学 | 结合网络聚类方法的全局多网络比对方法 |
CN111916149A (zh) * | 2020-08-19 | 2020-11-10 | 江南大学 | 基于层次聚类的蛋白质相互作用网络全局比对方法 |
Non-Patent Citations (1)
Title |
---|
一种拓扑与生物功能一致的多网络比对算法;夏金芳等;《小型微型计算机系统》;20201030;第41卷(第10期);第2146-2151页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113066524A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hsu et al. | An unsupervised hierarchical dynamic self-organizing approach to cancer class discovery and marker gene identification in microarray data | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN111599406B (zh) | 结合网络聚类方法的全局多网络比对方法 | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
CN112466404B (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
CN111161882A (zh) | 一种基于深度神经网络的乳腺癌生存期预测方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
US20170076036A1 (en) | Protein functional and sub-cellular annotation in a proteome | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
CN113555062B (zh) | 一种用于基因组碱基变异检测的数据分析系统及分析方法 | |
Yones et al. | Genome-wide pre-miRNA discovery from few labeled examples | |
Randhawa et al. | Advancing from protein interactomes and gene co-expression networks towards multi-omics-based composite networks: approaches for predicting and extracting biological knowledge | |
Hornung et al. | Prediction approaches for partly missing multi‐omics covariate data: A literature review and an empirical comparison study | |
CN113066524B (zh) | 基于模拟退火的多蛋白质相互作用网络比对方法 | |
CN117611974A (zh) | 基于多种群交替进化神经结构搜索的图像识别方法及系统 | |
CN112885405A (zh) | 疾病关联miRNA的预测方法和系统 | |
Fonseca et al. | Ranking beta sheet topologies with applications to protein structure prediction | |
Shehzadi et al. | Intelligent predictor using cancer-related biologically information extraction from cancer transcriptomes | |
CN116525114A (zh) | 一种基于pdk1联合免疫的肾透明细胞癌预后预测模型 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
Liu et al. | A mRMRMSRC feature selection method for radiomics approach | |
Pashaei et al. | Frequency difference based DNA encoding methods in human splice site recognition | |
Bonomo et al. | Prediction of Disease–lncRNA Associations via Machine Learning and Big Data Approaches | |
Bak et al. | BinChill: A metagenomic binning ensemble method | |
CN116583905B (zh) | 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |