CN114974400A - 一种全局生物网络比对方法 - Google Patents

一种全局生物网络比对方法 Download PDF

Info

Publication number
CN114974400A
CN114974400A CN202210320366.1A CN202210320366A CN114974400A CN 114974400 A CN114974400 A CN 114974400A CN 202210320366 A CN202210320366 A CN 202210320366A CN 114974400 A CN114974400 A CN 114974400A
Authority
CN
China
Prior art keywords
node
network
source network
nodes
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210320366.1A
Other languages
English (en)
Other versions
CN114974400B (zh
Inventor
陈璟
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210320366.1A priority Critical patent/CN114974400B/zh
Publication of CN114974400A publication Critical patent/CN114974400A/zh
Application granted granted Critical
Publication of CN114974400B publication Critical patent/CN114974400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种生物网络比对方法、装置、设备以及计算机可读存储介质,包括:分别提取源网络和目标网络中所有节点,提取序列相似性文件中源网络节点和目标网络节点之间的序列信息;计算源网络中每个节点与目标网络中所有节点之间的拓扑信息;融合源网络节点与目标网络节点的拓扑信息和序列信息,计算源网络中每个节点与目标网络中所有节点之间的相似性得分;基于节点间的相似性得分指导初始化种群,采用蝙蝠算法进行优化种群,选取目标函数得分最高的个体作为比对结果。本发明通过结合拓扑和序列信息的融合计算节点对相似性得分,提高拓扑得分,保证比对结果与生物一致性,采用相似性得分指导生成初始种群,提高多样性,便于后续优化。

Description

一种全局生物网络比对方法
技术领域
本发明涉及生物网络全局比对技术领域,特别是涉及一种全局生物网络比对方法、装置、设备以及计算机可读储存介质。
背景技术
网络比对是复杂网络的一个研究方向,可以应用在生活中常见的交通网络、社会网络、生物网络等。其中,生物网络比对是一种常用的研究生物分子间相互作用的方法,也是分析物种间功能差异的重要手段,通过对生物网络的比较,可以挖掘物种间功能的差异性﹑物种间的知识转移、系统发育关系等。
目前的生物比对算法中,往往不能很好的计算蛋白质相似信息并将相似蛋白质进行比对,比对结果存在拓扑质量高生物质量低或者生物质量高拓扑质量低的情况,很难达到拓扑和生物质量一致性。
综上所述可以看出,如何充分考虑节点对的拓扑结构和生物功能,提高比对结果的拓扑和生物质量是目前有待解决的问题。
发明内容
本发明的目的是提供一种全局生物网络比对方法、装置、设备以及计算机可读存储介质,解决了现有技术中未充分考虑拓扑和生物功能的信息导致生物比对结果不准确的缺陷。
为解决上述技术问题,本发明提供一种全局生物网络比对方法,包括:
分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
对初所述始种群进行迭代优化,得到目标种群;
计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
优选地,所述计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息包括:
所述拓扑信息的计算公式为:
Figure RE-GDA0003772972760000021
其中,u为所述源网络中的节点,v为所述目标网络中的节点, deg(u)和deg(v)分别为节点u和节点v的度。
优选地,所述融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分包括:
融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算相似性得分,其公式:S0(u,v)=(1-α)*ST(u,v)+α*SE(u,v);
其中,
Figure RE-GDA0003772972760000022
为所述源网络中节点u和所述目标网络中节点v的序列信息,α为调节拓扑和序列间的权重 BLAST(u,v)为所述节点u和所述节点v的bit-score得分;
基于所述源网络内邻居节点对所述节点u的干扰及所述目标网络邻居节点对所述节点v的干扰,将相似性得分更新为:
Figure RE-GDA0003772972760000031
其中,t为标识迭代次数,γ为起到调节权重的作用;|N(u)|为节点 u的邻居节点的个数;|N(v)|为v节点的邻居节点的个数,M为邻居节点间比对上的节点对集合。
优选地,所述选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群包括:
基于初始源网络节点序列,利用贪心算法不断选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,直至所述源网络中的所有节点均比对完成,将所有节点对组合为一个个体;
随机生成源网络节点序列,按照序列中源网络节点出现的顺序,选择与该节点相似性得分最高的目标网络节点比对为节点对,直至源网络节点序列都比对完成,生成个体,重复随机比对的步骤,生成其余个体,将所有个体组合为初始种群。
优选地,所述对所述初始种群进行迭代优化,得到目标种群包括:
利用蝙蝠算法对所述初始种群进行全局搜索和局部搜索生成新的个体,重复全局搜索和局部搜索的步骤迭代优化种群,直至达到预设迭代次数,输出目标种群。
优选地,所述全局搜索包括:
根据蝙蝠算法计算所述初始种群中每个个体中源网络节点的速度,若当前源网络节点速度为0,则保持当前源网络节点的匹配;
若当前源网络节点速度为1,则在所述目标网络中未比对上的节点中进行随机匹配,产生新的个体。
优选地,所述局部搜索包括:
保留所述全局搜索的结果,将每个个体中源网络节点速度为1的节点对组成一个交换集合;
将所述交换集合中的源网络节点随机交换比对目标网络节点,产生新的个体。
本发明还提供了一种全局生物网络比对的装置,包括:
读取模块,用于分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
计算拓扑信息模块,用于计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
计算相似性模块,用于融合源网络节点与目标网络节点的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
生成种群模块,用于选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
迭代优化模块,用于对初始种群进行迭代优化,得到目标种群;
选取模块:用于计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
本发明还提供了一种全局生物网络比对的设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种全局生物网络比对的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种全局生物网络比对的方法的步骤。
相比于现有技术本发明具有一下优点:
本发明首先读取源网络和目标网络中所有节点,以及序列相似性文件中节点的序列信息,计算源网络每个节点和目标网络中所有节点的拓扑信息,将拓扑信息和序列信息融合计算源网络节点和目标网络节点之间的相似性得分,提高了拓扑信息指标的得分,保证了比对结果的拓扑和生物一致性,利用源网络节点和目标网络节点间的相似性得分指导进行初始化种群,取代了之前的随机将节点比对生成种群,提升了种群的多样性,有效提高了收敛速度,保证了个体的差异性,便于后续的搜索寻优;然后不断迭代优化初始种群,得到目标种群,计算目标种群个体中所有的目标函数值,选取目标函数值最大的个体作为比对结果。本发明通过结合拓扑信息和序列信息的融合计算节点对相似性得分,提高了相似性得分,保证比对结果拓扑与生物一致性,利用节点间的相似性得分指导生成初始种群,保证了种群的多样性,提高初始个体质量,便于后续优化种群。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的生物全局网络比对方法的第一种具体实施例的流程图;
图2为本发明所提供的生物全局网络比对方法的第二种具体实施例的流程图;
图3为全局搜索示意图;
图4为局部搜索示意图;
图5为本发明方法与其他方法在BioGRID数据集上的边正确性 (EdgeCorrectness,EC)的实验比对柱状图;
图6为本发明方法与其他方法在BioGRID数据集上的诱导子图保守结构(InducedConservative Structure,ICS)的实验比对柱状图;
图7为本发明方法与其他方法在BioGRID数据集上的对称子图得分(SymmetricSubstructure Score,S3)的实验比对柱状图;
图8为本发明方法与其他方法在BioGRID数据集上的功能相干值(FunctionalCoherence Value,FC)的实验比对柱状图;
图9为本发明方法与其他方法在BioGRID数据集上的平均功能相似性(AverageFunctional Similarity,AFS)的实验比对柱状图;
图10为本发明方法与其他方法在合成数据集(CG,DMC,DMR) 上的边正确性(EdgeCorrectness,EC)的实验比对柱状图;
图11为本发明方法与其他方法在合成数据集(CG,DMC,DMR) 上的诱导子图保守结构(Induced Conservative Structure,ICS)的实验比对柱状图;
图12为本发明方法与其他方法在合成数据集(CG,DMC,DMR) 上的对称子图得分(Symmetric Substructure Score,S3)的实验比对柱状图;
图13为本发明方法与其他方法在合成数据集(CG,DMC,DMR) 上的功能相干值(Functional Coherence Value,FC)的实验比对柱状图;
图14为本发明实施例提供的一种全局生物网络比对的装置的结构框图。
具体实施方式
本发明的核心是提供一种全局生物网络比对的方法,将节点的拓扑信息和序列信息进行融合,计算源网络中每个节点与目标网络所有节点的相似性得分,保证了比对结果的拓扑和生物一致性。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的全局生物网络比对的方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
步骤S102:计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
步骤S103:融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
步骤S104:选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
步骤S105:对初始种群进行迭代优化,得到目标种群;
采用蝙蝠算法或者遗传算法等其他算法进行迭代优化种群,提高种群中个体的得分。
步骤S106:计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
本实施例所提供的方法,首先读取源网络和目标网络中所有节点以及节点序列信息;计算源网络中节点与目标网络节点的拓扑信息,将源网络和目标网络中节点的拓扑信息和序列信息进行融合,然后计算源网络中每个节点与目标网络中所有节点的相似性得分,提高拓扑指标的得分,保证了比对结果的拓扑和生物一致性,利用节点间的相似性得分进行初始化种群,提高种群的多样性,便于后续优化种群,计算比对结果优化种群,得到比对结果。本发明通过结合拓扑信息和序列信息的融合计算节点对相似性得分,保证比对结果拓扑与生物一致性,采用相似性得分指导生成初始种群,丰富了种群的多样性,便于之后优化,提高了比对结果质量。
基于上述实施例,本实施例采用蝙蝠算法对初始种群进行优化,进行全局搜索和局部搜索,提高个体得分,请参考图2,图2为本发明所提供的全局生物网络比对的方法的第二种具体实施例的流程图;具体操作步骤如下:
步骤S201:分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
步骤S202:计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
步骤S203:融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
融合拓扑和序列的相似性迭代计算方法,迭代计算如公式(1)所示,拓扑和序列融合如公式(2)所示。公式(1)中的S表示节点相似性;t标识迭代次数;u表示源网络中的节点;v表示目标网络中的节点;γ起到调节权重的作用;|N(u)|表示节点u的邻居节点的个数;|N(v)|表示v节点的邻居节点的个数;由u的邻居节点组成的小的网络一,v的邻居节点组成小的网络二,使用贪心算法得到两个小网络的比对结果,比对上的节点对集合即为M。
Figure RE-GDA0003772972760000081
公式(1)体现相似性的迭代计算,算法中设置迭代两次,即计算 S0和S1,其中S0的计算融合拓扑和序列信息,S1的计算基于S0进行。
S0(u,v)=(1-α)*ST(u,v)+α*SE(u,v) (2)
公式(2)中ST如公式(3)所示,表示节点的拓扑信息;SE如公式(4)所示表示节点序列信息。通过α调节拓扑和序列间的权重,α越大则节点相似性更多依赖于序列相似性,α越小则更多依赖于拓扑相似性。
Figure RE-GDA0003772972760000082
公式(3)中deg(u)和deg(v)为节点的度,ST越大节点相似度越高,拓扑结构越相似。
Figure RE-GDA0003772972760000083
公式(4)中BLAST(u,v)为节点u和节点v的bit-score得分,SE(u,v) 越大节点对的相似性越高,生物功能越相似。
步骤S204:基于源网络节点与目标网络节点间的相似性得分初始化种群;
基于初始源网络节点序列,利用贪心算法不断选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,直至所述源网络中的所有节点均比对完成,将所有节点对组合为一个个体;
随机生成源网络节点序列,按照序列中源网络节点出现的顺序,选择与该节点相似性得分最高的目标网络节点比对为节点对,直至源网络节点序列都比对完成,生成个体,重复随机比对的步骤,生成其余个体,将所有个体组合为初始种群。
基于节点相似性生成种群,如算法1所示。依靠节点相似性生成一个个体,如算法步骤1所示,使用贪心算法,贪心的选择相似性矩阵中相似性最大的一对节点比对到一起,已经比对上的个体不重复比对。种群中的其余个体生成方法如算法步骤2所示,首先生成随机序列,依靠随机序列在相似性矩阵中选择相似性高的节点对进行比对,已经比对上的个体不重复比对。
位置向量
Figure RE-GDA0003772972760000091
表示一个比对结果,其含义为源网络中编号为0的节点比对到目标网络编号为x1的节点,源网络中编号为1的节点比对到目标网络编号为x2的节点,以此类推。种群大小为P,则总共生成P个位置向量X={X1,X2,…,Xi,…, XP}。
将源网络中和目标网络个的所有节点进行编号,构建相似性矩阵,其中,行标为源网络节点编号,列标为目标网络节点编号;
算法1.个体位置初始化算法
输入:种群大小P;节点相似性矩阵S;源网络大小n1;目标网络大小n2
输出:位置X={X1,X2,…,Xi,…,XP}
选择相似性矩阵S中得分最高的元素所在行为i,列为j,将源网络中的节点i映射到目标网络的节点j,并且不再重复选择i行和j列中的元素;
直到矩阵中所有行都被选择过(即源网络中的节点全部比对结束);
生成位置向量X1={x1,x2,…,xk,…,xn1}。
算法2:
生成值为0~(n1~1)的随机序列τ,长度为n1;
选择相似性矩阵S的行τ(k)中得分最高的元素所在的l列,将源网络的τ(k)节点映射到目标网络的l节点;
生成位置向量Xm={x1,x2,x3,…,xk,…,xn1};
S205:采用蝙蝠算法对所述初始种群进行全局搜索和局部搜索生成新的个体,重复全局搜索和局部搜索的步骤优化种群,直至达到预设迭代次数,输出目标种群;
根据蝙蝠算法计算所述初始种群中每个个体中源网络节点的速度,若当前节点速度为0,则保持当前节点的匹配。
若当前节点速度为1,则在目标网络中未比对上的节点中进行随机匹配,形成新的个体。
保留所述全局搜索的结果,将每个个体中所有速度为1的源网络节点对组成一个交换集合;
将所述交换集合中的源网络节点随机交换比对目标网络节点,产生新的个体。
个体更新时,首先进行全局搜索,然后在全局搜索的基础上进行局部搜索,得到更新后的个体。对每个个体都进行全局和局部更新,提高比对结果的质量。
全局搜索的范围在所有未被比对的节点中进行。图3为全局搜索示意图,图3(a)中的位置向量X转换为图3(b)的映射关系,根据速度向量V,对G1中速度为1的节点{1}重新进行匹配,在G2中未被匹配的节点{2′,3′}中随机选取节点,形成新的映射关系1→2′,新的个体。
局部搜索的范围在所有已经比对的但是速度为1的节点中进行。图4为局部搜索示意图,图4(a)中的位置向量X转换为图4(b)的映射关系,根据速度向量V,对G1中速度为1的节点{2,3}重新进行匹配,在 G2中的节点{4′,5′}中随机选取节点,形成新的映射关系2→5′,3→4′,产生新的个体,优化种群,如图4(c)所示。
具体迭代计算如下所示:
S51:初始化迭代次数t=0,预设迭代次数为T,
S52:对种群进行全局搜索和局部搜索更新个体,迭代次数更新 t=t+1;
S53:判断t=T;
S54:若成立,则输出目标种群;
S55:若不成立,则返回执行52。
S206:计算目标种群中所有个体的目标函数值,选取目标函数值最大的个体作为比对结果。
目标函数计算方法如公式:
SS(A)=CE(A)+PS(A)
其中,A即一个比对结果,
Figure RE-GDA0003772972760000111
Figure RE-GDA0003772972760000112
即比对结果中保守边数目,即源网络中的边在目标网络中也有映射边的数目,其中f(ui)表示节点ui在比对结果中的匹配节点,f(uj)表示节点uj在比对结果中的匹配节点。PS(A)即保守节点的序列相似性得分
Figure RE-GDA0003772972760000113
有益效果:本发明所带来的好处,所达到的指标。
1)使用拓扑和序列结合的相似性计算方法,保证了比对结果的拓扑和生物一致性;
2)采用相似性得分指导初始种群的产生,有效提高收敛速度;
3)蝙蝠算法保留全局搜索结果,进行局部扰动,提高个体得分。
在本实施例中,采用蝙蝠算法对初始种群进行全局搜索和局部搜索,首先计算源网络节点的速度,该节点速度为1,则将该节点与所述目标网络中未比对的节点进行随机匹配;保留全局搜索结果,将每个个体中源网络节点速度为1的节点对组成一个交换集合;将所述交换集合中的源网络节点随机交换比对目标网络节点,产生新的个体。不断进行全局搜索和局部搜索进行个体优化,提高种群中个体的得分,之后计算种群中每个个体的目标函数值,选取目标函数值最大的个体作为比对结果,提高了全局生物比对的结果。
本方法基于蝙蝠算法的全局生物网络比对方法为PONAL (PopulationOptimization Network ALignment),为了说明PONAL的有效性,分别在真实网络和合成网络进行实验,其中真实网络使用 BioGRID数据集中的三个物种:褐家鼠RN(Rattusnorvegicus),粟酒裂殖酵母SP(Schizosaccharomyces pombe),秀丽隐杆线虫CE(Caenorhabditis elegans);合成网络使用NAPAbench2中的三个网络:晶体生长网络CG(Crystal Growth),复制-突变-互补网络DMC (Duplication MutationComplementation),带随机突变的复制网络 DMR(Duplication with Random Mutation)。
实验的具体步骤如下:
步骤1:分别提取SP网络和CE网络中所有节点,以及SP网络和CE网络的序列相似性文件中节点之间的序列信息;
将SP网络和CE网络以及两个网络之间的序列相似性文件输入,提取两个网络中的所有节点,以及节点之间的序列信息。
步骤2:计算SP网络中每个节点与CE网络中所有节点之间的拓扑信息;
步骤3:融合节点的拓扑信息和序列信息,计算SP网络中每个节点和CE网络中所有节点之间的相似性得分;
步骤4:选取SP网络节点与该节点相似性得分最高的CE网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个SP网络节点序列,基于各个SP网络节点序列与CE网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
步骤5:采用蝙蝠算法对所述初始种群进行全局搜索和局部搜索生成新的个体,重复全局搜索和局部搜索的步骤优化种群,直至达到预设迭代次数,输出目标种群;
步骤6:计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
请参考图5至图13,图5至图9为本发明的方法与不同算法 (ModuleAlign,MAGNA++,AligNet)在真实生物网络(BioGRID) 在数据集边正确性(Edge Correctness,EC),诱导子图保守结构 (Induced Conservative Structure,ICS),对称子图得分(SymmetricSubstructure Score,S3),功能相干值(Functional Coherence Value,FC) 和平均功能相似性(Average Functional Similarity,AFS)的实验对比图;图10至图13为本发明的方法与不同算法(ModuleAlign, MAGNA++)在合成网络(CG,DMC,DMR)上的实验对比图;将本发明的方法PONAL与ModuleAlign,MAGNA++,方法进行了对比,其中EC,ICS,S3为拓扑指标,FC功能相干值(Functional Coherence Value,FC)。
如图5至图13所示,ModuleAlign算法在搜索比对结果时不断增加保守边,因此其拓扑质量优秀但是没能取得好的生物质量,而 AligNet算法在比对过程中过于依赖序列信息牺牲了拓扑质量,二者都没能取得拓扑和生物一致性,MAGNA++在真实网络中有一定优势但是在合成网络上效果不佳,PONAL在拓扑指标和生物指标上都取得了较好的结果,取得了较好的拓扑和生物一致性。
本实施例中,采用生物网络SP网络(粟酒裂殖酵母)和CE网络 (秀丽隐杆线虫)进行比对,首先将SP网络(粟酒裂殖酵母)和CE 网络(秀丽隐杆线虫)经过预处理,提取处理后的SP网络(粟酒裂殖酵母)和CE网络(秀丽隐杆线虫)中所有节点的拓扑信息以及两网络间的序列相似性文件中节点的序列信息;然后将两网络中每个节点的拓扑信息和序列信息融合,计算SP网络中每个节点与CE网络中所有节点的相似性得分,采用拓扑信息与序列结合计算相似性的方法,能够提高拓扑的指标得分,能够保证比对结果和生物一致性,并且本发明采用相似性得分选取得分最高的一组节点对生成个体,剩余的采用随机序列与相似性得分结合生成其他个体,提高种群个体的多样性,提高收敛速度。最后采用蝙蝠算法依次迭代进行全局搜索和局部搜索,提高个体的得分,直至达到预设迭代次数,将种群中目标函数得分最高的个体输出作为比对结果。本发明将拓扑信息和序列信息进行融合计算相似性得分,提高了拓扑指标的得分,保证了比对结果与生物一致性。
请参考图7,图7为本发明实施例提供的一种全局生物网络比对的装置的结构框图;具体装置可以包括:
读取模块100,用于分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
计算拓扑信息模块200,用于计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
计算相似性模块300,用于融合源网络节点与目标网络节点的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
生成种群模块400,用于选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
迭代优化模块500,用于对初始种群进行迭代优化,得到目标种群;
选取模块600,用于计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
本实施例的一种全局生物网络比对的装置用于实现前述的一种全局生物网络比对方法,因此一种全局生物网络比对装置中的具体实施方式可见前文中的一种全局生物网络比对方法的实施例部分,例如,读取模块100,计算拓扑信息模块200,计算相似性模块300,生成种群模块400,迭代优化模块500,选取模块600分别用于实现上述一种全局生物网络比对方法中步骤S101,S102,S103,S104,S105和S106,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种全局生物网络比对的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种全局生物网络比对方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种全局生物网络比对方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种全局生物网络比对方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种全局生物网络比对方法,其特征在于,包括:
分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
对所述初始化种群进行迭代优化,得到目标种群;
计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
2.如权利要求1所述的全局生物网络比对方法,其特征在于,所述计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息包括:
所述拓扑信息的计算公式为:
Figure FDA0003571402610000011
其中,u为所述源网络中的节点,v为所述目标网络中的节点,deg(u)和deg(v)分别为节点u和节点v的度。
3.如权利要求2所述的全局生物网络比对方法,其特征在于,所述融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分包括:
融合源网络节点与目标网络节点之间的拓扑信息和序列信息,计算相似性得分,其公式:S0(u,v)=(1-α)*ST(u,v)+α*SE(u,v);
其中,
Figure FDA0003571402610000021
为所述源网络中节点u和所述目标网络中节点v的序列信息,α为调节拓扑和序列间的权重,BLAST(u,v)为所述节点u和所述节点v的bit-score得分;
基于所述源网络内邻居节点对所述节点u的干扰及所述目标网络邻居节点对所述节点v的干扰,将相似性得分更新为:
Figure FDA0003571402610000022
其中,t为标识迭代次数,γ为起到调节权重的作用;|N(u)|为节点u的邻居节点的个数;|N(v)|为v节点的邻居节点的个数,M为邻居节点间比对上的节点对集合。
4.如权利要求1所述的全局生物网络比对方法,其特征在于,所述选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群包括:
基于初始源网络节点序列,利用贪心算法不断选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,直至所述源网络中的所有节点均比对完成,将所有节点对组合为一个个体;
随机生成源网络节点序列,按照序列中源网络节点出现的顺序,选择与该节点相似性得分最高的目标网络节点比对为节点对,直至源网络节点序列都比对完成,生成个体,重复随机比对的步骤,生成其余个体,将所有个体组合为初始种群。
5.如权利要求1所述的全局生物网络比对方法,其特征在于,所述对所述初始种群进行迭代优化,得到目标种群包括:
利用蝙蝠算法对所述初始种群进行全局搜索和局部搜索生成新的个体,重复全局搜索和局部搜索的步骤迭代优化种群,直至达到预设迭代次数,输出目标种群。
6.如权利要求5所述的全局生物网络比对方法,其特征在于,所述全局搜索包括:
根据蝙蝠算法计算所述初始种群中每个个体中源网络节点的速度,若当前源网络节点速度为0,则保持当前源网络节点的匹配;
若当前源网络节点速度为1,则在所述目标网络中未比对上的节点中进行随机匹配,产生新的个体。
7.如权利要求6所述的全局生物网络比对方法,其特征在于,所述局部搜索包括:
保留所述全局搜索的结果,将每个个体中源网络节点速度为1的节点对组成一个交换集合;
将所述交换集合中的源网络节点随机交换比对目标网络节点,产生新的个体。
8.一种全局生物比对的装置,其特征在于,包括:
读取模块,用于分别提取源网络和目标网络中所有节点,提取序列相似性文件中所述源网络节点和所述目标网络节点之间的序列信息;
计算拓扑信息模块,用于计算所述源网络中每个节点与所述目标网络中所有节点之间的拓扑信息;
计算相似性模块,用于融合源网络节点与目标网络节点的拓扑信息和序列信息,计算所述源网络中每个节点与所述目标网络中所有节点之间的相似性得分;
生成种群模块,用于选取源网络节点与该节点相似性得分最高的目标网络节点比对为节点对,将所有节点对组合为一个个体,随机生成多个源网络节点序列,基于各个源网络节点序列与目标网络节点进行比对,依次生成其他个体,将所有个体组合为初始种群;
迭代优化模块,用于对初始种群进行迭代优化,得到目标种群;
选取模块,用于计算所述目标种群中所有个体的目标函数值,选取所述目标函数值最大的个体作为所述源网络和所述目标网络的比对结果。
9.一种全局生物比对的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种全局生物比对方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种全局生物比对方法的步骤。
CN202210320366.1A 2022-03-29 2022-03-29 一种全局生物网络比对方法 Active CN114974400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210320366.1A CN114974400B (zh) 2022-03-29 2022-03-29 一种全局生物网络比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210320366.1A CN114974400B (zh) 2022-03-29 2022-03-29 一种全局生物网络比对方法

Publications (2)

Publication Number Publication Date
CN114974400A true CN114974400A (zh) 2022-08-30
CN114974400B CN114974400B (zh) 2023-06-16

Family

ID=82976302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210320366.1A Active CN114974400B (zh) 2022-03-29 2022-03-29 一种全局生物网络比对方法

Country Status (1)

Country Link
CN (1) CN114974400B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116094952A (zh) * 2023-01-04 2023-05-09 中国联合网络通信集团有限公司 网络结构相似度的确定方法、装置、设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389206A (zh) * 2018-09-26 2019-02-26 大连大学 基于非支配排序的混合蝙蝠算法的dna编码序列优化方法
CN110728349A (zh) * 2019-09-19 2020-01-24 武汉大学 一种混合蝙蝠算法的优化方法以及多层感知器的优化方法
CN111599404A (zh) * 2020-05-25 2020-08-28 江南大学 基于离散化蝙蝠算法的两个生物网络全局比对方法
CN111599405A (zh) * 2020-05-25 2020-08-28 江南大学 融合多种拓扑信息的生物网络比对方法
CN111916149A (zh) * 2020-08-19 2020-11-10 江南大学 基于层次聚类的蛋白质相互作用网络全局比对方法
US20200410304A1 (en) * 2019-06-26 2020-12-31 Huazhong University Of Science And Technology Method for valuation of image dark data based on similarity hashing
CN112446492A (zh) * 2020-12-14 2021-03-05 江南大学 基于遗传算法的生物网络比对方法
CN112582027A (zh) * 2020-12-15 2021-03-30 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
US20210233607A1 (en) * 2020-01-27 2021-07-29 Fuji Xerox Co., Ltd. System and method for contrastive network analysis and visualization

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389206A (zh) * 2018-09-26 2019-02-26 大连大学 基于非支配排序的混合蝙蝠算法的dna编码序列优化方法
US20200410304A1 (en) * 2019-06-26 2020-12-31 Huazhong University Of Science And Technology Method for valuation of image dark data based on similarity hashing
CN110728349A (zh) * 2019-09-19 2020-01-24 武汉大学 一种混合蝙蝠算法的优化方法以及多层感知器的优化方法
US20210233607A1 (en) * 2020-01-27 2021-07-29 Fuji Xerox Co., Ltd. System and method for contrastive network analysis and visualization
CN111599404A (zh) * 2020-05-25 2020-08-28 江南大学 基于离散化蝙蝠算法的两个生物网络全局比对方法
CN111599405A (zh) * 2020-05-25 2020-08-28 江南大学 融合多种拓扑信息的生物网络比对方法
CN111916149A (zh) * 2020-08-19 2020-11-10 江南大学 基于层次聚类的蛋白质相互作用网络全局比对方法
CN112446492A (zh) * 2020-12-14 2021-03-05 江南大学 基于遗传算法的生物网络比对方法
CN112582027A (zh) * 2020-12-15 2021-03-30 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HASHEMIFAR S, XUJB.: "HubAlign: an accurate and efficient method for globalalignment of protein-protein interaction networks[J]", 《BIOINFORMATICS》 *
LEI MENG, JOSEPH CRAWFORD, AARON STRIEGEL, TIJANA MILENKOVIC: "IGLOO: Integrating global and local biological network alignment", 《ARXIV》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116094952A (zh) * 2023-01-04 2023-05-09 中国联合网络通信集团有限公司 网络结构相似度的确定方法、装置、设备以及存储介质
CN116094952B (zh) * 2023-01-04 2024-05-14 中国联合网络通信集团有限公司 网络结构相似度的确定方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN114974400B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
Abdel-Basset et al. A novel whale optimization algorithm integrated with Nelder–Mead simplex for multi-objective optimization problems
CN102413029B (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
CN114386694A (zh) 基于对比学习的药物分子性质预测方法、装置及设备
EP3611799A1 (en) Array element arrangement method for l-type array antenna based on inheritance of acquired characteristics
US20040167721A1 (en) Optimal fitting parameter determining method and device, and optimal fitting parameter determining program
Bryant et al. Likelihood calculation in molecular phylogenetics.
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
Li et al. Improved gene expression programming to solve the inverse problem for ordinary differential equations
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN114974400A (zh) 一种全局生物网络比对方法
CN114221350B (zh) 基于bas-iga算法的分布式光伏集群划分方法和系统
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及系统
CN118298906A (zh) 蛋白质和小分子对接方法、装置、电子设备和存储介质
Jiang et al. Quantile-based policy optimization for reinforcement learning
CN118116574A (zh) 基于改进的哈里斯鹰优化算法的中医证型分类方法和装置
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
CN111310857A (zh) 特征提取方法、电子装置及医疗案例相似度模型构建方法
CN116611527A (zh) 量子电路处理方法、装置及电子设备
Wang et al. Research on the prediction model of greenhouse temperature based on fuzzy neural network optimized by genetic algorithm
CN106934453B (zh) 一种立方系材料母相与子相间位向关系的确定方法
CN111883208B (zh) 一种基因序列优化方法、装置、设备及介质
CN112446492B (zh) 基于遗传算法的生物网络比对方法
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN110263906B (zh) 非对称负相关搜索方法
CN112905907A (zh) 一种系统进化移植分区时序网络的动态社区发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant