CN111599405A - 融合多种拓扑信息的生物网络比对方法 - Google Patents

融合多种拓扑信息的生物网络比对方法 Download PDF

Info

Publication number
CN111599405A
CN111599405A CN202010449458.0A CN202010449458A CN111599405A CN 111599405 A CN111599405 A CN 111599405A CN 202010449458 A CN202010449458 A CN 202010449458A CN 111599405 A CN111599405 A CN 111599405A
Authority
CN
China
Prior art keywords
module
nodes
node
modules
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010449458.0A
Other languages
English (en)
Other versions
CN111599405B (zh
Inventor
陈璟
刘晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010449458.0A priority Critical patent/CN111599405B/zh
Publication of CN111599405A publication Critical patent/CN111599405A/zh
Application granted granted Critical
Publication of CN111599405B publication Critical patent/CN111599405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合多种拓扑信息的生物网络比对方法。本发明一种融合多种拓扑信息的生物网络比对方法,包括:步骤1读取网络及其序列相似性得分,分别计算两个网络的相关值矩阵,并对网络进行模块划分,同一模块内的结点具有较高的相似性;步骤2计算模块内结点的相似性得分,并对模块进行两两结点比对;步骤3计算模块间的相似性得分,并对模块进行比对;步骤4将步骤2,3中得到的结点映射关系进行整合,筛选,得到1对1的结点映射关系。本发明的有益效果:(1)从网络结构、度、结点邻居、特征向量中心性、局部边保守等方面充分挖掘了结点的拓扑相似性,提高了比对的拓扑质量。

Description

融合多种拓扑信息的生物网络比对方法
技术领域
本发明涉及生物网络领域,具体涉及一种融合多种拓扑信息的生物网络比对方法。
背景技术
近年来,随着生物实验的发展,产生了大量的生物网络数据,使用网络比对对生物网络进行分析,比较不同物种间的相互作用,可以更好地理解物种间的进化关系,发现保守的功能成分和实现功能预测。本发明研究两个网络的比对,两个网络分别为源网络和目标网络。源网络结点数目比目标网络少,且其结点功能均为已知的;目标网络中蛋白质的功能均未知。其生物意义为通过成对网络比对实现源网络与目标网络之间的功能转移,从而更好的挖掘目标网络中蛋白质的功能。网络比对算法由得分函数和搜索算法两部分组成,得分函数用于评价结点之间的相似性;搜索算法则根据得分函数搜索全局相似性最大的比对结果。
目前已有的搜索算法主要分为二步算法和基于目标函数的搜索算法,二步算法的第一步是计算两个不同输入网络的结点相似性,从而得到一个结点相似性得分矩阵。根据这个相似性得分矩阵将网络比对问题转化为最大权重的二部图匹配问题,其中第一步计算的结点相似性得分就是二部图的权重。二步算法的第二步,通过以前的经典算法或是贪婪算法来求解最大权重的二部图匹配问题。第二步中抽取比对结果的策略决定了最终比对的质量。大多数被提出的经典算法都属于二步算法。例如,IsoRank、MI-GRAAL、SPINAL以及HubAlign。基于目标函数的搜索算法首先提出一个目标函数,然后再利用各种不同的启发式搜索策略去优化目标函数。属于这类的算法有SANA,MAGNA,MAGNA++等。得分函数分为拓扑得分和生物得分,目前已有的拓扑得分计算方法有度,GDV,Importance等,序列得分一般采用由BLAST++产生的序列相似性得分。
传统技术存在以下技术问题:
1、现有技术对结点拓扑信息的挖掘不充分,导致最终比对的生物功能质量很高,但拓扑质量很差。
2、现有技术通过模块信息来挖掘节点间的生物相似性,但模块化方法的选取不恰当,导致产生错误的生物相似性得分,从而使其生物功能质量降低。
3、现有技术模块化时需要使用的blast序列相似性得分获取困难,大部分的数据库仅包含不同网络中结点间的blast序列相似性得分,很少包含同一网络结点间的blast序列相似性得分。
4、现有技术都存在拓扑与生物质量不平衡问题,一种质量的提高往往意味着另一种质量的下降。
发明内容
本发明要解决的技术问题是提供一种融合多种拓扑信息的生物网络比对方法,(1)充分挖掘结点间的拓扑相似性,以提高比对的拓扑质量。(2)模块化方法的确定,以保证比对的生物功能质量不降低。(3)普适性的提高,如何解决同一网络中结点间的blast序列相似性得分缺少问题。(4)拓扑与生物质量不平衡问题的解决,以便使在一种质量指标不降低的前提下提高另一种质量指标。
为了解决上述技术问题,本发明提供了一种融合多种拓扑信息的生物网络比对方法,包括:
步骤1读取网络及其序列相似性得分,分别计算两个网络的相关值矩阵,并对网络进行模块划分,同一模块内的结点具有较高的相似性;
步骤2计算模块内结点的相似性得分,并对模块进行两两结点比对;
步骤3计算模块间的相似性得分,并对模块进行比对;
步骤4将步骤2,3中得到的结点映射关系进行整合,筛选,得到1对1的结点映射关系;
步骤5删除已比对结点,并重复步骤2-5,小网络中的结点全部被比对上,或模块间相似性得分为0,算法停止。
在其中一个实施例中,模块划分具体如下:
模块划分是针对单个网络进行的;
首先,计算网络的相关值矩阵,该矩阵给出了结点间的相似性关系,本发明给出了结点间关系的四种定义,分别为强相关,弱相关,相关与不相关;
如果两个结点间有一条边相连,则称该对结点为强相关;
若结点间不存在直接相连的边,但可以通过其他结点间接相连,则称为弱相关;
符合强相关和弱相关的结点也称为相关;
不存在相关关系的结点对均称为不相关;
相关值计算公式如下:
Figure BDA0002507150930000031
其中,Θ强相关结点集,Φ为弱相关结点集,
Figure BDA0002507150930000032
为不相关结点集;max{1,|Φ*|M}指所有相关结点中所经过的中间边数目的最大值,|Φ* (u,v)|指从结点u到v所经过的中间边数目;公式(1)为归一化后的相关值,其值越大,表示结点间的相似性越高;
然后,根据相关值矩阵,分别对G1,G2进行模块化分,得到模块集合CG1,CG2;详细步骤如下:
a)构建关于网络G=(V,E)中所有结点对的相关值矩阵Ψ;
b)对于
Figure BDA0002507150930000044
初始化|V|个分别以
Figure BDA0002507150930000045
为模块中心的模块,记为
Figure BDA0002507150930000046
c)模块
Figure BDA0002507150930000047
的构建方法为:根据Ψ,得到其他结点与
Figure BDA0002507150930000048
的相关值,并将其按降序排列,选取相关值在前25%的结点加入到模块
Figure BDA0002507150930000049
其他模块构造方法类似,最终得到
Figure BDA00025071509300000410
在其中一个实施例中,模块内结点比对具体如下:
将网络G1,G2分别模块化后得到两个模块集合C1,C2;将C1中的每个模块与C2中的每个模块分别使用种子扩展方法进行比对,得到|C1|*|C2|对模块比对结果,|C1|,|C2|分别指模块的数目;
其中模块比对过程中用到的结点相似性得分函数为:
Figure BDA00025071509300000411
Figure BDA00025071509300000412
为结点(s,t)间的总相似性得分,B(s,t)为结点(s,t)的序列相似性得分,该得分由BLAST++工具计算得出,用以评价结点间的生物相似性,值越大,结点相似性越高;
Figure BDA00025071509300000413
为结点间的拓扑相似性得分,它由一种基于特征向量中心性的拓扑向量元组
Figure BDA0002507150930000041
计算而来,其中
1)
Figure BDA00025071509300000414
表示结点
Figure BDA00025071509300000416
的度,即
Figure BDA00025071509300000417
的邻居数;
2)
Figure BDA00025071509300000415
表示结点
Figure BDA00025071509300000418
的特征向量中心性,用以衡量结点在网络中的中心性地位;
3)
Figure BDA0002507150930000042
表示结点
Figure BDA00025071509300000419
邻居的平均特征向量中心性;
因此,结点对(s,t)的拓扑相似得分
Figure BDA00025071509300000420
具体计算方式公式如公式(3);其值越小,结点间越相似;
Figure BDA0002507150930000043
使用种子扩展方法将CG1中的模块分别与CG2中的模块两两进行模块内比对的详细步骤如下:
a)输入待比对模块
Figure BDA0002507150930000057
b)首先将
Figure BDA0002507150930000058
比对上;
c)分别获取
Figure BDA0002507150930000059
的邻居,
Figure BDA00025071509300000510
d)计算
Figure BDA0002507150930000051
中结点对的相似性
Figure BDA00025071509300000513
并使用匈牙利算法将
Figure BDA00025071509300000511
结点进行比对,其中
Figure BDA00025071509300000512
Figure BDA00025071509300000514
Figure BDA00025071509300000515
的笛卡尔乘积;
e)将已扩展结点
Figure BDA00025071509300000516
移除,并对剩余已比对结点对依次重复步骤c)d);
f)获得模块内结点比对结果
Figure BDA0002507150930000052
在其中一个实施例中,模块间比对具体如下:
将每个模块看作一个结点,构建完全二部图,边的权重为模块间的相似性得分;接着使用最大加权二部图匹配算法进行模块匹配,得到模块间比对结果;其中模块间相似性得分计算如下:
Figure BDA0002507150930000053
Figure BDA0002507150930000054
为步骤2中得到的一个模块内比对结果中所比对上的结点对数目,
Figure BDA0002507150930000055
为该比对结果中结点对的序列相似性之和。
在其中一个实施例中,其中,
Figure BDA0002507150930000056
为模块间的局部边保守得分,用以衡量该比对结果的边保守性,具体计算如下:
令eij表示网络Gi中模块C(j)的局部边集,Ei为Gi的边集,V(C(j))为模块C(j)的结点集,eij表示如下:
ei,j={(s1,s2)|s1,s2∈V(C(j))∧(s1,s2)∈Ei}
5)
对于网络G1=(V1,E1),G2=(V2,E2),
Figure BDA0002507150930000061
如果
Figure BDA0002507150930000062
则称
Figure BDA0002507150930000063
为一对模块保守边;
Figure BDA0002507150930000064
表示模块
Figure BDA0002507150930000065
的保守边逻辑矩阵,其每个元素计算方式如下:
Figure BDA0002507150930000066
模块
Figure BDA0002507150930000067
的局部边保守得分计算如下:
Figure BDA0002507150930000068
在其中一个实施例中,其中,根据模块相似性得分对CG1,CG2进行模块间比对的详细步骤如下:
a)输入网络G1,G2的模块集合CG1,CG2
b)将CG1,CG2的每一个模块分别看作一个结点,构建完全二分图
Figure BDA0002507150930000069
边的权重为相似性得分
Figure BDA00025071509300000612
c)使用匈牙利算法对
Figure BDA00025071509300000610
进行求解,即可得到一对一的模块比对
Figure BDA00025071509300000611
在其中一个实施例中,已有比对数据处理具体如下:
将已有的结点映射关系构建超图,超图的结点为已比对的结点,每对模块的比对结果抽象为超图的一条超弧,使用超图匹配算法得到1对1的结点映射关系。
基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
(1)从网络结构、度、结点邻居、特征向量中心性、局部边保守等方面充分挖掘了结点的拓扑相似性,提高了比对的拓扑质量。
(2)选取了合适的模块化方法,并提出了相关值概念,保证了比对的生物功能质量。
(3)提出了相关值概念,解决了同一网络中结点间的blast序列相似性得分缺少问题,提高了算法的普适性。
(4)三种相似性得分函数的提出,保证了在提高拓扑质量的同时,算法的生物功能质量不降低。
附图说明
图1是本发明融合多种拓扑信息的生物网络比对方法的流程图。
图2是本发明融合多种拓扑信息的生物网络比对方法的结点间相似性关系示例图。
图3是本发明融合多种拓扑信息的生物网络比对方法的本发明与AligNet的比较结果示意图。
图4是本发明融合多种拓扑信息的生物网络比对方法的本发明与其他算法的拓扑质量图。
图5是本发明融合多种拓扑信息的生物网络比对方法的本发明与其他算法的生物功能质量图。
图6是本发明融合多种拓扑信息的生物网络比对方法的本发明与其他算法的综合表现。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明的技术方案由图1所示的流程图示出。
一种融合多种拓扑信息的生物网络比对方法,包括以下步骤:
步骤1读取网络及其序列相似性得分,分别计算两个网络的相关值矩阵,并对网络进行模块划分,同一模块内的结点具有较高的相似性;
步骤2计算模块内结点的相似性得分,并对模块进行两两结点比对;
步骤3计算模块间的相似性得分,并对模块进行比对;
步骤4将步骤2,3中得到的结点映射关系进行整合,筛选,得到1对1的结点映射关系;
步骤5删除已比对结点,并重复步骤2-5,小网络中的结点全部被比对上,或模块间相似性得分为0,算法停止。
(1)模块划分
模块划分是针对单个网络进行的。
首先,计算网络的相关值矩阵,该矩阵给出了结点间的相似性关系,本发明给出了结点间关系的四种定义,分别为强相关,弱相关,相关与不相关。
如果两个结点间有一条边相连,则称该对结点为强相关;
若结点间不存在直接相连的边,但可以通过其他结点间接相连,则称为弱相关;
符合强相关和弱相关的结点也称为相关;
不存在相关关系的结点对均称为不相关。
结点间相似性关系示例图如图2:
相关值计算公式如下:
Figure BDA0002507150930000091
其中,Θ强相关结点集,Φ为弱相关结点集,
Figure BDA0002507150930000092
为不相关结点集。max{1,|Φ*|M}指所有相关结点中所经过的中间边数目的最大值,|Φ* (u,v)|指从结点u到v所经过的中间边数目。公式(1)为归一化后的相关值,其值越大,表示结点间的相似性越高。
然后,根据相关值矩阵,分别对G1,G2进行模块化分,得到模块集合CG1,CG2。详细步骤如下:
a)构建关于网络G=(V,E)中所有结点对的相关值矩阵Ψ;
b)对于
Figure BDA0002507150930000093
初始化|V|个分别以
Figure BDA0002507150930000094
为模块中心的模块,记为
Figure BDA0002507150930000095
c)模块
Figure BDA0002507150930000096
的构建方法为:根据Ψ,得到其他结点与
Figure BDA0002507150930000097
的相关值,并将其按降序排列,选取相关值在前25%的结点加入到模块
Figure BDA0002507150930000098
其他模块构造方法类似,最终得到
Figure BDA0002507150930000099
(2)模块内结点比对
将网络G1,G2分别模块化后得到两个模块集合C1,C2。将C1中的每个模块与C2中的每个模块分别使用种子扩展方法进行比对,得到|C1|*|C2|对模块比对结果,|C1|,|C2|分别指模块的数目。
其中模块比对过程中用到的结点相似性得分函数为:
Figure BDA00025071509300000910
S(s,t)为结点(s,t)间的总相似性得分,B(s,t)为结点(s,t)的序列相似性得分,该得分由BLAST++工具计算得出,用以评价结点间的生物相似性,值越大,结点相似性越高。
Figure BDA0002507150930000101
为结点间的拓扑相似性得分,它由一种基于特征向量中心性的拓扑向量元组
Figure BDA0002507150930000102
计算而来,其中
1)
Figure BDA0002507150930000103
表示结点
Figure BDA0002507150930000104
的度,即
Figure BDA0002507150930000105
的邻居数;
2)
Figure BDA0002507150930000106
表示结点
Figure BDA0002507150930000107
的特征向量中心性,用以衡量结点在网络中的中心性地位;
3)
Figure BDA0002507150930000108
表示结点
Figure BDA0002507150930000109
邻居的平均特征向量中心性。
因此,结点对(s,t)的拓扑相似得分
Figure BDA00025071509300001010
具体计算方式公式如公式(3)。其值越小,结点间越相似。
Figure BDA00025071509300001011
使用种子扩展方法将CG1中的模块分别与CG2中的模块两两进行模块内比对的详细步骤如下:
a)输入待比对模块
Figure BDA00025071509300001012
b)首先将
Figure BDA00025071509300001013
比对上;
c)分别获取
Figure BDA00025071509300001014
的邻居,
Figure BDA00025071509300001015
d)计算
Figure BDA00025071509300001016
中结点对的相似性
Figure BDA00025071509300001023
并使用匈牙利算法将
Figure BDA00025071509300001017
结点进行比对,其中
Figure BDA00025071509300001018
Figure BDA00025071509300001019
Figure BDA00025071509300001020
的笛卡尔乘积;
e)将已扩展结点
Figure BDA00025071509300001021
移除,并对剩余已比对结点对依次重复步骤c)d);
f)获得模块内结点比对结果
Figure BDA00025071509300001022
(3)模块间比对
将每个模块看作一个结点,构建完全二部图,边的权重为模块间的相似性得分。接着使用最大加权二部图匹配算法进行模块匹配,得到模块间比对结果。其中模块间相似性得分计算如下:
Figure BDA0002507150930000111
Figure BDA0002507150930000112
为步骤2中得到的一个模块内比对结果中所比对上的几点对数目,
Figure BDA0002507150930000113
为该比对结果中结点对的序列相似性之和,
Figure BDA0002507150930000114
为模块间的局部边保守得分,用以衡量该比对结果的边保守性,具体计算如下:
令eij表示网络Gi中模块C(j)的局部边集,Ei为Gi的边集,V(C(j))为模块C(j)的结点集,eij表示如下:
ei,j={(s1,s2)|s1,s2∈V(C(j))∧(s1,s2)∈Ei}
5)
对于网络G1=(V1,E1),G2=(V2,E2),
Figure BDA0002507150930000115
如果
Figure BDA0002507150930000116
则称
Figure BDA0002507150930000117
为一对模块保守边。
Figure BDA0002507150930000118
表示模块
Figure BDA0002507150930000119
的保守边逻辑矩阵,其每个元素计算方式如下:
Figure BDA00025071509300001110
模块
Figure BDA00025071509300001111
的局部边保守得分计算如下:
Figure BDA00025071509300001112
根据模块相似性得分对CG1,CG2进行模块间比对的详细步骤如下:
a)输入网络G1,G2的模块集合CG1,CG2
b)将CG1,CG2的每一个模块分别看作一个结点,构建完全二分图
Figure BDA0002507150930000121
边的权重为相似性得分
Figure BDA0002507150930000124
c)使用匈牙利算法对
Figure BDA0002507150930000122
进行求解,即可得到一对一的模块比对
Figure BDA0002507150930000123
(4)已有比对数据处理
将已有的结点映射关系构建超图,超图的结点为已比对的结点,每对模块的比对结果抽象为超图的一条超弧,使用超图匹配算法得到1对1的结点映射关系。
本发明的有益效果:
(1)从网络结构、度、结点邻居、特征向量中心性、局部边保守等方面充分挖掘了结点的拓扑相似性,提高了比对的拓扑质量。
(2)选取了合适的模块化方法,并提出了相关值概念,保证了比对的生物功能质量。
(3)提出了相关值概念,解决了同一网络中结点间的blast序列相似性得分缺少问题,提高了算法的普适性。
(4)三种相似性得分函数的提出,保证了在提高拓扑质量的同时,算法的生物功能质量不降低。
为测试本发明的比对效果,本发明选取了被广泛使用的IsoBase数据集的最新版本。本发明将IsoBase中的M.musculus(MUS),C.elegans(CEL),D.melanogaster(DME),S.cerevisiae(SCE)四个物种分别进行两两组合,共得到6个物种对,用以评估。
本发明使用了三种评价指标EC,AFC及trade-off,分别用以评估不同算法的拓扑质量,生物功能质量及综合表现,其中EC,AFC值越高表明算法相对应的质量越高,trade-off为算法的综合排名,值越小代表排名越高,综合表现越好。
本发明方法为ECAlign,图3为本发明与AligNet算法的比较,因为本发明受启于AligNet,本发明旨在保证AligNet生物功能质量不降低的前提下提高其拓扑相似性,就拓扑质量EC而言,除在SCE-DME上保持与AligNet相同的拓扑得分外,本发明在其他物种对上的得分均高于AligNet;同时本发明不但在大部分物种对上获得了与AligNet相同的生物功能质量,且在MUS-DME与CEL-SCE两个物种对上的AFC得分均超过了AligNet。因此本发明成功做到在保证AligNet生物功能不降低的前提下,提高了其拓扑比对质量。
图4,图5为本发明与其他算法的比较。由图4可知,在物种对MUS-CEL,MUS-SCE,MUS-DME上,本发明的EC得分最高,尤其在MUS-SCE上,AligNet的比对质量较ModuleAlign低,但通过改进得到的本发明获得了比ModuleAlign更高质量的比对;本发明在其他物种对上的表现仅次于ModuleAlign,倾向于对结点数目差距较大的网络产生好的比对结果,但ModuleAlign在不同物种对上表现的稳定性相比其他算法较差,比对质量好坏不一。由5可知,本发明的AFC得分仅次于SPINAL,但实际上与SPINAL差距很小。综合来看本发明,AligNet,与SPINAL的AFC得分在大部分物种对上的差距都很小,基本保持在0.02左右,因此三种算法都可以产生高生物功能质量的比对结果,而ModuleAlign在所有物种对上的表现都是最差的。
图6为本发明与其他算法的综合比较排名,本发明获得了最高的排名,也即本发明综合表现最好。
通过实验分析,进一步证明了本发明带来了上述(1)(2)(3)(4)有益效果。
下面给出本发明的一个具体应用场景:
以ISOBASE数据库中MUS与CEL两个网络为例:
分别计算MUS与CEL的相关值矩阵,并进行模块划分,得到模块集CMUS,CCEL
对于CMUS中的每一个模块c1,分别与CCEL中的每个模块c2利用种子扩展算法进行模块内比对,得到比对集合C;
对于比对集合C中的每个模块分别看做一个结点,模块间的相似性得分看作边权重构造完全二部图,并对二部图求解;
将已有的比对结果进行筛选整合,得到1-1的比对结果;
重复上述步骤,直到MUS中的结点全部被比对上或模块间的相似性全为0。
以上对本发明提供的融合多种拓扑信息的生物网络比对方法做了详细的描述,还有以下几点需要说明:
本发明提出了基于特征向量中心性的拓扑度量方法与局部边保守得分,充分挖掘了结点的拓扑相似性,提高了比对的拓扑质量并给出计算公式如下:
基于特征向量中心性的拓扑相似性得分:
Figure BDA0002507150930000141
局部边保守得分:
Figure BDA0002507150930000142
提出的相关值概念,解决了同一网络中结点间的blast序列相似性得分缺少问题,提高了算法的普适性。同时其与基于特征向量中心性的拓扑度量方法与局部边保守得分三种相似性得分函数,保证了在提高拓扑质量的同时,算法的生物功能质量不降低。相关值计算公式如下:
Figure BDA0002507150930000143
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种融合多种拓扑信息的生物网络比对方法,其特征在于,包括:
步骤1读取网络及其序列相似性得分,分别计算两个网络的相关值矩阵,并对网络进行模块划分,同一模块内的结点具有较高的相似性;
步骤2计算模块内结点的相似性得分,并对模块进行两两结点比对;
步骤3计算模块间的相似性得分,并对模块进行比对;
步骤4将步骤2,3中得到的结点映射关系进行整合,筛选,得到1对1的结点映射关系;
步骤5删除已比对结点,并重复步骤2-5,小网络中的结点全部被比对上,或模块间相似性得分为0,算法停止。
2.如权利要求1所述的融合多种拓扑信息的生物网络比对方法,其特征在于,模块划分具体如下:
模块划分是针对单个网络进行的;
首先,计算网络的相关值矩阵,该矩阵给出了结点间的相似性关系,本发明给出了结点间关系的四种定义,分别为强相关,弱相关,相关与不相关;
如果两个结点间有一条边相连,则称该对结点为强相关;
若结点间不存在直接相连的边,但可以通过其他结点间接相连,则称为弱相关;
符合强相关和弱相关的结点也称为相关;
不存在相关关系的结点对均称为不相关;
相关值计算公式如下:
Figure FDA0002507150920000011
其中,Θ强相关结点集,Φ为弱相关结点集,
Figure FDA0002507150920000021
为不相关结点集;max{1,|Φ*|M}指所有相关结点中所经过的中间边数目的最大值,
Figure FDA0002507150920000022
指从结点u到v所经过的中间边数目;公式(1)为归一化后的相关值,其值越大,表示结点间的相似性越高;
然后,根据相关值矩阵,分别对G1,G2进行模块化分,得到模块集合CG1,CG2;详细步骤如下:
a)构建关于网络G=(V,E)中所有结点对的相关值矩阵Ψ;
b)对于
Figure FDA0002507150920000023
初始化|V|个分别以
Figure FDA0002507150920000024
为模块中心的模块,记为
Figure FDA0002507150920000025
c)模块
Figure FDA0002507150920000026
的构建方法为:根据Ψ,得到其他结点与
Figure FDA0002507150920000027
的相关值,并将其按降序排列,选取相关值在前25%的结点加入到模块
Figure FDA0002507150920000028
其他模块构造方法类似,最终得到
Figure FDA0002507150920000029
3.如权利要求1所述的融合多种拓扑信息的生物网络比对方法,其特征在于,模块内结点比对具体如下:
将网络G1,G2分别模块化后得到两个模块集合C1,C2;将C1中的每个模块与C2中的每个模块分别使用种子扩展方法进行比对,得到|C1|*|C2|对模块比对结果,|C1|,|C2|分别指模块的数目;
其中模块比对过程中用到的结点相似性得分函数为:
Figure FDA00025071509200000210
Figure FDA00025071509200000211
为结点(s,t)间的总相似性得分,B(s,t)为结点(s,t)的序列相似性得分,该得分由BLAST++工具计算得出,用以评价结点间的生物相似性,值越大,结点相似性越高;
Figure FDA00025071509200000212
为结点间的拓扑相似性得分,它由一种基于特征向量中心性的拓扑向量元组
Figure FDA00025071509200000213
计算而来,其中
1)
Figure FDA00025071509200000214
表示结点
Figure FDA00025071509200000215
的度,即
Figure FDA00025071509200000216
的邻居数;
2)
Figure FDA0002507150920000031
表示结点
Figure FDA0002507150920000032
的特征向量中心性,用以衡量结点在网络中的中心性地位;
3)
Figure FDA0002507150920000033
表示结点
Figure FDA0002507150920000034
邻居的平均特征向量中心性;
因此,结点对(s,t)的拓扑相似得分
Figure FDA0002507150920000035
具体计算方式公式如公式(3);其值越小,结点间越相似;
Figure FDA0002507150920000036
使用种子扩展方法将CG1中的模块分别与CG2中的模块两两进行模块内比对的详细步骤如下:
a)输入待比对模块
Figure FDA0002507150920000037
b)首先将
Figure FDA0002507150920000038
比对上;
c)分别获取
Figure FDA0002507150920000039
的邻居,
Figure FDA00025071509200000310
d)计算
Figure FDA00025071509200000311
中结点对的相似性
Figure FDA00025071509200000312
并使用匈牙利算法将
Figure FDA00025071509200000313
结点进行比对,其中
Figure FDA00025071509200000314
Figure FDA00025071509200000315
Figure FDA00025071509200000316
的笛卡尔乘积;
e)将已扩展结点
Figure FDA00025071509200000317
移除,并对剩余已比对结点对依次重复步骤c)d);
f)获得模块内结点比对结果
Figure FDA00025071509200000318
4.如权利要求1所述的融合多种拓扑信息的生物网络比对方法,其特征在于,模块间比对具体如下:
将每个模块看作一个结点,构建完全二部图,边的权重为模块间的相似性得分;接着使用最大加权二部图匹配算法进行模块匹配,得到模块间比对结果;其中模块间相似性得分计算如下:
Figure FDA00025071509200000319
Figure FDA0002507150920000041
为步骤2中得到的一个模块内比对结果中所比对上的结点对数目,
Figure FDA0002507150920000042
为该比对结果中结点对的序列相似性之和。
5.如权利要求4所述的融合多种拓扑信息的生物网络比对方法,其特征在于,其中,
Figure FDA0002507150920000043
为模块间的局部边保守得分,用以衡量该比对结果的边保守性,具体计算如下:
令eij表示网络Gi中模块C(j)的局部边集,Ei为Gi的边集,V(C(j))为模块C(j)的结点集,eij表示如下:
ei,j={(s1,s2)|s1,s2∈V(C(j))∧(s1,s2)∈Ei}
5)
对于网络G1=(V1,E1),G2=(V2,E2),
Figure FDA0002507150920000044
如果
Figure FDA0002507150920000045
则称(s,m),(t,n)为一对模块保守边;
Figure FDA0002507150920000046
表示模块
Figure FDA0002507150920000047
的保守边逻辑矩阵,其每个元素计算方式如下:
Figure FDA0002507150920000048
模块
Figure FDA0002507150920000049
的局部边保守得分计算如下:
Figure FDA00025071509200000410
6.如权利要求1所述的融合多种拓扑信息的生物网络比对方法,其特征在于,其中,根据模块相似性得分对CG1,CG2进行模块间比对的详细步骤如下:
a)输入网络G1,G2的模块集合CG1,CG2
b)将CG1,CG2的每一个模块分别看作一个结点,构建完全二分图
Figure FDA00025071509200000411
边的权重为相似性得分
Figure FDA00025071509200000412
c)使用匈牙利算法对
Figure FDA0002507150920000051
进行求解,即可得到一对一的模块比对
Figure FDA0002507150920000052
7.如权利要求1所述的融合多种拓扑信息的生物网络比对方法,其特征在于,已有比对数据处理具体如下:
将已有的结点映射关系构建超图,超图的结点为已比对的结点,每对模块的比对结果抽象为超图的一条超弧,使用超图匹配算法得到1对1的结点映射关系。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到7任一项所述的方法。
CN202010449458.0A 2020-05-25 2020-05-25 融合多种拓扑信息的生物网络比对方法 Active CN111599405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010449458.0A CN111599405B (zh) 2020-05-25 2020-05-25 融合多种拓扑信息的生物网络比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010449458.0A CN111599405B (zh) 2020-05-25 2020-05-25 融合多种拓扑信息的生物网络比对方法

Publications (2)

Publication Number Publication Date
CN111599405A true CN111599405A (zh) 2020-08-28
CN111599405B CN111599405B (zh) 2023-07-18

Family

ID=72187761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010449458.0A Active CN111599405B (zh) 2020-05-25 2020-05-25 融合多种拓扑信息的生物网络比对方法

Country Status (1)

Country Link
CN (1) CN111599405B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450872A (zh) * 2021-07-02 2021-09-28 南昌大学 磷酸化位点特异激酶的预测方法
CN114974400A (zh) * 2022-03-29 2022-08-30 江南大学 一种全局生物网络比对方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450872A (zh) * 2021-07-02 2021-09-28 南昌大学 磷酸化位点特异激酶的预测方法
CN113450872B (zh) * 2021-07-02 2022-12-02 南昌大学 磷酸化位点特异激酶的预测方法
CN114974400A (zh) * 2022-03-29 2022-08-30 江南大学 一种全局生物网络比对方法
CN114974400B (zh) * 2022-03-29 2023-06-16 江南大学 一种全局生物网络比对方法

Also Published As

Publication number Publication date
CN111599405B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Krishnamurthy et al. Efficient active algorithms for hierarchical clustering
Ekeberg et al. Fast pseudolikelihood maximization for direct-coupling analysis of protein structure from many homologous amino-acid sequences
Rychlewski et al. Comparison of sequence profiles. Strategies for structural predictions using sequence information
Ciriello et al. AlignNemo: a local network alignment method to integrate homology and topology
CN111599405A (zh) 融合多种拓扑信息的生物网络比对方法
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
Chen et al. MSClust: a multi-seeds based clustering algorithm for microbiome profiling using 16S rRNA sequence
Bogdanowicz et al. Comparing phylogenetic trees by matching nodes using the transfer distance between partitions
Voevodski et al. Efficient clustering with limited distance information
Tatti Probably the best itemsets
Lu et al. From Comparing Clusterings to Combining Clusterings.
Chen et al. PBSM: an efficient top-K subgraph matching algorithm
Pal et al. A tool for fast indexing and querying of graphs
Kelil et al. CLUSS2: an alignment-independent algorithm for clustering protein families with multiple biological functions
Maskey et al. LePrimAlign: local entropy-based alignment of PPI networks to predict conserved modules
Kuželka et al. Gaussian logic for predictive classification
Tang et al. Penalized generalized empirical likelihood with a diverging number of general estimating equations for censored data
Boujenfa et al. Tree-kNN: a tree-based algorithm for protein sequence classification
Aji et al. Optimizing performance, cost, and sensitivity in pairwise sequence search on a cluster of PlayStations
Zhang et al. A novel amino acid properties selection method for protein fold classification
Cao et al. Detecting overlapping protein complexes in weighted protein-protein interaction networks using pseudo-clique extension based on fuzzy relation
Ngoc et al. ACOGNA: An efficient method for protein-protein interaction network alignment
CN112669907A (zh) 基于分治整合策略的成对蛋白质相互作用网络比对方法
Xu et al. A Greedy Correlation Measure Based Attribute Clustering Algorithm for Gene Selection.
Boukerche et al. An FPGA-based accelerator for multiple biological sequence alignment with DIALIGN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant