CN107832583A - 一种基于图匹配的跨物种生物通路发现方法 - Google Patents

一种基于图匹配的跨物种生物通路发现方法 Download PDF

Info

Publication number
CN107832583A
CN107832583A CN201711093138.0A CN201711093138A CN107832583A CN 107832583 A CN107832583 A CN 107832583A CN 201711093138 A CN201711093138 A CN 201711093138A CN 107832583 A CN107832583 A CN 107832583A
Authority
CN
China
Prior art keywords
node
matching
msub
similitude
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711093138.0A
Other languages
English (en)
Other versions
CN107832583B (zh
Inventor
祝园园
李阅志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201711093138.0A priority Critical patent/CN107832583B/zh
Publication of CN107832583A publication Critical patent/CN107832583A/zh
Application granted granted Critical
Publication of CN107832583B publication Critical patent/CN107832583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图匹配的跨物种生物通路发现方法,本发明是为了解决采用传统生物化学实验方法发现生物通路的低效率问题,和现有图匹配算法无法很好结合生物序列相似性和蛋白质交互网络结构相似性问题。通过本发明可以将生物序列相似性和网络结构相似性很好地融合,能够发现不同物种的蛋白质交互网络中共存的较大子结构,从而更有效地发现存在于不同物种中具有相似功能的生物通路,对生物学研究不同物种之间的联系有指导意义。

Description

一种基于图匹配的跨物种生物通路发现方法
技术领域
本发明属于图算法技术领域,涉及一种基于图匹配的跨物种生物通路发现方法,尤其涉及一种跨物种生物蛋白质交互网络中生物通路的发现方法。
背景技术
图是计算机科学中常用的一类抽象数据结构,以描述事物之间的复杂关系。图结构已广泛应用于多种领域,如万维网、公路网、社交网络、知识图谱、蛋白质交互网络等。随着以上应用领域的发展,图数据不断的快速产生和积累,如何对其进行有效的管理、查询和挖掘等已成为学术界和工业界的研究热点。其中一个重要的课题就是挖掘不同物种生物蛋白质交互网络中的具有相似功能的生物通路。生物通路(biological pathway)由蛋白质和蛋白质之间的交互组成,可视为执行特定生物功能的最小的生物系统,不同物种之间存在大量相似功能的生物通路。有效挖掘发现不同物种之间具有相似功能的生物通路,可以帮助人类在生物体系层次上深刻理解物种间的相似及差别,对于基因学和医药学的发展具有重要的指导意义。
传统生物通路发现方法需要大量的生物化学实验支撑,比较低效。通过图匹配方法,可以发现不同物种生物蛋白质交互网络(PPI网络)中相似结构和功能的子结构,根据这些匹配的子结构再根据生物化学方法验证它们是否是真正具有相似功能的生物通路,就比较有针对性和高效。图匹配问题目标是从两个由节点和边构成的图中得到节点一一映射的关系,实质上是图论中的子图同构问题,本身就是一个无法在多项式时间内解决的问题,随着生物蛋白质交互网络规模的扩大,蛋白质网络匹配问题面临着更加艰巨的挑战。
早期蛋白质网络匹配技术主要采用序列匹配技术,因为蛋白质是由基因序列转码的mRNA转译合成的,所以蛋白质也携带有基因序列信息,通过利用BLAST等序列匹配算法可以将序列信息相近的蛋白质进行匹配,然而只依赖蛋白质序列信息而忽略蛋白质网络的结构特性,导致匹配的准确性不高。后来PathBLAST、MaWISh、Graemlin等启发式算法开始采用计算局部网络相似性来进行蛋白质网络匹配,但这些局部匹配算法可能会造成误导,因为一个物种的蛋白质网络子结构可能会匹配到另一个物种的蛋白质网络中的多个子结构,这种一对多的关系给确定生物通路带来了困难。现在比较流行的是采用全局网络匹配算法,比如IsoRank、PATH、GA、GRAAL、L-GRAAL、NATALIE、GHOST、NETAL、MAGNA、SPINAL、HubAlign等。全局网络匹配算法强调两个蛋白质网络匹配的一对一映射关系,当且仅当两个蛋白质节点的邻居节点也匹配的情况下才会将两个蛋白质节点进行匹配。但现有全局网络匹配算法存在一个弊端,即进行网络匹配时不能很好地将蛋白质序列信息和蛋白质网络结构信息结合起来,造成序列信息匹配度和结构信息匹配度两者的对立,导致比较差的生物通路发现效果。
发明内容
为了解决上述技术问题,本发明提供了一种基于新的图匹配算法的跨物种生物通路发现方法。
本发明所采用的技术方案是:一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:
步骤1:构建初始匹配(matching construction)阶段,通过结合各种相似性度量得到一个初始匹配方案,具体是:首先将两个物种的蛋白质交互网络(PPI网络)G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的PPI网络中的所有节点均已匹配,得到初始匹配M。
具体实现包括以下子步骤;
步骤1.1:采用谱方法计算全局相似性Sg
对于图G,它的邻接矩阵为A,对角度矩阵为D,拉普拉斯矩阵L=D-A;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性
步骤1.2:计算局部相似性Sl
假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中分别表示包含节点u的k步子图的顶点数和边数,分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和
步骤1.3:计算度相似性Sd和序列相似性Sseq
假设G1的节点u的度为d(u),G2的节点v的度为d(v),那么u和v之间的度相似性为
通过BLAST计算出序列分数seq(u,v),然后进行归一化得到序列相似性
步骤1.4:融合各种相似性,选择出锚点A;
首先由全局相似性矩阵Sg、局部相似性矩阵Sl得到拓扑相似性矩阵St=Sg×Sl,再结合度相似性Sd得到网络结构相似性Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),其中θ表示拓扑相似性和度相似性的平衡参数,值在[0,1]之间可调节。再结合结构相似性Sstr和序列相似性Sseq得到最终的节点相似性S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),其中α表示平衡结构相似性和度列相似性的平衡参数,值在[0,1]之间可调节。
然后根据节点间的相似性分数S(u,v)将所有节点对进行降序排列,当节点对(u,v)满足以下两个条件时则将这两个节点进行匹配并加入锚点集合A;
条件1:
条件2:S(u,v)≥τ,其中τ是阈值;
步骤1.5:从选择出的锚点集合A出发将邻居节点进行扩展匹配,得到初始匹配M;
首先将锚点集合A中的匹配节点对都加入初始匹配M中,然后将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-α)×Sl(u,v)+α×Sseq(u,v)大小降序排列,然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至队列Q为空,得到初始匹配M。
步骤2:优化匹配M得到最优匹配M*
匹配优化(matching refinement)阶段,步骤1中根据启发式算法得到的初始匹配M不能保证是最优的,采用一种新提出的算法进行匹配优化,具体是:首先从两个物种其中之一的蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果。
其中对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,具体实现包括以下子步骤:
步骤2.1:构建一个带权二分匹配图Gb,一边是包含V1-F1的节点结合,另一边是包含V2-F2的节点集合,对于所有u∈V1-F1和v∈V2-F2,在Gb中增加一条边,边(u,v)的权重为w(u,v)=|M[N(u)∩F1]∩(N(v)∩F2)|;
步骤2.2:利用匈牙利树算法计算出Gb的最大带权二分匹配Mb,使得二分图中所有边的权重之和最大化,那么优化后的匹配M*=(M∩(F1×F2))∪Mb
判断匹配是否更好的标准是:
其中
如果u1和u2之间存在边,则为1,否则为0;如果v1和v2之间存在边,则为1,否则为0。
步骤3:利用匹配M*发现生物通道;
利用步骤2生成的两个物种的蛋白质交互网络匹配结果,结合生物数据库挖掘两个物种间共存的生物通路。KEGG PATHWAY数据库中存储了现有实验证实的生物通路,其中一个生物通路(例如hsa03010)的表示是由物种代号(hsa表示人类)和一个数字组成(03010),相同数字的生物通路表示具有相似的生物功能。具体是:首先在KEGG PATHWAY数据库中找到两个物种的蛋白质交互网络(PPI网络)中分别涉及到的所有生物通路,因为相同数字的生物通路表示具有相似的生物功能,所以可以得到两个物种中具有相似生物功能的生物通路集合,然后结合步骤2中生成的匹配结果,可以得到两个物种的具有相似生物功能的生物通路之间的结构映射关系,这个结构映射关系对于生命科学家研究不同物种之间生物通路之间的关联性具有指导意义。
本发明具有以下优点:图匹配算法将生物序列相似性和网络结构相似性很好地融合,能够发现两个物种的蛋白质交互网络中共存的较大子结构,从而更有效地发现存在于不同物种中具有相似功能的生物通路。
附图说明:
图1是本发明实施例的流程图;
图2是本发明实施例在样本图上匹配之后发现的共存的生物通路子结构,其中(1)hsa03010生物通路,(2)sce03010生物通路;
图3是本发明实施例在样本图上发现的共存生物通路被APID dataserver证实的子结构,其中(1)hsa03010生物通路,(2)sce03010生物通路。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明主要基于一种新提出的图匹配算法,将不同物种的蛋白质交互网络(PPI网络)进行最优匹配,根据匹配的结果在KEGG PATHWAY数据库中进行查询,找到物种间共存的生物通路子结构。通过本发明,我们提供了一种新的跨物种生物通路发现方法,比传统生物化学方法更加高效,且算法效果比现有匹配算法更好。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以人类(human,生物代号HSapiens)的蛋白质交互网络(PPI网络)和酵母菌(yeast,生物代号SCerevisiae)的蛋白质交互网络(PPI网络)为例,样本图的属性信息参见表1,
表1样本图数据(人类和酵母菌的PPI网络)
PPI network #nodes #edges #average degree
HSapiens(human) 13276 110528 16.651
SCerevisiae(yeast) 5831 77149 26.462
本发明的具体实现包括以下步骤:
步骤1:首先通过计算融合全局相似性、局部相似性、度相似性和序列相似性,得到人类和酵母菌的PPI网络中所有节点间的节点相似性,然后根据节点相似性将所有节点对降序排列,将满足要求的节点对加入锚点集合。然后从锚点集合中的节点对出发,根据局部相似性和序列相似性,扩展匹配它们的邻居节点,直至较小PPI网络中所有节点都被匹配,得到初始匹配。
实施例中构建初始匹配的具体实施过程如下:
首先,计算全局相似性Sg、局部相似性Sl、度相似性Sd和序列相似性Sseq,并融合为节点相似性S。
计算全局相似性Sg的方法为:先计算得到人类PPI网络G1和酵母菌PPI网络G2的拉普拉斯矩阵L1和L2,然后计算本征值,得到对角矩阵Λ1和Λ2,从而根据得到U1和U2,则
计算局部相似性Sl的方法为:先计算得到G1中节点u和G2中节点v的k步邻居子图Nk(u)和Nk(v),然后根据发明内容中提到的计算式计算得到。
计算度相似性Sd的方法为:先计算得到G1中节点u和G2中节点v的节点度d(u)和d(v),然后由计算得到。
计算序列相似性Sseq的方法为:将BLAST算法计算得到的序列相似性归一化即可。
融合各个相似性为节点相似性S的方法为:
S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),
其中Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),且St=Sg×Sl,α和β的值均为[0,1]之间可调节,这里均选取为0.5。
然后,将所有节点对根据融合后的节点相似性S大小降序排列,将满足约束条件的节点对加入锚点集合A。这里约束条件为:
(1)(2)S(u,v)≥τ,其中τ是满足不小于0.5的阈值,这里选取为0.5。
最终,从锚点集合A中的每个节点对出发,扩展匹配它们的邻居节点,直至G1和G2中较小图中的所有节点均被匹配,即得到初始匹配M。扩展匹配的具体过程如下:将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-α)×Sl(u,v)+α×Sseq(u,v)大小降序排列,然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至队列Q为空,即得到初始匹配M。
步骤2:上述启发式算法得到的初始匹配M不一定是最优的,继续将初始匹配M采用覆盖集和匈牙利树二分匹配算法进行优化得到最优匹配M*
实施例中优化初始匹配M得到最有匹配M*的具体实施过程如下:
首先,随机选取G1的一个顶点覆盖集C,假设初始匹配M中所有G1节点集合为P1,令F1=C∩P1,F1中所有节点由初始匹配M映射的在G2中的节点结合为F2。保留F1和F2的匹配节点对直接加入到匹配M*中。
然后,构建一个带权二分图Gb,一边是所有V1-F1的节点集合,另一边是所有V2-F2的节点集合,二分图所有节点之间加一条边,边的权重为w(u,v)=|M[N(u)∩F1]∩(N(v)∩F2)|。然后利用匈牙利树算法(Hungarian Algorithm)求解最大二分匹配问题,将计算的解,即所有剩余节点的匹配对加入到匹配M*中。
最终,如果M*是比M更好的匹配,那么更新M=M*,然后重复优化匹配M的所有步骤,直至M*达到稳定。这里判断匹配是否更好的标准是:
其中如果u1和u2之间存在边则为1,否则为0,同理。
步骤3:在KEGG PATHWAY数据库中查询人类PPI网络G1和酵母菌PPI网络G2各自涉及到的所有生物通路(pathway),然后根据最优匹配M*找到其中具有最大公共子结构的生物通路。
图2给出了KEGG PATHWAY中查询到的人类代号为hsa03010的生物通路,共包含132个蛋白质节点和1924条边,还有查询到的酵母菌代号为sce03010的生物通路,共包含175个蛋白质节点和2311条边,其中最优匹配M*发现了hsa03010和sce03010的最大公共子结构包含63个蛋白质分子和1406条边,该公共子结构在图2中分别均以深色标出。hsa03010和sce03010具有相同的数字标号03010,表明人类和酵母菌的这两个生物通路具有相似的生物功能。为了进一步证明人类生物通路hsa03010和酵母菌生物通路sce03010之间的关联性,我们采用APID dataserver查询这两个生物通路中已被生物实验证实确实存在的蛋白质及蛋白质之间的联系。APID查询结果表明hsa03010生物通路中总共有126个蛋白质节点和1748条边是被实验证实确实存在的,sce03010生物通路中总共有165个蛋白质节点和192条边是被实验证实确实存在的,它们之间存在一个由26个蛋白质节点和32条边构成的较为完整的公共子结构,该结构展示在图3中。该结果说明本发明提出的图匹配方法可以有效地发现人类和酵母菌中具有相似功能的生物通路公共子结构,该结果对于生物学研究物种之间的联系有指导意义。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:
步骤1:构建初始匹配M;
首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;
步骤2:优化匹配M得到最优匹配M*
首先从蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果;
步骤3:利用匹配M*发现生物通道;
首先在KEGG PATHWAY数据库中找到两个物种的蛋白质交互网络中所有蛋白质节点涉及的生物通路集合;
然后利用匹配M*的节点映射关系找到具有最大公共子结构的生物通道。
2.根据权利要求1所述的基于图匹配的跨物种生物通路发现方法,其特征在于,步骤1的具体实现包括以下子步骤;
步骤1.1:采用谱方法计算全局相似性Sg
对于图G,它的邻接矩阵为A,对角度矩阵为D,拉普拉斯矩阵L=D-A;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性
步骤1.2:计算局部相似性Sl
假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中分别表示包含节点u的k步子图的顶点数和边数,分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和步骤1.3:计算度相似性Sd和序列相似性Sseq
假设G1的节点u的度为d(u),G2的节点v的度为d(v),那么u和v之间的度相似性为
通过BLAST计算出序列分数seq(u,v),然后进行归一化得到序列相似性
步骤1.4:融合各种相似性,选择出锚点A;
首先由全局相似性矩阵Sg、局部相似性矩阵Sl得到拓扑相似性矩阵St=Sg×Sl,再结合度相似性Sd得到网络结构相似性Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),其中θ表示拓扑相似性和度相似性的平衡参数,值在[0,1]之间可调节;再结合结构相似性Sstr和序列相似性Sseq得到最终的节点相似性S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),其中α表示平衡结构相似性和度列相似性的平衡参数,值在[0,1]之间可调节;
然后根据节点间的相似性分数S(u,v)将所有节点对进行降序排列,当节点对(u,v)满足以下两个条件时则将这两个节点进行匹配并加入锚点集合A;
条件1:
条件2:S(u,v)≥τ,其中τ是阈值;
步骤1.5:从选择出的锚点集合A出发将邻居节点进行扩展匹配,得到初始匹配M;
首先将锚点集合A中的匹配节点对都加入初始匹配M中,然后将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-α)×Sl(u,v)+α×Sseq(u,v)大小降序排列,然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至队列Q为空,得到初始匹配M。
3.根据权利要求2所述的基于图匹配的跨物种生物通路发现方法,其特征在于:步骤2中所述对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,具体实现包括以下子步骤:
步骤2.1:构建一个带权二分匹配图Gb,一边是包含V1-F1的节点结合,另一边是包含V2-F2的节点集合,对于所有u∈V1-F1和v∈V2-F2,在Gb中增加一条边,边(u,v)的权重为w(u,v)=|M[N(u)∩F1]∩(N(v)∩F2)|;
步骤2.2:利用匈牙利树算法计算出Gb的最大带权二分匹配Mb,使得二分图中所有边的权重之和最大化,那么优化后的匹配M*=(M∩(F1×F2))∪Mb
4.根据权利要求2所述的基于图匹配的跨物种生物通路发现方法,其特征在于:步骤2中判断匹配是否更好的标准是:
<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>v</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>,</mo> <mo>(</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>v</mi> <mn>2</mn> </msub> <mo>)</mo> <mo>&amp;Element;</mo> <mi>M</mi> </mrow> </munder> <mfrac> <msub> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>v</mi> <mn>1</mn> </msub> <mo>)</mo> <mo>,</mo> <mo>(</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>v</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </msub> <mn>2</mn> </mfrac> <mo>,</mo> </mrow>
其中
如果u1和u2之间存在边,则为1,否则为0;如果v1和v2之间存在边,则为1,否则为0。
CN201711093138.0A 2017-11-08 2017-11-08 一种基于图匹配的跨物种生物通路发现方法 Active CN107832583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711093138.0A CN107832583B (zh) 2017-11-08 2017-11-08 一种基于图匹配的跨物种生物通路发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711093138.0A CN107832583B (zh) 2017-11-08 2017-11-08 一种基于图匹配的跨物种生物通路发现方法

Publications (2)

Publication Number Publication Date
CN107832583A true CN107832583A (zh) 2018-03-23
CN107832583B CN107832583B (zh) 2021-04-16

Family

ID=61654043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711093138.0A Active CN107832583B (zh) 2017-11-08 2017-11-08 一种基于图匹配的跨物种生物通路发现方法

Country Status (1)

Country Link
CN (1) CN107832583B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法
CN111599406A (zh) * 2020-05-25 2020-08-28 江南大学 结合网络聚类方法的全局多网络比对方法
CN112582027A (zh) * 2020-12-15 2021-03-30 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
CN115497555A (zh) * 2022-08-16 2022-12-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060122792A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Method and system for predicting gene pathway using gene expression pattern data and protein interaction data
CN101957892A (zh) * 2010-09-17 2011-01-26 深圳华大基因科技有限公司 一种全基因组复制事件的检测方法和系统
CN102066579A (zh) * 2008-04-24 2011-05-18 纽约市哥伦比亚大学理事会 用于dna分子编排的几何图案和脂质双层以及它们的用途
US20110224908A1 (en) * 2007-03-22 2011-09-15 Nancy Lan Guo Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer
US8150634B1 (en) * 2004-11-12 2012-04-03 Bristol-Myers Squibb Company Protein-ligand NOE matching for high-throughput structure determination
CN102902896A (zh) * 2012-09-25 2013-01-30 上海大学 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN105808696A (zh) * 2016-03-03 2016-07-27 北京邮电大学 一种基于全局和局部特征的跨在线社交网络用户匹配方法
CN107192829A (zh) * 2017-05-18 2017-09-22 南京中医药大学 一种板蓝根蛋白质鉴定的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150634B1 (en) * 2004-11-12 2012-04-03 Bristol-Myers Squibb Company Protein-ligand NOE matching for high-throughput structure determination
US20060122792A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Method and system for predicting gene pathway using gene expression pattern data and protein interaction data
US20110224908A1 (en) * 2007-03-22 2011-09-15 Nancy Lan Guo Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer
CN102066579A (zh) * 2008-04-24 2011-05-18 纽约市哥伦比亚大学理事会 用于dna分子编排的几何图案和脂质双层以及它们的用途
CN101957892A (zh) * 2010-09-17 2011-01-26 深圳华大基因科技有限公司 一种全基因组复制事件的检测方法和系统
CN102902896A (zh) * 2012-09-25 2013-01-30 上海大学 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN105808696A (zh) * 2016-03-03 2016-07-27 北京邮电大学 一种基于全局和局部特征的跨在线社交网络用户匹配方法
CN107192829A (zh) * 2017-05-18 2017-09-22 南京中医药大学 一种板蓝根蛋白质鉴定的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NOËL MALOD-DOGNIN等: "L-GRAAL: Lagrangian graphlet-based network aligner", 《BIOINFORMATICS》 *
YUANYUAN ZHU等: "High efficiency and quality: large graphs matching", 《REGULAR PAPER》 *
黄继昆: "基于区域SIFT特征的蛋白点匹配方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法
CN111599406A (zh) * 2020-05-25 2020-08-28 江南大学 结合网络聚类方法的全局多网络比对方法
CN111599406B (zh) * 2020-05-25 2023-08-04 江南大学 结合网络聚类方法的全局多网络比对方法
CN112582027A (zh) * 2020-12-15 2021-03-30 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
CN112582027B (zh) * 2020-12-15 2022-04-29 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
CN115497555A (zh) * 2022-08-16 2022-12-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质
CN115497555B (zh) * 2022-08-16 2024-01-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107832583B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN107832583A (zh) 一种基于图匹配的跨物种生物通路发现方法
Fan et al. LPI-BLS: Predicting lncRNA–protein interactions with a broad learning system-based stacked ensemble classifier
Bonneau et al. Ab initio protein structure prediction: progress and prospects
Srihari et al. MCL-CAw: a refinement of MCL for detecting yeast complexes from weighted PPI networks by incorporating core-attachment structure
Reeder et al. Beyond Mfold: recent advances in RNA bioinformatics
Borchani et al. Predicting human immunodeficiency virus inhibitors using multi-dimensional Bayesian network classifiers
Chen et al. WF-MSB: a weighted fuzzy-based biclustering method for gene expression data
Kershenbaum et al. Landscape influences on dispersal behaviour: a theoretical model and empirical test using the fire salamander, Salamandra infraimmaculata
Djeddi et al. A novel computational approach for global alignment for multiple biological networks
Baba et al. Predicting large RNA-like topologies by a knowledge-based clustering approach
Rodriguez-Caso et al. On the basic computational structure of gene regulatory networks
Zhang et al. Hao Wu
Meng et al. Construction of the spatial and temporal active protein interaction network for identifying protein complexes
Chen et al. Interval-based distance function for identifying RNA structure candidates
Chua et al. A unified scoring scheme for detecting essential proteins in protein interaction networks
Sinsha et al. A study of gene prioritization algorithms on PPI networks
CN109378033B (zh) 一种基于转移熵的策略自适应蛋白质构象空间优化方法
US20200118643A1 (en) Method and system for comparing proteins in three dimensions
Yu et al. Protein complex identification based on weighted ppi network with multi-source information
Shi et al. Runtime analysis of evolutionary algorithms for the depth restricted (1, 2)-minimum spanning tree problem
Milano et al. GLAlign: Using global graph alignment to improve local graph alignment
Liu et al. New algorithms in RNA structure prediction based on BHG
Singh et al. Exploring the multiple conformational states of RNA genome through interhelical dynamics and network analysis
Nacher et al. A bipartite graph based model of protein domain networks
Zhang et al. Spatial clustering with obstacles constraints using particle swarm optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant