CN107832583B - 一种基于图匹配的跨物种生物通路发现方法 - Google Patents
一种基于图匹配的跨物种生物通路发现方法 Download PDFInfo
- Publication number
- CN107832583B CN107832583B CN201711093138.0A CN201711093138A CN107832583B CN 107832583 B CN107832583 B CN 107832583B CN 201711093138 A CN201711093138 A CN 201711093138A CN 107832583 B CN107832583 B CN 107832583B
- Authority
- CN
- China
- Prior art keywords
- similarity
- matching
- node
- nodes
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000037361 pathway Effects 0.000 title claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 44
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 44
- 241000894007 species Species 0.000 claims abstract description 26
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 2
- 230000003595 spectral Effects 0.000 claims description 2
- 229920000333 poly(propyleneimine) Polymers 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 13
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 11
- 238000000034 method Methods 0.000 description 4
- 101700052545 APID Proteins 0.000 description 3
- 238000002306 biochemical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- NYQDCVLCJXRDSK-UHFFFAOYSA-N Bromofos Chemical compound COP(=S)(OC)OC1=CC(Cl)=C(Br)C=C1Cl NYQDCVLCJXRDSK-UHFFFAOYSA-N 0.000 description 1
- 108020004999 Messenger RNA Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002068 genetic Effects 0.000 description 1
- 229920002106 messenger RNA Polymers 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Abstract
本发明公开了一种基于图匹配的跨物种生物通路发现方法,本发明是为了解决采用传统生物化学实验方法发现生物通路的低效率问题,和现有图匹配算法无法很好结合生物序列相似性和蛋白质交互网络结构相似性问题。通过本发明可以将生物序列相似性和网络结构相似性很好地融合,能够发现不同物种的蛋白质交互网络中共存的较大子结构,从而更有效地发现存在于不同物种中具有相似功能的生物通路,对生物学研究不同物种之间的联系有指导意义。
Description
技术领域
本发明属于图算法技术领域,涉及一种基于图匹配的跨物种生物通路发现方法,尤其涉及一种跨物种生物蛋白质交互网络中生物通路的发现方法。
背景技术
图是计算机科学中常用的一类抽象数据结构,以描述事物之间的复杂关系。图结构已广泛应用于多种领域,如万维网、公路网、社交网络、知识图谱、蛋白质交互网络等。随着以上应用领域的发展,图数据不断的快速产生和积累,如何对其进行有效的管理、查询和挖掘等已成为学术界和工业界的研究热点。其中一个重要的课题就是挖掘不同物种生物蛋白质交互网络中的具有相似功能的生物通路。生物通路(biological pathway)由蛋白质和蛋白质之间的交互组成,可视为执行特定生物功能的最小的生物系统,不同物种之间存在大量相似功能的生物通路。有效挖掘发现不同物种之间具有相似功能的生物通路,可以帮助人类在生物体系层次上深刻理解物种间的相似及差别,对于基因学和医药学的发展具有重要的指导意义。
传统生物通路发现方法需要大量的生物化学实验支撑,比较低效。通过图匹配方法,可以发现不同物种生物蛋白质交互网络(PPI网络)中相似结构和功能的子结构,根据这些匹配的子结构再根据生物化学方法验证它们是否是真正具有相似功能的生物通路,就比较有针对性和高效。图匹配问题目标是从两个由节点和边构成的图中得到节点一一映射的关系,实质上是图论中的子图同构问题,本身就是一个无法在多项式时间内解决的问题,随着生物蛋白质交互网络规模的扩大,蛋白质网络匹配问题面临着更加艰巨的挑战。
早期蛋白质网络匹配技术主要采用序列匹配技术,因为蛋白质是由基因序列转码的mRNA转译合成的,所以蛋白质也携带有基因序列信息,通过利用BLAST等序列匹配算法可以将序列信息相近的蛋白质进行匹配,然而只依赖蛋白质序列信息而忽略蛋白质网络的结构特性,导致匹配的准确性不高。后来PathBLAST、MaWISh、Graemlin等启发式算法开始采用计算局部网络相似性来进行蛋白质网络匹配,但这些局部匹配算法可能会造成误导,因为一个物种的蛋白质网络子结构可能会匹配到另一个物种的蛋白质网络中的多个子结构,这种一对多的关系给确定生物通路带来了困难。现在比较流行的是采用全局网络匹配算法,比如IsoRank、PATH、GA、GRAAL、L-GRAAL、NATALIE、GHOST、NETAL、MAGNA、SPINAL、HubAlign等。全局网络匹配算法强调两个蛋白质网络匹配的一对一映射关系,当且仅当两个蛋白质节点的邻居节点也匹配的情况下才会将两个蛋白质节点进行匹配。但现有全局网络匹配算法存在一个弊端,即进行网络匹配时不能很好地将蛋白质序列信息和蛋白质网络结构信息结合起来,造成序列信息匹配度和结构信息匹配度两者的对立,导致比较差的生物通路发现效果。
发明内容
为了解决上述技术问题,本发明提供了一种基于新的图匹配算法的跨物种生物通路发现方法。
本发明所采用的技术方案是:一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:
步骤1:构建初始匹配(matching construction)阶段,通过结合各种相似性度量得到一个初始匹配方案,具体是:首先将两个物种的蛋白质交互网络(PPI网络)G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的PPI网络中的所有节点均已匹配,得到初始匹配M。
具体实现包括以下子步骤;
步骤1.1:采用谱方法计算全局相似性Sg;
对于图G,它的邻接矩阵为A,对角度矩阵为D,拉普拉斯矩阵L=D-A;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性
步骤1.2:计算局部相似性Sl;
假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中和分别表示包含节点u的k步子图的顶点数和边数,和分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和
步骤1.3:计算度相似性Sd和序列相似性Sseq;
步骤1.4:融合各种相似性,选择出锚点A;
首先由全局相似性矩阵Sg、局部相似性矩阵Sl得到拓扑相似性矩阵St=Sg×Sl,再结合度相似性Sd得到网络结构相似性Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),其中θ表示拓扑相似性和度相似性的平衡参数,值在[0,1]之间可调节。再结合结构相似性Sstr和序列相似性Sseq得到最终的节点相似性S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),其中α表示平衡结构相似性和度列相似性的平衡参数,值在[0,1]之间可调节。
然后根据节点间的相似性分数S(u,v)将所有节点对进行降序排列,当节点对(u,v)满足以下两个条件时则将这两个节点进行匹配并加入锚点集合A;
条件2:S(u,v)≥τ,其中τ是阈值;
步骤1.5:从选择出的锚点集合A出发将邻居节点进行扩展匹配,得到初始匹配M;
首先将锚点集合A中的匹配节点对都加入初始匹配M中,然后将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-α)×Sl(u,v)+α×Sseq(u,v)大小降序排列,然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至队列Q为空,得到初始匹配M。
步骤2:优化匹配M得到最优匹配M*;
匹配优化(matching refinement)阶段,步骤1中根据启发式算法得到的初始匹配M不能保证是最优的,采用一种新提出的算法进行匹配优化,具体是:首先从两个物种其中之一的蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果。
其中对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,具体实现包括以下子步骤:
步骤2.1:构建一个带权二分匹配图Gb,一边是包含V1-F1的节点结合,另一边是包含V2-F2的节点集合,对于所有u∈V1-F1和v∈V2-F2,在Gb中增加一条边,边(u,v)的权重为w(u,v)=|M[N(u)∩F1]∩(N(v)∩F2)|;
步骤2.2:利用匈牙利树算法计算出Gb的最大带权二分匹配Mb,使得二分图中所有边的权重之和最大化,那么优化后的匹配M*=(M∩(F1×F2))∪Mb。
判断匹配是否更好的标准是:
步骤3:利用匹配M*发现生物通道;
利用步骤2生成的两个物种的蛋白质交互网络匹配结果,结合生物数据库挖掘两个物种间共存的生物通路。KEGG PATHWAY数据库中存储了现有实验证实的生物通路,其中一个生物通路(例如hsa03010)的表示是由物种代号(hsa表示人类)和一个数字组成(03010),相同数字的生物通路表示具有相似的生物功能。具体是:首先在KEGG PATHWAY数据库中找到两个物种的蛋白质交互网络(PPI网络)中分别涉及到的所有生物通路,因为相同数字的生物通路表示具有相似的生物功能,所以可以得到两个物种中具有相似生物功能的生物通路集合,然后结合步骤2中生成的匹配结果,可以得到两个物种的具有相似生物功能的生物通路之间的结构映射关系,这个结构映射关系对于生命科学家研究不同物种之间生物通路之间的关联性具有指导意义。
本发明具有以下优点:图匹配算法将生物序列相似性和网络结构相似性很好地融合,能够发现两个物种的蛋白质交互网络中共存的较大子结构,从而更有效地发现存在于不同物种中具有相似功能的生物通路。
附图说明:
图1是本发明实施例的流程图;
图2是本发明实施例在样本图上匹配之后发现的共存的生物通路子结构,其中(1)hsa03010生物通路,(2)sce03010生物通路;
图3是本发明实施例在样本图上发现的共存生物通路被APID dataserver证实的子结构,其中(1)hsa03010生物通路,(2)sce03010生物通路。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明主要基于一种新提出的图匹配算法,将不同物种的蛋白质交互网络(PPI网络)进行最优匹配,根据匹配的结果在KEGG PATHWAY数据库中进行查询,找到物种间共存的生物通路子结构。通过本发明,我们提供了一种新的跨物种生物通路发现方法,比传统生物化学方法更加高效,且算法效果比现有匹配算法更好。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以人类(human,生物代号HSapiens)的蛋白质交互网络(PPI网络)和酵母菌(yeast,生物代号SCerevisiae)的蛋白质交互网络(PPI网络)为例,样本图的属性信息参见表1,
表1样本图数据(人类和酵母菌的PPI网络)
PPI network | #nodes | #edges | #average degree |
HSapiens(human) | 13276 | 110528 | 16.651 |
SCerevisiae(yeast) | 5831 | 77149 | 26.462 |
本发明的具体实现包括以下步骤:
步骤1:首先通过计算融合全局相似性、局部相似性、度相似性和序列相似性,得到人类和酵母菌的PPI网络中所有节点间的节点相似性,然后根据节点相似性将所有节点对降序排列,将满足要求的节点对加入锚点集合。然后从锚点集合中的节点对出发,根据局部相似性和序列相似性,扩展匹配它们的邻居节点,直至较小PPI网络中所有节点都被匹配,得到初始匹配。
实施例中构建初始匹配的具体实施过程如下:
首先,计算全局相似性Sg、局部相似性Sl、度相似性Sd和序列相似性Sseq,并融合为节点相似性S。
计算序列相似性Sseq的方法为:将BLAST算法计算得到的序列相似性归一化即可。
融合各个相似性为节点相似性S的方法为:
S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),
其中Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),且St=Sg×Sl,α和β的值均为[0,1]之间可调节,这里均选取为0.5。
然后,将所有节点对根据融合后的节点相似性S大小降序排列,将满足约束条件的节点对加入锚点集合A。这里约束条件为:
最终,从锚点集合A中的每个节点对出发,扩展匹配它们的邻居节点,直至G1和G2中较小图中的所有节点均被匹配,即得到初始匹配M。扩展匹配的具体过程如下:将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-α)×Sl(u,v)+α×Sseq(u,v)大小降序排列,然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至队列Q为空,即得到初始匹配M。
步骤2:上述启发式算法得到的初始匹配M不一定是最优的,继续将初始匹配M采用覆盖集和匈牙利树二分匹配算法进行优化得到最优匹配M*。
实施例中优化初始匹配M得到最有匹配M*的具体实施过程如下:
首先,随机选取G1的一个顶点覆盖集C,假设初始匹配M中所有G1节点集合为P1,令F1=C∩P1,F1中所有节点由初始匹配M映射的在G2中的节点结合为F2。保留F1和F2的匹配节点对直接加入到匹配M*中。
然后,构建一个带权二分图Gb,一边是所有V1-F1的节点集合,另一边是所有V2-F2的节点集合,二分图所有节点之间加一条边,边的权重为w(u,v)=|M[N(u)∩F1]∩(N(v)∩F2)|。然后利用匈牙利树算法(Hungarian Algorithm)求解最大二分匹配问题,将计算的解,即所有剩余节点的匹配对加入到匹配M*中。
最终,如果M*是比M更好的匹配,那么更新M=M*,然后重复优化匹配M的所有步骤,直至M*达到稳定。这里判断匹配是否更好的标准是:
步骤3:在KEGG PATHWAY数据库中查询人类PPI网络G1和酵母菌PPI网络G2各自涉及到的所有生物通路(pathway),然后根据最优匹配M*找到其中具有最大公共子结构的生物通路。
图2给出了KEGG PATHWAY中查询到的人类代号为hsa03010的生物通路,共包含132个蛋白质节点和1924条边,还有查询到的酵母菌代号为sce03010的生物通路,共包含175个蛋白质节点和2311条边,其中最优匹配M*发现了hsa03010和sce03010的最大公共子结构包含63个蛋白质分子和1406条边,该公共子结构在图2中分别均以深色标出。hsa03010和sce03010具有相同的数字标号03010,表明人类和酵母菌的这两个生物通路具有相似的生物功能。为了进一步证明人类生物通路hsa03010和酵母菌生物通路sce03010之间的关联性,我们采用APID dataserver查询这两个生物通路中已被生物实验证实确实存在的蛋白质及蛋白质之间的联系。APID查询结果表明hsa03010生物通路中总共有126个蛋白质节点和1748条边是被实验证实确实存在的,sce03010生物通路中总共有165个蛋白质节点和192条边是被实验证实确实存在的,它们之间存在一个由26个蛋白质节点和32条边构成的较为完整的公共子结构,该结构展示在图3中。该结果说明本发明提出的图匹配方法可以有效地发现人类和酵母菌中具有相似功能的生物通路公共子结构,该结果对于生物学研究物种之间的联系有指导意义。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (3)
1.一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:
步骤1:构建初始匹配M;
首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点集合A,然后从这些锚点集合A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;
步骤1的具体实现包括以下子步骤;
步骤1.1:采用谱方法计算全局相似性Sg;
对于图G,它的邻接矩阵为GA,对角度矩阵为D,拉普拉斯矩阵L=D-GA;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性
步骤1.2:计算局部相似性Sl;
假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中和分别表示包含节点u的k步子图的顶点数和边数,和分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和
步骤1.3:计算度相似性Sd和序列相似性Sseq;
步骤1.4:融合各种相似性,选择出锚点集合A;
首先由全局相似性Sg、局部相似性Sl得到拓扑相似性矩阵St=Sg×Sl,再结合度相似性Sd得到网络结构相似性Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),其中θ表示拓扑相似性和度相似性的平衡参数,值在[0,1]之间可调节;再结合结构相似性Sstr和序列相似性Sseq得到最终的节点相似性S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),其中α表示平衡结构相似性和序列相似性的平衡参数,值在[0,1]之间可调节;
然后根据节点间的相似性分数S(u,v)将所有节点对进行降序排列,当节点对(u,v)满足以下两个条件时则将这两个节点进行匹配并加入锚点集合A;
条件2:S(u,v)≥τ,其中τ是阈值;
步骤1.5:从选择出的锚点集合A出发将邻居节点进行扩展匹配,得到初始匹配M;
首先将锚点集合A中的匹配节点对都加入初始匹配M中,然后将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-β)×Sl(u,v)+β×Sseq(u,v)大小降序排列,其中β表示平衡Sl(u,v)和Sseq(u,v)的平衡参数;然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至优先队列Q为空,得到初始匹配M;
步骤2:优化匹配M得到最优匹配M*;
首先从蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果;
步骤3:利用匹配M*发现生物通道;
首先在KEGG PATHWAY数据库中找到两个物种的蛋白质交互网络中所有蛋白质节点涉及的生物通路集合;
然后利用匹配M*的节点映射关系找到具有最大公共子结构的生物通道。
2.根据权利要求1所述的基于图匹配的跨物种生物通路发现方法,其特征在于:步骤2中所述对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,具体实现包括以下子步骤:
步骤2.1:构建一个带权二分匹配图Gb,一边是包含V1-F1的节点结合,另一边是包含V2-F2的节点集合,对于所有u∈V1-F1和v∈V2-F2,在Gb中增加一条边,边(u,v)的权重为w(u,v)=|M[N(u)∩F1]∩(N(v)∩F2)|;
步骤2.2:利用匈牙利树算法计算出Gb的最大带权二分匹配Mb,使得二分图中所有边的权重之和最大化,那么优化后的匹配M*=(M∩(F1×F2))∪Mb。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711093138.0A CN107832583B (zh) | 2017-11-08 | 2017-11-08 | 一种基于图匹配的跨物种生物通路发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711093138.0A CN107832583B (zh) | 2017-11-08 | 2017-11-08 | 一种基于图匹配的跨物种生物通路发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832583A CN107832583A (zh) | 2018-03-23 |
CN107832583B true CN107832583B (zh) | 2021-04-16 |
Family
ID=61654043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711093138.0A Active CN107832583B (zh) | 2017-11-08 | 2017-11-08 | 一种基于图匹配的跨物种生物通路发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832583B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767809B (zh) * | 2019-01-16 | 2023-06-06 | 中南大学 | 蛋白质相互作用网络的对齐方法 |
CN111599406B (zh) * | 2020-05-25 | 2023-08-04 | 江南大学 | 结合网络聚类方法的全局多网络比对方法 |
CN112582027B (zh) * | 2020-12-15 | 2022-04-29 | 武汉大学 | 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 |
CN115497555A (zh) * | 2022-08-16 | 2022-12-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101957892A (zh) * | 2010-09-17 | 2011-01-26 | 深圳华大基因科技有限公司 | 一种全基因组复制事件的检测方法和系统 |
CN102066579A (zh) * | 2008-04-24 | 2011-05-18 | 纽约市哥伦比亚大学理事会 | 用于dna分子编排的几何图案和脂质双层以及它们的用途 |
US8150634B1 (en) * | 2004-11-12 | 2012-04-03 | Bristol-Myers Squibb Company | Protein-ligand NOE matching for high-throughput structure determination |
CN102902896A (zh) * | 2012-09-25 | 2013-01-30 | 上海大学 | 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法 |
CN104978498A (zh) * | 2015-04-16 | 2015-10-14 | 上海大学 | 生物分子网络拓扑结构比对的自适应方法 |
CN105808696A (zh) * | 2016-03-03 | 2016-07-27 | 北京邮电大学 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
CN107192829A (zh) * | 2017-05-18 | 2017-09-22 | 南京中医药大学 | 一种板蓝根蛋白质鉴定的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7848890B2 (en) * | 2004-12-08 | 2010-12-07 | Electronics And Telecommunications Research Institute | Method and system for predicting gene pathway using gene expression pattern data and protein interaction data |
US8030060B2 (en) * | 2007-03-22 | 2011-10-04 | West Virginia University | Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer |
-
2017
- 2017-11-08 CN CN201711093138.0A patent/CN107832583B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150634B1 (en) * | 2004-11-12 | 2012-04-03 | Bristol-Myers Squibb Company | Protein-ligand NOE matching for high-throughput structure determination |
CN102066579A (zh) * | 2008-04-24 | 2011-05-18 | 纽约市哥伦比亚大学理事会 | 用于dna分子编排的几何图案和脂质双层以及它们的用途 |
CN101957892A (zh) * | 2010-09-17 | 2011-01-26 | 深圳华大基因科技有限公司 | 一种全基因组复制事件的检测方法和系统 |
CN102902896A (zh) * | 2012-09-25 | 2013-01-30 | 上海大学 | 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法 |
CN104978498A (zh) * | 2015-04-16 | 2015-10-14 | 上海大学 | 生物分子网络拓扑结构比对的自适应方法 |
CN105808696A (zh) * | 2016-03-03 | 2016-07-27 | 北京邮电大学 | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 |
CN107192829A (zh) * | 2017-05-18 | 2017-09-22 | 南京中医药大学 | 一种板蓝根蛋白质鉴定的方法 |
Non-Patent Citations (3)
Title |
---|
High efficiency and quality: large graphs matching;Yuanyuan Zhu等;《Regular Paper》;20120925;摘要、第1-8节 * |
L-GRAAL: Lagrangian graphlet-based network aligner;Noël Malod-Dognin等;《Bioinformatics》;20150228;第31卷(第13期);摘要、第1-4节 * |
基于区域SIFT特征的蛋白点匹配方法研究;黄继昆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150215;第2015年卷(第2期);I138-966 * |
Also Published As
Publication number | Publication date |
---|---|
CN107832583A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832583B (zh) | 一种基于图匹配的跨物种生物通路发现方法 | |
Harenberg et al. | Community detection in large‐scale networks: a survey and empirical evaluation | |
Voevodski et al. | Finding local communities in protein networks | |
Huang et al. | Scalable hypergraph learning and processing | |
Kirsten et al. | Distance based approaches to relational learning and clustering | |
CN103413067A (zh) | 一种基于抽象凸下界估计的蛋白质结构预测方法 | |
CN102214215A (zh) | 一种基于文本信息的快速反近邻查询方法 | |
CN106886524A (zh) | 一种基于随机游走的社会网络社区划分方法 | |
CN107391636B (zh) | top-m反近邻空间关键字查询方法 | |
CN104992078B (zh) | 一种基于语义密度的蛋白质网络复合物识别方法 | |
Li et al. | Optimal multi-meeting-point route search | |
CN110957002B (zh) | 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 | |
Jung et al. | Processing generalized k-nearest neighbor queries on a wireless broadcast stream | |
Mao et al. | A MapReduce-based K-means clustering algorithm | |
Sathyakala et al. | A weak clique based multi objective genetic algorithm for overlapping community detection in complex networks | |
CN110503234B (zh) | 一种物流运输调度的方法、系统及设备 | |
Ruzgar et al. | Clustering based distributed phylogenetic tree construction | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN109614520B (zh) | 一种面向多模式图匹配的并行加速方法 | |
CN103345509A (zh) | 获取路网上复反向最远邻居的层次分区树方法及系统 | |
CN110580252A (zh) | 多目标优化下的空间对象索引与查询方法 | |
CN111177190A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
Zhu et al. | Discovering large conserved functional components in global network alignment by graph matching | |
Yanagisawa et al. | Optimization of memory use of fragment extension-based protein–ligand docking with an original fast minimum cost flow algorithm | |
Sun et al. | ListMotif: A time and memory efficient algorithm for weak motif discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |