CN102902896A - 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法 - Google Patents

基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法 Download PDF

Info

Publication number
CN102902896A
CN102902896A CN2012103586699A CN201210358669A CN102902896A CN 102902896 A CN102902896 A CN 102902896A CN 2012103586699 A CN2012103586699 A CN 2012103586699A CN 201210358669 A CN201210358669 A CN 201210358669A CN 102902896 A CN102902896 A CN 102902896A
Authority
CN
China
Prior art keywords
node
network
subnet
biomolecule
mean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103586699A
Other languages
English (en)
Other versions
CN102902896B (zh
Inventor
谢江
谭军
马进
张武
文铁桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201210358669.9A priority Critical patent/CN102902896B/zh
Publication of CN102902896A publication Critical patent/CN102902896A/zh
Application granted granted Critical
Publication of CN102902896B publication Critical patent/CN102902896B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法。其步骤如下:A、根据生物分子的序列特征,构建网络T(Gt)和B(GB)中生物分子的初始相似矩阵。B、根据生物分子在网络中的拓扑的相似特征,计算生物分子的相似矩阵S。C、构建专家知识字典。D、基于专家知识,以邻居优先策略进行搜索,获得结果子网。E、计算结果子网R(Gr)与目标子网T(Gt)的相似得分。F、计算p值。G、结果子网可视化。与同类方法相比,该方法计算准确度更高,具有更高的稳定性,能更好地处理生物分子网络间的“空隙”(Gap),获得更多的保守边和节点,且能较好地反映生物分子网络之间的变化情况。

Description

基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法
技术领域
本发明涉及计算机领域,提出了基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法。
背景技术
生物分子网络是复杂网络。在复杂网络中搜索与目标子网最相似的子网是一个局部网络比较问题,涉及到大量的计算,已被证实是一个NP完全问题(Non-deterministic Polynomial的问题,也即是多项式复杂程度的非确定性问题)。目前,研究人员普遍采用图来表示复杂网络,并以图论的方法来研究它们。对于生物分子网络而言,图中的节点表示生物分子,边表示生物分子之间的调控、相互作用等各种关系。
由于生物分子网络特有的生物学意义,仅用图论的方法来研究它们是不够的,其搜索还面临着更多的问题,主要包括:(1)每个生物分子都有其生物学意义,要明确一个网络中的某个生物分子和另外一个网络中的哪个生物分子最相似,不仅要考虑生物分子本身的序列,还要考虑它在网络中的拓扑位置;(2)无论是国际公开的数据库中的数据,还是自己通过生物实验获得的数据都存在假阳性和假阴性现象,目前只能通过这些不完全准确和不完整的数据研究生物分子网络;(3)对于要研究的不同的具体问题,网络中各个分子的地位并不是完全平等的,计算过程中要合理利用专家知识,以贴近生物学的实际应用背景。
目前,已有一些研究小组在进行这方面的研究,也开发了少量的工具。这些方法各有其优点,但也各有其局限性,无法满足系统生物学的需要。而这些局限性主要体现在对具有相对复杂的拓扑结构的网络搜索上,对于生物分子网络而言,为了能获得不同物种间的最相似网络,计算的准确度必须得到提高。同时,考虑到生物分子网络的进化和变异,不同物种的网络虽然不同,却有一定的保守性,算法应能在变异后的网络中找到原始的保守信息,能较好地体现网络拓扑的变化情况,且具有较高的稳定性。
发明内容
本发明的目的在于,为了解决上述问题而提供基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,该方法能在复杂的生物分子网络中搜索到与目标子网最相似的结果子网,避免了以往算法不能合理利用专家知识而带来的计算的盲目性,并降低因原始信息缺失带来的误差,从而具有较高的稳定性。随着生物分子网络的进化和变异,该方法较少受到Gap的影响,从而可以搜索得到更多的保守边和节点,而变异的边数往往与未匹配边数一致,即方法能较好地体现拓扑的变化情况。
为达到上述目的,本发明的构思是:首先结合生物分子的序列特征及其在网络中的拓扑相似特征,计算各个生物分子之间的相似系数,其中拓扑相似特征主要考虑目标生物分子的邻居/非邻居分子之间的平均相似性,以降低原始信息缺失和不准确带来的误差,并提高其稳定性;然后根据具体问题和专家知识字典,将目标子网中的生物分子分类,确定K类分子的最相似分子;最后,根据生物分子之间的关系特点,如“与相似的蛋白质发生相互作用的那些蛋白质之间往往具有更高的相似度”,对N类分子采用邻居优先的策略进行搜索,获得结果子网。
根据上述发明构思,对于网络A(GA)、网络B(GB)及网络A中的目标子网T(Gt),本发明采用下述技术方案:
A、 计算Gt和GB的初始相似矩阵                                                :根据生物分子的序列特征,构建网络T(Gt)和B(GB)中生物分子的初始相似矩阵
Figure 471436DEST_PATH_IMAGE001
,其中的每个元素
Figure 122997DEST_PATH_IMAGE002
表示节点
Figure 378702DEST_PATH_IMAGE003
和节点
Figure 773911DEST_PATH_IMAGE004
之间的序列相似系数
Figure 322704DEST_PATH_IMAGE005
B、 计算Gt和Gb的相似矩阵S:根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素
Figure 348429DEST_PATH_IMAGE006
为节点
Figure 615462DEST_PATH_IMAGE003
和节点
Figure 814362DEST_PATH_IMAGE004
之间的相似系数;
C、  构建专家知识字典:字典中包含了网络T(Gt)和B(GB)中由专家确定的最相似的生物分子对;
D、  采用邻居节点优先策略进行网络搜索:利用专家知识,基于相似矩阵S,以邻居优先策略进行搜索,获得结果子网;
E、  计算结果子网(Gr)与目标子网(Gt)的相似得分;
F、  计算p值,分析目标子网的统计学意义;
G、 结果子网(Gr)可视化。
本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,与现有技术相比较,具有以下突出的实质性特点和显著优点:
1.   该方法建立专家知识字典,避免了以往算法不能合理利用专家知识而带来的计算的盲目性。
2.   该方法结合生物分子本身的序列特征及其在网络中的拓扑特征计算生物分子的相似系数,实现了图论方法和生物学应用背景的有机结合。
3.   该方法在计算生物分子拓扑结构相似的时候,强调生物分子在网络拓扑结构上的平均相似性,而弱化它们的不相似性,有效降低了因为原始数据的不准确和不完整带来的误差。提高了算法的稳定性,且算法较少受到Gap的影响,能较好地体现网络的变化情况。
4.   该方法采用邻居节点优先进行网络搜索,符合生物分子网络的生物学意义,并降低了计算复杂度。
附图说明
图1是本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法的流程图。
图2是图1中步骤B所述的根据生物分子在各自网络中的拓扑相似特征,对无向图计算生物分子的相似矩阵的具体流程图,对有向图的计算与此类似。
图3是图1中步骤D所述的基于专家知识进行搜索的流程图。
图4是图3中步骤D3所述的对N类生物分子根据邻居优先的策略进行搜索配对的流程图。
图5是图1中步骤F所述的计算p值的流程图。
图6是图5中步骤F1所述的生成随机网络的流程图。
图7是本发明与同类方法对经典示例的计算结果对比。
图8是为了不失一般性,对图7算例的1~7条边各进行100次拓扑变换后,本发明与同类方法的计算结果对比图。
图9是为了不失一般性,各以最多100种方式删除图7算例的1~6个节点后,本发明与同类方法的计算结果对比图。
图10是为了不失一般性,对图7算例增加节点后,本发明与同类方法的计算结果对比图。
图11是对果蝇和人类网络搜索比对时,采用或不采用专家知识的结果对比。
具体实施方式
以下结合附图对本发明的优选实施例进一步详细说明。
本实施例中,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法的实验在上海大学系统生物技术研究所的集群计算机上完成,该集群由14台IBM HS21刀片服务器和2台x3650服务器组成计算和管理节点,网络连接采用千兆以太网和infiniband 2.5G网。每个节点配置两个双核CPU和4GB内存,每个CPU为intel xeon 5150 2.66GMhz主频,两台图形工作站作为前端机,可以进行科学数据可视化。
对于网络A(GA)、网络B(GB)及网络A(GA)中的目标子网T(Gt),本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,如图1-图6所示,包括以下步骤:
A、 根据生物分子的序列特征,构建网络T(Gt)和B(GB)中生物分子的初始相似矩阵,其中的每个元素表示节点
Figure 417885DEST_PATH_IMAGE003
和节点
Figure 92580DEST_PATH_IMAGE004
之间的序列相似系数
Figure 615965DEST_PATH_IMAGE005
。具体步骤包括:
A1、取
Figure 2012103586699100002DEST_PATH_IMAGE007
,其余参数取缺省值,用BLAST计算
Figure 232760DEST_PATH_IMAGE008
中所有分子在
Figure 2012103586699100002DEST_PATH_IMAGE009
的序列相似分子。
A2、按以下公式计算这些生物分子之间的相似系数:
Figure 2012103586699100002DEST_PATH_IMAGE011
B、 根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素为节点
Figure 687192DEST_PATH_IMAGE003
和节点
Figure 517614DEST_PATH_IMAGE004
之间的相似系数,具体步骤包括:
B1、计算生物分子
Figure 852780DEST_PATH_IMAGE003
Figure 581702DEST_PATH_IMAGE004
在网络拓扑结构上的平均相似性,其相似性的各个方面在有向网络中分别由 、 
Figure 2012103586699100002DEST_PATH_IMAGE013
、 和 表示,在无向网络中则由
Figure 789195DEST_PATH_IMAGE016
表示;
B11、在有向网络中,
Figure 67730DEST_PATH_IMAGE012
表示节点ab的入邻居(即有边从这些邻居节点指向ab)之间的平均相似性,
Figure 950235DEST_PATH_IMAGE013
表示节点ab的出邻居(即有边从ab指向这些邻居节点)之间的平均相似性,表示节点ab的非入邻居节点(指那些没有边进入ab的节点)之间的平均相似性,
Figure 245267DEST_PATH_IMAGE015
表示ab的非出邻居节点(指那些没有边从ab指向它的节点)之间的平均相似性。由
Figure 870152DEST_PATH_IMAGE018
表示进入节点a的边的条数,即a的入度,
Figure 2012103586699100002DEST_PATH_IMAGE019
表示从节点a引出的边的条数,即a的出度,
Figure 290769DEST_PATH_IMAGE020
表示存在一条从
Figure 2012103586699100002DEST_PATH_IMAGE021
a的边,
Figure 701022DEST_PATH_IMAGE022
表示从
Figure 548892DEST_PATH_IMAGE021
a不存在边,
Figure 2012103586699100002DEST_PATH_IMAGE023
表示存在一条从a
Figure 661074DEST_PATH_IMAGE021
的边,
Figure 885382DEST_PATH_IMAGE024
表示从a不存在边,表示
Figure 434492DEST_PATH_IMAGE021
是图
Figure 847019DEST_PATH_IMAGE008
中的一个节点,
Figure 609438DEST_PATH_IMAGE026
表示
Figure 2012103586699100002DEST_PATH_IMAGE027
Figure 977971DEST_PATH_IMAGE028
中的一个节点,
Figure 2012103586699100002DEST_PATH_IMAGE029
表示
Figure 370907DEST_PATH_IMAGE030
的相似系数,
Figure 2012103586699100002DEST_PATH_IMAGE031
为图Gt的节点数,
Figure 457680DEST_PATH_IMAGE032
为图GB的节点数,上标k代表迭代次数,且
Figure 23791DEST_PATH_IMAGE034
Figure 59880DEST_PATH_IMAGE036
Figure 623716DEST_PATH_IMAGE038
Figure 10835DEST_PATH_IMAGE040
B12、在无向网络中,
Figure 2012103586699100002DEST_PATH_IMAGE041
表示节点ab的邻居节点(即这些节点和ab之间存在边)之间的平均相似性,
Figure 115058DEST_PATH_IMAGE042
表示节点ab的非邻居节点(即这些节点和ab之间不存在边)之间的平均相似性,由
Figure 2012103586699100002DEST_PATH_IMAGE043
表示节点a的边的度数,表示
Figure 255238DEST_PATH_IMAGE021
a之间存在边,
Figure 2012103586699100002DEST_PATH_IMAGE045
表示
Figure 801757DEST_PATH_IMAGE021
a之间不存在边,
Figure 975249DEST_PATH_IMAGE046
表示
Figure 172881DEST_PATH_IMAGE021
Figure 140837DEST_PATH_IMAGE008
中的一个节点,
Figure 236969DEST_PATH_IMAGE026
表示
Figure 620677DEST_PATH_IMAGE027
Figure 751444DEST_PATH_IMAGE009
中的一个节点,
Figure 890302DEST_PATH_IMAGE029
表示的相似系数,
Figure 910396DEST_PATH_IMAGE031
为图Gt的节点数,
Figure 895670DEST_PATH_IMAGE032
为图GB的节点数,上标k代表迭代次数,且
Figure 205428DEST_PATH_IMAGE048
Figure 276152DEST_PATH_IMAGE050
B2、在生物分子
Figure 267242DEST_PATH_IMAGE003
Figure 107022DEST_PATH_IMAGE004
的序列相似系数基础上增加它们在网络拓扑结构上的平均相似性,迭代,直至一致收敛或振荡收敛;具体公式如下,其中上标kk+1代表迭代次数,
Figure 2012103586699100002DEST_PATH_IMAGE051
代表
Figure 67074DEST_PATH_IMAGE052
Figure 2012103586699100002DEST_PATH_IMAGE053
的相似系数,
Figure 861855DEST_PATH_IMAGE054
、 
Figure 2012103586699100002DEST_PATH_IMAGE055
、 和 
Figure 394653DEST_PATH_IMAGE015
表示有向网络中
Figure 2012103586699100002DEST_PATH_IMAGE057
Figure 439969DEST_PATH_IMAGE053
出/入邻居节点和非邻居节点之间的平均相似性,
Figure 772862DEST_PATH_IMAGE058
Figure 2012103586699100002DEST_PATH_IMAGE059
表示无向网络
Figure 321655DEST_PATH_IMAGE060
Figure 596647DEST_PATH_IMAGE053
的邻居节点和非邻居节点之间的平均相似性,表示
Figure 797001DEST_PATH_IMAGE057
Figure 465880DEST_PATH_IMAGE053
的序列相似系数:
在有向网络中
Figure 662506DEST_PATH_IMAGE062
在无向网络中 
Figure 151256DEST_PATH_IMAGE064
B3、归一化,具体公式为:
Figure 340798DEST_PATH_IMAGE066
C、  构建专家知识字典,字典中包含了网络T(Gt)和B(GB)中由专家确定的最相似的生物分子对。
D、 基于专家知识,以邻居优先策略进行搜索,获得结果子网,并可视化。具体步骤包括:
D1、将目标子网T(Gt)中的生物分子分成两类,一类为K类,其中的生物分子是与具体问题相关的重要分子且存在于专家知识字典中;另一类为N类,包含了网络T(Gt)中除K类以外的其它生物分子。
D2、根据专家知识字典,在网络B(GB)中找到与K类生物分子具有最高相似度的生物分子,使它们配对。
D3、对N类生物分子根据邻居优先的策略进行搜索配对,直到全部配对完成,获得结果子网。具体步骤包括:
D31、优先队列PQ根据节点对的相似系数维护节点对:对子网T(Gt)中的每个N类节点,都在网络B(GB)中找出与它最相似节点,并把这些节点对加入PQ
D32、在每一次搜索配对过程中,选择在优先队列中还没有匹配的节点中最匹配的节点对,将它们标记为“已匹配”。
D33、同时,对邻近的未匹配节点对,在其原有相似系数的基础上增加系数
Figure 2012103586699100002DEST_PATH_IMAGE067
,从而增大它们被选择匹配的机会。
D34、这个搜索过程在子网T(Gt)中的所有节点都被匹配时结束。
E、  计算结果子网R (Gr) 与目标子网T (Gt) 的相似得分,其相似得分定义如下:
设目标子网为,结果子网为
Figure 2012103586699100002DEST_PATH_IMAGE069
,其中,
Figure 2012103586699100002DEST_PATH_IMAGE071
分别代表网络
Figure 207757DEST_PATH_IMAGE008
Figure 935410DEST_PATH_IMAGE072
的节点集合,且
Figure 2012103586699100002DEST_PATH_IMAGE073
1 2,即网络
Figure 914048DEST_PATH_IMAGE008
中有
Figure 2012103586699100002DEST_PATH_IMAGE075
1个节点,网络 2个节点;
Figure 2012103586699100002DEST_PATH_IMAGE077
表示节点
Figure 659467DEST_PATH_IMAGE078
存在于网络
Figure 344395DEST_PATH_IMAGE008
中,
Figure 2012103586699100002DEST_PATH_IMAGE079
Figure 850463DEST_PATH_IMAGE080
分别表示结果子网
Figure 4364DEST_PATH_IMAGE072
中与
Figure 886869DEST_PATH_IMAGE078
对应的节点;
Figure 2012103586699100002DEST_PATH_IMAGE081
分别代表网络
Figure 103273DEST_PATH_IMAGE008
Figure 541207DEST_PATH_IMAGE072
的边集合,
Figure 2012103586699100002DEST_PATH_IMAGE083
表示边
Figure 165087DEST_PATH_IMAGE084
的两个端点是节点
Figure 372077DEST_PATH_IMAGE078
Figure 485526DEST_PATH_IMAGE084
Figure 597708DEST_PATH_IMAGE086
Figure 822016DEST_PATH_IMAGE081
表示边
Figure 149092DEST_PATH_IMAGE084
是网络
Figure 433443DEST_PATH_IMAGE008
的一条边;
Figure 2012103586699100002DEST_PATH_IMAGE087
表示边
Figure 518073DEST_PATH_IMAGE084
的权重;
Figure 546072DEST_PATH_IMAGE088
表示网络的节点
Figure 2012103586699100002DEST_PATH_IMAGE089
和结果子网
Figure 369858DEST_PATH_IMAGE072
中与其对应的节点
Figure 269681DEST_PATH_IMAGE079
的序列相似系数。则结果子网
Figure 835791DEST_PATH_IMAGE072
相对于目标子网
Figure 809563DEST_PATH_IMAGE008
的得分为
在无向图中:
Figure 2012103586699100002DEST_PATH_IMAGE091
其中 
Figure 2012103586699100002DEST_PATH_IMAGE093
Figure 2012103586699100002DEST_PATH_IMAGE095
在有向图中:
Figure 2012103586699100002DEST_PATH_IMAGE097
其中
Figure 2012103586699100002DEST_PATH_IMAGE099
F、  计算p值,分析目标子网的统计学意义。具体步骤如下:
F1、生成网络B(GB)的n个随机网络。具体方法是:
F11、随机选择一对边A-B和C-D;
F12、将这两条边重新组合,使A-D相连且B-C相连;
F13、如果这些新形成的边在网络中已经有一条或几条存在,则终止这一步并重新选择一对新边进行变换。这样就可以防止两个相同的节点之间有多条边出现;
F14、重复F11-F13,形成一个与网络B(GB)对应的随机网络。
F2、在每个随机网络中用同样的方法搜索同一个目标子网的相似子网,得到n个结果子网。
F3、用T检验计算p值。p值反映了计算结果有多大概率是由两个无关网络随机计算的结果,p值越接近于0,说明所得到的结果越显著越不可能是随机出现的结果,因此越可能具有生物学意义;反之,p值越接近于1,则所对应的结果就越不显著,越可能是由于无意义的随机计算得到的。
G、 结果子网可视化。
参照图7,示出了本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法与同类代表性方法,即NBM和MNAligner,对于网络搜索例的计算结果对比。 图7A和图7B分别是示例的两个网络及其初始相似矩阵。计算结果表明,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法和NBM方法都能找到两个网络之间较多的相似边,即,使其保持更相似的拓扑结构,而本发明的总得分高于NBM,说明在找到相似拓扑结构的同时,本发明找到的匹配节点具有更高的相似系数。可见本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法能比同类方法搜索到与目标更相似的结果子网,说明在准确性方面本方法更优。
本发明与NBM都采用了邻居优先的方法,下面图8~图10的实验主要针对NBM进行。
参照图8,示出了对图7算例的1~7条边(约占总边数的6.7%~46.7%)各进行100次拓扑变换获得的700个不同的网络,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法与同类代表性方法NBM的计算结果对比。取Gt和GB均为图7A中的第一个网络,即两个网络完全相同且其节点为{A, B, C, D, E, F, G, H, I, J, K, L},保持Gt节点数目不变,修改边以改变网络的拓扑结构,具体为分别修改1,2,……,7条边各100次,获得700个不同拓扑结构的网络;同源表中对角线元素取该矩阵元素的最大值0.8,其余元素取自图7中的同源表;邻居优先参数ω以步长0.1取值0.1~1。图8示出了ω=0.1时,本发明和NBM对这700个Gt相对于GB的计算结果,当ω取其它值时具有类似特性。其中:
图8A为变换Gt的1~7条边各100次后的总分平均分,实验表明,对于这700个网络,本发明的计算结果的总分平均分普遍高于NBM方法,说明本发明计算的Gr与Gt普遍更相似。
图8B为这700个网络的总分方差,图中本发明的总分方差显著低于NBM方法,说明本发明的方法具有更高稳定性。
图8C为变换Gt的1~7条边时,变换后的Gt与GB(与原始Gt相同)边的匹配情况。实验表明,本发明的计算结果能较好地符合边的变换情况,即当变换n条边的时候,则有41%~96%的结果为n条边未匹配,而NBM的最高比例为23%~89%,且所占比例最高的网络不一定是n条边未匹配(即其峰值与变换的边数不一致,不能体现拓扑的变化情况)。
图8D为700个网络的平均边正确率(Edge Correctness,EC),即Gt与GB中匹配的边在Gt总边数中的比例。
图8E为700个网络的EC方差,图中本发明的EC方差显著低于NBM方法,说明本发明的方法具有更高稳定性。
总之,图8的实验结果表明,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法比同类代表性方法NBM相比,具有更高的准确性和稳定性;随着生物分子网络的进化,本发明更能反应网络拓扑结构的变化情况。
参照图9,示出了各以最多100种方式删除图7算例的1~6个节点后,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法与同类代表性方法NBM的计算结果对比。取Gt和GB均为图7A中的网络,以最多100种方式各删除Gt中的1~6个节点(占Gt总节点数的8.3%~50%),并连通删除节点的邻居节点使得网络的连通特性不变,具体为每次删除1个节点可获得12个网络,每次删除2个节点可获得66个网络,每次删除3~6个节点分别获得100个网络,如此共获得478个不同拓扑结构的网络;同源表取自图7中的同源表;邻居优先参数ω以步长0.1取值0.1~1。图9示出了ω=0.1时,本发明和NBM对这478个Gt相对于GB的计算结果,当ω取其它值时具有类似特性。其中:
图9A为删除节点以改变拓扑结构后的总分平均分。实验表明,对于这478个网络,本发明的计算结果的总分平均分普遍高于NBM方法,说明本发明计算的Gr与Gt普遍更相似。
图9B为删除节点而改变拓扑结构后的总分平均变化率。实验表明,本发明的计算结果能较好地体现网络拓扑的变化,即总分变化趋势与网络节点的变化趋势基本一致;而NBM的计算结果则与网络拓扑的变化有较大的差异。
图9C为删除节点而改变拓扑结构后的总分方差。从图示可以看出,本发明的总分方差显著低于NBM的总分方差,说明本发明具有更高的稳定性。
图9D为删除节点而改变拓扑结构后的平均EC。从图中可以看出,本发明的平均EC普遍高于NBM,说明本发明能得到更多的保守边,即具有更高的准确性。
图9E为删除节点而改变拓扑结构后的EC方差。从图中可以看出,本发明的EC方差显著低于NBM,说明本发明具有更高的稳定性。
参照图10,示出了图7算例增加节点后,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法与同类代表性方法NBM的计算结果对比。取Gt和GB均为图7A中的第一个网络,即两个网络完全相同且其节点为{A, B, C, D, E, F, G, H, I, J, K, L},在Gt中随机增加1~2个节点(占Gt总节点数的8.3%~16.7%)形成Gap,重复7次实验;同源表中对角线元素取该矩阵元素的最大值0.8,其余元素取自图7中的同源表,新增加的节点与原来节点的同源系数均取0.8;邻居优先参数ω以步长0.1取值0.1~1。图10示出了ω=0.1时,本发明和NBM的计算结果,当ω取其它值时具有类似特性。其中:
图10A为增加节点后的总分变化;图10B为增加节点后的边保守率(即在增加节点导致网络拓扑发生变化后,原有的边还有多少仍能与自己匹配);图10C为增加节点后的节点保守率(即在增加节点导致网络拓扑发生变化后,原有的节点还有多少仍能与自己匹配)。实验结果表明,在Gt和GB完全一致的情况下,如果Gt增加节点发生拓扑结构的变化,本发明计算结果的总分变化比较平稳,而边保守率和节点保守率都相对较高。这说明对于不同物种生物网络存在的Gap,本发明较不容易受其影响,能较好地反映网络的保守信息。
参照图11,它是对果蝇和人类网络搜索比对中,采用或不采用专家知识的结果对比。基于上海大学生命学院分子生物学课题组的果蝇模型实验和相关文献记载,我们试图基于三个与帕金森病有密切关系的果蝇蛋白质CG7176, CG9277, CG17870来研究人类与帕金森病相关的蛋白质相互作用网络(Protein Interaction Network, PIN)。其中,果蝇蛋白质PIN数据来自于DIP数据库,包含7038个蛋白质和20720条相互作用;人类PIN数据来自于HPRD数据库,包含6340个蛋白质和23591条相互作用;目标子网即取自果蝇PIN,是由CG7176, CG9277, CG17870及与其有直接相互作用的蛋白质共同构成的网络。
图11A为本次实验的目标子网。
图11B为本发明在不采用专家知识字典的情况下的计算结果,表中列出了其中仅有的两对具有相似功能的蛋白质。
图11C为专家知识字典的内容。本实验中CG7176, CG9277, CG17870为K类蛋白,此表中列出了这些蛋白的匹配蛋白。
图11D为本发明在采用专家知识字典的情况下的计算结果(p-value=10-19),表中列出了其中九对具有相似功能的蛋白质。
图11的实验说明,对于特定的生物问题,专家知识的引入将有效地提高结果的准确性。
综上所述,图7~图11表明,本发明的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,与同类代表性方法相比,其总体计算准确度更高,具有更高的稳定性,能更好地处理生物分子网络间的Gap,更能反映生物分子网络之间的保守信息和差异情况。
本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

Claims (6)

1.基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,对于网络A(GA)、网络B(GB)及A中的目标子网T(Gt),基于专家知识,同时考虑网络中生物分子及其在网络中的拓扑相似属性,以邻居节点优先的策略进行网络搜索,以在网络B(GB)中获得与网络T(Gt)在生物意义上最相似的结果子网R(Gr);具体操作步骤如下:
A、计算Gt和GB的初始相似矩阵                                                
Figure 2012103586699100001DEST_PATH_IMAGE001
:根据生物分子的序列特征,构建网络T(Gt)和网络B(GB)中生物分子的初始相似矩阵
Figure 316652DEST_PATH_IMAGE001
,其中的每个元素
Figure 335424DEST_PATH_IMAGE002
表示节点和节点
Figure 59535DEST_PATH_IMAGE004
之间的序列相似系数
Figure 2012103586699100001DEST_PATH_IMAGE005
,其具体步骤如下:
A1、取,其余参数取缺省值,用BLAST计算中所有分子在
Figure 331434DEST_PATH_IMAGE008
的序列相似分子;
A2、按以下公式计算这些生物分子之间的相似系数:
Figure 786686DEST_PATH_IMAGE010
B、计算Gt和GB的相似矩阵S:根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素
Figure 2012103586699100001DEST_PATH_IMAGE011
为节点
Figure 233979DEST_PATH_IMAGE003
和节点
Figure 800089DEST_PATH_IMAGE004
之间的相似系数;
C、构建专家知识字典:字典中包含了网络T(Gt)和网络B(GB)中由专家确定的最相似的生物分子对;
D、采用邻居节点优先策略进行网络搜索:利用专家知识,基于相似矩阵S,以邻居优先策略进行搜索,获得结果子网;
E、计算结果子网(Gr)与目标子网(Gt)的相似得分;其相似得分定义如下:
设目标子网为,结果子网为
Figure 2012103586699100001DEST_PATH_IMAGE013
,其中,
Figure 790228DEST_PATH_IMAGE014
Figure 2012103586699100001DEST_PATH_IMAGE015
分别代表网络
Figure 911768DEST_PATH_IMAGE007
Figure 593154DEST_PATH_IMAGE016
的节点集合,且
Figure 2012103586699100001DEST_PATH_IMAGE017
1
Figure 811645DEST_PATH_IMAGE018
2,即网络
Figure 608700DEST_PATH_IMAGE007
中有
Figure 2012103586699100001DEST_PATH_IMAGE019
1个节点,网络 2个节点;
Figure 2012103586699100001DEST_PATH_IMAGE021
表示节点
Figure 938498DEST_PATH_IMAGE022
存在于网络中,
Figure 2012103586699100001DEST_PATH_IMAGE023
Figure 979453DEST_PATH_IMAGE024
分别表示结果子网
Figure 75585DEST_PATH_IMAGE016
中与
Figure 98773DEST_PATH_IMAGE022
对应的节点;
Figure 2012103586699100001DEST_PATH_IMAGE025
Figure 26278DEST_PATH_IMAGE026
分别代表网络
Figure 165135DEST_PATH_IMAGE007
的边集合,
Figure 2012103586699100001DEST_PATH_IMAGE027
表示边
Figure 76908DEST_PATH_IMAGE028
的两个端点是节点
Figure 796602DEST_PATH_IMAGE022
Figure 168677DEST_PATH_IMAGE028
Figure 239402DEST_PATH_IMAGE030
Figure 292808DEST_PATH_IMAGE025
表示边
Figure 132588DEST_PATH_IMAGE028
是网络
Figure 924833DEST_PATH_IMAGE007
的一条边;表示边
Figure 482853DEST_PATH_IMAGE028
的权重;
Figure 136688DEST_PATH_IMAGE032
表示网络
Figure 830975DEST_PATH_IMAGE007
的节点
Figure 2012103586699100001DEST_PATH_IMAGE033
和结果子网中与其对应的节点的序列相似系数;
则结果子网
Figure 736111DEST_PATH_IMAGE016
相对于目标子网
Figure 612800DEST_PATH_IMAGE007
的得分为
在无向图中:
Figure 2012103586699100001DEST_PATH_IMAGE035
其中 
Figure 2012103586699100001DEST_PATH_IMAGE037
Figure 2012103586699100001DEST_PATH_IMAGE039
在有向图中:
Figure 2012103586699100001DEST_PATH_IMAGE041
其中
Figure DEST_PATH_IMAGE045
F、计算p值,分析目标子网的统计学意义,p值反映了计算结果有多大概率是由两个无关网络随机计算的结果,p值越接近于0,说明所得到的结果越显著越不可能是随机出现的结果,因此越可能具有生物学意义;反之,p值越接近于1,则所对应的结果就越不显著,越可能是由于无意义的随机计算得到的;其具体步骤如下:
F1、生成网络B(GB)的n个随机网络;
F2、在每个随机网络中用同样的方法搜索同一个目标子网的相似子网,得到n个结果子网;
F3、用T检验计算p值; 
G、结果子网(Gr)可视化。
2.根据权利要求1所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,所述步骤B的根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵,其计算是依赖于步骤A的初始相似矩阵
Figure 809164DEST_PATH_IMAGE001
,即生物分子的序列相似矩阵,具体步骤如下:
B1、计算生物分子
Figure 76197DEST_PATH_IMAGE003
Figure 275097DEST_PATH_IMAGE004
在网络拓扑结构上的平均相似性,其相似性的各个方面在有向网络中分别由 
Figure 757025DEST_PATH_IMAGE046
、 
Figure 2012103586699100001DEST_PATH_IMAGE047
、 
Figure 750389DEST_PATH_IMAGE048
和 
Figure 2012103586699100001DEST_PATH_IMAGE049
表示,在无向网络中则由
Figure 567035DEST_PATH_IMAGE050
Figure 2012103586699100001DEST_PATH_IMAGE051
表示;
B2、在生物分子
Figure 615632DEST_PATH_IMAGE003
的序列相似系数基础上增加它们在网络拓扑结构上的平均相似性,迭代,直至一致收敛或振荡收敛;具体公式如下,其中上标kk+1代表迭代次数,
Figure 872804DEST_PATH_IMAGE052
代表
Figure DEST_PATH_IMAGE053
Figure 147927DEST_PATH_IMAGE054
的相似系数,
Figure DEST_PATH_IMAGE055
、 、 
Figure 2012103586699100001DEST_PATH_IMAGE057
和 
Figure 939614DEST_PATH_IMAGE049
表示有向网络中
Figure 730852DEST_PATH_IMAGE058
Figure 809667DEST_PATH_IMAGE054
出/入邻居节点和非邻居节点之间的平均相似性,
Figure 307644DEST_PATH_IMAGE060
表示无向网络
Figure 2012103586699100001DEST_PATH_IMAGE061
Figure 390876DEST_PATH_IMAGE054
的邻居节点和非邻居节点之间的平均相似性,表示
Figure 224020DEST_PATH_IMAGE058
Figure 638820DEST_PATH_IMAGE054
的序列相似系数:
在有向网络中
Figure DEST_PATH_IMAGE063
在无向网络中 
Figure 2012103586699100001DEST_PATH_IMAGE065
B3、归一化,具体公式为:
Figure 2012103586699100001DEST_PATH_IMAGE067
3.根据权利要求2所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,上述步骤B1中所述的计算生物分子ab在网络拓扑结构上的平均相似性,其具体方法为:
B11、在有向网络中,
Figure 394418DEST_PATH_IMAGE046
表示节点ab的入邻居(即有边从这些邻居节点指向ab)之间的平均相似性,
Figure 832352DEST_PATH_IMAGE047
表示节点ab的出邻居(即有边从ab指向这些邻居节点)之间的平均相似性,表示节点ab的非入邻居节点(指那些没有边进入ab的节点)之间的平均相似性,表示ab的非出邻居节点(指那些没有边从ab指向它的节点)之间的平均相似性;
表示进入节点a的边的条数,即a的入度,
Figure 2012103586699100001DEST_PATH_IMAGE069
表示从节点a引出的边的条数,即a的出度,
Figure 826536DEST_PATH_IMAGE070
表示存在一条从
Figure 2012103586699100001DEST_PATH_IMAGE071
a的边,
Figure 50844DEST_PATH_IMAGE072
表示从
Figure 423926DEST_PATH_IMAGE071
a不存在边,
Figure 2012103586699100001DEST_PATH_IMAGE073
表示存在一条从a
Figure 708276DEST_PATH_IMAGE071
的边,
Figure 183120DEST_PATH_IMAGE074
表示从a
Figure 211119DEST_PATH_IMAGE071
不存在边,
Figure DEST_PATH_IMAGE075
表示是图
Figure 395424DEST_PATH_IMAGE007
中的一个节点,
Figure 295247DEST_PATH_IMAGE076
表示
Figure DEST_PATH_IMAGE077
Figure 861357DEST_PATH_IMAGE078
中的一个节点,
Figure 2012103586699100001DEST_PATH_IMAGE079
表示
Figure 225342DEST_PATH_IMAGE080
的相似系数,
Figure 2012103586699100001DEST_PATH_IMAGE081
为图Gt的节点数,
Figure 585917DEST_PATH_IMAGE082
为图GB的节点数,上标k代表迭代次数,则
Figure DEST_PATH_IMAGE083
的数学定义如下:
Figure DEST_PATH_IMAGE085
Figure 2012103586699100001DEST_PATH_IMAGE089
Figure DEST_PATH_IMAGE091
B12、在无向网络中,
Figure 346937DEST_PATH_IMAGE092
表示节点ab的邻居节点(即这些节点和ab之间存在边)之间的平均相似性,
Figure DEST_PATH_IMAGE093
表示节点ab的非邻居节点(即这些节点和ab之间不存在边)之间的平均相似性,由
Figure 716738DEST_PATH_IMAGE094
表示节点a的边的度数,
Figure DEST_PATH_IMAGE095
表示
Figure 420383DEST_PATH_IMAGE071
a之间存在边,
Figure 217438DEST_PATH_IMAGE096
表示
Figure 826274DEST_PATH_IMAGE071
a之间不存在边,
Figure DEST_PATH_IMAGE097
表示
Figure 62083DEST_PATH_IMAGE071
中的一个节点,
Figure 40721DEST_PATH_IMAGE076
表示
Figure 136853DEST_PATH_IMAGE077
Figure 160041DEST_PATH_IMAGE008
中的一个节点,
Figure 25229DEST_PATH_IMAGE079
表示的相似系数,为图Gt的节点数,
Figure 59547DEST_PATH_IMAGE082
为图GB的节点数,上标k代表迭代次数,
Figure 354579DEST_PATH_IMAGE093
的数学定义如下:
Figure DEST_PATH_IMAGE101
4.根据权利要求1所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,上述步骤D中以邻居优先策略进行搜索并获得结果子网,其搜索基于步骤C中的专家知识字典,具体步骤如下:
D1、将目标子网T(Gt)中的生物分子分成两类,一类为K类,其中的生物分子是与具体问题相关的重要分子且存在于专家知识字典中;另一类为N类,包含了网络T(Gt)中除K类以外的其它生物分子;
D2、根据专家知识字典,在网络B(GB)中找到与K类生物分子具有最高相似度的生物分子,使它们配对;
D3、对N类生物分子根据邻居优先的策略进行搜索配对,直到全部配对完成,获得结果子网。
5.根据权利要求4所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,上述步骤D3中对N类生物分子根据邻居优先策略的搜索配对,将基于步骤B获得的相似矩阵进行,具体步骤如下:
D31、优先队列PQ根据节点对的相似系数维护节点对:对子网T(Gt)中的每个N类节点,都在网络B(GB)中找出与它最相似节点,并把这些节点对加入PQ
D32、在每一次搜索配对过程中,选择在优先队列中还没有匹配的节点中最匹配的节点对,将它们标记为“已匹配”;
D33、同时,对邻近的未匹配节点对,在其原有相似系数的基础上增加系数
Figure 238353DEST_PATH_IMAGE102
,从而增大它们被选择匹配的机会;
D34、这个搜索过程在子网T(Gt)中的所有节点都被匹配时结束。
6.根据权利要求1所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,上述步骤F1中所述的生成网络B(GB)的n个随机网络,这些随机网络中所有的节点都和网络B(GB)中的节点具有相同的连通性,只是随机网络中的边是随机形成的;即通过随机变换节点之间的连接,同时保持每个节点的度与原始图一致来构造随机网络;具体方法是:
F11、随机选择一对边A-B和C-D;
F12、将这两条边重新组合,使A-D相连且B-C相连;
F13、如果这些新形成的边在网络中已经有一条或几条存在,则终止这一步并重新选择一对新边进行变换;这样就可以防止两个相同的节点之间有多条边出现;
F14、重复F11-F13,形成一个与网络B(GB)对应的随机网络。
CN201210358669.9A 2012-09-25 2012-09-25 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法 Expired - Fee Related CN102902896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210358669.9A CN102902896B (zh) 2012-09-25 2012-09-25 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210358669.9A CN102902896B (zh) 2012-09-25 2012-09-25 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法

Publications (2)

Publication Number Publication Date
CN102902896A true CN102902896A (zh) 2013-01-30
CN102902896B CN102902896B (zh) 2016-02-17

Family

ID=47575124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210358669.9A Expired - Fee Related CN102902896B (zh) 2012-09-25 2012-09-25 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法

Country Status (1)

Country Link
CN (1) CN102902896B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
WO2016109948A1 (zh) * 2015-01-07 2016-07-14 华为技术有限公司 构建网络的方法和装置
CN107832583A (zh) * 2017-11-08 2018-03-23 武汉大学 一种基于图匹配的跨物种生物通路发现方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478426A (zh) * 2009-01-16 2009-07-08 中国人民解放军信息工程大学 网络拓扑模型生成方法和系统
CN102413029A (zh) * 2012-01-05 2012-04-11 西安电子科技大学 基于分解的局部搜索多目标复杂动态网络社区划分方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478426A (zh) * 2009-01-16 2009-07-08 中国人民解放军信息工程大学 网络拓扑模型生成方法和系统
CN102413029A (zh) * 2012-01-05 2012-04-11 西安电子科技大学 基于分解的局部搜索多目标复杂动态网络社区划分方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUAHAI HE ET AL.: "Closure-Tree:An Index Strucure for Graph Queries", 《PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON DATA ENGINEERING》, 7 April 2006 (2006-04-07), pages 1 - 8 *
李松倍: "生物分子网络的相似子网搜索算法研究及应用", 《万方学位论文库》, 21 August 2009 (2009-08-21), pages 7 - 44 *
李松倍等: "蛋白质相互作用网络的相似子网搜索应用问题研究", 《计算机工程与应用》, vol. 46, no. 3, 31 March 2010 (2010-03-31), pages 33 - 35 *
谢江: "蛋白质相互作用网络的数值研究", 《中国博士学位论文全文数据库基础科学辑》, no. 1, 15 January 2009 (2009-01-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016109948A1 (zh) * 2015-01-07 2016-07-14 华为技术有限公司 构建网络的方法和装置
CN104978498A (zh) * 2015-04-16 2015-10-14 上海大学 生物分子网络拓扑结构比对的自适应方法
CN107832583A (zh) * 2017-11-08 2018-03-23 武汉大学 一种基于图匹配的跨物种生物通路发现方法
CN107832583B (zh) * 2017-11-08 2021-04-16 武汉大学 一种基于图匹配的跨物种生物通路发现方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法

Also Published As

Publication number Publication date
CN102902896B (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
Gong et al. Complex network clustering by multiobjective discrete particle swarm optimization based on decomposition
Wu et al. K-means-based consensus clustering: A unified view
Niedermeier Reflections on multivariate algorithmics and problem parameterization
Mumtaz et al. An analysis on density based clustering of multi dimensional spatial data
Chen et al. Novel hybrid hierarchical-K-means clustering method (HK-means) for microarray analysis
Li et al. A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks
CN108009710A (zh) 基于相似度和TrustRank算法的节点测试重要度评估方法
Bortner et al. Progressive clustering of networks using structure-connected order of traversal
Wang et al. RSDNE: Exploring relaxed similarity and dissimilarity from completely-imbalanced labels for network embedding
Ribeiro et al. Efficient parallel subgraph counting using g-tries
Wu et al. Graph summarization for attributed graphs
Chen et al. Efficient and incremental clustering algorithms on star-schema heterogeneous graphs
CN102902896A (zh) 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法
Peng et al. A hierarchical particle swarm optimizer with latin sampling based memetic algorithm for numerical optimization
Yu et al. Unsupervised euclidean distance attack on network embedding
Li et al. COCLEP: Contrastive Learning-based Semi-Supervised Community Search
Ren et al. Structured optimal graph-based clustering with flexible embedding
CN106355091B (zh) 基于生物智能的传播源定位方法
Jabbour et al. Triangle-driven community detection in large graphs using propositional satisfiability
Feng et al. Exploring the heterogeneity for node importance byvon Neumann entropy
Liu et al. A link prediction algorithm for weighted networks based on dempster-shafer evidence theory and node multi-features
Tang et al. An efficient method based on label propagation for overlapping community detection
Liu et al. Community detection based on the $ l_\infty $ convergence of eigenvectors in DCBM
CN108764356A (zh) 基于引力相似度的图聚类方法
Fan et al. A Weighted cluster ensemble algorithm based on graph

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160217

Termination date: 20180925