CN112582027B - 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 - Google Patents

一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 Download PDF

Info

Publication number
CN112582027B
CN112582027B CN202011483549.2A CN202011483549A CN112582027B CN 112582027 B CN112582027 B CN 112582027B CN 202011483549 A CN202011483549 A CN 202011483549A CN 112582027 B CN112582027 B CN 112582027B
Authority
CN
China
Prior art keywords
node
similarity
network
matching
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011483549.2A
Other languages
English (en)
Other versions
CN112582027A (zh
Inventor
祝园园
陈瑶然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011483549.2A priority Critical patent/CN112582027B/zh
Publication of CN112582027A publication Critical patent/CN112582027A/zh
Application granted granted Critical
Publication of CN112582027B publication Critical patent/CN112582027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,本发明是为了解决采用传统的仅基于序列的方法发现的同源蛋白质假阳性的问题,和现有生物蛋白质信息网络比对算法无法很好平衡匹配结果的拓扑质量和生物功能质量问题。通过本发明可以将生物相似性、网络结构相似性、交互作用信息很好地融合,能够发现不同物种间的较多同源蛋白质对,从而对生物学研究蛋白质之间的同源关系、预测未知功能的蛋白质有指导意义。

Description

一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
技术领域
本发明属于图算法领域,尤其涉及跨物种生物蛋白质信息网络中的同源蛋白质检测方法。
背景技术
图论在生物系统建模中的应用是一个广阔的研究领域,包括基因组学和蛋白质组学。其中,一个重要方向为利用蛋白质-蛋白质相互作用网络(PPI)对细胞中蛋白质之间的相互作用的集合进行建模,通过比较不同物种的PPI网络,以揭示潜在生物学过程之间的相似性,挖掘物种之间的直系同源蛋白质。直系同源蛋白(orthologs)是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且通常具有相似的功能。有效挖掘发现不同物种之间的直系同源蛋白,可以帮助人类深刻理解蛋白质之间的同源关系,预测未知的蛋白质功能,对于基因学和医药学的发展具有重要的指导意义。
传统同源蛋白质预测方法往往是仅基于蛋白质的序列进行的,通常假定具有相似序列或相似结构的两种蛋白质具有相似的功能。但是,高序列相似性不一定表明功能保守。由于蛋白质的功能位点通常只是整个序列的一个或几个小部分,因此即使所有功能位点完全不同,两种蛋白质也可能具有非常高的整体序列相似性。仅基于序列的方法会导致预测的同源蛋白质存在很多假阳性。通过生物蛋白质信息网络比对方法,能利用网络结构信息补充仅基于序列的方法,以发现不同物种之间具有高相似度的蛋白质对,再根据生物化学方法验证它们是否是真正具有同源性,就比较有针对性和高效。PPI网络比对产生两个PPI网络节点之间的映射关系,实质上是图论中的子图同构问题,这是一个无法在多项式时间内解决的难题。随着生物蛋白质信息网络规模的扩大,匹配问题面临着更加艰巨的挑战。
蛋白质网络比对分为局部比对算法和全局比对算法两类。局部比对算法采用计算局部网络相似性来进行蛋白质网络匹配,例如PathBLAST、MaWISh、AlignNemo等,但通常会导致模棱两可的重叠对齐区域,一个物种的蛋白质网络子结构可能会匹配到另一个物种的蛋白质网络中的多个子结构,这可能会误导同源蛋白质对的确认。因此,更多的研究着眼于全局比对算法,例如IsoRank、L-GRAAL、GHOST、NETAL、MAGNA、SPINAL、HubAlign等。全局比对算法产生一对一的对齐,使得两个PPI网络中所有蛋白质节点都有各自的对应关系。但是现存的全局比对算法共有一个弊端,即匹配结果往往具有较好的拓扑质量,而具有较差的生物功能质量,导致同源蛋白质的预测结果并不理想。
发明内容
本发明针对现有技术的不足,提供一种基于生物蛋白质信息网络比对的同源蛋白质检测方法。
本发明的技术方案为一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,包含以下步骤:
步骤1、构建得分矩阵(score matrix construction)阶段,通过结合蛋白质交互(PPI)网络A和蛋白质交互(PPI)网络B各个节点对之间的生物相似性、拓扑相似性和交互作用信息构建一个初始的比对得分矩阵,具体是:首先结合蛋白质交互(PPI)网络A和蛋白质交互(PPI)网络B各个节点对之间的序列相似性和功能相似性得到生物相似性Sb,然后整合生物相似性和蛋白质节点的度和邻域信息构建了节点相似性矩阵S。交互作用得分I由网络拓扑结构而得,反映了节点匹配对交互作用的保守性的影响。融合节点相似性S和交互作用得分I可构建比对得分矩阵A。
步骤2、锚点选取(anchor selection)阶段,通过选择并匹配锚点以提高比对得分矩阵A的置信度,具体是:首先从Inparanoid数据库中下载比对物种之间的直系同源蛋白质对,并使用初始节点相似性过滤得到高质量的同源蛋白质对作为锚点并匹配,并将每一对锚点标记为已匹配节点,更新交互作用得分I和比对得分矩阵A,并删除它们在矩阵中的相关行及相关列,使得比对得分矩阵的置信度更高。
步骤3、比对构建(matching construction)阶段,步骤2通过匹配锚点使得比对得分矩阵的置信度A比较高,此时再通过贪心搜索的策略去在两个PPI网络中寻找全局匹配是一种比较有效的做法,具体是:根据更新的比对得分矩阵A,找出两个PPI网络中还未标记为已匹配的节点中比对得分最高的节点对并匹配,也标记为已匹配节点,按照步骤2同样的方式更新I和A。重复上述操作,不断迭代,直到较小网络中的所有节点都在较大网络中找到了一一对应的匹配点。
步骤4、利用步骤3生成的PPI网络A和PPI网络B的匹配结果,结合生物数据库挖掘两个物种间的直系同源蛋白质,具体是:首先在Inparanoid数据库中找到PPI网络A和PPI网络B中涉及到的所有同源蛋白质对,去除在步骤2结果中筛选作为锚点的蛋白质对,从步骤3生成的匹配结果可以挖掘到更多存在于Inparanoid数据库中的同源蛋白质对。因此,这个一对一的映射关系可以对未来直系同源物的生物学研究提供指导作用。另外,最终的匹配结果同时具有较高的拓扑质量和生物功能质量,解决了现有生物蛋白质信息网络比对算法无法很好平衡这两者的问题。
在上述的基于生物蛋白质信息网络比对的同源蛋白质检测方法,步骤1中通过结合PPI网络A和PPI网络B各对节点之间的生物相似性,拓扑相似性以及交互作用信息来构造一个比对得分矩阵,具体是:
步骤1.1、计算生物相似性Sb。为了计算序列相似性,首先通过BLAST计算出每一对PPI网络A中的节点u和PPI网络B中的节点v的序列分数bitscr(u,v)以及节点自身的序列分数bitscr(u,u)和bitscr(v,v),然后得到序列相似性
Figure BDA0002838317530000031
为了计算功能相似性,我们首先通过Schlicker算法从生物过程(BP)和分子功能(MF)两个方面计算出每一对PPI网络A中的节点u和PPI网络B中的节点v之间的基因本体(GO)相似性SBP(u,v)和SMF(u,v),然后利用最大BP相似性max(SBP)和最大MF相似性max(SMF)进行归一化得到功能相似性
Figure BDA0002838317530000032
通过一个参数α结合序列相似性和功能相似性计算u和v之间的生物相似性Sb(u,v)=α·Sseq(u,v)+(1-α)·Sfun(u,v)。
步骤1.2、整合生物相似性和蛋白质节点的度和邻域信息得到节点相似性S。假设N(u)和N(v)为u在G1中的邻居节点和v在G2中的邻居节点,则|N(u)|和|N(v)|为u和v的度,那么u和v之间的度相似性为
Figure BDA0002838317530000033
通过一个参数β结合生物相似性Sb和度相似性Sd可得初始的节点相似性S0(u,v)=(1-β)·Sb(u,v)+β·Sd(u,v)。再以迭代的方式进一步整合邻域相似信息,在第t+1次迭代时,为每对节点u和v基于邻域构建一个完全加权二分图Gs=(Vs,Es),其中,Vs包括节点u和v的所有邻居节点,Vs=N(u)∪N(v),Es是将所有u的邻居节点u′和v的邻居节点v′连接起来的边,Es={(u′,v′)u′∈N(u),v′∈N(v)}。对于Es中的每条边(u′,v′),使得该边的权重为w(u′,v′)=St(u′,v′),在构建完Gs之后,我们选择权重值最大的一条边(i,j)加入匹配集Ms,并从Gs中移除i和j以及与它们相关的边,重复此操作直至Es为空,最后得到了一个邻域匹配集Ms。对于匹配集Ms中的每一对匹配邻居节点(u′,v′),计算其节点相似性之和
Figure BDA0002838317530000041
并利用u和v的最大度max{|N(u)|,|N(v)|}对其进行归一化,得到邻域相似性,通过一个参数λ整合现在的节点相似性和邻域相似性更新节点相似性
Figure BDA0002838317530000042
步骤1.3、计算交互作用得分I。u和v之间的交互作用得分I(u,v),表示两个节点匹配的情况下,与其相连的保守边的数目的估计值。每个节点i对它的任一邻居节点的依赖值都为该节点度的倒数
Figure BDA0002838317530000043
因此,通过将节点邻居的所有依赖值相加来得出节点保守交互作用的预期数量的近似值,并用PPI网络A和PPI网络B中的最大度
Figure BDA0002838317530000044
进行归一化得到交互作用得分
Figure BDA0002838317530000045
步骤1.4、融合节点相似性S和交互作用得分I,构建比对得分矩阵A。通过一个参数γ融合节点相似性S和交互作用得分I,构建初始比对得分矩阵A(u,v)=γ·S(u,v)+(1-γ)·I(u,v)。
在上述的基于生物蛋白质信息网络比对的同源蛋白质检测方法,步骤2中,筛选锚点,并通过匹配锚点提高比对得分的置信度,具体是:
步骤2.1、首先在Inparanoid数据库中下载跨物种的直系同源蛋白质对,然后筛选出S0(u,v)>δ的同源蛋白质对作为锚点,其中,δ是一个阈值。
步骤2.2、然后匹配每一对锚点,并更新交互作用得分I和比对得分A。用交互作用得分增量矩阵ID和交互作用得分减量矩阵IC来记录每匹配一对节点,交互作用得分I的更新。交互作用得分增量ID(u,v)表示匹配节点u和v后,确定的保守交互作用数目。假设(i,j)是一对已经匹配的节点,在第k+1步,考虑匹配锚点u和v:若u是i的邻居节点,v是j的邻居节点,匹配u和v会增加一条确定的保守交互作用,第k+1步的交互作用得分增量IDk+1(u,v)在第k步IDk(u,v)的基础上加1,IDk+1(u,v)=IDk(u,v)+1;若u不是i的邻居节点,或者v不是j的邻居节点,确定的保守交互作用数目不变,IDk+1(u,v)保持不变,IDk+1(u,v)=IDk(u,v)。但是如果将节点i和另一网络中的j匹配后,应该将i的依赖值从i的所有邻居节点的交互作用得分中减去,同理,节点j也应如此。交互作用得分减量矩阵IC1(u)和IC2(v)分别表示在PPI网络A中的节点u和PPI网络B中的节点v的交互作用得分中需要减去的依赖值。假设在k+1步,确定匹配的节点对为(i,j),则:若u是i的邻居节点,应该减去节点i的依赖值对其邻居u的影响,第k+1步的交互作用得分减量
Figure BDA0002838317530000051
在第k步的
Figure BDA0002838317530000052
基础上加上节点i的依赖值
Figure BDA0002838317530000053
否则,
Figure BDA0002838317530000054
保持不变,
Figure BDA0002838317530000055
IC2同理。基于ID和IC更新交互作用得分
Figure BDA0002838317530000056
其中,
Figure BDA0002838317530000057
Figure BDA0002838317530000058
e1(u)和e2(u)分别表示u和v去除交互作用得分减量后的邻域依赖值之和。然后基于参数γ更新比对得分矩阵A(u,v)=γ·S(u,v)+(1-γ)·I(u,v)。
在上述的基于生物蛋白质信息网络比对的同源蛋白质检测方法,步骤3中,基于比对得分矩阵,构建匹配结果,具体是:
步骤3.1、在步骤2中,已经匹配了所有的锚点对。对于剩余的PPI网络A和PPI网络B中未匹配的节点,采用贪心算法构建匹配。基于更新的比对得分矩阵A,每次选取比对得分最高的一对节点,标记这对节点为已匹配,根据这对匹配节点的信息,按照步骤2.2的描述更新交互作用得分I和比对得分A。
步骤3.2、重复步骤3.1的过程,不断迭代,直到较小网络中的所有节点都在较大网络中找到了一一对应的匹配点,得到了最终的比对结果。
在上述的基于生物蛋白质信息网络比对的同源蛋白质检测方法,步骤4中,利用生成的PPI网络A和PPI网络B的匹配结果,结合生物数据库挖掘两个物种间的直系同源蛋白质,具体是:
步骤4.1、在Inparanoid数据库中检索PPI网络A和PPI网络B中涉及到的所有同源蛋白质对,去除在步骤2的结果中匹配的锚点对,用以验证最终匹配结果中蛋白质节点对之间的同源性。
步骤4.2、生成的匹配结果同时具有高拓扑质量和生物功能质量,最终匹配的节点对预测蛋白质之间的同源性具有指导作用,在匹配结果的基础上再进行生物化学验证更具有针对性和高效。
本发明具有以下优点:生物蛋白质信息网络比对很好地融合了生物学信息和网络拓扑信息,能够产生同时具有较高拓扑质量和生物功能质量的匹配结果,从而更有效地发现不同物种之间的直系同源蛋白质对。
附图说明
图1是本发明实施例的基于生物蛋白质信息网络比对的同源蛋白质检测方法流程图。
图2是本发明实施例的样本图数据。
图3是本发明实施例在样本图发现的被Inparanoid证实的同源蛋白质对。
具体实施方式
本发明主要基于一种新提出的生物蛋白质信息网络比对算法,找到不同物种蛋白质交互网络之间的节点匹配关系,根据匹配结果在Inparanoid数据库中进行查询,找到物种间的同源蛋白质对。通过本发明,我们提供了一种新的检测不同物种之间的同源蛋白质对的方法,比传统的方法更有效,且该算法与现有PPI网络比对算法相比,能够更好地平衡匹配结果的拓扑质量和生物功能质量。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以酵母菌(yeast,生物代号SCerevisiae)的蛋白质交互网络(PPI网络)和人类(human,生物代号HSapiens)的蛋白质交互网络(PPI网络)为例,样本图的属性信息参见图2,对本发明的流程进行一个具体的阐述,如下:
步骤1:首先我们通过计算融合序列相似性和功能相似性得到酵母菌和人类蛋白质节点的生物相似性,然后再整合生物相似性和蛋白质节点的度和邻域信息构建了酵母菌和人类的节点相似性矩阵。然后由网络拓扑信息得到两者初始的交互作用得分,融合节点相似性和交互作用得分产生酵母菌和人类的PPI网络中所有节点间的比对得分。
实施例中构建比对得分矩阵的具体实施过程如下:
首先,计算酵母菌蛋白质节点和人类蛋白质节点的序列相似性Sseq和功能相似性Sfun,并融合为生物相似性Sb。计算序列相似性的方法为:通过BLAST计算出所有酵母菌PPI网络中的节点u和人类PPI网络中的节点v之间的序列分数bitscr(u,v),以及节点本身的序列分数bitscr(u,u)和bitscr(v,v),然后根据发明内容提到的
Figure BDA0002838317530000071
计算式计算得到。计算功能相似性的方法为:通过Schlicker算法从生物过程(BP)和分子功能(MF)两个方面计算出所有酵母菌PPI网络中的节点u和人类PPI网络中的节点v之间的基因本体(GO)相似性SBP(u,v)和SMF(u,v),然后根据发明内容提到的
Figure BDA0002838317530000072
计算式计算得到。融合序列相似性和功能相似性为生物相似性Sb的方法为:Sb(u,v)=α·Sseq(u,v)+(1-α)·Sfun(u,v),其中,α的值在[0,1]之间可调节,这里选取为0.5。
然后,整合生物相似性和蛋白质节点的度和邻域信息得到节点相似性S。计算度相似性的方法为:计算得到酵母菌PPI网络中的u和人类PPI网络中的v的邻居节点分别为N(u)和N(v),它们的度分别为|N(u)|和|N(v)|,然后由
Figure BDA0002838317530000073
计算得到。融合生物相似性和度相似性为初始节点相似性的方法为:S0(u,v)=(1-β)·Sb(u,v)+β·Sd(u,v),其中,β的值在[0,1]之间可调节,这里选取为0.02。再以迭代的方式进一步整合邻域相似信息的方法为:在第t+1次迭代时,为每对节点u和v基于邻域构建一个完全加权二分图Gs=(Vs,Es),其中Vs=N(u)∪N(v),Es={(u′,v′)|u′∈N(u),v′∈N(v)},对于Es中的每条边(u′,v′),使得该边的权重为w(u′,v′)=St(u′,v′),在构建完Gs之后,我们选择权重值最大的一条边(i,j)加入匹配集Ms,并从Gs中移除i和j以及与它们相关的边,重复此操作直至Es为空,最后得到了一个邻域匹配集Ms,整合现在的节点相似性和邻域相似性更新节点相似性
Figure BDA0002838317530000074
其中,λ的值在[0,1]之间可调节,这里选取为0.1,t为迭代次数,这里选取为2。
其次,计算交互作用得分I。计算交互作用得分的方法为:计算得到酵母菌PPI网络中u的邻居节点u′的依赖值
Figure BDA0002838317530000075
和人类PPI网络中v的邻居节点v′的依赖值
Figure BDA0002838317530000076
然后根据发明内容中提到的公式
Figure BDA0002838317530000081
计算得到。
最终,融合节点相似性S和交互作用得分I得到酵母菌PPI网络和人类PPI网络的比对得分矩阵A。融合节点相似性S和交互作用得分I构建比对得分矩阵的方法为:A(u,v)=γ·S(u,v)+(1-γ)·I(u,v),其中,γ的值在[0,1]之间可调节,这里选取为0.001。
步骤2:在直系同源蛋白质对中根据初始节点相似性筛选出锚点,匹配锚点对,更新交互作用得分I和比对得分矩阵A,提高比对得分矩阵的置信度。
实施例中筛选锚点,更新交互作用得分和比对得分的具体实施过程如下:
首先,筛选锚点。在Inparanoid数据库中下载所有的酵母菌和人类的直系同源蛋白质对,然后筛选出S0(u,v)>δ的同源蛋白质对作为锚点,其中,δ是一个值在[0,1]之间的阈值,这里选取为0.7。
然后,根据匹配锚点更新交互作用得分I。更新交互作用得分的方法为:用交互作用得分增量矩阵ID和交互作用得分减量矩阵IC来记录更新。假设(i,j)是一对已经匹配的节点,在第k+1步,考虑匹配锚点u和v:若u是i的邻居节点,v是j的邻居节点,IDk+1(i,j)=IDk(i,j)+1;若u不是i的邻居节点,或者v不是j的邻居节点,IDk+1(i,j)=IDk(i,j)。假设在第k+1步,确定匹配的节点对为(i,j),则:若u是i的邻居节点,
Figure BDA0002838317530000082
否则,
Figure BDA0002838317530000083
IC2同理。基于ID和IC更新交互作用得分
Figure BDA0002838317530000084
其中,
Figure BDA0002838317530000085
最终,更新比对得分矩阵A。更新比对得分的方法为:A(u,v)=γ·S(u,v)+(1-γ)·I(u,v),其中,γ的值在[0,1]之间可调节,这里选取为0.001。
步骤3:通过贪心搜索的策略构建全局匹配。根据比对得分矩阵A,找出酵母菌和人类PPI网络中未匹配节点中比对得分最高的节点对并匹配,按照步骤2的方式更新I和A。重复上述操作,不断迭代,直到酵母菌PPI网络中的所有节点都在人类PPI网络中找到了一一对应的匹配点。
步骤4:在Inparanoid数据库中查询酵母菌PPI网络和人类PPI网络中涉及到的所有同源蛋白质对(orthologs),除去作为锚点的部分,然后根据最终匹配查询发现的同源蛋白质对。图3给出了匹配结果中发现的被Inparanoid数据库证实的同源蛋白质对,该算法在酵母菌和人类PPI网络中找到14对同源蛋白质。该结果说明本发明提出的生物蛋白质信息网络比对算法可以有效地发现人类和酵母菌中的同源蛋白质对,该结果对预测未知功能蛋白具有指导意义。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,其特征在于,包含以下步骤:
步骤1、构建得分矩阵阶段,通过结合蛋白质交互(PPI)网络A和蛋白质交互(PPI)网络B各个节点对之间的生物相似性、拓扑相似性和交互作用信息构建一个初始的比对得分矩阵,具体是:首先结合蛋白质交互(PPI)网络A和蛋白质交互(PPI)网络B各个节点对之间的序列相似性和功能相似性得到生物相似性Sb,然后整合生物相似性和蛋白质节点的度和邻域信息构建了节点相似性矩阵S;交互作用得分I由网络拓扑结构而得,反映了节点匹配对交互作用的保守性的影响;融合节点相似性S和交互作用得分I可构建比对得分矩阵A;
步骤2、锚点选取阶段,通过选择并匹配锚点以提高比对得分矩阵A的置信度,具体是:首先从Inparanoid数据库中下载比对物种之间的直系同源蛋白质对,并使用初始节点相似性过滤得到高质量的同源蛋白质对作为锚点并匹配,并将每一对锚点标记为已匹配节点,更新交互作用得分I和比对得分矩阵A,并删除它们在矩阵中的相关行及相关列,使得比对得分矩阵的置信度更高;
步骤3、比对构建阶段,步骤2通过匹配锚点使得比对得分矩阵A的置信度比较高,此时再通过贪心搜索策略在两个PPI网络中寻找全局匹配,具体是:根据更新的比对得分矩阵A,找出两个PPI网络中还未标记为已匹配的节点中比对得分最高的节点对并匹配,也标记为已匹配节点,按照步骤2同样的方式更新I和A;重复上述操作,不断迭代,直到较小网络中的所有节点都在较大网络中找到了一一对应的匹配点;
步骤4、利用步骤3生成的PPI网络A和PPI网络B的匹配结果,结合生物数据库挖掘两个物种间的直系同源蛋白质,具体是:首先在Inparanoid数据库中找到PPI网络A和PPI网络B中涉及到的所有同源蛋白质对,去除在步骤2结果中筛选作为锚点的蛋白质对,从步骤3生成的匹配结果可以挖掘到更多存在于Inparanoid数据库中的同源蛋白质对。
2.根据权利要求1所述的一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,其特征在于:
步骤1中通过结合PPI网络A和PPI网络B各对节点之间的生物相似性,拓扑相似性以及交互作用信息来构造一个比对得分矩阵A,具体是:
步骤1.1、计算生物相似性Sb;为了计算序列相似性,首先通过BLAST计算出每一对PPI网络A中的节点u和PPI网络B中的节点v的序列分数bitscr(u,v)以及节点自身的序列分数bitscr(u,u)和bitscr(v,v),然后得到序列相似性
Figure FDA0003559112170000021
为了计算功能相似性,首先通过Schlicker算法从生物过程和分子功能两个方面计算出每一对PPI网络A中的节点u和PPI网络B中的节点v之间的基因本体相似性SBP(u,v)和SMF(u,v),然后利用最大BP相似性max(SBP)和最大MF相似性max(SMF)进行归一化得到功能相似性
Figure FDA0003559112170000022
通过一个参数α结合序列相似性和功能相似性计算u和v之间的生物相似性Sb(u,v)=α·Sseq(u,v)+(1-α)·Sfun(u,v);
步骤1.2、整合生物相似性和蛋白质节点的度和邻域信息得到节点相似性S;假设N(u)和N(v)为u在G1中的邻居节点和v在G2中的邻居节点,则|N(u)和|N(v)|为u和v的度,那么u和v之间的度相似性为
Figure FDA0003559112170000023
通过一个参数β结合生物相似性Sb和度相似性Sd可得初始的节点相似性S0(u,v)=(1-β)·Sb(u,v)+β·Sd(u,v);再以迭代的方式进一步整合邻域相似信息,在第t+1次迭代时,为每对节点u和v基于邻域构建一个完全加权二分图Gs=(Vs,Es),其中,Vs包括节点u和v的所有邻居节点,Vs=N(u)∪N(v),Es是将所有u的邻居节点u′和v的邻居节点v′连接起来的边,Es={(u′,v′)u′∈N(u),v′∈N(v)};对于Es中的每条边(u′,v′),使得该边的权重为w(u′,v′)=St(u′,v′),在构建完Gs之后,选择权重值最大的一条边(i,j)加入匹配集Ms,并从Gs中移除i和j以及与它们相关的边,重复此操作直至Es为空,最后得到了一个邻域匹配集Ms;对于匹配集Ms中的每一对匹配邻居节点(u′,v′),计算其节点相似性之和
Figure FDA0003559112170000024
并利用u和v的最大度max{N(u)|,|N(v)|}对其进行归一化,得到邻域相似性,通过一个参数λ整合现在的节点相似性和邻域相似性更新节点相似性
Figure FDA0003559112170000025
步骤1.3、计算交互作用得分I;u和v之间的交互作用得分I(u,v),表示两个节点匹配的情况下,与其相连的保守边的数目的估计值;每个节点i对它的任一邻居节点的依赖值都为该节点度的倒数
Figure FDA0003559112170000031
因此,通过将节点邻居的所有依赖值相加来得出节点保守交互作用的预期数量的近似值,并用PPI网络A和PPI网络B中的最大度
Figure FDA0003559112170000032
进行归一化得到交互作用得分
Figure FDA0003559112170000033
步骤1.4、融合节点相似性S和交互作用得分I,构建比对得分矩阵A;通过一个参数γ融合节点相似性S和交互作用得分I,构建初始比对得分矩阵A(u,v)=γ·S(u,v)+(1-γ)·I(u,v)。
3.根据权利要求1所述的一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,其特征在于:
步骤2中,筛选锚点,并通过匹配锚点提高比对得分矩阵的置信度,具体是:
步骤2.1、首先在Inparanoid数据库中下载跨物种的直系同源蛋白质对,然后筛选出S0(u,v)>δ的同源蛋白质对作为锚点,其中,δ是一个阈值;
步骤2.2、然后匹配每一对锚点,并更新交互作用得分I和比对得分A;用交互作用得分增量矩阵ID和交互作用得分减量矩阵IC来记录每匹配一对节点,交互作用得分I的更新;交互作用得分增量ID(u,v)表示匹配节点u和v后,确定的保守交互作用数目;假设(i,j)是一对已经匹配的节点,在第k+1步,考虑匹配锚点u和v:若u是i的邻居节点,v是j的邻居节点,匹配u和v会增加一条确定的保守交互作用,第k+1步的交互作用得分增量IDk+1(u,v)在第k步IDk(u,v)的基础上加1,IDk+1(u,v)=IDk(u,v)+1;若u不是i的邻居节点,或者v不是j的邻居节点,确定的保守交互作用数目不变,IDk+1(u,v)保持不变,IDk+1(u,v)=IDk(u,v);但是如果将节点i和另一网络中的j匹配后,将i的依赖值从i的所有邻居节点的交互作用得分中减去,同理,节点j也如此;交互作用得分减量矩阵IC1(u)和IC2(v)分别表示在PPI网络A中的节点u和PPI网络B中的节点v的交互作用得分中需要减去的依赖值;假设在k+1步,确定匹配的节点对为(i,j),则:若u是i的邻居节点,减去节点i的依赖值对其邻居u的影响,第k+1步的交互作用得分减量
Figure FDA0003559112170000041
在第k步的
Figure FDA0003559112170000042
基础上加上节点i的依赖值
Figure FDA0003559112170000043
Figure FDA0003559112170000044
否则,
Figure FDA0003559112170000045
保持不变,
Figure FDA0003559112170000046
IC2同理;基于ID和IC更新交互作用得分
Figure FDA0003559112170000047
其中,
Figure FDA0003559112170000048
Figure FDA0003559112170000049
e1(u)和e2(u)分别表示u和v去除交互作用得分减量后的邻域依赖值之和;然后基于参数γ更新比对得分矩阵A(u,v)=γ·S(u,v)+(1-γ)·I(u,v)。
4.根据权利要求1所述的一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,其特征在于:
步骤3中,基于比对得分矩阵A,构建匹配结果,具体是:
步骤3.1、在步骤2中,已经匹配了所有的锚点对;对于剩余的PPI网络A和PPI网络B中未匹配的节点,采用贪心算法构建匹配;基于更新的比对得分矩阵A,每次选取比对得分最高的一对节点,标记这对节点为已匹配,根据这对匹配节点的信息,按照步骤2.2的描述更新交互作用得分I和比对得分A;
步骤3.2、重复步骤3.1的过程,不断迭代,直到较小网络中的所有节点都在较大网络中找到了一一对应的匹配点,得到了最终的比对结果。
5.根据权利要求1所述的一种基于生物蛋白质信息网络比对的同源蛋白质检测方法,其特征在于:
步骤4中,利用生成的PPI网络A和PPI网络B的匹配结果,结合生物数据库挖掘两个物种间的直系同源蛋白质,具体是:
步骤4.1、在Inparanoid数据库中检索PPI网络A和PPI网络B中涉及到的所有同源蛋白质对,去除在步骤2的结果中匹配的锚点对,用以验证最终匹配结果中蛋白质节点对之间的同源性;
步骤4.2、生成的匹配结果同时具有高拓扑质量和生物功能质量,最终匹配的节点对预测蛋白质之间的同源性具有指导作用,在匹配结果的基础上再进行生物化学验证更具有针对性和高效。
CN202011483549.2A 2020-12-15 2020-12-15 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法 Active CN112582027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483549.2A CN112582027B (zh) 2020-12-15 2020-12-15 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483549.2A CN112582027B (zh) 2020-12-15 2020-12-15 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法

Publications (2)

Publication Number Publication Date
CN112582027A CN112582027A (zh) 2021-03-30
CN112582027B true CN112582027B (zh) 2022-04-29

Family

ID=75135371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483549.2A Active CN112582027B (zh) 2020-12-15 2020-12-15 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法

Country Status (1)

Country Link
CN (1) CN112582027B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066524B (zh) * 2021-05-19 2022-12-20 江南大学 基于模拟退火的多蛋白质相互作用网络比对方法
CN113450872B (zh) * 2021-07-02 2022-12-02 南昌大学 磷酸化位点特异激酶的预测方法
CN114974400B (zh) * 2022-03-29 2023-06-16 江南大学 一种全局生物网络比对方法
CN115497555B (zh) * 2022-08-16 2024-01-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372458A (zh) * 2016-08-31 2017-02-01 中南大学 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法
CN107832583A (zh) * 2017-11-08 2018-03-23 武汉大学 一种基于图匹配的跨物种生物通路发现方法
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372458A (zh) * 2016-08-31 2017-02-01 中南大学 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法
CN107832583A (zh) * 2017-11-08 2018-03-23 武汉大学 一种基于图匹配的跨物种生物通路发现方法
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法
CN109767809A (zh) * 2019-01-16 2019-05-17 中南大学 蛋白质相互作用网络的对齐方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Protein-protein interaction based on pairwise similarity;Nazar Zaki 等;《BMC Bioinformatics》;20090517;全文 *
基于模糊谱聚类的不确定蛋白质相互作用网络功能模块挖掘;毛伊敏 等;《计算机应用》;20190410;第1032-1040页 *

Also Published As

Publication number Publication date
CN112582027A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112582027B (zh) 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
Deng et al. Prediction of protein function using protein-protein interaction data
CN110517729B (zh) 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
CN109801674B (zh) 一种基于异构生物网络融合的关键蛋白质识别方法
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN111145830A (zh) 基于网络传播的蛋白质功能预测方法
CN111599406A (zh) 结合网络聚类方法的全局多网络比对方法
CN107832583B (zh) 一种基于图匹配的跨物种生物通路发现方法
CN111128301A (zh) 一种基于模糊聚类的重叠蛋白质复合物识别方法
Wu et al. Accurate prediction of protein relative solvent accessibility using a balanced model
CN115188412A (zh) 基于Transformer和图神经网络的药物预测算法
CN109215733B (zh) 一种基于残基接触信息辅助评价的蛋白质结构预测方法
CN112270950B (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN114765063A (zh) 基于图神经网络表征的蛋白质与核酸结合位点预测方法
Cavattoni et al. Classgraph: improving metagenomic read classification with overlap graphs
CN111177190A (zh) 数据处理方法、装置、电子设备及可读存储介质
Wang et al. LPLSG: Prediction of lncRNA-protein Interaction Based on Local Network Structure
Yu et al. A method based on local density and random walks for complexes detection in protein interaction networks
Bienkowska et al. Protein fold recognition by total alignment probability
CN112446492B (zh) 基于遗传算法的生物网络比对方法
Wang et al. Inferring protein-protein interactions using a hybrid genetic algorithm/support vector machine method
CN112885405A (zh) 疾病关联miRNA的预测方法和系统
CN110430077B (zh) 基于网络结构特征的匿名路由器识别方法
Liu et al. Prediction of protein-protein interactions related to protein complexes based on protein interaction networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant