CN110517729A - 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法 - Google Patents

一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法 Download PDF

Info

Publication number
CN110517729A
CN110517729A CN201910821860.4A CN201910821860A CN110517729A CN 110517729 A CN110517729 A CN 110517729A CN 201910821860 A CN201910821860 A CN 201910821860A CN 110517729 A CN110517729 A CN 110517729A
Authority
CN
China
Prior art keywords
protein
dynamic
weight
complex
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910821860.4A
Other languages
English (en)
Other versions
CN110517729B (zh
Inventor
刘桂霞
赵贺
王荣全
宋佳智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910821860.4A priority Critical patent/CN110517729B/zh
Publication of CN110517729A publication Critical patent/CN110517729A/zh
Application granted granted Critical
Publication of CN110517729B publication Critical patent/CN110517729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,包括:步骤一、构建具有权重的动态蛋白质相互作用网络和具有权重的静态蛋白质相互作用网络;步骤二、在具有权重的动态蛋白质相互作用网络和具有权重的静态蛋变质相互作用网络中,识别蛋白质复合物的核;步骤三、根据蛋白质复合物的核,在在具有权重的动态蛋白质相互作用网络和具有权重的静态蛋变质相互作用网络中,基于启发式搜索算法构建蛋白质复合物;步骤四、根据社区模型分数给蛋白质复合物进行打分,舍弃低于平均分的蛋白质复合物,进而得到高于平均分的蛋白质复合物;步骤五、在高于平均分的蛋白质复合物中,分别两两计算相似性,得到最终挖掘出的蛋白质复合物。

Description

一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物 的方法
技术领域
本发明涉及蛋白质复合物识别的技术领域,具体涉及一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法。
背景技术
基于静态蛋白质相互作用网络(静态PPI网络)识别蛋白质复合物的方法主要分为三类:第一类方法基于种子节点的筛选和扩张搜寻PPI网络中的稠密子图来识别蛋白质复合物,但是其时间复杂度很高而且准确率很低。第二类方法基于核附属结构识别蛋白质复合物,如Wu等人COACH算法。该算法分为两步,首先基于稠密度挖掘蛋白质复合物,然后将挖掘到的蛋白质复合物与附属蛋白结合,形成最后识别的蛋白质复合物。第三类方法是基于模型的聚类算法,如ClusterONE算法,他为PPI网络定义一个内聚性模型,以此预测重叠的蛋白质复合物。
为了过滤PPI网络中假阳性和假阴性相互作用边,科学家们提出了许多方法使挖掘到的蛋白质复合物更加准确。有的方法利用拓扑结构属性为相互作用边打分,以此衡量这些边的可靠性;还有一些方法融合若干生物信息,比如GO注释信息,基因表达数据,亚细胞定位数据等等,来提高蛋白质复合物预测的精确度。但是这些方法都是基于静态PPI网络,事实上,PPI网络中的相互作用关系是动态的而不是静态的。
目前,已有大量基于动态蛋白质相互作用网络(动态PPI网络)识别蛋白质复合物的方法被提出,这些方法大多融合了PPI拓扑结构信息和若干生物信息。比如Li等人通过结合基因表达数据和亚细胞定位数据,构建了一个在时间和空间上活跃的PPI网络,基于这个网络识别蛋白质复合物。
最后,总结蛋白质复合物识别方法需要考虑以下几个方面;(1)识别出精确度较高并且生物学意义显著的蛋白质复合物。(2)模型的假设更符合真实蛋白质复合物。(3)识别重叠蛋白质复合物的能力。(4)对PPI网络中的噪声具有较强适应性。(5)充分融合PPI网络和蛋白质复合物的拓扑信息和生物学信息。(6)参数尽可能少,最好没有。目前迫切需要一种新的算法同时满足以上所有要求。
发明内容
本发明设计开发了一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,本发明的发明目的是通过该方法可以识别出精确度较高并且生物学意义显著的蛋白质复合物,同时模型的假设更符合真实蛋白质复合物,识别重叠蛋白质复合物的能力较高,对PPI网络中的噪声具有较强适应性;充分融合PPI网络和蛋白质复合物的拓扑信息和生物学信息,并且没有任何参数。
本发明提供的技术方案为:
一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,包括如下步骤:
步骤一、构建具有权重的动态蛋白质相互作用网络和具有权重的静态蛋白质相互作用网络;
步骤二、在所述具有权重的动态蛋白质相互作用网络和所述具有权重的静态蛋变质相互作用网络中,识别蛋白质复合物的核;
步骤三、根据所述蛋白质复合物的核,在在所述具有权重的动态蛋白质相互作用网络和所述具有权重的静态蛋变质相互作用网络中,基于启发式搜索算法构建蛋白质复合物;
步骤四、根据社区模型分数给所述蛋白质复合物进行打分,舍弃低于平均分的蛋白质复合物,进而得到高于平均分的蛋白质复合物;
步骤五、在所述高于平均分的蛋白质复合物中,分别两两计算相似性,根据所述相似性判断当两个蛋白质复合物高度重叠时,舍弃其中分数低的蛋白质复合物,进而得到最终挖掘出的蛋白质复合物。
优选的是,在所述步骤一中通过融合GO-slim数据、网络拓扑结构和基因共表达数据构建具有权重的动态蛋白质相互作用网络,包括如下步骤:
步骤1、构建动态蛋白质相互作用网络为DPG={DPG1,DPG2,...,DPGn},其中n=12;
其中,DPGi=(Vi,Ei,APVi,APEi),i=1~n;
式中,APVi:Vi→[0,1]表示每个蛋白在特定时间点i下活跃的概率,APEi:Ei→[0,1],APEi(v,u)=Vi(v)×Vi(u)表示蛋白质v和蛋白质u在时间点i下存在相互作用边的可能性;
步骤2、对所述动态蛋白质相互作用网络DPG={DPG1,DPG2,...,DPGn},在时间点i下,计算蛋白质v和蛋白质u交互的权重为
其中,
式中,GOv为蛋白质v的GO-slim,GOu为蛋白质u的GO-slim,|GOv∩GOu|为蛋白质v和蛋白质u公共GO-slims的个数,Avg(GO)为所有蛋白质GO-slims的平均数;
步骤3、在所述动态蛋白质相互作用网络DPG={DPG1,DPG2,...,DPGn}中去掉所述蛋白质对的权重是0和邻居数量不大于2的蛋白质,进而得到具有权重的动态蛋白质相互作用网络。
优选的是,在所述步骤一中通过融合GO-slim数据和网络拓扑结构构建具有权重的静态蛋白质相互作用网络,包括如下步骤:
步骤1、构建静态蛋白质相互作用网络为G=(V,E,W);
式中,V为蛋白质的集合,E为蛋白质对的集合,W为蛋白质对的可靠性;
步骤2、计算蛋白质对交互的权重为
其中,
式中,GOv为蛋白质v的GO-slim,GOu为蛋白质u的GO-slim,|GOv∩GOu为蛋白质v和蛋白质u公共GO-slims的个数,Avg(GO)为所有蛋白质GO-slims的平均数。
优选的是,APVi取值为0.9973、0.9545、0.6827和0。
优选的是,与基因g相对应的蛋白质在特定时间点i下活跃的概率APi(g)的计算过程为:
其中,
式中,Gei(g)为基因g在特定时间点i下的表达值(Ge(i)),Avg(g)为表达值在时间点1到n上的算数平均数,σ(g)为表达值的在时间点1到n上的标准差,k为sigma倍数,k∈[0,3],i∈[1,12]。
优选的是,在所述步骤二中,识别蛋白质复合物的核包括如下步骤:
步骤1、分别在每个动态蛋白质相互作用网络和静态蛋白质相互作用网络中确定蛋白质v的邻居子图G'(v)=(V',E',W');
步骤2、在所述邻居子图G'(v)=(V',E',W')中的蛋白质u,如果degweight(u)≥Avdegweight(G'(v)),则把蛋白质u加入到集合initial_clusterv中,否则加入到集合left_proteins中;
步骤3、在所述集合left_proteins中的蛋白质w,如果|Nw∩initail_clusterv|≥2且将蛋白质w加入到集合initial_clusterv中,得到所述蛋白质复合物的核;
其中,V'=Nv
优选的是,在所述步骤三中,构建蛋白质复合物包括如下步骤:
步骤1、将所有的所述蛋白质复合物的核记为簇C=(VC,EC,WC),确定其邻居集合Neighbor(C);
步骤2、从所述邻居集合Neighbor(C)中挑选蛋白质u使得close_function(u,C)取最大值,如果Score(C+{u})>Score(C),则将蛋白质u加入簇C中,并将其从所述邻居集合Neighbor(C)中删除,直到所述邻居集合Neighbor(C)为空或者所述簇C中加入使得close_function(u,C)取最大值的蛋白质u不再使Score(C)增加;以及从集合Boundary_node(C)中挑选蛋白质v使得close_function(v,C)取最小值,如果Score(C-{v})>Score(C)且|C|>2,则将蛋白质v从簇C和Boundary_node(C)中删除,直到集合Boundary_node(C)为空或者Boundary_node(C)中删除使得close_function(v,C)取最小值的蛋白质v不再使Score(C)减小;
直到所述簇C不再发生变化,得到所述蛋白质复合物;
其中,
式中,W(u,v)为蛋白质v和蛋白质u相互作用边的权重,win(C)为簇C中所有蛋白质相互作用边的权重的平均值,wbound(C)为簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值,Boundary_node(C)为簇C的内边界节点的集合,close_function(u,C)为候蛋白质u和簇C的关系。
优选的是,在所述步骤四中,计算识别出的所有蛋白质复合物的社区模型得分Score(C),将所有低于平均分的蛋白质复合物舍弃,
对所述蛋白质复合物通过如下方式进行打分:
式中,win(C)为簇C中所有蛋白质相互作用边的权重的平均值,wbound(C)为簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值。
优选的是,在所述步骤五中,对于剩下得分较高的蛋白质复合物,两两计算其相似性,如果OS(PCi,PCj)≥α,说明两个蛋白质复合物高度重叠,此时舍弃社区模型得分较低的一个,得到的结果为最终识别出的全部蛋白质复合物;
其中,所述相似性计算公式为:
式中,是蛋白质复合物PCi中所有蛋白质的集合,是蛋白质复合物PCj中所有蛋白质的集合。
优选的是,α=0.8。
本发明与现有技术相比较所具有的有益效果:本发明针对当前方法精度偏低,容忍PPI网络中的噪声能力较弱,模型的假设不符合实际蛋白质复合物的问题,参数偏多提出了一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法,从而体高精度,增强容忍PPI网络中的噪声能力,使模型的假设更符合实际蛋白质复合物,而且没有任何参数;针对当前方法存在识别重叠蛋白质复合物的能力较弱的问题,提出当OS(PCi,PCj)≥0.8舍弃社区模型得分较低的一个;针对当前方法没有融合蛋白质复合物的拓扑信息和生物学信息,提出为蛋白质复合物打分时融合蛋白质复合物的拓扑信息和生物学信息。
附图说明
图1为本发明所述的一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供了一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法,具体步骤如下:
步骤一S110、构建动态PPI网络;
利用如下公式表示特定时间点下的基因表达值:
式中,T(i)表示在特定时间点i下的基因表达值;如果基因表达值大于特定时间点下的阈值,那么该时间点下的该蛋白质被看做是活跃的,我们利用3-sigma模型为每个蛋白质计算阈值;
式中Gei(g)为基因g在特定时间点i下的表达值(Ge(i)),Avg(g)为表达值在时间点1到n上的算数平均数,σ(g)为表达值的在时间点1到n上的标准差。
式中,k为sigma倍数,k的取值越大,Active_thresholdk(g)的取值就越大,显然会获得更高的置信度,k∈[0,3]。
根据3-sigma原则,当Gei(g)>Avg(g)+3·σ(g)时,与基因g相对应的蛋白质活跃的概率是99.7%,而当Gei(g)>Avg(g)+σ(g)时,与基因g相对应的蛋白质活跃的概率仅为68.3%。基于Active_thresholdk(g),可以计算与基因g相对应的蛋白质在时间点i下活跃的概率;通常,一个蛋白在特定时间下活跃的概率可以代表其活跃程度。
PPI网络可以抽象成无向加权图G=(V,E,W);其中,V是节点(蛋白质)的集合,E是边(蛋白质对)的集合,W是n×n(n=|V|)的矩阵,用来表示每个蛋白质对的可靠性。
一个动态概率PPI网络可以表示成:DPG={DPG1,DPG2,…,DPGn};其中,n=12;DGP由12个概率PPI网络组成,每个网络都属于一个特定的时间点;
更具体地,DPGi=(Vi,Ei,APVi,APEi),i=1~n;其中,APVi:Vi→[0,1]表示每个蛋白在特定时间点i下活跃的概率,APEi:Ei→[0,1],APEi(v,u)=Vi(v)×Vi(u)表示蛋白质v和蛋白质u在时间点i下存在相互作用边的可能性;在本实施例中,作为一种优选,APVi的取值包括0.9973,0.9545,0.6827,0.0;
Go-Slim数据是生物信息学中GO(Gene Ontology)的精简版,Go-Slim数据提供了GO注释来解释生物过程(BP)、分子功能(MF)、细胞成分(CC)中的蛋白质,将GO-slim数据融合到动态网络中;
式中,GOv和GOu分别表示蛋白质v和蛋白质u的GO-slims;|GOv∩GOu|表示蛋白质v和蛋白质u公共GO-slims的个数,Avg(GO)代表所有蛋白质GO-slims的平均数;
引入高阶公共邻居相似度(HCNs)估算两个蛋白质之间相互作用的可靠性,计算如下:
NCN(v,u)=|Nv∩Nu|;
Nv={u|(u,v)∈E,u∈V};
式中,Nv和Nu分别表示蛋白质v和蛋白质u的邻居,对于一个动态PPI网络DPGi=(Vi,Ei,APVi,APEi),在特定时间点i下,蛋白质v和蛋白质u交互的权重定义为:
对于边的权重是0以及邻居数量小于等于2的蛋白质将会被视为噪音,并从加权动态PPI子网络中删掉。此时加权动态PPI网络构建完毕;
步骤二S120、构建静态PPI网络;
通过GOScore(v,u)和HCNsi(v,u)确定权重,具体公式为:
步骤三S130、是否存在未处理子网络;
对于动态PPI网络,需要在每个子网络中分别找蛋白质复合物的核;
步骤四S140、找蛋白质复合物的核;
确定蛋白质v的邻居图G'(v)=(V',E',W');
其中,V'=Nv,蛋白质v的加权度
邻居图G'(v)的平均加权度
邻居图G'(v)的加权密度
对于动态和静态PPI网络中的每个蛋白质v的邻居子图为G'(v),对于G'(v)中的每个蛋白质u,如果degweight(u)≥Avdegweight(G'(v)),则把蛋白质u加入到initial_clusterv,那么G'(v)中的蛋白质被分入两个集合,分别是initial_clusterv和left_proteins,G'(v)中不属于initial_clusterv的蛋白质都属于left_proteins;
对于left_proteins中的每个蛋白质w,如果|Nw∩initail_clusterv|≥2(Nw表示蛋白质w的邻居)且则表明该蛋白质是多功能蛋白质,这种蛋白质参与多个蛋白质复合物的形成,将蛋白质c加入initial_clusterv
步骤五S150、采用启发式搜索算法实现最大加权社区模型构建候选蛋白复合物。
由于蛋白质复合物具有高内聚低耦合的性质,我们提出全新的模型估算簇C=(VC,EC,WC)是蛋白质复合物的可能性,具体计算方法如下:
其中,W(u,v)是步骤一S110和步骤二S120中计算出的蛋白质v和蛋白质u相互作用边的权重,win(C)表示簇C中所有蛋白质相互作用边的权重的平均值,wbound(C)表示簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值,Boundary_node(C)是簇C的内边界节点的集合,这些节点属于簇C而且至少与簇C的一个邻居节点相连,close_function(u,C)衡量候选蛋白质u和簇C的关系。
对于步骤四S140中识别出的蛋白质复合物的核(initial_clusterv),记为簇C,其邻居的集合为Neighbor(C);在簇C基础上构建候选蛋白质复合物大体分为两步:
第一步,不断地从集合Neighbor(C)挑选蛋白质u,使得close_function(u,C)取最大值,如果Score(C+{u})>Score(C),则将蛋白质u加入簇C并将其从集合Neighbor(C)中删除;重复整个过程,直到集合Neighbor(C)为空或向簇C中加入使得close_function(u,C)取最大值的节点u不再使Score(C)增加;
第二步,不断地从Boundary_node(C)中挑选蛋白质v,使得
close_function(v,C)取最小值,如果Score(C-{v})>Score(C)且|C|>2,则将蛋白质v从簇C和Boundary_node(C)中删除;重复整个过程直到集合Boundary_node(C)为空或|C|≤2或从Boundary_node(C)中(也是簇C中)减去使得close_function(v,C)取最小值的蛋白质v也不能使Score(C)减小;
当簇C不再发生变化,整个贪婪搜索过程结束,最终识别出一个蛋白质复合物;
步骤六S160、舍弃低于均分的蛋白质复合物;
整合从动态和静态PPI网络中识别出的所有蛋白质复合物,依据社区模型给蛋白质复合物打分,舍弃低于平均分的蛋白质复合物;
步骤七S170、舍弃高度重叠且社区模型得分低的蛋白质复合物;
对于剩下得分较高的蛋白质复合物,两两计算其相似性,具体公式为:如果OS(PCi,PCj)≥α说明两个蛋白质复合物高度重叠,此时舍弃社区模型得分较低的一个,进而得到最终挖掘出的蛋白质复合物;作为一种优选,在本实施例中,α取值为0.8。
本发明针对当前方法精度偏低,容忍PPI网络中的噪声能力较弱,模型的假设不符合实际蛋白质复合物的问题,参数偏多提出了一种利用核心蛋白和社区模型从动态和静态PPI网络中挖掘蛋白质复合物的方法,从而提高精度,增强容忍PPI网络中的噪声能力,使模型的假设更符合实际蛋白质复合物,而且没有输入任何参数;针对当前方法存在识别重叠蛋白质复合物的能力较弱的问题,提出当OS(PCi,PCj)≥0.8舍弃社区模型得分较低的一个;针对当前方法没有融合蛋白质复合物的拓扑信息和生物信息,提出为蛋白质复合物打分时融合蛋白质复合物的拓扑信息和生物信息。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (10)

1.一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,包括如下步骤:
步骤一、构建具有权重的动态蛋白质相互作用网络和具有权重的静态蛋白质相互作用网络;
步骤二、在所述具有权重的动态蛋白质相互作用网络和所述具有权重的静态蛋变质相互作用网络中,识别蛋白质复合物的核;
步骤三、根据所述蛋白质复合物的核,在在所述具有权重的动态蛋白质相互作用网络和所述具有权重的静态蛋变质相互作用网络中,基于启发式搜索算法构建蛋白质复合物;
步骤四、根据社区模型分数给所述蛋白质复合物进行打分,舍弃低于平均分的蛋白质复合物,进而得到高于平均分的蛋白质复合物;
步骤五、在所述高于平均分的蛋白质复合物中,分别两两计算相似性,根据所述相似性判断当两个蛋白质复合物高度重叠时,舍弃其中分数低的蛋白质复合物,进而得到最终挖掘出的蛋白质复合物。
2.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,在所述步骤一中通过融合GO-slim数据、网络拓扑结构和基因共表达数据构建具有权重的动态蛋白质相互作用网络,包括如下步骤:
步骤1、构建动态蛋白质相互作用网络为DPG={DPG1,DPG2,...,DPGn},其中n=12;
其中,DPGi=(Vi,Ei,APVi,APEi),i=1~n;
式中,APVi:Vi→[0,1]表示每个蛋白在特定时间点i下活跃的概率,APEi:Ei→[0,1],APEi(v,u)=Vi(v)×Vi(u)表示蛋白质v和蛋白质u在时间点i下存在相互作用边的可能性;
步骤2、对所述动态蛋白质相互作用网络DPG={DPG1,DPG2,...,DPGn},在时间点i下,计算蛋白质v和蛋白质u交互的权重为
其中,
式中,GOv为蛋白质v的GO-slim,GOu为蛋白质u的GO-slim,|GOv∩GOu|为蛋白质v和蛋白质u公共GO-slims的个数,Avg(GO)为所有蛋白质GO-slims的平均数;
步骤3、在所述动态蛋白质相互作用网络DPG={DPG1,DPG2,...,DPGn}中去掉所述蛋白质对的权重是0和邻居数量不大于2的蛋白质,进而得到具有权重的动态蛋白质相互作用网络。
3.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,在所述步骤一中通过融合GO-slim数据和网络拓扑结构构建具有权重的静态蛋白质相互作用网络,包括如下步骤:
步骤1、构建静态蛋白质相互作用网络为G=(V,E,W);
式中,V为蛋白质的集合,E为蛋白质对的集合,W为蛋白质对的可靠性;
步骤2、计算蛋白质对交互的权重为
其中,
式中,GOv为蛋白质v的GO-slim,GOu为蛋白质u的GO-slim,|GOv∩GOu|为蛋白质v和蛋白质u公共GO-slims的个数,Avg(GO)为所有蛋白质GO-slims的平均数。
4.如权利要求2所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,APVi取值为0.9973、0.9545、0.6827和0。
5.如权利要求2所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,与基因g相对应的蛋白质在特定时间点i下活跃的概率APi(g)的计算过程为:
其中,
式中,Gei(g)为基因g在特定时间点i下的表达值(Ge(i)),Avg(g)为表达值在时间点1到n上的算数平均数,σ(g)为表达值的在时间点1到n上的标准差,k为sigma倍数,k∈[0,3],i∈[1,12]。
6.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,在所述步骤二中,识别蛋白质复合物的核包括如下步骤:
步骤1、分别在每个动态蛋白质相互作用网络和静态蛋白质相互作用网络中确定蛋白质v的邻居子图G'(v)=(V',E',W');
步骤2、在所述邻居子图G'(v)=(V',E',W')中的蛋白质u,如果degweight(u)≥Avdegweight(G'(v)),则把蛋白质u加入到集合initial_clusterv中,否则加入到集合left_proteins中;
步骤3、在所述集合left_proteins中的蛋白质w,如果|Nw∩initail_clusterv|≥2且将蛋白质w加入到集合initial_clusterv中,得到所述蛋白质复合物的核;
其中,V'=Nv
7.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,在所述步骤三中,构建蛋白质复合物包括如下步骤:
步骤1、将所有的所述蛋白质复合物的核记为簇C=(VC,EC,WC),确定其邻居集合Neighbor(C);
步骤2、从所述邻居集合Neighbor(C)中挑选蛋白质u使得close_function(u,C)取最大值,如果Score(C+{u})>Score(C),则将蛋白质u加入簇C中,并将其从所述邻居集合Neighbor(C)中删除,直到所述邻居集合Neighbor(C)为空或者所述簇C中加入使得close_function(u,C)取最大值的蛋白质u不再使Score(C)增加;以及
从集合Boundary_node(C)中挑选蛋白质v使得close_function(v,C)取最小值,如果Score(C-{v})>Score(C)且|C|>2,则将蛋白质v从簇C和Boundary_node(C)中删除,直到集合Boundary_node(C)为空或者Boundary_node(C)中删除使得close_function(v,C)取最小值的蛋白质v不再使Score(C)减小;
直到所述簇C不再发生变化,得到所述蛋白质复合物;
其中,
式中,W(u,v)为蛋白质v和蛋白质u相互作用边的权重,win(C)为簇C中所有蛋白质相互作用边的权重的平均值,wbound(C)为簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值,Boundary_node(C)为簇C的内边界节点的集合,close_function(u,C)为候蛋白质u和簇C的关系。
8.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,在所述步骤四中,计算识别出的所有蛋白质复合物的社区模型得分Score(C),将所有低于平均分的蛋白质复合物舍弃,
对所述蛋白质复合物通过如下方式进行打分:
式中,win(C)为簇C中所有蛋白质相互作用边的权重的平均值,wbound(C)为簇C中的节点与除簇C之外的网络中其他节点相互作用的边的权重的平均值。
9.如权利要求1所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,在所述步骤五中,对于剩下得分较高的蛋白质复合物,两两计算其相似性,如果OS(PCi,PCj)≥α,说明两个蛋白质复合物高度重叠,此时舍弃社区模型得分较低的一个,得到的结果为最终识别出的全部蛋白质复合物;
其中,所述相似性计算公式为:
式中,是蛋白质复合物PCi中所有蛋白质的集合,是蛋白质复合物PCj中所有蛋白质的集合。
10.如权利要求9所述的从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法,其特征在于,α=0.8。
CN201910821860.4A 2019-09-02 2019-09-02 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法 Active CN110517729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910821860.4A CN110517729B (zh) 2019-09-02 2019-09-02 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910821860.4A CN110517729B (zh) 2019-09-02 2019-09-02 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

Publications (2)

Publication Number Publication Date
CN110517729A true CN110517729A (zh) 2019-11-29
CN110517729B CN110517729B (zh) 2021-05-04

Family

ID=68629090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910821860.4A Active CN110517729B (zh) 2019-09-02 2019-09-02 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法

Country Status (1)

Country Link
CN (1) CN110517729B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009287A (zh) * 2019-12-20 2020-04-14 东软集团股份有限公司 SLiMs预测模型的生成方法、装置、设备和存储介质
CN111667886A (zh) * 2020-04-22 2020-09-15 大连理工大学 一种动态蛋白质复合物识别方法
CN111724855A (zh) * 2020-05-07 2020-09-29 大连理工大学 一种基于最小生成树Prim的蛋白质复合物识别方法
CN112542213A (zh) * 2020-12-11 2021-03-23 沈阳师范大学 融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法
CN113936743A (zh) * 2021-11-12 2022-01-14 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN113990397A (zh) * 2021-12-20 2022-01-28 北京科技大学 基于有监督学习检测蛋白质复合物的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090092961A1 (en) * 2007-10-05 2009-04-09 Ut-Battelle, Llc Identification and modification of dynamical regions in proteins for alteration of enzyme catalytic effect
CN102176223A (zh) * 2011-01-12 2011-09-07 中南大学 基于关键蛋白质和局部适应的蛋白质复合物识别方法
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN106778063A (zh) * 2016-12-02 2017-05-31 上海电机学院 一种基于图模型的蛋白质复合物识别方法
CN109493915A (zh) * 2018-12-12 2019-03-19 桂林电子科技大学 一种基于不确定图模型侦测蛋白质复合物的方法
CN109509509A (zh) * 2018-09-29 2019-03-22 江西理工大学 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法
CN109686402A (zh) * 2018-12-26 2019-04-26 扬州大学 基于动态加权相互作用网络中关键蛋白质识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090092961A1 (en) * 2007-10-05 2009-04-09 Ut-Battelle, Llc Identification and modification of dynamical regions in proteins for alteration of enzyme catalytic effect
CN102176223A (zh) * 2011-01-12 2011-09-07 中南大学 基于关键蛋白质和局部适应的蛋白质复合物识别方法
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN106778063A (zh) * 2016-12-02 2017-05-31 上海电机学院 一种基于图模型的蛋白质复合物识别方法
CN109509509A (zh) * 2018-09-29 2019-03-22 江西理工大学 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法
CN109493915A (zh) * 2018-12-12 2019-03-19 桂林电子科技大学 一种基于不确定图模型侦测蛋白质复合物的方法
CN109686402A (zh) * 2018-12-26 2019-04-26 扬州大学 基于动态加权相互作用网络中关键蛋白质识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEONID MIRNY,EYTAN DOMANY: ""Protein Fold Recognition and Dynamics in the Space of Contact Maps"", 《PROTEINS STRUCTURE, FUNCTION, AND GENETICS》 *
代启国,郭茂祖,刘晓燕,王春宇: ""动态-静态混合的时序蛋白质网络构建方法"", 《哈尔滨工业大学学报》 *
李敏,孟祥茂: ""动态蛋白质网络的构建、分析及应用研究进展"", 《计算机研究与发展》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009287A (zh) * 2019-12-20 2020-04-14 东软集团股份有限公司 SLiMs预测模型的生成方法、装置、设备和存储介质
CN111009287B (zh) * 2019-12-20 2023-12-15 东软集团股份有限公司 SLiMs预测模型的生成方法、装置、设备和存储介质
CN111667886A (zh) * 2020-04-22 2020-09-15 大连理工大学 一种动态蛋白质复合物识别方法
CN111667886B (zh) * 2020-04-22 2023-04-18 大连理工大学 一种动态蛋白质复合物识别方法
CN111724855A (zh) * 2020-05-07 2020-09-29 大连理工大学 一种基于最小生成树Prim的蛋白质复合物识别方法
CN112542213A (zh) * 2020-12-11 2021-03-23 沈阳师范大学 融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法
CN112542213B (zh) * 2020-12-11 2024-02-02 沈阳师范大学 融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法
CN113936743A (zh) * 2021-11-12 2022-01-14 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN113936743B (zh) * 2021-11-12 2024-04-26 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN113990397A (zh) * 2021-12-20 2022-01-28 北京科技大学 基于有监督学习检测蛋白质复合物的方法及装置

Also Published As

Publication number Publication date
CN110517729B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN110517729A (zh) 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
Ye et al. Mining individual life pattern based on location history
Davis et al. Supervised methods for multi-relational link prediction
CN105868582B (zh) 采用果蝇优化方法识别蛋白质复合物
CN109086356B (zh) 大规模知识图谱的错误连接关系诊断及修正方法
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN105183796A (zh) 一种基于聚类的分布式链路预测方法
CN103400299B (zh) 基于重叠点识别的网络重叠社团检测方法
Moser et al. Joint cluster analysis of attribute and relationship data withouta-priori specification of the number of clusters
CN112182306B (zh) 一种基于不确定图的社区发现方法
CN112464107B (zh) 一种基于多标签传播的社交网络重叠社区发现方法及装置
CN111091005B (zh) 一种基于元结构的无监督异质网络表示学习方法
CN109783696B (zh) 一种面向弱结构相关性的多模式图索引构建方法及系统
Hu et al. Room semantics inference using random forest and relational graph convolutional networks: A case study of research building
Wang et al. A new method for measuring topological structure similarity between complex trajectories
CN108182230B (zh) 基于位向量四叉树的移动对象汇聚模式挖掘方法
CN106023161B (zh) 一种破碎山脊线的自动关联方法
CN116258612A (zh) 一种基于知识嵌入模型的城市土地利用分布评估方法
CN115577519A (zh) 基于本体和知识图谱的双层次多重时空耦合建模方法
CN109033746A (zh) 一种基于节点向量的蛋白质复合物识别方法
Vandaele et al. Mining topological structure in graphs through forest representations
CN115086179B (zh) 一种社交网络中社区结构的检测方法
Wu et al. Extended maptree: a representation of fine-grained topology and spatial hierarchy of bim
CN107886107B (zh) 一种大数据的融合方法、系统和装置
Wang et al. Identification of overlapping protein complexes using structural and functional information of PPI network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant