CN113724787B - 一种基于核心-附件结构的蛋白质复合物识别方法 - Google Patents
一种基于核心-附件结构的蛋白质复合物识别方法 Download PDFInfo
- Publication number
- CN113724787B CN113724787B CN202110856089.1A CN202110856089A CN113724787B CN 113724787 B CN113724787 B CN 113724787B CN 202110856089 A CN202110856089 A CN 202110856089A CN 113724787 B CN113724787 B CN 113724787B
- Authority
- CN
- China
- Prior art keywords
- node
- protein
- core
- degree
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 153
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 25
- 150000001875 compounds Chemical class 0.000 claims abstract description 10
- 102000007474 Multiprotein Complexes Human genes 0.000 claims description 53
- 108010085220 Multiprotein Complexes Proteins 0.000 claims description 52
- 230000014509 gene expression Effects 0.000 claims description 43
- 230000000694 effects Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000003068 static effect Effects 0.000 claims description 12
- 101150027068 DEGS1 gene Proteins 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004186 co-expression Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 101710173438 Late L2 mu core protein Proteins 0.000 claims description 3
- 101710188315 Protein X Proteins 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000008827 biological function Effects 0.000 claims description 2
- 108091006067 Goα proteins Proteins 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 230000006916 protein interaction Effects 0.000 abstract description 7
- 230000004071 biological effect Effects 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 description 5
- 101710141454 Nucleoprotein Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 101150005355 36 gene Proteins 0.000 description 1
- 101710100170 Unknown protein Proteins 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- -1 i.e. Proteins 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于核心‑附件结构的蛋白质复合物识别方法,基于核心‑附件结构的蛋白质复合物识别方法使用核心‑附件(Core‑Attachment)的思想,先构建加权的动态PPI网络,随后在PPI网络中通过计算节点的相关属性找到种子节点,通过种子节点以及邻居节点从而形成蛋白质复合物的核心Core,接着为每个核心寻找合适的附件,最后删除一些重叠度较大的蛋白质复合物,得到最终预测的蛋白质复合物。该方法不但考虑了蛋白质相互作用网络的拓扑特征,同时也考虑了蛋白质的生物属性,进而克服数据噪声高所带来的负面影响。融合生物属性和拓扑特性提高了识别蛋白质复合物的准确性,同时使预测结果更加准确,提高了预测的效率。扩展了该技术在生物信息领域的应用范围和实用性。
Description
技术领域
本发明属于生物信息技术领域,提供一种基于核心-附件结构的蛋白质复合物识别方法,主要是在蛋白质相互作用网络中通过核心-附件结构的蛋白质复合物识别技术,特别涉及蛋白质相互作用网络中融合了网络拓扑信息和蛋白质生物属性识别蛋白质复合物的方法。
背景技术
蛋白质是生命活动中所不可缺少的物质,几乎参与了生命活动的所有周期,而蛋白质复合物是有两个以上功能相关的多肽链通过二硫键或其它蛋白质相互作用所形成的复合物。蛋白质复合物的种类繁多,但目前为止许多种类的性质与功能都还不为人所知,因此识别蛋白质复合物成为了蛋白质组学研究的重要的研究对象。蛋白质复合物一般可区分为结构型的蛋白质复合物和功能型蛋白质复合物两大类。蛋白质复合物参与了很多细胞功能的运行,对生物体的生命功能有着非常重要的作用。此外,在生物医学领域对许多疾病的预防、诊断以及治疗等方面具有重要的意义。
在本发明提出之前,蛋白质复合物的识别领域,最开始是通过网络的拓扑特征来识别,例如,分子复合物探测算法MCODE、马尔科夫聚类算法MCL、边缘密度图聚类算法DPClus、极大团识别蛋白质复合物的聚类算法CMC,但是这些方法识别关键蛋白质的缺点是:(1)只考虑了网络本身所具有的拓扑特征,而忽略了蛋白质所固有的生物特征。(2)通过生物实验所获得的PPI网络存在噪声,使得蛋白质相互作用数据存在假阳性。
发明内容
本发明的目的就在于克服上述缺陷,提供一种基于核心-附件结构的蛋白质复合物识别方法。基于核心-附件结构的蛋白质复合物识别方法使用核心-附件(Core-Attachment)的思想,先构建加权的动态PPI网络,随后在PPI网络中通过计算节点的相关属性找到种子节点,通过种子节点以及邻居节点从而形成蛋白质复合物的核心Core,接着为每个核心寻找合适的附件,最后删除一些重叠度较大的蛋白质复合物,得到最终预测的蛋白质复合物。
本发明的目的是这样实现的,一种基于核心-附件结构的蛋白质复合物识别方法,其特征在于,所述识别方法包括如下步骤:
(1)输入PPI网络和一些生物信息数据、GO(蛋白质生物功能的注释属性)注释相似度阈值Tgo。
(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络。
(3)根据ECC(边缘聚类系数)和PCC(皮尔逊相关系数)给构建的子网络的边进行加权。
(4)根据与该节点相关的各条边上的权值,计算该节点的加权值,然后选择大于子网络平均加权值的节点作为种子节点。
(5)计算种子节点和其邻居之间的GO注释相似度,选择种子节点的邻居节点形成核心Core。
(6)计算Core(核心)的核外邻居的核内、核外的度,选择核内度大于核外度的核外邻居节点作为核心的Attachment(附件),形成初始的核心-附件结构的蛋白质复合物。
(7)对于得到的蛋白质复合物进行删除操作:①删除只包含一个蛋白质的蛋白质复合物;②计算蛋白质复合物的重叠分数(Overlapping Score),对于重叠度超过阈值的蛋白质复合物进行删除操作,得到最终预测的蛋白质复合物。
所述步骤(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络。根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络。每个蛋白质的活跃阈值Tg计算过程如公式(1)-(4)所示:
Tg=ug+3ρg(1-Fg) (4)
蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质的是基因的表达值的数量,Gi表示在i时刻某个蛋白质基因的表达值,ug表示某个蛋白质基因表达值的平均值,在公式(2)中,ρg表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,Fg表示某个蛋白质一组基因表达值的波动性。最后在公式(4)中,Tg表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值Tg,就可以说在该时刻,蛋白质是活跃的、表达的。
所述步骤(3)根据ECC(边缘聚类系数)和PCC(皮尔逊相关系数)给构建的子网络的边进行加权。对网络中的边进行加权值,考虑了网络的拓扑属性值ECC以及基因共表达程度数值PCC,ECC(边缘聚类系数)、PCC(皮尔逊相关系数)的计算如下公式(5)、(6)所示,最终的加权值计算如下公式(7)所示:
FWeight(x,y)=ECC(x,y)+PCC(x,y) (7)
其中在公式(5)中,Z(x,y)表示以节点x、节点y为一条边的基础上可以组成三角形的数目,dx、dy分别表示节点x、节点y的度。在公式(6)中,X={x1,x2...xn},Y={y1,y2...yn}分别表示的是蛋白质x和蛋白质y的n个基因表达值。x’和y’分别表示其基因表达值的平均值。如果两个相互作用的蛋白质x,y基因的共表达程度越高,计算出来的PCC(x,y)值也就越大。在公式(8)中,最终把ECC(x,y)和PCC(x,y)的值相加作为FWeight(x,y),而FWeight(x,y)计算的就是网络中边的权值。
所述步骤(4)根据边上的权值,计算节点的加权值,选择大于子网络平均加权值的节点作为种子节点。在子网络中先计算每个节点的加权度WD(v),再计算当前子网的节点平均加权度AveWD,选择的是前者值大于后者值的节点作为种子节点。WD(v)、AveWD计算公式如下公式(8)、公式(9)所示:
在公式(8)中,Nv表示节点v的邻居节点结合,WD(v)表示节点v的加权度,在公式(9)中,N表示网络中的节点总数,AveWD表示网络中节点的平均加权度。
所述步骤(5)根据GO注释相似度,选择种子节点的邻居节点形成核心Core。在GO注释数据集里,每个蛋白质都有很多个GO注释,如果两个蛋白质拥有的相同GO注释的个数越多,越可以证明这两个蛋白质功能相似。对此可以计算出种子和其直接邻居之间的GO相似度,如果相似度大于某个阈值Tgo就可以将其直接领居加入进来,与种子节点形成核心结构,GO相似度计算如下公式(10)所示:
每个蛋白质都有多个GO注释,在公式(10)中,|GOu|、|GOv|分别表示蛋白质u和蛋白质v的GO注释的数量。|GOu∩GOv|表示蛋白质u和蛋白质v拥有相同的GO注释的数量。所以GO_Sim(u,v)描述的是相连在一起的两个蛋白质GO功能的相似性。
所述步骤(6)根据核心的核外邻居的核内、核外度的关系,选择核内度大于核外度的核外邻居节点作为核心的附件Attchment,形成初始的核心-附件结构的蛋白质复合物。有了核心,就要为每个核心寻找合适的附件,考虑到蛋白质复合物在结构上是一个稠密的蛋白质功能模块,所以在寻找核心附件的时候,考虑的是与核心直接相连的核外邻居,选择其在核内度大于在核外度的节点作为核心的附件,分别算出核外邻居在核内、核外的度,找到前后差值大于零的节点即可,核内、核外度的计算公式如公式(11)、公式(12)所示,基于计算公式(11)和(12),我们可以计算出两者之间的差值,其之间差值用ΔD表示差值计算如下公式(13)所示。
在公式(11)中,Vc表示核心结构中的节点集,Np表示节点p的邻居结合,m∈Vc、m∈Np表示m是核心里的节点,并且与核心外节点p相连,deg(p)原来是指节点p的度,再加上前面的限制条件,可以说明Degsin(p,Gc)计算的是与核心相连的核外节点p在核心内的度。
在公式(12)中,Vc表示核心结构中的节点集,Np表示节点p的邻居节点结合,n∈Np,表示节点n不是核心结构里的节点,但节点n是节点p的邻居,即节点n是节点p的核外邻居,所以Degsout(p,Gc)计算的是与核心相连的核外节点p在核心外的度。
ΔD=Degsin(p,Gc)-Degsout(p,Gc) (13)
在公式(13)中,ΔD计算的是Degsin(p,Gc)与Degsout(p,Gc)的差值,用来描述核外邻居节点与核心的紧密程度。
所述步骤(7)对于得到的加入附件的初始蛋白质复合物进行删除操作,将12个子网预测得到的蛋白质复合物加入一个集合,考虑到蛋白质复合物是由一组功能、结构相似的蛋白质组成,所以单个蛋白质肯定无法成为蛋白质复合物,就要过滤只有一个蛋白质的复合物,其次还要对复合物集合里的复合物两两计算重叠度分数,即OS分数,如果计算出来的OS分数大于阈值,就删除两两比较的复合物中的较小者,保留较大者,最后得到的就是预测的蛋白质复合物,重叠分数计算如下公式(14)所示。
在公式(14)中,PCi和PCj均为候选蛋白质复合物。|PCi|和|PCj|分别是PCi、PCj的大小,即拥有蛋白质的多少,|PCi∩PCj|表示的是这两个复合物中拥有相同蛋白质的数量,所以OS(PCi,PCj)描述的是两个预测复合物的重叠程度,该值越大,说明这两个复合物重叠度越大。
本发明的优点和效果在于:该方法不但考虑了蛋白质相互作用网络的拓扑特征,同时也考虑了蛋白质的生物属性,进而克服数据噪声高所带来的负面影响。融合生物属性和拓扑特性提高了识别蛋白质复合物的准确性,同时使预测结果更加准确,提高了预测的效率。扩展了该技术在生物信息领域的应用范围和实用性。
附图说明
图1是本发明基于核心-附件结构的蛋白质复合物识别方法的流程示意图;
图2a是本发明在Gavin数据集上的Precisoin比较图;
图2b是本发明在Krogan数据集上的Precisoin比较图;
图2c是本发明在DIP数据集上的Precisoin比较图;
图2d是本发明在Gavin数据集上的Recall比较图;
图2e是本发明在Krogan数据集上的Recall比较图;
图2f是本发明在DIP数据集上的Recall比较图;
图2g是本发明在Gavin数据集上的F-measure比较图;
图2h是本发明在Krogan数据集上的F-measure比较图;
图2i是本发明在DIP数据集上的F-measure比较图;
具体实施方式
本发明的技术思路是:将生物属性和拓扑特性相结合,使用核心-附件结构的思想,首先利用3σ法则和蛋白质基因表达值数据集,将静态PPI网络转化为多个动态PPI子网络,然后融合网络的拓扑属性,边缘聚类系数系数ECC和基因相互表达程度PCC值给动态网络的边进行加权,接着在每个子网络中选择大于子网络平均加权值的节点作为种子节点,然后从选择的种子节点出发选择其邻居节点,形成蛋白质复合物的核心结构。在得到核心结构后,需要给每个复合物核心选择其合适的附件节点,形成初始的核心-附件结构的蛋白质复合物。最后根据蛋白质复合物之间的重叠分数,计算两个复合物的重叠度,删除重叠度较大的一组中的较小者,最终得到识别出的蛋白质复合物。融合生物属性和拓扑特性有助于理解未知蛋白质复合物的功能,对于解释特定功能的分子机制有着重要意义,同时能够对药物靶细胞设计等提供重要的理论依据。所以基于核心-附件结构的蛋白质复合物识别方法很自然地适用于蛋白质复合物的预测。
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,基于核心-附件结构的蛋白质复合物识别方法,包括以下步骤:
步骤1:
输入PPI网络和一些生物信息数据、Go注释相似度阈值Tgo。
步骤2:
根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络。
基因表达谱数据集:在蛋白质基因表达谱数据集中,每个蛋白质有36个活动点,即每个蛋白质有36个基因表达值Gi,其中i={1,2...36}。为了减少复杂性,通过下面等式(1)中给出的三个周期的平均值来计算跨越12个时间点的每个时刻的表达值。
公式(1)中,Gi代表的是在i时刻的基因表达值,借助公式(1)我们可以计算出某种蛋白质在12个时间点的基因表达值。
基因时序表达数据是在感兴趣的生物学过程中的一系列时间点收集的,从而反映了该过程中基因的动态活性。目前,现有的一些识别方法使用阈值来确定基因在某个时间点是否表达,因此我们使用3σ法则来计算活动阈值。设Gi表示基因g在时间点i的表达值,则通过以下公式计算可以得到活动阈值。
Tg=ug+3ρg(1-Fg) (5)
其中N代表基因表达谱中时间点的数目,公式(2)计算的是基因表达值的平均值,公式(3)计算的是基因表达值的标准差的值,公式(4)计算的是基因表达值的波动性值,公式(5)就是我们用来计算蛋白质在时间点i是否活跃的阈值。如果某个蛋白质在某个时间点的基因表达值Gi大于等于这个阈值Tg,我们就认为在该时刻这个蛋白质是处于活跃的状态,如果两个蛋白质在某个时间点都处于活跃状态,并且它们在静态PPI网络中有相互作用,那么在这个时间点的动态子网络中,这两个相互活跃的蛋白质之间就一定存在着一条边,一般来说,这种相互作用被认为是一种动态的相互作用。至此我们已经把静态PPI网络转化为12个动态PPI子网络。
步骤3:
根据边缘聚类系数ECC和皮尔逊相关系数PCC给构建的子网络的边进行加权。
我们在给PPI网络中的边加权值时结合了蛋白质的生物信息,具体来说,一方面,在拓扑结构加权方面我们选择从边缘聚类系数(Edge Clustering Coefficient,ECC)出发来给边加权,具体如下:
在公式(6)中,Z(x,y)表示的是建立在边e(x,y)上三角形的数量,dx、dy分别表示的是蛋白质节点x和蛋白质节点y的度。
另一方面,为了避免出现较多的假阳性数据,我们加权考虑的是蛋白质的生物信息,基于这个特性,我们选择皮尔逊相关系数(Pearson Correlation Coefficient,PCC))来给边e(x,y)进行加权值。通常情况下PCC是用来描述两个变量之间的相互作用的强弱程度,取值范围为[-1,1]。在这里我们使用PCC来反映两个相互作用的蛋白质之间的共表达程度。
在公式(7)中,X={x1,x2...xn},Y={y1,y2...yn}分别表示的是蛋白质x和蛋白质y的n个基因表达值。X’和y’分别表示基因表达值的平均值。如果两个相互作用的蛋白质x,y基因的共表达程度越高,计算出来的PCC(x,y)值也就越大。
我们可以整合上述两个公式合并成一个最终的动态PPI网络的加权公式。如下面公式(8)所示。
FWeight(x,y)=ECC(x,y)+PCC(x,y) (8)
步骤4:
根据与该节点相关的各条边上的权值,计算该节点的加权值,然后选择大于子网络平均加权值的节点作为种子节点。
对于任意节点v,在PPI网络中的度可以表示为Degree(v)。其邻居节点可以用Nv集合表示,其形式为Nv={u|(u,v)∈E},其中|Nv|表示邻居节点的数量,显然,Degree(v)=|Nv|。接着计算节点v的加权度:
然后我们计算当前PPI网络中所有节点的加权度的平均值:
其中公式(10)中的N表示当前网络中的蛋白质节点的数量。
我们选择的种子节点要满足该节点的加权度要大于等于此时整个网络中的节点加权度的平均值,即WD(v)≧AveWD。
步骤5:
计算种子节点和其邻居之间的GO注释相似度,选择种子节点的邻居节点形成核心Core。
GO注释相似度:大量文献研究表明,蛋白质复合物是一组具有高度共表达模式且高度功能相似性的蛋白质。如果两个相互作用的蛋白质u和v具有某些共同的GO术语,则它们的功能更相似。因此我们从蛋白质功能的角度整合GO数据来扩展核心。我们利用公式(11)来计算种子节点和其邻居之间的GO注释相似值。
公式(11)中|GOu|、|GOv|分别表示蛋白质u和蛋白质v的GO注释的数量。对于(u,v)∈E,如果u和v有相同的GO注释,则蛋白质u和蛋白质v有相似的功能。
根据种子节点和邻居节点之间的相似性值,我们可以判断邻居节点是否可以加入核心形成核心结构。即:若GO_Sim(u,v)≧Tgo,则就可以将该种子节点的邻居节点加入到核心中,形成核心结构Core。
步骤6:
计算Core(核心)的核外邻居的核内、核外的度,选择核内度大于核外度的核外邻居节点作为核心的Attachment(附件),形成初始的核心-附件结构的蛋白质复合物。
每个蛋白质复合物里面的蛋白质都是功能相似且互相联系密切的子图。基于这一特点,我们考虑符合一定条件的核心结构的直接邻居作为附件。设Gc=(Vc,Ec)表示核心子图Core,核心的邻居节点集合可以表示为对于核心子图的邻居节点,如果该节点在核心内的度和核心外的度的差值大于0,那么我们就把这个节点确定为附件。
对于任意节点v来说,在网络中的度的大小可以表示为deg(v)。其邻居节点集可以用Nv表示。如果节点m为核心子图中的任一邻居节点,即m∈Vc、,同时p是m的核外邻居,即且m∈Np,那么可以通过公式(12)计算出节点p在核心子图里的度Degsin(p,Gc)。
与此同时,n是p的核外邻居,即n∈Np、那么可以通过下面公式(13)计算出节点p在核心子图外的度Degsout(p,Gc)。
基于计算公式(12)和(13),我们可以计算出两者之间的差值,其之间差值用ΔD表示,可用公式(14)来表示:
ΔD=Degsin(p,Gc)-Degsout(p,Gc) (14)
步骤7:
对于得到的蛋白质复合物进行删除操作:①删除只包含一个蛋白质的蛋白质复合物;
②计算蛋白质复合物的重叠分数(Overlapping Score),对于重叠度超过阈值的蛋白质复合物进行删除操作,得到最终预测的蛋白质复合物。
我们将上一步所得到的初步蛋白质复合物进行筛选和优化,从而确定最终需要的蛋白质复合物。关于蛋白质复合物的优化,我们选择从以下两个方面进行操作。
(1)删除只包含一个蛋白质的蛋白质复合物。
我们都知道,蛋白质复合物是一组稠密且蛋白质相互之间联系密切的子图。因为复合物中肯定存在多个相互作用的蛋白质,它们相互协作、相辅相成地完成一些功能活动。所以只包含一个蛋白质的复合物肯定不是符合要求的复合物,因此我们要从PPI网络中将这些单个蛋白质的复合物剔除。
(2)合并删除一组重叠分数大于一定阈值中的较小者。
基于PPI蛋白质相互作用网络的特点和蛋白质复合物之间相互联系的特性,通常情况下蛋白质复合物与蛋白质复合物之间会存在一些不同程度上的重叠,所以我们要根据重叠程度的不同,选择合理的删除、合并操作,得到最大程度的合适的蛋白质复合物。重叠分数计算公式(15)如下,其中PCi和PCj均为候选蛋白质复合物。
实施例:
我们分别在Gavin、Krogan、DIP三个数据集上对我们提出的算法BOCAS进行了试验。表1给出了Gavin、Krogan、DIP三个数据集的详细信息,包括了每个网络包含的蛋白质数量及蛋白质之间相互作用的数量。表2给出的是蛋白质生物属性数据集的信息。
表1 蛋白质相互作用网络数据集
PPI数据集 | 蛋白质数量 | 相互作用数量 |
Gavin | 1430 | 6531 |
Krogan | 2674 | 7075 |
DIP | 5093 | 24743 |
表2 蛋白质生物属性数据集
生物数据集 | 备注 |
基因表达谱集 | 版本:GSE3431,每个基因包括36个时间点的表达值 |
Go注释集 | Go注释包括了7014个蛋白质的Go注释信息 |
已知复合物集 | CYC2008 |
为了评价BO-CAS方法在蛋白质复合物预测方面的性能,我们将其与其他四种蛋白质复合物识别方法(MCL、HC-PIN、CFinder和DPC)分别进行比较,我们引入统计学性能评估方法,包含三个评价指标:精确率Precision,召回率Recall,F-评估F-measure。这些统计指标的定义分别如下:
Precision:表示预测的蛋白质复合物与标准蛋白质复合物在复合物预测中完全匹配的比例。它可以由以下等式(16)定义:
其中|P|表示预测的蛋白质复合物的数量,Ncp表示与已知蛋白质复合物完全匹配的预测复合物的数量。
Recall:表明已知蛋白质复合物与蛋白质复合物标准中预测的蛋白质复合物完全匹配的比例。它可以由以下等式(17)定义:
其中|B|表示已知蛋白质复合物的数量,Ncb表示与预测蛋白质复合物完全匹配的标准蛋白质复合物的数量。
F-measure:为了综合考虑这些指标,将F-measure定义为准确率和召回率的调和均值,可以衡量一个方法的整体性能。它由以下等式(18)定义:
BO-CAS算法与其他算法的对比实验结果如图2a、2b、2c、2d、2e、2f、2g、2h、2i所示。从图2a、2b、2c、2d、2e、2f、2g、2h、2i中可看出,在Gavin、Krogan、DIP三个PPI数据集上,本发明提出的算法BO-CAS在识别蛋白质复合物的性能上优于MCL、HC-PIN、CFinder、DPC对比算法,表明本发明提出的方法具有一定的优越性。
Claims (1)
1.一种基于核心-附件结构的蛋白质复合物识别方法,其特征在于,所述识别方法包括如下步骤:
(1)输入PPI网络和一些生物信息数据、GO蛋白质生物功能的注释属性注释相似度阈值Tgo;
(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;
所述步骤(2)中,根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值Tg计算过程如公式(1)-(4)所示:
Tg=ug+3ρg(1-Fg) (4)
蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质的是基因的表达值的数量,Gi表示在i时刻某个蛋白质基因的表达值,ug表示某个蛋白质基因表达值的平均值,在公式(2)中,ρg表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,Fg表示某个蛋白质一组基因表达值的波动性。最后在公式(4)中,Tg表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值Tg,就可以说在该时刻,蛋白质是活跃的、表达的;
(3)根据ECC边缘聚类系数和PCC皮尔逊相关系数给构建的子网络的边进行加权;
所述步骤(3)中,根据ECC边缘聚类系数和PCC皮尔逊相关系数给构建的子网络的边进行加权;对网络中的边进行加权值,考虑了网络的拓扑属性值ECC以及基因共表达程度数值PCC,ECC边缘聚类系数、PCC皮尔逊相关系数的计算如下公式(5)、(6)所示,最终的加权值计算如下公式(7)所示:
FWeight(x,y)=ECC(x,y)+PCC(x,y) (7)
其中在公式(5)中,Z(x,y)表示以节点x、节点y为一条边的基础上可以组成三角形的数目,dx、dy分别表示节点x、节点y的度。在公式(6)中,X={x1,x2...xn},Y={y1,y2...yn}分别表示的是蛋白质x和蛋白质y的n个基因表达值。x’和y’分别表示其基因表达值的平均值。如果两个相互作用的蛋白质x,y基因的共表达程度越高,计算出来的PCC(x,y)值也就越大。在公式(8)中,最终把ECC(x,y)和PCC(x,y)的值相加作为FWeight(x,y),而FWeight(x,y)计算的就是网络中边的权值;
(4)根据与该节点相关的各条边上的权值,计算该节点的加权值,然后选择大于子网络平均加权值的节点作为种子节点;
所述步骤(4)中,根据边上的权值,计算节点的加权值,选择大于子网络平均加权值的节点作为种子节点;在子网络中先计算每个节点的加权度WD(v),再计算当前子网的节点平均加权度AveWD,选择的是前者值大于后者值的节点作为种子节点;WD(v)、AveWD计算公式如下公式(8)、公式(9)所示:
在公式(8)中,Nv表示节点v的邻居节点结合,WD(v)表示节点v的加权度,在公式(9)中,N表示网络中的节点总数,AveWD表示网络中节点的平均加权度;
(5)计算种子节点和其邻居之间的GO注释相似度,选择种子节点的邻居节点形成核心Core;
所述步骤(5)中,根据GO注释相似度,选择种子节点的邻居节点形成核心Core;在GO注释数据集里,每个蛋白质都有很多个GO注释,如果两个蛋白质拥有的相同GO注释的个数越多,越可以证明这两个蛋白质功能相似;对此可以计算出种子和其直接邻居之间的GO相似度,如果相似度大于某个阈值Tgo就可以将其直接领居加入进来,与种子节点形成核心结构,GO相似度计算如下公式(10)所示:
每个蛋白质都有多个GO注释,在公式(10)中,|GOu|、|GOv|分别表示蛋白质u和蛋白质v的GO注释的数量。|GOu∩GOv|表示蛋白质u和蛋白质v拥有相同的GO注释的数量。所以GO_Sim(u,v)描述的是相连在一起的两个蛋白质GO功能的相似性;
(6)计算Core核心的核外邻居的核内、核外的度,选择核内度大于核外度的核外邻居节点作为核心的Attachment附件,形成初始的核心-附件结构的蛋白质复合物;
所述步骤(6)中,根据核心的核外邻居的核内、核外度的关系,选择核内度大于核外度的核外邻居节点作为核心的附件Attchment,形成初始的核心-附件结构的蛋白质复合物;有了核心,就要为每个核心寻找合适的附件,考虑到蛋白质复合物在结构上是一个稠密的蛋白质功能模块,所以在寻找核心附件的时候,考虑的是与核心直接相连的核外邻居,选择其在核内度大于在核外度的节点作为核心的附件,分别算出核外邻居在核内、核外的度,找到前后差值大于零的节点即可,核内、核外度的计算公式如公式(11)、公式(12)所示,基于计算公式(11)和(12),我们可以计算出两者之间的差值,其之间差值用ΔD表示差值计算如下公式(13)所示;
ΔD=Degsin(p,Gc)-Degsout(p,Gc) (13)
在公式(11)中,Vc表示核心结构中的节点集,Np表示节点p的邻居结合,m∈Vc、m∈Np表示m是核心里的节点,并且与核心外节点p相连,deg(p)原来是指节点p的度,再加上前面的限制条件,可以说明Degsin(p,Gc)计算的是与核心相连的核外节点p在核心内的度;
在公式(12)中,Vc表示核心结构中的节点集,Np表示节点p的邻居节点结合,n∈Np,表示节点n不是核心结构里的节点,但节点n是节点p的邻居,即节点n是节点p的核外邻居,所以Degsout(p,Gc)计算的是与核心相连的核外节点p在核心外的度;
在公式(13)中,ΔD计算的是Degsin(p,Gc)与Degsout(p,Gc)的差值,用来描述核外邻居节点与核心的紧密程度;
(7)对于得到的蛋白质复合物进行删除操作:①删除只包含一个蛋白质的蛋白质复合物;②计算蛋白质复合物的重叠分数Overlapping Score,对于重叠度超过阈值的蛋白质复合物进行删除操作,得到最终预测的蛋白质复合物;
所述步骤(7)对于得到的加入附件的初始蛋白质复合物进行删除操作,将12个子网预测得到的蛋白质复合物加入一个集合,考虑到蛋白质复合物是由一组功能、结构相似的蛋白质组成,所以单个蛋白质肯定无法成为蛋白质复合物,就要过滤只有一个蛋白质的复合物,其次还要对复合物集合里的复合物两两计算重叠度分数,即OS分数,如果计算出来的OS分数大于阈值,就删除两两比较的复合物中的较小者,保留较大者,最后得到的就是预测的蛋白质复合物,重叠分数计算如下公式(14)所示;
在公式(14)中,PCi和PCj均为候选蛋白质复合物。|PCi|和|PCj|分别是PCi、PCj的大小,即拥有蛋白质的多少,|PCi∩PCj|表示的是这两个复合物中拥有相同蛋白质的数量,所以OS(PCi,PCj)描述的是两个预测复合物的重叠程度,该值越大,说明这两个复合物重叠度越大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110856089.1A CN113724787B (zh) | 2021-07-28 | 2021-07-28 | 一种基于核心-附件结构的蛋白质复合物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110856089.1A CN113724787B (zh) | 2021-07-28 | 2021-07-28 | 一种基于核心-附件结构的蛋白质复合物识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724787A CN113724787A (zh) | 2021-11-30 |
CN113724787B true CN113724787B (zh) | 2024-05-03 |
Family
ID=78674083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110856089.1A Active CN113724787B (zh) | 2021-07-28 | 2021-07-28 | 一种基于核心-附件结构的蛋白质复合物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724787B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113990397B (zh) * | 2021-12-20 | 2022-03-29 | 北京科技大学 | 基于有监督学习检测蛋白质复合物的方法及装置 |
CN117095743B (zh) * | 2023-10-17 | 2024-01-05 | 山东鲁润阿胶药业有限公司 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021988A (zh) * | 2016-05-26 | 2016-10-12 | 河南城建学院 | 蛋白质复合物的识别方法 |
CN108733976A (zh) * | 2018-05-23 | 2018-11-02 | 扬州大学 | 基于融合生物与拓扑特征的关键蛋白质识别方法 |
CN109616153A (zh) * | 2018-12-05 | 2019-04-12 | 陕西师范大学 | 一种采用改进的hits算法识别关键蛋白质的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217250A1 (en) * | 2015-01-27 | 2016-07-28 | Institut Pasteur | Identifying molecular systems in protein sequence data |
US20190259470A1 (en) * | 2018-02-19 | 2019-08-22 | Protabit LLC | Artificial intelligence platform for protein engineering |
CN113474840A (zh) * | 2018-12-21 | 2021-10-01 | 百欧恩泰美国公司 | 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统 |
-
2021
- 2021-07-28 CN CN202110856089.1A patent/CN113724787B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021988A (zh) * | 2016-05-26 | 2016-10-12 | 河南城建学院 | 蛋白质复合物的识别方法 |
CN108733976A (zh) * | 2018-05-23 | 2018-11-02 | 扬州大学 | 基于融合生物与拓扑特征的关键蛋白质识别方法 |
CN109616153A (zh) * | 2018-12-05 | 2019-04-12 | 陕西师范大学 | 一种采用改进的hits算法识别关键蛋白质的方法 |
Non-Patent Citations (2)
Title |
---|
Jie Zhao ; Xiujuan Lei ; Fang-Xiang Wu ; .Identifying Protein Complexes in Dynamic Protein-Protein Interaction Networks Based on Cuckoo Search Algorithm.2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM).2016,全文. * |
基于拓扑势加权的动态PPI 网络复合物挖掘方法;雷秀娟;高银;郭玲;;电子学报;20180131;第46卷(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113724787A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113724787B (zh) | 一种基于核心-附件结构的蛋白质复合物识别方法 | |
EP2945071B1 (en) | Index generating device and method, and search device and search method | |
CN108319812B (zh) | 一种基于布谷鸟搜索算法识别关键蛋白质的方法 | |
CN108733976B (zh) | 基于融合生物与拓扑特征的关键蛋白质识别方法 | |
CN104992078B (zh) | 一种基于语义密度的蛋白质网络复合物识别方法 | |
CN110517729B (zh) | 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法 | |
CN109801674B (zh) | 一种基于异构生物网络融合的关键蛋白质识别方法 | |
CN108804870B (zh) | 基于Markov随机游走的关键蛋白质识别方法 | |
CN111599406B (zh) | 结合网络聚类方法的全局多网络比对方法 | |
CN113626723A (zh) | 一种基于表示学习的属性图社区搜索方法和系统 | |
CN109710599A (zh) | 一种基于知识图谱的群体划分方法及装置 | |
CN110580252B (zh) | 多目标优化下的空间对象索引与查询方法 | |
CN110910953B (zh) | 一种基于蛋白质-域异构网络的关键蛋白预测方法 | |
CN111128292B (zh) | 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法 | |
Ji et al. | ACC–FMD: ant colony clustering for functional module detection in protein–protein interaction networks | |
CN114943019A (zh) | 一种基于双层权重网络随机游走的top k非重叠多样化社区发现方法 | |
CN114067906B (zh) | 一种融合多源生物信息的关键蛋白质识别方法 | |
CN114880559A (zh) | 一种融合用户-项目的邻居实体表示推荐方法 | |
CN112992347A (zh) | 基于拉普拉斯正则化最小二乘和网络投影的lncRNA-疾病关联预测方法和系统 | |
CN112765414A (zh) | 一种图嵌入向量的生成方法及基于图嵌入的社区发现方法 | |
Sohaee et al. | Bounded diameter clustering scheme for protein interaction networks | |
CN112380267A (zh) | 一种基于隐私图的社区发现方法 | |
CN111709846A (zh) | 基于线图的局部社区发现算法 | |
Beltran et al. | A Hybrid method for protein complex prediction in weighted protein-protein interaction networks | |
Cingovska et al. | Protein Function Prediction by Clustering of Protein-Protein Interaction Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |