CN104156603A - 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法 - Google Patents

基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法 Download PDF

Info

Publication number
CN104156603A
CN104156603A CN201410399487.5A CN201410399487A CN104156603A CN 104156603 A CN104156603 A CN 104156603A CN 201410399487 A CN201410399487 A CN 201410399487A CN 104156603 A CN104156603 A CN 104156603A
Authority
CN
China
Prior art keywords
protein
pro
probability
peptide
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410399487.5A
Other languages
English (en)
Other versions
CN104156603B (zh
Inventor
王建新
钟坚成
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201410399487.5A priority Critical patent/CN104156603B/zh
Publication of CN104156603A publication Critical patent/CN104156603A/zh
Application granted granted Critical
Publication of CN104156603B publication Critical patent/CN104156603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。该方法基于相互作用蛋白质间的存在概率亦相互影响的现象,在鸟枪法蛋白质组学数据上融合蛋白质相互作用网络信息,定义了新的蛋白质鉴定图模型,利用图模型中蛋白质的存在概率及其所获得的邻居蛋白质结点的支持度来调整肽映射到蛋白质的概率,从而调整蛋白质的存在概率。该方法能识别大部分的蛋白质,与其它鉴定方法比较,具有较的高的精确度。为生物学家通过蛋白质组学数据推断和鉴定蛋白质的实验以及进一步研究提供有价值的参考信息。

Description

基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法
技术领域
本发明属于系统生物学领域,尤其涉及一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。
背景技术
人类基因组测序的完成标志着后基因组时代的来临,而蛋白质组学是后基因组时代中最重要的领域之一。蛋白质组学的目的是通过系统地、定量地研究蛋白质在细胞组织中的表达情况,来揭示基因的功能、蛋白质之间的关系以及生命过程的运行机制。其主要任务包括:蛋白质序列鉴定、蛋白质修饰鉴定、蛋白质定量分析、蛋白质结构预测和蛋白质功能预测等问题,而确定出某种细胞器官或组织在一定条件下表达出了哪些蛋白质是其最基本任务之一。
目前,蛋白质鉴定主要是采用鸟枪法蛋白质组学研究方法,其步骤是先将标识生物样本中的蛋白质混合物经过简单或不经过分离就被酶解为肽段混合物,肽段混合物经色谱分离和离子化后,经串联质谱仪产生质谱数据用于肽段鉴定,最后再从鉴定的肽段推导可能的蛋白质。该方法可在短时间内获得大量质谱数据并鉴定出蛋白质。
目前,用于鸟枪法蛋白质组学中鉴定蛋白质的方法包括基于图模型、基于统计模型、基于优化模型、基于节俭模型、基于多信息集成的分析方法。
基于统计模型鉴定方法主要包括ProteinProphet、PANORAMICS、MSBayesPro、Fido、Qscore等方法。其主要思想是用肽鉴定软件得出的肽得分和相关信息,通过统计方法估算出给定蛋白质存在的概率。基于统计模型方法可以分为非参数统计模型和参数统计模型。非参数统计模式未考虑肽样本的概率分布,较参数统计模型而言,非参数统计模型具有更高的鲁棒性。ProteinProphet是应用最广泛的蛋白质推断方法,该方法是采用一个迭代过程来估计蛋白质概率,在迭代过程中不断调整蛋白质概率。PANORAMICS也是一个与ProteinProphet类似的方法,它在迭代推断蛋白质过程中不断的调整肽和蛋白质概率,直到收敛。针对一个肽映射多个蛋白质的情况,MSBayesPro、Fido应用贝叶斯方法推断蛋白质存在概率。Qscore是一个参数统计模型来预测蛋白质概率,该方法应用一个类似于二项式分布的统计算法,其参数使用如蛋白质大小、肽匹配质量、一个蛋白质匹配的肽数量、质谱数据集大小等。PROT_ROBE方法在蛋白质数据库搜索能得到适当肽的概率时,使用二项式分布模型推断蛋白质概率,它还设计了一个多项式模型用于任何蛋白质数据库搜索的肽结果。ComByne应用p值方法对偶然出现的肽的概率进行建模,并充分利用蛋白质长度、保留时间和谱相关系数等信息,采用多重假设检验方法来评估蛋白质存在可信度。
基于节俭模型鉴定方法主要包括IDPicker、DBParser、MassSieve、LDFA、ProteinLasso等方法。这些方法的主要思想是将肽和蛋白质描述为二分图模型,使用最少的蛋白质子集来解释所有被标识的肽,将问题规约为集合覆盖问题(NP难问题)。IDPicker首先根据用户设定的假阳率过滤低可信度的肽集合,然后使用贪婪算法去选择候选的蛋白质来覆盖所有保留的肽。该方法还支持把重复的肽标识归类。DBParser将蛋白质分成6个层次,应用节俭模型分别得到每一个层次的蛋白质列表。该方法首先获得无二义的蛋白质列表,然后得出不明确的蛋白质列表,最后对已推断的蛋白质去冗。LDFA是引入肽的可测度,应用简单的贪婪算法解决蛋白质集合覆盖所有标识肽问题。ProteinLasso也引入了肽的可测度,应用Lasso算法解决蛋白质集合覆盖所有标识肽问题。
基于优化模型的主要思想是:在二分图的模型的基础上,应用优化模型获取所有的满足一些简单标准的潜在蛋白质列表,这是基于蛋白质样本中有一大部分是同源蛋白质的假设。DTASelect是经典的优化模型,该方法能推断出的包含充分数量肽的蛋白质。
基于多元信息集成的分析方法的主要思想是引入一些额外已知信息,如原始的二级质谱数据、一级质谱数据、mRNA表达数据、蛋白质相互作用网络、基因模型等,来提高蛋白质鉴定的准确度,以及推断出一些未被肽识别的蛋白质。方法要包括PIPER、CEA、MSNet、MSpresso、nested model、HSM、Barista、PSC、PeptideClassifier等方法。HSM融合了原始的二级质谱数据,该方法构造了层次统计模型根据串联质谱数据来评估肽和蛋白质自信度。Nested model也融合了质谱数据,提出了一个反馈机制用于同时估计蛋白质和肽的概率,但该方法没有考虑一个肽映射多个蛋白质的情况。Barista应用三部图来描述蛋白质鉴定问题,三部图中每层分别对应质谱、肽和蛋白质,三部图和一些肽谱匹配的特征作为Barista的输入,用机器学习方法直接优化蛋白质总数,并发掘在已鉴定蛋白质中肽谱匹配得分低的肽和谱。Scaffold采用了肽-谱-蛋白质图结构,该方法选择没有选择一个最优的肽,还是选择了对应的多个可能的肽,然后构造肽组和蛋白质间的多对多的关系,最后采用贪婪算法鉴定出最有可能的蛋白质。PIPER提出来源于相同蛋白质的肽具有相关的表达谱的假设,融合肽表达谱信息来鉴定蛋白质,通过表达谱相关性过滤,该方法输出结果包含差异表达蛋白质和假阳错误率的估计。CEA和MSNet在进行蛋白质鉴定后,通过融合蛋白质相互作用网络信息推断出高自信的蛋白质列表。MSpresso基于mRNA的表达越高的蛋白质存在可能性越大的假设,通过融合mRNA表达信息对鉴定出的蛋白质得分进行重新调整。
上述各类方法从不同的角度解决了从肽推断蛋白质中存在的一些问题。其中,基于二分图模型的方法因其建模简单而得到了广泛应用。之前提出的绝大多数的方法都是基于二分图模型来设计的。但是,由于蛋白质推断问题本身的复杂性,如:一个肽映射不同蛋白质的问题(即共享肽问题),基于二分图模型的方法无法准确推断出共享肽归属哪个蛋白质。此外,当前的很多鉴定方法仍然处于“黑盒子”阶段,它们很少考虑共享肽,或者没有对共享肽映射到蛋白质的关系进行解释,这不利于进一步的蛋白质鉴定和定量分析工作。由于蛋白质并不是孤立地起作用,本发明从蛋白质之间相互作用的角度出发,借鉴融合多元信息集成的分析方法,深层次使用蛋白质相互作用网络对以前构建的二分图模型(肽到蛋白质模型)进行重新定义,在此基础上设计蛋白质鉴定方法,从而提高蛋白质定性的精确度。蛋白质鉴定时,存在一个肽映射不同蛋白质的情况(即共享肽),而现有技术很少考虑共享肽,或者没有对共享肽映射到蛋白质的关系进行解释,这不利于进一步的蛋白质鉴定和定量分析。
发明内容
本发明所要解决的技术问题是:基于相互作用蛋白质间的存在概率亦相互影响的现象,提出了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,该方法识别精度高。
本发明的技术方案为:
一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,包括以下步骤:
步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率Probpep_i,过滤概率小于0.05的肽;
步骤二:根据过滤后的肽建立肽映射蛋白质的二分图Gv(Ni,Mj,E),其中Ni为肽结点集合,Mj为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合;
输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据,在二分图上蛋白质侧建立蛋白质相互作用无向图Gu(Nu,E’),其中Nu为蛋白质结点集合,Nu结点集合与二分图中Mj结点集合相同,E’为表示蛋白质相互作用信息的边的集合;
步骤三:计算Gv中蛋白质的存在概率Probpro_j
Prob pro _ j = [ 1 - Π i ∈ G v ; ( i , j ) ∈ E ( 1 - Prob i _ j ) ] - log ( Deg ( pro _ j ) Theory ( pro _ j ) )
其中,Probpro_j表示蛋白质j的存在概率,Probi_j表示肽i映射到蛋白质j的概率,根据公式计算得到,其中Probpep_i表示肽i的存在概率,Deg(pep_i)表示二分图Gv中i结点的度;Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数,即为二分图Gv中j结点的度;Theory(pro_j)表示按某种酶切方式,蛋白质j所包含的理论肽的匹配数;所述度是指和该结点相关联的边的条数;
计算蛋白质j的存在概率要考虑所有映射到蛋白质j的肽,包括唯一肽和共享肽。
步骤四:计算蛋白质j所获得的邻居蛋白质结点的支持度Supportpro_j
Support pro _ j = Σ k ∈ G u ; ( k , j ) ∈ E ′ Prob pro _ k * Weight ( k , j )
其中Probpro_k表示在Gu上蛋白质j的邻居蛋白质结点k的存在概率,Weight(k,j)表示蛋白质k与蛋白质j的相互作用权值;如果步骤二中输入的蛋白质相互作用数据是加权的,则Weight(k,j)依据蛋白质相互作用数据确定;如果步骤二中输入的蛋白质相互作用数据是非加权的,则令Weight(k,j)=1;
通过基因表达谱数据在蛋白质相互作用网络上给边加权,可以构造加权蛋白质相互作用网络。对于非加权蛋白质相互作用网络,两个蛋白质之间的关系可以简单地用二进制值:0和1来表示;其中,1表示两个蛋白质之间存在相互作用,而0则表示这两个蛋白质之间不存在相互作用。在加权蛋白质相互作用网络中,边的取值位于0到1之间。在本发明构造的蛋白质相互作用无向图中,在没有基因表达谱数据的情况下,令表示邻居蛋白质之间相互作用信息的边的权值为1。
计算蛋白质j的每个邻居蛋白质结点的贡献度,计算公式为:Probpro_k*Weight(k,j),判断其是否大于设置的阈值,若低于设置的阈值,认为该邻居蛋白质结点的贡献度为假阳性,则在计算蛋白质j所获得的邻居蛋白质结点的支持度时,不考虑该邻居蛋白质;
步骤五:调整共享肽i映射到蛋白质j的概率Probi_j
Prob i _ j = Support pro _ j * Prob pro _ j SumSupport pep _ i
其中,SumSupportpep_i表示共享肽i所映射到的所有的蛋白质所获得的支持度之和,计算公式为: SumSupport pep _ i = Σ i ∈ G v ; ( i , j ) ∈ E Support pro _ j * Prob pro _ j ; Supportpro_j表示蛋白质j所获得的邻居结点的支持度,Probpro_j表示第j个蛋白质的存在概率;
根据调整后共享肽i映射到蛋白质j的概率Probi_j,利用步骤三中的公式重新计算蛋白质的存在概率Probpro_j
步骤六:判断蛋白质的存在概率是否收敛,由于本发明是采用迭代方式来计算蛋白质存在概率,即检查本次计算得到的蛋白质的存在概率与上一次计算得到的蛋白质存在概率有没有变化;如果没有变化,则输出蛋白质的存在概率列表;否则转步骤四。
进一步地,所述质谱识别采用Sequest、Mascot、X!Tandem或PeptideProphet软件。
进一步地,所述酶切采用胰蛋白酶【Trypsin】或甲酸【Formic acid】。
进一步地,所述蛋白质相互作用数据来源于DIP数据库。
进一步地,所述步骤四中阈值默认设置为0.1。
有益效果:
本发明的方法在鸟枪法蛋白质组学数据上通过融合蛋白质相互作用网络信息,定义了新的蛋白质鉴定模型,不仅考虑了肽到蛋白质的映射关系,而且引入了蛋白质相互作用网络的信息,利用共享肽映射到的所有的蛋白质所获得的邻居蛋白质结点的支持度迭代调整该蛋白质所对应的共享肽i映射到蛋白质j的概率,从而调整蛋白质的存在概率。该方法能识别大部分的蛋白质,与其它鉴定方法比较,具有较高的精度。
本发明的方法对蛋白质相互作用的大规模数据中的假阳性设定了阈值,能够在蛋白质相互作用数据还不完善且具有较高噪声的情况下有效地识别蛋白质,为生物学家进行蛋白质识别的实验和进一步研究提供有价值的参考信息。
附图说明
图1:本发明建立的模型图;
图2:本发明的流程图;
图3:本发明方法与其他方法比较,鉴定出的真阳性蛋白质数量—q值曲线图
具体实施方式
一、基于蛋白质相互作用网络和蛋白质组学数据的蛋白质鉴定模型(PPIPEP)
本发明在鸟枪法蛋白质组学数据上通过融合蛋白质相互作用网络信息,定义了新的蛋白质鉴定模型PPIPEP,其模型图如图1所示,在此模型的基础上推断出蛋白质的存在概率,流程如图2所示。先输入一组蛋白质相互作用数据和肽的存在概率信息。本发明可以划分为6个子过程:建立肽映射蛋白质相的二分图,计算蛋白质的存在概率,融合蛋白质相互作用信息,计算蛋白质结点所获得的邻居蛋白质结点的支持度,迭代调整共享肽映射到蛋白质的概率和蛋白质的存在概率,以及输出结果。
子过程1:建立肽映射蛋白质相的二分图。输入一组肽的存在概率,该数据来源于质谱肽识别软件,如:Sequest、Mascot、X!Tandem、PeptideProphet等软件,根据阈值参数过滤低概率的肽,低概率的默认阈值为0.05。建立肽映射蛋白质的二分图Gv(Ni,Mj,E),二分图Ni结点为肽,Mj结点为蛋白质,边为肽和蛋白质映射关系。
子过程2:计算蛋白质的存在概率。
肽的存在概率定义为Probpep_i,表示第i个肽的存在概率,该概率来自于输入的质谱肽识别软件,肽的度数定义为Deg(pep_i),表示肽所映射的蛋白质数;定义Probi_j为肽i映射到蛋白质j的概率,计算Probi_j的概率参照公式1。
Prob i _ j = Prob pep _ i Deg ( pep _ i ) - - - ( 1 )
蛋白质的存在概率定义为Probpro_j,表示第j个蛋白质的概率,计算的Probpro_j的概率参照公式2。其中Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数,通过二分图中蛋白质结点的度数得到,Theory(pro_j)表示按某种酶切方式,如Trypsin、Formic acid等,蛋白质j所包含的理论肽的匹配数。
Prob pro _ j = [ 1 - Π i ∈ G v ; ( i , j ) ∈ E ( 1 - Prob i _ j ) ] - log ( Deg ( pro _ j ) Theory ( pro _ j ) ) - - - ( 2 )
子过程3:融合蛋白质相互作用信息。输入一组蛋白质相互作用数据,过滤其中重复相互作用和自相互作用的数据,在二分图的蛋白质侧定义一个加权网络图Gu(Nu,E’),图G中Nu结点与二分图Mj结点一致,图E’表示蛋白质相互作用信息,Weight(k,j)定义为蛋白质k与蛋白质j的相互作用权值。
子过程4:计算蛋白质所获得的的邻居蛋白质结点的支持度。【支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了。这就涉及到如何正确设置支持度的问题。】从二分图蛋白质侧Mj的列表开始,利用蛋白质相互作用网络信息,根据公式3分别计算每一个蛋白质所获得的的邻居蛋白质结点的支持度。在计算邻居蛋白质结点的支持度时,计算每个邻居蛋白质结点的贡献度,计算公式为:Probpro_k*Weight(k,j),判断是否大于设置的阈值,若低于阈值,认为邻居蛋白质结点的贡献度为假阳性【即检测显示检出,但是实际不存在检出目的物的现象】,并将其过滤。蛋白质j所获得的邻居蛋白质结点的支持度Supportpro_j,定义为在Gu上与蛋白质j相连的所有边的权值乘以邻居蛋白质j的存在概率之和,计算公式参照公式3。
Support pro _ j = Σ k ∈ G u ; ( k , j ) ∈ E ′ Prob pro _ k * Weight ( k , j ) - - - ( 3 )
子过程5:迭代调整共享肽和蛋白质的概率。二分图Gv中i结点度Deg(pep_i)大于1可以定义为共享肽,即一个肽序列对应多个蛋白质序列。搜索肽结点中的所有共享肽,对每一个共享的肽,获取其所映射的蛋白质,计算共享肽映射的蛋白质所获得的支持度之和SumSupportpep_i,,即二分图Gv中肽侧大于1的Ni结点所映射的蛋白质结点的Supportpro_j乘该蛋白质结点的存在概率之和。计算公式参照公式4。
SumSupport pep _ i = Σ i ∈ G v ; ( i , j ) ∈ E Support pro _ j * Prob pro _ j - - - ( 4 )
利用该值根据公式5调整共享肽映射到蛋白质的概率。根据调整后共享肽映射到蛋白质的概率重新计算蛋白质的存在概率,迭代执行上述的步骤,直至蛋白质的存在概率收敛。
调整共享肽i到蛋白质j的概率公式参照公式5。
Prob i _ j = Support pro _ j * Prob pro _ j SumSupport pep _ i - - - ( 5 )
子过程6:本发明最终输出结果为所有被鉴定出的蛋白质列表和其存在概率。
二、基于蛋白质相互作用网络和蛋白质组学数据的蛋白质鉴定方法(PPIPEP)的有效性验证
为了验证方法PPIPEP的有效性和相比于其他方法的性能优越性,我们将PPIPEP方法应用于酵母蛋白质组学数据和DIP数据库中的酵母蛋白质相互作用网络。将方法PPIPEP与ProteinProphet(PP),Fido and ProteinLP(PLP)等其他方法在鉴定的蛋白质精确度和假发现率等方面进行了比较。
1.PPIPEP与其他鉴定方法在精确度方面的比较
由于每种方法鉴定的蛋白质数量不同,并且推断的蛋白质存在概率的分布也不相同。为了综合考虑这些因素,我们将从蛋白质网络中识别的蛋白质分成简单蛋白质(Simpleproteins)和非简单蛋白质(Degenerate proteins),非简单蛋白质定义为蛋白质序列中包含共享肽的概率在0.9以上的蛋白质。将以ProteinProphet测出的存在概率为1的蛋白质个数作为阈值k,来统计各个方法的精确度(Accuracy),精确度定义为TP/(TP+FP)。分别执行ProteinProphet(PP),Fido and ProteinLP(PLP)、PPIPEP方法,比较前k个蛋白质中SimpleProteins和Degenerateproteins的真阳性(True Positive)和假阳性(False Positive)值,以及精确度(Accuracy)。
表1方法PPIPEP与其他方法鉴定的蛋白质在精确度方面的比较
在表1的数据中ProteinProphet(PP)测出概率为1的蛋白质个数为377个。从表1可以看出,方法PPIPEP在蛋白质鉴定过程中,共鉴定出363个正确的蛋白质,其中289和简单蛋白质和74个非简单蛋白质,较其他方法能鉴定出更多的简单蛋白质(即未包含概率大于0.9以上的共享肽),鉴定正确的蛋白质数量和比例都高于其他各种方法,如表1中的精确度一栏。由于在鉴定过程中共享肽映射到蛋白质的概率不断被调整,部分非简单蛋白质的中的共享肽映射到蛋白质的概率也被调整,通过计算表1中各方法非简单蛋白质的精确度,表明本发明方法PPIPEP对非简单蛋白质的鉴定精确度也高于其他方法。
2.PPIPEP与其他鉴定方法在假发现率方面的比较
通过真阳性蛋白质数量—q值曲线图来评估比较不同方法的性能。q值定义为在一定的阈值下取最小的假发现率的值。假发现率定义为在概率阈值t下假阳性值除以假阳性与真阳性之和(FP/(TP+FP))。方法PPIPEP与其他方法在鉴定蛋白质方法的真阳性蛋白质数量—q值曲线图如图3所示,图的意义在表示于各方法在一定的鉴定错误率下,能正确鉴定存在的蛋白质的数量。图3中表明PPIPEP方法具有较好的性能。

Claims (5)

1.一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,包括以下步骤:
步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率Probpep_i,过滤概率小于0.05的肽;
步骤二:根据过滤后的肽建立肽映射蛋白质的二分图Gv(Ni,Mj,E),其中Ni为肽结点集合,Mj为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合;
输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据,在二分图上蛋白质侧建立蛋白质相互作用无向图Gu(Nu,E’),其中Nu为蛋白质结点集合,Nu结点集合与二分图中Mj结点集合相同,E’为表示蛋白质相互作用信息的边的集合;
步骤三:计算Gv中蛋白质的存在概率Probpro_j
Prob pro _ j = [ 1 - Π i ∈ G v ; ( i , j ) ∈ E ( 1 - Prob i _ j ) ] - log ( Deg ( pro _ j ) Theory ( pro _ j ) )
其中,Probpro_j表示蛋白质j的存在概率,Probi_j表示肽i映射到蛋白质j的概率,根据公式计算得到,其中Probpep_i表示肽i的存在概率,Deg(pep_i)表示二分图Gv中i结点的度;Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数,即为二分图Gv中j结点的度;Theory(pro_j)表示按某种酶切方式,蛋白质j所包含的理论肽的匹配数;所述度是指和该结点相关联的边的条数;
步骤四:计算蛋白质j所获得的邻居蛋白质结点的支持度Supportpro_j
Support pro _ j = Σ k ∈ G u ; ( k , j ) ∈ E ′ Prob pro _ k * Weight ( k , j )
其中Probpro_k表示在Gu上蛋白质j的邻居蛋白质结点k的存在概率,Weight(k,j)表示蛋白质k与蛋白质j的相互作用权值;如果步骤二中输入的蛋白质相互作用数据是加权的,则Weight(k,j)依据蛋白质相互作用数据确定;如果步骤二中输入的蛋白质相互作用数据是非加权的,则令Weight(k,j)=1;
计算蛋白质j的每个邻居蛋白质结点的贡献度,计算公式为:Probpro_k*Weight(k,j),判断其是否大于设置的阈值,若低于设置的阈值,认为该邻居蛋白质结点的贡献度为假阳性,则在计算蛋白质j所获得的邻居蛋白质结点的支持度时,不考虑该邻居蛋白质;
步骤五:调整共享肽i映射到蛋白质j的概率Probi_j
Prob i _ j = Support pro _ j * Prob pro _ j SumSupport pep _ i
其中,SumSupportpep_i表示共享肽i所映射到的所有的蛋白质所获得的支持度之和,计算公式为: SumSupport pep _ i = Σ i ∈ G v ; ( i , j ) ∈ E Support pro _ j * Prob pro _ j ; Supportpro_j表示蛋白质j所获得的邻居结点的支持度,Probpro_j表示第j个蛋白质的存在概率;
根据调整后共享肽i映射到蛋白质j的概率Probi_j,利用步骤三中的公式重新计算蛋白质的存在概率Probpro_j
步骤六:判断蛋白质的存在概率是否收敛,即检查本次计算得到的蛋白质的存在概率与上一次计算得到的蛋白质存在概率有没有变化;如果没有变化,则输出蛋白质的存在概率列表;否则转步骤四。
2.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,所述质谱识别采用Sequest、Mascot、X!Tandem或PeptideProphet软件。
3.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,所述酶切采用胰蛋白酶或甲酸。
4.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,所述蛋白质相互作用数据来源于DIP数据库。
5.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,所述步骤四中阈值默认设置为0.1。
CN201410399487.5A 2014-08-14 2014-08-14 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法 Active CN104156603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410399487.5A CN104156603B (zh) 2014-08-14 2014-08-14 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410399487.5A CN104156603B (zh) 2014-08-14 2014-08-14 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

Publications (2)

Publication Number Publication Date
CN104156603A true CN104156603A (zh) 2014-11-19
CN104156603B CN104156603B (zh) 2017-02-15

Family

ID=51882101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410399487.5A Active CN104156603B (zh) 2014-08-14 2014-08-14 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

Country Status (1)

Country Link
CN (1) CN104156603B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977548A (zh) * 2017-12-05 2018-05-01 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN108520171A (zh) * 2018-04-09 2018-09-11 东北大学 一种蛋白质相互作用网络中关键蛋白质发现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060147999A1 (en) * 2004-12-08 2006-07-06 Choi Jae H Method and apparatus for homology-based complex detection in a protein-protein interaction network
CN101059824A (zh) * 2006-04-21 2007-10-24 富士通株式会社 支持基因相互作用网络分析的方法和设备以及计算机产品
US20080133197A1 (en) * 2006-12-04 2008-06-05 Electronics And Telecommunications Research Institute Layout method for protein-protein interaction networks based on seed protein

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060147999A1 (en) * 2004-12-08 2006-07-06 Choi Jae H Method and apparatus for homology-based complex detection in a protein-protein interaction network
CN101059824A (zh) * 2006-04-21 2007-10-24 富士通株式会社 支持基因相互作用网络分析的方法和设备以及计算机产品
US20080133197A1 (en) * 2006-12-04 2008-06-05 Electronics And Telecommunications Research Institute Layout method for protein-protein interaction networks based on seed protein

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI PENG等: "Improving protein function prediction using domain and protein complexes in PPI networks", 《BMC SYSTEM BIOLOGY》 *
李敏等: "蛋白质相互作用网络分析的图聚类方法研究进展", 《计算机工程与科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977548A (zh) * 2017-12-05 2018-05-01 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN107977548B (zh) * 2017-12-05 2020-04-07 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN108520171A (zh) * 2018-04-09 2018-09-11 东北大学 一种蛋白质相互作用网络中关键蛋白质发现方法
CN108520171B (zh) * 2018-04-09 2020-07-17 东北大学 一种蛋白质相互作用网络中关键蛋白质发现方法

Also Published As

Publication number Publication date
CN104156603B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
Ciriello et al. AlignNemo: a local network alignment method to integrate homology and topology
EP3341875A1 (en) An integrated method and system for identifying functional patient-specific somatic aberations using multi-omic cancer profiles
Veerappa et al. Understanding clusters of optimal solutions in multi-objective decision problems
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Micale et al. GASOLINE: a greedy and stochastic algorithm for optimal local multiple alignment of interaction networks
Shojaie et al. Inferring regulatory networks by combining perturbation screens and steady state gene expression profiles
CN106372458A (zh) 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法
Zhang et al. Predicting disease-related RNA associations based on graph convolutional attention network
Yong et al. Discovery of small protein complexes from PPI networks with size-specific supervised weighting
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
Attea et al. Improving the performance of evolutionary-based complex detection models in protein–protein interaction networks
CN104156603A (zh) 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法
Liu et al. A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks
Dehman Spatial clustering of linkage disequilibrium blocks for genome-wide association studies
Alaimo et al. Computational methods to Investigate the Impact of miRNAs on pathways
Kuželka et al. Gaussian logic for predictive classification
CN115116551A (zh) 基于非负矩阵分解框架的预测蛋白质相互作用关系的方法
Manikandan et al. Detection of overlapping protein complexes in gene expression, phenotype and pathways of Saccharomyces cerevisiae using Prorank based Fuzzy algorithm
Wang et al. Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method
Cingovska et al. Protein Function Prediction by Clustering of Protein-Protein Interaction Network
Li et al. Functional dissection of regulatory models using gene expression data of deletion mutants
Muraro et al. Prioritisation and network analysis of Crohn's disease susceptibility genes
CN113450872B (zh) 磷酸化位点特异激酶的预测方法
CN115985388B (zh) 基于预处理降噪和生物中心法则的多组学集成方法和系统
Miok et al. Ridge estimation of network models from time‐course omics data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant