CN104156603A

CN104156603A - 基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

Info

Publication number: CN104156603A
Application number: CN201410399487.5A
Authority: CN
Inventors: 王建新; 钟坚成; 李敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2014-08-14
Filing date: 2014-08-14
Publication date: 2014-11-19
Anticipated expiration: 2034-08-14
Also published as: CN104156603B

Abstract

本发明公开了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。该方法基于相互作用蛋白质间的存在概率亦相互影响的现象，在鸟枪法蛋白质组学数据上融合蛋白质相互作用网络信息，定义了新的蛋白质鉴定图模型，利用图模型中蛋白质的存在概率及其所获得的邻居蛋白质结点的支持度来调整肽映射到蛋白质的概率，从而调整蛋白质的存在概率。该方法能识别大部分的蛋白质，与其它鉴定方法比较，具有较的高的精确度。为生物学家通过蛋白质组学数据推断和鉴定蛋白质的实验以及进一步研究提供有价值的参考信息。

Description

基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法

技术领域

本发明属于系统生物学领域，尤其涉及一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。

背景技术

人类基因组测序的完成标志着后基因组时代的来临，而蛋白质组学是后基因组时代中最重要的领域之一。蛋白质组学的目的是通过系统地、定量地研究蛋白质在细胞组织中的表达情况，来揭示基因的功能、蛋白质之间的关系以及生命过程的运行机制。其主要任务包括：蛋白质序列鉴定、蛋白质修饰鉴定、蛋白质定量分析、蛋白质结构预测和蛋白质功能预测等问题，而确定出某种细胞器官或组织在一定条件下表达出了哪些蛋白质是其最基本任务之一。

目前，蛋白质鉴定主要是采用鸟枪法蛋白质组学研究方法，其步骤是先将标识生物样本中的蛋白质混合物经过简单或不经过分离就被酶解为肽段混合物，肽段混合物经色谱分离和离子化后，经串联质谱仪产生质谱数据用于肽段鉴定，最后再从鉴定的肽段推导可能的蛋白质。该方法可在短时间内获得大量质谱数据并鉴定出蛋白质。

目前，用于鸟枪法蛋白质组学中鉴定蛋白质的方法包括基于图模型、基于统计模型、基于优化模型、基于节俭模型、基于多信息集成的分析方法。

基于统计模型鉴定方法主要包括ProteinProphet、PANORAMICS、MSBayesPro、Fido、Qscore等方法。其主要思想是用肽鉴定软件得出的肽得分和相关信息，通过统计方法估算出给定蛋白质存在的概率。基于统计模型方法可以分为非参数统计模型和参数统计模型。非参数统计模式未考虑肽样本的概率分布，较参数统计模型而言，非参数统计模型具有更高的鲁棒性。ProteinProphet是应用最广泛的蛋白质推断方法，该方法是采用一个迭代过程来估计蛋白质概率，在迭代过程中不断调整蛋白质概率。PANORAMICS也是一个与ProteinProphet类似的方法，它在迭代推断蛋白质过程中不断的调整肽和蛋白质概率，直到收敛。针对一个肽映射多个蛋白质的情况，MSBayesPro、Fido应用贝叶斯方法推断蛋白质存在概率。Qscore是一个参数统计模型来预测蛋白质概率，该方法应用一个类似于二项式分布的统计算法，其参数使用如蛋白质大小、肽匹配质量、一个蛋白质匹配的肽数量、质谱数据集大小等。PROT_ROBE方法在蛋白质数据库搜索能得到适当肽的概率时，使用二项式分布模型推断蛋白质概率，它还设计了一个多项式模型用于任何蛋白质数据库搜索的肽结果。ComByne应用p值方法对偶然出现的肽的概率进行建模，并充分利用蛋白质长度、保留时间和谱相关系数等信息，采用多重假设检验方法来评估蛋白质存在可信度。

基于节俭模型鉴定方法主要包括IDPicker、DBParser、MassSieve、LDFA、ProteinLasso等方法。这些方法的主要思想是将肽和蛋白质描述为二分图模型，使用最少的蛋白质子集来解释所有被标识的肽，将问题规约为集合覆盖问题(NP难问题)。IDPicker首先根据用户设定的假阳率过滤低可信度的肽集合，然后使用贪婪算法去选择候选的蛋白质来覆盖所有保留的肽。该方法还支持把重复的肽标识归类。DBParser将蛋白质分成6个层次，应用节俭模型分别得到每一个层次的蛋白质列表。该方法首先获得无二义的蛋白质列表，然后得出不明确的蛋白质列表，最后对已推断的蛋白质去冗。LDFA是引入肽的可测度，应用简单的贪婪算法解决蛋白质集合覆盖所有标识肽问题。ProteinLasso也引入了肽的可测度，应用Lasso算法解决蛋白质集合覆盖所有标识肽问题。

基于优化模型的主要思想是：在二分图的模型的基础上，应用优化模型获取所有的满足一些简单标准的潜在蛋白质列表，这是基于蛋白质样本中有一大部分是同源蛋白质的假设。DTASelect是经典的优化模型，该方法能推断出的包含充分数量肽的蛋白质。

基于多元信息集成的分析方法的主要思想是引入一些额外已知信息，如原始的二级质谱数据、一级质谱数据、mRNA表达数据、蛋白质相互作用网络、基因模型等，来提高蛋白质鉴定的准确度，以及推断出一些未被肽识别的蛋白质。方法要包括PIPER、CEA、MSNet、MSpresso、nested model、HSM、Barista、PSC、PeptideClassifier等方法。HSM融合了原始的二级质谱数据，该方法构造了层次统计模型根据串联质谱数据来评估肽和蛋白质自信度。Nested model也融合了质谱数据，提出了一个反馈机制用于同时估计蛋白质和肽的概率，但该方法没有考虑一个肽映射多个蛋白质的情况。Barista应用三部图来描述蛋白质鉴定问题，三部图中每层分别对应质谱、肽和蛋白质，三部图和一些肽谱匹配的特征作为Barista的输入，用机器学习方法直接优化蛋白质总数，并发掘在已鉴定蛋白质中肽谱匹配得分低的肽和谱。Scaffold采用了肽-谱-蛋白质图结构，该方法选择没有选择一个最优的肽，还是选择了对应的多个可能的肽，然后构造肽组和蛋白质间的多对多的关系，最后采用贪婪算法鉴定出最有可能的蛋白质。PIPER提出来源于相同蛋白质的肽具有相关的表达谱的假设，融合肽表达谱信息来鉴定蛋白质，通过表达谱相关性过滤，该方法输出结果包含差异表达蛋白质和假阳错误率的估计。CEA和MSNet在进行蛋白质鉴定后，通过融合蛋白质相互作用网络信息推断出高自信的蛋白质列表。MSpresso基于mRNA的表达越高的蛋白质存在可能性越大的假设，通过融合mRNA表达信息对鉴定出的蛋白质得分进行重新调整。

上述各类方法从不同的角度解决了从肽推断蛋白质中存在的一些问题。其中，基于二分图模型的方法因其建模简单而得到了广泛应用。之前提出的绝大多数的方法都是基于二分图模型来设计的。但是，由于蛋白质推断问题本身的复杂性，如：一个肽映射不同蛋白质的问题(即共享肽问题)，基于二分图模型的方法无法准确推断出共享肽归属哪个蛋白质。此外，当前的很多鉴定方法仍然处于“黑盒子”阶段，它们很少考虑共享肽，或者没有对共享肽映射到蛋白质的关系进行解释，这不利于进一步的蛋白质鉴定和定量分析工作。由于蛋白质并不是孤立地起作用，本发明从蛋白质之间相互作用的角度出发，借鉴融合多元信息集成的分析方法，深层次使用蛋白质相互作用网络对以前构建的二分图模型(肽到蛋白质模型)进行重新定义，在此基础上设计蛋白质鉴定方法，从而提高蛋白质定性的精确度。蛋白质鉴定时，存在一个肽映射不同蛋白质的情况(即共享肽)，而现有技术很少考虑共享肽，或者没有对共享肽映射到蛋白质的关系进行解释，这不利于进一步的蛋白质鉴定和定量分析。

发明内容

本发明所要解决的技术问题是：基于相互作用蛋白质间的存在概率亦相互影响的现象，提出了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，该方法识别精度高。

本发明的技术方案为：

一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，包括以下步骤：

步骤一：通过质谱识别软件比较理论质谱图和实验质谱图，得到肽的存在概率Prob_{pep_i}，过滤概率小于0.05的肽；

步骤二：根据过滤后的肽建立肽映射蛋白质的二分图G_v(N_i,M_j,E)，其中Ni为肽结点集合，M_j为蛋白质结点集合，E为表示肽和蛋白质映射关系的边的集合；

输入一组蛋白质相互作用数据，过滤掉其中的重复相互作用和自相互作用数据，在二分图上蛋白质侧建立蛋白质相互作用无向图G_u(N_u,E’)，其中N_u为蛋白质结点集合，N_u结点集合与二分图中M_j结点集合相同，E’为表示蛋白质相互作用信息的边的集合；

步骤三：计算G_v中蛋白质的存在概率Prob_{pro_j}：

{Prob}_{pro_j} = {[1 - Π_{i &Element; G_{v}; (i, j) &Element; E} (1 - {Prob}_{i_j})]}^{- \log (\frac{Deg (pro_j)}{Theory (pro_j)})}

其中，Prob_{pro_j}表示蛋白质j的存在概率，Prob_{i_j}表示肽i映射到蛋白质j的概率，根据公式计算得到，其中Prob_{pep_i}表示肽i的存在概率，Deg(pep_i)表示二分图G_v中i结点的度；Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数，即为二分图G_v中j结点的度；Theory(pro_j)表示按某种酶切方式，蛋白质j所包含的理论肽的匹配数；所述度是指和该结点相关联的边的条数；

计算蛋白质j的存在概率要考虑所有映射到蛋白质j的肽，包括唯一肽和共享肽。

步骤四：计算蛋白质j所获得的邻居蛋白质结点的支持度Support_{pro_j}：

{Support}_{pro_j} = \underset{k &Element; G_{u}; (k, j) &Element; E^{'}}{Σ} {Prob}_{pro_k} * Weight (k, j)

其中Prob_{pro_k}表示在G_u上蛋白质j的邻居蛋白质结点k的存在概率，Weight(k,j)表示蛋白质k与蛋白质j的相互作用权值；如果步骤二中输入的蛋白质相互作用数据是加权的，则Weight(k,j)依据蛋白质相互作用数据确定；如果步骤二中输入的蛋白质相互作用数据是非加权的，则令Weight(k,j)＝1；

通过基因表达谱数据在蛋白质相互作用网络上给边加权，可以构造加权蛋白质相互作用网络。对于非加权蛋白质相互作用网络，两个蛋白质之间的关系可以简单地用二进制值：0和1来表示；其中，1表示两个蛋白质之间存在相互作用，而0则表示这两个蛋白质之间不存在相互作用。在加权蛋白质相互作用网络中，边的取值位于0到1之间。在本发明构造的蛋白质相互作用无向图中，在没有基因表达谱数据的情况下，令表示邻居蛋白质之间相互作用信息的边的权值为1。

计算蛋白质j的每个邻居蛋白质结点的贡献度，计算公式为：Prob_{pro_k}*Weight(k,j)，判断其是否大于设置的阈值，若低于设置的阈值，认为该邻居蛋白质结点的贡献度为假阳性，则在计算蛋白质j所获得的邻居蛋白质结点的支持度时，不考虑该邻居蛋白质；

步骤五：调整共享肽i映射到蛋白质j的概率Prob_{i_j}：

{Prob}_{i_j} = \frac{{Support}_{pro_j} * {Prob}_{pro_j}}{{SumSupport}_{pep_i}}

其中，SumSupport_{pep_i}表示共享肽i所映射到的所有的蛋白质所获得的支持度之和，计算公式为：

{SumSupport}_{pep_i} = Σ_{i &Element; G_{v}; (i, j) &Element; E} {Support}_{pro_j} * {Prob}_{pro_j};

Support_{pro_j}表示蛋白质j所获得的邻居结点的支持度，Prob_{pro_j}表示第j个蛋白质的存在概率；

根据调整后共享肽i映射到蛋白质j的概率Prob_{i_j}，利用步骤三中的公式重新计算蛋白质的存在概率Prob_{pro_j}；

步骤六：判断蛋白质的存在概率是否收敛，由于本发明是采用迭代方式来计算蛋白质存在概率，即检查本次计算得到的蛋白质的存在概率与上一次计算得到的蛋白质存在概率有没有变化；如果没有变化，则输出蛋白质的存在概率列表；否则转步骤四。

进一步地，所述质谱识别采用Sequest、Mascot、X！Tandem或PeptideProphet软件。

进一步地，所述酶切采用胰蛋白酶【Trypsin】或甲酸【Formic acid】。

进一步地，所述蛋白质相互作用数据来源于DIP数据库。

进一步地，所述步骤四中阈值默认设置为0.1。

有益效果：

本发明的方法在鸟枪法蛋白质组学数据上通过融合蛋白质相互作用网络信息，定义了新的蛋白质鉴定模型，不仅考虑了肽到蛋白质的映射关系，而且引入了蛋白质相互作用网络的信息，利用共享肽映射到的所有的蛋白质所获得的邻居蛋白质结点的支持度迭代调整该蛋白质所对应的共享肽i映射到蛋白质j的概率，从而调整蛋白质的存在概率。该方法能识别大部分的蛋白质，与其它鉴定方法比较，具有较高的精度。

本发明的方法对蛋白质相互作用的大规模数据中的假阳性设定了阈值，能够在蛋白质相互作用数据还不完善且具有较高噪声的情况下有效地识别蛋白质，为生物学家进行蛋白质识别的实验和进一步研究提供有价值的参考信息。

附图说明

图1：本发明建立的模型图；

图2：本发明的流程图；

图3：本发明方法与其他方法比较，鉴定出的真阳性蛋白质数量—q值曲线图

具体实施方式

一、基于蛋白质相互作用网络和蛋白质组学数据的蛋白质鉴定模型(PPIPEP)

本发明在鸟枪法蛋白质组学数据上通过融合蛋白质相互作用网络信息，定义了新的蛋白质鉴定模型PPIPEP，其模型图如图1所示，在此模型的基础上推断出蛋白质的存在概率，流程如图2所示。先输入一组蛋白质相互作用数据和肽的存在概率信息。本发明可以划分为6个子过程：建立肽映射蛋白质相的二分图，计算蛋白质的存在概率，融合蛋白质相互作用信息，计算蛋白质结点所获得的邻居蛋白质结点的支持度，迭代调整共享肽映射到蛋白质的概率和蛋白质的存在概率，以及输出结果。

子过程1：建立肽映射蛋白质相的二分图。输入一组肽的存在概率，该数据来源于质谱肽识别软件，如：Sequest、Mascot、X！Tandem、PeptideProphet等软件，根据阈值参数过滤低概率的肽，低概率的默认阈值为0.05。建立肽映射蛋白质的二分图G_v(N_i,M_j,E)，二分图Ni结点为肽，M_j结点为蛋白质，边为肽和蛋白质映射关系。

子过程2：计算蛋白质的存在概率。

肽的存在概率定义为Prob_{pep_i}，表示第i个肽的存在概率，该概率来自于输入的质谱肽识别软件，肽的度数定义为Deg(pep_i)，表示肽所映射的蛋白质数；定义Prob_{i_j}为肽i映射到蛋白质j的概率，计算Prob_{i_j}的概率参照公式1。

{Prob}_{i_j} = \frac{{Prob}_{pep_i}}{Deg (pep_i)} - - - (1)

蛋白质的存在概率定义为Prob_{pro_j}，表示第j个蛋白质的概率，计算的Prob_{pro_j}的概率参照公式2。其中Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数，通过二分图中蛋白质结点的度数得到，Theory(pro_j)表示按某种酶切方式，如Trypsin、Formic acid等，蛋白质j所包含的理论肽的匹配数。

{Prob}_{pro_j} = {[1 - Π_{i &Element; G_{v}; (i, j) &Element; E} (1 - {Prob}_{i_j})]}^{- \log (\frac{Deg (pro_j)}{Theory (pro_j)})} - - - (2)

子过程3：融合蛋白质相互作用信息。输入一组蛋白质相互作用数据，过滤其中重复相互作用和自相互作用的数据，在二分图的蛋白质侧定义一个加权网络图G_u(N_u,E’)，图G中N_u结点与二分图M_j结点一致，图E’表示蛋白质相互作用信息，Weight(k,j)定义为蛋白质k与蛋白质j的相互作用权值。

子过程4：计算蛋白质所获得的的邻居蛋白质结点的支持度。【支持度揭示了A和B同时出现的频率，如果A和B一起出现的频率非常小，那么就说明了A和B之间的联系并不大；但若一起出现的频率非常频繁，那么A和B总是相关联的知识也许已经成为常识而存在了。这就涉及到如何正确设置支持度的问题。】从二分图蛋白质侧M_j的列表开始，利用蛋白质相互作用网络信息，根据公式3分别计算每一个蛋白质所获得的的邻居蛋白质结点的支持度。在计算邻居蛋白质结点的支持度时，计算每个邻居蛋白质结点的贡献度，计算公式为：Prob_{pro_k}*Weight(k,j)，判断是否大于设置的阈值，若低于阈值，认为邻居蛋白质结点的贡献度为假阳性【即检测显示检出，但是实际不存在检出目的物的现象】，并将其过滤。蛋白质j所获得的邻居蛋白质结点的支持度Support_{pro_j}，定义为在G_u上与蛋白质j相连的所有边的权值乘以邻居蛋白质j的存在概率之和，计算公式参照公式3。

{Support}_{pro_j} = Σ_{k &Element; G_{u}; (k, j) &Element; E^{'}} {Prob}_{pro_k} * Weight (k, j) - - - (3)

子过程5：迭代调整共享肽和蛋白质的概率。二分图G_v中i结点度Deg(pep_i)大于1可以定义为共享肽，即一个肽序列对应多个蛋白质序列。搜索肽结点中的所有共享肽，对每一个共享的肽，获取其所映射的蛋白质，计算共享肽映射的蛋白质所获得的支持度之和SumSupport_{pep_i}，，即二分图G_v中肽侧大于1的N_i结点所映射的蛋白质结点的Support_{pro_j}乘该蛋白质结点的存在概率之和。计算公式参照公式4。

{SumSupport}_{pep_i} = Σ_{i &Element; G_{v}; (i, j) &Element; E} {Support}_{pro_j} * {Prob}_{pro_j} - - - (4)

利用该值根据公式5调整共享肽映射到蛋白质的概率。根据调整后共享肽映射到蛋白质的概率重新计算蛋白质的存在概率，迭代执行上述的步骤，直至蛋白质的存在概率收敛。

调整共享肽i到蛋白质j的概率公式参照公式5。

{Prob}_{i_j} = \frac{{Support}_{pro_j} * {Prob}_{pro_j}}{{SumSupport}_{pep_i}} - - - (5)

子过程6：本发明最终输出结果为所有被鉴定出的蛋白质列表和其存在概率。

二、基于蛋白质相互作用网络和蛋白质组学数据的蛋白质鉴定方法(PPIPEP)的有效性验证

为了验证方法PPIPEP的有效性和相比于其他方法的性能优越性，我们将PPIPEP方法应用于酵母蛋白质组学数据和DIP数据库中的酵母蛋白质相互作用网络。将方法PPIPEP与ProteinProphet(PP),Fido and ProteinLP(PLP)等其他方法在鉴定的蛋白质精确度和假发现率等方面进行了比较。

1.PPIPEP与其他鉴定方法在精确度方面的比较

由于每种方法鉴定的蛋白质数量不同，并且推断的蛋白质存在概率的分布也不相同。为了综合考虑这些因素，我们将从蛋白质网络中识别的蛋白质分成简单蛋白质(Simpleproteins)和非简单蛋白质(Degenerate proteins)，非简单蛋白质定义为蛋白质序列中包含共享肽的概率在0.9以上的蛋白质。将以ProteinProphet测出的存在概率为1的蛋白质个数作为阈值k，来统计各个方法的精确度(Accuracy)，精确度定义为TP/(TP+FP)。分别执行ProteinProphet(PP),Fido and ProteinLP(PLP)、PPIPEP方法，比较前k个蛋白质中SimpleProteins和Degenerateproteins的真阳性(True Positive)和假阳性(False Positive)值，以及精确度(Accuracy)。

表1方法PPIPEP与其他方法鉴定的蛋白质在精确度方面的比较

在表1的数据中ProteinProphet(PP)测出概率为1的蛋白质个数为377个。从表1可以看出，方法PPIPEP在蛋白质鉴定过程中，共鉴定出363个正确的蛋白质，其中289和简单蛋白质和74个非简单蛋白质，较其他方法能鉴定出更多的简单蛋白质(即未包含概率大于0.9以上的共享肽)，鉴定正确的蛋白质数量和比例都高于其他各种方法，如表1中的精确度一栏。由于在鉴定过程中共享肽映射到蛋白质的概率不断被调整，部分非简单蛋白质的中的共享肽映射到蛋白质的概率也被调整，通过计算表1中各方法非简单蛋白质的精确度，表明本发明方法PPIPEP对非简单蛋白质的鉴定精确度也高于其他方法。

2.PPIPEP与其他鉴定方法在假发现率方面的比较

通过真阳性蛋白质数量—q值曲线图来评估比较不同方法的性能。q值定义为在一定的阈值下取最小的假发现率的值。假发现率定义为在概率阈值t下假阳性值除以假阳性与真阳性之和(FP/(TP+FP))。方法PPIPEP与其他方法在鉴定蛋白质方法的真阳性蛋白质数量—q值曲线图如图3所示，图的意义在表示于各方法在一定的鉴定错误率下，能正确鉴定存在的蛋白质的数量。图3中表明PPIPEP方法具有较好的性能。

Claims

1.一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，其特征在于，包括以下步骤：

步骤三：计算G_v中蛋白质的存在概率Prob_{pro_j}：

{Prob}_{pro_j} = {[1 - Π_{i &Element; G_{v}; (i, j) &Element; E} (1 - {Prob}_{i_j})]}^{- \log (\frac{Deg (pro_j)}{Theory (pro_j)})}

{Support}_{pro_j} = \underset{k &Element; G_{u}; (k, j) &Element; E^{'}}{Σ} {Prob}_{pro_k} * Weight (k, j)

步骤五：调整共享肽i映射到蛋白质j的概率Prob_{i_j}：

{Prob}_{i_j} = \frac{{Support}_{pro_j} * {Prob}_{pro_j}}{{SumSupport}_{pep_i}}

{SumSupport}_{pep_i} = Σ_{i &Element; G_{v}; (i, j) &Element; E} {Support}_{pro_j} * {Prob}_{pro_j};

步骤六：判断蛋白质的存在概率是否收敛，即检查本次计算得到的蛋白质的存在概率与上一次计算得到的蛋白质存在概率有没有变化；如果没有变化，则输出蛋白质的存在概率列表；否则转步骤四。

2.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，其特征在于，所述质谱识别采用Sequest、Mascot、X！Tandem或PeptideProphet软件。

3.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，其特征在于，所述酶切采用胰蛋白酶或甲酸。

4.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，其特征在于，所述蛋白质相互作用数据来源于DIP数据库。

5.根据权利要求1所述的基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法，其特征在于，所述步骤四中阈值默认设置为0.1。