CN101477089B

CN101477089B - 一种蛋白质翻译后修饰的发现方法

Info

Publication number: CN101477089B
Application number: CN2009100765888A
Authority: CN
Inventors: 付岩; 贺思敏; 王海鹏; 孙瑞祥
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-01-09
Filing date: 2009-01-09
Publication date: 2012-06-13
Anticipated expiration: 2029-01-09
Also published as: CN101477089A

Abstract

本发明提供一种蛋白质翻译后修饰的发现方法，包括：利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量；建立可能包含修饰质量的候选修饰质量区间；在每个所述的候选修饰质量区间上，估计所述谱图差异向量的混合分布，计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布；计算由所述蛋白质翻译后修饰导致的分布的均值，由所述均值的质量分量得到所述蛋白质翻译后修饰的精确质量实验值，由所述均值的保留时间分量得到所述蛋白质翻译后修饰对肽色谱保留时间的影响。本发明的方法具有高效、准确、鲁棒的优点。

Description

一种蛋白质翻译后修饰的发现方法

技术领域

本发明涉及生物遗传学中的蛋白质翻译后修饰，特别涉及蛋白质翻译后修饰的发现方法。

背景技术

众所周知，绝大多数生物的遗传信息保存在DNA中。DNA通过转录过程生成信使RNA，而信使RNA又通过翻译过程生成蛋白质，从而实现了遗传信息由DNA到RNA再到蛋白质的传递，这一过程也被称为生命的中心法则。在从RNA翻译生成蛋白质的过程中，20种氨基酸以肽键顺序相连所形成的链状分子被称为肽，而其中分子量达到一定级别的肽则被称为蛋白质。大多数蛋白质在翻译形成后，会在蛋白质中的某些氨基酸上增加某种功能团(如在蛋白质的N末端加入乙酰)，或增加了其他的蛋白质或肽，或改变了氨基酸的化学性质或结构，这一过程被称为发生了化学修饰，由于该过程发生在前述的翻译过程后，因此在蛋白质氨基酸上所发生的变化也被称为蛋白质翻译后修饰。蛋白质翻译后修饰能够改变氨基酸的化学性质，引起蛋白质结构的改变，扩充蛋白质的功能。很多蛋白质的重要生物活性都是在发生翻译后修饰之后才具有的。此外，在体外的蛋白质样品处理中，也经常会有意或无意的人为引入一些化学修饰。

目前已知的蛋白质修饰类型已有几百种，检测蛋白质样品中发生了哪些翻译后修饰对于蛋白质鉴定是个重要而困难的问题。液相色谱与质谱仪联用，并结合数据库搜索计算是目前蛋白质组学中鉴定蛋白质及其翻译后修饰的常用方法。在这种方法中，通过液相色谱与质谱仪联用可以得到蛋白质样品的实验串联质谱。实验串联质谱的获取过程包括：蛋白质样品首先被选定的蛋白酶水解，形成肽混合物；肽混合物通过液相色谱进行分离，不同物理化学性质的肽先后从色谱柱中流出(肽在色谱柱中停留的时间被称为保留时间)；从色谱柱中流出的肽不断进入质谱仪；肽在质谱仪中被离子化，具有特定质量电荷比的肽离子在能量作用下碎裂形成碎片离子，碎片离子被分离和检测形成肽碎片离子谱；通过以上过程便得到蛋白质的实验串联质谱。在得到实验串联质谱后就可以从实验串联质谱中鉴定肽的氨基酸序列，进而鉴定蛋白质。从实验串联质谱中鉴定肽的氨基酸序列时通常采用数据库搜索计算的方法。在计算过程中，数据库中所保存的蛋白质序列被模拟水解成肽，然后再将肽理论碎裂，生成各种肽的理论串联质谱；将模拟计算得到的多个理论串联质谱依次与前述液相色谱与质谱仪联用所得到的实验串联质谱相比较，如果生成实验串联质谱的肽序列存在于数据库中的话，就可能将其找到。在将理论串联质谱与实验串联质谱进行比较的过程中，由于理论串联质谱的数量通常很大，为了加快计算效率，一般先要根据实验串联质谱中的肽离子的质荷比对候选肽做过滤，只有当候选肽的理论质荷比与实验得到的肽离子质荷比相匹配时，才进行理论与实验串联质谱间的比较。从上述的比较过程可以看出，如果真实的肽发生了某种翻译后修饰，而在生成候选肽时又没有考虑这种修饰，那么正确的候选肽很有可能就不会进入搜索空间，也就不可能鉴定肽、蛋白质及其修饰。即使修饰候选肽进入搜索空间，如果不能正确指定修饰类型和发生的位点的话，也很难正确鉴定肽序列。在目前的蛋白质组实验中，质谱仪产生的大部分谱图不能有效解析，谱图解析率只有10％到30％，一个重要原因就是蛋白质中具有未知或未预料到的修饰，从而无法找到正确的候选肽，影响了后续的鉴定过程。

为了鉴定发生翻译后修饰的蛋白质，一种常见的基于串联质谱的鉴定方法是在数据库搜索时指定一些可变修饰类型，然后在生成候选肽时同时考虑发生和不发生指定修饰的情况，当候选肽中有多个可能的修饰位点时考虑所有可能的组合。这种方法考虑到了蛋白质翻译后修饰的动态性(相同的氨基酸位点可能发生某种修饰，也可能不发生)，但由于天然存在或人工引入的修饰类型有几百种(到2008年7月28日为止，Unimod数据库中有563个修饰条目)，并且大部分修饰都有多个特异性位点。所以，在数据库搜索时考虑过多的修饰类型是不现实的，这会导致搜索空间组合爆炸，大大降低数据库搜索的速度，同时导致搜索结果假阳性率增大。现有技术中的相应搜索引擎，如SEQUEST和Mascot，容许指定的可变修饰类型一般不超过10种，这显然不能满足实际需要。在一般情况下，实验人员对蛋白质样品中存在的修饰类型知之甚少，主要依靠经验猜测。大多数时候，蛋氨酸上的氧化修饰是数据库搜索时唯一指定的可变修饰。这样就可能会遗漏样品中存在的其他修饰类型。同时，很多由修饰肽产生的质谱数据得不到解析。

为了解决上述计算困难，有研究者提出了非限定的修饰鉴定方法，以发现蛋白质样品中存在的未知或预料之外的修饰。MS-Alignment是此类方法中目前最为著名的一种(参考文献：Tsur D.，Tanner S.，Zandi E.，Bafna V.，Pevzner P.A.Identification of post-translational modifications by blind searchof mass spectra.Nature Biotechnology，2005，23(12)：1562-1567)。MS-Alignment以一种类似基因组学中序列比对的方式，将理论质谱与实验质谱相比对，允许任意修饰的出现。但是，由于MS-Alignment在搜索数据库时放开了肽质量的限制，并且利用动态规划算法比对串联质谱中的碎片离子谱，因而计算复杂度很高。此外，MS-Alignment要求实验串联谱图必须具有良好的信噪比，以及跟理论串联谱图具有足够的相似性。但是实际上，修饰肽产生的串联谱图往往在修饰的作用下发生不规则的碎裂模式，甚至不完全的碎裂。因而，MS-Alignment在速度和准确性上都有局限性。

发明内容

本发明的目的是克服现有方法采用碎片离子谱信息检测蛋白质翻译后修饰的过程中，计算复杂度高、准确性受实验串联谱图质量影响的缺陷，从而提供一种高效、准确的蛋白质翻译后修饰的发现方法。

为了实现上述目的，本发明提供了一种蛋白质翻译后修饰的发现方法，包括：

步骤1)、利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量，所述谱图差异向量表示了两个实验串联质谱图间的肽质量差异和肽色谱保留时间差异；

步骤2)、建立可能包含修饰质量的候选修饰质量区间；

步骤3)、在每个所述的候选修饰质量区间上，估计所述谱图差异向量的混合分布，计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布；

步骤4)、根据包含所述蛋白质翻译后修饰的分布的属性，计算所述蛋白质翻译后修饰的精确质量值以及所述蛋白质翻译后修饰对肽色谱保留时间的影响。

上述技术方案中，在所述的步骤1)之前，还包括在所述实验串联质谱数据集中去除冗余的谱图数据。

上述技术方案中，所述的去除冗余的谱图数据包括：比较谱图数据中的肽质量，将具有近似肽质量的谱图数据作为相似的谱图数据，在相似谱图数据的集合中只保留一个谱图数据。

上述技术方案中，还包括：

步骤5)、根据所述蛋白质翻译后修饰的精确质量值以及对肽色谱保留时间的影响，推断所述蛋白质翻译后修饰的类型。

上述技术方案中，在所述的步骤2)中，根据所述的谱图差异向量建立肽质量差异的分布直方图，从肽质量差异的分布直方图中筛选出现频率高的肽质量差异，利用所述出现频率高的肽质量差异在所述肽质量差异的分布直方图上建立所述的候选修饰质量区间。

上述技术方案中，所述的从肽质量差异的分布直方图中筛选出现频率高的肽质量差异包括：

步骤2-1-1)、在所述肽质量差异的分布直方图上建立整数质量值为中心的质量窗口；

步骤2-1-2)、在所述质量窗口内提取出现频率最高的肽质量差异Δm^f；

步骤2-1-3)、为各个窗口中出现频率最高的肽质量差异Δm^f建立与出现次数counts相关的分布直方图，估计该分布直方图的随机分布，根据估计结果计算某一窗口中出现频率最高的肽质量差异的出现次数counts(Δm_i ^f)来自于随机分布的p-值；

步骤2-1-4)、对于所述p-值小于第一阈值的counts(Δm_i ^f)所对应的Δm_i ^f被认为是出现频率高的肽质量差异。

上述技术方案中，所述的第一阈值包括0.01。

上述技术方案中，所述的利用所述出现频率高的肽质量差异在所述肽质量差异的分布直方图上建立所述的候选修饰质量区间包括：

步骤2-2-1)、在所述出现频率高的肽质量差异值的附近查找最接近的整数质量值；

步骤2-2-2)、在所述整数质量值左右选择εDa大小，从而得到候选修饰质量区间；所述ε包括0.3至0.5之间的一个任意值。

上述技术方案中，在所述的步骤2)中，在所述肽质量差异的整个分布区间上建立质量窗口，将所建立的所有质量窗口作为候选修饰质量区间。

上述技术方案中，所述的建立质量窗口包括建立以整数质量为中心、宽度为2ε的质量窗口；所述ε包括0.3至0.5之间的一个任意值。

上述技术方案中，在所述的步骤3)中，所述的混合分布包括一个随机分布和n个由修饰导致的分布，则所述的计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布包括：

步骤3-1-1)、将所述n的值设为1；

步骤3-1-2)、估计谱图差异向量在当前候选修饰质量区间内的概率密度函数的参数，选择标准差最小的前n个分布为候选的由修饰导致的分布；所述概率密度函数为：

f (Δ) = α_{Rand} f_{Rand} (Δ) + Σ_{j = 1}^{n} α_{Mod, j} f_{Mod, j} (Δ)

α_{Rand} + Σ_{j = 1}^{n} α_{Mod, j} = 1

其中，f_Rand(Δ)表示该候选修饰质量区间内随机分布的概率密度函数，f_Mod，j表示该候选候选修饰质量区间内第j个修饰导致的分布的概率密度函数，α是混合系数；

步骤3-1-3)、观察估计所得到参数中的第j个修饰分布的分量Δm和ΔRt的标准差σ_m，j和σ_Rt，j，如果对于所有j＝1，2，...，n，满足σ_m，j＜T_m和σ_Rt，j＜T_Rt，则认为该质量区间至少含有n种修饰，并令n的值加1，重新执行步骤3-1-2)，其中T_m和T_Rt是两个阈值；当存在第j个修饰分布，使得σ_m，j＜T_m或σ_Rt，j＜T_Rt时，则确认该质量区间只含有n-1种修饰，令n的值减1，重新执行步骤3-1-2)中的参数估计后，结束操作。

上述技术方案中，在所述的步骤3-1-2)中，采用期望-最大化算法估计谱图差异向量在当前候选修饰质量区间内的概率密度函数的参数。

上述技术方案中，在所述的步骤3)中，所述的混合分布包括一个随机高斯分布和一个由修饰导致的高斯分布，则所述的计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布包括：

步骤3-2-1)、采用期望-最大化算法估计谱图差异向量在当前候选修饰质量区间内的高斯分布的概率密度函数的参数；所述概率密度函数为

f(Δ)＝α_Randf(Δ|μ_Rand，∑_Rand)+α_Modf(Δ|μ_Mod，∑_Mod)

α_Rand+α_Mod＝1

其中，α_Rand和α_Mod是混合系数，f(Δ|μ，∑)是均值为μ、协方差矩阵为∑的二维高斯分布的概率密度函数：

f (Δ | μ, Σ) = \frac{1}{2 π {(Σ)}^{1 / 2}} e^{- \frac{1}{2} {(Δ - μ)}^{T} Σ^{- 1} (Δ - μ)}

步骤3-2-2)、当估计所得参数中一个分布的标准差远小于另一个分布的标准差，则标准差小的分布为由所述蛋白质翻译后修饰导致的分布。

本发明还提供了一种蛋白质翻译后修饰的发现装置，包括：谱图差异向量计算模块、候选修饰质量区间建立模块、蛋白质翻译后修饰分布发现模块、精确质量实验值计算模块；其中，

所述的谱图差异向量计算模块利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量，所述谱图差异向量表示了两个实验串联质谱图间的肽质量差异和肽色谱保留时间差异；

所述的候选修饰质量区间建立模块建立可能包含修饰质量的候选修饰质量区间；

所述的蛋白质翻译后修饰分布发现模块在每个所述的候选修饰质量区间上，估计所述谱图差异向量的混合分布，计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布；

所述的精确质量实验值计算模块计算由所述蛋白质翻译后修饰导致的分布的均值，由所述均值的质量分量得到所述蛋白质翻译后修饰的精确质量实验值，由所述均值的保留时间分量得到所述蛋白质翻译后修饰对肽色谱保留时间的影响。

上述技术方案中，还包括冗余数据去除模块，所述的冗余数据去除模块在所述实验串联质谱数据集中去除冗余的谱图数据。

上述技术方案中，还包括蛋白质翻译后修饰类型推断模块，该模块根据所述蛋白质翻译后修饰的精确质量实验值以及对肽色谱保留时间的影响，推断所述蛋白质翻译后修饰的类型。

本发明又提供了一种蛋白质鉴定方法，包括：

步骤1)、采用所述的蛋白质翻译后修饰的发现方法确定蛋白质翻译后修饰的质量和类型；

步骤2)、在数据库搜索中，将所发现的蛋白质翻译后修饰的类型指定为可变修饰参数，实现对修饰肽和蛋白质的鉴定。

本发明再提供了一种修饰相关谱图对的检测方法，包括：

步骤1)、采用所述的蛋白质翻译后修饰的发现方法计算混合分布中的参数估计；

步骤2)、计算一对谱图的差异向量；

步骤3)、利用谱图对的差异向量以及混合分布中的参数估计，计算这对谱图被第k种修饰相关联的后验概率。

本发明的方法具有以下优点：

1、计算的高效性，本发明的方法只利用了肽质量和肽色谱保留时间两维信息对谱图进行聚类，而没有利用复杂的碎片离子谱信息，因而具有计算速度快的优点。

2、计算的准确性，本发明的方法采用了肽色谱保留时间的信息，较单纯采用肽质量信息的方法更为准确。

3、计算的鲁棒性，修饰往往对肽碎裂模式带来难以预测的影响，从而降低谱图聚类的准确性，但本发明的方法因为没有采用碎片离子谱信息，因而不受碎片离子谱低信噪比的影响。在真实数据上的实验表明，该方法可以有效地发现样品中存在的修饰类型，为肽鉴定和谱图解析提供重要指导信息。

附图说明

图1为通过质谱仪将肽混合物按质量电荷比分离所得到的含有肽ABCD的一级质谱图的示意图；

图2为通过质谱仪将肽混合物按质量电荷比分离所得到的含有肽ABC′D的一级质谱图的示意图；

图3为本发明的蛋白质翻译后修饰的发现方法的流程图；

图4为本发明中所采用的Δm分布直方图的示例图；

图5为本发明中所涉及的counts(Δm^f)的分布直方图的示例图；

图6为谱图差异向量的二维直方图的示例图；

图7为谱图差异向量的散点-直方图的示例图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

假设有一个蛋白质样品，首先通过现有的生物化学技术将该蛋白质样品酶解形成肽混合物，然后由液相色谱进行分离(不同物化性质的肽的色谱保留时间不同)，接着再通过质谱仪将肽混合物按质量电荷比(简称质荷比)分离，分离出的肽被打成碎片离子并被检测，形成肽碎片离子谱。上述操作过程使得通过液相色谱-质谱联用产生的实验串联质谱具有了肽色谱保留时间、肽质量、碎片离子谱三种信息。需要说明的是，对于高精度的质谱数据，肽离子的带电荷数量是可以检测出的，因而可以根据肽离子的质荷比计算肽质量。

例如，在一个蛋白质样品中，通常含有多种(如几十、几百、或成千上万)的蛋白质，而每一种蛋白质所包含的蛋白质个数一般又是很多的。若假设其中的一种蛋白质有如下的氨基酸序列：ABCDEFG……HIJK，则在整个蛋白质样品中，该种蛋白质可以用下面的方式表示：

ABCDEFG……HIJK

……

ABCDEFG……HIJK。

若在上述种类的蛋白质中，还存在在C上有一个蛋白质翻译后修饰(以下也可简称为修饰)的情况，则在蛋白质样品中，还具有以下面方式表示的蛋白质(其中符号’表示修饰)：

ABC′DEFG……HIJK

……

ABC′DEFG……HIJK。

在经过酶解后，会生成诸如ABCD、ABC′D、EFG、HIJK之类的各种肽，这些肽以及由其他蛋白质酶解生成的肽所组成的肽混合物先通过液相色谱分离，分离出的肽混合物不断进入质谱仪，在质谱仪中肽被离子化并被扫描检测，生成一级质谱图。不同物化性质的肽，从液相色谱中分离的时间不同。因此，不同的肽段可能出现在不同的一级质谱图中。例如，肽ABCD出现在一个如图1所示的一级质谱图中，而肽ABC′D因为带有一个修饰，物化性质有所改变，因而出现在随后的另一个如图2所示的一级质谱图中。这两个肽的质量相差57道尔顿(Da)，保留时间相差0.01秒(s)。肽离子可以被进一步打碎生成碎片离子谱，因为本发明不使用碎片离子谱信息，这里不对其做进一步介绍。通过以上色谱-质谱联用过程，肽ABCD的实验串联质谱图包括了肽ABCD的色谱保留时间、肽ABCD在生成一级质谱图时所得到的肽质量、以及肽ABCD的碎片离子谱等信息。其他类型的肽同样如此。需要说明的是，当蛋白质中某类肽的数目很多时，质谱仪会对该类肽扫描多次，从而为此类肽生成多个重复的实验串联质谱图，造成了实验串联质谱图的数据冗余。还需要说明的是，上述例子中的蛋白质序列只是构造出的假想蛋白质序列，并不表示真实的蛋白质序列。

由于修饰的动态性，修饰和非修饰的肽往往同时存在，两种状态的肽产生的质谱图在肽离子质量、色谱保留时间、碎片离子谱上都有关联。本发明提出了一种针对高精度质谱数据，利用肽质量和肽色谱保留时间信息对质谱图进行聚类，从而发现样本中高丰度修饰类型的方法。在该方法中，每对谱图被表示成一个由肽质量差和肽保留时间差构成的二维向量。由序列相同但仅相差某种修饰的肽产生的一对谱图，具有几乎固定的肽质量差和十分接近的色谱保留时间。使用混合分布概率模型可以将修饰相关的谱图对与随机的谱图对区分开来。通过这种方法，可以准确地确定修饰质量，刻画修饰对保留时间的影响，以及找出修饰相关的谱图对。由于本发明的方法只采用了实验串联质谱数据中的肽质量和肽色谱保留时间这两种类型的信息，而碎片离子谱所包含数据的大小要远远大于肽质量和肽色谱保留时间，因此，舍弃了碎片离子谱这一类型的数据也有助于提高整个方法的计算效率。与现有技术中采用碎片离子谱信息的MS-Alignment算法有很大的不同。此外，本发明使用的修饰发现方法无需搜索蛋白质序列数据库，因而比MS-Alignment效率高得多。

下面结合前面所提到的例子，并参考图3，对本发明方法的具体实现过程加以说明。

从前面的说明可以知道，由蛋白质样品所生成的实验串联质谱数据集中，存在数据冗余的现象。数据冗余会有两个缺点，一是冗余的谱图会增大计算量，从本发明后续的描述中可以知道，本发明方法需要计算并处理所有谱图对之间的肽质量差和肽色谱保留时间差，上述计算处理过程的规模与谱图数目的平方成正比；二是冗余谱图可能对肽质量和肽色谱保留时间差异的分布有不良影响。基于上述原因，在本发明的一个优选实施方式中，可以在对实验串联质谱中的肽色谱保留时间、肽质量做具体处理前，先去除其中的冗余数据，以提高后续的计算效率和准确性。在去除冗余数据的过程中，可以定义一个谱图间相似性的度量函数，对于相似度足够高的谱图，只保留其中一个谱图作为代表。一种简单的度量谱图相似性的方法是比较肽质量，如果两个谱图的肽质量足够接近，即当两个谱图的肽质量差在指定范围之内时，可以认为这两个谱图是相似的。对于高精度质谱仪(如LTQ-FT和LTQ-Orbitrap型质谱仪)，1-20ppm的质量差范围都是合适的选择。质量差范围越大，去冗余的效果越明显，数据缩减程度也就越大。以前述的蛋白质样品为例，若整个蛋白质中具有蛋白质翻译后修饰的肽ABC′D产生的谱图有5000个，而不具有蛋白质翻译后修饰的肽ABCD产生的谱图有10000个，则在去除冗余数据后，肽ABC′D和ABCD产生的谱图分别只剩下1个。这显然能够大大地减少计算量，从而提高计算效率。需要说明的是，在上述描述中，利用肽质量去除冗余数据的方法虽然简单，但也可能会去掉并非来自同一肽段的谱图，鉴于谱图数据的一个代表性子集对于发现高丰度的修饰类型实际上已经够用，因此，本发明的修饰发现方法并不受此影响。去除冗余数据有助于减少计算量，提高计算效率，但若不执行该操作，也不影响本发明方法的实现。

在实现本发明方法时，首先利用实验串联质谱数据集中各个谱图的肽质量和肽色谱保留时间计算所有谱图之间的谱图差异向量(用Δ表示)。所述的谱图差异向量是一个二维向量，该二维向量中包含肽质量差异(用Δm表示)和色谱保留时间差异(用ΔRt表示)这两个分量。一个二维向量表示了一个实验串联质谱数据集中任意两个谱图所组成的谱图对。一个谱图对用二维的谱图差异向量表示后，具有如下的表达式：

Δ＝<Δm，ΔRt> (1)

其中，Δm的度量单位为道尔顿(Da)，ΔRt的度量单位为秒(s)。由于在现有技术中，肽色谱保留时间也可以近似用质谱扫描号代表，在此情况下，ΔRt的度量单位也可以是扫描次数(scans)。

例如，若实验串联质谱数据集中共有100000个谱图，则所生成的谱图差异向量共有C₁₀₀₀₀₀ ²个，这些向量组成了一个谱图差异向量集。

在得到谱图差异向量集后，利用向量中的肽质量差异Δm分量筛选候选修饰质量区间，所述的候选修饰质量区间是指一个可能包含有修饰质量的质量区间。本发明首先定位候选修饰质量区间，然后再进一步确定精确的修饰质量。

对谱图差异向量集中所有Δm分量进行统计，可以得到如图4所示的Δm分布直方图，该直方图中的横坐标表示Δm的大小，纵坐标表示某一Δm大小的出现次数。根据生物学知识可以知道，同一类型肽的修饰形式和非修饰形式倾向于同时出现在样品中。由于同一类型肽的修饰形式和非修饰形式间的质量差异在一个特定的范围内，且对于高丰度的修饰会多次出现，而不同类肽的质量差异通常呈一个随机分布。因此，基于这一特性，从前述的Δm分布直方图所找出的出现频率高的Δm就是可能的候选修饰质量近似值，根据所找出的高频Δm就能定位候选修饰质量区间。

在查找出现频率高的Δm时，可以采用概率的方法。在本发明的一个实施例中，采用了一种简单而有效的解决方法。在该方法中，对于每一个以整数质量值为中心的1Da质量窗口，如(0.5，1.5)，(1.5，2.5)，(2.5，3.5)...，提取窗口内最高频的Δm，所提取的值用Δm^f表示。若用公式表示，则

Δ m_{i}^{f} = \underset{| Δm - i | < 0.5}{\arg \max} counts (Δm), i = 1,2, . . ., n - - - (2)

其中，counts(Δm)是Δm出现的次数，n是质量窗口的数目。对于一般的蛋白质样品，大部分的Δm_i ^f都是随机产生的，但是有一些可能是由蛋白质翻译后修饰导致的，比如图4中最高频的57.02Da就是脲甲基化(carbamidomethylation)修饰导致的。在得到Δm^f后，再进一步考察counts(Δm^f)的分布直方图，可以发现counts(Δm^f)分布的随机部分近似于高斯分布，例如图5所示。在本发明的一个实施例中使用一种启发式的方法来估计counts(Δm^f)的随机分布。在该方法中，首先，令c_min和c_med分别表示数据集counts(Δm_i ^f)|_i＝1 ⁿ中的最小值和中值；然后使用比2c_med-c_min小的counts(Δm_i ^f)数据估计counts(Δm^f)随机高斯分布的参数，包括均值和标准差；最后，对于每一个Δm_i ^f，可以基于估计出的高斯分布计算counts(Δm_i ^f)来自于随机高斯分布的p-值(即在Δm_i ^f为随机产生的这一假设下，counts(Δm_i ^f)的取值等于或大于实际观测值的概率)。p-值小于某一阈值(如0.01)的counts(Δm_i ^f)对应的Δm_i ^f被认为是高频的Δm。

在得到高频的Δm后，就能据此确定候选修饰质量区间。一般来说，候选修饰质量区间的宽度不超过1Da，通常可以设定为与高频Δm最接近的整数质量值左右εDa范围。例如，假设一个高频Δm为57.02Da，那么相应的候选修饰质量区间为(57-ε，57+ε)Da。当ε取值0.3至0.5时，效果较好。一般情况下，ε取值0.5就能达到目的。

在得到候选修饰质量区间后，就可以在肽质量信息的基础上，结合谱图差异向量中的另一个分量——肽色谱保留时间——确定蛋白质翻译后修饰的更精确质量值。肽色谱保留时间是与肽质量相对独立的另一维信息。同一个肽段的修饰形式和非修饰形式具有相同的氨基酸序列，只相差一个修饰集团，因而具有相似的物理化学性质，它们的保留时间相互接近。并且，同一种修饰对肽保留时间的影响有相对固定的趋势。所以，与某种修饰相关联的谱图对的肽保留时间差异分布应该比较集中，表现出一致的分布趋势。比如，一种修饰可能倾向于增大或减小肽的保留时间，或者没有显著影响。在图6中给出了一个Δ向量二维直方图的实例，从图中可以看出，利用二维向量中的肽质量信息和肽色谱保留时间信息，可以得到一个尖锐的峰，这个尖峰就是由脲甲基化修饰导致的。

在利用谱图差异向量获取蛋白质翻译后修饰的精确质量实验值的过程中，对于每个候选修饰质量区间，假设谱图差异向量Δ在此区间内的分布由多个成分混合组成，包括一个随机分布和n个由修饰导致的分布，即，Δ的概率密度函数为：

f (Δ) = α_{Rand} f_{Rand} (Δ) + Σ_{j = 1}^{n} α_{Mod, j} f_{Mod, j} (Δ) - - - (3)

α_{Rand} + Σ_{j = 1}^{n} α_{Mod, j} = 1 - - - (4)

其中，f_Rand(Δ)表示该候选修饰质量区间内随机分布的概率密度函数，f_Mod，j表示该候选候选修饰质量区间内第j个由修饰导致的分布的概率密度函数，整数n表示由修饰导致的分布的个数，α是混合系数。要知道修饰导致的分布中所包含修饰的具体信息，首先需要在前述公式的基础上确认在一个混合分布中所包含的由修饰导致的分布的个数，然后在混合分布中具有修饰分布的前提下，确定哪些分布是修饰导致的分布，最后根据分布中所包含的属性信息，计算出修饰的精确质量实验值等。

在一个混合分布中，可能没有修饰导致的分布，可以只有一个修饰导致的分布，也可能有多个修饰导致的分布。为了确定一个候选修饰质量区间内包含多少种修饰，即n的值，本发明采用一种逐步尝试的策略。令n分别取值1，2，...，N，对n的每个取值，采用期望-最大化(EM)算法估计上述混合分布的参数，其中N是一个比较大的整数(比如10)。对于每次估计的结果，观察估计出的第j个修饰分布的分量Δm和ΔRt的标准差(分别用σ_m，j和σ_Rt，j表示)，如果对于所有j＝1，2，...，n，σ_m，j和σ_Rt，j足够小，即σ_m，j＜T_m和σ_Rt，j＜T_Rt，则认为该质量区间至少含有n种修饰，并令n的值加1，重新估计混合分布，其中T_m和T_Rt是两个阈值。当存在第j个修饰分布，使得σ_m，j＜T_m或σ_Rt，j＜T_Rt时，则认为该质量区间只含有n-1种修饰，令n的值减1，重新估计混合分布的参数，并停止上述逐步尝试过程。

在得到混合分布中所含修饰分布的个数及混合分布的参数后，可以按照上面所述的方法，根据混合分布中各个分布所对应的标准差大小判断哪些分布是由修饰导致的，哪个分布是与修饰无关的随机分布。图7给出了Δ分布的一个实例，在这个实例中，该质量区间只包含一种修饰(脲甲基化)。从图7可以看出，在Δ向量的两个维度Δm和ΔRt上，数据的主体(随机)部分近似服从标准差较大的高斯分布，而修饰相关的部分(散点图中方块及直方图中椭圆所示)则近似服从标准差很小的高斯分布。

在确定哪个分布是修饰导致的分布后，就可以根据分布的属性信息计算所对应修饰质量的实验值。例如，对于第j种修饰(j＝1，2，...，n)，可以得到该修饰对应的肽质量差和保留时间差的均值和标准差等属性，其中肽质量差的均值可作为该修饰的修饰质量实验值，肽保留时间差的均值则刻画了修饰对保留时间的影响。

由于蛋白质样品中所含有的修饰类型数量通常不会太多，为了简化计算，在本发明的一个优选实施方式中，还可以假设在每一个候选修饰质量区间内至多含有一个修饰质量，并进一步假设由修饰导致的Δ分布成分符合一个高斯分布，而随机Δ分布符合另一个高斯分布。在上述假设的前提下，前述公式(3)和公式(4)所表示的Δ混合分布公式可以简化为如下两个公式：

f(Δ)＝α_Randf(Δ|μ_Rand，∑_Rand)+α_Modf(Δ|μ_Mod，∑_Mod) (5)

α_Rand+α_Mod＝1 (6)

其中，f(Δ|μ，∑)是均值为μ、协方差矩阵为∑的二维高斯分布的概率密度函数：

f (Δ | μ, Σ) = \frac{1}{2 π {(Σ)}^{1 / 2}} e^{- \frac{1}{2} {(Δ - μ)}^{T} Σ^{- 1} (Δ - μ)} - - - (7)

下标Rand和Mod分别表示随机和修饰相关，α_Rand和α_Mod是混合系数。高斯混合分布的系数可以用期望-最大化(EM)算法估计得到。估计出的μ_Mod值中的质量分量可以作为预测的修饰质量值，保留时间分量可以作为修饰对保留时间的影响大小。。

在上述确定修饰质量的过程中，都是在筛选出的少数候选修饰质量区间的基础上，在候选修饰质量区间内求取修饰质量值。在本发明方法的其他实施方式中，也可以省略筛选候选修饰质量区间的操作，而在肽质量差异的整个分布区间上建立所有可能候选修饰质量区间。具体操作方法为：在求取修饰质量值前，在肽质量差异的整个分布区间上，建立所有以整数质量为中心、宽度为2ε的质量窗口，接着以所有这些质量窗口为候选修饰质量区间，按照前述的求取修饰质量值的操作进行相应的计算。其中，ε可取值0.3至0.5，一般情况下，ε取值0.5即可。

利用上述混合分布的估计结果，可以得到非常精确的修饰质量值以及修饰对肽保留时间的定量影响，据此可以推断修饰的类型。首先，用修饰质量值搜索翻译后修饰数据库(如Unimod，http://www.unimod.com)，推测修饰的具体类型。其次，考虑到不同类型的修饰对肽保留时间的影响不同，作为另一维独立信息源的保留时间的偏移量可以辅助推断修饰的类型，比如，氧化修饰会减小肽的保留时间。

本发明方法的上述操作到此已经实现了对蛋白质翻译后修饰的质量大小的计算以及修饰类型的推测，在这一计算结果的基础上，还可以做诸如蛋白质的鉴定、修饰相关谱图对的检测等多种应用。

在一种蛋白质鉴定方法中，当修饰质量和类型确定之后，可以在蛋白质鉴定算法和软件中考虑发现的这些修饰，例如在利用数据库搜索鉴定蛋白质的方法中，将发现的修饰类型指定为可变修饰参数，就可以对修饰肽和蛋白质进行鉴定。

而在一种修饰相关谱图对的检测方法中，在检测修饰相关谱图对时，当根据公式(3)和公式(4)得到前述混合分布中的参数估计后，给定一对谱图的差异向量Δ，就可以计算这对谱图是被第k种修饰相关联的后验概率，即

p ({Mod}_{k} | Δ) = \frac{p (Δ | {Mod}_{k}) P ({Mod}_{k})}{p (Δ | Rand) P (Rand) + Σ_{j = 1}^{n} p (Δ | {Mod}_{j}) P ({Mod}_{j})} - - - (8)

= \frac{α_{Mod, k} f_{Mod, k} (Δ)}{α_{Rand} f_{Rand} (Δ) + Σ_{j = 1}^{n} α_{Mod, j} f_{Mod, j} (Δ)}

其中，Mod_k表示谱图对被第k种修饰相关联，即谱图对中的一个谱图相对于另一个谱图，肽的序列相同但多了一个第k种修饰。

对于公式(5)、(6)、(7)中简化的高斯混合模型，后验概率计算公式为：

p (Mod | Δ) = \frac{p (Δ | Mod) P (Mod)}{p (Δ | Mod) P (Mod) + p (Δ | Rand) P (Rand)}

= \frac{f (Δ | μ_{Mod}, Σ_{Mod}) α_{Mod}}{f (Δ | μ_{Mod}, Σ_{Mod}) α_{Mod} + f (Δ | μ_{Rand}, Σ_{Rand}) α_{Rand}}

后验概率大于某一给定阈值的谱图对被认为是修饰相关的谱图对，可供用户作进一步分析，比如de novo肽测序或者谱图对之间肽序列的传播，等等。

根据本发明还可以提供一种对应的蛋白质翻译后修饰的发现装置，包括：谱图差异向量计算模块、候选修饰质量区间建立模块、蛋白质翻译后修饰分布发现模块、精确质量值计算模块；其中，

所述的谱图差异向量计算模块利用蛋白质样品的实验串联质谱数据集中谱图数据内的肽色谱保留时间以及肽质量计算谱图差异向量，所述谱图差异向量表示了两个实验串联质谱图间的肽质量差异和肽色谱保留时间差异；

所述的精确质量值计算模块计算由所述蛋白质翻译后修饰导致的分布的均值，由所述均值的质量分量得到所述蛋白质翻译后修饰的精确质量值，由所述均值的保留时间分量得到所述蛋白质翻译后修饰对肽色谱保留时间的影响。

本发明的蛋白质翻译后修饰的发现装置还包括冗余数据去除模块，所述的冗余数据去除模块在所述实验串联质谱数据集中去除冗余的谱图数据。

蛋白质翻译后修饰的发现装置还包括蛋白质翻译后修饰类型发现模块，该模块根据所述蛋白质翻译后修饰的精确质量值以及对肽色谱保留时间的影响，推断所述蛋白质翻译后修饰的类型。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种蛋白质翻译后修饰的发现方法，包括：

步骤1)、在实验串联质谱数据集中去除冗余的谱图数据，利用蛋白质样品的实验串联质谱数据中的肽色谱保留时间以及肽质量计算所有谱图之间的谱图差异向量，所述谱图差异向量表示了两个实验串联质谱图间的肽质量差异和肽色谱保留时间差异；

步骤2)、建立可能包含修饰质量的候选修饰质量区间；

2.根据权利要求1所述的蛋白质翻译后修饰的发现方法，其特征在于，所述的去除冗余的谱图数据包括：比较谱图数据中的肽质量，将具有近似肽质量的谱图数据作为相似的谱图数据，在相似谱图数据的集合中只保留一个谱图数据。

3.根据权利要求1所述的蛋白质翻译后修饰的发现方法，其特征在于，还包括：

4.根据权利要求1或3所述的蛋白质翻译后修饰的发现方法，其特征在于，在所述的步骤2)中，根据所述的谱图差异向量建立肽质量差异的分布直方图，从肽质量差异的分布直方图中筛选出现频率高的肽质量差异，利用所述出现频率高的肽质量差异在所述肽质量差异的分布直方图上建立所述的候选修饰质量区间。

5.根据权利要求4所述的蛋白质翻译后修饰的发现方法，其特征在于，所述的从肽质量差异的分布直方图中筛选出现频率高的肽质量差异包括：

步骤2-1-3)、为各个窗口中出现频率最高的肽质量差异Δm^f建立与出现次数counts相关的分布直方图，估计该分布直方图的随机分布，根据估计结果计算某一窗口中出现频率最高的肽质量差异的出现次数

来自于随机分布的p-值；

步骤2-1-4)、对于所述p-值小于第一阈值的

所对应的

被认为是出现频率高的肽质量差异。

6.根据权利要求5所述的蛋白质翻译后修饰的发现方法，其特征在于，所述的第一阈值包括0.01。

7.根据权利要求4所述的蛋白质翻译后修饰的发现方法，其特征在于，所述的利用所述出现频率高的肽质量差异在所述肽质量差异的分布直方图上建立所述的候选修饰质量区间包括：

8.根据权利要求1或3所述的蛋白质翻译后修饰的发现方法，其特征在于，在所述的步骤2)中，在所述肽质量差异的整个分布区间上建立质量窗口，将所建立的所有质量窗口作为候选修饰质量区间。

9.根据权利要求8所述的蛋白质翻译后修饰的发现方法，其特征在于，所述的建立质量窗口包括建立以整数质量为中心、宽度为2ε的质量窗口；所述ε包括0.3至0.5之间的一个任意值。

10.根据权利要求1或3所述的蛋白质翻译后修饰的发现方法，其特征在于，在所述的步骤3)中，所述的混合分布包括一个随机分布和n个由修饰导致的分布，则所述的计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布包括：

步骤3-1-1)、将所述n的值设为1；

f (Δ) = α_{Rand} f_{Rand} (Δ) + Σ_{j = 1}^{n} α_{Mod, j} f_{Mod, j} (Δ)

α_{Rand} + Σ_{j = 1}^{n} α_{Mod, j} = 1

11.根据权利要求10所述的蛋白质翻译后修饰的发现方法，其特征在于，在所述的步骤3-1-2)中，采用期望-最大化算法估计谱图差异向量在当前候选修饰质量区间内的概率密度函数的参数。

12.根据权利要求1或3所述的蛋白质翻译后修饰的发现方法，其特征在于，在所述的步骤3)中，所述的混合分布包括一个随机高斯分布和一个由修饰导致的高斯分布，则所述的计算所述混合分布中各个分布的标准差，由所述标准差确定所述候选修饰质量区间内由所述蛋白质翻译后修饰导致的分布包括：

f(Δ)＝α_Randf(Δ|μ_Rand，∑_Rand)+α_Modf(Δ|μ_Mod，∑_Mod)

α_Rand+α_Mod＝1

f (Δ | μ, Σ) = \frac{1}{2 π {(Σ)}^{1 / 2}} e^{- \frac{1}{2} {(Δ - μ)}^{T} Σ^{- 1} (Δ - μ)}

13.一种蛋白质翻译后修饰的发现装置，包括：谱图差异向量计算模块、候选修饰质量区间建立模块、蛋白质翻译后修饰分布发现模块、精确质量实验值计算模块；其中，

14.根据权利要求13所述的蛋白质翻译后修饰的发现装置，其特征在于，还包括冗余数据去除模块，所述的冗余数据去除模块在实验串联质谱数据集中去除冗余的谱图数据。

15.根据权利要求13或14所述的蛋白质翻译后修饰的发现装置，其特征在于，还包括蛋白质翻译后修饰类型推断模块，该模块根据所述蛋白质翻译后修饰的精确质量实验值以及对肽色谱保留时间的影响，推断所述蛋白质翻译后修饰的类型。

16.一种蛋白质鉴定方法，包括：

步骤1)、采用权利要求1-3之一所述的蛋白质翻译后修饰的发现方法确定蛋白质翻译后修饰的质量和类型；

17.一种修饰相关谱图对的检测方法，包括：

步骤1)、采用权利要求1-3之一所述的蛋白质翻译后修饰的发现方法计算混合分布中的参数估计；

步骤2)、计算一对谱图的差异向量；