CN100376895C

CN100376895C - 一种使用串联质谱数据鉴定肽的方法

Info

Publication number: CN100376895C
Application number: CNB2004100887793A
Authority: CN
Inventors: 高文; 付岩; 李德泉; 孙瑞祥; 贺思敏; 杨强; 曾嵘; 周虎; 陈益强; 王晓彪
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2004-11-03
Filing date: 2004-11-03
Publication date: 2008-03-26
Anticipated expiration: 2024-11-03
Also published as: CN1769891A

Abstract

本发明公开了一种使用串联质谱数据鉴定肽的方法，包括步骤：将要被鉴定的肽进行实验碎裂以生成实验串联质谱；将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱；用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度，该径向基函数包括一指数部分；根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果。本发明的使用串联质谱数据鉴定肽的方法采用径向基函数核来评价多个理论串联质谱与实验串联质谱的相似度，并进一步在径向基函数核的指数部分通过对连续碎片离子的求和来强调连续碎片离子的正相关特性，比现有技术中鉴定肽的方法具有更高的准确率，明显降低了假阳性结果。

Description

一种使用串联质谱数据鉴定肽的方法

技术领域

本发明涉及一种蛋白质组分析方法，具体地说，涉及一种鉴定肽序列的方法。

背景技术

在当前的蛋白质组研究中，基于串联质谱的蛋白质鉴定是最广泛使用的技术之一(参考文献：Aebersold，R.and Mann，M.Mass spectrometry-based proteomics，Nature，2003，422：198-207)。其中的一个问题就是如何从实验得到的串联质谱自动地鉴定出产生这些质谱的肽序列。为了鉴定产生实验串联质谱的肽的序列，数据库搜索的方法被广泛采用(参考文献：Eng，J.K.，McCormack，A.L.and Yates，J.R.An approach tocorrelate tandem mass spectral data of peptides with amino acid sequences in a proteindatabase.J Am Soc Mass Spectrom，1994，5：976-989；Perkins，D.N.，Pappin，D.J.，Creasy，D.M.and Cottrell，J.S.Probability-based protein identification by searchingsequence databases using mass spectrometry data.Electrophoresis，1999，20：3551-3567；Field，H.I.，Feny，D.and Beavis，R.C.RADARS，a bioinformatics solution that automatesproteome mass spectral analysis，optimises protein identification，and archives data in arelational database.Proteomics，2002，2：36-47)。在该方法中，数据库中的肽序列被理论碎裂为碎片离子，生成理论串联质谱；而要被鉴定的肽在质谱仪中被碎裂为碎片离子，并生成实验串联质谱；将理论串联质谱与实验串联质谱相比较，从而对数据库中的候选肽进行打分；最后根据打分的结果选取出与实验串联质谱最相似的理论串联质谱对应的肽作为鉴定结果。

可见，在数据库搜索的方法中，一个关键的问题是对理论串联质谱与实验串联质谱作适当的相似性计算，即选择适当的肽打分算法。不适当的相似性计算或者说肽打分算法会增加错误的肽鉴定结果——即假阳性结果，而通过选择适当的肽打分算法可以减少肽鉴定的假阳性结果。

现有的肽打分算法中所用的打分函数通常假设串联质谱中碎片离子的出现是互相独立的，从而采用线性的打分函数。在线性打分方法中，碎片离子间可能存在的相关性完全被忽略了。实验和理论质谱间的所有离子匹配被同等对待来计算总的分数。实际上，肽碎裂方式的不可完全预知性，碎裂过程中所损失的不可恢复的信息，候选肽的巨大数量都使得随机错误匹配经常发生，最终可能导致错误的肽鉴定，即假阳性的结果。

事实上，肽被理论或者实验碎裂后产生碎片离子后，其中的连续碎片离子是潜在的正相关的离子。当正相关的离子同时被匹配时，这些匹配作为整体直观上应该比它们作为个体具有更高的可信性。所以，这些正相关的离子应该在某种程度上被加以强调，相应地就需要使用非线性的肽打分函数。

发明内容

本发明的一个目的是提供一种使用串联质谱数据鉴定肽的方法，在该方法中采用一种新的肽打分方法；本发明的另一目的是提供一种使用串联质谱数据鉴定肽的方法，在该方法中考虑了连续碎片离子的相关性。

为了实现上述目的，本发明提供一种使用串联质谱数据鉴定肽的方法，包括步骤：

将要被鉴定的肽进行实验碎裂以生成实验串联质谱；

将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱；

用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度，该径向基函数包括一指数部分；

根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果。

所述的使用串联质谱数据鉴定肽的方法还包括对所述实验串联质谱进行去噪处理。

在生成所述理论串联质谱步骤中还包括选定碎片离子类型。

所述径向基函数核的指数部分包括对连续碎片离子的求和运算。

在计算所述多个理论串联质谱与实验串联质谱的相似度步骤中还包括：

将理论串联质谱与实验串联质谱根据所选定的碎片离子类型以及碎片离子的碎裂位置分别排列成矩阵T和矩阵C；所述连续碎片离子位于矩阵一行中的连续位置；

所述径向基函数核形式为

Σ_{i = 1}^{m} Σ_{j = 1}^{n} \exp (- γ Σ_{k = j - l_{2}}^{j + l_{2}} {(c_{ik} - t_{ik})}^{2})

，其中c_ik和t_ik分别为矩阵T和矩阵C的矩阵元素，当k≤0和k＞n时，c_ik和t_ik被置为0；

正整数l₁和l₂分别等于(l-1)/2和

;整数l是所述要考虑的连续碎片离子的个数；γ为所述的可调节参数。优选地l＝5且0.8≤γ≤1。

本发明的使用串联质谱数据鉴定肽的方法采用径向基函数核来评价多个理论串联质谱与实验串联质谱的相似度，并进一步在径向基函数核的指数部分通过对连续碎片离子的求和来强调连续碎片离子的正相关特性，比现有技术中鉴定肽的方法具有更高的准确率，明显降低了假阳性结果。

附图说明

图1是一个示例性的肽形成示意图；

图2是肽裂解后可能的六个系列的碎片离子的示意图；

图3是一个示例性的实验串联质谱；

图4是在一个实施例中预测离子阵列的示意图，其中的虚框表示相关窗口；

图5是本发明的RBF-KSDP的相对于参数的错误率曲线图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

如图1所示，两个氨基酸可以通过失掉一个水分子在它们的C-端和N-端形成肽键而连结起来，肽就是氨基酸残基通过肽键相互连接而成的序列。这个序列确定了肽的身份。

为了鉴定肽的氨基酸序列，肽被电离后进入质谱仪。在质谱仪中，具有特定质荷比(m/z)的肽离子(这些肽离子通常也有相同的氨基酸序列)在碰撞-诱导的分离(Collision-Induced Dissociation，CID)作用下裂解。在低能量CID作用下，肽键通常能以三种方式断裂，生成六个系列的碎片离子，即N-端的a，b，c和C-端的x，y，z系列碎片离子，如图2所示。图2是一个由四个氨基酸残基构成的肽在CID作用下裂解形成的碎片离子的示例，其中代表碎片离子系列的字母a、b、c、x、y和z的下标数字1～3表示生成该碎片离子时肽的碎裂位置，图2中右上角的符号H⁺表示肽带有正电荷。

这些碎片离子的m/z被检测量出来，从而形成串联质谱，或者称之为实验串联质谱。图3给出了一个示例性的实验串联质谱。质谱的横坐标代表被检测出的碎片离子的m/z，纵坐标代表碎片离子的相对强度。质谱中的质峰除了是由可以预测的碎片离子形成的之外，也可能是由不可预测的碎片离子(比如内部离子)形成的，还可能是物理或化学噪音。通常需要对实验获得的串联质谱进行去噪处理。简单的做法是保留一定比例强度较大的质峰，而去掉其它质峰，例如在一个实施例中，可只保留前200个强度较大的质峰。

为了利用串联质谱鉴定肽序列，需要对由已知肽组成的数据库中的候选肽序列模拟生成串联质谱的过程，这种模拟生成的质谱称为理论串联质谱，每一个候选肽序列对应一个理论串联质谱。在生成理论串联质谱时，首先要根据质谱仪的类型和特性选定要考虑的碎片离子类型。例如在一个实施例中，只考虑图2中的a、b和y系列碎片离子，这是因为通常a、b和y系列(包括一价和多价以及失水或失氨的情况)的碎片离子是主要的。很容易理解，本领域的技术人员可根据实际情况选定与上述实施例不同的所考虑的碎片离子类型。在选定所要考虑的碎片离子类型后，再对肽序列进行模拟碎裂，预测所有指定类型的碎片离子的质荷比(m/z)和强度，以形成理论质谱。碎片离子的质荷比等于该离子的分子量除以该离子的电荷数。碎片离子的理论强度的预测本身是另外一个研究问题，简单情况下可以都指定为1，即假定所有离子出现的几率是相等的。

根据所选定的碎片离子类型以及碎片离子对应的碎裂位置把预测离子排列成一个阵列的形式，该阵列称为预测离子阵列。图4示出了一个预测离子阵列的实施例，在该实施例中，所选定的碎片离子类型为b和y系列碎片离子，具体包括b、b⁰、b^*和b⁺⁺以及y、y⁰、y^*和y⁺⁺，其中上标‘++’表示离子带两个正电荷，没有上标的表示离子带一个正电荷，上标‘*’表示离子失掉了一个氨分子，上标‘0’表示离子失掉了一个水分子，b、b⁰、b^*和b⁺⁺以及y、y⁰、y^*和y⁺⁺的下标数字1～n代表生成该碎片离子时肽的碎裂位置。在图4中，将碎片离子类型作为纵向、将生成碎片离子对应的肽碎裂位置作为横向排列成预测离子阵列。

把理论串联质谱中的碎片离子强度按照预测离子阵列的顺序表示成矩阵T，

T = (\begin{matrix} t_{1,1} & t_{1,2} & t_{1,3} & \cdot \cdot \cdot & t_{1, n} \\ t_{2,1} & t_{2,2} & t_{2,3} & \cdot \cdot \cdot & t_{2, n} \\ t_{3,1} & t_{3,3} & t_{3,3} & \cdot \cdot \cdot & t_{3, n} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ t_{m, 1} & t_{m, 2} & t_{m, 3} & \cdot \cdot \cdot & t_{m, n} \end{matrix}),

其中同预测离子阵列相对应，在矩阵T中，元素t_i，j的下标i用于区分不同的碎片离子类型，下标j用于区分不同的碎裂位置，元素t_i，j是预测离子阵列中第(i，j)位置上的碎片离子在理论串联质谱中的强度，例如，t_2，3对应于图4中的b₃ ^*离子在理论串联质谱中的强度；m是所选定的碎片离子类型的数目；n+1是肽序列包含的氨基酸残基个数，这样的肽包括n个碎裂位置。

把实验串联质谱中各个质峰的强度也按照预测离子阵列的顺序表示成矩阵C，

C = (\begin{matrix} c_{1,1} & c_{1,2} & c_{1,3} & \cdot \cdot \cdot & c_{1, n} \\ c_{2,1} & c_{2,2} & c_{2,3} & \cdot \cdot \cdot & c_{2, n} \\ c_{3,1} & c_{3,2} & c_{3,3} & \cdot \cdot \cdot & c_{3, n} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ c_{m, 1} & c_{m, 2} & c_{m, 3} & \cdot \cdot \cdot & c_{m, n} \end{matrix}),

其中，如果在实验串联质谱中存在一个或多个质峰，它们的质荷比与预测离子阵列中第(i，j)个位置处的碎片离子的质荷比相匹配，则c_i，j等于实验串联质谱中所匹配质峰的强度和，否则c_i，j＝0。同预测离子阵列和理论串联质谱矩阵T相对应，下标i用于区分不同的碎片离子类型，下标j用于区分不同的碎裂位置。这里所说的质荷比的相匹配是指实验串联质谱中某一个质峰的质荷比与预测离子阵列中某一个位置处的碎片离子的质荷比的差别在指定误差范围内，对于离子阱质谱数据来说所指定的误差范围通常为1Da左右，对于Q-Tof数据来说所指定的误差范围通常为0.4Da左右。

用公式(1)来衡量实验质谱和理论质谱相似度，这种方法可称为RBF-KSDP打分算法。

Σ_{i = 1}^{m} Σ_{j = 1}^{n} \exp (- γ Σ_{k = j - l_{1}}^{j + l_{2}} {(c_{ik} - t_{ik})}^{2}),

其中，正整数l₁和l₂分别等于(l-1)/2和

(符号 和

分别代表向下和向上取整)，而整数l(＜n)是要考虑的连续碎片离子的个数或者说相关窗口长度，γ是RBF核函数中的参数。对于k≤0和k＞n，c_ik和t_ik被置为0。

公式(1)是径向基函数核exp(-γ‖x-y‖²)的一个具体形式，它包括对各种碎片离子类型的求和(即对下标i的求和)和各个碎裂位置的求和(即对下标j的求和)。进一步的，在公式(1)中，其指数部分还包括一个对k的求和，其求和为以j为中心长度为l的求和。这表明，在用公式(1)进行打分时考虑了连续碎片离子的性质，所说的连续碎片离子是指在同一种碎片离子类型中处于连续碎裂位置的多个碎片离子，如图4中示例性的用三个虚框分别框出了三组连续碎片离子(虚框中连续离子的个数即是公式(1)中的l)，连续碎片离子位于预测离子阵列一行中的连续位置。

数据库中的所有肽序列可根据其与实验质谱的RBF-KSDP分值大小进行排列，从而鉴定出最可能生成实验串联质谱的肽序列。

图5示出采用本发明鉴定方法的一个实验结果，图5的横坐标为公式(1)中γ取值，纵坐标为鉴定错误率，图中的曲线分别代表l＝2～6时错误率随γ的变化，从图5中可得到，优选地l＝5且0.8≤γ≤1。

Claims

1.一种使用串联质谱数据鉴定肽的方法，包括步骤：

将要被鉴定的肽进行实验碎裂以生成实验串联质谱；

选定碎片离子类型，将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱；

根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果；

所述计算理论串联质谱与实验串联质谱的相似度，包括：(1)将碎片离子类型作为纵向、将生成碎片离子对应的肽碎裂位置作为横向排列出预测离子阵列；(2)将理论串联质谱与实验串联质谱按照预测离子阵列分别排列成矩阵；(3)在径向基函数的所述指数部分中对连续碎片离子求和运算，所述连续碎片离子是指在同一种碎片离子类型中处于连续碎裂位置的多个碎片离子；(4)将所述径向基函数核对所有碎片离子类型求和和对所有碎裂位置求和。

2.根据权利要求1所述的使用串联质谱数据鉴定肽的方法，其特征在于，还包括对所述实验串联质谱进行去噪处理。

3.根据权利要求1所述的使用串联质谱数据鉴定肽的方法，其特征在于，将实验串联质谱排列成矩阵的方法为：如果实验串联质谱中存在一个或多个质峰，它们的质荷比与预测离子阵列中一个阵元处的碎片离子的质荷比在设定误差范围内相匹配，则将实验串联质谱矩阵的对应位置元素值置为匹配质峰的强度和，否则置为0。

4.根据权利要求1所述的使用串联质谱数据鉴定肽的方法，其特征在于，所述相似度按照如下公式计算：

Σ_{i = 1}^{m} Σ_{j = 1}^{n} \exp (- γ Σ_{k = j - l_{2}}^{j + l_{2}} {(c_{ik} - t_{ik})}^{2}),

其中c_ik和t_ik分别为实验串联质谱矩阵C和理论串联质谱矩阵T的矩阵元素，当k≤0或k＞n时，c_ik和t_ik被置为0；正整数l₁和l₂分别等于(l-1)/2和「(l-1)/2]；整数l是所述要考虑的连续碎片离子的个数；γ为可调节的参数；m是所选定的碎片离子类型的数目；n是肽的碎裂位置数目。

5.根据权利要求4所述的使用串联质谱数据鉴定肽的方法，其特征在于，l＝5且0.8≤γ≤1。