CN103245714A

CN103245714A - 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法

Info

Publication number: CN103245714A
Application number: CN2013100974790A
Authority: CN
Inventors: 肖传乐; 杜阳利; 陈晓舟; 何庆瑜
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2013-03-25
Filing date: 2013-03-25
Publication date: 2013-08-14
Anticipated expiration: 2033-03-25
Also published as: CN103245714B

Abstract

本发明公开了一种基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法，涉及蛋白质二级质谱鉴定领域。本方法包括如下步骤：建立肽段数据库和肽段数据库索引；根据待分析实验图谱中母离子从肽段数据库中找出候选肽段，并产生理论图谱；对待分析实验图谱进行去同位素峰和选取有效峰；产生基于候选肽区分度的实验标记图谱；统计不同区间峰强度区分度、理论碎片离子和实验图谱质量误差区分度以及实验图谱峰与理论图谱匹配峰的碎片离子区分度；对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分，选择最高得分的肽段作为此实验图谱鉴定结果。本方法鉴定有效质谱的数量和蛋白质肽段数量均高于现有算法，鉴定效率也大大提高了。

Description

基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法

技术领域

本发明涉及蛋白质二级质谱鉴定领域，特别涉及一种基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法。

背景技术

生物质谱目前已成蛋白质组研究的支撑技术之一，该技术主要利用串联质谱（LC-MS/MS）来分析蛋白质样品。在蛋白质组的生物信息学研究中，二级质谱数据处理是十分重要的研究内容，其任务是从带有噪声或者部分信息缺失的数据中推断样品的蛋白质组成。数据库搜索是质谱数据处理的主要方法，其基本过程如图1所示：将实验图谱和数据库中的理论酶切图谱进行比对、打分，选择分值最高的匹配作为搜索结果的候选肽段。

蛋白质二级质谱鉴定涉及到诸多方面的内容，其主要涉及到母离子价态的确定、有效质谱峰的选取和匹配打分模型。目前针对鉴定结果整体质量控制的方法主要是应用随机数据库方法对整体鉴定结果进行阳性率控制，其基本思想是：先针对真实蛋白质数据库和实验数据集构建一个随机数据库，然后同时或者分别搜索真实蛋白质数据库和新构建的随机数据库，通过随机数据库肽段匹配来模拟正常数据库中的随机匹配，从而估计正常数据库中随机匹配的特征分布，确定不同过滤标准，Kall’s（Kall,L.;Storey,J.D.;MacCoss,M.J.;Noble,W.S.Assigning significance to peptides identified by tandem mass spectrometry using decoy databases.J.Proteome Res.2008,7(1),29–34.）于2008年在Proteome上公开了一种方法，具体是采用如下公式来得到整体数据集的假阳性率（False PositiveRate，FPR）。

FPR = \frac{N_{R}}{N_{N}}

目前蛋白质二级质谱鉴定算法根据匹配打分模型大致可以分为两类：解释型模型和概率统计模型。其中著名的商业软件SEQUEST的算法是解释型模型，而另一个商业软件Mascot的算法是概率统计模型。另外还有一些免费的鉴定算法，例如比较有影响力的基于统计模型的算法有X!Tandem和OMSSA。其中 X!Tandem用的是超几何模型，OMSSA用的是泊松分布模型。这些基于统计模型的算法中主要考虑的是实验质谱峰匹配与不匹配，很少考虑峰的连续匹配或是考虑的不够全面。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法。本方法在原有二维图谱的信息基础上增加了一维质谱峰的区分能力的信息，此思想之前算法没有涉及到，其鉴定结果包括有效图谱量、肽段可靠性及肽段数量均高于之前算法。

本发明的目的通过下述技术方案实现：一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，包括如下步骤：

（1）虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引。

（2）根据待分析实验图谱中母离子的质荷比（m/z）在步骤（1）所述的肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生的理论图谱。

（3）对待分析实验图谱进行去同位素峰和选取有效峰。

（4）产生基于候选肽区分度的实验标记图谱。

（5）统计分析不同区间峰强度区分度，不同区间理论碎片离子和实验图谱质量误差区分度，统计完成后，各区间的值为常量，并计算实验图谱峰与理论图谱匹配峰的碎片离子区分度。

（6）对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分，选择最高得分的肽段作为此实验图谱鉴定结果，对鉴定结果进行质量控制；

所述的打分包括匹配离子区分度的打分、连续匹配离子区分度的打分、b，y匹配离子的区分度打分及基于区分度的总打分。

步骤（1）、步骤（2）和步骤（3）中的去同位素峰的具体步骤同申请号为201110358552.6、发明名称为一种基于概率统计模型的蛋白质二级质谱鉴定方法的中国专利申请（CN102495127A）中所述。

步骤（3）中所述的选取有效峰的方法包括如下步骤：

1）寻找待分析实验图谱m/z的最大值和最小值分别为maxm/z和minm/z；

2）把m/z坐标从minm/z到maxm/z之间的长度等分成10等份；

3）按上面的规则等分后每一等份选取20个最高峰（m/z值最大的峰）即为有效质谱峰；

4）对每一等份中选取的20个峰进行归一化，即用每个峰除的该图谱的最的最高峰，从而得到每个峰的强度区间值。

步骤（4）中所述的产生基于区分度的实验标记图谱包括如下步骤：

1）计算每一实验质谱峰匹配候选肽段的数量，用M_i（i=1,2,…,n）表示，在实验图谱上标记每个峰上能够匹配上肽段的个数；

2）求取肽段匹配个数的平均值：

3）计算每个峰的区分度

（i=1,2,…,n），产生基于候选肽段区分度的实验标记图谱。

步骤（5）中所述的不同区间峰强度区分度的计算方法如下：

用N(r_j)和用N(e_j)分别表示离子在第j（j=1,2,…,11）个区间上正确匹配和错误匹配的个数，则离子在第j个区间的强度区分度为：（j=1,2,…,11），用I(b_j)表示b离子在11个区间的强度区分度，用I(y_j)表示y离子在11个区间的强度区分度，用I(s_j)表示匹配离子（匹配离子包括所有种类的离子）在11个区间的强度区分度。

步骤（5）中所述的理论碎片离子和实验图谱质量误差区分度的计算方法如下：

用N(r_j)和用N(e_j)分别表示离子在第j（j=1,2,…,10）个区间上正确匹配和错误匹配的个数，则离子在第j个区间的误差区分度为：

（j=1,2,…,10），用T(b_j)表示b离子在10个区间的误差区分度，用T(y_j)表示y离子在10个区间的误差区分度，用T(s_j)表示匹配离子（匹配离子包括所用种类的离子）在10个区间的误差区分度。

步骤（5）中所述的实验图谱峰与理论图谱匹配峰的碎片离子区分度的计算方法如下：

将P_j定义为实验图谱峰与理论图谱匹配中第j个匹配峰的离子区分度，p_j=D(m_j)I(s_j)T(s_j)，该区分度是一个概率值。其中，D(m_j)为第j个匹配离子峰区分度，I(s_j)为第j个匹配离子强度区分度，它是该峰强度所处的匹配离子强度区间的区分度。T(s_j)为误差值区分度，该误差区分度是该峰的误差所处的匹配离子误差区间的区分度。

步骤（6）中所述的匹配离子区分度的打分函数为：

其中，

它是实验图谱峰与理论图谱匹配中每个匹配峰的离子区分度之和，是基于各个区间的匹配离子峰区分度，匹配离子强度区分度，和误差区分度的总的区分度。

k₀为实际匹配候选肽段的个数；

n₀为理论碎片离子总个数；

0.1406是随机匹配概率值，是工具T data的每个随机肽段匹配个数之和除以每个随机肽段理论碎片离子个数之和。

步骤（6）中所述的连续匹配离子区分度的打分函数为：

其中，

D₁为连续匹配累计区分度，是基于连续匹配在各个区间的匹配离子峰区分度，匹配离子强度区分度，和误差区分度的总区分度；ps_j=p_lp_m，多个离子的连续匹配将转化成多个两个离子的连续匹配，ps_j是第j个连续匹配的区分度，第j个连续匹配由第l个匹配离子和第m个匹配离子构成的连续匹配；

k₁为实际匹配候选肽段的个数；

n₁理论碎片离子总个数；

0.0279是随机匹配的概率，是工具T data的每个随机肽段连续匹配个数之和除以每个随机肽段理论碎片离子连续匹配的个数之和。

步骤（6）中所述的b，y匹配离子的打分函数为：

S_{2} = \frac{k_{2} \underset{j}{Σ} \log_{10} (p (b_{j})) \underset{j}{Σ} \log_{10} (y_{j})}{0.0706 n_{2}}

其中，为b离子累计区分度，是基于b离子在各个区间的匹配离子峰区分度，匹配离子强度区分度，和质量误差区分度的总的区分度；p(b_j)=D(m_j)I(b_j)T(b_j)为第j个b离子匹配的区分度，D(m_j)为第j个匹配离子峰区分度，I(b_j)为第j个b离子匹配峰的强度区分度，T(b_j)为第j个b离子匹配峰的误差区分度；

为y离子累计区分度，是基于y离子在各个区间的匹配离子峰区分度，匹配离子强度区分度，和质量误差区分度的总的区分度；p(y_j)=D(m_j)I(y_j)T(y_j)为第j个y离子匹配的区分度，D(m_j)为第j个匹配离子峰区分度，I(y_j)为第j个y离子匹配峰的强度区分度，T(y_j)为第j个y离子匹配峰的误差区分度；

k₂为b，y离子匹配的个数；

n₂为理论图谱b，y离子个数；

0.0706是随机匹配概率，是统计的b，y离子匹配个数之和除以随机肽段理论碎片b，y离子个数之和。（上面三个公式中的随机匹配概率0.1406、0.0279和0.0706是在数据集的统计的基础上检测到的。）

步骤（6）中所述的基于区分度的总打分函数为：S(p)=S₀+S₁+S₂；

步骤（6）中所述的质量控制采用FDR<<0.01进行，其结果小于阀值结果被过滤掉，作为最终的待分析图谱的最终鉴定结果，具体包括如下步骤：

1）统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值；

2）统计在最小值和最大值之间，其中大于每个分值的鉴定结果中真实库和随机库肽段的个数，并计算每个分值为阀值时的FDR的值；

3）按得分值从小到大寻寻找每个分值，直到找到FDR<=0.01时，此分值为待分析图谱的整体阀值；

4）根据第三步找到整体阀值，以此阀值过滤待分析图谱的鉴定结果，也就是说小于此阀值结果被过滤掉，其结果作为最终的待分析图谱最终鉴定结果。

本发明相对于现有技术具有如下的优点及效果：

（1）本发明主要对生物质谱产生的二级质谱数据进行解释和鉴定，其鉴定有效质谱的数量和蛋白质肽段数量均高于目前的常用的国外商业软件的算法。目前现有技术中鉴定的有效质谱的数量和蛋白质肽段数量按从小到大顺序为：Sequest，OMSSA（NCBI肽段开发），X！Tandem，ProteinPilot，Mascot。其中Mascot鉴定最多，本鉴定方法结果要优于Mascot。

（2）本发明方法的打分模型主要是基于候选肽段区分度标记图谱信息进行统计的模型，但加入了一些别的统计元素的全新打分模型。其方法与前人的方法不同，前人的统计方法只考虑了峰的匹配和不匹配因素。本方法不仅考虑了离子匹配和不匹配区分度，还考虑了离子的连续匹配情况区分度、离子峰的强度信息区分度等。

（3）该发明鉴定有效质谱峰的效果要远远高于目前的商业软件Mascot和Sequest，而且本鉴定算法鉴定效率较之前算法大大提高了。

附图说明

图1是二级质谱鉴定的基本流程图。

图2是基于候选肽段区分度的蛋白质二级质谱鉴定方法流程图。

图3是蛋白质虚拟酶解示意图。

图4是原始4个峰的去同位素执行过程中三个峰和保留峰的状态改变过程图。

图5是实验图谱每个峰匹配候选肽段的个数图。

图6是候选肽段实验标记图谱图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图2所示，一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，包括如下步骤：

（2）根据待分析实验图谱中母离子的质荷比（m/z）在步骤（1）所述的肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生符合要求的理论图谱。

（3）对待分析实验图谱进行去同位素峰和选取有效峰。

（4）产生基于候选肽区分度的实验标记图谱。

所述的打分包括匹配离子区分度的打分、连续匹配离子区分度的打分、b，y匹配离子的打分及基于区分度的总打分。

实施例1

虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引，其步骤如下：

（1）读取质谱分析样本（即待分析二级质谱的样本）的物种蛋白质序列库文件中的一条蛋白质序列。

（2）按照表1根据用户设定蛋白酶和容许的漏切位点个数对此蛋白质序列进行虚拟理论酶切。目前大部分使用Trypsin进行蛋白质酶解实验，从表1可知Trypsin是对蛋白质C-Term敏感的，也就是说蛋白质序列C端可能会被切掉一个氨基酸；其酶切位点KR，也就是说其酶在序列的K和R上发生酶切作用；其限制酶切位点是P，也就是说序列K和R上发生酶切时，如果其后面一个氨基酸是P则不能发生酶切作用。

表1蛋白酶酶切位点表

上述步骤（2）详细过程是：

1）根据表1找到蛋白质序列中包含符合上面规则的理论酶切位点；

2）在复合符合规则的酶切位点产生断裂，产生没有漏切位点的肽段；

3）产生存在漏切位点的断裂肽段；

其一个蛋白质虚拟酶解（以Trypsin酶解为例）示意图如图3所示。

（3）根据每个氨基酸的分子量计算每个虚拟酶切后肽段的质量数；由于计算肽段质量数计算频率高，在计算质量数之前首先对每个氨基酸的质量建立索引。如表2所示，对20个氨基酸的索引和翻译后修饰的索引方法如下：

1）启用一个与ASCII码相同大小的数组（大小为250）；

2）一个数组的下标与氨基酸单字母简写的ASCII码数值一致，其数组中保存其氨基酸的分子量。除了20种氨基酸的位置放置没有修饰的氨基酸，其它位置（大概有230）个可以处理翻译后修饰，该方法可以同时处理230种修饰。

表2氨基酸索引表

之后，把肽段字母转换成ASCII码的数值，根据氨基酸索引表的数值计算肽段的质量，例如：假设有一个肽段为ACD，那么肽段ACD的ASCII码数值是65，67，68；

那么其肽段的质量数为数组AA下标为65，67，68的值之和并加上水的分子量，因为肽段有C端（H）和N端（OH），所以该肽段的质量数为：

2*AA(3)+AA(2)+AA（65）+AA（67）+AA(68)=2*1.007825+15.99491+71.037114+103.0092+115.026943=307.0838，

根据氨基酸索引表计算每条虚拟酶解后的肽段的质量数。

（4）把计算过质量数的肽段放入肽段数据库中，即以每1da为单位对所有酶解后肽段分别存入相应的文件中。把肽段的质量数取整，例如307.0838取整后为307，之后将肽段的信息存入质量数取整的文件中末尾追加，即在文件名为307的文件末尾追加一行存入肽段的信息。按照上面方法把每条肽段放入肽段数据库。

（5）读取下一条蛋白质序列，重复步骤2），3），4），直到所有的蛋白序列被酶解和存入肽段数据库。

（6）合并每1da为单位文件的肽段信息并对其建立索引文件：按文件名的数字从小到大读出文件中的肽段信息，每读一个文件，按照文件中肽段的质量数从小到大进行排序，之后从小到大顺序存入database.ind文件中，并删除每个读取肽段信息文件。例如文件名为1000文件存入质量数为1000da-1001da所有肽段的信息，读取其文件的肽段信息，并排序，之后排序后肽段信息存入database.ind文件中，并删除1000文件。将信息database.ind每行存入一个肽段，其文件格式如表3所示，与此同时，按照1da对酶解所有肽段建立查找索引database.index，其查找索引记录下信息：1.第一列保存其质量数，例如1000，表示质量数位为1000da-1001da肽段，第二列是这些肽段在database.ind文件开始位置，第三列是酶解肽段在1000da-1001da的个数，既1000da-1001da肽段在database.ind文件中的行数。根据database.index可以知道1000da-1001da在文件database.ind中的位置，其结果如表4所示。

表3database.ind索引表

表4database.index索引表

实施例2

根据待分析实验图谱（二级质谱）中母离子的质荷比肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生符合要求的理论图谱。

（1）根据待分析二级质谱母子质荷比值查找符合要求的候选肽段的方法：

1）加载database.index文件信息到内存数组index，读取待分析二级质谱的母离子的m/z值和charge（电荷）信息，并计算其母离子去电荷后的质量数，例如有一个m/z=2100.2，charge=2的母离子信息，其去电荷后的质量数为m/z*2-2=4198.2。

2）根据容许的质量误差查找index数组记录并读取相应肽段信息，假设质量误差为0.1，4198.2-0.1=4198.1和4198.2+0.1=4198.3，4198.1和4198.3取整都为4198da，查找index数组找到其在文件database.ind中的开始位置和行数，由此位置开始顺序读取相应的行数加入内存中，即加载了4198～4199Da内的所有肽段信息。

3）对内存加载肽段进行逐步的精细筛选，即筛选出质量数范围在4198.1～4198.3Da之间的的肽段，作为此待分析二级质谱的候选肽段。

（2）产生符合要求的理论图谱的方法：

1）产生候选肽段可能产生的理论碎片b、y离子；

2）如果步骤1）产生b、y离子中包含S、T、E和D四种氨基酸中的一种则产生对应的丢水碎片离子b-H2O和y-H2O；

3）如果步骤1）产生b、y离子中包含R、K、Q和N四种氨基酸中的一种则产生对应的丢氨碎片离子b-NH3和y-NH3；

4）待分析二级质谱母离子价态是1价，则考虑产生一价碎片离子；

5）若待分析二级质谱母离子价态大于等于2，并且对应的碎片离子中包含R，K和H三种氨基酸其中一种时，则考虑二价碎片离子峰；

根据步骤1）～5）产生所有理论碎片离子的方法规则，得到候选肽段的理论图谱。

实施例3

对待分析实验图谱进行去同位素峰处理和选取有效峰，其步骤如下：

（1）去同位素峰

理论上同位素峰之间质荷比m/z相差1且同位素峰之间的峰强受自然界同位素丰度控制，例如自然界C12丰度高于C13的丰度，其质谱峰的高度也高于C13。自然界中稳定同位素中，低分子量的基本上丰度都占其丰度的最高位。在质谱中，一个同位素峰群中，第一峰基本上应该是最高峰。实际质谱仪的测量中，由于质谱仪都存在测量误差。根据质谱仪类型不同，其测量的精确度也不同，例如LTQ质谱仪的测量误差是0.5Da。由于一张质谱的系统误差一样，也就是说同位素峰要么总是向右或向左偏离理论值，因此认为两个峰m/z1和m/z2符合|m/z1-m/z2-1|<0.25da既为同位素峰。去同位素峰理论上应该构建同位素峰群，选取峰群中最强的峰，为了提高速度，本发明实现方法是同时把三个峰反复比较取最高峰（CID1+0.25da），不断重复选取。

具体操作方法如下：

1）进行初始化，三个比较峰的m/z值及其强度，全部设为0（假设三个峰m/z值分别是：m/z_1=0，m/z_2=0，m/z_3=0，其峰强对应是m/z_1_in=0，m/z_2_in=0，m/z_3_in=0，并设置保留峰的容器（用于存储非同位素峰））；

2）读取一个峰的信息，假设m/z_curr=245，in_curr=80，测量质量误差m=0.25，

2.1）把目前的峰放入第三个峰的位置，即m/z_3=m/z_curr，m/z_3_in=in_curr；

2.2）把第三个峰与第一个峰和第二个峰比较，判断是否是前两个峰的同位素峰。即

如果以下三个条件的任意一个条件成立，则认为是同位素峰，

①|m/z_3-m/z_2-1|<=m并且m/z_2_in>m/z_3_in；

②|m/z_3-m/z_1-1|<=m并且m/z_1_in>m/z_3_in；

③|m/z_2-m/z_1|<=m并且m/z_2_in>m/z_3_in(此为相同峰信息，记录误差)，

执行三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1=m/z_2，m/z_1_in=m/z_2_in；

m/z_2=m/z_3，m/z_2_in=m/z_3_in；

否则，认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，并把三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1=m/z_2，m/z_1_in=m/z_2_in；

3）逐个读取下一个峰的信息，重复步骤2）直到处理完一张二级质谱图所用峰信息，其保留峰容器中的峰即为去同位素峰之后的非同位素峰。

如图4表示了原始4个峰的去同位素执行过程中三个峰和保留峰的状态改变过程。

（2）选取有效峰

1）寻找实验图谱m/z的最大值和最小值分别为maxm/z和minm/z；

2）把m/z坐标从minm/z到maxm/z长度等分成10等份；

3）按上面的规则等分后每一等份选取20个最高峰（m/z值最大的峰），即为有效质谱峰；

4）对每一等份中选取的20个峰进行归一化，即用每个峰除以这一等份的20个峰中的最高峰。

实施例4

产生基于候选肽区分度的实验标记图谱，方法如下：

1）统计每一实验质谱峰匹配候选肽段的数量，用M_i（i=1,2,…,n）表示，在实验图谱上标记每个峰上能够匹配上肽段的个数；

2）求取肽段匹配个数的平均值：

3）计算每个峰的区分度（i=1,2,…,n），产生基于候选肽段区分度的实验标记图谱。

1）计算每一实验质谱峰匹配候选肽段的数量：每一个实验质谱峰与候选肽段所有理论碎片离子进行匹配，如果实验质谱其中一个峰与某一肽段碎片离子有匹配，则实验质谱此峰匹配上此肽段，如果此峰与肽段碎片离子有多次匹配，则认为此峰与肽段碎片离子有一次匹配，对该肽段匹配上的数目不累加，每个峰匹配肽段数为M_i(i=1,2,...,n)，在实验图谱上标记每个峰上匹配上肽段碎片离子的个数；

2）求取肽段匹配个数的平均值：计算实验图谱中所有能匹配上肽段的峰的个数n和每个峰匹配肽段的和

3）计算每个峰区分度

(i=1,2,...,n)，产生基于候选肽段区分度的实验标记图谱。

例如：其中10个质谱峰匹配候选肽段的数量分别为M₁=3，M₂=5，M₃=4，M₄=7，M₅=9，M₆=10，M₇=13，M₈=10，M₉=12，M₁₀=8，

\overset{&OverBar;}{M} = \frac{Σ_{i = 1}^{n} M_{i}}{n} = \frac{3 + 5 + 4 + 7 + 9 + 10 + 13 + 10 + 12 + 8}{10} = 8.1,

10个峰的区分度分别为D_M1=8.1/3=2.7000，D_M2=8.1/5=1.6200，D_M3=8.1/4=2.0250，D_M4=8.1/7=1.1570，D_M5=8.1/9=0.9000，D_M6=8.1/10=0.8100，D_M7=8.1/13=0.6230，D_M8=8.1/10=0.8100，D_M9=8.1/12=0.6750，D_M10=8.1/8=1.0125。

图5是实验图谱每个峰匹配候选肽段的个数，在每个峰上标记出匹配候选肽段的个数，图5中x轴表示的是一价母离子的m/z值，y轴表示的是峰强度，图中数字代表每个峰匹配的肽段个数。图6是一种典型的候选肽段实验标记图谱。

实施例5

不同区间峰强度区分度、理论碎片离子和实验图谱质量误差区分度和实验图谱峰与理论图谱匹配峰的碎片离子区分度的计算。

（1）不同区间峰强度的区分度的计算（此值统计完成，将不会变化）

以暨南大学翻译组学实验室D39质谱数据集（http://bioinformatics.jnu.edu.cn/software/proverb/）为参数训练数据集，通过Mascot软件搜库，得到FDR<=0.01的肽段集和有效图谱集（97757张图谱和肽段，T dataset），假设这些图谱其对应的鉴定的肽段都是正确结果，那么每一张图谱对应着一个鉴定正确的肽段，反转每一张图谱鉴定的肽段将对应着每张图谱错误的鉴定结果。正向（正确）和经过反转的两个肽段他们的理论碎片离子重叠度低，可以模拟图谱的正确和随机匹配过程。计算归一化峰强度把0～1分成11个区间来统计（0-0.1，0.1-0.2，0.3-0.4，…，0.9-1.0，1.0）在正确和错误匹配过程中的各种匹配情况。

定义：离子在第j(j=1,2,L11)个区间正确匹配个数N(r_j)和错误匹配个数N(e_j)，则第j个区间的强度区分度为：

则

1）b离子在11个区间的强度区分度（I(b_j)）

计算所得11个区间强度区分度为：

[1.1440613150348，2.61346891997599，4.02982509972384，5.29479051819184，5.94802322366602，6.20852858481725，6.97732104890149，6.62659380692168，5.23851203501094，4.69418960244648，3.67327211213146]；

2）y离子在11个区间的强度区分度(I(y_j)）

计算所得11个区间强度区分度为：

[4.02550798398246，13.3870125997167，23.6901544401544，30.4022491349481，29.9488491048593，26.0463192721257，26.3174404015056，31.6170212765957，37.4145658263305，48.4200913242009，35.6294160057678]；

3）匹配离子（匹配离子包括所用种类的离子）在11个区间强度分度(I(s_j)）

计算所得11个区间强度区分度为：

[1.48284874568025，1.95952937067517，2.05170347087185，2.21330627902922，2.33770208976821，2.39397830418419，2.25768996960486，2.31489915419649，2.43198223209328，2.56731984829330，3.08780160857909]；

（2）理论碎片离子和实验图谱质量误差区分度的计算

根据上面建立T dataset统计分析质量误差区分度，理论图谱和实验图谱误差0.5分成10个区间来统计（0-0.05，0.05-0.1，…，0.45-0.5）在正确和错误匹配过程中的各种匹配情况：

定义：离子在第j(j=1,2,L10)个区间正确匹配个数N(r_j)和错误匹配个数N(e_j)，则第j个区间的误差区分度为：

则

1）b离子在10个区间的质量误差区分度(T(b_j))

计算所得10个区间强度区分度为：

[2.13755746619265，1.95836149039574，1.74484362026017，1.53461223469968，1.29163812003289，0.998495305352701，0.759181580909769，0.623822236180905，0.547778487871294，0.543096603440671]；

2）y离子在10个区间的质量误差区分度（T(y_j)）

计算所得10个区间强度区分度为：

[11.165993929722，9.31541065501035，6.92375083525132，5.22482334070317，4.65374085320325，4.22055492638732，3.25474185044686，2.69050144989037，2.36767691415313，2.25473060811787]；

3）匹配离子（匹配离子包括所用种类的离子）在10个区间质量误差区分度（T(s_j)）

计算所得11个区间强度区分度为：

[1.9854932397703，1.87808094487490，1.69789009659573，1.55811040860114，1.49418027384002，1.42733987665766，1.30697498921949，1.22840896106253，1.16969067389153，1.13319596940360，1.13]；

（3）实验图谱峰与理论图谱匹配中第j个匹配峰的离子区分度

定义：实验图谱峰与理论图谱匹配，第j个匹配峰的离子区分度为：

p_j=D(m_j)I(s_j)T(s_j)，该区分度是一个概率值。

其中，D(m_j)为第j个匹配离子峰区分度，I(s_j)为第j个匹配离子强度区分度，它是该峰强度所处的匹配离子强度区间的区分度。T(s_j)为误差值区分度，该误差区分度是该峰的误差所处的匹配离子误差区间的区分度。

实施例6

对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分，选择最高得分的肽段作为此实验图谱鉴定结果，对鉴定结果进行质量控制；所述的打分包括匹配离子区分度的打分、连续匹配离子区分度的打分、b，y匹配离子的打分及基于区分度的总打分。

（1）匹配离子的区分度的打分

匹配离子的区分度打分函数为：

其中，它是基于各个区间的匹配离子峰区分度，匹配离子强度区分度，和误差区分度的总区分度。

k₀为实际匹配候选肽段的个数；n₀理论碎片离子总个数；

（2）连续匹配离子区分度的打分

连续匹配区分度打分函数为：

其中，

D₁为连续匹配累计区分度，它是基于连续匹配在各个区间的匹配离子峰区分度，匹配离子强度区分度，和误差区分度的总区分度；

多个离子的连续匹配将转化成多个两个离子的连续匹配，例如b1，b2，b3的连续匹配将转化2组两个离子的连续匹配，即b1和b2，b2和b3的匹配，计算肽段连续匹配公式为：ps_j=p_lp_m，ps_j是第j个连续匹配的区分度，第j个连续匹配由第l个匹配离子和第m个匹配离子构成的连续匹配；

k₁为实际匹配候选肽段的个数；n₁理论碎片离子总个数；

（3）b，y匹配离子的打分

b，y匹配离子的打分函数为：

S_{2} = \frac{k_{2} \underset{j}{Σ} \log_{10} (p (b_{j})) \underset{j}{Σ} \log_{10} (y_{j})}{0.0706 n_{2}}

其中，

为b离子累计区分度，是基于b离子在各个区间的匹配离子峰区分度，匹配离子强度区分度，和质量误差区分度的总的区分度；p(b_j)=D(m_j)I(b_j)T(b_j)为第j个b离子匹配的区分度，D(m_j)为第j个匹配离子峰区分度，I(b_j)为第j个b离子匹配峰的强度区分度，T(b_j)为第j个b离子匹配峰的误差区分度；

k₂为b，y离子匹配的个数；n₂为理论图谱b，y离子个数；

0.0706是随机匹配概率，是工具T data的b，y离子匹配个数之和除以随机肽段理论碎片b，y离子个数之和。

（4）基于区分度的总打分函数为：S(p)=S₀+S₁+S₂。

按此打分函数对91个候选肽段分别进行打分，总打分函数同样是表示区分度（即区分候选肽段的能力）的，通过上面的打分函数可以计算出每个候选肽段的区分度，分数不同说明区分候选肽段的能力也不同，分数越高区分候选肽段的能力越强，分数越低说明区分候选肽段的能力也越弱。上述打分函数比Mascot和Sequest打分公式鉴定效果要好，因为其基于区分度考虑每个峰，峰强度以及理论碎片离子和实验图谱质量误差的新思想是之前的算法没有涉及的，此外该打分公式鉴定效率较之前算法大大提高了。

利用Sp值取最大为其鉴定结果，和利用FDR分数采用排名第一位和第二位之差Sp1-Sp2来过滤结果后产生的鉴定结果，这两种方法鉴定结果非常接近，大概在98﹪左右。取0.2为所有肽段匹配数量/理论碎片离子匹配数量。

（5）取91个打分最高分的肽段作为此图谱鉴定结果。

（6）对鉴定结果采用FDR<<0.01进行质量控制（与文献报道的质量控制方法相同，Kall,L.;Storey,J.D.;MacCoss,M.J.;Noble,W.S.Assigning significanceto peptides identified by tandem mass spectrometry using decoy databases.J.Proteome Res.2008,7(1),29–34），其结果小于阀值结果被过滤掉，作为最终的待分析图谱的最终鉴定结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，其特征在于包括如下步骤：

（1）虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引；

（2）根据待分析实验图谱中母离子的质荷比在步骤（1）所述的肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生符合要求的理论图谱；

（3）对待分析实验图谱进行去同位素峰和选取有效峰；

（4）产生基于候选肽区分度的实验标记图谱；

（5）统计分析不同区间峰强度区分度，不同区间理论碎片离子和实验图谱质量误差区分度，统计完成后，各区间的值为常量，并计算实验图谱峰与理论图谱匹配峰的碎片离子区分度；

2.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，其特征在于：

步骤（3）中所述的选取有效峰的方法包括如下步骤：

2）把m/z坐标从minm/z到maxm/z之间的长度等分成10等份；

3）按上面的规则等分后每一等份选取20个最高峰即为有效质谱峰；

3.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，其特征在于：

1）统计每一实验质谱峰匹配候选肽段的数量，用M_i（i=1,2,…,n）表示，在实验图谱上标记每个峰上匹配上肽能够匹配上肽段的个数；

2）求取肽段匹配个数的平均值：

3）计算每个峰的区分度

（i=1,2,…,n），产生基于候选肽段区分度的实验标记图谱。

4.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，其特征在于：

步骤（5）中所述的不同区间峰强度区分度的计算方法如下：

用N(r_j)和用N(e_j)分别表示离子在第j（j=1,2,…,11）个区间上正确匹配和错误匹配的个数，则离子在第j个区间的强度区分度为：

（j=1,2,…,11），用I(bj)表示b离子在11个区间的强度区分度，用I(y_j)表示y离子在11个区间的强度区分度，用I(s_j)表示匹配离子在11个区间的强度区分度；

（j=1,2,…,10），用T(b_j)表示b离子在10个区间的误差区分度，用T(yj)表示y离子在10个区间的误差区分度，用T(s_j)表示匹配离子在10个区间的误差区分度；

将P_j定义为实验图谱峰与理论图谱匹配中第j个匹配峰的离子区分度，p_j=D(m_j)I(s_j)T(s_j)，该区分度是一个概率值；其中，D(m_j)为第j个匹配离子峰区分度，I(s_j)为第j个匹配离子强度区分度，它是该峰强度所处的匹配离子强度区间的区分度；T(s_j)为误差值区分度，该误差区分度是该峰的误差所处的匹配离子误差区间的区分度。

5.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法，其特征在于：

步骤（6）中所述的匹配离子区分度的打分函数为：