CN105823883A

CN105823883A - 基于泊松分布模型的蛋白质二级质谱鉴定方法

Info

Publication number: CN105823883A
Application number: CN201510799996.1A
Authority: CN
Inventors: 陈晓舟; 肖传乐; 朱思敏; 陈君华
Original assignee: Yunnan Minzu University
Current assignee: Yunnan Minzu University
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2016-08-03
Anticipated expiration: 2035-11-19
Also published as: CN105823883B

Abstract

本发明公开了一种基于泊松分布模型的蛋白质二级质谱鉴定方法，该方法的步骤轮廓如下：虚拟酶解蛋白质数据库序列并对酶解后的肽段建立肽段数据库索引，建立肽段数据库，接着根据待分析实验图谱中母离子去电荷后的质量数在建立的肽段数据库中找出符合要求的候选肽段，对实验图谱进行去同位素峰和去噪处理，将待分析的实验图谱与数据库中的理论图谱进行匹配打分，选择得分最高的肽段作为此实验图谱的鉴定结果，对鉴定结果进行整体的假阳性控制。本发明涉及的基于泊松分布模型的蛋白质二级质谱鉴定方法可动态选峰，运行速度较快，同时鉴定的有效图谱数量和肽段数量均高于目前算法。

Description

基于泊松分布模型的蛋白质二级质谱鉴定方法

技术领域

本发明涉及蛋白质二级质谱鉴定领域，特别是涉及一种基于泊松分布模型的蛋白质二级质谱鉴定方法。

背景技术

生物质谱技术目前已经成为蛋白质组研究的支撑技术之一，质谱技术的开发可追溯到20世纪初期，由J.J.Thomson创制的抛物线质谱装置。之后，在1919年Aston制成的速度聚焦型质谱仪又为质谱的发展创造奇迹。接着80年代末期，基质辅助激光解吸(matrix-assistedlaserdesorptionionization,MALDI)和电喷雾(ElectrosprayIonization,ESI)两种软电离技术的出现，使生物质谱引入较少的杂质同时保持肽段分子的完整性，这些改变使得生物质谱技术可以大规模的应用于蛋白质分析中。主要是利用串联质谱或者二级质谱(LC-MS/MS)从带有复杂噪声或者部分信息缺失的数据中推断样品的蛋白质组成。在这些质谱数据的处理中我们主要应用数据库搜索，其基本过程如图1所示，即将实验图谱和数据库中产生的理论图谱进行比对、打分，选择分值最高的匹配作为搜索结果的候选肽段。

我们知道一次蛋白质组实验可产生许多的LC-MS/MS图谱，这些图谱具有如下特点：实验图谱碎片峰离子复杂且丰富，同位素峰存在，生物质谱仪器本身的误差。如何快速的提取对我们有用的信息成为生物学研究的新课题，蛋白质二级质谱鉴定算法的不断创新为研究核苷酸序列提供了新的方法。

蛋白质二级质谱鉴定主要包括：母离子价态的确定、有效质谱峰的选取、匹配打分模型构建以及整体鉴定结果的假阳性率控制。随机数据库方法是目前针对整体鉴定结果假阳性率控制的主要方法。其基本思想是：先给定的蛋白质数据库和实验数据集构建一个随机数据库，然后同时或者分别搜索真实蛋白质数据库和新构建的随机数据库，进而通过随机数据库肽段匹配来模拟正常数据库中的随机匹配，最终估计正常数据库中随机匹配的特征分布，确定不同过滤标准。目前求取整体数据集假阳性率(FalsePositiveRate，FPR)的方法多样。其中Kall’s在Proteome上公开的计算假阳性率的方法被广泛采用，计算公式如下：

F P R = \frac{N_{R}}{N_{N}}

打分模型是蛋白质二级质谱鉴定算法的核心问题，目前的许多算法并不能提高蛋白质有效质谱数量和蛋白质肽段数。

发明内容

基于此，有必要提供一种能明显提高蛋白质有效质谱数量和蛋白质肽段数量的基于泊松分布模型的蛋白质二级质谱鉴定方法。

一种基于泊松分布模型的蛋白质二级质谱鉴定方法，包括如下步骤：

(1)虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引；

(2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段，将选出符合要求的候选肽段作为理论图谱；

(3)对待分析实验图谱进行去同位素峰和去噪处理；

(4)将步骤(3)中的待分析实验图谱和步骤(2)中每张候选肽段的理论图谱进行匹配打分，选择得分最高的候选肽段作为本次实验图谱的鉴定结果；

(5)针对所有实验的鉴定结果进行整体的假阳性控制。

在其中一个实施例中，步骤(1)具体包括如下步骤：

(1.1)读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列；

(1.2)根据提前设定的蛋白酶确定蛋白质序列的酶切位点，在该酶切位点进行断裂，区别出无漏切位点的肽段和存在漏切位点的断裂肽段；

(1.3)由每个氨基酸的分子量计算步骤(1.2)中其所对应的酶切后的肽段的质量数；

(1.4)将经过步骤(1.3)处理过的肽段存入肽段数据库，同时以该肽段取整后质量数命名该数据库中的文件，并将该条肽段的信息存入该文件；

(1.5)重复步骤(1.2)-(1.4)，对每一条蛋白质进行相同的处理，直到所有的蛋白序列被酶解且被存入已建立的所述肽段数据库；

(1.6)依据所述肽段数据库中的文件名数字从小到大读出文件中的肽段信息，每读一个文件，按照文件中所存肽段的质量数从小到大进行排序，并将其存入到database.ind文件中；并以1da为单位对所有肽段建立查找索引database.index，该查找索引具体包括：肽段质量数、肽段在database.ind文件中的开始位置以及某区间内的肽段的个数。

在其中一个实施例中，步骤(2)在肽段数据库中找出符合要求的候选肽段并以此建立理论图谱的具体步骤是：

(2.1.1)加载步骤(1.6)中的database.index文件信息到内存数组index中，读取待分析二级质谱的母离子核质比值和电荷信息，并计算其母离子去电荷后的质量数；

(2.1.2)根据容许的质量误差和步骤(2.1)所述的质量数在index数组中查找相应肽段在文件database.ind中的开始位置和行数，然后加载此区间内的所有肽段信息；

(2.1.3)根据用户所采用质谱仪的精确度，对步骤(2.1.2)加载到内存的肽段进行进一步的筛选，作为此待分析二级质谱的候选肽段；

(2.1.4)步骤(2.1.3)得到的候选肽段在离子碎裂过程中产生理论碎片b、y离子。

在其中一个实施例中，步骤(2.1.4)所述的候选肽段在离子碎裂过程中产生理论碎片b、y离子包括如下步骤：

(2.1.4.1)产生候选肽段产生的理论碎片b、y离子；

(2.1.4.2)若步骤(2.1.4.1)产生b、y离子中包含S、T、E和D四种氨基酸中的一种，则产生对应的丢水碎片离子b-H₂O和y-H₂O；

(2.1.4.3)若步骤(2.1.4.1)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种，则产生对应的丢氨碎片离子b-NH₃和y-NH₃；

(2.1.4.4)若待分析二级质谱母离子价态是1价，则考虑产生一价碎片离子；

(2.1.4.5)若待分析二级质谱母离子价态大于或等于2，并且对应的碎片离子中包含R，K和H三种氨基酸其中一种时，则考虑二价碎片离子峰。

在其中一个实施例中，步骤(3)所述的对待分析实验图谱进行去同位素的具体步骤是：

(3.1)进行初始化，三个比较峰的m/z值及其强度，全部设为0，设三个峰m/z值分别是：m/z_1＝0，m/z_2＝0，m/z_3＝0，其峰强对应是m/z_1_in＝0，m/z_2_in＝0，m/z_3_in＝0，并设置保留峰的容器，已知测量质量误差m；

(3.2)读取一个峰的信息，把目前的峰放入第三个峰的位置，即m/z_3，m/z_3_in，把第三个峰与第一个峰和第二个峰比较，判断是否是前两个峰的同位素峰：

(3.2.1)如果以下三个条件的任意一个条件成立，则认为是同位素峰，

a.|m/z_3-m/z_2-1|<＝m并且m/z_2_in>m/z_3_in；

b.|m/z_3-m/z_1-1|<＝m并且m/z_1_in>m/z_3_in；

c.|m/z_2-m/z_1|<＝m并且m/z_2_in>m/z_3_in，此为相同峰信息，记录误差，

执行三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in；

m/z_2＝m/z_3，m/z_2_in＝m/z_3_in；

(3.2.2)如果步骤(3.2.1)中的三个条件均不成立，则认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，并把三个峰向前平移一位，空出第三个峰的位置，即：m/z_1＝m/z_2，m/z_1_in＝m/z_2_in；

(3.3)逐个读取下一个峰的信息，重复步骤(3.2)直到处理完一张二级质谱图所用峰信息，其保留峰容器中的峰即为去同位素峰之后的非同位素峰。

在其中一个实施例中，步骤(3)所述的对待分析实验图谱进行去噪的具体步骤如下：

(3.4)寻找实验图谱m/z的最大值和最小指分别为maxm/z和minm/z，以及峰强度的最大值max_intensity和对应的m/z值；

(3.5)将实验图谱划分为k个窗口，其中k＝max(round([(maxm/z-m/z)/50,(m/z-minm/z)/50]+0.5))；

(3.6)以max_intensity对应的m/z为基准，并向左、右延伸，每次分别开启50Da的窗口，直到窗口数等于k结束；

(3.7)对每一窗口的峰进行归一化，用每个峰除以该窗口中的最强峰，并选择该窗口下最强的6个峰作为有效峰。

在其中一个实施例中，所述步骤(4)将待分析实验图谱和理论图谱进行匹配打分包括：基于泊松分布的连续匹配打分，基于泊松分布的b、y离子的匹配打分，具体如下：

(3)基于泊松分布的连续匹配打分：

其中k₁是实验图谱匹配数，K₁是实验图谱连续匹配上的个数，S₁是连续匹配的得分，0.1789是随机匹配的概率值，等于实际连续错误匹配数除以理论连续错误匹配数；

(4)基于泊松分布的b、y离子的匹配打分：

其中K₂是实验图谱和理论图谱中b/y离子的匹配个数，S₂是b/y匹配的得分，0.2110是随机匹配的概率，等于实际错误匹配数除以理论错误匹配数；

(3)基于泊松分布模型的总的打分：

S_P e p = (S_{1} + S_{2}) * \frac{1 + Σ_{i = 1}^{K} \Pr_{i}}{1 + K \times 0.155}

在其中一个实施例中，所述步骤(5)针对所有实验图谱鉴定结果进行整体假阳性控制，具体包括以下步骤：

(5.1)统计待分析图谱所有二级图谱鉴定结果肽段得分最小值和最大值；

(5.2)统计在最小值和最大值之间，其中大于等于每个分值的鉴定结果中真实(N_N)和随机库(N_R)肽段的个数，并计算每个分值为阀值时的FDR的值,如下公式：

F D R = \frac{N_{R}}{N_{N}}

(5.3)寻找每个分值的阈值，直至找到FDR<＝0.01时，将此分值为待分析图谱的整体阀值；

(5.4)根据步骤(5.3)找到全局的阈值，并且以此阀值过滤待分析图谱的鉴定结果，将小于此阀值结果被过滤掉，其结果作为最终的待分析图谱最终鉴定结果。

本发明涉及的泊松分布模型的蛋白质二级质谱鉴定方法具有如下的优点及效果：

(1)本发明主要对生物质谱产生的二级质谱数据进行解释和鉴定，其鉴定有效质谱的数量和蛋白质肽段数量均高于目前的常用的国外商业软件的算法。现被广泛使用的技术中，Mascot鉴定的有效质谱的数量和蛋白质肽段数量最多，本鉴定方法结果要优于Mascot。

(2)本发明方法的打分模型主要是基于泊松分布模型进行打分。其方法在考虑连续匹配以及b，y离子匹配的基础上融入了峰强度这一特征信息。

(3)该发明鉴定有效质谱峰的效果要远远高于目前的商业软件Mascot和Sequest，而且本鉴定算法鉴定效率较之前算法大大提高了。

附图说明

图1为二级质谱鉴定的基本流程图；

图2为本发明实施例中基于候选肽段区分度的蛋白质二级质谱鉴定方法流程图；

图3为本发明实施例蛋白质虚拟酶解示意图；

图4为本发明实施例原始4个峰的去同位素执行过程中三个峰和保留峰的状态改变过程。

具体实施方式

以下将结合实施例及附图对本发明作进一步详细的说明。

参见图2所示，本实施例中的基于泊松分布模型的蛋白质二级质谱鉴定方法，具体步骤如下：

(3)对待分析实验图谱进行去同位素峰和去噪处理(即选取有效峰)；

(5)针对所有实验的鉴定结果进行整体的假阳性控制。

上述步骤具体实施如下：

①所述的虚拟酶解蛋白质数据库序列并对酶解后肽段建立肽段数据库和肽段数据库索引，具体包括如下步骤：

1)读取质谱分析样本(即待分析二级质谱的样本)的物种蛋白质序列库文件中的一条蛋白质序列。

2)根据用户设定蛋白酶和容许的漏切位点个数对此蛋白质序列进行虚拟理论酶切。目前使用Trypsin进行蛋白质酶解实验最多。在酶切过程中应遵循以下规则：

A.根据表1找到蛋白质序列中包含符合上面规则的理论酶切位点；

B.在复合符合规则的酶切位点产生断裂，产生没有漏切位点的肽段；

C.产生存在漏切位点的断裂肽段；

表1蛋白酶酶切位点表

蛋白质酶	敏感端	酶切位点	限制酶切位点
				Trypsin	C-Term	KR	P
Arg-C	C-Term	R	P
				Asp-N	N-Term	D
Asp-N_ambic	N-Term	DE
				Chymotrypsin	C-Term	FLWY	P
CNBr	C-Term	M

从表1可知Trypsin是对蛋白质C-Term敏感的，也就是说蛋白质序列C端可能会被切掉一个氨基酸；其酶切位点KR，也就是说其酶在序列的K和R上发生酶切作用；其限制酶切位点是P，也就是说序列K和R上发生酶切时，如果其后面一个氨基酸是P则不能发生酶切作用。其一个蛋白质虚拟酶解(以Trypsin酶解为例)示意图如图3所示。

3)根据每个氨基酸的分子量计算每个虚拟酶切后肽段的质量数；在计算质量数之前首先对每个氨基酸的质量建立索引。如表2所示，对20个氨基酸的索引和翻译后修饰的索引方法如下：

A.启用一个与ASCII码相同大小的数组(大小为250)；此数组的下标与氨基酸单字母简写的ASCII码数值一致，其数组中保存其氨基酸的分子量。除了20种氨基酸的位置放置没有修饰的氨基酸(除了20种氨基酸，还有碳氢氧氮的)，其它位置(大概有230)个可以处理翻译后修饰，该方法可以同时处理230种修饰。

表2氨基酸索引表

数组	氨基酸简写	数组值	化学组成
				AA(1)		14.00307	N
AA(2)		15.99491	O
				AA(3)		1.007825	H
AA(4)		12	C
				AA(65)	A	71.037114	H(5)C(3)NO
AA(66)	B	115.02694	H(5)C(4)NO(3)
				AA(67)	C	103.0092	H(5)C(3)NOS
AA(68)	D	115.026943	H(5)C(4)NO(3)
				AA(69)	E	129.04259	H(7)C(5)NO(3)
AA(70)	F	147.06841	H(9)C(9)NO
				AA(71)	G	57.02146	H(3)C(2)NO
AA(72)	H	137.05891	H(7)C(6)N(3)O
				AA(73)	I	113.08406	H(11)C(6)NO
AA(75)	K	128.09496	H(12)C(6)N(2)O
				AA(76)	L	113.084064	H(11)C(6)NO
AA(77)	M	131.040485	H(9)C(5)NOS
				AA(78)	N	114.042927	H(6)C(4)N(2)O(2)
AA(80)	P	97.052764	H(7)C(5)NO
				AA(81)	Q	128.058578	H(8)C(5)N(2)O(2)
AA(82)	R	156.101111	H(12)C(6)N(4)O
				AA(83)	S	87.032028	H(5)C(3)NO(2)
AA(84)	T	101.047679	H(7)C(4)NO(2)
				AA(86)	V	99.068414	H(9)C(5)NO
AA(87)	W	186.079313	H(10)C(11)N(2)O
				AA(89)	Y	163.063329	H(9)C(9)NO(2)

B把肽段字母转换成ASCII码的数值，根据氨基酸索引表的数值计算肽段的质量，例如：假设有一个肽段为ACD，那么肽段ACD的ASCII码数值是65，67，68；那么其肽段的质量数为数组AA下标为65，67，68的值之和并加上水的分子量，因为肽段有C端(H)和N端(OH)，所以该肽段的质量数为：

2*AA(3)+AA(2)+AA(65)+AA(67)+AA(68)＝2*1.007825+15.99491+71.037114+103.0092+115.026943＝307.0838

4)将计算所得质量数的肽段放入肽段数据库中，即以每da为单位对所有酶解后肽段分别存入相应的文件中。同时将肽段的质量数取整，例如307.0838取整后为307，之后将肽段的信息存入质量数取整的文件中末尾追加，即在文件名为307的文件末尾追加一行存入肽段的信息。按照上面方法依次将每条肽段放入肽段数据库。

5)读取下一条蛋白质序列，重复步骤2)，3)，4)，直至所有的蛋白序列被酶解和存入肽段数据库。

6)合并以每da为单位文件的肽段信息并对其建立索引文件：按文件名的数字从小到大读出文件中的肽段信息，每读一个文件，按照文件中肽段的质量数从小到大进行排序，之后从小到大顺序存入database.ind文件中，并删除每个读取肽段信息文件。例如文件名为1000文件存入质量数为1000da-1001da所有肽段的信息，读取其文件的肽段信息，并排序，之后排序后肽段信息存入database.ind文件中，并删除1000文件。将信息database.ind每行存入一个肽段，其文件格式如表3所示，与此同时，按照1da对酶解所有肽段建立查找索引database.index，其查找索引记录下信息：第一列保存其质量数，例如1000，表示质量数位为1000da-1001da肽段，第二列是这些肽段在database.ind文件开始位置，第三列是酶解肽段在1000da-1001da的个数，即1000da-1001da肽段在database.ind文件中的行数。根据database.index可以知道1000da-1001da在文件database.ind中的位置，其结果如表4所示。

表3database.ind索引表

表4database.index索引表

肽段质量数索引编号	文件开始位置	肽段数量
			1005	0	2
1064	56	2
			1089	224	2
1106	282	2
			1117	340	4

②根据待分析实验图谱母离子去电荷后的质量查找肽段数据库，找出符合要求的候选肽段，具体包括如下步骤：

根据待分析二级质谱母子荷质比(m/z)值查找符合要求的候选肽段的方法：

1)加载database.index文件信息到内存数组index，读取待分析二级质谱的母离子的m/z值和电荷信息，并计算其母离子去电荷后的质量数，例如有一个m/z＝2100.2，charge＝2的母离子信息，其去电荷后的质量数为m/z*2-2＝4198.2。

2)根据容许的质量误差查找index数组记录并读取相应肽段信息，假设质量误差为0.1，4198.2-0.1＝4198.1和4198.2+0.1＝4198.3，4198.1和4198.3取整都为4198da，查找index数组找到其在文件database.ind中的开始位置和行数，由此位置开始顺序读取相应的行数加入内存中，即加载了4198～4199Da内的所有肽段信息。

3)对内存加载肽段进行逐步的精细筛选，即筛选出质量数范围在4198.1～4198.3Da之间的的肽段，作为此待分析二级质谱的候选肽段。

③对待分析实验图谱进行去同位素峰和去噪处理，具体包括如下步骤：

1)去同位素峰：

同位素峰在实验图谱中是普遍存在的，理论上讲同位素峰之间质荷比m/z相差1且同位素峰之间的峰强受自然界同位素丰度控制，同时由于质谱仪类型不同，其测量的精确度也不同。由于一张质谱的系统误差一样，也就是说同位素峰要么总是向右或向左偏离理论值，因此认为两个峰m/z1和m/z2符合|m/z1-m/z2-1|<0.25da既为同位素峰。去同位素峰理论上应该构建同位素峰群，选取峰群中最强的峰，为了提高速度，本发明实现方法是同时把三个峰反复比较取最高峰(CID1+0.25da)，不断重复选取。

具体操作方法如下：

1.1)进行初始化，三个比较峰的m/z值及其强度，全部设为0(假设三个峰m/z值分别是：m/z_1＝0，m/z_2＝0，m/z_3＝0，其峰强对应是m/z_1_in＝0，m/z_2_in＝0，m/z_3_in＝0，并设置保留峰的容器(用于存储非同位素峰))；

1.2)读取一个峰的信息，假设m/z_curr＝245，in_curr＝80，测量质量误差m＝0.25，

1.2.1)把目前的峰放入第三个峰的位置，即m/z_3＝m/z_curr，m/z_3_in＝in_curr；

1.2.2)把第三个峰与第一个峰和第二个峰比较，判断是否是前两个峰的同位素峰。即

如果以下三个条件的任意一个条件成立，则认为是同位素峰，

①|m/z_3-m/z_2-1|<＝m并且m/z_2_in>m/z_3_in；

②|m/z_3-m/z_1-1|<＝m并且m/z_1_in>m/z_3_in；

③|m/z_2-m/z_1|<＝m并且m/z_2_in>m/z_3_in(此为相同峰信息，记录误差)，

执行三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in；

m/z_2＝m/z_3，m/z_2_in＝m/z_3_in；

否则，认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，并把三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in；

1.3)逐个读取下一个峰的信息，重复步骤1.2)直到处理完一张二级质谱图所用峰信息，其保留峰容器中的峰即为去同位素峰之后的非同位素峰。

如图4出示了原始4个峰的去同位素执行过程中三个峰和保留峰的状态改变过程。

2)去噪处理(即选取有效质谱峰)

本发明鉴定方法在选取有效质谱峰方面与以前鉴定方法有了很大不同，此算法采取以下选取有效峰的方法：

2.1)寻找实验图谱m/z的最大值和最小指分别为maxm/z和minm/z，以及峰强度的最大值max_intensity和对应的m/z值；

2.2)将实验图谱划分为k个窗口，其中k＝max(round([(maxm/z-m/z)/50,(m/z-minm/z)/50]+0.5))；；

2.3)以max_intensity对应的m/z为基准，并向左右延伸，每次分别开启50Da的窗口(即以100Da为1个窗口)，直到窗口数等于k结束；

2.4)对每一窗口的峰进行归一化，也即用每个峰除以该窗口中的最强峰，并选择该窗口下最强的6个峰作为有效峰。

④产生符合要求的候选肽段的理论图谱，即对实验图谱进行去同位素峰处理和选取有效峰后产生符合要求的候选肽段的理论图谱：

1)产生候选肽段可能产生的理论碎片b、y离子；

2)如果步骤1)产生b、y离子中包含S、T、E和D四种氨基酸中的一种则产生对应的丢水碎片离子b-H₂O和y-H₂O；

3)如果步骤1)产生b、y离子中包含R、K、Q和N四种氨基酸中的一种则产生对应的丢氨碎片离子b-NH₃和y-NH₃；

4)待分析二级质谱母离子价态是1价，则考虑产生一价碎片离子；

5)若待分析二级质谱母离子价态大于等于2，并且对应的碎片离子中包含R，K和H三种氨基酸其中一种时，则考虑二价碎片离子峰；

根据步骤上述步骤产生所有理论碎片离子的方法规则，得到候选肽段的理论图谱。

⑤待分析实验图谱和理论图谱进行匹配打分包括：基于泊松分布的连续匹配打分，基于泊松分布的b、y离子的匹配打分，具体如下：

(1)基于泊松分布的连续匹配打分

其中k₁是实验图谱匹配数，K₁是实验图谱连续匹配上的个数，S₁是连续匹配的得分，0.1789是随机匹配的概率值，等于实际连续错误匹配数除以理论连续错误匹配数。

(2)基于泊松分布的b、y离子的匹配打分

其中K₂是实验图谱和理论图谱中b/y离子的匹配个数，S₂是b/y匹配的得分，0.2110是随机匹配的概率，等于实际错误匹配数除以理论错误匹配数。

(3)基于泊松分布模型的总的打分

S_P e p = (S_{1} + S_{2}) * \frac{1 + Σ_{i = 1}^{K} \Pr_{i}}{1 + K \times 0.155}

⑥根据总打分函数选择得分最高的肽段作为此实验图谱的鉴定结果。

⑦对鉴定结果采用FDR<<0.01进行质量控制并得出成最终鉴定结果，具体方法如下步骤：

1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值；

2)统计在最小值和最大值之间，其中大于每个分值的鉴定结果中真实库和随机库肽段的个数，并计算每个分值为阀值时的FDR的值；

3)按得分值从小到大寻找每个分值，直到找到FDR<＝0.01时，此分值为待分析图谱的整体阀值；

4)根据步骤3)找到整体阀值，以此阀值过滤待分析图谱的鉴定结果，也就是说小于此阀值结果被过滤掉，其结果作为最终的待分析图谱最终鉴定结果。

本发明涉及的泊松分布模型的蛋白质二级质谱鉴定算法主要对生物质谱产生的二级质谱数据进行解释和鉴定，其鉴定有效质谱的数量和蛋白质肽段数量均高于目前的常用的国外商业软件的算法。该方法在考虑连续匹配以及b，y离子匹配的基础上融入了峰强度这一特征信息，鉴定有效质谱峰的效果要远远高于目前的商业软件Mascot、Sequest和SQID，而且本鉴定算法鉴定效率较之前算法大大提高。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，包括如下步骤：

(3)对待分析实验图谱进行去同位素峰和去噪处理；

(5)针对所有实验的鉴定结果进行整体的假阳性控制。

2.根据权利要求1所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，步骤(1)具体包括如下步骤：

3.根据权利要求2所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，步骤(2)在肽段数据库中找出符合要求的候选肽段并以此建立理论图谱的具体步骤是：

4.根据权利要求3所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，步骤(2.1.4)所述的候选肽段在离子碎裂过程中产生理论碎片b、y离子包括如下步骤：

(2.1.4.1)产生候选肽段产生的理论碎片b、y离子；

5.根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，步骤(3)所述的对待分析实验图谱进行去同位素的具体步骤是：

a.|m/z_3-m/z_2-1|<＝m并且m/z_2_in>m/z_3_in；

b.|m/z_3-m/z_1-1|<＝m并且m/z_1_in>m/z_3_in；

执行三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in；

m/z_2＝m/z_3，m/z_2_in＝m/z_3_in；

6.根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，步骤(3)所述的对待分析实验图谱进行去噪的具体步骤如下：

7.根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(4)将待分析实验图谱和理论图谱进行匹配打分包括：基于泊松分布的连续匹配打分，基于泊松分布的b、y离子的匹配打分，具体如下：

(1)基于泊松分布的连续匹配打分：

(2)基于泊松分布的b、y离子的匹配打分：

(3)基于泊松分布模型的总的打分：

8.根据权利要求1-4任意一项所述的基于泊松分布模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(5)针对所有实验图谱鉴定结果进行整体假阳性控制，具体包括以下步骤：