CN105527359B

CN105527359B - 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

Info

Publication number: CN105527359B
Application number: CN201510799926.6A
Authority: CN
Inventors: 陈晓舟; 肖传乐; 李华梅; 陈君华
Original assignee: Yunnan Minzu University
Current assignee: Yunnan Minzu University
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2017-10-31
Anticipated expiration: 2035-11-19
Also published as: CN105527359A

Abstract

本发明申请公开了一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，该算法主要通过统计不同类型实验峰与正反库理论峰在不同误差范围及强度区间下的匹配情况，进而提取出串联图谱的新特征信息并进行数学定量，最后将已被定量的新特征信息融入至蛋白质二级质谱鉴定算法打分模型。为了验证PepFind算法的可靠性，我们将利用不同质谱平台下产生的数据集对该算法进行测试，并与目前被广泛应用的商业及相关开源蛋白质二级质谱鉴定软件在FDR为1％的条件下所得鉴定结果进行对比分析，结果表明PepFind对实验图谱具有更好的鉴定量及灵敏度。本发明申请涉及的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，能明显提高蛋白质有效质谱数量和蛋白质肽段数量。

Description

基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

技术领域

本发明涉及蛋白质二级质谱鉴定领域，特别是涉及一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法。

背景技术

串联质谱技术(LC-MS/MS)被广泛应用于复杂蛋白质混合物的鉴定及定量研究中。在一次传统的LC-MS/MS实验中，酶解后得到的多肽混合物经强阳离子交换色谱及反相色谱后分离后，所得肽段根据自身疏水性不同依次流入生物质谱，利用电喷雾技术或激光解吸技术使进入质谱仪的肽段电离并碎裂，同时测定相应碎片离子的质量信息，然后选择峰强度最高的前几个碎片离子产生相应的MS/MS图谱，所得MS/MS图谱(参见图1所示)将被蛋白质二级质谱鉴定算法解析，推测出该实验图谱对应的肽段序列。

由于一次蛋白质组实验能产生大量的MS/MS图谱，所获图谱数据具有如下特点：①实验图谱中碎片峰信息丰富且复杂：首先，生物质谱仪器本身可产生大量的噪声；其次，碎片峰类型具有多样性，肽段在生物质谱中碎裂的过程是随机的，碎片峰的类型与肽段碎裂位置有关，不同的碎裂位点可产生不同类型的碎片峰；最后，峰强度的复杂性，一张实验图谱中有效碎片峰数约占30％，其峰强度的高低能很好的反应碎片峰的可靠性，大量统计表明，峰强度越高，其对应碎片峰的有效性则越好。但是，低峰度且有效的碎片峰在实验图谱中不可避免的存在，极大影响了图谱数据的精确解析。②同位素峰的普遍存在：MS/MS图谱中单电荷与多电荷共存，是不同离子的同位素峰之间存在着复杂重叠的情况。③生物质谱仪器本身的误差：不同的误差精度可较大程度上影响数据库搜索的效率和精度。因此，如何快速且有效的解析海量图谱信息是后续生物学分析研究的前提，蛋白质二级质谱鉴定算法为准确、快速推测MS/MS氨基酸序列构成开启了新的篇章。

目前，大多数蛋白质二级质谱鉴定算法都是针对于诱导碰撞解离(Collision-Induced Dissociation,简称“CID”)下产生的MS/MS图谱而设计的。在质谱实验中，带上电荷的肽段通过质谱仪可以检测到其质荷比，然而为了更为准确的鉴定肽段，通常还需要对肽段进行碰撞碎裂，对肽段碎裂而产生的碎片离子进行二级质谱扫描。肽段的碎裂一般是利用能量较低的惰性气体诱导碰撞，基于诱导碰撞解离方式的生物质谱仪在内部有一个空腔，在这里利用电场可以捕获特定质荷比的肽段，然后通过改变射频电压使得特定的质荷比肽段离子跟碎裂腔中的惰性气体进行碰撞，从而使肽段离子中的化学键断裂，产生碎片离子，再通过质量分析仪器可以得到串联质谱，也就是二级质谱。一般来说肽段的碎裂位置会在化学能量键较低的位置断裂，产生N端b离子以及C端y离子，同时也会产生部分附属的亚离子，b-H₂O,b-NH₃,y-H₂O及y-NH₃。因此，正确的认识和理解碎片离子的结构和相应的理化性质是构建蛋白质二级质谱鉴定算法的前提。

由于生物质谱技术的应用使得碎片离子的质荷比信息是可知的。因此，实验肽段序列信息可通过实验图谱与理论图谱之间的匹配进行重构(见图3)。在很长一段时间内，M/Z值常被作为主要的信息而融入到蛋白质二级质谱鉴定算法中，并以此对肽段数据库或被翻译后的核酸数据库进行搜索,获取可能的候选肽段。其中代表算法软件有：Sequest,Mascot和X！Tandem。数据库搜索的核心思想是：首先将实验图谱与产生的理论图谱进行比对，从而获取可能的候选肽段，并对产生的候选肽段基于相似度或概率打分，得分最高且与其他候选肽段得分有显著差异的候选肽段作为最终的匹配结果(见图2)。

打分函数是蛋白质二级质谱鉴定算法的核心，不同的算法会结合不同的MS/MS特征信息，提出不同的打分模型，并以此提升算法的可靠性和灵敏度。近来算法文献报道可以看出，模型构建过程中原有特征信息的单一性已被改善，即除考虑M/Z特征信息外，其他相关图谱特征信息也会被融入算法构建及打分函数中，比如：碎片峰的匹配个数、碎片峰的强度特性、匹配氨基酸的理化性质、碎片离子区分度等，这些隐含在图谱中的特征信息在最近发表的鉴定算法ProVerB,Dispec,SQID,MassWiz中有着不同程度的体现。但是基于正反库前提下，探究不同类型碎片离子在不同质量误差范围及强度区间下基于正反库匹配特性在现有蛋白质二级质谱鉴定算法中均被忽略。

发明内容

基于此，有必要提供一种能明显提高蛋白质有效质谱数量和蛋白质肽段数量的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法。

一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，包括如下步骤：

(1)下载蛋白质参考序列数据库，并将蛋白质参考序列反转，得到包含正库及反库的蛋白质序列数据库；

(2)虚拟酶解步骤(1)得到的所述蛋白质数据库序列，并根据酶解后肽段的质量数建立肽段质量数据库和肽段质量数据库索引；

(3)对待分析实验图谱进行去除同位素峰处理，并合理的选取有效峰，提升实验图谱本身的信噪比；

(4)根据待分析实验图谱中母离子去电荷后的质量数在步骤(2)所述的肽段质量数据库中找出符合要求的候选肽段，并按规则产生相应的理论图谱；

(5)统计不同离子类型在不同质量误差范围及强度区间的匹配信息，对获取的统计信息进行合理的数学定量；

(6)将步骤(5)中获取的定量信息融入至打分算法，选择得分最高的候选肽段作为此实验图谱的匹配结果，最后对所有实验图鉴定结果进行整体质量控制。

在其中一个实施例中，步骤(2)所述的候选肽段的筛选方法包括如下步骤：

①加载database.index文件信息到内存数组index，读取待分析二级质谱母离子的m/z值和电荷信息，并计算其母离子去电荷后的质量数；

②根据容许的质量误差查找index数组记录并读取相应肽段信息，查找index数组找到其在文件database.ind中的起始位置和行数，由此位置开始顺序读取相应的行数，并加入内存中，即加载了该区间内的所有肽段信息；

③对内存加载肽段进行逐步地精细筛选，并作为此待分析二级质谱的候选肽段。

在其中一个实施例中，步骤(3)所述的去同位素峰过程具体包括如下步骤：

①去同位素峰

a.进行初始化，比较三个峰的m/z值及其强度，全部设为0，具体叙述如下：

I.三个峰m/z值分别是：m/z_1＝0，m/z_2＝0，m/z_3＝0；

II.三个峰的峰强度对应为：m/z_1_in＝0，m/z_2_in＝0，m/z_3_in＝0；并设置保留峰的容器，已知测量质量误差δ；

b.读取一个峰的信息，将目前的峰放入第三个峰的位置，即m/z_3，m/z_3_in，将第三个峰与第一个峰和第二个峰比较，判断是否是前两个峰的同位素峰,若以下三个条件的任意一个条件成立，则认为是同位素峰：

I.|m/z_3-m/z_2-1|＜＝，并且m/z_2_in＞m/z_3_in；

II.|m/z_3-m/z_1-1|＜＝，并且m/z_1_in＞m/z_3_in；

III.|m/z_2-m/z_1|＜＝δ，并且m/z_2_in＞m/z_3_in

此为相同峰信息，记录误差，执行三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in

m/z_2＝m/z_3，m/z_2_in＝m/z_3_in

c.如果步骤(b)中的三个条件均不成立，则认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，并把三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in

d.逐个读取下一个峰的信息，重复步骤(b)直到处理完一张二级质谱图所用的峰信息，其保留峰容器中的峰即为去同位素峰之后的非同位素峰；

②选取有效质谱峰

基于正反库特征信息匹配的蛋白质二级质谱鉴定方法在选取有效质谱峰方面与以前的鉴定方法有很大不同，此算法采用以下选取有效峰的方法：

a.找出实验图谱m/z的最大值与最小值，分别记为maxm/z与minm/z，以及最高峰强度对应的m/z值；

b.将实验图谱划分为k个窗口：

k＝max(round([(maxm/z-m/z)/50,(m/z-minm/z)/50]+0.5))

c.以最高峰强度对应的m/z值为基准，向左右延伸，每次分别开启50Da的窗口(即以100Da为1个窗口)，直到窗口数等于k结束；

d.对每一窗口的峰进行归一化，也即用每个峰除以该窗口的最高峰，并选择该窗口下最强的6个峰作为有效峰。

在其中一个实施例中，步骤(4)具体包括如下步骤：

a.将所得候选肽段产生可能的理论b、y碎片离子；

b.步骤(a)产生的b、y碎片离子中若包含S、T、E和D四种氨基酸的任意一种，则分别产生对应的丢水碎片离子，即b-H₂O和y-H₂O；

c.步骤(a)产生的b、y碎片离子中包含R、K、Q和N四种氨基酸中的任意一种，则分别产生对应的丢氨碎片离子，即b-NH₃和y-NH₃；

d.若待分析二级质谱母离子价态是1价，则考虑产生一价理论碎片离子；

e.若待分析二级质谱母离子价态大于等于2，并且对应的碎片离子中包含R，K和H三种氨基酸任意一种时，则考虑二价碎片离子。

在其中一个实施例中，步骤(5)具体包括如下步骤：

①将不同碎片峰类型下的质量误差及峰强度分别划分为10个及5个区间，具体操作如下：

a.质量误差区间：

[0,0.05],[0.05,0.1],[0.1,0.15],[0.15,0.2],[0.2,0.25],[0.25,0.3],[0.3,0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5]

b.峰强度区间：

c.碎片峰类型：

b,b-NH₃,b-H₂O,y,y-NH₃,y-H₂O；

②统计不同碎片峰类型在不同质量误差范围及强度区间下基于正反库下的匹配信息，即匹配个数；

③定义不同碎片峰类型在不同质量误差及强度区间下基于正反库匹配的特征信息，并进行数学定量；

不同碎片峰类型在不同质量误差及强度区间下权重计算公式如下：

其中：N_{T arg et}＝正库中匹数数，N_Decoy＝反库中的匹配数，Weight＝权重值，它是不同碎片峰类型在不同质量误差范围及强度区间下理论碎片峰与实验碎片峰识别非随机匹配造成的能力度量；j为第j个区间(j∈[1,10],j∈Z⁺)，i为第i种离子类型(i∈b/b-H₂O/b-NH₃/y/y-H₂O/y-NH₃)，N(r_ij)为离子类型i在区间j中正确匹配峰的数目，N(e_ij)为离子类型i在区间j中错误匹配峰的数目。

在其中一个实施例中，步骤(6)所述的打分过程包括：

基于正反库特征信息的匹配打分、基于正反库特征信息的连续匹配打分以及基于正反库特征信息的b、y离子匹配打分；

①基于正反库特征信息的匹配打分，公式如下：

其中：

K₀＝实验图谱与理论图谱匹配数；N₀＝理论图谱匹配数；Weight_i＝权重分值，是关于离子类型，质量误差范围及强度区间的函数；S₀＝实验图谱与理论图谱匹配分值；0.1992＝随机匹配参数；

反映了实验图谱与理论图谱之间非随机匹配产生的可靠性度量,而是对的标准化，使得不同水平下的实验图谱匹配得分具有可比性；

②基于正反库特征信息的连续匹配打分，公式如下：

其中：

K₁＝实验图谱与理论图谱连续匹配个；N₁＝实验图谱与理论图谱理论匹配个数；它是关于离子类型，质量误差区间及强度区间的函数，假设碎片峰i和碎片峰j是连续匹配的两个峰，则Weight_i'＝Weight_i+Weight_j；S₁＝实验图谱与理论图谱连续匹配总分值；0.0885＝连续匹配随机参数；

反映了实验图谱与理论图谱之间连续匹配非随机匹配产生的可靠性度量，是对的标准化，使得不同水平下实验图谱的连续匹配得分具有可比性；

③基于正反库特征信息的b、y离子匹配打分，公式如下：

其中：

K₂＝b/y离子匹配总个数；N₂＝b/y离子理论匹配总个数；Weight_i”＝b/y离子匹配的权重值，是已匹配的b/y离子权重总和；S₂＝b/y离子匹配所得总分值；0.0604＝离子匹配随机的参数；

反映了实验图谱与理论图谱之间b/y离子匹配是由正确匹配所产生的可靠性度量，是对的标准化，使得不同水平下的b/y离子匹配得分具有可比性；

④基于正反库特征信息匹配的肽段总得分：

Score_Pep＝S₀+S₁+S₂

其中：Score_Pep是肽段最终得分值；

⑤根据总打分函数选择得分最高的肽段作为此实验图谱的鉴定结果；

对不同候选肽段下的得分进行排序，将得分最高的候选肽段作为该实验图谱对应最佳匹配结果；

⑥对鉴定结果采用FDR<<0.01进行质量控制，并生成最终鉴定结果。

在其中一个实施例中，步骤(6)所述的质量控制包括如下步骤：

①统计待分析图谱所有二级图谱中的鉴定结果肽段得分的最小值和最大值；

②统计在最小值和最大值之间，其中大于每个分值的鉴定结果中真实库和诱饵库中肽段的个数，并计算每个分值为阈值时FDR的值；

③按得分值从小到大寻找每个分值，直到找到FDR<＝0.01时，此分值为待分析图谱的整体阈值；

④根据步骤③找到整体阈值，以此阈值过滤待分析图谱的鉴定结果，过滤掉小于此阈值的结果，其结果作为待分析图谱的最终鉴定结果。

本发明涉及的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法具有如下的优点及效果：

(1)本发明主要对生物质谱产生的二级质谱数据进行解释和鉴定，其鉴定的有效质谱数量和蛋白质肽段数量均高于目前常用的国外商业软件的算法。目前，在广为应用的技术中，Mascot鉴定的有效质谱数量和蛋白质肽段数量最多，本发明之鉴定结果优于Mascot。

(2)本发明的鉴定方法中打分模型主要基于正反库特征信息匹配统计模型，提出了一种基于全新概念下的新方法。其方法在考虑匹配、连续匹配以及b、y离子匹配的基础上融入了基于正反库特征信息匹配的权重信息。

(3)本发明鉴定有效质谱峰的效果要远高于目前的商业软件Mascot，Sequest及其他相关开源软件，而且本鉴定算法鉴定效率较之前算法大大提高了。

本发明涉及的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，基于正反库特征信息匹配的蛋白质二级质谱鉴定算法PepFind,首先我们将对不同碎片类型在不同质量误差范围及强度区间下的识别是否是随机匹配造成的能力进行数学定量，并以此作为经验权重融入到打分算法中。利用不同仪器平台下产生的数据集对该算法进行测试，并与目前被广泛使用的商业软件Mascot,Sequest及相关开源软件在FDR为1％的条件下所得鉴定结果进行对比分析，结果显示PepFind具有更好的肽段鉴定量及有效图谱数。

附图说明

图1为二级质谱实例图；

图2为二级质谱鉴定的基本流程图；

图3为实验图谱与理论图谱匹配示意图；

图4本发明实施例基于正反库特征信息匹配的蛋白质二级质谱鉴定方法示意图；

图5为发明实施例蛋白质虚拟酶解示意图；

图6为发明实施例原始4个峰的去同位素执行过程中三个峰和保留峰的状态改变过程；

图7、图8为发明实施例不同数据集权重相关性热图；

图9、10、11为发明实施例质谱峰图及选峰示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的说明。

参见图4所示，本实施例一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，包括以下步骤：

(2)虚拟酶解上述蛋白质数据库序列，并根据酶解后肽段的质量数建立肽段质量数据库和肽段质量数据库索引；

(6)将(5)中获取的定量信息融入至打分算法，选择得分最高的候选肽段作为此实验图谱的匹配结果，最后对所有实验图鉴定结果进行整体质量控制。

步骤(1)所述：下载蛋白质参考序列数据库，并将蛋白质参考序列反转，得到包含正库及反库的蛋白质序列数据库，具体实施步骤如下：

①下载实验蛋白混合物对应物种的完整蛋白质参考序列数据库，可通过如下主流数据库链接获取：

NCBI数据库：http://www.ncbi.nlm.nih.gov/；

Uniprot数据库：http://www.uniprot.org/；

SwissProt数据库：http://web.expasy.org/docs/swiss-prot_guideline.html。

②将上述所得蛋白质参考序列数据库进行反转得到诱饵库，并把目标蛋白质参考序列数据库与诱饵库(即反库)合并成一个整体。

步骤(2)所述：虚拟酶解上述蛋白质数据库序列，并根据酶解后肽段的质量数建立肽段质量数据库和肽段质量数据库索引，具体实施步骤如下(图5)：

①读取参考蛋白质序列数据库文件中的一条蛋白质序列，根据用户设定的蛋白酶进行虚拟理论酶切，目前Trypsin酶较为广泛的被使用进行蛋白质酶解实验。酶解规则如下：

a.找到蛋白质序列中包含符合规则的理论酶切位点；(见表1)

b.在符合规则的酶切位点产生断裂，产生没有漏切位点的肽段；

c.产生存在漏切位点的断裂肽段；

表1 蛋白酶酶切位点表

蛋白质酶	敏感端	酶切位点	限制酶切位点
				Trypsin	C-Term	KR	P
Arg-C	C-Term	R	P
				Asp-N	N-Term	D
Asp-N_ambic	N-Term	DE
				Chymotrypsin	C-Term	FLWY	P
CNBr	C-Term	M

②计算被虚拟酶切后肽段的质量数，具体实施过程如下：

a.建立氨基酸质量索引。如表2所示，对20个氨基酸的索引和翻译后修饰索引的方法如下：

I.启用一个与ASCII码大小相同的数组(大小为250),且保持一个数组的下标与氨基酸单字母简写的ASCII码数值一致，其数组中保存其氨基酸的分子量。除20种氨基酸的位置放置没有修饰的氨基酸外(除20种氨基酸外，还有碳氢氧氮)，其它位置(约230个)可处理翻译后修饰，该方法可同时处理230种修饰。

表2 氨基酸索引表

II.把肽段字母转换成ASCII码的数值，根据氨基酸索引表的数值计算肽段的质量；

③将计算所得质量数的肽段放入肽段数据库中，即以每da为单位对所有酶解后的肽段分别存入相应的文件中。将肽段的质量数取整，例如307.0838取整后为307，之后将肽段的信息存入质量数取整的文件中末尾追加，即在文件名为307的文件末尾追加一行存入肽段的信息。按照上面方法将每条肽段放入肽段数据库。

④读取下一条蛋白质序列，并重复步骤②、③，直到所有的蛋白序列被酶解和存入肽段数据库。

⑤合并以每da为单位文件的肽段信息并对其建立索引文件：按文件名的数字从小到大读出文件中的肽段信息，每读一个文件，按照文件中肽段的质量数从小到大进行排序，之后按从小到大的顺序存入database.ind文件中，并删除每个读取肽段信息文件。例如文件名为1000文件存入质量数为1000da-1001da的所有肽段信息，读取其文件的肽段信息并排序，将排序后的肽段信息存入database.ind文件中，并删除1000文件。将信息database.ind的每行存入一个肽段，其文件格式如表3所示，与此同时，按照1da对酶解所有肽段建立查找索引database.index，其查找索引记录信息：第一列保存其质量数，如1000表示质量数位为1000da-1001da肽段，第二列是这些肽段在database.ind文件起始位置，第三列是酶解肽段在1000da-1001da的个数，既1000da-1001da肽段在database.ind文件中的行数.根据database.index可知1000da-1001da在文件database.ind中的位置，其结果如表4所示。

表3 database.ind索引表

表4 database.index索引表

肽段质量数索引编号	文件开始位置	肽段数量
			1005	0	2
1064	56	2
			1089	224	2
1106	282	2
			1117	340	4

步骤(3)所述：对待分析实验图谱进行去除同位素峰处理，并合理的选取有效峰，提升实验图谱本身的信噪比；具体实施如下：

①去同位素峰

同位素峰在实验图谱中大量存在，合理的去除同位素峰为提升数据库所搜效能有着积极的意义，但由于质谱仪类型不同，同位素峰总是向右或向左偏离理论值，因此认为两个峰m/z1和m/z2符合下面不等式：

|m/z1-m/z2-1|＜0.25da

即为同位素峰。去同位素峰理论上应该构建同位素峰群，选取峰群中最强的峰，为了提高速度，本发明的实现方法是同时把三个峰反复比较取最高峰(CID1+0.25da)，不断重复选取，具体操作方法如下(图6)：

①三个峰m/z值分别是：m/z_1＝0，m/z_2＝0，m/z_3＝0；

②三个峰的峰强度对应为：m/z_1_in＝0，m/z_2_in＝0，m/z_3_in＝0；并设置保留峰的容器，已知测量质量误差δ；

b.读取一个峰的信息，将目前的峰放入第三个峰的位置，即m/z_3，m/z_3_in，将第三个峰与第一个峰和第二个峰比较，判断是否是前两个峰的同位素峰,若以下三个条件的任意一个条件成立，则认为是同位素峰:

①|m/z_3-m/z_2-1|＜＝，并且m/z_2_in＞m/z_3_in；

②|m/z_3-m/z_1-1|＜＝，并且m/z_1_in＞m/z_3_in；

③|m/z_2-m/z_1|＜＝δ，并且m/z_2_in＞m/z_3_in

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in

m/z_2＝m/z_3，m/z_2_in＝m/z_3_in

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in

d.逐个读取下一个峰的信息，重复步骤(b)直到处理完一张二级质谱图所用的峰信息，其保留峰容器中的峰即为去同位素峰之后的非同位素峰。

②选取有效质谱峰

基于正反库特征信息匹配的蛋白质二级质谱鉴定方法在选取有效质谱峰方面与以前的鉴定方法有很大不同，此算法采用以下选取有效峰的方法(图9-图11所示)：

b.将实验图谱划分为k个窗口：

k＝max(round([(maxm/z-m/z)/50,(m/z-minm/z)/50]+0.5))

步骤(4)所述：根据待分析实验图谱中母离子去电荷后的质量数在步骤(2)所述的肽段质量数据库中找出符合要求的候选肽段，并按规则产生相应的理论图谱，具体实施步骤如下：

①读取待分析二级质谱母离子的m/z值和charge(电荷)信息，并计算其母离子去电荷后的质量数。

②根据容许的质量误差查找index数组记录并读取相应肽段信息，查找index数组找到其在文件database.ind中的起始位置和行数，由此位置开始顺序读取相应的行数，并加入内存中。

③对内存加载肽段进行逐步地精细筛选，即质量误差在仪器精度范围内的肽段并此待分析二级质谱的候选肽段。

④产生符合要求的候选肽段的理论图谱：

a.将所得候选肽段产生可能的理论b、y碎片离子；

b.步骤(a)产生的b、y碎片离子中若包含S、T、E和D四种氨基酸中的任意一种，则分别产生对应的丢水碎片离子，即b-H₂O和y-H₂O；

e.若待分析二级质谱母离子价态大于等于2，并且对应的碎片离子中包含R，K和H三种氨基酸任意一种时，则考虑二价碎片离子；

步骤(5)所述:统计不同离子类型在不同质量误差范围及强度区间的匹配信息，对获取的统计信息进行合理的数学定量,具体实施如下：

①基于正反库特征信息匹配的统计思想，基本设计思路如下：

a.产生多个正反库匹配信息统计矩阵，被分割后所得的强度区间作为矩阵的行名，被分割后的质量误差范围作为各矩阵的列名，具体如下：

I.六种基本离子型:

Ions_Type＝{b,b-NH₃,b-H₂O,y,y-NH₃,y-H₂O}

II.产生12个矩阵：由于每种离子类型都对应着基于正库下匹配的统计结果及基于反库下匹配的统计结果，我们分别加以记录和保存。

III.矩阵的行名：

IV.矩阵的列：

Column_Names＝{[0,0.05),[0.05,0.1),[0.1,0.15),[0.15,0.2),…,[0.4,0.45),[0.45,0.5]}

b.将每张有效图谱对应的肽段序列进行虚拟酶解，并按上面理论图谱规则产生相应的理论图谱。

c.将产生的理论图谱与实验图谱进行比对，如果实验碎片峰Ions_Type_k与理论碎片峰质量误差满足如下：

|M_Experimental-M_Theoretical|＜＝δ∈Column_Names_i

Intensity∈Row_Names_j

其中:k∈{1,2,3,4,5,6},i∈{1,2,3,4,5,6,7,8,9,10},j∈{1,2,3,4,5}。并记录不同类型实验碎片峰与理论碎片峰(正库)在不同误差范围及强度区间内匹配的个数，保存入对应的矩阵。

d.将上述有效图谱对应的肽段序列进行反转，并按照上面理论图谱规则产生相应的理论图谱。

e.将产生的理论图谱与实验图谱进行比对，如果实验碎片峰Ions_Type_k与理论碎片峰质量误差满足如上(3.5)：并记录不同类型实验碎片峰与理论碎片峰(反库)在不同误差范围及强度区间内匹配的个数，保存入对应的矩阵。

f.重复上述b～f过程，直至程序运行结束。

②统计结果的相关性分析：

上述统计方法产生的结果如下表所示：我们按照上面统计过程，将所得结果分成两部分，分别是基于正库及反库下匹配的统计结果。我们知道，不同的统计思想有可能获取不一样的内在规律，因此，为了提取出基于正反库匹配下的特征信息，我们首先要对不同数据集统计结果进行相关性分析，以便考察特征信息的合理性，相关性系数计算公式如下：

我们利用Matlab软件对不同组合下数据表进行相关性计算，所用函数corrcoef(A,B),相关性系数值如下表：

表5 相关性系数

	A_Target	A_Decoy	B_Target	B_Decoy
					A_Target	1	0.5879	0.879	0.5571
A_Decoy	0.5879	1	0.5899	0.925
					B_Target	0.879	0.5899	1	0.5722
B_Decoy	0.5571	0.925	0.5722	1

其中A,B表示两个训练数据集，A_Target表示基于正库下统计匹配结果，A_Decoy表示基于反库(诱饵库)下统计匹配结果；数据集B意义同上。

通过上述相关性系数表我们可以知道，这表明不同的数据集基于同种数据库下(同为正库或同为反库)的统计结果具有很好的相关性。但是，不同的数据集在不同数据库(即：若A为正库，则B为反库，反之，若A为反库，则B为正库)之间的相关性较弱。从而可充分说明，在大量统计下，上述所获得的统计结果反映了统计本身的一种内在规律，同时映射到实验图谱中，可以借助合理的分析，发现MS/MS内在的特征属性，为了提取MS/MS内包含的特征信息，我们需要对上述统计结果进行合理的数学定量。

③特征信息的数学定量：

我们采用下面公式对上述统计结果进行数学定量，并给出其特征信息概念。公式如下：

其中：

N_{T arg et}＝正库中匹数数，

N_Decoy＝反库中的匹配数，

Weight＝权重值，它是不同碎片峰类型在不同质量误差范围及强度区间下理论碎片峰与实验碎片峰识别非随机匹配造成的能力度量。

上述Weight，N_{T arg et}，N_Decoy均受到碎片峰类型、质量误差范围及强度区间的共同约束。假设实验碎片峰b离子与理论碎片峰b离子在质量区间为[0,0.05]，强度区间[0,0.05]下匹配，且正库匹配数为1000，反库匹配数为500，则权重Weight＝-log(1-1000/(1000+500))。计算得到Weight＝1.0986。该结果反映了碎片离子峰b在质量区间为[0,0.05]，强度区间[0,0.05]下识别匹配非随机造成的能力为1.0986。图7及图8为两个训练数据集下所得权重相关性热图。

表6 不同离子类型在不同质量误差范围及强度区间下的权重表

步骤(6)所述：将(5)中获取的定量信息融入至打分算法，选择得分最高的候选肽段作为此实验图谱的匹配结果，最后对所有实验图鉴定结果进行整体质量控制，具体实施过程如下：

①基于正反库特征信息的匹配打分：

由于质谱仪器、碎裂方式及峰强度的不同，提出一种能被广泛适用的打分函数是困难的。为此，我们先给出相应的参数及权重，然后从整体上评估实验图谱和理论图谱之间的相似程度，公式如下：

其中：

K₀＝实验图谱与理论图谱匹配数；

N₀＝理论图谱匹配数；

Weight_i＝权重分值，是关于离子类型，质量误差范围及强度区间的函数；

S₀＝实验图谱与理论图谱匹配分值；

0.1992＝随机匹配参数；

②基于正反库特征信息的连续匹配打分

在数据库搜索中，连续匹配的出现大大降低了由随机产生的可能性，许多蛋白质二级质谱鉴定算法都将连续匹配这维特征信息融入至打分函数中，这里我们也引入连续匹配这个特征信息，以提升鉴定算法的灵敏度及可靠性。公式如下：

其中：

K₁＝实验图谱与理论图谱连续匹配个；

N₁＝实验图谱与理论图谱理论匹配个数

它是关于离子类型，质量误差区间及强度区间的函数，假设碎片峰i和碎片峰j是连续匹配的两个峰，则Weight_i'＝Weight_i+Weight_j；

S₁＝实验图谱与理论图谱连续匹配总分值；

0.0885＝连续匹配随机参数。

反映了实验图谱与理论图谱之间连续匹配非随机匹配产生的可靠性度量，是对的标准化，使得不同水平下实验图谱的连续匹配得分具有可比性。

③基于正反库特征信息的b、y离子匹配打分

基于CID碰撞下所产生的碎片峰类型主要是b/y离子，在实验图谱与理论图谱的匹配过程中，b/y离子的匹配情况能够提升或降低匹配结果的可靠性。因此，考虑实验图谱与理论图谱b/y离子匹配情况具有重要的价值。公式如下：

其中：

K₂＝b/y离子匹配总个数；

N₂＝b/y离子理论匹配总个数；

Weight_i”＝b/y离子匹配的权重值，是已匹配的b/y离子权重总和；

S₂＝b/y离子匹配所得总分值；

0.0604＝离子匹配随机的参数；

同样，反映了实验图谱与理论图谱之间b/y离子匹配是由正确匹配所产生的可靠性度量，是对的标准化，使得不同水平下的b/y离子匹配得分具有可比性。

④基于正反库特征信息匹配的肽段总得分：

Score_Pep＝S₀+S₁+S₂

其中：Score_Pep是肽段最终得分值。

由于每张实验图谱有可能对应多个可能的候选肽段，从而得到多个不同的分值，为了找出每张实验图谱对应的最佳匹配结果，我们需要对不同候选肽段下的得分进行排序，将得分最高的候选肽段作为该实验图谱对应的最佳匹配结果。此外，基于不同碎片峰类型在不同质量误差范围及强度区间下权重信息的新思想是之前的算法没有涉及的，此外该打分公式的鉴定效率较之前算法大大提高了。

a.统计待分析图谱所有二级图谱中的鉴定结果肽段得分的最小值和最大值；

b.统计在最小值和最大值之间，其中大于每个分值的鉴定结果中真实库和诱饵库中肽段的个数，并计算每个分值为阈值时FDR的值；

c.按得分值从小到大寻找每个分值，直到找到FDR<＝0.01时，此分值为待分析图谱的整体阈值；

d.根据步骤(c)找到整体阈值，以此阈值过滤待分析图谱的鉴定结果，过滤掉小于此阈值的结果，其结果作为待分析图谱的最终鉴定结果。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，其特征在于，包括如下步骤：

步骤(5)具体包括如下步骤：

a.质量误差区间：[0,0.05],[0.05,0.1],[0.1,0.15],[0.15,0.2],[0.2,0.25],[0.25,0.3],[0.3,0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5]

b.峰强度区间：

c.碎片峰类型：

b,b-NH₃,b-H₂O,y,y-NH₃,y-H₂O；

其中：N_Target＝正库中匹数数，N_Decoy＝反库中的匹配数，Weight＝权重值，它是不同碎片峰类型在不同质量误差范围及强度区间下理论碎片峰与实验碎片峰识别非随机匹配造成的能力度量；j为第j个区间(j∈[1,10],j∈Z⁺)，i为第i种离子类型(i∈b/b-H₂O/b-NH₃/y/y-H₂O/y-NH₃)，N(r_ij)为离子类型i在区间j中正确匹配峰的数目，N(e_ij)为离子类型i在区间j中错误匹配峰的数目；

(6)将步骤(5)中获取的定量信息融入至打分算法，选择得分最高的候选肽段作为此实验图谱的匹配结果，最后对所有实验图鉴定结果进行整体质量控制；其中打分过程包括：基于正反库特征信息的匹配打分、基于正反库特征信息的连续匹配打分以及基于正反库特征信息的b、y离子匹配打分。

2.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，其特征在于，步骤(2)所述的候选肽段的筛选方法包括如下步骤：

3.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，其特征在于，步骤(3)所述的去同位素峰过程具体包括如下步骤：

①去同位素峰

(a).进行初始化，比较三个峰的m/z值及其强度，全部设为0，具体叙述如下：

I.三个峰m/z值分别是：m/z_1＝0，m/z_2＝0，m/z_3＝0；

(b).读取一个峰的信息，将目前的峰放入第三个峰的位置，即m/z_3，m/z_3_in，将第三个峰与第一个峰和第二个峰比较，判断是否是前两个峰的同位素峰,若以下三个条件的任意一个条件成立，则认为是同位素峰：

I.|m/z_3-m/z_2-1|＜＝δ，并且mz/z_2_in＞m/z_3_in；

II.|m/z_3-m/z_1-1|＜＝δ，并且m/z_1_in＞m/z_3_in；

III.|m/z_2-m/z_1|＜＝δ，并且m/z_2_in＞m/z_3_in；

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in

m/z_2＝m/z_3，m/z_2_in＝m/z_3_in

(c).如果步骤(b)中的三个条件均不成立，则认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，并把三个峰向前平移一位，空出第三个峰的位置，即：

m/z_1＝m/z_2，m/z_1_in＝m/z_2_in

(d).逐个读取下一个峰的信息，重复步骤(b)直到处理完一张二级质谱图所用的峰信息，其保留峰容器中的峰即为去同位素峰之后的非同位素峰；

②选取有效质谱峰

(a).找出实验图谱m/z的最大值与最小值，分别记为maxm/z与minm/z，以及最高峰强度对应的m/z值；

(b).将实验图谱划分为k个窗口：

k＝max(round([(maxm/z-m/z)/50,(m/z-minm/z)/50]+0.5))；

(c).以最高峰强度对应的m/z值为基准，向左右延伸，每次分别开启50Da的窗口(即以100Da为1个窗口)，直到窗口数等于k结束；

(d).对每一窗口的峰进行归一化，也即用每个峰除以该窗口的最高峰，并选择该窗口下最强的6个峰作为有效峰。

4.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，其特征在于，步骤(4)具体包括如下步骤：

(a).将所得候选肽段产生可能的理论b、y碎片离子；

(b).步骤(a)产生的b、y碎片离子中若包含S、T、E和D四种氨基酸的任意一种，则分别产生对应的丢水碎片离子，即b-H₂O和y-H₂O；

(c).步骤(a)产生的b、y碎片离子中包含R、K、Q和N四种氨基酸中的任意一种，则分别产生对应的丢氨碎片离子，即b-NH₃和y-NH3；

(d).若待分析二级质谱母离子价态是1价，则考虑产生一价理论碎片离子；

(e).若待分析二级质谱母离子价态大于等于2，并且对应的碎片离子中包含R，K和H三种氨基酸任意一种时，则考虑产生二价理论碎片离子。

5.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，其特征在于，步骤(6)所述的打分过程包括：

①基于正反库特征信息的匹配打分，公式如下：

<mrow> <msub> <mi>S</mi> <mn>0</mn> </msub> <mo>=</mo> <mfrac> <msub> <mi>K</mi> <mn>0</mn> </msub> <mrow> <mn>0.1992</mn> <mo>&times;</mo> <msub> <mi>N</mi> <mn>0</mn> </msub> </mrow> </mfrac> <mo>&times;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mn>0</mn> </msub> </munderover> <msub> <mi>Weight</mi> <mi>i</mi> </msub> </mrow>

其中：

②基于正反库特征信息的连续匹配打分，公式如下：

<mrow> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <msub> <mi>K</mi> <mn>1</mn> </msub> <mrow> <mn>0.0885</mn> <mo>&times;</mo> <msub> <mi>N</mi> <mn>1</mn> </msub> </mrow> </mfrac> <mo>&times;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mn>1</mn> </msub> </munderover> <msup> <msub> <mi>Weight</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow>

其中：

③基于正反库特征信息的b、y离子匹配打分，公式如下：

<mrow> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>=</mo> <mfrac> <msub> <mi>K</mi> <mn>2</mn> </msub> <mrow> <mn>0.0604</mn> <mo>&times;</mo> <msub> <mi>N</mi> <mn>2</mn> </msub> </mrow> </mfrac> <mo>&times;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mn>2</mn> </msub> </munderover> <msup> <msub> <mi>Weight</mi> <mi>i</mi> </msub> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msup> </mrow>

其中：

④基于正反库特征信息匹配的肽段总得分：

Score_Pep＝S₀+S₁+S₂

其中：Score_Pep是肽段最终得分值；

6.根据权利要求1所述的基于正反库特征信息匹配的蛋白质二级质谱鉴定方法，其特征在于，步骤(6)所述的质量控制包括如下步骤：