CN100376895C - 一种使用串联质谱数据鉴定肽的方法 - Google Patents

一种使用串联质谱数据鉴定肽的方法 Download PDF

Info

Publication number
CN100376895C
CN100376895C CNB2004100887793A CN200410088779A CN100376895C CN 100376895 C CN100376895 C CN 100376895C CN B2004100887793 A CNB2004100887793 A CN B2004100887793A CN 200410088779 A CN200410088779 A CN 200410088779A CN 100376895 C CN100376895 C CN 100376895C
Authority
CN
China
Prior art keywords
tandem mass
experimental
mass spectrum
peptide
theoretical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2004100887793A
Other languages
English (en)
Other versions
CN1769891A (zh
Inventor
高文
付岩
李德泉
孙瑞祥
贺思敏
杨强
曾嵘
周虎
陈益强
王晓彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CNB2004100887793A priority Critical patent/CN100376895C/zh
Publication of CN1769891A publication Critical patent/CN1769891A/zh
Application granted granted Critical
Publication of CN100376895C publication Critical patent/CN100376895C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种使用串联质谱数据鉴定肽的方法,包括步骤:将要被鉴定的肽进行实验碎裂以生成实验串联质谱;将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱;用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度,该径向基函数包括一指数部分;根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果。本发明的使用串联质谱数据鉴定肽的方法采用径向基函数核来评价多个理论串联质谱与实验串联质谱的相似度,并进一步在径向基函数核的指数部分通过对连续碎片离子的求和来强调连续碎片离子的正相关特性,比现有技术中鉴定肽的方法具有更高的准确率,明显降低了假阳性结果。

Description

一种使用串联质谱数据鉴定肽的方法
技术领域
本发明涉及一种蛋白质组分析方法,具体地说,涉及一种鉴定肽序列的方法。
背景技术
在当前的蛋白质组研究中,基于串联质谱的蛋白质鉴定是最广泛使用的技术之一(参考文献:Aebersold,R.and Mann,M.Mass spectrometry-based proteomics,Nature,2003,422:198-207)。其中的一个问题就是如何从实验得到的串联质谱自动地鉴定出产生这些质谱的肽序列。为了鉴定产生实验串联质谱的肽的序列,数据库搜索的方法被广泛采用(参考文献:Eng,J.K.,McCormack,A.L.and Yates,J.R.An approach tocorrelate tandem mass spectral data of peptides with amino acid sequences in a proteindatabase.J Am Soc Mass Spectrom,1994,5:976-989;Perkins,D.N.,Pappin,D.J.,Creasy,D.M.and Cottrell,J.S.Probability-based protein identification by searchingsequence databases using mass spectrometry data.Electrophoresis,1999,20:3551-3567;Field,H.I.,Feny,D.and Beavis,R.C.RADARS,a bioinformatics solution that automatesproteome mass spectral analysis,optimises protein identification,and archives data in arelational database.Proteomics,2002,2:36-47)。在该方法中,数据库中的肽序列被理论碎裂为碎片离子,生成理论串联质谱;而要被鉴定的肽在质谱仪中被碎裂为碎片离子,并生成实验串联质谱;将理论串联质谱与实验串联质谱相比较,从而对数据库中的候选肽进行打分;最后根据打分的结果选取出与实验串联质谱最相似的理论串联质谱对应的肽作为鉴定结果。
可见,在数据库搜索的方法中,一个关键的问题是对理论串联质谱与实验串联质谱作适当的相似性计算,即选择适当的肽打分算法。不适当的相似性计算或者说肽打分算法会增加错误的肽鉴定结果——即假阳性结果,而通过选择适当的肽打分算法可以减少肽鉴定的假阳性结果。
现有的肽打分算法中所用的打分函数通常假设串联质谱中碎片离子的出现是互相独立的,从而采用线性的打分函数。在线性打分方法中,碎片离子间可能存在的相关性完全被忽略了。实验和理论质谱间的所有离子匹配被同等对待来计算总的分数。实际上,肽碎裂方式的不可完全预知性,碎裂过程中所损失的不可恢复的信息,候选肽的巨大数量都使得随机错误匹配经常发生,最终可能导致错误的肽鉴定,即假阳性的结果。
事实上,肽被理论或者实验碎裂后产生碎片离子后,其中的连续碎片离子是潜在的正相关的离子。当正相关的离子同时被匹配时,这些匹配作为整体直观上应该比它们作为个体具有更高的可信性。所以,这些正相关的离子应该在某种程度上被加以强调,相应地就需要使用非线性的肽打分函数。
发明内容
本发明的一个目的是提供一种使用串联质谱数据鉴定肽的方法,在该方法中采用一种新的肽打分方法;本发明的另一目的是提供一种使用串联质谱数据鉴定肽的方法,在该方法中考虑了连续碎片离子的相关性。
为了实现上述目的,本发明提供一种使用串联质谱数据鉴定肽的方法,包括步骤:
将要被鉴定的肽进行实验碎裂以生成实验串联质谱;
将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱;
用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度,该径向基函数包括一指数部分;
根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果。
所述的使用串联质谱数据鉴定肽的方法还包括对所述实验串联质谱进行去噪处理。
在生成所述理论串联质谱步骤中还包括选定碎片离子类型。
所述径向基函数核的指数部分包括对连续碎片离子的求和运算。
在计算所述多个理论串联质谱与实验串联质谱的相似度步骤中还包括:
将理论串联质谱与实验串联质谱根据所选定的碎片离子类型以及碎片离子的碎裂位置分别排列成矩阵T和矩阵C;所述连续碎片离子位于矩阵一行中的连续位置;
所述径向基函数核形式为 Σ i = 1 m Σ j = 1 n exp ( - γ Σ k = j - l 2 j + l 2 ( c ik - t ik ) 2 ) ,其中cik和tik分别为矩阵T和矩阵C的矩阵元素,当k≤0和k>n时,cik和tik被置为0;
正整数l1和l2分别等于(l-1)/2和
Figure C20041008877900051
;整数l是所述要考虑的连续碎片离子的个数;γ为所述的可调节参数。优选地l=5且0.8≤γ≤1。
本发明的使用串联质谱数据鉴定肽的方法采用径向基函数核来评价多个理论串联质谱与实验串联质谱的相似度,并进一步在径向基函数核的指数部分通过对连续碎片离子的求和来强调连续碎片离子的正相关特性,比现有技术中鉴定肽的方法具有更高的准确率,明显降低了假阳性结果。
附图说明
图1是一个示例性的肽形成示意图;
图2是肽裂解后可能的六个系列的碎片离子的示意图;
图3是一个示例性的实验串联质谱;
图4是在一个实施例中预测离子阵列的示意图,其中的虚框表示相关窗口;
图5是本发明的RBF-KSDP的相对于参数的错误率曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
如图1所示,两个氨基酸可以通过失掉一个水分子在它们的C-端和N-端形成肽键而连结起来,肽就是氨基酸残基通过肽键相互连接而成的序列。这个序列确定了肽的身份。
为了鉴定肽的氨基酸序列,肽被电离后进入质谱仪。在质谱仪中,具有特定质荷比(m/z)的肽离子(这些肽离子通常也有相同的氨基酸序列)在碰撞-诱导的分离(Collision-Induced Dissociation,CID)作用下裂解。在低能量CID作用下,肽键通常能以三种方式断裂,生成六个系列的碎片离子,即N-端的a,b,c和C-端的x,y,z系列碎片离子,如图2所示。图2是一个由四个氨基酸残基构成的肽在CID作用下裂解形成的碎片离子的示例,其中代表碎片离子系列的字母a、b、c、x、y和z的下标数字1~3表示生成该碎片离子时肽的碎裂位置,图2中右上角的符号H+表示肽带有正电荷。
这些碎片离子的m/z被检测量出来,从而形成串联质谱,或者称之为实验串联质谱。图3给出了一个示例性的实验串联质谱。质谱的横坐标代表被检测出的碎片离子的m/z,纵坐标代表碎片离子的相对强度。质谱中的质峰除了是由可以预测的碎片离子形成的之外,也可能是由不可预测的碎片离子(比如内部离子)形成的,还可能是物理或化学噪音。通常需要对实验获得的串联质谱进行去噪处理。简单的做法是保留一定比例强度较大的质峰,而去掉其它质峰,例如在一个实施例中,可只保留前200个强度较大的质峰。
为了利用串联质谱鉴定肽序列,需要对由已知肽组成的数据库中的候选肽序列模拟生成串联质谱的过程,这种模拟生成的质谱称为理论串联质谱,每一个候选肽序列对应一个理论串联质谱。在生成理论串联质谱时,首先要根据质谱仪的类型和特性选定要考虑的碎片离子类型。例如在一个实施例中,只考虑图2中的a、b和y系列碎片离子,这是因为通常a、b和y系列(包括一价和多价以及失水或失氨的情况)的碎片离子是主要的。很容易理解,本领域的技术人员可根据实际情况选定与上述实施例不同的所考虑的碎片离子类型。在选定所要考虑的碎片离子类型后,再对肽序列进行模拟碎裂,预测所有指定类型的碎片离子的质荷比(m/z)和强度,以形成理论质谱。碎片离子的质荷比等于该离子的分子量除以该离子的电荷数。碎片离子的理论强度的预测本身是另外一个研究问题,简单情况下可以都指定为1,即假定所有离子出现的几率是相等的。
根据所选定的碎片离子类型以及碎片离子对应的碎裂位置把预测离子排列成一个阵列的形式,该阵列称为预测离子阵列。图4示出了一个预测离子阵列的实施例,在该实施例中,所选定的碎片离子类型为b和y系列碎片离子,具体包括b、b0、b*和b++以及y、y0、y*和y++,其中上标‘++’表示离子带两个正电荷,没有上标的表示离子带一个正电荷,上标‘*’表示离子失掉了一个氨分子,上标‘0’表示离子失掉了一个水分子,b、b0、b*和b++以及y、y0、y*和y++的下标数字1~n代表生成该碎片离子时肽的碎裂位置。在图4中,将碎片离子类型作为纵向、将生成碎片离子对应的肽碎裂位置作为横向排列成预测离子阵列。
把理论串联质谱中的碎片离子强度按照预测离子阵列的顺序表示成矩阵T,
T = t 1,1 t 1,2 t 1,3 · · · t 1 , n t 2,1 t 2,2 t 2,3 · · · t 2 , n t 3,1 t 3,3 t 3,3 · · · t 3 , n · · · · · · · · · · · · · · · t m , 1 t m , 2 t m , 3 · · · t m , n ,
其中同预测离子阵列相对应,在矩阵T中,元素ti,j的下标i用于区分不同的碎片离子类型,下标j用于区分不同的碎裂位置,元素ti,j是预测离子阵列中第(i,j)位置上的碎片离子在理论串联质谱中的强度,例如,t2,3对应于图4中的b3 *离子在理论串联质谱中的强度;m是所选定的碎片离子类型的数目;n+1是肽序列包含的氨基酸残基个数,这样的肽包括n个碎裂位置。
把实验串联质谱中各个质峰的强度也按照预测离子阵列的顺序表示成矩阵C,
C = c 1,1 c 1,2 c 1,3 · · · c 1 , n c 2,1 c 2,2 c 2,3 · · · c 2 , n c 3,1 c 3,2 c 3,3 · · · c 3 , n · · · · · · · · · · · · · · · c m , 1 c m , 2 c m , 3 · · · c m , n ,
其中,如果在实验串联质谱中存在一个或多个质峰,它们的质荷比与预测离子阵列中第(i,j)个位置处的碎片离子的质荷比相匹配,则ci,j等于实验串联质谱中所匹配质峰的强度和,否则ci,j=0。同预测离子阵列和理论串联质谱矩阵T相对应,下标i用于区分不同的碎片离子类型,下标j用于区分不同的碎裂位置。这里所说的质荷比的相匹配是指实验串联质谱中某一个质峰的质荷比与预测离子阵列中某一个位置处的碎片离子的质荷比的差别在指定误差范围内,对于离子阱质谱数据来说所指定的误差范围通常为1Da左右,对于Q-Tof数据来说所指定的误差范围通常为0.4Da左右。
用公式(1)来衡量实验质谱和理论质谱相似度,这种方法可称为RBF-KSDP打分算法。
Σ i = 1 m Σ j = 1 n exp ( - γ Σ k = j - l 1 j + l 2 ( c ik - t ik ) 2 ) ,
其中,正整数l1和l2分别等于(l-1)/2和
Figure C20041008877900073
(符号 和
Figure C20041008877900074
分别代表向下和向上取整),而整数l(<n)是要考虑的连续碎片离子的个数或者说相关窗口长度,γ是RBF核函数中的参数。对于k≤0和k>n,cik和tik被置为0。
公式(1)是径向基函数核exp(-γ‖x-y‖2)的一个具体形式,它包括对各种碎片离子类型的求和(即对下标i的求和)和各个碎裂位置的求和(即对下标j的求和)。进一步的,在公式(1)中,其指数部分还包括一个对k的求和,其求和为以j为中心长度为l的求和。这表明,在用公式(1)进行打分时考虑了连续碎片离子的性质,所说的连续碎片离子是指在同一种碎片离子类型中处于连续碎裂位置的多个碎片离子,如图4中示例性的用三个虚框分别框出了三组连续碎片离子(虚框中连续离子的个数即是公式(1)中的l),连续碎片离子位于预测离子阵列一行中的连续位置。
数据库中的所有肽序列可根据其与实验质谱的RBF-KSDP分值大小进行排列,从而鉴定出最可能生成实验串联质谱的肽序列。
图5示出采用本发明鉴定方法的一个实验结果,图5的横坐标为公式(1)中γ取值,纵坐标为鉴定错误率,图中的曲线分别代表l=2~6时错误率随γ的变化,从图5中可得到,优选地l=5且0.8≤γ≤1。

Claims (5)

1.一种使用串联质谱数据鉴定肽的方法,包括步骤:
将要被鉴定的肽进行实验碎裂以生成实验串联质谱;
选定碎片离子类型,将数据库中的多个候选肽进行理论碎裂以生成多个理论串联质谱;
用径向基函数核分别计算多个理论串联质谱与实验串联质谱的相似度,该径向基函数包括一指数部分;
根据所计算的相似度选取出与实验串联质谱最相似的理论串联质谱所对应的肽作为鉴定结果;
所述计算理论串联质谱与实验串联质谱的相似度,包括:(1)将碎片离子类型作为纵向、将生成碎片离子对应的肽碎裂位置作为横向排列出预测离子阵列;(2)将理论串联质谱与实验串联质谱按照预测离子阵列分别排列成矩阵;(3)在径向基函数的所述指数部分中对连续碎片离子求和运算,所述连续碎片离子是指在同一种碎片离子类型中处于连续碎裂位置的多个碎片离子;(4)将所述径向基函数核对所有碎片离子类型求和和对所有碎裂位置求和。
2.根据权利要求1所述的使用串联质谱数据鉴定肽的方法,其特征在于,还包括对所述实验串联质谱进行去噪处理。
3.根据权利要求1所述的使用串联质谱数据鉴定肽的方法,其特征在于,将实验串联质谱排列成矩阵的方法为:如果实验串联质谱中存在一个或多个质峰,它们的质荷比与预测离子阵列中一个阵元处的碎片离子的质荷比在设定误差范围内相匹配,则将实验串联质谱矩阵的对应位置元素值置为匹配质峰的强度和,否则置为0。
4.根据权利要求1所述的使用串联质谱数据鉴定肽的方法,其特征在于,所述相似度按照如下公式计算:
Σ i = 1 m Σ j = 1 n exp ( - γ Σ k = j - l 2 j + l 2 ( c ik - t ik ) 2 ) , 其中cik和tik分别为实验串联质谱矩阵C和理论串联质谱矩阵T的矩阵元素,当k≤0或k>n时,cik和tik被置为0;正整数l1和l2分别等于(l-1)/2和「(l-1)/2];整数l是所述要考虑的连续碎片离子的个数;γ为可调节的参数;m是所选定的碎片离子类型的数目;n是肽的碎裂位置数目。
5.根据权利要求4所述的使用串联质谱数据鉴定肽的方法,其特征在于,l=5且0.8≤γ≤1。
CNB2004100887793A 2004-11-03 2004-11-03 一种使用串联质谱数据鉴定肽的方法 Active CN100376895C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100887793A CN100376895C (zh) 2004-11-03 2004-11-03 一种使用串联质谱数据鉴定肽的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100887793A CN100376895C (zh) 2004-11-03 2004-11-03 一种使用串联质谱数据鉴定肽的方法

Publications (2)

Publication Number Publication Date
CN1769891A CN1769891A (zh) 2006-05-10
CN100376895C true CN100376895C (zh) 2008-03-26

Family

ID=36751308

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100887793A Active CN100376895C (zh) 2004-11-03 2004-11-03 一种使用串联质谱数据鉴定肽的方法

Country Status (1)

Country Link
CN (1) CN100376895C (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411666B (zh) * 2010-09-26 2014-04-16 中国科学院计算技术研究所 一种蛋白质鉴定的大规模分布式并行加速方法及其系统
CN102043011B (zh) * 2010-10-20 2012-10-31 中国科学院计算技术研究所 电子转运裂解质谱预处理与鉴定方法
CN103389335A (zh) * 2012-05-11 2013-11-13 中国科学院大连化学物理研究所 一种鉴定生物大分子的分析装置和方法
CN103439441B (zh) * 2013-08-26 2015-04-15 中国科学院数学与系统科学研究院 一种基于子集错误率估计的肽鉴定方法
CN104215729B (zh) * 2014-08-18 2016-09-28 中国科学院计算技术研究所 串联质谱数据母离子检测模型训练方法及母离子检测方法
CN104316591B (zh) * 2014-09-25 2016-09-07 杭州电子科技大学 一种基于非线性拟合方式的肽质谱峰特征参数提取方法
EP3218703B1 (en) * 2014-11-13 2019-06-26 DH Technologies Development PTE. Ltd. Determining the identity of modified compounds
CN106198706B (zh) * 2016-06-29 2019-02-01 中国科学院计算技术研究所 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法
CN106529204B (zh) * 2016-10-18 2019-05-07 中国科学院计算技术研究所 一种基于半监督学习的交联质谱多谱排序方法
CN108052801B (zh) * 2017-11-30 2020-06-26 中国科学院计算技术研究所 一种基于正则表达式的n糖结构库构建方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000023149A1 (en) * 1998-10-20 2000-04-27 563704 B.C. Ltd. Torsion board
CN1474944A (zh) * 2000-10-11 2004-02-11 ��������ϵͳ�����ɷ����޹�˾ 利用亲和捕获串联质谱分析表征分子间作用的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000023149A1 (en) * 1998-10-20 2000-04-27 563704 B.C. Ltd. Torsion board
CN1474944A (zh) * 2000-10-11 2004-02-11 ��������ϵͳ�����ɷ����޹�˾ 利用亲和捕获串联质谱分析表征分子间作用的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Exploiting the kernel trick to correlate fragment ions forpeptide identification via tandem mass spectrometry. Yan,Fu,,,Qiang,Yang等.《Bioinformatics》,第20卷第12期. 2004 *
串联质谱数据的从头解析与蛋白的数据库搜索鉴定. 盛泉虎,解涛,丁达夫.《生物化学与生物物理学报》,第32卷第6期. 2000 *
基于信息技术的蛋白识别研究. 陈益强,高文,付岩等.《生命科学》,第15卷第2期. 2003 *

Also Published As

Publication number Publication date
CN1769891A (zh) 2006-05-10

Similar Documents

Publication Publication Date Title
US7409296B2 (en) System and method for scoring peptide matches
EP0750747B1 (en) Identification of amino acids by mass spectrometry
US10153145B2 (en) Method of mass spectrometry and a mass spectrometer
US7197402B2 (en) Determination of molecular structures using tandem mass spectrometry
US8694264B2 (en) Mass spectrometry system
CN100376895C (zh) 一种使用串联质谱数据鉴定肽的方法
JP2007093582A (ja) 品質スペクトルの自動検出
US7555393B2 (en) Evaluating the probability that MS/MS spectral data matches candidate sequence data
Lu et al. A suffix tree approach to the interpretation of tandem mass spectra: applications to peptides of non-specific digestion and post-translational modifications
US20020046002A1 (en) Method to evaluate the quality of database search results and the performance of database search algorithms
Zhou et al. A machine learning approach to explore the spectra intensity pattern of peptides using tandem mass spectrometry data
US7230235B2 (en) Automatic detection of quality spectra
CN107563148B (zh) 一种基于离子索引的整体蛋白质鉴定方法与系统
JP4393206B2 (ja) 質量分析装置用データ処理装置
WO2017047580A1 (ja) ペプチド帰属方法及びペプチド帰属システム
Lokhov et al. Database search post‐processing by neural network: Advanced facilities for identification of components in protein mixtures using mass spectrometric peptide mapping
JP2005519289A (ja) 質量分析データを使用したタンパク質同定のための方法
KR100699437B1 (ko) 아미노산 서열 분석 장치 및 방법
Li Dpnovo: A deep learning model combined with dynamic programming for de novo peptide sequencing
WO2003087805A2 (en) Method for efficiently computing the mass of modified peptides for mass spectrometry data-based identification
Oh et al. Peptide identification by tandem mass spectra: an efficient parallel searching
US20050074816A1 (en) Method for protein identification from tandem mass spectral employing both spectrum comparison and de novo sequencing for biomedical applications
Fridman et al. Optimal construction of theoretical spectra for MS/MS spectra identification
Yan et al. A multi-edge graph based de novo peptide sequencing method for HCD spectra
Zhu et al. PepWise: Peptide Identification Algorithms for Tandem Mass Spectrometry Based on the Weight of Pair Amino Acid Fracture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant