CN101055558B - 基于质谱数据同位素模式的质谱有效峰选取方法 - Google Patents

基于质谱数据同位素模式的质谱有效峰选取方法 Download PDF

Info

Publication number
CN101055558B
CN101055558B CN2006100721689A CN200610072168A CN101055558B CN 101055558 B CN101055558 B CN 101055558B CN 2006100721689 A CN2006100721689 A CN 2006100721689A CN 200610072168 A CN200610072168 A CN 200610072168A CN 101055558 B CN101055558 B CN 101055558B
Authority
CN
China
Prior art keywords
peak
spectrum
noise
intensity
ion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006100721689A
Other languages
English (en)
Other versions
CN101055558A (zh
Inventor
高文
张京芬
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2006100721689A priority Critical patent/CN101055558B/zh
Publication of CN101055558A publication Critical patent/CN101055558A/zh
Application granted granted Critical
Publication of CN101055558B publication Critical patent/CN101055558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于质谱数据中呈现的同位素模式来提取质谱中有效的离子单同位素峰的方法。该方法步骤包括:1)确定质谱的噪音基线;2)有效峰的特征选取;3)计算谱峰的由步骤2)中所选择的各个特征对应的取值;4)从序列已知的质谱中,挑选样本进行学习,确定噪音、离子谱峰等不同类别的谱峰在上述特征上的表现,确定区分各类别谱峰的特征值的阈值,确定分类的规则;5)根据所学习到的规则对所有的质谱中的谱峰进行处理,挑选出离子的单同位素峰。本发明通过定义同位素模式概念并采用准确的公式计算离子的同位素模式的值来判断谱峰是否为有效峰,准确率更高,采用本方法极大地提高鉴定软件的搜索速度以及鉴定的可靠性。

Description

基于质谱数据同位素模式的质谱有效峰选取方法
技术领域
本发明涉及质谱数据预处理以及信息提取的方法,特别涉及一种基于质谱数据中呈现的同位素模式来提取质谱中有效的离子单同位素峰的方法。
背景技术
在生物实验中,待鉴定的多肽在串联质谱仪中经诱导碰撞碎裂为碎片离子,这些碎片离子的质量和丰度被质谱仪器测量出来,形成串联质谱。每一个碎片离子以及其同位素离子都在串联质谱中形成相应的谱峰。生物实验室每天都产生大量的质谱数据,而能够鉴定出多肽序列的质谱仅约为总数的10-30%左右,大量的质谱在数据库搜索时不能得到可信的鉴定结果。一个很重要的原因是对质谱数据的预处理不够理想。质谱中对鉴定有用的谱峰是离子的单同位素峰,而通常一个质谱中对鉴定有用的谱峰只占谱峰总数的1~5%左右,绝大部分的谱峰是仪器产生的物理噪音,或者是离子的同位素峰(称为同位素噪音),这些噪音给鉴定造成混淆。因此预处理的一个重要问题就是进行质谱有效峰挑取,或者说质谱去噪,其目的是尽量把质谱中的离子的单同位素峰挑选出来。
当前串联质谱的利用率很低,有硬件和软件的原因。硬件原因,比如样品含有杂质,多肽修饰情况复杂,诱导碰撞碎裂(CID)过程产生未知类型的离子等。软件原因,比如质谱鉴定软件的算法不够完备等。串联质谱的利用率低还有一个非常重要的原因是目前的算法对质谱数据的预处理不够充分合理。通常一个四级杆-飞行时间(Q-TOF)串联质谱仪产生的质谱数据中对多肽序列鉴定有用的谱峰只占1~5%左右,如果对质谱数据进行合理的处理,从质谱中挑选出有效的离子的单同位素谱峰,则既可降低多肽序列鉴定的计算复杂度,还可使得能可靠识别出多肽的质谱数量增加,提高质谱数据的利用率。
从质谱中挑选离子的单同位素峰有其固有的困难:首先,不同质谱中的噪音分布不同,甚至同一质谱中不同质量区间的噪音分布也不同;其次,很多主要离子的强度很低,和噪音混在一起;此外,质谱中存在带有不同电荷数的离子以及复杂的同位素谱峰重叠现象,使得判断谱峰对应的离子的电荷数及判断谱峰是否为有效离子的单同位素峰很困难。
目前已有一些算法和软件可对Q-TOF数据进行处理,比如Applied Biosystems公司提供的免费软件Data ExplorerTM Automation Toolkit[http://www.nitehawk.com/voyager_macros/],其中的Automated Data Processing部分就提供质谱有效峰选取的服务;再如,ProteinLynx Global SERVER软件[http://www.waters.com/WatersDivision/contentd.asp?watersit=RHEY-5LHBSW]是Waters公司整合的可升级的商用生物信息平台软件,其Basic processing部分中也包含质谱有效峰选取的服务。现有技术对质谱数据进行有效峰挑取的方法包括:阈值过滤法,降噪变换法和去同位素法。如文献1:J.K.Eng,A.L.McCormack andJ.R.Yates,“An approach to correlate tandem mass spectral data of peptides with aminoacid sequences in a protein database”,J Am Soc Mass Spectrom.,1994,5,976-989.和文献2:J.Grossmann,F.F.Roos,M.Cieliebak,Z.Liptak,L.K.Mathis,M.Muller,W.Gruissem,and S.Baginsky,“AuDeNS:A Tool for Automatic De Novo PeptideSequencing”,J.Proteome.Res.,2005,4(5),1768-74.,以及文献3:M.Cannataro,P.H.Guzzi,T.Mazza,and P.Veltri,“Preprocessing,Management,and Analysis of MassSpectrometry Proteomics Data”,In workshop Workflows management:new abilities forthe biological information overflow-NETTAB 2005.中公开的阈值过滤法是最直接的方法:在一个特定的m/z区间中,挑选那些高于给定阈值或一定数量精度最好的峰。由于低强度峰很有可能是噪音,阈值过滤法可以去掉大部分的噪音,但是,强度不是离子谱峰最根本的性质,许多重要的b-系列离子强度就很低。而且,对不同的质谱,噪声的强度基线完全不同,甚至同一个质谱不同的质量段内的噪音强度基线也不同。因此,简单地利用阈值来去除噪声的方法不是准确的。在降噪变换法中,一些常用的过程如小波变换被用来去除原始串联质谱中的噪声,如文献4:T.Rejtar,H.S.Chen,V.Andreev,E.Moskovets,and B.L.Karger,“IncreasedIdentification of Peptides by Enhanced Data Preprocessing of High-ResolutionMALDI TOF/TOF Mass Spectra Prior to Database Searching”,Anal.Chem.,2004,76,6017-6028和文献5:E.Lange,C.Gropl,K.Reinert,O.Kohlbacher,andR.Hildebrandt,“High-Accuracy Peak Picking of Proteomics Data UsingWavelet Techniques”,PSB 2006 Online Proceedings中公开的技术。但是,变换过程的参数如小波变换的基函数、顺序、分解水平等会影响去噪的可靠性。质谱中的离子同位素峰也是干扰鉴定的一个重要因素,去同位素法的目的就是去除离子的同位素峰,这样质谱中每个碎片离子就只由一个谱峰表示了,从而大大降低了质谱的复杂度。但由于在质谱中存在复杂的谱峰重叠情况,即两个或多个不同的碎片离子的单同位素峰以及同位素峰之间互相重叠。当前,最常使用的去同位素法是选择一个基本的模板分子式,如文献4中公开的C6H5NO或者如文献6:M.Gentzel,T.Kocher,S.Ponnusamy,and M.Wilm,“Prepreprocessing of tandem mass spectrometricdata to support automatic protein identification”,Proteomics,2003,3,1597-1610中公开的C4.9384H7.7583N1.3577O1.4773S0.0417,然后可以计算出质谱中的离子相对于基本模板分子式的倍数,由此通过模板分子式的同位素模式来估计离子的理论同位素模式,从而识别质谱中的同位素峰以及一些简单的同位素重叠情况。这种很粗糙的模板分子式很难准确地度量质谱中出现的复杂的离子同位素模式,以及更复杂的同位素重叠情况,不可避免地误判同位素峰以及丢失一些重要的但存在重叠情况的碎片离子信息。
事实上,噪音和有效峰存在本质差异,离子存在同位素系列而噪音则不然,质量相邻的离子的同位素谱峰重叠也表现出一定同位素比率特征,本发明称之为同位素模式。因此,可以利用这些同位素模式的特征、以及其它辅助特征来对谱峰进行分类,识别噪音和有效峰。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于质谱数据同位素模式的质谱有效峰选取的方法。
为了达到上述目的,本发明采取如下技术方案。
一种基于质谱数据同位素模式的质谱有效峰选取方法,步骤包括:
1)确定质谱的噪音基线,具体为:
建立一个高斯混合模型对质谱中谱峰进行分类,按照其强度分为高强度的离子谱峰、低强度的噪音、高强度的噪音和低强度的离子谱峰的混合体三类,并识别高强度的离子谱峰、低强度的噪音、高强度的噪音和低强度的离子谱峰的混合体在强度上的阈值;通过每个类的强度阈值来确定噪音基线;用全局基线代表高强度的离子谱峰在强度上的下限,局部基线代表示低强度的噪音峰在强度上的上限;
2)选取有效峰的特征,包括;
谱峰的强度与噪音基线的距离,离子的质量残数,实验与理论的同位素模式向量之间的距离;质谱中的谱峰重叠模式;候选谱峰对应的碎片离子的电荷数,候选同位素峰簇所包含的同位素峰个数,潜在的同位素之间的质量差和理论的同位素之间的质量差的距离;
3)计算由步骤2)中所选取的谱峰各个特征对应的取值;
4)从序列已知的质谱中,挑选样本进行学习,确定噪音、孤立的离子谱峰和存在重叠的谱峰在上述特征上的表现;
5)采用决策树分类的机器学习方法,确定区分各类数据的特征值的阈值,建立判断各类数据的规则;
6)根据步骤5)中所学习到的规则,对所有的质谱中的谱峰进行判断,将判断为离子的单同位素峰的谱峰挑选出来。
在上述技术方案中,所述谱峰重叠模式包括:两个相同电荷状态且质量相差1u的碎片离子的同位素峰的重叠、两个相同电荷状态且质量相差3u的碎片离子的同位素峰的重叠、两个质荷比相差为0.5u但带不同电荷的碎片离子的重叠、两个质量相差为0.5u且带单电荷的碎片离子谱峰的交错。
与现有技术相比,本发明的优点在于:
1)本发明通过定义同位素模式概念并采用准确的公式计算离子的同位素模式的值来判断谱峰是否为有效峰,准确率更高。
2)采用本方法极大地提高鉴定软件的搜索速度以及鉴定的可靠性。
附图说明
图1表示本发明实施例1的谱峰重叠模式1;
图2表示本发明实施例1的谱峰重叠模式2;
图3表示本发明实施例1的谱峰重叠模式3;
图4表示本发明实施例1的谱峰重叠模式4。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述:
实施例1
本实施例提出基于分类的预处理方法,与现有技术的不同之处包括:首先,与降噪变换方法不同,本实施例采用高斯混合模型(Gaussian Mixture Model,GMM)来识别质谱噪音的基本强度水平,也称为噪音基线。并且,与阈值过滤方法不同,本发明仅将噪音基线作为一个而不是全部的特征来区分噪声和离子谱峰。其次,本实施例用同位素模式向量(Isotope Pattern Vector,IPV)来描述一个碎片离子的同位素系列的特征。此外,本实施例考虑了质谱中存在的复杂的同位素峰重叠的特征。本实施例在上述特征的基础上,确定了噪声、孤立的碎片离子和重叠的碎片离子的区别,建立决策的规则,利用规则对谱峰进行分类并且计算所有潜在的离子的单同位素质量,作为下一步的序列鉴定之用。
下面对本实施例的各步骤进行详细说明。
步骤1,确定噪音基线;
质谱有效峰挑取的目的是尽量把质谱中的离子的单同位素峰挑选出来。如果处理过程中将那些由于强度低而与仪器噪音混淆的重要离子,比如某些b-,a-离子的谱峰过滤掉了,显然会导致错误的鉴定结果。因此,确定噪音基线是重要步骤之一。
本实施例将质谱中的谱峰按照其强度分为三类,一类是高强度的离子谱峰,一类是低强度的噪音,另一类则是高强度的噪音和低强度的离子谱峰的混合体。由于噪声是在CID过程中由质谱随机产生的,噪声的强度服从正态分布,而碎片离子的强度分布也近似服从正态分布,因此建立一个高斯混合模型对质谱中谱峰进行分类,并识别高强度的离子谱峰,低强度的噪音,噪音和低强度的离子谱峰的混合体在强度上的阈值。
具体说,本实施例计算两种基线:全局基线(global baseline)和局部基线(localbaseline),其数值表示为Ibaseline=(GImean,GIdeviatio,LImean,LIdeviation),且Ibaseline的各分量的值通过EM(Expectation-Maximization)算法计算得到。Ibaseline的分量实际上是混合模型中的两个正态成员的均值和标准差的参数。并且,Ibaseline中全局的基线代表高强度离子峰在强度上的下限,局部基线则代表低强度的噪音峰在强度上的上限。在全局和局部基线之间的谱峰则即可能是噪音也可能是离子谱峰。
步骤2、3,有效峰的特征选取和计算;
在介绍本实施例选取的有效峰特征之前,为了便于理解这些特征,先介绍几个定义。
定义同位素模式向量IPV(Isotope Pattern Vector,以下简称IPV),用来定量描述离子的同位素峰簇(profile)的分布。考虑到实验中通常选择母离子的4~5个同位素进行CID过程,此处IPV主要考察离子的5个同位素的分布。假定一个分子式为Cn1Hn2Nn3On4Sn5的碎片离子P,其前四个同位素分别是P1,P2,P3和P4,即分别带有一个,两个,三个和四个额外中子的四个同位素。假定P的单同位素质量是M,定义P的同位素模式向量IPV=(M,T1,T2,T3,T4,Δm1,Δm2,Δm3,Δm4),其中Tk是Pk相对于对P的相对丰度比率,Δmk则是Pk和P质量差,k=1~4。IPV反映了离子的同位素峰簇中前5个同位素的丰度分布以及质量分布。
进一步定义试验的同位素模式向量(以下简称eIPV)为从质谱中观察到的IPV,eIPV中的M,Ti,Δmi等值是从实验质谱中获得的;为计算碎片离子P的eIPV值,则需寻找串连质谱中对应的同位素峰簇(p0,p1,p2,p3,p4)及其(m/z,intensity)数对(Mzk Ik),k=0~4,m/z表示离子的质荷比,intensity表示离子的强度;并且根据Mzk之间的间距计算离子电荷数z。在将z=1归一化后,(Mzk Ik)数对转换成(Mk,Ik),这里Mk=Mzk*z-(z-1)*1.0078,k=0~4。需要指出,1.0078是H质子的质量。然后,eIPV可以通过下式得到:
eIPV = ( M 0 , R 1 , R 2 , R 3 , R 4 , Δm 1 , Δm 2 , Δm 3 , Δm 4 )
= ( M 0 , I 1 I 0 , I 2 I 0 , I 3 I 0 , I 4 I 0 , M 1 - M 0 , M 2 - M 0 , M 3 - M 0 , M 4 - M 0 ) - - - ( 1 )
进一步定义理论的同位素模式向量(以下简称tIPV)为分子式对应的理论IPV,也即其M,Ti,Δmi则是由给定的分子式计算出来的。碎片离子P的tIPV值tIPV=(M,T1,T2,T3,T4,Δm1,Δm2,Δm3,Δm4)可以通过下面公式得到:
M=(12.0000,1.0078,14.0030,15.9949,31.9721)×(n1,n2,n3,n4,n5)T,(2)
T1=n1qC+n2qH+n3qN+n4qO1+n5qS1,                                        (3)
T 2 = n 4 q O 2 + n 5 q S 2 + 1 2 T 1 2 - 1 2 ( n 1 q C 2 + n 2 q H 2 + n 3 q N 2 + n 4 q O 1 2 + n 5 q S 1 2 ) , - - - ( 4 )
Δm1=(n1qCΔC+n2qHΔH+n3qNΔN+n4qO1ΔO1+n5qS1ΔS1)/T1                  (5)
Δm2={n4qO2ΔO2+n5qS2ΔS2
+n1(n1-1)qC 2ΔC+n2(n2-1)qH 2ΔH+n3(n3-1)qN 2ΔN+                          (6)
n4(n4-1)qO1 2ΔO1+n5(n5-1)qS1 2ΔS1
+n1n2qCqH(ΔC+ΔH)+n1n3qCqN(ΔC+ΔN)+n1n4qCqO1(ΔC+ΔO1)+
n1n5qCqS1(ΔC+ΔS1)
+n2n3qHqN(ΔH+ΔN)+n2n4qHqO1(ΔH+ΔO1)+n2n5qHqS1(ΔH+ΔS1)
+n3n4qNqO1(ΔN+ΔO1)+n3n5qNqS1(ΔN+ΔS1)+n4n5qO1qS1(ΔO1S1)}/T2
这里qC,qH,qN分别是13C相对于12C、D相对于H、15N相对于14N的相对丰度。qO1,qO2(qS1,qS2)则是17O相对于16O,18O相对于16O(33S相对于32S,34S相对于32S)的相对丰度。ΔC,ΔH,ΔN是13C和12C,D和H,以及14N和15N的质量差,而ΔO1,ΔO2(ΔS1,ΔS2)分别是17O和16O,18O和16O(33S和32S,34S和32S)之间的质量差。
结合谱峰的强度信息以及质谱中包含的同位素信息,选取的特征包括:
特征一、谱峰的强度与噪音基线的距离;谱峰的强度与全局基线距离越小,说明其是噪音的可能性越大,因为全局基线刻画的是仪器物理噪音的分布;谱峰的强度与局部基线距离越大说明离噪音越远,因为局部基线能刻画噪音和有效峰的分界。公式如下,
FRA1=A1*(Ipeak-B1*GImean)/GIdeviation            (7)
FRA2=A2(Ipeak-B2*LImean)/LIdeviation             (8)
其中,A1,B1,A2,B2分别为权重值。这个距离实际上反映了质谱中一个谱峰离噪音基线的中心的距离与噪音整个类别的分布宽度的比率。通常情况下,A1,B1,A2,B2设置为1。在实际应用中,也可以选择使得在训练集合上分类结果最好的A1,B1,A2,B2作为权值。
特征二、离子的质量残数:假设质谱中某个潜在的离子的测量质量是M,而从数据库中统计得到的质量为M的所有离子的残数范围是[Res1,Res2],那么质量残数特征值FRes根据下式计算得到,其值越小,说明这个潜在的离子越符合从真实的数据库中统计出来的规律,因此此潜在离子就越有可能是真正的离子:
F Res = sign ( ( Res M - Res 1 ) * ( Res M - Res 2 ) ) * min { | Res M - Res 1 | , | Res M - Res 1 | } | Res 2 - Res 1 | - - - ( 9 )
特征三、试验与理论的同位素模式向量(eIPV和tIPV)之间的距离Fp1和Fp2
其值越接近1说明潜在的同位素峰越合理。
F P 1 = sign ( R 1 - T 1 min ) * ( R 1 - T 1 max ) * min { | R 1 - T 1 min | , | R 1 - T 1 max | } T 1 mean - - - ( 10 )
F P 2 = sign ( R 2 - T 2 min ) * ( R 2 - T 2 max ) * min { | R 2 - T 2 min | , | R 2 - T 2 max | } T 2 mean - - - ( 11 )
特征四、质谱中的谱峰重叠模式;本实施例提出质谱中普遍存在的四种重叠模式,作为对质谱中的重叠谱峰的分类依据。本领域技术人员都清楚,谱峰的重叠模式不限于以下四种。根据下面描述的重叠模式,总结其他的重叠模式是本领域技术人员可以胜任的。
如图1所示,谱峰重叠模式1:相同电荷状态的两个离子的同位素峰的重叠,且离子质量差为(1/z)u,其中z为离子的电荷数。这种峰型的特点是(p0,p1,p2,...)对应的eIPV值中的R1远超过tIPV值中的T1的取值范围,说明p1是两个谱峰的重叠。
具体是:p0:Ion 1的单同位素峰;Ion1,Ion2分别表示两个离子;
p1:Ion 2的单同位素峰,以及Ion 1的第一同位素峰;
p2:Ion 1的第二同位素峰,以及Ion 2的第一同位素;
p3……:重叠的同位素峰……。
如图2所示,谱峰重叠模式2:两个质量相差3u的离子的同位素峰重叠,特点是至少超过4个谱峰的m/z值符合同位素质量间隔关系,且(p0,p1,p2,p3,p4...)对应的eIPV值中的R1,R2与tIPV值中的T1,T2匹配得很好,但R3远超过T3的取值范围。当识别出p3中包含了一个新的离子的单同位素峰后,对于p3所对应的离子的电荷状态则可由p3后续的谱峰m/z值间隔来确定。具体是:
p0:Ion 1的单同位素峰;
p1:Ion 1的第一同位素峰;
p2:Ion 1的第二同位素峰;
p3:Ion 2的单同位素峰,以及Ion 1的第三同位素。
如图3所示,谱峰重叠模式3:噪声和离子谱峰的混合。仅有一个单电荷的离子,其它的谱峰是噪音。特点是(p0,p1,p2,...)对应的eIPV中的R1值远低于tIPV中T1的取值范围,而(p0,p2,p4)对应的eIPV和tIPV很匹配,此外,(p2,p3,...)对应的eIPV中的R1值也远低于tIPV中T1的取值范围,说明p1,p3是噪声。具体是:
p0:Ion 1(charge=1)单同位素峰;
p1:噪声;
p2:Ion 1的第一同位素峰;
p3:噪声;
p4:Ion 1的第二同位素峰。
如图4所示,谱峰重叠模式4:两个质量相差为0.5u且带单电荷的离子谱峰的交错。特点是(p0,p1,p2,...)对应的eIPV中的R1远小于tIPV中的T1的取值范围,说明(p0,p1,p2,...)不是一组合理的同位素峰,但(p0,p2,p4)对应的eIPV和其tIPV很匹配,说明(p0,p2,p4)对应一个单电荷的离子。对(p1,p2,p3)和(p1,p3,...)有同样的情况,则说明(p1,p3,)对应一个单电荷离子。具体是:
p0:Ion 1(charge=1)单同位素峰;charge表示离子所带的电荷数;
p1:Ion 2(charge=1)单同位素峰;
p2:Ion 1的第一同位素峰;
p3:Ion 2的第一同位素峰;
p4:Ion 1的第二同位素峰。
步骤4,首先从序列已知的质谱中,识别各谱峰的身份,包括噪音,孤立的离子谱峰,以及存在重叠的谱峰。然后,分别挑选一些合适样本进行学习,确定不同类别数据(噪音,孤立的离子谱峰,存在重叠的四种不同类型的情况)在上述特征上的表现。
步骤5,采用机器学习的方法,比如决策树分类方法,确定区分各类别数据的特征值的阈值,建立判断个类别的规则;
步骤6,根据步骤5中所学习到的规则,对所有的质谱中的谱峰进行判断,将判断为离子的单同位素峰的谱峰挑选出来。
应用本实施例,在不同的数据集上采用pFind和MASCOT软件测试的结果表明,本预处理方法的性能超越现有的商用软件ProteinLynxTM Global Server 2.0.5版本的预处理功能。在8个蛋白质数据上的测试结果表明,经本方法处理的数据能鉴定出可靠的多肽的个数比经ProteinLynxTM Global Server 2.0.5软件处理的数据的鉴定个数平均多50%,最高可多180%。
本方法极大地提高了鉴定软件的搜索速度,比如pFind1.5版的测试结果表明,经过本方法对数据进行预处理后,速度能提高5~10倍,MASCOT 2.0版的测试结果表明,速度能提高2~4倍。
此外,本方法也能大大增加搜索的精度。在Harvard医学院细胞生物系的Steven.P.Gigy提供的大规模的酵母蛋白质组shotgun数据上的测试结果表明,经本方法处理后,能使可靠鉴定出的多肽和蛋白质个数分别提高11.64%和6.56%。
实施例2
在该实施例中,还选取了其它更多的一些特征,这些特征与实施例1中的特征组合在一起。比如,假定谱峰对应的离子的电荷数,可能的同位素峰簇所包含的同位素峰个数,eIVP和tIPV中Δm值之间的距离。这些特征都是判定一个谱峰是否为离子谱峰的重要因素。比如,当离子的电荷数为2或3时,质谱中往往存在多于2个同位素峰,而当电荷数为1时,质谱中往往存在少于3个同位素峰。这是因为,离子质量越大时,其同位素存在的比率越大,或者说相对于单同位素峰而言其同位素丰度越高,被仪器检测到的可能性越大。
在该实施例中,不采用决策树,而采用adaboost分类方法学习出区分各个类别的谱峰的规则。
其他同实施例1。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于质谱数据同位素模式的质谱有效峰选取方法,步骤包括:
1)确定质谱的噪音基线,具体为:
建立一个高斯混合模型对质谱中谱峰进行分类,按照其强度分为高强度的离子谱峰、低强度的噪音、高强度的噪音和低强度的离子谱峰的混合体三类,并识别高强度的离子谱峰、低强度的噪音、高强度的噪音和低强度的离子谱峰的混合体在强度上的阈值;通过每个类的强度阈值来确定噪音基线;用全局基线代表高强度的离子谱峰在强度上的下限,局部基线代表示低强度的噪音峰在强度上的上限;
2)选取有效峰的特征,包括;
谱峰的强度与噪音基线的距离,离子的质量残数,实验与理论的同位素模式向量之间的距离,质谱中的谱峰重叠模式;候选谱峰对应的离子的电荷数,候选同位素峰簇所包含的同位素峰个数,潜在的同位素之间的质量差和理论的同位素之间的质量差的距离;
3)计算由步骤2)中所选取的谱峰各个特征对应的取值;
4)从序列已知的质谱中,挑选样本进行学习,确定噪音、孤立的离子谱峰和存在重叠的谱峰在上述特征上的表现;
5)采用决策树分类的机器学习方法,确定区分各类数据的特征值的阈值,建立判断各类数据的规则;
6)根据步骤5)中所学习到的规则,对所有的质谱中的谱峰进行判断,将判断为离子的单同位素峰的谱峰挑选出来。
2.根据权利要求1所述的基于质谱数据同位素模式的质谱有效峰选取方法,其特征在于,所述步骤2)中的谱峰重叠模式包括:两个相同电荷状态且质量相差1u的碎片离子的同位素峰的重叠,两个相同电荷状态且质量相差3u的碎片离子的同位素峰的重叠,两个质荷比相差为0.5u但带不同电荷的碎片离子的重叠,两个质量相差为0.5u且带单电荷的碎片离子谱峰的交错。
CN2006100721689A 2006-04-14 2006-04-14 基于质谱数据同位素模式的质谱有效峰选取方法 Active CN101055558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006100721689A CN101055558B (zh) 2006-04-14 2006-04-14 基于质谱数据同位素模式的质谱有效峰选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100721689A CN101055558B (zh) 2006-04-14 2006-04-14 基于质谱数据同位素模式的质谱有效峰选取方法

Publications (2)

Publication Number Publication Date
CN101055558A CN101055558A (zh) 2007-10-17
CN101055558B true CN101055558B (zh) 2010-10-06

Family

ID=38795398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100721689A Active CN101055558B (zh) 2006-04-14 2006-04-14 基于质谱数据同位素模式的质谱有效峰选取方法

Country Status (1)

Country Link
CN (1) CN101055558B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102445544B (zh) * 2010-10-15 2013-10-30 中国科学院计算技术研究所 一种提高单同位素峰判断准确率的方法和系统
CN103389335A (zh) * 2012-05-11 2013-11-13 中国科学院大连化学物理研究所 一种鉴定生物大分子的分析装置和方法
JP6174685B2 (ja) * 2012-05-18 2017-08-02 ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド タンデム質量分析計内のインターリービング窓幅を使用するためのシステムおよび方法
CN103884806B (zh) * 2012-12-21 2016-01-27 中国科学院大连化学物理研究所 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
CN108982558B (zh) * 2018-07-09 2021-07-06 中国科学院地质与地球物理研究所 一种获得地壳氩同位素组成的方法
CN109738532B (zh) * 2018-12-31 2022-07-22 复旦大学 一种自动解析稳定同位素标记糖链定量质谱数据的方法
WO2022100007A1 (zh) * 2020-11-10 2022-05-19 摩赛恩科技(苏州)有限公司 质谱数据自动上传方法及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚若河,林揆训,林璇英,石旺舟,蔡旭红.质谱图的计算机辅助分析.汕头大学学报(自然科学版).1997,12(1),56-59. *

Also Published As

Publication number Publication date
CN101055558A (zh) 2007-10-17

Similar Documents

Publication Publication Date Title
CN101055558B (zh) 基于质谱数据同位素模式的质谱有效峰选取方法
CN104034792B (zh) 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
CN103245714B (zh) 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法
CN104076115B (zh) 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN103698447B (zh) 一种利用高能碰撞诱导电离碎裂技术鉴定蛋白的方法
CN103884806B (zh) 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
CN104182658B (zh) 一种串联质谱谱图鉴定方法
US7979214B2 (en) Peptide identification
Zou et al. Charge state determination of peptide tandem mass spectra using support vector machine (SVM)
US7230235B2 (en) Automatic detection of quality spectra
CN111046913A (zh) 一种负荷异常值识别方法
JP2007263641A (ja) 構造解析システム
CN1773276A (zh) 用串联质谱中碎片离子的同位素峰预测离子分子式的方法
CN108491690A (zh) 一种蛋白质组学中肽段的肽段定量效率预测方法
WO1999062930A2 (en) Protein sequencing using tandem mass spectroscopy
Yuan et al. Features‐based deisotoping method for tandem mass spectra
CN100483394C (zh) 一种质谱数据处理中噪音基线识别方法
CN109243527A (zh) 一种酶切概率辅助的肽段可检测性预测方法
Ryu et al. A statistical approach to peptide identification from clustered tandem mass spectrometry data
Sanders et al. A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data
Baginsky et al. AuDeNS: a tool for automatic de novo peptide sequencing
CN102043011B (zh) 电子转运裂解质谱预处理与鉴定方法
CN110175200A (zh) 一种基于人工智能算法的异常用能分析方法及系统
Fang et al. Feature selection in validating mass spectrometry database search results
Golenko et al. Protein identification using sequence databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant