CN101196498A - 一种质谱质量测量误差的预测方法 - Google Patents

一种质谱质量测量误差的预测方法 Download PDF

Info

Publication number
CN101196498A
CN101196498A CNA200610164852XA CN200610164852A CN101196498A CN 101196498 A CN101196498 A CN 101196498A CN A200610164852X A CNA200610164852X A CN A200610164852XA CN 200610164852 A CN200610164852 A CN 200610164852A CN 101196498 A CN101196498 A CN 101196498A
Authority
CN
China
Prior art keywords
mass
error
value
measurement
mass spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200610164852XA
Other languages
English (en)
Other versions
CN101196498B (zh
Inventor
高文
张京芬
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN200610164852XA priority Critical patent/CN101196498B/zh
Publication of CN101196498A publication Critical patent/CN101196498A/zh
Application granted granted Critical
Publication of CN101196498B publication Critical patent/CN101196498B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种质谱质量测量误差的预测方法,包括如下步骤:步骤一,将物质的测量误差分解为系统误差与随机误差;步骤二,在质谱中计算样本点的测量误差,样本点包括质谱中的离子、离子之和或者离子之差;步骤三,使随机误差的目标函数取最值来确定系统误差分布函数的参数取值。所述在质谱中计算样本点的测量误差是通过预测离子分子式的方法获得。本发明的优点是:不需要额外的内标或外标参考,不需要进行预先的鉴定;既可以预测单个质谱的误差情况,也可以预测整个样品的所有质谱的误差分布情况;预测准确度高。

Description

一种质谱质量测量误差的预测方法
技术领域
本发明涉及质谱数据预处理方法,特别涉及一种基于离子分子式预测的质谱质量测量误差的预测方法。
背景技术
现实中任何测量工具都存在一定的测量误差。质谱仪也不例外。质谱仪的功能是测量带电离子物质的质量,在蛋白质多肽鉴定中,这些测量误差将直接影响蛋白质鉴定结果,因此,分析仪器的测量误差并予以校准非常重要。
实验室的环境,如温度湿度等,对质谱的测量精度影响很大,即使在测量样品之前对仪器进行校准,使之达到5ppm的精度,但在测量实际样品时,测量误差能高达100ppm以上,因此还需识别实际样品的测量误差。一般情况下,在同一仪器、同一时间、同一环境下测量的样品,样品里单个质谱间的测量误差相差很大,但样品的所有质谱的测量误差接近于一个正态分布,其平均值和标准差大抵能描述整个样品中质谱测量误差的分布。
在实际测量中往往使用内部标准参考物(简称为内标)或外部标准参考物(简称为外标)来识别实际样品测量的误差并对质谱进行校准。文献“K.L.Johnson,C.J.Mason,D.C.Muddiman,and J.E.Eckel,Analysis of the Low Molecular WeightFraction of Serum by LC-Dual ESI-FT-ICR Mass Spectrometry,Precision of RetentionTime,Mass,and Ion Abundance,Anal.Chem.,2004,76,5097-5103.”和“M.J.Chalmers,J.P.Quinn,G.T.Blakney,M.R.Emmett,H.Mischak,S.J.Gaskell,and A.G.Marshall,Liquid Chromatography-Fourier Transform Ion Cyclotron Resonance MassSpectrometric Characterization of Protein Kinase C Phosphorylation,J.Proteome Res.,2003,2,373-382.”中公开的内标法,是在样品中加入一定量的质量已知的物质作为内部标准,通过每个质谱中所包含的内部标准物的测量值与理论值的差异来判断质谱的测量误差并予以校正。也有使用胰蛋白酶自切形成的离子峰作为内部校准的,见参考文献“T.Rejtar,H.S.Chen,V.Andreev,E.Moskovets,and B.L.Karger,IncreasedIdentification of Peptides by Enhanced Data Preprocessing of High-Resolution
MALDI TOF/TOF Mass Spectra Prior to Database Searching,Anal.Chem.,2004,76,6017-6028.”。内标法的优点是准确性高,但存在样品间交叉污染的可能性,且内标的高峰可能使样品信号被抑制,见参考文献“J.Preisler,P.Hu,T.Rejtar,andB.L.Karger,Capillary Electrophoresis-Matrix-Assisted Laser Desorption/IonizationTime-of-Flight Mass Spectrometry Using a Vacuum Deposition Interface,Anal.Chem.,2000,72,4785-4795.”。
文献“J.E.Syka,J.A.Marto,D.L.Bai,S.Horning,M.W.Senko,J.C.Schwartz,B.Ueberheide,B.Garcia,S.Busby,T.Muratore,J.Shabanowitz,and D.F.Hunt,Novel LinearQuadrupole Ion Trap/FT Mass Spectrometer,Performance Characterization and Use inthe Comparative Analysis of Histone H3 Post-translational Modifications,J.ProteomeRes.,2004,3,621-626.”中公开了外标法。顾名思义,外标法就是标准物和样品是分开的,独立且同时测量已知的标准物和样品,通过标准物的测量误差来估计样品的测量误差。外标法能避免内标法的缺点,但外标的准确性较内标低,仪器测量过程中受很多实验条件的影响,不同环境不同时刻的测量误差相差比较大,因此外标法往往不能确实反映每个质谱的误差特性。
内标法和外标法校准都要借助额外的实验信息来估计仪器的测量误差,且有其固有的缺点,因此,文献“A.Graber,P.S.Juhasz,N.Khainovski,K.C.Parker,D.H.Patterson,and S.A.Martin,Result-driven strategies for protein identification andquantitation-a way to optimize experimental design and derive reliable results,Proteomics.,2004,4,474-489.”转而采用计算的方法,即首先对样品的所有质谱进行鉴定,仅取其中高可靠的鉴定结果作为参考标准来分析测量误差,并由此对所有质谱进行校准后再次进行鉴定。这是一种结果驱动的方法,依赖于鉴定结果的可靠性,且只是依据极少数的高可靠的结果来大致估计出整个样品的所有质谱的误差分布,而并不能反映每个质谱的测量误差。实际上,在测量样品时得到的各个质谱所呈现的测量误差区别还是相当大的。
针对上述问题,人们希望有一种不需要额外的内标或外标参考,也不需要进行预先的鉴定,既可预测单个质谱的误差情况,也可预测整个样品的所有质谱的测量误差分布的质谱质量测量误差预测方法。
发明内容
本发明的目的是克服现有技术的不足,提供一种不需要额外的内标或外标参考,也不需要进行预先的鉴定的质谱质量测量误差预测方法。
为了达到上述目的,本发明采取的技术方案如下:
一种质谱质量测量误差的预测方法,包括如下步骤:
步骤A)设置含有待定参数的测量系统误差分布函数;
步骤B)计算物质的测量质量值和理论质量值,并计算这些物质的测量实际误差;
步骤C)得到的物质测量实际误差减去所述的含参数的测量系统误差,得到物质的含参数的测量随机误差;
步骤D)计算所述含参数的测量随机误差的目标函数,通过使该目标函数取得最值得到所述测量系统误差分布函数中的待定参数的取值。
进一步地,所述步骤B)中计算物质的测量质量值和理论质量值时,采取的方式包括:(1)在质谱中选择谱峰,计算谱峰对应的离子的测量质量值,通过预测谱峰对应离子的分子式得到离子的理论质量值;或(2)得到一对谱峰所对应的两个离子的质量之差或者质量之和的测量及理论质量值。
进一步地,还包括步骤E)确定系统误差分布函数中待定参数的取值后,重复步骤A)到步骤D),迭代计算得到所述待定参数的取值。
进一步地,在步骤E)中,当两次连续的迭代过程所计算得到的待定参数之差在限定的范围之内,则停止迭代。
进一步地,步骤D)中的所述目标函数是所述含参数的测量随机误差的平方和或绝对值之和,所述最值是最小值。
一种质谱质量测量误差的预测方法,包括如下步骤:
1)根据仪器测量的系统误差分布的函数类型,设置含有待定参数的测量系统误差分布函数,测量系统误差函数是离子测量质量的函数;
2)根据质谱中存在的多个离子谱峰的同位素信息,计算一些物质的测量质量值和理论质量值,得到一对数据(称为数据对),并计算这些物质的测量实际误差,也即是物质的测量质量值与理论质量值之差;
3)由步骤1)中的带待定参数的测量系统误差函数,可计算得到带参数的物质的测量系统误差,而由步骤2)中计算得到的物质测量实际误差减去所述的带参数的测量系统误差,可得到物质的带参数的测量随机误差;
4)计算所述多个物质的带参数的测量随机误差的平方和,求得一组参数值使得在该参数下测量随机误差的平方和最小,这一组参数便是所述测量系统误差分布函数中的待定参数的取值,由此可确定测量系统误差的分布函数。
在上述技术方案中,进一步地,所述步骤2)中确定多个物质的测量质量值和理论质量值数据对时,采取的方式包括:(1)在质谱中选择一部分谱峰,可通过谱峰的质荷比值计算谱峰对应的离子的测量质量值,此外,通过预测谱峰对应的离子的分子式,可得到离子的理论质量值,由此可得到离子的测量和理论质量值数据对;(2)根据质谱中离子的同源性、连续性、互补性,可得到一对谱峰所对应的两个离子的质量之差或者质量之和的测量及理论质量值数据对。
在上述技术方案中,进一步地,还包括步骤5),在确定系统误差分布函数的基础上,重复步骤1)一步骤4),迭代计算得到所述待定参数的更佳的取值。
在上述技术方案中,进一步地,当两次连续的迭代过程所计算得到的待定参数之差在限定的范围之内,则停止迭代。
在上述技术方案中,进一步地,所述步骤4)中使所述平方和最小的方法是最小二乘法。
在上述技术方案中,进一步地,可将所述步骤4)的内容替换为:计算所述多个物质的随机测量误差的绝对值之和,并使该绝对值之和最小,得到所述待定参数的取值,确定测量系统误差的分布函数。
一种质谱质量测量误差的预测方法,包括如下步骤:
将物质的测量误差分解为系统误差与随机误差,或者说物质的测量误差等于系统误差与随机误差之和;
在质谱中确定多个样本点的测量误差,样本点包括质谱中的离子,或者离子之和,或者离子之差;
使随机误差的目标函数取最值,确定系统误差分布函数的参数取值,所述最值是指最大值或最小值。
进一步地,所述在质谱中确定多个样本点的测量误差是通过预测离子分子式的方法得到。
进一步地,所述目标函数是指平方和或者绝对值之和,所述最值是最小值。
与现有技术相比,本发明的有益效果在于:
1)不需要额外的内标或外标参考;
2)不需要进行预先的鉴定;
3)既可预测单个质谱的误差情况,也可预测整个样品的所有质谱的误差分布;
4)预测准确度高。
附图说明
图1是多肽ALNEINQFYQK的质量测量误差分布图;
图2是多肽IPDGFAGAGGGITFR的质量测量误差分布图;
图3是多肽CCTESLVNR的质量测量误差分布图;
图4是酵母全细胞蛋白质水解产物的串联质谱的实际测量误差分布直方图;
图5是QMass预测的误差分布直方图;
图6是QMass预测的正确率曲线。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述:
在同一仪器、同一时间、同一环境下测量的样品,样品里单个质谱间的测量误差相差很大,但样品的所有质谱的测量误差接近于一个正态分布,其平均值和标准差大抵能描述整个样品中质谱测量误差的分布。因此,质谱质量测量误差的预测问题要解决两个问题,一是对质谱数据集中每个质谱预测其测量误差,二是估计整个样品的所有质谱测量误差的分布。
总的来说,质谱质量测量误差可分解为两个部分:一是系统误差,二是随机误差。随机误差往往服从正态分布,而系统误差是由仪器的测量原理决定的,也是误差分析的重要部分。根据仪器的测量原理,可以得到系统误差的理论分布,比如,TOF仪器的测量误差可以用离子理论质量的多项式表示,Ion-trap和FT-ICR仪器也有其特定的理论误差分布函数。对一个具体的质谱分析其测量误差就是要得到这个理论分布的具体参数。
本发明的方法,后面称作QMass方法。本实施例首先把质谱质量测量误差分析的问题描述如下:假定已知系统误差的理论分布函数为εs(P1,P2,P3,...),对给定的质谱S,已知其一系列的质量数对{(MassMi,MassTi)|1<=i<=k},其中,MassMi为从质谱中得到的某些离子的测量质量,MassTi为相应的离子的理论质量,在上述已知条件下求质谱S的系统误差的具体分布参数(P1’,P2’,P3’,...)。
QMass方法首先将求具体的分布参数(P1’,P2’,P3’,...)的问题转化为求随机误差平方和最小的问题,也即是在参数空间Φ(P1,P2,P3,...)中求一组值(P1’,P2’,P3’),使得在这组值下得到的随机误差的平方和最小,或者说,将测量误差表示如下:
已知系统误差分布εs和质量数对{(MassMi,MassTi)|1<=i<=k}
具体误差可表示为:Erri=MassMi-MassTi=εsi(P1,P2,P3,...)+εri,1<=i<=k
求最小化 Σ 1 ≤ i ≤ k ϵ ri 2 = Σ 1 ≤ i ≤ k [ ( Mass i - Mass Ti ) - ϵ si ] 2 对应的参数值(P1’,P2’,P3’,...)
因此,QMass方法有三个关键步骤:1)系统误差的分布函数;2)一系列的测量和理论质量数对;3)使随机误差的平方和达到最小的对应分布参数值的求法。不同类型的仪器的系统误差分布函数不同,求随机误差平方和最小的方法也不尽相同,但在没有内标和外标参考时,如何获得一系列物质的测量质量和理论质量数对的方法是通用的。下面,本实施例以Q-TOF数据为例,说明QMass方法在这三个关键点上的具体实施方法。根据仪器的测量原理,可很方便地将QMass方法移植到其它类型仪器的质谱数据上。
一、Q-TOF串联质谱的系统误差分布函数
从Q-TOF质谱原理可知,离子的质量与离子在漂移管中的飞行时间的关系为
Mass = A + B * ToF - - - ( 1 )
假定仪器所采用的计算离子质量的参数为AM和BM,而理论的参数应该为AT和BT,则可从下列的公式来推导离子质量的理论值和测量值之间的差值,也即测量的误差。
Mass M = A M + B M * ToF ⇒ Mass M = A M 2 + 2 A M B M * ToF + B M 2 * To F 2 - - - ( 2 )
Mass T = A T + B T * ToF ⇒ Mass T = A T 2 + 2 A T B T * ToF + B T 2 * To F 2 - - - ( 3 )
将(2),(3)式相减,得到,
ΔM = Mass M - Mass T = ( A M 2 - A T 2 ) + 2 ( A M B M - A T B T ) * ToF + ( B M 2 - B T 2 ) * To F 2 - - - ( 4 )
通过对(4)式中各参数的系数进行计算,ΔM可表示为如下的形式:
ΔM = B M 2 - B T 2 B M 2 * ( A M 2 + 2 A M B M ToF + B M 2 To F 2 ) + ( A M 2 B T 2 B M 2 - A T 2 ) ToF + 2 B T B M ( A M B T - A T B M ) - - - ( 5 )
因此,有:
ΔM=A+B*MassM+C*ToF    (6)
其中A,B,C系数为:
A = 2 B T B M ( A M B T - A T B M ) B = B M 2 - B T 2 B M 2 C = ( A M 2 B T 2 B M 2 - A T 2 ) - - - ( 7 )
一方面,由于(AM,BM)和(AT,BT)之间的值是非常接近的,所以C值趋近于零;另一方面,由于飞行管足够长,离子的飞行时间的平方值远远大于飞行时间值,也就是说,C*ToF值远远小于B*MassM,为了计算的方便,忽略(6)式中的C*ToF项。因此,可用线性关系来拟合系统误差与离子m/z值间的关系,也即是:
ΔM=A+B*MassM    (8)
图1,图2和图3分别显示了多肽ALNEINQFYQK,IPDGFAGAGGGITFR和CCTESLVNR的Q-TOF串联质谱,以及质谱中b-,a-,y-类型离子的测量误差和这些误差的线性拟合。
图1中的左小图显示了多肽ALNEINQFYQK的一个Q-TOF串联质谱,其中,横轴表示谱峰对应的离子的质量电荷比值,简称为质荷比;纵轴为谱峰的相对强度,也即把质谱强度最高的谱峰定为基准,其相对强度为100%,其它的谱峰用相对于基准谱峰的相对百分值表示。图1中的右小图显示了质谱中的b-,a-,y-类型离子的实际质量测量误差以及这些误差的线性拟合,线性拟合得到的线性函数代表了测量的系统误差函数。其中,横轴表示b-,a-,y-类型离子的质荷比,纵轴为这些离子的绝对测量误差值。这些测量误差的线性拟合结果表明,此质谱中离子的相对测量误差为125ppm,说明系统测量误差为125ppm,且测量值比理论值偏大。图2和图3类似于图1。
图2显示了多肽IPDGFAGAGGGITFR的Q-TOF串联质谱,以及质谱中b-,a-,y-类型离子的测量误差和这些误差的线性拟合。从图中可看到,此质谱中离子的相对测量误差为10ppm,测量值非常接近理论值。
图3显示了多肽CCTESLVNR的Q-TOF串联质谱,以及质谱中b-,a-,y-类型离子的测量误差和这些误差的线性拟合。其中,多肽中的两个标号为C的胱氨酸都发生了甲基酰胺化修饰。从图3中可看到,此质谱中离子的相对测量误差为40ppm,但测量值比理论值偏小。
从图1、图2、图3中可看到,不同质谱的质量测量误差相差很大,这三个质谱的误差分别为125ppm(测量值偏大),10ppm(测量值和理论值相当),和40ppm(测量值偏小),但误差的线性拟合还是非常恰当,说明将实际测量误差划分为测量的系统误差和随机误差是可行的,并且Q-TOF质谱中呈现的系统误差为离子质量的线性函数。
二、系统误差参数的求解方法
根据公式(1)~(8)的分析,可确定离子质量测量值的系统误差与离子的质量成线性比例,在这个前提下来建立数学模型估计质谱的实际测量误差。考虑随机误差和系统误差,确定模型
MassM-MassT=A*MassM+B+ε    (9)
其中,MassM和MassT分别代表离子的测量质量和理论质量,A*MassM+B代表系统误差,而ε为服从φ(0,μ)的正态分布的随机误差。因此,参数A和B就确定了质谱误差的分布。
假如质谱中存在一系列离子,Massi,MassTi分别为其测量值和理论质量,i=1...k,根据公式(9)则有:
Mass1-MassT1=A*Mass1+B+ε1
Mass2-MassT2=A*Mass2+B+ε2
            ......
Massk-MassTk=A*Massk+B+εk
将上述各式相加,并求平均值,则有,
Σ 1 ≤ i ≤ k ( Mass i ) - Σ 1 ≤ i ≤ k ( Mass Ti ) = A * Σ 1 ≤ i ≤ k ( Mass i ) + k * B + Σ 1 ≤ i ≤ k ϵ i - - - ( 10 )
Σ 1 ≤ i ≤ k ( Mass i ) - Σ 1 ≤ i ≤ k ( Mass Ti ) k = A * Σ 1 ≤ i ≤ k ( Mass i ) k + B + Σ 1 ≤ i ≤ k ϵ i k - - - ( 11 )
当k足够大,比如k>=50时,因ε~Φ(0,μ),则 Σ 1 ≤ i ≤ k ϵ i k = 0 , 所以,一种求参数A和B的方法如下:
Σ 1 ≤ i ≤ k ( Mass i ) - Σ 1 ≤ i ≤ k ( Mass Ti ) k = A * Σ 1 ≤ i ≤ k ( Mass i ) k + B - - - ( 12 )
但当k不足够大,比如k<50时,公式(12)不再适用,因此,采用求随机误差平方和最小的问题。在这里,也即是求一条直线y=Ax+B,满足
min { Σ 1 ≤ i ≤ k [ ( Mass i - Mass Ti ) - ( A * Mass i + B ) ] 2 } - - - ( 13 )
显然,这里可采用最小二乘的方法来解决。
通过公式(12)和(13)均可求出相应的参数A和B,从而知道质谱的质量测量误差。接下来,最重要的问题是如何找到合适的数对(Massi,MassTi),称之为样本点。显然,样本点越多,则A和B的值估计得越准确,但困难在于在没有额外的内标或外标实验数据,以及没有确切的序列信息的情况下,如何求得每个谱峰对应的理论质量而得到符合要求的样本点。如下所述,采用一个新方法来解决这个问题。
三、离子的测量质量和理论质量数对的求法
前面介绍过,内标法是通过与测量物混合在一起的已知标准物的测量值与理论值的差异来判断仪器的测量误差的。如果知道质谱中某些离子的分子式,就可以计算其理论质量,而这些理论质量就相当于内标法中的标准物的质量。因此可利用质谱中离子的同位素峰信息,预测离子对应的分子式,获得低质量段比如0~500u内的离子的分子式。因为在这个质量段里分子式预测的准确度足够高,从而可以知道一批离子的理论质量和测量质量间的差异。这些误差可作为估计整个质谱质量测量误差的第一类样本点数据。预测离子的分子式的方法步骤已经在本申请人的专利申请(申请号200410090806.0)中公开。离子分子式预测方法按照一种打分方法给出待预测离子的候选分子式,并将这些候选分子式按得分进行排名。
因此,假如有k个离子,通过分子式预测得知其可能的理论质量,可以得到第一类公式:
Massi-MassTi=A*Massi+B+εi,1<=i<=k    (14)
其中,Massi为根据谱峰m/z值以及同位素间隔计算出的质量;MassTi则为从预测的分子式计算出的离子质量;εi则是随机误差;A和B则是待求的参数。
上述Massi和MassTi的范围太小,只能描述小质量范围内的误差,不足以代表整个质谱的误差,因此,还需要其它质量范围内的样本点。既然假设系统误差与离子的质量成线性比例,假如有两个离子,其测量和理论质量分别为(Massi,MassTi)和(Massj,MassTj),根据公式(9)有
Massi-MassTi=A*Massi+B+εi
Massj-MassTj=A*Massj+B+εj
两式相减,可得到:
(Massi-Massj)-(MassTi-MassTj)=A*(Massi-Massj)+(ε12)
也就是说,任意两个离子间的间隔质量的测量误差也符合线性关系
ΔMassi-ΔMasTi=A*ΔMassj+ε    (15)
若两式相加,则可得到:
(Massi+Massj)-(MassTi+MassTj)=A*(Massi+Massj)+2*B+(ε12)
也就是说,任意两个离子的和质量的测量误差也符合线性关系
ΣMassi-ΣMasTi=A*ΣMassj+2*B+ε    (16)
因此,虽然在鉴定出多肽序列之前无法知道每个谱峰对应的离子身份,从而不知道其理论质量,但从公式(15)和(16),仍然可以通过谱峰间的质量之差或者质量之和而获取相应的样本点。
具体来说,根据同源离子的性质,可搜索整个质谱中差值恰好为某个基团(如CO,H2O,NH3,H2O+NH3等)的质量的谱峰对,以及根据连续离子的性质,搜索整个质谱中差值恰好为某个(或某些)氨基酸残基质量(或残基质量和)的谱峰对,然后根据谱峰对的m/z值及其同位素间隔计算出质量差作为公式(15)中的实验值ΔMassi,而相应的基团质量、氨基酸残基质量、或氨基酸残基质量和则作为公式(15)中的理论值ΔMassj。同理,搜索谱峰对,得到公式(16)中的实验值和理论值。这样,就可以得到第二类样本点数据,也即是在质谱的全部质量范围内潜在的同源离子和连续离子对,将其对应的理论间隔和实际测量间隔作为估计质谱实际测量误差的样本数据。
四、最小二乘拟和及误差预测的迭代算法
在上述两类样本点数据,即离子的测量质量和理论质量数对数据的基础上,根据公式(13)进行最小二乘拟和,便可得到参数A和B,从而估计出一条理想的误差直线,此直线上母离子对应的误差作为对整个质谱误差的估计。
前面分别介绍了误差估计的数学模型以及获得两种样本点数据的方法。但这里还有问题,获得的第一和第二类样本点中很可能有错误。离子分子式预测方法主要保证离子的真正分子式包含在得分排名前五的候选分子式中,而不保证离子的真正分子式一定是排名第一的候选者。因此,第一类样本点中可能某些MassTi是错误的。此外,可能某些潜在的同源、连续、互补离子等实际上并不是真正的同源离子、连续、互补离子,造成第二类样本点的错误。因此,在此基础上,参数A和B的初始估计值可能有偏离。为了克服这一问题,这里采用迭代的方法尽量避免这样的偏离。
具体来说,首先假设一个初始误差,比如,Q-TOF最大测量误差不超过300ppm,因此可假设初始误差为300ppm,如果知道误差的大致范围,可根据具体情况设置这个初始值。然后在这样一个误差范围内,根据分子式预测方法预测某些小质量离子的分子式,取第一名为参考值,得到第一类样本点;并在这个误差范围内所有潜在的同源和连续离子,得到相应的第二类样本点。在上述两类样本点数据基础上,进行最小二乘拟和,得到一个误差的预测值,也即是得到公式(13)中的参数A和B的预测值,这个预测计值已经比初始的300ppm更接近真实的误差了。然后,在此预测的参数A和B的基础上,进行新一轮的两类样本点的寻找,显然,这一轮寻找到的样本点的错误数要少于初始300ppm假设下的错误数,在此基础上重新估计参数A和B,有望更加接近真实的误差。直到连续两次或三次的估计值的差异足够小时,停止迭代。
需要说明的是,迭代是收敛的,因为迭代的过程实际上是一个估计误差ppm数绝对值逐步减小的过程,其绝对值最小值为零,因此,迭代不会无穷多次。实验中,一般迭代两到四次就收敛了。本实施例把最后一次的估计参数A和B作为计算整个质谱误差ppm数的参数。
下面结合数据说明本发明的效果:
将QMass方法应用到实际样品的大规模的QSTAR串联质谱,即哈佛医学院细胞生物学系Steven P Gygi所提供的酵母全细胞蛋白质水解产物的串联质谱上。
图4是酵母全细胞蛋白质水解产物的串联质谱的实际测量误差分布直方图。其中,横轴表示实际测量误差值,单位为ppm,纵轴表示相应的误差值对应的质谱个数。全部质谱的实际测量误差分布在(-120ppm,100ppm)之间,从图4可以看到,质谱的实际测量误差分布跨度较大。
图5为Qmass对图4中的质谱进行预测所得到的预测误差与质谱的实际测量误差之间的差距的直方图。其中,横轴表示QMass预测的误差与质谱的实际测量误差间的差距,单位为ppm,纵轴表示相应的差值对应的质谱个数。从图5可以看到,QMass预测的误差与质谱的实际测量误差间的差异接近于以零为中心的正态分布。
图6是QMass预测的正确率曲线。图6中横轴表示QMass预测的误差与质谱的实际测量误差间的差距,单位为ppm,纵轴表示在一定的差距范围内,Qmass预测的累积正确率。从图6中可以看到,误差的QMass预测值与实际值差距为30ppm的占整个预测的91.6534%,或者说,差距为30ppm时QMass预测的累积正确率为91.6534%。当差距为40ppm和50ppm时,QMass预测的累积正确率则上升到95.7978%和98.0217,当差距为60ppm则达到了99.1191%。也就是说,如果以预测的误差为基准,对质谱做校准后,超过95%的质谱的误差分布在(-40ppm,40ppm)之间,与图4中分布为(-120ppm,100ppm)相比,经QMass预测误差并对数据进行校准后,质谱中离子质量的准确度被大大改善了。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种质谱质量测量误差的预测方法,包括如下步骤:
步骤1)设置含有待定参数的测量系统误差分布函数;
步骤2)计算物质的测量质量值和理论质量值,并计算这些物质的测量实际误差;
步骤3)得到的物质测量实际误差减去所述的含参数的测量系统误差,得到物质的含参数的测量随机误差;
步骤4)计算所述含参数的测量随机误差的目标函数,通过使该目标函数取得最值而得到所述测量系统误差分布函数中待定参数的取值。
2.根据权利要求1所述质谱质量测量误差的预测方法,其特征是,所述步骤2)中计算物质的测量质量值和理论质量值时,采取的方式包括:(1)在质谱中选择谱峰,计算谱峰对应的离子的测量质量值,通过预测谱峰对应离子的分子式得到离子的理论质量值;或(2)得到一对谱峰所对应的两个离子的质量之差或者质量之和的测量及理论质量值。
3.根据权利要求1或2所述质谱质量测量误差的预测方法,其特征是,还包括步骤5)确定系统误差分布函数中待定参数的取值后,重复步骤1)到步骤4),迭代计算得到所述待定参数的取值。
4.根据权利要求3所述质谱质量测量误差的预测方法,其特征是,当两次连续的迭代过程所计算得到的待定参数之差在限定的范围之内,则停止迭代。
5.根据权利要求1所述质谱质量测量误差的预测方法,其特征是,步骤4)中的所述目标函数是所述含参数的测量随机误差的平方和,所述最值是最小值。
6.根据权利要求5所述质谱质量测量误差的预测方法,其特征是,步骤4)中采用最小二乘法使所述平方和最小。
7.根据权利要求1所述质谱质量测量误差的预测方法,其特征是,步骤4)中的所述目标函数是所述含参数的测量随机误差的绝对值之和,所述最值是最小值。
8.一种质谱质量测量误差的预测方法,包括如下步骤:
步骤一,将物质的实际测量误差分解为系统误差与随机误差;
步骤二,在质谱中计算样本点的测量误差,样本点包括质谱中的离子、离子之和或者离子之差;
步骤三,通过使随机误差的目标函数取最值来确定系统误差分布函数的参数取值。
9.根据权利要求8所述质谱质量测量误差的预测方法,其特征是,所述在质谱中计算样本点的测量误差是通过预测离子分子式的方式得到。
10.根据权利要求8或9所述质谱质量测量误差的预测方法,其特征是,在步骤三中所述目标函数是指平方和或者绝对值之和,所述最值是最小值。
CN200610164852XA 2006-12-06 2006-12-06 一种质谱质量测量误差的预测方法 Expired - Fee Related CN101196498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610164852XA CN101196498B (zh) 2006-12-06 2006-12-06 一种质谱质量测量误差的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610164852XA CN101196498B (zh) 2006-12-06 2006-12-06 一种质谱质量测量误差的预测方法

Publications (2)

Publication Number Publication Date
CN101196498A true CN101196498A (zh) 2008-06-11
CN101196498B CN101196498B (zh) 2011-06-01

Family

ID=39547036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610164852XA Expired - Fee Related CN101196498B (zh) 2006-12-06 2006-12-06 一种质谱质量测量误差的预测方法

Country Status (1)

Country Link
CN (1) CN101196498B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103018317A (zh) * 2013-01-04 2013-04-03 中国药科大学 一种新的基于同系/类似化合物结构-质谱响应关系研究的不依赖标准品的定量分析方法
CN103703360A (zh) * 2011-08-03 2014-04-02 株式会社岛津制作所 质量分析数据解析方法以及装置
CN106711008A (zh) * 2016-12-29 2017-05-24 王海燕 一种飞行时间质谱仪中的峰值漂移的校准方法
CN106770861A (zh) * 2016-11-21 2017-05-31 浙江大学 油浸式变压器在线监控数据可用性的评价方法
CN109863558A (zh) * 2016-10-17 2019-06-07 布鲁克道尔顿有限公司 质谱数据的评估方法和质谱法以及maldi tof质谱仪
CN111089928A (zh) * 2020-01-16 2020-05-01 贵州理工学院 有机物的质谱离子峰的解析方法、系统、装置及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1008248B (zh) * 1985-04-01 1990-06-06 大连工学院 多轴机床时序预报误差补偿装置
US5522224A (en) * 1994-08-15 1996-06-04 Praxair Technology, Inc. Model predictive control method for an air-separation system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103703360A (zh) * 2011-08-03 2014-04-02 株式会社岛津制作所 质量分析数据解析方法以及装置
CN103703360B (zh) * 2011-08-03 2016-02-24 株式会社岛津制作所 质量分析数据解析方法以及装置
CN103018317A (zh) * 2013-01-04 2013-04-03 中国药科大学 一种新的基于同系/类似化合物结构-质谱响应关系研究的不依赖标准品的定量分析方法
CN109863558A (zh) * 2016-10-17 2019-06-07 布鲁克道尔顿有限公司 质谱数据的评估方法和质谱法以及maldi tof质谱仪
CN106770861A (zh) * 2016-11-21 2017-05-31 浙江大学 油浸式变压器在线监控数据可用性的评价方法
CN106711008A (zh) * 2016-12-29 2017-05-24 王海燕 一种飞行时间质谱仪中的峰值漂移的校准方法
CN111089928A (zh) * 2020-01-16 2020-05-01 贵州理工学院 有机物的质谱离子峰的解析方法、系统、装置及介质

Also Published As

Publication number Publication date
CN101196498B (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
EP1718962B1 (en) System and method for tracking and quantitating chemical entities
US8373115B2 (en) Method and apparatus for identifying proteins in mixtures
Mantini et al. LIMPIC: a computational method for the separation of protein MALDI-TOF-MS signals from noise
US20110054804A1 (en) Method of Improving the Resolution of Compounds Eluted from a Chromatography Device
CN101196498B (zh) 一种质谱质量测量误差的预测方法
US7979258B2 (en) Self-calibration of mass spectra using robust statistical methods
Zhang et al. Protein quantitation using mass spectrometry
JP4857000B2 (ja) 質量分析システム
JP4953175B2 (ja) クロマトグラフ/質量分析装置における定量精度向上方法
Wu et al. A new estimation of protein-level false discovery rate
Wong et al. Sub part-per-million mass accuracy by using stepwise-external calibration in Fourier transform ion cyclotron resonance mass spectrometry
EP4078600B1 (en) Method and system for the identification of compounds in complex biological or environmental samples
JP4950029B2 (ja) 質量分析計
US20060255259A1 (en) Tandem mass spectrometry with feedback control
CN115380212A (zh) 用于比较群组内和群组间数据的方法、介质和系统
US11062891B2 (en) Evaluation of complex mass spectrometry data from biological samples
Wolski et al. Analytical model of peptide mass cluster centres with applications
US11959898B2 (en) Identification and scoring of related compounds in complex samples
Zhang et al. PeakSelect: preprocessing tandem mass spectra for better peptide identification
Higdon et al. LIP index for peptide classification using MS/MS and SEQUEST search via logistic regression
Wolski et al. Calibration of mass spectrometric peptide mass fingerprint data without specific external or internal calibrants
Webb et al. Methodology for accurate mass measurement of small molecules
EP1542002B1 (en) Biopolymer automatic identifying method
Hogan et al. Charge state estimation for tandem mass spectrometry proteomics
Baginsky et al. AuDeNS: a tool for automatic de novo peptide sequencing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110601

Termination date: 20201206

CF01 Termination of patent right due to non-payment of annual fee