CN100483394C

CN100483394C - 一种质谱数据处理中噪音基线识别方法

Info

Publication number: CN100483394C
Application number: CNB2006100721693A
Authority: CN
Inventors: 高文; 张京芬; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2006-04-14
Filing date: 2006-04-14
Publication date: 2009-04-29
Anticipated expiration: 2026-04-14
Also published as: CN101055559A

Abstract

本发明公开了一种基于统计方法的质谱中噪音基线识别方法。该方法，包括步骤：1)按照谱峰强度分布性质将质谱谱峰至少分成两类；2)对上一步骤中的不同类别的谱峰分别计算其强度的分布参数；3)用谱峰类别的强度分布参数来刻画广义的噪音基线；4)对质谱中的每个谱峰，计算其与噪音基线的距离来判断其是否为有效的离子谱峰。本发明通过统计分类的方法，更能反映质谱噪音峰在强度上的真实分布，通过一个广义的噪音基线来描述质谱中的噪音的分布，形式灵活，提高了鉴定软件的搜索速度。

Description

一种质谱数据处理中噪音基线识别方法

技术领域

本发明涉及质谱数据预处理以及信息提取的方法，特别涉及一种基于统计方法的质谱中噪音基线识别方法。

背景技术

在生物实验中，待鉴定的多肽在串联质谱仪中经诱导碰撞碎裂为碎片离子，这些碎片离子的质量和丰度被质谱仪器测量出来，形成串联质谱。每一个碎片离子以及其同位素离子都在串联质谱中形成相应的谱峰。生物实验室每天都产生大量的质谱数据，而能够鉴定出多肽序列的质谱仅约为总数的10-30％左右，大量的质谱在数据库搜索时不能得到可信的鉴定结果。一个很重要的原因是对质谱数据的预处理不够理想。质谱中对鉴定有用的谱峰是离子的单同位素峰，而通常一个质谱中对鉴定有用的谱峰只占谱峰总数的1~5％左右，绝大部分的谱峰是仪器产生的物理噪音，或者是离子的同位素峰(称为同位素噪音)，这些噪音给鉴定造成混淆。因此预处理的一个重要问题就是进行质谱有效峰挑取，或者说质谱去噪，其目的是尽量把质谱中的离子的单同位素峰挑选出来。

质谱去噪的困难之一是不同质谱中的仪器物理噪音分布不同，同一质谱不同质量区间的噪音分布也不同。再者，很多主要离子的谱峰的强度很低，和噪音混在一起，很难对其进行判断。现有技术中，常用的识别噪音的方法主要有阈值法和小波分析去噪法，比如文献1：J.K.Eng，A.L.McCormack and J.R.Yates，“An approachto correlate tandem mass spectral data of peptides with amino acid sequencesin a protein database”，J Am Soc Mass Spectrom.，1994，5，976-989.，和文献2：J.Grossmann，F.F.Roos，M.Cieliebak，Z.Liptak，L.K.Mathis，M.Muller，W.Gruissem，and S.Baginsky，“AuDeNS：A Tool for Automatic De Novo PeptideSequencing”，J.Proteome.Res.，2005，4(5)，1768-74.，以及文献3：M.Cannataro，P.H.Guzzi，T.Mazza，and P.Veltri，“Preprocessing，Management，and Analysis of Mass Spectrometry Proteomics Data”，In workshop Workflowsmanagement：new abilities for the biological information overflow-NETTAB2005.中公开的技术就是采用阈值法，即在一个特定的m/z区间中，挑选那些高于给定的强度阈值的谱峰或者挑选一定数量强度值排名靠前的谱峰作为下一步鉴定之用。由于强度不是噪声和离子谱峰的最根本的区别，许多重要的b-系列离子强度就很低，简单地利用阈值法，不管是固定阈值法还是有选择性的阈值法，往往会丢掉重要的离子质量信息。此外，一些常用的过程，比如小波变换，被用来去除原始串联谱中的噪声，如文献4：T.Rejtar，H.S.Chen，V.Andreev，E.Moskovets，andB.L.Karger，“Increased Identification of Peptides by Enhanced DataPreprocessing of High-Resolution MALDI TOF/TOF Mass Spectra Prior toDatabase Searchi ng”，Anal.Chem.，2004，76，6017-6028，和文献5：E.Lange，C.Gropl，K.Reinert，0.Kohlbacher，and R.Hi ldebrandt，“High-Accuracy PeakPicking of Proteomics Data Using Wavelet Techniques”，PSB 2006 OnlineProceedings中公开的技术。但是，文献中也指出，变换过程的参数，如小波变换的基函数、顺序、分解水平等都影响了去噪的可靠性。

针对现有技术的不足，人们希望有一种识别质谱中噪音的新方法，特别是按照谱峰强度分布性质进行噪音识别的方法，或者说利用一种广义噪音基线进行噪音识别的方法。

发明内容

本发明的目的是克服现有技术的不足，提供一种质谱数据处理中噪音基线识别方法。

为了达到上述目的，本发明采取如下技术方案。

一种质谱数据处理中噪音基线识别方法，包括步骤：

1)按照谱峰强度分布性质将质谱谱峰至少分成两类；

2)对上一步骤中的不同类别的谱峰分别计算其强度的分布参数；

3)用谱峰类别的强度分布参数来刻画广义的噪音基线。

4)对质谱中的每个谱峰，计算其与噪音基线的距离来判断其是否为有效的离子谱峰。

在上述技术方案中，所述步骤1)中所述分类是按照质谱中的谱峰的强度的分布趋势对谱峰进行分类，包括高斯(Guass)分布、或者伽马(Gamma)分布等。所述分布趋势是通过对质谱的谱峰进行统计而得到。

在上述技术方案中，所述步骤1)中所述至少分成两类是指按强度将谱峰分成两个不同类别，分别表示噪音类和离子谱峰类。可以根据需要增加类别数，类别数越多，则对谱峰的划分越细致。分类的最根本的目的是，通过分类获得噪音谱峰与其它类别谱峰的分界线。

在上述技术方案中，所述步骤3)中，用谱峰类别的强度分布参数来刻画广义的噪音基线；对于高斯分布类，平均值mean和标准偏差deviation就可以用来表示噪音基线，均值描述了整个类别的谱峰强度的平均值，标准偏差描述了整个类别的谱峰的强度偏离平均值的程度，也可以理解为分布的宽度。对于伽马分布类，用参数(α，β，γ)来表示噪音基线，其中，α是伽马分布的形状参数，β是分布的刻度参数，γ则是分布的位置参数。

在上述技术方案中，所述步骤4)中，将谱峰的强度与噪音基线的距离作为判断噪音的一个标准，显然，离噪音类别越远，则是有效峰的可能性越大。因此，距离的大或小相应地表示谱峰是有效峰的可能性的小或大；

本发明提出了一种识别噪音基线的方法。本发明按照谱峰强度分布来识别质谱噪音的基本强度水平，也称为噪音基线；与阈值过滤方法不同，本发明采用统计学习的方法，识别质谱中的不同的基线，并且将这些基线作为一个而不是全部的特征来区分噪声和离子谱峰。

与现有技术相比，本发明的优点在于：

1)克服了从经验上或者启发式地确定噪音基线的缺点，而是通过统计分类的方法，更能反映质谱噪音峰在强度上的真实分布。

2)与已有的找出一个确定的噪音基线的方法不同，本方法是通过一个广义的噪音基线来描述质谱中的噪音的分布，形式灵活，可根据不同仪器、不同实验室、不同样品所产生的不同的质谱的特性而进行调整。

3)采用本方法极大地提高了鉴定软件的搜索速度。

具体实施方式

下面结合具体实施方式对本发明作进一步详细描述：

实施例1

本实施例试图将质谱中谱峰的强度分为三个层次：1)高强度的碎片离子谱峰；虽然对应的碎片离子的身份可能未知，但强度足够高的谱峰是离子谱峰的可能性非常大；2)低强度的噪音，并且这些噪音沿着m/z轴无处不在，而其强度则服从正态分布；该部分噪音与仪器的物理噪音相关；3)高强度的噪音和低强度的碎片离子谱峰的混合物。

因此，本实施例要识别质谱中的两类噪音基线：a)低强度的噪音的强度上限；为了表述方便，后文中也用global baseline表示低强度的噪音的强度上限；b)高强度的碎片离子谱峰的强度下限；为了表述方便，后文中也用local baseline表示高强度的碎片离子谱峰的强度下限。在识别这两类噪音基线后，将质谱中这两类噪音基线作为判断谱峰是否为有效峰的一个特征。因此，基于统计学习的方法，比如采用混合高斯模型对质谱中谱峰按强度进行分类，将谱峰分成不同的正态子集，且采用正态子集的均值和标准差代表噪音基线，这种噪音基线不同于阈值法中的强度阈值基线，而是一种广义噪音基线。

尽管在质谱中强度很低的谱峰通常都是噪音，但是很多重要的碎片离子的谱峰的强度也不高，常常容易和噪音混淆。因此，本实施例将质谱中的谱峰按照其强度分布特性为三类：一类是高强度的离子谱峰，一类是低强度的噪音，另一类则是高强度的噪音和低强度的离子谱峰的混合体。

由于噪声是在诱导碰撞碎裂(CID)过程中由质谱随机产生的，噪声的强度服从正态分布，而碎片离子的强度分布也近似服从正态分布，因此可以GMM混合高斯模型对质谱中谱峰进行分类，将质谱中的谱峰分为三类。通过对质谱中谱峰的分类，可以识别出高强度的离子谱峰，以及低强度的噪音，同时给出高强度的噪音和低强度的离子谱峰的混合体在强度上的阈限，对后续的鉴定很有帮助，本领域技术人员是清楚这一点的。

具体说，本实施例分两个层次：首先，将质谱中的谱峰分成两个正态分布的成员，分别表示高强度离子峰和噪音峰的分布；然后，将高强度碎片离子谱峰中的低峰和噪音峰集合再次划分成两个正态分布的成员，分别表示低强度的噪音峰和高强度噪音与低强度碎片离子谱峰的混合体。

采用第二个层次的正态成员的均值和标准差来刻画一种广义噪音基线，或者说，计算两种基线：全局的基线(global baseline)和局部基线(local baseline)，记为I_baseline＝(GI_mean，GI_deviation，LI_mean，LI_deviation)。且I_baseline的各分量的值通过EM(Expectation-Maximization)算法计算得到。I_baseline的分量实际上是混合模型中的两个正态成员的均值mean和标准差deviation的参数。并且，I_baseline中全局的基线代表高强度离子峰在强度上的下限，局部基线则代表低强度的噪音峰在强度上的上限。在全局和局部基线之间的谱峰则即可能是噪音也可能是碎片离子谱峰，需要采用其它的公知方法进行区分。

为了便于理解本发明，此处进一步介绍一下谱峰强度与噪音基线的距离。在确定了噪音基线以后，将谱峰的强度与噪音基线的距离作为判断噪音的一个标准，距离越大说明离噪音越远，越可能是有效峰。本实施例中，可以采用如下两公式表示谱峰的强度与噪音基线的距离：

F_RA1＝A₁*(I_peak-B₁*GI_mean)/GI_deviation (1)

F_RA2＝A₂(I_peak-B₂*LI_mean)/LI_deviation (2)

其中，A₁，B₁，A₂，B₂分别为权重值。这个距离实际上反映了质谱中一个谱峰离噪音基线的中心的距离与噪音整个类别的分布宽度的比率。A₁，B₁，A₂，B₂可以均等于1，或者在实际应用中，以根据统计的结果确定各个参数的权重值，以更好地符合实际情况。

将本实施例应用在不同的数据集上，采用pFind和MASCOT软件测试的结果表明，本发明的性能超越现有的商用软件ProteinLynx^TM Global Server 2.0.5版本的预处理功能。在8个蛋白质数据上的测试结果表明，经本方法处理的数据能鉴定出可靠的多肽的个数比经ProteinLynx^TMGlobal Server 2.0.5软件处理的数据的鉴定个数平均多50％，最高可多180％。

本方法极大地提高了鉴定软件的搜索速度，比如pFind1.5版的测试结果表明，经过本方法对数据进行预处理后，速度能提高5~10倍，MASCOT 2.0版的测试结果表明，速度能提高2~4倍。

实施例2

本实施例试图将质谱中谱峰的强度分为两个层次：1)碎片离子谱峰，其强度服从伽马分布；2)噪音峰，其强度则服从正态分布；

因此，本实施例要识别质谱中的一类噪音基线：噪音的强度上限；为了表述方便，后文中也用global baseline表示低强度的噪音的强度上限；在识别了噪音基线后，将其作为判断谱峰是否为有效峰的一个特征。因此，基于统计学习的方法，采用高斯、Gamma混合模型对质谱中谱峰按强度进行分类，将谱峰分成两个子集，一个服从正态分布，一个服从Gamma分布，而其中正态分布子集的均值和标准差则代表噪音基线。

其余部分同实施例1。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种质谱数据处理中噪音基线识别方法，包括步骤：

1)按照谱峰强度分布性质将质谱谱峰至少分成两类；所述分类是按照质谱中的谱峰的强度的分布趋势对谱峰进行分类；所述分布趋势是通过对质谱的谱峰进行统计而得到；其中，所述分布趋势包括高斯分布或者Gamma分布；

所述至少分成两类是指按强度将谱峰分成两个不同类别，分别表示噪音类和离子谱峰类；

2)对步骤1)中的不同类别的谱峰分别计算其强度的分布参数；

3)用谱峰类别的强度分布参数来刻画广义的噪音基线；

2、根据权利要求1所述质谱数据处理中噪音基线识别方法，其特征在于，所述步骤3)中用谱峰类别的强度分布参数来刻画广义的噪音基线，对于高斯分布类，平均值和标准偏差用来表示噪音基线，均值描述了整个类别的谱峰强度的平均值，标准偏差描述了整个类别的谱峰的强度偏离平均值的程度；对于Gama分布类，用参数(α，β，γ)来表示噪音基线，其中，α是Gama分布的形状参数，β是分布的刻度参数，γ则是分布的位置参数。

3、根据权利要求1或2所述质谱数据处理中噪音基线识别方法，其特征在于，所述步骤4)中，将谱峰的强度与噪音基线的距离作为判断噪音的一个标准，距离的大或小相应地表示谱峰是有效峰的可能性的小或大。