CN101055558A

CN101055558A - 基于质谱数据同位素模式的质谱有效峰选取方法

Info

Publication number: CN101055558A
Application number: CNA2006100721689A
Authority: CN
Inventors: 高文; 张京芬; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2006-04-14
Filing date: 2006-04-14
Publication date: 2007-10-17
Anticipated expiration: 2026-04-14
Also published as: CN101055558B

Abstract

本发明公开了一种基于质谱数据中呈现的同位素模式来提取质谱中有效的离子单同位素峰的方法。该方法步骤包括：1)确定质谱的噪音基线；2)有效峰的特征选取；3)计算谱峰的由步骤2)中所选择的各个特征对应的取值；4)从序列已知的质谱中，挑选样本进行学习，确定噪音、离子谱峰等不同类别的谱峰在上述特征上的表现，确定区分各类别谱峰的特征值的阈值，确定分类的规则；5)根据所学习到的规则对所有的质谱中的谱峰进行处理，挑选出离子的单同位素峰。本发明通过定义同位素模式概念并采用准确的公式计算离子的同位素模式的值来判断谱峰是否为有效峰，准确率更高，采用本方法极大地提高鉴定软件的搜索速度以及鉴定的可靠性。

Description

基于质谱数据同位素模式的质谱有效峰选取方法

技术领域

本发明涉及质谱数据预处理以及信息提取的方法，特别涉及一种基于质谱数据中呈现的同位素模式来提取质谱中有效的离子单同位素峰的方法。

背景技术

在生物实验中，待鉴定的多肽在串联质谱仪中经诱导碰撞碎裂为碎片离子，这些碎片离子的质量和丰度被质谱仪器测量出来，形成串联质谱。每一个碎片离子以及其同位素离子都在串联质谱中形成相应的谱峰。生物实验室每天都产生大量的质谱数据，而能够鉴定出多肽序列的质谱仅约为总数的10-30％左右，大量的质谱在数据库搜索时不能得到可信的鉴定结果。一个很重要的原因是对质谱数据的预处理不够理想。质谱中对鉴定有用的谱峰是离子的单同位素峰，而通常一个质谱中对鉴定有用的谱峰只占谱峰总数的1~5％左右，绝大部分的谱峰是仪器产生的物理噪音，或者是离子的同位素峰(称为同位素噪音)，这些噪音给鉴定造成混淆。因此预处理的一个重要问题就是进行质谱有效峰挑取，或者说质谱去噪，其目的是尽量把质谱中的离子的单同位素峰挑选出来。

当前串联质谱的利用率很低，有硬件和软件的原因。硬件原因，比如样品含有杂质，多肽修饰情况复杂，诱导碰撞碎裂(CID)过程产生未知类型的离子等。软件原因，比如质谱鉴定软件的算法不够完备等。串联质谱的利用率低还有一个非常重要的原因是目前的算法对质谱数据的预处理不够充分合理。通常一个四级杆-飞行时间(Q-TOF)串联质谱仪产生的质谱数据中对多肽序列鉴定有用的谱峰只占1～5％左右，如果对质谱数据进行合理的处理，从质谱中挑选出有效的离子的单同位素谱峰，则既可降低多肽序列鉴定的计算复杂度，还可使得能可靠识别出多肽的质谱数量增加，提高质谱数据的利用率。

从质谱中挑选离子的单同位素峰有其固有的困难：首先，不同质谱中的噪音分布不同，甚至同一质谱中不同质量区间的噪音分布也不同；其次，很多主要离子的强度很低，和噪音混在一起；此外，质谱中存在带有不同电荷数的离子以及复杂的同位素谱峰重叠现象，使得判断谱峰对应的离子的电荷数及判断谱峰是否为有效离子的单同位素峰很困难。

目前已有一些算法和软件可对Q-TOF数据进行处理，比如Applied Biosystems公司提供的免费软件Data Explorer^TM Automation Toolkit[http://www.nitehawk.com/voyager_macros/]，其中的Automated Data Processing部分就提供质谱有效峰选取的服务；再如，ProteinLynx Global SERVER软件[http://www.waters.com/WatersDivision/contentd.asp？watersit＝RHEY-5LHBSW]是Waters公司整合的可升级的商用生物信息平台软件，其Basic processing部分中也包含质谱有效峰选取的服务。现有技术对质谱数据进行有效峰挑取的方法包括：阈值过滤法，降噪变换法和去同位素法。如文献1：J.K.Eng，A.L.McCormack andJ.R.Yates，“An approach to correlate tandem mass spectral data of peptides with aminoacid sequences in a protein database”，J Am Soc Mass Spectrom.，1994，5，976-989.和文献2：J.Grossmann，F.F.Roos，M.Cieliebak，Z.Liptak，L.K.Mathis，M.Muller，W.Gruissem，and S.Baginsky，“AuDeNS：A Tool for Automatic De Novo PeptideSequencing”，J.Proteome.Res.，2005，4(5)，1768-74.，以及文献3：M.Cannataro，P.H.Guzzi，T.Mazza，and P.Veltri，“Preprocessing，Management，and Analysis of MassSpectrometry Proteomics Data”，In workshop Workflows management：new abilities forthe biological information overflow-NETTAB 2005.中公开的阈值过滤法是最直接的方法：在一个特定的m/z区间中，挑选那些高于给定阈值或一定数量精度最好的峰。由于低强度峰很有可能是噪音，阈值过滤法可以去掉大部分的噪音，但是，强度不是离子谱峰最根本的性质，许多重要的b-系列离子强度就很低。而且，对不同的质谱，噪声的强度基线完全不同，甚至同一个质谱不同的质量段内的噪音强度基线也不同。因此，简单地利用阈值来去除噪声的方法不是准确的。在降噪变换法中，一些常用的过程如小波变换被用来去除原始串联质谱中的噪声，如文献4：T.Rejtar，H.S.Chen，V.Andreev，E.Moskovets，and B.L.Karger，“IncreasedIdentification of Peptides by Enhanced Data Preprocessing of High-ResolutionMALDI TOF/TOF Mass Spectra Prior to Database Searching”，Anal.Chem.，2004，76，6017-6028和文献5：E.Lange，C.Gropl，K.Reinert，O.Kohlbacher，andR.Hildebrandt，“High-Accuracy Peak Picking of Proteomics Data UsingWavelet Techniques”，PSB 2006 Online Proceedings中公开的技术。但是，变换过程的参数如小波变换的基函数、顺序、分解水平等会影响去噪的可靠性。质谱中的离子同位素峰也是干扰鉴定的一个重要因素，去同位素法的目的就是去除离子的同位素峰，这样质谱中每个碎片离子就只由一个谱峰表示了，从而大大降低了质谱的复杂度。但由于在质谱中存在复杂的谱峰重叠情况，即两个或多个不同的碎片离子的单同位素峰以及同位素峰之间互相重叠。当前，最常使用的去同位素法是选择一个基本的模板分子式，如文献4中公开的C₆H₅NO或者如文献6：M.Gentzel，T.Kocher，S.Ponnusamy，and M.Wilm，“Prepreprocessing of tandem mass spectrometricdata to support automatic protein identification”，Proteomics，2003，3，1597-1610中公开的C_4.9384H_7.7583N_1.3577O_1.4773S_0.0417，然后可以计算出质谱中的离子相对于基本模板分子式的倍数，由此通过模板分子式的同位素模式来估计离子的理论同位素模式，从而识别质谱中的同位素峰以及一些简单的同位素重叠情况。这种很粗糙的模板分子式很难准确地度量质谱中出现的复杂的离子同位素模式，以及更复杂的同位素重叠情况，不可避免地误判同位素峰以及丢失一些重要的但存在重叠情况的碎片离子信息。

事实上，噪音和有效峰存在本质差异，离子存在同位素系列而噪音则不然，质量相邻的离子的同位素谱峰重叠也表现出一定同位素比率特征，本发明称之为同位素模式。因此，可以利用这些同位素模式的特征、以及其它辅助特征来对谱峰进行分类，识别噪音和有效峰。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于质谱数据同位素模式的质谱有效峰选取的方法。

为了达到上述目的，本发明采取如下技术方案。

一种基于质谱数据同位素模式的质谱有效峰选取方法，步骤包括：

1)确定质谱的噪音基线；

2)有效峰的特征选取；

3)计算谱峰的由步骤2)中所选择的各个特征对应的取值；

4)从序列已知的质谱中，挑选样本进行学习，确定噪音、离子谱峰等不同类别的谱峰在上述特征上的表现，确定区分各类别谱峰的特征值的阈值，确定分类的规则；

5)根据所学习到的规则对所有的质谱中的谱峰进行处理，挑选出离子的单同位素峰。

在上述技术方案中，所述步骤1)中通过设定强度阈值来确定质谱的噪音基线。

在上述技术方案中，所述步骤1)中确定质谱的噪音基线，包括如下步骤：

a)按照谱峰强度分布性质将质谱谱峰至少分成两类；

b)对上一步骤中的两类谱峰分别计算其分布参数；

c)用谱峰类别的分布参数刻画广义噪音基线。

在上述技术方案中，所述步骤2)中有效峰的特征包括：谱峰的强度与噪音基的距离，碎片离子的质量，实验与理论的同位素模式向量之间的距离，或质谱中谱峰的重叠模式；还可以包括假定谱峰对应的碎片离子的电荷数，可能的同位素峰簇所包含的同位素峰个数，潜在的同位素之间的质量差和理论的同位素之间的质量差的距离等。

在上述技术方案中，所述谱峰的重叠模式包括：两个相同电荷状态且质量相差1u的碎片离子的同位素峰的重叠、两个相同电荷状态且质量相差3u的碎片离子的同位素峰重叠、两个质荷比相差为0.5u但带不同电荷的碎片离子的重叠、两个质量相差为0.5u且带单电荷的碎片离子谱峰的交错。

与现有技术相比，本发明的优点在于：

1)本发明通过定义同位素模式概念并采用准确的公式计算离子的同位素模式的值来判断谱峰是否为有效峰，准确率更高。

2)采用本方法极大地提高鉴定软件的搜索速度以及鉴定的可靠性。

附图说明

图1表示本发明实施例1的谱峰重叠模式1；

图2表示本发明实施例1的谱峰重叠模式2；

图3表示本发明实施例1的谱峰重叠模式3；

图4表示本发明实施例1的谱峰重叠模式4。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

实施例1

本实施例提出基于分类的预处理方法，与现有技术的不同之处包括：首先，与降噪变换方法不同，本实施例采用高斯混合模型(Gaussian Mixture Model，GMM)来识别质谱噪音的基本强度水平，也称为噪音基线。并且，与阈值过滤方法不同，本发明仅将噪音基线作为一个而不是全部的特征来区分噪声和离子谱峰。其次，本实施例用同位素模式向量(Isotope Pattern Vector，IPV)来描述一个碎片离子的同位素系列的特征。此外，本实施例考虑了质谱中存在的复杂的同位素峰重叠的特征。本实施例在上述特征的基础上，确定了噪声、孤立的碎片离子和重叠的碎片离子的区别，建立决策的规则，利用规则对谱峰进行分类并且计算所有潜在的离子的单同位素质量，作为下一步的序列鉴定之用。

下面对本实施例的各步骤进行详细说明。

步骤1，确定噪音基线；

质谱有效峰挑取的目的是尽量把质谱中的离子的单同位素峰挑选出来。如果处理过程中将那些由于强度低而与仪器噪音混淆的重要离子，比如某些b-，a-离子的谱峰过滤掉了，显然会导致错误的鉴定结果。因此，确定噪音基线是重要步骤之一。

本实施例将质谱中的谱峰按照其强度分为三类，一类是高强度的离子谱峰，一类是低强度的噪音，另一类则是高强度的噪音和低强度的离子谱峰的混合体。由于噪声是在CID过程中由质谱随机产生的，噪声的强度服从正态分布，而碎片离子的强度分布也近似服从正态分布，因此建立一个高斯混合模型对质谱中谱峰进行分类，并识别高强度的离子谱峰，低强度的噪音，噪音和低强度的离子谱峰的混合体在强度上的阈值。

具体说，本实施例计算两种基线：全局基线(global baseline)和局部基线(localbaseline)，其数值表示为I_baseline＝(GI_mean，GI_deviatio，LI_mean，LI_deviation)，且I_baseline的各分量的值通过EM(Expectation-Maximization)算法计算得到。I_baseline的分量实际上是混合模型中的两个正态成员的均值和标准差的参数。并且，I_baseline中全局的基线代表高强度离子峰在强度上的下限，局部基线则代表低强度的噪音峰在强度上的上限。在全局和局部基线之间的谱峰则即可能是噪音也可能是离子谱峰。

步骤2、3，有效峰的特征选取和计算；

在介绍本实施例选取的有效峰特征之前，为了便于理解这些特征，先介绍几个定义。

定义同位素模式向量IPV(Isotope Pattern Vector，以下简称IPV)，用来定量描述离子的同位素峰簇(profile)的分布。考虑到实验中通常选择母离子的4～5个同位素进行CID过程，此处IPV主要考察离子的5个同位素的分布。假定一个分子式为C_n1H_n2N_n3O_n4S_n5的碎片离子P，其前四个同位素分别是P₁，P₂，P₃和P₄，即分别带有一个，两个，三个和四个额外中子的四个同位素。假定P的单同位素质量是M，定义P的同位素模式向量IPV＝(M，T₁，T₂，T₃，T₄，Δm₁，Δm₂，Δm₃，Δm₄)，其中T_k是P_k相对于对P的相对丰度比率，Δm_k则是P_k和P质量差，k＝1～4。IPV反映了离子的同位素峰簇中前5个同位素的丰度分布以及质量分布。

进一步定义试验的同位素模式向量(以下简称eIPV)为从质谱中观察到的IPV，eIPV中的M，T_i，Δm_i等值是从实验质谱中获得的；为计算碎片离子P的eIPV值，则需寻找串连质谱中对应的同位素峰簇(p₀，p₁，p₂，p₃，p₄)及其(m/z，intensity)数对(Mz_k I_k)，k＝0～4，m/z表示离子的质荷比，intensity表示离子的强度；并且根据Mz_k之间的间距计算离子电荷数z。在将z＝1归一化后，(Mz_k I_k)数对转换成(M_k，I_k)，这里M_k＝Mz_k*z-(z-1)*1.0078，k＝0～4。需要指出，1.0078是H质子的质量。然后，eIPV可以通过下式得到：

eIPV＝(M₀，R₁，R₂，R₃，R₄，Δm₁，Δm₂，Δm₃，Δm₄)

= (M_{0}, \frac{I_{1}}{I_{0}}, \frac{I_{2}}{I_{0}}, \frac{I_{3}}{I_{0}}, \frac{I_{4}}{I_{0}}, M_{1} - M_{0}, M_{2} - M_{0}, M_{3} - M_{0}, M_{4} - M_{0}) - - - (1)

进一步定义理论的同位素模式向量(以下简称tIPV)为分子式对应的理论IPV，也即其M，T_i，Δm_i则是由给定的分子式计算出来的。碎片离子P的tIPV值tIPV＝(M，T₁，T₂，T₃，T₄，Δm₁，Δm₂，Δm₃，Δm₄)可以通过下面公式得到：

M＝(12.0000，1.0078，14.0030，15.9949，31.9721)×(n₁，n₂，n₃，n₄，n₅)^T，(2)

T₁＝n₁q_C+n₂q_H+n₃q_N+n₄q_O1+n₅q_S1， (3)

T_{2} = n_{4} q_{O 2} + n_{5} q_{S 2} + \frac{1}{2} {T_{1}}^{2} - \frac{1}{2} (n_{1} q_{C}^{2} + n_{2} q_{H}^{2} + n_{3} q_{N}^{2} + n_{4} q_{O 1}^{2} + n_{5} q_{S 1}^{2}), - - - (4)

Δm₁＝(n₁q_CΔC+n₂q_HΔH+n₃q_NΔN+n₄q_O1ΔO₁+n₅q_S1ΔS₁)/T₁ (5)

Δm₂＝{n₄q_O2ΔO₂+n₅q_S2ΔS₂

+n₁(n₁-1)q_C ²ΔC+n₂(n₂-1)q_H ²ΔH+n₃(n₃-1)q_N ²ΔN+ (6)

n₄(n₄-1)q_O1 ²ΔO₁+n₅(n₅-1)q_S1 ²ΔS₁

+n₁n₂q_Cq_H(ΔC+ΔH)+n₁n₃q_Cq_N(ΔC+ΔN)+n₁n₄q_Cq_O1(ΔC+ΔO₁)+

n₁n₅q_Cq_S1(ΔC+ΔS₁)

+n₂n₃q_Hq_N(ΔH+ΔN)+n₂n₄q_Hq_O1(ΔH+ΔO₁)+n₂n₅q_Hq_S1(ΔH+ΔS₁)

+n₃n₄q_Nq_O1(ΔN+ΔO₁)+n₃n₅q_Nq_S1ΔN+ΔS₁)+n₄n₅q_O1q_S1(ΔO₁+ΔS₁)}/T₂

这里q_C，q_H，q_N分别是¹³C相对于¹²C、D相对于H、¹⁵N相对于¹⁴N的相对丰度。q_O1，q_O2(q_S1，q_S2)则是¹⁷O相对于¹⁶O，¹⁸O相对于¹⁶O(³³S相对于³²S，³⁴S相对于³²S)的相对丰度。ΔC，ΔH，ΔN是¹³C和¹²C，D和H，以及¹⁴N和¹⁵N的质量差，而ΔO₁，ΔO₂(ΔS₁，ΔS2)分别是¹⁷O和¹⁶O，¹⁸O和¹⁶O(³³S和³²S，³⁴S和³²S)之间的质量差。

结合谱峰的强度信息以及质谱中包含的同位素信息，选取的特征包括：

特征一、谱峰的强度与噪音基线的距离；谱峰的强度与全局基线距离越小，说明其是噪音的可能性越大，因为全局基线刻画的是仪器物理噪音的分布；谱峰的强度与局部基线距离越大说明离噪音越远，因为局部基线能刻画噪音和有效峰的分界。公式如下，

F_RA1＝A₁*(I_peak-B₁*GI_mean)/GI_deviation (7)

F_RA2＝A₂(I_peak-B₂*LI_mean)/LI_deviation (8)

其中，A₁，B₁，A₂，B₂分别为权重值。这个距离实际上反映了质谱中一个谱峰离噪音基线的中心的距离与噪音整个类别的分布宽度的比率。通常情况下，A₁，B₁，A₂，B₂设置为1。在实际应用中，也可以选择使得在训练集合上分类结果最好的A₁，B₁，A₂，B₂作为权值。

特征二、离子的质量残数：假设质谱中某个潜在的离子的测量质量是M，而从数据库中统计得到的质量为M的所有离子的残数范围是[Res₁，Res₂]，那么质量残数特征值F_Res根据下式计算得到，其值越小，说明这个潜在的离子越符合从真实的数据库中统计出来的规律，因此此潜在离子就越有可能是真正的离子：

F_{Res} = \frac{sign (({Res}_{M} - {Res}_{1}) * ({Res}_{M} - {Res}_{2})) * \min {| {Res}_{M} - {Res}_{1} |, | {Res}_{M} - {Res}_{1} |}}{| {Res}_{2} - {Res}_{1} |} - - - (9)

特征三、试验与理论的同位素模式向量(eIPV和tIPV)之间的距离Fp₁和Fp₂，其值越接近1说明潜在的同位素峰越合理。

F_{P 1} = \frac{sign (R_{1} - T_{1 \min}) * (R_{1} - T_{1 \max}) * \min {| R_{1} - T_{1 \min} |, | R_{1} - T_{1 \max} |}}{T_{1 mean}} - - - (10)

F_{P 2} = \frac{sign (R_{2} - T_{2 \min}) * (R_{2} - T_{2 \max}) * \min {| R_{2} - T_{2 \min} |, | R_{2} - T_{2 \max} |}}{T_{2 mean}} - - - (11)

特征四、质谱中的谱峰重叠模式；本实施例提出质谱中普遍存在的四种重叠模式，作为对质谱中的重叠谱峰的分类依据。本领域技术人员都清楚，谱峰的重叠模式不限于以下四种。根据下面描述的重叠模式，总结其他的重叠模式是本领域技术人员可以胜任的。

如图1所示，谱峰重叠模式1：相同电荷状态的两个离子的同位素峰的重叠，且离子质量差为(1/z)u，其中z为离子的电荷数。这种峰型的特点是(p₀，p₁，P₂，…)对应的eIPV值中的R₁远超过tIPV值中的T₁的取值范围，说明p₁是两个谱峰的重叠。

具体是：p₀：Ion 1的单同位素峰；Ion 1，Ion 2分别表示两个离子；

p₁：Ion 2的单同位素峰，以及Ion 1的第一同位素峰；

p₂：Ion 1的第二同位素峰，以及Ion 2的第一同位素；

p3……：重叠的同位素峰……。

如图2所示，谱峰重叠模式2：两个质量相差3u的离子的同位素峰重叠，特点是至少超过4个谱峰的m/z值符合同位素质量间隔关系，且(p₀，p₁，p₂，p₃，p₄…)对应的eIPV值中的R₁，R₂与tIPV值中的T₁，T₂匹配得很好，但R₃远超过T₃的取值范围。当识别出p₃中包含了一个新的离子的单同位素峰后，对于p₃所对应的离子的电荷状态则可由p₃后续的谱峰m/z值间隔来确定。具体是：

p₀：Ion 1的单同位素峰；

p₁：Ion 1的第一同位素峰；

p₂：Ion 1的第二同位素峰；

p₃：Ion 2的单同位素峰，以及Ion 1的第三同位素。

如图3所示，谱峰重叠模式3：两个质量相差为0.5u且带单电荷的离子谱峰的交错。特点是(p₀，p₁，p₂，…)对应的eIPV中的R₁远小于tIPV中的T₁的取值范围，说明(p₀，p₁，p₂，…)不是一组合理的同位素峰，但(p₀，p₂，p₄)对应的eIPV和其tIPV很匹配，说明(p₀，p₂，p₄)对应一个单电荷的离子。对(p₁，p₂，p₃…)和(p₁，p₃，…)有同样的情况，则说明(p₁，p₃，…)对应一个单电荷离子。具体是：

p₀：Ion 1(charge＝1)单同位素峰；

p₁：噪声；

p₂：Ion 1的第一同位素峰；

p₃：噪声；

p₄：Ion 1的第二同位素峰。

如图4所示，谱峰重叠模式4：噪声和离子谱峰的混合。仅有一个单电荷的离子，其它的谱峰是噪音。特点是(p₀，p₁，p₂，…)对应的eIPV中的R1值远低于tIPV中T1的取值范围，而(p₀，p₂，p₄)对应的eIPV和tIPV很匹配，此外，(p₂，p₃，…)对应的eIPV中的R1值也远低于tIPV中T1的取值范围，说明p₁，p₃是噪声。具体是：

p₀：Ion 1(charge＝1)单同位素峰；charge表示离子所带的电

荷数；

p₁：Ion 2(charge＝1)单同位素峰；

p₂：Ion 1的第一同位素峰；

p₃：Ion 2的第一同位素峰；

p₄：Ion 1的第二同位素峰。

步骤4，首先从序列已知的质谱中，识别各谱峰的身份，包括噪音，孤立的离子谱峰，以及存在重叠的谱峰。然后，分别挑选一些合适样本进行学习，确定不同类别数据(噪音，孤立的离子谱峰，存在重叠的四种不同类型的情况)在上述特征上的表现。

步骤5，采用机器学习的方法，比如决策树分类方法，确定区分各类别数据的特征值的阈值，建立判断个类别的规则；

步骤6，根据步骤5中所学习到的规则，对所有的质谱中的谱峰进行判断，将判断为离子的单同位素峰的谱峰挑选出来。

应用本实施例，在不同的数据集上采用pFind和MASCOT软件测试的结果表明，本预处理方法的性能超越现有的商用软件ProteinLynx^TM Global Server 2.0.5版本的预处理功能。在8个蛋白质数据上的测试结果表明，经本方法处理的数据能鉴定出可靠的多肽的个数比经ProteinLynx^TM Global Server 2.0.5软件处理的数据的鉴定个数平均多50％，最高可多180％。

本方法极大地提高了鉴定软件的搜索速度，比如pFind1.5版的测试结果表明，经过本方法对数据进行预处理后，速度能提高5~10倍，MASCOT 2.0版的测试结果表明，速度能提高2~4倍。

此外，本方法也能大大增加搜索的精度。在Harvard医学院细胞生物系的Steven.P.Gigy提供的大规模的酵母蛋白质组shotgun数据上的测试结果表明，经本方法处理后，能使可靠鉴定出的多肽和蛋白质个数分别提高11.64％和6.56％。

实施例2

在该实施例中，还选取了其它更多的一些特征，这些特征与实施例1中的特征组合在一起。比如，假定谱峰对应的离子的电荷数，可能的同位素峰簇所包含的同位素峰个数，eIVP和tIPV中Δm值之间的距离。这些特征都是判定一个谱峰是否为离子谱峰的重要因素。比如，当离子的电荷数为2或3时，质谱中往往存在多于2个同位素峰，而当电荷数为1时，质谱中往往存在少于3个同位素峰。这是因为，离子质量越大时，其同位素存在的比率越大，或者说相对于单同位素峰而言其同位素丰度越高，被仪器检测到的可能性越大。

在该实施例中，不采用决策树，而采用adaboost分类方法学习出区分各个类别的谱峰的规则。

其他同实施例1。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种基于质谱数据同位素模式的质谱有效峰选取方法，步骤包括：

1)确定质谱的噪音基线；

2)有效峰的特征选取；

3)计算谱峰的由步骤2)中所选择的各个特征对应的取值；

2、根据权利要求1所述基于质谱数据同位素模式的质谱有效峰选取方法，其特征在于，所述步骤1)中通过设定强度阈值来确定质谱的噪音基线。

3、根据权利要求1所述基于质谱数据同位素模式的质谱有效峰选取方法，其特征在于，所述步骤1)中确定质谱的噪音基线，包括如下步骤：

a)按照谱峰强度分布性质将质谱谱峰至少分成两类；

b)对步骤a)中的两类谱峰分别计算其分布参数；

c)用谱峰类别的分布参数刻画广义噪音基线。

4、根据权利要求1、2或3所述基于质谱数据同位素模式的质谱有效峰选取方法，其特征在于，所述步骤2)中有效峰的特征包括：谱峰的强度与噪音基的距离，碎片离子的质量，实验与理论的同位素模式向量之间的距离，或质谱中谱峰的重叠模式；还包括假定谱峰对应的碎片离子的电荷数，可能的同位素峰簇所包含的同位素峰个数，潜在的同位素之间的质量差和理论的同位素之间的质量差的距离等。

5、根据权利要求4所述基于质谱数据同位素模式的质谱有效峰选取方法，其特征在于，所述谱峰的重叠模式包括：两个相同电荷状态且质量相差1u的碎片离子的同位素峰的重叠、两个相同电荷状态且质量相差3u的碎片离子的同位素峰重叠、两个质荷比相差为0.5u但带不同电荷的碎片离子的重叠、两个质量相差为0.5u且带单电荷的碎片离子谱峰的交错。