CN109425663B

CN109425663B - 一种基于稀疏性假设分解与解析混合质谱的方法

Info

Publication number: CN109425663B
Application number: CN201710732247.6A
Authority: CN
Inventors: 伍毅子; 杨华武; 魏维伟; 孔波; 李燕春; 庹苏行; 钟科军; 陈增萍; 尹双凤
Original assignee: China Tobacco Hunan Industrial Co Ltd
Current assignee: China Tobacco Hunan Industrial Co Ltd
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2021-06-15
Anticipated expiration: 2037-08-24
Also published as: CN109425663A

Abstract

本发明公开了一种基于稀疏性假设分解与解析混合质谱的方法，该方法是在假设混合质谱中包含少数种类纯质谱，并给定若干参考质谱的前提下，先在不同稀疏性条件下对待测混合谱进行稀疏分解，得到若干分解结果，再根据稀疏性条件对各个分解结果进行分类，并依据分类结果生成若干种稀疏性配置，以各个稀疏性配置作为定性或解析结果。该方法不仅可以有效地避免传统非负最小二乘分解算法的过拟合问题，且提供多种稀疏性配置，充分挖掘数据中隐含的信息，有利于相关科研技术人员洞察定性分析结果。

Description

一种基于稀疏性假设分解与解析混合质谱的方法

技术领域

本发明涉及一种气相色谱-质谱联用技术，特别涉及一种色谱共流出峰解析及混合质谱解析技术，属于检测分析技术领域。

背景技术

气相色谱-质谱(GC-MS)联用技术是复杂样品定性定量分析中应用最广泛的技术之一，随着美国国家标准局推出的NIST质谱库容量的不断增大，GC-MS已经成为复杂样品的挥发性和半挥发性小分子有机化合物的首选分析技术。然而，实际的色谱指纹图谱往往难以将色谱峰完全分离开来，色谱共流出峰非常普遍，主要是受限于气相色谱硬件本身分离能力的限制，其次是实验条件的限制。当前技术，如渐进因子分析法，固定尺寸移动窗口因子分析法，局部正交投影方法等(参见《复杂体系仪器分析--白、灰、黑分析体系及其多变量解析方法》，梁逸曾、许青松等著)对部分色谱共流出峰有一定的分离效果，但对色谱峰形有较强依赖，且对完全重叠峰尚无一般性的分离方案，无法满足某些特殊领域的应用需求。基于标准质谱数据库对色谱图中任意保留时间点的混合质谱进行分析是解析色谱共流出峰的一个重要思路。

基于混合质谱进行GC-MS数据解析的一个重要环节是将混合质谱关于若干已知纯质谱进行分解。基于传统的非负最小二乘分解方法容易导致过拟合现象，亦即，为了拟合出最优解，许多实际上并非混合质谱组分的纯质谱也将参与拟合，导致分解系数的平均化，主要成分不突出或被淹没，给最终定性决策带来较强的干扰。另一方面，非负最小二乘等方法一般只能给出一种分解结果，有时单一配置并不能全面地抓取或体现数据背后的本质，且一旦结果失效，无法对可能的其他结果进行关联性推荐，降低了系统的灵活性。

发明内容

针对现有的非负最小二乘分解法对混合质谱分解与解析方法存在的缺陷，本发明的目的是在于提供一种基于稀疏性假设分解与解析混合质谱的方法，该方法可以改善传统分解与解析方法容易导致过拟合现象的缺陷，并提供更灵活的计算结果配置。

为了实现上述目的，本发明提供了一种基于稀疏性假设分解与解析混合质谱的方法，该方法是在假设混合质谱中包含少数种类纯质谱，并给定若干参考质谱的前提下，先在不同稀疏性条件下对待测混合谱进行稀疏分解，得到若干分解结果，再根据稀疏性条件对各个分解结果进行分类，并依据分类结果生成若干种稀疏性配置，以各个稀疏性配置作为定性或解析结果。

优选的方案，所述参考质谱根据以下方法筛除得到：混合质谱先采用最右端质量数符合准则和基峰符合准则进行粗选，剔除不合格纯质谱，再通过加权出峰比率准则、强峰高概率出峰准则和耐挤压性准则进行细选，剔除不合格纯质谱，得到候选质谱列表。

较优选的方案，所述最右端质量数准则为：若在质谱数据库中任意物质的纯质谱中的最右端峰或最右端峰簇中丰度最大峰所对应的质量数在混合质谱中出峰，则相应质谱保留在候选质谱列表中，否则剔除；

较优选的方案，所述基峰准则为：若在质谱数据库中任意物质的纯质谱中的基峰所对应的质量数在混合质谱中出峰，则相应质谱保留在候选质谱列表中，否则剔除。

较优选的方案，所述粗选过程中先用最右端质量数准则剔除不合格纯质谱，再用基峰准则剔除不合格纯质谱。

进一步优选的方案，所述最右端质量数准则在运用过程中预先建立最右端质量数索引结构；所述最右端质量数索引结构用于查询纯质谱最右端质量数，判断所述纯质谱最右端质量数与混合质谱中某一峰对应的质量数是否一致，如果一致则相应的纯质谱列入候选质谱列表中，否则剔除。

进一步优选的方案，所述基峰准则在运行过程中预先建立基峰索引结构；所述基峰索引结构用于查询纯质谱基峰，判断所述纯质谱基峰在混合质谱中是否出峰，且混合质谱中相应峰相对丰度大于阈值T，则所述纯质谱列入候选质谱中，否则剔除；所述阈值T为20％～30％。

较优选的方案，所述加权出峰比率准则为：确定质谱数据库中任意物质的纯质谱碎片在混合质谱中的所有出峰，依据所述出峰在所述物质的纯质谱图中的丰度求和得S1，对所述物质的纯质谱图中的所有碎片出峰的丰度求和得S2，若S1/S2大于或等于阈值，则所述纯质谱列入候选质谱中，否则剔除；所述阈值为0.99±0.005。

较优选的方案，所述强峰高概率出峰准则为：在质谱数据库中任意物质的纯质谱中的相对丰度不小于10％的碎片峰定义为强峰，若所述强峰在混合质谱中的相对丰度与纯质谱图中所述碎片峰的相对丰度之比大于阈值T，则所述纯质谱列入候选质谱中，否则剔除；所述阈值T为20％～30％。

较优选的方案，所述耐挤压性准则为：若混合质谱中每个相对丰度大于5％的碎片峰，在其相应纯质谱中的相对强度与其在混合质谱中相对强度的比值的最大值小于阈值1/T，则所述纯质谱列入候选质谱列表中，否则剔除；所述阈值T为20％～30％。

优选的方案，所述稀疏分解通过求解约束或无约束的非负稀疏分解模型进行实现。

优选的方案，所述非负稀疏分解模型的关于最优分解结果C_*的数学形式为：

或

或以上两种形式的其他等价形式；

其中，

A为各纯质谱向量堆叠而成的矩阵，

λ为稀疏性控制参数，

m为混合质谱向量，

||·||₁为向量的L₁范数，即向量各分量的绝对值之和；

||·||₂为向量的L₂范数，即向量各分量的平方和的平方根。

优选的方案，根据稀疏性条件对各个分解结果进行分类的过程为：利用各组稀疏分解结果，构造关于稀疏性控制参数λ的分段常数函数d(λ)，并根据d(λ)确定分类结果。

较优选的方案，对关于每个稀疏性控制参数λ的分解结果，忽略其微小权重后，重新计算其平均L₁范数值，再将平均L₁范数值作为λ对应的函数值。

本发明中λ为在一定范围内变化的实数。

本发明参考质谱由以下方法得到：

1.粗筛：基于混合质谱中的质谱碎片规律，对质谱数据库中的质谱进行初步筛除，排除不可能存在于混合质谱中的纯质谱；主要包含如下两步：

1)质谱最右端质量数准则：给定质谱数据库(NIST质谱数据库或其他质谱数据库)中任一纯质谱，考察其质谱图中最右端峰所对应的质量数，若待测混合质谱在该质量数处出峰，则初步认为所考察纯质谱可能是待测混合质谱中的某一组分，将其加入初筛列表A；为加速搜索，可以预先基于最右端质量数对质谱数据库建立索引结构，索引结构用于更快速查询纯质谱最右端质量数，判断所述纯质谱最右端质量数与混合质谱中某一峰对应的质量数是否一致；

2)基峰准则：考察列表A中所有纯质谱中相对丰度最大的峰所对应的质量数，若待测混合质谱在对应质量数处出峰且其相对丰度大于某一阈值T(例如T＝30％)，则将该纯质谱保留，将不满足该条件的质谱从列表A中删除；为加速对基峰的搜索，可以预先建立关于基峰的索引结构，对每张纯质谱，标明并存储其基峰位置，由此，对基峰的线性搜索被改进为直接查询；

2.细筛：基于初筛后得到的质谱列表A，进行进一步精细筛除，该筛除步骤涉及到质谱出峰强度和一些概率准则，主要分为如下三个小步骤：

1)加权出峰比率准则：进一步考察列表A中的质谱，计算其加权出峰比率，若该比率大于某一阈值K(例如K＝0.99)，则将所考察质谱保留在列表A中，不满足该条件则将其删除；此处所考察质谱的加权出峰比率为该质谱在待测混合质谱中出峰的所有质量数处的相对丰度总和与全部出峰的相对丰度总和之比；

2)强峰高概率出峰准则，亦即在纯质谱中相对丰度较大的峰在待测混合质谱中也应出峰，且其相对丰度不宜太小；一种实现方法为，对列表A中的每一张质谱，若存在某个质量数处的相对丰度I>10％，但在待测混合质谱中出峰的相对丰度m<IT，则将所考察的质谱从列表A中删除，此处的T与前述T相同；

3)考察纯质谱在待测混合质谱中的耐挤压性；对列表A中的任一质谱，若其在待测混合质谱中出峰的相对丰度m>1％的每个峰均满足m<IT(此处I为纯质谱中相应出峰的相对丰度)则将所考察的质谱从列表A中删除，此处的T与前述T相同。

本发明的混合质谱分解与解析方法主要基于稀疏性假设实现，使用非负稀疏惩罚模型对待测混合质谱关于若干已知纯质谱进行分解，根据分解系数估计混合质谱中所含的纯组分，并采用稀疏性参数分类技术生成各种稀疏程度的计算结果配置作为定性或解析结果，提高系统的灵活性。

本发明的根据稀疏性条件对各个分解结果进行分类具体方法为：设定有效的稀疏性参数空间，在该参数空间内扫描采样得到有代表性的有限个稀疏性参数，针对样本内每一个稀疏性参数计算一次非负稀疏模型，将每次所得结果剔除微小权重后再计算其平均L₁范数，该范数关于稀疏性参数大致为一个分段常数函数，根据该函数可直接对稀疏性参数进行分类，以识别各种稀疏性配置。

本发明所提混合质谱分解方法包括如下具体步骤(参见图1)：

1.设置有效稀疏性参数空间Ω，并对该超参数空间进行采样，得到一系列超参数样本值。

2.对每一个参数样本值λ计算一次非负稀疏惩罚模型，即计算分解系数c_*，其计算方法为：

或

或以上两种形式的其他等价形式；其中A为各纯质谱向量堆叠而成的矩阵，m为混合质谱向量；||·||₁为向量的L₁范数，即向量各分量的绝对值之和；||·||₂为向量的L₂范数，即向量各分量的平方和的平方根；计算出最优的分解系数向量c_*后，剔除其小于一定阈值T的小分量，再计算其平均L₁范数，即计算：

d(λ)＝||c_*||₁/||c_*||₀,

其中，||·||₀为向量的零范数，即向量中非零元的数目；

3.平均L₁范数d(λ)关于参数λ的函数大致为分段常数函数，将每一段常数对应的参数归为一类，每一类对应一种稀疏性组分配置，将最优化残量(||Ac_*-m||₂)最小的分解系数c_*(由步骤2计算得到)作为该组分配置的分解系数估计；

4.输出步骤3计算所得的各种稀疏性组分配置及最优分解系数估计，将相同的组分配置进行合并，其中分解系数的合并依旧遵循残量最小原则。

相对现有技术，本发明的技术方案带来的有益效果：

本发明的混合质谱分解和解析的方法相对于传统算法主要表现出以下几方面的改进。

其一，有效地改善了过拟合问题。非负最小二乘等传统方法导致过拟合的主要原因是分解系数向量的搜索空间过大，一般为整个非负实数向量集合。因此，为了达到数学意义上的最佳拟合，许多不具实际意义的纯质谱可能硬性地参与“拼凑”，造成真实纯质谱的分解系数被平均化，甚至被淹没，对定性带来较大的负面影响。事实上，色谱仪虽然有其局限性，经常导致共流出峰，但总是具有一定分离能力。因此混合质谱分解的稀疏性假设是一个较为合理的假设，采用非负稀疏惩罚模型，相当于缩小分解系数向量的搜索范围，可有效缓解过拟合问题，避免重要组分对应的分解系数被平均化。

其二，提高定性方案的灵活性。本发明所提的稀疏分解结果分类方法，通过对常规L₁范数进行修正，构造了一个关于稀疏性参数的分段常数函数，简明而直观地生成各种稀疏性配置。当数据性质较好时，往往仅产生一种稀疏性配置，较好地锁定定性结果；当数据性质较差时，给出多种可能的稀疏性配置将为科研技术人员提供线索或参考，帮助他们洞察数据规律。

其三，本发明给出若干稀疏性配置方案，相比只给出唯一配置的方案，更符合实际情形。由于实际数据受到各种随机因素的影响，很难通过固定法则给出可适应各种情况的单一结果，一旦该结果不正确，则解算失败。本发明给出的若干稀疏性配置，一方面可以较全面地刻画问题的性质，降低遗漏正确结果的概率；另一方面，由于稀疏性配置的数目并不多，有效地降低问题的不确定性，并有可能发现不易发觉的化学信息，如完全重叠峰、互变异构体等。

附图说明

【图1】为混合质谱分解方法的总体流程示意图。

【图2】为苯甲醇与3-甲基环戊烯醇酮混合物的色谱图(重叠峰局部放大图)。

【图3】经GC-MS仪器分析，炉温快速升温所获得到的色谱图。

具体实施方式

以下实施例旨在进一步说明本发明内容，而不是限制本发明权利要求的保护范围。

本发明以标准质谱数据库为工作基础。为方便阐述本发明的实施效果，以NIST11版本的质谱数据库(含质谱212,961张)为基础来进行阐述。本发明使用Python编程语言实现了所提算法，数据处理(清洗、重塑、合并和转换等操作)使用了Pandas库，数值计算部分选用了Numpy和Scipy数值计算库，非负稀疏模型的求解使用了Scikit-Learn机器学习库和Spams稀疏优化库。

本发明将从理论质谱分解、实验质谱分解两个方面介绍算法的实施效果。针对待测混合质谱，首先对数据库质谱进行筛除，得到一个与待测混合质谱相关的候选质谱集(具体如前述)。此处先给出算法的参数设置。默认情况下，采用约束非负稀疏模型，且设定稀疏分解超参数空间为[0.7,2.8]，均匀采样200个超参数，微小权重截断阈值设置为0.2。实验中，如无特殊说明，均使用以上默认参数设置。

首先考察算法对理论质谱(数据库中的质谱)混合谱分解的正确性。

实施例1

理论质谱分解与解析：

本实施例从数据库中选取苯乙醇(索引：55038,NIST ID:118543)和麦芽酚(索引：98292，NIST ID:233673)的质谱，将其按1:1混合。上述混合质谱利用数据库进行筛除后得到11张候选质谱。经验证，所剩11张质谱中包含苯乙醇和麦芽酚的质谱。利用所得11张质谱，对待测混合质谱使用本发明方法进行分解，剔除微小权重，得到两种稀疏性配置。采用残量最小原则计算各组分的分解系数，分解得到2种配置,具体结果如下表：

表1.苯乙醇与麦芽酚混合质谱分解结果

表中密集度与稀疏度相对(下同)，密集度越小，稀疏度越大，亦即稀疏惩罚越严重。由以上结果可见，配置1的超参数段由于赋予太重的稀疏惩罚，导致麦芽酚组分的遗漏，残量稍大；配置2的超参数段稀疏惩罚程度适中，定性结果与理论结果一致，分解系数比例约为1.32:1，接近理论结果。使用最小二乘算法可以算出类似结果。

实施例2

理论质谱分解与解析：

本实施例从数据库中选取彼此相似度非常高的邻-二甲苯(索引：55556,NIST ID:291483)，间-二甲苯(索引：55552，NIST ID:291455)和对-二甲苯(索引：55553，NIST ID:228010)的质谱，将其按4:3:3混合。上述混合质谱利用数据库进行筛除后剩余4张质谱。经验证，最终所剩4张质谱中包含邻、间、对-二甲苯的质谱。利用最终所剩4种质谱，对待测混合质谱使用本发明所提方法进行分解，忽略微小权重，可得到3种稀疏性配置。具体计算结果如下表所示：

表2.邻、间、对-二甲苯混合质谱的分解结果

由表中结果可知，配置3的残量相比配置1,2有断崖式下降，而密集度三者都在一个数量级，容易判定配置3为正确结果。

以上两实施例说明，本发明所提筛除算法对理论结果的计算符合预期，基本上按不同稀疏配置分层，且一般容易辨识其中的正确配置。事实上，如果已知待测质谱不含噪声，最小二乘分解是最好的分解方法。然而，实际仪器产生的数据往往会夹带随机噪声，仅采用最小二乘法容易导致过拟合，一定程度的正则化(稀疏惩罚)将对计算正确性提供帮助。

本发明通过实施例3、4、5来阐述本发明算法针对实际混合质谱的测试效果。

实施例3

实际质谱分解与解析：

在明确已知为正辛醇(1-Octanol)的色谱峰顶点处获得其质谱，作为本实施例的待测混合质谱。该样品由于受到较强烈的噪声干扰，使用传统方法解析遇到困难。通过筛除步骤后，剩余554张候选质谱。经验证，正辛醇的质谱包含于其中。

首先，利用剩余554张候选质谱，使用非负最小二乘法进行分解，忽略微小权重，只能算出一种配置，结果如下表：

表3.正辛醇质谱分解结果(非负最小二乘法)

利用所剩554张质谱，对待测混合质谱利用本发明所提方法进行分解，共算出7种配置，忽略微小权重，计算结果如下表：

表4.正辛醇质谱分解结果(本发明方法)

由以上两表可知，表3非负最小二乘法虽然算出了残量较小的解，但计算结果中并未包含正辛醇(1-Octanol)，解算失败。使用本发明所提方法，表4所得七种稀疏性配置中有5种包含了正辛醇(1-Octanol)，可为技术人员提供解决问题的线索。

实施例4

实际质谱分解与解析：

苯甲醇(索引：44807,NIST ID:151560)和3-甲基环戊烯醇酮(索引：80534，NISTID:1673)是烟草中常用的香料成分。本实施例将这两种物质的纯样品进行混合，利用CG-MS仪器分析处理得其色谱图。仪器条件为：HP-5MS色谱柱(60m*0.25mm*0.25μm)，炉温(60℃保持2min，然后6℃/min升温到180℃，保持2min，再8℃/min升温到280℃保持20min；进样口温度：250℃)，分流比：20:1，离子源温度为230℃，四级杆温度150℃，进样量1ul。

将获得的色谱图放大，聚焦于图2所示的保留时间为13.71min附近的色谱峰。取该色谱峰的顶点(13.71min)处的质谱数据，对该混合质谱进行筛除，筛除后剩余13张候选质谱。经验证，最终所剩13张质谱中包含苯甲醇和3-甲基环戊烯醇酮的质谱。利用所剩13张质谱，对待测混合质谱利用本发明所提方法进行分解，忽略微小权重，解析得到四种稀疏性配置。如下表所示：

表5.苯甲醇与3-甲基环戊烯醇酮的分解结果

表中配置1、2残量偏大，配置3、4密集度与残量均相当。问题在于表中出现的索引为80459的化合物。经查阅资料，该化合物为3-甲基环戊二酮，与3-甲基环戊烯醇酮为互变异构体，所以配置3、4均为可信结果。配置3还意外地找到了3-甲基环戊烯醇酮的异构体。

观察图2可知，该色谱峰的共流出现象非常严重，苯甲醇与3-甲基环戊烯醇酮几乎完全重叠出峰。传统方法(安捷伦工作站)只可解出响应较高的苯甲醇，相当于解出了表3中的配置1。使用非负最小二乘法可解出配置4。本实施例则通过考察残量，判断配置1、2的不合理性，从而进一步找到了更符合真实情况的配置3和配置4。可见，本实施例通过混合质谱筛除与分解的办法成功解决了一个完全重叠峰问题，相比传统商业软件与算法，还可能挖掘更具化学意义的组合，如互变异构体。

实施例5

实际质谱分解与解析：

本实施例将香精香料中常见的38种化合物配置为混合物，经GC-MS仪器分析，通过调节炉温快速升温(仪器分析时间由常规的66分钟减少为13.5分钟),使得色谱峰形更拥挤，提高色谱峰重叠程度，获得的色谱图见图3。然后使用本发明算法对色谱图中的每一个目标色谱峰对应的混合质谱进行质谱筛除和分解。经验证，本实施例筛除阶段没有出现遗漏真实质谱的情况，38种化合物全部出现在候选质谱中；再采用本发明混合质谱分解方法，38种化合物中，仅有一种化合物未能正确检出，有1种化合物分解为其异构体，异构体质谱与原化合物质谱高度相似，并成功检测出3组重叠出峰的化合物。而使用安捷伦工作站对图3进行分析时，由于色谱共流出现象严重，有6种化合物通过手工检索和工作站自动检索均未能正确检出。

上述实施例充分说明，本发明的混合质谱分解方法可有效地进行质谱定性，并可对色谱重叠峰(包括完全重叠峰)分离问题提供可行方案。

Claims

1.一种基于稀疏性假设分解与解析混合质谱的方法，其特征在于：在假设混合质谱中包含少数种类纯质谱，并给定若干参考质谱的前提下，先在不同稀疏性条件下对待测混合谱进行稀疏分解，得到若干分解结果，再根据稀疏性条件对各个分解结果进行分类，并依据分类结果生成若干种稀疏性配置，以各个稀疏性配置作为定性或解析结果；

所述参考质谱根据以下方法筛除得到：混合质谱先采用最右端质量数符合准则和基峰符合准则进行粗选，剔除不合格纯质谱，再通过加权出峰比率准则、强峰高概率出峰准则和耐挤压性准则进行细选，剔除不合格纯质谱，得到候选质谱列表；所述最右端质量数准则为：若在质谱数据库中任意物质的纯质谱中的最右端峰或最右端峰簇中丰度最大峰所对应的质量数在混合质谱中出峰，则相应质谱保留在候选质谱列表中，否则剔除；

所述基峰符合准则为：若在质谱数据库中任意物质的纯质谱中的基峰所对应的质量数在混合质谱中出峰，则相应质谱保留在候选质谱列表中，否则剔除；

所述加权出峰比率准则为：确定质谱数据库中任意物质的纯质谱碎片在混合质谱中的所有出峰，依据所述出峰在所述物质的纯质谱图中的丰度求和得S1，对所述物质的纯质谱图中的所有碎片出峰的丰度求和得S2，若S1/S2大于或等于阈值，则所述纯质谱列入候选质谱中，否则剔除；所述阈值为0.99±0.005；

所述强峰高概率出峰准则为：在质谱数据库中任意物质的纯质谱中的相对丰度不小于10％的碎片峰定义为强峰，若所述强峰在混合质谱中的相对丰度与纯质谱图中所述碎片峰的相对丰度之比大于阈值T，则所述纯质谱列入候选质谱中，否则剔除；所述阈值T为20％～30％；

所述耐挤压性准则为：若混合质谱中每个相对丰度大于5％的碎片峰，在其相应纯质谱中的相对强度与其在混合质谱中相对强度的比值的最大值小于阈值1/T，则所述纯质谱列入候选质谱列表中，否则剔除；所述阈值T为20％～30％。

2.根据权利要求1所述的基于稀疏性假设分解与解析混合质谱的方法，其特征在于：所述粗选过程中先用最右端质量数准则剔除不合格纯质谱，再用基峰准则剔除不合格纯质谱。

3.根据权利要求2所述的基于稀疏性假设分解与解析混合质谱的方法，其特征在于：所述最右端质量数准则在运用过程中预先建立最右端质量数索引结构；所述最右端质量数索引结构用于查询纯质谱最右端质量数，判断所述纯质谱最右端质量数与混合质谱中某一峰对应的质量数是否一致，如果一致则相应的纯质谱列入候选质谱列表中，否则剔除。

4.根据权利要求2所述的基于稀疏性假设分解与解析混合质谱的方法，其特征在于：

所述基峰准则在运行过程中预先建立基峰索引结构；所述基峰索引结构用于查询纯质谱基峰，判断所述纯质谱基峰在混合质谱中是否出峰，且混合质谱中相应峰相对丰度大于阈值T，则所述纯质谱列入候选质谱中，否则剔除；所述阈值T为20％～30％。

5.根据权利要求 1～4任一项所述基于稀疏性假设分解与解析混合质谱的方法，其特征在于：所述稀疏分解通过求解约束或无约束的非负稀疏分解模型进行实现。

6.根据权利要求 5所述基于稀疏性假设分解与解析混合质谱的方法，其特征在于：所述非负稀疏分解模型的关于最优分解结果C*的数学形式为：

或

或以上两种形式的其他等价形式；

其中，

A为各纯质谱向量堆叠而成的矩阵；

λ为稀疏性控制参数；

m为混合质谱向量；

||·||₁为向量的L₁范数，即向量各分量的绝对值之和；

||·||₂为向量的L₂范数，即向量各分量的平方和的平方根。

7.根据权利要求 1～4、6任一项所述基于稀疏性假设分解与解析混合质谱的方法，其特征在于：根据稀疏性条件对各个分解结果进行分类的过程为：利用各组稀疏分解结果，构造关于稀疏性控制参数λ的分段常数函数d(λ)，并根据d(λ)确定分类结果。

8.根据权利要求7所述基于稀疏性假设分解与解析混合质谱的方法，其特征在于：对关于每个稀疏性控制参数λ的分解结果，忽略其微小权重后，重新计算其平均L₁范数值，再将所述范数值作为λ对应的函数值。