CN111164422A

CN111164422A - 从液相色谱-质谱(lc-ms)数据中快速分析和鉴定脂质

Info

Publication number: CN111164422A
Application number: CN201880063977.4A
Authority: CN
Inventors: 李东烨; 杨富全; 何颖璇; 陈淑雯
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2017-08-07
Filing date: 2018-08-07
Publication date: 2020-05-15
Anticipated expiration: 2038-08-07
Also published as: US20200240964A1; EP3665476A4; SG11202000968TA; WO2019032049A1; US11143637B2; CN111164422B; EP3665476A1

Abstract

本发明总体上涉及一种在使用液相色谱‑质谱(LC‑MS)联用技术进行图谱分析的样品中分析和鉴定多种脂质的方法，包括下述步骤：a)提供基于液相色谱‑质谱(LC‑MS)的质量特征的列表；b)对所述基于LC‑MS的质量特征的列表进行去卷积；c)从去卷积的基于LC‑MS的质量特征的列表中推断子离子；d)从推断的子离子中鉴定一个或多个母离子精确质量；e)基于推断的子离子对所述一个或多个母离子精确质量中的每一个进行评分；f)响应于一个或多个母离子精确质量中的每一个的评分来确定表征性质量特征；以及g)基于多种脂质的表征性质量特征确定上述多种脂质中的每一种。特别地，本发明还涉及鉴定经历源内裂解(in‑source fragmentation)的多种脂质。

Description

从液相色谱-质谱(LC-MS)数据中快速分析和鉴定脂质

相关申请的引用

本申请要求2017年8月7日提交的新加坡申请No.10201706416R的权益，并且通过引用并入本文。

技术领域

本发明总体涉及分析和鉴定多种脂质的方法。特别地，本发明还涉及鉴定经历源内裂解(in-source fragmentation)的多种脂质。

背景技术

由于在分子量、样品制备的简便性以及可调节的色谱柱化学和流动相方面具有广泛的覆盖范围，脂质通常使用液相色谱-质谱(LC-MS)联用技术进行鉴定。从LC-MS实验获得的主要数据是检测到的代表MS电离产物的质量特征的质荷比(m/z)、强度和保留时间(RT)。一旦确定了各种样品中的相同特征，鉴定其潜在代谢物的方法就是首先基于子离子推断(daughter-ion inference)的最佳实践回收母离子质量(parental mass)，同时考虑到同位素之间的关系。然后通过将预测的质量与可获得的数据库匹配来鉴定相关的代谢物，所述数据库包括京都基因和基因组百科全书(Kyoto Encyclopaedia of Genes andGenomes，KEGG)、人类代谢组学数据库(Human MetabolomeDatabase，HMDB)和LIPID MAPS结构数据库。

为了减少假性候选物(false candidate)的数量，通常会汇集子离子的信息，然后通过聚类或图形方法进行集体分析。为了有效地做到这一点，已经引入了一种基于遗传算法的方法。该方法易于同时针对目标途径(pathways-of-interest)和非靶向代谢物优化相关参数。更重要的是，通过减轻用户的定制负担，很可能能够有效地预处理针对特异性目标定制的高度复杂的数据集。

无论采用何种方法，都需要使用独立的证据验证分析以确定脂质身份。通过与数据库或标准品的光谱比较，或通常使用串联质谱(MS²)技术更详尽地阐明结构细节，可以验证分析过程中鉴定出的脂质先导物(leads of the lipids)。在MS²验证期间，基于m/z值从MS的第一阶段选择目标离子，以通过碰撞诱导的解离作用进行裂解。然后在第二个MS阶段分析生成的产物离子，以确认可疑分子的结构。用于验证的相关技术的其他实例包括“信息依赖性采集”(IDA)、“在高和低碰撞能量精确质量的同时采集”(MSE)和“序列窗口采集所有理论片段离子光谱”(SWATH)分析。

然而，基于LC-MS的方法在本质上通常是探索性的，而没有建立用于优先处理好的先导物同时将假性先导物保持在低水平的方法。因此，候选物的进一步选择高度依赖于用户的经验、专业知识和特设知识(ad-hoc knowledge)；因此，工作流程通常会因有效性降低而产生偏差。例如，母离子种类(parent species)的表征性(characteristic)RT可以用作事后分析滤波器(post-hoc filter)以提高其鉴定的置信度。然而，使用标准物严格测量的RT不适用于大量系统特异性代谢物。

尽管统计和机器学习方法可用于推断表征较差(poorly-characterized)的化合物的值，但结果仅与类似的实验条件和分子类别相关，且可靠性有限。此外，长时间使用LC色谱柱后，RT仍然会发生大量的“漂移(drift)”。此外，RT滤波(filtering)不能解决需要主动干预的探索性鉴定的缺点。除非已经完美地表征了目标系统，否则任何分析都将在功效上受到这种框架的约束。

因此，本发明提供了一种分析和鉴定脂质的替代方法，该方法克服或至少改善了上述一个或多个缺点。

发明内容

在一个方面，提供了在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析(profiled)的样品中鉴定多种脂质的方法，包括下述步骤：

a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；

b)对所述基于LC-MS的质量特征的列表进行去卷积；

c)从去卷积的基于LC-MS的质量特征的列表推断子离子；

d)从推断的子离子鉴定一个或多个母离子精确质量；

e)基于推断的子离子对一个或多个母离子精确质量中的每一个进行评分；

f)响应于一个或多个母离子精确质量中的每一个的评分来确定表征性质量特征(characteristic mass feature)；以及

g)基于多种脂质的表征性质量特征确定上述多种脂质中的每一种。

在另一方面，提供了如本文所定义的方法在鉴定经历源内裂解的多种脂质中的用途。

定义

词语“基本上(substantially)”不排除“完全”，例如“基本上不含”Y的组合物可以完全不含Y。必要时，词语“基本上”可以从本发明的定义中省略。

除非另外指明，否则术语“包括(comprising、comprise)”及其语法变体旨在表示“开放式”或“包括性”语言，使得它们包括所列举的要素，但也允许包括另外的未列举的要素。

如本文所用，在制剂组分浓度的上下文中，术语“约(about)”通常为所述值的+/-5％、更通常为所述值的+/-4％、更通常为所述值的+/-3％、更通常为所述值的+/-2％、甚至更通常为所述值的+/-1％、以及甚至更通常为所述值的+/-0.5％。

在整个本公开中，某些实施方案可以以范围格式公开。应当理解，范围形式的描述仅仅是为了方便和简洁，而不应被解释为对所公开范围的范畴的非灵活限制。因此，应当认为范围的描述已经具体公开了所有可能的子范围以及该范围内的各个数值。例如，对诸如1至6的范围的描述应当被认为已经具体公开了诸如1至3、1至4、1至5、2至4、2至6、3至6等的子范围，以及在该范围内的单个数字，例如1、2、3、4、5、6。无论范围的宽度如何，这都适用。

某些实施方案也可以在本文中广泛地和一般性地描述。落入一般公开内容内的每个较窄种类和亚属分组也形成本公开内容的一部分。这包括实施方案的一般性描述，其附带条件或否定限制从该类属中除去任何主题，而不管所删除的材料是否在本文中具体叙述。

具体实施方式

下面的详细描述本质上仅仅是示例性的，并不旨在限制本发明或本发明的应用和用途。此外，不希望受本发明的前述背景技术或以下详细描述中呈现的任何理论的约束。本实施方案的目的是提供一种在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中分析和鉴定多种脂质的方法。根据本实施方案的方法尤其包括以下步骤：a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；b)对基于LC-MS的质量特征的列表进行去卷积；c)从去卷积的基于LC-MS的质量特征的列表推断子离子；d)从推断的子离子鉴定一个或多个母离子精确质量；e)基于推断的子离子对一个或多个母离子精确质量中的每一个进行评分；f)响应于一个或多个母离子精确质量中的每一个的评分来确定表征性质量特征；以及g)基于多种脂质的表征性质量特征确定上述多种脂质中的每一种。

脂质是天然存在的、相对小的疏水分子，其可溶于有机溶剂中。基于独特的“头部(head)”和“主链(backbone)”结构和功能，总共有8个脂质家族。在每个谱系中，根据数量、长度、链内位置和双键数量，单个种类通过其侧链进一步区分。还存在响应于细胞扰动和刺激的其他瞬时修饰，导致氧化、水解、亚硝基化或磷酸化。脂质的确切的全谱(“脂质组(lipidome)”)还随营养物可用性、生物体和细胞类型而变化。因此，根据考虑，它们的预计数量可以是从数千种到数百万种。

脂质跨家族甚至在家族内的结构变异性在使其定制和适应各种生理过程方面发挥了良好的作用，并且许多已经获得了多种高度复杂的功能。它们的主要作用包括用作能量储存、信号传导分子和涉及代谢、存活、增殖、分化、自我更新和免疫的结构成分。然而，为了以系统和全面的方式阐明出现的现象，需要合适的脂质组学(lipidomics)框架以高通量、稳健和准确的方式确定所有组成成分(repertoire)及其相对数量。在这方面，尽管其数量众多，但通过其分类系统所显示的宽泛的结构规则性为其提供了充分的机会进行简明的鉴定。

由于在分子量、样品制备的简便性以及可调节的色谱柱化学和流动相方面具有广泛的覆盖范围，脂质通常使用液相色谱-质谱(LC-MS)技术进行鉴定。从实验获得的主要数据是检测到的代表MS电离产物的质量特征的质荷比(m/z)、强度和保留时间(RT)。在确定各种样品中的相同特征后，鉴定其潜在代谢物的基本方法就是首先基于子离子推断的最佳实践回收母离子质量，同时考虑同位素之间的关系。然后通过将预测的质量与可获得的数据库如KEGG、HMDB和LIPID MAPS匹配来鉴定相关的代谢物。

为了减少大量的假性候选物，通常对子离子信息进行分组，然后通过聚类或图形方法进行集体分析。为了有效地做到这一点，已经引入了一种基于遗传算法的方法。这种方法有助于同时针对目的途径和非靶向代谢物优化相关参数。更重要的是，通过减轻用户的定制负担，能够有效地预处理针对指定目标定制的高度复杂的数据集。

无论采用何种方法，都必须另外利用独立的证据明确地确定脂质身份。可以通过与数据库或标准物的光谱比较，或通过使用串联质谱(MS²)技术更详尽地阐明结构细节来验证脂质的先导物(lead)。在MS²验证期间，基于m/z值从MS的第一阶段选择目标离子(ions-of-interest)，以通过碰撞诱导的解离作用进行裂解。然后在第二个MS阶段分析生成的产物离子，以确认可疑分子的结构。用于验证的相关技术的其他实例包括“信息依赖性采集”(IDA)分析、“在高和低碰撞能量下精确质量的同时采集”(MSE)分析和“序列窗口采集所有理论片段离子光谱”(SWATH)分析。

然而，在鉴定目标分子的方法中存在一些重大警告。典型的基于LC-MS的方法在本质上是探索性的，而没有建立用于优先处理好的先导物同时将假性先导物保持在低水平的方法。因此，候选物的进一步选择必然且高度依赖于用户的经验、专业知识和特设知识；这样，工作流程通常会因有效性降低而产生偏差。在这种情况下，母离子种类的表征性RT被用作事后分析滤波器以提高其鉴定的置信度。然而，使用标准物严格测量的RT根本无法用于大量系统特异性代谢物。

尽管统计和机器学习方法可用于推断表征较差的化合物的值，但结果仅与类似的实验条件和分子类别相关，并且甚至仅具有有限的可靠性。此外，长时间使用LC色谱柱后，RT仍然会发生大量的“漂移”。另外，RT滤波不能解决需要主动干预的探索性鉴定的缺点。除非目标系统已经被完美地表征，否则任何分析都将在功效上受到这种框架的约束。

现在将公开在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的方法的示例性非限制性实施方案。

本公开提供了根据本实施方案在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的方法，其包括下述步骤：

a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；

b)对所述基于LC-MS的质量特征的列表进行去卷积；

c)从去卷积的基于LC-MS的质量特征的列表推断子离子；

d)从推断的子离子鉴定一个或多个母离子精确质量；

f)响应于一个或多个母离子精确质量中的每一个的评分来确定表征性质量特征；以及

有利地，上述方法可以在多种脂质的分析和鉴定中提供高精确度和覆盖范围。

然而有利地，对于本领域已知的方法可能无法利用的每种脂质类别，本文公开的方法可用于鉴定更广谱的独特的子离子。因此，本文所述的方法可有利地用于从主要脂质类别中鉴定非靶向的新种类。

如上定义的方法还可以包括验证推断的子离子和/或多种脂质的步骤。因此，在使用上述液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的方法可以包括下述步骤：

a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；

b)对所述基于LC-MS的质量特征的列表进行去卷积；

c)从去卷积的基于LC-MS的质量特征的列表推断子离子，并且可选地验证所推断的子离子；

d)从推断的子离子鉴定一个或多个母离子精确质量；

g)基于多种脂质的表征性质量特征确定上述多种脂质中的每一种，并且任选地验证上述多种脂质中的每一种。

在一个实施方案中，如本文所定义的方法的步骤b)可以包括对强度质量特征进行去卷积，该强度质量特征包括基于LC-MS的质量特征列表中的高强度质量特征、低强度质量特征或其组合。因此，有利地，通过将这些特征分成组，每个特征均源自相同的脂质种类，本发明的方法可以能够显著减少对多种脂质的假性鉴定。这种假性脂质鉴定可以是假阳性、假阴性或其组合。如本文所用，术语“假阳性(false positive)”是指数据报告中的错误，其中分析结果错误地指示一种或多种脂质的存在(结果为阳性)，而实际上却不存在；而“假阴性”是指这样一种错误，其中分析结果错误地指示样品中不存在一种或多种脂质(结果是阴性)，而实际上它们存在于样品中。

进一步有利地，如上定义的方法的步骤c)可以包括推断常见的子离子、特异性子离子或其组合。常见的子离子和特异性子离子都可以独立地分类为优势子离子(dominantion)和非优势子离子。

当使用正模式采集时，常见的子离子的非限制性实例包括[M+Na]⁺、[M+K]⁺和[M+H]⁺加合物，其中M为代谢物，在此指脂质。当使用负模式采集模式时，[M+CH₃COO]^-、[M-H]^-和[M+FA-H]^-可以是常见的子离子，其中FA是甲酸[HCOOH]。

特异性子离子的非限制性实例包括[M+NH₄]⁺加合物(特定于甘油三酯，缩写为TG)、[M+H]-C₂H₈NO₄P片段(特定于磷脂酰乙醇胺或PE、缩醛磷脂酰乙醇胺或pPE和溶血PE)、[M+H]-(C₂NH₅+H₂O)片段(特定于溶血PE)、[M+H/Na]-C₃H₈NO₆P片段(特定于磷脂酰丝氨酸，缩写为PS)、[RCOO+58]⁺加合物(特定于脂肪酸，缩写为FA)、[M+H-H₂O]⁺加合物(特定于鞘脂、单甘油酯或MG和甘油二酯DG)，其中M是代谢物，在此指脂质。

本文描述的方法可以负责针对每种脂质类别的优选电离模式(即最高强度)的离子注释，以验证可能的母离子预测。因此，为了实施知识驱动的分析，用户可能仅需要源内片段数据库(in-source fragment database)(LipidBlast作为最全面且可自由获得的代理)、附加的特异性加合物数据库(如果且当可用时)以及针对每种脂质类别的优选离子的小列表。后者可归因于“软的”电喷雾电离(ESI)。

为了提供如上述方法的步骤a)中所述的基于LC-MS的质量特征的列表，可以使用合适的LC-MS仪器对包含多种脂质的样品进行LC-MS测量。在将所述样品引入LC-MS仪器之前，样品可以经历本领域已知的制备程序。此外，可以对LC-MS仪器的色谱柱进行预处理和清洗步骤。一旦引入到所述仪器中，可以使用优化的方法以不同的保留时间(RT)洗脱多种脂质。然后使用电喷雾电离(ESI)电离分别洗脱的脂质，其中离子的质荷比(m/z)通过四极飞行时间(Q-TOF)或基于轨道阱的质谱仪(Orbitrap-based Mass Spectrometer)进行测定。

在上述方法[即步骤b)]中对基于LC-MS的质量特征的列表进行去卷积的步骤可包括下述步骤：

b1)定期提供质量控制(QC)样品；

b2)基于QC样品中基于LC-MS的质量特征提供强度漂移模型；以及

b3)使用步骤b2)的模型校正所述基于LC-MS的质量特征列表的强度质量特征。

在一个实施方案中，所述以上QC样品可以从包含等份的多种脂质的所有样品中汇集并混合，或者可以以标准脂质的混合物商购获得QC样品。因此，所述QC样品可被视为所分析样品类型的代表。

在另一个实施方案中，上述步骤b2)中的模型可以通过对QC样品的基于LC-MS的质量特征、特别是强度进行回归程序来获得。可以使用已知和合适的回归程序，包括线性回归、非线性回归、“Local regresssion”(LOESS)或其组合。可以使用导致最低的最小二乘方误差(least-square error)的最佳程序，而最佳LOESS跨度可以基于本领域已知的留一法交叉验证方法(leave-one-out-cross-validation approach)。

在另一个实施方案中，可以通过在步骤b1.2)中从所述模型获得的漂移量来校正基于LC-MS的质量特征列表的强度质量特征，因此该步骤可以说明由于包括色谱上样量(injection volumes)和/或在分批运行期间诸如温度和电路的条件变化的波动引起的变化，这可能会导致多种脂质的分析和鉴定的更高的再现性(reproducibility)。

在一个实施方案中，对基于LC-MS的质量特征列表进行去卷积可以包括重建多种脂质中每一种的单个光谱(individual spectra)。为了重建单个光谱，所述基于LC-MS的质量特征列表的去卷积可以包括下述步骤：基于沿着保留时间(RT)维度的位置和强度图谱，依次对基于LC-MS的质量特征进行聚类。因此，所述基于LC-MS的质量特征可以根据它们沿着保留时间(RT)维度的位置和强度图谱而被汇集或分组，以便重建单个光谱。

不受理论的约束，上述聚类或汇集步骤可以包括使用本领域已知的算法，例如质量阈值聚类算法或其他合适的分组算法。在每个去卷积光谱中的成对特征之间可能需要在约0.65至约0.75范围内的平均相关系数，例如0.65、约0.66、约0.67、约0.68、约0.69、约0.70、约0.71、约0.72、约0.73、约0.74或约0.75。所述相关系数可以指皮尔森相关系数(Pearson’s correlation coefficient)。

在一个实施方案中，为了确保正确的光谱重建，第二例程(routine)可以阐述在所有样品中用于成对质量特征的强度比的低变化。即使样品之间的浓度变化，只要分析条件基本上保持不变，这种比率恒定的要求也可能是有效的。以递减的方式，从具有最高信噪比的基于LC-MS的质量特征开始，如果这种基于LC-MS的质量特征将总变化系数增加至15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％或15％至30％之间的任何值，则可以将其从光谱中移除。所移除的特征可被共同视为新产生的光谱，并且可以以级联的方式对其重复该程序。最后，可以允许所得到的光谱在成员特征中重叠，以便容纳高度相似的脂质。

如本文所定义的方法中的子离子的推断可包括将重建的单个光谱的质荷比(m/z)值与数据库进行匹配以获得候选精确质量的列表的步骤，从该候选精确质量的列表中将提取一个或多个母离子精确质量。所使用的数据库可以包括源内片段数据库、特异性加合物数据库或其组合。因此，将重建的单个光谱的质荷比(m/z)值与上述数据库相匹配的步骤可以包括使用一个或多个数据库的组合。

m/z匹配阈值最大为机器分辨率的两倍(以ppm为单位)。为了清楚起见并且为了说明m/z匹配阈值的目的，如果机器具有5ppm的分辨率，则m/z匹配阈值因此应小于10ppm。如果机器的分辨率为10ppm，则m/z匹配阈值因此应小于20ppm。

上述方法中的推断子离子的步骤还可以包括假定筛选步骤，其中其可包括用产物离子列表迭代地分配每个谱中的单个m/z值以说明一个或多个数据库中不存在的推断的子离子的步骤。给定产物离子的电荷(Z)，由于电离引起的母离子质量的变化(ΔM_A)，以及构成离子的母离子的数量(N)，所得候选精确质量M可以通过下面提供的等式(i)来确定：

(Z×m/z-ΔM_A)/N (i)

这里描述的方法中的一个或多个母离子精确质量的鉴定还包括将候选精确质量列表中的所有候选精确质量分组为一个或多个候选精确质量组的步骤，组中的每个候选精确质量具有在小于组中的相邻候选精确质量的机器分辨率的两倍的平均间距内的精确质量。为了清楚起见，对于分辨率为5ppm的机器，平均间距应当小于10ppm。如果机器的分辨率为10ppm，则平均间距因此应小于20ppm。

这里定义的方法还可以包括基于推断的子离子对一个或多个母离子精确质量中的每一个进行评分，其中它可以包括基于数据库m/z匹配步骤和假定筛选步骤来计算特征评分，如以下部分中所述。

基于数据库m/z匹配的特征得分

由光谱匹配贡献的增量得分(N_M)与具有相同m/z值的精确质量的数据库数量(S_m/z)成反比，并且可以通过下面的公式(ii)来计算。

S_m/z＝6/(N_M+1) (ii)

得分辨别预测的能力可取决于数据库的可用性。

基于假定推断的特征得分

这里，可以根据所推断的产物离子的先验知识(prior knowledge)来分配置信度得分：用常见的产物离子注释的特征可以被给予3分，而2分可以被分配给那些在质谱中另外也观察到的那些特征。对于探索性分析，可以给离子种类分配1分。如果还存在基于假定推断的得分，则可以使用基于m/z匹配的得分。

上述特征得分的计算具有消除基于单个方法确定特征得分的缺点的优势：数据库m/z匹配和假定筛选如下表1所示。

表1.子离子筛选方法的比较。

在使用如上定义的LC-MS联用技术进行图谱分析样品中鉴定多种脂质的方法可以包括基于表征性质量特征确定多种脂质中的每一种的步骤，其包括将独特质量与生物体特异性质量数据库匹配的步骤。所述数据库可以适当地选自可获得的数据库，例如京都基因和基因组百科全书(Kyoto Encyclopaedia of Genes and Genome)(www.genome.jp/ kegg)、人类代谢组学数据库(Human MetabolomeDatabase)(www.hmdb.ca)、LIPID MAPS(http://www.lipidmaps.org/)或LipidsBlast(http://fiehnlab.ucdavis.edu/ projects/LipidBlast)。

在简短列出候选种类(即候选精确质量)之后，通过将构成去卷积光谱的一组值与具有多个具有相同精确质量的脂质的表征性m/z值的数据库进行匹配，可以将母离子脂质鉴定为具有最大m/z匹配的母离子脂质。如果m/z值的差在以ppm为单位的机器分辨率的两倍范围内，则存在匹配。为了清楚起见，对于分辨率为5ppm的机器，如果m/z值的差值小于10ppm，则可以认为m/z值与所述数据库值匹配。如果机器的分辨率为10ppm，则如果m/z值的差小于20ppm，则可以认为m/z值与所述数据库值匹配。

如上所述，本文所定义的方法可包括验证多种脂质中的脂质的步骤，其中该步骤包括确认最强质量特征的离子注释对应于脂质所属的脂质类别的优选产物离子之一，如在以下示出针对单个脂质类别的优势子离子列表的表2中所描述的。

表2.单个脂质类别的优势子离子列表。

缩写：甘油二酯(DG)；脂肪酸(FA)；单甘油酯(MG)；磷脂酰丝氨酸(PS)；磷脂酰乙醇胺(PE)；鞘磷脂(SM)；甘油三酯(TG)；pPE(缩醛磷脂酰乙醇胺)

本文定义的方法还可以包括验证多种脂质中的每一种的步骤，其中该步骤包括选择具有最佳母离子精确质量得分的脂质。在一个实施方案中，在这里描述的方法中，母离子身份的验证还可以包括在具有相同最强特征的母离子中选择具有最佳精确质量得分的母离子的步骤。然后报告母离子在所有样品中的置信度得分、保留时间和子离子强度。

一旦鉴定了母离子种类，验证步骤可能是必要的。验证多种脂质中的每一种的步骤可以包括使用合适的方法，如串联质谱(MS²)技术或与标准和/或内部专业知识比较的原始光谱，来分别鉴定每种脂质。严格的光谱验证可能需要最少四个匹配的已知特征，包括具有最高强度(先导物)的一个特征，以及具有一致的相对强度的三个其他特征。当RT知识可用于验证时，可能必须满足匹配先导物和两个其他特征的类似要求。本文所述方法中相关的电离模式可以是电喷雾电离(ESI)。

如前所述，本文所述的方法可用于鉴定任何生物体中的多种脂质，只要有足够的提取物和生物体特异性数据库。

本文所述的方法可用于鉴定经历源内裂解的脂质。还可以调整LC流动相中的盐分类(salt assortments)和浓度，以针对每个脂质类别产生至少四种独特的质量特征。

基于实现所述方法的软件，本文描述的方法可能不需要用户在代谢组学和/或脂质组学方面具有深厚的专业知识来执行鉴定。因此，有利地，本文所述的方法可以以自动化和高通量的方式进行。

在另一个实施方案中，上述方法可包括推断一个或多个子离子的步骤，其中一个或多个子离子可为优势子离子。

在一个实施方案中，除非另有说明，否则术语“框架(framework)”和“方法(method)”，特别是在“在使用本文定义的液相色谱-质谱联用(LC-MS)技术分析的样品中鉴定多种脂质的方法”中使用术语“方法”时可以互换使用。

因此，本公开还提供了根据本实施方案在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的框架，其包括下述步骤：

a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；

b)对所述基于LC-MS的质量特征的列表进行去卷积；

c)从去卷积的基于LC-MS的质量特征的列表推断子离子；

d)从推断的子离子鉴定一个或多个母离子精确质量；

此外，如上定义的框架还可以包括验证推断的子离子和/或多种脂质的步骤。因此，在使用上述液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的框架可以包括下述步骤：

a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；

b)对所述基于LC-MS的质量特征的列表进行去卷积；

d)从推断的子离子鉴定一个或多个母离子精确质量；

因此，本公开中描述的方法的优势和/或益处也可以适用于上述框架。

现在将公开在使用本文定义的液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的方法的示例性非限制性实施方案。

如上所述，本公开还提供了如上定义的方法在鉴定经历源内裂解的多种脂质中的用途。

与上述类似，本公开还提供了如上定义的框架在鉴定经历源内裂解的多种脂质中的用途。

因此，可以看出，本实施方案提供了鉴定多种脂质的方法，该方法能够提高脂质分析的准确性。当在以下情况之一或其组合中实施时，这种方法可能是有用的：

a)当严格验证的前景受到限制或不能立即获得时。例如，研究人员可能需要快速生成生物学假设，同时等待耗时的验证；

b)当处理大量可能无法进行详尽的确认分析的数据集时；以及

c)当新样品稀少、难以获得、复制或维护时。在这种情况下，只要特征密度足够高，本文所述方法与使用原始光谱检查进行验证的组合就足以构成合理的假设。

因此可以得出结论，本文所述的方法可以代表第一MS阶段的重大发展，该阶段可以与基于质谱和液相色谱技术的其他进步一起使用。

虽然在本发明的前述详细描述中已经给出了示例性实施方案，但是应当理解，存在大量的变型。还应当理解，示例性实施方案仅是示例，并不旨在以任何方式限制本发明的范围、适用性、操作或配置。相反，前面的详细描述将为本领域技术人员提供用于实现本发明的示例性实施方案的方便的路线图，应当理解，在不背离如所附权利要求中阐述的本发明的范围的情况下，可以对示例性实施方案中描述的步骤和操作方法的功能和布置进行各种改变。

附图说明

附图示出了所公开的实施方案，并用于解释所公开的实施方案的原理。然而，应当理解，附图仅仅是为了说明的目的而设计的，而不是作为对本发明的限制的定义。

图1

[图1]是说明本发明所述的基于LC-MS的脂质组学的框架的图。如详细描述中概述的，该框架(即鉴定样品中多种脂质的方法)包括光谱去卷积(步骤1)、混合子离子筛选(步骤2)、母离子鉴定(步骤3)和母离子验证(步骤4)。只有两种先验知识来源用于鉴定：步骤2中用于m/z筛选的LipidBlast文库以及步骤4中使用的优选产物离子的汇编列表(表2)。在步骤2中，从任意的子离子列表假定筛选任何其他引用的经验证的母离子种类。

图2

[图2]是描述MS²实验中碰撞诱导解离的多个方案和图；图2a示出了表征性裂解的位置，其用箭头标注为甘油脂质、甘油磷脂和鞘脂；图2b描述了将所得的用于指纹识别(fingerprinting)脂质的m/z标记(signature)存储在知识库中；描述了PC 18:1/18:4(卵磷脂)的实例。

图3

[图3]是用于评估该方法(框架)的有效性的多个图表。该图基于来自正采集模式和负采集模式中的单独鉴定，特别描述了四种主要脂质家族的总覆盖范围(overallcoverage)。对于GPL，存在一种已鉴定的磷脂酰甘油(PG)、溶血PC和半溶血双膦酸种类。左下图：在每种采集模式下以预定义的置信水平鉴定的种类数量；通过MS²技术或光谱标记验证的具有足够强度的相应数量；最终确认的脂质数量。四个种类(脂肪醇和胆固醇)不在实验范围内。

图4

[图4]是在a.正采集模式和b.负采集模式下从样品的MS²验证图谱(validationprofile)中获得的多个质谱。

图5

[图5]是描述了得分阈值为6(两个卡通峰(cartoon peak))、9(三个卡通峰)和12(4个卡通峰)的真阳性预测的数量和比例的多个图表。

图6

[图6]是基于对同一中国仓鼠卵巢(CHO)数据集的独立探索性研究描述未覆盖脂质图谱(lipid profile)的多个图表。

图7

[图7]是描述在足够高强度的脂质中针对鉴定所需特征的数量的多个直方图。

图8

图8是两种模式(即，正模式和负模式)在100％真阳性率(得分≥12.0)的多个组合直方图。

图9

[图9]是描述检测到的子离子图谱的图表。特别地，它描述了正模式中非特异性子离子实例(non-specific daughter instance)和表征性子离子实例(characteristicdaughter instance)的相对数量。

图10

[图10]是描述检测到的子离子图谱的多个图表；特别地，它们描述了具有最普遍的表征性子离子的单个脂质类别的分数(fraction)(正模式)。

图11

[图11]是描述检测到的子离子图谱(profile)的多个图表；特别地，它们描述了具有前6个检测到的子离子的脂质类别的比例。SM：鞘磷脂；CL：心磷脂；PS：磷脂酰丝氨酸；PC：磷脂酰胆碱；PI：磷脂酰肌醇；PE：磷脂酰乙醇胺；pPE：缩醛磷脂酰乙醇胺；GLS：神经节苷脂；Cer*：神经酰胺和鞘糖脂；TG：甘油三酯；DG：甘油二酯；FA：脂肪酸；PG：磷脂酰甘油。

图12

[图12]是描述根据Fisher精确检验的各种脂质类别中的产物离子代表的p值(概率值或渐近显著性)的图表。

图13

[图13]是描述先导物特征图谱(lead-feature profile)和鉴定有效性之间的关系的多个图表。特别地，它们描述了用正确的优选产物离子或错误的优选产物离子(得分>9.0)注释的特征的验证图谱。

图14

[图14]是描述先导物特征图谱和鉴定有效性之间的关系的多个直方图。特别地，它描述了用于阴性对照的错误的优选产物离子。

图15

[图15]是描述脂质类别的比例的多个图表，其中优选的产物离子也是表征性的。饼形图描述了优选产物离子图谱；未标记的种类分别是[RCOO+58]⁺和[M+H]-C₃H₈NO₆P(-185)。

实施例

通过参考具体实施例将进一步更详细地描述本发明的非限制性实施例和对比例，这些实施例不应被解释为以任何方式限制本发明的范围。

样品收集和制备

样品收集

悬浮适应的中国仓鼠卵巢(CHO)K1细胞在含有50％HyQ PF-CHO(购自美国犹他州洛根市南部海克隆实验室公司(HyClone Laboratories Inc.))和50％CD CHO(购自美国Gibco-Invitrogen)并补充有1g/L碳酸氢钠、6mM L-谷氨酰胺和0.05％Pluronic F-68(购自美国加利福尼亚州卡尔斯巴德市的Invitrogen)的无蛋白质培养基中生长。从CHO K1产生表达抗HER2单克隆抗体的稳定重组SH-87细胞系，并在无蛋白质培养基中培养，所述无蛋白质培养基含有50％HyQ PF-CHO和50％CD CHO，并补充有1g/L碳酸氢钠、8mM L-谷氨酰胺、0.05％Pluronic F-68和600μg/mL遗传霉素(G418，购自美国密苏里州圣路易斯市的Sigma-Aldrich)。所有细胞系在一次性锥形瓶(Erlenmeyer flask)(购自美国马萨诸塞州阿克顿市的康宁生命科学公司(CorningLife Sciences))中于37℃保持在8％CO₂中，每3-4天进行传代培养。在指数生长期收获细胞。

样品提取

在复制品CHO-K1和SH-87培养物的指数中期(第4天)获得1×10⁷个细胞。将细胞在5体积的冰冷的150mM氯化钠(购自美国密苏里州圣路易斯市的Sigma-Aldrich)溶液中淬灭并且在1250g和4℃离心3min。抽吸所得溶液并将400μL冰冷的甲醇(最优级，美国新罕布什尔州汉普顿的Fisher Scientific)加入到细胞沉淀中。

将重悬的细胞-甲醇混合物转移到含有200μL氯仿(购自美国新泽西州凯尼尔沃思Merck)的2mL样品管中。随后，900μL冷甲醇和3.8mM三(羟甲基)甲基甘氨酸(tricine)(购自美国密苏里州圣路易斯市的Sigma-Aldrich)(9：10)混合，然后向样品管中加入500μL氯仿。然后在加入每种溶液后将混合物涡旋30sec至60sec。然后将样品在4℃以18,000g离心20min。

将800μL含水甲醇-三(羟甲基)甲基甘氨酸(tricine)层转移到干净的管中。将另外700μL的冷甲醇和3.8mM三(羟甲基)甲基甘氨酸(tricine)(9：10)混合物添加至氯仿相，然后将其在4℃以18,000g再离心10min。将1mL水层提取并与第一水提取物合并，同时将氯仿层转移至干净的玻璃瓶中。将两种提取物储存在-80℃。将非极性氯仿提取物干燥，并在含有0.1％乙酸(购自美国新泽西州凯尼尔沃思的Merck)和0.1％氨溶液(获自美国乔治亚州道森市的BDH Chemicals)的异丙醇-乙腈-甲醇-水(5：2：2：1)混合物(所有溶剂均获自美国新泽西州新汉普顿的Fisher Scientific)中浓缩2次。

液相色谱(LC)

使用配有反相柱(Kinetex

1.7μm，2.1mm×50mm；购自美国加利福尼亚州托伦斯的Phenomenex)的超高效液相色谱(Acquity；获自美国马萨诸塞州米尔福德的Waters)分离样品。流动相由溶剂“A”和“B”组成；“A”是乙腈(梯度级；购自美国新泽西州凯尼尔沃思的Merck)、甲醇(最优级；获自美国新泽西州新汉普顿的Fisher Scientific)和水的2：2：1混合物，含有0.1％乙酸(ACS,ISO,Reag.ph Eur；获自美国新泽西州凯尼尔沃思的Merck)和0.1％氨(25％Analar NORMAPUR；购自美国宾夕法尼亚州拉德诺的VWRInternational)溶液；“B”是含有0.1％乙酸和0.1％氨溶液的异丙醇。该柱首先在1％B中平衡0.5min。然后在9.5min内将梯度从1％B增加到90％B，然后在90％B洗涤0.3min并进行1.7min再平衡步骤至1％B。在30℃将流速设定为500μL/min。

质谱(MS)

然后将洗脱液导入以全扫描模式操作的质谱仪(XevoG2电喷雾电离[ESI]-四极飞行时间[Q-TOF]，购自美国马萨诸塞州米尔福德的Waters)。对于正模式和负模式，毛细管电压和源电压分别为3kV和40V以及2kV和40V。资源温度和溶解气体温度分别设定为120℃和600℃。亮氨酸-脑啡肽的连续流用作内部锁定质量(internal lock mass)。MS分析仪被设定为“灵敏度”模式，分辨率在半高宽(FWHM)大于10,000全宽，精确度小于10ppm均方根(RMS)误差。

质量特征提取

使用以下“centWave”算法参数：snthresh＝1.5，ppm＝15，前置滤波器＝c(0,0)和峰宽＝c(5,20)从原始数据中提取质量特征。随后，使用m/z匹配算法鉴定不同样品中的相同特征，然后根据它们的RT值进行对齐。总共进行两次连续的m/z匹配和RT对齐。如前所述考虑同位素。

用于鉴定的脂质数据库

基于各种可公开获得的数据库中的质量部分证实了脂质候选物，所述数据库例如：京都基因和基因组百科全书(Kyoto Encyclopaedia of Genes and Genome)(www.genome.jp/kegg)、人类代谢组学数据库(Human MetabolomeDatabase)(www.hmdb.ca)、LIPID MAPS(http://www.lipidmaps.org/)和Lipidsblast(http:// fiehnlab.ucdavis.edu/projects/LipidBlast)。分类标识基于lidpBlast和可访问数据库(对于这些非限制性示例，是可用的内部数据库)中的表征性特征。

预处理参数优化

使用先前描述的遗传算法优化表3中所示的流水线(pipeline)的15个参数，以最大化置信度得分≥9.0的鉴定。简言之，在规定范围内随机选择64个参数值的初始集进行替换以进行独立的预处理，并通过脂质鉴定的数量对每个集合进行评分(置信度得分>9)。保留性能最高的50％(32)参数集(“适应度选择”)并复制，此后，每个线性参数集以50％概率在随机接合点处与另一个进行“染色体互换(chromosomal crossover)”。参数值可以这样交换。接着，对于每个集合，随机选择两个参数，并通过采样它们的规定范围来替换它们的值(“基因突变”)。新一代的参数集再次用于进行用于评分目的的预处理，然后经历相同的一轮“选择”、“重复”、“互换”和“突变”，以产生下一代，等等。当世代最佳评分稳定至少50代时，停止重复程序。

表3.遗传算法优化的CHO细胞系流水线参数案例研究。

1.特征之间的最小m/z间隔

2.用于跨样品匹配相同特征的滑动RT窗口大小(峰值分组)

3.用于跨样品匹配相同特征的滑动M/Z窗口大小(峰值分组)

4.通过K均值(K-means)聚类分离未解析峰组中的RT权重

5.通过K均值聚类分离未解析峰组的m/z权重

6.峰值组内最大容许m/z误差

7.用于全局峰值组的RT校正的“好”峰值组的最大允许m/z误差

8.用于RT校正的比例形式的数据跨度

9.涉及确定RT维度中特征的强度图谱

10.涉及确定RT维度中特征的强度图谱

11.涉及确定RT维度中特征的强度图谱

12.相似光谱合成参数

13.相似光谱合成参数

14.影响特征参与确定精确质量

预处理框架

步骤1：光谱去卷积

步骤1.1基于LOESS的强度校正

在整个分批运行中校正了每个质量特征的强度漂移，以支持后续的基于强度的分析。按照已知的程序，使用“LOcal regresSion”(LOESS)技术，根据运行顺序进行质量控制(QC)样品中强度的非参数回归。通过参数化最小化三次加权最小二乘误差(least-squareerror)来自动拟合线性函数或二次函数，同时使用规定的留一法交叉验证方法来确定最优数据跨度。基于所得到的模型，然后为所有样品内插三次样条曲线。为了清楚起见，这里所有的样品都进行了校正，包括QC样品。随后，在所有样品中校正质量特征的强度，以抵消由样条曲线建模的漂移。

步骤1.2质量阈值特征聚类

为了对单个脂质种类的光谱进行去卷积，重新提出了先前用于特征对齐的质量阈值聚类算法。通过聚类沿RT维度具有相似位置和强度图谱的特征来重建可疑分子的光谱，从而有效地鉴定具有相当的洗脱图谱的子离子产物离子(daughter product-ion)。在评估相似度(similarity)时，平均而言，光谱中成对特征之间的Pearson相关系数为0.7。

步骤1.3强度比的光谱分析

为了正确地重建每个光谱，第二例程确保了在所有样品中成对质量特征的强度比的低变化。即使样品之间的浓度变化，只要分析条件保持基本不变，这种比率恒定的要求也是有效的。以递减的方式，从具有最高信噪比的特征开始，如果这种特征将总变化系数增加至15％以上，则将其从光谱中去除。所移除的特征被共同视为新产生的光谱，并且以级联方式对其重复该程序。最后，允许光谱在成员特征中重叠，以便容纳高度相似的脂质。

步骤2：混合子离子筛选

步骤2.1数据库m/z筛选

对于每个去卷积光谱的每个特征，m/z值与光谱数据库中的值(±10ppm)匹配以获得相应的母离子精确质量列表。

步骤2.2假定筛选

独立于光谱筛选，每个光谱中的每个质量特征也迭代地分配有来自候选列表的产物离子，以说明光谱数据库中不存在的可能的子离子。给定产物离子的电荷(Z)，由于电离引起的母离子质量的变化(ΔM_A)，以及构成离子的母离子的数量(N)，推断的精确质量M由下式给出：(Z×m/z-ΔM_A)/N。

以pPE 34:1光谱为例，如果m/z值＝1,426.065的特征分配了[2M+Na]⁺离子，则可从下式理解电荷Z为+1，而由于包含钠离子而导致的产物质量变化为M_A＝+22.989。由于子离子中有两个母离子分子(N＝2)，因此可以推断母离子质量为：(1×1,426.065-22.989)/2＝701.538g/mol。

步骤2.3精确质量扣除

具有小于10ppm平均间距的分类母离子质量值被认为是冗余的，因此将它们分组在一起并取其平均值。

步骤2.4精确质量评分

从贡献特征得分中加和每个母离子质量的置信度得分，计算如下：

·基于数据库m/z筛选的特征得分

由光谱匹配贡献的增量得分与具有相同m/z值的精确质量的数据库数量成反比：

S_m/z＝6/(N_M+1)。

将保守Fudge值1加到分母，同时引入分子常数6将上限得分换算为3。评分的可靠性取决于生物特异性综合数据库的可用性。

·基于产物离子假定筛选的特征得分

这里，根据光谱数据所基于的产物离子发生率的先验信念(prior belief)来分配置信度得分(ESM表3)：用常见的产物离子注释的特征(例如表2中的特征)可以被给予3分，而2分被分配给在质谱中另外也观察到的其余特征。对于探索性分析，离子种类被分配得分＝1。如果还存在基于假定推断的得分，则使用基于m/z筛选的得分。

步骤3：母离子/种类鉴定

然后将独特的质量进行数据库匹配(±10ppm)以鉴定具有最大数量的表征性m/z匹配(±10ppm)的生物体特异性脂质。

步骤4：母离子验证

步骤4.1优选的产物离子分析

对于每个已鉴定的母离子，根据表2对其最高强度峰的离子注释进行了验证，以对应于其脂质类别的优选产物离子之一。然后滤除不一致的预测。

步骤4.2选择最佳得分的母离子

在具有最高强度的相同特征的有效母离子中，选择具有最高置信度得分的母离子，然后在所有样品中报告它们的得分和子离子图谱(产物离子注释、m/z、RT、强度)。

框架实施

框架在Java中实施，并在R软件环境中称为LOESS包，用于强度校正。流水线和用于优化其参数的遗传算法都部署在64位Windows服务器(2012R2Datacenter)上，该服务器具有四个8核CPU(Intel_Xeon_E5-4650 0@2.7GHz)和768GB的安装内存。

在本部分中提及的术语“框架(framework)”可以与短语“在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的方法”中的术语“方法(method)”互换使用。

脂质类别与产物离子的统计关联

对于每种脂质类别，使用Fisher精确检验在两个水平上对两个分类变量评估产物离子的存在(或不存在)的统计学显著性。使用5％p值截止值，所得q值远低于10％。

基于系统LC-MS的脂质组学预处理框架

图1说明了上述构架(即鉴定多种脂质的方法)的步骤。从原始数据中提取质量特征，并在样品之间进行匹配(请参阅样品收集和制备)后，将这些特征聚类至光谱，从而基于RT维度中的相似位置和形状代表各个潜在的脂质(步骤1)。然后，实施了一个两阶段计划以揭示它们的身份。该策略充分考虑了不同范围的子离子对分子子集的特性，以及每种代谢物类别的优选产物离子。没有这样的考虑，扩展所考虑的子离子种类列表的简单方法反而将极大地增加假性母离子候选物的数量。

使用适当地推断常见的子离子和特异性子离子的混合方法(步骤2)，以提高准确性和母离子扣除的覆盖范围(步骤3)。然后，对于每个脂质类别，使用关于优选产物离子的基本知识来区分真性母离子和假性母离子，以及它们相应的子离子集(步骤4)。

在框架的第一阶段，设计步骤2中的混合方法以稳健地增强对脂质类别之间相关性不同的产物离子的推断(参见表3)。特别是对于常见的子离子，相应地假定它们在每个光谱中的存在，并且因此针对所有组成特征评估它们的可能性。预期最终的精确度是可接受的，具有快速处理和更宽覆盖范围的附加优点。

该方法还允许通过为它们分配低得分来维持鉴定的整体可靠性，从而筛选出表征较差的子离子以减少知识差距。否则，利用假定筛选，产物离子和前体预测的准确性高得不可接受。然后，对于特异性于少数母离子类别的子离子，数据库m/z筛选将更适合于较低错误率。然而，缺点可能是较慢的处理和有限的数据库知识。

根据本发明实施方案可以使用任何文库或文库的组合，以确保在这些非限制性实例中的多样化和广泛的覆盖范围，除了用于m/z筛选的可用的内部文库之外，还使用公开可用的LipidBlast数据库(29个类别中119341个母离子种类)。关于碰撞诱导解离的资源(图2a)被认为对“指纹识别”进行源内裂解的那些母离子种类(图2b)的是可靠的；当可用时，可以使用其他经验数据库。实际上，常见的产物离子和特异性产物离子都有助于形成可疑分子的置信度图谱(confident profile)。为此目的，以母离子置信度得分的形式将信息汇集在一起(图1中的步骤2)，对于该得分，较高的值将反映回收(1)应该存在的常见的子离子以及(2)对母离子脂质高度特异性子离子。

在母离子识别(步骤3)之后，在预处理的第二阶段(步骤4)，使用关于优选电离模式的基本信息来区分相同光谱的备选母离子假设。为了详细说明，某些常见的产物离子如[M+Na]⁺和[M-H]^-，在标准分析条件下主要跨脂质类别形成，因此，它们中的一个通常在每个光谱中占最强(主要)特征。还存在仅与一些脂质类别([M+H-H₂O]⁺)相关或高度特异于类别([M]、[RCOO+58]⁺、[M+NH₄]⁺)的优势子离子种类。

由于ESI被认为是“软的”，母离子裂解通常不是主要的，并且以低(但可检测的)的概率发生。为此，其通常不用于指纹识别脂质，并且仅观察到一种优势种类，每种针对PE([M+H]-141)和PS([M+H/Na]-185)。在表4中汇编的每个脂质类别的优选产物离子的假设下，基于推断的其主要特征的身份来验证步骤3中鉴定的母离子。因此，第二阶段以反馈方式进一步提高了鉴定精确度。此外，所需的优势子离子的存在确保了最强特征可用于随后的比较分析。在这点上，优势子离子通常不与独特的子离子相关联，从而允许使用两种信息来鉴定。框架的技术细节如上所述。

表4.单个脂质类别的优选产物离子。

^a 141和185的质量分别指C2H₈NO₄P和C₃H₈NO₆P头基部分；^b甘油二酯；^c甘油三酯；^d磷脂酰乙醇胺；^e缩醛磷脂酰乙醇胺；^f磷脂酰丝氨酸；^g脂肪酸；^h鞘脂；ⁱ单甘油酯

框架为快速生成生物学假设提供了足够的覆盖范围

应用图谱分析两个CHO细胞系的框架，以便比较重组生产者和非生产者之间的差异。除了对产物离子的光谱知识库搜索之外，还假定地筛选了一些子离子种类，如[M+NH₄]⁺和[M+H]-H₂O，以涵盖目前关于它们的发生率的知识差距。此外，一些不太突出但相关的离子，例如[M+H-C₆H₁₀O₅]⁺种类，以低分值调查以减轻假性预测的风险。

基于等同于两个特征的置信阈值，在相应的正获取模式和负获取模式中标记了总共114和54个最高级种类(图3的左下图)。其中，20种和4种相应的脂质由于它们观察到的低强度(<<1E4a.u.)而不能进行MS²验证。然后基于内部对其色谱图谱和质谱图谱的了解对它们进行检查，得到10种确认的脂质。在94和50个具有足够强度的单独预测中，使用MS²技术或光谱检查相应地确认了91个种类的集合(如图5a和5b所示)。101个图谱的最终计数来自4个主要家族(甘油磷脂[GPL]、甘油脂质[GL]、SPL和FA)的18个亚类，构成迄今为止未披露的工业主力(CHO细胞)的最大所有组成部分之一。考虑到仅使用LC/Q-ToF/MS数据(平均质量分辨率)，该数量与从组合实验方法获得的250个种类相当好地进行了比较。

从由框架产生的图谱，甚至在实验验证之前，可以观察到至少两个与重组生产相关的无误的分子趋势。首先，较高水平的长链PC和PE种类可以允许生产细胞(CHO-K1)中的柔性膜变形用于重组蛋白的囊泡运输，以及脂质筏形成用于所需分子机制的运输和功能。在CL和TG中，长链种类的细胞表达增加更明显，这分别形成线粒体膜和重要的脂肪酸储备。其次，假设生产细胞已经能够通过生产Cer和极长链的Cer的糖基化/半乳糖基化衍生物而发展对细胞周期停滞和细胞凋亡的增强的适应力(resilience)。两种发现也与基于微阵列的相关酶的基因表达一致。因此，可以得出结论，这里描述的框架能够生成有效的假设。

用户的经验和知识使框架准确且无偏倚

接下来，评估框架的精确度图谱(accuracy profile)(即，如上所述的方法)。首先，在具有足够强度以允许MS²验证的脂质中，确认率与两种采集模式的置信度阈值正相关(图5)，表明评分系统适当地加权相关的子离子。其次，在高置信水平(100％)、中置信水平(89％vs.92％)和低置信水平(82％vs.72％)，比例也在很大程度上相当。考虑到这两种模式，对于整个研究通过[77+36]/[94+50]计算得出了78％的真阳性率。第三，基于相同的实验数据集(表5)，将脂质所有组成成分(repertoire)与独立地从基于XCMS的方法(使用相同的数据集)获得的那些脂质所有组成成分进行比较，所述方法总体地假定产品离子，且因此进一步需要用户的专业知识。

表5.针对CHO细胞系的脂质鉴定方法比较的案例研究。

使用基于XCMS的方法，基于数千种可能性的事后评估(参见图6)，总共鉴定了57种脂质，表明精确度远低于10％。因此可以得出结论，本文所述的方法(即框架)似乎在梳理候选脂质方面所需的工作量显著减少([114+54]vs.数千种)，但覆盖范围(101vs.57)和多样性(18vs.11)却更好。

通过检查进一步推测，如果接受57种脂质类似的低覆盖范围，则图5中的真阳性率远远超过90％。还研究了利用该框架进行鉴定所需的特征的数量。值得注意的是，两种模式的中值仅为3，即使不知道分子的表征性RT(参见图7)，而获得100％真阳性最少需要4个特征(图8)。因此，如果种类的水平对于实验确认而言太低，则建议使用4-5个光谱标记匹配进行验证。

增强的子离子推断为准确性和覆盖范围提供了基础

对所鉴定的子离子的种类进行分类，以便探索相对于基于通用产物离子的方法的改进的推断基础。由于其更高的多样性、可检测的源内裂解和更好的覆盖范围，因此以正模式中的离子图谱为例。如所预期的，仅需要三种常见的种类，[M+H]⁺、[M+Na]⁺和[M+K]⁺，以说明检测实例的大部分(图9中的53％)，因此，可以理解，大多数常规分析集中于在测定前体脂质中发现它们。

然而，使用此处介绍的方法，仍无法解释大量离子几乎占检测实例的一半(47％)。它们由加合物如[2M+H]⁺和[2M+Na]⁺种类和片段组成，与普通产物离子相比，它们的发生率更低。尽管有些可能是基于假定筛选(框架的第2步)，但在系统框架下观察到了某些类别的经实验验证的脂质的相关质量，例如神经酰胺(Cer)的己糖衍生物的可能的[M+H-C₆H₁₀O₅]⁺种类(表6)。

表6.在单个类别中检测到的特异性子离子的频率。它们不代表用于母离子鉴定的种类的详尽列表。

因此，利用当前的知识差距，取决于用户的经验及其相关性，可以在软件中不规则地检查这些离子的质量特征，从而导致非实质性的鉴定。

由于无法事先确认它们的前体种类，因此该鉴定也是不可靠的，从而导致了母离子和子离子推断的“鸡和蛋”情况。然而，使用混合方法，系统地测定了8种不常见的加合物(图9)和大量片段(表6)，两者均来自超过一百个产物离子的假定列表和五十万表征性特征(characteristic feature)的确认数据库。子离子一起形成标记(signature)，用于确认其精确质量之上的母离子类别。特别地，片段比例表现为与加合物相比更显著(30％vs.17％)，突出了在基于LC-MS的研究中鉴定它们的重要性。迄今为止，由于通过ESI的裂解是意料之外的且表征较差(poorly characterized)，因此通常不会常规考虑。

考虑到每个母离子种类的注释特征的数量对于准确鉴定至关重要(图5)，该数量显著增加33％，从仅考虑常见的子离子的每个物种的2.14个实例增加到包含特异性加合物的2.84个实例，并且在允许片段后增加到每个种类3.34个实例(高达56％)。考虑到特异性加合物和片段，该数量提高89％，每个种类增加到4.04。就此而论，传统软件的较差精确度可能是由基于普通产物离子的低特征计数所致。

标记子离子对于推断是关键的

对该研究中标记子离子的发生率情况进行了综述。正模式中79％的母离子种类具有至少一个特异性子离子(图10中的饼图)；14种脂质类别中的11种具有超过50％的具有特异性离子的成员。因此，在LC-MS研究中，可以在一定程度上对母离子种类的相当数量的部分进行“指纹识别”。为了进一步举例说明这一点，对前6个最普遍的产物离子(包括常见的产物离子)进行了图谱分析，有助于在两种采集模式中的发现。

正模式中排名最高的种类[M+Na]⁺已被预期是分布广泛的，以所有确认的脂质光谱的88％存在(图11)。然而，[M+H]⁺离子(68％)和[M+K]⁺离子(56％)的较低比例也被认为是“常见的”，表明它们可能区分于(discriminatory of)母离子类别，与预期相反。接着是32％的[M+NH₄]⁺、23％的[M+H]-141和22％的[M+H-]-H₂O种类。

对上述种类在各个类别中的发生率情况进行了调查，发现脂质的独特的能力甚至可以产生最常见的子离子(图11)。例如，可能除了溶血PE之外，所有七类检测到的GPL都能够形成前三种产物离子。另一方面，如Cer和鞘糖脂(统称Cer*)以及神经节苷脂(GLS)所代表的大部分SPL，显著优选[M+H]-H₂O(100％)而不是[M+K]+(0％)种类(Cer*：[M+K]+的p值<0.05；[M+H]-H₂O的p值<0.001，图12)。类似地，GL类别的DG和TG可能不含[M+H]⁺离子(分别针对0％和5％比例，呈现不足(under-presentation)的p值<0.05和0.001)。相反，它们具有形成高度表征性[M+NH₄]+物种的更高的倾向(TG：p值<0.001)。同样，心磷脂(CL)在GPL中显示出产生加合物的独特能力(p值<0.01)。这些信息应该用于开发未来的脂质组学流水线(lipidomics pipeline)。

在负模式中也观察到独特的子离子。尽管[M+CH₃COO]^-、[M-H]^-和[M+HCOO]^-分布最广泛，但它们在所有脂质中以相同顺序仅被检测到64％、58％和33％。然而，Cer*具有100％覆盖的所有三种加合物(各自p值<0.05、0.01和0.001)。另一方面，[M-CH₃]^-种类的存在和[M-H]^-种类的缺乏是磷脂酰胆碱(PC)种类(分别为p值<0.05和<0.001)和鞘磷脂(SM)种类(相应的p值<0.001和<0.01)的标志，归因于胆碱头基，而其他GPL似乎具有相反的性状，表明了大家族的二分。

存在更多具有关于脂质的精细结构信息的电离偏好。一个实例是正模式中SPL的水分子损失(图12)，其涉及在α-1(或α-3)位置的羟基脱水，或在相同α-1位置的裂解(图2a)。类似的脱水也可以发生在pPE、溶血PE、溶血PC、DG和MG的甘油骨架上。以相同的方式，TG和其他GPL的甘油骨架上羟基的缺乏也暗示在这些情况下不存在[M+H]-H₂O物质。

总之，持续地发现标记产物离子(signature product ion)的能力依赖于假定和m/z筛选的实现，以便分别从新颖的发现和广泛的先验知识中实质上受益。这样一来，它就可以从基于专家知识的有限鉴定转变为更加公正和全局的框架。而且，通过不变地回收最强的特征，混合筛选可以允许基于样品强度的样品之间的更稳健的差异比较。

优选产物离子的知识提高了鉴定的准确性

为了证明引入优选产物离子知识的重要性，产生了基于母离子质量匹配的阴性对照候选物，但是具有错误的优选子离子(得分>9.0)，随后验证它们。如所预期的，这47个脂质推测中没有一个可以通过MS²技术证实(三个具有低强度)(图13)。此外，其中，26个已经具有较高评分的备选方案，这些备选方案独立地被确认是正确的，并且具有预期的优势子离子。清楚地证实了对母离子电离的优选模式规定预处理规则的实用性。

为了阐明为什么这些阴性对照为假性的更多物理基础，根据它们错误关联的优选子离子对它们进行分类，并且发现了5种常见的错误注释来源(图14)。特别地，存在16个假性PC、PE和pPE实例，其错误地暗示了GPL中广泛和习惯性的脂肪酰基裂解。但是，常规光谱检查并未将它们视为主要特征。

沿着相同的路线，没有证据表明GLS、CL、Cer和异戊烯醇(prenol)形成[M]⁺前体种类。可以针对其他情况，例如[M-H+Na]⁺和[M+2Na-H]⁺种类进行类似的论证。值得注意的是，有5个假性神经酰胺-磷酸酯(CerP)，所有都由声称的[M+H]⁺(-H₃PO₄)优势子离子建议，但是随后最终确定潜在的母离子为Cer。它还描述了这些可疑的优选子离子中没有单个的经验证的脂质(图15)。相反，与理解优选离子一致的候选物具有明显更大比例的真阳性(图13中65/73vs.0/44)，并且与具有错误先导物特征注释的那些候选物的26个相比，它们中仅有3个具有得分更好的备选假设(图13)。因此，为了产生可靠的预测，必须辨别先导光谱特征(leading spectra feature)的身份。

有趣的是，在优选子离子图谱中存在细微的差异，这可以被进一步利用。在常见的产物离子中，尽管与[M+H]⁺种类总体上相比存在更多的[M+Na]⁺(图11中90％vs.68％)，但存在较低比例的[M+Na]⁺优势子离子(图15的饼形图中17/77vs.[M+H]+30/77)。显然，优势应该是基于LC-MS的标记的一部分。

工业实用性

从包括所提供的实例的先前部分可以看出，本发明公开的方法或框架可以用于分析和鉴定多种脂质，特别是当处理大量的数据集时，因为进行详尽的确证分析是不切实际的。此外，上述方法或框架也可用于严格验证的前景受到限制或不能立即获得的情况，例如，研究人员可能需要在短时间内生成生物学假设，同时等待耗时的验证。在其他情况下，用于验证的附加样品可能不可用、难以复制或维护。

考虑到上述情况，该方法或框架可以潜在地用于在包括健康、医疗、制药和食品工业在内的各种部门中实施。

显然，在阅读了上述公开内容之后，在不脱离本发明的精神和范围的情况下，本发明的各种其他修改和变型对于本领域技术人员来说是显而易见的，并且所有这些修改和变型都落入所附权利要求的范围内。

Claims

1.一种在使用液相色谱-质谱(LC-MS)联用技术进行图谱分析的样品中鉴定多种脂质的方法，包括下述步骤：

a)提供基于液相色谱-质谱(LC-MS)的质量特征的列表；

b)对所述基于LC-MS的质量特征的列表进行去卷积；

c)从所述去卷积的基于LC-MS的质量特征的列表推断子离子；

d)从所述推断的子离子鉴定一个或多个母离子精确质量；

e)基于所述推断的子离子对所述一个或多个母离子精确质量中的每一个进行评分；

f)响应于所述一个或多个母离子精确质量中的每一个的评分来确定表征性质量特征；以及

g)基于所述多种脂质的表征性质量特征确定所述多种脂质中的每一种。

2.根据权利要求1所述的方法，进一步包括验证所述推断的子离子和/或所述多种脂质的步骤。

3.根据权利要求1或2所述的方法，其中步骤b)包括对强度质量特征进行去卷积，所述强度质量特征包括基于LC-MS的质量特征的所述列表中的高强度质量特征、低强度质量特征或其组合。

4.根据权利要求1-3中任一项所述的方法，其中步骤c)包括推断常见的子离子、特异性子离子或其组合。

5.根据权利要求1-4中任一项所述的方法，进一步包括在步骤a)之前制备包含所述多种脂质的所述样品的步骤。

6.根据权利要求3中任一项所述的方法，其中对步骤b)的基于LC-MS的质量特征的所述列表进行去卷积包括下述步骤：

b1)定期提供质量控制(QC)样品；

b2)基于所述QC样品中基于LC-MS的质量特征，提供强度漂移的模型；以及

b3)使用步骤b2)的所述模型校正所述基于LC-MS的质量特征的列表的所述强度质量特征。

7.根据权利要求1-6中任一项所述的方法，其中对所述基于LC-MS的质量特征的列表进行去卷积包括重建所述多种脂质中每一种的单个光谱。

8.根据权利要求7所述的方法，其中重建所述多种脂质中的每一种的单个光谱包括以下步骤：根据沿保留时间(RT)维度的位置和强度图谱对所述基于LC-MS的质量特征进行聚类以重建所述单个光谱。

9.根据权利要求8所述的方法，其中推断所述子离子包括以下步骤：将所述重建的单个光谱的质荷比(m/z)值与数据库相匹配，以获得候选精确质量列表，所述一个或多个母离子精确质量将从所述候选精确质量列表中提取。

10.根据权利要求9所述的方法，其中所述数据库包括源内片段数据库、特异性加合物数据库或其组合。

11.根据权利要求10所述的方法，其中推断所述子离子进一步包括假定筛选步骤。

12.根据权利要求11所述的方法，其中所述假定筛选步骤包括用产物离子列表迭代地分配每个光谱中的单个m/z值以说明所述数据库中不存在的所述推断的子离子。

13.根据权利要求9-12中任一项所述的方法，其中鉴定所述一个或多个母离子精确质量进一步包括以下步骤：将所述候选精确质量列表中的所有候选精确质量分组为一个或多个候选精确质量组，组中每个候选精确质量具有在小于所述组中每个候选精确质量的机器分辨率的两倍的平均间距内的精确质量。

14.根据权利要求11-13中任一项所述的方法，其中基于所述推断的子离子对所述一个或多个母离子精确质量中的每一个进行评分包括基于所述数据库m/z匹配步骤和所述假定筛选步骤来计算特征评分。

15.根据权利要求1-14中任一项所述的方法，其中基于表征性质量特征确定所述多种脂质中的每一种包括将独特质量与生物体特异性质量数据库匹配的步骤。

16.根据权利要求2所述的方法，其中验证所述多种脂质中的脂质包括确认最强质量特征的离子注释对应于所述脂质所属的脂质类别的优选产物离子之一。

17.根据权利要求2所述的方法，其中验证所述多种脂质中的每一种的步骤包括选择具有最佳母离子精确质量得分的脂质的步骤。

18.根据权利要求2所述的方法，其中验证所述多种脂质中的每一种，包括使用合适的方法分别鉴定每一种脂质。

19.根据权利要求18所述的方法，其中所述合适的方法为串联质谱(MS²)技术。

20.根据权利要求1-19中任一项所述的方法，其中所述推断的子离子包括一个或多个优势子离子。

21.根据权利要求1-20中任一项所述的方法在鉴定经历源内裂解的多种脂质中的用途。