CN116642989A

CN116642989A - 一种靶向液-质代谢组学数据的自动定量分析方法

Info

Publication number: CN116642989A
Application number: CN202310617207.2A
Authority: CN
Inventors: 曾仲大; 湛一飞; 张宝华
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-25

Abstract

本发明一种靶向液‑质代谢组学数据的自动定量分析方法，本发明在分析并改善UPLC/TQMS色谱峰峰形特征的基础上，将液‑质原始数据转换成为mzXML格式，从中提取单组分或未解析多组分的提取离子色谱(EIC)，对应某一特定或一系列的离子特征。通过寻找色谱峰流出区域变化与二阶导数分布趋势，采用色谱峰模型优化方法进行拟合分析，确定重叠色谱峰去卷积的初始参数。构建逐步去卷积剥离重叠组分的策略，实现自动解析处理。最后以上述获得的模型参数作为整体初始输入，再多组分同时解析建模，进一步优化去卷积的结果。以复杂重叠色谱峰解析结果为基础，替换靶向与拟靶向代谢组学分析中所获得的峰表，提升后续差异代谢物与标志物发现的准确性与可靠性。

Description

一种靶向液-质代谢组学数据的自动定量分析方法

技术领域

本发明属于分析化学领域，涉及一种靶向液-质代谢组学数据的自动定量分析方法。

背景技术

峰识别、峰提取与峰分辨，是基于液-质分析的代谢组学研究的重要步骤^[1]。高复杂度数据中包含数以万计，甚至更多的代谢物离子特征，同时也不可避免地存在相对浓度较低的代谢物，以及不准确甚至错误的组分测量、共流出等情形，极大地增加获得代谢物准确定性与定量信息的能力。然而，不准确的代谢物分析或生物标志物发现结果，又会降低后续分析结果的接受程度，甚至得出错误结论。液-质分析的高分辨率和高灵敏度的特点，使得峰形及其重叠程度等复杂化，也就不容易在代谢组学分析中获得未受污染的色谱和质谱信息。仪器制造商所提供的软件被广泛用于定量分析，但通常耗时、繁琐的分析步骤检查，以及人工修正峰面积等过程，对于处理数百个样本，且每个样本含有数以千计，甚至更多的化合物，确实是一个非常让人头疼的问题。以我们的经验，往往需要花费一个月，甚至更长的时间，以验证代谢组学分析中数百个样本的定量分析结果，及其结果的准确性。

在化学计量学领域，多元曲线分辨率(MCR)在数学上扩展了基于Lambert-Beer定律构建的联用仪器的定性和定量分析能力^[2,3]。到目前为止，大量的算法也已经被提出来了，同时解析并获得纯组分的色谱和光谱分析结果。这些方面整体可以被分为二类，一类是通过色谱演进流出特征，试图发现重叠体系唯一解析结果的方法，如演化因子分析(EFA)，直观推导式演进特征投影(HELP)、子窗口因子分析(SFA)和交替移动窗口因子分析(AMWFA)^[2]。另一类则是通过迭代优化的方式寻找合理的解决方案，包括交替最小二乘(ALS)、迭代目标转换因子分析(ITTFA)、简易交互式自模式混合分析(SIMPLISMA)[3]，等等。前者利用单一组分或者多个组分的特征流出区域，如“选择性区域”和“零浓度区域”，后者则是使用模糊约束，如色谱峰形的非负性和单峰性，等^[4,5]。

通过这些方法所提出的“数学分离”策略^[2]，MCR分析可同时获得复杂组分体系中色谱和光谱轮廓，然而却很难满足UPLC/TQMS数据的分析要求，其主要原因是，这种类型的数据有倾向地偏离的MCR方法的解析条件，即色谱峰的单峰性和同一化合物的质谱唯一性。特别是，测量一些质谱量测峰值可能偏离色谱分离模型，产生错误的峰值量化表征结果。因此，针对UPLC/TQMS数据的特定性质，需要采用一些新的重叠体系的去卷积方法。例如，通过生成C/Br/Cl/S同位素模式和机器学习分类器，有人开发了HRMS同位素轮廓的去卷积策略，以减少假阳性分析结果。为了在不进行色谱分离的情况下量化异构体，有人采用线性方程去卷积分析(LEDA)定义混合矩阵，并采用超定线性方程组对异构体实现去卷积分析。在基于离子迁移率的质谱分析中，利用化学计量去卷积方法，以解决重叠物种的定量分析问题，然后便可以计算包括异构体在内的纯组分离子的精确碰撞截面(CCS)值^[6]。低信噪比的非对称色谱峰的定量分析也存在较大难度，这也可以通过双高斯混合模型和混合处理的估计过程来实现。此外，很多平台被广泛应用于非靶向与靶向代谢组学分析，简化了UPLC/TQMS数据的处理，包括数据预处理和去卷积。这些平台包括MS-DIAL、DecoMetDIA、MZmine2等。但整体来说，这些方法存在自动化程度低，费时、耗力，且受实际数据不同色谱峰形等影响较大，定量分析结果往往并不理想等多个方面的劣势。

发明内容

为了解决上述问题，本发明采用的技术方案是：一种靶向液-质代谢组学数据的自动定量分析方法，包括以下步骤：

S1:首先读取并解析靶向液-质代谢组分析数据，根据靶向液质分析数据的特点，提取目标离子对下的离子流色谱图，并对提取的色谱图进行数据预处理，包括采用自适应迭代重加权惩罚最小二乘方法，以扣除数据背景，进而估计其噪声水平，再进行去卷积定量分析；

S2:根据噪声水平所划分数据段，分别对每段数据采用二阶导数方法，单独识别被解析的色谱峰，基于色谱峰模型估计色谱峰族中各个组分的初始峰参数，相同地，逐步剥离流色谱中所包含的多个组分；

S3:根据上述获得的各组分的初始色谱峰参数，整体输入拟合程序进行一次性的拟合优化与色谱峰去卷积解析，再获得每个色谱峰所对应组分的拟合分析结果，作为最终的解析结果，计算得到相应色谱峰的峰面积积分结果，实现定量分析。

进一步地:所述靶向液-质代谢组学分析数据文件的读取与解析，包括如下步骤：

c.文件读取与解析的各种属性、参数被囊括在控制字典里，实现属性增加、参数增减的便利化与自动化；

d.按照mzML文件的固定格式，解析拆分出数据处理过程需要的保留时间、一级质谱和峰强度信息。

进一步地，还包括：所述色谱峰预处理与多组分剥离分析方法，包括如下步骤：

针对被截取的某一离子对所对应的数据，基于噪声水平划分数据，得到大于噪声水平的若干数据段，对每个数据段进行单独处理；

针对某个数据段大于噪声水平的数据点，设定大于或等于预设的噪声水平的数据点阈值4，则认为该数据段中存在待分析的色谱峰，对于少于阈值数据点数的数据，则认为不能构成色谱峰，不予去卷积解析；

对于待分析的色谱峰区域，从峰顶点左、右两侧分别进行逐点对比，直到找到后一个点的值大于前一个点的值为止；

对上述被找到的点，确保数据点的个数满足色谱峰拟合分析的要求，预设噪声水平的数据点阈值5，对于大于或等于预设数据点阈值5，则进行后续去卷积解析分析，若小于该数据点阈值5，则越过最后一个点，继续进行逐点比对，直到找到后一个点的值大于前一个点为止；

针对上述获得的用于去卷积分析的色谱峰族数据，计算其二阶导数，判断是否存在共流出区域，若存在，则以其数量判断纯色谱流出区域；

根据上述色谱峰流出区域，采用色谱峰拟合方法，即python中lmfit函数所含有的不同方法，逐步剥离计算色谱峰参数；

拟合函数并得到色谱峰的参数结果，计算色谱峰面积，进而实现色谱峰定量分析。

进一步地，所述色谱峰多组分去卷积剥离分析方法还包括：

通过对各个色谱峰的初步拟合分析，获得全部色谱峰的初步分析参数后，再将所述色谱峰初步参数作为一个整体，一次性输入拟合函数，得到对各个色谱峰进行同时拟合分析的结果，提升色谱峰模型的拟合精度。

进一步地：所述色谱峰去卷积剥离分析还包括

比较不同的色谱峰拟合函数，以残差平方和最小作为指标，从中选择色谱峰拟合效果最好的方法，并以其拟合结果计算色谱峰面积，进而实现定量分析；

基于色谱峰多模型优化、组分逐步剥离，以及基于色谱峰初始参数的整体优化方法，获得色谱峰族中各组分的峰面积积分结果，并基于定量分析结果更新峰表，再进行代谢组学分析中后续的差异代谢物发现分析。

根据UPLC/TQMS的数据结构与数据特征，从仪器原始数据出发，首先从液-质分析所得到的数据提取目标量测质谱下的离子色谱(EIC)，在数据加载、转换与提取的基础上，采用自适应迭代重加权惩罚最小二乘(airPLS)方法，去除色谱峰族的数据背景，然后估计噪声水平，提取色谱峰，并采用组分拟合、逐步剥离与整体优化的策略，实现峰值聚类进行去卷积分析，并以此分析结果为基础，提升对高度复杂液质数据的分析能力，可成为代谢组分析中一个重要定量分析解决方案。

本发明所提出的方法，首先读取含有一个或多个仪器量测原始文件的文件夹，文件读取与解析的各种属性、参数被囊括在“控制字典”里，实现属性增加、参数增减的便利化与自动化。按照mzML文件的既定格式，解析拆分出处理需要保留时间(tR)、一级质谱(m/z)和峰强度(intensity)等信息。根据靶向液质分析的数据文件特点，提取目标离子对下的离子流图。

针对被截取的某一离子对所对应的数据(EIC)，基于噪声水平划分数据，得到大于噪声水平的若干数据段，对每个数据段进行单独处理。针对某个数据段大于噪声水平的数据点，设定大于或等于预设的阈值，比如4，则认为该数据段中存在待分析的色谱峰。对于待分析的色谱峰区域，从峰顶点左右两侧分别进行逐点对比，直到找到后一个点的值大于前一个点为止。对上述被找到的点，确保数据点的个数可满足拟合分析的要求，预设阈值比如5，若小于该阈值，则越过最后一个点，继续进行逐点比对，直到找到后一个点的值大于前一个点为止。针对上述获得的数据，计算二阶导数，判断其是否存在共流出区域，若存在，则以其数判断纯色谱流出区域。根据噪声水平所划分数据段，对每段数据采用二级导数方法，单独识别被解析的色谱峰，基于色谱模型估计组分参数，逐步剥离流出色谱组分。

根据上述色谱峰流出区域，采用色谱峰拟合方法，即python中lmfit函数的不同方法，逐步剥离计算色谱峰参数，拟合函数并得到色谱峰的结果，计算色谱峰面积。以上述获得的初始色谱峰参数，进行初始色谱峰的综合拟合优化与峰解析，获得每个色谱峰的拟合分析结果，计算得到相应的峰积分面积结果。即，获得初步的拟合分析结果后，再将所得组分参数作为整体，系统拟合初始数据，得到对他们进行同时拟合分析的结果。比较不同的色谱峰拟合函数，以残差平方和最小为指标，从中选择拟合效果最好的方法和结果。

基于上述逐步剥离、多模型优化与整体优化所得到的色谱峰分析结果，更新峰匹配所得到的峰表，并进行后续的差异代谢物等分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请自动定量分析方法的流程图；

图2为液-质分析色谱峰去卷积分析的流程图；

图3为液-质分析色谱峰去卷积分析的原理图；

图4为典型实际重叠体系的去卷积分析结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合，下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

靶向液-质代谢组学分析中的数据处理，尤其是复杂噪声、背景和伪峰等干扰下的重叠色谱峰自动提取与定量分析，更是提升工作效率和准确性的关键，也是目前商业化仪器自带软件最欠缺的功能之一。在分析并改善UPLC/TQMS色谱峰峰形特征的基础上，将液-质原始数据转换成为mzXML格式，从中提取单组分或未解析多组分的提取离子色谱(EIC)，对应某一特定或一系列的离子特征。通过寻找色谱峰流出区域变化与二阶导数分布趋势，采用色谱峰模型优化方法进行拟合分析，确定重叠色谱峰去卷积的初始参数。构建逐步去卷积剥离重叠组分的策略，实现自动解析处理。最后以上述获得的模型参数作为整体初始输入，再多组分同时解析建模，进一步优化去卷积的结果。以复杂重叠色谱峰解析结果为基础，替换靶向与拟靶向代谢组学分析中所获得的峰表，提升后续差异代谢物与标志物发现的准确性与可靠性。

为实现上述复杂环境下多组分的去卷积分析，本发明采用的技术方案为：从原始数据出发，提升去卷积分析过程的智能化与便利性水平；获取多组分重叠体系数据后，分别进行去噪与扣背景等，提升数据质量；采用色谱峰形分析与二阶导数分析的方法，获取组分流出区域；采用色谱峰模型拟合、逐步剥离分析，以及整体全局优化拟合的方法，获得多组分体系中各个组分的色谱定量分析结果，并用于后续的代谢组学等多领域应用。

一种靶向液-质代谢组学数据的自动定量分析方法，包括以下步骤：

所述步骤S1、S2、S3顺序执行；

a.文件读取与解析的各种属性、参数被囊括在控制字典里，实现属性增加、参数增减的便利化与自动化；

b.按照mzML文件的固定格式，解析拆分出数据处理过程需要的保留时间(tR)、一级质谱(m/z)和峰强度(intensity)等信息。根据靶向液质分析的数据文件特点，提取目标离子对下的离子流图。

进一步地：所述色谱峰预处理与多组分剥离分析方法，包括如下步骤：

针对被截取的某一离子对所对应的数据EIC，基于噪声水平划分数据，得到大于噪声水平的若干数据段，对每个数据段进行单独处理；

进一步地，所述色谱峰多组分去卷积剥离分析方法还包括：

进一步地：所述色谱峰去卷积剥离分析还包括：

以实际的拟靶向代谢组学数据分析为例，介绍本发明所提出的方法，对实际重叠多组分体系的去卷积分析。

具体的实施例数据，是从肝癌拟靶向代谢分析中获得的，示例性介绍去卷积分析的过程。

基于UPLC/TQMS的代谢组学分析中，数据信号处理对于识别和进一步提取每个单一样本中的代谢物特征，具有很高的重要性。针对原始数据中每个EIC数据进行相同步骤的分析处理，汇总结果，并依据拟合后的残差，选取最适合的峰拟合函数。根据不同数据文件中的峰比对，从残差中选取最小值，即为目标离子所对应的最优峰及其面积。

去卷积分析中，逐步提取峰表中的每个质谱特征，得到整个离子在固定尺寸窗口中的EIC，作为去卷积的输入。利用去卷积分析的精确量化结果，代替表中的定量强度，用于后续处理。本项中我们采用拟靶向代谢组学的一个例子来实现该策略，该策略需要对重叠峰和假峰进行去卷积以实现代谢物的精确定量。首先采用XCMS等方法完成峰匹配，获得峰表并将重叠的去卷积结果在峰值表中进行替换。自动和逐步剥离进行多模型去卷积的，如图1所示。m/z移动窗口后的EIC提取及其参数阈值的设置，通过实现了解数据特点后确定，这有助于生成适当的EIC轮廓和保证适应性处理不同色谱轮廓的去卷积分析。分析中需要提取足够数量的EIC数据点，从而确保目标分析物可以被纳入分析之中。

图2为液-质分析色谱峰去卷积分析的流程图；

图3为液-质分析色谱峰去卷积分析的原理图；图3给出了重叠峰的去卷积原理，显示四种不同重叠程度的典型情况。首先，利用airPLS方法去除数据背景，然后通过计算不同强度区域的划分频率来确定色谱图的噪声水平，与色谱峰值信号相比，其应该具有较高的频率。如果连续存在一个预定义数量的数据点，如threshold_numberofpoints，且它们的强度大于噪声水平，则每个峰值簇将被独立地解卷积。然后从峰簇中识别出强度最大的峰最大值，然后沿峰顶点的两侧“扫描”整个峰。采用所有强度低于前一个数据点的数据点进行拟合分析。如果数据点的数量不足以进行模型拟合，即使不满足上述原理，扫描过程也将继续进行。利用黎文堡-马夸特算法，得到待分析数据的二阶导数以估计色谱峰的峰流出区域。接下来，计算分析残差，并重新迭代运算，从EIC轮廓中逐步剥离重叠峰簇，实现去卷积分析，

图4为典型实际重叠体系的去卷积分析结果图，如图4所示。由于UPLC/TQMS峰簇的复杂性和组分的局部剥离特点，仍然可能存在与全局最优解间的偏差。因此，再利用每个EIC剖面中所有去卷积解峰的上述结果参数，进行全局多模型的综合优化，即将每个峰值的参数作为初始输入，对整个原始数据进行全局优化，以有助于找到所有组分的整体最优结果。

如上所述，如果EIC剖面中存在多个簇，峰值簇将独立进行解卷积。该方法在对UPLC/TQMS峰簇进行解卷积方面具有明显的优势，为代谢组学研究提供了有效的定量分析方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

1.J.Zhang,E.Gonzalez,T.Hestilow,W.Haskins,Y.Huang,Review of PeakDetection Algorithms in Liquid-Chromatography-Mass Spectrometry,CurrentGenomics 10(6)(2009)388-401.

2.A.de Juan,R.Tauler,Multivariate Curve Resolution:50years addressingthe mixture analysis problem-Areview,Analytica Chimica Acta 1145(2021)59-78.3.C.Ruckebusch,L.Blanchet,Multivariate curve resolution:Areview ofadvanced and tailored applications and challenges,Analytica Chimica Acta 765(2013)28-36.4.Y.Z.Liang,O.M.Kvalheim,H.R.Keller,D.L.Massart,P.Kiechle,F.Erni,Heuristic evolving latent projections:resolving two-way multicomponentdata.2.Detection and resolution of minor constituents,Analytical Chemistry 64(8)(1992)946-953.

5.O.M.Kvalheim,Y.Z.Liang,Heuristic evolving latent projections:resolving two-way multicomponent data.1.Selectivity,latent-projective graph,datascope,local rank,and unique resolution,Analytical Chemistry 64(8)(1992)

10.1021/ac00032a00019.

6.H.-M.Mayke,L.B.Bruno,M.Fabrice,G.-C.A.M.,D.-P.Gaud,Collision CrossSection(CCS)Database:An Additional Measure to Characterize Steroids,Analytical Chemistry 90(7)(2018)4616-4625.

Claims

1.一种靶向液-质代谢组学数据的自动定量分析方法，其特征在于：包括以下步骤：

2.根据权利要求1所述一种靶向液-质代谢组学数据的自动定量分析方法，其特征在于:所述靶向液-质代谢组学分析数据文件的读取与解析，包括如下步骤：

b.按照mzML文件的固定格式，解析拆分出数据处理过程需要的保留时间、一级质谱和峰强度信息。

3.根据权利要求1所述的一种靶向液-质代谢组学数据的自动定量分析方法其特征在于，还包括：所述色谱峰预处理与多组分剥离分析方法，包括如下步骤：

4.根据权利要求1所述的一种靶向液-质代谢组学数据的自动定量分析方法，其特征在于，所述色谱峰多组分去卷积剥离分析方法还包括：

5.根据权利要求4所述一种靶向液-质代谢组学数据的自动定量分析方法，其特征在于，其特征在于：所述色谱峰去卷积剥离分析还包括