CN114295766A

CN114295766A - 基于稳定同位素标记的代谢组学数据的处理方法和装置

Info

Publication number: CN114295766A
Application number: CN202111597528.8A
Authority: CN
Inventors: 朱正江; 王若鸿; 尹岩东
Original assignee: Shanghai Institute of Organic Chemistry of CAS
Current assignee: Shanghai Institute of Organic Chemistry of CAS
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08
Anticipated expiration: 2041-12-24
Also published as: CN114295766B

Abstract

本申请公开了一种基于稳定同位素标记的代谢组学数据的处理方法和装置。该方法可以具体通过获取非标记样本中第一注释代谢物的同位素信息；基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰；通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰；分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值；通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果。由此，能够准确获取每个代谢物被标记的情况，以实现对生物体内代谢组进行全面的动态代谢分析。

Description

基于稳定同位素标记的代谢组学数据的处理方法和装置

技术领域

本申请涉及数据数据处理技术领域，尤其涉及一种基于稳定同位素标记的代谢组学数据的处理方法和装置。

背景技术

相关技术中，处理稳定同位素标记的代谢组学数据的方式主要包括靶向提取和非靶向遍历寻找。前者的靶向提取策略通常针对特定的代谢物，覆盖范围比较小、且提取效率较低。后者非靶向遍历寻找的方式，虽然能找到所有在非标记样本和标记样本中发生显著性变化的质谱峰，再根据理论质量数去推断单同位素峰，但是这样通常会带来较高的假阳性率，即标记峰的发现和其对应的单同位素峰的判断往往是不准确的，导致无法准确获取每个代谢物被标记的情况，影响对生物样本的代谢组全面的标记情况分析。

发明内容

为解决上述问题，本申请提供一种基于稳定同位素标记的代谢组学数据的处理方法和装置，能够准确获取生物样本中每个代谢物被标记的情况，以实现对生物样本的代谢组进行全面的标记情况追踪。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种基于稳定同位素标记的代谢组学数据的处理方法，该方法可以包括：

获取非标记样本中第一注释代谢物的同位素信息，同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰；

通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰；

分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值；

通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果，同位素标记结果包括待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。

在一种可能的实施例中，上述涉及的“获取非标记样本中第一注释代谢物的同位素信息”的步骤中，具体可以包括：

通过预设注释算法，注释非标记样本中的代谢物，得到第一注释代谢物；

根据第一注释代谢物的分子式，获取与第一注释代谢物对应的至少两个预估同位素峰；

计算至少两个预估同位素峰中每个预估同位素峰对应的质量数。

在另一种可能的实施例中，上述涉及的“获取非标记样本中第一注释代谢物的同位素信息”的步骤中，具体可以包括：

在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下，根据至少两个非标记样本中每组非标记样本的第一注释代谢物的质谱图，获取至少两个质谱图中的目标质谱图，目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高；

确定目标质谱图的峰形为质谱图的标准峰形。

在又一种可能的实施例中，上述涉及的“基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰”的步骤中，具体可以包括：

获取待分析样本；在待分析样本中筛选与同位素信息中每个预估同位素峰对应的同位素峰；

按照预设划分条件，在同位素峰中筛选初始参考同位素峰；

对初始参考同位素峰的提取离子流色谱进行峰检测，得到目标参考同位素峰形；

计算目标参考同位素峰形和质谱图的标准峰形的皮尔森相关系数，并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数；

将与目标皮尔森相关系数对应预估同位素峰进行聚类，得到至少一个聚类组；

分别计算至少一个聚类组中每个聚类组的色谱保留时间的时间平均值；

根据每个聚类组的色谱保留时间的时间平均值，分别计算每个聚类组内多个时间平均值与色谱保留时间的差值；

根据多个时间平均值与色谱保留时间的差值，确定目标聚类组，目标聚类组的时间平均值与色谱保留时间的差值满足预设差值；

在目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。

基于此，上述涉及的“按照预设划分条件，在同位素峰中筛选初始参考同位素峰”的步骤中，具体可以包括：

在预设划分条件包括预设质量数差值和预设色谱保留时间差值的情况下，获取第一注释代谢物的预估同位素的理论质量数、获取第一注释代谢物的理论色谱保留时间、以及获取与质谱图的标准峰形对应的峰顶点值和基线的均值；

计算理论质量数与待分析样本的同位素峰对应的质量数的第一差值、计算理论色谱保留时间与待分析样本中第二注释代谢物的色谱保留时间的第二差值、以及，计算峰顶点值和基线的均值的比值，得到理论信噪比；

将待分析样本的同位素峰中第一差值大于预设质量数差值、第二差值大于预设色谱保留时间差值且信噪比大于理论信噪比的预估同位素峰确定为初始参考同位素峰，信噪比由待分析样本的同位素峰的峰顶点值和基线的均值的比值确定。

在再一种可能的实施例中，上述涉及的“分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值”的步骤中，具体可以包括：

根据参考同位素峰中预设数量的扫描点的峰强度，计算参考同位素峰的第一同位素峰丰度值；

以及，根据目标同位素峰中预设数量的扫描点的峰强度，计算目标同位素峰的第二同位素峰丰度值。

在再一种可能的实施例中，上述涉及的“通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果”的步骤中，具体可以包括：

根据天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到初始校正结果；

在初始校正结果表征待分析样本中非标记样本中任一同位素峰的被标记比例值大于预设比例阈值的情况下，通过污染校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果。

基于此，上述涉及的“通过污染校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果”的步骤中，具体可以包括：

获取与非标记样本对应的标记样本，并确定标记样本的同位素峰；从标记样本的同位素峰中，扣除非标记样本中被标记同位素峰，得到未被污染的同位素峰；

根据未被污染的同位素峰的分布数据和同位素峰丰度值，生成待分析样本的同位素标记结果。

第二方面，本申请实施例提供了一种基于第一方面所示的代谢流分析方法，该方法可以包括：

获取生物样本，生物样本包括待分析样本和非标记样本；

对生物样本进行时间序列标记，得到多个时间窗的待分析样本；

基于第一方面中代谢组学的数据处理方法的步骤，对多个时间窗中每个时间窗的待分析样本进行处理，得到每个时间窗的待分析样本的同位素标记结果；

根据每个时间窗的待分析样本的同位素标记结果，计算待分析样本中每个第一注释代谢物在每个时间窗的标记程度，得到每个时间点的标记信息；

根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率；

其中，基于代谢组学的数据处理方法的步骤包括：

在一种可能的实施例中，上述涉及的“根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率”的步骤中，具体可以包括：

通过一阶速率方程对每个时间窗的标记信息进行拟合，得到一阶速率常数；

确定一阶速率常数为每个第一注释代谢物的代谢速率。

第三方面，本申请实施例提供了一种基于代谢组学的数据处理装置，该装置可以包括：

获取模块，用于获取非标记样本中第一注释代谢物的同位素信息，同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

确定模块，用于基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰；

调整模块，用于通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰；

计算模块，用于分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值；

校正模块，用于通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果，同位素标记结果包括待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。

在一种可能的实施例中，上述涉及的“数据处理装置”还可以包括注释模块；其中，

注释模块，用于通过预设注释算法，注释非标记样本中的代谢物，得到第一注释代谢物；

获取模块还可以用于，根据第一注释代谢物的分子式，获取与第一注释代谢物对应的至少两个预估同位素峰；

计算模块还可以用于，计算至少两个预估同位素峰中每个预估同位素峰对应的质量数。

在另一种可能的实施例中，上述涉及的“获取模块”还可以用于，在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下，根据至少两个非标记样本中每组非标记样本的第一注释代谢物的质谱图，获取至少两个质谱图中的目标质谱图，目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高；

确定模块还可以用于，确定目标质谱图的峰形为质谱图的标准峰形。

在又一种可能的实施例中，上述涉及的“数据处理装置”还可以包括筛选模块、检测模块和聚类模块；其中，

获取模块还可以用于，获取待分析样本；

筛选模块，用于在待分析样本中，筛选与同位素信息中每个预估同位素峰对应的同位素峰；

筛选模块还用于，按照预设划分条件，在同位素峰中筛选初始参考同位素峰；

检测模块，用于对初始参考同位素峰的提取离子流色谱进行峰检测，得到目标参考同位素峰形；

计算模块还用于，计算目标参考同位素峰形和质谱图的标准峰形的皮尔森相关系数，并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数；

聚类模块，用于将与目标皮尔森相关系数对应预估同位素峰进行聚类，得到至少一个聚类组；

计算模块还用于，分别计算至少一个聚类组中每个聚类组的色谱保留时间的时间平均值；

计算模块还用于，根据每个聚类组的色谱保留时间的时间平均值，分别计算每个聚类组内多个时间平均值与色谱保留时间的差值；

确定模块还用于，根据多个时间平均值与色谱保留时间的差值，确定目标聚类组，目标聚类组的时间平均值与色谱保留时间的差值满足预设差值；

确定模块还用于，在目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。

基于此，上述涉及的“获取模块”还可以用于，在预设划分条件包括预设质量数差值和预设色谱保留时间差值的情况下，获取第一注释代谢物的预估同位素的理论质量数、获取第一注释代谢物的理论色谱保留时间、以及获取与质谱图的标准峰形对应的峰顶点值和基线的均值；

计算模块还用于，计算理论质量数与待分析样本的同位素峰对应的质量数的第一差值、计算理论色谱保留时间与待分析样本中第二注释代谢物的色谱保留时间的第二差值、以及计算峰顶点值和基线的均值的比值，得到理论信噪比；

确定模块还用于，将待分析样本的同位素峰中第一差值大于预设质量数差值、第二差值大于预设色谱保留时间差值且信噪比大于理论信噪比的预估同位素峰确定为初始参考同位素峰，信噪比由待分析样本的同位素峰的峰顶点值和基线的均值的比值确定。

在再一种可能的实施例中，上述涉及的“计算模块”具体可以用于，根据参考同位素峰中预设数量的扫描点的峰强度，计算参考同位素峰的第一同位素峰丰度值；

在再一种可能的实施例中，上述涉及的“校正模块”具体可以用于，根据天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到初始校正结果；

校正模块还用于，在初始校正结果表征待分析样本中非标记样本中任一同位素峰的被标记比例值大于预设比例阈值的情况下，通过污染校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果。

基于此，上述涉及的“数据处理装置”还可以包括处理模块，用于获取与非标记样本对应的标记样本，并确定标记样本的同位素峰；

从标记样本的同位素峰中，扣除非标记样本中被标记同位素峰，得到未被污染的同位素峰；

第四方面，本申请实施例提供了一种代谢流分析装置，该装置可以包括：

获取模块，用于获取生物样本，生物样本包括待分析样本和非标记样本；

标记模块，用于对生物样本进行时间序列标记，得到多个时间窗的待分析样本；

获取模块还用于，获取非标记样本中第一注释代谢物的同位素信息，同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

处理模块，用于基于第一方面代谢组学的数据处理方法的步骤，对多个时间窗中每个时间窗的待分析样本进行处理，得到每个时间窗的待分析样本的同位素标记结果；

计算模块，用于根据每个时间窗的待分析样本的同位素标记结果，计算待分析样本中每个第一注释代谢物在每个时间窗的标记程度，得到每个时间点的标记信息；

确定模块，用于根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率；其中，基于代谢组学的数据处理方法的步骤包括：

在一种可能的实施例中，上述涉及的“确定模块”具体可以用于，通过一阶速率方程对每个时间窗的标记信息进行拟合，得到一阶速率常数；

确定一阶速率常数为每个第一注释代谢物的代谢速率。

第五方面，本申请实施例提供了一种计算机设备，该计算机设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面所示的基于代谢组学的数据处理方法的步骤，或者，实现如第二方面所示的代谢流分析方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面所示的基于代谢组学的数据处理方法的步骤，或者，实现如第二方面所示的代谢流分析方法的步骤。

第七方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面所示的基于代谢组学的数据处理方法的步骤，或者，实现如第二方面所示的代谢流分析方法的步骤。

综上，本申请实施例提供的基于稳定同位素标记的代谢组学数据的处理方法，根据非标记样本中第一注释代谢物的同位素信息，并基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰。接着，通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰，然后，分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值，并通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到包括第一注释代谢物校正后的同位素的丰度数据和分布数据的待分析样本的同位素标记结果，这样，通过大规模注释结合靶向高灵敏、高准确性提取的方式，使得在整个代谢组的层面上，大范围追踪和定量所有被标记到的代谢物。由此，可以准确获取每个代谢物被标记的情况，提高生物体内代谢组全面的标记情况分析的准确性。以及，通过基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰，以便于获得更为准确的同位素标记结果。

另外，通过获取包括待分析样本和非标记样本的生物样本，以及获取非标记样本中第一注释代谢物的同位素信息，然后，对生物样本进行时间序列标记，得到多个时间窗的待分析样本，接着，基于上述所示的基于稳定同位素标记的代谢组学数据的处理方法，对多个时间窗中每个时间窗的待分析样本进行处理，得到每个时间窗的待分析样本的同位素标记结果，然后，根据每个时间窗的待分析样本的同位素标记结果，计算待分析样本中每个第一注释代谢物在每个时间窗的标记程度，得到每个时间点的标记信息，并根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率，这样，可以针对全代谢组中所有代谢物，进行大范围动态代谢速率定量的计算方法，能够对整个代谢组的动态代谢情况进行定量表征。

附图说明

图1为本申请实施例提供的一种基于稳定同位素标记的代谢组学数据的处理方法的流程图；

图2为本申请实施例提供的一种基于如图1所示的代谢流分析方法；

图3为本申请实施例提供的一种基于稳定同位素标记的代谢组学数据的处理装置的结构示意图；

图4为本申请实施例提供的一种代谢流分析装置的结构示意图；

图5为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

代谢是指生物体内所发生的用于维持生命的一系列有序的化学反应的总称，是一个动态的过程。传统的非靶向代谢组学能够检测体内所有的小分子代谢物，但通常都是“静态分析”，即在某个时间点(采样代谢物)进行采样分析，结果反映的是采样所在时间点代谢物的浓度信息。而代谢是个动态的过程，代谢物的浓度和真实的代谢活性不是完全一致的，因为代谢物的浓度信息是综合了合成代谢和分解代谢的结果。对于代谢反应而言，中间代谢物的浓度增加，可能是因为来自上游代谢物的合成代谢增加，或是去往下游代谢物的分解代谢降低。传统的处理稳定同位素标记的代谢组学数据涉及的方式难以测量生物体内代谢物含量、合成和降解、代谢网络的动态变化规律，因而缺失了代谢过程另一半的信息，即动态信息。

代谢流是指代谢反应中，物质的转换速率，能够直接描述代谢过程的动态信息。为了揭示整个代谢组的动态变化规律，代谢流组学应运而生。

在代谢流组学分析中，通常会利用稳定同位素进行示踪实验。稳定同位素是天然存在于自然界中的不具有放射性的一类同位素，在功能上和自然界中最高丰度的元素是相同的。稳定同位素标记的底物，能够和天然存在的底物一样被机体利用和代谢。用含有稳定同位素如¹³C，¹⁵N等的营养底物处理生物样本，然后通过质谱监测和分辨下游代谢物质量数的变化和分布，可以推测代谢反应的动态变化情况。但是，经过稳定同位素标记之后，质谱采集到的信息会变得十分复杂，每个代谢物产生的所有同位素体(isotopologue)的质量数和丰度都将被记录。

基于此，目前处理稳定同位素标记的代谢组学数据的方式主要有以下两种：靶向提取和非靶向遍历寻找。其中，靶向提取标记到的代谢物是最传统的方法，可以包括计算特定的代谢物的所有同位素体的质量数，然后去样本中按照计算好的质量数进行提取，最后通过天然同位素的校正，得到稳定同位素标记后代谢物的同位素分布信息。非靶向遍历寻找则不需要预先提供特定的代谢物，而是同时采集非标记样本和标记样本，然后比较一定保留时间范围内非标记样本和标记样本中每个峰的丰度的变化。这种方式能够将采集到的数据中所有可能被标记的峰都寻找到，并且给出标记峰对应的可能的单同位素峰。

但是，靶向提取标记代谢物的方式，通常都是针对特定的感兴趣的代谢物进行的，因此相对来讲，覆盖范围比较小，而且目前存在的靶向提取策略，提取效率通常较低，一方面是受限于峰检测算法的低灵敏性，另一方面对于被检测到的同位素峰，通常与该代谢物的单同位素峰进行峰形比对，但经过同位素标记之后，单同位素峰的丰度下降，有可能单同位素峰已经不具有一个良好的峰形了，此时，若再进行峰形比对会增加比对不通过的可能性，从而丢失掉真正标记的代谢物峰。非靶向遍历寻找的方式，虽然能找到所有在非标记样本和标记样本中发生显著性变化的代谢物的标记峰，再根据理论质量数去推断单同位素峰，但是，这样通常会带来较高的假阳性率，即标记峰的发现和其对应的单同位素峰的判断往往是不准确的。而且，因为无法知道被标记的峰对应哪个代谢物，所以无法获得该代谢物的分子式，从而无法对标记数据进行天然同位素校正。此外，相关技术中都只判断了代谢物或者代谢物的同位素峰的标记情况，没有对代谢的动态过程进行描述和定量计算。

综上，为了能够准确获取生物样本中每个代谢物被标记的情况，以实现对生物样本的代谢组进行全面的标记情况追踪，本申请实施例提供了基于稳定同位素标记的代谢组学数据的处理方法，即结合非靶向代谢组学涉及的代谢物鉴定和靶向提取代谢物的同位素的优势，对稳定同位素标记的代谢组学的数据进行高覆盖、高灵敏、高准确性的数据处理，这样，能够准确获取每个注释代谢物被标记的情况。另外，基于稳定同位素标记的代谢组学数据的处理方法，实现推断代谢反应的动态发生速率，以解决目前无法对代谢的动态过程进行描述和定量计算的问题。

下面结合附图1-图2，通过具体的实施例对本申请实施例提供的基于稳定同位素标记的代谢组学数据处理方法和代谢流分析方法进行详细地说明。

首先，结合图1对基于稳定同位素标记的代谢组学数据的处理方法进行详细说明。

图1为本申请实施例提供的一种基于稳定同位素标记的代谢组学数据的处理方法的流程图。

如图1所示，该基于稳定同位素标记的代谢组学数据的处理方法包括步骤110-步骤150。

首先，步骤110，获取非标记样本中第一注释代谢物的同位素信息；其次，步骤120，基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰；接着，步骤130，通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰；再者，步骤140，分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值，然后，步骤150，通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果，同位素标记结果包括待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。

由此，本申请实施例提供的基于稳定同位素标记的代谢组学数据的处理方法，结合了非靶向代谢组学中大规模注释和靶向高灵敏、高准确性提取的方式，在整个代谢组的层面上，可以大范围追踪和定量所有被标记到的代谢物，建立了高覆盖、高灵敏、高准确性的稳定同位素标记的代谢组学数据的处理流程，由此，可以准确获取每个代谢物被标记的情况，提供生物体内代谢组全面的动态变化规律信息。

下面对上述步骤进行详细说明，具体如下所示：

首先，涉及步骤110，本申请实施例中涉及的同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰。

基于上述涉及的同位素信息中涉及的子信息如色谱保留时间、质谱图的标准峰形和每个预估同位素峰对应的质量数，本申请实施例还提供了获取上述同位素信息中涉及的子信息的方式。

进一步地，确定每个预估同位素峰对应的质量数的方式可以如步骤1101至步骤1103所示。

步骤1101，通过预设注释算法，注释非标记样本中的代谢物，得到第一注释代谢物。

本申请实施例中的预设注释算法可以包括下述中的至少一种：生物信息学算法、数据库对比算法。

具体地，生物信息学算法包括但不限于下述中的至少一种算法：大规模代谢物结构鉴定算法(MetDNA)、MS-DIAL分析代谢组数据算法。其中，大规模代谢物结构鉴定算法可以获取非标记样本中代谢物的结构，从而对满足预设结构的物质进行标注，得到注释代谢物。数据库对比算法可以将非标记样本中代谢物的通过液相色谱-串联质谱法(Liquidchromatography-tandem mass spectrometry，LC-MS/MS)获得的质荷比(m/z)、二级质谱信息(MS/MS)和色谱保留时间(retention time，RT)与代谢物数据库中预存的代谢物的m/z、MS/MS和RT进行比对，得到非标记样本中包含的代谢物，然后对其进行注释。

需要说明的是，上述涉及的色谱保留时间，指的是溶液中的溶质通过色谱柱所需时间，即被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间，也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间，称为此组分的保留时间，常以分(min)或者秒(s)为时间单位。

示例性地，对非标记样本中代谢物进行大规模注释，得到注释结果，如被注释为代谢物名称为第一注释代谢物A→A的分子式→A的保留时间。

步骤1102，根据第一注释代谢物的分子式，获取与第一注释代谢物对应的至少两个预估同位素峰。

示例性地，基于上述获取到的第一注释代谢物A的分子式，获取与第一注释代谢物A对应的至少两个预估同位素峰，如同位素A1的预估同位素峰1、同位素A2的预估同位素峰2和同位素A3的预估同位素峰3。

这里，第一注释代谢物A的预估同位素峰是指在质谱图中代谢物会出现不同质量数的同位素形成的峰，称为同位素离子峰同位素离子即为同位素峰。

步骤1103，计算至少两个预估同位素峰中每个预估同位素峰对应的质量数。

进一步地，可以通过R化学工具包(enviPat)基于第一注释代谢物的分子式，对注释到的每一个第一注释代谢物进行所有可能产生的同位素峰的质量的计算，如计算第一注释代谢物A的同位素A1、同位素A2和同位素A3的质量数。

本申请实施例通过基于第一注释代谢物的分子式，对注释到的每一个第一注释代谢物进行所有可能产生的同位素峰的质量的计算，这样，可以获得每个第一注释代谢物的分子式，并直观的了解被注释的同位素峰对应哪个代谢物，以便将步骤1101和步骤1103中涉及的信息转换为可以利用的生物学信息，为后期天然同位素校正提供了数据基础。另外，还可以有效解决现有技术中，基于非标记样本和标记样本中发生显著性变化的峰，再根据理论质量数去推断单同位素峰，导致假阳性的信号的问题。

另外，本申请实施例中的质谱图的标准峰形的确定步骤可以包括步骤1111和步骤1112。

步骤1111，在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下，根据至少两个非标记样本中每个非标记样本的第一注释代谢物的质谱图，获取至少两个质谱图中的目标质谱图，目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高。

步骤1112，确定目标质谱图的峰形为质谱图的标准峰形。

示例性地，对注释到的每一个代谢物，在所有非标记样本中选择该代谢物峰高最高的那个样本，并将这个样本中该代谢物的峰形确定为质谱图的标准峰形，以便将每个注释到的代谢物选择的标准峰形用于步骤120中的峰形匹配即确定参考同位素峰和待调整同位素峰。

需要说明的是，本申请实施例能够支持多个样本(如多个非标记样本)共同处理，以解决目前处理样本时，仅能处理两个样本，限制数据处理的场景的问题。

其次，涉及步骤120，在一种或者多种可能的实施例中，具体可以包括步骤1201至步骤1210。

步骤1201，获取待分析样本。

步骤1202，在待分析样本中筛选与同位素信息中每个预估同位素峰对应的同位素峰。

具体地，仍以上述例子为例，即在待分析样本中筛选与第一注释代谢物A的同位素A1的同位素峰、同位素A2的同位素峰和同位素A3的同位素峰相同的同位素峰。

步骤1203，按照预设划分条件，在同位素峰中筛选初始参考同位素峰。

进一步地，为了降低杂质峰的影响，本申请实施例设置了多个预设划分条件，如在预设划分条件包括预设质量数差值、预设色谱保留时间差值和预设的理论信噪比的情况下，获取第一注释代谢物的预估同位素的理论质量数、获取第一注释代谢物的理论色谱保留时间、以及获取与质谱图的标准峰形对应的峰顶点值和基线的均值；

将待分析样本的同位素峰中第一差值小于预设质量数差值、第二差值小于预设色谱保留时间差值且信噪比大于理论信噪比的预估同位素峰确定为初始参考同位素峰，信噪比由待分析样本的同位素峰的峰顶点值和基线的均值的比值确定。

步骤1204，对初始参考同位素峰的提取离子流色谱(EIC)进行峰检测，得到目标参考同位素峰形。

步骤1205，计算目标参考同位素峰形和质谱图的标准峰形的皮尔森相关系数，并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数。

步骤1206，将与目标皮尔森相关系数对应预估同位素峰进行聚类，得到至少一个聚类组。

步骤1207，分别计算至少一个聚类组中每个聚类组的色谱保留时间的时间平均值。

步骤1208，根据每个聚类组的色谱保留时间的时间平均值，分别计算每个聚类组内多个时间平均值与色谱保留时间的差值。

步骤1209，根据多个时间平均值与色谱保留时间的差值，确定目标聚类组，目标聚类组的时间平均值与色谱保留时间的差值满足预设差值。

步骤1210，在目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。

示例性地，在待分析样本中，筛选与每个同位素信息中的第一注释代谢物A和第一注释代谢物A的同位素峰如预估同位素峰1、预估同位素峰2、预估同位素峰3、预估同位素峰4、预估同位素峰5、预估同位素峰6、预估同位素峰7和预估同位素峰8，按照预设质量数差值不超过25百万分比(ppm)(其误差在400Da以下设置为质量数差不超过0.01Da)，预设色谱保留时间差值不超过15秒(s)，以及预设信噪比(S/N)高于3的EIC，会被筛选出来，即得到待分析样本中的初始参考同位素峰如同位素峰1、同位素峰2、同位素峰3、同位素峰4、同位素峰5和同位素峰6和同位素峰7。

接着，对初始参考同位素峰的色谱信号(EIC)进行峰检测，得到被判定为是峰的峰形即目标参考同位素峰形。然后，将目标参考同位素峰形和上述步骤110中得到的标准峰形相匹配，计算目标参考同位素峰形和质谱图的标准峰形的皮尔森相关系数，即为峰形相似度得分，在多个峰形相似度得分中筛选满足预设阈值即得分大于0.6的会被确定为目标皮尔森相关系数。

然后，与目标皮尔森相关系数对应同位素峰如同位素峰1、同位素峰2、同位素峰3、同位素峰4、同位素峰5和同位素峰6，并按照3s的阈值进行内部的聚类，即同位素峰1和同位素峰2聚类，得到聚类组A；将同位素峰3和同位素峰4聚类，得到聚类组B；将同位素峰5和同位素峰6聚类，得到聚类组C。基于此，分别计算聚类组A、聚类组B和聚类组C中同位素峰的色谱保留时间的时间平均值，如聚类组A的色谱保留时间的时间平均值t1，聚类组B的色谱保留时间的时间平均值t2和聚类组C的色谱保留时间的时间平均值t3。将t1、t2和t3分别与步骤110中涉及的色谱保留时间t0作差，选择差值最小的聚类组如聚类组A，并将这个聚类组确定为目标聚类组。这个目标聚类组即是同位素标记之后同位素峰所在的峰组，目标聚类组中满足第二预设峰高即最高的峰会被作为参考同位素峰，如在聚类组A的同位素峰1和同位素峰2中筛选顶点峰高最高的同位素峰1作为参考同位素峰，用于对步骤130中涉及的其他同位素峰如待调整同位素峰的峰边界和顶点的重新调整。

本申请实施例中的通过多个预设划分条件，以便从同位素信息中筛选初始参考同位素峰，由此，提高了待分析样本中同位素峰的筛选效率。

接着，涉及步骤130，仍以上述同位素峰1作为参考同位素峰为例对步骤130进行说明。基于同位素峰1的顶点峰高top1，将待调整同位素峰如同位素峰2的顶点峰高top2与顶点峰高top1对齐，并重新划定同位素峰2的峰边界，以及，将待调整同位素峰如同位素峰3的顶点峰高top3与顶点峰高top1对齐，并重新划定同位素峰3的峰边界，同理，待调整同位素峰如同位素峰4的顶点峰高top4与顶点峰高top1对齐，并重新划定同位素峰4的峰边界，以此类推，将重新调整待调整同位素峰如同位素峰4、同位素峰5和同位素峰6的顶点峰高和预估同位素峰的峰边界。

需要说明的是，本申请实施例中的峰边界为色谱图中所呈现出同位素峰的时间属性，即可以理解峰边界为峰从开始时间到结束的时间跨度。本申请实施例中的同位素峰顶点(或者顶点)为色谱图中最高的峰强度最高点对应的色谱保留时间。

再者，涉及步骤140，在一种或者多种可能的实施例中，该步骤具体可以包括：

根据参考同位素峰中预设数量的扫描点的峰强度，计算参考同位素峰的第一同位素峰丰度值；以及，根据目标同位素峰中预设数量的扫描点的峰强度，计算目标同位素峰的第二同位素峰丰度值。

示例性地，分别对每个同位素峰如同位素峰1、同位素峰2、同位素峰3、同位素峰4、同位素峰5和同位素峰6，计算每个同位素峰的同位素峰丰度值，以同位素峰1为例，选取同位素峰1中三个扫描点的峰强度的加和作为同位素峰1的同位素峰丰度值即第一同位素峰丰度值，其中，三个扫描点可以为顶点和顶点两边的最近两点。

需要说明的是，对于没有检测到的同位素峰，可以基于预设质量数和预设色谱保留时间的范围内进行强制提取，也以中间三个扫描点的峰强度的加和作为没有检测到的同位素的同位素峰丰度值。

然后，涉及步骤150，在一种或者多种可能的实施例中，建立天然同位素校正和非标记样本参与的同位素污染校正方法，以解决目前没有办法准确判断哪些是真正被标记到的代谢物，哪些是被污染的代谢物，因而也无法对污染物进行校正的问题，以实现在标记样本中获得更加准确的同位素标记信息。

该步骤具体可以包括步骤1501和步骤1502。

步骤1501，根据天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到初始校正结果。

步骤1502，在初始校正结果表征待分析样本中非标记样本中任一同位素峰的被标记比例值大于预设比例阈值的情况下，通过污染校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果。

这里，可以理解为在初始校正结果表征待分析样本中非标记样本中任一同位素峰的被标记比例值大于预设比例阈值的情况下，证明同位素在非标记样本中存在污染，标记样本也同样污染，此时，可以通过污染校正算法，从标记样本的同位素峰中，扣除非标记样本中被标记同位素峰，得到未被污染的同位素峰。基于此，可以执行如下步骤，获取与非标记样本对应的标记样本，并确定标记样本中的同位素峰；

示例性地，在上述涉及步骤130中确定目标同位素峰的提取时，非标记样本也会参与到待分析样本中，即基于非标记样本平行的标记样本也采用上述步骤110-步骤130涉及的确定目标同位素峰的步骤确定标记样本中的确定目标同位素峰。

这里，本申请实施例还提供了触发执行通过污染校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值的条件，即注释代谢物被标记，非标记样本中注释代谢物的同位素峰的标记比例大于或者等于预设比例阈值0.02即执行通过污染校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值的步骤。基于此，在注释代谢物的同位素峰提取完毕并进行天然同位素校正后，对非标记样本中每个注释代谢物，评估每个注释代谢物的同位素峰是否存在，理论来讲，非标记样本中不应该存在同位素峰，如果存在则计算污染比例，并将该同位素峰按照污染比例从标记样本中扣除，得到的标记样本中的同位素标记结果则为实际未被污染的数据。

由此，本申请实施例可以对得到的所有同位素峰的丰度结果进行天然同位素校正和污染校正，得到最终稳定同位素标记之后的结果。

综上，本申请实施例提供的基于稳定同位素标记的代谢组学数据的处理方法，根据非标记样本中第一注释代谢物的同位素信息，并基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰。接着，通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰，然后，分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值，并通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到包括注释代谢物校正后的同位素的丰度数据和分布数据的待分析样本的同位素标记结果，这样，通过大规模注释结合靶向高灵敏、高准确性提取的方式，使得在整个代谢组的层面上，大范围追踪和定量所有被标记到的代谢物。由此，可以准确获取每个代谢物被标记的情况，提高生物体内代谢组全面的标记情况分析的准确性。以及，通过基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰，以便于获得更为准确的同位素标记结果。

此外，基于上述涉及的基于稳定同位素标记的代谢组学数据的处理方法，本申请实施例中还提供了一种代谢流分析方法，具体如下所示。

本发明实施例结合图2，还提供了一种基于稳定同位素标记的代谢组学数据的处理方法的代谢流分析方法。

如图2所示，该代谢流分析方法包括步骤210-步骤260。具体如下所示：

步骤210，获取生物样本，生物样本包括待分析样本和非标记样本。

步骤220，对生物样本进行时间序列标记，得到多个时间窗的待分析样本。

步骤230，获取非标记样本中第一注释代谢物的同位素信息，同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰。

这里，同上述步骤110，具体可参照上述步骤110的描述，在此不再赘述。

步骤240，基于代谢组学的数据处理方法的步骤，对多个时间窗中每个时间窗的待分析样本进行处理，得到每个时间窗的待分析样本的同位素标记结果。

其中，基于代谢组学的数据处理方法的步骤包括：

这里，可以参照上述结合图1中的基于代谢组学的数据处理方法的步骤，对每个时间窗的非标记样本进行处理，在此不再赘述。

步骤250，根据每个时间窗的待分析样本的同位素标记结果，计算待分析样本中每个第一注释代谢物在每个时间窗的标记程度，得到每个时间点的标记信息。

步骤260，根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率。

由此，下面对上述步骤进行详细说明，具体如下所示：

涉及步骤260，在一种或者多种可能的实施例中，该步骤260具体可以包括：

确定一阶速率常数为每个第一注释代谢物的代谢速率。

示例性地，首先，对获取到的生物样本进行时间序列标记，得到多个时间窗的待分析样本，每个时间窗的待分析样本可以基于上述涉及的代谢组学的数据处理方法的步骤进行处理。然后，计算每个注释代谢物在每个时间窗的标记程度(labeling extent，MPE)，每个注释代谢物所有标记时间窗的MPE数据用一阶速率方程进行拟合，拟合得到的一阶速率常数k即为标记速率(labeling rate)，该一阶速率常数k可以反映该代谢物的代谢速率(metabolic turnoverrate)，以此，可以对全代谢组中代谢物进行了动态代谢速率的表征。

由此，通过本申请实施例建立了全代谢组中代谢物动态代谢速率的定量计算方法，能够对整个代谢组的动态代谢情况进行定量表征，进一步地，能够对代谢物动态代谢速率进行定量，以解决目前没有对代谢的动态信息进行过定量计算的问题。

综上，通过获取包括待分析样本和非标记样本的生物样本，以及获取非标记样本中第一注释代谢物的同位素信息，然后，对生物样本进行时间序列标记，得到多个时间窗的待分析样本，接着，基于上述所示的基于稳定同位素标记的代谢组学数据的处理方法，对多个时间窗中每个时间窗的待分析样本进行处理，得到每个时间窗的待分析样本的同位素标记结果，然后，根据每个时间窗的待分析样本的同位素标记结果，计算待分析样本中每个第一注释代谢物在每个时间窗的标记程度，得到每个时间点的标记信息，并根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率，这样，可以针对全代谢组中所有代谢物，进行大范围动态代谢速率定量的计算方法，能够对整个代谢组的动态代谢情况进行定量表征。

基于相同的发明构思，本申请提供了一种基于代谢组学的数据处理装置，具体结合图3进行详细说明。

图3为本申请实施例提供的一种基于代谢组学的数据处理装置的结构示意图。

如图3所示，该基于代谢组学的数据处理装置300应用于电子设备，具体可以包括：

获取模块301，用于获取非标记样本中第一注释代谢物的同位素信息，同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

确定模块302，用于基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰；

调整模块303，用于通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰；

计算模块304，用于分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值；

校正模块305，用于通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到待分析样本的同位素标记结果，同位素标记结果包括待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。

综上，非标记样本中第一注释代谢物的同位素信息，并基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰。接着，通过参考同位素峰顶点对应的色谱保留时间和峰边界，调整待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰，然后，分别计算参考同位素峰的第一同位素峰丰度值，以及目标同位素峰的第二同位素峰丰度值，并通过天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到包括第一注释代谢物校正后的同位素的丰度数据和分布数据的待分析样本的同位素标记结果，这样，通过大规模注释结合靶向高灵敏、高准确性提取的方式，使得在整个代谢组的层面上，大范围追踪和定量所有被标记到的代谢物。由此，可以准确获取每个代谢物被标记的情况，提高生物体内代谢组全面的标记情况分析的准确性。以及，通过基于同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰，以便于获得更为准确的同位素标记结果。

下面分别对本申请实施例提供的数据处理装置300进行详细说明。

在一种可能的实施例中，上述涉及的数据处理装置300还可以包括注释模块；其中，

获取模块301还可以用于，根据第一注释代谢物的分子式，获取与第一注释代谢物对应的至少两个预估同位素峰；

计算模块304还可以用于，计算至少两个预估同位素峰中每个预估同位素峰对应的质量数。

在另一种可能的实施例中，上述涉及的获取模块301还可以用于，在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下，根据至少两个非标记样本中每组非标记样本的第一注释代谢物的质谱图，获取至少两个质谱图中的目标质谱图，目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高；

确定模块302还可以用于，确定目标质谱图的峰形为质谱图的标准峰形。

在又一种可能的实施例中，上述涉及的数据处理装置300还可以包括筛选模块、检测模块和聚类模块；其中，

获取模块301还可以用于，获取待分析样本；

筛选模块，用于按照预设划分条件，在同位素峰中筛选初始参考同位素峰；

计算模块304还用于，计算目标参考同位素峰形和质谱图的标准峰形的皮尔森相关系数，并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数；

计算模块304还用于，分别计算至少一个聚类组中每个聚类组的色谱保留时间的时间平均值；

计算模块304还用于，根据每个聚类组的色谱保留时间的时间平均值，分别计算每个聚类组内多个时间平均值与色谱保留时间的差值；

确定模块302还用于，根据多个时间平均值与色谱保留时间的差值，确定目标聚类组，目标聚类组的时间平均值与色谱保留时间的差值满足预设差值；

确定模块302还用于，在目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。

基于此，上述涉及的获取模块301还可以用于，在预设划分条件包括预设质量数差值和预设色谱保留时间差值的情况下，获取第一注释代谢物的预估同位素的理论质量数、获取第一注释代谢物的理论色谱保留时间、以及获取与质谱图的标准峰形对应的峰顶点值和基线的均值；

计算模块304还用于，计算理论质量数与待分析样本的同位素峰对应的质量数的第一差值、计算理论色谱保留时间与待分析样本中第二注释代谢物的色谱保留时间的第二差值、以及计算峰顶点值和基线的均值的比值，得到理论信噪比；

确定模块302还用于，将待分析样本的同位素峰中第一差值大于预设质量数差值、第二差值大于预设色谱保留时间差值且信噪比大于理论信噪比的预估同位素峰确定为初始参考同位素峰，信噪比由待分析样本的同位素峰的峰顶点值和基线的均值的比值确定。

在再一种可能的实施例中，上述涉及的计算模块304具体可以用于，根据参考同位素峰中预设数量的扫描点的峰强度，计算参考同位素峰的第一同位素峰丰度值；

在再一种可能的实施例中，上述涉及的校正模块305具体可以用于，根据天然同位素校正算法，校正第一同位素峰丰度值和第二同位素峰丰度值，得到初始校正结果；

基于此，上述涉及的数据处理装置300还可以包括处理模块，用于获取与非标记样本对应的标记样本，并确定标记样本中的同位素峰；

基于相同的发明构思，本申请还提供了一种代谢流分析装置。具体结合图4进行详细说明。

图4为本申请实施例提供的一种代谢流分析装置的结构示意图。

如图4所示，该代谢流分析装置400应用于电子设备，具体可以包括：

获取模块401，用于获取生物样本，生物样本包括待分析样本和非标记样本；

标记模块402，用于对生物样本进行时间序列标记，得到多个时间窗的待分析样本；

处理模块403，用于获取非标记样本中第一注释代谢物的同位素信息，同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数，至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

计算模块404，用于基于第一方面代谢组学的数据处理方法的步骤，对多个时间窗中每个时间窗的待分析样本进行处理，得到每个时间窗的待分析样本的同位素标记结果；

确定模块405，用于根据每个时间窗的待分析样本的同位素标记结果，计算待分析样本中每个第一注释代谢物在每个时间窗的标记程度，得到每个时间点的标记信息；以及，根据每个时间点的标记信息，确定每个第一注释代谢物的代谢速率；

其中，基于代谢组学的数据处理方法的步骤包括：

下面分别对本申请实施例提供的代谢流分析装置400进行详细说明。

在一种可能的实施例中，上述涉及的“确定模块405”具体可以用于，

确定一阶速率常数为每个第一注释代谢物的代谢速率。

本申请实施例中的基于代谢组学的数据处理装置和代谢流分析装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。

示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的基于代谢组学的数据处理装置和代谢流分析装置。该操作系统可以为安卓(Android)操作系统，可以为IOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的基于代谢组学的数据处理装置和代谢流分析装置能够实现图1至图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图5所示，本申请实施例还提供一种计算机设备500，包括处理器501，存储器502，存储在存储器502上并可在处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述基于稳定同位素标记的代谢组学数据的处理方法和代谢流分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述基于稳定同位素标记的代谢组学数据的处理方法和代谢流分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。其中，可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

另外，本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述基于稳定同位素标记的代谢组学数据的处理方法和代谢流分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于稳定同位素标记的代谢组学数据的处理方法，其特征在于，包括：

获取非标记样本中第一注释代谢物的同位素信息，所述同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和所述至少两个预估同位素峰中每个预估同位素峰对应的质量数，所述至少两个预估同位素峰为所述第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

基于所述同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰；

通过所述参考同位素峰顶点对应的色谱保留时间和峰边界，调整所述待调整同位素峰顶点对应的色谱保留时间和峰边界，得到目标同位素峰；

分别计算所述参考同位素峰的第一同位素峰丰度值，以及所述目标同位素峰的第二同位素峰丰度值；

通过天然同位素校正算法，校正所述第一同位素峰丰度值和所述第二同位素峰丰度值，得到所述待分析样本的同位素标记结果，所述同位素标记结果包括所述待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。

2.根据权利要求1所述的方法，其特征在于，所述获取非标记样本中第一注释代谢物的同位素信息，包括：

通过预设注释算法，注释所述非标记样本中的代谢物，得到第一注释代谢物；

根据所述第一注释代谢物的分子式，获取与所述第一注释代谢物对应的至少两个预估同位素峰；

计算所述至少两个预估同位素峰中每个预估同位素峰对应的质量数。

3.根据权利要求1或2所述的方法，其特征在于，所述获取非标记样本中第一注释代谢物的同位素信息，包括：

在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下，根据所述至少两个非标记样本中每个非标记样本的第一注释代谢物的质谱图，获取至少两个质谱图中的目标质谱图，所述目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高；

确定所述目标质谱图的峰形为所述质谱图的标准峰形。

4.根据权利要求1所述的方法，其特征在于，所述基于所述同位素信息，按照预设划分条件，在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰，包括：

获取待分析样本；

在所述待分析样本中，筛选与所述同位素信息中每个预估同位素峰对应的同位素峰；

按照预设划分条件，在所述同位素峰中筛选初始参考同位素峰；

对所述初始参考同位素峰的提取离子流色谱进行峰检测，得到目标参考同位素峰形；

计算所述目标参考同位素峰形和所述质谱图的标准峰形的皮尔森相关系数，并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数；

将与所述目标皮尔森相关系数对应预估同位素峰进行聚类，得到至少一个聚类组；

分别计算所述至少一个聚类组中每个聚类组的色谱保留时间的时间平均值；

根据所述每个聚类组的色谱保留时间的时间平均值，分别计算每个聚类组内多个时间平均值与所述色谱保留时间的差值；

根据所述多个时间平均值与所述色谱保留时间的差值，确定目标聚类组，所述目标聚类组的时间平均值与所述色谱保留时间的差值满足预设差值；

在所述目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。

5.根据权利要求4所述的方法，其特征在于，所述预设划分条件包括预设质量数差值和预设色谱保留时间差值；所述按照预设划分条件，在所述同位素峰中筛选初始参考同位素峰，包括：

获取所述第一注释代谢物的预估同位素的理论质量数、获取所述第一注释代谢物的理论色谱保留时间、以及获取与所述质谱图的标准峰形对应的峰顶点值和基线的均值；

计算所述理论质量数与所述待分析样本的同位素峰对应的质量数的第一差值、计算所述理论色谱保留时间与所述待分析样本中第二注释代谢物的色谱保留时间的第二差值、以及计算所述峰顶点值和所述基线的均值的比值，得到理论信噪比；

将所述待分析样本的同位素峰中所述第一差值小于所述预设质量数差值、所述第二差值小于所述预设色谱保留时间差值且信噪比小于所述理论信噪比的预估同位素峰确定为初始参考同位素峰，所述信噪比由所述待分析样本的同位素峰的峰顶点值和基线的均值的比值确定。

6.根据权利要求1所述的方法，其特征在于，所述分别计算所述参考同位素峰的第一同位素峰丰度值，以及所述目标同位素峰的第二同位素峰丰度值，包括：

根据所述参考同位素峰中预设数量的扫描点的峰强度，计算所述参考同位素峰的第一同位素峰丰度值；

以及，根据所述目标同位素峰中所述预设数量的扫描点的峰强度，计算所述目标同位素峰的第二同位素峰丰度值。

7.根据权利要求1所述的方法，其特征在于，所述通过天然同位素校正算法，校正所述第一同位素峰丰度值和所述第二同位素峰丰度值，得到所述待分析样本的同位素标记结果，包括：

根据天然同位素校正算法，校正所述第一同位素峰丰度值和所述第二同位素峰丰度值，得到初始校正结果；

在所述初始校正结果表征所述待分析样本中非标记样本中任一同位素峰的被标记比例值大于预设比例阈值的情况下，通过污染校正算法，校正所述第一同位素峰丰度值和所述第二同位素峰丰度值，得到所述待分析样本的同位素标记结果。

8.根据权利要求7所述的方法，其特征在于，所述通过污染校正算法，校正所述第一同位素峰丰度值和所述第二同位素峰丰度值，得到所述待分析样本的同位素标记结果，包括：

获取与所述非标记样本对应的标记样本，并确定所述标记样本的同位素峰；

从所述标记样本的同位素峰中，扣除所述非标记样本中被标记同位素峰，得到未被污染的同位素峰；

根据所述未被污染的同位素峰的分布数据和同位素峰丰度值，生成所述待分析样本的同位素标记结果。

9.一种基于权利要求1-8中任一项所述的代谢流分析方法，其特征在于，包括：

获取生物样本，所述生物样本包括待分析样本和非标记样本；

对所述生物样本进行时间序列标记，得到多个时间窗的待分析样本；

获取所述非标记样本中第一注释代谢物的同位素信息，所述同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和所述至少两个预估同位素峰中每个预估同位素峰对应的质量数，所述至少两个预估同位素峰为所述第一注释代谢物在质谱图中不同质量的预估同位素形成的峰；

基于所述权利要求1所述的基于代谢组学的数据处理方法的步骤，对所述多个时间窗中每个时间窗的待分析样本进行处理，得到所述每个时间窗的待分析样本的同位素标记结果；

根据所述每个时间窗的待分析样本的同位素标记结果，计算所述待分析样本中每个第一注释代谢物在所述每个时间窗的标记程度，得到所述每个时间点的标记信息；

根据所述每个时间点的标记信息，确定所述每个第一注释代谢物的代谢速率；

其中，所述基于代谢组学的数据处理方法的步骤包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述每个时间点的标记信息，确定所述每个第一注释代谢物的代谢速率，包括：

通过一阶速率方程对所述每个时间窗的标记信息进行拟合，得到一阶速率常数；

确定所述一阶速率常数为所述每个第一注释代谢物的代谢速率。