CN117805308A

CN117805308A - 一种色谱下机数据的处理方法及其相关应用

Info

Publication number: CN117805308A
Application number: CN202311872581.3A
Authority: CN
Inventors: 王春燕; 黄银; 胡云云
Original assignee: Sichuan Panomic Biotechnology Co ltd
Current assignee: Sichuan Panomic Biotechnology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-02

Abstract

本发明公开了一种色谱下机数据的处理方法及其相关应用，涉及生物检测领域。本发明通过对色谱下机数据RT值的分布进行统计分析并过滤，剔除了异常数据，矫正了化合物的保留时间，克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题，将矫正后的保留时间应用于缺失峰面积数据的填充，提高了合并后二维数据矩阵的可靠性；相对于现有方法而言，本发明提供的处理方法确定的参考保留时间更接近实际值，且获得二维数据矩阵的准确性更高，应用于化合物定性和注释，能够避免或减少假阳性定性结果。

Description

一种色谱下机数据的处理方法及其相关应用

技术领域

本发明涉及生物检测领域，具体而言，涉及一种色谱下机数据的处理方法及其相关应用。

背景技术

通过液相色谱联用质谱(LC-MS或LC-MS/MS)或气相色谱联用质谱(GC-MS或GC-MS/MS)进行代谢组学分析时，会产生大量的检测数据。为了进行后续的统计分析，首先，需要对这些数据进行清洗、对齐、合并等操作将数据转换为二维数据矩阵，再进行后续的组学分析。在实际检测过程中，使用不同厂家的仪器、不同操作人员、不同时间、不同批次的样本等均会使同一化合物在相同检测条件下的保留时间产生漂移，这样在合并处理这些数据时，一个化合物会存在多个保留时间。

此外，通过现有的质谱数据库对检测结果进行定性分析时，将数据库中的质谱图与检测的质谱图进行匹配，从而确定检测的化合物名称、结构等信息，例如通过NIST数据库匹配GC-MS检测的质谱图。然而，质谱数据库和实际检测是存在差异的，匹配的结果不一定正确，有时匹配后会发现，同一针样品检测结果中的一个化合物名称会出现在两个甚至多个位置，即一个检测结果中一个化合物存在多个保留时间，一个保留时间也可能对应多个化合物，这时需要从多个保留时间中确定一个最准确的保留时间和化合物名称。

鉴于此，特提出本发明。

发明内容

本发明的目的在于提供一种色谱下机数据的处理方法及其相关应用。

本发明是这样实现的：

第一方面，本发明实施例提供了一种色谱下机数据的处理方法，其包括：

S1：获取待处理样本的色谱下机的初始数据；所述初始数据包括：化合物名称和/或化合物CAS号、化合物匹配的色谱保留时间和样本信息；

S2：分别对同一名称和/或同一CAS号的化合物对应的色谱保留时间进行统计分析，获取该化合物色谱保留时间的离散程度；其中，所述离散程度包括第一离散程度和第二离散程度，所述第一离散程度包括该化合物的所有RT的离散程度或组间离散程度，所述第二离散程度包括：该化合物每组RT的组内离散程度和/或全部组别RT的组内离散程度；

S3：对化合物的离散程度进行判断：

若所述第一离散程度≤其对应的设定阈值且至少一组RT的组内离散程度≤其对应的设定阈值，则保留该化合物，并保留该化合物组内离散程度≤其对应的设定阈值的数据，剔除或保留该化合物组内离散程度＞其对应的设定阈值的组别数据；

若所述第一离散程度＞其对应的设定阈值和/或所述全部组别RT的组内离散程度＞其对应的设定阈值，则剔除该化合物及其对应数据；

S4：对保留的化合物的组别的组内数据进行筛选，去除RT值在对应的设定阈值范围外的数据；

S5：对同一名称和/或同一CAS号的化合物剩余的所有RT值进行分析，获得该化合物的参考保留时间。

第二方面，本发明实施例提供了如前述实施例所述的处理方法在化合物定性和/或注释中的应用。

本发明具有以下有益效果：

本发明基于特定方法对色谱下机数据进行处理，剔除了异常数据，矫正了化合物的保留时间，克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题，将矫正后的保留时间应用于缺失峰面积数据的填充，提高了合并后二维数据矩阵的可靠性；相对于现有方法而言，本发明提供的处理方法确定的参考保留时间更接近实际值，且获得二维数据矩阵的准确性更高，应用于化合物定性和注释，能够避免或减少假阳性定性结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的一种色谱下机数据的前处理方法；

图2为本发明提供的一种色谱下机数据的前处理方法；

图3为本发明提供的一种色谱下机数据的前处理方法；

图4为本发明提供的一种色谱下机数据的前处理方法。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

本发明基于特定的处理方法对色谱下机数据进行处理，剔除了异常数据，矫正了化合物的保留时间，能够从同一化合物在相同检测条件下产生的多个保留时间中确认一个最准确的保留时间，克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题，相对于现有方法而言，本发明提供的处理方法确定的参考保留时间更接近实际值；同时，将矫正后的保留时间(参考保留时间)应用于缺失峰面积数据的填充，还进一步提高了合并后二维数据矩阵的可靠性，将基于参考保留时间获得的二维数据矩阵应用于化合物定性和注释，能够有效避免或减少假阳性定性结果，提高化合物定性分析的准确性。

具体的技术方案

一方面，本发明实施例提供了一种色谱下机数据的处理方法，其包括：

S3：对化合物的离散程度进行判断：

若所述第一离散程度≤其对应的设定阈值且至少一组RT的组内离散程度≤其对应的设定阈值，则保留该化合物，并保留该化合物组内离散程度≤其对应的设定阈值的数据，剔除或保留组内离散程度＞其对应的设定阈值的组别数据；

本发明实施例提供的处理方法的流程示意图可参照图1和图2。图1和图2大致相同，区别在于S3步骤中，图1为剔除组内离散程度＞其对应的设定阈值的组别数据，图2为保留组内离散程度＞其对应的设定阈值的组别数据。针对图2所示的处理方法，由于组间离散程度或所有RT的离散程度已经说明该化合物整体的RT离散程度满足基本要求，所以在步骤S3可以选择保留组内离散程度＞其对应的设定阈值的组别数据。

本文中的“化合物名称”，又称为name，指色谱下机数据中通过自动数据库匹配和/或人为标注等方法得到的色谱峰对应的化合物名称。

本文中的“RT”又称Retention Time或保留时间或出峰时间，可以为一般含义的保留时间，即被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间，也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间，具体可以为一维液相或气相的保留时间，和/或二维气相或液相的保留时间。所述保留时间还可以为相对保留时间，即某组分的校正保留时间与相应标样的校正保留时间之比。在无特殊说明的情况下，本文中的保留时间理解为一般含义的保留时间。

本文中的“Area”为峰面积，具有一般峰面积的含义，即在色谱图背景线上部的色谱峰的面积。

本文中的“Area％”为峰面积比例，指色谱峰的峰面积占总峰面积的比例，如按面积归一化法处理时，某一或多个色谱峰的面积百分比。

本文中的“Similarity”为相似度，具体为实测质谱数据与数据库中匹配的化合物数据的相似程度。

本文中的“CAS”，为CAS Number，是物质数字识别号码。

本文中的“Peak S/N”(或S/N)为峰信噪比。

本文中的“Quant S/N”为定量离子信噪比。

本文中的“色谱下机数据”是指通过色谱仪器分离检测后获得的数据，一般使用液相色谱、气相色谱或离子色谱等色谱仪与紫外、质谱检测器联用获得，例如LC-UV/MS/ELSD/CAD、GC-FID/MS、IC-ECD/CLD/CAD/MS(离子色谱-电导检测器/)的下机数据。相对于其他检测器，MS(MSD，质谱检测器)具有高通量、高灵敏度等特点，可以获得更大量的检测数据。本申请的方法尤其适用通过色谱仪联用MS获得的下机数据的处理，例如，用LC-MS或GC-MS进行代谢组学试验时的色谱下机数据。

在一些实施例中，在步骤S1中，所述处理方法还包括对获取后的色谱下机数据进行数据清洗和数据过滤。需要说明的是，本发明对数据清洗和数据过滤的方式无特殊限定，可基于常规的方式进行，并非本发明的主要的技术构思。

在一些实施例中，数据清洗包括以下步骤：对原始下机数据进行数据的清洗，包括进行特殊字符替换、无机气体去除(不含C、H元素的物质，如CO₂、CS₂、H₂等)、污染物去除(含Si、TMS、TDMS等)，对清洗后的数据进行下一步分析。

在一些实施例中，数据过滤包括以下步骤：合并清洗后的所有数据，进行Simlarity≥800、Peak S/N≥50、Quant S/N≥50、Area％≥0.001的过滤，过滤阈值条件可进行自行设置。将相似度Simlarity设置为800，经过过滤后，化合物特征至少在一个样本中满足上述的条件被保留。经过滤去重后，将cas_name(化合物名称和相应cas号)进行组合，获得唯一物质列表，cas编号未知的物质也会被保留进行后续分析。对于每一cas_name会对应多组数据(n组)，每组数据有多个RT值并包括RT对应的Area、Area％等数据。

需要说明的是，Simlarity越大说明二者(实测质谱数据与数据库中匹配的化合物数据)的相似程度越高，匹配的结果越准确。Peak S/N、Quant S/N反应了化合物的质谱响应强度。Area％为某一色谱峰的峰面积占总峰面积的百分比。这四个指标设定的阈值越高，满足的化合物越少，同时这些满足阈值保留下来的化合物的重要性及数据准确性越高，相反，阈值越低，化合物越多，准确性越低。当需要定性检测出更多的化合物的时候，可以将阈值进行适当的放宽，例如，想保留Area％更小的化合物时，可以将Area％的阈值设定为＞0.0005、0.0002、0.0001等。可以根据检测需要选择这四个中的一个或多个指标设置阈值进行数据筛选。

通过步骤S3能剔除匹配明显异常的化合物，以及RT值明显异常的组别数据。

在一些实施例中，所述待测样本包括1组和/或多组。

当待测样本为1组时，所述第一离散程度可以为该化合物的所有RT的离散程度；所述第二离散程度中，该化合物每组RT的组内离散程度与全部组别RT的组内离散程度相同。

当待测样本为多组时，所述第一离散程度可以为该化合物的所有RT的离散程度或该化合物的组间离散程度。

在一些实施例中，当所述待测样本包括多组样本时，所述样本信息包括分组信息。

在一些实施例中，所述多组的组别包括：对照组样本、实验组样本和QC组样本中的任意一种或多种。

在一些实施例中，所述多组的组别包括：根据不同批次进行分组的检测样本和/或根据不同检测时间进行分组的检测样本。

在一些实施例中，所述离散程度由相对标准偏差、方差、极差和四分位差中的任意一种或多种表示。

在一些实施例中，在步骤S3中，所述至少一组RT的组内离散程度≤其对应的设定阈值包括：全部组别RT的组内离散程度≤其对应的设定阈值。

在一些实施例中，所述全部组别RT的组内离散程度包括所有的分组对应的组内离散程度的中位数。例如，当分组的组内离散程度取相对标准偏差时，所述全部组别RT的组内离散程度取所有的分组RT对应的组内相对标准偏差的中位数。

在一些实施例中，当离散程度取相对标准偏差时，所述第一离散程度对应的设定阈值为10％～40％。该设定阈值具体可以为10％、12％、14％、16％、18％、20％、22％、24％、26％、28％、30％、32％、34％、36％、38％、40％中的任意一种或任意两种之间的范围。

在一些实施例中，当离散程度取相对标准偏差时，所述第二离散程度对应的设定阈值为10％～40％。所述第二离散程度对应的设定阈值具体为该化合物每组RT的组内离散程度对应的设定阈值和/或全部组别RT的组内离散程度对应的设定阈值，当其同时包括两者时(多组样本的情况)，该化合物每组RT的组内离散程度对应的设定阈值和全部组别RT的组内离散程度对应的设定阈值均可以独立地选自10％～40％。该设定阈值具体可以为10％、12％、14％、16％、18％、20％、22％、24％、26％、28％、30％、32％、34％、36％、38％、40％中的任意一种或任意两种之间的范围。

需要说明的是，本发明实施例对离散程度的阈值设定越严格(当离散程度为相对标准偏差时，“严格”理解为RSD₀和/或RSD_g的设定阈值越小)，则能去除更多的异常数据，使得到的参考保留时间越接近实际值，同时获得的二维数据矩阵的数据的准确性相对更高。同时，阈值设定越宽松，能获得的数据将会更多，这里二维数据矩阵中的化合物将会更多，但数据的准确性会相对下降。因此，可以根据实际的检测需求，设置合理的阈值。

在一些实施例中，在步骤S4中，RT值在对应的设定阈值范围外的判断标准包括：

计算每一RT值与该RT值所在分组中RT值的中位数的差值，若该差值的绝对值≤阈值，则判断该RT值位于对应的设定阈值范围内；若该差值的绝对值＞阈值，则判断该RT值位于对应的设定阈值范围外。本发明对该阈值的选择无特殊的限定，可基于实际情况进行选择，并非本发明的主要发明构思。

对于阈值的设定，可以根据实际保留时间漂移情况、检测时长等进行调整，例如，对于运行时间长的LC-MS或GC-MS检测方法，如运行时间为60min及以上，阈值设定为1min，对于运行时间短的放入，如运行时间为20min及以下的，阈值设定为20s；对于保留时间本身就波动很大的检测方法，可以适当放宽RT阈值；等等。实际过程中可以综合多个因素设置合理的阈值。

在一些实施例中，所述阈值选自1s～5min。该阈值具体可以为1s、5s、10s、15s、20s、25s、30s、35s、40s、45s、50s、55s、1min、1.5min(1min30s)、2min、2.5min、3min、3.5min、4min、4.5min、5min中的任意一种或任意两种之间的范围。

在一些实施例中，在步骤S3后、步骤S4前，所述处理方法还包括：

S401：对剔除的同一名称和/或CAS号的化合物的数据进行筛选：踢除组内离散程度＞其对应的设定阈值的组别；对保留的组别的组内数据进行筛选，踢除RT值＞其对应的设定阈值的数据；

S402：重复步骤S2、S3和S401，直至满足步骤S3的判断标准。可以理解的是，对于满足步骤S3判断标准的数据继续进行后续相关步骤。

含有步骤S401和S402的处理方法的流程示意图可参照图3和图4。对于步骤S3中不满足要求的化合物，可以先删除不满足阈值要求的组别和/或组内数据，直至RT分布特征满足相应要求，再进行后续步骤。

在一些实施例中，当S401步骤中的组内离散程度取相对标准偏差时，所述组内离散程度对应的设定阈值为10％～40％。该设定阈值具体可以为10％、12％、14％、16％、18％、20％、22％、24％、26％、28％、30％、32％、34％、36％、38％、40％中的任意一种或任意两种之间的范围。

在一些实施例中，当对S401步骤中保留组别的组内数据进行筛选时，RT值在其对应的设定阈值范围外的判断标准同任意实施例所述的步骤S4中RT值在其对应的设定阈值范围外的判断标准。

在一些实施例中，对同一名称和/或同一CAS号的化合物剩余的所有RT值进行计算的方式包括：取剩余RT值的平均值或中位数作为参考保留时间。此处的“剩余RT值”是指保留的RT值或经剔除后获得的RT值。

在一些实施例中，在步骤S5中，所述处理方法还包括：对化合物保留的数据进行合并，以获得该化合物的二维数据矩阵。合并数据包括合并化合物名称、RT值以及RT对应的检测结果(如峰面积、峰高)，以获得二维数据矩阵。

通过S1～S5的步骤的处理，剔除了明显异常的数据，获得了准确性较高的参考保留时间。

在一些实施例中，在步骤S5后，所述处理方法还包括：

S6：将所述初始数据中删除的在所述参考保留时间附近的峰的数据回填至二维数据矩阵的缺失部分。即以参考保留时间为参考，寻找原始数据或初始数据中在参考保留时间附近的峰，将该峰的数据填充至缺失部分。优选地，在原始数据或初始数据中，该峰匹配的化合物名称与参考保留时间对应的化合物相同。例如，在步骤S3删除了组内离散程度不满足要求的组别会导致这部分数据的缺失，此时可以从删除的组别数据中找回在参考保留时间附近的数据；除此以外，在步骤S1的处理过程中删除的相似度低或响应低的数据也可能是实际检测的数据，可以通过参考保留时间找回，这样进一步提高了二维数据矩阵数据的准确性。

在一些实施例中，在所述参考保留时间附近是指：与所述参考保留时间的时间偏差为1s～5min。具体地，该时间偏差为1s、5s、10s、15s、20s、25s、30s、35s、40s、45s、50s、55s、1min、1.5min(1min30s)、2min、2.5min、3min、3.5min、4min、4.5min、5min中的任意一种或任意两种之间的范围。

在一些实施例中，在步骤S6中，所述处理方法还包括基于回填后的二维数据矩阵，重新计算参考保留时间：将回填的RT值与S5步骤中剩余的RT值混合，取中位数作为最终的参考保留时间。需要说明的是，在另一些实施例中，也可以省略该步骤(最终的参考保留时间)，步骤S5计算获得的参考保留时间相对于现有处理方法计算的保留时间已经具有较高的准确性。

在一些实施例中，在步骤S6之前或之后，所述处理方法还包括：基于空白样本数据对所述二维数据矩阵中的数据进行去除，以去除空白样本中的干扰化合物的数据。

在一些实施例中，所述初始数据还包括：色谱峰面积、色谱峰面积比例、相似度、色谱峰信噪比和定量离子信噪比中的任意一种或多种。

在一些实施例中，所述色谱下机数据包括：液相色谱、气相色谱和离子色谱中的任意一种与质谱检测获得的下机数据。

在一些实施例中，所述化合物的包括：经色谱分离检测的物质。可选地，所述化合物包括：小分子代谢物。可选地，所述小分子代谢物选自：有机酸、酮类、多肽、氨基酸、胺类、醛类、醇类、脂类、类固醇、糖类、核苷和生物碱中的任意一种或多种。

此外，本发明实施例还提供了如前述任意实施例所述的处理方法在化合物定性和/或注释中的应用。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

一种GC-MS下机数据的处理方法，其包括以下步骤。

步骤S1：

原始数据：针对气相色谱质谱仪器下机数据，如LECO等商业软件数据的.csv数据格式，对单个数据结果需要进行数据的合并，合并成以行为化合物特征和列为样本的二维数据矩阵。原始数据中包含以下数据列信息：Name(化合物名称)、R.T(min)(保留时间)、CAS(CAS号)、Area(色谱峰面积)、Area％(色谱峰面积比例)、Similarity(相似度)、Peak S/N(色谱峰信噪比)和Quant S/N(定量离子信噪比)。

数据清洗：对原始下机数据进行数据的清洗，包括进行特殊字符替换、无机气体去除(不含C、H元素的物质，如CO₂、CS₂、H₂等)、污染物去除(含Si、TMS、TDMS等)，对清洗后的数据进行下一步分析。

数据过滤：合并清洗后的所有数据，进行Simlarity>800、Peak S/N>50、Quant S/N>50、Area％>0.001的过滤，过滤阈值条件可进行自行设置。将相似度Simlarity设置为800，经过过滤后，化合物特征至少在一个样本中满足上述的条件被保留。经过滤去重后，将cas_name(化合物名称和相应cas号)进行组合，获得唯一物质列表，cas编号未知的物质也会被保留进行后续分析。对于每一cas_name会对应多组数据(n组)，每组数据有多个RT值并包括RT对应的Area、Area％等数据。

步骤S2：

获取同一名称或同一CAS号的化合物的RT的离散程度：对每一个cas_name物质组合，计算该物质的第一离散程度和第二离散程度；

第一离散程度包括：该物质在全部样本中的保留时间的中位值RT₀与相对标准偏差RSD₀；

第二离散程度包括：该物质在不同分组中的保留时间的中位数[RTg₁、RTg₂、……、RT_gn]、该物质在不同分组中的分组(组内)相对标准偏差[RSD_g1、RSD_g2、……、RSD_gn]和全部分组的组内相对标准偏差的中位值RSD_g。

步骤S3：

对化合物的离散程度进行判断，筛选偏差小的化合物：

保留RSD₀与RSD_g的数值均满足≤30％(在本实施例中，RSD₀与RSD_g对应的设定阈值均为30％)以内cas_name化合物的数据，剔除RSD₀和RSD_g中的任意一种的数值＞30％的cas_name化合物的数据；

对于保留的cas_name化合物的数据：保留其中RSD_gn(n指代第n组，n为≥1的正整数)≤30％的组别数据，剔除RSD_gn＞30％的组别数据。

经过该步骤处理后，每一个物质在不同样本中会保留满足条件的RT信息及相应的峰面积等信息。

步骤S4：对保留的化合物的组别的组内数据进行筛选，去除RT值在其对应的设定阈值范围外的数据：

计算每一cas_name相应数据中RT值与该RT值所在分组中的保留时间的中位数(RT_gn)的差值RT_ppm，保留RT_ppm在±1min以内(RTppm的绝对值≤1min)的RT值，踢除RT_ppm在±1min以外(RTppm的绝对值＞1min)的RT值。

步骤S5：保留时间的矫正

对每一个cas_name，剩余的所有RT值进行分析，将该化合物剩余RT值的中位数作为该化合物的参考保留时间。

同时，对剩余数据进行合并，合并数据包括化合物名称、RT以及RT对应的检测结果(如峰面积、峰高)，获得二维数据矩阵。

步骤S6：缺失峰面积回填

为了减少RT对齐后，峰面积缺失情况，对满足cas_name的物质的峰面积进行相应的回填：对剔除的组别和/或原始下机数据中相同name和cas的物质进行保留时间窗口筛选，保留与参考保留时间的时间偏差在10s以内的峰，将相应的峰面积回填至RT矫正后的二维矩阵数据中。

实施例2

本实施例将实施例1的处理方法应用于一批GC-MS下机数据的处理，具体为化合物的cas_name＝"17301-32-5_Undecane,4,7-dimethyl-"的色谱下机数据的处理方法。

步骤S1：

原始定性数据：取3组相同类型的植物样本(记为C、D和S组)，用相同的方法处理，并用GC-MS检测。C组进10针，即C1-C10。D组进16针，即D1-D4、D7-D10、D12-D14、D16-D20。S组进8针，即S2-S9。

表1.样本信息表

通过GC-MS检测和NIST数据库匹配后。每针样本可以获得如下表所示的原始下机数据，该数据包括Name(表中的Hit1 Name)、RT、Area、Area％、Simility、CAS、Peak S/N和Quant S/N等信息。

表2.原始下机数据中的部分数据

再对34针样本的原始下机数据进行上述实施例1的数据清洗、数据过滤步骤，合并获得下表所示的物质列表。

表3.物质列表

根据样本类型将34针样本分为三组，即QC样本组(记为C组)、对照组(记为D组)和待测样本组(记为S组)。各组数据中17301-32-5_Undecane,4,7-dimethyl-对应的RT如下表所示(每个RT对应有Area等数据)。这些数据中存在一针检测结果中17301-32-5_Undecane,4,7-dimethyl-匹配有多个RT的情况，以致10针QC样本有14个RT，16针对照样本有26个RT、8针待测样本有13个RT。同时，也存在一针检测结果中不存在Simlarity>800、Peak S/N>50、Quant S/N>50、Area％>0.001的17301-32-5_Undecane,4,7-dimethyl-峰，即存在未获得17301-32-5_Undecane,4,7-dimethyl-及RT数据的样本。

表4. 17301-32-5_Undecan，,4,7-dimethyl-对应的RT列表

步骤S2：

计算该化合物所有样本的RT和各组RT的中位数和相对标准偏差。

表5. 17301-32-5_Undecan，,4,7-dimethyl-的RT的中位数和相对标准偏差

三组RT的相对标准偏差的中位数RSD_g为22.65％。

步骤S3：

由S2的结果可知，RSD₀和RSD_g在30％范围内(≤30％)，则保留17301-32-5_Undecane,4,7-dimethyl-及其对应数据。其中，D组和S组的RSD在30％范围内，C组的RSD超过30％(＞30％)，则保留D组和S组的数据，剔除C组的数据。

步骤S4：

计算D组和S组的每一RT与其分组对应的中位数RT_gn的差值，保留差值在±1min范围内的RT值：

D组中8.08922、14.87320、8.38485、8.38475、8.08920、10.30120、8.08917、8.09801、8.08910、8.09327被剔除；

S组中8.08932、8.09352被剔除。

17301-32-5_Undecane,4,7-dimethyl-的剩余RT数据如下表所示。

表6. 17301-32-5_Undecan，,4,7-dimethyl剩余RT数据列表

步骤S5：

对剩余RT及对应峰面积数据进行合并，获得二维数据矩阵，如下表。

表7.二维数据矩阵

Name	CAS	D1 RT	D1 Area	D2 RT	D2 Area
						Undecane，4，7-dimethyl-	17301-32-5	6.67241	145252963	6.80699	52165530

备注：D1_RT为D1样本中化合物对应的RT，D1 Area为D1样本中化合物对应的峰面积，D2_RT为D2样本中化合物对应的RT，D2 Aea为D2样本中化合物对应的峰面积。

计算表6中所有RT的中位值，即为17301-32-5_Undecane，4，7-dimethyl的参考保留时间，17301-32-5_Undecane，4,7-dimethyl的参考保留时间为6.81149min。

步骤S6：

上述数据处理过程中，舍弃了17301-32-5_Undecane，4，7-dimethyl-的C组数据，这样数据合并处理后得到的二维数据矩阵中C组的所有检测结果的17301-32-5_Undecane，4，7-dimethyl-的数据是缺失的。此时，返回原始下机数据或初始数据的C组对应数据中寻找在6.811515min±10s的17301-32-5_Undecane，4，7-dimethyl-数据，再将这些数据填充至二维数据矩阵中，则c组中RT为6.81592、6.67684、6.66377、6.66357、6.65929、6.81109、6.69384和6.83292及其对应的检测数据将会被找回，填充至二维数据矩阵中，最终获得包含化合物名称、RT和峰面积信息的二维数据矩阵，以用于后续的组学数据分析。缺失数据回填时，若没有找到符合要求的数据，则回填0。

需要说明的是，在其他实施例中，还可以再次通过表6的RT数据和找回的RT数据，再次计算最终的参考保留时间，参考保留时间为这些RT值的中位数，为680699min。对于二维数据矩阵中还缺失的17301-32-5_Undecane，4，7-dimethyl对应的样本检测数据，可以进一步到表2所示的该样本的原始下机数据中寻找RT在6.81149min±10s或6.80699min±10s内的相似度或不满足Simlarity＞800、Peak S/N＞50、Quant S/N＞50、Area％＞0.001中任一或多项的峰的数据，填充至二维数据矩阵中。

实施例3

对cas_name＝″17301-32-5_Undecane，4，7-dimethyl-″色谱下机数据进行处理，处理方法大致同实施例2，区别在于：

在步骤s3中，对于组内RSD＞30％的C组进行了保留；

在步骤s4中，剔除D组、s组和C组中RT在RTgn±1min外的数据。

本实施例的处理方法的流程可参照表2，保留的RT如下表。

表8. 17301-32-5_Undecane，4，7-dimethyl-剩余RT数据列表

对表8中RT及对应峰面积数据进行合并，获得二维数据矩阵，同时，计算表8中RT的中位数，即为参考保留时间6.80699min。

后续进行二维数据矩阵中的数据回填时，则直接在原始下机数据中寻找RT在6.80699min±10s内的相似度或不满足Simlarity＞800、Peak S/N＞50、Quant S/N＞50、Area％＞0.001中任一或多项的峰的数据，回填至二维数据矩阵中。

对比例1

验证本发明提供的处理方法与现有处理方法的效果差异。

从上述实施例2的GC-MS原始下机数据中选择4个存在多个保留时间的化合物(Ethylbenzen_100-41-4、Styrene_100-42-5、2-n-Propyl-1-heptanol_10042-59-8、Undecane，4，7-dimethyl_17301-32-5)作为示例，在C1-C6(样本编号，具体见实施例1)中挑选出这4个化合物对应的原始数据，如下表所示。

表9.C1原始下机数据中的示例化合物数据

Name	CAS	R.T.(minut	Area	Area％	Similarity	Formula	Quant S/N	S/N
									Ethylbenzene	100-41-4	9.11496	18688765	0.69101	961	C8H10	2700.3	713.9
Styrene	100-425	13.4349	1.08E+08	3.9799	955	C8H8	16362	9894.3
									Styrene	100-42-5	13.5827	35555385	1.3147	947	C8H8	5035.4	218.27
2-n-Propyl-1-heptanol	10042-59-8	10.2406	352711	0.013041	845	C10H22O	54.787	117.64
									2-n-Propyl-1-heptanol	10042-59-8	10.9142	22183	0.00082	934	C10H22O	8.5045	O0.31
Undecane，4，7-dimethyl-	17301-32-5	6.81592	412702	0.01526	818	C13H28	194.81	161.67
									Undecane，4，7-dimethyl-	17301-32-5	8.0893	564116	0.020858	814	C13H28	113.36	146.43

表10.C2原始下机数据中的示例化合物数据

Name	CAS	R.T.(minutes)	Area	Area％	Similarity	Formula	Quant S/N	S/N
									Ethylbenzene	100-41-4	9.07998	5528335	0.25283	961	C8H10	1252.5	3501.7
Ethylbenzene	100-41-4	9.1669	3998529	0.18287	966	C8H10	551.68	66.218
									Styrene	100-42-5	13.3999	1.28E+08	5.8747	954	C8H8	16019	10934
2-n-Propyl-1-heptanol	10042-59-8	8.38027	285587	0.013061	845	C10H22O	86.122	90.189
									2-n-Propyl-1-heptanol	10042-59-8	10.7836	323246	0.014783	882	C10H22O	60.155	83.447
2-n-Propyl-1-heptanol	10042-59-8	17.7373	270985	0.012393	872	C10H22O	54.38	60.984
									Undecane，4，7-dimethyl-	17301-32-5	6.8157	5767722	0.26378	778	C13H28	1076.5	301.8
Undecane，4，7-dimethyl-	17301-32-5	13.2739	127560	0.005834	808	C13H28	57.096	166.96

表11.C3原始下机数据中的示例化合物数据

Name	CAS	R.T.(minut	Area	Area％	Similarity	Formula	Quant S/N	S/N
									Ethylbenzene	100-41-4	9.11062	10920783	0.62085	960	C8H10	1530.3	415.2
Styrene	100-42-5	13.4306	75480443	4.2911	951	C8H8	10530	7273.9
									Styrene	100-42-5	13.6044	18308834	1.0409	935	C8H8	2562.8	83.143
2-n-Propyl-1-heptanol	10042-59-8	10.51	322129	0.018313	949	C10H22O	122.55	50.828
									2-n-Propyl-1-heptanol	10042-59-8	12.1094	430140	0.024454	925	C10H22O	53.535	744.71
2-n-Propyl-1-heptanol	10042-59-8	17.7592	373992	0.021262	916	C10H22O	63.087	727.71
									Undecane，4，7-dimethyl-	17301-32-5	6.67684	1.03E+08	5.8651	866	C13H28	9317.9	421.39
Undecane，4，7-dimethyl-	17301-32-5	8.09365	902322	0.051298	858	C13H28	175.88	2892.8

表12.C4原始下机数据中的示例化合物数据

Name	CAS	R.T.(minutes)	Area	Area％	Similarity	Formula	Quant S/N	S/N
									Ethylbenzene	10041-4	9.08446	12411527	0.45219	959	C8H10	1619.5	509.23
Ethylbenzene	100-41-4	10.9663	970694	0.035365	868	C8H10	155.49	24.863
									Styrene	100-42-5	13.4131	1.02E+08	3.716	956	C8H8	11263	8718.1
2-n-Propyl-1-heptanol	10042-59-8	8.38909	174633	0.006362	903	C10H22O	55.988	129.4
									2-n-Propyl-1-heptanol	10042-59-8	13.1741	175985	0.006412	862	C10H22O	33.429	40.421
2-n-Propyl-1-heptanol	10042-59-8	13.2958	27235	0.000992	920	C10H22O	12.402	97.156
									2-n-Propyl-1-heptanol	10042-59-8	15.0689	529649	0.019297	907	C10H22O	69.335	105.22

表13.C5原始下机数据中的示例化合物数据

C5
									Name	CAS	R.T.(minut	Area	Area％	Similarity	Formula	Quant S/N	S/N
Ethylbenzene	100-41-4	9.08016	4518096	0.30403	969	C8H10	801.67	273.67
									Styrene	100-42-5	13.3784	64921655	4.3687	957	C8H8	8520.6	5536.6
2-n-Propyl-1-heptanol	10042-59-8	8.3848	192309	0.012941	917	C10H22O	54.589	103.93
									2-n-Propyl-1-heptanol	10042-59-8	17.7201	204312	0.013748	691	C10H22O	45.409	67.193
Undecane，4，7-dimethyl-	17301-32-5	6.66377	94543982	6.362	871	C13H28	8895	324.22

表14.C6原始下机数据中的示例化合物数据

Name	CAS	R.T.(minutes)	Area	Area％	Similarity	Formula	Quant S/N	S/N
									Ethylbenzene	100-41-4	9.07996	8158172	0.5251	958	C8H10	1219.2	448.19
Styrene	100-42-5	13.4043	61617721	3.966	948	C8H8	8581.3	5868.8
									2-n-Propyl-1-heptanol	10042-59-8	8.38025	215312	0.013859	930	C10H22O	61.763	123
2-n-Propyl-1-heotanol	10042-59-8	10.814	43272	0.002785	857	C10H22O	15.554	15.46
									2-n-Propyl-1-heptanol	10042-59-8	12.0048	704068	0.045317	820	C10H22O	102.13	43.69
2-n-Propyl-1-heptanol	10042-59-8	13.1609	189405	0.012191	847	C10H22O	48.961	63.719
									2-n-Propyl-1-heptanol	10042-59-8	13.2869	70641	0.004547	868	C10H22O	33.607	104.36
2-n-Propyl-1-heptanol	10042-59-8	17.7459	254995	0.016413	865	C10H22O	51.24	76.92
									N-lsovaleroylglycine	16284-60-9	4.2863	7089.5	0.000456	763	C7H13NO	9.73	12.68
Undecane，4，7-dimethyl-	17301-32-5	6.66357	93087846	5.9916	859	C13H28	8944.4	341.01
									Undecane，4，7-dimethyl-	17301-32-5	8.08907	888323	0.057177	832	C13H28	163.16	216.87

基于原始下机数据，分别按现有的处理方法和本发明实施例1的处理方法分别进行处理。

1、现有的处理方法

现有的处理方法通过Similarity进行数据合并，以获得化合物的二维数据矩阵，即选择上述原始数据中每一化合物对应Similarity值最大的一行数据，将保留时间和峰面积合并，缺失数据用0进行填充，最终获得的二维数据矩阵如表15所示。

表15.按最大Similarity(现有方法)合并获得的二维数据矩阵

现有方法在进行数据合并时，没有基于参考保留时间，而是根据按相似度(Similarity)最大值来保留RT和峰面积并进行数据合并；若用于化合物定性，则取保留的RT的均值作为最终的保留时间。

2、本发明的处理方法

按实施例1提供的处理方法对于上述原始数据进行处理，该处C1-C6只有一组数据，所以RSD₀与RSD_g相同，计算的2-n-Propyl-1-heptanol 10042-59-8RSD₀为30.8％，则该化合物被剔除。获得Ethylbenzen_100-41-4、Styrene_100-42-5、Undecane，4,7-dimethyl_17301-32-5的参考保留时间依次为9.08446min、13.42185min和6.670305min。

最终获得的二维数据矩阵如表16所示。

表16.按本发明的处理方法获得的二维数据矩阵

对比上表15和表16数据可知，现有方法多一个化合物2-n-Propyl-1-heptanol的数据，但是该化合物的数据是极不准确的。在相同的检测方法下，同一化合物的保留时间应该是接近的，表5中C1、C2、C4、C5、C6的RT均明显不同。其次，表15和表16中Undecane,4,7-dimethyl-C2的数据是不同的。表15中C2的RT与其他组明显不同，该数据及对应C2 Area明显错误。表16中C2的RT与其他组更为接近，准确性更高。因此，使用本发明的处理方法可以获得更准确的二维数据矩阵。

实施例4

一种GC×GC-MS下机数据的处理方法。

使用GC×GC-MS检测两组血清样本(组1和组2各3份样本，每份样本检测一次)，获得GC×GC-MS下机数据。大致按照本发明实施例1的处理方法对获得的GC×GC-MS下机数据进行处理，区别在于：在步骤S4中，保留RT_ppm在±30s以内(RTppm的绝对值≤30s)的RT值，踢除RT_ppm在±30s以外(RTppm的绝对值＞30s)的RT值。

以两组血清样本中部分化合物数据为例，对GC×GC-MS下机数据的处理方法进行说明。

步骤S1：

原始定性数据：使用LECO软件导出GC×GC-MS的.csv格式的原始下机数据，其中，组1的3份样本的检测结果分别记为Z1-1、Z1-2、Z1-3，组2的3份样本的检测结果分别记为Z2-1、Z2-2、Z2-3。各检测结果中示例化合物对应的原始数据如下所示。

表17.Z1-1原始下机数据中的示例化合物数据

表18.Z1-2原始下机数据中的示例化合物数据

表19.Z1-3原始下机数据中的示例化合物数据

表20.Z2-1原始下机数据中的示例化合物数据

表21.Z2-2原始下机数据中的示例化合物数据

表22.Z2-3原始下机数据中的示例化合物数据

备注：表中1st Dimension Time为一维气相的保留时间(简称RT_1D)，2ndDimension Time(s)为二维气相的保留时间(简称RT_2D)。

数据清洗：去除血清样本中不可能存在的化合物数据或不感兴趣的化合物数据，如去除含硅等的污染物，这样表17～22中的Disiloxane,hexamethyl及其对应的数据被删除。

数据过滤：按Simlarity>800、Peak S/N>50、Quant S/N>50、Area％>0.001的阈值对上图的原始数据进行初步筛查，仅保留满足这些标准要求的各行数据。这样上表中Z1-1中第三行Hexanal、第五行Octanal等的数据被剔除；4-Hexyn-3-ol及对应的所有数据被剔除。

步骤S2：

获取经清洗、过滤后的数据，其中化合物名称及对应RT_1D汇总如下表23所示，计算每一化合物所有RT_1D的相对标准偏差RSD₀，并分别计算各组的RT_1D的相对标准偏差RSD_gn(RSD_g1和RSD_g2)，并计算各组RSD_gn的中位值RSD_g，具体如下。

表23.RT_1D的汇总结果(单位：s)

表24.RT_1D的RSD值计算结果

名称	Z1 RSD_g1	Z2 RSD_g2	RSD₀	RSD_g
					Hexanal	0	0	0	0
Octanal	0	0	0	0
					Benzene,1,3-bis(1,1-dimethylethyl)-	0	0	0	0
Benzaldehyde	0	0	0	0
					1-Decanol	0	0	0	0
Naphthalene,1-methyl-	25.0％	25.3％	25.3％	25.2％
					Indole	0	0	0	0
Heptane,2,4-dimethyl-	38.4％	8.9％	32.7％	23.7％
					Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-	/	0	0	0

步骤S3：

按RSD₀与RSD_g的设定阈值均为30％进行筛选，剔除不满足要求的化合物数据，则Heptane,2,4-dimethyl-被剔除。

步骤S4：

计算剩余各化合物数据的各组RT的中位数RT_gn，并按RT与RT_gn的差值的绝对值≤30s分别对组内数据进行筛选，则Naphthalene,1-methyl-数据中不满足的2353.86等被剔除。通过RT计算筛选后化合物及保留的RT数值情况如下表。

表25.RT_1D筛选后数据(单位：s)

步骤S5：

计算筛选后各化合物保留的RT的中位数即为参考保留时间(简写为RT_C)。

根据保留下来的化合物及保留时间，对这些化合物的数据进行合并，获得化合物名称及对应保留时间、峰面积的二维数据矩阵，如下表所示。

表26.剩余化合物及保留时间对应数据合并后的二维数据矩阵

/>

步骤S6：

根据参考保留时间对二维数据矩阵中缺失的数据进行回填，具体为：对于缺失的数据，从原始数据(如表17～表22所示)中寻找每一化合物在RT_C±10s范围内的RT及对应峰面积值，将其填充至二维数据矩阵中，在RT_C±10s范围内有多个数据的，可选择保留时间最接近RT_C的那个数据。在RT_C±10s范围内没有找到数据的，则回填0。

回填后的二维数据矩阵如下表所示。

表27.回填后的二维数据矩阵

/>

对于表26中缺失数值，为了进行后续的数据分析，例如聚类分析（如K-means聚类）、多元统计分析（如PCA分析)、差异分析(如OPLS-DA)等，需要进行缺失数据的填充。现有方法一般在这些缺失处都填充0。

本申请基于参考保留时间，再去原始数据中寻找缺失数据处可能存在的实际检测数值，将这些数据填充至缺失处。如表26和表27，Hexanal的缺失数据在Z2-1的原始数据中没有找到满足要求的数据，则按现有方法填充为0，Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-在Z1-1、Z1-2和Z1-3原始下机数据中均找到了满足RT在参考保留时间±10s内的数据，将其回填至相应的缺失部位。

查看Z1-1、Z1-2和Z1-3 3个原始下机数据中Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-对应的Simlarity等数据可以发现除了RT相同外，这3份数据中Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-的Simlarity与组2的3份数据中的也是相近的，只是质谱响应偏低一点，说明这3份数据中Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-数据的准确性是较高的，将对应的RT和峰面积回填至二维数据矩阵中，相对于回填0而言，这样获得的二维数据矩阵更为接近实际值，数据质量相对更高。

实施例5

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，按照RSD₀与RSD_g对应的设定阈值均为10％进行筛选。这时对于几个化合物示例(同实施例4)来说，其中的Naphthalene,1-methyl-则也同Heptane,2,4-dimethyl-一样被剔除。

实施例6

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，按照RSD₀与RSD_g对应的设定阈值均为20％进行筛选。这时对于这时对于几个化合物示例(同实施例4)来说，其结果同实施例5。

实施例7

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，RSD₀与RSD_g对应的设定阈值均为40％。这时对于几个化合物示例(同实施例4)来说，Heptane,2,4-dimethyl-也会被保留。

通过RT筛选后(S4步骤后)的保留的RT情况如下表：

表28.RSD₀与RSD_g的设定阈值均为40％时，RT_1D筛选后数据和RT_C值(单位：s)

由上表数据可知，Heptane,2,4-dimethyl-20739-59-7在Z1-1和Z1-2中仍然存在两个保留时间。这时进行数据合并获得二维数据矩阵，选择与参考保留时间更接近的RT及对应峰面积进行数据回填(回填的方法同实施例4)，最终获得的二维数据矩阵如下表。

表29.RSD₀与RSD_g的设定阈值均为40％时的二维数据矩阵

实施例8

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，RSD₀与RSD_g对应的设定阈值均为50％，这时对于几个化合物(同实施例4和7)示例来说，其结果同实施例7。

实施例9

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，RSD₀的设定阈值为10％，RSD_g的设定阈值为30％，这时对于几个化合物示例(同实施例4和5)来说，其结果同实施例5。

实施例10

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，RSD₀的设定阈值为30％，RSD_g的设定阈值为10％。这时对于化合物示例(同实施例4和5)来说，其结果同实施例5。

实施例11

一种GC×GC-MS下机数据的处理方法，大致步骤同实施例4，区别在于：在步骤S3中，RSD₀的设定阈值为＜40％，与RSD_g的设定阈值为＜30％。这时对于几个化合物示例(同实施例4)来说，其结果同实施例4。

上述实施例只是用于示例性的解释本发明，实际使用液质或气质进行代谢组学检测时，获得每一原始下机数据中的化合物可以达到成百千上甚至上万个，检测的样本量有几个、几十个、几百个、几千个以致上万个。这些原始下机数据均可以使用本发明的方法进行处理。数据量越多，通过本发明方法处理获得的参考保留时间的统计学意义更高，也更具有参考价值。参考保留时间即可以用于上述的数据回填，也可以用于色谱峰识别或化合物鉴定，尤其适用于对照品难以获得的情况。例如，通过本发明的方法获得某一LC-MS或GC-MS检测方法的参考保留时间后，当在相同的LC-MS或GC-MS检测方法下检测相同类型的样本时，可以参照参考保留时间对该样本中的色谱峰进行识别。

此外，对于二维气相色谱或二维液相色谱，会存在两种保留时间，除了上述的用本发明的方法通过一维保留时间对数据进行筛选外，也可以采用本发明的处理方法通过二维保留时间对数据进行筛选，甚至可以通过一维保留时间和二维保留时间同时进行数据筛选。例如，分别计算一维保留时间和二维保留时间的RSD₀和RSD_gn，分别设置一维保留时间和二维保留时间的RSD阈值，只有都满足各自阈值要求的化合物数据才保留。

实施例12

参考保留时间的准确性验证。

为了对上述参考保留时间的准确性进行验证，本实施例购买了Hexanal、Octanal、Benzene,1,3-bis(1,1-dimethylethyl)-、Benzaldehyde、1-Decanol、Naphthalene,1-methyl、Indole对照品，按上述原始下机数据相同的GC×GC MS进行检测，实测保留时间情况如下表。

表30.对照品保留时间

名称	RT_1D	RT_2D
			Hexanal	729.962	1.915
Octanal	1113.94	2.072
			Benzene,1,3-bis(1,1-dimethylethyl)-	1345.92	2.924
Benzaldehyde	1513.91	1.506
			1-Decanol	1945.88	2.268
Naphthalene,1-methyl-	2233.87	2.508
			Indole	3217.8	1.336

由上表结果可知，这些对照品检测获得的RT_1D数值与上述通过本发明提供的处理方法获得的参考保留时间(表25)的结果是一致的，说明本发明的方法获得的参考保留时间是准确的。可将参考保留时间应用于色谱峰识别以及上述的数据回填。

实施例13

一种GC×GC-MS下机数据的处理方法，大致与实施例4相同，区别在于在步骤S3之后、在步骤S4之前还包括步骤S401和S402。

步骤S401：

对剔除的同一名称和/或CAS号的化合物的数据进行筛选：在剔除的同一名称和/或CAS号的化合物的数据中，踢除组内离散程度＞其对应的设定阈值的组别，在本实施例中，踢除RSD_g＞30％的组别；

对保留的组别的组内数据进行筛选，踢除RT值＞其对应的设定阈值的数据。RT值在对应的设定阈值范围外的判断标准包括：计算每一RT值与该RT值所在分组中RT值的中位数(RT_gn)的差值RT_ppm，若该差值的绝对值≤阈值(30s)，则判断该RT值位于对应的设定阈值范围内；若该差值的绝对值＞阈值(30s)，则判断该RT值位于对应的设定阈值范围外。

步骤S402：

重复步骤S2、S3和S401，直至满足步骤S3的判断标准。

本实施例以实施例4在步骤S3被剔除的化合物Heptane,2,4-dimethyl-为例进行说明。

Heptane,2,4-dimethyl-被剔除后，按以下方法处理：

步骤S401：

对Heptane,2,4-dimethyl-的数据进行筛选，剔除组内不满足要求的组别，则Heptane,2,4-dimethyl-Z1的数据被剔除，剩余Z2的RT_1D(单位：s)为：257.992、313.988、257.992、257.992。

重复步骤S2～S3(同实施例4)：Heptane,2,4-dimethyl-RSD₀＝RSD_g2＝8.9％；满足步骤S3要求，Heptane,2,4-dimethyl-被保留。

步骤S4～S6(同实施例4)：Heptane,2,4-dimethyl-剩余的RT_1D(单位：s)有：257.992、257.992、257.992，参考保留时间为257.992s，对应获得的二维数据矩阵同表29。

实施例14

一种GC×GC-MS下机数据的处理方法，大致与实施例13相同，区别在于在步骤S3中，对于保留的cas_name化合物的数据：不剔除RSD_gn＞30％的组别数据。

以实施例4在步骤S3被剔除的化合物Heptane,2,4-dimethyl-为例进行说明。

Heptane,2,4-dimethyl-被剔除后，按以下方法处理：

步骤S401：

对Heptane,2,4-dimethyl-的数据进行筛选，剔除RT_1D在RSD_gn±30s范围外的数据，则Heptane,2,4-dimethyl-剩余的RT_1D(单位：s)为：

Z1：257.992、265.991、257.992、265.991；

Z2：257.992、257.992、257.992、257.992。

重复步骤S2～S3：RSD_g1、RSD_g2、RSD₀分别为1.5％、0.0％、1.3％；Heptane,2,4-dimethyl-满足步骤S3要求，被保留。

步骤S4～S6：Heptane,2,4-dimethyl-的参考保留时间为257.992s。对于仍然存在两个保留时间的样本，在进行数据合时，选择与参考保留时间更接近的RT及对应峰面积进行合并，最终获得的二维数据矩阵同表29。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种色谱下机数据的处理方法，其特征在于，其包括：

S3：对化合物的离散程度进行判断：

S4：对保留的化合物的组别的组内数据进行筛选，去除RT值在其对应的设定阈值范围外的数据；

2.根据权利要求1所述的处理方法，其特征在于，在步骤S3后、S4前，所述处理方法还包括：

S402：重复步骤S2、S3和S401，直至满足步骤S3的判断标准。

3.根据权利要求1所述的处理方法，其特征在于，所述离散程度由相对标准偏差、方差、极差和四分位差中的任意一种或多种表示；

可选地，在步骤S3中，所述至少一组RT的组内离散程度≤其对应的设定阈值包括：全部组别RT的组内离散程度≤其对应的设定阈值；

可选地，所述全部组别RT的组内离散程度包括所有的分组对应的组内离散程度的中位数；

可选地，当离散程度取相对标准偏差时，所述第一离散程度对应的设定阈值为10％～40％；

可选地，当离散程度取相对标准偏差时，所述第二离散程度对应的设定阈值为10％～40％。

4.根据权利要求1所述的处理方法，其特征在于，在步骤S4中，RT值在其对应的设定阈值范围外的判断标准包括：

计算每一RT值与该RT值所在分组中RT的中位数的差值，若该差值的绝对值≤阈值，则判断该RT值位于对应的设定阈值范围内；若该差值的绝对值＞阈值，则判断该RT值位于对应的设定阈值范围外；

可选地，所述阈值选自1s～5min；

可选地，对同一名称和/或同一CAS号的化合物剩余的所有RT值进行计算的方式包括：取剩余RT值的平均值或中位数作为参考保留时间。

5.根据权利要求1所述的处理方法，其特征在于，在步骤S5中，所述处理方法还包括：对化合物保留的数据进行合并，以获得该化合物的二维数据矩阵；

可选地，在步骤S5后，所述处理方法还包括：

S6：将所述初始数据中删除的在所述参考保留时间附近的峰的数据回填至二维数据矩阵的缺失部分；

可选地，在步骤S6中，所述处理方法还包括基于回填后的二维数据矩阵，重新计算参考保留时间：将回填的RT值与S5步骤中剩余的RT值混合，取中位数作为最终的参考保留时间；

可选地，在步骤S6之前或之后，所述处理方法还包括：基于空白样本数据对所述二维数据矩阵中的数据进行去除，以去除空白样本中的干扰化合物的数据。

6.根据权利要求1～5任一项所述的处理方法，其特征在于，所述初始数据还包括：色谱峰面积、色谱峰面积比例、相似度、色谱峰信噪比和定量离子信噪比中的任意一种或多种。

7.根据权利要求1～5任一项所述的处理方法，其特征在于，所述色谱下机数据包括：液相色谱、气相色谱和离子色谱中的任意一种与质谱检测获得的下机数据。

8.根据权利要求1～5任一项所述的处理方法，其特征在于，所述化合物包括：经色谱分离检测的物质；

可选地，所述化合物包括：小分子代谢物；

可选地，所述小分子代谢物选自：有机酸、酮类、多肽、氨基酸、胺类、醛类、醇类、脂类、类固醇、糖类、核苷和生物碱中的任意一种或多种。

9.根据权利要求1～5任一项所述的处理方法，其特征在于，所述待测样本包括1组和/或多组；

可选地，当所述待测样本包括多组样本时，所述样本信息包括分组信息；

可选地，所述多组的组别包括：对照组样本、实验组样本和QC组样本中的任意一种或多种；

可选地，所述多组的组别包括：根据不同批次进行分组的检测样本和/或根据不同检测时间进行分组的检测样本。

10.如权利要求1～9任一项所述的处理方法在化合物定性和/或注释中的应用。