CN117805308A - 一种色谱下机数据的处理方法及其相关应用 - Google Patents

一种色谱下机数据的处理方法及其相关应用 Download PDF

Info

Publication number
CN117805308A
CN117805308A CN202311872581.3A CN202311872581A CN117805308A CN 117805308 A CN117805308 A CN 117805308A CN 202311872581 A CN202311872581 A CN 202311872581A CN 117805308 A CN117805308 A CN 117805308A
Authority
CN
China
Prior art keywords
data
group
compound
degree
retention time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311872581.3A
Other languages
English (en)
Inventor
王春燕
黄银
胡云云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Panomic Biotechnology Co ltd
Original Assignee
Sichuan Panomic Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Panomic Biotechnology Co ltd filed Critical Sichuan Panomic Biotechnology Co ltd
Priority to CN202311872581.3A priority Critical patent/CN117805308A/zh
Publication of CN117805308A publication Critical patent/CN117805308A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种色谱下机数据的处理方法及其相关应用,涉及生物检测领域。本发明通过对色谱下机数据RT值的分布进行统计分析并过滤,剔除了异常数据,矫正了化合物的保留时间,克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题,将矫正后的保留时间应用于缺失峰面积数据的填充,提高了合并后二维数据矩阵的可靠性;相对于现有方法而言,本发明提供的处理方法确定的参考保留时间更接近实际值,且获得二维数据矩阵的准确性更高,应用于化合物定性和注释,能够避免或减少假阳性定性结果。

Description

一种色谱下机数据的处理方法及其相关应用
技术领域
本发明涉及生物检测领域,具体而言,涉及一种色谱下机数据的处理方法及其相关应用。
背景技术
通过液相色谱联用质谱(LC-MS或LC-MS/MS)或气相色谱联用质谱(GC-MS或GC-MS/MS)进行代谢组学分析时,会产生大量的检测数据。为了进行后续的统计分析,首先,需要对这些数据进行清洗、对齐、合并等操作将数据转换为二维数据矩阵,再进行后续的组学分析。在实际检测过程中,使用不同厂家的仪器、不同操作人员、不同时间、不同批次的样本等均会使同一化合物在相同检测条件下的保留时间产生漂移,这样在合并处理这些数据时,一个化合物会存在多个保留时间。
此外,通过现有的质谱数据库对检测结果进行定性分析时,将数据库中的质谱图与检测的质谱图进行匹配,从而确定检测的化合物名称、结构等信息,例如通过NIST数据库匹配GC-MS检测的质谱图。然而,质谱数据库和实际检测是存在差异的,匹配的结果不一定正确,有时匹配后会发现,同一针样品检测结果中的一个化合物名称会出现在两个甚至多个位置,即一个检测结果中一个化合物存在多个保留时间,一个保留时间也可能对应多个化合物,这时需要从多个保留时间中确定一个最准确的保留时间和化合物名称。
鉴于此,特提出本发明。
发明内容
本发明的目的在于提供一种色谱下机数据的处理方法及其相关应用。
本发明是这样实现的:
第一方面,本发明实施例提供了一种色谱下机数据的处理方法,其包括:
S1:获取待处理样本的色谱下机的初始数据;所述初始数据包括:化合物名称和/或化合物CAS号、化合物匹配的色谱保留时间和样本信息;
S2:分别对同一名称和/或同一CAS号的化合物对应的色谱保留时间进行统计分析,获取该化合物色谱保留时间的离散程度;其中,所述离散程度包括第一离散程度和第二离散程度,所述第一离散程度包括该化合物的所有RT的离散程度或组间离散程度,所述第二离散程度包括:该化合物每组RT的组内离散程度和/或全部组别RT的组内离散程度;
S3:对化合物的离散程度进行判断:
若所述第一离散程度≤其对应的设定阈值且至少一组RT的组内离散程度≤其对应的设定阈值,则保留该化合物,并保留该化合物组内离散程度≤其对应的设定阈值的数据,剔除或保留该化合物组内离散程度>其对应的设定阈值的组别数据;
若所述第一离散程度>其对应的设定阈值和/或所述全部组别RT的组内离散程度>其对应的设定阈值,则剔除该化合物及其对应数据;
S4:对保留的化合物的组别的组内数据进行筛选,去除RT值在对应的设定阈值范围外的数据;
S5:对同一名称和/或同一CAS号的化合物剩余的所有RT值进行分析,获得该化合物的参考保留时间。
第二方面,本发明实施例提供了如前述实施例所述的处理方法在化合物定性和/或注释中的应用。
本发明具有以下有益效果:
本发明基于特定方法对色谱下机数据进行处理,剔除了异常数据,矫正了化合物的保留时间,克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题,将矫正后的保留时间应用于缺失峰面积数据的填充,提高了合并后二维数据矩阵的可靠性;相对于现有方法而言,本发明提供的处理方法确定的参考保留时间更接近实际值,且获得二维数据矩阵的准确性更高,应用于化合物定性和注释,能够避免或减少假阳性定性结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的一种色谱下机数据的前处理方法;
图2为本发明提供的一种色谱下机数据的前处理方法;
图3为本发明提供的一种色谱下机数据的前处理方法;
图4为本发明提供的一种色谱下机数据的前处理方法。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
本发明基于特定的处理方法对色谱下机数据进行处理,剔除了异常数据,矫正了化合物的保留时间,能够从同一化合物在相同检测条件下产生的多个保留时间中确认一个最准确的保留时间,克服或减少了同一化合物在相同检测条件下的保留时间产生漂移的问题,相对于现有方法而言,本发明提供的处理方法确定的参考保留时间更接近实际值;同时,将矫正后的保留时间(参考保留时间)应用于缺失峰面积数据的填充,还进一步提高了合并后二维数据矩阵的可靠性,将基于参考保留时间获得的二维数据矩阵应用于化合物定性和注释,能够有效避免或减少假阳性定性结果,提高化合物定性分析的准确性。
具体的技术方案
一方面,本发明实施例提供了一种色谱下机数据的处理方法,其包括:
S1:获取待处理样本的色谱下机的初始数据;所述初始数据包括:化合物名称和/或化合物CAS号、化合物匹配的色谱保留时间和样本信息;
S2:分别对同一名称和/或同一CAS号的化合物对应的色谱保留时间进行统计分析,获取该化合物色谱保留时间的离散程度;其中,所述离散程度包括第一离散程度和第二离散程度,所述第一离散程度包括该化合物的所有RT的离散程度或组间离散程度,所述第二离散程度包括:该化合物每组RT的组内离散程度和/或全部组别RT的组内离散程度;
S3:对化合物的离散程度进行判断:
若所述第一离散程度≤其对应的设定阈值且至少一组RT的组内离散程度≤其对应的设定阈值,则保留该化合物,并保留该化合物组内离散程度≤其对应的设定阈值的数据,剔除或保留组内离散程度>其对应的设定阈值的组别数据;
若所述第一离散程度>其对应的设定阈值和/或所述全部组别RT的组内离散程度>其对应的设定阈值,则剔除该化合物及其对应数据;
S4:对保留的化合物的组别的组内数据进行筛选,去除RT值在对应的设定阈值范围外的数据;
S5:对同一名称和/或同一CAS号的化合物剩余的所有RT值进行分析,获得该化合物的参考保留时间。
本发明实施例提供的处理方法的流程示意图可参照图1和图2。图1和图2大致相同,区别在于S3步骤中,图1为剔除组内离散程度>其对应的设定阈值的组别数据,图2为保留组内离散程度>其对应的设定阈值的组别数据。针对图2所示的处理方法,由于组间离散程度或所有RT的离散程度已经说明该化合物整体的RT离散程度满足基本要求,所以在步骤S3可以选择保留组内离散程度>其对应的设定阈值的组别数据。
本文中的“化合物名称”,又称为name,指色谱下机数据中通过自动数据库匹配和/或人为标注等方法得到的色谱峰对应的化合物名称。
本文中的“RT”又称Retention Time或保留时间或出峰时间,可以为一般含义的保留时间,即被分离样品组分从进样开始到柱后出现该组分浓度极大值时的时间,也即从进样开始到出现某组分色谱峰的顶点时为止所经历的时间,具体可以为一维液相或气相的保留时间,和/或二维气相或液相的保留时间。所述保留时间还可以为相对保留时间,即某组分的校正保留时间与相应标样的校正保留时间之比。在无特殊说明的情况下,本文中的保留时间理解为一般含义的保留时间。
本文中的“Area”为峰面积,具有一般峰面积的含义,即在色谱图背景线上部的色谱峰的面积。
本文中的“Area%”为峰面积比例,指色谱峰的峰面积占总峰面积的比例,如按面积归一化法处理时,某一或多个色谱峰的面积百分比。
本文中的“Similarity”为相似度,具体为实测质谱数据与数据库中匹配的化合物数据的相似程度。
本文中的“CAS”,为CAS Number,是物质数字识别号码。
本文中的“Peak S/N”(或S/N)为峰信噪比。
本文中的“Quant S/N”为定量离子信噪比。
本文中的“色谱下机数据”是指通过色谱仪器分离检测后获得的数据,一般使用液相色谱、气相色谱或离子色谱等色谱仪与紫外、质谱检测器联用获得,例如LC-UV/MS/ELSD/CAD、GC-FID/MS、IC-ECD/CLD/CAD/MS(离子色谱-电导检测器/)的下机数据。相对于其他检测器,MS(MSD,质谱检测器)具有高通量、高灵敏度等特点,可以获得更大量的检测数据。本申请的方法尤其适用通过色谱仪联用MS获得的下机数据的处理,例如,用LC-MS或GC-MS进行代谢组学试验时的色谱下机数据。
在一些实施例中,在步骤S1中,所述处理方法还包括对获取后的色谱下机数据进行数据清洗和数据过滤。需要说明的是,本发明对数据清洗和数据过滤的方式无特殊限定,可基于常规的方式进行,并非本发明的主要的技术构思。
在一些实施例中,数据清洗包括以下步骤:对原始下机数据进行数据的清洗,包括进行特殊字符替换、无机气体去除(不含C、H元素的物质,如CO2、CS2、H2等)、污染物去除(含Si、TMS、TDMS等),对清洗后的数据进行下一步分析。
在一些实施例中,数据过滤包括以下步骤:合并清洗后的所有数据,进行Simlarity≥800、Peak S/N≥50、Quant S/N≥50、Area%≥0.001的过滤,过滤阈值条件可进行自行设置。将相似度Simlarity设置为800,经过过滤后,化合物特征至少在一个样本中满足上述的条件被保留。经过滤去重后,将cas_name(化合物名称和相应cas号)进行组合,获得唯一物质列表,cas编号未知的物质也会被保留进行后续分析。对于每一cas_name会对应多组数据(n组),每组数据有多个RT值并包括RT对应的Area、Area%等数据。
需要说明的是,Simlarity越大说明二者(实测质谱数据与数据库中匹配的化合物数据)的相似程度越高,匹配的结果越准确。Peak S/N、Quant S/N反应了化合物的质谱响应强度。Area%为某一色谱峰的峰面积占总峰面积的百分比。这四个指标设定的阈值越高,满足的化合物越少,同时这些满足阈值保留下来的化合物的重要性及数据准确性越高,相反,阈值越低,化合物越多,准确性越低。当需要定性检测出更多的化合物的时候,可以将阈值进行适当的放宽,例如,想保留Area%更小的化合物时,可以将Area%的阈值设定为>0.0005、0.0002、0.0001等。可以根据检测需要选择这四个中的一个或多个指标设置阈值进行数据筛选。
通过步骤S3能剔除匹配明显异常的化合物,以及RT值明显异常的组别数据。
在一些实施例中,所述待测样本包括1组和/或多组。
当待测样本为1组时,所述第一离散程度可以为该化合物的所有RT的离散程度;所述第二离散程度中,该化合物每组RT的组内离散程度与全部组别RT的组内离散程度相同。
当待测样本为多组时,所述第一离散程度可以为该化合物的所有RT的离散程度或该化合物的组间离散程度。
在一些实施例中,当所述待测样本包括多组样本时,所述样本信息包括分组信息。
在一些实施例中,所述多组的组别包括:对照组样本、实验组样本和QC组样本中的任意一种或多种。
在一些实施例中,所述多组的组别包括:根据不同批次进行分组的检测样本和/或根据不同检测时间进行分组的检测样本。
在一些实施例中,所述离散程度由相对标准偏差、方差、极差和四分位差中的任意一种或多种表示。
在一些实施例中,在步骤S3中,所述至少一组RT的组内离散程度≤其对应的设定阈值包括:全部组别RT的组内离散程度≤其对应的设定阈值。
在一些实施例中,所述全部组别RT的组内离散程度包括所有的分组对应的组内离散程度的中位数。例如,当分组的组内离散程度取相对标准偏差时,所述全部组别RT的组内离散程度取所有的分组RT对应的组内相对标准偏差的中位数。
在一些实施例中,当离散程度取相对标准偏差时,所述第一离散程度对应的设定阈值为10%~40%。该设定阈值具体可以为10%、12%、14%、16%、18%、20%、22%、24%、26%、28%、30%、32%、34%、36%、38%、40%中的任意一种或任意两种之间的范围。
在一些实施例中,当离散程度取相对标准偏差时,所述第二离散程度对应的设定阈值为10%~40%。所述第二离散程度对应的设定阈值具体为该化合物每组RT的组内离散程度对应的设定阈值和/或全部组别RT的组内离散程度对应的设定阈值,当其同时包括两者时(多组样本的情况),该化合物每组RT的组内离散程度对应的设定阈值和全部组别RT的组内离散程度对应的设定阈值均可以独立地选自10%~40%。该设定阈值具体可以为10%、12%、14%、16%、18%、20%、22%、24%、26%、28%、30%、32%、34%、36%、38%、40%中的任意一种或任意两种之间的范围。
需要说明的是,本发明实施例对离散程度的阈值设定越严格(当离散程度为相对标准偏差时,“严格”理解为RSD0和/或RSDg的设定阈值越小),则能去除更多的异常数据,使得到的参考保留时间越接近实际值,同时获得的二维数据矩阵的数据的准确性相对更高。同时,阈值设定越宽松,能获得的数据将会更多,这里二维数据矩阵中的化合物将会更多,但数据的准确性会相对下降。因此,可以根据实际的检测需求,设置合理的阈值。
在一些实施例中,在步骤S4中,RT值在对应的设定阈值范围外的判断标准包括:
计算每一RT值与该RT值所在分组中RT值的中位数的差值,若该差值的绝对值≤阈值,则判断该RT值位于对应的设定阈值范围内;若该差值的绝对值>阈值,则判断该RT值位于对应的设定阈值范围外。本发明对该阈值的选择无特殊的限定,可基于实际情况进行选择,并非本发明的主要发明构思。
对于阈值的设定,可以根据实际保留时间漂移情况、检测时长等进行调整,例如,对于运行时间长的LC-MS或GC-MS检测方法,如运行时间为60min及以上,阈值设定为1min,对于运行时间短的放入,如运行时间为20min及以下的,阈值设定为20s;对于保留时间本身就波动很大的检测方法,可以适当放宽RT阈值;等等。实际过程中可以综合多个因素设置合理的阈值。
在一些实施例中,所述阈值选自1s~5min。该阈值具体可以为1s、5s、10s、15s、20s、25s、30s、35s、40s、45s、50s、55s、1min、1.5min(1min30s)、2min、2.5min、3min、3.5min、4min、4.5min、5min中的任意一种或任意两种之间的范围。
在一些实施例中,在步骤S3后、步骤S4前,所述处理方法还包括:
S401:对剔除的同一名称和/或CAS号的化合物的数据进行筛选:踢除组内离散程度>其对应的设定阈值的组别;对保留的组别的组内数据进行筛选,踢除RT值>其对应的设定阈值的数据;
S402:重复步骤S2、S3和S401,直至满足步骤S3的判断标准。可以理解的是,对于满足步骤S3判断标准的数据继续进行后续相关步骤。
含有步骤S401和S402的处理方法的流程示意图可参照图3和图4。对于步骤S3中不满足要求的化合物,可以先删除不满足阈值要求的组别和/或组内数据,直至RT分布特征满足相应要求,再进行后续步骤。
在一些实施例中,当S401步骤中的组内离散程度取相对标准偏差时,所述组内离散程度对应的设定阈值为10%~40%。该设定阈值具体可以为10%、12%、14%、16%、18%、20%、22%、24%、26%、28%、30%、32%、34%、36%、38%、40%中的任意一种或任意两种之间的范围。
在一些实施例中,当对S401步骤中保留组别的组内数据进行筛选时,RT值在其对应的设定阈值范围外的判断标准同任意实施例所述的步骤S4中RT值在其对应的设定阈值范围外的判断标准。
在一些实施例中,对同一名称和/或同一CAS号的化合物剩余的所有RT值进行计算的方式包括:取剩余RT值的平均值或中位数作为参考保留时间。此处的“剩余RT值”是指保留的RT值或经剔除后获得的RT值。
在一些实施例中,在步骤S5中,所述处理方法还包括:对化合物保留的数据进行合并,以获得该化合物的二维数据矩阵。合并数据包括合并化合物名称、RT值以及RT对应的检测结果(如峰面积、峰高),以获得二维数据矩阵。
通过S1~S5的步骤的处理,剔除了明显异常的数据,获得了准确性较高的参考保留时间。
在一些实施例中,在步骤S5后,所述处理方法还包括:
S6:将所述初始数据中删除的在所述参考保留时间附近的峰的数据回填至二维数据矩阵的缺失部分。即以参考保留时间为参考,寻找原始数据或初始数据中在参考保留时间附近的峰,将该峰的数据填充至缺失部分。优选地,在原始数据或初始数据中,该峰匹配的化合物名称与参考保留时间对应的化合物相同。例如,在步骤S3删除了组内离散程度不满足要求的组别会导致这部分数据的缺失,此时可以从删除的组别数据中找回在参考保留时间附近的数据;除此以外,在步骤S1的处理过程中删除的相似度低或响应低的数据也可能是实际检测的数据,可以通过参考保留时间找回,这样进一步提高了二维数据矩阵数据的准确性。
在一些实施例中,在所述参考保留时间附近是指:与所述参考保留时间的时间偏差为1s~5min。具体地,该时间偏差为1s、5s、10s、15s、20s、25s、30s、35s、40s、45s、50s、55s、1min、1.5min(1min30s)、2min、2.5min、3min、3.5min、4min、4.5min、5min中的任意一种或任意两种之间的范围。
在一些实施例中,在步骤S6中,所述处理方法还包括基于回填后的二维数据矩阵,重新计算参考保留时间:将回填的RT值与S5步骤中剩余的RT值混合,取中位数作为最终的参考保留时间。需要说明的是,在另一些实施例中,也可以省略该步骤(最终的参考保留时间),步骤S5计算获得的参考保留时间相对于现有处理方法计算的保留时间已经具有较高的准确性。
在一些实施例中,在步骤S6之前或之后,所述处理方法还包括:基于空白样本数据对所述二维数据矩阵中的数据进行去除,以去除空白样本中的干扰化合物的数据。
在一些实施例中,所述初始数据还包括:色谱峰面积、色谱峰面积比例、相似度、色谱峰信噪比和定量离子信噪比中的任意一种或多种。
在一些实施例中,所述色谱下机数据包括:液相色谱、气相色谱和离子色谱中的任意一种与质谱检测获得的下机数据。
在一些实施例中,所述化合物的包括:经色谱分离检测的物质。可选地,所述化合物包括:小分子代谢物。可选地,所述小分子代谢物选自:有机酸、酮类、多肽、氨基酸、胺类、醛类、醇类、脂类、类固醇、糖类、核苷和生物碱中的任意一种或多种。
此外,本发明实施例还提供了如前述任意实施例所述的处理方法在化合物定性和/或注释中的应用。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例1
一种GC-MS下机数据的处理方法,其包括以下步骤。
步骤S1:
原始数据:针对气相色谱质谱仪器下机数据,如LECO等商业软件数据的.csv数据格式,对单个数据结果需要进行数据的合并,合并成以行为化合物特征和列为样本的二维数据矩阵。原始数据中包含以下数据列信息:Name(化合物名称)、R.T(min)(保留时间)、CAS(CAS号)、Area(色谱峰面积)、Area%(色谱峰面积比例)、Similarity(相似度)、Peak S/N(色谱峰信噪比)和Quant S/N(定量离子信噪比)。
数据清洗:对原始下机数据进行数据的清洗,包括进行特殊字符替换、无机气体去除(不含C、H元素的物质,如CO2、CS2、H2等)、污染物去除(含Si、TMS、TDMS等),对清洗后的数据进行下一步分析。
数据过滤:合并清洗后的所有数据,进行Simlarity>800、Peak S/N>50、Quant S/N>50、Area%>0.001的过滤,过滤阈值条件可进行自行设置。将相似度Simlarity设置为800,经过过滤后,化合物特征至少在一个样本中满足上述的条件被保留。经过滤去重后,将cas_name(化合物名称和相应cas号)进行组合,获得唯一物质列表,cas编号未知的物质也会被保留进行后续分析。对于每一cas_name会对应多组数据(n组),每组数据有多个RT值并包括RT对应的Area、Area%等数据。
步骤S2:
获取同一名称或同一CAS号的化合物的RT的离散程度:对每一个cas_name物质组合,计算该物质的第一离散程度和第二离散程度;
第一离散程度包括:该物质在全部样本中的保留时间的中位值RT0与相对标准偏差RSD0
第二离散程度包括:该物质在不同分组中的保留时间的中位数[RTg1、RTg2、……、RTgn]、该物质在不同分组中的分组(组内)相对标准偏差[RSDg1、RSDg2、……、RSDgn]和全部分组的组内相对标准偏差的中位值RSDg
步骤S3:
对化合物的离散程度进行判断,筛选偏差小的化合物:
保留RSD0与RSDg的数值均满足≤30%(在本实施例中,RSD0与RSDg对应的设定阈值均为30%)以内cas_name化合物的数据,剔除RSD0和RSDg中的任意一种的数值>30%的cas_name化合物的数据;
对于保留的cas_name化合物的数据:保留其中RSDgn(n指代第n组,n为≥1的正整数)≤30%的组别数据,剔除RSDgn>30%的组别数据。
经过该步骤处理后,每一个物质在不同样本中会保留满足条件的RT信息及相应的峰面积等信息。
步骤S4:对保留的化合物的组别的组内数据进行筛选,去除RT值在其对应的设定阈值范围外的数据:
计算每一cas_name相应数据中RT值与该RT值所在分组中的保留时间的中位数(RTgn)的差值RTppm,保留RTppm在±1min以内(RTppm的绝对值≤1min)的RT值,踢除RTppm在±1min以外(RTppm的绝对值>1min)的RT值。
步骤S5:保留时间的矫正
对每一个cas_name,剩余的所有RT值进行分析,将该化合物剩余RT值的中位数作为该化合物的参考保留时间。
同时,对剩余数据进行合并,合并数据包括化合物名称、RT以及RT对应的检测结果(如峰面积、峰高),获得二维数据矩阵。
步骤S6:缺失峰面积回填
为了减少RT对齐后,峰面积缺失情况,对满足cas_name的物质的峰面积进行相应的回填:对剔除的组别和/或原始下机数据中相同name和cas的物质进行保留时间窗口筛选,保留与参考保留时间的时间偏差在10s以内的峰,将相应的峰面积回填至RT矫正后的二维矩阵数据中。
实施例2
本实施例将实施例1的处理方法应用于一批GC-MS下机数据的处理,具体为化合物的cas_name="17301-32-5_Undecane,4,7-dimethyl-"的色谱下机数据的处理方法。
步骤S1:
原始定性数据:取3组相同类型的植物样本(记为C、D和S组),用相同的方法处理,并用GC-MS检测。C组进10针,即C1-C10。D组进16针,即D1-D4、D7-D10、D12-D14、D16-D20。S组进8针,即S2-S9。
表1.样本信息表
通过GC-MS检测和NIST数据库匹配后。每针样本可以获得如下表所示的原始下机数据,该数据包括Name(表中的Hit1 Name)、RT、Area、Area%、Simility、CAS、Peak S/N和Quant S/N等信息。
表2.原始下机数据中的部分数据
再对34针样本的原始下机数据进行上述实施例1的数据清洗、数据过滤步骤,合并获得下表所示的物质列表。
表3.物质列表
根据样本类型将34针样本分为三组,即QC样本组(记为C组)、对照组(记为D组)和待测样本组(记为S组)。各组数据中17301-32-5_Undecane,4,7-dimethyl-对应的RT如下表所示(每个RT对应有Area等数据)。这些数据中存在一针检测结果中17301-32-5_Undecane,4,7-dimethyl-匹配有多个RT的情况,以致10针QC样本有14个RT,16针对照样本有26个RT、8针待测样本有13个RT。同时,也存在一针检测结果中不存在Simlarity>800、Peak S/N>50、Quant S/N>50、Area%>0.001的17301-32-5_Undecane,4,7-dimethyl-峰,即存在未获得17301-32-5_Undecane,4,7-dimethyl-及RT数据的样本。
表4. 17301-32-5_Undecan,,4,7-dimethyl-对应的RT列表
步骤S2:
计算该化合物所有样本的RT和各组RT的中位数和相对标准偏差。
表5. 17301-32-5_Undecan,,4,7-dimethyl-的RT的中位数和相对标准偏差
三组RT的相对标准偏差的中位数RSDg为22.65%。
步骤S3:
由S2的结果可知,RSD0和RSDg在30%范围内(≤30%),则保留17301-32-5_Undecane,4,7-dimethyl-及其对应数据。其中,D组和S组的RSD在30%范围内,C组的RSD超过30%(>30%),则保留D组和S组的数据,剔除C组的数据。
步骤S4:
计算D组和S组的每一RT与其分组对应的中位数RTgn的差值,保留差值在±1min范围内的RT值:
D组中8.08922、14.87320、8.38485、8.38475、8.08920、10.30120、8.08917、8.09801、8.08910、8.09327被剔除;
S组中8.08932、8.09352被剔除。
17301-32-5_Undecane,4,7-dimethyl-的剩余RT数据如下表所示。
表6. 17301-32-5_Undecan,,4,7-dimethyl剩余RT数据列表
步骤S5:
对剩余RT及对应峰面积数据进行合并,获得二维数据矩阵,如下表。
表7.二维数据矩阵
Name CAS D1 RT D1 Area D2 RT D2 Area
Undecane,4,7-dimethyl- 17301-32-5 6.67241 145252963 6.80699 52165530
备注:D1_RT为D1样本中化合物对应的RT,D1 Area为D1样本中化合物对应的峰面积,D2_RT为D2样本中化合物对应的RT,D2 Aea为D2样本中化合物对应的峰面积。
计算表6中所有RT的中位值,即为17301-32-5_Undecane,4,7-dimethyl的参考保留时间,17301-32-5_Undecane,4,7-dimethyl的参考保留时间为6.81149min。
步骤S6:
上述数据处理过程中,舍弃了17301-32-5_Undecane,4,7-dimethyl-的C组数据,这样数据合并处理后得到的二维数据矩阵中C组的所有检测结果的17301-32-5_Undecane,4,7-dimethyl-的数据是缺失的。此时,返回原始下机数据或初始数据的C组对应数据中寻找在6.811515min±10s的17301-32-5_Undecane,4,7-dimethyl-数据,再将这些数据填充至二维数据矩阵中,则c组中RT为6.81592、6.67684、6.66377、6.66357、6.65929、6.81109、6.69384和6.83292及其对应的检测数据将会被找回,填充至二维数据矩阵中,最终获得包含化合物名称、RT和峰面积信息的二维数据矩阵,以用于后续的组学数据分析。缺失数据回填时,若没有找到符合要求的数据,则回填0。
需要说明的是,在其他实施例中,还可以再次通过表6的RT数据和找回的RT数据,再次计算最终的参考保留时间,参考保留时间为这些RT值的中位数,为680699min。对于二维数据矩阵中还缺失的17301-32-5_Undecane,4,7-dimethyl对应的样本检测数据,可以进一步到表2所示的该样本的原始下机数据中寻找RT在6.81149min±10s或6.80699min±10s内的相似度或不满足Simlarity>800、Peak S/N>50、Quant S/N>50、Area%>0.001中任一或多项的峰的数据,填充至二维数据矩阵中。
实施例3
对cas_name=″17301-32-5_Undecane,4,7-dimethyl-″色谱下机数据进行处理,处理方法大致同实施例2,区别在于:
在步骤s3中,对于组内RSD>30%的C组进行了保留;
在步骤s4中,剔除D组、s组和C组中RT在RTgn±1min外的数据。
本实施例的处理方法的流程可参照表2,保留的RT如下表。
表8. 17301-32-5_Undecane,4,7-dimethyl-剩余RT数据列表
对表8中RT及对应峰面积数据进行合并,获得二维数据矩阵,同时,计算表8中RT的中位数,即为参考保留时间6.80699min。
后续进行二维数据矩阵中的数据回填时,则直接在原始下机数据中寻找RT在6.80699min±10s内的相似度或不满足Simlarity>800、Peak S/N>50、Quant S/N>50、Area%>0.001中任一或多项的峰的数据,回填至二维数据矩阵中。
对比例1
验证本发明提供的处理方法与现有处理方法的效果差异。
从上述实施例2的GC-MS原始下机数据中选择4个存在多个保留时间的化合物(Ethylbenzen_100-41-4、Styrene_100-42-5、2-n-Propyl-1-heptanol_10042-59-8、Undecane,4,7-dimethyl_17301-32-5)作为示例,在C1-C6(样本编号,具体见实施例1)中挑选出这4个化合物对应的原始数据,如下表所示。
表9.C1原始下机数据中的示例化合物数据
Name CAS R.T.(minut Area Area% Similarity Formula Quant S/N S/N
Ethylbenzene 100-41-4 9.11496 18688765 0.69101 961 C8H10 2700.3 713.9
Styrene 100-425 13.4349 1.08E+08 3.9799 955 C8H8 16362 9894.3
Styrene 100-42-5 13.5827 35555385 1.3147 947 C8H8 5035.4 218.27
2-n-Propyl-1-heptanol 10042-59-8 10.2406 352711 0.013041 845 C10H22O 54.787 117.64
2-n-Propyl-1-heptanol 10042-59-8 10.9142 22183 0.00082 934 C10H22O 8.5045 O0.31
Undecane,4,7-dimethyl- 17301-32-5 6.81592 412702 0.01526 818 C13H28 194.81 161.67
Undecane,4,7-dimethyl- 17301-32-5 8.0893 564116 0.020858 814 C13H28 113.36 146.43
表10.C2原始下机数据中的示例化合物数据
Name CAS R.T.(minutes) Area Area% Similarity Formula Quant S/N S/N
Ethylbenzene 100-41-4 9.07998 5528335 0.25283 961 C8H10 1252.5 3501.7
Ethylbenzene 100-41-4 9.1669 3998529 0.18287 966 C8H10 551.68 66.218
Styrene 100-42-5 13.3999 1.28E+08 5.8747 954 C8H8 16019 10934
2-n-Propyl-1-heptanol 10042-59-8 8.38027 285587 0.013061 845 C10H22O 86.122 90.189
2-n-Propyl-1-heptanol 10042-59-8 10.7836 323246 0.014783 882 C10H22O 60.155 83.447
2-n-Propyl-1-heptanol 10042-59-8 17.7373 270985 0.012393 872 C10H22O 54.38 60.984
Undecane,4,7-dimethyl- 17301-32-5 6.8157 5767722 0.26378 778 C13H28 1076.5 301.8
Undecane,4,7-dimethyl- 17301-32-5 13.2739 127560 0.005834 808 C13H28 57.096 166.96
表11.C3原始下机数据中的示例化合物数据
Name CAS R.T.(minut Area Area% Similarity Formula Quant S/N S/N
Ethylbenzene 100-41-4 9.11062 10920783 0.62085 960 C8H10 1530.3 415.2
Styrene 100-42-5 13.4306 75480443 4.2911 951 C8H8 10530 7273.9
Styrene 100-42-5 13.6044 18308834 1.0409 935 C8H8 2562.8 83.143
2-n-Propyl-1-heptanol 10042-59-8 10.51 322129 0.018313 949 C10H22O 122.55 50.828
2-n-Propyl-1-heptanol 10042-59-8 12.1094 430140 0.024454 925 C10H22O 53.535 744.71
2-n-Propyl-1-heptanol 10042-59-8 17.7592 373992 0.021262 916 C10H22O 63.087 727.71
Undecane,4,7-dimethyl- 17301-32-5 6.67684 1.03E+08 5.8651 866 C13H28 9317.9 421.39
Undecane,4,7-dimethyl- 17301-32-5 8.09365 902322 0.051298 858 C13H28 175.88 2892.8
表12.C4原始下机数据中的示例化合物数据
Name CAS R.T.(minutes) Area Area% Similarity Formula Quant S/N S/N
Ethylbenzene 10041-4 9.08446 12411527 0.45219 959 C8H10 1619.5 509.23
Ethylbenzene 100-41-4 10.9663 970694 0.035365 868 C8H10 155.49 24.863
Styrene 100-42-5 13.4131 1.02E+08 3.716 956 C8H8 11263 8718.1
2-n-Propyl-1-heptanol 10042-59-8 8.38909 174633 0.006362 903 C10H22O 55.988 129.4
2-n-Propyl-1-heptanol 10042-59-8 13.1741 175985 0.006412 862 C10H22O 33.429 40.421
2-n-Propyl-1-heptanol 10042-59-8 13.2958 27235 0.000992 920 C10H22O 12.402 97.156
2-n-Propyl-1-heptanol 10042-59-8 15.0689 529649 0.019297 907 C10H22O 69.335 105.22
表13.C5原始下机数据中的示例化合物数据
C5
Name CAS R.T.(minut Area Area% Similarity Formula Quant S/N S/N
Ethylbenzene 100-41-4 9.08016 4518096 0.30403 969 C8H10 801.67 273.67
Styrene 100-42-5 13.3784 64921655 4.3687 957 C8H8 8520.6 5536.6
2-n-Propyl-1-heptanol 10042-59-8 8.3848 192309 0.012941 917 C10H22O 54.589 103.93
2-n-Propyl-1-heptanol 10042-59-8 17.7201 204312 0.013748 691 C10H22O 45.409 67.193
Undecane,4,7-dimethyl- 17301-32-5 6.66377 94543982 6.362 871 C13H28 8895 324.22
表14.C6原始下机数据中的示例化合物数据
Name CAS R.T.(minutes) Area Area% Similarity Formula Quant S/N S/N
Ethylbenzene 100-41-4 9.07996 8158172 0.5251 958 C8H10 1219.2 448.19
Styrene 100-42-5 13.4043 61617721 3.966 948 C8H8 8581.3 5868.8
2-n-Propyl-1-heptanol 10042-59-8 8.38025 215312 0.013859 930 C10H22O 61.763 123
2-n-Propyl-1-heotanol 10042-59-8 10.814 43272 0.002785 857 C10H22O 15.554 15.46
2-n-Propyl-1-heptanol 10042-59-8 12.0048 704068 0.045317 820 C10H22O 102.13 43.69
2-n-Propyl-1-heptanol 10042-59-8 13.1609 189405 0.012191 847 C10H22O 48.961 63.719
2-n-Propyl-1-heptanol 10042-59-8 13.2869 70641 0.004547 868 C10H22O 33.607 104.36
2-n-Propyl-1-heptanol 10042-59-8 17.7459 254995 0.016413 865 C10H22O 51.24 76.92
N-lsovaleroylglycine 16284-60-9 4.2863 7089.5 0.000456 763 C7H13NO 9.73 12.68
Undecane,4,7-dimethyl- 17301-32-5 6.66357 93087846 5.9916 859 C13H28 8944.4 341.01
Undecane,4,7-dimethyl- 17301-32-5 8.08907 888323 0.057177 832 C13H28 163.16 216.87
基于原始下机数据,分别按现有的处理方法和本发明实施例1的处理方法分别进行处理。
1、现有的处理方法
现有的处理方法通过Similarity进行数据合并,以获得化合物的二维数据矩阵,即选择上述原始数据中每一化合物对应Similarity值最大的一行数据,将保留时间和峰面积合并,缺失数据用0进行填充,最终获得的二维数据矩阵如表15所示。
表15.按最大Similarity(现有方法)合并获得的二维数据矩阵
现有方法在进行数据合并时,没有基于参考保留时间,而是根据按相似度(Similarity)最大值来保留RT和峰面积并进行数据合并;若用于化合物定性,则取保留的RT的均值作为最终的保留时间。
2、本发明的处理方法
按实施例1提供的处理方法对于上述原始数据进行处理,该处C1-C6只有一组数据,所以RSD0与RSDg相同,计算的2-n-Propyl-1-heptanol 10042-59-8RSD0为30.8%,则该化合物被剔除。获得Ethylbenzen_100-41-4、Styrene_100-42-5、Undecane,4,7-dimethyl_17301-32-5的参考保留时间依次为9.08446min、13.42185min和6.670305min。
最终获得的二维数据矩阵如表16所示。
表16.按本发明的处理方法获得的二维数据矩阵
对比上表15和表16数据可知,现有方法多一个化合物2-n-Propyl-1-heptanol的数据,但是该化合物的数据是极不准确的。在相同的检测方法下,同一化合物的保留时间应该是接近的,表5中C1、C2、C4、C5、C6的RT均明显不同。其次,表15和表16中Undecane,4,7-dimethyl-C2的数据是不同的。表15中C2的RT与其他组明显不同,该数据及对应C2 Area明显错误。表16中C2的RT与其他组更为接近,准确性更高。因此,使用本发明的处理方法可以获得更准确的二维数据矩阵。
实施例4
一种GC×GC-MS下机数据的处理方法。
使用GC×GC-MS检测两组血清样本(组1和组2各3份样本,每份样本检测一次),获得GC×GC-MS下机数据。大致按照本发明实施例1的处理方法对获得的GC×GC-MS下机数据进行处理,区别在于:在步骤S4中,保留RTppm在±30s以内(RTppm的绝对值≤30s)的RT值,踢除RTppm在±30s以外(RTppm的绝对值>30s)的RT值。
以两组血清样本中部分化合物数据为例,对GC×GC-MS下机数据的处理方法进行说明。
步骤S1:
原始定性数据:使用LECO软件导出GC×GC-MS的.csv格式的原始下机数据,其中,组1的3份样本的检测结果分别记为Z1-1、Z1-2、Z1-3,组2的3份样本的检测结果分别记为Z2-1、Z2-2、Z2-3。各检测结果中示例化合物对应的原始数据如下所示。
表17.Z1-1原始下机数据中的示例化合物数据
表18.Z1-2原始下机数据中的示例化合物数据
表19.Z1-3原始下机数据中的示例化合物数据
表20.Z2-1原始下机数据中的示例化合物数据
表21.Z2-2原始下机数据中的示例化合物数据
表22.Z2-3原始下机数据中的示例化合物数据
备注:表中1st Dimension Time为一维气相的保留时间(简称RT_1D),2ndDimension Time(s)为二维气相的保留时间(简称RT_2D)。
数据清洗:去除血清样本中不可能存在的化合物数据或不感兴趣的化合物数据,如去除含硅等的污染物,这样表17~22中的Disiloxane,hexamethyl及其对应的数据被删除。
数据过滤:按Simlarity>800、Peak S/N>50、Quant S/N>50、Area%>0.001的阈值对上图的原始数据进行初步筛查,仅保留满足这些标准要求的各行数据。这样上表中Z1-1中第三行Hexanal、第五行Octanal等的数据被剔除;4-Hexyn-3-ol及对应的所有数据被剔除。
步骤S2:
获取经清洗、过滤后的数据,其中化合物名称及对应RT_1D汇总如下表23所示,计算每一化合物所有RT_1D的相对标准偏差RSD0,并分别计算各组的RT_1D的相对标准偏差RSDgn(RSDg1和RSDg2),并计算各组RSDgn的中位值RSDg,具体如下。
表23.RT_1D的汇总结果(单位:s)
表24.RT_1D的RSD值计算结果
名称 Z1 RSDg1 Z2 RSDg2 RSD0 RSDg
Hexanal 0 0 0 0
Octanal 0 0 0 0
Benzene,1,3-bis(1,1-dimethylethyl)- 0 0 0 0
Benzaldehyde 0 0 0 0
1-Decanol 0 0 0 0
Naphthalene,1-methyl- 25.0% 25.3% 25.3% 25.2%
Indole 0 0 0 0
Heptane,2,4-dimethyl- 38.4% 8.9% 32.7% 23.7%
Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)- / 0 0 0
步骤S3:
按RSD0与RSDg的设定阈值均为30%进行筛选,剔除不满足要求的化合物数据,则Heptane,2,4-dimethyl-被剔除。
步骤S4:
计算剩余各化合物数据的各组RT的中位数RTgn,并按RT与RTgn的差值的绝对值≤30s分别对组内数据进行筛选,则Naphthalene,1-methyl-数据中不满足的2353.86等被剔除。通过RT计算筛选后化合物及保留的RT数值情况如下表。
表25.RT_1D筛选后数据(单位:s)
步骤S5:
计算筛选后各化合物保留的RT的中位数即为参考保留时间(简写为RT_C)。
根据保留下来的化合物及保留时间,对这些化合物的数据进行合并,获得化合物名称及对应保留时间、峰面积的二维数据矩阵,如下表所示。
表26.剩余化合物及保留时间对应数据合并后的二维数据矩阵
/>
步骤S6:
根据参考保留时间对二维数据矩阵中缺失的数据进行回填,具体为:对于缺失的数据,从原始数据(如表17~表22所示)中寻找每一化合物在RT_C±10s范围内的RT及对应峰面积值,将其填充至二维数据矩阵中,在RT_C±10s范围内有多个数据的,可选择保留时间最接近RT_C的那个数据。在RT_C±10s范围内没有找到数据的,则回填0。
回填后的二维数据矩阵如下表所示。
表27.回填后的二维数据矩阵
/>
对于表26中缺失数值,为了进行后续的数据分析,例如聚类分析(如K-means聚类)、多元统计分析(如PCA分析)、差异分析(如OPLS-DA)等,需要进行缺失数据的填充。现有方法一般在这些缺失处都填充0。
本申请基于参考保留时间,再去原始数据中寻找缺失数据处可能存在的实际检测数值,将这些数据填充至缺失处。如表26和表27,Hexanal的缺失数据在Z2-1的原始数据中没有找到满足要求的数据,则按现有方法填充为0,Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-在Z1-1、Z1-2和Z1-3原始下机数据中均找到了满足RT在参考保留时间±10s内的数据,将其回填至相应的缺失部位。
查看Z1-1、Z1-2和Z1-3 3个原始下机数据中Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-对应的Simlarity等数据可以发现除了RT相同外,这3份数据中Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-的Simlarity与组2的3份数据中的也是相近的,只是质谱响应偏低一点,说明这3份数据中Cyclopentane,1,2,4-trimethyl-,(1a,2b,4a)-数据的准确性是较高的,将对应的RT和峰面积回填至二维数据矩阵中,相对于回填0而言,这样获得的二维数据矩阵更为接近实际值,数据质量相对更高。
实施例5
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,按照RSD0与RSDg对应的设定阈值均为10%进行筛选。这时对于几个化合物示例(同实施例4)来说,其中的Naphthalene,1-methyl-则也同Heptane,2,4-dimethyl-一样被剔除。
实施例6
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,按照RSD0与RSDg对应的设定阈值均为20%进行筛选。这时对于这时对于几个化合物示例(同实施例4)来说,其结果同实施例5。
实施例7
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,RSD0与RSDg对应的设定阈值均为40%。这时对于几个化合物示例(同实施例4)来说,Heptane,2,4-dimethyl-也会被保留。
通过RT筛选后(S4步骤后)的保留的RT情况如下表:
表28.RSD0与RSDg的设定阈值均为40%时,RT_1D筛选后数据和RT_C值(单位:s)
由上表数据可知,Heptane,2,4-dimethyl-20739-59-7在Z1-1和Z1-2中仍然存在两个保留时间。这时进行数据合并获得二维数据矩阵,选择与参考保留时间更接近的RT及对应峰面积进行数据回填(回填的方法同实施例4),最终获得的二维数据矩阵如下表。
表29.RSD0与RSDg的设定阈值均为40%时的二维数据矩阵
实施例8
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,RSD0与RSDg对应的设定阈值均为50%,这时对于几个化合物(同实施例4和7)示例来说,其结果同实施例7。
实施例9
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,RSD0的设定阈值为10%,RSDg的设定阈值为30%,这时对于几个化合物示例(同实施例4和5)来说,其结果同实施例5。
实施例10
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,RSD0的设定阈值为30%,RSDg的设定阈值为10%。这时对于化合物示例(同实施例4和5)来说,其结果同实施例5。
实施例11
一种GC×GC-MS下机数据的处理方法,大致步骤同实施例4,区别在于:在步骤S3中,RSD0的设定阈值为<40%,与RSDg的设定阈值为<30%。这时对于几个化合物示例(同实施例4)来说,其结果同实施例4。
上述实施例只是用于示例性的解释本发明,实际使用液质或气质进行代谢组学检测时,获得每一原始下机数据中的化合物可以达到成百千上甚至上万个,检测的样本量有几个、几十个、几百个、几千个以致上万个。这些原始下机数据均可以使用本发明的方法进行处理。数据量越多,通过本发明方法处理获得的参考保留时间的统计学意义更高,也更具有参考价值。参考保留时间即可以用于上述的数据回填,也可以用于色谱峰识别或化合物鉴定,尤其适用于对照品难以获得的情况。例如,通过本发明的方法获得某一LC-MS或GC-MS检测方法的参考保留时间后,当在相同的LC-MS或GC-MS检测方法下检测相同类型的样本时,可以参照参考保留时间对该样本中的色谱峰进行识别。
此外,对于二维气相色谱或二维液相色谱,会存在两种保留时间,除了上述的用本发明的方法通过一维保留时间对数据进行筛选外,也可以采用本发明的处理方法通过二维保留时间对数据进行筛选,甚至可以通过一维保留时间和二维保留时间同时进行数据筛选。例如,分别计算一维保留时间和二维保留时间的RSD0和RSDgn,分别设置一维保留时间和二维保留时间的RSD阈值,只有都满足各自阈值要求的化合物数据才保留。
实施例12
参考保留时间的准确性验证。
为了对上述参考保留时间的准确性进行验证,本实施例购买了Hexanal、Octanal、Benzene,1,3-bis(1,1-dimethylethyl)-、Benzaldehyde、1-Decanol、Naphthalene,1-methyl、Indole对照品,按上述原始下机数据相同的GC×GC MS进行检测,实测保留时间情况如下表。
表30.对照品保留时间
名称 RT_1D RT_2D
Hexanal 729.962 1.915
Octanal 1113.94 2.072
Benzene,1,3-bis(1,1-dimethylethyl)- 1345.92 2.924
Benzaldehyde 1513.91 1.506
1-Decanol 1945.88 2.268
Naphthalene,1-methyl- 2233.87 2.508
Indole 3217.8 1.336
由上表结果可知,这些对照品检测获得的RT_1D数值与上述通过本发明提供的处理方法获得的参考保留时间(表25)的结果是一致的,说明本发明的方法获得的参考保留时间是准确的。可将参考保留时间应用于色谱峰识别以及上述的数据回填。
实施例13
一种GC×GC-MS下机数据的处理方法,大致与实施例4相同,区别在于在步骤S3之后、在步骤S4之前还包括步骤S401和S402。
步骤S401:
对剔除的同一名称和/或CAS号的化合物的数据进行筛选:在剔除的同一名称和/或CAS号的化合物的数据中,踢除组内离散程度>其对应的设定阈值的组别,在本实施例中,踢除RSDg>30%的组别;
对保留的组别的组内数据进行筛选,踢除RT值>其对应的设定阈值的数据。RT值在对应的设定阈值范围外的判断标准包括:计算每一RT值与该RT值所在分组中RT值的中位数(RTgn)的差值RTppm,若该差值的绝对值≤阈值(30s),则判断该RT值位于对应的设定阈值范围内;若该差值的绝对值>阈值(30s),则判断该RT值位于对应的设定阈值范围外。
步骤S402:
重复步骤S2、S3和S401,直至满足步骤S3的判断标准。
本实施例以实施例4在步骤S3被剔除的化合物Heptane,2,4-dimethyl-为例进行说明。
Heptane,2,4-dimethyl-被剔除后,按以下方法处理:
步骤S401:
对Heptane,2,4-dimethyl-的数据进行筛选,剔除组内不满足要求的组别,则Heptane,2,4-dimethyl-Z1的数据被剔除,剩余Z2的RT_1D(单位:s)为:257.992、313.988、257.992、257.992。
重复步骤S2~S3(同实施例4):Heptane,2,4-dimethyl-RSD0=RSDg2=8.9%;满足步骤S3要求,Heptane,2,4-dimethyl-被保留。
步骤S4~S6(同实施例4):Heptane,2,4-dimethyl-剩余的RT_1D(单位:s)有:257.992、257.992、257.992,参考保留时间为257.992s,对应获得的二维数据矩阵同表29。
实施例14
一种GC×GC-MS下机数据的处理方法,大致与实施例13相同,区别在于在步骤S3中,对于保留的cas_name化合物的数据:不剔除RSDgn>30%的组别数据。
以实施例4在步骤S3被剔除的化合物Heptane,2,4-dimethyl-为例进行说明。
Heptane,2,4-dimethyl-被剔除后,按以下方法处理:
步骤S401:
对Heptane,2,4-dimethyl-的数据进行筛选,剔除RT_1D在RSDgn±30s范围外的数据,则Heptane,2,4-dimethyl-剩余的RT_1D(单位:s)为:
Z1:257.992、265.991、257.992、265.991;
Z2:257.992、257.992、257.992、257.992。
重复步骤S2~S3:RSDg1、RSDg2、RSD0分别为1.5%、0.0%、1.3%;Heptane,2,4-dimethyl-满足步骤S3要求,被保留。
步骤S4~S6:Heptane,2,4-dimethyl-的参考保留时间为257.992s。对于仍然存在两个保留时间的样本,在进行数据合时,选择与参考保留时间更接近的RT及对应峰面积进行合并,最终获得的二维数据矩阵同表29。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种色谱下机数据的处理方法,其特征在于,其包括:
S1:获取待处理样本的色谱下机的初始数据;所述初始数据包括:化合物名称和/或化合物CAS号、化合物匹配的色谱保留时间和样本信息;
S2:分别对同一名称和/或同一CAS号的化合物对应的色谱保留时间进行统计分析,获取该化合物色谱保留时间的离散程度;其中,所述离散程度包括第一离散程度和第二离散程度,所述第一离散程度包括该化合物的所有RT的离散程度或组间离散程度,所述第二离散程度包括:该化合物每组RT的组内离散程度和/或全部组别RT的组内离散程度;
S3:对化合物的离散程度进行判断:
若所述第一离散程度≤其对应的设定阈值且至少一组RT的组内离散程度≤其对应的设定阈值,则保留该化合物,并保留该化合物组内离散程度≤其对应的设定阈值的数据,剔除或保留该化合物组内离散程度>其对应的设定阈值的组别数据;
若所述第一离散程度>其对应的设定阈值和/或所述全部组别RT的组内离散程度>其对应的设定阈值,则剔除该化合物及其对应数据;
S4:对保留的化合物的组别的组内数据进行筛选,去除RT值在其对应的设定阈值范围外的数据;
S5:对同一名称和/或同一CAS号的化合物剩余的所有RT值进行分析,获得该化合物的参考保留时间。
2.根据权利要求1所述的处理方法,其特征在于,在步骤S3后、S4前,所述处理方法还包括:
S401:对剔除的同一名称和/或CAS号的化合物的数据进行筛选:踢除组内离散程度>其对应的设定阈值的组别;对保留的组别的组内数据进行筛选,踢除RT值>其对应的设定阈值的数据;
S402:重复步骤S2、S3和S401,直至满足步骤S3的判断标准。
3.根据权利要求1所述的处理方法,其特征在于,所述离散程度由相对标准偏差、方差、极差和四分位差中的任意一种或多种表示;
可选地,在步骤S3中,所述至少一组RT的组内离散程度≤其对应的设定阈值包括:全部组别RT的组内离散程度≤其对应的设定阈值;
可选地,所述全部组别RT的组内离散程度包括所有的分组对应的组内离散程度的中位数;
可选地,当离散程度取相对标准偏差时,所述第一离散程度对应的设定阈值为10%~40%;
可选地,当离散程度取相对标准偏差时,所述第二离散程度对应的设定阈值为10%~40%。
4.根据权利要求1所述的处理方法,其特征在于,在步骤S4中,RT值在其对应的设定阈值范围外的判断标准包括:
计算每一RT值与该RT值所在分组中RT的中位数的差值,若该差值的绝对值≤阈值,则判断该RT值位于对应的设定阈值范围内;若该差值的绝对值>阈值,则判断该RT值位于对应的设定阈值范围外;
可选地,所述阈值选自1s~5min;
可选地,对同一名称和/或同一CAS号的化合物剩余的所有RT值进行计算的方式包括:取剩余RT值的平均值或中位数作为参考保留时间。
5.根据权利要求1所述的处理方法,其特征在于,在步骤S5中,所述处理方法还包括:对化合物保留的数据进行合并,以获得该化合物的二维数据矩阵;
可选地,在步骤S5后,所述处理方法还包括:
S6:将所述初始数据中删除的在所述参考保留时间附近的峰的数据回填至二维数据矩阵的缺失部分;
可选地,在步骤S6中,所述处理方法还包括基于回填后的二维数据矩阵,重新计算参考保留时间:将回填的RT值与S5步骤中剩余的RT值混合,取中位数作为最终的参考保留时间;
可选地,在步骤S6之前或之后,所述处理方法还包括:基于空白样本数据对所述二维数据矩阵中的数据进行去除,以去除空白样本中的干扰化合物的数据。
6.根据权利要求1~5任一项所述的处理方法,其特征在于,所述初始数据还包括:色谱峰面积、色谱峰面积比例、相似度、色谱峰信噪比和定量离子信噪比中的任意一种或多种。
7.根据权利要求1~5任一项所述的处理方法,其特征在于,所述色谱下机数据包括:液相色谱、气相色谱和离子色谱中的任意一种与质谱检测获得的下机数据。
8.根据权利要求1~5任一项所述的处理方法,其特征在于,所述化合物包括:经色谱分离检测的物质;
可选地,所述化合物包括:小分子代谢物;
可选地,所述小分子代谢物选自:有机酸、酮类、多肽、氨基酸、胺类、醛类、醇类、脂类、类固醇、糖类、核苷和生物碱中的任意一种或多种。
9.根据权利要求1~5任一项所述的处理方法,其特征在于,所述待测样本包括1组和/或多组;
可选地,当所述待测样本包括多组样本时,所述样本信息包括分组信息;
可选地,所述多组的组别包括:对照组样本、实验组样本和QC组样本中的任意一种或多种;
可选地,所述多组的组别包括:根据不同批次进行分组的检测样本和/或根据不同检测时间进行分组的检测样本。
10.如权利要求1~9任一项所述的处理方法在化合物定性和/或注释中的应用。
CN202311872581.3A 2023-12-29 2023-12-29 一种色谱下机数据的处理方法及其相关应用 Pending CN117805308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311872581.3A CN117805308A (zh) 2023-12-29 2023-12-29 一种色谱下机数据的处理方法及其相关应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311872581.3A CN117805308A (zh) 2023-12-29 2023-12-29 一种色谱下机数据的处理方法及其相关应用

Publications (1)

Publication Number Publication Date
CN117805308A true CN117805308A (zh) 2024-04-02

Family

ID=90425280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311872581.3A Pending CN117805308A (zh) 2023-12-29 2023-12-29 一种色谱下机数据的处理方法及其相关应用

Country Status (1)

Country Link
CN (1) CN117805308A (zh)

Similar Documents

Publication Publication Date Title
US7197401B2 (en) Peak selection in multidimensional data
Ausloos et al. The critical evaluation of a comprehensive mass spectral library
JP4594154B2 (ja) 少なくとも1つの成分および生成する生成物の観点でサンプルを特性付けし、特性付けデータを提供するための2つ以上の技術に基づいた少なくとも1つのサンプルの分析;方法、システムおよび指示プログラム
US7606667B2 (en) Mass spectrometry analysis method and system
JP7464734B2 (ja) Lc-ms用の品質管理ツール
US7529630B2 (en) Method of analyzing mass analysis data and apparatus for the method
JP2013195099A (ja) クロマトグラフ質量分析データ処理装置
CN111537659A (zh) 一种筛选生物标志的方法
US6944549B2 (en) Method and apparatus for automated detection of peaks in spectroscopic data
JP4929149B2 (ja) 質量分析スペクトル分析方法
JP6308107B2 (ja) クロマトグラフ質量分析データ処理装置
CN117805308A (zh) 一种色谱下机数据的处理方法及其相关应用
CN109856310A (zh) 基于hplc-ms的去除代谢物离子峰表中假阳性质谱特征的方法
JP3867426B2 (ja) クロマトグラフ質量分析計
Carlson et al. Improving feature detection and analysis of surface‐enhanced laser desorption/ionization‐time of flight mass spectra
Devitt et al. Estimation of low-level components lost through chromatographic separations with finite detection limits
JP2009020037A (ja) メタボローム解析による同定方法、薬物代謝物の同定方法、およびこれらのスクリーニング方法
CN107703243B (zh) 用于代谢组学的气相色谱-质谱分析处理方法和系统
WO2022162999A1 (ja) クロマトグラフ装置
CN112180003B (zh) 一种利用声表面波气相色谱仪现场鉴别中挥发性中药材的方法
EP3002696B1 (en) Methods for generating, searching and statistically validating a peptide fragment ion library
CN113848264A (zh) 干血片样本采集质量的监控方法
JP4248479B2 (ja) Nmrスペクトルから、分子種内の予め選択された同位元素の原子核数を推定する方法
CN115219620B (zh) 一种泾阳茯茶特异性识别挥发性成分组合及其制备方法和应用、泾阳茯茶的鉴别方法
WO2023026330A1 (ja) クロマトグラフを用いたマルチ補正分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination