CN108931590B

CN108931590B - 多批次靶向代谢组学数据的校正方法

Info

Publication number: CN108931590B
Application number: CN201810472993.0A
Authority: CN
Inventors: 许丽; 倪君君
Original assignee: Beijing Harmony Health Medical Diagnostics Co ltd
Current assignee: Beijing Harmony Health Medical Diagnostics Co ltd
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2020-12-01
Anticipated expiration: 2038-05-17
Also published as: CN108931590A

Abstract

本发明多批次靶向代谢组学数据的校正方法包括：收集多份与待测样本相同的样本基质组成QC样本；在待测样本前添加1个QC样本作为第一QC样本，并且在后续的每8‑15个待测样本中插入1个QC样本，记录插入QC样本的进样序数n，然后按照完全相同条件对该批次所有样本进行检测分析，得到该批次的各样本中靶向代谢物的浓度；检测到的所有QC样本中靶向代谢物浓度与第一批次检测到的第一QC样本中靶向代谢物浓度的比值Y作为纵坐标，以该批次所有QC样本的进样序数n作为横坐标，构建相关线性拟合方程Y＝a*n+b；将每一批次每个样本的进样序数n代入方程，分别得到该批次的每个样本的校正因子，对每个样本进行系统误差的校正。

Description

多批次靶向代谢组学数据的校正方法

技术领域

本发明涉及分析化学和代谢组学领域，是一种用于多批次代谢组学数据校正的方法。

背景技术

代谢组学是继基因组学、蛋白组学后系统生物学的另一重要研究领域，它以组群指标分析为基础，以高通量检测和数据处理为手段，以信息建模与系统整合为目标，通过定性鉴别和定量描述生物基质中小分子代谢物的表达与修饰变化，反映外界刺激或遗传修饰的细胞或组织的代谢应答变化。靶向代谢组学是对目标明确的代谢物的检测分析，常常要对大量样本进行分析及验证，通常需要将大量样本分多批次进行测试，而各批次间仪器响应的状态可能有所不同，造成不同批次间代谢数据的误差，为了使不同批次、不同人员、不同仪器的多批次数据可以整合分析，我们建立了一种多批次靶向代谢组学数据的校正方法，可满足长期靶向代谢组学分析的需要。

本发明首先在各分析批中加入QC样本，计算全部QC样本与第1个QC样本中靶向代谢物浓度的比值为Y_n，再分别建立各批次的线性拟合模型，对数据集的系统误差进行校正。通过对上述过程的数据处理，可以准确、高效、高通量的校正代谢组数据的系统误差和随机误差，改善代谢组学数据的质量，实现多批次靶向代谢组学数据的整合分析。

发明内容

针对上述技术问题，本申请的发明目的是建立一种多批次靶向代谢组学数据校正的方法。该方法可校正系统误差，并一定程度上降低随机误差对结果的影响，具有数据处理过程简单、结果准确、可操作性强等特点，可广泛用于代谢组学研究。

为了完成本申请的发明目的，本申请采用以下技术方案：

本发明的一种多批次靶向代谢组学数据的校正方法，它包括以下步骤：

(一)制作QC样本：

收集多份与待测样本相同的样本基质,并均匀混合成一个大的样本，即为QC样本，对该QC样本进行分装保存；

(二)获取代谢组学数据：

在进行每一批次待测样本检测时，在待测样本前添加1个上述步骤(一)所述的QC样本作为第一QC样本，并且在后续的每8-15个待测样本中插入1个上述步骤(一)所述的QC样本，记录插入QC样本的进样序数n，然后按照完全相同条件对该批次所有样本进行检测分析，得到该批次的各样本中靶向代谢物的浓度；

(三)获得并构建线性拟合模型数据：

将步骤(二)检测到的所有QC样本中靶向代谢物浓度与第一批次检测到的第一QC样本中靶向代谢物浓度的比值Y作为纵坐标，以该批次所有QC样本的进样序数n作为横坐标，构建相关线性拟合方程Y_＝a*n+b，并且得到a和b；

(四)校正数据集的系统误差：

将每一批次每个样本的进样序数n代入到步骤(三)得到的方程Y_＝a*n+b中，分别得到该批次的每个样本的校正因子，用该批次的每个样本的仪器检测浓度除以每个样本的校正因子，得到对每个样本经过系统误差校正后的数据；

(五)多批次靶向代谢组学数据的校正：

重复步骤(二)至步骤(四)，得到每一批次每个样本经过系统误差校正后的数据；

本发明的一种多批次靶向代谢组学数据的校正方法，其中：所述的检测分析为对检测样本进行的预处理或用色谱-质谱串联法进行的检测分析；

本发明的一种多批次靶向代谢组学数据的校正方法，其中：在步骤(二)中，在后续的每10个待测样本中插入1个上述步骤(一)所述的QC样本；

本发明的一种多批次靶向代谢组学数据的校正方法，其中：在步骤(一)中，收集至少50份与待测样本相同的样本基质；

本发明的一种多批次靶向代谢组学数据的校正方法，其中：在步骤(一)中，所述样本基质为健康人群的血浆、血清、全血、尿液或组织均浆。

本发明有益效果：

本发明所述的靶向代谢组学数据校正的方法，可有效、准确地校正代谢组学数据中的系统误差，处理过程简单方便、校正效果明显，可以显著地改善代谢组数据的质量，为靶向代谢组学研究提供可靠的实验依据。

附图说明

图1为第一批次样本即实施1中第1-101例进样样本数据的线性拟合模型示意图；

图2为用皮尔森相关系数来对本发明实施例中的数据与未经校正数据的比较；

图3为用欧氏距离来对本发明实施例中的数据与未经校正数据的比较；

图4为用QC样本RSD值来对本发明实施例中的数据与未经校正数据的比较。

下面将结合具体实施例和附图对本发明作进一步说明。

具体实施方式

下面通过实例进一步阐释本发明，实例仅限于说明本发明以便于理解，而非对本发明的限定。

实施例

本实施例要使用本发明的方法来测定728例血清样本中丙氨酸浓度，它采用液相色谱-三重四级杆串联质谱(LC-MS/MS)来测定728例血清样本中丙氨酸浓度，其中728例血清样本包括418例健康人，106例胃癌患者，204例肺癌患者。所有样本在8个不同批次实验中检测分析，其中第一批次有91例，第二批次有101例，第三批次有101例，第四批次有71例，第五批次有111例，第六批次有91例，第七批次有101例，第八批次有61例，以下以第一批次91例样本为例，对本发明进行说明：

本发明一种多批次靶向代谢组学数据的校正方法，它包括以下步骤：

(一)制作QC样本：

收集至少100份与待测样本相同的样本基质，例如：健康人群血清100份均匀混合成一个大的样本，即为QC样本，对该QC样本进行分装保存，例如：分装成500份QC样本；

(二)获取代谢组学数据：

在进行第一批次待测样本91例检测时，在待测样本前添加1个上述步骤(一)所述的QC样本作为第一QC样本，并且在后续的每10个待测样本中插入1个上述步骤(一)所述的QC样本，记录插入QC样本的进样序数n，以91例待检测样本为例，在后续中共插入9个QC样本，91例待测样本加上10个QC样本共计101个进样样本，然后按照完全相同条件对该批次所有样本进行预处理即使用液相色谱-三重四级杆串联质谱(LC-MS/MS)对丙氨酸浓度进行测定；

(三)获得并构建线性拟合模型数据：

将步骤(二)检测到的所有QC样本中靶向代谢物浓度与第一批次检测到的第一QC样本中靶向代谢物浓度的比值Y作为纵坐标，以该批次所有QC样本的进样序数n作为横坐标，构建相关线性拟合方程Y_＝a*n+b，并且得到a和b，如图1所示；

(四)校正数据集的系统误差：

将每一批次每个样本的进样序数n代入到步骤(三)得到的方程Y_＝a*n+b中，分别得到该批次的每个样本的校正因子，用该批次的每个样本的仪器检测浓度除以每个样本的校正因子，得到对每个样本经过系统误差校正后的数据，例如:对于进样序数n为13的样本来说，如图2所示，得到其校正因子为0.996，如果在该样本的血清中检测出的丙氨酸浓度为C，该样本经过系统误差校正后的丙氨酸浓度为C/0.996；

(五)多批次靶向代谢组学数据的校正：

重复步骤(二)至步骤(四)，得到第二批次至第八批次的血清样本经过系统误差校正后的数据。

如图2至图3所示，将按本方法所校正的靶向代谢组数据结果与只用内标校正法校正后的结果进行比较。继而发现，我们建立的校正系统误差的方法，可以使整体QC样本数据展现出较大的皮尔森相关系数，如图2所示，说明应用本方法更好地校正了QC的系统误差；通过本方法进行系统误差校正后，QC样本欧氏距离减小，如图3所示，即表明在长期测试过程中，代谢组学研究的系统误差得以很好地校正，且RSD值的降低亦可说明此问题，如图4所示；此外，通过对数据集随机误差的校正，可降低各分类组数据的离散程度，使靶向代谢组研究中目标物的识别更为明显。

总之，本发明给出了一种校正靶向代谢组学数据系统误差的方法。与非校正数据集相比，本发明校正了系统误差后，可以实现不同批次、不同人员甚至不同仪器间的靶向代谢组学数据的整合。首次计算全部质量控制样本与第1个质控样本浓度的比值，而后利用同批次QC样本比值与QC序号建立单批次线性模型，对不同批次间的系统误差进行校正。采用本发明方法比内标校正的靶向代谢组学数据处理方法有更好的数据统计结果，校正后数据可获得更大的皮尔森相关系数大，更小的欧氏距离及RSD值。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变形。

Claims

1.一种多批次靶向代谢组学数据的校正方法，它包括以下步骤：

(一)制作QC样本：

收集多份与待测样本相同的样本基质，并均匀混合成一个大的样本，即为QC样本，对该QC样本进行分装保存；

(二)获取代谢组学数据：

(三)获得并构建线性拟合模型数据：

将步骤(二)检测到的所有QC样本中靶向代谢物浓度与第一批次检测到的第一QC样本中靶向代谢物浓度的比值Y作为纵坐标，以该批次所有QC样本的进样序数n作为横坐标，构建相关线性拟合方程Y＝a*n+b，并且得到a和b；

(四)校正数据集的系统误差：

将每一批次每个样本的进样序数n代入到步骤(三)得到的方程Y＝a*n+b中，分别得到该批次的每个样本的校正因子，用该批次的每个样本的仪器检测浓度除以每个样本的校正因子，得到对每个样本经过系统误差校正后的数据；

(五)多批次靶向代谢组学数据的校正：

重复步骤(二)至步骤(四)，得到每一批次每个样本经过系统误差校正后的数据。

2.如权利要求1所述的多批次靶向代谢组学数据的校正方法，其特征在于：所述的检测分析为对检测样本进行的预处理或用色谱-质谱串联法进行的检测分析。

3.如权利要求2所述的多批次靶向代谢组学数据的校正方法，其特征在于：在步骤(二)中，在后续的每10个待测样本中插入1个上述步骤(一)所述的QC样本。

4.如权利要求3所述的多批次靶向代谢组学数据的校正方法，其特征在于：在步骤(一)中，收集至少50份与待测样本相同的样本基质。

5.如权利要求4所述的多批次靶向代谢组学数据的校正方法，其特征在于：在步骤(一)中，所述样本基质为健康人群的血浆、血清、全血、尿液或组织均浆。