CN105424827A

CN105424827A - 一种代谢组学数据随机误差的筛选和校正方法

Info

Publication number: CN105424827A
Application number: CN201510755515.7A
Authority: CN
Inventors: 林晓惠; 郝志强; 赵燕妮; 许国旺; 路鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-11-07
Filing date: 2015-11-07
Publication date: 2016-03-23
Anticipated expiration: 2035-11-07
Also published as: CN105424827B

Abstract

本发明公开了一种代谢组学数据随机误差的筛选和校正方法，首先采用色谱-质谱联用仪对样品进行分析得到代谢组轮廓，通过计算相邻两个质量控制样品(QC)中代谢物响应强度的比值，将比值从小到大排序后，筛选总比值个数的5％作为离散点，将这5％的离散点平均分配到排序后比值的两端，从而建立模型去筛选代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。本发明的核心在于通过代谢物在两个相邻QC样品中响应强度的比值构建模型去筛选和校正随机误差。本发明可以高效、准确地筛选和校正代谢组数据中的随机误差，改善代谢组数据的质量。

Description

一种代谢组学数据随机误差的筛选和校正方法

技术领域

本发明涉及分析化学和代谢组学领域。是一种筛选和校正代谢组学数据随机误差的方法。

背景技术

代谢组学是研究生物体内源性小分子代谢物动态变化的一门学科，是继基因组学、转录组学、蛋白质组学后，系统生物学的又一重要分支。代谢物是基因调控的最终产物，是联系基因型和生物表型的纽带，通过对小分子代谢物的定性和定量分析可直接反映机体当前的生理状态。近年来，随着分析技术的发展，代谢组学应用已拓展至疾病的早期诊断和治疗、临床标记物的发现、药物筛选和毒性评价、药物质量控制、功能基因组学、植物学等多个生命科学研究领域。

代谢组学数据质量会直接影响分析结果的可靠性和准确性。但是由于分析过程中多种不稳定随机因素的影响,如室温、相对湿度和气压等环境条件的变化，分析人员操作的微小差异以及仪器的不稳定等，都会造成随机误差的存在，从而干扰实验结果。因此需要发展一种筛选和校正代谢组数据随机误差的分析方法，提高数据质量，保证分析结果的可靠性。

本发明通过计算相邻两个QC样本中代谢物响应强度的比值，将其从小到大排序后，筛选总比值个数的5％作为离散点，将这5％的离散点平均分配到排序后比值的两端，从而筛选出代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。通过对上述过程的集成化处理，可以准确、高效、高通量的筛选和校正代谢组数据的随机误差，改善代谢组学数据的质量。

发明内容

本发明的目的在于建立一种筛选和校正代谢组数据随机误差的分析方法。该方法的核心技术为利用代谢物的比值构建模型去筛选和校正随机误差。该方法具有筛选和校正过程简单、结果准确、通路高等特点，适于大规模样品的随机误差的筛选和校正，可广泛地应用于大规模代谢组学分析。

为实现上述目的，本发明采用的技术方案如下：

一种用于筛选和校正代谢组学数据随机误差的方法，通过计算相邻两个QC样本中代谢物响应强度的比值，建立模型筛选随机误差，然后利用线性拟合模型对随机误差进行校正。

具体步骤如下：

1)QC样本的制作：分别从所有将进行化学轮廓分析的样本中准确称量或移取等量样本并均匀混合成一个大的样本，即QC样本；

2)代谢组学数据的获取：每5-20个待测样本插入一个QC样本，QC样本和待测样本按照完全相同条件进行样本预处理和基于色谱-质谱方法的代谢组学分析；

3)相邻两个QC样品中代谢组数据比值的获取：计算代谢物在相邻两个QC样品中的响应强度的比值；

4)构建模型筛选随机误差：将相邻两个QC样品中代谢物的比值从小到大排序后，筛选总比值个数的5％作为离散点，将这5％的离散点平均分配到排序后比值的两端，从而筛选出随机误差；

5)两个相邻QC样品中正常比值的获取：筛选到随机误差后，去除含有随机误差的代谢特征，计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值；

6)线性拟合模型的构建：将正常代谢特征在两个相邻QC样本中的比值，进行从小到大排序，并进行线性拟合，获得线性拟合模型的公式，将含有随机误差的代谢特征j带入线性拟合模型的公式中，获得校正因子其中AQC_nj和AQC'_(n-1)j分别代表特征j在QC_n中未校正的响应值和在QC_(n-1)中校正后的响应值；

7)校正随机误差：某一含有随机误差的代谢物j在QC_n中响应值为AQ_nj，其校正后的响应值AQC'_nj的可以通过如下公式获得；

A_{{QC}_{n j}^{'}} = A_{{QC}_{(n - 1) j}^{'}} \times {(\frac{A_{{QC}_{n j}}}{A_{{QC}_{(n - 1) j}^{'}}})}_{c o r r}

8)利用所建立的筛选和校正代谢组学数据随机误差的方法对所有的QC样本进行随机误差的筛选和校正；

本发明可以有效、准确地筛选和校正代谢组学数据中的随机误差，该数据处理过程简单方便、通量高、校正效果明显，可以显著地改善代谢组数据的质量。

附图说明

图1是实施例中筛选随机误差的示意图。

图2是实施列中我们建立的筛选和校正随机误差的方法与传统的箱图方法比较的结果。其中(A)PCA分析中QC样品的欧式距离和皮尔森相关系数，(B)QC样本的RSD分布图；R和Box分别代表我们建立的筛选和校正随机误差的方法和箱图方法。

具体实施方式

下面通过实例进一步阐释本发明，实例仅限于说明本发明以便于理解，而非对本发明的限定。

实施例

1样品

本例以新鲜烟叶为样品，采集河南、云南和贵州三个产地的新鲜烟叶共447个，-196℃液氮中保存，运输，液氮条件下研磨，低温冻干，-80℃冰箱储存。每个烟末样本中分别称量0.5g，均匀混合，生成一个新的样本，即质量控制(QC)样本。QC样本可以用于建立气相色谱质谱联用(GC-MS)拟靶标代谢组学方法、评价分析方法的重复性及校正实际样本代谢组数据的误差。

2.随机误差的筛选和校正方法：

2.1GC-MS代谢组学分析

(1)样品预处理：烟草鲜叶样本从-80℃冰箱中取出，4℃冰箱过夜放置后，室温下放置1小时。准确称取10mg烟草鲜叶样本，加入1.5mL乙腈/异丙醇/水(3/3/2,v/v/v),涡旋振荡提取4分钟后，14000rpm离心10分钟，取0.5mL上清，低温减压干燥。衍生采用肟化反应和硅烷化反应两步法，第一步加入100μL甲氧胺盐酸盐-吡啶溶液(20mg/mL)，37℃水浴衍生90分钟；第二步加入80mLN-甲基-N-(三甲基硅基)三氟乙酰胺进行硅烷化反应，反应时间60分钟。取上清1μL用于进样。

(2)GC-MS分析条件：气相色谱质谱联用的分析在岛津QP2010气质联用系统完成；色谱柱为安捷伦DB-5MS毛细管柱(30m×0.25mm×0.25μm)；氦气作为载气，流量1.2mL/min；进样口温度300℃，分流比10：1；程序升温：初始70℃，保持3分钟，5℃/min升至310℃，保持5分钟。进样量1μL。EI电离模式(70eV)，传输线温度280℃，离子源240℃，全扫描的质量范围33-600m/z。GC-MS拟靶标分析方法的建立流程主要包括以下几个方面，首先采用ChromaTOF(Leco)和AMDIS(NIST)软件对QC样品的GC-MS全扫描数据进行去卷积和峰识别，确定轮廓分析的目标化合物，通过计算相邻化合物的保留时间，对所有待分析的化合物进行分组，进行组内特征离子的选择。根据化合物的特征离子、保留时间和分组信息建立基于GC-MS拟靶标代谢组学分析方法，该方法包括50个分组，319个代谢物。拟靶标分析方法的其他参数与全扫描模式相同。

2.2代谢组轮廓数据的生成

采集的原始代谢组轮廓数据由ChromaTOF(Leco)和AMDIS(NIST)软件进行去卷积和峰识别。随后，采用岛津Postrun软件进行色谱峰的匹配，保留时间窗口设为0.2min。

2.3构建模型筛选随机误差

将相邻两个QC样品中代谢物响应强度的比值从小到大排序后，筛选总比值个数的5％作为离散点，将这5％的离散点平均分配到排序后比值的两端，从而筛选出随机误差(图1)。

2.4构建线性拟合模型校正随机误差

筛选到随机误差后，去除含有随机误差的代谢特征，计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值，并对其进行从小到大排序，

然后建立线性拟合模型，获得拟合模型的公式，将含有随机误差的代谢特征j带入线性拟合模型的公式中，获得校正因子其中AQC_nj和AQC'_(n-1)j分别代表特征j在QC_n中未校正的响应值和在QC_(n-1)中校正后的响应值。最后，某一含有随机误差的代谢物j在QC_n中响应值为AQ_nj，其校正后的响应值AQC'_nj的可以通过如下公式获得；

A_{{QC}_{n j}^{'}} = A_{{QC}_{(n - 1) j}^{'}} \times {(\frac{A_{{QC}_{n j}}}{A_{{QC}_{(n - 1) j}^{'}}})}_{c o r r} .

2.5与常用的箱图筛选随机误差的计算结果比较

将实验所获得的GC-MS拟靶标代谢组数据用箱图筛选随机误差，然后随机地用某一正常代谢特征的响应值来替代随机误差值，经过系统误差校正后，输出结果，并对所计算的结果进行比较。结果发现，与箱图校正相比，我们建立的筛选和校正离散的方法可以使所有的QC样品，展现出较大的皮尔森相关系数、较小的欧式距离和RSD值(附图2)，说明应用我们建立的校正方法可以使所有的QC样品在PCA中聚集的更紧密，并显著地改善QC的重复性。

本发明给出了一种通用的代谢组学数据随机误差筛选和校正的方法。与传统的箱图筛选随机误差并随机赋值的方法不同，本发明首次采用相邻两组QC样品的比值筛选随机误差，并应用比值的线性拟合校正随机误差。采用本发明方法比传统的箱图筛选方法具有更好的校正效果，校正后的QC样品展示了更好重复性、更短欧式距离和更大皮尔森相关系数。

Claims

1.一种用于筛选和校正代谢组学数据随机误差的方法，首先从所有待测样品中取出相同质量样品，混合后建立质控(QC)样品，计算相邻两个QC样本中代谢物响应强度的比值，建立模型筛选随机误差，然后利用线性拟合模型对随机误差进行校正；其特征在于以下步骤：

(1)制作QC样本：分别从所有将进行代谢组学分析的样本中准确称量或移取等量样本并均匀混合成一个大的样本，即QC样本；

(2)获取代谢组学数据：每5-20个待测样本插入一个QC样本，QC样本和待测样本按照完全相同条件进行样本预处理和基于色谱-质谱方法的代谢组学分析；

(3)获取相邻两个QC样品中代谢组数据比值：计算同一个代谢物在相邻两个QC样品中的响应强度的比值；

(4)构建模型筛选随机误差：将相邻两个QC样品中代谢物的比值从小到大排序后，筛选总比值个数的5％作为离散点，将这5％的离散点平均分配到排序后比值的两端，从而筛选出随机误差；

(5)构建模型校正随机误差：利用两个相邻QC样品中的正常比值进行线性拟合模型，校正随机误差，具体步骤为：

①两个相邻QC样品中正常比值的获取：筛选到随机误差后，去除含有随机误差的代谢特征，计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值；

②线性拟合模型的构建：将正常代谢特征在两个相邻QC样本中的比值，进行从小到大排序，并进行线性拟合，获得线性拟合模型的公式，将含有随机误差的代谢特征j带入线性拟合模型的公式中，获得校正因子其中AQC_nj和AQC'_(n-1)j分别代表特征j在QC_n中未校正的响应值和在QC_(n-1)中校正后的响应值；

③随机误差的校正：某一含有随机误差的代谢物j在QC_n中响应值为AQ_nj，其校正后的响应值AQC'_nj通过如下公式获得；

A_{{QC}_{n j}^{'}} = A_{{QC}_{(n - 1) j}^{'}} \times {(\frac{A_{{QC}_{n j}}}{A_{{QC}_{(n - 1) j}^{'}}})}_{c o r r} .