CN105424827A - 一种代谢组学数据随机误差的筛选和校正方法 - Google Patents

一种代谢组学数据随机误差的筛选和校正方法 Download PDF

Info

Publication number
CN105424827A
CN105424827A CN201510755515.7A CN201510755515A CN105424827A CN 105424827 A CN105424827 A CN 105424827A CN 201510755515 A CN201510755515 A CN 201510755515A CN 105424827 A CN105424827 A CN 105424827A
Authority
CN
China
Prior art keywords
sample
stochastic error
samples
ratio
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510755515.7A
Other languages
English (en)
Other versions
CN105424827B (zh
Inventor
林晓惠
郝志强
赵燕妮
许国旺
路鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201510755515.7A priority Critical patent/CN105424827B/zh
Publication of CN105424827A publication Critical patent/CN105424827A/zh
Application granted granted Critical
Publication of CN105424827B publication Critical patent/CN105424827B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种代谢组学数据随机误差的筛选和校正方法,首先采用色谱-质谱联用仪对样品进行分析得到代谢组轮廓,通过计算相邻两个质量控制样品(QC)中代谢物响应强度的比值,将比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而建立模型去筛选代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。本发明的核心在于通过代谢物在两个相邻QC样品中响应强度的比值构建模型去筛选和校正随机误差。本发明可以高效、准确地筛选和校正代谢组数据中的随机误差,改善代谢组数据的质量。

Description

一种代谢组学数据随机误差的筛选和校正方法
技术领域
本发明涉及分析化学和代谢组学领域。是一种筛选和校正代谢组学数据随机误差的方法。
背景技术
代谢组学是研究生物体内源性小分子代谢物动态变化的一门学科,是继基因组学、转录组学、蛋白质组学后,系统生物学的又一重要分支。代谢物是基因调控的最终产物,是联系基因型和生物表型的纽带,通过对小分子代谢物的定性和定量分析可直接反映机体当前的生理状态。近年来,随着分析技术的发展,代谢组学应用已拓展至疾病的早期诊断和治疗、临床标记物的发现、药物筛选和毒性评价、药物质量控制、功能基因组学、植物学等多个生命科学研究领域。
代谢组学数据质量会直接影响分析结果的可靠性和准确性。但是由于分析过程中多种不稳定随机因素的影响,如室温、相对湿度和气压等环境条件的变化,分析人员操作的微小差异以及仪器的不稳定等,都会造成随机误差的存在,从而干扰实验结果。因此需要发展一种筛选和校正代谢组数据随机误差的分析方法,提高数据质量,保证分析结果的可靠性。
本发明通过计算相邻两个QC样本中代谢物响应强度的比值,将其从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。通过对上述过程的集成化处理,可以准确、高效、高通量的筛选和校正代谢组数据的随机误差,改善代谢组学数据的质量。
发明内容
本发明的目的在于建立一种筛选和校正代谢组数据随机误差的分析方法。该方法的核心技术为利用代谢物的比值构建模型去筛选和校正随机误差。该方法具有筛选和校正过程简单、结果准确、通路高等特点,适于大规模样品的随机误差的筛选和校正,可广泛地应用于大规模代谢组学分析。
为实现上述目的,本发明采用的技术方案如下:
一种用于筛选和校正代谢组学数据随机误差的方法,通过计算相邻两个QC样本中代谢物响应强度的比值,建立模型筛选随机误差,然后利用线性拟合模型对随机误差进行校正。
具体步骤如下:
1)QC样本的制作:分别从所有将进行化学轮廓分析的样本中准确称量或移取等量样本并均匀混合成一个大的样本,即QC样本;
2)代谢组学数据的获取:每5-20个待测样本插入一个QC样本,QC样本和待测样本按照完全相同条件进行样本预处理和基于色谱-质谱方法的代谢组学分析;
3)相邻两个QC样品中代谢组数据比值的获取:计算代谢物在相邻两个QC样品中的响应强度的比值;
4)构建模型筛选随机误差:将相邻两个QC样品中代谢物的比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差;
5)两个相邻QC样品中正常比值的获取:筛选到随机误差后,去除含有随机误差的代谢特征,计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值;
6)线性拟合模型的构建:将正常代谢特征在两个相邻QC样本中的比值,进行从小到大排序,并进行线性拟合,获得线性拟合模型的公式,将含有随机误差的代谢特征j带入线性拟合模型的公式中,获得校正因子其中AQCnj和AQC'(n-1)j分别代表特征j在QCn中未校正的响应值和在QC(n-1)中校正后的响应值;
7)校正随机误差:某一含有随机误差的代谢物j在QCn中响应值为AQnj,其校正后的响应值AQC'nj的可以通过如下公式获得;
A QC n j ′ = A QC ( n - 1 ) j ′ × ( A QC n j A QC ( n - 1 ) j ′ ) c o r r
8)利用所建立的筛选和校正代谢组学数据随机误差的方法对所有的QC样本进行随机误差的筛选和校正;
本发明可以有效、准确地筛选和校正代谢组学数据中的随机误差,该数据处理过程简单方便、通量高、校正效果明显,可以显著地改善代谢组数据的质量。
附图说明
图1是实施例中筛选随机误差的示意图。
图2是实施列中我们建立的筛选和校正随机误差的方法与传统的箱图方法比较的结果。其中(A)PCA分析中QC样品的欧式距离和皮尔森相关系数,(B)QC样本的RSD分布图;R和Box分别代表我们建立的筛选和校正随机误差的方法和箱图方法。
具体实施方式
下面通过实例进一步阐释本发明,实例仅限于说明本发明以便于理解,而非对本发明的限定。
实施例
1样品
本例以新鲜烟叶为样品,采集河南、云南和贵州三个产地的新鲜烟叶共447个,-196℃液氮中保存,运输,液氮条件下研磨,低温冻干,-80℃冰箱储存。每个烟末样本中分别称量0.5g,均匀混合,生成一个新的样本,即质量控制(QC)样本。QC样本可以用于建立气相色谱质谱联用(GC-MS)拟靶标代谢组学方法、评价分析方法的重复性及校正实际样本代谢组数据的误差。
2.随机误差的筛选和校正方法:
2.1GC-MS代谢组学分析
(1)样品预处理:烟草鲜叶样本从-80℃冰箱中取出,4℃冰箱过夜放置后,室温下放置1小时。准确称取10mg烟草鲜叶样本,加入1.5mL乙腈/异丙醇/水(3/3/2,v/v/v),涡旋振荡提取4分钟后,14000rpm离心10分钟,取0.5mL上清,低温减压干燥。衍生采用肟化反应和硅烷化反应两步法,第一步加入100μL甲氧胺盐酸盐-吡啶溶液(20mg/mL),37℃水浴衍生90分钟;第二步加入80mLN-甲基-N-(三甲基硅基)三氟乙酰胺进行硅烷化反应,反应时间60分钟。取上清1μL用于进样。
(2)GC-MS分析条件:气相色谱质谱联用的分析在岛津QP2010气质联用系统完成;色谱柱为安捷伦DB-5MS毛细管柱(30m×0.25mm×0.25μm);氦气作为载气,流量1.2mL/min;进样口温度300℃,分流比10:1;程序升温:初始70℃,保持3分钟,5℃/min升至310℃,保持5分钟。进样量1μL。EI电离模式(70eV),传输线温度280℃,离子源240℃,全扫描的质量范围33-600m/z。GC-MS拟靶标分析方法的建立流程主要包括以下几个方面,首先采用ChromaTOF(Leco)和AMDIS(NIST)软件对QC样品的GC-MS全扫描数据进行去卷积和峰识别,确定轮廓分析的目标化合物,通过计算相邻化合物的保留时间,对所有待分析的化合物进行分组,进行组内特征离子的选择。根据化合物的特征离子、保留时间和分组信息建立基于GC-MS拟靶标代谢组学分析方法,该方法包括50个分组,319个代谢物。拟靶标分析方法的其他参数与全扫描模式相同。
2.2代谢组轮廓数据的生成
采集的原始代谢组轮廓数据由ChromaTOF(Leco)和AMDIS(NIST)软件进行去卷积和峰识别。随后,采用岛津Postrun软件进行色谱峰的匹配,保留时间窗口设为0.2min。
2.3构建模型筛选随机误差
将相邻两个QC样品中代谢物响应强度的比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差(图1)。
2.4构建线性拟合模型校正随机误差
筛选到随机误差后,去除含有随机误差的代谢特征,计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值,并对其进行从小到大排序,
然后建立线性拟合模型,获得拟合模型的公式,将含有随机误差的代谢特征j带入线性拟合模型的公式中,获得校正因子其中AQCnj和AQC'(n-1)j分别代表特征j在QCn中未校正的响应值和在QC(n-1)中校正后的响应值。最后,某一含有随机误差的代谢物j在QCn中响应值为AQnj,其校正后的响应值AQC'nj的可以通过如下公式获得;
A QC n j ′ = A QC ( n - 1 ) j ′ × ( A QC n j A QC ( n - 1 ) j ′ ) c o r r .
2.5与常用的箱图筛选随机误差的计算结果比较
将实验所获得的GC-MS拟靶标代谢组数据用箱图筛选随机误差,然后随机地用某一正常代谢特征的响应值来替代随机误差值,经过系统误差校正后,输出结果,并对所计算的结果进行比较。结果发现,与箱图校正相比,我们建立的筛选和校正离散的方法可以使所有的QC样品,展现出较大的皮尔森相关系数、较小的欧式距离和RSD值(附图2),说明应用我们建立的校正方法可以使所有的QC样品在PCA中聚集的更紧密,并显著地改善QC的重复性。
本发明给出了一种通用的代谢组学数据随机误差筛选和校正的方法。与传统的箱图筛选随机误差并随机赋值的方法不同,本发明首次采用相邻两组QC样品的比值筛选随机误差,并应用比值的线性拟合校正随机误差。采用本发明方法比传统的箱图筛选方法具有更好的校正效果,校正后的QC样品展示了更好重复性、更短欧式距离和更大皮尔森相关系数。

Claims (1)

1.一种用于筛选和校正代谢组学数据随机误差的方法,首先从所有待测样品中取出相同质量样品,混合后建立质控(QC)样品,计算相邻两个QC样本中代谢物响应强度的比值,建立模型筛选随机误差,然后利用线性拟合模型对随机误差进行校正;其特征在于以下步骤:
(1)制作QC样本:分别从所有将进行代谢组学分析的样本中准确称量或移取等量样本并均匀混合成一个大的样本,即QC样本;
(2)获取代谢组学数据:每5-20个待测样本插入一个QC样本,QC样本和待测样本按照完全相同条件进行样本预处理和基于色谱-质谱方法的代谢组学分析;
(3)获取相邻两个QC样品中代谢组数据比值:计算同一个代谢物在相邻两个QC样品中的响应强度的比值;
(4)构建模型筛选随机误差:将相邻两个QC样品中代谢物的比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差;
(5)构建模型校正随机误差:利用两个相邻QC样品中的正常比值进行线性拟合模型,校正随机误差,具体步骤为:
①两个相邻QC样品中正常比值的获取:筛选到随机误差后,去除含有随机误差的代谢特征,计算不含有随机误差的正常代谢特征在相邻两个QC样品中的比值;
②线性拟合模型的构建:将正常代谢特征在两个相邻QC样本中的比值,进行从小到大排序,并进行线性拟合,获得线性拟合模型的公式,将含有随机误差的代谢特征j带入线性拟合模型的公式中,获得校正因子其中AQCnj和AQC'(n-1)j分别代表特征j在QCn中未校正的响应值和在QC(n-1)中校正后的响应值;
③随机误差的校正:某一含有随机误差的代谢物j在QCn中响应值为AQnj,其校正后的响应值AQC'nj通过如下公式获得;
A QC n j ′ = A QC ( n - 1 ) j ′ × ( A QC n j A QC ( n - 1 ) j ′ ) c o r r .
CN201510755515.7A 2015-11-07 2015-11-07 一种代谢组学数据随机误差的筛选和校正方法 Expired - Fee Related CN105424827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510755515.7A CN105424827B (zh) 2015-11-07 2015-11-07 一种代谢组学数据随机误差的筛选和校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510755515.7A CN105424827B (zh) 2015-11-07 2015-11-07 一种代谢组学数据随机误差的筛选和校正方法

Publications (2)

Publication Number Publication Date
CN105424827A true CN105424827A (zh) 2016-03-23
CN105424827B CN105424827B (zh) 2017-07-11

Family

ID=55503170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510755515.7A Expired - Fee Related CN105424827B (zh) 2015-11-07 2015-11-07 一种代谢组学数据随机误差的筛选和校正方法

Country Status (1)

Country Link
CN (1) CN105424827B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106018600A (zh) * 2016-05-23 2016-10-12 中国科学院植物研究所 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
CN106483217A (zh) * 2016-09-30 2017-03-08 中国烟草总公司郑州烟草研究院 一种gc‑ms检测新鲜烟叶中初生代谢物和次生代谢物的方法
CN109856307A (zh) * 2019-03-27 2019-06-07 大连理工大学 一种代谢组分子变量综合筛选技术
CN110097920A (zh) * 2019-04-10 2019-08-06 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110782942A (zh) * 2019-10-25 2020-02-11 苏州帕诺米克生物医药科技有限公司 代谢组学中的质量控制方法、装置及存储介质
CN112986411A (zh) * 2019-12-17 2021-06-18 中国科学院地理科学与资源研究所 一种生物代谢物筛查方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3873971A (en) * 1973-10-31 1975-03-25 Motorola Inc Random error correcting system
CA2400126A1 (en) * 2000-03-02 2001-09-07 Imaging Research, Inc. Process for estimating random error in chemical and biological assays when random error differs across assays
CN101008936A (zh) * 2007-01-24 2007-08-01 浙江大学 一种校正测量数据显著误差与随机误差的方法
CN103217385A (zh) * 2013-03-22 2013-07-24 华中科技大学 椭偏仪测量系统的随机误差评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3873971A (en) * 1973-10-31 1975-03-25 Motorola Inc Random error correcting system
CA2400126A1 (en) * 2000-03-02 2001-09-07 Imaging Research, Inc. Process for estimating random error in chemical and biological assays when random error differs across assays
CN101008936A (zh) * 2007-01-24 2007-08-01 浙江大学 一种校正测量数据显著误差与随机误差的方法
CN103217385A (zh) * 2013-03-22 2013-07-24 华中科技大学 椭偏仪测量系统的随机误差评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANDRA CASTILLO ET AL.: "Data Analysis Tool for Comprehensive Two-Dimensional Gas Chromatography/Time-of-Flight Mass Spectrometry", 《ANAL. CHEM.》 *
姚宪伟 等: "处理数据随机误差的一种方法", 《林业勘查设计》 *
赵松山: "数据中偶然误差和系统误差的分析与检验", 《辽宁工程技术大学学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106018600A (zh) * 2016-05-23 2016-10-12 中国科学院植物研究所 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
CN106018600B (zh) * 2016-05-23 2018-06-01 中国科学院植物研究所 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
CN106483217A (zh) * 2016-09-30 2017-03-08 中国烟草总公司郑州烟草研究院 一种gc‑ms检测新鲜烟叶中初生代谢物和次生代谢物的方法
CN109856307A (zh) * 2019-03-27 2019-06-07 大连理工大学 一种代谢组分子变量综合筛选技术
CN109856307B (zh) * 2019-03-27 2021-04-16 大连理工大学 一种代谢组分子变量综合筛选技术
CN110097920A (zh) * 2019-04-10 2019-08-06 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110097920B (zh) * 2019-04-10 2022-09-20 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110782942A (zh) * 2019-10-25 2020-02-11 苏州帕诺米克生物医药科技有限公司 代谢组学中的质量控制方法、装置及存储介质
CN110782942B (zh) * 2019-10-25 2023-08-25 苏州帕诺米克生物医药科技有限公司 代谢组学中的质量控制方法、装置及存储介质
CN112986411A (zh) * 2019-12-17 2021-06-18 中国科学院地理科学与资源研究所 一种生物代谢物筛查方法
CN112986411B (zh) * 2019-12-17 2022-08-09 中国科学院地理科学与资源研究所 一种生物代谢物筛查方法

Also Published As

Publication number Publication date
CN105424827B (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
CN105424827A (zh) 一种代谢组学数据随机误差的筛选和校正方法
CN103563043B (zh) 用于样品定量化学分析的具有对仪器响应的校准的特别是医学领域的系统及其对应方法
Okazaki et al. Recent advances of metabolomics in plant biotechnology
Contrepois et al. Optimized Analytical Procedures for the Untargeted Metabolomic Profiling of Human Urine and Plasma by Combining Hydrophilic Interaction (HILIC) and Reverse-Phase Liquid Chromatography (RPLC)–Mass Spectrometry*[S]
Wang et al. The concept of spectral accuracy for MS
CN111579665B (zh) 一种基于uplc/hrms的代谢组学相对定量分析方法
JP4818116B2 (ja) メタボノミクスにおいてlc−msまたはlc−ms/msデータの処理を行うための方法およびデバイス
US20060200316A1 (en) Data correction, normalization and validation for quantitative high-throughput metabolomic profiling
Han et al. Mass spectrometry-based technologies for high-throughput metabolomics
CN108061776B (zh) 一种用于液相色谱-质谱的代谢组学数据峰匹配方法
Chen et al. A modified data normalization method for GC-MS-based metabolomics to minimize batch variation
Lind et al. The use of mass spectrometry for analysing metabolite biomarkers in epidemiology: methodological and statistical considerations for application to large numbers of biological samples
US20240266001A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
Zhang et al. Resolution enhancement of overlapping peaks of ion mobility spectrometry based on improved particle swarm optimization algorithm
CN106706820B (zh) 一种通用的大规模代谢组学数据的校正方法
Jayasinghe et al. Quantification of sugars and organic acids in biological matrices using GC-QqQ-MS
CN111220734A (zh) 一种利用敏感代谢物评价潜伏缺素期作物营养状态的方法
CN108931590B (zh) 多批次靶向代谢组学数据的校正方法
Amoresano et al. Mass spectrometry in metabolomics
Rodrigues et al. Standard key steps in mass spectrometry-based plant metabolomics experiments: Instrument performance and analytical method validation
WO2021004355A1 (zh) 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置
Kalogeropoulou Pre-processing and analysis of high-dimensional plant metabolomics data
Rockwood et al. Isotopic distributions
CN114280199B (zh) 反相液相色谱保留指数的移植方法
US20230282467A1 (en) Stable isotope labelled internal calibrators for the quantification of complex molecules

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170711

Termination date: 20201107

CF01 Termination of patent right due to non-payment of annual fee