CN105424827B - 一种代谢组学数据随机误差的筛选和校正方法 - Google Patents
一种代谢组学数据随机误差的筛选和校正方法 Download PDFInfo
- Publication number
- CN105424827B CN105424827B CN201510755515.7A CN201510755515A CN105424827B CN 105424827 B CN105424827 B CN 105424827B CN 201510755515 A CN201510755515 A CN 201510755515A CN 105424827 B CN105424827 B CN 105424827B
- Authority
- CN
- China
- Prior art keywords
- random error
- samples
- ratio
- sample
- metabolin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种代谢组学数据随机误差的筛选和校正方法,首先采用色谱‑质谱联用仪对样品进行分析得到代谢组轮廓,通过计算相邻两个质量控制样品(QC)中代谢物响应强度的比值,将比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而建立模型去筛选代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。本发明的核心在于通过代谢物在两个相邻QC样品中响应强度的比值构建模型去筛选和校正随机误差。本发明可以高效、准确地筛选和校正代谢组数据中的随机误差,改善代谢组数据的质量。
Description
技术领域
本发明涉及分析化学和代谢组学领域。是一种筛选和校正代谢组学数据随机误差的方法。
背景技术
代谢组学是研究生物体内源性小分子代谢物动态变化的一门学科,是继基因组学、转录组学、蛋白质组学后,系统生物学的又一重要分支。代谢物是基因调控的最终产物,是联系基因型和生物表型的纽带,通过对小分子代谢物的定性和定量分析可直接反映机体当前的生理状态。近年来,随着分析技术的发展,代谢组学应用已拓展至疾病的早期诊断和治疗、临床标记物的发现、药物筛选和毒性评价、药物质量控制、功能基因组学、植物学等多个生命科学研究领域。
代谢组学数据质量会直接影响分析结果的可靠性和准确性。但是由于分析过程中多种不稳定随机因素的影响,如室温、相对湿度和气压等环境条件的变化,分析人员操作的微小差异以及仪器的不稳定等,都会造成随机误差的存在,从而干扰实验结果。因此需要发展一种筛选和校正代谢组数据随机误差的分析方法,提高数据质量,保证分析结果的可靠性。
本发明通过计算相邻两个QC样品中代谢物响应强度的比值,将其从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出代谢组数据中的随机误差。然后利用比值的线性拟合模型对随机误差进行校正。通过对上述过程的集成化处理,可以准确、高效、高通量的筛选和校正代谢组数据的随机误差,改善代谢组学数据的质量。
发明内容
本发明的目的在于建立一种筛选和校正代谢组数据随机误差的分析方法。该方法的核心技术为利用代谢物的比值构建模型去筛选和校正随机误差。该方法具有筛选和校正过程简单、结果准确、通路高等特点,适于大规模样品的随机误差的筛选和校正,可广泛地应用于大规模代谢组学分析。
为实现上述目的,本发明采用的技术方案如下:
一种用于筛选和校正代谢组学数据随机误差的方法,通过计算相邻两个QC样品中代谢物响应强度的比值,建立模型筛选随机误差,然后利用线性拟合模型对随机误差进行校正。
具体步骤如下:
1)QC样品的制作:分别从所有将进行化学轮廓分析的样品中准确称量或移取等量样品并均匀混合成一个大的样品,即QC样品;
2)代谢组学数据的获取:每5-20个待测样品插入一个QC样品,QC样品和待测样品按照完全相同条件进行样品预处理和基于色谱-质谱方法的代谢组学分析;
3)相邻两个QC样品中代谢组数据比值的获取:计算代谢物在相邻两个QC样品中的响应强度的比值;
4)构建模型筛选随机误差:将相邻两个QC样品中代谢物的比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差;
5)两个相邻QC样品中正常比值的获取:筛选到随机误差后,去除含有随机误差的代谢物,计算不含有随机误差的正常代谢物在相邻两个QC样品中的比值;
6)线性拟合模型的构建:将正常代谢物在两个相邻QC样品中的比值,进行从小到大排序,并进行线性拟合,获得线性拟合模型的公式,将含有随机误差的代谢物j带入线性拟合模型的公式中,获得校正因子其中AQCnj和AQC'(n-1)j分别代表代谢物j在QCn中未校正的响应值和在QC(n-1)中校正后的响应值;
7)校正随机误差:某一含有随机误差的代谢物j在QCn中响应值为AQnj,其校正后的响应值AQC'nj的可以通过如下公式获得;
8)利用所建立的筛选和校正代谢组学数据随机误差的方法对所有的QC样品进行随机误差的筛选和校正;
本发明可以有效、准确地筛选和校正代谢组学数据中的随机误差,该数据处理过程简单方便、通量高、校正效果明显,可以显著地改善代谢组数据的质量。
附图说明
图1是实施例中筛选随机误差的示意图。
图2是实施列中我们建立的筛选和校正随机误差的方法与传统的箱图方法比较的结果。其中(A)PCA分析中QC样品的欧式距离和皮尔森相关系数,(B)QC样品的RSD分布图;R和Box分别代表我们建立的筛选和校正随机误差的方法和箱图方法。
具体实施方式
下面通过实例进一步阐释本发明,实例仅限于说明本发明以便于理解,而非对本发明的限定。
实施例
1样品
本例以新鲜烟叶为样品,采集河南、云南和贵州三个产地的新鲜烟叶共447个,-196℃液氮中保存,运输,液氮条件下研磨,低温冻干,-80℃冰箱储存。每个烟末样品中分别称量0.5g,均匀混合,生成一个新的样品,即质量控制(QC)样品。QC样品可以用于建立气相色谱质谱联用(GC-MS)拟靶标代谢组学方法、评价分析方法的重复性及校正实际样品代谢组数据的误差。
2.随机误差的筛选和校正方法:
2.1GC-MS代谢组学分析
(1)样品预处理:烟草鲜叶样品从-80℃冰箱中取出,4℃冰箱过夜放置后,室温下放置1小时。准确称取10mg烟草鲜叶样品,加入1.5mL乙腈/异丙醇/水(3/3/2,v/v/v),涡旋振荡提取4分钟后,14000rpm离心10分钟,取0.5mL上清,低温减压干燥。衍生采用肟化反应和硅烷化反应两步法,第一步加入100μL甲氧胺盐酸盐-吡啶溶液(20mg/mL),37℃水浴衍生90分钟;第二步加入80mL N-甲基-N-(三甲基硅基)三氟乙酰胺进行硅烷化反应,反应时间60分钟。取上清1μL用于进样。
(2)GC-MS分析条件:气相色谱质谱联用的分析在岛津QP2010气质联用系统完成;色谱柱为安捷伦DB-5MS毛细管柱(30m×0.25mm×0.25μm);氦气作为载气,流量1.2mL/min;进样口温度300℃,分流比10:1;程序升温:初始70℃,保持3分钟,5℃/min升至310℃,保持5分钟。进样量1μL。EI电离模式(70eV),传输线温度280℃,离子源240℃,全扫描的质量范围33-600m/z。GC-MS拟靶标分析方法的建立流程主要包括以下几个方面,首先采用ChromaTOF(Leco)和AMDIS(NIST)软件对QC样品的GC-MS全扫描数据进行去卷积和峰识别,确定轮廓分析的目标化合物,通过计算相邻化合物的保留时间,对所有待分析的化合物进行分组,进行组内特征离子的选择。根据化合物的特征离子、保留时间和分组信息建立基于GC-MS拟靶标代谢组学分析方法,该方法包括50个分组,319个代谢物。拟靶标分析方法的其他参数与全扫描模式相同。
2.2代谢组轮廓数据的生成
采集的原始代谢组轮廓数据由ChromaTOF(Leco)和AMDIS(NIST)软件进行去卷积和峰识别。随后,采用岛津Postrun软件进行色谱峰的匹配,保留时间窗口设为0.2min。
2.3构建模型筛选随机误差
将相邻两个QC样品中代谢物响应强度的比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差(图1)。
2.4构建线性拟合模型校正随机误差
筛选到随机误差后,去除含有随机误差的代谢物,计算不含有随机误差的正常代谢物在相邻两个QC样品中的比值,并对其进行从小到大排序,
然后建立线性拟合模型,获得拟合模型的公式,将含有随机误差的代谢物j带入线性拟合模型的公式中,获得校正因子其中AQCnj和AQC'(n-1)j分别代表代谢物j在QCn中未校正的响应值和在QC(n-1)中校正后的响应值。最后,某一含有随机误差的代谢物j在QCn中响应值为AQnj,其校正后的响应值AQC'nj的可以通过如下公式获得;
2.5与常用的箱图筛选随机误差的计算结果比较
将实验所获得的GC-MS拟靶标代谢组数据用箱图筛选随机误差,然后随机地用某一正常代谢物的响应值来替代随机误差值,经过系统误差校正后,输出结果,并对所计算的结果进行比较。结果发现,与箱图校正相比,我们建立的筛选和校正离散的方法可以使所有的QC样品,展现出较大的皮尔森相关系数、较小的欧式距离和RSD值(附图2),说明应用我们建立的校正方法可以使所有的QC样品在PCA中聚集的更紧密,并显著地改善QC的重复性。
本发明给出了一种通用的代谢组学数据随机误差筛选和校正的方法。与传统的箱图筛选随机误差并随机赋值的方法不同,本发明首次采用相邻两组QC样品的比值筛选随机误差,并应用比值的线性拟合校正随机误差。采用本发明方法比传统的箱图筛选方法具有更好的校正效果,校正后的QC样品展示了更好重复性、更短欧式距离和更大皮尔森相关系数。
Claims (1)
1.一种用于筛选和校正代谢组学数据随机误差的方法,首先从所有待测样品中取出相同质量样品,混合后建立质控(QC)样品,计算相邻两个QC样品中代谢物响应强度的比值,建立模型筛选随机误差,然后利用线性拟合模型对随机误差进行校正;其特征在于以下步骤:
(1)制作QC样品:分别从所有将进行代谢组学分析的样品中准确称量或移取等量样品并均匀混合成一个大的样品,即QC样品;
(2)获取代谢组学数据:每5-20个待测样品插入一个QC样品,QC样品和待测样品按照完全相同条件进行样品预处理和基于色谱-质谱方法的代谢组学分析;
(3)获取相邻两个QC样品中代谢组数据比值:计算同一个代谢物在相邻两个QC样品中的响应强度的比值;
(4)构建模型筛选随机误差:将相邻两个QC样品中代谢物的比值从小到大排序后,筛选总比值个数的5%作为离散点,将这5%的离散点平均分配到排序后比值的两端,从而筛选出随机误差;
(5)构建模型校正随机误差:利用两个相邻QC样品中的正常比值进行线性拟合模型,校正随机误差,具体步骤为:
①两个相邻QC样品中正常比值的获取:筛选到随机误差后,去除含有随机误差的代谢物,计算不含有随机误差的正常代谢物在相邻两个QC样品中的比值;
②线性拟合模型的构建:将正常代谢物在两个相邻QC样品中的比值,进行从小到大排序,并进行线性拟合,获得线性拟合模型的公式,将含有随机误差的代谢物j带入线性拟合模型的公式中,获得校正因子其中和分别代表代谢物j在QCn中未校正的响应值和在QC(n-1)中校正后的响应值;
③随机误差的校正:某一含有随机误差的代谢物j在QCn中响应值为其校正后的响应值通过如下公式获得;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510755515.7A CN105424827B (zh) | 2015-11-07 | 2015-11-07 | 一种代谢组学数据随机误差的筛选和校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510755515.7A CN105424827B (zh) | 2015-11-07 | 2015-11-07 | 一种代谢组学数据随机误差的筛选和校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105424827A CN105424827A (zh) | 2016-03-23 |
CN105424827B true CN105424827B (zh) | 2017-07-11 |
Family
ID=55503170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510755515.7A Expired - Fee Related CN105424827B (zh) | 2015-11-07 | 2015-11-07 | 一种代谢组学数据随机误差的筛选和校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105424827B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106018600B (zh) * | 2016-05-23 | 2018-06-01 | 中国科学院植物研究所 | 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法 |
CN106483217A (zh) * | 2016-09-30 | 2017-03-08 | 中国烟草总公司郑州烟草研究院 | 一种gc‑ms检测新鲜烟叶中初生代谢物和次生代谢物的方法 |
CN109856307B (zh) * | 2019-03-27 | 2021-04-16 | 大连理工大学 | 一种代谢组分子变量综合筛选技术 |
CN110097920B (zh) * | 2019-04-10 | 2022-09-20 | 大连理工大学 | 一种基于近邻稳定性的代谢组学数据缺失值填充方法 |
CN110782942B (zh) * | 2019-10-25 | 2023-08-25 | 苏州帕诺米克生物医药科技有限公司 | 代谢组学中的质量控制方法、装置及存储介质 |
CN112986411B (zh) * | 2019-12-17 | 2022-08-09 | 中国科学院地理科学与资源研究所 | 一种生物代谢物筛查方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3873971A (en) * | 1973-10-31 | 1975-03-25 | Motorola Inc | Random error correcting system |
WO2001065461A2 (en) * | 2000-03-02 | 2001-09-07 | Imaging Research Inc. | Process for estimating random error in chemical and biological assays |
CN100440200C (zh) * | 2007-01-24 | 2008-12-03 | 浙江大学 | 一种校正测量数据显著误差与随机误差的方法 |
CN103217385B (zh) * | 2013-03-22 | 2015-02-18 | 华中科技大学 | 椭偏仪测量系统的随机误差评估方法 |
-
2015
- 2015-11-07 CN CN201510755515.7A patent/CN105424827B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN105424827A (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105424827B (zh) | 一种代谢组学数据随机误差的筛选和校正方法 | |
Okazaki et al. | Recent advances of metabolomics in plant biotechnology | |
Raza | Metabolomics: a systems biology approach for enhancing heat stress tolerance in plants | |
Koek et al. | Quantitative metabolomics based on gas chromatography mass spectrometry: status and perspectives | |
Last et al. | Towards the plant metabolome and beyond | |
Huege et al. | GC-EI-TOF-MS analysis of in vivo carbon-partitioning into soluble metabolite pools of higher plants by monitoring isotope dilution after 13CO2 labelling | |
Navarro-Reig et al. | Evaluation of changes induced in rice metabolome by Cd and Cu exposure using LC-MS with XCMS and MCR-ALS data analysis strategies | |
JP4818116B2 (ja) | メタボノミクスにおいてlc−msまたはlc−ms/msデータの処理を行うための方法およびデバイス | |
Hegeman | Plant metabolomics—meeting the analytical challenges of comprehensive metabolite analysis | |
CN111579665B (zh) | 一种基于uplc/hrms的代谢组学相对定量分析方法 | |
US7561975B2 (en) | System, method, and computer program product for analyzing spectrometry data to identify and quantify individual components in a sample | |
Neubauer et al. | Scanning the isotopic structure of molecules by tandem mass spectrometry | |
Beckles et al. | Plant metabolomics: Applications and opportunities for agricultural biotechnology | |
Weckwerth et al. | The handbook of plant metabolomics | |
US20060200316A1 (en) | Data correction, normalization and validation for quantitative high-throughput metabolomic profiling | |
CN108061776B (zh) | 一种用于液相色谱-质谱的代谢组学数据峰匹配方法 | |
Gu et al. | Evaluation of automated sample preparation, retention time locked gas chromatography–mass spectrometry and data analysis methods for the metabolomic study of Arabidopsis species | |
Roessner et al. | Metabolite measurements | |
CN106706820B (zh) | 一种通用的大规模代谢组学数据的校正方法 | |
Gupta et al. | Seaweed metabolomics: a new facet of functional genomics | |
Koley et al. | An efficient LC-MS method for isomer separation and detection of sugars, phosphorylated sugars, and organic acids | |
Puri et al. | A conversation between hyphenated spectroscopic techniques and phytometabolites from medicinal plants | |
Zhang et al. | Resolution enhancement of overlapping peaks of ion mobility spectrometry based on improved particle swarm optimization algorithm | |
Zhang et al. | Differentiating Westlake Longjing tea from the first‐and second‐grade producing regions using ultra high performance liquid chromatography with quadrupole time‐of‐flight mass spectrometry‐based untargeted metabolomics in combination with chemometrics | |
Steinhauser et al. | Methods, applications and concepts of metabolite profiling: primary metabolism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170711 Termination date: 20201107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |