CN114705766A - 基于is联合svr的大规模组学数据校正方法及系统 - Google Patents
基于is联合svr的大规模组学数据校正方法及系统 Download PDFInfo
- Publication number
- CN114705766A CN114705766A CN202210120022.6A CN202210120022A CN114705766A CN 114705766 A CN114705766 A CN 114705766A CN 202210120022 A CN202210120022 A CN 202210120022A CN 114705766 A CN114705766 A CN 114705766A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- svr
- peak area
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000002207 metabolite Substances 0.000 claims abstract description 42
- 238000010606 normalization Methods 0.000 claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000002503 metabolic effect Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 15
- 238000002705 metabolomic analysis Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000002790 cross-validation Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000001819 mass spectrum Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims description 3
- 230000009897 systematic effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000001431 metabolomic effect Effects 0.000 description 14
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 210000005013 brain tissue Anatomy 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004885 tandem mass spectrometry Methods 0.000 description 2
- 241001590553 Nomis Species 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005686 electrostatic field Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 231100000613 environmental toxicology Toxicity 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 208000010749 gastric carcinoma Diseases 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012882 sequential analysis Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 201000000498 stomach carcinoma Diseases 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8665—Signal analysis for calibrating the measuring apparatus
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供基于IS联合SVR的大规模组学数据校正方法,校正方法包括:1)制作QC样本数据,将QC样本插入待测样本并进行基于色谱‑质谱方法的代谢组学分析,获取所有样本的生物代谢学数据;2)将生物代谢组学数据进行预处理和标准化处理;3)建立IS标度化和支持向量回归丰度预测模型,根据这个模型预测数据中的随机系统误差;4)校正实际样本s中的系统误差,计算归一化后的代谢物峰面积。还提供了一种应用该方法的数据校正系统,该方法和系统提高数据归一化效率,进一步提高数据的生物重复性和结果的准确性。
Description
技术领域
本发明属于生物代谢组学技术领域,具体来说,涉及一种基于IS联合SVR的大规模组学数据校正方法。
背景技术
代谢组学是近年来在生物医学、食品安全和环境毒理学等领域出现的新兴前沿技术。由于生物个体在生理状态和生活方式上的多样性,大队列样本的代谢组学研究因其在平均生物异质性方面的优势而出现越来越广泛的应用;高通量的LC-MS技术的发展也进一步促进了大规模代谢组学的发展。在大规模、长周期的代谢组学实验过程中,来源于分析前阶段(样品采集,样品储存条件和时间,样品制备,不同操作人员等)和分析阶段(分析顺序,质谱响应波动,基质效应,保留时间漂移等)的非生物变异(又称技术变异或有害变异),会给代谢组学研究引入偏差,导致低重复性、不可靠的分析结果。标准操作程序(SOP)和稳健的实验设计可以一定程度上降低非生物变异,但却无法完全消除。因此,在数据采集后,非生物的系统误差的识别、评价和消除对于大规模代谢组学数据的质量控制十分重要。目前,主流的代谢组学数据校正方法主要分为基于IS的数据归一化方法和基于QC的数据归一化方法。
在样品制备过程中,通过添加与内源性代谢物具有相似浓度和化学性质的同位素标记内标,可有效降低基质效应、进样量和人为操作的随机误差影响。由于单一的内标无法模拟复杂基质对每个代谢物的影响,也不可能获取所有代谢物的同位素标记内标,近年来提出了基于多个内标的校正策略,如NOMIS、BM-IS、RUV-random和CCMN。尽管它们在一定程度上减少了非生物变异,但其作用仍然有限;在长周期、大规模代谢组学研究中,仪器信号随时间显著漂移造成批内和批间样品的巨大差异,采用基于内标的归一化方法不足以完全消除。
此外,基于QC的数据归一化方法被越来越广泛地应用。QC样品是与受试样品具有相似化学多样性的混合样品。它将相同的QC样品均匀穿插在整个分析批次中重复测量,建立QC样品中各特征峰的强度信号随时间的理论波动模型,以此达到对检测样品峰信号进行校正的目的,如LOESS、NormAE、MetaboQC、WaveICA、SERRF、SVR等。然而,基于QC的归一化方法是假设每个代谢物在所有不同的样品中都有相同的基质效应,但事实上不同的样品中代谢物水平差异很大,每个代谢物在不同的样品中具有不同的基质效应。故而,基于QC的归一化方法不能很好的模拟基质效应的影响。
发明内容
本发明的第一目的在于提供一种基于IS联合SVR的大规模组学数据校正方法,所述数据为生物代谢组学数据,所述生物代谢组学数据包括待测样品的液相色谱-质谱数据或气相色谱-质谱数据,所述生物代谢组学数据校正方法包括:
1)将QC样本插入实际样本分析序列中并进行基于色谱-质谱方法的代谢组学分析,获取QC样本和实际样本的生物代谢学数据,所述生物代谢数据包括含有各样品的各组峰面积、保留时间和质荷比信息的数据;
2)对所述生物代谢组学数据进行预处理和标准化处理,得到二维矩阵数据;
3)建立IS标度化和支持向量回归丰度预测模型:使用QC样本数据作为训练数据,根据代谢物在QC样本q中峰面积的相对标准偏差参数的变化选择最佳IS,并判断是否需要执行最佳内标校正标度化,然后根据IS校正后QC样本的峰面积变化与进样顺序、批次和强相关的其他代谢物之间的关系,拟合峰面积的支持向量回归预测模型,根据这个模型预测数据中的随机系统误差;
4)使用实际样本数据作为测试数据,把实际样本s的代谢物峰面积参数代入到上一步骤在QC样本数据上建立的IS标度化和支持向量回归丰度预测模型中,去除实际样本数据中的随机系统误差,最后乘上代谢物在所有QC样本的中位数,获得每个实际样本s中计算归一化后的代谢物峰面积,实现代谢组的系统误差校正。
进一步的,所述步骤2)所述预处理包括:
2.1)将所述色谱-质谱数据原始数据转化为mzXML格式数据;
2.2)使用XCMS软件包、CAMERA软件包进行峰识别、峰过滤、峰对齐和注释,最后导出峰面积的二维数据矩阵;
2.3)对步骤2.2)得到的数据进行格式检查,将数据转换成满足后续程序运行要求的格式。
进一步的,所述步骤(3)中根据下述公式(1)建立IS标度化和支持向量回归丰度预测模型:
具体包括:
3.1)通过最佳IS选择后的相对标准偏差变化以判断是否执行IS校正,执行如下公式(2)的条件判断筛选:
3.2)应用代谢特征在相邻两个QC样本中的响应强度值,构建代谢特征的支持向量回归模型ωΦ,即ωΦ(m,B,inj);其中,B、inj和m分别表示批次效应、进样顺序和其他代谢物的影响。
更进一步的,所述步骤3.1)中的IS标度化方法具体为:
3.1.1)对QC样本数据中峰面积积分获得其相对标准偏差值,当峰面积在QC样本中相对标准偏差小于20%,判断是否需要进行最佳内标校正;如是,不进行最佳内标校正,如否,至步骤3.1.2);
3.1.2)对每个代谢物的内标IS逐一归一化,获得相对峰面积,并计算峰面积的相对标准偏差值是否变小;如是,不进行最佳内标校正,如否,至步骤3.1.3);
3.1.3)选择使相对峰面积减小幅度最大的内标的归一化结果,作为最终的最佳IS归一化结果。
在一个优选示例中,步骤3.2)中构建的支持向量回归模型ωΦ为SVR(C、gamma、k),其中k为相关性最强的代谢物数目,型、C为正则化参数、gamma为核函数系数;其算法内置基于5折交叉验证的网格调参策略。
进一步的,所述基于5折交叉验证的网格调参策略的方法包括:
根据5折交叉验证将QC样本划分为测试集和验证集;
通过预先设定上述三个核心参数(C、gamma、k)的范围,再运行测试N个不同的参数组合;
得到N组结果,并将最佳结果对应的参数作为推荐的默认参数输出。
进一步的,所述步骤4)具体为:根据公式(3)校正实际样本中系统误差的影响,并计算归一化后的代谢物峰面积;
其中,median(Mi,Q)表示代谢物i在所有QC样本中的峰面积值中位数;Mi,s为代谢物i在实际样本s中的峰面积。
进一步的,进行代谢组学分析的所述QC样本个数为5个或5个以上。
本发明第二方面在于提供应用于上述方法的基于IS联合SVR的大规模组学数据校正系统,所述系统包括
数据预处理模块,配置为对输入的所述生物代谢组学数据的格式检查,用户通过设定缺失值处理的阈值,对于含有缺失值比例高于该阈值的特征行进行删除;
执行模块,配置为根据公式(1)和公式(2)建立IS标度化和支持向量回归丰度预测模型,预测数据中引入的随机系统误差;根据公式(3)校正实际样本中系统误差的影响,并计算归一化后的代谢物峰面积;
参数优化模块,配置为构建SVR(C、gamma、k)的支持向量回归模型,其中k为相关性最强的代谢物数目、C为正则化参数、gamma为核函数系数;并在其算法内置基于5折交叉验证的网格调参策略。
与其他现有技术方案相比,本发明具有以下优点:
1.针对大规模代谢组学数据的归一化,单纯的IS校正或者QC校正不能全面、系统地校正数据中的系统误差。本发明通过结合IS校正在基质效应、样品前处理和进样量等方面的校正优势,以及QC校正在批次效应、信号响应随时间波动等方面的校正优势,全面、综合去除数据中的系统误差,提高数据归一化效率,进一步提高数据的生物重复性和结果的准确性。
2.IS校正通常被应用于靶向定量数据集,QC校正则通常被应用于非靶向数据集,本发明通过结合两者设计的NormISWSVR校正方法(即IS联合SVR),进一步拓宽了方法的应用范围,可同时适用于多批次、大规模的靶向定量或非靶向代谢组学数据集。
3.现有的IS联合其他QC校正的数据归一化策略存在方法不成熟(没有提出方便、灵活的数据处理工具),校正效果低,性能考察不充分的问题。本发明基于python程序语言,设计了一个算法程序包,界面简洁,运行快捷方便,使用者只需要调用相关程序包和准备待测试数据即可运行算法得到归一化结果。此外,本发明测试结果通过多指标充分考察,保证了方法的可行性。
附图说明
图1为本发明基于IS联合SVR的大规模组学数据校正方法的流程图;
图2为建立IS标度化和支持向量回归丰度预测模型的原理图;
图3为MBM数据集(A)和MBL数据集(B)与其他归一化方法在实施例的试验结果对比图;
图4为在正离子模式(A)和负离子模式(B)下,GCHPM数据集中所有特征的cvRSD%的累积频率与其他归一化方法的比较示意图。
具体实施方式
下面通过实例进一步阐释本发明,实例仅限于说明本发明以便于理解,而非对本发明的限定。
实施例
1.样品来源
采用液相色谱-四级杆飞行时间串联质谱(LC-Q-TOF-MS)和液相色谱-四级杆静电场轨道阱串联质谱(LC-Q-orbitrap-MS)检测获取3个数据集(代谢组学或脂质组学),其中通过真实世界的代谢组学实验获取,另外两个来自公共数据库。真实的代谢组学数据集来自人类胃癌队列(GCHPM),包含497个受试者样本和120个QC样本,样本被分成了7个批次分别顺序分析。GCHPM的血浆样本是在北京肿瘤医院和北京肿瘤医院南方分院采集的,遵循伦理委员会批准号:2016KT57。研究方案得到了北京肿瘤医院伦理审查委员会的批准,所有研究参与者都提供了知情的书面同意书。
2个公开数据集来自一项小鼠脑组织脂质组学研究(MBL)和一项小鼠脑组织代谢组学研究(MBM),该数据可在美国国立卫生研究院共同基金的国家代谢组学数据库(NMDR)网站上获得(https://www.metabolomicsworkbench.org)。该数据的项目号为PR001047,可通过其项目DOI:https://doi.org/10.21228/M8C68D.直接访问该数据。该工作由美国国家卫生研究院资助U2C-DK119886支持。
2.数据处理
首先,使用ProteoWizard软件将质谱原始数据(.wiff和.raw)转换成.mzXML格式,随后使用XCMS和CAMERA软件包进行峰检测、峰对齐和注释,最终导出峰面积的二维数据矩阵。最后,按照Norm ISWSVR软件包的使用说明,将数据转换成相应的要求格式,并执行代码,完成峰面积归一化校正。其中,所述Norm ISWSVR软件包根据本发明方法步骤3)和步骤4)及其对应的式(1)、公式(2)和公式(3)设计了Norm ISWSVR自动化归一化算法,该操作流程以写入对应代码执行,在此不做详细描述。
在具体的IS联合SVR的大规模组学数据校正方法的流程如图1所示,1)将QC样本插入实际样本并进行基于色谱-质谱方法的代谢组学分析,获取QC样本和实际样本的生物代谢学数据,所述生物代谢数据包括含有各样品的各组峰面积、保留时间和质荷比信息的数据;
2)将所述色谱-质谱数据原始数据转化为mzXML格式数据;使用MetaXCMS软件、CAMERA软件包进行峰识别、峰过滤、峰对齐和注释,最后导出峰面积的二维数据矩阵;得到的数据进行格式检查,将数据转换成满足后续程序运行要求的格式;
3)依据公式(1)(2)和(3)建立IS标度化和支持向量回归丰度预测模型:使用QC样本数据作为训练数据,根据代谢物在QC样本q中峰面积的相对标准偏差参数的变化选择最佳IS,并判断是否需要执行最佳内标校正,具体操作步骤如图2所示;然后根据IS校正后QC样本的峰面积变化与进样顺序、批次和强相关的其他代谢物之间的关系,拟合并在校正后将代谢物数据代入峰面积的支持向量回归预测模型,根据这个模型预测数据中的随机系统误差;
4)根据公式(4),使用实际样本数据作为测试数据,根据把实际样本s的代谢物峰面积参数代入到上一步骤在QC样本数据上建立的IS标度化和支持向量回归丰度预测模型中,去除实际样本数据中的随机系统误差,实际样本的代谢物峰面积参数的相对标准偏差,构建线性回归模型,最后乘上代谢物在所有QC样本的中位数,获得每个实际样本s中计算归一化后的代谢物峰面积,实现代谢组的系统误差校正。
为了综合评估Norm ISWSVR在GCHPM、MBM和MBL数据集上的性能,还将归一化效果与其他11种常用的归一化方法进行了比较,其中包括3种基于IS的归一化方法、5种基于QC的归一化方法、1种数据矩阵分解方法33,以及2种分别将IS校正与SERRF(ISWSERRF)和LOESS(ISWLOESS)相结合的方法。
3.结果
结合图3分析结果,图3(A-C)是正离子模式下在GCHPM、MBM和MBL数据集上NormISWSVR与其他11种归一化方法的比较结果,从左至右3幅图依次表示的QC样本之间的欧氏距离、QC样本之间的皮尔逊相关系数图以及所有特征峰(C,G)的RSD%的累积频率指标的比较结果。
根据图3所示,在经过Norm ISWSVR归一化之后,在GCHPM,MBM和MBL数据集上,QC样本间的欧氏距离大大缩短,QC样本间的相关性系数远高于其他11种方法,相对偏差低于30%或20%的特征峰比例也远高于其他方法。综合来说,这些结果表现出Norm ISWSVR可大大提高代谢组学或脂质组学数据的生物重现性,并且方法性能优于其他常用的11种归一化方法。
本发明采用5折交叉验证来降低过度拟合风险,并将cvRSD设定为过度拟合评价指标。cvRSD等于5折交叉验证中验证集的平均RSD值。对GCHPM、MBM和MBL数据集进行了5折交叉验证,如表1所示;
表1 Norm ISWSVR前后3个不同数据集中交叉验证的相对标准偏差(cvRSD)的中位数和cvRSD<30%的峰值百分比
从表1可知,用NormISWSVR归一化后,cvRSD中位数急剧下降,cvRSD小于0.3的峰值百分比一般上升到70%以上。特别地,本发明方法还与其他方法根据累积变异系数百分比进行了比较,并使用GCHPM数据集进行评估,其他方法包括3种基于IS的归一化方法、5种基于QC的归一化方法、1种位置尺度方法,特别是2种分别将IS校正与SERRF(ISWSERRF)和LOESS(ISWLOESS)相结合的方法。结果表明Norm ISWSVR保证了比其他方法更低的峰值变异系数。图4所示在正离子模式(A)和负离子模式(B)下,GCHPM数据集中所有特征的cvRSD%的累积频率与其他归一化方法的比较。结果表明Norm ISWSVR在多数据集上是一种稳健可靠的方法。
Claims (9)
1.一种基于IS联合SVR的大规模组学数据校正方法,所述数据为生物代谢组学数据,所述生物代谢组学数据包括待测样品的液相色谱-质谱数据或气相色谱-质谱数据,所述生物代谢组学数据校正方法包括:
1)将QC样本插入实际样本分析序列中并进行基于色谱-质谱方法的代谢组学分析,获取QC样本和实际样本的生物代谢学数据,所述生物代谢数据包括含有各样品的各组峰面积、保留时间和质荷比信息的数据;
2)对所述生物代谢组学数据进行预处理和标准化处理,得到二维矩阵数据;
3)建立IS标度化和支持向量回归丰度预测模型:使用QC样本数据作为训练数据,根据代谢物在QC样本q中峰面积的相对标准偏差参数的变化选择最佳IS,并判断是否需要执行最佳内标校正标度化,然后根据IS校正后QC样本的峰面积变化与进样顺序、批次和强相关的其他代谢物之间的关系,拟合峰面积的支持向量回归预测模型,根据这个模型预测数据中的随机系统误差;
4)使用实际样本数据作为测试数据,把实际样本s的代谢物峰面积参数代入到上一步骤在QC样本数据上建立的IS标度化和支持向量回归丰度预测模型中,去除实际样本数据中的随机系统误差,最后乘上代谢物在所有QC样本的中位数,获得每个实际样本s中计算归一化后的代谢物峰面积,实现代谢组的系统误差校正。
2.如权利要求1所述的基于IS联合SVR的大规模组学数据校正方法,其特征在于,所述步骤2)所述预处理包括:
2.1)将所述色谱-质谱数据原始数据转化为mz XML格式数据;
2.2)使用XCMS软件包、CAMERA软件包进行峰识别、峰过滤、峰对齐和注释,最后导出峰面积的二维数据矩阵;
2.3)对步骤2.2)得到的数据进行格式检查,将数据转换成满足后续程序运行要求的格式。
3.如权利要求1所述的基于IS联合SVR的大规模组学数据校正方法,其特征在于,所述步骤(3)中根据下述公式(1)建立IS标度化和支持向量回归丰度预测模型:
具体包括:
3.1)通过最佳IS选择后的相对标准偏差变化以判断是否执行IS校正,执行如下公式(2)的条件判断筛选:
3.2)应用代谢特征在相邻两个QC样本中的响应强度值,构建代谢特征的支持向量回归模型ωΦ,即ωΦ(m,B,inj);其中,B、inj和m分别表示批次效应、进样顺序和其他代谢物的影响。
4.如权利要求3所述的基于IS联合SVR的大规模组学数据校正方法,其特征在于,所述步骤3.1)中的IS标度化方法具体为:
3.1.1)对QC样本数据中峰面积积分获得其相对标准偏差值,当峰面积在QC样本中相对标准偏差小于20%,判断是否需要进行最佳内标校正;如是,不进行最佳内标校正,如否,至步骤3.1.2);
3.1.2)对每个代谢物的内标IS逐一归一化,获得相对峰面积,并计算峰面积的相对标准偏差值是否变小;如是,不进行最佳内标校正,如否,至步骤3.1.3);
3.1.3)选择使相对峰面积减小幅度最大的内标的归一化结果,作为最终的最佳IS归一化结果。
5.如权利要求1所述的基于IS联合SVR的大规模组学数据校正方法,其特征在于,步骤3.2)中构建的支持向量回归模型ωΦ为SVR(C、gamma、k),其中k为相关性最强的代谢物数目,C为正则化参数、gamma为核函数系数;其算法内置基于5折交叉验证的网格调参策略。
6.如权利要求5所述的基于IS联合SVR的大规模组学数据校正方法,其特征在于,所述基于5折交叉验证的网格调参策略的方法包括:
根据5折交叉验证将QC样本划分为测试集和验证集;
通过预先设定上述三个核心参数(C、gamma、k)的范围,再运行测试N个不同的参数组合;
得到N组结果,并将最佳结果对应的参数作为推荐的默认参数输出。
8.如权利要求1所述的基于IS联合SVR的大规模组学数据校正方法,其特征在于,进行代谢组学分析的所述QC样本个数为5个或5个以上。
9.一种应用于权利要求1-8中任一项所述方法的基于IS联合SVR的大规模组学数据校正系统,其特征在于,所述系统包括
数据预处理模块,配置为对输入的所述生物代谢组学数据的格式检查,用户通过设定缺失值处理的阈值,对于含有缺失值比例高于该阈值的特征行进行删除;
执行模块,配置为建立IS标度化和支持向量回归丰度预测模型,预测数据中引入的随机系统误差;校正实际样本中系统误差的影响,并计算归一化后的代谢物峰面积;
参数优化模块,配置为构建SVR(C、gamma、k)的支持向量回归模型,其中k为相关性最强的代谢物数目,C为正则化参数、gamma为核函数系数;;并在其算法内置基于5折交叉验证的网格调参策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210120022.6A CN114705766A (zh) | 2022-01-29 | 2022-01-29 | 基于is联合svr的大规模组学数据校正方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210120022.6A CN114705766A (zh) | 2022-01-29 | 2022-01-29 | 基于is联合svr的大规模组学数据校正方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114705766A true CN114705766A (zh) | 2022-07-05 |
Family
ID=82166954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210120022.6A Pending CN114705766A (zh) | 2022-01-29 | 2022-01-29 | 基于is联合svr的大规模组学数据校正方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114705766A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051052A1 (zh) * | 2022-09-08 | 2024-03-14 | 上海氨探生物科技有限公司 | 组学数据的批次矫正方法、装置、存储介质及电子设备 |
-
2022
- 2022-01-29 CN CN202210120022.6A patent/CN114705766A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051052A1 (zh) * | 2022-09-08 | 2024-03-14 | 上海氨探生物科技有限公司 | 组学数据的批次矫正方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aguilan et al. | Guide for protein fold change and p-value calculation for non-experts in proteomics | |
Gorrochategui et al. | Data analysis strategies for targeted and untargeted LC-MS metabolomic studies: Overview and workflow | |
Gorrochategui et al. | ROIMCR: a powerful analysis strategy for LC-MS metabolomic datasets | |
Colangelo et al. | Review of software tools for design and analysis of large scale MRM proteomic datasets | |
US7676329B2 (en) | Method and system for processing multi-dimensional measurement data | |
Patti et al. | Meta-analysis of untargeted metabolomic data from multiple profiling experiments | |
Fukushima et al. | Metabolomic correlation-network modules in Arabidopsis based on a graph-clustering approach | |
Vaudel et al. | Peptide and protein quantification: a map of the minefield | |
Kastenmüller et al. | metaP‐server: a web‐based metabolomics data analysis tool | |
JP5496650B2 (ja) | サンプル内の個々の要素を識別及び定量化するために分光測定データを分析するシステム、方法及びコンピュータプログラム製品 | |
US20180268293A1 (en) | Analysis-data analyzing device and analysis-data analyzing method | |
KR20210145210A (ko) | 질량 분석 데이터의 경계 자동 검출 | |
WO2021174901A1 (zh) | 基于数据非依赖采集质谱的分子组学数据结构的实现方法 | |
JP2006528339A (ja) | クロマトグラフィー/質量分析における生体分子パターンのアノテーション法及びシステム | |
Kuligowski et al. | Detection of batch effects in liquid chromatography-mass spectrometry metabolomic data using guided principal component analysis | |
EP3584795B1 (en) | 3d mass spectrometry predictive classification | |
Liu et al. | Function-on-scalar quantile regression with application to mass spectrometry proteomics data | |
Sun et al. | Pretreating and normalizing metabolomics data for statistical analysis | |
Grace et al. | Haystack, a web-based tool for metabolomics research | |
Fan et al. | Fully automatic resolution of untargeted GC-MS data with deep learning assistance | |
CN114705766A (zh) | 基于is联合svr的大规模组学数据校正方法及系统 | |
KR101311412B1 (ko) | 당 동정을 위한 새로운 생물정보처리 분석 방법 | |
Walach et al. | Cellwise outlier detection and biomarker identification in metabolomics based on pairwise log ratios | |
CN114646699A (zh) | 基于is联合svr的大规模多组分定量数据校正方法及系统 | |
CN114141316A (zh) | 一种基于谱图分析的有机物生物毒性预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |