CN114705766A

CN114705766A - 基于is联合svr的大规模组学数据校正方法及系统

Info

Publication number: CN114705766A
Application number: CN202210120022.6A
Authority: CN
Inventors: 陈艳华; 丁贤; 余文梦; 再帕尔·阿不力孜; 张瑞萍
Original assignee: Institute of Materia Medica of CAMS; Minzu University of China
Current assignee: Institute of Materia Medica of CAMS; Minzu University of China
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-07-05

Abstract

本发明提供基于IS联合SVR的大规模组学数据校正方法，校正方法包括：1)制作QC样本数据，将QC样本插入待测样本并进行基于色谱‑质谱方法的代谢组学分析，获取所有样本的生物代谢学数据；2)将生物代谢组学数据进行预处理和标准化处理；3)建立IS标度化和支持向量回归丰度预测模型，根据这个模型预测数据中的随机系统误差；4)校正实际样本s中的系统误差，计算归一化后的代谢物峰面积。还提供了一种应用该方法的数据校正系统，该方法和系统提高数据归一化效率，进一步提高数据的生物重复性和结果的准确性。

Description

基于IS联合SVR的大规模组学数据校正方法及系统

技术领域

本发明属于生物代谢组学技术领域，具体来说，涉及一种基于IS联合SVR的大规模组学数据校正方法。

背景技术

代谢组学是近年来在生物医学、食品安全和环境毒理学等领域出现的新兴前沿技术。由于生物个体在生理状态和生活方式上的多样性，大队列样本的代谢组学研究因其在平均生物异质性方面的优势而出现越来越广泛的应用；高通量的LC-MS技术的发展也进一步促进了大规模代谢组学的发展。在大规模、长周期的代谢组学实验过程中，来源于分析前阶段(样品采集，样品储存条件和时间，样品制备，不同操作人员等)和分析阶段(分析顺序，质谱响应波动，基质效应，保留时间漂移等)的非生物变异(又称技术变异或有害变异)，会给代谢组学研究引入偏差，导致低重复性、不可靠的分析结果。标准操作程序(SOP)和稳健的实验设计可以一定程度上降低非生物变异，但却无法完全消除。因此，在数据采集后，非生物的系统误差的识别、评价和消除对于大规模代谢组学数据的质量控制十分重要。目前，主流的代谢组学数据校正方法主要分为基于IS的数据归一化方法和基于QC的数据归一化方法。

在样品制备过程中，通过添加与内源性代谢物具有相似浓度和化学性质的同位素标记内标，可有效降低基质效应、进样量和人为操作的随机误差影响。由于单一的内标无法模拟复杂基质对每个代谢物的影响，也不可能获取所有代谢物的同位素标记内标，近年来提出了基于多个内标的校正策略，如NOMIS、BM-IS、RUV-random和CCMN。尽管它们在一定程度上减少了非生物变异，但其作用仍然有限；在长周期、大规模代谢组学研究中，仪器信号随时间显著漂移造成批内和批间样品的巨大差异，采用基于内标的归一化方法不足以完全消除。

此外，基于QC的数据归一化方法被越来越广泛地应用。QC样品是与受试样品具有相似化学多样性的混合样品。它将相同的QC样品均匀穿插在整个分析批次中重复测量，建立QC样品中各特征峰的强度信号随时间的理论波动模型，以此达到对检测样品峰信号进行校正的目的，如LOESS、NormAE、MetaboQC、WaveICA、SERRF、SVR等。然而，基于QC的归一化方法是假设每个代谢物在所有不同的样品中都有相同的基质效应，但事实上不同的样品中代谢物水平差异很大，每个代谢物在不同的样品中具有不同的基质效应。故而，基于QC的归一化方法不能很好的模拟基质效应的影响。

发明内容

本发明的第一目的在于提供一种基于IS联合SVR的大规模组学数据校正方法，所述数据为生物代谢组学数据，所述生物代谢组学数据包括待测样品的液相色谱-质谱数据或气相色谱-质谱数据，所述生物代谢组学数据校正方法包括：

1)将QC样本插入实际样本分析序列中并进行基于色谱-质谱方法的代谢组学分析，获取QC样本和实际样本的生物代谢学数据，所述生物代谢数据包括含有各样品的各组峰面积、保留时间和质荷比信息的数据；

2)对所述生物代谢组学数据进行预处理和标准化处理，得到二维矩阵数据；

3)建立IS标度化和支持向量回归丰度预测模型：使用QC样本数据作为训练数据，根据代谢物在QC样本q中峰面积的相对标准偏差参数的变化选择最佳IS，并判断是否需要执行最佳内标校正标度化，然后根据IS校正后QC样本的峰面积变化与进样顺序、批次和强相关的其他代谢物之间的关系，拟合峰面积的支持向量回归预测模型，根据这个模型预测数据中的随机系统误差；

4)使用实际样本数据作为测试数据，把实际样本s的代谢物峰面积参数代入到上一步骤在QC样本数据上建立的IS标度化和支持向量回归丰度预测模型中，去除实际样本数据中的随机系统误差，最后乘上代谢物在所有QC样本的中位数，获得每个实际样本s中计算归一化后的代谢物峰面积，实现代谢组的系统误差校正。

进一步的，所述步骤2)所述预处理包括：

2.1)将所述色谱-质谱数据原始数据转化为mzXML格式数据；

2.2)使用XCMS软件包、CAMERA软件包进行峰识别、峰过滤、峰对齐和注释，最后导出峰面积的二维数据矩阵；

2.3)对步骤2.2)得到的数据进行格式检查，将数据转换成满足后续程序运行要求的格式。

进一步的，所述步骤(3)中根据下述公式(1)建立IS标度化和支持向量回归丰度预测模型：

具体包括：

3.1)通过最佳IS选择后的相对标准偏差变化以判断是否执行IS校正，执行如下公式(2)的条件判断筛选：

其中，IS_b，q表示代谢物i的最佳IS b的峰面积；

表示代谢物i的最佳IS b在所有样本中的平均峰面积；

如果满足IS标度化条件，

可设为

与IS_b，q的比值；否则，

设为1；

3.2)应用代谢特征在相邻两个QC样本中的响应强度值，构建代谢特征的支持向量回归模型ωΦ，即ωΦ(m，B，inj)；其中，B、inj和m分别表示批次效应、进样顺序和其他代谢物的影响。

更进一步的，所述步骤3.1)中的IS标度化方法具体为：

3.1.1)对QC样本数据中峰面积积分获得其相对标准偏差值，当峰面积在QC样本中相对标准偏差小于20％，判断是否需要进行最佳内标校正；如是，不进行最佳内标校正，如否，至步骤3.1.2)；

3.1.2)对每个代谢物的内标IS逐一归一化，获得相对峰面积，并计算峰面积的相对标准偏差值是否变小；如是，不进行最佳内标校正，如否，至步骤3.1.3)；

3.1.3)选择使相对峰面积减小幅度最大的内标的归一化结果，作为最终的最佳IS归一化结果。

在一个优选示例中，步骤3.2)中构建的支持向量回归模型ωΦ为SVR(C、gamma、k)，其中k为相关性最强的代谢物数目，型、C为正则化参数、gamma为核函数系数；其算法内置基于5折交叉验证的网格调参策略。

进一步的，所述基于5折交叉验证的网格调参策略的方法包括：

根据5折交叉验证将QC样本划分为测试集和验证集；

通过预先设定上述三个核心参数(C、gamma、k)的范围，再运行测试N个不同的参数组合；

得到N组结果，并将最佳结果对应的参数作为推荐的默认参数输出。

进一步的，所述步骤4)具体为：根据公式(3)校正实际样本中系统误差的影响，并计算归一化后的代谢物峰面积；

其中，median(M_i，Q)表示代谢物i在所有QC样本中的峰面积值中位数；M_i，s为代谢物i在实际样本s中的峰面积。

进一步的，进行代谢组学分析的所述QC样本个数为5个或5个以上。

本发明第二方面在于提供应用于上述方法的基于IS联合SVR的大规模组学数据校正系统，所述系统包括

数据预处理模块，配置为对输入的所述生物代谢组学数据的格式检查，用户通过设定缺失值处理的阈值，对于含有缺失值比例高于该阈值的特征行进行删除；

执行模块，配置为根据公式(1)和公式(2)建立IS标度化和支持向量回归丰度预测模型，预测数据中引入的随机系统误差；根据公式(3)校正实际样本中系统误差的影响，并计算归一化后的代谢物峰面积；

参数优化模块，配置为构建SVR(C、gamma、k)的支持向量回归模型，其中k为相关性最强的代谢物数目、C为正则化参数、gamma为核函数系数；并在其算法内置基于5折交叉验证的网格调参策略。

与其他现有技术方案相比，本发明具有以下优点：

1.针对大规模代谢组学数据的归一化，单纯的IS校正或者QC校正不能全面、系统地校正数据中的系统误差。本发明通过结合IS校正在基质效应、样品前处理和进样量等方面的校正优势，以及QC校正在批次效应、信号响应随时间波动等方面的校正优势，全面、综合去除数据中的系统误差，提高数据归一化效率，进一步提高数据的生物重复性和结果的准确性。

2.IS校正通常被应用于靶向定量数据集，QC校正则通常被应用于非靶向数据集，本发明通过结合两者设计的NormISWSVR校正方法(即IS联合SVR)，进一步拓宽了方法的应用范围，可同时适用于多批次、大规模的靶向定量或非靶向代谢组学数据集。

3.现有的IS联合其他QC校正的数据归一化策略存在方法不成熟(没有提出方便、灵活的数据处理工具)，校正效果低，性能考察不充分的问题。本发明基于python程序语言，设计了一个算法程序包，界面简洁，运行快捷方便，使用者只需要调用相关程序包和准备待测试数据即可运行算法得到归一化结果。此外，本发明测试结果通过多指标充分考察，保证了方法的可行性。

附图说明

图1为本发明基于IS联合SVR的大规模组学数据校正方法的流程图；

图2为建立IS标度化和支持向量回归丰度预测模型的原理图；

图3为MBM数据集(A)和MBL数据集(B)与其他归一化方法在实施例的试验结果对比图；

图4为在正离子模式(A)和负离子模式(B)下，GCHPM数据集中所有特征的cvRSD％的累积频率与其他归一化方法的比较示意图。

具体实施方式

下面通过实例进一步阐释本发明，实例仅限于说明本发明以便于理解，而非对本发明的限定。

实施例

1.样品来源

采用液相色谱-四级杆飞行时间串联质谱(LC-Q-TOF-MS)和液相色谱-四级杆静电场轨道阱串联质谱(LC-Q-orbitrap-MS)检测获取3个数据集(代谢组学或脂质组学)，其中通过真实世界的代谢组学实验获取，另外两个来自公共数据库。真实的代谢组学数据集来自人类胃癌队列(GCHPM)，包含497个受试者样本和120个QC样本，样本被分成了7个批次分别顺序分析。GCHPM的血浆样本是在北京肿瘤医院和北京肿瘤医院南方分院采集的，遵循伦理委员会批准号：2016KT57。研究方案得到了北京肿瘤医院伦理审查委员会的批准，所有研究参与者都提供了知情的书面同意书。

2个公开数据集来自一项小鼠脑组织脂质组学研究(MBL)和一项小鼠脑组织代谢组学研究(MBM)，该数据可在美国国立卫生研究院共同基金的国家代谢组学数据库(NMDR)网站上获得(https：//www.metabolomicsworkbench.org)。该数据的项目号为PR001047，可通过其项目DOI：https：//doi.org/10.21228/M8C68D.直接访问该数据。该工作由美国国家卫生研究院资助U2C-DK119886支持。

2.数据处理

首先，使用ProteoWizard软件将质谱原始数据(.wiff和.raw)转换成.mzXML格式，随后使用XCMS和CAMERA软件包进行峰检测、峰对齐和注释，最终导出峰面积的二维数据矩阵。最后，按照Norm ISWSVR软件包的使用说明，将数据转换成相应的要求格式，并执行代码，完成峰面积归一化校正。其中，所述Norm ISWSVR软件包根据本发明方法步骤3)和步骤4)及其对应的式(1)、公式(2)和公式(3)设计了Norm ISWSVR自动化归一化算法，该操作流程以写入对应代码执行，在此不做详细描述。

在具体的IS联合SVR的大规模组学数据校正方法的流程如图1所示，1)将QC样本插入实际样本并进行基于色谱-质谱方法的代谢组学分析，获取QC样本和实际样本的生物代谢学数据，所述生物代谢数据包括含有各样品的各组峰面积、保留时间和质荷比信息的数据；

2)将所述色谱-质谱数据原始数据转化为mzXML格式数据；使用MetaXCMS软件、CAMERA软件包进行峰识别、峰过滤、峰对齐和注释，最后导出峰面积的二维数据矩阵；得到的数据进行格式检查，将数据转换成满足后续程序运行要求的格式；

3)依据公式(1)(2)和(3)建立IS标度化和支持向量回归丰度预测模型：使用QC样本数据作为训练数据，根据代谢物在QC样本q中峰面积的相对标准偏差参数的变化选择最佳IS，并判断是否需要执行最佳内标校正，具体操作步骤如图2所示；然后根据IS校正后QC样本的峰面积变化与进样顺序、批次和强相关的其他代谢物之间的关系，拟合并在校正后将代谢物数据代入峰面积的支持向量回归预测模型，根据这个模型预测数据中的随机系统误差；

4)根据公式(4)，使用实际样本数据作为测试数据，根据把实际样本s的代谢物峰面积参数代入到上一步骤在QC样本数据上建立的IS标度化和支持向量回归丰度预测模型中，去除实际样本数据中的随机系统误差，实际样本的代谢物峰面积参数的相对标准偏差，构建线性回归模型，最后乘上代谢物在所有QC样本的中位数，获得每个实际样本s中计算归一化后的代谢物峰面积，实现代谢组的系统误差校正。

为了综合评估Norm ISWSVR在GCHPM、MBM和MBL数据集上的性能，还将归一化效果与其他11种常用的归一化方法进行了比较，其中包括3种基于IS的归一化方法、5种基于QC的归一化方法、1种数据矩阵分解方法33，以及2种分别将IS校正与SERRF(ISWSERRF)和LOESS(ISWLOESS)相结合的方法。

3.结果

结合图3分析结果，图3(A-C)是正离子模式下在GCHPM、MBM和MBL数据集上NormISWSVR与其他11种归一化方法的比较结果，从左至右3幅图依次表示的QC样本之间的欧氏距离、QC样本之间的皮尔逊相关系数图以及所有特征峰(C，G)的RSD％的累积频率指标的比较结果。

根据图3所示，在经过Norm ISWSVR归一化之后，在GCHPM，MBM和MBL数据集上，QC样本间的欧氏距离大大缩短，QC样本间的相关性系数远高于其他11种方法，相对偏差低于30％或20％的特征峰比例也远高于其他方法。综合来说，这些结果表现出Norm ISWSVR可大大提高代谢组学或脂质组学数据的生物重现性，并且方法性能优于其他常用的11种归一化方法。

本发明采用5折交叉验证来降低过度拟合风险，并将cvRSD设定为过度拟合评价指标。cvRSD等于5折交叉验证中验证集的平均RSD值。对GCHPM、MBM和MBL数据集进行了5折交叉验证，如表1所示；

表1 Norm ISWSVR前后3个不同数据集中交叉验证的相对标准偏差(cvRSD)的中位数和cvRSD＜30％的峰值百分比

从表1可知，用NormISWSVR归一化后，cvRSD中位数急剧下降，cvRSD小于0.3的峰值百分比一般上升到70％以上。特别地，本发明方法还与其他方法根据累积变异系数百分比进行了比较，并使用GCHPM数据集进行评估，其他方法包括3种基于IS的归一化方法、5种基于QC的归一化方法、1种位置尺度方法，特别是2种分别将IS校正与SERRF(ISWSERRF)和LOESS(ISWLOESS)相结合的方法。结果表明Norm ISWSVR保证了比其他方法更低的峰值变异系数。图4所示在正离子模式(A)和负离子模式(B)下，GCHPM数据集中所有特征的cvRSD％的累积频率与其他归一化方法的比较。结果表明Norm ISWSVR在多数据集上是一种稳健可靠的方法。