CN111370067B

CN111370067B - 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Info

Publication number: CN111370067B
Application number: CN202010130483.2A
Authority: CN
Inventors: 汤德佑; 曾康; 胡寓旻; 张晖; 余文涛; 谭达强
Original assignee: Sun Yat Sen University Cancer Center
Current assignee: Sun Yat Sen University Cancer Center
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-05-23
Anticipated expiration: 2040-02-28
Also published as: CN111370067A

Abstract

本发明提供了一种面向LC/GC‑MS的代谢组学数据质量控制方法及系统，本发明利用PCA和DBSCAN对LC‑GC/MS平台的数据质量进行评估，在信息提取中，利用质谱峰对齐和质谱峰确定方法提取代谢物的m/z、保留时间和相对含量；数据预处理中，利用数据标准化和幂变换来优化分析结果；变量重要性的判断过程中，利用PCA的最大可分性来确定变量的权重；其次利用聚类作为数据相似性的判断标准，并引入一种新的eps确定机制来辅助聚类判断；在普通样本评估的评估中利用检出率、线性相关度、相对标准偏差作为指标；并利用相关工具对质控的结果进行可视化展示以帮助临床专家对分析结果进行判定。

Description

一种面向LC/GC-MS的代谢组学数据质量控制方法及系统

技术领域

本发明涉及生物信息和代谢组学领域，特别涉及面向LC/GC-MS平台的代谢组学数据质量控制方法及系统。

背景技术

代谢组学是新时代生命科学与临床应用的有力武器，可以全局性的测定许多代谢物。代谢物理化极性差异较大，代谢组学样本处理、分析技术多样，而且随着时间的推移，噪声污染致使质谱峰偏移、色谱的性能会下降，以及长期存在的色谱柱污染等问题，在这些因素的共同影响下，同一样本在同一平台上的检测结果会出现巨大差异，这些差异性使得代谢组学的数据质量难以评估，制约了医学临床应用的发展，因此迫切需要高准确度、高稳健型、成本可控、易于使用的分析流程与质控方案。

液相色谱-质谱联用仪(Liquid Chromatograph Mass Spectrometer，LC-MS)和气象色谱-质谱联用仪(Gas Chromatograph Mass Spectrometer，GC-MS)是代谢组学数据分析的两类重要实验平台，基于LC/GC-MS的代谢组分析被广泛应用于生物、医药、化学、环境等领域中。

代谢组质量控制(Quality Control)是代谢组分析中确保分析结果准确性和可重复性的重要步骤。内标法和外标法是常用的代谢组质量控制方法。内标法在分析测定样品中某组分含量时，加入一种内标物质以校准和消除由于操作条件波动而对分析结果产生的影响；用待测组分的纯品作为对照物，以对照物和样品中待测组分的响应信号相比较进行定量的方法叫做外标法。两类方法均存在不足，如内标法中内标物不易寻找且样品配置麻烦，而外标法则需要待测组分的纯品，准确性也容易受到实验条件的影响。

合并的QC是另一种普遍采用的质量控制方法，QC核心样本(Quality Controlsamples)是一次检测所有的样本的等比例混合，QC核心样本可以作为参考物质用来排除药物及环境污染物等因素的干扰，确保结果的准确性。

利用QC核心样本的相似性筛选质量评测指标，并利用质量评测指标对所有样本的质量进行评估是一种新的质控方案。质量评测指标指的是原始数据的代谢物子集，对于QC核心样本，由于时间误差和机器误差的存在，会出现波动性极大的代谢物，这些代谢物会影响数据质量的评价，因此，选择合适的质量评测指标对于数据质量评估是至关重要的。

在LC/GC-MS数据分析中，经色谱分离后的各化合物，依次进入质谱分子源后，质谱连续扫描进行数据采集，每一次扫描得到一张质谱图，横坐标表示的m/z即为离子的质量，纵坐标表示离子的强度intensity。质谱数据均以raw格式存储，不同型号和不同厂商的raw格式数据不同，需要转换为一个通用的格式以便于后续分析。在一系列质谱数据中选择某一个m/z，绘制其信号强度随保留时间变化的色谱图称为提取离子色谱图(Extracted IonChromatogram，EIC)。

PCA(Pinncipal Component Analysis)是一种数据降维方法，传统质控中利用PCA的最大重构性将原始数据转换为低维数据并利用样本的聚拢度人为质量判断，而PCA的最大可分这种性质可以用来筛选数据中差异较大的变量进而优化质量评测指标；DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种密度聚类方法，该算法基于一组“邻域”参数(Eps,MinPts)来刻画样本分布的紧密程度，利用DBSCAN可以判断QC核心样本数据的相似性。

本发明针对LC/GC-MS数据，基于合并的QC核心样本，提出一种基于PCA和DBSCAN的质量控制方法，本发明主要利用PCA的思想赋予变量权重，依据QC核心样本的DBSCAN聚类结果将QC核心样本分为核心样本和非核心样本，并以变量权重和QC核心样本的聚拢度优化质量评测指标，最终实现对代谢组数据的评估。

发明内容

本发明针对代谢组学数据可重复性和可验证性差的问题，提出了一种基于PCA和DBSCAN的质量控制方法和系统架构，具体包括信息提取、数据预处理、变量权重计算、QC核心样本评估与质量评测指标筛选、普通样本评估和数据可视化。

一种面向LC/GC-MS的代谢组学数据质量控制方法，包括以下步骤：

步骤S1.信息提取，从原始数据中提取代谢物分子质量、保留时间、相对含量等信息；

步骤S2.数据预处理，对提取后的数据建立索引并执行标准化等操作；

步骤S3.变量权重计算，利用PCA的最大可分性给变量赋予权重；

步骤S4.QC核心样本确定，利用一种DBSCAN参数机制确定QC核心样本，所述核心样本指代在QC中高度相似的样本；

步骤S5.QC核心样本的质量评估与质量评测指标的筛选；

步骤S6.普通样本质量评估，利用质量评测指标对普通样本的数据质量进行评价；

步骤S7.数据可视化。

所述步骤S1包括以下几个子步骤：

步骤S101.数据格式转换，将数据原始RAW格式数据转化为mzML格式；

步骤S102.构建所有scan数据的数据集，数据集包含rt、m/z、intensity三个属性；

步骤S103.EIC数据池的构建，分别顺序扫描集合中每一个scan对应的m/z值，用临时数组存储，统计临时数组的最小m/z值记为minval；将数组中所有的m/z值与minval进行比较，如果差值在5ppm范围内，该scan扫描位置下移一位，保留所有误差范围内m/z对应的rt及intensity，并将minval、rt、intensity存入EIC数据池；差值在5ppm以外，该scan的扫描位置不变；其中终止条件为所有scan的m/z都被处理过；

步骤S104.照m/z值处理数据集合构造该m/z值对应的EIC二维数组；记录每一个rt对应的intensity值，如果该intensity大于其左右值，则将其定义为峰；根据峰与左右值的高度差来过滤掉部分噪声；然后使用均值滤波降噪法对非峰值点进行校正；接着对所有非峰点的intensity进行排序并取其中间值作为基线；利用基线与intensity的差值进一步过滤掉部分噪声；返回过滤后的数据；

步骤S105.EIC池中每一个m/z峰面积的计算，对峰值及其左右的数据点进行分布转换使其符合正态分布；根据微积分原理计算峰面积；

步骤S106.EIC池中每一个m/z保留时间的确定，提取二维数组中最大intensity对应的rt作为该m/z的保留时间。

所述步骤S2包括以下几个子步骤：

步骤S201.建立代谢物索引，对代谢物进行唯一标示；

步骤S202.数据进行标准化，消除数据特征之间的差异性；

步骤S203.数据非线性转换，放大其正态性；

所述步骤S3包括以下几个子步骤：

步骤S301.QC核心样本特征值和特征向量计算；

步骤S302.方差贡献率和累计方差贡献率计算，其中λ为特征值，n为特征值的总数，n_components为累计方差贡献率阈值，方差贡献率的计算方法为：

累计方差贡献率的计算方法为：其中k为所选择特征值的数量；

步骤S303.变量在各个主成分中线性组合的系数，其中P为特征向量，计算方法为：

步骤S304.利用各个主成分的方差贡献率计算综合得分模型中的系数，计算公式为：

步骤S305.对指标权重进行归一化处理。

所述步骤S4包括以下几个子步骤：

S401.DBSCAN参数初始化方法为：聚类参数MinPts的目的是筛选DBSCAN核心对象，若一个样本的ε邻域至少包含MinPts个样本，那么该样本就是一个核心对象。经研究与测试MinPts设置为2；

S402.计算QC核心样本之间的两两欧式距离，计算公式如下：

计算所有n个样本的第k近邻的平均值。K＝1,2,…,n-1。将平均值X_{k_mean}的队列作为候选Eps,X_ik表示第i个样本的第k近邻的距离，k＝1,2,…,n＝1,计算公式如下：

S403.利用Eps和MinPts作为DBSCAN的参数进行聚类，统计聚类标签如果出现连续的3个以上的聚类的标签完全一致，那么将该Eps作为DBSCAN的初始参数，否则，质控流程结束；

S404.统计各个聚类簇的样本数量，选择样本数量最多的簇作为核心样本，假定核心样本数量为r。

所述步骤S5包括以下几个子步骤：

S501.质量评测指标初始化为全体的变量，Qindex＝[var₁,var₂,var3,…,var],var为检出代谢物；

QC核心样本质量评估列表初始化为QC＝[q₁,q₂,q₃,…,q_m].q取值为1,-1；1表示合格样本，-1表示不合格样本。所有核心样本的q值均取1，其余置为-1；

初始化最大核心样本数MaxNum＝r；

S502.约束条件定义为聚类标签完全一致或者达到QC核心样本的最大变量数；

S503.核心样本的DBSCAN的参数计算，数据输入格式：I_d＝(I_d1,I_d2,I_d3,…,I_dr)；根据步骤S403的Eps作为核心样本聚类的初始Eps参数，以decrease_rate＝0.5为Eps的衰减率逐步减小Eps值，MinPts设置为2，进行聚类并计算聚类标签，迭代终止条件为核心样本没有聚在一类，将核心样本能聚在一类的最小Eps作为核心样本的DBSCAN参数；

S504.首先计算核心样本的Eps参数Eps_iter，并将Eps_iter作为全部样本聚类的Eps参数，对全部样本进行DBSCAN聚类，计算聚类标签并统计当前核心样本所在簇的样本数KSNum，判断KSNum与MaxNum的大小关系，如果KSNum大于MaxNum，更新MaxNum＝KSNum、质量评测指标和QC核心样本质量评估列表，如果KSNum小于或者等于MaxNum，MaxNum、质量评测指标和QC核心样本评估质量列表保持不变；

S505.判断是否满足步骤约束条件，若两者都不满足，剔除变量权重L_v(L₁,L₂,L_i,…,L)最大的L_i，并重新跳转至S503进行迭代，若所有QC核心样本均聚集在了一起，则说明所有的QC核心样本都是合格的，若达到了最大变量数，则说明有QC核心样本的质量是不合格的。

所述功能六，由以下几个子步骤实现：

步骤S601.普通样本变量筛选，利用质量评测指标对普通样本进行筛选；

步骤S602.对筛选结果进行数据标准化；

步骤S603.利用检出率、线性相关度、相对标准偏差对普通样本进行质量评估。

所述S7包括以下几个子步骤：

S701.对QC核心样本、普通样本和质量评测指标之间的关系可视化展示；

S702.对质控前后QC核心样本分布情况可视化展示；

S703对质控后普通样本的分布情况可视化展示。

本发明第二方面提供一种面向LC/GC-MS的代谢组学数据质量控制系统，包括信息提取模块、数据预处理模块、变量权重模块、质量样本评估模块、普通样本评估模块和可视化模块；

所述的信息提取模块进行代谢组学数据信息提取；

所述的数据预处理模块进行数据预处理；

所述的变量权重模块进行变量权重计算；

所述的质量样本评估模块进行质量测评指标筛选；

所述的普通样本评估模块进行普通样本评估；

所述的可视化模块进行数据可视化处理。

本发明利用PCA和DBSCAN对LC-GC/MS平台的数据质量进行评估，在信息提取中，利用质谱峰对齐和质谱峰确定方法提取代谢物的m/z、保留时间和相对含量；数据预处理中，利用数据标准化和幂变换来优化分析结果；变量重要性的判断过程中，利用PCA的最大可分性来确定变量的权重；其次利用聚类作为数据相似性的判断标准，并引入一种新的eps确定机制来辅助聚类判断；在普通样本评估的评估中利用检出率、线性相关度、相对标准偏差作为指标；并利用相关工具对质控的结果进行可视化展示以帮助临床专家对分析结果进行判定。

附图说明

图1为面向LC/GC-MS的代谢组学数据质量控制系统的流程示意图；

图2为信息提取流程图；

图3为变量权重计算图；

图4为QC核心样本核心对象确定流程图；

图5为质量评测指标筛选和QC核心样本评估流程图。

图6为面向LC/GC-MS的代谢组学数据质量控制系统的模块图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种面向代谢组学的数据质量控制方法，如图1所示，采用下述方法具体实施：

具体实施方式：下面结合图2、图3、图4、图5具体说明本系统的实施方式。

S1.结合图2说明信息提取的具体流程；

S101.将raw格式文件经过开源程序转化为mzML格式文件，并提取所有scan对应的MS1质谱数据(m/z，intensity)和该scan对应的保留时间(rt)形成一个关于rt、m/z、intensity三个属性的数据集，其中scan与保留时间rt具有一一对应关系；

S102.EIC数据池有m/z、rt、intensity三个属性，初始化为空；分别顺序扫描集合中每一个scan对应的m/z值，用临时数组存储，统计临时数组的最小m/z值记为minval；将数组中所有的m/z值与minval进行比较，如果差值在5ppm范围内，该scan扫描位置下移一位，保留所有误差范围内m/z对应的rt及intensity，并将minval、rt、intensity存入EIC数据池；差值在5ppm以外，该scan的扫描位置不变；其中终止条件为所有scan的m/z都被处理过；

S103.按照m/z值处理数据集合构造该m/z值对应的EIC二维数组(rt,intensity)；记录每一个rt对应的intensity值，如果该intensity大于其左右值，则将其定义为峰；根据峰与左右值的高度差来过滤掉部分噪声；然后使用均值滤波降噪法对非峰值点进行校正；接着对所有非峰点的intensity进行排序并取其中间值作为基线；利用基线与intensity的差值进一步过滤掉部分噪声；返回过滤后的数据(rt,intensity)；

S104.对峰值及其左右的数据点进行分布转换使其符合正态分布；根据微积分原理计算峰面积；将峰面积作为该m/z的相对含量返回；

S105.提取二维数组(rt,intensity)中最大intensity对应的rt作为该m/z的保留时间；

步骤S2的具体实施方法如下：

S201.将原始数据中代谢物的分子质量、保留时间作为代谢物的唯一索引，并以相对含量作为变量值，并将提取的数据转换为n*m的矩阵，n表示样本数量，m表示检出代谢物数量；

S202.选择Z-分数对数据进行标准化，X:表示原始数据，

为平均数，σ为X的标准差，转化结果为均值为0方差为1，计算公式如下：

S203.选择Yeo-Johnson幂变换对数据进行预处理，λ为变换系数，计算公式如下：

步骤S3结合图3说明变量权重的计算流程，权重计算利用了PCA的思想，原始数据输入格式如下：

数据输入：I_a＝(i₁,i₂,i₃,…,i_m),a＝1,2,3,…,n；

S301.协方差计算：X，Y为两个独立的变量(代谢物)；

特征值输出：λ_v＝(λ₁,λ₂,λ₃,…,λ_k)；特征向量输出：P_a＝(p₁,p₂,p₃,…,p_k)，a＝1,2,3,…,m；

S302.主成分n_components设置：主成分反应的是的所选择特征值所累计的方差贡献率，它代表了对原始数据的还原程度，经研究和测试，选择主成分阈值为n_components＝0.8,假定选择的主成分个数为k；累计方差贡献率计算方法如下：λ为特征值；

方差贡献率计算方法为：其中λ为特征值；

S303.计算变量在各个主成分中线性组合的系数，计算公式如下：

利用主成分的方差贡献率计算综合模得分模型中的系数，其中V_p ^T表示V_p的转置，计算公式如下：

指标权重的归一化处理，然后对权重取绝对值，归一化处理方法如下：

步骤S4结合图4说明QC核心样本确定的具体流程；

S402.计算QC核心样本之间的两两欧式距离，计算公式如下：

S404.统计各个聚类簇的样本数量，选择样本数量最多的簇作为核心样本,假定核心样本数量为r。

步骤S5结合图5说明QC核心样本质量评估和质量评测指标筛选的具体流程；

初始化最大核心样本数MaxNum＝r；

S505.判断是否满足步骤约束条件，若两者都不满足，剔除变量权重L_v(L₁,L₂,L_i,…,L)最大的L_i，并重新跳转至S503进行迭代，若所有QC核心样本均聚集在了一起，则说明所有的QC核心样本都是合格的，若达到了最大变量数，则说明有QC核心样本的质量是不合格的；

S506.输出QC核心样本质量和质量评测指标。

S601.利用质量评测指标去匹配普通样本中的代谢物，将匹配到的代谢物筛选出来；

S602.将筛选出的代谢物数据集进行数据标准化，并将其转化为n_1*m_1的矩阵，n_1表示普通样本的数量，m_1表示筛选出代谢物的数量；

S603.计算覆盖率，覆盖率表示普通样本在质量评测指标维度上的检出率情况，计算公式如下：

计算普通样本与QC核心样本的线性相关度，样本与QC核心样本的线性相关性强度反应了平台在样本检测过程中的稳定性其中a,b分别为普通样本和核心样本，计算公式如下：

计算普通样本的相对标准偏差，相对标准偏差RSD值可以用来表示样本代谢物的精确度。通常，RSD值较小表示该代谢物在平台检测结果中比较稳定。X_i表示第i个代谢物的相对含量，计算公式如下：

输出QC核心样本的质量和普通样本的覆盖率、线性相关度和相对标准偏差。

S701.绘制维恩图直观的描述质量评测指标集Set1、QC核心样本代谢物集和Set2、普通样本代谢物集和Set3之间的关系；

S702.绘制QC核心样本与普通样本筛选前后的PCA结果的二维散点图，QC核心样本与普通样本用颜色和形状在图示中区分开来；

合并所有的QC核心样本与普通样本，其中缺失值补零处理；并以主成分为2的条件对数据进行PCA处理并转换数据；绘制转换后数据的二维散点图；

以质量评测指标为准筛选QC核心样本与普通样本，合并QC核心样本与普通样本，其中缺失值补零处理；并以主成分为2的条件进行PCA处理并转换数据；绘制转换后数据的二维散点图；

S703.首先以质量评测指标为准筛选普通样本；然后计算上四分位数、中位数、下四分位数、四分位数差、上边缘和下边缘；最后绘制普通样本的箱线图。

实施例2

本实施例提供一种面向LC/GC-MS的代谢组学数据质量控制方法，如图6所示，包括信息提取模块、数据预处理模块、变量权重模块、质量样本评估模块、普通样本评估模块和可视化模块；

所述的信息提取模块进行代谢组学数据信息提取；

所述的数据预处理模块进行数据预处理；

所述的变量权重模块进行变量权重计算；

所述的质量样本评估模块进行质量测评指标筛选；

所述的普通样本评估模块进行普通样本评估；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向代谢组学数据质量控制方法，其特征在于，包括以下步骤：

步骤S1.信息提取，从原始数据中提取代谢物分子质量、保留时间、相对含量信息，具体步骤如下：

步骤S106.EIC池中每一个m/z保留时间的确定，提取二维数组中最大intensity对应的rt作为该m/z的保留时间；

步骤S2.数据预处理，对提取后的数据建立索引并执行标准化操作；

步骤S4.QC核心样本确定，所述核心样本指代在QC中高度相似的样本；

步骤S5.QC核心样本的质量评估与质量评测指标的筛选；

步骤S7.数据可视化。

2.根据权利要求1所述的面向代谢组学数据质量控制方法，其特征在于，所述的步骤S2具体步骤，将原始数据中代谢物的分子质量、保留时间作为代谢物的索引，并以相对含量作为变量值；

原始数据范围过大，大部分变量的值并不在一个量级上面，通过标准化和幂变换，可以使得不同的特征变量具有相同的尺度并有利于接下来的统计分析，标准化方法如下所示：其中X:表示原始数据，

为平均数，σ为X的标准差

幂变换方法如下所示：其中λ为变换系数

/>

3.根据权利要求1所述的面向代谢组学数据质量控制方法，其特征在于，所述的步骤S3变量权重计算利用PCA的最大可分性赋予变量不同的权重，具体步骤如下：

步骤S301.QC核心样本特征值和特征向量计算；

累计方差贡献率的计算方法为：其中k为所选择特征值的数量

步骤S303.变量在各个主成分中线性组合的系数，其中P为特征向量，λ为特征值，计算方法为：

步骤S305.对指标权重进行归一化处理。

4.根据权利要求1所述的面向代谢组学数据质量控制方法，其特征在于，所述的步骤S4包括以下步骤：

S401.计算QC核心样本之间的两式距离，计算公式如下：

计算所有n个样本的第k近邻的平均值，K＝1,2,…,n-1，将平均值X_{k_mean}的

队列作为候选Eps,X_ik表示第i个样本的第k近邻的距离，K＝1,2,…,n-1,计算公式如下：

S402.利用Eps和MinPts作为DBSCAN的参数进行聚类，统计聚类标签如果出现连续的3个以上的聚类的标签完全一致，那么将该Eps作为DBSCAN的初始参数，否则，质控流程结束；

S403.统计各个聚类簇的样本数量，选择样本数量最多的簇作为核心样本，假定核心样本数量为r。

5.根据权利要求1所述的面向代谢组学数据质量控制方法，其特征在于，所述的步骤S5的具体步骤如下：

QC核心样本质量评估列表初始化为QC＝[q₁,q₂,q₃,…,q_m].q取值为1,-1；1表示合格样本，-1表示不合格样本，则所有核心样本的q值均取1，其余置为-1；

初始化最大核心样本数MaxNum＝r；

S503.核心样本的DBSCAN的参数计算，数据输入格式：I_d＝(I_d1,I_d2,I_d3,…,I_dr)；根据步骤S403的Eps作为核心样本聚类的初始Eps参数，以decrease_rate＝0.5为Eps的衰减率逐步减小Eps值，MinPts设置为2，进行聚类并计算聚类标签，迭代终止条件为核心样本未聚在一类，将核心样本能聚在一类的最小Eps作为核心样本的DBSCAN参数；

S504.计算核心样本的Eps参数Eps_iter，并将Eps_iter作为全部样本聚类的Eps参数，对全部样本进行DBSCAN聚类，计算聚类标签并统计当前核心样本所在簇的样本数KSNum，判断KSNum与MaxNum的大小关系，如果KSNum大于MaxNum，更新MaxNum＝KSNum、质量评测指标和QC核心样本质量评估列表，如果KSNum小于或者等于MaxNum，MaxNum、质量评测指标和QC核心样本评估质量列表保持不变；

6.根据权利要求1所述的面向代谢组学数据质量控制方法，其特征在于，所述的步骤S6包括以下步骤：

步骤S601.计算覆盖率：其中m_1为由质量评测指标筛选出普通样本中代谢物的数量，len(Qindex)表示质量评测指标的数量；