CN111370067B - 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统 - Google Patents

一种面向lc/gc-ms的代谢组学数据质量控制方法及系统 Download PDF

Info

Publication number
CN111370067B
CN111370067B CN202010130483.2A CN202010130483A CN111370067B CN 111370067 B CN111370067 B CN 111370067B CN 202010130483 A CN202010130483 A CN 202010130483A CN 111370067 B CN111370067 B CN 111370067B
Authority
CN
China
Prior art keywords
data
sample
core
quality
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010130483.2A
Other languages
English (en)
Other versions
CN111370067A (zh
Inventor
汤德佑
曾康
胡寓旻
张晖
余文涛
谭达强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University Cancer Center
Original Assignee
Sun Yat Sen University Cancer Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University Cancer Center filed Critical Sun Yat Sen University Cancer Center
Priority to CN202010130483.2A priority Critical patent/CN111370067B/zh
Publication of CN111370067A publication Critical patent/CN111370067A/zh
Application granted granted Critical
Publication of CN111370067B publication Critical patent/CN111370067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供了一种面向LC/GC‑MS的代谢组学数据质量控制方法及系统,本发明利用PCA和DBSCAN对LC‑GC/MS平台的数据质量进行评估,在信息提取中,利用质谱峰对齐和质谱峰确定方法提取代谢物的m/z、保留时间和相对含量;数据预处理中,利用数据标准化和幂变换来优化分析结果;变量重要性的判断过程中,利用PCA的最大可分性来确定变量的权重;其次利用聚类作为数据相似性的判断标准,并引入一种新的eps确定机制来辅助聚类判断;在普通样本评估的评估中利用检出率、线性相关度、相对标准偏差作为指标;并利用相关工具对质控的结果进行可视化展示以帮助临床专家对分析结果进行判定。

Description

一种面向LC/GC-MS的代谢组学数据质量控制方法及系统
技术领域
本发明涉及生物信息和代谢组学领域,特别涉及面向LC/GC-MS平台的代谢组学数据质量控制方法及系统。
背景技术
代谢组学是新时代生命科学与临床应用的有力武器,可以全局性的测定许多代谢物。代谢物理化极性差异较大,代谢组学样本处理、分析技术多样,而且随着时间的推移,噪声污染致使质谱峰偏移、色谱的性能会下降,以及长期存在的色谱柱污染等问题,在这些因素的共同影响下,同一样本在同一平台上的检测结果会出现巨大差异,这些差异性使得代谢组学的数据质量难以评估,制约了医学临床应用的发展,因此迫切需要高准确度、高稳健型、成本可控、易于使用的分析流程与质控方案。
液相色谱-质谱联用仪(Liquid Chromatograph Mass Spectrometer,LC-MS)和气象色谱-质谱联用仪(Gas Chromatograph Mass Spectrometer,GC-MS)是代谢组学数据分析的两类重要实验平台,基于LC/GC-MS的代谢组分析被广泛应用于生物、医药、化学、环境等领域中。
代谢组质量控制(Quality Control)是代谢组分析中确保分析结果准确性和可重复性的重要步骤。内标法和外标法是常用的代谢组质量控制方法。内标法在分析测定样品中某组分含量时,加入一种内标物质以校准和消除由于操作条件波动而对分析结果产生的影响;用待测组分的纯品作为对照物,以对照物和样品中待测组分的响应信号相比较进行定量的方法叫做外标法。两类方法均存在不足,如内标法中内标物不易寻找且样品配置麻烦,而外标法则需要待测组分的纯品,准确性也容易受到实验条件的影响。
合并的QC是另一种普遍采用的质量控制方法,QC核心样本(Quality Controlsamples)是一次检测所有的样本的等比例混合,QC核心样本可以作为参考物质用来排除药物及环境污染物等因素的干扰,确保结果的准确性。
利用QC核心样本的相似性筛选质量评测指标,并利用质量评测指标对所有样本的质量进行评估是一种新的质控方案。质量评测指标指的是原始数据的代谢物子集,对于QC核心样本,由于时间误差和机器误差的存在,会出现波动性极大的代谢物,这些代谢物会影响数据质量的评价,因此,选择合适的质量评测指标对于数据质量评估是至关重要的。
在LC/GC-MS数据分析中,经色谱分离后的各化合物,依次进入质谱分子源后,质谱连续扫描进行数据采集,每一次扫描得到一张质谱图,横坐标表示的m/z即为离子的质量,纵坐标表示离子的强度intensity。质谱数据均以raw格式存储,不同型号和不同厂商的raw格式数据不同,需要转换为一个通用的格式以便于后续分析。在一系列质谱数据中选择某一个m/z,绘制其信号强度随保留时间变化的色谱图称为提取离子色谱图(Extracted IonChromatogram,EIC)。
PCA(Pinncipal Component Analysis)是一种数据降维方法,传统质控中利用PCA的最大重构性将原始数据转换为低维数据并利用样本的聚拢度人为质量判断,而PCA的最大可分这种性质可以用来筛选数据中差异较大的变量进而优化质量评测指标;DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种密度聚类方法,该算法基于一组“邻域”参数(Eps,MinPts)来刻画样本分布的紧密程度,利用DBSCAN可以判断QC核心样本数据的相似性。
本发明针对LC/GC-MS数据,基于合并的QC核心样本,提出一种基于PCA和DBSCAN的质量控制方法,本发明主要利用PCA的思想赋予变量权重,依据QC核心样本的DBSCAN聚类结果将QC核心样本分为核心样本和非核心样本,并以变量权重和QC核心样本的聚拢度优化质量评测指标,最终实现对代谢组数据的评估。
发明内容
本发明针对代谢组学数据可重复性和可验证性差的问题,提出了一种基于PCA和DBSCAN的质量控制方法和系统架构,具体包括信息提取、数据预处理、变量权重计算、QC核心样本评估与质量评测指标筛选、普通样本评估和数据可视化。
一种面向LC/GC-MS的代谢组学数据质量控制方法,包括以下步骤:
步骤S1.信息提取,从原始数据中提取代谢物分子质量、保留时间、相对含量等信息;
步骤S2.数据预处理,对提取后的数据建立索引并执行标准化等操作;
步骤S3.变量权重计算,利用PCA的最大可分性给变量赋予权重;
步骤S4.QC核心样本确定,利用一种DBSCAN参数机制确定QC核心样本,所述核心样本指代在QC中高度相似的样本;
步骤S5.QC核心样本的质量评估与质量评测指标的筛选;
步骤S6.普通样本质量评估,利用质量评测指标对普通样本的数据质量进行评价;
步骤S7.数据可视化。
所述步骤S1包括以下几个子步骤:
步骤S101.数据格式转换,将数据原始RAW格式数据转化为mzML格式;
步骤S102.构建所有scan数据的数据集,数据集包含rt、m/z、intensity三个属性;
步骤S103.EIC数据池的构建,分别顺序扫描集合中每一个scan对应的m/z值,用临时数组存储,统计临时数组的最小m/z值记为minval;将数组中所有的m/z值与minval进行比较,如果差值在5ppm范围内,该scan扫描位置下移一位,保留所有误差范围内m/z对应的rt及intensity,并将minval、rt、intensity存入EIC数据池;差值在5ppm以外,该scan的扫描位置不变;其中终止条件为所有scan的m/z都被处理过;
步骤S104.照m/z值处理数据集合构造该m/z值对应的EIC二维数组;记录每一个rt对应的intensity值,如果该intensity大于其左右值,则将其定义为峰;根据峰与左右值的高度差来过滤掉部分噪声;然后使用均值滤波降噪法对非峰值点进行校正;接着对所有非峰点的intensity进行排序并取其中间值作为基线;利用基线与intensity的差值进一步过滤掉部分噪声;返回过滤后的数据;
步骤S105.EIC池中每一个m/z峰面积的计算,对峰值及其左右的数据点进行分布转换使其符合正态分布;根据微积分原理计算峰面积;
步骤S106.EIC池中每一个m/z保留时间的确定,提取二维数组中最大intensity对应的rt作为该m/z的保留时间。
所述步骤S2包括以下几个子步骤:
步骤S201.建立代谢物索引,对代谢物进行唯一标示;
步骤S202.数据进行标准化,消除数据特征之间的差异性;
步骤S203.数据非线性转换,放大其正态性;
所述步骤S3包括以下几个子步骤:
步骤S301.QC核心样本特征值和特征向量计算;
步骤S302.方差贡献率和累计方差贡献率计算,其中λ为特征值,n为特征值的总数,n_components为累计方差贡献率阈值,方差贡献率的计算方法为:
Figure BDA0002395648620000041
累计方差贡献率的计算方法为:其中k为所选择特征值的数量;
Figure BDA0002395648620000042
步骤S303.变量在各个主成分中线性组合的系数,其中P为特征向量,计算方法为:
Figure BDA0002395648620000043
步骤S304.利用各个主成分的方差贡献率计算综合得分模型中的系数,计算公式为:
Figure BDA0002395648620000044
步骤S305.对指标权重进行归一化处理。
所述步骤S4包括以下几个子步骤:
S401.DBSCAN参数初始化方法为:聚类参数MinPts的目的是筛选DBSCAN核心对象,若一个样本的ε邻域至少包含MinPts个样本,那么该样本就是一个核心对象。经研究与测试MinPts设置为2;
S402.计算QC核心样本之间的两两欧式距离,计算公式如下:
Figure BDA0002395648620000045
计算所有n个样本的第k近邻的平均值。K=1,2,…,n-1。将平均值Xk_mean的队列作为候选Eps,Xik表示第i个样本的第k近邻的距离,k=1,2,…,n=1,计算公式如下:
Figure BDA0002395648620000046
S403.利用Eps和MinPts作为DBSCAN的参数进行聚类,统计聚类标签如果出现连续的3个以上的聚类的标签完全一致,那么将该Eps作为DBSCAN的初始参数,否则,质控流程结束;
S404.统计各个聚类簇的样本数量,选择样本数量最多的簇作为核心样本,假定核心样本数量为r。
所述步骤S5包括以下几个子步骤:
S501.质量评测指标初始化为全体的变量,Qindex=[var1,var2,var3,…,var],var为检出代谢物;
QC核心样本质量评估列表初始化为QC=[q1,q2,q3,…,qm].q取值为1,-1;1表示合格样本,-1表示不合格样本。所有核心样本的q值均取1,其余置为-1;
初始化最大核心样本数MaxNum=r;
S502.约束条件定义为聚类标签完全一致或者达到QC核心样本的最大变量数;
S503.核心样本的DBSCAN的参数计算,数据输入格式:Id=(Id1,Id2,Id3,…,Idr);根据步骤S403的Eps作为核心样本聚类的初始Eps参数,以decrease_rate=0.5为Eps的衰减率逐步减小Eps值,MinPts设置为2,进行聚类并计算聚类标签,迭代终止条件为核心样本没有聚在一类,将核心样本能聚在一类的最小Eps作为核心样本的DBSCAN参数;
S504.首先计算核心样本的Eps参数Eps_iter,并将Eps_iter作为全部样本聚类的Eps参数,对全部样本进行DBSCAN聚类,计算聚类标签并统计当前核心样本所在簇的样本数KSNum,判断KSNum与MaxNum的大小关系,如果KSNum大于MaxNum,更新MaxNum=KSNum、质量评测指标和QC核心样本质量评估列表,如果KSNum小于或者等于MaxNum,MaxNum、质量评测指标和QC核心样本评估质量列表保持不变;
S505.判断是否满足步骤约束条件,若两者都不满足,剔除变量权重Lv(L1,L2,Li,…,L)最大的Li,并重新跳转至S503进行迭代,若所有QC核心样本均聚集在了一起,则说明所有的QC核心样本都是合格的,若达到了最大变量数,则说明有QC核心样本的质量是不合格的。
所述功能六,由以下几个子步骤实现:
步骤S601.普通样本变量筛选,利用质量评测指标对普通样本进行筛选;
步骤S602.对筛选结果进行数据标准化;
步骤S603.利用检出率、线性相关度、相对标准偏差对普通样本进行质量评估。
所述S7包括以下几个子步骤:
S701.对QC核心样本、普通样本和质量评测指标之间的关系可视化展示;
S702.对质控前后QC核心样本分布情况可视化展示;
S703对质控后普通样本的分布情况可视化展示。
本发明第二方面提供一种面向LC/GC-MS的代谢组学数据质量控制系统,包括信息提取模块、数据预处理模块、变量权重模块、质量样本评估模块、普通样本评估模块和可视化模块;
所述的信息提取模块进行代谢组学数据信息提取;
所述的数据预处理模块进行数据预处理;
所述的变量权重模块进行变量权重计算;
所述的质量样本评估模块进行质量测评指标筛选;
所述的普通样本评估模块进行普通样本评估;
所述的可视化模块进行数据可视化处理。
本发明利用PCA和DBSCAN对LC-GC/MS平台的数据质量进行评估,在信息提取中,利用质谱峰对齐和质谱峰确定方法提取代谢物的m/z、保留时间和相对含量;数据预处理中,利用数据标准化和幂变换来优化分析结果;变量重要性的判断过程中,利用PCA的最大可分性来确定变量的权重;其次利用聚类作为数据相似性的判断标准,并引入一种新的eps确定机制来辅助聚类判断;在普通样本评估的评估中利用检出率、线性相关度、相对标准偏差作为指标;并利用相关工具对质控的结果进行可视化展示以帮助临床专家对分析结果进行判定。
附图说明
图1为面向LC/GC-MS的代谢组学数据质量控制系统的流程示意图;
图2为信息提取流程图;
图3为变量权重计算图;
图4为QC核心样本核心对象确定流程图;
图5为质量评测指标筛选和QC核心样本评估流程图。
图6为面向LC/GC-MS的代谢组学数据质量控制系统的模块图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种面向代谢组学的数据质量控制方法,如图1所示,采用下述方法具体实施:
具体实施方式:下面结合图2、图3、图4、图5具体说明本系统的实施方式。
S1.结合图2说明信息提取的具体流程;
S101.将raw格式文件经过开源程序转化为mzML格式文件,并提取所有scan对应的MS1质谱数据(m/z,intensity)和该scan对应的保留时间(rt)形成一个关于rt、m/z、intensity三个属性的数据集,其中scan与保留时间rt具有一一对应关系;
S102.EIC数据池有m/z、rt、intensity三个属性,初始化为空;分别顺序扫描集合中每一个scan对应的m/z值,用临时数组存储,统计临时数组的最小m/z值记为minval;将数组中所有的m/z值与minval进行比较,如果差值在5ppm范围内,该scan扫描位置下移一位,保留所有误差范围内m/z对应的rt及intensity,并将minval、rt、intensity存入EIC数据池;差值在5ppm以外,该scan的扫描位置不变;其中终止条件为所有scan的m/z都被处理过;
S103.按照m/z值处理数据集合构造该m/z值对应的EIC二维数组(rt,intensity);记录每一个rt对应的intensity值,如果该intensity大于其左右值,则将其定义为峰;根据峰与左右值的高度差来过滤掉部分噪声;然后使用均值滤波降噪法对非峰值点进行校正;接着对所有非峰点的intensity进行排序并取其中间值作为基线;利用基线与intensity的差值进一步过滤掉部分噪声;返回过滤后的数据(rt,intensity);
S104.对峰值及其左右的数据点进行分布转换使其符合正态分布;根据微积分原理计算峰面积;将峰面积作为该m/z的相对含量返回;
S105.提取二维数组(rt,intensity)中最大intensity对应的rt作为该m/z的保留时间;
步骤S2的具体实施方法如下:
S201.将原始数据中代谢物的分子质量、保留时间作为代谢物的唯一索引,并以相对含量作为变量值,并将提取的数据转换为n*m的矩阵,n表示样本数量,m表示检出代谢物数量;
S202.选择Z-分数对数据进行标准化,X:表示原始数据,
Figure BDA0002395648620000081
为平均数,σ为X的标准差,转化结果为均值为0方差为1,计算公式如下:
Figure BDA0002395648620000082
S203.选择Yeo-Johnson幂变换对数据进行预处理,λ为变换系数,计算公式如下:
Figure BDA0002395648620000083
步骤S3结合图3说明变量权重的计算流程,权重计算利用了PCA的思想,原始数据输入格式如下:
数据输入:Ia=(i1,i2,i3,…,im),a=1,2,3,…,n;
S301.协方差计算:X,Y为两个独立的变量(代谢物);
Figure BDA0002395648620000084
特征值输出:λv=(λ123,…,λk);特征向量输出:Pa=(p1,p2,p3,…,pk),a=1,2,3,…,m;
S302.主成分n_components设置:主成分反应的是的所选择特征值所累计的方差贡献率,它代表了对原始数据的还原程度,经研究和测试,选择主成分阈值为n_components=0.8,假定选择的主成分个数为k;累计方差贡献率计算方法如下:λ为特征值;
Figure BDA0002395648620000091
方差贡献率计算方法为:其中λ为特征值;
Figure BDA0002395648620000092
S303.计算变量在各个主成分中线性组合的系数,计算公式如下:
Figure BDA0002395648620000093
利用主成分的方差贡献率计算综合模得分模型中的系数,其中Vp T表示Vp的转置,计算公式如下:
Figure BDA0002395648620000094
指标权重的归一化处理,然后对权重取绝对值,归一化处理方法如下:
Figure BDA0002395648620000095
步骤S4结合图4说明QC核心样本确定的具体流程;
S401.DBSCAN参数初始化方法为:聚类参数MinPts的目的是筛选DBSCAN核心对象,若一个样本的ε邻域至少包含MinPts个样本,那么该样本就是一个核心对象。经研究与测试MinPts设置为2;
S402.计算QC核心样本之间的两两欧式距离,计算公式如下:
Figure BDA0002395648620000096
计算所有n个样本的第k近邻的平均值。K=1,2,…,n-1。将平均值Xk_mean的队列作为候选Eps,Xik表示第i个样本的第k近邻的距离,k=1,2,…,n=1,计算公式如下:
Figure BDA0002395648620000097
S403.利用Eps和MinPts作为DBSCAN的参数进行聚类,统计聚类标签如果出现连续的3个以上的聚类的标签完全一致,那么将该Eps作为DBSCAN的初始参数,否则,质控流程结束;
S404.统计各个聚类簇的样本数量,选择样本数量最多的簇作为核心样本,假定核心样本数量为r。
步骤S5结合图5说明QC核心样本质量评估和质量评测指标筛选的具体流程;
S501.质量评测指标初始化为全体的变量,Qindex=[var1,var2,var3,…,var],var为检出代谢物;
QC核心样本质量评估列表初始化为QC=[q1,q2,q3,…,qm].q取值为1,-1;1表示合格样本,-1表示不合格样本。所有核心样本的q值均取1,其余置为-1;
初始化最大核心样本数MaxNum=r;
S502.约束条件定义为聚类标签完全一致或者达到QC核心样本的最大变量数;
S503.核心样本的DBSCAN的参数计算,数据输入格式:Id=(Id1,Id2,Id3,…,Idr);根据步骤S403的Eps作为核心样本聚类的初始Eps参数,以decrease_rate=0.5为Eps的衰减率逐步减小Eps值,MinPts设置为2,进行聚类并计算聚类标签,迭代终止条件为核心样本没有聚在一类,将核心样本能聚在一类的最小Eps作为核心样本的DBSCAN参数;
S504.首先计算核心样本的Eps参数Eps_iter,并将Eps_iter作为全部样本聚类的Eps参数,对全部样本进行DBSCAN聚类,计算聚类标签并统计当前核心样本所在簇的样本数KSNum,判断KSNum与MaxNum的大小关系,如果KSNum大于MaxNum,更新MaxNum=KSNum、质量评测指标和QC核心样本质量评估列表,如果KSNum小于或者等于MaxNum,MaxNum、质量评测指标和QC核心样本评估质量列表保持不变;
S505.判断是否满足步骤约束条件,若两者都不满足,剔除变量权重Lv(L1,L2,Li,…,L)最大的Li,并重新跳转至S503进行迭代,若所有QC核心样本均聚集在了一起,则说明所有的QC核心样本都是合格的,若达到了最大变量数,则说明有QC核心样本的质量是不合格的;
S506.输出QC核心样本质量和质量评测指标。
S601.利用质量评测指标去匹配普通样本中的代谢物,将匹配到的代谢物筛选出来;
S602.将筛选出的代谢物数据集进行数据标准化,并将其转化为n_1*m_1的矩阵,n_1表示普通样本的数量,m_1表示筛选出代谢物的数量;
S603.计算覆盖率,覆盖率表示普通样本在质量评测指标维度上的检出率情况,计算公式如下:
Figure BDA0002395648620000111
计算普通样本与QC核心样本的线性相关度,样本与QC核心样本的线性相关性强度反应了平台在样本检测过程中的稳定性其中a,b分别为普通样本和核心样本,计算公式如下:
Figure BDA0002395648620000112
计算普通样本的相对标准偏差,相对标准偏差RSD值可以用来表示样本代谢物的精确度。通常,RSD值较小表示该代谢物在平台检测结果中比较稳定。Xi表示第i个代谢物的相对含量,计算公式如下:
Figure BDA0002395648620000113
输出QC核心样本的质量和普通样本的覆盖率、线性相关度和相对标准偏差。
S701.绘制维恩图直观的描述质量评测指标集Set1、QC核心样本代谢物集和Set2、普通样本代谢物集和Set3之间的关系;
S702.绘制QC核心样本与普通样本筛选前后的PCA结果的二维散点图,QC核心样本与普通样本用颜色和形状在图示中区分开来;
合并所有的QC核心样本与普通样本,其中缺失值补零处理;并以主成分为2的条件对数据进行PCA处理并转换数据;绘制转换后数据的二维散点图;
以质量评测指标为准筛选QC核心样本与普通样本,合并QC核心样本与普通样本,其中缺失值补零处理;并以主成分为2的条件进行PCA处理并转换数据;绘制转换后数据的二维散点图;
S703.首先以质量评测指标为准筛选普通样本;然后计算上四分位数、中位数、下四分位数、四分位数差、上边缘和下边缘;最后绘制普通样本的箱线图。
实施例2
本实施例提供一种面向LC/GC-MS的代谢组学数据质量控制方法,如图6所示,包括信息提取模块、数据预处理模块、变量权重模块、质量样本评估模块、普通样本评估模块和可视化模块;
所述的信息提取模块进行代谢组学数据信息提取;
所述的数据预处理模块进行数据预处理;
所述的变量权重模块进行变量权重计算;
所述的质量样本评估模块进行质量测评指标筛选;
所述的普通样本评估模块进行普通样本评估;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种面向代谢组学数据质量控制方法,其特征在于,包括以下步骤:
步骤S1.信息提取,从原始数据中提取代谢物分子质量、保留时间、相对含量信息,具体步骤如下:
步骤S101.数据格式转换,将数据原始RAW格式数据转化为mzML格式;
步骤S102.构建所有scan数据的数据集,数据集包含rt、m/z、intensity三个属性;
步骤S103.EIC数据池的构建,分别顺序扫描集合中每一个scan对应的m/z值,用临时数组存储,统计临时数组的最小m/z值记为minval;将数组中所有的m/z值与minval进行比较,如果差值在5ppm范围内,该scan扫描位置下移一位,保留所有误差范围内m/z对应的rt及intensity,并将minval、rt、intensity存入EIC数据池;差值在5ppm以外,该scan的扫描位置不变;其中终止条件为所有scan的m/z都被处理过;
步骤S104.照m/z值处理数据集合构造该m/z值对应的EIC二维数组;记录每一个rt对应的intensity值,如果该intensity大于其左右值,则将其定义为峰;根据峰与左右值的高度差来过滤掉部分噪声;然后使用均值滤波降噪法对非峰值点进行校正;接着对所有非峰点的intensity进行排序并取其中间值作为基线;利用基线与intensity的差值进一步过滤掉部分噪声;返回过滤后的数据;
步骤S105.EIC池中每一个m/z峰面积的计算,对峰值及其左右的数据点进行分布转换使其符合正态分布;根据微积分原理计算峰面积;
步骤S106.EIC池中每一个m/z保留时间的确定,提取二维数组中最大intensity对应的rt作为该m/z的保留时间;
步骤S2.数据预处理,对提取后的数据建立索引并执行标准化操作;
步骤S3.变量权重计算,利用PCA的最大可分性给变量赋予权重;
步骤S4.QC核心样本确定,所述核心样本指代在QC中高度相似的样本;
步骤S5.QC核心样本的质量评估与质量评测指标的筛选;
步骤S6.普通样本质量评估,利用质量评测指标对普通样本的数据质量进行评价;
步骤S7.数据可视化。
2.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S2具体步骤,将原始数据中代谢物的分子质量、保留时间作为代谢物的索引,并以相对含量作为变量值;
原始数据范围过大,大部分变量的值并不在一个量级上面,通过标准化和幂变换,可以使得不同的特征变量具有相同的尺度并有利于接下来的统计分析,标准化方法如下所示:其中X:表示原始数据,
Figure FDA0004101726060000021
为平均数,σ为X的标准差
Figure FDA0004101726060000022
幂变换方法如下所示:其中λ为变换系数
Figure FDA0004101726060000023
/>
3.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S3变量权重计算利用PCA的最大可分性赋予变量不同的权重,具体步骤如下:
步骤S301.QC核心样本特征值和特征向量计算;
步骤S302.方差贡献率和累计方差贡献率计算,其中λ为特征值,n为特征值的总数,n_components为累计方差贡献率阈值,方差贡献率的计算方法为:
Figure FDA0004101726060000024
累计方差贡献率的计算方法为:其中k为所选择特征值的数量
Figure FDA0004101726060000025
步骤S303.变量在各个主成分中线性组合的系数,其中P为特征向量,λ为特征值,计算方法为:
Figure FDA0004101726060000026
步骤S304.利用各个主成分的方差贡献率计算综合得分模型中的系数,计算公式为:
Figure FDA0004101726060000027
步骤S305.对指标权重进行归一化处理。
4.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S4包括以下步骤:
S401.计算QC核心样本之间的两式距离,计算公式如下:
Figure FDA0004101726060000031
计算所有n个样本的第k近邻的平均值,K=1,2,…,n-1,将平均值Xk_mean
队列作为候选Eps,Xik表示第i个样本的第k近邻的距离,K=1,2,…,n-1,计算公式如下:
Figure FDA0004101726060000033
S402.利用Eps和MinPts作为DBSCAN的参数进行聚类,统计聚类标签如果出现连续的3个以上的聚类的标签完全一致,那么将该Eps作为DBSCAN的初始参数,否则,质控流程结束;
S403.统计各个聚类簇的样本数量,选择样本数量最多的簇作为核心样本,假定核心样本数量为r。
5.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S5的具体步骤如下:
S501.质量评测指标初始化为全体的变量,Qindex=[var1,var2,var3,…,var],var为检出代谢物;
QC核心样本质量评估列表初始化为QC=[q1,q2,q3,…,qm].q取值为1,-1;1表示合格样本,-1表示不合格样本,则所有核心样本的q值均取1,其余置为-1;
初始化最大核心样本数MaxNum=r;
S502.约束条件定义为聚类标签完全一致或者达到QC核心样本的最大变量数;
S503.核心样本的DBSCAN的参数计算,数据输入格式:Id=(Id1,Id2,Id3,…,Idr);根据步骤S403的Eps作为核心样本聚类的初始Eps参数,以decrease_rate=0.5为Eps的衰减率逐步减小Eps值,MinPts设置为2,进行聚类并计算聚类标签,迭代终止条件为核心样本未聚在一类,将核心样本能聚在一类的最小Eps作为核心样本的DBSCAN参数;
S504.计算核心样本的Eps参数Eps_iter,并将Eps_iter作为全部样本聚类的Eps参数,对全部样本进行DBSCAN聚类,计算聚类标签并统计当前核心样本所在簇的样本数KSNum,判断KSNum与MaxNum的大小关系,如果KSNum大于MaxNum,更新MaxNum=KSNum、质量评测指标和QC核心样本质量评估列表,如果KSNum小于或者等于MaxNum,MaxNum、质量评测指标和QC核心样本评估质量列表保持不变;
S505.判断是否满足步骤约束条件,若两者都不满足,剔除变量权重Lv(L1,L2,Li,…,L)最大的Li,并重新跳转至S503进行迭代,若所有QC核心样本均聚集在了一起,则说明所有的QC核心样本都是合格的,若达到了最大变量数,则说明有QC核心样本的质量是不合格的。
6.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S6包括以下步骤:
步骤S601.计算覆盖率:其中m_1为由质量评测指标筛选出普通样本中代谢物的数量,len(Qindex)表示质量评测指标的数量;
Figure FDA0004101726060000041
步骤S602.对质量评测指标筛选过的普通样本和核心样本的线性相关度进行计算:其中a和b分别表示由质量评测指标筛选过的普通样本和核心样本;Cov(a,b)表示样本a和样本b的协方差,σ表示样本的标准差
Figure FDA0004101726060000042
步骤S603.进行相对标准偏差的计算:其中Xi表示第i个代谢物的检出量,
Figure FDA0004101726060000044
为平均值;
Figure FDA0004101726060000043
7.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S7包括以下步骤:
步骤S701.QC核心样本、普通样本和质量评测指标之间的关系可视化展示;
步骤S702.质控前后QC核心样本分布情况可视化展示;
步骤S703.质控后普通样本的分布情况可视化展示。
8.一种面向LC/GC-MS的代谢组学数据质量控制方法,应用权利要求1~7任一项所述的面向代谢组学数据质量控制方法,其特征在于,包括信息提取模块、数据预处理模块、变量权重模块、质量样本评估模块、普通样本评估模块和可视化模块;
所述的信息提取模块进行代谢组学数据信息提取;
所述的数据预处理模块进行数据预处理;
所述的变量权重模块进行变量权重计算;
所述的质量样本评估模块进行质量测评指标筛选;
所述的普通样本评估模块进行普通样本评估;
所述的可视化模块进行数据可视化处理。
CN202010130483.2A 2020-02-28 2020-02-28 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统 Active CN111370067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010130483.2A CN111370067B (zh) 2020-02-28 2020-02-28 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010130483.2A CN111370067B (zh) 2020-02-28 2020-02-28 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Publications (2)

Publication Number Publication Date
CN111370067A CN111370067A (zh) 2020-07-03
CN111370067B true CN111370067B (zh) 2023-05-23

Family

ID=71211138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010130483.2A Active CN111370067B (zh) 2020-02-28 2020-02-28 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统

Country Status (1)

Country Link
CN (1) CN111370067B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116381073A (zh) * 2020-10-10 2023-07-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 生物标志物在制备肺癌检测试剂中的用途和方法
CN112765011B (zh) * 2020-12-30 2023-10-10 上海昆涞生物科技有限公司 质控状态判定方法、装置及电子设备
CN112967758A (zh) * 2021-02-04 2021-06-15 麦特绘谱生物科技(上海)有限公司 一种自组装的代谢组学数据处理系统
CN113554176B (zh) * 2021-06-24 2023-09-05 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN114267413B (zh) * 2021-12-03 2022-09-02 中国人民解放军军事科学院军事医学研究院 一种基于一级谱图与深度学习的色谱保留时间对齐方法
CN114324713B (zh) * 2022-01-13 2023-01-13 宁夏医科大学 Uhplc-hrms数据依赖性采集的信息解析方法
CN114858958B (zh) * 2022-07-05 2022-11-01 西湖欧米(杭州)生物科技有限公司 质谱数据在质量评估中的分析方法、装置和存储介质
CN116451104B (zh) * 2023-06-14 2023-08-15 亚商科创(北京)科技有限公司 一种共享单车头盔容置检测及消杀系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105784874A (zh) * 2016-05-09 2016-07-20 四川农业大学 一种基于代谢组学手段判别不同耐逆潜力大豆的方法
CN106018600A (zh) * 2016-05-23 2016-10-12 中国科学院植物研究所 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
CN108061776A (zh) * 2016-11-08 2018-05-22 中国科学院大连化学物理研究所 一种用于液相色谱-质谱的代谢组学数据峰匹配方法
CN109187614A (zh) * 2018-09-27 2019-01-11 厦门大学 基于核磁共振和质谱的代谢组学数据融合方法及其应用
CN109856310A (zh) * 2018-12-17 2019-06-07 大连理工大学 基于hplc-ms的去除代谢物离子峰表中假阳性质谱特征的方法
CN109991325A (zh) * 2019-03-07 2019-07-09 中国检验检疫科学研究院 基于代谢组学数据融合和人工神经网络的食品品质的评价方法及其应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105784874A (zh) * 2016-05-09 2016-07-20 四川农业大学 一种基于代谢组学手段判别不同耐逆潜力大豆的方法
CN106018600A (zh) * 2016-05-23 2016-10-12 中国科学院植物研究所 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
CN108061776A (zh) * 2016-11-08 2018-05-22 中国科学院大连化学物理研究所 一种用于液相色谱-质谱的代谢组学数据峰匹配方法
CN109187614A (zh) * 2018-09-27 2019-01-11 厦门大学 基于核磁共振和质谱的代谢组学数据融合方法及其应用
CN109856310A (zh) * 2018-12-17 2019-06-07 大连理工大学 基于hplc-ms的去除代谢物离子峰表中假阳性质谱特征的方法
CN109991325A (zh) * 2019-03-07 2019-07-09 中国检验检疫科学研究院 基于代谢组学数据融合和人工神经网络的食品品质的评价方法及其应用

Also Published As

Publication number Publication date
CN111370067A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111370067B (zh) 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统
Du et al. Metabolomics data preprocessing using ADAP and MZmine 2
Bellew et al. A suite of algorithms for the comprehensive analysis of complex protein mixtures using high-resolution LC-MS
Gorrochategui et al. Data analysis strategies for targeted and untargeted LC-MS metabolomic studies: Overview and workflow
JP5496650B2 (ja) サンプル内の個々の要素を識別及び定量化するために分光測定データを分析するシステム、方法及びコンピュータプログラム製品
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
CA2501003C (en) Sample analysis to provide characterization data
Want et al. Processing and analysis of GC/LC-MS-based metabolomics data
CN103959426B (zh) 用于通过质谱术识别微生物的方法
US8631057B2 (en) Alignment of multiple liquid chromatography-mass spectrometry runs
Shahaf et al. Constructing a mass measurement error surface to improve automatic annotations in liquid chromatography/mass spectrometry based metabolomics
CN114755357A (zh) 一种色谱质谱自动积分方法、系统、设备、介质
CN110097920B (zh) 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN113567605A (zh) 质量色谱图的自动化解释模型构建方法、装置和电子设备
US6289287B1 (en) Identification of sample component using a mass sensor system
US20040126892A1 (en) Methods for characterizing a mixture of chemical compounds
CN111210876B (zh) 一种受扰动代谢通路确定方法及系统
Swarbrick et al. An overview of chemometrics for the engineering and measurement sciences
Camacho et al. Group‐wise partial least square regression
Sæbø et al. LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables
CN113903394A (zh) 基于卷积神经网络的代谢分析中不同队列的校准方法及系统
CN115171790A (zh) 质谱的数据序列在质量评估中的分析方法、装置和存储介质
CN114705766A (zh) 基于is联合svr的大规模组学数据校正方法及系统
CN113720952A (zh) 用于储层解释评价的图版生成方法、装置、设备及介质
CN108038056B (zh) 一种基于不对称分类评估的软件缺陷检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant