CN116453699A - 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 - Google Patents

基于代谢组学双平台的人体深静脉血栓诊断模型的构建 Download PDF

Info

Publication number
CN116453699A
CN116453699A CN202310291674.0A CN202310291674A CN116453699A CN 116453699 A CN116453699 A CN 116453699A CN 202310291674 A CN202310291674 A CN 202310291674A CN 116453699 A CN116453699 A CN 116453699A
Authority
CN
China
Prior art keywords
model
acid
metabolite
differential
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310291674.0A
Other languages
English (en)
Inventor
安国帅
李荣其
曹洁
李健
王亮亮
靳茜茜
杜秋香
孙俊红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Medical University
Original Assignee
Shanxi Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Medical University filed Critical Shanxi Medical University
Priority to CN202310291674.0A priority Critical patent/CN116453699A/zh
Publication of CN116453699A publication Critical patent/CN116453699A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明临床医学诊断技术领域,涉及一种基于代谢组学双平台的人体深静脉血栓诊断模型的构建。主要获取GC‑MS和LC‑MS两种平台深静脉血栓患者和健康人体小分子代谢谱;PLS‑DA及t检验筛选差异性特征;差异特征二级谱与在线数据库标准二级谱比对确定差异代谢物;构建筛选GC‑MS及LC‑MS最优基础模型;元学习器堆叠整合两平台最优基础模型似然概率输出,构建平台代谢组人体DVT诊断模型;利用SHAP特征选择流程,在不损失性能的前提下剔除模型中冗余代谢物特征,极大提高模型经济性;发明所构建的DM‑HDDM的经济性、鲁棒性及稳定性得到有效提升。

Description

基于代谢组学双平台的人体深静脉血栓诊断模型的构建
技术领域
本发明临床医学诊断技术领域,尤其涉及一种基于代谢组学双平台的人体深静脉血栓诊断模型的构建。
背景技术
深静脉血栓(DVT)是一种血管疾病,可引发急性肺栓塞(PE),致死致残率极高。因为DVT症状和体征与其他常见疾病重叠导致深静脉血栓诊断较为困难,误诊、漏诊患者可能会错过溶栓窗口期,导致患者治愈率低,预后不良等情况发生。因此对DVT的早期诊断及有效治疗措施的选取是临床技术更好服务于患者的必然要求。但DVT本身发病隐匿性、临床医师判断主观性和单一局限的辅助诊断技术及指标给DVT诊断带来了很大的困难。因此需要探索客观且多元的DVT诊断指标体系。通过联合应用以多平台代谢组学技术作为发现以及解释小分子代谢物与DVT疾病机制内在联系的新兴手段,以Stacking集成机器学习技术作为拟合庞杂数据并做出合理统计推断的数据处理手段,可以有效克服当前DVT诊断方法所存在的局限性,并实现临床快速推广应用。
发明内容
为了解决DVT本身发病隐匿性、临床医师判断主观性和单一局限的辅助诊断技术及指标给DVT诊断带来了很大的困难,本发明提供了一种基于代谢组学双平台的人体深静脉血栓诊断模型的构建。
本发明是通过以下技术方案实现的:基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,包括以下步骤:
①通过GC-MS和LC-MS两种代谢物分析平台获取深静脉血栓患者与健康人体的小分子代谢谱;
②通过SERRF(随机森林系统误差消除算法)来缩小GC-MS与LC-MS分析过程中不同批次引起的小分子代谢谱系统误差并进行数据归一化;
③PLS-DA算法分别构建GC-MS和LC-MS判别模型筛选血清GC-MS代谢谱或LC-MS代谢谱,筛选VIP>1且q<0.05的差异性代谢物特征;
④将GC-MS和LC-MS分析过程中记录的差异代谢物特征二级谱与在线数据库中标准二级质谱图比对分析确定差异代谢物特征对应为相应差异代谢物;
⑤第一层模型为基学习器,选择GC-MS最优基础模型和LC-MS最优基础模型;第二层为元学习器,元学习器堆叠整合GC-MS和LC-MS最优基础模型似然概率输出,构建双平台代谢组人体DVT诊断模型。
作为本发明构建方法技术方案的进一步改进,在步骤④中,所述GC-MS的差异代谢物为阿洛糖、九烷脂肪酸、甘油单油酸酯、马尿酸、己糖、L-山梨糖、L-苏糖酸、果糖、3-羟基异戊酸、3-苯基乳酸、β-丙氨酸、赤藓糖、乳酰胺、天冬酰胺、胞苷-(3,5)-胞苷-(3,5)-腺苷、庚酸、眼酸、琥珀酸、顺乌头酸、葡萄糖、对羟基苯甲酸甲酯、谷氨酰胺;所述LC-MS的差异代谢物为脯氨酸、色氨酸、吲哚-3-丙烯酸、苯基丙氨酸、异亮氨酸、亮氨酸、L-异亮氨酸、乳酸、甜菜碱、肌酸、尿酸、肉毒碱、油酰胺、马尿酸、胆碱、酪氨酸、邻苯二甲酸酯、3-羟基肉桂酸、十六烷酰胺、谷氨酰胺、苏糖酸、14,15-环氧乙烷三烯酸、4-羟基苯乳酸、胆红素、焦谷氨酸、3-羟基葵酸、乙基甘氨酸、甲硫氨酸、壬二酸、α-氨基辛酸、雄酮葡萄糖醛酸酯、甲基吲哚、环氨酸、16-羟基十六烷酸、十二烷酸、辛二酸、香草酸、黄嘌呤、乙酰丙氨酸。
作为本发明构建方法技术方案的进一步改进,在步骤⑤中,构建基学习器时,是从多种机器学习算法中通过交叉验证比较选取出GC-MS最优基础模型和LC-MS最优基础模型。
作为本发明构建方法技术方案的进一步改进,在步骤⑤中,Logistic回归作为元学习器。
作为本发明构建方法技术方案的进一步改进,多种机器学习算法包括Logistic回归、支持向量机、多层感知机、随机森林、梯度提升树。
本发明进一步提供了基于合作博弈论机器学习模型解释器SHAP的模型优化方法,包括以下步骤:
(Ⅰ)计算GC-MS差异代谢物对GC-MS最优基础模型的平均绝对SHAP值,以此衡量GC-MS差异代谢物的模型贡献度;
(Ⅱ)计算LC-MS差异代谢物对LC-MS最优基础模型的平均绝对SHAP值,以此衡量LC-MS差异代谢物的模型贡献度;
(Ⅲ)根据GC-MS、LC-MS差异代谢物对各自最优基础模型的贡献度大小降序排序并重排差异代谢物数据集;
(Ⅳ)从前向后逐步加入差异代谢物组成新的数据集,并训练不同数量差异代谢物特征的基础模型;
(Ⅴ)应用交叉验证算法评估基础模型准确率随差异代谢物数量变化的趋势,并绘制变化曲线,曲线拐点所对应的特征即为最终保留的差异代谢物;
(Ⅵ)构建最终保留的差异代谢物数据表,重新筛选新的GC-MS和LC-MS最优基础模型,再建立Stacking双平台集成模型即为经SHAP特征选择优化后的DM-HDDM。
作为本发明模型优化方法技术方案的进一步改进,在步骤(Ⅴ)中,绘制变化曲线时,将新的数据集切分为包括连续个数差异代谢物数量的子集,而后对这些子集均用最优基础模型所对应的机器学习算法进行拟合和准确率评估,并通过matplolib模块绘制出模型准确率随引入代谢物数量之间关系的曲线图。
本发明所述基于代谢组学双平台的人体深静脉血栓诊断模型的构建,与现有技术相比,具有如下有益效果:
主要获取GC-MS和LC-MS两种平台深静脉血栓患者和健康人体小分子代谢谱;PLS-DA及t检验筛选差异性特征;差异特征二级谱与在线数据库标准二级谱比对确定差异代谢物;构建筛选GC-MS及LC-MS最优基础模型;元学习器堆叠整合两平台最优基础模型似然概率输出,构建平台代谢组人体DVT诊断模型(DM-HDDM,Double-platformMetabolomic—Human DVT Diagnosis Model);利用SHAP特征选择流程,在不损失性能的前提下剔除模型中冗余代谢物特征,极大提高模型经济性,拓展了DVT诊断指标检测范围,克服了现有DVT诊断技术普遍存在主观性强、依赖临床医师长期临床经验及辅助诊断指标和技术局限单一等局限。本发明所构建的DM-HDDM外部测试准确率达到92.6%以上,因此本发明所构建的DM-HDDM的经济性、鲁棒性及稳定性得到有效提升。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为血清代谢组分析流程图。
图2为差异代谢物筛选图流程图。
图3为SERRF标准化前后样本主成分分析(PCA)聚集趋势分布图。
图4为VIP>1和q<0.05差异代谢物象限分布图。
图5为Stacking集成模型结构图。
图6为SHAP特征选择流程示意图:左图为差异代谢物平均绝对SHAP值排序,右图为逐步特征筛选曲线,拐点横坐标代表筛选累积准确率贡献度占比时用于模型构建所需的差异代谢物。
图7为LC-MS特征选择流程示意图:左图为差异代谢物平均绝对SHAP值排序,右图为逐步特征筛选曲线,拐点横坐标代表筛选累积准确率贡献度占比时用于模型构建所需的差异代谢物。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将对本发明的方案进行进一步描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
下面对本发明的具体实施例进行详细说明。
1.人体样本收集:
募集60例DVT患者及60例健康对照人员。空腹抽取5毫升受试者的静脉血,放入真空采血管中,静置30分钟,以3000转/分的速度离心5分钟,将上清液分装到冷冻管中,储存在-80℃冰箱中,如图1所示。
2.人体血清代谢组分析流程:
(1)GC-MS平台分析流程
①蛋白沉淀:将200μL血清样品在800μL二氯甲烷/甲醇/水的混合溶剂中匀浆,比例为20:50:20(v/v/v),然后在4℃下以13000rpm离心10分钟。
②冷冻干燥:将600μL上清液转移到新的小瓶中,并浓缩冷冻至完全干燥(SCIENTZ-1LS,宁波科恩茨生物技术有限公司,宁波,中国)。
③衍生化:向干燥后残留物中加入50μL吡啶中的甲氧基胺(15mg/mL),混合物在70℃下振荡60分钟;然后加入50μL混有1%三甲基氯矽烷(TMCS)的N-三甲硅基-N-甲基三氟乙酰胺(MSTFA),在40℃下进行90分钟的三甲基硅化。
④复溶上机:加入600μL庚烷中的四环素(0.1mg/mL),并涡旋混合2分钟。随后将样品在13000rpm下离心10分钟,然后将500μL的上清液转移到小瓶中进行GC-MS分析。
⑤质量控制样品制备。从每个样品中取等量的10μL放入2mL玻璃瓶中作为混合样品。
⑥上机检测及质谱条件:每个样品1μL,以无分裂模式注入GC-MS(Agilent7890B/7000C)系统。在毛细管柱DB-MS(30米×0.25毫米×0.25微米,美国安捷伦科技公司)上进行GC分离。进样器温度控制在250℃,进样器的分流比设定为1:10。氦气作为载气,流速为1.0mL/min。烘箱初始温度保持在60℃3分钟,以10℃/min的速度升至180℃,保持6分钟,再以10℃/min的速度升至280℃,保持5分钟。质谱仪在电子冲击(EI)电离模式下运行,电压为70eV,温度控制在230℃。数据采集采用全扫描模式,从m/z 50到650,扫描时间为0.5s,溶剂延迟时间为3.5min。
⑦仪器分析数据导出:所有血清样品的GC-MS原始文件(.D格式)用ProteoWizard3.0软件转换为"mzXML"格式,然后用ABF转换器转换为"abf"格式。然后用配备有Fiehn库的MS-DIAL软件对abf数据进行分析,进行原始峰排除、峰对齐、去卷积分析和鉴定等。
(2)LC-MS平台分析流程
①蛋白沉淀:在200μL血清中加入800μL冷的乙腈以沉淀蛋白质。涡旋混合1分钟后,离心(12000rpm,20分钟,4℃)。
②冷冻干燥:提取600μL上清液,在冷冻浓缩离心干燥器中冷冻干燥。
③复溶上机:用200μL乙腈/水(4:1)溶液溶解干燥后残留物,用0.22μm膜过滤,进行LC-MS分析。
④质控样本制备:从每个样品中取等量的10μL放入2mL玻璃瓶中作为混合样品。所有测试样品以随机顺序注入LC-MS,我们每10个样品插入一个QC样品,以测试仪器分析过程中分析方法和系统的稳定性。
⑤上机检测及质谱条件:色谱分析和质谱分析采用Ultimate 3000UPLC,与QExtraction Orbitrap HRMS(Thermo Scientific,美国)联用,电喷雾离子化(ESI,ThermoFisher,美国)。采用ACQUITY UPLCTM HSS T3柱(1.8μm,2.1mm×100mm,Waters,USA)。柱温为45℃,进样量为5μL。ESI收集正负离子,正负喷射电压分别为3.0kV和2.7kV。毛细管和加热器的温度分别为320℃和300℃,气体流速为11L/min。雾化压力为40psi,扫描模式为全扫描/dd-MS2,采集范围为m/z 80-1200Da。
⑥仪器分析数据导出:LC-MS的原始数据被导入Compound Discoverer 3.0(CD)软件,进行数据提取和自动预处理,如峰识别、峰对齐和基线校正等,最终输出的数据包括化合物名称、保留时间、精确质荷比和峰面积等。然后,将没有二次质谱鉴定的数据集导入Microsoft excel,对峰面积进行标准化处理。
3.差异代谢物筛选:
(1)消除实验批次误差及数据归一化:应用系统误差去除随机森林算法(SERRF)在实验中减少了系统偏差,并对数据进行了规范化处理。SERRF通过将数据导入在线网站服务端(https://slfan2013.github.io/SERRF-online)进行应用。
(2)SERRF处理前后数据模式比较:应用SERRF内置PCA分析显示SERRF处理前后数据空间分布趋势,QC质控样本聚集趋势更趋良好(如图3所示,(a)、(b)分别GC-MS SERRF处理前、后的PCA样本聚集趋势对比图,(c)、(d)分别为LC-MS SERRF处理前、后PCA样本聚集趋势对比图)。
(3)PLS-DA数据模式识别:将GC-MS和LC-MS的归一化数据集分别导入SIMCA-P14.1软件进行多变量统计分析。PLS-DA VIP>1和单变量统计分析q<0.05的变量被认为是GC-MS数据的差异性代谢物或LC-MS数据集的差异性特征。(如图4所示,图内两条虚线分别表示VIP=1与q=0.05的界值,以此将图划分为四个象限,图(a)象限点表示GC-MS筛选到的差异性代谢物特征,图(b)象限点表示LC-MS筛选到的差异代谢物特征)。
(4)LC-MS差异特征二级谱比对:在MzCloud(http://www.mzcloud.org)、METLIN(http://metlin.scripps.edu)和人类代谢组数据库(HMDB)的数据库中检索标准串联质谱和化合物来源信息以此确定LC-MS差异代谢物信息(经二级谱比对后得到的GC-MS、LC-MS差异代谢物相关信息分别在表1和表2中展示)。
表1GC-MS差异代谢物信息汇总
表2LC-MS差异代谢物信息汇总
4.DM-HDDM构建(建模流程如图5所示)
(1)数据集准备:以每个患者作为一个观测值,以GC-MS及LC-MS所测得差异代谢物表达量为特征,构建结构化二维数据表。按照8:2比例分割将数据集分割为训练集和验证集。数据集划分通过sklearn模块train_test_split函数实现。
(2)GC-MS最优基础模型选择:从五种机器学习算法(Logistic回归、支持向量机、多层感知机、随机森林、梯度提升树)中选取GC-MS最优基础模型(通过综合评估经训练后的机器学习算法对验证集数据进行预测的五种指标——分别为准确率、召回率、精确度、ROC曲线下面积、F1分数得出最优基础模型)。该步骤中5种机器学习算法通过从sklearn模块中导入svm,LogisticRegression,RandomForest,GradientBoostingClassifier,MLPClassifier函数实现。模型通过model.fit函数进行训练和拟合。模型评估通过从sklearn模块的metrics子模块中导入相应指标函数实现。结果如表3所示,经过5种指标综合评估,随机森林模型性能优于其余几种机器学习模型,因此选取随机森林模型作为GC-MS最优基础模型。
表3 GC-MS各基础模型内部验证性能指标对比
(3)LC-MS最优基础模型选择:同GC-MS最优基础模型选取方式(结果如表4所示)。
表4 LC-MS各基础模型内部验证性能指标对比
(4)Logistic回归作为元学习器堆叠整合LC-MS和GC-MS最优基础模型似然概率输出,并预测最终分类。该步骤首先从sklearn模块linear_model子模块导入LogisticRegression函数。而后利用mlxtend模块classifier子模块下的StackingClassifier函数,向此函数中传入GC-MS和LC-MS最优基础模型和Logistic回归元模型作为参数,构建双平台代谢组人体DVT辅助诊断模型(DM-HDDM)。
其中GC-MS和LC-MS最优基础模型与双平台代谢组人体DVT辅助诊断模型内部验证的性能指标如下所示:
表5各平台最优基础模型与双平台集成模型内部验证性能指标对比
5.SHAP机器学习解释器辅助建模特征选择提升DM-HDDM经济性
(1)计算GC-MS差异代谢物对GC-MS最优基础模型的平均绝对SHAP值,以此衡量GC-MS差异代谢物的模型贡献度。步骤为首先在Python环境中导入shap模块,而后运用Explainer函数定义SHAP解释器。并将GC-MS最优基础模型和GC-MS数据集传入解释器作为参数以方便解释器对其进行解释,输出数据集中差异代谢物特征的模型贡献度,并加以排序(如图6(a)所示,应用SHAP解释器计算GC-MS的22种差异代谢物对相应最优基础模型的贡献度并加以排序)。
(2)计算LC-MS差异代谢物对LC-MS最优基础模型的平均绝对SHAP值,以此衡量LC-MS差异代谢物的模型贡献度。步骤与(1)类似,可以获得LC-MS差异代谢物对GC-MS最优基础模型的贡献度。
(3)根据各平台差异代谢物对各自平台最优基础模型的贡献度大小降序排序并重排差异代谢物数据集。具体步骤为首先Python环境中导入pandas模块,并利用pandas模块导入excel数据表文件。而后创建排序后代谢物名称列表sort_name_list,并以列表索引方式取出每个代谢物所对应的列。最后以通过pandas.concat循环堆叠取出的每个列组成新的数据表即为根据SHAP贡献度重排后差异代谢物数据集。
(4)从重排后差异代谢物数据表中由前向后逐步加入差异代谢物组成新的数据集,并训练不同数量差异代谢物特征的基础模型。应用交叉验证算法评估基础模型准确率随差异代谢物数量变化的趋势,并绘制变化曲线(GC-MS基础模型准确率随引入代谢物个数变化趋势曲线如图6(b)所示)。具体步骤是利用for循环和pandas数据集切片操作,将重排差异代谢物数据集切分为包括连续个数差异代谢物数量的子集,而后对这些子集均用最优基础模型所对应的机器学习算法进行拟合和准确率评估,并通过matplolib模块绘制出模型准确率随引入代谢物数量之间关系的曲线图。曲线拐点所对应的特征数量即为最终保留的差异代谢物数量(如图6中方框框选出的代谢物即为GC-MS最终保留的差异代谢物)。
(5)与前述(4)相似,确定LC-MS最终保留差异代谢物,结果如图7所示。确定最终保留差异代谢物数据特征集合包括5种代谢物(GC-MS:L-苏氨酸、阿洛糖、甘油单油酸酯;LC-MS:脯氨酸、亮氨酸),相比之前61种代谢物,极大地降低建模所需的代谢物特征数量。
(6)重新训练新的GC-MS和LC-MS基础模型,再用Logistic回归元模型间将其组合为新的DM-HDDM并保存为后缀为.pkl的可存储文件。具体步骤为基于步骤(5)所指的最终保留差异代谢物数据集,重复应用DM-HDDM构建方法,重新筛选新的LC-MS和GC-MS最优基础模型,而后再经过元模型堆叠整合概率输出,建立Stacking双平台集成模型即为经SHAP特征选择优化后的DM-HDDM。
6.优化前后DM-HDDM测试比较:
(1)新招募7名DVT组志愿者与7名健康对照志愿者。通过前述方法(步骤1.-2.)采集其血清并进行GC-MS和LC-MS代谢组学分析,构建外部测试数据集。
(2)运用优化前和优化后的DM-HDDM分别对此14例人体血清代谢物中差异代谢物进行诊断分析,具体通过python环境下model.predict函数进行模型预测,记录模型预测准确率、召回率、精确度、ROC曲线下面积和F1分数信息。如表6所示,优化后模型只需最终5种差异代谢物进行建模就可以达到与优化前模型性能相近的水平(仅AUC指标降低)。这会极大节约模型运用的算力成本,提升模型预测效率,具体如表6所示。
表6优化前后双平台Stacking集成模型性能指标对比
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。尽管参照前述各实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离各实施例技术方案的范围,其均应涵盖权利要求书的保护范围中。

Claims (7)

1.基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,包括以下步骤:
①通过GC-MS和LC-MS两种代谢物分析平台获取深静脉血栓患者与健康人体的小分子代谢谱;
②通过SERRF来缩小GC-MS与LC-MS分析过程中不同批次引起的小分子代谢谱系统误差并进行数据归一化;
③PLS-DA算法分别构建GC-MS和LC-MS判别模型筛选血清GC-MS代谢谱或LC-MS代谢谱,筛选VIP>1且q<0.05的差异性代谢物特征;
④将GC-MS和LC-MS分析过程中记录的差异代谢物特征二级谱与在线数据库中标准二级质谱图比对分析确定差异代谢物特征对应为相应差异代谢物;
⑤第一层模型为基学习器,选择GC-MS最优基础模型和LC-MS最优基础模型;第二层为元学习器,元学习器堆叠整合GC-MS和LC-MS最优基础模型似然概率输出,构建双平台代谢组人体DVT诊断模型。
2.根据权利要求1所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,在步骤④中,所述GC-MS的差异代谢物为阿洛糖、九烷脂肪酸、甘油单油酸酯、马尿酸、己糖、L-山梨糖、L-苏糖酸、果糖、3-羟基异戊酸、3-苯基乳酸、β-丙氨酸、赤藓糖、乳酰胺、天冬酰胺、胞苷-(3,5)-胞苷-(3,5)-腺苷、庚酸、眼酸、琥珀酸、顺乌头酸、葡萄糖、对羟基苯甲酸甲酯、谷氨酰胺;所述LC-MS的差异代谢物为脯氨酸、色氨酸、吲哚-3-丙烯酸、苯基丙氨酸、异亮氨酸、亮氨酸、L-异亮氨酸、乳酸、甜菜碱、肌酸、尿酸、肉毒碱、油酰胺、马尿酸、胆碱、酪氨酸、邻苯二甲酸酯、3-羟基肉桂酸、十六烷酰胺、谷氨酰胺、苏糖酸、14,15-环氧乙烷三烯酸、4-羟基苯乳酸、胆红素、焦谷氨酸、3-羟基葵酸、乙基甘氨酸、甲硫氨酸、壬二酸、α-氨基辛酸、雄酮葡萄糖醛酸酯、甲基吲哚、环氨酸、16-羟基十六烷酸、十二烷酸、辛二酸、香草酸、黄嘌呤、乙酰丙氨酸。
3.根据权利要求1所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,在步骤⑤中,构建基学习器时,是从多种机器学习算法中通过交叉验证比较选取出GC-MS最优基础模型和LC-MS最优基础模型。
4.根据权利要求1所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,在步骤⑤中,Logistic回归作为元学习器。
5.根据权利要求3所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,多种机器学习算法包括Logistic回归、支持向量机、多层感知机、随机森林、梯度提升树。
6.基于合作博弈论机器学习模型解释器SHAP的模型优化方法,其特征在于,包括以下步骤:
(Ⅰ)计算GC-MS差异代谢物对GC-MS最优基础模型的平均绝对SHAP值,以此衡量GC-MS差异代谢物的模型贡献度;
(Ⅱ)计算LC-MS差异代谢物对LC-MS最优基础模型的平均绝对SHAP值,以此衡量LC-MS差异代谢物的模型贡献度;
(Ⅲ)根据GC-MS、LC-MS差异代谢物对各自最优基础模型的贡献度大小降序排序并重排差异代谢物数据集;
(Ⅳ)从前向后逐步加入差异代谢物组成新的数据集,并训练不同数量差异代谢物特征的基础模型;
(Ⅴ)应用交叉验证算法评估基础模型准确率随差异代谢物数量变化的趋势,并绘制变化曲线,曲线拐点所对应的特征即为最终保留的差异代谢物;
(Ⅵ)构建最终保留的差异代谢物数据表,重新筛选新的GC-MS和LC-MS最优基础模型,再建立Stacking双平台集成模型即为经SHAP特征选择优化后的DM-HDDM。
7.根据权利要求6所述的基于合作博弈论机器学习模型解释器SHAP的模型优化方法,其特征在于,在步骤(Ⅴ)中,绘制变化曲线时,将新的数据集切分为包括连续个数差异代谢物数量的子集,而后对这些子集均用最优基础模型所对应的机器学习算法进行拟合和准确率评估,并通过matplolib模块绘制出模型准确率随引入代谢物数量之间关系的曲线图。
CN202310291674.0A 2023-03-23 2023-03-23 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 Pending CN116453699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310291674.0A CN116453699A (zh) 2023-03-23 2023-03-23 基于代谢组学双平台的人体深静脉血栓诊断模型的构建

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310291674.0A CN116453699A (zh) 2023-03-23 2023-03-23 基于代谢组学双平台的人体深静脉血栓诊断模型的构建

Publications (1)

Publication Number Publication Date
CN116453699A true CN116453699A (zh) 2023-07-18

Family

ID=87128045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310291674.0A Pending CN116453699A (zh) 2023-03-23 2023-03-23 基于代谢组学双平台的人体深静脉血栓诊断模型的构建

Country Status (1)

Country Link
CN (1) CN116453699A (zh)

Similar Documents

Publication Publication Date Title
CN112881547B (zh) 一种肝硬化及肝炎人群早期肝癌诊断标志物的筛选方法
CN110057955B (zh) 乙型肝炎特异性血清标志物的筛选方法
Szymańska et al. Chemometrics for ion mobility spectrometry data: recent advances and future prospects
CN112509702A (zh) 基于医疗大数据的疾病预测方法及系统
CN110057954B (zh) 血浆代谢标志物在诊断或监测hbv的应用
CN113484511A (zh) 妊娠期糖尿病的孕早期血液脂质生物标志物的筛选及应用
CN109307764B (zh) 一组代谢标志物在制备胶质瘤诊断试剂盒方面的应用
CN104713970B (zh) 一种血清代谢组学分析模型的构建方法
CN115932277A (zh) 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用
WO2020199866A1 (zh) 生物代谢组学数据处理方法、分析方法及装置和应用
CN116453699A (zh) 基于代谢组学双平台的人体深静脉血栓诊断模型的构建
CN110583573A (zh) 一种血虚小鼠模型的构建及评价方法
CN115714013A (zh) 一种肺炎诊断的临床预测模型构建方法
CN114354827A (zh) 代谢标志物及其在制备2型糖尿病的风险预测试剂盒中的应用和试剂盒
CN108318573B (zh) 检测胰岛素抵抗的质谱模型的制备方法
CN112630330B (zh) 小分子物质在脑梗死诊断中的应用
CN109444277B (zh) 代谢标志物在制备胶质瘤诊断试剂盒方面的应用
CN112630344A (zh) 代谢标志物在脑梗死中的用途
CN114566292B (zh) 应用内源性物质预测肾移植药物剂量的模型的构建方法
US20170227528A1 (en) Biomarker compositions specific to coronary heart disease patients and uses thereof
CN112305120A (zh) 代谢物在动脉粥样硬化性脑梗死中的应用
CN114428139A (zh) 代谢标志物及在制备高尿酸血症的风险预测试剂盒方面中的应用和试剂盒
CN112599240B (zh) 代谢物在脑梗死中的应用
US20240102977A1 (en) Sample quantification consistency and classification workflow
CN112147344A (zh) 动脉粥样硬化性脑梗死的代谢标志物及其在诊疗中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination