CN113838577B - 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法 - Google Patents

便捷化分层老年mods早期死亡风险评估模型、装置及建立方法 Download PDF

Info

Publication number
CN113838577B
CN113838577B CN202111312683.0A CN202111312683A CN113838577B CN 113838577 B CN113838577 B CN 113838577B CN 202111312683 A CN202111312683 A CN 202111312683A CN 113838577 B CN113838577 B CN 113838577B
Authority
CN
China
Prior art keywords
model
mods
old
evaluation
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111312683.0A
Other languages
English (en)
Other versions
CN113838577A (zh
Inventor
李德玉
刘晓莉
张政波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111312683.0A priority Critical patent/CN113838577B/zh
Publication of CN113838577A publication Critical patent/CN113838577A/zh
Application granted granted Critical
Publication of CN113838577B publication Critical patent/CN113838577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本申请公开一种便捷化分层老年MODS早期死亡风险评估模型、装置及其建立方法,评估模块基于融合了SHAP方法的XGBoost模型,评估模块包括四个子模块,分别针对高龄老年患者或低龄老年患者,基于13或14个输入特征进行死亡风险评估并提供风险因素贡献程度分析。本申请的便捷化分层老年MODS早期死亡风险评估模型、装置,使得医生获可以便捷地对患者的疾病紧急和危险程度进行准确评估。

Description

便捷化分层老年MODS早期死亡风险评估模型、装置及建立 方法
技术领域
本发明涉及机器学习,尤其涉及针对两类老年人群体,基于可解释机器学习模型的老年多器官功能衰竭早期死亡风险评估模型、装置、及其建立方法。
背景技术
多器官功能衰竭(MODS)是近代危重医学研究的热点,其多发生在机体遭受严重创伤、休克、感染以及大手术等急性损伤后相继出现的两个及以上系统或器官功能障碍的临床综合征。它是重症监护病房(ICU)患者发病率和死亡率的主要原因。随着ICU人群的老龄化,老年人在全身各器官老化,功能低下,合并多种慢性疾病的基础上,现有的临床评分系统无法很好的适用于对老年患者的评估。且低龄老年患者(65~80岁)和高龄老年患者(80岁以上)在生理储备、免疫衰老、合并症的存在以及频繁住院等方面存在较大的差异,因而分别研究关注两个群体更有助于对患者病情准确地评估。近来越来越多的文献表明,临床的评分系统如序贯器官衰竭评估(SOFA)评分和急性生理学和慢性健康评估-II(APACHE-II)评分无法准确评估和预测患者死亡风险,原因可概括为:所包含的预后因素的权重由专家分配,但这并不能反映较大人群的特征;每个器官系统的衰竭程度进行线性相加但这并不能反映真实器官系统之间的复杂性和内在关联性;并且这些系统的性能也未经过多中心、大样本队列数据的充分验证。近年来电子健康档案(EHR)数据被许多研究人员用于开发机器学习算法,以对复杂和异构的数据进行更加强大的分析和复杂的建模,以获得性能的显著提升。近来一些学者通过EHR研究获取了便捷的线上计算器受到了临床医生的青睐,如评估乳腺癌术后持续疼痛的在线临床预测工具、黑色素瘤患者的前哨淋巴结阳性风险预测计算器、预测COVID-19住院患者发生严重疾病或死亡的自适应风险预测器、成年ICU急性肾损伤发生在线预测器等。因此针对低龄、高龄老年MODS患者开发可准确早期评估患者疾病严重程度和出现院内不良结局的在线风险预测器/计算器将有助于临床医生对患者及早的干预治疗和提供更为有效的治疗护理方案。
发明内容
鉴于上述问题,本申请针对低龄和高龄的老年多器官功能衰竭患者,基于来自不同国家和多个地区医院的多中心数据集分别开发可早期评估ICU住院期间死亡风险的预测模型,并同步呈现模型的推理分析原因便于医生的理解,以真正帮助医生进行辅助诊疗,且使用便捷。
一方面,本申请提出一种便捷化分层老年MODS早期死亡风险评估模型,其包括评估模块;所述评估模块基于融合了SHAP方法的XGBoost模型,所述评估模块包括四个子模块,其中,第一、第二子模块用于年龄大于等于65岁但小于80岁的MODS患者;第三、第四子模块用于年龄大于等于80岁的MODS患者;其中,第一、第三子模块包括14个特征,分别为:年龄、BMI、GCS均值、CCI、心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最大值、体温最小值、24小时尿量、尿素氮最大值、肌酐最大值、是否进行机械通气;第二、第四子模块包括13个特征,分别为:年龄、BMI、GCS均值、心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最大值、体温最小值、24小时尿量、尿素氮最大值、肌酐最大值、是否进行机械通气;
所述评估模块基于输入的特征,通过相应的子模块进行死亡风险评估;且所述评估模块对所述输入的特征对评估结果的重要性进行排名并计算出每个所述输入的特征对评估结果的贡献作为风险因素贡献程度。
优选地,包括数据处理模块;
数据处理模块自所述老年患者在ICU中第一天的数据中经过处理获取输入特征,以输入所述评估模块。
另一方面,本申请提出一种便捷化分层老年MODS早期死亡风险评估装置,其包括计算单元,所述计算单元用于执行上述的便捷化分层老年MODS早期死亡风险评估模型;所述模型采用其所融合的SHAP方法获得单独患者的风险因素贡献程度评估;其中,采用第一颜色代表该因素当前处于异常状态对患者的结局产生危害影响,采用第二颜色代表该因素当前处于正常状态对患者的结局不产生危害影响,且SHAP值越大对结局的影响程度越大。该计算单元可以是CPU、单片机、计算机、智能设备等。
优选地,包括输入接口单元,使用者通过所述输入接口单元输入待评估患者的特征;输入接口单元将该待评估患者的特征发送到计算单元,作为评估模块的所述输入的特征。
优选地,所述接口单元与所述计算单元部署在不同的地方。
优选地,所述计算单元为部署在云端的设备;
所述接口单元为运行网页的设备。
再一方面,本申请提出一种建立便捷化分层老年MODS早期死亡风险评估模型的方法,其包括:
数据集构建、数据处理、模型构建与评估;
在数据集构建中,根据序贯器官衰竭评分获取多个重症监护数据集中的低龄和高龄老年多器官功能衰竭患者的研究数据集;确定研究变量,所述研究变量包括个人信息、虚弱与神经、生命体征、尿量、实验室检查和治疗;
在数据处理中,将来自所述多个数据集的数据进行清洗、整合、采样和插值,并将数据进一步整理获得14个统计特征,包括:年龄、BMI、GCS均值、CCI、心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最大值、体温最小值、24小时尿量、尿素氮最大值、肌酐最大值、是否进行机械通气;
在模型构建与评估中,基于所述多中心数据集进行模型的训练、参数调优和内部验证后,采用7个评估指标和2个功能指标对模型性能进行评估,采用内部验证、外部验证、时序验证和亚组分析的方式对模型的性能进行评估。
优选地,在模型构建与评估中,所述评估模型针对年龄大于等于65岁但小于80岁的MODS患者和年龄大于等于80岁的MODS患者分别进行训练、评估和调优;并所述的训练、评估和调优是针对是否具有CCI分别进行的。
优选地,所述多个重症监护数据集包括:MIMIC-III、eICU-CRD、AmsterdamUMCdb和MIMIC-IV;研究人群基于SOFA评分和制定的纳入流程进行患者的筛选,分别获得年龄大于等于65岁但小于80岁的MODS患者和年龄大于等于80岁的MODS患者的数据集;
在训练模型时,将来自MIMIC-III和eICU-CRD的数据进行融合作为一个大样本、多中心的训练集,其中80%的患者数据用于模型的训练和采用交叉验证调节预测模型的超参数,剩余20%的患者数据用于模型性能的内部验证。
优选地,在模型性能评估时,所述7个评估指标为:AUROC、特异性、敏感性、准确性、F1值、精准性、AUPRC;所述2个功能指标为可解释性功能指标和便捷性功能指标;
内部验证采用与训练集一致的数据集20%来自MIMIC-III和eICU-CRD的患者数据进行评估;外部验证采用与训练数据不一致分布的AmsterdamUMCdb的全部患者数据进行评估;时序验证采用比训练集时间跨度更新的MIMIC-IV的全部患者数据进行评估;亚组分析对验证的群体分为白种人、非洲和西班牙裔分别进行验证;以综合评估是否有偏倚、模型的普适性和鲁棒性。
本申请的便捷化分层老年MODS早期死亡风险评估模型、装置,经大样本、多中心训练,性能一致优于其他对比的模型和评分,在多种方式验证评估中表现出良好的普适性和鲁棒性,且在提供患者出现不良结局的风险概率同时可获得分析原因,因而该装置有助于医生获得对患者的疾病紧急和危险程度更为准确的评估,有助于及早的采取行动治疗有潜在收益的患者,适用于更多不同地区、中心的医疗机构使用。本申请的便捷化分层老年MODS早期死亡风险评估模型、装置,将输入待评估患者的数据的接口单元与风险评估以及风险因素分析的计算单元部署在不同地方,使得医生能够更为便捷地对患者进行评估。
附图说明
图1.本申请的便捷化分层老年MODS早期死亡风险评估模型建立方法执行流程;
图2.4个数据集的研究群体及相应比例;
图3.MIMIC-III数据库中研究人群的纳入排除标准;
图4.eICU-CRD数据库中研究人群的纳入排除标准;
图5.Ams-UMC数据库中研究人群的纳入排除标准;
图6.MIMIC-IV(2014-2019)数据库中研究人群的纳入排除标准;
图7.在Young-old群体中在线计算器与基线模型和临床评分对比(内部验证);
图8.在Old-old群体中在线计算器与基线模型和临床评分对比(内部验证);
图9.在Young-old群体中在线计算器与基线模型和临床评分对比(外部验证,Ams-UMC);
图10.在Old-old群体中在线计算器与基线模型和临床评分对比(外部验证,Ams-UMC);
图11.在Young-old群体中在线计算器与基线模型和临床评分对比(外部验证,MIMIC-IV);
图12.在Old-old群体中在线计算器与基线模型和临床评分对比(外部验证,MIMIC-IV);
图13.老年器官功能衰竭患者ICU早期风险评估线上计算器;
图14.便捷化老年器官功能衰竭患者ICU早期风险评估装置;
具体实施方式
本发明的目的是开发一种简单便捷的预测模型,便于医护人员的便捷使用和快速评估。其开发过程如下:(1)构建可支持开发优良评估性能的模型的大样本多中心数据集,数据来源于4个重症监护数据库,分别为美国单中心Medical Information Mart forIntensive Care III(MIMIC-III)、美国多中心eICU Collaborative Research Database(eICU-CRD)、荷兰单中心AmsterdamUMCdb和MIMIC数据集的更新版本MIMIC-IV2014~2019。基于模型的风险因素排名和与临床医生的沟通,确定纳入人群的排除标准和研究变量。进而提取各个数据集中的低龄和高龄老年MODS患者的研究数据集;(2)进行数据的处理,包括对原始数据的清洗和规整(将4个数据集中变量名称统一、去除特殊字符、异常值去除、数据采样和数据插值)和构建用于后续分析的统计特征(个人信息2个、虚弱和神经表征2个、生命体征6个、尿量1个、实验室检查2个、治疗1个);(3)进行模型的训练和评估,基于仅14个特征和集成学习模型XGBoost,利用来自MIMIC-III和eICU-CRD构建的研究数据集进行模型的训练、参数调优和模型的内部验证。通过7个指标(受试者工作特征曲线下面积AUROC、特异性、敏感性、准确性、F1值、精准性、精准-召回曲线下面积AUPR)和2个功能指标(可解释性和便捷性)对模型的性能进行评估。采用2种方式,外部验证(利用AmsterdamUMCdb人群)和时序验证(利用MIMIC-IV2014~2019人群),并选择3个机器学习模型(逻辑回归LR、随机森林RF和朴树贝叶斯NB模型)和3个临床常用评分(急性生理评估评分APSIII、全身性感染相关性器官功能衰竭评分SOFA、简化急性生理评分SAPS)作为对照标准;(4)辅助决策支持软件,采用用户在线自动输入所需的14个/13个数据(无法提供查而森合并症指数CCI),即可获得患者发生院内不良风险的概率、等级(安全、低、中和高)以及模型的推理过程的解释。目标为临床医生提供一个简单的工具可以在线及早的筛查潜在的高风险老年MODS患者,并辅助下一步的治疗决策。
本发明提供的基于电子健康档案,采用集成学习方法更加便捷、准确地评估老年多器官功能衰竭患者的早期死亡风险,具体包括以下几个步骤:
步骤1:数据集构建模块
获取MIMIC-III、eICU-CRD、AmsterdamUMCdb和MIMIC-IV数据的使用权限,与临床医生制定研究人群的纳入和排除标准,选定SOFA评分作为MODS患者判断的标准,基于研究获取的风险因素排名与医生进一步沟通便捷和快速评估患者状态纳入的研究变量(个人信息、虚弱和神经功能、生命体征、尿量、实验室检查和治疗),基于数据库提取语言Bigquery对拟定的人群和变量进行提取ICU第一天的全部采集数据,并将研究人群划分为低龄(65~80岁)和高龄(80岁以上)研究群体。
步骤2:数据处理模块
上述提及的研究变量具体包括:个人信息(年龄、BMI)、虚弱和神经功能(格拉斯哥评分GCS、CCI)、生命体征(心率、呼吸速率、休克指数、氧饱和度、体温)、尿量、实验室检查(尿素氮、肌酐)和治疗(是否进行机械通气)。基于4个数据库中这些变量在ICU第一天内采集的数据,对其变量的命名进行统一、去除异常值、数据采样(1小时存在多个值取均值)、数据插值(缺失比例低于30%的变量采用人群中位数补充,高于则需要额外进行标注)后,为便于模型的计算和便于医护人员理解,构建如下统计特征:年龄、BMI、GCS、CCI、心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最高值、体温最低值、尿量总和、尿素氮最大值和肌酐最大值、和是否进行机械通气。
步骤3:模型构建与评估模块
选用MIMIC-III和eICU-CRD的研究人群作为模型的训练集,利用集成学习模型XGBoost分别构建适用于低龄和高龄老年患者的预测模型,通过贝叶斯优化进行模型超参数的调优,并对模型的性能进行内部验证。随后基于选定的7个评估指标和2项功能指标分别对两个年龄分层模型进行外部验证和时序研究,并与3个机器学习模型和3个临床常用评分进行性能对比。进一步基于获取的最优模型融合SHAP方法获得模型风险因素的排名和推理高低风险的原因。将上述过程和结果进行封装,在云端服务器上进行部署,并获取访问域名和安全使用证书。最终可获得线上便捷、快速地输入患者数据即可获取老年患者发生院内不良结局的概率、危险程度和模型推理的可视化解释。
下面将结合图1-14对本发明进行详细说明。
本发明基于研究获取的低龄、高龄老年MODS早期死亡风险预测模型的79个危险因素排名(见表10),进一步简化模型的输入数据量以便于在复杂和紧急的场景下医生可以便捷、快速、准确获得患者的疾病严重程度,通过纳入核心的14个变量(涵盖了个人信息、虚弱和神经功能、生命体征、尿量、实验室检查和治疗),基于涵盖197家医院的多中心大样本数据集进行模型的训练以非线性刻画各个变量之间的关联性以及与结局之间的关联性,获得分别适用于低龄和高龄老年MODS患者的风险评估模型。通过外部验证和时序验证以及与其他机器学习模型和常用临床评分对比,采用7个评估指标对模型的性能进行综合评估,以防止出现模型的偏倚和过拟合。采用SHAP方法获取危险因素对患者结局影响的贡献度。最终将数据处理、模型计算、风险评估、推理过程的可视化解释进行封装,变成一个可以便捷计算的风险预测器,可部署在云端或者医院的私有安全信息系统网络中,实现对患者病情严重程度更加准确和便捷的评估。
本发明中提出的过程主要包括3个模型:(1)数据集构建模块,通过4个重症监护数据集和确定的人群筛选标准、研究变量,分别准备抽取来自4个数据集中用于后续使用的低龄和高龄老年MODS研究数据集;(2)数据处理模块,通过脏数据的清洗、变量名称的规整、异常值去除、数据采样、数据插值完成数据的预处理环节,进一步构建各个类型变量的统计特征,共覆盖6种变量类型;(3)模型构建与评估模块,通过选定的多中心数据集进行模型的训练和参数调优以获得最优模型,采用7个评估指标对模型进行外部、时序验证,并将3个常用的机器学习模型和3个临床常用的评分作为对照标准。采用SHAP方法获取各个模型评估患者结局的推理过程。最终将低龄、高龄预测模型以及可能存在未纳入CCI的模型进行封装,实现可以简要输入所需的13~14个变量即可获取风险概率、等级和原因的装置(线上风险预测器)。
本发明中提出的源自多中心的电子健康档案数据集开发针对低龄和高龄老年多器官功能衰竭患者的ICU早期死亡风险可便捷计算的评估方法,其预测性能绝大部分情况下一致优于基线模型和临床评分,可为医生早期评估患者病情提供更加便捷、精确的评估方法。其首次针对低龄和高龄老年患者分别构建风险评估模型,采用了多中心大样本的数据集(36185名患者)进行模型训练和经过多中心、多国家的外部验证(10595名患者),性能均表现出良好的普适性和鲁棒性;同时,该模型仅需要输入13~14个变量值即可对患者的病情严重程度进行快速的评估,其性能优于SOFA和SAPS评分,且优于大部分测试情况下的APSIII评分;最后该方法同步考虑无法获取CCI评分的情况,额外训练2个无CCI模型,最终将4个模型(低龄-有CCI、高龄-有CCI、低龄-无CCI和高龄-无CCI)进行封装,内置了并行计算,可以自动化、便捷地依赖线上计算器早期评估老年MODS患者出现院内不良结局(死亡)风险、危险等级和获取推理原因。
本发明提出的一种便捷式基于电子健康档案的低龄和高龄老年多器官功能衰竭早期死亡风险可解释评估和危险因素排名的方法。其具体的实现如图1所示,包括以下步骤:
本发明中的数据集构建模块过程如下:
获取MIMIC-III、eICU-CRD、AmsterdamUMCdb(Ams-UMC)和MIMIC-IV数据的使用权限。MODS的临床评估标准选定为SOFA评分,即总分高于2分且至少两个系统发生衰竭。纳入和排除标准如图2所示,包括:纳入年龄高于65岁,第一次入院和入ICU,住ICU时长大于24小时,和分别至少测量一次心率、呼吸速率、平均动脉压、GCS、体温和血氧饱和度。本申请的发明人研究获取的低龄和高龄老年MODS的前20个死亡风险因素排名分别:低龄(GCS、查尔森合并症指数、是否进行机械通气、呼吸频率、尿素氮、休克指数、心率、BMI、体温最低值、一天内的总尿量、体温最高值、年龄、使用去甲肾上腺素的速率、血氧饱和度、血钾、血糖、红细胞压积比、淋巴细胞、二氧化碳分压和肌酐)和高龄(是否进行机械通气、GCS、呼吸频率、查尔森合并症指数、血氧饱和度、心率、体温最低值、休克指数、一天内的总尿量、体温最高值、肌酐、谷草转氨酶、二氧化碳分压、Code status、白蛋白、氧分压、BMI、乳酸、使用去甲肾上腺素的速率和淋巴细胞)。结合上述的特征排名、各个变量测量的容易程度以及医生的建议,本申请中进一步精减,最终纳入的变量包括:年龄、BMI、GCS、CCI、心率、呼吸速率、休克指数、氧饱和度、体温、尿量、尿素氮、肌酐、是否进行机械通气。因此通过上述过程可获得来自4个数据集的2个年龄群体的原始研究数据集。其中MIMIC-III和eICU-CRD的研究人群被融合进行分析,分别称研究人群来自MIMIC-III和eICU-CRD、Ams-UMC和MIMIC-IV的数据集为Cohort 1、Cohort 2和Cohort 3。将低龄和高龄老年患者分别称为Cohort N-1和Cohort N-2。最终,Cohort 1-1共27683名患者(8.4%的死亡率),Cohort 1-2共17549名患者(15.5%的死亡率),Cohort 2-1共1297名患者(12.6%的死亡率),Cohort 2-2共608名患者(21.4%的死亡率),Cohort3-1共5517名患者(10.5%的死亡率)和Cohort 3-2共3173名患者(16.1%的死亡率)。图3-6为各个数据集具体的患者筛选过程。表1为3个研究群体在低龄和高龄组的人群基线对比,表2为研究纳入的变量类型和名称。表3为纳入研究变量在3个研究群体和2个年龄分组的缺失比例。
表1.3个研究群体在两个年龄组中的人群基线对比
Figure BDA0003342319780000091
Figure BDA0003342319780000101
表2.预测模型纳入的研究变量
Figure BDA0003342319780000102
Figure BDA0003342319780000111
表3.3个研究群体的变量缺失比例
Figure BDA0003342319780000112
Figure BDA0003342319780000121
本发明中的数据处理模块过程如下:
基于上述过程筛选的6个研究群体的入ICU第一天内的相关数据,分别进行数据的特殊符号处理(如字符串转为数值格式)、异常值的去除(去除生理边界范围之外的数据)、数据采样(将每小时存在多个数据的变量取均值)、数据插补(由于所选变量均非常容易采集和收集,因此仅会对缺失患者的患者采样人群中位数进行插补)。进一步基于上述清洗对齐后的数据,进行统计特征的抽取,包括:2个个人信息(年龄、BMI,原始数据)、2个虚弱和神经功能的评估(GCS、CCI,原始数据)、6个生命体征信息(心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最高值、体温最低值)、1个尿量(尿量,求和)、2个生化检查(尿素氮、肌酐,最大值)和1个治疗信息(机械通气,是与否)。可同步结合表2获取纳入特征的名称。
本发明中的模型构建与评估模块过程如下:
由于Cohort 1包含了来自197家医院从2001年至2012年和2014年至2015年的
45232名患者群体,我们将Cohort 1作为模型的训练集。我们选用集成学习模型XGBoost作为研究模型的框架,将80%的数据用于模型的训练和调参,最终获得的模型运行函数和超参数设置为:
params={'base_score':0.5,'booster':'gbtree','colsample_bylevel':1,'colsample_bynode':1,'colsample_bytree':1,'gamma':0,'learning_rate':0.025,'max_delta_step':0,'max_depth':7,'min_child_weight':4.0,'missing':1,'n_estimators':430,'n_jobs':-1,'nthread':None,'objective':'binary:logistic','random_state':0,'reg_alpha':0,'reg_lambda':1,'scale_pos_weight':1,'seed':None,'silent':None,'subsample':0.85,'verbosity':1}
model_use=xgboost.XGBClassifier(**params)
explainer=shap.TreeExplainer(model_use)
20%的数据用于模型性能的内部验证。分别训练和获得低龄和高龄老年患者的风险预测模型。将Ams-UMC的全部数据用于模型的外部验证,MIMIC-IV的全部数据用于模型的时序验证。共纳入7个评估指标(AUROC、特异性、敏感性、准确性、F1值、精准性、AUPR)和2个功能指标(可解释性和便捷性)。同步将3个常用的具有一定可解释性容易被理解的机器学习模型(逻辑回归LR、随机森林RF和朴树贝叶斯NB模型)和3个临床常用的评分(急性生理评估评分APSIII、全身性感染相关性器官功能衰竭评分SOFA、简化急性生理评分SAPS)纳入作为模型性能的对比标准。表4和表5为低龄和高龄预测模型在内部验证、外部验证和时序验证的结果,可以看出外部验证的模型预测性能略有下降,在时序验证中模型性能降低略多。表6-表8为我们的模型与3个机器学习模型和3个临床评分在内部验证、外部验证和时序验证的7个评估指标的详细对比。图7到图12展示了我们的模型、3个机器学习模型、3个临床评分ROC曲线的对比:内部验证中我们的低龄和高龄风险预测模型一致优于对比的模型和评分,且显著优于临床评分;外部验证中我们的两个预测模型均表现出与内部验证一样的结果;时序验证中我们的两个预测模型均优于3个机器学习模型、SAPS和SOFA评分,但是略低于APSIII评分。这里考虑到APSIII模型中纳入了27个变量而我们模型仅纳入了13~14个变量(是我们的近2倍输入),在性能上略有降低属于可以接受的范围。因此,我们的低龄老年MODS风险预测模型AUROC在内部、外部和时序验证的结果如下:0.836(0.816-0.853)、0.827(0.787-0.864)、0.794(0.773-0.815);我们的高龄老年MODS风险预测模型AUROC在内部、外部和时序验证的结果如下:0.797(0.775-0.817)、0.816(0.771-0.861)、0.734(0.709-0.759)。我们进一步采用SHAP方法获得模型进行患者结局评估的原因即风险因素对结局的贡献程度,红色变量为当前值对患者有不利影响,蓝色变量为当前值对患者无不利影响,当f(x)高于base value则患者有发生院内不良结局的风险,当f(x)低于base value则患者当前时刻发生不良结局的风险很低,处于安全状态。我们将上述模型进行封装,将其部署在云服务器上进行模型的运算和返还结果。图13呈现了一个患者的评估示例:输入年龄84岁、GCS为15分、BUN为59mg/dL、未进行机械通气、平均呼吸频率为28.7bpm、平均休克指数为0.99、BMI为26、平均心率97.7bpm、第一天内最低体温36.1℃、第一天内最高体温36.8℃、第一天总的排尿量为250ml、肌酐最大值2.78mg/dL、血氧饱和度95.7%和CCI为2分。点击Evaluation,即可计算出该患者出现院内不良结局的概率0.548和处于高风险组,同时可获得模型的推理过程(尽管患者未进行机械通气,GCS评分正常,体温正常,但是患者的呼吸频率太快,排尿量太少,休克指数略高,肌酐值较高、BUN值较高、心率也较快且具有一定的基础疾病,因此推测患者属于高风险组)。考虑到可能不便获取CCI分数,我们额外训练获取了无CCI输入的两个年龄分组的预测模型,即覆盖表9列出的4个模型。通过将数据处理、模型计算、模型推理和结果呈现进行封装,获得了可以在云服务器部署和运行的线上风险预测器,图14为最终装置的示意图。即:在网页端输入14或13个患者在ICU第一天内的相关变量(其他时间的数据亦支持进行风险评估),通过AI云服务平台快速计算(年龄分组判断、CCI是否记录判断、相应模型的运算、获得风险因素的贡献程度),最终在网页端可获取发生不良结局的概率、危险等级和风险推理解释。
表4.Young-old死亡风险预测模型验证结果
Figure BDA0003342319780000141
表5.Old-old死亡风险预测模型验证结果
Figure BDA0003342319780000142
Figure BDA0003342319780000151
表6.Young-old和Old-old预测模型与机器学习模型和临床评分的对比(内部验证)
Figure BDA0003342319780000152
Figure BDA0003342319780000161
Figure BDA0003342319780000171
表7.Young-old和Old-old预测模型与机器学习模型和临床评分的对比(外部验证)
Figure BDA0003342319780000172
Figure BDA0003342319780000181
表8.Young-old和Old-old预测模型与机器学习模型和临床评分的对比(时序验证)
Figure BDA0003342319780000191
Figure BDA0003342319780000201
表9.线上计算器集成的预测模型类型
Figure BDA0003342319780000202
Figure BDA0003342319780000211
表10.Young-old和Old-old预测模型基于SHAP方法的79个特征排名
Figure BDA0003342319780000212
Figure BDA0003342319780000221
Figure BDA0003342319780000231
Figure BDA0003342319780000241
本发明的优点在于:
(1)分别针对ICU中的两个高危群体(低龄和高龄老年MODS患者)开发出可早期便捷的评估患者发生不良结局的概率、危险等级和风险因素的贡献程度,进而辅助医生对患者进行及早干预和治疗;
(2)经过大样本、多中心数据集的训练,和外部、时序验证,采用7个评估指标和2项功能指标对模型的性能进行评估,模型绝大部分对比均优于选定的3个机器学习模型和3个临床常用评分,即模型可获得对患者疾病严重程度更加准确地评估;
(3)仅在线输入患者13或14个数据,点击评估即可获得模型对患者发生院内不良结局(死亡)风险的评估结果和分析过程,可便捷部署于医院信息系统,便于医生的操作和使用。
除非另有定义,本申请中使用的所有技术和/或科学术语具有与由本发明所涉及的领域的普通技术人员通常理解的相同含义。本申请中提到的材料、方法和实施例仅为说明性的,而非限制性的。
虽然已结合具体实施方式对本发明进行了描述,在本申请的发明主旨下,本领域的技术人员可以进行适当的替换、修改和变化,这种替换、修改和变化仍属于本申请的保护范围。

Claims (5)

1.一种便捷化分层老年MODS早期死亡风险评估模型,其包括评估模块;所述评估模块基于融合了SHAP方法的XGBoost模型,所述评估模块包括四个子模块,其中,第一、第二子模块用于年龄大于等于65岁但小于80岁的MODS患者;第三、第四子模块用于年龄大于等于80岁的MODS患者;其中,第一、第三子模块包括14个特征,分别为:年龄、BMI、GCS均值、CCI、心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最大值、体温最小值、24小时尿量、尿素氮最大值、肌酐最大值、是否进行机械通气;第二、第四子模块包括13个特征,分别为:年龄、BMI、GCS均值、心率均值、呼吸速率均值、休克指数均值、氧饱和度均值、体温最大值、体温最小值、24小时尿量、尿素氮最大值、肌酐最大值、是否进行机械通气;
所述评估模块基于输入的特征,通过相应的子模块进行不良结局和风险等级评估;且所述评估模块对所述输入的特征对评估结果的重要性进行排名并计算出每个所述输入的特征对评估结果的贡献作为风险因素贡献程度;
所述XGBoost模型的超参数设置为:params={'base_score':0.5,'booster':'gbtree','colsample_bylevel':1,'colsample_bynode':1,'colsample_bytree':1,'gamma':0,'learning_rate':0.025,'max_delta_step':0,'max_depth':7,'min_child_weight':4.0,'missing':1,'n_estimators':430,'n_jobs':-1,'nthread':None,'objective':'binary:logistic','random_state':0,'reg_alpha':0,'reg_lambda':1,'scale_pos_weight':1,'seed':None,'silent':None,'subsample':0.85,'verbosity':1};
所述便捷化分层老年MODS早期死亡风险评估模型,在其构建与评估中,基于多中心数据集进行模型的训练、参数调优和内部验证后,采用7个评估指标和2个功能指标对模型性能进行评估,采用内部验证、外部验证、时序验证和亚组分析的方式对模型的性能进行评估;
所述7个评估指标为:AUROC、特异性、敏感性、准确性、F1值、精准性、AUPRC;所述2个功能指标为可解释性功能指标和便捷性功能指标;
所述多中心数据集包括:MIMIC-III、eICU-CRD、AmsterdamUMCdb和MIMIC-IV;
在训练模型时,将来自MIMIC-III和eICU-CRD的数据进行融合作为一个大样本、多中心的训练集,其中80%的患者数据用于模型的训练和采用交叉验证调节预测模型的超参数,剩余20%的患者数据用于模型性能的内部验证;
内部验证采用与训练集一致的数据集20%来自MIMIC-III和eICU-CRD的患者数据进行评估;
外部验证采用与训练数据不一致分布的AmsterdamUMCdb的全部患者数据进行评估;
时序验证采用比训练集时间跨度更新的MIMIC-IV的全部患者数据进行评估;
亚组分析对验证的群体分为白种人、非洲和西班牙裔分别进行验证。
2.一种便捷化分层老年MODS早期死亡风险评估装置,其包括计算单元,所述计算单元用于执行权利要求1所述的便捷化分层老年MODS早期死亡风险评估模型;所述模型采用其所融合的SHAP方法获得单独患者的风险因素贡献程度评估;其中,采用第一颜色代表该因素当前处于异常状态对患者的结局产生危害影响,采用第二颜色代表该因素当前处于正常状态对患者的结局不产生危害影响,且SHAP值越大对结局的影响程度越大。
3.根据权利要求2所述的便捷化分层老年MODS早期死亡风险评估装置,其特征在于:包括输入接口单元,使用者通过所述输入接口单元输入待评估患者的特征;输入接口单元将该待评估患者的特征发送到计算单元,作为评估模块的所述输入的特征。
4.根据权利要求3所述的便捷化分层老年MODS早期死亡风险评估装置,其特征在于:
所述接口单元与所述计算单元部署在不同的地方。
5.根据权利要求3所述的便捷化分层老年MODS早期死亡风险评估装置,其特征在于:
所述计算单元为部署在云端的设备;
所述接口单元为运行网页的设备。
CN202111312683.0A 2021-11-08 2021-11-08 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法 Active CN113838577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111312683.0A CN113838577B (zh) 2021-11-08 2021-11-08 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111312683.0A CN113838577B (zh) 2021-11-08 2021-11-08 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法

Publications (2)

Publication Number Publication Date
CN113838577A CN113838577A (zh) 2021-12-24
CN113838577B true CN113838577B (zh) 2022-09-09

Family

ID=78971224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111312683.0A Active CN113838577B (zh) 2021-11-08 2021-11-08 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法

Country Status (1)

Country Link
CN (1) CN113838577B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064255A (zh) * 2022-06-27 2022-09-16 上海梅斯医药科技有限公司 一种就医费用预测方法、系统、设备及存储介质
CN117133461B (zh) * 2023-10-23 2024-01-30 北京肿瘤医院(北京大学肿瘤医院) 一种老年肺癌患者术后短期死亡风险评估的方法及装置
CN117558452B (zh) * 2024-01-11 2024-03-26 北京大学人民医院 Mods风险评估模型构建方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014071145A1 (en) * 2012-11-02 2014-05-08 The University Of Chicago Patient risk evaluation
US20210020312A1 (en) * 2019-07-17 2021-01-21 Regents Of The University Of Minnesota Efficient and lightweight patient-mortality-prediction system with modeling and reporting at time of admission
CN110827993A (zh) * 2019-11-21 2020-02-21 北京航空航天大学 基于集成学习的早期死亡风险评估模型建立方法及装置
CN111627559B (zh) * 2020-06-17 2023-08-29 北京大学第三医院(北京大学第三临床医学院) 预测患者死亡风险的系统
CN112259217A (zh) * 2020-09-16 2021-01-22 上海市第八人民医院 Sapsⅱ疾病危重性评分系统在年老的老年性急性肾损伤患者预后判断中的应用
CN112365978B (zh) * 2020-11-10 2022-09-23 北京航空航天大学 心动过速事件早期风险评估的模型的建立方法及其装置
CN113012761B (zh) * 2021-04-07 2023-02-03 中国医学科学院阜外医院 脑卒中多基因遗传风险综合评分的构建方法与装置及应用

Also Published As

Publication number Publication date
CN113838577A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN113838577B (zh) 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法
WO2021120936A1 (zh) 一种基于多任务学习模型的慢病预测系统
CN112365978B (zh) 心动过速事件早期风险评估的模型的建立方法及其装置
CN111261282A (zh) 一种基于机器学习的脓毒症早期预测方法
CN107680676A (zh) 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
US20030004906A1 (en) Method for selecting medical and biochemical diagnostic tests using neural network-related applications
CN108648827A (zh) 心脑血管疾病风险预测方法及装置
CN111968741B (zh) 基于深度学习与集成学习的糖尿病并发症高危预警系统
CN111951975B (zh) 一种基于深度学习模型gpt-2的脓毒症早期预警方法
Afsaneh et al. Recent applications of machine learning and deep learning models in the prediction, diagnosis, and management of diabetes: a comprehensive review
CN112786204A (zh) 一种机器学习糖尿病发病风险预测方法及应用
CN114023441A (zh) 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法
Song et al. An interpretable knowledge-based decision support system and its applications in pregnancy diagnosis
CN112786203A (zh) 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
CN114639479A (zh) 一种基于医疗知识图谱的智能诊断辅助系统
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
CN111553478A (zh) 基于大数据的社区老年人心血管疾病预测系统与方法
Gaikwad et al. Effective study of machine learning algorithms for heart disease prediction
CN115602325A (zh) 一种基于多模型算法的慢性病风险评估方法及其系统
CN114974585A (zh) 一种妊娠期代谢综合征早期风险预测评估模型构建方法
Sonet et al. Analyzing patterns of numerously occurring heart diseases using association rule mining
CN114023440A (zh) 可解释分层老年mods早期死亡风险评估模型、装置及其建立方法
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
Chen et al. PREDICTIVE MODELING OF POSTOPERATIVE OUTCOMES
CN115312196A (zh) 一种新型筛选压力性损伤危险因素的模型构建评价方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant