CN114927230A - 基于机器学习的重症心衰患者预后决策支持系统及方法 - Google Patents
基于机器学习的重症心衰患者预后决策支持系统及方法 Download PDFInfo
- Publication number
- CN114927230A CN114927230A CN202210374070.8A CN202210374070A CN114927230A CN 114927230 A CN114927230 A CN 114927230A CN 202210374070 A CN202210374070 A CN 202210374070A CN 114927230 A CN114927230 A CN 114927230A
- Authority
- CN
- China
- Prior art keywords
- heart failure
- decision support
- severe heart
- machine learning
- support system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010019280 Heart failures Diseases 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004393 prognosis Methods 0.000 title claims abstract description 55
- 238000010801 machine learning Methods 0.000 title claims abstract description 53
- 230000010365 information processing Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000004083 survival effect Effects 0.000 claims abstract description 20
- 238000013178 mathematical model Methods 0.000 claims abstract description 9
- 230000009286 beneficial effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 5
- 230000000996 additive effect Effects 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 4
- 230000002411 adverse Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000000586 desensitisation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000024172 Cardiovascular disease Diseases 0.000 description 2
- 208000028399 Critical Illness Diseases 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000009533 lab test Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 208000035850 clinical syndrome Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/20—Analytics; Diagnosis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明属于人工智能辅助医疗决策领域,公开一种基于机器学习的重症心衰患者预后决策支持系统及方法,包括信息处理子系统、云数据库和预后决策支持系统,云数据库分别与信息处理子系统和预后决策支持系统连接,信息处理子系统与预后决策支持系统依次连接;云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态;信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据;预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。本发明有利于合理分配医疗资源,为ICU的医护人员提供临床决策支持。
Description
技术领域
本发明属于人工智能辅助医疗决策领域,具体涉及一种基于机器学习的重症心衰患者预后决策支持系统及方法。
背景技术
心力衰竭(简称心衰)是一种由心脏功能紊乱所引起的临床综合征,是心脏疾病发展的终末阶段。心衰是导致心血管疾病死亡的主要原因,在全球范围内,心衰住院死亡率为5%-20%,已成为威胁人类健康和社会发展的重要因素。作为一种世界性的常见病,在21世纪,全球有2600多万心衰患者,并且呈现逐年上升趋势。有数据表明,预计2012年至2030年间,心衰的患病率将继续增加46%,达到850万。此外,在美国,每年10%的医疗预算用在心血管疾病和心衰的管理上;随着人口老龄化,政府投资的相关成本预计将翻一番,从2012年的310亿美元增加到2030年的700亿美元。
重症监护病房(ICU)中的危重症患者需要密切的监护服务和高质量的多学科辅助诊疗手段。尽管ICU在维持患者生命方面起着不可或缺的作用,但这却同时意味着有限的医疗资源分配和沉重的经济负担的难题。因此,对于ICU中心衰患者死亡风险的早期发现,可以向医护人员提供临床决策支持,精准预测心衰患者的预后、及时提供有效的治疗并进行更密切的观察可能会降低心衰患者的死亡率。但现代ICU以指数级增长生成大量患者数据,并且数据通常是异构的,包括结构化和非结构化信息,具有数据的多样性和混杂性,这对传统的统计学模型提出了挑战。
近年来,人工智能已被广泛应用于探索危重疾病的预后因素和评估患者的死亡风险。出于机器学习算法精准捕捉变量之间非线性关系的强大特性,越来越多的研究人员提倡使用基于机器学习的预后模型评估患者的死亡风险,而不是传统的疾病严重程度评分模型如SOFA、APACHE II或SAPS II等评价系统。
针对心衰这一疾病,利用机器学习预测患者死亡风险这一技术已经应用广泛并且较为成熟,包括随机森林,卷积神经网络,支持向量机等等,但其中仍然存在诸多问题:①重症心衰患者的预后变量过多导致所训练的机器学习模型过度拟合,反而使模型在预测新的心衰患者死亡风险时准确率降低,这些无关变量被称为“噪音”变量,会给实际临床应用中的死亡风险评估带来较大的干扰;②尽管机器学习技术的预测性能十分优越,但考虑到复杂机器学习算法的“黑箱”即难以解释的特性,无法从根本上取得临床医护人员的完全信任。③目前国内重症心衰患者的诊疗数据利用率低,并且单家医院的重症心衰患者病例数较少,造成其科研价值的浪费,每家医院的数据犹如信息“孤岛”,数据整合性差,利用率低,这些都是大数据应用中的核心难题。
发明内容
为解决上述现有技术中的不足,本发明提供的基于可解释的机器学习模型的重症心衰患者预后决策支持系统及方法解决了现有的机器学习模型预测重症心衰患者死亡风险难以解释,模型过度拟合,判读结果不够精准的问题。
为实现上述技术目的,本发明采用的技术方案是:
基于机器学习的重症心衰患者预后决策支持系统,包括信息处理子系统、云数据库和预后决策支持系统,所述云数据库分别与信息处理子系统和预后决策支持系统连接,所述信息处理子系统与预后决策支持系统依次连接;
所述云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态,预测变量包括人口统计学特征、实验室检验指标、重要体征和共病类型;
所述信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据;
所述预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。
进一步地,所述云数据库为基于NoSQL的DynamoDB。
进一步地,所述云数据库中内置的变量筛选算法为LASSO回归。
进一步地,所述信息处理子系统根据云数据库中LASSO回归方法确定的与生存状态显著相关的预测变量进行待预测的心衰患者信息的处理与抓取,并上传至预后决策支持系统。
进一步地,所述预后决策支持系统包括依次连接的训练的机器学习XGBoost模型和可解释的数学模型SHAP方法。
基于可解释的机器学习模型的重症心衰患者预后决策支持方法,包括以下步骤:
S1、将已有的重症心力衰竭患者的预后变量及对应的生存状态传输到云数据库中;
S2、应用LASSO回归方法筛选云数据库中与患者生存状态显著相关的预后变量;
S3、根据确定的预后变量将云数据库中的患者信息传输至XGBoost模型以完成训练;
S4、将待预测的重症心力衰竭患者信息传输至信息处理子系统,根据LASSO确定的相关变量自动抓取信息;
S5、将患者信息传输至预后决策支持系统中已完成训练的XGBoost机器学习模型并利用SHAP方法对预测风险解释,信息整合并输出。
进一步地,所述步骤S1中,所上传的重症心力衰竭患者的预后变量包括患者入住ICU24小时以内的生化指标、重要体征指标、共病类型以及人口统计学特征,以及上传患者对应的最终出院状态。
进一步地,所述步骤S3中,对XGBoost集成机器学习模型完成训练的具体方法为:
将云数据库中根据LASSO回归方法筛选出的重症心衰患者死亡风险预测变量与生存状态传输至XGBoost模型中进行训练,并利用十折交叉验证的方法检验模型的准确性,根据性能指标调整模型参数,直到该训练完成的XGBoost模型对重症心衰患者死亡风险的预测准确率达到95%以上时,得到训练完成的XGBoost模型。
进一步地,所述步骤S4中,根据步骤S2中LASSO对云数据库中的筛选的与最终出院状态显著相关的预测变量,自动抓取待预测的重症心力衰竭患者的变量信息;若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。
进一步地,所述步骤S5中,SHAP对XGBoost预测的死亡风险结果进行可加性解释,即计算重症心衰患者预测变量中每个特征在所有特征序列中的平均边际贡献以衡量各个特征的重要性程度以及该特征对于患者死亡风险属于不利影响或者有利影响,解释了预测变量与所预测的对应心衰患者死亡风险之间的关系。
与现有技术相比,本发明的有益效果有:
(1)合理分配医疗资源,为ICU的医护人员提供临床决策支持:本发明方法以XGBoost机器学习模型为基础,实现了重症心衰患者死亡风险的精准预测,降低了医护人员面对海量数据时根据直觉判断失误的风险,辅助医护人员对重症心衰患者给予科学合理的诊疗。
(2)避免模型过拟合,保证预测准确性:本发明方法所搭建的云数据库存储已有的重症心衰患者信息,缓解医学数据的不平衡性,并利用LASSO回归方法筛选显著相关的预后变量,打破了传统模式中机器学习模型“预测变量越多模型越准确”的局限观点,具有较强的普适性和兼容性。
(3)预测结果可解释,机器学习不再是“黑箱”:本发明方法利用SHAP数学模型对预测的风险结果进行解释,使得医护人员理解XGBoost机器学习模型的内在预测逻辑,准确识别重症心衰患者的死亡风险预后因素并及时给予治疗,更加赢得医护人员的信任。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的基于可解释的机器学习模型的重症心衰患者预后决策支持系统结构图。
图2为本发明提供的基于可解释的机器学习模型的重症心衰患者预后决策支持方法流程图。
图3为XGBoost模型在测试集上预测性能的ROC曲线。
图4为SHAP方法对XGBoost模型所预测的死亡风险进行解释,图中f(x)值为对应死亡风险的对数比值比。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
如图1所示,基于可解释的机器学习模型的重症心衰患者预后决策支持系统,具体包括信息处理子系统、云数据库和预后决策支持系统。云数据库分别与信息处理子系统和预后决策支持系统连接;信息处理子系统与预后决策支持系统依次连接。
云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态,预测变量包括人口统计学特征、实验室检验指标、重要体征和共病类型。
信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据。
预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。
本发明实施例1中的云数据库为基于NoSQL的DynamoDB,对于存储于云数据库的重症心衰患者的数据,首先采用动态数据脱敏技术,在用户层对患者个人信息(包括姓名,身份证号,住院号等与患者生存状态无关的变量)进行独特屏蔽、加密、隐藏、审计或封锁访问,当应用程序、维护、开发工具请求通过动态数据脱敏时,实时筛选请求的SQL语句,依据用户角色、权限和其他脱敏规则屏蔽敏感数据,从而保护病人和医院隐私,增强本系统的安全性和可靠性。云数据库中内置的变量筛选算法为LASSO回归(Least absolute shrinkageand selection operator),即以缩小变量集(降阶)为思想的压缩估计,通过构造惩罚函数,将变量的系数进行压缩从而使某些无关变量回归系数变为0,进而实现变量选择,防止模型过度拟合。
其中惩罚函数为:
式中,假定第i个训练集有p个预测变量:
yi为第i个预测结果;
β0为第i个训练集使用多元线性回归模型时的常数项;
xij为第i个训练集中第j个预测变量;
βj为第i个训练集中的多元线性回归模型中第j个变量xij的偏回归系数;
λ为调节参数,可根据具体数据信息进行选定。
信息处理子系统为根据云数据库中LASSO回归方法对已储存的重症心衰患者信息处理后所确定的与生存状态显著相关的预测变量,对待预测的心衰患者信息的处理与抓取,并上传至预后决策支持系统,若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。
预后决策支持系统包括依次连接的训练的机器学习eXtrenme GradientBoosting(XGBoost)模型和可解释的数学模型SHapley Additive exPlanation(SHAP)方法。其中,XGBoost模型将采用弱分类器集成算法来选取合适的参数,本系统中该模型将采用岭回归算法(Ridge Regression)和随机森林算法(RandomForest)运行训练数据从而选取最优alpha值和最优参数,并通过十折交叉验证的方法不断调整XGBoost模型中的学习率,最大树的深度,回归方法等参数进行数据拟合,直到模型的准确率达到95%以上后代表训练完成。同时预后决策支持系统将利用SHAP方法对预后结果进行解释。
实施例2:
如图2所示,与上述实施例1对应的,本发明还提供了一种基于可解释的机器学习模型的重症心衰患者预后决策支持方法,包括以下步骤:
S1、将已有的重症心力衰竭患者的预后变量及对应的生存状态传输到云数据库中。
S2、应用LASSO回归方法筛选云数据库中与患者生存状态显著相关的预后变量。
S3、根据确定的预后变量将云数据库中的患者信息传输至XGBoost模型以完成训练。
S4、将待预测的重症心力衰竭患者信息传输至信息处理子系统,根据LASSO确定的相关变量自动抓取信息。
S5、将患者信息传输至预后决策支持系统中已完成训练的XGBoost机器学习模型并利用SHAP方法对预测风险解释,信息整合并输出。
本发明实施例2步骤S1中,所上传的重症心力衰竭患者的预后变量包括患者入住ICU24小时以内的生化指标(例如血尿素氮水平、血红蛋白浓度等)、重要体征指标(例如呼吸频率、心率、血氧饱和度等)、共病类型(例如糖尿病、高血压等)以及人口统计学特征(例如性别、年龄、身高等),具体预测变量的数目应当视医院的实际情况确定,以及上传患者对应的最终出院状态(包括生存和死亡两种类型)。
所述步骤S2中,云数据库为基于NoSQL的DynamoDB,同时云数据库将通过管理员提前设置的变量数据范围标准对上传到已有的重症心衰患者的变量进行审核,考虑到XGBoost对数据有较好的兼容性,对于明显错误的数据(例如体重1000kg,身高4m等)将会设置为缺失值,训练模型将会根据默认分支自动填充;对于有争议的数据,数据库将会反馈给管理人员请求数据进一步人工复核以确定其准确性,待所有数据准确无误后,将会通过动态数据脱敏和云端上传方式保存至该数据库中。
所述步骤S3中,Xgboost算法本质是梯度提升决策树,是通过将一系列弱学习器的预测结果进行组合成为强学习器的集成机器学习技术,利用二阶泰勒展开公式将优化的目标函数展开,同时将对目标函数加入了正则项,简化目标函数实现计算资源优化。
所述步骤S3中,对XGBoost集成机器学习模型完成训练的具体方法为:
将云数据库中根据LASSO回归方法筛选出的重症心衰患者死亡风险预测变量与生存状态(标签)传输至XGBoost模型中进行训练,并利用十折交叉验证的方法检验模型的准确性,根据性能指标调整模型参数,直到该训练完成的XGBoost模型对重症心衰患者死亡风险的预测准确率达到95%以上时,得到训练完成的XGBoost模型。
所述步骤S4中,根据步骤S2中LASSO对云数据库中的筛选的与最终出院状态显著相关的预测变量,自动抓取待预测的重症心力衰竭患者的变量信息;若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。
所述步骤S5中,SHAP对XGBoost预测的死亡风险结果进行可加性解释,即计算重症心衰患者预测变量中每个特征在所有特征序列中的平均边际贡献(Shapley值)以衡量各个特征的重要性程度以及该特征对于患者死亡风险属于不利影响或者有利影响,解释了预测变量与所预测的对应心衰患者死亡风险之间的关系。SHAP的目标是通过计算每个特征对预测x的贡献来解释实例x的预测。本系统中,在对所预测的重症心衰患者死亡风险进行解释时,SHAP采用一种加法特征归因方法,采用线性模型来表示。具体表现形式如下:
其中g是解释模型,z′∈{0,1}M为简化特征,M是最大特征规模,φj∈R为特征j的特征归属,其中R为实数。由于在计算SHAP值时,本系统模拟只有某些特征值在发挥作用,所以z′可以简化为全一向量,从而上述公式简化为
其中,g是解释模型,M是最大特征规模,φj∈R为特征j的Shapely值,其中R为实数,即每个特征对样本预测结果的影响力大小,从而得到对死亡风险的解释结果,为ICU医护人员提供临床决策支持。
本发明的有效性可以通过实施例来进一步说明,实施例的数据不限制本发明的应用范围,以下实例用以说明基于可解释的机器学习模型的重症心衰患者预后决策支持方法的有效性。
实验平台:十二核Intel i7 CPU,8GB内存,512GB固态硬盘,10Mbps网络带宽;系统是Windows10(64位);程序语言环境为Python 3.8环境,PyTorch环境,R x64 4.1.0环境,MySQL环境
实验内容:所采用的数据来源于eICU合作研究数据库,是源于飞利浦医疗保健公司开发的一个远程保健系统,数据库中包含了美国超过200家医院数百个ICU,2014-2015年入住的患者的信息,数据量大,准确性高。按照国际疾病分类编码(ICD-9/10)提取其中重症心力衰竭患者的预测变量和生存状态,按照7:3随机分为训练组和测试组。
步骤如实施例2所述,将训练组数据传输到云数据库后,在进行数据核对和脱敏处理后,采用LASSO回归筛选与生存状态显著相关的预测变量,并将其传输到XGBoost模型中进行训练,根据十折交叉验证的结果进行参数的调整:max.depth=3,eta=0.1,nrounds=100,objective="binary:logistic",gamma=0。然后将训练集的数据传输到对应的信息处理子系统中,根据LASOO回归方法确定的预测变量数据传输到已完成训练的XGBoost模型中,输出预测风险并利用SHAP方法进行解释。
图3为XGBoost模型在测试集上预测性能的ROC曲线。
图4为SHAP方法对XGBoost模型所预测的死亡风险进行解释,图中f(x)值为对应死亡风险的对数比值比。
本发明的有益效果为:
(1)合理分配医疗资源,为ICU的医护人员提供临床决策支持:本发明方法以XGBoost机器学习模型为基础,实现了重症心衰患者死亡风险的精准预测,降低了医护人员面对海量数据时根据直觉判断失误的风险,辅助医护人员对重症心衰患者给予科学合理的诊疗。
(2)避免模型过拟合,保证预测准确性:本发明方法所搭建的云数据库存储已有的重症心衰患者信息,缓解医学数据的不平衡性,并利用LASSO回归方法筛选显著相关的预后变量,打破了传统模式中机器学习模型“预测变量越多模型越准确”的局限观点,具有较强的普适性和兼容性。
(3)预测结果可解释,机器学习不再是“黑箱”:本发明方法利用SHAP数学模型对预测的风险结果进行解释,使得医护人员理解XGBoost机器学习模型的内在预测逻辑,准确识别重症心衰患者的死亡风险预后因素并及时给予治疗,更加赢得医护人员的信任。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.基于机器学习的重症心衰患者预后决策支持系统,其特征在于:包括信息处理子系统、云数据库和预后决策支持系统,所述云数据库分别与信息处理子系统和预后决策支持系统连接,所述信息处理子系统与预后决策支持系统依次连接;
所述云数据库中存储医院已有的重症心衰患者的预测变量的详细数据信息及患者对应的生存状态;
所述信息处理子系统用于自动处理并抓取待预测的重症心衰患者的预测变量指标数据;
所述预后决策支持系统用于根据云数据库中重症心衰患者的详细信息对机器学习模型进行训练,并利用可解释的数学模型对死亡风险的预测结果进行解释。
2.根据权利要求1所述的基于机器学习的重症心衰患者预后决策支持系统,其特征在于:所述云数据库为基于NoSQL的DynamoDB。
3.根据权利要求2所述的基于机器学习的重症心衰患者预后决策支持系统,其特征在于:所述云数据库中内置的变量筛选算法为LASSO回归。
4.根据权利要求3所述的基于机器学习的重症心衰患者预后决策支持系统,其特征在于:所述信息处理子系统根据云数据库中LASSO回归方法确定的与生存状态显著相关的预测变量进行待预测的心衰患者信息的处理与抓取,并上传至预后决策支持系统。
5.根据权利要求1所述的基于机器学习的重症心衰患者预后决策支持系统,其特征在于:所述预后决策支持系统包括依次连接的训练的机器学习XGBoost模型和可解释的数学模型SHAP方法。
6.根据权利要求1-5任一项所述的基于机器学习的重症心衰患者预后决策支持系统的支持方法,其特征在于,包括以下步骤:
S1、将已有的重症心力衰竭患者的预后变量及对应的生存状态传输到云数据库中;
S2、应用LASSO回归方法筛选云数据库中与患者生存状态显著相关的预后变量;
S3、根据确定的预后变量将云数据库中的患者信息传输至XGBoost模型以完成训练;
S4、将待预测的重症心力衰竭患者信息传输至信息处理子系统,根据LASSO确定的相关变量自动抓取信息;
S5、将患者信息传输至预后决策支持系统中已完成训练的XGBoost机器学习模型并利用SHAP方法对预测风险解释,信息整合并输出。
7.根据权利要求6所述的基于机器学习的重症心衰患者预后决策支持方法,其特征在于:所述步骤S1中,所上传的重症心力衰竭患者的预后变量包括患者入住ICU24小时以内的生化指标、重要体征指标、共病类型和人口统计学特征,以及上传患者对应的最终出院状态。
8.根据权利要求6所述的基于机器学习的重症心衰患者预后决策支持方法,其特征在于:所述步骤S3中,对XGBoost集成机器学习模型完成训练的具体方法为:
将云数据库中根据LASSO回归方法筛选出的重症心衰患者死亡风险预测变量与生存状态传输至XGBoost模型中进行训练,并利用十折交叉验证的方法检验模型的准确性,根据性能指标调整模型参数,直到该训练完成的XGBoost模型对重症心衰患者死亡风险的预测准确率达到95%以上时,得到训练完成的XGBoost模型。
9.根据权利要求6所述的基于机器学习的重症心衰患者预后决策支持方法,其特征在于:所述步骤S4中,根据步骤S2中LASSO对云数据库中的筛选的与最终出院状态显著相关的预测变量,自动抓取待预测的重症心力衰竭患者的变量信息;若该变量存在于输入的变量信息中,则上传到完成参数设置的所训练的XGBoost模型中,若该变量不存在于输入的变量信息中,则默认该变量缺失,XGBoost模型允许特征变量缺失,会根据默认分支对其进行填充。
10.根据权利要求6所述的基于机器学习的重症心衰患者预后决策支持方法,其特征在于:所述步骤S5中,SHAP对XGBoost预测的死亡风险结果进行可加性解释,即计算重症心衰患者预测变量中每个特征在所有特征序列中的平均边际贡献以衡量各个特征的重要性程度以及该特征对于患者死亡风险属于不利影响或者有利影响,解释了预测变量与所预测的对应心衰患者死亡风险之间的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374070.8A CN114927230B (zh) | 2022-04-11 | 2022-04-11 | 基于机器学习的重症心衰患者预后决策支持系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374070.8A CN114927230B (zh) | 2022-04-11 | 2022-04-11 | 基于机器学习的重症心衰患者预后决策支持系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114927230A true CN114927230A (zh) | 2022-08-19 |
CN114927230B CN114927230B (zh) | 2023-05-23 |
Family
ID=82804356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210374070.8A Active CN114927230B (zh) | 2022-04-11 | 2022-04-11 | 基于机器学习的重症心衰患者预后决策支持系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114927230B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117976142A (zh) * | 2024-04-02 | 2024-05-03 | 营动智能技术(山东)有限公司 | 一种基于XGBoost和SHAP值的慢性病精准干预系统 |
CN117976148A (zh) * | 2024-04-01 | 2024-05-03 | 成都市双流区妇幼保健院 | 一种基于机器学习的儿童心理健康问题预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827993A (zh) * | 2019-11-21 | 2020-02-21 | 北京航空航天大学 | 基于集成学习的早期死亡风险评估模型建立方法及装置 |
CN112150209A (zh) * | 2020-06-19 | 2020-12-29 | 南京理工大学 | 一种基于聚类中心的cnn-lstm时序预测模型的构建方法 |
CN112767393A (zh) * | 2021-03-03 | 2021-05-07 | 常州市第一人民医院 | 一种基于机器学习的双模态影像组学磨玻璃结节分类方法 |
CN113160978A (zh) * | 2020-12-11 | 2021-07-23 | 刘泉 | 基于机器学习的全飞秒术后视力预测方法、系统及介质 |
CN113593694A (zh) * | 2021-05-31 | 2021-11-02 | 深圳市人民医院 | 一种重症患者预后的预测方法 |
-
2022
- 2022-04-11 CN CN202210374070.8A patent/CN114927230B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827993A (zh) * | 2019-11-21 | 2020-02-21 | 北京航空航天大学 | 基于集成学习的早期死亡风险评估模型建立方法及装置 |
CN112150209A (zh) * | 2020-06-19 | 2020-12-29 | 南京理工大学 | 一种基于聚类中心的cnn-lstm时序预测模型的构建方法 |
CN113160978A (zh) * | 2020-12-11 | 2021-07-23 | 刘泉 | 基于机器学习的全飞秒术后视力预测方法、系统及介质 |
CN112767393A (zh) * | 2021-03-03 | 2021-05-07 | 常州市第一人民医院 | 一种基于机器学习的双模态影像组学磨玻璃结节分类方法 |
CN113593694A (zh) * | 2021-05-31 | 2021-11-02 | 深圳市人民医院 | 一种重症患者预后的预测方法 |
Non-Patent Citations (1)
Title |
---|
张春富;王松;吴亚东;王勇;张红英;: "基于GA_Xgboost模型的糖尿病风险预测", 计算机工程 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117976148A (zh) * | 2024-04-01 | 2024-05-03 | 成都市双流区妇幼保健院 | 一种基于机器学习的儿童心理健康问题预测方法及系统 |
CN117976142A (zh) * | 2024-04-02 | 2024-05-03 | 营动智能技术(山东)有限公司 | 一种基于XGBoost和SHAP值的慢性病精准干预系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114927230B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
US20200250554A1 (en) | Method and storage medium for predicting the dosage based on human physiological parameters | |
CN114927230B (zh) | 基于机器学习的重症心衰患者预后决策支持系统及方法 | |
CN112365978A (zh) | 心动过速事件早期风险评估的模型的建立方法及其装置 | |
CN110051324A (zh) | 一种急性呼吸窘迫综合征死亡率预测方法及系统 | |
CN112967803A (zh) | 基于集成模型的急诊患者早期死亡率预测方法及系统 | |
CN111553478A (zh) | 基于大数据的社区老年人心血管疾病预测系统与方法 | |
Filipe et al. | Predict hourly patient discharge probability in Intensive Care Units using Data Mining | |
CN111370126A (zh) | 基于惩罚集成模型的icu死亡率预测方法及系统 | |
CN112542242A (zh) | 数据转换/症状评分 | |
CN111063448A (zh) | 输血不良反应数据库建立方法、存储系统以及主动预警系统 | |
CN112185558A (zh) | 基于深度学习的心理健康及康复评定方法、装置及介质 | |
CN113838577A (zh) | 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法 | |
CN113744865B (zh) | 基于回归分析的压力性损伤风险预测模型校正方法 | |
CN114550896A (zh) | 基于人工神经网络的头晕患者急诊预检分诊决策方法、装置及模型 | |
CN112184295A (zh) | 康养服务确定方法、装置、电子设备和存储介质 | |
CN117457159A (zh) | 医疗主体推荐方法、装置、计算机设备及存储介质 | |
CN117116475A (zh) | 缺血性脑卒中的风险预测方法、系统、终端及存储介质 | |
CN114358618A (zh) | 基于病例组合的医生住院服务绩效评估方法及系统 | |
Garcia-Rios et al. | Predictive machine learning applying cross industry standard process for data mining for the diagnosis of diabetes mellitus type 2 | |
Sundas et al. | Comprehensive Study of Machine Learning-Based Systems for Early Warning of Clinical Deterioration | |
Wickramasinghe et al. | Real-time prediction of the risk of hospital readmissions | |
Zhang et al. | Intelligent alert system for predicting invasive mechanical ventilation needs via noninvasive parameters: employing an integrated machine learning method with integration of multicenter databases | |
CN117116476B (zh) | 下游任务预测方法、装置及计算机可读存储介质 | |
CN113808724B (zh) | 数据分析方法及装置、存储介质及电子终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |