CN113160992A - 住院临床场景的预估方法、系统、计算机设备及存储介质 - Google Patents
住院临床场景的预估方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113160992A CN113160992A CN202110658008.7A CN202110658008A CN113160992A CN 113160992 A CN113160992 A CN 113160992A CN 202110658008 A CN202110658008 A CN 202110658008A CN 113160992 A CN113160992 A CN 113160992A
- Authority
- CN
- China
- Prior art keywords
- hospitalization
- patient
- clinical
- days
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000036541 health Effects 0.000 claims abstract description 56
- 238000011282 treatment Methods 0.000 claims abstract description 20
- 239000003814 drug Substances 0.000 claims abstract description 16
- 229940079593 drug Drugs 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 33
- 238000003745 diagnosis Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 201000010099 disease Diseases 0.000 abstract description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 7
- 238000011156 evaluation Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 18
- 239000008280 blood Substances 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 7
- 206010014522 Embolism venous Diseases 0.000 description 6
- 208000004043 venous thromboembolism Diseases 0.000 description 6
- 206010012601 diabetes mellitus Diseases 0.000 description 5
- 239000003862 glucocorticoid Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002265 prevention Effects 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011269 treatment regimen Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002785 anti-thrombosis Effects 0.000 description 1
- 239000003146 anticoagulant agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000007395 thrombosis prophylaxis Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于病情评估技术领域,具体涉及一种住院临床场景的预估方法、系统、计算机设备及存储介质。本发明的设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤,包括:(1)数据清洗:提取患者的住院健康数据;(2)患者画像:根据住院健康数据构建特征;(3)临床场景的预估:将特征工程后得到的特征输入通过有监督的机器学习得到的预估模型,计算后得到用药方案、治疗方案或临床风险中的至少一种。本发明还提供用于住院临床场景的预估的系统。采用本发明的技术方案能够及时对住院患者的临床风险信息给出提示,提高管床医生的工作效率。具有很好的应用前景。
Description
技术领域
本发明属于病情评估技术领域,具体涉及一种住院临床场景的预估方法、系统、计算机设备及存储介质。
背景技术
住院患者的管理是医院诊疗的重要组成部分。实际临床实践中,住院患者通常由某一个专科医生(管床医生)处理。
但是,住院患者相对门诊和社区患者,具有病情相对复杂、病情变化更快的特点。对住院患者,合理的诊疗方案有赖于临床医生对住院患者病情(临床场景)的精准预估和多学科的合作。因而,对于住院患者,需要预估的情况非常复杂,往往超出了管床医生的专业范围。这种临床场景的预估包括对患者潜在发生的不良事件的预估(帮助临床医生预先处理)和拟接受某一治疗的预估(帮助其他学科团队协助诊治)。因此,在传统医疗运行模式中,需要引入大量多学科团队(MDT)和科间会诊帮助解决超出管床医生专业范围的医疗处理。
然而,由于管床医生的知识经验、决策状态和工作时间的限制,有时可能出现不能及时发现潜在临床风险的情况,从而造成严重临床后果。与此同时,不同的临床场景判断需要占据管床医生大量的时间精力,同时也高度取决于其临床知识和经验(临床场景的敏感性),造成了临床实践的低效性。
医院信息系统的出现,为解决上述问题提供了一种思路。中国发明专利申请“CN201910876793.6一种住院患者静脉血栓栓塞症防治医护交互系统”提供了一种住院患者静脉血栓栓塞症防治医护交互系统,有效收集住院患者VTE相关风险指标,评分后按标准预估VTE风险,给出预防建议并提呈医师做出进一步医嘱。然而,该专利申请的技术方案仅针对静脉血栓栓塞症(VTE)风险进行预估,其给出预估结论的依据来源于《抗栓治疗及预防血栓形成指南》,是一种基于规则的分类方法。这种方法的缺点是难以推广到其他疾病或具有其他潜在风险的住院患者的管理中。此外,上述交互系统中不存在时间变量,因而无法对住院患者某一天的风险进行具体的预估。
此外,目前也出现了一些基于数据驱动预测患者风险的系统。中国发明专利申请“CN202010738142.3 基于深度学习的手术并发症预测及规避辅助决策系统”提供了一种预测及规避辅助决策系统,其收集患者体格检查及化验相关数据、收集患者影像学相关数据、患者的历史病例和/或家族史病例的相关数据利用人工智能模块中的风险评估模块和智能决策模块对医生医护操作的风险进行评估。然而,该申请中的方案主要针对手术并发症的风险进行预测,因此其采集的数据并不能对各类具有不同临床场景的住院患者进行准确的风险预测。且该系统采集的数据同样缺少时间信息,导致其不能对住院患者某一天的风险进行具体的预估。
综上所述,现有的医院信息系统仍然无法帮助管床医生跨学科、高效地对住院患者的临床场景进行预估。
发明内容
针对现有技术中的缺陷,本发明提供一种住院临床场景的预估方法、系统、计算机设备及存储介质,其目的在于:提供一种能够对住院患者的临床场景进行实时预估的系统,利用该系统,管床医生能够获得患者住院过程中某一天的临床场景预估信息,从而克服由于管床医生跨学科、经验不足、精力不足和主观失误等原因造成的未能及时发现临床风险的问题,提高管床医生的工作效率。
一种住院临床场景的预估方法,其特征在于,包括以下步骤:
步骤1,数据清洗:确定获取患者住院健康数据的时域delta_days,所述时域delta_days的范围为自患者住院首日至预估需求日;确定获取患者标签的时域label_days,所述时域label_days的范围为预估需求日后的至少一日;提取所述时域delta_days内患者的住院健康数据;
步骤2,患者画像:根据步骤1得到的住院健康数据构建特征,并对特征进行特征工程;
步骤3,临床场景的预估:将步骤2特征工程后得到的特征输入通过有监督的机器学习得到的预估模型,计算后得到时域label_days内标签的预估结果,所述标签为用药方案、治疗方案或临床风险中的至少一种。
优选的,步骤1中,所述住院健康数据通过将所述患者的电子病历进行数据结构化后得到,所述住院健康数据具有时间信息,所述住院健康数据包括入院诊断数据、住院检验数据、住院诊断数据、指定药物数据和医嘱数据。
优选的,所述时域label_days的范围为预估需求日后的两日。
优选的,步骤2中,用于构建特征的住院健康数据通过如下方式选取:
步骤a,将所述住院健康数据按照时间顺序排序;
步骤b,取最早的1次住院健康数据和最晚的1-2次住院健康数据,用于构建特征。
优选的,步骤2中,所述构建特征的方法包括如下步骤:
步骤A,选取用于构建特征的所述住院健康数据,构成特征向量;
步骤B,加入新的字段,对所述特征向量的维度进行扩展,用于扩展维度的字段包括患者基本信息、所述时域delta_days内的住院检验次数或所述时域delta_days内的住院诊断次数;
优选的,所述患者基本信息包括年龄、性别和入院科室中的至少一种。
优选的,步骤2中,所述特征工程的方法包括如下步骤:
步骤Ⅰ,将将步骤2得到的特征与步骤1得到的标签组成集合;
步骤Ⅱ,样本均衡:采用上采样策略增加步骤Ⅰ中得到的集合中的少数类样本;
步骤Ⅲ,数据维归约:利用主成分分析算法对步骤Ⅱ处理后的集合中的特征进行转换,降低特征的维数,即得训练集。
优选的,所述模型为随机森林分类模型、逻辑回归模型、朴素贝叶斯模型、决策树模型、支持向量机模型或梯度提升树模型中的一种,优选为随机森林分类模型。
优选的,所述模型的构建方法包括如下步骤:
步骤3.1,数据清洗:采集训练样本,获取训练样本的住院健康数据的时域delta_days和时域label_days;
提取所述时域delta_days内训练样本的住院健康数据和时域label_days内训练样本的标签;
步骤3.2,患者画像:根据步骤3.1得到的住院健康数据构建特征,并对特征进行特征工程;
步骤3.3,构成训练集:将步骤3.2得到的特征与步骤3.1得到的标签构成模型的训练集;
步骤3.4,模型训练:利用步骤3.3得到的训练集进行有监督的机器学习,得到用于住院临床场景的模型。
优选的,步骤3.1中,将所述预估需求日作为滑动变量,从起始位置到终止位置递归选取住院健康数据和标签,所述起始位置为训练样本住院首日后两日,所述终止位置为训练样本出院前两日。
优选的,所述患者为糖尿病患者。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述方法的计算机程序。
一种计算机设备,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述住院临床场景的预估方法。
本发明还提供一种用于住院临床场景的预估系统,包括:上述计算机设备和服务器,所述服务器存储有患者的住院健康数据。
本发明中,“临床场景”是指由医生依据医学知识定义的一类患者的状况,其特点在于:1、患者在住院治疗前没有这样的病情、状况、用药需求或治疗需求;2、患者在住院治疗后,出现或可能出现的病情、状况、用药需求或治疗需求;3、通过患者的电子病例(例如:住院期间的用药历史、接受治疗的历史或发病历史)能够体现出这些潜在的病情、状况、用药需求或治疗需求。例如:针对糖尿病人的血糖波动的管理就是一种临床场景,针对住院患者的静脉血栓栓塞症防治也是一种临床场景。
“训练样本”是指过往历史住院患者,其住院健康数据和标签记录完整。在建模过程中所述“预估需求日”选自训练样本住院过程中的任意一日,对同一训练样本的住院数据,可将预估需求日作为滑动变量,从起始位置到终止位置递归选取住院健康数据和标签,从而增加用于训练模型的样本量。模型建立后,进行住院临床场景的预估时,“预估需求日”指管床医生独立完成或其他学科团队协助共同完成诊断或诊治的当日。所述诊断或诊治的目的是确定“预估需求日”后两日内患者的用药方案和/或治疗方案和/或临床风险。所述“住院健康数据”是指基于电子病历提取的患者自住院首日起接受的入院诊断数据、住院检验数据、住院诊断数据、指定药物数据和医嘱数据等与诊治疾病相关的所有数据。“数据结构化”是指按照建模需要的格式从电子病历中提取数据。
“delta_days”是本发明定义的一个时域,本发明的方法需要获取该时域范围内患者的住院健康数据,用于构建特征。时域“delta_days”的范围为自患者住院首日至预估需求日。
“label_days”是本发明定义的一个时域,本发明的方法用于预估该时域范围内的标签。时域“delta_days”的范围为为预估需求日后的至少一日,可根据临床需要确定具体的天数。本发明的技术方案达到了如下有益的效果:
1、临床医生(例如管床医生)对于病情的判断决定了住院患者的医疗质量。但临床医生往往由于时间、精力、知识经验的限制而不能很好的进行预估。通过本发明的设备和系统能够辅助临床医生对患者的病情进行预估,克服对住院患者的诊治中,单一临床医生的局限性。
2、在临床实践中,需要预估的临床场景太多。这也是让临床医生非常困扰的问题。而如果针对每个临床场景都开发相应的工具,效率会非常低下。本发明的模型在给定临床场景定义后,帮助临床医生快速构建某一特定临床场景的预测工具。适用于大多数医院电子病历系统。
3、优选方案中,利用主成分分析实现特征维归约,选用准确率高、鲁棒性好的随机森林分类模型,辅以网格搜索选择模型的最佳参数,构建得到具有较好预测准确度及泛化能力的病情评估模型。
4、对同一患者的住院数据,可将预估需求日作为滑动变量,从起始位置到终止位置递归选取住院健康数据和标签,从而涵盖所有临床场景、增加用于训练模型的样本量。
5、优选方案中,建模所用的特征通过最早的1次住院健康数据和最晚的1-2次住院健康数据构建,即能够保留最能够反映患者实际情况的数据,又避免了信息冗余及过期信息的干扰。
6、优选方案中,特征工程包括样本均衡和数据维归约,样本均衡能够避免少数类样本过少导致模型存在严重的偏向性,数据维归约能够降低数据的维度,减少重复或无用的信息。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明的流程示意图;
图2为本发明中时域delta_days和时域label_days的示意图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1
本实施例的系统包括计算机设备和服务器。计算机设备用于建模和/或运行利用模型预估临床风险的算法。服务器存储有患者的住院健康数据。
利用上述设备进行用于住院临床场景的模型构建,包括如下步骤:
1、数据清洗:
1)将患者的电子病历进行数据结构化后得到住院健康数据,所述住院健康数据具有时间信息,所述住院健康数据包括入院诊断数据、住院检验数据、住院诊断数据、指定药物数据和医嘱数据。
2)如图2所示,确定获取住院健康数据的时域delta_days,所述时域delta_days的范围为自患者住院首日至预估需求日;确定获取标签的时域label_days,所述时域label_days的范围为预估需求日后的两日;
提取所述时域delta_days内患者的住院健康数据和时域label_days内患者的标签;所述标签为用药方案、治疗方案或临床风险中的至少一种。
为了涵盖同一患者所有临床场景,同时达到扩展样本量的目的。将所述预估需求日作为滑动变量,从起始位置到终止位置递归选取住院健康数据和标签,所述起始位置为患者住院首日后两日,所述终止位置为患者出院前两日。
2、患者画像:
本步骤根据步骤1得到的住院健康数据构建特征。
1)通过如下方法选取数据:
(1.1)将所述住院健康数据按照时间顺序排序;
(1.2)取最早的1次住院健康数据和最晚的1-2次住院健康数据,用于构建特征。
2)通过如下方法将上述选取的数据构建成特征:
(2.1)将选取的住院健康数据构成特征向量;
(2.2)加入新的字段,对所述特征向量的维度进行扩展,用于扩展维度的字段包括患者基本信息、所述时域delta_days内的住院检验次数或所述时域delta_days内的住院诊断次数。
3、构成训练集:
1)将将得到的特征与标签组成集合;
2)样本均衡:采用上采样策略增加步骤1)中得到的集合中的少数类样本;
在实际的临床场景中,可能更加关注少数类样本的预估(例如在某些实例中:对于指定药物,使用指定药物样本与未使用指定药物样本比率约1:10)。构成训练集时,为了正确且尽可能多的捕捉少数类样本,避免因样本不均衡使得建立的模型存在严重的偏向性,本实施例使用上采样(over-sampling)策略进行样本均衡。上采样策略的算法可以根据现有技术实现,基本原理为在少数类样本x附近找到其K近邻的样本y,并通过以下公式生成新样本x’。
x’=x+λ×(y-x),λ是[0,1]上的随机数。
3)数据维归约:利用主成分分析算法对步骤2)处理后的集合中的特征进行转换,降低特征的维数,即得训练集。
该步骤按照数学变换方法,把全面的患者画像维度从高维空间数据点映射到低维空间中,然后用映射后到变量的特征来表示原有变量的总体特征。
所述数据维归约的算法能够根据现有技术实现。具体地,其数学变化方法的原理如下:一般地,有M个N维向量(例如由患者画像得到的M个特征向量,N个样本),想将其变为R(R小于M)个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,两个矩阵AB相乘积就是变换的结果。
PCA降维过程如下:
A)将原始数据按列组成n×m矩阵X(M个特征向量和N个样本);
B)将 X归一化处理;
C)求出协方差矩阵C=1/m(XX T);
D)求出协方差矩阵的特征值及对应的特征向量;
E)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前K行组成矩阵P;
Y=PX即为降维到K维后的数据。
F)是X的协方差矩阵,Y是X对P为基变换后(降维后)的数据矩阵。D为Y的协方差矩阵。两个协方差矩阵的关系如下:
D=1/m(YY T)=1/m(PX)(PX)T=PCP T
协方差矩阵C是一个对称矩阵,在线性代数中实对称矩阵有一系列非常好的性质:实对称矩阵不同特征值对应的特征向量必然正交;设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化。
对于PCA降维过程即要寻找一个矩阵P满足PCP T,且P为一个对角矩阵,并且对角元素从大到小依次排列。P的前K行就是满足寻找的基,用P的前K行组成的矩阵乘以X使得X从N维降到K维。
结合机器学习算法模型(此处使用随机森林分类模型),从1维到M维进行五折交叉验证,选取模型平均得分最高的那个维度即最佳维度,作为最终K维。
(4)模型训练:
本实施例采用集成算法随机森林分类模型(RFC Random Forest Classificationmodel)训练数据,辅以网格搜索工具选择最佳参数,结果在训练集和测试集分数均高达93%以上。
上述模型训练完成后,能够对住院患者的用药方案、治疗方案或临床风险进行预估。
实施例2
本实施例采用实施例1得到的系统及其构建的模型,对住院患者的临床风险进行预估。流程如图1所示,其步骤包括:
1、确定预估需求日和时域delta_days,采集患者的住院健康数据;
2、将所述住院健康数据构建成特征并进行特征工程后,输入实施例1得到的模型;
3、模型进行预估后输出结果供管床医生参考。
具体的,某管床医生拟给某糖尿病患者加用糖皮质激素,但他由于其知识限制没有意识到使用糖皮质激素后患者血糖会出现大幅波动。在传统的医疗模式下,该管床医生只有在观察到患者血糖大幅波动时才会联系糖尿病专科医生帮助管理血糖。而该策略让该患者不可避免的受到了血糖波动造成的损害。
采用本实施例的模型后,将糖尿病患者加用糖皮质激素的当日设定为“预估需求日”,能够预估糖皮质激素使用后两天之类患者的情况,并将该信息传递给糖尿病专科医生,这样在患者接受糖皮质激素治疗的同时获得了相应的血糖管理,避免了血糖波动。
实施例3
本实施例采用实施例1得到的系统及其构建的模型,对住院患者的临床风险进行预估。流程如图1所示,其步骤包括:
1、确定预估需求日和时域delta_days,采集患者的住院健康数据;
2、将所述住院健康数据构建成特征并进行特征工程后,输入实施例1得到的模型;
3、模型进行预估后输出结果供管床医生参考。
具体的,某管床医生查房时匆匆看了患者的检查报告,发现了其中一项指标的异常(指标异常可能提示严重临床后果,但单独一个指标关联性不大,很容易被忽视),但由于时间精力的限制,并没有过多关注(或者后来忘了)。而患者可能由于该忽视,而发生了严重的临床后果。
采用本实施例的模型后,每天都将当日设定为“预估需求日”,并对患者后两天的临床风险进行预估。则当出现可能导致严重临床后果的异常指标后,模型的预估结果将会给出风险提示,使管床医生重点关注。克服管床医生的时间、精力、学科知识和经验的局限性。
通过上述实施例可见,采用本发明的技术方案后,管床医生能够获得患者住院过程中某一天的临床场景预估信息,从而克服由于管床医生跨学科、经验不足、精力不足和主观失误等原因造成的未能及时发现临床风险的问题,提高管床医生的工作效率。具有很好的应用前景。
Claims (10)
1.一种住院临床场景的预估方法,其特征在于,包括以下步骤:
步骤1,数据清洗:确定获取患者住院健康数据的时域delta_days,所述时域delta_days的范围为自患者住院首日至预估需求日;确定获取患者标签的时域label_days,所述时域label_days的范围为预估需求日后的至少一日;提取所述时域delta_days内患者的住院健康数据;
步骤2,患者画像:根据步骤1得到的住院健康数据构建特征,并对特征进行特征工程;
步骤3,临床场景的预估:将步骤2特征工程后得到的特征输入通过有监督的机器学习得到的预估模型,计算后得到时域label_days内标签的预估结果,所述标签为用药方案、治疗方案或临床风险中的至少一种。
2.按照权利要求1所述的住院临床场景的预估方法,其特征在于:步骤1中,所述住院健康数据通过将所述患者的电子病历进行数据结构化后得到,所述住院健康数据具有时间信息,所述住院健康数据包括入院诊断数据、住院检验数据、住院诊断数据、指定药物数据和医嘱数据。
3.按照权利要求1所述的住院临床场景的预估方法,其特征在于:步骤2中,用于构建特征的住院健康数据通过如下方式选取:
步骤a,将所述住院健康数据按照时间顺序排序;
步骤b,取最早的1次住院健康数据和最晚的1-2次住院健康数据,用于构建特征;
步骤2中,所述构建特征的方法包括如下步骤:
步骤A,选取用于构建特征的所述住院健康数据,构成特征向量;
步骤B,加入新的字段,对所述特征向量的维度进行扩展,用于扩展维度的字段包括患者基本信息、所述时域delta_days内的住院检验次数或所述时域delta_days内的住院诊断次数;所述患者基本信息包括年龄、性别和入院科室中的至少一种。
4.按照权利要求1所述的住院临床场景的预估方法,其特征在于:步骤2中,所述特征工程的方法包括如下步骤:
步骤Ⅰ,将步骤2得到的特征与步骤1得到的标签组成集合;
步骤Ⅱ,样本均衡:采用上采样策略增加步骤Ⅰ中得到的集合中的少数类样本;
步骤Ⅲ,数据维归约:利用主成分分析算法对步骤Ⅱ处理后的集合中的特征进行转换,降低特征的维数,即得训练集。
5.按照权利要求1所述的住院临床场景的预估方法,其特征在于:所述预估模型为随机森林分类模型、逻辑回归模型、朴素贝叶斯模型、决策树模型、支持向量机模型或梯度提升树模型中的一种。
6.按照权利要求1或5所述的住院临床场景的预估方法,其特征在于,所述预估模型的构建方法包括如下步骤:
步骤3.1,数据清洗:采集训练样本,获取训练样本的住院健康数据的时域delta_days和时域label_days;
提取所述时域delta_days内训练样本的住院健康数据和时域label_days内训练样本的标签;
步骤3.2,患者画像:根据步骤3.1得到的住院健康数据构建特征,并对特征进行特征工程;
步骤3.3,构成训练集:将步骤3.2得到的特征与步骤步骤3.1得到的标签构成模型的训练集;
步骤3.4,模型训练:利用步骤3.3得到的训练集进行有监督的机器学习,得到用于住院临床场景的模型。
7.按照权利要求6所述的住院临床场景的预估方法,其特征在于:步骤3.1中,将所述预估需求日作为滑动变量,从起始位置到终止位置递归选取住院健康数据和标签,所述起始位置为训练样本住院首日后两日,所述终止位置为训练样本出院前两日。
8.一种计算机可读存储介质,其上存储有用于实现权利要求1-7任一项所述的住院临床场景的预估方法的计算机程序。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述的住院临床场景的预估方法。
10.一种用于住院临床场景的预估系统,其特征在于,包括:服务器和如权利要求9所述的计算机设备,所述服务器存储有患者的住院健康数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110658008.7A CN113160992A (zh) | 2021-06-15 | 2021-06-15 | 住院临床场景的预估方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110658008.7A CN113160992A (zh) | 2021-06-15 | 2021-06-15 | 住院临床场景的预估方法、系统、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113160992A true CN113160992A (zh) | 2021-07-23 |
Family
ID=76875846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110658008.7A Pending CN113160992A (zh) | 2021-06-15 | 2021-06-15 | 住院临床场景的预估方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160992A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358282A1 (en) * | 2010-12-29 | 2016-12-08 | Humana Inc. | Computerized system and method for reducing hospital readmissions |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN110347837A (zh) * | 2019-07-17 | 2019-10-18 | 电子科技大学 | 一种心血管疾病非计划再住院风险预测方法 |
-
2021
- 2021-06-15 CN CN202110658008.7A patent/CN113160992A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358282A1 (en) * | 2010-12-29 | 2016-12-08 | Humana Inc. | Computerized system and method for reducing hospital readmissions |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN110347837A (zh) * | 2019-07-17 | 2019-10-18 | 电子科技大学 | 一种心血管疾病非计划再住院风险预测方法 |
Non-Patent Citations (1)
Title |
---|
金玉苹 等: "《云数据背景下的高校智慧校园建设》", 31 August 2019 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11257579B2 (en) | Systems and methods for managing autoimmune conditions, disorders and diseases | |
CN113421652B (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
Al Jarullah | Decision tree discovery for the diagnosis of type II diabetes | |
US7899764B2 (en) | Medical ontologies for machine learning and decision support | |
Ahmed et al. | A multi-module case-based biofeedback system for stress treatment | |
Baker et al. | Continuous and automatic mortality risk prediction using vital signs in the intensive care unit: a hybrid neural network approach | |
DE112014000897T5 (de) | Lernende Gesundheitssysteme und -verfahren | |
CN114999629B (zh) | 一种基于多特征融合的ad早期预测方法、系统、装置 | |
CN108231146B (zh) | 一种基于深度学习的医疗记录模型构建方法、系统及装置 | |
CN107845424B (zh) | 诊断信息处理分析的方法和系统 | |
US20220028550A1 (en) | Methods for treatment of inflammatory bowel disease | |
Viton et al. | Heatmaps for visual explainability of cnn-based predictions for multivariate time series with application to healthcare | |
CN115131642B (zh) | 一种基于多视子空间聚类的多模态医学数据融合系统 | |
CN114023441A (zh) | 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法 | |
CN110767279A (zh) | 基于lstm的电子健康记录缺失数据补全方法及系统 | |
Chavva et al. | Deep learning applications for acute stroke management | |
Salvi et al. | Multi-modality approaches for medical support systems: A systematic review of the last decade | |
Mansouri | Application of Neural Networks in the Medical Field | |
Cheng et al. | Combining knowledge extension with convolution neural network for diabetes prediction | |
Chaturvedi et al. | An Innovative Approach of Early Diabetes Prediction using Combined Approach of DC based Bidirectional GRU and CNN | |
CN113160992A (zh) | 住院临床场景的预估方法、系统、计算机设备及存储介质 | |
Malgieri | Ontologies, Machine Learning and Deep Learning in Obstetrics | |
Xiao et al. | Intracerebral haemorrhage growth prediction based on displacement vector field and clinical metadata | |
CN113990502A (zh) | 一种基于异构图神经网络的icu心衰预测系统 | |
CN114098638A (zh) | 一种可解释的动态疾病严重程度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |