CN111508604A - 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 - Google Patents

一种急性肾损伤患者死亡率预测方法、服务器及存储介质 Download PDF

Info

Publication number
CN111508604A
CN111508604A CN202010312550.2A CN202010312550A CN111508604A CN 111508604 A CN111508604 A CN 111508604A CN 202010312550 A CN202010312550 A CN 202010312550A CN 111508604 A CN111508604 A CN 111508604A
Authority
CN
China
Prior art keywords
data
patient
random forest
training
mortality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010312550.2A
Other languages
English (en)
Inventor
余夏夏
黄浩梵
高毅
黄树华
刘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202010312550.2A priority Critical patent/CN111508604A/zh
Publication of CN111508604A publication Critical patent/CN111508604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例公开了一种急性肾损伤患者死亡率预测方法、装置、服务器及存储介质。该方法包括:根据待测患者的临床医疗数据生成特定结构的医疗特征数据;根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。

Description

一种急性肾损伤患者死亡率预测方法、服务器及存储介质
技术领域
本发明实施例涉及机器学习技术领域,尤其涉及一种急性肾损伤患者死亡率预测方法、装置、服务器及存储介质。
背景技术
急性肾脏损伤在住院患者中具有较高的发病率和死亡率。入院时对急性肾损伤患者进行风险分层对于更好地分配医疗资源并提供精确的个性化护理非常重要。但是,改善住院患者的死亡率预测仍然是一项重要的挑战。
传统的预测入院患者的生存率的方法,都是基于传统分析方法,包括SOFA、SAPSII、Elixhauser_sid30等。传统方法通常在一个或多个医学中心收集数据,再基于疾病专家的经验和统计方法(最常用的是逻辑回归)得到相关的变量,最后通过所得变量去构建并验证预测模型。然而这类方法存在如下问题:①由专家经验或统计分析得到的变量,会存在主观性与数据偏差;②影响急性肾损伤发生与发展的因素极为复杂,很难结合多维变量做统计分析;③这些方法并非专为急性肾损伤设计,且并非是为预测死亡率而设计,目前尚未存在有效的评分模型用以预测急性肾损伤患者的死亡率。因此虽然已经提出了许多严重程度评分,但是验证研究得出的结论是,它们不能准确预测急性肾损伤死亡率。
发明内容
本发明实施例提供一种急性肾损伤患者死亡率预测方法、装置、服务器及存储介质,以实现提高急性肾损伤患者死亡率预测的准确率。
第一方面,本发明实施例提供了一种急性肾损伤患者死亡率预测方法,包括:
根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
可选的,所述根据待测患者的临床医疗数据生成特定结构的医疗特征数据,包括:
获取待测患者的临床医疗数据;
判断所述临床医疗数据是否存在缺失值或异常值;
若是,则处理所述缺失值或异常值,得到处理后的临床医疗数据;
根据所述处理后的临床医疗数据生成特定结构的医疗特征数据。
可选的,在根据待测患者的临床医疗数据生成特定结构的医疗特征数据之前,还包括对多个基于不同住院时间长度的随机森林模型进行训练,所述对多个基于不同住院时间长度的随机森林模型进行训练,包括:
采集大量用户的历史临床医疗数据,将所述历史临床医疗数据分成训练输入数据和对应的训练输出数据,所述训练输入数据基于不同住院时间长度设置,所述训练输出数据和训练输入数据对应且基于预测住院时间段设置;
根据所述训练输入数据生成多个住院时间长度的历史医疗特征数据;
使用对应的所述训练输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的训练样本集;
将所述多个住院时间长度的训练样本集的每个历史医疗特征数据输入至对应住院时间长度的随机森林模型进行训练。
可选的,在对多个基于不同住院时间长度的随机森林模型进行训练之后,还包括对基于不同住院时间长度的随机森林模型进行检测,所述对基于不同住院时间长度的随机森林模型进行检测,包括:
采集大量未用作模型训练的用户的历史临床医疗数据,将所述历史临床医疗数据分成检测输入数据和对应的检测输出数据,所述检测输入数据基于不同住院时间长度设置,所述检测输出数据和检测输入数据对应且基于预测住院时间段设置;
根据所述检测输入数据生成多个住院时间长度的历史医疗特征数据;
使用对应的所述检测输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的检测样本集;
将所述多个住院时间长度的检测样本集的所有历史医疗特征数据输入至对应住院时间长度的随机森林模型进行预测,以输出检测数据的模型预测结果;
根据所述检测数据的模型预测结果与所述检测输出数据的匹配程度,确认每个住院时间长度的随机森林模型是否需要继续训练。
可选的,所述基于不同住院时间长度的随机森林模型包括预测住院期间是否存活的随机森林模型、预测住院后预设时间段内是否存活的随机森林模型。
可选的,在输出所述待测患者的死亡率之后,还包括:
使用AUROC对所述待测患者的死亡率的准确性进行评估。
可选的,所述临床医疗数据包括人口统计学数据和/或生命体征监测数据。
第二方面,本发明实施例还提供了一种急性肾损伤患者死亡率预测装置,包括:
数据生成单元,用于根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
数据预测单元,用于根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
第三方面,本发明实施例还提供了一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中任一所述的急性肾损伤患者死亡率预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中任一所述的急性肾损伤患者死亡率预测方法。
本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。
附图说明
图1是本发明实施例一中的一种急性肾损伤患者死亡率预测方法的流程示意图;
图2是本发明实施例一中的对多个基于不同住院时间长度的随机森林模型进行训练的流程示意图;
图3是本发明实施例一中的对多个基于不同住院时间长度的随机森林模型进行检测的流程示意图;
图4是本发明实施例二中的一种急性肾损伤患者死亡率预测装置的结构示意图;
图5是本发明实施例三中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一速度差值称为第二速度差值,且类似地,可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值,但其不是同一速度差值。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的一种急性肾损伤患者死亡率预测方法的流程示意图,本发明实施例可适用于急性肾损伤患者死亡率预测的情况。本发明实施例的方法可以由一种急性肾损伤患者死亡率预测装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可集成于服务器或终端设备中。参照图1,本发明实施例的一种急性肾损伤患者死亡率预测方法,具体包括如下步骤:
步骤S110、根据待测患者的临床医疗数据生成特定结构的医疗特征数据。
具体的,临床医疗数据是指患有急性肾损伤的待测患者的与预测死亡率相关的各种临床数据,包括人口统计学数据和/或生命体征监测数据。人口统计学数据包括年龄、性别、入院类型等等,生命体征监测数据包括红细胞计数、血清、白蛋白、血二氧化碳、胆红素、血尿素氮、血氯、血清肌酐、血球容积计、体温、血压、心率、重症指标等等。医疗特征数据是指用于输入预测模型的数据,根据预测模型的输入格式调整临床医疗数据生成的数据。
由于获取的临床医疗数据可能存在缺失值或异常值,因此需要对缺失值进行插值,或提取并处理异常值,使得最终对数据进行归一化处理。作为一可选实施例,步骤S110可替换为:
获取待测患者的临床医疗数据;
判断所述临床医疗数据是否存在缺失值或异常值;
若是,则处理所述缺失值或异常值,得到处理后的临床医疗数据;
根据所述处理后的临床医疗数据生成特定结构的医疗特征数据。
步骤S120、根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
具体的,随机森林模型是一种机器学习算法,能随机生成多棵决策树,每棵决策树都是一个分类器,会通过一系列决策对输入的数据进行预测,分配标签,最后随机森林模型的输出结果则通过决策树“投票”产生。预先训练好的随机森林模型可以有多个,包括预测住院期间是否存活的随机森林模型、预测住院后预设时间段内是否存活的随机森林模型。在生成特定结构的医疗特征数据之后,根据待测患者的生存状态和生存天数,输入不同住院时间长度的随机森林模型,输出待测患者的死亡率。
例如,根据待测患者的生存状态和生存天数,预先训练好的随机森林模型可以为三个,分别为:住院死亡率,28天死亡率和90天死亡率。模型1:住院内死亡vs.住院期间存活;模型2:住院后28天内死亡vs.28天后存活;模型3:住院后90天内死亡vs.90天后存活。三个预测模型的特征筛选、分类器训练与测试、结果评估的流程基本一致。可以理解的,本发明实施例的随机森林模型也可以根据需要替换成其它模型,本发明对此不作限定。
进一步的,在输出所述待测患者的死亡率之后,使用AUROC(The area under thereceiver operating characteristic)对所述待测患者的死亡率的准确性进行评估。例如,在本实施例中,使用机器学习方法训练模型,经测试可得结果:1、预测住院死亡率的AUROC值为0.916;2、预测28天死亡率的AUROC值为0.889;3、预测90天死亡率的AUROC值为0.883。
为了比较本发明与现有方法的预测效果,分别复现了已有研究中提到的关于急性肾损伤患者死亡率预测的模型,对同一批的数据进行预测。具体模型包括SOFA、SAPS II、Elixhauser_sid30,结果表现为AUROC,并分别与RF的预测结果比较。结果如下:
Figure BDA0002458210080000081
显然,本发明使用机器学习方法预测急性肾损伤患者死亡率,效果比现有方法好。
本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。
图2是本发明实施例一提供的随机森林模型的训练流程图。一般而言,在利用该训练模型来预测急性肾损伤患者死亡率之前,需要对随机森林模型进行训练,通过训练调整该模型的计算参数,使得在使用时预测得更准确。例如,将样本数据按9:1比列划分,90%用于训练模型,留出10%进行模型验证。如图2所示,对多个基于不同住院时间长度的随机森林模型进行训练包括:
步骤S210、采集大量用户的历史临床医疗数据,将所述历史临床医疗数据分成训练输入数据和对应的训练输出数据,所述训练输入数据基于不同住院时间长度设置,所述训练输出数据和训练输入数据对应且基于预测住院时间段设置。
具体的,训练输入数据基于不同住院时间长度设置,例如,根据待测患者的生存状态和生存天数,预先训练好的随机森林模型可以为三个,分别为:住院死亡率,28天死亡率和90天死亡率,训练输入数据基于这三个模型进行设置。
步骤S220、根据所述训练输入数据生成多个住院时间长度的历史医疗特征数据。
具体的,对用于训练的训练输入数据进行格式转化,使之能够分别输入不同的随机森林模型进行训练。例如,利用随机森林分类器对大样本数据进行第一次变量筛选,通过5轮8折交叉验证得到每一次训练分类器所输出的重要程度前50的特征变量,选取40次结果中都排名前50的变量作为第一次筛选的最终特征变量;然后将第一次筛选所得变量进行逻辑回归分析,选取显著特征(p<0.1)为第二次筛选所得特征变量;最后删除第二次筛选所得变量中与AKI死亡率强相关的特征变量,并加入由医生所挑选的特征变量作为最终训练模型所用特征变量。这样做的目的是可以降低数据冗余,减少模型计算,找出更有意义的特征,提高了特征变量的可解释性。
步骤S230、使用对应的所述训练输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的训练样本集。
步骤S240、将所述多个住院时间长度的训练样本集的每个历史医疗特征数据输入至对应住院时间长度的随机森林模型进行训练。
在本发明实施例中,训练模型采用网格寻优的方法来寻找模型的最佳参数组合(RF的参数包括n_estimators,criterion,min_sample_leaf等)。网格寻优过程中采用10折交叉验证来循环测试各个参数组合,当所有参数组合都测试完成,会用搜索得到的最佳参数组合和全部训练数据重新训练一个模型,这个模型就是最终用于输出测试的模型。
图3是本发明实施例一提供的随机森林模型的检测流程图。在对多个基于不同住院时间长度的随机森林模型进行训练之后,还包括对基于不同住院时间长度的随机森林模型进行检测。如图3所示,对基于不同住院时间长度的随机森林模型进行检测,包括:
步骤S310、采集大量未用作模型训练的用户的历史临床医疗数据,将所述历史临床医疗数据分成检测输入数据和对应的检测输出数据,所述检测输入数据基于不同住院时间长度设置,所述检测输出数据和检测输入数据对应且基于预测住院时间段设置。
具体的,检测输入数据基于不同住院时间长度设置,例如,根据待测患者的生存状态和生存天数,预先训练好的随机森林模型可以为三个,分别为:住院死亡率,28天死亡率和90天死亡率,检测输入数据基于这三个模型进行设置。
步骤S320、根据所述检测输入数据生成多个住院时间长度的历史医疗特征数据。
具体的,对用于检测的检测输入数据进行格式转化,使之能够分别输入不同的深度学习回归模型进行检测。
步骤S330、使用对应的所述检测输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的检测样本集。
步骤S340、将所述多个住院时间长度的检测样本集的所有历史医疗特征数据输入至对应住院时间长度的随机森林模型进行预测,以输出检测数据的模型预测结果。
步骤S350、根据所述检测数据的模型预测结果与所述检测输出数据的匹配程度,确认每个住院时间长度的随机森林模型是否需要继续训练。
本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。
实施例二
本发明实施例二所提供的一种急性肾损伤患者死亡率预测装置可执行本发明任意实施例所提供的一种急性肾损伤患者死亡率预测方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件(集成电路)的方式实现,并一般可集成于服务器或终端设备中。图4是本发明实施例二中的一种急性肾损伤患者死亡率预测装置400的结构示意图。参照图4,本发明实施例的一种急性肾损伤患者死亡率预测装置400具体可以包括:
数据生成单元410,用于根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
数据预测单元420,用于根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
可选的,所述数据生成单元410还用于:
获取待测患者的临床医疗数据;
判断所述临床医疗数据是否存在缺失值或异常值;
若是,则处理所述缺失值或异常值,得到处理后的临床医疗数据;
根据所述处理后的临床医疗数据生成特定结构的医疗特征数据。
可选的,该装置还包括随机森林模型训练单元,所述随机森林模型训练单元包括:
训练采集子单元,用于采集大量用户的历史临床医疗数据,将所述历史临床医疗数据分成训练输入数据和对应的训练输出数据,所述训练输入数据基于不同住院时间长度设置,所述训练输出数据和训练输入数据对应且基于预测住院时间段设置;
训练生成子单元,用于根据所述训练输入数据生成多个住院时间长度的历史医疗特征数据;
样本生成子单元,用于使用对应的所述训练输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的训练样本集;
训练输入子单元,用于将所述多个住院时间长度的训练样本集的每个历史医疗特征数据输入至对应住院时间长度的随机森林模型进行训练。
可选的,该装置还包括随机森林模型检测单元,所述随机森林模型检测单元包括:
检测采集子单元,用于采集大量未用作模型训练的用户的历史临床医疗数据,将所述历史临床医疗数据分成检测输入数据和对应的检测输出数据,所述检测输入数据基于不同住院时间长度设置,所述检测输出数据和检测输入数据对应且基于预测住院时间段设置;
检测生成子单元,用于根据所述检测输入数据生成多个住院时间长度的历史医疗特征数据;
检测样本子单元,用于使用对应的所述检测输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的检测样本集;
检测输入子单元,用于将所述多个住院时间长度的检测样本集的所有历史医疗特征数据输入至对应住院时间长度的随机森林模型进行预测,以输出检测数据的模型预测结果;
检测确认子单元,用于根据所述检测数据的模型预测结果与所述检测输出数据的匹配程度,确认每个住院时间长度的随机森林模型是否需要继续训练。
可选的,所述基于不同住院时间长度的随机森林模型包括预测住院期间是否存活的随机森林模型、预测住院后预设时间段内是否存活的随机森林模型。
可选的,该装置还包括评估单元,用于使用AUROC对所述待测患者的死亡率的准确性进行评估。
可选的,所述临床医疗数据包括人口统计学数据和/或生命体征监测数据。
本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。
实施例三
图5为本发明实施例三提供的一种服务器的结构示意图,如图5所示,该服务器包括处理器510、存储器520、输入装置530和输出装置540;服务器中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;服务器中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的急性肾损伤患者死亡率预测方法对应的程序指令/模块(例如,急性肾损伤患者死亡率预测装置400中的数据生成单元410和数据预测单元420)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的急性肾损伤患者死亡率预测方法。
也即:
根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
当然,本发明实施例所提供的服务器,其处理器不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的急性肾损伤患者死亡率预测方法中的相关操作。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种急性肾损伤患者死亡率预测方法,该方法包括:
根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的急性肾损伤患者死亡率预测方法中的相关操作。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例的技术方案,通过随机森林模型预测急性肾损伤患者死亡率,利用结构化的临床数据进行训练,结合逻辑回归算法校准模型,有效避免了模糊不清的临床定义和数据采集的偏差,提高了急性肾损伤患者死亡率预测的准确率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种急性肾损伤患者死亡率预测方法,其特征在于,包括:
根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
2.根据权利要求1所述的急性肾损伤患者死亡率预测方法,其特征在于,所述根据待测患者的临床医疗数据生成特定结构的医疗特征数据,包括:
获取待测患者的临床医疗数据;
判断所述临床医疗数据是否存在缺失值或异常值;
若是,则处理所述缺失值或异常值,得到处理后的临床医疗数据;
根据所述处理后的临床医疗数据生成特定结构的医疗特征数据。
3.根据权利要求1所述的急性肾损伤患者死亡率预测方法,其特征在于,在根据待测患者的临床医疗数据生成特定结构的医疗特征数据之前,还包括对多个基于不同住院时间长度的随机森林模型进行训练,所述对多个基于不同住院时间长度的随机森林模型进行训练,包括:
采集大量用户的历史临床医疗数据,将所述历史临床医疗数据分成训练输入数据和对应的训练输出数据,所述训练输入数据基于不同住院时间长度设置,所述训练输出数据和训练输入数据对应且基于预测住院时间段设置;
根据所述训练输入数据生成多个住院时间长度的历史医疗特征数据;
使用对应的所述训练输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的训练样本集;
将所述多个住院时间长度的训练样本集的每个历史医疗特征数据输入至对应住院时间长度的随机森林模型进行训练。
4.根据权利要求3所述的急性肾损伤患者死亡率预测方法,其特征在于,在对多个基于不同住院时间长度的随机森林模型进行训练之后,还包括对基于不同住院时间长度的随机森林模型进行检测,所述对基于不同住院时间长度的随机森林模型进行检测,包括:
采集大量未用作模型训练的用户的历史临床医疗数据,将所述历史临床医疗数据分成检测输入数据和对应的检测输出数据,所述检测输入数据基于不同住院时间长度设置,所述检测输出数据和检测输入数据对应且基于预测住院时间段设置;
根据所述检测输入数据生成多个住院时间长度的历史医疗特征数据;
使用对应的所述检测输出数据对所述历史医疗特征数据进行标记,以生成多个住院时间长度的检测样本集;
将所述多个住院时间长度的检测样本集的所有历史医疗特征数据输入至对应住院时间长度的随机森林模型进行预测,以输出检测数据的模型预测结果;
根据所述检测数据的模型预测结果与所述检测输出数据的匹配程度,确认每个住院时间长度的随机森林模型是否需要继续训练。
5.根据权利要求4所述的急性肾损伤患者死亡率预测方法,其特征在于,所述基于不同住院时间长度的随机森林模型包括预测住院期间是否存活的随机森林模型、预测住院后预设时间段内是否存活的随机森林模型。
6.根据权利要求1所述的急性肾损伤患者死亡率预测方法,其特征在于,在输出所述待测患者的死亡率之后,还包括:
使用AUROC对所述待测患者的死亡率的准确性进行评估。
7.根据权利要求1所述的急性肾损伤患者死亡率预测方法,其特征在于,所述临床医疗数据包括人口统计学数据和/或生命体征监测数据。
8.一种急性肾损伤患者死亡率预测装置,其特征在于,包括:
数据生成单元,用于根据待测患者的临床医疗数据生成特定结构的医疗特征数据;
数据预测单元,用于根据所述待测患者的生存状态和生存天数选择对应的预先训练好的随机森林模型,将所述待测患者的所述医疗特征数据输入所述对应的预先训练好的随机森林模型,输出所述待测患者的死亡率。
9.一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述的急性肾损伤患者死亡率预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一所述的急性肾损伤患者死亡率预测方法。
CN202010312550.2A 2020-04-20 2020-04-20 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 Pending CN111508604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312550.2A CN111508604A (zh) 2020-04-20 2020-04-20 一种急性肾损伤患者死亡率预测方法、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312550.2A CN111508604A (zh) 2020-04-20 2020-04-20 一种急性肾损伤患者死亡率预测方法、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN111508604A true CN111508604A (zh) 2020-08-07

Family

ID=71877747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312550.2A Pending CN111508604A (zh) 2020-04-20 2020-04-20 一种急性肾损伤患者死亡率预测方法、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111508604A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968750A (zh) * 2020-10-23 2020-11-20 平安科技(深圳)有限公司 一种服务器、数据处理方法、装置及可读存储介质
CN113012814A (zh) * 2021-03-10 2021-06-22 浙江大学医学院附属邵逸夫医院 一种急性肾损伤容量反应性预测方法及系统
CN113017831A (zh) * 2021-02-26 2021-06-25 上海鹰瞳医疗科技有限公司 人工晶体植入术后拱高预测方法及设备
CN113299390A (zh) * 2021-05-20 2021-08-24 广东省科学院智能制造研究所 一种急性肾损伤患者院内死亡率预测系统及方法
CN113487949A (zh) * 2021-07-02 2021-10-08 深圳大学 体外诊断仿真系统及方法
CN113903458A (zh) * 2021-10-26 2022-01-07 北京大学第三医院(北京大学第三临床医学院) 急性肾损伤早期预测方法及装置
CN114883010A (zh) * 2022-04-26 2022-08-09 深圳市中融数字科技有限公司 牲畜存亡状态判别方法、装置、存储介质及终端设备
CN115458158A (zh) * 2022-09-23 2022-12-09 深圳大学 一种针对脓毒症患者的急性肾损伤预测系统
CN117334335A (zh) * 2023-10-10 2024-01-02 香港理工大学深圳研究院 一种基于机器学习的临床前骨质疏松筛查方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399951A (zh) * 2018-03-12 2018-08-14 东南大学 呼吸机相关性肺炎决策辅助方法、装置、设备及介质
CN108511057A (zh) * 2018-02-28 2018-09-07 北京和兴创联健康科技有限公司 输血量模型建立及预测方法、装置、设备及其存储介质
CN109872819A (zh) * 2019-01-30 2019-06-11 杭州脉兴医疗科技有限公司 一种基于重症监护检测项的急性肾损伤发病概率预测系统
CN110051324A (zh) * 2019-03-14 2019-07-26 深圳大学 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN110349666A (zh) * 2019-07-04 2019-10-18 南京工业大学 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法
CN110457576A (zh) * 2019-07-08 2019-11-15 深圳壹账通智能科技有限公司 账户分类方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108511057A (zh) * 2018-02-28 2018-09-07 北京和兴创联健康科技有限公司 输血量模型建立及预测方法、装置、设备及其存储介质
CN108399951A (zh) * 2018-03-12 2018-08-14 东南大学 呼吸机相关性肺炎决策辅助方法、装置、设备及介质
CN109872819A (zh) * 2019-01-30 2019-06-11 杭州脉兴医疗科技有限公司 一种基于重症监护检测项的急性肾损伤发病概率预测系统
CN110051324A (zh) * 2019-03-14 2019-07-26 深圳大学 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN110349666A (zh) * 2019-07-04 2019-10-18 南京工业大学 一种基于iabc-rf的icu心力衰竭患者死亡率的预测方法
CN110457576A (zh) * 2019-07-08 2019-11-15 深圳壹账通智能科技有限公司 账户分类方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEO ANTHONY G. CELI .ECT: "A Clinical Database-Driven Approach to Decision Support: Predicting Mortality Among Patients with Acute Kidney Injury", vol. 2, no. 2, pages 1 - 6 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968750A (zh) * 2020-10-23 2020-11-20 平安科技(深圳)有限公司 一种服务器、数据处理方法、装置及可读存储介质
CN113017831A (zh) * 2021-02-26 2021-06-25 上海鹰瞳医疗科技有限公司 人工晶体植入术后拱高预测方法及设备
CN113012814A (zh) * 2021-03-10 2021-06-22 浙江大学医学院附属邵逸夫医院 一种急性肾损伤容量反应性预测方法及系统
CN113299390A (zh) * 2021-05-20 2021-08-24 广东省科学院智能制造研究所 一种急性肾损伤患者院内死亡率预测系统及方法
CN113487949A (zh) * 2021-07-02 2021-10-08 深圳大学 体外诊断仿真系统及方法
CN113903458A (zh) * 2021-10-26 2022-01-07 北京大学第三医院(北京大学第三临床医学院) 急性肾损伤早期预测方法及装置
CN114883010A (zh) * 2022-04-26 2022-08-09 深圳市中融数字科技有限公司 牲畜存亡状态判别方法、装置、存储介质及终端设备
CN115458158A (zh) * 2022-09-23 2022-12-09 深圳大学 一种针对脓毒症患者的急性肾损伤预测系统
CN115458158B (zh) * 2022-09-23 2023-09-15 深圳大学 一种针对脓毒症患者的急性肾损伤预测系统
CN117334335A (zh) * 2023-10-10 2024-01-02 香港理工大学深圳研究院 一种基于机器学习的临床前骨质疏松筛查方法

Similar Documents

Publication Publication Date Title
CN111508604A (zh) 一种急性肾损伤患者死亡率预测方法、服务器及存储介质
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
CN111128391B (zh) 一种信息处理设备、方法和存储介质
JP2019185751A (ja) 特徴量準備の方法、システム及びプログラム
CN111145905A (zh) 目标决策模型构建方法及装置、电子设备、存储介质
CN113886716B (zh) 食品安全突发事件的应急处置推荐方法及系统
CN111883222A (zh) 文本数据的错误检测方法、装置、终端设备及存储介质
EP3718116B1 (en) Apparatus for patient data availability analysis
CN111383768B (zh) 医疗数据回归分析方法、装置、电子设备及计算机可读介质
CN115346686A (zh) 关系图谱生成方法及装置、存储介质及电子设备
CN113242213B (zh) 一种电力通信骨干网节点脆弱性诊断方法
CN111161884A (zh) 针对不平衡数据的疾病预测方法、装置、设备及介质
CN111291131A (zh) 数据处理方法、装置、存储介质及电子设备
US20200279148A1 (en) Material structure analysis method and material structure analyzer
CN116168403A (zh) 医疗数据分类模型训练方法、分类方法、装置及相关介质
CN115994093A (zh) 测试用例推荐方法和装置
Özkan et al. Effect of data preprocessing on ensemble learning for classification in disease diagnosis
CN114639072A (zh) 人流量信息生成方法、装置、电子设备和计算机可读介质
CN114566280A (zh) 用户状态预测方法、装置、电子设备及存储介质
CN111949867A (zh) 跨app的用户行为分析模型训练方法、分析方法及相关设备
Costa et al. Adaptive learning models evaluation in Twitter’s timelines
CN111311175A (zh) 评残条款智能预测方法、装置、计算机设备及存储介质
US20230238139A1 (en) Method and system for diagnostic analyzing
US20220208356A1 (en) Radiological Based Methods and Systems for Detection of Maladies
CN116992861B (zh) 基于数据处理的医疗服务智慧处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination