CN115775633A

CN115775633A - 基于多维数据的死亡率实时预测方法、系统及电子设备

Info

Publication number: CN115775633A
Application number: CN202310092278.5A
Authority: CN
Inventors: 王玥; 涂燕晖; 程海博
Original assignee: Shandong Future Network Research Institute Industrial Internet Innovation Application Base Of Zijinshan Laboratory
Current assignee: Shandong Future Network Research Institute Industrial Internet Innovation Application Base Of Zijinshan Laboratory
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-03-10
Anticipated expiration: 2043-02-10
Also published as: CN115775633B

Abstract

本发明属于死亡率预测技术领域，公开了基于多维数据的死亡率实时预测方法、系统及电子设备。所述方法包括：获取若干类时序变量及非时序变量；基于第一随机森林模型获取目标时序变量及目标非时序变量；获取与目标时序变量相应的各时序历史数据及第一标签作为时序训练样本，与目标非时序变量相应的非时序历史数据及第二标签作为非时序训练样本；基于时序训练样本训练得到目标注意力LSTM模型，并基于非时序训练样本迭代训练得到目标第二随机森林模型；基于目标注意力LSTM模型及目标第二随机森林模型得到自当前时刻后目标时段内的实时死亡率。本发明基于多维数据，结合注意力LSTM和随机森林算法进行死亡率实时预测，提高了预测准确性。

Description

基于多维数据的死亡率实时预测方法、系统及电子设备

技术领域

本发明涉及死亡率预测技术领域，具体涉及基于多维数据的死亡率实时预测方法、系统及电子设备。

背景技术

死亡率预测是ICU临床实践中的重要课题。目前，死亡率预测手段分为两种，一种为基于医学专家经验及回归分析的传统生物统计预测方法，另一种为基于人工智能的预测方法。

其中，由于所述传统生物统计预测方法需要人工定义风险因素，且建立在线性模型的基础上，因此预测结果的主观性高且准确度低。因此开始有些研究通过人工智能来预测死亡率。但现有的基于人工智能的预测方法在实际使用时仍具有以下缺陷：

首先，现有的基于人工智能的预测方法多进行ICU患者的死亡率固定预测，即只基于患者进入ICU后一段时间内(一般为24小时或48小时)的监测数据进行一次死亡率预测。但对于患者而言，其生命特征是处于实时变化的，而该类固定预测的死亡率往往与患者的实际情况存在较大的误差。其次，现有的基于人工智能的预测方法多倾向于采用ICU设备获取的呼吸频率、心率等时序数据，而忽略了与生命状态密切相关的非时序数据；也导致预测的固定死亡率存在较大的误差。再者，虽然也有部分基于人工智能的预测方法同时采用了时序数据和非时序数据进行死亡率预测，但未考虑采用的人工智能模型对数据类型的敏感性，如部分神经网络模型无法同时适用于时序数据和非时序数据，进而导致同时考虑时序数据和非时序数据得到的死亡率固定预测结果却低于仅考虑时序数据得到的死亡率固定预测结果。

发明内容

本发明目的在于提供基于多维数据的死亡率实时预测方法、系统及电子设备，以改善当前基于人工智能的预测方法进行ICU死亡率预测时仍存在的预测准确率低的技术问题。

为达成上述目的，本发明提出如下技术方案：

基于多维数据的死亡率实时预测方法，包括：

获取若干类时序变量及非时序变量；

输入所述所有类型的时序变量及非时序变量相应的变量数据至第一随机森林模型以获取每类所述时序变量及非时序变量的重要度；并以重要度大于预设阈值的各类所述时序变量及各类所述非时序变量分别作为目标时序变量及目标非时序变量；

获取若干感兴趣的时间点前溯预设时段内的与各类所述目标时序变量相应的各时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述时序历史数据的第一标签作为时序训练样本；并获取若干感兴趣的时间点前溯预设时段内的与各类所述目标非时序变量相应的各非时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述非时序历史数据的第二标签作为非时序训练样本；其中，与未死亡患者相应的第一标签及第二标签均为0，与死亡患者相应的第一标签及第二标签均为1；

以各类目标时序变量的重要度作为权重对每一所述时序训练样本中的各时序历史数据进行加权处理，并基于各加权处理结果对注意力LSTM模型进行迭代训练以获取目标注意力LSTM模型；基于所述非时序训练样本进行第二随机森林模型的迭代训练以获取目标第二随机森林模型；

获取当前时刻前溯预设时段内的与各类所述目标时序变量相应的各时序实时数据的加权处理结果输入至所述目标注意力LSTM模型以得到当前时刻后目标时段内的第一死亡率，获取当前时刻前溯预设时段内的与各类所述目标非时序变量相应的各非时序实时数据输入至所述目标第二随机森林模型以得到当前时刻后目标时段内的第二死亡率；

以各所述目标时序变量的重要度之和作为所述目标注意力LSTM模型的第一模型权重，以各所述目标非时序变量的重要度之和作为所述目标第二随机森林模型的第二模型权重；进而以所述第一模型权重作为第一死亡率的权重，以所述第二模型权重作为第二死亡率的权重，并求解两者的加权和以作为自当前时刻后目标时段内的实时死亡率。

进一步的，其特征在于，

所述各类时序变量包括各类ICU设备监测变量及各类用药变量；

所述各类非时序变量包括各类实验室检查变量、各类人口统计学变量、各类住院信息变量及各类手术信息变量。

进一步的，所述获取若干感兴趣的时间点前溯预设时段内的与各类所述目标时序变量相应的各时序历史数据，及获取若干感兴趣的时间点前溯预设时段内的与各类所述目标非时序变量相应的各非时序历史数据；包括：

基于one-hot编码将所述时序历史数据及非时序历史数据中的定性数据转换为定量数据；

判断数据存在缺失时，基于极大似然估计法对缺失数据量小于数据阈值的时序历史数据及非时序历史数据进行数据补全，基于相邻时间点数据对缺失数据量大于数据阈值且小于总数据量的时序历史数据及非时序历史数据进行数据补全，基于正常值对缺失数据量为总数据量的时间历史数据及非时序历史数据进行数据补全；

对各补全后的时序历史数据，及各补全后的非时序历史数据均进行归一化处理。

进一步的，所述基于所述非时序训练样本进行第二随机森林模型的迭代训练以获取目标第二随机森林模型，包括：

基于所述非时序训练样本分别构建训练集及验证集；

基于所述训练集进行所述第二随机森林模型的训练，并基于验证集对训练后的第二随机森林模型进行验证；

重复上述过程直至得到所述目标第二随机森林模型。

进一步的，包括：

若所述实时死亡率大于预设的死亡率阈值，则发送预警信息，并推送异常偏差最大的时序实时数据或非时序实时数据至控制端。

基于多维数据的死亡率实时预测系统，包括：

第一获取模块，用于获取若干类时序变量及非时序变量；

第二获取模块，用于输入所述所有类型的时序变量及非时序变量相应的变量数据至第一随机森林模型以获取每类所述时序变量及非时序变量的重要度；并以重要度大于预设阈值的各类所述时序变量及各类所述非时序变量分别作为目标时序变量及目标非时序变量；

第三获取模块，用于获取若干感兴趣的时间点前溯预设时段内的与各类所述目标时序变量相应的各时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述时序历史数据的第一标签作为时序训练样本；并获取若干感兴趣的时间点前溯预设时段内的与各类所述目标非时序变量相应的各非时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述非时序历史数据的第二标签作为非时序训练样本；其中，与未死亡患者相应的第一标签及第二标签均为0，与死亡患者相应的第一标签及第二标签均为1；

模型训练模块，用于以各类目标时序变量的重要度作为权重对每一所述时序训练样本中的各时序历史数据进行加权处理，并基于各加权处理结果对注意力LSTM模型进行迭代训练以获取目标注意力LSTM模型；基于所述非时序训练样本进行第二随机森林模型的迭代训练以获取目标第二随机森林模型；

死亡率预测模块，用于获取当前时刻前溯预设时段内的与各类所述目标时序变量相应的各时序实时数据的加权处理结果输入至所述目标注意力LSTM模型以得到当前时刻后目标时段内的第一死亡率，获取当前时刻前溯预设时段内的与各类所述目标非时序变量相应的各非时序实时数据输入至所述目标第二随机森林模型以得到当前时刻后目标时段内的第二死亡率；

实时死亡率输出模块，用于以各所述目标时序变量的重要度之和作为所述目标注意力LSTM模型的第一模型权重，以各所述目标非时序变量的重要度之和作为所述目标第二随机森林模型的第二模型权重；进而以所述第一模型权重作为第一死亡率的权重，以所述第二模型权重作为第二死亡率的权重，并求解两者的加权和以作为自当前时刻后目标时段内的实时死亡率。

进一步的，所述第二获取模块包括：

转换单元，用于基于one-hot编码将所述时序历史数据及非时序历史数据中的定性数据转换为定量数据；

补全单元，用于判断数据存在缺失时，基于极大似然估计法对缺失数据量小于数据阈值的时序历史数据及非时序历史数据进行数据补全，基于相邻时间点数据对缺失数据量大于数据阈值且小于总数据量的时序历史数据及非时序历史数据进行数据补全，基于正常值对缺失数据量为总数据量的时间历史数据及非时序历史数据进行数据补全；

归一化单元，用于对各补全后的时序历史数据，及各补全后的非时序历史数据均进行归一化处理。

进一步的，所述模型训练模块包括：

集合构建单元，用于基于所述非时序训练样本分别构建训练集及验证集；

迭代训练单元，用于基于所述训练集进行所述第二随机森林模型的训练，并基于验证集对训练后的第二随机森林模型进行验证；

循环单元，用于重复调用上述单元直至得到所述目标第二随机森林模型。

进一步的，包括：

后处理模块，用于在所述实时死亡率大于预设的死亡率阈值时，则发送预警信息，并推送异常偏差最大的时序实时数据或非时序实时数据至控制端。

一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通讯连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的预测方法。

有益效果：

由以上技术方案可知，本发明的技术方案提供了一种基于多维数据的死亡率实时预测方法，以改善现有基于人工智能算法进行死亡率预测时准确率低的技术缺陷。

与现有技术仅进行一次死亡率固定预测相比，本技术方案为了提高死亡率的预测准确性，进行了死亡率的实时预测，即基于前溯预设时段内的数据对当前时刻后目标时段内的死亡率进行即时预测。此时将随着时间推移在每一时刻进行连续的死亡率预测，进而使死亡率的预测与患者的实时生命状态相关，从根本上提高了预测的准确性。

同时，为了在预测过程中消除与预测模型相关的预测误差，进一步提高预测准确性。首先，同时引入了时序变量和非时序变量，并考虑到各类变量对预测结果的影响程度，基于第一随机森林模型对各类所述时序变量和非时序变量进行了重要度获取，最终保留了重要度高的时序变量作为目标时序变量，及重要度高的非时序变量作为目标非时序变量；进而在后续预测中消除了相关性较低的时序变量或非时序变量的干扰，提高了预测准确性；还有利于提高预测效率。其次，考虑到不同类型的人工智能算法对不同类型的目标变量的敏感性，同时引入了注意力LSTM算法及随机森林算法，并通过目标注意力LSTM模型基于与目标时序变量相应的时序实时数据进行第一死亡率预测，通过第二随机森林模型基于与目标非时序变量相应的非时序实时数据进行第二死亡率预测。同时，在通过目标注意力LSTM模型进行第一死亡率预测时，以各时序实时数据的重要度加权作为注意力机制，以提高基于关注度更高的目标时序变量进行预测时的准确性。最终，在实时死亡率获取时，还考虑了目标注意力LSTM模型及目标第二随机森林模型的模型权重，提高所述实时死亡率的合理性。

进而使本技术方案从总体上提高了基于人工智能进行死亡率预测时的准确性。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1 为本实施例所述的基于多维数据的死亡率实时预测方法的流程图；

图2 为进行历史数据预处理的流程图；

图3 为进行第二随机森林模型训练的流程图；

图4 为基于实时死亡率进行后处理的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样, 除非上下文清楚地指明其它情况，否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件, 并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

目前的ICU死亡率预测虽然多采用人工智能算法进行，但由于多进行死亡率的固定预测，且在预测过程中倾向于仅考虑时序变量；而在同时考虑时序变量和非时序变量时又未考虑各类人工智能算法对各类变量的敏感性。进而导致目前基于人工智能算法的死亡率预测准确率较低，难以为医疗救助等提供更为客观有效的参考。因此本实施例旨在提供一种基于多维数据的死亡率实时预测方法、系统及电子设备，以改善现有技术仍存在的死亡率预测准确性低的技术问题。

下面结合附图，对本实施例公开的基于多维数据的死亡率实时预测方法作进一步介绍。

如图1所示，所述方法包括如下步骤：

步骤S102、获取若干类时序变量及非时序变量。

本实施例中，所述各类时序变量包括各类ICU设备监测变量及各类用药变量；所述各类非时序变量包括各类实验室检查变量、各类人口统计学变量、各类住院信息变量及各类手术信息变量。

为了避免相关性较低的时序变量或非时序变量对预测结果造成干扰，继续进行如下步骤：

步骤S104、基于第一随机森林模型获取若干类目标时序变量及目标非时序变量。

在具体实施时，首先基于所有时序变量及非时序变量相应的变量数据对原始第一随机森林模型进行训练，然后通过对训练好的所述第一随机森林模型进行解析，可以获取每个时序变量或非时序变量的重要度。并以重要度大于预设阈值的各类所述时序变量及各类所述非时序变量分别作为目标时序变量及目标非时序变量。

本实施例中，最终获取的目标时序变量包括：

(1)ICU设备监测变量中的如下各类变量：呼吸频率、吸呼比、呼末二氧化碳分压、峰压、平台压、平均气道压、支持压力、呼气末正压、氧浓度、上升时间、吸气压力、吸气时间、呼吸频率、潮气量、CRRT跨膜压、CRRT过滤器压力、CRRT脱水量、CRRT运行时间、心率、脉搏频率、有创血压、无创血压、平均血压、脉氧饱和度、体温、中心静脉压、灌注指数。

(2)用药变量中的如下各类变量：抗凝药种类、抗凝药服药时间、凝血药种类、凝血药服药时间。

最终获取的目标非时序变量包括：

(1)实验室检查变量中的如下各类变量：D-二聚体、r-谷氨酰基转移酶、癌胚抗原、白蛋白、大便颜色、低密脂蛋白胆固醇、二氧化碳总量、甘油三脂、高密脂蛋白胆固醇、红细胞、红细胞压积、肌酐、肌酸激酶、肌酸激酶同工酶、钾、碱性磷酸酶、淋巴细胞百分比、磷、氯、镁、钠、尿白细胞计数、尿酸、凝血酶原时间、乳酸、乳酸脱氢酶、三碘甲状腺原氨酸、实际碳酸氢盐、铁、铁蛋白、维生素B12、胸水蛋白、血淀粉酶、血红蛋白、血培养、血清甲胎蛋白、叶酸、直接胆红素、总胆固醇、总胆红素、总蛋白、总钙、总铁结合力。

(2)人口统计学变量中的如下各类变量：性别、年龄、民族。

(3)住院信息变量中的如下各类变量：入院时间、出院时间、入院科室、血型、是否转科、是否抢救、抢救次数、初步诊断、疾病类别、入院时意识、转科前意识、出院意识、室颤、房颤、诊断结果。

(4)手术信息变量中的如下各类变量：手术日期、手术名称、手术等级、ASA级别、麻醉类型、手术持续时间、手术过程中失血量、手术前意识、手术后意识、伤口愈合等级。

作为一种优选的实施方式，为了提高数据质量，并便于后期模型训练，结合图2所示，对所述时序历史数据及所述非时序历史数据还进行如下预处理：

步骤S104.2、基于one-hot编码将所述时序历史数据及非时序历史数据中的定性数据转换为定量数据。

本步骤对数据类型的转换用于便于后续模型输入。

步骤S104.4、判断数据存在缺失时，基于极大似然估计法对缺失数据量小于数据阈值的时序历史数据及非时序历史数据进行数据补全，基于相邻时间点数据对缺失数据量大于数据阈值且小于总数据量的时序历史数据及非时序历史数据进行数据补全，基于正常值对缺失数据量为总数据量的时间历史数据及非时序历史数据进行数据补全。

本步骤中对数据进行填充补全用于提高数据质量。作为一种可以选择的实施方式，也采用众数、平均数等方式进行数据补全。

步骤S104.6、对各补全后的时序历史数据，及各补全后的非时序历史数据均进行归一化处理。

本步骤中所述归一化处理用于检索不同数据间的纲量差异对模型训练造成的不良影响。

同理，在后续进行实时预测时，也基于步骤S104.2~步骤S104.6中的流程对时序实时数据及非时序实时数据进行预处理。

步骤S106、获取与各类所述目标时序变量相应的时序训练样本，及与各类所述目标非时序变量相应的非时序训练样本。

本步骤中，所述时序训练样本具体通过如下方法获取：获取若干感兴趣的时间点前溯预设时段内的与各类所述目标时序变量相应的各时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述时序历史数据的第一标签作为时序训练样本。同理，所述非时序训练样本具体通过如下方法获取：获取若干感兴趣的时间点前溯预设时段内的与各类所述目标非时序变量相应的各非时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述非时序历史数据的第二标签作为非时序训练样本。

其中，与未死亡患者相应的第一标签及第二标签均为0，与死亡患者相应的第一标签及第二标签均为1。

在具体实施时，所述时序训练样本及所述非时序训练样本均来源于医学中心电子病例数据库。首先是按照患者ID划分数据，然后提取患者与兴趣时间点相应的预设时段内的所有历史数据。本实施例中，所述预设时段为48小时。具体的，对于ICU内未死亡患者，就是其入ICU后的最初48小时数据，由此生成的是在预设时段内未死亡的负样本。对于ICU内死亡患者，是基于死亡时刻向前截取某48小时数据，其中该48小时数据起始时间=死亡时间-随机时间段-48小时，数据结束时间=死亡时间-随机时间段，随机时间段与预设时段（记为h，例如预测患者某感兴趣时刻起1小时内的死亡率，则h=1小时）相对应，是区间(0,h)的随机数，以此保证生成的是在预设时段内死亡的正样本。

步骤S108、基于所述时序训练样本训练得到一目标注意力LSTM模型，基于所述非时序训练样本得到一目标第二随机森林模型。

本实施例中，为了提高更受关注的时序变量的预测准确率，在LSTM算法中引入了注意力机制。具体的，以各类目标时序变量的重要度作为权重对每一所述时序训练样本中的各时序历史数据进行加权处理，此时则具体基于各加权处理结果对注意力LSTM模型进行迭代训练。

如图3所示，作为一种具体的实施方式，所述目标第二随机森林模型具体通过如下训练获取：

步骤S108.2、基于所述非时序训练样本分别构建训练集及验证集。

步骤S108.4、基于所述训练集进行所述第二随机森林模型的训练，并基于验证集对训练后的第二随机森林模型进行验证。

步骤S108.6、重复上述过程直至得到所述目标第二随机森林模型。

在步骤S108.2~步骤S108.6中，基于验证集计算超参数不同取值下的模型性能，进而在迭代过程中逐渐获取了性能更优的目标第二随机森林模型。

步骤S110、基于所述目标注意力LSTM模型获取当前时刻后目标时段内的第一死亡率，同时基于所述目标第二随机森林模型获取当前时刻后目标时段内的第二死亡率。

在具体实施时，获取当前时刻前溯预设时段内的与各类所述目标时序变量相应的各时序实时数据的加权处理结果输入至所述目标注意力LSTM模型以得到当前时刻后目标时段内的第一死亡率。同理，获取当前时刻前溯预设时段内的与各类所述目标非时序变量相应的各非时序实时数据输入至所述目标第二随机森林模型以得到当前时刻后目标时段内的第二死亡率。

步骤S112、基于所述第一死亡率及所述第二死亡率求解得到自当前时刻后目标时段内的实时死亡率。

为了提高所述实时死亡率的计算准确度。本实施例中还考虑了模型的重要性，即以各所述目标时序变量的重要度之和作为所述目标注意力LSTM模型的第一模型权重，以各所述目标非时序变量的重要度之和作为所述目标第二随机森林模型的第二模型权重。然后在具体的实时死亡率预测时，将以所述第一模型权重作为第一死亡率的权重，以所述第二模型权重作为第二死亡率的权重，并求解两者的加权和以作为自当前时刻后目标时段内的实时死亡率。

即当记所述第一死亡率为PR ₁，所述第二死亡率为PR ₂，所述第一模型权重为W ₁，所述第二模型权重为W ₂，任一目标时序变量的重要度为I ₁，任一目标非时序变量的重要度为I ₂时，目标时序变量的个数为n，目标非时序变量的个数为m。所述实时死亡率PR’可通过该公式求得：

。

为了基于所述实时死亡率更好的指导相应的医疗救助，如图4所示，在获取所述实时死亡率后还包括如下步骤：

步骤S114、若所述实时死亡率大于预设的死亡率阈值，则发送预警信息，并推送异常偏差最大的时序实时数据或非时序实时数据至控制端。

由此可见，本实施例所述的预测方法中同时引入非时序变量及时序变量进行死亡率的实时预测以提高预测准确性。并为了进一步提高预测准确性，基于第一随机森林模型对所述非时序变量及时序变量按照重要度进行了筛选；同时考虑到不同类型变量对算法的敏感性，分别针对时序变量引入了注意力LSTM算法，针对非时序变量引入了随机森林算法；还在最后实时死亡率获取时引入了模型权重。进而从总体上对现有的基于人工智能的死亡率预测方法进行了改进，极大的提高了死亡率预测的准确性。最终，还设计了一种针对所述实时死亡率的后处理措施以提高所述死亡率预测结果在实际医疗救助中的实用性。

上述程序可以运行在处理器中，或者也可以存储在存储器中（或称为计算机可读存储介质），计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

本实施例还提供了基于多维数据的死亡率实时预测系统。所述系统包括：

第一获取模块，用于获取若干类时序变量及非时序变量。

第二获取模块，用于输入所述所有类型的时序变量及非时序变量相应的变量数据至第一随机森林模型以获取每类所述时序变量及非时序变量的重要度；并以重要度大于预设阈值的各类所述时序变量及各类所述非时序变量分别作为目标时序变量及目标非时序变量。

第三获取模块，用于获取若干感兴趣的时间点前溯预设时段内的与各类所述目标时序变量相应的各时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述时序历史数据的第一标签作为时序训练样本；并获取若干感兴趣的时间点前溯预设时段内的与各类所述目标非时序变量相应的各非时序历史数据，及由该感兴趣时间点后溯预设时段的患者类型确定的各所述非时序历史数据的第二标签作为非时序训练样本；其中，与未死亡患者相应的第一标签及第二标签均为0，与死亡患者相应的第一标签及第二标签均为1。

模型训练模块，用于以各类目标时序变量的重要度作为权重对每一所述时序训练样本中的各时序历史数据进行加权处理，并基于各加权处理结果对注意力LSTM模型进行迭代训练以获取目标注意力LSTM模型；基于所述非时序训练样本进行第二随机森林模型的迭代训练以获取目标第二随机森林模型。

死亡率预测模块，用于获取当前时刻前溯预设时段内的与各类所述目标时序变量相应的各时序实时数据输入至所述目标注意力LSTM模型以得到当前时刻后目标时段内的第一死亡率，获取当前时刻前溯预设时段内的与各类所述目标非时序变量相应的各非时序实时数据输入至所述目标第二随机森林模型以得到当前时刻后目标时段内的第二死亡率。

该系统用于实现上述方法的步骤，因此已经进行说明的，在此不再赘述。

例如，所述第二获取模块包括：

转换单元，用于基于one-hot编码将所述时序历史数据及非时序历史数据中的定性数据转换为定量数据。

补全单元，用于判断数据存在缺失时，基于极大似然估计法对缺失数据量小于数据阈值的时序历史数据及非时序历史数据进行数据补全，基于相邻时间点数据对缺失数据量大于数据阈值且小于总数据量的时序历史数据及非时序历史数据进行数据补全，基于正常值对缺失数据量为总数据量的时间历史数据及非时序历史数据进行数据补全。

例如，所述模型训练模块包括：

例如，所述系统还包括：

本实施例还提供了一种电子设备。所述电子设备包括：

至少一个处理器；与所述至少一个处理器通讯连接的存储器。其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的预测方法。

由于所述系统及所述电子设备均基于所述方法搭建，因此从数据类型选取、预测场景及模型预测等方面考虑，从整体上提高了进行死亡率预测的准确性。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.基于多维数据的死亡率实时预测方法，其特征在于，包括：

获取若干类时序变量及非时序变量；

输入所有类型的时序变量及非时序变量相应的变量数据至第一随机森林模型以获取每类所述时序变量及非时序变量的重要度；并以重要度大于预设阈值的各类所述时序变量及各类所述非时序变量分别作为目标时序变量及目标非时序变量；

2.根据权利要求1所述的基于多维数据的死亡率实时预测方法，其特征在于，

各类时序变量包括各类ICU设备监测变量及各类用药变量；

各类非时序变量包括各类实验室检查变量、各类人口统计学变量、各类住院信息变量及各类手术信息变量。

3.根据权利要求1所述的基于多维数据的死亡率实时预测方法，其特征在于，所述获取若干感兴趣的时间点前溯预设时段内的与各类所述目标时序变量相应的各时序历史数据，及获取若干感兴趣的时间点前溯预设时段内的与各类所述目标非时序变量相应的各非时序历史数据；包括：

4.根据权利要求1所述的基于多维数据的死亡率实时预测方法，其特征在于，所述基于所述非时序训练样本进行第二随机森林模型的迭代训练以获取目标第二随机森林模型，包括：

基于所述非时序训练样本分别构建训练集及验证集；

重复执行基于训练集的训练及基于验证集的验证过程直至得到所述目标第二随机森林模型。

5.根据权利要求1所述的基于多维数据的死亡率实时预测方法，其特征在于，包括：

6.基于多维数据的死亡率实时预测系统，其特征在于，包括：

第一获取模块，用于获取若干类时序变量及非时序变量；

第二获取模块，用于输入所有类型的时序变量及非时序变量相应的变量数据至第一随机森林模型以获取每类所述时序变量及非时序变量的重要度；并以重要度大于预设阈值的各类所述时序变量及各类所述非时序变量分别作为目标时序变量及目标非时序变量；

7.根据权利要求6所述的基于多维数据的死亡率实时预测系统，其特征在于，所述第二获取模块包括：

8.根据权利要求6所述的基于多维数据的死亡率实时预测系统，其特征在于，所述模型训练模块包括：

循环单元，用于重复调用迭代训练单元直至得到所述目标第二随机森林模型。

9.根据权利要求6所述的基于多维数据的死亡率实时预测系统，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器通讯连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述的预测方法。