CN115148361A

CN115148361A - 疾病亚型确定系统及方法

Info

Publication number: CN115148361A
Application number: CN202210835338.3A
Authority: CN
Inventors: 余夏夏; 谭泳森; 黄嘉慧
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-04
Anticipated expiration: 2042-07-15
Also published as: CN115148361B

Abstract

本发明公开了一种疾病亚型确定系统及方法，该系统包括：信息处理模块以及模型预测模块；其中，信息处理模块，用于获取目标对象的实验室检验数据，并对实验室检验数据进行预处理，确定待检测数据，将待检测数据发送至模型预测模块；模型预测模块，用于接收待检测数据，确定与待检测数据对应的目标疾病类型的疾病级别，并将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的疾病亚型；其中，疾病亚型确定模型包括长短期记忆网络编码器，以及与长短期记忆网络编码器串联的聚类模型。通过本发明实施例的技术方案，实现了确定疾病级别对应的疾病亚型，降低相同疾病亚型间患者的异质性的效果。

Description

疾病亚型确定系统及方法

技术领域

本发明涉及医学技术领域，尤其涉及一种疾病亚型确定系统及方法。

背景技术

目前，针对部分疾病的患者风险等级划分标准较为宽泛，忽略了同级患者下往往存在异质性的病理特征。例如，针对急性肾损伤患者风险分级的标准基于KDIGO(KidneyDisease Improving Global Outcomes，急性肾损伤临床实践指南)标准确定。

依据现有标准进行患者风险等级划分，通常现有标准所需的比对的数据量较大，患者数据不完整就会导致风险分级的难度较大。并且，现有标准忽略了相同风险等级的患者之间存在异质性的情况，因此，患者风险等级划分结果并不理想。

发明内容

本发明提供了一种疾病亚型确定系统及方法，以实现确定疾病级别对应的疾病亚型，降低相同疾病亚型间患者的异质性的效果。

根据本发明的一方面，提供了一种疾病亚型确定系统，该系统包括：信息处理模块以及模型预测模块；其中，

所述信息处理模块，用于获取目标对象的实验室检验数据，并对所述实验室检验数据进行预处理，确定待检测数据，将所述待检测数据发送至所述模型预测模块；其中，所述目标对象与目标疾病类型相对应；

所述模型预测模块，与所述信息处理模块相连接，用于接收所述待检测数据，确定与所述待检测数据对应的所述目标疾病类型的疾病级别，并将所述待检测数据输入至与所述疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与所述目标对象对应的疾病亚型；其中，所述疾病亚型确定模型包括长短期记忆网络编码器，以及与所述长短期记忆网络编码器串联的聚类模型，所述目标疾病类型包括至少两个疾病级别，每个疾病级别包括至少两种疾病亚型。

根据本发明的另一方面，提供了一种疾病亚型确定方法，该方法包括：

基于信息处理模块，获取目标对象的实验室检验数据，并对所述实验室检验数据进行预处理，确定待检测数据，将所述待检测数据发送至模型预测模块；其中，所述目标对象与目标疾病类型相对应；

基于所述模型预测模块，接收所述待检测数据，确定与所述待检测数据对应的所述目标疾病类型的疾病级别，并将所述待检测数据输入至与所述疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与所述目标对象对应的疾病亚型；其中，所述疾病亚型确定模型包括长短期记忆网络编码器，以及与所述长短期记忆网络编码器串联的聚类模型，所述目标疾病类型包括至少两个疾病级别，每个疾病级别包括至少两种疾病亚型。

本发明实施例的技术方案，通过信息处理模块获取目标对象的实验室检验数据，并对实验室检验数据进行预处理，通过模型预测模块接收待检测数据，确定与待检测数据对应的目标疾病类型的疾病级别，并将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的疾病亚型，解决了患者的疾病风险等级划分效果不佳的问题，实现了确定疾病级别对应的疾病亚型，降低相同疾病亚型间患者的异质性的效果。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一所提供的一种疾病亚型确定系统的结构示意图；

图2为本发明实施例一所提供的一种疾病亚型确定模型的模型结构示意图；

图3为本发明实施例一所提供的另一种疾病亚型确定模型的模型结构示意图；

图4为本发明实施例二所提供的一种疾病亚型确定系统的结构示意图；

图5为本发明实施例二所提供的一种疾病亚型确定模型的结构示意图；

图6为本发明实施例三所提供的一种MIMIC-IV对应的疾病亚型的结果示意图；

图7为本发明实施例三所提供的一种EICU对应的疾病亚型的结果示意图；

图8为本发明实施例三所提供的一种MIMIC-IV对应的状态预测的结果示意图；

图9为本发明实施例三所提供的一种EICU对应的状态预测的结果示意图；

图10为本发明实施例四所提供的一种疾病亚型确定方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“初始”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

实施例一

图1为本发明实施例一所提供的一种疾病亚型确定系统的结构示意图，本实施例可适用于在确定疾病类型的情况下，进一步确定疾病级别以及疾病级别中的疾病亚型的情况，该系统可以执行疾病亚型确定方法，该疾病亚型确定系统可以采用硬件和/或软件的形式实现，该疾病亚型确定系统可配置于电子设备中，电子设备可以是移动终端、PC端、服务器等。

如图1所示，该系统包括：信息处理模块1以及模型预测模块2。

其中，信息处理模块1，用于获取目标对象的实验室检验数据，并对实验室检验数据进行预处理，确定待检测数据，将待检测数据发送至模型预测模块2；其中，目标对象与目标疾病类型相对应；模型预测模块2，与信息处理模块1相连接，用于接收待检测数据，确定与待检测数据对应的目标疾病类型的疾病级别，并将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的疾病亚型；其中，疾病亚型确定模型包括长短期记忆网络编码器，以及与长短期记忆网络编码器串联的聚类模型，目标疾病类型包括至少两个疾病级别，每个疾病级别包括至少两种疾病亚型。

信息处理模块1，用于获取目标对象的实验室检验数据，并对实验室检验数据进行预处理，确定待检测数据，将待检测数据发送至模型预测模块2。

其中，目标对象可以是已确定疾病类型，待进一步确定疾病级别以及疾病亚型的对象，目标对象的已确定疾病类型即为目标疾病类型，即目标对象与目标疾病类型相对应。实验室检验数据可以是如血常规、肝功能、肾功能等实验室检测数据。待检测数据可以是预处理后的实验室检验数据。

具体的，通过信息处理模块1可以获取目标对象的实验室检验数据，例如：尿素氮、阴离子隙、红细胞分布宽度、碱剩余、碳酸氢盐、红细胞分布宽度、血红蛋白浓度、红细胞比容、胆红素等。进而，对实验室检验数据进行预处理，并将预处理后的数据作为待检测数据。将待检测数据发送至模型预测模块2，以通过模型预测模块2来确定目标对象对应的目标疾病类型的疾病级别以及疾病级别中的疾病亚型。

模型预测模块2，用于接收待检测数据，确定与待检测数据对应的目标疾病类型的疾病级别，并将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的疾病亚型。

其中，目标疾病类型包括至少两个疾病级别，每个疾病级别包括至少两种疾病亚型。疾病级别可以是按照现有标准确定的目标疾病类型的级别。疾病亚型可以是在疾病级别的基础上，进一步划分的结果。疾病亚型确定模型可以是用于根据待检测数据确定疾病级别中的疾病亚型的模型。疾病亚型确定模型包括长短期记忆网络编码器，以及与长短期记忆网络编码器串联的聚类模型，疾病亚型确定模型的模型结构示意图如图2所示。

具体的，模型预测模块2可以接收信息处理模块1发送的待检测数据，进而，根据待检测数据以及现有标准，确定目标疾病类型中的疾病级别。将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，将模型输出的结果作为与目标对象对应的疾病亚型。

可选的，在上述示例的基础上，还可以对疾病亚型确定模型进行扩展，使得通过疾病亚型确定模型可以确定目标对象的目标状态。

疾病亚型确定模型还包括：与长短期记忆网络编码器串联的特征提取模型，以及与特征提取模型串联的回归模型。

其中，特征提取模型由第一预设维度的线性层、一维批量归一化层以及第二预设维度的线性层串联组成，疾病亚型确定模型的模型结构示意图如图3所示。

其中，第一预设维度可以是预先设置的维度，第二预设维度也可以是预先设置的维度，第一预设维度与第二预设维度可以相同也可以不同。示例性的，在图3中，第一预设维度为n×K，第二预设维度为K×1，其中，n表示自定义的深层编码数据长度，K表示预设亚型数量。

在这种疾病亚型确定模型的基础上，模型预测模块2，还用于将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的目标状态。

其中，目标状态可以目标对象的生存状态，例如：存活或者死亡。

具体的，将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，可以将模型输出的另一结果作为与目标对象对应的目标状态，以判断目标对象的死亡概率。

实施例二

图4为本发明实施例二所提供的一种疾病亚型确定系统的结构示意图，本实施例在上述实施例的基础上，增加了对疾病亚型确定模型进行训练的模型训练模块，具体实施方式可以参见本技术方案的详细阐述。其中，与上述各技术方案相同或相应的术语的解释在此不再赘述。

如图4所示，该系统包括：信息处理模块1以及模型预测模块2，还包括：模型训练模块3。

其中，模型训练模块3，用于对每个疾病级别对应的初始疾病亚型确定模型进行训练，得到与每个疾病级别对应的预先训练完成的疾病亚型确定模型。

具体的，通过模型训练模块3可以对每个疾病级别对应的初始疾病亚型确定模型进行训练，将预先训练完成的疾病亚型确定模型应用至模型预测模块2中。

在上述示例的基础上，如图4所示，模型训练模块3包括：数据处理子模块31以及模型训练子模块32。

其中，数据处理子模块31，用于获取与目标疾病类型对应的原始数据，对原始数据进行标签创建，确定与每一条原始数据对应的疾病级别，并对原始数据进行预处理，确定与每一条原始数据对应的样本数据；预处理包括特征标准化、缺失值处理、重复值处理、重复特征处理以及数据等长处理中的至少一种；模型训练子模块32，与数据处理子模块31相连接，用于针对每一个疾病级别，获取与疾病级别对应的样本数据，基于疾病级别对应的样本数据以及预设亚型数量，对疾病级别对应的初始疾病亚型确定模型进行训练，得到与疾病级别对应的预先训练完成的疾病亚型确定模型。

数据处理子模块31，用于获取与目标疾病类型对应的原始数据，对原始数据进行标签创建，确定与每一条原始数据对应的疾病级别，并对原始数据进行预处理，确定与每一条原始数据对应的样本数据。

其中，原始数据可以是判断目标疾病类型、目标疾病类型中的疾病级别、疾病级别中的疾病亚型所需数据，例如可以是现有数据库中的数据，也可以是历史诊断数据中与目标疾病类型相关的数据等。预处理包括特征标准化、缺失值处理、重复值处理、重复特征处理以及数据等长处理中的至少一种。特征标准化可以是通过最小值-最大值进行标准化。缺失值处理可以是在原始数据中添加辅助标志位，以表示数据缺失，进而，将辅助标志位对应的缺失值填充为其他各条原始数据的均值。重复值处理可以是当一个原始对象一天内存在多条原始数据，对这些原始数据取均值。重复特征处理可以是当原始数据中存在相同含义的数据时，保留其中一种，对其余重复特征数据进行删除处理。数据等长处理可以是根据预设窗口对数据进行等长处理，预设窗口的长度可以是7天、14天、1个月等，若原始数据的长度小于预设窗口的长度，则对原始数据进行插补处理，使得插补处理后的原始数据大于或等于预设窗口的长度。样本数据可以是预处理后的原始数据。

具体的，通过数据处理子模块31获取与目标疾病类型对应的原始数据，并根据现有标准可以对原始数据进行分析并根据分析结果创建标签，针对每一条原始数据创建的标签即为目标疾病类型中的疾病级别。针对原始数据进行预处理，得到预处理后的原始数据，即为样本数据。

模型训练子模块32，用于针对每一个疾病级别，获取与疾病级别对应的样本数据，基于疾病级别对应的样本数据以及预设亚型数量，对疾病级别对应的初始疾病亚型确定模型进行训练，得到与疾病级别对应的预先训练完成的疾病亚型确定模型。

其中，预设亚型数量可以是对疾病级别进行再次分级的数量，例如预设亚型数量可以是3、4、5等，具体数值可以根据实际需求设定，在本实施例中不作具体限定。

具体的，针对每一个疾病级别，从数据处理子模块31获取与疾病级别对应的样本数据，根据预设亚型数量以及与疾病级别对应的样本数据，对疾病级别对应的初始疾病亚型确定模型进行训练，可以是根据样本数据对初始疾病亚型确定模型中的长短期记忆网络编码器进行训练，根据预设亚型数量以及长短期记忆网络编码器输出的数据对聚类模型进行训练，将训练完成的长短期记忆网络编码器以及聚类模型作为与疾病级别对应的预先训练完成的疾病亚型确定模型。

可选的，在上述示例的基础上，样本数据的时间维度大于或等于预设时长，原始数据对应的原始对象的对象属性满足目标疾病类型对应的对象筛选条件，对象筛选条件包括年龄筛选条件、住院时长筛选条件以及疾病类型筛选条件中的至少一种。

其中，预设时长可以是预先设置的数据所对应的时长，例如：14天、28天、1个月等。样本数据的时间维度可以是样本数据对应的时长。对象属性可以包括年龄、住院时长、诊断记录等。

示例性的，年龄筛选条件为18-65岁，住院时长筛选条件为1-14天，疾病类型筛选条件为48小时内急性肾损伤，据此，可以对原始数据进行筛选。

在上述示例的基础上，目标疾病类型为急性肾损伤，如图4所示，数据处理子模块31包括：标签创建单元311以及预处理单元312。

其中，标签创建单元311，用于针对每一条原始数据，根据原始数据中的肌酐数据确定第一级别，根据原始数据中的尿量数据确定第二级别，并根据第一级别以及第二级别，确定与原始数据对应的疾病级别；预处理单元312，用于针对每一条原始数据进行预处理，确定与原始数据对应的样本数据。

标签创建单元311，用于针对每一条原始数据，根据原始数据中的肌酐数据确定第一级别，根据原始数据中的尿量数据确定第二级别，并根据第一级别以及第二级别，确定与原始数据对应的疾病级别。

其中，第一级别可以是按照肌酐数据根据现有标准确定的级别。第二级别可以是按照尿量数据根据现有标准确定的级别。

具体的，针对每一条原始数据，将原始数据中的肌酐数据与现有标准进行比对，确定第一级别，将原始数据中的尿量数据与现有标准进行比对，确定第二级别。进而，将第一级别和第二级别中的最大值作为原始数据对应的疾病级别。

预处理单元312，用于针对每一条原始数据进行预处理，确定与原始数据对应的样本数据。

在上述示例的基础上，可选的，如图4所示，模型训练子模块32，包括：编码器训练单元321以及聚类模型训练单元322。

其中，编码器训练单元321，用于针对每一个疾病级别，获取与疾病级别对应的样本数据，将样本数据输入至预先建立的长短期记忆网络编码器中，得到深层编码数据，将深层编码数据输入预先建立的至长短期记忆网络解码器中，得到重构数据；基于均方误差损失函数，确定样本数据与重构数据之间的编解码损失，根据编解码损失对长短期记忆网络编码器以及长短期记忆网络解码器的参数进行调整，得到预先训练完成的长短期记忆网络编码器；聚类模型训练单元322，与编码器训练单元321相连接，用于获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并基于深层编码数据以及预设亚型数量，对聚类模型进行训练，得到预先训练完成的聚类模型。

编码器训练单元321，用于针对每一个疾病级别，获取与疾病级别对应的样本数据，将样本数据输入至预先建立的长短期记忆网络编码器中，得到深层编码数据，将深层编码数据输入预先建立的至长短期记忆网络解码器中，得到重构数据；基于均方误差损失函数，确定样本数据与重构数据之间的编解码损失，根据编解码损失对长短期记忆网络编码器以及长短期记忆网络解码器的参数进行调整，得到预先训练完成的长短期记忆网络编码器。

其中，深层编码数据可以是长短期记忆网络编码器的输出结果。重构数据可以是长短期记忆网络解码器的输出结果。编解码损失可以是用于衡量样本数据与重构数据之间损失。

具体的，针对每一个疾病级别，可以获取该疾病类别对应的样本数据，将样本数据输入至预先建立的长短期记忆网络编码器中，将长短期记忆网络编码器的输出结果作为深层编码数据。进而，将深层编码数据输入至预先建立的至长短期记忆网络解码器中，将长短期记忆网络解码器的输出结果作为重构数据。在获取重构数据之后，可以通过均方误差损失函数计算样本数据与重构数据之间的损失，即为编解码损失。确定编解码损失是否达到收敛条件，比如编解码损失是否小于预设损失或损失变化趋势是否趋于稳定，或者当前的迭代次数是否等于预设次数等。若达到收敛条件，则表明长短期记忆网络编码器训练完成，可以停止对长短期记忆网络编码器的训练；若未达到收敛条件，则根据编解码损失对长短期记忆网络编码器以及长短期记忆网络解码器的参数进行调整，重新计算编解码损失，以重新判断编解码损失是否达到收敛条件。

聚类模型训练单元322，与编码器训练单元321相连接，用于获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并基于深层编码数据以及预设亚型数量，对聚类模型进行训练，得到预先训练完成的聚类模型。

具体的，通过聚类模型训练单元322可以从编码器训练单元321获取深层编码数据，基于深层编码数据以及预设亚型数量，对聚类模型进行训练，例如：对K-Means模型进行训练，将训练得到的模型作为预先训练完成的聚类模型。

在上述示例的基础上，可选的，疾病亚型确定模型还包括：与长短期记忆网络编码器串联的特征提取模型，以及与特征提取模型串联的回归模型；如图4所示，模型训练子模块32，还包括：回归模型训练单元323。

回归模型训练单元323，与编码器训练单元321相连接，用于获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并将深层编码数据依次输入至预先建立的特征提取模型以及预先建立的逻辑回归模型中，得到预测状态；基于二分类交叉熵损失函数，确定预测状态以及与深层编码数据相对应的真实状态之间的状态损失，根据状态损失对逻辑回归模型的参数进行调整，得到预先训练完成的回归模型。

其中，预测状态可以是逻辑回归模型的输出结果所对应的生存状态。状态损失可以是预测状态以及与深层编码数据相对应的真实状态之间的损失。

具体的，通过回归模型训练单元323可以从编码器训练单元321获取深层编码数据，将深层编码数据依次输入至预先建立的特征提取模型以及预先建立的逻辑回归模型中，根据逻辑回归模型的输出确定预测状态。在获取预测状态之后，可以通过二分类交叉熵损失函数计算预测状态以及与深层编码数据相对应的真实状态之间的损失，即为状态损失。进而，确定状态损失是否达到收敛条件。若达到收敛条件，则表明逻辑回归模型训练完成，可以停止对逻辑回归模型的训练；若未达到收敛条件，则根据状态损失对逻辑回归模型的参数进行调整，重新计算状态损失，以重新判断状态损失是否达到收敛条件。

在上述示例的基础上，可选的，模型训练子模块32，还用于：

针对每一个疾病级别，基于与疾病级别对应的样本数据，按照预设比例进行划分，得到与疾病级别对应的训练数据集、测试数据集以及验证数据集。

其中，预设比例可以是训练数据集、测试数据集与验证数据集的占比，例如：60％作为训练数据集，30％作为测试数据集，10％作为验证数据集等，具体比例数值可以根据模型训练需求确定，在本实施例中不做具体限定。

具体的，对每一个疾病类别对应的样本数据进行划分，可以是按照预设比例进行划分，得到每个疾病类别的训练数据集、测试数据集以及验证数据集。

基于疾病级别对应的训练数据集以及预设亚型数量，对疾病级别对应的初始疾病亚型确定模型进行训练，得到待测试模型。

其中，待测试模型可以是训练得到的疾病亚型确定模型。

基于测试数据集对待测试模型进行测试，将测试通过的模型作为待验证模型。

其中，待验证模型可以是测试通过的待测试模型。

具体的，基于测试数据集对待测试模型进行测试，若测试通过，则将该待测试模型作为待验证模型，若测试不通过，则调整初始疾病亚型确定模型的参数和/或结构等，返回基于疾病级别对应的训练数据集以及预设亚型数量，对疾病级别对应的初始疾病亚型确定模型进行训练的操作。

基于验证数据集对待验证模型进行验证，将验证通过的模型作为与疾病级别对应的预先训练完成的疾病亚型确定模型。

具体的，基于验证数据集对待验证模型进行验证，若验证通过，则将该待验证模型作为与疾病级别对应的预先训练完成的疾病亚型确定模型，若验证不通过，则调整初始疾病亚型确定模型的参数和/或结构等，返回基于疾病级别对应的训练数据集以及预设亚型数量，对疾病级别对应的初始疾病亚型确定模型进行训练的操作。

本发明实施例的技术方案，通过信息处理模块获取目标对象的实验室检验数据，并对实验室检验数据进行预处理，通过模型训练模块对每个疾病级别对应的初始疾病亚型确定模型进行训练，得到与每个疾病级别对应的预先训练完成的疾病亚型确定模型，通过模型预测模块接收待检测数据，确定与待检测数据对应的目标疾病类型的疾病级别，并将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的疾病亚型，解决了患者的疾病风险等级划分效果不佳的问题，实现了确定疾病级别对应的疾病亚型，降低相同疾病亚型间患者的异质性的效果。

实施例三

以目标疾病类型为急性肾损伤为例，本发明实施例三提供了一种疾病亚型确定模型训练方法，该方法包括：

训练疾病亚型确定模型的数据来源可以是公共数据库，例如：MIMIC-IV(MedicalInformation Mart for Intensive Care IV，重症医学数据库IV)和EICU(EmergencyIntensive Care Unit，ICU病房数据组成的多中心医疗数据库)中全部患者数据。

其中，MIMIC-IV是一个大型的公开数据库，该数据库记录了2008年至2019年期间贝斯以色列女狄肯斯医疗中心重症监护病房患者的相关数据，拥有4万多名患者的医疗健康数据和记录。其中，记录了人口统计学信息，如病人的性别、身高、宗教等情况，还记录了实验室检验信息，如血常规，肝功能，肾功能等实验室检测数据。同时，涵盖了患者的用药信息，如高血压患者服用了治疗高血压类药物等，也包括了护理人员以及患者的护理级别等。除此之外，患者每次出入院信息，每次入院接受的单位以及主治医生、护士出具的护理记录和病例分析距离等海量数据也被涵盖。EICU涵盖了2014年和2015年入住重症监护病房的200000多例患者的常规数据，收集了大量高质量的临床信息，包括生命体征、护理计划、疾病严重程度、诊断信息、治疗信息等。

进一步的，从MIMIC-IV和EICU数据库中提取数据，选择的特征包括人口统计学信息、实验室检验结果和相关并发症结果等。需要说明的是，提取每一条数据中包含的肌酐和尿量记录，对比KDIGIO标准相应的分级标准，取肌酐和尿量中的分级的最大值作为该患者的标准分级(疾病级别)。

具体的，将提取出的数据通过KDIGO确定肌酐的分级(第一级别)，确定尿量的分级(第二级别)，进一步取最大值作为最终的结果(疾病级别)。

还需要说明的是，需要对纳入人群进行筛选，例如：筛选条件包含年龄和住院时长限制：年龄应在18至65岁之间，住院时长在1至14天。除此之外，该患者还应该具有48小时内急性肾损伤相关的诊断记录。

对筛选得到的数据(原始数据)进行预处理，得到样本数据。例如，可以进行特征标准化，将所有的数据通过min-max进行标准化；可以进行缺失值处理，为每个数据添加一个辅助标志位表示缺失，添加标志位后缺失值填充均值；可以进行重复值处理，当患者一天内有多条数据时，进行取均值处理；可以进行重复特征处理，当数据存在相同含义的实验室指标时，进行整列删除处理；可以进行数据等长处理，可以是以固定观察窗(例如：14天等)，当患者数据小于该范围时，可以进行插补处理。

在确定训练疾病亚型确定模型的样本数据之后，可以对样本数据进行划分，例如：将60％作为训练集(训练数据集)，30％作为测试集(测试数据集)，10％作为验证集(验证数据集)。

疾病亚型确定模型的结构示意图如图5所示，其中，Representation为深层编码数据；linear layer为线性层；BN layer为Batch normalization layer，即批量归一化层；LSTM为Long Short-Term Memory长短期记忆网络；BCE loss为Binary CrossEntropyloss，即二分类交叉熵损失函数；MSE loss为Mean Square Error，即均方误差损失函数；Encoder为编码器；Decoder为解码器；patient_num为不同患者；n_hiden为自定义隐藏状态长度；K表示K类或K级；1表示长度为1；Subphenotype表示研究亚型；logistic表示逻辑回归；Outcome Predict表示死亡概率。

具体的，通过LSTM编码器获得数据的深层编码数据，同时利用预测器(回归模型)进行死亡概率(预测状态)的预测和K-Means聚类方法进行聚类分级。超参数的选择通过验证集损失的最小化获得模型的最佳参数，该超参数下的模型就是最终用于输出的模型(预先训练完成的疾病亚型确定模型)。

在使用预先训练完成的疾病亚型确定模型的过程可以是将数据通过LSTM编码器后，得到患者潜在空间的深层编码数据，通过K-Means聚类方法聚类得到相应的研究亚型(疾病亚型)。深层编码数据依次通过linear layer、BN layer、linear layer后，进行逻辑回归，得到相应的死亡概率预测输出。

以预设亚型数量为4为例，即0-3。MIMIC-IV对应的疾病亚型的结果如表1所示，EICU对应的疾病亚型的结果如表2所示。其中，subphenotype为亚型研究；proportion为人群比例；expire rate为死亡率。MIMIC-IV对应的疾病亚型的结果示意图如图6所示，EICU对应的疾病亚型的结果示意图如图7所示。

表1

subphenotype	proportion	expire rate
			0	0.214	0.011
1	0.341	0.050
			2	0.408	0.201
3	0.037	0.911

表2

可以通过AUROC(The area under the receiver operating characteristic，接受者操作特征曲线下面积)与AUPRC(The area under precision-recall curve，精确召回曲线下面积)来评估疾病亚型确定模型。MIMIC-IV对应的状态预测的结果示意图如图8所示，EICU对应的状态预测的结果示意图如图9所示。其中，ROC曲线的横轴是假阳率(FalsePositive Rate，FPR)，纵轴是真阳率(True Positive Rate,TPR)。PRC曲线的横轴则是召回率(Recall)，纵轴则是精确度(Precision)。进而，还可以求得分类的准确率、敏感度、特异度、召回率、精确度。

本发明实施例的技术方案，通过训练疾病亚型确定模型，并通过疾病亚型确定模型对急性肾损伤患者进行亚型分析，并且还能预测患者的死亡概率，以为医生提供辅助信息，并且，通过深度学习训练模型，能够有效避免数据采集偏差，以得到更多隐藏信息。

实施例四

图10为本发明实施例四所提供的一种疾病亚型确定方法的流程示意图，该方法可以由疾病亚型确定系统执行。

如图10所示，本实施例的方法具体包括如下步骤：

S410、基于信息处理模块，获取目标对象的实验室检验数据，并对实验室检验数据进行预处理，确定待检测数据，将待检测数据发送至模型预测模块。

其中，目标对象与目标疾病类型相对应。

S420、基于模型预测模块，接收待检测数据，确定与待检测数据对应的目标疾病类型的疾病级别，并将待检测数据输入至与疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与目标对象对应的疾病亚型。

其中，疾病亚型确定模型包括长短期记忆网络编码器，以及与长短期记忆网络编码器串联的聚类模型，目标疾病类型包括至少两个疾病级别，每个疾病级别包括至少两种疾病亚型。

可选的，所述疾病亚型确定模型还包括：与所述长短期记忆网络编码器串联的特征提取模型，以及与所述特征提取模型串联的回归模型，其中，所述特征提取模型由第一预设维度的线性层、一维批量归一化层以及第二预设维度的线性层串联组成；所述方法还包括：基于所述模型预测模块，将所述待检测数据输入至与所述疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与所述目标对象对应的目标状态。

可选的，所述系统还包括：模型训练模块；所述方法还包括：基于所述模型训练模块，对每个疾病级别对应的初始疾病亚型确定模型进行训练，得到与每个疾病级别对应的预先训练完成的疾病亚型确定模型。

可选的，所述模型训练模块，包括：数据处理子模块以及模型训练子模块；所述方法包括：基于数据处理子模块，获取与所述目标疾病类型对应的原始数据，对所述原始数据进行标签创建，确定与每一条原始数据对应的疾病级别，并对所述原始数据进行预处理，确定与每一条原始数据对应的样本数据；所述预处理包括特征标准化、缺失值处理、重复值处理、重复特征处理以及数据等长处理中的至少一种；基于所述模型训练子模块，针对每一个疾病级别，获取与所述疾病级别对应的样本数据，基于所述疾病级别对应的样本数据以及预设亚型数量，对所述疾病级别对应的初始疾病亚型确定模型进行训练，得到与所述疾病级别对应的预先训练完成的疾病亚型确定模型。

可选的，所述目标疾病类型为急性肾损伤，所述数据处理子模块包括：标签创建单元以及预处理单元；所述方法包括：基于所述标签创建单元，针对每一条原始数据，根据所述原始数据中的肌酐数据确定第一级别，根据所述原始数据中的尿量数据确定第二级别，并根据所述第一级别以及所述第二级别，确定与所述原始数据对应的疾病级别；基于所述预处理单元，针对每一条原始数据进行预处理，确定与所述原始数据对应的样本数据。

可选的，所述模型训练子模块，包括：编码器训练单元以及聚类模型训练单元；所述方法包括：基于所述编码器训练单元，针对每一个疾病级别，获取与所述疾病级别对应的样本数据，将所述样本数据输入至预先建立的长短期记忆网络编码器中，得到深层编码数据，将深层编码数据输入预先建立的至长短期记忆网络解码器中，得到重构数据；基于均方误差损失函数，确定所述样本数据与所述重构数据之间的编解码损失，根据所述编解码损失对所述长短期记忆网络编码器以及所述长短期记忆网络解码器的参数进行调整，得到预先训练完成的长短期记忆网络编码器；基于所述聚类模型训练单元，获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并基于所述深层编码数据以及预设亚型数量，对所述聚类模型进行训练，得到预先训练完成的聚类模型。

可选的，所述疾病亚型确定模型还包括：与所述长短期记忆网络编码器串联的特征提取模型，以及与所述特征提取模型串联的回归模型；所述模型训练子模块，还包括：回归模型训练单元；所述方法包括：基于所述回归模型训练单元，获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并将所述深层编码数据依次输入至预先建立的特征提取模型以及预先建立的逻辑回归模型中，得到预测状态；基于二分类交叉熵损失函数，确定所述预测状态以及与所述深层编码数据相对应的真实状态之间的状态损失，根据所述状态损失对所述逻辑回归模型的参数进行调整，得到预先训练完成的回归模型。

可选的，所述方法还包括：基于模型训练子模块，针对每一个疾病级别，基于与所述疾病级别对应的样本数据，按照预设比例进行划分，得到与所述疾病级别对应的训练数据集、测试数据集以及验证数据集；基于所述疾病级别对应的训练数据集以及预设亚型数量，对所述疾病级别对应的初始疾病亚型确定模型进行训练，得到待测试模型；基于所述测试数据集对所述待测试模型进行测试，将测试通过的模型作为待验证模型；基于所述验证数据集对所述待验证模型进行验证，将验证通过的模型作为与所述疾病级别对应的预先训练完成的疾病亚型确定模型。

可选的，所述样本数据的时间维度大于或等于预设时长，所述原始数据对应的原始对象的对象属性满足目标疾病类型对应的对象筛选条件，所述对象筛选条件包括年龄筛选条件、住院时长筛选条件以及疾病类型筛选条件中的至少一种。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种疾病亚型确定系统，其特征在于，包括：信息处理模块以及模型预测模块；其中，

2.根据权利要求1所述的系统，其特征在于，所述疾病亚型确定模型还包括：与所述长短期记忆网络编码器串联的特征提取模型，以及与所述特征提取模型串联的回归模型，其中，所述特征提取模型由第一预设维度的线性层、一维批量归一化层以及第二预设维度的线性层串联组成；

所述模型预测模块，还用于将所述待检测数据输入至与所述疾病级别对应的预先训练完成的疾病亚型确定模型中，得到与所述目标对象对应的目标状态。

3.根据权利要求1所述的系统，其特征在于，还包括：模型训练模块；

所述模型训练模块，用于对每个疾病级别对应的初始疾病亚型确定模型进行训练，得到与每个疾病级别对应的预先训练完成的疾病亚型确定模型。

4.根据权利要求3所述的系统，其特征在于，所述模型训练模块，包括：数据处理子模块以及模型训练子模块；其中，

所述数据处理子模块，用于获取与所述目标疾病类型对应的原始数据，对所述原始数据进行标签创建，确定与每一条原始数据对应的疾病级别，并对所述原始数据进行预处理，确定与每一条原始数据对应的样本数据；所述预处理包括特征标准化、缺失值处理、重复值处理、重复特征处理以及数据等长处理中的至少一种；

所述模型训练子模块，与所述数据处理子模块相连接，用于针对每一个疾病级别，获取与所述疾病级别对应的样本数据，基于所述疾病级别对应的样本数据以及预设亚型数量，对所述疾病级别对应的初始疾病亚型确定模型进行训练，得到与所述疾病级别对应的预先训练完成的疾病亚型确定模型。

5.根据权利要求4所述的系统，其特征在于，所述目标疾病类型为急性肾损伤，所述数据处理子模块包括：标签创建单元以及预处理单元；其中，

所述标签创建单元，用于针对每一条原始数据，根据所述原始数据中的肌酐数据确定第一级别，根据所述原始数据中的尿量数据确定第二级别，并根据所述第一级别以及所述第二级别，确定与所述原始数据对应的疾病级别；

所述预处理单元，用于针对每一条原始数据进行预处理，确定与所述原始数据对应的样本数据。

6.根据权利要求4所述的系统，其特征在于，所述模型训练子模块，包括：编码器训练单元以及聚类模型训练单元；其中，

所述编码器训练单元，用于针对每一个疾病级别，获取与所述疾病级别对应的样本数据，将所述样本数据输入至预先建立的长短期记忆网络编码器中，得到深层编码数据，将深层编码数据输入预先建立的至长短期记忆网络解码器中，得到重构数据；基于均方误差损失函数，确定所述样本数据与所述重构数据之间的编解码损失，根据所述编解码损失对所述长短期记忆网络编码器以及所述长短期记忆网络解码器的参数进行调整，得到预先训练完成的长短期记忆网络编码器；

所述聚类模型训练单元，与所述编码器训练单元相连接，用于获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并基于所述深层编码数据以及预设亚型数量，对所述聚类模型进行训练，得到预先训练完成的聚类模型。

7.根据权利要求6所述的系统，其特征在于，所述疾病亚型确定模型还包括：与所述长短期记忆网络编码器串联的特征提取模型，以及与所述特征提取模型串联的回归模型；所述模型训练子模块，还包括：

回归模型训练单元，与所述编码器训练单元相连接，用于获取预先训练完成的长短期记忆网络编码器输出的深层编码数据，并将所述深层编码数据依次输入至预先建立的特征提取模型以及预先建立的逻辑回归模型中，得到预测状态；基于二分类交叉熵损失函数，确定所述预测状态以及与所述深层编码数据相对应的真实状态之间的状态损失，根据所述状态损失对所述逻辑回归模型的参数进行调整，得到预先训练完成的回归模型。

8.根据权利要求4所述的系统，其特征在于，所述模型训练子模块，还用于：

针对每一个疾病级别，基于与所述疾病级别对应的样本数据，按照预设比例进行划分，得到与所述疾病级别对应的训练数据集、测试数据集以及验证数据集；

基于所述疾病级别对应的训练数据集以及预设亚型数量，对所述疾病级别对应的初始疾病亚型确定模型进行训练，得到待测试模型；

基于所述测试数据集对所述待测试模型进行测试，将测试通过的模型作为待验证模型；

基于所述验证数据集对所述待验证模型进行验证，将验证通过的模型作为与所述疾病级别对应的预先训练完成的疾病亚型确定模型。

9.根据权利要求4所述的系统，其特征在于，所述样本数据的时间维度大于或等于预设时长，所述原始数据对应的原始对象的对象属性满足目标疾病类型对应的对象筛选条件，所述对象筛选条件包括年龄筛选条件、住院时长筛选条件以及疾病类型筛选条件中的至少一种。

10.一种疾病亚型确定方法，其特征在于，包括：