CN114611879A

CN114611879A - 一种基于多任务学习的临床风险预测系统

Info

Publication number: CN114611879A
Application number: CN202210144438.1A
Authority: CN
Inventors: 应豪超; 吴健; 钱思忆; 徐宇扬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-06-10

Abstract

本发明提供了一种基于多任务学习的临床风险预测系统，包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序，计算机存储器中存有训练好的临床风险预测模型；临床风险预测模型采用软参数共享多任务学习模型，先将所有子任务的数据通过底部共享层嵌入到同一语义空间中，再通过子任务特定嵌入层提取每个子任务独有的特征，然后通过概率采样网络将提取出的特征映射到一个概率空间；接着通过多重注意力机制将不同子任务学习到的特征进行知识传递形成复合特征；最后每个子任务特定输出层输出预测结果。本发明可以对风险进行预警，为医生决策提供帮助。

Description

一种基于多任务学习的临床风险预测系统

技术领域

本发明属于医疗结构化临床数据处理技术领域，尤其是涉及一种基于多任务学习的临床风险预测系统。

背景技术

医学的发展经历了从经验模型到循证医学到数据医学的过程。随着大数据时代的到来，数据的存储、获取和分析都变得非常便捷，也为精准医学的发展创造了技术条件。

临床风险预测是医学领域一项重要的研究工作。临床风险预测即指使用临床数据，结合多因素分析病人发生某种医学结局的概率。常见的临床风险预测任务有死亡预测、疾病预警、住院时长预测等。临床预测可以让医生提早预知病人发生某结局的概率，为医生做出预警性措施提供帮助。

过去的临床风险预测主要集中在简单的数理统计，并根据经验设计了各种评分模型用来表示病人的状况。通用的评分模型包括简明急性生理评分(SAPS)、急性生理与慢性健康评分(APACH)、序贯器官衰竭评分(SOFA)等常用模型。然而，评分模型存在很大的局限性。评分模型只能对数据间的线性关系进行建模，而且评分模型针对的是病人的整体生理情况分析，而无法针对特定场景(例如评估患某种病的风险)做出改变。

近些年来，机器学习迅速发展，使我们能够针对特定场景构造特定模型。机器学习模型有效克服了评分模型的缺陷。机器学习模型能够捕捉更加复杂的非线性关系，捕捉更高阶的关系，并且针对特定任务能够提取适用于特定的表征。目前，机器学习模型被广泛应用于临床风险预测，包括回归模型、决策树、贝叶斯网络、随机森林等。近几年深度学习的快速发展为临床风险预测带来巨大突破。比起传统机器学习模型，深度学习模型具有更高的计算效率，且在处理不规则的时间序列数据、多模态数据有显著优势。目前，基础的深度学习预测模型包括CNN、RNN、LSTM、GRU等常见的时序处理模型。

目前，越来越多真实环境下的医疗数据集陆续向公众和研究者开放，这也为我们的研究提供了必要的数据支持。其中，MIMIC数据集是最为广泛使用的数据集。该数据库于2006年由美国麻省理工学院计算生理学实验室以及贝斯以色列迪康医学中心(BIDMC)和飞利浦医疗共同发布。对2001-2012年间53423例进入ICU的成年患者和2001年至2008年7870名新生儿就诊期间的数据进行收录。MIMIC数据集涵盖患者就诊情况、患者被监测到的生理信号、患者的诊断记录、用药记录、患者的周转情况、患者出入ICU的情况等结构化数据和医生医嘱等非结构化数据。

与其余工业领域的数据相比，医学临床数据存在的显著特点是样本不平衡(患某种病或者死亡的病例占少数)、样本量少(有标签的医疗数据获取代价高)、噪声大(临床测量值有误差)、缺失值多的特点。在这种情况下，单任务学习无法充分学习到医疗数据表征，且数据量少也极易导致模型过拟合。

发明内容

本发明提供了一种基于多任务学习的临床风险预测系统，可以对风险进行预警，为医生决策提供帮助。

一种基于多任务学习的临床风险预测系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有训练好的临床风险预测模型；

所述临床风险预测模型采用软参数共享多任务学习模型，先将所有子任务的数据通过底部共享层嵌入到同一语义空间中，再通过子任务特定嵌入层提取每个子任务独有的特征，然后通过概率采样网络将提取出的特征映射到一个概率空间；接着通过多重注意力机制将不同子任务学习到的特征进行知识传递形成复合特征；最后每个子任务特定输出层输出预测结果；

所述计算机处理器执行所述计算机程序时实现以下步骤：

提取病人进入ICU前48小时EHR数据中的临床序列数据以及病人的静态特征；

对数据进行预处理工作，将提取的48小时EHR数据中的临床序列数据按小时进行划分工作；

将预处理后的数据输入训练好的临床风险预测模型，输出每个临床预测任务的预测结果。

本发明构建软参数共享多任务学习模型，让任务表征能够在不同任务间进行传递。先通过共享层将数据嵌入到同一语义空间中，然后再设立子网络来分别学习任务自身的表征。然后通过任务层次和时间步层次的注意力机制来获取任务间、任务不同时间步间传递的信息权值重要性。

进一步地，所述的软参数共享多任务学习模型中，通过多重注意力机制将不同子任务学习到的特征进行知识传递形成复合特征时，通过粗粒度的任务层次注意力和细粒度的时间步层次注意力来获得不同层次上不同任务、不同时间步间信息传递的大小。

输出每个临床预测任务的预测结果为二分类预测，对于预测出潜在患病或者死亡的病人，需要医生实施预防性措施。

所述临床风险预测模型的训练过程如下：

(1)从MIMIC数据库中对每个进入ICU的病人案例提取前48小时EHR数据中的临床序列数据；

(2)对提取到的临床序列数据进行预处理工作，并将提取的48小时临床时序数据按小时进行划分工作；

(3)提取每个病人的静态特征，包括性别、年龄；

(4)针对每一个临床预测任务分别设立病人的标签，1代表病人在此次住院期间会发生该临床结局，0代表没有发生；

(5)将病人数据划分为训练集、验证集和测试集，训练集用来迭代训练模型，验证集用来选择最优的模型参数，测试集则对模型效果进行验证；

(6)构建软参数共享多任务学习模型，将多个任务同时进行训练，并将所有任务的交叉熵损失进行加和作为总损失，直到模型训练完毕。

所述EHR数据中的临床序列数据包含红细胞数、白细胞数、氧气分数、心率、收缩压、舒张压、体温、呼吸频率。

对数据进行预处理时，当一个小时内出现多次测量值，则取平均值。对于进入ICU的病人来说，期望能将数据精准至小时，所以对数据按小时数进行了划分工作。因为临床变量都是连续值，所以以平均值代表一小时内的整体情况。

步骤(6)中，将所有任务的交叉熵损失进行加和作为总损失，以总损失进行训练，分别回传更新不同任务子网络部分的梯度。

在迭代训练过程中，选择在验证集上损失最小的模型作为最终训练完毕的模型。

与现有技术相比，本发明具有以下有益效果：

1、现有技术大多为单任务预测模型。而本发明将多个相关联的临床风险预测任务进行联合训练，让特征能够在任务间进行共享，从而挖掘任务间潜在的关联特征。

2、本发明的模型融合了任务层次和时间步层次的多层次注意力机制，让任务特征在不同层面上能自主学习传递的权值。

3、本发明引入概率性模型(probabilistic model)的思想，让模型变得更加鲁棒，从而让模型能够在不平衡的小样本数据集上进行训练。

4、本发明的模型预测结果可为医生提供更加准确的预警，辅助医生提早做出决策。

5、本发明的模型提供的是一种通用多任务学习临床风险预测框架，可在不同医疗场景下应用本模型。

附图说明

图1为本发明中临床风险预测模型的总结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

一种基于多任务学习的临床风险预测系统，包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序，计算机存储器中存有训练好的临床风险预测模型。

如图1所示，临床风险预测模型采用软参数共享多任务学习模型，先将所有子任务的数据通过底部共享层嵌入到同一语义空间中，再通过子任务特定嵌入层提取每个子任务独有的特征，然后通过概率采样网络将提取出的特征映射到一个概率空间；接着通过多重注意力机制将不同子任务学习到的特征进行知识传递形成复合特征；最后每个子任务特定输出层输出预测结果。

具体的，临床风险预测模型的训练过程如下：

1)数据预处理

对于病人每次进入ICU，本实施例选择病人进入ICU后前48小时的临床数据(主要从chartevents和labevents表选取常见的生化指标)作为预测指标。将前48小时的数据按小时数进行划分，形成48个时间步。当一个小时内存在多次测量数据时，取变量的平均值。随后，从admission表获取病人死亡记录，若有对应的死亡记录，则代表病人住院期间死亡，记为1，反之为0。随后，将数据集划分为0.6:0.2:0.2的训练集、验证集和测试集。

本实施例主要在三个任务组(感染预测、心衰预测、呼吸衰竭预测)上进行实验。其中感染预测选择血浆蛋白、血清蛋白等指标；心衰预测选择收缩压、舒张压、B型尿钠肽又称脑尿钠肽、肌酐等指标；呼吸衰竭预测选择动静脉血氧含量、输氧量、呼气末正压通气、肺毛细血管楔压等指标。心衰预测设立局部缺血性心脏病、瓣膜性心脏病、心力衰竭、死亡四个子任务；呼吸衰竭设立低血氧症、血碳酸过多、通气灌注不匹配、酸中毒、呼吸衰竭、发绀病、死亡七个关联任务；感染预测设立发烧、感染、死亡三个关联任务。对于每个子任务，都根据先验的医学知识设立一个结局标签，表示病人在ICU期间是否会发生这类事件，例如PH<7.35则代表该病人发生了酸中毒事件。

2)初步特征处理

在模型最开始几层设置几个共享的线性层将输入的数据都嵌入同一语义空间中。然后将共享底层特征通过共享LSTM层得到预处理后的特征。模型共享部分的设计运用了迁移学习的思想。所有任务低层次信息和具体任务没有特别大的关联，这样设计可以减少部分参数计算，同时减少模型的过拟合问题。

随后，模型结构进行分化。通过一系列独立的线性层来获得每个任务初步处理后的独立特征。

3)构建模型概率采样网络和量化不确定性

医疗数据集具有样本少而不平衡的特点，因此大多数确定性预测模型(Deterministic Prediction Model)效果都不是非常理想。本发明考虑引入概率性模型(Probabilistic Model)，假设每个任务隐变量的后验概率符合如下高斯分布：P(Z_i|x)～N(μ_i,σ_i)。我们采用神经网络来自主学习分布假设的均值和方差μ_i,σ_i。这里我们借鉴了生成式模型的思想：我们让输入数据通过某几个线性层和非线性激活函数来拟合均值和方差。在拟合完均值和方差后，获得隐变量的分布，然后通过一次随机采样来获得隐变量的某次具体值。

在贝叶斯模型中存在两种主要的不确定性：偶然不确定性(AleatoricUncertainty)和认知不确定性(Epistemic Uncertainty)。偶然不确定性侧重于对数据不确定性建模，某种程度上代表输入数据受噪声干扰带来的影响。因此，本发明模型在采样网络的输出阶段加上一个随机噪声引入偶然不确定性。

认知不确定性则侧重于对模型参数不确定性的建模。本发明的模型引入现有部分工作作为理论支持。部分学者提出Dropout技术可看作在贝叶斯网络中进行变分推断的观点，并提出在实践中可以通过蒙特卡洛采样的方式来量化认知不确定性。蒙特卡洛Dropout通过对同一输入进行多次前向传播过程中，根据Dropout操作得到“不同网络参数对应不同结构”的输出，通过统计方差，可看作是模型的认知不确定性。在本模型中，让实验数据通过T次概率采样子网络并进行Dropout操作，同时进行T次采样，对采样的T次样本计算方差值Var，可以看作模型中不确定性的量化值。将计算得到的不确定性和采样生成的隐变量特征连在一起，一起作为采样特征F_i输入。

4)注意力机制

采用常见的多头注意力机制，将源任务特征看做K，目标任务特征看做Q,然后分别将源任务特征和子任务特征映射到N个子空间，然后根据Attention(K,Q)＝Leaky_Relu(QK^T)获得N个子空间K、Q之间传递的权值，并通过将多头注意力拼接进行整体计算。

在任务层次和时间步层次同时引入注意力机制。在任务层次上，可以将该任务在所有时间步上的特征加权作为该任务整体的特征。然后根据注意力权值让信息在任务间进行共享。

考虑时间步层次的信息传递将任务间信息迁移提高到了一个更细粒度的层次。一方面，不同任务间的信息迁移方向可能会随时间步迁移而改变。例如病人进入ICU早期，监测到的发烧症状是预测患者是否有感染的重要特征，这时候需要发烧任务的时间步信息迁移至后续的感染任务；而反之，在后期，当病人感染症状的消散也可能预示着退烧，这时候需要感染任务辅助后续发烧任务的预测。另一方面，不同任务的变化趋势本具有差异性，部分任务存在滞后性，仅仅采取例如将不同时间步加权得出的任务特征作为传递忽略了时间这一重要维度。与任务层次的注意力机制类似，只需计算两个任务间两两时间步之间传递的权值，然后让信息在时间步层次进行迁移即可。

5)模型训练和测试

模型在MIMIC-III训练集上进行1000次分批训练，其中把所有任务的交叉熵损失之和作为总损失进行训练，采用Adam优化器，并设置学习率＝0.001，batch_size＝128。在迭代训练过程中，选择在验证集上损失最小的模型作为最终模型。我们将训练好的模型在测试集上进行测试，并采用AUROC和ACC作为评价指标。

6)模型迁移

本发明提供了一种通用的多任务学习框架。可以在MIMIC数据集上初步训练模型，然后迁移到别的结构化医疗数据库进行微调。也可以直接在别的医疗场景下训练模型。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务学习的临床风险预测系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于：所述计算机存储器中存有训练好的临床风险预测模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：

2.根据权利要求1所述的基于多任务学习的临床风险预测系统，其特征在于，所述的软参数共享多任务学习模型中，通过多重注意力机制将不同子任务学习到的特征进行知识传递形成复合特征时，通过粗粒度的任务层次注意力和细粒度的时间步层次注意力来获得不同层次上不同任务、不同时间步间信息传递的大小。

3.根据权利要求1所述的基于多任务学习的临床风险预测系统，其特征在于，输出每个临床预测任务的预测结果为二分类预测，对于预测出潜在患病或者死亡的病人，需要医生实施预防性措施。

4.根据权利要求1所述的基于多任务学习的临床风险预测系统，其特征在于，所述临床风险预测模型的训练过程如下：

(3)提取每个病人的静态特征，包括性别、年龄；

5.根据权利要求1或4所述的基于多任务学习的临床风险预测系统，其特征在于，所述EHR数据中的临床序列数据包含红细胞数、白细胞数、氧气分数、心率、收缩压、舒张压、体温、呼吸频率。

6.根据权利要求1或4所述的基于多任务学习的临床风险预测系统，其特征在于，对数据进行预处理时，当一个小时内出现多次测量值，则取平均值。

7.根据权利要求4所述的基于多任务学习的临床风险预测系统，其特征在于，步骤(6)中，将所有任务的交叉熵损失进行加和作为总损失，以总损失进行训练，分别回传更新不同任务子网络部分的梯度。

8.根据权利要求4所述的基于多任务学习的临床风险预测系统，其特征在于，步骤(6)中，在迭代训练过程中，选择在验证集上损失最小的模型作为最终训练完毕的模型。