CN109599177B

CN109599177B - 一种基于病历的深度学习预测医疗轨迹的方法

Info

Publication number: CN109599177B
Application number: CN201811422693.8A
Authority: CN
Inventors: 李宁宁; 莫毓昌; 王海燕
Original assignee: Huaqiao University
Current assignee: Mo Yuchang
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2023-04-11
Anticipated expiration: 2038-11-27
Also published as: CN109599177A

Abstract

本发明公开了一种基于病历的深度学习预测医疗轨迹的方法，包括以下步骤：S1、将入院时的诊断信息和干预信息通过编码方案进行编码，并将编码转换为向量；分别得到诊断信息转换向量x_t∈R^M和干预信息转换向量得到P_t∈R^M；将一次入院的诊断信息和干预信息转换成一个2M维的向量[x_t,p_t]；S2、将向量[x_t,p_t]输入LSTM模型；求出当前输出值h_t得到当前疾病状态；S3、根据疾病状态h_t预测诊断代码d_t+1，通过诊断代码d_t+1对疾病的进展进行预测；S4、计算时间t的干预代码s_t；在LSTM模型中增加时间结构，在多个时间范围内汇集历史疾病状态，对于每段水平时间轴的状态进行汇集，将所有疾病状态汇集并堆积成向

被反馈到神经网络中预测未来风险结果Y。

Description

一种基于病历的深度学习预测医疗轨迹的方法

技术领域

本发明涉及预测模型领域，尤其涉及一种基于病历的深度学习预测医疗轨迹的方法。

背景技术

对于病人入院后预测未来的医疗风险问题，需要面对四个开放性问题：

(1)长期的医疗依赖；

(2)入院信息的表示；

(3)情节记录和无规律时间；

(4)混淆疾病进展和干预之间的相互作用。

现有的方法在处理这些问题时效果很差。他们不充分的模拟可变长度且忽略长期依赖问题，基于马尔可夫假设的时间模型局限于模型时间的无规律性且没有记忆，因此他们可能完全忘记先前的重大疾病给身体所带来的影响。

近年来，深度学习(如语音识别、视觉和计算语言学等)对认知系统的发展起到了巨大的推动作用，在构建端到端系统方面具有很大的潜力。但是，在医疗方面使用深度学习的方法仍不多见。市面上虽然用深度学习已经解决了长期依赖性的问题，但是对于其它三个问题仍没有好的解决方案。

发明内容

本发明目的是解决上述问题，提供一种可以解决医疗风险预测问题的深度学习预测医疗轨迹的方法。

为了实现上述目的，本发明的技术方案是：

一种基于病历的深度学习预测医疗轨迹的方法，包括以下步骤：

S1、将入院时的诊断信息和干预信息通过编码方案进行编码，将编码后的入院信息转换成向量，诊断信息的转换向量为A^d1，...，A^dk，干预信息的转换向量为B^s1，...，B^sk，汇集所有的诊断信息转换向量得到x_t∈R^M，汇集所有干预信息转换向量得到P_t∈R^M；最后，将一次入院的诊断信息和干预信息转换成一个2M维的向量[x_t,p_t]；

S2、将步骤S1中的向量[x_t,p_t]输入LSTM模型，LSTM模型在时间为t时的记忆为c_t∈R^K，c_t被输入门i_t∈R^K、遗忘门f_t∈R^K、输出门o_t∈R^K控制，三个门都是sigmoid单元，每个门的每个元素的值设置为0到1之间，i_t、f_t、o_t的值分别为：

其中m_t＝1，则入院方式是非计划的，m_t>1，则入院方式是计划的；

f_t＝σ(W_fx_t+U_fh_t-1+P_fp_t-1+b_f)

其中P_t-1是时间步t-1的干预信息转换向量，P_f是遗忘门的干预权重向量。

o_t＝σ(W_ox_t+U_oh_t-1+P_op_t+b_o)

其中P₀是输出门的干预权重矩阵，P_t是时间步t的干预信息转换向量；

W{i,f,o}，U{i,f,o}，b{i,f,o}是参数，σ表示向量的按元素的sigmoid函数；

在时间步t，首先通过输入值x_t∈RM、先前的LSTM单元的输出h_t-1∈RK构成一个挤压tanh函数：

g_t＝tanh(W_cx_t+U_ch_t-1+b_c)

根据先前的记忆c_t-1得到现在的记忆c_t：

c_t＝f_t*c_t-1+i_t*g_t

根据记忆ct计算出当前输出值ht:

h_t＝o_t*tanh(c_t)

*表示两个向量的乘积；

根据当前输出值h_t得到当前疾病状态；

S3、根据疾病状态h_t预测诊断代码d_t+1，其计算公式为：

其中softmax(Z)＝e^z/∑_z’e^z’，w_c是编码参数；

通过诊断代码d_t+1对疾病的进展进行预测；

S4、计算时间t的干预代码s_t，其计算公式为：

其中v_c是编码参数；

S5、在LSTM模型中增加时间结构，在多个时间范围内汇集历史疾病状态，对于每段水平时间轴的状态汇集，用以下公式衡量最近事件：

其中r_t＝[m_t+log(1+Δ_t:n)]^-1，Δ_t:n是按月测量的t时刻和当前n时的时间；m_t＝1表示紧急入院，mt＝2表示常规入院。

将所有疾病状态汇集并堆积成向

被反馈到神经网络中预测未来风险结果Y。

进一步的，所述步骤S2中将向量[x_t,p_t]输入LSTM模型时选用最大池化入院信息、归一池化入院信息或平均池化入院信息。

进一步的，所述最大池化入院信息的计算公式为：

其中，i＝1,2,...M。

进一步的，所述归一池化入院信息的计算公式为：

其中，i＝1,2,...M。

进一步的，所述平均池化入院信息的计算公式为：

进一步的，所述LSTM模型为由LSTM模型扩展出来的C-LSTM单元。

与现有技术相比，本发明具有的优点和积极效果是：

本发明提构建了一种深度动态网络DeepCare用于读取病例、存储先前的病史、推断当前的疾病状况和预测未来的医疗结果，在时间层面，基于长短时记忆(LongShort-TermMemory，LSTM)模型构建Care-LSTM(C-LSTM)模型表征当前疾病状况，由C-LSTM得到短期预测疾病的进展和干预推荐；在健康状况层面，通过多尺度时间汇集历史的和现在的健康状况，使用神经网络预测未来的医疗风险；本发明解决了在医疗过程中预测未来医疗风险问题的四项挑战，即：长期的医疗依赖；入院信息的表示；情节记录和无规律时间以及混淆疾病进展和干预之间的相互作用，并且证实了其有效性，与现有的预测模型对比明显提高了其准确性，推动了医疗风险预测技术的前进。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为编码植入示意图；

图2为一个LSTM单元示意图；

图3为一个C-LSTM单元示意图；

图4本发明的结构框架图；

图5(a)为糖尿病在12个月内F-评分(％)；

图5(b)为精神疾病在3个月内的高危预测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明提出的一种基于病历的深度学习预测医疗轨迹的方法，步骤如下：

1)构建电子病历(ElectronicMedicalRecords，EMRs)作为诊断、干预编码、入院类型和时间推移的序列的模型；

2)根据长短时记忆模型构建当前疾病状况模型；

3)预测疾病的进展模型；

4)疾病干预推荐模型；

5)建立病人的未来风险预测模型。

电子病历(ElectronicMedicalRecords，EMRs)作为诊断、干预编码、入院类型和时间推移的序列的。一次入院包含多种诊断和干预措施。干预包括过程和药物。诊断、过程和药物是使用编码方案编码的。将编码后的入院信息转换成向量，如图1所示。一次入院是一个可变大小的代码集(诊断和干预)。设D是诊断代码集，L是一组干预代码。这两个集合的索引分别从1到D，1到L。用A∈R^M×|D|表示诊断转换矩阵，B∈R^M×|L|表示干预转换矩阵。设A^j是第j列的元素，A^ji是矩阵A的第i行第j列元素。每次入院t包含h种诊断：d₁，d₂，…d_h∈{1，2，…，|D|}和k种干预s₁，s₂，…s_k∈{1,2，…，|L|}。编码首先被转换成向量。诊断与干预编码的转换向量是A^d1，...，A^dk和B^s1，...,B^sk。然后，汇集所有当前诊断向量得到x_t∈R^M。同样，得到一个汇集的干预向量P_t∈R^M。最后，一次入院转换成一个2M维的向量[x_t，p_t]。对两个矩阵进行随机初始化，然后通过训练预测任务来学习。

设x_t ⁱ是向量x_t的第i个元素，设p_t ⁱ是向量p_t的第i个元素，入院输入采用最大池化、归一池化和平均池化如下：

最大池化入院信息(maxadm.)。逐元素汇集如下：

其中，i＝1,2,...M。类似于选择性注意诊断和干预之间的影响最大的因素。也类似于通常的挑选一种诊断为入院的主要原因的编码实践。

归一池化入院信息(sumadm.)。患有多种疾病(多并发症)的患者比单病症患者更容易发生危险。归一化池化如下：

其中，i＝1，2，...M。归一化降低了大量的诊断和干预的影响。

平均池化入院信息(meanadm.)。在缺乏主要条件的情况下，平均池化可能是一个合理的选择：

得到了入院植入向量，诊断要素作为C-LSTM的输入。C-LSTM代表Care-LSTM单元。C-LSTM(图3所示)单元扩展自LSTM单元(图2所示)以反映医疗动态的特性，具体基于LSTM利用以下方式构建预测疾病的进展和干预推荐模型：

长短时记忆是一种有效解决梯度消失问题的循环神经网络。LSTM的中心是一个线性自循环记忆细胞，允许记忆通过长序列流动。记忆细胞被封闭来调节信息流向或来自细胞的信息。

一个LSTM单元在时间t有一个状态c_t∈R^K的记忆细胞。通过记忆细胞的信息流被3个门控制：输入门，遗忘门和输出门。输入门i_t∈R^K流入到细胞的输入，遗忘门ft∈RK控制记忆细胞的遗忘且输出门o_t∈R^K调节来自记忆细胞的输出流。用σ表示向量的逐元素的sigmoid函数，*表示两个向量的乘积。

三个门都是sigmoid单元，它将门的每个元素的值设置为0到1之间

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b₀)

其中W{i，f，o}，U{i，f，o}，b{i，f，o}是参数.门控通过的信息量：当值为1时满值，当值为0时完全阻塞。

在每一个时间步t，首先计算输入特征x_t∈R^M，先前的隐藏层h_t-1∈R^K通过一个挤压tanh函数：

g_t＝tanh(W_cx_t+U_ch_t-1+b_c)

记忆细胞通过先前记忆细胞的部分遗忘来更新，且调整输入特征如下：

c_t＝f_t*c_t-1+i_t*g_t

记忆细胞序列是可加性的，因此梯度也通过链式法则以线性方式更新，这有效地防止梯度消失或爆炸。记忆细胞在通过可学习遗忘门f_t记忆过去的经验中起着至关重要的作用。相反，f_t→1，所有的过去记忆被保存，且随着新的输入新的记忆保持更新。如果f_t→0，只有新的经验被更新，系统变得无记忆。

最后，根据记忆c_t计算隐藏的输出状态h_t，由输出门o_t控制如下所示:

h_t＝o_t*tanh(c_t)

C-LSTM模拟干预的效果和捕获时间的不规则性。两种主要的入院类型：计划性和非计划性。非计划性入院指的是从急诊人员的转移，这通常表明更高的风险。因为输入门i控制记忆细胞的信息更新，所以修正该门以反映入院类型的风险等级如下：

其中m_t＝1，如果入院方式是未计划的，m_t>1其他，且σ是向量按元素的sigmoid函数。

因为干预是为了治疗疾病或减轻患者的疾病，控制疾病状态的输出门，由当前的干预调整如下：

o_t＝σ(W_ox_t+U_oh_t-1+P_op_t+b_o)

其中P₀是输出门的干预权重矩阵，P_t是时间步t的干预。

此外，干预可能具有长期影响(例如，治疗疾病或引入毒性)。这表明疾病的遗忘被先前的干预调节

f_t＝σ(W_fx_t+U_fh_t-1+P_fp_t-1+b_f)

其中P_t-1是时间步t-1的干预植入向量，且P_f是遗忘门的干预权重向量。

当患者的病史由LSTM建模时，记忆细胞携带病史。但是随着疾病状态的变化，这种记忆不一定是恒定的。在C-LSTM中，引入两个机制，通过修正方程中的遗忘门f_t来遗忘记忆。

时间衰减。有些严重的状况通过时间的影响它们会自然减轻这意味着一个简单的衰减模型在遗忘门f_t：

f_t←d(△_t-1:t)f_t

其中Δ_t-1:t是t-1到t的时间步，且d(Δ_t-1:t)∈(0，1]是一个衰减函数，即在时间上单调递减。当函数d(Δ_t-1:t)＝[log(e+Δ_t-1:t)]^-1工作良好。

其中Δ_t-1:t测量以天为单位，e≈2.718是自然对数的基数。

时间参数。当一些状况可能变得更糟的时候，时间衰减可能无法捕捉所有的状况，且其他状况可能是长期的。这表明有一个更加灵活的参数遗忘：

其中其中q_Δt-1:t是由时间差Δ_t-1:t得到的向量，Q_f是时间参数权重矩阵。

例如，

模拟三阶动态遗忘。Δ_t-1:t测量以天为单位，并除以60，180和365，避免向量qΔt-1:t具有大的值。

疾病进展是指在下一个时间步未来疾病的发生。它可能是同一疾病从一个阶段到另一阶段，疾病的复发或向新疾病的转变的进展。疾病状态h_t可用来预测一种诊断代码d_t+1如下

其中softmax(Z)＝e^z/∑_z’e^z’，w_c是特定编码的参数。

干预建议是指对当前诊断的药物和程序进行预测。类似于疾病进展，时间t的干预代码s_t可以被生成如下

其中v_c是特定编码的参数。

构建病人的未来风险预测模型，在C-LSTM层的顶部加多尺度时间结构，以预测未来。意味着在多个时间范围内汇集历史疾病状态，反映疾病进展的可变速率。

对于每段水平时间轴的状态汇集，用以下公式衡量最近事件：

其中r_t＝[m_t+log(1+Δ_t:n)]^-1，Δ_t:n是按月测量的t时刻和当前n时的时间；m_t＝1表示紧急入院，m_t＝2表示常规入院。

当所有疾病状态汇集并堆积成向

被反馈到神经网络以预测未来结果Y。

具有一层隐藏层的神经网络，如下：

z_y＝U_ya_h+b_y

P(y|u_1:n)＝f_prob(z_y)

函数f_prob(z_y)取决于未来结果的性质。

综上，模型的全过程如图4所示，计算步骤可归纳如下：

P(y|u_1:n)＝P(nnet_y(pool{C～LSTM(u_1:n)}))

其中u_1:n是入院观察的输入序列，y是感兴趣的结果(例如，再入院)，nnet_y表示神经网络对结果y的估计，P是结果的概率模型。

本发明解决了在医疗过程中回答预后问题的四项挑战，即：长期的医疗依赖；入院信息的表示；情节记录和无规律时间；混淆疾病进展和干预之间的相互作用，并证实了其有效性，与现有的模型对比准确性明显提高。

本例将实施两种慢性群体的个案研究：精神疾病和糖尿病。对于每一种慢性病，模拟疾病过程，干预建议和未来风险预测。

两个群体的数据从一个大的地区澳大利亚医院收集了12年(2002-2013)。

将电子病历作为诊断、干预编码、入院类型和时间推移的序列，使用ICD-10编码疾病，删除患者的入院信息不完整和入院少于两次的病人对数据进行了预处理。词汇表被定义为诊断，程序和药物代码的集合。

在糖尿病群体中，有7153个诊断编码和1126个干预编码，而在精神疾病群体中，有8127个诊断编码和1351个干预编码。两个数据集中的词汇表都很大，在训练模型时可能会导致过拟合。为了减少词汇量，我们将前2个字符共享的诊断折叠成一个诊断。例如，E10.1将折叠为E1。

经过预处理，糖尿病群体数据集包含7191名患者，53208名入院。词汇表包括243个诊断，773个程序和353个药物编码。精神疾病数据集包括6109名患者和52049名入院者，共有247个诊断词汇，752个程序和319个药物编码。

对于每个数据集，2/3用于参数估计，1/6用于调整，和1/6是用于测试。

对于疾病进展预测，模型每次执行中预测接下来的n_p种诊断。为了比较，实施了两种基线：马尔科夫模型和普通循环神经网络(RecurrentNeuralNetwork，RNN)。马尔可夫模型是用于模拟变化系统的随机模型。马尔可夫模型由可能状态列表，这些状态之间可能的转换以及这些转换的概率组成。未来的状态仅取决于现状(马尔可夫假设)。马尔可夫模型具有无记忆的疾病转变概率

从疾病d^j至dⁱ的时间为t。考虑入院疾病信息的一个子集D_t，下一次疾病的概率估计为

使用PrecisionatK(Precision@K)来测量模型的性能。Precision@K对应于检索结果中相关结果的百分比。即，如果模型预测下一次再入院的有np种诊断，其中nr种诊断是相关的，那么模型的性能是

表1显示了不同n_p的Precision@NP值。对于糖尿病组，用普通RNN改善无记忆马尔科夫模型，n_p＝1时提高了8.8％，n_p＝3提高了27.7％。这一改进表明了在时序数据中动态建模的作用。在本发明(DeepCare)中对不规则时间和干预进行建模可以获得进一步提高2％。对于精神疾病组，马尔可夫模型未能预测下一次诊断(9.5％对于n_p＝1)。简单RNN获得50％Precision@1的改进，而DeepCare则比普通循环神经网络提高了2％在Precision@1时。

首先使用DeepCare进行干预推荐任务的实验。在每次入院时该模型预测当前n_p种干预。由于目前的干预措施是预测的输出，DeepCare只读取当前的诊断和先前的干预作为输入。则调整当前的干预如下

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

表2显示了当前干预预测的结果。对于所有的n_p值，RNN在糖尿病和精神疾病群体中的表现始终优于马尔可夫模型。具有sumadm.的DeepCare优于其他模型在糖尿病和精神疾病数据集。

对于未来疾病的预测。对于每一位患者，随机选择出院作为预测点，从中预测未计划的再入院和高危患者在X月内的预测。选择X＝12的糖尿病和X＝3的精神疾病。结果用F1-分数测量。

为了比较，基线SVM和随机森林运行在标准的非时空特征工程上使用独热编码表示目前的诊断和干预的代码且普通RNN和LSTM在入院序列上运行。独热码表示是维度等于词汇量大小的向量，代码索引处的值是1并且所有其他索引是0。然后池化用来合并每个病人存在的所有入院信息。测试了两种池化方法：max和sum。

表3使用DeepCare模型显示了预训练和正则化对糖尿病数据集中计划外再入院预测的影响。预训练和正则化改进了入院信息的三种池化方法的结果。虽然通过正则化发现平均池化执行表现良好，但是最大池化通过预训练产生最佳结果，并且总和池化在两种方法中产生最佳结果。

表4显示了预测计划外再入院的F-分数。对于糖尿病群体，最佳基线(非时间)是随机森林，总和池化的F-分数为71.4％[第4行]。使用具有简单逻辑回归的普通RNN改善了最佳非时间方法，在12个月预测中差异为3.7％[第5行]。用LSTM单元取代RNN单元可以获得4.5％的提升[第6行]。通过使用神经网络作为分类器移动到深度模型有助于获得5.1％的改进[第7行]。通过仔细模拟不规则时间，干预和时间+多尺度汇集，获得5.7％的改善[第8行]。最后，在参数时间内，得到79.0％的F-分数，比最佳基线提高了7.6％[第9行]。

对于精神疾病数据集，最佳非时间基线是总和池随机森林，结果为67.9％。具有逻辑回归层的普通RNN和LSTM分别获得2.6％和3.8％的改进。最好的模型是具有时间参数的DeepCare比总和池化的随机森林提高了6.8％。

关于DeepCare在高风险患者预测任务中的表现。图5显示了高风险预测的F-分数。对于两个群组，RNN改进了超过10％F-分数的最佳非时间模型。最大池化的DeepCare在糖尿病数据集中表现最佳，F-score接近60％，而总和池化DeepCare在精神疾病群体中获得50.0％F-score。

综上所述DeepCare用于读取病例、存储先前的病史、推断当前的疾病状况和预测未来的医疗结果的有效性，解决了长期面临的回答预后问题建模中的入院信息的表示、情节记录和无规律时间、混淆疾病进展和干预之间的相互作用的三个挑战。

Claims

1.一种基于病历的深度学习预测医疗轨迹的方法，其特征在于：包括以下步骤：

S1、将入院时的诊断信息和干预信息通过编码方案进行编码，将编码后的入院信息转换成向量，编码后的诊断信息的转换向量为A^d1，...，A^dk，编码后的干预信息的转换向量为B^s1，...，B^sk，汇集所有编码后的诊断信息转换向量得到x_t∈R^M，汇集所有编码后的干预信息转换向量得到P_t，P_t的取值空间是R^M；最后，将一次入院的诊断信息转换向量和干预信息转换向量转换成一个2M维的向量[x_t,p_t]；