CN113077901B

CN113077901B - 一种电子病历分析装置和方法

Info

Publication number: CN113077901B
Application number: CN202110348004.9A
Authority: CN
Inventors: 杨帆; 陈婉仪; 林开标; 赖永炫; 姚毅虹
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-05-10
Anticipated expiration: 2041-03-31
Also published as: CN113077901A

Abstract

本发明涉及一种电子病历分析装置和方法，包括：获取EHR数据中的疾病编码、医疗干预编码、住院类型和入院/出院时间；将获取的患者信息作为住院‑长短期记忆神经网络Care‑LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t和用于反映统一诊疗记录间的内在关联的权重系数β_t；基于住院类型和住院间隔时间，得到权重系数r_t；基于权重系数α_t、β_t和r_t，得到总权重系数w_t；将总权重系数w_t与表征向量进行加权平均获得最终状态向量；将最终状态向量作为全连接层和激活函数的输入，获得ICU患者的死亡风险概率。本发明通过住院‑长短期记忆神经网络Care‑LSTM获得两组权重向量，使得分析结果更为准确。

Description

一种电子病历分析装置和方法

技术领域

本发明涉及信息智能化领域，特别涉及一种电子病历分析装置和方法。

背景技术

上个世纪八九十年代，专家们已经构建出相对完备的专业评分系统用于ICU预后预测、描述疾病的严重程度和器官功能障碍程度，并在临床上得到广泛运用。常见的评分系统包括：APACHE(Acute Physiology and Chronic Health Evaluation)、SAPS(SimplifiedAcute Physiology Score)、MPM(Mortality Probability Model)以及它们的升级版本。这些专业的评分系统常截取患者进入ICU后一定窗口期(比如24小时或48小时)的生命体征监测数据和年龄、性别等人口学变量作为固定输入，连续特征变量进行离散化处理，系统最后输出一个有参考范围的评分值。

21世纪后，机器学习开始被广泛运用在死亡风险预测领域，使用到的方法包括逻辑回归、支持向量机、决策树等，这些模型多采用ICU患者短期内的监测数据，有时也结合APACHE评分或者SAPS数值等。然而采用传统机器学习方法或者统计学方法所采用的浅层结构很难充分挖掘到数据的潜在的、经验难以识别的信息。深度学习作为神经网络的扩展，通过深层非线性的分层网络结构可以实现复杂函数逼近，从变长的住院记录时序序列中学习到数据间的内在联系。

表征学习是基于深度学习使用EHR数据展开相关研究的一大重要任务，它弥补了以往使用one-hot编码无法捕获特征之间语义性的缺陷，学者们从自然语言处理获得启发，将Skip-gram运用到EHR数据得到高质量的分布式向量表征，但是不同于自由文本，EHR数据必须考虑诊疗记录之间在时间上的联系。Phuoc Nguyen等提出了Deepr模型利用CNN对EHR长序列进行特征提取，然而CNN只能捕获局部特征信息。Edward Choi等提出Doctor AI模型，将疾病编码、药物编码和时间通过multi-hot的技术拼接在一起映射到一个低维空间，通过RNN的变体GRU将低维空间向量表征成高维向量，还可以通过多层堆叠提高网络的表征能力，模型被运用到疾病诊断和药方推荐的任务中。类似的，Zachary C.Lipton等融合疾病编码和疾病类型在LSTM上进行训练，但这些模型的准确率仍有待提高，且不具备可靠的模型解释性。

发明内容

本发明的目的在于克服现有技术的不足，提出一种电子病历分析装置和方法，自动地从异质、多层级的、时序的EHR数据中提取高质量的表征，引入双层注意力机制从患者的既往病史获取有助于评价当前状态的信息，双层注意力机制调用融合多类患者数据的住院-长短期记忆神经网络Care-LSTM以获得两组权重向量，分别关注病情发展和干预交互的内在联系，最后通过全连接层和Softmax函数得到死亡风险概率，所获得的死亡风险概率准确性高、稳定性好。

本发明解决其技术问题所采用的技术方案是：

一方面，一种电子病历分析装置，包括：

患者信息获取单元，用于获取EHR数据中的疾病编码x_t、医疗干预编码p_t、住院类型m_t和入院/出院时间；分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t；基于入院/出院时间，获得住院间隔时间Δt；其中的各变量的下标t表示t时刻的变量；

处理单元，用于将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t和用于反映统一诊疗记录间的内在关联的权重系数β_t；基于住院类型m_t和住院间隔时间Δt，计算得到权重系数r_t；基于权重系数α_t、β_t和r_t，计算得到总权重系数w_t；将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

将最终状态向量

作为全连接层和激活函数的输入，获得ICU患者的死亡风险概率。

优选的，所述获取单元中，采用Med2Vec表征方法，分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t。

优选的，所述住院-长短期记忆神经网络Care-LSTM包括遗忘门f_t、输入门i_t和输出门o_t，分别表示如下：

o_t＝σ(W_o·X_t+U_o·h_t-1+P_o·P_t+b_o)

其中，σ表示sigmoid激活函数；W_i表示疾病变量对t时刻细胞输入的贡献程度；U_i表示t-1时刻的潜在状态对t时刻细胞输入的贡献程度；h_t-1表示t-1时刻输出的潜在状态；b_i表示t时刻细胞输入的偏差值；W_f表示疾病变量对t时刻细胞遗忘量的贡献程度；U_f表示t-1时刻的潜在状态对t时刻细胞遗忘量的贡献程度；P_f表示医疗干预变量对t时刻细胞遗忘量的贡献程度；Q_f表示住院变量对t时刻细胞遗忘量的贡献程度；b_f表示t时刻细胞遗忘量的偏差值；

表示相邻住院间隔时间内的住院变量；W_o表示疾病变量对t时刻细胞输出的贡献程度；U_o表示t-1时刻的潜在状态对t时刻细胞输出的贡献程度；P_o表示医疗干预变量对t时刻细胞输出的贡献程度；b_o表示t时刻细胞输出的偏差值；Δ_t-1:t表示相邻住院间隔时间。

优选的，将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t，具体包括：

在诊疗记录的层面上，通过住院-长短期记忆神经网络Care-LSTM和Softmax函数学习到处于0～1的权重向量α_t，具体如下：

g_t＝Care_LSTM([X_t；P_t；m_t；Δ_t-1:t])

其中，g_t∈R^p，表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层；参数W_α∈R^p表示实数空间R中维度为p的向量；b_α∈R表示偏差值，为标量。

优选的，将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映统一诊疗记录间的内在关联的权重系数β_t，具体包括：

在疾病层面上，通过住院-长短期记忆神经网络Care-LSTM和tanh函数学习到处于-1～1的权重系数β_t，其中负数表示存在抑制关系，具体如下：

e_t＝Care_LSTM([X_t；P_t；m_t；Δ_t-1:t])

β_t＝tanh(W_βe_t+b_β)

其中，e_t∈R^q，表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层，参数W_β∈R^p×q，表示实数空间R中维度p×q的权重矩阵；b_β∈R^d，表示实数空间R中维度为d维的偏差向量。

优选的，基于住院类型m_t和住院间隔时间Δt，计算得到权重系数r_t，具体如下：

r_t＝[m_t+log(1+Δ_t:T)]^-1

其中，r_t∈R^d表示自定义的d维调和权重向量，Δ_t:T表示第t次记录入院时间距离最后一次记录出院的天数。

优选的，基于的权重系数α_t、β_t和r_t，计算得到总权重系数w_t，具体如下：

优选的，将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

具体如下：

其中，T表示患者样本的总住院次数；t1表示患者样本的第1次住院。

优选的，将最终状态向量

作为全连接层和激活函数的输入，获得ICU患者的死亡风险概率，具体如下：

其中，f_prob表示激活函数；FCN表示全连接层。

另一方面，一种电子病历分析方法，包括：

获取患者信息；包括，获取EHR数据中的疾病编码x_t、医疗干预编码p_t、住院类型m_t和入院/出院时间；分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t；基于入院/出院时间，获得住院间隔时间Δt；其中的各变量的下标t表示t时刻的变量；

将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t和用于反映统一诊疗记录间的内在关联的权重系数β_t；基于住院类型m_t和住院间隔时间Δt，计算得到权重系数r_t；基于权重系数α_t、β_t和r_t，计算得到总权重系数w_t；将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

将最终状态向量

根据本发明的实施例，本发明具有如下有益效果：

(1)本发明采用Med2Vec单层结构的表征方法，分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t，解决了one-hot编码稀疏性带来的表征准确性降低的问题，且计算速度更快，降低了计算成本；

(2)本发明引入双层注意力机制，诊疗记录的层面的注意力机制关注病情的发展演变，探索多个诊疗记录之间的联系，因为患者当前时刻的健康状况同既往病史息息相关；具体的疾病层面或者干预手段层面的注意力机制关注同一诊疗记录之内多种疾病或多项干预手段内的交互，因为很多时候疾病间存在并发的关系，而药物或者治疗干预也存在协同或拮抗作用；获得双层注意力机制的两组权重向量α_t和β_t由疾病编码和医疗干预编码、住院类型、间隔时间等多种变量的住院-长短期记忆神经网络Care-LSTM实现，最后经权重系数r_t调和得到总权重系数w_t，与患者各记录的疾病表征加权平均后获得最终状态向量

再经过全连接层FCN Layer(Full Connection Layer)和Softmax函数得到最终的死亡风险概率，所获得的死亡风险概率准确性高、稳定性好。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种电子病历分析装置和方法不局限于实施例。

附图说明

图1是本发明实施例的电子病历分析装置的结构框图；

图2是本发明实施例的电子病历分析装置流程图；

图3是本发明实施例的Med2Vec简化的单层结构；

图4是根据本发明实施例的Care-LSTM结构。

具体实施方式

下面结合附图详细描述本发明的实施例，需要注意的是附图所描述的实施例仅仅是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。以下结合附图描述根据本发明实施例的电子病历分析装置和方法。

参见图1所示，一种电子病历分析装置，包括：

患者信息获取单元101，用于获取EHR数据中的疾病编码x_t、医疗干预编码p_t、住院类型m_t和入院/出院时间；分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t；基于入院/出院时间，获得住院间隔时间Δt；其中的各变量的下标t表示t时刻的变量；

处理单元102，用于将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t和用于反映统一诊疗记录间的内在关联的权重系数β_t；基于住院类型m_t和住院间隔时间Δt，计算得到权重系数r_t；基于的权重系数α_t、β_t和r_t，计算得到总权重系数w_t；将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

将最终状态向量

参见图2所示，为本发明的电子病历分析装置的算法流程，其中使用到的HER(电子健康记录)数据有疾病编码、医疗干预编码、住院类型和入院/出院时间。

具体的，所述疾病编码以ICD-9编码表示，在处理数据时为避免过拟合可截取所有ICD码的前三位进行表示。

所述的医疗干预编码采用DRGs替代(Diagnosis Related Groups)，DRGs为诊断相关分组，是一种病人分类方案，它根据出院病历综合考虑患者的主要诊断和主要治疗方式，结合个体体征入年龄、并发症和伴随病等，将疾病复杂程度和费用相似的病历分到同一组中，以不同数字编码加以区分，考虑到DRGs码包含的信息丰富，可以覆盖到本文无法获取的数据，所以以DRGs码代替由药物和治疗手段组成的医学干预，实践证明利用DRGs码确实可以提升效果。

所述的住院类型包含ELECTIVE、URGENT、NEWBORN和EMERGENCY四种，本文将URGENT和EMERGENCY并称为紧急状态，其他称为非紧急状态。

所述的入院/出院时间在EHR原数据中已脱敏，本发明要根据这两项获得住院时间间隔。

参见图3所示，本实施例将Med2Vec简化为单层结构，令D表示疾病编码集，D＝{d₁,d₂,...,d_k}，令L表示医疗干预编码集，L＝{l₁,l₂,...l_s}，先把每条记录的疾病离散序列和干预离散序列表示成二值向量格式，得到生成的x_t和p_t，x_t∈{0,1}^D,p_t∈{0,1}^L,t＝1,2,...,T，表示有T条住院记录(包含有ICU和非ICU住院记录)，接着将二值格式的向量嵌入到高维非负空间：

X_t＝ReLU(W_xembx_t+b_x) (1)

P_t＝ReLU(W_pembp_t+b_p) (2)

其中，W_xemb∈R^d×D表示实数空间R中维度d×|D|的权重矩阵，W_pemb∈R^d×L表示维度d×|L|的权重矩阵,b_x∈R^d,b_p∈R^d分别表示d维的偏差向量。这种“multi-hot”表征方法解决了one-hot编码稀疏性带来的表征准确性降低的问题，且计算速度更快，降低了计算成本。

现有的长短期记忆神经网络LSTM内部有四层，式(3)-(8)描述了LSTM的运行原理。核心是细胞状态C_t，所在信息流分支少，所以即使是来自更远时间的信息也可以流过整个网络。LSTM网络通过三个门来控制C_t，分别为遗忘门f_t、输入门i_t和输出门o_t。顾名思义，遗忘门f_t通过查看x_t和h_t-1输出一个[0,1]之间的向量来决定上一步的细胞状态C_t-1要保留多少，丢弃多少。输入门i_t则结合候选细胞状态

共同决定要更新的信息。于是，由遗忘门和输入门共同更新得到当前时刻的细胞状态。将细胞状态C_t经过tanh层得到一个[-1,1]的向量，与输出门相乘得到最终决定该神经元的输出。

f_t＝σ(W_f·[x_t,h_t-1]+b_f) (3)

i_t＝σ(W_i·[x_t,h_t-1]+b_i) (4)

o_t＝σ(W_o·[x_t,h_t-1]+b_o) (7)

h_t＝o_t*tanh(C_t) (8)

本发明使用的住院-长短期记忆神经网络Care-LSTM相比于标准LSTM，除了疾病变量X_t之外，还融进了医疗干预表征向量P_t、住院类型m_t、由相邻住院时间间隔Δ_t:-1:t组成的向量q_t。公式(9)～(12)描述了Care-LSTM门限机制的运行原理区别于标准的部分。每一时刻相当于患者的一次记录。医疗干预向量被添加到遗忘门和输出门内，输出门中由当前时间干预变量P_t实施干预，而遗忘门则由上一时刻的P_t-1实施干预，因为遗忘门用来决定要保留上一状态的多少信息。遗忘门中还加入时间间隔变量

其中相邻时间间隔Δ_t-1:t＝当前入院时间-上一次住院出院时间(天数)，分别折算成以两个月计算、半年计算和一年计算表示成三个时间维度的时间间隔变量。输入门添加住院类型的权重系数

若是紧急住院情况，则权重大，若是非紧急状态，则权重小。更新后的输入门影响细胞状态的更新。如图4所示展示了在标准LSTM的基础上新增变量得到的Care-LSTM结构，使注意力机制在分配权重时衡量更多信息。

o_t＝σ(W_o·X_t+U_o·h_t-1+P_o·P_t+b_o) (12)

注意力机制在最近几年广受关注，特别是Google2017年发表的《Attention isall you need》，完全摆脱了传统RNN结构，为人们提供了一种新的视角来描述Attention机制，此后衍生出各种attention拓展结构。Attention由人类观察环境的习惯规律总结而来，当人类在观察全局环境时，很难做到面面俱到，往往只关注某几个利益相关的局部，获得相关信息来构建自己对环境的认知。Attention机制如果单从数学表达上可以理解为“加权求和”，从长时间序列来看其实是在找寻当前序列的最大相似性度量。应用到医疗数据研究领域更为形象，即模拟医生问诊时对患者既往病史的浏览和分析，与患者当前状态相似性度量较大的病史赋予更大的权重，较小则赋予较小的权重，完成对过往信息的探索。在本文模型的Attention部分，参考Edward Choi等提出的RETAIN模型中使用的双层注意力机制，在RETAIN中作者使用的是标准GRU网络训练，输入变量只考虑疾病表征和时间变量——住院天数，且只是将住院天数简单地拼接在疾病表征向量上，训练时反转时间逆序训练得到权重向量。不同于RETAIN，本文的模型在时间的角度上考虑到了时间间隔对权重的影响，有意识地令时间间隔在遗忘门的表达式中参数化表示，参与过去信息的去留决定，且并不采用逆向训练的方法，虽然RETAIN作者认为这样可以更多地关注到近期的记录，但是本文经实验发现反转时间反而使准确率下降，且对于慢性病患者，某一疾病可能跟随患者很多年，对患者健康具有潜在威胁，甚至是造成病情恶化乃至死亡的重要因素。

如下将对双注意力机制进行说明，需要说明的是，为了便于理解，下列表达式均只考虑单个患者。

在诊疗记录的层面上，式(13)-(14)通过Care-LSTM网络和Softmax函数学习到处于0～1的权重向量α_t，如下：

g_t＝Care_LSTM([X_t；P_t；m_t；Δ_t-1:t]) (13)

其中，g_t∈R^p，表示从Care-LSTM网络输出的第t时刻的隐藏层，参数W_α∈R^p,b_α∈R。α_t反映的是不同时间下诊疗记录的关联性，主要关注病情的发展和演变。

在具体的疾病层面或干预手段层面上，式(15)-(16)通过Care-LSTM网络和tanh函数学习到处于-1～1的权重系数β_t，负数表示存在抑制关系：

e_t＝Care_LSTM([X_t；P_t；m_t；Δ_t-1:t]) (15)

β_t＝tanh(W_βe_t+b_β) (16)

其中，e_t∈R^q，表示从Care-LSTM网络输出的第t时刻的隐藏层，参数W_β∈R^p×q,b_β∈R^d。β_t反应的是同一诊疗记录间的内在关联，主要关注不同疾病和不同干预的交互。

r_t＝[m_t+log(1+Δ_t:T)]^-1 (17)

式(17)为自定义的调和权重系数，r_t∈R^d，Δ_t:T表示第t次记录入院时间距离最后一次记录出院的天数，从表达式可以更加直观地看出，时间较为久远的、非紧急住院记录将被弱化掉，r_t作为权重系数的补充。

最终整个双层Attention机制学习到权重系数由w_t表示，由α_t、β_t和r_t共同决定，α_t和β_t取均值后同r_t做点积(element-wise)(式18)，实验结果证明比三者同时点积的效果要好。

最后，权重系数w_t对疾病表征向量X_t加权平均后得到最终形态的患者表征向量

(20)为在顶层获得的ICU患者死亡风险概率，f_prob表示激活函数，这里指代Softmax函数。

为了检验本发明装置的有效性，本文一共采用了五种深度学习模型与本发明装置所使用的算法(住院-长短期记忆神经网络Care-LSTM及双注意力机制)对比，基准模型结构如下：

·RNN：使用标准GRU，模型无Attention机制。模型最后调整的学习率为0.05，疾病表征大小为32，隐藏层大小为64.

·带有注意力机制的多任务RNN预测模型，主要任务是进行住院死亡率预测，并以患者一连串的生理时间序列的重建作为辅助任务共同训练网络。使用的EHR数据，Encoder使用简化的Med2Vec进行表征，包含32个隐藏单元，Decoder使用GRU，包含32个隐藏单元，学习率为0.1.

·LSTM-NN：使用LSTM进行特征学习后经过两层全连接层输出住院死亡率预测，使用简化的Med2Vec进行表征，包含32个隐藏单元，Decoder使用GRU，包含32个隐藏单元，学习率为0.05.

·RETAIN：双层级的Attention机制反转时间进行训练。模型调整后学习率为0.01，疾病表征大小为32，拼接时间变量后表征大小为33，隐藏层大小为64。

·DeepCare：融合了多种变量模型，作者给出的变长记录表征方法有三种：取最大、取平均和求和，实验选择最佳的一种池化方法——取均值构成等长记录表征。疾病表征和干预表征大小均为32，隐藏层大小为64，调整后学习率为0.01。

为了更加客观真实地反映各个模型的性能，所用到的评价指标包括：AUROC(AreaUnder the ROC Curve)、精确率、召回率、F1得分和每次迭代训练时间。表1记录了各个模型五个评估指标下的真实值，总体上反映了本发明算法DeepMPM(DEEP MortalityPrediction Model)更加准确的预测性能，虽然DeepMPM的精确率0.7406稍微低于DeepCare的0.7482，但是在死亡风险预测问题中侧重召回率的考量，因为召回率意味着模型能否能够将所有真实的具有死亡风险的ICU病人预测出来，精确率意味着模型找出的具有死亡风险的ICU病人是否都准确，相比之下，召回率更高的模型在临床过程中更能体现它的实际意义和价值。从模型结构来看，DeepCare模型融合了多种变量，但是却采用只根据住院类型和时间间隔的较为粗糙的方法去分配各条记录的权重，认为非紧急的、较为久远的记录应该被弱化掉，但这种规律并不总是奏效，时间较为久远的记录有时反而提供判断病情、施加干预的重要信息，即使入院时只是非紧急入院，也有可能在住院期间病情恶化造成严重后果。而RETAIN虽然精心设计双层Attention机制去探索记录之间的潜在联系且逆时序训练，却忽略了将多变量融合进神经网络以发挥深度学习的强大能力。总之，DeepMPM综合了RETAIN和DeepCare的核心优点，提升效果是显而易见的。

表1不同模型下死亡概率预测的训练结果

为了进一步探究模型对具体疾病的适用性，本文进行了如下对比实验：分别选取均为某一疾病的患者和含非该疾病患者的两组样本作为两个训练集，在同一该疾病患者的验证集上训练DeepMPM，对比验证结果。验证集选取的疾病为总样本中的两类高发疾病：充血性心力衰竭(congestive heart failure,CHF)，ICD9编码为4280；糖尿病(diabetes)，ICD9编码为2500。筛选之后CHF患者样本集大小为3285，正负样本比为1.808：1；Diabetes患者样本集大小为2705，正负样本比为1.300：1。实验训练采用批训练法，迭代次数为100次，验证采用五折交叉验证法。实验结果如表2所示。

表2不同训练集下DEEMPM的训练结果

分析如下：

从表格中我们可以清晰地看到，无论针对哪一类疾病，用含有非CHF(或非Diabetes)的样本集训练的识别CHF(或Diabetes)患者死亡风险模型的各个指标验证结果均优于只用CHF患者(或Diabetes患者)作为训练集训练得到的模型。可知，在训练集中加入与该疾病无关的样本能够提升预测性能。以CHF为例，充血性心脏病是由于心室泵血或充盈功能低下，心排血量不能满足机体代谢的需要，组织、器官血液灌注不足，同时出现肺循环或体循环淤血的一种疾病，是各种心脏病发展到严重阶段的临床综合征。引起CHF的危险因素有很多，比如心肌舒缩功能障碍是引起心衰最常见的原因，以舒张功能不全为主，见于高血压，左室肥厚等，其他的因素还有感染、心室后负荷过重、心律失常等等。心脏病学家Johns Gottdiener等曾经对全美四个地区的5625名65以上的老人的心血管健康数据进行研究分析，这些老人都有CHF高危因素，在平均随访5.5年时间里，有597人发展成了CHF，高危因素包括了高血压、动脉硬化、糖尿病和其他心脏疾患，且老年男性发病率更高。经过对本实验的样本统计发现，无论是在CHF患者或者非CHF患者，高血压、心颤、冠状动脉粥样硬化、急性肾衰竭、糖尿病等都是高发疾病，即非CHF患者也可以是CHF的“潜在候选人”，所以，即使用没有确诊为CHF的其他患者样本集训练得到的模型也可以学习到与CHF患者高度相似的特征，甚至因为样本集包含更加丰富的信息量而学到CHF样本集所缺少的重要信息，比如相似的用药或治疗手段等。这也从另一个角度印证了DeepMPM识别的死亡风险并非针对患者某一疾病，而是综合反映了ICU患者的整体健康状况。

根据本发明的另一方面，一种电子病历分析方法，包括：

获取EHR数据中的疾病编码x_t、医疗干预编码p_t、住院类型m_t和入院/出院时间；分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t；基于入院/出院时间，获得住院间隔时间Δt；其中的各变量的下标t表示t时刻的变量；

将最终状态向量

本发明运用EHR数据研究存在的多种类数据融合、诊疗记录存在长时间依赖和多种疾病和治疗干预间相互影响的难点，提出了端对端的电子病历分析装置及方法，采用了融合多类数据进行训练的Care-LSTM网络和双层注意力机制学习到可以度量历史记录相关性的权值向量。经过对比实验后，本发明的算法的准确率和稳定性得到了验证，而后还进行了不同训练集的对比实验，实验结果表明在训练集中包含非相关疾病患者的样本可以提高模型对该疾病患者死亡风险预测的准确率。

以上所述的具体实施例，对本发明的目的、技术方案和效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不限制本发明，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，所做出的修改、替换和变形均属于本发明的保护之内。

Claims

1.一种电子病历分析装置，其特征在于，包括：

患者信息获取单元，用于获取EHR数据中的疾病编码x_t、医疗干预编码p_t、住院类型m_t和入院/出院时间；分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t；基于入院/出院时间，获得住院间隔时间△t；其中的各变量的下标t表示t时刻的变量；

处理单元，用于将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t和用于反映统一诊疗记录间的内在关联的权重系数β_t；基于住院类型m_t和住院间隔时间△t，计算得到权重系数r_t；基于权重系数α_t、β_t和r_t，计算得到总权重系数w_t；将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

将最终状态向量

作为全连接层和激活函数的输入，获得ICU患者的死亡风险概率；

所述住院-长短期记忆神经网络Care-LSTM包括遗忘门f_t、输入门i_t和输出门o_t，分别表示如下：

o_t＝σ(W_o·X_t+U_o·h_t-1+P_o·P_t+b_o)

表示相邻住院间隔时间内的住院变量；W_o表示疾病变量对t时刻细胞输出的贡献程度；U_o表示t-1时刻的潜在状态对t时刻细胞输出的贡献程度；P_o表示医疗干预变量对t时刻细胞输出的贡献程度；b_o表示t时刻细胞输出的偏差值；△_t-1:t表示相邻住院间隔时间；

将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t，具体包括：

g_t＝Care_LSTM([X_t；P_t；m_t；△_t-1:t])

其中，g_t∈R^p，表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层；参数W_α∈R^p表示实数空间R中维度为p的向量；b_α∈R表示偏差值，为标量；

将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映统一诊疗记录间的内在关联的权重系数β_t，具体包括：

e_t＝Care_LSTM([X_t；P_t；m_t；△_t-1:t])

β_t＝tanh(W_βe_t+b_β)

其中，e_t∈R^q，表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层，参数W_β∈R^p×q，表示实数空间R中维度p×q的权重矩阵；b_β∈R^d，表示实数空间R中维度为d维的偏差向量；

基于住院类型m_t和住院间隔时间△t，计算得到权重系数r_t，具体如下：

r_t＝[m_t+log(1+△_t:T)]^-1

其中，r_t∈R^d表示自定义的d维调和权重向量，△_t:T表示第t次记录入院时间距离最后一次记录出院的天数。

2.根据权利要求1所述的电子病历分析装置，其特征在于，所述获取单元中，采用Med2Vec表征方法，分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t。

3.根据权利要求1所述的电子病历分析装置，其特征在于，基于的权重系数α_t、β_t和r_t，计算得到总权重系数w_t，具体如下：

4.根据权利要求1所述的电子病历分析装置，其特征在于，将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

具体如下：

5.根据权利要求4所述的电子病历分析装置，其特征在于，将最终状态向量

其中，f_prob表示激活函数；FCN表示全连接层。

6.一种电子病历分析方法，其特征在于，包括：

获取患者信息；包括，获取EHR数据中的疾病编码x_t、医疗干预编码p_t、住院类型m_t和入院/出院时间；分别将离散的疾病编码x_t和医疗干预编码p_t映射到连续分布高维空间，得到患者诊疗记录的表征向量X_t和P_t；基于入院/出院时间，获得住院间隔时间△t；其中的各变量的下标t表示t时刻的变量；

将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入，计算得到用于反映不同时间下诊疗记录关联性的权重系数α_t和用于反映统一诊疗记录间的内在关联的权重系数β_t；基于住院类型m_t和住院间隔时间△t，计算得到权重系数r_t；基于权重系数α_t、β_t和r_t，计算得到总权重系数w_t；将总权重系数w_t与表征向量X_t进行加权平均获得最终状态向量

将最终状态向量

o_t＝σ(W_o·X_t+U_o·h_t-1+P_o·P_t+b_o)

g_t＝Care_LSTM([X_t；P_t；m_t；△_t-1:t])

e_t＝Care_LSTM([X_t；P_t；m_t；△_t-1:t])

β_t＝tanh(W_βe_t+b_β)

r_t＝[m_t+log(1+△_t:T)]^-1