CN113077901B - 一种电子病历分析装置和方法 - Google Patents

一种电子病历分析装置和方法 Download PDF

Info

Publication number
CN113077901B
CN113077901B CN202110348004.9A CN202110348004A CN113077901B CN 113077901 B CN113077901 B CN 113077901B CN 202110348004 A CN202110348004 A CN 202110348004A CN 113077901 B CN113077901 B CN 113077901B
Authority
CN
China
Prior art keywords
time
hospitalization
weight coefficient
lstm
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110348004.9A
Other languages
English (en)
Other versions
CN113077901A (zh
Inventor
杨帆
陈婉仪
林开标
赖永炫
姚毅虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110348004.9A priority Critical patent/CN113077901B/zh
Publication of CN113077901A publication Critical patent/CN113077901A/zh
Application granted granted Critical
Publication of CN113077901B publication Critical patent/CN113077901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及一种电子病历分析装置和方法,包括:获取EHR数据中的疾病编码、医疗干预编码、住院类型和入院/出院时间;将获取的患者信息作为住院‑长短期记忆神经网络Care‑LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型和住院间隔时间,得到权重系数rt;基于权重系数αt、βt和rt,得到总权重系数wt;将总权重系数wt与表征向量进行加权平均获得最终状态向量;将最终状态向量作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率。本发明通过住院‑长短期记忆神经网络Care‑LSTM获得两组权重向量,使得分析结果更为准确。

Description

一种电子病历分析装置和方法
技术领域
本发明涉及信息智能化领域,特别涉及一种电子病历分析装置和方法。
背景技术
上个世纪八九十年代,专家们已经构建出相对完备的专业评分系统用于ICU预后预测、描述疾病的严重程度和器官功能障碍程度,并在临床上得到广泛运用。常见的评分系统包括:APACHE(Acute Physiology and Chronic Health Evaluation)、SAPS(SimplifiedAcute Physiology Score)、MPM(Mortality Probability Model)以及它们的升级版本。这些专业的评分系统常截取患者进入ICU后一定窗口期(比如24小时或48小时)的生命体征监测数据和年龄、性别等人口学变量作为固定输入,连续特征变量进行离散化处理,系统最后输出一个有参考范围的评分值。
21世纪后,机器学习开始被广泛运用在死亡风险预测领域,使用到的方法包括逻辑回归、支持向量机、决策树等,这些模型多采用ICU患者短期内的监测数据,有时也结合APACHE评分或者SAPS数值等。然而采用传统机器学习方法或者统计学方法所采用的浅层结构很难充分挖掘到数据的潜在的、经验难以识别的信息。深度学习作为神经网络的扩展,通过深层非线性的分层网络结构可以实现复杂函数逼近,从变长的住院记录时序序列中学习到数据间的内在联系。
表征学习是基于深度学习使用EHR数据展开相关研究的一大重要任务,它弥补了以往使用one-hot编码无法捕获特征之间语义性的缺陷,学者们从自然语言处理获得启发,将Skip-gram运用到EHR数据得到高质量的分布式向量表征,但是不同于自由文本,EHR数据必须考虑诊疗记录之间在时间上的联系。Phuoc Nguyen等提出了Deepr模型利用CNN对EHR长序列进行特征提取,然而CNN只能捕获局部特征信息。Edward Choi等提出Doctor AI模型,将疾病编码、药物编码和时间通过multi-hot的技术拼接在一起映射到一个低维空间,通过RNN的变体GRU将低维空间向量表征成高维向量,还可以通过多层堆叠提高网络的表征能力,模型被运用到疾病诊断和药方推荐的任务中。类似的,Zachary C.Lipton等融合疾病编码和疾病类型在LSTM上进行训练,但这些模型的准确率仍有待提高,且不具备可靠的模型解释性。
发明内容
本发明的目的在于克服现有技术的不足,提出一种电子病历分析装置和方法,自动地从异质、多层级的、时序的EHR数据中提取高质量的表征,引入双层注意力机制从患者的既往病史获取有助于评价当前状态的信息,双层注意力机制调用融合多类患者数据的住院-长短期记忆神经网络Care-LSTM以获得两组权重向量,分别关注病情发展和干预交互的内在联系,最后通过全连接层和Softmax函数得到死亡风险概率,所获得的死亡风险概率准确性高、稳定性好。
本发明解决其技术问题所采用的技术方案是:
一方面,一种电子病历分析装置,包括:
患者信息获取单元,用于获取EHR数据中的疾病编码xt、医疗干预编码pt、住院类型mt和入院/出院时间;分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt;基于入院/出院时间,获得住院间隔时间Δt;其中的各变量的下标t表示t时刻的变量;
处理单元,用于将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型mt和住院间隔时间Δt,计算得到权重系数rt;基于权重系数αt、βt和rt,计算得到总权重系数wt;将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure GDA0003558631580000024
将最终状态向量
Figure GDA0003558631580000025
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率。
优选的,所述获取单元中,采用Med2Vec表征方法,分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt
优选的,所述住院-长短期记忆神经网络Care-LSTM包括遗忘门ft、输入门it和输出门ot,分别表示如下:
Figure GDA0003558631580000021
Figure GDA0003558631580000022
Figure GDA0003558631580000023
ot=σ(Wo·Xt+Uo·ht-1+Po·Pt+bo)
其中,σ表示sigmoid激活函数;Wi表示疾病变量对t时刻细胞输入的贡献程度;Ui表示t-1时刻的潜在状态对t时刻细胞输入的贡献程度;ht-1表示t-1时刻输出的潜在状态;bi表示t时刻细胞输入的偏差值;Wf表示疾病变量对t时刻细胞遗忘量的贡献程度;Uf表示t-1时刻的潜在状态对t时刻细胞遗忘量的贡献程度;Pf表示医疗干预变量对t时刻细胞遗忘量的贡献程度;Qf表示住院变量对t时刻细胞遗忘量的贡献程度;bf表示t时刻细胞遗忘量的偏差值;
Figure GDA0003558631580000031
表示相邻住院间隔时间内的住院变量;Wo表示疾病变量对t时刻细胞输出的贡献程度;Uo表示t-1时刻的潜在状态对t时刻细胞输出的贡献程度;Po表示医疗干预变量对t时刻细胞输出的贡献程度;bo表示t时刻细胞输出的偏差值;Δt-1:t表示相邻住院间隔时间。
优选的,将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt,具体包括:
在诊疗记录的层面上,通过住院-长短期记忆神经网络Care-LSTM和Softmax函数学习到处于0~1的权重向量αt,具体如下:
gt=Care_LSTM([Xt;Pt;mt;Δt-1:t])
Figure GDA0003558631580000032
其中,gt∈Rp,表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层;参数Wα∈Rp表示实数空间R中维度为p的向量;bα∈R表示偏差值,为标量。
优选的,将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映统一诊疗记录间的内在关联的权重系数βt,具体包括:
在疾病层面上,通过住院-长短期记忆神经网络Care-LSTM和tanh函数学习到处于-1~1的权重系数βt,其中负数表示存在抑制关系,具体如下:
et=Care_LSTM([Xt;Pt;mt;Δt-1:t])
βt=tanh(Wβet+bβ)
其中,et∈Rq,表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层,参数Wβ∈Rp×q,表示实数空间R中维度p×q的权重矩阵;bβ∈Rd,表示实数空间R中维度为d维的偏差向量。
优选的,基于住院类型mt和住院间隔时间Δt,计算得到权重系数rt,具体如下:
rt=[mt+log(1+Δt:T)]-1
其中,rt∈Rd表示自定义的d维调和权重向量,Δt:T表示第t次记录入院时间距离最后一次记录出院的天数。
优选的,基于的权重系数αt、βt和rt,计算得到总权重系数wt,具体如下:
Figure GDA0003558631580000041
优选的,将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure GDA0003558631580000047
具体如下:
Figure GDA0003558631580000042
其中,T表示患者样本的总住院次数;t1表示患者样本的第1次住院。
优选的,将最终状态向量
Figure GDA0003558631580000043
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率,具体如下:
Figure GDA0003558631580000044
其中,fprob表示激活函数;FCN表示全连接层。
另一方面,一种电子病历分析方法,包括:
获取患者信息;包括,获取EHR数据中的疾病编码xt、医疗干预编码pt、住院类型mt和入院/出院时间;分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt;基于入院/出院时间,获得住院间隔时间Δt;其中的各变量的下标t表示t时刻的变量;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型mt和住院间隔时间Δt,计算得到权重系数rt;基于权重系数αt、βt和rt,计算得到总权重系数wt;将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure GDA0003558631580000045
将最终状态向量
Figure GDA0003558631580000046
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率。
根据本发明的实施例,本发明具有如下有益效果:
(1)本发明采用Med2Vec单层结构的表征方法,分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt,解决了one-hot编码稀疏性带来的表征准确性降低的问题,且计算速度更快,降低了计算成本;
(2)本发明引入双层注意力机制,诊疗记录的层面的注意力机制关注病情的发展演变,探索多个诊疗记录之间的联系,因为患者当前时刻的健康状况同既往病史息息相关;具体的疾病层面或者干预手段层面的注意力机制关注同一诊疗记录之内多种疾病或多项干预手段内的交互,因为很多时候疾病间存在并发的关系,而药物或者治疗干预也存在协同或拮抗作用;获得双层注意力机制的两组权重向量αt和βt由疾病编码和医疗干预编码、住院类型、间隔时间等多种变量的住院-长短期记忆神经网络Care-LSTM实现,最后经权重系数rt调和得到总权重系数wt,与患者各记录的疾病表征加权平均后获得最终状态向量
Figure GDA0003558631580000051
再经过全连接层FCN Layer(Full Connection Layer)和Softmax函数得到最终的死亡风险概率,所获得的死亡风险概率准确性高、稳定性好。
以下结合附图及实施例对本发明作进一步详细说明,但本发明的一种电子病历分析装置和方法不局限于实施例。
附图说明
图1是本发明实施例的电子病历分析装置的结构框图;
图2是本发明实施例的电子病历分析装置流程图;
图3是本发明实施例的Med2Vec简化的单层结构;
图4是根据本发明实施例的Care-LSTM结构。
具体实施方式
下面结合附图详细描述本发明的实施例,需要注意的是附图所描述的实施例仅仅是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。以下结合附图描述根据本发明实施例的电子病历分析装置和方法。
参见图1所示,一种电子病历分析装置,包括:
患者信息获取单元101,用于获取EHR数据中的疾病编码xt、医疗干预编码pt、住院类型mt和入院/出院时间;分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt;基于入院/出院时间,获得住院间隔时间Δt;其中的各变量的下标t表示t时刻的变量;
处理单元102,用于将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型mt和住院间隔时间Δt,计算得到权重系数rt;基于的权重系数αt、βt和rt,计算得到总权重系数wt;将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure GDA0003558631580000061
将最终状态向量
Figure GDA0003558631580000062
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率。
参见图2所示,为本发明的电子病历分析装置的算法流程,其中使用到的HER(电子健康记录)数据有疾病编码、医疗干预编码、住院类型和入院/出院时间。
具体的,所述疾病编码以ICD-9编码表示,在处理数据时为避免过拟合可截取所有ICD码的前三位进行表示。
所述的医疗干预编码采用DRGs替代(Diagnosis Related Groups),DRGs为诊断相关分组,是一种病人分类方案,它根据出院病历综合考虑患者的主要诊断和主要治疗方式,结合个体体征入年龄、并发症和伴随病等,将疾病复杂程度和费用相似的病历分到同一组中,以不同数字编码加以区分,考虑到DRGs码包含的信息丰富,可以覆盖到本文无法获取的数据,所以以DRGs码代替由药物和治疗手段组成的医学干预,实践证明利用DRGs码确实可以提升效果。
所述的住院类型包含ELECTIVE、URGENT、NEWBORN和EMERGENCY四种,本文将URGENT和EMERGENCY并称为紧急状态,其他称为非紧急状态。
所述的入院/出院时间在EHR原数据中已脱敏,本发明要根据这两项获得住院时间间隔。
参见图3所示,本实施例将Med2Vec简化为单层结构,令D表示疾病编码集,D={d1,d2,...,dk},令L表示医疗干预编码集,L={l1,l2,...ls},先把每条记录的疾病离散序列和干预离散序列表示成二值向量格式,得到生成的xt和pt,xt∈{0,1}D,pt∈{0,1}L,t=1,2,...,T,表示有T条住院记录(包含有ICU和非ICU住院记录),接着将二值格式的向量嵌入到高维非负空间:
Xt=ReLU(Wxembxt+bx) (1)
Pt=ReLU(Wpembpt+bp) (2)
其中,Wxemb∈Rd×D表示实数空间R中维度d×|D|的权重矩阵,Wpemb∈Rd×L表示维度d×|L|的权重矩阵,bx∈Rd,bp∈Rd分别表示d维的偏差向量。这种“multi-hot”表征方法解决了one-hot编码稀疏性带来的表征准确性降低的问题,且计算速度更快,降低了计算成本。
现有的长短期记忆神经网络LSTM内部有四层,式(3)-(8)描述了LSTM的运行原理。核心是细胞状态Ct,所在信息流分支少,所以即使是来自更远时间的信息也可以流过整个网络。LSTM网络通过三个门来控制Ct,分别为遗忘门ft、输入门it和输出门ot。顾名思义,遗忘门ft通过查看xt和ht-1输出一个[0,1]之间的向量来决定上一步的细胞状态Ct-1要保留多少,丢弃多少。输入门it则结合候选细胞状态
Figure GDA0003558631580000071
共同决定要更新的信息。于是,由遗忘门和输入门共同更新得到当前时刻的细胞状态。将细胞状态Ct经过tanh层得到一个[-1,1]的向量,与输出门相乘得到最终决定该神经元的输出。
ft=σ(Wf·[xt,ht-1]+bf) (3)
it=σ(Wi·[xt,ht-1]+bi) (4)
Figure GDA0003558631580000072
Figure GDA0003558631580000073
ot=σ(Wo·[xt,ht-1]+bo) (7)
ht=ot*tanh(Ct) (8)
本发明使用的住院-长短期记忆神经网络Care-LSTM相比于标准LSTM,除了疾病变量Xt之外,还融进了医疗干预表征向量Pt、住院类型mt、由相邻住院时间间隔Δt:-1:t组成的向量qt。公式(9)~(12)描述了Care-LSTM门限机制的运行原理区别于标准的部分。每一时刻相当于患者的一次记录。医疗干预向量被添加到遗忘门和输出门内,输出门中由当前时间干预变量Pt实施干预,而遗忘门则由上一时刻的Pt-1实施干预,因为遗忘门用来决定要保留上一状态的多少信息。遗忘门中还加入时间间隔变量
Figure GDA0003558631580000074
其中相邻时间间隔Δt-1:t=当前入院时间-上一次住院出院时间(天数),分别折算成以两个月计算、半年计算和一年计算表示成三个时间维度的时间间隔变量。输入门添加住院类型的权重系数
Figure GDA0003558631580000075
若是紧急住院情况,则权重大,若是非紧急状态,则权重小。更新后的输入门影响细胞状态的更新。如图4所示展示了在标准LSTM的基础上新增变量得到的Care-LSTM结构,使注意力机制在分配权重时衡量更多信息。
Figure GDA0003558631580000081
Figure GDA0003558631580000082
Figure GDA0003558631580000083
ot=σ(Wo·Xt+Uo·ht-1+Po·Pt+bo) (12)
注意力机制在最近几年广受关注,特别是Google2017年发表的《Attention isall you need》,完全摆脱了传统RNN结构,为人们提供了一种新的视角来描述Attention机制,此后衍生出各种attention拓展结构。Attention由人类观察环境的习惯规律总结而来,当人类在观察全局环境时,很难做到面面俱到,往往只关注某几个利益相关的局部,获得相关信息来构建自己对环境的认知。Attention机制如果单从数学表达上可以理解为“加权求和”,从长时间序列来看其实是在找寻当前序列的最大相似性度量。应用到医疗数据研究领域更为形象,即模拟医生问诊时对患者既往病史的浏览和分析,与患者当前状态相似性度量较大的病史赋予更大的权重,较小则赋予较小的权重,完成对过往信息的探索。在本文模型的Attention部分,参考Edward Choi等提出的RETAIN模型中使用的双层注意力机制,在RETAIN中作者使用的是标准GRU网络训练,输入变量只考虑疾病表征和时间变量——住院天数,且只是将住院天数简单地拼接在疾病表征向量上,训练时反转时间逆序训练得到权重向量。不同于RETAIN,本文的模型在时间的角度上考虑到了时间间隔对权重的影响,有意识地令时间间隔在遗忘门的表达式中参数化表示,参与过去信息的去留决定,且并不采用逆向训练的方法,虽然RETAIN作者认为这样可以更多地关注到近期的记录,但是本文经实验发现反转时间反而使准确率下降,且对于慢性病患者,某一疾病可能跟随患者很多年,对患者健康具有潜在威胁,甚至是造成病情恶化乃至死亡的重要因素。
如下将对双注意力机制进行说明,需要说明的是,为了便于理解,下列表达式均只考虑单个患者。
在诊疗记录的层面上,式(13)-(14)通过Care-LSTM网络和Softmax函数学习到处于0~1的权重向量αt,如下:
gt=Care_LSTM([Xt;Pt;mt;Δt-1:t]) (13)
Figure GDA0003558631580000091
其中,gt∈Rp,表示从Care-LSTM网络输出的第t时刻的隐藏层,参数Wα∈Rp,bα∈R。αt反映的是不同时间下诊疗记录的关联性,主要关注病情的发展和演变。
在具体的疾病层面或干预手段层面上,式(15)-(16)通过Care-LSTM网络和tanh函数学习到处于-1~1的权重系数βt,负数表示存在抑制关系:
et=Care_LSTM([Xt;Pt;mt;Δt-1:t]) (15)
βt=tanh(Wβet+bβ) (16)
其中,et∈Rq,表示从Care-LSTM网络输出的第t时刻的隐藏层,参数Wβ∈Rp×q,bβ∈Rd。βt反应的是同一诊疗记录间的内在关联,主要关注不同疾病和不同干预的交互。
rt=[mt+log(1+Δt:T)]-1 (17)
式(17)为自定义的调和权重系数,rt∈Rd,Δt:T表示第t次记录入院时间距离最后一次记录出院的天数,从表达式可以更加直观地看出,时间较为久远的、非紧急住院记录将被弱化掉,rt作为权重系数的补充。
Figure GDA0003558631580000092
最终整个双层Attention机制学习到权重系数由wt表示,由αt、βt和rt共同决定,αt和βt取均值后同rt做点积(element-wise)(式18),实验结果证明比三者同时点积的效果要好。
Figure GDA0003558631580000093
Figure GDA0003558631580000094
最后,权重系数wt对疾病表征向量Xt加权平均后得到最终形态的患者表征向量
Figure GDA0003558631580000095
(20)为在顶层获得的ICU患者死亡风险概率,fprob表示激活函数,这里指代Softmax函数。
为了检验本发明装置的有效性,本文一共采用了五种深度学习模型与本发明装置所使用的算法(住院-长短期记忆神经网络Care-LSTM及双注意力机制)对比,基准模型结构如下:
·RNN:使用标准GRU,模型无Attention机制。模型最后调整的学习率为0.05,疾病表征大小为32,隐藏层大小为64.
·带有注意力机制的多任务RNN预测模型,主要任务是进行住院死亡率预测,并以患者一连串的生理时间序列的重建作为辅助任务共同训练网络。使用的EHR数据,Encoder使用简化的Med2Vec进行表征,包含32个隐藏单元,Decoder使用GRU,包含32个隐藏单元,学习率为0.1.
·LSTM-NN:使用LSTM进行特征学习后经过两层全连接层输出住院死亡率预测,使用简化的Med2Vec进行表征,包含32个隐藏单元,Decoder使用GRU,包含32个隐藏单元,学习率为0.05.
·RETAIN:双层级的Attention机制反转时间进行训练。模型调整后学习率为0.01,疾病表征大小为32,拼接时间变量后表征大小为33,隐藏层大小为64。
·DeepCare:融合了多种变量模型,作者给出的变长记录表征方法有三种:取最大、取平均和求和,实验选择最佳的一种池化方法——取均值构成等长记录表征。疾病表征和干预表征大小均为32,隐藏层大小为64,调整后学习率为0.01。
为了更加客观真实地反映各个模型的性能,所用到的评价指标包括:AUROC(AreaUnder the ROC Curve)、精确率、召回率、F1得分和每次迭代训练时间。表1记录了各个模型五个评估指标下的真实值,总体上反映了本发明算法DeepMPM(DEEP MortalityPrediction Model)更加准确的预测性能,虽然DeepMPM的精确率0.7406稍微低于DeepCare的0.7482,但是在死亡风险预测问题中侧重召回率的考量,因为召回率意味着模型能否能够将所有真实的具有死亡风险的ICU病人预测出来,精确率意味着模型找出的具有死亡风险的ICU病人是否都准确,相比之下,召回率更高的模型在临床过程中更能体现它的实际意义和价值。从模型结构来看,DeepCare模型融合了多种变量,但是却采用只根据住院类型和时间间隔的较为粗糙的方法去分配各条记录的权重,认为非紧急的、较为久远的记录应该被弱化掉,但这种规律并不总是奏效,时间较为久远的记录有时反而提供判断病情、施加干预的重要信息,即使入院时只是非紧急入院,也有可能在住院期间病情恶化造成严重后果。而RETAIN虽然精心设计双层Attention机制去探索记录之间的潜在联系且逆时序训练,却忽略了将多变量融合进神经网络以发挥深度学习的强大能力。总之,DeepMPM综合了RETAIN和DeepCare的核心优点,提升效果是显而易见的。
表1不同模型下死亡概率预测的训练结果
Figure GDA0003558631580000111
为了进一步探究模型对具体疾病的适用性,本文进行了如下对比实验:分别选取均为某一疾病的患者和含非该疾病患者的两组样本作为两个训练集,在同一该疾病患者的验证集上训练DeepMPM,对比验证结果。验证集选取的疾病为总样本中的两类高发疾病:充血性心力衰竭(congestive heart failure,CHF),ICD9编码为4280;糖尿病(diabetes),ICD9编码为2500。筛选之后CHF患者样本集大小为3285,正负样本比为1.808:1;Diabetes患者样本集大小为2705,正负样本比为1.300:1。实验训练采用批训练法,迭代次数为100次,验证采用五折交叉验证法。实验结果如表2所示。
表2不同训练集下DEEMPM的训练结果
Figure GDA0003558631580000112
Figure GDA0003558631580000121
分析如下:
从表格中我们可以清晰地看到,无论针对哪一类疾病,用含有非CHF(或非Diabetes)的样本集训练的识别CHF(或Diabetes)患者死亡风险模型的各个指标验证结果均优于只用CHF患者(或Diabetes患者)作为训练集训练得到的模型。可知,在训练集中加入与该疾病无关的样本能够提升预测性能。以CHF为例,充血性心脏病是由于心室泵血或充盈功能低下,心排血量不能满足机体代谢的需要,组织、器官血液灌注不足,同时出现肺循环或体循环淤血的一种疾病,是各种心脏病发展到严重阶段的临床综合征。引起CHF的危险因素有很多,比如心肌舒缩功能障碍是引起心衰最常见的原因,以舒张功能不全为主,见于高血压,左室肥厚等,其他的因素还有感染、心室后负荷过重、心律失常等等。心脏病学家Johns Gottdiener等曾经对全美四个地区的5625名65以上的老人的心血管健康数据进行研究分析,这些老人都有CHF高危因素,在平均随访5.5年时间里,有597人发展成了CHF,高危因素包括了高血压、动脉硬化、糖尿病和其他心脏疾患,且老年男性发病率更高。经过对本实验的样本统计发现,无论是在CHF患者或者非CHF患者,高血压、心颤、冠状动脉粥样硬化、急性肾衰竭、糖尿病等都是高发疾病,即非CHF患者也可以是CHF的“潜在候选人”,所以,即使用没有确诊为CHF的其他患者样本集训练得到的模型也可以学习到与CHF患者高度相似的特征,甚至因为样本集包含更加丰富的信息量而学到CHF样本集所缺少的重要信息,比如相似的用药或治疗手段等。这也从另一个角度印证了DeepMPM识别的死亡风险并非针对患者某一疾病,而是综合反映了ICU患者的整体健康状况。
根据本发明的另一方面,一种电子病历分析方法,包括:
获取EHR数据中的疾病编码xt、医疗干预编码pt、住院类型mt和入院/出院时间;分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt;基于入院/出院时间,获得住院间隔时间Δt;其中的各变量的下标t表示t时刻的变量;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型mt和住院间隔时间Δt,计算得到权重系数rt;基于权重系数αt、βt和rt,计算得到总权重系数wt;将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure GDA0003558631580000131
将最终状态向量
Figure GDA0003558631580000132
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率。
本发明运用EHR数据研究存在的多种类数据融合、诊疗记录存在长时间依赖和多种疾病和治疗干预间相互影响的难点,提出了端对端的电子病历分析装置及方法,采用了融合多类数据进行训练的Care-LSTM网络和双层注意力机制学习到可以度量历史记录相关性的权值向量。经过对比实验后,本发明的算法的准确率和稳定性得到了验证,而后还进行了不同训练集的对比实验,实验结果表明在训练集中包含非相关疾病患者的样本可以提高模型对该疾病患者死亡风险预测的准确率。
以上所述的具体实施例,对本发明的目的、技术方案和效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不限制本发明,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,所做出的修改、替换和变形均属于本发明的保护之内。

Claims (6)

1.一种电子病历分析装置,其特征在于,包括:
患者信息获取单元,用于获取EHR数据中的疾病编码xt、医疗干预编码pt、住院类型mt和入院/出院时间;分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt;基于入院/出院时间,获得住院间隔时间△t;其中的各变量的下标t表示t时刻的变量;
处理单元,用于将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型mt和住院间隔时间△t,计算得到权重系数rt;基于权重系数αt、βt和rt,计算得到总权重系数wt;将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure FDA0003558631570000011
将最终状态向量
Figure FDA0003558631570000012
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率;
所述住院-长短期记忆神经网络Care-LSTM包括遗忘门ft、输入门it和输出门ot,分别表示如下:
Figure FDA0003558631570000013
Figure FDA0003558631570000014
Figure FDA0003558631570000015
ot=σ(Wo·Xt+Uo·ht-1+Po·Pt+bo)
其中,σ表示sigmoid激活函数;Wi表示疾病变量对t时刻细胞输入的贡献程度;Ui表示t-1时刻的潜在状态对t时刻细胞输入的贡献程度;ht-1表示t-1时刻输出的潜在状态;bi表示t时刻细胞输入的偏差值;Wf表示疾病变量对t时刻细胞遗忘量的贡献程度;Uf表示t-1时刻的潜在状态对t时刻细胞遗忘量的贡献程度;Pf表示医疗干预变量对t时刻细胞遗忘量的贡献程度;Qf表示住院变量对t时刻细胞遗忘量的贡献程度;bf表示t时刻细胞遗忘量的偏差值;
Figure FDA0003558631570000016
表示相邻住院间隔时间内的住院变量;Wo表示疾病变量对t时刻细胞输出的贡献程度;Uo表示t-1时刻的潜在状态对t时刻细胞输出的贡献程度;Po表示医疗干预变量对t时刻细胞输出的贡献程度;bo表示t时刻细胞输出的偏差值;△t-1:t表示相邻住院间隔时间;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt,具体包括:
在诊疗记录的层面上,通过住院-长短期记忆神经网络Care-LSTM和Softmax函数学习到处于0~1的权重向量αt,具体如下:
gt=Care_LSTM([Xt;Pt;mt;△t-1:t])
Figure FDA0003558631570000021
其中,gt∈Rp,表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层;参数Wα∈Rp表示实数空间R中维度为p的向量;bα∈R表示偏差值,为标量;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映统一诊疗记录间的内在关联的权重系数βt,具体包括:
在疾病层面上,通过住院-长短期记忆神经网络Care-LSTM和tanh函数学习到处于-1~1的权重系数βt,其中负数表示存在抑制关系,具体如下:
et=Care_LSTM([Xt;Pt;mt;△t-1:t])
βt=tanh(Wβet+bβ)
其中,et∈Rq,表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层,参数Wβ∈Rp×q,表示实数空间R中维度p×q的权重矩阵;bβ∈Rd,表示实数空间R中维度为d维的偏差向量;
基于住院类型mt和住院间隔时间△t,计算得到权重系数rt,具体如下:
rt=[mt+log(1+△t:T)]-1
其中,rt∈Rd表示自定义的d维调和权重向量,△t:T表示第t次记录入院时间距离最后一次记录出院的天数。
2.根据权利要求1所述的电子病历分析装置,其特征在于,所述获取单元中,采用Med2Vec表征方法,分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt
3.根据权利要求1所述的电子病历分析装置,其特征在于,基于的权重系数αt、βt和rt,计算得到总权重系数wt,具体如下:
Figure FDA0003558631570000031
4.根据权利要求1所述的电子病历分析装置,其特征在于,将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure FDA0003558631570000032
具体如下:
Figure FDA0003558631570000033
其中,T表示患者样本的总住院次数;t1表示患者样本的第1次住院。
5.根据权利要求4所述的电子病历分析装置,其特征在于,将最终状态向量
Figure FDA0003558631570000039
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率,具体如下:
Figure FDA0003558631570000034
其中,fprob表示激活函数;FCN表示全连接层。
6.一种电子病历分析方法,其特征在于,包括:
获取患者信息;包括,获取EHR数据中的疾病编码xt、医疗干预编码pt、住院类型mt和入院/出院时间;分别将离散的疾病编码xt和医疗干预编码pt映射到连续分布高维空间,得到患者诊疗记录的表征向量Xt和Pt;基于入院/出院时间,获得住院间隔时间△t;其中的各变量的下标t表示t时刻的变量;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt和用于反映统一诊疗记录间的内在关联的权重系数βt;基于住院类型mt和住院间隔时间△t,计算得到权重系数rt;基于权重系数αt、βt和rt,计算得到总权重系数wt;将总权重系数wt与表征向量Xt进行加权平均获得最终状态向量
Figure FDA0003558631570000035
将最终状态向量
Figure FDA0003558631570000036
作为全连接层和激活函数的输入,获得ICU患者的死亡风险概率;
所述住院-长短期记忆神经网络Care-LSTM包括遗忘门ft、输入门it和输出门ot,分别表示如下:
Figure FDA0003558631570000037
Figure FDA0003558631570000038
Figure FDA0003558631570000041
ot=σ(Wo·Xt+Uo·ht-1+Po·Pt+bo)
其中,σ表示sigmoid激活函数;Wi表示疾病变量对t时刻细胞输入的贡献程度;Ui表示t-1时刻的潜在状态对t时刻细胞输入的贡献程度;ht-1表示t-1时刻输出的潜在状态;bi表示t时刻细胞输入的偏差值;Wf表示疾病变量对t时刻细胞遗忘量的贡献程度;Uf表示t-1时刻的潜在状态对t时刻细胞遗忘量的贡献程度;Pf表示医疗干预变量对t时刻细胞遗忘量的贡献程度;Qf表示住院变量对t时刻细胞遗忘量的贡献程度;bf表示t时刻细胞遗忘量的偏差值;
Figure FDA0003558631570000042
表示相邻住院间隔时间内的住院变量;Wo表示疾病变量对t时刻细胞输出的贡献程度;Uo表示t-1时刻的潜在状态对t时刻细胞输出的贡献程度;Po表示医疗干预变量对t时刻细胞输出的贡献程度;bo表示t时刻细胞输出的偏差值;△t-1:t表示相邻住院间隔时间;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映不同时间下诊疗记录关联性的权重系数αt,具体包括:
在诊疗记录的层面上,通过住院-长短期记忆神经网络Care-LSTM和Softmax函数学习到处于0~1的权重向量αt,具体如下:
gt=Care_LSTM([Xt;Pt;mt;△t-1:t])
Figure FDA0003558631570000043
其中,gt∈Rp,表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层;参数Wα∈Rp表示实数空间R中维度为p的向量;bα∈R表示偏差值,为标量;
将获取的患者信息作为住院-长短期记忆神经网络Care-LSTM的输入,计算得到用于反映统一诊疗记录间的内在关联的权重系数βt,具体包括:
在疾病层面上,通过住院-长短期记忆神经网络Care-LSTM和tanh函数学习到处于-1~1的权重系数βt,其中负数表示存在抑制关系,具体如下:
et=Care_LSTM([Xt;Pt;mt;△t-1:t])
βt=tanh(Wβet+bβ)
其中,et∈Rq,表示从住院-长短期记忆神经网络Care-LSTM输出的第t时刻的隐藏层,参数Wβ∈Rp×q,表示实数空间R中维度p×q的权重矩阵;bβ∈Rd,表示实数空间R中维度为d维的偏差向量;
基于住院类型mt和住院间隔时间△t,计算得到权重系数rt,具体如下:
rt=[mt+log(1+△t:T)]-1
其中,rt∈Rd表示自定义的d维调和权重向量,△t:T表示第t次记录入院时间距离最后一次记录出院的天数。
CN202110348004.9A 2021-03-31 2021-03-31 一种电子病历分析装置和方法 Active CN113077901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110348004.9A CN113077901B (zh) 2021-03-31 2021-03-31 一种电子病历分析装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110348004.9A CN113077901B (zh) 2021-03-31 2021-03-31 一种电子病历分析装置和方法

Publications (2)

Publication Number Publication Date
CN113077901A CN113077901A (zh) 2021-07-06
CN113077901B true CN113077901B (zh) 2022-05-10

Family

ID=76614192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110348004.9A Active CN113077901B (zh) 2021-03-31 2021-03-31 一种电子病历分析装置和方法

Country Status (1)

Country Link
CN (1) CN113077901B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115101198B (zh) * 2022-05-05 2024-06-21 东南大学 一种面向临床问诊记录的疾病预测方法与装置
CN116564553A (zh) * 2023-05-06 2023-08-08 西南交通大学 一种基于共病特征的用药效果预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599177A (zh) * 2018-11-27 2019-04-09 华侨大学 一种基于病历的深度学习预测医疗轨迹的方法
CN110289096A (zh) * 2019-06-28 2019-09-27 电子科技大学 一种基于深度学习的icu院内死亡率预测方法
CN111370084A (zh) * 2020-02-07 2020-07-03 山东师范大学 基于BiLSTM的电子健康记录表示学习方法及系统
US10770180B1 (en) * 2018-12-12 2020-09-08 Google Llc Processing clinical notes using recurrent neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599177A (zh) * 2018-11-27 2019-04-09 华侨大学 一种基于病历的深度学习预测医疗轨迹的方法
US10770180B1 (en) * 2018-12-12 2020-09-08 Google Llc Processing clinical notes using recurrent neural networks
CN110289096A (zh) * 2019-06-28 2019-09-27 电子科技大学 一种基于深度学习的icu院内死亡率预测方法
CN111370084A (zh) * 2020-02-07 2020-07-03 山东师范大学 基于BiLSTM的电子健康记录表示学习方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"GRU Based Deep Learning Model for Prognosis Prediction of Disease Progression";M.Pavithra等;《2019 3rd International Conference on Computing Methodologies and Communication (ICCMC)》;20190829;全文 *
"关于ICU病人数据的处理及研究";白冉;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20191215;全文 *

Also Published As

Publication number Publication date
CN113077901A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
Maragatham et al. Retracted article: LSTM model for prediction of heart failure in big data
US11144825B2 (en) Interpretable deep learning framework for mining and predictive modeling of health care data
Sha et al. Interpretable predictions of clinical outcomes with an attention-based recurrent neural network
Srivastava et al. Prediction of diabetes using artificial neural network approach
WO2021120936A1 (zh) 一种基于多任务学习模型的慢病预测系统
CN114359666A (zh) 多模态融合的肺癌患者疗效预测方法、系统、装置及介质
CN113077901B (zh) 一种电子病历分析装置和方法
CN112086195B (zh) 一种基于自适应集成学习模型的再入院风险预测方法
CN111370084A (zh) 基于BiLSTM的电子健康记录表示学习方法及系统
US20210375441A1 (en) Using clinical notes for icu management
Bock et al. Machine learning for biomedical time series classification: from shapelets to deep learning
Das et al. Deep learning techniques dealing with diabetes mellitus: a comprehensive study
Sheikhalishahi et al. Benchmarking machine learning models on eICU critical care dataset
Shirazi et al. Deep learning in the healthcare industry: theory and applications
Manashty et al. Life model: A novel representation of life-long temporal sequences in health predictive analytics
Yang et al. DeepMPM: a mortality risk prediction model using longitudinal EHR data
Poulain et al. Transformer-based multi-target regression on electronic health records for primordial prevention of cardiovascular disease
Ha et al. Predicting high-risk prognosis from diagnostic histories of adult disease patients via deep recurrent neural networks
Zhang et al. A time-sensitive hybrid learning model for patient subgrouping
CN115660871B (zh) 医学临床过程无监督建模方法、计算机设备、存储介质
CN115359870B (zh) 一种基于层次图神经网络的疾病诊疗过程异常识别系统
Mansouri et al. A hybrid machine learning approach for early mortality prediction of ICU patients
Jiang et al. Explainable deep learning for readmission prediction with tree-glove embedding
WO2023031235A1 (en) Semi-supervised machine learning method and system suitable for identification of patient subgroups in electronic healthcare records
Boursalie et al. Decoder transformer for temporally-embedded health outcome predictions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210706

Assignee: TIANJIN OPTOELECTRONICS ANCHEN INFORMATION TECHNOLOGY CO.,LTD.

Assignor: XIAMEN University

Contract record no.: X2024980002370

Denomination of invention: An electronic medical record analysis device and method

Granted publication date: 20220510

License type: Common License

Record date: 20240311