CN109599177B - 一种基于病历的深度学习预测医疗轨迹的方法 - Google Patents

一种基于病历的深度学习预测医疗轨迹的方法 Download PDF

Info

Publication number
CN109599177B
CN109599177B CN201811422693.8A CN201811422693A CN109599177B CN 109599177 B CN109599177 B CN 109599177B CN 201811422693 A CN201811422693 A CN 201811422693A CN 109599177 B CN109599177 B CN 109599177B
Authority
CN
China
Prior art keywords
admission
information
vector
intervention
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811422693.8A
Other languages
English (en)
Other versions
CN109599177A (zh
Inventor
李宁宁
莫毓昌
王海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mo Yuchang
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201811422693.8A priority Critical patent/CN109599177B/zh
Publication of CN109599177A publication Critical patent/CN109599177A/zh
Application granted granted Critical
Publication of CN109599177B publication Critical patent/CN109599177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于病历的深度学习预测医疗轨迹的方法,包括以下步骤:S1、将入院时的诊断信息和干预信息通过编码方案进行编码,并将编码转换为向量;分别得到诊断信息转换向量xt∈RM和干预信息转换向量得到Pt∈RM;将一次入院的诊断信息和干预信息转换成一个2M维的向量[xt,pt];S2、将向量[xt,pt]输入LSTM模型;求出当前输出值ht得到当前疾病状态;S3、根据疾病状态ht预测诊断代码dt+1,通过诊断代码dt+1对疾病的进展进行预测;S4、计算时间t的干预代码st;在LSTM模型中增加时间结构,在多个时间范围内汇集历史疾病状态,对于每段水平时间轴的状态进行汇集,将所有疾病状态汇集并堆积成向
Figure DDA0001880879640000011
被反馈到神经网络中预测未来风险结果Y。

Description

一种基于病历的深度学习预测医疗轨迹的方法
技术领域
本发明涉及预测模型领域,尤其涉及一种基于病历的深度学习预测医疗轨迹的方法。
背景技术
对于病人入院后预测未来的医疗风险问题,需要面对四个开放性问题:
(1)长期的医疗依赖;
(2)入院信息的表示;
(3)情节记录和无规律时间;
(4)混淆疾病进展和干预之间的相互作用。
现有的方法在处理这些问题时效果很差。他们不充分的模拟可变长度且忽略长期依赖问题,基于马尔可夫假设的时间模型局限于模型时间的无规律性且没有记忆,因此他们可能完全忘记先前的重大疾病给身体所带来的影响。
近年来,深度学习(如语音识别、视觉和计算语言学等)对认知系统的发展起到了巨大的推动作用,在构建端到端系统方面具有很大的潜力。但是,在医疗方面使用深度学习的方法仍不多见。市面上虽然用深度学习已经解决了长期依赖性的问题,但是对于其它三个问题仍没有好的解决方案。
发明内容
本发明目的是解决上述问题,提供一种可以解决医疗风险预测问题的深度学习预测医疗轨迹的方法。
为了实现上述目的,本发明的技术方案是:
一种基于病历的深度学习预测医疗轨迹的方法,包括以下步骤:
S1、将入院时的诊断信息和干预信息通过编码方案进行编码,将编码后的入院信息转换成向量,诊断信息的转换向量为Ad1,...,Adk,干预信息的转换向量为Bs1,...,Bsk,汇集所有的诊断信息转换向量得到xt∈RM,汇集所有干预信息转换向量得到Pt∈RM;最后,将一次入院的诊断信息和干预信息转换成一个2M维的向量[xt,pt];
S2、将步骤S1中的向量[xt,pt]输入LSTM模型,LSTM模型在时间为t时的记忆为ct∈RK,ct被输入门it∈RK、遗忘门ft∈RK、输出门ot∈RK控制,三个门都是sigmoid单元,每个门的每个元素的值设置为0到1之间,it、ft、ot的值分别为:
Figure BDA0001880879620000021
其中mt=1,则入院方式是非计划的,mt>1,则入院方式是计划的;
ft=σ(Wfxt+Ufht-1+Pfpt-1+bf)
其中Pt-1是时间步t-1的干预信息转换向量,Pf是遗忘门的干预权重向量。
ot=σ(Woxt+Uoht-1+Popt+bo)
其中P0是输出门的干预权重矩阵,Pt是时间步t的干预信息转换向量;
W{i,f,o},U{i,f,o},b{i,f,o}是参数,σ表示向量的按元素的sigmoid函数;
在时间步t,首先通过输入值xt∈RM、先前的LSTM单元的输出ht-1∈RK构成一个挤压tanh函数:
gt=tanh(Wcxt+Ucht-1+bc)
根据先前的记忆ct-1得到现在的记忆ct
ct=ft*ct-1+it*gt
根据记忆ct计算出当前输出值ht:
ht=ot*tanh(ct)
*表示两个向量的乘积;
根据当前输出值ht得到当前疾病状态;
S3、根据疾病状态ht预测诊断代码dt+1,其计算公式为:
Figure BDA0001880879620000031
其中softmax(Z)=ez/∑z’ez’,wc是编码参数;
通过诊断代码dt+1对疾病的进展进行预测;
S4、计算时间t的干预代码st,其计算公式为:
Figure BDA0001880879620000032
其中vc是编码参数;
S5、在LSTM模型中增加时间结构,在多个时间范围内汇集历史疾病状态,对于每段水平时间轴的状态汇集,用以下公式衡量最近事件:
Figure BDA0001880879620000033
其中rt=[mt+log(1+Δt:n)]-1,Δt:n是按月测量的t时刻和当前n时的时间;mt=1表示紧急入院,mt=2表示常规入院。
将所有疾病状态汇集并堆积成向
Figure BDA0001880879620000034
被反馈到神经网络中预测未来风险结果Y。
进一步的,所述步骤S2中将向量[xt,pt]输入LSTM模型时选用最大池化入院信息、归一池化入院信息或平均池化入院信息。
进一步的,所述最大池化入院信息的计算公式为:
Figure BDA0001880879620000035
Figure BDA0001880879620000036
其中,i=1,2,...M。
进一步的,所述归一池化入院信息的计算公式为:
Figure BDA0001880879620000041
Figure BDA0001880879620000042
其中,i=1,2,...M。
进一步的,所述平均池化入院信息的计算公式为:
Figure BDA0001880879620000043
Figure BDA0001880879620000044
进一步的,所述LSTM模型为由LSTM模型扩展出来的C-LSTM单元。
与现有技术相比,本发明具有的优点和积极效果是:
本发明提构建了一种深度动态网络DeepCare用于读取病例、存储先前的病史、推断当前的疾病状况和预测未来的医疗结果,在时间层面,基于长短时记忆(LongShort-TermMemory,LSTM)模型构建Care-LSTM(C-LSTM)模型表征当前疾病状况,由C-LSTM得到短期预测疾病的进展和干预推荐;在健康状况层面,通过多尺度时间汇集历史的和现在的健康状况,使用神经网络预测未来的医疗风险;本发明解决了在医疗过程中预测未来医疗风险问题的四项挑战,即:长期的医疗依赖;入院信息的表示;情节记录和无规律时间以及混淆疾病进展和干预之间的相互作用,并且证实了其有效性,与现有的预测模型对比明显提高了其准确性,推动了医疗风险预测技术的前进。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为编码植入示意图;
图2为一个LSTM单元示意图;
图3为一个C-LSTM单元示意图;
图4本发明的结构框架图;
图5(a)为糖尿病在12个月内F-评分(%);
图5(b)为精神疾病在3个月内的高危预测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明提出的一种基于病历的深度学习预测医疗轨迹的方法,步骤如下:
1)构建电子病历(ElectronicMedicalRecords,EMRs)作为诊断、干预编码、入院类型和时间推移的序列的模型;
2)根据长短时记忆模型构建当前疾病状况模型;
3)预测疾病的进展模型;
4)疾病干预推荐模型;
5)建立病人的未来风险预测模型。
电子病历(ElectronicMedicalRecords,EMRs)作为诊断、干预编码、入院类型和时间推移的序列的。一次入院包含多种诊断和干预措施。干预包括过程和药物。诊断、过程和药物是使用编码方案编码的。将编码后的入院信息转换成向量,如图1所示。一次入院是一个可变大小的代码集(诊断和干预)。设D是诊断代码集,L是一组干预代码。这两个集合的索引分别从1到D,1到L。用A∈RM×|D|表示诊断转换矩阵,B∈RM×|L|表示干预转换矩阵。设Aj是第j列的元素,Aji是矩阵A的第i行第j列元素。每次入院t包含h种诊断:d1,d2,…dh∈{1,2,…,|D|}和k种干预s1,s2,…sk∈{1,2,…,|L|}。编码首先被转换成向量。诊断与干预编码的转换向量是Ad1,...,Adk和Bs1,...,Bsk。然后,汇集所有当前诊断向量得到xt∈RM。同样,得到一个汇集的干预向量Pt∈RM。最后,一次入院转换成一个2M维的向量[xt,pt]。对两个矩阵进行随机初始化,然后通过训练预测任务来学习。
设xt i是向量xt的第i个元素,设pt i是向量pt的第i个元素,入院输入采用最大池化、归一池化和平均池化如下:
最大池化入院信息(maxadm.)。逐元素汇集如下:
Figure BDA0001880879620000061
Figure BDA0001880879620000062
其中,i=1,2,...M。类似于选择性注意诊断和干预之间的影响最大的因素。也类似于通常的挑选一种诊断为入院的主要原因的编码实践。
归一池化入院信息(sumadm.)。患有多种疾病(多并发症)的患者比单病症患者更容易发生危险。归一化池化如下:
Figure BDA0001880879620000063
Figure BDA0001880879620000064
其中,i=1,2,...M。归一化降低了大量的诊断和干预的影响。
平均池化入院信息(meanadm.)。在缺乏主要条件的情况下,平均池化可能是一个合理的选择:
Figure BDA0001880879620000071
Figure BDA0001880879620000072
得到了入院植入向量,诊断要素作为C-LSTM的输入。C-LSTM代表Care-LSTM单元。C-LSTM(图3所示)单元扩展自LSTM单元(图2所示)以反映医疗动态的特性,具体基于LSTM利用以下方式构建预测疾病的进展和干预推荐模型:
长短时记忆是一种有效解决梯度消失问题的循环神经网络。LSTM的中心是一个线性自循环记忆细胞,允许记忆通过长序列流动。记忆细胞被封闭来调节信息流向或来自细胞的信息。
一个LSTM单元在时间t有一个状态ct∈RK的记忆细胞。通过记忆细胞的信息流被3个门控制:输入门,遗忘门和输出门。输入门it∈RK流入到细胞的输入,遗忘门ft∈RK控制记忆细胞的遗忘且输出门ot∈RK调节来自记忆细胞的输出流。用σ表示向量的逐元素的sigmoid函数,*表示两个向量的乘积。
三个门都是sigmoid单元,它将门的每个元素的值设置为0到1之间
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+b0)
其中W{i,f,o},U{i,f,o},b{i,f,o}是参数.门控通过的信息量:当值为1时满值,当值为0时完全阻塞。
在每一个时间步t,首先计算输入特征xt∈RM,先前的隐藏层ht-1∈RK通过一个挤压tanh函数:
gt=tanh(Wcxt+Ucht-1+bc)
记忆细胞通过先前记忆细胞的部分遗忘来更新,且调整输入特征如下:
ct=ft*ct-1+it*gt
记忆细胞序列是可加性的,因此梯度也通过链式法则以线性方式更新,这有效地防止梯度消失或爆炸。记忆细胞在通过可学习遗忘门ft记忆过去的经验中起着至关重要的作用。相反,ft→1,所有的过去记忆被保存,且随着新的输入新的记忆保持更新。如果ft→0,只有新的经验被更新,系统变得无记忆。
最后,根据记忆ct计算隐藏的输出状态ht,由输出门ot控制如下所示:
ht=ot*tanh(ct)
C-LSTM模拟干预的效果和捕获时间的不规则性。两种主要的入院类型:计划性和非计划性。非计划性入院指的是从急诊人员的转移,这通常表明更高的风险。因为输入门i控制记忆细胞的信息更新,所以修正该门以反映入院类型的风险等级如下:
Figure BDA0001880879620000081
其中mt=1,如果入院方式是未计划的,mt>1其他,且σ是向量按元素的sigmoid函数。
因为干预是为了治疗疾病或减轻患者的疾病,控制疾病状态的输出门,由当前的干预调整如下:
ot=σ(Woxt+Uoht-1+Popt+bo)
其中P0是输出门的干预权重矩阵,Pt是时间步t的干预。
此外,干预可能具有长期影响(例如,治疗疾病或引入毒性)。这表明疾病的遗忘被先前的干预调节
ft=σ(Wfxt+Ufht-1+Pfpt-1+bf)
其中Pt-1是时间步t-1的干预植入向量,且Pf是遗忘门的干预权重向量。
当患者的病史由LSTM建模时,记忆细胞携带病史。但是随着疾病状态的变化,这种记忆不一定是恒定的。在C-LSTM中,引入两个机制,通过修正方程中的遗忘门ft来遗忘记忆。
时间衰减。有些严重的状况通过时间的影响它们会自然减轻这意味着一个简单的衰减模型在遗忘门ft
ft←d(△t-1:t)ft
其中Δt-1:t是t-1到t的时间步,且d(Δt-1:t)∈(0,1]是一个衰减函数,即在时间上单调递减。当函数d(Δt-1:t)=[log(e+Δt-1:t)]-1工作良好。
其中Δt-1:t测量以天为单位,e≈2.718是自然对数的基数。
时间参数。当一些状况可能变得更糟的时候,时间衰减可能无法捕捉所有的状况,且其他状况可能是长期的。这表明有一个更加灵活的参数遗忘:
Figure BDA0001880879620000091
其中其中qΔt-1:t是由时间差Δt-1:t得到的向量,Qf是时间参数权重矩阵。
例如,
Figure BDA0001880879620000092
模拟三阶动态遗忘。Δt-1:t测量以天为单位,并除以60,180和365,避免向量qΔt-1:t具有大的值。
疾病进展是指在下一个时间步未来疾病的发生。它可能是同一疾病从一个阶段到另一阶段,疾病的复发或向新疾病的转变的进展。疾病状态ht可用来预测一种诊断代码dt+1如下
Figure BDA0001880879620000093
其中softmax(Z)=ez/∑z’ez’,wc是特定编码的参数。
干预建议是指对当前诊断的药物和程序进行预测。类似于疾病进展,时间t的干预代码st可以被生成如下
Figure BDA0001880879620000101
其中vc是特定编码的参数。
构建病人的未来风险预测模型,在C-LSTM层的顶部加多尺度时间结构,以预测未来。意味着在多个时间范围内汇集历史疾病状态,反映疾病进展的可变速率。
对于每段水平时间轴的状态汇集,用以下公式衡量最近事件:
Figure BDA0001880879620000102
其中rt=[mt+log(1+Δt:n)]-1,Δt:n是按月测量的t时刻和当前n时的时间;mt=1表示紧急入院,mt=2表示常规入院。
当所有疾病状态汇集并堆积成向
Figure BDA0001880879620000103
被反馈到神经网络以预测未来结果Y。
具有一层隐藏层的神经网络,如下:
Figure BDA0001880879620000104
zy=Uyah+by
P(y|u1:n)=fprob(zy)
函数fprob(zy)取决于未来结果的性质。
综上,模型的全过程如图4所示,计算步骤可归纳如下:
P(y|u1:n)=P(nnety(pool{C~LSTM(u1:n)}))
其中u1:n是入院观察的输入序列,y是感兴趣的结果(例如,再入院),nnety表示神经网络对结果y的估计,P是结果的概率模型。
本发明解决了在医疗过程中回答预后问题的四项挑战,即:长期的医疗依赖;入院信息的表示;情节记录和无规律时间;混淆疾病进展和干预之间的相互作用,并证实了其有效性,与现有的模型对比准确性明显提高。
本例将实施两种慢性群体的个案研究:精神疾病和糖尿病。对于每一种慢性病,模拟疾病过程,干预建议和未来风险预测。
两个群体的数据从一个大的地区澳大利亚医院收集了12年(2002-2013)。
将电子病历作为诊断、干预编码、入院类型和时间推移的序列,使用ICD-10编码疾病,删除患者的入院信息不完整和入院少于两次的病人对数据进行了预处理。词汇表被定义为诊断,程序和药物代码的集合。
在糖尿病群体中,有7153个诊断编码和1126个干预编码,而在精神疾病群体中,有8127个诊断编码和1351个干预编码。两个数据集中的词汇表都很大,在训练模型时可能会导致过拟合。为了减少词汇量,我们将前2个字符共享的诊断折叠成一个诊断。例如,E10.1将折叠为E1。
经过预处理,糖尿病群体数据集包含7191名患者,53208名入院。词汇表包括243个诊断,773个程序和353个药物编码。精神疾病数据集包括6109名患者和52049名入院者,共有247个诊断词汇,752个程序和319个药物编码。
对于每个数据集,2/3用于参数估计,1/6用于调整,和1/6是用于测试。
对于疾病进展预测,模型每次执行中预测接下来的np种诊断。为了比较,实施了两种基线:马尔科夫模型和普通循环神经网络(RecurrentNeuralNetwork,RNN)。马尔可夫模型是用于模拟变化系统的随机模型。马尔可夫模型由可能状态列表,这些状态之间可能的转换以及这些转换的概率组成。未来的状态仅取决于现状(马尔可夫假设)。马尔可夫模型具有无记忆的疾病转变概率
Figure BDA0001880879620000124
从疾病dj至di的时间为t。考虑入院疾病信息的一个子集Dt,下一次疾病的概率估计为
Figure BDA0001880879620000121
使用PrecisionatK(Precision@K)来测量模型的性能。Precision@K对应于检索结果中相关结果的百分比。即,如果模型预测下一次再入院的有np种诊断,其中nr种诊断是相关的,那么模型的性能是
Figure BDA0001880879620000122
表1显示了不同np的Precision@NP值。对于糖尿病组,用普通RNN改善无记忆马尔科夫模型,np=1时提高了8.8%,np=3提高了27.7%。这一改进表明了在时序数据中动态建模的作用。在本发明(DeepCare)中对不规则时间和干预进行建模可以获得进一步提高2%。对于精神疾病组,马尔可夫模型未能预测下一次诊断(9.5%对于np=1)。简单RNN获得50%Precision@1的改进,而DeepCare则比普通循环神经网络提高了2%在Precision@1时。
Figure BDA0001880879620000123
Figure BDA0001880879620000131
首先使用DeepCare进行干预推荐任务的实验。在每次入院时该模型预测当前np种干预。由于目前的干预措施是预测的输出,DeepCare只读取当前的诊断和先前的干预作为输入。则调整当前的干预如下
ot=σ(Woxt+Uoht-1+bo)
表2显示了当前干预预测的结果。对于所有的np值,RNN在糖尿病和精神疾病群体中的表现始终优于马尔可夫模型。具有sumadm.的DeepCare优于其他模型在糖尿病和精神疾病数据集。
Figure BDA0001880879620000132
Figure BDA0001880879620000141
对于未来疾病的预测。对于每一位患者,随机选择出院作为预测点,从中预测未计划的再入院和高危患者在X月内的预测。选择X=12的糖尿病和X=3的精神疾病。结果用F1-分数测量。
为了比较,基线SVM和随机森林运行在标准的非时空特征工程上使用独热编码表示目前的诊断和干预的代码且普通RNN和LSTM在入院序列上运行。独热码表示是维度等于词汇量大小的向量,代码索引处的值是1并且所有其他索引是0。然后池化用来合并每个病人存在的所有入院信息。测试了两种池化方法:max和sum。
表3使用DeepCare模型显示了预训练和正则化对糖尿病数据集中计划外再入院预测的影响。预训练和正则化改进了入院信息的三种池化方法的结果。虽然通过正则化发现平均池化执行表现良好,但是最大池化通过预训练产生最佳结果,并且总和池化在两种方法中产生最佳结果。
Figure BDA0001880879620000142
表4显示了预测计划外再入院的F-分数。对于糖尿病群体,最佳基线(非时间)是随机森林,总和池化的F-分数为71.4%[第4行]。使用具有简单逻辑回归的普通RNN改善了最佳非时间方法,在12个月预测中差异为3.7%[第5行]。用LSTM单元取代RNN单元可以获得4.5%的提升[第6行]。通过使用神经网络作为分类器移动到深度模型有助于获得5.1%的改进[第7行]。通过仔细模拟不规则时间,干预和时间+多尺度汇集,获得5.7%的改善[第8行]。最后,在参数时间内,得到79.0%的F-分数,比最佳基线提高了7.6%[第9行]。
Figure BDA0001880879620000151
对于精神疾病数据集,最佳非时间基线是总和池随机森林,结果为67.9%。具有逻辑回归层的普通RNN和LSTM分别获得2.6%和3.8%的改进。最好的模型是具有时间参数的DeepCare比总和池化的随机森林提高了6.8%。
关于DeepCare在高风险患者预测任务中的表现。图5显示了高风险预测的F-分数。对于两个群组,RNN改进了超过10%F-分数的最佳非时间模型。最大池化的DeepCare在糖尿病数据集中表现最佳,F-score接近60%,而总和池化DeepCare在精神疾病群体中获得50.0%F-score。
综上所述DeepCare用于读取病例、存储先前的病史、推断当前的疾病状况和预测未来的医疗结果的有效性,解决了长期面临的回答预后问题建模中的入院信息的表示、情节记录和无规律时间、混淆疾病进展和干预之间的相互作用的三个挑战。

Claims (6)

1.一种基于病历的深度学习预测医疗轨迹的方法,其特征在于:包括以下步骤:
S1、将入院时的诊断信息和干预信息通过编码方案进行编码,将编码后的入院信息转换成向量,编码后的诊断信息的转换向量为Ad1,...,Adk,编码后的干预信息的转换向量为Bs1,...,Bsk,汇集所有编码后的诊断信息转换向量得到xt∈RM,汇集所有编码后的干预信息转换向量得到Pt,Pt的取值空间是RM;最后,将一次入院的诊断信息转换向量和干预信息转换向量转换成一个2M维的向量[xt,pt];
S2、将步骤S1中的向量[xt,pt]输入LSTM模型,LSTM模型在时间为t时的记忆为ct∈RK,ct被输入门it∈RK、遗忘门ft∈RK、输出门ot∈RK控制,三个门都是sigmoid单元,每个门的每个元素的值设置为0到1之间,it、ft、ot的值分别为:
Figure FDA0003979723020000011
其中mt=1,则入院方式是非计划的,mt>1,则入院方式是计划的;
ft=σ(Wfxt+Ufht-1+Pfpt-1+bf)
其中Pt-1是时间步t-1的干预信息转换向量,Pf是遗忘门的干预权重向量;
ot=σ(Woxt+Uoht-1+Popt+bo)
其中Po是输出门的干预权重矩阵,Pt是时间步t的干预信息转换向量;
W{i,f,o},U{i,f,o},b{i,f,o}是参数,σ表示向量的按元素的sigmoid函数;
在时间步t,首先通过输入值xt∈RM、先前的LSTM单元的输出ht-1∈RK构成一个挤压tanh函数:
gt=tanh(Wcxt+Ucht-1+bc)
根据先前的记忆ct-1得到现在的记忆ct
ct=ft*ct-1+it*gt
根据记忆ct计算出当前输出值ht:
ht=ot*tanh(ct)
*表示两个向量的乘积;
根据当前输出值ht得到当前疾病状态;
S3、根据疾病状态ht预测诊断代码dt+1,其计算公式为:
Figure FDA0003979723020000021
其中softmax(Z)=ez/∑z’ez’,wc是编码参数;
通过诊断代码dt+1对疾病的进展进行预测;
S4、计算时间t的干预代码st,其计算公式为:
Figure FDA0003979723020000022
其中vc是编码参数;
S5、在LSTM模型中增加时间结构,在多个时间范围内汇集历史疾病状态,对于每段水平时间轴的状态汇集,用以下公式衡量最近事件:
Figure FDA0003979723020000023
其中rt=[mt+log(1+Δt:n)]-1,Δt:n是按月测量的t时刻和当前n时的时间;mt=1表示紧急入院,mt=2表示常规入院;
将所有疾病状态汇集并堆积成向
Figure FDA0003979723020000024
被反馈到神经网络中预测未来风险结果Y。
2.如权利要求1所述的基于病历的深度学习预测医疗轨迹的方法,其特征在于:所述步骤S2中将向量[xt,Pt]输入LSTM模型时选用最大池化入院信息、归一池化入院信息或平均池化入院信息。
3.如权利要求2所述的基于病历的深度学习预测医疗轨迹的方法,其特征在于:所述最大池化入院信息的计算公式为:
Figure FDA0003979723020000031
Figure FDA0003979723020000032
其中,i=1,2,...M。
4.如权利要求2所述的基于病历的深度学习预测医疗轨迹的方法,其特征在于:所述归一池化入院信息的计算公式为:
Figure FDA0003979723020000033
Figure FDA0003979723020000034
其中,i=1,2,...M。
5.如权利要求2所述的基于病历的深度学习预测医疗轨迹的方法,其特征在于:所述平均池化入院信息的计算公式为:
Figure FDA0003979723020000035
Figure FDA0003979723020000036
6.如权利要求1所述的基于病历的深度学习预测医疗轨迹的方法,其特征在于:所述LSTM模型为由LSTM模型扩展出来的C-LSTM单元。
CN201811422693.8A 2018-11-27 2018-11-27 一种基于病历的深度学习预测医疗轨迹的方法 Active CN109599177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811422693.8A CN109599177B (zh) 2018-11-27 2018-11-27 一种基于病历的深度学习预测医疗轨迹的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811422693.8A CN109599177B (zh) 2018-11-27 2018-11-27 一种基于病历的深度学习预测医疗轨迹的方法

Publications (2)

Publication Number Publication Date
CN109599177A CN109599177A (zh) 2019-04-09
CN109599177B true CN109599177B (zh) 2023-04-11

Family

ID=65960379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811422693.8A Active CN109599177B (zh) 2018-11-27 2018-11-27 一种基于病历的深度学习预测医疗轨迹的方法

Country Status (1)

Country Link
CN (1) CN109599177B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111885B (zh) * 2019-05-09 2023-09-19 腾讯科技(深圳)有限公司 属性预测方法、装置、计算机设备及计算机可读存储介质
CN110459324B (zh) * 2019-06-27 2023-05-23 平安科技(深圳)有限公司 基于长短期记忆模型的疾病预测方法、装置和计算机设备
CN110837970A (zh) * 2019-11-11 2020-02-25 重庆亚德科技股份有限公司 一种区域卫生平台质控方法和系统
CN111177577B (zh) * 2019-12-12 2023-03-28 中国科学院深圳先进技术研究院 一种群组的项目推荐方法、智能终端以及存储装置
CN111640517B (zh) * 2020-05-27 2023-05-26 医渡云(北京)技术有限公司 病历编码方法、装置、存储介质及电子设备
CN111696666A (zh) * 2020-06-10 2020-09-22 杭州联众医疗科技股份有限公司 一种基于时间编码的智能慢病管理系统
CN111696665A (zh) * 2020-06-10 2020-09-22 杭州联众医疗科技股份有限公司 一种基于时间编码的辅助决策系统
CN111709754B (zh) * 2020-06-12 2023-08-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111739639A (zh) * 2020-06-19 2020-10-02 杭州联众医疗科技股份有限公司 一种基于时间编码的围手术期并发症的数据预测系统
CN111739652A (zh) * 2020-06-19 2020-10-02 杭州联众医疗科技股份有限公司 一种基于用户时间编码的疫情防控辅助决策方法及系统
CN112185555A (zh) * 2020-09-10 2021-01-05 北京工业大学 基于stacking算法的妊娠糖尿病预测方法
TWI780608B (zh) * 2021-02-26 2022-10-11 華碩電腦股份有限公司 藥物推薦系統與方法
CN113112819B (zh) * 2021-03-26 2022-10-25 华南理工大学 一种基于改进lstm的图卷积交通速度预测方法
CN113077901B (zh) * 2021-03-31 2022-05-10 厦门大学 一种电子病历分析装置和方法
CN115019960B (zh) * 2022-08-01 2022-11-29 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504297A (zh) * 2015-01-21 2015-04-08 甘肃百合物联科技信息有限公司 一种利用神经网络的高血压预测方法
WO2017029314A1 (en) * 2015-08-17 2017-02-23 Siemens Healthcare Gmbh Method and system for disease progression modeling and therapy optimizing for individual patients
CN105718744B (zh) * 2016-01-25 2018-05-29 深圳大学 一种基于深度学习的代谢质谱筛查方法及系统
CN105740612B (zh) * 2016-01-27 2019-07-05 北京国医精诚科技有限公司 基于中医临床医案的疾病诊疗系统
CN106202930B (zh) * 2016-07-12 2018-08-28 东北大学 一种基于ss-elm的肺结节患病风险预测系统
US11069432B2 (en) * 2016-10-17 2021-07-20 International Business Machines Corporation Automatic disease detection from unstructured textual reports
KR101869438B1 (ko) * 2016-11-22 2018-06-20 네이버 주식회사 딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템
GB2561940A (en) * 2016-12-16 2018-10-31 Brigham & Womens Hospital Inc System and method for protein corona sensor array for early detection of diseases
CN106778014B (zh) * 2016-12-29 2020-06-16 浙江大学 一种基于循环神经网络的患病风险预测建模方法
CN106934235B (zh) * 2017-03-09 2019-06-11 中国科学院软件研究所 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN108417272B (zh) * 2018-02-08 2020-10-09 合肥工业大学 带时序约束的相似病例推荐方法及装置
CN108648829A (zh) * 2018-04-11 2018-10-12 平安科技(深圳)有限公司 疾病预测方法及装置、计算机装置及可读存储介质

Also Published As

Publication number Publication date
CN109599177A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109599177B (zh) 一种基于病历的深度学习预测医疗轨迹的方法
Pham et al. Deepcare: A deep dynamic memory model for predictive medicine
Pham et al. Predicting healthcare trajectories from medical records: A deep learning approach
Zhang ATTAIN: Attention-based time-aware LSTM networks for disease progression modeling.
JP7316358B2 (ja) 生物物理学的モデル化および応答予測のためのシステム、方法、およびデバイス
Kaul et al. Deep learning in healthcare
Yu et al. Using a multi-task recurrent neural network with attention mechanisms to predict hospital mortality of patients
US20220059117A1 (en) Methods and Systems for Implementing On-Device Non-Semantic Representation Fine-Tuning for Speech Classification
CN112289442B (zh) 预测疾病终点事件的方法、装置及电子设备
CN110880362A (zh) 一种大规模医疗数据知识挖掘与治疗方案推荐系统
Morid et al. Learning hidden patterns from patient multivariate time series data using convolutional neural networks: A case study of healthcare cost prediction
Barhate et al. Analysis of classifiers for prediction of type ii diabetes mellitus
Lee et al. Multi-scale temporal memory for clinical event time-series prediction
CN117275661B (zh) 一种基于深度强化学习的肺癌患者用药预测方法及装置
Nezhad et al. A predictive approach using deep feature learning for electronic medical records: A comparative study
US20240013920A1 (en) Medical event prediction using a personalized dual-channel combiner network
Baucum et al. Adapting reinforcement learning treatment policies using limited data to personalize critical care
Ha et al. Predicting high-risk prognosis from diagnostic histories of adult disease patients via deep recurrent neural networks
CN115359870B (zh) 一种基于层次图神经网络的疾病诊疗过程异常识别系统
WO2020058271A1 (en) Patient subtyping from disease progression trajectories
Deepa et al. Action fuzzy rule based classifier for analysis of dermatology databases
Septiadi et al. Human Activity Prediction using Long Short Term Memory
CN113077901A (zh) 一种电子病历分析装置和方法
Saravanan et al. Reliable diabetes mellitus forecasting using artificial neural network multilayer perceptron
Arefeen et al. Glysim: Modeling and simulating glycemic response for behavioral lifestyle interventions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230524

Address after: 321000 Room 202, unit 1, building 52, 786 Yuquan West Road, Wucheng District, Jinhua City, Zhejiang Province

Patentee after: Mo Yuchang

Address before: 362000 Fengze District, Quanzhou City, Fujian Province

Patentee before: HUAQIAO University