CN109754852A - 基于电子病历的心血管疾病风险预测方法 - Google Patents
基于电子病历的心血管疾病风险预测方法 Download PDFInfo
- Publication number
- CN109754852A CN109754852A CN201910015636.6A CN201910015636A CN109754852A CN 109754852 A CN109754852 A CN 109754852A CN 201910015636 A CN201910015636 A CN 201910015636A CN 109754852 A CN109754852 A CN 109754852A
- Authority
- CN
- China
- Prior art keywords
- sequence
- risk
- vector
- training set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000024172 Cardiovascular disease Diseases 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000012360 testing method Methods 0.000 claims abstract description 56
- 238000003780 insertion Methods 0.000 claims abstract description 32
- 230000037431 insertion Effects 0.000 claims abstract description 32
- 238000012512 characterization method Methods 0.000 claims abstract description 20
- 201000010099 disease Diseases 0.000 claims abstract description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 15
- 238000003745 diagnosis Methods 0.000 claims description 61
- 108091026890 Coding region Proteins 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 208000019553 vascular disease Diseases 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000002651 drug therapy Methods 0.000 description 3
- 238000002583 angiography Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010002383 Angina Pectoris Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000472 traumatic effect Effects 0.000 description 1
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于电子病历的心血管疾病风险预测方法,包括获取电子病历数据并分为训练集和测试集;将电子病历数据整理形成训练集序列和测试集序列;将训练集序列输入预测模型的嵌入层生成嵌入向量;采用基于关注机制的LSTM模块对嵌入向量进行表征学习得到表征向量;将表征向量拼接并采用softmax层预测得到初步的心血管疾病风险预测模型;对初步的心血管疾病风险预测模型进行测试和修正得到最终的心血管疾病风险预测模型;采用最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测。本发明能够高效地、全面地捕获电子病历数据的特征信息,实现更准确的疾病风险预测而且模型的准确度更高。
Description
技术领域
本发明具体涉及一种基于电子病历的心血管疾病风险预测方法。
背景技术
随着经济技术的发展和人们生活水平的提高,心血管疾病也逐渐广泛的出现。心血管疾病是一种严重威胁人类健康的常见慢性疾病,居城乡居民总死亡原因的首位。准确预测心血管疾病的发病风险对防范心血管疾病的发生有着重大意义。尽管临床上血管造影术可以准确地诊断出心血管疾病,但是血管造影术不仅比较昂贵而且对身体具有创伤性。此外,临床上也常用心电图和一些评分指数来预估心血管的风险,但这些方法需要医生或者执业人员具备丰富的理论知识和实践经验。近年,一些研究人员提出利用机器学习等算法对患者电子病历中的风险因素进行建模,从而实现心管疾病的风险预测。
在基于电子病历的心血管疾病风险预测研究中,最大的挑战是如何通过有效的表征学习来实现患者画像的准确描绘。电子病历通常包含丰富的患者就诊信息,比如诊断,医嘱,检查检验,生命体征,人口学等数据。传统的患者画像的表征方法是通常需要大量的人工干预,它们的性能往往受限于研究人员的经验以及特定的电子病历系统,导致其可扩展性和泛化性较差。最近几年,受自动特征学习相关研究成果的鼓舞,很多研究人员成功地利用稀疏编码的方式实现了特征表达,比如独热编码(One-Hot)和词袋模型(Bag of Words,BOW)。然而,这些稀疏编码的方式通常无法捕获特征之间的语义性以及电子病历数据中的时序性。近些年,随着深度学习在理论上的突破以及其在生物、金融等众多领域的成功应用,很多研究人员也试图利用深度学习来处理电子病历数据的表征学习。Nguyen等提出将患者的电子病历数据(诊断、药物治疗以及手术记录)表示成一串按时间先后顺序排列的序列,并且利用卷积神经网络 (Convolution Neural Network,CNN)对其进行患者的表征提取。但是在时序学习(Temporal Learning)相关任务中,CNN相对来说只能捕获局部特征信息,并且需要假设一份电子病历中的数据是严格按时间循序排列的。与之相比,基于循环神经网络(Recurrent Neural Network,RNN)的相关算法,比如长短期记忆神经网络(LongShort Term Memory,LSTM),通过不同“门限”来捕捉有用的信息而舍弃没用的信息,从而可以更好地处理带时序性的电子病历数据。 Chitta等利用双向循环神经网络(Bidirectional Recurrent Neural Network, Bi-RNN)进行电子病历表征学习,并利用多种关注机制(Attention Mechanism) 方法提升了模型的表征学习能力和可解释能力。尽管该方法能明显提升风险预测模型的性能,但是它忽略了电子病历中各数据之间的差异性。相对地,Kim 等提出利用相互独立的模块对不同种类的数据(诊断和药物治疗)分别进行表征学习,来提高风险预测的准确性。但实际上,每一种药物治疗的方式在临床上都有与之对应的某一种或多种诊断。尽管该模型实现了有效的风险预测,但是它忽略了诊断和药物治疗两者之间的关联性,因此,预测性能受到了一定的影响。
发明内容
本发明的目的在于提供一种采用技术手段对心血管疾病的风险进行预测、而且预测结果准确可靠的基于电子病历的心血管疾病风险预测方法。
本发明提供的这种基于电子病历的心血管疾病风险预测方法,包括如下步骤:
S1.获取心血管疾病病人和正常人的电子病历数据,并将获取的电子病历分为训练集和测试集;
S2.将步骤S1获取的训练集和测试集中的电子病历数据分别进行整理,各自形成训练集序列和测试集序列;其中训练集序列包括训练集诊断编码序列、训练集诊断编码+实验室指标序列、训练集实验室指标序列和训练集人口学数据,测试集序列包括测试集诊断编码序列、测试集诊断编码+实验室指标序列、测试集实验室指标序列和测试集人口学数据;
S3.将步骤S2得到的训练集序列输入预测模型的嵌入层生成嵌入向量;
S4.采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习,从而得到对应的表征向量;
S5.将步骤S4得到的表征向量进行拼接,采用softmax层进行预测,从而得到初步的心血管疾病风险预测模型;
S6.采用步骤S2得到的测试集对步骤S5得到的初步的心血管疾病风险预测模型进行测试和修正,从而得到最终的心血管疾病风险预测模型;
S7.采用步骤S6得到的最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测。
所述的基于电子病历的心血管疾病风险预测方法,还包括如下步骤:
S8.采用风险预测值与真实诊断值之间的交叉熵作为损失函数对心血管疾病风险预测模型进行优化,从而得到优化后的模型参数。
所述的采用风险预测值与真实诊断值之间的交叉熵作为损失函数,具体为采用如下算式作为损失函数:
式中yi为样本实际的类别标签,为预测模型预测得到的预测结果;N为样本数量。
步骤S2所述的训练集诊断编码序列和测试集诊断编码序列,用于表示样本的患病结果;将样本所患的病症采用编码表示并集合成序列,从而得到训练集诊断编码序列和测试集诊断编码序列。
步骤S2所述的训练集实验室指标序列和测试集实验室指标序列,用于表示样本具体的数据指标;将样本具体的数据指标采用编码表示并集合成序列,从而得到训练集实验室指标序列和测试集实验室指标序列。
步骤S2所述的训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列,用于表示样本患有的疾病和数据指标的数值是否在正常范围内;若样本患有该项疾病,则将该样本的诊断编码表示为1,否则该样本的诊断编码表示为0;若样本的数据指标的数值在正常范围内,则将该样本的实验室指标表示为1,若样本的数据指标的数值不在正常范围内,则将该样本的实验室指标表示为2,否则将该样本的实验室指标表示为0;将样本的诊断编码和实验室指标集合成序列,从而得到训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列。
步骤S2所述的训练集人口学数据和测试集人口学数据,具体为统计集合中样本的年龄数据、性别数据、就诊类型数据、就诊次数数据和手术史数据,并将数据集合成序列,从而得到训练集人口学数据和测试集人口学数据。
步骤S3所述的将训练集序列输入预测模型的嵌入层生成嵌入向量,具体为对训练集人口学数据采用词袋模型生成嵌入向量;对训练集诊断编码序列、训练集诊断编码+实验室指标序列和训练集实验室指标序列,均采用线性整流单元 (Rectified Linear Unit,ReLU)来得到序列的嵌入向量。
所述的采用线性整流单元来得到序列的嵌入向量,具体为采用如下公式计算得到序列的嵌入向量:
vt=ReLU(Wvxt+bc)
式中vt为序列的嵌入向量,ReLU()为线性整流单元函数,Wv∈Rm×M为一个用于衡量变量重要程度的权重矩阵,xt为输入向量,bc为偏执量。
步骤S4所述的采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习,从而得到对应的表征向量,具体为采用双向循环神经网络对嵌入向量进行表征学习,同时采用关注机制计算得到上下文向量,从而得到嵌入向量对应的表征向量。
所述的采用关注机制计算得到上下文向量,具体为采用如下算式计算上下文向量ct:
式中hi表示第i个隐层节点的状态,αti为用来衡量当前状态各元素权重的向量且 为权重矩阵,bα为偏移向量,且bα∈R;同时αt=softmax([αt1,αt2,...,αt(t-1)]),αt为权重向量且αt中的每一个元素表示对应的隐层节点在预测模型中的重要程度。
步骤S5所述的将得到的表征向量进行拼接,具体为将隐层状态向量ht和上下文向量ct进行拼接,从而得到最终的表征向量 其中 tanh()为双曲正切函数,Wc为预测模型负责学习的权重矩阵且Wc∈Rr×4p。
步骤S5所述的采用softmax层进行预测,具体为采用如下算式进行预测:
式中为模型的概率分布,Wx和bs为模型负责学习的权重矩阵偏移向量且 Wx∈R2p。
本发明提供的这种基于电子病历的心血管疾病风险预测方法,充分考虑了电子病历数据的特性,数据特征的提取更加充分,而且本发明方法充分考虑到电子病历中不同性质数据之间的关联性和差异性,从而高效地、全面地捕获电子病历数据的特征信息,实现更准确的疾病风险预测;同时采用基于关注机制的LSTM模块对数据进行学习和预测,模型的准确度更高。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明方法的序列数据示意图。
图3为本发明方法的人口学数据示意图。
图4为本发明方法的预测网络结构示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于电子病历的心血管疾病风险预测方法,包括如下步骤:
S1.获取心血管疾病病人和正常人的电子病历数据,并将获取的电子病历分为训练集和测试集;
S2.将步骤S1获取的训练集和测试集中的电子病历数据分别进行整理,各自形成训练集序列和测试集序列;其中训练集序列包括训练集诊断编码序列、训练集诊断编码+实验室指标序列、训练集实验室指标序列和训练集人口学数据,测试集序列包括测试集诊断编码序列、测试集诊断编码+实验室指标序列、测试集实验室指标序列和测试集人口学数据;
训练集诊断编码序列和测试集诊断编码序列,用于表示样本的患病结果;将样本所患的病症采用编码表示并集合成序列,从而得到训练集诊断编码序列和测试集诊断编码序列;
训练集实验室指标序列和测试集实验室指标序列,用于表示样本具体的数据指标;将样本具体的数据指标采用编码表示并集合成序列,从而得到训练集实验室指标序列和测试集实验室指标序列;
训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列,用于表示样本患有的疾病和数据指标的数值是否在正常范围内;若样本患有该项疾病,则将该样本的诊断编码表示为1,否则该样本的诊断编码表示为0;若样本的数据指标的数值在正常范围内,则将该样本的实验室指标表示为1,若样本的数据指标的数值不在正常范围内,则将该样本的实验室指标表示为2,否则将该样本的实验室指标表示为0;将样本的诊断编码和实验室指标集合成序列,从而得到训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列;
训练集人口学数据和测试集人口学数据,具体为统计集合中样本的年龄数据、性别数据、就诊类型数据、就诊次数数据和手术史数据,并将数据集合成序列,从而得到训练集人口学数据和测试集人口学数据;
数据集中医学编码的集合(包括诊断编码,实验室指标)被表示成 D={d1,d2,...,dM},其中M是编码的总数量,任意一个元素dj表示一个医学编码。令P={p1,p2,...,pN}表示数据集中的患者集合,其中N为患者总数,任意一个元素pn表示一个患者。对于任意患者pn,其电子病历数据可以被表示成一个医疗就诊序列其中T(n)表示第n个患者的总就诊次数,表示该患者pn的第i次就诊记录,是由一个或多个医学编码组成的无序集合。为了将每次就诊记录Vi转化成深度模型的输入数据的格式,Vi被表示成一个一维向量xi,其中每个维度代表唯一的一种医学编码dj。对于二元医学变量,如诊断编码等,只有两种取值(如果Vi包含dj则xi中相应位置为1,否则为0)。此外,对于一些有多种取值的医学编码,比如具有连续型取值范围的实验指标数据,则采用如下的赋值策略:
如果实验指标的数值在给定的正常值参考范围之内,则xi中相应位置为1;
如果实验指标的数值不在给定的正常值参考范围之内,则xi中相应位置为 2;
否则,xi中相应位置为0。
如图2所示,每个患者的电子病历数据都能表示成一条序列。序列中,每个片段代表一次医疗就诊记录,即Vi,包含一个或多个诊断编码和实验室指标。很显然,图2(a)所给出的是一个心血管疾病高风险患者的案例,因为在预测窗口中,该患者出现有心血管疾病的ICD10编码(心绞痛,I20)。假设HIS系统中总共只有九种不同编码(不包括心血管疾病相关编码):I10,E78,H30,K81,WBC, PDW,FBG,HDL和BP,其中前四个为疾病编码,后五个为实验室指标。那么,每次就诊记录Vi都可以被表示成一个九维的向量,如图2(b)所示。比如,在片段 1中患者被诊断为I10和E78,同时实验室指标WBC处于正常取值范围内,PDW 的取值偏离正常范围,那么该片段V1可以表示成向量x1=[1,1,0,0,1,2,0,0,0]。此外,x1也可以被拆分成两部分:诊断编码向量x1'=[1,1,0,0]和实验室指标向量 x1″=[1,2,0,0,0],以便分别对两者单独进行训练。
在人口学数据中,每一个特征使用One-Hot的方式组织。如图3所示,年龄被拆分成了7个阶段(“0-18”,“18-30”,“30-45”,“45-60”,“60-75”和“75+”),性别包括两个特定的值(男和女),病人类型包含三种不同的类别(门诊,急诊和住院),就诊次数被离散成6个片段(“6-12”,“12-18”,“18-24”,“24-30”,“30-36”和“36+”),最后手术史被表示成一个二维向量(“S”和“NS”,分别代表有、无手术史)。需要注意的是,前三个人口学特征(年龄,性别,病人类型)都有一个额外的维度(unknown,“UK”),表示数据缺失的情况。
S3.将步骤S2得到的训练集序列输入预测模型的嵌入层生成嵌入向量;具体为对训练集人口学数据采用词袋模型生成嵌入向量;对训练集诊断编码序列、训练集诊断编码+实验室指标序列和训练集实验室指标序列,均采用Med2Vec 方法进行计算;Med2Vec利用线性整流单元(Rectified Linear Unit,ReLU)来得到序列的嵌入向量;具体为采用如下公式计算得到序列的嵌入向量:
vt=ReLU(Wvxt+bc)
式中vt为序列的嵌入向量,ReLU()为线性整流单元函数,Wv∈Rm×M为一个用于衡量变量重要程度的权重矩阵,xt为输入向量,bc为偏执量;
S4.采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习,从而得到对应的表征向量;具体为采用双向循环神经网络对嵌入向量进行表征学习,同时采用关注机制计算得到上下文向量,从而得到嵌入向量对应的表征向量;
如图4所示,双向循环神经网络由一个前向RNN和一个后向RNN组成,能充分利用当前状态之前和以后的特征信息。前向RNN负责从序列的前端向后端的表征学习任务,而后向RNN正好相反。最后,Bi-RNN将两个单向的RNN 所学到的隐层特征信息进行融合,得到最终的隐层状态。对于两个单向RNN输出的融合方式,常见的有拼接,element-wise操作等。在本发明中,采用的方法是element-wis乘法,因为它通常能取得较好的效果,并且还能有效减少模型的复杂度。
同时,采用如下算式计算上下文向量ct:
式中hi表示第i个隐层节点的状态,αti为用来衡量当前状态各元素权重的向量且 为权重矩阵,bα为偏移向量,且bα∈R;同时αt=softmax([αt1,αt2,...,αt(t-1)]),αt为权重向量且αt中的每一个元素表示对应的隐层节点在预测模型中的重要程度;
S5.将步骤S4得到的表征向量进行拼接,采用softmax层进行预测,从而得到初步的心血管疾病风险预测模型;
表征向量的拼接,具体为将隐层状态向量ht和上下文向量ct进行拼接,从而得到最终的表征向量 其中tanh()为双曲正切函数,Wc为预测模型负责学习的权重矩阵且Wc∈Rr×4p;
采用softmax层进行预测,具体为采用如下算式进行预测:
式中为模型的概率分布,Wx和bs为模型负责学习的权重矩阵偏移向量且 Wx∈R2p
S6.采用步骤S2得到的测试集对步骤S5得到的初步的心血管疾病风险预测模型进行测试和修正,从而得到最终的心血管疾病风险预测模型;
S7.采用步骤S6得到的最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测;
S8.采用风险预测值与真实诊断值之间的交叉熵作为损失函数对心血管疾病风险预测模型进行优化,从而得到优化后的模型参数;具体为采用如下算式作为损失函数:
式中yi为样本实际的类别标签,为预测模型预测得到的预测结果;N为样本数量;模型采用的优化算法是小批量随机梯度下降算法,由基于TensorFlow和 Python 3.5的深度学习框架Keras 2.2.2负责参数的自动计算和更新。
Claims (10)
1.一种基于电子病历的心血管疾病风险预测方法,包括如下步骤:
S1.获取心血管疾病病人和正常人的电子病历数据,并将获取的电子病历分为训练集和测试集;
S2.将步骤S1获取的训练集和测试集中的电子病历数据分别进行整理,各自形成训练集序列和测试集序列;其中训练集序列包括训练集诊断编码序列、训练集诊断编码+实验室指标序列、训练集实验室指标序列和训练集人口学数据,测试集序列包括测试集诊断编码序列、测试集诊断编码+实验室指标序列、测试集实验室指标序列和测试集人口学数据;
S3.将步骤S2得到的训练集序列输入预测模型的嵌入层生成嵌入向量;
S4.采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习,从而得到对应的表征向量;
S5.将步骤S4得到的表征向量进行拼接,采用softmax层进行预测,从而得到初步的心血管疾病风险预测模型;
S6.采用步骤S2得到的测试集对步骤S5得到的初步的心血管疾病风险预测模型进行测试和修正,从而得到最终的心血管疾病风险预测模型;
S7.采用步骤S6得到的最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测。
2.根据权利要求1所述的基于电子病历的心血管疾病风险预测方法,其特征在于还包括如下步骤:
S8.采用风险预测值与真实诊断值之间的交叉熵作为损失函数对心血管疾病风险预测模型进行优化,从而得到优化后的模型参数。
3.根据权利要求2所述的基于电子病历的心血管疾病风险预测方法,其特征在于所述的采用风险预测值与真实诊断值之间的交叉熵作为损失函数,具体为采用如下算式作为损失函数:
式中yi为样本实际的类别标签,为预测模型预测得到的预测结果;N为样本数量。
4.根据权利要求1~3之一所述的基于电子病历的心血管疾病风险预测方法,其特征在于步骤S2所述的训练集诊断编码序列和测试集诊断编码序列,用于表示样本的患病结果;将样本所患的病症采用编码表示并集合成序列,从而得到训练集诊断编码序列和测试集诊断编码序列;步骤S2所述的训练集实验室指标序列和测试集实验室指标序列,用于表示样本具体的数据指标;将样本具体的数据指标采用编码表示并集合成序列,从而得到训练集实验室指标序列和测试集实验室指标序列;步骤S2所述的训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列,用于表示样本患有的疾病和数据指标的数值是否在正常范围内;若样本患有该项疾病,则将该样本的诊断编码表示为1,否则该样本的诊断编码表示为0;若样本的数据指标的数值在正常范围内,则将该样本的实验室指标表示为1,若样本的数据指标的数值不在正常范围内,则将该样本的实验室指标表示为2,否则将该样本的实验室指标表示为0;将样本的诊断编码和实验室指标集合成序列,从而得到训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列;步骤S2所述的训练集人口学数据和测试集人口学数据,具体为统计集合中样本的年龄数据、性别数据、就诊类型数据、就诊次数数据和手术史数据,并将数据集合成序列,从而得到训练集人口学数据和测试集人口学数据。
5.根据权利要求1~3之一所述的基于电子病历的心血管疾病风险预测方法,其特征在于步骤S3所述的将训练集序列输入预测模型的嵌入层生成嵌入向量,具体为对训练集人口学数据采用词袋模型生成嵌入向量;对训练集诊断编码序列、训练集诊断编码+实验室指标序列和训练集实验室指标序列,均采用线性整流单元(Rectified Linear Unit,ReLU)来得到序列的嵌入向量。
6.根据权利要求5所述的基于电子病历的心血管疾病风险预测方法,其特征在于所述的采用线性整流单元来得到序列的嵌入向量,具体为采用如下公式计算得到序列的嵌入向量:
vt=ReLU(Wvxt+bc)
式中vt为序列的嵌入向量,ReLU()为线性整流单元函数,Wv∈Rm×M为一个用于衡量变量重要程度的权重矩阵,xt为输入向量,bc为偏执量。
7.根据权利要求1~3之一所述的基于电子病历的心血管疾病风险预测方法,其特征在于步骤S4所述的采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习,从而得到对应的表征向量,具体为采用双向循环神经网络对嵌入向量进行表征学习,同时采用关注机制计算得到上下文向量,从而得到嵌入向量对应的表征向量。
8.根据权利要求7所述的基于电子病历的心血管疾病风险预测方法,其特征在于所述的采用关注机制计算得到上下文向量,具体为采用如下算式计算上下文向量ct:
式中hi表示第i个隐层节点的状态,αti为用来衡量当前状态各元素权重的向量且 为权重矩阵,bα为偏移向量,且bα∈R;同时αt=softmax([αt1,αt2,...,αt(t-1)]),αt为权重向量且αt中的每一个元素表示对应的隐层节点在预测模型中的重要程度。
9.根据权利要求1~3之一所述的基于电子病历的心血管疾病风险预测方法,其特征在于步骤S5所述的将得到的表征向量进行拼接,具体为将隐层状态向量ht和上下文向量ct进行拼接,从而得到最终的表征向量 其中tanh()为双曲正切函数,Wc为预测模型负责学习的权重矩阵且Wc∈Rr×4p。
10.根据权利要求1~3之一所述的基于电子病历的心血管疾病风险预测方法,其特征在于步骤S5所述的采用softmax层进行预测,具体为采用如下算式进行预测:
式中为模型的概率分布,Wx和bs为模型负责学习的权重矩阵偏移向量且Wx∈R2p。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910015636.6A CN109754852A (zh) | 2019-01-08 | 2019-01-08 | 基于电子病历的心血管疾病风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910015636.6A CN109754852A (zh) | 2019-01-08 | 2019-01-08 | 基于电子病历的心血管疾病风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109754852A true CN109754852A (zh) | 2019-05-14 |
Family
ID=66405263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910015636.6A Pending CN109754852A (zh) | 2019-01-08 | 2019-01-08 | 基于电子病历的心血管疾病风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109754852A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175996A (zh) * | 2019-05-29 | 2019-08-27 | 中国人民解放军陆军军医大学第二附属医院 | 一种基于cmr双向循环网络的心衰自动分级方法 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
CN111128298A (zh) * | 2019-12-24 | 2020-05-08 | 大连海事大学 | 一种基于深度学习模型获取多基因风险评分的方法及系统 |
CN111180070A (zh) * | 2019-12-30 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 病历数据分析方法及装置 |
CN111210912A (zh) * | 2020-01-14 | 2020-05-29 | 上海恩睦信息科技有限公司 | 一种帕金森预测方法及装置 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111312341A (zh) * | 2020-01-17 | 2020-06-19 | 中南大学湘雅三医院 | 华法林剂量预测方法及预测装置 |
CN111370084A (zh) * | 2020-02-07 | 2020-07-03 | 山东师范大学 | 基于BiLSTM的电子健康记录表示学习方法及系统 |
CN111696674A (zh) * | 2020-06-12 | 2020-09-22 | 电子科技大学 | 一种电子病历的深度学习方法及系统 |
CN111724897A (zh) * | 2020-06-12 | 2020-09-29 | 电子科技大学 | 一种运动功能数据处理方法及系统 |
CN112133445A (zh) * | 2020-10-21 | 2020-12-25 | 万达信息股份有限公司 | 一种心血管疾病管理服务方法和系统 |
CN112233798A (zh) * | 2020-12-16 | 2021-01-15 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析系统 |
WO2021012225A1 (en) * | 2019-07-24 | 2021-01-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence system for medical diagnosis based on machine learning |
CN112885423A (zh) * | 2021-03-16 | 2021-06-01 | 康键信息技术(深圳)有限公司 | 疾病标签检测方法、装置、电子设备及存储介质 |
US20210296002A1 (en) * | 2019-06-27 | 2021-09-23 | Ping An Technology (Shenzhen) Co., Ltd. | Long short-term memory model-based disease prediction method and apparatus, and computer device |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN114334159A (zh) * | 2022-03-16 | 2022-04-12 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN115394448A (zh) * | 2022-10-28 | 2022-11-25 | 合肥伊阳健康科技有限公司 | 冠心病运动反应性预测模型的建模方法、模型、设备 |
WO2022246707A1 (zh) * | 2021-05-26 | 2022-12-01 | 京东方科技集团股份有限公司 | 疾病风险预测方法、装置、存储介质及电子设备 |
CN115831339A (zh) * | 2023-02-21 | 2023-03-21 | 四川大学华西医院 | 基于深度学习的医疗系统风险管控事前预测方法、系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014201515A1 (en) * | 2013-06-18 | 2014-12-24 | Deakin University | Medical data processing for risk prediction |
CN106778014A (zh) * | 2016-12-29 | 2017-05-31 | 浙江大学 | 一种基于循环神经网络的患病风险预测方法 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
CN108461152A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 医疗模型训练方法、医疗识别方法、装置、设备及介质 |
CN108877905A (zh) * | 2018-06-12 | 2018-11-23 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
CN109117864A (zh) * | 2018-07-13 | 2019-01-01 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及系统 |
-
2019
- 2019-01-08 CN CN201910015636.6A patent/CN109754852A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014201515A1 (en) * | 2013-06-18 | 2014-12-24 | Deakin University | Medical data processing for risk prediction |
CN106778014A (zh) * | 2016-12-29 | 2017-05-31 | 浙江大学 | 一种基于循环神经网络的患病风险预测方法 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
CN108461152A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 医疗模型训练方法、医疗识别方法、装置、设备及介质 |
CN108877905A (zh) * | 2018-06-12 | 2018-11-23 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
CN109117864A (zh) * | 2018-07-13 | 2019-01-01 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及系统 |
Non-Patent Citations (5)
Title |
---|
ADLER PEROTTE: "Risk prediction for chronic kidney disease progression using heterogeneous electronic health record data and time series analysis", 《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION JAMIA》 * |
FENGLONG MA: "Dipole:diagnosis prediction in healthcare via attention-based bidirectional recurrent neural networks", 《SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD 2017)》 * |
ZHENGPING CHE: "Boosting deep learning risk prediction with generative adversarial networks for electronic health records", 《2017 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
张胜等: "基于神经网络的川崎病并发冠状动脉病变预测模型", 《中国生物医学工程学报》 * |
阮彤等: "基于电子病历的临床医疗大数据挖掘流程与方法", 《大数据》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175996A (zh) * | 2019-05-29 | 2019-08-27 | 中国人民解放军陆军军医大学第二附属医院 | 一种基于cmr双向循环网络的心衰自动分级方法 |
CN110277165A (zh) * | 2019-06-27 | 2019-09-24 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
US20210296002A1 (en) * | 2019-06-27 | 2021-09-23 | Ping An Technology (Shenzhen) Co., Ltd. | Long short-term memory model-based disease prediction method and apparatus, and computer device |
US11710571B2 (en) * | 2019-06-27 | 2023-07-25 | Ping An Technology (Shenzhen) Co., Ltd. | Long short-term memory model-based disease prediction method and apparatus, and computer device |
CN110277165B (zh) * | 2019-06-27 | 2021-06-04 | 清华大学 | 基于图神经网络的辅助诊断方法、装置、设备及存储介质 |
WO2021012225A1 (en) * | 2019-07-24 | 2021-01-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence system for medical diagnosis based on machine learning |
CN111128298B (zh) * | 2019-12-24 | 2022-12-02 | 大连海事大学 | 一种基于深度学习模型获取多基因风险评分的方法及系统 |
CN111128298A (zh) * | 2019-12-24 | 2020-05-08 | 大连海事大学 | 一种基于深度学习模型获取多基因风险评分的方法及系统 |
CN111180070A (zh) * | 2019-12-30 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 病历数据分析方法及装置 |
CN111210912A (zh) * | 2020-01-14 | 2020-05-29 | 上海恩睦信息科技有限公司 | 一种帕金森预测方法及装置 |
CN111292853B (zh) * | 2020-01-15 | 2023-05-26 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111312341B (zh) * | 2020-01-17 | 2022-06-28 | 中南大学湘雅三医院 | 华法林剂量预测方法及预测装置 |
CN111312341A (zh) * | 2020-01-17 | 2020-06-19 | 中南大学湘雅三医院 | 华法林剂量预测方法及预测装置 |
CN111370084A (zh) * | 2020-02-07 | 2020-07-03 | 山东师范大学 | 基于BiLSTM的电子健康记录表示学习方法及系统 |
CN111370084B (zh) * | 2020-02-07 | 2023-10-03 | 山东师范大学 | 基于BiLSTM的电子健康记录表示学习方法及系统 |
CN111696674B (zh) * | 2020-06-12 | 2023-09-08 | 电子科技大学 | 一种电子病历的深度学习方法及系统 |
CN111696674A (zh) * | 2020-06-12 | 2020-09-22 | 电子科技大学 | 一种电子病历的深度学习方法及系统 |
CN111724897A (zh) * | 2020-06-12 | 2020-09-29 | 电子科技大学 | 一种运动功能数据处理方法及系统 |
CN111724897B (zh) * | 2020-06-12 | 2022-07-01 | 电子科技大学 | 一种运动功能数据处理方法及系统 |
CN112133445A (zh) * | 2020-10-21 | 2020-12-25 | 万达信息股份有限公司 | 一种心血管疾病管理服务方法和系统 |
CN112233798A (zh) * | 2020-12-16 | 2021-01-15 | 杭州智策略科技有限公司 | 基于病理模式与注意力机制的可解释疾病风险分析系统 |
CN112885423A (zh) * | 2021-03-16 | 2021-06-01 | 康键信息技术(深圳)有限公司 | 疾病标签检测方法、装置、电子设备及存储介质 |
CN113517046B (zh) * | 2021-04-15 | 2023-11-07 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
WO2022246707A1 (zh) * | 2021-05-26 | 2022-12-01 | 京东方科技集团股份有限公司 | 疾病风险预测方法、装置、存储介质及电子设备 |
CN114334159B (zh) * | 2022-03-16 | 2022-06-17 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN114334159A (zh) * | 2022-03-16 | 2022-04-12 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN115394448A (zh) * | 2022-10-28 | 2022-11-25 | 合肥伊阳健康科技有限公司 | 冠心病运动反应性预测模型的建模方法、模型、设备 |
CN115831339A (zh) * | 2023-02-21 | 2023-03-21 | 四川大学华西医院 | 基于深度学习的医疗系统风险管控事前预测方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109754852A (zh) | 基于电子病历的心血管疾病风险预测方法 | |
CN113421652B (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
WO2023202508A1 (zh) | 一种基于认知图谱的全科患者个性化诊疗方案推荐系统 | |
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
CN104881463B (zh) | 基于结构化病历数据库的参考病历检索方法及装置 | |
CN111492437A (zh) | 支持医学决策的方法和系统 | |
CN106456078A (zh) | 用于对血流储备分数的基于机器学习的评估的方法和系统 | |
CN111798954A (zh) | 基于时间注意力机制和图卷积网络的药物组合推荐方法 | |
CN110289096A (zh) | 一种基于深度学习的icu院内死亡率预测方法 | |
CN104462858A (zh) | 基于多阶隐马尔可夫模型的健康预警方法 | |
CN109887606B (zh) | 一种基于注意力的双向递归神经网络的诊断预测方法 | |
Malone et al. | Learning representations of missing data for predicting patient outcomes | |
CN116759041B (zh) | 一种考虑诊疗事件关系的医疗时序数据生成方法及装置 | |
CN117034142A (zh) | 一种不平衡医疗数据缺失值填充方法及系统 | |
CN118173270B (zh) | 患者术后感染风险评估系统及方法 | |
CN114300081B (zh) | 基于电子病历多模态数据的预测设备、系统和存储介质 | |
Sheikhalishahi et al. | Benchmarking machine learning models on eICU critical care dataset | |
CN113990502B (zh) | 一种基于异构图神经网络的icu心衰预测系统 | |
Hu et al. | Research on Early Warning Model of Cardiovascular Disease Based on Computer Deep Learning | |
WO2024027438A1 (zh) | 一种基于个性化状态空间进展模型的疾病辅助决策系统 | |
CN109119155A (zh) | 基于深度学习的icu死亡危险性评估系统 | |
Zhang et al. | Predicting treatment initiation from clinical time series data via graph-augmented time-sensitive model | |
CN115394448B (zh) | 冠心病运动反应性预测模型的建模方法、模型、设备 | |
Han et al. | Chinese Q&A community medical entity recognition with character-level features and self-attention mechanism | |
Chen et al. | Predicting sequenced dental treatment plans from electronic dental records using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190514 |