CN109754852A

CN109754852A - 基于电子病历的心血管疾病风险预测方法

Info

Publication number: CN109754852A
Application number: CN201910015636.6A
Authority: CN
Inventors: 黄能军; 安莹; 陈先来
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-05-14

Abstract

本发明公开了一种基于电子病历的心血管疾病风险预测方法，包括获取电子病历数据并分为训练集和测试集；将电子病历数据整理形成训练集序列和测试集序列；将训练集序列输入预测模型的嵌入层生成嵌入向量；采用基于关注机制的LSTM模块对嵌入向量进行表征学习得到表征向量；将表征向量拼接并采用softmax层预测得到初步的心血管疾病风险预测模型；对初步的心血管疾病风险预测模型进行测试和修正得到最终的心血管疾病风险预测模型；采用最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测。本发明能够高效地、全面地捕获电子病历数据的特征信息，实现更准确的疾病风险预测而且模型的准确度更高。

Description

基于电子病历的心血管疾病风险预测方法

技术领域

本发明具体涉及一种基于电子病历的心血管疾病风险预测方法。

背景技术

随着经济技术的发展和人们生活水平的提高，心血管疾病也逐渐广泛的出现。心血管疾病是一种严重威胁人类健康的常见慢性疾病,居城乡居民总死亡原因的首位。准确预测心血管疾病的发病风险对防范心血管疾病的发生有着重大意义。尽管临床上血管造影术可以准确地诊断出心血管疾病，但是血管造影术不仅比较昂贵而且对身体具有创伤性。此外，临床上也常用心电图和一些评分指数来预估心血管的风险，但这些方法需要医生或者执业人员具备丰富的理论知识和实践经验。近年，一些研究人员提出利用机器学习等算法对患者电子病历中的风险因素进行建模，从而实现心管疾病的风险预测。

在基于电子病历的心血管疾病风险预测研究中，最大的挑战是如何通过有效的表征学习来实现患者画像的准确描绘。电子病历通常包含丰富的患者就诊信息，比如诊断，医嘱，检查检验，生命体征，人口学等数据。传统的患者画像的表征方法是通常需要大量的人工干预，它们的性能往往受限于研究人员的经验以及特定的电子病历系统，导致其可扩展性和泛化性较差。最近几年，受自动特征学习相关研究成果的鼓舞，很多研究人员成功地利用稀疏编码的方式实现了特征表达，比如独热编码(One-Hot)和词袋模型(Bag of Words,BOW)。然而，这些稀疏编码的方式通常无法捕获特征之间的语义性以及电子病历数据中的时序性。近些年，随着深度学习在理论上的突破以及其在生物、金融等众多领域的成功应用，很多研究人员也试图利用深度学习来处理电子病历数据的表征学习。Nguyen等提出将患者的电子病历数据(诊断、药物治疗以及手术记录)表示成一串按时间先后顺序排列的序列，并且利用卷积神经网络 (Convolution Neural Network，CNN)对其进行患者的表征提取。但是在时序学习(Temporal Learning)相关任务中，CNN相对来说只能捕获局部特征信息，并且需要假设一份电子病历中的数据是严格按时间循序排列的。与之相比，基于循环神经网络(Recurrent Neural Network，RNN)的相关算法，比如长短期记忆神经网络(LongShort Term Memory，LSTM)，通过不同“门限”来捕捉有用的信息而舍弃没用的信息，从而可以更好地处理带时序性的电子病历数据。 Chitta等利用双向循环神经网络(Bidirectional Recurrent Neural Network， Bi-RNN)进行电子病历表征学习，并利用多种关注机制(Attention Mechanism) 方法提升了模型的表征学习能力和可解释能力。尽管该方法能明显提升风险预测模型的性能，但是它忽略了电子病历中各数据之间的差异性。相对地，Kim 等提出利用相互独立的模块对不同种类的数据(诊断和药物治疗)分别进行表征学习，来提高风险预测的准确性。但实际上，每一种药物治疗的方式在临床上都有与之对应的某一种或多种诊断。尽管该模型实现了有效的风险预测，但是它忽略了诊断和药物治疗两者之间的关联性，因此，预测性能受到了一定的影响。

发明内容

本发明的目的在于提供一种采用技术手段对心血管疾病的风险进行预测、而且预测结果准确可靠的基于电子病历的心血管疾病风险预测方法。

本发明提供的这种基于电子病历的心血管疾病风险预测方法，包括如下步骤：

S1.获取心血管疾病病人和正常人的电子病历数据，并将获取的电子病历分为训练集和测试集；

S2.将步骤S1获取的训练集和测试集中的电子病历数据分别进行整理，各自形成训练集序列和测试集序列；其中训练集序列包括训练集诊断编码序列、训练集诊断编码+实验室指标序列、训练集实验室指标序列和训练集人口学数据，测试集序列包括测试集诊断编码序列、测试集诊断编码+实验室指标序列、测试集实验室指标序列和测试集人口学数据；

S3.将步骤S2得到的训练集序列输入预测模型的嵌入层生成嵌入向量；

S4.采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习，从而得到对应的表征向量；

S5.将步骤S4得到的表征向量进行拼接，采用softmax层进行预测，从而得到初步的心血管疾病风险预测模型；

S6.采用步骤S2得到的测试集对步骤S5得到的初步的心血管疾病风险预测模型进行测试和修正，从而得到最终的心血管疾病风险预测模型；

S7.采用步骤S6得到的最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测。

所述的基于电子病历的心血管疾病风险预测方法，还包括如下步骤：

S8.采用风险预测值与真实诊断值之间的交叉熵作为损失函数对心血管疾病风险预测模型进行优化，从而得到优化后的模型参数。

所述的采用风险预测值与真实诊断值之间的交叉熵作为损失函数，具体为采用如下算式作为损失函数：

式中y_i为样本实际的类别标签，为预测模型预测得到的预测结果；N为样本数量。

步骤S2所述的训练集诊断编码序列和测试集诊断编码序列，用于表示样本的患病结果；将样本所患的病症采用编码表示并集合成序列，从而得到训练集诊断编码序列和测试集诊断编码序列。

步骤S2所述的训练集实验室指标序列和测试集实验室指标序列，用于表示样本具体的数据指标；将样本具体的数据指标采用编码表示并集合成序列，从而得到训练集实验室指标序列和测试集实验室指标序列。

步骤S2所述的训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列，用于表示样本患有的疾病和数据指标的数值是否在正常范围内；若样本患有该项疾病，则将该样本的诊断编码表示为1，否则该样本的诊断编码表示为0；若样本的数据指标的数值在正常范围内，则将该样本的实验室指标表示为1，若样本的数据指标的数值不在正常范围内，则将该样本的实验室指标表示为2，否则将该样本的实验室指标表示为0；将样本的诊断编码和实验室指标集合成序列，从而得到训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列。

步骤S2所述的训练集人口学数据和测试集人口学数据，具体为统计集合中样本的年龄数据、性别数据、就诊类型数据、就诊次数数据和手术史数据，并将数据集合成序列，从而得到训练集人口学数据和测试集人口学数据。

步骤S3所述的将训练集序列输入预测模型的嵌入层生成嵌入向量，具体为对训练集人口学数据采用词袋模型生成嵌入向量；对训练集诊断编码序列、训练集诊断编码+实验室指标序列和训练集实验室指标序列，均采用线性整流单元 (Rectified Linear Unit，ReLU)来得到序列的嵌入向量。

所述的采用线性整流单元来得到序列的嵌入向量，具体为采用如下公式计算得到序列的嵌入向量：

v_t＝ReLU(W_vx_t+b_c)

式中v_t为序列的嵌入向量，ReLU()为线性整流单元函数，W_v∈R^m×M为一个用于衡量变量重要程度的权重矩阵，x_t为输入向量，b_c为偏执量。

步骤S4所述的采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习，从而得到对应的表征向量，具体为采用双向循环神经网络对嵌入向量进行表征学习，同时采用关注机制计算得到上下文向量，从而得到嵌入向量对应的表征向量。

所述的采用关注机制计算得到上下文向量，具体为采用如下算式计算上下文向量c_t：

式中h_i表示第i个隐层节点的状态，α_ti为用来衡量当前状态各元素权重的向量且为权重矩阵，b_α为偏移向量，且b_α∈R；同时α_t＝softmax([α_t1,α_t2,...,α_t(t-1)])，α_t为权重向量且α_t中的每一个元素表示对应的隐层节点在预测模型中的重要程度。

步骤S5所述的将得到的表征向量进行拼接，具体为将隐层状态向量h_t和上下文向量c_t进行拼接，从而得到最终的表征向量其中 tanh()为双曲正切函数，W_c为预测模型负责学习的权重矩阵且W_c∈R^r×4p。

步骤S5所述的采用softmax层进行预测，具体为采用如下算式进行预测：

式中为模型的概率分布，W_x和b_s为模型负责学习的权重矩阵偏移向量且 W_x∈R^2p。

本发明提供的这种基于电子病历的心血管疾病风险预测方法，充分考虑了电子病历数据的特性，数据特征的提取更加充分，而且本发明方法充分考虑到电子病历中不同性质数据之间的关联性和差异性，从而高效地、全面地捕获电子病历数据的特征信息，实现更准确的疾病风险预测；同时采用基于关注机制的LSTM模块对数据进行学习和预测，模型的准确度更高。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明方法的序列数据示意图。

图3为本发明方法的人口学数据示意图。

图4为本发明方法的预测网络结构示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于电子病历的心血管疾病风险预测方法，包括如下步骤：

训练集诊断编码序列和测试集诊断编码序列，用于表示样本的患病结果；将样本所患的病症采用编码表示并集合成序列，从而得到训练集诊断编码序列和测试集诊断编码序列；

训练集实验室指标序列和测试集实验室指标序列，用于表示样本具体的数据指标；将样本具体的数据指标采用编码表示并集合成序列，从而得到训练集实验室指标序列和测试集实验室指标序列；

训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列，用于表示样本患有的疾病和数据指标的数值是否在正常范围内；若样本患有该项疾病，则将该样本的诊断编码表示为1，否则该样本的诊断编码表示为0；若样本的数据指标的数值在正常范围内，则将该样本的实验室指标表示为1，若样本的数据指标的数值不在正常范围内，则将该样本的实验室指标表示为2，否则将该样本的实验室指标表示为0；将样本的诊断编码和实验室指标集合成序列，从而得到训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列；

训练集人口学数据和测试集人口学数据，具体为统计集合中样本的年龄数据、性别数据、就诊类型数据、就诊次数数据和手术史数据，并将数据集合成序列，从而得到训练集人口学数据和测试集人口学数据；

数据集中医学编码的集合(包括诊断编码，实验室指标)被表示成 D＝{d₁,d₂,...,d_M}，其中M是编码的总数量，任意一个元素d_j表示一个医学编码。令P＝{p₁,p₂,...,p_N}表示数据集中的患者集合，其中N为患者总数，任意一个元素p_n表示一个患者。对于任意患者p_n，其电子病历数据可以被表示成一个医疗就诊序列其中T(n)表示第n个患者的总就诊次数，表示该患者p_n的第i次就诊记录，是由一个或多个医学编码组成的无序集合。为了将每次就诊记录V_i转化成深度模型的输入数据的格式，V_i被表示成一个一维向量x_i，其中每个维度代表唯一的一种医学编码d_j。对于二元医学变量，如诊断编码等，只有两种取值(如果V_i包含d_j则x_i中相应位置为1，否则为0)。此外，对于一些有多种取值的医学编码，比如具有连续型取值范围的实验指标数据，则采用如下的赋值策略：

如果实验指标的数值在给定的正常值参考范围之内，则x_i中相应位置为1；

如果实验指标的数值不在给定的正常值参考范围之内，则x_i中相应位置为 2；

否则，x_i中相应位置为0。

如图2所示，每个患者的电子病历数据都能表示成一条序列。序列中，每个片段代表一次医疗就诊记录，即V_i，包含一个或多个诊断编码和实验室指标。很显然，图2(a)所给出的是一个心血管疾病高风险患者的案例，因为在预测窗口中，该患者出现有心血管疾病的ICD10编码(心绞痛，I20)。假设HIS系统中总共只有九种不同编码(不包括心血管疾病相关编码)：I10,E78,H30,K81,WBC, PDW,FBG,HDL和BP，其中前四个为疾病编码，后五个为实验室指标。那么，每次就诊记录V_i都可以被表示成一个九维的向量，如图2(b)所示。比如，在片段 1中患者被诊断为I10和E78，同时实验室指标WBC处于正常取值范围内，PDW 的取值偏离正常范围，那么该片段V₁可以表示成向量x₁＝[1,1,0,0,1,2,0,0,0]。此外，x₁也可以被拆分成两部分：诊断编码向量x₁'＝[1,1,0,0]和实验室指标向量 x₁″＝[1,2,0,0,0]，以便分别对两者单独进行训练。

在人口学数据中，每一个特征使用One-Hot的方式组织。如图3所示，年龄被拆分成了7个阶段(“0-18”，“18-30”，“30-45”，“45-60”，“60-75”和“75+”)，性别包括两个特定的值(男和女)，病人类型包含三种不同的类别(门诊，急诊和住院)，就诊次数被离散成6个片段(“6-12”，“12-18”，“18-24”，“24-30”，“30-36”和“36+”)，最后手术史被表示成一个二维向量(“S”和“NS”，分别代表有、无手术史)。需要注意的是，前三个人口学特征(年龄，性别，病人类型)都有一个额外的维度(unknown，“UK”)，表示数据缺失的情况。

S3.将步骤S2得到的训练集序列输入预测模型的嵌入层生成嵌入向量；具体为对训练集人口学数据采用词袋模型生成嵌入向量；对训练集诊断编码序列、训练集诊断编码+实验室指标序列和训练集实验室指标序列，均采用Med2Vec 方法进行计算；Med2Vec利用线性整流单元(Rectified Linear Unit，ReLU)来得到序列的嵌入向量；具体为采用如下公式计算得到序列的嵌入向量：

v_t＝ReLU(W_vx_t+b_c)

式中v_t为序列的嵌入向量，ReLU()为线性整流单元函数，W_v∈R^m×M为一个用于衡量变量重要程度的权重矩阵，x_t为输入向量，b_c为偏执量；

S4.采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习，从而得到对应的表征向量；具体为采用双向循环神经网络对嵌入向量进行表征学习，同时采用关注机制计算得到上下文向量，从而得到嵌入向量对应的表征向量；

如图4所示，双向循环神经网络由一个前向RNN和一个后向RNN组成，能充分利用当前状态之前和以后的特征信息。前向RNN负责从序列的前端向后端的表征学习任务，而后向RNN正好相反。最后，Bi-RNN将两个单向的RNN 所学到的隐层特征信息进行融合，得到最终的隐层状态。对于两个单向RNN输出的融合方式，常见的有拼接，element-wise操作等。在本发明中，采用的方法是element-wis乘法，因为它通常能取得较好的效果，并且还能有效减少模型的复杂度。

同时，采用如下算式计算上下文向量c_t：

式中h_i表示第i个隐层节点的状态，α_ti为用来衡量当前状态各元素权重的向量且为权重矩阵，b_α为偏移向量，且b_α∈R；同时α_t＝softmax([α_t1,α_t2,...,α_t(t-1)])，α_t为权重向量且α_t中的每一个元素表示对应的隐层节点在预测模型中的重要程度；

表征向量的拼接，具体为将隐层状态向量h_t和上下文向量c_t进行拼接，从而得到最终的表征向量其中tanh()为双曲正切函数，W_c为预测模型负责学习的权重矩阵且W_c∈R^r×4p；

采用softmax层进行预测，具体为采用如下算式进行预测：

式中为模型的概率分布，W_x和b_s为模型负责学习的权重矩阵偏移向量且 W_x∈R^2p

S7.采用步骤S6得到的最终的心血管疾病风险预测模型对待预测的病人进行心血管疾病风险预测；

S8.采用风险预测值与真实诊断值之间的交叉熵作为损失函数对心血管疾病风险预测模型进行优化，从而得到优化后的模型参数；具体为采用如下算式作为损失函数：

式中y_i为样本实际的类别标签，为预测模型预测得到的预测结果；N为样本数量；模型采用的优化算法是小批量随机梯度下降算法，由基于TensorFlow和 Python 3.5的深度学习框架Keras 2.2.2负责参数的自动计算和更新。

Claims

1.一种基于电子病历的心血管疾病风险预测方法，包括如下步骤：

2.根据权利要求1所述的基于电子病历的心血管疾病风险预测方法，其特征在于还包括如下步骤：

3.根据权利要求2所述的基于电子病历的心血管疾病风险预测方法，其特征在于所述的采用风险预测值与真实诊断值之间的交叉熵作为损失函数，具体为采用如下算式作为损失函数：

4.根据权利要求1～3之一所述的基于电子病历的心血管疾病风险预测方法，其特征在于步骤S2所述的训练集诊断编码序列和测试集诊断编码序列，用于表示样本的患病结果；将样本所患的病症采用编码表示并集合成序列，从而得到训练集诊断编码序列和测试集诊断编码序列；步骤S2所述的训练集实验室指标序列和测试集实验室指标序列，用于表示样本具体的数据指标；将样本具体的数据指标采用编码表示并集合成序列，从而得到训练集实验室指标序列和测试集实验室指标序列；步骤S2所述的训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列，用于表示样本患有的疾病和数据指标的数值是否在正常范围内；若样本患有该项疾病，则将该样本的诊断编码表示为1，否则该样本的诊断编码表示为0；若样本的数据指标的数值在正常范围内，则将该样本的实验室指标表示为1，若样本的数据指标的数值不在正常范围内，则将该样本的实验室指标表示为2，否则将该样本的实验室指标表示为0；将样本的诊断编码和实验室指标集合成序列，从而得到训练集诊断编码+实验室指标序列和测试集诊断编码+实验室指标序列；步骤S2所述的训练集人口学数据和测试集人口学数据，具体为统计集合中样本的年龄数据、性别数据、就诊类型数据、就诊次数数据和手术史数据，并将数据集合成序列，从而得到训练集人口学数据和测试集人口学数据。

5.根据权利要求1～3之一所述的基于电子病历的心血管疾病风险预测方法，其特征在于步骤S3所述的将训练集序列输入预测模型的嵌入层生成嵌入向量，具体为对训练集人口学数据采用词袋模型生成嵌入向量；对训练集诊断编码序列、训练集诊断编码+实验室指标序列和训练集实验室指标序列，均采用线性整流单元(Rectified Linear Unit，ReLU)来得到序列的嵌入向量。

6.根据权利要求5所述的基于电子病历的心血管疾病风险预测方法，其特征在于所述的采用线性整流单元来得到序列的嵌入向量，具体为采用如下公式计算得到序列的嵌入向量：

v_t＝ReLU(W_vx_t+b_c)

7.根据权利要求1～3之一所述的基于电子病历的心血管疾病风险预测方法，其特征在于步骤S4所述的采用基于关注机制的LSTM模块对步骤S3得到的嵌入向量进行表征学习，从而得到对应的表征向量，具体为采用双向循环神经网络对嵌入向量进行表征学习，同时采用关注机制计算得到上下文向量，从而得到嵌入向量对应的表征向量。

8.根据权利要求7所述的基于电子病历的心血管疾病风险预测方法，其特征在于所述的采用关注机制计算得到上下文向量，具体为采用如下算式计算上下文向量c_t：

9.根据权利要求1～3之一所述的基于电子病历的心血管疾病风险预测方法，其特征在于步骤S5所述的将得到的表征向量进行拼接，具体为将隐层状态向量h_t和上下文向量c_t进行拼接，从而得到最终的表征向量其中tanh()为双曲正切函数，W_c为预测模型负责学习的权重矩阵且W_c∈R^r×4p。

10.根据权利要求1～3之一所述的基于电子病历的心血管疾病风险预测方法，其特征在于步骤S5所述的采用softmax层进行预测，具体为采用如下算式进行预测：

式中为模型的概率分布，W_x和b_s为模型负责学习的权重矩阵偏移向量且W_x∈R^2p。