CN109785971A

CN109785971A - 一种基于先验医学知识的疾病风险预测方法

Info

Publication number: CN109785971A
Application number: CN201910089365.9A
Authority: CN
Inventors: 莫毓昌; 李灿东; 林栋�; 黄华林; 连志杰
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-05-21
Anticipated expiration: 2039-01-30
Also published as: CN109785971B

Abstract

本发明公开了一种基于先验医学知识的疾病风险预测方法，包括以下步骤：S1、以向量形式输入患者p的EHR记录数据；S2、使用基于卷积神经网络的预测模型来获得预测概率，从而获得目标函数；S3、整合先验医学知识融入步骤S2的预测模型，引入一个期望分布值并设置约束特征，通过正则化方法得到损失函数；S4、通过损失函数计算新的目标函数，并获得风险预测模型的最优参数；通过最优参数预测患者P的疾病风险。本发明使用后验正则化方法自动将离散的医学知识或规则结合到深度预测模型中，其构建的预测模型实现了比最先进的基线更准确的预测结果。

Description

一种基于先验医学知识的疾病风险预测方法

技术领域

本发明涉及先验医学知识技术领域，尤其涉及一种基于先验医学知识的疾病风险预测方法。

背景技术

随着电子健康记录的大量积累对这些数据的分析使研究人员和医疗服务提供者更接近个性化医疗的目标。然而，原始EHR数据有其自身的问题，如高维数、时间性、稀疏性、不规则性、偏倚等。这些挑战大大增加了直接传统机器学习或统计模型用于预测患者潜在疾病的应用难度，这是中世纪医学领域的一个核心任务，称为风险预测。

最近，深度学习模型显示了直接从原始电子健康记录中提取出有意义特征的能力，包括计算表型、诊断预测、风险预测等。特别是在风险预测任务中，采用了基于注意力的递归神经网络来预测患者心衰。随着性能的提高，卷积神经网络也被用来捕捉患者来访时的局部时间特征，并预测疾病的风险。

虽然上述基于深度学习的模型在风险预测任务中取得了很好的效果，但是他们都忽视了先验医学知识的重要性，例如疾病与其相应风险因素之间的关系。众所周知，先验医学知识在医疗领域起着重要作用。当一个病人去看医生时，医生首先会检查病人目前的症状，然后会仔细检查病史，如药物、吸烟史、饮酒史、家族史等，这些都是疾病的危险因素。

发明内容

本发明目的是克服现有技术上的不足，将先验医学知识与预测模型合理结合，提供一种基于先验医学知识的疾病风险预测方法。

本发明是一种新颖的预测模型PRIME，它可以成功地将异构离散的先验医学知识集成到预测模型中以提高性能，该模型可以采用所有现成的基于深度学习的方法作为基本预测模型。

模型构建包括以下步骤：

1).以向量形式输入第p位患者的EHR记录数据X^(p)。

2).使用基于卷积神经网络(CNN)的预测模型来获得预测概率向量获得目标函数。

3).整合先验医学知识进入基本的风险预测模型，引入一个期望分布q(y_p)以及后验正则化技术，设计约束特征，得到损失函数。

4).计算新的目标函数，获得风险预测模型的最优参数并进行风险预测。

所述的步骤1)具体操作如下：

预测模型的输入是第p位患者的EHR记录，定义为由于输入X^(p)过于稀疏且具有高维性，因此很自然地要学习它的低维和有意义的嵌入。因此，我们首先将输入x_t嵌入到访问级表示中v_t＝W_υx_t+b_υ。其中，和是需要学习出的参数，k是潜在表示的大小。

所述步骤2)具体操作如下：

2.1)在的时间维度上应用卷积运算。为了捕获多次访问之间的时间依赖性，我们使用具有不同窗口大小的m个过滤器的组合。设l表示时间窗口的大小，然后v_t：t+l-1表示从v_t到v_t+l-1的l次的连接。一个滤波器应用于l次访问的窗口来产生一个新的特征使用ReLU激活功能如下：f_t＝ReLU(W_fv_t：t+l-1+b_f)，其中b_f是偏置项，以及ReLU(f)＝max(f，0)。这个过滤器适用于整个描述中的每个可能的访问窗口，以生成如下的一个图像特征：

2.2)应用一个全连接的softmax层以产生预测概率，如下：

2.3)预测概率可以由后验分布表示，其中y_p是真实值。真实值y_p和预测值之间的交叉熵被用于计算损失。风险预测的目标函数是交叉熵的平均值：

所述步骤3)具体操作如下：

Q是后验信息约束的集合，定义为：其中φ(X^(p)，y_p)是约束特征的集合，b是约束特征期望的(已知)界限。在医学领域，医学将约束特征分为五大类：患者特征，潜在疾病，疾病持续时间，遗传学和家族史。

设q(y_p)表示患者p的期望分布。后正则化损失函数定义为：

其中α是一个超参数，用于平衡预测模型损失之间的平衡以及后验正则化，KL(·||·)是用于测量预测模型中期望分布与后验分布之间差异的Kullback-Leibler散度。

3.1)设计患者约束特征。

给出患者p的人口统计信息和相应的标签y_p，关于种族的特征被定义为如下：

其中ε定义为与预测相关的种族集合。因为φ_e的值为1或0，因此种族向量φ_e＝[1，1]或[0，0]。为了模拟对案例和控制的不同重要性，引入约束特征种族的置信度向量γ_e。

对于大多数疾病，随着患者年龄的增长，风险会增加。因此，引用常用的逻辑函数来模拟年龄的影响如下：

其中是疾病特异性参数，用于模拟年龄对风险预测的影响。如果疾病对年龄不敏感，则ψ是预定义的标量。在本文，使用年龄组而不是患者的真实年龄，设置ψ＝9(即，年龄是40到45岁)。因此，年龄的特征向量γ_a是对应的置信向量。

3.2)设计潜在疾病约束特征

首先得到每个风险预测任务的潜在疾病，记为然后计算这些潜在疾病在p患者就诊的频率，用u_p表示。原因是频率越高，风险越高。另外，不同潜在疾病的对于最终疾病预测的影响是不同的。因此，潜在疾病的约束特征设计如下：

其中，是代表不同潜在疾病的不同影响的倾斜参数，是潜在疾病的数量，sum(u_p)是u_p的总和。潜在疾病的向量是它的置信度向量是γ_u。

3.3)设计疾病持续时间约束特征

为了获得潜在疾病的持续时间，首先从患者p的就诊记录中找到某一潜在疾病d的起始时间然后使用计算持续时间。最后，疾病的持续时间记为d_p。基于d_p，疾病持续时间的约束特征定义如下：

其中，类似于来模拟潜在疾病中的差异，以及与置信向量γ_d。

3.4)设计遗传病和家族史约束特征

首先收集了一组与目标疾病相关的遗传疾病设C^(p)表示患者p访问X^(p)中的所有诊断代码。当C^(p)和的交集不为空，约束特征值为1。正式公式如下:

与种族约束特征相似，φ_g的值为1或0。因此，φ_g＝[1，1]或[0，0]，γ_g为置信向量。

一些疾病与整个家庭的疾病史有关，例如慢性肾病。我们收集了一系列家族史疾病然后提供如下的约束特征函数：

其中，φ_h＝[1，1]或[0，0]，置信向量为γ_h。

3.5)使用所有风险因素的权重组合进行预测，将损失函数改写为如下目标函数为：

其中对先验医学知识编码的后验分布定义如下:

Γ·φ(X(p)，y_p；w)＝γ_e⊙φ_e+γ_a⊙φ_a+γ_u⊙φ_u+γ_d⊙φ_d+γ_g⊙φ_g+γ_h⊙φ_h

Γ是根据先验医学知识不同的约束特征类别的可学习置信矩阵，w为参数集。

其中是真实值y_p和后验分布之间的交叉熵平均值，定义如下：

所述的步骤4)具体操作如下：

最小化目标函数，得到一系列参数：通过下式等到未知的病人p患病风险的预测概率：

与现有技术相比，本发明具有的优点和积极效果是：

本发明使用后验正则化方法自动将离散的医学知识或规则结合到深度预测模型中。相较于传统的后验正则化方法，模拟患者目标疾病的所需分布时，不需要手动设置每一条先验医学知识的界限，其构建的预测模型实现了比最先进的基线更准确的预测结果，另外，本发明方法所构建的预测模型可以通过对数线性模型自动学习不同的先验知识，给疾病风险预测工作带来了极大的贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的框架示意图；

图2为学习出的置信矩阵示意图；

图3(a)为病例预测中先天疾病对疾病预测的影响示意图，图3(b)对照患者的潜在疾病权重示意图；

图4(a)为总体趋势的权重示意图；图4(b)为潜在疾病权重示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本文提出了一种新的、通用的模型，称为风险预测任务PRIME(PRIor orMEdical)，其采用后验正则化技术对离散的、异构的先验医学知识进行建模。

图1通过框架简易的说明了本发明的构建过程；为了说明本发明的技术效果，采用具体的实验对本发明进行实施验证。

实验使用了三个真实有效的EHR数据集，包括心力衰竭，COPD和慢性肾病。对于训练模型，我们使用Adadelta，mini-batch大小为50。我们以0.75:0.10:0.15的比例将数据集随机划分为训练、验证和测试集。验证集用于选择参数的最佳值。我们重复所有的方法10次，并报告平均性能。

实验流程：

实验一：

统计数据集，如表1：

表1

列出三个预测任务中的所有潜在疾病对应ICD-9代码，如表2：

表2

实验二：

执行以下用于分类方法的传统基线模型：

(1)素数与logistic回归(LR)；(2)支持向量机(SVM)；(3)随机森林(RF)。输入数据为每次就诊出现的所有诊断代码的频率。

执行以下用于深度学习的基线模型：

(1)GRU神经网络；(2)长短期记忆网络(LSTM)；(3)RETAIN(4)卷积神经网络(CNN)。对于GRU,LSTM和RETAIN，潜在表征大小设为256。对于CNN，设置过滤器窗口(l)的大小为2到5，其中过滤器映射为s＝100。

执行以下PRIME模型：

(1)使用LSTM为基本预测模型且加入先验医学知识的PRIME_r，设置α＝β＝0.01；(2)使用CNN作为基本预测模型且加入先验医学知识的PRIME_c，设置α＝0.01，β＝0.01；(3)使用LSTM为基本预测模型且不加入先验医学知识的PRIME_r-，设置α＝β＝0.01；(4)使用CNN作为基本预测模型且不加入先验医学知识的PRIME_c-，设置α＝0.01，β＝0.1。

实验三：

对于每一种潜在疾病，如果在患者就诊时出现一种诊断代码，则该疾病的计数器增加1。每一种潜在疾病的持续时间从第一次出现的日期算到最后，并以月份来衡量。如果潜在疾病的发生频率小于3，那么在我们的实验中，我们将其设置为0，并将其持续时间设置为0。

心力衰竭预测任务中使用的约束特征包括年龄，潜在疾病及其持续时间。潜在疾病集合包括高血压、冠状动脉疾病、糖尿病、先天性心脏缺陷、瓣膜心脏病、饮酒、吸烟和肥胖。预测COPD风险的约束特征是年龄，种族(诊断代码273.4，即)，潜在疾病和持续时间。潜在疾病包括吸烟，哮喘和接触灰尘和化学品。对于肾脏疾病的预测，我们使用年龄、种族、家族史、潜在疾病及其持续时间。特别地，种族群体ε包括非裔美国人、印第安人和亚裔美国人。关于家族史的诊断代码(即，)是V18.6V18.61V18.69。

实验结果及分析

表3显示了三种医疗数据集上所有方法的性能。

表3

在心力衰竭数据集上，传统的LR、RF和SVM方法的整体性能都比基于深度学习的方法差。这说明采用深度学习技术对高维稀疏的EHR数据进行建模对于风险预测任务是有效的。在四个基于深度学习的基线中，GRU和LSTM的表现优于RETAIN和CNN。由于RETAIN采用了注意机制，因此培训RETAIN需要大量的EHR数据。心力衰竭数据集的大小相对较小，因此RETAIN的性能较GRU和LSTM差。CNN的优势在于捕捉当地时间的重要特征。然而，心力衰竭是一种慢性疾病，需要捕捉疾病演化的长期特征。基于RNN的模型可以正确识别心衰数据集上的这些特征，这使得与CNN相比性能更好。对于提出的四种方法，PRIME_r取得了最好的性能。我们可以看到，和的性能都优于基本的预测模型LSTM。同样,所有这些措施的值PRIME_c和PRIME_c-高于那些在CNN。这些观察结果有力地证实了先验医学知识可以帮助预测模型提高性能。

在COPD数据集中，RETAIN的性能优于GRU和LSTM，说明在所有基线中，注意力机制开始发挥作用，CNN的性能最好。即使对拟议中的PRIME_c和PRIME_c-，所有的测量值都小于CNN。原因在于，与某些疾病不同，COPD有明确的病因，这与吸烟直接相关。CNN具有出色的能力来捕捉这些局部的重要特征，即的诊断代码，有关吸烟在访问。因此，与其他方法相比，它取得了更好的性能。然而，在使用后验正则化整合先验医学知识后，即与CNN相比，PRIME_c提出的方法有了显著的改进。这再次证实了考虑先前的医学知识对风险预测任务是有效的。

由于肾脏疾病患者的特点非常明确，传统的分类方法RF可以达到与深度学习相似的性能。即使在简单的数据集上，结合先前的医学知识仍然可以提高预测性能。在肾脏疾病数据集上，我们也观察到基本模型LSTM的性能与所提出的PRIME_r的性能相当。这是因为我们不调整最佳超参数α和β。这两个参数对数据集非常敏感。尽管如此，在肾病数据集上，提议的PRIME_c优于其他方法。

实验三：

在心力衰竭数据集上由PRIME_r学习出的置信矩阵，标准化工具是softmax函数，如图2。只有通过置信矩阵Γ，提出的框架模型PRIME_r无法确定患者标签。这是因为它们也与约束特征权重相关。

通过PRIME_r学习心衰数据集中潜在疾病的权重。X轴代表不同的潜在疾病，1为高血压，2为冠状动脉疾病，3为糖尿病，4位先天性心脏学习，5为瓣膜心脏病，6为饮酒，7为吸烟，8为肥胖。由于学习权重的值可能是负的，我们使用softmax函数来标准化权重向量。Y轴表示标准化权重。如图3。

从图3(a)可以看出，在病例预测中，先天性心脏缺陷、瓣膜心脏病、饮酒对病例预测起着重要作用。先天性心脏缺陷是指患者出生时心脏结构中的一种或多种异常。先天性心脏缺陷的并发症之一是心力衰竭。当一个或多个瓣膜不能正确打开或关闭时，瓣膜病可能会导致心力衰竭。一些研究表明，大量饮酒会增加心脏衰竭的风险。

图3(b)展示了对照患者的潜在疾病权重。高血压、冠状动脉疾病和糖尿病的权重远远高于其他危险因素。这并不意味着这三个因素不是预测心力衰竭疾病的风险因素。原因是在为病例构建对照患者时，我们考虑患者的潜在疾病。由于这三种疾病是常见疾病，它们都经常出现在病例和对照患者的就诊中。

通过PRIME_r学习心衰数据集中潜在疾病的持续时间，如图4(a)和图4(b)，总体趋势与潜在疾病的估计相似。这两幅图表明，所提出的框架PRIME可以根据输入数据的特征为不同的风险因素学习不同的权重。

综上所述，所提出的PRIME使用后验正则化自动将离散的医学知识或规则结合到深度预测模型中。通过这样的设计，所提出的框架实现了比最先进的基线更准确的预测结果。

Claims

1.一种基于先验医学知识的疾病风险预测方法，其特征在于：包括以下步骤：

S1、以向量形式输入患者p的EHR记录数据；

S2、使用基于卷积神经网络的预测模型来获得预测概率，从而获得目标函数；

S3、整合先验医学知识融入步骤S2的预测模型，引入一个期望分布值并设置约束特征，通过正则化方法得到损失函数；

S4、通过损失函数计算新的目标函数，并获得风险预测模型的最优参数；通过最优参数预测患者P的疾病风险。

2.如权利要求1所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S1中第p位患者的EHR记录数据为将x_t嵌入到访问级中则：

v_t＝W_υx_t+b_υ

其中，和是需要学习的参数，k是潜在表示的大小。

3.如权利要求2所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S2中获得预测概率向量包括以下步骤：

S21、设l表示时间窗口的大小，v_t：t+l-1表示从v_t到v_t+l-1的l次的连接，滤波器应用于l次访问的窗口来产生一个新的特征使用ReLU激活如下：

f_t＝ReLU(W_fv_t：t+l-1+b_f)

ReLU(f)＝max(f，0)

其中，b_f是偏置项；

则生成图像特征：

S21、应用一个全连接的softmax层用以产生预测概率，如下：

4.如权利要求3所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S2中预测概率由后验分布P(y_p|X^(p)；θ)表示，其中y_p是真实值，真实值y_p和预测概率之间的交叉熵被用于计算损失，则风险预测的目标函数为交叉熵的平均值：

5.如权利要求4所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S3中得到损失函数包括以下步骤：

S31、设Q是后验信息约束的集合，则：

其中，φ(X^(p)，y_p)是约束特征的集合，b是约束特征期望的界限；

S32、设q(y_p)为患者p的期望分布，则损失函数为：

其中，α是一个超参数，用于平衡预测模型的平衡，KL(·||·)是用于测量预测模型中期望分布q(y_p)与后验分布P(y_p|X^(p)；θ)之间差异的Kullback-Leibler散度。

6.如权利要求5所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S4中过损失函数计算新的目标函数的公式为：

其中，后验分布

Γ·φ(X^(p)，y_p；w)＝γ_e⊙φ_e+γ_a⊙φ_a+γ_u⊙φ_u+γ_d⊙φ_d+γ_g⊙φ_g+γ_h⊙φ_h，Γ是不同约束特征类别的可学习置信矩阵，为参数集；

是真实值y_p和后验分布之间的交叉熵平均值。

7.如权利要求6所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述种族特征向量φ_e＝[1，1]或[0，0]，γ_e为约束种族特征的置信度向量；所述年龄特征向量γ_a为约束年龄特征的置信度向量；所述潜在疾病特征向量γ_u为约束潜在疾病特征的置信度向量；所述疾病持续时间特征向量γ_d为约束疾病持续时间特征的置信度向量；所述遗传病特征向量φ_g＝[1，1]或[0，0]，γ_g为约束遗传病特征的置信度向量；所述家族疾病史特征向量φ_h＝[1，1]或[0，0]，γ_h为约束家族疾病史特征的置信度向量。

8.如权利要求6所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S4中获得风险预测模型的最优参数包括以下步骤：

S41、计算出计算公式为：

S42、最小化目标函数，得到最优参数，公式为：

9.如权利要求8所述的基于先验医学知识的疾病风险预测方法，其特征在于：所述步骤S4中通过最优参数患者P疾病风险的预测概率公式为：