CN109036553A

CN109036553A - 一种基于自动抽取医疗专家知识的疾病预测方法

Info

Publication number: CN109036553A
Application number: CN201810860468.6A
Authority: CN
Inventors: 礼欣; 李懿; 张德根
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-18
Anticipated expiration: 2038-08-01
Also published as: CN109036553B

Abstract

本发明涉及一种基于自动抽取医疗专家知识的疾病预测方法，属于智能医疗技术领域；首先根据历史诊断记录数据构建疾病关系网络，在该网络上使用神经网络模型对疾病实体间具有的显式和隐式相关性分别计算疾病特征向量，并通过疾病特征向量计算疾病之间的相关性矩阵作为医疗专家知识；其次，设计基于深度学习的疾病预测模型，通过降噪自编码器栈模型将病人的原始医学指标数据降维，并作为多标签疾病预测模型的输入数据来预测病人的潜在疾病；最后，在模型的参数学习部分，使用第一步中自动提取的疾病相似度矩阵作为医疗背景约束条件，让算法学习模型的最优参数，并将发病概率较高的疾病作为预测结果。对比现有技术，本发明提高了疾病预测准确率。

Description

一种基于自动抽取医疗专家知识的疾病预测方法

技术领域

本发明涉及一种疾病预测方法，特别涉及一种基于自动抽取医疗专家知识的疾病预测方法，属于智能医疗技术领域。

背景技术

近年来，随着医疗器械的不断发展和医疗机构电子化水平的不断提高，医疗信息电子化越来越普及，使得医生能够参考之前无法获取的实时数据，对病人的病情做出预测诊断。同时，医疗信息电子化也将医生的诊断记录和病人的身体数据量化保存，为建立更为智能的疾病预测系统提供数据支持。目前，已经有很多研究机构开展了对于疾病预测系统的研究。然而，庞大且稀疏的医疗数据阻碍了对医疗专家知识的提取，对疾病预测准确性的严格要求也进一步地限制了疾病预测模型的研究。

本发明的疾病预测旨在针对病人的潜在疾病做出预测诊断，当前的研究工作主要为医疗辅助决策系统给出备选诊断后由医疗专家进行最终判断。目前，存在很多工作研究了应用与辅助决策系统中的医疗专家知识抽取方法。一种方法是依靠人工整理的方式，通过统计学方法生成病人身体特征和疾病之间的相关性。这种人工医疗专家知识抽取方式成本高昂，并且极大地受限于整理人员的专业医疗水平，无法针对相关性不明显的疾病以及疑难病症做出有效的汇总。另一种方法是使用关联规则分析和简单的文本匹配方法这样的机器学习方法，进行专家知识的自动生成，再针对病人的某些异常生理指标给出相对应的疾病，生成辅助决策信息。

此外，当前的研究工作主要使用病人的原始生理检查数据，例如血液成分指标等。然而，虽然病人的生理检查指标非常多，但是真正有检查结果的指标比较少，造成了病人生理数据的稀疏性。如果直接使用结果数值中的异常值进行判断，就忽视了不同指标之间存在的潜在相关性，例如一些需要多项指标综合判断的疾病可能就无法被发现。目前的研究工作没有考虑到对病人的生理数据进行降维表示，以生成更加稠密且对于疾病预测更有价值的数据，因此得到的预测结果差强人意。

发明内容

本发明的目的在于提供一种基于自动抽取医疗专家知识的疾病预测方法，旨在通过神经网络模型更加快速而准确地建立疾病预测模型。该方法首先通过神经网络模型自动提取医疗专家知识，接着对病人的原始生理指标数值进行降维，并将降维后的特征数值作为深度学习模型的输入，最终结合医疗专家知识生成疾病预测结果。

本发明的原理：首先根据医生的历史诊断记录数据构建疾病关系网络，在该网络上使用神经网络模型对疾病实体间具有的显式相关性和隐式相关性分别计算疾病特征向量，并通过疾病特征向量计算疾病之间的相关性矩阵作为医疗专家知识；其次，设计基于深度学习的疾病预测模型，通过降噪自编码器栈模型将病人的原始医学指标数据降维，并作为深度疾病预测模型的输入数据来预测病人的潜在疾病；最后，在多标签疾病预测模型的参数学习部分，使用第一步中自动提取的疾病相似度矩阵作为医疗背景约束条件，让算法学习模型的最优参数，并将发病概率较高的疾病作为预测结果。

为了解决上述技术问题，本发明是通过以下技术方案实现的：

一种基于自动抽取医疗专家知识的疾病预测方法，包括以下步骤：

步骤一、建立疾病关系网络

从医疗数据库中，根据病人编号和就诊记录的时间戳，统计不同疾病编码在同一病人的一次就诊周期内共同出现的次数，将所有疾病编码组合共同出现的次数进行汇总，得到以三元组<疾病编码D_i，疾病编码D_j，共同出现次数w_ij>的形式存储的疾病关系网络N_disease；其中，i和j为小于等于|D|的自然数，|D|表示疾病编码的数量；

步骤二、从步骤一得到的疾病关系网络中学习生成疾病显式相关性特征矩阵M₁

作为优选，M₁通过以下过程获得：

初始化疾病显式相关性特征矩阵M₁，并根据疾病编码D_i和D_j在特征矩阵M₁中对应的特征向量和定义它们在算法层面的显式相关性为其中T表示向量转置操作；接着，再定义算法的优化目标公式O₁＝-∑_(i,j)∈E w_ij logs₁(D_i,D_j)，其中E表示在步骤一得到的疾病关系网络N_disease中所有疾病编码组合的集合、w_ij表示疾病编码D_i和D_j在D_disease中共同出现的次数、log表示对数计算；最后，采用符合参数迭代更新思想的算法，通过最小化公式O₁的目标，不断调整M₁矩阵中各个疾病编码对应的疾病显式相关性特征向量值，得到最优的疾病显式相关性特征向量矩阵其中l₁表示显式相关性特征向量长度；

步骤三、从步骤一得到的疾病关系网络中学习生成疾病隐式相关性特征矩阵M₂

作为优选，M₂通过以下过程获得：

初始化疾病隐式相关性特征矩阵M₂，并根据疾病编码D_i和D_j在特征矩阵M₂中对应的特征向量和定义它们在算法层面的隐式相关性为其中T表示向量转置操作,|D|表示疾病编码的数量；接着，再定义算法的优化目标公式O₂＝-∑_(i,j)∈E w_ij logs₂(D_j|D_i)；最后，采用符合参数迭代更新思想的算法，通过最小化公式O₂的目标，不断调整M₂矩阵中各个疾病编码对应的隐式相关性特征向量值，得到最优的疾病隐式相关性特征向量矩阵其中l₂表示隐式相关性特征向量长度；

步骤四、根据M₁和M₂计算疾病相似度矩阵M；

作为优选，M通过以下过程获得：

根据步骤二和步骤三得到的疾病显式相关性特征矩阵M₁和疾病隐式相关性特征矩阵M₂，将疾病编码D_i对应的显式相关性特征向量和隐式相关性特征向量进行拼接，构成综合特征向量定义综合特征向量和的相似度为疾病编码D_i和D_j最终的疾病编码相似性sim_ij；将sim_ij作为矩阵中第i行第j列的项，得到疾病相似矩阵M^|D|×|D|；

步骤五、提取低维医疗特征向量

作为优选，采用下述过程提取：从医疗数据库中，抽取病人P_i的医学检验结果、身体指标数值和人口统计学信息数据，在经过数值化和归一化处理后，构成病人的原始医疗特征向量通过逐层训练的方法，让多层降噪自编码器栈模型在原始医疗特征向量集合上学习最优参数，并使用训练好的多层降噪自编码器栈模型处理原始的医疗特征向量得到长度为l_p的低维医疗特征向量

步骤六、使用M和约束疾病预测神经网络模型的参数学习从而得到疾病预测神经网络模型；

作为优选，通过以下过程获得疾病预测神经网络模型：

构造多层神经网络模型，设定输入是长度为l_p的低维医疗特征向量设定输出层为|D|个神经元，分别用于计算|D|种待预测疾病的发病概率；在神经网络模型的损失函数中，添加由疾病相似度矩阵作为约束条件的损失量其中M为步骤四得到的疾病相似矩阵，表示|D|种待预测疾病的发病概率向量；此时，神经网络的目标函数如下：

其中y_k表示疾病k的真实发病概率，表示模型预测第k种疾病的发病概率，表示第k种疾病的输出层权重参数，b_k表示第k种疾病的输出层偏置参数，γ₁和γ₂为预先设定的权重系数；最终使用符合参数迭代更新思想的算法学习神经网络模型的最优参数，得到稳定的多标签疾病预测神经网络模型；

步骤七、根据步骤六的疾病预测神经网络模型，生成疾病预测结果

作为优选，生成疾病预测结果通过以下过程实现：

将待预测的病人P_i所对应的低维医疗特征向量送入步骤六得到的神经网络模型中，得到针对|D|种疾病的发病概率向量选取概率值最高的前n项疾病编码作为病人最可能发生的潜在疾病预测结果。

有益效果：

本发明针对潜在疾病预测模型在高维度数据处理和精准预测疾病上的困难，一方面使用基于网络结构相似性的医疗专家知识自动抽取方法提高模型预测准确性，另一方面利用降噪自编码器栈模型和神经网络模型加快高维度的大规模医疗数据处理速度。本发明提高了疾病预测的准确性，提高了数据处理效率，能够辅助医生进行初步的疾病筛查，减少医生因为误判造成的损失。

附图说明

图1是本发明医疗专家知识提取和疾病预测模型的总流程图。

图2是本发明降噪自编码器栈模型示意图。

图3是本发明神经网络模型示意图。

图4是本发明医疗数据集的人口年龄分布示意图。

图5是本发明疾病预测准确度实验结果对比。

图6是本发明预测血液疾病的ROC曲线实验结果对比。

图7是本发明预测消化系统疾病的ROC曲线实验结果对比。

具体实施方式

下面结合附图与实施例对本发明较优的实施方式进行详细介绍。

电子医疗记录(Electronic Health Record，EHR)是当前医疗机构在病人住院期间的医疗过程数据化记录，合理使用这些信息丰富的电子医疗记录，结合医疗辅助系统帮助医生进行诊断，是实现医疗研究信息化和诊疗个性化的基础。原始电子医疗记录包含三方面的信息：病人的人口统计学信息、医生诊断记录和化验检验结果。医生诊断记录由<时间戳，病人编号，诊断代码>三元组构成；化验结果由<病人编号，住院编号，检查时间，检查项目，数值结果>五元组构成；人口统计学信息中的年龄分布如图4所示，表明病人的年龄信息和疾病发生之间具有很强的相关性。以上数据构成了本发明的原始数据。

如图1所示，展示了基于自动抽取医疗专家知识的疾病预测模型的总体流程，从图中可以看到，首先从医疗数据库中将医生的诊断数据抽取出来，构成疾病关系网络用于计算基于网络相关性的特征向量，进而产生代表医疗专家知识的疾病相似度矩阵。另一方面，将医疗数据库中的人口统计学信息和化验结果数据作为病人的原始医疗特征向量，经过多层降噪自编码器栈模型处理后得到低维医疗特征向量。将低维医疗特征向量传递给多层神经网络，并使用疾病相似度矩阵作为医疗背景知识约束疾病预测模型的参数学习。最终，将模型运用于待预测的病人数据后，选取发病概率最高的疾病作为预测结果。具体步骤如下：

步骤一、建立疾病关系网络

MIMIC-III医疗数据库中，疾病诊断信息由<时间戳，病人编号，疾病编码>三元组存储。根据病人编号和就诊记录的时间戳，将属于同一个病人的疾病编码存入一个数组中，此时在同一个数组中的疾病编码两两构成并发症关系。针对所有疾病编码组合，统计共同出现的次数。最终将共同出现次数大于阈值的疾病编码组合，以三元组<疾病编码D_i，疾病编码D_j，共同出现次数>的形式存储到文件中，用于表示疾病关系网络N_disease。在此实施例中，选择21种常见的疾病编码作为示例，实际使用中不限定于此21种疾病编码。

步骤二、生成疾病显式相关性特征矩阵M₁

疾病之间的显式相关性定义为两种疾病之间存在直接的并发关系，用来描述两者之间具有强相关性的概率。本领域技术人员知道，疾病之间的显式相关性基于实施者的不同可以采用不同的方法，下面简单介绍本实施例所使用的方法：

定义疾病编码D_i和D_j之间的真实显式相似性为其中W_ij为步骤一得到的疾病关系网络N_disease中疾病编码D_i和D_j共同出现的次数，W为所有疾病编码组合共同出现次数的累加。接着，根据疾病编码D_i和D_j在特征矩阵M₁中对应的特征向量和定义它们在算法层面的显式相关性为：

拟合目标是尽可能缩小真实显式相似性和算法显式相似性之间的差距。当使用KL散度作为衡量标准时，目标优化公式可以化简为：

其中，w_ij表示疾病编码D_i和D_j共同出现的次数，log表示以10为底的对数计算，E表示在N_disease中的所有疾病编码组合集合。

首先随机初始化疾病显式相关性特征向量矩阵其中|D|为疾病编码的个数21，l₁为特征向量的长度在此实施例中设定为128。在迭代过程中，随机选取在疾病关系网络N_disease中存在边的一对疾病编码，计算对应的目标公式O₁，并使用随机梯度下降算法和反向传播算法更新显式相关性特征向量矩阵M₁以降低优化目标值O₁。当然，本领域技术人员知道，不限于此种方法，只要是符合参数迭代更新思想的算法，都能进行更新。重复此迭代过程，直到算法达到最大迭代次数或矩阵收敛的情况下，停止更新并将此时的疾病显式相关性特征向量矩阵存储下来。

步骤三、生成疾病隐式相关性特征矩阵M₂

疾病之间的隐式相关性用于衡量虽然没有直接并发症关系，但通过潜在关联影响病人的疾病之间的相关性，在疾病关系网络中体现为两个节点所对应的邻居节点的重合程度。本领域技术人员知道，疾病之间的隐式相关性基于实施者的不同可以采用不同的方法，下面简单介绍本实施例所使用的方法：

根据步骤一得到的疾病关系网络N_disease，计算所有疾病编码之间的真实显示相似性可以得到向量表示疾病编码D_i的邻居关系。此时向量和的余弦相似度就是疾病编码D_i与D_j的真实隐式相关性

根据疾病编码D_i和D_j在特征矩阵M₂中对应的特征向量和定义它们在算法层面的隐式相关性为：

拟合目标是尽可能缩小真实隐式相似性和算法隐式相似性s₂(D_j|D_i)之间的差距。当使用KL散度作为衡量标准时，目标优化公式可以化简为如下方程：

与步骤二的计算过程相似。首先随机初始化疾病隐式相关性特征向量矩阵其中|D|为疾病编码的个数21，l₂为特征向量的长度在此实施例中设定为128。在迭代过程中，随机选取在疾病关系网络N_disease中存在边的一对疾病编码，计算对应的目标公式O₂，并使用随机梯度下降算法和反向传播算法更新隐式相关性特征向量矩阵M₂以降低优化目标值O₂。当然，本领域技术人员知道，不限于此种方法，只要是符合参数迭代更新思想的算法，都能进行更新。重复此迭代过程，直到算法达到最大迭代次数或矩阵收敛的情况下，停止更新并将此时的疾病隐式相关性特征向量矩阵M₂存储下来。

步骤四、计算疾病相似度矩阵M

根据步骤二和步骤三得到的疾病显式相关性特征矩阵M₁和疾病隐式相关性特征矩阵M₂，将疾病编码D_i对应的显式相关性特征向量和隐式相关性特征向量进行横向拼接，构成综合特征向量在此实施例中选择余弦相似度作为相似性度量方法。当然，本领域技术人员知道，特征向量间的相似性度量不限于此种方法，只要是能进行向量相似性度量的算法，都能进行更新。此时疾病编码D_i和D_j对应综合特征向量和的余弦相似度为最终的疾病编码相似性如下：

计算疾病关系网络中所有疾病节点的相似度，能够得到疾病相似矩阵M^|D|×|D|，其中|D|表示疾病编码的数量21个，矩阵的每一项m_ij就是疾病编码D_i与D_j之间的相似性sim_ij。这个疾病相似矩阵在后续的模型中将作为一种医疗先验知识对模型的参数优化进行约束。

本实施例步骤简单介绍了一种如何根据根据M₁和M₂构造M的方法，本领域技术人员知道，不限于此，可以采用当前流行的任何思想构造，只要能够将疾病的显式、隐式相关性充分蕴含即可。

步骤五、提取低维医疗特征向量

由于化验结果真实反应了病人的身体状况，所以将病人在医院内做过的化验检查数值作为原始医疗特征。在MIMIC-III医疗数据库中总共有753项结果格式为<病人编号，住院编号，检查时间，检查项目，数值结果>五元组的化验项目，需要首先将每个病人的化验结果数值存储为一个长度为753的一维向量，其中每一项为对应化验检查的数值。同时如图4所示，由于人口统计学信息在疾病诊断中具有重要作用，所以将性别、年龄、体重信息数值化处理后添加到向量。对所有向量进行归一化处理后，每一个病人P_i得到一个长度为756的原始医疗特征向量

图2是降噪自编码器栈模型的示意图，从左至右依次是第一层参数训练、第二层参数训练和最终输出层训练环节。模型输入为长度756的原始医疗特征向量对输入向量加入小于0.01的随机数作为噪声后得到包含噪声的特征向量设定第一层降噪自编码器的隐藏层数量为512，映射函数使用函数，输出为得到第一层隐含层表达y₁∈[0,1]⁵¹²。第一层对应的解码器映射函数为得到重构向量表达z₁∈[0,1]⁷⁵⁶。此时模型的损失函数为重构交叉函数：

其中，为第i个训练样本对应的含噪声输入特征向量，表示向量的第k列值，为第i个训练样本对应第一层解码器还原特征向量，表示向量的第k列值，log为以10为底的对数函数。算法的优化目标为最小化输入特征向量和还原特征向量的重构损失函数，使得模型在不丢失数据特征的情况下尽量压缩特征向量长度。使用期望最大化算法即可求得最优参数(W₀,b₀)和(W′₀,b′₀)，并将最优参数固定下来，进入第二层降噪自编码器的参数学习。在第二层和第三层的降噪自编码器学习中，设定隐藏层神经元的数量分别为256和200。使用与第一层参数学习相同的编码与解码过程，即可得到使得模型在原始医疗数据集上损失最小的参数，并得到所有原始医疗特征向量对应的长度为200的低维医疗特征向量。

本实施例步骤简单介绍了一种如何将病人的医疗特征数据降维的方法，本领域技术人员知道，不限于此，可以采用当前流行的任何方法降维，如主成分分析(PrincipalComponent Analysis，PCA)、线性判别分析(Linear Discriminant Analysis，LDA)，只要能够在降维的同时又不损失病人的必要特征即可。

步骤六、使用医疗背景知识进行多标签疾病预测神经网络模型的参数优化

图3为多标签疾病预测神经网络模型的示意图，输入是步骤五得到的长度为200的低维医疗特征向量；模型包含两层隐藏层，使用ReLU(x)＝max(0,x)函数作为激活函数；输出层针对21种待预测疾病分别设计一个神经元用于计算对应的发病概率，构成多标签疾病预测模型。

此时，整个模型的学习目标是最小化预测结果和真实结果之间的差距，所以选择交叉熵函数作为损失函数的计算公式如下：

其中，y_k表示疾病k的真实发病概率，表示模型预测第k种疾病的发病概率。

由于需要结合医疗背景知识进行模型训练，在神经网络输出层的目标函数中加入由疾病相似度矩阵作为约束条件的损失函数如下：

其中P₀(·)表示基于先验知识的概率分布，∝表示正比关系，表示模型对21种待预测疾病的发病概率预测值组成的向量，M为步骤四计算得到的疾病相似度矩阵。

同时，需要考虑模型复杂度惩罚项如下，w_k为第k种疾病输出神经元对应的权重：

综合所有损失函数，得到最终目标函数如下，其中γ₁和γ₂为预先设定的超参数，在本实施例中取值为γ₁＝0.3和γ₂＝0.2。

根据上述目标函数，此实施例使用随机梯度下降算法，学习神经网络的参数，最终得到稳定的多标签疾病预测神经网络模型。当然，本领域技术人员知道，不限于此种方法，只要是符合参数迭代更新思想的算法，都能进行参数更新。

本实施例步骤简单介绍了一种多标签疾病预测神经网络模型及训练方法，本领域技术人员知道，不限于此，可以采用任何其它适用方法，如循环神经网络、卷积神经网络、长短期记忆网络等，只要能够根据病人的医疗特征数据得到其对于不同种疾病的发病概率即可。

步骤七、生成疾病预测结果

将待预测的病人P_i所对应的低维医疗特征向量输入步骤七的神经网络中，可以得到针对21种疾病的发病概率向量选取概率值最高的前三项疾病编码作为病人最可能发生的潜在疾病预测结果。

本实施例步骤简单介绍了根据多标签疾病预测神经网络模型生成疾病预测结果的方法，本领域技术人员知道，不限于此，可以采用任何其它适用方法，如根据阈值选取或根据概率最高选取等方法，只要能够根据病人的医疗特征数据得到其对于不同种疾病的发病概率并将概率较大的反馈即可。

应用效果

1、评价指标：

本发明对预测疾病的准确率、召回率、K长度准确率以及F1值进行评价，衡量方法在广度和深度上的性能。

1.1、准确率P是用来计算分类器再预测数据集上，正确进行分类的比例。在多标签预测任务中，需要统计每种预测目标的准确率，进行综合判断。召回率R是用来评价在一个预测结果集合中，预测准确的疾病数量占病人真实发病情况中疾病数量的比例，这个比例越高说明预测模型得到的结果越接近实际情况。其公式如下：

其中，|U|表示病人的数目；TP为正确被推荐的结果个数，FP为错误被推荐的结果个数，FN为错误的未被推荐的结果个数。

1.2、考虑到医生是根据预测概率，按照从高到低的顺序使用预测结果，所以越靠前的结果被医生关注到的可能性更大。在计算准确率时，如果要将这种顺序信息考虑在内，就需要使用不同长度的预测结果进行计算。对于长度为N的结果，准确率计算公式如下：

其中，|U|表示测试集中病人的数量，S_u和N_u分别表示针对病人u预测正确的次数和预测的总次数。

1.3、通过上述公式计算得到准确率和召回率后，还可以使用信息检索领域的一种常用评价指标F1值(F1-Measure)，综合评估预测算法的准确率。假设准确率为P，召回率为R，则F1值计算公式为：

2、数据集：

本发明使用的是记录了急诊室医疗信息的大型数据库MIMIC-III，该数据库包含了2001年至2012年间Beth Israel Deaconess医疗中心接诊过的超过四万名病人。数据内容方面涵盖了病人的人口统计学信息、生命体征测量记录、实验室化验结果、医疗服务记录、药品记录、医生诊断结果等各个方面的数据。图5为疾病编码在进行层级规约后对应的大类编号。

3、实验结果：

在发明中，为了比较对于潜在疾病的预测效果，评估环节使用了包含1万多名病人数据的测试集，与逻辑回归算法和随机森林算法进行了对比实验。

当选取下表1中疾病大类编号2、4、8、15、19作为评价对象时，在准确率、召回率和F1值三种指标上，本发明与对比算法的结果如表2所示，其中加粗数值为针对当前疾病的最高值。从表中可以看出，在准确率方面，本发明在4种疾病上都有最好的表现，即使是表现较差的呼吸系统的疾病(8号)也仅落后2％，说明准确率是对比算法中最好的。在召回率指标上，本发明比逻辑回归算法差，但仍然优于随机森林算法，说明针对多种疾病同时发生的情况，算法在结果覆盖率方面还有提高的空间。结合准确率和召回率，从F1值的结果上进行综合比较，本发明仍旧占有很大的优势，说明总体预测结果优于对比算法。

表1疾病编码对照表

表2不同疾病结果对比

图5描述的是本发明与其他对比算法在疾病预测准确度上的对比实验结果。图中圆点的曲线代表的是本发明方法的结果，方块点的曲线对应的是逻辑回归模型的结果，菱形点的曲线对应的是随机森林模型的预测结果。每种模型都在不同预测结果长度的情况下，计算了疾病预测的准确率。其中横轴表示的是从结果长度1到结果长度21，对应的预测情况。从结果图上，可以看出本发明方法在任意长度的预测结果中，准确率都超过了对比模型，并且预测结果的前5项基本上已经覆盖了95％的病人患病情况。

图6描述的是本发明与其他对比算法在预测血液疾病的ROC曲线上的对比实验结果。图7描述的是本发明与其他对比算法在预测消化系统疾病的ROC曲线上的对比实验结果。其中实曲线是本发明方法，虚曲线是随机森林算法，线段和点交替的曲线是逻辑回归算法。针对单种疾病的预测结果，使用受试者工作特征曲线(ROC)进行可视化的对比展示。曲线下方的面积(AUC，area under curve)越大，说明预测的准确性越高，图中左上角的点为敏感性和特异性的最高值。从图中可以看出本发明方法对应的ROC曲线更靠近(0，1)点，具有更好的敏感性和特异性。

综上所述，本发明所提出的一种基于自动抽取医疗专家知识的疾病预测方法，在潜在疾病预测中所能达到的效果优于现有的方法，从而证明本发明的有效性，可以用于智能医疗的疾病预测应用中去。

为了说明本发明的内容及实施方法，本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：包括以下步骤：

步骤一、建立疾病关系网络：

步骤二、从步骤一得到的疾病关系网络中学习生成疾病显式相关性特征矩阵M₁；

步骤四、根据M₁和M₂计算疾病相似度矩阵M；

步骤五、提取低维医疗特征向量

步骤六、使用M和约束疾病预测神经网络模型的参数学习：

步骤七、根据步骤六的疾病预测神经网络模型，生成疾病预测结果。

2.根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：所述步骤二通过以下过程实现：

初始化疾病显式相关性特征矩阵M₁，并根据疾病编码D_i和D_j在特征矩阵M₁中对应的特征向量和定义它们在算法层面的显式相关性为其中T表示向量转置操作；接着，再定义算法的优化目标公式O₁＝-∑_(i,j)∈Ew_ijlogs₁(D_i,D_j)，其中E表示在步骤一得到的疾病关系网络N_disease中所有疾病编码组合的集合、w_ij表示疾病编码D_i和D_j在N_disease中共同出现的次数、log表示对数计算；最后，采用符合参数迭代更新思想的算法，通过最小化公式O₁的目标，不断调整M₁矩阵中各个疾病编码对应的疾病显式相关性特征向量值，得到最优的疾病显式相关性特征向量矩阵其中l₁表示显式相关性特征向量长度。

3.根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：所述步骤三通过以下过程实现：

初始化疾病隐式相关性特征矩阵M₂，并根据疾病编码D_i和D_j在特征矩阵M₂中对应的特征向量和定义它们在算法层面的隐式相关性为其中T表示向量转置操作,|D|表示疾病编码的数量；接着，再定义算法的优化目标公式O₂＝-∑_(i,j)∈Ew_ijlogs₂(D_j|D_i)，其中E表示在步骤一得到的疾病关系网络N_disease中所有疾病编码组合的集合、w_ij表示疾病编码D_i和D_j在N_disease中共同出现的次数、log表示对数计算；最后，采用符合参数迭代更新思想的算法，通过最小化公式O₂的目标，不断调整M₂矩阵中各个疾病编码对应的隐式相关性特征向量值，得到最优的疾病隐式相关性特征向量矩阵其中l₂表示隐式相关性特征向量长度。

4.根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：所述步骤四通过以下过程实现：

根据步骤二和步骤三得到的疾病显式相关性特征矩阵M₁和疾病隐式相关性特征矩阵M₂，将疾病编码D_i对应的显式相关性特征向量和隐式相关性特征向量进行拼接，构成综合特征向量定义综合特征向量和的相似度为疾病编码D_i和D_j最终的疾病编码相似性sim_ij；将sim_ij作为矩阵中第i行第j列的项，得到疾病相似矩阵M^|D|×|D|。

5.根据权利要求4所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：选取余弦相似度作为所述综合特征向量和的相似度。

6.根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：所述步骤五通过以下过程实现：

从医疗数据库中，抽取病人P_i的医学检验结果、身体指标数值和人口统计学信息数据，在经过数值化和归一化处理后，构成病人的原始医疗特征向量通过逐层训练的方法，让多层降噪自编码器栈模型在原始医疗特征向量集合上学习最优参数，并使用训练好的多层降噪自编码器栈模型处理原始的医疗特征向量得到长度为l_p的低维医疗特征向量

7.根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：通过以下过程获得所述疾病预测神经网络模型：

其中y_k表示疾病k的真实发病概率，表示模型预测第k种疾病的发病概率，表示第k种疾病的输出层权重参数，b_k表示第k种疾病的输出层偏置参数，γ₁和γ₂为预先设定的权重系数；最终使用符合参数迭代更新思想的算法学习神经网络模型的最优参数，得到稳定的多标签疾病预测神经网络模型。

8.根据权利要求7所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：所述γ₁＝0.3，γ₂＝0.2。

9.根据权利要求2、3、7任一所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：所述符合参数迭代更新思想的算法为随机梯度下降算法和反向传播算法。

10.根据权利要求1-8任一所述的一种基于自动抽取医疗专家知识的的疾病预测方法，其特征在于：步骤七通过以下过程实现：将待预测的病人P_i所对应的低维医疗特征向量送入步骤六得到的神经网络模型中，得到针对|D|种疾病的发病概率向量选取概率值最高的前n项疾病编码作为病人最可能发生的潜在疾病预测结果。