CN109036553A - 一种基于自动抽取医疗专家知识的疾病预测方法 - Google Patents
一种基于自动抽取医疗专家知识的疾病预测方法 Download PDFInfo
- Publication number
- CN109036553A CN109036553A CN201810860468.6A CN201810860468A CN109036553A CN 109036553 A CN109036553 A CN 109036553A CN 201810860468 A CN201810860468 A CN 201810860468A CN 109036553 A CN109036553 A CN 109036553A
- Authority
- CN
- China
- Prior art keywords
- disease
- vector
- medical
- forecasting
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 252
- 238000000605 extraction Methods 0.000 title claims description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 230000000875 corresponding Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 24
- 238000003745 diagnosis Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 210000002569 neurons Anatomy 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000010339 medical test Methods 0.000 claims description 2
- 210000004218 Nerve Net Anatomy 0.000 claims 1
- 239000003814 drug Substances 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 230000001537 neural Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000009533 lab test Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000035533 AUC Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 208000005209 Hematologic Disease Diseases 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 210000002249 digestive system Anatomy 0.000 description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 235000003283 Pachira macrocarpa Nutrition 0.000 description 1
- 240000004678 Panax pseudoginseng Species 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000001085 Trapa natans Species 0.000 description 1
- 235000014364 Trapa natans Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012503 blood component Substances 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229940079593 drugs Drugs 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 235000005035 ginseng Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000000306 recurrent Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000009165 saligot Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明涉及一种基于自动抽取医疗专家知识的疾病预测方法,属于智能医疗技术领域;首先根据历史诊断记录数据构建疾病关系网络,在该网络上使用神经网络模型对疾病实体间具有的显式和隐式相关性分别计算疾病特征向量,并通过疾病特征向量计算疾病之间的相关性矩阵作为医疗专家知识;其次,设计基于深度学习的疾病预测模型,通过降噪自编码器栈模型将病人的原始医学指标数据降维,并作为多标签疾病预测模型的输入数据来预测病人的潜在疾病;最后,在模型的参数学习部分,使用第一步中自动提取的疾病相似度矩阵作为医疗背景约束条件,让算法学习模型的最优参数,并将发病概率较高的疾病作为预测结果。对比现有技术,本发明提高了疾病预测准确率。
Description
一种基于自动抽取医疗专家知识的疾病预测方法
技术领域
[0001] 本发明涉及一种疾病预测方法,特别涉及一种基于自动抽取医疗专家知识的疾病预测方法,属于智能医疗技术领域。
背景技术
[0002] 近年来,随着医疗器械的不断发展和医疗机构电子化水平的不断提高,医疗信息电子化越来越普及,使得医生能够参考之前无法获取的实时数据,对病人的病情做出预测诊断。同时,医疗信息电子化也将医生的诊断记录和病人的身体数据量化保存,为建立更为智能的疾病预测系统提供数据支持。目前,已经有很多研究机构开展了对于疾病预测系统的研究。然而,庞大且稀疏的医疗数据阻碍了对医疗专家知识的提取,对疾病预测准确性的严格要求也进一步地限制了疾病预测模型的研究。
[0003] 本发明的疾病预测旨在针对病人的潜在疾病做出预测诊断,当前的研究工作主要为医疗辅助决策系统给出备选诊断后由医疗专家进行最终判断。目前,存在很多工作研究了应用与辅助决策系统中的医疗专家知识抽取方法。一种方法是依靠人工整理的方式,通过统计学方法生成病人身体特征和疾病之间的相关性。这种人工医疗专家知识抽取方式成本高昂,并且极大地受限于整理人员的专业医疗水平,无法针对相关性不明显的疾病以及疑难病症做出有效的汇总。另一种方法是使用关联规则分析和简单的文本匹配方法这样的机器学习方法,进行专家知识的自动生成,再针对病人的某些异常生理指标给出相对应的疾病,生成辅助决策信息。
[0004] 此外,当前的研究工作主要使用病人的原始生理检查数据,例如血液成分指标等。然而,虽然病人的生理检查指标非常多,但是真正有检查结果的指标比较少,造成了病人生理数据的稀疏性。如果直接使用结果数值中的异常值进行判断,就忽视了不同指标之间存在的潜在相关性,例如一些需要多项指标综合判断的疾病可能就无法被发现。目前的研究工作没有考虑到对病人的生理数据进行降维表示,以生成更加稠密且对于疾病预测更有价值的数据,因此得到的预测结果差强人意。
发明内容
[0005] 本发明的目的在于提供一种基于自动抽取医疗专家知识的疾病预测方法,旨在通过神经网络模型更加快速而准确地建立疾病预测模型。该方法首先通过神经网络模型自动提取医疗专家知识,接着对病人的原始生理指标数值进行降维,并将降维后的特征数值作为深度学习模型的输入,最终结合医疗专家知识生成疾病预测结果。
[0006] 本发明的原理:首先根据医生的历史诊断记录数据构建疾病关系网络,在该网络上使用神经网络模型对疾病实体间具有的显式相关性和隐式相关性分别计算疾病特征向量,并通过疾病特征向量计算疾病之间的相关性矩阵作为医疗专家知识;其次,设计基于深度学习的疾病预测模型,通过降噪自编码器栈模型将病人的原始医学指标数据降维,并作为深度疾病预测模型的输入数据来预测病人的潜在疾病;最后,在多标签疾病预测模型的 参数学习部分,使用第一步中自动提取的疾病相似度矩阵作为医疗背景约束条件,让算法学习模型的最优参数,并将发病概率较高的疾病作为预测结果。
[0007] 为了解决上述技术问题,本发明是通过以下技术方案实现的:
[0008] —种基于自动抽取医疗专家知识的疾病预测方法,包括以下步骤:
[0009] 步骤一、建立疾病关系网络
[0010] 从医疗数据库中,根据病人编号和就诊记录的时间戳,统计不同疾病编码在同一病人的一次就诊周期内共同出现的次数,将所有疾病编码组合共同出现的次数进行汇总,得到以三元组〈疾病编码D1,疾病编码Dp共同出现次数的形式存储的疾病关系网络Ndlse3ase3;其中,i和j为小于等于ID I的自然数,ID I表示疾病编码的数量;
[0011] 步骤二、从步骤一得到的疾病关系网络中学习生成疾病显式相关性特征矩阵M1
[0012] 作为优选,M1通过以下过程获得:
[0013] 初始化疾病显式相关性特征矩阵M1,并根据疾病编码Di和Dj在特征矩阵M1中对应 的特征向量爲和^•,定义它们在算法层面的显式相关性为
1其 中T表示向量转置操作;接着,再定义算法的优化目标公式0i = _Z(i,j)eE Wij logsi(Di,Dj),其中E表示在步骤一得到的疾病关系网络Ndise3ase3中所有疾病编码组合的集合、Wij表示疾病编码队和仏在Ddlsease中共同出现的次数、log表示对数计算;最后,采用符合参数迭代更新思想的算法,通过最小化公式O1的目标,不断调整M1矩阵中各个疾病编码对应的疾病显式相关 性特征向量值,得到最优的疾病显式相关性特征向量矩阵
,其中Ii表示显式相关 性特征向量长度;
[0014] 步骤三、从步骤一得到的疾病关系网络中学习生成疾病隐式相关性特征矩阵M2
[0015] 作为优选,M2通过以下过程获得:
[0016] 初始化疾病隐式相关性特征矩阵M2,并根据疾病编码Di和Dj在特征矩阵M2中对应的特征向量馬和^•,定义它们在算法层面的隐式相关性为
其中T表示向量转置操作,I D I表示疾病编码的数量;接着,再定义算法的优化目标公式O2= -Σ(1,#ε Wlj Iogs2(DdD1);最后,采用符合参数迭代更新思想的算法,通过最小化公式O2的目标,不断调整跑矩阵中各个疾病编码对应的隐式相关性特征向量值,得到最优的疾病 隐式相关性特征向量矩阵
,其中I2表示隐式相关性特征向量长度;
[0017] 步骤四、根据MjPM2计算疾病相似度矩阵Μ;
[0018] 作为优选,M通过以下过程获得:
[0019] 根据步骤二和步骤三得到的疾病显式相关性特征矩阵此和疾病隐式相关性特征矩阵M2,将疾病编码Di对应的显式相关性特征向量,和隐式相关性特征向量%进行拼接,构 成综合特征向量fly定义综合特征向量&和I;的相似度为疾病编码Di和Dj最终的疾病编码相似性Simlj;将Simlj作为矩阵中第i行第j列的项,得到疾病相似矩阵M|d|x|d|;
[0020] 步骤五、提取低维医疗特征向量#£
[0021] 作为优选,#1采用下述过程提取:从医疗数据库中,抽取病人P1的医学检验结果、身体指标数值和人口统计学信息数据,在经过数值化和归一化处理后,构成病人的原始医疗特征向1氏;通过逐层训练的方法,让多层降噪自编码器栈模型在原始医疗特征向量集合上学习最优参数,并使用训练好的多层降噪自编码器栈模型处理原始的医疗特征向量痪,得到长度为Ip的低维医疗特征向量
[0022] 步骤六、使用M和:约束疾病预测神经网络模型的参数学习从而得到疾病预测神经网络模型;
[0023] 作为优选,通过以下过程获得疾病预测神经网络模型:
[0024] 构造多层神经网络模型,设定输入是长度为Ip的低维医疗特征向量,设定输出 层为I D I个神经元,分别用于计算I D I种待预测疾病的发病概率;在神经网络模型的损失函数中,添加由疾病相似度矩阵作为约束条件的损失量
,其中M为步骤四得到 的疾病相似矩阵,
表不I D I种待预测疾病的发病概率向量;此时, 神经网络的目标函数如下:
[0025]
[0026] 其中yk表示疾病k的真实发病概率,
:表示模型预测第k种疾病 的发病概率,该&表不第k种疾病的输出层权重参数,bk表不第k种疾病的输出层偏置参数,γ#Ργ2为预先设定的权重系数;最终使用符合参数迭代更新思想的算法学习神经网络模型的最优参数,得到稳定的多标签疾病预测神经网络模型;
[0027] 步骤七、根据步骤六的疾病预测神经网络模型,生成疾病预测结果
[0028] 作为优选,生成疾病预测结果通过以下过程实现:
[0029] 将待预测的病AP1所对应的低维医疗特征向量氏送入步骤六得到的神经网络模型 中,得到针对I D I种疾病的发病概率向量3?;选取概率值最高的前η项疾病编码作为病人最 可能发生的潜在疾病预测结果。
[0030] 有益效果:
[0031] 本发明针对潜在疾病预测模型在高维度数据处理和精准预测疾病上的困难,一方面使用基于网络结构相似性的医疗专家知识自动抽取方法提高模型预测准确性,另一方面利用降噪自编码器栈模型和神经网络模型加快高维度的大规模医疗数据处理速度。本发明提高了疾病预测的准确性,提高了数据处理效率,能够辅助医生进行初步的疾病筛查,减少医生因为误判造成的损失。
附图说明
[0032] 图1是本发明医疗专家知识提取和疾病预测模型的总流程图。
[0033] 图2是本发明降噪自编码器栈模型示意图。
[0034] 图3是本发明神经网络模型示意图。
[0035] 图4是本发明医疗数据集的人口年龄分布示意图。
[0036] 图5是本发明疾病预测准确度实验结果对比。
[0037] 图6是本发明预测血液疾病的ROC曲线实验结果对比。
[0038] 图7是本发明预测消化系统疾病的ROC曲线实验结果对比。
具体实施方式
[0039] 下面结合附图与实施例对本发明较优的实施方式进行详细介绍。
[0040] 电子医疗记录(^Electronic Health Record,E;HR)是当前医疗机构在病人住院期间的医疗过程数据化记录,合理使用这些信息丰富的电子医疗记录,结合医疗辅助系统帮助医生进行诊断,是实现医疗研究信息化和诊疗个性化的基础。原始电子医疗记录包含三方面的信息:病人的人口统计学信息、医生诊断记录和化验检验结果。医生诊断记录由〈时间戳,病人编号,诊断代码〉三元组构成;化验结果由〈病人编号,住院编号,检查时间,检查项目,数值结果〉五元组构成;人口统计学信息中的年龄分布如图4所示,表明病人的年龄信息和疾病发生之间具有很强的相关性。以上数据构成了本发明的原始数据。
[0041] 如图1所示,展示了基于自动抽取医疗专家知识的疾病预测模型的总体流程,从图中可以看到,首先从医疗数据库中将医生的诊断数据抽取出来,构成疾病关系网络用于计算基于网络相关性的特征向量,进而产生代表医疗专家知识的疾病相似度矩阵。另一方面,将医疗数据库中的人口统计学信息和化验结果数据作为病人的原始医疗特征向量,经过多层降噪自编码器栈模型处理后得到低维医疗特征向量。将低维医疗特征向量传递给多层神经网络,并使用疾病相似度矩阵作为医疗背景知识约束疾病预测模型的参数学习。最终,将模型运用于待预测的病人数据后,选取发病概率最高的疾病作为预测结果。具体步骤如下:
[0042] 步骤一、建立疾病关系网络
[0043] MIMIC-III医疗数据库中,疾病诊断信息由〈时间戳,病人编号,疾病编码〉三元组存储。根据病人编号和就诊记录的时间戳,将属于同一个病人的疾病编码存入一个数组中,此时在同一个数组中的疾病编码两两构成并发症关系。针对所有疾病编码组合,统计共同出现的次数。最终将共同出现次数大于阈值的疾病编码组合,以三元组〈疾病编码D1,疾病编码Dp共同出现次数〉的形式存储到文件中,用于表示疾病关系网络Ndlse3ase3。在此实施例中,选择21种常见的疾病编码作为示例,实际使用中不限定于此21种疾病编码。
[0044] 步骤二、生成疾病显式相关性特征矩阵M1
[0045] 疾病之间的显式相关性定义为两种疾病之间存在直接的并发关系,用来描述两者之间具有强相关性的概率。本领域技术人员知道,疾病之间的显式相关性基于实施者的不同可以采用不同的方法,下面简单介绍本实施例所使用的方法:
[0046] 定义疾病编码Di和Dj之间的真实显式相似性为
_其中Wij为步骤 一得到的疾病关系网络Ndlseas冲疾病编码DdPDj共同出现的次数,W为所有疾病编码组合共同出现次数的累加。接着,根据疾病编码Di和Dj在特征矩阵M冲对应的特征向量1¾和·^,定义它们在算法层面的显式相关性为:
[0047]
[0048] 拟合目标是尽可能缩小真实显式相似性& (A, Z)/和算法显式相似性Z)/) 之间的差距。当使用KL散度
作为衡量标准时,目标优化公式 可以化简为:
[0049]
[0050] 其中,Wij表示疾病编码Di和Dj共同出现的次数,log表示以10为底的对数计算,E表 示在Ndisease中的所有疾病编码组合集合。
[0051] 首先随机初始化疾病显式相关性特征向量矩阵M1Mxil,其中|D|为疾病编码的 个数21,11为特征向量的长度在此实施例中设定为128。在迭代过程中,随机选取在疾病关系网络Ndlse3ase3中存在边的一对疾病编码,计算对应的目标公式O1,并使用随机梯度下降算法和反向传播算法更新显式相关性特征向量矩阵施以降低优化目标值O1。当然,本领域技术人员知道,不限于此种方法,只要是符合参数迭代更新思想的算法,都能进行更新。重复此迭代过程,直到算法达到最大迭代次数或矩阵收敛的情况下,停止更新并将此时的疾病显式 相关性特征向量矩阵M1 |D|Xil存储下来。
[0052] 步骤三、生成疾病隐式相关性特征矩阵M2
[0053] 疾病之间的隐式相关性用于衡量虽然没有直接并发症关系,但通过潜在关联影响病人的疾病之间的相关性,在疾病关系网络中体现为两个节点所对应的邻居节点的重合程度。本领域技术人员知道,疾病之间的隐式相关性基于实施者的不同可以采用不同的方法,下面简单介绍本实施例所使用的方法:
[0054] 根据步骤一得到的疾病关系网络Ndlsease,计算所有疾病编码之间的真实显示相似 性4 qy,可以得到向量
丨表示疾病编 码Di的邻居关系。此时向量:¾7和的余弦相似度就是疾病编码Di与Dj的真实隐式相关性
[0055] 根据疾病编码Di和Dj在特征矩阵M2中对应的特征向量兔和巧,定义它们在算法层面的隐式相关性为:
[0056]
[0057] 拟合目标是尽可能缩小真实隐式相似性
!和算法隐式相似性S2 (¾ I D1)之 间的差距。当使用KL散度
作为衡量标准时,目标优化公式可 以化简为如下方程:
[0058]
[0059] 其中,Wij表示疾病编码Di和Dj共同出现的次数,log表示以10为底的对数计算,E表 示在Ndisease中的所有疾病编码组合集合。
[0060] 与步骤二的计算过程相似。首先随机初始化疾病隐式相关性特征向量矩阵M2|D|xZz ,其中|D I为疾病编码的个数21,I2为特征向量的长度在此实施例中设定为128。在 迭代过程中,随机选取在疾病关系网络Ndlse3ase3中存在边的一对疾病编码,计算对应的目标公式〇2,并使用随机梯度下降算法和反向传播算法更新隐式相关性特征向量矩阵跑以降低优化目标值〇2。当然,本领域技术人员知道,不限于此种方法,只要是符合参数迭代更新思想的算法,都能进行更新。重复此迭代过程,直到算法达到最大迭代次数或矩阵收敛的情况下,停止更新并将此时的疾病隐式相关性特征向量矩阵M2存储下来。
[0061] 步骤四、计算疾病相似度矩阵M
[0062] 根据步骤二和步骤三得到的疾病显式相关性特征矩阵此和疾病隐式相关性特征矩阵M2,将疾病编码D i对应的显式相关性特征向量1¾和隐式相关性特征向量M纟进行横向拼 接,构成综合特征向量g。在此实施例中选择余弦相似度作为相似性度量方法。当然,本领域技术人员知道,特征向量间的相似性度量不限于此种方法,只要是能进行向量相似性度量的算法,都能进行更新。此时疾病编码Di和Dj对应综合特征向量^和^的余弦相似度为最终的疾病编码相似性如下:
[0063]
[0064] 计算疾病关系网络中所有疾病节点的相似度,能够得到疾病相似矩阵M1d1x1d1,其中I D I表示疾病编码的数量21个,矩阵的每一项HUj就是疾病编码Di与Dj之间的相似性Simij。这个疾病相似矩阵在后续的模型中将作为一种医疗先验知识对模型的参数优化进行约束。
[0065] 本实施例步骤简单介绍了一种如何根据根据施和跑构造M的方法,本领域技术人员知道,不限于此,可以采用当前流行的任何思想构造,只要能够将疾病的显式、隐式相关性充分蕴含即可。
[0066] 步骤五、提取低维医疗特征向量
[0067] 由于化验结果真实反应了病人的身体状况,所以将病人在医院内做过的化验检查数值作为原始医疗特征。在MMIC-III医疗数据库中总共有753项结果格式为〈病人编号,住院编号,检查时间,检查项目,数值结果〉五元组的化验项目,需要首先将每个病人的化验结 果数值存储为一个长度为753的一维向量,其中每一项为对应化验检查的数值。同时如图4所示,由于人口统计学信息在疾病诊断中具有重要作用,所以将性别、年龄、体重信息数值化处理后添加到向量。对所有向量进行归一化处理后,每一个病人Pj#到一个长度为756的原始医疗特征向量武-。
[0068] 图2是降噪自编码器栈模型的示意图,从左至右依次是第一层参数训练、第二层参数训练和最终输出层训练环节。模型输入为长度756的原始医疗特征向量
对输入向量加入小于〇. 〇 1的随机数作为噪声后得到包含噪声的特征向量
设定第一层降噪自编码器的隐藏层数量为512,映射函数使用
函数,输出为:
,得到第一层隐含层表达[0, I]512。第一层对应的解码器映射函数为
,得到 重构向量表达Z1 e [0,1]756。此时模型的损失函数为重构交叉函数:
[0069]
[0070] 其中,
为第i个训练样本对应的含噪声输入特征向量,
表示向量
的第k 列值,
为第i个训练样本对应第一层解码器还原特征向量,
表示向量
^勺第k列值, log为以10为底的对数函数。算法的优化目标为最小化输入特征向量和还原特征向量的重构损失函数,使得模型在不丢失数据特征的情况下尽量压缩特征向量长度。使用期望最大化算法即可求得最优参数(W〇,b〇)和(W%,!/。),并将最优参数固定下来,进入第二层降噪自编码器的参数学习。在第二层和第三层的降噪自编码器学习中,设定隐藏层神经元的数量分别为256和200。使用与第一层参数学习相同的编码与解码过程,即可得到使得模型在原始医疗数据集上损失最小的参数,并得到所有原始医疗特征向量对应的长度为200的低维医疗特征向量。
[0071] 本实施例步骤简单介绍了一种如何将病人的医疗特征数据降维的方法,本领域技术人员知道,不限于此,可以采用当前流行的任何方法降维,如主成分分析(PrincipalComponent Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA),只要能够在降维的同时又不损失病人的必要特征即可。
[0072] 步骤六、使用医疗背景知识进行多标签疾病预测神经网络模型的参数优化
[0073] 图3为多标签疾病预测神经网络模型的示意图,输入是步骤五得到的长度为200的低维医疗特征向量;模型包含两层隐藏层,使用ReLU (X)=maX (0,x)函数作为激活函数;输出层针对21种待预测疾病分别设计一个神经元用于计算对应的发病概率,构成多标签疾病预测模型。
[0074] 此时,整个模型的学习目标是最小化预测结果和真实结果之间的差距,所以选择交叉熵函数作为损失函数的计算公式如下:
[0075]
[0076] 其中,yk表示疾病k的真实发病概率,
表示模型预测第k种疾 病的发病概率。
[0077] 由于需要结合医疗背景知识进行模型训练,在神经网络输出层的目标函数中加入由疾病相似度矩阵作为约束条件的损失函数如下:
[0078]
[0079] 其中P 〇 (·)表示基于先验知识的概率分布,α表示正比关系,
表示模型对21种待预测疾病的发病概率预测值组成的向量,M为步骤四计算得到的疾病相似度矩阵。
[0080] 同时,需要考虑模型复杂度惩罚项如下,Wk为第k种疾病输出神经元对应的权重:
[0081]
[0082] 综合所有损失函数,得到最终目标函数如下,其中γ#Ργ2*预先设定的超参数,在本实施例中取值为γ 1 = 0.3和γ 2 = 0.2。
[0083]
[0084] 根据上述目标函数,此实施例使用随机梯度下降算法,学习神经网络的参数,最终得到稳定的多标签疾病预测神经网络模型。当然,本领域技术人员知道,不限于此种方法,只要是符合参数迭代更新思想的算法,都能进行参数更新。
[0085] 本实施例步骤简单介绍了一种多标签疾病预测神经网络模型及训练方法,本领域技术人员知道,不限于此,可以采用任何其它适用方法,如循环神经网络、卷积神经网络、长短期记忆网络等,只要能够根据病人的医疗特征数据得到其对于不同种疾病的发病概率即 可。
[0086] 步骤七、生成疾病预测结果
[0087] 将待预测的病人Pi所对应的低维医疗特征向量成输入步骤七的神经网络中,可以 得到针对21种疾病的发病概率向量7。选取概率值最高的前三项疾病编码作为病人最可能发生的潜在疾病预测结果。
[0088] 本实施例步骤简单介绍了根据多标签疾病预测神经网络模型生成疾病预测结果的方法,本领域技术人员知道,不限于此,可以采用任何其它适用方法,如根据阈值选取或根据概率最高选取等方法,只要能够根据病人的医疗特征数据得到其对于不同种疾病的发病概率并将概率较大的反馈即可。
[0089] 应用效果
[0090] 1、评价指标:
[0091] 本发明对预测疾病的准确率、召回率、K长度准确率以及Fl值进行评价,衡量方法在广度和深度上的性能。
[0092] 1.1、准确率P是用来计算分类器再预测数据集上,正确进行分类的比例。在多标签预测任务中,需要统计每种预测目标的准确率,进行综合判断。召回率R是用来评价在一个预测结果集合中,预测准确的疾病数量占病人真实发病情况中疾病数量的比例,这个比例越高说明预测模型得到的结果越接近实际情况。其公式如下:
[0095] 其中,|U|表示病人的数目;TP为正确被推荐的结果个数,FP为错误被推荐的结果个数,FN为错误的未被推荐的结果个数。
[0096] 1.2、考虑到医生是根据预测概率,按照从高到低的顺序使用预测结果,所以越靠前的结果被医生关注到的可能性更大。在计算准确率时,如果要将这种顺序信息考虑在内,就需要使用不同长度的预测结果进行计算。对于长度为N的结果,准确率计算公式如下:
[0097]
[0098] 其中,|U|表示测试集中病人的数量,Su和Nu分别表示针对病人u预测正确的次数和预测的总次数。
[0099] 1.3、通过上述公式计算得到准确率和召回率后,还可以使用信息检索领域的一种常用评价指标Fl值(Fl-Measure),综合评估预测算法的准确率。假设准确率为P,召回率为R,则Fl值计算公式为:
[0100]
[0101] 2、数据集:
[0102] 本发明使用的是记录了急诊室医疗信息的大型数据库MMIC-III,该数据库包含了2001年至2012年间Beth Israel Deaconess医疗中心接诊过的超过四万名病人。数据内容方面涵盖了病人的人口统计学信息、生命体征测量记录、实验室化验结果、医疗服务记录、药品记录、医生诊断结果等各个方面的数据。图5为疾病编码在进行层级规约后对应的大类编号。
[0103] 3、实验结果:
[0104] 在发明中,为了比较对于潜在疾病的预测效果,评估环节使用了包含1万多名病人数据的测试集,与逻辑回归算法和随机森林算法进行了对比实验。
[0105] 当选取下表1中疾病大类编号2、4、8、15、19作为评价对象时,在准确率、召回率和Fl值三种指标上,本发明与对比算法的结果如表2所示,其中加粗数值为针对当前疾病的最 高值。从表中可以看出,在准确率方面,本发明在4种疾病上都有最好的表现,即使是表现较差的呼吸系统的疾病(8号)也仅落后2%,说明准确率是对比算法中最好的。在召回率指标上,本发明比逻辑回归算法差,但仍然优于随机森林算法,说明针对多种疾病同时发生的情况,算法在结果覆盖率方面还有提高的空间。结合准确率和召回率,从Fl值的结果上进行综合比较,本发明仍旧占有很大的优势,说明总体预测结果优于对比算法。
[0106] 表1疾病编码对照表
[0109] 表2不同疾病结果对比
[0110]
[0111] 图5描述的是本发明与其他对比算法在疾病预测准确度上的对比实验结果。图中圆点的曲线代表的是本发明方法的结果,方块点的曲线对应的是逻辑回归模型的结果,菱形点的曲线对应的是随机森林模型的预测结果。每种模型都在不同预测结果长度的情况下,计算了疾病预测的准确率。其中横轴表示的是从结果长度1到结果长度21,对应的预测情况。从结果图上,可以看出本发明方法在任意长度的预测结果中,准确率都超过了对比模型,并且预测结果的前5项基本上已经覆盖了 95%的病人患病情况。
[0112] 图6描述的是本发明与其他对比算法在预测血液疾病的ROC曲线上的对比实验结果。图7描述的是本发明与其他对比算法在预测消化系统疾病的ROC曲线上的对比实验结果。其中实曲线是本发明方法,虚曲线是随机森林算法,线段和点交替的曲线是逻辑回归算法。针对单种疾病的预测结果,使用受试者工作特征曲线(ROC)进行可视化的对比展示。曲线下方的面积(AUC,area under curve)越大,说明预测的准确性越高,图中左上角的点为敏感性和特异性的最高值。从图中可以看出本发明方法对应的ROC曲线更靠近(0,1)点,具有更好的敏感性和特异性。
[0113] 综上所述,本发明所提出的一种基于自动抽取医疗专家知识的疾病预测方法,在潜在疾病预测中所能达到的效果优于现有的方法,从而证明本发明的有效性,可以用于智能医疗的疾病预测应用中去。
[0114] 为了说明本发明的内容及实施方法,本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。
Claims (10)
1. 一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:包括以下步骤:步骤一、建立疾病关系网络: 从医疗数据库中,根据病人编号和就诊记录的时间戳,统计不同疾病编码在同一病人的一次就诊周期内共同出现的次数,将所有疾病编码组合共同出现的次数进行汇总,得到以三元组〈疾病编码Di,疾病编码Dj,共同出现次数Wij>的形式存储的疾病关系网络Ndisease;其中,i和j为小于等于ID I的自然数,ID I表示疾病编码的数量; 步骤二、从步骤一得到的疾病关系网络中学习生成疾病显式相关性特征矩阵M1; 步骤三、从步骤一得到的疾病关系网络中学习生成疾病隐式相关性特征矩阵M2步骤四、根据MjPM2计算疾病相似度矩阵M; 步骤五、提取低维医疗特征向量获^ i:_; 步骤六、使用M和,:ί釣束疾病预测神经网络模型的参数学习: 步骤七、根据步骤六的疾病预测神经网络模型,生成疾病预测结果。
2. 根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:所述步骤二通过以下过程实现: 初始化疾病显式相关性特征矩阵Μι,并根据疾病编码Di和Dj在特征矩阵Mi中对应的特征 向量為和^•,定义它们在算法层面的显式相关性为
',其中T表 示向量转置操作;接着,再定义算法的优化目标公式〇ι = -Σ (i,j)eEwijlogsi (Di,Dj),其中E表示在步骤一得到的疾病关系网络Ndisease中所有疾病编码组合的集合、Wij表示疾病编码Di和Dj在Ndlse3ase3中共同出现的次数、log表示对数计算;最后,采用符合参数迭代更新思想的算法,通过最小化公式O1的目标,不断调整M1矩阵中各个疾病编码对应的疾病显式相关性特征 向量值,得到最优的疾病显式相关性特征向量矩阵
,其中Ii表示显式相关性特征向 量长度。
3. 根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:所述步骤三通过以下过程实现: 初始化疾病隐式相关性特征矩阵M2,并根据疾病编码Di和Dj在特征矩阵M2中对应的特征 向量乐和^,定义它们在算法层面的隐式相关性为
,其中T 表示向量转置操作,I D I表示疾病编码的数量;接着,再定义算法的优化目标公式〇2 =-Σ (U)eEWijIogs2 (Dj I Di),其中E表示在步骤一得到的疾病关系网络Ndise中所有疾病编码组合的集合、Wij表示疾病编码Di和Dj在Ndisease中共同出现的次数、log表示对数计算;最后,采用符合参数迭代更新思想的算法,通过最小化公式O2的目标,不断调整跑矩阵中各个疾病 编码对应的隐式相关性特征向量值,得到最优的疾病隐式相关性特征向量矩阵
, 其中I2表示隐式相关性特征向量长度。
4. 根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:所述步骤四通过以下过程实现: 根据步骤二和步骤三得到的疾病显式相关性特征矩阵M1和疾病隐式相关性特征矩阵 M2,将疾病编码Di对应的显式相关性特征向量1¾和隐式相关性特征向量兔进行拼接,构成 综合特征向量^;定义综合特征向量Ijpi;啲相似度为疾病编码Di和Dj最终的疾病编码相 似性Simm将Simlj作为矩阵中第i行第j列的项,得到疾病相似矩阵M1d1x1dL
5. 根据权利要求4所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征 在于:选取余弦相似度作为所述综合特征向量的相似度。
6. 根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:所述步骤五通过以下过程实现: 从医疗数据库中,抽取病人医学检验结果、身体指标数值和人口统计学信息数据,在经过数值化和归一化处理后,构成病人的原始医疗特征向量疾;通过逐层训练的方法,让多层降噪自编码器栈模型在原始医疗特征向量集合上学习最优参数,并使用训练好的多层降噪自编码器栈模型处理原始的医疗特征向量ft,得到长度为^的低维医疗特征向量?
7. 根据权利要求1所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:通过以下过程获得所述疾病预测神经网络模型: 构造多层神经网络模型,设定输入是长度为Ip的低维医疗特征向量设定输出层为D I个神经元,分别用于计算|D|种待预测疾病的发病概率;在神经网络模型的损失函数中,添加由疾病相似度矩阵作为约束条件的损失量
^,其中M为步骤四得到的疾病 相似矩阵
表示I D I种待预测疾病的发病概率向量;此时,神经网 络的目标函数如下:
其中yk表示疾病k的真实发病概率:
:表示模型预测第k种疾病的发 病概率,Slfc表示第k种疾病的输出层权重参数,bk表示第k种疾病的输出层偏置参数,γ :和 γ 2为预先设定的权重系数;最终使用符合参数迭代更新思想的算法学习神经网络模型的最优参数,得到稳定的多标签疾病预测神经网络模型。
8. 根据权利要求7所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:所述 y ι = 0.3, γ 2 = 0.2。
9. 根据权利要求2、3、7任一所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:所述符合参数迭代更新思想的算法为随机梯度下降算法和反向传播算法。
10. 根据权利要求1-8任一所述的一种基于自动抽取医疗专家知识的的疾病预测方法,其特征在于:步骤七通过以下过程实现:将待预测的病AP1所对应的低维医疗特征向量ft 送入步骤六得到的神经网络模型中,得到针对IDI种疾病的发病概率向量选取概率值最 高的前η项疾病编码作为病人最可能发生的潜在疾病预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810860468.6A CN109036553B (zh) | 2018-08-01 | 2018-08-01 | 一种基于自动抽取医疗专家知识的疾病预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810860468.6A CN109036553B (zh) | 2018-08-01 | 2018-08-01 | 一种基于自动抽取医疗专家知识的疾病预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109036553A true CN109036553A (zh) | 2018-12-18 |
CN109036553B CN109036553B (zh) | 2022-03-29 |
Family
ID=64648245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810860468.6A Active CN109036553B (zh) | 2018-08-01 | 2018-08-01 | 一种基于自动抽取医疗专家知识的疾病预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109036553B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994211A (zh) * | 2019-04-02 | 2019-07-09 | 莫毓昌 | 一种基于ehr数据的慢性肾脏病恶化风险的建模方法 |
CN110739076A (zh) * | 2019-10-29 | 2020-01-31 | 上海华东电信研究院 | 一种医疗人工智能公共训练平台 |
CN110824142A (zh) * | 2019-11-13 | 2020-02-21 | 杭州鲁尔物联科技有限公司 | 一种地质灾害的预测方法、装置及设备 |
CN113140273A (zh) * | 2021-03-31 | 2021-07-20 | 厦门大学 | 一种基于深度学习的icu患者电子病历分析方法及系统 |
WO2021143780A1 (zh) * | 2020-01-14 | 2021-07-22 | 之江实验室 | 一种基于多标签学习的体检后慢性疾病预后系统 |
CN113345523A (zh) * | 2021-05-28 | 2021-09-03 | 山东师范大学 | 基于图注意力网络的微生物-疾病关联性预测方法及系统 |
WO2021197491A1 (zh) * | 2020-04-03 | 2021-10-07 | 清华大学 | 跨医疗数据源的网络表示学习算法 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN110824142B (zh) * | 2019-11-13 | 2022-06-24 | 杭州鲁尔物联科技有限公司 | 一种地质灾害的预测方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1781097A4 (en) * | 2004-06-15 | 2009-08-26 | Siemens Healthcare Diagnostics | METHODS AND SYSTEMS FOR LIVER DISEASES |
CN103761532A (zh) * | 2014-01-20 | 2014-04-30 | 清华大学 | 基于特征相关隐式编码的标签空间降维方法及系统 |
CN107644678A (zh) * | 2017-10-12 | 2018-01-30 | 中南大学 | 一种基于网络推断算法预测微生物和疾病关系的方法 |
CN107851097A (zh) * | 2015-03-31 | 2018-03-27 | 株式会社Fronteo | 数据分析系统、数据分析方法、数据分析程序及存储介质 |
-
2018
- 2018-08-01 CN CN201810860468.6A patent/CN109036553B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1781097A4 (en) * | 2004-06-15 | 2009-08-26 | Siemens Healthcare Diagnostics | METHODS AND SYSTEMS FOR LIVER DISEASES |
CN103761532A (zh) * | 2014-01-20 | 2014-04-30 | 清华大学 | 基于特征相关隐式编码的标签空间降维方法及系统 |
CN107851097A (zh) * | 2015-03-31 | 2018-03-27 | 株式会社Fronteo | 数据分析系统、数据分析方法、数据分析程序及存储介质 |
CN107644678A (zh) * | 2017-10-12 | 2018-01-30 | 中南大学 | 一种基于网络推断算法预测微生物和疾病关系的方法 |
Non-Patent Citations (1)
Title |
---|
赵霞: "BP 神经网络及其在医学领域的应用", 《医疗卫生装备》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994211A (zh) * | 2019-04-02 | 2019-07-09 | 莫毓昌 | 一种基于ehr数据的慢性肾脏病恶化风险的建模方法 |
CN110739076A (zh) * | 2019-10-29 | 2020-01-31 | 上海华东电信研究院 | 一种医疗人工智能公共训练平台 |
CN110824142A (zh) * | 2019-11-13 | 2020-02-21 | 杭州鲁尔物联科技有限公司 | 一种地质灾害的预测方法、装置及设备 |
CN110824142B (zh) * | 2019-11-13 | 2022-06-24 | 杭州鲁尔物联科技有限公司 | 一种地质灾害的预测方法、装置及设备 |
WO2021143780A1 (zh) * | 2020-01-14 | 2021-07-22 | 之江实验室 | 一种基于多标签学习的体检后慢性疾病预后系统 |
WO2021197491A1 (zh) * | 2020-04-03 | 2021-10-07 | 清华大学 | 跨医疗数据源的网络表示学习算法 |
CN113140273A (zh) * | 2021-03-31 | 2021-07-20 | 厦门大学 | 一种基于深度学习的icu患者电子病历分析方法及系统 |
CN113140273B (zh) * | 2021-03-31 | 2022-05-10 | 厦门大学 | 一种基于深度学习的icu患者电子病历分析方法及系统 |
CN113345523A (zh) * | 2021-05-28 | 2021-09-03 | 山东师范大学 | 基于图注意力网络的微生物-疾病关联性预测方法及系统 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN113990495B (zh) * | 2021-12-27 | 2022-04-29 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109036553B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036553A (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
Hassantabar et al. | Coviddeep: Sars-cov-2/covid-19 test based on wearable medical sensors and efficient neural networks | |
KR20170061222A (ko) | 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치 | |
CN109785928A (zh) | 诊疗方案推荐方法、装置及存储介质 | |
Ambekar et al. | Disease risk prediction by using convolutional neural network | |
CN107145746A (zh) | 一种病情描述的智能分析方法及系统 | |
CN110334843A (zh) | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 | |
Gondara et al. | Recovering loss to followup information using denoising autoencoders | |
Popkes et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
Overweg et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
Pekel Özmen et al. | Diagnosis of diabetes mellitus using artificial neural network and classification and regression tree optimized with genetic algorithm | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
Xao et al. | Fasting blood glucose change prediction model based on medical examination data and data mining techniques | |
Perng et al. | Analysis of the 72-h mortality of emergency room septic patients based on a deep belief network | |
Shaikh | A prototype of Parkinson’s and Primary tumor diseases prediction using data mining techniques | |
Li et al. | Deep learning and improved HMM training algorithm and its analysis in facial expression recognition of sports athletes | |
CN109754854A (zh) | 一种诊断编码和诊断名称匹配的方法和系统 | |
Sun et al. | A general fine-tuned transfer learning model for predicting clinical task acrossing diverse ehrs datasets | |
Lim et al. | Handling non-ignorably missing features in electronic health records data using importance-weighted autoencoders | |
Villmann | Neural networks approaches in medicine-a review of actual developments. | |
Florez et al. | Augmentation techniques for sequential clinical data to improve Deep Learning prediction techniques | |
Liu et al. | A batch normalization autoencoder model for breast cancer multidimensional follow-up data | |
CN112168142B (zh) | 基于daela-lstm神经网络的痛经中医辨证系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |