CN110060749A

CN110060749A - 基于sev-sdg-cnn的电子病历智能诊断方法

Info

Publication number: CN110060749A
Application number: CN201910284998.5A
Authority: CN
Inventors: 王华珍; 李小整; 何霆; 吴谨准
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-26
Anticipated expiration: 2039-04-10
Also published as: CN110060749B

Abstract

本发明公开了一种基于SEV‑SDG‑CNN的电子病历智能诊断方法，包括：挖掘医疗领域词汇来构建浅层语义词汇词典；基于浅层语义词汇生成文本语料中每一个词的浅层语义向量表达SEV；利用浅层语义词汇词典计算每一条语料的浅层语义预判模式SDG；将SEV和SDG融入传统CNN模型构建中，即在特征表达层将SEV与词嵌入向量进行拼接，在模式输出层将SDG和CNN判别模式进行融合，从而实现改进的SEV‑SDG‑CNN模型。本发明应用在电子病历疾病诊断中，能充分提取专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息，并得益于CNN能从大数据中自动挖掘特征的优势，使得电子病历智能诊断方法具有较高的性能。

Description

基于SEV-SDG-CNN的电子病历智能诊断方法

技术领域

本发明涉及深度学习与电子病历智能诊断领域，特别是涉及一种基于SEV-SDG-CNN的电子病历智能诊断方法。

背景技术

电子病历因保存数据完整、信息多样化而被广大研究者所关注。如何利用急剧增长的电子病历数据支持生物医学研究和临床研究，是医学信息学和转化医学的重要研究内容。实践中医生通过病人的主诉、现病史、既往史、家族史、相关检查等信息对患者进行疾病确诊。但医生的诊断准确性往往取决于个体医学知识和临床经验，不同的医生对同一患者可能存在不同的诊断，特别是低阶医生和偏远地区医生的诊断准确性较低。基于电子医疗病历的疾病诊断属于特定领域文本分类问题。当前，大量的研究侧重在借助大量的专家电子病历记录进行深度学习文本分类，构建病历文本到疾病的映射关系，实现计算机智能预诊，以辅助普通医生的临床决策，提高其医疗水平。然而，专业医学知识在电子病例诊断中起到了关键性作用。因此，充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息，将医学先验知识作为浅层语义融合到深度学习模型中，提升电子病历智能诊断效果，具有重要的理论价值和研究意义。

发明内容

本发明提供了一种基于SEV-SDG-CNN(Semantic Embedding Vector-SemanticDecision Guide-Convolutional Neural Network)的电子病历智能诊断方法，其充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息，并得益于CNN能够从大数据中自动挖掘特征的优势，使得模型具有更高的分类性能。

本发明解决其技术问题所采用的技术方案是：

一种基于SEV-SDG-CNN的电子病历智能诊断方法，包括以下步骤：

S1：输入电子病例文本语料D，采用结巴分词工具对语料进行分词。

S2：基于步骤S1中得到的词语，利用word2vec工具生成每一个词q_i的词向量表达L_w；

S3：根据医学领域词汇构建电子病历浅层语义词汇词典Dict。

S31：从以下八个方面来挖掘医学领域词汇从而构建浅层语义词典：(1)开源词典D_open；(2)否定副词词典D_not；(3)程度副词词典D_adv；(4)网络词典D_net；(5)符号词典D_emoticon；(6)语气词词典D_mood；(7)领域词典D_profession；(8)其他包括手工构建的词典D_other；

S32：根据步骤S31的8种词汇来源构建电子病历的浅层语义词典Dict。

S4：基于浅层语义词汇Dict，生成每一个词q_i的浅层语义向量表达向量S_c＝(x_open,x_not,x_adv,x_net,x_emoticon,x_mood,x_profession,D_other)，区别于L_w中每个x_i表示一个单独的元素，S_c中每个x_i并不表示单个元素而是可能包含多个元素，其元素个数由对应词典规模大小决定。以x_open为例，其对应开源词典D_open，若词典D_open的规模为3，则x_open是一个3维的one-hot向量。

S5：将word2vec词向量表达L_w和浅层语义向量表达S_c进行拼接，生成深度学习输入向量[L_w:S_c]。

S6：计算浅层语义预判模式SDG。

S61：利用训练语料D计算出浅层语义词典Dict中每个浅层语义词汇属于每个类别的概率，形成浅层语义词汇概率表；

S62：基于步骤S3中得到的浅层语义词典Dict，提取每条语料中的浅层语义词汇；

S63：基于步骤S61得到的浅层语义词汇概率表和步骤S62得到的每条语料中的浅层语义词汇，利用求和归一化的方式计算出这条语料的预判概率，即形成浅层语义预判模式(SDG)。

S7：集成SEV和SDG的CNN分类模型构建。

S71：初始化CNN网络；

S72：选取学习样本集D的任一样本(x,y)，其中，x代表一条文本语料，y代表其对应的标签。将语料x按照步骤S5构建合成向量[L_w:S_c]，输入到CNN分类模型，得到其模式输出ρ_CNN；

S73：基于步骤S6提出的浅层语义预判模式计算方法，计算出语料x对应的浅层语义预判模式输出ρ_SDG；

S74：将ρ_CNN和ρ_SDG进行相加并归一化作为形成决策模式，进而输出针对语料x的预测结果y′；

S75：根据语料x的真实标签y和预测结果y′的差距来指导CNN模型的参数优化；

S76：基于步骤S75中已经训练好的CNN网络，将一条被测语料x送入CNN进行前向传播计算，得到其预测类别y′。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明能有效克服现有方法的不足，充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息，并得益于CNN能够从大数据中自动挖掘特征的优势，能更有效地实现电子病历智能诊断，以辅助普通医生的临床决策，提高其医疗水平。

附图说明

图1为本发明SEV-SDG-CNN电子病历智能诊断方法的示意图；

图2为本发明SEV-SDG-CNN电子病历智能诊断方法的代码示意图；

图3为本发明的疾病附录列表图；

图4为7分类数据集的4种模型对应的precision指标对比效果图；

图5为7分类数据集的4种模型对应的accuracy指标对比效果图；

图6为7分类数据集的4种模型对应的F1-score指标对比效果图；

图7为8分类数据集的4种模型对应的precision指标对比效果图；

图8为8分类数据集的4种模型对应的accuracy指标对比效果图；

图9为8分类数据集的4种模型对应的F1-score指标对比效果图；

图10为32分类数据集的4种模型对应的precision指标对比效果图；

图11为32分类数据集的4种模型对应的accuracy指标对比效果图；

图12为32分类数据集的4种模型对应的F1-score指标对比效果图；

图13为63分类数据集的4种模型对应的precision指标对比效果图；

图14为63分类数据集的4种模型对应的accuracy指标对比效果图；

图15为63分类数据集的4种模型对应的F1-score指标对比效果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

参见图1和图2所示，本发明的一种基于SEV-SDG-CNN的电子病历智能诊断方法，包括：(1)电子病历浅层语义词汇词典构建；(2)构建浅层语义向量SEV；(3)计算浅层语义预判模式SDG；(4)集成SEV和SDG的CNN模型构建。

以儿科中文电子病历智能诊断方法构建为例，共收集来自某三甲医院144,170条真实有效的电子病历样本，包含63种儿科疾病。考虑到数据集中“急性上呼吸道感染”的样本数占30％以上，为了减轻数据集不平衡分布对预测模型的影响，本发明依次尝试选取样本量排名靠前且差异度较大的前8种疾病和排名前32种疾病，以及去掉“急性上呼吸道感染”留下的7种疾病来构建实验样本集。因此，本发明将对7类、8类、32类以及63种疾病的儿科病历文本数据集分类问题分别进行研究，以探索SEV-SDG-CNN电子病历智能诊断方法模对儿科门诊智能预诊的普适性。儿科中文电子病历具体分布如表1所示。

表1 4种儿科中文电子病历实验数据集分布特性

步骤一：电子病历浅层语义词汇词典Dict构建。

医学领域知识主要来源于临床电子病历系统必备的标准化数据字典—国际统计分类(International Classification of Diseases，ICD)，目前该字典已经发展到ICD-10，基于ICD10中国发布国家《GB/T 14396-2016疾病分类与代码》国家标准，它成为国内医疗健康行业遵循的标准。另外，全国高等医药教材建设研究会规划指定教材《儿科学(第7版)》也包含大量的儿科临床医学知识，是儿科疾病诊断的重要依据。故本发明依据上述两个儿科诊断知识来源挖掘医学浅层语义词汇并归纳到D_other中。主要从3个更细方面进行词汇挖掘，依次是：模板词语与专业性词语D_other-model、消化系统类词语D_{other-digestive}、呼吸系统类词语D_{other-respiratory}。以这3种词典为基础，构建大小约5000条的儿科诊断领域词汇作为浅层语义词汇词典Dict。

步骤二：构建浅层语义向量SEV

在分词阶段，采用基于浅层语义词汇词典Dict的方式进行分词。

在词嵌入向量生成阶段，本发明采用收集自某三甲医院的144,170条真实有效的电子病历文本语料进行word2vec训练，4种电子病历数据集的词向量嵌入维度分别选择50维、80维、100维和100维。

在浅层语义向量生成阶段，根据儿科诊断浅层语义词汇词典D_other-model、D_{other-digestive}、D_{other-respiratory}可以对儿科中文电子病历文本语料的每个词构建浅层语向量S_c＝(x_other-model,x_{other-digestive},x_{other-respiratory})。

步骤三：计算浅层语义预判模式SDG

在浅层语义预判模式生成阶段，利用收集自某三甲医院的144,170条真实有效的电子病历文本语料计算出浅层语义词典Dict中每个浅层语义词汇属于每个类别的概率，形成浅层语义词汇概率表。针对一条目标语料，提取出该条语料中的浅层语义词汇，利用求和归一化的方式计算出这条语料的预判概率，即形成浅层语义预判模式(SDG)。

步骤四：集成SEV和SDG的CNN模型构建

在CNN网络构建阶段，本发明采用单层CNN模型以及以下参数组合：卷积核大小为7、特征图数量为128、dropout rate为0.5、激活函数选择Relu、mini-batch size取64、和AdaMax更新规则。在将文本语料输入CNN模型时，需要将其转化成一个矩阵样本，比如转化为一个90*50的矩阵数据，其表示该文本语料包含90个词语，每个词语的向量维度是50维。本发明将文本规则化长度定为120个字。而由于原始数据中不同文本语料长度不同，本并进一步对文本的填充方式和截取方式进行深入研究，以填充方式和截取方式的组合来展示算法有效性的验证。其中，pre指对文本进行头部截取或头部填充，post指对文本进行尾部截取或尾部填充；pre_post指对长文本进行头部截取，对短文本进行尾部填充。

接下来初始化CNN网络；然后选取学习样本集D的任一样本(x,y)，将其语料x中每个词分别进行词嵌入向量L_w生成和浅层语义表达向量S_c生成，并拼接成合成向量[L_w:S_c]，输入到CNN分类模型，得到其模式输出ρ_CNN；接下来计算出语料x对应的浅层语义预判模式输出ρ_sDG；然后将ρ_CNN和ρ_SDG进行相加并归一化作为形成决策模式，进而输出针对语料x的预测结果y′；最后根据语料x的真实标签y和预测结果y′的差距来指导CNN模型的参数优化；

基于已经训练好的CNN网络，将测试集中的任一被测语料x送入CNN进行前向传播计算，得到其预测类别y′。下面采用precision、accuracy和F1-score3个指标来评价SEV-SDG-CNN模型在中文儿科电子病历智能诊断应用中的性能。为了多方面对比SEV-SDG-CNN算法的性能结果，本发明分别采用基准CNN、SEV-CNN(只有向量拼接，没有预判模态融合)、SDG-CNN(只有预判模态融合，没有向量拼接)和SEV-SDG-CNN算法来运行儿科电子病历四个分类数据集，效果见图4至图15。

本发明针对错综复杂的电子病历领域，挖掘浅层语义词汇，并将电子病历浅层语义集成到CNN神经网络模型中。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于SEV-SDG-CNN的电子病历智能诊断方法，其特征在于，包括以下步骤：

S1：输入电子病例文本语料D，采用结巴分词工具对语料进行分词；

S3：根据医学领域词汇构建电子病历浅层语义词汇词典Dict，如下：

S31：从以下八个方面挖掘医学领域词汇：(1)开源词典D_open；(2)否定副词词典D_not；(3)程度副词词典D_adv；(4)网络词典D_net；(5)符号词典D_emoticon；(6)语气词词典D_mood；(7)领域词典D_profession；(8)其他包括手工构建的词典D_other；

S32：根据步骤S31的8种词汇来源构建电子病历的浅层语义词典Dict；

S4：基于浅层语义词汇Dict，生成每一个词q_i的浅层语义向量S_c＝(x_open，x_not，x_adv，x_net，x_emoticon，x_mood，x_profession，x_other)，区别于L_w中每个x_i表示一个单独的元素，S_c中每个x_i并不表示单个元素而是包含多个元素，其元素个数由对应词典规模大小决定；

S5：将word2vec词向量表达L_w和浅层语义向量表达S_c进行拼接，生成深度学习输入向量[L_w：S_c]；

S6：计算浅层语义预判模式SDG，如下：

S63：基于步骤S61得到的浅层语义词汇概率表和步骤S62得到的每条语料中的浅层语义词汇，利用求和归一化的方式计算出这条语料的预判概率，形成浅层语义预判模式SDG；

S7：集成SEV和SDG的CNN分类模型构建，如下：

S71：初始化CNN网络；

S72：选取学习样本集D的任一样本(xx，y)，其中，x代表一条文本语料，y代表其对应的标签；将语料x按照步骤S5构建合成向量[L_w：S_c]，输入到CNN分类模型，得到其模式输出ρ_CNN；

S75：根据语料x的真实标签y和预测结果y′的差距来对CNN模型进行参数优化；