CN110060749B - 基于sev-sdg-cnn的电子病历智能诊断方法 - Google Patents

基于sev-sdg-cnn的电子病历智能诊断方法 Download PDF

Info

Publication number
CN110060749B
CN110060749B CN201910284998.5A CN201910284998A CN110060749B CN 110060749 B CN110060749 B CN 110060749B CN 201910284998 A CN201910284998 A CN 201910284998A CN 110060749 B CN110060749 B CN 110060749B
Authority
CN
China
Prior art keywords
shallow semantic
cnn
corpus
sdg
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910284998.5A
Other languages
English (en)
Other versions
CN110060749A (zh
Inventor
王华珍
李小整
何霆
吴谨准
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910284998.5A priority Critical patent/CN110060749B/zh
Publication of CN110060749A publication Critical patent/CN110060749A/zh
Application granted granted Critical
Publication of CN110060749B publication Critical patent/CN110060749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

本发明公开了一种基于SEV‑SDG‑CNN的电子病历智能诊断方法,包括:挖掘医疗领域词汇来构建浅层语义词汇词典;基于浅层语义词汇生成文本语料中每一个词的浅层语义向量表达SEV;利用浅层语义词汇词典计算每一条语料的浅层语义预判模式SDG;将SEV和SDG融入传统CNN分类模型构建中,即在特征表达层将SEV与词嵌入向量进行拼接,在模式输出层将SDG和CNN判别模式进行融合,从而实现改进的SEV‑SDG‑CNN分类模型。本发明应用在电子病历疾病诊断中,能充分提取专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,并得益于CNN能从大数据中自动挖掘特征的优势,使得电子病历智能诊断方法具有较高的性能。

Description

基于SEV-SDG-CNN的电子病历智能诊断方法
技术领域
本发明涉及深度学习与电子病历智能诊断领域,特别是涉及一种基于SEV-SDG-CNN的电子病历智能诊断方法。
背景技术
电子病历因保存数据完整、信息多样化而被广大研究者所关注。如何利用急剧增长的电子病历数据支持生物医学研究和临床研究,是医学信息学和转化医学的重要研究内容。实践中医生通过病人的主诉、现病史、既往史、家族史、相关检查等信息对患者进行疾病确诊。但医生的诊断准确性往往取决于个体医学知识和临床经验,不同的医生对同一患者可能存在不同的诊断,特别是低阶医生和偏远地区医生的诊断准确性较低。基于电子医疗病历的疾病诊断属于特定领域文本分类问题。当前,大量的研究侧重在借助大量的专家电子病历记录进行深度学习文本分类,构建病历文本到疾病的映射关系,实现计算机智能预诊,以辅助普通医生的临床决策,提高其医疗水平。然而,专业医学知识在电子病例诊断中起到了关键性作用。因此,充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,将医学先验知识作为浅层语义融合到深度学习模型中,提升电子病历智能诊断效果,具有重要的理论价值和研究意义。
发明内容
本发明提供了一种基于SEV-SDG-CNN(Semantic Embedding Vector-SemanticDecision Guide-Convolutional Neural Network)的电子病历智能诊断方法,其充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,并得益于CNN能够从大数据中自动挖掘特征的优势,使得模型具有更高的分类性能。
本发明解决其技术问题所采用的技术方案是:
一种基于SEV-SDG-CNN的电子病历智能诊断方法,包括以下步骤:
S1:输入电子病例文本语料D,采用结巴分词工具对语料进行分词。
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw
S3:根据医学领域词汇构建电子病历浅层语义词汇词典Dict。
S31:从以下八个方面来挖掘医学领域词汇从而构建电子病历浅层语义词汇词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother
S32:根据步骤S31的8种词汇来源构建电子病历浅层语义词汇词典Dict。
基于如下S4和S5构建浅层语义向量SEV:
S4:基于电子病历浅层语义词汇词典Dict,生成每一个词qi的浅层语义向量表达Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,Dother),浅层语义向量表达Sc中每个xi并不表示单个元素而是可能包含多个元素,其元素个数由对应词典规模大小决定。以xopen为例,其对应开源词典Dopen,若词典Dopen的规模为3,则xopen是一个3维的one-hot向量。
S5:将词向量表达Lw和浅层语义向量表达Sc进行拼接,生成深度学习输入向量[Lw:Sc]。
S6:计算浅层语义预判模式SDG。
S61:利用电子病例文本语料D计算出电子病历浅层语义词汇词典Dict中每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;
S62:基于步骤S3中得到的电子病历浅层语义词汇词典Dict,提取每条语料中的浅层语义词汇;
S63:基于步骤S61得到的浅层语义词汇概率表和步骤S62得到的每条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,即形成浅层语义预判模式(SDG)。
S7:集成SEV和SDG的CNN分类模型构建。
S71:初始化CNN分类模型;
S72:选取电子病例文本语料D的任一样本(x,y),其中,x代表一条语料,y代表其对应的真实标签。将语料x按照步骤S5构建深度学习输入向量[Lw:Sc],输入到CNN分类模型,得到其模式输出ρCNN
S73:基于步骤S6提出的浅层语义预判模式计算方法,计算出语料x对应的浅层语义预判模式输出ρSDG
S74:将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;
S75:根据语料x的真实标签y和预测结果y′的差距来指导CNN分类模型的参数优化;
S76:基于步骤S75中已经训练好的CNN分类模型,将一条语料x送入CNN分类模型进行前向传播计算,得到其预测结果y′。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明能有效克服现有方法的不足,充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,并得益于CNN能够从大数据中自动挖掘特征的优势,能更有效地实现电子病历智能诊断,以辅助普通医生的临床决策,提高其医疗水平。
附图说明
图1为本发明SEV-SDG-CNN电子病历智能诊断方法的示意图;
图2为本发明SEV-SDG-CNN电子病历智能诊断方法的代码示意图;
图3为本发明的疾病附录列表图;
图4为7分类数据集的4种模型对应的precision指标对比效果图;
图5为7分类数据集的4种模型对应的accuracy指标对比效果图;
图6为7分类数据集的4种模型对应的F1-score指标对比效果图;
图7为8分类数据集的4种模型对应的precision指标对比效果图;
图8为8分类数据集的4种模型对应的accuracy指标对比效果图;
图9为8分类数据集的4种模型对应的F1-score指标对比效果图;
图10为32分类数据集的4种模型对应的precision指标对比效果图;
图11为32分类数据集的4种模型对应的accuracy指标对比效果图;
图12为32分类数据集的4种模型对应的F1-score指标对比效果图;
图13为63分类数据集的4种模型对应的precision指标对比效果图;
图14为63分类数据集的4种模型对应的accuracy指标对比效果图;
图15为63分类数据集的4种模型对应的F1-score指标对比效果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参见图1和图2所示,本发明的一种基于SEV-SDG-CNN的电子病历智能诊断方法,包括:(1)电子病历浅层语义词汇词典构建;(2)构建浅层语义向量SEV;(3)计算浅层语义预判模式SDG;(4)集成SEV和SDG的CNN分类模型构建。
以儿科中文电子病历智能诊断方法构建为例,共收集来自某三甲医院144,170条真实有效的电子病历样本,包含63种儿科疾病。考虑到数据集中“急性上呼吸道感染”的样本数占30%以上,为了减轻数据集不平衡分布对预测模型的影响,本发明依次尝试选取样本量排名靠前且差异度较大的前8种疾病和排名前32种疾病,以及去掉“急性上呼吸道感染”留下的7种疾病来构建实验样本集。因此,本发明将对7类、8类、32类以及63种疾病的儿科病历文本数据集分类问题分别进行研究,以探索SEV-SDG-CNN电子病历智能诊断方法模对儿科门诊智能预诊的普适性。儿科中文电子病历具体分布如表1所示。
表1 4种儿科中文电子病历实验数据集分布特性
Figure GDA0003601281230000041
步骤一:电子病历浅层语义词汇词典Dict构建。
医学领域知识主要来源于临床电子病历系统必备的标准化数据字典—国际统计分类(International Classification of Diseases,ICD),目前该字典已经发展到ICD-10,基于ICD10中国发布国家《GB/T 14396-2016疾病分类与代码》国家标准,它成为国内医疗健康行业遵循的标准。另外,全国高等医药教材建设研究会规划指定教材《儿科学(第7版)》也包含大量的儿科临床医学知识,是儿科疾病诊断的重要依据。故本发明依据上述两个儿科诊断知识来源挖掘医学浅层语义词汇并归纳到Dother中。主要从3个更细方面进行词汇挖掘,依次是:模板词语与专业性词语Dother-model、消化系统类词语Dother-digestive、呼吸系统类词语Dother-respiratory。以这3种词典为基础,构建大小约5000条的儿科诊断领域词汇作为浅层语义词汇词典Dict。
步骤二:构建浅层语义向量SEV
在分词阶段,采用基于浅层语义词汇词典Dict的方式进行分词。
在词嵌入向量生成阶段,本发明采用收集自某三甲医院的144,170条真实有效的电子病历文本语料进行word2vec训练,4种电子病历数据集的词向量嵌入维度分别选择50维、80维、100维和100维。
在浅层语义向量生成阶段,根据儿科诊断浅层语义词汇词典Dother-model、Dother-digestive、Dother-respiratory可以对儿科中文电子病历文本语料的每个词构建浅层语义向量表达Sc=(xother-model,xother-digestive,xother-respiratory)。
步骤三:计算浅层语义预判模式SDG
在浅层语义预判模式生成阶段,利用收集自某三甲医院的144,170条真实有效的电子病历文本语料计算出电子病历浅层语义词汇词典Dict中每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表。针对一条目标语料,提取出该条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,即形成浅层语义预判模式(SDG)。
步骤四:集成SEV和SDG的CNN分类模型构建
在CNN分类模型构建阶段,本发明采用单层CNN分类模型以及以下参数组合:卷积核大小为7、特征图数量为128、dropout rate为0.5、激活函数选择Relu、mini-batch size取64、和AdaMax更新规则。在将文本语料输入CNN分类模型时,需要将其转化成一个矩阵样本,比如转化为一个90*50的矩阵数据,其表示该文本语料包含90个词语,每个词语的向量维度是50维。本发明将文本规则化长度定为120个字。而由于原始数据中不同文本语料长度不同,本并进一步对文本的填充方式和截取方式进行深入研究,以填充方式和截取方式的组合来展示算法有效性的验证。其中,pre指对文本进行头部截取或头部填充,post指对文本进行尾部截取或尾部填充;pre_post指对长文本进行头部截取,对短文本进行尾部填充。
接下来初始化CNN分类模型;然后选取电子病例文本语料D的任一样本(x,y),将其语料x中每个词分别进行词嵌入向量Lw生成和浅层语义向量表达Sc生成,并拼接成深度学习输入向量[Lw:Sc],输入到CNN分类模型,得到其模式输出ρCNN;接下来计算出语料x对应的浅层语义预判模式输出ρSDG;然后将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;最后根据语料x的真实标签y和预测结果y′的差距来指导CNN分类模型的参数优化;
基于已经训练好的CNN分类模型,将测试集中的任一被测语料x送入CNN分类模型进行前向传播计算,得到其预测结果y′。下面采用precision、accuracy和F1-score3个指标来评价SEV-SDG-CNN分类模型在中文儿科电子病历智能诊断应用中的性能。为了多方面对比SEV-SDG-CNN算法的性能结果,本发明分别采用基准CNN、SEV-CNN(只有向量拼接,没有预判模态融合)、SDG-CNN(只有预判模态融合,没有向量拼接)和SEV-SDG-CNN算法来运行儿科电子病历四个分类数据集,效果见图4至图15。
本发明针对错综复杂的电子病历领域,挖掘浅层语义词汇,并将电子病历浅层语义集成到CNN神经网络模型中。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (1)

1.一种基于SEV-SDG-CNN的电子病历智能诊断方法,其特征在于,包括以下步骤:
S1:输入电子病例文本语料D,采用结巴分词工具对语料进行分词;
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw
S3:根据医学领域词汇构建电子病历浅层语义词汇词典Dict,如下:
S31:从以下八个方面挖掘医学领域词汇:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother
S32:根据步骤S31的8种词汇来源构建电子病历浅层语义词汇词典Dict;
基于如下S4和S5构建浅层语义向量SEV:
S4:基于电子病历浅层语义词汇词典Dict,生成每一个词qi的浅层语义向量表达Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,xother),浅层语义向量表达Sc中每个xi并不表示单个元素而是包含多个元素,其元素个数由对应词典规模大小决定;
S5:将词向量表达Lw和浅层语义向量表达Sc进行拼接,生成深度学习输入向量[Lw:Sc];
S6:计算浅层语义预判模式SDG,如下:
S61:利用电子病例文本语料D计算出电子病历浅层语义词汇词典Dict中每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;
S62:基于步骤S3中得到的电子病历浅层语义词汇词典Dict,提取每条语料中的浅层语义词汇;
S63:基于步骤S61得到的浅层语义词汇概率表和步骤S62得到的每条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,形成浅层语义预判模式SDG;
S7:集成SEV和SDG的CNN分类模型构建,如下:
S71:初始化CNN分类模型;
S72:选取电子病例文本语料D的任一样本(x,y),其中,x代表一条语料,y代表其对应的真实标签;将语料x按照步骤S5构建深度学习输入向量[Lw:Sc],输入到CNN分类模型,得到其模式输出ρCNN
S73:基于步骤S6提出的浅层语义预判模式计算方法,计算出语料x对应的浅层语义预判模式输出ρSDG
S74:将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;
S75:根据语料x的真实标签y和预测结果y′的差距来对CNN分类模型进行参数优化;
S76:基于步骤S75中已经训练好的CNN分类模型,将一条语料x送入CNN分类模型进行前向传播计算,得到其预测结果y′。
CN201910284998.5A 2019-04-10 2019-04-10 基于sev-sdg-cnn的电子病历智能诊断方法 Active CN110060749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910284998.5A CN110060749B (zh) 2019-04-10 2019-04-10 基于sev-sdg-cnn的电子病历智能诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910284998.5A CN110060749B (zh) 2019-04-10 2019-04-10 基于sev-sdg-cnn的电子病历智能诊断方法

Publications (2)

Publication Number Publication Date
CN110060749A CN110060749A (zh) 2019-07-26
CN110060749B true CN110060749B (zh) 2022-07-01

Family

ID=67317517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910284998.5A Active CN110060749B (zh) 2019-04-10 2019-04-10 基于sev-sdg-cnn的电子病历智能诊断方法

Country Status (1)

Country Link
CN (1) CN110060749B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859938B (zh) * 2020-07-22 2022-10-21 大连理工大学 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
CN114781373A (zh) * 2022-04-29 2022-07-22 华侨大学 一种基于知识约束的mct完形填空智能出题方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107832458A (zh) * 2017-11-27 2018-03-23 中山大学 一种字符级的基于嵌套深度网络的文本分类方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
JP2019020893A (ja) * 2017-07-13 2019-02-07 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
JP2019020893A (ja) * 2017-07-13 2019-02-07 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN107832458A (zh) * 2017-11-27 2018-03-23 中山大学 一种字符级的基于嵌套深度网络的文本分类方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昊迪.医学领域知识抽取方法研究.《中国优秀博士学位论文全文数据库 信息科技辑》.2019,(第01期),全文. *

Also Published As

Publication number Publication date
CN110060749A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN107705839B (zh) 疾病自动编码方法及系统
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
US20200311343A1 (en) Methods and apparatus for extracting facts from a medical text
CN110162779B (zh) 病历质量的评估方法、装置及设备
US9129013B2 (en) Methods and apparatus for entity detection
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
US20220044812A1 (en) Automated generation of structured patient data record
US9135571B2 (en) Methods and apparatus for entity detection
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
JP7068106B2 (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
WO2021046536A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN111627512A (zh) 一种相似病历的推荐方法、装置,电子设备及存储介质
CN113486667A (zh) 一种基于实体类型信息的医疗实体关系联合抽取方法
CN114996388A (zh) 一种诊断名称标准化的智能匹配方法及系统
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN117542467B (zh) 基于患者数据的专病标准数据库自动构建方法
CN112655047A (zh) 对医学记录分类的方法
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
US20230298589A1 (en) Ai platform for processing speech and video information collected during a medical procedure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant