CN110060749A - 基于sev-sdg-cnn的电子病历智能诊断方法 - Google Patents
基于sev-sdg-cnn的电子病历智能诊断方法 Download PDFInfo
- Publication number
- CN110060749A CN110060749A CN201910284998.5A CN201910284998A CN110060749A CN 110060749 A CN110060749 A CN 110060749A CN 201910284998 A CN201910284998 A CN 201910284998A CN 110060749 A CN110060749 A CN 110060749A
- Authority
- CN
- China
- Prior art keywords
- cnn
- corpus
- shallow semantic
- dictionary
- sdg
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于SEV‑SDG‑CNN的电子病历智能诊断方法,包括:挖掘医疗领域词汇来构建浅层语义词汇词典;基于浅层语义词汇生成文本语料中每一个词的浅层语义向量表达SEV;利用浅层语义词汇词典计算每一条语料的浅层语义预判模式SDG;将SEV和SDG融入传统CNN模型构建中,即在特征表达层将SEV与词嵌入向量进行拼接,在模式输出层将SDG和CNN判别模式进行融合,从而实现改进的SEV‑SDG‑CNN模型。本发明应用在电子病历疾病诊断中,能充分提取专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,并得益于CNN能从大数据中自动挖掘特征的优势,使得电子病历智能诊断方法具有较高的性能。
Description
技术领域
本发明涉及深度学习与电子病历智能诊断领域,特别是涉及一种基于SEV-SDG-CNN的电子病历智能诊断方法。
背景技术
电子病历因保存数据完整、信息多样化而被广大研究者所关注。如何利用急剧增长的电子病历数据支持生物医学研究和临床研究,是医学信息学和转化医学的重要研究内容。实践中医生通过病人的主诉、现病史、既往史、家族史、相关检查等信息对患者进行疾病确诊。但医生的诊断准确性往往取决于个体医学知识和临床经验,不同的医生对同一患者可能存在不同的诊断,特别是低阶医生和偏远地区医生的诊断准确性较低。基于电子医疗病历的疾病诊断属于特定领域文本分类问题。当前,大量的研究侧重在借助大量的专家电子病历记录进行深度学习文本分类,构建病历文本到疾病的映射关系,实现计算机智能预诊,以辅助普通医生的临床决策,提高其医疗水平。然而,专业医学知识在电子病例诊断中起到了关键性作用。因此,充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,将医学先验知识作为浅层语义融合到深度学习模型中,提升电子病历智能诊断效果,具有重要的理论价值和研究意义。
发明内容
本发明提供了一种基于SEV-SDG-CNN(Semantic Embedding Vector-SemanticDecision Guide-Convolutional Neural Network)的电子病历智能诊断方法,其充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,并得益于CNN能够从大数据中自动挖掘特征的优势,使得模型具有更高的分类性能。
本发明解决其技术问题所采用的技术方案是:
一种基于SEV-SDG-CNN的电子病历智能诊断方法,包括以下步骤:
S1:输入电子病例文本语料D,采用结巴分词工具对语料进行分词。
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw;
S3:根据医学领域词汇构建电子病历浅层语义词汇词典Dict。
S31:从以下八个方面来挖掘医学领域词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother;
S32:根据步骤S31的8种词汇来源构建电子病历的浅层语义词典Dict。
S4:基于浅层语义词汇Dict,生成每一个词qi的浅层语义向量表达向量Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,Dother),区别于Lw中每个xi表示一个单独的元素,Sc中每个xi并不表示单个元素而是可能包含多个元素,其元素个数由对应词典规模大小决定。以xopen为例,其对应开源词典Dopen,若词典Dopen的规模为3,则xopen是一个3维的one-hot向量。
S5:将word2vec词向量表达Lw和浅层语义向量表达Sc进行拼接,生成深度学习输入向量[Lw:Sc]。
S6:计算浅层语义预判模式SDG。
S61:利用训练语料D计算出浅层语义词典Dict中每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;
S62:基于步骤S3中得到的浅层语义词典Dict,提取每条语料中的浅层语义词汇;
S63:基于步骤S61得到的浅层语义词汇概率表和步骤S62得到的每条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,即形成浅层语义预判模式(SDG)。
S7:集成SEV和SDG的CNN分类模型构建。
S71:初始化CNN网络;
S72:选取学习样本集D的任一样本(x,y),其中,x代表一条文本语料,y代表其对应的标签。将语料x按照步骤S5构建合成向量[Lw:Sc],输入到CNN分类模型,得到其模式输出ρCNN;
S73:基于步骤S6提出的浅层语义预判模式计算方法,计算出语料x对应的浅层语义预判模式输出ρSDG;
S74:将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;
S75:根据语料x的真实标签y和预测结果y′的差距来指导CNN模型的参数优化;
S76:基于步骤S75中已经训练好的CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明能有效克服现有方法的不足,充分利用专业性极强、知识密度极高的电子病历所蕴含的大量丰富语义信息,并得益于CNN能够从大数据中自动挖掘特征的优势,能更有效地实现电子病历智能诊断,以辅助普通医生的临床决策,提高其医疗水平。
附图说明
图1为本发明SEV-SDG-CNN电子病历智能诊断方法的示意图;
图2为本发明SEV-SDG-CNN电子病历智能诊断方法的代码示意图;
图3为本发明的疾病附录列表图;
图4为7分类数据集的4种模型对应的precision指标对比效果图;
图5为7分类数据集的4种模型对应的accuracy指标对比效果图;
图6为7分类数据集的4种模型对应的F1-score指标对比效果图;
图7为8分类数据集的4种模型对应的precision指标对比效果图;
图8为8分类数据集的4种模型对应的accuracy指标对比效果图;
图9为8分类数据集的4种模型对应的F1-score指标对比效果图;
图10为32分类数据集的4种模型对应的precision指标对比效果图;
图11为32分类数据集的4种模型对应的accuracy指标对比效果图;
图12为32分类数据集的4种模型对应的F1-score指标对比效果图;
图13为63分类数据集的4种模型对应的precision指标对比效果图;
图14为63分类数据集的4种模型对应的accuracy指标对比效果图;
图15为63分类数据集的4种模型对应的F1-score指标对比效果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参见图1和图2所示,本发明的一种基于SEV-SDG-CNN的电子病历智能诊断方法,包括:(1)电子病历浅层语义词汇词典构建;(2)构建浅层语义向量SEV;(3)计算浅层语义预判模式SDG;(4)集成SEV和SDG的CNN模型构建。
以儿科中文电子病历智能诊断方法构建为例,共收集来自某三甲医院144,170条真实有效的电子病历样本,包含63种儿科疾病。考虑到数据集中“急性上呼吸道感染”的样本数占30%以上,为了减轻数据集不平衡分布对预测模型的影响,本发明依次尝试选取样本量排名靠前且差异度较大的前8种疾病和排名前32种疾病,以及去掉“急性上呼吸道感染”留下的7种疾病来构建实验样本集。因此,本发明将对7类、8类、32类以及63种疾病的儿科病历文本数据集分类问题分别进行研究,以探索SEV-SDG-CNN电子病历智能诊断方法模对儿科门诊智能预诊的普适性。儿科中文电子病历具体分布如表1所示。
表1 4种儿科中文电子病历实验数据集分布特性
步骤一:电子病历浅层语义词汇词典Dict构建。
医学领域知识主要来源于临床电子病历系统必备的标准化数据字典—国际统计分类(International Classification of Diseases,ICD),目前该字典已经发展到ICD-10,基于ICD10中国发布国家《GB/T 14396-2016疾病分类与代码》国家标准,它成为国内医疗健康行业遵循的标准。另外,全国高等医药教材建设研究会规划指定教材《儿科学(第7版)》也包含大量的儿科临床医学知识,是儿科疾病诊断的重要依据。故本发明依据上述两个儿科诊断知识来源挖掘医学浅层语义词汇并归纳到Dother中。主要从3个更细方面进行词汇挖掘,依次是:模板词语与专业性词语Dother-model、消化系统类词语Dother-digestive、呼吸系统类词语Dother-respiratory。以这3种词典为基础,构建大小约5000条的儿科诊断领域词汇作为浅层语义词汇词典Dict。
步骤二:构建浅层语义向量SEV
在分词阶段,采用基于浅层语义词汇词典Dict的方式进行分词。
在词嵌入向量生成阶段,本发明采用收集自某三甲医院的144,170条真实有效的电子病历文本语料进行word2vec训练,4种电子病历数据集的词向量嵌入维度分别选择50维、80维、100维和100维。
在浅层语义向量生成阶段,根据儿科诊断浅层语义词汇词典Dother-model、Dother-digestive、Dother-respiratory可以对儿科中文电子病历文本语料的每个词构建浅层语向量Sc=(xother-model,xother-digestive,xother-respiratory)。
步骤三:计算浅层语义预判模式SDG
在浅层语义预判模式生成阶段,利用收集自某三甲医院的144,170条真实有效的电子病历文本语料计算出浅层语义词典Dict中每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表。针对一条目标语料,提取出该条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,即形成浅层语义预判模式(SDG)。
步骤四:集成SEV和SDG的CNN模型构建
在CNN网络构建阶段,本发明采用单层CNN模型以及以下参数组合:卷积核大小为7、特征图数量为128、dropout rate为0.5、激活函数选择Relu、mini-batch size取64、和AdaMax更新规则。在将文本语料输入CNN模型时,需要将其转化成一个矩阵样本,比如转化为一个90*50的矩阵数据,其表示该文本语料包含90个词语,每个词语的向量维度是50维。本发明将文本规则化长度定为120个字。而由于原始数据中不同文本语料长度不同,本并进一步对文本的填充方式和截取方式进行深入研究,以填充方式和截取方式的组合来展示算法有效性的验证。其中,pre指对文本进行头部截取或头部填充,post指对文本进行尾部截取或尾部填充;pre_post指对长文本进行头部截取,对短文本进行尾部填充。
接下来初始化CNN网络;然后选取学习样本集D的任一样本(x,y),将其语料x中每个词分别进行词嵌入向量Lw生成和浅层语义表达向量Sc生成,并拼接成合成向量[Lw:Sc],输入到CNN分类模型,得到其模式输出ρCNN;接下来计算出语料x对应的浅层语义预判模式输出ρsDG;然后将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;最后根据语料x的真实标签y和预测结果y′的差距来指导CNN模型的参数优化;
基于已经训练好的CNN网络,将测试集中的任一被测语料x送入CNN进行前向传播计算,得到其预测类别y′。下面采用precision、accuracy和F1-score3个指标来评价SEV-SDG-CNN模型在中文儿科电子病历智能诊断应用中的性能。为了多方面对比SEV-SDG-CNN算法的性能结果,本发明分别采用基准CNN、SEV-CNN(只有向量拼接,没有预判模态融合)、SDG-CNN(只有预判模态融合,没有向量拼接)和SEV-SDG-CNN算法来运行儿科电子病历四个分类数据集,效果见图4至图15。
本发明针对错综复杂的电子病历领域,挖掘浅层语义词汇,并将电子病历浅层语义集成到CNN神经网络模型中。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (1)
1.一种基于SEV-SDG-CNN的电子病历智能诊断方法,其特征在于,包括以下步骤:
S1:输入电子病例文本语料D,采用结巴分词工具对语料进行分词;
S2:基于步骤S1中得到的词语,利用word2vec工具生成每一个词qi的词向量表达Lw;
S3:根据医学领域词汇构建电子病历浅层语义词汇词典Dict,如下:
S31:从以下八个方面挖掘医学领域词汇:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother;
S32:根据步骤S31的8种词汇来源构建电子病历的浅层语义词典Dict;
S4:基于浅层语义词汇Dict,生成每一个词qi的浅层语义向量Sc=(xopen,xnot,xadv,xnet,xemoticon,xmood,xprofession,xother),区别于Lw中每个xi表示一个单独的元素,Sc中每个xi并不表示单个元素而是包含多个元素,其元素个数由对应词典规模大小决定;
S5:将word2vec词向量表达Lw和浅层语义向量表达Sc进行拼接,生成深度学习输入向量[Lw:Sc];
S6:计算浅层语义预判模式SDG,如下:
S61:利用训练语料D计算出浅层语义词典Dict中每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;
S62:基于步骤S3中得到的浅层语义词典Dict,提取每条语料中的浅层语义词汇;
S63:基于步骤S61得到的浅层语义词汇概率表和步骤S62得到的每条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,形成浅层语义预判模式SDG;
S7:集成SEV和SDG的CNN分类模型构建,如下:
S71:初始化CNN网络;
S72:选取学习样本集D的任一样本(xx,y),其中,x代表一条文本语料,y代表其对应的标签;将语料x按照步骤S5构建合成向量[Lw:Sc],输入到CNN分类模型,得到其模式输出ρCNN;
S73:基于步骤S6提出的浅层语义预判模式计算方法,计算出语料x对应的浅层语义预判模式输出ρSDG;
S74:将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;
S75:根据语料x的真实标签y和预测结果y′的差距来对CNN模型进行参数优化;
S76:基于步骤S75中已经训练好的CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284998.5A CN110060749B (zh) | 2019-04-10 | 2019-04-10 | 基于sev-sdg-cnn的电子病历智能诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284998.5A CN110060749B (zh) | 2019-04-10 | 2019-04-10 | 基于sev-sdg-cnn的电子病历智能诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110060749A true CN110060749A (zh) | 2019-07-26 |
CN110060749B CN110060749B (zh) | 2022-07-01 |
Family
ID=67317517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284998.5A Active CN110060749B (zh) | 2019-04-10 | 2019-04-10 | 基于sev-sdg-cnn的电子病历智能诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060749B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859938A (zh) * | 2020-07-22 | 2020-10-30 | 大连理工大学 | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 |
CN114781373A (zh) * | 2022-04-29 | 2022-07-22 | 华侨大学 | 一种基于知识约束的mct完形填空智能出题方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN109299239A (zh) * | 2018-09-29 | 2019-02-01 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
JP2019020893A (ja) * | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
-
2019
- 2019-04-10 CN CN201910284998.5A patent/CN110060749B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
JP2019020893A (ja) * | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN109299239A (zh) * | 2018-09-29 | 2019-02-01 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
Non-Patent Citations (1)
Title |
---|
李昊迪: "医学领域知识抽取方法研究", 《中国优秀博士学位论文全文数据库 信息科技辑》, no. 01, 15 January 2019 (2019-01-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859938A (zh) * | 2020-07-22 | 2020-10-30 | 大连理工大学 | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 |
CN114781373A (zh) * | 2022-04-29 | 2022-07-22 | 华侨大学 | 一种基于知识约束的mct完形填空智能出题方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110060749B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708874B (zh) | 基于复杂意图智能识别的人机交互问答方法与系统 | |
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN110377755A (zh) | 基于药品说明书的合理用药知识图谱构建方法 | |
CN110032648A (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
Li et al. | Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks | |
CN110459287A (zh) | 来自医学文本报告的结构化报告数据 | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN110020671B (zh) | 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法 | |
CN110032739A (zh) | 中文电子病历命名实体抽取方法及系统 | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN109994216A (zh) | 一种基于机器学习的icd智能诊断编码方法 | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
CN110428907A (zh) | 一种基于非结构化电子病历的文本挖掘方法及系统 | |
CN109918672A (zh) | 一种基于树结构的甲状腺超声报告的结构化处理方法 | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
CN112635071B (zh) | 融合中西医知识的糖尿病知识图谱构建方法 | |
CN114330267A (zh) | 一种基于语义学关联的结构化报告模板的设计方法 | |
CN110060749A (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
Mehler et al. | The Frankfurt Latin Lexicon: From morphological expansion and word embeddings to semiographs | |
Soualmia et al. | Combining different standards and different approaches for health information retrieval in a quality-controlled gateway |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |