CN112542223A - 一种从中文电子病历构建医疗知识图谱的半监督学习方法 - Google Patents

一种从中文电子病历构建医疗知识图谱的半监督学习方法 Download PDF

Info

Publication number
CN112542223A
CN112542223A CN202011517866.1A CN202011517866A CN112542223A CN 112542223 A CN112542223 A CN 112542223A CN 202011517866 A CN202011517866 A CN 202011517866A CN 112542223 A CN112542223 A CN 112542223A
Authority
CN
China
Prior art keywords
medical
knowledge
electronic medical
chinese electronic
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011517866.1A
Other languages
English (en)
Inventor
杨春明
郭鑫
张晖
李波
赵旭剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202011517866.1A priority Critical patent/CN112542223A/zh
Publication of CN112542223A publication Critical patent/CN112542223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及中文电子病历处理技术领域,公开了一种从中文电子病历构建医学知识图谱的半监督学习方法。该方法是一种端到端的方法,首先获取中文电子病历原始语料,进行数据预处理、知识描述体系设计和人工标记实体关系等操作,整理相关医学术语构建中文医学分词词典;然后结合机器学习算法和深度神经网络完成知识提取工作,同时结合半监督学习方法逐步扩展中文电子病历标记数据集,将抽取出的所有知识三元组存入Neo4j数据库,构建出医疗知识图谱。本发明提供的方法提供了一种中文电子病历标注语料,并可以准确的识别出病历中的医疗知识。

Description

一种从中文电子病历构建医疗知识图谱的半监督学习方法
技术领域
本发明涉及中文电子病历处理技术领域,尤其涉及一种从中文电子病历构建医学知识图谱的半监督学习方法。
背景技术
知识图谱(Knowledge Graph)的本质上是一种语文网络,其结点代表实体(entity),连线代表实体之间的各种语义关系(relation),能够将零散的知识相互连接.从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识系统。随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledge Graph),百度“知心”等。医疗领域的知识图谱构建是目前的一大研究热点。电子病历(Electronic MedicalRecords,EMRs)是指医务人员在医疗活动期间使用电子医疗系统生成的数字化信息。相比于国外英文电子病历领域的大量研究,国内对于中文电子病历的研究工作仍处于起步阶段。中文电子病历是一种宝贵的中文医学资源,包含大量有价值的医疗知识和患者健康信息,但同时中文电子病历也是一种非结构化信息,这为在其之上的医学研究制造了障碍。医疗知识图谱将病历中的医学知识以结构化的方式进行存储、管理、传输和重现,可以帮助建立临床辅助决策系统、个性化健康模型和智能医疗问答等,对于推动智慧医疗的发展具有重要意义。
目前,国内中文电子病历的医学知识图谱主要存在以下难题:
1、由于包含患者敏感信息,且医疗实体和实体关系的标注依赖领域知识,目前国内缺少高质量、大规模的中文电子病历标注语料。
2、中文电子病历包含大量专业医学词汇和特殊字符,且中文的词与词之间没有明显界限,导致句子特征非常复杂、难以提取,现有的技术无法准确地识别出病历中的医疗知识。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种从中文电子病历构建医疗知识图谱的方法,本方法通过数据预处理、知识提取和知识存储三个阶段,将医疗知识从中文电子病历中提取出来并存储,构建成医疗知识图谱。
本发明采用的技术方案如下:
一种从中文电子病历构建医疗知识图谱的半监督学习方法,包括:
步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;
步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;
步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。
其中,步骤S1具体包括:
步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;
步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;
步骤S13:在专业医务人员的指导下,对不同来源的病历进行医疗实体标记的融合,并人工标记部分医疗实体关系,初步构建中文电子病历标记语料库;
步骤S14:对中文电子病历文本进行规范化和向量化处理,将规范化和向量化后的电子病历按一定的比例划分为训练集、测试集和开发集。
所述步骤S3具体包括:
步骤S31:从扩展后的中文电子病历标记语料库中提取出所有的医疗知识,并进行去重处理,之后以三元组的形式将其保存为csv文件;
步骤S32:将结构化的csv导入Neo4j数据库,生成最终的医疗知识图谱。
通过上述S1、S2、S3三个大步骤以及各个详细的小步骤,即可构建出医疗知识图谱。
进一步的,所述步骤S14包括:
步骤S141:对中文电子病历的文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一;
步骤S142:将病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c1,c2,…,ci,…},其中ci表示句子中的第i个字,句子中每一个字都被映射为低维的向量vi=[vchar,vpos,vdep];其中,vchar是使用Gensim工具包训练得到的字向量,vpos是使用THULAC中文分词工具得到的词性特征向量,vdep是使用哈工大LTP工具得到的依存句法特征向量;
进一步的,所述步骤S2中,知识提取模型的训练包括医疗实体识别和医疗关系抽取两个过程;
其中,在医疗实体识别过程中,先采用深度神经网络对中文电子病历的文本特征进行自动提取,并结合机器学习算法完成句子标签的自动标注,再使用爬虫代码从医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库和国际疾病分类编码,整理出中文常见医学术语词典,自动纠正识别错误的实体;
在医疗关系抽取过程中,采用深度神经网络以及机器学习算法自动学习文本特征,然后通过激活函数完成关系类别的预测,实现对医疗实体对之间的关系分类。
进一步的,所述步骤S2中,结合半监督学习算法优化知识提取模型的过程包括:
首先利用已经进行人工实体标记的标注集作为种子数据集,训练出一个初始的知识提取模型,通过初始的知识提取模型从未进行人工标记的未标注集中选择得分最高的示例,将示例与种子数据集合并得到新的标注集;
然后利用新的标注集再次训练知识提取模型,不断迭代,在知识提取模型得到优化的同时,不断更新标注集,从而扩展中文电子病历标记语料库的规模;
训练过程结束后,得到一个最终的知识提取模型和扩展后的中文电子病历标记语料库;最后使用优化后的模型自动地从扩展后的中文电子病历标记语料库中提取出所有的医疗知识。
进一步的,所述医疗知识描述体系包括实体的类型、概念和示例;以及包括实体关系的类型、概念和示例。
进一步的,所述深度神经网络包括长短期记忆网络、门控循环单元神经网络、图神经网络、卷积神经网络和注意力机制神经网络。
进一步的,所述激活函数包括softmax函数和sigmoid函数。
进一步的,所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。
与现有技术相比,采用上述技术方案的有益效果为:第一,对于获取到的原始电子病历数据集进行了一系列的数据预处理操作,使得构建出医疗知识图谱具有高精度和高质量,且不包含任何患者敏感信息,具有更广的适用范围。第二,在知识提取阶段结合使用深度神经网络和机器学习算法,与以往的技术相比,避免了繁杂的模板设计和特征工程,同时加入了中文常见医学术语词典,能有效减少医疗知识提取的错误。第三,采用了bootstrapping半监督学习算法扩展中文电子病历标记语料库的规模,同时结合了有监督方法和无监督方法的优势,节约了人工标记的成本。
附图说明
图1是本发明实施例提供的一种从中文电子病历构建医疗知识图谱的半监督学习方法流程示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1所示,本发明实施例提供一种从中文电子病历构建医疗知识图谱的半监督学习方法,主要包括三个阶段,分别是数据预处理阶段、知识提取阶段和知识存储阶段。
其中,数据预处理阶段主要内容为:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库。
知识提取阶段主要内容为:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;
知识提取阶段主要内容为:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。
具体的,在本实施例中,每个阶段的具体步骤如下:
A、数据预处理阶段。
步骤S1:从CCKS(全国知识图谱会议)的和CHIP(中国健康信息处理会议)所发布的关于中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化等评测任务中,获取中文电子病历原始数据集。
步骤S2:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的中文电子病历规范、知识图谱构建的相关权威文献,设计出医疗知识描述体系。医疗知识描述体系包括实体关系的类型、概念和示例等;以及包括实体的类型、概念和示例等。
步骤S3:针对获取到的病历中仅缺少医疗关系标记的问题,在专业医务人员的指导下,对不同来源的中文电子病历进行实体标记的融合,并人工标记部分医疗实体关系,初步构建小规模的中文电子病历标记语料库。
步骤S4:对中文电子病历文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换、符号的全半角统一等。然后将中文电子病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c1,c2,…,ci,…},其中ci表示句子中的第i个字,句子中每一个字都被映射为低维的向量vi=[vchar,vpos,vdep];其中,vchar是使用Gensim工具包训练得到的字向量,vpos是使用THULAC中文分词工具得到的词性特征向量,vdep是依存句法特征向量,通过使用语言技术平台(LTP)的依存句法分析工具得到的;将规范化和向量化后的病历划分为标注集(Labeledset)和未标注集(Unlabeled set),标注集表示S3中进行了人工标记的中文电子病历标记语料库,未标记集表示未进行标注的数据集。将标注集按一定的比例进一步细分为训练集(Train set)、测试集(Test set)和开发集(Development set)。
B、知识提取阶段。
知识提取阶段根据构建好的医疗知识描述体系,结合深度神经网络和机器学习算法,使用标注集训练知识提取模型,知识提取模型的训练包括医疗实体识别(步骤S5)和医疗关系抽取(步骤S6)两个过程,在训练过程中采用半监督学习算法优化知识提取模型,同时不断扩展标注集(步骤S7)。该阶段的最后,使用优化后的模型自动地从扩展后的标注集中提取出所有的医疗知识。一条医疗知识由句子中任意两个医疗实体(指具有独立医学概念的术语)以及两个实体之间的关系组成。
步骤S5:医疗实体识别过程中,采用长短期记忆网络(LSTM)、门控循环单元(GRU)、图神经网络(GCN)、卷积神经网络(CNN)、注意力机制(attention machism)等深度神经网络对文本特征进行自动提取,并结合条件随机场(CRF)等机器学习算法完成句子标签的自动标注。实体表示为Entity={word,position,label},包含实体字符、实体位置和实体类型。其次,使用python语言编写爬虫代码从“39健康网”、“华健网”、“寻医问药”等医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库(NCCD)、国际疾病分类编码(ICD-10),整理出中文常见医学术语词典,自动纠正识别错误的实体。
步骤S6:医疗关系抽取过程是在步骤S5医疗实体识别过程的基础上,对于已经识别出的医疗实体对(指一个句子中出现的任意两个医疗实体),判断它们之间的关系。该过程首先采用深度神经网络以及机器学习算法自动学习文本特征,然后通过softmax、sigmoid等激活函数完成关系类别的预测。
步骤S7:采用bootstrapping半监督学习算法调整知识提取模型的训练过程(该训练过程由步骤S5和步骤S6组成):首先利用已经进行人工实体标记的标注集(Labeledset)作为种子数据集,训练出一个初始的知识提取模型,通过初始的知识提取模型从未标注集(Unlabeledset)中选择得分最高的示例,将示例与种子数据集合并得到新的标注集,然后利用新的标注集再次训练知识提取模型。不断迭代,在知识提取模型得到优化的同时,标注集也得到了更新,从而扩展了中文电子病历语料库的规模。训练过程结束后,将得到一个最终的知识提取模型(Extraction model)和扩展后的中文电子病历标记语料库(Extensionset)。最后使用优化后的知识提取模型自动地从扩展后的中文电子病历标记语料库中提取出所有的医疗知识。
C、知识存储阶段。
步骤S8:将知识提取阶段提取出的医疗知识进行去重处理,以三元组SPOMedical kmowledge=(Entity_head,Relation,Entity_tail)的形式保存为csv文件。
步骤S9:将得到的结构化的csv文件导入Neo4j数据库,生成最终的医疗知识图谱。通过使用match等语句搜索带疾病、症状等实体,并根据与其他医疗实体之间的关系,将相关治疗方案、检查手段反馈给医务人员,达到辅助医疗的作用。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。

Claims (10)

1.一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,包括:
步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;
步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;
步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。
2.根据权利要求1所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S1包括:
步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;
步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;
步骤S13:在专业医务人员的指导下,对不同来源的病历进行医疗实体标记的融合,并人工标记部分医疗实体关系,初步构建中文电子病历标记语料库;
步骤S14:对中文电子病历文本进行规范化和向量化处理,将规范化和向量化后的中文电子病历划分为标注集和未标注集,并将标注集按一定的比例细分为训练集、测试集和开发集;其中,标注集表示进行了人工标记的中文电子病历标记语料库,未标注集表示未进行标注的中文电子病历数据集。
3.根据权利要求2所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。
4.根据权利要求3所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S14包括:
步骤S141:对中文电子病历的文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一;
步骤S142:将病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c1,c2,…,ci,…},其中ci表示句子中的第i个字,句子中每一个字都被映射为低维的向量vi=[vchar,vpos,vdep];其中,vchar是使用Gensim工具包训练得到的字向量,vpos是使用THULAC中文分词工具得到的词性特征向量,vdep是依存句法特征向量;
步骤S143:将规范化和向量化后的中文电子病历划分为标注集和未标注集,并将标注集按一定的比例划分为训练集、测试集和开发集;其中,标注集表示进行了人工标记的中文电子病历标记语料库,未标注集表示未进行标注的中文电子病历数据集。
5.根据权利要求1或4所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S2中,知识提取模型的训练包括医疗实体识别和医疗关系抽取两个过程;
其中,在医疗实体识别过程中,先采用深度神经网络对中文电子病历的文本特征进行自动提取,并结合机器学习算法完成句子标签的自动标注,再使用爬虫代码从医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库和国际疾病分类编码,整理出中文常见医学术语词典,自动纠正识别错误的实体;
在医疗关系抽取过程中,采用深度神经网络以及机器学习算法自动学习文本特征,然后通过激活函数完成关系类别的预测,实现对医疗实体对之间的关系分类。
6.根据权利要求2或4所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S2中,结合半监督学习算法优化知识提取模型的过程包括:
首先利用已经进行人工实体标记的标注集作为种子数据集,训练出一个初始的知识提取模型,通过初始的知识提取模型从未进行人工标记的未标注集中选择得分最高的示例,将示例与种子数据集合并得到新的标注集;
然后利用新的标注集再次训练知识提取模型,不断迭代,在知识提取模型得到优化的同时,不断更新标注集,从而扩展中文电子病历标记语料库的规模;
训练过程结束后,得到一个最终的知识提取模型和扩展后的中文电子病历标记语料库;最后使用优化后的模型自动地从扩展后的中文电子病历标记语料库中提取出所有的医疗知识。
7.根据权利要求1所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S3包括:
步骤S31:从扩展后的中文电子病历标记语料库中提取出所有的医疗知识,并进行去重处理,之后以三元组的形式将其保存为csv文件;
步骤S32:将结构化的csv导入Neo4j数据库,生成最终的医疗知识图谱。
8.根据权利要求6所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述深度神经网络包括长短期记忆网络、门控循环单元神经网络、图神经网络、卷积神经网络和注意力机制神经网络。
9.根据权利要求6所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述激活函数包括softmax函数和sigmoid函数。
10.根据权利要求1所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述医疗知识描述体系包括实体的类型、概念和示例;以及包括实体关系的类型、概念和示例。
CN202011517866.1A 2020-12-21 2020-12-21 一种从中文电子病历构建医疗知识图谱的半监督学习方法 Pending CN112542223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011517866.1A CN112542223A (zh) 2020-12-21 2020-12-21 一种从中文电子病历构建医疗知识图谱的半监督学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011517866.1A CN112542223A (zh) 2020-12-21 2020-12-21 一种从中文电子病历构建医疗知识图谱的半监督学习方法

Publications (1)

Publication Number Publication Date
CN112542223A true CN112542223A (zh) 2021-03-23

Family

ID=75019321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011517866.1A Pending CN112542223A (zh) 2020-12-21 2020-12-21 一种从中文电子病历构建医疗知识图谱的半监督学习方法

Country Status (1)

Country Link
CN (1) CN112542223A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111660A (zh) * 2021-04-22 2021-07-13 脉景(杭州)健康管理有限公司 数据处理方法、装置、设备和存储介质
CN113128233A (zh) * 2021-05-11 2021-07-16 济南大学 一种心理疾病知识图谱的构建方法及系统
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统
CN113434692A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 图神经网络模型构建、诊疗方案推荐方法、系统及设备
CN113505244A (zh) * 2021-09-10 2021-10-15 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质
CN113593709A (zh) * 2021-07-30 2021-11-02 江先汉 一种疾病编码方法、系统、可读存储介质及装置
CN113628705A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种数据驱动的从电子病历中提取信息的方法
CN113641784A (zh) * 2021-06-25 2021-11-12 合肥工业大学 医教研一体化的医疗知识推荐方法和系统
CN113656604A (zh) * 2021-10-19 2021-11-16 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN113688632A (zh) * 2021-08-17 2021-11-23 中国人民解放军海军军医大学 一种提取疾病预后协变量的结构化数据的方法及系统
CN113704555A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 基于医疗方向联邦学习的特征管理方法
CN114417871A (zh) * 2021-12-17 2022-04-29 北京百度网讯科技有限公司 模型训练及命名实体识别方法、装置、电子设备及介质
CN114840684A (zh) * 2022-04-25 2022-08-02 平安普惠企业管理有限公司 基于医疗实体的图谱构建方法、装置、设备及存储介质
WO2023071530A1 (zh) * 2021-10-26 2023-05-04 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN116127090A (zh) * 2022-12-28 2023-05-16 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116610819A (zh) * 2023-07-17 2023-08-18 北京惠每云科技有限公司 医学知识图谱生成方法、装置、电子设备及存储介质
CN116721779A (zh) * 2023-08-10 2023-09-08 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN116737945A (zh) * 2023-05-10 2023-09-12 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法
CN117253576A (zh) * 2023-10-30 2023-12-19 来未来科技(浙江)有限公司 基于中文医疗大模型的门诊电子病历生成方法
CN117391092A (zh) * 2023-12-12 2024-01-12 中南大学 一种基于对比学习的电子病历多模态医疗语义对齐方法
CN117894482A (zh) * 2024-03-14 2024-04-16 北方健康医疗大数据科技有限公司 一种医学肿瘤的编码方法、系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109902298A (zh) * 2019-02-13 2019-06-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统
CN112002411A (zh) * 2020-08-20 2020-11-27 杭州电子科技大学 一种基于电子病历的心脑血管病知识图谱问答方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109902298A (zh) * 2019-02-13 2019-06-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统
CN112002411A (zh) * 2020-08-20 2020-11-27 杭州电子科技大学 一种基于电子病历的心脑血管病知识图谱问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张元博: "医疗知识图谱构建与应用", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111660A (zh) * 2021-04-22 2021-07-13 脉景(杭州)健康管理有限公司 数据处理方法、装置、设备和存储介质
CN113128233A (zh) * 2021-05-11 2021-07-16 济南大学 一种心理疾病知识图谱的构建方法及系统
CN113128233B (zh) * 2021-05-11 2022-07-19 济南大学 一种心理疾病知识图谱的构建方法及系统
CN113380360A (zh) * 2021-06-07 2021-09-10 厦门大学 一种基于多模态病历图的相似病历检索方法及系统
CN113434692A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 图神经网络模型构建、诊疗方案推荐方法、系统及设备
CN113434692B (zh) * 2021-06-22 2023-08-01 上海交通大学医学院附属仁济医院 图神经网络模型构建、诊疗方案推荐方法、系统及设备
CN113641784A (zh) * 2021-06-25 2021-11-12 合肥工业大学 医教研一体化的医疗知识推荐方法和系统
CN113704555A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 基于医疗方向联邦学习的特征管理方法
CN113704555B (zh) * 2021-07-16 2023-11-07 杭州医康慧联科技股份有限公司 基于医疗方向联邦学习的特征管理方法
CN113628705A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种数据驱动的从电子病历中提取信息的方法
CN113593709B (zh) * 2021-07-30 2022-09-30 江先汉 一种疾病编码方法、系统、可读存储介质及装置
CN113593709A (zh) * 2021-07-30 2021-11-02 江先汉 一种疾病编码方法、系统、可读存储介质及装置
CN113688632A (zh) * 2021-08-17 2021-11-23 中国人民解放军海军军医大学 一种提取疾病预后协变量的结构化数据的方法及系统
CN113505244A (zh) * 2021-09-10 2021-10-15 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质
CN113505244B (zh) * 2021-09-10 2021-11-30 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质
CN113656604A (zh) * 2021-10-19 2021-11-16 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
WO2023071530A1 (zh) * 2021-10-26 2023-05-04 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN114417871A (zh) * 2021-12-17 2022-04-29 北京百度网讯科技有限公司 模型训练及命名实体识别方法、装置、电子设备及介质
CN114840684A (zh) * 2022-04-25 2022-08-02 平安普惠企业管理有限公司 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN116127090A (zh) * 2022-12-28 2023-05-16 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116127090B (zh) * 2022-12-28 2023-11-21 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116737945B (zh) * 2023-05-10 2024-05-07 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法
CN116737945A (zh) * 2023-05-10 2023-09-12 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法
CN116610819A (zh) * 2023-07-17 2023-08-18 北京惠每云科技有限公司 医学知识图谱生成方法、装置、电子设备及存储介质
CN116610819B (zh) * 2023-07-17 2023-09-19 北京惠每云科技有限公司 医学知识图谱生成方法、装置、电子设备及存储介质
CN116721779A (zh) * 2023-08-10 2023-09-08 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN116721779B (zh) * 2023-08-10 2023-11-24 成都安哲斯生物医药科技有限公司 医疗数据预处理方法及系统
CN117253576A (zh) * 2023-10-30 2023-12-19 来未来科技(浙江)有限公司 基于中文医疗大模型的门诊电子病历生成方法
CN117253576B (zh) * 2023-10-30 2024-03-05 来未来科技(浙江)有限公司 基于中文医疗大模型的门诊电子病历生成方法
CN117391092A (zh) * 2023-12-12 2024-01-12 中南大学 一种基于对比学习的电子病历多模态医疗语义对齐方法
CN117391092B (zh) * 2023-12-12 2024-03-08 中南大学 一种基于对比学习的电子病历多模态医疗语义对齐方法
CN117894482A (zh) * 2024-03-14 2024-04-16 北方健康医疗大数据科技有限公司 一种医学肿瘤的编码方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112542223A (zh) 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
CN111708773B (zh) 一种多源科创资源数据融合方法
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN111061882A (zh) 一种知识图谱构建方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN116860987A (zh) 基于生成式大语言模型的领域知识图谱构建方法和系统
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN113764112A (zh) 一种在线医疗问答方法
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN116719913A (zh) 一种基于改进命名实体识别的医疗问答系统及其构建方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN115309885A (zh) 一种用于科技服务的知识图谱构建、检索和可视化方法及系统
CN106484676A (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN117497178A (zh) 一种基于知识图谱的常见病辅助决策方法
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yang Chunming

Inventor after: Xiao Dan

Inventor after: Zhang Hui

Inventor after: Li Bo

Inventor after: Zhao Xujian

Inventor before: Yang Chunming

Inventor before: Guo Xin

Inventor before: Zhang Hui

Inventor before: Li Bo

Inventor before: Zhao Xujian

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210323

RJ01 Rejection of invention patent application after publication