CN111834014A - 一种医疗领域命名实体识别方法及系统 - Google Patents

一种医疗领域命名实体识别方法及系统 Download PDF

Info

Publication number
CN111834014A
CN111834014A CN202010692580.0A CN202010692580A CN111834014A CN 111834014 A CN111834014 A CN 111834014A CN 202010692580 A CN202010692580 A CN 202010692580A CN 111834014 A CN111834014 A CN 111834014A
Authority
CN
China
Prior art keywords
named entity
medical record
sample data
entity recognition
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010692580.0A
Other languages
English (en)
Inventor
闫健卓
耿亚男
许红霞
谭绍峰
贺东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010692580.0A priority Critical patent/CN111834014A/zh
Publication of CN111834014A publication Critical patent/CN111834014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例提供一种医疗领域命名实体识别方法及系统,包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。本发明实施例提供的医疗领域命名实体识别方法及系统,利用一种结合监督学习与无监督学习的半监督网络模型,实现医疗领域的命名实体识别,解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力,节省了人力、物力。

Description

一种医疗领域命名实体识别方法及系统
技术领域
本发明涉及计算机人工智能技术领域,尤其涉及一种医疗领域命名实体识别方法及系统。
背景技术
近年来,互联网计算机技术的普及和发展,推动了各大医院的信息化建设工作。随着各医疗系统相继建立,所产生的医疗相关的数据更不计其数。其中,电子病历数据是医疗机构对患者诊疗过程中的全面记录,蕴涵着大量信息。人们开始通过自然语言处理技术将这些非结构化电子病历的信息进行挖掘,从而得到结构化的与患者密切相关的医疗知识。
命名实体识别(Named Entity Recognition,简称NER)是指识别文本中特定的实体,例如:人名、地名等。在电子病历领域,旨在自动识别和分类病例中医学实体,例如治疗手段、疾病等。NER是电子病历结构化的基础,是开展电子病历文本研究的前提。由于中文文本处理的复杂性,中文文本的NER难度更大。目前常用电子病历命名实体识别的方法主要有:基于词典和规则的方法、基于传统机器学习的方法与基于深度学习的方法。
基于字典的方法通过字符串模糊查找或者完全匹配,但是无法检索字典中不存在的实体。基于规则的方法根据实体特征和其常见搭配,人为制定规则集,但是耗时长,需要领域专家编写规则,并且不能应用新的领域。
近年来,随着机器学习技术的发展和应用,基于机器学习的方法逐渐成为主流方法。虽然该方法的可移植性强,但其依赖标注数据的质量和规模,特征工程复杂。随着机器学习的进一步发展,基于深度学习的方法得到了大家的进一步关注。虽然这种方法不再需要像传统机器学习方法那样人为选取复杂的特征集合作为模型训练集,但需要更大规模的语料集。
由于现有的监督学习方法需要大规模的语料集,但在中文电子病历识别方面标注语料缺乏,没有公开的电子病历语料标注集。且由于电子病历专业性强,需要医生或者相关领域专家进行数据标注,因此比通用领域投入的人力物力更大。因此,在没有充足的已标注数据的情况下,传统的监督学习方法的效果受到限制。
发明内容
本发明实施例提供一种医疗领域命名实体识别方法及系统,用以解决现有技术中,特别是在医疗领域中基于深度学习方法进行命名实体识别时,中文电子病历识别方面标注语料缺乏,以及没有公开的电子病历语料标注集等不足,导致在没有充足的已标注数据的情况下,传统的监督学习方法的效果受限制的缺陷,实现利用大量的未标注数据完成识别网络模型的训练,进而提高识别网络模型的识别精度。
第一方面,本发明实施例提供一种医疗领域命名实体识别方法,主要包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
作为可选地,在将电子病历数据输入至命名实体识别模型之前,对所述命名实体识别模型进行预训练,主要包括以下步骤:
S11,对病历样本数据进行预处理,构建带有命名实体识别标签的病历样本数据集和无标签病历样本数据集;
S12,利用带有命名实体识别标签的病历样本数据集对预设的命名实体识别模型进行初步训练;
S13,将无标签病历样本数据集中的未标记数据输入至初步训练后的命名实体识别模型中,基于双重筛选策略对每个所述无标签病历样本数据进行筛选,以获取与每个合格的无标签病历样本数据对应的模型输出结果;
S14,将模型输出结果作为合格的病历样本数据的命名实体识别标签后,置于带有命名实体识别标签的病历样本数据集中;
S15,迭代执行步骤S12-S14直至无标签病历样本数据集为空或者命名实体识别模型收敛时,完成对命名实体识别模型的预训练。
作为可选地,上述步骤S11具体包括但不限于以下步骤:
利用python中的beautifulsoup模块和正则表达式方式,对病历样本数据进行解析,以获取纯文本病历样本数据;对部分纯文本病历样本数据进行实体识别分类标注;基于BIOES标签标记法对每个类型标签进行转换,生成标注信息;将与每个纯文本病历样本数据对应的标注信息作为所述纯文本病历样本数据的命名实体识别标签,构建所述带有命名实体识别标签的病历样本数据集;将未被实体识别分类标注的纯文本病历样本数据组建无标签病历样本数据集。
作为可选地,命名实体识别模型为半监督学习模型,主要包括依次连接的训练语言模型层、长短期记忆模型层和条件概率模型层。
作为可选地,上述步骤S13具体包括但不限于以下步骤:
利用训练语言模型层对输入的未标记数据进行字符向量化转换;利用长短期记忆模型层对字符向量化转换的结果进行特征提取,获取与未标记数据相对应的命名实体识别标签以及标签概率;若标签概率大于第一预设阈值,则利用条件概率模型层对双向长短期记忆模型层的输出结果进行解码,获取未标记数据中每个字的置信度;若置信度最小的字的置信度大于第二预设阈值,则将未标记数据作为合格的无标签病历样本数据。
作为可选地,长短期记忆模型层为双向长短期记忆模型层。
作为可选地,命名实体识别结果可以包括症状体征、检查检验、疾病诊断、治疗和身体部位这五个类型。
第二方面,本发明实施例还提供一种医疗领域命名实体识别系统,主要包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述医疗领域命名实体识别方法的步骤。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述医疗领域命名实体识别方法的步骤。
本发明实施例提供的医疗领域命名实体识别方法及系统,利用一种结合监督学习与无监督学习的半监督网络模型,实现医疗领域的命名实体识别,解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力,节省了人力、物力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种医疗领域命名实体识别方法的流程示意图;
图2为本发明实施例提供的一种模型训练方法的整体流程示意图;
图3为本发明实施例提供的对模型进行预训练的详细流程示意图;
图4为本发明实施例提供的数据预处理的流程示意图;
图5为本发明实施例提供的命名实体识别模型的内部示意图;
图6为采用不同筛选策略的结果对比示意图;
图7为基于ALBERT和word2vec的BiLSTM-CRF半监督学习模型结果对比图。
图8为本发明实施例提供的一种医疗领域命名实体识别系统的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种医疗领域命名实体识别方法,如图1所示,包括但不限于以下步骤:
步骤S1,获取电子病历数据;
步骤S2,将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;
其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
半监督学习(Semi-Supervised Learning,简称SSL)是一种将监督学习与无监督学习相结合的深度学习方法。利用半监督学习方法,仅需要少部分标注数据,并利用大量的未标注数据来完成网络模型的训练以及识别工作。总而言之,引入无监督技术到监督学习中,构建半监督学习方法能够解决缺少标记数据的问题。
作为可选地,获取电子病历数据的方法,可以通过与各个医疗单位建立的通信连接,调用电子病历数据库中的数据来获取。
在本发明实施例中,预先构建一个命名实体识别模型,该命名实体模型可以是一个深度学习网络模型,能够通过对每个输入的电子病历数据(文本数据)进行特征提取后,输出与输入的文本数据相对应的命名实体识别结果,例如该文本数据中所包含的人名、地名、检查检验名、症状体征特点、疾病诊断结果等等,对此本发明实施例不作具体地限定。
需要说明的是,本发明实施例中用于进行命名实体识别的命名实体识别模型是预先训练好的,其训练的过程包括:
构建一个包含有带有命名实体识别标签的病历样本数据集和无标签病历样本数据集的样本训练集。其中,带有命名实体识别标签的病历样本数据集中的每个样本数据均被预先设置了命名实体识别标签,且每个样本数据与每个命名实体识别标签一一对应。而其中的无标签病历样本数据集则是没有被预先设置命名实体识别标签的样本数据。
进一步地,分别利用带有命名实体识别标签的病历样本数据集和无标签病历样本数据集分别对待训练的命名实体识别模型进行有监督训练,即通过将带有命名实体识别标签的病历样本数据集所开展的有监督学习方法与利用无标签病历样本数据集多开展的无监督学习方法相结合,实现对待训练的命名实体识别模型的半监督学习。待模型训练结果收敛后,则可以获取到训练好的命名实体识别模型。
本发明实施例提供的医疗领域命名实体识别方法,利用一种结合监督学习与无监督学习的半监督网络模型,实现医疗领域的命名实体识别,解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力,节省了人力、物力。
基于上述实施例的内容,作为一种可选实施例,如图2所示,在将电子病历数据输入至命名实体识别模型之前,对命名实体识别模型进行预训练,可以包括但不限于以下迭代步骤:
S11,对病历样本数据进行预处理,构建所述带有命名实体识别标签的病历样本数据集和无标签病历样本数据集;
S12,利用所述带有命名实体识别标签的病历样本数据集对预设的命名实体识别模型进行初步训练;
S13,将所述无标签病历样本数据集中的未标记数据输入至初步训练后的命名实体识别模型中,基于双重筛选策略对每个所述无标签病历样本数据进行筛选,以获取与每个合格的无标签病历样本数据对应的模型输出结果;
S14,将所述模型输出结果作为所述合格的病历样本数据的命名实体识别标签后,置于所述带有命名实体识别标签的病历样本数据集中;
S15,迭代执行步骤S12-S14直至所述无标签病历样本数据集为空或者所述命名实体识别模型收敛时,完成对所述命名实体识别模型的预训练。
可以理解为:在本发明实施例所提供的医疗领域命名实体识别方法中,所提供的命名实体识别模型可以包括依次连接的训练语言模型层(ALBERT)、长短期记忆模型层(BiLSTM)和条件概率模型层(CRF)。结合图3所示,本发明实施例提供的对命名实体识别模型进行训练的整个流程可以包括:
首先,利用预先收集的标注数据(即带有命名实体识别标签的病历样本数据)对命名实体识别模型进行初步训练;
然后,将未标注数据(即无标签病历样本数据)输入至初步训练后的命名实体识别模型中,获取此时模型的输出结果。在命名实体识别模型对未标注数据进行特征提取以及识别的过程中,筛选出所有未标注数据中具有高置信度的部分未标注数据,认为其是合格的无标签病历样本数据(相应地,合格的无标签病历样本数据则不属于原有的无标签病历样本数据集)。
进一步地,将以每个合格的无标签病历样本数据作为输入,所对应的命名实体识别模型输出结果作为该样本数据的命名实体识别标签,即通过将命名实体识别模型输出结果,实现将部分未标注数据转换成标注数据。
最后,利用转换获取到的标注数据,结合原有的标注数据,一起再次对命名实体识别模型进行预训练。
迭代执行上述步骤,直至原有的无标签病历样本数据集中的所有的未标注数据均被处理完毕,即无标签病历样本数据集为空或者命名实体识别模型的训练结果收敛时,则可以停止迭代的过程。从而获取到训练完成的命名实体识别模型。
本发明实施例提供的医疗领域命名实体识别方法,在仅有少量标注数据的情况下,利用大量未标注的样本数据通过基于半监督学习,提供了一种医疗领域命名实体识别方法,减少人力物力的同时提高识别准确率,并为后续的实体关系抽取和相应知识图谱构建搭建基础,从而对医疗决策支持和优化诊疗产生积极作用。
基于上述实施例的内容,作为一种可选实施例,步骤S11可以具体包括以下步骤:
利用python中的beautifulsoup模块和正则表达式方式,对病历样本数据进行解析,以获取纯文本病历样本数据;对部分纯文本病历样本数据进行实体识别分类标注;基于BIOES标签标记法对每个类型标签进行转换,生成标注信息;将与每个纯文本病历样本数据对应的标注信息作为纯文本病历样本数据的命名实体识别标签,构建带有命名实体识别标签的病历样本数据集;将未被实体识别分类标注的纯文本病历样本数据组建无标签病历样本数据集。
具体地,如图4所示,步骤S11中所述的对病历样本数据进行预处理阶段,包括:
在数据预处理阶段,使用SQL语句从系统数据库中导出电子病历信息表,以构建病历样本数据集。由于数据库中的电子病历数据均是以xml的形式存储在字段,可以将导出的病历样本数据以txt形式的文本数据进行存储。
进一步地,可以利用python中的beautifulsoup模块和正则表达式,对txt形式的文本数据进行解析,以去除关于xml语言的标签,进而获取到纯文本的信息。
进一步地,对获取的训练样本集中能够被标注的部分(即部分纯文本病历样本数据)进行实体识别标注。作为可选的,可以采用人工根据标注规则进行标注,在医生的指导下,实体标注类型分成五类:症状体征、检查检验、疾病诊断、治疗和身体部位。作为可选地,也可以利用相关软件根据预设的程序来自动执行标注的过程,对此本发明实施例均不作具体地限定。
进一步地,在完成对训练样本集中的每个样本文本数据的实体识别标注后,将命名实体识别问题会转换成序列标注问题,即将样本文本数据(句子)中的每个词所分配对应的类别标签进行序列标注,以将每个类型标签转换成与之对应的标注信息。
在本发明实施例中提供了一种序列标注的方法,即利用BIOES标签标记法来实现实体边界的表示。其中,BIOES标签标记法中的B为实体开头,即实体左边界;I为实体中间;O为非实体;E为实体的结尾,即实体的右边界;S为单实体,即实体为一个词。
例如表1所示,为采用BIOES标签标记法将对本文本数据“主因:右髋部摔伤后疼痛、肿胀”进行序列标注的结果示意图。
表1基于用BIOES标签标记法的中文本标记示例图
Figure BDA0002589822970000101
在实现了标注信息的生成后,对于获取的训练样本集中每个能够被标注的样本数据,则以其标注信息作为其命名实体识别标签,构建带有命名实体识别标签的病历样本数据集(即标记数据集);对于获取的训练样本集中未能被标记的样本数据,则组建成无标签病历样本数据集(即未标注数据集)。
本发明实施例提供的医疗领域命名实体识别方法,通过调用医疗系统数据库,获取到病历样本数据集;并根据样本集中不同训练样本的可标识性,选择性的以少部分的病历数据作为标记数据、以大量未被标记的电子数据组建无标签病历样本数据集;最后,基于半监督学习方法,利用少量标注数据和大量未标注数据,完成对模型的预训练。
基于上述实施例的内容,作为一种可选实施例,本发明实施例提供的命名实体识别模型具体为一种半监督学习模型,至少包括依次连接的训练语言模型层、长短期记忆模型层和条件概率模型层。
具体地,在如图5所示的模型结构的基础上,本发明实施例提供的命名实体识别方法,对命名实体识别模型进行训练以及利用该模型进行命名实体识别的步骤包括但不限于:
首先,使用训练语言模型(简称:ALBER层)的字向量表达层对输入模型的文本数据(包括样本数据或者待识别的病历数据)进行特征提取,以获得字级别的特征。
在本发明实施例中,采用字向量特征提取的方法,可以避免分词效果不良所带来的影响,并且能够解决未登录的现象情况发生。
进一步地,为了更好地获取输入文本数据中的长范围依赖信息,可以利用长短期记忆模型层(简称BiLSTM层)来解决长期记忆的问题。即将经过ALBERT模型处理的数据,输入通过BiLSTM层,以获取特征集合ht
然后,利用条件概率模型层(简称:CRF层)学习相邻标签的关系,对输出标签进行约束,从而获得一个全局最优的标记序列。具体地,在CRF层中通过极大似然估计进行学习,得到最优的权重值,从而得到CRF条件概率模型。在利用命名实体识别模型进行实际预测时,还通过维特比算法求解最优输出序列,即输出与输入的文本数据相对应的命名实体识别结果。
在模型训练的过程中,首先采用上述步骤,通过标记数据初步训练上述模型,可以获取到初步训练后的命名实体识别模型(简称初步分类器)。
然后,通过上述实施中介绍的半监督学习方法,通过选取高置信度的未标记样本数据,并利用与之对应的模型输出结果作为其标签,生成自动标记样本。即:可以通过将未标记数据用ALBERT语言模型进行表达后,将表达结果输入到BiLSTM-CRF模型层中(即BiLSTM层+CRF模型层构成的模型层)训练得到自动标注标签。
在本发明实施例中采用了双重筛选策略对自动标注样本进行选择。双重筛选策略在BiLSTM层和CRF层的数据均进行筛选,只有通过两层筛选的数据,才被认为是可靠数据。即通过在选择置信度高的自动标记数据,将其加入到原训练集中以重新训练分类器。这样可以确保自动标注数据的准确性,以减少半监督学习中错误迭代。
筛选策略是将模型将未标注数据集中数据进行自动标注的结果进行筛选,从而选取出可靠数据,加入已标注样本集,从而提高模型的泛化能力。在半监督学习方法中,容易错误标注无标记样本,将其加入到训练集中训练新的分类器,将导致错误进行迭代,从而效果越来越差,从而降低分类性能。因此样本选择策略的制定是关键。具体地,在本发明实施例中的双重筛选策略主要包括:
首先,在模型中用BiLSTM层对未标记数据提取特征,并进行训练后得到一个实体类型标签和相应的概率,如果该概率高于设置的第一预设阈值,那么相应数据留下;若低于该阈值则将整句话去除,重新处理下一句未标记数据。
将BiLSTM层的运算结果输入到CRF层进行解码,以查看每句话中,最低置信度的字是哪个,找到该字后,若此字的最低置信度超过第二预设阈值,将该句子加入原有的训练集。
通过这双重筛选后,将置信度高的自动标注数据加入到训练集,重新对模型进行训练,直到模型训练结果收敛或者未标注数据集为空,则停止训练。
为了进一步体现本发明实施例所采用的双重筛选方法进行模型训练的效果,下面通过两组实验的对比结果来进行说明:
图6为采用不同筛选策略的结果对比示意图,图7为基于ALBERT和word2vec的BiLSTM-CRF半监督学习模型结果对比图,如图6和图7所示,图中的A表示精确度、B表示召回率、C表示F1值,两组实验分别为:第一组实验是将双筛选策略与单筛选策略、还有无筛选策略的监督学习模型进行对比,第二组实验是将基于ALBERT和基于word2vec的BiLSTM-CRF半监督学习模型进行对比。有两个实验的对比结果可以获知:出本发明实施例提供的命名实体识别方法在准确性和综合性的表现均具有明显的提高,能够有效解决标注数据缺乏的问题。
基于上述实施例的内容,作为一种可选实施例,在本发明实施例中所使用的长短期记忆模型层为双向长短期记忆模型层。
电子病历命名实体存在远距离依赖问题,为了更好地获取文本中的长范围依赖信息,本本发明实施例中选用双向长短期记忆模型层(BiLSTM)来解决长期记忆的问题。
传统的长短期记忆模型层(LSTM层)的训练过程主要分为四个阶段:
第一阶段:由遗忘门决定Ct-1多大程度会保留到Ct
ft=σ(Wf·[ht-1,xt]+bf)
第二阶段:输入门决定xt有多少会保存到Ct
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002589822970000131
第三阶段:更新记忆单元
Figure BDA0002589822970000132
第四阶段:输出门控制Ct有多少会输出
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
考虑到LSTM层只能利用当前t时刻之前的信息,而无法充分利用未来t+1时刻的信息。在本发明实施例中所采用的BiLSTM能通过构建了两个方向相反的隐藏层,然后通过向量的拼接得到最终的隐藏层,从而捕捉双向的语义信息,获取更好的语义表达效果。
基于上述实施例的内容,作为一种可选实施例,在本发明实施例中的命名实体识别结果主要包括症状体征、检查检验、疾病诊断、治疗和身体部位五个类型。
图8为本发明实施例提供的一种医疗领域命名实体识别系统的结构示意图,如图8所示,该系统包括但不限于病历数据获取单元1和命名实体识别单元2,其中:病历数据获取单元用于获取电子病历数据;命名实体识别单元用于将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
具体地,可以利用病历数据获取单元1,通过与各个医疗单位建立的通信连接,调用电子病历数据库中的数据来获取电子病历数据。在模型训练时,则可以采用相同的途径构建出病历样本数据集。
进一步地,可以在命名实体识别单元2预先构建命名实体识别模型,在模型构建完成功能后,可以利用包含有带有命名实体识别标签的病历样本数据集和无标签病历样本数据集的样本训练集对模型进行预训练。其中,带有命名实体识别标签的病历样本数据集中的每个样本数据均被预先设置了命名实体识别标签,且每个样本数据与每个命名实体识别标签一一对应。而其中的无标签病历样本数据集则是没有被预先设置命名实体识别标签的样本数据。
需要说明的是,在本发明实施例中所提供的预训练方法,是一种半监督的深度学习方法,分别利用带有命名实体识别标签的病历样本数据集和无标签病历样本数据集分别对待训练的命名实体识别模型进行有监督训练,即通过将带有命名实体识别标签的病历样本数据集所开展的有监督学习方法与利用无标签病历样本数据集多开展的无监督学习方法相结合,实现对待训练的命名实体识别模型的半监督学习。待模型训练结果收敛后,则可以获取到训练好的命名实体识别模型。
在完成了模型训练工作后,将病历数据获取单元1所获取到的电子病历数据输入至位于命名实体识别单元2后,则可以获取由命名实体识别单元2输出的与所述电子病历数据对应的命名实体识别结果。
本发明实施例提供的医疗领域命名实体识别系统,利用一种结合监督学习与无监督学习的半监督网络模型,实现医疗领域的命名实体识别,解决了医疗领域缺少标记数据、训练样本集构建困难的问题。有效的提升了模型训练和预测的能力,节省了人力、物力。
需要说明的是,本发明实施例提供的医疗领域命名实体识别系统,在被具体执行时,可以基于上述任一实施例所述的医疗领域命名实体识别方法来实现,对此本实施例不作赘述。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行医疗领域命名实体识别方法,该方法包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的医疗领域命名实体识别方法,该方法包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的以执行医疗领域命名实体识别方法,该方法包括:获取电子病历数据;将电子病历数据输入至命名实体识别模型,根据命名实体识别模型的输出结果,获取与电子病历数据对应的命名实体识别结果;其中,命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种医疗领域命名实体识别方法,其特征在于,包括:
获取电子病历数据;
将所述电子病历数据输入至命名实体识别模型,根据所述命名实体识别模型的输出结果,获取与所述电子病历数据对应的命名实体识别结果;
其中,所述命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
2.根据权利要求1所述的医疗领域命名实体识别方法,其特征在于,在将所述电子病历数据输入至命名实体识别模型之前,对所述命名实体识别模型进行预训练,包括:
S11,对病历样本数据进行预处理,构建所述带有命名实体识别标签的病历样本数据集和无标签病历样本数据集;
S12,利用所述带有命名实体识别标签的病历样本数据集对预设的命名实体识别模型进行初步训练;
S13,将所述无标签病历样本数据集中的未标记数据输入至初步训练后的命名实体识别模型中,基于双重筛选策略对每个所述无标签病历样本数据进行筛选,以获取与每个合格的无标签病历样本数据对应的模型输出结果;
S14,将所述模型输出结果作为所述合格的病历样本数据的命名实体识别标签后,置于所述带有命名实体识别标签的病历样本数据集中;
S15,迭代执行步骤S12-S14直至所述无标签病历样本数据集为空或者所述命名实体识别模型收敛时,完成对所述命名实体识别模型的预训练。
3.根据权利要求2所述的医疗领域命名实体识别方法,其特征在于,步骤S11具体包括:
利用python中的beautifulsoup模块和正则表达式,对病历样本数据进行解析,以获取纯文本病历样本数据;
对部分纯文本病历样本数据进行实体识别分类标注,生成样本数据中每个词的类型标签;
基于BIOES标签标记法对每个所述类型标签进行转换,生成标注信息;
将与每个所述纯文本病历样本数据对应的标注信息作为所述纯文本病历样本数据的命名实体识别标签,构建所述带有命名实体识别标签的病历样本数据集;
将未被实体识别分类标注的纯文本病历样本数据组建所述无标签病历样本数据集。
4.根据权利要求3所述的医疗领域命名实体识别方法,其特征在于,所述命名实体识别模型为半监督学习模型,包括依次连接的训练语言模型层、长短期记忆模型层和条件概率模型层。
5.根据权利要求4所述的医疗领域命名实体识别方法,其特征在于,步骤S13具体包括:
利用所述训练语言模型层对输入的未标记数据进行字符向量化转换;
利用所述长短期记忆模型层对字符向量化转换的结果进行特征提取,获取与所述未标记数据相对应的命名实体识别标签以及标签概率;
若所述标签概率大于第一预设阈值,则利用所述条件概率模型层对所述双向长短期记忆模型层的输出结果进行解码,获取所述未标记数据中每个字的置信度;
若置信度最小的字的置信度大于第二预设阈值,则将所述未标记数据作为合格的无标签病历样本数据。
6.根据权利要求4所述的医疗领域命名实体识别方法,其特征在于,所述长短期记忆模型层为双向长短期记忆模型层。
7.根据权利要求1所述的医疗领域命名实体识别方法,其特征在于,所述命名实体识别结果包括症状体征、检查检验、疾病诊断、治疗和身体部位五个类型。
8.一种医疗领域命名实体识别系统,其特征在于,包括:病历数据获取单元和命名实体识别单元;
所述病历数据获取单元用于获取电子病历数据;
所述命名实体识别单元用于将所述电子病历数据输入至命名实体识别模型,根据所述命名实体识别模型的输出结果,获取与所述电子病历数据对应的命名实体识别结果;
其中,所述命名实体识别模型是根据带有命名实体识别标签的病历样本数据集和无标签病历样本数据集训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述医疗领域命名实体识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述医疗领域命名实体识别方法的步骤。
CN202010692580.0A 2020-07-17 2020-07-17 一种医疗领域命名实体识别方法及系统 Pending CN111834014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010692580.0A CN111834014A (zh) 2020-07-17 2020-07-17 一种医疗领域命名实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010692580.0A CN111834014A (zh) 2020-07-17 2020-07-17 一种医疗领域命名实体识别方法及系统

Publications (1)

Publication Number Publication Date
CN111834014A true CN111834014A (zh) 2020-10-27

Family

ID=72923525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010692580.0A Pending CN111834014A (zh) 2020-07-17 2020-07-17 一种医疗领域命名实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN111834014A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365993A (zh) * 2020-12-03 2021-02-12 四川长虹电器股份有限公司 一种针对少样本公众健康问句的分类方法及系统
CN112507703A (zh) * 2020-12-07 2021-03-16 医渡云(北京)技术有限公司 医学实体识别方法、装置、介质及电子设备
CN112541088A (zh) * 2020-12-29 2021-03-23 浙大城市学院 一种基于知识图谱的危险化学品库构建方法
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112687365A (zh) * 2020-12-24 2021-04-20 零氪科技(天津)有限公司 基于语音识别的病历数据处理方法和装置
CN112765985A (zh) * 2021-01-13 2021-05-07 中国科学技术信息研究所 一种面向特定领域专利实施例的命名实体识别方法
CN113010684A (zh) * 2020-12-31 2021-06-22 北京法意科技有限公司 民事诉判图谱的构建方法及系统
CN113128233A (zh) * 2021-05-11 2021-07-16 济南大学 一种心理疾病知识图谱的构建方法及系统
CN113254615A (zh) * 2021-05-31 2021-08-13 中国移动通信集团陕西有限公司 文本处理方法、装置、设备及介质
CN113283244A (zh) * 2021-07-20 2021-08-20 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113326764A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113535979A (zh) * 2021-07-14 2021-10-22 中国地质大学(北京) 一种矿物领域知识图谱构建方法及系统
CN113688248A (zh) * 2021-10-26 2021-11-23 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN113722464A (zh) * 2021-09-14 2021-11-30 国泰君安证券股份有限公司 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质
CN114548109A (zh) * 2022-04-24 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 命名实体识别模型训练方法及命名实体识别方法
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019661A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN111242083A (zh) * 2020-01-21 2020-06-05 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019661A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN111242083A (zh) * 2020-01-21 2020-06-05 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NANNAN CHE 等: "Entity Recognition Approach of Clinical Documents Based on Self-training Framework", 《ICCD 2017》, pages 259 - 265 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365993A (zh) * 2020-12-03 2021-02-12 四川长虹电器股份有限公司 一种针对少样本公众健康问句的分类方法及系统
CN112507703A (zh) * 2020-12-07 2021-03-16 医渡云(北京)技术有限公司 医学实体识别方法、装置、介质及电子设备
CN112560964A (zh) * 2020-12-18 2021-03-26 深圳赛安特技术服务有限公司 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112687365A (zh) * 2020-12-24 2021-04-20 零氪科技(天津)有限公司 基于语音识别的病历数据处理方法和装置
CN112541088B (zh) * 2020-12-29 2022-05-17 浙大城市学院 一种基于知识图谱的危险化学品库构建方法
CN112541088A (zh) * 2020-12-29 2021-03-23 浙大城市学院 一种基于知识图谱的危险化学品库构建方法
CN113010684A (zh) * 2020-12-31 2021-06-22 北京法意科技有限公司 民事诉判图谱的构建方法及系统
CN113010684B (zh) * 2020-12-31 2024-02-09 北京法意科技有限公司 民事诉判图谱的构建方法及系统
CN112765985A (zh) * 2021-01-13 2021-05-07 中国科学技术信息研究所 一种面向特定领域专利实施例的命名实体识别方法
CN112765985B (zh) * 2021-01-13 2023-10-27 中国科学技术信息研究所 一种面向特定领域专利实施例的命名实体识别方法
CN113128233A (zh) * 2021-05-11 2021-07-16 济南大学 一种心理疾病知识图谱的构建方法及系统
CN113326764A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113254615A (zh) * 2021-05-31 2021-08-13 中国移动通信集团陕西有限公司 文本处理方法、装置、设备及介质
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113535979A (zh) * 2021-07-14 2021-10-22 中国地质大学(北京) 一种矿物领域知识图谱构建方法及系统
CN113283244B (zh) * 2021-07-20 2021-10-01 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113283244A (zh) * 2021-07-20 2021-08-20 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113722464A (zh) * 2021-09-14 2021-11-30 国泰君安证券股份有限公司 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质
CN113688248B (zh) * 2021-10-26 2022-02-22 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
WO2023071530A1 (zh) * 2021-10-26 2023-05-04 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
JP7464800B2 (ja) 2021-10-26 2024-04-09 之江実験室 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
CN113688248A (zh) * 2021-10-26 2021-11-23 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN114548109B (zh) * 2022-04-24 2022-09-23 阿里巴巴达摩院(杭州)科技有限公司 命名实体识别模型训练方法及命名实体识别方法
CN114548109A (zh) * 2022-04-24 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 命名实体识别模型训练方法及命名实体识别方法

Similar Documents

Publication Publication Date Title
CN111834014A (zh) 一种医疗领域命名实体识别方法及系统
CN111090987B (zh) 用于输出信息的方法和装置
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN111783466A (zh) 一种面向中文病历的命名实体识别方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
Carchiolo et al. Medical prescription classification: a NLP-based approach
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111881292B (zh) 一种文本分类方法及装置
WO2023029502A1 (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN111950283A (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN116776884A (zh) 一种用于医学命名实体识别的数据增强方法及系统
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN116312915B (zh) 一种电子病历中药物术语标准化关联方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination