CN113392633B

CN113392633B - 一种医疗命名实体识别的方法、装置及存储介质

Info

Publication number: CN113392633B
Application number: CN202110894039.2A
Authority: CN
Inventors: 赵韡; 袁靖; 刁晓林; 廉晓丹; 张飞
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-12-24
Anticipated expiration: 2041-08-05
Also published as: CN113392633A

Abstract

本申请公开了一种医疗命名实体识别的方法、装置及存储介质，包括：利用基于字典的标注方法进行标注，作为第一标注结果；利用基于人工的标注方法进行标注，作为第二标注结果；利用NER机器学习模型的标注方法进行标注，作为第三标注结果；将第一标注结果、第二标注结果和第三标注结果进行融合，作为第四标注结果；根据第四标注结果更新NER机器学习模型的参数，并进行迭代，获得训练后的NER机器学习模型；将待识别的医疗文本输入训练后的NER机器学习模型获得输出的医疗命名实体。应用本申请方案，由于采用三种标注方法，将三种标注结果进行融合，使得训练后的NER机器学习模型提高了对医疗文本命名实体识别的准确率。

Description

一种医疗命名实体识别的方法、装置及存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种医疗命名实体识别的方法，一种医疗命名实体识别的装置，一种电子设备和一种计算机可读存储介质。

背景技术

在计算机技术和互联网技术的发展下，医疗文档逐步实现了电子化，而疾病诊断、查阅病历、健康咨询、医疗教学等都需要对电子文档中识别出与医疗相关的命名实体。命名实体识别（NER，Named Entity Recognition）就是一种从文本中识别出与指定信息相关的命名实体的技术。其中，与医疗相关的命名实体可以是疾病名称、治疗手段、药品名称等等。现有的医疗命名实体识别的技术由于手段单一，其识别的准确率有待提高。

发明内容

针对上述现有技术，本发明实施例公开一种医疗命名实体识别的方法，可以克服医疗命名实体识别技术手段单一，识别的准确率低的缺陷，达到提高识别准确率的目的。

鉴于此，本申请实施例提出一种医疗命名实体识别的方法，该方法包括：

利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第一标注结果；

利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第二标注结果；

利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果；

将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果；

根据所述第四标注结果更新所述NER机器学习模型的参数，并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代，直到迭代生成的所述第四标注结果符合预设阈值，获得训练后的NER机器学习模型；

将待识别的医疗文本输入所述训练后的NER机器学习模型，获得输出的医疗命名实体。

进一步地，

所述将第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果的步骤包括：

将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示，1表示对应字符属于所述医疗命名实体，0表示对应字符不属于所述医疗命令实体；

将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算，将连续为1的字符段作为待定标注结果；

根据待定标注结果判断标注是否唯一，如果唯一，则将所述待定标注结果作为所述第四标注结果；如果不唯一，则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果。

进一步地，

所述根据词频统计结果和事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果的步骤包括：

针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计，获得每一个分项标注结果对应的词频统计结果，所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率；

如果每一个分项标注结果的词频统计结果相同，则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率，将取值概率最大的分项标注结果作为所述第四标注结果；

如果每一个分项标注结果的词频统计结果不是都相同，则将词频统计结果最大的分项标注结果作为所述第四标注结果。

进一步地，

所述利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果的步骤包括：

将所述参与训练的医疗文本和BIO标注作为输入，输入到所述NER机器学习模型，所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的；

所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理，实现对所述参与训练的医疗文本进行医疗命名实体的标注，并将标注结果作为第三标注结果。

本申请实施例还公开一种医疗命名实体识别的装置，可以克服医疗命名实体识别技术手段单一，识别的准确率低的缺陷，达到提高识别准确率的目的。

该装置包括：第一标注处理模块、第二标注处理模块、第三标注处理模块、融合模块、迭代模块、识别模块；

所述第一标注处理模块，利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第一标注结果；

所述第二标注处理模块，利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第二标注结果；

所述第三标注处理模块，利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果；

所述融合模块，用于将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果；

所述迭代模块，用于根据所述第四标注结果更新所述NER机器学习模型的参数，并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代，直到迭代生成的所述第四标注结果符合预设阈值，获得训练后的NER机器学习模型；

所述识别模块，用于将待识别的医疗文本输入所述训练后的NER机器学习模型，获得输出的医疗命名实体。

进一步地，

所述融合模块包括：二进制表示模块、或运算模块、第一判断模块；

所述二进制表示模块，将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示，1表示对应字符属于所述医疗命名实体，0表示对应字符不属于所述医疗命令实体；

或运算模块，用于将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算，将连续为1的字符段作为待定标注结果；

第一判断模块，用于根据待定标注结果判断标注是否唯一，如果唯一，则将所述待定标注结果作为所述第四标注结果；如果不唯一，则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果。

进一步地，

所述第一判断模块执行根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果的步骤时，用于：

进一步的，

所述第三标注处理模块包括NER机器学习处理模块；

所述NER机器学习处理模块，将所述参与训练的医疗文本和所述BIO标注作为输入，输入到所述NER机器学习模型，所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的；所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理，实现对所述参与训练的医疗文本进行医疗命名实体的标注，并将标注结果作为第三标注结果。

本申请实施例还公开一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现所述的医疗命名实体识别的步骤。

本申请实施例还公开一种电子设备，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的医疗命名实体识别的方法。

综上所述，由于本申请实施例方案采用基于字典的标注方法、基于人工的标注方法以及NER机器学习模型的标注方法共三种标注方法，将三种标注结果进行融合，再将融合后的标注结果用于对NER机器学习模型的迭代再次训练，使得NER机器学习模型可以更加准确地对医疗文本中的命名实体进行标注，大大提高了准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实现医疗命名实体识别的方法实施例一的流程图。

图2是本申请实现医疗命名实体识别的方法实施例二的流程图。

图3是本申请实现医疗命名实体识别的装置实施例一的结构示意图。

图4是本申请实现医疗命名实体识别的装置实施例二的结构示意图。

图5是本申请实现医疗命名实体识别的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本申请实施例不局限于某一种医疗命名实体识别的手段，而是将若干种实体标注的结果进行融合，具体地，将基于字典的标注方法、基于人工标注的方法、基于命名实体识别（NER）机器学习模型的标注方法这三种方式的产生的标注结果进行融合，再利用融合后得到的标注结果训练新的NER机器学习模型，使得训练后的NER机器学习模型标注的结果能够符合预设的阈值，从而更加准确地对医疗文本进行医疗命名实体的标注。

为了更好地理解本申请实施例方案，下面先对方案中涉及到的若干概念描述如下：

医疗文本：是指内容与医疗信息相关的文本，包括疾病名称、治疗手段、药品名称等。

参与训练的医疗文本：是指为了训练机器学习模型需要的医疗文本集。

待识别的医疗文本：是指需要识别医疗命名实体的医疗文本。

海量医疗文本集：是指数量比较大的、且内容与医疗新信息相关的文本，其来源可以是数据库或者网络平台。

医疗命名实体：是指与医疗信息相关的命名实体。

医疗命名实体的标注：是指从文本中找出与医疗信息相关的命名实体，且对其进行标注。

基于字典的标注方法：是指根据收集医疗命名实体的字典对文本中的医疗命名实体进行标注的方法。

基于人工的标注方法：是指人工根据已有的知识对文本中的医疗命名实体进行标注的方法。

NER机器学习模型的标注方法：是指根据NER机器学习模型对文本中的医疗命名实体进行标注的方法。

BIO：是指一种描述当前字符位于实体中位置的表示方法，B表示当前字符位于实体的开始，I表示当前字符位于实体的中间，O表示当前字符不属于实体。

图1是本申请实现医疗命名实体识别的方法实施例一的流程图。如图1所示，该方法包括：

步骤101：利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第一标注结果。

如上所述，“基于字典的标注方法” 是指从文本中找出与医疗信息相关的命名实体，且对其进行标注。实际应用中，可以根据收集不同类型的医疗命名实体。比如：针对“疾病名称”这一类型，可以有“稳定性心绞痛”、“心律失常”等。针对“药品名称”这一类型，可以有“硝酸甘油”、“硝酸酯类”。有了字典，就可以根据字典对参与训练的医疗文本进行遍历，从而完成医疗命名实体的标注。为了与其他方式区别，本申请实施例将其标注结果称为“第一标注结果”。

步骤102：利用基于人工的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第二标注结果。

如上所述，“基于人工的标注方法” 是指人工根据已有的知识对文本中的医疗命名实体进行标注的方法。实际应用中，可以由非专业人士或专业人士根据自身具备的常识对参与训练的医疗文本进行遍历，从而完成医疗命名实体的标注。

步骤103：利用命名实体识别NER机器学习模型的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果。

如上所述，“NER机器学习模型的标注方法” 是指根据NER机器学习模型对文本中的医疗命名实体进行标注的方法。如果NER机器学习模型未进行训练，其标注结果准确度非常差。实际应用中，可以利用上述步骤101或步骤102的标注结果对NER机器学习模型进行初始训练，利用初始训练后的NER机器学习模型对参与训练的医疗文本进行处理，从而完成医疗命名实体的标注。

具体地，本步骤可以按照如下方式实现：先将参与训练的医疗文本利用BIO方式表示，获得BIO标注；再将参与训练的医疗文本和BIO标注作为输入，输入到所述NER机器学习模型；NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理，实现对所述参与训练的医疗文本进行医疗命名实体的标注，并将标注结果作为第三标注结果。

步骤104：将第一标注结果、第二标注结果和第三标注结果进行融合，将融合生成的标注结果作为第四标注结果。

本申请实施例为了提高标注结果的准确率，将上述三种方式得到的标注结果进行融合，具体的融合方法将在后续的实施例详细描述，此处不再赘述。

步骤105：根据第四标注结果更新NER机器学习模型的参数，并返回步骤103进行迭代，直到迭代生成的所述第四标注结果符合预设阈值，获得训练后的NER机器学习模型。

为了进一步提高标注结果的准确率，本申请实施例不断地迭代训练NER机器学习模型，并在每一次迭代过程中都对上述三种方式得到的标注结果进行融合。

步骤106：将待识别的医疗文本输入所述训练后的NER机器学习模型，获得输出的医疗命名实体。

应用本申请实施例方案，由于采用基于字典的标注方法、基于人工的标注方法以及NER机器学习模型的标注方法共三种标注方法，将三种标注结果进行融合，再将融合后的标注结果用于对NER机器学习模型的迭代训练，使得NER机器学习模型可以更加准确地对医疗文本中的命名实体进行标注，大大提高了准确率。

为了更好地描述本申请实施例的方案，下面用详细的实施例进行说明。在方法实施礼二中，假设将医疗命名实体分为9种类型，其含义和示例如下表一所示：

类型	含义	示例
			临床表现	指患者自身感受到的一系列症状表述	心悸、休克、胸痛
疾病	具有临床意义的疾病名称、诊断名称	稳定性心绞痛、心律失常、冠心病
			部位	是指疾病、症状和体征发生的人体解剖学部位	心脏、肝脏、冠状动脉
药品	包括药物名称、药物类别	硝酸甘油、硝酸酯类
			用法	药物的使用方法	每日三次、隔日一次
检查性操作	包括检查名称、具体检查指标，检查包括查体、实验室检测、影像检查等	CT、心脏彩超、血压、心率、血小板
			治疗性操作	对患者干预或改变特定健康状态的治疗方式	房颤消融、静脉注射、介入治疗、血管内球囊扩张成形术、支架植入术、外科冠状动脉旁路移植术
手术	具有临场意义的手术名称	冠状动脉旁路移植术、CABG
			医疗器械	用于诊疗的异体植入物、医疗仪器、设备等	支架、起搏器

表一

如表一所示，本申请实施例中的医疗命名实体类型包括：临场表现、疾病、部位、药品、用法、检查性操作、治疗性操作、手术、医疗器械，共9类。本申请实施例还假设已经针对上述9类分别收集了医疗命名实体集合，构成了字典。

本申请实施例还假设参与训练的医疗文本为：“冠心病的治疗包括介入治疗（血管内球囊扩张成形术和支架植入术）和外科冠状动脉旁路移植术”。当然这里所示的文本仅仅为简单示例，实际应用中可以包括大量的文本参与训练。

图2是本申请实现医疗命名实体识别的方法实施例二的流程图。如图2所示，该方法包括：

步骤201：利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第一标注结果。

本步骤与方法实施例一中的步骤101相同。

利用上述表一所示的字典对参与训练的医疗文本进行医疗命名实体的标注，假设第一标注结果为：将“冠心病”标注为“疾病”，将“介入治疗”、“血管内球囊扩张成形术”、“支架植入术”、“外科冠状动脉旁路移植术”分别标注为“治疗性操作”，将“冠状动脉”标注为“部位”。

步骤202：利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第二标注结果。

本步骤与方法实施例一中的步骤102相同。

假设本申请实施例在人工标注时，其第二标注结果为：将“冠心病”标注为“疾病”，将“血管内球囊扩张成形术”、“支架植入术”、“冠状动脉旁路移植术”分别标注为“治疗性操作”。

步骤203：将参与训练的医疗文本和BIO标注作为输入，输入到NER机器学习模型，BIO标注是事先将参与训练的医疗文本的标注结果利用BIO方式表示而生成的。

步骤204：NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理，实现对参与训练的医疗文本进行医疗命名实体的标注，并将标注结果作为第三标注结果。

上述步骤203和步骤204是方法实施例一中的步骤103的具体实施方式。

如前所述，BIO是描述当前字符位于实体中位置的表示方法，B表示当前字符位于实体的开始，I表示当前字符位于实体的中间，O表示当前字符不属于实体。由于本申请实施例包括9类医疗命名实体类型，文本中的每个字符可能属于某个医疗命名实体的开始，可能属于某个医疗命名实体的中间，也可能不属于任何医疗命名实体。需要澄清的是，本申请实施例并不对医疗命名实体的结尾单独表示，而是将其归于实体的中间。

将上述每一种位置表示称为BIO标注，在任何文本中的BIO标注存在9*2+1=19种类型。具体为：

B-临床表现	I-临床表现
		B-疾病	I-疾病
B-部位	I-部位
		B-药品	I -药品
B-用法	I -用法
		B-检查性操作	I -检查性操作
B-治疗性操作	I -治疗性操作
		B-手术	I -手术
B-医疗器械	I -医疗器械
		O

表二

其中，“B-临床表现”表示字符位于“临床表现”这一医疗命名实体的开始，“I-临床表现”表示字符位于“临床表现”这一医疗命名实体的中间，其他标签的含义以此类推，“O”表示字符不属于任何医疗命名实体。

按照表二所示的标签含义，对于“冠心病的治疗包括介入治疗（血管内球囊扩张成形术和支架植入术）和外科冠状动脉旁路移植术”这个参与训练的医疗文本来说，假设针对基于人工的标注方法得到的第二标注结果进行处理，其BIO标注可以表示为：

文本

冠

心

病

的

治

疗

包

括

……

标签

B-疾病

I-疾病

O

……

表三

此时，可以将上述参与训练的医疗文本和表三所述的BIO标注输入到NER机器学习模型中。

NER机器学习模型通常分为词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理等几个层次。其中：

词嵌入层处理中，将文本中的每个字符采用3个向量表示，分别为位置嵌入向量（Position Embedding）、分割嵌入向量（Segment Embedding）、字符嵌入向量（TokenEmbedding），将3个向量相加，作为字符输入NER机器学习模型的向量。

特征提取处理中，使用多层Transformers结构提取文本特征，将每个字符的上下文信息融入到对应的最终输出向量中，每个字符对应输入一个特征向量。

标签映射处理中，使用全连接层和softmax层将每个字符的特征向量映射到长度等于标签（即BIO标注）数量的向量上，每一个维度代表当前字符对应标签的概率。

CFR序列标注处理，在CFR层初始化状态转移矩阵，将文本序列的每个字符的标签概率分布输入到CRF计算概率最大的标注方式。其计算过程可以表示如下：

feature1, feature2,…, featuren=BERT（w1,w2,…,wn）公式1

label1, label2,…, labeln=CRF（feature1, feature2,…, featuren）公式2

其中，公式1的w1~wn表示输入文本的第1~n个字符；BERT表示自然语言处理领域常用的预训练模型，该模型整合了词嵌入层、特征提取层和标签映射等，输入文本w1~wn，输出每个字符的向量feature1~featuren，其向量维度为19，与BIO标注类型数量相同；再利用公式2将每个文本字符输入序列标注模型CRF，CRF模型输出每个字符对应的BIO标注。通过比较每个字符输出的BIO标注和输入时的基于人工的BIO标注，CRF模型更新参数，迭代并完成初始的NER机器学习模型的训练，并将初始的NER机器学习模型输出的BIO标注对应的医疗命名实体的标注作为第三标注结果。假设本申请实施例在利用NER机器学习模型标注时，其第三标注结果为：将“冠心病”标注为“疾病”，将“血管内球囊扩张成形术”、“支架植入术”、“外科冠状动脉旁路移植术”分别标注为“治疗性操作”。

需要说明的是，本步骤所述初始的NER机器学习模型的训练仅仅是为了生成第三标注结果对NER机器学习模型的训练。为了与后续NER机器学习模型的再次训练区别，这里称为初始的NER机器学习模型的训练。另外，这里是将基于人工的标注方法得到的第二标注结果作为初始的NER机器学习模型训练的基础，实际应用中也可以将基于字典的标注方法得到的第一标注结果作为模型训练基础，在此的示例不作为保护范围的限制。

至此，上述步骤201~步骤204已经对参与训练的医疗文本分别利用了基于字典的标注方法、基于人工的标注方法以及NER机器学习模型的标注方法进行了医疗命名实体的标注，并得到了第一标注结果、第二标注结果和第三标注结果。而下面的步骤205~步骤209将上述三种标注结果进行融合，步骤210利用融合后的标注结果再次对NER机器学习模型进行训练，得到新的训练后的NER机器学习模型。

步骤205：将第一标注结果、第二标注结果、第三标注结果分别用二进制方式表示，1表示对应字符属于所述医疗命名实体，0表示对应字符不属于所述医疗命令实体。

步骤206：将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算，将连续为1的字符段作为待定标注结果。

上述步骤205~步骤206先将第一标注结果、第二标注结果和第三标注结果进行合并，从中可以确定医疗命名实体的边界。以训练医疗文本“冠心病的治疗包括介入治疗（血管内球囊扩张成形术和支架植入术）和外科冠状动脉旁路移植术”为例，其合并结果如下：

文本	冠	心	病	的	治	疗	包	括	介	入	治	疗	（	血	管	内	球	囊	…
																				字典	1	1	1	0	0	0	0	0	1	1	1	1	0	0	0	0	0	0	…
人工	1	1	1	0	0	0	0	0	0	0	0	0	0	1	1	1	1	1	…
																				NER	1	1	1	0	0	0	0	0	0	0	0	0	0	1	1	1	1	1	…
合并	1	1	1	0	0	0	0	0	1	1	1	1	0	1	1	1	1	1	…

表四

也就是说，经过合并，待定标注结果包括：“冠心病”、“介入治疗”、“血管内球囊扩张成形术”、“支架植入术”、“外科冠状动脉旁路移植术”。本申请实施例并不是直接将待定标注结果作为第四标注结果参与NER机器学习模型的训练，而是根据上述几种标注结果的情况分别考虑。这是因为每一种标注方法的准确率不同，而且还可能存在多种不同的标注结果，需要对这些不同的结果进行取舍，而不是简单合并。比如：基于字典的标注方法对参与训练的医疗文本进行医疗命名实体标注时，将“冠状动脉”标注为“部位”，同时将“外科冠状动脉旁路移植术”标注为“治疗性操作”，其中的“冠状动脉”存在冲突情况。如果不对冲突的标注结果进行取舍，可能造成错误的标注。本申请实施例按照以下步骤207~步骤209的过程进行标注结果的取舍，完成融合。

步骤207：根据待定标注结果判断标注是否唯一，如果唯一，则执行步骤208；如果不唯一，则执行步骤209。

步骤208：将待定标注结果作为第四标注结果，再执行步骤210。

如果待定标注结果唯一，即上述三种标注方式未造成标注结果的冲突，可以直接作为第四标注结果。而如果标注结果不唯一，则认为造成了标注结果的冲突，还需要继续利用步骤209进行取舍。

步骤209：根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为第四标注结果，再执行步骤210。

对于标注结果发生冲突的情况，本申请实施例具体方法如下：

步骤x1：针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计，获得每一个分项标注结果对应的词频统计结果，所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率。

本申请实施例将发生冲突的标注结果称为分项标注结果。比如：“外科冠状动脉旁路移植术”可以标注为“治疗性操作”，其中的“冠状动脉”也可以标注为“部位”，那么这里的“外科冠状动脉旁路移植术”和“冠状动脉”就可以称为分项标注结果。实际应用中，可以分别将“外科冠状动脉旁路移植术”和“冠状动脉”进行词频统计，即从海量医疗文本集中查找该词出现的频率。海量医疗文本集的来源可以是数据库或者网络等。

步骤x2：如果每一个分项标注结果的词频统计结果相同，则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率，将取值概率最大的分项标注结果作为所述第四标注结果。

在词频统计相同的情况，可以根据权重计算取值概率。假设为基于字典的标注方法设置的权重为a，为基于人工的标注方法设置的权重为b，为NER机器学习模型的标注方法设置的权重为c，且a+b+c=1。根据上述步骤201~步骤204的三种标注方法的实施，各种命名实体的标注情况如下：

标注结果	基于字典	基于人工	NER机器学习模型	概率
					冠心病	a	b	c	1
介入治疗	a	0	0	a
					血管内球囊扩张成形术	0	b	c	b+c
支架植入术	0	b	c	b+c
					外科冠状动脉旁路移植术	a	0	c	a+c
冠状动脉	a	0	0	a
					冠状动脉旁路移植术	0	b	0	b

表五

如果“外科冠状动脉旁路移植术”和“冠状动脉”这两个分项标注结果的词频统计的结果相同，那么根据表五所示，由于“外科冠状动脉旁路移植术”同时被基于字典的标注方法和NER机器学习模型的标注方法标注，其概率为两者权重的和a+c，而“冠状动脉”仅被基于字典的标注方法标注，其概率为a。因此，如果“外科冠状动脉旁路移植术”和“冠状动脉”的词频统计的结果相同，应该取概率大的“外科冠状动脉旁路移植术”作为第四标注结果。

步骤x3：如果每一个分项标注结果的词频统计结果不是都相同，则将词频统计结果最大的分项标注结果作为所述第四标注结果。

步骤210：根据第四标注结果更新NER机器学习模型的参数，并返回到步骤204进行迭代，直到迭代生成的第四标注结果符合预设阈值，获得训练后的NER机器学习模型。

根据上述步骤205~步骤209的融合，当前已经得到第四标注结果。为了将基于字典的标注方法和基于人工的标注方法更好地融入NER机器学习模型中，本步骤根据第四标注结果更新NER机器学习模型的参数，并重复执行步骤204~步骤210进行迭代，获得符合要求的NER机器学习模型。

步骤211：将待识别的医疗文本输入训练后的NER机器学习模型，获得输出的医疗命名实体。

应用本申请实施例方案，由于将基于字典的标注方法、基于人工的标注方法、NER机器学习模型的标注方法获得的标注结果进行了融合，且在融合过程中还考虑了标注结果发生冲突的情况，并采用词频统计以及设置权重的方式进行解决，使训练后的NER机器学习模型能够更加准确地对待识别的医疗文本进行标注，提高了医疗命名实体识别的准确率。

本申请实施例还公开一种医疗命名实体识别的装置。图3是本申请装置实施例一的结构示意图。如图3所示，该装置包括：第一标注处理模块301、第二标注处理模块302、第三标注处理模块303、融合模块304、迭代模块305、识别模块306。其中：

第一标注处理模块301，利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第一标注结果。

第二标注处理模块302，利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第二标注结果。

第三标注处理模块303，利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果。

融合模块304，用于将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果。

迭代模块305，用于根据所述第四标注结果更新所述NER机器学习模型的参数，并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代，直到迭代生成的所述第四标注结果符合预设阈值，获得训练后的NER机器学习模型。

识别模块306，用于将待识别的医疗文本输入所述训练后的NER机器学习模型，获得输出的医疗命名实体。

也就是说，第一标注处理模块301利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第一标注结果；第二标注处理模块302利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第二标注结果；第三标注处理模块303利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果；融合模块304将第一标注结果、第二标注结果和第三标注结果进行融合，生成第四标注结果；迭代模块305根据第四标注结果更新NER机器学习模型的参数并进行迭代训练，获得训练后的NER机器学习模型；最后，识别模块306将待识别的医疗文本输入训练后的NER机器学习模型，获得输出的医疗命名实体。

图4是本申请实现医疗命名实体的装置实施例二的结构示意图。如图4所示，该装置包括：第一标注处理模块301、第二标注处理模块302、第三标注处理模块303、融合模块304、迭代模块305、识别模块306。其中，融合模块304包括二进制表示模块307、或运算模块308、第一判断模块309。第三标注处理模块303还包括NER机器学习处理模块310。具体地：

第三标注处理模块303，利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果。其中，NER机器学习处理模块310将所述参与训练的医疗文本和所述BIO标注作为输入，输入到所述NER机器学习模型，所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的；所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理，实现对所述参与训练的医疗文本进行医疗命名实体的标注，并将标注结果作为第三标注结果。

融合模块304，用于将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果。其中，二进制表示模块307将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示，1表示对应字符属于所述医疗命名实体，0表示对应字符不属于所述医疗命令实体。或运算模块308将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算，将连续为1的字符段作为待定标注结果。第一判断模块309根据待定标注结果判断标注是否唯一，如果唯一，则将所述待定标注结果作为所述第四标注结果；如果不唯一，则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果。

另一实施例中，第一判断模块309执行根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果的步骤时，其方法包括：针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计，获得每一个分项标注结果对应的词频统计结果，所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率；如果每一个分项标注结果的词频统计结果相同，则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率，将取值概率最大的分项标注结果作为所述第四标注结果；如果每一个分项标注结果的词频统计结果不是都相同，则将词频统计结果最大的分项标注结果作为所述第四标注结果。

本申请实施例还提供一种计算机可读介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述的医疗命名实体识别方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，可以实现上述各实施例描述的医疗命名实体识别的方法。根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图5所示，本发明实施例还提供一种电子设备，其中可以集成本申请实施例实现方法的装置。如图5所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器502的程序时，可以实现上述医疗命名实体识别的方法。

具体的，实际应用中，该电子设备还可以包括电源503、输入单元504、以及输出单元505等部件。本领域技术人员可以理解，图5中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器502可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

该电子设备还包括给各个部件供电的电源503，可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可以包括输出单元505，该输出单元505可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种医疗命名实体识别的方法，其特征在于，该方法包括：

将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果，包括：将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示，1表示对应字符属于所述医疗命名实体，0表示对应字符不属于所述医疗命名实体；将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算，将连续为1的字符段作为待定标注结果；根据待定标注结果判断标注是否唯一，如果唯一，则将所述待定标注结果作为所述第四标注结果；如果不唯一，则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果；

根据所述第四标注结果更新所述NER机器学习模型的参数，并返回到利用NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代，直到迭代生成的所述第四标注结果符合预设阈值，获得训练后的NER机器学习模型；

2.根据权利要求1所述的方法，其特征在于，所述根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果的步骤包括：

3.根据权利要求1或2所述的方法，其特征在于，所述利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注，将标注结果作为第三标注结果的步骤包括：

4.一种医疗命名实体识别的装置，其特征在于，该装置包括：第一标注处理模块、第二标注处理模块、第三标注处理模块、融合模块、迭代模块、识别模块；

所述融合模块，用于将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合，将融合生成的标注结果作为第四标注结果；所述融合模块包括：二进制表示模块、或运算模块、第一判断模块；所述二进制表示模块，将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示，1表示对应字符属于所述医疗命名实体，0表示对应字符不属于所述医疗命名实体；所述或运算模块，用于将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算，将连续为1的字符段作为待定标注结果；所述第一判断模块，用于根据待定标注结果判断标注是否唯一，如果唯一，则将所述待定标注结果作为所述第四标注结果；如果不唯一，则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果，将最终标注结果作为所述第四标注结果；

所述迭代模块，用于根据所述第四标注结果更新所述NER机器学习模型的参数，并返回到利用NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代，直到迭代生成的所述第四标注结果符合预设阈值，获得训练后的NER机器学习模型；

5.根据权利要求4所述的装置，其特征在于，

6.根据权利要求4或5所述的装置，其特征在于，所述第三标注处理模块包括NER机器学习处理模块；

所述NER机器学习处理模块，将所述参与训练的医疗文本和BIO标注作为输入，输入到所述NER机器学习模型，所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的；所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理，实现对所述参与训练的医疗文本进行医疗命名实体的标注，并将标注结果作为第三标注结果。

7.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1~3任一项所述的医疗命名实体识别的方法。

8.一种电子设备，其特征在于，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1~3任一项所述的医疗命名实体识别的方法。