CN112016311A

CN112016311A - 基于深度学习模型的实体识别方法、装置、设备及介质

Info

Publication number: CN112016311A
Application number: CN202010929008.1A
Authority: CN
Inventors: 何义龙; 朱威
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-01
Also published as: WO2021151322A1

Abstract

本发明涉及人工智能技术领域，涉及区块链技术领域，应用于智慧医疗领域，公开了一种基于深度学习模型的实体识别方法、装置、设备及介质，方法部分通过获取待识别医学文本，将待识别医学文本输入预设实体识别模型，预设实体识别模型的训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，获取预设实体识别模型输出的实体识别结果，将所实体识别结果作为待识别医学文本中提及的疾病实体并将疾病实体输出；本发明通过对训练集进行疾病实体标注和召回，采用召回+自然语言推理的方式建立预设实体识别模型，使得预设实体识别模型能有效地从待识别医学文本中识别不连续、并列的疾病实体，提高了疾病实体识别的准确性。

Description

基于深度学习模型的实体识别方法、装置、设备及介质

技术领域

本发明涉及智慧医疗技术领域，尤其涉及一种基于深度学习模型的实体识别方法、装置、设备及介质。

背景技术

知识图谱是目前自然语言领域最受欢迎的应用之一，可被应用到智能问答、搜索引擎等多个领域。在医疗领域中，构建医学知识图谱，可以将疾病与诊疗手段之间的错综复杂的关系，通过知识图谱构建成数据库，从而可以为医护人员提供很好的辅助诊断手段。而医学知识图谱的构建则需要自动化地从非结构化的医学文本中获取文本中涉及的疾病实体，进而根据疾病实体及其相关关系完成医学知识图谱构建。

现有技术中，主要通过实体识别和实体链接两个自然语言处理基础技术，以管线(pipeline)的形式从文本中抽取实体，其中，主流的实体识别技术是将文本转化为序列标注任务，以BIO标注文本序列的方式获取实体在文本中的对应提及，然后根据模型对实体提及进行实体链接，以将实体识别并映射到知识图谱的实体当中。

但在医疗领域中，疾病实体多为字母简写、缩写的方式等命名，导致医疗书文本，尤其是药品说明书中的疾病实体的提及形式多变。例如，疾病实体在药品说明书文本中常常以不连续、并列的方式出现，即不同疾病实体并列出现在同一位置、同一疾病实体分布在文本不同位置的情况。因此，若以传统的BIO标注方式在医学文本中进行疾病实体识别，获得的疾病实体识别效果不佳，疾病实体识别的准确性较低。

发明内容

本发明提供一种基于深度学习模型的实体识别方法、装置、设备及介质，以解决现有技术中，无法识别医学文本中不连续、并列的疾病实体，导致疾病实体识别的准确性低的问题。

一种基于深度学习模型的实体识别方法，包括：

获取待识别医学文本；

将所述待识别医学文本输入预设实体识别模型，所述预设实体识别模型为根据训练集和所述训练集的召回结果进行训练获得的实体识别模型，所述训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，所述训练集的召回结果为根据所述各医学文本中所有疾病实体对所述各医学文本进行召回处理的处理结果；

获取所述预设实体识别模型输出的实体识别结果；

将所述实体识别结果作为所述待识别医学文本中提及的疾病实体，并将所述疾病实体输出。

一种基于深度学习模型的实体识别装置，包括：

第一获取模块，用于获取待识别医学文本；

输入模块，用于将所述待识别医学文本输入预设实体识别模型，所述预设实体识别模型为根据训练集和所述训练集的召回结果进行训练获得的实体识别模型，所述训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，所述训练集的召回结果为根据所述各医学文本中所有疾病实体对所述各医学文本进行召回处理的处理结果；

第二获取模块，用于获取所述预设实体识别模型输出的实体识别结果；

输出模块，用于将所述实体识别结果作为所述待识别医学文本中提及的疾病实体，并将所述疾病实体输出。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于深度学习模型的实体识别方法的步骤。

一种可读存储介质，所可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于深度学习模型的实体识别方法的步骤。

上述基于深度学习模型的实体识别方法、装置、设备及介质所提供的一个方案中，通过获取待识别医学文本，将待识别医学文本输入预设实体识别模型，预设实体识别模型为根据训练集和训练集的召回结果进行训练获得的实体识别模型，训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，训练集的召回结果为根据各医学文本中所有疾病实体对各医学文本进行召回处理的处理结果，进而获取预设实体识别模型输出的实体识别结果，最后将所实体识别结果作为待识别医学文本中提及的疾病实体，并将疾病实体输出；本发明中，通过对训练集进行疾病实体标注和召回，采用召回+自然语言推理的方式建立预设实体识别模型，提高了预设实体识别模型识别以不同方式提及疾病实体的医学文本的疾病实体识别能力，使得预设实体识别模型能有效地从待识别医学文本中识别不连续、并列的疾病实体，解决了无法识别医学文本中不连续、并列的疾病实体的问题，从而提高了疾病实体识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于深度学习模型的实体识别方法的一应用环境示意图；

图2是本发明一实施例中基于深度学习模型的实体识别方法的一流程示意图；

图3是本发明一实施例中预设实体识别模型的一获取流程示意图；

图4是图3中步骤S20的一实现流程示意图；

图5是图3中步骤S30的一实现流程示意图；

图6是图3中步骤S40的一实现流程示意图；

图7是图3中步骤S50的一实现流程示意图；

图8是本发明一实施例中基于深度学习模型的实体识别装置的一结构示意图；

图9是本发明一实施例中计算机设备的一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于深度学习模型的实体识别方法，可应用在如图1的应用环境中，其中，终端设备通过网络与服务器进行通信。服务器通过获取通过终端设备中的待识别医学文本，并将待识别医学文本输入预设实体识别模型，预设实体识别模型为根据训练集和训练集的召回结果进行训练获得的实体识别模型，训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，训练集的召回结果为根据各医学文本中所有疾病实体对各医学文本进行召回处理的处理结果，进而获取预设实体识别模型输出的实体识别结果，最后将所实体识别结果作为待识别医学文本中提及的疾病实体，并将疾病实体输出，使得预设实体识别模型能有效地从待识别医学文本中识别不连续、并列的疾病实体，提高了疾病实体识别的准确性。

其中，终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本实施例中，获取的待识别医学文本、预设实体识别模型、实体识别结果和输出的疾病实体及其相关数据均保存在服务器的区块链数据库中。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。本实施例中将预设脑瘤分割模型和相关数据保存在区块链网络，便于对目标模型和数据进行快速查询，提高处理速度。

在一实施例中，如图2所示，提供一种基于深度学习模型的实体识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S01：获取待识别医学文本。

获取待识别医学文本，即获取需要从文本汇总提取疾病实体的医学文本，以便后续根据待识别医学文本进行疾病实体识别并输出。待识别医学文本是以不同方式提及的疾病实体的医学文本，即待识别医学文本可以是以并列、不连续的方式提及疾病实体的医学文本，或者是以连续、独立的方式提及疾病实体的医学文本。

S02：将待识别医学文本输入预设实体识别模型，预设实体识别模型为根据训练集和训练集的召回结果进行训练获得的实体识别模型，训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，训练集的召回结果为根据各医学文本中所有疾病实体对各医学文本进行召回处理的处理结果。

在获取待识别医学文本之后，将待识别医学文本输入预设实体识别模型，以使预设实体识别模型对待识别医学文本进行疾病实体识别。其中，预设实体识别模型为根据训练集和训练集的召回结果进行训练获得的实体识别模型，训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，训练集的召回结果为根据各医学文本中所有疾病实体对各医学文本进行召回处理的处理结果。其中，以不同方式提及疾病实体的医学文本包括以并列、不连续的方式提及疾病实体的医学文本，还包括以连续、独立的方式提及疾病实体的医学文本。

与传统的识别模型不同的是，在构建预设实体识别模型的过程中，需要对训练集中的医学文本进行基于自然语言推理的疾病实体标注，即标注出训练集中各医学文本提及的所有疾病实体，并对标注后的训练集进行召回处理，即对各医学文本提及的疾病实体进行分词处理，获得疾病实体的分词，在已有的疾病实体中获取与疾病实体的分词关联的疾病实体，以作为候选疾病实体，然后各医学文本根据标注后的训练集中医学文本提及的疾病实体确定候选疾病实体是否为医学文本的实际疾病实体，根据确定结果对各医学文本对应的候选疾病实体进行标注，获得各医学文本的召回结果，将各医学文本的召回结果汇总以获得训练集的召回结果，提高了训练集的召回率，从而提高了模型的准确性，采用召回+自然语言推理的方式建立的预设实体识别模型，具有较好的召回率和对待识别医学文本的识别能力，能有效地识别待识别医学文本不连续、并联出现的疾病实体。

例如，医疗文本为2型糖尿病使用本品时应减量，2型糖尿病伴酮酸中毒者禁止使用本品，则该文本中存在两个疾病实体：2型糖尿病、2型糖尿病伴酮酸中毒，2型糖尿病与2型糖尿病伴酮酸中毒两个实体均为在文本汇总以连续、独立的方式提及的疾病实体。医疗文本为：1型或2型糖尿病使用本品时应减量，但伴酮酸中毒者禁止使用本品，则该文本中存在四个疾病实体：1型糖尿病、2型糖尿病、1型糖尿病伴酮酸中毒、2型糖尿病伴酮酸中毒，其中，1型糖尿病与2型糖尿病在文本中以并列的方式出现，1型糖尿病伴酮酸中毒和2型糖尿病伴酮酸中毒在文本中以不连续的方式出现，传统的识别模型仅能识别出1型糖尿病、2型糖尿病，而无法将四种疾病实体都识别出来；通过将训练集中的各医学文本进行准确的疾病实体标注和对训练集进行召回之后，进行模型训练而获得的预设实体识别模型，则对医学文本具有良好的识别能力，能赚钱识别出待识别医疗文本中的四个疾病实体。

本实施例中，待识别医疗文本为1型或2型糖尿病使用本品时应减量，但伴酮酸中毒者禁止使用本品仅为示例性说明，在其他实施例中，待识别医疗文本还可以是其他文本，在此不再赘述。

S03：获取预设实体识别模型输出的实体识别结果。

在将待识别医学文本输入预设实体识别模型之后，获取预设实体识别模型输出的针对待识别医学文本的实体识别结果。

S04：将实体识别结果作为待识别医学文本中提及的疾病实体，并将疾病实体输出。

在获取预设实体识别模型输出的实体识别结果之后，将实体识别结果作为待识别医学文本中提及的疾病实体，并将疾病实体输出，以便后续根据输出的疾病实体进行相应的处理。

例如，医学文本可以药品说明书、疾病诊断报告、病历和医学文献等文本，在识别出医学文本中的疾病实体之后，可根据医学文本的类型对输出的疾病实体进行不同的处理，包括根据疾病实体构建基于知识图谱的医学数据库或者构建相应的诊疗方案等。

本实施例中，医学文本可以药品说明书、疾病诊断报告、病历和医学文献等文本仅为示例性说明，在其他实施例中，医学文本还可以是其他类型的文本，在此不再赘述。

本实施例中，根据疾病实体构建基于知识图谱的医学数据库或者构建相应的诊疗方案仅为示例性说明，在其他实施例中，还可以对输出的疾病实体进行其他处理，在此不再赘述。

此外，本实施例在利用预设实体识别模型识别出待识别医学文本中提及的疾病实体后，可以将疾病实体直接输出作为应用，而在传统的识别方法中，需要先从医学文本中识别出疾病实体的提及，然后再使用实体链接，将疾病实体的提及链接到该疾病实体的标准医学名称，例如在医学文本为I型糖尿病使用本品应减量，需要先抽取出疾病实体的提及：I型糖尿病，再使用实体链接技术将其链接到I型糖尿病的标准医学名称：1型糖尿病，最后对获得的疾病实体进行处理，而本实施例中本文提出基于深度学习模型的实体识别方法，可以直接识别出待识别医学文本中是的疾病实体：1型糖尿病，并进行准确的输出，省去了实体链接的步骤，将传统的实体识别+实体链接的pipeline形式转化为端到端的形式，实现了人工智能+实体提取的自动化处理过程，无需人工参与即可获得准确的疾病识别结果，提高了识别疾病实体的识别效率和识别能力。

上述基于深度学习模型的实体识别方法、装置、设备及介质所提供的一个方案中，通过获取待识别医学文本，将待识别医学文本输入预设实体识别模型，预设实体识别模型为根据训练集和训练集的召回结果进行训练获得的实体识别模型，训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，训练集的召回结果为根据各医学文本中所有疾病实体对各医学文本进行召回处理的处理结果，进而获取预设实体识别模型输出的实体识别结果，最后将所实体识别结果作为待识别医学文本中提及的疾病实体，并将疾病实体输出；本实施例中，通过对训练集的医学文本进行疾病实体标注和召回，采用召回+自然语言推理的方式建立预设实体识别模型，提高了预设实体识别模型召回率，以及识别以不同方式提及疾病实体的医学文本的疾病实体识别能力，使得预设实体识别模型能有效地从待识别医学文本中识别不连续、并列的疾病实体，解决了无法识别医学文本中不连续、并列的疾病实体的问题，从而提高了疾病实体识别的准确性。

在一实施例中，在待识别医学文本输入预设实体识别模型，需要预先训练出预设实体识别模型，如图3所示，步骤S10中，即预设实体识别模型的获取过程，具体包括如下步骤：

S10：根据已有的医学文本确定预设实体识别模型的训练集和测试集。

先获取医学数据库中已有的多个医学文本，并对多个医学文本中的部分医学文本进行疾病实体标注，即将医学文本中的包含的疾病实体提取出来进行标注，将标注后的医学文本以作为预设实体识别模型的训练集，并将未进行疾病实体标注的医学文本作为预设实体识别模型的测试集，以便后续根据训练集和测试集训练获得预设实体识别模型。

其中，医学数据库为根据已有医学文本建立的数据库，医学数据库收集有大量的医学文本和已有的疾病实体，目前，已有的疾病实体大约为8.8万个。

S20：利用搜索服务器搜索训练集中的各医学文本对应的多个候选疾病实体，候选疾病实体为名称的分词出现在医学文本中的疾病实体。

在确定训练集之后，利用搜索服务器搜索训练集中的各医学文本对应的多个候选疾病实体，其中，候选疾病实体为名称的分词出现在医学文本中的疾病实体。即，根据自然语言的逻辑，对已有的疾病实体的名称进行分词，在搜索服务器中建立分词与疾病实体的映射关系，然后将每一医学文本输入搜索服务器，根据医疗文本与已有的疾病实体的关联性进行搜索，获得每一医疗文本对应的后续疾病实体。

例如，搜索服务器可以为elasticsearch，使用倒排索引的原理，将已有的疾病实体的名称为1型糖尿病，将1型糖尿病进行分词，获得1型、糖尿病两个分词，就分别将1型和糖尿病对1型糖尿病做映射，若输入elasticsearch的医学文本中包含了1型或糖尿病两个字段，则就将1型糖尿病作为该医学文本的一个候选实体。

本实施例中，搜索服务器为可以为elasticsearch仅为示例性说明，在其他实施例中，搜索服务器还可以为其他，在此不再赘述。

本实施例中，根据自然语言的逻辑对疾病实体的名称进行分词，然后进行搜索匹配以获得候选疾病实体，由于医疗文本与候选疾病实体存在共有的分词，使得多个候选实体中一定存在医疗文本中所提及的疾病实体，提高了训练集的召回率。

S30：根据训练集中的各医学文本对对应的多个候选疾病实体进行标注，以获得训练集的召回结果。

在利用搜索服务器搜索训练集中的各医学文本对应的多个候选疾病实体之后，根据训练集中的各医学文本对对应的多个候选疾病实体进行标注，即确定搜索到的候选疾病实体是否为各医学文本中提及的疾病实体，并根据确定结果对各医学文本的候选疾病实体进行正例或者负例的标注，从而获得训练集的召回结果。本步骤的目的在与对训练集中医疗文本进行召回处理，以提高训练集的召回率，从而提高后续训练模型的准确性。

S40：根据训练集和训练集的召回结果训练获得二分类模型。

在获得训练集的召回结果之后，根据训练集和训练集的召回结果训练获得二分类模型。

S50：根据测试集和二分类模型确定预设实体识别模型。

在根据训练集和训练集的召回结果训练获得二分类模型之后，使用二分类模型在测试集上进行疾病实体预测，确定预测结果的准确性，从而根据预测结果的准确性确定出预设实体识别模型。

本实施例中，通过根据已有的医学文本确定预设实体识别模型的训练集和测试集，然后利用搜索服务器搜索训练集中的各医学文本对应的多个候选疾病实体，并根据训练集中的各医学文本对对应的多个候选疾病实体进行标注，以获得训练集的召回结果，再根据训练集和训练集的召回结果训练获得二分类模型，最后根据测试集和二分类模型确定预设实体识别模型，明确了预设实体识别模型的获取过程，通过自然语言推理+召回的方式构建预设实体识别模型，提高了预设实体识别模型的识别准确性。

在一实施例中，如图4所示，步骤S20中，即利用搜索服务器搜索训练集中的各医学文本对应的多个候选疾病实体，具体包括如下步骤：

a.获取医学上已有的疾病实体的名称。

b.对各疾病实体的名称进行分词处理，获得各疾病实体的多个分词。

c.利用搜索服务器确定训练集中各医学文本是否包含疾病实体的分词。

d.若医学文本中包含疾病实体的分词，则将疾病实体作为医学文本的候选疾病实体。

e.重复步骤c-d，直至确定出医学文本预设数量的候选疾病实体。

f.重复步骤c-e，直至获得训练集中所有医学文本的候选疾病实体。

其中，利用搜索服务器确定训练集中各医学文本是否包含疾病实体的分词之后，若医学文本中不包含疾病实体的分词，则该疾病实体不是该医学文本的候选疾病实体。

例如，疾病实体的名称为1型糖尿病，将1型糖尿病进行分词，获得1型、糖尿病两个分词，将训练集中各医学文本逐一输入搜索服务器中，以确定各医学文是否包含1型、糖尿病中任意一个分词，若在医学文本中包含了1型或糖尿病两个字段，则就将1型糖尿病作为该医学文本的一个候选实体，之后，继续对其他疾病实体的名称分词进行搜索判断，直至确定每一医学文本都有预设数量的候选疾病实体，最后确定训练集中的每一医学文本都具有预设数量的候选疾病实体。

在一实施例中，预设数量可以为100个，即训练集中的每一医学文本都具有100个候选疾病实体，本实施例中，预设数量为100个仅为示例性说明，在其他实施例中，预设数量还可以是其他数值，在此不再赘述。

由于已有的疾病实体大约为8.8万个，若将训练集中的各医学文本与所有的疾病实体进行搜索匹配，工作量过大，召回效率较低，本实施例中为训练集中的各医学文本匹配预设数量的候选疾病实体，降低了工作量，提高了训练集召回处理的效率，进而提高了预设实体识别模型的效率。

本实施例中，通过获取医学上已有的疾病实体的名称，对各疾病实体的名称进行分词处理，获得各疾病实体的多个分词，利用搜索服务器确定训练集中各医学文本是否包含疾病实体的分词，若医学文本中包含任一疾病实体的分词，则将疾病实体作为医学文本的候选疾病实体，确定出医学文本预设数量的候选疾病实体，最终获得训练集中所有医学文本的候选疾病实体，细化了利用搜索服务器搜索训练集中的各医学文本对应的多个候选疾病实体的具体步骤，通过为训练集中的各医学文本匹配预设数量的候选疾病实体，在保证训练集召回率的基础上，降低了工作量，提高了训练集召回处理的效率，进而提高了预设实体识别模型的效率。

在一实施例中，如图5所示，步骤S30中，即根据训练集中的各医学文本对对应的多个候选疾病实体进行标注，具体包括如下步骤：

S31：确定候选疾病实体是否为各医学文本中提及的疾病实体。

在为训练集中的各医学文本匹配多个候选疾病实体之后，获取根训练集中各医学文本的疾病实体标注结果，并医学文本的疾病实体标注结果根据确定候选疾病实体是否为各医学文本中提及的疾病实体的确定结果。

S32：若候选疾病实体为各医学文本中提及的疾病实体，则将候选疾病实体标注为正例。

在确定候选疾病实体是否为各医学文本中提及的疾病实体之后，若根据医学文本的疾病实体标注结果确定候选疾病实体为各医学文本中提及的疾病实体，则将候选疾病实体标注为正例。

S33：若候选疾病实体不为各医学文本中提及的疾病实体，则将候选疾病实体标注为负例。

在确定候选疾病实体是否为各医学文本中提及的疾病实体之后，若根据医学文本的疾病实体标注结果确定候选疾病实体不为各医学文本中提及的疾病实体，则将候选疾病实体标注为负例。

例如，医学文本为：1型或2型糖尿病使用本品时应减量，但伴酮酸中毒者禁止使用本品。该医学文本的疾病实体标注结果包括1型糖尿病、2型糖尿病、1型糖尿病伴酮酸中毒、2型糖尿病伴酮酸中毒，该医学文本对应的多个候选疾病实体包括1型糖尿病、2型糖尿病、继发性糖尿病和妊娠期糖尿病，其中，1型糖尿病和2型糖尿病为该医学文本的提及的疾病实体，则将候选疾病实体中的1型糖尿病和2型糖尿病标注为正例，标注为1；继发性糖尿病和妊娠期糖尿病不是该医学文本的提及的疾病实体，将候选疾病实体中的继发性糖尿病和妊娠期糖尿病标注为负例，标注为0。

本实施例中，该医学文本对应的多个候选疾病实体包括1型糖尿病、2型糖尿病、继发性糖尿病和妊娠期糖尿病仅为示例性说明，在其他实施例中，该医学文本对应的多个候选疾病实体还包括其他关联的疾病实体，在此不再赘述。

在对各候选疾病实体进行标注之后，将各医学文本的候选疾病实体和各候选疾病实体对应的标注结果作为训练集的召回结果。

在对各候选疾病实体进行标注之后，获取医学文本中各候选疾病实体对应的标注结果，其中，标注结果包括正例和负例，然后将各医学文本的候选疾病实体和各候选疾病实体对应的标注结果作为训练集的召回结果，以便后续根据训练集中各医学文本的候选疾病实体和各候选疾病实体对应的标注结果对模型进行训练，提高训练模型的召回率和准确性。

本实施例中，通过确定候选疾病实体是否为各医学文本中提及的疾病实体的确定结果，若候选疾病实体为各医学文本中提及的疾病实体的确定结果，则将候选疾病实体标注为正例，若候选疾病实体不为各医学文本中提及的疾病实体的确定结果，则将候选疾病实体标注为负例，对根据训练集中的各医学文本对对应的多个候选疾病实体进行标注的过程进行了细化，为后续预设实体识别模型的训练提供了数据基础，从而保证了预设实体识别模型的识别准确性。

在一实施例中，如图6所示，步骤S40中，即根据训练集和训练集的召回结果训练获得二分类模型，具体包括如下步骤：

S41：将训练集中的医疗文本与对应的多个候选疾病实体以两两配对的形式输入预训练模型。

在获得训练集的召回结果之后，将训练集中的医疗文本与对应的多个候选疾病实体以两两配对的形式输入预训练模型。

其中，预训练模型可以是bert模型，本实施例中，以预训练模型是bert模型为例进行说明。即在获得训练集的召回结果之后，将医疗文本分别与各候选疾病进行配对，将医疗文本作为A句，将配对的候选疾病作为B句以配对的形式分别输入预训练模型中，以预测A句的医疗文本中是否包含B句的候选疾病。

例如，医疗文本为1型或2型糖尿病使用本品时应减量，但伴酮酸中毒者禁止使用本品，该医学文本对应的多个候选疾病实体包括1型糖尿病、2型糖尿病、继发性糖尿病和妊娠期糖尿病，将1型或2型糖尿病使用本品时应减量，但伴酮酸中毒者禁止使用本品分别与1型糖尿病、2型糖尿病、1型糖尿病伴酮酸中毒、2型糖尿病伴酮酸中毒进行配对，然后根据配对结果，将1型或2型糖尿病使用本品时应减量，但伴酮酸中毒者禁止使用本品作为A句输入预训练模型，并将1型糖尿病、2型糖尿病、继发性糖尿病和妊娠期糖尿病逐一作为B句输入预训练模型，以判断A句中是否包含B句。

S42：根据训练集的召回结果对预训练模型进行训练，获得二分类模型。

在将训练集中的医疗文本与对应的多个候选疾病实体以两两配对的形式输入预训练模型之后，根据训练集的召回结果对预训练模型进行训练，获得二分类模型。

其中，可将交叉熵作为损失函数进行二分类模型训练，本实施例中，将交叉熵作为损失函数进行二分类模型训练仅为示例性说明，在其他实施例中，损失函数还可以是其他函数，在此不再赘述。

本实施例中，在获取训练集中的医疗文本与对应的多个候选疾病实体之后，通过将训练集中的医疗文本与对应的多个候选疾病实体以两两配对的形式输入预训练模型，然后根据训练集的召回结果对预训练模型进行训练，获得二分类模型，细化了根据训练集和训练集的召回结果训练获得二分类模型的步骤，为后续预设实体识别模型的获取提供了模型基础。

在一实施例中，如图7所示，步骤S50中，即根据测试集和二分类模型确定预设实体识别模型，具体包括如下步骤：

S51：采用二分类模型对测试集进行预测，以获得疾病实体预测结果。

在获取二分类模型之后，在二分类模型对测试集中未进行疾病实体标注的医学文本进行预测，以获得测试集中各医学文本的疾病实体预测结果。

S52：获得疾病实体预测结果的人工审核结果。

在获得测试集中各医学文本的疾病实体预测结果之后，对获得疾病实体预测结果进行人工审核，以确定测试集中各医学文本的疾病实体预测结果是否正确，根据确定结果对各疾病实体预测结果进行标注，从而获得人工审核结果。

S53：根据疾病实体预测结果和对应的人工审核结果更新训练集。

在获得疾病实体预测结果的人工审核结果之后，选取预测正确的医疗文本，并根据对应的疾病实体预测结果对预测正确的医疗文本进行疾病实体标注，获得预测正确的医疗文本以及对应的疾病实体标注结果，最后将预测正确的医疗文本以及对应的疾病实体标注结果加入训练集中，以增加训练集的数据，从而提高训练模型的识别准确性。

S54：根据更新的训练集对二分类识别模型进行重复训练以获得预设实体识别模型。

在根据疾病实体预测结果和对应的人工审核结果更新训练集之后，对根据更新的训练集进行召回处理，然后获得更新训练集的召回结果，进而根据更新的训练集和更新训练集的召回结果对二分类识别模型进行再次训练，进而获得在测试集上的预测结果，然后重复上述过程，直至二分类识别模型对测试集的识别准确性达到预期，并将识别准确性达到预期的二分类识别模型作为预设实体识别模型，保证预设实体识别模型对疾病实体识别的准确性。

本实施例中，在获取二分类模型之后，通过采用二分类模型对测试集进行预测，以获得疾病实体预测结果，然后获得疾病实体预测结果的人工审核结果，再将疾病实体预测结果和对应的人工审核结果更新训练集，最后根据更新的训练集对二分类识别模型进行重复训练以获得预设实体识别模型，对根据测试集和二分类模型确定预设实体识别模型的过程进行了细化，通过根据人工审核结果更新训练集，增加了训练集的数据，进一步提高了预设实体识别模型的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于深度学习模型的实体识别装置，该基于深度学习模型的实体识别装置与上述实施例中基于深度学习模型的实体识别方法一一对应。如图8所示，该基于深度学习模型的实体识别装置包括第一获取模块801、输入模块802、第二获取模块803和输出模块804。各功能模块详细说明如下：

第一获取模块801，用于获取待识别医学文本；

输入模块802，用于将所述待识别医学文本输入预设实体识别模型，所述预设实体识别模型为根据训练集和所述训练集的召回结果进行训练获得的实体识别模型，所述训练集为将各医学文本中以不同方式提及的疾病实体标注出的医学文本训练集，所述训练集的召回结果为根据所述各医学文本中所有疾病实体对所述各医学文本进行召回处理的处理结果；

第二获取模块803，用于获取所述预设实体识别模型输出的实体识别结果；

输出模块804，用于将所述实体识别结果作为所述待识别医学文本中提及的疾病实体，并将所述疾病实体输出。

进一步地，所述基于深度学习模型的实体识别装置还包括模型训练模块805，所述模型训练模块805具体用于：

根据已有的医学文本确定所述预设实体识别模型的训练集和测试集；

利用搜索服务器搜索所述训练集中的各医学文本对应的多个候选疾病实体，所述候选疾病实体为名称的分词出现在所述医学文本中的疾病实体；

根据所述训练集中的各医学文本对所述对应的多个候选疾病实体进行标注，以获得所述训练集的召回结果；

根据所述训练集和所述训练集的召回结果训练获得二分类模型；

根据所述测试集和所述二分类模型确定所述预设实体识别模型。

进一步地，所述模型训练模块805还具体用于：

确定所述候选疾病实体是否为所述各医学文本中提及的疾病实体；

若所述候选疾病实体为所述各医学文本中提及的疾病实体，则将所述候选疾病实体标注为正例；

若所述候选疾病实体不为所述各医学文本中提及的疾病实体，则将所述候选疾病实体标注为负例；

获取各所述候选疾病实体对应的标注结果，并将所述各医学文本的候选疾病实体和各所述候选疾病实体对应的标注结果作为所述训练集的召回结果。

进一步地，所述模型训练模块805还具体用于：

a.获取医学上已有的疾病实体的名称；

b.对各所述疾病实体的名称进行分词处理，获得各所述疾病实体的多个分词；

c.利用所述搜索服务器确定所述训练集中各医学文本是否包含所述疾病实体的分词；

d.若所述医学文本中包含任一所述疾病实体的分词，则将所述疾病实体作为所述医学文本的候选疾病实体；

e.重复步骤c-d，直至确定出所述医学文本预设数量的候选疾病实体；

f.重复步骤c-e，直至获得所述训练集中所有医学文本的候选疾病实体。

进一步地，所述模型训练模块805还具体用于：

将所述训练集中的医疗文本与所述对应的多个候选疾病实体以两两配对的形式输入预训练模型；

根据所述训练集的召回结果对所述预训练模型进行训练，获得所述二分类模型。

进一步地，所述模型训练模块805还具体用于：

采用所述二分类模型对所述测试集进行预测，以获得疾病实体预测结果；

获得所述疾病实体预测结果的人工审核结果；

将所述疾病实体预测结果和对应的人工审核结果更新所述训练集；

根据更新的训练集对所述二分类识别模型进行重复训练以获得所述预设实体识别模型。

关于基于深度学习模型的实体识别装置的具体限定可以参见上文中对于基于深度学习模型的实体识别方法的限定，在此不再赘述。上述基于深度学习模型的实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设实体识别模型及其产生的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习模型的实体识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取待识别医学文本；

获取所述预设实体识别模型输出的实体识别结果；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别医学文本；

获取所述预设实体识别模型输出的实体识别结果；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习模型的实体识别方法，其特征在于，包括：

获取待识别医学文本；

获取所述预设实体识别模型输出的实体识别结果；

2.如权利要求1所述的基于深度学习模型的实体识别方法，其特征在于，所述预设实体识别模型通过如下方式获取：

3.如权利要求2所述的基于深度学习模型的实体识别方法，其特征在于，所述根据所述训练集中的各医学文本对所述对应的多个候选疾病实体进行标注，以获得所述训练集的召回结果，包括：

4.如权利要求2所述的基于深度学习模型的实体识别方法，其特征在于，所述利用搜索服务器搜索所述训练集中的各医学文本对应的多个候选疾病实体，包括：

a.获取医学上已有的疾病实体的名称；

5.如权利要求2所述的基于深度学习模型的实体识别方法，其特征在于，所述根据所述训练集和所述训练集的召回结果训练获得二分类模型，包括：

6.如权利要求2-5任一项所述的基于深度学习模型的实体识别方法，其特征在于，所述根据所述测试集和所述二分类模型确定所述预设实体识别模型，包括：

获得所述疾病实体预测结果的人工审核结果；

7.一种基于深度学习模型的实体识别装置，其特征在于，包括：

第一获取模块，用于获取待识别医学文本；

8.如权利要求7所述的基于深度学习模型的实体识别装置，其特征在于，所述基于深度学习模型的实体识别装置还包括模型训练模块，所述模型训练模块具体用于：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于深度学习模型的实体识别方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于深度学习模型的实体识别方法的步骤。