CN113343703B

CN113343703B - 医学实体的分类提取方法、装置、电子设备及存储介质

Info

Publication number: CN113343703B
Application number: CN202110905944.3A
Authority: CN
Inventors: 史鹏涛; 刘娇; 张奇
Original assignee: Beijing Huimeiyun Technology Co ltd
Current assignee: Beijing Huimeiyun Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-10-29
Anticipated expiration: 2041-08-09
Also published as: CN113343703A

Abstract

本申请提供了一种医学实体的分类提取方法、装置、电子设备及存储介质，获取医疗数据中的待识别文本，确定实体特征，实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征；将实体特征输入至分类提取模型中，得到医学实体对应的至少一个标签，以从待识别文本中提取出至少一个标签对应的医学实体；分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的，伪标签数据、小粒度词典和字向量词典通过将文本样本输入至预先训练好的特征提取模型确定出的，特征提取模型通过文本样本的标注数据训练得到。这样，本申请使用的分类提取模型在从医疗数据中提取标签和实体时的速度更快，准确率更高。

Description

医学实体的分类提取方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种医学实体的分类提取方法、装置、电子设备及存储介质。

背景技术

医学领域中的电子病历包含丰富的医疗数据，为了更好的使用电子病历，需要从电子病历的医疗数据中提取出不同类别的医学实体。

医学实体分类提取是指从电子病历中提取解剖部位、诊断、肿瘤分期和药品名称等医学实体。目前常用的电子病历医学实体分类提取方法主要是基于深度学习方法，常用模型是BERT-CRF和BiLSTM-CRF。如果选择BiLSTM-CRF模型，则需要大量的标记数据，但是缺少中文电子病历的公开语料，且医学标注需要专业性较强的专家进行数据标注，需要投入的人力物力太大；如果选择BERT-CRF模型，虽然可以减轻标注的任务，但是模型太大，很难在医院里部署。

发明内容

有鉴于此，本申请的目的在于提供一种医学实体的分类提取方法、装置、电子设备及存储介质，通过标注数据训练特征提取模型，通过训练好的特征提取模型确定伪标签数据、小粒度词典和字向量词典，通过标注数据、伪标签数据、小粒度词典和字向量词典训练分类提取模型，以使得到的分类提取模型在从医疗数据中提取标签和实体时的速度更快，准确率更高。

第一方面，本申请实施例提供了一种医学实体的分类提取方法，所述分类提取方法包括：

获取医疗数据中的待识别文本；

确定所述待识别文本的实体特征，所述实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征；

将确定出的实体特征输入至预先训练好的分类提取模型中，得到所述待识别文本中的医学实体对应的至少一个标签，以从所述待识别文本中提取出所述至少一个标签对应的医学实体；其中，所述分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的，所述伪标签数据、所述小粒度词典和所述字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的，所述特征提取模型是通过所述文本样本的标注数据训练得到的。

可选地，通过以下步骤训练所述特征提取模型：

从医疗数据中确定未标注的文本样本和所述文本样本的标注数据；

将所述未标注的文本样本输入至预先构建好的特征提取模型中，输出多组实体位置，其中，每组实体位置依次包括一个实体开始位置和一个实体结束位置；

将输出的实体开始位置和实体结束位置之间的字符组成一个医学实体；

将得到的每个医学实体与所述文本样本的标注数据中对应标注的医学实体进行比对，在比对结果均一致的情况下，得到训练好的特征提取模型。

可选地，所述伪标签数据、所述小粒度词典和所述字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的步骤，包括：

将所述文本样本输入至预先训练好的特征提取模型中，输出多组实体位置，其中，每组实体位置依次包括一个实体开始位置和一个实体结束位置，将所述实体开始位置和所述实体结束位置之间的字符组成一个医学实体；

基于预先标注好的字符与标签之间的映射关系，确定所述医学实体对应的伪标签数据；

将所述医学实体经过校正得出小粒度词以及该小粒度词对应的标签，确定得到的小粒度词以及其对应的标签组成小粒度词典；

将预先构建好的单字医学字典输入至预先训练好的特征提取模型中，获取多个单字对应的高维单字向量，并对高维单字向量进行降维，得到由单字以及与每个单字对应的低维单字向量组成的字向量词典。

可选地，所述分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的步骤，包括：

根据所述文本样本的标注数据确定第一实体特征，以及根据所述伪标签数据确定第二实体特征，其中，所述第一实体特征和所述第二实体特征中均包括的小粒度特征要结合所述小粒度词典确定得出，所述第一实体特征和所述第二实体特征中均包括的单字向量要结合所述字向量词典确定得出；

将所述第一实体特征和所述第二实体特征分别输入至预先构建好的分类提取模型中，分别得到所述文本样本中的医学实体对应的多个第一标签和多个第二标签；

针对所述多个第一标签，将所述多个第一标签中的每个第一标签与所述文本样本的标注数据中对应的标签进行比对，若比对结果不一致，则调节所述分类提取模型的模型参数，直至更新后的多个第一标签中的每个第一标签均与所述文本样本的标注数据中对应的标签进行比对的比对结果一致；

针对所述多个第二标签，将所述多个第二标签中的每个第二标签与所述文本样本的伪标签数据中对应的标签进行比对，若比对结果不一致，则调节所述分类提取模型的模型参数，直至更新后的多个第二标签中的每个第二标签均与所述文本样本的伪标签数据中对应的标签进行比对的比对结果一致；

在对所述多个第一标签和所述多个第二标签训练完后，确定对所述分类提取模型训练完成。

可选地，所述单字向量指的是所述待识别文本中的每个单字在预先构建好的字向量词典中所对应的向量；

所述双字位置标记指的是所述待识别文本中的每个双字在预先构建好的双字医学字典中的位置标记；

所述双字频率指的是所述待识别文本中的每个双字在医疗数据中出现的次数；

所述切词特征指的是通过切词工具对所述待识别文本进行切词处理后记录得到的切词位置在待识别文本中的位置标记；

所述小粒度特征指的是所述待识别文本中的小粒度词经过拆分后得到的小粒度单字及其对应标签在预先构建好的小粒度单字标签词典中的位置标记；其中，所述小粒度单字标签词典是基于小粒度词典得到的。

可选地，通过以下步骤确定所述待识别文本的小粒度特征：

获取根据特征提取模型而预先构建好的小粒度词典；所述小粒度词典包括小粒度词以及每个小粒度词对应的标签；

对小粒度词典进行预处理得到小粒度单字标签词典；所述小粒度单字标签词典包括组合字符及该组合字符对应的数字标记，所述组合字符包括将小粒度词拆分所得到的小粒度单字以及该小粒度单字对应的标签；

从待识别文本中提取出小粒度词，将提取出的小粒度词进行拆分得到小粒度单字；

从所述小粒度单字标签词典中找到与所述待识别文本中的小粒度单字对应的位置标记。

可选地，通过以下步骤确定所述待识别文本的单字向量：

将预先构建好的单字医学字典输入至预先训练好的特征提取模型中，获取多个单字对应的高维单字向量，并对高维单字向量进行降维，得到由单字以及与每个单字对应的低维单字向量组成的字向量词典；

从所述待识别文本中提取出单字，将提取出的单字与所述字向量词典进行比对，得到所述待识别文本中的单字对应的单字向量。

第二方面，本申请实施例还提供一种医学实体的分类提取装置，所述分类提取装置包括：

获取模块，用于获取医疗数据中的待识别文本；

特征提取模块，用于确定所述待识别文本的实体特征，所述实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征；

标签提取模块，用于将提取出的实体特征输入至预先训练好的分类提取模型中，得到所述待识别文本中的医学实体对应的至少一个标签，以从所述待识别文本中提取出所述至少一个标签对应的医学实体；其中，所述分类提取模型是通过文本样本的标注数据、伪标签数据和小粒度词典训练得到的，所述伪标签数据和所述小粒度词典是通过将文本样本输入至预先训练好的特征提取模型中得到的，所述特征提取模型是通过所述文本样本的标注数据训练得到的。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的医学实体的分类提取方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的医学实体的分类提取方法的步骤。

本申请实施例提供了一种医学实体的分类提取方法、装置、电子设备及存储介质，其中，所述方法包括：获取医疗数据中的待识别文本；从待识别文本中提取出实体特征，实体特征包括单字向量、双字位置标记、双字频率、切词特征和小粒度特征；将确定出的实体特征输入至预先训练好的分类提取模型中，得到待识别文本中的医学实体对应的至少一个标签，以从待识别文本中提取出至少一个标签对应的医学实体；其中，分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的，伪标签数据、小粒度词典和字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的，特征提取模型是通过文本样本的标注数据训练得到的。

与现有的BiLSTM-CRF模型需要大量的标记数据，但是缺少中文电子病历的公开语料，且医学标注需要专业性较强的专家进行数据标注，需要投入的人力物力太大，以及BERT-CRF模型虽然可以减轻标注的任务，但是模型太大，很难在医院里部署的问题相比，本申请实施例先通过标注数据训练特征提取模型，再通过训练好的特征提取模型确定伪标签数据、小粒度词典和字向量词典，最后通过标注数据、伪标签数据、小粒度词典和字向量词典训练分类提取模型，以使得到的分类提取模型在从医疗数据中提取标签和实体时的速度更快，准确率更高，进而解决分类提取模型推理速度慢的问题。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种医学实体的分类提取方法的流程图；

图2为本申请实施例所提供的另一种医学实体的分类提取方法的流程图；

图3为本申请实施例所提供的一种特征提取模型应用的流程图；

图4为本申请实施例所提供的一种医学实体的分类提取装置的结构示意图；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于医疗领域，随着医院信息化的飞速发展，积累的医疗数据越来越多，其中最基础的医疗数据是电子病历。电子病历包含丰富的医疗数据，是实现临床决策辅助系统、内涵质控、鉴别诊断等应用的重要组成部分。为了更好的使用电子病历，需要对电子病历中的医学实体进行分类提取。医学实体分类提取是指从电子病历中提取时间、方位、解剖部位、诊断、肿瘤分期、实验室检查、药品名称、手术名称和存在状态等实体。提取出的医学实体可以加一些关系的组合构成一个知识图谱，提取出的实体也可以做很多的业务，比如临床决策支持系统（Clinical DecisionSupport System，CDSS），数据上报，还可以通过命名实体识别(NER)出一些词做逻辑判断，比如：诊断出什么疾病，使用什么药物，具体看业务需求。

目前常用的电子病历实体分类提取方法主要是基于深度学习的方法，主流模型是BERT-CRF和BiLSTM-CRF。18年Google开源BERT后，预训练模型逐渐成为自然语言处理（Natural Language Processing，NLP）的主流方法，命名实体识别、实体链接、智能问答等领域开始采用BERT作为特征提取的方法，如BERT-CRF经常被用于实体分类提取的任务，常被用于线上模型。但是由于离线环境的配置不如线上环境，NLP相关任务还是采用传统机器学习方法或较小的深度学习模型，如BiLSTM-CRF一般作为实体分类任务的基础线。

举例说明，在一家新的专科医院做医学实体分类，比如需要提取肿瘤电子病历中的时间、方位、解剖部位、诊断、肿瘤分期、实验室检查、药品名称、手术名称和存在状态等医学实体，需要训练一个新的深度学习模型。如果选择BiLSTM-CRF方法，则需要大量的标记数据，但是缺少公开的中文电子病历公开语料，且医学标注需要专业性较强的专家进行数据标注，因此比通用领域投入的人力物力更大。其次，现阶段的医疗产品都是部署到医院，但是医院的服务器缺少图形处理器（Graphics Processing Unit，GPU），因而需要推理速度更快的模型。如果选择BERT-CRF方法，虽然可以减轻标注的任务，但是模型太大，基本不太现实在医院里部署。

基于此，本申请实施例提供一种医学实体的分类提取方法、装置、电子设备及存储介质，通过标注数据训练特征提取模型，通过训练好的特征提取模型确定伪标签数据、小粒度词典和字向量词典，通过标注数据、伪标签数据、小粒度词典和字向量词典训练分类提取模型，以使得到的分类提取模型在从医疗数据中提取标签和实体时的速度更快，准确率更高，节省人力物力，且可以在医院里部署。

举例说明，在本申请实施例中，特征提取模型可以为BERT-MRC模型，分类提取模型可以为IDCNN-CRF模型，BERT-MRC模型只用来生成IDCNN-CRF模型的训练数据，因为BERT-MRC模型非常庞大，用不到实际的生产环境里面。这里使用BERT-MRC模型可以生成一些高质量的数据（伪标签数据），节约很大的人力成本去构造标注数据，使用高质量的数据来训练IDCNN-CRF模型，可以得到一个精确度很高的IDCNN-CRF模型，将该IDCNN-CRF模型作为医院离线模型，可以更快更准确的得到标签和实体。

请参阅图1，图1为本申请实施例所提供的一种医学实体的分类提取方法的流程图。如图1中所示，本申请实施例提供的分类提取方法，包括：

S110、获取医疗数据中的待识别文本。

S120、确定待识别文本的实体特征，实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征。

S130、将确定出的实体特征输入至预先训练好的分类提取模型中，得到待识别文本中的医学实体对应的至少一个标签，以从待识别文本中提取出至少一个标签对应的医学实体；其中，分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的，伪标签数据、小粒度词典和字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的，特征提取模型是通过文本样本的标注数据训练得到的。

在本申请实施例中，医疗数据是指和医学相关的有关数据，如各种诊治量、与技术质量有关的数据、有意义的病史资料、重大技术数据、新技术价值数据、科研数据等。本申请实施例中的待识别文本可以是医疗数据中的电子病历。医学实体可以包括：时间、方位、解剖部位、诊断、肿瘤分期、实验室检查、药品名称、手术名称和存在状态等，但不仅限于此，其中，肿瘤分期是重点。

实体特征是指与医学实体相关的数据特征或属性特征，如单字向量、双字位置、双字频率、切词特征和小粒度特征。具体地，单字向量指的是待识别文本中的每个单字在预先构建好的字向量词典中所对应的向量，其中，单字可以为一个数字，或一个字母，或一个汉字等，由于字向量词典中保存的是单字以及与每个单字对应的低维单字向量，所以这里的单字向量指的是低维单字向量。双字位置指的是待识别文本中的每个双字在预先构建好的双字医学字典中的位置标记，其中，双字医学字典可以是通过大量的医学文本数据构建出来的列表，该列表包括大量的双字，以及与每个双字对应的第一位置标记，通过该第一位置标记可以在双字医学字典中找到与其对应的双字的位置，进而，双字位置以第一位置标记的形式进行展示，其中，双字可以为两个汉字，或两个数字，或一个汉字和一个字母等；双字频率指的是待识别文本中的每个双字在医疗数据中出现的次数，通过计算待识别文本中的每个双字在医疗数据中出现的次数得出双字频率。切词特征指的是通过切词工具对待识别文本进行切词处理后记录得到的切词位置在待识别文本中的位置标记；其中，切词位置指的是使用jieba切词工具（中文分词组件）对待识别文本进行切词得到的切词结果在待识别文本中的位置，切词位置以第二位置标记的形式进行展示；

具体地，切词特征通过以下公式进行运算：

f(i)表示第i个位置的切词特征，b表示切词位置的开始、e表示切词位置的结束。

小粒度特征指的是待识别文本中的小粒度词经过拆分后得到的小粒度单字及其对应标签在预先构建好的小粒度单字标签词典中的位置标记；其中，小粒度单字标签词典是基于小粒度词典得到的，小粒度单字指的是将小粒度词拆分成一个个单字后所得到的每个单字。

其中，小粒度词指的是比较细粒度的医学词组，比如：左侧、胸痛；比如：急性阑尾炎可以分成两个小粒度，如急性、阑尾炎；将小粒度词拆分成单字，得到小粒度单字，示例性的，将“左侧”拆分成“左”和“侧”，将“阑尾炎”拆分成“阑”、“尾”和“炎”。

小粒度词典由小粒度词以及该小粒度词对应的标签组成，如肺：部位，腺癌：诊断等；小粒度单字标签词典包括组合字符及该组合字符对应的数字标记，组合字符包括将小粒度词拆分所得到的小粒度单字以及该小粒度单字对应的标签，其中，组合字符中的小粒度词及其对应标签之间的组合顺序不做具体限定；示例性的，小粒度单字标签词典可以包括：肺-部位：1，部位-肺：2，腺-诊断：3，诊断-腺：4，癌-诊断：5，诊断-癌：6。

一种实施方式中，可以通过大量的医学文本挖掘小粒度词典，然后对每个小粒度词及其所属类型（标签）组成新的小粒度字典。在小粒度词典中，针对每组小粒度词和所属类型都给定一个标记（id），在待识别文本中扫出小粒度词所在的位置，可以确定待识别文本中小粒度词在小粒度词典中对应的位置标记，可以利用该小粒度词对应的位置标记作为实体特征之一，来进行医学实体分类提取。

另一种实施方式中，可以在小粒度词典的基础上得出小粒度单字标签词典，然后将小粒度词拆分得到小粒度单字，根据小粒度单字在小粒度单字标签词典中的位置，确定小粒度单字对应的位置标记，可以利用该小粒度单字对应的位置标记作为实体特征之一，来进行医学实体分类提取。

进而，利用小粒度特征进行医学实体分类提取，可以使得小粒度特征对医学实体分类提取有较大收益。

在步骤S120中，通过以下步骤确定待识别文本的单字向量：

将预先构建好的单字医学字典输入至预先训练好的特征提取模型中，获取多个单字对应的高维单字向量，并对高维单字向量进行降维，得到由单字以及与每个单字对应的低维单字向量组成的字向量词典；从待识别文本中提取出单字，将提取出的单字与字向量词典进行比对，得到待识别文本中的单字对应的单字向量。

这里，单字医学字典可以是通过大量的医学文本数据构建出来的列表，该列表包括大量的单字，以及与每个单字对应的标记，通过该标记可以在单字医学字典中找到与其对应的单字的位置。

其中，在将预先构建好的单字医学字典输入至预先训练好的特征提取模型中时，只能获取多个单字对应的高维单字向量，每个单字对应一个高维单字向量，示例性的，待识别文本中有1W字，每个字是768维，这样，整个待识别文本就是1W*768，对每一个高维单字向量都要进行降维，降维后的向量维度根据实际需求来确定，可以是20维，也可以是50维，虽然字向量的维度越高越好，但是当字向量的维度较高时，计算较慢，所以要进行降维，这样便于计算。字向量词典包括单字以及与每个单字对应的字向量，即左侧是汉字或者字母，右侧是对应的低维单字向量。

优选地，在步骤S120之前，还包括：通过以下步骤训练特征提取模型：从医疗数据中确定未标注的文本样本和文本样本的标注数据；将未标注的文本样本输入至预先构建好的特征提取模型中，输出多组实体位置，其中，每组实体位置依次包括一个实体开始位置和一个实体结束位置；将输出的实体开始位置和实体结束位置之间的字符组成一个医学实体；将得到的每个医学实体与文本样本的标注数据中对应标注的医学实体进行比对，在比对结果均一致的情况下，得到训练好的特征提取模型。

从医疗数据中获取文本样本，并对文本样本进行标注，得到文本样本的标注数据；通过未标注的文本样本和文本样本的标注数据对构建好的神经网络模型进行训练，经过不断的迭代，以得到训练好的特征提取模型。

在步骤S120中，通过以下步骤确定待识别文本的小粒度特征：

获取根据特征提取模型而预先构建好的小粒度词典；小粒度词典包括小粒度词以及每个小粒度词对应的标签；对小粒度词典进行预处理得到小粒度单字标签词典；小粒度单字标签词典包括组合字符及该组合字符对应的数字标记，组合字符包括将小粒度词拆分所得到的小粒度单字以及该小粒度单字对应的标签；从待识别文本中提取出小粒度词，将提取出的小粒度词进行拆分得到小粒度单字；从小粒度单字标签词典中找到与待识别文本中的小粒度单字对应的位置标记。

这里，通过以下步骤对小粒度词典进行预处理得到小粒度单字标签词典：将小粒度词典中的小粒度词进行拆分得到小粒度单字；根据小粒度词对应的标签，确定每个小粒度单字对应的标签；其中，同属于一个小粒度词的小粒度单字对应的标签是相同的；将每个小粒度单字以及其对应的标签进行组合，按照小粒度单字-标签，以及标签-小粒度单字的组合方式得到一个小粒度单字对应的两种组合字符，然后为每种组合字符添加数字标记，得到小粒度单字标签词典。

其中，将从待识别文本中提取出的小粒度词进行拆分得到小粒度单字，从小粒度单字标签词典中确定与待识别文本中的小粒度单字对应的位置标记，在确定与小粒度单字对应的位置标记时，要先确定该小粒度单字与前面字符组成的双字以及该字符与后面字符组成的双字在待识别文本中的出现频率，也就是双字在待识别文本中出现的次数，根据出现频率较大的双字确定该小粒度单字的数字标记，依次类推，得到组合字符对应的数字标记，即为小粒度特征。

举例说明，待识别文本包括：左肺腺癌；小粒度词典包括：肺：部位；腺癌：诊断；进而，单字标签词典包括：肺-部位：1，部位-肺：2，腺-诊断：3，诊断-腺：4，癌-诊断：5，诊断-癌：6；如想要确定肺癌的小粒度特征，需要先统计肺腺和腺癌在待识别文本中的出现频率，如果肺腺的出现频率大于腺癌的出现频率，则取“肺-部分”对应的位置标记1，反之则取“诊断-癌”对应的位置标记6。

在步骤S130中，当一个医学实体包括多个字符时，每个字符会对应一个标签，相应的，一个医学实体会对应多个标签；当一个医学实体包括一个字符时，每个字符会对应一个标签，相应的，一个医学实体会对应一个标签。进而，存在多个标签对应一个医学实体的情况。

示例性的，基于小粒度（粒度指系统内存扩展增量的最小值）标注医学文本，得到医学文本的标注数据：为了避免实体产生歧义，本申请实施例采用小粒度策略，如左标记为方位，肺标记为部位，采用bioes标注方法，更适合小粒度策略，标注如下：左肺腺癌cT4N3M1a IVA期，左：S-方位；肺：S-部位；腺：B-诊断；癌：E-诊断；c：B-分期；T：I-分期；4：I-分期；N：I-分期；3：I-分期；M：I-分期；1：I-分期；a：E-分期；I：B-分期；V：I-分期；A：I-分期；期：E-分期；其中，S表示单字，B表示开始位置，I表示中间位置，E表示结束位置；然后使用少量的标注数据训练BERT-MRC模型；将待识别文本输入到BERT-MRC模型产出大量的高质量的伪标签数据，并产出小粒度词典和字向量词典；接着使用标注数据、伪标签数据、小粒度词典和字向量词典训练IDCNN-CRF模型；最后将待识别文本输入到IDCNN-CRF模型获得识别结果，这里，识别结果包括标签和与标签对应的实体。

这里，基于小粒度策略，对医疗数据进行标注，得到多个小粒度词以及每个小粒度词对应的标签，这里的标签即为小粒度词的所属类型。

小粒度策略是在命名实体标注过程中，针对文本中待标注实体构成复杂且全称、简称混合的特点所采取的一种命名实体标注策略。小粒度策略的内容是在标注实体时仅标注不可再分的实体，不可再分是指若去掉实体开头或结尾的任何一个字符，都将引起歧义或使实体不再具有意义。采用小粒度策略可有效地减小命名实体构成的差异化对命名实体识别的影响，采用该策略后，只需将识别结果中连续出现的小粒度实体组合在一起，并以最后一个实体的标注作为合并后实体的标注，即可获得完整的实体。

举例说明，如图2所示，图2为本申请实施例所提供的另一种医学实体的分类提取方法的流程图，第一步，通过BERT-MRC模型产出大量的高质量伪标签数据、小粒度词典和字向量词典；第二步，提取待识别文本中的实体相关特征，如字id、双字id、双字频率、切词特征和小粒度特征，将提取出的实体相关特征进行一系列处理（可参考上面的描述），得到实体特征，如单字向量（如图中描述的BERT-MRC字向量）、双字位置（如图中描述的双字idembedding）、双字频率（如图中描述的双字频率embedding）、切词特征（如图中描述的切词特征embedding）和小粒度特征（如图中描述的小粒度特征embedding）；第三步，考虑到服务端配置问题，使用IDCNN作为模型主体结构。模型的输出端为CRF层，为了更好优化IDCNN，训练时采用正交规范化。正交规范性可以防止网络过拟合，模型泛化更好；第四步，采用CRF层作为解码层；第五步，经过CRF层，输出待识别文本的识别结果。

在本申请实施例中，步骤S130通过以下步骤确定伪标签数据、小粒度词典和字向量词典：

将文本样本输入至预先训练好的特征提取模型中，输出多组实体位置，其中，每组实体位置依次包括一个实体开始位置和一个实体结束位置，将实体开始位置和实体结束位置之间的字符组成一个医学实体；基于预先标注好的字符与标签之间的映射关系，确定医学实体对应的伪标签数据；

将医学实体经过校正得出小粒度词以及该小粒度词对应的标签，确定得到的小粒度词以及其对应的标签组成小粒度词典；

举例说明，如图3所示，特征提取模型的应用过程如下：

第一步，构建MRC结构的数据集，使用MRC方式的好处是引入了query这个先验知识；比如这样的文本“左肺腺癌cT4N3M1a IVA期”，query可以构造为“找出分期”，结果为“cT4N3M1a”和“IVA期”，如图3所示，开始为1，结束为1之间的字母或字称为一个分期。

第二步，采用现阶段效果最好的预训练模型BERT-MRC，获取文本的实体特征。

第三步，BERT-MRC模型的输出采用指针网络，对文本中每一个字计算实体出现概率，其中，0表示否定，1表示肯定。实体出现概率包括实体开始概率和实体结束概率，实体开始概率指的是实体开始的概率是多少，实体结束概率指的是实体结束的概率是多少，预先设定一个预设概率阈值，这里，可以选择预设概率阈值为0.5，如果实体出现概率大于0.5，就表示实体开始，即实体开始概率大于0.5，如果实体出现概率小于0.5，就表示实体结束，即实体结束概率小于0.5，进而使用softmax层进行输出。

第四步，BERT-MRC模型输出实体开始位置和实体结束位置，并从中得出实体以及实体的类型（实体的标签）。

这里，由于BERT-MRC模型较大，推理速度较慢，不考虑应用到医院服务端。但是BERT-MRC模型效果较好，可以产出高质量的伪标签数据，对优化IDCNN模型增益较大，且通过BERT-MRC模型产出的数据，清洗出小粒度词典，也可用于训练IDCNN-CRF模型。

在本申请实施例中，在步骤S130之前，还包括：通过以下步骤训练分类提取模型：根据文本样本的标注数据确定第一实体特征，以及根据伪标签数据确定第二实体特征，其中，第一实体特征和第二实体特征中均包括的小粒度特征要结合小粒度词典确定得出，第一实体特征和第二实体特征中均包括的单字向量要结合字向量词典确定得出；将第一实体特征和第二实体特征分别输入至预先构建好的分类提取模型中，分别得到文本样本中的医学实体对应的多个第一标签和多个第二标签；针对多个第一标签，将多个第一标签中的每个第一标签与文本样本的标注数据中对应的标签进行比对，若比对结果不一致，则调节分类提取模型的模型参数，直至更新后的多个第一标签中的每个第一标签均与文本样本的标注数据中对应的标签进行比对的比对结果一致；针对多个第二标签，将多个第二标签中的每个第二标签与文本样本的伪标签数据中对应的标签进行比对，若比对结果不一致，则调节分类提取模型的模型参数，直至更新后的多个第二标签中的每个第二标签均与文本样本的伪标签数据中对应的标签进行比对的比对结果一致；在对多个第一标签和多个第二标签训练完后，确定对分类提取模型训练完成。

其中，标注数据指的是经过专家标注和校正而得出的比较精确的带有实体标签的数据；伪标签数据指的是没有经过人工审核的带有实体标签的数据；标注数据可以认为是经过人工审核且正确率很高的数据；伪标签数据可以认为是BERT-MRC模型输出的结果数据，由于没有人工参与检查，正确率没有那么高，所以为伪标签数据。小粒度词典指的是在打好标签后，把实体挑选出来，然后对这些实体进行人工校正（为了完善词典的准确性），用于为IDCNN-CRF模型构造一个特征。

本申请实施例中，在训练分类提取模型时，伪标签数据的样本量大于标注数据的样本量，这里，因为标注数据的成本非常高，加入伪标签是为了让数据更丰富，以及加入一些噪声，让模型有更好的扩展性。

本申请实施例提供一种医学实体的分类提取方法，可以获取电子病历数据中的待识别文本和少量标注文本；使用标注文本训练BERT-MRC模型，待识别文本输入到BERT-MRC模型获得大量的伪标签文本，并产出小粒度词典和字向量词典；使用标注文本、伪标签文本、小粒度词典和字向量词典训练IDCNN-CRF模型，将待识别文本输入到IDCNN-CRF模型获得识别结果。这样一来，采用BERT-MRC模型可以产出丰富且高质量的伪标签数据，可以节省大量的人力物力，而且通过大量的伪标签数据可以从大量医学文本中挖掘出高质量有意义的小粒度医学实体，用于优化IDCNN-CRF模型，对训练IDCNN-CRF模型有很大帮助，采用IDCNN-CRF模型可以解决医院配置问题，而且推理速度较快，通过优化特征，保证了实体精度。

基于相同的技术构思，本申请实施例提供了一种与医学实体的分类提取方法对应的医学实体的分类提取装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述医学实体的分类提取方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4，图4为本申请实施例所提供的一种医学实体的分类提取装置的结构示意图。如图4中所示，分类提取装置400包括：

获取模块410，用于获取医疗数据中的待识别文本；

特征提取模块420，用于确定待识别文本的实体特征，实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征；

标签提取模块430，用于将确定出的实体特征输入至预先训练好的分类提取模型中，得到待识别文本中的医学实体对应的至少一个标签，以从待识别文本中提取出至少一个标签对应的医学实体；其中，分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的，伪标签数据、小粒度词典和字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的，特征提取模型是通过文本样本的标注数据训练得到的。

可选地，分类提取装置400还包括特征训练模块440，特征训练模块440用于通过以下步骤训练特征提取模型：

从医疗数据中确定未标注的文本样本和文本样本的标注数据；

将未标注的文本样本输入至预先构建好的特征提取模型中，输出多组实体位置，其中，每组实体位置依次包括一个实体开始位置和一个实体结束位置；

将得到的每个医学实体与文本样本的标注数据中对应标注的医学实体进行比对，在比对结果均一致的情况下，得到训练好的特征提取模型。

可选地，标签提取模块430具体用于：

将文本样本输入至预先训练好的特征提取模型中，输出多组实体位置，其中，每组实体位置依次包括一个实体开始位置和一个实体结束位置，将实体开始位置和实体结束位置之间的字符组成一个医学实体；

基于预先标注好的字符与标签之间的映射关系，确定医学实体对应的伪标签数据；

可选地，分类提取装置400还包括标签训练模块450，标签训练模块450用于通过以下步骤训练分类提取模型：

根据文本样本的标注数据确定第一实体特征，以及根据伪标签数据确定第二实体特征，其中，第一实体特征和第二实体特征中均包括的小粒度特征要结合小粒度词典确定得出，第一实体特征和第二实体特征中均包括的单字向量要结合字向量词典确定得出；

将第一实体特征和第二实体特征分别输入至预先构建好的分类提取模型中，分别得到文本样本中的医学实体对应的多个第一标签和多个第二标签；

针对多个第一标签，将多个第一标签中的每个第一标签与文本样本的标注数据中对应的标签进行比对，若比对结果不一致，则调节分类提取模型的模型参数，直至更新后的多个第一标签中的每个第一标签均与文本样本的标注数据中对应的标签进行比对的比对结果一致；

针对多个第二标签，将多个第二标签中的每个第二标签与文本样本的伪标签数据中对应的标签进行比对，若比对结果不一致，则调节分类提取模型的模型参数，直至更新后的多个第二标签中的每个第二标签均与文本样本的伪标签数据中对应的标签进行比对的比对结果一致；

在对多个第一标签和多个第二标签训练完后，确定对分类提取模型训练完成。

可选地，单字向量指的是待识别文本中的每个单字在预先构建好的字向量词典中所对应的向量；

双字位置标记指的是待识别文本中的每个双字在预先构建好的双字医学字典中的位置标记；

双字频率指的是待识别文本中的每个双字在医疗数据中出现的次数；

切词特征指的是通过切词工具对待识别文本进行切词处理后记录得到的切词位置在待识别文本中的位置标记；

小粒度特征指的是待识别文本中的小粒度词经过拆分后得到的小粒度单字及其对应标签在预先构建好的小粒度单字标签词典中的位置标记；其中，小粒度单字标签词典是基于小粒度词典得到的。

可选地，特征提取模块420用于通过以下步骤确定待识别文本的小粒度特征：

获取根据特征提取模型而预先构建好的小粒度词典；小粒度词典包括小粒度词以及每个小粒度词对应的标签；

对小粒度词典进行预处理得到小粒度单字标签词典；小粒度单字标签词典包括组合字符及该组合字符对应的数字标记，组合字符包括将小粒度词拆分所得到的小粒度单字以及该小粒度单字对应的标签；

从小粒度单字标签词典中找到与待识别文本中的小粒度单字对应的位置标记。

可选地，特征提取模块420用于通过以下步骤确定待识别文本的单字向量：

从待识别文本中提取出单字，将提取出的单字与字向量词典进行比对，得到待识别文本中的单字对应的单字向量。

本申请实施例提供的医学实体分类装置，与现有的BiLSTM-CRF模型需要大量的标记数据，但是缺少中文电子病历的公开语料，且医学标注需要专业性较强的专家进行数据标注，需要投入的人力物力太大，以及BERT-CRF模型虽然可以减轻标注的任务，但是模型太大，很难在医院里部署的问题相比，本申请实施例先通过标注数据训练特征提取模型，再通过训练好的特征提取模型确定伪标签数据、小粒度词典和字向量词典，最后通过标注数据、伪标签数据、小粒度词典和字向量词典训练分类提取模型，以使得到的分类提取模型在从医疗数据中提取标签和实体时的速度更快，准确率更高，进而解决分类提取模型推理速度慢的问题。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的医学实体的分类提取方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的医学实体的分类提取方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种医学实体的分类提取方法，其特征在于，所述分类提取方法包括：

获取医疗数据中的待识别文本；

确定所述待识别文本的实体特征，所述实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征；其中，所述单字向量指的是所述待识别文本中的每个单字在预先构建好的字向量词典中所对应的向量；所述双字位置指的是所述待识别文本中的每个双字在预先构建好的双字医学字典中的位置标记；所述双字频率指的是所述待识别文本中的每个双字在医疗数据中出现的次数；所述切词特征指的是通过切词工具对所述待识别文本进行切词处理后记录得到的切词位置在待识别文本中的位置标记；所述小粒度特征指的是所述待识别文本中的小粒度词经过拆分后得到的小粒度单字及其对应标签在预先构建好的小粒度单字标签词典中的位置标记；其中，所述小粒度单字标签词典是基于小粒度词典得到的；

2.根据权利要求1所述的分类提取方法，其特征在于，通过以下步骤训练所述特征提取模型：

3.根据权利要求1所述的分类提取方法，其特征在于，所述伪标签数据、所述小粒度词典和所述字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的步骤，包括：

4.根据权利要求1所述的分类提取方法，其特征在于，通过以下步骤训练所述分类提取模型：

5.根据权利要求1所述的分类提取方法，其特征在于，通过以下步骤确定所述待识别文本的小粒度特征：

6.根据权利要求1所述的分类提取方法，其特征在于，通过以下步骤确定所述待识别文本的单字向量：

7.一种医学实体的分类提取装置，其特征在于，所述分类提取装置包括：

获取模块，用于获取医疗数据中的待识别文本；

特征提取模块，用于确定所述待识别文本的实体特征，所述实体特征包括单字向量、双字位置、双字频率、切词特征和小粒度特征；其中，所述单字向量指的是所述待识别文本中的每个单字在预先构建好的字向量词典中所对应的向量；所述双字位置指的是所述待识别文本中的每个双字在预先构建好的双字医学字典中的位置标记；所述双字频率指的是所述待识别文本中的每个双字在医疗数据中出现的次数；所述切词特征指的是通过切词工具对所述待识别文本进行切词处理后记录得到的切词位置在待识别文本中的位置标记；所述小粒度特征指的是所述待识别文本中的小粒度词经过拆分后得到的小粒度单字及其对应标签在预先构建好的小粒度单字标签词典中的位置标记；其中，所述小粒度单字标签词典是基于小粒度词典得到的；

标签提取模块，用于将确定出的实体特征输入至预先训练好的分类提取模型中，得到所述待识别文本中的医学实体对应的至少一个标签，以从所述待识别文本中提取出所述至少一个标签对应的医学实体；其中，所述分类提取模型是通过文本样本的标注数据、伪标签数据、小粒度词典和字向量词典训练得到的，所述伪标签数据、所述小粒度词典和所述字向量词典是通过将文本样本输入至预先训练好的特征提取模型而确定出的，所述特征提取模型是通过所述文本样本的标注数据训练得到的。

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至6任一所述医学实体的分类提取方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述医学实体的分类提取方法的步骤。