CN110597970B

CN110597970B - 一种多粒度医疗实体联合识别的方法及装置

Info

Publication number: CN110597970B
Application number: CN201910764347.6A
Authority: CN
Inventors: 叶琪; 周晓进; 徐陈铭; 阮彤; 邱家辉; 张佳影; 翟洁; 周扬名
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2023-04-07
Anticipated expiration: 2039-08-19
Also published as: CN110597970A

Abstract

本发明属于计算机应用领域，公开了一种多粒度医疗实体联合识别的方法及装置。包括：获取训练数据，训练数据包括训练文本、标注出所述训练文本的命名实体名称以及对应的实体类型；将所述训练数据输入待训练的实体识别模型进行训练，得到基于自注意力机制的多粒度的实体识别模型；根据所述的基于自注意力机制的多粒度的实体识别模型，识别输入语料中的粗粒度命名实体和细粒度命名实体。实验表明，采用本发明实施例，可以有效解决实体识别方法难以满足不同应用的需求的问题，并且达到较好的识别效果。

Description

一种多粒度医疗实体联合识别的方法及装置

技术领域

本发明属于医疗信息处理领域，更为具体地，尤其涉及一种多粒度医疗实体联合识别的方法。

背景技术

电子病历(Electronic Medical Records，EMR)是重要的个人健康记录以及医学科研材料。人们希望利用EMR积累的数据，辅助临床决策、医学科研以及公共卫生管理等医学课题发展。但是，EMR中存在大量的非结构化以及半结构化数据，无法被科研人员直接用来进行数据挖掘，由此阻碍了电子病历数据的作用的充分发挥。因此，命名实体识别被认为是电子病历结构化的基础问题。

现有中文临床实体识别任务，部分数据集标注实体的粒度过细，例如将“患者未患有腹壁静脉曲张”中的“腹壁”标为部位，“静脉曲张”标为症状，此时与“静脉曲张”相关的语义信息“患者未患有”和“发生在腹壁位置”都无法从“静脉曲张”这个实体中得到。另一些数据集采用了保留语义的标注方式，但是粒度过粗，将“无口角或肢体的抽动”标为一个症状实体，这种标注方式得到的实体，在实际应用时需要复杂的后处理。总之，现有实体识别方法难以满足不同应用的需求。

发明内容

有鉴于此，本发明实施例的第一方面公开了一种多粒度医疗实体联合识别的方法。其具体方案如下：

获取训练数据，所述训练数据包括文本以及标注出的文本中的实体名称和实体类型，所述实体类型包括粗粒度命名实体和细粒度命名实体；将所述训练数据输入待训练的实体识别模型进行训练，得到基于自注意力机制的多粒度的实体识别模型；根据所述的基于自注意力机制的多粒度的实体识别模型，识别输入语料中的粗粒度命名实体和细粒度命名实体。

其中，获取训练数据过程是采用BIEO标注方式对训练文本进行命实体标注，得到训练数据的命名实体。

其中，粗粒度实体至少包括以下一种或组合：自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史。细粒度实体至少包括以下一种或组合：存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。

本发明第实施例第二方面，将训练数据输入待训练的实体识别模型进行训练，得到基于自注意力机制的多粒度的实体识别模型的步骤包括：首先，将训练文本中的字符转化为字向量，利用所述字向量训练预设的双向的长短期记忆模型，输出公共的上下文特征向量；然后，将公共的上下文特征向量送入两个平行的自注意力层，提出粒度相关的特征向量，所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量；接着，将公共的上下文特征向量、粒度相关的特征向量相加，分别优化两个平行的条件随机场模型；最后，所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。

将所述公共的上下文特征向量送入两个平行的自注意力层，提取粒度相关的特征向量的计算过程包括：

其中：Q、K、V分别代表查询向量矩阵，键值向量矩阵和值向量矩阵，且

m表示输入语句的长度，d_k和d_v分别表示查询向量和值向量的维度，令Q＝K＝V＝双向的长短期记忆模型输出公共的上下文特征向量。

进一步，自注意力层还可以使用多头注意力机制，计算过程为：

head_i＝attention(QW_i ^Q，KW_i ^R，VW_i ^V)W^O#

multiHead(Q，K，V)＝concat(head₁，head₂，...，head_h)#

其中，

d_model表示输入的特征向量的维度，h表示相互平行的自注意力层的个数，并且d_k＝d_v＝d_model/h。

将公共的上下文特征向量与粒度相关的特征向量相加，分别优化两个平行的条件随机场模型的过程包括：两个平行的CRF层的损失和作为全局损失一起训练，Loss值的计算如下：

Loss＝α·crf_loss_C+β·crf_loss_G#

其中，下标C，G分别表示粗粒度和细粒度实体，crf_loss_C为粗粒度损失值，crf_loss_G为细粒度损失值，α，β为权重参数。

本发明实施例第一方面提供一种多粒度医疗实体联合识别的装置，其特征在于，包括：

获取模块，用于获取训练数据，所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型，所述实体类型包括粗粒度命名实体和细粒度命名实体；

训练模块，用于将所述训练数据输入待训练的实体识别模型进行训练，得到基于自注意力机制的多粒度的实体识别模型；

识别模块，用于识别输入语料中的粗粒度命名实体和细粒度命名实体。

本发明实施例第二方面，提供的识别模块包括：

嵌入层及双向的长短期记忆层模块，用于将训练模块中得到的训练文本中的字符转化为字向量，利用所述字向量训练预设的双向的长短期记忆模型，输出公共的上下文特征向量；

自注意力层模块，用于将所述公共的上下文特征向量送入两个平行的自注意力层，提出粒度相关的特征向量，所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量；

条件随机场层模块，用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加，分别优化两个平行的条件随机场模型。

实验表明，本发明的联合学习方法两类实体中的综合性能F1值上分别达到了92.88和85.48，优于现有其他模型和方法。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1示出本发明实施例的示意图；

图2示出本发明实施例的多粒度实体识别的结构框图；

图3示出本发明识别出的实体范例。

具体实施方式

请参见图1，图1是本发明实施例提供的实体识别的示意图。该方法包括：获取训练数据，所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型，所述实体类型包括粗粒度命名实体和细粒度命名实体；将所述训练数据输入待训练的实体识别模型进行训练，得到基于自注意力机制的多粒度的实体识别模型；根据所述的基于自注意力机制的多粒度的实体识别模型，识别输入语料中的粗粒度命名实体和细粒度命名实体。

具体实现中，粗粒度实体至少包括以下一种或组合：自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史七类粗粒度临床实体的结构特征。

细粒度解析实体按功能分类，至少包括以下一种或组合：存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。如表1所示。

表1

图2给出了一个结合粗细粒度标注的实例。

另一方面，请参见图3，图3是本发明实施例将训练数据输入待训练的实体识别模型进行训练，得到基于自注意力机制的多粒度的实体识别模型的示意图。

具体步骤包括：首先，将训练文本中的字符通过嵌入层转化为字向量，利用所述字向量训练预设的双向的长短期记忆模型，输出公共的上下文特征向量；然后，将公共的上下文特征向量送入两个平行的自注意力层，提出粒度相关的特征向量，所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量；接着，将公共的上下文特征向量、粒度相关的特征向量相加，分别优化两个平行的条件随机场模型；最后，所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。

首先，将训练文本中的字符转化为字向量，利用所述字向量训练预设的双向的长短期记忆模型，输出公共的上下文特征向量。，将文字转换成对应的字向量形式，初始字向量可通过使用文本语料训练得到或随机初始化得到，本发明采用word2vec学习初始字向量。具体而言，输入固定长度为n的电子病历文字序列X＝[x₁，x₂，...，x_n]到嵌入层，将序列中每个汉字x_i转换成对应的字向量

最终将文字序列X转换成矩阵E＝[e₁，e₂，...，e_n]的形式，并将E传入双向的长短期记忆模型(Bi-LSTM)层。

LSTM的具体计算过程如下所示：

i_t＝σ(W_ie_t+U_ih_t-1+b_i)

f_t＝σ(W_fe_t+U_fh_t-1+b_f)

o_t＝σ(W_oe_t+U_oh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，e_t、

分别是网络在时刻t的输入输出向量；i_t、f_t、

分别是时刻t的输入门向量、遗忘门向量、输出门向量：

c_t是计算的中间结果；

是可训练的参数，不同的下标表示参数对应不同的门；σ、tanh、⊙分别表示sigmoid函数、双曲正切函数、逐元素相乘。特别的，当t＝1时，h₀，

Bi-LSTM层由一个正向LSTM和一个逆向LSTM组成。在t时刻，向量e_t自左向右地传入正向LSTM，输出记为

逆向LSTM自右向左地处理向量e_t，输出记为

Bi-LSTM在时刻t的输出，为正向LSTM和逆向LSTM输出的拼接

接着将所述公共的上下文特征向量送入两个平行的自注意力层，提取粒度相关的特征向量的计算过程包括：

head_i＝attention(QW_i ^Q，KW_i ^K，VW_i ^V)W^O#

multiHead(Q，K，V)＝concat(head₁，head₂，...，head_n)#

其中，

Loss＝α·crf_loss_C+β·crf_loss_G#

对比现有的命名实体识别模型，如表2所示，本发明的联合学习模型两类实体中在综合性能F1值上均取得了最好的效果，分别达到了92.88和85.48。

表2

本发明实施例提供一种多粒度医疗实体联合识别的装置，其特征在于，包括：

其中，识别模块包括：

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。