CN114880466A

CN114880466A - 一种融入全文信息的嵌套实体识别方法、设备及存储介质

Info

Publication number: CN114880466A
Application number: CN202210398804.6A
Authority: CN
Inventors: 吴昆�; 丁国栋
Original assignee: Mairong Intelligent Technology Shanghai Co ltd
Current assignee: Mairong Intelligent Technology Shanghai Co ltd
Priority date: 2022-04-16
Filing date: 2022-04-16
Publication date: 2022-08-09

Abstract

本发明公开了一种融入全文信息的嵌套实体识别方法、设备及存储介质，方法的步骤：使用预训练语言模型编码待识别文本，得到H^L和H^L‑1；分类识别文本中所有字是否为实体的首尾边界；将所有识别得到的首尾边界一一配对得到多个候选实体；将候选实体在H^L‑1中对应位置的首尾字向量拼接映射作为候选实体向量，将各个候选实体向量视为查询向量，H^L‑1视为关键字向量序列和值向量序列，将基于相对位置的注意力机制和残差连接得到融合全文信息的候选实体向量；以融合全文信息的候选实体向量为特征判断候选实体类型。本发明的方法，步序简单且设计合理，计算复杂度低，且适用于任何形式的实体嵌套。

Description

一种融入全文信息的嵌套实体识别方法、设备及存储介质

技术领域

本发明涉及机器学习与自然语言处理的信息抽取技术领域，涉及一种融入全文信息的嵌套实体识别方法、设备及存储介质。

背景技术

实体识别的任务是从给出的非结构化文本中自动识别出命名实体并对其进行分类。实体类型中较为普遍的有地名、人名等，但并没有一个特定的定义，随着具体任务的不同有着不同的定义。如今，互联网高度发达，每一分每一秒都在产生海量的非结构化文本，若是能够从其中准确的识别出有意义的实体，必然能够有效的提高其他相关的自然语言处理任务的效果，比如信息搜索、查询理解、关系抽取、智能问答等。随着实体识别技术的广泛应用，以往被忽略的嵌套实体问题也逐渐的被研究人员所关注。在一些领域的非结构化文本中，嵌套实体的现象普遍存在，而传统的实体识别研究没有对嵌套实体做出针对性的设计，导致实体识别的准确率下降。

传统实体识别一般使用序列标注方法，对每个字分类并解析出实体，但是对于此类嵌套实体每个字可能会属于多个实体，因此传统的序列标注方法并不能应对嵌套实体的情况。这问题也直接影响着诸如推荐、搜索等应用的效果。因此，如何高效地标记解码出文本中的嵌套实体将会是嵌套实体识别方法的研究重点。

发明内容

由于现有技术存在上述缺陷，本发明提供了一种融入全文信息的二阶段嵌套实体识别方法，克服了现有技术序列标注方法并不能适用于嵌套实体的缺陷。

为了实现上述目的，本发明提供以下技术方案：

一种融入全文信息的嵌套实体识别方法，包括以下步骤：

1)使用预训练语言模型编码待识别文本，得到所述模型的顶层输出向量序列H^L和次顶层输出向量序列H^L-1；

2)分类识别文本中所有字是否为实体的首尾边界；

3)将所有识别得到的首尾边界一一配对得到多个候选实体；

4)将候选实体在H^L-1中对应位置的首尾字向量拼接映射作为候选实体向量，将各个候选实体向量视为查询向量，H^L-1视为关键字向量序列和值向量序列，将基于相对位置的注意力机制得到各个候选实体的全文信息向量，并通过残差连接得到融合全文信息的候选实体向量；

5)以融合全文信息的候选实体向量为特征判断候选实体类型。

本发明的融入全文信息的嵌套实体识别方法，步序简单且设计合理，计算复杂度低，通过二阶段的方式避免遍历所有的实体可能；本方法适用于任何形式的实体嵌套，且对在非嵌套实体识别仍然有较好的效果，适用性好，极具应用前景。

作为优选的技术方案：

如上所述的一种融入全文信息的嵌套实体识别方法，所述预训练语言模型为BERT模型，此处仅给出了一种可行的技术方案，其他预训练语言模型也可适用；

所述步骤2)具体为：

将H^L中每个字对应的向量分别做两次二分类预测，判断是否为实体首字符以及是否是实体尾字符。

如上所述的一种融入全文信息的嵌套实体识别方法，所述步骤3)具体为：

根据步骤2)得到的首尾边界判断结果，将所有识别出的首边界与其后面包括当前位置的尾边界配对，得到候选实体。

如上所述的一种融入全文信息的嵌套实体识别方法，所述候选实体向量的生成过程具体为：

取候选实体首尾位置在H^L-1向量序列上对应的向量拼接并作线性变换作为候选实体的向量表示：

其中Q_ij表示在i位置开始，j位置结束的候选实体的向量表示，concat为拼接函数，

和

表示预训练语言模型L-1层输出的第i，j位置的向量，W_ENT、b_ENT为可学习参数。

如上所述的一种融入全文信息的嵌套实体识别方法，所述基于相对位置的注意力机制中相对位置嵌入的计算公式如下：

在该基于相对位置的注意力机制方法中，每个词或者字都将会有首尾位置索引，任意候选实体与原文中字的相对位置可以通过以下四个公式精确的描述：

其中x_a、x_b表示任意候选实体，start和end分别表示取实体的首尾位置，

表示两个词首位的相对距离，

等也是如此，因为以x_b为原文中词，原文中词的首尾位置是一样的，所以

和

相等，

和

相等，所以可以仅取

和

刻画候选实体x_a与原文中词x_b的相对位置，接着通过索引通过位置嵌入并拼接映射后得到相对位置的向量表示：

其中，R_ab表示候选实体x_a和原文中词x_b的相对位置的向量表示，W_R为可学习参数，P为相对位置嵌入，d为相对位置，P的生成规则与Transformer原文中使用的一致，奇偶交错的使用sin和cos生成固定的位置嵌入，dim为位置嵌入的维度。

如上所述的一种融入全文信息的嵌套实体识别方法，所述基于相对位置的注意力机制中的注意力的计算公式如下：

其中，A为注意力分数矩阵，A_ab表示候选实体x_a在原文第b个词x_b的注意力分数，

和

分别表示候选实体x_a和原文第b个词x_b的向量表示，W_q、W_k,E、W_k,R、u和v为可学习参数，再结合Transformer中的多头注意力机制，那么本章的相对位置注意力计算可以描述为：

head_c＝Attn_c(Q,H^L-1)

MultiHead(Q,H^L-1)＝concat(head₁,head₂,…,head_h)W_MH

其中head_c为第c头的输出，Q为候选实体集合对应的实体向量序列，W_MH为可学习参数，h为总头数，z为缩放常数。

如上所述的一种融入全文信息的嵌套实体识别方法，所述通过残差连接得到融合全文信息的候选实体向量的计算公式如下：

score＝softmax(concat(MultiHead(Q,H^L-1),Q)W_O)

其中score为实体类型的归一化分数，W_O为可训练参数，argmax函数取类型分数最大的索引。

如上所述的一种融入全文信息的嵌套实体识别方法，所述以融合全文信息的候选实体向量为特征判断候选实体类型是指将最大分数对应的类型视为各个候选实体的类型，其中设置特殊类型NONE表示该候选实体为不合理实体。

本发明还提供了一种计算机设备，所述计算机设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的融入全文信息的嵌套实体识别方法。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的融入全文信息的嵌套实体识别方法。

以上技术方案仅为本发明的一种可行的技术方案而已，本发明的保护范围并不仅限于此，本领域技术人员可根据实际需求合理调整具体设计。

上述发明具有如下优点或者有益效果：

(1)本发明的融入全文信息的嵌套实体识别方法，步序简单且设计合理，计算复杂度低，通过二阶段的方式避免遍历所有的实体可能；

(2)本发明的融入全文信息的嵌套实体识别方法，适用于任何形式的实体嵌套，且对在非嵌套实体识别仍然有较好的效果，适用性好，极具应用前景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明的融入全文信息的嵌套实体识别方法的整体流程图；

图2是候选实体边界配对示意图；

图3是本发明的计算机设备的结构示意图；

其中，1-计算机设备，11-处理器，12-存储器。

具体实施方式

下面结合附图和具体的实施例对本发明中的结构作进一步的说明，但是不作为本发明的限定。

实施例1

一种融入全文信息的嵌套实体识别方法，步序如图1所示，具体包含以下步骤：

S1：使用预训练语言模型编码待识别文本得到文本向量序列H^L和H^L-1；

S2：分类识别文本中所有字是否为实体的首尾边界；

S3：将所有识别得到的首尾边界一一配对得到多个候选实体；

S4：输入各候选实体位置和文本向量序列H^L-1，通过基于相对位置的注意力机制计算和残差连接得到融合全文信息的候选实体向量；

S5：以融合全文信息的候选实体向量为特征判断候选实体类型，其中设置特殊类型NONE表示该候选实体为不合理实体。

步骤S1具体为：

将待识别文本通过预定义的词表转换为token序列，将token序列输入预训练语言模型(如BERT)，现今预训练语言模型由多层网络堆叠而成，取预训练语言模型的顶层输出H^L和次顶层H^L-1为待识别文本的向量序列。

步骤S2具体为：

将向量序列H^L输入到线性分类层，并利用sigmoid函数将开始边界和结束边界的分数归一化到0到1，将所有大于设定阈值的输出设置为1：

B^s＝ε(sigmoid(H^LW_S+b_S)-t)

B^e＝ε(sigmoid(H^LW_E+b_E)-t)

其中B^s和B^e表示开始边界和结束边界标记结果，ε为开关函数，输入大于零输出1，否则输出0，H^L为BERT模型的最顶层输出向量序列，W_S、W_E、b_S和b_E为判断开始边界和结束边界的可学习参数，t为设定的阈值。

步骤S3具体为：

将开始边界标记结果B^s中所有输出为1对应的字视为实体的开始边界，将结束边界标记结果B^e中所有输出为1对应的字视为实体的结束边界，将开始边界与当前位置和所有其后位置的结束边界配对得到所有可能的候选实体，如图2所示。

步骤S4具体为：

将候选实体在H^L-1中对应位置的首尾字向量拼接映射作为候选实体向量，将各个候选实体向量视为查询向量，文本向量序列H^L-1视为关键字向量序列和值向量序列，将基于相对位置的注意力机制得到各个候选实体的全文信息向量，并通过残差连接得到融合全文信息的候选实体向量。

首先生成候选实体向量，取候选实体首尾位置在H^L-1向量序列上对应的向量拼接并作线性变换作为候选实体的向量表示：

和

表示BERT模型L-1层输出的第i，j位置的向量，W_ENT、b_ENT为可学习参数。

然后，计算候选实体与原文中各个字的相对位置嵌入，在该基于相对位置的注意力机制方法中，每个词或者字都将会有首尾位置索引，任意候选实体与原文中字的相对位置可以通过以下四个公式精确的描述：

表示两个词首位的相对距离，

和

相等，

和

相等，所以可以仅取

和

接着进行基于相对位置的注意力计算，基于相对位置的注意力机制中的注意力计算，具体为：

和

head_c＝Attn_c(Q,H^L-1)

MultiHead(Q,H^L-1)＝concat(head₁,head₂,…,head_h)W_MH

最后将基于相对位置的注意力计算得到的向量视为全文信息向量与原候选实体向量拼接并作映射得到融合了全文信息的候选实体向量，通过softmax得到实体类型的归一化分数：

score＝softmax(concat(MultiHead(Q,H^L-1),Q)W_O)

其中，score为实体类型的归一化分数，W_O为可训练参数，argmax函数取类型分数最大的索引步骤。

S5具体为：

解析每个候选实体的类型，每一个候选实体对应的归一化分数score中，都会有一个最大的值，将该值对应的索引视为该候选实体的类型，而每一个索引值都被定义为一种实体类型，其中对非有效实体的类型定义为NONE，最后的识别结果中排除分类为NONE的候选实体。

至此，融合全文信息的嵌套实体识别方法已经完成。

本发明实施例提供的融合全文信息的嵌套实体识别方法抛弃了传统的序列标注的方法，使用边界识别结合类型判断的二阶段式实体识别方法，此方法在理论上可以标记出任何嵌套实体形式。

实施例2

一种计算机设备，计算机设备1如图3所示，包括：至少一个处理器11；以及与至少一个处理器11通信连接的存储器12；其中，存储器存储有计算机可读指令，处理器执行计算机可读指令时实现如实施例1所述的融入全文信息的嵌套实体识别方法。

实施例3

一种计算机可读存储介质，计算机可读存储介质上存储计算机可读指令，计算机可读指令被处理器执行时实现如实施例1所述的融入全文信息的嵌套实体识别方法。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。