CN113886522B

CN113886522B - 一种基于路径扩展的非连续实体识别方法

Info

Publication number: CN113886522B
Application number: CN202111070443.4A
Authority: CN
Inventors: 胡岩峰; 胡政; 潘宇顺; 陈诗旭; 乔雪; 宋路杰; 丁士伟; 吕东帅
Original assignee: Suzhou Aerospace Information Research Institute
Current assignee: Suzhou Aerospace Information Research Institute
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-12-02
Anticipated expiration: 2041-09-13
Also published as: CN113886522A

Abstract

本发明提出了一种基于路径扩展的非连续实体识别方法，对文本序列使用Transformer‑1编码器编码；将Transformer‑1编码器的输出通过一层线性映射层映射为实体首字符判别向量，并使用softmax函数得到字符标签预测值，以获得实体首字符的索引值；针对预测的每个实体首字符，将其对应的Transformer‑1编码器输出向量与其后字符的Transformer‑1编码器输出向量拼接，使用Transformer‑2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到字符标签预测值，以获得对应实体首字符的实体尾字符索引值；针对每对实体首字符和实体尾字符区间字符使用路径扩展方法，得到实体表示的路径；解码获得的实体表示路径，得到识别出的实体。本发明避免了解码模糊性问题，提高了识别的准确率。

Description

一种基于路径扩展的非连续实体识别方法

技术领域

本发明涉及自然语言处理技术，具体涉及一种基于路径扩展的非连续实体识别方法。

背景技术

实体识别是自然语言处理中的一项基本任务，其目的是从文本中检测出实体的边界并划分实体类别。目前，大多数方法将实体识别形式化为序列标注任务。然而，这些方法难以解决非连续、嵌套等不规则实体识别问题。

近年来，主流的非连续实体识别方法主要包括：字符级方法和句子级方法。字符级方法依然基于序列标注架构，将BIO标签扩展为更复杂的标签来表示非连续实体。例如，文献[1]引入BH、IH、BD和ID等四个标签以表示非连续实体。句子级方法将句子建模为一个整体结构来构建更有效的推理系统，以整体预测句子中的实体^[2]。例如，文献[3]提出使用超图将字符表示为图中不同类型的节点，使用图中两点之间的路径表示句子中的非连续实体。但是上述方法在最后的解码阶段都会遭受一定程度的模糊性(对应多种解码结果)，导致无法准确识别非连续实体^[4]。

[1]Metke-Jimenez A,Karimi S.Concept Identification and Normalisationfor Adverse Drug Event Discovery in Medical Forums[C]//THE FIRSTINTERNATIONAL WORKSHOP ON BIOMEDICAL DATA INTEGRATION AND DISCOVERY.2016.

[2]Muis A O，Lu W.Learning to Recognize Discontiguous Entities[J].2018.

[3]Lu W,Roth D.Joint mention extraction and classification withmention hypergraphs[C]//Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing.2015:857-867.

[4]Dai X,Karimi S,Hachey B,et al.An Effective Transition-based Modelfor Discontinuous NER[C]//Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics.2020.

发明内容

本发明的目的在于提出一种基于路径扩展的非连续实体识别方法，以解决非连续实体识别因解码模糊性造成的识别精度不高等问题。

实现本发明目的的技术解决方案为：一种基于路径扩展的非连续实体识别方法，具体步骤如下：

步骤1，对文本序列使用Transformer-1编码器编码；

步骤2，将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量，并使用softmax函数得到字符标签预测值，以获得实体首字符的索引值；

步骤3，针对预测的每个实体首字符，将其对应的Transformer-1编码器输出向量与其后字符的Transformer-1编码器输出向量拼接，使用Transformer-2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到字符标签预测值，以获得对应实体首字符的实体尾字符索引值；

步骤4，针对每对实体首字符和实体尾字符区间字符使用路径扩展方法，得到实体表示的路径；

步骤5，解码获得的实体表示路径，得到识别出的实体。

进一步的，步骤1中，对文本序列使用Transformer-1编码器编码，具体公式如下：

H＝Transformer-1(X) (1)

其中，H＝{h₁，h₂，...，h_n}表示Transformer-1编码器的输出，X＝{x₁，x₂，...，x_n}表示文本序列，n表示文本序列长度。

进一步的，步骤2中，将Transformer-1编码器的输出通过一层线性映射层映射到实体首字符的分类类别数，并使用softmax函数得到第i个字符标签预测值

具体公式如下：

其中，W₁是Transformer-1编码器的权重矩阵，b₁是Transformer-1编码器的偏置量，h_i是第i个字符的Transformer-1编码器输出，

表示该字符是实体首字符，

表示该字符不是实体首字符。

进一步的，步骤3中，针对预测的每个实体首字符x_k，将其对应的Transformer-1编码器输出向量与其后字符对应的Transformer-1编码器输出向量拼接，使用Transformer-2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到第j个字符标签预测值

具体公式如下：

其中，

表示向量拼接操作，W2是Transformer-2编码器的权重矩阵，b2是Transformer-2编码器的偏置量，

是第j个字符与h_k拼接后通过Transformer-2编码的向量，

表示该字符是首字符序号为k的实体的尾字符，

表示该字符不是首字符序号为k的实体的尾字符。

进一步的，步骤4中，针对首字符为x_k尾字符为x_j的实体区间[x_k，...，x_j]使用路径扩展方法，得到实体表示的路径，具体方法为：

将路径扩展视为字符的多分类问题，同时对每条路径设置记忆向量，将记忆向量与Transformer-1编码后的字符输出向量拼接，通过一层线性映射层进行路径扩展分类，具体公式如下：

其中，

表示向量拼接操作，W3是线性映射层的权重矩阵，b3是偏置量，

表示第p条路径第i个字符的记忆向量，h_i是第i个字符的Transformer-1编码器输出，

是一个多维向量，表示第p条路径第i个字符的分类向量，第一维向量为1表示该字符不是当前实体表示路径上的点，其余维向量为1表示该字符是对应类别实体表示路径上的点，当

在多个维度上的值都为1，第p条路径分支出多个新路径，新路径的初始记忆向量等于

一种基于路径扩展的非连续实体识别系统，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。

本发明与现有技术相比，其显著优点为：首先判断出实体的首字符索引和尾字符索引，针对实体首尾字符索引直接的实体表示区间，使用路径扩展方法得到实体表示路径，最终解码实体表示路径得到实体，避免了目前大部分非连续实体识别方法遭遇的解码模糊性问题，有效提高了非连续实体识别的准确率。

附图说明

图1是基于路径扩展的非连续实体识别方法的流程图；

图2是路径扩展的模型结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1-2所示，基于路径扩展的非连续实体识别方法，具体实现步骤如下：

步骤1，对文本序列使用Transformer-1编码器编码，具体公式如下：

H＝Transformer-1(X) (1)

步骤2，将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量，并使用softmax函数得到第i个字符标签预测值

(1表示该字符是实体首字符，0表示该字符不是实体首字符)，具体公式如下：

其中，W₁是Transformer-1编码器的权重矩阵，b₁是Transformer-1编码器的偏置量，h_i是第i个字符的Transformer-1编码器输出。

步骤3，针对预测的每个实体首字符x_k，将其输出向量与其后字符的输出向量拼接，使用Transformer-2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到字符标签预测值

(1表示该字符是首字符序号为k的实体的尾字符，0表示该字符不是首字符序号为k的实体的尾字符)具体公式如下：

其中，

表示向量拼接操作，W₂是Transformer-2编码器的权重矩阵，b₂是Transformer-2编码器的偏置量，

是第j个字符与h_k拼接后通过Transformer-2编码的向量。

步骤4，针对首字符为x_k尾字符为x_j的实体区间[x_k，...，x_j]使用路径扩展方法，得到实体表示的路径。

将路径扩展视为字符的多分类问题，即判断字符是否是当前实体表示路径上的点。同时为了增强对当前路径和历史上下文感知，对每条路径设置记忆向量，将记忆向量与Transformer-1编码后的字符输出向量拼接，通过一层线性映射层进行路径扩展分类。具体公式如下：

其中，

表示第p条路径第i个字符的记忆向量，

步骤5，针对所有获得的实体表示路径，解码路径得到识别出的实体。

本发明还提出一种基于路径扩展的非连续实体识别系统，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。

实施例

为了验证本发明方案的有效性，进行如下仿真实验。

给定文本序列[Couldn′t walk or even sleep comfortably]，其中，实体1是类别为ADR的Couldn′t walk comfortably，实体2是类别为ADR的Couldn′t sleepcomfortably。采用本发明方法识别出文本序列中的2个非连续实体(即实体1和实体2)，具体实现步骤如下：

步骤1，使用Transformer-1编码字符串得到H＝[h₁，h₂，...，h₈]；

步骤2，将H通过一层线性映射层，得到

(1表示该字符是实体首字符，0表示该字符不是实体首字符)；

步骤3，将h₁与[h₂，h₃，...，h₈]拼接，使用Transformer-2编码，接着通过一层线性映射层，得到首字符为Couldn的实体的尾字符预测标签

步骤4，针对首字符为Couldn，尾字符为comfortably的实体表示区间[h₁，h₂，...，h₈]，使用路径扩展方法，得到实体表示的路径。

步骤4.1，初始化记忆向量

将其与h₁拼接，通过一层线性映射层，得到

步骤4.2，将记忆向量

与h₂拼接，通过一层线性映射层，得到

步骤4.3，将记忆向量

与h₃拼接，通过一层线性映射层，得到

步骤4.4，将记忆向量

与h₄拼接，通过一层线性映射层，得到

步骤4.5，针对第一条路径，将记忆向量

与h₅拼接，通过一层线性映射层，得到

针对第二条路径，将记忆向量

与h₅拼接，通过一层线性映射层，得到

步骤4.6，针对第一条路径，将记忆向量

与h₆拼接，通过一层线性映射层，得到

针对第二条路径，将记忆向量

与h₆拼接，通过一层线性映射层，得到

步骤4.7，针对第一条路径，将记忆向量

与h₇拼接，通过一层线性映射层，得到

针对第二条路径，将记忆向量

与h₇拼接，通过一层线性映射层，得到

步骤4.8，针对第一条路径，将记忆向量

与h₈拼接，通过一层线性映射层，得到

针对第二条路径，将记忆向量

与h₇拼接，通过一层线性映射层，得到

步骤5，针对获得的路径[1，1，1，1，0，0，0，1]和[1，1，1，0，0，0，1，1]，提取路径中标签非0的字符，得到识别出的ADR实体1 Couldn′t walk comfortably和ADR实体2 Couldn′tsleep comfortably。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于路径扩展的非连续实体识别方法，其特征在于，具体步骤如下：

步骤1，对文本序列使用Transformer-1编码器编码；

步骤5，解码获得的实体表示路径，得到识别出的实体；

步骤4中，针对首字符为x_k尾字符为x_j的实体区间[x_k，...，x_j]使用路径扩展方法，得到实体表示的路径，具体方法为：

其中，

表示向量拼接操作，W₃是线性映射层的权重矩阵，b₃是线性映射层的偏置量，

2.根据权利要求1所述的基于路径扩展的非连续实体识别方法，其特征在于，步骤1中，对文本序列使用Transformer-1编码器编码，具体公式如下：

H＝Transformer-1(X) (1)其中，H＝{h₁，h₂，...，h_n}表示Transformer-1编码器的输出，X＝{x₁，x₂，...，x_n}表示文本序列，n表示文本序列长度。

3.根据权利要求1所述的基于路径扩展的非连续实体识别方法，其特征在于，步骤2中，将Transformer-1编码器的输出通过一层线性映射层映射为实体首字符判别向量，并使用softmax函数得到第i个字符标签预测值

具体公式如下：

表示该字符是实体首字符，

表示该字符不是实体首字符。

4.根据权利要求1所述的基于路径扩展的非连续实体识别方法，其特征在于，步骤3中，针对预测的每个实体首字符x_k，将其对应的Transformer-1编码器输出向量与其后字符对应的Transformer-1编码器输出向量拼接，使用Transformer-2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到第j个字符标签预测值

具体公式如下：

其中，

是第j个字符与h_k拼接后通过Transformer-2编码的向量，

表示该字符是首字符序号为k的实体的尾字符，

表示该字符不是首字符序号为k的实体的尾字符。

5.一种基于路径扩展的非连续实体识别系统，其特征在于，基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。

7.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于权利要求1-4任一项所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。