CN111581957A

CN111581957A - 一种基于金字塔层级网络的嵌套实体检测方法

Info

Publication number: CN111581957A
Application number: CN202010371816.0A
Authority: CN
Inventors: 寿黎但; 王珏; 陈珂; 陈刚; 骆歆远; 伍赛; 胡天磊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-25
Anticipated expiration: 2040-05-06
Also published as: CN111581957B

Abstract

本发明公开了一种基于金字塔层级网络的嵌套实体检测方法，属于自然语言处理技术领域。该嵌套实体检测方法包括：(一)对单词进行编码获得词向量，将词向量作为仅包含单个单词的文本区域的表示输入第一个解码层；(二)当前解码层对输入的每个文本区域的表示进行命名实体识别，将相邻的两个文本区域的表示被合并为一个新的文本区域的表示，输入到下一解码层，重复该步骤直到次数达到预设的层数或输入文本的长度；(三)对应于上述金字塔层级网络，使用合适的优化方法进行训练；(四)将待检测文本输入训练好的金字塔层级网络，获得命名实体识别结果。本发明的基于金字塔层级网络的嵌套实体检测方法可以解决命名实体识别中存在实体嵌套的问题。

Description

一种基于金字塔层级网络的嵌套实体检测方法

技术领域

本发明属于自然语言处理技术领域，涉及一种嵌套实体检测方法，特别是涉及一种基于金字塔层级网络的嵌套实体检测方法。

背景技术

命名实体识别是信息抽取中的重要任务。给定文本作为输入，命名实体识别的目的是识别出输入文本中对应类别的命名实体。例如给定输入“Former U.N.AmbassadorJeane Kirkpatrick”，我们需要识别出“Jeane Kirkpatrick”是一个人物命名实体。

传统的方法通常将命名实体识别视为一个序列标注问题，即给定输入文本，对文本中的每一个词打上一个特定的标签，然后根据合并词级别的标签来最终得到命名实体。这类方法通常假定每一个词至多只属于一个命名实体。然而，嵌套命名实体在自然语言中分布十分广泛，对于上述例子“Former U.N.Ambassador Jeane Kirkpatrick”，其中“U.N.”为组织命名实体，“Ambassador”为角色命名实体，“Jeane”为姓命名实体，“Kirkpatrick”为名命名实体，“U.N.Ambassador”为角色命名实体，“Former U.N.Ambassador”为角色命名实体，“Jeane Kirkpatrick”为人物命名实体，“Former U.N.Ambassador JeaneKirkpatrick”整个短语为人物命名实体。这些命名实体存在大量的嵌套关系，这类嵌套结构通常揭示了命名实体之间的特殊关系，因此忽视这类的嵌套命名实体会对许多下游任务(如关系抽取、事件抽取等)产生重大的影响。

发明内容

为克服现有的命名实体提及检测方法无法解决嵌套命名实体提及识别的不足，本发明提供了一种基于金字塔层级网络的命名实体识别方法。对于存在嵌套关系的两个不同的命名实体，嵌套的命名实体长度一定大于被嵌套的命名实体长度，否则无法构成嵌套关系。因此在本发明中，嵌套的命名实体根据命名实体的长度被分离到不同的解码层进行解码，先识别长度较短的命名实体，再识别较长的命名实体，从而解决嵌套命名实体识别的问题。本发明所采用的技术方案如下：一种基于金字塔层级网络的嵌套实体检测方法，所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成；所述编码层由词嵌入层和第一长短记忆神经网络LSTM₁，所述词嵌入层的输出端与第一长短记忆神经网络LSTM₁的输入端连接；所述解码层包括：第二长短记忆神经网络LSTM₂、卷积神经网络、全连接神经网络，所述第二长短记忆神经网络LSTM₂的输出端与卷积神经网络的输入端连接，卷积神经网络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤：

(1)将文本输入到金字塔层级网络，通过编码层，对输入文本中的单词编码为词向量；

(2)将编码后的词向量作为仅包含单个词的文本区域的表示，并将所述文本区域的表示输入到第一个解码层；

(3)对于输入的文本区域的表示，使用当前解码层的命名实体识别器检测每个文本区域是否为命名实体，若是则输出该文本区域对应的命名实体类型；若不是，则输出该文本区域对应的命名实体类型为空类型；

(4)对于经过当前解码层的命名实体识别器的文本区域的表示，使用当前解码层的卷积神经网络将相邻的文本区域的表示融合为新的文本区域的表示；

(5)将融合后的新的文本区域的表示输入到下一解码层；

(6)重复步骤(3)-(5)，直到重复次数达到与预设的解码层数相同或重复次数达到与输入文本的长度相同。

(7)将每次获得的命名实体类型与正确的命名实体类型进行比较，计算损失值，并通过优化方法最小化该损失值，最终获得训练好的用于命名实体识别的金字塔层级网络。

(8)获取待检测文本，将待检测文本输入训练好的用于命名实体识别的金字塔层级网络，获得命名实体识别结果。

进一步地，步骤(1)包括以下子步骤：

(1.1)输入文本包含单词x₁,x₂,…,x_i,…,x_T，将文本输入到金字塔层及网络，通过词嵌入层先被映射到一个稠密的词向量

其中

是词x_i的词向量，T是所述文本包含单词的数量；

(1.2)通过第一长短时记忆神经网络层LSTM₁来获得编码后的词向量：

其中，h_i表示文本中第i个词的上下文相关表示，

表示从左到右的LSTM₁上下文相关表示，

表示从右到左的LSTM₁上下文相关表示，[；]表示两个向量的连接。

进一步地，步骤(3)包括以下子步骤：

(3.1)通过层标准化处理输入文本区域的表示，将处理前的文本区域的表示记为x′_i，处理后的文本区域的表示记为x″_i；

(3.2)通过第二长短时记忆神经网络层LSTM₂来获取上下文相关的文本区域的表示：

其中，h′_i表示第i个文本区域的上下文相关表示，

表示从左到右的LSTM₂上下文相关表示，

表示从右到左的上下文相关表示，[；]表示两个向量的连接。若当前为第n层解码层，则h′_i实际表示从第i个单词开始到第i+n-1个单词结束的文本区域；

(3.3)将h′_i送入全连接神经网络，该全连接神经网络计算每个文本区域是某一特定类别命名实体的打分logits_i，其中包括有一个空类别表示该文本区域不是任何一个命名实体；

logits_i＝Linear(h′_i)

其中Linear表示一个全连接神经网络；

(3.4)使用软最大化函数来对各个类别上的打分进行归一化，从而获得每个文本实体是某一特定命名实体类型的概率值：

其中x_i,…,i+n-1表示从第i个单词开始到第i+n-1个单词结束的文本区域，C表示命名实体类型的集合，|C|表示命名实体类型集合所包含命名实体类型的数量，c_j为一个命名实体类型满足c_j∈C，e为自然对数函数的底数；

(3.5)选择概率值最高的命名实体类型作为输出的文本区域所对应的命名实体类型；其中包括用空类别表示该文本区域不是任何一个命名实体。

进一步地，步骤(4)中相邻的文本区域的表示满足以下条件：

(1)两个文本区域的表示所对应的文本区域分别起始于第i₁和i₂个单词，结束于第j₁和j₂个单词；

(2)i₁+1＝i₂；

(3)j₁+1＝j₂。

进一步地，步骤(4)中融合为新的文本区域的表示，满足以下条件：

(1)输入的两个文本区域的表示所对应的文本区域分别起始于第i₁和i₂个单词，结束于第j₁和j₂个单词；

(2)融合的文本区域的表示所对应的文本区域起始于第i₁个单词，结束于第j₂个单词。

进一步地，步骤(4)中所述的卷积神经网络的窗口大小为2，通过以下步骤融合两个相邻文本区域的表示：

x′_i＝CNN_w＝2(h′_i,h′_i+1)

其中CNN_w＝2为窗口大小为2的卷积神经网络；

若当前为第n层解码层，融合前的两个相邻文本区域的表示所对应的文本区域分别起始于第i和i+1个单词，结束于第i+n-1和i+n个单词，融合的新的文本区域的表示所对应的文本区域起始于第i个单词，结束于第i+n个单词。

进一步地，步骤(7)中损失值的计算方法为交叉熵损失函数，所述优化方法为随机梯度下降(SGD)。

与现有技术相比，本发明的有益效果如下：本发明提出了一种全新的用于嵌套实体检测的金字塔层级网络，所述金字塔层级网络的每一层解码层所处理的文本区域为上一层解码层所处理文本区域的相邻两两融合，并且所述金字塔层级网络将不同长度的命名实体在不同解码层输出，因此当前层解码层所预测的命名实体所对应的文本区域可以包含上一层解码层预测的命名实体所对应的文本区域，从而能够解决嵌套命名实体识别的问题。实验表明，该命名实体识别方法能有效识别嵌套命名实体识别，并能显著提高命名实体识别的准确率。

附图说明

图1是本发明采用的金字塔层级网络的整体构架图；

图2是本发明采用所述金字塔层级网络进行命名实体识别的示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提供了一种基于金字塔层级网络的嵌套实体检测方法，如图1所示，所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成；所述编码层由词嵌入层和第一长短记忆神经网络LSTM₁，所述词嵌入层的输出端与第一长短记忆神经网络LSTM₁的输入端连接；所述解码层包括：第二长短记忆神经网络LSTM₂、卷积神经网络、全连接神经网络，所述第二长短记忆神经网络LSTM₂的输出端与卷积神经网络的输入端连接，卷积神经网络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤：

(1)将文本输入到金字塔层级网络，通过编码层，对输入文本中的单词编码为词向量；具体包括以下子步骤：

其中

是词x_i的词向量，T是所述文本包含单词的数量；

其中，h_i表示文本中第i个词的上下文相关表示，

表示从左到右的LSTM₁上下文相关表示，

(3)对于输入的文本区域的表示，使用当前解码层的命名实体识别器检测每个文本区域是否为命名实体，若是则输出该文本区域对应的命名实体类型；若不是，则输出该文本区域对应的命名实体类型为空类型。具体包括以下子步骤：

(3.1)通过层标准化(LayerNormalization)处理输入文本区域的表示，将处理前的文本区域的表示记为x′_i，处理后的文本区域的表示记为x″_i；所述层标准化的过程为：

其中x′_i,k是输入向量；μ是向量x′_i的平均值；σ²是向量x′_i的方差；K是向量x′_i的维度；

是经过标准化的向量；λ是仿射变换的权值；β是仿射变换的偏置；

层标准化用于消除多个解码层的输入的均值和方差的差异，从而提高嵌套命名实体检测的准确率；

其中，h′_i表示第i个文本区域的上下文相关表示，

表示从左到右的LSTM₂上下文相关表示，

logits_i＝Linear(h′_i)

其中Linear表示一个全连接神经网络；

(3.4)使用软最大化函数(SoftMax)来对各个类别上的打分进行归一化，从而获得每个文本实体是某一特定命名实体类型的概率值：

P(c_j|x_i,…,i+n-1)＝SoftMax(logits_i)_j

其中x_i,…,i+n-1表示从第i个单词开始到第i+n-1个单词结束的文本区域，c_j为一个命名实体类型。

所述软最大化的过程为：

其中logits_i为输入向量，K为输入向量logits_i的维度，e为自然对数函数的底数。

所述相邻的文本区域的表示满足以下条件：

(2)i₁+1＝i₂；

(3)j₁+1＝j₂。

所述融合为新的文本区域的表示，满足以下条件：

所述的卷积神经网络的窗口大小为2，通过以下步骤融合两个相邻文本区域的表示：

x′_i＝CNN_w＝2(h′_i,h′_i+1)

其中CNN_w＝2为窗口大小为2的卷积神经网络；

若当前为第n层解码层，融合前的两个相邻文本区域的表示所对应的文本区域分别起始于第i和i+1个单词，结束于第i+n-1和i+n个单词，融合的新的文本区域的表示所对应的文本区域起始于第i个单词，结束于第i+n个单词；

所述基于卷积神经网络的融合相邻文本区域的表示的过程，能更加有效地表示融合后的文本区域，优于常见的平均池化、最大池化等方法，具体体现在嵌套实体识别的准确率更高；

所述融合的新的文本区域的表示所对应的文本区域包含了融合前的两个相邻文本区域，因此允许预测嵌套的命名实体，即一个命名实体包含另一个或多个命名实体。

(5)将融合后的新的文本区域的表示输入到下一解码层；

(7)将每次获得的命名实体类型与正确的命名实体类型进行比较，通过交叉熵损失函数计算损失值，并通过随机梯度下降(SGD)优化方法最小化该损失值，最终获得训练好的用于命名实体识别的金字塔层级网络。

实施例

下面以识别“Former U.N.Ambassador JeaneKirkpatrick”中的“U.N.”为组织命名实体，“Ambassador”为角色命名实体，“Jeane”为姓命名实体，“Kirkpatrick”为名命名实体，“U.N.Ambassador”为角色命名实体，“Former U.N.Ambassador”为角色命名实体，“JeaneKirkpatrick”为人物命名实体，“Former U.N.Ambassador JeaneKirkpatrick”为人物命名实体，并参照图2，说明本发明的嵌套实体检测方法。

(1)基于训练语料，训练基于金字塔层级网络的命名实体识别器，该基于金字塔层级网络的命名实体识别器包含一层编码层和多层解码层。以上文的例子为例，输入文本为“FormerU.N.Ambassador JeaneKirkpatrick”，输入文本包含的“U.N.”为组织命名实体，“Ambassador”为角色命名实体，“Jeane”为姓命名实体，“Kirkpatrick”为名命名实体，“U.N.Ambassador”为角色命名实体，“Former U.N.Ambassador”为角色命名实体，“JeaneKirkpatrick”为人物命名实体，“Former U.N.Ambassador Jeane Kirkpatrick”为人物命名实体；

(2)编码层将输入输入文本中的每个词编码为一个固定长度的向量，并将编码后的词向量看做仅包含一个词的文本区域的表示，输入到第一层解码层；

(3)第一层解码层包含一个基于神经网络的命名实体识别器，该命名实体识别器分别判断输入的仅包含一个词的文本区域是否为命名实体，若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“U.N.”为组织命名实体，“Ambassador”为角色命名实体，“Jeane”为姓命名实体，“Kirkpatrick”为名命名实体；

(4)第一层解码器包含一个窗口大小为2的卷积神经网络，用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“Former”、“U.N.”、“Ambassador”、“Jeane”、“Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.”、“U.N.Ambassador”、“Ambassador Jeane”、“JeaneKirkpatrick”的表示。将新的文本区域的表示输入到第二层解码层；

(5)第二层解码层包含一个基于神经网络的命名实体识别器，该命名实体识别器分别判断包含两个词的文本区域是否为命名实体，若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“U.N.Ambassador”为角色命名实体，“Jeane Kirkpatrick”为人物命名实体；

(6)第二层解码器包含一个窗口大小为2的卷积神经网络，用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“Former U.N.”、“U.N.Ambassador”、“Ambassador Jeane”、“Jeane Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.Ambassador”、“U.N.AmbassadorJeane”、“Ambassador Jeane Kirkpatrick”的表示。将新的文本区域的表示输入到第三层解码层；

(5)第三层解码层包含一个基于神经网络的命名实体识别器，该命名实体识别器分别判断包含三个词的文本区域是否为命名实体，若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“Former U.N.Ambassador”为角色命名实体；

(6)第三层解码器包含一个窗口大小为2的卷积神经网络，用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“FormerU.N.Ambassador”、“U.N.Ambassador Jeane”、“Ambassador Jeane Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.Ambassador Jeane”、“U.N.Ambassador Jeane Kirkpatrick”的表示。将新的文本区域的表示输入到第四层解码层；

(7)第四层解码层包含一个基于神经网络的命名实体识别器，该命名实体识别器分别判断包含四个词的文本区域是否为命名实体，若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测所有包含四个词的文本区域都不是命名实体；

(8)第四层解码器包含一个窗口大小为2的卷积神经网络，用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“FormerU.N.Ambassador Jeane”、“U.N.Ambassador Jeane Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.Ambassador Jeane Kirkpatrick”的表示。将新的文本区域的表示输入到第五层解码层；

(9)第五层解码层包含一个基于神经网络的命名实体识别器，该命名实体识别器分别判断包含五个词的文本区域是否为命名实体，若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“Former U.N.Ambassador JeaneKirkpatrick”为角色命名实体；

(10)第五层解码器包含一个窗口大小为2的卷积神经网络，用于将相邻的文本区域的表示融合为新的文本区域的表示。但由于输入文本的最大长度为五，因此无需且无法融合相邻文本区域，故所述金字塔层级网络在第五层解码层停止运行；

(11)输出所有解码层预测的文本区域所对应的命名实体类型。所述金字塔层级网络预测的命名实体类型与正确的命名实体类型一致，表明所述基于金字塔层级网络的嵌套实体检测方法能够有效地检测嵌套实体，并且具有较高的准确率。

上述实施例中提到的第一长短记忆神经网络LSTM₁和第二长短记忆神经网络LSTM₂可以使用任意一种机器学习中的文本编码器替代，例如GRU、CNN、Transformer等。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于金字塔层级网络的嵌套实体检测方法，其特征在于，所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成；所述编码层由词嵌入层和第一长短记忆神经网络LSTM₁，所述词嵌入层的输出端与第一长短记忆神经网络LSTM₁的输入端连接；所述解码层包括：第二长短记忆神经网络LSTM₂、卷积神经网络、全连接神经网络，所述第二长短记忆神经网络LSTM₂的输出端与卷积神经网络的输入端连接，卷积神经网络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤：

(5)将融合后的新的文本区域的表示输入到下一解码层；

2.如权利要求1所述嵌套实体检测方法，其特征在于：步骤(1)包括以下子步骤：