CN110598212A

CN110598212A - 一种快速命名体识别方法

Info

Publication number: CN110598212A
Application number: CN201910834672.5A
Authority: CN
Inventors: 齐涛; 黄永峰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-20

Abstract

本发明提出一种快速命名体识别方法，涉及命名体识别领域。该方法首先对待识别的文本进行预处理，将文本进行分句，并转换为字符序列；对预处理完毕的文本分别进行局部信息建模和全局信息建模，得到文本字符的局部上下文表示和全局上下文表示；基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码，得到得到命名体识别任务的损失函数，对损失函数进行优化，得到文本的命名体识别结果。本发明在保持命名体识别性能的前提下有效地提升了命名体识别的速度。

Description

一种快速命名体识别方法

技术领域

本发明涉及命名体识别领域，具体涉及一种快速命名体识别方法，用于从文本中快速抽取命名实体。

背景技术

命名体识别旨在从文本中提取命名体，并将它们分类为不同的类别，例如人员，位置和组织。例如，在句子“阿里准备去阿里工作”中，命名体识别任务的目的是将第一个“阿里”识别为人员实体，将第二个“阿里”识别为组织实体。命名体识别是自然语言处理领域的一项重要任务，也是许多下游应用程序的先决条件，例如实体链接和关系抽取，这两者对于构建和应用知识图非常重要。因此，命名体识别任务近年来受到越来越多的关注。

近年来，基于深度学习的方法已在命名体识别中广泛使用。这些方法通常基于LSTM(长短时记忆网络)-CRF(条件随机场)架构及其变体。例如，Lample等人提出了一种基于LSTM-CRF的命名体识别方法，其中LSTM用于从句子的上下文信息中学习单词的隐向量表示，CRF用于捕获单词标签之间的依赖关系以进行联合标签解码。Chiu等人提出了一种基于CNN-LSTM-CRF架构的方法，其中卷积神经网络(CNN)网络用于从单词字母中学习单词的表示。彼得斯等人提出了一种基于CNN-LSTMs-CRF架构的名为TagLM的半监督命名体识别方法。他们建议将来自预训练语言模型的上下文单词向量合并到他们的模型中以增强单词表示。与英文文本不同，中文文本中的词语没有明确的分隔符如空格，来将词语进行分割。因此，中文命名体识别通常被建模为字符级序列标记问题。例如，彭等人提出了一种基于LSTM-CRF架构的中文命名体识别方法，其中LSTM网络用于从全局上下文信息中学习字符表示，并且CRF用于捕获用于标签解码的相邻标签之间的依赖性。

然而，计算LSTM网络的时间复杂度非常高。此外，它也难以有效地被并行计算加速，很难通过GPU加速获益。因此，这些基于LSTM-CRF的NER方法的效率通常不令人满意。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种快速命名体识别方法。该方法在保持命名体识别性能的前提下有效地提升了命名体识别的速度。

本发明提出一种快速命名体识别方法，其特征在于，包括以下步骤：

1)对待识别的文本进行预处理，将文本进行分句，并转换为字符序列；

2)对步骤1)预处理完毕的文本进行局部信息建模，得到文本字符的局部上下文表示；

3)对步骤1)预处理完毕的文本进行全局信息进行建模，得到文本字符的全局上下文表示；

4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码，得到得到命名体识别任务的损失函数，对损失函数进行优化，得到文本的命名体识别结果。

本发明的特点及有益效果在于：

本发明的一种快速命名体识别方法，使用了一个CNNs-SelfAttention-CRF的框架，首先从文本中捕捉文本的局部信息，进而利用这些基于局部信息的字符表示学习基于全局信息的字符表示，并利用两种表示联合解码标签序列。该方法在保持命名体识别性能的前提下有效地提升了命名体识别的速度。

附图说明

图1为为本发明方法的整体流程图。

图2为本发明实施例的工作原理图。

具体实施方式

本发明提出一种快速命名体识别方法，下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出一种快速命名体识别方法，整体流程如图1所示，包括以下步骤：

2)对步骤1)预处理完毕的文本进行局部信息建模，得到文本字符的局部上下文表示。

进一步地，在本发明的一个实施例中，步骤2)包括：使用字符向量嵌入矩阵查找所述文本字符的向量表示；使用字符级别的卷积神经网络，根据字符的局部上下文学习文本字符的隐向量表示。

局部信息对于实体的识别十分重要。例如，在“中美关系”中，通过字符“美”，我们可以很容易地推断，字符“中”是一个地名实体。可以理解的是，本发明实施例可以对通过对文本中的字符对文本局部信息进行建模，使用字符嵌入矩阵查找所述字符的语义向量表示；并使用两层字符级别的卷积神经网络，从字符的语义向量表示学习字符的局部上下文表示。

具体而言，图2为本发明实施例的工作原理图。如图2所示，本发明实施例对于一个文本的字符序列[w₁，w₂，...，w_N]，需要从中建模文本局部信息的隐向量表示。通过这一个步骤，每个字符通过字符嵌入查找表被映射到一个低维向量，其中V是词汇量大小，D是嵌入维度。在模型训练期间，该字符嵌入查找表的参数可以训练。该文本字符序列被转换为向量序列[e₁,e₂,…,e_N]。

下一层是CNN(Convolutional Neural Networks，卷积神经网络)。将c_i记作为i个字符由第一层卷积神经网络学到的表示，其计算方法如下：

c_i＝ReLU(F₁×e_(i-k：i+k)+b₁)，

其中e_(i-k：i+k)是从位置i-k到i+k的字符嵌入向量的串联，和是CNN网络中的滤波器参数，N_F1是滤波器数量，2k+1是窗口大小。ReLU是非线性激活函数。

将g_i记作为第i个字符的局部上下文表示，其为第二层卷积神经网络的输出，其计算方法如下：

g_i＝ReLU(F₂×c_(i-t：i+t)+b₂)，

其中c_(i-t：i+t)是从位置i-t到i+t的第一层卷积神经网络输出的串联，和是CNN网络中的滤波器参数，N_F2是滤波器数量，2t+1是窗口大小。CNN网络的输出是一系列字符的上下文表示，表示为[g₁,g₂,…,g_N]。

3)对步骤1)预处理完毕的文本进行全局信息建模，得到文本字符的全局上下文表示；

进一步地，在本发明的一个实施例中，所述步骤3)包括：使用字符级的多头自我注意力机制，根据文本字符的全局上下文信息学习字符的隐向量表示。

可以理解的是，本实例可以通过一个多头自我注意力机制，利用文本字符的局部上下文表示对文本的全局信息进行建模，得到文本字符的全局上下文表示。

具体而言，如图2所示，在这一步骤中，多头自我注意力机制利用文本字符的局部上下文表示[g₁,g₂,...,g_N]对文本的全局信息进行建模，得到文本字符的全局上下文表示[m₁,m₂,...,m_M]：

进一步地，在本发明的一个实施例中，所述步骤4)包括：使用条件随机场利用文本的局部和全局上下文字符表示解码出标签，得到预测的命名实体，获取当前文本实体标注的loss函数。

具体而言，如图2所示，在这一步骤中，我们首先将2)中得到的局部上下文字符表示和3)中得到的全局上下文字符表示进行拼接，得到一个信息更为全面的字符表示h_j＝[g_j；m_j]。我们通过条件随机场利用该字符表示h＝[h₁,h₂,…,h_N]计算字符序列对应于每一个标签序列y的分数。

L_i＝W_Ch_i+b_C,

其中s(r,y)是候选序列y的总分，L_i是将第i个字符标记为y_i的分数，将两个连续的标签分别分配为y_i和y_i+1的转移分数，W_C,b_C和T是条件随机场模型的参数。

将计算该文本序列x标记为标签序列y的概率为：

其中Y为全部候选标签的集合。

最后，我们可以得到命名体识别任务的损失函数为：

其中X为全部文本的集合。

我们通过Adam优化器对损失函数来进行优化训练我们的模型。

在预测阶段，选择p(y|x)中最高的标签序列作为文本的命名体识别结果。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种快速命名体识别方法，其特征在于，包括以下步骤：