CN112699685B

CN112699685B - 基于标签引导的字词融合的命名实体识别方法

Info

Publication number: CN112699685B
Application number: CN202110027765.4A
Authority: CN
Inventors: 胡永利; 于腾; 孙艳丰; 王博岳; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2024-03-29
Anticipated expiration: 2041-01-08
Also published as: CN112699685A

Abstract

本发明涉及一种基于标签引导的字词融合的命名实体识别方法，用于解决以往分词工具不准确造成的分词错误的问题。具体采用标注信息对句子的分词结果进行分组，并对组内信息进行融合，能够有效的获得这个位置词的信息；将位置词信息与当前字的信息进行融合，增强位置词的信息表达；采用注意力机制，对每个位置词进行分配权重，使其更加关注正确的词的标签；采用Gated Mechanism来动态的权衡字特征与位置词向量特征的比重，最后通过BiLSTM与CRF找到最优序列。本发明改善了词边界识别错误的问题，并能够减少未登陆词(OOV)的产生。

Description

基于标签引导的字词融合的命名实体识别方法

技术领域

本发明属于自然语言处理领域，特别涉及命名实体识别技术和文本挖掘技术。

背景技术

命名实体识别(Named Entity Recognition,NER)旨在识别出非结构化文本序列中具有特殊含义的实体，并为这些实体分配相应的类别，比如人名、地名、组织机构名等等。由于命名实体识别在对话生成、关系抽取、知识图谱、共指消解等任务中起着基础支撑作用，因此命名实体识别在自然语言处理(Natural Language Processing，NLP)领域得到了广泛的研究。

对于命名实体识别任务，常用的方法是把它作为有监督的序列标注问题来求解。一般来说，监督数据越多，模型训练的效果就越好。但由于代价高，无法获得大规模的标注数据。因此，人工设计特征和特定领域内的语言资源被研究者广泛的运用于NER任务中。在新语言和新领域下开发特定的语言资源和特征的代价很大，这使得命名实体识别的研究也更具有挑战性。

近年来，随着计算机算力的提升和算法技术的发展，基于深度学习的模型在命名实体识别领域中得到了更加广泛的应用。2003年Hammerton提出了LSTM模型，首次将神经网络引入NER任务中来。Lample在2016年提出了BiLSTM-CRF的模型，并取得了较好的性能。但是由于中文不同于英文，上述NER模型应用于中文存在一些问题。中文是一种符号语言，其字与字之间蕴含了丰富的语义信息。现有的高性能命名实体识别系统主要是针对英文设计的，英文拥有明确的分割标识，首字母大写、词与词之间用空格分割的特性决定了英文的信息提取比较简单。但是中文不存在明显的单词边界，无法充分利用词的信息，因此现有的NER系统大多都是基于字符操作，然后对序列进行标记，一些科研人员决定将词的信息也融入进去，首先采用分词技术对句子进行分词处理，然后同样采用英文的方式进行模型的训练。这种方式虽然利用了词的信息，但是经研究发现，中文分词系统不可避免地会产生一些错误的分词，进而影响NER系统识别效果。在国内每天都会有新词的产生，虽然使用分词技术，但是对于新词的产生问题无法解决。

发明内容

为了解决现有方法不适用于中文实体识别，识别率低的问题，本发明提出了一种基于标签引导的字词融合的命名实体识别方法。该方法首次利用标注信息对句子的分词结果进行分组，得到当前字所在词中的具体位置信息，将其定义为位置词。将位置词信息与字信息进行交互，用来学习标签引导的词信息与字的信息融合结果；其次，我们在信息融合之后结合了注意力机制，学习字在不同位置词下的关注程度，使其对正确标注结果关注度较高；最后，通过使用Gated Mechanism来进行合并操作，能够动态的权衡和决定词向量所占的比重。该方法的提出，主要解决的问题是分词工具分词结果不准确，大量未登陆词(OOV)的产生。

本发明的贡献是通过增加位置词信息实现了语义扩充，能够减少分词不准确的现象。此模型中创新点有两点：一、利用了BIE标注法对通过分词得到的结果进行分组，通过查找表查找每个组内词的向量表示，这些词向量中即包含了词的信息又包含了标注信息。将分组后的结果再与字向量融合，能够得到当前字中所包含的语义扩充信息。二、通过门控单元来控制字向量与位置词向量对模型的影响程度。具体如步骤二和步骤三所示。具体技术内容如下：

步骤一：通过BERT模型对待识别的句子进行预训练，得到句中每个字的特征向量：

以句子为单位进行输入，输入的序列X＝{x₁，x₂，…，x_n}，其中n代表一句话中字的个数，得到输入序列的特征C＝{c₁，c₂，…，c_i，…，c_n}，其中c_i为经过BERT预训练后第i个字的特征向量；

步骤二：以待识别句子中的每一个字为对象，对包含这个字的所有的分词结果进行BIE格式标注，得到每个字的分词标注结果；然后根据BIE格式类别，对每个字的分词结果进行分组；其中，对于第i个字x_i，A为分词结果中包含x_i的一个词，则对A进行BIE格式标注的具体过程为：如果x_i为A中的第一个字符，则A被标注为B；如果x_i为A中的中间字符，即非开始与结尾部分，则A被标注为I；如果x_i为A中的结尾字符，则A被标注为E；

步骤三、对步骤二得到的分组结果提取每个组内所有分词的特征向量，将每个组内的所有分词的特征向量与当前字的特征向量进行融合，采用注意力机制来控制每个组的贡献程度，最后将每个组信息融合，得到每一个词的融合词向量；

步骤四：通过门控机制对字特征与融合词向量进行处理，得到所有字的门控单元的输出特征向量；

步骤五：通过BiLSTM与CRF模块对步骤四得到的所有字的融合词向量进行序列标注，得到最优序列标注，实现命名实体识别。

进一步的，步骤三具体包括如下步骤：

(1)提取句子中所有分词结果的词特征向量W＝{w₁,w₂,…,w_I}，其中I代表句子中所有的分词结果；

(2)在步骤二中得到了基于当前字的分词标注结果，提取分词标注结果中每个词的词向量,其中，分词标注结果一共分为三类，即B,I,E，每一类包含0个或多个词，如果分词标注类别中包含多个结果，即多个词向量，则将其进行融合，即

其中指的是当前字i下针对每个c融合的词特征向量，c代表标注的类别，tag代表分组类别，N代表每个标注内包含的分词个数，当前字包含的词向量的集合为：

(3)对于每一个标注类别c，通过当前字的特征向量与c所属组的特征向量进行拼接，计算权重

其中，为训练的参数，σ是一个sigmoid函数，c_i为当前字的特征向量；

(4)对所有类型的标签tag进行softmax操作，得到相应的注意力系数具体如下：

(5)将得到的每个类别的权重系数与对应的位置词向量进行融合，这个可以更加准确的表达当前字包含的位置词全部信息，具体如下：

其中，s_i是融合所有标注的位置词的输出，即当前第i个字x_i的融合词向量。

进一步的，步骤四所述的当前第i个字x_i的门控单元的输出特征向量o_i表示如下：

其中，代表element-wise相乘,也就是对应元素相乘，/>代表向量的拼接操作；

r_i＝σ(W₁·c_i+W₂·s_i+b)

其中W₁,W₂为模型训练参数，b为偏置系数。

本发明提出的基于标签引导的字词融合模型在识别的效率上有较大的提升，其中主要原因是我们通过添加标签信息与词信息能够提取更多的语义信息并通过门控单元控制字与词的贡献程度。本发明通过此方法能够改善词边界识别错误的问题并能够减少未登陆词(OOV)的产生。

附图说明

图1：本发明方法流程图；

图2：基于语义扩充的字词融合的命名实体识别模型；

图3：基于标签分组的方法；

具体实施方式

本发明提出的标签引导的字词融合的命名实体识别方法能够解决以往分词工具不准确造成的分词错误的问题。采用标注信息对句子的分词结果进行分组，并对组内信息进行融合，能够有效的获得这个位置词的信息；将位置词信息与当前字的信息进行融合，增强位置词的信息表达；采用注意力机制，对每个位置词进行分配权重，使其更加关注正确的词的标签；采用Gated Mechanism来动态的权衡字特征与位置词向量特征的比重，最后通过BiLSTM与CRF找到最优序列。图1给出了基于标签引导的字词融合的命名实体识别流程图。

本发明通过以下技术方案实现：

首先对其数据集进行分词处理，得到每句话的分词结果。通过预训练模型获得每句话的字向量与词向量，并对词向量按照BIE标注法进行分组,通过分组后的位置词向量与当前字向量进行拼接然后进行归一化操作。采用注意力机制为每组位置词分配权重，得到的位置词融合特征后与当前字的特征采用Gated Mechanism进行结合，将得到的最终特征输入到BiLSTM与CRF单元中，输出预测的最优标签。其具体步骤如下：

步骤一：通过现有技术BERT模型进行预训练来得到每个字的特征向量

我们按照以句子为单位进行输入，输入的序列X＝{x₁,x₂,…,x_n}，其中n代表一句话中字的个数。我们采用BERT模型进行预训练，来获取每个字的特征向量。我们采用的是Google在大型中文语料库中训练好的模型chinese_L-12_H-768_A-12，得到字序列的特征为C＝{c₁,c₂,…,c_i,…,c_n}，其中c_i为经过BERT预训练后每个字的特征向量，维度为300。

BERT模型是自然语言处理预训练语言表征模型。它能够计算词语之间的相互关系，通过左右文本内容联合调节进行训练，其训练得到的模型可从文本中提取更精准的语言信息特征。此外，BERT利用了自注意力机制的结构来进行预训练，基于所有层融合左右两侧语境来预训练深度双向表征，比起以往的预训练模型。它捕捉到的是真正意义上的上下文信息，并能够学习到连续文本片段之间的关系。

步骤二：以句子中每一个字为对象，通过BIE标注法对包含这个字的所有的分词结果进行格式标注，得到每个字的分词标注结果。

该部分的创新点有两个，其一是我们保留了分词之后所有的结果，没有去掉出现频次较低的词语，这种方式有效的减少了OOV的产生。其二是我们根据当前字的分词结果对其分组处理，以便在利用词信息的同时也应用标签信息，扩充了语义信息并捕获深层次的语义信息，提高模型的精度。

由于模型是按照句子进行输入，首先我们对每个句子进行分词处理。采用jieba分词工具,此分词工具在中文上表现优异。经过jieba分词处理完毕后，我们需要保留所有的分词结果，以“重庆市长江大桥”为例，分词结果为[“重庆”，“重庆市”，“市长”，“重庆市长”，“长江”，“长江大桥”，“江大桥”，“大桥”]。

在分词完成之后，我们根据标注schema对分词结果进行分组，以句子中每一个字为对象，对包含这个字的所有的分词结果进行格式标注。具体标注格式为BIE,其中B代表实体中的第一个字符，I代表实体的中间部门，即非开始与结尾部分，E代表实体中的结尾字符。得到每个字的分词标注结果。我们需要判断分词结果中包含当前字的位置，查看这个字在分词结果中所处的位置，然后按照BIE对分词结果进行分组。以“重庆市长江大桥”为例，我们当识别“江”这个字，其包含的分词结果包含[“长江”，“江大桥”，“长江大桥”]，按照标注法进行分组得到的结果为{B:[江大桥]，I：[长江大桥]，E：[长江]}，通过这种方法我们可以充分的利用标注信息以及词信息。

步骤三、通过步骤二得到的分组结果提取每个组内特征向量，将每个组内的信息与当前字信息进行融合，采用注意力机制来控制每个组的贡献程度，最后将每个组信息融合，得到词的特征向量。

该部分的创新点有两个，其一我们将获取的组内特征向量与字特征向量采用拼接进行融合，融合之后通过激活函数对其进行处理映射到(0,1)范围内。其二，我们应用了注意力机制，我们需要注意每个组内信息对于我们当前字的重要程度，在训练过程中不断的调整其权重系数，把注意力放在更重要的信息上。

我们对句子中所有分词结果进行词向量获取，采用与字训练相同的方式，得到词的特征向量W＝{w₁,w₂,…,w_I}，其中I代表句子中所有的分词结果，维度设置为300。在步骤二中，我们得到了基于当前字的分词标注结果，我们提取分词标注结果中每个词的词向量。分词标注结果一共分为三类，即B,I,E，其中每一类包含一个或多个词，如果分词标注类别中包含多个结果，即多个词向量，我们将其进行融合，即

其中指的是当前字i下针对每个c融合的词特征向量，c代表标注的类别，tag代表分组类别，N代表每个标注内包含的分词个数。当前字包含的词向量的集合为：

之后，对于每一个标注类别c，通过当前字的特征向量与c所属组的特征向量进行拼接，计算权重

其中，为训练的参数，首先随机初始化其参数，随着模型的训练，通过反向传播去不断调整参数。σ是一个sigmoid函数，c_i为当前字的特征向量。然后，对所有类型的标签tag进行softmax操作，得到相应的注意力系数/>

最后，我们将得到的每个类别的权重系数与对应的位置词向量进行融合，这个可以更加准确的表达当前字包含的位置词全部信息。

其中，s_i是融合所有标注的位置词的输出，即融合词向量。

步骤四：通过门控机制对字符特征与融合词特征进行处理，得到门控单元的输出特征向量。

在步骤三中，我们采用了注意力机制来区分不同标注对于位置词向量的影响，把注意力放在更重要的信息上。为了提高模型的表达能力，我们提出了一种门控单元机制(GatedMechanism)将我们得到的融合词特征向量s_i与字向量c_i放入门控单元中去，具体如图2所示，我们期望这样的机制能够动态地权衡和决定如何利用位置词信息和字信息。

r_i＝σ(W₁·c_i+W₂·s_i+b)

其中W₁,W₂为模型训练参数，b为偏置系数，c_i为字的特征向量，s_i为融合词特征向量，σ是一个sigmoid函数。我们使用o_i来控制它们之间的贡献，公式如下所示：

o_i是输入字符x_i经过门控机制的输出，代表element-wise相乘,也就是对应元素相乘，/>代表向量的拼接操作，通过这种方式，我们就可以决定是那种信息对于模型更加重要。

步骤五：跟以往的方法一样，通过BiLSTM与CRF模块进行序列标注，得到最优序列标注

在经过步骤四之后，我们得到了字符特征向量与位置词的特征向量o_i，接下来与以往的方法一样，没有创新点。通过双向LSTM(长短期记忆循环神经网络)学习序列特征，提取上下文的信息。CRF(条件随机场)用于提取全局最优序列，最终得到最优的序列标注，进而实现命名实体识别。具体的实现如下：

LSTM的核心为以下结构：遗忘门、输入门、输出门以及记忆Cell。输入门与遗忘门两者的共同作用就是舍弃无用的信息，把有用的信息传到下一时刻，对于整个结构的输出，主要是记忆Cell的输出和输出门的输出相乘所得到的。其结构用公式表达如下：

i_t＝σ(W_xio_t+W_hih_t-1+W_cic_t-1+b_i)

z_t＝tanh(W_xco_t+W_hch_t-1+b_c)

f_t＝σ(W_xfo_t+W_hfh_t-1+b_f)

c_t＝f_tc_t-1+i_tz_t

p_t＝tanh(W_xpo_t+W_hph_t-1+W_cpc_t+b_p)

h_t＝p_t tanh(c_t)

其中，σ为激活函数，W是权重矩阵，b是偏置向量，z_t是待增加的内容，c_t是t时刻的更新状态，i_t,f_t,o_t分别是输入门、遗忘门及输出门的输出结果，h_t则是整个LSTM单元t时刻的输出。我们在模型中定义了BiLSTM的层数为1层，隐层节点数为300，而且采用的是双向的LSTM，即每一时刻都对应着前向和后向的信息，其输出如下式所示：

在得到序列信息之后，我们经过一个全连接层将其映射到标签对应维度，也就是对于每一个字获得每个字对应的标签的得分。最通过CRF模块来处理输出标签之间的依赖关系，获得一个最优的预测序列。对于一个输入序列X＝{x₁,x₂,…,x_n}，假定P是BiLSTM的输出得分矩阵，P的大小为n*k,其中n为词的个数，k为标签个数，P_ij表示第i个字的第j个标签的分数，对预测序列Y＝{y₁,y₂,…,y_n}而言，得到它的分数函数为：

其中，A表示转移分数矩阵，A_ij代表标签i转移为标签j的分数，A的大小为k+2,预测序列Y产生的概率为：

两头取对数得到预测序列的似然函数：

式中，表示真实的标注序列，Y_X表示所有可能得标注序列，解码后得到最大分数的输出序列：

本发明对上述方法进行了实验验证，并取得了明显的效果。本发明使用2006年SIGHAN中文命名实体识别评测的MSRA语料库和Weibo数据集，其中MSRA数据集属于新闻领域，有三种实体类型：人名(PER)、地名(LOC)和组织名(ORG)。Weibo数据集属于社交媒体领域，有四种实体类型：人名(PER)、组织名(ORG)、地名(LOC)和地缘政治(GPE)，且每个类型分别由特定实体和指代实体组成。上述两个数据集均包含人工标注的标签信息，由于MSRA数据集中没有验证集，我们在训练集中分出20％作为验证数据集。

本发明充分了利用标签信息，所以采用BIEO标注法则进行标注，其中B代表着“实体中的第一个字符”，I代表着“实体中间的字符”，E代表着“实体末尾的字符”，O代表着“其他字符”。我们采用此标注法包含了更加丰富的标注信息，能够对实体进行更加细化的划分。本发明是用了在MUC评测会议上所提出的命名实体识别评价指标，即精确率(Precision,P),召回率(Recall,R)和F1值(F1值为召回率和精确率的加权调和平均值)，具体的公式如下：

本发明做了相关实验，对比了当前效果最优的几种方法，其中包括2013年Zhang和2016年Zhou所提出的模型，这些模型利用了丰富的手工特性；以及对比了最近基于深度学习效果最好的模型。由于因为我们的模型使用BERT作为预训练，我们采用BERT模型和BERT-BiLSTM-CRF模型作为baseline。其中在MSRA数据集上我们模型的实验结果如表1，在Weibo数据集上实验结果如表2所示。

从实验结果来看，我们提出的模型(OURS)在MSRA和Weibo数据集上都优于其他网络模型。这证明了通过标签引导的字词融合模型以及注意力机制能够学习到更好的语义信息，采用门控机制能够动态的更新字与位置词的贡献程度，从而能够捕获更多的特征上下文信息。

表1 MSRA数据集上的实体识别性能

Model	P	R	F1
				Zhang et al.(2006)	92.20	90.18	91.18
Zhou et al.(2013)	91.86	88.75	90.28
				Dong et al.(2016)	91.28	90.62	90.95
Lattice-LSTM(2018)	93.57	92.79	93.18
				CAN-NER(2019)	93.53	92.42	92.97
LR-CNN(2019)	94.50	92.93	93.71
				BERT	93.4	94.12	93.76
BERT-BiLSTM-CRF	95.06	94.61	94.83
				OURS	95.23	95.10	95.15

表2 Weibo数据集上的实体识别性能

Claims

1.基于标签引导的字词融合的命名实体识别方法，其特征在于包括以下步骤：

步骤五：通过BiLSTM与CRF模块对步骤四得到的所有字的融合词向量进行序列标注，得到最优序列标注，实现命名实体识别；

步骤三具体包括如下步骤：

(5)将得到的每个类别的权重系数与对应的位置词向量进行融合，表达当前字包含的位置词全部信息，具体如下：

2.根据权利要求1所述的基于标签引导的字词融合的命名实体识别方法，其特征在于步骤四所述的当前第i个字x_i的门控单元的输出特征向量o_i表示如下：

r_i＝σ(W₁·c_i+W₂·s_i+b)

其中W₁,W₂为模型训练参数，b为偏置系数。