CN110334339A

CN110334339A - 一种基于位置感知自注意力机制的序列标注模型与标注方法

Info

Publication number: CN110334339A
Application number: CN201910362637.8A
Authority: CN
Inventors: 魏巍; 王赞博; 陈志毅; 李恒; 杨佳鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-10-15
Anticipated expiration: 2039-04-30
Also published as: CN110334339B

Abstract

本发明公开了一种基于位置感知自注意力机制的序列标注模型与标注方法，该序列标注模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；所述自注意上下文融合层，用于以词的特征向量表示序列作为输入，通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联，得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明提出的方法通过引入自注意上下文融合层，能够充分提取单词之间的潜在关系，从而可以在Bi‑LSTM的基础上提供互补的上下文信息。

Description

一种基于位置感知自注意力机制的序列标注模型与标注方法

技术领域

本发明涉及自然语言处理技术，尤其涉及一种基于位置感知自注意力机制的序列标注模型与标注方法。

背景技术

传统的序列标注方法通常基于经典机器学习算法，例如隐马尔可夫模型 (HMM)和条件随机场(CRF)，但这些方法均严重依赖于手工特征或与特定语言相关的资源。随着深度学习的进步，许多基于深度神经网络模型的研究致力于增强序列标注任务的效果，其通常将字符和单词信息以特征向量表示用于输入，并且以端到端的训练方式学习每个单词的句子级上下文表示。最近，许多研究工作构建以循环神经网络(RNN)为基础的架构，例如BiLSTM-CNN，LSTM-CRF 和LSTM-CNN-CRF等。尽管这些模型在序列标注任务上展现出卓越的性能，但其将全部历史信息编码到前一词的隐含状态，从而递归处理每个单词的模式存在局限性，这种序列化处理输入的方式可能会限制其捕获单词间潜在的相互独立关系的能力，从而在一定程度上削弱模型对上下文依赖的敏感性。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于位置感知自注意力机制的序列标注模型与标注方法。

本发明解决其技术问题所采用的技术方案是：一种基于位置感知自注意力机制的序列标注模型，该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；

所述自注意上下文融合层，用于以词的特征向量表示序列作为输入，通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联，得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征；

BiLSTM，由正向和反向的长短时记忆网络LSTM组成；正向和反向LSTM接收自注意上下文融合层的输出特征作为输入，分别编码当前时刻的上文和下文信息；两者的编码信息合并构成每个词的全局语义特征表示；

CRF层，用于接收编码器的输出作为输入，根据序列得分选择全局最优的标签序列。

按上述方案，所述位置感知自注意力机制为在计算注意力权值过程中引入词语间的相对位置信息。

按上述方案，所述编码器还包括用于对BiLSTM的输出进行进一步处理，通过提供补充的上下文信息，得到最终待解码的特征表示的自注意上下文融合层。

该自注意上下文融合层的结构与前一个自注意上下文融合层相同。

按上述方案，所述自注意上下文融合层根据输入序列得到输出特征的过程如下：

针对某特定词语,首先计算序列中所有词语和它的注意力权值，即对齐分数，在计算对齐分数过程中引入词语间的相对位置信息，然后以归一化后的对齐分数作为权重，计算所有词语表示的加权之和，得到该特定词语经过注意力机制的输出；

为了增强自注意力网络的特征抽取能力，在上述输出基础上再进行两次全连接运算，通过非线性变化增强模型的表示能力；

最后，通过一个融合门控机制，将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和，得到该词语经过自注意上下文信息融合层的最终特征输出。

按上述方案，所述位置感知自注意力机制表示如下：

假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重，采用兼容性函数来测量和间的对齐得分；然后通过softmax函数对X内所有元素进行归一化以转换对齐分数，即：

的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和，即：

采用两个全连接层来转换自注意力机制的输出

其中为待训练的权重矩阵，为偏置项，tanh为激活函数，代表x_i通过自注意力机制的输出；

x_i的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合，即：

其中，是融合门中待训练的权重矩阵，sigmoid 函数为激活函数；

其中，兼容性函数

其中，是待训练的权重矩阵，为偏置项，σ为激活函数，Ψ_ij(·)为包含如下三项的位置偏置函数：

其中，

为自禁掩码偏置函数，对于特定元素x_i，自注意力机制的目标是衡量其对其他元素的依赖性，因此需要将每个元素对自身注意力屏蔽；

其中，-∞被用来忽视自注意力机制中元素自身的贡献；

为距离感知高斯偏置函数，在序列标注任务上建模考虑本地上下文相对位置信息，通过距离感知高斯偏差来控制指定标记x_i的局部上下文的范围；

其中，i，j均表示元素在序列中的位置，参数ε是标准偏差，设定为ε＝k/2，k 表示窗口大小，在我们的实验中根据经验设置为10；

为用于表示特定于元素的位置偏置函数，

考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数，一个标量由和W⁽³⁾的第C(i-j,k)个元素通过向量内积计算得到，其中C(i-j,k)为元素x_i和x_j之间的相对距离估计：

其中，是待训练的权重矩阵；k是一个非负值，反映了两个不同元素之间的最大间距，即如果两个元素之间的相对距离大于阈值k，则将相对距离置为k，C(i-j,k)用于表示W⁽³⁾的下标并由下式给出：

一种基于位置感知自注意力机制的序列标注方法，包括以下步骤：

1)基于自注意上下文融合层的特征表示阶段

自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合；

的自注意力的输出为X中所有元素对齐分数的加权和，即：

采用两个全连接层来转换注意力模块的输出

x_i的最终上下文感知表示是自注意层x_i的输入和全连接层输出的线性组合，即：

2)利用BiLSTM的编码阶段

采用BiLSTM进行上下文信息编码，并对BiLSTM的编码结果采用自注意上下文融合层加权求和；

3)解码阶段

采用句级对数似然函数CRF层进行标签解码。

按上述方案，所述步骤1)中兼容性函数

其中，σ(·)是激活函数，是待训练的权重矩阵，为偏置项，σ为激活函数，；

其中，Ψ_ij(·)为包含如下三项的位置偏置函数：

其中，

其中，-∞被用来忽视自注意力机制中元素自身的贡献；

为用于表示特定于元素的位置偏置函数，

考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数，一个标量由的内积和W⁽³⁾的第C(i-j,k)个元素计算得到，其中C(i-j,k)为元素x_i和x_j之间的相对距离估计：

注意，相对位置的最大值被限制在阈值k内，是基于精确的相对位置信息超出特定距离之外失去效用的假设下。

按上述方案，采用两个全连接层来转换注意力模块的输出，具体如下：

其中为待训练的权重矩阵，，为偏置项，tanh为激活函数，代表x_i通过自注意力机制的输出，

由于引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力，使用融合门将每个元素自身的信息与其上下文相结合，x_i的最终上下文感知表示是自注意层x_i的输入和全连接层输出的线性组合，即：

其中，是融合门中待训练的权重矩阵。

本发明产生的有益效果是：通过结合基于位置感知的自注意力机制，并将自注意上下文融合层结合到神经网络结构中，本发明提出的方法能够充分提取单词之间的潜在关系，并在Bi-LSTM的基础上提供互补的上下文信息，进而更好地提取每个单词的全局语义特征，以及对序列中单词的上下文依赖性进行建模，最终可以实现在序列标注任务上取得更好的预测效果。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的序列标注模型的结构示意图；

图2是本发明实施例的序列标注方法中自注意上下文融合层的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提出了一种用于序列标注任务的神经网络架构，它包含一个新颖的上下文融合层，通过提供补充的上下文信息，以更好地对上下文依赖性建模。具体地，所提出的上下文融合层被并入整体架构中的不同级别，即，添加一层用于重新加权初始输入(在分布式表示层之后)，另一层被添加用于重新加权单词级Bi-LSTM层的输出。

接着，我们将详细介绍本发明提出的序列标注模型。首先介绍一个新颖的位置感知自注意力机制，接着展示基于此的上下文融合层。

本发明提出了一种新颖的位置感知自注意力机制，以便更好地捕捉哪个元素对同一序列中的指定元素很重要。具体而言，假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重，采用兼容性函数来测量和间的相似性(即，对齐得分)；然后通过 softmax函数对X内所有元素进行归一化以转换对齐分数，即：

的自注意力的输出由X中所有元素对齐分数的加权和，得到，即：

许多不同的注意力机制均由上述形式提出，但在兼容性函数上有所不同，本发明采用加法注意机制，它由一层前馈神经网络实现，并且在实践中通常优于其他方法，其计算方法是:

其中，σ(·)是激活函数，代表权重矩阵，和b分别代表权重向量和偏置向量。

位置建模有利于自注意力网络，为此，与直接编码序列中元素的绝对位置作为注意力机制的输入相反，这里我们通过对兼容性函数引入三个不同的位置因素，探索输入序列的位置信息以扩展自注意力模型，即自禁掩码偏置 (self-disabled mask bias)，距离感知高斯偏置(distance-aware Gaussian bias)和特定于元素的位置偏置(token-specific position bias)，因此可以称为位置感知自注意力机制被重写为：

其中，Ψ_ij(·)为包含如下三项的位置偏置函数：

M_ij(·)、P_ij(·)和G_ij(·)分别是这三项的输出，接下来将对其逐一介绍。

自禁掩码偏置

对于特定元素x_i，自注意力机制的目标是衡量其对其他元素的依赖性，因此有必要将每个元素对自身注意力屏蔽。因此，我们采用自禁掩码偏置，即：

其中，-∞被用来忽视自注意力机制中元素自身的贡献。

距离感知高斯偏置

自注意力机制对全局依赖关系建模，却不考虑元素间的距离，而相对位置信息对于在序列标注任务上建模本地上下文很重要。在不失一般性的情况下，我们以词性标注为例，与其他距离较远的词语相比，特定词语的词性标签更可能受其邻近元素的影响。为了有利于自注意力机制建模短距离依赖性，我们考虑了通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围，其定义为

其中，i表示的位置；参数ε是根据经验设定为ε＝k/2的标准偏差；k是一个窗口大小，在我们的实验中根据经验设置为10。

特定于元素的位置偏置

高斯偏差仅考虑元素间的相对距离信息，然而，相对距离影响注意力分布的方式对于不同的元素可能不相同。因而，可以通过以更灵活的方式来考虑元素间的相对距离，，一个标量由的内积和W⁽³⁾的第C(i-j,k)个元素计算得到，其中C(i-j,k)由元素x_i和x_j之间的相对距离估计：

其中，W是权重矩阵；k是一个非负值，反映了两个不同元素之间的最大间距。换句话说，如果两个元素之间的相对距离大于阈值k，则它将被削减为k。计算过程可以通过C(i-j,k)计算得到，它表示W⁽³⁾的下标并由下式给出：

相对位置的最大值被限制在阈值k内，是基于精确的相对位置信息超出特定距离之外失去效用的假设下。

神经网络的成功源于其高度灵活的非线性变换。由于注意力机制利用加权求和来生成输出向量，其表示能力是有限的。为了进一步增强本发明中注意力层的特征提取能力，我们考虑采用两个全连接层来转换注意力模块的输出，具体由下式表示：

其中为待训练的权重矩阵，代表x_i通过自注意力机制的输出。

由于我们引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力，因此所提出的自注意力层的输出不足以建模上下文感知的表示。因此我们使用融合门将每个元素自身的信息与其上下文相结合(如图2所示)。x_i的最终上下文感知表示是自注意层x_i的输入和全连接层输出的线性组合，即：

其中是融合门中待训练的权重矩阵。

经实验表明，相比已有主流方法，本发明的序列标注方法取得了更好的效果。实验采用两个基准序列标注数据集进行评估，即CoNLL 2003命名实体识别数据集(CoNLL03)和Penn Treebank数据集(WSJ)的华尔街日报部分(词性标注)。语料库的详细信息如表1所示。

表1语料库信息

实验部分旨在评估本发明所提出的序列标注模型在不同数据集上的有效性。具体来说，我们列出了CoNLL 2003命名实体识别任务的标准F1分数，以及WSJ 上词性标注任务的准确率作为模型的评价指标，实验对比结果分别在表2和表3 中给出。

表2 CoNLL 2003NER对比实验结果

表3 WSJ词性标注对比实验结果

值得注意的是，从以上二表中可以观察到，本发明提出的方法在不同的序列标注任务中始终优于所有这些基准模型。因为这些模型大多采用Bi-LSTM作为上下文编码器架构，其以顺序方式处理输入的策略使其不能直接捕捉两个词之间的关系，因此模型忽略了部分位置信息以用于建模上下文依赖性。通过将自注意上下文融合层结合到神经网络结构中，本发明提出的方法能够充分提取单词之间的潜在关系，从而可以在Bi-LSTM的基础上提供互补的上下文信息。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于位置感知自注意力机制的序列标注模型，其特征在于，该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展，构造新的序列标注模型；该模型包括自注意上下文融合层和BiLSTM组成的编码器，以及作为解码器的CRF层；

2.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型，其特征在于，所述编码器还包括用于对BiLSTM的输出进行进一步处理，通过提供补充的上下文信息，得到最终待解码的特征表示的第二自注意上下文融合层。

3.根据权利要求1或2所述的基于位置感知自注意力机制的序列标注模型，其特征在于，所述自注意上下文融合层根据输入序列得到输出特征的过程如下：

4.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型，其特征在于，所述位置感知自注意力机制表示如下：

采用两个全连接层来转换自注意力机制的输出

其中W^(z1),为待训练的权重矩阵，为偏置项，tanh为激活函数，代表x_i通过自注意力机制的输出；

其中，W^(f1),W^(f2),是融合门中待训练的权重矩阵，sigmoid函数为激活函数；

其中，兼容性函数

其中，W⁽¹⁾,是待训练的权重矩阵，为偏置项，σ为激活函数，Ψ_ij(·)为包含如下三项的位置偏置函数：

其中，

其中，-∞被用来忽视自注意力机制中元素自身的贡献；

其中，i，j均表示元素在序列中的位置，参数ε是标准偏差，设定为ε＝k/2，k表示窗口大小；

为用于表示特定于元素的位置偏置函数，

5.一种基于位置感知自注意力机制的序列标注方法，其特征在于，包括以下步骤：

1)基于自注意上下文融合层的特征表示阶段

的自注意力的输出为X中所有元素对齐分数的加权和，即：

采用两个全连接层来转换注意力模块的输出

其中W^(z1)，为待训练的权重矩阵，为偏置项，tanh为激活函数，代表x_i通过自注意力机制的输出；

2)利用BiLSTM的编码阶段

3)解码阶段

采用句级对数似然函数CRF层进行标签解码。

6.根据权利要求5所述的基于位置感知自注意力机制的序列标注方法，其特征在于，所述步骤1)中兼容性函数如下：

其中σ(·)是激活函数，W⁽¹⁾,是待训练的权重矩阵，为偏置项，σ为激活函数；

其中，Ψ_ij(·)为包含如下三项的位置偏置函数：

其中，

其中，-∞被用来忽视自注意力机制中元素自身的贡献；

其中，i，j均表示元素在序列中的位置，参数ε是标准偏差，设定为ε＝k/2，k表示窗口大小，在我们的实验中根据经验设置为10；

为用于表示特定于元素的位置偏置函数，