CN110516231A

CN110516231A - 基于注意力机制的膨胀卷积实体名识别方法

Info

Publication number: CN110516231A
Application number: CN201910631935.2A
Authority: CN
Inventors: 薛哲; 杜军平; 吕江海; 周南
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-29

Abstract

本发明提出了一种基于注意力机制的膨胀卷积实体名识别方法。方法包括三个部分：基于膨胀卷积扩散与迭代的特征提取、基于词长度和词性的注意力机制加权和基于条件随机场的规则约束。理论系统完备，创新性突出，主要用于实体名识别中。该发明提高了实体名识别的准确率和训练速度，具有很高的实用价值。

Description

基于注意力机制的膨胀卷积实体名识别方法

技术领域

本发明属于自然语言处理领域，具体涉及集成多种技术，如卷积神经网络、膨胀卷积扩散与迭代、注意力机制加权、条件随机场规制约束等，实现基于注意力机制的膨胀卷积实体名识别方法。

背景技术

近年来深度学习在文本、图像、视频、音频处理上都取得了巨大的成功。知识图谱作为现阶段的研究热点，通过深度学习技术，利用大量短文本数据，提取其中有效的特征，从而提取出实体名，同时抽取实体关系。为了使提取的文本特征更加精确，注意力机制应运而生。注意力，是由人类观察环境的习惯规律总结而来的，人类在观察环境时，大脑往往只关注某几个特别重要的局部，获取需要的信息，构建出关于环境的某种描述，而注意力机制正是如此，去学习不同局部的重要性。

本发明提出一种基于注意力机制的膨胀卷积实体名识别方法。该方法利用膨胀卷积进行文本特征的提取。膨胀卷积能使向量矩阵感受域以指数增加的速度进行扩展，而神经网络的参数却以线性速度增加，因此模型训练时可以利用GPU的矩阵并行计算，从而加快loss收敛速度并可以准确提取文本的特征。利用单词的词性来对提取出来的特征进行注意力加权，使模型更加优化。神经网络得到每一个字对于实体标签的概率，最后输入条件随机场模型利用某一些约束使得错误率更低，得到更加精确的实体名识别准确率。

发明内容

本发明所提出的基于注意力机制的膨胀卷积实体名识别方法，使用卷积神经网络对文本向量进行卷积，获取高层次的文本特征；采用膨胀卷积文本矩阵进行扩散和迭代，充分利用GPU并行计算能力，加快训练速度；使用单词长度和词性对特征矩阵进行注意力加权，得到带权重的特征向量矩阵，使向量矩阵特征更加明显；使用条件随机场对加权后的向量矩阵进行规制约束，使得最后的预测概率满足某种语法规制。最终得到文本中各个字符的实体名种类概率。

为达到上述目的，如图1所示，本发明的技术方案划分为三个部分：

1.基于膨胀卷积扩散与迭代的特征提取；

2.基于词长度和词性的注意力机制加权；

3.基于条件随机场的规则约束；

本发明有以下一些技术特征：

(1)提出基于膨胀卷积的扩散与迭代，膨胀卷积可以让卷积的视野域以指数方式增加，但使用的参数却是以线性方式增加，卷积神经网络充分利用了GPU并行计算的能力，同时充分保证文本的上下文关联信息，又能使模型的参数不会过多导致过拟合。加快训练速度的同时，保证了文本特征的提取精确性。

(2)提出的基于注意力机制的加权，包括两个额外信息进行注意力加权：单词长度和单词词性。该机制使得文本中的实体名赋予更高的权重，而文本中的噪音信息赋予较低的权重，得到的加权特征向量矩阵包含更加明显精确的特征信息。

(3)使用条件随机场，向最后预测的标签添加语法约束，以确保预测的标签是符合语法的。在训练数据训练过程中，条件随机场层可以同时训练学习到文本中的约束。条件随机场层通过随机初始化生成该传输矩阵的初始值，通过网络训练得到传输矩阵的最终结果值。

本发明提出了一种空间运动图像插值模型，理论系统完备，创新性突出，主要用于实体名识别中。

附图说明

图1为模型基本结构内容图

图2为基于注意力机制的膨胀卷积实体名识别模型；

图3为膨胀卷积扩散与迭代过程图；

图4为基于注意力机制的加权过程图；

具体实施方式

为使本发明的目的、算法计算及优点更加清楚明白，以下参照附图对本发明做进一步详细地说明。基于注意力机制的膨胀卷积实体名识别模型如图2所示：

本发明算法的具体实现分为以下几步：

1.基于膨胀卷积扩散与迭代的特征提取

采用迭代膨胀卷积网络能反复利用单位堆叠膨胀卷积，将每一次输出的结果作为下一次单位堆叠膨胀卷积的输入，使参数线性速度增加的同时，卷积视野域以指数速度增加。设膨胀步长δ的第j个膨胀卷积层表示为网络的第一层将输入x_t转换为矩阵i_t：

膨胀卷积第Lc层的膨胀步长δ以指数方式增加，并将其作用于矩阵特征i_t，得到结果输入RELU激活函数r()得到c_t ^(j)。从开始，定义重复堆叠层：

并向堆栈添加最终的膨胀层：

定义一个单位的膨胀卷积堆为B()，它的输入向量维度和输入向量维度，为了在没有过度拟合的情况下加入更广泛的上下文，我们避免造成B过深，采用迭代地应用B循环L_b次，不引入额外的参数。初始化

应用一个简单的仿射变换W₀来获得每个标记x_t的每个类分数：

基于膨胀卷积的扩散与迭代过程如图3所示。

具体步骤如下：

步骤1：将经过预处理后的文本向量c_i进行维度变化得到x_t。

步骤2：设置膨胀步长dilation的步长δ分别为{1,1,2}，循环次数为4，用来定义膨胀卷积的膨胀步长和堆叠次数。

步骤3：将x_t投入膨胀卷积网络得i_t，从开始，膨胀步长进行相应的变化

步骤4：将上一步得到的i_t进行relu激活函数后作为输入重复步骤3直到步长遍历完毕得到最终提取的特征矩阵c_t ^(Lc)

步骤5：堆叠四次c_t ^(Lc)的结果H作为最终膨胀卷积的输出。

2.基于词长度和词性的注意力机制加权

提出的基于注意力机制的加权算法，注意力机制是一种根据某些额外信息或某种规则从目标向量集合中抽取特定的向量进行加权组合的方法，输出序列中的每一项的生成概率取决于在输入序列中选择了哪些项。定义目标向量膨胀卷积输出矩阵为H＝{h₀,h₁...h_n}，额外信息为词性矩阵P＝{p₀,p₁...p_n}，tanh()为激活函数，为了使词性信息能对目标向量集合赋予权重，分别使用W₁、W₂对H和P进行仿射变换使之向量空间维度相同。则得到注意力向量表示为：

采用软注意力机制，为了使注意力向量的权重矩阵进行归一化，故利用softmax函数对进行权重打分得到每一个输入的权重

得到目标向量集合的权重后，计算目标向量加权后的向量矩阵c_t：

基于注意力机制的加权过程如图4所示。

具体步骤如下：

步骤1：定义文本特征H＝{h₀,h₁...h_n}为膨胀卷积的输出，额外信息为矩阵P＝{p₀,p₁...p_n}，tanh()为激活函数。

步骤2：使用W₁、W₂对H和P进行仿射变换使之向量空间维度相同，仿射变换结果相加后进行tanh()激活得到

步骤3：利用softmax函数对进行权重打分得到每一个输入的权重

步骤4：利用权重计算目标向量加权后的特征向量矩阵m_t

3.基于条件随机场的规则约束

考虑实体名在文本中的规制约束，提出了基于条件随机场的规则约束算法，条件随机场层可以向最后预测的标签添加一些语法约束，以确保预测的标签是合法的。在训练数据训练过程中，条件随机场层可以同时训练学习到文本中的约束。条件随机场层通过随机初始化生成该传输矩阵的初始值，它的最终结果值由网络训练得到。深度学习中的传递矩阵于传统条件随机场公式中的传递函数相对应的权重相似。传递矩阵的内在含义表示为：第i个标签后面跟着第j个标签的概率值。条件随机场层会学习得到这样的规律。在网络模型中条件随机场输入是基于注意力机制的膨胀卷积模型输出的每个单词的标签的概率分布。根据真实标签，在概率分布矩阵中找到相对应的预测标签值。比较标签路径，产生整个句子的错误，并基于该错误反馈给条件随机场层的训练网络，最终调整传输矩阵的参数并返回loss值和最终的标签预测值，学习并训练整个模型。

具体步骤如下：

步骤1：随机初始化传输矩阵T，表示第i个标签后面为第j个标签的概率值。

步骤2：加权后的特征向量矩阵m_t和传输矩阵T投入CRF层进行训练学习得到pre和loss值

步骤3：将loss值进行梯度下降并优化整个模型参数。

步骤4：将训练集打乱，重复训练10次，得到优化后的训练模型。

Claims

1.基于注意力机制的膨胀卷积实体名识别方法，其特征在于既提高实体名识别准确率又提高了训练速度，该方法包括：

基于膨胀卷积扩散与迭代的特征提取和基于条件随机场的规则约束；

基于词长度和词性的注意力机制加权；

基于条件随机场的规则约束；

2.根据权利要求1所述的方法，其特征在于，膨胀卷积扩散和迭代使训练速度加快，并保证文本的特征提取的精确性。

3.根据权利要求1所述的方法，其特征在于，利用单词长度和单词词性对文本特征进行注意力加权，给予文本的每个字分配不同的权重，使文本的实体名具有更高的权重，其他词具有较低权重，最终获得较高精确特征的文本特征矩阵。

4.根据权利要求1所述的方法，其特征在于，使用条件随机场对加权特征矩阵进行规则约束，训练传输矩阵来存储文本信息中的规制约束，然后利用CRF层训练传输矩阵和LOSS值，使得实体名识别的准确率更高。