CN109753652A

CN109753652A - 一种基于Attention机制来构建老挝语词性标注模型的方法

Info

Publication number: CN109753652A
Application number: CN201811532384.6A
Authority: CN
Inventors: 周兰江; 王兴金; 张建安; 周枫
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-14

Abstract

本发明涉及一种基于Attention机制来构建老挝语词性标注模型的方法，属于自然语言处理和机器学习技术领域。Attention机制包括编码层与解码层，编码层对输入序列进行编码，以得到包含输入序列信息的语义向量，并将语义向量传送给解码层，解码层进行相应解码。以词性标注为例：首先将老挝句子输入编码层进行编码，以得到包含该句子信息的语义向量，然后将语义向量传入解码层，解码层可以解码出句中每个老挝词的词性。老挝语词性标注模型的实现过程中，首先得构建Attention机制，然后使用老挝语词性标注语料训练Attention机制，就可以得到基于Attention机制的老挝词性标注模型。利用Attention机制建立的老挝语词性标注模型，可以有效的对老挝语进行词性标注，因此本发明具有一定的研究意义。

Description

一种基于Attention机制来构建老挝语词性标注模型的方法

技术领域

本发明涉及一种基于Attention机制来构建老挝语词性标注模型的方法，属于自然语言处理和机器学习技术领域。

背景技术

所谓词性标注就是给句中每个词，确定其最为合适词性的过程。词性标注是很多NLP任务的预处理步骤，它是为后续更重要的工作做准备，比如信息提取、语法分析等。早期词性标注使用方法是基于规则，但是规则制定非常繁琐。由此基于统计的方法得以兴起，主要使用的模型有HMM模型、CRF模型与MEMM模型。深度学习越来原受到重视，但现有技术中并没有通过深度学习来分析老挝语词性标注的方法。

发明内容

本发明要解决的技术问题是提供一种基于Attention机制来构建老挝语词性标注模型的方法，采用Attention机制来构建老挝语词性标注模型。

本发明采用的技术方案是：一种基于Attention机制来构建老挝语词性标注模型的方法，包括如下步骤：

Step1、Attention机制的构建

Attention机制包括两层：编码层与解码层，编码层用于老挝语的输入，解码层用于计算出每个老挝词的词性；

Step 1.1、编码层

编码层是基于GRU(Gated Recurrent Unit)来构建，它是一种时间递归神经网络，适合用于处理、预测时间序列中间隔相对较长的任务。为了模型拥有较强的词性标注能力，本发明在编码层构建了两层双向GRU。在编码时，老挝句子的第一个词将按序进入GRU中进行处理，GRU会保留并输出对词性计算有用的信息，并除去无用信息，信息以向量的形式呈现。为了适应老挝句子较长的特点，不会造成信息的丢失，本发明在编码层加入了BahdanauAttention机制。BahdanauAttention机制是注意力机制的一种，首先它会选择编码层每个词的GRU输出向量，然后根据每个向量的重要程度而赋予不同权重，最后使用输出向量与权重计算语义向量C，语义向量C将被输入到解码层；

Step 1.2、解码层

解码层同样是基于GRU来构建，本发明在解码层使用单层GRU。在解码运算中，首先该层GRU会根据语义向量C计算出词性信息向量，然后词性信息向量会传递给Softmax函数，Softmax函数来计算出词性概率分布；

Step2、Attention机制的训练

当Attention机制搭建完成后，使用老挝语词性标注语料库对Attention机制的参数进行训练，直到模型达到稳定状态，就得到Attention机制，训练过程中，首先使用交叉熵损失函数来计算解码层输出的词性概率分布与真实分布的差距，然后使用Adam算法来减少差距，以此训练Attention机制的参数；

Step3、选择词性概率分布中概率最大的词性作为输出；

Step4、在对老挝句子词性标注时，Attention机制循环Step1，Step3，对老挝句子中的每一个词进行处理，就可以得到该老挝句子的词性。

本发明的有益效果是：

1、老挝句子比较长，使用传统机器学习模型无法利用长远的信息，词性标注效果不佳，而Attention机制可以很好利用长远信息。

2、本发明采用了Attention机制，Attention机制对序列学习有着不错的效果。

3、Attention机制中采用了GRU，GRU具有长期记忆的能力，学习能力强的优点。

附图说明

图1为本发明中的总体流程图；

图2为本发明具体实施例中的Attention结构图。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明做进一步的描述，本部分的实施例用于解释说明本发明，便于理解的目的，不以此来限制本发明。

实施例1：如图1-2所示，一种基于Attention机制来构建老挝语词性标注模型的方法，包括如下步骤：

Step1、Attention机制构建

Step 1.1、编码层

Step 1.2、解码层

Step2、Attention机制的训练

当Attention机制搭建完成后，使用老挝语词性标注语料库对Attention机制的参数进行训练，直到模型达到稳定状态，就得到Attention机制，训练过程中，首先使用交叉熵损失函数来计算解码层输出的词性概率分布与真实分布的差距，然后使用Adam算法来减少差距，以此训练Attention机制的参数。

Attention机制训练使用的是老挝语词性标注语料库，该语料库是被词性标注后的老挝语文章构成，以其中一句语料为例：

(从三月份，月销售额被记录)。

其中，斜杆的左边为老挝语，右边为词性。

当Attention机制处于训练时，编码层按序将斜杆左边老挝语输入编码层，解码层将解码出句中每个老挝词对应词性，使用交叉熵函数计算输出词性概率分布与真实词性(斜杆右边词性)分布的差距，并使用Adam算法来减小差距。按上述过程不断训练Attention机制的参数，直到模型收敛。训练结束得到的Attention机制，可以对老挝句子进行词性标注。

Step3、选择概率最大的词性作为输出；

附图2是Attention机制计算出第2个词性PRE(介词)的示意图。其中，每个h代表两层双向GRU、a代表每个h输出向量的权重、f表示单层GRU、C₂代表计算出第二个词性(介词)的语义向量。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Attention机制来构建老挝语词性标注模型的方法，其特征在于：包括如下步骤：

Step1、Attention机制的构建

Step 1.1、编码层

编码层是基于GRU来构建，在编码层构建了两层双向GRU，在编码时，老挝句子中的第一个词将按序进入GRU中进行处理，GRU会保留并输出对词性计算有用的信息，并除去无用信息，信息以向量的形式呈现，在编码层加入了BahdanauAttention机制，BahdanauAttention机制是注意力机制的一种，首先它会选择编码层每个词的GRU输出向量，然后根据每个向量的重要程度而赋予不同权重，最后使用输出向量与权重计算语义向量C，语义向量C将被输入到解码层；

Step 1.2、解码层

解码层同样是基于GRU来构建，在解码层使用单层GRU，在解码运算中，首先该层GRU会根据语义向量C计算出词性信息向量，然后词性信息向量会传递给Softmax函数，Softmax函数来计算出词性概率分布；

Step2、Attention机制的训练

Step3、选择词性概率分布中概率最大的词性作为输出；