CN112966474B

CN112966474B - 一种基于多级注意力机制的藏文机器阅读理解方法

Info

Publication number: CN112966474B
Application number: CN202110192706.2A
Authority: CN
Inventors: 孙媛; 陈超凡
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2024-05-24
Anticipated expiration: 2041-02-20
Also published as: CN112966474A

Abstract

本发明涉及一种基于多级注意力机制的藏文机器阅读理解方法，该方法包括以下步骤：对藏文文字进行音节以及词语两个不同级别的切分，然后对音节使用高速网络进行编码，最后融入到藏文词向量中；通过词级别的注意力机制进行关键词搜索；通过重读机制对文章的关键语义信息提取；通过自注意力机制对文章中关键信息进行再次的筛选；使用全连接网络对上述的隐变量进行解码，并对答案位置进行预测。本发明能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题，以及能够精准的解决藏文机器阅读理解任务。

Description

一种基于多级注意力机制的藏文机器阅读理解方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于多级注意力机制的藏文机器阅读理解方法。

背景技术

近年来，随着信息化的快速发展，教会机器阅读和理解人类语言文本受到了越来越多的关注。机器阅读理解旨在要求机器“阅读”一篇文本内容之后，能够正确的回答出与文本相关的问题。它是衡量机器对自然语言理解程度的标准之一。机器阅读理解任务有着广泛的应用价值，例如：为搜索引擎提供更好的支持，为对话系统提供高质量的对话服务，为数字教学提供有利的问题解答服务等等。目前机器阅读理解在英语和汉语上已经取得了很大的进展，然而针对低资源语言藏文的机器阅读理解研究还处于起步阶段，其主要的原因是藏文的语法结构复杂，浅层的网络架构难以理解藏文语义信息。因此如何高效的让机器理解复杂的藏文文本是完成藏文机器阅读理解任务的主要关键。

早期由于缺乏大规模的数据集，大多数机器阅读理解系统是基于规则或统计模型，因此研究人员必须手工设计一些复杂的语法或语义规则。这些系统的精度只能达到30％-40％，因此这些成果并没有引起广泛的关注。在接下来的几十年中，随着大规模的机器阅读理解数据集的发布，基于深度学习的机器阅读理解的研究取得了一些显著的成绩。Wang等人提出Match-LSTM模型，他们分别采用长短时记忆网络对问题和短文进行编码，然后在长短时记忆网络单元中引入基于注意力的问题加权表示，较传统的特征提取方法有了一定的提升。随后，微软团队为了捕捉文章中单词之间的长期依赖关系提出了R-Net模型，这是通过引入额外的自注意力层来实现的。他们的实验结果表明通过引入自注意力机制能够提高模型的准确性。Cui等人提出了“注意力加注意力”阅读器模型，这是一种基于行和列的相结合的注意计算方法。同时为了进一步提高模型的准确性，他们采用了“N-Best”和“重新排列”的策略来验证答案。与之前的工作不同，Seo等人采用了两个方向的注意力并提出了BiDAF模型分别对文章到问题编码以及问题到文章编码两种方式去预测答案。以上研究都是基于单层的注意力机制，但是他们都忽略了藏文本身的字形和语法结构，因此在藏文机器阅读理解任务上难以有较高的表现。

发明内容

本发明的目的在于，提出将藏文的音节信息引入到词向量中，再利用多层注意力机制以精准地解决机器阅读理解问题。

为实现上述目的，本发明提供了一种基于多级注意力机制的藏文机器阅读理解方法，该方法包括以下步骤：

(1)融合藏文音节信息的文章和问题编码

为了能够融入更细粒度的藏文音节信息，同时减少藏文不正确的分词带来错误的语义信息，本发明通过对藏文文字进行音节以及词语两个不同级别的进切分，然后对音节使用高速网络进行编码，最后融入到藏文词向量中。

(2)词级别的注意力机制进行关键词搜索

为了有效的提高模型的预测答案的准确率，本发明使用一种词级别的注意力机制去关注文章中与问题相关的重点关键词。

(3)重读机制对文章的关键语义信息提取

为了预测正确答案的范围，本发明使用一种重读机制针对文章中与问题相关的关键语义信息进行搜索。

(4)自注意力机制对文章中关键信息进行再次的筛选

为了减少问题与文章之间的差异性带来的影响，本发明通过自注意力机制对编码后的文章中蕴含的答案信息进行再次搜索，从而提高模型预测答案的准确率。

(5)使用全连接网络对上述的隐变量进行解码，并对答案位置进行预测。

本发明能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题，以及能够精准的解决藏文机器阅读理解任务。

附图说明

图1为本发明实施例提供的一种基于多级注意力机制的藏文机器阅读理解方法流程示意图；

图2为图1所示方法的技术方案结构示意图。

具体实施例

图1为本发明实施例提供的一种基于多级注意力机制的藏文机器阅读理解方法流程示意图。如图1所示，该方法包括步骤S101-S105:

步骤S101，融合音节信息的文章和问题编码

为了能够融入更细粒度的藏文音节信息，同时减少藏文不正确的分词带来错误的语义信息，本发明实施例通过对藏文文字进行音节以及词语两个不同级别的进切分，然后对音节使用高速网络进行编码，最后融入到藏文词向量中。

具体地，定义一个问题序列Q＝{q₁,q₂,q₃…q_n}和一个文章序列P＝{p₁,p₂,p₃…p_m}，对它们分别进行音节级别以及词级别的切分，并使用预训练模型，如GoVe(Global Vectorsfor Word Representation)模型，转换为相应的音节和词级别的向量(和)。对于音节级别编码，使用双向长短期记忆神经网络，并将最终该网络最终的隐层状态作为一个该词的音节编码。最后，通过两层的高速网络将两个不同级别的向量进行融合。

步骤S102,通过词级别的注意力机制进行关键词搜索

为了有效的提高模型的预测答案的准确率，本发明实施例使用一种词级别的注意力机制(如图2所示)去关注文章中与问题相关的重点关键词。

具体地，定义通过音节编码层的文章的词嵌入表示为而问题词嵌入表示为文章中的每个词的注意力权重可以表示为：

a_u∝exp(S_u)

其中，和/>是可以训练的权重矩阵，S_u表示的是相关性矩阵，V^T,/> 都是网络中可训练的参数，/>是问题的词编码序列，/>是文章的词编码序列，a_u是对文章中每个词与问题的相关性矩阵进行归一化之后的矩阵，/>是分配了权重之后文章中的每次词向量。最后，使用双向的长短时记忆网络去获取句子级别的文章表示V_t ^p，即

其中，是双向长短时记忆网络中t-1时刻的文章表示向量，/>则是代表分配权重前后的文章编码的拼接向量。

(3)重读机制对文章的关键语义信息提取

为了预测正确答案的范围，本发明实施例使用一种重读机制针对文章中与问题相关的关键语义信息进行搜索。

具体地，重读注意力旨在计算句子级别上文章和问题之间的注意力。首先针对问题序列使用双向的长短时记忆网络去生成高级语义表示即

其中表示的是前一个状态的隐藏向量。/>是输入嵌入层中问题的音节嵌入的输出。/>则是词级别注意力机制层的输出。接下来使用重读注意力机制去关注文章中关键信息，即：

a_v∝exp(S_v)

其中，V^T，分别为网络中可训练的参数矩阵，

这里S_v是文章和问题之间语义相关性矩阵。是问题编码的语义向量，/>是词级别注意力机制层的输出向量。a_v是对S_v矩阵进行归一化之后的矩阵，/>则是文章中分配权重的语义向量，最后使用双向的长短时记忆网络对重读机制层的输出进行编码。

其中，代表的是双向长短是记忆网络中t-1时刻的隐向量状态，/>是分配语义权重前后文章编码的拼接矩阵。

(4)自注意力机制

为了减少问题与文章之间的差异性带来的影响，本发明实施例通过自注意力机制对编码后的文章中蕴含的答案信息进行再次搜索，从而提高模型预测答案的准确率。

具体地，在形式上，文章和问题不可避免地存在一些差异，这可能导致在段落和问题的交互过程中丢失部分重要的信息，从而导致答案的预测不准确。为了解决这个问题，从而引入了一种自注意机制，以便可以动态调整答案的位置。

a_j∝exp(S_j)

其中，V^T，和/>都是网络中可训练的参数，S_j是相关性矩阵，a_j是对相关性矩阵进行归一化之后的矩阵，/>是注意力权重的隐藏向量。接下来自注意力机制向量被送入另外一个的双向长短是注意力机制网络去生成最后的向量表示/>

其中，是网络中t-1时候的隐状态，此处/>是网络中前一个状态的隐层向量,是重读注意力机制层的输出。/>则是文章自身进行权重计算前后的向量拼接。

(5)答案预测

直接使用全连接网络对上述的隐变量进行解码，同时使用softmax层来实现答案位置的预测。

P^start＝softmax(W₁J^p)

P^end＝softmax(W₂J^p)

这里W₁和W₂时可以被训练的参数矩阵。P^start,P^end是答案的起始位置。

在一个具体的例子中，针对藏文文章段落片段(下划线部分为正确答案)：

译文：植物的叶子通过叶绿素和阳光来制造氧气。植物的叶子由许多圆形或长方形组成。那些个体是细胞。细胞内还含有绿色宝石一样的许多颗粒，它们是叶绿体。那里面有叶绿素。因为有了叶绿素，叶子呈现绿色。叶绿素的主要功能是生产。

假设问题为：

植物是怎样创造氧气的？

根据上述问题及文章，基于图1所示多级注意力机制的藏文机器阅读理解方法，最终模型预测答案的起始位置P^start为：第5个词模型预测答案的终止位置P^end为：第9个词/>

本发明实施例的有益效果在于：

(1)能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题

本发明通过融合藏文音节信息，可以避免不正确的分词导致的错误语义信息，同时在编码层融入更多的藏文音节信息以提高模型的预测答案的准确率。

(2)能够精准的解决藏文机器阅读理解任务

本发明通过采用多级注意力机制使模型能够深入的理解藏文的语义信息，并在文章中查找出正确答案的起始位置。

Claims

1.一种基于多级注意力机制的藏文机器阅读理解方法，其特征在于，包括以下步骤：

对藏文文字进行音节以及词两个不同级别的切分，然后对音节使用高速网络进行编码，最后融入到藏文词向量中；

通过词级别的注意力机制进行关键词搜索；

通过重读机制对文章的关键语义信息提取；

通过自注意力机制对文章中关键语义信息进行再次的筛选；

使用全连接网络对隐变量进行解码，该隐变量是多级注意力机制对文本问题和文章进行交互后由多级注意力机制的神经网络模型输出的文本表示，并对答案位置进行预测；

所述对藏文文字进行音节以及词两个不同级别的进切分，然后对音节使用高速网络进行编码，最后融入到藏文词向量中步骤，包括；

定义一个问题序列Q＝{q₁,q₂,q₃…q_n}和一个文章序列P＝{p₁,p₂,p₃…p_m}，对它们分别进行音节级别以及词级别的切分，并使用预训练模型转换为相应的音节和词级别的向量；对于音节级别编码，使用双向的长短期记忆神经网络，并将该双向的长短期记忆神经网络最终的隐层状态作为一个词的音节编码；最后，通过两层的高速网络将两个不同级别的向量进行融合，所述两个不同级别的向量为音节级别的向量和词级别的向量；

所述通过词级别的注意力机制进行关键词搜索步骤，包括：

文章中的每个词的注意力权重表示为：

a_u∝exp(S_u)

其中，S_u表示的是文章中每个词与问题的相关性矩阵，V^T,都是词级别注意力机制网络中可训练的参数，/>是问题的词编码序列，/>是文章的词编码序列，a_u是对文章中每个词与问题的相关性矩阵进行归一化之后的第一矩阵，/>是分配了权重之后文章中的词向量；最后，使用双向的长短期记忆神经网络去获取句子级别的文章表示向量V_t ^p，即

其中，是双向的长短期记忆神经网络中t-1时刻的文章表示向量，/>则是代表分配注意力权重前后的文章编码的拼接向量；/>是分配了注意力权重后的文章编码，/>是文章中的词向量；

所述通过重读机制对文章的关键语义信息提取步骤，包括：

首先针对问题序列使用双向的长短期记忆神经网络去生成双向的长短期记忆神经网络中i时刻的隐藏向量即

这里的表示双向的长短期记忆神经网络中i-1时刻的隐藏向量，/>是输入嵌入层中问题的音节嵌入的输出，/>是词级别注意力机制层的输出；接下来使用重读机制去关注文章中关键信息，即：

a_v∝exp(S_v)

其中，O^T，分别为重读机制网络中可训练的参数矩阵，/>是分配了权重之后文章中的词向量,a_v是文章中每个词与问题的相关性矩阵进行归一化之后的第二矩阵；

这里S_v是文章和问题之间语义相关性矩阵，是问题编码的语义向量，/>是词级别注意力机制层的输出向量；最后使用双向的长短期记忆神经网络对重读机制层的输出进行编码；

其中，代表的是双向的长短期记忆神经网络中t-1时刻的隐藏向量，/>是分配语义权重前后文章编码的拼接矩阵。

2.根据权利要求1所述的方法，其特征在于，所述自注意力机制公式为：

a_j∝exp(S_j)

其中，W^T，和/>都是自注意力机制网络中可训练的参数，S_j是关键语义信息在文章中的重要程度；a_j是对关键语义信息在文章中的重要程度进行归一化之后的矩阵，/>是分配了注意力权重之后文章中的词向量；将/>送入另外一个的双向的长短期记忆神经网络去生成最后的向量表示/>

其中，是双向的长短期记忆神经网络中t时刻的隐藏向量，/>是双向的长短期记忆神经网络中前一个状态的隐藏向量；/>则是文章自身进行权重计算前后的向量拼接；是分配了注意力权重后的文章编码，/>是重读机制层的输出。

3.根据权利要求2所述的方法，其特征在于，所述使用全连接网络对隐变量进行解码，并对答案位置进行预测步骤，包括：

使用全连接网络对隐变量进行解码，同时使用softmax层来实现答案位置的预测；

P^start＝softmax(W₁J^p)

P^end＝softmax(W₂J^p)

其中，W₁和W₂是可被训练的参数矩阵，P^start是答案的起始位置，P^end是答案的结束位置，J^p是双向的长短期记忆神经网络最后一层输出的隐藏向量。