CN110083682A

CN110083682A - 一种基于多轮注意力机制的机器阅读理解答案获取方法

Info

Publication number: CN110083682A
Application number: CN201910318268.2A
Authority: CN
Inventors: 刘均; 孙申; 魏笔凡; 武云封; 曾宏伟; 麻珂欣
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-08-02
Anticipated expiration: 2039-04-19
Also published as: CN110083682B

Abstract

本发明公开了一种基于多轮注意力机制的机器阅读理解答案获取方法，对所述问题和问题对应的文本分别进行分词处理和向量化处理得到特征向量，选择双向长短时记忆网络对特征向量编码上下文语义信息，使用注意力机制进行问题和文本之间的建模，可以有效地捕捉问题和文本之间的信息交互；通过多轮计算文章关于问题的注意力，并融合上下文语义信息，再使用BLSTM编码上下文语义信息，反复多次得到第n文本语义向量，利用Self‑Attention机制得到问题的一个向量表示，通过计算问题语义向量和自身的相似度，即文章中的每个词在问题空间中的一种表示，可以有效地提高预测答案的准确度，将BLSTM和Attention进行有效的结合，能够提升问题与文本抽取所返回的答案相匹配的精准性。

Description

一种基于多轮注意力机制的机器阅读理解答案获取方法

技术领域

本发明属于电子信息技术领域，具体涉及一种基于多轮注意力机制的机器阅读理解答案获取方法。

背景技术

随着科技与互联网的不断发展以及人工智能时代的到来，数字化信息总量正在呈指数级形式增长，如何理解用户的意图并予以解答是各大互联网公司与研究机构亟待解决的问题。但是，如何在从杂乱无章、海量的数字化信息中，准确快速地找到自己想要的信息资源，最简单直接的办法就是使用例如百度等搜索引擎来去获取想要的答案，随着搜索引擎的发展与进步，这给人们的生活带来了极大的便利。近几年，机器阅读理解任务的研究在国内外获得空前的瞩目，许多著名的研究机构，如斯坦福大学、卡内基梅隆大学、清华大学等，工业界如IBM、Facebook、微软研究院等巨头也纷纷加入到这一任务的研究中来。机器阅读理解技术主要依赖于信息检索技术和自然语言处理技术，它的发展体现了计算机人工智能的快速发展，一直以来都是人类研究的热点。

2015年，Herman发布英文机器阅读理解数据集CNN&Dailymail,它的答案被限定为原文的一个词语。Kadle受到Pointer Network的启发提出ASReader模型，该模型的特点是将原文中每个词的注意力之和作为输出答案的概率，取得了非常好的提升效果。Cui受到ASReader模型的启发提出AoAReader模型，该模型的特点是在注意力的基础上再计算注意力，以此注意力概率分布来确定每个注意力的重要程度。

随后，Rajpurkar发布了英文机器阅读理解数据集SQuAD，它的答案一定是在原文中找到的一段连续文本片段。Wang结合Match-LSTM和Point Network，提出直接预测答案边界要优于直接预测答案。Chen提出DrQA模型，该模型的主要特点是将文档检索与文本的机器阅读理解进行结合，解决大规模机器阅读问题。Wang受到Match的启发提出R-net模型，该模型的主要特点是提出Self-matching来解决循环神经网络长距离依赖问题，该模型对于答案预测的准确度非常高。

综合机器阅读理解的研究现状来说，随着大规模数据集的不断发布，计算机处理数据能力的不断提高，深度学习和神经网络研究的不断深入，机器阅读理解任务已经取得了很大的进展。另一方面，对于不同的数据集，不同的答案类型，没有一个通用的模型可以解决问题，因此这一领域还有很多有意义的工作需要去进行深入研究。

自然语言理解作为一个终极的人工智能目标，极具现实挑战性，而且让机器理解语言的意义也是非常重大的。从学术研究的角度来看，这是学术研究的最前沿，代表着机器在当今时代可能达到的最高智能水平。从工业界的视角来看，对搜索引擎、聊天机器人、私人机器助手等重要产品都有直接的应用创新进展，拥有可产生巨大商业价值的发展空间。得益于各种大规模数据集的发布，研究者们可以训练各种复杂的基于神经网络的机器阅读理解模型。此外，随着attention机制在机器翻译、图像分类等领域取得的巨大成功，该机制同样也被广泛应用在机器阅读理解任务中。

一些早期的机器阅读理解模型大多使用单向的attention机制，并不能很好地获得文档和问题之间的联系。在文档和问题的编码过程中，难免会丢失有效信息。因此在优化短文本答案抽取效果的过程中，这个困难是必须要克服的。

发明内容

本发明的目的在于提供一种基于多轮注意力机制的机器阅读理解答案获取方法，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种基于多轮注意力机制的机器阅读理解答案获取方法，包括以下步骤：

步骤一，获取问题与所述问题对应的文本；

步骤二，对所述问题进行分词处理和向量化处理，选取Embedding特征作为特征向量，得到问题中各个词对应的问题特征向量；

步骤三，对所述文本进行分词处理和向量化处理，选取Embedding、Exact_match、POS、NER和TF五个特征作为特征向量，得到文本中各个词对应的文本特征向量；

步骤四，将所述问题中各个词对应的问题特征向量作为双向长短期记忆网络模型的输入，通过双向长短期记忆网络模型获得所述问题中融合上下文信息各个词对应的语义向量表示，即问题语义向量；

步骤五，将所述文本中各个词对应的文本特征向量作为双向长短期记忆网络模型的输入，通过双向长短期记忆网络模型获得所述文本中融合上下文信息各个词对应的语义向量表示，即文本语义向量；

步骤六，通过计算问题语义向量和文本语义向量的相似度，获得问题语义向量和文本语义向量之间的相似度矩阵，所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度；对相似度矩阵进行Softmax归一化处理，以获得所述文本中各个词关于问题中各个词的概率分布，即为注意力权重；基于所述文本关于问题的注意力权重和问题语义向量，对问题语义向量进行加权求和，获得融合问题信息的文本的语义向量表示，即增强第一文本语义向量；

步骤七，将所述文本中各个词对应的增强第一文本语义向量作为双向长短期记忆网络模型的输入，通过双向长短期记忆网络模型获得所述文本中融合上下文信息的各个词对应的语义向量表示，即第一文本语义向量；

步骤八，按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度，得到第二文本语义向量，同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度，得到第三文本语义向量，以此类推得到第n文本语义向量，n为自然数；

步骤九，利用Self-Attention机制得到问题的一个向量表示，通过计算问题语义向量和自身的相似度，获得问题向量；

步骤十，利用线性项计算文本中的各个单词和问题的相似性，即计算第n文本语义向量和问题向量，获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率，以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题对应的答案。

进一步的，Embedding选用网站爬取数据的维度为300的Glove词向量；Exact_match采用二元特征来表明文本中的单词是否可以匹配问题q中的任何一个单词，无论是原始、小写或者词条形式，如果匹配上该值为1，否则为0。

进一步的，NER包括实体类、时间类和数字类。

进一步的，NER包括人名、机构名、地名、日期、时间、货币和百分比。

进一步的，将所述文本中对应的文本特征向量序列{P₁,...,P_m}作为双向长短期记忆网络模型的输入，获得所述文本中融合上下文信息对应的语义向量序列表示{h₁,...,h_m}，即文本语义向量；具体计算过程见如下公式：

{h₁,...,h_m}＝BiLSTM({P₁,...,P_m})。

进一步的，将所述问题中各个词对应的问题特征向量序列{q_i,...,q_l}作为双向长短期记忆网络模型的输入，获得所述问题中融合上下文信息对应的语义向量序列表示{q₁,...,q_l}，即问题语义向量；具体计算过程见如下公式：

{q₁,...,q_l}＝BiLSTM({q₁,...,q_l})。

进一步的，利用Self-Attention得到问题的一个向量表示q；通过计算问题语义向量和自身的相似度，获得问题语义向量q，即{q₁,...,q_l}→q，具体计算过程见如下公式：

q＝∑_jb_jq_j

其中b_j表示第j个问题词的重要程度，W表示一个需要学习的权重向量。

进一步的，获取增强第一文本语义向量,具体计算过程见如下公式：

s_i＝∑_ja_ijq_j

其中a_ij表示节点i关于节点j的注意力概率权重，即文本中第i个词关于问题中第j个词的注意力权重；h_i表示文本中融合上下文信息各个词对应的语义向量，即文本语义向量；q_j表示问题中融合上下文信息各个词对应的语义向量，即问题语义向量；s_i表示融合问题信息的文本的语义向量，即增强第一文本语义向量。

进一步的，将所述文本中各个词对应的增强第一语义向量s_i作为双向长短期记忆网络模型的输入，获得所述文本中融合上下文信息的各个词对应的语义向量表示P_i，即第一文本语义向量；具体计算过程见如下公式，

{P_i,...,P_m}＝BiLSTM({s₁,...,s_m})。

进一步的，获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率，具体计算公式如下：

P_start(i)∝exp(P_iW_sq)

P_end(i)∝exp(P_iW_eq)

在整个答案预测的过程中，限制答案的跨度不多于15个单词，并使得将起始位置和结束位置的联合分布概率最大，具体计算公式如下：

P_start(i)×P_end(i)

i≤i′≤i+15

由此可以确定答案的开始和结束位置，直接抽取中间跨度部分作为问题的答案。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种基于多轮注意力机制的机器阅读理解答案获取方法，对所述问题和问题对应的文本分别进行分词处理和向量化处理得到特征向量，选择双向长短时记忆网络对特征向量编码上下文语义信息，使用注意力机制进行问题和文本之间的建模，可以有效地捕捉问题和文本之间的信息交互；通过多轮计算文章关于问题的注意力，并融合上下文语义信息，再使用BLSTM编码上下文语义信息，反复多次得到第n文本语义向量，利用Self-Attention机制得到问题的一个向量表示，通过计算问题语义向量和自身的相似度，即文章中的每个词在问题空间中的一种表示，可以有效地提高预测答案的准确度，将BLSTM和Attention进行有效的结合，提出了Attention_Bassed LSTM阅读理解模型，能够提升问题与文本抽取所返回的答案相匹配的精准性。

进一步的，综合利用双向长短时记忆网络和多次注意力计算，这样有利于问题与文章内容的多次信息交互，可以不断去锁定答案的位置，提高答案的准确度，通过快速扫描文本和问题，获得需要重点关注的目标区域，也就是所说的注意力焦点，然后对这一区域投入更多的注意力资源，以获取更多所需要关注目标的细节信息，从而抑制其它无用信息。

附图说明

图1为本发明阅读理解模型算法。

图2为本发明阅读理解模型框架图。

图3为本发明所述系统用于抽取SQuAD数据集短文本答案的示例。

具体实施方式

下面结合附图对本发明做进一步详细描述：

一种基于多轮注意力机制的机器阅读理解方法，包括如下步骤，

步骤一，获取问题与所述问题对应的文本；

步骤六，通过计算问题语义向量和文本语义向量的相似度，获得问题语义向量和文本语义向量之间的相似度矩阵，其中，所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度；对相似度矩阵进行Softmax归一化处理，以获得所述文本中各个词关于问题中各个词的概率分布，即为注意力权重；基于所述文本关于问题的注意力权重和所述问题语义向量表示(问题语义向量)，对问题语义向量进行加权求和，获得融合问题信息的文本的语义向量表示，即增强第一文本语义向量；

步骤七，将所述文本中各个词对应的增强第一语义向量作为双向长短期记忆网络模型的输入，通过双向长短期记忆网络模型获得所述文本中融合上下文信息的各个词对应的语义向量表示，即第一文本语义向量；

步骤八，按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度，得到第二文本语义向量，同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度，得到第三文本语义向量，以此类推得到第n文本语义向量，n为自然数；此步骤的主要思想是类比到人类真实阅读理解的情形“多次带着问题去阅读文章”，再去计算多轮文本关于问题的注意力，并融合上下文语义信息，得到第n文本语义向量；

在本发明中，n取值3，得到的第三文本语义向量与第二文本语义向量相差值很小；

步骤九，利用Self-Attention得到问题的一个向量表示；通过计算第一问题语义向量和自身的相似度，获得问题语义向量；

步骤十，利用线性项计算文本中的各个单词和问题的相似性，即计算第三文本语义向量和问题语义向量，获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率，以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题对应的答案。

下面结合附图对本发明的结构原理和使用步骤作进一步说明：

图3图示了斯坦福公开阅读理解数据集(Stanford Question AnsweringDataset,SQuAD)数据集的一个示例，所述用于机器阅读理解的系统用于对该短文本答案进行抽取。如图3所述，所述短文本数据为文章部分所呈现的内容，所述问题数据为“Who wasTesla influenced by while in school？”，答案为“Martin Sekulic”，此答案为文章的某一连续片段。

本模型的设计主要考虑以下三个方面：一方面，双向长短时记忆网络(BiLSTM)能更完整地对句子的深层语义进行编码，既包含了句首的语义信息，也保留了句尾的语义信息，因此能更好地表征句子的深层含义。另一方面，通过计算注意力概率分布，可以突出重要的输入元素对于输出的影响程度，特别是在Encoder-Decoder模型中，通过回顾整个输入序列元素，输出态序列不仅取决于解码机器最终的状态单元，还取决于所有输入状态的加权组合，这对传统模型有着很好的效果提升。此外，借鉴人类真实阅读理解情形，“带着问题多次阅读文章”，在模型应用中即为多次计算文章关于问题的注意力概率分布。

通过以上的分析，设计了Attention-Based LSTM阅读理解模型，模型的框图如图2所示。由图可以看出，模型的优势是综合利用双向长短时记忆网络(BLSTM)和多次注意力计算，这样有利于问题与文章内容的多次信息交互，可以不断去锁定答案的位置，提高答案的准确度。

问题q有l个单词符号组成{q₁,...,q_l}，文本p有m个单词符号组成{p₁,...,p_m}。将问题q和文本p应用于Attention-Based BiLSTM阅读理解模型，最后预测答案的开始和结束位置，中间的连续片段即为答案。

Attention-Based LSTM阅读理解模型包括四大部分，分别为文本编码，问题编码，多轮注意力以及答案预测，各部分具体内容如下。

1.文本编码

对所述文本进行分词处理和向量化处理，选取Embedding、Exact_match、POS、NER、TF五个特征作为特征向量，得到文本中各个词对应的文本特征向量P_i；其中，

1)词向量(Embedding)

本发明选择由网站爬取数据的维度为300的Glove词向量。

2)匹配度(Exact_match)

本发明使用简单的二元特征，来表明文本中的单词p_i是否可以匹配问题q中的任何一个单词，无论是原始、小写或者词条形式，如果匹配上该值为1，否则为0。

3)词性标注(POS)

是指根据语句的上下文信息，确定它们的词性(parts-of-speech,POS)分类以及相应的标注它们的过程,它具有以下特点：分布特征，单词能够出现在相似的环境中，有相似的功能；形态特征，单词有相同的前缀后缀，在句法结构中有相似的上下文环境；词性无关含义，也无关语法(可以是主语、宾语等等)。

4)命名实体识别(NER)

是指识别文本中具有特定意义的实体，也被称为专名。命名实体识别主要是判断句子中是否含有命名实体。常见的命名实体主要为三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、日期、时间、货币和百分比)命名实体。

5)词频(TF)

主要是指某一个给定的词语在该文件中出现的频率，这对于待处理文本来说是一个很好的特征，可以有效地计算词语的区分能力。

将所述文本中对应的文本特征向量序列{P₁,...,P_m}作为双向长短期记忆网络模型的输入，获得所述文本中融合上下文信息对应的语义向量序列表示{h₁,...,h_m}，即文本语义向量；具体计算过程见如下公式：

{h₁,...,h_m}＝BiLSTM({P₁,...,P_m})

2.问题编码

对所述问题进行分词处理和向量化处理，选取Embedding特征作为特征向量，得到问题中各个词对应的问题特征向量q_i；

将所述问题中各个词对应的问题特征向量序列{q_i,...,q_l}作为双向长短期记忆网络模型的输入，获得所述问题中融合上下文信息对应的语义向量序列表示{q₁,...,q_l}，即问题语义向量；具体计算过程见如下公式：

{q₁,...,q_l}＝BiLSTM({q₁,...,q_l})

利用Self-Attention得到问题的一个向量表示q；通过计算问题语义向量和自身的相似度，获得问题语义向量q，即{q₁,...,q_l}→q，具体计算过程见如下公式：

q＝∑_jb_jq_j

3.多轮注意力

此步骤的主要思想是类比人类真实阅读理解的情形，“多次带着问题去阅读文章”，计算文本关于问题的注意力。通过计算问题语义向量和文本语义向量的相似度，获得问题和文本语义向量表示之间的相似度矩阵，其中，所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度；对相似度矩阵进行Softmax归一化处理，以获得所述文本中各个词关于问题中各个词的概率分布，即为注意力权重；基于所述文本关于问题的注意力权重a_ij和所述问题语义向量表示q_j(问题语义向量)，对问题语义向量进行加权求和，获得融合问题信息的文本的语义向量表示s_i，即增强第一文本语义向量；具体计算过程见如下公式：

s_i＝∑_ja_ijq_j

其中a_ij表示节点i关于节点j的注意力概率权重，即文本中第i个词关于问题中第j个词的注意力权重；h_i表示文本中融合上下文信息各个词对应的语义向量，即文本语义向量；q_j表示问题中融合上下文信息各个词对应的语义向量，即问题语义向量；s_i表示融合问题信息的文本的语义向量，即增强第一文本语义向量，主要是通过注意力概率权重与问题语义向量乘积的累加得到的，突出关键词的语义信息；

将所述文本中各个词对应的增强第一语义向量s_i作为双向长短期记忆网络模型的输入，获得所述文本中融合上下文信息的各个词对应的语义向量表示P_i，即第一文本语义向量；具体计算过程见如下公式，

{P_i,...,P_m}＝BiLSTM({s₁,...,s_m})

考虑到人类真实阅读理解的真实情景，“多次带着问题去阅读文章”，所以类比这种思想，按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度，得到第二文本语义向量，同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度，得到第三文本语义向量，以此类推得到第n文本语义向量，n为自然数；此步骤的主要思想是类比到人类真实阅读理解的情形“多次带着问题去阅读文章”，计算多轮文本关于问题的注意力，并融合上下文语义信息，得到文本第n语义向量，在本发明中，n取值3，得到的第三文本语义向量与第二文本语义向量相差值很小，这样可以得到文章关于问题的一个更好的表示，即文章中的每个词在问题空间中的一种表示，可以有效地提高预测答案的准确度。

4.答案预测

在段落级别，目标是预测正确答案的范围，即确定答案的开始和结束的位置，抽取中间的跨度部分即为正确答案。本发明利用线性项计算文本中的各个单词和问题的相似性，即第三文本语义向量P和问题语义向量q，获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率，具体计算公式如下：

P_start(i)∝exp(P_iW_sq)

P_end(i)∝exp(P_iW_eq)

P_start(i)×P_end(i)

i≤i′≤i+15

Claims

1.一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，包括以下步骤：

步骤一，获取问题与所述问题对应的文本；

2.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，Embedding选用网站爬取数据的维度为300的Glove词向量；Exact_match采用二元特征来表明文本中的单词是否可以匹配问题q中的任何一个单词，无论是原始、小写或者词条形式，如果匹配上该值为1，否则为0。

3.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，NER包括实体类、时间类和数字类。

4.根据权利要求3所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，NER包括人名、机构名、地名、日期、时间、货币和百分比。

5.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，将所述文本中对应的文本特征向量序列{P₁,...,P_m}作为双向长短期记忆网络模型的输入，获得所述文本中融合上下文信息对应的语义向量序列表示{h₁,...,h_m}，即文本语义向量；具体计算过程见如下公式：

{h₁,...,h_m}＝BiLSTM({P₁,...,P_m})。

6.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，将所述问题中各个词对应的问题特征向量序列{q_i,...,q_l}作为双向长短期记忆网络模型的输入，获得所述问题中融合上下文信息对应的语义向量序列表示{q₁,...,q_l}，即问题语义向量；具体计算过程见如下公式：

{q₁,...,q_l}＝BiLSTM({q₁,...,q_l})。

7.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，利用Self-Attention得到问题的一个向量表示q；通过计算问题语义向量和自身的相似度，获得问题语义向量q，即{q₁,...,q_l}→q，具体计算过程见如下公式：

q＝∑_jb_jq_j

8.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，获取增强第一文本语义向量，具体计算过程见如下公式：

s_i＝∑_ja_ijq_j

9.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，将所述文本中各个词对应的增强第一语义向量s_i作为双向长短期记忆网络模型的输入，获得所述文本中融合上下文信息的各个词对应的语义向量表示P_i，即第一文本语义向量；具体计算过程见如下公式，

{P_i,...,P_m}＝BiLSTM({s₁,...,s_m})。

10.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法，其特征在于，获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率，具体计算公式如下：

P_start(i)∝exp(P_iW_sq)

P_end(i)∝exp(P_iW_eq)

P_start(i)×P_end(i)

i≤i’≤i+15