CN108959246B

CN108959246B - 基于改进的注意力机制的答案选择方法、装置和电子设备

Info

Publication number: CN108959246B
Application number: CN201810601421.8A
Authority: CN
Inventors: 杨鹏
Original assignee: Beijing Huiwen Technology Group Co ltd
Current assignee: Beijing Huiwen Technology Group Co ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2022-07-12
Anticipated expiration: 2038-06-12
Also published as: CN108959246A

Abstract

本申请涉及基于改进的注意力机制的用于答案选择的方法、装置和电子设备。该方法包括：对获得的文本数据和问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得问题语义向量表示和文本语义向量表示；通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示；基于所述融合问题信息的上下文表示和所述问题语义向量表示，从所述文本数据中获得所述问题数据对应的答案。这样，通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统，以提高短文本答案抽取的效果。

Description

基于改进的注意力机制的答案选择方法、装置和电子设备

技术领域

本发明总体地涉及数据处理领域，特别是涉及一种基于改进的注意力机制的用于答案选择的方法、装置和电子设备。

背景技术

自从计算机诞生以来，计算机在很多事情上的处理能力已超过人类，那么计算机能不能拥有智能，像人类一样懂得自然语言呢？机器阅读理解(Machine ReadingComprehension，MRC)是自然语言处理领域的一个重要课题，其目的在于让计算机在海量文本中找到精确的答案，从而减轻人类获得信息的成本。

机器阅读理解任务包括完形填空式的任务，答案抽取式的任务和更复杂的基于网络数据的问答任务，其中，最流行的阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是，给定问题和与该问题相关的短文本(通常为1000词以内)，从该短文本中抽取文本片段作为该问题的正确答案。

目前针对答案抽取式的阅读理解任务，主流的做法是通过深度学习来完成此任务。然而，在具体实现基于深度学习的短文本答案抽取的过程中，仍存在着诸多难题需要攻克，这些难题制约着机器阅读理解系统的性能和实际产业应用范围。

因此，对于一种能够更为全面地克服短文本答案抽取实现难题的答案选择方案的需求是持续存在的。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于改进的注意力机制的用于答案选择的方法、装置和电子设备，其通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统，以提高短文本答案抽取的效果。

根据本申请的一方面，提供了一种基于改进的注意力机制的用于答案选择的方法，包括：对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元，其中，第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示；基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

在上述基于改进的注意力机制的用于答案选择的方法中，在通过堆叠注意力机制层获得融合问题的上下文表示之后进一步包括：通过自注意力机制层处理所述融合问题的上下文表示，以获得加强的融合问题信息的上下文表示，其中，两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。

在上述基于改进的注意力机制的用于答案选择的方法中，通过所述第一注意力机制单元获得所述第一基于问题的上下文表示，包括：获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵；对所述相关度矩阵每一行进行归一化处理，以获得所述文本数据关于问题数据的注意力权重；以及，基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。

在上述基于改进的注意力机制的用于答案选择的方法中，通过与所述第一注意力机制单元串联的所述第二注意力机制单元获得所述第二基于问题的上下文表示表示，包括：获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵；对所述相关度矩阵每一行进行归一化处理，以获得所述第一基于问题的上下文表示关于问题数据的注意力权重；以及，基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示，获得所述第二基于问题的上下文表示。

在上述基于改进的注意力机制的用于答案选择的方法中，其中，通过循环神经网络模型分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示，包括：对所述文本数据和所述问题数据的每个字表示进行字符级编码；通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据，以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示；将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接，以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示；通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量；以及，通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态，以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。

在上述基于改进的注意力机制的用于答案选择的方法中，用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为同一个循环神经网络模型和高速网络。

根据本申请的另一方面，提供了一种基于改进的注意力机制的用于答案选择的装置，包括：词向量转化单元，用于对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；语义向量获取单元，通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；注意力机制处理单元，用于通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元，其中，第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示；答案预测单元，用于基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

在上述基于改进的注意力机制的用于答案选择的装置中，所述注意力机制处理单元进一步地用于：通过自注意力机制层处理所述融合问题的上下文表示，以获得加强的融合问题信息的上下文表示，其中，两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。

在上述基于改进的注意力机制的用于答案选择的装置中，所述第一注意力单元用于：获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵；对所述相关度矩阵每一行进行归一化处理，以获得所述文本数据关于问题数据的注意力权重；以及,基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。

在上述基于改进的注意力机制的用于答案选择的装置中，所述第二注意力单元用于：获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵；对所述相关度矩阵每一行进行归一化处理，以获得所述第一基于问题的上下文表示关于问题数据的注意力权重；以及，基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示，获得所述第二基于问题的上下文表示。

在上述基于改进的注意力机制的用于答案选择的装置中，所述语义向量获取单元用于：对所述文本数据和所述问题数据的每个字表示进行字符级编码；通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据，以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示；将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接，以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示；通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量；以及，通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态，以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。

在上述基于改进的注意力机制的用于答案选择的装置中，用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为同一个循环神经网络模型和高速网络。

根据本申请的又一方面，提供一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于改进的注意力机制的用于答案选择的方法。

根据本申请的又一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如上所述的基于改进的注意力机制的用于答案选择的方法。

本申请提供的基于改进的注意力机制的用于答案选择的方法、装置和电子设备，可以通过包含改进的注意力机制的特定的模型架构优化用于机器阅读理解的系统以提高短文本答案抽取的效果。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的方法的流程图。

图2图示了根据本申请实施例的获得所述问题数据和所述文本数据的语义向量表示的流程图。

图3图示了根据本申请实施例的所述第一注意力机制单元获得所述第一基于问题的上下文表示的流程图。

图4图示了根据本申请实施例的所述第二注意力机制单元获得所述第二基于问题的上下文表示的流程图。

图5图示了根据本申请实施例的用于机器阅读理解的系统模型架构的示意图。

图6示意了根据本申请实施例的用于机器阅读理解的系统利用斯坦福公开阅读理解数据集(Stanford Question Answering Dataset,SQuAD)的测试结果。

图7图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的装置的框图。

图8图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，机器阅读理解(Machine Reading Comprehension，MRC)是自然语言处理领域的一个重要课题，其目的在于让计算机在海量文本中找到精确的答案，从而减轻人类获得信息的成本。目前，最流行的机器阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是，给定问题和与该问题相关的短文本(通常为1000词以内)，从该短文本中抽取文本片段作为该问题的正确答案。例如，查询天气，查询事实类问题、定义类问题等等。

然而，在具体实现短文本答案抽取任务中，存在着诸多难题需要攻克。首先，如何让机器理解短文本数据和问题数据的语义信息。这里，语义信息指的是能够消除事物不确定性的有一定意义的信息，其中，语义信息可以借助自然语言领会和理解。其次，如何捕捉短文本数据和问题数据之间的关系，以定位出所述问题数据对应的答案范围；还有，如何在答案候选部分进行筛选以确定最终答案。这些难题，在优化短文本答案抽取效果的过程中皆需逐一克服或改进，以提升短文本答案抽取任务的效果。

针对上述技术问题，本申请的基本构思是首先将所述问题数据和所述文本数据转化为机器能够识别的表现形式，进而，通过循环神经网络模型获得所述问题数据和所述文本数据的语义信息表示，进一步地，通过堆叠注意力机制层捕捉所述问题数据和所述文本数据之间的关系，最终，基于所述融合问题信息的上下文表示和所述问题语义向量表示，从所述文本数据中获得所述问题数据对应的答案文本片段。

基于此，本发明提供一种基于改进的注意力机制的用于答案选择的方法、装置和电子设备，其首先对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；然后，通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；进一步地，通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示；继而，基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，并将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。这样，通过注意力机制，并利用特定的模型架构优化所述机器阅读理解系统用于短文本答案抽取任务的效果。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示意性方法

图1图示了根据本申请实施例的基于改进的注意力机制的用于答案选择的方法的流程图。如图1所示，根据本申请实施例的基于改进的注意力机制的用于答案选择的方法包括：S110，对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；S120，通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；S130，通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元，其中，第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示；S140，基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

这里，在本申请实施例中，设置用于机器阅读理解的系统以用于处理短文本答案抽取任务。换言之，基于改进的注意力机制的用于答案选择的方法为用于短文本答案抽取的数据处理方法，其目的在于：给定问题数据和与所述问题数据相关的文本数据，从所述文本数据中抽取文本片段作为所述问题数据的正确答案。

在步骤S110中，对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语词向量表示。本领域的技术人员应可以理解，在完成自然语言处理的相关任务时，首先，需将自然语言转化为计算设备能够识别的语言，即数学符号，其中该数学符号通常为向量。换言之，在获取问题数据和答案数据之后，需将所述问题数据和所述文本数据转化为机器能够识别的表示。这里，在本申请该实施例中，对所述问题数据和所述文本数据进行词向量转化，以分别获得所述问题数据和所述文本数据的词向量表示。

特别地，在本申请实施例中，通过词嵌入方法对所述问题数据和所述文本数据进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示，其中，词向量是词语的连续、稠密、低纬度的分布表示。词嵌入方法(Word Embedding Method)是将自然语言词语数学化的一种方法，其指的是将自然语言中的每一个词映射到高维空间，并表示为一个高维向量。这种词语表示方法通过训练将词语映射到一个K维实数向量(一般K可取50、100等)其中，每个词即为K维向量空间中的一点，词语之间的距离(如欧式距离、Cosine距离)代表词语之间的语义相似度。这里，在本申请实施例中，使用经过预训练的GloVe词向量，直接获得所述问题数据和所述文本数据的每个词语到d维空间的映射(d＝100/300)，以获得所述问题数据和所述文本数据的每个词语的词向量表示。

在步骤S120中，通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。换言之，通过循环神经网络处理所述问题数据和所述文本数据，以获取所述文本数据和所述答案数据的语义信息，从而机器(计算设备)能够理解所述文本数据和所述问题数据的内容。

特别地，在本申请实施例中，所述循环神经网络模型从不同编码粒度级别对所述问题数据和所述文本数据的词向量表示进行编码，并将不同编码粒度下的表示进行融合的方式，通过这样的方式，获得所述文本数据的文本语义向量表示和所述问题数据的问题语义向量表示。更具体地说，在本申请实施例中，通过字符粒度级别编码、词语粒度级别编码和上下文粒度级别编码，这三个编码粒度级别对所述问题数据和所述文本数据进行编码，以获得所述问题语义向量表示和所述文本语义向量表示。

字符粒度级别编码：将英文26个字母和其他标点符号等进行特定模式编码(例如，one-hot编码)，以获得每个字符的编码。进而，将所述文本数据和所述问题数据的每个字对应的字符编码作为所述循环神经网络模型的输入。这样，在所述循环神经网络模型的最后一层隐藏状态获得将所述文本数据和所述问题数据的字符粒度表征向量，其中，所述问题数据和所述文本数据的字符粒度表征向量可表示为ch_enc∈R^n×2h和，其中h为所述循环神经网络模型中隐藏层的节点数量，n为所述问题数据的文本长度或所述文本数据的文本长度。

词语粒度级别编码：使用经过预训练的GloVe词向量，直接所述问题数据和所述文本数据的每个单词到d维(d＝100/300)空间的映射，以获得所述问题数据和所述文本数据的每个词语的词向量表示。进而，将所述问题数据的每个词语的词向量拼接起来以获得所述问题数据的词语粒度向量表示，以及，将所述文本数据的每个单词的词向量拼接起来以获得所述文本数据的词语粒度向量表示，其中，所述问题数据和所述文本数据的词语粒度向量表示可表示为：c_emb∈R^n×d，n为所述问题数据的文本长度或所述文本数据的文本长度，d为向量映射空间的维度。换言之，在本申请该实施例中，对所述问题数据和所述答案数据的词语粒度级别编码与在步骤S110中对所述问题数据和所述答案数据的每个词语进行词向量转化所获得的每个词语的词向量表示紧密相关。

上下文粒度级别编码：将所述问题数据和所述文本数据的字符级别向量表示和词语级别向量表示进行拼接，并将拼接结果作为所述循环神经网络模型的输入。这样，经过所述循环神经网络的处理之后，利用一个高度网络(Highway Network)将所述循环神经网络模型每个时间片隐藏状态拼接起来，以获得所述问题数据和所述本文数据的上下文粒度级别的向量表示，即，所述问题数据和所述文本数据的语义向量表示。换言之，在对所述问题数据和所述文本数据进行上下文粒度级别的编码过程中，利用所述循环神经网络模型和所述高度网络处理所述文本数据和所述问题数据中相邻词语之间的交互关系，以得到所述问题数据和所述文本数据中含对整个句子的语义信息的上下文编码。为了便于后续描述，将所述问题数据和所述本文数据的上下文粒度级别的向量表示表示为：c_enc∈R^n×2h、q_enc∈R^m×2h,其中，h为所述循环神经网络模型中隐藏层的节点数量，m为所述问题数据的文本长度，n为所述文本数据的文本长度。

值得一提的是，在本申请实施例中，对于所述问题数据和所述答案数据不同粒度级别的编码使用相同的循环神经网络和高度网络。本领域技术人员应可以理解，对所述问题数据和所述答案数据的不同粒度级别的编码结果直接影响短文本答案抽取任务的最终结果，因此，在具体实现中，还可以根据所述问题数据和所述文本数据进行预处理，并灵活地调整特征提取算法以提升对所述问题数据和所述答案数据的语义信息的理解，例如，可以加入所述问题数据和所述文本数据的词性，词频等传统统计学特征。对此，本申请实施例不做限制。

图2图示了根据本申请实施例的获得所述问题数据和所述文本数据的语义向量表示的流程图。如图2所示，通过循环神经网络模型分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示，包括：S210，对所述文本数据和所述问题数据的每个字表示进行字符级编码；S220，通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据，以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示；S230，将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接，以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示；S240，通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量；以及，S250，通过高速网络拼接所述循环网络每一时间片的隐藏状态，以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。

进一步地，在通过循环神经网络模型获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示之后，利用堆叠注意力机制捕捉所述问题数据和所述文本数据之间的关系。即，执行步骤S130：通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量，以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元，其中，第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示。

这里，使用注意力机制捕捉所述问题数据和所述文本数据之间的关系的目的在于：关注所述问题数据和所述文本数据相关的部分。形象地说，让机器像人类一样带着所述问题数据阅读所述文本数据，并将所述文本数据关键部分与所述问题数据相关联。之所以采用注意力机制的原因是因为，在使用深度神经网络处理复杂任务时(例如处理大量的输入信息时)，如果仅仅是通过深度神经网络将输入转化为对应的向量表示，那么，该向量表示很难反映出输入的所有语义信息。相应地，利用注意力机制可以根据任务的需要只编码相关信息，忽略次要信息以减少输入量。换言之，这是一种有效的资源分类方案，将计算资源等分配给更加重要的任务。

特别地，在本申请实施例中，利用堆叠的注意力机制捕捉所述问题数据和所述文本数据之间的关系。顾名思义，堆叠的注意力机制表示多个注意力机制同时作用于捕捉所述问题数据和所述答案数据之间的关系。在本申请实施例中，所述堆叠注意力机制层包括第一注意力机制单元，第二注意力机制单元以及融合单元，其中，所述第一注意力机制单元和所述第二注意力机制单元均为静态单向注意力机制单元且相互串联。在工作过程中，所述第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示；与所述第一注意力机制单元串联的所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示；同时，所述融合单元融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示。

更具体地，在本申请实施例中，所述第一注意力机制单元处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示的具体过程为：首先，定义一个相关度矩阵M∈R^n×m，所述相关度矩阵表示了所述文本数据中的每个词语和所述问题数据的每个词语之间的相关程度。例如，M_ij表示所述文本数据中第i个词语与所述问题数据中第j个词语之间的相关程度，其中，两个词语越相关，该值越大。在具体实施例中，可如下公式对所述相关度矩阵进行最简单的计算：

M＝c_enc×q_enc^T∈R^n×m

其中，c_enc表示所述文本数据的文本语义向量表示，q_enc表示所述问题所述的问题语义向量表示。这里，对所述相关度矩阵的计算可更为复杂，例如，以如下公式进行计算：

其中，c_enc表示所述文本数据的文本语义向量表示，q_enc表示所述问题所述的问题语义向量表示，

为待训练参数矩阵。对此，可基于所述机器阅读理解系统的具体应用场景采用特定的所述相关度矩阵计算方法，对此，本申请实施例不作限制。

进一步，在得到所述相关度矩阵之后，对所述相关度矩阵每一行进行归一化处理，以获得所述文本数据关于问题数据的注意力权重。这里，所述文本数据关于问题数据的注意力权重表示：对于所述文本数据中的每个词语，所述问题数据中的各个词语与所述文本数据的该词语的相关程度，其具体计算过程可表示如下：

M^q＝softmax(M)∈R^n×m

或者以更直观的方式可表示为：

进一步，基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示，用公式可表示为：

C^q＝M^q×q_enc∈R^n×2h

其中，M^q表示所述文本数据关于问题数据的注意力权重，q_enc表示所述问题语义向量表示。

图3图示了根据本申请该实施例的第一注意力机制单元获得所述第一基于问题的上下文表示的流程图。如图3所示，所述第一注意力机制单元获得所述第一基于问题的上下文表示的过程，包括：S310，获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵；S320，对所述相关度矩阵每一行进行归一化处理，以获得所述文本数据关于问题数据的注意力权重；以及，S330，基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。

相应地，所述第二注意力机制单元获得所述第二基于问题的上下文表示的机理与所述第一注意力机制单元获得所述第一基于问题的上下文表示的机理相一致，除了输入的数据类型。更具体地，对于所述第一注意力机制单元而言，其输入为：所述问题语义向量表示和所述文本语义向量表示；而，对于所述第二注意力机制单元而言，其输入为：所述第一基于问题的上下文表示和所述问题语义向量表示。换言之，所述第一注意力机制单元的输出为所述第二注意力机制单元的输入，即，所述第二注意力机制单元串联于所述第一注意力机制单元。

更具体地，所述第二注意力机制单元获得所述第二基于问题的上下文表示的过程为：首先，获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵，其中该相关度矩阵可用如下公式进行计算：

其中，C^t-1为所述第一基于问题的上下文表示，q_enc表示所述问题的语义向量表示。

进一步，对所述相关度矩阵每一行进行归一化处理，以获得所述第一基于问题的上下文表示关于问题数据的注意力权重。这里，所述第一基于问题的上下文表示关于问题数据的注意力权重表示：对于所述第一基于问题的上下文表示中的每个词语，所述问题数据中的各个词语与所述第一基于问题的上下文表示的该词语的相关程度，其具体计算过程可表示如下：

M^q＝softmax(M,axis＝1)∈R^n×m

进一步，基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示，获得所述第二基于问题的上下文表示，用公式表示为：

c^t＝M^q×q_enc∈R^n×2h

其中，M^q表示所述第一基于问题的上下表示关于问题数据的注意力权重，q_enc表示所述问题语义向量表示。

图4图示了根据本申请该实施例的所述数据处理方法中所述第二注意力机制单元获得所述第二基于问题的上下文表示的流程图。如图4所示，所述第二注意力机制单元获得所述第二基于问题的上下文表示的过程，包括：S410，获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵；S420，对所述相关度矩阵每一行进行归一化处理，以获得所述第一基于问题的上下文表示关于问题数据的注意力权重；以及，S430，基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示，获得所述第二基于问题的上下文表示。

进一步，在通过所述第一注意力机制单元和所述第二注意力机制单元分别获得所述第一基于问题的上下文表示和所述第二基于问题的上下文表示之后，利用所述融合单元融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示以获得所述融合问题信息的上下文表示。这里，融合过程用公式可表示为：

其中，C^t表示所述第二基于问题的上下文表示，C^t-1表示所述第一基于问题的上下文表示，Fusion表示融合函数。从上述公式可以看到，所述融合单元对传入的参数进行了一次非线性变换操作。

综上，通过所述第一注意力机制单元，所述第二注意力机制单元和所述融合单元所构建的所述堆叠注意机制层，利用堆叠的注意力机制在低层次，中等层次和高层次都捕捉了所述问题数据和所述文本数据的交互程度。值得一提的是，对应于具体的所述机器阅读系统的应用场景，所述堆叠注意机制层的注意力机制单元的数目可做出调整，以改变注意力机制堆叠的层数。例如，在本申请另外的实施例中，所述堆叠注意力机制层还包括第三注意力机制单元，其与所述第二注意力机制单元相串联，并以相同的注意力机制机理更新基于问题的上下文表示。这里，当所述注意力机制单元的数量增加时，所述堆叠注意力机制层能在更多层次上捕捉了所述问题数据和所述文本数据的交互程度，当然，这样将导致计算量增加。在具体实施中，所述堆叠注意力机制层一般包括2或3个所述注意力机制单元，即，所述堆叠注意力机制层的注意力堆叠层数为2或3。

进一步地，在通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示后，执行步骤S140和步骤S150，即，基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以及将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

这里，在本申请实施例中，利用指针网络(Pointer Network)进行答案预测。换言之，通过指针网络处理所述融合问题信息的上下文表示和所述问题语义向量表示，以获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，p(start|D,Q)、p(end|D,Q,start)∈Rⁿ。进而，建立答案起始位置和答案结束位置的联合概率分布，用公式可表示为：

p(answer|D,Q)＝p(start|D,Q)p(end|D,Q,start)

其中，p(start|D,Q)表示所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率，p(end|D,Q,start)表示所述文本数据中每个词语为所述问题数据对应答案的结束位置的概率。最终，计算答案片段的联合分布概率，并抽取概率最大的一段文本为所述问题数据对应的答案。

值得一提的是，为了优化所述机器阅读理解系统完成短文本答案抽取任务的效果，在利用指针网络进行答案预测和确定最终答案之前，可利用自注意力机制对所述融合问题信息的上下文表示进行自加强。本领域的技术人员应可以理解，对于所述机器阅读理解系统而言，总希望文本的部分无用信息能够被忽略，部分重要信息(例如，关键词信息)能够得以加强，以优化最终的预测性能。这里，通过自注意力机制对所述融合问题信息的上下表示进行加强的目的也是如此。

更具体地，在本申请该实施例中，所述自注意力机制层与所述堆叠注意力机制层的注意力机制思想相一致，其区别在于，对于所述自注意力机制层而言，两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入，而堆叠注意力机制层中两个输入分别为所述文本数据和所述问题数据的语义编码。换言之，在自注意力机制层中，计算获得的所述相关度矩阵M_ij＝0(i＝j)。并且，在自注意力机制运行完成之后，注意力机制的层数T取值为1。

也就是说，在本申请实施例中，在通过堆叠注意力机制层获得融合问题的上下文表示和基于所述融合问题信息的上下文表示和所述问题语义向量表示获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率之间，包括：通过自注意力机制层处理所述融合问题的上下文表示，以获得加强的融合问题信息的上下文表示，其中，两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。

综上，说明了根据本申请实施例的用于机器阅读理解的基于改进的注意力机制的用于答案选择的方法，其利用基于改进的注意力机制的特定的模型架构优化短文本答案抽取，从而提高处理效果。

图5图示了根据本申请实施例的用于机器阅读理解的系统模型架构的示意图。如图5所示，所述用于机器阅读理解的系统包括编码层，文章问题交互层，自交互层和预测层。所述编码层，分别对所述问题数据和所述文本数据进行不同粒度级别编码，以使得机器充分理解所述文本数据和所述问题数据的语义信息。所述文章问题交互层，使用堆叠注意力机制捕捉所述问题数据和所述文本数据之间的不同层级的交互关系，重点关注所述文本数据和所述问题数据之间相关联的部分，并获得融合问题信息的上下文表示(question-aware context representation)。所述自交互层，利用一种内部注意力机制对所述融合问题信息的上下文表示进行加强。最终，所述预测层进行答案预测，其先预测所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率，再使用该概率值结合其他计算结果继续预测所述文本数据中每个词语为所述问题数据对应答案的结束位置的概率，继而，将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。值得一提的是，这种串行的预测方法充分考虑了答案开始位置，结束位置之间的相关性，利于提升答案预测正确率。

值得一提的是，在所述用于机器阅读理解的系统投入服务以处理短文本答案抽取任务时，需先对所述系统的模型进行训练，即调整所述系统的网络参数。特别地，在本申请实施例中，分别使用所述文章问题交互层和所述自交互层的结果计算所述文本数据中每个词语为所述问题数据对应答案的起始位置的概率，并以起始位置预测概率分布与实际概率分布的负对数概率总和构建损失函数，进而，以1:4比例进行综合得到所述用于机器阅读理解的系统的整个网络的损失函数。值得一提的是，可使用Adadelata优化器对所述系统的整个网络进行优化。

此外，值得一提的是，本申请实施例所提供的所述用于机器阅读理解的系统处理短文本答案抽取任务的效果，可用准确率(Precision)，召回率(Recall)，F1值(F1-Score)等效果评价指标来评价。特别地，图6示意了根据本申请实施例的所述用于机器阅读理解的系统利用斯坦福公开阅读理解数据集(Stanford Question Answering Dataset,SQuAD)的测试结果。

这里，应领会的是，在上文中以所述用于机器阅读理解的系统用于处理短文本答案抽取任务是示例。本领域的技术人员应可以理解，所述用于机器阅读理解的系统还可用于处理完形填空任务，基于网络数据的问答任务。对此，本申请不作限制。

示意性装置

如图7所示，根据本申请实施例的基于改进的注意力机制的用于答案选择的装置700包括：词向量转化单元710，用于对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；语义向量获取单元720，通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；注意力机制处理单元730，用于通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元，其中，第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示；预测单元740，用于基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

在一个示例中，在上述装置700中，所述注意力机制处理单元730进一步用于：通过自注意力机制层处理所述融合问题的上下文表示，以获得加强的融合问题信息的上下文表示，其中，两个所述融合问题的上下文表示被设置为所述自注意力机制层的两个输入。

在一个示例中，在上述装置700中，所述第一注意力机制单元用于：获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵；对所述相关度矩阵每一行进行归一化处理，以获得所述文本数据关于问题数据的注意力权重；以及，基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。

在一个示例中，在上述装置700中，所述第二注意力机制单元用于：获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵；对所述相关度矩阵每一行进行归一化处理，以获得所述第一基于问题的上下文表示关于问题数据的注意力权重；以及，基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示，获得所述第二基于问题的上下文表示。

在一个示例中，在上述装置700中，所述语义向量获取单元720用于：对所述文本数据和所述问题数据的每个字表示进行字符级编码；通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据，以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示；将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接，以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示；通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量；以及，通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态，以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。

在一个示例中，在上述装置700中，用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为相同的循环神经网络模型和高速网络。。

这里，本领域技术人员可以理解，上述基于改进的注意力机制的用于答案选择的装置700中的各个单元和模块的具体功能和操作已经在上面参考图1到图6描述的基于改进的注意力机制的用于答案选择的方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于改进的注意力机制的用于答案选择的装置700可以实现在各种终端设备中，例如用于短文本答案抽取系统的服务器。在一个示例中，根据本申请实施例的装置700可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如，该装置700可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该装置700同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该装置700与该终端设备也可以是分立的终端设备，并且该装置700可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示意性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于改进的注意力机制的用于答案选择的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如所述问题数据和所述文本数据等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括问题对应的预测答案等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示意性计算机程序产品

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于改进的注意力机制的用于答案选择的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“，还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于改进的注意力机制的用于答案选择的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于改进的注意力机制的用于答案选择的方法，其特征在于，包括：

对获得的文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；

通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；

通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元、第二注意力机制单元以及融合单元，所述第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示以获得所述融合问题信息的上下文表示，融合过程用公式表示为：

其中，

表示所述第二基于问题的上下文表示，

表示所述第一基于问题的上下文表示，Fusion表示融合函数且为非线性变换操作，h为所述循环神经网络模型中隐藏层的节点数量， n为所述文本数据的文本长度；

基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

2.如权利要求1所述的基于改进的注意力机制的用于答案选择的方法，在通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示之后进一步包括：

通过自注意力机制层处理所述融合问题信息的上下文表示，以获得加强的融合问题信息的上下文表示，其中，两个所述融合问题信息的上下文表示设置为所述自注意力机制层的两个输入。

3.如权利要求2所述的基于改进的注意力机制的用于答案选择的方法，其中，通过所述第一注意力机制单元获得所述第一基于问题的上下文表示，包括：

获得所述问题语义向量表示和所述文本语义向量表示之间的相关度矩阵；

对所述相关度矩阵每一行进行归一化处理，以获得所述文本数据关于问题数据的注意力权重；以及

基于所述文本数据关于问题数据的注意力权重和所述问题语义向量表示获得所述第一基于问题的上下文表示。

4.如权利要求3所述的基于改进的注意力机制的用于答案选择的方法，其中，通过与所述第一注意力机制单元串联的所述第二注意力机制单元获得所述第二基于问题的上下文表示，包括：

获得所述第一基于问题的上下文表示和所述问题语义向量表示之间的相关度矩阵；

对所述相关度矩阵每一行进行归一化处理，以获得所述第一基于问题的上下文表示关于问题数据的注意力权重；以及

基于所述第一基于问题的上下表示关于问题数据的注意力权重和所述问题语义向量表示，获得所述第二基于问题的上下文表示。

5.如权利要求1所述的基于改进的注意力机制的用于答案选择的方法，其中，通过循环神经网络模型分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示包括：

对所述文本数据和所述问题数据的每个字表示进行字符级编码；

通过所述循环神经网络模型处理进行字符级编码后的所述文本数据和所述问题数据，以获得所述文本数据的字符粒度向量表示和所述问题数据的字符粒度向量表示；

将所述文本数据和所述问题数据的每个词语的词向量表示进行拼接，以获得所述文本数据的词语粒度向量表示和所述问题数据的词语粒度向量表示；

通过所述循环神经网络模型处理所述问题数据的字符粒度向量表示和词语粒度向量表示的拼接向量以及所述文本数据的字符粒度向量表示和词语粒度向量表示的拼接向量；以及

通过高速网络拼接所述循环神经网络模型每一时间片的隐藏状态，以获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示。

6.如权利要求5所述的基于改进的注意力机制的用于答案选择的方法，其中，用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为相同的循环神经网络模型和高速网络。

7.一种基于改进的注意力机制的用于答案选择的装置，其特征在于，包括：

词向量转化单元，用于对获得文本数据和与文本数据相关的问题数据分别进行词向量转化，以分别获得所述问题数据和所述文本数据的每个词语的词向量表示；

语义向量获取单元，用于通过循环神经网络模型处理所述问题数据和所述文本数据，以分别获得所述问题数据对应的问题语义向量表示和所述文本数据对应的文本语义向量表示；

注意力机制处理单元，用于通过堆叠注意力机制层处理所述问题语义向量表示和所述文本语义向量以获得融合问题信息的上下文表示，其中，所述堆叠注意力机制层包括相互串联的第一注意力机制单元和第二注意力机制单元以及融合单元，其中，第一注意力机制单元用于处理所述问题语义向量表示和所述文本语义向量以获得第一基于问题的上下文表示，所述第二注意力机制单元用于基于所述第一基于问题的上下文表示和所述问题语义向量表示获得第二基于问题的上下文表示，所述融合单元用于融合所述第一基于问题的上下文表示和所述第二基于问题的上下文表示，以获得所述融合问题信息的上下文表示，融合过程用公式表示为：

其中，

表示所述第二基于问题的上下文表示，

答案预测单元，用于基于所述融合问题信息的上下文表示和所述问题语义向量表示，获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率，以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

8.如权利要求7所述的基于改进的注意力机制的用于答案选择的装置，所述注意力机制处理单元进一步地用于：

通过自注意力机制层处理所述融合问题信息的上下文表示，以获得加强的融合问题信息的上下文表示，其中，两个所述融合问题信息的上下文表示被设置为所述自注意力机制层的两个输入。

9.如权利要求8所述的基于改进的注意力机制的用于答案选择的装置，其中，所述第一注意力机制单元用于：

10.如权利要求9所述的基于改进的注意力机制的用于答案选择的装置，其中，所述第二注意力机制单元用于：

11.如权利要求7所述的基于改进的注意力机制的用于答案选择的装置，其中，所述语义向量获取单元用于：

12.如权利要求11所述的基于改进的注意力机制的用于答案选择的装置，其中，用以处理所述文本数据和所述问题数据的所述循环神经网络模型和所述高速网络为同一个循环神经网络模型和高速网络。

13.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的基于改进的注意力机制的用于答案选择的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如权利要求1-6中任一项所述的基于改进的注意力机制的用于答案选择的方法。