CN109906460B

CN109906460B - 用于问答的动态协同注意力网络

Info

Publication number: CN109906460B
Application number: CN201780068572.5A
Authority: CN
Inventors: 熊蔡明; V·钟; R·佐赫尔
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2016-11-04
Filing date: 2017-11-03
Publication date: 2023-09-19
Anticipated expiration: 2037-11-03
Also published as: US10963782B2; WO2018085710A1; CA3038812C; CA3038812A1; CN109906460A; EP3535706A1; JP6873236B2; JP2020501229A; US20180129938A1

Abstract

所公开的技术涉及一种用于问答的端到端神经网络，在此称为“动态协同注意力网络(DCN)”。简而言之，DCN包括编码器神经网络和协同注意力编码器，其以所谓的“协同注意力编码”捕获问题和文档之间的交互。DCN还包括解码器神经网络和高速路最大输出网络，其处理协同注意力编码，以估计文档中回答问题的短语的开始位置和结束位置。

Description

用于问答的动态协同注意力网络

其他申请的交叉引用

本申请要求于2016年11月4日提交的、题为“用于问答的动态协同注意力网络(DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING)”(案号：SALE 1179-1/1945PROV)的62/417,332号美国临时专利申请的权益。优先权临时申请出于所有目的通过引用合并于此；

本申请要求于2016年11月4日提交的、题为“用于问答的动态协同注意力网络(DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING)”(案号：SALE 1179-2/1945PROV2)的62/418,060号美国临时专利申请的权益。优先权临时申请出于所有目的通过引用合并于此；

本申请要求于2017年1月31日提交的、题为“用于问答的动态协同注意力网络(DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING)”(案号：SALE 1179-3/1945US)的15/421,193号美国非临时专利申请的权益。优先权非临时申请出于所有目的通过引用合并于此。

技术领域

所公开的技术总地涉及使用深度神经网络的自然语言处理(NLP)，并且更具体地涉及用于机器理解和问答的端到端神经网络架构。

背景技术

本部分中讨论的主题不应仅仅由于在本部分中提到而被假定为现有技术。同样地，本部分中提到的问题或与作为背景提供的主题有关的问题不应被假定为之前在现有技术中已得到承认。本部分中的主题内容仅代表不同的方法，其中和其本身也可以对应于所述技术的实现。

针对问答，已提出了几种深度学习模型。然而，由于它们的单个传递性质，它们无法从对应于错误答案的局部最大值中恢复。为了解决这一问题，所公开的技术提供了一种用于问答的所谓“动态协同注意力网络(DCN)”。DCN首先融合问题和文档的协同依赖的表示，以便关注两者的相关部分。然后，DCN遍历可能的答案范围。这个迭代过程使DCN能够从与错误答案对应的初始局部最大值中恢复。

在斯坦福问答数据集(SQuAD)数据集上，单一的DCN模型优于之前的技术水平，从71.0％的F1得分到75.9％的F1得分，而集成DCN模型优于之前的技术水平，从78.1％的F1得分到80.4％的F1得分。

附图说明

在附图中，相似参考字符一般是指贯穿不同视图的相似部分。此外，这些图纸不一定是按比例绘制的，相反，重点通常放在说明所披露技术的原则上。在下面的描述中，参照以下附图描述了所公开技术的各种实现，其中：

图1例示了读取和理解文档并基于文档回答问题的动态协同注意力网络(DCN)的各个方面。

图2示出了使用编码器神经网络产生文档和问题上下文编码的一种实现。

图3描述了隐藏状态比较器的一种实现，其产生确定图2中文档和问题上下文编码之间的语言相似性的亲和矩阵(affinity matrix)。

图4是通过对图3的亲和矩阵进行逐文档的归一化以产生文档到问题注意力权重的一种实现。

图5例示了通过结合图2的文档上下文编码和图4的文档到问题的注意力权重来生成文档的上下文总结的一种实现。

图6是通过对图3的亲和矩阵进行逐问题的归一化，来产生问题到文档注意力权重的一种实现。

图7例示了通过将图2的问题上下文编码与图6的问题到文档注意力权重相结合来生成问题的上下文总结的一种实现。

图8描述了通过将图5的文档的上下文总结与图6的问题到文档的注意力权重相结合，生成文档的改进的上下文总结的一种实现。

图9是通过将图8的文档的改进的上下文总结与图7的问题的上下文总结串联起来，生成文档的协同依赖表示的一种实现。

图10示出了通过将图9的文档的协同依赖表示与图2的文档上下文编码串联起来，生成文档的改进的协同依赖表示的一种实现。

图11例示了使用图10的文档的改进的协同依赖表示产生双向逐文档的协同注意力编码的双向协同注意力编码器的一种实现。

图12描述了解码器神经网络的一种实现，其迭代地预测文档中响应于问题的短语的开始位置和结束位置。

图13是开始高速路最大输出网络的一种实现。

图14是结束高速路最大输出网络的一种实现。

图15、图16和图17是解码器神经网络产生的开始条件分布和结束条件分布的例子。

图18示出了可以用来实现动态协同注意力网络(DCN)的之前描述组件的模块。

图19是可用于实现DCN的计算机系统的简化框图。

详细描述

以下讨论是为了使能本领域技术人员制造和使用所公开的技术而提出的，并且在特定应用及其要求的背景下提供。对于本领域技术人员来说，对所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，这里定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不意图被限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。

讨论被组织如下。首先，提出提供所公开技术的概述的介绍。然后，讨论所公开的技术的编码器及其功能。接下来，讨论了协同注意力机制，接着是所公开的技术的解码器及其功能。最后，提供了一些说明了在SQuAD数据集上公开的技术的性能的实验结果。

介绍

问答(QA)是自然语言处理(NLP)中的关键任务，其需要自然语言理解和世界知识。由于人类注释，之前的QA数据集往往质量很高，但尺寸很小。因此，他们不允许训练数据密集型、富有表现力的模型，如深度神经网络。

为了解决这个问题，研究人员已通过半自动技术开发了大规模数据集。与其较小的手工注释的对应物相比，这些QA数据集可以训练更具表现力的模型。然而，已经表明它们与回答问题所需的推理类型中的更自然的、人类注释的数据集不同。

最近发布的斯坦福问答数据集(SQuAD)比所有之前的手工注释数据集大几个数量级，并且具有在自然QA任务中达到顶点的各种质量。SQuAD由群众工作者在一组维基百科文章中提出的问题组成。SQuAD在536篇文章中包含107,785个问答配对。SQuAD具有理想的质量，其答案是参考文档中的范围或短语。这会将答案限制为参考文档中所有可能范围的空间。

所公开的技术涉及用于问答的端到端神经网络，在此称为“动态协同注意力网络(DCN)”。粗略地描述，DCN包括编码器神经网络和协同注意力编码器，其以所谓的“协同注意力编码”捕获问题和文档之间的相互作用。DCN还包括解码器神经网络和高速路最大网络，其处理协同注意力编码以估计文档中响应问题的短语的开始位置和结束位置。

DCN自动回答关于文档的问题。DCN不是在没有上下文的情况下产生文档的单个静态表示，而是根据问题对文档进行不同的解释。也就是说，给定相同的文档，DCN根据问题构建不同的理解(例如，“哪个团队代表Super Bowl 50中的NFC？”，“谁在第四节触地得分？”)。基于该有条件的解释，DCN迭代地预测多个答案，允许其调整最初被误导的预测。

在单个模型实现中，DCN在SQuAD数据集上实现F1得分为75.9％，而现有技术的水平为71.0％的F1得分。在集成模型实现中，DCN在SQuAD数据集上实现F1得分为80.4％，而现有技术的水平为78.1％的F1得分。

动态协同注意力网络

图1示出了动态协同注意力网络(DCN)100的方面，其读取和理解文档102a并基于其回答问题104a。文档102a存储在文档数据库102中。问题104a存储在问题数据库104中。DCN 100包括两种类型的组件，即编码组件(即编码器)和解码组件(即，解码器)。DCN 100的编码组件包括嵌入器106、编码器神经网络108、隐藏状态比较器110、指数归一化器112、编码混合器114和协同注意力编码器116。DCN 100的解码组件包括解码器神经网络118、开始高速路最大化网络120和结束高速路最大化网络122。

图1中的组件可以用硬件或软件实现，并且不需要精确地划分为与图1所示的完全相同的框。一些组件也可以在不同的处理器或计算机上实现，或者分布在许多不同的处理器或计算机之间。另外，应当理解，一些组件可以被组合、并行操作或以与图1所示不同的顺序操作，而不影响实现的功能。同样如本文所用，术语“组件”可以包括“子组件”，其本身在本文中可视为构成组件。例如，嵌入器106、编码器神经网络108、隐藏状态比较器110、指数归一化器112、编码混合器114和协同注意力编码器116在本文中也可以被认为是编码组件的子组件。同样地，解码器神经网络118，开始高速路最大输出网络120和结束高速路最大输出网络122在本文中也可以被认为是解码组件的子组件。另外，编码组件和解码组件在此也可以被认为是DCN组件的子组件。此外，图1中的框也可以被认为是方法中的流程图步骤。组件或子组件也不一定必须将其所有代码连续地放置在存储器中；代码的一些部分可以与代码的其他部分分开，将来自其他组件或子组件的代码或其他函数放在中间。

嵌入

嵌入器106将文档102a和问题104a中的每个单词映射到高维向量空间，这里称为“嵌入空间”。在一个实现中，嵌入器106使用嵌入矩阵生成与文档102a中的m个单词对应的l维单词向量/>的序列202，其中v表示词汇表的大小。序列202在本文中称为“文档嵌入”。使用相同的嵌入矩阵/>嵌入器106还生成与问题104a中的n个单词对应的l维单词向量/>的序列204。序列204在这里被称为“问题嵌入”。这些嵌入步骤由DCN 100的嵌入器106实现。

通过共享嵌入矩阵文档102a和问题104a都参与了嵌入空间的学习，并相互受益。在另一个实现中，嵌入器106首先将文档102a和问题104a中的每个单词转换为独热(one hot)表示，然后使用共享的嵌入矩阵/>将它们转换为连续表示。在另一个实现中，嵌入器106使用预先训练的单词嵌入模型(如Glove和Word2Vec)来初始化单词嵌入，以获得文档102a和问题104a中每个单词的固定单词嵌入。在其他实现中，嵌入器106生成字符嵌入和/或短语嵌入。

上下文编码

编码器神经网络108是循环神经网络(RNN)，它将上下文信息合并到文档102a和问题104a中每个单词的表示中。在一个实现中，编码器神经网络108是标准的单向长短期记忆(LSTM)神经网络，其分别处理文档102a和问题104a，如下所示：

一种示例LSTM神经网络在Alex Graves的“用循环神经网络生成序列”中有更详细的描述，可从http://arxiv.org/abs/1308.0850v5获得。在其他实现中，编码器神经网络108是门控循环单元(GRU)神经网络。

文档编码矩阵和问题编码矩阵/> 产生文档102a和问题104a的隐藏状态表示，其中l是隐藏状态向量的维度。在一些实现中，使用了指针哨兵向量/>和/>这使得编码器神经网络108不关注(attend to)输入中的任何特定单词。为了允许文档编码空间和问题编码空间之间的变化，将非线性投影层应用于问题编码。因此，问题的最终表现变为：

使用编码矩阵，编码器神经网络108基于文档嵌入202生成文档102的包含文档隐藏状态向量的上下文编码212，并基于问题嵌入204为问题104a生成包含问题104a的隐藏状态向量/>的上下文编码214。本文将文档102a的上下文编码212称为“文档编码”。产生文档上下文编码的步骤由编码器神经网络108的文档编码器LSTM 1802实现。问题104a的上下文编码214在这里称为“问题编码”。产生问题上下文编码的步骤由编码器神经网络108的问题编码器LSTM 1804实现。第i个隐藏状态向量/>(例如/>)表示文档102a的第i个单词嵌入(例如/>)，以及来自文档102a的之前的单词嵌入(例如/>)的隐藏状态向量(例如/>)的一些上下文信息。类似地，第i个隐藏状态向量/>(例如/>)表示问题104a的第i个单词嵌入(例如/>)，以及来自问题104a的之前的单词嵌入(例如/>)的隐藏状态向量(例如/>)的一些上下文信息。

协同注意力机制

协同注意力机制同时关注(attend to)文档102a和问题104a，并最终融合了两种注意力上下文。隐藏状态比较器110使用点积对文档编码212和问题编码214进行比较，并输出具有逐文档的维度和逐问题的维度的亲和矩阵(affinity matrix)302，如下所示：

其中L_mn表示第m个文档单词和第n个问题单词之间的语言相似性。计算语言相似性嵌入的步骤由DCN 100的隐态比较器110来实现。

亲和矩阵302标识文档到问题的亲和分数和与所有文档单词和问题单词对相对应的问题到文档的亲和分数。文档到问题的亲和分数表示哪些问题单词与每个文档单词最相关。问题到文档的亲和分数表示哪些文档单词与问题单词之一最相似，因此对回答问题至关重要。在亲和矩阵302中，文档102a中的每个单词的文档到问题的亲和分数被标识为其上下文编码和问题编码214的点积。在亲和矩阵302的转置中，问题104a中的每个单词的问题到文档的亲和分数被标识为其上下文编码和文档编码212的点积。

指数归一化器112通过对文档到问题的亲和分数应用逐行的softmax函数402来逐文档地归一化亲和矩阵302，从而产生文档到问题的注意力权重(γ)404。指数归一化器还通过对问题到文档的亲和分数应用逐列的softmax函数602，从而产生问题到文档的注意力权重(μ)604。指数归一化的步骤由DCN 100的指数归一化器112来实现。指数归一化的文档到问题的注意力权重(γ)404和指数归一化的问题到文档的注意力权重(μ)604是注意力标量，其编码由所有文档单词和问题单词对之间的亲和分数计算出的语言相似性。沿着亲和矩阵302中的每一列的逐文档的注意力标量A^Q加和为一体(例如，从到/>)。沿着亲和矩阵302中的每一行的逐问题的注意力标量A^D加和为一体(例如，/>到/>)。注意力标量计算如下：

其中L^T表示亲和矩阵302的转置。

编码混合器114根据文档到问题的注意力权重(γ)404计算文档编码212的加权和。也就是说，文档编码212是逐元素地乘以亲和矩阵302中文档到问题的注意力权重(γ)404的每一列。通过将每个逐文档的注意力标量(例如414)乘以文档编码212中相应的隐藏状态向量(例如/>216)，编码混合器114确定每个文档单词参与计算与问题相关的文档102a(例如/>512)的上下文总结的程度。因此，文档102a的每个上下文总结向量/>表示文档102a中与问题104a相关的最重要单词的加权和。生成文档的上下文总结的步骤由编码混合器114的文档编码混合器1806实现。

类似地，编码混合器114根据问题到文档的注意力权重(μ)604计算问题编码214的加权和。也就是说，问题编码214是逐元素地乘以亲和矩阵302中问题到文档的注意力权重(μ)604的每一行。通过将每个逐问题的注意力标量(例如，614)乘以问题编码214中相应的隐藏状态向量(例如，/>218)，编码混合器114确定每个问题单词参与计算与文档102a相关的问题104a(例如，/>712)的上下文总结的程度。因此，问题104a的每个上下文总结向量都表示问题104a中与文档102a相关的最重要单词的加权和。生成问题的上下文总结的步骤由编码混合器114的问题编码混合器1808实现。

编码混合器114接着根据问题到文档的注意力权重(μ)604计算文档102a的上下文总结的加权和。也就是说，亲和矩阵302中的问题到文档的注意力权重(μ)604的每一行都逐元素地乘以文档102a的每个上下文总结/>通过将每个逐问题的注意力标量(例如/>614)乘以文档102a的相应上下文总结(例如/>512)，编码混合器114确定每个上下文总结参与计算文档102a(例如/>812)的与问题104a相关的改进的上下文总结的程度。因此，文档102a的每个改进的上下文总结向量/>都表示文档102a的与问题104a相关的最重要上下文总结的加权和。编码混合器114的重新关注器(reattender)1810实现了生成文档的改进的上下文总结的步骤。

编码混合器114接着将文档102a的改进的上下文总结与问题104a的上下文总结/>串联起来，以生成文档102a和问题104a的协同依赖表示作为协同注意力上下文/>902，其中每个协同注意力上下文向量都具有2l维度。接下来，为了减少更早总结造成的信息损失，编码混合器114逐元素地串联协同注意力上下文Y 902(例如Y₁ ^D912)与文档编码212(例如/>216)，以产生改进的协同注意力上下文/>1002，其中每个改进的协同注意力上下文向量都具有3l维度。然后改进的协同注意力上下文Z 1002作为输入被提供给协同注意力编码器116。产生双向逐文档的协同注意力编码的步骤由DCN 100的串联器1812和协同注意力编码器116实现。

协同注意力编码器116是一种双向LSTM，其通过沿正向方向和反向方向评估元素并产生协同注意力编码U 1102，融合了改进的协同注意力上下文Z 1002的元素之间的时间交互。协同注意力编码U 1102中的每个元素(例如u_t 1102t)表示针对问题104a编码的相应文档单词。协同注意力编码U 1102定义如下：

其中，协同注意力编码并为选择哪个可能是最可能的答案提供了基础。

解码

由于SQuAD的性质，一种产生答案跨度(answer span)的直观方法是通过预测范围的起点和终点。但是，给定问题-文档对，文档中可能存在几个直观的答案跨度，每个对应于一个局部最大值。为了解决这个问题，DCN 100使用迭代技术，通过预测文档中答案跨度的起点和终点来选择答案跨度。此迭代过程允许DCN 100从对应于错误答案跨度的初始局部最大值中恢复。

图12提供了解码器神经网络118的说明，该网络类似于状态机，其状态由基于LSTM的序列模型维护。在每次迭代期间，解码器神经网络118在考虑到与开始位置和结束位置的当前估计相对应的协同注意力编码的情况下更新其状态，并通过多层神经网络(如开始高速路最大输出网络120和结束高速路最大输出网络122)产生开始位置和结束位置的新估计。

令h_i、s_i、和e_i表示迭代i期间解码器神经网络118的隐藏状态、开始位置的估计和结束位置的估计。解码器神经网络118的状态更新描述如下：

其中和/>是对应于协同注意力编码U1102中开始位置和结束位置的之前估计的表示。

给定当前隐藏状态h_i、上一个开始位置和上一个结束位置/>DCN 100估计当前开始位置和结束位置如下：

s_i＝argmax(α₁,...,α_m)

e_i＝argmax(β₁,...,β_m)，

其中，α_t和β_t表示与文档102a中第t个单词对应的开始分数和结束分数。从逐文档的协同注意力编码产生的分数中选择文档中可能的开始位置和结束位置，从而产生当前估计的开始位置和结束位置的步骤，由解码器神经网络118的argmax模块1816实现。

使用开始高速路最大输出网络120计算开始分数α_t，如下所示：

使用结束高速路最大输出网络122计算结束分数β_t，如下所示：

在上述方程中，u_t是文档102a中与第t个单词对应的协同注意力编码。

高速路最大输出网络120和122都通过多层感知器(例如1302、1402)将当前隐藏状态h_i、之前的开始位置和之前的结束位置/>的非线性投影r作为输入。然后，网络120和122的第一最大输出层(例如1304、1404)组合被计分的每个位置u_t和非线性投影，并通过四个或更多线性模型处理每个组合，并从线性模型之一中选择最大输出/>然后，网络120和122的第二最大输出层(例如1306、1406)针对被计分的每个位置u_t通过四个或更多线性模型处理第一最大输出层的输出，并从线性模型之一中选择最大输出/>然后，第三最大输出层(例如1308、1408)针对被计分的每个位置u_t通过四个或更多线性模型处理第一和第二最大输出层的输出，并从线性模型之一中选择最大输出/>

高速路最大输出网络120和122的处理描述如下：

其中是具有参数/>的当前状态的非线性投影，m_t ^(l)是具有参数/>和/>的第一最大输出层的输出，并且/>是具有参数/>和/>的第二最大输出层的输出。/>和/>被馈送到具有参数/>和/>的最终最大输出层。p是每个最大输出层的池化大小。最大操作计算张量的第一维上的的最大值。此外，在第一最大输出层和最后一个最大输出层的输出之间存在高速路连接。

在实现中，高速路最大输出网络120和122共享相同的架构，但参数和超参数不同。在回应问题的文档中，输出短语的当前估计的开始位置和结束位置的步骤由解码器神经网络118的输出产生器1818实现。

为了训练DCN 100，在所有迭代中，起点和终点的累积softmax交叉熵被最小化。当开始位置的估计和结束位置的估计不再变化，或者达到最大迭代次数时，迭代程序停止。训练的步骤由DCN 100的训练器1820实现。

所公开的技术的其他实现包括使用不同于指数归一化器的、除指数归一化器以外的和/或与指数归一化器组合使用的归一化器。一些例子包括基于sigmoid的归一化器(例如，多类sigmoid、分段斜坡)、基于双曲正切的归一化器、基于整流线性单元(ReLU)的归一化器、基于识别的归一化器、基于逻辑的归一化器、基于正弦的归一化器、基于余弦的归一化器、基于单位和的归一化器和基于阶跃的归一化器。其他的例子包括分层的softmax、差分的softmax、重要性采样、噪声对比估计、负采样、门控softmax、球面softmax、泰勒softmax和稀疏最大值。在其他实现中，可以使用任何其他传统的或将来开发的归一化器。

实验结果

图15-图17是解码器神经网络118产生的开始条件分布和结束条件分布的示例。在图15-图17中，奇数(蓝色)行表示开始分布，偶数(红色)行表示结束分布。i指示解码器神经网络118的迭代次数。更高的概率质量由较暗的区域表示。与具有最高概率质量的单词对应的偏移显示在右侧。预测的跨度用红色下划线标出，真实(ground truth)答案跨度用绿色下划线标出。

例如，图15中的问题1演示了一个实例，其中模型最初猜测的起点和终点不正确。在随后的迭代中，DCN 100调整起点，最终到达迭代3中的正确起点。同样地，模型逐渐将终点的概率质量移位到正确的单词上。

图16中的问题2示出了一个示例，其中开始估计和结束估计最初都不正确。然后DCN 100在下一个迭代中确定正确的答案。而解码器神经网络118的迭代性质允许DCN 100避开与错误答案对应的初始局部最大值。图17中的问题3演示了一种情况，其中尽管经过多次迭代，DCN 100仍无法在多个局部最大值中作出决定。也就是说，DCN 100无限期地在“带电粒子束”和“粒子束武器”的答案之间交替。

具体实现

我们描述用于基于问题协同注意力地分析文档和基于文档回答问题的系统、方法和制造产品。实现的一个或更多个特征可以与基本实现相结合。不互斥的实现被教导是可组合的。实现的一个或更多个特征可以与其他实现相结合。本公开定期提醒用户这些选项。重复这些选项的记载的一些实现中省略了这些选项，不应被视为限制了前面几节中所教导的组合—这些记载在此通过引用被合并到下面的每一个实现中。

图18示出了可用于实现动态协同注意力网络(DCN)100(在本文中也称为“协同注意力问题解答系统”)的之前描述的组件模块。之前所述的DCN 100的模块或组件，例如嵌入器106、编码器神经网络108、隐藏状态比较器110、指数归一化器112、编码混合器114、协同注意力编码器116、解码器神经网络118、开始高速路最大输出网络120和结束高速路最大输出网络122可选地使用较小的模块化模块或组件进行描述，而不改变其工作原理或DCN100。

图18中的模块可以用硬件或软件实现，并且不需要按照图18所示的完全相同的框进行划分。一些模块也可以在不同的处理器或计算机上实现，或者分布在多个不同的处理器或计算机之间。此外，应了解的是，一些模块可以组合、并行或以与图18所示不同的顺序操作，而不会影响所实现的功能。此外，如本文所用，术语“模块”可包括“子模块”，其本身可在本文中被视为构成模块。例如，文档编码器LSTM 1802和问题编码器LSTM 1804在本文中可视为编码器神经网络108的子模块(在本文中也称为“编码器LSTM”或“编码器”)。在一个实现中，文档编码器LSTM 1802和问题编码器LSTM 1804不是两个单独的LSTM，而是分别应用于文档的同一单个LSTM和基于文档的问题。在一些实现中，可以复制这样的同一单个LSTM，以形成文档编码器LSTM 1802和问题编码器LSTM 1804，用于并发地编码文档和基于文档编码问题。在另一个示例中，文档编码混合器1806、问题编码混合器1808和重新关注器1810可在此视为编码混合器114的子模块。在另一个示例中，解码器LSTM、argmax模块1816和输出产生器1818在本文中可视为解码器神经网络118的子模块(在本文中也称为“解码器”)。图18中被指定为模块的框也可以被认为是方法中的流程图步骤。模块也不需要把它的所有代码连续地放在存储器中；代码的一些部分可以与代码的其他部分分离，将来自其他模块或其他函数的代码放在中间。

在一种实现中，所公开的技术包括协同注意力问答系统(在本文中也称为“动态协同注意力网络(DCN)100”)。系统运行在许多并行处理器上。系统基于问题分析文档，并基于文档回答问题。

系统包括文档编码器长短期记忆(缩写为LSTM)1802，用于通过多个LSTM门循环地处理文档单词嵌入和之前的文档上下文编码，并生成文档上下文编码。

系统包括问题编码器LSTM 1804，用于通过LSTM门循环地处理问题单词嵌入和之前的问题上下文编码，并生成问题上下文编码。

系统包括隐藏状态比较器110，用于确定文档和问题上下文编码对之间的逐对的语言相似性分数。在一些实现中，可以使用隐藏状态比较器应用的点积或双线性积来确定文档和问题上下文编码对之间的逐对的语言相似性分数。

系统包括文档编码混合器1806，用于生成文档上下文总结，作为由基于文档到问题的单词产生的指数归一化的分数序列缩放的文档上下文编码的凸组合。

系统包括问题编码混合器1808，用于生成问题上下文总结，作为由基于问题到文档的单词产生的指数归一化的分数序列缩放的问题上下文编码的凸组合。

系统包括重新关注器1810，用于生成重新关注的文档上下文总结，作为由基于问题到文档单词产生的指数归一化的分数序列缩放的文档上下文总结的凸组合。

系统包括协同注意力编码器双向LSTM(此处也称为“协同注意力编码器116”)，用于通过多个LSTM门循环地处理前向方向和后向方向的串联的输入和之前的文档协同注意力编码，并生成文档协同注意力编码。在一些实现中，串联的输入包括重新关注的文档上下文总结、问题上下文总结和文档上下文编码。系统还包括串联器1812，用于串联重新关注的文档上下文总结、问题上下文总结和文档上下文编码的相应元素。

系统包括解码器(在本文中也称为“解码器神经网络118”)，用于通过高速路最大输出网络(例如开始高速路最大输出网络120和/或结束高速路最大输出网络122)迭代地处理文档协同注意力编码、在之前估计的开始位置和结束位置处的文档注意力编码和解码器LSTM 1814的当前解码器隐藏状态的组合，以针对可能的开始位置和可能的结束位置对文档协同注意力编码计分。

解码器进一步包括argmax模块1816，用于在高速路最大输出网络生成的可能分数中进行选择，并产生当前估计的开始位置和结束位置。解码器还包括输出产生器1818，用于在达到终止条件时输出回答该问题的文档短语。文档短语包括当前估计的开始位置和结束位置处及其内的文档单词。

本系统实现和可选地公开的其他系统包括一个或更多个下列特征。系统还可以包括与公开的方法相关描述的特征。为了简洁起见，不单独列举系统特征的可选组合。适用于系统、方法和制造产品的特征不会重复用于基本特征的每个法定类别集合。读者将理解本部分中识别的特征如何容易地与其他法定类别中的基本特征相结合。

系统还包括解码器LSTM 1814，用于基于之前的解码器隐藏状态和之前估计的开始位置和结束位置处的文档注意力编码进一步生成当前的解码器隐藏状态。

系统还包括高速路最大输出网络、第一最大输出层、第二最大输出层和第三最大输出层，所述高速路最大输出网络用于通过将之前估计的开始位置和结束位置处的当前解码器隐藏状态和文档注意力编码投影到非线性投影中的线性层进一步处理用于文档中位置的文档协同注意力编码，，所述第一最大输出层用于将被计分的每个位置与非线性投影相结合，并通过四个或更多个线性模型对每个组合进行处理，以从线性模型之一中选择最大输出，所述第二最大输出层用于通过四个或更多线性模型针对被计分的每个位置处理第一最大输出层的输出，以从线性模型之一中选择最大输出，以及第三最大输出层用于通过四个或更多线性模型针对被计分的每个位置处理第一最大输出层和第二最大输出层的输出，以从线性模型之一中选择最大输出。

在一些实现中，当当前估计的开始位置和结束位置与之前估计的开始位置和结束位置匹配时，可以达到终止条件。在其他实现中，当达到最大迭代次数时，可以达到终止条件。

系统还包括训练器1820，用于通过最小化训练示例上所有迭代的开始位置和结束位置的估计中的累积损失来训练文档编码器LSTM 1802、问题编码器LSTM 1804、协同注意力编码器双向LSTM、解码器LSTM 1814和高速路最大输出网络。在一些实现中，训练器可以使用基于反向传播的softmax交叉熵来确定累积损失。

系统还包括解码器，用于进一步基于argmax模块1816对可能分数的最大分数的选择，进一步产生当前估计的开始位置和结束位置。

系统还包括协同注意力编码器双向LSTM，用于进一步处理正向方向的串联的输入并生成正向输出，用于进一步处理反向方向的串联的输入并生成反向输出，以及用于进一步串联正向输出和反向输出以生成文档协同注意力编码。

其他实现可包括非暂存性计算机可读存储介质，存储处理器可执行的指令，以执行上述系统的操作。

在另一实现中，所公开的技术包括协同注意力问答系统(在本文中也称为“动态协同注意力网络(DCN)100”)。系统在许多并行处理器上运行。系统基于问题分析文档，并基于文档回答问题。

系统包括隐藏状态比较器110，用于确定由文档编码器长短期记忆(LSTM)1802和问题编码器LSTM 1804循环地生成的文档和问题上下文编码对之间的逐对的语言相似性分数。在一些实现中，可以使用隐藏状态比较器应用的点积或双线性积来确定文档和问题上下文编码对之间的逐对的语言相似性分数。

系统包括文档编码混合器1806，用于使用文档到问题的逐单词的语言相似性分数关注文档上下文编码，并以问题上下文编码为条件生成文档上下文总结。

系统包括问题编码混合器1808，用于使用问题到文档的逐单词的语言相似性分数关注问题上下文编码，并以文档上下文编码为条件生成问题上下文总结。

系统包括重新关注器1810，用于使用问题到文档的逐单词的语言相似性分数关注文档上下文总结，并重新以问题上下文编码为条件生成重新关注的文档上下文总结。

系统包括协同注意力编码器双向LSTM(在本文中也称为“协同注意力编码器116”)，用于循环地和双向地处理重新关注的文档上下文总结、问题上下文总结和文档上下文编码的串联，并生成文档协同注意力编码。

系统包括解码器(在本文中也称为“解码器神经网络118”)解码器，其用于使用解码器LSTM 1814和高速路最大输出网络(例如，开始高速路最大输出网络120和/或结束高速路最大输出网络122)迭代地处理文档协同注意力编码，并输出回答问题的文档短语。

在第一系统实现的这个特定实现部分中讨论的每个特征都同样适用于这个系统实现。如上所述，这里并没有重复所有的系统特征，而应该被认为是通过引用进行了重复。

其他实现可包括非暂存性计算机可读存储介质，存储处理器可执行的指令以执行上述系统的操作。

在另一个实现中，所公开的技术提出了基于问题协同注意力地分析文档并基于文档回答问题的方法。

方法包括确定由文档编码器长短期记忆(缩写为LSTM)1802和问题编码器LSTM1804循环地生成的文档和问题上下文编码对之间的逐对的语言相似性分数。

方法包括使用文档到问题的逐单词的语言相似性分数来关注文档上下文编码，并生成以问题上下文编码为条件的文档上下文总结。

方法包括使用问题到文档的语言相似性分数来关注问题上下文编码，并生成以文档上下文编码为条件的问题上下文总结。

方法包括使用问题到文档的逐单词的语言相似性分数来关注文档上下文总结，并生成重新以问题上下文编码为条件的重新关注的文档上下文总结。

方法包括循环地和双向地处理重新关注的文档上下文总结、问题上下文总结和文档上下文编码的串联，并生成文档协同注意力编码。

方法包括使用解码器LSTM 1814和高速路最大输出网络(例如，开始高速路最大输出网络120和/或结束高速路最大输出网络122)迭代地处理文档协同注意力编码，并输出回答该问题的文档短语。

该特定实现部分中讨论的针对第一系统实现的每个特征都同样适用于这个方法实现。如上所述，这里并没有重复所有的系统特性，并且应该被认为是通过引用来重复。

其他实现可以包括非暂存性计算机可读存储介质(CRM)，它存储处理器可执行的指令以执行上述方法。另一种实现可以包括包含存储器和一个或更多个处理器的系统，所述处理器可用于执行存储在存储器中的指令以执行上述方法。

在一种实现中，所公开的技术包括协同注意力问答系统(在本文中也称为“动态协同注意力网络(DCN)100”)。系统在许多并行处理器上运行。系统基于文档回答问题。

系统包括编码器长短期记忆(缩写为LSTM)(在本文中也称为“编码器神经网络108”)，其为单词序列发出上下文编码。当应用于文档中的第一单词序列时，编码器LSTM为文档产生上下文编码的第一序列。当应用于问题中的第二单词序列时，编码器LSTM为文档产生上下文编码的第一序列，并应用于该问题的上下文编码的第二序列。

系统包括隐藏状态比较器110，其确定第一序列和第二序列中上下文编码之间的语言相似性，并产生逐对的语言相似性分数。

系统包括编码混合器114，其发出以另一上下文编码的单词为条件的一上下文编码的上下文总结序列。当使用相似度分数应用于以问题的上下文编码的第二序列为条件的文档的上下文编码的第一序列时，编码混合器114产生文档的以问题单词为条件的第一上下文总结序列。当使用相似度分数应用于以文档的上下文编码的第一序列为条件的问题的上下文编码的第二序列时，编码混合器114产生问题的以文档单词为条件的第二上下文总结序列。当使用相似度分数重新应用于以文档的上下文编码的第一序列为条件的文档的第一上下文总结序列时，编码混合器114产生文档的第三重关注的上下文总结序列。

系统包括协同注意力编码器双向LSTM(在本文中也称为“协同注意力编码器116”)，其沿正向方向和反向方向循环地处理串联的输入和之前的文档协同注意力编码，以生成文档协同注意力编码。串联的输入包括文档的第三重关注的上下文总结序列、问题的第二上下文总结序列和文档的上下文编码的第一序列。

系统包括解码器(在本文中也称为“解码器神经网络118”)，其通过高速路最大输出网络(例如开始高速路最大输出网络120和/或结束高速路最大输出网络122)迭代地处理文档协同注意力编码、在之前估计的开始位置和结束位置处的文档注意力编码以及解码器LSTM 1814的当前解码器隐藏状态的组合，以为可能的开始位置和可能的结束位置的文档协同注意力编码计分。解码器在高速路最大输出网络生成的可能分数中进行选择，以产生当前估计的开始位置和结束位置。当达到终止条件时，解码器输出文档短语，该文档短语回答问题，并包括当前估计的开始位置和结束位置处及其内的文档单词。

所公开的技术的一种方法实现包括构建机器用来阅读和理解文档的模型，并基于该模型回答问题。动态协同注意力网络(DCN)100的协同注意力问答系统实现了阅读和理解文档以及基于文档回答问题的这些步骤。

方法包括将文档和问题嵌入到单词嵌入空间中。这些嵌入步骤由DCN 100的嵌入器106实现。

方法包括向编码器LSTM提供文档嵌入和问题嵌入，以产生文档上下文编码和问题上下文编码。产生文档上下文编码的步骤由编码器神经网络108的文档编码器LSTM 1802实现。产生问题上下文编码的步骤由编码器神经网络108的问题编码器LSTM 1804实现。

方法包括计算文档和问题的上下文编码之间的语言相似性，以产生具有逐文档和逐问题维度的亲和矩阵。DCN 100的隐藏状态比较器110实现了计算语言相似性嵌入的步骤。

方法包括对亲和矩阵逐文档和逐问题地进行指数归一化，以产生各自的文档到问题的注意力权重和问题到文档的注意力权重。指数归一化的步骤由DCN 100的指数归一化器112表示。

方法包括将文档上下文编码与文档到问题的注意力权重相结合，并进一步与问题到文档的注意力权重相结合，以生成文档的上下文总结。生成文档的上下文总结的步骤由编码混合器114的文档编码混合器1806实现。编码混合器114的重新关注器1810实现了生成改进的文档上下文总结的步骤。

方法包括将问题上下文编码与问题到文档的注意力权重相结合，以生成问题的上下文总结。生成问题上下文总结的步骤由编码混合器114的问题编码混合器1808实现。

方法包括向双向LSTM提供文档和问题的上下文总结以及文档上下文编码，从而产生双向逐文档的协同注意力编码。产生双向逐文档的协同注意力编码的步骤由DCN 100的串联器1812和协同注意力编码器116实现。

该方法实现和所公开的其他方法可选地包括以下一个或更多个特征。方法还可以包括关于所公开的方法描述的特征。为了简洁起见，不单独列举方法特征的可选组合。适用于方法、系统和制造产品的特征不会针对每个法定的基本特性类集重复。读者将理解本部分中标识的特征如何容易地与其他法定类中的基本特征相结合。

方法还包括，在一次或更多次迭代中，分析双向的逐文档的协同注意力编码，以生成逐文档的隐藏状态。这还包括使用解码器LSTM 1814，其在第二次和随后的迭代期间考虑来自紧接在前的迭代的用于逐文档的隐藏状态和之前产生的估计的开始位置和结束位置的结果。方法还包括通过应用单独的开始计分和结束计分分数函数对可能的开始位置和可能的结束位置计分。方法还包括针对文档中可能的开始位置和结束位置从逐文档的协同注意力编码产生的分数之中进行选择，以产生当前估计的开始位置和结束位置。针对文档中可能的开始位置和结束位置从逐文档的协同注意力编码产生的分数之中进行选择以产生当前估计的开始位置和结束位置的步骤由解码器神经网络118的argmax模块1816实现。

方法还包括，在达到终止条件时，输出文档中响应于问题的短语的当前估计的开始位置和结束位置。输出文档中响应于问题的短语的当前估计的开始位置和结束位置的步骤由解码器神经网络118的输出产生器1818实现。

当短语的当前估计的开始位置和结束位置与之前估计的开始位置和结束位置匹配时，可以达到终止条件。当达到最大迭代次数时，可以达到终止条件。

单独的计分函数适用于单独训练的高速路最大输出网络，该网络通过线性层、第一最大输出层、第二最大输出层和第三最大输出层处理文档中位置的逐文档的协同注意力编码，该线性层将逐文档的隐藏状态和估计的开始位置和结束位置从紧接在前的迭代投影到非线性投影，第一最大输出层将每个被计分的位置与非线性投影相结合，并通过四个或更多线性模型处理每个组合，并从线性模型之一中选择最大输出，第二最大输出层针对每个被计分的位置，通过四个或更多线性模型处理第一最大输出层的输出，并从线性模型之一中选择最大输出，第三最大输出层针对被计分的每个位置，通过四个或更多线性模型处理第一和第二最大输出层的输出，并从线性模型之一中选择最大输出。

方法还包括通过最小化训练示例上所有迭代的开始位置和结束位置的估计中的累积损失来训练编码器LSTM、双向LSTM、解码器LSTM和高速路最大输出网络。累积损失可使用softmax交叉熵确定。训练步骤由DCN 100的训练器1820实现。

在用于第一个系统实现的这个特定实现部分中讨论的每个特征都同样适用于这个方法实现。如上所述，此处没有重复所有系统特征，并且应视为通过引用进行了重复。

其他实现可以包括非暂存性计算机可读存储介质(CRM)，其存储处理器可执行的指令以执行上述方法。然而，另一种实现可以包括包含存储器和一个或更多个处理器的系统，所述处理器可操作为执行存储在存储器中的指令，以执行上述方法。

所公开技术的系统实现包括神经网络系统。

神经网络系统包括编码器神经网络，其生成文档和问题的上下文编码。

神经网络系统包括隐藏状态比较器，其使用文档上下文编码和问题上下文编码中位置之间的语言相似性分析来生成亲和矩阵，所述亲和矩阵具有逐文档的和逐问题的维度。

神经网络系统包括指数归一化器，其逐文档地和逐问题地将亲和矩阵归一化，以产生各自的文档到问题的注意力权重和问题到文档的注意力权重。

神经网络系统包括编码混合器，其将文档上下文编码与文档到问题的注意力权重相结合，并进一步与问题到文档的注意力权重相结合，以生成文档的上下文总结，并将问题上下文编码和所述问题到文档的注意力权重相结合，以生成问题的上下文总结。

神经网络系统包括协同注意力编码器，其将文档和问题的上下文总结以及文档上下文编码作为输入，以产生逐文档的协同注意力编码。

神经网络系统包括解码器神经网络，其分析逐文档的协同注意力编码以生成逐文档的隐藏状态。解码器神经网络还使用解码器LSTM，其在第二次和后续迭代期间考虑来自逐文档的隐藏状态和之前产生的估计的开始位置和结束位置的紧接的前一次迭代的结果。解码器神经网络通过应用单独的开始计分函数和结束计分函数依次对可能的开始位置和可能的结束位置计分。解码器神经网络从文档中可能的开始位置和结束位置的逐文档的协同注意力编码产生的分数中选择，以产生当前估计的开始位置和结束位置。在达到终止条件时，解码器神经网络输出文档中响应于问题的短语的当前估计的开始位置和结束位置。

在这个特定实现部分中针对之前的方法和系统实现所讨论的每个特征都同样适用于此系统实现。如上所述，这里没有重复所有的方法和系统特征，而应该被认为是通过引用而重复。

其他实现可以包括非暂存性计算机可读存储介质，其存储处理器可执行的指令以执行上述系统的操作。

计算机系统

图19是计算机系统1900的简化框图，其可用于实现动态协同注意力网络(DCN)100。计算机系统1900包括至少一个中央处理器(CPU)1924，其经由总线子系统1922与多个外围设备通信。这些外围设备可以包括存储子系统1910，其包括例如存储器设备和文档存储子系统1918、用户接口输入设备1920、用户接口输出设备1928和网络接口子系统1926。输入设备和输出设备允许用户与计算机系统1900交互。网络接口子系统1926提供了到外部网络的接口，包括到其他计算机系统中相应接口设备的接口。

在一个实现中，DCN 100与存储子系统1910和用户接口输入设备1920通信链接。

用户接口输入设备1920可以包括键盘；定点设备，例如鼠标、轨迹球、触摸板或图形板；扫描仪；集成到显示器中的触摸屏；音频输入设备，如语音识别系统和麦克风；以及其他类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入计算机系统1900的所有可能类型的设备和方法。

用户接口输出设备1928可以包括显示子系统、打印机、传真机或非可视显示器，如音频输出设备。显示子系统可包括阴极射线管(CRT)、平板设备，例如液晶显示器(LCD)、投影设备或用于创建可视图像的一些其他机制。显示子系统还可以提供非可视显示，例如音频输出设备。一般而言，术语“输出设备”的使用旨在包括将信息从计算机系统1900输出给用户或其他机器或计算机系统的所有可能类型的设备和方法。

存储子系统1910存储编程和数据结构，其提供本文所述的部分或全部模块和方法的功能。这些软件模块通常由深度学习处理器1930执行。

深度学习处理器1930可以是图形处理单元(GPU)或现场可编程门阵列(FPGA)。深度学习处理器1930可以由深度学习云平台托管，如Google Cloud Platform^TM、Xilinx^TM和Cirrascale^TM。深度学习处理器1930的例子包括Google的张量处理单元(TPU)^TM、机架式解决方案例如GX4机架式系列^TM、GX8机架式系列^TM、NVIDIA DGX-1^TM、微软的Stratix V FPGA^TM,Graphcore的智能处理器单元(IPU)^TM、采用骁龙处理器^TM的高通的Zeroth平台^TM,NVIDIA的Volta^TM、NVIDIA的DRIVE PX^TM、NVIDIA的JETSON TX1/TX2MODULE^TM、英特尔的Nirvana^TM、Movidius VPU^TM、富士通DPI^TM、ARM的DynamicIQ^TM、IBM的TrueNorth^TM等等。

存储子系统1910中使用的存储器子系统1912可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1914和存储固定指令的只读存储器(ROM)1916。文件存储子系统1918可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关的可移除介质、CD-ROM驱动器、光盘驱动器或可移除的介质盒。实现某些实现的功能的模块可以由文件存储子系统1918存储在存储子系统1910中，也可以存储在处理器可访问的其他机器中。

总线子系统1922提供了允许计算机系统1900的各个组件和子系统按预期相互通信的机制。尽管总线子系统1922示意性地显示为单个总线，但是总线子系统的可选实现可以使用多个总线。

计算机系统1900自身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、一组分布广泛的松散联网计算机或任何其他数据处理系统或用户设备。由于计算机和网络不断变化的性质，图19中描述的计算机系统1900的描述仅意图作为说明本发明的优选实施例的具体示例。计算机系统1900的许多其他配置可能具有比图19所示的计算机系统更多或更少的组件。

为了使能所公开的技术的制造和使用而提出了上述描述。所公开的实现的各种修改将是显而易见的，并且本文定义的一般原则可适用于其他实现和应用，而不背离所公开技术的精神和范围。因此，所公开的技术不意图限于所示的实现，而是应被给予与本文所公开的原则和特征一致的最广泛的范围。所公开的技术的范围由所附的权利要求书限定。根据ICLR 2017在审核的会议论文《用于问答的动态协同注意力网络》，熊蔡明，维克多.钟，理查德.佐赫尔，易享研究中心，帕罗奥图(市)，美国加利福尼亚州94301，{cxiong,vzhong,rsocher}@salesforce.com，通过引用并入本文。

Claims

1.一种在许多并行处理器上运行的、基于问题分析文档并基于所述文档回答所述问题的协同注意力问答系统，包括：

文档编码器长短期记忆LSTM，用于通过多个LSTM门循环地处理文档单词嵌入和之前的文档上下文编码，并生成文档上下文编码；

问题编码器LSTM，用于通过所述LSTM门循环地处理问题单词嵌入和之前的问题上下文编码，并生成问题上下文编码；

隐藏状态比较器，用于确定文档和问题上下文编码对之间的逐对的语言相似性分数；

文档编码混合器，用于生成文档上下文总结，作为由基于文档到问题单词产生的指数归一化分数序列缩放的文档上下文编码的凸组合；

问题编码混合器，用于生成问题上下文总结，作为由基于问题到文档单词产生的指数归一化分数序列缩放的问题上下文编码的凸组合；

重新关注器，用于生成重关注的文档上下文总结，作为由基于问题到文档单词产生的指数归一化分数序列缩放的文档上下文总结的凸组合；

协同注意力编码器双向LSTM，用于通过多个LSTM门在正向方向和反向方向循环性地处理串联的输入和之前的文档协同注意力编码，并生成文档协同注意力编码，其中所述串联的输入包括所述重关注的文档上下文总结、所述问题上下文总结和所述文档上下文编码；以及

解码器，用于通过高速路最大输出网络迭代地处理文档协同注意力编码、之前估计的开始和结束位置处的文档注意力编码以及解码器LSTM的当前解码器隐藏状态的组合，以依次为可能的开始位置和可能的结束位置的文档协同注意力编码计分，所述解码器还包括：

argmax模块，用于在所述高速路最大输出网络生成的可能分数中进行选择，并产生当前估计的开始位置和结束位置；以及

输出产生器，用于在达到终止条件时输出回答所述问题的文档短语，其中所述文档短语包括所述当前估计的开始位置和结束位置处以及其内的文档单词。

2.如权利要求1所述的协同注意力问答系统，进一步包括所述解码器LSTM，用于基于之前的解码器隐藏状态和之前估计的开始位置和结束位置处的文档注意力编码进一步生成所述当前解码器隐藏状态。

3.如权利要求1所述的协同注意力问答系统，进一步包括所述高速路最大输出网络，用于进一步处理所述文档中位置的所述文档协同注意力编码，通过：

线性层，用于将所述当前解码器隐藏状态和所述之前估计的开始位置和结束位置的文档注意力编码投影成非线性投影；

第一最大输出层，用于将被计分的每个位置与所述非线性投影相结合，并通过四个或更多个线性模型处理每个组合，以从所述线性模型之一中选择最大输出；

第二最大输出层，用于针对被计分的每个位置，通过四个或更多个线性模型处理所述第一最大输出层的输出，以从所述线性模型之一中选择最大输出；以及

第三最大输出层，用于针对被计分的每个位置，通过四个或更多个线性模型处理所述第一最大输出层和所述第二最大输出层的输出，以从所述线性模型之一中选择最大输出。

4.如权利要求1所述的协同注意力问答系统，其中当所述当前估计的开始位置和结束位置与所述之前估计的开始位置和结束位置匹配时，达到所述终止条件。

5.如权利要求1所述的协同注意力问答系统，其中，当达到最大迭代次数时，达到所述终止条件。

6.如权利要求1-5中任一项所述的协同注意力问答系统，进一步包括训练器，用于通过最小化在训练示例的所有迭代中开始位置和结束位置的估计的累积损失来训练所述文档编码器LSTM、所述问题编码器LSTM、所述协同注意力编码器双向LSTM、所述解码器LSTM和所述高速路最大输出网络。

7.如权利要求6所述的协同注意力问答系统，其中所述累积损失由所述训练器使用基于后向传播的softmax交叉熵来确定。

8.如权利要求1-5中任一项所述的协同注意力问答系统，其中，使用所述隐藏状态比较器应用的点积或双线性积来确定文档和问题上下文编码对之间的所述逐对的语言相似性分数。

9.如权利要求1-5中任一项所述的协同注意力问答系统，进一步包括所述解码器，用于基于所述argmax模块对所述可能分数的最大分数的选择，进一步产生所述当前估计的开始位置和结束位置。

10.如权利要求1-5中任一项所述的协同注意力问答系统，进一步包括协同注意力编码器双向LSTM，用于进一步处理正向方向的所述串联的输入并生成正向输出，用于进一步处理反向方向的所述串联的输入并生成反向输出，以及用于进一步将所述正向输出和反向输出串联起来，以生成所述文档协同注意力编码。

11.一种在许多并行处理器上运行的、基于问题分析文档并基于所述文档回答所述问题的协同注意力问答系统，包括：

隐藏状态比较器，用于确定由文档编码器长短期记忆LSTM和问题编码器LSTM循环地生成的文档和问题上下文编码对之间的逐对的语言相似性分数；

文档编码混合器，用于使用文档到问题的逐单词的语言相似性分数来关注所述文档上下文编码，并以所述问题上下文编码为条件生成文档上下文总结；

问题编码混合器，用于使用问题到文档的逐单词的语言相似性分数来关注所述问题上下文编码，并以所述文档上下文编码为条件生成问题上下文总结；

重新关注器，用于使用问题到文档的逐单词的语言相似性分数来关注所述文档上下文总结，并重新以所述问题上下文编码为条件生成重关注的文档上下文总结；

协同注意力编码器LSTM，用于循环地和双向地处理所述重关注的文档上下文总结、所述问题上下文总结和所述文档上下文编码的串联，并生成文档协同注意力编码；以及

解码器，用于使用通过高速路最大输出网络迭代地处理所述文档协同注意力编码、之前估计的开始位置和结束位置处的文档注意力编码以及所述解码器LSTM的当前解码器隐藏状态的组合，以依次为可能的开始位置和可能的结束位置的所述文档协同注意力编码计分，所述解码器还包括：

argmax模块，用于在所述高速路最大输出网络所生成的可能分数中进行选择，并产生当前估计的开始位置和结束位置；以及

输出产生器，用于在达到终止条件时，输出包含当前估计的开始位置和结束位置处及其内的文档单词的所述文档短语。

12.如权利要求11所述的协同注意力问答系统，进一步包括文档编码器LSTM和问题编码器LSTM，所述文档编码器LSTM用于通过多个LSTM门进一步循环地处理文档单词嵌入和之前的文档上下文编码，并生成所述文档上下文编码，所述问题编码器LSTM用于通过所述LSTM门进一步循环地处理问题单词嵌入和之前的问题上下文编码，并生成所述问题上下文编码。

13.如权利要求11所述的协同注意力问答系统，进一步包括所述文档编码混合器，用于进一步生成所述文档上下文总结，作为由基于文档到问题单词产生的指数归一化的分数序列所缩放的所述文档上下文编码的凸组合，进一步包括所述问题编码混合器，用于进一步生成所述问题上下文总结，作为由基于问题到文档单词产生的指数归一化的分数序列所缩放的所述问题上下文编码的凸组合，并且进一步包括重新关注器，用于进一步生成所述重关注的文档上下文总结，作为由基于问题到文档单词产生的指数归一化的分数序列所缩放的所述文档上下文总结的凸组合。

14.如权利要求11所述的协同注意力问答系统，进一步包括串联器，用于串联所述重关注的文档上下文总结、所述问题上下文总结和所述文档上下文编码的相应元素。

15.如权利要求11所述的协同注意力问答系统，进一步包括协同注意力编码器双向LSTM，用于进一步处理正向方向的所述串联并生成正向输出，用于进一步处理反向方向的所述串联并生成反向输出，以及用于进一步串联所述正向输出和反向输出并生成所述文档协同注意力编码。

16.如权利要求11所述的协同注意力问答系统，进一步包括所述解码器LSTM，用于基于之前的解码器隐藏状态和之前估计的开始位置和结束位置处的所述文档注意力编码进一步生成所述当前解码器隐藏状态。

17.如权利要求11所述的协同注意力问答系统，进一步包括所述高速路最大输出网络，用于进一步处理针对所述文档中位置的所述文档协同注意力编码，通过：

线性层，用于将所述当前解码器隐藏状态和之前估计的开始位置和结束位置处的文档注意力编码投影成非线性投影；

18.如权利要求11所述的协同注意力问答系统，其中当所述当前估计的开始位置和结束位置与所述之前估计的开始位置和结束位置匹配时，达到所述终止条件。

19.如权利要求11所述的协同注意力问答系统，其中，当达到最大迭代次数时，达到所述终止条件。

20.如权利要求11-19中任一项所述的协同注意力问答系统，进一步包括训练器，用于通过最小化在训练示例的所有迭代中开始位置和结束位置的估计的累积损失来训练所述文档编码器LSTM、所述问题编码器LSTM、所述协同注意力编码器双向LSTM、所述解码器LSTM和所述高速路最大输出网络。

21.如权利要求20所述的协同注意力问答系统，其中所述累积损失由所述训练器使用基于后向传播的softmax交叉熵来确定。

22.如权利要求11-19中任一项所述的协同注意力问答系统，其中，由所述隐藏状态比较器使用点积来确定所述文档和问题上下文编码对之间的所述逐对的语言相似性分数。

23.如权利要求11-19中任一项所述的协同注意力问答系统，进一步包括所述解码器，用于基于所述argmax模块对所述可能分数的最大分数的选择，进一步产生所述当前估计的开始位置和结束位置。

24.一种基于问题协同注意地分析文档并基于所述文档回答所述问题的计算机实现的方法，包括：

确定由文档编码器长短期记忆LSTM和问题编码器LSTM循环地生成的文档和问题上下文编码对之间的逐对的语言相似性分数；

使用文档到问题的逐单词的语言相似性分数来关注所述文档上下文编码，并以所述问题上下文编码为条件生成文档上下文总结；

使用问题到文档的逐单词的语言相似性分数来关注所述问题上下文编码，并以所述文档上下文编码为条件生成问题上下文总结；

使用问题到文档的逐单词的语言相似性分数来关注所述文档上下文总结，并重新以所述问题上下文编码为条件生成重关注的文档上下文总结；

循环地和双向地处理所述重关注的文档上下文总结、所述问题上下文总结和所述文档上下文编码的串联，并生成文档协同注意力编码；以及

使用通过高速路最大输出网络迭代地处理所述文档协同注意力编码、之前估计的开始位置和结束位置处的文档注意力编码以及解码器LSTM的当前解码器隐藏状态的组合，以依次为可能的开始位置和可能的结束位置的所述文档协同注意力编码计分，所述解码器还包括：

25.一种包含计算机程序指令的非暂存性计算机可读存储介质，用于基于问题协同注意地分析文档，并基于所述文档回答所述问题，所述指令当在许多并行处理核心上执行时实现方法，所述方法包括：

26.一种在许多并行处理器上运行的、基于文档回答问题的协同注意力问答系统，包括：

编码器长短期记忆LSTM，其针对单词序列发出上下文编码，应用于所述文档中的第一单词序列，并应用于所述问题中的第二单词序列，为所述文档产生上下文编码的第一序列，并为所述问题产生上下文编码的第二序列；

隐藏状态比较器，用于确定所述第一序列和所述第二序列中的所述上下文编码之间的语言相似性，并产生逐对的语言相似性分数；

编码混合器，其发出用于以另一上下文编码的单词为条件的一个上下文编码的上下文总结序列，应用于以使用所述相似性分数的所述问题的上下文编码的所述第二序列为条件的文档的上下文编码的所述第一序列，以产生以问题单词为条件的所述文档的第一上下文总结序列，应用于以使用所述相似性分数的所述文档的上下文编码的所述第一序列为条件的问题的上下文编码的所述第二序列，以产生以文档单词为条件的所述问题的第二上下文总结序列，以及以使用所述相似性分数的所述文档的上下文编码的所述第一序列为条件重新应用于所述文档的所述第一上下文总结序列，以产生所述文档的第三重关注的上下文总结序列；

协同注意力编码器双向LSTM，其循环地处理正向方向和反向方向的串联的输入和之前的文档协同注意力编码，以生成文档协同注意力编码，其中所述串联的输入包括所述文档的所述第三重关注的上下文总结序列，所述问题的所述第二上下文总结序列以及所述文档的上下文编码的所述第一序列；以及

解码器，其通过高速路最大输出网络迭代地处理所述文档协同注意力编码、之前估计的开始位置和结束位置处的文档注意力编码以及解码器LSTM的当前解码器隐藏状态的组合，以依次为可能的开始位置和可能的结束位置的文档协同注意力编码计分，在所述高速路最大输出网络生成的可能分数中进行选择，以产生当前估计的开始位置和结束位置，以及，在达到终止条件时输出回答所述问题并且包括所述当前估计的开始位置和结束位置处以及其内的文档单词的文档短语。