CN114450681A

CN114450681A - 文档间注意力机制

Info

Publication number: CN114450681A
Application number: CN202080067489.8A
Authority: CN
Inventors: 熊辰炎; 赵晨; C·L·罗赛特; P·N·本内特; 宋夏; S·K·蒂瓦里
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-09-25
Filing date: 2020-06-18
Publication date: 2022-05-06
Also published as: US20220374479A1; US11423093B2; US20210089594A1; WO2021061233A1

Abstract

本文档涉及使用诸如神经网络的框架的自然语言处理。一个示例方法涉及获取第一文档和第二文档，并且将注意力从第一文档传播到第二文档。该示例方法还涉及至少基于该传播来产生第二文档中的单独单词的上下文化的语义表示。上下文化的语义表示可以提供用于执行一个或多个自然语言处理操作的基础。

Description

文档间注意力机制

背景技术

搜索引擎相当擅长响应许多不同类型的查询。例如，现有的搜索算法针对大多数查询提供了良好的精确度和针对查询的召回，即，由搜索返回的文档通常与查询相关，并且遗漏的相关文档相对较少。然而，在某些情况下，不一定在针对搜索查询返回的单个文档中找到查询的回答。准确回答涉及对多个不同文档进行推理的查询的努力具有有限的成功。

发明内容

提供本发明内容是为了以简化形式介绍一组概念，这些概念将在下面的详细描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

本说明书一般涉及用于自然语言处理的技术。一个示例包括可以在计算设备上执行的方法或技术。该方法或技术可以包括接收查询并取回与该查询相关的多个结果文档。该方法或技术还可以包括通过链接单独结果文档来建立证据图。该方法或技术还可以包括通过从被链接到证据图中的第二结果文档的第一结果文档传播文档间注意力，来获取针对第二结果文档中的单独单词的上下文化的语义表示。该方法或技术还可以包括使用机器学习模型处理第二结果文档中的单个单词的上下文化的语义表示，以获取对查询的回答。该方法或技术还可以包括输出响应于查询的回答。

另一示例包括存储计算机可读指令的计算机可读存储介质，计算机可读指令在由硬件处理单元执行时，使硬件处理单元执行动作。动作可以包括获取第一文档和第二文档。动作还可以包括将注意力从第一文档传播到第二文档。动作还可以包括至少基于该传播来产生第二文档中的单独单词的上下文化的语义表示。上下文化的语义表示可以提供用于执行一个或多个自然语言处理操作的基础。

另一示例包括具有硬件处理单元和存储计算机可读指令的存储资源的系统。计算机可读指令当由硬件处理单元执行时，可以使硬件处理单元接收查询。计算机可读指令还可以使硬件处理单元响应于该查询而获取多个搜索结果，并使用具有文档间注意力机制的转换器来处理该多个搜索结果，以获取对该查询的回答。计算机可读指令还可以使硬件处理单元用该回答来响应查询。

上面列出的示例旨在提供快速参考以帮助读者，而不是为了定义在此描述的概念的范围。

附图说明

参照附图描述具体实施方式。在附图中，附图标记的(多个)最左边的数字标识附图标记首次出现的附图。在说明书和附图中的不同情况下使用相似的附图标记可以表示相似或相同的项。

图1和图2示出了与本概念的一些实现相一致的问题回答场景的示例用户体验。

图3示出了与本概念的一些实现相一致的可以被用以导出对查询的回答的示例文档。

图4示出了与本概念的一些实现相一致的用于提供对查询的回答的示例工作流。

图5示出了与本概念的一些实现相一致的用于提供对查询的回答的示例证据图。

图6示出了与本概念的一些实现一致的示例转换器的组件。

图7示出了与本概念的一些实现一致的示例系统。

图8和图9示出了与本概念的一些实现一致的示例方法。

具体实施方式

概述

存在用于自然语言处理的各种类型的框架。例如，已经使用基于规则的系统、隐马尔可夫模型和统计模型来执行各种自然语言处理任务，诸如词性标注或机器翻译。已成功用于自然语言处理的另一类型的模型是神经网络。

神经网络是一种使用节点层执行特定操作的机器学习模型。在神经网络中，节点经由一条或多条边相互连接。神经网络可以包括输入层、输出层和一个或多个中间层。单个节点可以根据预定义的函数处理它们各自的输入，并将输出提供给后续层，或者在某些情况下，提供给前一层。给定节点的输入可以乘以该输入和该节点之间的边的相应权重值。此外，节点可以具有也用于生成输出的单个偏移值。可以应用各种训练过程来学习边权重和/或偏移值。

神经网络结构可以具有执行不同特定功能的不同层。例如，一层或多层节点可以共同执行特定操作，例如池化、编码或卷积操作。为了本文档的目的，术语“层”指的是共享输入和输出的一组节点，例如，去往或来自网络中的外部源或其他层的输入和输出。术语“操作”是指可以由一层或多层节点执行的功能。

神经网络在自然语言处理中的一个广泛应用是用于语义嵌入的编码和解码。通常，编码器将一个单词或一组单词映射到表示该单词或一组单词的含义的语义表示，诸如向量。相反，解码器将语义表示映射到单词或一组单词。通常，具有相似含义的单词通常具有在向量空间中相对靠近的对应编码，而具有非常不同含义的单词具有在向量空间中彼此相对较远的对应编码。

给定单词的含义通常由该单词出现的上下文(例如，相同句子或文档中的其他单词)来通知。对出现单词的上下文(例如，句子)进行建模的一种高级方法是将句子或文档建模为单词序列。例如，递归神经网络可以在保持一个或多个先前输入的令牌的表示的同时输入一系列令牌。当每个新单词被输入到递归神经网络中时，先前输入的单词的表示被更新并用于计算新单词的新表示。另一建模句子中的单词的上下文的方法涉及使用注意力机制。通常，注意力机制是在成对的基础上考虑给定句子或文档中单个单词之间的上下文关系。

对于涉及分析单个文档的各种自然语言处理任务，上述方法可以获且良好的性能。然而，在给定任务的支持证据分布在多个文档的情况下，现有方法并不总是执行得较好。通常，这是因为现有方法按顺序对文本建模，并且不考虑不同文档之间的非顺序关系。

所公开的实现提供了一种文档间注意力机制，该机制可以产生考虑包含在多个文档中的证据的单词的上下文化的语义表示。例如，可以通过将注意力从第一文档传播到被链接到第一文档的第二文档来在神经网络中实现文档间注意力机制。可以通过将文档间上下文信息添加到第二文档中的单词的语义表示来传播注意力。可以基于这些单词与第一文档的相似度来确定文档间上下文信息。可以将文档间上下文信息合并到传达从第一文档收集的信息的第二文档中的单词的上下文语义表示中，即使这些单词也没有出现在第一文档中。

在以下示例中，文档间注意力机制被示为查询回答系统的一部分。如下文更详细讨论的，文档间注意力机制可以用来使用在一个或多个其他文档中提供的支持证据从给定文档中选择对查询的回答。例如，如下面更详细描述的，对查询的回答可以包括从特定文档提取的单词的范围。

示例用户体验

图1示出了经由搜索引擎的搜索网页100的示例用户体验。这里，用户已经通过搜索网页向搜索引擎提交了查询102。在本示例中，查询的形式是一个问题，“ABC公司是在哪个城市建立的？”搜索引擎以响应104(例如，回答用户问题的句子)进行响应。响应104包括为用户的问题提供正确回答的文本106的范围“宾夕法尼亚州彭克苏塔尼”，以及与用户的问题相关的其他信息。

图2示出了用户202与客户端设备204交互的示例场景200。在该场景中，用户发出口头查询206，“ABC公司是在哪里成立的？”客户端设备以回答用户问题的音频输出208进行响应，该音频输出208回答了用户的问题“宾夕法尼亚州彭克苏塔尼”。例如，音频输出可以由在客户端设备或远程服务器上执行的数字助理提供。

示例证据文档

图3示出了可以被用以导出文本106范围的一些示例文档。文件302是来自在线百科全书的针对ABC公司的条目，并且包括确认S.Duke为CEO、P.Marmot为董事会主席的信息。文档304是来自在线百科全书中Phil Marmot的人物传记，写着他在G.Day大学就读期间成立了一家公司。文档306是G.Day大学的网页，写着该大学位于宾夕法尼亚州彭克苏塔尼。

在该示例中，文档306提供被选择包括在回答中的文本106的范围。然而，请注意，文档306没有提到ABC公司，文档306也没有提到Phil Marmot。为了确定文档306包括对用户问题的回答涉及两个推理步骤。文档302指出，ABC公司是北美最大的天气传感器制造商。文档304指出，Phil Marmot创立了北美最大的天气传感器制造商，但没有明确提到ABC公司。因此，通过对文档302和304的推理，可以推断Phil Marmot创立了ABC公司。

接下来，文档304还提到，公司成立时Phil Marmot正在G.Day大学学习。尽管文档304没有明确提到G.Day大学的位置，但是可以从文档306确定该位置。因此，通过对文档304和306进行推理，可以推断该公司是在宾夕法尼亚州彭克苏塔尼成立的。

下面的讨论描述了如何使用文档间注意力机制来对诸如上述那些文档的多个文档进行推理。这允许问题回答系统在找到对查询的正确回答可能涉及从没有明确陈述对查询的回答的中间文档(诸如，先前示例中的文档302和304)提取信息的情况下较好地执行。

示例工作流

图4示出了与一些实现一致的用于响应于查询返回回答的示例工作流400。该工作流从接收到的查询402开始。接下来，对接收到的查询执行信息取回404，以从文档库408获取一个或多个结果文档406。如下文更详细描述的，取回的文档可以使用各种方法而被取回。例如，在一些情况下，可以取回三组文档-匹配包括在查询中的词语的第一组文档、引用与查询相同的实体的第二组文档、以及链接到第一文档和/或第二文档的第三组文档，如下面更详细讨论的。

接下来，可以对取回的文档406执行图构造410以获取证据图412。例如，在某些情况下，在每对取回的文档之间建立链接，以创建完全连接的证据图。在其他情况下，基于诸如文档之间的相似性、提及相同实体的链接文档、取回的文档之间的现有超链接等标准，在文档对之间建立链接。

接下来，可以将转换器414应用于证据图412。通过处理证据图，转换器可以产生一个或多个取回的文档中的单词的上下文化的语义表示416。如下文更详细描述的，转换器可以获取查询中的每个单词和每个文档的初始单词嵌入。接下来，转换器可以对单词嵌入应用文档内和文档间注意力处理，以产生上下文单词嵌入。上下文词嵌入可以包括与文档内上下文相关的文档内上下文信息(例如，与相同文档中的其他单词相关的信息)以及文档间上下文信息(例如，与其他文档相关的信息)。转换器可以包括产生文档内上下文信息的文档内注意力机制和产生文档间上下文信息的文档间注意力机制，如下所述。

可以使用范围提取418来处理由转换器414输出的上下文化的语义表示416，以提取表示对查询的最终回答420的单词范围。例如，如下面更多描述的，范围提取可以由确定文档中的每个单词是(a)回答中的第一个单词或(b)回答中的最后一个单词的相应可能性的一个或多个神经网络层来执行。可以基于概率来选择最终范围，例如，所选范围可以以具有相对较高或最高开始概率的单词开始，并且可以以具有相对较高或最高结束概率的单词结束。

示例证据图

图5示出了包括上面参照图3讨论的文档302、304和306以及两个附加文档502和504的示例证据图500。每个文档都可以作为证据图中的一个节点。出于示例的目的，假设文档302在对查询“ABC公司是在哪个城市建立的？”的初始搜索期间被取回。此外，假设文档302包括到文档502(S.Duke的人物传记)和304(P.Marmot的人物传记)的超链接。进一步假设文档304包括通往文档306(G.Day大学的主页)和504(关于天气传感器的网页)的超链接。

如上所述，文档302、304和306提供了足够的信息来导出对查询的正确回答。文档502和504是可以如在此描述的那样取回和处理的附加文档。在该示例中，证据图包括对应文档中的每个超链接的一个链接506。如下所述，转换器414的文档间注意力机制可以被利用以对这五个文档进行推理。通过这样做，可以自动推理这五个文档，以使用在文档的子集(即，文档302、304和306)中获取的证据来获取回答。文档间注意力机制可以有助于自动推断文档302、304和306，并且还有助于推断文档502和504不包括对回答查询有用的信息。

证据图500中的每个链接可以被认为是跨一组链接文档的“跳”。因此，文档302、304和306上的自动推理可以被认为是解决了涉及“两跳”推理的问题回答难题。可以使用支持文档上的不同的跳的数目来使用所公开的实现，例如，通过配置和/或学习针对给定任务执行的跳的数目。

示例转换器

图6示出了可以被用以分析证据图500的转换器414的某些组件。首先，查询102可以与每个取回的文档连接，以用于经由文档内注意力机制602进行处理，文档内注意力机制602可以单独应用于每个文档。如图6所示，文档内注意力机制602(1)可以应用于查询和文档302的串联，文档内注意力机制602(2)可以应用于查询和文档304的串联，文档内注意力机制602(3)可以应用于查询和文档504的串联，文档内注意力机制602(4)可以应用于查询和文档502的串联，并且文档内注意力机制602(5)可以应用于查询和文档306的串联。

为了实现文档内注意力机制602，可以使用词典编码器来处理连接的查询/文档对，以产生表示向量空间中的单独单词的单词嵌入向量604，其中语义相似和/或句法相似的单词彼此相对接近，而语义不太相似的单词、句子相对较远。特定的令牌可以被用以描绘每个序列的开始，并在给定的序列中分隔单独的句子。在一些实现中，通过对每个单词的对应单词、片段和位置嵌入求和来构建单词嵌入向量。

文档内注意力机制602可以处理单词嵌入向量以例如经由自注意力来获取每个单词的文档内上下文信息，并且生成包括文档内上下文信息的上下文嵌入向量606的序列。自注意力可以通过计算单词之间的相似度来被用以关联文档中单词的不同位置。然后，这些相似度被用以计算作为(1)与文档中的其他词的相似度和(2)文档中的其他词的表示的函数的每个词的文档内上下文信息，如下所述。在一些实例中，文档内注意力机制602使用多层双向转换器编码器来实现，该多层双向转换器编码器被配置为将嵌入向量604映射到上下文嵌入向量606。

文档间注意力机制608可以通过将文档间上下文信息合并到上下文语义表示中来修改每个单词的上下文语义表示。例如，可以将文档间上下文信息添加到针对每个文档而产生的上下文嵌入向量606。为了确定文档间上下文信息，文档间注意力机制可以计算每个链接文档中的单个单词与其所链接到的其他文档的相似度。单词到文档的相似性可用于基于(1)其与每个链接的文档的相似度和(2)这些文档的表示来计算每个单词的文档间上下文信息，如下所述。

转换器414的输出包括文档中的单词的上下文化的语义表示，其既包括文档内上下文信息也包括文档间上下文信息。如下面更多讨论的，可以处理上下文化的语义表示，以使用一个或多个范围提取层来提取回答接收到的查询的单词范围。因为上下文化的语义表示将一个文档中的词之间的关系传达到证据图中的其他文档，所以可以使用上下文化的语义表示来使用包含在其他文档中的支持证据从特定文档中导出信息。

具体算法

以下部分提供可以被用以实现上述各种概念的具体算法和数学细节。请注意，为了便于说明，上述示例在文档和查询中引用了“单词”。然而，在一些实现中，可以使用单词标记化过程来将查询和文档中的某些单词表示为单词标记，其中一些可以表示查询和/或文档中的词汇表中的单词，而另一些可以表示单独单词的部分。

文档内注意力

下面描述可以被用以实现如图6所示的文档内注意力机制602的一种算法。转换器或其他编码器可以学习将输入文本令牌序列：X＝{x₁，...，x_i，，，.x_n}转换成上下文化的语义表示：H＝{h₁，...，h_i，...，h_n}。上下文化的语义表示可以包括对应令牌的语义信息以及文本序列中提供的文档内上下文信息。该过程可以涉及多个堆叠的网络层，这些层将X逐层转换为{H⁰，H¹，...，H^l，...H^L}，其中H⁰是令牌嵌入。

在执行文档内注意力时，转换器414可以评估三个组件：查询(Q)、键(K)和值(V)。这些加在一起，可以被用以使用上一层的输入H^l-1计算第l层的层输出H^l：

Q^T；K^T；V^T＝W^q·H^l-1 _；W^k·H^l-1 _；W^v·H^l-1 (2)

其中Q、K和V是输入H^l-1上的三个投影。Softmax可以在文档内注意力矩阵的行的维度上计算，该行维是Q和V的乘积，由它们的维度(d_k)缩放。

具体地，对于令牌

其对应的切片在公式2中为：

其首先使用其查询q_i和对应的关键字k_j来计算

对相同文档中的所有其他令牌j的注意力，然后使用归一化注意力权重与其他令牌的值v_j组合成其新的表示

该文档内注意力机制有效地在给定文档中的一些或所有令牌对之间传播信息。还可以在给定转换器的一个转换器层中使用多个文档内注意力机制，然后将其连接为该转换器内的多头注意力。在一些实现中，上下文化的语义表示包括令牌嵌入、片段嵌入和位置嵌入。位置嵌入允许转换器省略显式顺序结构的建模，诸如在递归网络中发生的情况。这可以提高转换器的训练效率，还可以堆叠转换器层以获且相当深度的网络。

文档间注意力

下面描述可以被用以实现图6所示的文档间注意力机制608的一种算法。通常，文档间注意力可以被用以将非顺序文本结构建模为分隔的文档。例如，可以将不同的文件或网页、分组为子部分的不同段落或相互引用的不同对话视为不同的文档。更一般地，这里提到的不同“文档”仅仅意味着不同的文本结构，这些文本结构最初不是顺序出现的。因此，例如，使用所公开的技术，可以将相同文件中但位于不同文档节中的两个段落视为不同的文档。

形式上，可以使用文档集合

和包括某些文档之间的连接的边矩阵E来执行文档间注意力。文档间注意力机制608可以将文档编码成表示

其既包括跨文档的全局信息(文档间上下文信息)，也包括每个X中的本地信号(文档内上下文信息)。

文档间注意力机制608可以如下沿着证据图的边传播注意力信息。令牌i的文档内注意力度可以根据相同文档中的其他令牌来计算，如下所示：

接下来，可以使用相应的CLS令牌作为给定文档的表示，通过如下聚集其他连接的文档η的相应CLS令牌来计算文档间注意力度：

因此，在第l层中维护的语义表示可以包括如上所述的文档内注意力以及文档间注意力。文档间注意力

包括从证据图中的其他连接文档获取的信息。通常，文档间注意力机制可以跟随边E_τη，注意每个连接的文档中的第一个令牌(例如，表示整个文档的“[CLS]”令牌)，并将它们的表示组合到相应的跳表示

文档间和文档内注意力可以被连接到第l层的表示

文档的第一令牌的新表示可以被确定为文档内表示和文档间表示的线性组合，如下所示：

实现文档间注意力的层可以堆叠多次。文档间注意力可以沿着证据图移动，并且沿着边矩阵E在图上传播所学习的表示。因此，给定L个层，文档间注意力可以沿着长度为L的图路径传播，并且所得到的上下文化的语义表示

可以捕捉文档之间的结构信息。注意，给定文档内的其他令牌可以通过来自该文档的CLS令牌的文档内注意力而更新，该CLS令牌本身传达文档间上下文信息。因此，给定文档内的每个令牌可以传达从证据图中的一个或多个其他链接文档导出的语义含义。

转换器414可以采用其他转换器机制的其他部分，诸如层范数和前馈，而无需修改。在一些情况下，可以添加附加投影层以将文档间注意力机制608维护的语义表示投影到与文档内注意力机制602维护的语义表示相同的空间中。

关于基于转换器的方法的背景信息可以在如下文档中：Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser和Polosukhin，“Attention Is All You Need”(注意力是你需要的全部)，Advances in Neural Information Processing Systems(神经信息处理系统的进展)，第5998-6008页，2017，以及Devlin、Chang、Lee和Toutanova，“Bert：Pre-training of Deep Bidirectional Transformers for Language Understanding，”(Bert：深度双向语言理解转换器的前期训练)，Proceedings of the 2019 Conference ofthe North American Chapter of the Association for Computational Linguistics：Human Language Technologies(计算语言学协会北美分会2019年会议论文集：人类语言技术)，第一卷(长篇和短篇论文)，第4171-4186页，2019。

在一些实现中，可以使用诸如BERT的预先训练的模型来初始化文档内注意力机制。文档间注意力机制可以随机初始化并从头开始训练。此外，一些实现可以将注意力跳的数目限制到特定数目的链接文档，例如三个。

问题回答

下面描述一种可以被用以对接收到的查询提供回答的算法。可以处理由转换器414产生的上下文化的语义表示，以从诸如网络百科全书的语料库中的文档中标识针对自然语言问题q的回答范围a。如上所述，在一些情况下，可以利用来自多个证据文档的信息来回答该问题。转换器的文档间注意力机制608提供组合来自不同文档的信号并对其进行推理的能力。

如上所述，工作流400可以涉及取回给定查询的相关文档。在取回文档后，就可以构建证据图，并且转换器414可以处理该证据图以获取文档中或多个文档中的词的上下文语义表示。可以使用一个或多个范围提取层来处理最终的上下文化的语义表示(例如，矢量化上下文嵌入)以提取对查询的最终回答。

取回针对查询q的相关文档D的一种具体方法涉及以下三个源：

·D_ir：经由术语匹配技术的顶部取回文档，诸如术语-频率、反向文档频率取回，如以下文档中讨论的：Danqi Chen、Adam Fisch、Jason Weston和Antoine Bordes，“ReadingWikipedia to Answer Open-Domain Questions，”(阅读维基百科回答开放领域的问题)，Proceedings of the 55th Annual Meeting of the Association for ComputationalLinguistics(计算语言学协会第55届年会论文集)(第1卷：长篇论文)，第1870-1879页，2017。

·D_kg：与出现在q中的一个或多个实体相关联的文档，如由实体链接系统注释的，诸如Ferragina和Ugo Scaiella，“TAGME：On-the-fly Annotation of Short TextFragments(by Wikipedia Entities)”，(TAGME：短文本片段的即时注释(由维基百科实体提供))，Proceedings of the 19th ACM International Conference on Informationand Knowledge Management(第19届ACM信息与知识管理国际会议论文集)，第1625-1628页，ACM，2010，或者使用另一种实体匹配技术来取回，

·D_exp：连接到D_ir∪D_kg中的文档中的文档，或通过D_exp中的文档到D_ir或D_kg中的文档的连接，或通过D_ir或D_kg中的文档到D_exp中的文档的连接。

可以对D_ir和D_kg中的文档进行排序，每个文档中的前K个文档可以被包括在D_exp中。一个示例排名机制在下文中：Rodrigo Nogueira和Kyunghyun Cho.，“Passage Re-rankingwith Bert，”(利用Bert的文章重新排序)，arXiv预印本arXiv：1901.04085，2019。

这三个源可以包括从不同方面连接到q的文档，并且可以被合并为D＝D_ir∪D_kg∪D_exp。在一些实现中，证据图是完全连接的，例如，在D中的每个文档之间建立链接，并且转换器414中的文档间注意力机制608可以对每个文档之间的连接进行建模。在其他实现中，基于文档相似度、实体的共存或使用文档内的超链接或其他连接作为图的边，选择特定文档对来接收边，并且其他文档对之间没有边。

一些实现可以如下获取对转换器414的输入。每个d_τ中的第一段可以被连接到问题q：

其中X_q和

分别表示q和d_τ中的令牌。在文档通过超链接链接的情况下，超链接的锚文本也可以被包括在串联中。这形成了以

和边矩阵E作为输入的半结构推理图。要从给定文档中提取范围，可以使用两个范围预测层来预测回答范围的开始和结束，方法如下。首先，可以指定转换器产生的最终表示：

文档τ中的令牌i是回答范围的开始或结束的概率可以使用两个特定于任务的层来计算，如下所示：

其中，一个特定于任务的层预测每个文档的相关性，而另一特定于任务的层从该文档提取回答范围。

给定为示例查询提供正确回答的已标记范围集合，可以使用范围预测准确性上的交叉熵损失来训练转换器414，其中正确回答涉及跨多个文档分布的支持证据的推理。交叉熵损失既可以反映预测从中选择回答的正确文档的准确性，也可以反映预测该文档的正确范围的准确性。

示例系统

本实施例可以在各种设备上的各种场景中执行。图7示出了其中可以采用本实施方式的示例系统700，如下面更详细讨论的。如图7所示，系统700包括由一个或多个网络740连接的客户端设备710、客户端设备720和服务器730。注意，客户端设备既可以体现为诸如智能手机或平板电脑的移动设备，也可以体现为诸如台式机的固定设备。同样，服务器可以使用各种类型的计算设备来实现。在一些情况下，图7中所示的任何设备，特别是服务器，可以在数据中心、服务器场等中实现。

图7中所示的装置的某些组件在此可以用括号附图标记来指代。出于以下描述的目的，括号(1)指示给定组件在客户端设备710上的出现，(2)指示给定组件在客户端设备720上的出现，以及(3)指示在服务器730上的出现。除非确定给定组件的特定实例，否则本文档一般指的是不带括号的组件。

通常，设备710、720和730可以具有相应的处理资源701和存储资源702，其将在下面更详细地讨论。设备还可以具有使用处理和存储资源来执行这里讨论的技术的各种模块。例如，客户端设备710和720可以包括客户端应用711的相应实例。客户端应用程序可以包括可以执行查询功能的任何类型的功能。例如，客户端应用可以是允许用户向搜索网站提交搜索查询的web浏览器。作为另一示例，客户端应用可以是数字助理，其通过查询搜索网站并用口头回答响应用户来响应用户语音输入。

服务器730可以包括响应于用户查询执行搜索功能的搜索引擎731。搜索引擎可以包括回答模块732，该回答模块732通过执行工作流400来用回答响应某些查询。回答模块732可以包括信息取回模块733、链接模块734、转换器414和范围提取器735。信息取回模块可以取回一个或多个文档集合，如上所述。链接模块可以链接文档以创建证据图，如上所述。转换器可以使用文档间和文档内注意力机制来处理证据图，以产生上下文化的语义单词表示，如上所述。范围提取器可以处理上下文化的语义单词表示，以标识回答查询的给定文档中的单词范围，如上所述。

注意，系统700仅是示例，并且被提供来示出一个或多个设备上的一种可能的功能布置。例如，在一些情况下，回答模块732位于与搜索引擎不同的服务器上，并且确实可以从多个不同的搜索引擎或其他信息源取回文档。更一般地，所公开的功能可以在不脱离本概念的情况下以各种方式分布在一个或多个设备上。

第一示例方法

图8示出了与本概念一致的可以被用以回答问题或查询的示例方法800。如本文别处所讨论的，方法800可以在许多不同类型的设备上实现，例如，通过一个或多个云服务器，通过诸如膝上型计算机、平板电脑或智能手机的客户端设备，或者通过一个或多个服务器、客户端设备等的组合。

方法800在框802处开始，其中查询被接收。查询可以作为提交给搜索引擎的文本、作为语音输入或各种其他形式而被接收。

方法800在框804处继续，其中结果文档被获取。例如，可以从诸如通用网络搜索引擎的索引的文档库、从在线百科全书或其他精选语料库等取回结果文档。

方法800在框806处继续，其中证据图被建立。如上所述，证据图可以是完全连接的，或者可以包括某些文档之间的链接，但不包括其他文档之间的链接。在某些情况下，证据图中的链接基于文档本身中的链接，例如两个取回的文档之间的超链接。在其他情况下，可以处理文档以选择要链接的文档对。例如，证据图可以链接提及相同实体的文档、语义相似度超过阈值的文档等。

方法800在框808处继续，其中上下文化的语义表示被获取。如上所述，上下文化的语义表示可以包括单词嵌入、片段嵌入、位置嵌入、文档内上下文信息和文档间上下文信息。

方法800在框810处继续，其中上下文化的语义表示被处理以标识对查询的回答。例如，回答可以是从特定结果文档中选择的特定范围的单词。

方法800在框812处继续，其中输出响应于查询的回答。例如，回答可以经由来自数字助理的口头输出等在搜索结果网页上输出。

第二示例方法

图9示出了与本概念一致的可以被用以执行自然语言处理的示例方法900。如本文别处所讨论的，方法900可以在许多不同类型的设备上实现，例如，通过一个或多个云服务器、通过诸如膝上型计算机、平板电脑或智能手机的客户端设备、或通过一个或多个服务器、客户端设备等的组合。

方法900在框902处开始，其中第一文档和第二文档被获取。在某些情况下，文档是通过查询文档库获取的。在其他情况下，文档可以以其他方式获取，例如，通过爬取(crawl)从一个文档到另一个文档的链接、通过从特定主题的精选语料库随机采样文档、通过基于语义相似度选择文档等。

方法900在框904处继续，其中将注意力从第一文档被传播到第二文档。如上所述，注意力可以利用神经网络的一个或多个层来传播。在其他上下文中，传播注意力可以涉及任何过程，从而使用第二文档中的特定单词与第一文档中的特定单词的相似度来导出该单词的语义表示。

方法900在框906处继续，其中基于传播，上下文化的语义表示被获取。如前所述，上下文化的语义表示可以包括文档间上下文信息，并且在某些情况下包括文档内上下文信息。在一些情况下，特定文档的单词的上下文化的语义表示可以至少包括以下不同的比特集：一个或多个其他文档的单词或令牌嵌入、片段嵌入、位置嵌入、文档间上下文信息、以及文档内上下文信息。

方法900在框908处继续，其中自然语言处理操作使用上下文化的语义表示而被执行。如下文进一步描述的，查询回答仅是可以使用本文所描述的上下文化的语义表示来使用的自然语言处理操作的一个示例。

应用

如上所述，所公开的技术的一个应用涉及回答用户的问题。然而，使用这里描述的技术导出的上下文化的语义表示可以用于除问题回答之外的其他自然语言处理应用。下面描述可以使用使用所公开的技术获取的上下文化的语义表示来实现的几个备选应用。

例如，在给定文档集合的情况下，可以将文档中的词语的上下文语义表示输入到解码器以获取链接文档集合的摘要。作为另一示例，上下文化的语义表示可以被用以将文档集合从第一自然语言(例如，英语)机器翻译为另一自然语言(例如，法语)。此外，可以通过处理每个集合中的单独文档的上下文语义表示来比较两个不同的文档集合。例如，这可能揭示两个不同的文档集合提供大致相同数目的信息内容的情况，尽管相应集合中的文档数目不同或文档类型不同。

文档间注意力的特性

如前所述，文本可以具有顺序结构，诸如句子和段落，也可以具有非顺序结构，诸如不同文档之间的链接。在给定文件中，文本可以按层次结构(诸如句子、段落和章节)组织，也可以按更复杂的结构(诸如表格、列表和网页)组织。Web文档可以通过超链接或搜索点击图而被连接。所公开的实现可以将非顺序文本结构视为不同的文档，并使用在此描述的文档间注意力来评估它们。下文描述所公开的文档间注意力机制相对于使用包含在多个文档中的证据进行自动问题回答的备选方法的一些特性。

例如，另一备选方法将通过组装不同的特定于文档的模型并融合每个模型的输出来模拟跨文档关系。然而，这种方法可以导致复杂的管线和级联误差。相反，所公开的文档间注意力机制使得能够对文档间关系进行内在建模。

文档间注意力机制可以在统一的转换器表示中使用，该统一的转换器表示可以应用于通过评估散布在多个文档上的证据来回答问题。如下面进一步讨论的，所公开的实现在Hotpot QA的完整Wiki设置上进行了回答准确性评估，并大大超过了之前发布的模型。

下表给出了在HOTPOT QA(全wiki设置)上使用所公开的实现(“文档间注意力”)获得的实验结果：

如上所述，所公开的文档间注意力机制在回答涉及对多个文档进行推理的问题时获取最先进的性能。关于Yang等人的补充信息可以在下文找到：Zhilin Yang、Peng Qi、Saizheng Zhang、Yoshua Bengio、William W.Cohen、Ruslan Salakhutdinov和Christopher D.Manning，“HotpotQA:A Dataset for Diverse,Explainable Multi-hopQuestion Answering”(HotpotQA：一种支持多样化、可解释的多跳问答的数据集)，Proceedings of the Conference on Empirical Methods in Natural LanguageProcessing(EMNLP)(自然语言处理经验方法会议论文集)，2018。有关SR-MRS的附加信息可以在下文找到：Yixin Nie、Songhe Wang和Mohit Bansal.，“Revealing the Importanceof Semantic Retrieval for Machine Reading at scale”(揭示语义取回在大规模机器阅读中的重要性)，arXiv预印本arXiv：1909.08041，2019。

设备实现

如以上参考图7所述，系统700包括若干设备，包括客户端设备710、客户端设备720和服务器730。还要注意，不是所有的设备实现都可以示出，并且根据上面和下面的描述，其他设备实现对于本领域技术人员来说应该是明显的。

这里使用的术语“设备”、“计算机”、“计算设备”、“客户端设备”和/或“服务器设备”可以指具有一定硬件处理能力和/或硬件存储装置/存储器能力的任何类型的设备。处理能力可以由可以执行计算机可读指令以提供功能的一个或多个硬件处理器(例如，硬件处理单元/核)来提供。计算机可读指令和/或数据可以存储在诸如存储装置/存储器和/或数据存储装置的存储装置上。这里使用的术语“系统”可以指单个设备、多个设备等。

存储资源可以在与其关联的相应设备的内部或外部。存储资源可以包括易失性或非易失性存储器、硬盘驱动器、闪存设备和/或光学存储设备(例如，CD、DVD等)等中的任何一个或多个。在一些情况下，系统700的模块被提供为存储在永久存储设备上、加载到随机存取存储器设备中并由处理资源从随机存取存储器读取以用于执行的可执行指令。

如这里所使用的，术语“计算机可读介质”可以包括信号。相反，术语“计算机可读存储介质”不包括信号。计算机可读存储介质包括“计算机可读存储设备”。计算机可读存储设备的示例包括易失性存储介质(诸如RAM)和非易失性存储介质(诸如硬盘驱动器、光盘和闪存等)。

在某些情况下，设备配置有通用硬件处理器和存储资源。在其他情况下，设备可以包括片上系统(SOC)类型的设计。在SOC设计实现中，器件提供的功能可以集成在单个SOC或多个耦合的SOC上。一个或多个相关联的处理器可以被配置为与诸如存储器、存储等的共享资源和/或诸如被配置为执行某些特定功能的硬件块的一个或多个专用资源协调。因此，这里使用的术语“处理器”、“硬件处理器”或“硬件处理单元”还可以指中央处理单元(CPU)、图形处理单元(GPU)、控制器、微控制器、处理器核心或适合于在常规计算体系结构以及SOC设计中实现的其他类型的处理设备。

备选地或另外地，这里描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

在一些配置中，这里讨论的任何模块/代码都可以用软件、硬件和/或固件来实现。在任何情况下，模块/代码都可以在设备制造期间提供，或者由准备将设备出售给最终用户的中介机构提供。在其他情况下，终端用户可以稍后安装这些模块/代码，诸如通过下载可执行代码并将可执行代码安装在相应设备上。

还应注意，设备通常可以具有输入和/或输出功能。例如，计算设备可以具有各种输入机制，诸如键盘、鼠标、触摸板、语音识别、手势识别(例如，使用深度相机，诸如立体或飞行时间相机系统、红外相机系统、RGB相机系统或使用加速计/陀螺仪、面部识别等)。设备还可以具有各种输出机制，诸如打印机、监视器等。

还要注意，这里描述的设备可以以独立或协作的方式工作，以实现所描述的技术。例如，这里描述的方法和功能可以在单个计算设备上执行和/或分布在通过(多个)网络740通信的多个计算设备上。在非限制的情况下，(多个)网络740可以包括一个或多个局域网(LAN)、广域网(WAN)、因特网等。

此外，一些实现可以在物联网(IoT)上下文中使用任何公开的技术。在这样的实现中，家用电器或汽车可以提供实现系统700的模块的计算资源。

以上描述了各种设备示例。下面描述了附加示例。一个示例包括在计算设备上执行的方法，该方法包括接收查询，取回与该查询相关的多个结果文档，建立具有单独结果文档之间的链接的证据图，通过从被链接到证据图中的第二结果文档的第一结果文档传播文档间注意力，获取第二结果文档中的单独单词的上下文化的语义表示，，使用机器学习模型处理第二结果文档中的单独单词的上下文的语义表示以获取对该查询的回答，以及输出响应于该查询的该回答。

另一示例可以包括上面和/或下面示例中的任何一个，其中传播文档间注意力包括至少基于特定单词与第一结果文档的相似度来确定针对第二结果文档中的特定单词的文档间上下文信息。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括至少基于该特定单词与第二结果文档中的其他单词的相似度来确定针对第二结果文档中的特定单词的文档内上下文信息。

另一示例可以包括上面和/或下面示例中的任何一个，其中第二结果文档中的单度单词的上下文语义表示包括上下文化的嵌入向量。

另一示例可以包括上面和/或下面示例中的任何一个，其中机器学习模型是神经网络，并且获取所述上下文化的语义表示在神经网络中被执行。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括使用神经网络的文档间注意力层确定文档间上下文信息，使用神经网络的文档内注意力层确定文档内上下文信息，以及使用神经网络的范围提取层从上下文化的语义表示中提取回答。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括将查询连接到多个结果文档中的每个结果文档以获取查询-文档对，以及在文档间注意力层中处理查询-文档对中的两个或更多个查询-文档对。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括使用神经网络的范围提取层，确定第二结果文档中的单独单词是查询回答的第一单词的相应可能性。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括使用包括已标记示例的已标记训练数据来训练神经网络，已标记示例包括示例查询、示例回答和示例支持文档，并且示例支持文档具有针对示例回答的、跨至少两个示例支持文档分散的支持证据。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括使用术语匹配技术取回第一结果文档集合，使用实体匹配技术取回第二结果文档集合，以及取回链接到第一集合或第二集合中的至少一个文档的第三结果文档集合。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括连接第一集合、第二集合和第三集合中的每个结果文档，以形成作为全连接图的证据图。

另一示例可以包括上面和/或下面示例中的任何一个，其中该方法还包括至少基于结果文档中的现有链接来选择要在证据图中链接的结果文档对。

另一示例包括存储计算机可读指令的计算机可读存储介质，计算机可读指令在由硬件处理单元执行时使所述硬件处理单元执行动作，包括获取第一文档和第二文档，将注意力从所述第一文档传播到所述第二文档，以及至少基于该传播产生第二文档中的单独单词的上下文化的语义表示，其中上下文化的语义表示提供用于执行一个或多个自然语言处理操作的基础。

另一示例可以包括上面和/或下面示例中的任何一个，其中第一文档和第二文档包括分开的网页或分开的文件。

另一示例可以包括上面和/或下面示例中的任何一个，其中动作还包括生成具有多个文档和多个链接的证据图，该证据图具有作为第一节点的第一文档，作为第二节点的第二文档，以及第一文档和第二文档之间的链接，并且通过第一文档和第二文档之间的链接传播注意力。

另一示例包括系统，该系统包括硬件处理单元和存储计算机可读指令的存储资源，计算机可读指令在由硬件处理单元执行时使硬件处理单元：接收查询，获取响应于查询的多个搜索结果，使用具有文档间注意力机制的转换器处理多个搜索结果以获取对查询的回答，以及利用回答来响应查询。

另一示例可以包括上面和/或下面示例中的任何一个，其中回答包括至少基于由另一搜索结果提供的支持证据从特定搜索结果中取回的文本范围。

另一示例可以包括上面和/或下面示例中的任何一个，其中转换器包括神经网络的一个层或多个层。

另一示例可以包括上面和/或下面示例中的任何一个，其中神经网络包括被配置为提取回答的范围提取层。

另一示例可以包括上面和/或下面示例中的任何一个，其中神经网络包括文档内注意力机制。

结论

尽管该主题已经用特定于结构特征和/或方法动作的语言进行了描述，但是应当理解，在所附权利要求中定义的主题不一定限于上述特定特征或动作。相反，上面描述的特定特征和动作被公开作为实现权利要求的示例形式，以及本领域技术人员将认识到的其他特征和动作意在权利要求的范围内。

Claims

1.一种在计算设备上执行的方法，所述方法包括：

接收查询；

取回与所述查询相关的多个结果文档；

建立具有在单独结果文档之间的链接的证据图；

通过从被链接到所述证据图中的第二结果文档的第一结果文档传播文档间注意力，获取针对所述第二结果文档中的单独单词的上下文化的语义表示；

使用机器学习模型处理所述第二结果文档中的所述单独单词的所述上下文化的语义表示，以获取对所述查询的回答；以及

输出响应于所述查询的所述回答。

2.根据权利要求1所述的方法，其中传播所述文档间注意力包括：

至少基于特定单词与所述第一结果文档的相似度来确定针对所述第二结果文档中的所述特定单词的文档间上下文信息。

3.根据权利要求2所述的方法，还包括：

至少基于所述特定单词与所述第二结果文档中的其他单词的相似度来确定针对所述第二结果文档中的所述特定单词的文档内上下文信息。

4.根据权利要求3所述的方法，其中所述第二结果文档中的所述单独单词的所述上下文化的语义表示包括上下文化的嵌入向量。

5.根据权利要求3所述的方法，其中所述机器学习模型是神经网络，并且所述获取所述上下文化的语义表示在所述神经网络中被执行。

6.根据权利要求5所述的方法，还包括：

使用所述神经网络的文档间注意力层来确定所述文档间上下文信息；

使用所述神经网络的文档内注意力层来确定所述文档内上下文信息；以及

使用所述神经网络的范围提取层来从所述上下文化的语义表示中提取所述回答。

7.根据权利要求6所述的方法，还包括：

将所述查询连接到所述多个结果文档中的每个结果文档以获取查询-文档对；以及

在所述文档间注意力层中处理所述查询-文档对中的两个或更多个查询-文档对。

8.根据权利要求6所述的方法，还包括：

使用所述神经网络的所述范围提取层，确定所述第二结果文档中的所述单独单词是对所述查询的所述回答的第一单词的相应可能性。

9.根据权利要求5所述的方法，还包括：

使用包括已标记示例的已标记训练数据来训练所述神经网络，所述已标记示例包括示例查询、示例回答和示例支持文档，所述示例支持文档具有针对所述示例回答的、跨至少两个示例支持文档分散的支持证据。

10.根据权利要求1所述的方法，还包括：

使用术语匹配技术取回第一结果文档集合；

使用实体匹配技术取回第二结果文档集合；以及

取回链接到所述第一集合或所述第二集合中的至少一个文档的第三结果文档集合。

11.根据权利要求10所述的方法，还包括：

连接所述第一集合、所述第二集合和所述第三集合中的每个结果文档，以形成作为全连接图的所述证据图。

12.根据权利要求1所述的方法，还包括：

至少基于所述结果文档中的现有链接来选择要在所述证据图中链接的结果文档对。

13.一种系统，包括：

硬件处理单元；以及

存储计算机可读指令的存储资源，所述计算机可读指令在由所述硬件处理单元执行时，使所述硬件处理单元：

接收查询；

获取响应于所述查询的多个搜索结果；

使用具有文档间注意力机制的转换器处理所述多个搜索结果，以获取对所述查询的回答；以及

利用所述回答来响应所述查询。

14.根据权利要求13所述的系统，其中所述回答包括至少基于由另一搜索结果提供的支持证据从特定搜索结果中取回的文本范围。

15.根据权利要求14所述的系统，其中所述转换器包括神经网络的一个或多个层，所述神经网络包括被配置为提取所述回答的范围提取层，所述神经网络包括文档内注意力机制，并且所述文档间注意力机制包括多个层。