CN108733742B

CN108733742B - 全局归一化阅读器系统和方法

Info

Publication number: CN108733742B
Application number: CN201810186264.9A
Authority: CN
Inventors: 乔纳森·赖曼; 约翰·米勒
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-04-13
Filing date: 2018-03-07
Publication date: 2021-08-24
Anticipated expiration: 2038-03-07
Also published as: CN108733742A; US10572595B2; US20180300312A1

Abstract

本文提出了用于问答(QA)的系统和方法。在实施方式中，提取式问答(QA)被当作遍及文档结构的迭代搜索问题：选择所述答案语句、开始单词和结束单词。这种表示减少了每个搜索步骤的空间，并允许计算有条件地被分配给有希望的搜索路径。在实施方式中，对决策过程的全局归一化和通过集束搜索的反向传播使得这种表示可行且具有高的学习效率。被称为全局归一化阅读器(GNR)的多种模型实施方式取得了优异的表现。还介绍了数据扩展的实施方式，其通过将已命名的条目与知识库对齐以及交换相同类型的新条目来产生语义上有效的示例。这种方法也提高了GNR模型的性能，以及对于多种自然语言处理(NLP)任务具有独立的价值。

Description

全局归一化阅读器系统和方法

技术领域

本公开总体涉及用于计算机学习的系统和方法，该系统和方法能够提供改善的计算机性能、特征和用途。

背景技术

问答(QA)和信息提取系统已证明在诸多应用(诸如关于药物和基因的医学信息采集、大规模健康影响调研或教育材料开发)中有巨大价值。

基于神经网络的提取式问答模型的最新进展正在多个基准QA任务中迅速缩小与人类表现的差距，并在信息发现与其在高风险决策中的可用性之间提供了更智能、更积极响应的连接，其中，所述基准QA任务诸如斯坦福问答数据集(SQuAD)、微软机器阅读理解数据集(MS MARCO)或NewsQA。

然而，目前的提取式问答方法面临许多限制。第一，计算被平均分配给整个文档，而不管答案位置如何，从而无法忽略或集中特定部分的计算，限制了对较长文档的适用性。第二，它们普遍依靠高代价的双向关注机制或者必须排列所有可能的答案跨度(Span)。以及第三，虽然已经提出了用于问答的数据扩展，但是目前的方法仍然不提供可以改善现有系统性能的训练数据，也不允许明确地使用问题本质或条目类型来控制生成。

因此，需要解决这些限制并提供改善的问答或信息提取的系统和方法。

发明内容

本申请的一方面提供了一种用于选择给定输入问题的答案的计算机实现的方法，所述方法包括：对所述输入问题进行编码以获取问题表示；对于来自一组文档的每个文档，对所述文档进行编码以产生隐态的序列来表示所述文档中的每个单词；获取所述文档的每个语句的语句分数，所述文档的每个语句由所述语句中的第一个单词和最后一个单词的隐态表示；基于所述语句分数在所有语句中选择一组语句；对于所选择的语句中的每个单词，获取开始单词分数；对于所选择的每个语句，分别对所述语句分数和每个单词的所述开始单词分数进行求和以得到多个求和分数；基于所述求和分数从所有所选择的语句的单词中选择一组单词作为开始单词；获取多个跨度的结束单词分数，每个跨度从一个开始单词开始并结束于所述开始单词之后的剩余单词；基于每个跨度的语句分数、开始单词分数和结束单词分数的组合，从所述多个跨度中选择候选跨度；对于每个候选跨度，生成全局归一化概率；以及基于所述全局归一化概率选择一个或多个候选跨度作为所述答案。

本申请的另一方面提供了一种针对给定输入问题从文档中选择答案的计算机实现的方法，所述方法包括：在所述文档内获取多个候选跨度，每个跨度从所述文档的所选语句中的开始单词处开始并在结束单词处结束，所述结束单词是所选语句中的所述开始单词之后的剩余单词，每个开始单词与开始单词分数关联，每个结束单词与结束单词分数关联，每个所选语句与语句分数关联；通过组合与所述候选跨度关联的所述语句分数、所述开始单词分数和所述结束单词分数来获取每个候选跨度的答案分数；对每个候选跨度的答案分数进行指数化；通过将所有指数化的答案分数相加来创建配分函数；使用所述配分函数来对每个候选跨度的每个指数化的答案分数进行全局归一化；以及基于全局归一化的答案分数选择一个或多个候选跨度作为所述答案。

本申请的又一方面提供了一种用于训练问答模型的计算机实现的方法，所述方法包括：给定问题和文档，在所述文档内获取多个候选跨度，每个跨度从所述文档的所选语句中的开始单词处开始并在结束单词处结束，所述结束单词是所选语句中的所述开始单词之后的剩余单词，每个开始单词与开始单词分数关联，每个结束单词与结束单词分数关联，每个所选语句与语句分数关联；基于每个候选跨度的答案分数对每个候选跨度进行全局归一化，所述答案分数通过对与每个候选跨度关联的所述语句分数、所述开始单词分数和所述结束单词分数求和来获取；基于全局归一化的答案分数选择一个或多个候选跨度作为所述答案；在所述文档和所述问题中定位已命名的条目；采集每个条目类型的表面变化；通过将原始三元组中的每个已命名的条目与所述采集中共享相同类型的表面变化进行交换来生成一个或多个新的文档问题对；以及对所述一个或多个新的文档问题对重复获取候选跨度、对候选跨度进行全局归一化以及选择一个或多个候选跨度作为答案的过程。

附图说明

将参考本发明的实施方式，其示例可在附图中示出。这些附图旨在说明而不是限制。尽管在这些实施方式的上下文中总体上描述了本发明，但应理解，其并不旨在将本发明的范围限制于这些特定的实施方式。图中的内容未按比例绘制。

图1描绘了根据本公开实施方式的问答方法。

图2描绘了根据本公开实施方式的回答问题的全局归一化阅读器(GNR)模型实施方式。

图3形象地描绘了根据本公开实施方式的模型的示例实施方式。

图4描绘了根据本公开实施方式的问题编码方法。

图5描绘了根据本公开实施方式的知晓问题的文档编码方法。

图6描绘了根据本公开实施方式的语句选择方法。

图7描绘了根据本公开实施方式的跨度启动选择方法。

图8描绘了根据本公开实施方式的跨度终止选择方法。

图9描绘了根据本公开实施方式的全局归一化方法。

图10描绘了根据本公开实施方式的类型交换方法。

图11描绘了根据本公开实施方式的类型交换示例。

图12描绘了根据本公开实施方式的显示发生在人、数字、日期和组织上的大多数表面变化的线图。

图13描绘了根据本公开实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在下文描述中，出于说明的目的，阐述了具体细节以提供对本发明的理解。然而，对本领域技术人员显而易见的是，本发明可在没有这些细节的情况下实施。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以多种方式来实施，诸如程序、装置、系统、设备或者有形的计算机可读介质上的方法。

附图中所示的组件或模块是对本发明的示例性实施方式的说明，并且旨在避免模糊本发明。还应该理解，在整个讨论中，组件可以被描述为单独的功能单元，所述单独的功能单元可以包括子单元，但是本领域技术人员将认识到，各种组件或其部分可以被分成单独的组件或可以集成在一起，包括集成在单个系统或组件中。应该注意，这里讨论的功能或操作可以作为组件实施。组件可以用软件、硬件或其组合来实现。

此外，附图中的组件或系统之间的连接不旨在限于直接连接。更确切地说，这些组件之间的数据可以通过中间组件来修改、重新格式化或以其它方式改变。另外，可以使用额外的或更少的连接。还应当注意，术语“联接”、“连接”或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。

本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的引用意味着结合所述实施方式描述的特定特征、结构、特性或功能包括在本发明的至少一个实施方式中或包括在多个实施方式中。而且，说明书中各处出现的上述短语并不一定都指代相同的实施方式。

说明书中各个地方的某些术语的使用出于说明的目的，而不应被解释为限制。服务、功能或资源不限于单个服务、功能或资源；对这些术语的使用可以指代可分布或聚合的相关服务、功能或资源的组合。

术语“包括”、“包括有”、“包含”和“包含有”应被理解为开放式术语，并且其后列出的任何项目都是示例，并不意味着限于所列出的项目。本文使用的任何标题仅用于组织目的，而不应被用来限制说明书或权利要求书的范围。本专利文献中提及的每个参考文献通过引用以其整体并入本文。

此外，本领域技术人员应认识到：(1)可以可选地执行某些步骤；(2)步骤可以不限于本文阐述的特定顺序；(3)某些步骤可以以不同的顺序执行；(4)某些步骤可以同时进行。

A.简介

如前所述，目前的提取式问答的方法面临多个限制。例如，它们在回答问题之前必须考虑整个文档，限制了它们应用于较长的文档。其次，它们广泛地依赖于高代价的双向关注机制，或者必须排列所有可能的答案跨度。以及第三，目前的方法仍然不提供可改善现有系统的性能的训练数据，也不允许明确地使用问题本质或条目类型来控制生成。

本文呈现的是用于解决这些限制的系统和方法。在实施方式中，考虑了所附权利要求或主张。首先，提取式问答可以作为分解搜索过程，而语句提供了一个功能强大且易于学习的用于搜索的文档分解，但这种分解使得条件计算能够基于搜索路径分配到文档子部分。其次，没有双向关注机制或排列所有可能答案跨度的模型(其具有全局归一化决策过程并且使用集束搜索进行训练)可以比拟或超越现有的方法，并且在提取式问答上达到接近现有发展水平的结果。第三，类型交换(其是一种数据扩展方法，所述数据扩展方法将源代码中的命名条目与知识库对齐，并将它们交换为共享相同类型的新条目)明确地将类型和问题本质整合到生成过程中，并且提高用它训练的问答系统的性能。

这些方法(其中本文示出了全局归一化阅读器(GNR)模型实施方式、遍及文档执行迭代搜索过程的模型、遍及文档执行迭代搜索过程的模型(在图2中以可视方式描绘))由SQuAD数据集上的实验来支持，并且具有基于搜索过程有条件地分配的计算，达到接近现有发展水平的精确匹配(EM)和F1分数，而不借助于较高代价的关注或所有可能跨度的排列。此外，本文还证明类型交换(其是一种知晓类型的数据扩展策略)改善了提取式问答模型的性能。

下一章节将如下进行。在章节B，介绍任务和模型实施方式。章节C描述数据扩展策略的实施方式。章节D介绍实验和结果。在章节E中，讨论一些发现。在章节F中，介绍涉及学习-搜索、提取QA和数据扩展的现有方法的实施方式的各方面。在章节G中，介绍了某些系统实施方式的实施。最后，在章节H中，介绍了一些结论。

B.模型实施方式

给定文档和问题，提取式问答可被认为是搜索问题。图1描绘了根据本公开实施方式的问答方法。在实施方式中，选择包含答案跨度的语句(105)；然后，选择答案跨度的第一个单词(110)，以及最终选择最后一个单词(115)。

所描述的该过程在图2中使用示例示出，该示例使用实际模型的预测。图2描绘了根据本公开实施方式的回答问题的全局归一化阅读器(GNR)模型实施方式。在描绘的实施方式中，概率是全局的、在集束上归一化的，而不是局部概率。应注意的是，最终预测概率大于第一决策和第二决策，模型随着搜索过程更为可靠。

起初，较高的分数归因于挑选语句“她是...”而不是“Ada Lovelace是...”。然而，在跨度开始阶段，“Ava”、“Lovelace”和“Charles”全部从第一个语句中选择，并且第二个语句从集束脱离。最后，在跨度停止阶段，具有“Ada”的集束形成“Ada Lovelace”作为答案，“Charles”形成“Charles Babbage”和“Charles Babbage的分析引擎”，并且“Lovelace”从集束中脱离。较高分数预测是“Ada Lovelace”。

关于这一附图至少有两点值得注意。首先，附图中所示的概率不是有条件的：最终预测的概率(0.64)超过了语句选择的概率(0.49)，反映了随着搜索缩小而更为可靠。其次，搜索分支在每个阶段基于所有子节点的上下文来修剪或扩展：尽管具有较高的初始概率，但是第二语句被修剪，因为在第一语句中找到有希望的节点。类似地，“Charles”接收两个子节点，而“Ada”只需要并接收一个。

更正式地，在实施方式中，设d₁,…,d_n表示文档中的每个语句，并且对于每个语句d_i，设d_i,1,…,

表示与语句中的单词对应的单词向量。同样，设q₁,…,q_l表示与问题中的单词对应的单词向量。在实施方式中，答案是指示正确语句i*、语句j*中的开始单词和语句k*中的结束单词的元组a＝(i*,j*,k*)。设A(d)表示文档d的有效答案元组的集合。在图2中示出了模型实施方式的输出示例，以及在图3中用图形描绘了模型的示例实施方式。要注意的是，在所描绘的实施方式中：双向长短期存储(Bi-LSTM)层305、310和315共享权重，并且全连接(FC)层330与Bi-LSTM层320和325共享权重。还要注意，顶部元素被保留(例如项目350-370)。

1.问题编码

图4描绘了根据本公开实施方式的问题编码方法。在实施方式中，通过在问题中的每个单词上运行双向LSTM(Bi-LSTM)的堆叠来对每个问题进行编码(405)，并且产生(410)隐态h₁,h₂,…,h_l。这些隐态可被用来计算(415)与通道无关的问题嵌入，q^indep。在实施方式中，可以通过以下步骤计算与通道无关的问题嵌入。

其中，w_q为可训练的嵌入向量，并且设MLP为具有修正线性单元(ReLU)非线性的双层神经网络。

在实施方式中，通过连接前向LSTM和后向LSTM的最终隐态和与通道无关的嵌入来表示问题(420)，

在实施方式中，每个单词被分配索引，所述索引与单词嵌入矩阵中的预定向量关联。向量维度比词汇表的维度小。在实施方式中，未知单词不具有自然索引。相反，它们与单词嵌入矩阵的预先分配的特定区域中的矢量关联。

2.知晓问题的文档编码

图5描绘了根据本公开实施方式的知晓问题的文档编码方法。在实施方式中，以问题向量为条件，计算对周围上下文和问题都敏感的每个文档单词的表示(505)。具体而言，文档中的每个单词表示为其单词向量d_i,j、问题向量q、指示该单词是否也出现在问题中的布尔特征(Boolean Feature)、指示该单词是否在文档中重复的布尔特征和问题对齐嵌入的连接。在实施方式中，问题对齐嵌入

可以通过以下获取：

s_i,j,k＝MLP(d_i,j)^TMLP(q_k)

(4)

在实施方式中，通过在整个文档上运行单独的Bi-LSTM堆叠来对文档进行编码(510)，产生(515)隐态序列

在实施方式中，搜索过程随后在这些隐态上进行操作。

3.答案选择

语句选择。图6描绘了根据本公开实施方式的语句选择方法。在实施方式中，搜索过程的第一阶段选择包含答案跨度的语句。每个语句d_i由语句中第一个单词和最后一个单词的分别针对前向LSTM和后向LSTM的隐态

表示(605)，并且通过将所述表示通过全连接层来评分(610)，表示为φ_sent(d_i)，其中，全连接层输出语句d_i的非归一化语句分数。

在实施方式中，对全部语句的语句分数进行排名(615)并保留(620)顶部k个最佳语句以用于随后的跨度选择，其中k是大于或等于1但小于文档中的语句总数(n)的数。在实施方式中，k是可调参数。

虽然图6示出了基于语句进行选择的实施方式，但是本领域普通技术人员可以理解，除了语句，段落、子语句或其他格式的文档部分也可以用作开始选择的基本单元。

跨度开始选择。图7描绘了根据本公开实施方式的跨度开始选择方法。在实施方式中，对于每个选择的语句d_i，答案跨度的开始是在所述语句内进行选择的。每个潜在开始单词d_i,j可以被表示(705)为其对应的文档编码

并且可以通过将该编码通过全连接层来评分(710)，所述全连接层输出语句i中的单词j的非归一化开始单词分数，表示为φ_sw(d_i,j)。

在实施方式中，对于每个选择的语句，将语句分数和所选语句中的每个潜在开始单词的开始单词分数分别相加(715)以得到多个求和分数。在所述多个求和分数中，所有潜在开始单词中具有顶部k个求和分数的潜在开始单词被保留(720)，以用于跨度开始选择。在实施方式中，k是与在语句选择中使用的参数相同的值。

跨度结束选择。图8描绘了根据本公开实施方式的跨度结束选择方法。在实施方式中，以所选择的语句d_i和开始单词d_i,j为条件，从语句d_i,j,…,

中的剩余单词中选择结束单词。为此，可以在剩余文档隐态

上运行Bi-LSTM以产生(805)表示

然后，通过使

通过全连接层来对每个结束单词d_i,k进行评分(810)，所述全连接层输出语句i中的单词k的非归一化结束单词分数，其利用开始单词j，表示为φ_ew(d_i,j:k)。

在实施方式中，可以将来自过程的每个阶段的分数(包括语句分数、开始单词分数和结束单词分数)相加(815)在一起以获取与多个跨度对应的答案分数。然后将答案分数全局归一化(820)以在多个跨度中选择具有最高全局归一化答案分数的跨度。全局归一化的细节将在下面章节进行描述。

4.全局归一化

在实施方式中，用于模型的每个阶段的分数可以在局部或全局级别被归一化。之前的工作表明，局部归一化模型通常具有较弱的纠正先前决策中所犯错误的能力，而全局归一化模型确实比局部归一化模型更具具表达能力。因此，为了允许模型实施方式从不正确的语句或开始单词选择中恢复，可以将来自过程的每个阶段的分数全局归一化。

图9描绘了根据本公开实施方式的全局归一化方法。在步骤905中，在文档内获取多个候选跨度(或潜在答案)，每个跨度从文档的选定语句中的开始单词开始并结束于结束单词。结束单词是所选语句中的开始单词之后的剩余单词。每个开始单词与开始单词分数关联，每个结束单词与结束单词分数关联，并且每个选择的语句与语句分数关联。在步骤910中，通过组合与候选跨度相关的语句分数、开始单词分数和结束单词分数来获取每个候选跨度的答案分数。在步骤915中，对每个候选跨度的答案分数进行指数化，并且在步骤920中，通过对所有指数化的答案分数求和来创建配分函数。在步骤925中，使用配分函数来对每个指数化的答案分数进行全局归一化，以获取每个候选跨度的全局归一化概率。最后，在步骤930中，基于归一化概率，选择一个或多个候选跨度作为答案。

在实施方式中，在局部归一化模型中，每个决策都以先前的决策为条件。潜在答案a＝(i,j,k)的概率可以被分解为：

每个子决策可以通过将softmax应用于相关的选择分数而被局部归一化：

在实施方式中，为了允许问答模型从不正确的语句或开始单词选择中恢复，分数从过程的每个阶段被全局归一化。在全局归一化的模型中，score(a,d,q)可以被定义为：

score(a,d,q)＝φ_sent(d_i)+φ_sw(d_i,j)+φ_ew(d_i,j:k) (11)

在实施方式中，

建模为：

其中Z是配分函数

Z＝∑_a′∈A(d)exp(score(a′,d,q)) (13)

与局部归一化模型相反，模型的实施方式在所有可能的搜索路径上归一化，而不是归一化搜索过程的每个步骤。在推断时，问题是要找到：

其可以使用集束搜索被近似地求解。

5.目标和训练

在实施方式中，使用随机梯度下降在训练集上最小化负对数似然。对于单个示例((i,j,k),d,q)，负对数似然函数

-score(a,d,q)+logZ (15)

需要高代价的求和来计算log Z。为了确保学习是高效的，可以在训练和早期更新期间使用集束搜索。具体地，Z可以通过仅对最后集束B上的候选进行求和来近似：

在训练时，如果黄金序列在解码期间在步骤t处从集束脱离，则可以对通过步骤t计算的部分目标执行随机梯度步骤，以及在时间t对集束进行归一化。

6.实施

在实验中，表现最好的模型实施方式之一使用了用于问题和文档编码的3个Bi-LSTM的堆叠和用于跨度预测结束的单个Bi-LSTM。所有循环层的隐藏维度为200。

在实施方式中，使用了300维的8.4B令牌Common Crawl GloVe向量。Common Crawl词汇表中缺少的单词被设置为零。在实验中，所有考虑的架构具有足够的能力来对训练集过拟合。模型通过以下操作被正则化：在整个训练中固定单词嵌入、以及以0.3的概率丢弃Bi-LSTM的输入、以及以0.4的概率输入到全连接层。使用Adam(Diederik Kingma和JimmyLei Ba,“Adam：A Method For Stochastic Optimization”，可在arxiv.org/abs/1412.6980处获取，并且所述文章的全部内容通过引用并入本文)训练模型实施方式，学习速率为0.0005，β₁＝0.9，β₂＝0.999，ε＝10^–8，以及批大小为32。

实验在Tensorflow中实施，以及使用Ciseau进行断词。尽管在训练期间执行集束搜索，但是模型实施方式通过在CuDNN中使用高效的LSTM基元并且通过批处理示例和搜索集束的计算来在4小时内训练至收敛。

实验表明，GNR的实施在推理时间上比官方的双向关注流实施快24.7倍。具体而言，在运行Ubuntu 14且具有40个Intel Xeon 2.6Ghz处理器、386GB RAM和12GB TitanX-Maxwell GPU的机器上，具有32的集束大小和32的批大小的GNR需要51:58±0:266秒(平均±std)(5次运行中所有数字的平均)来处理SQUAD验证集。相比之下，具有32的批大小的双向关注流模型需要1260:23±17:26秒。这种加速可归因于避免了高代价的双向关注机制并且使得计算以搜索集束为条件。

应当指出的是，实验和实施例是通过示例的方式提供的，并且是在特定的条件下使用特定的一个或多个实施方式和具体的实施例来进行的；因此，这些具体的实验和具体的实施例都不应被用于限制本专利文献的公开范围。

C.类型交换

在提取式问答中，可能答案跨度的完整集可通过只保留性质(人、对象、地点、日期等)与问题类型(Who、What、Where、When等)一致的答案而被修剪。虽然这种启发式搜索帮助人类读者在搜索信息时过滤掉文档的不相关部分，但是在数据集中不存在明确的监督。尽管存在这种缺失，但是观察到了在该任务上的问题模型实施方式学习的分布式表示中的突发行为：针对不同问题类型的RNN隐态自然地聚类成问题类型(参见表1)。

换言之，任务的本质引起了表面上关注类型信息的问题编码。该属性可以被认为是一把双刃剑：它允许模型容易地清除不适用的答案，但是也可能由于选择共享答案类型但具有错误的基础条目的文本跨度而使其偏离。

表1：在Bi-LSTM之后的问题的K均值(K＝7)群集中的顶部双单词组。观察到了根据问题类型的突发集群：例如，Where→集群7；Who→集群3。用更多的集群观察到了“What”的粒度。

在实施方式中，使用了类型交换，类型交换是利用这种突发行为来提高模型修剪错误答案的能力并使其对表面形式变化更稳健的扩展策略。

类型交换策略可与上述全局归一化方法一起使用。也可以应用前述过程，其包括获取文档中的候选跨度、全局归一化候选跨度、以及选择一个或多个候选跨度作为答案。图10描绘了根据本公开实施方式的类型交换方法。在实施方式中，该策略包括三个步骤：

1.在步骤1005中定位文档和问题中的已命名的条目。

2.在步骤1010中采集每个条目类型的表面变化：

人物→{Ada Lovelace,Daniel Kahnemann,...},

国家→{USA,France,...},

...

3.在步骤1015中，通过将原始三元组中的每个已命名的条目与采集中共享相同类型的表面变化交换，生成一个或多个新的文档问题对。

以自然语言给以命名的条目分配类型是一个开放的问题，但是，当面对这样的文档(其中，可以安全地假定大多数条目都包含在如Wikidata的大型知识库(KB)中)时，简单的字符串匹配技术是足够准确的。用该KB和一组文件进行处理时，可以使用一部分语音标注器来提取训练数据中的名词性词组，并与KB中的条目进行字符串匹配。使用这种技术，在SQUAD中提取了47,598个条目，47,598个条目属于6,380个Wikidata实例(即，“这个主题所属的类别是特定示例和成员类型”)。另外，“数字类型”(例如，年、星期几、距离等)被分配给包含日期、数字或数量的名词性词组。在一些实验中，已发现：在所生成的示例中不包括数值变化导致不平衡的数据集和较低的最终性能。执行这两个提取步骤之后，获取84,632个唯一的表面变化(平均每种类型16.93个)。用这种方法生成2.92×10³⁶⁹个唯一的文件(平均每个原件3.36×10³⁶⁴个新文件)。在实施方式中，为了确保生成的文档中存在足够的变化，从该集合中采样，并且只有问题或答案发生变异的变化才被保留。在实施方式中，每个训练时期，所述模型在T型交换示例和完全初始训练数据上训练。所述方法的示例性输出在图11中示出，并且用下划线标出替换部分且原文在其下方。

对于一个或多个新的文档问题对，获取候选跨度、全局归一化候选跨度、以及选择一个或多个候选跨度作为答案的过程在步骤1020中重复，直到满足一个或多个停止条件。

图12描绘了示出发生在人、数字、日期和组织中的大多数表面变化的图。

D.结果

应该注意的是，这些实验和结果是通过示例的方式提供的，并且是在特定的条件下使用特定的一个或多个实施方式来执行的；因此，这些实验及其结果都不应被用于限制本专利文献的公开范围。

模型实施方式在SQuAD数据集上被评估，并且执行数个消除以评估本文呈现的方法实施方式的相对重要性。

1.集束宽度和归一化

在第一实验中，目的是量化全局归一化对学习和搜索过程的重要性。对于局部和全局归一化模型，使用T＝10⁴型交换样本，集束宽度B在1至32之间变化，并且使用PranavRajpurkar、Jian Zhang、Konstantin Lopyrev和Percy Liang在“SQuAD:100,000+Questions For Machine Comprehension Of Text”(可在arxiv.org/abs/1606.05250获取，其全部内容通过引用并入本文，并且在下文中可以用“[1]”来引用)中提出的评估脚本计算模型的预测答案和真实答案的精确匹配和F1得分。表3呈现了多种模型的比较数据，包括本专利文献的GNR模型。另外，另一个被称为语句分数的度量被提出，所述度量是对预测答案多接近真实答案语句的测量。该度量提供了预测期间在哪里发生错误的测量。

表3：集束宽度B的影响

2.类型互换

在第二实验中，扩展数据对模型实施方式性能的影响被评估。在该实验中，对于局部和全局归一化模型，集束宽度的变化范围是1到32，并且扩展的变化范围是T＝0(不扩展)到T＝5×10⁴。该实验的结果总结在表4中。观察到两种模型在T>0时性能都有所提高，并且性能在超过T＝10⁴之后降低。而且，数据扩展和全局归一化是互补的。总之，在局部归一化基线上获取1.6EM和2.0F1的改善。

通过观察扩展数据对DCN+(具有附加超参数的DCN)的影响，还验证了类型交换的影响不限于具体模型。如表5所示，表明其较强地减少泛化误差，并有助于改善F1，并且通过减少其他形式的规范化而导致潜在的进一步改善。

表4：扩展样本大小k的影响

表5：类型交换对DCN+的影响

3.学习—搜索

已发现宽的集束宽度对于训练全局归一化模型是重要的；然而，它对局部归一化模型的影响较小。令人惊讶的是，在局部归一化模型中，较宽的集束对性能是有害的。见表3。更宽的集束B和更扩展的样本k倾向于改善全局归一化阅读器的最终性能，如在表4中通过最佳性能的模型所能看到的。还应注意，大于32的集束宽度没有导致改善的最终性能。如表3中所示，使用全局归一化而不是局部归一化能够更好地泛化。而且，在扩展的训练集上，全局归一化的益处与数据扩展的益处叠加(见表4)。

E.讨论

在这一部分，讨论部分D中呈现的结果，包括解释结论如何与上文提到的主要方法有关。

1.提取式问答作为一个搜索问题

通过实验，发现增加搜索集束和允许进一步的探索提高了本专利文献所达到的水准以及全局归一化阅读器(GNR)方法的性能。具体地，应注意到，增加集束宽度大大改善了局部和全局归一化模型的精确匹配得分(见表3)，从而表明搜索错误占了不同模型之间性能差异的很大部分。

一些其他模型通过对所有可能跨度进行排序并从而不跳过任何可能的答案来克服这个困难。然而，如表2所示，提案集是全部可能跨度的模型间的差异表现得与GNR相似或更差，从而支持这样一种说法，即认真的学习-搜索策略实际上可以弥补在所有可能的跨度上得分的优势。

表2：模型比较

模型	EM	FI
			Human[1]	80.3	90.5
单模型
			Sliding Window[1]	13.3	20.2
Match-LSTM[2]	64.1	73.9
			DCN[3]	65.4	75.6
Rasor[4]	66.4	74.9
			Bi-Attention Flow[5]	68.0	77.3
FastQAExt[6]	70.3	78.5
			全局归一化阅读器(GNR)	68.4	76.2

其中：

[1]＝Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev和PercyLiang.2016.“SQuAD:100,000+Questions For Machine Comprehension Of Text”(2016)，其可在arxiv.org/abs/1606.05250处获取，并且其全部内容通过引用并入本文；

[2]＝Shuohang Wang和Jing Jiang.2016.“Machine Comprehension UsingMatch-LSTM And Answer Pointer”，其可在arxiv.org/abs/1608.07905处获取，并且其全部内容通过引用并入本文；

[3]＝Caiming Xiong、Victor Zhong、以及Richard Socher.2016.“Dynamiccoattention networks for question answering”，其可在arxiv.org/abs/1611.01604处获取，并且其全部内容通过引用并入本文；

[4]＝Kenton Lee、Tom Kwiatkowski、Ankur Parikh和Dipanjan Das.2016.“Learning Recurrent Span Representations For Extractive Question Answering”，其可在arxiv.org/abs/1611.01436处获取，并且其全部内容通过引用并入本文；

[5]＝Minjoon Seo、Aniruddha Kembhavi、Ali Farhadi和HannanehHajishirzi.2016.“Bidirectional Attention Flow for Machine Comprehension”，其可在arxiv.org/abs/1611.01603处获取，并且其全部内容通过引用并入本文；以及

[6]＝Dirk Weissenborn、Georg Wiese和Laura Seiffe.2017.FastQA:A Simpleand Efficient Neural Architecture for Question Answering”，其可从arxiv.org/abs/1703.04816获取，其全部内容通过引用并入本文。

2.搜索整理和知晓类型的数据扩展

类型交换是本文提出的数据扩展策略实施方式，所述类型交换提供了将问题的实质和答案中已命名的条目的类型并入模型实施方式的学习过程中并降低对表面变化的敏感性的方式。现有的提取QA的神经网络方法迄今忽略了该信息。这种类型的扩展有助于通过提供对不同答案类型的更好覆盖，来使搜索过程变得敏锐并提高性能。增加使用的扩展样本数量提高了所研究的全部模型的性能(见表4)。通过一定量的扩展，观察到性能降低，由此表明尽管努力模仿原始训练集，但是在数据分布中存在训练测试不匹配或者在所生成的示例中存在太多重复。

尽管如此，通过T∈[10⁴,5×10⁴]，(EM,F1)针对局部归一化模型得到(65.8→66.7,74.0→75.0)的提高，以及针对全局归一化模型得到(66.6→68.4,75.0→76.2)的提高。尽管实验是在单个架构上进行的，但是这种改善的来源并不依赖于实施方式架构选择，并且因此这些有益效果预期会延续到不同的模型(例如,[6]Weissenborn等,2017；[5]Seo等,2016；[3]Xiong等,2016)，并且也许更广泛地包含在其他自然语言任务中，所述自然语言任务中包含已命名的条目并具有有限的监督数据。

3.集束搜索和条件计算

本文提出的主张之一是依赖全局归一化的基于搜索的模型可以成功地与高代价的方法竞争或者超越高代价的方法，其中，所述基于搜索的模型利用集束搜索、循环神经网络和以搜索路径为条件的计算来进行训练。该主张以至少两种方式得到支持：首先应注意，在仅考虑其搜索集束中的跨度时，除[5](Seo等，2016)和[6](Weissenborn等，2017)之外，表2中表现最好的模型实施方式优于先前的方法。其次，考虑了集束宽度对全局归一化模型可训练性的影响，并且发现其对于训练条件计算能力具有强烈影响：在局部归一化模型中，仅推理受集束宽度影响，因为在(EM 66.7→65.7并且F1 75.0→74.8)之间切换时它们的性能略有下降，而全局归一化的模型(其中，定向宽度影响早期更新所需的频率)更加受到利用小集束宽度1的训练的影响(当B＝32→1时，EM 68.4→58.8并且F1 76.2→68.4)。

F.相关工作

学习-搜索。针对各种自然语言处理(NLP)任务和条件计算已经提出了多个用于学习-搜索的方法。最近，一些研究已经证明了全局归一化网络以及利用集束搜索进行的训练对词性标注和基于转换的依存关系语法分析的有效性，而另一些表明这些技术也可以应用于包括机器翻译在内的多个应用领域中的序列到序列模型。这些工作专注于解析和序列预测任务，并且具有固定的计算而不考虑搜索路径，而在本文示出的是，这样的技术还可以应用于问答并扩展到允许基于所选搜索路径的条件计算。

在用于图像字幕的利用条件计算的模块化神经网络的环境下，也已经使用了学习-搜索。强化学习被用于学习如何启动和结束计算，而在本文中已经发现了条件计算可以利用最大似然来学习以及早期更新对指导训练过程的帮助。

提取式问答。自引入SQuAD数据集(见[1]Rajpurkar等，2016)以来，许多系统已经取得良好结果。有的利用双向关注机制，而本文中的GNR实施方式更轻量级，并且在没有这类关注机制的情况下获取了相似的结果。GNR实施方式使用的文档表示类似于[4](Lee等，(2016))。然而，[4](Lee等，(2016))和[2](Wang以及Jiang(2016))都必须对所有O(N²)可能的答案跨度进行评分，使训练和推理具有高代价。在只对O(|B|)跨度评分时，本文提出的GNR实施方式通过在训练期间学习-搜索来避免这种复杂性，并且优于上述两个系统。[6](Weissenborn等，(2017))是首个预测每个跨度开始单词和结束单词的局部归一化模型。本文进行的实验表明，进一步因数分解问题并使用全局归一化与本文提出的数据扩展方法实施方式将产生相应的改善。

数据扩展。一些工作已使用数据扩展作为用于控制深度学习模型的泛化误差的技术。一些使用同义词典来基于同义词生成新的训练样本。其他的采用类似的方法，但是使用Word2vec和余弦相似性来找到相似的单词。还有一些使用高精度同步上下文无关语法来生成新的语义解析样本。本文公开的数据扩展技术、类型交换是独一无二的，因为它利用外部知识库来提供新样本，其中，所述新样本与仅使用同义词典或Word2Vec的方法相比具有更多变化和更精细的变化，同时保持叙述和语法结构的完整。

最近，已经提出了序列到序列模型以在SQuAD上生成多样且逼真的训练问答对。虽然在某种程度上类似于这种方法，因为本文的技术利用现有样本来产生流畅的新样本，然而，本文中的实施方式还能够将条目类型信息明确地结合到生成过程中，并使用生成的数据来提高问答模型的性能。

G.系统实施方式

在实施方式中，本专利文献的各个方面可涉及或实施于信息处理系统/计算系统。为了本公开的目的，计算系统可以包括可操作用于计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、切换、存储、显示、通信、表示、检测、记录、复制、操作或利用任何形式的信息、情报、或用于商业、科学、控制或其他目的的数据的任何工具或工具的集合。例如，计算系统可以是个人计算机(例如，笔记本电脑)、平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如，刀片服务器或机架服务器)、网络存储设备，或任何其他适当的设备，并且可以在大小、形状、性能、功能和价格上有所不同。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或者硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的其他组件可以包括一个或多个磁盘驱动器、用于与外部设备通信的一个或多个网络端口以及各种输入和输出(I/O)设备(诸如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可以包括可操作以在各种硬件组件之间传输通信的一个或多个总线。

图13描绘了根据本公开实施方式的计算设备/信息处理系统(或计算系统)的简化框图。应理解，系统1300示出的功能可以操作为支持信息处理系统的各种实施方式—然而还应理解，信息处理系统可以被不同地配置并且包括不同的组件。

如图13所示，系统1300包括提供计算资源并控制计算机的一个或多个中央处理单元(CPU)1301。CPU 1301可以用微处理器或类似的设备来实施，并且还可包括用于数学计算的一个或多个图形处理单元(GPU)1317和/或浮点协处理器。系统1300还可包括系统存储器1302，系统存储器1302的形式可以是随机存取存储器(RAM)、只读存储器(ROM)或两者兼有。

如图13所示，还可提供多个控制器和外围设备。输入控制器1303表示到各种输入设备1304的接口，诸如键盘、鼠标或触控笔。还可存在扫描仪控制器1305，扫描仪控制器1305与扫描仪1306通信。系统1300还可包括用于与一个或多个存储设备1308接口连接的存储控制器1307，其中，每个存储设备1308包括可用于记录操作系统、实用程序和应用程序的指令程序的存储介质(诸如磁带或磁盘或光学介质)，所述操作系统、实用程序和应用程序可以包括实现本发明各个方面的程序实施方式。存储设备1308还可用于存储根据本发明的经处理的数据或待处理数据。系统1300还可以包括用于向显示设备1311提供界面的显示控制器1309，所述显示设备1311可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器或其他类型的显示器。所述计算系统1300还可包括用于与打印机1313进行通信的打印机控制器1312。通信控制器1314可以与一个或多个通信设备1315接口连接，所述通信设备1315使系统1300能够通过多种网络中的任何网络连接到远程设备，所述网络包括互联网、云资源(例如，以太网云、以太网上的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)或者通过包括红外信号的任何合适的电磁载波信号。

在所示系统中，所有主要系统组件可连接到总线1316，所述总线1316可表示多个物理总线。然而，各种系统组件可在物理上彼此接近或不在物理彼此接近。例如，输入数据和/或输出数据可以从一个物理位置远程传输到另一个。另外，可以通过网络从远程位置(例如服务器)访问实施本发明的各个方面的程序。这样的数据和/或程序可以通过各种机器可读介质中的任一种来传送，包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备以及ROM和RAM设备。

本发明实施方式可以在一个或多个非暂时性计算机可读介质上编码，非暂时性计算机可读介质具有供一个或多个处理器或处理单元用于使步骤执行的指令。应当注意，一个或多个非暂时性计算机可读介质将包括易失性和非易失性存储器。应注意，替代实现方式是可能的，包括硬件实现方式或软件/硬件实现方式。硬件实现的功能可以通过使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“装置”术语旨在涵盖软件和硬件实现方式。类似地，在本文使用的术语“计算机可读介质或媒介”包括具有在其上实现的指令程序的软件和/或硬件，或其组合。考虑到这些替代实现方式，应理解，附图和相关描述提供了本领域技术人员编写程序代码(即软件)和/或制造电路(即硬件)来执行所需处理需要的功能信息。

应注意，本发明实施方式还可涉及具有非暂时性的有形计算机可读介质的计算机产品，所述非暂时性的有形计算机可读介质上具有用于执行各种计算机实现的操作的计算机代码。所述介质和计算机代码可以是为了本发明的目的而专门设计和构造的，或者它们可以是相关领域技术人员已知的或可用的类型。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息设备的光学介质；磁光介质；和专门配置为存储或存储并执行程序代码的硬件设备，所述硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备以及RAM与ROM设备。计算机代码的示例包括机器代码，例如由编译器生成的和包含由计算机使用解释器执行的更高级代码的文件。本发明实施方式可以全部或部分地实施为机器可执行指令，所述机器可执行指令可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者的设置中。

本领域技术人员将认识到，计算系统或编程语言对于本发明的实践不是关键的。本领域的技术人员还将认识到，上述的多个元件可以在物理上和/或功能上划分成子模块或组合在一起。

H.一些结论

本文提供了方法实施方式，其可以通过降低计算复杂性、知晓类型并且允许模型可在无需处理整个文档的情况下操作来克服现有提取式问答方法的一些局限性。在实验中，发现了一下证据，即可以使用学习-搜索技术来进行提取式问答，以及在全局归一化的情况下这样操作可以导致接近现有水平的结果。另外，发现知晓类型的数据扩展策略提高了对SQuAD数据集进行研究的所有模型的性能，而该方法的某些实施方式具有这样的假设，所述假设为训练数据包含来自大KB的已命名的条目。本文公开的方法是通用的，并且所述方法可以应用于将从更多训练数据中受益的其它NLP任务。

应注意，所提出的GNR模型的实施方式可以应用于其他问答数据集，诸如MS MARCO或NewsQA。而且，应注意，诸如已命名条目识别、条目链接、机器翻译或汇总的其他任务可以受益于类型交换的使用。最后，本领域技术人员还应该认识到，存在广泛的结构化预测问题(代码生成和用于图像、音频或视频的生成模型)，其中，原始搜索空间的大小使当前技术难以处理，但如果采用使用集束搜索、全局归一化和条件计算的学习-搜索问题，则可以解决该难题。

本领域技术人员将理解，以上示例和实施方式是示例性的，而不限制本公开的范围。在阅读说明书和研究附图后，对本领域技术人员显而易见的所有变换、增强、等同、组合和改善均包括在本公开的实质精神和范围内。还应该注意，任何权利要求的要素可以不同地排列，包括具有多种引用关系、配置和组合。

Claims

1.一种用于选择给定输入问题的答案的计算机实现的方法，所述方法包括：

对所述输入问题进行编码以获取问题表示；

对于来自一组文档的每个文档，对所述文档进行编码以产生隐态的序列来表示所述文档中的每个单词；

获取所述文档的每个语句的语句分数，所述文档的每个语句由所述语句中的第一个单词和最后一个单词的隐态表示；

基于所述语句分数在所有语句中选择一组语句；

对于所选择的语句中的每个单词，获取开始单词分数；

对于所选择的每个语句，分别对所述语句分数和每个单词的所述开始单词分数进行求和以得到多个求和分数；

基于所述求和分数从所有所选择的语句的单词中选择一组单词作为开始单词；

获取多个跨度的结束单词分数，每个跨度从一个开始单词开始并结束于所述开始单词之后的剩余单词；

基于每个跨度的语句分数、开始单词分数和结束单词分数的组合，从所述多个跨度中选择候选跨度；

对于每个候选跨度，生成全局归一化概率；以及

基于所述全局归一化概率选择一个或多个候选跨度作为所述答案。

2.根据权利要求1所述的计算机实现的方法，其中，语句分数、开始单词分数和结束单词分数的所述组合是所述语句分数、所述开始单词分数和所述结束单词分数的求和。

3.根据权利要求1所述的计算机实现的方法，其中，对所述输入问题进行编码以获取问题表示包括：

在所述问题中的每个单词上运行双向的双向长短期存储层的堆叠；

为每个单词产生隐态；

使用所述隐态来计算与通道无关的问题嵌入；以及

通过连接前向长短期存储和后向长短期存储的最终隐态和所述与通道无关的问题嵌入来获取所述问题表示。

4.根据权利要求3所述的计算机实现的方法，其中，所述文档通过在整个文档上运行的单独的双向长短期存储层的堆叠来被编码，以产生所述隐态的序列。

5.根据权利要求4所述的计算机实现的方法，其中，所述文档中的每个单词表示为所述单词的单词向量、所述问题的向量、指示所述单词是否也出现在所述问题中的第一布尔特征以及指示所述单词是否在所述文档中重复的第二布尔特征的连接。

6.根据权利要求4所述的计算机实现的方法，其中，所述文档的每个语句由所述语句中第一个单词和最后一个单词分别针对后向长短期存储和前向长短期存储的隐态来表示。

7.根据权利要求6所述的计算机实现的方法，其中，所述语句分数是通过将所述语句的表示通过全连接层来获取的。

8.根据权利要求1所述的计算机实现的方法，其中，所述开始单词分数是通过将所选择的语句中的每个单词的隐态通过全连接层来获取的。

9.根据权利要求1所述的计算机实现的方法，其中，获取从一个开始单词开始的跨度的结束单词分数包括：

在所选择的语句中的所述开始单词后面的剩余单词的隐态上运行双向长短期存储以产生针对所述剩余单词的表示；以及

将所述表示通过全连接层，以获取以每个剩余单词结束的跨度的结束单词分数。

10.根据权利要求1所述的计算机实现的方法，其中，所述全局归一化概率是通过对所有跨度进行全局归一化来获取的。

11.一种针对给定输入问题从文档中选择答案的计算机实现的方法，所述方法包括：

在所述文档内获取多个候选跨度，每个跨度从所述文档的所选语句中的开始单词处开始并在结束单词处结束，所述结束单词是所选语句中的所述开始单词之后的剩余单词，每个开始单词与开始单词分数关联，每个结束单词与结束单词分数关联，每个所选语句与语句分数关联；

通过组合与所述候选跨度关联的所述语句分数、所述开始单词分数和所述结束单词分数来获取每个候选跨度的答案分数；

对每个候选跨度的答案分数进行指数化；

通过将所有指数化的答案分数相加来创建配分函数；

使用所述配分函数来对每个候选跨度的每个指数化的答案分数进行全局归一化；以及

基于全局归一化的答案分数选择一个或多个候选跨度作为所述答案。

12.根据权利要求11所述的计算机实现的方法，其中，组合所述语句分数、所述开始单词分数和所述结束单词分数是通过对所述语句分数、所述开始单词分数和所述结束单词分数的求和来实现的。

13.根据权利要求11所述的计算机实现的方法，其中，所述语句分数是通过将所述语句的语句表示通过全连接层来获取的，所述语句表示是通过所述语句中第一个单词和最后一个单词分别针对后向长短期存储和前向长短期存储的隐态获取的。

14.根据权利要求11所述的计算机实现的方法，其中，所述开始单词分数是通过将所述开始单词的隐态通过全连接层来获取的。

15.根据权利要求14所述的计算机实现的方法，其中，所述开始单词的隐态通过将所述开始单词的单词向量、所述问题的向量、指示所述单词是否也出现在所述问题中的第一布尔特征以及指示所述单词是否在所述文档中重复的第二布尔特征连接而得到。

16.一种用于训练问答模型的计算机实现的方法，所述方法包括：

给定问题和文档，在所述文档内获取多个候选跨度，每个跨度从所述文档的所选语句中的开始单词处开始并在结束单词处结束，所述结束单词是所选语句中的所述开始单词之后的剩余单词，每个开始单词与开始单词分数关联，每个结束单词与结束单词分数关联，每个所选语句与语句分数关联；

基于每个候选跨度的答案分数对每个候选跨度进行全局归一化，所述答案分数通过对与每个候选跨度关联的所述语句分数、所述开始单词分数和所述结束单词分数求和来获取；

基于全局归一化的答案分数选择一个或多个候选跨度作为所述答案；

在所述文档和所述问题中定位已命名的条目；

采集每个条目类型的表面变化；

通过将原始三元组中的每个已命名的条目与所述采集中共享相同类型的表面变化进行交换来生成一个或多个新的文档问题对；以及

对所述一个或多个新的文档问题对重复获取候选跨度、对候选跨度进行全局归一化以及选择一个或多个候选跨度作为答案的过程。

17.根据权利要求16所述的计算机实现的方法，其中，所述文档中已命名的条目和所述问题包含在知识库中。

18.根据权利要求17所述的计算机实现的方法，其中，所述文档中已命名的条目和所述问题通过与所述知识库中的条目进行字符串匹配来定位。

19.根据权利要求16所述的计算机实现的方法，其中，采集每个条目类型的表面变化包括：将数字类型分配给包含日期、数字或数量的名词性词组。

20.根据权利要求16所述的计算机实现的方法，其中，在采集每个条目类型的表面变化时，只保留所述问题或答案变异的变化。