CN108780445B

CN108780445B - 用于对小数据的机器理解的并行分层模型

Info

Publication number: CN108780445B
Application number: CN201780017804.4A
Authority: CN
Inventors: P·巴克曼; A·特里施勒; 叶正; 袁星柢
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-03-16
Filing date: 2017-03-16
Publication date: 2022-10-04
Anticipated expiration: 2037-03-16
Also published as: US10691999B2; US20170270409A1; EP3430531A1; CN108780445A; US20200279161A1; WO2017161189A1; US11507834B2; US20230042546A1

Abstract

本公开的示例提供了涉及利用以并行层级布置的神经网络的具有基于学习的方法的机器理解测试的系统和方法。该并行层级使模型能够从各种视角比较段落、问题和答案，与使用手动设计的一组特征截然相反。视角的范围可以从词汇水平到句子片段再到句子序列，并且网络对文本的词汇嵌入表示进行操作。还提供了针对小数据的训练方法学。

Description

用于对小数据的机器理解的并行分层模型

相关申请的交叉引用

该申请作为PCT国际专利申请于2017年3月16日提交，并且要求于2016年3月16日提交的、题为“Parallel-Hierarchical Model for Machine Comprehension on SmallData”的美国临时申请号62/309,139的优先权，其公开内容通过引用整体并入于此。

技术领域

本说明书涉及对文本的处理理解。

背景技术

理解非结构化文本是自然语言处理的主要目标。机器理解测试(例如，MCTest)基于短文本段落提出了问题，以评估这种理解。理解系统目标在于从包含正确答案的段落中提取该正确答案。部分由于其受限的大小，对MCTest的先前的工作注意集中在基于特征的方法。

已经进行了本文所公开的方面，其是关于这些和其它一般的考虑。并且，尽管可以讨论相对具体的问题，应当理解，示例不应该被限制为解决在本公开的背景或者其它地方所标识的具体的问题。

发明内容

提供了利用以并行层级布置的神经网络的具有基于学习的方法的机器理解系统，该并行层级使模型能够从各种视角比较段落、问题和答案，与使用手动设计的一组特征截然相反。视角的范围可以从词汇水平到句子片段再到句子序列，并且网络对文本的词汇嵌入表示进行操作。还提供了针对小数据的训练方法学。

提供该“发明内容”，以便以简化的形式介绍所选择的概念，在下面在“具体实施方式”中对其进行进一步描述。该“发明内容”不旨在标识要求保护的主题问题的关键特征或基本特征，也不旨在用于限制要求保护的主题问题的范围。示例的附加的方面、特征和/或优点将部分地在下面的描述中阐述，并且部分地将从描述中显而易见，或者可以由本公开的实践来学习。

附图说明

参照以下附图描述了非限制性和非穷举性示例。

图1图示了用于在数据集上实施并行分层的机器理解的一种示例方法的概述。

图2图示了使用并行的语义和逐字处理来在数据集上实施并行分层的机器理解的一种示例处理。

图3是图示了计算设备的示例物理部件的框图，可以通过该计算设备实践本公开的方面。

图4A和图4B是移动计算设备的简化框图，可以通过该计算设备实践本公开的方面。

图5是分布式计算系统的简化框图，可以通过该分布式计算系统实践本公开的方面。

图6图示了用于执行本公开的一个或多个方面的平板计算设备。

具体实施方式

下面参照附图更加全面地描述了本公开的各个方面，附图形成本公开的一部分，并且附图示出具体的示例性方面。然而，本公开的不同方面可以以很多不同的形式来实施，并且不应被解释为被限制到本文所阐述的方面；相反，提供这些方面，以使本公开将彻底和完整，并且将向本领域技术人员充分传达方面的范围。方面可以作为方法、系统或设备来实践。相应地，方面可以采取硬件实现、完全软件实现或结合软件和硬件的方面的实现的形式。因此，以下详细描述将不被作为限制意义。

人类以各种方式学习。例如，人类通过互相交流以及通过学习文本的阅读来学习。由机器在接近人类的水平理解非结构化文本是自然语言处理中的一个目标。近年来，其已经引起了机器学习研究团体的极大关注，产生了大量的模型和数据集，在模型和数据集上测试非结构化文本的理解。

通常，机器理解(MC)是通过基于文本段落提出一组阅读问题来评估的。这类似于我们在学校中都参加过的阅读测试。这种测试是客观上可分级的，并且可以用于评估从基本的理解到因果论证到推理的一系列能力。给定文本段落和有关其内容的问题，测试机器确定对问题的正确答案的能力。MCTest是小但复杂的基准，其不仅要求提取，还要求推理和受限的论证。

本公开的方面大体涉及针对小数据的机器理解处理的并行分层的方法。例如，仅包括带有相关问题和多项选择答案候选的660个段落的MCTest是这种数据集的一个示例。为了便于公开，可以关于处理与MCTest相关的数据来描述本文所描述的各个方面。本领域技术人员将理解，然而，本文公开的各个方面可以使用其它类型的输入来实施。例如，可以使用本文所公开的各个方面来处理各种类型的文档、使用自然语言表达的交流、书籍、网页、日志文件或任何类型的电子文档。

在各个方面，模型使用数个不同的视角将问题和答案与文本进行对比。如本文所使用的，与其答案候选中的一个答案候选相结合的问题被称为假设，下面将对其进行进一步的详细描述。一个示例性的视角，语义视角，将假设与文本中被视作单个的、独立的想法的句子进行比较，句子可以使用词汇嵌入向量的求和与变换来表示。另一示例性的视角，逐字视角，专注于在各种尺度上的根据假设和文本的个体词汇之间的相似性匹配。如在语义视角的情况下，可以存在句子尺度。在另一方面，还可以使用作用于子句子尺度的滑动高斯(Gaussian)窗口，其隐含地考虑匹配的词汇之间的线性距离。这种词汇水平的滑动窗口在文本句子的诸如序列角度和依赖角度的两个不同角度上操作，在序列角度中词汇以其自然顺序出现，并且在依赖角度中词汇可以基于句子的依赖图的线性化来重新排序。这些不同的视角自然形成处理的层级，其将关于图2进行进一步详细描述。在各个方面，可以由嵌入向量在模型中表示词汇。

除了依赖图线性化(依赖于特征分解)之外，实现和合成这些视角的端到端比较函数可以是可微分的神经模型，可通过反向传播训练。不实施具体的特征工程(尽管依赖图可以被视为附加特征)，并且模型仅作为词汇嵌入的输入。这与在使用众多特征的MCTest上的大部分先前的努力形成对比。在实验中，模型在MCTest上实现最先进的准确度，优于测试集上的所有已知备选方案。

为了便于小数据的学习，可以提供训练方案。可以初始化模型的神经网络以实施具体的启发式功能。可以使用这些函数以便在数据集上产生令人满意的性能。通过这种方式，训练方法为模型提供了可以从中开始学习的安全、合理的基线。

本领域技术人员应理解，受益于本说明书，机器理解要求机器基于非结构化文本回答问题。这可以被视为从一组候选中选择最佳答案。在多选情况中，候选答案是由测试设计者预定义的，但是候选答案也可以是未定义的但是受限制的(例如，限制为是、否或文本中的任何名词短语)。

对于每个问题q，令T为非结构化文本，A＝{a₁,...,a_m}是一组q的候选答案。机器理解任务减少到选择具有给定T的最高证据的答案

答案和问题结合成假设，h_i＝f(q；a_i)。为了便于将文本与假设进行比较，将段落分解为句子t_j，T＝{t_j}。在该设置中，q，a_i和t_j各表示嵌入向量的序列，一个序列用于相应项目中的每个词汇和标点符号。

此外，受益于本说明书，本领域技术人员将理解，模型可以被划分为多种不同的方法，诸如基于特征的方法和基于学习的方法。基于特征的方法依赖于手动设计的数据特征，其需要人类设计者的大量努力，和/或重要的辅助工具来提取这些特征以供使用。基于学习的方法通常利用诸如例如为，词汇的向量表示或词汇嵌入的单个特征。这些可以预训练和微调，或者完全在数据集上训练。通常，词汇嵌入可以输入到深度神经网络中，该深度神经网络处理并将文本与问题和答案进行比较。在深度学习模型中，可以使用注意机制和工作存储器。

基于特征的模型

可以将MCTest视为结构化预测问题，搜索潜在答案需要将问题、答案和文本连接起来的结构。该结构对应于假设与文本的适当片段的最佳潜在对齐。(潜在地)选择文本片段的处理可以与用于机器理解和机器翻译的深度统计学习模型中通常使用的注意机制有关。模型使用事件和实体共同引用跨句链接以及大量其它特征。这些特征可以包括用于同义词的具体训练的词汇向量；来自外部数据库源和/或依赖关系和语义角色标签的反义和类包含关系。可以使用扩展到多任务设置的潜在结构支持向量机制(SVM)来训练模型，从而首先使用预训练的顶级分类器对问题进行分类。这使系统能够针对不同的问题类别使用不同的处理策略。该模型还使用规则将问题和答案结合到格式良好的语句中。

在一些实施例中，可以在其可访问的特征、训练程序(例如，随机梯度下降、交替最小化等)、问题分类和问答组合(例如，连接、均值、一组规则等)方面简化模型。

应当理解，基线特征集可以与特征模块组合以用于共同参考分辨率、词干和问题分类的规则。简单模型在原始基线上得到了改进，但没有达到最先进的结果。

还可以利用语法、框架语义、共同参考和/或词汇嵌入的特征来加强基线特征。特别是框架语义特征可以需要重要的手动操作。可以使用训练的线性潜在变量分类器来组合特征以最小化最大裕度损失函数。可以使用一组规则来组合问题和答案。

基于学习的模型

虽然可以使用基于学习的方法，但是该方法通常不如以上对MCTest描述的基于特征的模型准确。这是因为数据集小且复杂。捕获复杂模式的神经网络通常需要许多参数，并且参数越多，就需要更多的训练数据来调整它们。深度模型开发其自身的特征，而不是由设计师提供，但这是数据密集的处理。

还进行了关于MCTest的深度学习方法。它们测量了细心阅读器(AttentiveReader)和神经推理器(Neural Reasoner)的性能，两者都是具有注意机制的复发模型，并且还开发了基于注意力的卷积网络HABCNN。它们的网络在层级上操作，提供层级视角承诺的进一步证据。具体地说，HABCNN在句子水平和片段水平处理文本，其中后者组合类似n-gram输入的邻近的句子。经由卷积网络组合并编码针对问题和答案候选的嵌入向量。该编码调整对句子和片段编码的注意力，然后进行最大化以确定问题、答案和文本之间的最佳匹配。

并行-分层模型

图1图示了用于在数据集上实施并行分层机器理解的一种示例方法100的概述。流程开始于接收数据集的操作102。在一个方面，所接收的数据集可以包括自然语言文本。在一个示例中，所接收的数据集包括一个或多个问题、一个或多个答案、以及可以被分析以选择针对问题的适当答案的一个或多个文本条目。流程继续到操作104，其中将所接收文本转换为分布式表示。在一个示例中，将文本转换为分布式表示可以包括确定针对所接收数据集中的每个词汇和/或词汇组的向量表示。在一个方面，可以采用神经网络将文本转换为分布式表示。一个这种神经网络可以是多层感知器(MLP)。然而，本领域技术人员将理解，在不脱离本公开的精神的情况下，可以使用其它类型的神经网络。

流程继续到操作106，其中可以并行分析所接收文本的分布式表示，以便确定一个或多个问题的正确答案。在示例中，可以采用各种不同的处理来分析操作106处的分布式文本，包括但不限于语义视角处理、逐字视角处理、序列视角处理、滑动窗口处理等。虽然本文已经描述了并行实施的不同类型的处理的具体示例，但是本领域技术人员将理解，在不脱离本公开的范围的情况下，可以采用其它类型的处理。

流程继续到操作108，其中可以将形成不同处理的输出组合成单个结果集。在一个示例中，结果的组合可以由神经网络来实施。例如，可以将来自不同处理的输出提供给MLP。除了组合结果之外，神经网络可以进一步操作以基于在操作108处采用的各种处理器的组合结果，通过正确性的可能性来对假设进行排序。

在一些方面，可以进一步细化结果。例如，可以对通过在操作108组合结果所生成的有序假设实施进一步处理。如果要实施细化，那么流程将从确定操作110“是”分支到操作112。在操作112，可以选择预确定数目的高级结果用于进一步处理。所选择的结果的数目可以由实施方法100的处理预先确定，或者可以基于在操作108处生成的组合结果动态地确定。然后流程可以返回到操作106，其中可以提供多个高级结果作为在操作106处并行执行的处理的输入。

返回到操作110，在备选方面，可以不实施细化处理或者可以不需要细化处理。在这些方面，流程将“否”分支到操作114，在操作114中可以提供高级结果。在某些方面，不止一个高级结果可以返回到操作114。

图2图示了使用并行的语义处理和逐字处理对数据集实施并行分层的机器理解的一个示例处理。在该模型中，分别讨论每个视角(语义视角和逐字视角)，然后描述它们是如何组合的。不同的视角使用词汇嵌入向量作为输入。下面，下标用于索引序列的元素(如词向量)，并且上标用于指示元素是否来自输入数据202，输入数据202可以包括文本数据202A、问题数据202B和/或答案数据202B。特别地，下标(k；m；n；p)分别用于索引来自文本、问题、答案和假设的词汇序列。在一个示例中，文本数据可以由个体词汇来解析，如一元语法(例如，单个句子)、二元语法(例如，两个句子)、三元语法(例如，三个句子)或任何数目的组合句子。

在语义视角处理208中，文本的每个句子可以是d维词汇向量的序列：

可以使用MLP加和处理204来计算语义向量st。例如，可以通过使用多层感知器(MLP)将词汇向量嵌入D维空间中来计算语义向量st，多层感知器的内部变换用求和来增强；即，

并且在某些方面，矩阵A^t∈R^X×d偏置向量

针对f可以使用泄漏ReLU函数。标量ω_k可以是与词汇表中的每个词汇相关联的可训练的权重。这些标量权重形成外生或自下而上的注意力，其仅取决于输入刺激。例如，这些标量权重可以学习以柔性、可训练的方式实施禁用词列表的功能，以使无关紧要的填充词汇的贡献无效。

可以类似地形成假设的语义表示，除了问题词汇向量x^q _m和答案词汇向量x^a _n被组合为单个序列{x_p ^h}＝{x_m ^q，x_n ^a}之外。对于假设的语义向量s_h，可以使用唯一的变换矩阵A^h∈R^D×d和偏置向量b_A ^h∈R^D。

这些变换将文本句子和假设映射到其可以进行比较的公共空间。可以使用余弦相似度来计算文本句子和假设之间的语义匹配：

M^sem＝cos(s^t，s^h). (2)

构建逐字视角210的第一步是通过一个或多个相应的MLP 206从文本句子202A、问题202B和答案202C变换词汇向量。即，

其中B^y∈R^D×d，b_B ^y∈R^D，并且y∈{t，q，a}。与语义视角208相反，问题和答案候选在逐字视角210中保持分离。这是因为答案词汇的匹配本质上比问题词汇的匹配更重要，并且模型学习并利用它。可以采用各种不同的逐字视角处理来评估假设，诸如，句子处理210A、滑动窗口(SW)序列处理210B和/或SW依赖处理210C。

在本方面中，使用句子处理210A计算词汇水平的假设和文本句子之间的匹配。该计算可以分解为问题和答案，并且如上述一样使用余弦相似度：

文本句子和问题之间的逐字匹配可以通过对k取最大值(找到与每个问题词汇匹配的文本词汇)以及然后对m取加权平均值(找到完整问题的平均匹配)来确定：

这里，ω_m是词汇权重，并且Z将对求和的权重归一化到对问题的统一。类似地定义句子和答案候选之间的匹配M^a。最终，根据

M^word＝α₁M^q+α₂M^a+α₃M^qM^a.

(6)

将匹配与问题和答案相结合。

这里，α是可训练的参数，其控制不同分量的相对重要性。

序列滑动窗口处理210B返回到原始MCTest基线，具有两个关键差异。首先，可以使用词汇向量之间的软匹配，而不是词汇的精确词汇匹配；第二，滑动窗口根据高斯分布从其焦点词汇衰减，高斯分布可以表现为每个位置的权重。后一种修改使窗口能够使用关于词汇匹配之间的距离的信息；原始基线通过预定义的函数使用距离信息。

滑动窗口将文本的词汇作为一个连续的序列进行扫描，而没有句子中断。每个窗口都被视为前一小节中的句子，但是包括基于位置的权重γ^r，其中r代表窗口中的位置。余弦相似度采用：

在训练中可以对用高斯初始化的位置权重进行微调。表示为M^sws的最终匹配分数如(5)和(6)中那样计算。

依赖滑动窗口处理210B与线性滑动窗口相同地操作，但是在文本段落的不同角度上操作。段落可以被分为句子。然后可以将依赖解析器应用于每个文本句子以构建依赖图。可以采用的依赖解析器的一个示例是斯坦福依赖解析器，但是在不脱离本公开的精神的情况下可以请求其它依赖解析器。该图具有nw个顶点，一个nw用于句子中的每个词汇。从依赖图中形成拉普拉斯矩阵

并确定其特征向量。

拉普拉斯算子的第二特征向量u₂被称为Fiedler向量。它是以下最小化的解决方案：

其中v_i是图的顶点，并且n_ij是从顶点i到顶点j的边的权重。因此，Fiedler向量将加权图映射到线上，使得连接的节点保持靠近，由连接权重来调制。这使得能够基于它们在依赖图中的接近度来重新排序句子的词汇。词汇的重新排序由以下有序索引集给出：

I＝arg sort(u₂). (9)

为了举例说明这是如何工作的，考虑MCTest中的以下句子及其基于依赖的重新排序：句子“Jenny，Mustard夫人的助手，呼叫了警察。”可以重新排序为“警察呼叫了Jenny助手，Mustard夫人。”

原始句子上的基于滑动窗口的匹配将通过“Mustard夫人”来回答问题“谁叫了警察？”。依赖重新排序使模型能够确定正确的答案。

依赖滑动窗口处理210C可以使用诸如斯坦福依赖解析器的辅助工具。这些是基于线性化依赖图重新布置的。依赖滑动窗口组分的输出是M_swd，并且类似于M_sws形成的。

诸如MCTest的一些数据集可以包括针对答案的证据跨越多个句子的问题。这里的动机是确保单独通过词汇技术无法解决任务，而是需要某种形式的推理或者受限的论证。为了处理这种示例，模型还采取句子的n-gram(即，句子对和串在一起的三元组)。模型完全按照单个句子处理这种示例，应用上面详述的所有函数。后续的汇集操作将所有n-gram(包括单句输入)中的分数组合。

利用n-gram，模型可以合成分布在连续句子中的信息。然而，在一些情况下，所需的证据分散在远隔的句子中。为了给模型一些处理该情景的能力，使用通过所有前述函数评分的前N个句子，并且然后重复将这些前N个作为单个句子的评分计算。

诸如MLP的另一神经网络212用于将M^sem、M^word、M^swd和M^sws组合为针对每个答案候选的最终匹配分数M_i216。该神经网络还汇集并且组合单独的n-gram分数，并且具有线性激活函数。

在训练之前，模型的神经网络分量被初始化以使用训练轮方法执行可感知的启发式功能。根据经验发现，使用词汇向量的简单求和，然后通过问题求和与假设求和之间的点积，可以在MCTest上实现高于50％的准确度。因此，初始化针对语义视角的MLP，以执行词汇向量的求和。这是通过将A_y初始化为单位矩阵以及将b^y _A初始化为零向量来实现的，其中y∈{t，h}。回想一下，激活函数是ReLU，因此正输出不变。

逐字MLP也用单位矩阵和0偏差初始化，而视角组合的MLP初始化为使用零偏向量和1的权重矩阵来执行单个分数的总和。

训练

应当理解，如果数据集既小又复杂，那么确定正确答案是具有挑战性的。数据集的大小限制了可以训练的参数数目，并且无法同时学习任何复杂的语言建模以及回答问题的能力。然而，存在许多使用情况，其中对受限的数据的理解将是方便的(例如，用户手册、内部文档等)，并且根据受限的数据向更有效的学习的努力本身是重要的。

在该部分中，详细描述了一个示例性训练程序。训练目标是最小化排序损失：

其中μ是常数裕度，并且在i上取最大值，以便对最佳排名的错误答案(其中可能有多个)排名正确答案。该方法比单独将正确答案与错误答案相比更有效。

对于词汇向量，可以使用和训练公共可用的嵌入，例如，通过在大型语料库上使用word2vec。因为发现训练这些向量没有帮助(可能是因为小数据集的大小)，因此这些向量在整个训练中保持固定。向量可以是多维的，例如，可以使用300维(d＝300)向量。

在某些方面，禁用词汇列表可以不用于文本段落。相反，这些方面可以依赖于可训练的词汇权重，以将全球重要性评级归于词汇。可以利用在示例性语料库上计算的逆文档频率(IDF)统计来初始化这些权重。然而，短的禁用词汇列表可以用于提问。该列表使查询词汇无效，诸如{谁、什么、何时、何地、如何}，连同动词“将要”和“将会”的变形。

启发式可用于改进在否定问题上的性能。当问题包含词汇“哪个”和“不”或“不是”时，可以否定假设排名分数，使得最小值变为最大值。

图3至图6和相关描述提供了在其中可以实践本公开的方面的各种操作环境的讨论。然而，关于图3至图6所说明和讨论的设备和系统是出于示例和说明的目的，并且不限于大数目的计算设备配置，大数目的计算设备配置可以用于实践本文所述的本公开的方面。

图3是图示可以通过其实践本公开的方面的计算设备300的物理部件(例如，硬件)的框图。下面描述的计算设备部件可以适用于上述计算设备。在基本配置中，计算设备300可以包括至少一个处理单元302和系统存储器304。根据计算设备的配置和类型，系统存储器304可以包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储器(例如，只读存储器)、闪存或这种存储器的任何组合。系统存储器304可以包括操作系统305和适合于执行本文所公开的各种方面的一个或多个程序模块306(诸如，上下文关联生成部件324和隔离的收集适配部件326)。例如，操作系统305可以适合于计算设备300的操作。此外，本公开的实施例可以结合图形库、其它操作系统或任何其它应用程序来实践，并且不限于任何特定应用或系统。该基本配置在图3中由虚线308内的那些部件图示。计算设备300可以具有附加特征或功能。例如，计算设备300还可以包括附加数据存储设备(可移动和/或不可移动)，诸如例如磁盘、光盘或磁带。这种附加存储在图3中由可移动存储装置309和不可移动存储装置310图示。

如上所述，许多程序模块和数据文件可以存储在系统存储器304中。当在处理单元302上执行时，程序模块306(例如，并行分层机器理解处理320)可以执行包括但不限于如本文所述的方面的处理。根据本公开的方面可以使用的其它程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用等。

此外，本公开的实施例可以在包括分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路或者包含电子元件或微处理器的单个芯片的电路中实践。例如，可以经由片上系统(SOC)来实践本公开的实施例，其中图3中图示的每个或许多部件可以集成到单个集成电路上。这种SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，所有这些都作为单个集成电路集成(或“烧制”)到芯片衬底上。当通过SOC操作时，本文所描述的关于客户端切换协议的能力的功能可以通过与单个集成电路(芯片)上的计算设备300的其它部件集成的应用专用逻辑来操作。还可以使用能够实施逻辑操作(诸如，AND、OR和NOT)的其它技术来实践本公开的实施例，包括但不限于机械、光学、流体和量子技术。此外，本公开的实施例可以在通用计算机或任何其它电路或系统中实施。

计算设备300还可以具有一个或多个输入设备312，诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。还可以包括诸如显示器、扬声器、打印机等的(一个或多个)输出设备314。上述设备是示例，并且可以使用其它设备。计算设备300可以包括一个或多个通信连接316，其允许与其它计算设备350通信。合适的通信连接316的示例包括但不限于射频(RF)发射器、接收器和/或收发器电路、通用串行总线(USB)、并行和/或串行端口。

如这里使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术实施的易失性和非易失性、可移动和不可移动介质，诸如计算机可读指令、数据结构或程序模块。系统存储器304、可移动存储装置309和不可移动存储装置310都是计算机存储介质示例(例如，存储器存储)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或者其它磁存储设备、或可以用于存储信息并且可以由计算设备300访问的任何其它制造品。任何这种计算机存储介质可以是计算设备300的一部分。计算机存储介质不包括载波或其它传播或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或调制的数据信号中的其它数据(诸如载波或其它传输机制)来体现，并且包括任何信息传递介质。术语“调制的数据信号”可以描述具有以对信号中的信息进行编码的这种方式设置或改变的一个或多个特性的信号。通过示例而非限制的方式，通信介质可以包括有线介质(诸如，有线网络或直接有线连接)和无线介质(诸如，声学、射频(RF)、红外和其它无线介质)。

图4A和图4B图示了移动计算设备400(例如，移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等)，可以通过移动计算设备400来实践本公开的实施例。在一些方面，客户端可以是移动计算设备。参照图4A，图示了用于实现方面的移动计算设备400的一个方面。在基本配置中，移动计算设备400是具有输入元件和输出元件两者的手持式计算机。移动计算设备400通常包括显示器405和一个或多个输入按钮410，其允许用户将信息输入到移动计算设备400中。移动计算设备400的显示器405还可以用作输入设备(例如，触摸屏显示器)。如果包括在内，那么可选的侧面输入元件415允许进一步的用户输入。侧面输入元件415可以是旋转开关、按钮或任何其它类型的手动输入元件。在备选方面，移动计算设备400可以包含更多或更少的输入元素。例如，在一些实施例中，显示器405可以不是触摸屏。在又一备选实施例中，移动计算设备400是便携式电话系统(诸如，蜂窝电话)。移动计算设备400还可以包括可选按键435。可选按键435可以是物理按键或在触摸屏显示器上生成的“软”按键。在各种实施例中，输出元件包括用于示出图形用户接口(GUI)的显示器405、视觉指示器420(例如，发光二极管)和/或音频换能器425(例如，扬声器)。在一些方面，移动计算设备400包含振动换能器，用于向用户提供触觉反馈。在又一方面，移动计算设备400包含输入和/或输出端口(诸如，音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口))，以用于向外部设备发送信号或从外部设备接收信号。

图4B是图示移动计算设备的一个方面的架构的框图。即，移动计算设备400可以合并系统(例如，架构)402以实现某些方面。在一个实施例中，系统402被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息传递客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面，系统402被集成为计算设备(诸如，集成的个人数字助理(PDA)和无线电话)。

一个或多个应用程序466可以加载到存储器462中并在操作系统464上运行或与其相关联。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、词汇处理程序、电子表格程序、Internet浏览器程序、消息传递程序等。系统402还包括存储器462内的非易失性存储区域468。非易失性存储区域468可以用于存储持久信息，如果系统402断电则持久信息不应丢失。应用程序466可以在非易失性存储区域468中使用和存储信息(诸如，电子邮件或通过电子邮件应用程序使用的其它消息等)。同步应用(未示出)也在系统402上存在，并被编程为与在主计算机上存在的相应同步应用交互，以使存储在非易失性存储区域468中的信息与存储在主计算机中的相应信息保持同步。应当理解，可以将其它应用加载到存储器462中并在本文描述的移动计算设备400上运行(例如，搜索引擎、提取器模块、相关性排名模块、答案评分模块等)。

系统402具有电源470，其可以实现为一个或多个电池。电源470可以进一步包括外部功率源，诸如AC适配器或者对电池补充或重新充电的动力对接支架。

系统402还可以包括实施发送和接收射频通信的功能的无线电接口层472。无线电接口层472通过通信运营商或服务提供商促进系统402与“外界”之间的无线连接。在操作系统464的控制下进行向无线电接口层472和来自无线电接口层472的传输。换句话说，无线电接口层472接收的通信可以经由操作系统464传播到应用程序466，反之亦然。

视觉指示器420可以用于提供视觉通知，和/或音频接口474可以用于经由音频换能器425产生听得见的通知。在所示实施例中，视觉指示器420是发光二极管(LED)并且音频换能器425是扬声器。这些设备可以直接耦合到电源470，使得当被激活时，即使处理器460和其它部件可能关闭以节省电池电量，它们也保持开启达一段持续时间，持续时间由通知机制控制。LED可以被编程为无限期地保持开启，直到用户采取行动来指示设备的通电状态。音频接口474用于向用户提供听得见的信号并从用户接收听得见的信号。例如，除了耦合到音频换能器425之外，音频接口474还可以耦合到麦克风以接收听得见的输入，诸如以便于电话交谈。根据本公开的实施例，麦克风还可以用作音频传感器以便于控制通知，如下所述。系统402可以进一步包括视频接口476，其使得板载相机430的操作能够记录静止图像、视频流等。

实现系统402的移动计算设备400可以具有附加特征或功能。例如，移动计算设备400还可以包括附加数据存储设备(可移动的和/或不可移动的)，诸如磁盘、光盘或磁带。这种附加存储在图4B中由非易失性存储区域468图示。

如上所述，由移动计算设备400生成或捕获并且经由系统402存储的数据/信息可以本地存储在移动计算设备400上，或者数据可以存储在可以由设备访问的任何数目的存储介质上，设备访问存储媒介可以经由无线电接口层472或经由移动计算设备400和与移动计算设备400相关联的单独计算设备之间的有线连接，例如，在分布式计算网络(诸如因特网)中的服务器计算机。应当理解，可以经由移动计算设备400、经由无线电接口层472或经由分布式计算网络访问这种数据/信息。类似地，根据众所周知的数据/信息传送和存储装置，包括电子邮件和协作数据/信息共享系统，可以在计算设备之间容易地传送这种数据/信息以用于存储和使用。

图5图示用于处理在计算系统处从远程源(诸如，个人计算机504、平板计算设备506或移动计算设备508)接收的数据的系统的架构的一个方面，如上所述。在服务器设备502处显示的内容可以存储在不同的通信信道中或其它存储类型中。例如，可以使用目录服务522、网络门户524、邮箱服务526、即时消息存储528或社交网络服务530来存储各种文档。并行分层的机器理解处理521可以由与服务器设备502通信的客户端采用，和/或并行分层的机器理解处理520可以由服务器设备502采用。服务器设备502可以通过网络515向客户端计算设备(诸如，个人计算机504、平板计算设备506和/或移动计算设备508(例如，智能电话))提供数据并且提供来自客户端计算设备的数据。作为示例，上述计算机系统可以在个人计算机504、平板计算设备506和/或移动计算设备508(例如，智能电话)中实现。除了接收可用于在图形发起系统处进行预处理或在接收计算系统处进行后处理的图形数据之外，计算设备的这些实施例中的任何一个可以从存储装置516获得内容。

图5图示可以执行本文所公开的一个或多个方面的一个示例性平板计算设备500。此外，本文所描述的方面和功能可以在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储和检索以及各种处理功能可以通过分布式计算网络(诸如，互联网或内联网)彼此远程操作。用户接口和各种类型的信息可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示。例如，可以在投影用户接口和各种类型的信息的墙面上显示和交互用户接口和各种类型的信息。与可以通过其实践本发明的实施例的多个计算系统的交互包括键击输入、触摸屏输入、语音或其它音频输入、手势输入，其中相关联的计算设备配备有检测(例如，相机)功能，以用于捕获并且解释用户手势，以用于控制计算设备的功能等。

图6图示了可以执行本文所公开的一个或多个方面的一个示例性平板计算设备600。此外，本文所描述的方面和功能可以在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储和检索以及各种处理功能可以通过分布式计算网络(诸如，互联网或内联网)彼此远程操作。用户接口和各种类型的信息可以通过板载计算设备显示器或通过与一个或多个计算设备相关联的远程显示器单元来显示。例如，可以在投影用户接口和各种类型的信息的墙面上显示和交互用户接口和各种类型的信息。与可以通过其实践本发明的实施例的多个计算系统的交互包括键击输入、触摸屏输入、语音或其它音频输入、手势输入，其中相关联的计算设备配备有检测(例如，相机)功能，用于捕获并且解释用户手势，用于控制计算设备的功能等。

本文所公开的并行-分层的方面不需要复杂的语言或序列建模。尽管如此，已经证明模型对使用小数据集(例如MCTest和其它数据集)的机器理解任务非常有效。虽然所谓的“多”问题(推定)需要一些受限的论证，但是模型能够仅通过将重要句子串在一起来合理地处理它们。因此，模型利用启发模仿推理。

然而，可能的是，人类水平的语言处理可以被分解为理解和论证的单独处理。如果是这样，并行-分层的模型就是前者的良好开端。实际上，该方法专门针对单个问题进行了训练，然后其结果变得更加令人印象深刻：它可以在MCTest-500上实现79.1％的测试准确度。本文所公开的用于机器理解的并行-分层的方面实现了最先进的结果，优于几种基于特征和基于学习的方法。模型的工作强调了以下内容：语言是自然分层的，对语言的良好理解依赖于分层的理解水平；外生注意力(可训练的词汇权重)可以对NLP有广泛的帮助；训练轮方法(即初始化神经网络以实施可感知的启发)似乎对小型数据集有用；对语言的论证具有挑战性，但是在某些情况下很容易模拟。

根据本公开的方面，例如，以上所描述的本公开的各方面是参考方法、系统和计算机程序产品的框图和/或操作图示进行描述的。框中所记录的功能/动作可以不按任何流程图所示的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者框有时可以以相反的顺序执行，取决于所涉及功能/动作。

本申请中所提供的一个或多个方面的描述和说明不旨在以任何方式限制或约束如权利要求所述的本公开的范围。本申请中所提供的方面、示例和细节被认为足以传达所有权并使其他人能够制作和使用权利要求的公开内容所保护的最佳模式。权利要求的公开内容不应被解释为限于本申请中所提供的任何方面、示例或细节。无论是组合地还是单独地示出和描述，旨在选择性地包括或省略各种特征(结构和方法两者)，以产生具有特定特征集的一个实施例。已经提供了本申请的描述和说明，本领域技术人员可以设想落入本申请中所体现的总体发明构思的更广泛方面的精神内的变型、修改和备选方面，其不脱离权利要求的公开内容的更广泛范围。

Claims

1.一种用于对小数据的机器理解的系统，包括：

至少一个处理器；以及

存储指令的存储器，当所述指令由所述至少一个处理器执行时执行一组操作，所述一组操作包括：

接收文本输入，其中所述文本输入包括至少一个自然语言问题和至少一个答案候选；

将所述文本输入转换为多个分布式表示，其中所述多个分布式表示包括第一分布式表示和第二分布式表示，所述第一分布式表示使用多层感知神经网络并包括所述至少一个自然语言问题和所述至少一个答案候选的不同的分布式表示，所述第二分布式表示使用基于所述文本输入的语义的多层感知加和神经网络，并且所述第一分布式表示和第二分布式表示是不同的；

通过由并行的两个或更多个处理来分析所述文本输入的所述多个分布式表示，在所述文本输入上执行并行分层的机器理解，其中所述并行分层的机器理解包括：

使用逐字处理来分析所述第一分布式表示；以及

使用语义处理来分析第二分布式表示；

使用至少基于线性激活函数的神经网络将所述两个或更多个处理的结果组合，以确定高级结果；以及

提供所述高级结果。

2.根据权利要求1所述的系统，其中所述文本输入包括：

文本数据；

问题数据；以及

答案数据。

3.根据权利要求2所述的系统，其中所述文本输入包括自然语言文本。

4.根据权利要求1所述的系统，还包括：

提供经组合的所述两个或更多个处理的所述结果作为所述并行分层的机器理解的输入，以用于细化对所述文本输入的机器理解，其中所述两个或更多个处理至少包括语义处理和逐字处理。

5.根据权利要求2所述的系统，其中所述语义处理将假设与所述文本数据中的句子进行比较。

6.根据权利要求5所述的系统，其中所述假设通过将所述答案数据中的至少一部分与所述问题数据中的至少一部分组合而被生成。

7.根据权利要求4所述的系统，其中所述逐字处理包括以下中的至少一个：

句子处理；

滑动窗口序列处理；以及

滑动窗口依赖处理。

8.根据权利要求7所述的系统，其中所述滑动窗口序列处理将文本数据的词汇作为一个连续的序列进行扫描。

9.根据权利要求7所述的系统，其中所述滑动窗口依赖处理包括：

针对文本数据中的句子来构造依赖图；

至少部分地基于所述依赖图对所述句子中的词汇重新排序，以生成重新排序的句子；以及

对所述重新排序的句子中的词汇进行扫描。

10.根据权利要求1中所述的系统，其中所述神经网络包括多层感知器。

11.一种用于对小数据的机器理解的方法，包括：

使用多层感知器神经网络将所述文本输入转换为第一分布式表示，其中所述第一分布式表示包括所述至少一个自然语言问题和所述至少一个答案候选的不同的分布式表示；

使用多层感知器加和神经网络将所述文本输入转换为第二分布式表示，其中所述第二分布式表示基于所述文本输入的语义，所述第一分布式表示和所述第二分布式表示是不同的；通过由并行的两个或更多个处理来分析所述文本输入的所述第一分布式表示和所述第二分布式表示，在所述文本输入上执行并行分层的机器理解，其中执行并行分层的机器理解包括：

使用一个或多个逐字处理来分析所述第一分布式表示；以及

使用语义处理来分析所述第二分布式表示；

使用至少基于线性激活函数的神经网络将来自所述一个或多个逐字处理和所述语义处理的结果组合，以确定高级结果；以及

提供所述高级结果。

12.根据权利要求11所述的方法，还包括：

提供来自所述一个或多个逐字处理和所述语义处理的所述结果作为对所述并行分层的机器理解的反馈，以细化对所述文本输入的机器理解，其中所述文本输入包括：

文本数据；

问题数据；以及

答案数据。

13.根据权利要求12所述的方法，其中所述语义处理将假设与所述文本数据中的句子进行比较。

14.根据权利要求13所述的方法，其中所述假设通过将所述答案数据中的至少一部分与所述问题数据中的至少一部分组合而被生成。

15.根据权利要求14所述的方法，其中使用余弦相似性将所述假设与文本数据进行比较。

16.根据权利要求11所述的方法，其中所述一个或多个逐字处理包括以下中的至少一个：

句子处理；

滑动窗口序列处理；以及

滑动窗口依赖处理。

17.根据权利要求16所述的方法，其中所述滑动窗口序列处理将所述文本数据的词汇作为一个连续的序列进行扫描。

18.根据权利要求16所述的方法，其中所述滑动窗口依赖处理包括：

针对所述文本数据中的句子来构造依赖图；

对所述重新排序的句子中的词汇进行扫描。

19.一种计算机存储介质，包括计算机可执行指令，当所述计算机可执行指令由至少一个处理器执行时执行一组操作，所述一组操作包括：

使用多层感知器加和神经网络将所述文本输入转换为第二分布式表示，其中所述第二分布式表示基于所述文本输入的语义，并且其中所述第一分布式表示和所述第二分布式表示是不同的；

通过由并行的两个或更多个处理来分析所述文本输入的所述第一分布式表示和所述第二分布式表示，在所述文本输入上执行并行分层的机器理解，其中执行并行分层的机器理解包括：

使用一个或多个逐字处理来分析所述第一分布式表示；以及

使用语义处理来分析所述第二分布式表示；

使用神经网络将来自所述一个或多个逐字处理和所述语义处理的结果组合，以便确定高级结果；

提供来自所述一个或多个逐字处理和所述语义处理的所述结果作为对所述并行分层的机器理解的反馈，以细化对所述文本输入的机器理解，以及

提供所述高级结果。

20.根据权利要求19所述的计算机存储介质，其中所述文本输入包括：

文本数据；

问题数据；以及

答案数据。