CN109923556B

CN109923556B - 指针哨兵混合架构

Info

Publication number: CN109923556B
Application number: CN201780060729.XA
Authority: CN
Inventors: S·J·麦瑞提; 熊蔡明; J·布拉德伯里; R·佐赫尔
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2016-09-22
Filing date: 2017-09-21
Publication date: 2023-09-29
Anticipated expiration: 2037-09-21
Also published as: CN109923556A; US20200065651A1; JP2021009717A; US11580359B2; EP3516590A1; US20180082171A1; US10565493B2; JP6772388B2; JP2019537809A; WO2018057809A1; JP6972265B2; CA3034918A1

Abstract

所公开的技术为神经网络序列模型提供了所谓的“指针哨兵混合架构”，其具有从最近的上下文再现词条或从预定义的词汇表产生词条的能力。在一种实现方式中，指针哨兵‑LSTM架构在Penn Treebank数据集上实现了现有技术语言建模性能70.9困惑度的状态，同时使用比标准softmax LSTM少得多的参数。

Description

指针哨兵混合架构

其他申请的交叉引用

本申请要求于2016年9月22日提交的美国临时专利申请62/397,926、“指针哨兵混合模型(POINTER SENTINEL MIXTURE MODELS)”(代理人卷号：SALE 1174-1/1863PROV1)的权益。该优先权临时申请在此通过引用并入；

本申请要求于2016年9月22日提交的美国临时专利申请62/398,461、“指针哨兵混合模型(POINTER SENTINEL MIXTURE MODELS)”(代理人卷号：SALE 1174-2/1863PROV2)的权益。该优先权临时申请在此通过引用并入；以及

本申请要求于2016年11月4日提交的美国临时专利申请62/417,334、“指针哨兵混合模型(POINTER SENTINEL MIXTURE MODELS)”(代理人卷号：SALE 1174-3/1863PROV3)的权益。该优先权临时申请在此通过引用并入。

本申请要求于2017年1月31日提交的美国非临时专利申请15/421,016、“指针哨兵混合模型(POINTER SENTINEL MIXTURE MODELS)”(代理人卷号：SALE 1174-4/1863US)的权益。该优先权非临时申请在此通过引用并入。

技术领域

所公开的技术总地涉及使用深度神经网络的自然语言处理(NLP)，并且具体地涉及指针哨兵混合架构，其改进了基于神经网络的语言建模中的下一词预测。

背景技术

本节中讨论的主题不应假设为现有技术，而仅作为在本节中提及的结果。类似地，本节中提到的或与作为背景提供的主题相关联的问题不应假定为先前已在现有技术中被认识到。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

最近具有softmax分类器的神经网络序列模型仅采用非常大的隐藏状态和大词汇表实现了它们的最佳语言建模性能。即便如此，即使上下文使预测明确无误，他们仍难以预测罕见或看不见的词。所公开的技术为神经网络序列模型提供了所谓的“指针哨兵混合架构”，其具有从最近的上下文再现词条(token)或从预定义的词汇表产生词条的能力。在一种实现方式中，指针哨兵-LSTM架构在Penn Treebank数据集上实现了现有技术语言建模性能70.9困惑度的状态，同时使用比标准softmax LSTM少得多的参数。

附图说明

在附图中，相同的附图标记在不同视图中通常指代相同的部件。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图描述所公开的技术的各种实现方式，其中：

图1示出了指针哨兵混合架构的各方面，其改进了神经网络序列建模中的罕见词条和词汇表外(OoV)词条的预测。

图2示出了图1的指针哨兵混合架构的操作的一种实现方式。

图3描绘了哨兵门向量的一种实现方式，所述哨兵门向量命令给指针网络和词汇表网络多少权重。

图4是示出图1的指针哨兵混合架构的操作的一种实现的数值示例。

图5示出了将指针哨兵-LSTM与Penn Treebank数据集上的各种其他模型进行比较的表。

图6是将指针哨兵-LSTM与WikiText-2语言建模任务上的各种其他模型进行比较的表。

图7是描绘当使用与LSTM模型相比较的指针哨兵-LSTM时Penn Treebank数据集上的对数困惑度的中数差异的图。

图8A和图8B示出了图1的指针哨兵混合架构如何使用指针网络来预测罕见词条和词汇表外(OoV)词条的可视化定性分析。

图9是可用于实现图1的指针哨兵混合架构的计算机系统的简化框图。

附录

以下通过引用并入本文并且作为单个发明的一部分附于此：

Stephen Merity，Caiming Xiong，James Bradbury和Richard Socher。指针哨兵混合模型。arXiv预印本arXiv:1609.07843，2016。指针哨兵混合模型具有从最近的上下文中重现词(word)或从标准softmax分类器产生词的能力。指针哨兵-LSTM模型在PennTreebank上实现了现有语言建模性能(70.9困惑度)的状态，同时使用的参数远少于标准softmax LSTM。

具体实施方式

呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术，并且在特定应用及其要求的背景下提供以下讨论。对于本领域技术人员来说，对所公开的实现的各种修改是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现方式和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。

讨论组织如下。首先，提出了描述指针哨兵混合架构所解决的一些问题的介绍。然后，描述了指针网络，接着是指针哨兵混合架构的操作的一些示例。最后，提供了一些实验结果，其说明了指针哨兵混合架构在各种NLP数据集和任务上的性能。

介绍

语言建模的主要困难是学习何时从直接上下文预测特定词条。例如，想象介绍一个新人，两个段落之后，上下文将允许人们非常准确地预测这个人的名字作为下一个词条。对于预测此名字的标准神经网络序列模型，他们必须对名字进行编码，花费许多时间步长将其存储为隐藏状态，然后在适当时对其进行解码。由于隐藏状态的容量有限并且这种模型的优化会遭受消失的梯度问题，因此当在很多时间步长上执行时这是一种有损操作。对于罕见词条尤其如此。

已经提出具有软注意力(soft attention)或存储器组件的模型来帮助处理该挑战，旨在允许检索和使用相关的先前隐藏状态，实际上增加了隐藏状态容量并提供不依赖于时间步长的梯度的路径。即使受到注意，在这些模型中使用的标准softmax分类器也经常难以正确预测罕见词条或以前未知的词条。

指针网络为罕见词条和词汇表外(OoV)词条提供一种可能的解决方案，因为指针网络使用注意力(attention)从输入中选择元素作为输出。这允许它产生以前看不见的输入词条。虽然指针网络提高了罕见词条和长期依赖性的性能，但它们无法选择输入中不存在的词条，这是语言建模中的常见场景。

为了解决这些问题，所公开的技术提供了所谓的“指针哨兵(pointer sentinel)混合架构”，其将标准softmax分类器的优点与指针网络的优点相结合，以进行有效和高效的语言建模。指针哨兵混合架构不是依靠RNN隐藏状态来决定何时使用指针网络，而是允许指针网络本身决定何时通过哨兵门向量(sentinel gate vector)使用词汇表。指针哨兵混合体架构改善了Penn Treebank数据集上的现有技术困惑度的状态。

指针哨兵混合架构

图1示出了指针哨兵混合架构100的各方面，其改进了神经网络序列建模中罕见词条和词汇表外(OoV)词条的预测。图2示出了指针哨兵混合架构100的操作的一种实现方式。

给定词条的序列或窗口w₁,...,w_N-1 202，在此也称为“上下文文本”或“指针窗口”，指针哨兵混合架构100预测下一个词条w_N。上下文文本存储在数据库122中。如本文所使用的，术语“词条”可以指代词、字或短语。

指针哨兵混合架构100包括循环神经网络(RNN)114。RNN由于其保留长期依赖性的能力而已经广泛用于语言建模。RNN使用链式法则来分解词条序列的联合概率：更确切地说，在每个时间步长i，根据先前隐藏状态h_i-1和输入x_i计算RNN隐藏状态h_i，使得h_i＝RNN(x_i,h_i-1)。在词条窗口w₁,...,w_N-1上生成的RNN 114的隐藏状态(在此也称为“输出状态”或“输出状态向量”)存储在数据库116中。

当所有N-1个词条已经由RNN 114处理过时，最终输出状态向量h_N-1204被提供给词汇表网络124。词汇表网络124包括词汇表概率质量计算器126，其将最终输出状态向量h_N- ₁204馈送到指数归一化器(例如，softmax层)并且计算词汇表概率质量在可能的词条的词汇表上的分布，在此也称为“词汇表分布”220。这样，在实现中，词汇表概率质量的总和是预定常数(例如，1、2、10等)。

以下数学公式示出了词汇表网络124和词汇表概率质量计算器126的操作的一种实现方式：

p_vocab(w)＝softmax(Uh_N-1),

其中是词汇表分布220，/>H是隐藏大小，V是词汇表大小。词汇表，在此也称为“词汇表文本”，存储在数据库118中。

RNN可能会遇到消失梯度问题。已经提出长短期记忆(LSTM)架构，以通过根据一组门更新隐藏状态来处理消失梯度问题。在一种实现方式中，指针哨兵混合架构使用LSTM。在其他实现方式中，它使用LSTM的变体，例如无输入门(NIG)变体、无遗忘门(NFG)变体、无输出门(NOG)变体、无输入激活函数(NIAF)变体、无输出激活函数(NOAF)变体、无窥视孔(NP)变体、耦合的输入-遗忘门(CIFG)变体和全门递归(FGR)变体。在其他实现方式中，它使用门控递归单元(GRU)或任何其他类型的RNN，或任何其他常规或未来开发的神经网络，例如采用softmax分类器的神经网络。

指针哨兵混合架构100还包括指针网络102。根据一种实现方式，为了预测序列中的下一个词条w_N，指针网络102选择具有最大注意力概率质量的输入序列p(w₁,...,w_N-1)的成员作为输出。指针网络102包括注意力概率质量计算器112，其使用具有所有过去隐藏状态h的内积计算特定隐藏状态的注意力概率质量214，其中每个隐藏状态为如本文所使用的，“内积”被称为“点积”、“距离度量积(distance measure product)”和/或“语言相似性确定器”。在另一实现方式中，为了计算最近词条的注意力概率质量214(因为可以重复该词条)，注意力概率质量计算器112还在内积中包括最后隐藏状态本身。在实现方式中，内积由指针网络102的距离度量计算器108执行，其为词条窗口w₁,...,w_N-1中的每个词条位置产生相应的非归一化的注意力值。然后，注意力概率质量计算器112使用指数归一化器(如softmax激活函数)，以从非归一化的注意力值产生归一化的注意力概率质量214。

取向量与其自身的内积导致向量的幅度平方，这意味着注意力概率质量214将强烈偏向最近的词条。为了解决该问题，指针网络102包括查询创建器106，其通过线性层(例如，多层感知器)投射当前输出状态向量，以产生所谓的“查询向量”q 208形式的非线性投影。以下数学公式示出了生成查询向量q 208的一种实现方式：

q＝tanh(Wh_N-1+b),

其中并且/>

在另一实现方式中，注意力概率质量计算器112通过计算先前RNN输出状态h_i与查询向量q 208之间的内积来计算词条窗口w₁,...,w_N-1中的每个词条位置的注意力概率质量214，然后是softmax激活函数，来获得概率分布，如下面的数学公式所示：

a＝softmax(z),

其中并且L是隐藏状态的总数。在实现方式中，输出状态h_i和查询向量q 208之间的内积由距离度量计算器108执行，其为词条窗口w₁,...,w_N-1中的每个词条位置产生相应的非归一化的注意力值。然后，注意力概率质量计算器112使用指数归一化器(如softmax激活函数)，以从非归一化的注意力值产生归一化的注意力概率质量214。

当词条出现在上下文文本中的多个位置时，分配给词条的最终注意力概率质量是词条出现的所有词条位置的注意力概率质量的总和，如以下数学公式所示：

其中I(w,x)导致输入x中词条w的所有位置并且是指针分布。

给定语言建模中使用的文档的长度，指针网络102将所有词条的注意力概率质量214评估回数据集的开头可能是不可行的。相反，在一些实现方式中，指针网络102选择仅维持最近词条匹配的窗口M。窗口的长度M是一个超参数，其可以在保持的数据集上进行调整，或者通过实证分析位置t处的词条出现在最后M个词条中的频率。

为了说明这种方法的优点，考虑一篇长篇文章，其中有两句话“奥巴马总统讨论经济”和“然后奥巴马总统飞往布拉格”。如果查询是“文章是关于哪个总统的？”，则可以在任一句中针对“奥巴马”计算注意力概率质量。如果问题是“谁飞往布拉格？”，则只有后一次出现的“奥巴马”提供了适当的上下文。指针网络102确保只要最终注意力概率质量分布在“奥巴马”的所有出现上，则指针网络102就实现零损失。这种灵活性提供了监督，而没有迫使指针网络102将注意力概率质量放在可能不正确或缺乏适当上下文的监督信号上。

因此，指针哨兵混合架构100具有两个基本分布：注意力概率质量214在由指针网络102计算的上下文文本122中的词条上的分布(在此也称为“指针分布”214)以及词汇表概率质量在词汇表文本118中的词条上的分布(在此也称为“词汇表分布”220)。为了组合两个基本分布，指针哨兵混合架构100具有指针-词汇表混合器128，其实现门控功能，在此称为“门概率质量”g 216。门概率质量g 216从指针网络102所谓的“哨兵门向量”104导出。在实现中，哨兵门向量104是指针网络102的哨兵层206的一部分。哨兵门向量104控制来自词汇表网络124和指针网络102的信息的累积。也就是说，哨兵门向量104控制注意力概率质量214和词汇表概率质量220的混合，如以下数学公式所示：

g＝p(z_i＝k|x_i),

p_out(y_i|x_i)＝gp_vocab(y_i|x_i)+(1-g)p_ptr(y_i|x_i),

其中是哨兵门向量104，其是经训练的先验(a priori)，用于指示数据点在测试期间属于哪个基本分布，并且/>是输出概率质量在词条O上的分布(在本文中也称为“输出分布”222)，其中O表示上下文文本122和词汇表文本118中的词条，使得每个词条在输出分布222中仅被识别一次。

在一种实现中，哨兵门向量104是经训练的向量，其在测试期间未被修改并保持固定。在另一实现中，哨兵门向量104是经训练的向量，其在测试期间被动态地修改，这取决于针对上下文文本的给定输入序列产生的最终输出状态向量h_N-1204。在动态实现中，将哨兵门向量104与最终输出状态向量h_N-1204组合224(例如，使用连接(concatenation)或逐个元素求和)，并且通过线性层(例如，多层感知器)投射两者的组合以产生所谓的“动态哨兵状态向量”形式的非线性投影。以下数学公式示出了动态哨兵状态向量z_d的一种实现：

z_d＝tanh[W(h_N-1；z_i)+b],

其中并且；表示连接。

为了训练哨兵门向量104，指针哨兵混合架构100实现了哨兵损失函数。实现哨兵损失函数包括最小化交叉熵损失其中，/>是正确输出的一个热点编码。在训练期间，当/>是一个热点(hot)时，仅计算单个混合概率p(y_ij)用于计算损失。这导致更高效的GPU实现。在预测时，对于p(y_i|x_i)的所有值，混合最大值为L的词条概率，因为在长度为L的指针窗口中存在最大值为L的唯一词条。这种混合发生在CPU上，其中随机访问索引比GPU更有效。然后，哨兵损失函数变为-log(g+∑_i∈I(y,x)a_i),，其中I(y,x)导致输入x中正确输出y的所有位置。

为了产生门概率质量g 216，指针网络102的门概率质量计算器110计算哨兵门向量104和查询向量q 208之间的内积。在固定实现中，门概率质量计算器110计算固定的哨兵门向量和查询向量q 208之间的内积。在动态实现中，门概率质量计算器110计算动态哨兵门向量和查询向量q 208之间的内积。内积的结果是非归一化的门值。

接下来，门概率质量计算器110使用指数归一化器(如softmax激活函数)，从非归一化的门值生成门概率质量g 216。在实现中，词条窗口w₁,...,w_N-1中的每个词条位置的非归一化的注意力值和非归一化的门值在所谓的“指针序列”中排列和/或布置和/或连接。然后，将指数归一化器(例如，softmax)应用于指针序列，以从未归一化的注意力值生成归一化的注意力概率质量214，以及从非归一化的门值生成门概率质量g 216。也就是说，注意力概率质量计算器112和门概率质量计算器110共享单个指数归一化器210(例如，softmax)，其并行应用于指针序列的非归一化的注意力值和非归一化的门值以计算联合概率质量a212。这样，在实现中，注意力概率质量214和门概率质量g 216的总和是预定常数(例如，1、2、10等)。以下数学公式描述了指针序列上的联合概率质量a 212：

a＝softmax([r；qz_i]),

其中是上下文文本122中的词条以及哨兵门向量104上的联合概率质量分布212，r是包含上下文文本122中词条窗口w₁,...,w_N-1中的每个词条位置的非归一化的注意力值的向量，q是查询向量208，z_i是哨兵门向量104，“；”表示连接，并且方括号[]内的值一起表示指针序列。联合概率质量分布a 212的最后一个元素被解释为门概率质量g216，其中g＝a[V+1]。

因此，在一种实现中，归一化的指针分布然后变为：

其中[1:V]表示向量的前V个元素。

输出分布222p_out(y_i|x_i)然后变为

p_out(y_i|x_i)＝gp_vocab(y_i|x_i)+p_ptr(y_i|x_i),

其中指针-词汇表混合器128使用门概率质量g 216来混合词汇表分布220p_vocab(y_i|x_i)和指针分布214p_ptr(y_i|x_i)并产生输出分布222p_out(y_i|x_i)。

在实现中，门概率质量g 216是范围[0,1]中的标量。值0表示仅使用指针网络102并且1表示仅使用词汇表网络124。因此，指针哨兵混合架构100依赖于门概率质量g 216，以便在可能的情况下使用指针网络102，否则返回到词汇表网络124。通过使用哨兵门向量104将门控函数整合到指针网络102的计算中，指针哨兵混合架构100受到RNN 114的隐藏状态和直接上下文文本122中的词条窗口两者的影响。

整合允许门概率质量g 216使用尽可能多的上下文。然后由使用RNN 114的最终输出状态向量h_N-1204生成的查询向量q 208以及指针窗口本身的隐藏状态的内容来通知返回到词汇表分布220的决定。这允许指针哨兵混合架构100准确地查询指针窗口中包含哪些隐藏状态，并避免维护可能已经脱离指针窗口的词条的状态。

在一些实现中，在由门概率质量g 216控制的混合之前，变换器218用于变换指针分布214的维度以匹配词汇表分布220的维度。

在训练期间，如果例如正确输出仅存在于词汇表分布220中，则可以为门概率质量g 216分配所有概率质量。在一些实现中，如果指针哨兵混合架构100将整个概率质量放置在指针窗口中的正确词条的任何实例上，则不存在惩罚。如果指针网络102将整个概率质量放置在门概率质量g 216上，则指针网络102不会产生惩罚，并且根据一些实现，损失完全由词汇表网络124的损失确定。

在一个实现中，基于LSTM的指针哨兵混合架构100(这里也称为“指针哨兵-LSTM”)导致参数和超参数以及计算时间的相对较小的增加，尤其是与使用标准LSTM实现类似性能所需的模型大小相比时。架构100所需的仅两个附加参数是计算查询向量q 208所需的那些，特别是和/>以及哨兵门向量嵌入，/>这与RNN 114的深度无关，因为指针网络102仅与最终RNN层的输出交互。与单个LSTM层的8H²+4H参数相比，附加H²+2H参数较小。一些实现还包括使用多个LSTM层。就附加计算而言，窗口大小L的指针哨兵-LSTM仅需要使用具有tanh激活的线性层、总共L个并行化的内积计算以及经由softmax函数用于L个结果标量的注意力概率质量214来计算查询向量q 208。

指针哨兵混合架构100的其他实现包括使用与指数归一化器不同的、除指数归一化器以外的和/或与指数归一化器结合使用的归一化器。一些示例包括基于S形的归一化器(例如，多类S形、分段斜坡)、基于双曲线正切的归一化器、基于修正线性单元(ReLU)的归一化器、基于识别的归一化器、基于逻辑的归一化器、基于正弦的归一化器、基于余弦的归一化器、基于单元和(unit sum)的归一化器和基于步长的归一化器。其他示例包括分层softmax、差分softmax、重要性采样、噪声对比估计、负采样、门控softmax、球面softmax、泰勒(Taylor)softmax和sparsemax。在其他实施方式中，可以使用任何其他常规或未来开发的归一化器。

图1中的组件可以用硬件或软件实现，并且不需要在如图1所示的精确相同的块中进行划分。一些组件也可以在不同的处理器或计算机上实现，或者分散在许多不同的处理器或计算机。另外，应当理解，一些组件可以组合、并行操作或以与图1所示不同的顺序操作，而不影响实现的功能。同样如本文所用，术语“组件”可包括“子组件”，其本身在本文中可被认为构成组件。例如，哨兵门向量104、查询创建器106、距离度量计算器108、门概率质量计算器110和注意力概率质量计算器112在本文中也可以被认为是指针网络102的子组件。此外，图1中的块也可以被认为是方法中的流程图步骤。组件或子组件也不一定必须将其所有代码连续地放置在存储器中；代码的某些部分可以与代码的其他部分分开，其中代码来自其他组件或子组件或其间设置的其他功能。而且，图1中的组件经由一个或更多个网络120连接。

在一些实现中，指针网络102和词汇表网络124是完全分离的。在其他实现中，它们共享许多参数和超参数。在一个实现中，该共享使指针哨兵混合架构100中的参数和超参数的总数最小化，并且改进了指针网络102对词汇表网络124的监督。

图3描绘了哨兵门向量104的一个实现，其命令给予指针网络102和词汇表网络124多少权重。在图3所示的示例中，指针哨兵混合架构100在看到一组句子如“美联储主席Janet Yellen......加息。女士？？？”后预测下一个词。

在图3中，在底部，词汇表网络124使用词汇表文本118中的固定组的词来预测下一个词。这些知识可能与遥远的过去更相关，例如旧的参考或涉及先前的美联储主席BenBarnanke的训练数据。同样在图3中，在顶部，指针网络102使用新闻报道的近期历史来预测下一个词。通过查看相关的上下文，它意识到“Janet Yellen”可能会被再次引用，并且还意识到“Janet”是名字并且它需要姓氏，指针网络102指向“Yellen”。

通过混合两个信息源，即，首先使用上下文“指向”最近的相关词，然后如果没有良好的上下文，则使用RNN的内部存储器和词汇表，指针哨兵混合架构100能够获得更自信的答案。

图4是示出指针哨兵混合架构100的操作的一种实现的数值示例。在图4中，词“狗”和“追逐”表示输入序列或上下文词402，使得NLP任务是根据前面的词“狗”和“追逐”来预测下一个缺失词？？？。

由指针网络102计算的指针分布214给词“狗”分配注意力概率质量0.1，并给词“追逐”分配注意力概率质量0。此外，由指针网络102确定的门概率质量g 216是0.9。注意，指针序列404上的联合概率质量a加到单元和。

还假设在图4所示的示例中，词汇表文本118仅包括四个已知词406，即“狗”，“追逐”，“猫”和“邮递员”。因此，由词汇表网络124计算的词汇表分布220给词“狗”分配词汇表概率质量0.2，给词“追逐”分配词汇表概率质量0，给词“猫”分配词汇表概率质量0.5，并给词“邮递员”分配词汇表概率质量0.3。注意，词汇表词406上的词汇表分布220加到单元和。

为了识别丢失的词？？？，通过混合指针分布214和词汇表分布220来计算输出分布222，使得混合由值为0.9的门概率质量g 216控制。如图4所示，词“狗”的输出分布计算为0.28，词“追逐”的输出分布计算为0，词“猫”的输出分布计算为0.45，词“邮递员”的输出分布计算为0.27。注意，上下文词402和词汇表词406上的输出分布222加到单元和。

最后，选择具有最大或最高输出概率质量的词作为缺失词？？？，其在该示例中是词“猫”。

在一个实现中，如果完成上下文文本122的所选词条在上下文文本122中而不在词汇表文本118中，则根据相应的注意力概率质量来产生词条的输出概率质量。在另一实现中，如果词条在词汇表文本118中而不在上下文文本122中，则根据将门概率质量g 216与对应的词汇表概率质量相乘，来产生词条的输出概率质量。在又一实现中，如果词条在上下文文本122和词汇表文本118中，则根据将门概率质量g 216与对应的词汇表概率质量相乘并且加上相应的注意力概率质量，来产生词条的输出概率质量。

实验结果

图5示出了将指针哨兵-LSTM与Penn Treebank数据集上的各种其他模型进行比较的表。指针哨兵-LSTM架构实现了Penn Treebank数据集上70.9困惑度的现有语言建模性能的状态，同时使用的参数远远少于标准softmax LSTM。

图6是将指针哨兵-LSTM与wikiText-2语言建模任务上的各种其他模型进行比较的表。指针哨兵-LSTM架构实现了WikiText-2语言建模任务上80.8困惑度的现有语言建模性能的状态，同时使用的参数远少于标准softmax LSTM。

关于为什么指针哨兵-LSTM可以胜过LSTM的假设是指针网络102允许指针哨兵混合架构100有效地再现罕见词。RNN 114可以通过依赖指针网络102来更好地使用隐藏状态容量。指针网络102还允许比仅使用softmax分类器更灵敏地选择单个词条。

图7包含图表，其示出了在将LSTM与指针哨兵-LSTM进行比较时的困惑度的改善。根据频率将词分到若干桶(bucket)。随着词变得更加罕见，指针哨兵-LSTM在困惑度方面有了更强的改进。即使在Penn Treebank数据集中，由于仅选择最频繁的10k词，因此相对缺少罕见的词，指针哨兵-LSTM提供了直接的益处。尽管在罕见的词上改进最大，但指针哨兵-LSTM对相对频繁的词仍然有帮助。这是由于指针网络102直接选择词，或通过指针监督信号改善RNN 114，方法是允许梯度直接流向该窗口中该词的其他出现。

在定性分析中，图8A和图8B设想了验证集中的各种示例的门使用和指针注意力，集中于指针网络102主要使用门的预测。如所预期的，指针网络102大量用于罕见名字，诸如“Seidman”(训练中23次)，“Iverson”(训练中7次)和“Rosenthal”(训练中3次)。当指向其他命名实体的名字时，指针网络102也被大量使用，例如像“Honeywell(霍尼韦尔)”(训练中8次)和“Integrated(英特韦特)”(训练中41次，尽管由于包括集成电路在内的套词较低，完全是集成和其他通用用法)这样的公司。指针网络102还用于许多频繁词条。为了选择测量单位(吨、千克、...)或短尺度数字(千、百万、十亿、......)，指针网络102参考最近的使用。这是可以预料的，特别是当短语的形式从N吨增加到N吨时。在一些实现中，指针哨兵混合架构100依赖于softmax和指针网络102的混合来预测频繁动词(诸如“所述”)。

另外，指针网络102指向100个词窗口的非常末端(位置97)处的词，这是比大多数语言模型截断其反向传播训练的35个步骤大得多的范围。这说明了为什么指针哨兵混合架构100将门控功能集成到指针网络102中。如果门控功能仅使用RNN隐藏状态116，则需要警惕指针窗口尾部附近的词，尤其是如果它无法准确地追踪从看到一个词以来的时间。通过将门控功能集成到指针网络102中，指针哨兵混合架构100避免RNN隐藏状态116必须保持这种密集的簿记。

在图8A和图8B中，为了定性分析，可视化如何在指针哨兵混合架构100内使用指针网络102。门指的是门控功能的结果，其中1表示词汇表网络124是专用的，而0表示指针网络102是专用的。图8A和图8B开始于主要使用词汇表网络124的预测并且主要移动到使用指针网络102的预测。

参考预测802，在预测“尤其对于那些零售商而言，秋季是个好季节”时，指针网络102建议来自历史窗口的许多词适合-“零售商”、“投资”、“链条”和“机构”。门仍然主要朝向词汇表网络124加权。

参考预测804，在预测“国家癌症研究所也预测整体美国死亡率”，指针网络102关注死亡数和比率，两者都适合。门仍然主要朝向词汇表网络124加权。

参考预测806，在预测“他说，人们似乎对此并不满意”时，指针网络102正确地选择“说”并且与词汇表网络124几乎相等地加权。

参考预测808，在预测“联邦政府不得不抽出数十亿美元”时，指针网络102关注具有高度相似背景的十亿的最近使用。相比词汇表网络124也更依赖于指针网络102。

参考预测810，在预测“[unk]的鬼魂有时会穿过像gen.noriega一样穿得e环”中，指针网络102追溯97个时间步长以检索“gen.douglas”。不幸的是，这种预测是不正确的，但如果没有额外的上下文，人们就会猜到同一个词。这额外说明了为什么门控功能被集成到指针网络102中。命名实体“gen.douglas”只会在四个时间步长内掉出窗外，由于RNN隐藏状态116将无法准确保留近100个时间步长的信息。

参考预测812，在预测“mr.iverson”时，指针网络102学习指向最近命名实体的姓氏的能力。命名实体也出现在45个时间步长之前，这比大多数语言模型截断其反向传播的35个时间步长要长。

参考预测814，预测“mr.rosentha”，指针网络102几乎专门使用并且追溯65个时间步长以识别“bruce rosenthal”作为说话的人，正确地仅选择姓氏。

参考预测816，在预测“昨天，英特韦特在纽约证券交易所的综合交易中”，公司“Integrated(英特韦特)”和[unk]词条主要由指针网络102处理，几乎所有预测由指针网络102确定。

特定实现方式

我们描述了用于指针哨兵混合架构的系统、方法和制品，其改进了基于神经网络的语言建模中的下一个词预测。实现的一个或更多个特征可以与基本实现组合。不相互排斥的实现被教导是可组合的。实现的一个或更多个特征可以与其他实现组合。本公开定期提醒用户这些选项。重复这些选项的叙述的一些实现方式的省略不应被视为限制前面部分中教导的组合-这些叙述通过引用向前结合到以下每个实现方式中。

所公开的技术的系统实现包括耦合到存储器的一个或更多个处理器。存储器装载有计算机指令以在给定上下文文本和词汇表文本的情况下预测一个词条，包括该词条在词汇表文本中而不在上下文文本中的情况。

系统混合了指针网络和词汇表网络的结果以预测词条，其中混合由门概率质量控制。

系统通过使用以下在上下文文本中的词条窗口上来计算指针网络的结果和计算门概率质量：经训练的哨兵门向量、针对词条窗口中每个位置的循环神经网络(缩写为RNN)的隐藏状态向量、从RNN的最终隐藏状态向量公式化的查询向量、计算为查询向量和经训练的哨兵门向量之间的距离度量积的非归一化的门值、以及针对词条窗口中每个位置的非归一化的注意力值、每个计算为查询向量和每个隐藏状态向量之间的距离度量积。

系统连接非归一化的注意力值和非归一化的门值，并且对连接的注意力和门值进行指数归一化，以产生注意力概率质量的向量和门概率质量。

系统通过从RNN的最终隐藏状态向量计算词汇表文本中的词条上词汇表概率质量的分布来计算词汇表网络的结果。

系统在上下文文本和词汇表文本中产生词条上的输出概率质量的分布。如果词条在上下文文本中而不在词汇表文本中，则系统产生词条的输出概率质量作为相应的注意力概率质量。如果词条在词汇表文本中而不在上下文文本中，则系统通过将门概率质量乘以相应的词汇表概率质量来产生词条的输出概率质量。如果词条同时在上下文文本和词汇表文本中，则系统通过将门概率质量乘以相应的词汇表概率质量并加上相应的注意力概率质量来产生词条的输出概率质量。

系统选择具有最大输出概率质量的词条作为对查询向量的响应。

该系统实现和所公开的其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中识别的特征如何能够与其他法定类别中的基本特征相结合。

通过经由线性层处理最终隐藏状态向量以生成非线性投影，可以从RNN的最终隐藏状态向量公式化查询向量。

门概率质量可以通过对非归一化的门值进行指数归一化来产生。注意力概率质量的向量和门概率质量之和可以是预定常数(例如，1)。词汇表文本中的词条上的词汇表概率质量的分布的总和可以是预定常数(例如，1)。上下文文本和词汇表文本中的词条上的输出概率质量的分布的总和可以是预定常数(例如，1)。

当词条出现在上下文文本中的多个位置时，系统对应于上下文文本中词条的每个位置增加注意力概率质量以计算词条的最终注意力概率质量，并使用最终注意力概率质量以计算词条的输出概率质量。

经训练的哨兵门向量可以被训练的先验(a priori)。经训练的哨兵门向量可以控制来自词汇表网络和指针网络的信息的累积。门概率质量为一，其可导致来自词汇表网络的信息的累积。门概率质量为零，其可导致来自指针网络的信息的累积。

通过将最终隐藏状态向量与经训练的哨兵门向量连接并且通过线性层处理连接以生成非线性投影，可以从RNN的最终隐藏状态向量公式化动态哨兵门向量。

词条可以是词、字或短语。

其他实现可以包括非暂时性计算机可读存储介质，其存储指令，该指令可由处理器执行以执行上述系统的功能。又一实现可以包括执行上述系统的功能的方法。

所公开的技术的另一系统实现包括耦合到存储器的一个或更多个处理器。存储器装载有计算机指令以在给定上下文文本和词汇表文本的情况下预测词条，包括词条在词汇表文本中而不在上下文文本中的情况。

系统混合指针网络和词汇表网络的结果以预测词条，其中混合由门概率质量控制。

系统通过使用以下在上下文文本中词条窗口上来计算指针网络的结果和计算门概率质量：经训练的哨兵门向量、针对词条窗口中每个位置的循环神经网络(缩写为RNN)的隐藏状态向量、从RNN的最终隐藏状态向量公式化的查询向量、计算为查询向量和经训练的哨兵门向量之间的距离度量积的非归一化的门值、以及针对词条窗口中每个位置的非归一化的注意力值、每个都被计算为查询向量和每个隐藏状态向量之间的距离度量积。

系统连接非归一化的注意力值和非归一化的门值，并且对连接的注意力值和门值进行指数归一化，以产生注意力概率质量的向量和门概率质量。

系统通过从RNN的最终隐藏状态向量计算词汇表文本中的词条上的词汇表概率质量的分布来计算词汇表网络的结果。

系统产生上下文文本和词汇表文本中词条上的输出概率质量的分布。

在该特定实现部分中针对第一系统实现所讨论的每个特征同样适用于该系统实现。如上所述，这里不重复所有系统特征，而是应该被认为通过引用进行重复。

如果词条在上下文文本中而不在词汇表文本中，则系统可以产生词条的输出概率质量作为对应的注意力概率质量。如果词条在词汇表文本中而不在上下文文本中，则系统可以通过将门概率质量乘以相应的词汇表概率质量来产生词条的输出概率质量。如果词条在上下文文本和词汇表文本两者中，则系统可以通过将门概率质量乘以相应的词汇表概率质量并加上相应的注意力概率质量来产生词条的输出概率质量。

所公开的技术的又一系统实现包括耦合到存储器的一个或更多个处理器。存储器装载有计算机指令以在给定上下文文本和词汇表文本的情况下预测词条，包括词条在词汇表文本中而不在上下文文本中的情况。

系统通过使用以下在上下文文本中词条窗口上来计算指针网络的结果和计算门概率质量：经训练的哨兵门向量、针对词条窗口中每个位置的循环神经网络(缩写为RNN)的隐藏状态向量、从RNN的最终隐藏状态向量公式化的查询向量、计算为查询向量和经训练的哨兵门向量之间的距离度量积的非归一化的门值、以及针对词条窗口每个位置的非归一化的注意力值、每个都被计算为查询向量和每个隐藏状态向量之间的距离度量积。

在将门概率质量应用于指针网络的结果和词汇表网络的结果中的至少一个之后，系统组合结果。

系统基于组合结果，响应于来自上下文文本或词汇表文本中的词条的查询向量来选择词条。

所公开的技术的方法实现包括实现上述系统的动作的方法。在该特定实现部分中讨论的用于系统实现的每个特征同样适用于方法实现。如上所述，这里不重复所有系统特征，应该被认为通过引用进行重复。

所公开的技术的计算机可读介质(缩写为CRM)实现包括非暂时性计算机可读存储介质，其上具有计算机程序指令，当所述计算机程序指令在处理器上执行时，实现上述系统的动作。在该系统实现的特定实现部分中讨论的每个特征同样适用于CRM实现。如上所述，这里不重复所有系统特征，而是应该被认为通过引用进行重复。

所公开的技术的又一系统实现包括耦合到存储器的一个或更多个处理器。存储器装载有计算机指令，以在给定上下文词的序列和词的词汇表的情况下预测下一个词，包括下一个词在词汇表中而不在序列中的情况。

该系统提供上下文词的序列作为神经网络的输入，以产生词汇表中的词的词汇表分布。词汇表分布指定每个词汇表词作为下一个词的相应可能性。神经网络可以是循环神经网络(缩写为RNN)。RNN可以是长短期记忆(缩写为LSTM)网络。

系统查询神经网络以产生序列中的上下文词的指针分布和哨兵。指针分布指定每个上下文词是下一个词的相应可能性。

系统混合来自词汇表分布和指针分布的相应可能性，以产生词汇表和序列中的每个词的联合可能性，其中混合由哨兵控制。

系统基于所产生的联合可能性从词汇表和/或序列中选择词作为下一个词。

所公开的该系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中确定的特征如何能够与其他法定类别中的基本特征相结合。

系统通过多层感知器处理最终隐藏状态向量，从神经网络的最终隐藏状态向量公式化查询向量。系统使用内积来将查询向量与神经网络的隐藏状态向量进行比较，并为每个上下文词生成非归一化的注意力标量。系统使用内积来将查询向量与预训练的哨兵向量进行比较，并生成非归一化的哨兵门标量。该系统将非归一化的注意力标量和非归一化的哨兵门标量连接在注意力向量中，并对注意力向量进行指数归一化，以生成归一化的注意力质量和归一化的哨兵门质量。该系统将归一化的注意力向量用作指针分布，并将归一化的注意力质量用作每个上下文词是下一个词的相应可能性。

如果词在序列中而不在词汇表中，则系统可以从相应的归一化的注意力质量产生词的联合可能性。如果词在词汇表中而不在序列中，则系统可以从相应的词汇表概率质量(其从词汇表分布产生)产生词的联合可能性。如果词在序列和词汇表两者中，则系统可以通过将归一化的哨兵门质量与从词汇表分布产生的相应词汇表概率质量相乘并加上相应的归一化注意力质量来产生词的联合可能性。系统可以选择具有最大联合可能性的词作为对查询向量的响应，并因此作为预测的下一个词。

归一化的哨兵门质量可以控制下一个词是来自序列的上下文词还是来自词汇表的词汇表词。当下一个词仅存在于词汇表中时，归一化的哨兵门质量可以是统一的。在这种情况下，系统仅从词汇表中预测下一个词。当下一个词仅存在于序列中时，归一化的哨兵门质量可以为零。在这种情况下，系统仅从序列中预测下一个词。

当上下文词出现在序列中的多个位置时，系统添加对应于序列中的上下文词的每个位置的归一化的注意力质量，以生成词的最终归一化的注意力质量并使用该最终归一化的注意力质量来产生该词的联合可能性。

该系统将神经网络和联合可能性用于一个或更多个语言建模任务，包括语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音合成。

其他实现可以包括非暂时性计算机可读存储介质，其存储指令，该指令可由处理器执行以执行上述系统的动作。又一实现可以包括执行上述系统的动作的方法。

所公开的技术的方法实现包括在给定上下文词的序列和词的词汇表的情况下预测下一个词，包括下一个词在词汇表中而不在序列中的情况。

该方法包括提供上下文词的序列作为神经网络的输入，以产生词汇表中的词的词汇表分布。词汇表分布指定每个词汇表词是下一个词的相应可能性。神经网络可以是循环神经网络(缩写为RNN)。RNN可以是长短期记忆(缩写为LSTM)网络。

该方法包括查询神经网络以产生序列中的上下文词的指针分布和哨兵。指针分布指定每个上下文词是下一个词的相应可能性。

该方法包括混合来自词汇表分布和指针分布的相应可能性，以产生词汇表和序列中的每个词的联合可能性，其中混合由哨兵控制。

该方法包括基于所产生的联合可能性从词汇表和/或序列中选择一个词作为下一个词。

在该用于系统实现的特定实现部分中讨论的每个特征同样适用于该方法实现。如上所述，这里不重复所有系统特征，其应该被认为通过引用进行重复。

其他实现可以包括非暂时性计算机可读存储介质，其存储指令，该指令可由处理器执行以执行上述方法。又一实现可以包括一种系统，该系统包括存储器和一个或更多个处理器，处理器可操作以执行存储在存储器中的指令，以执行上述方法。

所公开的技术的计算机可读介质(缩写为CRM)实现包括非暂时性计算机可读存储介质，存储有计算机程序指令，当所述计算机程序指令在处理器上执行时，实现上述方法。

在该用于系统实现的特定实现部分中讨论的每个特征同样适用于CRM实现。如上所述，本文不重复所有系统特征，其应该被认为通过引用进行重复。

电脑系统

图9是可用于实现指针哨兵混合架构100的计算机系统900的简化框图。计算机系统900通常包括经由总线子系统932与多个外围设备通信的一个或更多个CPU处理器920。这些外围设备可以包括存储器子系统912(其包括例如存储器设备和文件存储子系统918)、用户接口输入设备930、用户接口输出设备924、网络接口子系统922、以及具有多个GPU处理核心或GPU处理器928的GPU 926。输入设备和输出设备允许用户与计算机系统900交互。网络接口子系统922提供到外部网络的接口，包括到其他计算机系统中的相应接口设备的接口。

根据一些实施方式，指针哨兵混合架构100的操作由GPU处理核928执行。

用户接口输入设备930或客户端或客户端设备可包括键盘；定点设备，如鼠标、轨迹球、触摸板或图形输入板；扫描仪；包含在显示器中的触摸屏；音频输入设备，如语音识别系统和麦克风；以及其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统900的方式。

用户接口输出设备924可以包括显示子系统、打印机、传真机或非可视显示器(诸如音频输出设备)。显示子系统可包括阴极射线管(CRT)、平板设备(诸如液晶显示器(LCD))，投影设备或用于产生可视图像的一些其他机构。显示子系统还可以提供非可视显示，例如音频输出设备。通常，术语“输出设备”的使用旨在包括所有可能类型的设备和将信息从计算机系统900输出到用户或另一个机器或计算机系统的方式。

存储子系统910存储编程和数据构造，其提供本文描述的一些或所有模块和方法的功能。这些软件模块通常由CPU处理器920单独执行或与其他处理器(诸如GPU处理器928)组合执行。

存储子系统中的存储器子系统912可以包括多个存储器，其包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)916和存储固定指令的只读存储器(ROM)914。文件存储子系统918可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实现某些实现的功能的模块可以由文件存储子系统918或存储器子系统912存储，或者由处理器可访问的其他机器存储。

总线子系统932提供用于使计算机系统900的各种组件和子系统按预期彼此通信的机制。虽然总线子系统932示意性地示为单个总线，但总线子系统的替代实现方式可以使用多个总线。在一些实现中，应用服务器(未示出)可以是允许计算机系统900的应用程序运行的框架，例如硬件和/或软件，例如操作系统。

计算机系统900本身可以是各种类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型机、服务器群、广泛分布的松散联网计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图9中所示的计算机系统900的描述仅旨在用作说明本发明优选实施例的具体示例。计算机系统900的许多其他配置可能具有比图9中描绘的计算机系统更多或更少的组件。

提供前述描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。根据ICLR 2017在审核的会议文件《指针哨兵混合架构》，S.麦瑞提，熊蔡明，J.布拉德伯里和R.佐赫尔，迈特迈德——销售力公司，帕罗奥图(市)，美国加利福尼亚州，{smerity,cxiong,james.bradbury,rsocher}@salesforce.com，通过引用并入本文。

Claims

1.一种在给定上下文词的序列和词的词汇表的情况下预测下一个词的计算机实现的方法，包括所述下一个词在所述词汇表中而不在所述序列中的情况，所述方法包括：

提供所述上下文词的序列作为神经网络的输入，以产生所述词汇表中的词的词汇表分布，其中所述词汇表分布指定每个所述词汇表词是所述下一个词的相应可能性；

查询所述神经网络以产生所述序列中的上下文词的指针分布和哨兵，其中所述指针分布指定每个所述上下文词是所述下一个词的相应可能性；

使用指针-词汇表混合器混合来自所述词汇表分布和所述指针分布的相应可能性，以产生所述词汇表中的和所述序列中的每个词的联合可能性，其中所述混合由所述哨兵控制；以及

基于所产生的联合可能性，通过选择具有最大联合可能性的词作为所述下一个词，从所述词汇表和/或所述序列中选择一个词作为所述下一个词；

其中混合所述相应可能性包括：

如果一个词在所述序列中而不在所述词汇表中，则从相应的归一化的注意力质量来确定所述词的联合可能性，

如果一个词在所述词汇表中而不在所述序列中，则从由所述词汇表分布确定的相应词汇表概率质量来确定所述词的联合可能性，以及

如果一个词在所述序列和所述词汇表两者中，则通过将所述归一化的哨兵门质量与从所述词汇表分布产生的相应词汇表概率质量相乘并加上相应的归一化的注意力质量，来确定所述词的联合可能性。

2.根据权利要求1所述的计算机实现的方法，其中，所述神经网络是循环神经网络。

3.根据权利要求2所述的计算机实现的方法，其中，所述循环神经网络是长短期记忆网络。

4.根据权利要求1所述的计算机实现的方法，还包括：

通过多层感知器处理最终隐藏状态向量，从所述神经网络的所述最终隐藏状态向量公式化查询向量；

使用内积将所述查询向量与所述神经网络的隐藏状态向量进行比较，并为每个所述上下文词生成非归一化的注意力标量；

使用内积将所述查询向量与预训练的哨兵向量进行比较，并生成非归一化的哨兵门标量；

将所述非归一化的注意力标量和所述非归一化的哨兵门标量连接在注意力向量中，并对所述注意力向量进行指数归一化，以生成归一化的注意力质量和归一化的哨兵门质量；以及

将所述归一化的注意力向量用作所述指针分布，并将所述归一化的注意力质量用作每个所述上下文词是所述下一个词的相应可能性。

5.根据权利要求1所述的计算机实现的方法，其中，所述归一化的哨兵门质量控制所述下一个词是来自所述序列的上下文词还是来自所述词汇表的词汇表词。

6.根据权利要求1所述的计算机实现的方法，还包括：

当所述下一个词仅存在于所述词汇表中时，所述归一化的哨兵门质量为一；以及

仅从所述词汇表预测所述下一个词。

7.根据权利要求1所述的计算机实现的方法，还包括：

当所述下一个词仅存在于所述序列中时，所述归一化的哨兵门质量为零；以及

仅从所述序列预测所述下一个词。

8.根据权利要求1所述的计算机实现的方法，其中，上下文词出现在所述序列中的多个位置处，还包括：

添加对应于所述序列中的所述上下文词的每个位置的归一化的注意力质量，以生成所述下一个词的最终归一化的注意力质量；以及

使用所述最终归一化的注意力质量来产生所述下一个词的联合可能性。

9.根据权利要求1所述的计算机实现的方法，还包括：

使用所述神经网络和所述联合可能性用于一个或更多个语言建模任务，包括语音识别、机器翻译、文本摘要、问题回答、图像字幕和文本到语音合成。

10.一种用于实现指针哨兵混合架构的系统，所述系统包括耦合到存储器的一个或更多个处理器，所述存储器装载有计算机指令，以在给定上下文词的序列和词的词汇表的情况下预测下一个词，包括所述下一个词在所述词汇表中而不在所述序列中的情况，当在所述处理器上执行所述指令时实现动作，所述动作包括：

其中混合所述相应可能性包括：

11.根据权利要求10所述的系统，实现动作还包括：

12.一种非暂时性计算机可读存储介质，其具有计算机程序指令，以在给定上下文词的序列和词的词汇表的情况下预测下一个词，包括所述下一个词在所述词汇表中而不在所述序列中的情况，当在处理器上执行所述指令时，实现方法，所述方法包括：

提供所述上下文词的所述序列作为神经网络的输入，以产生所述词汇表中的词的词汇表分布，其中所述词汇表分布指定每个所述词汇表词是所述下一个词的相应可能性；

其中混合所述相应可能性包括：

13.根据权利要求12所述的非暂时性计算机可读存储介质，实现所述方法还包括：