CN109891437A

CN109891437A - 使用神经网络处理文本序列

Info

Publication number: CN109891437A
Application number: CN201780067511.7A
Authority: CN
Inventors: N.杰伊特利; 张羽; Q.V.莱; W.陈
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-03
Filing date: 2017-10-03
Publication date: 2019-06-14
Also published as: US20200026765A1; EP3520036B1; US11182566B2; WO2018067495A1; EP3520036A1

Abstract

一种用于训练神经网络的计算机实施的方法，该神经网络被配置为生成多个输出位置的集合上的分数分布。该神经网络被配置为处理网络输入，以生成多个输出位置中的每个输出位置的相应分数分布，该多个输出位置中的每个输出位置的分数分布包括预定的标记集合中的每个标记的相应分数，该预定的标记集合包括多个不同大小的n元语法。这里描述的示例方法提供了经过训练的神经网络，该经过训练的神经网络产生的结果与现有技术相比具有更高的准确性，例如与现有技术相比翻译更准确，或者与现有技术相比语音识别更准确。

Description

使用神经网络处理文本序列

背景技术

本说明书涉及训练生成输出序列的神经网络。

机器学习模型接收输入，并且基于接收的输入来生成输出(例如，预测的输出)。一些机器学习模型是参数模型，并且基于接收的输入和模型的参数的值生成输出。

神经网络是采用一层或多层非线性单元预测接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每一层根据相应参数的集合的当前值从接收的输入生成输出。

发明内容

本说明书描述了在一个或多个位置处的一个或多个计算机上实施为计算机程序的系统如何训练神经网络，该神经网络接收网络输入并处理该网络输入以生成多个输出位置中的每个输出位置的标记集合上的相应分数分布，该标记的集合包括多个不同大小的n元语法。这里描述的示例方法提供了经过训练的神经网络，其产生的结果与现有技术相比具有更高的准确性，例如翻译比现有技术更准确，或语音识别比现有技术更准确。

总体上说，一个创新方面可以体现在用于训练神经网络的方法中，其中，该神经网络被配置为生成多个输出位置的集合上的分数分布，该方法包括：获得用于训练神经网络的训练数据，其中该神经网络被配置为接收网络输入，并根据神经网络的多个参数处理网络输入以生成多个输出位置中的每个输出位置的相应分数分布，其中每个输出位置的相应分数分布包括预定的标记集合中的每个标记的相应分数，其中预定的标记集合包括多个不同大小的n元语法，其中对于每个输出位置，输出位置的分数分布中的每个标记的相应分数表示该标记是网络输入的输出序列中的输出位置处的标记的可能性，并且其中训练数据包括多个训练输入，并且对于每个训练输入，相应目标输出序列包括一个或多个单词；对于每个训练输入：根据神经网络的参数的当前值，使用神经网络处理训练输入以生成多个输出位置中的每个输出位置的相应分数分布；从训练输入的目标输出序列的多个可能的有效分解中采样目标输出序列的有效分解，其中目标序列的每个可能的有效分解将目标序列分解为预定的标记集合中的不同标记序列；以及，调整神经网络的参数的当前值，以增加已采样有效分解中的标记是输出序列中对应的输出位置处的标记的可能性。

在一些实施方式中，已采样有效分解包括多个不同大小的n元语法。

在一些实施方式中，调整神经网络的参数的当前值以增加已采样有效分解中的标记是输出序列中对应的输出位置处的标记的可能性包括：执行神经网络训练过程的迭代，以增大与已采样有效分解中的标记的位置相对应的输出位置的分数分布中的、已采样有效分解中的每个标记的相应分数的乘积的对数。

在一些实施方式中，采样目标输出序列的有效分解包括，对于多个输出位置中的每个输出位置并且从初始位置开始依次：以概率ε从预定的标记集合中的有效标记中随机采样有效标记，其中输出位置的有效标记是来自预定的标记集合中的标记，来自预定的标记集合中的标记将是输出位置的目标输出序列的当前部分有效分解的有效添加；以及根据训练输入的输出位置的分数分布中的有效标记的分数，以概率1–ε从有效标记中采样有效标记。

在一些实施方式中，该方法还包括，对于多个输出位置中的每个输出位置并且从初始位置开始依次：将输出位置的已采样有效标记作为输入提供给神经网络，以用于生成多个输出位置的下一输出位置的分数分布。

在一些实施方式中，预定的标记集合中的一个或多个n元语法是用于预定的标记集合中的一个或多个其他n元语法的前缀。

在一些实施方式中，预定的标记集合中的n元语法包括字符和单词片段。

在一些实施方式中，预定的标记集合中的n元语法还包括单词。

在一些实施方式中，神经网络是语音识别神经网络，并且网络输入是表示话语的音频数据或音频特征。

在一些实施方式中，神经网络是神经机器翻译神经网络，并且网络输入是表示源语言的单词序列的输入标记序列，并且其中预定的标记集合中的n元语法是目标自然语言的n元语法。

在一些实施方式中，神经网络是图像字幕生成神经网络，并且网络输入是图像。

在一些实施方式中，神经网络是自动编码器神经网络，并且网络输入是单词序列。

上述方面可以以任何方便的形式实施。例如，各方面和实施方式可以由适当的计算机程序来实施，该计算机程序可以在适当的载体介质上承载，该载体介质可以是有形载体介质(例如磁盘)或无形载体介质(例如通信信号)。各方面也可以使用合适的装置来实施，该装置可以采取运行计算机程序的可编程计算机的形式。

可以实施本说明书中描述的主题的具体实施例，以便实现以下优点中的一个或多个。本说明书中描述的系统可以训练生成输出序列的神经网络，使得神经网络在涉及从网络输入精确生成输出序列的各种任务中实现优于现有技术的结果。具体地，不同于其中假设固定的和预定的输出序列分解的传统方法，一旦使用所描述的技术进行训练，神经网络就生成输出，该输出以基于网络输入的方式定义不同类型n元语法当中的输出序列的分解。例如，该系统可以训练神经机器翻译神经网络来生成比现有技术更准确的翻译，训练语音识别系统来生成比现有技术更准确的转录，等等。

此外，本说明书中描述的系统与诸如字符模型的传统模型相比在计算上是高效的，在该传统模型中，输出序列被分解成单个字符，这导致长的解码器长度和计算上昂贵的推断。因此，因为系统在适当的时候将序列分解成更长的n元语法，所以本说明书中描述的系统可以比诸如字符模型的传统模型更快地生成输出序列，并且具有更少的计算资源，同时仍然生成高质量的输出。

本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了被配置为生成多个输出位置的集合上的分数分布的示例机器学习系统。

图2是用于训练机器学习系统的示例过程。

图3是用于对输出位置的有效标记(token)进行采样的示例过程。

各种附图中相似的参考编号和标志指示相似的元件。

具体实施方式

本说明书描述了在一个或多个位置处的一个或多个计算机上实施为计算机程序的系统(例如，机器学习系统)如何训练神经网络接收网络输入并且处理该网络输入以生成多个输出位置中的每个输出位置的相应分数分布。

每个输出位置的相应分数分布包括标记的集合中的每个标记的相应分数，该标记的集合包括自然语言的多个不同大小的n元语法(n-grams)。输出位置的分数分布中给定标记的分数表示给定标记是与网络输入相对应的自然语言目标序列中的输出位置处的标记的概率。

一经训练，神经网络可以用于使用标准解码过程来生成与网络输入相对应的自然语言目标序列。

图1示出了示例机器学习系统100。机器学习系统100是在一个或多个位置处的一个或多个计算机上实施为计算机程序的系统的示例，其中实施下面描述的系统、组件和技术。

机器学习系统100包括神经网络104，该神经网络104被配置为接收网络输入102，根据神经网络模型参数110的集合的值来处理网络输入102，以及生成多个输出位置中的每个输出位置的标记的集合的相应分数分布112。一经训练，神经网络104可用于使用标准解码过程将网络输入102映射到对应的自然语言目标序列116，即，目标自然语言中的序列。

给定输出位置的分数分布向多个标记的集合中的每个标记分配相应的分数，其中给定标记的分数表示该给定标记应该是与网络输入102相对应的自然语言目标序列116中的输出位置处的标记的可能性。

神经网络104生成分数分布112的方式取决于神经网络104已被配置为执行的机器学习任务以及取决于神经网络104的架构。

在一些情况下，任务是语音识别任务。在语音识别任务中，网络输入是表示话语的音频数据或音频特征，并且自然语言输出序列是该音频数据或音频特征的转录。WilliamChan等人的“Listen，attend and spell”，arXiv预印本(preprint)arXiv：1508.01211(2015)中描述了生成这种分数分布并可用于语音识别任务的语音识别神经网络的示例。

在一些情况下，任务是机器翻译任务。在机器翻译任务中，网络输入是源自然语言的单词序列，并且自然语言输出序列是目标自然语言的单词序列，目标自然语言的单词序列是该源自然语言的单词序列的翻译。Yonghui Wu等人的“Google’s Neural MachineTranslation System：Bridging the Gap between Human and Machine Translation”arXiv预印本arXiv：1609.08144(2016)中描述了生成这种分数分布并可用于机器翻译任务的神经机器翻译神经网络的示例。

在一些情况下，任务是图像字幕任务。在图像字幕任务中，网络输入是图像，并且自然语言输出序列是描述输入图像的单词序列。在一些情况下，任务是自动编码任务。在自动编码任务中，网络输入是自然语言的单词序列，并且网络输出与网络输入相同。IlyaSutskever、Oriol Vinyals和Quoc V等人的“Sequence to sequence learning withneural networks”Advances in neural information processing systems，2014中描述了生成这种分数分布并且可用于序列以对如自动编码的机器学习任务进行排序或者可适用于图像字幕任务的神经网络的示例。

标记的集合包括目标自然语言的多个不同大小的n元语法。例如，标记的集合可以包括单个字符、由多个字符组成的单词片段，以及可选的，整个单词。通常，标记的集合中的一个或多个n元语法是标记的集合中的一个或多个其他n元语法的前缀(prefix)。例如，标记的集合可以包括字符“c”、“a”、“t”，和2元语法“ca”、“ct”、“at”，和3元语法“cat”，等等。

可以通过修改神经网络的输出层(即，增加神经网络的软最大(softmax)输出层的大小，以及可选地，增加神经网络中其他层的大小)修改上述任何一个神经网络以生成包括多个不同大小的n元语法的标记的集合的分数，使得输出层为标记的集合中的每个标记生成相应的分数。

一经训练，神经网络104可用于使用标准解码过程——例如，使用William Chan等人的“Listen，attend and spell”，arXiv预印本arXiv：1508.01211(2015)中描述的波束搜索解码过程、Yonghui Wu等人的“Google’s Neural Machine Translation System：Bridging the Gap between Human and Machine Translation”arXiv预印本arXiv：1609.08144(2016)中的波束搜索解码过程、或者另一适当的解码过程——来生成与网络输入102对应的自然语言目标序列116。

为了训练神经网络，系统100获得包括训练输入的训练数据，以及对于每个训练输入，获得包括自然语言的一个或多个单词的相应目标序列。

对于给定的训练输入，神经网络104根据神经网络模型参数110的当前值，生成多个输出位置的每个输出位置的标记的集合的相应分数分布112。

对于给定的训练输入，系统100中的有效标记采样引擎108从每个输出位置的标记的集合中顺序地采样有效标记，其中如果给定标记与由有效标记采样引擎108对先前输出位置采样的标记的有序串联产生目标序列的有效分解的前缀，则该给定标记是输出位置的有效标记。目标序列的有效分解将目标序列分解成标记的集合中的标记序列，即，使得不同的有效分解可以包括不同数量的标记，并且可以由不同大小的各种种类的n元语法的不同组合组成。例如，目标序列“banana”有效分解为1元语法，即，如“b”、“a”、“n”、“a”、“n”、“a”的字符，以及有效分解为1元语法、2元语法和3元语法的组合，例如：“b”、“ana”、“na”。有效分解的前缀是从有效分解的第一个标记开始的有效分解的连续标记的有序序列。作为另一示例，如果目标序列是“banana”，标记的集合是所有1元语法、2元语法和3元语法的集合，并且由有效标记采样引擎108对先前输出位置采样的标记是“b”、“a”和“n”，那么“a”、“an”和“ana”都是当前输出位置处的有效标记的示例。

具体地，对于每个输出位置，有效标记采样引擎108以概率ε随机采样有效标记，并且有效标记采样引擎108根据神经网络104生成的输出位置的分数分布中有效标记的分数，以概率(1–ε)采样有效标记，其中ε是0和1之间的数字。

当由有效标记采样引擎108采样的有效标记的串联与目标序列的有效分解(即，已采样有效分解114)相对应时，神经网络104停止顺序地生成输出位置的相应分数分布。

通常，系统100通过调整神经网络模型参数110的当前值来训练神经网络104，以优化神经网络104相对于目标函数106的性能，其中该目标函数106取决于为训练数据的集合中的训练输入生成的已采样有效分解114。在一些实施方式中，系统100将来自先前输出位置(即，当前输出位置之前的输出位置)的已采样有效标记作为输入提供给神经网络104，并且神经网络104至少部分基于先前输出位置的已采样有效标记来生成当前输出位置的分数分布，并且目标函数106是：

其中J是训练输入的数量，I是输出位置的数量，并且是在标记的训练输入x^j的处理期间由神经网络104生成的分数，其中是由有效标记采样引擎108针对系统100生成的x^j的已采样有效分解114中的输出位置i采样的标记，并且是由有效标记采样引擎108对位置i之前的输出位置采样的标记集。

系统调整神经网络模型参数110的当前值，以使用标准机器学习训练技术(诸如利用反向传播或随时间反向传播的随机梯度下降)来优化目标函数。

图2是用于训练机器学习系统的示例过程200的流程图。为了方便起见，过程200将被描述为由位于一个或多个位置处的一个或多个计算机的系统执行。例如，根据本说明书适当编程的机器学习系统，例如图1的机器学习系统100，可以执行过程200。

系统获得由神经网络为给定训练输入的当前输出位置生成的标记的集合的分数分布(步骤202)。当前输出位置的分数分布向多个标记的集合中的每个标记分配相应的分数，其中给定标记的分数表示给定标记应该是与训练输入对应的自然语言目标序列中的当前输出位置处的标记的可能性。

神经网络生成分数分布的方式取决于正在执行的机器学习任务和神经网络的架构。在一些实施方式中，系统将来自先前输出位置(即，当前输出位置之前的输出位置)的已采样有效标记作为输入提供给神经网络，并且神经网络至少部分基于先前输出位置的已采样有效标记来生成当前输出位置的分数分布。参考Ilya Sutskever、Oriol Vinyals和QuocV等人的“Sequence to sequence learning with neural networks”Advances in neuralinformation processing systems，2014。

系统对当前输出位置的有效标记进行采样(步骤204)。如果给定标记与对先前输出位置采样的有效标记的有序串联产生目标序列的有效分解的前缀，则该给定标记是当前输出位置的有效标记。参考图3的过程300描述对当前输出位置的有效标记进行采样的示例技术。

系统确定先前输出位置的已采样有效标记和当前输出位置的已采样有效标记的有序串联是否是目标序列的有效分解(步骤206)。

响应于确定先前输出位置的已采样有效标记和当前输出位置的已采样有效标记的有序串联不是目标序列的有效分解，系统转到下一输出位置，返回步骤202，并重复前面的步骤(步骤208)。

响应于确定先前输出位置的已采样有效标记和当前输出位置的已采样有效标记的有序串联是目标序列的有效分解，系统调整神经网络的参数的当前值，以增加已采样有效分解中的标记是对应的输出位置处的标记的可能性(步骤210)。在一些实施方式中，调整神经网络的参数的当前值包括执行神经网络训练过程的迭代，以增大与已采样有效分解中的标记的位置相对应的输出位置的分数分布中的、有效分解中的每个标记的相应分数的乘积的对数。例如，神经网络训练过程可以是反向传播或随时间的反向传播。

图3是对输出位置的有效标记进行采样的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置处的一个或多个计算机的系统执行。例如，根据本说明书适当编程的机器学习系统(例如图1的机器学习系统100)可以执行过程300。

参考0和1之间的数字ε来描述过程300的步骤。对于为训练输入生成已采样有效分解的过程200的不同运行，ε的值可以不同。在一些实施方式中，epsilon的值最初被设置为非零，并且随着系统多次执行训练过程200，epsilon的值减小，直到它最终被设置为零。

系统获得当前输出位置的标记的分数分布(步骤302)。

系统确定输出位置的有效标记的集合(步骤303)。如果给定标记与对先前输出位置采样的标记的有序串联产生目标序列的有效分解的前缀，则该给定标记是输出位置的有效标记。

以概率ε，系统从所有可能的有效标记的集合中随机采样有效标记(步骤304)。

以概率(1–ε)，系统从概率分布中采样有效标记，该概率分布通过将神经网络生成的当前输出位置的分数分布限制为有效标记的集合来定义。

本说明书使用与系统和计算机程序组件有关的术语“配置”。对于被配置为执行具体的操作或动作的一个或多个计算机的系统，意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中导致系统执行操作或动作。对于被配置为执行具体操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置运行时使得装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在以下中实施：数字电子电路、有形体现的计算机软件或固件、计算机硬件(包括本说明书中公开的结构及其结构等同物)中实施、或者在它们中的一个或多个的组合。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序，即编码在有形的非暂时性存储介质上的计算机程序指令的一个或多个模块，以用于由数据处理装置运行或以控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备，或者它们中的一个或多个的组合。可替换地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以编码信息，用于传输到合适的接收器装置以供数据处理装置运行。

术语“数据处理装置”指的是数据处理硬件，并且包括用于处理数据的各种装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或进一步包括专用逻辑电路，例如，FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路)。除了硬件之外，装置可以可选地包括为计算机程序创建运行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

可以被称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码的计算机程序可以以任何形式的编程语言(包括编译或解释语言，或者声明性或程序性语言)写入；并且它可以以任何形式(包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元)部署。程序可以但不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件(例如存储在标记语言文档中的一个或多个脚本)的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件(例如存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在位于一个站点或跨多个站点分布并通过数据通信网络互连的一个计算机或多个计算机上运行。

在本说明书中，术语“引擎”被广泛用于指基于软件的系统、子系统或被编程为执行一个或多个具体功能的过程。通常，引擎将被实施为安装在一个或多个位置处的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于具体的引擎；在其他情况下，可以在相同的一个或多个计算机上安装和运行多个引擎。

本说明书中描述的过程和逻辑流程可以由运行一个或多个计算机程序以通过对输入数据进行操作并生成输出而执行功能的一个或多个可编程计算机来执行。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA或ASIC)、或者由专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于运行计算机程序的计算机可以基于通用或专用微处理器或这两者，或者任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合到该专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者被可操作地耦合到一个或多个大容量存储设备以从该一个或多个大容量存储设备接收数据或将数据传递到该一个或多个大容量存储设备、或者两者。然而，计算机不需要这样的设备。此外，计算机可以嵌入到另一设备中，例如移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器、或便携式存储设备(例如通用串行总线(a universal serial bus，USB)闪存驱动器)，仅举几个示例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存存储器设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备，例如CRT(阴极射线管，cathode ray tube)或LCD(液晶显示器，liquid crystal display)，以及用户可以通过其向计算机提供输入的键盘和定点设备，例如鼠标或轨迹球。也可以使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从该用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求向用户设备上的网络浏览器发送网页。而且，计算机可以通过向个人设备(例如，运行消息传递(messaging)应用的智能电话)发送文本消息或其他形式的消息，以及反过来从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，以用于处理机器学习训练或生产的公共和计算密集型部分，即推理、工作负载。

机器学习模型可以使用机器学习框架来实施和部署，例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件(例如，作为数据服务器)、或者包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有图形用户界面、网络浏览器或app的客户端计算机，用户可以通过该前端组件与本说明书中描述的主题的实施方式交互)、或者一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(LAN，local area network)和例如互联网的广域网(widearea network，WAN)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络交互。客户端和服务器的关系是通过在相应的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器将数据(例如，HTML页面)传输到用户设备，例如，以用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。在用户设备处生成的数据，例如用户交互的结果，可以在服务器处从设备接收。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为对任何发明的范围或可以要求保护的范围的限制，而是对具体发明的具体实施例的具体特征的描述。本说明书中在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。反过来，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实施。此外，尽管上述特征可以被描述为以某些组合起作用，并且甚至初始被要求这样保护，但是在一些情况下，来自要求保护的组合的一个或多个特征可以从该组合中删除，并且要求保护的组合可以指向子组合或子组合的变体。

类似地，虽然在附图中描绘了操作，并且在权利要求中以具体顺序叙述了操作，但是这不应该被理解为要求这些操作以所示的具体顺序或以相继顺序执行，或者要求执行所有所示的操作以获得期望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都要求这种分离，并且应理解，所描述的程序组件和系统通常可以集成在单个软件产品中或者封装到多个软件产品中。

已经描述了主题的具体实施例。其他实施例在以下权利要求的范围内。例如，权利要求中叙述的动作可以以不同的顺序执行，并且仍然获得期望的结果。作为一个示例，附图中描绘的过程不一定要求所示的具体顺序或相继顺序以获得期望的结果。在一些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种计算机实施的方法，包括：

获得用于训练神经网络的训练数据，

其中，所述神经网络被配置为接收网络输入，并根据所述神经网络的多个参数处理所述网络输入以生成多个输出位置中的每个输出位置的相应分数分布，

其中，每个输出位置的相应分数分布包括预定的标记集合中的每个标记的相应分数，

其中，所述预定的标记集合包括多个不同大小的n元语法，

其中，对于每个输出位置，输出位置的分数分布中的每个标记的相应分数表示标记是所述网络输入的输出序列中的输出位置处的标记的可能性，以及

其中，所述训练数据包括多个训练输入，并且对于每个训练输入，相应目标输出序列包括一个或多个单词；

对于每个训练输入：

根据所述神经网络的参数的当前值，使用所述神经网络处理所述训练输入以生成多个输出位置中的每个输出位置的相应分数分布；

从所述训练输入的目标输出序列的多个可能的有效分解中采样所述目标输出序列的有效分解，其中，目标序列的每个可能的有效分解将所述目标序列分解为所述预定的标记集合中的不同标记序列；以及

调整所述神经网络的参数的当前值，以增加已采样有效分解中的标记是输出序列中对应的输出位置处的标记的可能性。

2.根据权利要求1所述的方法，其中，所述已采样有效分解包括多个不同大小的n元语法。

3.根据权利要求1或2中任一项所述的方法，其中，调整所述神经网络的参数的当前值以增加所述已采样有效分解中的标记是输出序列中对应的输出位置处的标记的可能性包括：

执行神经网络训练过程的迭代，以增大与所述已采样有效分解中的标记的位置相对应的输出位置的分数分布中的、所述已采样有效分解中的每个标记的相应分数的乘积的对数。

4.根据权利要求1-3中任一项所述的方法，其中，采样所述目标输出序列的有效分解包括，对于所述多个输出位置中的每个输出位置并且从初始位置开始依次：

以概率ε从所述预定的标记集合中的有效标记中随机采样有效标记，其中所述输出位置的有效标记是来自所述预定的标记集合中的标记，所述来自预定的标记集合中的标记将是所述输出位置的目标输出序列的当前部分有效分解的有效添加；以及

根据所述训练输入的输出位置的分数分布中的有效标记的分数，以概率1–ε从所述有效标记中采样有效标记。

5.根据权利要求4所述的方法，还包括，对于所述多个输出位置中的每个输出位置并且从初始位置开始依次：

将所述输出位置的已采样有效标记作为输入提供给所述神经网络，以用于生成所述多个输出位置的下一输出位置的分数分布。

6.根据权利要求1-5中任一项所述的方法，其中，所述预定的标记集合中的一个或多个n元语法是所述预定的标记集合中的一个或多个其他n元语法的前缀。

7.根据权利要求1-6中任一项所述的方法，其中，所述预定的标记集合中的n元语法包括字符和单词片段。

8.根据权利要求7所述的方法，其中，所述预定的标记集合中的n元语法还包括单词。

9.根据权利要求1-8中任一项所述的方法，其中，所述神经网络是语音识别神经网络，并且所述网络输入是表示话语的音频数据或音频特征。

10.根据权利要求1-8中任一项所述的方法，其中，所述神经网络是神经机器翻译神经网络，并且所述网络输入是表示源语言的单词序列的输入标记序列，并且其中所述预定的标记集合中的n元语法是目标自然语言的n元语法。

11.根据权利要求1-8中任一项所述的方法，其中，所述神经网络是图像字幕生成神经网络，并且所述网络输入是图像。

12.根据权利要求1-8中任一项所述的方法，其中，所述神经网络是自动编码器神经网络，并且所述网络输入是单词序列。

13.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机运行时，使得所述一个或多个计算机执行如权利要求1-12中任一项所述的方法的相应操作。

14.存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机运行时，使得所述一个或多个计算机执行如权利要求1-12中任一项所述的方法的相应操作。