CN113553862A

CN113553862A - 神经机器翻译系统

Info

Publication number: CN113553862A
Application number: CN202110688995.5A
Authority: CN
Inventors: 穆罕默德·诺劳兹; 陈智峰; 吴永辉; 迈克尔·舒斯特; 国·V·勒
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-09-26
Filing date: 2017-09-26
Publication date: 2021-10-26
Also published as: WO2018058046A1; CN107870902A; JP6870076B2; EP3516591A1; US11113480B2; DE102017122276A1; US20200034435A1; GB201715516D0; CN107870902B; KR102323548B1; KR20190039817A; GB2556674A; DE202017105835U1; US20210390271A1; IE20170201A1; JP2019537096A; SG10201707936TA

Abstract

本申请涉及神经机器翻译系统。用于神经机器翻译的方法、系统和设备，其包括在计算机存储介质上编码的计算机程序。系统中的一个包括编码器神经网络和解码器子系统，编码器神经网络包括：正向输入长短期记忆LSTM层，被配置成以正向次序对输入序列中的每个输入语言符号进行处理，以生成每个输入语言符号的相应正向表示；反向输入LSTM层，被配置成以反向次序对每个输入语言符号进行处理，以生成每个输入语言符号的相应反向表示；以及多个隐藏LSTM层，被配置成以正向次序对输入语言符号中的每个的相应组合表示进行处理，以生成输入序列中的每个的相应编码表示；解码器子系统被配置成接收相应编码表示且对编码表示进行处理以生成输出序列。

Description

神经机器翻译系统

分案说明

本申请属于申请日为2017年9月26日的中国发明专利申请201710882491.0的分案申请。

技术领域

本申请涉及神经机器翻译系统。

背景技术

本说明书涉及使用神经网络翻译文本。

机器学习模型接收输入，并且基于该接收的输入生成输出，例如预测的输出。一些机器学习模型是参数模型，并且基于该接收的输入和该模型的参数值生成输出。

一些机器学习模型是采用多层模型来生成针对接收的输入的输出的深层模型。例如，深层神经网络是包括输出层和一个或多个隐藏层的深层机器学习模型，所述一个或多个隐藏层各自为接收的输入应用非线性变换以生成输出。

一些神经网络是循环神经网络。循环神经网络是接收输入序列并根据所述输入序列生成输出序列的神经网络。特别地，在根据输入序列中的当前输入生成输出的过程中，循环神经网络使用该网络在处理输入序列中的前一个输入之后的内部状态中的一些或全部。

发明内容

本说明书描述作为一个或多个位置处的一个或多个计算机上的计算机程序被实现的系统，所述系统使用神经网络将文本从源语言翻译成目标语言。

在所描述主题的某些方面，一种由一个或多个计算机实现的神经机器翻译系统被配置成接收表示第一自然语言的第一文字序列的输入语言符号的输入序列，并且生成表示是所述第一文字序列到第二自然语言的翻译的第二文字序列的输出语言符号的输出序列，并且包括：编码器神经网络和解码器子系统。所述编码器神经网络顺序包括：正向输入长短期记忆(LSTM)层，被配置成以正向次序对所述输入序列中的每个输入语言符号进行处理，以生成所述输入语言符号的相应正向表示；反向输入LSTM层，被配置成以反向次序对所述输入序列中的每个输入语言符号进行处理，以生成所述输入语言符号的相应反向表示；组合层，被配置成针对所述输入序列中的每个输入语言符号，对所述输入语言符号的所述正向表示和所述输入语言符号的所述反向表示进行组合，以生成所述输入语言符号的组合表示；以及多个隐藏LSTM层，被配置成以所述正向次序对所述输入序列中的每个输入语言符号的所述组合表示进行处理，以生成所述输入语言符号的相应编码表示。所述解码器子系统被配置成接收所述输入序列中的每个输入语言符号的所述相应编码表示，并且对所接收的编码表示进行处理以生成所述输出序列。

在这些方面的某些中，所述多个隐藏LSTM层被一个接一个地布置在堆栈中，并且其中所述多个隐藏LSTM层包括至少七个LSTM层。在这些方面的某些中，所述多个隐藏LSTM层中的至少两个与剩余连接相连接。

在这些方面的某些中，所述解码器子系统包括：解码器神经网络，所述解码器神经网络包括：多个LSTM层，所述多个LSTM层被以一个在一个之上地布置在堆栈中，并且被配置成为所述输出序列中的多个位置中的每个执行以下操作：接收注意力上下文矢量和所述输出序列中的前一个位置处的输出语言符号，以及对所述注意力上下文矢量和所述输出序列中的所述前一个位置处的所述输出语言符号进行处理，以生成针对所述位置的LSTM输出，以及softmax输出层，所述softmax输出层被配置成为所述多个位置中的每个执行以下操作：接收所述针对所述位置的LSTM输出，以及生成针对输出语言符号的词汇中的每个输出语言符号的相应分值。

在这些方面的某些中，所述解码器中的所述多个LSTM层包括至少八个LSTM层。在这些方面的某些中，所述解码器中的所述多个LSTM层中的至少两个与剩余连接相连接。在这些方面的某些中，所述堆栈中的第一LSTM层被配置成为所述多个位置中的每个执行以下操作：接收第一层输入，所述第一层输入包括：所述注意力上下文矢量，由所述堆栈中的在所述第一LSTM层直接下方的LSTM层生成的层输出，和至所述堆栈中的所述在所述第一LSTM层直接下方的LSTM层的层输入；以及根据所述第一LSTM层的当前隐藏状态对所述第一层输入进行处理以生成第一层输出，并且对所述当前隐藏状态进行更新。

在这些方面的某些中，所述解码器子系统还包括：注意力子系统，其中所述注意力子系统被配置成为所述多个位置中的每个执行以下操作：接收注意力输入，所述注意力输入包括由所述解码器神经网络中的LSTM层的所述堆栈中的底部LSTM层生成的针对所述前一个位置的底层输出；以及对所述注意力输入进行处理，以生成针对时间步长的注意力上下文矢量。

在这些方面的某些中，对所述底层输出和所述输入序列中的每个输入语言符号的所述相应编码表示进行处理以生成所述针对所述时间步长的注意力上下文矢量包括为每个时间步长执行以下操作：

经由一个或多个神经网络层对所述底层输出和所述相应编码表示进行处理，以生成针对所述输入语言符号的相应分值；根据针对所述输入语言符号的所述相应分值生成针对每个输入语言符号的相应权重；以及根据针对所述输入序列中的所述输入语言符号的所述相应权重，确定所述输入序列中的所述输入语言符号的所述相应编码表示的加权和。

在这些方面的某些中，所述输入语言符号和所述输出语言符号是文字片段。

在这些方面的某些中，所述编码器神经网络和所述解码器子系统被配置成在所述输出序列的生成期间执行量化计算。

其他方面包括编码有指令的一个或多个计算机可读存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机实现如前述方面中任一项所述的神经机器翻译系统。

某些其他方面包括一种生成输出语言符号的输出序列的方法，所述输出序列表示是第一文字序列到第二自然语言的翻译的第二文字序列，其包括如下动作：从神经机器翻译系统获得多个候选输出序列；在波束中维持至多预定数量的候选输出序列以便由所述神经机器翻译系统进行进一步考虑，包括：为每个候选输出序列指派相应分值；基于针对所述候选输出序列的所述相应分值对所述多个候选输出序列的每一个进行排名；根据所述排名将除了所述预定数量的排名最高的候选输出序列以外的所有候选输出序列从所述波束移除；确定所述波束中的所述候选输出序列中的任一个是否已经被所述神经机器翻译系统识别为最终确定的候选输出序列；以及当所述波束中的所述候选输出序列中的至少一个已经被识别为最终确定的候选输出序列时：将具有低于排名最高的最终确定的候选输出序列的分值的高于阈值的分值的所有候选输出序列从所述波束移除。

在这些方面的某些中，确定所述候选输出序列中的任一个是否已经被所述神经机器翻译系统识别为最终确定的候选输出序列包括：确定所述候选输出序列中的任一个是否以预定结束句输出语言符号结束。

在这些方面的某些中，为每个候选输出序列指派相应分值包括：根据由所述神经机器翻译系统生成的输出分值来确定所述候选输出序列的对数似然值；以及基于所述候选输出序列中的输出语言符号的数量对所述对数似然值进行归一化，以生成长度归一化的对数似然值。

在这些方面的某些中，为每个候选输出序列指派相应分值还包括：使用覆盖范围罚分来修改所述长度归一化的对数似然值，以偏向完全覆盖所述第一文字序列中的所述文字的候选输出序列。

在这些方面的某些中，当所述波束中的所有所述候选输出序列已经被所述神经机器翻译系统识别为最终确定的候选输出序列时，所述动作进一步选择最高排名的候选输出序列作为所述输出序列。

其他方面包括编码有指令的一个或多个计算机可读存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行如前述方法中任一项所述的操作。

其他方面包括一种包括一个或多个计算机和存储指令的一个或多个存储装置的系统，所述指令当由所述一个或多个计算机执行时，使所述一个或多个计算机执行如前述方法中任一项所述的操作。

能够实现本说明书中所描述的主题的特定实施例以便实现以下优点中的一个或多个。

通过将双向LSTM层用作编码器的底层，能够有效地捕获输入序列中的文字的上下文，从而提高翻译品质。因为其它编码器是单向的，所以仍然能够实现计算期间的并行化，从而缩短训练时间，并且在一些情况下缩短推理时间。

通过在编码器和解码器二者中使用LSTM层的深堆栈，例如，在解码器和编码器中的每个中使用总计8个或更多个LSTM层，编码器和解码器二者足够深，以捕获源语言和目标语言中的细微不规则之处，从而提高由该系统生成的翻译的准确性。

通过经由注意力子系统使解码器的底层连接至编码器的顶层，能够提高并行性，并且能够由此减少训练时间同时仍然采用允许解码器神经网络来准确地翻译源序列的有效注意力机制。也就是说，因为注意力子系统从解码器中的底部LSTM层接收输入而不是从解码器中的其它LSTM层中的任一个接收输入，并且与常规注意力机制不同，所以能够有效地与由其它LSTM层执行的计算并行执行由注意力子系统执行的计算，而不会不利地影响翻译品质。

通过如本说明书中所描述在推理计算期间采用低精度算法，即量化计算，能够加快最终的翻译时间，同时维持高翻译品质。

通过使用描述的波束搜索技术进行解码，相对于常规的波束搜索技术，能够减少翻译推理时间，同时维持高翻译品质。

在下面在附图和描述中阐述本说明书中所描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优点从本描述、附图和权利要求书中将变得显而易见。

附图说明

图1示出示例神经机器翻译系统。

图2是用于生成输入序列的翻译的示例过程的流程图。

图3是用于生成输入序列中的语言符号的编码表示的示例过程的流程图。

图4是用于生成针对输出序列中的位置的输出的示例过程的流程图。

图5是用于生成注意力矢量的示例过程的流程图。

图6是用于维持候选输出序列的波束的示例过程的流程图。

各个附图中的相同的附图标记和名称指示相同的元件。

具体实施方式

图1示出示例神经机器翻译系统100。神经机器翻译系统100是作为一个或多个位置处的一个或多个计算上的计算机程序被实现的系统的示例，其中能够实现下面所描述的系统、组件和技术。

神经机器翻译系统100将源自然语言的源文字序列翻译成目标自然语言的目标文字序列，例如将英语的句子或短语翻译成法语的句子或短语，将英语的句子或短语翻译成德语的句子或短语，或者将韩语的句子或短语翻译成西班牙语的句子或短语。例如，神经机器翻译系统100能够接收源自然语言的源序列102并且生成目标序列152，所述目标序列152是源序列102到目标自然语言的翻译。

神经机器翻译系统包括编码器神经网络110、解码器神经网络120和注意力子系统130。

为了生成至编码器神经网络110的输入，神经机器翻译系统110将源序列102切分成输入语言符号的输入序列104。一般而言，输入序列104中的每个输入语言符号选自输入语言符号的词汇，所述词汇包括针对一组文字单元中的每个的相应语言符号。除了文字单元以外，输入语言符号的词汇还包括一个或多个特殊的指定语言符号，例如起始句语言符号和结束句语言符号。在一些实施方式中，文字单元是源自然语言的文字。在一些其它实施方式中，文字单元中的一些或全部是子词单元，例如字符、混合文字/字符等。

特别地，在这些实施方式中的一些中，文字单元是文字片段，并且系统100通过首先使用训练的文字片段机器学习模型将序列中的文字分解成文字片段来将源序列102切分，所述训练的文字片段机器学习模型已经被训练成将文字分解成文字片段，并且包括特殊的文字边界符号，以使得能够从文字片段序列恢复原始文字序列而无歧义。以下文献中描述了用于将序列切分成文字片段的示例方法：“Schuster,M.,and Nakajima,K.Japaneseand Korean voice search.2012IEEE International Conference on Acoustics,Speechand Signal Processing(2012)and Sennrich,R.,Haddow,B.,and Birch,A.Neuralmachine translation of rare words with subword units.In Proceedings of the54th Annual Meeting of the Association for Computational Linguistics(2016)”(Schuster,M.和Nakajima,K.“日韩语音搜索”2012年声学、语音和信号处理IEEE国际会议(2012)，以及Sennrich，R.、Haddow，B.和Birch，A“通过子词单元的生僻字的神经机器翻译”在计算语言学协会第54届年会(2016)会议记录中)。

编码器神经网络110被配置成接收输入序列104并且对输入序列104进行处理，以生成输入序列104中的每个语言符号的相应编码表示112。

一般而言，编码器神经网络110包括多个长短期记忆(LSTM)神经网络层。更具体而言，编码器神经网络110包括后面跟随有单向LSTM层的堆栈116的双向LSTM层114。在一些情况下，堆栈116中的LSTM层中的两个或更多个与剩余连接118连接。下面将参考图2和图3更加详细地描述编码器神经网络的操作。

解码器神经网络120和注意力子系统130被配置成对编码表示112进行处理，以生成包括来自输出词汇的输出语言符号的输出序列142。

一般而言，输出词汇包括针对目标自然语言的文字中的一组文字单元中的每个的相应语言符号。除了文字单元以外，所述词汇也包括一个或多个特殊的指定语言符号，例如结束句语言符号。在一些实施方式中，文字单元是目标自然语言的文字。在一些其它实施方案中，文字单元是目标自然语言的文字的子词单元，例如字符、混合文字/字符、文字片段等。在一些情况下，当文字单元是文字片段时，在源语言与目标语言之间共享文字片段模型，以允许从源序列复制字符串到目标序列。

一般而言，解码器神经网络120被配置成为输出序列142中的每个位置接收输出序列142中的前一个位置处的语言符号，例如输出序列142的第二位置处的语言符号128。解码器神经网络120也被配置成接收由注意力子系统130生成的针对所述位置的注意力上下文矢量，例如针对输出序列142的第二位置的注意力上下文矢量132，并且对所述前一个语言符号和所述注意力上下文矢量进行处理以生成一组分值，所述一组分值包括针对输出词汇中的每个输出语言符号的相应分值。

特别地，解码器神经网络120包括LSTM层的堆栈122和softmax输出层124。在每个位置处，LSTM层的堆栈122被配置成对前一个语言符号和注意力上下文矢量进行处理以生成针对所述位置的LSTM输出，并且softmax输出层124被配置成对LSTM输出进行处理以生成针对所述位置的一组分值。与编码器神经网络110一样，在一些实施方式中，堆栈122中的LSTM层中的两个或更多个与剩余连接126连接。

下面将参考图4更加详细地描述解码器神经网络的操作。

注意力子系统130被配置成在输出序列中的每个位置处接收前一个位置处的由堆栈122中的底部LSTM层生成的LSTM输出，并且使用所述接收的LSTM输出来生成针对所述位置的注意力上下文矢量。一般而言，注意力上下文矢量是编码表示112的加权和，其中所述加权和中的权重基于所接收的LSTM输出进行确定。下面将参考图5更加详细地描述注意力子系统的操作。

为了生成输出序列142中的给定位置处的输出，系统100基于所述位置处的一组分值中的各个分值选择语言符号，即通过选择具有最高分值的语言符号或者通过根据来自输出语言符号的词汇的分值对语言符号进行取样。

系统100继续选择语言符号并且将语言符号添加至输出序列，直到系统100为输出序列142中的当前位置选择结束句输出语言符号为止。一旦已经选择了结束句输出语言符号，系统100就将在结束句输出之前添加至输出序列142的输出视作最终输出序列142。

在一些实施方式中，系统100使用波束搜索生成输出序列142。也就是说，系统100维持被并行处理和扩展的多个候选输出序列的波束，并且继续处理直到波束中的所有候选输出序列已经被最终确定或者从波束中移除为止。下面参考图6描述用于对波束进行维持和更新的示例技术。

一旦已经生成了输出序列142，系统100就通过将由输出序列142中的语言符号表示的文字单元转换成目标语言的文字来生成目标序列152。

在一些实施方式中，编码器神经网络100和解码器神经网络(即解码器神经网络120和注意力子系统130)被配置成在输出序列142的生成期间执行量化计算。特别地，在一些实施方式中，编码器神经网络100和解码器子系统使用8位整数运算执行计算密集型运算，同时使用16位整数值对误差敏感累加器值加以存储。在一些实施方式中，仅将编码器神经网络和解码器神经网络的LSTM堆栈内的计算量化，即，而不是将softmax输出层或注意力子系统的计算量化。

图2是用于生成输出序列的示例过程200的流程图，所述输出序列是输入序列的翻译。为了方便起见，过程200将被描述成由位于一个或多个位置处的一个或多个计算机的系统执行。例如，被适当地编程的神经机器翻译系统(例如，图1的神经机器翻译系统100)能够执行过程200。

所述系统接收语言符号的输入序列(步骤202)。语言符号的输入序列是表示自然语言的第一文字序列的序列。

所述系统使用编码器神经网络对语言符号的输入序列进行处理，以生成针对输入序列中的语言符号中的每个的相应编码表示(步骤204)。下面将参考图3描述对语言符号的输入序列进行处理。

所述系统使用解码器子系统对编码表示进行处理，以生成表示文字序列的输出语言符号的输出序列，所述文字序列是第一文字序列到不同自然语言的翻译(步骤206)。特别地，解码器子系统包括解码器神经网络和注意力子系统。下面将参考图4和图5更加详细地描述使用解码器子系统对编码表示进行处理。

图3是用于生成输入序列中的语言符号的编码表示的示例过程300的流程图。为了方便起见，过程300将被描述成由位于一个或多个位置处的一个或多个计算机的系统执行。例如，被适当地编程的编码器神经网络(例如，图1的神经机器翻译系统100的编码器神经网络)能够执行过程300。

编码器神经网络经由正向输入LSTM层对输入序列进行处理(步骤302)。正向输入LSTM层被配置成以正向次序对输入序列中的每个输入语言符号进行处理，以生成每个输入语言符号的相应正向表示。

编码器神经网络经由反向输入LSTM层对输入序列进行处理(步骤304)。反向输入LSTM层被配置成以反向次序对输入序列中的每个输入语言符号进行处理，以生成每个输入语言符号的相应反向表示。

编码器神经网络经由组合层对输入语言符号的正向表示和反向表示进行处理(步骤306)。所述组合层被配置成针对每个输入语言符号对输入语言符号的正向表示和输入语言符号的反向表示进行组合(例如，串联)，以生成输入语言符号的组合表示。

编码器神经网络经由多个隐藏LSTM层的堆栈对输入语言符号的组合表示进行处理(步骤308)。所述多个隐藏LSTM层被配置成以正向次序对每个组合表示进行处理，以生成输入序列中的输入语言符号中的每个的相应编码表示。特别地，多个隐藏LSTM层被一个接一个地布置在堆栈中，并且在已经经由堆栈处理了给定输入语言符号的组合表示之后，给定输入语言符号的编码表示是堆栈中的最高LSTM层的输出。

因此，编码器神经网络的底层是双向LSTM层，即正向输入、反向输入的组合，并且与编码器的底层一样，组合层有效地在正向和反向两个方向上对输入序列进行处理，所以能够有效地捕获输入序列中的文字的上下文，从而提高翻译品质。因为其它编码器层(即，堆栈中的隐藏LSTM层)是单向的，所以仍然能够实现计算期间的并行化，从而缩短训练时间，并且在一些情况下缩短推理时间。

一般而言，为了允许编码器神经网络来有效地捕获源语言中的细微不规则之处，堆栈中存在许多隐藏LSTM层，即七个或更多个。

为了通过在训练期间鼓励隐藏层之间的梯度流来提高编码器神经网络的性能，在一些实施方式中，编码器神经网络包括堆栈中的隐藏层中的一些或全部之间的剩余连接。例如，在一些实施方式中，剩余连接从编码器底部第三层开始，即从隐藏层的堆栈的底部第二层开始。

当剩余连接包括在LSTM层的堆栈中的LSTM层A与在所述层A的正上方的LSTM层B之间时，层B接收层A的输出和至层A的输入二者作为输入。层B然后按元素将层A的输出和至层A的输入相加，并且然后将和处理为至该层的新输入。

图4是用于生成针对输出序列中的给定位置的输出的示例过程400的流程图。为了方便起见，过程400将被描述成由位于一个或多个位置处的一个或多个计算机的系统执行。例如，被适当地编程的解码器神经网络(例如，图1的神经机器翻译系统100的解码器神经网络)能够执行过程400。

解码器神经网络获得针对给定位置的注意力上下文矢量和前一个位置处的输出语言符号，所述前一个位置即紧接在输出序列中的给定位置前面的位置(步骤402)。一般而言，注意力上下文矢量是对已经由注意力子系统生成的输入序列中的输入语言符号的编码表示的加权和。下面参考图5更加详细地描述生成针对给定位置的注意力上下文矢量。当给定位置是输出序列中的第一位置时，即不存在紧接在前面的位置，接收的输出语言符号能够是指定的占位符语言符号，例如预定起始句语言符号。

解码器神经网络经由LSTM层的堆栈对注意力上下文矢量和输出语言符号进行处理，以生成针对所述位置的LSTM输出(步骤404)。一般而言，为了允许解码器神经网络来捕获目标语言中的细微不规则之处，LSTM层的堆栈包括许多LSTM层，例如八个或更多个LSTM层。

堆栈中的第一LSTM层(即底部LSTM层)被配置成接收注意力上下文矢量和输出语言符号，并且对输出语言符号进行处理以生成底层输出。堆栈中的每个其它LSTM层被配置成接收包括注意力上下文矢量和由堆栈中的紧跟在该层的前面的LSTM层生成的层输出的输入，并且对所述输入进行处理以生成针对所述输入的层输出。

与编码器神经网络一样，在一些实施方式中，为了通过在训练期间鼓励各个层之间的梯度流来提高解码器神经网络的性能，解码器神经网络包括堆栈中的各个层中的一些或全部之间的剩余连接。例如，在一些实施方式中，剩余连接从解码器底部第三层开始。

解码器神经网络经由softmax输出层对LSTM输出进行处理，以生成针对输出语言符号的词汇中的每个输出语言符号的相应分值，例如相应概率(步骤406)。

如下面所描述，所述系统然后能够使用所述分值选择针对所述位置的输出语言符号，或者能够使用所述分值来对所维持的候选输出序列的波束进行更新。

图5是用于生成针对输出序列中的给定位置的注意力上下文矢量的示例过程500的流程图。为了方便起见，过程500将被描述成由位于一个或多个位置处的一个或多个计算机的系统执行。例如，被适当地编程的注意力子系统(例如，图1的神经机器翻译系统100的注意力子系统)能够执行过程500。

注意力子系统接收由解码器神经网络中的LSTM层的堆栈中的底层生成的针对输出序列中的前一个位置的LSTM输出(步骤502)。特别地，注意力子系统仅根据在对输出序列中的前一个位置进行处理期间由解码器堆栈中的底部LSTM层生成的输出(以及输入语言符号的编码表示)生成注意力上下文矢量，即，而不是根据解码器堆栈中的其它LSTM层的输出生成注意力上下文矢量。为此，能够在已经完成了前一个位置处的输出语言符号生成之前启动注意力上下文矢量的生成，从而提高由系统执行的操作的并行化，并且减少执行推理和对系统进行训练所需要的时间。

对于输出序列中的第一位置，由注意力子系统接收的LSTM输出能够是占位符输出，或者能够是例如输入序列中的语言符号中的一个的编码表示，所述语言符号例如第一个语言符号或最后一个语言符号。

注意力子系统生成针对来自底部LSTM输出的编码表示和针对输入语言符号的编码表示中的每个的相应注意力权重(步骤504)。特别地，所述系统为底部LSTM输出和针对输入语言符号的编码表示应用注意力函数，以生成针对编码表示中的每个的相应分值，并且然后通过使生成的分值归一化来生成权重。在一些实施方式中，注意力函数是前馈神经网络，例如具有一个隐藏层的前馈神经网络。在其它实施方式中，注意力函数能够是距离函数，例如余弦相似度函数。

注意力子系统通过根据对应的注意力权重来确定编码表示的加权和而生成针对输出位置的注意力上下文矢量(步骤506)。

图6是用于维持候选输出序列的波束的示例过程600的流程图。为了方便起见，过程600将被描述成由位于一个或多个位置处的一个或多个计算机的系统执行。例如，被适当地编程的神经机器翻译系统(例如，图1的神经机器翻译系统100)能够执行过程600。

所述系统能够重复地执行过程600作为波束搜索解码程序的一部分。特别地，所述系统能够重复地执行过程600，直到波束中的所有序列已经被最终确定为止，或者直到满足针对解码的一些其它终止标准为止，例如仅特定数量的候选输出序列满足针对保持在波束中的标准或者波束中最长的候选输出序列具有多于阈值数量的语言符号。

所述系统从神经机器翻译系统(例如，图1的神经机器翻译系统100)获得多个候选输出序列(步骤602)。特别地，候选输出序列能够包括在过程600的前一个迭代结束时在波束中的每个最终确定的候选序列，并且对于在过程600的前一个迭代结束时在波束中但是并未最终确定的每个候选序列，包括所述候选序列的一个或多个扩展。候选序列的扩展具有附加至候选序列的末尾的新语言符号，其中候选序列的每个扩展具有附加至序列的末尾的不同语言符号。针对每个扩展，所述系统还获得针对附加至序列的末尾的语言符号的局部分值，如由神经机器翻译系统生成的。

在一些实施方式中，针对在波束中但尚未最终确定的每个候选序列，系统丢弃具有超过最高局部分值以下的阈值的局部分值的候选序列的扩展。

所述系统然后在波束中维持至多预定数量的候选输出序列以便由神经机器翻译系统进行进一步考虑，即由神经机器翻译系统进行进一步处理。

特别地，为了确定在波束中维持哪一个候选输出序列，所述系统为候选输出序列中的每个指派相应分值(步骤604)。一般而言，所述系统为序列中的每个指派初始分值，并且可选地，通过为所述初始分值应用覆盖范围罚分、长度归一化罚分或二者来修改每个序列的初始分值，以生成所述序列的最终分值。

特别地，所述系统根据由神经机器翻译系统生成的输出分值来基于候选输出序列的对数似然值确定给定序列的初始分值。也就是说，如上面所描述，在输出序列中的每个位置处，神经机器翻译系统生成针对输出序列中的多个可能的语言符号中的每个的相应分值。为了确定候选输出序列的初始分值，所述系统确定语言符号所在的位置处的由神经机器翻译系统为语言符号中的每个生成的分值的对数的和。因为由翻译系统生成的分值一般是概率，所以序列的初始分值通常将是负数，即因为在零与一之间的数字的对数是负数。

在一些实施方式中，在计算任何初始分值之前，以及对于来自该过程的先前迭代的每个候选序列，系统从考虑中放弃由神经机器翻译系统分配给新语言符号的分值比分配给候选序列的任何扩展的最高分值低阈值以上的候选序列的任何扩展。

在系统应用长度归一化罚分的实施方式中，系统然后基于在输出序列中的输出语言符号的数量将候选序列的初始分值归一化。一般而言，所述系统通过用罚分项除以初始分值来应用罚分，输出序列中的输出语言符号越多则罚分项越大。采用此种罚分允许系统在解码期间有效地对不同长度的候选序列进行比较，即不会较之较长的结果过分偏向较短的结果。在一些实施方式中，罚分项是序列的长度，即序列中语言符号的数量。在一些其它实施方式中，罚分项是长度^α，其中α是在零与一之间的常数，例如在0.6与0.7之间的值，并且长度是序列的长度，即序列中语言符号的数量。在其它实施方式中，罚分lp能够满足：

其中b是正常数，例如5，|Y|是序列的长度，且α是在零与一之间的常数，例如0.2。

在系统应用覆盖范围罚分的实施方式中，系统然后添加覆盖范围罚分项至归一化的初始分值(或者如果未采用长度归一化，则添加至初始分值)。一般而言，覆盖范围罚分项偏向完全覆盖第一文字序列中的文字的候选输出序列，如由神经机器翻译系统所采用的注意力机制所确定。例如，覆盖范围罚分项cp能够满足：

其中β是在零与一之间的正常数值，例如0.2，i在覆盖输入序列中的语言符号的范围内变化，j在覆盖候选输出序列中的语言符号的范围内变化，并且p_i,j是当处理第j个输出语言符号时由注意力机制生成的针对第i个输入语言符号的权重。

所述系统基于最终分值对候选输出序列进行排名，即从具有最高最终分值的候选输出序列到具有最低分值的序列(步骤606)。

所述系统根据所述排名将除了预定数量的排名最高的候选输出序列以外的所有候选输出序列从波束移除(步骤608)。

所述系统然后确定波束中的剩余候选输出序列中的任一个是否已经被神经机器翻译系统识别为最终确定(步骤610)。一般而言，当输出序列以指定的语言符号结束时所述输出序列已经被识别为最终确定，所述指定的语言符号例如预定结束句输出语言符号。

当至少一个候选输出序列已经被最终确定时，系统将具有低于排名最高的最终确定的候选输出序列的分值的高于阈值的分值的所有候选输出序列从波束移除(步骤612)。通过以此方式对波束进行删减，一旦已经识别出足够高品质的假设，系统就能够减小需要执行的额外迭代的数量，从而缩短推理时间而不会显著地影响翻译品质。如果在该额外删减之后波束仅包括最终确定的序列，那么系统能够选择排名最高的候选序列作为输入序列的翻译。如果波束仍然包括非最终确定的候选序列，并且尚未满足任何其它终止标准，那么系统将波束中的非最终确定的候选序列提供给神经机器翻译系统以进行进一步处理。也就是说，系统将波束中的每个非最终确定的序列提供给神经机器翻译系统，使得神经机器翻译系统可以对每个非最终确定序列的可能扩展进行评分。

当没有候选输出序列已经被最终确定时，系统不会对波束进行进一步删减，并且将波束中的候选输出序列提供给神经机器翻译系统以进行进一步处理(步骤614)。

本说明书使用术语“配置”与系统和计算机程序组件相关联。对于可被配置成执行特定操作或者动作的一个或多个计算机的系统，表示系统具有安装在其上的软件、固件、硬件或它们的组合，所述软件、固件、硬件或它们的组合在操作中导致或者使所述系统执行所述操作或者动作。对于可被配置成执行特定操作或者动作的一个或多个计算机程序，表示一个或多个程序包括指令，所述指令当由数据处理设备执行时，使所述设备执行所述操作或者动作。

本说明书中所描述的主题和功能操作的实施例能够用数字电子电路、用有形地具体实现的计算机软件或固件、用计算机硬件(包括本说明书中所公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。

本说明书中所描述的主题的实施例能够作为一个或多个计算机程序(即，在有形非暂时性程序载体上编码以用于由数据处理设备执行或者控制数据处理设备的操作的计算机程序指令的一个或多个模块)被实现。可替选地或此外，能够将程序指令编码在人工生成的传播信号(例如，被生成来对信息进行编码以便传送到适合的接收器设备以用于由数据处理设备执行的机器生成的电、光学或电磁信号)上。计算机存储介质可以是机器可读存储装置、机器可读存储基底、随机或串行存取存储器装置，或它们中的一个或多个的组合。

术语“数据处理设备”包含用于处理数据的所有类型的设备、装置和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。设备能够包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。设备除了包括硬件之外，还能够包括为所述的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或代码)能够用任何形式的编程语言(包括编译或解释语言)或者描述性或过程语言编写，并且它能够被以任何形式(包括作为独立程序或者作为适合于在计算环境中使用的模块、组件、子例程或其它单元)部署。计算机程序可以但不必对应于文件系统中的文件。能够在保持其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、在专用于所述的程序的单个文件中或者在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中存储程序。能够将计算机程序部署成在一个计算机上或者在位于一个站点处或跨多个站点分布并通过通信网络互连的多个计算机上执行。

本说明书中所描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程计算机来执行以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程还能够由专用逻辑电路执行，并且设备还能够作为专用逻辑电路被实现，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的计算机能够基于通用微处理器或专用微处理器或两者，或任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。通常，计算机还将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储装置(例如，磁盘、磁光盘或光盘)接收数据或者向一个或多个大容量存储装置转移数据或两者。然而，计算机不必具有这些装置。而且，能够将计算机嵌入在另一装置(例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储装置(例如，通用串行总线(USB)闪存驱动器)等等)中。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质以及存储器装置，作为示例包括：半导体存储器装置，例如，EPROM、EEPROM和闪存装置；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或者结合在专用逻辑电路中。

为了提供与用户的交互，能够将本说明书中所描述的主题的实施例实现在具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示)监视器)以及用户能够用来向计算机提供输入的键盘和指示装置(例如，鼠标或轨迹球)的计算机上。其它类型的装置也能够被用来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且能够以包括声学输入、语音输入或触觉输入的任何形式接收来自用户的输入。此外，计算机能够通过向由用户使用的装置发送文档并且从由用户使用的装置接收文档(例如，通过响应于从web浏览器接收到的请求而向用户的客户端装置上的web浏览器发送网页)来与用户交互。

本说明书中所描述的主题的实施例能够被实现在计算系统中，所述计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有用户能够用来与本说明中所描述的主题的实施方式交互的图形用户界面或web浏览器的客户端计算机)，或一个或多个这些后端组件、中间件组件或前端组件的任何组合。本系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，互联网。

计算系统能够包括客户端和服务器。客户端和服务器通常远离彼此并且典型地通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多特定实施方式细节，但是这些不应该被解释为对任何发明的范围或可能要求保护的范围构成限制，而是相反被解释为可能特定于特定发明的特定实施例的特征的描述。还能够在单个实施例中相结合地实现在本说明书中在单独的实施例背景下所描述的特定特征。相反地，还能够分离地在多个实施例中或在任何适合的子组合中实现在单个实施例背景下所描述的各种特征。而且，尽管特征可以被以上描述为按照特定组合行动并且因此甚至最初要求保护，但是来自要求保护的组合的一个或多个特征在一些情况下能够被从组合中删除，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然按特定次序在附图中描述操作，但是这不应该被理解为要求这些操作被以所示出的特定次序或者以顺序次序执行，或者要求所有图示的操作被执行，以实现所希望的结果。在特定情况下，多任务处理和并行处理可能是有利的。而且，上面所描述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离，并且应该理解的是，所描述的程序组件和系统能够通常被一起集成在单个软件产品中或者成套于多个软件产品中。

已经描述了本主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中所记载的动作能够被以不同的次序执行并且仍然实现所希望的结果。作为一个示例，附图中所描绘的过程未必要求所示出的特定次序或顺序次序以实现所希望的结果。在特定实施方式中，多任务处理和并行处理可能是有利的。

Claims

1.一种由一个或多个计算机实现的神经机器翻译系统，所述神经机器翻译系统被配置成接收表示第一自然语言的第一文字序列的输入语言符号的输入序列，并且生成表示是所述第一文字序列到第二自然语言的翻译的第二文字序列的输出语言符号的输出序列，所述神经机器翻译系统包括：

编码器神经网络，所述编码器神经网络包括：

正向输入长短期记忆(LSTM)层，所述正向输入长短期记忆层被配置成以正向次序对所述输入序列中的每个输入语言符号进行处理，以生成所述输入语言符号的相应正向表示，

反向输入LSTM层，所述反向输入LSTM层被配置成以反向次序对所述输入序列中的每个输入语言符号进行处理，以生成所述输入语言符号的相应反向表示，

组合层，所述组合层被配置成针对所述输入序列中的每个输入语言符号，对所述输入语言符号的所述正向表示和所述输入语言符号的所述反向表示进行组合，以生成所述输入语言符号的组合表示，以及

多个隐藏LSTM层，所述多个隐藏LSTM层被配置成以所述正向次序对所述输入序列中的每个输入语言符号的所述组合表示进行处理，以生成所述输入语言符号的相应编码表示，其中，为了允许并行化，所述多个隐藏LSTM层是单向的并且被一个接一个地布置在堆栈中；以及

解码器子系统，所述解码器子系统被配置成接收所述输入序列中的每个输入语言符号的所述相应编码表示，并且对所接收的编码表示进行处理以生成所述输出序列，

其中所述多个LSTM层包括至少八个LSTM层，所述编码器神经网络和所述解码器子系统被配置成在所述输出序列的生成期间执行量化计算，并且其中所述输入语言符号和所述输出语言符号是文字片段。