CN107368476A

CN107368476A - 一种翻译的方法、目标信息确定的方法及相关装置

Info

Publication number: CN107368476A
Application number: CN201710612833.7A
Authority: CN
Inventors: 涂兆鹏; 周浩; 史树明
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2017-11-21
Anticipated expiration: 2037-07-25
Also published as: US11928439B2; JP2020528625A; EP3660707A1; CN107368476B; KR20200019740A; JP7025090B2; KR102382499B1; EP3660707A4; US20200226328A1; US20240169166A1; WO2019019916A1

Abstract

本发明公开了一种目标信息确定的方法，包括：对待处理文本信息进行编码处理，以得到源端向量表示序列；根据源端向量表示序列获取第一时刻对应的源端上下文向量，源端上下文向量用于表示待处理的源端内容；根据源端向量表示序列以及源端上下文向量确定第一翻译向量和/或第二翻译向量，第一翻译向量指示第一时刻内在源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在源端向量表示序列中已经被翻译的源端内容；对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息。本发明还提供一种翻译的方法以及目标信息确定装置。本发明可以降低解码器的模型训练难度，提高翻译系统的翻译效果。

Description

一种翻译的方法、目标信息确定的方法及相关装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种翻译的方法、目标信息确定的方法及相关装置。

背景技术

机器翻译(machine translation，MT)是指使用机器将文本或言语从一种语言转化为具有相同含义内容的另一种语言的过程。随着深度学习的兴起，最近两年深层神经网络技术在MT上也得到应用，神经网络机器翻译(neural machine translation，NMT)成为新一代翻译技术。

目前，NMT使用编码器-解码器框架来实现理解语义再翻译的过程，该过程主要包括编码器生成当前时刻的源端向量表示，然后由解码器根据源端向量表示和当前时刻源端上下文，输出当前时刻的解码器状态，最后根据该解码器状态选择相似度最高的一个词作为目标词。

然而，在现有方案中，解码器需要建立语言模型，记录过去翻译过的信息以及记录未来需要翻译的信息，这些操作都会增加解码器的模型训练难度，降低模型训练的准确度，从而容易出现重复翻译和遗漏翻译的情况。

发明内容

本发明实施例提供了一种翻译的方法、目标信息确定的方法及相关装置，可以对源端向量表示序列中未被翻译的源端内容和/或已被翻译的源端内容进行建模处理，即把这部分内容从原来的语言模型中剥离出来进行训练，从而降低解码器的模型训练难度，提高翻译系统的翻译效果。

有鉴于此，本发明第一方面提供了一种翻译的方法，所述方法应用于神经网络机器翻译NMT系统，所述方法包括：

采用编码器对待处理文本信息进行编码处理，以得到源端向量表示序列，其中，所述待处理文本信息属于第一语言；

根据所述源端向量表示序列获取第一时刻对应的源端上下文向量，其中，所述源端上下文向量用于表示待处理的源端内容；

根据所述源端向量表示序列以及所述源端上下文向量确定第一翻译向量和/或第二翻译向量，其中，所述第一翻译向量指示第一时刻内在所述源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在所述源端向量表示序列中已经被翻译的源端内容，所述第二时刻为所述第一时刻之前相邻的一个时刻；

采用解码器对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息，其中，所述目标信息属于第二语言。

本发明第二方面提供了一种目标信息确定的方法，包括：

对待处理文本信息进行编码处理，以得到源端向量表示序列；

对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息。

本发明第三方面提供了一种目标信息确定装置，包括：

编码模块，用于对待处理文本信息进行编码处理，以得到源端向量表示序列；

第一获取模块，用于根据所述编码模块编码得到的所述源端向量表示序列获取第一时刻对应的源端上下文向量，其中，所述源端上下文向量用于表示待处理的源端内容；

第一确定模块，用于根据所述编码模块编码得到的所述源端向量表示序列以及所述第一获取模块获取的所述源端上下文向量确定第一翻译向量和/或第二翻译向量，其中，所述第一翻译向量指示第一时刻内在所述源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在所述源端向量表示序列中已经被翻译的源端内容，所述第二时刻为所述第一时刻之前相邻的一个时刻；

解码模块，用于对所述第一确定模块确定的所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息。

本发明第四方面提供了一种目标信息确定装置，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种目标信息确定的方法，首先由目标信息确定装置对待处理文本信息进行编码处理，以得到源端向量表示序列，然后根据源端向量表示序列获取第一时刻对应的源端上下文向量，该源端上下文向量用于表示待处理的源端内容，根据源端向量表示序列以及源端上下文向量确定第一翻译向量和/或第二翻译向量，该第一翻译向量指示第一时刻内在源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在源端向量表示序列中已经被翻译的源端内容，第二时刻为第一时刻之前相邻的一个时刻，最后目标信息确定装置对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息。通过上述方式，可以对源端向量表示序列中未被翻译的源端内容和/或已被翻译的源端内容进行建模处理，即把这部分内容从原来的语言模型中剥离出来进行训练，从而降低解码器的模型训练难度，提高翻译系统的翻译效果。

附图说明

图1为本发明实施例中目标信息确定装置的架构图；

图2为本发明实施例中目标信息确定的方法一个流程示意图；

图3为本发明实施例中目标信息确定的方法一个实施例示意图；

图4为本发明实施例中门控循环单元的一个结构示意图；

图5为本发明实施例中门控循环单元的另一个结构示意图；

图6为本发明实施例中门控循环单元的另一个结构示意图；

图7为本发明实施例中增强注意力模块的一个实施例示意图；

图8为本发明实施例中增强解码器状态的一个实施例示意图；

图9为本发明应用场景中翻译源端向量表示序列中第一个源端内容的实施例示意图；

图10为本发明应用场景中翻译源端向量表示序列中第二个源端内容的实施例示意图；

图11为本发明实施例中目标信息确定装置一个实施例示意图；

图12为本发明实施例中目标信息确定装置另一个实施例示意图；

图13为本发明实施例中目标信息确定装置另一个实施例示意图；

图14为本发明实施例中目标信息确定装置另一个实施例示意图；

图15为本发明实施例中目标信息确定装置另一个实施例示意图；

图16为本发明实施例中目标信息确定装置另一个实施例示意图；

图17为本发明实施例中目标信息确定装置另一个实施例示意图；

图18为本发明实施例中目标信息确定装置另一个实施例示意图；

图19为本发明实施例中目标信息确定装置另一个实施例示意图；

图20为本发明实施例中目标信息确定装置一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明实施例主要应用于编码-解码模型(encoder-decoder)，所谓编码，就是将输入序列转化成一个长度的向量，而所谓解码，就是根据编码器生成的向量序列再转化成输出序列。encoder-decoder模型有很多的应用，例如翻译、文档摘取和问答系统等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本。在问答系统中，输入序列是提出的问题，而输出序列是答案。

可以理解的是，在具体实现的时候，编码器和解码器都不是固定的，可选的有卷积神经网络(convolutional neural networks，CNN)、循环神经网络(recurrent neuralnetworks，RNN)、门控循环单元(gated recurrent unit，GRU)、时间递归神经网络(longshort term memory，LSTM)以及双向循环神经网络(bidirectional recurrent neuralnetworks，BiRNN)等，还可以在编码和解码时采用不同的神经网络，例如，编码时使用BiRNN解码时使用RNN，或者在编码时使用RNN解码时使用LSTM，此次不做限定。

请参阅图1，图1为本发明实施例中目标信息确定装置的架构图，如图所示，在解码器中额外引入两个隐层，这两个隐层可以用向量序列来表示。图中的表示第t-1时刻所对应的第二翻译向量，第二翻译向量是指已经翻译的源端内容，即过去翻译向量。图中的表示第t时刻所对应的第一翻译向量，第一翻译向量是指还未翻译的源端内容，即未来翻译向量。图中c_t表示第t时刻对应的源端上下文向量。图中s_t表示第t时刻的解码器状态。

本发明通过引入额外的隐层，在语义层面直接对过去翻译(已被翻译内容)和未来翻译(未被翻译内容)进行建模，将相关内容从解码器状态中剥离出来，提高神经网络翻译系统对相关内容的储存及利用，从而提高翻译系统效果。本发明提供的方法可以用在主流神经网络机器翻译系统中。

为了便于理解，请参阅图2，图2为本发明实施例中目标信息确定的方法一个流程示意图，如图所示，具体为：

首先，编码器模块S1在步骤101中输入一个需要被处理的句子，然后由该编码器模块S2输出源端向量表示序列。接下来由注意力模块S2、过去未来模块S3和解码器模块S4重复以下的步骤，直到全部译文生成为止。

注意力模块S2读入第t-1时刻的过去翻译向量和未来翻译向量，其中，过去翻译向量的初始为全零向量，表示没有源端内容被翻译，而未来翻译向量的初始为源端向量表示序列的最后一个向量，表示源端句子的总结。注意力模块S2在步骤103中输出当前时刻，即第t时刻的源端上下文向量。过去未来模块S3读取当前时刻的源端上下文向量，在步骤104中更新第t时刻的过去翻译向量和未来翻译向量。解码器模块S4读取第t时刻的未来翻译向量、第t-1时刻的过去翻译向量、第t时刻的源端上下文向量以及其他标准输入，并在步骤105中生成第t时刻的目标词。

本发明可以用于NMT系统，下面将介绍本发明所提供的一种翻译的方法，本发明实施例中翻译的方法一个实施例包括：

在NMT系统中，首先采用编码器对待处理文本信息进行编码处理，以得到源端向量表示序列，其中，待处理文本信息属于第一语言，例如中文，可以理解的是，在实际应用中，还可以是其他类型的语言。

编码处理的流程具体为，将待处理文本信息输入至NMT系统中的编码器，然后采用该编码器对待处理文本信息进行编码处理，最后根据编码处理的结果获取源端向量表示序列，源端向量表示序列中各个源端向量属于第一语言。

假设第一语言是中文，那么待处理文本信息可以是一个中文的句子，这个句子中包含了若干个词组。在对这个中文句子进行编码处理后，记旷课得到源端向量表示序列，进而获取当前时刻，即第一时刻所对应的源端上下文向量，其中，源端上下文向量用于表示待处理的源端内容，源端内容具体可以为这个中文句子中的某个词语。

接下来，NMT系统会根据源端向量表示序列以及源端上下文向量确定第一翻译向量和/或第二翻译向量，其中，第一翻译向量指示第一时刻内在源端向量表示序列中未被翻译的源端内容，而第二翻译向量指示第二时刻内在源端向量表示序列中已经被翻译的源端内容，第二时刻为第一时刻之前相邻的一个时刻。如果第一时刻是t时刻，那么第二时刻便是t-1时刻。

举个例子，假设源端向量表示序列为“每月到世界各地的航班多达1300个。”于是，源端向量所对应的词语即为“每月”、“到”、“世界各地”、“的”、“航班”、“多达”和“1300个”。如果当前时刻翻译到“世界各地”这个词语，那么第一翻译向量可理解为未被翻译的“世界各地”、“的”、“航班”、“多达”和“1300个”，第二翻译向量可理解为已被翻译的“每月”和“到”。

最后，在NMT系统中采用解码器对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息，其中，目标信息属于第二语言。可以理解的是，第二语言是与第一语言不同的一门语言，可以是英语、法语或者日语等，此处不做限定。

假设第一时刻翻译到“世界各地”这个词语，那么输出的目标信息可以为“allparts of the world”，也就是第一语言为中文，第二语言为英文，至此结束了机器翻译的过程。

本发明实施例中，提供了一种翻译的方法，可以对源端向量表示序列中未被翻译的源端内容和/或已被翻译的源端内容进行建模处理，即把这部分内容从原来的语言模型中剥离出来进行训练，从而降低解码器的模型训练难度，提高翻译系统的翻译效果。

下面将对本发明中目标信息确定的方法进行介绍，请参阅图3，图3为本发明实施例中目标信息确定的方法一个实施例包括：

201、对待处理文本信息进行编码处理，以得到源端向量表示序列；

本实施例中，目标信息确定装置中的编码器对待处理文本信息进行编码处理，其中，待处理文本信息可以是一个待翻译的句子，例如“多个机场被关闭。”句子在经过编码处理后，可得到源端向量表示序列。

源端向量表示序列中每个向量对应的一个源端内容(源端词)，例如，在“多个机场被关闭。”这个句子中的源端内容分别为“多个”、“机场”、“被”、“关闭”、“。”和“<eos>”。根据此序列，目标信息确定装置中的解码器逐词生成译文。

202、根据源端向量表示序列获取第一时刻对应的源端上下文向量，其中，源端上下文向量用于表示待处理的源端内容；

本实施例中，目标信息确定装置根据源端向量表示序列，可以获取第一时刻对应的源端上下文向量，第一时刻即为本发明实施例中的第t时刻，源端上下文向量用于表示待处理的源端内容。

具体地，目标信息确定装置为每个源端内容输出一个对齐概率，例如0.0或者0.2等，源端向量表示序列中各个对齐概率之和为1，且对其概率越大，表示这个源端内容和待生成的目标信息越相关。将对齐概率和语义向量加权即可生成第t时刻的源端上下文向量。

203、根据源端向量表示序列以及源端上下文向量确定第一翻译向量和/或第二翻译向量，其中，第一翻译向量指示第一时刻内在源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在源端向量表示序列中已经被翻译的源端内容，第二时刻为第一时刻之前相邻的一个时刻；

本实施例中，目标信息确定装置可以根据源端向量表示序列以及源端上下文向量确定第一翻译向量，或者根据源端向量表示序列以及源端上下文向量确定第二翻译向量，又或者根据源端向量表示序列以及源端上下文向量确定第一翻译向量和第二翻译向量。其中，第一翻译向量指示第一时刻内在源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在源端向量表示序列中已经被翻译的源端内容，第二时刻为第一时刻之前相邻的一个时刻。

具体地，第一翻译向量表示第t时刻的未来翻译向量，第二翻译向量表示第t-1时刻的过去翻译向量。当生成完一个目标信息后，就把相应的c_t加到前一时刻的过去翻译向量得到新的过去翻译向量，并从前一时刻的未来翻译向量中减去c_t得到新的未来翻译向量。

204、对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息。

本实施例中，目标信息确定装置中的解码器使用一个神经网络输出层，对第一翻译向量以及源端上下文向量进行解码处理，可以得到第一时刻的目标信息。或者，对第二翻译向量以及源端上下文向量进行解码处理，可以得到第一时刻的目标信息。又或者，对第一翻译向量、第二翻译向量以及源端上下文向量进行解码处理，可以得到第一时刻的目标信息。

在生成目标信息的过程中可以生成多个待选择的信息，最后输出相似度最高的一个词语作为目标信息。例如，“多个机场被关闭。”这个句子中，“多个”可以被翻译成“many”或者“much”，然而根据解码器状态向量中存储的语义知识可以知道，在可数名词之前使用“many”，因此，这里的“多个”最后被翻译成“many”。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的目标信息确定的方法第一个可选实施例中，根据源端向量表示序列以及源端上下文向量确定第一翻译向量，可以包括：

根据源端向量表示序列获取第二时刻对应的第三翻译向量；

采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量。

本实施例中，目标信息确定装置可以根据源端向量表示序列以及源端上下文向量确定第一翻译向量，即先根据源端向量表示序列获取第二时刻对应的第三翻译向量，然后采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以此得到第一翻译向量。

具体地，假设第一时刻为第t时刻，第二时刻为第t-1时刻，那么目标信息确定装置需要读入第一时刻的源端上下文向量(表示第一时刻被翻译的源端内容)，进而更新存储的未来翻译向量。未来翻译向量的初始化为源端句子的总结(通常为源端向量表示序列的最后一个向量)，表示起始的所有源端内容都没有被翻译。于是在每一时刻，更新如下：

其中，表示第t个时刻的未来翻译向量，即第一翻译向量，表示第t-1个时刻的未来翻译向量，即第三翻译向量，c_t表示第t时刻的源端上下文向量，RNN()表示采用RNN模型进行计算。

需要说明的是，这里将RNN作为预设神经网络模型仅为一个示意，在实际应用中，预设神经网络模型可以是LSTM、时延网络模型或者闸控卷积神经网络，还可以是其他类型的神经网络结构，此处不做限定。

其次，本发明实施例中，介绍了如何根据源端向量表示序列以及源端上下文向量确定第一翻译向量，即根据源端向量表示序列获取第二时刻对应的第三翻译向量，然后采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量。通过上述方式，利用预设神经网络模型输出第一翻译向量，可以提高未来翻译向量的准确度。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的目标信息确定的方法第二个可选实施例中，根据源端向量表示序列以及源端上下文向量确定第一翻译向量和第二翻译向量，可以包括：

根据源端向量表示序列获取第二时刻对应的第三翻译向量；

采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量；

根据源端上下文向量在源端向量表示序列中出现的位置，获取第二翻译向量，其中，第二翻译向量用于更新第一时刻所对应的第四翻译向量，第四翻译向量为采用预设神经网络模型对第二翻译向量和源端上下文向量处理后得到的。

本实施例中，假设第一时刻为第t时刻，第二时刻为第t-1时刻，第一时刻的源端上下文向量(即正在被翻译的源端语义内容)表示为c_t，是由注意力模块得到的，c_t同时也被用来更新过去翻译向量以及未来翻译向量。更新如下：

其中，表示第t个时刻的过去翻译向量，即第二翻译向量，表示第t-1个时刻的过去翻译向量，即第四翻译向量，c_t表示第t时刻的源端上下文向量，RNN()表示采用RNN模型进行计算。

我们希望能通过建模达到“累积”这一规律，即将第t时刻的的源端上下文向量c_t(第t时刻被翻译的源端内容)和第t-1时刻过去翻译向量(直到第t-1时刻已经被翻译的源端内容)，因此我们选择RNN结构，因为RNN能很好地总结到第t时刻为止的历史信息，与预期相符。例如，以及

其次，本发明实施例中，介绍了如何根据源端向量表示序列以及源端上下文向量确定第一翻译向量和第二翻译向量，即根据源端向量表示序列获取第二时刻对应的第三翻译向量，然后采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量，还可以根据源端上下文向量在源端向量表示序列中出现的位置，获取第二翻译向量，其中，第二翻译向量用于更新第一时刻所对应的第四翻译向量，第四翻译向量为采用预设神经网络模型对第二翻译向量和源端上下文向量处理后得到的。通过上述方式，可以提高过去翻译向量和未来翻译向量的准确度。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的目标信息确定的方法第三个可选实施例中，根据源端向量表示序列以及源端上下文向量确定第二翻译向量，可以包括：

根据源端上下文向量在源端向量表示序列中出现的位置，获取第二翻译向量，其中，第二翻译向量用于生成第一时刻所对应的第四翻译向量，第四翻译向量为采用预设神经网络模型对第二翻译向量和源端上下文向量处理后得到的。

本实施例中，目标信息确定装置可以根据第一时刻的源端上下文向量在源端向量表示序列中出现的位置，获取第二时刻的第二翻译向量。

具体地，假设第一时刻为第t时刻，第二时刻为第t-1时刻，那么目标信息确定装置需要读入第t-2时刻的源端上下文向量以及第t-2时刻的过去翻译向量，然后，采用预设神经网络模型对第t-2时刻的源端上下文向量以及第t-2时刻的过去翻译向量进行处理，以获取t-1时刻第二翻译向量。过去翻译向量初始化为全零向量表示起始没有任何源端内容被翻译。于是在每一时刻，更新如下：

其次，本发明实施例中，介绍了如何根据源端向量表示序列以及源端上下文向量确定第二翻译向量，即根据源端上下文向量在源端向量表示序列中出现的位置，获取第二翻译向量，第二翻译向量用于生成第一时刻所对应的第四翻译向量，第四翻译向量为采用预设神经网络模型对第二翻译向量和源端上下文向量处理后得到的。通过上述方式，利用预设神经网络模型输出第二翻译向量，可以提高过去翻译向量的准确度。

可选地，在上述图3对应的第一个或第二个实施例的基础上，本发明实施例提供的目标信息确定的方法第四个可选实施例中，采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量，可以包括：

采用门控循环单元GRU从第三翻译向量中减去源端上下文向量，以得到第一翻译向量。

本实施例中，在得到未来翻译向量的过程中需要通过建模来达到“累减”的规律。假设第一时刻为第t时刻，第二时刻为第t-1时刻，即将第一时刻的源端上下文向量c_t(第一时刻被翻译的源端内容)从第二时刻(直到第二时刻还未被翻译的源端内容)中减去。这里我们设计了几种结构，以建模这种“累减”规律。本发明可适用于多种RNN结构，这里我们以主流的GRU为例进行介绍。

请参阅图4，图4为本发明实施例中门控循环单元的一个结构示意图，根据图4对应的标准GRU结构，可以建立“递减”模型，且希望GRU的参数能自动学习到如下规律：

其中，表示第t时刻的未来翻译向量，即第一翻译向量，表示第t-1时刻的未来翻译向量，即第三翻译向量，c_t表示第一时刻的源端上下文向量，u_t表示第一时刻的更新门，表示GRU生成的更新状态候选，即中间向量，r_t表示输出的权重向量，tanh()表示双曲正切函数，σ()表示sigmoid函数。U、W、U_r、W_r、U_u和W_u表示函数相关的参数，这些参数和神经网络翻译系统的其他参数统一进行训练。

然后图4对应的GRU结构并没有给出需要“递减”的信号，这样会增加GRU学习规律的难度，因此，可以对该GRU结构进行改进，以得到图5对应的的GRU-o结构。请参阅图5，图5为本发明实施例中门控循环单元的另一个结构示意图，在这个结构中，我们先将第一时刻(即第t时刻)的源端上下文向量c_t从第二时刻(即第t-1时刻)的未来翻译向量中减去，其中，第二时刻的未来翻译向量即为第三翻译向量。得到需要的第一翻译向量，再传到GRU结构中，具体地，请参阅如下公式：

其中，表示将c_t从中减去，U_m和W_m表示表示函数相关的参数，这些参数和神经网络翻译系统的其他参数统一进行训练。

再次，本发明实施例中，可以采用GRU从第三翻译向量中减去源端上下文向量，以得到第一翻译向量，再将得到的第一翻译向量传递到GRU结构中。通过上述方式，可以在GRU中给出递减的信号，这样有利于学习规律。从而提升模型训练的准确度。

可选地，在上述图3对应的第一个或第二个实施例的基础上，本发明实施例提供的目标信息确定的方法第五个可选实施例中，采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量，可以包括：

采用GRU对第三翻译向量和源端上下文向量进行处理，以得到中间向量；

将中间向量与第三翻译向量进行插值合并，以得到第一翻译向量。

本实施例中，还可以在GRU内部执行“累减”的操作，请参阅图6，图6为本发明实施例中门控循环单元的另一个结构示意图，假设第一时刻为第t时刻，第二时刻为第t-1时刻，GRU的参数能自动学习到如下规律：

其中，表示GRU生成的更新状态候选，即中间向量，r_t表示输出的权重向量，tanh()表示双曲正切函数，表示第t-1时刻的未来翻译向量，即第三翻译向量，c_t表示第一时刻的源端上下文向量。

得到之后可以与第t-1时刻的第三翻译向量进行插值合并，得到最终的第一翻译向量

采用上述操作，可以在每个时刻都得到过去翻译向量和未来翻译向量，表示直到t时刻为止已经被翻译的源端内容，表示到t时刻为止未被翻译的源端内容。

再次，本发明实施例中，目标信息确定装置采用预设神经网络模型对第三翻译向量和源端上下文向量进行处理，以得到第一翻译向量的过程可以是，先采用GRU对第三翻译向量和源端上下文向量进行处理，以得到中间向量，再将中间向量与第三翻译向量进行插值合并，以得到第一翻译向量。通过上述方式，在GRU内部执行递减的操作有利于提升操作的准确度，并增加操作的效率。

可选地，在上述图3对应的实施例基础上，本发明实施例提供的目标信息确定的方法第六个可选实施例中，根据源端向量表示序列获取第一时刻对应的源端上下文向量，可以包括：

根据第二时刻的解码器状态、第二翻译向量、第三翻译向量以及源端向量表示序列中源端内容的向量，确定源端内容的对齐概率；

根据源端内容的对齐概率以及源端内容的语义向量，确定第一时刻对应的源端上下文向量。

本实施例中，将介绍目标信息确定装置如何根据源端向量表示序列获取第一时刻对应的源端上下文向量，为了便于理解，请参阅图7，图7为本发明实施例中增强注意力模块的一个实施例示意图，具体地，假设第一时刻为第t时刻，第二时刻为第t-1时刻，目标信息确定装置包含编码器和解码器，解码器第二时刻的解码器状态s_t-1、第二翻译向量第三翻译向量以及源端向量表示序列中源端内容的向量h_i，确定源端内容的对齐概率α_t,i。

即采用如下公式计算对齐概率α_t,i：

其中，α_t,i指由注意力机制输出的对每个源端内容的对齐概率分布，对齐概率分布的总和为1，h_i是编码器对输入句子中第i个源端内容的向量表示，softmax()表示归一化操作，神经网络输入的值通常是一个可负可正的值，所以通常会先使用它的指数值转化成一个正数值，再把所有的指数值归一化，以得到概率分布。a()是注意力模块的操作。

在得到源端内容的对齐概率α_t,i之后，与对应的源端内容的语义向量x_i进行加权求和，以得到第一时刻对应的源端上下文向量。例如，第一时刻的α_t,1为0.5，α_t,2为0.3，α_t,3为0.2，x₁为2，x₂为4，x₃为6，于是第一时刻对应的源端上下文向量c_t的计算方式为：

c_t＝0.5×2+0.3×4+0.2×6＝3.4

可以理解的是，在实际应用中，对齐概率α_t,i的计算方式还可以是

或者

其次，本发明实施例中，首先根据第二时刻的解码器状态、第二翻译向量、第三翻译向量以及源端向量表示序列中源端内容的向量，可以确定源端内容的对齐概率，然后根据源端内容的对齐概率以及源端内容的语义向量，确定第一时刻对应的源端上下文向量。通过上述方式，可以使得目标信息确定装置中的注意力模块知道哪些源端内容已经被翻译，而哪些源端内容还未被翻译，从而把注意力更多的放在未被翻译的内容，而减少对已经翻译内容的关注，以此达到缓解遗漏翻译和重复翻译的问题。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的目标信息确定的方法第七个可选实施例中，对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息之前，还可以包括：

根据第二时刻的解码器状态、第二时刻的目标信息、源端上下文向量、第一翻译向量以及第二翻译向量，确定第一时刻的解码器状态；

对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息，可以包括：

对第一时刻的解码器状态、源端上下文向量、第一翻译向量和/或第二翻译向量进行解码处理，以得到第一时刻的目标信息。

本实施例中，在目标信息确定装置得到第一时刻的目标信息之前，首先需要根据第二时刻的解码器状态、第二时刻的目标信息、源端上下文向量、第一翻译向量以及第二翻译向量，确定第一时刻的解码器状态，其中，第一时刻即为第t时刻，也作为当前时刻，而第二时刻即为第t-1时刻，也作为上一个时刻。

具体地，请参阅图8，图8为本发明实施例中增强解码器状态的一个实施例示意图，第二时刻的解码器状态即为s_t-1，第二时刻的目标信息即为y_t-1，源端上下文向量即为c_t，第一翻译向量即为第二翻译向量即为利用如下公式可以计算得到第一时刻的解码器状态s_t：

其中，f()表示更新解码器状态的激活函数(activation function)，也是神经网络翻译模型的标准配置，它的输入可以根据实际需求灵活变化。

其次，本发明实施例中，首先需要根据第二时刻的解码器状态、第二时刻的目标信息、源端上下文向量、第一翻译向量以及第二翻译向量，确定第一时刻的解码器状态，然后对第一时刻的解码器状态、源端上下文向量、第一翻译向量和/或第二翻译向量进行解码处理，以得到第一时刻的目标信息。通过上述方式，将第一翻译向量和/或第二翻译向量的建模从解码器状态中独立出来，可以和第一时刻的由注意力模块输出的源端上下文向量构成完整的源端语义向量表示，并且传给解码器，以生成更准确的目标信息。

可选地，在上述图3对应的第六个或第七个实施例的基础上，本发明实施例提供的目标信息确定的方法第八个可选实施例中，还可以包括：

根据第一翻译向量以及第三翻译向量，获取第一指标期望值，其中，第一指标期望值用于表示未来翻译向量变化与第一时刻的目标信息之间语义的一致性情况；

根据第二翻译向量以及第四翻译向量，获取第二指标期望值，其中，第二指标期望值用于表示过去翻译向量变化与第一时刻的目标信息之间语义的一致性情况；

根据第一指标期望值以及第二指标期望值确定训练目标，其中，训练目标用于构建预设神经网络模型。

本实施例中，还提供了一种增加训练目标的方法，通过增加训练目标可以更好地训练得到预设神经网络模型。为了便于介绍，下面将以训练未来翻译向量为例进行介绍，可以理解的是，训练过去翻译向量的方式类似，此处不做赘述。以未来翻译向量为例，需要尽可能达到即相邻时刻的两个翻译向量的信息差与该时刻被翻译的源端内容大致相同，以满足对未来翻译向量的建模。由于在翻译中源端内容和目标信息的语义内容大致相等，即c_t≈E(y_t)，所以我们定义了一个新的指标期望值，直接评估未来翻译向量变化和生成对应目标信息在语义层面上的一致性。

可以采用如下方式计算第一指标期望值：

其中，E(y_t)表示目标信息，y_t为目标信息的向量表示，是评判未来翻译向量的更新是否如我们预期(比如，更新量和被翻译的源端内容基本相等)的指标期望值。指标期望值越高，也就越符合我们的预期。是第一翻译向量与第三翻译向量之差的绝对值。

类似的，第二指标期望值也可以根据第二翻译向量以及第四翻译向量计算得到进而得到第二指标期望值

根据第一指标期望值以及第二指标期望值，可以采用如下方式计算训练目标：

其中，J(θ,γ)表示通过训练得到的参数，这是训练目标的通用表示。θ表示NMT系统的参数，γ表示新引入的过去未来模块的参数，表示得到最大分数的训练目标(即式中的likelihood,、future loss以及past loss)对应的参数。表示标准神经网络翻译模型的训练目标，即最大化每个目标信息的生成概率，或者可以表述为最大化目标词生成的似然(likelihood)分数。表示未来翻译向量的第一指标期望值，表示过去翻译向量的第二指标期望值。

再次，本发明实施例中，根据第一翻译向量以及第三翻译向量，获取第一指标期望值，并根据第二翻译向量以及第四翻译向量，获取第二指标期望值，然后根据第一指标期望值以及第二指标期望值确定训练目标，其中，训练目标用于构建预设神经网络模型。通过上述方式，可以增加训练目标，且这部分的训练目标能够较好的满足语义层面上的一致性，从而提升训练的准确度可可行性。

为便于理解，下面可以以一个具体应用场景对本发明中目标信息确定的过程进行详细描述，请参阅图9，图9为本发明应用场景中翻译源端向量表示序列中第一个源端内容的实施例示意图，具体为：

编码器读入输入句子“多个机场被迫关闭。<eos>”，<eos>表示句子终结符号，然后输出一个源端向量表示序列，其中，每个向量(即图9中的圆点直条)对应一个源端内容。根据此源端向量表示序列，解码器生成译文。

首先将对齐概率和语义向量加权，生成第1个时刻的源端上下文向量c₁，对齐概率即为图9中的0.5、0.2、0.2、0.1、0.0以及0.0。接下来根据c₁更新过去翻译向量和未来翻译向量，即采用如下公式：

其中，表示第1个时刻的未来翻译向量，表示初始时刻的未来翻译向量，表示第1个时刻的过去翻译向量，表示初始时刻的过去翻译向量。

解码器对c₁、和初始时刻的解码器状态s₀进行解码，可以更新第1个时刻的解码器状态s₁，根据s₀和c₁，使用一个神经网络输出层，并和所有目标端词进行比较，选择相似度最高的一个词作为目标信息y₁，该y₁即为“多个”的译文“many”。

请参阅图10，图10为本发明应用场景中翻译源端向量表示序列中第二个源端内容的实施例示意图，如图所示，首先将对齐概率和语义向量加权，生成第2个时刻的源端上下文向量c₂，对齐概率即为图10中的0.3、0.6、0.1、0.0、0.0以及0.0。接下来根据c₂更新过去翻译向量和未来翻译向量，即采用如下公式：

其中，表示第2个时刻的未来翻译向量，表示第1个时刻的未来翻译向量，表示第2个时刻的过去翻译向量，表示第1个时刻的过去翻译向量。

解码器对c₂、和第1个时刻的解码器状态s₁进行解码，可以更新第2个时刻的解码器状态，根据s₁、c₂和前一个生成的目标信息y₁，使用一个神经网络输出层，并和所有目标端词进行比较，选择相似度最高的一个词作为目标信息y₂，该y₂即为“机场”的译文“airports”。

以此类推，直到翻译完整个输入句子。

下面对本发明中的目标信息确定装置进行详细描述，请参阅图11，本发明实施例中的目标信息确定装置30包括：

编码模块301，用于对待处理文本信息进行编码处理，以得到源端向量表示序列；

第一获取模块302，用于根据所述编码模块301编码得到的所述源端向量表示序列获取第一时刻对应的源端上下文向量，其中，所述源端上下文向量用于表示待处理的源端内容；

第一确定模块303，用于根据所述编码模块301编码得到的所述源端向量表示序列以及所述第一获取模块302获取的所述源端上下文向量确定第一翻译向量和/或第二翻译向量，其中，所述第一翻译向量指示第一时刻内在所述源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在所述源端向量表示序列中已经被翻译的源端内容，所述第二时刻为所述第一时刻之前相邻的一个时刻；

解码模块304，用于对所述第一确定模块303确定的所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息。

本实施例中，编码模块301对待处理文本信息进行编码处理，以得到源端向量表示序列，第一获取模块302根据所述编码模块301编码得到的所述源端向量表示序列获取第一时刻对应的源端上下文向量，其中，所述源端上下文向量用于表示待处理的源端内容，第一确定模块303根据所述编码模块301编码得到的所述源端向量表示序列以及所述第一获取模块302获取的所述源端上下文向量确定第一翻译向量和/或第二翻译向量，其中，所述第一翻译向量指示第一时刻内在所述源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在所述源端向量表示序列中已经被翻译的源端内容，所述第二时刻为所述第一时刻之前相邻的一个时刻，解码模块304对所述第一确定模块303确定的所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息。

本发明实施例中，提供了一种目标信息确定装置，首先由目标信息确定装置对待处理文本信息进行编码处理，以得到源端向量表示序列，然后根据源端向量表示序列获取第一时刻对应的源端上下文向量，该源端上下文向量用于表示待处理的源端内容，根据源端向量表示序列以及源端上下文向量确定第一翻译向量和/或第二翻译向量，该第一翻译向量指示第一时刻内在源端向量表示序列中未被翻译的源端内容，第二翻译向量指示第二时刻内在源端向量表示序列中已经被翻译的源端内容，第二时刻为第一时刻之前相邻的一个时刻，最后目标信息确定装置对第一翻译向量和/或第二翻译向量以及源端上下文向量进行解码处理，以得到第一时刻的目标信息。通过上述方式，可以对源端向量表示序列中未被翻译的源端内容和/或已被翻译的源端内容进行建模处理，即把这部分内容从原来的语言模型中剥离出来进行训练，从而降低解码器的模型训练难度，提高翻译系统的翻译效果。

可选地，在上述图11所对应的实施例的基础上，请参阅图12，本发明实施例提供的目标信息确定装置30的另一实施例中，

所述第一确定模块303包括：

第一获取单元3031，用于根据所述源端向量表示序列获取所述第二时刻对应的第三翻译向量；

第一处理单元3032，用于采用预设神经网络模型对所述第一获取单元3031获取的所述第三翻译向量和所述源端上下文向量进行处理，以得到所述第一翻译向量。

可选地，在上述图11所对应的实施例的基础上，请参阅图13，本发明实施例提供的目标信息确定装置30的另一实施例中，

所述第一确定模块303包括：

第二获取单元3033，用于根据所述源端向量表示序列获取所述第二时刻对应的第三翻译向量；

第二处理单元3034，用于采用预设神经网络模型对所述第二获取单元3033获取的所述第三翻译向量和所述源端上下文向量进行处理，以得到所述第一翻译向量；

第三获取单元3035，用于根据所述源端上下文向量在所述源端向量表示序列中出现的位置，获取所述第二翻译向量，其中，所述第二翻译向量用于更新所述第一时刻所对应的第四翻译向量，所述第四翻译向量为采用所述预设神经网络模型对所述第二翻译向量和所述源端上下文向量处理后得到的。

可选地，在上述图11所对应的实施例的基础上，请参阅图14，本发明实施例提供的目标信息确定装置30的另一实施例中，

所述第一确定模块303包括：

第四获取单元3036，用于根据所述源端上下文向量在所述源端向量表示序列中出现的位置，获取所述第二翻译向量，其中，所述第二翻译向量用于生成所述第一时刻所对应的第四翻译向量，所述第四翻译向量为采用所述预设神经网络模型对所述第二翻译向量和所述源端上下文向量处理后得到的。

可选地，在上述图12或图13所对应的实施例的基础上，请参阅图15，本发明实施例提供的目标信息确定装置30的另一实施例中，

所述第一处理单元3032包括：

相减子单元30321，用于采用门控循环单元GRU从所述第三翻译向量中减去所述源端上下文向量，以得到所述第一翻译向量。

可选地，在上述图12或图13所对应的实施例的基础上，请参阅图16，本发明实施例提供的目标信息确定装置30的另一实施例中，

所述第一处理单元3032包括：

处理子单元30322，用于采用GRU对所述第三翻译向量和所述源端上下文向量进行处理，以得到中间向量；

合并子单元30323，用于将所述处理子单元30322处理得到的所述中间向量与所述第三翻译向量进行插值合并，以得到所述第一翻译向量。

可选地，在上述图11所对应的实施例的基础上，请参阅图17，本发明实施例提供的目标信息确定装置30的另一实施例中，

所述第一获取模块302包括：

第一确定单元3021，用于根据所述第二时刻的解码器状态、所述第二翻译向量、第三翻译向量以及所述源端向量表示序列中源端内容的向量，确定源端内容的对齐概率；

第二确定单元3022，用于根据所述第一确定单元3021确定的所述源端内容的对齐概率以及所述源端内容的语义向量，确定所述第一时刻对应的所述源端上下文向量。

可选地，在上述图11所对应的实施例的基础上，请参阅图18，本发明实施例提供的目标信息确定装置30的另一实施例中，所述目标信息确定装置30还可以包括：

第二确定模块305，用于所述解码模块304对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息之前，根据所述第二时刻的解码器状态、所述第二时刻的目标信息、所述源端上下文向量、所述第一翻译向量以及所述第二翻译向量，确定所述第一时刻的解码器状态；

所述解码模块304包括：

解码单元3041，用于对所述第一时刻的解码器状态、所述源端上下文向量、所述第一翻译向量和/或所述第二翻译向量进行解码处理，以得到所述第一时刻的目标信息。

可选地，在上述图17或图18所对应的实施例的基础上，请参阅图19，本发明实施例提供的目标信息确定装置30的另一实施例中，所述目标信息确定装置30还可以包括：

第二获取模块306，用于根据所述第一翻译向量以及所述第三翻译向量，获取第一指标期望值，其中，所述第一指标期望值用于表示未来翻译向量变化与所述第一时刻的目标信息之间语义的一致性情况；

第三获取模块307，用于根据所述第二翻译向量以及所述第四翻译向量，获取第二指标期望值，其中，所述第二指标期望值用于表示过去翻译向量变化与所述第一时刻的目标信息之间语义的一致性情况；

第二确定模块308，用于根据所述第二获取模块306获取的所述第一指标期望值以及所述第三获取模块307获取的所述第二指标期望值确定训练目标，其中，所述训练目标用于构建预设神经网络模型。

图20是本发明实施例提供的一种目标信息确定装置结构示意图，该目标信息确定装置300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对目标信息确定装置中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在目标信息确定装置300上执行存储介质330中的一系列指令操作。

目标信息确定装置300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由目标信息确定装置所执行的步骤可以基于该图20所示的目标信息确定装置结构。

CPU 322用于执行如下步骤：

可选地，CPU 322具体用于执行如下步骤：

根据所述源端向量表示序列获取所述第二时刻对应的第三翻译向量；

采用预设神经网络模型对所述第三翻译向量和所述源端上下文向量进行处理，以得到所述第一翻译向量。

可选地，CPU 322具体用于执行如下步骤：

采用预设神经网络模型对所述第三翻译向量和所述源端上下文向量进行处理，以得到所述第一翻译向量；

根据所述源端上下文向量在所述源端向量表示序列中出现的位置，获取所述第二翻译向量，其中，所述第二翻译向量用于更新所述第一时刻所对应的第四翻译向量，所述第四翻译向量为采用所述预设神经网络模型对所述第二翻译向量和所述源端上下文向量处理后得到的。

可选地，CPU 322具体用于执行如下步骤：

根据所述源端上下文向量在所述源端向量表示序列中出现的位置，获取所述第二翻译向量，其中，所述第二翻译向量用于生成所述第一时刻所对应的第四翻译向量，所述第四翻译向量为采用所述预设神经网络模型对所述第二翻译向量和所述源端上下文向量处理后得到的。

可选地，CPU 322具体用于执行如下步骤：

采用门控循环单元GRU从所述第三翻译向量中减去所述源端上下文向量，以得到所述第一翻译向量。

可选地，CPU 322具体用于执行如下步骤：

采用GRU对所述第三翻译向量和所述源端上下文向量进行处理，以得到中间向量；

将所述中间向量与所述第三翻译向量进行插值合并，以得到所述第一翻译向量。

可选地，CPU 322具体用于执行如下步骤：

根据所述第二时刻的解码器状态、所述第二翻译向量、所述第三翻译向量以及所述源端向量表示序列中源端内容的向量，确定源端内容的对齐概率；

根据所述源端内容的对齐概率以及所述源端内容的语义向量，确定所述第一时刻对应的所述源端上下文向量。

可选地，CPU 322还用于执行如下步骤：

根据所述第二时刻的解码器状态、所述第二时刻的目标信息、所述源端上下文向量、所述第一翻译向量以及所述第二翻译向量，确定所述第一时刻的解码器状态。

CPU 322具体用于执行如下步骤：

对所述第一时刻的解码器状态、所述第一翻译向量、所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到所述第一时刻的目标信息。

可选地，CPU 322还用于执行如下步骤：

根据所述第一翻译向量以及所述第三翻译向量，获取第一指标期望值，其中，所述第一指标期望值用于表示未来翻译向量变化与所述第一时刻的目标信息之间语义的一致性情况；

根据所述第二翻译向量以及所述第四翻译向量，获取第二指标期望值，其中，所述第二指标期望值用于表示过去翻译向量变化与所述第一时刻的目标信息之间语义的一致性情况；

根据所述第一指标期望值以及所述第二指标期望值确定训练目标，其中，所述训练目标用于构建预设神经网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种翻译的方法，其特征在于，所述方法应用于神经网络机器翻译NMT系统，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用编码器对待处理文本信息进行编码处理，以得到源端向量表示序列，包括：

将所述待处理文本信息输入至所述编码器；

采用所述编码器对所述待处理文本信息进行编码处理；

根据编码处理的结果获取所述源端向量表示序列，其中，所述源端向量表示序列中各个源端向量属于所述第一语言。

3.根据权利要求1或2所述的方法，其特征在于，所述采用解码器对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息，包括：

将所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量输入至所述解码器；

采用所述解码器对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理；

根据解码处理的结果获取所述待处理文本信息的翻译内容，其中，所述翻译内容为所述第一时刻的目标信息。

4.一种目标信息确定的方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述源端向量表示序列以及所述源端上下文向量确定第一翻译向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述源端向量表示序列以及所述源端上下文向量确定第一翻译向量和第二翻译向量，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述源端向量表示序列以及所述源端上下文向量确定第二翻译向量，包括：

8.根据权利要求5或6所述的方法，其特征在于，所述采用预设神经网络模型对所述第三翻译向量和所述源端上下文向量进行处理，以得到所述第一翻译向量，包括：

9.根据权利要求5或6所述的方法，其特征在于，所述采用预设神经网络模型对所述第三翻译向量和所述源端上下文向量进行处理，以得到所述第一翻译向量，包括：

10.根据权利要求4所述的方法，其特征在于，所述根据所述源端向量表示序列获取第一时刻对应的源端上下文向量，包括：

根据所述第二时刻的解码器状态、所述第二翻译向量、第三翻译向量以及所述源端向量表示序列中源端内容的向量，确定源端内容的对齐概率；

11.根据权利要求4所述的方法，其特征在于，所述对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息之前，所述方法还包括：

根据所述第二时刻的解码器状态、所述第二时刻的目标信息、所述源端上下文向量、所述第一翻译向量以及所述第二翻译向量，确定所述第一时刻的解码器状态；

所述对所述第一翻译向量和/或所述第二翻译向量以及所述源端上下文向量进行解码处理，以得到第一时刻的目标信息，包括：

对所述第一时刻的解码器状态、所述源端上下文向量、所述第一翻译向量和/或所述第二翻译向量进行解码处理，以得到所述第一时刻的目标信息。

12.根据权利要求10或11所述的方法，其特征在于，所述方法还包括：

13.一种目标信息确定装置，其特征在于，包括：

14.一种目标信息确定装置，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求4-12所述的方法。