CN110134971B

CN110134971B - 一种机器翻译的方法、设备以及计算机可读存储介质

Info

Publication number: CN110134971B
Application number: CN201810131743.0A
Authority: CN
Inventors: 刘乐茂; 李昕同; 史树明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2022-12-16
Anticipated expiration: 2038-02-08
Also published as: WO2019154210A1; US20200302127A1; CN110134971A; CN111401084B; CN111401084A; US11593571B2

Abstract

本申请实施例公开了一种机器翻译的方法。本申请实施例方法包括：接收待处理信息，所述待处理信息以源语言表示；采用编码器对所述待处理信息进行编码处理，生成所述待处理信息的表示向量序列；通过预测模型预测第一时刻待翻译的目标展望词的特征信息，所述目标展望词以目标语言表示；根据所述目标展望词的特征信息确定所述表示向量序列中当前时刻对应的上下文向量；采用解码器对所述上下文向量进行解码处理，得到所述上下文向量对应的以目标语言表示的目标内容。本申请实施例中还提供一种翻译设备，用于提高翻译的准确率。

Description

一种机器翻译的方法、设备以及计算机可读存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种机器翻译的方法、设备以及计算机可读存储介质。

背景技术

机器翻译(machine translation，MT)是指使用机器将文本或言语从一种源语言转化为具有相同含义内容的另一种目标语言的过程。随着深度学习的兴起，最近两年深层神经网络技术在MT上也得到应用，神经网络机器翻译(neural machine translation，NMT)成为新一代翻译技术。

目前，NMT使用编码器-解码器框架来实现理解语义再翻译的过程，其中，编码器用于对输入端进行编码，解码器对输出端进行解码，例如，给定一个输入的源语言句子，首先利用编码器将它编码成输入端的表示向量；然后，在解码阶段，它采用解码器根据源端的表示向量和当前时刻源端上下文向量每次生成一个新的目标词。

尽管源语言句子已知，但目标语言的单词是增量式的产生的，在当前时刻，这个目标单词是未知的，它需要在下一个时刻之前通过解码器解码得到。因此，在解码器将目源语言与目标语言之间的单词进行对齐时，很容易出现重复翻译或漏翻译的问题，翻译的准确率下降。

发明内容

本申请实施例提供了一种机器翻译的方法、设备以及计算机可读存储介质，用于提高翻译的准确率。

第一方面，本申请实施例提供了一种机器翻译的方法，包括：

接收待处理信息，所述待处理信息以源语言表示；

采用编码器对所述待处理信息进行编码处理，生成所述待处理信息的表示向量序列；

通过预测模型预测第一时刻待翻译的目标展望词的特征信息，所述目标展望词以目标语言表示；

根据所述目标展望词的特征信息确定所述表示向量序列中当前时刻对应的上下文向量；

采用解码器对所述上下文向量进行解码处理，得到所述上下文向量对应的以目标语言表示的目标内容。

第二方面，本申请实施例提供了一种翻译设备，包括：

接收模块，用于接收待处理信息，所述待处理信息以源语言表示；

编码模块，用于采用编码器对所述接收模块接收的所述待处理信息进行编码处理，生成所述待处理信息的表示向量序列；

预测模块，用于通过预测模型预测第一时刻待翻译的目标展望词的特征信息，所述目标展望词以目标语言表示；

确定模块，用于根据所述预测模块预测的所述目标展望词的特征信息确定所述表示向量序列中当前时刻对应的上下文向量；

解码模块，用于采用解码器对所述确定模块确定的所述上下文向量进行解码处理，得到所述上下文向量对应的以目标语言表示的目标内容。

第三方面，本申请实施例提供了一种翻译设备，包括：

存储器，用于存储计算机可执行程序代码；

网络接口，以及

处理器，与所述存储器和所述网络接口耦合；

其中所述程序代码包括指令，当所述处理器执行所述指令时，所述指令使所述翻译设备执行上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，用于储存翻译设备所用的计算机软件指令，其包含用于执行上述第一方面中所设计的程序。

从以上技术方案可以看出，本申请实施例具有以下优点：

接收待处理信息，所述待处理信息以源语言表示；采用编码器对所述待处理信息进行编码处理，生成所述待处理信息的表示向量序列；通过预测模型预测第一时刻待翻译的目标展望词的特征信息，所述目标展望词以目标语言表示；预测模型预测的是目标展望词的词性，而不是目标词本身的目标内容，这样可以大大降低模型的复杂度，然后，根据所述目标展望词的特征信息确定所述表示向量序列中当前时刻对应的上下文向量，提高了对齐准确率，减少重复翻译和漏翻译的概率，进而提高了翻译的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中机器翻译编码-解码架构的示意图；

图2为本申请实施例中注意力模型选择上下文向量的示意图；

图3为本申请实施例中一种机器翻译的方法的一个实施例的步骤流程示意图；

图4为本申请实施例中机器翻译的流程示意图；

图5为本申请实施例中一种预测模型的一个示例的网络结构示意图；

图6为本申请实施例中一种预测模型的另一个示例的网络结构示意图；

图7为本申请实施例中一种预测模型的另一个示例的网络结构示意图；

图8为本申请实施例中一个场景示意图；

图9为本申请实施例中机器翻译的网络结构示意图；

图10为本申请实施例中翻译设备的一个实施例的结构示意图；

图11为本申请实施例中翻译设备的另一个实施例的结构示意图；

图12为本申请实施例中翻译设备的另一个实施例的结构示意图；

图13为本申请实施例中翻译设备的另一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种机器翻译的方法及设备，用于提高翻译的准确率。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例主要应用于编码-解码架构(encoder-decoder)，请参阅图1所示，图1为本申请实施例中机器翻译编码-解码架构的示意图。所谓编码，就是将源端输入序列转化成一个长度的向量，而所谓解码，就是根据编码器生成的向量序列再转化成输出序列，并在目标端输出。在翻译中，输入序列是待翻译的信息，输出序列是翻译后的信息。本申请实施例中的该翻译的信息可以是文本信息也可以是语音信息，本申请实施例中待翻译的信息可以以文本信息为例进行说明，例如，该输入信息可以为一个输入句子，该输入句子为以中文表示的“法国失业人数再度回升”，通过该图1中的架构将该输入句子翻译为英文“Frenchunemployment rises again”，中文为源语言，英文为目标语言。

可以理解的是，在具体实现时，编码器和解码器都不是固定的，可选的有卷积神经网络(convolutional neural networks，CNN)、循环神经网络(recurrent neuralnetworks，RNN)、门控循环单元(gated recurrent unit，GRU)、长短时记忆模型(longshort term memory，LSTM)以及双向循环神经网络(bidirectional recurrent neuralnetworks，BiRNN)等，还可以在编码和解码时采用不同的神经网络，例如，编码时使用BiRNN解码时使用RNN，或者在编码时使用RNN解码时使用LSTM，具体的，在实际应用中不做限定。为了方便说明，本申请实施例中该编码器和解码器均使用RNN。

为了方便理解，首先对本申请中涉及的词语进行解释：

注意力模型：一种用来选择上下文向量的概率模型。这种模型在产生输出的时候，会产生一个“注意力范围”表示接下来输出的时候要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出，如此往复。本申请实施例中，解码器包括该注意力模型。

上下文向量：请结合图2进行理解，图2为注意力模型选择上下文向量的示意图。上下文向量用于表示当前时刻被翻译的源端内容。注意力模型读入编码器输出的表示向量序列，为该表示向量序列中的每个表示向量输出一个对齐概率，每个表示向量(图2中的黑点直条)对应一个源端词，该对齐概率越高，表明与当前时刻翻译的源端内容越相关，最高概率对应的向量为当前时刻的上下文向量，在图2中，输入句子为“法国失业人数再度回升”，(“<eos>”是句子终结符)，其中，“法国”对应的概率为0，“失业”对应的概率为1，“人数”、“再度”、“回升”对应的概率均为0，“失业”对应的概率最高，则“失业”的表示向量为当前时刻的上下文向量。

目标展望词(Target foresight，缩写：TF)：在翻译的过程中当前时刻待翻译的单词，即当前时刻正在翻译的目标端单词的下一个目标单词，例如，当前时刻(第i时刻)刚刚翻译完的词为“French”，则目标展望词为“unemployment”，但是该“unemployment”在当前时刻是未知的，是在第(i+1)时刻之前翻译出来的。

需要说明的是，本申请实施例中第一时刻为当前时刻，例如，当前时刻用i表示，第二时刻为当前时刻前的一个相邻时刻，用(i-1)表示。

参阅图3和图4，图3为本申请中一种机器翻译的方法的一个实施例的步骤流程示意图，图4为本申请实施例中机器翻译的流程示意图。

本申请实施例中提供了一种机器翻译的方法的一个实施例包括：

在本申请实施例中，假设源端的输入序列为x＝<x₁，x₂,...,x_|x|〉,该输入序列的长度为|x|；目标端的输出序列为,y＝〈y₁，y₂,...,y_|y|〉。本系统基于编码-解码框架的概率模型来建模。本申请实施例中一种机器翻译的方法应用于一种翻译设备，下面从该翻译设备侧对本实施例进行详细描述。

步骤301、接收待处理信息，待处理信息以源语言表示。

接收待处理信息，该待处理信息可以为文本信息，也可以为语音信息，本申请实施例中该待处理信息以可以以文本信息为例进行说明，该待处理信息为输入句子X，该输入句子为x＝〈x₁，x₂,...,x_|x|〉，|x|用于表示句子的长度。在一个应用场景中，该输入句子X为“法国失业人数再度回升”，对应的，x₁对应为“法国”，x₂对应为“失业”，x₃对应为“人数”，x₄对应为“再度”，x₅对应为“回升”，该待处理信息以源语言表示，该源语言可以为中文为例进行说明，但是在实际应用中，源语言并不限定，例如，源语言可以为英文，法文，德文等等。

步骤302、采用编码器对待处理信息进行编码处理，生成待处理信息的表示向量序列。

该编码器可以为一个循环神经网络，即采用循环神经网络来对源端的上下文建模，编码器对输入句子进行处理，生成输入句子X对应的表示向量序列H。

步骤303、通过预测模型预测第一时刻待翻译的目标展望词的特征信息，目标展望词以目标语言表示，第一时刻为当前时刻。

该预测模型用于预测目标展望词的特征信息，该特征信息包括但不限定于词性或词类别，例如，词性包括但不限定于动词，名词，代词，介词等等；词类别包括但不限定于物体类，人物类，动物类等等，需要说明的是，本申请实施例中的词类别可以根据实际应用中系统中的具体分类标准进行分类，具体的在实际应用中并不限定。本申请实施例中该特征信息可以以词性为例进行说明。

假设u_i表示第i个时刻目标展望词(用y_i表示)的词性标记，本申请实施例中，预先训练预测模型，通过该预测模型预测目标展望词y_i的词性标记的结果(例如，)该预测模型可以记为如下模型1：

β_i＝P(u_i|y_i-1，x)。

下面通过三种方式得到目标展望词词性的预测结果：

在第一种实现方式中，采用预测模型根据解码器在第二时刻的隐含状态预测第一时刻待翻译的目标展望词的特征信息，第二时刻为第一时刻之前的相邻时刻。

请结合图5进行理解，图5为一种预测模型的一个示例的网络结构示意图。图5是一个简单的预测模型，该预测模型依赖于解码器RNN的隐含状态S_i-1，将解码器在第i-1时刻的隐含状态输入到预测模型，预测模型根据该解码器在第i-1时刻的隐含状态得到第i时刻的目标展望词的词性，即相应的，将上述模型1进行如下形式化得到模型2：

β_i＝P(u_i|y<i，x)＝softmax(ψ(y_i-1，S_i-1))，

其中，其中ψ表示一个前向反馈神经网络，softmax()表示归一化操作，神经网络输入的值通常是一个可负可正的值，所以通常会先使用它的指数值转化成一个正数值，再把所有的指数值归一化，以得到概率分布。S_i-1表示在第(i-1)时刻解码器的隐含状态，y_i-1表示在第(i-1)时刻目标端输出的对应序列。预测模型β_i读入表示在第(i-1)时刻解码器的隐含状态S_i-1，根据该隐含状态S_i-1得到第i时刻目标展望词的词性。需要说明的是，本示例中的ψ也可以为其他神经网络，本示例中前向反馈神经网络仅为示例性说明。

本示例中，该预测模型预测目标展望词的词性依赖于解码器RNN的隐含状态S_i-1，网络结构简单，计算量较小。

在第二种实现方式中，采用另一个额外的神经网络模型根据第二时刻(第(i-1)时刻)对应的目标内容得到第一结果，第二时刻为第一时刻之前的相邻时刻，第一结果为神经网络模型的隐含单元在第一时刻的隐含状态。然后，通过预测模型根据第一结果预测第一时刻待翻译的目标展望词的特征信息。

请结合图6进行理解，图6为一种预测模型的另一个示例的网络结构示意图。

与第一种实现方式不同，在第二种实现方式中，设计了一个额外的RNN来辅助预测目标展望词的词性u_i。假设这个额外RNN的隐含单元是t，本示例中，将该额外的RNN称为“目标RNN”，该目标RNN可以为一个基于GRU的神经网络，在第i时刻，隐含单元的隐含状态为t_i，上述模型1进行如下形式化得到模型3：

β_i＝P(u_i|y<i，x)＝softmax(ψ(y_i-1，t_i))，其中，ψ表示一个前向反馈神经网络，softmax()表示归一化操作，本示例中，该t_i表示在第i时刻目标RNN的隐含单元的隐含状态。t_i＝g(t_i-1，y_i-1)，g()表示基于GRU的神经网络，y_i-1表示第i-1时刻目标端输出的目标内容，例如，第i-1时刻目标端输出的目标内容为“unemployment”。

本示例中，在第i时刻，隐含单元读取第i-1时刻目标端输出的目标内容y_i-1和第i-1时刻隐含单元的隐含状态t_i-1，隐含单元t输出第i时刻的隐含状态t_i，预测模型根据该t_i预测第i时刻目标展望词的词性，本示例中对于第i时刻待翻译的目标展望词的词性的预测，考虑到了上一个时刻(第i-1时刻)目标端输出的目标内容，预测结果比较准确。

在第三种实现方式中，采用该额外的神经网络模型(目标RNN)根据第二时刻对应的目标内容和第一时刻的单词向量得到第一结果，单词向量为表示向量序列中按照词组顺序进行表示的向量。第一结果为神经网络模型的隐含单元在第一时刻的隐含状态；通过预测模型根据第一结果预测第一时刻待翻译的目标展望词的特征信息。

举例子说明单词向量，如输入句子X为“法国失业人数再度回升”，每个单词对应一个表示向量c'，按照词组的顺序，第i-2时刻对应的单词向量为“法国”对应的向量，第i-1时刻对应的词组向量为“失业”对应的词组向量c_i-1'，则第i时刻对应的单词向量为“人数”对应的词组向量c_i'。

请结合图7进行理解，图7为一种预测模型的另一个示例的示意图。

在第三种实现方式中，不仅考虑到目标端输出的目标词的信息，也同时考虑到源端输入的词组向量，上述模型1进行如下形式化得到模型4：

β_i＝P(u_i|y<i，x)＝softmax(ψ(y_i-1，t_i，c_i'))，其中，ψ表示一个前向反馈神经网络，softmax()表示归一化操作，y_i-1表示第i-1时刻目标端输出的目标内容，t_i表示隐含单元在第i时刻的隐含状态，t_i＝g(y_i-1，t_i-1，c_i')，g()表示基于GRU的神经网络，本示例中，在第i时刻，隐含单元读取第i-1时刻目标端输出的目标内容y_i-1、第i-1时刻隐含单元的隐含状态t_i-1和词组向量c_i'得到隐含单元在第一时刻的隐含状态，预测模型根据该t_i预测第i时刻目标展望词的词性，本示例中对于第i时刻待翻译的目标展望词的词性的预测，考虑到了上一个时刻目标端输出的目表内容和源端表示向量序列中的词组向量，对于目标展望词特征信息的预测结果更加准确。

步骤304、根据目标展望词的特征信息确定表示向量序列中第一时刻对应的上下文向量。

假设P(u_i|y<i，x)为预测模型的预测结果，在一种实现方式中，将预测结果的估计结果作为输入融入到注意力模型中，该估计结果可以为最大后验(maximum a posteriorestimation，缩写：MAP)的结果，将该估计结果作为输入，融入到注意力模型中：

e_ij＝a(S_i-1,h_j,z_i)，其中，a()表示注意力模型，S_i-1表示第i-1时刻的隐含状态，h_j是的表示向量序列中j时刻的向量，z_i表示MAP结果对应的向量，z_i的定义如下：

通过注意力模型确定表示向量序列H中第一时刻对应的上下文向量c_i。

在第二种实现方式中，将预测结果的期望输入到注意力模型中。将z_i定义为：

本示例中的第二种实现方式中，在某些场景下，准确率高于第一种实现方式，在第一种实现方式中，对于确定上下文向量是否准确依赖于P(u_i|y<i，x)的预测精度，举个例子来说，假如在i时刻，目标展望词正确的词性标记是名词(用“NN”表示)，但是对于词性为NN的计算概率为P(u_i＝NN|y<i，x)＝0.4,P(u_i＝VV|y<i，x)＝0.41，如果按照MAP的策略，会选择“VV”作为目标展望词的词性，同时完全忽略了正确的词性“NN”的贡献。据此，注意力模型会接受到一个错误的信息而影响了对源语言的对齐效果，通过本示例中的第二种实现方式，将预测结果的期望值输入到注意力模型中，也就是将得到预测到的目标展望词的词性的概率的均值输入到注意力模型中，提高了得到目标展望词的词性的准确率。

注意力模型根据目标展望词的词性进一步确定当前时刻表示向量序列H中的当前上下文向量c_i，请结合图8进行理解，图8为本申请实施例中场景示意图。在第i-1时刻，目标端输出的目标内容为“unemployment”，预测模型预测当前待翻译的目标展望词的词性为动词，即“unemployment”的下一个目标词，方框中的目标词为还未翻译的词(如，rise，again等)，注意力模型根据该目标展望词的词性将源语言单词与目标语言单词对齐，图8中的实线箭头表示对齐，在表示向量序列中，“回升”为动词，注意力模型得到的第i时刻各表示向量的概率为：的“法国”对应的概率为0，“失业”对应的概率为0，“人数”对应的概率为0、“再度”对应的概率为0、“回升”对应的概率均为1，则“回升”的表示向量为当前时刻的上下文向量。

相对于现有技术，本申请实施例中，注意力模型根据目标展望词的词性确定的当前时刻的上下文向量更为准确，如以图8中的例子进行说明，在第i-1时刻，目标端输出的目标内容为“unemployment”，现有技术中，注意力模型将对齐源语言中的“人数”，但是英文中，unemployment的词义为失业人数，在现有技术中，若确定当前时刻对应的上下文向量为“人数”的向量，那么在第i时刻对源语言进行了重复翻译，而在本申请实施例中，注意力模型可以结合目标展望词的词性来进一步确定源端表示向量序列中的上下文向量，提高了确定上下文向量的准确率。

步骤305、采用解码器对上下文向量进行解码处理，得到上下文向量对应的以目标语言表示的目标内容。

该解码器包括翻译模型，通过翻译模型将当前时刻的上下文向量翻译成目标语言对应的目标内容，即当前时刻的上下文向量为“回升”对应的表示向量，翻译模型将中文的“回升”翻译成“rises”，该“rises”为目标语言对应的目标内容。

重复步骤303至步骤305，直到将输入语句全部翻译成目标语言对应的语句，即将输入语句“法国失业人数再度回升”翻译为“French unemployment rises again</S>”，其中</S>为结束符。从而得到该待处理信息对应的目标信息，该目标信息为翻译之后的目标语言对应的语句。

请结合图9进行理解，图9为本申请实施例中机器翻译的网络结构示意图。本申请实施例中的方法应用于一种翻译的设备，该设备接收待处理信息X，待处理信息以源语言(如中文)表示；采用编码器对待处理信息进行编码处理，生成待处理信息的表示向量序列H；通过预测模型β_i预测第i时刻待翻译的目标展望词的特征信息，并将该特征信息的预测结果u_i的期望z_i、预测结果的矩阵Z、解码器第i-1时刻的隐含状态S_i-1输入到注意力模型a_i，注意力模型确定表示向量序列H中第i时刻的上下文向量c_i，将第i时刻的上下文向量c_i、第i-1时刻目标端输出的目标内容y_i-1，解码器第i-1时刻的隐含状态S_i-1输入到解码器的隐含单元，得到解码器第i时刻的隐含状态S_i，根据该S_i得到第i时刻目标端输出的目标内容。

本申请实施例中，在建模注意力模型之前，设计一个预测模型预测目标展望词的特征信息(如词性)，然后将目标展望词的特征信息输入到注意力模型中，预测模型预测的是目标展望词的词性，而不是词本身的目标内容，这样可以大大降低模型的复杂度，注意力模型根据该目标展望词的特征信息来确定上下文向量，即将表示向量序列中的上下文向量与目标信息中的目标词对齐，提高了确定上下文向量的准确率。

在上述实施例的基础上，对预测模型的训练和预测模型参数的确定方法进行简要描述。

对预测模型的训练：给定一个三元组集合{〈x^k，y^k，u^k>|k＝1,...,K}，其中，x^k是输入源语言语句，y^k是目标语言语句，u^k是y^k的特征信息(如词性)序列，K用于表示三元组的数量。根据三元组集合中的信息训练预测模型。

本申请实施例中采用估计方法来计算该预测模型的参数，例如，该估计方法可以为极大似然估计，即需要最小化如下的目标函数l：

其中，

为翻译模型，

为预测模型，

为目标语言语句中第i时刻对应的词组，

为

的特征信息。本申请实施例中，可以采用小批量的随机梯度上升方法确定模型的参数。

在模型的推理过程中，本申请实施例中对于步骤304中的z_i的两种实现方式，这两种z_i融入到注意力模型中的方法均可以依赖于剪枝的柱搜索算法。在一种实现方式中，即z_i为MAP结果对应的向量，在这种实现方式中，将采用两个柱，其中一个柱用来存放候选词，另外一个柱用来存放词性的候选；然后，模型的得分按照上述目标函数的公式计算。在第二种实现方式中，即z_i为预测结果的期望，采用正则的方式进行，模型的得分仅可以按照翻译模型计算，也即，令λ＝0，根据上述目标函数求解模型参数。

下面结合一个应用场景对本申请实施例进行说明。请结合图4和图8进行理解，接收输入句子X，该输入句子X为“法国失业人数再度回升”，RNN编码器对该输入句子X进行编码处理，得到X的表示向量序列H，在第0时刻，预测模型预测第0时刻的目标展望词的词性，预测模型预测的第0时刻的目标展望词的词性为名词，注意力模型接收第0时刻的目标展望词的词性为名词，注意力模型得出各个词的表示向量的对齐概率为:“法国”对应1，“失业”对应0，“人数”对应0，“再度”对应0，“回升”对应的概率为0。注意力模型确定第0时刻的上下文向量为“法国”对应的表示向量。通过翻译模型对“法国”进行翻译，将“法国”翻译为“French”；在第1时刻，预测模型预测第1时刻的目标展望词的词性为名词，注意力模型得出各个词的表示向量的对齐概率为:“法国”对应0，“失业”对应1，“人数”对应0，“再度”对应0，“回升”对应的概率为0。注意力模型确定第1时刻的上下文向量为“失业”对应的表示向量。通过翻译模型对“失业”进行翻译，将“法国”翻译为“unemployment”；在第2时刻，预测模型预测第2时刻的目标展望词的词性为动词，注意力模型得出各个词的表示向量的对齐概率为:“法国”对应0，“失业”对应0，“人数”对应0，“再度”对应0，“回升”对应的概率为1。注意力模型确定第2时刻的上下文向量为“回升”对应的表示向量。通过翻译模型对“回升”进行翻译，将“回升”翻译为“rises”；此过程一直循环下去，直到生成一个结尾符，将整个输入语句X翻译成“French unemployment rises again</S>”。

本申请实施例中，通过预测模型预测目标展望词的词性，提高了注意力模型建模的充分性，从而提高注意力模型在翻译过程中对齐的准确率，避免了在翻译过程中重复翻译的情况，提高了翻译的准确率。

对于本申请实施例中的技术方案应用于翻译场景中的效果提升进行了测试。例如，在中文对英文翻译和日文对英文翻译任务中表明，本申请实施例中提供的方法能够获得比现有技术(如基线系统)更好的效果。具体来说，在中文对英文的词对齐方面，降低了7个点的对齐错误率(AER)。同时，在中英和日英的翻译方面，以测评指标BLEU为例，本申请实施例中的方法比现有技术中基线系统在BLEU指标上提高了1.9。本申请实施例中提出的方法在对齐和翻译两方面性能均有所提升，提高了整体翻译的准确率。

本申请实施例中还提供了一种翻译设备，请参阅图10所示，本申请实施例中提供的一种翻译设备1000的一个实施例包括：

接收模块901，用于接收待处理信息，待处理信息以源语言表示；

编码模块902，用于采用编码器对接收模块901接收的待处理信息进行编码处理，生成待处理信息的表示向量序列；

预测模块903，用于通过预测模型预测第一时刻待翻译的目标展望词的特征信息，目标展望词以目标语言表示；

确定模块904，用于根据预测模块903预测的目标展望词的特征信息确定编码模块生成的表示向量序列中当前时刻对应的上下文向量；

解码模块905，用于采用解码器对确定模块904确定的上下文向量进行解码处理，得到上下文向量对应的以目标语言表示的目标内容。

在图10对应的实施例的基础上，请参阅图11所示，本申请实施例提供的翻译设备1100的一个实施例包括：

还包括模型训练模块906；

模型训练模块906，用于根据数据集合中的信息训练预测模型，数据集合包括源语言语句，与源语言语句对应的目标语言语句，及目标语言语句的特征信息。

在图10对应的实施例的基础上，请参阅图12所示，本申请实施例提供的翻译设备1200的一个实施例包括：

确定模块904包括获取单元9041、估计单元9042和确定单元9043；

获取单元9041，用于获取编码模块902编码得到的表示向量序列中预测模块预测903的目标展望词的特征信息；

估计单元9042，拥有对获取单元9041获取的目标展望词的特征信息进行估计，得到估计结果；

确定单元9043，用于根据估计单元9042估计的估计结果确定表示向量序列中第一时刻对应的上下文向量。

可选的，预测模块903，还用于采用预测模型根据解码器在第二时刻的隐含状态预测第一时刻待翻译的目标展望词的特征信息，第二时刻为第一时刻之前的相邻时刻。

可选的，预测模块903，还用于采用神经网络模型根据第二时刻对应的目标内容得到第一结果，第二时刻为第一时刻之前的相邻时刻，第一结果为神经网络模型的隐含单元在第一时刻的隐含状态；

通过预测模型根据第一结果预测第一时刻待翻译的目标展望词的特征信息。

可选的，预测模块903，还用于采用神经网络模型根据第二时刻对应的目标内容和第一时刻的单词向量得到第一结果，单词向量为表示向量序列中按照词组顺序进行表示的向量。

进一步的，图10-图12中的翻译设备是以功能模块的形式来呈现。这里的“模块”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，图10-图12中的翻译设备可以采用图13所示的形式。

图13是本发明实施例提供的一种翻译设备结构示意图，该翻译设备1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对翻译设备中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在翻译设备1300上执行存储介质1330中的一系列指令操作。

翻译设备1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341。

上述实施例中由翻译设备所执行的步骤可以基于该图13所示的翻译设备结构。具体的，中央处理器1322，用于使翻译设备执行如上述方法实施例中翻译设备所具体执行的方法。

本申请实施例中，还提供了一种计算机存储介质，用于储存翻译设备所用的计算机软件指令，其包含用于执行上述方法实施例中具体执行的方法所设计的程序。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器翻译的方法，其特征在于，包括：

接收待处理信息，所述待处理信息以源语言表示；

采用神经网络模型根据第二时刻对应的目标内容得到第一结果，所述第二时刻为第一时刻之前的相邻时刻，所述第一结果为所述神经网络模型的隐含单元在第一时刻的隐含状态；

通过预测模型根据所述第一结果预测第一时刻待翻译的目标展望词的特征信息，所述目标展望词以目标语言表示；

2.根据权利要求1所述的方法，其特征在于，所述通过预测模型预测第一时刻待翻译的目标展望词的特征信息之前，所述方法还包括：

根据数据集合中的信息训练所述预测模型，所述数据集合包括源语言语句，与所述源语言语句对应的目标语言语句，及所述目标语言语句的特征信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标展望词的特征信息确定所述表示向量序列中第一时刻对应的上下文向量，包括：

获取所述目标展望词的特征信息；

对所述目标展望词的特征信息进行估计，得到估计结果；

根据所述估计结果确定所述表示向量序列中第一时刻对应的上下文向量。

4.根据权利要求1所述的方法，其特征在于，所述采用神经网络模型根据第二时刻对应的目标内容得到第一结果，包括：

采用所述神经网络模型根据所述第二时刻对应的目标内容和第一时刻的单词向量得到所述第一结果，所述单词向量为所述表示向量序列中按照词组顺序进行表示的向量。

5.一种翻译设备，其特征在于，包括：

预测模块，用于采用神经网络模型根据第二时刻对应的目标内容得到第一结果，所述第二时刻为第一时刻之前的相邻时刻，所述第一结果为所述神经网络模型的隐含单元在第一时刻的隐含状态；通过预测模型根据所述第一结果预测第一时刻待翻译的目标展望词的特征信息，所述目标展望词以目标语言表示；

6.根据权利要求5所述的翻译设备，其特征在于，还包括模型训练模块；

所述模型训练模块，用于根据数据集合中的信息训练所述预测模型，所述数据集合包括源语言语句，与所述源语言语句对应的目标语言语句，及所述目标语言语句的特征信息。

7.根据权利要求5所述的翻译设备，其特征在于，所述确定模块包括获取单元、估计单元和确定单元；

所述获取单元，用于获取所述目标展望词的特征信息；

所述估计单元，拥有对所述获取单元获取的所述目标展望词的特征信息进行估计，得到估计结果；

所述确定单元，用于根据所述估计单元估计的估计结果确定所述表示向量序列中第一时刻对应的上下文向量。

8.一种翻译设备，其特征在于，包括：

存储器，用于存储计算机可执行程序代码；

网络接口，以及

处理器，与所述存储器和所述网络接口耦合；

其中所述程序代码包括指令，当所述处理器执行所述指令时，所述指令使所述翻译设备执行如权利要求1-4中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，用于储存翻译设备所用的计算机软件指令，其包含用于执行如权利要求1-4中任一项的方法中所设计的程序。