CN111160036B

CN111160036B - 一种对基于神经网络的机器翻译模型的更新方法及装置

Info

Publication number: CN111160036B
Application number: CN201811317764.8A
Authority: CN
Inventors: 唐海庆; 童超; 梁俊
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2023-07-21
Anticipated expiration: 2038-11-07
Also published as: CN111160036A

Abstract

本申请公开一种对基于神经网络的机器翻译模型的更新方法及装置，包括：针对获取的每个双语平行句对，利用编码端神经网络对该句对中的源端句子进行编码，得到源端句子的隐层状态序列；将源端句子的隐层状态序列输入解码端神经网络，利用解码端神经网络解码生成源端句子的译文句子，其中，在需要解码生成译文句子中的第j个词语时，确定第j个词语与源端句子中每个词语的对齐概率，所述对齐概率是根据当前源端句子中每个词语的辅助向量确定的，进而确定对齐概率最大的词语为源端句子中与译文句子中第j个词语对齐的词语，对其进行解码得到译文句子中的第j个词语，之后更新解码端神经网络的参数矩阵，使生成的译文句子逼近该句对中的目标端句子。

Description

一种对基于神经网络的机器翻译模型的更新方法及装置

技术领域

本申请涉及机器翻译技术领域，尤其涉及一种对基于神经网络的机器翻译模型的更新方法及装置。

背景技术

目前，神经网络和深度学习技术的应用很好地提升了机器翻译的效果，但当前使用的机器翻译模型依然存在着很多不足，一是漏翻译，二是过翻译。

比如，现有技术中，在建立基于注意力机制的神经网络机器翻译模型时，对给定的每个词对齐的双语平行句对，编码器先对该句对中的每个词语进行编码，得到用于表征该词语中间语义的隐层状态向量，然后拼接各词语的隐层状态向量，得到用于表征源端句子中间语义的隐层状态序列，之后，将源端句子的隐层状态序列输入到解码器中，利用解码器解码生成源端句子的译文句子，其中，在解码生成译文句子中的每个目标词语时，注意力模型可以根据解码器在解码生成前一个词语时的隐层状态向量和源端句子的隐层状态序列，确定目标词语与源端句子中每个词语的对齐概率，解码器再根据前一个词语的词向量、源端句子的隐层状态序列、以及目标词语与源端句子中每个词语的对齐概率，确定解码生成目标词语时的隐层状态向量，进而根据解码生成目标词语时的隐层状态向量和源端句子中与目标词语对齐概率最大的词语，来解码生成目标词语，最后，更新解码器的参数矩阵，使解码器解码生成的译文句子逼近双语平行句对中的目标端句子。

在上述解码过程中，解码目标词语的注意力与解码在此之前词语的注意力是独立的，即，解码目标词语时未能从之前的解码过程中获取词语对齐相关信息，这样，为目标词语确定的与源端句子中每个词语的对齐概率不够准确，因此，利用上述翻译模型翻译文本时就容易存在过翻译和漏翻译的问题。

发明内容

本申请实施例提供一种对基于神经网络的机器翻译模型的更新方法及装置，用以解决现有技术中机器翻译模型存在的过翻译和漏翻译的问题。

第一方面，本申请实施例提供的一种对基于神经网络的机器翻译模型的更新方法，包括：

获取多个词对齐的双语平行句对，每个双语平行句对包含源端句子到目标端句子的对照译文；

针对每个双语平行句对，利用编码端神经网络对该句对中源端句子中的每个词语进行编码，得到用于表征该词语中间语义的隐层状态向量，拼接各词语的隐层状态向量得到用于表征所述源端句子中间语义的隐层状态序列；

将所述源端句子的隐层状态序列输入到解码端神经网络中，利用所述解码端神经网络解码生成所述源端句子的译文句子，其中，当需要解码生成所述译文句子中的第j个词语时，确定所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率，所述对齐概率是根据在解码生成所述译文句子中第j个词语时所述源端句子中每个词语的辅助向量确定的，所述源端句子中每个词语的辅助向量用于记录该词语的解码情况，确定对齐概率最大的词语为所述源端句子中与所述译文句子中第j个词语对齐的词语，对所述词语进行解码得到所述译文句子中的第j个词语；

更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子。

采用上述方案，可利用编码端神经网络对每个词对齐的双语平行句对中的源端句子进行编码，之后，再利用解码端神经网络解码生成源端句子的译文句子，其中，当需要解码生成译文句子中的第j个词语时，可结合考虑源端句子中每个词语的辅助向量来确定译文句子中的第j个词语与源端句子中每个词语之间的对齐概率，这里，源端句子中每个词语的辅助向量用于记录该词语的解码情况，这样，为译文句子中的每个词语确定的与源端句子中每个词语之间的对齐概率更加准确，过翻译或者漏翻译的概率都会降低，因此，能较好地改善现有的机器翻译模型存在的过翻译和漏翻译现象。

第二方面，本申请实施例提供的一种对基于神经网络的机器翻译模型的更新装置，包括：

获取模块，用于获取多个词对齐的双语平行句对，每个双语平行句对包含源端句子到译文句子的对照译文；

编码模块，用于针对每个双语平行句对，利用编码端神经网络对该句对中源端句子中的每个词语进行编码，得到用于表征该词语中间语义的隐层状态向量，拼接各词语的隐层状态向量得到用于表征所述源端句子中间语义的隐层状态序列；

解码模块，用于将所述源端句子的隐层状态序列输入到解码端神经网络中，利用所述解码端神经网络解码生成所述源端句子的译文句子，其中，当需要解码生成所述译文句子中的第j个词语时，确定所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率，所述对齐概率是根据在解码生成所述译文句子中第j个词语时所述源端句子中每个词语的辅助向量确定的，所述源端句子中每个词语的辅助向量用于记录该词语的解码情况，确定对齐概率最大的词语为所述源端句子中与所述译文句子中第j个词语对齐的词语，对所述词语进行解码得到所述译文句子中的第j个词语；

更新模块，用于更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子。

第三方面，本申请实施例提供的一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

存储器存储有可被至少一个处理器执行的指令，该指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述对基于神经网络的机器翻译模型的更新方法。

第四方面，本申请实施例提供的一种计算机可读介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述对基于神经网络的机器翻译模型的更新方法。

另外，第二方面至第四方面中任一种设计方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

本申请的这些方面或其它方面在以下实施例的描述中会更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的机器翻译的过程示意图；

图2为本申请实施例提供的对基于神经网络的机器翻译模型的更新方法的流程图；

图3为本申请实施例提供的用于实现对基于神经网络的机器翻译模型的更新方法的电子设备的硬件结构示意图；

图4为本申请实施例提供的对基于神经网络的机器翻译模型的更新装置的结构示意图。

具体实施方式

为了解决现有技术中机器翻译模型存在的过翻译和漏翻译问题，本申请实施例提供了一种对基于神经网络的机器翻译模型的更新方法及装置。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了便于理解本申请，本申请涉及的技术术语中：

词语，可以表示完整语义的短语，一个词语包含的字符个数不固定，可以为一个、两个、三个或者更多，比如，“我”、“想要”、“去上学”、“I”、“want to”、“go to school”都是单个的词语。

对齐概率，用于反映不同语种中两个词语之间的语义相近程度，比如，源端句子为“I come from China”，目标端句子为“我来自中国”，其中，中文词语“我”和英文词语“I”、“come from”、“China”的对齐概率分别为0.6、0.3、0.1，其中，“我”和“I”的对齐概率最高，因为两者的语义最为相近。

词对齐的双语平行句对，包含一个源端句子到一个目标端句子的对照译文，且源端句子和目标端句子中各词语的对齐关系已知。

比如，源端句子为F、包含m个词语，目标端句子为E、包含n个词语，可将F和E分别表示为F＝{f₁，f₂，…，f_m}和E＝{e₁，e₂，…，e_n}，各词语的对齐关系为：E中的词语e₁和F中的词语f₁对齐，E中的词语e₂和F中的词语f₂对齐……E中的词语e_n和F中的词语f_m对齐。

参见图1，图1示出了机器翻译的过程示意图，一般地，机器翻译主要包括编码和解码两个过程，其中，ENCODER所在框图代表编码过程，DECODER所在框图代表解码过程。

针对源端句子中的第i个词语X_i，可以利用双向循环神经网络对X_i进行编码，得到用于表示X_i的中间语义的隐层状态向量h_i，拼接源端句子中的各词语的隐层状态向量，可得到的用于表示源端句子中间语义的隐层状态序列H，这里，H＝{h₁，h₂，…，h_m}，m为源端句子中的词语个数。

之后，可将源端句子的隐层状态序列H输入到解码端神经网络中，利用解码端神经网络解码生成源端句子的译文句子，其中，在解码生成译文句子中的第一个词语时，源端句子的隐层状态序列H₀＝H，每解码一步之后均对源端句子的隐层状态序列进行更新……在解码生成译文句子中的第j个词语时，输入门控循环单元(Gated Recurrent Unit，GRU)的为上一个GRU在解码生成译文句子中第j-1个词语时的隐层状态向量S_j-1和解码生成译文句子中第j个词语时源端句子的隐层状态序列H_j-1，此时，当前GRU经过运算可以得到在解码生成译文句子中第j个词语时的隐层状态向量S_j，根据S_j即可得到译文句子中的第j个词语，这样，逐词进行解码即可得到译文句子。

下面结合具体的实施例对本申请提供的方法进行详细介绍。

首先，对基于神经网络的机器翻译模型进行介绍。

给定一对词对齐的双语平行句对(F,E)，假设源端句子F和目标端句子E分别包含m和n个词语，则可以将F和E分别表示为F＝{f₁，f₂，…，f_m}和E＝{e₁，e₂，…，e_n}。

这里，可使用双向循环神经网络对F进行编码，公式如下：

其中，和/>是两个门循环单元，分别从左向右、从右向左循环地对F中的每个词语进行编码，得到词语的隐层状态向量，然后拼接各词语的隐层状态向量即可得到F的隐式状态序列H＝{h₁，h₂，…，h_m}；

x_i代表F中第i个词语的词向量，可利用开源工具word2vec得到；

h_i代表F中第i个词语的隐层状态向量。

然后，解码器端神经网络通过最大化目标待预测词语的似然来优化整个翻译模型，预测译文句子中每个目标词语y_j的似然函数定义如下：

其中，o(·)是一个非线性函数，如sigmod()函数；

代表解码生成的译文句子中第j-1个词语的词向量，同样可通过word2vec得到；

s_j是解码器端循环神经网络在解码生成E中第j个词语时的隐层状态向量，计算公式如下：

其中，g(·)是一个循环神经网络，可以为GRU，特别地，当j＝1时，s₀是对隐层状态序列H取平均，并加一个全连接和一个非线性函数得到的，公式表达为：s₀＝tanh(W*H.mean(0)+b)，这里，W为循环神经网络的参数矩阵，b为偏置矩阵；

a_j是对在解码生成译文句子中第j个词语时源端句子的上下表示，计算公式为：

α_i，j是F中第i个词语与E中第j个词语的对齐概率，计算公式如下：

其中，f(·)是一个前馈神经网络；

最后，可计算下一个隐层状态向量：

计算出公式(2)中的待预测词语的概率分布之后，可使用正确结果将概率索引出来，之后计算损失函数的取值，然后根据损失函数的取值使用梯度下降的算法更新解码端神经网络的参数，使译文句子逼近正确的目标端句子。

为了改善上述机器翻译模型的翻译效果，本申请创新性地引入辅助向量C，C的维度与源端隐层状态向量的维度相同，用于记录源端句子中每个词语的解码情况，C_i,j表示解码端神经网络在解码生成译文句子中的第j个词语时，源端句子中第i个词语的辅助向量，可将C辅助注意力模型的计算，补充每一个源端所对应的目标端的信息量，并且，在目标端每解码一步，还可使用已解码的目标端隐层状态向量对源端的隐层状态向量进行更新，以削弱已解码过(即已翻译过)的源端词语的权重。

总的来说，本申请实施例所提供的模型不仅能对已经生产的目标端信息进行建模，还能对源端的信息进行更新，这样，不但求解的对齐概率更加精确，而且整个解码过程中源端和目标端的信息可动态交互，对两端信息的利用更加充分，因此，能够很好地改善现有机器翻译模型所存在的过翻译和漏翻译的问题。

在具体实施时，利用辅助向量计算译文句子中第j个词语与源端句子中第i个词语的对齐概率的公式为：

其中，f(·)是一个前馈神经网络；

上述公式(7)相对于原公式(4)加入了辅助向量C，C中携带了源端句子中各词语是否被翻译的信息，这样，在计算上下文向量时，对源端句子中的每个词语，若确定其被翻译，则可降低其权重；否则，可增加其权重，进而使对齐更加准确。

一般地，解码端神经网络在解码前源端句子中每个词语的辅助向量C_i0可初始化为0，表示源端句子中的每个词均未被解码(即未被翻译)，以解码生成译文句子中的第一个词语为例，对C_i用GRU进行更新，C_i1的输入是α_i,1*S₁，当α_i,1比较小时，说明源端的h_i与当前解码的S₁关联度较低，此时α_i,1*S₁所含信息量也会较低，用α_i,1*S₁来对C_i更新，C_i的信息量也较低，因此，C_i的信息量可反映出源端的h_i是否被翻译的信息，若C_i的信息量小于一定值，则可认为源端h_i没有被翻译，反之，则可认为源端h_i被翻译，并且，用α_i,j*S_j来更新C_i，也就是说用上一步解码的对齐权重α_i,j来决定h_i是否被翻译，α_i,j越大则h_i被翻译的可能性越大，通过更新C_i来记录每一步解码时源端句子中的哪个词语被翻译，然后用于下一步的解码，因此，能够很好地改善现有的过翻译和漏翻译现象。

最后，计算下一个隐层状态向量：

并且，每解码一步之后都可以更新C：

C_i,j＝GRU(C_i,j-1,α_i,j*s_j) (9)

此外，本申请实施例还可通过一个“更新”机制不断地更新输入序列的隐层状态向量，完成翻译过程与输入序列之间的信息交互，比如，可以采用另外一个GRU对源端序列的隐层状态向量进行更新：

H_j＝GRU(H_j-1,α_i,j*s_j) (10)

即，源端句子中每个词语的隐层状态向量也会不断更新。

这样，在解码生成译文句子中第一个词语时，使用的源端句子的隐式状态序列为H₀，即根据公式(1)生成的h_i所拼接而成的H，后续，在解码生成译文句子中其它任一个词语时，均可对上一次使用的源端句子的隐式状态序列进行更新，从而完成翻译过程与输入序列之间的信息交互。

本申请所采用的改进型注意力模型加入了辅助向量，保持了一个对已解码的目标端信息的记录，可区分每个源端词语对应的已解码目标端的信息，能够大大提高词语对齐的准确率，并且，与现有的基于神经网络的机器翻译模型相比，本申请实施例中在每解码一步还对源端句子的隐层状态序列进行了更新，这样，可降低已解码过的源端词语的权重，提高未解码的源端词语的权重，所以能够很好地改善现有的基于神经网络的机器翻译模型所存在的过翻译和漏翻译的问题。

下面以词对齐的双语平行句对：“I come from China”，“我来自中国”为例，对上述过程做进一步说明。

首先，可从利用英文单词构建的词典中获得源端句子中每个单词的id，并利用开源工具word2vec获得每个单词的词向量。

其次，根据公式(1)得到源端句子的序列表示H＝{h1,h2,h3,h4}。

再次，对源端句子的序列进行逐词翻译，得到源端句子的译文句子。

具体地，当解码生成译文句子中的第j个词语时，通过公式(7)求出译文句子中第j个词语与源端句子中每个词语的对齐概率，然后，可以根据公式(4)计算用于表征在解码生成译文句子中第j个词语时源端句子上下文信息的上下文向量，再利用公式(8)得到在解码生成译文句子中的第j个词语时解码端神经网络的隐藏状态，然后根据公式(2)预测可能的单词，取概率最高的单词作为译文句子中的第j个词语，最后，利用公式(9)更新辅助向量C，利用公式(10)更新源端句子的隐层状态序列。

最后，根据解码生成的译文句子和目标端句子(我来自中国)，计算损失函数的取值，根据损失函数的取值，利用梯度下降算法更新解码端神经网络的参数矩阵。

如图2所示，为本申请实施例提供的对基于神经网络的机器翻译模型的更新方法的流程图，包括以下步骤：

S201：获取多个词对齐的双语平行句对，每个双语平行句对包含源端句子到目标端句子的对照译文。

S202：针对每个双语平行句对，利用编码端神经网络生成用于表征该句对中源端句子的中间语义的隐层状态序列。

具体地，可利用编码端神经网络对源端句子中的每个词语进行编码，得到用于表征该词语中间语义的隐层状态向量，然后，拼接各词语的隐层状态向量得到用于表征源端句子中间语义的隐层状态序列。

S203：将源端句子的隐层状态序列输入到解码端神经网络中，利用解码端神经网络解码生成源端句子的译文句子。

这里，对源端句子中的每个词语均添加有辅助向量，用于记录该词语的解码情况，在解码生成译文句子中的每个词语时，均可参考源端句子中各词语的辅助向量来确定译文句子中的该词语与源端句子中每个词语的对齐概率，使最终确定的对齐概率更加准确，从而借助于辅助向量来改善翻译模型的漏翻译和过翻译现象。

在具体实施时，当确定需要解码生成译文句子中的第j个词语时，可先确定译文句子中第j个词语与源端句子中每个词语的对齐概率，具体地，针对译文句子中的第j个词语，可以将解码端神经网络在解码生成译文句子中第j-1个词语时的隐层状态向量和解码生成的译文句子中第j-1个词语的词向量输入到设定的神经单元中，根据该神经单元的输出、源端句子中第i个词语的隐层状态向量、解码端神经网络在解码生成译文句子中第j-1个词语时源端句子中第i个词语的辅助向量，确定译文句子中第j个词语与源端句子中第i个词语的语义相关度，进而根据译文句子中第j个词语与源端句子中第i个词语的语义相关度、以及译文句子中第j个词语与源端句子中各词语的语义相关度之和，确定译文句子中第j个词语与源端句子中第i个词语的对齐概率，其中，j和i均为整数。

比如，可以根据以下公式计算译文句子中第j个词语与源端句子中第i个词语的对齐概率α_ij：

其中，C_i,j-1为解码端神经网络在解码生成译文句子中第j-1个词语时源端句子中第i个词语的辅助向量，h_i为源端句子中第i个词语的隐层状态向量，m为源端句子中的词语个数，为神经单元的输出，且

其中，s_j-1为解码端神经网络在解码生成译文句子中第j-1个词语时的隐层状态向量，为译文句子中第j-1个词语的词向量，GRU为设定的神经单元。

下面结合具体实施例说明辅助向量在计算对齐概率时的作用。

比如，源端句子包含3个词语：词语1，词语2和词语3，且改进以前，译文句子中第j个词语与源端句子中词语1的对齐概率为0.2，与源端句子中词语2的对齐概率为0.6，与源端句子中词语3的对齐概率为0.2，假设根据源端句子中各词语的辅助向量确定词语1已经翻译，词语2和词语3均未翻译，则可调低译文句子中第j个词语与源端句子中词语1的对齐概率，调高译文句子中第j个词语与源端句子中词语2的对齐概率，这样，词语1已经翻译过了，就不会对其再进行翻译，可有效减少过翻译的现象，同时，译文句子中第j个词语与词语2的对齐概率最高，说明当前需要翻译的是词语2，也可有效减少漏翻译的现象。

进一步地，可确定对齐概率最大的词语为源端句子中与译文句子中第j个词语对齐的词语，对该词语进行解码即可得到译文句子中的第j个词语。

具体地，可以将解码端神经网络在解码生成译文句子中第j个词语时的隐层状态向量、用于表征在解码生成译文句子中第j个词语时源端句子上下文信息的上下文向量、以及译文句子中第j-1个词语的词向量，代入用于预测译文句子中各词语的似然函数，最大化该似然函数得到译文句子中第j个词语在预设数量的语义相近的词语间的分布概率，进而将分布概率最大的词语确定为解码端神经网络解码生成的译文句子中的第j词语。

比如，可以根据以下公式预测译文句子中的第j个词语yj：

其中，o(·)是一个非线性函数，如sigmod()函数；

代表解码生成的译文句子中第j-1个词语的词向量，可通过word2vec得到；

s_j是解码器端循环神经网络在解码生成译文句子中第j个词语时的隐层状态向量，计算公式如下：

其中，g(·)是一个循环神经单元，可以为GRU，特别地，当j＝1时，s₀是对隐层状态序列H取平均，并加一个全连接和一个非线性函数得到的，公式表达为：s₀＝tanh(W*H.mean(0)+b)，这里，W为循环神经网络的参数矩阵，b为偏置矩阵；

a_j是对在解码生成译文句子中第j个词语时源端句子的上下文信息进行表示的上下文向量，计算公式为：

α_i，j是源端句子中第i个词语与译文句子中第j个词语的对齐概率，h_i代表源端句子中第i个词语的隐层状态向量。

在具体实施时，解码生成译文句子中的第j个词语后，若确定译文句子中存在第j+1个词语，还可以对每个词语的辅助向量进行更新，具体地，将译文句子中第j个词语与源端句子中每个词语的对齐概率、在解码生成译文句子中第j个词语时的隐层状态向量、以及在解码生成译文句子中第j个词语时源端句子中第i个词语的辅助向量，输入到用于对辅助向量进行更新的神经单元中，将神经单元的输出作为在解码生成译文句子中第j+1个词语时源端句子中第i个词语的辅助向量。

比如，假设在解码生成译文句子中第j-1个词语时，源端句子中第i个词语的辅助向量为C_i,j-1，则在解码生成译文句子中第j个词语时，源端句子中第i个词语的辅助向量C_i,j为：

C_i,j＝GRU(C_i,j-1,α_i,j*s_j) (9)

此外，为了在解码过程中使源端与目标端交互信息，进一步改善过翻译和漏翻译的问题，还可对源端句子的隐层状态序列进行更新，具体地，可以将译文句子中第j个词语与源端句子中每个词语的对齐概率、在解码生成译文句子中第j个词语时的隐层状态向量，以及在解码译文句子中第j个词语时源端句子的隐层状态序列，输入到用于对源端句子的隐层状态序列进行更新的神经单元中，将神经单元的输出作为解码生成译文句子中第j+1个词语时源端句子的隐层状态序列。

比如，可以根据以下公式更新源端句子的隐层状态序列：

H_j＝GRU(H_j-1,α_i,j*s_j) (10)

即，公式(7)中的h_i可随着解码过程不断发生变化，这样，可使计算的译文句子中的每个词语与源端句子中每个词语之间的对齐概率更加准确，进一步提升翻译效果。

S204：根据解码端神经网络解码生成的译文句子和句对中的目标端句子，计算损失函数的取值。

S205：根据损失函数的取值，利用梯度下降算法更新解码端神经网络的参数矩阵，使解码端神经网络解码生成的译文句子逼近目标端句子。

S206：获取待翻译文本，其中，待翻译文本的语种与源端句子的语种相同。

S207：利用改进后的翻译模型对待翻译文本进行翻译，得到与目标端句子语种相同的译文。

参见图3所示，为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括收发器301以及处理器302等物理器件，其中，处理器302可以是一个中央处理单元(central processing unit，CPU)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器301用于电子设备和其他设备进行数据收发。

该电子设备还可以包括存储器303用于存储处理器302执行的软件指令，当然还可以存储电子设备需要的一些其他数据，如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器303可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器303也可以是非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器303是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器303可以是上述存储器的组合。

本申请实施例中不限定上述处理器302、存储器303以及收发器301之间的具体连接介质。本申请实施例在图3中仅以存储器303、处理器302以及收发器301之间通过总线304连接为例进行说明，总线在图3中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器302可以是专用硬件或运行软件的处理器，当处理器302可以运行软件时，处理器302读取存储器303存储的软件指令，并在所述软件指令的驱动下，执行前述实施例中涉及的方法。

当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候，电子设备中可以包括多个功能模块，每个功能模块可以包括软件、硬件或其结合。具体的，参见图4所示，为本申请实施例提供的对基于神经网络的机器翻译模型的更新装置的结构示意图，包括获取模块401、编码模块402、解码模块403、更新模块404。

获取模块401，用于获取多个词对齐的双语平行句对，每个双语平行句对包含源端句子到译文句子的对照译文；

编码模块402，用于针对每个双语平行句对，利用编码端神经网络对该句对中源端句子中的每个词语进行编码，得到用于表征该词语中间语义的隐层状态向量，拼接各词语的隐层状态向量得到用于表征所述源端句子中间语义的隐层状态序列；

解码模块403，用于将所述源端句子的隐层状态序列输入到解码端神经网络中，利用所述解码端神经网络解码生成所述源端句子的译文句子，其中，当需要解码生成所述译文句子中的第j个词语时，确定所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率，所述对齐概率是根据在解码生成所述译文句子中第j个词语时所述源端句子中每个词语的辅助向量确定的，所述源端句子中每个词语的辅助向量用于记录该词语的解码情况，确定对齐概率最大的词语为所述源端句子中与所述译文句子中第j个词语对齐的词语，对所述词语进行解码得到所述译文句子中的第j个词语；

更新模块404，用于更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子。

在一种可能的实施方式下，所述解码模块403具体用于根据以下步骤确定所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率：

将所述解码端神经网络在解码生成所述译文句子中第j-1个词语时的隐层状态向量和所述译文句子中第j-1个词语的词向量输入到设定的神经单元中，根据所述神经单元的输出、所述源端句子中第i个词语的隐层状态向量、所述解码端神经网络在解码生成所述译文句子中第j-1个词语时所述源端句子中第i个词语的辅助向量，确定所述译文句子中第j个词语与所述源端句子中第i个词语的语义相关度；

根据所述译文句子中第j个词语与所述源端句子中第i个词语的语义相关度、以及所述译文句子中第j个词语与所述源端句子中各词语的语义相关度之和，确定所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率。

在一种可能的实施方式下，所述解码模块403具体用于根据以下公式计算所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率α_ij：

其中，C_i,j-1为所述解码端神经网络在解码生成所述译文句子中第j-1个词语时所述源端句子中第i个词语的辅助向量，h_i为所述源端句子中第i个词语的隐层状态向量，m为所述目标端句子中的词语个数，为所述神经单元的输出，且

其中，s_j-1为所述解码端神经网络在解码生成所述译文句子中第j-1个词语时的隐层状态向量，为所述译文句子中第j-1个词语的词向量，GRU为所述神经单元。

在一种可能的实施方式下，所述解码模块403具体用于：

将所述解码端神经网络在解码生成所述译文句子中第j个词语时的隐层状态向量、用于表征在解码生成所述译文句子中第j个词语时所述源端句子上下文信息的上下文向量、以及所述译文句子中第j-1个词语的词向量，代入用于预测所述译文句子中各词语的似然函数；

最大化所述似然函数得到所述译文句子中第j个词语在预设数量的语义相近的词语间的分布概率；

将分布概率最大的词语确定为所述解码端神经网络解码生成的所述译文句子中的第j词语。

在一种可能的实施方式下，所述解码模块403，还用于：

在将分布概率最大的词语确定为所述解码端神经网络解码生成的所述译文句子中的第j词语之后，若确定所述译文句子中存在第j+1个词语，则将所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率、在解码生成所述译文句子中第j个词语时的隐层状态向量、以及在解码生成所述译文句子中第j个词语时所述源端句子中第i个词语的辅助向量，输入到用于对辅助向量进行更新的神经单元中，将所述神经单元的输出作为在解码生成所述译文句子中第j+1个词语时所述源端句子中第i个词语的辅助向量。

在一种可能的实施方式下，所述解码模块403，还用于：

若确定所述译文句子中存在第j+1个词语，则将所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率、在解码生成所述译文句子中第j个词语时的隐层状态向量，以及在解码所述译文句子中第j-1个词语时所述源端句子的隐层状态序列，代入用于对所述源端句子的隐层状态序列进行更新的神经单元中，将所述神经单元的输出作为解码生成所述译文句子中第j+1个词语时所述源端句子的隐层状态序列。

在一种可能的实施方式下，还包括，翻译模块405，

所述获取模块401，还用于在更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子之后，获取待翻译文本，所述待翻译文本的语种与所述源端句子的语种相同；

所述翻译模块405，用于利用更新后的翻译模型对所述待翻译文本进行翻译，得到与所述目标端句子语种相同的译文。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本申请提供的对基于神经网络的机器翻译模型的更新方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的对基于神经网络的机器翻译模型的更新方法中的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于对基于神经网络的机器翻译模型的更新的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种对基于神经网络的机器翻译模型的更新方法，其特征在于，包括：

更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子；

对所述词语进行解码得到所述译文句子中的第j个词语，包括：

将分布概率最大的词语确定为所述解码端神经网络解码生成的所述译文句子中的第j词语；

将分布概率最大的词语确定为所述解码端神经网络解码生成的所述译文句子中的第j词语之后，还包括：

若确定所述译文句子中存在第j+1个词语，则将所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率、在解码生成所述译文句子中第j个词语时的隐层状态向量、以及在解码生成所述译文句子中第j个词语时所述源端句子中第i个词语的辅助向量，输入到用于对辅助向量进行更新的神经单元中，将所述神经单元的输出作为在解码生成所述译文句子中第j+1个词语时所述源端句子中第i个词语的辅助向量。

2.如权利要求1所述的方法，其特征在于，根据以下步骤确定所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率：

3.如权利要求2所述的方法，其特征在于，根据以下公式计算所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率α_ij：

其中，C_i,j-1为所述解码端神经网络在解码生成所述译文句子中第j-1个词语时所述源端句子中第i个词语的辅助向量，h_i为所述源端句子中第i个词语的隐层状态向量，m为所述源端句子中的词语个数，为所述神经单元的输出，且

4.如权利要求1所述的方法，其特征在于，若确定所述译文句子中存在第j+1个词语，还包括：

将所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率、在解码生成所述译文句子中第j个词语时的隐层状态向量，以及在解码所述译文句子中第j个词语时所述源端句子的隐层状态序列，输入到用于对所述源端句子的隐层状态序列进行更新的神经单元中，将所述神经单元的输出作为解码生成所述译文句子中第j+1个词语时所述源端句子的隐层状态序列。

5.如权利要求1所述的方法，其特征在于，更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子之后，还包括：

获取待翻译文本，所述待翻译文本的语种与所述源端句子的语种相同；

利用更新后的翻译模型对所述待翻译文本进行翻译，得到与所述目标端句子语种相同的译文。

6.一种对基于神经网络的机器翻译模型的更新装置，其特征在于，包括：

获取模块，用于获取多个词对齐的双语平行句对，每个双语平行句对包含源端句子到目标端句子的对照译文；

更新模块，用于更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子；

所述解码模块具体用于：

所述解码模块，还用于：

7.如权利要求6所述的装置，其特征在于，所述解码模块具体用于根据以下步骤确定所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率：

8.如权利要求7所述的装置，其特征在于，所述解码模块具体用于根据以下公式计算所述译文句子中第j个词语与所述源端句子中第i个词语的对齐概率α_ij：

9.如权利要求6所述的装置，其特征在于，所述解码模块，还用于：

若确定所述译文句子中存在第j+1个词语，则将所述译文句子中第j个词语与所述源端句子中每个词语的对齐概率、在解码生成所述译文句子中第j个词语时的隐层状态向量，以及在解码所述译文句子中第j个词语时所述源端句子的隐层状态序列，输入到用于对所述源端句子的隐层状态序列进行更新的神经单元中，将所述神经单元的输出作为解码生成所述译文句子中第j+1个词语时所述源端句子的隐层状态序列。

10.如权利要求6所述的装置，其特征在于，还包括，翻译模块，

所述获取模块，还用于在更新所述解码端神经网络的参数矩阵，使所述解码端神经网络解码生成的所述译文句子逼近所述双语平行句对中的目标端句子之后，获取待翻译文本，所述待翻译文本的语种与所述源端句子的语种相同；

所述翻译模块，用于利用更新后的翻译模型对所述待翻译文本进行翻译，得到与所述目标端句子语种相同的译文。

11.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5任一权利要求所述的方法。

12.一种计算机可读介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至5任一权利要求所述的方法。