CN110457713B

CN110457713B - 基于机器翻译模型的翻译方法、装置、设备和存储介质

Info

Publication number: CN110457713B
Application number: CN201910533371.9A
Authority: CN
Inventors: 邵晨泽; 张金超; 孟凡东; 冯洋; 周杰
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Computing Technology of CAS
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Computing Technology of CAS
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2023-07-28
Anticipated expiration: 2039-06-19
Also published as: WO2020253669A1; CN110457713A

Abstract

本申请提供了一种基于机器翻译模型的翻译方法、装置、设备和存储介质。所述方法包括：将源端句子的第i个源端词嵌入编码为中间向量；结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；将解码后的中间向量与目标端句子的第i‑1个目标端词嵌入融合，得到融合后的中间向量；对融合后的中间向量进行解码，得到解码后的词向量；根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果；该方法通过在解码过程中增加前一个目标端词嵌入作为输入数据，捕捉单词之间的依赖关系，从而提高目标端句子生成的准确性，减少过翻译、漏翻译等等错误的出现，使生成的目标端句子更通顺。

Description

基于机器翻译模型的翻译方法、装置、设备和存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种基于机器翻译模型的翻译方法、装置、设备和存储介质。

背景技术

机器翻译是利用计算机将一种自然语言转变为另一种自然语言的过程，被广泛的应用到生活中的各个方面；比如，翻译机、语音同传以及跨语言检索等等，能够实现不同语种之间的无障碍交流。

通常，机器翻译技术采用编码器-解码器的模型结构；以非自回归机器翻译模型为例，非自回归机器翻译模型中编码器包括n个编码层，每一层包括一个自注意力模块（Self-Attention Module）和一个前馈神经网络模块（Feedforward Neural Network Module）；解码器包括m个解码层，每一层包括一个自注意力模块、一个源端注意力模块（SourceAttention Module）、一个位置注意力模块（Positional Attention Module）和一个前馈神经网络模块。对源端句子的翻译过程中，非自回归机器翻译模型将源端句子作为编码器的输入，对源端句子编码输出一个中间表示；该中间表示作为解码器的输入，将中间表示解码为目标端句子，其中，源端句子是第一语言类句子，目标端句子是第二语言类句子。比如，第一语言可以是汉语，第二语言可以是英语，那么，上述翻译过程为将中文句子翻译为英文句子的过程。

上述非自回归机器翻译模型通过位置注意力模块，对句子中每个位置的词语的概率分布进行独立建模，实现并行计算，增加了解码速度，也就是说，增加了句子的翻译速度；但是，上述非自回归机器翻译模型中翻译词语的生成和评价均为独立的，难以捕捉序列依赖关系，最终导致翻译结果包含很多的错误。

发明内容

本申请实施例提供了一种基于机器翻译模型的翻译方法、装置、设备和存储介质，可用于解决非自回归机器翻译模型中翻译词语的生成和评价均为独立的，难以捕捉序列依赖关系，最终导致翻译结果包含很多的错误的问题。所述技术方案如下：

一方面，本申请实施例提供了一种基于机器翻译模型的翻译方法，该方法包括：

将源端句子的第i个源端词嵌入编码为中间向量；

结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；

将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；

对融合后的中间向量进行解码，得到解码后的词向量；

根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。

另一方面，本申请实施例提供了一种基于机器翻译模型的翻译装置，该装置包括机器翻译模型，机器翻译模型包括编码器和解码器；

编码器，用于将源端句子的第i个源端词嵌入编码为中间向量；

解码器，用于结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；对融合后的中间向量进行解码，得到解码后的词向量；根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。

另一方面，本申请实施例提供了一种计算机设备，计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述基于机器翻译模型的翻译方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述基于机器翻译模型的翻译方法。

另一方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述基于机器翻译模型的翻译方法。

本申请实施例提供的技术方案可以包括如下有益效果：

本申请实施例提供的技术方案中，通过将源端句子的第i个源端词嵌入编码为中间向量；结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；对融合后的中间向量进行解码，得到解码后的词向量；根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。该方法通过在解码过程中增加前一个目标端词嵌入作为输入数据，捕捉单词之间的依赖关系，从而提高目标端句子生成的准确性，减少过翻译、漏翻译等等错误的出现，使生成的目标端句子更通顺。

附图说明

图1是本申请一个实施例提供的机器翻译模型的结构框图；

图2是本申请一个实施例提供的计算机系统的结构示意图；

图3是本申请一个实施例提供的基于机器翻译模型的翻译方法的流程图；

图4是本申请另一个实施例提供的基于机器翻译模型的翻译方法的流程图；

图5是示例性示出了机器翻译模型的翻译准确度曲线的示意图；

图6是本申请一个实施例提供的基于机器翻译模型的翻译装置的框图；

图7是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

对本申请中的若干个名词的解释如下：

自回归特性/非自回归特性：自回归在机器翻译中是指根据前文的翻译结果确定当前词汇翻译结果的方式，也即，第i个时刻的变量的预测结果是通过第i-1，i-2，……，i-k个时刻等前k个时刻的该变量的表现预测得到的，这一特性就是自回归特性。相对的，非自回归是指独立确定每个词汇的翻译结果的方式。

源端句子/目标端句子：在自然语言的翻译过程中，第一语言类的句子被翻译为第二语言类的句子，第一语言类的句子就是源端句子，第二语言类的句子就是目标端句子。示意性的，将中文句子翻译为英文句子，中文句子即为源端句子，英文句子即为目标端句子；比如，机器翻译模型将句子“我必须解决这个问题。”翻译为句子“I must solve theproblem.”，句子“我必须解决这个问题。”是源端句子，句子“I must solve the problem.”是目标端句子。

词嵌入：是将单词在向量空间中表示为实数向量的技术。本申请中词嵌入是指单词映射为的词向量；比如，将“我”进行映射得到词向量（0.1,0.5,5），（0.1,0.5,5）即为词嵌入。

其中，源端词嵌入是指源端句子中单词的词嵌入；目标端词嵌入是指目标端句子中单词的词嵌入。

机器翻译是指利用计算机将一种自然语言转变为另一种自然语言的过程；比如，将中文语句翻译为英文语句。通常，机器翻译模型采用编码器-解码器的模型结构。对源端句子的翻译过程中，机器翻译模型将源端句子作为编码器的输入，对源端句子编码输出一个中间表示；该中间表示作为解码器的输入，将中间表示解码为目标端句子。

本申请实施例提出了一种机器翻译模型，该机器翻译模型对目标端句子中的每个单词的生成独立建模，并在对编码后的中间向量的解码过程中融入序列信息；使该机器翻译模型在对原文的翻译过程中，能够有较高的解码速度，从而实现快速翻译，同时能够保证译文的准确性。因此，该机器翻译模型结合了自回归机器翻译模型（AutoregressiveNeural Machine Translation）和非自回归机器翻译模型（Non-Autoregressive NeuralMachine Translation）的优势，使该机器翻译模型能够达到自回归机器翻译模型的翻译质量，并达到非自回归机器翻译模型的翻译速度。

与单一的非自回归机器翻译模型相比，单一的非自回归翻译模型具有词级别的损失函数是不准确的，使得非自回归机器翻译模型很难捕捉到目标端句子中单词间的序列依赖关系的问题，因此，通过单一的非自回归翻译模型生成的目标端句子往往不通顺，并包含很多过翻译、漏翻译的错误。

本申请实施例提供的机器翻译模型能够通过在解码过程中融入序列信息，解决单一的非自回归机器翻译模型中难以捕捉目标端句子中的单词间的序列依赖关系的问题，以及通过单一的非自回归机器翻译模型生成的目标端句子不通顺、且包含过翻译、漏翻译的问题。

请参考图1，其示出了本申请一个实施例提供的机器翻译模型的结构示意图；该机器翻译模型包括编码器120和解码器140；

编码器120包括m个串联的编码层122；m个串联的编码层122用于将源端句子的第i个源端词嵌入编码为中间向量。

其中，编码器120中m个编码层122串联，也就是说，相邻的两个编码层122中前一个编码层122的输出数据是后一个编码层124的输入数据。

解码器140包括m-1个并联的解码器底层142、融合层144、1个解码器顶层146和输出层148；解码器底层、融合层、解码器顶层和输出层顺序串联；m个串联的编码层与每一个解码器底层串联，且与解码器顶层串联；

解码器底层142，用于结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；

融合层144，用于将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；

解码器顶层146，用于对融合后的中间向量进行解码，得到解码后的词向量；

输出层148，用于根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。

在一些实施例中，融合层144包括激活函数。

可选地，激活函数包括S型生长曲线（Sigmoid function，Sigmoid函数）、双曲正切（Tanh）函数、线性整流函数（Rectified Linear Unit，ReLU）、带泄露线性整流函数（LeakyReLU）、参数线性整流函数（Parametric ReLU，PReLU）、带泄露随机线性整流函数（Randomized Leaky ReLU，RReLU）、噪声线性整流函数（Noisy ReLU）和Maxout函数中的任意一种。

融合层144，用于通过激活函数将解码后的中间向量与第i-1个目标端词嵌入的和向量进行非线性变化，得到融合后的中间向量。

在一些实施例中，当激活函数为ReLU时，融合层144，用于通过ReLU将解码后的中间向量与第i-1个目标端词嵌入的和向量进行非线性变换，得到融合后的中间向量。

示意性的，融合层144的融合过程可以通过以下表达式来表示：

H_t=ReLU（WH_t’+UY_t）；

其中，W、U为两个线性变化的矩阵；H_t’为解码器底层142的输出H’在位置t的解码后的中间向量，即第t个源端词嵌入对应的解码后的中间向量；在机器翻译模型的训练过程中，Y_t是参考译文中的第t-1个目标端词嵌入，在机器翻译模型的测试过程中，Y_t是目标端句子的预测结果中的第t-1个目标端词嵌入，t为正整数。

在一些实施例中，融合层144，还用于当解码后的中间向量的第一向量长度小于第i-1个目标端词嵌入的第二向量长度时，将解码后的中间向量的第一向量长度增加至第二向量长度。

可选地，融合层144，还用于当第一向量长度小于第二向量长度时，通过零向量将解码后的中间向量的第一向量长度增加至第二向量长度。

比如，解码后的中间向量为（0.2,0.5,0.1），第一向量长度为3；第二词嵌入为（0.1,0.5,0.6,0.2,0.3），第二向量长度为5；在解码后的中间向量中增加零向量为（0.2,0.5,0.1,0,0），则解码后的中间向量的第一向量长度增加至5。

在一些实施例中，融合层144，还用于当第一向量长度大于第二向量长度时，将第i-1个目标端词嵌入的第二向量长度增加至第一向量长度。

可选地，融合层144，还用于当第一向量长度大于第二向量长度时，通过零向量将第i-1个目标端词嵌入的第二向量长度增加至第一向量长度。

在一些实施例中，解码器底层142包括自注意力模块11、位置注意力模块12、源端注意力模块13和前馈神经网络模块14。

可选地，解码器底层142，用于通过位置注意力模块12对解码后的中间向量进行位置信息的标记；

融合层144，用于根据位置信息获取第i个源端词嵌入对应的解码后的中间向量和第i-1个目标端词嵌入；对第i个源端词嵌入对应的解码后的中间向量和第i-1个目标端词嵌入进行融合，得到融合后的中间向量。

示意性的，输入嵌入为第i个源端词嵌入，对第i个源端词嵌入进行位置嵌入，将位置嵌入之后的第i个源端词嵌入输入自注意力模块11，自注意力模块11、位置注意力模块12、源端注意力模块13和前馈神经网络模块14顺序串联，也就是说，自注意力模块11输出数据为位置注意力模块12的输入数据，位置注意力模块12的输出数据为源端注意力模块13的输入数据，源端注意力模块13的输出数据为前馈神经网络模块14的输入数据，前馈神经网络模块14的输出数据为融合层144的输入数据。其中，源端注意力模块13的输入数据还包括解码器120的输出数据，也就是说，源端注意力模块13的输入数据还包括中间向量。

解码器底层142通过位置注意力模块12在对中间向量的解码过程中进行位置信息的标记，使解码后的中间向量包括位置信息。

输出嵌入为第i-1个目标端词嵌入，对第i-1个目标端词嵌入进行位置嵌入，将位置嵌入之后的第i-1个目标端词嵌入输入融合层144；继而融合层144根据位置信息获取第i个源端词嵌入对应的解码后的中间向量和第i-1个目标端词嵌入；对第i个源端词嵌入对应的解码后的中间向量和第i-1个目标端词嵌入进行融合，得到融合后的中间向量。

在一些实施例中，解码器顶层146包括自注意力模块21、源端注意力模块22和前馈神经网络模块23；

自注意力模块21、源端注意力模块22和前馈神经网络模块23顺序串联，也就是说，自注意力模块21的输入数据为融合层144的输出数据，自注意力模块21输出数据为源端注意力模块22的输入数据，源端注意力模块22的输出数据为前馈神经网络模块23的输入数据，前馈神经网络模块23的输出数据为输出层148的输入数据。其中，源端注意力模块22的输入数据还包括解码器120的输出数据，也就是说，源端注意力模块22的输入数据还包括中间向量。

解码器顶层146通过自注意力模块21、源端注意力模块22和前馈神经网络模块23对融合后的中间向量进行串行运算，得到解码后的词向量。

在一些实施例中，输出层148，还用于根据解码后的词向量预测至少一个第i个候选目标端词语的概率分布；将最大概率对应的第i个候选目标端词语确定为第i个目标端词语。

在一些实施例中，输出层148，还用于将得到的至少两个目标端词语进行拼接得到目标端句子；其中，源端句子为第一语言类的句子，目标端句子为第二语言类的句子，第一语言与第二语言是不同的语言类别。

可选地，输出层148为Softmax层。示意性的，解码器顶层146的输出数据作为Softmax层的输入数据；Softmax层包括Softmax函数，通过Softmax函数确定出至少一个候选目标端词语中最大概率对应的候选目标端词语；将至少两个目标端词语根据位置信息进行拼接，得到目标端句子。

在一些实施例中，编码层122包括自注意力模块31和前馈神经网络模块32，自注意力模块31和前馈神经网络模块32串联，也就是说，自注意力模块31的输出数据为前馈神经网络模块32的输入数据，前馈神经网络模块32输出数据即为编码器120的输出数据。其中，自注意力模块31的输入数据为经过位置嵌入后的输入嵌入。

综上所述，本实施例提供的机器翻译模型，通过m-1个并联的解码器底层、融合层、1个解码器顶层和输出层组合成解码器；其中，解码器底层通过m-1个并联的解码器底层实现对目标端句子中单词的并行运算，融合层和解码器顶层实现单词之间的上下文关联，使该机器翻译模型在对目标端句子中每个单词的独立建模，实现并行运算，提高目标端句子的生成速度的同时，还能够兼顾目标端句子的单词之间的依赖关系，提高目标端句子生成的准确性，减少过翻译、漏翻译等错误的出现，使生成的目标端句子更通顺。比如，在同声传译等快速应答的场景中能够在快速翻译的同时，保持较高的翻译质量。

请参考图2，其示出了本申请一个实施例提供的计算机系统的结构示意图，该计算机系统包括终端220和服务器240。

终端220和服务器240通过有线或者无线网络相互连接。

在一些实施例中，终端220中包括麦克风；终端220通过麦克风采集语音内容，并将采集得到的语音内容发送至服务器240。

服务器240中包括语音翻译模块；该语音翻译模块中包括已训练的机器翻译模型；服务器240接收终端220发送的语音内容，通过机器翻译模型对语音内容进行翻译后得到翻译结果，并将翻译结果发送至终端220中进行展示。

或者，终端中包括语音翻译模块；该语音翻译模块中包括已训练的机器翻译模型；终端220采集得到语音内容之后，通过机器翻译模型对语音内容进行翻译后得到翻译结果，并对翻译结果进行展示。

在一些实施例中，终端220中包括文本输入控件；终端220通过文本输入控件获取文本内容，并将获取的文本内容发送至服务器240。

服务器240中包括文本翻译模块，该文本翻译模块中包括已训练的机器翻译模型；服务器240接收终端220发送的文本内容，通过机器翻译模型对文本内容进行翻译后得到翻译结果，并将翻译结果发送至终端220进行展示。

或者，终端220中包括文本翻译模块；该文本翻译模块中包括已训练的机器翻译模型；终端220获取得到文本内容之后，通过机器翻译模型对文本内容进行翻译后得到翻译结果，并对翻译结果进行展示。

在一些实施例中，终端的展示方式包括语音形式或者文字形式。

示意性的，本申请提供的机器翻译模型可以应用于文档资料翻译、文章资讯阅读、外文网站翻译、外语学习查询、口语对话辅助、境外旅欧服务等等应用场景中。对此进行举例说明如下：

机器翻译模型应用于文本翻译软件中，可以将合同、文件、资料、论文、邮件等文档类内容作为输入数据，对输入数据进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果。

机器翻译模型应用于各类网站中来实现翻译辅助功能，比如，在网站中阅读文章时，触发网站中提供的文本翻译功能，获取文章中的文本内容，将上述文本内容作为输入数据，对输入数据进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果。

或者，在浏览外文网站时，触发外文网站的翻译功能，获取网页中的文本内容，将上述文本内容作为输入数据，对输入数据进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果；能够实现对网站的翻译。

机器翻译模型应用于电子词典中，当在电子词典中输入句子时，电子词典首先对句子进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果。

机器翻译模型应用于实时翻译工具中，比如，该实时翻译工具为翻译机，翻译机通过麦克风获取音频，对音频进行处理得到源端句子，并对源端句子进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果，并对翻译结果进行显示，或者，将翻译结果转换为语音，通过扬声器进行播放。该翻译工具在跨国会议场景中、在境外旅游时，能够实现快速应答。

机器翻译模型应用于即时通信程序中，当用户通过即时通信程序语音/视频时，终端获取音频，对音频进行处理得到源端句子，并对源端句子进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果，并对翻译结果进行显示，或者，将翻译结果转换为语音，通过扬声器进行播放。

机器翻译模型应用于视频播放程序中，当终端中播放视频时，终端采集音频对音频进行处理得到源端句子，并对源端句子进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果，并对翻译结果进行显示，或者，将翻译结果转换为语音，通过扬声器进行播放。

或者，终端提取字幕，对字幕的文字内容作为输入数据，对输入数据进行词嵌入处理；其次，通过机器翻译模型中的编码器对源端句子的第i个源端词嵌入进行编码，得到中间向量；机器翻译模型中的解码器结合第i个源端词嵌入和第i-1个目标端词嵌入，对中间向量进行解码；最终，得到对第i个目标端词语的预测结果，即翻译结果。

请参考图3，其示出了本申请一个实施例提供的机器翻译方法的流程图。以该方法应用于图2所示的计算机系统中为例进行说明，该方法包括：

步骤301，计算机设备将第i个源端词嵌入编码为中间向量。

可选地，计算机设备包括终端或者服务器。计算机设备中包括机器翻译模型；机器翻译模型将第i个源端词嵌入编码为中间向量之前，需要对源端句子进行预处理，即将源端句子中的每个单词映射为词向量，即源端词嵌入。

可选地，词嵌入的方法包括以下几种的至少一种：

通过神经网络模型进行词嵌入；

通过对词语同现矩阵降维进行词嵌入；

通过概率模型进行词嵌入；

通过单词所在上下文的语义对单词进行词嵌入。

比如，通过独热编码（One-Hot Encoding）对源端句子中的单词进行表示，继而通过嵌入矩阵进行词嵌入。

可选地，机器翻译模型通过m个串联的编码层将第i个源端词嵌入编码为中间向量。

可选地，上述预处理还包括对源端词嵌入的位置嵌入，机器翻译模型通过m个串联的编码层将经过位置嵌入后的第i个源端词嵌入编码为中间向量，i为正整数，m为大于1的正整数。

步骤302，计算机设备结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量。

可选地，机器翻译模型包括解码器；解码器包括m-1个并联的解码器底层、融合层和1个解码器顶层。

机器翻译模型将第i个源端词嵌入和中间向量作为输入数据，通过m-1个并联的解码器底层对中间向量解码得到解码后的中间向量。

步骤303，计算机设备将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量。

第i-1个目标端词嵌入是第i-1个目标端词语进行词嵌入得到的词向量，第i-1个目标端词语是第i-1个源端词语通过机器翻译模型翻译得到的。

可选地，计算机设备通过融合层将解码后的中间向量与第i-1个目标端词嵌入融合，得到融合后的中间向量。

可选地，融合层包括激活函数；机器翻译模型通过融合层中的激活函数将解码后的中间向量与第i-1个目标端词嵌入的和向量进行非线性变化，得到融合后的中间向量。

可选地，机器翻译模型获得融合后的中间向量的过程可以包括以下步骤：

1）对解码后的中间向量进行位置信息的标记。

可选地，每一个解码器底层包括一个位置注意力模块；解码器通过上述位置注意力模块在对中间向量的解码过程中进行位置信息的标记，得到包括位置信息的解码后的中间向量。

2）根据位置信息获取第i个解码后的中间向量和第i-1个目标端词嵌入。

其中，第i个解码后的中间向量是与第i个源端词嵌入对应的解码后的中间向量，第i-1个目标端词嵌入是指第i-1个源端词嵌入对应的预测结果的词嵌入。

3）对第i个解码后的中间向量和第i-1个目标端词嵌入进行融合，得到融合后的中间向量。

步骤304，计算机设备对融合后的中间向量进行解码，得到解码后的词向量。

可选地，机器翻译模型通过解码器顶层对融合后的中间向量进行解码，得到解码后的词向量。

步骤305，计算机设备根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果。

可选地，机器翻译模型将解码后的词向量作为输入数据，通过输出层对第i个目标端词语进行概率预测，并输出预测结果。

可选地，输出层包括Softmax函数；机器翻译模型将解码后的词向量作为输入数据，通过输出层的Softmax函数对第i个目标端词语的概率进行预测，并输出预测结果。

综上所述，本申请提供的机器翻译方法，通过将源端句子的第i个源端词嵌入编码为中间向量；结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；对融合后的中间向量进行解码，得到解码后的词向量；根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。该方法通过在解码过程中增加前一个目标端词嵌入作为输入数据，捕捉单词之间的依赖关系，从而提高目标端句子生成的准确性，减少过翻译、漏翻译等等错误的出现，使生成的目标端句子更通顺。

该方法中，计算机设备还通过m-1个并联的解码器底层对中间向量进行解码，对目标端句子中单词生成的独立建模，实现并行运算，在保证目标端句子生成的准确性的同时，还提高了目标端句子的生成速度。比如，在同声传译等快速应答的场景中能够在快速翻译的同时，保持较高的翻译质量。

还需要说明的是，在对解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合之前，若解码后的中间向量的第一向量长度小于第i-1个目标端词嵌入的第二向量长度，机器翻译模型还通过融合层将解码后的中间向量的第一向量长度增加至第二向量长度。

可选地，融合层通过零向量将解码后的中间向量的第一向量长度增加至第二向量长度。

若上述第一向量长度大于上述第二向量长度，机器翻译模型通过融合层将第i-1个目标端词嵌入的第二向量长度增加至第一向量长度。

可选地，融合层通过零向量将第i-1个目标端词嵌入的第二向量长度增加至第一向量长度。

比如，解码后的中间向量为（0.2,0.5,0.1），第一向量长度为3；第i-1个目标端词嵌入为（0.1,0.5,0.6,0.2,0.3），第二向量长度为5；在解码后的中间向量中增加零向量为（0.2,0.5,0.1,0,0），则解码后的中间向量的第一向量长度增加至5。

机器翻译模型可以将源端语句翻译为目标端语句，基于图3，步骤305替换为步骤3051至步骤3053，即为目标端语句的生成过程，如图4，示意性步骤如下：

步骤3051，计算机设备根据解码后的词向量预测至少一个第i个候选目标端词语的概率分布。

可选地，解码后的词向量对应r个目标候选词语，机器翻译模型通过Softmax函数预测得出r个目标候选词语的概率分布。

步骤3052，计算机设备将最大概率对应的第i个候选目标端词语确定为第i个目标端词语。

机器翻译模型通过Softmax函数确定出最大概率对应的目标端词语。

步骤3053，计算机设备将至少两个目标端词语进行拼接，得到目标端句子。

可选地，目标端词语中包括位置信息；机器翻译模型通过位置信息将至少两个词语进行顺序拼接，得到源端句子对应的目标端句子。

其中，源端句子为第一语言类的句子，目标端句子为第二语言类的句子，第一语言与第二语言是不同的语言类别。也就是说，目标端句子是由源端句子翻译得到的。

示意性的，表一给出了一个德到英的翻译示例，翻译准确度按照NAT-Base、FS-decoder、AR-Base的顺序上升，其中，NAT-Base与其它机器翻译模型的性能差距较大。

表一

其中，NAT-Base为非自回归模型的翻译结果，FS-decoder为本方案模型的翻译结果。可以看到，非自回归模型的译文中有严重的过翻译、漏翻译错误，如连续的4个“more”、“not not only only”等，并漏翻了“tragic”、“produce”等词。在本申请提供的技术方案的译文中，过翻译和漏翻译的错误基本都已被消除，翻译准确度得到了提高。

其次，在对机器翻译模型进行测试的过程中，测试句子长度对机器翻译模型的性能的影响，如图5所示，当句子长度超过40时，NAT模型的翻译准确度下降，而其他机器翻译模型的翻译准确度良好。这表明了NAT模型在长句翻译方面的不足，而本申请的技术方案通过利用顺序信息有效的提高了NAT模型在长句翻译方面的性能。其中，AR-Base表示自回归模型，NAT-Base表示非自回归模型（NAT模型），Reinforce-NAT表示改进的非自回归模型，FS-decoder表示本申请提供的机器翻译模型。

请参考图6，其示出了本申请一个实施例提供的机器翻译装置的框图，该装置可以通过硬件、软件或者二者的结合实现成为计算机设备的部分或者全部；该装置中包括机器翻译模型，机器翻译模型包括编码器401和解码器402；

编码器401，用于将源端句子的第i个源端词嵌入编码为中间向量；

解码器402，用于结合第i个源端词嵌入，对中间向量进行解码，得到解码后的中间向量；将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；对融合后的中间向量进行解码，得到解码后的词向量；根据解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。

在一些实施例中，解码器402包括m-1个并联的解码器底层4021、融合层4022和1个解码器顶层4023；解码器底层4021、融合层4022和解码器顶层4023顺序串联；

m-1个并联的解码器底层4021，用于将第i个源端词嵌入和中间向量作为输入数据，对中间向量解码得到解码后的中间向量；

融合层4022，用于将解码后的中间向量与第i-1个目标端词嵌入融合，得到融合后的中间向量；

解码器顶层4023，用于对融合后的中间向量进行解码，得到解码后的词向量，m为正整数。

在一些实施例中，融合层4022包括激活函数；

融合层4022，用于通过激活函数将解码后的中间向量与第i-1个目标端词嵌入的和向量进行非线性变化，得到融合后的中间向量。

在一些实施例中，融合层4022，还用于当解码后的中间向量的第一向量长度小于第i-1个目标端词嵌入的第二向量长度时，将解码后的中间向量的第一向量长度增加至第二向量长度。

在一些实施例中，机器翻译模型还包括编码器401；编码器401包括m个串联的编码层4011；m个串联的编码层4011与每一个解码器底层4021串联，且与解码器顶层4023串联；

m个串联的编码层4011，用于将源端词嵌入编码为中间向量。

在一些实施例中，解码器402还包括与解码器顶层4023串联的输出层4024；

输出层4024，用于根据解码后的词向量第i个目标端词语进行概率预测，并输出预测结果。

综上所述，本申请提供的机器翻译装置，通过编码层将源端句子的第i个源端词嵌入编码为中间向量；通过解码器底层以第i个源端词嵌入和中间向量作为输入数据，对中间向量解码得到解码后的中间向量；通过融合层将解码后的中间向量与目标端句子的第i-1个目标端词嵌入融合，得到融合后的中间向量；通过解码器顶层对融合后的中间向量进行解码，得到解码后的词向量；以解码后的词向量作为输入数据，通过输出层对第i个目标端词语进行概率预测，输出预测结果。该装置通过融合层在解码过程中增加前一个目标端词嵌入作为输入数据，捕捉单词之间的依赖关系，从而提高目标端句子生成的准确性，减少过翻译、漏翻译等等错误的出现，使生成的目标端句子更通顺。

该装置还通过m-1个并联的解码器底层对中间向量进行解码，对目标端句子中单词生成的独立建模，实现并行运算，在保证目标端句子生成的准确性的同时，还提高了目标端句子的生成速度。比如，在同声传译等快速应答的场景中能够在快速翻译的同时，保持较高的翻译质量。

请参考图7，其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据处理和存储功能的电子设备，如PC或服务器。该计算机设备用于实施上述实施例中提供的基于机器翻译模型的翻译方法。具体来讲：

所述计算机设备500包括中央处理单元（CPU）501、包括随机存取存储器（RAM）502和只读存储器（ROM）503的系统存储器504，以及连接系统存储器504和中央处理单元501的系统总线505。所述计算机设备500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统（I/O系统）506，和用于存储操作系统513、应用程序514和其他程序模块512的大容量存储设备507。

所述基本输入/输出系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中所述显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到中央处理单元501。所述基本输入/输出系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备507通过连接到系统总线505的大容量存储控制器（未示出）连接到中央处理单元501。所述大容量存储设备507及其相关联的计算机可读介质为计算机设备500提供非易失性存储。也就是说，所述大容量存储设备507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质（未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。

根据本申请的各种实施例，所述计算机设备500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备500可以通过连接在所述系统总线505上的网络接口单元511连接到网络512，或者说，也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统（未示出）。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述基于机器翻译模型的翻译方法。

在示例性实施例中，还提供了一种计算机设备。该计算机设备可以是终端或计算机设备。所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述基于机器翻译模型的翻译方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时实现上述基于机器翻译模型的翻译方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被处理器执行时，其用于实现上述实施例提供的基于机器翻译模型的翻译方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器翻译模型的翻译方法，其特征在于，所述方法包括：

将源端句子的第i个源端词嵌入编码为中间向量；

所述机器翻译模型包括解码器，所述解码器包括m-1个并联的解码器底层、融合层和1个解码器顶层，所述解码器底层、所述融合层和所述解码器顶层顺序串联，所述融合层包括激活函数，m为正整数；将所述第i个源端词嵌入和所述中间向量作为输入数据，通过所述m-1个并联的解码器底层对所述中间向量解码得到解码后的中间向量；通过所述融合层中的激活函数将所述解码后的中间向量与目标端句子的第i-1个目标端词嵌入的和向量进行非线性变化，得到融合后的中间向量；通过所述解码器顶层对所述融合后的中间向量进行解码，得到解码后的词向量；

根据所述解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。

2.根据权利要求1所述的方法，其特征在于，所述通过所述融合层中的激活函数将所述解码后的中间向量与目标端句子的第i-1个目标端词嵌入的和向量进行非线性变化，得到融合后的中间向量之前，包括：

当所述解码后的中间向量的第一向量长度小于所述第i-1个目标端词嵌入的第二向量长度时，通过所述融合层将所述解码后的中间向量的所述第一向量长度增加至所述第二向量长度。

3.根据权利要求1所述的方法，其特征在于，所述机器翻译模型还包括编码器；所述编码器包括m个串联的编码层；所述m个串联的编码层与每一个所述解码器底层串联，且与所述解码器顶层串联；

所述将源端句子的第i个源端词嵌入编码为中间向量，包括：

通过所述m个串联的编码层将所述第i个源端词嵌入编码为所述中间向量。

4.根据权利要求1所述的方法，其特征在于，所述解码器还包括与所述解码器顶层串联的输出层；

所述根据所述解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，包括：

将所述解码后的词向量作为输入数据，通过所述输出层对第i个目标端词语进行概率预测，输出所述预测结果。

5.一种基于机器翻译模型的翻译装置，其特征在于，所述装置中包括机器翻译模型，所述机器翻译模型包括编码器和解码器；

所述编码器，用于将源端句子的第i个源端词嵌入编码为中间向量；

所述解码器，包括：m-1个并联的解码器底层、融合层和1个解码器顶层，所述解码器底层、所述融合层和所述解码器顶层顺序串联，所述融合层包括激活函数，m为正整数；所述m-1个并联的解码器底层，用于将所述第i个源端词嵌入和所述中间向量作为输入数据，对所述中间向量解码得到解码后的中间向量；所述融合层，用于通过所述激活函数将所述解码后的中间向量与目标端句子的第i-1个目标端词嵌入的和向量进行非线性变化，得到融合后的中间向量；所述解码器顶层，用于对所述融合后的中间向量进行解码，得到解码后的词向量；

所述解码器，还用于根据所述解码后的词向量对第i个目标端词语进行概率预测，输出预测结果，i为正整数。

6.根据权利要求5所述的装置，其特征在于，

所述融合层，还用于当所述解码后的中间向量的第一向量长度小于所述第i-1个目标端词嵌入的第二向量长度时，将所述解码后的中间向量的所述第一向量长度增加至所述第二向量长度。

7.根据权利要求5所述的装置，其特征在于，所述编码器包括m个串联的编码层；所述m个串联的编码层与每一个所述解码器底层串联，且与所述解码器顶层串联；

所述m个串联的编码层，用于将所述第i个源端词嵌入编码为所述中间向量。

8.根据权利要求5所述的装置，其特征在于，所述解码器还包括与所述解码器顶层串联的输出层；

所述输出层，用于根据所述解码后的词向量第i个目标端词语进行概率预测，输出所述预测结果。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至4任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至4任一所述的方法。