CN110472255A

CN110472255A - 神经网络机器翻译方法、模型、电子终端以及存储介质

Info

Publication number: CN110472255A
Application number: CN201910770197.XA
Authority: CN
Inventors: 王龙跃; 王永; 史树明; 涂兆鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-19
Anticipated expiration: 2039-08-20
Also published as: CN110472255B

Abstract

本申请提供了一种神经网络机器翻译方法、模型、电子终端以及存储介质，神经网络机器翻译模型中包括编码器、领域变换网络模型以及解码器，编码器将源端句子编码生成共享表示，并将所述共享表示输入至所述领域变换网络模型；领域变换网络模型将共享表示进行变换生成领域特定表示，并将领域特定表示输入至解码器；解码器根据领域特定表示，生成目标端句子。上述方案中在传统的神经网络机器翻译模型的基础上增加了领域变换网络模型，通过领域变换模型能够对编码器输出的共享的表示进行变换，形成领域的特定的表示，使得神经网络机器翻译模型在处理多领域的文本时有较高的性能。

Description

神经网络机器翻译方法、模型、电子终端以及存储介质

技术领域

本申请涉及机器学习技术领域，更具体的说，是涉及一种神经网络机器翻译方法、模型、电子终端以及存储介质。

背景技术

MT(Machine Translation，机器翻译)，又称为自动翻译，是利用计算机把一种自然源语言转变为另一种自然目标语言的过程，一般指自然语言之间句子和全文的翻译。NMT(Neural Machine Translation，神经网络机器翻译)是最新一代的，基于神经网络实现的机器翻译技术。

目前常用的NMT模型采用编码器-解码器的框架。从信息的传递角度讲，NMT模型将源端的文本进行信息的抽取，编码成一个连续的向量空间，然后利用解码器对这个载有源端句子信息的向量进行解码成目标端的文本。

在NMT模型的实际应用中，由于使用人群的多样性，往往需要NMT模型能够处理多领域(Multi-Domain)的文本，多领域的文本有些信息是各领域间共享的，有些信息是各自领域独有的。但是，目前常用的NMT模型在训练时由于忽视了多领域的文本中各自领域独有的信息，导致其在处理多领域的文本时，性能较差。

发明内容

有鉴于此，本申请提供了一种神经网络机器翻译方法、模型、电子终端以及存储介质，以在处理多领域的文本时，提高机器翻译模型的性能。

为实现上述目的，一方面，本申请提供了一种神经网络机器翻译方法，应用于神经网络机器翻译模型，所述神经网络机器翻译模型中包括编码器、领域变换网络模型以及解码器，所述方法包括：

获取待翻译的源端句子；

将所述源端句子输入至所述编码器；

所述编码器将源端句子编码生成共享表示，并将所述共享表示输入至所述领域变换网络模型；

所述领域变换网络模型将所述共享表示进行变换生成领域特定表示，并将所述领域特定表示输入至所述解码器；

所述解码器根据所述领域特定表示，生成目标端句子。

又一方面，本申请还提供了一种神经网络机器翻译模型，包括：

编码器、领域变换网络模型以及解码器；

所述编码器，用于获取待翻译的源端句子，将所述源端句子编码生成共享表示，并将所述共享表示输入至所述领域变换网络模型；

所述领域变换网络模型，用于将所述共享表示进行变换生成领域特定表示，并将所述领域特定表示输入至所述解码器；

所述解码器，用于根据所述领域特定表示，生成目标端句子。

又一方面，本申请还提供了一种电子终端，包括：

处理器和存储器；所述处理器包括编码器、领域变换网络模型以及解码器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取待翻译的源端句子；

将所述源端句子输入至所述编码器；

所述解码器根据所述领域特定表示，生成目标端句子。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上所述的神经网络机器翻译方法。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种神经网络机器翻译方法、模型、电子终端以及存储介质，神经网络机器翻译模型中包括编码器、领域变换网络模型以及解码器，编码器将源端句子编码生成共享表示，并将所述共享表示输入至所述领域变换网络模型；领域变换网络模型将共享表示进行变换生成领域特定表示，并将领域特定表示输入至解码器；解码器根据领域特定表示，生成目标端句子。上述方案中在传统的神经网络机器翻译模型的基础上增加了领域变换网络模型，通过领域变换模型能够对编码器输出的共享的表示进行变换，形成领域的特定的表示，使得神经网络机器翻译模型在处理多领域的文本时有较高的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种神经网络机器翻译模型的架构示意图；

图2为本申请实施例提供的一种神经网络机器翻译模型训练系统的架构示意图；

图3为本申请实施例公开的一种神经网络机器翻译方法的流程示意图；

图4为本申请实施例提供的一种领域变换网络的训练方法的流程示意图；

图5为本申请实施例公开的一种神经网络机器翻译方法的翻译效果对比示意图；

图6为本申请实施例公开的又一种神经网络机器翻译方法的翻译效果对比示意图；

图7为本申请实施例公开的又一种神经网络机器翻译方法的翻译效果对比示意图；

图8为本申请实施例公开的一种电子终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人发现，采用如下方式训练的NMT模型能够在一定程度上提升其在处理多领域的文本时的性能。

方式一：先在所有领域的数据上进行训练，然后分别在每个领域进行调整(fine-tune)。

方式二：使用一个域标记(domain tag)去标识一个领域(domain)的句子，域标记采用词嵌入(embedding)的方式嵌入到输入的词向量中。

方式三：采用领域判别同时嵌入共享的和领域特定的标识，然后将两者信息送到解码端进行解码。

方式四：使用一个编码器去抽取共享的信息，每个领域使用各自的编码器去抽取领域的特有的信息，然后使用解码器利用这两种信息进行解码。

但是，上述几种方式至少存在如下问题：

采用方式一针对每个领域都会训练生成一个NMT模型，而采用方式四会导致训练的NMT模型参数过大，这两种方式产生的NMT模型的规模会随着领域数量线性增长，不利于实际的部署。方式二以及方式四会导致训练过程中各领域间共享的信息和各自领域独有的信息之间的交互不充分，使得训练好的NMT模型处理多领域的文本的性能依然较差。

针对这个问题，发明人研究了一种NMT模型，该NMT模型的规模既没有明显增加，能够大规模地对NMT模型进行部署，又在训练过程中充分考虑了各领域间共享的信息和各自领域独有的信息之间的交互，保证了训练好的NMT模型处理多领域的文本的性能相对于目前常用的NMT模型来说达到了最优。

请参阅附图1，图1为本申请实施例提供的一种神经网络机器翻译(NMT)模型的架构示意图。如图1所示，该神经网络机器翻译模型100包括：

编码器101、领域变换网络(Domain Transformation Networks)模型102以及解码器103。

需要说明的是，编码器和解码器的具体结构在本实施例中不进行限定，理论上来说，编码器和解码器可以采用目前成熟的任一编码器-解码器模型实现，示例如，编码器可以采用双向RNN(Recurrent Neural Network，循环神经网络)，比如双向LSTM(Long Short-Term Memory，长短期记忆网络)实现，解码器可以采用单向RNN，比如单向LSTM实现。

与传统的机器翻译模型不同的是，本申请中的机器翻译模型中增加了领域变换网络模型，领域变换模型是以多领域的语料作为训练样本、基于残差网络和多头注意力训练机制训练而成，用于对编码器输出的共享的表示进行变换，形成领域的特定的表示。

在应用图1所示的神经网络机器翻译模型对源端句子x进行翻译时，需要将源端句子x输入至编码器，编码器将源端句子x编码生成共享的表示H，共享的表示H经过领域变换网络模型生成领域的特定的表示H’并输入至解码器中，生成目标序列y。比如，源端句子x是法语句子，目标序列y是相应的英语翻译。

在图1所示的神经网络机器翻译模型的基础上，本申请实施例还提供了一种神经网络机器翻译模型训练系统，请参阅附图2，图2为本申请实施例提供的一种神经网络机器翻译模型训练系统的架构示意图。如图2所示，该神经网络机器翻译模型训练系统200包括：

神经网络机器翻译模型201、领域判别模型202以及领域蒸馏模型203，其中，神经网络机器翻译模型201的结构与图1所示的结构相同，领域判别模型中包括对抗领域判别器2021以及领域判别器2022，对抗领域判别器2021被增加到领域判别网络模型的输入，领域判别器2022被增加到领域判别网络模型的输出。图1所示的神经网络机器翻译模型是基于图2所示的神经网络机器翻译模型训练系统训练而得。

在图1图2的基础上，本申请实施例还公开了一种机器神经网络机器翻译方法，该方法应用于图1所示的神经网络机器翻译模型。

请参阅附图3，图3为本申请实施例公开的一种神经网络机器翻译方法的流程示意图，该方法包括：

S301：获取待翻译的源端句子。

在本申请实施例中，待翻译的源端句子可以为任意领域的句子。示例如，源端句子可用x表示，x＝x₁，...，x_I，其中，x₁表示句子x中的第1个单词，x_I表示句子x中的第I个单词。

S302：将上述源端句子输入至上述编码器。

在本申请实施例中，在获取待翻译的源端句子之后，可将源端句子输入至编码器。将源端句子输入至编码器之后，即启动神经网络机器翻译流程。

S303：上述编码器将源端句子编码生成共享表示，并将上述共享表示输入至上述领域变换网络模型。

在本申请实施例中，神经网络机器翻译流程的第一步，编码器先将源端句子编码生成共享表示，并将上述共享表示输入至领域变换网络模型。共享表示与领域特定信息无关。

S304：上述领域变换网络模型将上述共享表示进行变换生成领域特定表示，并将上述领域特定表示输入至上述解码器。

作为神经网络机器翻译流程的第二步，领域变换网络模型将上述共享表示进行变换生成领域特定表示。领域特定标识和共享表示的差异是微小的，如果采用直接的函数映射，会造成领域变换网络模型参数学习的低效性，因此，在本实施例中，领域变换网络模型使用了残差网络生成领域特定表示，示例如，共享表示为H、领域特定表示为H’，则其中，W_n是对应于第n个领域的参数，F(·)是一个可以使用任何神经网络实现的函数映射。使用残差网络，能够高效地进行微小差异的变换的学习。F(·)可以是采用多头注意力训练机制的神经网络。

S305：上述解码器根据上述领域特定表示，生成目标端句子。

本实施例中，作为神经网络机器翻译流程的最后一步，上述解码器根据上述领域特定表示，生成目标端句子。示例如，目标端句子可用y表示，y＝y₁，...，y_J，其中，y₁表示句子y中的第1个单词，y_J表示句子y中的第J个单词。

本实施例提供了一种神经网络机器翻译方法，应用于神经网络机器翻译模型，编码器将源端句子编码生成共享表示，并将所述共享表示输入至所述领域变换网络模型；领域变换网络模型将共享表示进行变换生成领域特定表示，并将领域特定表示输入至解码器；解码器根据领域特定表示，生成目标端句子。上述方案中在传统的神经网络机器翻译模型的基础上增加了领域变换网络模型，通过领域变换模型能够对编码器输出的共享的表示进行变换，形成领域的特定的表示，使得神经网络机器翻译模型在处理多领域的文本时有较高的性能。

另外，本申请实施例还提供了一种领域变换网络的训练方法，请参阅附图4，图4为本申请实施例提供的一种领域变换网络的训练方法的流程示意图，该方法包括如下步骤：

S401：从上述多个领域的训练集中确定各个批次的训练样本，每个批次的训练样本数量为一个领域的训练集的批量数；

本实施例中，根据多项式分布从上述多个领域的训练集中进行采样，确定各个批次的训练样本，其中，上述多项式分布为：

{q_i)i＝1，...，N；

其中，

p_i是第i个领域的训练集的批量数占所有领域的批量数的比例；q_i是对p_i进行平滑后的比例，用于增大过小的p_i；N是领域的数量，n_i是第i个领域的训练集的批量数，α＝0.7是平衡系数。

S402：确定上述神经网络机器翻译模型的训练目标；

本实施例中，在一种可实施方式中，可将与目标批次的训练样本对应的领域教师模型产生的软目标分布和该批次中每个训练样本的目标句子的硬分布进行线性插值，生成上述神经网络机器翻译模型的训练目标；

生成的上述神经网络机器翻译模型的训练目标为：

其中，是每个训练样本的目标句子的硬分布，用于表示输入为x、输出为y的概率，训练样本中包括源端句子x＝x₁，...，x_I以及目标端句子y＝y₁，...，y_J；D表示的是所有的训练集，上述θ为上述领域变换网络模型的参数；

λ和β均为常数，且λ+β＝1；

是教师模型产生的软目标分布；

|V|是目标语言的字典的词的数目；

表示输入为x、输出为y的交叉熵目标函数以及领域教师模型作为监督的交叉熵目标函数的线性组合。

在另一种可实施方式中，生成的上述神经网络机器翻译模型的训练目标为：

其中，是对抗领域判别器被增加到领域变换网络模型的输入中之后的训练目标；d是领域的标识，是softmax分类器的权值，是编码器输出的带权值的共享表示，α通过使用可训练的查询向量利用全局的注意力机制得到；H_i是编码器输出的原始的共享表示；

是领域判别器被增加到领域判别网络模型的输出中之后的训练目标；

d是领域的标识，是softmax分类器的权值，是领域神经网络模型输出的带权值的领域特定表示；

δ是平衡系数，H(·)是对抗领域分类器的N个领域标签的概率分布的熵；

{θ，γ}和ψ为上述领域变换网络模型的参数。

S403：基于上述训练目标对每个批次的训练样本进行训练生成上述领域变换网络模型。

在本实施例中，基于上述训练目标对每个批次的训练样本进行训练生成上述领域变换网络模型即基于上述训练目标对每个批次的训练样本进行训练的过程中对上述领域变换网络模型的参数进行优化，获取最优的领域变换网络模型的参数；基于上述最优的领域变换网络模型的参数组成的领域变换网络模型为训练好的领域变换网络模型。

由上述实施例可以看出，本申请中的神经网络机器翻译模型中包括领域变换网络(Domain Transformation Networks)，对编码器出来的共享的表示进行变换，形成领域的特定的表示，然后利用解码器进行解码。另外，在对领域变换网络训练过程中采用两个监督信号去累积的鼓励两种表示的变换，从而让领域变换网络的功能得到最大的开发。在领域变换网络的训练中，由于引入了每个领域各自的参数集，因此我们采用domain-aware的批学习方法，具体的做法是在训练的时候，每一个批次的训练样本随机的来自同一个领域。对于监督信号，首先使用已经fine-tune好的每个领域的教师模型对我们的模型进行表示蒸馏，具体做法是使用每个领域已经训练好的模型输出来的目标端的概率分布对模型进行词级的监督，然后为了区别共享表示和各自领域特定表示，使用领域判别和领域对抗技术对模型的中间表示进行监督。因此，本申请在只有少量模型参数的增加的情况下，相对于目前存在的神经网络机器翻译系统，性能得到了大幅度的提升，能够进行大规模的部署。

采用本申请的神经网络机器翻译模型以及传统的神经网络机器翻译模型对四个领域的文本进行机器翻译的翻译效果比较如图5所示，其中，“#模型”指对应的方法需要的模型的数量。“+Domain Context”指采用方式三训练的神经网络机器翻译模型，“+DomainTransformation”指的是使用了领域变换网络的结果，“+Domain Supervision”指使用了领域监督的结果。

图6示出了本申请的神经网络机器翻译模型以及传统的神经网络机器翻译模型对“Laws Trans”、“Oral Trans”、“Thesis Trans”以及“News Trans”四个领域的翻译性能的比较示意图。

图7示出了本申请的神经网络机器翻译模型以及传统的神经网络机器翻译模型对“Thesis Trans”领域的翻译结果的示意图。“+Trans.”指的是使用了领域变换网络的结果，“+Distill.”指使用了领域蒸馏的结果，“+Discri.”指使用了领域判别的结果。

由图5、图6和图7所示的评估结果，可以看出，本申请的模型处理多领域文本的性能超过了之前所有的神经网络机器翻译系统，取得了跟Fine-tune策略可比较的结果。然而，Fine-tune策略需要四个模型，因此从实际的部署的角度考虑，本申请的模型更实用，更轻量级。

另一方面，本申请还提供了一种电子终端，如参见图8，其示出了本申请的电子终端的一种组成结构示意图，本实施例的电子终端1100可以包括：处理器1101和存储器1102。处理器包括编码器、领域变换网络模型以及解码器；

可选的，该电子终端还可以包括通信接口1103、输入单元1104和显示器1105和通信总线1106。

处理器1101、存储器1102、通信接口1103、输入单元1104、显示器1105、均通过通信总线1106完成相互间的通信。

在本申请实施例中，该处理器1101，可以为中央处理器(Central ProcessingUnit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器可以调用存储器1102中存储的程序。具体的，处理器可以执行神经网络机器翻译方法的实施例中神经网络机器翻译模型所执行的操作。

存储器1102中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获取待翻译的源端句子；

将所述源端句子输入至所述编码器；

所述解码器根据所述领域特定表示，生成目标端句子。

在一种可能的实现方式中，该存储器1102可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如图像播放功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，用户数据、用户访问数据以及音频、视频、图像数据等等。

此外，存储器1102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口1103可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括显示器1104和输入单元1105等等。

当然，图8所示的电子终端的结构并不构成对本申请实施例中电子终端的限定，在实际应用中电子终端可以包括比图8所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请实施例还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中神经网络机器翻译模型执行的神经网络机器翻译方法方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种神经网络机器翻译方法，其特征在于，应用于神经网络机器翻译模型，所述神经网络机器翻译模型中包括编码器、领域变换网络模型以及解码器，所述方法包括：

获取待翻译的源端句子；

将所述源端句子输入至所述编码器；

所述解码器根据所述领域特定表示，生成目标端句子。

2.根据权利要求1所述的方法，其特征在于，所述领域变换网络模型的训练过程包括：

从所述多个领域的训练集中确定各个批次的训练样本，每个批次的训练样本数量为一个领域的训练集的批量数；

确定所述神经网络机器翻译模型的训练目标；

基于所述训练目标对每个批次的训练样本进行训练生成所述领域变换网络模型。

3.根据权利要求2所述的方法，其特征在于，所述从所述多个领域的训练集中确定各个批次的训练样本，包括：

根据多项式分布从所述多个领域的训练集中进行采样，确定各个批次的训练样本，其中，所述多项式分布为：

{q_i}i＝1，...，N；

其中，

4.根据权利要求2所述的方法，其特征在于，所述确定所述神经网络机器翻译模型的训练目标，包括：

将与目标批次的训练样本对应的领域教师模型产生的软目标分布和该批次中每个训练样本的目标句子的硬分布进行线性插值，生成所述神经网络机器翻译模型的训练目标；

生成的所述神经网络机器翻译模型的训练目标为：

其中，是每个训练样本的目标句子的硬分布，用于表示输入为x、输出为y的概率，训练样本中包括源端句子x＝x₁，...，x_I；以及目标端句子y＝y₁，...，y_J；D表示的是所有的训练集，所述θ为所述领域变换网络模型的参数；

λ和β均为常数，且λ+β＝1；

是教师模型产生的软目标分布；

|V|是目标语言的字典的词的数目；

5.根据权利要求4所述的方法，其特征在于，所述确定所述神经网络机器翻译模型的训练目标，包括：

生成的所述神经网络机器翻译模型的训练目标为：

{θ，γ}和ψ为所述领域变换网络模型的参数。

6.根据权利要求4或5所述的方法，其特征在于，所述基于所述训练目标对每个批次的训练样本进行训练生成所述领域变换网络模型，包括：

基于所述训练目标对每个批次的训练样本进行训练的过程中对所述领域变换网络模型的参数进行优化，获取最优的领域变换网络模型的参数；

基于所述最优的领域变换网络模型的参数组成的领域变换网络模型为训练好的领域变换网络模型。

7.根据权利要求2所述的方法，其特征在于，所述领域变换网络模型是由残差网络以及采用多头注意力训练机制的神经网络组合生成的。

8.一种神经网络机器翻译模型，其特征在于，包括：

编码器、领域变换网络模型以及解码器；

9.一种电子终端，其特征在于，包括：

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取待翻译的源端句子；

将所述源端句子输入至所述编码器；

所述解码器根据所述领域特定表示，生成目标端句子。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述的神经网络机器翻译方法。