CN112686059A

CN112686059A - 文本翻译方法、装置、电子设备和存储介质

Info

Publication number: CN112686059A
Application number: CN202011593142.5A
Authority: CN
Inventors: 张为泰; 刘俊华; 刘聪; 魏思
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20
Anticipated expiration: 2040-12-29
Also published as: CN112686059B

Abstract

本发明提供一种文本翻译方法、装置、电子设备和存储介质，其中方法包括：确定源语言文本，以及与源语言文本相匹配的翻译文本对；将源语言文本以及翻译文本对输入至机器翻译模型，得到机器翻译模型输出的目标语言文本；机器翻译模型是基于样本源语言文本、与样本源语言文本相匹配的样本翻译文本对，以及样本源语言文本的样本目标语言文本训练得到的。本发明提供的方法、装置、电子设备和存储介质，机器翻译模型能够将翻译文本对的信息作为对源语言文本进行翻译的参考，从而优化翻译效果。且无需重新对机器翻译模型进行迭代优化，且当实际场景发生变化时，仅需累积实际场景变化后的翻译文本对即可保证机器翻译及时满足场景变化需求。

Description

文本翻译方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本翻译方法、装置、电子设备和存储介质。

背景技术

机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，目前侧重于结合用户的使用领域对源语言的文本进行机器翻译，即在机器翻译时考虑用户讲话内容的应用领域。

目前针对特定领域的机器翻译通常需要在通用的机器翻译模型基础上，结合特定领域和场景的训练数据进行模型迭代优化，从而提高该领域的机器翻译效果。而模型迭代优化一般需要较长的时间，无法及时地适应实际场景的变化，导致机器翻译效果的提升受到时间限制。

发明内容

本发明提供一种文本翻译方法、装置、电子设备和存储介质，用以解决现有技术中机器翻译模型迭代优化时间长，翻译效果提升受限的缺陷。

本发明提供一种文本翻译方法，包括：

确定源语言文本，以及与所述源语言文本相匹配的翻译文本对；

将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本；

所述机器翻译模型是基于样本源语言文本、与所述样本源语言文本相匹配的样本翻译文本对，以及所述样本源语言文本的样本目标语言文本训练得到的；所述机器翻译模型用于基于所述翻译文本对，翻译所述源语言文本。

根据本发明提供一种的文本翻译方法，所述将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本，包括：

分别将所述源语言文本以及所述翻译文本对输入至所述机器翻译模型的文本编码层，得到所述文本编码层输出的源语言文本特征和翻译文本对特征；

将所述源语言文本特征和翻译文本对特征输入至所述机器翻译模型的特征解码层，得到所述特征解码层输出的目标语言文本。

根据本发明提供一种的文本翻译方法，所述将所述源语言文本特征和翻译文本对特征输入至所述机器翻译模型的特征解码层，得到所述特征解码层输出的目标语言文本，包括：

将所述源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至所述特征解码层的特征融合层，由所述特征融合层基于所述上一解码时刻的解码状态对所述源语言文本特征和翻译文本对特征进行融合，得到所述特征融合层输出的当前解码时刻的融合特征；

将所述当前解码时刻的融合特征，以及上一解码时刻的解码结果输入至所述特征解码层的解码层，得到所述解码层输出的当前解码时刻的解码状态和解码结果；

所述目标语言文本即最终解码时刻的解码结果。

根据本发明提供一种的文本翻译方法，所述将所述源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至所述特征解码层的特征融合层，由所述特征融合层基于所述上一解码时刻的解码状态对所述源语言文本特征和翻译文本对特征进行融合，得到所述特征融合层输出的当前解码时刻的融合特征，包括：

将所述源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至所述特征融合层的注意力交互层，由所述注意力交互层对所述源语言文本特征和上一解码时刻的解码状态，以及所述翻译文本对特征和上一解码时刻的解码状态进行注意力交互，得到所述注意力交互层输出的当前解码时刻的源语言上下文特征和翻译对上下文特征；

将所述当前解码时刻的源语言上下文特征和翻译对上下文特征输入至所述特征融合层的上下文融合层，得到所述上下文融合层输出的当前解码时刻的融合特征。

根据本发明提供一种的文本翻译方法，所述将所述当前解码时刻的源语言上下文特征和翻译对上下文特征输入至所述特征融合层的上下文融合层，得到所述上下文融合层输出的当前解码时刻的融合特征，包括：

将所述当前解码时刻的源语言上下文特征和翻译对上下文特征输入至所述上下文融合层的权重计算层，得到所述权重计算层输出的当前解码时刻的融合权重；

将所述当前解码时刻的源语言上下文特征和翻译对上下文特征，以及当前解码时刻的融合权重输入至所述上下文融合层的加权融合层，得到所述加权融合层输出的当前解码时刻的融合特征。

根据本发明提供一种的文本翻译方法，所述确定源语言文本，以及与所述源语言文本相匹配的翻译文本对，包括：

确定源语言文本及其所属领域；

将与所述源语言文本属于同一领域的各候选翻译文本对，分别与所述源语言文本进行相似度计算，得到所述源语言文本与各候选翻译文本对的相似度；

将最大相似度对应的候选翻译文本对，作为与所述源语言文本相匹配的翻译文本对。

根据本发明提供一种的文本翻译方法，所述样本源语言文本及其样本目标语言文本是基于通用领域数据集确定的，所述样本源语言文本与所述样本翻译文本对属于同一领域。

本发明还提供一种文本翻译装置，包括：

文本确定单元，用于确定源语言文本，以及与所述源语言文本相匹配的翻译文本对；

机器翻译单元，用于将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文本翻译方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本翻译方法的步骤。

本发明提供的文本翻译方法、装置、电子设备和存储介质，将与源语言文本相匹配的翻译文本对嵌入到机器翻译模型的翻译过程中，使得机器翻译模型能够将翻译文本对的信息作为对源语言文本进行翻译的参考，从而优化翻译效果。本发明实施例提供的方法、装置、电子设备和存储介质仅需要预先累积可供源语言文本匹配的翻译文本对，无需重新对机器翻译模型进行迭代优化，且当实际场景发生变化时，仅需累积实际场景变化后的翻译文本对即可保证机器翻译能够及时满足场景变化需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本翻译方法的流程示意图；

图2是本发明提供的文本翻译方法中步骤120的实施方式的流程示意图；

图3是本发明提供的文本翻译方法中步骤122的实施方式的流程示意图；

图4是本发明提供的文本翻译方法中步骤1221的实施方式的流程示意图；

图5是本发明提供的文本翻译方法中步骤1221-1的实施方式的流程示意图；

图6是本发明提供的文本翻译方法中步骤110的实施方式的流程示意图；

图7是本发明提供的机器翻译模型的结构示意图；

图8是本发明提供的文本翻译装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，针对特定领域的机器翻译通常需要在通用的机器翻译模型基础上，结合特定领域和场景的训练数据进行模型迭代优化。而模型迭代优化一般需要较长的时间，导致机器翻译效果的提升受到时间限制。且模型的迭代优化需要预先准备特定领域的训练数据，训练数据的准备时间会进一步拉长模型的迭代优化的周期，导致机器翻译模型无法及时地适应实际场景的变化。

针对上述问题，本发明实施例提供了一种文本翻译方法。图1是本发明提供的文本翻译方法的流程示意图，如图1所示，该方法包括：

步骤110，确定源语言文本，以及与源语言文本相匹配的翻译文本对。

具体地，源语言文本即需要进行翻译的文本，源语言文本所应用的语言即源语言，进行翻译后得到文本所应用的语言即目标语言，对应得到的翻译结果为目标语言文本。此处的源语言文本可以是用户直接输入的，也可以是将采集所得的音频进行语音转写后得到的，还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行OCR(Optical Character Recognition，光学字符识别)得到的，本发明实施例对此不作具体限定。

翻译文本对是已经完成翻译的一组文本对，翻译文本对中包含两个文本，其中一个文本应用的语言为源语言，另一个文本应用的语言为目标语言，翻译文本对的可以是将源语言翻译成目标语音得到的，也可以是将目标语言翻译成源语言得到的。在步骤110执行之前，可以预先收集大量的翻译文本对，以便于在确定源语言文本后，可以从大量翻译文本对中检索到与源语言文本相匹配的翻译文本对。

其中，与源语言文本相匹配的翻译文本对是指与源语言文本相似的翻译文本对，与源语言文本相匹配的翻译文本对可以是一对，也可以是多对。此处所指的相似可以是语义层面上的相似，也可以是句法结构上的相似或者文本中应用分词的相似等，本发明实施例对此不作具体限定。例如，源语言文本为“我爱工作”，检索到与源语言文本相匹配的翻译文本对“我爱你，I love you”。

步骤120，将源语言文本以及翻译文本对输入至机器翻译模型，得到机器翻译模型输出的目标语言文本；

机器翻译模型是基于样本源语言文本、与样本源语言文本相匹配的样本翻译文本对，以及样本源语言文本的样本目标语言文本训练得到的；机器翻译模型用于基于翻译文本对，翻译源语言文本。

具体地，机器翻译模型可以基于输入的翻译文本对，对属于的源语言文本进行翻译。在翻译过程中，机器翻译模型可以参照翻译文本对中与源语言文本相似的文本进行翻译的思路，对源语言文本进行翻译，通过充分应用已有的翻译文本对的信息，提高相类似的文本翻译准确性，从而得到更加准确的目标语言文本。例如，机器翻译模型在翻译“我爱工作”时，可以参考翻译文本对“我爱你，I love you”，从而确定“我爱工作”的翻译结果为“Ilove…”，在此基础上，结合分词“工作”本身的语义或者包含有分词“工作”的其他与源语言文本相匹配的翻译文本对确定“工作”的翻译结果，从而得到“我爱工作”的目标语言文本。

在执行步骤120之前，可以通过训练得到机器翻译模型，具体可以通过如下步骤训练机器翻译模型：首先，收集大量样本源语言文本及其对应的样本目标语言文本，并在此基础上搜索与样本源语言文本相匹配的样本翻译文本对；随即，基于样本源语言文本、与样本源语言文本相匹配的样本翻译文本对，以及样本源语言文本的样本目标语言文本训练初始模型，从而得到机器翻译模型。

本发明实施例提供的方法，将与源语言文本相匹配的翻译文本对嵌入到机器翻译模型的翻译过程中，使得机器翻译模型能够将翻译文本对的信息作为对源语言文本进行翻译的参考，从而优化翻译效果。本发明实施例提供的方法仅需要预先累积可供源语言文本匹配的翻译文本对，无需重新对机器翻译模型进行迭代优化，且当实际场景发生变化时，仅需累积实际场景变化后的翻译文本对即可保证机器翻译能够及时满足场景变化需求。

基于上述实施例，机器翻译模型包括文本编码层和特征解码层。图2是本发明提供的文本翻译方法中步骤120的实施方式的流程示意图，如图2所示，步骤120包括：

步骤121，分别将源语言文本以及翻译文本对输入至机器翻译模型的文本编码层，得到文本编码层输出的源语言文本特征和翻译文本对特征。

具体地，文本编码层用于对输入的文本进行特征编码，并输出对应的文本特征。进一步地，文本编码层分别对源语言文本以及翻译文本对进行特征编码，从而提取源语言文本以及翻译文本对各自的语义，得到源语言文本对应的特征，即源语言文本特征，以及翻译文本对对应的特征，即翻译文本对特征。

此处，对于文本进行特征编码的方式有很多，例如通过长短时记忆网络对输入文本中各个分词的词向量进行上下文特征提取，或者通过自注意力机制和FNN(FeedforwardNeural Network，前馈神经网络)结合的方式进行文本特征提取。

需要说明的是，文本编码层在对翻译文本对进行文本编码时，可以分别对翻译文本对中的两个不同语言的文本进行编码，再将两个文本的编码结果进行拼接，从而得到翻译文本对特征。

步骤122，将源语言文本特征和翻译文本对特征输入至机器翻译模型的特征解码层，得到特征解码层输出的目标语言文本。

具体地，特征解码层用于对源语言文本特征和翻译文本对特征进行特征解码，从而得到目标语言文本。在解码过程中，特征解码层可以融合源语言文本特征和翻译文本对特征，并基于融合所得的特征翻译源语言文本，也可以基于解码进度分别对源语言文本特征和翻译文本对特征进行注意力变换，并融合注意力变换后的源语言文本特征和翻译文本对特征进行解码，本发明实施例对此不作具体限定。

基于上述任一实施例，特征解码层包括特征融合层和解码层；图3是本发明提供的文本翻译方法中步骤122的实施方式的流程示意图，如图3所示，步骤122包括：

步骤1221，将源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至特征解码层的特征融合层，由特征融合层基于上一解码时刻的解码状态对源语言文本特征和翻译文本对特征进行融合，得到特征融合层输出的当前解码时刻的融合特征；

步骤1222，将当前解码时刻的融合特征，以及上一解码时刻的解码结果输入至特征解码层的解码层，得到解码层输出的当前解码时刻的解码状态和解码结果；目标语言文本即最终解码时刻的解码结果。

具体地，特征融合层用于实现源语言文本特征和翻译文本对特征的特征融合。且不同于常规意义上的特征融合，本发明实施例中的特征融合是动态的，其融合方式是随着特征解码的情况变化而变化的。此处的解码状态反映的是就是特征解码的情况，

进一步地，上一解码时刻的解码状态包含了在该解码时刻之前的解码过程中所产生的历史信息。在对源语言文本特征和翻译文本对特征进行特征融合时，特征融合层可以基于上一解码时刻的解码状态分析判断在当前解码时刻，应当重点关注源语言文本特征中的哪些信息，以及应当重点关注翻译文本对特征中的哪些信息，还可以分析判断在当前解码时刻，应当更多关注源语言文本特征中的信息还是翻译文本对特征中的信息，从而在进行特征融合的过程中，突出需要重点关注的信息，弱化不需要重点关注的信息，得到更适用于当前解码时刻的融合特征。

在得到当前解码时刻的融合特征后，解码层即可基于当前时刻的融合特征，以及上一解码时刻的解码状态和解码结果，确定当前解码时刻的解码状态。在此基础上，解码层还可以基于当前解码时刻的解码状态和融合特征，以及上一解码时刻的解码结果进行解码，从而得到当前解码时刻的解码结果并输出。此处，任一解码时刻的解码结果是该解码时刻解码得到的字符与上一解码时刻对应的解码结果拼接后的字符序列。

本发明实施例提供的方法，基于上一解码时刻的解码状态对源语言文本特征和翻译文本对特征进行动态融合，使得应用在解码过程中融合特征本身能够突出当前解码时刻需要关注的信息，从而提高文本翻译的准确性。

基于上述任一实施例，特征融合层包括注意力交互层和上下文融合层；图4是本发明提供的文本翻译方法中步骤1221的实施方式的流程示意图，如图4所示，步骤1221包括：

步骤1221-1，将源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至特征融合层的注意力交互层，由注意力交互层对源语言文本特征和上一解码时刻的解码状态，以及翻译文本对特征和上一解码时刻的解码状态进行注意力交互，得到注意力交互层输出的当前解码时刻的源语言上下文特征和翻译对上下文特征；

步骤1221-2，将当前解码时刻的源语言上下文特征和翻译对上下文特征输入至特征融合层的上下文融合层，得到上下文融合层输出的当前解码时刻的融合特征。

具体地，注意力交互层可以基于注意力机制，分别分析针对于当前解码时刻，源语言文本特征中包含各特征的重要性，以及翻译文本对特征中包含各特征的重要性，进而分别突出源语言文本特征和翻译文本对特征中需要重点关注的信息，弱化不需要重点关注的信息，得到相对应的源语言上下文特征和翻译对上下文特征。

进一步地，可以由注意力交互层对源语言文本特征和上一解码时刻的解码状态进行注意力交互，从而确定源语言文本特征中各特征的注意力权重，并基于各特征的注意力权重对源语言文本特征中各特征进行加权，从而得到源语言上下文特征；相类似地，可以由注意力交互层对翻译文本对特征和上一解码时刻的解码状态进行注意力交互，从而确定翻译文本对特征中各特征的注意力权重，并基于各特征的注意力权重对翻译文本对特征中各特征进行加权，从而得到翻译对上下文特征。

上下文融合层用于对当前解码时刻的源语言上下文特征和翻译对上下文特征进行特征融合，此处的特征融合可以是根据预先学习所得的固定权重进行加权求和，也可以根据源语言上下文特征和翻译对上下文特征自身的信息动态计算权重并在此基础上进行加权求和，还可以是直接将源语言上下文特征和翻译对上下文特征进行拼接，本发明实施例对此不作具体限定。

基于上述任一实施例，上下文融合层包括权重计算层和加权融合层；图5是本发明提供的文本翻译方法中步骤1221-1的实施方式的流程示意图，如图5所示，步骤1221-1包括：

步骤1221-11，将当前解码时刻的源语言上下文特征和翻译对上下文特征输入至上下文融合层的权重计算层，得到权重计算层输出的当前解码时刻的融合权重；

步骤1221-12，将当前解码时刻的源语言上下文特征和翻译对上下文特征，以及当前解码时刻的融合权重输入至上下文融合层的加权融合层，得到加权融合层输出的当前解码时刻的融合特征。

具体地，权重计算层用于根据当前解码时刻的源语言上下文特征和翻译对上下文特征，计算两者在进行加权融合时需要的融合权重。权重计算层可以通过前馈神经网络实现，例如可以利用前向全连接层实现，具体可以体现为如下公式：

g＝σ(W_S*C_S+W_m*C_m)

式中，融合权重g是一个取值在0-1之间的门控单元标量，用于表示融合特征来源于源语言上下文特征C_S的比例，相应地1-g可用于表示融合特征来源于翻译对上下文特征C_m的比例。σ为激活函数，W_S和W_m为训练所得的参数。

加权融合层可以基于当前解码时刻的融合权重，对当前解码时刻的源语言上下文特征和翻译对上下文特征进行加权求和，从而得到当前时刻的融合特征C，具体可以表示为如下公式：

C＝g*C_S+(1-g)*C_m

本发明实施例提供的方法，基于当前解码时刻的源语言上下文特征和翻译对上下文特征计算融合权重，从而实现当前解码时刻的源语言上下文特征和翻译对上下文特征的动态融合，使得融合特征更加贴合当前解码时刻的解码需求，有效提高解码精度，从而大幅提升文本翻译效果。

基于上述任一实施例，图6是本发明提供的文本翻译方法中步骤110的实施方式的流程示意图，如图6所示，步骤110包括：

步骤111，确定源语言文本及其所属领域。

步骤112，将与源语言文本属于同一领域的各候选翻译文本对，分别与源语言文本进行相似度计算，得到源语言文本与各候选翻译文本对的相似度。

步骤113，将最大相似度对应的候选翻译文本对，作为与源语言文本相匹配的翻译文本对。

具体地，源语言文本所属的领域可以是用户在输入源语言文本的同时自行选择输入的，也可以是基于预先训练所得的领域分类模型对源语言文本进行领域分类得到的，本发明实施例对此不作具体限定。此处所指的领域可以是根据实际应用场景进行划分得到的，例如源语言文本“迈克尔·乔丹将参加下一场比赛”属于体育领域，“周杰伦发布了新专辑”属于音乐领域。

在确定源语言文本所属的领域之后，即可将源语言文本与属于同一领域的各候选翻译文本对进行一一匹配，从而从中选取出相匹配的翻译文本对。此处，从属于同一领域的候选翻译文本对中进行选择，能够保证最终得到的翻译文本对于源语言文本属于相同的领域，在参考翻译文本对进行文本翻译的过程中，不仅可以参考翻译文本对中与源语言文本在语义层面上、句法结构上或者是包含分词上的相似翻译思路，还可以应用翻译文本对中携带的领域层面上的信息，从而保证源语言文本不会由于领域差异影响翻译效果，保证文本翻译的准确性和可靠性。

基于上述任一实施例，针对机器翻译模型，其训练样本中，样本源语言文本及其样本目标语言文本是基于通用领域数据集确定的，样本源语言文本与样本翻译文本对属于同一领域。

具体地，通用领域数据集即不对文本所属领域进行限定的数据集，通用领域数据可以包含各种领域下的样本源语言文本及其样本目标语言文本，因此基于样本源语言文本及其样本目标语言文本训练所得的机器翻译模型，可以应用到各种领域下的源语言文本的翻译场景中。在此基础上，为了提高机器翻译模型针对特征领域的翻译能力，在选取样本源语言文本对应的样本翻译文本对时，需要保证样本源语言文本与样本翻译文本对属于同一领域，从而使得机器翻译模型在训练过程中，可以学习到样本源语言文本与样本翻译文本对在领域层面上的关联性，从而更好地进行文本翻译。

对应在机器翻译模型的应用阶段，只要保证源语言文本及其相匹配的翻译文本对属于相同的领域即可，无需限定源语言文本所属的领域，即本发明实施例提供的机器翻译模型可以支持各个领域的文本翻译。

本发明实施例提供的方法，应用通用领域数据集确定样本源语言文本及其样本目标语言文本进行机器翻译模型的训练，降低了机器翻译模型的训练门槛，即便未能收集到特定领域的数据集，或者未能够及时更新特定领域的数据集，也同样能够实现机器翻译模型的训练，提高了机器翻译模型的实用性，有助于机器翻译技术的推广。

基于上述任一实施例，图7是本发明提供的机器翻译模型的结构示意图，如图7所示，基于机器翻译模型的文本翻译方法包括如下步骤：

将对源语言文本以及翻译文本对分别输入至文本编码层，由文本编码层分别对源语言文本以及翻译文本对进行特征编码，并输出源语言文本特征和翻译文本对特征。此处，文本编码层中针对各个文本分别设置有N层编码结构，每层编码结构均为自注意力机制SelfAtt与前馈神经网络FNN结合的形式。

随即将源语言文本特征和翻译文本对特征分别输入至注意力交互层，由注意力交互层基于上一解码时刻的解码状态分别对源语言文本特征和翻译文本对特征进行注意力转换，从而得到应用于当前解码时刻的源语言上下文特征C_S和翻译对上下文特征C_m。

接着将源语言上下文特征C_S和翻译对上下文特征C_m输入上下文融合层，上下文融合层通过公式C＝g*C_s+(1-g)*C_m实现源语言上下文特征和翻译对上下文特征的融合，从而得到当前解码时刻的融合特征。

最后，将当前解码时刻的融合特征输入到解码层，由解码层基于当前解码时刻的融合特征，以及上一解码时刻的解码结果进行解码，并输出当前解码时刻的解码状态和解码结果。将最终解码时刻输出的解码结果作为目标语言文本。此处，解码层中设置有N层解码结构，每层解码结构均为自注意力机制SelfAtt、交叉注意力机制CrossAtt和前馈神经网络FNN结合的形式。

基于上述任一实施例，结合图7示出的机器翻译模型的结构，机器翻译模型的训练方法可以包括如下步骤：

首先，可以基于通用领域数据集确定样本源语言文本及其样本目标语言文本，并基于样本源语言文本及其样本目标语言文本训练通用机器翻译模型。此处的通用机器翻译模型可以是常规的编码器-解码器结构的应用于通用领域的机器翻译模型，具体可以包括图7中示出的解码层，以及文本编码层和注意力交互层中应用于源语言文本的部分。

其次，从对应领域的数据集中检索与样本源语言文本相匹配的样本翻译文本对。

接着，固定通用机器翻译模型的参数，并应用通用机器翻译模型中文本编码层和注意力交互层中应用于源语言文本的部分，初始化待训练的机器翻译模型中文本编码层和注意力交互层中应用于翻译文本对的部分，基于通用领域数据集确定样本源语言文本及其样本目标语言文本，以及与样本源语言文本相匹配的样本翻译文本对，对及其翻译模型进行训练，此训练过程仅更新新增部分的参数，由此得到训练好的机器翻译模型。此处所指的新增部分，即相对于通用机器翻译模型增加的部分，包含文本编码层和注意力交互层中应用于翻译文本对的部分，以及用于实现源语言上下文特征和翻译对上下文特征融合的上下文融合层。

下面对本发明提供的文本翻译装置进行描述，下文描述的文本翻译装置与上文描述的文本翻译方法可相互对应参照。

基于上述任一实施例，图8是本发明提供的文本翻译装置的结构示意图，如图8所示，该装置包括文本确定单元810和机器翻译单元820；

文本确定单元810用于确定源语言文本，以及与所述源语言文本相匹配的翻译文本对；

机器翻译单元820用于将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本；

本发明实施例提供的装置，将与源语言文本相匹配的翻译文本对嵌入到机器翻译模型的翻译过程中，使得机器翻译模型能够将翻译文本对的信息作为对源语言文本进行翻译的参考，从而优化翻译效果。本发明实施例提供的装置仅需要预先累积可供源语言文本匹配的翻译文本对，无需重新对机器翻译模型进行迭代优化，且当实际场景发生变化时，仅需累积实际场景变化后的翻译文本对即可保证机器翻译能够及时满足场景变化需求。

基于上述任一实施例，机器翻译单元820包括：

文本编码单元，用于分别将所述源语言文本以及所述翻译文本对输入至所述机器翻译模型的文本编码层，得到所述文本编码层输出的源语言文本特征和翻译文本对特征；

特征解码单元，用于将所述源语言文本特征和翻译文本对特征输入至所述机器翻译模型的特征解码层，得到所述特征解码层输出的目标语言文本。

基于上述任一实施例，特征解码单元包括：

特征融合子单元，用于将所述源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至所述特征解码层的特征融合层，由所述特征融合层基于所述上一解码时刻的解码状态对所述源语言文本特征和翻译文本对特征进行融合，得到所述特征融合层输出的当前解码时刻的融合特征；

解码子单元，用于将所述当前解码时刻的融合特征，以及上一解码时刻的解码结果输入至所述特征解码层的解码层，得到所述解码层输出的当前解码时刻的解码状态和解码结果；

所述目标语言文本即最终解码时刻的解码结果。

基于上述任一实施例，特征融合子单元包括：

注意力交互子单元，用于将所述源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至所述特征融合层的注意力交互层，由所述注意力交互层对所述源语言文本特征和上一解码时刻的解码状态，以及所述翻译文本对特征和上一解码时刻的解码状态进行注意力交互，得到所述注意力交互层输出的当前解码时刻的源语言上下文特征和翻译对上下文特征；

上下文融合子单元，用于将所述当前解码时刻的源语言上下文特征和翻译对上下文特征输入至所述特征融合层的上下文融合层，得到所述上下文融合层输出的当前解码时刻的融合特征。

基于上述任一实施例，上下文融合子单元用于：

基于上述任一实施例，文本确定单元810用于：

确定源语言文本及其所属领域；

基于上述任一实施例，所述样本源语言文本及其样本目标语言文本是基于通用领域数据集确定的，所述样本源语言文本与所述样本翻译文本对属于同一领域。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行文本翻译方法，该方法包括：确定源语言文本，以及与所述源语言文本相匹配的翻译文本对；将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本；所述机器翻译模型是基于样本源语言文本、与所述样本源语言文本相匹配的样本翻译文本对，以及所述样本源语言文本的样本目标语言文本训练得到的；所述机器翻译模型用于基于所述翻译文本对，翻译所述源语言文本。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本翻译方法，该方法包括：确定源语言文本，以及与所述源语言文本相匹配的翻译文本对；将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本；所述机器翻译模型是基于样本源语言文本、与所述样本源语言文本相匹配的样本翻译文本对，以及所述样本源语言文本的样本目标语言文本训练得到的；所述机器翻译模型用于基于所述翻译文本对，翻译所述源语言文本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本翻译方法，该方法包括：确定源语言文本，以及与所述源语言文本相匹配的翻译文本对；将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本；所述机器翻译模型是基于样本源语言文本、与所述样本源语言文本相匹配的样本翻译文本对，以及所述样本源语言文本的样本目标语言文本训练得到的；所述机器翻译模型用于基于所述翻译文本对，翻译所述源语言文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本翻译方法，其特征在于，包括：

2.根据权利要求1所述的文本翻译方法，其特征在于，所述将所述源语言文本以及所述翻译文本对输入至机器翻译模型，得到所述机器翻译模型输出的目标语言文本，包括：

3.根据权利要求2所述的文本翻译方法，其特征在于，所述将所述源语言文本特征和翻译文本对特征输入至所述机器翻译模型的特征解码层，得到所述特征解码层输出的目标语言文本，包括：

所述目标语言文本即最终解码时刻的解码结果。

4.根据权利要求3所述的文本翻译方法，其特征在于，所述将所述源语言文本特征和翻译文本对特征，以及上一解码时刻的解码状态输入至所述特征解码层的特征融合层，由所述特征融合层基于所述上一解码时刻的解码状态对所述源语言文本特征和翻译文本对特征进行融合，得到所述特征融合层输出的当前解码时刻的融合特征，包括：

5.根据权利要求4所述的文本翻译方法，其特征在于，所述将所述当前解码时刻的源语言上下文特征和翻译对上下文特征输入至所述特征融合层的上下文融合层，得到所述上下文融合层输出的当前解码时刻的融合特征，包括：

6.根据权利要求1至5中任一项所述的文本翻译方法，其特征在于，所述确定源语言文本，以及与所述源语言文本相匹配的翻译文本对，包括：

确定源语言文本及其所属领域；

7.根据权利要求1至5中任一项所述的文本翻译方法，其特征在于，所述样本源语言文本及其样本目标语言文本是基于通用领域数据集确定的，所述样本源语言文本与所述样本翻译文本对属于同一领域。

8.一种文本翻译装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本翻译方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本翻译方法的步骤。