CN110598224A

CN110598224A - 翻译模型的训练方法、文本处理方法、装置及存储介质

Info

Publication number: CN110598224A
Application number: CN201910901021.3A
Authority: CN
Inventors: 伍海江; 袁松岭; 王晓利
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2019-12-20

Abstract

本发明提供了一种翻译模型的训练方法包括：获取第一训练样本集合；对第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；通过翻译模型对第一训练样本集合进行处理，以确定翻译模型的初始参数；响应于翻译模型的初始参数，通过翻译模型对第二训练样本集合进行处理，确定翻译模型的更新参数；根据翻译模型的更新参数，通过第一训练样本集合和第二训练样本集合对翻译模型的编码器参数和解码器参数进行迭代更新。本发明还提供了文本处理方法、装置及存储介质。本发明能够使得翻译模型的泛化能力更强，提升翻译模型的训练精度与训练速度，同时还可以有效充分利用已有的噪声语句对模型训练的增益，使得翻译模型能够适应不同的使用场景。

Description

翻译模型的训练方法、文本处理方法、装置及存储介质

技术领域

本发明涉及机器翻译(MT，Machine Translation)技术，尤其涉及翻译模型的训练方法、文本处理方法、装置及存储介质。

背景技术

随着机器翻译的发展，神经网络机器翻译(NMT，Neural Machine Translation)作为新一代的翻译技术得到普通应用。神经网络机器翻译系统基于编码器-解码器框架搭建，然而，在神经网络机器翻译系统的翻译过程中，解码器兼具多重任务，如记录当前翻译的内容、以及需要翻译的内容，记录翻译的流畅度的相关信息等。由于解码器任务的复杂性导致其需要经过去噪的高精度的训练样本，对于小语种或者缺乏训练样本的语种，由于训练样本的噪声干扰，影响了翻译模型的训练精度与训练速度，不利于翻译模型的广泛推广使用。

发明内容

有鉴于此，本发明实施例提供一种翻译模型的训练方法、文本处理方法、装置及存储介质，能够减小了传统技术中预测-估计(predictor-estimator)模型需要大量平行语句来构建翻译模型所需要的代价，可以更加适应小语种(缺少训练样本的目标语种)的翻译场景，提升翻译模型的训练精度与训练速度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种翻译模型的训练方法，所述训练方法包括：

获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；

对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

通过翻译模型对所述第一训练样本集合进行处理，以确定所述翻译模型的初始参数；

响应于所述翻译模型的初始参数，通过所述翻译模型对所述第二训练样本集合进行处理，确定所述翻译模型的更新参数；

根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新，以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果。

本发明实施例还提供了一种翻译模型的文本处理方法，所述方法包括：

通过翻译模型的编码器，确定与待翻译语句所对应的至少一个词语级的隐变量；

通过所述翻译模型的解码器，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率；

根据所述翻译结果的被选取概率，选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果；

输出所述翻译结果；

其中，所述翻译模型基于前序的方法训练得到。

本发明实施例还提供了一种翻译模型的训练装置，所述训练装置包括：

数据传输模块，用于获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；

去噪模块，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

翻译模型训练模块，用于通过翻译模型对所述第一训练样本集合进行处理，以确定所述翻译模型的初始参数；

所述翻译模型训练模块，用于响应于所述翻译模型的初始参数，通过所述翻译模型对所述第二训练样本集合进行处理，确定所述翻译模型的更新参数；

所述翻译模型训练模块，用于根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新，以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果。

上述方案中，

所述翻译模型训练模块，用于将所述第二训练样本集合中不同语句样本，代入由所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数；

所述翻译模型训练模块，用于确定所述损失函数满足收敛条件时对应所述翻译模型中编码器的参数和相应的解码器参数作为所述翻译模型的更新参数。

上述方案中，

所述翻译模型训练模块，用于通过所述翻译模型的更新参数，确定与所述第一训练样本集合相匹配的第一噪声参数，所述第一噪声参数用于表征所述第一训练样本集合中平行语句样本的噪声值；

所述翻译模型训练模块，用于通过所述翻译模型的更新参数，确定与所述第二训练样本集合相匹配的第二噪声参数，所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

所述翻译模型训练模块，用于确定所述第一噪声参数与所述第二噪声参数中噪声值最小的噪声参数；

所述翻译模型训练模块，用于根据所述第一噪声参数与所述第二噪声参数中噪声值最小的噪声参数，对所述翻译模型的编码器参数和解码器参数进行迭代更新，直至所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数满足对应的收敛条件。

本发明实施例还提供了一种翻译模型处理装置，所述装置包括：

编码器模块，用于通过翻译模型的编码器，确定与待翻译语句所对应的至少一个词语级的隐变量；

解码器模块，用于通过所述翻译模型的解码器，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率；

所述解码器模块，用于根据所述翻译结果的被选取概率，选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果；

所述解码器模块，用于输出所述翻译结果。

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的翻译模型的训练方法。

本发明实施例还提供了一种融合图像处理装置，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的翻译模型的文本处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的翻译模型的训练方法，或者实现前序的翻译模型的文本处理方法。

本发明实施例具有以下有益效果：

本发明所提供的技术方案通过获取第一训练样本集合；对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；通过翻译模型对所述第一训练样本集合进行处理，以确定所述翻译模型的初始参数；响应于所述翻译模型的初始参数，通过所述翻译模型对所述第二训练样本集合进行处理，确定所述翻译模型的更新参数；根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新，以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果，由此，使得翻译模型的泛化能力更强，提升翻译模型的训练精度与训练速度，同时还可以有效充分利用已有的噪声语句对模型训练的增益，使得翻译模型能够适应不同的使用场景。

附图说明

图1为本发明实施例提供的翻译模型训练方法的使用场景示意图；

图2为本发明实施例提供的翻译模型的训练装置的组成结构示意图；

图3为传统方案中生成翻译结果的示意图；

图4为本发明实施例中翻译模型一个可选的结构示意图；

图5为本发明实施例中翻译模型一个可选的翻译过程示意图；

图6为本发明实施例中翻译模型中编码器一个可选的结构示意图；

图7为本发明实施例中翻译模型中编码器的向量拼接示意图；

图8为本发明实施例中翻译模型中编码器的编码过程示意图；

图9为本发明实施例中翻译模型中解码器的解码过程示意图；

图10A为本发明实施例中翻译模型中解码器的解码过程示意图；

图10B为本发明实施例中翻译模型中解码器的解码过程示意图；

图11为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图；

图12为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图；

图13为本发明实施例提供的翻译模型处理装置的组成结构示意图；

图14为本发明实施例提供的翻译模型的文本语句处理方法一个可选的流程示意图；

图15为本发明实施例所提供的翻译模型的前端显示界面示意图；

图16为本发明实施例中翻译模型一个可选的训练架构示意图；

图17为本发明实施例中去噪模块的一个可选的结构示意图；

图18为本发明实施例中模型调整过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)待翻译语句，在进行语言转换之前输入翻译模型的对应某种自然语言的语句。

2)翻译结果，翻译模型输出的对源语句进行语言转换之后的对应某种自然语言的语句。

3)参考语句，预先设置的对源语句进行语言转换之后的对应某种自然语言的参考标准。

4)忠实度，表征目标语句的内容与源语句内容接近程度的介于0和1之间的参数，作为评价对源语句翻译准确度高低的标准，值越大表明目标语句的内容与源语句内容接近程度越高，即翻译的准确度越高。

5)翻译，将一种自然语言的语句转换成另一种自然语言的语句。

6)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

7)语音识别(SR Speech Recognition)：也被称为自动语音识别(ASR AutomaticSpeech Recognition)、计算机语音识别(CSR Computer Speech Recognition)或者语音转文本识别(STT Speech To Text)，其目标是使用计算机自动将人类的语音内容转换为相应的文字。

8)机器翻译(Machine Translation，MT)：属于计算语言学的范畴，其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。神经网络机器翻译(Neural Machine Translation，NMT)是使用神经网络技术进行机器翻译的一种技术。

9)语音翻译(Speech Translation)：又称自动语音翻译，是通过计算机将一种自然语言的语音翻译为另一种自然语言的文本或语音的技术，一般可以由语音识别和机器翻译两阶段组成。

10)编码器-解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

11)生成对抗网络(Generative Adversarial Network，简称GAN)：非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进行学习，一般由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

图1为本发明实施例提供的翻译模型训练方法的使用场景示意图，参考图1，终端(包括终端10-1和终端10-2)上设置有翻译软件的客户端，用户通过所设置的翻译软件客户端可以输入相应的待翻译语句，聊天客户端也可以接收相应的翻译结果，并将所接收的翻译结果向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述翻译模型并对所述翻译模型进行训练，以更新所述翻译模型中编码器网络的参数和解码器网络的参数，以实现将通过翻译模型中编码器网络和解码器网络生成针对目标待翻译语句的翻译结果，并通过终端(终端10-1和/或终端10-2)展示翻译模型所生成的与待翻译语句相对应的翻译结果。

当然在通过翻译模型对目标待翻译语句进行处理以生成相应的翻译结果之前，还需要对翻译模型进行训练，具体包括：获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；

下面对本发明实施例的翻译模型的训练装置的结构做详细说明，翻译模型的训练装置可以各种形式来实施，如带有翻译模型训练功能的专用终端，也可以为设置有翻译模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的翻译模型的训练装置的组成结构示意图，可以理解，图2仅仅示出了翻译模型的训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的翻译模型的训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。翻译模型的训练装置20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的翻译模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的翻译模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的翻译模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的翻译模型的训练装置采用软硬件结合实施的示例，本发明实施例所提供的翻译模型的训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的翻译模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的翻译模型的训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的翻译模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持翻译模型的训练装置20的操作。这些数据的示例包括：用于在翻译模型的训练装置20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从翻译模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的翻译模型的训练装置可以采用软件方式实现，图2示出了存储在存储器202中的翻译模型的训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括翻译模型的训练装置，翻译模型的训练装置中包括以下的软件模块：数据传输模块2081，去噪模块2082和翻译模型训练模块2083。当翻译模型的训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的翻译模型训练方法，下面介绍本发明实施例中翻译模型的训练装置中各个软件模块的功能，其中，

数据传输模块2081，用于获取第一训练样本集合，其中所述第一训练样本集合包括至少一组带有噪声的语句样本；

去噪模块2082，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

翻译模型训练模块2083，用于通过翻译模型对所述第一训练样本集合进行处理，以确定所述翻译模型的初始参数；

所述翻译模型训练模块2083，用于响应于所述翻译模型的初始参数，通过所述翻译模型对所述第二训练样本集合进行处理，确定所述翻译模型的更新参数；

所述翻译模型训练模块2083，用于根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新，以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果。

结合图2示出的翻译模型的训练装置20说明本发明实施例提供的翻译模型的训练方法，在介绍本发明实施例提供的翻译模型的训练方法之前，首先介绍本申请中翻译模型根据待翻译语句生成相应翻译结果的过程中，图3为传统方案中生成翻译结果的示意图，其中，eq2seq模型是以编码器(Encode)和解码器(Decode)为代表的架构方式，seq2seq模型是根据输入序列X来生成输出序列Y。编码器(Encode)和解码器(Decode)为代表的seq2seq模型中，编码器(Encode)是将输入序列转化成一个固定长度的向量，解码器(Decode)将输入的固定长度向量解码成输出序列。如图3所示，编码器(Encoder)对输入的待翻译语句进行编码，得到待翻译语句的文本特征；解码器(Decoder)对文本特征进行解码后输出生成相应的翻译结果，其中，编码器(Encode)和解码器(Decode)是一一对应的。

继续参考图4，图4为本发明实施例中翻译模型一个可选的结构示意图，其中，Encoder包括：N＝6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。

Decoder包括：由N＝6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个self-attention layer，encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。具体的，左侧的Nx表示编码器的其中一层的结构，这一层中包括两个子层，第一个子层为多头注意力层，第二个子层为前向传播层。每个子层的输入和输出都存在关联，当前子层的输出作为下一个子层的一个输入数据。每个子层的后面紧接着一个归一化操作，归一化操作能够提高模型的收敛速度。右侧的Nx表示解码器的其中一层的结构，解码器的一层中包括三个子层，第一个子层为mask矩阵控制的多头注意力子层，用来建模已经生成的目标端句子向量，在训练的过程中，需要一个mask矩阵来控制，使得每次多头注意力计算的时候，只计算到前t-1个词。第二个子层是多头注意力子层，是编码器和解码器之间的注意力机制，也就是在源文本中查找相关的语义信息，该层的计算使用了点积的方式。第三个子层是前向传播子层，与编码器中的前向传播子层的计算方式一致。解码器的每个子层之间也都存在着关联，当前子层的输出作为下一个子层的一个输入数据。并且解码器的每个子层之后同样紧接着一个归一化操作，以加快模型收敛。

继续参考图5，图5为本发明实施例中翻译模型一个可选的翻译过程示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入待翻译语句为英语“I am a student”经过翻译模型的处理，输出的翻译结果为：“我是一个学生”。

继续参考图6，图6为本发明实施例中翻译模型中编码器一个可选的结构示意图，其中，其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成，所有键计算查询的点积，并应用softmax函数获得值的权重。

继续参考图6，图6为本发明实施例中翻译模型中编码器的向量示意图，其中Q，K和V的是通过输入encoder的向量x与W^Q，W^K，W^V相乘得到Q，K和V。W^Q，W^K，W^V在文章的维度是(512，64)，然后假设我们inputs的维度是(m，512)，其中m代表了字的个数。所以输入向量与W^Q，W^K，W^V相乘之后得到的Q、K和V的维度就是(m，64)。

继续参考图7，图7为本发明实施例中翻译模型中编码器的向量拼接示意图，其中，Z₀到Z₇就是对应的8个并行的head(维度是(m，64))，然后concat这个8个head之后就得到了(m，512)维度。最后与W^O相乘之后就到了维度为(m，512)的输出的矩阵，那么这个矩阵的维度就和进入下一个encoder的维度保持一致。

继续参考图8，图8为本发明实施例中翻译模型中编码器的编码过程示意图，其中，x₁经过self-attention到了z₁的状态，通过了self-attetion的张量还需要进过残差网络和Later Norm的处理，然后进入到全连接的前馈网络中，前馈网络需要进行同样的操作，进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中，然后这样的操作，迭代经过了6次，迭代处理的结果进入到decoder中。

继续参考图9，图9为本发明实施例中翻译模型中解码器的解码过程示意图，其中，decoder的输入输出和解码过程：

输出：对应i位置的输出词的概率分布；

输入：encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出。

继续参考图10A和图10B，图10A为本发明实施例中翻译模型中解码器的解码过程示意图，其中。解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图10B为本发明实施例中翻译模型中解码器的解码过程示意图，Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量，然后softmax层根据这个logits向量，将其转换为了概率值，最后找到概率最大值的位置，即完成了解码器的输出。

集合前序图3至图10的说明，可见，对于翻译模型在神经网络机器翻译系统的翻译过程中，解码器兼具多重任务，但是由于解码器任务的复杂性导致其需要经过去噪的高精度的训练样本，对于小语种或者缺乏训练样本的语种，由于训练样本的噪声干扰，影响了翻译模型的训练精度与训练速度，不利于翻译模型的广泛推广使用。

为解决这一相关技术中的缺陷，参考图11，图11为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图，可以理解地，图11所示的步骤可以由运行翻译模型训练装置的各种电子设备执行，例如可以是如带有模型训练功能的专用终端、带有翻译模型训练功能的服务器或者服务器集群。下面针对图11示出的步骤进行说明。

步骤1101：获取第一训练样本集合。

其中，所述第一训练样本集合包括至少一组带有噪声的语句样本。

在本发明的一些实施例中，第一训练样本集合可以为同一语种的语言样本，或者也可以为不同语种的语言样本，对此不作限制。其中，第一训练样本集合的语种可以根据实际翻译需求进行设置。例如，当翻译模型应用于中译英的应用场景时，第一训练样本集合的语种可以为中文，再例如，当翻译模型应用于英译法的应用场景时，第一训练样本集合的语种可以为英文，又例如，当翻译模型应用于中法互译的应用场景时，第一训练样本集合的语种可以包括中文和/或法文。

在本发明的一些实施例中，第一训练样本集合可以为语音形式，或者也可以为文本形式，可以预先采集文本形式的第一训练样本集合和/或语音形式的第一训练样本集合，例如，可以通常的语句收集方式，采集文本形式的第一训练样本集合和/或语音形式的第一训练样本集合，并将采集的文本形式的第一训练样本集合和/或语音形式的第一训练样本集合存储在预设存储装置中。从而，本申请中，在对翻译模型进行训练时，可以从上述存储装置中，获取第一训练样本集合。

步骤1102：对第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合。

在本发明的一些实施例中，对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合，可以通过以下方式实现：

确定与所述翻译模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中由于翻译模型的使用环境不同，与所述翻译模型的使用环境相匹配的动态噪声阈值也不相同，例如，学术翻译的使用环境中，与所述翻译模型的使用环境相匹配的动态噪声阈值需要小于文章阅读环境中的动态噪声阈值。

确定与所述翻译模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。其中，当翻译模型固化于相应的硬件机构中，使用环境为口语化翻译时，通过固定翻译模型相对应的固定噪声阈值，能够有效提神翻译模型的训练速度，减少用户的等待时间。

步骤1103：通过翻译模型对所述第一训练样本集合进行处理，以确定所述翻译模型的初始参数。

在本发明的一些实施例中，根据所述待翻译语句，初始化所述解码器网络以更新所述解码器网络的参数，可以通过以下方式实现：

通过所述解码器网络的编码器对所述待翻译语句进行编码，形成所述待翻译语句的编码结果；通过所述解码器网络的解码器，对所述待翻译语句的编码结果进行解码；当解码得到与所述待翻译语句相对应的翻译结果的被选取概率时，确定所述解码器网络的参数。例如：初始化训练训练后的翻译模型的解码器网络根据相应的待翻译语句生成了3个生成翻译结果词语，分别是翻译结果a(概率为0.25)、翻译结果b(概率为0.5)以及翻译结果c(概率为0.25)，那么概率分布为{0.25，0.5，0.25}。

步骤1104：响应于所述翻译模型的初始参数，通过所述翻译模型对所述第二训练样本集合进行处理，确定所述翻译模型的更新参数。

步骤1105：根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新。

由此，可以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果。

在本发明的一些实施例中，所述方法还包括：

对所述第一训练样本集合进行负例处理，以形成与所述第一训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述翻译模型的编码器参数和解码器参数调整；

根据所述负例样本集合确定相应的双语评估研究值，其中，所述双语评估研究值(blue)，用于作为监督参数对所述翻译模型的翻译结果进行评价。

在本发明的一些实施例中，对应的编码器和对应的解码器可以为为双向网络模型，例如可以均选用Bi-GRU双向GRU模型作为对应的编码器和对应的解码器，此处的Bi-GRU双向GRU模型是一种可以识别倒装句结构的模型。由于用户在输入对话语句时，可能使得该对话语句为倒装句结构，即与正常的语句结构不一样，例如用户输入的对话语句为“天气怎么样今天”，而正常的语句结构为“今天天气怎么样”，采用Bi-GRU双向GRU模型可以识别出倒装句结构的对话语句，从而可以丰富训练后的模型的功能，进而可以提高最终训练得到的目标模型的鲁棒性。

继续参考图12，图12为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图，可以理解地，图12所示的步骤可以由运行翻译模型训练装置的各种电子设备执行，例如可以是如带有模型训练功能的专用终端、带有翻译模型训练功能的服务器或者服务器集群。下面针对图12示出的步骤进行说明。

步骤1201：将所述第二训练样本集合中不同语句样本，代入由所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数。

步骤1202：确定所述损失函数满足收敛条件时对应所述翻译模型中编码器的参数和相应的解码器参数作为所述翻译模型的更新参数。

步骤1203：通过所述翻译模型的更新参数，确定与所述第一训练样本集合相匹配的第一噪声参数。

其中，所述第一噪声参数用于表征所述第一训练样本集合中平行语句样本的噪声值；

步骤1204：通过所述翻译模型的更新参数，确定与所述第二训练样本集合相匹配的第二噪声参数。

其中，所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

步骤1205：确定所述第一噪声参数与所述第二噪声参数中噪声值最小的噪声参数；

步骤1206：根据所述第一噪声参数与所述第二噪声参数中噪声值最小的噪声参数，对所述翻译模型的编码器参数和解码器参数进行迭代更新，直至所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数满足对应的收敛条件。

其中，编码器网络的损失函数表示为：

loss_A＝∑(decoder_A(encoder(warp(x1)))-x1)2；其中，decoder_A为解码器A，warp为待翻译语句的函数，x₁为待翻译语句，encoder为编码器。

在迭代训练的过程中，通过将待翻译语句代入编码器网络的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器A和解码器A的参数，当损失函数收敛时(即确定能够形成与所述待翻译语句所对应的词语级的隐变量时)，结束训练。

对编码器网络的训练过程中，编码器网络的损失函数表示为：loss_B＝∑(decoder_B(encoder(warp(x2)))-x2)2；其中，decoder_B为解码器B，warp为待翻译语句的函数，x2为待翻译语句，encoder为编码器。

在迭代训练的过程中，通过将待翻译语句代入编码器网络的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器B和解码器B的参数；当损失函数收敛时(即当解码得到与所述待翻译语句相对应的翻译结果的被选取概率时)，结束训练。

下面对本发明实施例的翻译模型处理装置的结构做详细说明，翻译模型处理装置可以各种形式来实施，如带有根据能够运行翻译模型的专用终端，也可以为带有回答的功能的服务器，以根据终端中的应用程序所接收的待翻译语句生成相应的翻译结果(例如前序图1中的服务器300)。图13为本发明实施例提供的翻译模型处理装置的组成结构示意图，可以理解，图13仅仅示出了翻译模型处理装置的示例性结构而非全部结构，根据需要可以实施图13示出的部分结构或全部结构。

本发明实施例提供的翻译模型处理装置包括：至少一个处理器1301、存储器1302、用户接口1303和至少一个网络接口1304。翻译模型处理装置130中的各个组件通过总线系统1305耦合在一起。可以理解，总线系统1305用于实现这些组件之间的连接通信。总线系统1305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图13中将各种总线都标为总线系统1305。

其中，用户接口1303可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器1302可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器1302能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的翻译模型处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的翻译模型处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的翻译模型的文本语句处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的翻译模型处理装置采用软硬件结合实施的示例，本发明实施例所提供的翻译模型处理装置可以直接体现为由处理器1301执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器1302，处理器1301读取存储器1302中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1301以及连接到总线1305的其他组件)完成本发明实施例提供的翻译模型的文本语句处理方法。

作为示例，处理器1301可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的翻译模型处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器1301来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的翻译模型的文本语句处理方法。

本发明实施例中的存储器1302用于存储各种类型的数据以支持翻译模型处理装置130的操作。这些数据的示例包括：用于在翻译模型处理装置130上操作的任何可执行指令，如可执行指令，实现本发明实施例的从翻译模型的文本语句处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的翻译模型处理装置可以采用软件方式实现，图13示出了存储在存储器1302中的翻译模型处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器1302中存储的程序的示例，可以包括翻译模型处理装置，翻译模型处理装置中包括以下的软件模块：隐变量生成网络模块13081，翻译结果生成网络模块13082。当翻译模型处理装置中的软件模块被处理器1301读取到RAM中并执行时，将实现本发明实施例提供的翻译模型的文本语句处理方法，翻译模型处理装置中各个软件模块的功能包括：

编码器模块1381，用于通过翻译模型的编码器，确定与待翻译语句所对应的至少一个词语级的隐变量；

解码器模块1382，用于通过所述翻译模型的解码器，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率；

所述解码器模块1382，用于根据所述翻译结果的被选取概率，选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果；

所述解码器模块1382，用于输出所述翻译结果。

结合图13示出的翻译模型处理装置130说明本发明实施例提供的翻译模型的文本语句处理方法，参见图14，图14为本发明实施例提供的翻译模型的文本语句处理方法一个可选的流程示意图，可以理解地，图14所示的步骤可以由运行翻译模型处理装置的各种电子设备执行，例如可以是如带有待翻译语句处理功能的专用终端、带有待翻译语句处理功能的服务器或者服务器集群。下面针对图14示出的步骤进行说明。

步骤1401：通过翻译模型的编码器，确定与待翻译语句所对应的至少一个词语级的隐变量。

步骤1402：通过所述翻译模型的解码器，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率。

步骤1403：根据所述翻译结果的被选取概率，选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果。

步骤1404：输出所述翻译结果。

图15为本发明实施例所提供的翻译模型的前端显示界面示意图，通过本实施例所示的翻译模型能够对待翻译语句进行处理，生成相应的翻译文本。其中，目标待翻译为用户通过前端显示界面所输入的“当我能找到时间的时候，我想去野营，和我的朋友们一起点篝火。”

通过所述翻译模型的处理，形成相应的翻译文本供用户选择以及所述翻译结果的被选取概率。

根据所述翻译结果的被选取概率，选取翻译结果组成与所述待翻译语句相对应的翻译结果包括以下三种组合：

1)“When I can find time，I want to go camping and light a bonfire withmy friends”。

2)“When I find time，go camping and light a bonfire with yourfriends”。

3)“When you find time，go camping friends and light a campfire”。

由此，通过本发明所提供的翻译模型，可以实现根据同一个待翻译语句可以生成多种不同的翻译结果。

下面结合图15所示的翻译模型的前端显示示意图，对本发明实施例所提供的翻译模型训练过程过程进行说明，其中，传统技术中，训练预测器(predictor)需要大量的干净的平行语句，然而实际上很多小语种的翻译场景中这仍然很不现实，如果预测器的效果不理想，很容易将错误传播到估计器(estimator)从而导致评估产生偏差。

通过去噪的方式处理过程中，阈值设定将会影响模型训练的过程，阈值太小则不容易把噪声消除干净，阈值太大则会把大量有效的训练数据浪费。通过少量干净数据微调模型的方法很容易让模型在特定数据集或特定领域产生bias，不利用模型的泛化。参考图16，图16为本发明实施例中翻译模型一个可选的训练架构示意图，其中，本发明的输入是带噪平行语句C_n，经过去噪模块之后得到一份相对干净的平行语句C_c，分别用带有噪声的语句和去噪语句训练和微调得到模型model_n和模型model_c，通过这两个模型对带有噪声的语句的验证，计算语句的噪声水平，并进一步用噪声水平低的语句微调模型，通过多次迭代优化噪声水平的计算方式，优化微调模型的效果。

下面分别介绍不同模块的具体作用，其中，可以参考图17，图17为本发明实施例中去噪模块的一个可选的结构示意图，其中可以用corpus_n表示带噪声的平行语句，corpus_c表示无噪声或噪声程度可接受的平行语句。首先，需要一份相对干净的语句上构建一个翻译模型(如图17右侧部分所示的翻译模型)，可选的该翻译模型为需要进行单独训练的transformer翻译模型，这个翻译模型需要单独训练，其目的是为了构建一个相对可靠的翻译结果预测器(predictor)，该预测器可以建模语言模型的特征，避免人工抽取质量评估特征所需要的大量工作。预测器的损失函数定义为：

其中，y(s)目标语言的句子，x(s)为源语言句子，训练模型的的目标是让模型的预测结果与目标语言的句子尽可能接近，即给定源语言句子x(s)的条件下模型预测目标语言的句子y(s)的概率最大。

经过transformer模型的平行句对，可以计算出翻译模型的预测结果和平行句对每个词是否有差别，这种差别将作为bi-lstm模型的输入，用于估计平行句对的质量。例如输入平行句对“zh：我爱中国；en：I love China”，翻译模型将得到在第三个词预测成“China”的概率和其他词(如America)的概率，以表示predictor模型在输入x和y的条件下的预测结果，是一个的矩阵，n为句子长度，m为目标语言的词表长度。那么bi-lstm模型的输入包含5个特征维度：(1)p[i,j_k]，j_k表示y_i对应的词表下标；(2)p[i,j_max]表示第i行最大的概率；(3)p[i,j_k]-p[i,j_max]；(4)p[i,j_k]和p[i,j_max]是否相等。

图17右侧部分模型用于训练源语言与目标语言的的语义匹配程度，x(s)和y(s)分别进入transformer模型，被encode成向量序列encode(x(s))和encode(y(s))，通过计算encode(x(s))和encode(y(s))的cross attention获得x(s)和y(s)的语义相似性。

经过predictor和cross attention两部分模型的向量最后拼接成一个向量，以及一个句子长度比值。在分类场景下，拼接向量经过softmax层计算cross entropyloss进行训练；在回归场景下拼接向量经过计算MSE loss来训练。

有用训练分类模型需要大量的正例和负例样本，其中正例样本相对易于获得，已有大量平行语句可以直接作为正例样本，然而负例样本的标注代价比较高昂，本发明通过人工构造的方法获得负例。具体如下：

(1)根据已有语句训练翻译模型，在翻译模型的解码层根据采样生成翻译结果，将翻译结果作为负例。

(2)随机将打乱平行句对的对齐，生成平行句对的负例。

(3)随机将平行句对的词语删除或替换其中的一些片段。对于回归的场景，通过计算负例的BLEU值作为质量评估的监督信息。

继续参考图18，图18为本发明实施例中模型调整过程示意图，其中，传统技术中，语句的噪声水平通常很难直接表示，以“zh:公共汽车站在那里？En:Where is the busstop？For bus 81”为例，对于缺少“Where is the bus stop？”语句的模型来说，这样的平行句对有利于模型的训练，提高模型的泛化能力，但对于训练集中已经包含相似语句的模型来说，“For bus 81”部分对模型有副作用，因此简单的通过“good\bad”分类，或是一个质量评分来判断是否删除这类语句过于粗暴。如图3所示，本发明采用微调模型的方式训练带有噪声的语句，首先利用带有噪声的语句训练一个模型model_n，接着采用上文所述的去噪方法对带有噪声的语句进行去噪得到相对干净的语句corpus_c0，并用corpus_c0微调得到分别利用和model_c对带噪平行句对验证，即计算和由于model_c是利用更干净的语句微调过的，对于提升相对更高的句子，其噪声水平可以认为更低，因此本发明利用和的差值表示平行句对的噪声水平，其计算方式如下：

其中γ是超参数，主要是考虑到翻译解码过程中的错误传播使得位于句子头部的词翻译好坏对最终的翻译效果影响更大。

选择Score_noise更小的平行句对进一步微调以获得一个更好的模型并在的基础上重新计算公式(3)获得更客观的Score_noise得分，迭代执行去噪和微调的过程。

通过上述图17-18所示的翻译模型处理方法，相比于传统技术中的平行语句或多或少地存在噪声，本方案避免了手工设计过滤规则带来的高昂成本，也减小了预测-估计(predictor-estimator)模型需要大量平行语句来构建翻译模型所需要的代价，可以更加适应小语种(缺少训练样本的目标语种)的翻译场景。

在负例构造过程中，本发明采用多种人工合成负例的方式，可以有效减少构建负例的代价，提高负例构建的效率，并且可以增加负例的多样性，使得模型的泛化能力更强。

同时，在平行语句中，噪声的定义通常不确定，不同的场景下同一个平行句对可以是噪声，也可以为模型训练带来有效的增益。本发明在训练带有噪声的语句时不是简单的删除所谓的噪声数据，而是利用微调模型前后的变化计算平行句对的噪声水平，一方面可以有效充分利用噪声语句对模型训练的增益，另一方面让噪声的计算能够适应具体的模型训练场景，提示模型的针对性处理能力。

最后，本发明所提供的翻译模型可以针对的通用领域的翻译，因此需要避免利用特定领域的少量干净数据微调模型带来的领域局限性。由于高质量平行语句获得代价高昂，要获得大量高质量的平行语句在通用领域通常不太现实，本发明采用去噪的方式获得干净语句可以显著降低高质量语句的获得成本，同时避免模型的领域局限性，提升模型的泛化能力。

综上所述，本发明实施例具有以下技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种翻译模型的训练方法，其特征在于，所述训练方法包括：

根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新。

2.根据权利要求1所述的方法，其特征在于，

所述对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合，包括：

确定与所述翻译模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；或者，

确定与所述翻译模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述负例样本集合确定相应的双语评估研究值，其中，所述双语评估研究值，用于作为监督参数对所述翻译模型的翻译结果进行评价。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一训练样本集合进行负例处理，包括：

将所述翻译模型的解码器中待输出语句进行随机组合，以形成与所述第一训练样本集合相对应的负例样本集合；或者，

对所述翻译模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。

5.根据权利要求1所述的方法，其特征在于，所述响应于所述翻译模型的初始参数，通过所述翻译模型对所述第二训练样本集合进行处理，确定所述翻译模型的更新参数，包括：

将所述第二训练样本集合中不同语句样本，代入由所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数；

确定所述损失函数满足收敛条件时对应所述翻译模型中编码器的参数和相应的解码器参数作为所述翻译模型的更新参数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新，包括：

通过所述翻译模型的更新参数，确定与所述第一训练样本集合相匹配的第一噪声参数，所述第一噪声参数用于表征所述第一训练样本集合中平行语句样本的噪声值；

通过所述翻译模型的更新参数，确定与所述第二训练样本集合相匹配的第二噪声参数，所述第二噪声参数用于表征所述第二训练样本集合中平行语句样本的噪声值；

确定所述第一噪声参数与所述第二噪声参数中噪声值最小的噪声参数；

根据所述第一噪声参数与所述第二噪声参数中噪声值最小的噪声参数，对所述翻译模型的编码器参数和解码器参数进行迭代更新，直至所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数满足对应的收敛条件。

7.一种翻译模型的文本处理方法，其特征在于，所述方法包括：

输出所述翻译结果；

其中，所述翻译模型基于如权利要求1至6任一项所述的方法训练得到。

8.一种翻译模型的训练装置，其特征在于，所述训练装置包括：

所述翻译模型训练模块，用于根据所述翻译模型的更新参数，通过所述第一训练样本集合和所述第二训练样本集合对所述翻译模型的编码器参数和解码器参数进行迭代更新。

9.根据权利要求8所述的装置，其特征在于，

所述去噪模块，用于确定与所述翻译模型的使用环境相匹配的动态噪声阈值；

所述去噪模块，用于根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；

所述去噪模块，用于确定与所述翻译模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

10.根据权利要求9所述的装置，其特征在于，

所述翻译模型训练模块，用于对所述第一训练样本集合进行负例处理，以形成与所述第一训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述翻译模型的编码器参数和解码器参数调整；

所述翻译模型训练模块，用于根据所述负例样本集合确定相应的双语评估研究值，其中，所述双语评估研究值，用于作为监督参数对所述翻译模型的翻译结果进行评价。

11.根据权利要求10所述的装置，其特征在于，

所述翻译模型训练模块，用于将所述翻译模型的解码器中待输出语句进行随机组合，以形成与所述第一训练样本集合相对应的负例样本集合；

所述翻译模型训练模块，用于对所述翻译模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。

12.一种翻译模型处理装置，其特征在于，所述装置包括：

所述解码器模块，用于输出所述翻译结果。

13.一种翻译模型的训练装置，其特征在于，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至6任一项所述的翻译模型的训练方法。

14.一种融合图像处理装置，其特征在于，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求7所述的翻译模型的文本处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至6任一项所述的翻译模型的训练方法，或者实现权利要求7所述的翻译模型的文本处理方法。