CN113723117B

CN113723117B - 一种翻译模型的训练方法、装置和用于翻译模型训练的装置

Info

Publication number: CN113723117B
Application number: CN202110866788.4A
Authority: CN
Inventors: 张培; 章杰; 张旭; 余健; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-04-30
Anticipated expiration: 2041-07-29
Also published as: CN113723117A

Abstract

本发明实施例提供了一种翻译模型的训练方法、装置和用于翻译模型训练的装置。所述方法包括：获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句；基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果；根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。本发明实施例能够快速、有效的提升翻译模型翻译结果的流畅度，提高翻译模型的翻译性能。

Description

一种翻译模型的训练方法、装置和用于翻译模型训练的装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种翻译模型的训练方法、装置和用于翻译模型训练的装置。

背景技术

随着计算机运算能力的提升，神经网络的应用越来越广泛，例如构建翻译模型，以实现待翻译语句到目标语句的转换。

然而，由于翻译模型本身缺少时序信息，存在翻译的语句不流畅、句子与句子之间不连贯的问题。再加上翻译模型通常为一种端到端的网络结构，包括编码器和解码器，编码器包括多个编码层，解码器包括多个解码层，模型结构复杂，增加了翻译模型的性能改进难度。或者，可以通过额外引入大量的训练语料，对翻译模型进行训练优化，但是训练周期较长且消耗的计算资源高。

因此，如何快速、有效的提升翻译模型翻译结果的流畅度，提高翻译模型的翻译性能成为目前亟待解决的问题。

发明内容

本发明实施例提供一种翻译模型的训练方法、装置和用于翻译模型训练的装置，可以快速、有效的提升翻译模型翻译结果的流畅度，提高翻译模型的翻译性能。

为了解决上述问题，本发明实施例公开了一种翻译模型的训练方法，所述方法包括：

获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句；

基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果；

根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。

可选地，所述基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果，包括：

将所述训练语句输入至所述翻译模型的编码器中进行编码处理，得到编码信息矩阵，所述编码信息矩阵包含所述训练语句中各个词语的词向量；

根据所述训练语句中的当前待翻译词语确定参考结果矩阵，所述参考结果矩阵包括所述训练语句中当前待翻译词语之前的各个词语对应的参考词向量；

基于训练完成的语言模型和待训练的翻译模型对所述编码信息矩阵和所述参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果。

可选地，所述基于训练完成的语言模型和待训练的翻译模型对所述编码信息矩阵和所述参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果，包括：

将所述语言模型的解码器与所述翻译模型的解码器进行融合，得到目标解码器；

将所述编码信息矩阵和所述参考结果矩阵输入至所述目标解码器中进行解码处理，得到所述训练语句对应的翻译结果；

所述根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，包括：

根据所述训练语句对应的翻译结果和所述目标语句，计算所述翻译模型的损失值。

可选地，所述将所述编码信息矩阵和所述参考结果矩阵输入至所述目标解码器中进行解码处理，得到所述训练语句对应的翻译结果，包括：

将所述参考结果矩阵分别输入所述目标解码器的第一网络层和第二网络层，得到第一输出矩阵和第二输出矩阵，所述第一网络层属于所述语言模型的解码器，所述第二网络层属于所述翻译模型的解码器；

对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵；

将所述编码信息矩阵和所述融合矩阵输入所述目标解码器的第三网络层，得到所述训练语句对应的翻译结果，所述第三网络层属于所述翻译模型的解码器。

可选地，所述对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵，包括：

根据上一轮训练语句对应翻译结果的流畅程度，调整所述第一输出矩阵和/或所述第二输出矩阵的权重值；

根据调整后的第一输出矩阵和/或第二输出矩阵的权重值，对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵。

将所述参考结果矩阵输入至所述语言模型的解码器中进行解码处理，得到所述训练语句对应的语言处理结果；

将所述编码信息矩阵和所述参考结果矩阵输入至所述翻译模型的解码器中进行解码处理，得到所述训练语句对应的翻译结果；

所述根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数，包括：

根据所述参考结果矩阵和所述训练语句对应的语言处理结果，确定第一损失值；

根据所述训练语句对应的翻译结果和所述目标语句，确定第二损失值；

对所述第一损失值和所述第二损失值进行加权求和，得到所述翻译模型和所述语言模型的联合损失值，并根据所述联合损失值调整所述翻译模型的模型参数。

可选地，所述语言模型的解码器和所述翻译模型的解码器共享分类网络层。

另一方面，本发明实施例公开了一种翻译模型的训练装置，所述装置包括：

训练样本获取模块，用于获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句；

联合处理模块，用于基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果；

参数调整模块，用于根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。

可选地，所述联合处理模块，包括：

第一矩阵确定子模块，用于将所述训练语句输入至所述翻译模型的编码器中进行编码处理，得到编码信息矩阵，所述编码信息矩阵包含所述训练语句中各个词语的词向量；

第二矩阵确定子模块，用于根据所述训练语句中的当前待翻译词语确定参考结果矩阵，所述参考结果矩阵包括所述训练语句中当前待翻译词语之前的各个词语对应的参考词向量；

联合处理子模块，用于基于训练完成的语言模型和待训练的翻译模型对所述编码信息矩阵和所述参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果。

可选地，所述联合处理子模块，包括：

解码器融合单元，用于将所述语言模型的解码器与所述翻译模型的解码器进行融合，得到目标解码器；

解码处理单元，用于将所述编码信息矩阵和所述参考结果矩阵输入至所述目标解码器中进行解码处理，得到所述训练语句对应的翻译结果；

所述参数调整模块，包括：

损失值计算子模块，用于根据所述训练语句对应的翻译结果和所述目标语句，计算所述翻译模型的损失值。

可选地，所述解码处理单元，包括：

第一处理子单元，用于将所述参考结果矩阵分别输入所述目标解码器的第一网络层和第二网络层，得到第一输出矩阵和第二输出矩阵，所述第一网络层属于所述语言模型的解码器，所述第二网络层属于所述翻译模型的解码器；

第二处理子单元，用于对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵；

第三处理子单元，用于将所述编码信息矩阵和所述融合矩阵输入所述目标解码器的第三网络层，得到所述训练语句对应的翻译结果，所述第三网络层属于所述翻译模型的解码器。

可选地，所述第二处理子单元，还用于：

可选地，所述联合处理子模块，包括：

语言模型解码单元，用于将所述参考结果矩阵输入至所述语言模型的解码器中进行解码处理，得到所述训练语句对应的语言处理结果；

翻译模型解码单元，用于将所述编码信息矩阵和所述参考结果矩阵输入至所述翻译模型的解码器中进行解码处理，得到所述训练语句对应的翻译结果；

所述参数调整模块，包括：

第一损失值确定子模块，用于根据所述参考结果矩阵和所述训练语句对应的语言处理结果，确定第一损失值；

第二损失值确定子模块，用于根据所述训练语句对应的翻译结果和所述目标语句，确定第二损失值；

联合损失值确定子模块，用于对所述第一损失值和所述第二损失值进行加权求和，得到所述翻译模型和所述语言模型的联合损失值，并根据所述联合损失值调整所述翻译模型的模型参数。

再一方面，本发明实施例公开了一种用于翻译模型训练的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述的翻译模型的训练方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的翻译模型的训练方法。

本发明实施例包括以下优点：

本发明实施例基于训练完成的语言模型和待训练的翻译模型对训练样本中的训练语句进行联合处理，得到所述训练语句对应的翻译结果，然后根据所述翻译结果和所述训练语句对应的目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。本发明实施例通过在翻译模型的训练过程中引入语言模型，利用训练完成的语言模型和待训练的翻译模型对训练语句进行联合处理，无需额外引入大量的训练语料，降低了翻译模型的训练时长和计算资源的消耗，也不需要对翻译模型的网络结构进行改变，能够快速、有效的提升翻译模型翻译结果的流畅度，提高翻译模型的翻译性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种计算机系统的结构示意图；

图2是本发明的一种翻译模型的训练方法实施例的步骤流程图；

图3是本发明的一种翻译模型架构示意图；

图4是本发明的一种翻译模型和语言模型的融合结构示意图；

图5是本发明的一种目标解码器的结构示意图；

图6是本发明的另一种翻译模型和语言模型的融合结构示意图；

图7是本发明的一种翻译模型的训练装置实施例的结构框图；

图8是本发明的一种用于翻译模型训练的装置800的框图；

图9是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

本发明实施例提供了一种翻译模型的训练方法，可应用于机器翻译、对话问答等场景中。

在机器翻译场景下，采用本发明实施例提供方法所训练的翻译模型可应用于电子词典应用程序、电子书应用程序、网页浏览应用程序、社交应用程序、图文识别应用程序等支持翻译功能的应用程序中。当上述应用程序接收到待翻译的内容时，训练完成的翻译模型根据输入的待翻译的内容，输出翻译结果。示例性的，待翻译的内容包括文本类型的内容、图片类型的内容、音频类型的内容和视频类型的内容中的至少一种。其中，图片类型的内容包括终端的摄像头组件拍摄的照片或含有待翻译内容的图片，本发明实施例对此不做具体限定。

在对话问答场景下，采用本发明实施例提供的方法所训练的翻译模型可应用于智能终端或智能家居等智能设备中。以智能终端中设置的虚拟助理为例，该虚拟助理的自动问答功能是通过上述训练后的翻译模型实现的。用户向虚拟助理提出有关翻译的问题，当虚拟助理接收到用户输入的问题时，翻译模型根据输入的问题，输出翻译结果。进一步的，将翻译结果可以转换为语音或文字，例如借助于虚拟助理反馈给用户。其中，用户输入的交互问题可以输入语音，也可以输入文字，对此，本发明实施例不做具体限定。

以上两种应用场景仅为示例性的说明，并不构成对本发明实施例应用场景的限定。本发明实施例提供的翻译模型的训练方法还可以应用于其他任何需要进行机器翻译的场景。

需要说明的是，本发明实施例提供的翻译模型的训练方法，可以应用于具有数据处理能力的计算机设备中。在一种可选实施例中，本发明实施例提供的翻译模型的训练方法可以应用于个人计算机、工作站或服务器中，即可以通过个人计算机、工作站或服务器实现机器翻译以及训练翻译模型。

对于训练完成的翻译模型，其可以成为应用程序的一部分，并被安装在终端中，使终端在接收到待翻译的内容时，输出翻译结果；或者，训练完成的翻译模型被设置在应用程序的后台服务器中，以便安装有应用程序的终端借助后台服务器实现翻译功能。

参照图1，示出了本发明实施例提供的一种计算机系统的结构示意图，该计算机系统包括终端110和服务器120。其中，终端110与服务器120之间通过通信网络进行数据通信。可选地，所述通信网络可以是有线网络，也可以是无线网络，且所述通信网络可以是局域网、城域网以及广域网中的至少一种。

终端110中安装有支持翻译功能的应用程序，该应用程序可以是电子书阅读应用程序、电子词典应用程序、网页浏览应用程序、游戏应用程序、社交应用程序等，本发明实施例对此不做具体限定。

可选地，终端110可以是智能手机、智能手表、平板电脑、膝上便携式笔记本电脑、智能机器人等移动终端，也可以是台式电脑、投影式电脑等终端，本发明实施例对终端的类型不做限定。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以提供云服务、云数据库、云计算、云函数、云存储、云通信、网络服务、中间件服务、内容分发网络(Content Delivery Network，CDN)，以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可选实施例中，服务器120可以是终端110中应用程序的后台服务器。

在一些实施例中，终端110中包括麦克风；终端110通过麦克风采集语音内容，并将采集得到的语音内容发送至服务器120.服务器120中包括语音翻译模块，所述语音翻译模块中包括训练完成的翻译模型。服务器120接收终端110发送的语音内容，通过翻译模型对语音内容进行翻译后得到翻译结果，并将翻译结果发送至终端110进行展示。

或者，终端110中包括语音翻译模块，所述语音翻译模块中包括训练完成的翻译模型。终端110采集得到语音内容之后，通过翻译模型对语音内容进行翻译后得到翻译结果，并对翻译结果进行展示。

在一些实施例中，终端110中包括文本输入控件，终端110通过文本输入控件获取文本内容，并将获取的文本内容发送至服务器120。服务器120中包括文本翻译模块，该文本翻译模块中包括训练完成的翻译模型；服务器120接收终端110发送的文本内容，通过翻译模型对文本内容进行翻译后得到翻译结果，并将翻译结果发送至终端110进行展示。

或者，终端110中包括文本翻译模块，该文本翻译模块中包括训练完成的翻译模型。终端110获取到文本内容之后，通过翻译模型对文本内容进行翻译后得到翻译结果，并对翻译结果进行展示。

在一些实施例中，终端110中包括摄像头组件；终端110通过摄像头组件获取图片内容，该图片内容包括待翻译的内容，终端110将图片发送至服务器120。服务器120中包括图片翻译模块，该图片翻译模块中包括训练完成的翻译模型；服务器120接收终端110发送的图片，通过机器翻译模型对图片中的内容进行识别并翻译，并将翻译结果发送至终端110中进行展示。

或者，终端110中包括图片翻译模块，该图片翻译模块中包括训练完成的翻译模型。终端在获取到图片后，通过翻译模型对图片内容进行翻译后得到翻译结果，并对翻译结果进行展示。

需要说明的是，在上述实施例中，终端的展示方式包括语音形式或文字形式。

为了方便表述，下述各个实施例以翻译模型的训练方法由服务器执行为例进行说明。

参照图2，示出了本发明的一种翻译模型的训练方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤201、获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句。

步骤202、基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果。

步骤203、根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。

根据所述损失值调整所述翻译模型的模型参数直到满足收敛条件得到训练完成的翻译模型。

其中，训练语句为用于训练的待翻译语句；目标语句为待翻译语句被翻译之后获得的语句，用于训练过程中，翻译模型的输出结果的准确度。训练语句和目标语句的语种可以为汉语、英语、法语、意大利语、德语等任意语种，当然也可以是任一的方言，在本发明实施例中，不对训练样本的语种进行任何限定。同样，本发明实施例也不限制训练样本的长度，比如，训练语句可以是一句话，或多句话等。获取训练语句和所述训练语句对应的目标语句的方式有很多，例如网络上现有的翻译对照语句、计算机设备上存储的翻译对照文章等，都可以作为本发明实施例的语言训练样本。

语言模型用于确定输入的文本数据中包含的字与字之间的关联关系。该语言模型可以基于预先设定的算法构建，对此，本发明实施例不做具体限定。

翻译模型包括编码器和解码器，用于将待翻译语句经过编码器编码成一个编码信息矩阵，然后利用解码器对编码信息矩阵进行解码，得到待翻译语句对应的翻译结果。其中的编码和解码过程可以通过卷积神经网络(Convolution nNeural Networks，CNN)或循环神经网络(Recurrent nNeural Networks，RNN)模型实现。可以将NMT(Neural MachineTranslation，神经网络机器翻译)模型看做一个复杂的神经网络，通过对其进行迭代训练，直至满足收敛条件，得到训练完成的翻译模型。训练完成的翻译模型可以用于执行翻译任务。

在本发明实施例中，对翻译模型进行训练之前，先基于单语语料对语言模型进行训练，得到一个性能稳的语言模型，然后再引入训练完成的语言模型对翻译模型进行训练，以保证翻译模型输出的翻译结果的流畅度。

步骤202所述基于训练完成的语言模型和待训练的翻译模型对训练语句进行联合处理，包括将语言模型与翻译模型进行串联，基于串联的语言模型和翻译模型对训练语句进行联合处理，得到训练语句的翻译结果；或者，将语言模型的解码器与翻译模型的解码器进行融合，基于融合后的解码器对翻译模型的编码器输出的编码信息矩阵进行联合处理，得到训练语句的翻译结果。无论采用哪种联合处理方式，都是在翻译模型输出翻译结果之前，引入语言模型，为最终输出的翻译结果增加相应的时序信息，确定输出的翻译结果中各个词语之间的关联关系，以提升翻译结果的流畅度。

最后，在每轮训练完成后，根据训练语句对应的翻译结果和目标语句，计算翻译模型的损失值，并根据该损失值调整翻译模型的模型参数，直至满足收敛条件得到训练完成的翻译模型。其中，翻译模型的损失值可以根据翻译结果与目标语句的交叉熵确定。收敛条件可以为多轮训练中，翻译模型的损失值小于预设阈值，或者，损失值之间的误差小于预设值。

参照图3，示出了一种主流的翻译模型架构示意图：Transformer框架。以Transformer框架为例，对本发明实施例中翻译模型的工作流程进行说明。基于Transformer框架构建的翻译模型，主要包括编码器和解码器。词嵌入层(sourceembedding)用于接收输入的待翻译语句，将待翻译语句进行词嵌入处理，以得到待翻译语句中包含的各个词语对应的词向量。编码器和解码器包括多个层，编码器/解码器的每一层是由一些编码单元/解码单元构成。其中，编码器的各层把待翻译语句对应的词向量经过一系列的神经网络变换后，表示成一个高维向量。解码器的各层负责把编码器输出的高维向量再重新解码(翻译)成目标语言。

需要说明的是，编码器的每一层可以包括自注意力层(self-attention)和前馈网络层(feed forward)。其中，编码器的自注意力层是为了在编码每个词向量时，将待翻译语句中各个词的词向量的权重都考虑进入。编码器的前馈网络层是为了对自注意力层的输出向量进行非线性变换处理。解码器的每一层可以包括注意力层(self-attention)、编码-解码关注层(encoder-decoder attention)和前馈网络层(feed forward)。解码器的自注意力层在解码的过程中考虑已经翻译的新词对当前解码的词向量的影响，也即本发明实施例中的参考结果矩阵对当前解码的词向量的影响，所述参考结果矩阵包括训练语句中已经翻译的各个词语对应的词向量。解码器的编码-解码关注层考虑编码器的输出对当前解码的词向量的影响。解码器的前馈网络层是为了对编码-解码关注层的输出向量进行非线性变换处理。分类网络层用于接收解码器的最后一层网络层输出的解码向量，并将解码向量转换为翻译结果，比如生成一个新词。已经生成的新词通过嵌入层进行处理后，获取已经生成的新词的词向量，该已经生成的新词的词向量作为解码器的第一层网络层的输入，这个过程一直循环下去，直到生成一个结尾符号，或者满足其他预设的停止条件，则解码阶段生成的所有的词语组成翻译结果。

下面将结合图3所示的翻译模型架构，说明本发明实施例中基于训练完成的语言模型和待训练的翻译模型对训练语句进行联合处理的具体处理过程。

在本发明的一种可选实施例中，步骤202所述基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果，包括：

步骤S11、将所述训练语句输入至所述翻译模型的编码器中进行编码处理，得到编码信息矩阵，所述编码信息矩阵包含所述训练语句中各个词语的词向量；

步骤S12、根据所述训练语句中的当前待翻译词语确定参考结果矩阵，所述参考结果矩阵包括所述训练语句中当前待翻译词语之前的各个词语对应的参考词向量；

步骤S13、基于训练完成的语言模型和待训练的翻译模型对所述编码信息矩阵和所述参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果。

需要说明的是，本发明实施例中的词语是词和短语的合称，包括词(含单词、合成词)和词组(又称短语)，是组成语句文章的最小组词结构单元。若语句的语种为汉语，所述词语可以为字、词、词组等；若语句的语种为英语，所述词语可以为英文单词等。

基于训练完成的语言模型和待训练的翻译模型对训练样本进行联合处理时，可以将训练语句输入到翻译模型的编码器中进行编码处理，得到编码信息矩阵。如图3所示，可以先将训练语句输入到词嵌入层，得到待翻译的训练语句中各个词语对应的词向量，各个词向量构成了训练语句对应的输入矩阵，将该输入矩阵输入到编码器中进行编码处理，都可以得到各个词向量对应的编码结果。

此外，还可以根据训练语句中的当前待翻译词语确定参考结果矩阵，该参考结果矩阵包括训练语句中当前待翻译词语之前的各个词语对应的参考向量，也即训练语句中已经翻译的新词对应的词向量。对于初始的第一个待翻译词语，参考结果矩阵为设定的初始值，例如可以为0；对于除去第一个待翻译词语的其他待翻译词语，参考结果矩阵为训练语句中的当前待翻译词语之前的各个词语对应的词向量组成的矩阵。

得到编码信息矩阵和参考结果矩阵之后，基于训练完成的语言模型和待训练的翻译模型对编码信息矩阵和参考结果矩阵进行联合处理，就可以得到训练语句对应的翻译结果。

在本发明的一种可选实施例中，步骤S13所述基于训练完成的语言模型和待训练的翻译模型对所述编码信息矩阵和所述参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果，包括：

步骤S21、将所述语言模型的解码器与所述翻译模型的解码器进行融合，得到目标解码器；

步骤S22、将所述编码信息矩阵和所述参考结果矩阵输入至所述目标解码器中进行解码处理，得到所述训练语句对应的翻译结果；

步骤203所述根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，包括：

步骤S23、根据所述训练语句对应的翻译结果和所述目标语句，计算所述翻译模型的损失值。

参照图4，示出了本发明实施例提供的一种翻译模型和语言模型的融合结构示意图。其中，待训练的翻译模型包括编码器A1和解码器A2，训练完成的语言模型包括编码器B1和解码器B2。在本发明的一种可选实施例中，可以将翻译模型的解码器A2和语言模型的解码器B2进行融合，得到目标解码器，基于目标解码器对步骤S11和步骤S12得到的编码信息矩阵和参考结果矩阵进行解码处理，得到训练语句对应的翻译结果。

其中，对翻译模型的解码器A2和语言模型的解码器B2进行融合时，可以将语言模型的解码器作为翻译模型解码器的中间层，嵌入到翻译模型的解码器中；也可以将语言模型的解码器与翻译模型的解码器并联，例如，将语言模型的解码器B2与翻译模型的解码器A2的自注意力层进行并联，或者，将语言模型的解码器B2与翻译模型的解码器A2的编码-解码关注层进行并联。无论采用哪种联合处理方式，都是在翻译模型输出翻译结果之前，引入语言模型，为最终输出的翻译结果增加相应的时序信息，确定输出的翻译结果中各个词语之间的关联关系，以提升翻译结果的流畅度。

基于目标解码器得到训练语句的翻译结果后，根据训练语句对应的翻译结果和目标语句，计算翻译模型的损失值，并根据损失值调整翻译模型的模型参数，直至满足收敛条件得到训练完成的翻译模型。

需要说明的是，在本发明实施例中，训练完成的翻译模型中的解码器为翻译模型自身的解码器，并非融合后的目标解码器。本发明实施例只是在训练过程中引入语言模型，对翻译模型的深度学习过程进行提升，并未改变翻译模型的模型结构，降低了翻译模型性能提升的难度，能够快速、有效的提升翻译模型翻译结果的流畅度，提高翻译模型的翻译性能。

在本发明的一种可选实施例中，步骤S22所述将所述编码信息矩阵和所述参考结果矩阵输入至所述目标解码器中进行解码处理，得到所述训练语句对应的翻译结果，包括：

子步骤S221、将所述参考结果矩阵分别输入所述目标解码器的第一网络层和第二网络层，得到第一输出矩阵和第二输出矩阵，所述第一网络层属于所述语言模型的解码器，所述第二网络层属于所述翻译模型的解码器；

子步骤S222、对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵；

子步骤S223、将所述编码信息矩阵和所述融合矩阵输入所述目标解码器的第三网络层，得到所述训练语句对应的翻译结果，所述第三网络层属于所述翻译模型的解码器。

参照图5，示出了本发明实施例提供的一种目标解码器的结构示意图。其中，语言模型的解码器B2的第一网络层与翻译模型的解码器A2的第二网络层并联。将参考结果矩阵分别输入第一网络层和第二网络层，可以得到第一输出矩阵和第二输出矩阵。

然后，对第一输出矩阵和第二输出矩阵进行加权求和，得到融合矩阵。将融合矩阵和编码器输出的编码信息矩阵输入到翻译模型的解码器A2的第三网络层中继续进行解码处理，就可以得到训练语句对应的翻译结果。

其中，第一网络层可以包括语言模型的解码器B2的解码层，第二网络层可以包括图3所示的翻译模型的解码器A2的自注意力层，第三网络层可以包括图3所示的翻译模型的解码器A2的编码-解码关注层和前馈网路层。也就是说，图5所示的目标解码器中，语言模型的解码器与翻译模型解码器的自注意力层并联。

当然，也可以将语言模型的解码器B2与翻译模型的解码器A2的编码-解码关注层进行并联。但是由于前馈网络层只是对输入数据进行非线性处理，如果将语言模型的解码器B2与翻译模型的解码器A2的编码-解码关注层进行并联，翻译模型的解码器的主要处理过程已经完成，接下来只是基于前馈网络层对解码器A2的编码-解码关注层和解码器B2的输出矩阵进行非线性处理，语言模型的输出对最终生成的翻译结果的影响有限，进而导致翻译结果的流畅度提升不高。因此，在本发明实施例中，为了有效提升翻译结果的流畅度，快速提高翻译模型的翻译性能，通常采用图4所示的方式对翻译模型的解码器和语言模型的解码器进行融合。

在本发明的一种可选实施例中，子步骤S222所述对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵，包括：

A11、根据上一轮训练语句对应翻译结果的流畅程度，调整所述第一输出矩阵和/或所述第二输出矩阵的权重值；

A12、根据调整后的第一输出矩阵和/或第二输出矩阵的权重值，对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵。

在对语言模型的第一输出矩阵和翻译模型的第二输出矩阵进行加权求和时，可以根据上一轮训练语句对应翻译结果的流畅程度，调整第一输出矩阵和/或第二输出矩阵的权重值。具体的，如果上一轮训练语句对应的翻译结果流畅度比较好，可以适当降低语言模型的第一输出矩阵的权重值，和/或适当提高翻译模型的第二输出矩阵的权重值；如果上一轮训练语句对应的翻译结果流畅度较差，可以适当提高语言模型的第一输出矩阵的权重值，和/或适当降低翻译模型的第二输出矩阵的权重值。

在本发明实施例中，通过根据上一轮训练语句对应翻译结果的流畅度，动态调整语言模型的第一输出矩阵和翻译模型的第二输出矩阵的权重值，能够满足多种训练场景的需求，有效提升翻译模型的翻译性能，在提升翻译结果的流畅度的同时，保证翻译结果的准确度。

步骤S31、将所述参考结果矩阵输入至所述语言模型的解码器中进行解码处理，得到所述训练语句对应的语言处理结果；

步骤S32、将所述编码信息矩阵和所述参考结果矩阵输入至所述翻译模型的解码器中进行解码处理，得到所述训练语句对应的翻译结果；

步骤203所述根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数，包括：

步骤S33、根据所述参考结果矩阵和所述训练语句对应的语言处理结果，确定第一损失值；

步骤S34、根据所述训练语句对应的翻译结果和所述目标语句，确定第二损失值；

步骤S35、对所述第一损失值和所述第二损失值进行加权求和，得到所述翻译模型和所述语言模型的联合损失值，并根据所述联合损失值调整所述翻译模型的模型参数。

在本发明实施例中，处理可以通过将语言模型的解码器和翻译目标的解码器进行融合，得到目标解码器，基于目标解码器对训练语句进行联合处理，还可以基于相互独立的语言模型和翻译模型，对翻译模型进行联合训练。

参照图6，示出了本发明实施例提供的另一种翻译模型和语言模型的融合结构示意图。如图6所示，通过语言模型的解码器B2对参考结果矩阵进行解码处理，得到语言处理结果，并通过翻译模型的解码器A2对编码信息矩阵和参考结果矩阵进行解码处理，得到训练语句对应的翻译结果。其中，语言模型的解码器B2和翻译模型的解码器A2中输入的参考结果矩阵相同。

然后，分别计算语言模型和翻译模型的损失值。具体的，根据参考结果矩阵和语言处理结果计算语言模型的第一损失值，根据训练语句对应的翻译结果和目标语句，计算翻译模型的第二损失值。其中，第一损失值和第二损失值均可以通过交叉熵计算，对此，本发明实施例不做具体限定。

最后，对第一损失值和第二损失值进行加权求和，得到语言模型和翻译模型的联合损失值。根据联合损失值对翻译模型的模型参数进行调整，直至满足收敛条件得到训练完成的翻译模型。

在对第一损失值和第二损失值进行加权求和时，也可以根据上一轮训练语句翻译结果的流畅度确定第一损失值和第二损失值的权重值，以便根据输出的翻译结果动态调整翻译模型的模型参数。

在本发明的一种可选实施例中，所述语言模型的解码器和所述翻译模型的解码器共享分类网络层。

如图6所示，在本发明实施例中，基于语言模型和翻译模型的联合损失值对翻译模型进行训练时，语言模型和翻译模型可以相互独立，也可以共享分类网络层。通过共享分类网路层，可以保持语言模型和翻译模型在分类网络层中对应的模型参数相同，从而保证翻译模型和语言模型在分类网络层中处理过程的一致性。

综上，本发明实施例通过在翻译模型的训练过程中引入语言模型，利用训练完成的语言模型和待训练的翻译模型对训练语句进行联合处理，无需额外引入大量的训练语料，降低了翻译模型的训练时长和计算资源的消耗，也不需要对翻译模型的网络结构进行改变，能够快速、有效的提升翻译模型翻译结果的流畅度，提高翻译模型的翻译性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图7，示出了本发明的一种翻译模型的训练装置实施例的结构框图，所述装置可以包括：

训练样本获取模块701，用于获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句；

联合处理模块702，用于基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果；

参数调整模块703，用于根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。

可选地，所述联合处理模块702，包括：

可选地，所述联合处理子模块，包括：

所述参数调整模块，包括：

可选地，所述解码处理单元，包括：

可选地，所述第二处理子单元，还用于：

可选地，所述联合处理子模块，包括：

所述参数调整模块，包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于翻译模型训练的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：。

B11、获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句；

B12、基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果；

B13、根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。

图8是根据一示例性实施例示出的一种用于翻译模型训练的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音处理装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的翻译模型的训练方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种翻译模型的训练方法，所述方法包括：获取语言训练样本，所述语言训练样本包括训练语句和所述训练语句对应的目标语句；基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果；根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种翻译模型的训练方法、一种翻译模型的训练装置和一种用于翻译模型训练的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种翻译模型的训练方法，其特征在于，所述方法包括：

基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果，包括：基于所述训练完成的语言模型和所述待训练的翻译模型对编码信息矩阵和参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果；

根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数；

所述基于训练完成的语言模型和待训练的翻译模型对所述编码信息矩阵和所述参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果，包括：

将所述编码信息矩阵和所述参考结果矩阵输入至所述目标解码器中进行解码处理，得到所述训练语句对应的翻译结果，包括：

将所述编码信息矩阵和所述融合矩阵输入所述目标解码器的第三网络层，得到所述训练语句对应的翻译结果，所述第三网络层属于所述翻译模型的解码器；

2.根据权利要求1所述的方法，其特征在于，所述基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果，还包括：

将所述训练语句输入至所述翻译模型的编码器中进行编码处理，得到所述编码信息矩阵，所述编码信息矩阵包含所述训练语句中各个词语的词向量；

根据所述训练语句中的当前待翻译词语确定所述参考结果矩阵，所述参考结果矩阵包括所述训练语句中当前待翻译词语之前的各个词语对应的参考词向量。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一输出矩阵和所述第二输出矩阵进行加权求和，得到融合矩阵，包括：

4.一种翻译模型的训练装置，其特征在于，所述装置包括：

联合处理模块，用于基于训练完成的语言模型和待训练的翻译模型对所述训练语句进行联合处理，得到所述训练语句对应的翻译结果，包括：联合处理子模块，用于基于所述训练完成的语言模型和所述待训练的翻译模型对编码信息矩阵和参考结果矩阵进行联合处理，得到所述训练语句对应的翻译结果；

参数调整模块，用于根据所述翻译结果和所述目标语句，计算所述翻译模型的损失值，并根据所述损失值调整所述翻译模型的模型参数；

所述联合处理子模块，包括：

所述解码处理单元，包括：

第三处理子单元，用于将所述编码信息矩阵和所述融合矩阵输入所述目标解码器的第三网络层，得到所述训练语句对应的翻译结果，所述第三网络层属于所述翻译模型的解码器；

所述参数调整模块，包括：

5.根据权利要求4所述的装置，其特征在于，所述联合处理模块，还包括：

第一矩阵确定子模块，用于将所述训练语句输入至所述翻译模型的编码器中进行编码处理，得到所述编码信息矩阵，所述编码信息矩阵包含所述训练语句中各个词语的词向量；

第二矩阵确定子模块，用于根据所述训练语句中的当前待翻译词语确定所述参考结果矩阵，所述参考结果矩阵包括所述训练语句中当前待翻译词语之前的各个词语对应的参考词向量。

6.根据权利要求4所述的装置，其特征在于，所述第二处理子单元，还用于：

7.一种用于翻译模型训练的装置，其特征在于，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至3中任一所述的翻译模型的训练方法的指令。

8.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至3中任一所述的翻译模型的训练方法。