CN111931518A

CN111931518A - 一种翻译模型的训练方法及装置

Info

Publication number: CN111931518A
Application number: CN202011099831.0A
Authority: CN
Inventors: 李长亮; 郭馨泽
Original assignee: Beijing Kingsoft Software Co Ltd
Current assignee: Beijing Kingsoft Software Co Ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2020-11-13

Abstract

本申请提供一种翻译模型的训练方法及装置，所述翻译模型包括编码器和解码器，所述编码器包括n个顺次连接的编码层，所述解码器包括n个顺次连接的解码层，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数，其中，n≥1，1≤i≤n，其中所述方法包括：接收训练语句和训练语句对应的目标语句；获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量；将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，并根据所述解码向量计算损失值；根据所述损失值调整所述翻译模型的参数。

Description

一种翻译模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质。

背景技术

随着计算机运算能力的提升，神经网络的应用越来越广泛，例如构建翻译模型，以实现待翻译语句到目标语句的转换。

翻译模型是一种端到端的网络结构，包括编码器和解码器，编码器包括多个编码层，解码器包括多个解码层，在每个编码层中包括自注意力子层和前馈神经网络子层，在每个解码层中包括自注意力子层、编码-解码注意力子层和前馈神经网络子层，每个子层中都有各自的参数权重。现有的翻译模型结构复杂、每个子层的参数量较大，模型体积庞大，在对翻译模型进行训练时训练周期长，并且消耗计算资源高。

因此，如何加快模型的训练速度，减少模型体积就成为技术人员目前亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种翻译模型的训练方法，所述翻译模型包括编码器和解码器，所述编码器包括n个顺次连接的编码层，所述解码器包括n个顺次连接的解码层，对于每个所述编码层和每个所述解码层的自注意力子层，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数，其中，n≥1，1≤i≤n；

所述翻译模型的训练方法包括：

接收训练数据，其中，所述训练数据包括训练语句和训练语句对应的目标语句；

获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；

将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量；

将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，并根据所述解码向量计算损失值；

根据所述损失值调整所述翻译模型的参数，继续训练所述翻译模型，直至达到训练停止条件。

可选的，所述编码器还包括第一嵌入层，所述解码器还包括第二嵌入层；

获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量，包括：

将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量；

将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。

可选的，根据所述解码向量计算损失值，包括：

将所述解码向量与预设的向量验证集进行对比，得到所述解码向量的损失值。

可选的，每个解码层还包括编码-解码注意力子层和前馈神经网络子层，每个编码层还包括前馈神经网络子层；

根据所述损失值调整所述翻译模型的参数，包括：

根据所述损失值依次调整每个所述解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数；

根据所述损失值依次调整每个所述编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。

可选的，将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量，包括：

S51、将所述训练语句向量输入至所述编码器的第1个编码层，得到所述第1个编码层输出的编码向量；

S52、将第t-1个编码层输出的编码向量输入至第t个编码层，得到第t个编码层输出的编码向量，其中2≤t≤n；

S53、将t自增1，判断t是否大于n，若是，则获得编码向量，若否，继续执行步骤S52。

可选的，将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，包括：

S61、将所述编码向量和所述目标语句向量输入至所述解码器的第1个解码层，得到所述第1个解码层输出的解码向量；

S62、将所述编码向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，其中2≤j≤n；

S63、将j自增1，判断j是否大于n，若是，则获得解码向量，若否，继续执行步骤S62。

可选的，所述编码器的前m个编码层和后m个编码层对应共享编码参数，和/或，所述解码器的前p个解码层和后p个解码层对应共享解码参数，其中，2m≤n，2p≤n。

可选的，所述编码器的前m个编码层和后m个编码层一一对应地共享编码参数，和/或，所述解码器的前p个解码层和后p个解码层一一对应地共享解码参数。

可选的，所述编码器的前m个编码层和后m个编码层一一对应地共享自注意力参数，和/或，所述解码器的前p个解码层和后p个解码层一一对应地共享自注意力参数。

根据本申请实施例的第二方面，提供了一种翻译方法，包括：

获取待翻译语句；

将所述待翻译语句输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量，其中，所述翻译模型是通过上述任意一项翻译模型的训练方法训练得到的；

将所述编码向量输入至所述翻译模型的解码器中进行解码，获得所述待翻译语句对应的目标语句。

根据本申请实施例的第三方面，提供了一种翻译模型的训练装置，所述翻译模型包括编码器和解码器，所述编码器包括n个顺次连接的编码层，所述解码器包括n个顺次连接的解码层，对于每个所述编码层和每个所述解码层的自注意力子层，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数，其中，n≥1，1≤i≤n；

所述翻译模型的训练装置包括：

接收模块，被配置为接收训练数据，其中，所述训练数据包括训练语句和训练语句对应的目标语句；

获取模块，被配置为获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；

编码模块，被配置为将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量；

解码模块，被配置为将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，并根据所述解码向量计算损失值；

训练模块，被配置为根据所述损失值调整所述翻译模型的参数，继续训练所述翻译模型，直至达到训练停止条件。

所述获取模块，进一步被配置为将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量；将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。

可选的，所述解码模块，进一步被配置为将所述解码向量与预设的向量验证集进行对比，得到所述解码向量的损失值。

所述训练模块，进一步被配置为根据所述损失值依次调整每个所述解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数；根据所述损失值依次调整每个所述编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。

可选的，所述编码模块，包括：

第一编码子单元，被配置为将所述训练语句向量输入至所述编码器的第1个编码层，得到所述第1个编码层输出的编码向量；

第二编码子单元，被配置为将第t-1个编码层输出的编码向量输入至第t个编码层，得到第t个编码层输出的编码向量，其中2≤t≤n；

第一判断子单元，被配置为将t自增1，判断t是否大于n，若是，则获得编码向量，若否，继续执行第二编码子单元。

可选的，所述解码模块，包括：

第一解码子单元，被配置为将所述编码向量和所述目标语句向量输入至所述解码器的第1个解码层，得到所述第1个解码层输出的解码向量；

第二解码子单元，被配置为将所述编码向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，其中2≤j≤n；

第二判断子单元，被配置为将j自增1，判断j是否大于n，若是，则获得解码向量，若否，继续执行第二解码子单元。

根据本申请实施例的第四方面，提供了一种翻译模型的训练装置，包括：

获取模块，被配置为获取待翻译语句；

编码模块，被配置为将所述待翻译语句输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量，其中，所述翻译模型是通过上述任意一项翻译模型的训练方法训练得到的；

解码模块，被配置为将所述编码向量输入至所述翻译模型的解码器中进行解码，获得所述待翻译语句对应的目标语句。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述翻译模型的训练方法或所述翻译方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述翻译模型的训练方法或所述翻译方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述翻译模型的训练方法或所述翻译方法的步骤。

本申请实施例中，通过翻译模型的编码层与解码层逐层共享自注意力子层的自注意力参数，既可以保证翻译模型的精度，又可以有效地减少模型参数量，缩小了模型体积，进而在对模型进行训练时，缩短了训练周期，减少了计算消耗，在实际应用中，还可以增加编码层与解码层的个数，进而提升翻译模型的性能。

附图说明

图1是本申请实施例提供的翻译模型的结构示意图；

图2是本申请实施例提供的计算设备的结构框图；

图3是本申请实施例提供的翻译模型的训练方法的流程图；

图4是本申请实施例提供的翻译模型的训练方法中获得编码向量的流程图；

图5是本申请实施例提供的翻译模型的训练方法中获得解码向量的流程图；

图6是本申请实施例提供的翻译方法的流程图；

图7是本申请实施例提供的翻译模型的训练装置的结构示意图；

图8是本申请实施例提供的翻译装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

翻译模型：其主要思想是将待翻译语句经过多个编码层(encoder)编码成为一个编码向量，然后利用多个解码层(decoder)对编码向量进行解码，得到解码向量，然后将解码向量翻译成为对应的目标语句。

编码（encoder）：将待翻译语句由文字转化为编码向量。

解码（decoder）：将编码向量转化为翻译语句的语言文字。

BLEU分数：一种评价机器翻译结果的指标。

训练语句：用于训练的待翻译语句。

目标语句：待翻译语句经过翻译后的语句。

在本申请中，提供了一种翻译模型的训练方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了本申请实施例提供的翻译模型的架构图，所述翻译模型包括一个解码器和一个编码器，其中，所述解码器中包括第一嵌入层和n个顺次连接的编码层，所述编码器中包括第二嵌入层和n个顺次连接的解码层，n≥1。

在每个编码层中包括自注意力子层和前馈神经网络子层，在每个解码层中包括自注意力子层、编码-解码注意力子层和前馈神经网络子层，其中，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数W_i，其中1≤i≤n。

图2示出了根据本申请一实施例的计算设备200的结构框图。该计算设备200的部件包括但不限于存储器210和处理器220。处理器220与存储器210通过总线230相连接，数据库250用于保存数据。

计算设备100还包括接入设备240，接入设备240使得计算设备200能够经由一个或多个网络260通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备240可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本申请的一个实施例中，计算设备200的上述部件以及图2中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图2所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备200还可以是移动式或静止式的服务器。

其中，处理器220可以执行图3所示翻译模型的训练方法中的步骤。图3示出了根据本申请一实施例的翻译模型的训练方法的流程图，包括步骤302至步骤310。

步骤302：接收训练数据，其中，所述训练数据包括训练语句和训练语句对应的目标语句。

训练数据为用于训练翻译模型的数据，每个训练数据包括一个训练语句和训练语句对应的目标语句，训练语句即为待翻译语句，目标语句为待翻译语句经过翻译后获得的语句。

在本申请中，不对训练语句和目标语句的语种做限制。

在本申请提供的实施例中，获取训练语句为“我喜欢吃苹果”，所述训练语句对应的目标语句为“I like to eat apples”。

步骤304：获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量。

在实际应用中，所述编码器还包括第一嵌入层，所述解码器还包括第二嵌入层；

获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量，包括：将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量；将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。

嵌入化：用一个低维度的向量表示一个物体，如一个词，或一个商品等，嵌入化向量的性质是能使距离相近的向量对应的物体有相近的含义，嵌入化能用低维度向量对物体进行编码还能保留其含义的特点，非常适合深度学习。

第一嵌入层为编码器中的嵌入层，用于将输入至编码器中的信息进行嵌入化处理，将训练语句输入至第一嵌入层做嵌入化处理后，获得所述训练语句的训练语句向量。对训练语句进行嵌入化处理，可以提高对训练语句信息提取的深度和丰富度，提升分析准确性。

第二嵌入层为解码器中的嵌入层，用于将输入至解码器中的所述目标语句进行嵌入化处理，获得目标语句的目标语句向量。

在本申请提供的实施中，将训练语句“我喜欢吃苹果”输入至编码器中的第一嵌入层做嵌入化处理，获得训练语句向量A，将所述目标语句“I like to eat apples”输入至解码器的第二嵌入层做嵌入化处理，获得目标语句向量B。

步骤306：将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量。

训练语句向量在编码器中，依次经过每个编码层的编码处理，获得对应的编码向量。

可选的，参见图4，图4示出了本申请实施例提供的翻译模型训练方法中获得编码向量的流程图，将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量，包括步骤402至步骤406：

步骤402：将所述训练语句向量输入至所述编码器的第1个编码层，得到所述第1个编码层输出的编码向量。

具体的，将所述训练语句向量输入至第1个编码层做编码处理，获得第1个编码层输出的第一编码向量。

步骤404：将第t-1个编码层输出的编码向量输入至第t个编码层，得到第t个编码层输出的编码向量，其中2≤t≤n。

具体的，从第t个编码层开始，其中2≤t≤n，接收上一个编码层输出的编码向量，在当前第t个编码层做编码处理，获得当前第t个编码层输出的第t编码向量。

步骤406：将t自增1，判断t是否大于n，若是，则获得编码向量，若否，继续执行步骤404。

具体的，将t自增1，并判断t是否大于n，若执行自增操作之后的t大于n则说明已经执行到最后一个编码层，则最后一个编码层输出的编码向量即为所述编码层的编码向量，若否则继续执行步骤404。

需要注意的是，在实际应用中，还可以根据每个编码层输出的编码向量和预设的权重生成所述编码器输出的最终编码向量。

在本申请提供的实施例中，以n=6为例，即编码器包括6个编码层，其中每个编码层均包括自注意力子层和前馈神经网络子层。

将所述训练语句向量A输入至第1个编码层，经过第1个编码层中自注意力子层和前馈神经网络子层的处理，获得第1个编码层输出的编码向量E₁。

将第t-1个编码层输出的编码向量E_t-1输入至第t个编码层，经过第t个编码层中自注意力子层和前馈神经网络子层的处理，获得第t个编码层输出的编码向量E_t，其中2≤t≤6。

当t=6时，将第6个编码层输出的编码向量E₆作为所述编码器的编码向量E。

步骤308：将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，并根据所述解码向量计算损失值。

可选的，参见图5，图5示出了本申请实施例提供的翻译模型训练方法中获得解码向量的流程图，将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，包括步骤502至步骤506：

步骤502：将所述编码向量和所述目标语句向量输入至所述解码器的第1个解码层，得到所述第1个解码层输出的解码向量。

具体的，将编码器输出的编码向量和所述目标语句向量输入至第1个解码层，在第1个解码层中经过解码处理，获得第1个解码层输出的解码向量。

步骤504：将所述编码向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，其中2≤j≤n。

具体的，从第j个解码层开始，其中2≤j≤n，将编码器输出的编码向量和上一个解码层输出的解码向量输入至第j个解码层中做解码处理，获得第j个解码层输出的解码向量。

步骤506：将j自增1，判断j是否大于n，若是，则获得解码向量，若否，继续执行步骤504。

具体的，将j自增1，判断j是否大于n，若j小于等于n则说明还未到最后一个解码层，则继续执行步骤504，若j大于n则说明是最后一个解码层了，则将最后一个解码层输出的解码向量作为所述解码器的解码向量。

在本申请提供的实施例中，编码向量E和目标语句向量B输入至所述解码器中，所述解码器包括6个解码层，每个解码层中包括自注意力子层、编码-解码注意力子层和前馈神经网络子层。

将所述编码向量E和所述目标语句向量B输入至第1个解码层，所述目标语句向量B经过自注意力子层处理，获得第1自注意力子向量B₁₁，将所述第1自注意力子向量B₁₁和所述编码向量E经过编码-解码注意力子层处获得第1编码解码注意力子向量B₁₂，将所述第1编码解码注意力子向量B₁₂经过前馈神经网络子层处理，获得第1个解码层的解码向量D₁。

将第j-1个解码层输出的解码向量D_t-1输入至第j个解码层，经过第j个解码层中自注意力子层处理获得第j自注意力子向量B_j1，将所述第j自注意力子向量B_j1和所述编码向量E经过编码-解码注意力子层处获得第j编码解码注意力子向量B_j2，将所述第j编码解码注意力子向量B_j2经过前馈神经网络子层处理，获得第j个解码层的解码向量D_j，其中2≤j≤6。

当j=6时，将第6个解码层输出的解码向量D₆作为所述解码器的解码向量D。

可选的，根据所述解码向量计算损失值，包括：

在本申请提供的实施例中，沿用上例，将所述解码向量D与预设的向量验证集进行比对，得到所述解码向量的损失值L。

需要说明的是，在本实施例中，得到的解码向量并不直接与目标语句对应的目标语句向量进行对比计算损失值，而是引入了一个向量验证集。如果将解码向量直接与目标语句向量进行对比计算损失值，会导致过拟合，导致翻译模型在其他的语句翻译中的表现变差，翻译效果反而适得其反。

在实际应用中，还可以增加编码层和解码层的个数，以增强翻译模型的模型性能。

步骤310：根据所述损失值调整所述翻译模型的参数，继续训练所述翻译模型，直至达到训练停止条件。

根据所述损失值调整所述翻译模型的参数，包括：

在本申请提供的实施例中，根据所述损失值L反向传播依次更新每个解码层中解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数和每个编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。

以更新第5个解码层中自注意力子层的自注意力参数为例，第5个编码层中自注意力子层与第5个解码层中自注意力子层共享自注意力参数W₅，在更新第5个解码层中的自注意力参数W₅时，将自注意力参数W₅更新为W₅’，此时第5个编码层与第5个解码层中的自注意力参数均为W₅’，当更新至第5个解码层中的自注意力子层参数时，对自注意力参数W₅’进行更新，将自注意力参数W₅’更新为W₅’’，此时第5个编码层与第5个解码层中的自注意力子层的自注意力参数均为W₅’’，在一次反向更新模型参数过程中，每个自注意力子层中的自注意力参数均被更新两次。

具体的，更新自注意力参数的计算公式如下式（1）所示。

式（1）

其中，W为自注意力子层中的自注意力参数，α为学习率，

为梯度。

可选的，在本申请提供的一翻译模型的训练方法中，还可以使所述翻译模型的编码器的前m个编码层和后m个编码层对应共享编码参数，和/或，所述解码器的前p个解码层和后p个解码层对应共享解码参数，其中，2m≤n，2p≤n。

具体的，假设翻译模型的编码器中有6个编码层，解码器中有6个解码层，则所述编码器中的前3个编码层和后3个编码层可以对应共享编码参数，所述解码器中的前3个解码层和后3个解码层可以对应共享解码参数；还可以使得所述编码器中的前2个编码层和后2个编码层对应共享编码参数，所述解码器中的前2个解码层和后2个解码层对应共享解码参数。

可选的，在本申请提供的一翻译模型的训练方法中，还可以使所述翻译模型的编码器的前m个编码层和后m个编码层一一对应地共享编码参数，和/或，所述解码器的前p个解码层和后p个解码层一一对应地共享解码参数。

具体的，依然以翻译模型的编码器中有6个编码层、解码器中有6个解码层为例，可以使第1-3个编码层与第4-6个编码层一一对应共享编码参数，所述解码器的第1-3个解码层与第4-6个解码层一一对应共享解码参数。

需要注意的是在编码器中一一对应共享编码参数，可以是一一对应共享自注意力参数和前馈神经参数，也可以是一一对应共享自注意力参数；在解码器中一一对应共享解码参数，可以是一一对应共享自注意力参数、编码-解码注意力参数和前馈神经参数，也可以是一一对应共享自注意力参数，具体的参数共享方式以实际应用为准，在本申请中不做限制。

本申请实施例提供的翻译模型的训练方法，翻译模型的编码层与解码层逐层共享自注意力子层的自注意力参数，既可以保证翻译模型的精度，又可以有效地减少模型参数量，缩小了模型体积，进而在对模型进行训练时，缩短了训练周期，减少了计算消耗，提升了翻译模型的性能，在编码层和解码层逐层共享自注意力子层的自注意力参数的基础上，还可以进一步的在编码器内共享编码参数，在解码器内共享解码参数，可以进一步减少模型参数量，并且保证在更新模型参数时，每个编码层或解码层的参数都会受到其他层参数的影响，实现了模型参数的充分更新，进一步提高了训练效率。

特别的，在所述翻译模型中增加编码层以及相同数量的解码层。

在实际应用中，通过在翻译模型中增加编码层与解码层的个数，能够进一步提升翻译模型的性能。

图6示出了本申请一实施例的翻译方法的流程图，包括步骤602至步骤606。

步骤602：获取待翻译语句。

在本申请提供的实施例中，获取待翻译语句为“桌子上有只猫”。

步骤604：将所述待翻译语句输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量，其中，所述翻译模型是通过上述翻译模型的训练方法训练得到的。

在本申请提供的实施例中，沿用上例，将待翻译语句“桌子上有只猫”输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量E。

步骤606：将所述编码向量输入至所述翻译模型的解码器中进行解码，获得所述待翻译语句对应的目标语句。

在本申请提供的实施例中，将所述编码向量E输入至所述翻译模型的解码器中进行解码，获得所述待翻译语句“桌子上有只猫”对应的目标语句“There is a cat on thetable”。

本申请实施例提供的翻译方法，将待翻译语句输入至预先训练好的翻译模型中，翻译模型经过对所述待翻译语句的编码-解码，获得对应的目标语句，使得语句翻译过程快捷，高效，准确。

与上述翻译模型的训练方法实施例相对应，本申请还提供了翻译模型的训练装置实施例，图7示出了本申请一个实施例的翻译模型的训练装置的结构示意图，所述翻译模型包括编码器和解码器，所述编码器包括n个顺次连接的编码层，所述解码器包括n个顺次连接的解码层，对于每个所述编码层和每个所述解码层的自注意力子层，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数，其中，n≥1，1≤i≤n；如图7所示，该装置包括：

接收模块702，被配置为接收训练数据，其中，所述训练数据包括训练语句和训练语句对应的目标语句；

获取模块704，被配置为获取所述训练语句对应的训练语句向量和所述目标语句对应的目标语句向量；

编码模块706，被配置为将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量；

解码模块708，被配置为将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，并根据所述解码向量计算损失值；

训练模块710，被配置为根据所述损失值调整所述翻译模型的参数，继续训练所述翻译模型，直至达到训练停止条件。

所述获取模块704，进一步被配置为将所述训练语句输入至所述第一嵌入层做嵌入化处理获得训练语句向量；将所述目标语句输入至所述第二嵌入层做嵌入化处理获得目标语句向量。

可选的，所述解码模块708，进一步被配置为将所述解码向量与预设的向量验证集进行对比，得到所述解码向量的损失值。

所述训练模块710，进一步被配置为根据所述损失值依次调整每个所述解码层的自注意力子层的自注意力参数、编码-解码注意力子层的编码-解码注意力参数和前馈神经网络子层的前馈神经参数；根据所述损失值依次调整每个所述编码层的自注意力层的自注意力参数和前馈神经网络子层的前馈神经参数。

可选的，所述编码模块706，包括：

可选的，所述解码模块708，包括：

本申请实施例提供的翻译模型的训练装置，翻译模型的编码层与解码层逐层共享自注意力子层的自注意力参数，既可以保证翻译模型的精度，又可以有效地减少模型参数量，缩小了模型体积，进而在对模型进行训练时，缩短了训练周期，减少了计算消耗，在实际应用中，还可以增加编码层与解码层的个数，进而提升翻译模型的性能，在编码层和解码层逐层共享自注意力子层的自注意力参数的基础上，还可以进一步的在编码器内共享编码参数，在解码器内共享解码参数，可以进一步减少模型参数量，并且保证在更新模型参数时，每个编码层或解码层的参数都会受到其他层参数的影响，实现了模型参数的充分更新，进一步提高了训练效率。

与上述翻译方法实施例相对应，本申请还提供了翻译装置实施例，图8示出了本申请一个实施例的翻译装置的结构示意图。如图8所示，该装置包括：

获取模块802，被配置为获取待翻译语句；

编码模块804，被配置为将所述待翻译语句输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量，其中，所述翻译模型是通过上述翻译模型的训练方法训练得到的；

解码模块806，被配置为将所述编码向量输入至所述翻译模型的解码器中进行解码，获得所述待翻译语句对应的目标语句。

本申请实施例提供的翻译装置，将待翻译语句输入至预先训练好的翻译模型中，翻译模型经过对所述待翻译语句的编码-解码，获得对应的目标语句，使得语句翻译过程快捷，高效，准确。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述翻译模型的训练方法或所述翻译方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述翻译模型的训练方法或所述翻译方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的翻译模型的训练方法或翻译方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述翻译模型的训练方法或翻译方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述翻译模型的训练方法或所述翻译方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种翻译模型的训练方法，其特征在于，所述翻译模型包括编码器和解码器，所述编码器包括n个顺次连接的编码层，所述解码器包括n个顺次连接的解码层，对于每个所述编码层和每个所述解码层的自注意力子层，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数，其中，n≥1，1≤i≤n；

所述翻译模型的训练方法包括：

2.如权利要求1所述的翻译模型的训练方法，其特征在于，所述编码器还包括第一嵌入层，所述解码器还包括第二嵌入层；

3.如权利要求1所述的翻译模型的训练方法，其特征在于，根据所述解码向量计算损失值，包括：

4.如权利要求1所述的翻译模型的训练方法，其特征在于，每个解码层还包括编码-解码注意力子层和前馈神经网络子层，每个编码层还包括前馈神经网络子层；

根据所述损失值调整所述翻译模型的参数，包括：

5.如权利要求1所述的翻译模型的训练方法，其特征在于，将所述训练语句向量输入至所述编码器中经过编码处理获得编码向量，包括：

6.如权利要求1所述的翻译模型的训练方法，其特征在于，将所述编码向量和所述目标语句向量输入至所述解码器中经过解码处理获得解码向量，包括：

7.如权利要求1所述的翻译模型的训练方法，其特征在于，所述编码器的前m个编码层和后m个编码层对应共享编码参数，和/或，所述解码器的前p个解码层和后p个解码层对应共享解码参数，其中，2m≤n，2p≤n。

8.如权利要求7所述的翻译模型的训练方法，其特征在于，所述编码器的前m个编码层和后m个编码层一一对应地共享编码参数，和/或，所述解码器的前p个解码层和后p个解码层一一对应地共享解码参数。

9.如权利要求8所述的翻译模型的训练方法，其特征在于，所述编码器的前m个编码层和后m个编码层一一对应地共享自注意力参数，和/或，所述解码器的前p个解码层和后p个解码层一一对应地共享自注意力参数。

10.一种翻译方法，其特征在于，包括：

获取待翻译语句；

将所述待翻译语句输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量，其中，所述翻译模型是通过权利要求1-9任意一项所述的训练方法训练得到的；

11.一种翻译模型的训练装置，其特征在于，所述翻译模型包括编码器和解码器，所述编码器包括n个顺次连接的编码层，所述解码器包括n个顺次连接的解码层，对于每个所述编码层和每个所述解码层的自注意力子层，第i个编码层的自注意力子层与第i个解码层的自注意力子层共享自注意力参数，其中，n≥1，1≤i≤n；

所述翻译模型的训练装置包括：

12.一种翻译装置，其特征在于，包括：

获取模块，被配置为获取待翻译语句；

编码模块，被配置为将所述待翻译语句输入至翻译模型的编码器中进行编码，获得所述待翻译语句对应的编码向量，其中，所述翻译模型是通过权利要求1-9任意一项所述的训练方法训练得到的；

13.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9或者10任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9或者10任意一项所述方法的步骤。