CN111222347B

CN111222347B - 语句翻译模型的训练方法及装置、语句翻译方法及装置

Info

Publication number: CN111222347B
Application number: CN202010297142.4A
Authority: CN
Inventors: 李长亮; 李国良; 郭馨泽
Original assignee: Beijing Kingsoft Software Co Ltd
Current assignee: Beijing Kingsoft Software Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-07-28
Anticipated expiration: 2040-04-15
Also published as: CN111222347A

Abstract

本申请提供语句翻译模型的训练方法及装置、语句翻译方法及装置，其中所述语句翻译模型包括编码器和解码器，所述语句翻译模型的训练方法包括：获取待翻译语句和所述待翻译语句对应的目标语句，根据所述待翻译语句获得待翻译向量并输入至所述编码器，获得每个所述编码层输出的编码向量，根据所述目标语句获得目标向量并输入至所述解码器；将每个所述编码层输出的编码向量输入至每个所述解码层，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量；根据每个所述解码向量与所述目标向量分别计算对应的损失值，并确定目标损失值；根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型。

Description

语句翻译模型的训练方法及装置、语句翻译方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种语句翻译模型的训练方法及装置、语句翻译方法及装置、计算设备和计算机可读存储介质。

背景技术

随着互联网技术的提升，神经网络的应用越来越广泛，例如构建神经机器翻译模型，以实现待翻译语句到目标语句的转换。神经机器翻译模型是一种端到端的网络结构，架构包括：编码器（encoder）—解码器（decoder）。其中编码器对输入信息进行编码处理获得编码结果，然后解码器同时接收解码器的输入、编码器的编码结果进行解码，并将解码信息输入线性层、归一层，最终获取相应的翻译结果，编码器由6个编码层堆叠而成，由最底层的编码层接收输入，在其他编码层接收上一个编码层的输出，最后一个编码层的输出作为整个编码端的输出结果。

目前，端到端的神经机器翻译模型在训练过程中构建损失函数时，编码器和解码器在后续的处理中仅依赖于编码器顶层的输出，在每一步做后向传播更新模型参数，编码器、解码器所有层的参数都会被更新，事实上，在后向传播过程中，模型所有参数的梯度大不相同，梯度较大的参数，更新频率应该较小，梯度较小的参数，更新频率应该较大，但当前的模型更新参数方法中编码器和解码器所有层的参数都会被更新，使得模型的训练速度较慢，不利于模型的迅速训练。

因此，如何解决模型的训练速度缓慢问题，使翻译模型能更快被训练好，就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种语句翻译模型的训练方法及装置、语句翻译方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种语句翻译模型的训练方法，所述语句翻译模型包括编码器和解码器，其中，所述编码器包括n个编码层，所述解码器包括m个解码层，n和m均为大于等于2的正整数，所述方法包括：

获取待翻译语句和所述待翻译语句对应的目标语句，根据所述待翻译语句获得待翻译向量并输入至所述编码器，获得每个所述编码层输出的编码向量，根据所述目标语句获得目标向量并输入至所述解码器；

将每个所述编码层输出的编码向量输入至每个所述解码层，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量；

根据每个所述解码向量与所述目标向量分别计算对应的损失值，并确定目标损失值；

根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型。

可选的，对于第1个编码层；

获得每个所述编码层输出的编码向量，包括：

将所述待翻译向量输入至所述第1个编码层；

获得所述第1个编码层输出的第一编码向量。

可选的，对于第j个编码层，其中，1<j<=n；

获得每个所述编码层输出的编码向量，包括：

将第j-1个编码层输出的第j-1编码向量输入至所述第j个编码层；

获得所述第j个编码层输出的第j编码向量。

可选的，对于第1个解码层；

将每个所述编码层输出的编码向量输入至每个所述解码层，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量，包括：

将每个所述编码层输出的编码向量和所述目标向量输入至所述第1个解码层；

获得所述第1个解码层根据每个所述编码层输出的编码向量和所述目标向量生成的与每个所述编码向量对应的解码向量。

可选的，对于第j个编码层和第k个解码层，其中，1<=j<=n，1<k<=m；

基于输入的每个所述编码层对应的编码向量和所述目标向量，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量，包括：

将第j个编码层输出的第j编码向量和第k-1个解码层输出的与第j编码向量对应的解码向量输入至第k个解码层；

获得所述第k个解码层根据第j编码向量和所述第j编码向量对应的解码向量生成的解码向量。

可选的，确定目标损失值，包括：

在每个所述损失值中选取最小损失值作为目标损失值。

可选的，对于第j个编码层和第k个解码层，其中，1<=j<=n，1<=k<=m；

根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型，包括：

根据所述目标损失值确定所述目标损失值对应的第j个编码层和第k个解码层；

调整第1-第j个编码层的参数和第1-第k个解码层的参数以训练所述语句翻译模型。

根据本申请实施例的第二方面，提供了一种语句翻译方法，所述方法包括：

获取待翻译语句；

将所述待翻译语句输入至语句翻译模型中进行处理，其中，所述语句翻译模型是通过上述任意一项所述的训练方法训练得到的；

所述语句翻译模型的编码器根据所述待翻译语句生成编码向量，并将所述编码向量输入至所述语句翻译模型的解码器中；

所述语句翻译模型的解码器根据所述编码向量生成对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标语句。

根据本申请实施例的第三方面，提供了一种语句翻译模型的训练装置，所述语句翻译模型包括编码器和解码器，其中，所述编码器包括n个编码层，所述解码器包括m个解码层，n和m均为大于等于2的正整数，所述装置包括：

获取模块，被配置为获取待翻译语句和所述待翻译语句对应的目标语句，根据所述待翻译语句获得待翻译向量并输入至所述编码器，获得每个所述编码层输出的编码向量，根据所述目标语句获得目标向量并输入至所述解码器；

解码器模块，被配置为将每个所述编码层输出的编码向量输入至每个所述解码层，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量；

选取损失值模块，被配置为根据每个所述解码向量与所述目标向量分别计算对应的损失值，并确定目标损失值；

调参训练模块，被配置为根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型。

可选的，对于第1个编码层；

所述获取模块，进一步被配置为将所述待翻译向量输入至所述第1个编码层；获得所述第1个编码层输出的第一编码向量。

可选的，对于第j个编码层，其中，1<j<=n；

所述获取模块，进一步被配置为将第j-1个编码层输出的第j-1编码向量输入至所述第j个编码层；获得所述第j个编码层输出的第j编码向量。

可选的，对于第1个解码层；

所述解码器模块，进一步被配置为将每个所述编码层输出的编码向量和所述目标向量输入至所述第1个解码层；获得所述第1个解码层根据每个所述编码层输出的编码向量和所述目标向量生成的与每个所述编码向量对应的解码向量。

所述解码器模块，进一步被配置为将第j个编码层输出的第j编码向量和第k-1个解码层输出的与第j编码向量对应的解码向量输入至第k个解码层；获得所述第k个解码层根据第j编码向量和所述第j编码向量对应的解码向量生成的解码向量。

可选的，所述选取损失值模块，进一步被配置在每个所述损失值中选取最小损失值作为目标损失值。

所述调参训练模块，进一步被配置为根据所述目标损失值确定所述目标损失值对应的第j个编码层和第k个解码层；调整第1-第j个编码层的参数和第1-第k个解码层的参数以训练所述语句翻译模型。

根据本申请实施例的第四方面，提供了一种语句翻译装置，所述装置包括：

获取语句模块，被配置为获取待翻译语句；

输入模块，被配置为将所述待翻译语句输入至语句翻译模型中进行处理，其中，所述语句翻译模型是通过上述任意一项所述的训练方法训练得到的；

编码处理模块，被配置为所述语句翻译模型的编码器根据所述待翻译语句生成编码向量，并将所述编码向量输入至所述语句翻译模型的解码器中；

解码处理模块，被配置为所述语句翻译模型的解码器根据所述编码向量生成对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标语句。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述语句翻译模型的训练方法或所述语句翻译方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述语句翻译模型的训练方法或所述语句翻译方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述语句翻译模型的训练方法或所述语句翻译方法的步骤。

本申请实施例中提供的语句翻译模型的训练方法，通过将编码器中每一层的编码向量经过解码器中每一层解码后得到的解码向量与目标语句对应的目标向量计算获得损失值，根据多个编码层和多个解码层可以获得多个损失值，并在多个损失值中选取最小损失值，根据最小损失值更新翻译模型中的参数，使模型加快收敛，进而提高了模型的训练速度。

其次，根据所述最小损失值确定对应的编码层和解码层，在更新模型参数时更新所述最小损失值对应的编码层参数和解码层参数，而无需更新翻译模型中的全部参数，进一步加快了模型收敛，提高了模型的训练速度。

本申请实施例中提供的语句翻译方法，通过将待翻译语句输入至训练好的语句翻译模型，其中，所述语句翻译模型是通过上述语句翻译模型的训练方法训练得到的，所述语句翻译模型使用更优的模型参数更新策略训练得到，因此所述语句翻译模型具有更佳的性能，进而语句翻译效果更优。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的语句翻译模型的训练方法的流程图；

图3是本申请实施例提供的语句翻译方法的流程图；

图4是本申请实施例提供的语句翻译模型的架构图；

图5是本申请实施例提供的语句翻译模型中编码层和解码层的结构示意图；

图6是本申请实施例提供的最小损失值构成路径的示意图；

图7是本申请实施例提供的语句翻译模型的训练装置的结构示意图；

图8是本申请实施例提供的语句翻译装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

Transformer：一种翻译模型，用自注意力模型的结构代替了长短期记忆模型，在翻译任务上取得了更好的成绩，包括编码器和解码器。

待翻译语句：需要被翻译的语句。

目标语句：待翻译语句经过翻译后获得的语句。

待翻译向量：待翻译语句经过嵌入层处理后获得的向量。

目标向量：目标语句经过嵌入层处理后获得的向量。

语句翻译模型：本申请提出的基于Transformer模型的一种端到端的网络结构，其中编码器对输入信息进行编码处理获得编码结果，然后解码器同时接收解码器的输入、编码器的编码结果进行解码，并将解码信息输入线性层、归一化层，最终获取相应的翻译结果，其中，编码器由6个编码层堆叠而成，由最底层的编码层接收输入。在其他编码层中，其输入来自上一个编码层的输出。编码器最后一个编码层的输出作为整个编码器的输出结果，解码器由6个解码层堆叠而成，最底层的解码层接收解码器中每个编码层的输出和参考编码向量，在其他解码层，接收解码器中每个编码层的输出和上一个解码层的输出，解码器最后一个解码层的输出作为整个解码器的输出结果。

编码向量：经过语句翻译模型编码器中每个编码层处理得到的向量。

解码向量：经过语句翻译模型编码器中每个解码层处理得到的向量。

损失函数：是机器学习中模型输出的观测结果间概率分布差异的量化函数。

损失值：损失函数的值。

目标损失值：在多个损失值中根据相关的条件选出的一个损失值。

第一编码向量：第一个编码层中输出的编码向量。

第j编码向量：第j个编码层中输出的编码向量。

在本申请中，提供了一种语句翻译模型的训练方法及装置、语句翻译方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示语句翻译模型的训练方法中的步骤。图2示出了根据本申请一实施例的语句翻译模型的训练方法的流程图，所述语句翻译模型包括编码器和解码器，其中，所述编码器包括n个编码层，所述解码器包括m个解码层，n和m均为大于等于2的正整数，所述方法包括步骤202至步骤208。

步骤202：获取待翻译语句和所述待翻译语句对应的目标语句，根据所述待翻译语句获得待翻译向量并输入至所述编码器，获得每个所述编码层输出的编码向量，根据所述目标语句获得目标向量并输入至所述解码器。

待翻译语句为需要被翻译的语句，目标语句即为待翻译语句被翻译之后获得的语句，待翻译语句和目标语句的语种可以为汉语、英语、法语、意大利语、德语等任意语种，在本申请中不对语句的语种做限定，获取待翻译语句和所述翻译语句对应的目标语句的方式有很多，如网络上现有的翻译对照语句，计算设备上存储的翻译对照文章等等。

根据获取的待翻译语句和所述待翻译语句对应的目标语句构成翻译模型的训练样本数据。

在翻译模型中，待翻译语句和目标语句均被做嵌入化处理后获得对应的待翻译向量和目标向量，待翻译向量即为待翻译语句经过嵌入层处理后获得的向量，目标向量即为目标语句经过嵌入化处理后获得的向量，嵌入化处理是将待翻译语句和目标语句表示为固定长度向量的处理，将所述待翻译向量输入至所述编码器中进行处理，将所述目标向量输入至所述解码器中进行处理。

对于第1个编码层，获得每个所述编码层输出的编码向量，包括：将所述待翻译向量输入至所述第1个编码层；获得所述第1个编码层输出的第一编码向量。

对于第j个编码层，1<j<=n，获得每个所述编码层输出的编码向量包括：将第j-1个编码层输出的第j-1编码向量输入至所述第j个编码层；获得所述第j个编码层输出的第j编码向量。

在本申请提供的一具体实施方式中，对于第1个编码层，接收待翻译向量，并在第1个编码层进行编码处理，获得第1个编码层输出的第一编码向量；对于第j个编码层，接收第j-1个编码层输出的第j-1编码向量C_(j-1)1，在第j个编码层进行编码处理，获得第j个编码层输出的第j编码向量C_j1。

在本申请提供的实施例中，以待翻译语句为“I want to go to school”，待翻译语句对应的目标语句为“我想去学校”为例。将待翻译语句经过嵌入层的嵌入化处理后获得对应的待翻译向量A₀₁并将所述待翻译向量输入至所述编码器中，获得每个编码层输出的编码向量C₁₁、C₂₁、……C_n1，将目标语句经过嵌入层的嵌入化处理后获得对应的目标向量B₀₁并将所述目标向量输入至所述解码器中。

步骤204：将每个所述编码层输出的编码向量输入至每个所述解码层，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量。

对于第1个解码层，步骤204包括：将每个所述编码层输出的编码向量和所述目标向量输入至所述第1个解码层；获得所述第1个解码层根据每个所述编码层输出的编码向量和所述目标向量生成的与每个所述编码向量对应的解码向量。

对于第1个解码层，接收每个编码层输出的对应的编码向量和经过嵌入化处理得到的目标向量，生成并输出与每个编码层输出的编码向量对应的解码向量，以使每个编码向量经过第1解码层后生成对应的解码向量。

对于第j个编码层和第k个解码层，其中，1<=j<=n，1<k<=m，步骤204包括下述步骤S2041至步骤S2042。

步骤S2041、将第j个编码层输出的第j编码向量和第k-1个解码层输出的与第j编码向量对应的解码向量输入至第k个解码层。

步骤S2042、获得所述第k个解码层根据第j编码向量和所述第j编码向量对应的解码向量生成的解码向量。

对于第2至6个解码层，接收每个编码层输出的编码向量和上一个解码层输出的与每个编码层的编码向量对应的解码向量，以使在当前解码层中，可以根据每个编码层输出的编码向量和上一个解码层对应的解码向量输出当前层的解码向量，如第2个解码层接收第1个编码层输出的第1编码向量和第1个解码层输出的与第1编码向量对应的解码向量，获得第2个解码层生成的与第1编码向量对应的解码向量；第3个解码层接收第1个编码层输出的第1编码向量和第2个解码层输出的与第1编码向量对应的解码向量，获得第3个解码层生成的与第1编码向量对应的解码向量。

在本申请提供的实施例中，沿用上例，第1个解码层接收每个编码层对应的编码向量C₁₁、C₂₁、……C_n1。根据每个编码向量和目标向量B₀₁分别生成对应的解码向量D₁₁、D₂₁、……D_n1；第k个解码层接收第j个编码层输出的编码向量C_j1和第k-1个解码层输出的解码向量D_j(k-1)，其中，解码向量D_j(k-1)与编码向量C_j1相对应，根据编码向量C_j1和解码向量D_j(k-1)生成解码向量D_jk，其中，第解码向量D_jk与编码向量C_j1相对应。

步骤206：根据每个所述解码向量与所述目标向量分别计算对应的损失值，并确定目标损失值。

可选的，确定目标损失值包括在每个所述损失值中选取最小损失值作为目标损失值。

计算损失值的损失函数有很多，如交叉熵损失函数、L1范数损失函数、均方误差损失函数等，在本申请中不对损失函数的选择做限定。

在本申请提供的实施例中，第1个解码层与n个编码层对应的解码向量分别为D₁₁、D₂₁、……D_n1，D₁₁与第1个编码层输出的第一编码向量对应，D₂₁与第2个编码层输出的第二编码向量对应，D_n1与第n个编码层输出的第n编码向量对应，与目标向量B₀₁计算各自对应的损失值分别为L₁₁、L₂₁、……L_n1。

第2个解码层与n个编码层对应的解码向量分别为D₁₂、D₂₂、……D_n2，D₁₂与第1个编码层输出的第一编码向量对应，D₂₂与第2个编码层输出的第二编码向量对应，D_n2与第n个编码层输出的第n编码向量对应，与目标向量B₀₁计算各自对应的损失值分别为L₁₂、L₂₂、……L_n2。

第k个解码层与第j个编码层对应的解码向量为D_jk，D_jk与第j个编码层输出的第j编码向量对应，D_jk与目标向量B₀₁计算对应的损失值为L_jk。

第m个解码层与n个编码层对应的解码向量分别为D_1m、D_2m、……D_nm，与目标向量B₀₁计算各自对应的损失值分别为L_1m、L_2m、……L_nm。

获得所有的损失值后，在所有的损失值中选取最小的损失值作为目标损失值。

步骤208：根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型。

可选的，根据所述目标损失值确定所述目标损失值对应的第j个编码层和第k个解码层；调整第1-第j个编码层的参数和第1-第k个解码层的参数以训练所述语句翻译模型。

根据目标损失值确定生成所述目标损失值过程中对应的编码层和解码层，调整生成所述目标损失值过程中对应的编码层和解码层中的参数，可以更快的训练所述语句翻译模型，有利于缩短模型的训练时间。

在本申请提供的实施例中，根据目标损失值L_jk确定所述目标损失值L_jk对应第j个编码层和第k个解码层，调整第1至第j个编码层的参数和第1至第k个解码层的参数以训练所述语句翻译模型。

参见图3，图3示出了本申请一实施例的语句翻译方法的流程图，所述语句翻译方法包括步骤302至步骤308。

步骤302：获取待翻译语句。

获取待翻译语句的方式有很多，如通过语音输入、文字输入、从网络获取等等，在本申请中对获取待翻译语句的方式不做限定。

在本申请提供的实施例中，通过在键盘上输入文字使得电脑获取待翻译语句“猫在桌子上”。

步骤304：将所述待翻译语句输入至语句翻译模型中进行处理。

其中，所述语句翻译模型是通过上述任意一项所述的训练方法训练得到的。

在本申请提供的实施例中，将所述待翻译语句输入至语句翻译模型中，所述语句翻译模型是通过上述实施例所述的语句翻译模型训练方法训练得到的。

步骤306：所述语句翻译模型的编码器根据所述待翻译语句生成编码向量，并将所述编码向量输入至所述语句翻译模型的解码器中。

在本申请提供的实施例中，将所述待翻译语句“猫在桌子上”经过翻译模型的嵌入层处理得到待翻译向量，并将所述待翻译向量输入至所述语句翻译模型的编码器中生成对应的编码向量，将所述编码向量输入至所述语句翻译模型的解码器中。

步骤308：所述语句翻译模型的解码器根据所述编码向量生成对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标语句。

在本申请提供的实施例中，所述语句翻译模型的解码器接收所述编码向量，并对所述编码向量进行解码获得对应的解码向量，所述解码向量经过归一化处理获得对应的目标语句为“There is a cat on the table”。

经过实践证明，经过本申请提供的训练方法训练得到的语句翻译模型，相比于传统方法训练得到的语句翻译模型在应用中获得的目标语句的BLEU值更优。如对于待翻译语句“猫在桌子上”，本申请提供的语句翻译模型的翻译结果为“There is a cat on thetable”，而传统方法训练获得的翻译模型的翻译结果为“Cat on the table”。因此本申请提供的语句翻译方法在实际应用中可以得到更好的翻译结果，语句翻译模型具有更佳的性能。

为了便于理解，参见图4，图4示出了基于Transformer模型应用本申请实施例提供的语句翻译模型的架构图。所述语句翻译模型包括6个编码层和6个解码层。

在本申请的实施例中，对语句翻译模型进行训练时，获取待翻译语句“你好世界”和待翻译语句对应的目标语句“Hello World”。

将待翻译语句“你好世界”经过嵌入层处理后获得待翻译向量N₀₁。嵌入层的参数矩阵的维度为M*N的二阶矩阵，其中M代表词表大小，N代表嵌入层维度，嵌入层的维度保证相似的词在这个多为空间中的值是相似的，每个字或词都可以表示为一个n维的向量。

将所述待翻译向量经过位置编码处理为待翻译向量N₀₁配置位置信息，位置编码确定了句子中词语的绝对位置和相对位置，保证了句子的顺序性，提供了位置信息向量，计算公式如下：

（1）

（2）

其中，PE为二维矩阵，大小跟输入嵌入层的维度一样，行表示词语，列表示词向量；pos 表示词语在句子中的位置；d_model表示词向量的维度；i表示词向量的位置。因此，上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵，这样便完成位置编码的引入。

将配置有位置编码的待翻译向量输入至所述语句翻译模型的第1个编码层，将目标语句“Hello World”经过嵌入层处理后获得目标向量H₀₁并将所述目标向量经过位置编码处理，将配置有位置信息的目标向量输入至所述翻译模型的第1个解码层。

第1个编码层接收待翻译向量E₀₁，所述待翻译向量E₀₁经过第1个编码层中的多头注意力层（multi-head attention layer），在多头注意力层中，对输入的向量做多次的self-attention计算，self-attention计算公式如下：

（3）

其中，Q，K，V是输入词向量，d_k是词向量维度大小，T为矩阵转置。

多头注意力输出经过正则化之后再输入到前馈神经网络层进行转换得到输出语义向量，前馈神经网络一般采用Relu激活函数，其计算公式为：

FFN（x）= max（0，xW₁+b₁）W₂+b₂（4）

其中，W₁、W₂为权重矩阵，b₁、b₂为偏置向量。

将前馈神经网络层输出的语义向量作为第1个编码层输出的第一编码向量E₁₁，并将所述第一编码向量输入至第2个编码层和第1至第6个解码层。

第2个编码层接收第一编码向量E₁₁，如上述处理生成第二编码向量E₂₁，并将所述第二编码向量输入至第3个编码层和第1至第6个解码层。

以此类推，第6个编码层接收第五编码向量E₅₁，根据所述第五编码向量生成第六编码向量E₆₁，并将所述第六编码向量输入至第1至第6个解码层。

第1个解码层接收到配置有位置信息的目标向量H₀₁，经过标记多头自注意力层处理后分别与第1至6个编码层输出的编码向量E₁₁、E₂₁、E₃₁、E₄₁、E₅₁、E₆₁经过多头自注意力层的融合处理，再将输出的结果输入至前馈神经网络层中处理，将经过前馈神经网络层中处理后分别得到的结果F₁₁、F₂₁、F₃₁、F₄₁、F₅₁、F₆₁作为解码向量，其中，解码向量F₁₁与编码向量E₁₁相对应，解码向量F₂₁与编码向量E₂₁相对应，以此类推，解码向量F₆₁与编码向量E₆₁相对应。

如上所述，第2个解码层接收第1个解码层输出的解码向量F₁₁、F₂₁、F₃₁、F₄₁、F₅₁、F₆₁和第1至6个编码层输出的编码向量E₁₁、E₂₁、E₃₁、E₄₁、E₅₁、E₆₁，并根据解码向量F₁₁和编码向量E₁₁生成解码向量F₁₂，根据解码向量F₂₁和编码向量E₂₁生成解码向量F₂₂，以此类推，根据解码向量F₆₁和编码向量E₆₁生成解码向量F₆₂。

以此类推，第k个解码层接收第j个编码层输出的编码向量E_j1和第k-1个解码层输出的解码向量F_j(k-1)生成解码向量F_jk。

以此类推，第6个解码层接收第5个解码层输出的解码向量F₁₅、F₂₅、F₃₅、F₄₅、F₅₅、F₆₅和第1至6个编码层输出的编码向量E₁₁、E₂₁、E₃₁、E₄₁、E₅₁、E₆₁，根据解码向量F₁₅和编码向量E₁₁生成解码向量F₁₆，以此类推，根据解码向量F₆₅和编码向量E₆₁生成解码向量F₆₆。

参见图5，图5示出了本申请实施例的语句翻译模型中第3个编码层和第4个编码层与每个解码层之间的结构示意图。第3编码层的输出向量与第1至第6解码层分别解码，生成对应的解码向量F₃₁至F₃₆，第4编码层的输出向量与第1至第6解码层分别解码，生成对应的解码向量F₄₁至F₄₆。

将每个解码向量F₁₁、F₂₁…F_jk…F₆₆分别与目标向量H₀₁通过交叉熵损失函数计算得到每个解码向量对应的损失值L₁₁、L₂₁…L_jk…L₆₆，其中L₁₁代表第1个编码层的编码向量经过第1个解码层解码得到的解码向量与目标向量的损失值，L₂₁代表第2个编码层的编码向量经过第1个解码层解码得到的解码向量与目标向量的损失值，L_jk代表第j个编码层的编码向量经过第k个解码层解码得到的解码向量与目标向量的损失值，L₆₆代表第6个编码层的编码向量经过第6个解码层解码得到的解码向量与目标向量的损失值。

获取每个解码层输出的解码向量与目标向量的损失值，参见图6，图6示出了最小损失值在所述翻译模型中的构成路径的示意图，在本申请实施例中，将最小损失值作为目标损失值，目标损失值为L₃₄，根据目标损失值L₃₄确定损失值L₃₄对应的编码层为第3个编码层，解码层为第4个解码层，根据目标损失值后向传播更新所述语句翻译模型中的第1至3个编码层的参数和第1至4个解码层的参数以训练所述语句翻译模型。

与上述语句翻译模型的训练方法实施例相对应，本申请还提供了语句翻译模型的训练装置实施例，图7示出了本申请一个实施例的语句翻译模型的训练装置的结构示意图，所述语句翻译模型包括编码器和解码器，其中，所述编码器包括n个编码层，所述解码器包括m个解码层，n和m均为大于等于2的正整数，如图7所示，该装置包括：

获取模块702，被配置为被配置为获取待翻译语句和所述待翻译语句对应的目标语句，根据所述待翻译语句获得待翻译向量并输入至所述编码器，获得每个所述编码层输出的编码向量，根据所述目标语句获得目标向量并输入至所述解码器。

解码器模块704，被配置为被配置为将每个所述编码层输出的编码向量输入至每个所述解码层，获得所述解码器中每个所述解码层输出的与每个所述编码向量对应的解码向量。

选取损失值模块706，被配置为根据每个所述解码向量与所述目标向量分别计算对应的损失值，并确定目标损失值。

调参训练模块708，被配置为根据所述目标损失值调整所述语句翻译模型的参数以训练所述语句翻译模型。

可选的，对于第1个编码层；

所述获取模块702，进一步被配置为将所述待翻译向量输入至所述第1个编码层；获得所述第1个编码层输出的第一编码向量。

可选的，对于第j个编码层，其中，1<j<=n；

所述获取模块702，进一步被配置为将第j-1个编码层输出的第j-1编码向量输入至所述第j个编码层；获得所述第j个编码层输出的第j编码向量。

可选的，对于第1个解码层；

所述解码器模块704，进一步被配置为将每个所述编码层输出的编码向量和所述目标向量输入至所述第1个解码层；获得所述第1个解码层根据每个所述编码层输出的编码向量和所述目标向量生成的与每个所述编码向量对应的解码向量。

所述解码器模块704，进一步被配置为将第j个编码层输出的第j编码向量和第k-1个解码层输出的与第j编码向量对应的解码向量输入至第k个解码层；获得所述第k个解码层根据第j编码向量和所述第j编码向量对应的解码向量生成的解码向量。

可选的，所述选取损失值模块706，进一步被配置为在每个所述损失值中选取最小损失值作为目标损失值。

所述调参训练模块708，进一步被配置为根据所述目标损失值确定所述目标损失值对应的第j个编码层和第k个解码层；调整第1-第j个编码层的参数和第1-第k个解码层的参数以训练所述语句翻译模型。

本申请实施例中提供的语句翻译模型的训练装置，通过将编码器中每一层的编码向量经过解码器中每一层解码后得到的解码向量与目标语句对应的目标向量计算获得损失值，根据多个编码层和多个解码层可以获得多个损失值，并在多个损失值中选取最小损失值，根据最小损失值更新翻译模型中的参数，使模型加快收敛，进而提高了模型的训练速度。

与上述语句翻译方法实施例相对应，本申请还提供了语句翻译装置实施例，图8示出了本申请一个实施例的语句翻译装置的结构示意图，如图8所示，该装置包括：

获取语句模块802，被配置为获取待翻译语句。

输入模块804，被配置为将所述待翻译语句输入至语句翻译模型中进行处理，其中，所述语句翻译模型是通过上述任意一项所述的训练方法训练得到的。

编码处理模块806，被配置为所述语句翻译模型的编码器根据所述待翻译语句生成编码向量，并将所述编码向量输入至所述语句翻译模型的解码器中。

解码处理模块808，被配置为所述语句翻译模型的解码器根据所述编码向量生成对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标语句。

本申请实施例中提供的语句翻译装置，通过将待翻译语句输入至训练好的语句翻译模型，其中，所述语句翻译模型是通过上述语句翻译模型的训练方法训练得到的，所述语句翻译模型使用更优的模型参数更新策略训练得到，因此所述语句翻译模型具有更佳的性能，进而语句翻译效果更优。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的语句翻译模型的训练方法或语句翻译方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述语句翻译模型的训练方法或语句翻译方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语句翻译模型的训练方法或所述语句翻译方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语句翻译模型的训练方法或语句翻译方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述语句翻译模型的训练方法或所述语句翻译方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语句翻译模型的训练方法，其特征在于，所述语句翻译模型包括编码器和解码器，其中，所述编码器包括n个编码层，所述解码器包括m个解码层，n和m均为大于等于2的正整数，所述方法包括：

2.如权利要求1所述的语句翻译模型的训练方法，其特征在于，对于第1个编码层；

获得每个所述编码层输出的编码向量，包括：

将所述待翻译向量输入至所述第1个编码层；

获得所述第1个编码层输出的第一编码向量。

3.如权利要求1所述的语句翻译模型的训练方法，其特征在于，对于第j个编码层，其中，1<j<=n；

获得每个所述编码层输出的编码向量，包括：

获得所述第j个编码层输出的第j编码向量。

4.如权利要求1所述的语句翻译模型的训练方法，其特征在于，对于第1个解码层；

5.如权利要求1所述的语句翻译模型的训练方法，其特征在于，对于第j个编码层和第k个解码层，其中，1<=j<=n，1<k<=m；

6.如权利要求1所述的语句翻译模型的训练方法，其特征在于，确定目标损失值，包括：

在每个所述损失值中选取最小损失值作为目标损失值。

7.如权利要求1所述的语句翻译模型的训练方法，其特征在于，对于第j个编码层和第k个解码层，其中，1<=j<=n，1<=k<=m；

8.一种语句翻译方法，其特征在于，包括：

获取待翻译语句；

将所述待翻译语句输入至语句翻译模型中进行处理，其中，所述语句翻译模型是通过权利要求1-7任意一项所述的训练方法训练得到的；

9.一种语句翻译模型的训练装置，其特征在于，所述语句翻译模型包括编码器和解码器，其中，所述编码器包括n个编码层，所述解码器包括m个解码层，n和m均为大于等于2的正整数，所述装置包括：

10.一种语句翻译装置，其特征在于，包括：

获取语句模块，被配置为获取待翻译语句；

输入模块，被配置为将所述待翻译语句输入至语句翻译模型中进行处理，其中，所述语句翻译模型是通过权利要求1-7任意一项所述的训练方法训练得到的；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7或者8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或者8任意一项所述方法的步骤。