CN114638238A

CN114638238A - 一种神经网络模型的训练方法及装置

Info

Publication number: CN114638238A
Application number: CN202011487910.9A
Authority: CN
Inventors: 李长亮; 郭馨泽
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-17

Abstract

本申请提供一种神经网络模型的训练方法及装置，其中所述方法包括：获取包括至少一个训练样本对的训练样本集合，其中，每个所述训练样本对包括训练样本和原始训练标签；根据所述训练样本集合训练多个原始模型，基于所述多个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签；通过所述训练样本和所述目标训练标签对目标模型进行训练，直至达到训练停止条件。

Description

一种神经网络模型的训练方法及装置

技术领域

本申请涉及机器学习技术领域，特别涉及一种神经网络模型的训练方法及装置、一种基于神经网络的文本翻译方法及装置、计算设备及计算机可读存储介质。

背景技术

神经网络模型(Neural Network Model)是解决自然语言处理(Natural LanguageProcessing，NLP)任务的基本部分，在机器翻译、阅读理解或实体识别等任务中起到了重要作用。近年来，随着神经网络被成功应用于语言模型的构建，利用神经网络模型对自然语言进行处理，得到语料中的每个字符(token)对应的融合全文语义信息后的特征表示，并对语料中的每个字符进行分类和概率预测。

目前的神经网络机器翻译模型多采用一种端到端的模型结构，即编码端(Encoder)和解码端(Decoder)，编码端输入词向量并生成编码向量，解码端对目标端输入词向量与编码向量进行解码，生成解码向量，并最终依据解码向量生成目标翻译语句。通常来说，模型的表征能力与模型的大小正相关，即模型越大，其表征能力越强，模型表征能力越强，往往也能带来更优的模型性能，因此，如何实现基于大量语料进行神经网络模型训练，得到更优的模型性能和精确度，是目前自然语言处理任务亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种神经网络模型的训练方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种神经网络模型的训练方法，包括：

获取包括至少一个训练样本对的训练样本集合，其中，每个所述训练样本对包括训练样本和原始训练标签；

根据所述训练样本集合训练多个原始模型，基于所述多个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签；

通过所述训练样本和所述目标训练标签对目标模型进行训练，直至达到训练停止条件。

根据本说明书实施例的第二方面，提供了一种基于神经网络的文本翻译方法，包括：

获取待翻译语句；

将所述待翻译语句输入至文本翻译模型，其中，所述文本翻译模型为根据本申请所述的神经网络模型的训练方法进行训练得到的；

通过所述文本翻译模型对所述待翻译语句进行翻译，并输出所述待翻译语句对应的目标翻译语句。

根据本说明书实施例的第三方面，提供了一种神经网络模型的训练装置，包括：

训练样本获取模块，被配置为获取包括至少一个训练样本对的训练样本集合，其中，每个所述训练样本对包括训练样本和原始训练标签；

标签蒸馏模块，被配置为根据所述训练样本集合训练多个原始模型，基于所述多个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签；

模型训练模块，被配置为通过所述训练样本和所述目标训练标签对目标模型进行训练，直至达到训练停止条件。

根据本说明书实施例的第四方面，提供了一种基于神经网络的文本翻译装置，包括：

语句获取模块，被配置为获取待翻译语句；

语句输入模块，被配置为将所述待翻译语句输入至文本翻译模型，其中，所述文本翻译模型为根据本申请所述的神经网络模型的训练方法进行训练得到的；

文本翻译模块，被配置通过所述文本翻译模型对所述待翻译语句进行翻译，并输出所述待翻译语句对应的目标翻译语句。

根据本说明书实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述神经网络模型的训练方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述神经网络模型的训练方法的步骤。

本申请基于模型预训练与模型蒸馏的理论基础，采用模型蒸馏的逆向逻辑，利用预先训练的多个原始模型辅助目标模型进行训练，通过采用多种不同结构的原始模型，避免了原始模型结构单一的问题，充分体现出训练数据和模型的多样性，然后利用原始模型对目标模型的训练数据进行优化，使得目标模型具备了每一个原始模型的处理能力，提高了目标模型的准确性与预测精度，使得整个目标模型的表征能力和模型性能得到了极大的提升。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的神经网络模型的训练方法的流程图；

图3是本申请实施例提供的神经网络模型的训练方法的另一流程图；

图4是本申请实施例提供的神经网络模型的训练方法的另一流程图；

图5是本申请实施例提供的神经网络模型的训练方法的另一流程图；

图6是本申请实施例提供的神经网络模型的训练方法的另一流程图；

图7是本申请实施例提供的神经网络模型的训练方法的另一流程图；

图8是本申请实施例提供的基于神经网络的文本翻译方法的流程图；

图9是本申请实施例提供的基于神经网络的文本翻译方法的另一流程图；

图10是本申请实施例提供的基于神经网络的文本翻译方法的另一流程图；

图11是本申请实施例提供的神经网络模型的训练装置的结构示意图；

图12是本申请实施例提供的机器翻译装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

模型蒸馏：模型蒸馏，是将一个预先训练模型的知识迁移到另一个结构更为简单的模型中，通常将预训练模型称为复杂模型(Teacher Model)，结构更为简单的模型为简单模型(Student Model)，模型蒸馏通常都是复杂模型训练指导简单模型，利用预训练复杂模型的输出辅助简单模型的训练，在模型蒸馏中复杂模型与简单模型的训练分别在不同的阶段完成，因此该模型训练方法也是一种多阶段的训练方法。

软标签：即soft target，是指原始模型经蒸馏温度参数泛化后输出的预测分类概率。

硬标签：即hard target，是指训练样本集合中的原始训练标签。

蒸馏温度参数：蒸馏温度参数(Temperature)是指蒸馏目标函数中的超参数，蒸馏温度参数越大产生的概率分布越平滑。

泛化能力：在机器学习方法中，泛化能力通俗来讲就是指神经网络模型对未知数据的预测能力。在实际情况中，通常通过测试误差来评价学习方法的泛化能力。如果在不考虑数据量不足的情况下出现模型的泛化能力差，那么其原因基本为对损失函数的优化没有达到全局最优。

在本申请中，提供了一种神经网络模型的训练方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

本申请的主要目是根据具体的自然语言处理任务，例如机器翻译任务、阅读理解任务或实体识别任务等，利用模型蒸馏原理的逆向逻辑，在预训练阶段采用多个不同结构的原始模型，其中，所述原始模型包括但不限于分类模型，、机器翻译模型、阅读理解模型或实体识别模型等，还可以以特定的自然语言处理任务为主任务，以其他相关的自然语言处理任务和分类任务为辅助任务，将上述模型根据目标模型对应的需要进行组合。

进一步将预训练好的多个原始模型作为模型蒸馏中相对简单的“简单模型”，将主任务的自然语言处理任务对应的目标模型作为模型蒸馏中相对复杂的“复杂模型”，利用多个“简单模型”对“复杂模型”的训练过程进行辅助，最终通过多个相对简单的原始模型得到相对复杂的目标模型。

应当注意的是，本申请中所述的“简单”与“复杂”是在特定范围内的相对概念，即仅相对于原始模型和目标模型而言，所述目标模型在参数量大小、结构复杂程度以及模型规模上相比与原始模型而言是“复杂”的。

例如，对于双向编码表示(BERT，Bidirectional Encoder Representations fromTransformers)模型来说，其对应每个字符转化后的向量表示可能是12×768维，也可能是6×516维，那么，12×768维的BERT模型就是“复杂模型”，6×516维的BERT模型就是“简单模型”。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的神经网络模型的训练方法的示意性流程图，包括步骤202至步骤206。

步骤202：获取包括至少一个训练样本对的训练样本集合，其中，每个所述训练样本对包括训练样本和原始训练标签。

在本申请的实施例中，本申请首先需要获取足够数量和不同类别的训练数据从而对多个原始模型分别进行预训练，其中，获取的方式包括从百科网站中获取、从数据库中获取以及从预设的知识图谱中获取等，并且获取的训练数据也可以来自于不同的知识领域，从而丰富了数据的多样性，提高了模型的应用领域。

具体而言，所述训练数据包括训练样本和原始训练标签，所述训练样本和原始训练标签既包括与作为辅助任务的分类任务相关的分类样本与分类样本对应的分类标签，也包括与作为主任务的自然语言处理任务相关联的训练样本与对应的原始训练标签。

例如，在主任务为机器翻译任务的情况下，所述原始模型的训练数据在包括与分类任务相关的分类样本与分类样本对应的分类标签的基础上，还包括中文和外文的对照语句；在主任务为阅读理解任务的情况下，原始模型的训练数据在包括与分类任务相关的分类样本与分类样本对应的分类标签的基础上。还包括阅读理解的问题和答案；在主任务为实体识别任务的情况下，原始模型的训练数据在包括与分类任务相关的分类样本与分类样本对应的分类标签的基础上，还包括文本语料以及其中包含的实体。

步骤204：根据所述训练样本集合训练多个原始模型，基于所述多个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签。

在本申请的实施例中，在进行原始模型的预训练时，针对任一原始模型，可以随机初始化模型的参数，然后按照原始模型对应的预训练任务，利用对应的训练数据有对每个原始模型进行有监督的联合训练，从而得到多个原始练模型，然后通过模型蒸馏的逆向逻辑，根据主任务的自然语言处理任务设计出最终的目标模型，通过多个原始模型对目标模型的训练数据进行优化和调整，从而提升所述目标模型在处理主任务的自然语言任务时对待预测数据的泛化能力。

具体而言，如图3所示，根据所述训练样本集合训练多个原始模型，包括步骤302至步骤306。

步骤302：根据每个原始模型对应的训练样本，获取响应于所述训练样本作为输入而生成的原始预测结果。

步骤304：根据若干个训练样本对应的原始预测结果和若干个训练样本对应的原始训练标签计算每个原始模型的损失值。

步骤306：根据每个原始模型的损失值调整每个原始模型的参数，直至每个原始模型的损失值小于预设阈值。

在本申请的一个具体的实施例中，在主任务为机器翻译任务的情况下，包括三个原始模型分别为机器翻译模型a、分类模型b和实体识别模型c，分别选择机器翻译模型a对应的训练数据、分类模型b对应的训练数据和实体识别模型c对应的训练数据，分别对机器翻译模型a、分类模型b和实体识别模型c同时进行联合训练，然后通过计算损失值和调整模型参数等操作使得每个模型的损失值小于预设阈值，以达到模型停止训练条件。

本申请通过在预训练阶段利用丰富的训练数据训练出多个类别的原始模型，增加了模型的多样性，有利于提高目标模型的训练效果和表征能力。

在本申请的实施例中，如图4所示，基于所述多个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签，包括步骤402至步骤404。

步骤402：为每个所述原始模型配置对应的蒸馏温度参数，基于配置后的每个原始模型确定每个训练样本对应的预测标签。

在上述实施例中，如图5所示，所述步骤402具体包括步骤502至步骤504。

步骤502：在每个原始模型的归一化层中配置对应的蒸馏温度参数。

在根据辅助任务对多个原始模型进行预训练的过程中，需要为每个所述原始模型在其模型结构的归一化层中配置对应的蒸馏温度参数T，如下公式所示：

其中，z_i表示原始模型中输入归一化层的对应每个类别的评分，q_i表示归一化层计算出的对应每个类别的概率，蒸馏温度参数T为超参数，其范围可以取值在1至25之间，蒸馏温度参数T越大，对应的原始模型产生的概率分布越平滑。

步骤504：将每个所述训练样本分别输入至每个配置后的原始模型中，根据每个配置后的原始模型输出的预测结果，确定每个训练样本对应的预测标签。

通过将每个训练样本分别输入至每个配置后的原始模型中进行分类预测，通过每个原始模型配置蒸馏温度参数T后的归一化层可以输出相对平滑的每个训练样本对应的原始分类概率向量，然后选取其中的概率值最大的类别作为当前原始模型对于当前训练样本的预测结果。

具体而言，根据每个配置后的原始模型输出的预测结果，确定每个训练样本对应的预测标签，具体包括步骤S5041至步骤S5042。

步骤S5041：获取每个原始模型输出的每个训练样本对应的原始预测概率。

步骤S5042：计算每个原始模型输出的每个训练样本对应的原始预测概率的平均值，得到每个所述训练样本对应的预测标签。

由于所述原始模型为多个且各自的模型结构也不尽相同，因此可以根据多个原始模型得到每个训练样本对应的多个原始分类概率，通过求取多个原始分类概率的平均值，作为当前训练样本最后的概率输出向量，最终得到每个所述训练样本对应的预测标签。

本申请通过模型蒸馏的方法，在每个原始模型的归一化层中配置对应的蒸馏温度参数，从而对原始模型输出的预测结果对应的概率分布进行调整，使得原始模型输出的对应不同分类类别的原始预测概率之间的分类概率更加平滑，从而提高了目标模型的准确性和泛化性。

步骤404：将每个训练样本对应的预测标签和所述原始训练签进行权重融合，得到每个训练样本对应的目标训练标签。

在上述实施例中，如图6所示，所示步骤404具体包括步骤602至步骤606。

步骤602：为每个训练样本对应的预测标签和原始训练标签分别配置对应的融合权重参数。

在本申请的实施例中，将每个所述训练样本对应的预测标签定义为软标签(soft_target)，将每个所述训练样本对应原始训练标签定义为硬标签(hard_target)，其中，所述软标签为原始模型的类别概率输出与目标模型的类别概率输出的交叉熵，所述硬标签标签为原始模型的类别概率输出与原始训练标签真值的交叉熵，并为每个软标签和硬标签配置用于控制标签融合权重的融合权重参数a和融合权重参数b。

步骤604：通过所述融合权重参数对每个训练样本对应的预测标签和原始训练标签进行加权计算，得到每个训练样本对应的目标预测概率。

在本申请的实施例中，首先根据所述训练样本合集中每个训练样本对应的原始训练标签，确定每个训练样本所属的分类类别，然后将每个训练样本所属的分类类别对应的分类概率设置为1，将每个训练样本对应的其他分类类别对应的分类概率设置为0，从而得到每个训练样本对应的硬标签。

进一步地，每个训练样本对应每个分类类别的目标预测概率可以通过如下公式计算得到：

Target＝a*hard_target+b*soft_target；

其中，融合权重参数a与融合权重参数b之和为1。

步骤606：根据每个训练样本对应的目标预测概率生成每个训练样本对应的目标训练标签。

在本申请的实施例中，通过将每个训练样本对应每个分类类别的目标预测概率进行集合，最终生成每个训练样本对应的目标训练标签。

本申请通过将预测标签与原始训练标签进行融合，得到用于训练目标模型的目标训练标签，由于预测标签具有更高的熵，其能比原始训练标签提供更加多的训练信息，这样训练得到的目标模型也就具有超过多个原始模型的性能效果，从而使得目标模型能够获得原始模型的泛化能力，对于复杂的自然语言具有较强的表征能力。

步骤206：通过所述训练样本和所述目标训练标签对目标模型进行训练，直至达到训练停止条件。

在本申请的实施例中，本申请首先获取目标模型响应于所述训练样本作为输入而生成的目标预测结果，然后根据目标预测结果和每个训练样本对应的目标训练标签计算目标模型的损失值，进而根据目标模型的损失值调整目标模型的参数，直至目标模型的损失值小于预设阈值，从而达到训练停止条件。

在本申请通过将最终融合后得到的目标训练标签以及所述训练样本对作为所述目标模型的训练数据对目标模型进行训练，并且在训练时，设置原始模型的归一化层的蒸馏温度参数T与所述目标模型的归一化层的蒸馏温度参数T保持一致，按照有监督模型训练的方式进行训练，然后通过计算损失值并反向调节所述目标模型的参数，直至所述目标模型的损失值小于预设的阈值，已达到训练停止条件。应当注意的是，在应用所述目标模型时，将所述目标模型的蒸馏温度参数T重置为1，即采用最原始的归一化层对具体的应用数据进行预测。

本申请基于模型预训练与模型蒸馏的理论基础，采用模型蒸馏的逆向逻辑，利用预先训练的多个原始模型辅助目标模型进行训练，通过采用多种不同结构的原始模型进行预训练，避免了原始模型结构单一的问题，充分体现出训练数据和模型的多样性，然后利用原始模型对目标模型的训练数据进行优化，使得目标模型具备了每一个原始模型的处理能力，提高了目标模型的准确性与预测精度，使得整个目标模型的表征能力和模型性能得到了极大的提升。

图7示出了本说明书一实施例的神经网络模型的训练方法，该神经网络模型的训练方法以对原始模型M和目标模型N为例进行描述，包括步骤702至步骤712。

步骤702：获取包括至少一个训练样本对的训练样本集合，其中，每个所述训练样本对包括训练样本和原始训练标签。

所述步骤702与步骤202完全相同，请参见步骤202的表述，本申请在此不再进行赘述。

步骤704：通过所述训练样本和原始训练标签对t个原始模型M进行训练，得到t个原始模型M，其中，所述t为大于等于1的正整数。

其中，根据目标模型N对应的作为主任务的自然语言处理任务，可以将t个原始模型M设计为不同结构的模型，包括但不限于分类模型、机器翻译模型、阅读理解模型或实体识别模型等，并根据每个原始模型的结构和参数选择其所需要的训练数据进行同步的联合训练，得到t个不同类型的原始模型M。

步骤706：为t个原始模型M分别配置对应的蒸馏温度参数T，将所述训练样本输入至t个原始模型M中进行分类，得到t个原始模型M对应的t个原始预测概率。

步骤708：计算t个原始模型对应的t个原始预测概率的平均值，得到每个所述训练样本对应的预测标签。

步骤710：将每个训练样本对应的预测标签和所述原始训练签进行权重融合，得到每个训练样本对应的目标训练标签。

步骤712：通过所述训练样本和所述目标训练标签对目标模型N进行有监督训练，直至达到训练停止条件。

本申请通过首先预训练多个原始模型作为“简单模型”，然后依据模型蒸馏的思想，利用预训练的原始模型的输出辅助训练大规模的目标模型即“复杂模型”。该策略是一种多阶段的训练方法，每个阶段训练一个模型，同时利用预训练的模型辅助后续模型的训练，最终完成整个目标模型的训练。

其中，所述处理器120还可以执行图8所示方法中的步骤。图8是示出了根据本申请一实施例的基于神经网络的文本翻译方法的示意性流程图，包括步骤802至步骤806。

步骤802：获取待翻译语句。

在主任务为机器翻译任务的情况下，本申请首先获取需要进行翻译的带翻译语句，例如“我爱你中国”。

步骤804：将所述待翻译语句输入至文本翻译模型，所述文本翻译模型为根据本申请所述的神经网络模型的训练方法进行训练得到的。

相应地，根据主任务设计对应的文本翻译模型作为本申请的目标模型，进一步预训练多个原始模型对文本翻译模型的训练数据训练数据进行优化可调整，以训练出高性能的文本翻译模型。

具体而言，如图9所示，所述文本翻译模型通过以下方式训练得到：

步骤902：根据翻译训练数据预训练多个原始模型，其中，所述原始模型包括机器翻译模型和分类模型。

在目标模型为文本翻译模型的情况下，可以将翻译任务和分类任务作为主任务的辅助任务，并设计若干个机器翻译模型和若干个分类任务模型作为原始模型。获取预训练多个原始模型所需要的翻译训练数据，包括原始语料、每个原始语料对应的翻译语料以及所述原始语料中每个字符对应的分类标签等，根据多个原始语料和每个原始语料对应的翻译语料，对所述翻译任务模型进行训练；根据多个原始语料和每个原始语料对应的翻译语料，对所述翻译任务模型进行训练，其中，每个分类任务模型的训练数据训练数据的可以是不一样的，每个分类任务模型的结构也可以是不一样的，可以根据需要进行设定，本申请在此不进行具体的限定。

应当注意的是，多个翻译任务模型和多个分类任务是进行联合训练的，即在训练时采用的是多个模型同步训练，从而体现出不同模型之间的差异，进而使得最终的文本翻译模型能够具有更好的泛化能力。

步骤904：基于所述多个原始模型确定所述翻译训练数据对应的翻译预测标签，通过所述翻译预测标签和所述翻译训练数据对应的原始翻译标签生成目标翻译训练标签。

进一步地，为每个原始模型配置蒸馏温度参数T，并通过多个原始模型对翻译训练数据中的原始翻译标签进行调整，最终得到目标翻译训练标签。

步骤906：通过所述翻译训练数据对应的训练样本和所述目标翻译训练标签对文本翻译模型进行训练，直至达到训练停止条件。

通过调整后的所述翻译训练数据对作为目标模型的文本翻译模型进行训练，其中，所述调整后的所述翻译训练数据包括多个原始语料以及每个原始语料对应的目标翻译训练标签，将多个原始语料输入至文本翻译模型，并获取文本翻译模型响应于所述多个原始语料作为输入而生成的原始翻译结果，然后根据每个原始语料对应的原始翻译结果和每个原始语料对应的目标翻译训练标签计算文本翻译模型的损失值，最后根据文本翻译模型的损失值调整文本翻译模型的参数，直至文本翻译模型的损失值小于预设阈值，以达到训练停止条件。

步骤806：通过所述文本翻译模型对所述待翻译语句进行翻译，并输出所述待翻译语句对应的目标翻译语句。

在本申请的实施例中，通过将所述待翻译语句对应的词向量表示输入至文本翻译模型中进行处理，最终输出所述待翻译语句对应的目标翻译语句。例如，所述待翻译语句可以是“我爱你中国”，将所述待翻译语句“我爱你中国”拆分为对应的字符“我”、“爱”、“你”和“中国”并生成对应的词向量表示并输入值所述文本翻译模型中进行处理，最终输出所述待翻译语句对应的目标翻译语句“I Love You China”。

在本申请的实施例中，所述步骤806具体包括步骤1002至步骤1004。

步骤1002：通过所述文本翻译模型的编码器生成所述待翻译语句对应的编码向量，并将所述编码向量输入至所述文本翻译模型的解码器中。

在Transform模型的框架下，所述文本翻译模型主要由若干个编码器和若干个解码器组成，具体可以是编码器由六个相同的编码层堆叠在一起，每一个编码层又有两个支层,第一个支层是一个多头的自注意机制(Multi-Head Attention)，第二个支层是一个简单的全连接前馈网络(Feed Forward)。在两个支层外面都添加了一个残差连接，然后进行层规范化操作(Layer Nomalization)。解码器也是堆叠了六个解码层，在每个解码层中除了编码器中的两个支层，解码器还加入了第三个自注意力支层，在三个支层外面都添加了一个残差连接，然后进行层规范化操作。

步骤1004：通过所述文本翻译模型的解码器生成所述待翻译语句对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标翻译语句。

编码器的每一个编码层包括自注意力层和前馈神经网络层，通过自注意力层对待翻译语句对应的词向量表示进行处理，然后前馈神经网络层进行非线性的转化，将输入再转入到下一个编码层中进行计算，以此类推直，到最后一层编码层，最后一层编码层得到生成所述待翻译语句对应的编码向量并映射到解码器中。在解码器的每一个解码层有三个操作，分别是自注意力机制、编码-解码注意机制以及前馈神经网络操作，最终输出所述待翻译语句对应的目标翻译语句。

本申请通过将机器翻译任务作为主任务设计出对应的文本翻译模型，同时设计多个机器翻译模型和分类模型作为原始模型执行翻译和分类的辅助任务，通过采用多种不同结构的原始模型进行预训练，在机器翻译任务之外，还加入了其它自然语言处理任务作为辅助任务，既丰富了训练任务，又利用了更多的训练数据，从而使得最终训练出的文本翻译模型能够学习到更为通用的特征，提升了模型的泛化能力，该文本翻译模型相比直接训练出的翻译模型具有更加优越的模型性能。

与上述方法实施例相对应，本说明书还提供了神经网络模型的训练装置实施例，图11示出了本说明书一个实施例的神经网络模型的训练装置的结构示意图。如图11所示，该装置包括：

训练样本模块1101，被配置为获取包括至少一个训练样本对的训练样本集合，其中，每个所述训练样本对包括训练样本和原始训练标签；

标签蒸馏模块1102，被配置为根据所述训练样本集合训练多个原始模型，基于所述多个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签；

模型训练模块1103，被配置为通过所述训练样本和所述目标训练标签对目标模型进行训练，直至达到训练停止条件。

可选的，所述标签蒸馏模块1102

进一步被配置为：

分别获取所述至少一个训练样本对中的若干个训练样本并分别输入至每个原始模型；

根据每个原始模型对应的训练样本，获取响应于所述训练样本作为输入而生成的原始预测结果；

根据若干个训练样本对应的原始预测结果和若干个训练样本对应的原始训练标签计算每个原始模型的损失值；

根据每个原始模型的损失值调整每个原始模型的参数，直至每个原始模型的损失值小于预设阈值。

可选的，所述标签蒸馏模块1102包括：

预测标签生成单元，被配置为为每个所述原始模型配置对应的蒸馏温度参数，基于配置后的每个原始模型确定每个训练样本对应的预测标签；

标签融合单元，被配置为将每个训练样本对应的预测标签和所述原始训练签进行权重融合，得到每个训练样本对应的目标训练标签。

可选的，所述预测标签单元进一步被配置为：

在每个原始模型的归一化层中配置对应的蒸馏温度参数；

将每个所述训练样本分别输入至每个配置后的原始模型中，根据每个配置后的原始模型输出的预测结果，确定每个训练样本对应的预测标签。

可选的，所述预测标签单元进一步被配置为：

获取每个原始模型输出的每个训练样本对应的原始预测概率；

计算每个原始模型输出的每个训练样本对应的原始预测概率的平均值，得到每个所述训练样本对应的预测标签。

可选的，所述标签融合单元进一步被配置为：

为每个训练样本对应的预测标签和原始训练标签分别配置对应的融合权重参数；

通过所述融合权重参数对每个训练样本对应的预测标签和原始训练标签进行加权计算，得到每个训练样本对应的目标预测概率；

根据每个训练样本对应的目标预测概率生成每个训练样本对应的目标训练标签。

本申请基于模型预训练与模型蒸馏的理论基础，采用模型蒸馏的逆向逻辑，利用预先训练的简单的原始模型辅助复杂的目标模型的训练，通过多阶段的训练模式，最终完成整个复杂的目标模型的训练，最终提升整个目标模型的表征能力和模型性能以及模型在进行机器翻译应用中的精准度。

与上述方法实施例相对应，本说明书还提供了基于神经网络的文本翻译装置实施例，图12示出了本说明书一个实施例的基于神经网络的文本翻译装置的结构示意图。如图12所示，该装置包括：

语句获取模块1201，被配置为获取待翻译语句；

语句输入模块1202，被配置为将所述待翻译语句输入至文本翻译模型，其中，所述文本翻译模型为根据本申请所述的神经网络模型的训练方法进行训练得到的；

文本翻译模块1203，被配置通过所述文本翻译模型对所述待翻译语句进行翻译，并输出所述待翻译语句对应的目标翻译语句。

可选的，所述文本翻译模块1203进一步被配置为：

通过所述机器翻译模型的编码器生成所述待翻译语句对应的编码向量，并将所述编码向量输入至所述机器翻译模型的解码器中；

通过所述机器翻译模型的解码器生成所述待翻译语句对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标翻译语句。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

获取待翻译语句；

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述神经网络模型的训练方法和基于神经网络的文本翻译方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的神经网络模型的训练方法的技术方案属于同一构思，计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述神经网络模型的训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述训练样本集合训练多个原始模型，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述至少一个原始模型确定所述训练样本对应的预测标签，通过所述预测标签和所述原始训练标签生成目标训练标签，包括：

为每个所述原始模型配置对应的蒸馏温度参数，基于配置后的每个原始模型确定每个训练样本对应的预测标签；

将每个训练样本对应的预测标签和所述原始训练签进行权重融合，得到每个训练样本对应的目标训练标签。

4.根据权利要求3所述的方法，其特征在于，

为每个所述原始模型配置对应的蒸馏温度参数，基于配置后的每个原始模型确定每个训练样本对应的预测标签，包括：

在每个原始模型的归一化层中配置对应的蒸馏温度参数；

5.根据权利要求4所述的方法，其特征在于，根据每个配置后的原始模型输出的预测结果，确定每个训练样本对应的预测标签，包括：

6.根据权利要求3所述的方法，其特征在于，将每个训练样本对应的预测标签和所述原始训练签进行权重融合，得到每个训练样本对应的目标训练标签，包括：

7.一种基于神经网络的文本翻译方法，其特征在于，包括：

获取待翻译语句；

将所述待翻译语句输入至文本翻译模型，其中，所述文本翻译模型为根据权利要求1-6任一项所述的神经网络模型的训练方法进行训练得到的；

8.根据权利要求7所述的方法，其特征在于，所述文本翻译模型通过以下方式训练得到：

根据翻译训练数据预训练多个原始模型，其中，所述原始模型包括机器翻译模型和分类模型；

基于所述多个原始模型确定所述翻译训练数据对应的翻译预测标签，通过所述翻译预测标签和所述翻译训练数据对应的原始翻译标签生成目标翻译训练标签；

通过所述翻译训练数据对应的训练样本和所述目标翻译训练标签对文本翻译模型进行训练，直至达到训练停止条件。

9.根据权利要求7述的方法，其特征在于，通过所述文本翻译模型对所述待翻译语句进行翻译，并输出所述待翻译语句对应的目标翻译语句，包括：

通过所述文本翻译模型的编码器生成所述待翻译语句对应的编码向量，并将所述编码向量输入至所述机器翻译模型的解码器中；

通过所述文本翻译模型的解码器生成所述待翻译语句对应的解码向量，并根据所述解码向量生成并输出所述待翻译语句对应的目标翻译语句。

10.一种神经网络模型的训练装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述标签蒸馏模块进一步被配置为：

12.根据权利要求10所述的装置，其特征在于，所述标签蒸馏模块包括：

13.根据权利要求12所述的装置，其特征在于，所述预测标签生成单元进一步被配置为：

在每个原始模型的归一化层中配置对应的蒸馏温度参数；

14.根据权利要求13所述的装置，其特征在于，所述预测标签生成单元进一步被配置为：

15.根据权利要求12所述的装置，其特征在于，所述标签融合单元进一步被配置为：

16.一种基于神经网络的文本翻译装置，其特征在于，包括：

语句获取模块，被配置为获取待翻译语句；

语句输入模块，被配置为将所述待翻译语句输入至文本翻译模型，其中，所述文本翻译模型为根据权利要求1-6任一项所述的神经网络模型的训练方法进行训练得到的；

17.根据权利要求16所述的装置，其特征在于，所述文本翻译模型通过以下方式训练得到：

18.根据权利要求16所述的装置，其特征在于，所述文本翻译模块进一步被配置为：

19.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或者7-9任意一项所述方法的步骤。

20.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或者7-9任意一项所述方法的步骤。