CN111144567A

CN111144567A - 神经网络模型的训练方法及装置

Info

Publication number: CN111144567A
Application number: CN201911415075.5A
Authority: CN
Inventors: 蒋亮; 温祖杰; 梁忠平; 张家兴
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本说明书实施例提供一种神经网络模型的训练方法及装置。模型训练过程包括若干子训练过程，一个子训练过程包括预设数量个训练周期。在第N子训练过程的第M训练周期中，当第N子训练过程非首个子训练过程，且第M训练周期非首个训练周期时，基于第N‑1子训练过程的最后一个训练周期训练结束时得到的第一目标模型，以及第N子训练过程中的第M‑1训练周期训练结束时得到的第二目标模型，对待训练神经网络模型的训练过程进行调整，更新待训练神经网络模型。

Description

神经网络模型的训练方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种神经网络模型的训练方法及装置。

背景技术

深度学习在计算机视觉、自然语言处理领域都取得了远超传统方法的效果，现在已经成为人工智能领域非常主流的方法。通常来讲，神经网络的深度越深，期望的预测效果越好。在对神经网络模型进行训练时，可以采集大量的文本、图像、视频等样本数据，并依据针对样本数据标注的标签，对神经网络模型进行训练，以使得神经网络模型对输入数据的预测结果与标注的标签逐渐接近。

因此，希望能有改进的方案，可以提高神经网络模型训练的有效性，在使用神经网络模型对业务数据进行业务预测时可以提高业务预测的准确性。

发明内容

本说明书一个或多个实施例描述了一种神经网络模型的训练方法及装置，以提高神经网络模型训练的有效性，进而使得神经网络模型对业务数据的业务预测更准确。具体的技术方案如下。

第一方面，提供了一种神经网络模型的训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述方法包括：

获取当前的第N子训练过程中第M训练周期的待训练神经网络模型；

获取所述训练样本集中的第一样本数据和对应的第一标注数据；

将所述第一样本数据输入所述待训练神经网络模型，得到所述第一样本数据的第一预测数据；

当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；

根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；

向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该方法还包括：

检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；

如果是，则将更新后的待训练神经网络模型确定为所述第M训练周期结束时得到的神经网络模型。

在一种实施方式中，该方法还包括：

当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型；

根据所述第一标注数据和所述第二预测数据分别与所述第一预测数据之间的比较，确定第二预测损失；

向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该方法还包括：

当所述第N子训练过程是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；

根据所述第一标注数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第三预测损失；

向使得所述第三预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该方法还包括：

当所述第N子训练过程是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，根据所述第一标注数据和所述第一预测数据之间的比较，确定第四预测损失；

向使得所述第四预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，所述根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失的步骤，包括：

根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失；

根据所述第一预测数据与所述第二预测数据的比较，确定第二子预测损失；

根据所述第一预测数据与所述第三预测数据的比较，确定第三子预测损失；

根据所述第一子预测损失、所述第二子预测损失和所述第三子预测损失的和值，确定第一预测损失。

在一种实施方式中，所述第一标注数据为标注值，所述根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失的步骤，包括：

采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述第一标注数据为标注分类，所述根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失的步骤，包括：

采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；

所述业务数据包括：文本、图像、音频、对象数据中的至少一种。

第二方面，实施例提供了一种神经网络模型的训练装置，部署在计算机中，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述装置包括：

第一获取模块，配置为获取当前的第N子训练过程中第M训练周期的待训练神经网络模型；

第二获取模块，配置为获取所述训练样本集中的第一样本数据和对应的第一标注数据；

第一预测模块，配置为将所述第一样本数据输入所述待训练神经网络模型，得到所述第一样本数据的第一预测数据；

第三获取模块，配置为当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；

第一确定模块，配置为根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；

第一更新模块，配置为向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该装置还包括：

第一检测模块，配置为检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；

第二确定模块，配置为当所述第一样本数据是所述训练样本集中的最后一个样本数据时，将更新后的待训练神经网络模型确定为所述第M训练周期结束时得到的神经网络模型。

在一种实施方式中，该装置还包括：

第四获取模块，配置为当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型；

第三确定模块，配置为根据所述第一标注数据和所述第二预测数据分别与所述第一预测数据之间的比较，确定第二预测损失；

第二更新模块，配置为向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该装置还包括：

第五获取模块，配置为当所述第N子训练过程是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；

第四确定模块，配置为根据所述第一标注数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第三预测损失；

第三更新模块，配置为向使得所述第三预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该装置还包括：

第五确定模块，配置为当所述第N子训练过程是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，根据所述第一标注数据和所述第一预测数据之间的比较，确定第四预测损失；

第四更新模块，配置为向使得所述第四预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，所述第一确定模块，具体配置为：

根据第一标注数据与所述第一预测数据的比较，确定第一子预测损失；

根据第一预测数据与所述第二预测数据的比较，确定第二子预测损失；

根据第一预测数据与所述第三预测数据的比较，确定第三子预测损失；

在一种实施方式中，所述第一确定模块，根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失时，包括：

当所述第一标注数据为标注值时，采用平方误差函数、对数损失函数中的一种，对第一标注数据与第一预测数据进行比较，得到第一子预测损失。

当所述第一标注数据为标注分类时，采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与第一预测数据进行比较，得到第一子预测损失。

第三方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面任一项所述的方法。

第四方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面任一项所述的方法。

在本说明书实施例提供的方法和装置中，基于第一目标模型和第二目标模型的预测数据，调整待训练神经网络模型的模型训练。第一目标模型是前一个子训练过程训练结束时的神经网络模型，该神经网络模型与待训练神经网络模型之间的差异比较大；而第二目标模型是前一个训练周期训练结束时的神经网络模型，是训练过程中更成熟、更新的神经网络模型，其模型质量更高。同时采用第一目标模型和第二目标模型作为指导模型，能够既保证模型之间的差异性，又保证指导模型的质量，因此能够提高神经网络模型训练的有效性，进而使得神经网络模型对业务数据的业务预测更准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例提供的模型训练阶段的流程示意图；

图2为一个实施例提供的模型预测阶段的流程示意图；

图3为一个实施例提供的模型训练过程的原理示意图；

图4为一个实施例提供的神经网络模型的训练方法的流程示意图；

图5为图4中长短期老师模式的训练方法的一种流程示意图；

图6为一个实施例提供的长期老师模式的训练方法的流程示意图；

图7为一个实施例提供的短期老师模式的训练方法的流程示意图；

图8为一个实施例提供的神经网络模型的训练装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

神经网络模型包含一系列运算和运算中的参数，这些参数可以称为模型参数。与神经网络模型相关的处理过程，通常可以包括模型训练阶段和模型预测阶段。对神经网络模型进行训练，是不断地调整模型参数，使得通过神经网络模型对样本数据进行预测时，预测数据与标注数据能够尽可能一致的过程。图1为一个实施例提供的模型训练阶段的流程示意图。其中，训练样本集包含大量的样本数据和对应的标签(label)，标签也可称为标注数据。样本数据可以包括文本、图像、音频、对象数据中的至少一种。对象数据可以理解为与实体对象相关的数据，例如注册用户数据(例如用户属性、行为等数据)、城市道路数据(例如道路拥堵、道路建设等数据)。在一轮模型训练中，可以将样本数据输入神经网络模型，得到预测数据，将预测数据与标签进行比较，并根据比较结果对神经网络模型进行更新。

当神经网络模型训练好之后，神经网络模型可以用于对输入的业务数据进行业务预测。业务数据可以包括文本、图像、音频、对象数据中的至少一种。业务预测可以包括很多种，例如预测图像中的行人、车辆、障碍物，预测音频对应的文字等。图2为一个实施例提供的模型预测阶段的流程示意图。其中，将图像输入神经网络模型，可以得到神经网络模型输出的预测结果，即图像中的行人区域。图2仅仅是对模型业务预测的一种举例，在实际场景中可以训练多种神经网络模型，用于执行很多种类的业务预测。

本说明书实施例提供了神经网络模型的训练方法。其中，神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程。预设数量可以预先设置，例如可以设置为3～10之间的数量。

在模型训练过程中，可以根据模型的预测数据与标注数据之间的差异，对模型进行调整。为了减少模型训练过程中可能产生的梯度消失、训练震荡等问题，避免过拟合，本实施例引入老师模型，可以将模型训练过程中前一阶段得到的神经网络模型作为后一阶段训练过程的老师模型。使用老师模型对模型训练过程进行一定的指导，使得在确定预测损失时不仅要考虑预测数据与标注数据之间的差异，还要考虑老师模型的预测数据与待训练神经网络模型的预测数据之间的差异，进而减少模型训练过程中可能产生的梯度消失、训练震荡等问题，避免过拟合。

为了既保持老师模型与待训练神经网络模型之间的差异性，又尽可能提高老师模型的训练质量，本实施例中引入长期老师模型和短期老师模型。例如，可以将上一子训练过程得到的神经网络模型作为下一子训练过程的长期老师模型，将上一训练周期得到的神经网络模型作为下一训练周期的短期老师模型。

下面结合图3所示的模型训练过程原理示意图对长期老师模型和短期老师模型进行说明。其中，第N-1子训练过程和第N子训练过程均包括训练周期1、训练周期2和训练周期3这三个训练周期。在一个训练周期中，使用训练样本集中的所有样本数据对神经网络模型NN(在以下表述中，将“模型NN”作为“神经网络模型NN”的简称)进行训练。Si表示训练样本集中的样本数据，Pi表示模型NN针对样本数据Si确定的预测数据。

为第N子训练过程中的长期老师模型，L表示长期，N取正整数。

为第M训练周期的短期老师模型，S表示短期，M取正整数,在本例中M＝1,2,3。

下面以第N子训练过程中的训练周期2为例，说明采用长期老师模型和短期老师模型如何对模型NN的训练过程进行调整。将样本数据Si输入模型NN之后，模型NN可以确定样本数据Si的预测数据Pi。同时，也可以基于长期老师模型

获取样本数据Si的预测数据Di，以及基于短期老师模型

获取样本数据Si的预测数据Di。根据样本数据Si的标注数据、两个预测数据Di分别与预测数据Pi之间的比较，确定预测损失，向使得预测损失减小的方向更新模型NN。当采用了所有样本数据Si对模型NN进行训练之后，该训练周期2结束，并将此时的模型NN作为训练周期3的短期老师模型。在训练周期3中可以采用类似的训练方式进行模型训练，并可以将训练周期3训练结束时的模型作为第N+1子训练过程的长期老师模型。

该图3仅以一个子训练过程包含3个训练周期作为例子进行说明，本说明书实施例并不限定子训练过程包含的训练周期的具体数量。至于整个模型训练过程具体包含多少个子训练过程，可以在神经网络模型的训练满足收敛条件时确定。

以上内容为结合图3对本说明书实施例进行的简略说明。下面再结合图4的流程示意图，对本说明书实施例提供的训练方法进行详细说明。该方法可以通过计算机执行，执行主体具体可以为任何具有计算、处理能力的装置、设备、平台或设备集群。针对当前的第N子训练过程中的第M训练周期，当N＝1，M＝1时，训练过程无老师模型的指导，此为无老师模式。当N＝1，M≠1时，训练过程只有短期老师模型的指导，此为短期老师模式。当N≠1，M＝1时，训练过程只有长期老师模型的指导，此为长期老师模式。当N≠1，M≠1时，训练过程有长期老师模型和短期老师模型的指导，此为长短期老师模式。在长短期老师模式中，可以通过以下步骤S410～S460对模型训练方法进行说明。

步骤S410：获取当前的第N子训练过程中第M训练周期的待训练神经网络模型NN。

由于第N子训练过程并不是第一个训练过程，并且第M训练周期也不是第一个训练周期，因此待训练神经网络模型NN中的模型参数已经过多次训练，但是还不够准确。本实施例中可以不断地对待训练神经网络模型NN的模型参数进行调整，直至模型收敛。

步骤S420：获取训练样本集中的第一样本数据S1和对应的第一标注数据X1。

其中，第一样本数据S1可以是一个，也可以是多个(即一批)。第一样本数据可以是用于标识样本的特征数据。例如，当样本为图像时，第一样本数据可以包括图像的像素点的像素值；当样本为注册用户时，第一样本数据可以包括属性特征和行为特征等数据，属性特征可以包括用户的注册时间、性别、职业等，行为特征可以从与用户相关的行为数据中提取。

在具体实现时，第一标注数据X1可以对应不同的数据类型，例如可以是标注值，也可以是标注分类。当第一标注数据是标注值时，待训练神经网络模型为回归模型；当第一标注数据是标注分类时，待训练神经网络模型为分类模型。当第一标注数据是标注分类时，第一标注数据可以采用概率的数据形式表示。例如，当分类类别包含三个时，第一标注数据可以为(0,0,1)、(0,1,0)或者(1,0,0)。

步骤S430：将第一样本数据S1输入待训练神经网络模型NN，得到第一样本数据S1的第一预测数据D1。待训练神经网络模型NN可以根据模型参数确定输入的第一样本数据S1的第一预测数据D1。

当第一样本数据S1的数量为多个时，可以分别通过待训练神经网络模型NN得到每一个第一样本数据S1的第一预测数据D1。

当第一标注数据X1是标注值时，第一预测数据D1为预测值；当第一标注数据X1是标注分类时，第一预测数据D1通常包括所预测的各个分类下的概率分布。

步骤S440：基于第一目标模型Z1获取第一样本数据S1的第二预测数据D2，基于第二目标模型ZL2获取第一样本数据S1确定的第三预测数据D3。

其中，第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，第一目标模型可以理解为是第N子训练过程中所有训练周期的长期老师模型。第N-1子训练过程为第N子训练过程的上一训练过程。第二目标模型是第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型，第二目标模型可以理解为是第N子训练过程的第M训练周期的短期老师模型。第M-1训练周期是第M训练周期的上一训练周期。

在一种实施方式中，可以预先将训练样本集中的各个样本数据输入第一目标模型Z1，得到对应的第一预测数据集合。例如，在第N-1子训练过程的最后一个训练周期训练结束时，将得到的神经网络模型作为第一目标模型Z1，将训练样本集中各个样本数据输入第一目标模型Z1，得到对应的第一预测数据集合。

在步骤S440中，基于第一目标模型Z1获取第一样本数据S1的第二预测数据D2时，从上述第一预测数据集合中读取保存的与第一样本数据S1对应的第二预测数据D2即可。

基于第二目标模型ZL2获取第一样本数据S1确定的第三预测数据D3时，可以直接将第一样本数据S1输入第二目标模型ZL2，通过第二目标模型ZL2得到第一样本数据S1的第三预测数据D3；也可以是，预先将训练样本集中的各个样本数据输入第二目标模型ZL2，得到第二预测数据集合。在需要获取第三预测数据D3时，从第二预测数据集合中读取保存的与第一样本数据S1对应的第三预测数据D3即可。

步骤S440可以在步骤S420之后、步骤S430之前执行，也可以在步骤S430之后执行。

步骤S450：根据第一标注数据X1、第二预测数据D2和第三预测数据D3分别与第一预测数据D1之间的比较，确定第一预测损失Loss1。

当第一样本数据S1的数量为多个时，例如针对两个第一样本数据S11和S12，分别采用步骤S450的方式确定第一样本数据S11的第一预测损失Loss11，以及第一样本数据S12的第一预测损失Loss12，对第一预测损失Loss11和Loss12进行融合，得到融合后的第一预测损失Loss1。

根据第一预测数据D1与第一标注数据X1的比较，也可以更新待训练神经网络模型。但是，本实施例中，不仅要使得第一预测数据D1与第一标注数据X1逐渐接近，还要使得第一预测数据D1与第二预测数据D2逐渐接近，以及第一预测数据D1与第三预测数据D3也逐渐接近。这样能够使得模型训练过程更有效，减少过拟合，解决梯度消失、训练震荡等问题。

步骤S460：向使得第一预测损失Loss1减小的方向，更新待训练神经网络模型NN。更新待训练神经网络模型NN，可以理解为调整待训练神经网络模型NN的模型参数，使得预测损失减小。

以上步骤S410～S460实现了对模型的一次更新，其可以理解为模型训练过程中的一轮训练，采用上述方式可以对训练样本集中的所有样本数据进行训练。图4为本实施例提供的一轮训练过程的流程示意图。其中，基于待训练神经网络模型NN、第一目标模型Z1和第二目标模型Z2，可以分别获取第一样本数据S1的第一预测数据D1、第二预测数据D2和第三预测数据D3，根据第一标注数据X1、第二预测数据D2和第三预测数据D3，分别与第一预测数据D1之间的比较，可以确定第一预测损失Loss1，向使得第一预测损失Loss1减小的方向更新待训练神经网络模型NN。

当针对待训练神经网络模型NN的训练次数大于预设次数阈值，即训练次数足够多，或者第一预测损失Loss1小于预设损失阈值时，可以确定模型训练完成，达到收敛的条件。

由上述内容可见，本实施例中，基于第一目标模型和第二目标模型的预测数据，调整待训练神经网络模型的模型训练。第一目标模型是前一个子训练过程训练结束时的神经网络模型，该神经网络模型与待训练神经网络模型之间的差异比较大；而第二目标模型是前一个训练周期训练结束时的神经网络模型，是训练过程中更成熟、更新的神经网络模型，其模型质量更高。同时采用第一目标模型和第二目标模型作为指导模型，能够既保证模型之间的差异性，又保证指导模型的质量，因此能够提高神经网络模型训练的有效性，减少训练过程中的过拟合问题，解决梯度消失、训练震荡等问题。采用这样的神经网络模型对业务数据进行业务预测时，也能提高业务预测的准确性。

在模型训练过程中，还可以检测第一样本数据是否为训练样本集中的最后一个样本数据，如果是，则将更新后的待训练神经网络模型确定为第M训练周期结束时得到的神经网络模型。该检测操作可以按照预设时长周期性进行。

下面继续对上述实施例的具体实施方式进行说明。步骤S450，根据第一标注数据X1、第二预测数据D2和第三预测数据D3分别与第一预测数据D1之间的比较，确定第一预测损失Loss1的步骤，具体可以包括以下步骤1a～4a所示的实施方式。

步骤1a：根据第一标注数据X1与第一预测数据D1的比较，确定第一子预测损失Loss_1。

当第一标注数据X1为标注值时，第一预测数据D1为预测值，即在回归模型的训练中，步骤1a可以包括，采用平方误差函数、对数损失函数中的一种，对第一标注数据X1与第一预测数据D1进行比较，得到第一子预测损失Loss_1。

当第一标注数据X1为标注分类时，第一预测数据D1为预测分类，即在分类模型中，步骤1a可以包括，采用KL(Kullback-Leibler)距离、交叉熵、JS(Jensen-Shannon)距离中的一种，对第一标注数据X1与第一预测数据D1进行比较，得到第一子预测损失Loss_1。

步骤2a：根据第一预测数据D1与第二预测数据D2的比较，确定第二子预测损失Loss_2。

步骤3a：根据第一预测数据D1与第三预测数据D3的比较，确定第三子预测损失Loss_3。

在回归模型和分类模型的训练中，本步骤2a和3a也可以采用与步骤1a中对应的损失函数进行计算。

步骤4a：根据第一子预测损失Loss_1、第二子预测损失Loss_2和第三子预测损失Loss_3的和值，确定第一预测损失Loss1。

本步骤中，可以直接将第一子预测损失Loss_1、第二子预测损失Loss_2和第三子预测损失Loss_3的和值，确定为第一预测损失Loss1。也可以依据对该和值进行预设处理后的结果确定为第一预测损失Loss1。

上述图4和图5说明的是当第N子训练过程不是第一个子训练过程，且第M训练周期不是第N子训练过程中的第一个训练周期时的实施方式，为长短期老师模式的训练过程。下面分别对长期老师模式、短期老师模式和无老师模式进行说明。

当第N子训练过程不是第一个子训练过程，且第M训练周期是第N子训练过程中的第一个训练周期时，即在长期老师模式的模型训练中，具体方法可以包括以下步骤1b～6b。

步骤1b：获取当前的第N子训练过程中第M训练周期的待训练神经网络模型NN。

步骤2b：获取训练样本集中的第一样本数据S1和对应的第一标注数据X1。

步骤3b：将第一样本数据S1输入待训练神经网络模型NN，得到第一样本数据S1的第一预测数据D1。

上述步骤1b～3b分别与步骤S410～S430相同，具体说明可参考前述内容，此处不再赘述。

步骤4b：基于第一目标模型Z1获取第一样本数据S1的第二预测数据D2。

其中，第一目标模型Z1是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，可以作为长期老师模型。本步骤的具体实施方式可以参考步骤S440中的相关说明，此处不再赘述。

在本实施例中，对于非第一个子训练过程的第一个训练周期，上一子训练过程结束时得到的神经网络模型可以作为长期老师模型。在当前的子训练过程中，当前训练周期还不存在上一训练周期，因此模型训练过程中无短期老师模型进行指导。图3中第N子训练过程的训练周期1的训练过程，可以作为本实施例的一个例子。

步骤5b：根据第一标注数据和第二预测数据分别与第一预测数据之间的比较，确定第二预测损失Loss2。

本步骤可以包括以下实施方式，根据第一标注数据X1与第一预测数据D1的比较，确定第一子预测损失Loss_1；根据第一预测数据D1与第二预测数据D2的比较，确定第二子预测损失Loss_2；根据第一子预测损失Loss_1和第二子预测损失Loss_2的和值，确定第二预测损失Loss2。

步骤6b：向使得第二预测损失Loss2减小的方向，更新待训练神经网络模型。

参见图6，该图6为本实施例提供的从输入样本数据到更新模型NN的训练过程的流程示意图。其中，在一轮训练中，依据第一目标模型Z1对模型NN的训练过程进行调整。

综上，本实施例提供了非第一个子训练过程中的首个训练周期的模型训练方法，可以基于第一目标模型(长期老师模型)对待训练神经网络模型进行调整，能够提高模型训练时的有效性。

当第N子训练过程是第一个子训练过程，且第M训练周期不是第N子训练过程中的第一个训练周期时，即在短期老师模式的模型训练中，具体方法可以包括以下步骤1c～6c。

步骤1c：获取当前的第N子训练过程中第M训练周期的待训练神经网络模型NN。

步骤2c：获取训练样本集中的第一样本数据S1和对应的第一标注数据X1。

步骤3c：将第一样本数据S1输入待训练神经网络模型NN，得到第一样本数据S1的第一预测数据D1。

上述步骤1c～3c分别与步骤S410～S430相同，具体说明可参考前述内容，此处不再赘述。

步骤4c：基于第二目标模型Z2获取第一样本数据S1的第三预测数据D3。

其中，第二目标模型是第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型，可以作为短期老师模型。本步骤的具体实施方式可以参考步骤S440中的相关说明，此处不再赘述。

在本实施例中，对于第一个子训练过程的非第一个训练周期，由于其不存在上一子训练过程，因此无长期老师模型。而在当前的子训练过程中，当前训练周期并不是第一个训练周期，其存在上一训练周期，因此模型训练过程中有短期老师模型进行指导。

步骤5c：根据第一标注数据X1和第三预测数据D3分别与第一预测数据D1之间的比较，确定第三预测损失Loss3。

本步骤可以包括以下实施方式，根据第一标注数据X1与第一预测数据D1的比较，确定第一子预测损失Loss_1；根据第一预测数据D1与第三预测数据D3的比较，确定第三子预测损失Loss_3；根据第一子预测损失Loss_1和第三子预测损失Loss_3的和值，确定第三预测损失Loss3。

步骤6c：向使得第三预测损失Loss3减小的方向，更新待训练神经网络模型NN。

参见图7，该图7为本实施例提供的从输入样本数据到更新模型NN的训练过程的流程示意图。其中，在一轮训练中，依据第二目标模型Z1对模型NN的训练过程进行调整。

综上，本实施例提供了首个子训练过程中的非首个训练周期的模型训练方法，可以基于第二目标模型(短期老师模型)对待训练神经网络模型进行调整，能够提高模型训练时的有效性。

当第N子训练过程是第一个子训练过程，且第M训练周期是第N子训练过程中的第一个训练周期时，当前既无上一子训练过程，也无上一子训练周期，因此属于无老师模式。在无老师模式的模型训练中，可以直接根据第一标注数据X1和第一预测数据D1之间的比较，确定第四预测损失Loss4，向使得第四预测损失Loss4减小的方向，更新待训练神经网络模型NN。

上述待训练神经网络模型可以包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent NeuralNetwork，RNN)和基于Transformer模型的双向编码器表征(Bidirectional EncoderRepresentations from Transformers，BERT)模型中的一种。

在整个模型训练过程中，可以实时地检测当前的第N子训练过程是否为第一个子训练过程，第M训练周期是否为第一个训练周期。如果均为否，则可以按照图5所示实施例的方法进行模型训练。如果不是第一个子训练过程，且是第一个训练周期，则可以按照图6所示实施例的方法进行模型训练。如果是第一个子训练过程，且不是第一个训练周期，则可以按照图7所示实施例的方法进行模型训练。如果均为是，则可以直接训练模型，即根据第一标注数据X1和第一预测数据D1之间的比较，确定第四预测损失Loss4，向使得第四预测损失Loss4减小的方向，更新待训练神经网络模型NN。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图8为本实施例提供的神经网络模型的训练装置的示意性框图。该装置800部署在计算机中，该装置实施例与图4～图7所示方法实施例相对应。其中，神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；装置800包括：

第一获取模块810，配置为获取当前的第N子训练过程中第M训练周期的待训练神经网络模型；

第二获取模块820，配置为获取所述训练样本集中的第一样本数据和对应的第一标注数据；

第一预测模块830，配置为将所述第一样本数据输入所述待训练神经网络模型，得到所述第一样本数据的第一预测数据；

第三获取模块840，配置为当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；

第一确定模块850，配置为根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；

第一更新模块860，配置为向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该装置800还包括：

第一检测模块(图中未示出)，配置为检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；

第二确定模块(图中未示出)，配置为当所述第一样本数据是所述训练样本集中的最后一个样本数据时，将更新后的待训练神经网络模型确定为所述第M训练周期结束时得到的神经网络模型。

在一种实施方式中，该装置800还包括：

第四获取模块841，配置为当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型；

第三确定模块851，配置为根据所述第一标注数据和所述第二预测数据分别与所述第一预测数据之间的比较，确定第二预测损失；

第二更新模块861，配置为向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该装置800还包括：

第五获取模块842，配置为当所述第N子训练过程是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；

第四确定模块852，配置为根据所述第一标注数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第三预测损失；

第三更新模块862，配置为向使得所述第三预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该装置800还包括：

第五确定模块(图中未示出)，配置为当所述第N子训练过程是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，根据所述第一标注数据和所述第一预测数据之间的比较，确定第四预测损失；

第四更新模块(图中未示出)，配置为向使得所述第四预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，第一确定模块850具体配置为：

根据第一子预测损失、所述第二子预测损失和所述第三子预测损失的和值，确定第一预测损失。

在一种实施方式中，第一确定模块850，根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失时，包括：

当所述第一标注数据为标注值时，采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

当所述第一标注数据为标注分类时，采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；所述业务数据包括：文本、图像、音频、对象数据中的至少一种。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

在本说明书的另一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图4～图7描述的方法。

在本说明书的另一实施例中，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图4～图7描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种神经网络模型的训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述方法包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求1所述的方法，还包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求1所述的方法，所述根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失的步骤，包括：

7.根据权利要求6所述的方法，所述第一标注数据为标注值，所述根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失的步骤，包括：

8.根据权利要求6所述的方法，所述第一标注数据为标注分类，所述根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失的步骤，包括：

9.根据权利要求1所述的方法，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；

10.一种神经网络模型的训练装置，部署在计算机中，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述装置包括：

11.根据权利要求10所述的装置，还包括：

12.根据权利要求10所述的装置，还包括：

13.根据权利要求10所述的装置，还包括：

14.根据权利要求10所述的装置，还包括：

15.根据权利要求10所述的装置，所述第一确定模块，具体配置为：

16.根据权利要求15所述的装置，所述第一确定模块，根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失时，包括：

17.根据权利要求15所述的装置，所述第一确定模块，根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失时，包括：

18.根据权利要求10所述的装置，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。