CN112686394A

CN112686394A - 一种模型训练的方法及装置

Info

Publication number: CN112686394A
Application number: CN202110008202.0A
Authority: CN
Inventors: 初祥祥; 张勃; 张津津; 柴振华; 魏晓林
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-20

Abstract

本说明书公开了一种模型训练的方法及装置，可以获取若干训练样本，并从获取到的若干训练样本中选取至少两个训练样本，得到样本集，将该样本集中包含的各训练样本进行数据混合，得到混合样本，通过待训练模型，确定该样本集中每个训练样本对应的输出结果，以及混合样本对应的输出结果，进而根据该样本集中每个训练样本对应的输出结果，以及混合样本对应的输出结果，对待训练模型进行训练。由于在模型训练过程中，加入了将构建出的样本集中包含的每个训练样本进行数据混合的混合样本，并最终参考混合样本对应的第三输出结果，对待训练模型进行训练，这样可以保证训练后的模型在输出结果上的准确性。

Description

一种模型训练的方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种模型训练的方法及装置。

背景技术

随着计算机技术的不断发展，人工智能已经应用到诸如图像识别、无人驾驶设备的智能控制，商品销量预测等各个领域中，从而为各个领域的进一步发展起到了良好的促进作用。

目前，人工智能在各个领域的应用，主要通过能够进行决策的模型来实现，而为了能够得到良好的使用效果，通常需要通过大量的训练样本对模型进行训练。然而，通过目前的训练方式所训练出的模型，在输出结果上可能依然会与实际结果出现较大的偏差，准确性较低。

所以，如何能够有效地提高训练后的模型在输出结果上的准确性，则是一个亟待解决的问题。

发明内容

本说明书提供一种模型训练的方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种模型训练的方法，包括：

获取若干训练样本；

从所述若干训练样本中选取至少两个训练样本，得到样本集；

将所述样本集中包含的各训练样本进行数据混合，得到混合样本；

通过待训练模型，确定所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果；

根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练。

可选地，将所述样本集中包含的各训练样本进行数据混合，得到混合样本，具体包括：

针对所述样本集中包含的每个训练样本，将该训练样本进行数据增强，得到该训练样本对应的增强样本；

将所述样本集中包含的每个训练样本对应的增强样本进行数据混合，得到混合样本。

可选地，根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练，具体包括：

针对所述样本集中包含的每个训练样本，根据该训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失；

根据所述样本集中包含的每个训练样本对应的第一损失，对所述待训练模型进行训练。

可选地，针对所述样本集中包含的每个训练样本，根据该训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失，具体包括：

针对所述若干训练样本中除所述样本集以外的每个其他训练样本，通过所述待训练模型，确定该其他训练样本对应的输出结果；

针对所述样本集中包含的每个训练样本，根据该训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，以及该其他训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失。

可选地，所述待训练模型包括：第一模型和第二模型，所述第一模型中的至少部分网络参数来自所述第二模型；

通过待训练模型，确定所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，具体包括：

将所述混合样本输入到所述第一模型中，得到所述混合样本对应的输出结果，以及针对所述样本集中包含的每个训练样本，将该训练样本对应的增强样本输入到所述第二模型中，得到该训练样本对应的输出结果。

将所述样本集中包含的每个训练样本对应的输出结果进行数据混合，得到混合输出结果；

根据所述混合输出结果与所述混合样本对应的输出结果之间的损失，对所述第一模型以及所述第二模型进行训练。

可选地，根据所述样本集中包含的每个训练样本对应的损失，对所述待训练模型进行训练，具体包括：

从所述样本集中选取目标训练样本，并对所述目标训练样本进行数据增强，得到所述目标训练样本的增强样本；

将所述目标训练样本输入到所述待训练模型中，得到所述目标训练样本对应的输出结果，以及将所述目标训练样本的增强样本输入到所述待训练模型中，得到所述目标训练样本的增强样本对应的输出结果；

确定所述目标训练样本的增强样本对应的输出结果与所述目标训练样本对应的输出结果之间的损失，作为第二损失；

根据所述第一损失以及所述第二损失，对所述待训练模型进行训练。

本说明书提供了一种模型训练的装置，包括：

获取模块，用于获取若干训练样本；

选取模块，用于从所述若干训练样本中选取至少两个训练样本，得到样本集；

混合模块，将所述样本集中包含的各训练样本进行数据混合，得到混合样本；

确定模块，用于通过待训练模型，确定所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果；

训练模块，用于根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的模型训练的方法中，可以获取若干训练样本，并从获取到的若干训练样本中选取至少两个训练样本，得到样本集，将该样本集中包含的各训练样本进行数据混合，得到混合样本，通过待训练模型，确定该样本集中每个训练样本对应的输出结果，以及混合样本对应的输出结果，进而根据该样本集中每个训练样本对应的输出结果，以及混合样本对应的输出结果，对待训练模型进行训练。

从上述内容中可以看出，由于在模型训练过程中，加入了将构建出的样本集中包含的每个训练样本进行数据混合的混合样本，并最终参考混合样本对应的输出结果，对待训练模型进行训练，这样可以保证训练后的模型即使在输出结果上可能会与实际结果上存在一定的偏差，但是也不会出现过大的偏差，从而进一步地保证了模型在输出结果上的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种模型训练的方法流程示意图；

图2为本说明书提供的SimCLR下的整个模型训练过程示意图；

图3为本说明书提供的一种模型训练的装置的示意图；

图4为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种模型训练的方法流程示意图，具体包括以下步骤：

S101：获取若干训练样本。

为了能够提高模型在输出结果上的准确性，可以对待训练模型进行模型训练。而在这一过程中，可以获取若干用于模型训练的训练样本。其中，本说明书提供的模型训练的方法可以应用在各种场景的模型训练，如、图像识别、无人驾驶设备的智能控制、商品销量预测、智能客服应答等等。而对于不同的应用场景，训练样本在具体形式上也有所区别。例如，若是需要对图像识别的应用场景进行模型训练，则获取到的训练样本可以是指图像样本，若是需要对智能客服应答的应用场景进行模型训，则获取到的训练样本可以是指语音样本或是文本样本，若是需要对无人驾驶设备的智能控制应用场景进行模型训练，则获取到的训练样本可以是指历史行驶轨迹。

模型训练的方法的执行主体可以是诸如台式电脑、笔记本电脑等终端设备，也可以是服务器。为了便于描述，下面仅以执行主体是服务器为例，对本说明书提供的模型训练的方法进行详细说明。

S102：从所述若干训练样本中选取至少两个训练样本，得到样本集。

S103：将所述样本集中包含的各训练样本进行数据混合，得到混合样本。

服务器可以从获取到的这些训练样本中，选取出至少两个训练样本，构成一个样本集，而后，服务器可以将该样本集中包含的各训练样本按照一定的比例进行数据混合，得到混合样本。其中，服务器采用的数据混合方式可以有多种，例如，CutMix、Mixup等，本说明书不对具体的数据混合方式进行限定。

当然，服务器也可以先针对该样本集中包含的每个训练样本，对该训练样本进行数据增强，得到该训练样本对应的增强样。而后，服务器可以将该样本集中包含的每个训练样本所对应的增强样本进行数据混合，得到混合样本。

这里提到的数据增强是指在不实质性增加数据的情况下，对训练样本进行一定的变换后来得到更多的有价值数据。例如，对于训练样本为图像样本的情况来说，对训练样本进行数据增强得到的增强样本可以是指对训练样本进行诸如翻转、旋转、裁剪、变形、缩放等操作后得到的图像。

由于混合样本可以是通过该样本集中包含的各训练样本分别经过数据增强后得到的增强样本进行混合得到的，那么通过该混合样本对待训练模型进行训练后，不仅能够保证训练后的模型在输出结果上不会与实际结果产生较大的偏差，还有效地提高了训练后的模型对变换后的数据的识别能力，从而进一步地提高了模型输出结果的准确性。

S104：通过待训练模型，确定所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果。

S105：根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练。

服务器可以将上述样本集中包含的每个训练样本以及混合样本分别输入到待训练模型，以使待训练模型分别输出该样本集中包含的每个训练样本对应的输出结果，以及混合样本对应的输出结果。

进一步地，服务器可以根据该样本集中包含的每个训练样本对应的输出结果与混合样本对应的输出结果之间的偏差，对待训练模型进行训练。其中，这里的偏差具体可以通过损失来体现，所以，服务器可以根据该样本集中包含的每个训练样本对应的输出结果，与混合样本对应的输出结果之间的相似度，确定该训练样本对应的损失，作为第一损失，进而根据该样本集中包含的每个训练样本对应的第一损失，对待训练模型进行训练。这里提到的相似度的确定方式可以有多种，如余弦夹角、欧式距离等，本说明书不对相似度的具体确定方式进行限定。

由于混合样本对应的输出结果是将混合样本输入到待训练模型中得到的，所以实际上，混合样本对应的输出结果应该是介于样本集中包含的各训练样本对应的输出结果之间，因此，通过这种方式对待训练模型进行训练，不会导致训练后的模型在输出结果上与实际结果产生较大的偏差。

例如，假设样本集中包含有两个图像样本，分别为第一图像样本以及第二图像样本，第一图像样本中包含有目标物A的图像，第二图像样本中包含有目标物B的图像，混合样本即包含有目标物A的至少部分图像，也包含有目标物B的至少部分图像。那么通过上述方式对待训练模型进行训练，可以保证将包含有目标物A的图像输入到训练后的模型中时，即使输出结果与实际结果之间出现偏差，模型识别出的结果也尽可能会是在目标物A到目标物B之间(如多少概率为目标物A、多少概率为目标物B)，而不会出现识别出除目标物A和目标物B以外的其他目标物，从而有效地保证了模型在输出结果上的准确性以及合理性。

本说明书提供的模型训练的方法可以应用于诸如有监督训练、自监督训练等训练方式中，在有监督训练的方式中，服务器可以分别确定出各训练样本(包括样本集中的每个训练样本以及混合样本)对应的输出结果与各自对应的标注结果之间偏差，进而根据各训练样本对应的输出结果与各自对应的标注结果之间偏差、样本集中包含的每个训练样本对应的输出结果与混合样本对应的输出结果之间的偏差，对待训练模型进行训练。

而对于自监督训练方式来说，目前常用的自监督训练方式包括SimCLR、MoCo以及BYOL这三种主流的方式，本说明书提供的模型训练方法在这三种训练方式中的具体应用略有不同，下面将分别对这三种训练方式进行介绍。

对于SimCLR来说，服务器可以针对样本集中包含的每个训练样本，对该训练样本进行两次数据增强，得到该训练样本对应的两个增强样本。例如，假设样本集中包含有训练样本x_i以及训练样本x_j，那么服务器可以将训练样本x_i进行两次数据增强，得到的两个增强样本为x′_i和x″_i，同理，服务器可以将训练样本x_j进行两次数据增强，得到的两个增强样本可以是x′_j和x″_j。从这里可以看出，上述步骤S102和步骤S103中提到的训练样本对应的增强样本，可以是指该训练样本对应至少一个增强样本。

上述提到的进行两次数据增强可以是采用相同的数据增强方式进行数据增强，也可以用不同的数据增强策略进行数据增强，也可以先用一种数据增强策略进行数据增强，得到一个增强样本，然后再使用另一种数据增强策略对该增强样本进行数据增强，得到另一个增强样本。当然，服务器也可以用一种数据增强策略进行数据增强，得到一个增强样本，然后再使用相同的数据增强策略对该增强样本进行数据增强，得到另一个增强样本。其他方式在此就不一一举例说明了。

进一步地，服务器可以针对获取到的若干训练样本中除上述样本集以外的每个其他训练样本，通过待训练模型，确定该其他训练样本对应的输出结果。其中，引入的其他训练样本可以理解为是相对于该样本集中包含的训练样本的负样本，引入负样本可以进一步地提高模型训练的准确性。

需要说明的是，上述提到的该其他训练样本对应的输出结果具体可以包括多种形式，例如，服务器可以直接将该其他训练样本输入到待训练模型中，得到该其他训练样本对应的输出结果；再例如，也可以先将该其他训练样本进行数据增强，得到该其他训练样本对应的增强样本，然后将该其他训练样本对应的增强样本输入到待训练模型中，得到该其他训练样本对应的输出结果；再例如，服务器也可以从上述样本集中选取出一个训练样本，将选取出的训练样本与该其他训练样本进行数据混合，得到相应的混合样本，并将该混合样本输入到待训练模型中，得到该其他训练样本对应的输出结果。

服务器可以针对该样本集中包含的每个训练样本，根据该训练样本对应的输出结果与上述混合样本对应的输出结果之间的相似度，以及该混合样本对应的输出结果与该其他训练样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失。基于此，服务器可以根据该样本集中包含的每个训练样本所对应的第一损失，对待训练模型进行训练。

为了便于说明整个过程，下面将以一个详细的示例对SimCLR下的整个模型训练过程中说明，如图2所示。

图2为本说明书提供的SimCLR下的整个模型训练过程示意图。

假设，服务器从获取到的若干训练样本中选取两个训练样本，构建样本集。该样本集中包含有训练样本x_i以及训练样本x_j。服务器可以将训练样本x_i按照第一数据增强策略进行数据增强，得到增强样本x′_i，按照第二数据增强策略进行数据增强，得到增强样本x″_i，同理，服务器可以将训练样本x_j按照第一数据增强策略进行数据增强，得到增强样本x′_j，按照第二数据增强策略进行数据增强，得到增强样本x″_j。而后，服务器可以将增强样本x′_i和增强样本x′_j按照混合比例λ进行数据混合，得到混合样本x′_i，j。

服务器可以将增强样本x″_i输入到待训练模型中的编码网络f()中，得到编码h″_i，将得到增强样本x″_j输入到编码网络f()中，得到编码h″_j，以及将混合样本x′_i，j输入到编码网络f()中，得到编码h′_i，j。进一步地，服务器可以将编码h″_i输入到待训练模型中的决策网络g()中，得到训练样本x_i对应的输出结果z″_i，将编码h″_j输入到决策网络g()中，得到训练样本x_j对应的输出结果z″_j，以及将编码h′_i，j输入到决策网络g()中，得到混合样本x′_i，j对应的输出结果z′_i，j。

服务器可以选取除样本集以外的其他训练样本x_k，并将该其他训练样本x_k按照第一数据增强策略进行数据增强，得到增强样本x′_k，以及按照第二数据增强策略进行数据增强，得到增强样本x″_k，并将增强样本x′_k与增强样本x′_i(当然也可以选择使用增强样本x′_j)进行数据混合，得到混合样本x′_i，k。

服务器可以将增强样本x″_k以及混合样本z′_i，k输入到待训练模型中，得到该其他训练样本对应的输出结果：z″_k以及z′_i，k，进而通过如下公式，确定第一损失。

在上述公式中，l_i(λ)′即为确定出的第一损失，e^sim用于表示相似度，

为符号函数(

时为1，其他情形为0)，τ为温度超参数。λ符合贝塔分布。

当然，在本说明书中，服务器也可以将增强样本x″_i以及增强样本x″_j按照混合比例λ进行数据混合，得到混合样本x″_i，j，然后分别将增强样本x′_i、增强样本x′_j以及混合样本x″_i，j输入到待训练模型中，得到z′_i、z′_j以及z″_i，j。同时，服务器可以将增强样本x″_k以及增强样本x″_i(当然也可以是增强样本x″_j)进行数据混合，得到混合样本x″_i，k，并将该混合样本x″_i，k输入到待训练模型，得到z″_i，k。服务器可以将增强样本x′_k输入到待训练模型中，得到z′_k。

服务器可以根据z″_i，k、z′_k、z″_i，j、z′_i以及z′_j，来确定在第二数据增强策略下的第一损失，具体可以参考上述公式，只需要将公式中的各项进行替换即可。进一步地，服务器通过在第一数据增强策略下的第一损失，以及在第二数据增强策略下的第一损失，对待训练模型进行训练，具体可以参考如下公式：

在上述公式中，l_i(λ)′用于表示在第一数据增强策略下的第一损失，l_i(λ)″用于表示在第二数据增强策略下的第一损失。L(λ)即表示在第一数据增强策略下以及第二数据增强策略下的总损失。而通过上述过程，可以对待训练模型进行迭代训练，直到待训练模型中的网络参数收敛为止。

而对于MoCo来说，假设上述样本集中依然包含有训练样本x_i以及训练样本x_j。服务器可以将训练样本x_i对应的增强样本以及训练样本x_j对应的增强样本进行数据混合，得到混合样本，同时，可以将其他训练样本x_m(即除该样本集以外的训练样本)进行数据增强，得到其他训练样本对应的增强样本。

服务器可以通过待训练模型中包含的编码网络，得到混合样本对应的编码q，得到该混合样本对应的输出结果，并通过得到待训练模型中包含的动量编码器，得到训练样本x_i对应的增强样本在字典中的键值k^λ，作为训练样本x_i对应的输出结果，以及训练样本x_j对应的增强样本在字典中的键值k^1-λ，作为训练样本x_j对应的输出结果，而对于MoCo队列中其他训练样本x_m的键值则作为负样本键值k_m，即其他训练样本x_m对应的输出结果。

服务器可以根据样本集中包含的每个训练样本对应的输出结果与上述混合样本对应的输出结果之间的相似度，以及该混合样本对应的输出结果与该其他训练样本对应的输出结果之间的相似度，确定第一损失，进而根据第一损失，对待训练模型进行训练，具体可以参考如下公式：

其中，l即表示确定出的第一损失，τ为温度超参数。而通过上述过程，可以对待训练模型进行迭代训练，直到待训练模型中的编码网络以及动量编码器涉及的网络参数收敛为止。

对于BYOL来说，待训练模型可以包括第一模型以及第二模型，其中，第一模型中的至少部分网络参数是来自于第二模型的，也就是说，第一模型和第二模型在功能上是相近的，并且，第一模型和第二模型中至少有部分网络可以是基本相同的。

基于此，假设上述样本集中包含有训练样本x_i以及训练样本x_j，这两个训练样本进行数据混合后得到的混合样本为x′_i，j。服务器可以将混合样本x′_i，j输入到第一模型中，以得到混合样本对应的输出结果z′_θ。与此同时，服务器可以将训练样本x_i对应的增强样本x″_i输入到第二模型中，得到训练样本x_i对应的输出结果z″_i，以及将训练样本x_j对应的增强样本x″_j输入到第二模型中，得到训练样本x_j对应的输出结果z″_j。而后，服务器可以将训练样本x_i对应的输出结果z″_i以及训练样本x_j对应的输出结果z″_j再进行数据混合，得到混合输出结果z″_ξ，进而根据确定混合输出结果z″_ξ以及混合样本x′_i，j对应的输出结果z′_θ之间的损失，对第一模型以及第二模型进行训练，也即对待训练模型进行训练，具体可以参考如下公式：

在该公式中，

表示将混合样本x′_i，j对应的输出结果z′_θ先通过BYOL预设的预测器q进行转换，而后再进行归一化后得到的输出结果，

表示混合输出结果z″_ξ归一化后的结果，l′_θ，ξ即表示混合输出结果z″_ξ以及混合样本x′_i，j对应的输出结果z′_θ之间的损失。

当然，对于上述三种中的任意一种方式来说，也可以将本说明书提供的模型训练的方法结合到传统的模型训练方法中，实现对待训练模型的训练。具体的，服务器可以从上述样本集中选取出一个训练样本作为目标训练样本，并对该目标训练样本进行数据增强，得到目标训练样本的增强样本。而后，将目标训练样本输入到待训练模型中，得到目标训练样本对应的输出结果，以及将目标训练样本的增强样本输入到待训练模型中，得到目标训练样本的增强样本对应的输出结果，并确定目标训练样本对应的输出结果与目标训练样本的增强样本对应的输出结果之间的损失，作为第二损失，进而根据上述确定出的样本集中包含的每个训练样本对应的第一损失以及第二损失，对待训练模型进行训练。其中，确定第二损失的过程，可以视作传统的模型训练方法。而整个过程可以具体可以参考如下公式：

L＝w₁·l_B+w₂·l_c

在该公式中，l_B即表示第一损失、，l_c表示上述第二损失，而w₁以及w₂为预设的权重，L即表示最终的总损失。所以，服务器可以通过该总损失L，对待训练模型进行训练。

需要指出的是，对于自监督模型的训练场景下，上述三种只是示例性的说明其训练过程，而实际上，本说明书提供的模型训练的方法也同样适用于其他的模型训练场景中。也就是说，本说明书提供的模型训练的方法通过引入至少两个训练样本进行数据混合后的混合样本，可以使得在模型训练过程中，网络参数的收敛过程更加的平滑，从而保证了训练后的模型在输出结果上即使出现偏差，也不至于和实际结果偏差过多，从而有效地保证了模型在输出结果上的准确性。

还需说明的是，在上述描述中，均是以样本集中包含有两个训练样本为例进行说明的，但实际上，对于本说明书提供的模型训练的方法来说，样本集中还可以包括两个以上的训练样本，那么上述混合样本也可以是由样本集中所包含的两个以上的训练样本进行混合得到的。对于样本集中包含有两个以上的训练样本的情况来说，具体的模型训练过程与上述的模型训练过程基本一致，在此就不详细说明了。

以上为本说明书的一个或多个实施例提供的模型训练的方法，基于同样的思路，本说明书还提供了相应的模型训练的装置，如图3所示。

图3为本说明书提供的一种模型训练的装置示意图，具体包括：

获取模块301，用于获取若干训练样本；

选取模块302，用于从所述若干训练样本中选取至少两个训练样本，得到样本集；

混合模块303，将所述样本集中包含的各训练样本进行数据混合，得到混合样本；

确定模块304，用于通过待训练模型，确定所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果；

训练模块305，用于根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练。

可选地，所述混合模块303具体用于，针对所述样本集中包含的每个训练样本，将该训练样本进行数据增强，得到该训练样本对应的增强样本；将所述样本集中包含的每个训练样本对应的增强样本进行数据混合，得到混合样本。

可选地，所述训练模块305具体用于，针对所述样本集中包含的每个训练样本，根据该训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失；根据所述样本集中包含的每个训练样本对应的第一损失，对所述待训练模型进行训练。

可选地，所述训练模块305具体用于，针对所述若干训练样本中除所述样本集以外的每个其他训练样本，通过所述待训练模型，确定该其他训练样本对应的输出结果；针对所述样本集中包含的每个训练样本，根据该训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，以及该其他训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失。

所述确定模块304具体用于，将所述混合样本输入到所述第一模型中，得到所述混合样本对应的输出结果，以及针对所述样本集中包含的每个训练样本，将该训练样本对应的增强样本输入到所述第二模型中，得到该训练样本对应的输出结果。

可选地，所述训练模块305具体用于，将所述样本集中包含的每个训练样本对应的输出结果进行数据混合，得到混合输出结果；根据所述混合输出结果与所述混合样本对应的输出结果之间的损失，对所述第一模型以及所述第二模型进行训练。

可选地，所述训练模块305具体用于，从所述样本集中选取目标训练样本，并对所述目标训练样本进行数据增强，得到所述目标训练样本的增强样本；将所述目标训练样本输入到所述待训练模型中，得到所述目标训练样本对应的输出结果，以及将所述目标训练样本的增强样本输入到所述待训练模型中，得到所述目标训练样本的增强样本对应的输出结果；确定所述目标训练样本的增强样本对应的输出结果与所述目标训练样本对应的输出结果之间的损失，作为第二损失；根据所述第一损失以及所述第二损失，对所述待训练模型进行训练。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的模型训练的方法。

本说明书还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的模型训练的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取若干训练样本；

2.如权利要求1所述的方法，其特征在于，将所述样本集中包含的各训练样本进行数据混合，得到混合样本，具体包括：

3.如权利要求1或2所述的方法，其特征在于，根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练，具体包括：

4.如权利要求3所述的方法，其特征在于，针对所述样本集中包含的每个训练样本，根据该训练样本对应的输出结果与所述混合样本对应的输出结果之间的相似度，确定该训练样本对应的第一损失，具体包括：

5.如权利要求2所述的方法，其特征在于，所述待训练模型包括：第一模型和第二模型，所述第一模型中的至少部分网络参数来自所述第二模型；

6.如权利要求5所述的方法，其特征在于，根据所述样本集中每个训练样本对应的输出结果，以及所述混合样本对应的输出结果，对所述待训练模型进行训练，具体包括：

7.如权利要求3所述的方法，其特征在于，根据所述样本集中包含的每个训练样本对应的损失，对所述待训练模型进行训练，具体包括：

8.一种模型训练的装置，其特征在于，包括：

获取模块，用于获取若干训练样本；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～7任一项所述的方法。