CN114463158A

CN114463158A - 模型训练方法及系统、非易失性存储介质和计算机终端

Info

Publication number: CN114463158A
Application number: CN202011249605.6A
Authority: CN
Inventors: 刘宇; 黄梁华; 潘攀; 王彬; 徐盈辉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-05-10

Abstract

本申请公开了一种模型训练方法及系统、非易失性存储介质和计算机终端。其中，该方法包括：多个GPU中的每个GPU均具有第一特征提取网络和第一全连接层，其中，多个GPU中的第一特征提取网络的网络结构相同；多个GPU中的第一GPU，用于对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征；将第一样本特征输入至第一GPU的第一全连接层进行处理；并基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于目标预测误差更新目标神经网络模型的参数。

Description

模型训练方法及系统、非易失性存储介质和计算机终端

技术领域

本申请涉及机器学习领域，具体而言，涉及一种模型训练方法及系统、非易失性存储介质和计算机终端。

背景技术

无监督学习或自监督学习目的是通过无标签数据学习具有较强表达能力的模型或者特征。通常情况下，需要定义一个代理任务(pretext task)来指导模型的训练。代理任务包括但不限于：变化预测、图像补全、空间或时序顺序预测、聚类、数据生成等。

其中，在无监督学习领域，实例分类(instance classification)的方法将数据集中的每一个数据样本看成一个类，可以采用和监督分类一样的训练网络，可以充分利用数据集中的所有负例，因此是比较有潜力的方案。

但是，要实现实例分类方法，需要训练一个和数据集样本量一样大小的分类模型，对于数据量比较大的数据集，需消耗较多的图像处理单元(Graphics Processing Unit，简称为GPU)显存资源，例如,对于一个训练图像数据集，如果有几百万甚至上千万的样本量，那就需要训练分类模型对相同数量类型的样本进行识别，这样会严重消耗GPU的计算资源。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种模型训练方法及系统、非易失性存储介质和计算机终端，以至少解决在数据集中的样本量比较大时，需要通过训练过程使得分类模型支持相同数量的分类结果，从而导致GPU的计算资源消耗较大的技术问题。

根据本申请实施例的一个方面，提供了一种模型训练系统，包括：GPU集群，GPU集群中包括多个GPU，其中：多个GPU中的每个GPU均具有第一特征提取网络和第一全连接层，其中，多个GPU中的第一特征提取网络的网络结构相同，第一全连接层为基于目标神经网络模型中的第二全连接层进行切分得到的；多个GPU中的第一GPU，用于对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，第一GPU为多个GPU中的任意一个GPU；将第一样本特征输入至第一GPU的第一全连接层进行处理；并基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于目标预测误差更新目标神经网络模型的参数。

根据本申请实施例的另一方面，还提供了一种模型训练方法，该方法应用于GPU集群中，其中，所述GPU集群中包括多个GPU，所述多个GPU中的每个GPU均具有第一特征提取网络和第一全连接层，其中，所述多个GPU中的第一特征提取网络的网络结构相同，所述第一全连接层为基于目标神经网络模型中的第二全连接层进行切分得到的；所述方法包括：所述多个GPU中的第一GPU对所述第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，所述第一GPU为所述多个GPU中的任意一个GPU；所述第一GPU将所述第一样本特征输入至所述第一GPU的第一全连接层进行处理；所述第一GPU基于处理结果确定所述第一GPU的预测误差；基于所述第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于所述目标预测误差更新所述目标神经网络模型的参数。

根据本申请实施例的另一方面，还提供了一种模型训练方法，包括：对训练数据集进行分组，得到多个目标训练数据集；将多个目标训练数据集分别输入至多个电子设备中，其中，多个电子设备中均包括全连接层和与全连接层连接的网络结构相同的特征提取网络，全连接层为对目标神经网络模型中的全连接层进行切分得到的；对多个电子设备的特征提取网络进行初始化，并利用初始化后的特征提取网络提取目标训练数据集中的样本特征；将样本特征输入至多个电子设备中的全连接层进行处理，以对样本特征进行分类；依据多个电子设备的分类结果和目标训练数据集中的样本标签确定多个预测误差；基于多个预测误差更新目标神经网络模型。

根据本申请实施例的又一方面，还提供了一种模型训练方法，包括：对训练数据集进行分组，得到多个目标训练数据集；将多个目标训练数据集分别输入至多个电子设备中，以对多个电子设备中的神经网络模型进行训练，其中，多个电子设备中的神经网络模型均包括全连接层和与全连接层连接的特征提取网络，多个电子设备中的特征提取网络的结构相同，且全连接层为对目标神经网络模型中的全连接层进行切分得到的；获取对多个神经网络模型进行训练得到的多个预测误差；基于多个预测误差确定目标神经网络的预测误差，并基于预测误差对目标神经网络模型进行更新。

根据本申请实施例的又一方面，还提供了一种非易失性存储介质，其中，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上所述的模型训练方法。

根据本申请实施例的再一方面，还提供了一种计算机终端，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，第一GPU为多个GPU中的任意一个GPU；将第一样本特征输入至第一GPU的第一全连接层进行处理，其中，第一全连接层为基于目标神经网络模型中的第二全连接层进行切分得到的；基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于目标预测误差更新目标神经网络模型的参数。

根据本申请实施例的再一方面，还提供了一种模型训练系统，包括：客户端设备和服务器，其中：所述客户端设备，用于向目标对象提供人机交互界面，并通过所述人机交互界面调用服务器中的程序指令执行以下步骤：对训练数据集进行分组，得到多个目标训练数据集；将所述多个目标训练数据集分别输入至多个电子设备中，以对所述多个电子设备中的神经网络模型进行训练，其中，所述多个电子设备中的神经网络模型均包括全连接层和与所述全连接层连接的特征提取网络，所述多个电子设备中的特征提取网络的结构相同；获取对所述多个神经网络模型进行训练得到的多个预测误差；基于所述多个预测误差确定目标神经网络的预测误差，并基于所述预测误差对所述目标神经网络模型进行更新。

在本申请实施例中，由多个GPU组成并行训练框架，并对各个GPU的特征提取网络进行初始化，并将初始化后的特征输入至相应的全连接层，以实现对全连接层的初始化，从而在提高训练效率的同时，还可以提升模型的收敛速度，进而解决了在数据集中的样本量比较大时，需要通过训练过程使得分类模型支持相同数量的分类结果，从而导致GPU的计算资源消耗较大的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种模型训练系统的结构示意图；

图2是根据本申请实施例的一种可选的模型训练系统的结构示意图；

图3是根据本申请实施例的一种模型训练方法的流程示意图；

图4是根据本申请实施例的一种计算机终端的结构示意图；

图5是根据本申请实施例的另一种模型训练方法的流程示意图；

图6是根据本申请实施例的另一种模型训练方法的流程示意图；

图7是根据本申请实施例的一种模型训练系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

深度学习：具有高层数的人工神经网络结构，可用来实现智能图像检测、分类等功能。

实例分类(instance classification)：把每个数据样本看成一类进行分类的任务。

自监督学习(self-supervised learning)：,无监督学习的一种，不依赖人工标注，利用数据本身进行模型学习。

特征提取网络：用于从训练数据中提取样本特征的网络模型，例如卷积神经网络(CNN)、残差网络。

全连接层：全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。在CNN结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层.与MLP类似，全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。为了提升CNN网络性能，全连接层每个神经元的激励函数一般采用ReLU函数。最后一层全连接层的输出值被传递给一个输出，可以采用softmax逻辑回归(softmax regression)进行分类，该层也可称为softmax层(softmax layer).对于一个具体的分类任务，选择一个合适的损失函数是十分重要的，CNN有几种常用的损失函数，各自都有不同的特点.通常，CNN的全连接层与MLP结构一样，CNN的训练算法也多采用BP算法

实施例1

无监督学习或自监督学习目的是通过无标签数据学习具有较强表达能力的模型或者特征。通常情况下，需要定义一个代理任务(pretext task)来指导模型的训练。代理任务包括但不限于：变化预测、图像补全、空间或时序顺序预测、聚类、数据生成等。其中，基于对比学习的方法(contrastive learning)，采用一种双通道(dual-branch)的网络，网络的输入通常是图像的两个数据增强(data augmentation)，其目的是使得同一张图像的两个数据增强输入在特征空间距离更近、而不同图像的数据增强输入对应的特征距离拉远。对比学习方法需要较多的负样本，需要基于较大的批处理大小(batch size)，或者需要一个存储队列来保存历史的特征向量，但即便这样，负样本的多样性还是比较匮乏。

而实例分类(instance classification)的方法将数据集中的每一个数据样本看成一个类，可以采用和监督分类一样的训练网络，不需要双通道网络，同时可以充分利用数据集中的所有负例。本申请实施例中的方案，便可以应用实例分类方法中。

但是，实现实例分类方法，需要训练一个和数据集样本量一样大小的分类模型，对于数据量比较大的数据集，这往往是比较困难的，需要极大的GPU显存消耗(比如ImageNet数据集，有128万的样本量，那就需要训练一个支持128万种样品类型的分类模型)。为了解决这个困难，一种方案就是进行负采样，每次训练过程只采样部分其他样本作为负例，但这样其实就失去了实例分类方法原本的设计思想。同时，实例分类方法一个类只有一个数据样本，一个训练周期只能遇到该样本一次，训练比较困难，有的算法采用较为复杂的数据调度器(data scheduler)来缓解该问题。由此可见，无论采用哪种训练方法，均会耗费较多的计算资源，影响训练效率。为解决上述技术问题，本申请实施例提供了相应的解决方案，以下详细说明。

GPU是根据本申请实施例的一种模型训练系统的结构示意图。如图1所示，该模型训练系统包括：GPU集群1，GPU集群1中包括多个GPU(GPU1、GPU2、…GPUN)，其中，N为自然数，其中：

多个GPU(GPU1、GPU2、…GPUN)中的每个GPU均具有第一特征提取网络10和第一全连接层12，其中，多个GPU中的第一特征提取网络10的网络结构相同，第一全连接层10为基于目标神经网络模型中的第二全连接层进行切分得到的；

多个GPU中的第一GPU(例如，图1中的GPU1、GPU2、…GPUN中的任意一个)，用于对第一GPU的第一特征提取网络10进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，第一GPU为多个GPU中的任意一个GPU；将第一样本特征输入至第一GPU的第一全连接层12进行处理；并基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于目标预测误差更新目标神经网络模型的参数。

从上述方案可以看出，多个GPU中具有相同的特征提取网络，并且，具有与特征提取网络对应的全连接层，因此，可以实现将训练数据集中的数据进行拆分，并行输入至相应的GPU进行处理，降低了训练过程的复杂度；同时，由于在将训练数据输入至相应的全连接层之前，利用初始化后的特征提取网络提取训练数据的样本特征，而并非是对全连接层进行初始化，因此，可以有效的提升收敛速度，并且提高收敛精度。

需要说明的是，在由GPU集群组成的并行训练框架中，该训练框架可以应用于有监督的机器学习模型训练过程中，本申请实施例中，将并行训练框架应用于自监督学习过程中，将机器学习模型拆分为特征提取网络和全连接层两部分。其中，第一GPU(即GPU集群中的任意一个GPU)的第一特征提取网络是通过对多个CPU中任意一个GPU的第一特征提取网络进行复制得到的。由于全连接层中的每个节点均与上一层的所有节点相连，以将上一层的特征进行整合，因此，对全连接层进行切分相当于目标神经网络模型中全连接层的节点进行分组，每组节点对应一个子全连接层(即第一全连接层)。

在将上述第一样本特征输入至第一全连接层进行处理可以表现为以下实现过程：将第一样本特征输入中全连接层后，将第一样本特征对应的分布式特征标识映射到样本标记空间，从而实现分类器的作用。一般而言，全连接层和softmax层一起完成分类的作用，其中，softmax层用于输出最终的分类结果。

在本申请的一些实施例中，在对特征提取网络进行初始化过程中，上述第一GPU(即多个GPU中的任意一个GPU)对第一GPU对应的特征提取网络进行初始化后，将进行初始化所采用的初始化参数发送至其他GPU；其他GPU基于初始化参数对其他GPU对应的特征提取网络进行初始化，采用上述方式，可以保证初始化过程的一致性。当然，在一些可选实施例中，也可以同时对上述多个GPU中的特征提取网络进行初始化。

上述初始化参数包括但不限于：CNN中的卷积层参数，例如残差网络本身的参数，还可以包括多层感知器(Multi-layer Perception，简称为MLP)中的FC参数。

另外，在机器学习模型的训练过程中，往往需要的数据是大规模的，此时，如果将训练数据集中的数据全部输入至一个GPU中，但是，这样势必会影响训练效率，因此，为了保证训练效率，可以将训练数据集进行拆分，具体地：目标训练数据集为对目标神经网络模型对应的训练数据集按照样本数量划分得到的，其中，各个目标训练数据集的样本数量相同。例如，训练数据集中有100万个样本，且模型训练系统(设备)中有10个GPU，因此，可以将该100万个样本划分为10组，每组有10万个样本，将各组分别输入至10个GPU中。

由于在上述实施例中，对训练过程进行了拆分，因此，在确定目标神经网络模型的预测误差(损失值)时需要结合多个GPU得到的损失值，具体地，多个GPU用于通过以下方式确定各个GPU的预测误差：第一GPU确定第一GPU的损失值，以及获取其他GPU的损失值，其中，其他GPU为多个GPU中除第一GPU之外的GPU；第一GPU基于第一GPU的损失值和其他GPU的损失值确定预测误差。

例如，确定第一GPU的损失值和其他GPU的损失值之间的和值，将该和值作为上述预测误差。在确定预测误差时，每个GPU基于自己的损失值确定网络梯度，然后每个GPU都将其他的GPU的梯度相加，得到目标梯度，并基于该目标梯度对目标神经网络模型更新。

在一些实施例中，第一GPU，还用于基于处理结果确定第一样本特征的分类结果和第一样本特征的分类标签确定预测误差。其中，在基于处理结果确定第一样本特征的分类结果和第一样本特征的分类标签确定预测误差之前，计算第一样本特征与目标训练数据集中的其他样本特征之间的相似度，得到多个相似度；对多个相似度按照从大到小的顺序进行排序，并确定排序结果中的前N个相似度，将前N个相似度对应的样本特征的分类标签设置为第一样本特征的分类标签。其中，N为自然数。

以实例分类为例，在实例分类中，将每个数据样本看成一类，但实际数据中很大概率还是有些样本在语义上比较相似，这样将这些样本也看做负样本就引入了较多的噪声，对训练收敛造成负面影响。因此，在训练过程中，通过对每一个实例类寻找top-K的相似类(相当于上述的前N个相似度对应的类)，将这些相似类赋予一定的正标签，来降低标签噪声。具体而言，原始的数据x_i标签为：Y_i＝[0，0，...，1，...0],其中y_i＝1,其他位置都为0.对于类别i,计算得到top-K的负类集合H_i＝{c₁，c₂，...，c_K}，则平滑后的Y_i中的每一位y_j为：

α为超参或平滑因子。

计算top-K每个训练周期(epoch)计算一次即可。采用平滑后标签相比原始标签，对最终性能有明显提升，例如，可以有效的对噪声进行抑制。

为了更好地理解上述实施例，以下以实例分类为例，并结合图2进行说明。

图2是根据本申请实施例的一种可选的模型训练系统的结构示意图。如图2所示，图2提供了一种大规模分类的混合并行训练框架，此训练框架之前一般是利用于有监督模型训练，而本申请实施例中，将将混合并行训练框架用于自监督学习中。混合并行将一个基于深度神经网络的分类器拆分成特征提取网络和FC层两个部分。在混合并行训练中，把FC层按模型并行的方式进行拆分，而特征提取网络则用数据并行的方式进行复制(此处复制是指对网络进行复制，即每个GPU分支上的特征提取网络是相同的)

如图2所示，图2中的混合并行训练框架包括：GPU#1、GPU#2、……GPU#T，以GPU#1为例，该分支中的特征提取部分包括：数据载入(sub-batch#1)、对数据进行编码的编码器(Encoder)，池化层(Pool)和多层感知器(MPL)，将特征提取网络提取的特征(features)输入至全连接层，其中，全连接层中包括用于将提取的特征进行FC层前向计算(W_i)计算部分weights,计算部分logits(partial logits)，计算部分Loss(partial loss),然后再到反向计算，并在进行标签平滑运算后，进行参数更新，从而完成一次迭代流程。

相关技术中，在对全连接层进行初始化时，默认的FC初始化方法是采用高斯分布随机初始化，此种初始化方法在实例分类的训练初期收敛特别困难(与实例分类一个类只有一个数据样本有关)。在图2所示的混合并行训练架构中，提供了一种新的全连接层(fully connected layer，即图2中W_i)初始化方法：利用随机初始化的特征提取网络提取的特征进行FC初始化，发现可以有效的提升收敛速度，而且最终有较高的收敛精度。具体而言，在网络训练的第一个周期(epoch)内，固定特征提取网络所有的随机初始化参数(但批归一化层，batch norm layer的均值、方差正常统计)、同时利用提取的每个数据样本的特征初始化对应的FC参数。其中，FC参数包括：W矩阵，为NxD大小，N即为样本数(类别数)，D为特征维度，由于是实例分类，每个样本对应一类，这样经过一个训练周期，所有的W参数(即W矩阵，FC参数)都恰好被初始化一次。

在实例分类中，将每个数据样本看成一类，但实际数据中很大概率还是有些样本在语义上比较相似，这样将这些样本也看做负样本就引入了较多的噪声，对训练收敛造成负面影响。因此，本申请实施例提供的方案中，在训练过程中，通过对每一个实例类寻找top-K的相似类，将这些相似类赋予一定的正标签，来降低标签噪声。具体而言，原始的数据x_i标签为：Y_i＝[0，0，...，1，...0],其中y_i＝1,其他位置都为0.对于类别i,计算得到top-K的负类集合H_i＝{c₁，c₂，...，c_K}，则平滑后的Y_i中的每一位y_j为：

计算top-K每个训练周期(epoch)计算一次即可。采用平滑后标签相比原始标签，对最终性能有明显提升。

容易注意到的是，多个GPU可以各自独立初始化，也可以统一初始化。如果独立初始化，则该多个GPU之间不需要进行通讯。如果统一初始化，则一个GPU在完成初始化之后，可以向其它GPU广播其初始化的参数，由此来完成各个GPU之间的统一初始化。对于后者，由于多个GPU需要共同协作利用训练数据集对目标神经网络模型进行训练，因此，各个GPU间也需要进行通讯。多个GPU之间可以基于支持分布式通讯和计算的应用编程接口函数库进行相互通讯。该函数库例如可以为信息传递接口(Message Passing Interface,MPI)库或者Rabit库等。

实施例2

本申请实施例还提供了一种模型训练方法，该方法应用于GPU集群中，其中，GPU集群中包括多个GPU，多个GPU中的每个GPU均具有第一特征提取网络和第一全连接层，其中，多个GPU中的第一特征提取网络的网络结构相同，第一全连接层为基于目标神经网络模型中的第二全连接层进行切分得到的；需要注意的是，本实施例中的GPU集群的可选的实现方案可以采用实施例1中所述的GPU集群的实现方案，但不限于此。如图3所示，该方法包括：

步骤S302，多个GPU中的第一GPU对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，第一GPU为多个GPU中的任意一个GPU；

步骤S304，第一GPU将第一样本特征输入至第一GPU的第一全连接层进行处理；

步骤S306，第一GPU基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及

步骤S308，基于目标预测误差更新目标神经网络模型的参数。

在一些实施例中，对特征提取网络进行初始化的过程可以表现为以下形式，但不限于此：第一GPU对第一GPU对应的特征提取网络进行初始化后，将进行初始化所采用的初始化参数发送至其他GPU；其他GPU基于初始化参数对其他GPU对应的特征提取网络进行初始化。采用上述方式，可以保证初始化过程的一致性。当然，在一些可选实施例中，也可以同时对上述多个GPU中的特征提取网络进行初始化。

在一些实施例中，上述预测误差可以通过以下方式实现：第一GPU确定第一GPU的损失值，以及获取其他GPU的损失值，其他GPU为多个GPU中除第一GPU之外的GPU；第一GPU基于第一GPU的损失值和其他GPU的损失值确定预测误差。具体地，第一GPU确定第一GPU的损失值和其他GPU的损失值之间的和值，将该和值作为预测误差。

在确定预测误差时，第一GPU基于处理结果确定第一样本特征的分类结果和第一样本特征的分类标签确定预测误差。在第一GPU在基于处理结果确定第一样本特征的分类结果和第一样本特征的分类标签确定预测误差之前，第一GPU计算第一样本特征与目标训练数据集中的其他样本特征之间的相似度，得到多个相似度；第一GPU对多个相似度按照从大到小的顺序进行排序，并确定排序结果中的前N个相似度，将前N个相似度对应的样本特征的分类标签设置为第一样本特征的分类标签。

以实例分类为例，在实例分类中，将每个数据样本看成一类，但实际数据中很大概率还是有些样本在语义上比较相似，这样将这些样本也看做负样本就引入了较多的噪声，对训练收敛造成负面影响。因此，在训练过程中，通过对每一个实例类寻找top-K的相似类(相当于上述的前N个相似度对应的类)，将这些相似类赋予一定的正标签，来降低标签噪声。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

还需要说明的是，本实施例中的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

本申请实施例，提供了一种模型训练方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图4示出了一种用于实现模型训练方法的计算机终端(或移动设备)的硬件结构框图。如图4所示，计算机终端40(或移动设备40)可以包括一个或多个(图中采用402a、402b，……，402n来示出)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器404、以及用于通信功能的传输模块406。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端40还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。

应当注意到的是上述一个或多个处理器402和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端40(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器404可用于存储应用软件的软件程序以及模块，如本申请实施例中的()方法对应的程序指令/数据存储装置，处理器402通过运行存储在存储器404内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器404可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器404可进一步包括相对于处理器402远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端40。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端40的通信供应商提供的无线网络。在一个实例中，传输装置406包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置406可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端40(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图5所示的模型训练方法。如图5所示，该方法包括步骤S502-S508。其中：

步骤S502，对训练数据集进行分组，得到多个目标训练数据集；

在机器学习模型的训练过程中，往往需要的数据是大规模的，此时，如果将训练数据集中的数据全部输入至一个GPU或电子设备中进行训练，但是，这样势必会影响训练效率，因此，为了保证训练效率，可以将训练数据集进行拆分。在分组时，可以按照训练数据集中的样本量和GPU集群中的GPU数量确定，例如，按照GPU数量对训练数据集中的样本特征进行平均分配，即每个GPU分到的样本量是相同的。

步骤S504，将多个目标训练数据集分别输入至多个电子设备中，其中，多个电子设备中均包括全连接层和与全连接层连接的网络结构相同的特征提取网络，全连接层为对目标神经网络模型中的全连接层进行切分得到的；

电子设备包括但不限于分布式网络中的分布式节点，或者同一设备或不同设备中的GPU。

步骤S506，对多个电子设备的特征提取网络进行初始化，并利用初始化后的特征提取网络提取目标训练数据集中的样本特征；

在一些实施例中，上述第一GPU(即多个GPU中的任意一个GPU)对第一GPU对应的特征提取网络进行初始化后，将进行初始化所采用的初始化参数发送至其他GPU；其他GPU基于初始化参数对其他GPU对应的特征提取网络进行初始化，采用上述方式，可以保证初始化过程的一致性。当然，在一些可选实施例中，也可以同时对上述多个GPU中的特征提取网络进行初始化。

步骤S508，将样本特征输入至多个电子设备中的全连接层进行处理，以对样本特征进行分类；

由于全连接层中的每个节点均与上一层的所有节点相连，以将上一层的特征进行整合，因此，对全连接层进行切分相当于目标神经网络模型中全连接层的节点进行分组，每组节点对应一个子全连接层。

步骤S510，依据多个电子设备的分类结果和目标训练数据集中的样本标签确定多个预测误差；

多个电子设备可以通过以下方式确定预测误差：对于任意一个电子设备，电子设备确定本身运行的学习模型(即目标神经网络模型的分支模型)的损失值，以及获取其他电子设备的损失值，其中，其他电子设备为多个电子设备中除上述任意一个电子设备之外的电子设备；电子设备基于电子的损失值和其他电子设备的损失值确定预测误差。

步骤S512，基于多个预测误差更新目标神经网络模型。

需要说明的是，本实施例中的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例4

本实施例提供一种模型训练方法，如图6所示，该方法包括：

步骤S602，对训练数据集进行分组，得到多个目标训练数据集；

步骤S604，将多个目标训练数据集分别输入至多个电子设备中，以对多个电子设备中的神经网络模型进行训练，其中，多个电子设备中的神经网络模型均包括全连接层和与全连接层连接的特征提取网络，多个电子设备中的特征提取网络的结构相同，且全连接层为对目标神经网络模型中的全连接层进行切分得到的；

步骤S606，获取对多个神经网络模型进行训练得到的多个预测误差；

步骤S608，基于多个预测误差确定目标神经网络的预测误差，并基于预测误差对目标神经网络模型进行更新。

实施例5

本实施例提供了一种非易失性存储介质，其中，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上所述的模型训练方法。

非易失性存储介质用于存储实现以下功能的程序指令：对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，第一GPU为多个GPU中的任意一个GPU；第一GPU将第一样本特征输入至第一GPU的第一全连接层进行处理；第一GPU基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于目标预测误差更新目标神经网络模型的参数。

可选地，非易失性存储介质用于存储实现以下功能的程序指令：对第一GPU对应的特征提取网络进行初始化后，将进行初始化所采用的初始化参数发送至其他GPU；其他GPU基于初始化参数对其他GPU对应的特征提取网络进行初始化。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

实施例6

本实施例还提供了一种计算机终端，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，第一GPU为多个GPU中的任意一个GPU；将第一样本特征输入至第一GPU的第一全连接层进行处理，其中，第一全连接层为基于目标神经网络模型中的第二全连接层进行切分得到的；基于处理结果确定第一GPU的预测误差；基于第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于目标预测误差更新目标神经网络模型的参数。

在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

采用本申请实施例提供的方案，解决了在数据集中的样本量比较大时，需要通过训练过程使得分类模型支持相同数量的分类结果，从而导致GPU的计算资源消耗较大的技术问题。

实施例7

本申请实施例还提供了一种模型训练系统，如图7所示，该系统包括：客户端设备70和服务器72，其中，客户端设备70，用于向目标对象提供人机交互界面，并通过人机交互界面调用服务器72中的程序指令如图6所示的步骤，但不限于此：对训练数据集进行分组，得到多个目标训练数据集；将多个目标训练数据集分别输入至多个电子设备中，以对多个电子设备中的神经网络模型进行训练，其中，多个电子设备中的神经网络模型均包括全连接层和与全连接层连接的特征提取网络，多个电子设备中的特征提取网络的结构相同；获取对多个神经网络模型进行训练得到的多个预测误差；基于多个预测误差确定目标神经网络的预测误差，并基于预测误差对目标神经网络模型进行更新。

由于在对模型训练时，往往需要大量的训练数据，并且，其对硬件性能也有一定的要求，为了节省成本，可以采用软件即服务(Software As a Service，简称为SaaS)平台提供的服务实现对模型的训练，例如，在一些实施例中，上述客户端设备10包括但不限于：SaaS平台的租户设备，相应地，上述服务器包括SaaS平台的服务器，该租户设备在对第二机器学习模型进行训练时，可以向服务器发送请求消息，该请求消息用于请求对第二机器学习模型进行训练，同时，请求消息中还可以携带本次训练所需要的条件和资源等信息。服务器根据请求消息向租户设备提供相应的服务，以执行上述训练过程。其中，具体的训练过程可以参见实施例1-2中的相关描述，此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种模型训练系统，包括：GPU集群，所述GPU集群中包括多个GPU，其中：

所述多个GPU中的每个GPU均具有第一特征提取网络和第一全连接层，其中，所述多个GPU中的第一特征提取网络的网络结构相同；

所述多个GPU中的第一GPU，用于对所述第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，所述第一GPU为所述多个GPU中的任意一个GPU；将所述第一样本特征输入至所述第一GPU的第一全连接层进行处理；并基于处理结果确定所述第一GPU的预测误差；基于所述第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于所述目标预测误差更新目标神经网络模型的参数。

2.根据权利要求1所述的系统，其中，所述第一GPU对所述第一GPU对应的特征提取网络进行初始化后，将进行初始化所采用的初始化参数发送至其他GPU；所述其他GPU基于所述初始化参数对所述其他GPU对应的特征提取网络进行初始化。

3.根据权利要求1所述的系统，其中，所述第一GPU的第一特征提取网络是通过对所述多个CPU中任意一个GPU的第一特征提取网络进行复制得到的。

4.根据权利要求1所述的系统，其中，所述目标训练数据集为对所述目标神经网络模型对应的训练数据集按照样本数量划分得到的，其中，各个目标训练数据集的样本数量相同。

5.根据权利要求1所述的系统，其中，所述多个GPU还用于通过以下方式确定各个GPU的预测误差：

所述第一GPU确定所述第一GPU的损失值，以及获取其他GPU的损失值，其中，所述其他GPU为所述多个GPU中除所述第一GPU之外的GPU；

所述第一GPU基于所述第一GPU的损失值和所述其他GPU的损失值确定所述预测误差。

6.根据权利要求5所述的系统，其中，所述第一GPU，还用于确定所述第一GPU的损失值和所述其他GPU的损失值之间的和值，将该和值作为所述预测误差。

7.根据权利要求1所述的系统，其中，所述第一GPU，还用于基于所述处理结果确定所述第一样本特征的分类结果和所述第一样本特征的分类标签确定所述预测误差。

8.根据权利要求7所述的系统，其中，所述第一GPU，还用于在基于所述处理结果确定所述第一样本特征的分类结果和所述第一样本特征的分类标签确定所述预测误差之前，

计算所述第一样本特征与所述目标训练数据集中的其他样本特征之间的相似度，得到多个相似度；

对所述多个相似度按照从大到小的顺序进行排序，并确定排序结果中的前N个相似度，将所述前N个相似度对应的样本特征的分类标签设置为所述第一样本特征的分类标签。

9.一种模型训练方法，该方法应用于GPU集群中，其中，所述GPU集群中包括多个GPU，所述多个GPU中的每个GPU均具有第一特征提取网络和第一全连接层，其中，所述多个GPU中的第一特征提取网络的网络结构相同；所述方法包括：

所述多个GPU中的第一GPU对所述第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，所述第一GPU为所述多个GPU中的任意一个GPU；

所述第一GPU将所述第一样本特征输入至所述第一GPU的第一全连接层进行处理；

所述第一GPU基于处理结果确定所述第一GPU的预测误差；基于所述第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于所述目标预测误差更新目标神经网络模型的参数。

10.根据权利要求9所述的方法，其中，所述多个GPU中的第一GPU对所述第一GPU的第一特征提取网络进行初始化，包括：所述第一GPU对所述第一GPU对应的特征提取网络进行初始化后，将进行初始化所采用的初始化参数发送至其他GPU；所述其他GPU基于所述初始化参数对所述其他GPU对应的特征提取网络进行初始化。

11.根据权利要求9所述的方法，其中，所述第一GPU基于处理结果所述第一GPU的预测误差，包括：

所述第一GPU确定所述第一GPU的损失值，以及获取其他GPU的损失值，所述其他GPU为所述多个GPU中除所述第一GPU之外的GPU；

12.根据权利要求11所述的方法，其中，所述第一GPU基于所述第一GPU的损失值和所述其他GPU的损失值确定所述预测误差，包括：

所述第一GPU确定所述第一GPU的损失值和所述其他GPU的损失值之间的和值，将该和值作为所述预测误差。

13.根据权利要求9所述的方法，其中，所述第一GPU基于处理结果确定所述第一GPU的预测误差，包括：所述第一GPU基于所述处理结果确定所述第一样本特征的分类结果和所述第一样本特征的分类标签确定所述预测误差。

14.根据权利要求13所述的方法，其中，所述第一GPU在基于所述处理结果确定所述第一样本特征的分类结果和所述第一样本特征的分类标签确定所述预测误差之前，所述方法还包括：

所述第一GPU计算所述第一样本特征与所述目标训练数据集中的其他样本特征之间的相似度，得到多个相似度；

所述第一GPU对所述多个相似度按照从大到小的顺序进行排序，并确定排序结果中的前N个相似度，将所述前N个相似度对应的样本特征的分类标签设置为所述第一样本特征的分类标签。

15.一种模型训练方法，包括：

对训练数据集进行分组，得到多个目标训练数据集；

将所述多个目标训练数据集分别输入至多个电子设备中，其中，所述多个电子设备中均包括全连接层和与所述全连接层连接的网络结构相同的特征提取网络；

对所述多个电子设备的特征提取网络进行初始化，并利用初始化后的特征提取网络提取所述目标训练数据集中的样本特征；

将样本特征输入至所述多个电子设备中的全连接层进行处理，以对所述样本特征进行分类；

依据所述多个电子设备的分类结果和所述目标训练数据集中的样本标签确定多个预测误差；

基于所述多个预测误差更新所述目标神经网络模型。

16.一种模型训练方法，包括：

对训练数据集进行分组，得到多个目标训练数据集；

将所述多个目标训练数据集分别输入至多个电子设备中，以对所述多个电子设备中的神经网络模型进行训练，其中，所述多个电子设备中的神经网络模型均包括全连接层和与所述全连接层连接的特征提取网络，所述多个电子设备中的特征提取网络的结构相同；

获取对所述多个神经网络模型进行训练得到的多个预测误差；

基于所述多个预测误差确定目标神经网络的预测误差，并基于所述预测误差对所述目标神经网络模型进行更新。

17.一种非易失性存储介质，其中，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求9至16中任意一项所述的模型训练方法。

18.一种计算机终端，其中，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：对第一GPU的第一特征提取网络进行初始化，并采用初始化后的第一特征提取网络提取目标训练数据集中的第一样本特征，其中，所述第一GPU为多个GPU中的任意一个GPU；将所述第一样本特征输入至所述第一GPU的第一全连接层进行处理；基于处理结果确定所述第一GPU的预测误差；基于所述第一GPU的预测误差和接收的其他GPU的预测误差，确定目标神经网络模型的目标预测误差；以及基于所述目标预测误差更新所述目标神经网络模型的参数。

19.一种模型训练系统，包括：客户端设备和服务器，其中：

所述客户端设备，用于向目标对象提供人机交互界面，并通过所述人机交互界面调用所述服务器中的程序指令执行以下步骤：对训练数据集进行分组，得到多个目标训练数据集；将所述多个目标训练数据集分别输入至多个电子设备中，以对所述多个电子设备中的神经网络模型进行训练，其中，所述多个电子设备中的神经网络模型均包括全连接层和与所述全连接层连接的特征提取网络，所述多个电子设备中的特征提取网络的结构相同；获取对所述多个神经网络模型进行训练得到的多个预测误差；基于所述多个预测误差确定目标神经网络的预测误差，并基于所述预测误差对所述目标神经网络模型进行更新。