CN112560936A

CN112560936A - 模型并行训练方法、装置、设备、存储介质和程序产品

Info

Publication number: CN112560936A
Application number: CN202011459589.3A
Authority: CN
Inventors: 郑弘晖; 韩树民; 龙翔; 彭岩; 王晓迪; 苑鹏程; 冯原; 张滨; 辛颖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Shenzhen Banglian Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-26
Anticipated expiration: 2040-12-11
Also published as: CN112560936B

Abstract

本申请公开了一种模型并行训练方法、装置、设备、存储介质和程序产品，涉及计算机视觉和深度学习技术等人工智能领域。具体实现方案为：由参与并行训练的每一图形处理器GPU执行，该方法包括：获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联；根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据；根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新；根据第二参数的本地局部梯度数据对分类器进行更新。本申请能够加快模型训练效率。

Description

模型并行训练方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及计算机视觉和深度学习技术等人工智能领域，具体涉及一种模型并行训练方法、装置、设备、存储介质和程序产品。

背景技术

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理获得相应场景的信息。

随着深度学习等人工智能技术的快速发展，人工智能技术已经广泛应用于计算机视觉领域，即基于人工智能技术训练计算机视觉任务模型。某些训练任务的数据量巨大，尤其是某些训练任务的特征维度数量为百万级别以上的海量数据。受限于计算机资源，需要使用特定的训练方法。

发明内容

本公开提供了一种用于模型并行训练方法、装置、设备、存储介质和程序产品。

根据本公开的一方面，提供了一种模型并行训练方法，由参与并行训练的每一图形处理器GPU执行，所述方法包括：

获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联；

根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据；

根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新；

根据第二参数的本地局部梯度数据对分类器进行更新。

根据本公开的一方面，提供了一种模型并行训练装置，配置于参与并行训练的每一图形处理器GPU中，所述装置包括：

训练样本获取模块，用于获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联；

局部梯度确定模块，用于根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据；

特征提取网络更新模块，用于根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新；

分类器更新模块，用于根据第二参数的本地局部梯度数据对分类器进行更新。

根据第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例中任一项所述的模型并行训练方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的模型并行训练方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本申请实施例中任一项所述的模型并行训练方法。

根据本申请的技术能够加快模型训练效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1a是根据本申请实施例提供的一种模型并行训练方法的流程示意图；

图1b是根据本申请实施例提供的一种并行GPU的结构示意图；

图1c是相关技术中提供的一种并行GPU的结构示意图；

图2a是根据本申请实施例提供的另一种模型并行训练方法的流程示意图；

图2b是根据本申请实施例提供的一种并行GPU的结构示意图；

图3是根据本申请实施例提供的又一种模型并行训练方法的流程示意图；

图4是据本申请实施例提供的一种模型并行训练装置的结构示意图；

图5是用来实现本申请实施例的模型并行训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1a是根据本申请实施例提供的模型并行训练方法的流程示意图。本实施例可适用于训练样本数据的分类标签数量为百万级别以上的海量数据的情况。本实施例公开的模型并行训练方法可以由电子设备执行，具体可以由模型并行训练装置来执行，该装置可以由软件和/或硬件的方式实现，配置于电子设备中。参见图1a，本实施例提供的模型并行训练方法，由参与并行训练的每一图形处理器执行(Graphics Processing Unit，GPU)，该方法包括：

S110、获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联。

S120、根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

S130、根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新。

S140、根据第二参数的本地局部梯度数据对分类器进行更新。

在计算机视觉领域中，一条训练样本数据可以包括训练样本图像和该图像的分类标签。如人脸识别任务中，一条训练样本数据可以包括训练样本人脸图像和该人脸图像的分类标签。

图1b是根据本申请实施例提供的一种并行GPU的结构示意图。参考图1b，参与并行训练的每一GPU中有特征提取网络和分类器，且特征提取网络的输出作为分类器的输入。不同特征提取网络之间相互通信，不同分类器相互独立。本申请实施例对特征提取网络和分类器的网络结构不作具体限定，如特征提取网络可以采用DarkNet(匿名网络)、ResNet(残差网络)等，分类器可以包括全连接层和softmax(回归)层。

在本申请实施例中，还预先为参与并行训练的每个GPU分配局部分类标签，不同GPU的局部分类标签不交叠即一个分类标签只分配给唯一的GPU。不同GPU的局部分类标签数量可以相同，也可以不同。以全量训练样本数据包括100万个分类标签，且有参与并行训练的8个GPU为例，每一个GPU的局部分类标签数量可以为12.5万个。需要说明的是，本申请实施例对分类标签的分配方式不作具体限定，可以随机对所有分类标签进行划分，如可以将第1个分类标签随机划分到第8个GPU，可以将第2个分类标签随机划分到第3个GPU等。

针对每一GPU，还可以将与该GPU的局部分类标签关联的训练样本数据作为该GPU的局部训练样本数据。也就是说，在所有训练样本数据(即全量训练样本数据)中，还将分类标签属于该GPU的局部分类标签的训练样本数据分配给该GPU。

具体的，每一GPU获取该GPU的局部训练样本数据，将获取的局部训练样本数据输入特征提取网络，得到特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

具体的，不同GPU中特征提取网络之间相互数据整合通信(AllReduce)，获取其他GPU中特征提取网络的其他局部梯度数据，也就是第一参数的其他局部梯度数据。每一GPU，还根据第一参数的本地局部梯度数据和第一参数的其他局部梯度数据，对特征提取网络中第一参数的取值进行更新。也就是说，通过不同GPU中特征提取网络之间的相互通信，不同GPU中特征提取网络共享参数。

具体的，不同GPU中分类器之间不通信，相互独立。每一GPU只有第二参数的本地局部梯度数据，而没有第二参数的其他局部梯度数据，只根据第二参数的本地局部梯度数据对分类器进行更新。也就是说，不同GPU中分类器不进行参数共享，各分类器不同。

图1c是相关技术中提供的一种并行GPU的结构示意图。参考图1c，相关技术中每一GPU也包括特征提取网络和分类器，且特征提取网络的输出作为分类器的输入。不同GPU中特征提取网络之间相互通信，且分类器之间也相互通信。结合图1b和图1c，本申请实施例相比于相关技术，每个GPU中的分类任务相互独立，减少了不同分类器之间的相互通信，即减少了不同分类器之间的全聚合(AllGather)通信，也就是减少了不同分类器之间进行海量数据的通信，加快了模型训练效率。

本申请实施例的技术方案，参与并行训练的各GPU中，不同特征提取网络相互通信，但是不同分类器相互独立，加快模型训练速度。并且通过预先为GPU分配局部训练样本数据，使每一GPU只对与该GPU的局部分类标签关联的局部训练样本数据进行处理，还能够保证该GPU中分类器的准确度。即，本申请在不牺牲分类准确度的前提下，大幅度提高了模型的训练效率。

图2a是根据本申请实施例提供的另一种模型并行训练方法的流程示意图，图2b是根据本申请实施例提供的一种并行GPU的结构示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参考图2b，每一GPU使用与其他GPU不同的专属数据加载器。结合图2a和图2b，参与并行训练的每一GPU执行的模型并行训练方法包括：

S210、通过该GPU的专属数据加载器获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联。

S220、根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

S230、根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新。

S240、根据第二参数的本地局部梯度数据对分类器进行更新。

参考图2b，参与并行训练的每个GPU具有专属数据加载器(Data Loader)，也就是说每个GPU使用不同的数据加载器。针对每一GPU，通过专属数据加载器只获取与该GPU的局部分类标签关联的训练样本数据，而不会获取其他GPU的局部训练样本数据，能够避免不同GPU的局部训练样本数据相互干扰，保持该GPU中分类器的准确度。

并且，采用专属数据加载器进行训练样本数据传输，相比于各GPU复用一个数据加载器，由复用的数据加载器统一对训练样本数据进行逻辑处理得到训练样本数据关联的GPU，将训练样本数据传输给关联GPU。减少了逻辑处理过程，能够提高训练样本数据的传输效率，进一步加快模型训练效率。

其中，所述方法还包括：根据全量训练样本数据的全量分类标签数量和参与并行训练的GPU数量，为每一GPU分配局部分类标签。

在本申请的训练样本数据处理阶段，还预先为参与并行训练的每一GPU分配局部分类标签，即将全量训练样本数据中所有分类标签分配给不同GPU，得到GPU的局部分类标签。各GPU的局部分类标签数量之和等于全量训练样本数据中各分类标签数量之和(即全量分类标签数量)。例如，可以将全量训练样本数据的全量分类标签数据均分给GPU。通过预先为GPU分配局部分类标签，且根据局部分类标签预先为GPU分配局部训练样本数据，能够避免不同GPU的局部训练样本数据相互干扰，且在训练之前预先分配，对训练过程无干扰。

在一种可选实施方式中，参与并行训练的各GPU的特征提取网络中第一参数的初始值相同。

具体的，不同GPU中初始特征提取网络相同。可以预先将一个GPU中特征提取网络中第一参数的初始值同步给其他GPU中特征提取网络中第一参数的初始值。各GPU基于相同初始特征提取网络进行训练，且不同GPU特征提取网络共享参数，使得训练过程中、训练完成后，不同GPU中特征提取网络均相同。

在一种可选实施方式中，所述方法还包括：在训练完成后，从参与并行训练的每一GPU中选择任意一个GPU的特征提取网络作为特征提取网络任务的训练结果。

由于不同GPU中特征提取网络相同，在训练完成后，可以选择任意一个作为特征提取网络任务的训练结果，用于对待处理的目标图像进行特征提取。

本申请实施例提供的技术方案，每个GPU通过专属数据加载器获取局部训练样本数据，能够避免不同GPU的局部训练样本数据相互干扰，保持该GPU中分类器的准确度；并且，还能够保持样本数据的获取效率，对训练过程无干扰，即能够兼顾训练效率和分类器的准确度。

图3是根据本申请实施例提供的又一种模型并行训练方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3，在本实施例中，参与并行训练的每一GPU执行的模型并行训练方法包括：

S310、获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联。

S320、根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

S330、从其他GPU获取其他GPU中第一参数的其他局部梯度数据。

S340、根据第一参数的本地局部梯度数据和所述其他局部梯度数据，确定第一参数的全局梯度数据。

S350、根据所述第一参数的全局梯度数据，对特征提取网络进行更新。

S360、根据第二参数的本地局部梯度数据对分类器进行更新。

具体的，不同GPU中特征提取网络相互通信。每一GPU中特征提取网络获取其他GPU中特征提取网络的第一参数的其他局部梯度数据；可以将第一参数的本地局部梯度数据和其他局部梯度数据的均值梯度数据作为该GPU的全局梯度数据，即不同GPU确定的第一参数的全局梯度数据可以相同。需要说明的是，本申请实施例对全局梯度数据的确定方式不作具体限定，只需不同GPU使用的确定规则相同即可。每一GPU根据第一参数的全局梯度数据对第一参数进行更新，也就是更新特征提取网络。不同GPU更新后的特征提取网络相同。

具体的，每一GPU中分类器与其他GPU中分类器相互独立，不进行通信，该GPU根据第二参数的本地局部梯度数据对分类器进行更新。通过相互共享的特征提取网络和相互独立的分类器，既能够使用不同GPU资源，又没有加重各分类器的训练负担。

在一种可选实施方式中，每一GPU中分类器的输入数据维度与预先为该GPU分配的局部分类标签数量相同。

具体的，每一GPU中分类器对维度为局部分类标签数量的特征数据整体进行处理。在不同分类器相互通信的相关技术中，每一分类器接收维度为全量分类标签数量的特征数据，从全量分类标签数量长度的特征数据中提取局部分类标签数量长度的部分特征数据，并对提取的部分特征数据进行处理。仍以全量分类标签数量为100万，局部分类标签数量为12.5万为例，本申请中分类器只从本地特征提取网络中接收12.5万维的特征数据，且对接收的特征数据整体进行处理。然而相关技术中分类器接收100万维的特征数据，即不仅接收本地12.5维的特征数据，还从其他分类器接收12.5维的特征数据，拼接得到100万维的特征数据，且从100万维的特征数据中提取满足条件的12.5万维的部分特征数据，且对提取的12.5万维的部分特征数进行处理。本申请相比于相关技术，还简化了分类器的处理过程，进一步提高了分类器的处理效率。

在一种可选实施方式中，根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据包括：通过特征提取网络对获取的局部训练样本数据进行特征提取得到本地局部特征，通过分类器对所述本地局部特征进行分类得到分类预测结果；根据所述分类预测结果，确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

具体的，每一GPU根据局部样本数据的分类标签和本地分类器的分类预测结果，分别确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。通过统一使用局部训练样本数据，分别确定第一参数的本地局部梯度数据和第二参数的本地局部梯度数据，能够提高本地局部梯度数据的确定效率。

本申请实施例提供的技术方案，不同GPU中特征提取网络相互共享并行训练，不同GPU中分类器相互独立互不影响，在不牺牲模型性能的基础上，大幅度缩减训练时间。

图4是本申请实施例提供的一种模型并行训练装置的结构示意图。参见图4，本申请实施例提供的模型并行训练装置400，可配置于参与并行训练的每一图形处理器GPU中，该模型并行训练装置400可以包括：

训练样本获取模块401，用于获取该GPU的局部训练样本数据；其中，该GPU的局部训练样本数据与预先为该GPU分配的局部分类标签关联；

局部梯度确定模块402，用于根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据；

特征提取网络更新模块403，用于根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新；

分类器更新模块404，用于根据第二参数的本地局部梯度数据对分类器进行更新。

在一种可选实施方式中，该模型并行训练装置400还包括：

分类标签分配模块，用于根据全量训练样本数据的全量分类标签数量和参与并行训练的GPU数量，为每一GPU分配局部分类标签。

在一种可选实施方式中，该GPU使用与其他GPU不同的专属数据加载器；所述训练样本获取模块401具体用于：

通过该GPU的专属数据加载器获取该GPU的局部训练样本数据。

在一种可选实施方式中，所述局部梯度确定模块402包括：

样本处理单元，用于通过特征提取网络对获取的局部训练样本数据进行特征提取得到本地局部特征，通过分类器对所述本地局部特征进行分类得到分类预测结果；

局部梯度确定单元，用于根据所述分类预测结果，确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

在一种可选实施方式中，所述特征提取网络更新模块403包括：

其他局部梯度获取单元，用于从其他GPU获取其他GPU中第一参数的其他局部梯度数据；

全局梯度确定单元，用于根据第一参数的本地局部梯度数据和所述其他局部梯度数据，确定第一参数的全局梯度数据；

特征提取网络更新单元，用于根据所述第一参数的全局梯度数据，对特征提取网络进行更新。

在一种可选实施方式中，其中，参与并行训练的各GPU的特征提取网络中第一参数的初始值相同。

在一种可选实施方式中，所述模型并行训练装置400还包括：

训练结果确定模块，用于在训练完成后，从参与并行训练的每一GPU中选择任意一个GPU的特征提取网络作为特征提取网络任务的训练结果。

本申请实施例的技术方案，通过参与并行训练的多个GPU，同时对特征提取网络进行训练，每个GPU独立训练自己的分类器，不同分类器之间无需通信，并且简化了分类器的处理逻辑，能够在不牺牲性能前提下，提高模型训练效率。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如模型并行训练方法。例如，在一些实施例中，模型并行训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的模型并行训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型并行训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型并行训练方法，由参与并行训练的每一图形处理器GPU执行，所述方法包括：

根据第二参数的本地局部梯度数据对分类器进行更新。

2.根据权利要求1所述的方法，所述方法还包括：

根据全量训练样本数据的全量分类标签数量和参与并行训练的GPU数量，为每一GPU分配局部分类标签。

3.根据权利要求1所述的方法，其中，该GPU使用与其他GPU不同的专属数据加载器；所述获取该GPU的局部训练样本数据，包括：

通过该GPU的专属数据加载器获取该GPU的局部训练样本数据。

4.根据权利要求1所述的方法，其中，所述根据获取的局部训练样本数据确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据，包括：

通过特征提取网络对获取的局部训练样本数据进行特征提取得到本地局部特征，通过分类器对所述本地局部特征进行分类得到分类预测结果；

根据所述分类预测结果，确定特征提取网络中第一参数的本地局部梯度数据和分类器中第二参数的本地局部梯度数据。

5.根据权利要求1所述的方法，其中，所述根据第一参数的本地局部梯度数据和其他GPU中第一参数的其他局部梯度数据对特征提取网络进行更新，包括：

从其他GPU获取其他GPU中第一参数的其他局部梯度数据；

根据第一参数的本地局部梯度数据和所述其他局部梯度数据，确定第一参数的全局梯度数据；

根据所述第一参数的全局梯度数据，对特征提取网络进行更新。

6.根据权利要求1-5中任一项所述的方法，其中，参与并行训练的各GPU的特征提取网络中第一参数的初始值相同。

7.根据权利要求1-5中任一项所述的方法，其中，每一GPU中分类器的输入数据维度与预先为该GPU分配的局部分类标签数量相同。

8.根据权利要求1-5中任一项所述的方法，还包括：

在训练完成后，从参与并行训练的每一GPU中选择任意一个GPU的特征提取网络作为特征提取网络任务的训练结果。

9.一种模型并行训练装置，配置于参与并行训练的每一图形处理器GPU中，所述装置包括：

10.根据权利要求9所述的装置，所述装置还包括：

11.根据权利要求9所述的装置，其中，该GPU使用与其他GPU不同的专属数据加载器；所述训练样本获取模块具体用于：

通过该GPU的专属数据加载器获取该GPU的局部训练样本数据。

12.根据权利要求9所述的装置，其中，所述局部梯度确定模块包括：

13.根据权利要求9所述的装置，其中，所述特征提取网络更新模块包括：

14.根据权利要求9-13中任一项所述的装置，其中，参与并行训练的各GPU的特征提取网络中第一参数的初始值相同。

15.根据权利要求9-13中任一项所述的装置，其中，每一GPU中分类器的输入数据维度与预先为该GPU分配的局部分类标签数量相同。

16.根据权利要求9-13中任一项所述的装置，所述装置还包括：

17.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。