CN114140641A

CN114140641A - 面向图像分类的多参数自适应异构并行计算方法

Info

Publication number: CN114140641A
Application number: CN202111311603.XA
Authority: CN
Inventors: 刘哲; 马聪; 宋余庆; 刘毅
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-03-04

Abstract

本发明提供了一种面向图像分类的多参数自适应异构并行计算方法，首先将图像数据复制成R份，分别输入到R个多参数自适应模块中，多参数自适应模块之间采用异构并行，多参数自适应模块根据数据类型、数据量、模型参数所占显存、模型输入的batchsize和模型层数进行自适应选择最优的并行方式，对多参数自适应模块进行训练，将训练后的多参数自适应模块的预测结果传入主参数服务器中进行投票，输出最优的分类结果。本发明在保持原有深度学习训练效果的同时，能够大幅度提升模型训练效率，提高图像分类的鲁棒性。

Description

面向图像分类的多参数自适应异构并行计算方法

技术领域

本发明属于深度学习技术领域，具体涉及一种面向图像分类的多参数自适应异构并行计算方法。

背景技术

深度学习是学习样本数据的内在规律和表示层次，学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

近年来，深度学习在计算机视觉、自然语言处理、自动驾驶、智能医疗等各个领域都取得了很大的成功。同时，硬件设备的不断革新，如GPU、NPU、TPU等硬件加速器的出现，以及一些自然图像数据集如ImageNet和CIFAR等训练数据集开源，很大程度上促进了深度学习的兴起与发展。然而，随着深度神经网络和数据集规模的快速增长，用于训练的机器的计算能力成为瓶颈，需要几天或几周才能完成一个大型神经网络模型的训练；例如，基于ImageNet数据集，使用4个P100 GPU对ResNet-101进行100轮的训练需要50小时左右，这使得网络模型开发过程中无法进行实时交互。与此同时，还会出现单层网络参数量过大，导致单卡显存无法容纳模型的问题。在这种情况下，分布式训练受到人们的青睐，它极大地提高了训练效率，提升了神经网络训练效率。

目前，业界通常采用数据并行方案减少训练时长，采用模型并行方案解决模型过大导致单片GPU无法训练问题。其中数据并行指不同的GPU具有完整的模型副本；每台机器只是获取数据的不同部分，并且每个GPU的结果以某种方式组合。模型并行指分布式系统中的不同机器负责单个网络的不同部分的计算，例如，神经网络中的每个层可以被分配给不同的GPU。在数据并行训练过程中，参数服务器负责模型之间的参数交换，更新本地参数。在模型并行训练过程中，将网络模型不同层分割后部署到不同GPU上，减少单个GPU上的模型参数量，从而避免显存限制。

然而，数据和模型并行方式是在每台GPU部署相同的网络模型或在不同GPU上部署同一模型的不同部分，没有考虑到单一模型无法应对特征多样的图像数据，可能导致模型的鲁棒性比较差。另外，通用神经网络训练框架PyTorch、TensorFlow官方集成的传统模型并行方案，不能灵活的选择并行的模式，导致模型训练效果和效率达不到预期。

发明内容

针对现有技术中存在不足，本发明提供了一种面向图像分类的多参数自适应异构并行计算方法，通过应用异构并行训练，以及根据数据特性采用不同的并行方式，灵活应对多变的数据，提高图像分类的效率和准确率。

本发明是通过以下技术手段实现上述技术目的的。

一种面向图像分类的多参数自适应异构并行计算方法，将图像数据复制成R份，分别输入到R个多参数自适应模块中，R个多参数自适应模块之间采用异构并行，多参数自适应模块根据数据类型、数据量、模型参数所占显存、模型输入的batchsize和模型层数进行自适应选择最优的并行方式，对多参数自适应模块进行训练，将训练后的多参数自适应模块的预测结果传入主参数服务器中进行投票，输出最优的分类结果。

上述技术方案中，所述并行方式包括数据并行、模型并行和混合并行。

上述技术方案中，所述数据并行采用参数服务器结构，参数服务器中存放着全局共享的网络模型参数，参数服务器架构的每个工作节点均存储一个网络模型副本，节点通过推送/拉取操作与参数服务器进行通信，而任何节点之间均不产生通信。

上述技术方案中，所述数据并行的训练过程分为前向传播和反向传播，在前向传播阶段，每个节点首先读取图片数据，进行前向传播，得到预测值，并计算误差；在反向传播阶段，节点根据误差进行反向传播，计算每一个网络层的梯度，节点一边计算梯度，一边推送梯度△W给参数服务器；参数服务器接收所有节点发送的梯度△W后，利用公式W(t+1)＝W(t)-α*1/n*∑△W整合梯度，得到第t+1迭代需要的网络模型参数W(t+1)，最后节点再从参数服务器拉取聚合后的模型参数W(t+1)，更新节点中的网络模型，进行t+1次的数据迭代；其中α为学习率。

上述技术方案中，所述节点在推送梯度△W给参数服务器的过程中，采用梯度深层压缩：先对梯度进行稀疏操作，保留梯度向量中绝对值最大的前Q个向量值，而将其他值设置为零，然后采用量化函数quantiz将梯度向量中绝对值最大的前Q个向量值进行量化转换成低精度的值；当梯度上传到参数服务器后，通过反量化函数重构原始梯度。

上述技术方案中，所述并行方式的选择是根据数据特征D和模型特征M进行的，所述数据特征D包括数据类型D₁和数据量D₂，所述模型特征M包括模型参数所占显存M₁、模型输入的batchsizeM₂和模型层数M₃；且：

其中λ_i和μ_j为权重，且

上述技术方案中，数据特征和模型特征的综合指标为：

其中τ₁、τ₂为阈值，

为指示函数。

上述技术方案中，当C＝1时，选择数据并行；当C＝2时，选择模型并行；当C＝3时，选择混合并行。

本发明的有益效果为：

(1)本发明采用异构并行方式，即多模型并行，最后通过竞争机制得到最优结果，克服单一并行，鲁棒性差，无法应对数据多样性问题。

(2)本发明中多参数自适应模块根据数据类型、数据量、模型参数所占显存、模型输入batchsize和模型层数等多参数进行自适应选择最优的并行方式，即数据并行、模型并行和混合并行，避免了人为选择并行方式的麻烦。

(3)本发明数据并行的训练过程包括反向传播时，采用梯度深层压缩的方法，克服梯度量化最多对梯度压缩32倍的弊端，对梯度进行稀疏处理后，再进行压缩传输，大幅度减少通信时间。

附图说明

图1为本发明所述面向图像分类的多参数自适应异构并行计算方法流程图；

图2为本发明所述数据并行结构示意图；

图3为本发明所述模型并行结构示意图；

图4为本发明所述混合并行的分布式训练架构示意图；

图5为本发明所述多参数自适应模块结构示意图；

图6为本发明所述面向图像分类的多参数自适应异构分布式训练结构图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

本实施例以自然图像分类为例对本发明内容进行详细介绍，但不局限于自然图像，同样适用于其他领域图像。

如图1所示，本发明一种面向图像分类的多参数自适应异构并行计算方法，具体包括以下步骤：

步骤(1)，构建网络模型结构，网络模型包括特征提取网络和分类网络两个部分，特征提取网络由输入层、卷积层、池化层、全连接层组成，分类网络由分类层组成。特征提取网络对输入的图像提取特征，然后输入到分类网络中进行分类，得到预测结果。

本实施例中网络模型选择图像分类模型，特征提取网络选择ResNet101、SENet50和SE_ResNeXt50，图像分类模型的损失函数采用多分类交叉熵损失，交叉熵计算损失，多分类交叉熵损失的公式如下：

其中：L_c表示多分类交叉熵损失，N表示样本数，K为样本类别数，i为样本序号，y_ik表示第i个样本的真实值，

表示第i个样本的预测值。

步骤(2)，设计分布式数据并行训练结构

本发明的分布式数据并行训练结构，采用参数服务器结构，参数服务器中存放着全局共享的网络模型参数。参数服务器结构的每个工作节点均存储一个网络模型副本。节点通过推送/拉取操作与参数服务器进行通信，而任何节点之间都不会产生通信行为，一个节点就是一个GPU。以第t次迭代为例子，训练前，把数据根据节点的数量进行分配，每个节点得到相同数量的数据。训练过程分为前向传播和反向传播；在前向传播阶段，每个节点首先读取图片数据，进行前向传播，得到预测值，并计算误差；在反向传播阶段，节点根据误差进行反向传播，计算每一个网络层的梯度，节点一边计算梯度，一边推送梯度△W给参数服务器，实现梯度计算和通信操作高度重叠，来减少通信时间。参数服务器接收所有节点发送的梯度△W后，利用公式W(t+1)＝W(t)-α*1/n*∑△W整合梯度，得到第t+1迭代需要的网络模型参数W(t+1)，最后节点再从参数服务器拉取聚合后的网络模型参数W(t+1)，更新节点中的网络模型，进行t+1次的数据迭代。特别的，在推送梯度△W给参数服务器的过程中，采用了梯度深层压缩的策略，具体的先对梯度进行稀疏操作，保留梯度向量中绝对值最大的前Q个向量值，而将其他值设置为零，然后采用量化函数quantiz将梯度向量中绝对值最大的前Q个向量值进行量化转换成低精度的值；当梯度上传到参数服务器后，通过反量化函数重构原始梯度，该策略大幅度地减少通信的参数量，从而减少通信的开销，提高了训练效率。分布式数据并行结构如图2所示。

步骤(3)，设计分布式模型并行训练结构

当图像分类模型太大，一个节点(GPU)上存放不下时，将分类网络切分为若干份，分别部署不同的GPU上。训练分为前向传播和反向传播两个阶段；在前向传播阶段，GPU之间按照顺序相互配合进行前向传播，得到预测值，利用损失函数计算相应的误差；如果分类网络中，同一层的神经元出现在不同的GPU上时，使用broadcast机制对每个GPU分发全部输入数据，在每个GPU上独立进行σ(W^TX+b)计算，分别得到输出的特征图，最后进行通道相加操作，得到该层的输出，其中W^T为权重矩阵，b为偏置，X为输入的数据矩阵，σ()为激活函数；在反向传播阶段，根据前向传播计算出来的误差，进行反向传播，在这个过程中，如遇到同一层神经元分布在不同GPU上，将该层的分布在不同GPU的神经元计算的梯度进行聚合，计算出该层的梯度，再将该层的梯度反向传给上一层，继续进行反向传播。当反向传播结束后，根据计算的梯度，使用随机梯度下降法对分类网络的参数更新，并开始下一次数据迭代。这里每一层分类网络可以部署在同一台机器的不同GPU上，也可以部署在不同机器GPU上，具体部署根据神经元的数量决定，大大增加了网络的处理数据能力。分布式模型并行结构如图3所示。

步骤(4)，设计混合并行的分布式训练结构

基于步骤(2)设计的数据并行结构、步骤(3)设计的模型并行结构，在不同服务器之间，采用数据并行方案，在同一服务器不同GPU上之间，采用网络模型并行方案。在训练时，首先进行数据并行，对数据进行均分，将数据存储到服务器中，然后在每个服务器不同的GPU上，进行网络模型并行训练，这里网络模型训练和步骤(3)完全相同。其中数据并行的具体过程和步骤(2)完全相同，唯一不同的是，在数据并行的前提下，在每个节点中进行网络模型并行，来减轻单个GPU存储大型网络模型的压力。混合并行的分布式训练结构如图4所示。

步骤(5)，设计多参数自适应模块分布式训练结构

将步骤(2)设计的数据并行结构、步骤(3)设计模型并行结构和步骤(4)设计的混合并行结构，组成一个多参数自适应模块，多参数自适应模块三个支路分别是数据并行、模型并行和混合并行。数据特征和模型特征是选择合适支路的重要指标。

影响数据特征的因素主要有数据类型、数据量的大小；数据类型包括2D、3D图像；Pascal VOC2012作为基准数据之一，在对象分类、对象检测、图像分割网络对比实验与模型效果评估中被频频使用,所以数据量大小以通用的大小为2G的Pascal VOC数据集为基线。

影响模型特征的因素(即模型所占显存用)主要有模型参数所占显存、模型输入的batchsize和模型层数；模型参数所占显存包括模型自身参数的显存占用和优化器参数的显存占用两部分，模型自身参数主要是有参数的层的参数，有参数的层这部分的显存占用和输入无关，模型加载完成之后就会占用，有参数的层主要有卷积层、全连接层、BatchNorm层、Embedding层等，需要注意的是(Sigmoid/ReLU)等激活层、池化层和Dropout没有参数；具体计算模型参数的个数：

全连接层：Linear(G-＞F)：参数数目：G*F；其中G为输入形状，F为输出形状；

卷积层Conv2d(C_in，C_out，S)：参数数目：Cin*Cout*S*S；其中C_in为输入的特征通道数，C_out为输出的特征通道数，S为卷积核大小；

BatchNorm(Num)：参数数目：2*Num；其中Num输入数据长度；

Embedding(Z,H)：参数数目：Z*H；其中Z输入数据长度，H数据的维度；

深度学习一般使用32位浮点数，也就是4个字节，所以模型自身参数占用显存的大小＝参数的数目*4。

除了计算模型自身参数所占显存，对应的优化器参数也要被考虑(优化器参数就是梯度)，本实施例选用的是SGD优化器(即多分类交叉熵损失)，SGD优化器更新参数阶段的公式：

由公式可以看出除了参数W保存，还要保存更新过程中用到的梯度

所以参数占用的显存为：模型自身参数占用显存的大小*2(优化器参数占用的显存等于模型自身参数占用的显存)；α为学习率。

模型计算产生的中间参数也占用很大显存，中间参数计算公式如下：

全连接层：B*G*F，B为batchsize大小，G是输入形状，F是输出形状；

卷积的计算量：B*H*W*C_out*C_in*S²，H*W为输出尺寸，S为卷积核大小，C_in为输入的特征通道数，C_out为输出的特征通道数；

由上面两个公式可知，batchsize影响着中间参数所占显存大小。

ResNet在2015年被提出，在ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测、分割、识别等领域里得到广泛的应用。本实施例计算模型参数选用resNet152层做为基准模型来计算参数所占显存的大小、模型层数。resNet152的参数量有60344387个，参数显存占用显存230M，所以模型显存＝2*参数层显存＝460M。一般情况下，一张3*256*256图像大小为8M，经过resNet152计算产生的中间参数占用的显存大小为27M，当batchsize＝128时，占用的显存大小为3G。

综上所述，模型所占显存用公式表示为：模型所占显存＝模型参数所占显存+batchsize×每个样本的所占显存。

多参数自适应模块主要影响因子的阈值、类型如表1所示。

表1多参数自适应模块主要影响因子的阈值、类型

表1可以用下面公式表示：

阈值τ₁取0.5，τ₂取0.5，

为指示函数。由上述公式可知C是用来衡量数据特征和模型特征的综合指标，它的取值范围为1、2、3，对应支路选择列表如表2：

表2支路选择列表

C	支路类型
		1	数据并行
2	模型并行
		3	混合并行

多参数自适应模块结构如图5所示。

步骤(6)，设计面向图像分类的多参数自适应分布式训练结构

基于步骤(1)的网络模型结构和步骤(5)的多参数自适应模块，多参数自适应异构分布式结构，包括三个多参数自适应模块，步骤(1)中的三个模型实例(ResNet101、SENet50和SE_ResNeXt50)分别部署到三个多参数自适应模块中，每个多参数自适应模块中本地设备包括一台GeForce GTX 1080Ti显卡参数服务器、3台含有2张8G服务器和2台含有一张6G显存服务器。训练主要分为两个阶段，第一阶段首先将图片数据复制成三份，分别输入到三个多参数自适应模块中，根据数据类型、数据量、模型参数所占显存、模型输入的batchsize和模型层数等参数进行自适应选择最优的并行方式，训练结束后，进行预测；第二阶段，每个多参数自适应模块的预测结果传入主参数服务器中进行投票，输出最优结果，特别地，这里使用投票的方法得到最后的结果，将集成方法应用到分布式框架中，巧妙的让多模型并行成为现实。多参数自适应异构分布式训练结构如图6所示。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种面向图像分类的多参数自适应异构并行计算方法，其特征在于：将图像数据复制成R份，分别输入到R个多参数自适应模块中，R个多参数自适应模块之间采用异构并行，多参数自适应模块根据数据类型、数据量、模型参数所占显存、模型输入的batchsize和模型层数进行自适应选择最优的并行方式，对多参数自适应模块进行训练，将训练后的多参数自适应模块的预测结果传入主参数服务器中进行投票，输出最优的分类结果。

2.根据权利要求1所述的面向图像分类的多参数自适应异构并行计算方法，其特征在于，所述并行方式包括数据并行、模型并行和混合并行。

3.根据权利要求2所述的面向图像分类的自适应异构并行计算方法，其特征在于，所述数据并行采用参数服务器结构，参数服务器中存放着全局共享的网络模型参数，参数服务器架构的每个工作节点均存储一个网络模型副本，节点通过推送/拉取操作与参数服务器进行通信，而任何节点之间均不产生通信。

4.根据权利要求3所述的面向图像分类的自适应异构并行计算方法，其特征在于，所述数据并行的训练过程分为前向传播和反向传播，在前向传播阶段，每个节点首先读取图片数据，进行前向传播，得到预测值，并计算误差；在反向传播阶段，节点根据误差进行反向传播，计算每一个网络层的梯度，节点一边计算梯度，一边推送梯度ΔW给参数服务器；参数服务器接收所有节点发送的梯度ΔW后，利用公式W(t+1)＝W(t)-α*1/n*∑ΔW整合梯度，得到第t+1迭代需要的网络模型参数W(t+1)，最后节点再从参数服务器拉取聚合后的模型参数W(t+1)，更新节点中的网络模型，进行t+1次的数据迭代；其中α为学习率。

5.根据权利要求4所述的面向图像分类的自适应异构并行计算方法，其特征在于，所述节点在推送梯度ΔW给参数服务器的过程中，采用梯度深层压缩：先对梯度进行稀疏操作，保留梯度向量中绝对值最大的前Q个向量值，而将其他值设置为零，然后采用量化函数quantiz将梯度向量中绝对值最大的前Q个向量值进行量化转换成低精度的值；当梯度上传到参数服务器后，通过反量化函数重构原始梯度。

6.根据权利要求2所述的面向图像分类的自适应异构并行计算方法，其特征在于，所述并行方式的选择是根据数据特征D和模型特征M进行的，所述数据特征D包括数据类型D₁和数据量D₂，所述模型特征M包括模型参数所占显存M₁、模型输入的batchsizeM₂和模型层数M₃；且：

其中λ_i和μ_j为权重，且

7.根据权利要求6所述的面向图像分类的自适应异构并行计算方法，其特征在于，数据特征和模型特征的综合指标为：

其中τ₁、τ₂为阈值，

为指示函数。

8.根据权利要求1所述的面向图像分类的自适应异构并行计算方法，其特征在于，当C＝1时，选择数据并行；当C＝2时，选择模型并行；当C＝3时，选择混合并行。