CN113792848A

CN113792848A - 一种基于特征图编码的流水线模型并行训练内存优化方法

Info

Publication number: CN113792848A
Application number: CN202110986189.6A
Authority: CN
Inventors: 毛莺池; 金衍; 屠子健; 聂华; 黄建新; 徐淑芳; 王龙宝
Original assignee: Hohai University HHU; Zhongke Controllable Information Industry Co Ltd
Current assignee: Hohai University HHU; Zhongke Controllable Information Industry Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-14

Abstract

本发明公开了一种基于特征图编码的流水线模型并行训练内存优化方法，步骤为：构建流水线DNN模型并行训练方案，采用异步参数更新方法，并发执行不同批次的训练，记录训练批次在单位流水线执行时间内完成前向和后向传递过程；在模型训练过程中，待前向传递计算任务完成后，将生成的特征图进行编码，以低内存占用格式存储，从而降低特征图存储所需内存占用量；后向传递过程计算时，将保存特征图进行解码，还原高精度原始数据，实现基于特征图编码的流水线并行训练内存优化，避免低精度数据对模型训练计算影响，保证模型训练有效性。

Description

一种基于特征图编码的流水线模型并行训练内存优化方法

技术领域

本发明涉及一种基于特征图编码的流水线模型并行训练内存优化方法，属于计算机技术领域。

背景技术

深度神经网络广泛应用于各种领域，取得了超越人类的预测效果。随着模型的精度等要求越来越高，模型参数规模和计算需求越来越大，训练模型成为一个计算十分密集和耗时的任务。研究人员经常使用分布式计算机集群加速模型训练过程。分布式深度学习并行训练致力于加速DNN模型训练过程，已被很多学者研究。其中，流水线并行训练研究越来越深入。流水线并行训练可以解决数据并行的通信瓶颈与模型并行的计算资源浪费问题。流水线并行训练系统中多个计算节点以流水线方式执行所有批次的训练任务，内存消耗较大。为了解决模型高内存占用问题，模型剪枝和量化等技术被提出用以压缩模型参数规模。然而，现有方法大多基于降低模型参数规模以减少模型内存占用量，但并不适用模型训练过程，无法解决模型训练中高内存占用问题。针对流水线并行训练中的高内存占用量问题，研究减少内存占用量的内存优化方法，具有重要意义。

发明内容

发明目的：为了解决流水线并行训练中的高内存占用量问题，本发明提供一种基于特征图编码的流水线模型并行训练内存优化方法，在前向传递与后向传递计算时间间隙中对特征图编码，使用二值化编码存储Relu-Pooling组合层中输入特征图冗余元素，使用CSR编码存储Relu-Conv组合层中稀疏特征图，降低内存占用量，保证模型训练的有效性。

技术方案：一种基于特征图编码的流水线模型并行训练内存优化方法，包括如下步骤：

(1)构建流水线DNN模型并行训练方案，采用异步参数更新方法，并发执行不同节点中不同批次的训练，记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程；

(2)待前向传递计算任务完成后，生成特征图。若是Relu-Pooling或Relu-Conv组合层生成的特征图，则对特征图进行编码；若不是Relu-Pooling或Relu-Conv组合层生成的特征图，则不进行编码操作；

(3)判断是否将生成的特征图都进行了编码，以低内存占用格式存储，从而降低特征图存储所需内存占用量，是则完成了对于特征图的编码，否则返回步骤(2)继续迭代；

(4)在后向传递过程计算时，对生成的特征图进行解码。若是Relu-Pooling或Relu-Conv组合层生成的特征图，则对特征图进行解码；若不是Relu-Pooling或Relu-Conv组合层生成的特征图，则不进行解码操作；

(5)判断是否将所有生成的特征图编码在后向传递过程中都进行了相对应的解码操作，是则完成该内存优化方案，否则返回步骤(4)继续迭代；

(6)按照上述内存优化方案将其部署到异构计算节点中，得到针对拟训练目标网络的流水线并行训练内存优化方案。

进一步的，所述步骤(1)中单位流水线执行时间主要指前向传递和后向传递计算时间之和。

进一步的，所述步骤(2)中对Relu-Pooling组合层生成的特征图进行编码的具体流程如下：

在Relu层使用1个比特位存储Relu输出特征图元素，若元素为正，则为1；若元素为负，则为0；在Pooling层存储输出特征图与输入特征图的最大值元素位置映射。

进一步的，所述步骤(2)中对Relu-Conv组合层生成的特征图进行编码的具体流程如下：

使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储。特征图一般是存储在一个n维矩阵中，这个n维矩阵可以被分解为2维矩阵，可以将这些2维矩阵转换为CSR格式。CSR采用三个一维数组分别记录2维矩阵中非零数值，对应列号以及行偏移。CSR不是三元组，而是整体的编码方式。数值和列号表示一个元素以及元素列号，行偏移表示某一行的第一个元素在数值数组中起始偏移位置。

进一步的，所述步骤(4)中对生成特征图解码的组合层要求如下：

(4.1)Relu-Pooling组合层。后向传递计算中在Relu层直接使用1位数据进行计算，降低Relu层输入特征图负值元素的存储内存占用，后向传递计算中在Pooling层使用特征图位置映射进行计算，避免特征图中冗余元素的存储内存占用。

(4.2)Relu-Conv组合层。在后向传递中将CSR格式编码还原为高精度原始数据，保证计算准确性，降低高稀疏特征图的存储内存占用。

进一步的，所述步骤(4.1)中对Relu-Pooling组合层生成的特征图解码的具体流程如下：

(4.1.1)对Relu层后向传递计算分析；

(4.1.2)对Pooling层后向传递计算分析。

进一步的，所述步骤(4.1.1)中对Relu层后向传递计算分析的具体流程如下：

Relu激活函数用于增加网络的非线性，缓解神经网络过拟合问题，避免梯度消失问题。相比于Sigmod等激活函数，其计算简单，模型训练收敛性更强。Relu计算公式如下：

Relu(x)＝max(0,x)

当输入为负值时，其输出为0；当输入值为正值时，其输出结果不变。这种单侧抑制性使得Relu层进行后向传递计算时，仅需要该层的输出特征图和下一层的输出梯度。Relu层的反向传递计算公式为：

由Relu反向传递计算公式可以发现，Relu层不需要一直以较高精度保存输入特征图X，并且仅当Y中的对应元素为正时，才将Y的元素传递给dX，否则将dX设置为0；X为输入特征图、Y为输出特征图，dX为后向传播梯度，dY为下一层的输出梯度。针对这个现象，可以在Relu层使用1个比特位代替特征图负值元素，表示该元素是否为正，避免特征图的冗余存储。

进一步的，所述步骤(4.1.2)中对Pooling层后向传递计算分析的具体流程如下：

DNN模型通常使用最大池化方法(Max-Pooling)对输入矩阵进行二次采样，保留特征图主要特征，减少下一层的参数量和计算量，防止过拟合问题。最大池化方法中前向传递在输入矩阵X上滑动指定大小的窗口，在该窗口中找到最大值并将其传递到输出Y，后向传递计算中梯度传播到最大值的相应位置上，其他位置梯度为0。

由上述分析可知，Pooling层后向传递并不需要上一层输出的所有实际值。这些高精度格式数据会导致较高的内存占用。针对这个现象，在Pooling层前向传递中创建从Y到X的映射，以跟踪这些位置。

进一步的，所述步骤(4.2)中对Relu-Conv组合层生成的特征图解码的具体流程如下：

将CSR格式的编码转换为2维矩阵，再将2维矩阵恢复成一个n维矩阵，使其成为原来DNN模型存储的数据结构，实现一系列的后续操作。

有益效果：本发明与现有技术相比具有以下优点：

本发明针对DNN训练过程中特征图内存占用量高、使用时间分布较远的问题，在模型训练过程中，待前向传递计算任务完成后，将生成的特征图进行编码，以低内存占用格式存储，从而降低特征图存储所需内存占用量；后向传递过程计算时，将保存特征图进行解码，还原高精度原始数据，避免低精度数据对模型训练计算的影响，保证模型训练有效性。

附图说明

图1为特征图使用生命周期示例图；

图2为本发明实施例的方法流程图；

图3为具体实施例中基于特征图编码的流水线模型并行训练内存优化方法两种编码方案示例图；

图4为具体实施例中对于DNN模型基于二值化编码的特征图存储示例图；

图5为具体实施例中对于基于CSR编码的特征图存储计算的示例图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明针对现有研究工作没有考虑DNN模型训练中特征图的内存占用问题，分析特征图的使用情况，在模型训练过程中，待前向传递计算任务完成后，将生成的特征图进行编码，以低内存占用格式存储，从而降低特征图存储所需内存占用量；后向传递过程计算时，将保存特征图进行解码，还原高精度原始数据，保证模型训练的有效性。

图1为特征图使用生命周期示例图。

特征图X由上一层L_x计算生成，作为L_Y层输入执行前向传递计算。L_Y层后向传递计算时继续使用X进行计算。在整个生命周期中，特征图X一直以较高精度(如FP32)保存，从而占据了主要的内存消耗。

图2为本实施例中基于特征图编码的流水线模型并行训练内存优化方法流程图。基于特征图编码的流水线模型并行训练内存优化方法，包括如下步骤：

步骤A：构建流水线DNN模型并行训练方案，采用异步参数更新方法，并发执行不同节点中不同批次的训练，记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程。单位流水线执行时间主要指前向传递和后向传递计算时间之和。

步骤B：待前向传递计算任务完成后，生成特征图。若是Relu-Pooling或Relu-Conv组合层生成的特征图，则对特征图进行编码；若不是Relu-Pooling或Relu-Conv组合层生成的特征图，则不进行编码操作，直接跳转到步骤C。

步骤B1：若为Relu-Pooling组合层，对Relu-Pooling组合层生成的特征图进行编码的具体步骤如下：

在Relu层使用1个比特位存储Relu输出特征图元素是否为正的信息；在Pooling层存储输出特征图与输入特征图的最大值元素位置映射。

步骤B2：若为Relu-Conv组合层，使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储。其具体步骤为：

特征图一般是存储在一个n维矩阵中，这个n维矩阵可以被分解为2维矩阵，可以将这些2维矩阵转换为CSR格式。CSR采用三个一维数组分别记录矩阵中非零数值，对应列号以及行偏移。CSR不是三元组，而是整体的编码方式。数值和列号表示一个元素以及其列号，行偏移表示某一行的第一个元素在数值数组中起始偏移位置。

步骤C：判断是否将生成的特征图都进行了编码，以低内存占用格式存储，从而降低特征图存储所需内存占用量，是则完成了对于特征图的编码，否则返回步骤B继续迭代。

步骤D：在后向传递过程计算时，对生成的特征图进行解码。若是Relu-Pooling或Relu-Conv组合层生成的特征图，则对特征图进行解码；若不是Relu-Pooling或Relu-Conv组合层生成的特征图，则不进行解码操作，直接跳转到步骤E。

步骤D1：若为Relu-Pooling组合层。后向传递计算中在Relu层直接使用1位数据进行计算，降低Relu层输入特征图负值元素的存储内存占用，后向传递计算中在Pooling层使用特征图位置映射进行计算，避免特征图中冗余元素的存储内存占用。

步骤D1-1：对Relu层后向传递计算分析的具体流程如下：

Relu(x)＝max(0,x)

由Relu反向传递计算公式可以发现，Relu层不需要一直以较高精度保存输入特征图X，并且仅当Y中的对应元素为正时，才将Y的元素传递给dX，否则将dX设置为0。针对这个现象，可以在Relu层使用1个比特位代替特征图负值元素，表示该元素是否为正，避免特征图的冗余存储。

步骤D1-2：对Pooling层后向传递计算分析的具体流程如下：

由上述分析可知，Pooling层后向传递并不需要上一层输出的所有实际值。这些高精度格式数据会导致较高的内存占用。针对这个现象，在Pooling层前向传递中创建从Y到X的映射，以跟踪这些位置(窗口中找到最大值所在位置)。

步骤D2：若为Relu-Conv组合层。在后向传递中将CSR格式编码还原为高精度原始数据，保证计算准确性，降低高稀疏特征图的存储内存占用。将CSR格式的编码转换为2维矩阵，再将2维矩阵恢复成一个n维矩阵，使其成为原来DNN模型存储的数据结构，实现一系列的后续操作。

步骤E：判断是否将所有生成的特征图编码在后向传递过程中都进行了相对应的解码操作，是则完成该内存优化方案，否则返回步骤D继续迭代。

步骤F：按照上述内存优化方案将其部署到异构计算节点中，得到针对拟训练目标网络的流水线并行训练内存优化方案。

图3为基于特征图编码的流水线模型并行训练内存优化方法两种编码方案示例图。

(1)二值化编码：对于Relu-Pooling组合，在Relu层使用1个比特位存储Relu输出特征图元素是否为正的信息，后向传递计算中直接使用1位数据进行计算，降低Relu层输入特征图负值元素的存储内存占用；在Pooling层存储输出特征图与输入特征图的最大值元素位置映射，后向传递计算中使用特征图位置映射进行计算，避免特征图中冗余元素的存储内存占用。

(2)CSR编码：对于ReLU-Conv组合，使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储，在后向传递中将CSR格式编码还原为高精度原始数据，保证计算准确性，降低高稀疏特征图的存储内存占用。

在流水线并行训练中为每个Relu-Pooling与Relu-Conv组合分别应用上述两种编码方案，可以有效降低特征图在其生命周期使用间隙中的存储消耗，降低DNN模型训练内存占用量。

(a)是DNN层使用dX＝f(X,Y,dY)计算后向传播梯度；(b)是Relu层进行后向传递计算时，仅需要该层的输出特征图和下一层的输出梯度；(c)是Pooling层向后传递计算中使用此映射，从而消除了对该层输入和输出特征图的依赖；(d)是后向传递计算利用该层的输入特征图X与下一层的输入梯度dY值计算其梯度值，即dX＝f(X,dY)。

图5中，第一行元素1是0偏移，第二行元素3是2偏移，第三行元素4是3偏移，第4行元素1是4偏移。在行偏移的最后补上矩阵总的元素个数，本例中是5。

Claims

1.一种基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(1)中单位流水线执行时间主要指前向传递和后向传递计算时间之和。

3.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(2)中对Relu-Pooling组合层生成的特征图进行编码的具体流程如下：

4.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(2)中对Relu-Conv组合层生成的特征图进行编码的具体流程如下：

使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储；特征图存储在一个n维矩阵中，这个n维矩阵被分解为2维矩阵，将所述2维矩阵转换为CSR格式；所述CSR采用三个一维数组分别记录2维矩阵中非零数值，对应列号以及行偏移；所述CSR不是三元组，而是整体的编码方式；所述数值和列号表示一个元素以及元素列号，行偏移表示某一行的第一个元素在数值数组中起始偏移位置。

5.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，进一步的，所述步骤(4)中对生成特征图解码的组合层要求如下：

(4.1)Relu-Pooling组合层；后向传递计算中在Relu层直接使用1位数据进行计算，后向传递计算中在Pooling层使用特征图位置映射进行计算。

(4.2)Relu-Conv组合层；在后向传递中将CSR格式编码还原为原始数据。

6.根据权利要求5所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(4.1)中对Relu-Pooling组合层生成的特征图解码的具体流程如下：

(4.1.1)对Relu层后向传递计算分析；

(4.1.2)对Pooling层后向传递计算分析。

7.根据权利要求6所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(4.1.1)中对Relu层后向传递计算分析的具体流程如下：

Relu激活函数计算公式如下：

Relu(x)＝max(0,x)

当输入为负值时，其输出为0；当输入值为正值时，其输出结果不变；这种单侧抑制性使得Relu层进行后向传递计算时，仅需要该层的输出特征图和下一层的输出梯度；Relu层的反向传递计算公式为：

由Relu反向传递计算公式可以发现，Relu层不需要一直以较高精度保存输入特征图X，并且仅当Y中的对应元素为正时，才将Y的元素传递给dX，否则将dX设置为0；针对这个现象，在Relu层使用1个比特位代替特征图负值元素，表示该元素是否为正，避免特征图的冗余存储。

8.根据权利要求6所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(4.1.2)中对Pooling层后向传递计算分析的具体流程如下：

DNN模型使用最大池化方法对输入矩阵进行二次采样，最大池化方法中前向传递在输入矩阵X上滑动指定大小的窗口，在该窗口中找到最大值并将其传递到输出Y，后向传递计算中梯度传播到最大值的相应位置上，其他位置梯度为0；

在Pooling层前向传递中创建从Y到X的映射，以跟踪这些位置。

9.根据权利要求5所述的基于特征图编码的流水线模型并行训练内存优化方法，其特征在于，所述步骤(4.2)中对Relu-Conv组合层生成的特征图解码的具体流程如下：