CN111783977B

CN111783977B - 一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置

Info

Publication number: CN111783977B
Application number: CN202010317520.0A
Authority: CN
Inventors: 杨侃; 袁之航; 孙广宇; 汪小林; 罗英伟
Original assignee: Peking University; Peng Cheng Laboratory
Current assignee: Peking University; Peng Cheng Laboratory
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2024-04-05
Anticipated expiration: 2040-04-21
Also published as: CN111783977A

Abstract

本发明涉及一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中将特定区域的输入激活值保存在内存中；在神经网络训练的反向传播过程中利用保存的特定区域的输入激活值计算梯度，以更新神经网络的权重参数。所述区域是在输入激活值的长度和宽度方向上划分的区域。通过分块步长和网络稠密度确定所述特定区域，首先根据分块步长对输入激活值划分区域，并确定区域起始位置，然后根据网络稠密度确定保留区域总数。本发明对神经网络训练时需要保存的激活值进行存储优化，能够大幅降低内存成本，提高训练深度更深、规模更大的神经网络的能力，同时也可以在内存受限的设备上在线训练网络。

Description

一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法和装置

技术领域

本发明涉及神经网络训练过程中的中间值存储压缩方法和装置，属于人工智能和存储领域。

背景技术

在过去几年中，深度卷积神经网络处理各种视觉任务的性能得到了大幅度的提升。在大多数情况下，越先进的神经网络，其深度也会越深。例如在各种计算机视觉处理任务中表现出色的深度残差神经网络。对深度残差神经网络而言，关键的创新点是残差块。通过残差块，神经网络训练过程中前面的信息可以直接传递到后面的部分，从而使得反向传播过程中梯度不会因为网络过深而消失。这一结构的出现使得我们可以训练具有上百层结构的神经网络，深度大幅增加对网络处理各种任务的精确度有显著的提升。

反向传播是现代神经网络训练的基础。由于反向传播过程中计算梯度值需要网络激活值，所以神经网络需要将网络激活值存储在内存中，以便于进行计算，内存成本与网络中的单元数成正比。这意味着随着网络深度的增加和规模的扩大，存储激活值需要更大的内存空间，这已经成为了许多应用程序的瓶颈。以神经网络训练时常用的图形处理单元(GPU)为例，部分性能显著的神经网络深度达到一千层以上，存储要求经常超出GPU显存限制。训练这些大型网络可能需要跨多个GPU并行处理，实现复杂且成本昂贵。同时由于内存的限制，现代神经网络通常以mini-batch的方式进行训练，这对于随机梯度下降法而言效率很低。减少存储激活值的内存成本能有效提高训练深度更深、规模更大的神经网络的能力。

发明内容

本发明的目的是提出一种针对神经网络训练时需要存储的中间值的存储压缩方法和装置，以降低训练时的内存成本，同时可以在内存受限的设备上进行在线训练。

本发明采用的技术方案如下：

一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法，包括以下步骤：

在神经网络训练的前向传播过程中，将特定区域的输入激活值保存在内存中；

在神经网络训练的反向传播过程中，利用保存的特定区域的输入激活值计算梯度，以更新神经网络的权重参数。

进一步地，所述区域是在输入激活值的长度和宽度方向上划分的区域。

进一步地，通过两个超参数确定所述特定区域，所述两个超参数为分块步长和网络稠密度。

进一步地，确定所述特定区域的步骤包括：

根据分块步长对输入激活值划分区域，并确定区域起始位置；

根据网络稠密度确定保留区域总数。

进一步地，根据训练时批数据的编号确定所述区域起始位置。

进一步地，所述区域起始位置等于批数据编号与划分区域的总数取模后的结果，以在整个训练过程中依次遍历每个区域。

进一步地，所述根据网络稠密度确定保留区域总数，包括：当区域起始位置的编号与保留区域总数之和大于划分的区域总数时，超出的部分从编号为0的区域开始，依次向后取值，直到实际保留区域数等于保留区域总数为止。

一种基于分区域梯度更新的神经网络训练过程中间值存储压缩装置，其包括：

区域划分模块，用于在输入激活值的长度和宽度方向上划分区域；

输入激活值保存模块，用于在神经网络训练的前向传播过程中，将区域划分模块划分的区域中特定区域的输入激活值保存在内存中；

梯度计算模块，用于在神经网络训练的反向传播过程中，利用保存的特定区域的输入激活值计算梯度，以更新神经网络的权重参数。

本发明的有益效果如下：

本发明对神经网络训练时需要保存的激活值进行存储优化，能够大幅降低内存成本，提高训练深度更深，规模更大的神经网络的能力，同时也可以在内存受限的设备上在线训练网络。

附图说明

图1是神经元前向传播和反向传播示意图，其中(a)为前向传播，(b)为反向传播。

图2是卷积过程示意图。

图3是分区域梯度更新示意图。其中(a)为同一batch内梯度更新示意图；(b)表示起始位置为1，选择编号为1和2的区域；(c)表示起始位置为3，选择编号为0和3的区域。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

神经网络训练分为前向传播和反向传播两个过程。前向传播过程中，要将网络每一层的激活值保存在内存中，在反向传播时利用这些激活值计算梯度，以更新网络权重参数。对训练时需要保存的激活值进行存储优化，就可以大幅降低内存成本，提高训练深度更深，规模更大的神经网络的能力，同时也可以在内存受限的设备上在线训练网络。

为了对神经网络训练过程中需要保存的中间值做存储优化，就必须详细了解神经网络前向和反向传播过程，下面以全连接神经网络和最近几年来在各领域表现出色的卷积神经网络为例进行说明。

1.全连接神经网络

全连接神经网络有一个输入，经过一系列隐藏层得到一个输出。每个隐藏层由一系列神经元组成，各层神经元之间是全连接结构，单独一层的各个神经元之间完全相互独立，不会共享任何连接。网络的最后一个全连接层被称为输出层，在分类网络中，输出为每一类的得分。从输入经过隐藏层得到输出的过程被称为前向传播。如图1所示，以单个神经元为例，说明前向传播的具体过程。图中x是神经元的输入激活值，w是此神经元对应的权重，f(x)是激活函数，z是最终的输出。

输入x首先和权重w相乘得到wx，然后作为神经元激活函数的输入，与激活函数f(x)相互作用后得到f(wx)作为输出结果，即z＝f(wx)。上述过程即为前向传播过程中单个神经元的具体功能。

神经网络训练过程中，反向传播具有重要的作用，反向传播依赖于函数求导链式法则。在上述前向传播的基础上加入神经网络反向传播的过程。如图1所示，神经元输出z对损失函数L的导数作为神经元的输入。此时需要计算前向传播输入激活值x和权值w的导数，根据函数求导链式法则，可以得到x和w的导数，

从w的导数值中，我们可以看到，计算w导数时需要在内存中保存x的值，反向传播输出结果是x的导数值。上述过程即为反向传播过程中单个神经元的具体作用。

通常全连接神经网络由若干网络层构成，每个网络层又由若干神经元组成。根据上述前向和反向传播过程，为了计算整个网络中的梯度值，需要耗费大量的内存空间，来保存训练过程中间结果。需要的内存空间与输入数据量和网络的规模成正比。

2.卷积神经网络

在图像处理任务中，全连接神经网络不能对整个图像做很好的扩展。以cifar10数据集为例，输入图像的大小为32×32×3。对传统神经网络而言，处理图像时第一个隐藏层的每个神经元都会有3072个权值参数。神经元权值参数数量与图像的大小成正比，如果输入更大的图像，那么网络中每个神经元的权值参数数量将会十分庞大。卷积神经网络的提出则可以解决传统神经网络的弊端，同时拥有更好的特征提取能力。卷积神经网络中，最重要的结构就是卷积层。卷积层由一系列可学习的特征提取器(滤波器)组成。每个特征提取器都以三维形式组织。在空间上长度和宽度都比较小，深度与输入数据的深度保持一致。特征提取器提取特征的过程也被称为卷积。直观上来讲，当特征提取器在输入图像上看到某些类型的视觉特征时就会激活，具体的视觉特征可能是一些区域的边界，或者是某些颜色和形状。卷积后输出数据大小可以根据公式2计算，输出数据深度与特征提取器的数目相同。

式中output_h和output_w表示输出数据的长度和宽度，input_h和input_w表示输入数据的长度和宽度，filter_h和filter_w表示特征提取器的长度和宽度，padding表示对输入数据进行填充，stride表示卷积过程中特征提取器移动步长。

相比全连接神经网络，卷积神经网络前向和反向传播过程较为复杂。以图2所示的例子阐释卷积操作过程。在这个例子中，我们假设输入数据X的大小为3×3，深度为1。卷积层只包含一个特征提取器，其大小为2×2，深度与输出数据相同为1。卷积过程中，没有填充且特征提取器移动的步长为1。由公式计算可得输出数据Y的大小为2×2。

特征提取器首先和输入的第一个区域相互作用，得到输出y₁₁的值，接着特征提取器以规定的步长移动，与第二个区域相互作用，得到输出y₁₂的值，依次类推计算出y₂₁和y₂₂的值，公式3表示输出结果。

上述过程即为卷积的前向传播过程。从卷积的结果可以看出特征提取器中每个权重值都对输出结果有贡献，因此任何一个权重值发生变化都会直接影响到输出结果，所有权重值都对最终的损失函数产生影响。反向传播时，需要计算特征提取器中每个权重参数的梯度，用来对权重进行修正，同时计算每个输入值x_ij的梯度值作为输出。这里只列出权重参数的梯度，假设最终的损失函数为L，根据卷积的输出结果，可以求得每个权重的梯度为

从梯度结果可以看出为了计算权重参数的梯度值，需要将每个输入值存储在内存中，卷积层在前向传播和反向传播的过程中都会产生大量的计算，同时因为要计算权重参数的梯度值，存储了全部输入激活值，而产生大量的存储开销。需要的内存空间与输入的大小和网络的层数成正比，内存的限制成为了训练大数据集和大规模网络的瓶颈。减少内存限制的影响成为了一个巨大的挑战。

本发明针对卷积神经网络(或其它包含卷积操作的神经网络)如何减少卷积层在训练过程中的存储开销提出分区域梯度更新方法。

分区域梯度更新主要是在训练过程中，保存特定区域的输入激活值用于梯度的计算，其余位置，在前向传播的过程不保存，在反向传播的过程中不参与梯度计算，如图3(a)所示。达到减少神经网络训练过程中内存开销的目的。其中，“区域”是指在输入激活值的长度和宽度方向上划分的区域。

假设输入数据大小为2×2×3，卷积层只包含一个特征提取器，其大小为1×1×3，特征提取器的步长为1，填充值为零，则卷积运算后得到的输出数据的大小为2×2。普通的卷积运算过程中，保存全量的输入激活值在内存中，用于梯度计算，占用的存储空间等于输入数据大小与输入数据类型占用空间的乘积，共占用48字节的内存空间。分区域梯度更新过程中，如图3(a)所示，选定左上角四分之一区域进行梯度更新，其余位置丢弃。则前向传播过程中，实际存储数据大小为1×1×3，占用12字节内存空间，原始卷积消耗内存空间是分区域梯度更新的4倍。分区域梯度更新通常设置两个超参数：分块步长和网络稠密度。分块步长用来确定划分区域的方式，用bs表示，假设bs的值为2，则将输入激活值划分为bs值的平方即4个区域。网络稠密度确定实际保留多少个区域，用d表示。假设将输入激活值划分为4个区域，d的值为0.5，则实际保留2个区域来计算梯度。区域可以是方形，也可以是长度和宽度不相同的矩形。神经网络中输入通常为方形，所以本实施例的区域划分以方形为例来说明。

分区域梯度更新由两步组成：

A、对输入激活值划分区域并确定区域起始位置

首先根据超参数bs对输入激活值划分区域，然后确定区域起始位置。分区域梯度更新时严格保证同一批(batch)数据在不同卷积层，选择区域的相对位置一致。根据训练时批数据的编号来确定起始位置。实际执行过程中，为了保证起始位置有意义，起始位置等于批数据编号与划分区域的总数取模后的结果，这样可以在整个训练过程中依次遍历每个区域。假设bs的值为2，则将输入激活值划分为4个区域，批数据编号为2时，区域起始位置是编号为2的区域，批数据编号为6时，区域起始位置同样是编号为2的区域。

B、根据d确定保留区域总数

在确定了起始位置后，需要根据超参数d来确定总共保留多少个区域用于梯度更新。假设d的值为0.5，划分区域总数为4，则保留区域总数为2，如图3(b)所示，起始区域编号为1，则依次保留编号为1和编号为2的区域。这里需要对边界情况做特殊的处理，当区域起始位置的编号与保留区域总数之和大于划分区域总数时，超出的部分从编号为0的区域开始，依次向后取值，直到实际保留区域数等于保留区域总数为止。如图3(c)所示，当区域起始编号为3，保留区域总数为2时，依次保留编号为3和编号为0的区域，用来计算梯度值。

具体应用实例：

该应用实例以pytorch扩展的方式实现了分区域梯度更新方法。在标准的图像分类数据集cifar10上，选用resnet20和resnet32网络来测试这两种方法的实际表现。为了与原始网络训练时的数据直接对比，在具体实施过程中，保证其他参数一致，只调整分区域梯度更新方法的超参数，设置分区域梯度更新超参数bs值为2，测试结果中卷积层占用内存空间以一个batch为准，此时的batch大小为128，且卷积层占用内存空间不包含权重参数占用的内存空间。

在cifar10数据集上，resnet20网络分区域梯度更新测试结果如表1所示。

表1分区域梯度更新结果

网络稠密度	训练精度	卷积层内存空间/MB
			0.25	89.1	24
0.5	90.43	48
			原始网络	91.25	96

在cifar10数据集上，resnet32网络分区域梯度更新测试结果分别如表2所示。

表2分区域梯度更新结果

网络稠密度	训练精度	卷积层内存空间/MB
			0.25	90.33	36.5
0.5	91.46	73
			原始网络	92.49	146

根据以上测试结果可以看出，本发明对神经网络训练时需要保存的激活值实现了存储优化，能够大幅降低内存成本，同时对训练精度的影响较小。

基于同一发明构思，本发明的另一个实施例提供一种基于分区域梯度更新的神经网络训练过程中间值存储压缩装置，其包括：

上述各模块的具体实现方式参见前文对本发明方法的说明。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于分区域梯度更新的神经网络训练过程中间值存储压缩方法，其特征在于，包括以下步骤：

在神经网络训练的反向传播过程中，利用保存的特定区域的输入激活值计算梯度，以更新神经网络的权重参数；

所述区域是在输入激活值的长度和宽度方向上划分的区域；

所述神经网络的输入数据是图像数据。

2.根据权利要求1所述的方法，其特征在于，通过两个超参数确定所述特定区域，所述两个超参数为分块步长和网络稠密度。

3.根据权利要求2所述的方法，其特征在于，确定所述特定区域的步骤包括：

根据网络稠密度确定保留区域总数。

4.根据权利要求3所述的方法，其特征在于，根据训练时批数据的编号确定所述区域起始位置。

5.根据权利要求4所述的方法，其特征在于，所述区域起始位置等于批数据编号与划分区域的总数取模后的结果，以在整个训练过程中依次遍历每个区域。

6.根据权利要求4所述的方法，其特征在于，所述根据网络稠密度确定保留区域总数，包括：当区域起始位置的编号与保留区域总数之和大于划分的区域总数时，超出的部分从编号为0的区域开始，依次向后取值，直到实际保留区域数等于保留区域总数为止。

7.一种基于分区域梯度更新的神经网络训练过程中间值存储压缩装置，其特征在于，包括：

区域划分模块，用于在输入激活值的长度和宽度方向上划分区域；所述区域是在输入激活值的长度和宽度方向上划分的区域；

梯度计算模块，用于在神经网络训练的反向传播过程中，利用保存的特定区域的输入激活值计算梯度，以更新神经网络的权重参数；

所述神经网络的输入数据是图像数据。

8.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1~6中任一权利要求所述方法的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1~6中任一权利要求所述的方法。