CN111783976A

CN111783976A - 一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置

Info

Publication number: CN111783976A
Application number: CN202010317078.1A
Authority: CN
Inventors: 杨侃; 袁之航; 孙广宇; 汪小林; 罗英伟
Original assignee: Peking University; Peng Cheng Laboratory
Current assignee: Peking University; Peng Cheng Laboratory
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-10-16
Anticipated expiration: 2040-04-21
Also published as: CN111783976B

Abstract

本发明涉及一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置。该方法在神经网络训练的前向传播过程中，选择部分通道的输入激活值保存在内存中；在神经网络训练的反向传播过程中，利用保存的部分通道的输入激活值计算梯度，以更新神经网络的权重参数。通过窗口选择所述部分通道，通过超参数网络稠密度决定窗口大小，即窗口内包含的通道数占总通道数的比例。通过窗口选择所述部分通道的步骤包括：确定窗口的起始位置；根据网络稠密度确定窗口大小。本发明对神经网络训练时需要保存的激活值进行存储优化，能够大幅降低内存成本，提高训练深度更深、规模更大的神经网络的能力，同时也可以在内存受限的设备上在线训练网络。

Description

一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置

技术领域

本发明涉及卷积神经网络训练过程中的中间值存储压缩方法和装置，属于人工智能和存储领域。

背景技术

在过去几年中，深度卷积神经网络处理各种视觉任务的性能得到了大幅度的提升。在大多数情况下，越先进的神经网络，其深度也会越深。例如在各种计算机视觉处理任务中表现出色的深度残差神经网络。对深度残差神经网络而言，关键的创新点是残差块。通过残差块，神经网络训练过程中前面的信息可以直接传递到后面的部分，从而使得反向传播过程中梯度不会因为网络过深而消失。这一结构的出现使得我们可以训练具有上百层结构的神经网络，深度大幅增加对网络处理各种任务的精确度有显著的提升。

反向传播是现代神经网络训练的基础。由于反向传播过程中计算梯度值需要网络激活值，所以神经网络需要将网络激活值存储在内存中，以便于进行计算，内存成本与网络中的单元数成正比。这意味着随着网络深度的增加和规模的扩大，存储激活值需要更大的内存空间，这已经成为了许多应用程序的瓶颈。以神经网络训练时常用的图形处理单元(GPU)为例，部分性能显著的神经网络深度达到一千层以上，存储要求经常超出GPU显存限制。训练这些大型网络可能需要跨多个GPU并行处理，实现复杂且成本昂贵。同时由于内存的限制，现代神经网络通常以mini-batch的方式进行训练，这对于随机梯度下降法而言效率很低。减少存储激活值的内存成本能有效提高训练深度更深、规模更大的神经网络的能力。

发明内容

本发明的目的是提出一种针对神经网络训练时需要存储的中间值的存储压缩方法和装置，以降低训练时的内存成本，同时可以在内存受限的设备上进行在线训练。

本发明采用的技术方案如下：

一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法，包括以下步骤：

在神经网络训练的前向传播过程中，选择部分通道的输入激活值保存在内存中；

在神经网络训练的反向传播过程中，利用保存的部分通道的输入激活值计算梯度，以更新神经网络的权重参数。

进一步地，通过窗口选择所述部分通道，通过超参数网络稠密度决定窗口大小，即窗口内包含的通道数占总通道数的比例。

进一步地，通过窗口选择所述部分通道的步骤包括：

确定窗口的起始位置；

根据网络稠密度确定窗口大小。

进一步地，所述确定窗口的起始位置，是根据训练时批数据的编号确定窗口的起始位置。

进一步地，窗口的起始位置等于批数据编号与总通道数取模后的结果。

进一步地，所述确定窗口的起始位置，是随机确定一个位置作为窗口的起始位置，随机数取值的范围在0到总通道数之间。

进一步地，所述根据网络稠密度确定窗口大小，包括：当窗口起始位置与窗口大小之和大于通道总数时，超出的部分从编号为0的通道开始，依次向后取值，直到窗口内实际通道数等于窗口大小为止。

一种基于窗口梯度更新的神经网络训练过程中间值存储压缩装置，其包括：

通道选择模块，用于通过窗口选择部分通道；

输入激活值保存模块，用于在神经网络训练的前向传播过程中，将通道选择模块选择的部分通道的输入激活值保存在内存中；

梯度计算模块，用于在神经网络训练的反向传播过程中，利用保存的部分通道的输入激活值计算梯度，以更新神经网络的权重参数。

本发明的有益效果如下：

本发明对神经网络训练时需要保存的激活值进行存储优化，能够大幅降低内存成本，提高训练深度更深，规模更大的神经网络的能力，同时也可以在内存受限的设备上在线训练网络。

附图说明

图1是神经元前向传播和反向传播示意图，其中(a)为前向传播，(b)为反向传播。

图2是卷积过程示意图。

图3是窗口梯度更新示意图。其中(a)表示起始位置为1，选择编号为1和2的通道；(b)表示起始位置为3，选择编号为0和3的通道。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

神经网络训练分为前向传播和反向传播两个过程。前向传播过程中，要将网络每一层的激活值保存在内存中，在反向传播时利用这些激活值计算梯度，以更新网络权重参数。对训练时需要保存的激活值进行存储优化，就可以大幅降低内存成本，提高训练深度更深，规模更大的神经网络的能力，同时也可以在内存受限的设备上在线训练网络。

为了对神经网络训练过程中需要保存的中间值做存储优化，就必须详细了解神经网络前向和反向传播过程，下面以全连接神经网络和最近几年来在各领域表现出色的卷积神经网络为例进行说明。

1.全连接神经网络

全连接神经网络有一个输入，经过一系列隐藏层得到一个输出。每个隐藏层由一系列神经元组成，各层神经元之间是全连接结构，单独一层的各个神经元之间完全相互独立，不会共享任何连接。网络的最后一个全连接层被称为输出层，在分类网络中，输出为每一类的得分。从输入经过隐藏层得到输出的过程被称为前向传播。如图1所示，以单个神经元为例，说明前向传播的具体过程。图中x是神经元的输入激活值，w是此神经元对应的权重，f(x)是激活函数，z是最终的输出。

输入x首先和权重w相乘得到wx，然后作为神经元激活函数的输入，与激活函数f(x)相互作用后得到f(wx)作为输出结果，即z＝f(wx)。上述过程即为前向传播过程中单个神经元的具体功能。

神经网络训练过程中，反向传播具有重要的作用，反向传播依赖于函数求导链式法则。在上述前向传播的基础上加入神经网络反向传播的过程。如图1所示，神经元输出z对损失函数L的导数

作为神经元的输入。此时需要计算前向传播输入激活值x和权值w的导数，根据函数求导链式法则，可以得到x和w的导数，

从w的导数值中，我们可以看到，计算w导数时需要在内存中保存x的值，反向传播输出结果是x的导数值。上述过程即为反向传播过程中单个神经元的具体作用。

通常全连接神经网络由若干网络层构成，每个网络层又由若干神经元组成。根据上述前向和反向传播过程，为了计算整个网络中的梯度值，需要耗费大量的内存空间，来保存训练过程中间结果。需要的内存空间与输入数据量和网络的规模成正比。

2.卷积神经网络

在图像处理任务中，全连接神经网络不能对整个图像做很好的扩展。以cifar10数据集为例，输入图像的大小为32×32×3。对传统神经网络而言，处理图像时第一个隐藏层的每个神经元都会有3072个权值参数。神经元权值参数数量与图像的大小成正比，如果输入更大的图像，那么网络中每个神经元的权值参数数量将会十分庞大。卷积神经网络的提出则可以解决传统神经网络的弊端，同时拥有更好的特征提取能力。卷积神经网络中，最重要的结构就是卷积层。卷积层由一系列可学习的特征提取器(滤波器)组成。每个特征提取器都以三维形式组织。在空间上长度和宽度都比较小，深度与输入数据的深度保持一致。特征提取器提取特征的过程也被称为卷积。直观上来讲，当特征提取器在输入图像上看到某些类型的视觉特征时就会激活，具体的视觉特征可能是一些区域的边界，或者是某些颜色和形状。卷积后输出数据大小可以根据公式2计算，输出数据深度与特征提取器的数目相同。

式中output_h和output_w表示输出数据的长度和宽度，input_h和input_w表示输入数据的长度和宽度，filter_h和filter_w表示特征提取器的长度和宽度，padding表示对输入数据进行填充，stride表示卷积过程中特征提取器移动步长。

相比全连接神经网络，卷积神经网络前向和反向传播过程较为复杂。以图2所示的例子阐释卷积操作过程。在这个例子中，我们假设输入数据X的大小为3×3，深度为1。卷积层只包含一个特征提取器，其大小为2×2，深度与输出数据相同为1。卷积过程中，没有填充且特征提取器移动的步长为1。由公式计算可得输出数据Y的大小为2×2。

特征提取器首先和输入的第一个区域相互作用，得到输出y₁₁的值，接着特征提取器以规定的步长移动，与第二个区域相互作用，得到输出y₁₂的值，依次类推计算出y₂₁和y₂₂的值，公式3表示输出结果。

上述过程即为卷积的前向传播过程。从卷积的结果可以看出特征提取器中每个权重值都对输出结果有贡献，因此任何一个权重值发生变化都会直接影响到输出结果，所有权重值都对最终的损失函数产生影响。反向传播时，需要计算特征提取器中每个权重参数的梯度，用来对权重进行修正，同时计算每个输入值x_ij的梯度值作为输出。这里只列出权重参数的梯度，假设最终的损失函数为L，根据卷积的输出结果，可以求得每个权重的梯度为

从梯度结果可以看出为了计算权重参数的梯度值，需要将每个输入值存储在内存中，卷积层在前向传播和反向传播的过程中都会产生大量的计算，同时因为要计算权重参数的梯度值，存储了全部输入激活值，而产生大量的存储开销。需要的内存空间与输入的大小和网络的层数成正比，内存的限制成为了训练大数据集和大规模网络的瓶颈。减少内存限制的影响成为了一个巨大的挑战。

本发明针对卷积神经网络(或其它包含卷积操作的神经网络)如何减少卷积层在训练过程中的存储开销提出了窗口梯度更新方法。

窗口梯度更新主要在输入数据的深度维进行处理，这样保证了反向传播时输入数据每个区域的梯度都得到了更新。窗口梯度更新方法在实际执行过程中，由于只选择了原通道中的一部分进行存储，所以卷积层存储的激活值相比原来大幅减少，减小了卷积层的存储开销。其中，“通道”即channel，通道数目是输入激活值的深度维上的数值。假设输入数据大小为3×3×4，卷积层只包含一个特征提取器，其大小为2×2×4，特征提取器的步长为1，填充值为零，则卷积运算后得到的输出数据的大小为2×2。保存全量的输入激活值在内存中，占用144字节的内存空间。窗口梯度更新有一个超参数是网络稠密度，用d表示，该参数决定窗口大小，即窗口内包含的通道数占总通道数的比例，该参数同时也表示保留的激活值占全量激活值的比例。假定d的值为0.25，则前向传播过程中实际存储数据大小为3×3，共占用36字节的内存空间，原始卷积消耗内存空间是窗口梯度更新的4倍。

窗口梯度更新方法共有以下两步组成：

A、确定窗口的起始位置

确定窗口的起始位置(后文中统一描述为起始位置)共有两种策略，第一种是根据训练时批数据的编号来确定起始位置。实际执行过程中，为了保证起始位置有意义，起始位置等于批数据编号与总通道数取模后的结果。当批数据编号为5，通道总数为4时，起始位置为1。这样可以在整个训练过程中依次遍历到每个通道，使得每个通道都会对梯度更新产生作用，同样保证同一批数据在不同卷积层，窗口相对位置一致。第二种是在训练中，随机确定一个位置作为起始位置。同样为了确保起始位置有意义，随机数取值的范围在0到总通道数之间。这样虽然不能保证在整个训练过程中每个通道都对梯度更新产生影响，但是为网络加入了随机性，随机性会对最终的精度产生一定的影响。通过大量的实验，结果表明两种方式最终的结果会有一定的差异。相对误差在0.5％之内。

B、根据d确定窗口大小

在确定了窗口的起始位置后，需要根据超参数d来确定窗口的大小，窗口中的元素保留用于梯度更新。假设d的值为0.5，通道总数为4时，窗口大小为2，如图3中(a)所示。这里需要对边界情况做特殊的处理，当窗口起始位置与窗口大小之和大于通道总数时，超出的部分从编号为0的通道开始，依次向后取值，直到窗口内实际通道数等于窗口大小为止。如图3中(b)所示，当起始位置为3，窗口大小为2时，依次保留编号为3和编号为0的通道，用来计算梯度值。

具体应用实例：该应用实例以pytorch扩展的方式实现了窗口梯度更新方法。在标准的图像分类数据集cifar10上，选用resnet20和resnet32网络来测试这两种方法的实际表现。为了与原始网络训练时的数据直接对比，在具体实施过程中，保证其他参数一致，只调整窗口梯度更新方法的超参数，测试结果中卷积层占用内存空间以一个batch为准，此时的batch大小为128，且卷积层占用内存空间不包含权重参数占用的内存空间。

在cifar10数据集上，resnet20网络窗口梯度更新测试结果分别如表1所示。

表1窗口梯度更新结果

网络稠密度	训练精度	卷积层内存空间/MB
			0.25	89.63	24
0.5	90.57	48
			原始网络	91.25	96

在cifar10数据集上，resnet32网络窗口梯度更新测试结果分别如表2所示。

表2窗口梯度更新结果

网络稠密度	训练精度	卷积层内存空间/MB
			0.25	90.38	36.5
0.5	91.7	73
			原始网络	92.49	146

根据以上测试结果可以看出，本发明对神经网络训练时需要保存的激活值实现了存储优化，能够大幅降低内存成本，同时对训练精度的影响较小。

基于同一发明构思，本发明的另一个实施例提供一种基于窗口梯度更新的神经网络训练过程中间值存储压缩装置，其包括：

通道选择模块，用于通过窗口选择部分通道；

上述各模块的具体实现方式参见前文对本发明方法的说明。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，通过窗口选择所述部分通道，通过超参数网络稠密度决定窗口大小，即窗口内包含的通道数占总通道数的比例。

3.根据权利要求3所述的方法，其特征在于，通过窗口选择所述部分通道的步骤包括：

确定窗口的起始位置；

根据网络稠密度确定窗口大小。

4.根据权利要求3所述的方法，其特征在于，所述确定窗口的起始位置，是根据训练时批数据的编号确定窗口的起始位置。

5.根据权利要求4所述的方法，其特征在于，窗口的起始位置等于批数据编号与总通道数取模后的结果。

6.根据权利要求3所述的方法，其特征在于，所述确定窗口的起始位置，是随机确定一个位置作为窗口的起始位置，随机数取值的范围在0到总通道数之间。

7.根据权利要求3所述的方法，其特征在于，所述根据网络稠密度确定窗口大小，包括：当窗口起始位置与窗口大小之和大于通道总数时，超出的部分从编号为0的通道开始，依次向后取值，直到窗口内实际通道数等于窗口大小为止。

8.一种基于窗口梯度更新的神经网络训练过程中间值存储压缩装置，其特征在于，包括：

通道选择模块，用于通过窗口选择部分通道；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。