CN112633498A

CN112633498A - 基于数据流的卷积神经网络权重梯度优化方法

Info

Publication number: CN112633498A
Application number: CN202011532343.4A
Authority: CN
Inventors: 刘强; 孟浩
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-09
Anticipated expiration: 2040-12-22
Also published as: CN112633498B

Abstract

本发明公开了一种基于数据流的卷积神经网络权重梯度优化方法，为卷积神经网络权重梯度优化提供一种可配置的数据流架构设计，使其可以支持权重梯度计算中的不同尺寸的卷积运算，实现并行度是串行输入的K×K(卷积核大小)倍，提升整个卷积神经网络训练的性能，解决了权重梯度计算中存在的不同尺寸卷积运算难以实现的问题。与现有技术相比，本发明1)加速效果明显：对于权重梯度计算来说，其并行度较原有的串行方案提升了K×K的并行度，显著地降低数据输入的传输时间，从而达到了加速整个网络训练的目的，并且较通用矩阵乘的方案可以减少1‑1/(K×K)％的输入存储；2)并且同时满足适用性和通用性。

Description

基于数据流的卷积神经网络权重梯度优化方法

技术领域

本发明属于信息技术领域、卷积神经网络训练硬件加速领域，尤其涉及基于低功耗、高性能的卷积神经网络训练。

背景技术

卷积神经网络(Convolutional Neural network,CNN)作为一种前馈神经网络，被广泛应用于计算机视觉、自然语言处理等各大领域。随着CNN的网络规模、训练数据集日益增大，CNN的训练需要巨大的算能、存储空间和功耗。CNN的训练包含卷积模块的正向传播、反向传播的计算。目前学业界和工业界对正向传播的硬件实现已经提出了诸多方案，但是欠缺对反向传播的硬件实现。反向传播包含对输入图像梯度的计算和对权重梯度的计算，其计算量是正向传播的两倍。加速反向传播对提升卷积神经网络训练十分必要。其中对输入图像梯度的计算与正向传播类似，不同之处在于额外增加了旋转180°操作且累加维度不同。因此通过数据预处理的方式对卷积核进行维度转换，将输出图像梯度与卷积核输入正向传播的数据流模块，即可实现对输入图像梯度的计算。然而对权重梯度的计算涉及到不同尺寸卷积的运算，给硬件设计造成了一定的难度，难以在速度和资源上权衡，这成为硬件实现卷积神经网络训练加速的主要瓶颈。

权重梯度计算公式如下：

式中：dW_ij(x,y)为第j个卷积核中第i个通道的(x,y)处的权重梯度；F_i(x+p,y+q)表示为第i张输入图像在(x+p,y+q)处特征值；dO_j(p,q)表示为第j个输出图像在(p,q)处的特征值梯度；OH、OW表示为输出图像的长宽。

分析上式可知，权重梯度的计算涉及到了输入图像与输出图像梯度之间不同尺寸卷积的计算，目前针对这类权重梯度计算的方式主要有两种。以单个卷积K＝3为例：

一种是通过串行读取输入图像的方式，取出对应的矩阵与输出图像梯度矩阵进行运算，共重复K×K次。如图2所示，卷积核的第一个数由左一的矩阵与右侧输出图像梯度进行卷积运算获得。第二个数由左二的矩阵与右侧输出图像梯度进行卷积运算获得，依次类推。这种方案存在两个缺点：一是需要重复读取K×K次，二是求取对应梯度时，不参与运算的数据读取耗费时间。

另一种则是在利用矩阵通用乘的方法进行加速。其主要通过im2col操作，根据卷积窗口的大小，将图像转化成矩阵，通过对矩阵乘进行并行加速，获得整体训练的加速。这种方式耗费大量的存储资源和传输时间。

为进一步提升计算性能和降低存储资源，获得更优性能，提出一种针对权重梯度的优化方案非常重要。

发明内容

本发明旨在提出了一种基于数据流的卷积神经网络权重梯度优化方法，为卷积神经网络权重梯度优化提供一种可配置的数据流架构设计，使其可以支持权重梯度计算中的不同尺寸的卷积运算，实现并行度是串行输入的K×K(卷积核大小)倍，提升整个卷积神经网络训练的性能，解决了权重梯度计算中存在的不同尺寸卷积运算难以实现的问题。

本发明的基于数据流的卷积神经网络权重梯度优化方法，该方法具体包括如下步骤：

步骤1、将输入图像传输给行缓存模块与列缓存模块，拼接成(H-K+1)×(H-K+1)个K×K的卷积核大小进行周期性输出；其中的行缓存模块由K-1个FIFO构成，列缓存模块由移位寄存器构成；

步骤2、将输出图像梯度存入到片上存储(Block RAM,BRAM)，每当输入图像拼接成一个K×K的移动窗口，从BRAM取出一个对应的数据，并复制成K×K份；

步骤3、将步骤1步拼接成的数据与步骤2取出的数据同时输入给K×K个乘法器单元进行计算，获取K×K个结果；

步骤4、将步骤3计算的结果输出给自相加模块；重复步骤3，将获得的结果与当前自相加模块的结果进行相加，直至算到最后一个滑动窗口，获得最终的结果；其中的自相加模块由K×K个加法器构成。

与现有技术相比，本发明能够达成以下有益效果：

1)加速效果明显：对于权重梯度计算来说，其并行度较原有的串行方案提升了K×K的并行度，且只需要读取一次输入图像，显著地降低数据输入的传输时间，从而达到了加速整个网络训练的目的，并且较通用矩阵乘的方案可以减少1-1/(K×K)％的输入存储；

2)适用性：可以与其他方向的并行度交叉如批方向并行度，通道方向并行度以及卷积核方向并行度，提升性能；

3)通用性：一方面能够适用于各种数据精度的设计方案，如低精度定点，单精度浮点；另一方面支持任意尺寸的权重梯度计算。

附图说明

图1是本发明的基于数据流方式的卷积神经网络权重梯度优化方法整体流程图；

图2是现有技术中的权重梯度计算模型示意图，(2a)现有技术的输入图像梯度矩阵，(2b)现有技术的输出图像梯度矩阵；

图3是本发明的基于数据流方式的卷积神经网络权重梯度优化方法的权重梯度优化模型示意图，(3a)本发明的输入图像梯度矩阵，(3b)本发明的输出图像梯度矩阵；

图4是本发明的基于数据流方式的卷积神经网络权重梯度优化方法的权重梯度数据流架构示意图；

图5是本发明的基于数据流方式的卷积神经网络权重梯度优化方法的输入缓存模块示意图；

图6是本发明的基于数据流方式的卷积神经网络权重梯度优化方法的乘法单元模块示意图；

图7是本发明的基于数据流方式的卷积神经网络权重梯度优化方法的自相加模块示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细说明。

本发明的一种基于数据流方式的卷积神经网络权重梯度优化计算方法对权重梯度进行优化。根据公式可知，输入图像与输出图像梯度具有固定差(K-1)。如图3所示，为本发明的一种基于数据流方式的卷积神经网络权重梯度优化计算方法的权重梯度优化模型示意图。该模型通过K×K的滑动窗口对输入图像进行滑动，将原来不固定的卷积尺寸改为固定尺寸K×K，可支持任意尺寸的权重梯度计算。具体计算方式如下：1)将第一个K×K的窗口覆盖的输入图像与输出图像梯度的第一个数进行同时运算；2)将第二个K×K的窗口覆盖的输入图像与输出图像梯度的第二个数进行同时运算；3)依次类推。最终将所有窗口的计算结果进行对应位置的相加，其结果与图2一致。这种方案的优点是只需读取一次，即可实现K×K倍的并行度，且不要耗费额外的存储资源。

如图4所示，是本发明的基于数据流方式的卷积神经网络权重梯度优化计算方法的权重梯度数据流架构示意图。参考卷积的正向传播，其硬件架构主要分为四个模块，行缓存模块、列缓存模块、乘法单元以及自相加模块。

具体分为以下几个步骤:

步骤1、将输入图像传输给行缓存模块与列缓存模块，拼接成(H-K+1)×(H-K+1)个K×K的卷积核大小进行周期性输出；

行缓存模块的主要功能是在行方向对数据进行拼接，拼接成K×1个数据输出。以K＝3为例，行缓存结构主要由两个FIFO构成，首先向第一个FIFO写入输入图像对应通道的第一行数据；当第一行数据存入到第一个FIFO后，开始将第一个FIFO的第一行数据写入到第二个FIFO中，同时向第二个FIFO写入第二行数据；当第二行数据都存入到第一个FIFO中，第一行数据都存入到第二个FIFO中时，开始输出第一行、第二行和第三行数据，拼接成K×1个数据；

列缓存模块的主要功能是在列方向对数据进行拼接，将K×1数据拼接成K×K进行同时输出。列缓存模块主要由K行移位寄存器构成，通过移位寄存器对K行数据进行同时拼接，最终输出K×K个结果；

步骤3、将步骤1拼接成的数据与步骤2取出的数据同时输入给K×K个乘法器单元进行计算，获取K×K个结果；

步骤4、将步骤3计算的结果输出给自相加模块；重复步骤3，将获得的结果与当前自相加模块的结果进行相加，直至算到最后一个滑动窗口，获得最终的结果。自相加模块由K×K个加法器构成。

上述优化方法执行结果表明：

当卷积核的尺寸为K，输入图像与输出图像梯度存在固定差(K-1)；

将大尺寸的卷积计算转换为K×K尺寸的小单元运算，通过将小单元的运算结果进行累加，获得最终结果；

卷积运算中的通道方向、卷积核方向、批方向存在并行度交叉；

该方法可以适用各种精度的卷积神经网络训练。

Claims

1.一种基于数据流的卷积神经网络权重梯度优化方法，其特征在于，该方法具体包括如下步骤：