CN110222835A

CN110222835A - 一种基于零值检测的卷积神经网络硬件系统及运算方法

Info

Publication number: CN110222835A
Application number: CN201910394463.3A
Authority: CN
Inventors: 杨晨; 张海波; 王小力; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-10

Abstract

本发明一种基于零值检测的卷积神经网络硬件系统及运算方法，PE阵列向输入数据存储器发送读使能信号，输入数据存储器中读出的输入数据分为两路，一路传输到PE阵列，另一路传输到零值检测模块；零值检测模块检测输入数据是否为0值，得到的结果分为两路，一路发送到PE阵列，如果输入数据为0，则PE阵列将输出数据置为0；否则PE阵列正常工作；另一路与PE阵列的发出的读使能信号做逻辑运算，当输入数据检测不为0且PE阵列发送的权值数据的读使能信号为1时，权值被读出传输到PE阵列中与输入数据完成运算；当零值检测模块检测出输入数据为0时，跳过该输入数据所对应的权值的行地址。本发明可以减少不必要的乘法运算，减少数据访存。

Description

一种基于零值检测的卷积神经网络硬件系统及运算方法

技术领域

本发明涉及卷积神经网络，具体为一种基于零值检测的卷积神经网络硬件系统及运算方法。

背景技术

人工智能是目前热门的计算机科学之一，作为实现人工智能的主要方式，深度学习也得到了深远的发展。卷积神经网络(Convolution Neural Network，CNN)是人工神经网络结构研究最多、应用最广的网络结构之一，目前已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于CNN避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。近年来卷积神经网络在计算机视觉领域取得了很不错的成就，同时也让卷积神经网络得到了发展。神经网络的核心是运算，CNN在应用于计算机视觉领域时，利用卷积核对图像数据进行特征提取。同时，为了提高图像特征提取的效率，神经网络的神经元中需要有激活函数，激活函数是神经网络中不可缺少的一部分。ReLU作为激活函数的一种，在训练时可以有效避免梯度爆炸和梯度消失问题，同时简化了神经网络的计算过程，已经成为了一个常用的激活函数。

用ReLU作为激活函数的卷积神经网络在运算过程中，会产生大量的零值，随着层数增加，零值数据的占比会增加。如图4所示，目前通常在硬件上实现神经网络时，所设计的PE阵列发出数据的读使能rd_en信号到输入数据存储器和权值存储器中，输入数据和权值数据被读入到PE阵列中进行运算，每个输入数据和它所对应的权值做乘加操作，完成卷积神经网络的运算。然而，在这个过程中，由于FC层的输入数据中包含有大量的零值，零值数据和它所对应的权值数据做乘法结果还是零，这样就做了很多的无用功，降低了运算速度，提高了硬件计算的功耗，降低处理器的能量效率。

随着CNN网络层数和神经元个数的增加，模型的计算复杂度以指数级增长，深度学习算法的学习速度和运行速度瓶颈越来越依赖于硬件计算平台。对于卷积神经网络硬件加速设计，它们的共同特点是可以实现高并行度的计算。然而，现有的硬件实现方式功耗较高，还存在着能量效率(性能/功耗)较低的问题，并不能应用在智能移动终端上，例如智能手机、可穿戴设备或者是自动驾驶汽车等。在此背景下，需要针对卷积神经网络算法进行优化，以降低硬件计算的功耗，提高处理器的能量效率。

发明内容

针对现有技术中存在的问题，本发明提供一种基于零值检测的卷积神经网络硬件系统及运算方法，减少DRAM访问，跳过不必要的计算以节省处理能力，降低硬件计算的功耗，提高处理器的能量效率。

本发明是通过以下技术方案来实现：

一种基于零值检测的卷积神经网络硬件系统，包括数据输入存储器、零值检测模块、PE阵列和权值存储器；

输入数据存储器，用于存储卷积神经网络全连接层的输入数据，并根据接收到的输入数据的读使能信号将输入数据传送至零值检测模块和PE阵列；

PE阵列，用于传送输入数据的读使能信号至输入数据存储器，传送权值数据的读使能信号至零值检测模块；根据接收到的0值检测结果进行操作：如果输入数据为0，则PE阵列将输出数据置为0，否则PE阵列正常工作；还用于进行卷积神经网络全连接层中输入数据和权值数据的乘加操作；

零值检测模块，用于检测接收到的输入数据是否为0值，并将得到的0值检测结果分为两路，一路发送到PE阵列，另一路与接收到的权值数据的读使能信号做逻辑运算，得到权值存储器的读使能信号，并将该权值存储器的读使能信号发送至权值存储器。

权值存储器，用于存储卷积神经网络全连接层的权值数据，并根据接收到的权值存储器的读使能信号进行操作：当输入数据不为0且PE阵列发送的读使能信号为1时，权值存储器接收到的读使能信号为1，权值数据被读出传输到PE阵列中；当输入数据为0时，权值存储器接收到的读使能信号为0，跳过该输入数据所对应的权值的行地址。

优选的，零值检测模块包括比较器，比较器将输入数据与0值进行比较，用于检测输入数据是否为0值。

优选的，卷积神经网络为AlexNet或VGG-16。

一种基于零值检测的卷积神经网络运算方法，基于所述的系统，首先完成卷积层运算，然后进行如下操作：

PE阵列向输入数据存储器发送输入数据的读使能信号，输入数据存储器中读出的数据分为两路，一路传输到PE阵列，另一路传输到零值检测模块中；同时PE阵列向零值检测模块发送权值数据的读使能信号；

零值检测模块检测输入数据是否为0值，得到的0值检测结果分两路，一路发送到PE阵列，如果输入数据为0，则PE阵列将输出数据置为0；否则PE阵列正常工作；另一路与PE阵列发送的权值数据的读使能信号做逻辑运算，得到权值存储器的读使能信号并发送至权值存储器，当输入数据不为0且PE阵列发送的权值数据的读使能信号为有效时，权值存储器的读使能信号为有效，当输入数据为0时，权值存储器的读使能信号为无效；

当权值存储器接收到的读使能信号为有效时，权值数据被读出传输到PE阵列中与输入数据完成运算；当权值存储器接收到的读使能信号为无效时，跳过该输入数据所对应的权值的行地址。

优选的，零值检测模块检测输入数据是否为0值时：如果输入数据为0，则0值检测结果输出为1；如果输入数据不为0，则0值检测结果输出为0。

优选的，完成卷积层运算具体是：对卷积神经网络的卷积层进行运算，直到运算到卷积神经网络的全连接层，并确定全连接层的输入数据量和输出数据量，输入数据与输出数据全连接对应。

与现有技术相比，本发明具有以下有益的技术效果：

本发明系统增加了零值检测模块，零值检测模块通过与PE阵列协同工作对输入数据和权值数据进行访存，使用时，PE阵列向输入数据存储器发送输入数据的读使能信号，输入数据存储器中读出的数据分为两路，一路传输到PE阵列，另一路传输到零值检测模块中。零值检测模块检测输入数据是否为0值，得到的结果作为信号进行输出，分为两路，一路发送到PE阵列，如果输入数据为0，则PE阵列将输出数据置为0；否则没有影响，PE阵列正常工作；另一路与PE阵列的发出的权值数据的读使能rd_req信号做逻辑运算，得到权值存储器的读使能信号，当输入数据检测不为0且PE阵列发送的权值数据的读使能信号为1时，权值存储器接收到的读使能信号为有效，权值被读出传输到PE阵列中与输入数据完成运算；当零值检测模块检测出输入数据为0时，得到的权值存储器的读使能信号为无效，同时跳过该输入数据所对应的权值的行地址，避免了不必要的数据读取，同时可以降低数据传输所需要的带宽。因此本发明通过零值检测可以减少神经网络中不必要的乘法运算，提高神经网络的加速性能；神经网络的全连层属于存储密集型，存储带宽成为了限制神经网络运算速度的瓶颈，通过零值检测，检测输入数据中为零的图像数据，可以避免读取该输入数据所对应的权值数据，减少数据访存。

本发明方法通过零值检测可以减少神经网络中不必要的乘法运算，提高神经网络的加速性能；通过零值检测，检测输入数据中为零的图像数据，可以避免读取该输入数据所对应的权值数据，减少数据访存。从而，降低硬件计算的功耗，提高处理器的能量效率。

附图说明

图1为卷积神经网络的计算模式。

图2为AlexNet算法的网络结构图。

图3为激活函数ReLU的函数曲线。

图4为现有的神经网络运算架构。

图5为本发明基于零值检测的卷积神经网络硬件系统模块图。

图6为零值检测模块结构图。

图7为AlexNet中各个卷积层的零值占比。

图8为VGG-16中各个卷积层的零值占比。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明针对卷积神经网络的计算特点，提出了一种基于零值检测的卷积神经网络运算压缩技术(Zero detection technology，ZDT)。卷积神经网络的基本操作是卷积计算，如图1所示，多个卷积核在对多个图像进行卷积运算的过程，卷积是卷积神经网络的基本运算，卷积核在图像上滑动进行卷积计算输出新的图像数据。计算模式如公式(1)所示：

0≤z＜N，0≤u＜M，0≤y＜E，0≤x＜F。

其中O是输出图像数据，I是输入图像数据，W是权值数据，f(·)函数是卷积神经网络的激活函数。z代表输入图像的编号，图中给了N幅图像。u表示卷积核的编号，图中是M个卷积核。y表示输出图像的行编号，E是输出图像的总行数。x表示输出图像的列编号，F是输出图像的总列数。i和j分别代表卷积核的行数和列数，k表示通道数。U表示每次卷积后卷积核滑动的步长。从公式(1)可以看出卷积计算过程就是输入图像数据与权值数据做矩阵内积，对应点的数据相乘后得到的数据相加。

CNN算法包含大量的卷积运算，同时所有的神经网络运算需要加入激活函数。如公式(2)和图3所示:

ReLU作为神经网络的激活函数，会将运算数据中负数数据置为0。尽管0值的比例跟输入图像有关，但一般而言，这样在整个运算过程中，随着层数的增加0值所占的比例也会逐渐增加。以AlexNet为例，架构如图2所示，通常在AlexNet的卷积层第五层中有大约75％的数据为0。如表1所示，从AlexNet算法的数据结构分布可以看出，在卷积层神经网络属于计算密集型，数据访问速率不是影响神经网络算法运算速度的主要因素；而在卷积神经网络的全连层，算法特点属于存储密集型，此时影响卷积神经网络算法运算速度的主要因素是数据访存速率。如图4所示，现有技术通常在硬件上实现神经网络时，所设计的PE阵列发出数据的读使能rd_en信号到输入数据存储器和权值存储器中，输入数据和权值数据被读入到PE阵列中进行运算。在第一层FC层，需要读入的输入数据有9216个，输入数据所对应的权值数据有37M左右，每个输入数据和它所对应的权值做乘加操作，完成卷积神经网络的运算。然而，在这个过程中，由于FC层的输入数据中包含有大量的零值，零值数据和它所对应的权值数据做乘法结果还是零。因此对于输入为0的数据，可以不必对它所对应的权值进行读取，这样可以降低对不必要的乘法操作和数据的访存。利用零值检测压缩技术对卷积神经网络的全连层进行优化，减少DRAM访问，可以在降低数据访存带宽需求的同时减少不必要的乘加操作，以节省处理能力，可以对卷积神经网络的加速性能得到一定的优化。

表1 AlexNet的各网络层的参数

可以看出卷积神经网络运算主要包含乘法运算和加法运算以及少量的激活函数运算。在硬件实现过程中，可以对以下方面进行优化：

1、神经网络算法硬件加速过程中，乘法运算是影响加速性能的重要因素。而对于数据为0的项进行乘法运算在运算过程中是不必要的，可以进行优化。

2、权值数据读取是影响全连层性能的重要因素，对于0值所对应的权值读取，是不必要的操作，可以进行优化。

本发明零值检测压缩技术可以对卷积神经网络的硬件实现优化，如图5所示，在卷积神经网络硬件系统中加入零值检测模块，零值检测模块通过与PE阵列协同工作对输入数据和权值数据进行访存。

本发明基于零值检测的卷积神经网络硬件系统，具体包括数据输入存储器、零值检测模块、PE阵列和权值存储器；

如图6所示，是一个16位数据的零值检测模块的结构。零值检测模块的输入有：卷积神经网络的输入数据、PE阵列发出的权值数据的读使能(rd_req)信号。零值检测模块的输出有：发送到权值存储器的权值数据的的读使能信号，发送到PE阵列的输出置0信号。零值检测模块的工作原理如下：输入数据被传输到零值检测模块中，与0值进行比较；如果输入数据为0，则比较器的输出为1；如果输入数据不为0，则比较器的输出为0；然后根据比较所得到的结果发送PE阵列的输出置0信号，同时接收PE阵列所发出的权值数据的rd_req信号，与比较结果做逻辑运算，逻辑运算的结果发送到权值存储器的读使能端rd_en。

将零值检测模块加入到神经网络硬件运算系统时的具体工作过程如下：

当硬件系统开始进行卷积神经网络运算时，PE阵列向输入数据存储器发送输入数据的读使能信号，输入数据存储器中读出的数据分为两路，一路传输到PE阵列，另一路传输到零值检测模块中。零值检测模块中的比较器是将输入数据与0值进行比较，得到的结果作为信号进行输出。比较器的输出数据分为两路，一路发送到PE阵列，如果比较器的输出数据为1，则说明此时的输入数据为0，则该路信号为PE阵列的输出置0信号，PE阵列接收输出置0信号将输出数据置为0；否则没有影响，PE阵列正常工作。比较器的输出数据的另一路与PE阵列的发出的权值数据的读使能rd_req信号做逻辑，得到权值存储器的读使能信号，将该读使能信号发送至权值存储器；当输入数据检测不为0且PE阵列发送的权值数据的读使能信号为1时，权值存储器接收到的读使能信号为1(有效)，权值被读出传输到PE阵列中与输入数据完成运算；当零值检测模块检测出输入数据为0时，得到的权值存储器的读使能信号为0，同时跳过该输入数据所对应的权值的行地址，避免了不必要的数据读取，同时可以降低数据传输所需要的带宽。

以AlexNet为例，具体的零值检测技术步骤如下：

1、首先对卷积神经网络的卷积层进行运算，卷积核所对应的卷积运算在硬件上并行运行，直到运算到卷积神经网络的全连接层，并确定全连接层的输入数据量和输出数据量，在AlexNet中，全连接层的输入数据数量为9216个，输出数据(神经元)数量为4096个。输入与输出全连接对应；

2、每个输入数据对应有4096个权值数据；权值数据存储在一个2维的存储器中。存储器每行的地址为4096，即对应一个输入的权值数据存储，总共有9216行(通过对存储器的复用可以降低存储)；

3、当PE阵列准备好运算时，PE阵列分别向输入数据存储器和零值检测模块发送了读使能信号。输入数据分别传输到PE阵列和零值检测模块中。零值检测模块对输入数据进行检测，零值检测模块的输出数据一路输出到PE阵列，另一路与PE阵列所发送的读使能信号做数字逻辑，得到的输出数据作为权值存储器的读使能信号。当输入数据检测不为0且PE阵列发送的读使能信号为1时，权值存储器接收到的读使能信号为1(有效)，权值被读出传输到PE阵列中；否则权值存储器的读使能端为0(无效)，权值数据不会进行传输。

4、当零值检测模块对输入数据进行检测后，会发送检测结果到PE阵列。PE阵列接收到来自零值检测模块的结果，如果检测到输入数据为零，则PE阵列直接输出数据置为0；如果检测到输入数据不为零，则PE阵列正常工作。

零值检测技术对CNN进行算法优化的性能取决于全连接层的输入数据中零值的占比。如图7和图8所示，分别代表AlexNet和VGG-16的各个卷积层的零值占比，可以看出卷积层越深，零值占比越高，到最后一个卷积层的时候，AlexNet的零值占比为77.6％，VGG-16的零值占比达到了88.5％。

对于AlexNet来说，通过零值检测技术，在第一个全连层进行运算的时候，权值数据的读取量可以降低77.6％，总的权值数量大约为37.7M。因此可以降低大约29.5M的权值数据读取。此外，每个权值数据对应一次卷积操作运算，即乘加运算。因此零值检测技术应用在AlexNet的第一个全连层时，还可以减少59MOP的运算量，操作量和数据访存量的减少会对性能产生直接的影响。同理，对于VGG-16来说，通过零值检测技术，在第一个全连层进行运算的时候，权值数据的读取量可以降低88.5％，这一层的运算量也相应减少88.5％。通过零值检测技术，对卷积神经网络的数据进行优化可以大大的减少全连层数据的访问量。对于全连层来说，影响其运算速度的主要瓶颈在于对权值数据的读取，因此零值检测技术可以直接对全连接层的性能进行优化提高。

本发明以神经网络为基础，针对激活函数为ReLU的神经网络，对卷积神经网络的全连接层的输入数据进行零值检测，减少不必要的运算；通过零值检测技术，确定输入为零的图像数据，可以避免读取该输入数据所对应的权值数据。

Claims

1.一种基于零值检测的卷积神经网络硬件系统，其特征在于，包括数据输入存储器、零值检测模块、PE阵列和权值存储器；

零值检测模块，用于检测接收到的输入数据是否为0值，并将得到的0值检测结果分为两路，一路发送到PE阵列，另一路与接收到的权值数据的读使能信号做逻辑运算，得到权值存储器的读使能信号，并将该权值存储器的读使能信号发送至权值存储器；

2.根据权利要求1所述的基于零值检测的卷积神经网络硬件系统，其特征在于，零值检测模块包括比较器，比较器将输入数据与0值进行比较，用于检测输入数据是否为0值。

3.根据权利要求1所述的基于零值检测的卷积神经网络硬件系统，其特征在于，卷积神经网络为AlexNet或VGG-16。

4.一种基于零值检测的卷积神经网络运算方法，其特征在于，基于权利要求1-3任一项所述的系统，首先完成卷积层运算，然后进行如下操作：

5.根据权利要求4所述的基于零值检测的卷积神经网络运算方法，其特征在于，零值检测模块检测输入数据是否为0值时：如果输入数据为0，则0值检测结果输出为1；如果输入数据不为0，则0值检测结果输出为0。

6.根据权利要求4所述的基于零值检测的卷积神经网络运算方法，其特征在于，完成卷积层运算具体是：对卷积神经网络的卷积层进行运算，直到运算到卷积神经网络的全连接层，并确定全连接层的输入数据量和输出数据量，输入数据与输出数据全连接对应。