CN109886400A

CN109886400A - 基于卷积核拆分的卷积神经网络硬件加速器系统及其计算方法

Info

Publication number: CN109886400A
Application number: CN201910123822.1A
Authority: CN
Inventors: 倪伟; 梁修壮; 储萍; 徐春琳; 王月恒
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-14
Anticipated expiration: 2039-02-19
Also published as: CN109886400B

Abstract

本发明公开了一种基于卷积核拆分的卷积神经网络硬件加速器系统及计算方法，包括零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块；零填充模块用于卷积核权重和图片数据的零填充处理；控制模块用于控制相关模块运行；卷积核和数据拆分模块用于产生拆分控制信号；卷积核权重缓存模块和数据缓存模块用于存储零填充后的卷积核权重和图片数据；片内地址索引模块用于产生地址索引；核心计算模块用于计算数据；中间结果缓存模块用于存储中间计算结果。本发明能提高运算并行度、降低硬件复杂度，从而适用于大型卷积计算。

Description

基于卷积核拆分的卷积神经网络硬件加速器系统及其计算方法

技术领域

本发明涉及到大规模神经网络的计算，尤其涉及对神经网络大型卷积计算的硬件并行加速计算。

背景技术

卷积神经网络(CNN)最早起源于20世纪60年代，是两位神经生物学家Hubel和Wiesel研究发现猫的视觉皮层的不同细胞会根据光线不同的走向而被激活，并以此建立了细胞对图像的激活和转化的模型，为卷积神经网络的出现奠定了基础。到1980年日本科学家K.Fukushima提出了神经认知机的概念，被认为是卷积神经网络的第一个实现原型。

近几年人工智能深度学习的兴起，卷积神经网络重新受到越来越广泛的关注。一方面是由于大数据时代下人们对大量快速变化数据的分类、识别、标注和检测等处理的需求。另一方面是计算机和集成电路等相关领域的发展使卷积神经网络的快速运行成为可能。与深度学习的其它模型相比，卷积神经网络卷积核权重共享结构使其模型更接近生物的神经网络结构，模型复杂度低、识别精度高等优势使得卷积神经网络被广泛用于图像识别、语音识别、人脸识别等应用中。

但由于CNN模型具有数据量大、计算投入高、存储密集等特点，并且随着识别精度要求的提高还会增加，使得卷积神经网络在诸如自动驾驶之类的实时系统上成为挑战。虽然理论上卷积神经网络可以在硬件中大规模的并行实现，但受到带宽、计算资源、存储等资源的限制，尤其在面对大型卷积计算时不够灵活。

发明内容

为了解决上述不足之处，本发明提出了一种基于卷积核拆分的卷积神经网络硬件加速器系统及其计算方法，以期能通过拆分的方法简化卷积计算，提高运算并行度、利用数据重用和计算单元的通用性，降低硬件复杂度，从而适用于大型卷积计算。

为实现上述目的，本发明采用如下技术方案：

本发明一种基于卷积核拆分的卷积神经网络硬件加速器系统的特点包括：零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块；

所述控制模块控制所述片内地址索引模块产生所需读取数据的地址索引；

在所述控制模块的控制下，所述零填充模块根据所述地址索引分别从片外存储器读取相应的卷积核权重和图片数据并进行零填充处理，得到零填充处理后的卷积核权重和图片数据并重新发送给所述片外存储器；

在所述控制模块的控制下，所述卷积核权重缓存模块和数据缓存模块根据所述地址索引分别从片外存储器中读取零填充处理后的卷积核权重数据和图片数据；

所述卷积核和数据拆分模块从所述控制模块中获取拆分格式，并根据所述拆分格式产生拆分控制信号给所述核心计算模块；

所述核心计算模块根据所述拆分控制信号从所述卷积核权重缓存模块和所述数据缓存模块中按照所述拆分格式边读取边拆分所述零填充处理后的卷积核权重数据和图片数据，并对拆分后的卷积核权重数据和图片数据进行卷积、池化和非线性激活运算，从而得到中间计算结果和最终结果并分别发送给所述中间结果缓存模块和片外存储器。

本发明所述的卷积神经网络硬件加速器系统的特点也在于：

所述零填充模块是将大小为N×N的数据块分别在第N行的下方增加m行和第N列的右侧增加m列，从而扩展为(N+m)×(N+m)的数据块，且新增的m列和m行中的数据全部用“0”填充；零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除。

所述核心计算模块包含：卷积计算单元、加法树单元、非线性激活单元、池化单元和复用器；

所述卷积计算单元是由若干个卷积计算基本处理单元构成的PE阵列组成；

所述PE阵列中的每个卷积计算基本处理单元从数据缓存模块中分别读取各自所需的零填充处理后的图片数据，同时利用所述复用器从所述卷积核权重缓存模块中分别读取各自所需的零填充处理后的卷积核权重数据用于进行卷积计算，得到若干个卷积计算结果并传递给所述加法树单元；

所述加法树单元对若干个卷积计算结果进行加法运算后再加上卷积偏置值，得到加法树的计算结果并传递给所述非线性激活模块进行非线性激活处理，得到激活结果发送到所述池化模块进行降维处理；得到池化后的结果并作为中间计算结果发送给所述中间结果缓存模块。

本发明一种基于卷积核拆分的卷积神经网络硬件加速器系统的计算方法的特点是按如下步骤进行：

步骤1、所述卷积神经网络硬件加速器根据主机的计算控制指令获取所需读取数据的地址索引；并根据所述地址索引分别从片外存储器读取大小为N×N的卷积核权重和图片数据并在第N行的下方增加m行和第N列的右侧增加m列，从而扩展为(N+m)×(N+m)的卷积核权重和图片数据，且新增的m列和m行中的数据全部用“0”填充，从而得到零填充处理后的卷积核权重和图片数据；

步骤2、所述卷积神经网络硬件加速器从所述计算控制指令中获取拆分格式，且零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除；

步骤3、所述卷积神经网络硬件加速器根据所述拆分格式利用自身PE阵列中的每个卷积计算基本处理单元对所述零填充处理后的图片数据进行边读取边拆分处理，同时利用复用器分别读取各自所需的零填充处理后的卷积核权重数据，得到拆分后的卷积核权重数据和图片数据再进行卷积、池化和非线性激活运算，从而得到中间计算结果和最终结果并发送给所述片外存储器。

与现有的技术相比，本发明的有益效果体现在：

本发明根据需要对卷积核和输入图片进行填充，再把大卷积核拆分成若干个小卷积核进行卷积计算，从而通过拆分的方法简化了卷积计算，同时充分利用神经网络卷积运算的结构特点，降低了卷积的规模，减少了计算硬件资源的使用，避免了大规模计算，充分利用了数据重用性加速卷积计算，使卷积神经网络的计算数据传递更加灵活方便。

附图说明

图1是本发明卷积神经网络加速器系统结构图；

图2是本发明核心计算模块结构图；

图3是本发明零填充处理示意图；

图4是本发明卷积核和数据拆分示意图；

图5是本发明输入数据拆分实例图；

图6是本发明拆分之后进行单次卷积计算示意图

图7是本发明PE中乘累加块示意图；

图8是本发明11×11卷积核的卷积计算示意图；

图9是本发明拆分之后整体卷积计算实现图；

具体实施方式

本实施例中，如图1所示，是一种基于卷积核拆分方法的卷积神经网络硬件加速器系统，用于通过硬件电路的方式配合主机加速卷积神经网络中的大规模卷积运算，包括：零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块；

首先，主机将需要进行加速运算的神经网络参数，包括卷积层和池化层数量，每层输入数据的尺寸大小、步长大小、卷积核尺寸、片外存储器中存储权重数据和图片数据区域的起始地址给控制模块。控制模块根据主机提供的参数控制片内地址索引模块产生所需读取图片数据的地址索引；

在控制模块的控制下，零填充模块根据地址索引分别从片外存储器读取相应的卷积核权重和图片数据并进行零填充处理，得到零填充处理后的卷积核权重和图片数据并重新发送给片外存储器；具体实施中，零填充模块将大小为N×N的数据块分别在第N行的下方增加m行和第N列的右侧增加m列，从而扩展为(N+m)×(N+m)的数据块，且新增的m列和m行中的数据全部用“0”填充；零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除。

本实施例中，以深度卷积神经网络AlexNet为例，存在尺寸分别为11×11、5×5和3×3的三种卷积核。对于3×3卷积核，因其已可以直接用于卷积计算，无需零填充处理。5×5卷积核，在其下方和右侧分别增加一个全“0”行和一个全“0”列，使其扩展为6×6的卷积核，如图3所示。11×11卷积核也按照此方法进行类似处理。对于输入图片数据，AlexNet中不同层所处理的输入数据大小不同，以第一层卷积层为例，输入图片数据大小为227×227×3，其中3表示输入图像的通道数。按照上述方法变为228×228×3。其他尺寸的输入图片，也按照此方式进行类似处理。

在控制模块的控制下，卷积核权重缓存模块和数据缓存模块根据地址索引分别从片外存储器中读取零填充处理后的卷积核权重数据和图片数据；

卷积核和数据拆分模块从控制模块中获取拆分格式，并根据拆分格式产生拆分控制信号给核心计算模块；

具体实施中，核心计算模块由卷积计算单元、加法树单元、非线性激活单元、池化单元和复用器(MUX)组成，如图2所示，并根据拆分控制信号从卷积核权重缓存模块和数据缓存模块中按照拆分格式边读取边拆分零填充处理后的卷积核权重数据和图片数据。本实施例中，将零填充处理后的6×6卷积核拆分为4个3×3的卷积核，12×12卷积核拆分为9个4×4的卷积核。由于新填充的数值为0，所以卷积运算时的乘积也是0，对计算结果不会产生影响，这样就把5×5的卷积计算拆分成4个3×3卷积计算块，如图4所示，从而实现并行卷积计算和复用计算单元。输入图片也按照此方法进行类似处理，以AlexNet第一层卷积层为例，输入图片尺寸为228×228×3，将228×228的输入图片以4×4小矩阵为单位拆分成57×57个小矩阵，如图5所示。核心计算模块对拆分后的卷积核权重数据和图片数据进行卷积、池化和非线性激活运算，从而得到中间计算结果和最终结果并分别发送给中间结果缓存模块和片外存储器。

拆分之后的单次卷积计算具体实现方式如图6所示，以卷积核的尺寸11×11为例，输出公式为其中表示卷积计算，卷积计算公式变为：

卷积计算单元是由若干个卷积计算基本处理单元构成的PE阵列组成；PE阵列中的每个卷积计算基本处理单元是由一个个基本的乘累加计算块(MAC)组成，如图7所示，一个MAC包含两个输入端口in_a和in_b，一个输出端口out，一个乘法器一个加法器以及一个寄存器，寄存器的初始值设置为0。各个MAC从数据缓存模块中分别读取各自所需的零填充处理后的图片数据到各个乘法器的输入端口in_b，同时利用复用器从卷积核权重缓存模块中分别读取各自所需的零填充处理后的卷积核权重数据到各个乘法器的输入端口in_a中用于进行乘法运算，结果送至加法器中，并与寄存器中所存储的上一次乘累加结果进行累加，进行卷积计算，每个时钟周期可以完成一次拆分后的4×4卷积计算，如图8所示。

以计算AlexNet的第一层卷积层为例，计算过程如图9所示，其中W₁到W₉为卷积核拆分后的9个小卷积核，R、C表示拆分后输入数据的行和列。一个卷积核尺寸的卷积计算被分到3个PE中计算完成，经过3个时钟周期后加载3个PE内的数据到加法树模块累加，最终得出卷积计算结果。由于移动的步长为4，一个4×4输入图片数据块可以同时加载到其它PE中，如R₃C₁、R₃C₂、R₃C₃被分别同时加载到9个PE中，第1个卷积输出结果在第3个时钟由PE₁、PE₂、PE₃计算的值累加得到，第2个卷积输出结果在第4个时钟由PE₄、PE₅、PE₆计算的值累加得到，第3个卷积输出结果在第5个时钟由PE₇、PE₈、PE₉计算的值累加得到，第4个卷积输出结果在第6个时钟再由PE₁、PE₂、PE₃计算的值累加得到，以此类推。在PE内部不需要在考虑数据复用的问题，每个传递到PE阵列中的输入图片数据只需要参与一次卷积计算即可，简化了计算。

当一个卷积核内的9块输入数据全都读取到PE阵列并完成计算后，再把PE中积累的16个卷积计算结果传递给加法树单元进行累加计算，得出输出结果存储到中间结果缓存中，PE中的每个数据的计算是并行执行的，当所有数据加载到3个PE中后，3个PE每3个时钟周期就可以得到一个输出结果，而且计算仅用到了3个小规模的计算阵列，节省硬件资源的同时提高了速度。

加法树单元对若干个卷积计算结果进行加法运算后再加上卷积偏置值，得到加法树的计算结果并传递给非线性激活模块进行非线性激活处理，得到激活结果发送到池化模块进行降维处理；得到池化后的结果并作为中间计算结果发送给中间结果缓存模块。

具体实施中，加速器以多级流水线方式进行计算，其中，卷积核权重缓存和数据缓存是按照每一层的需求被分割成许多个小的缓存块。采用乒乓缓存结构，每一层至少包括一个卷积核权重缓存，两个输入缓存，其中两个输入缓存始终保持一个缓存在接受数据的状态另一个在读取数据的状态，这样提高了效率。

本实施例中，一种基于卷积核拆分的卷积神经网络硬件加速器系统的计算方法是按如下步骤进行：

步骤1、卷积神经网络硬件加速器根据主机的计算控制指令获取所需读取数据的地址索引；并根据地址索引分别从片外存储器读取大小为N×N的卷积核权重和图片数据并在第N行的下方增加m行和第N列的右侧增加m列，从而扩展为(N+m)×(N+m)的卷积核权重和图片数据，且新增的m列和m行中的数据全部用“0”填充，从而得到零填充处理后的卷积核权重和图片数据；

步骤2、卷积神经网络硬件加速器从计算控制指令中获取拆分格式，且零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除；

步骤3、卷积神经网络硬件加速器根据拆分格式利用自身PE阵列中的每个卷积计算基本处理单元对零填充处理后的图片数据进行边读取边拆分处理，同时利用复用器分别读取各自所需的零填充处理后的卷积核权重数据，得到拆分后的卷积核权重数据和图片数据再进行卷积、池化和非线性激活运算，从而得到中间计算结果和最终结果并发送给片外存储器。

综上所述，本发明能够通过拆分的方法简化神经网络中大规模卷积计算，具有提高运算并行度、数据重用和计算单元的通用性，降低了硬件复杂度，从而适用于采用硬件的方式灵活实现大规模卷积计算的优点。

Claims

1.一种基于卷积核拆分的卷积神经网络硬件加速器系统，其特征包括：零填充模块、控制模块、卷积核和数据拆分模块、卷积核权重缓存模块、数据缓存模块、片内地址索引模块、核心计算模块和中间结果缓存模块；

2.根据权利要求1所述的卷积神经网络硬件加速器系统，其特征是，所述零填充模块是将大小为N×N的数据块分别在第N行的下方增加m行和第N列的右侧增加m列，从而扩展为(N+m)×(N+m)的数据块，且新增的m列和m行中的数据全部用“0”填充；零填充后的数据块的行和列的数目N+m能被拆分格式中的行和列数目整除。

3.根据权利要求1所述的卷积神经网络硬件加速器系统，其特征是：所述核心计算模块包含：卷积计算单元、加法树单元、非线性激活单元、池化单元和复用器；

4.一种基于卷积核拆分的卷积神经网络硬件加速器系统的计算方法，其特征是按如下步骤进行：