CN110598844A

CN110598844A - 一种基于fpga的并行卷积神经网络加速器及加速方法

Info

Publication number: CN110598844A
Application number: CN201910722954.6A
Authority: CN
Inventors: 刘强; 徐欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-12-20

Abstract

本发明公开了一种基于FPGA的并行卷积神经网络加速器，包括：FPGA模块和数据预处理模块，所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核；所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器；所述数据预处理模块根据输入图像尺寸及所述卷积核的大小，对图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到所述FPGA模块的卷积核中。本发明还提供一种基于FPGA的并行卷积神经网络加速方法。本发明基于FPGA实现卷积神经网络加速，提高架构设计的通用性，适应多种输入图像尺寸，采用了数据对齐并行处理的方法实现数据层面的并行处理与传输，实现多卷积核并行计算。

Description

一种基于FPGA的并行卷积神经网络加速器及加速方法

技术领域

本发明涉及一种卷积神经网络加速器及加速方法，特别涉及一种基于FPGA的并行卷积神经网络加速器及加速方法。

背景技术

目前，近年来，深度学习极大促进了机器学习的发展，其强大的数据处理能力已被成功应用到了许多分析领域，而卷积神经网络就是一种出色的学习模型。然而由于庞大的数据存储以及数据处理已经使得通用处理器无法满足其需求.所以，为卷积神经网络算法设计出高效的专用处理单元迫在眉睫。因此具有较高性能和利用率的FPGA引起了人们极大的注意。

采用不同的架构设计方法会导致加速器不同的性能，例如国内研究中浙江大学的余子健等人通过分析卷积运算的并行特征，研究了激活函数的实现方式，采用流水结构，设计了基于主机+FPGA的模式的卷积神经网络加速器^[1]，但其并行度较低，所以导致数据处理速度也较低；Zhang等人提出的全精度卷积神经网络加速器，由于采用较高的全精度卷积神经网路加速器，数据传输速率较低，整体计算性能较低；Li等人提出了一种端到端的卷积神经网络加速器，即在FPGA上实现所有卷积层，这种方式充分利用了片上资源，但是只针对较小的神经网络。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种提高数据处理速度的基于FPGA的并行卷积神经网络加速器及加速方法；其采用数据并行处理与多卷积核并行计算的方式，充分利用了资源，提高了数据的处理速度。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种基于FPGA的并行卷积神经网络加速器，包括：FPGA模块和数据预处理模块，所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核；所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器；所述数据预处理模块根据输入图像尺寸及所述卷积核的大小，对图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到所述FPGA模块的卷积核中。

进一步地，所述FPGA模块包括：N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元；每个所述卷积计算单元包括M个所述卷积核；每个所述卷积核的大小为K×K；每个所述结果缓存区缓存一个所述卷积计算单元的计算结果；其中：K值为所述卷积核的边长，其根据实现的神经网络的需求选取；M、N值在FPGA板上资源允许的范围内，M选择输出图像边长可以整除的数；K、M、N同时满足下式条件：(K×K)_mult×M×N≤MULT_sum，式中MULT_sum为所述FPGA模块中的DSP资源与LUT资源之和；(K×K)_mult为实现一个K×K大小的卷积计算所消耗的资源。

进一步地，所述结果缓存区采用双FIFO缓存器架构。

本发明还提供了一种基于FPGA的并行卷积神经网络加速方法，采用内设卷积核的FPGA模块对输入的图像数据进行卷积神经网络运算；在运算前，采用内设线性储存器的数据预处理模块，根据输入图像尺寸和FPGA模块内卷积核的大小，对输入的图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到FPGA模块的卷积核中。

进一步地，所述FPGA模块内设置N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元；每个卷积计算单元内设置M个卷积核；每个卷积核的大小设置为K×K；每个结果缓存区缓存一个卷积计算单元的计算结果；其中：其中：K值为所述卷积核的边长，其根据实现的神经网络的需求选取；M、N值在FPGA板上资源允许的范围内，M选择输出图像边长可以整除的数；K、M、N同时满足下式条件：(K×K)_mult×M×N≤MULT_sum，式中MULT_sum为所述FPGA模块中的DSP资源与LUT资源之和；(K×K)_mult为实现一个K×K大小的卷积计算所消耗的资源。

进一步地，当处理的图像边长不是并行度的整数倍时，对输入的图像数据进行无效数据补充，以使其边长可以整除。

进一步地，多个卷积核在同一张图片上进行滑动卷积，经所述数据预处理模块处理后的图像数据被映射到N个卷积计算单元。

进一步地，同一个卷积计算单元内的卷积核的权值系数相同，不同卷积计算单元内的卷积核的权值系数相互独立；先将不同卷积计算单元的卷积核的权值系数分别对应缓存在N个卷积核权值系数缓存区内，再映射到N个卷积计算单元。

进一步地，一个输入图像通道的卷积结果计算完毕后，暂存输出至结果缓存区，并使用结果缓存区的加法器与下一个输入图像通道的计算结果进行累加，结果缓存区的存储数据更新为累加值，重复累加直到全部输入图像通道计算完毕后，结果缓存区输出计算结果。

进一步地，结果缓存区采用双FIFO缓存器；其中一个FIFO缓存器用于存历史数据，另一个FIFO缓存器用于存当前数据。

本发明具有的优点和积极效果是：基于FPGA实现卷积神经网络加速器，通过对卷积神经网络算法进行分析，为了提高架构设计的通用性，适应多种输入图像尺寸，采用了数据对齐并行处理的方法实现数据层面的并行处理与传输，采用K×K卷积核乘加并行计算，多卷积核并行计算的方法，实现卷积核层面的并行计算，可根据本发明，建立性能与资源模型，通过数值求解，找到最佳并行方案，较大提升资源使用率，同时也提高了图像计算的速度，使整体计算性能达到应用要求。本发明最终在Xilinx Zynq XC7Z045上实现的SSD网络在175HMz的频率下可以达到44.59帧/秒，能效达到31.54GOP/s/W。

附图说明

图1是本发明的多卷积并行计算架构图。

图2是本发明的图像数据输入示意图。

图3是本发明的预处理模块架构图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

本申请中各英文缩写的中文释义为：

FPGA：现场可编程门阵列；

Relu：线性整流单元；

FIFO：先进先出储存器；

DSP：数字信号处理单元；

LUT：显示查找表。

请参见图1至图3，一种基于FPGA的并行卷积神经网络加速器，包括：FPGA模块和数据预处理模块，所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核；所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器；所述数据预处理模块根据输入图像尺寸及所述卷积核的大小，对图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到所述FPGA模块的卷积核中。数据预处理模块和FPGA模块可以制成一体，也可以单独设置，单独设置时，数据预处理模块可采用独立FPGA芯片制成，也可以采用其他芯片或模组制成。

优选地，所述FPGA模块可包括：N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元；每个所述卷积计算单元可包括M个所述卷积核；每个所述卷积核的大小可为K×K；每个所述结果缓存区可缓存一个所述卷积计算单元的计算结果；其中：K值为所述卷积核的边长，其可根据实现的神经网络的需求选取；M、N值在FPGA板上资源允许的范围内，M可选择输出图像边长可以整除的数；K、M、N可同时满足下式条件：(K×K)_mult×M×N≤MULT_sum，式中MULT_sum为所述FPGA模块中的DSP资源与LUT资源之和；(K×K)_mult为实现一个K×K大小的卷积计算所消耗的资源。为减少整体运行时间，M尽量选择输出图像边长可以整除的数。

备用单元用于其他类型的计算和数据处理，卷积神经网络模型中，除了基本的卷积计算，还会包括其他的Relu，池化等操作，因此在卷积计算完成后，每个卷积单元都需要一个其他计算模块，一共包含N个其他计算模块。

为提高运算速度，所述结果缓存区可采用双FIFO缓存器架构。这样当计算模块速度大于结果输出速度，结果缓存区利用了双FIFO缓存器结构，无需等待上一周期的数据输出，即可开始下一周期的计算。提供了效率及计算速度。

本发明还提供一种基于FPGA的并行卷积神经网络加速方法实施例，该方法采用内设卷积核的FPGA模块对输入的图像数据进行卷积神经网络运算；在运算前，采用内设线性储存器的数据预处理模块，根据输入图像尺寸和FPGA模块内卷积核的大小，对输入的图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到FPGA模块的卷积核中。数据预处理模块和FPGA模块可以制成一体，也可以单独设置，单独设置时，数据预处理模块可采用独立FPGA芯片制成，也可以采用其他芯片或模组制成。

优选地，所述FPGA模块内可设置N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个其他备用单元；每个卷积计算单元内可设置M个卷积核；每个卷积核的大小可设置为K×K；每个结果缓存区可缓存一个卷积计算单元的计算结果；其中：其中：K值为所述卷积核的边长，其可根据实现的神经网络的需求选取；M、N值在FPGA板上资源允许的范围内，M可尽量选择输出图像边长可以整除的数；K、M、N可同时满足下式条件：(K×K)_mult×M×N≤MULT_sum，式中MULT_sum为所述FPGA模块中的DSP资源与LUT资源之和；(K×K)_mult为实现一个K×K大小的卷积计算所消耗的资源。为减少整体运行时间，M尽量选择输出图像边长可以整除的数。

对于K×K大小卷积运算，需要将输入图像的按着K行对齐排列输出。输入图像数据从数据储存器中按行取出后，将进入线性储存器中进行行对齐的转换，如图3所示。线性储存器的数据读取的并行度仍然为M，这里卷积核大小K设置为3，由于K个储存器同时进行数据输出，因此一个时钟周期可得到K×M个数据。再根据滑动步长的大小对K×M个数据进行组合，即可得到M个K×K卷积矩阵。

备用单元可用于其他类型的计算和数据处理，卷积神经网络模型中，除了基本的卷积计算，还可包括其他的Relu，池化等操作，因此在卷积计算完成后，每个卷积单元都需要一个其他计算模块，一共可包含N个其他计算模块。

图像数据可按行依次放入到输入数缓存区，为了提高数据传输的速度，设置数据读取的并行度可为M，即一个时钟周期读取M个图像数据。当图像边长不为并行度的整数倍时，可对其进行数据无效数据补充，以使其保证边长可以整除。请参考图2，图2中假设图像边长为3×M-2个，因此需要先对一行的数据进行补充成3×M个，此时数据可经过3个时钟周期完成。

多个卷积核可在同一张图片上进行滑动卷积，经所述数据预处理模块处理后的图像数据可被映射到N个卷积计算单元。

同一个卷积计算单元内的卷积核的权值系数可相同，不同卷积计算单元内的卷积核的权值系数可相互独立；可先将不同卷积计算单元的卷积核的权值系数分别对应缓存在N个卷积核权值系数缓存区内，再映射到N个卷积计算单元。

一个输入图像通道的卷积结果计算完毕后，可暂存输出至结果缓存区，并可使用结果缓存区的加法器与下一个输入图像通道的计算结果进行累加，结果缓存区的存储数据更新为累加值，重复累加，直到全部输入图像通道计算完毕，然后从结果缓存区输出计算结果。

结果缓存区可采用双FIFO缓存器；其中一个FIFO缓存器可用于存历史数据，另一个FIFO缓存器可用于存当前数据。这样当计算模块速度大于结果输出速度，结果缓存区利用了双FIFO缓存器结构，无需等待上一周期的数据输出，即可开始下一周期的计算。提供了效率及计算速度。

本发明的工作原理：

图像数据将按行依次放入到输入数缓存区，为了提高数据传输的速度，设置数据读取的并行度为M，即一个时钟周期读取M个图像数据。当图像边长不为并行度的整数倍时，需要对其进行数据无效数据补充，请参考图2，以使其保证边长可以整除。图2中假设图像边长为3×M-2个，因此需要先对一行的数据进行补充成3×M个，此时数据可经过3个时钟周期完成。

由上述可知，一个周期可得到M个K×K输入图像矩阵，因此可同时进行一个卷积核的M个像素点的计算。如图1所示，卷积核的模块中包含M个K×K乘加单元，所用权值系数为同一卷积核的权值系数，将得到的M个卷积矩阵分别输入M个计算单元中。

为了提升卷积核计算并行度，可根据实际上板资源，可进行多个卷积核的并行计算。由于卷积层的计算为不同的卷积核在同一张图片上进行卷积，每个卷积核之间的计算为不相关，因此可以包含N个不同的卷积核的计算单元。如图1所示，由于是多个卷积核对同一张图片进行卷积，所以输入数据将映射到所有的N个卷积计算模块。通过采用本高并行设计方法，可使加速器包含N个不同的卷积核的计算单元，每个卷积核计算单元包含M个并行乘加单元，即可同时进行N×M个K×K像素点的计算。

针对每一个卷积核计算单元都需要将其计算结果暂时缓存，N个卷积计算单元需要N个缓存区以来存取不同卷积核的计算结果。并且由于输入图像的通道数都为>1，图像的一个通道的卷积结果计算完毕后，需要暂存输出缓存区，等到下一个通道的计算结果到来后进行累加，最终等到图像的通道全部计算完毕后，才可输出。由于本设计中计算模块速度大于结果输出速度，结果缓存区利用了双FIFO缓存器结构，无需等待上一周期的数据输出，即可开始下一周期的计算。

备用计算模块用于其他计算模块，卷积神经网络模型中，除了基本的卷积计算，还会包括其他的Relu，池化等操作，因此在卷积计算完成后，每个卷积单元都需要一个其他计算模块，一共包含N个其他计算模块。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种基于FPGA的并行卷积神经网络加速器，其特征在于，包括：FPGA模块和数据预处理模块，所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核；所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器；所述数据预处理模块根据输入图像尺寸及所述卷积核的大小，对图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到所述FPGA模块的卷积核中。

2.根据权利要求1所述的基于FPGA的并行卷积神经网络加速器，其特征在于，所述FPGA模块包括：N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元；每个所述卷积计算单元包括M个所述卷积核；每个所述卷积核的大小为K×K；每个所述结果缓存区缓存一个所述卷积计算单元的计算结果；其中：K值为所述卷积核的边长，其根据实现的神经网络的需求选取；M、N值在FPGA板上资源允许的范围内，M选择输出图像边长可以整除的数；K、M、N同时满足下式条件：(K×K)_mult×M×N≤MULT_sum，式中MULT_sum为所述FPGA模块中的DSP资源与LUT资源之和；(K×K)_mult为实现一个K×K大小的卷积计算所消耗的资源。

3.根据权利要求2所述的基于FPGA的并行卷积神经网络加速器，其特征在于，所述结果缓存区采用双FIFO缓存器架构。

4.一种基于FPGA的并行卷积神经网络加速方法，其特征在于，采用内设卷积核的FPGA模块对输入的图像数据进行卷积神经网络运算；在运算前，采用内设线性储存器的数据预处理模块，根据输入图像尺寸和FPGA模块内卷积核的大小，对输入的图像数据进行数据对齐预处理，生成卷积矩阵，并行输入到FPGA模块的卷积核中。

5.根据权利要求4所述的基于FPGA的并行卷积神经网络加速方法，其特征在于，所述FPGA模块内设置N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元；每个卷积计算单元内设置M个卷积核；每个卷积核的大小设置为K×K；每个结果缓存区缓存一个卷积计算单元的计算结果；其中：其中：K值为所述卷积核的边长，其根据实现的神经网络的需求选取；M、N值在FPGA板上资源允许的范围内，M选择输出图像边长可以整除的数；K、M、N同时满足下式条件：(K×K)_mult×M×N≤MULT_sum，式中MULT_sum为所述FPGA模块中的DSP资源与LUT资源之和；(K×K)_mult为实现一个K×K大小的卷积计算所消耗的资源。

6.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法，其特征在于，当处理的图像边长不是并行度的整数倍时，对输入的图像数据进行无效数据补充，以使其边长可以整除。

7.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法，其特征在于，多个卷积核在同一张图片上进行滑动卷积，经所述数据预处理模块处理后的图像数据被映射到N个卷积计算单元。

8.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法，其特征在于，同一个卷积计算单元内的卷积核的权值系数相同，不同卷积计算单元内的卷积核的权值系数相互独立；先将不同卷积计算单元的卷积核的权值系数分别对应缓存在N个卷积核权值系数缓存区内，再映射到N个卷积计算单元。

9.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法，其特征在于，一个输入图像通道的卷积结果计算完毕后，暂存输出至结果缓存区，并使用结果缓存区的加法器与下一个输入图像通道的计算结果进行累加，结果缓存区的存储数据更新为累加值，重复累加直到全部输入图像通道计算完毕后，结果缓存区输出计算结果。

10.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法，其特征在于，结果缓存区采用双FIFO缓存器；其中一个FIFO缓存器用于存历史数据，另一个FIFO缓存器用于存当前数据。