CN111814972B

CN111814972B - 一种基于fpga的神经网络卷积运算加速方法

Info

Publication number: CN111814972B
Application number: CN202010652922.6A
Authority: CN
Inventors: 张建城
Original assignee: Shanghai Xuehu Technology Co ltd
Current assignee: Shanghai Xuehu Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2024-02-02
Anticipated expiration: 2040-07-08
Also published as: CN111814972A

Abstract

本发明涉及到深度学习硬件加速技术领域，尤其涉及到一种基于FPGA的神经网络卷积运算加速方法。包括使用9个乘法器IP core，在设置时选择调用DSP资源，以3个乘法器为一组，使用两级加法器将三个乘法器的输出结果相加，两级加法器的输出数据送入累加器中，最后再将三个累加器的结果通过后面额外设置的两级加法器再次相加，完成运算加速。本发明可以同时兼容3x3和1x1的卷积核计算，相比于其他方案，它的优点在于节省布线资源和寄存器的使用数量，逻辑也相对简单，并且实现了全流水的操作提高了模块的计算效率。

Description

一种基于FPGA的神经网络卷积运算加速方法

技术领域

本发明涉及到深度学习硬件加速技术领域，尤其涉及到一种基于FPGA的神经网络卷积运算加速方法。

背景技术

随着深度学习技术的发展，各种图像处理的神经网络纷纷出现，但是在这些网络中经常不可避免要对图像做卷积运算，用于提取图像的特征，多层卷积能够提取更加复杂的图像特征。在现场可编程逻辑门阵列(FieldProgrammableGateArray，以下简称FPGA)上实现卷积运算模块的方法比如有使用FPGA中的DSPslice单元，在数据输入DSP之前需要经过多路选择结构，在DSP内部实现乘法和加法，然后再将DSP的输出结果经过外部的多路选择结构输出，由乘累加器和多路复用结构组成一个计算单元，这样的一个计算单元负责一张输入特征图与一个卷积核的卷积运算。以上实现方法虽然实现了卷积运算的功能，但是对于要在单块FPGA芯片上实现一个完整的神经网络而言，节约硬件资源使用量和提高效率是需要重点考虑的方面，以上提到的方法对LUT资源和寄存器资源的使用量较大，尤其是为了提高网络的运行速度时，增加同时计算的卷积核数量，资源的增加尤其是寄存器的使用量将可能导致布线失败，而且一个乘累加器要负责一个卷积核的运算，当卷积核比较大时，计算的效率明显不够高。

发明内容

为了节约更多的寄存器和布线资源的同时提高计算效率，本发明提供了一种基于FPGA的神经网络卷积运算加速方法，其是一种在FPGA上基于DSPslice单元的卷积运算实现方案,该方案一个卷积核需要使用9个DSPslice单元，同时可以兼容卷积核大小为3x3和1x1的计算，可以控制实现多通道的神经网络卷积运算。

一种基于FPGA的神经网络卷积运算加速方法，其特征在于，所述方法包括：

使用9个乘法器IPcore，在设置时选择调用DSP资源，以3个乘法器为一组，使用两级加法器将三个乘法器的输出结果相加，两级加法器的输出数据送入累加器中，最后再将三个累加器的结果通过后面额外设置的两级加法器再次相加，完成运算加速。

本发明技术方案中，上述的基于FPGA的神经网络卷积运算加速方法，其特征在于，两级加法器IPcore共计设置有三组，每组设置有两个加法器。

本发明技术方案中，上述的基于FPGA的神经网络卷积运算加速方法，其特征在于，累加器设置有三个，分别对应至三组的两级加法器IPcore中。

本发明技术方案中，上述的基于FPGA的神经网络卷积运算加速方法，其特征在于，后面额外设置的两级加法器中也包括有两个加法器。

本发明技术方案中，上述的基于FPGA的神经网络卷积运算加速方法，其特征在于，乘法器IPcore前端设置有FM送数模块和权重缓存模块，所述FM送数模块实现特征图输出功能，所述权重缓存模块实现读使能与地址信号输出功能。

本发明技术方案中，上述的基于FPGA的神经网络卷积运算加速方法，其特征在于，所述乘法器IPcore与各所述加法器共同构成乘累加器。

上述技术方案具有如下优点或有益效果：

本发明基于FPGA的神经网络卷积运算加速方案，可以同时兼容3x3和1x1的卷积核计算，相比于其他方案，它的优点在于节省布线资源和寄存器的使用数量，逻辑也相对简单，并且实现了全流水的操作提高了模块的计算效率，按照同样的思路，一个卷积核内部的乘法器数量可以继续增加，以实现对更多类型卷积核大小的兼容。由于乘法器调用了DSP资源，因此节省了布线资源和LUT的使用，简化了逻辑，由于DSP的周期配置使用的是内部的资源，所以在一定程度上也节省了寄存器。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图，重点在于示出本发明的主旨。

图1是本发明技术方案神经网络卷积运算流程图；

图2是乘累加器以及多路选择结构组合的神经网络卷积运算结构图；

图3是卷积核大小为3x3的卷积运算示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当需要在一块性价比较高的FPGA芯片中实现一个完整的神经网络的时候，开发的各个模块在实现对应功能的前提下尽可能节约芯片内部资源的使用量并且使模块的运行效率尽可能高是两项需要重点追求的目标。当卷积计算模块一次需要计算的卷积核数量很多时，寄存器资源和布线压力将会比较大，为了节约寄存器的使用量和LUT使用量，同时简化计算逻辑，提高计算效率，提出一种新的卷积计算模块架构。

如图1和图2所示，本发明提供了一种基于FPGA的神经网络卷积运算加速方法，具体包括为：

本发明技术方案中，两级加法器IPcore共计设置有三组，每组设置有两个加法器；累加器设置有三个，分别对应至三组的两级加法器IPcore中。

优选的，后面额外设置的两级加法器中也包括有两个加法器，本发明中两级加法器中至少有一个加法器连接有寄存器，乘法器IP core与各加法器共同构成乘累加器。

本发明技术方案中，乘法器IPcore前端设置有FM送数模块和权重缓存模块，所述FM送数模块实现特征图输出功能，权重缓存模块实现读使能与地址信号输出功能。

图2中，MAC即乘累加器，单独的乘累加器负责一个卷积核和一张输入特征图的卷积运算，其中，F0-FN与W0-WN分别是FM送数模块的特征图输出与权重缓存模块的读使能与地址信号输出。

如图3所示，本方案是针对卷积神经网络中卷积计算模块的一个卷积核计算而提出的，如果要同时计算多个卷积核，将这个模块并行复制多份就可以。这个模块可以同时兼容3x3的卷积核和1x1的卷积核计算。

运行原理：

3x3运行原理：一个3x3的卷积核需要把一张图片中9个点的数据和同一通道的权重对应相乘，然后将得到的9个乘积相加，完成一个通道的卷积计算(附图3，窗口滑动步长为1)，根据有多少个通道，完成多少次同样的计算。9个乘法器分别完成9个点对应的乘积计算，乘法器输出结果相加是将乘积每三个为一组进行相加，累加器是为了完成通道累加，通道累加的结果再相加是为了完成一个3x3窗口的加法，该结果已经是所有通道累加的结果。

1x1运行原理：一个1x1的卷积核需要把一张图片中每个点的数据和同一通道的权重对应相乘，然后再将所有通道累加，就完成了1x1的卷积计算。9个乘法器是为了完成9个通道的累加，如果通道数是偶数，可以补充通道数到9的倍数，补充的通道相乘后的结果为0即可，如果通道数大于9，可以控制后续的累加器完成更多通道的累加，这样一来，累加器后的加法器也是完成通道累加。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现所述变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于FPGA的神经网络卷积运算加速方法，其特征在于，所述方法包括：使用9个乘法器IP core，在设置时选择调用DSP资源，以3个乘法器为一组，使用两级加法器将三个乘法器的输出结果相加，两级加法器的输出数据送入累加器中，最后再将三个累加器的结果通过后面额外设置的两级加法器再次相加，完成运算加速，两级加法器共计设置有三组，每组设置有两个加法器，累加器设置有三个，分别对应至三组的两级加法器IP core中，后面额外设置的两级加法器中也包括有两个加法器，所述乘法器IP core与各所述加法器共同构成乘累加器。

2.根据权利要求1所述的基于FPGA的神经网络卷积运算加速方法，其特征在于，乘法器IP core前端设置有FM送数模块和权重缓存模块，所述FM送数模块实现特征图输出功能，所述权重缓存模块实现读使能与地址信号输出功能。