CN110991631A

CN110991631A - 一种基于fpga的神经网络加速系统

Info

Publication number: CN110991631A
Application number: CN201911186403.9A
Authority: CN
Inventors: 郭太良; 林志文; 林志贤; 张永爱; 周雄图
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-10

Abstract

本发明涉及一种基于FPGA的神经网络加速系统。该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性，通过运算资源重用，并行处理数据和流水线设计，并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度，减少资源的使用，从而在不影响卷积神经网络推断准确率的情况下，提高推断速度。本发明是通过运算资源重用，并行处理数据和流水线设计，并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度，减少资源的使用，从而在不影响卷积神经网络推断准确率的情况下，降低系统整体功耗、提高推断速度。

Description

一种基于FPGA的神经网络加速系统

技术领域

本发明属于人工智能与电子领域，具体涉及一种基于FPGA的神经网络加速系统。

背景技术

随着近些年深度学习的迅速发展和广泛的应用，卷积神经网络（CNN）已经成为检测和识别领域最好的方法，它可以自动地从数据集中学习提取特征,而且网络层数越多，提取的特征越有全局性。通过局部连接和权值共享可以提高模型的泛化能力，大幅度提高了识别分类的精度。

并且随着物联网的发展，部署嵌入式端的卷积神经网络要处理大量的数据，这将会消耗大量的资源与能量，而嵌入式设备通常用电池维持工作，频繁更换电池将会提高成本，因此对于推断阶段的运算加速以及低功耗设计有重要实际意义。

本发明采取的加速方案，可以极大地加快神经网络推断速度，有效地降低整个系统的功耗，并且占用资源少，易于实现。

发明内容

本发明的目的在于提供一种基于FPGA的神经网络加速系统，特别是在资源和能源受限的嵌入式端的方案，可以极大地加快神经网络推断速度，有效地降低整个系统的功耗，并且占用资源少，易于实现。

为实现上述目的，本发明的技术方案是：一种基于FPGA的神经网络加速系统，该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性，通过运算资源重用，并行处理数据和流水线设计，并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度，减少资源的使用，从而在不影响卷积神经网络推断准确率的情况下，提高推断速度。

在本发明一实施例中，包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块；卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入，而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图，然后通过非零检测模块对卷积特征图进行检测得到非零神经元，再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作，最后分类输出模块复用卷积处理模块，读取数据和神经网络权值，完成矩阵运算得到输出值，遍历输出值即可求出分类值。

在本发明一实施例中，所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为：通过K个卷积处理模块对待卷积数据进行卷积处理，而后采用加法树结构将卷积的结果相加，并行生成K个卷积特征图，然后采用K个池化模块对卷积特征图降维。

在本发明一实施例中，所述池化模块采用最大值池化，池化尺寸为2×2，步长为2。

在本发明一实施例中，所述卷积处理模块采用移位寄存器作为输入缓存，卷积处理模块的卷积核尺寸为3×3，每次读取9个权值，使用9个定点小数乘法器，而后使用4层加法树结构将结果与偏置相加，然后通过ReLU函数激活，该函数表达式为y = max(0,x)。

相较于现有技术，本发明具有以下有益效果：本发明是通过运算资源重用，并行处理数据和流水线设计，并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度，减少资源的使用，从而在不影响卷积神经网络推断准确率的情况下，降低系统整体功耗、提高推断速度。

附图说明

图1是本发明的基于FPGA的神经网络加速系统的整体模块框图。

图2是本发明的系统时序图。

图3是本发明的卷积处理模块设计图。

图4是本发明的零神经元统计图。

图5是本发明的稀疏矩阵乘法器设计图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基于FPGA的神经网络加速系统，该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性，通过运算资源重用，并行处理数据和流水线设计，并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度，减少资源的使用，从而在不影响卷积神经网络推断准确率的情况下，提高推断速度。该系统包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块；卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入，而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图，然后通过非零检测模块对卷积特征图进行检测得到非零神经元，再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作，最后分类输出模块复用卷积处理模块，读取数据和神经网络权值，完成矩阵运算得到输出值，遍历输出值即可求出分类值。

所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为：通过K个卷积处理模块对待卷积数据进行卷积处理，而后采用加法树结构将卷积的结果相加，并行生成K个卷积特征图，然后采用K个池化模块对卷积特征图降维，将整个过程流水化操作，提高计算效率。

所述池化模块采用最大值池化，池化尺寸为2×2，步长为2。

所述卷积处理模块采用移位寄存器作为输入缓存，卷积处理模块的卷积核尺寸为3×3，每次读取9个权值，使用9个定点小数乘法器，而后使用4层加法树结构将结果与偏置相加，然后通过ReLU函数激活，该函数表达式为y = max(0,x)。

以下为本发明的具体实现过程。

参考图1所示，为本发明系统模块框图。包括数据输入模块，卷积处理模块，池化模块，卷积控制模块，非零检测模块，稀疏矩阵乘法器，分类输出模块。数据输入模块负责输入待卷积的数据和神经网络权值。卷积处理模块通过加法树结构与流水线设计完成卷积使用非零检测模块对卷积特征图进行检测，得到非零神经元，然后复用卷积处理单元构成稀疏矩阵乘法器，将非零神经元和神经网络权值做乘加操作，利用神经网络神经元的稀疏性可以减少大量乘加操作以及存储资源。输出模块复用卷积的处理单元，读取数据和神经网络权值，完成矩阵运算得到输出值，然后遍历输出值即可求出分类值。

参考图2所示，为本发明的系统时序图。首先，卷积控制器控制数据输入模块输入待卷积数据和神经网络权值，第一层卷积层完成特征提取，然后池化完成降维，然后第二层的卷积分组进行卷积和池化，池化的操作和卷积操作并行执行，从时序上节省了时间，然后使用非零检测模块完成非零神经元检测，非零神经元输入给稀疏矩阵乘法器完成全连接层计算，最后计算输出结果并且求得分类值。

在本实施例中，池化模块用于对输入特征图降低维度和提取信息，池化分为平均值池化和最大值池化，本发明使用最大值池化，池化尺寸为2×2，步长为2。池化模块使用比较器得到最大值，经过两次比较得到结果。经研究发现，池化操作不影响卷积操作，因此设计了池化与卷积的并行计算，如图2所示。并行操作节省了池化运算的时间，加快了网络的计算速度。

参考图3所示，为本发明的卷积处理模块设计图。在本实施例中，卷积模块采用移位寄存器作为输入缓存，本发明卷积模块的卷积核尺寸为3×3，每次读取9个权值，使用9个定点小数乘法器，然后使用4层加法树结构将结果与偏置相加。然后通过ReLU函数激活，该函数表达式为y = max(0,x)，因此只要判断输入数据的符号位即可，使用一个数据选择器即可完成运算，消耗一个时钟。第一层卷积的不同卷积核是独立计算的，所以使用16个PE同时计算，提高然后通过流水线技术，可以在一个时钟周期内产生16个卷积输出，输出数据的延迟包括读取数据延迟和加法树的延迟，实现并行化计算和高吞吐率。

参考图4所示，为本发明的零神经元统计图。在本实施例中，全连接层将所有输入特征图和输出向量相连接，每个神经元的值由卷积层特征图加权求和得到。本发明多次实验发现全连接层有大量为0的神经元，如图3所示。因此可以利用神经元的稀疏性减少乘法的操作。在本实施例中，全连接层神经元有4608个，而多次实验发现，非零神经元不超过200个，有极大的稀疏比例，因此可以仅计算非零神经元的矩阵运算，节省大量运算资源，提高运算效率。

参考图5所示，为本发明的稀疏矩阵乘法器设计图。其包括非零神经元检测模块，复用的卷积处理单元和一个累加器。在本实施例中，首先，遍历所有神经元的数值，得到非零神经元的位置和数值，然后保存下来。然后复用卷积处理单元，并且读取非零神经元对应位置的神经网络权值，完成卷积操作，然后通过累加器相加，得到下一层神经元的数值。因为全连接层神经元具有极大的稀疏性，所以可以通过这种方法大大减小计算的空间复杂度和时间复杂度，节省大量资源。

输出模块对全连接层神经元做矩阵运算，然后通过Softmax层得到所有分类的概率。但是由于Softmax函数含有指数运算，需要消耗大量运算资源和时间，而且对于结果没有影响，所以将Softmax层移除，直接使用输出层值的大小来分类。本发明多次实验发现输出层没有稀疏性，大部分神经元不为零，输出模块的计算复用稀疏矩阵乘法器的第二个虚框部分进行计算，由卷积处理单元与累加器组成，分别计算输出层的40个分类的值，40个运算单元共用一路数据输入，采用滑动窗口读取数据，多个卷积处理单元同时计算，由串行加法器输出结果。最后遍历求得输出值最大值，并输出分类结果。

本设计对卷积神经网络的推断采用并行化的设计。因为许多矩阵运算可以复用卷积处理单元来处理，重复利用了运算资源。由于卷积神经网络天然具有的特性，设计了并行处理数据和流水线，参考图4实验结果，利用全连接层神经元的稀疏性，设计了稀疏矩阵乘法器大大提高运算速度，减少资源的使用。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于FPGA的神经网络加速系统，其特征在于，该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性，通过运算资源重用，并行处理数据和流水线设计，并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度，减少资源的使用，从而在不影响卷积神经网络推断准确率的情况下，提高推断速度。

2.根据权利要求1所述的一种基于FPGA的神经网络加速系统，其特征在于，包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块；卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入，而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图，然后通过非零检测模块对卷积特征图进行检测得到非零神经元，再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作，最后分类输出模块复用卷积处理模块，读取数据和神经网络权值，完成矩阵运算得到输出值，遍历输出值即可求出分类值。

3.根据权利要求2所述的一种基于FPGA的神经网络加速系统，其特征在于，所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为：通过K个卷积处理模块对待卷积数据进行卷积处理，而后采用加法树结构将卷积的结果相加，并行生成K个卷积特征图，然后采用K个池化模块对卷积特征图降维。

4.根据权利要求2或3所述的一种基于FPGA的神经网络加速系统，其特征在于，所述池化模块采用最大值池化，池化尺寸为2×2，步长为2。

5.根据权利要求2或3所述的一种基于FPGA的神经网络加速系统，其特征在于，所述卷积处理模块采用移位寄存器作为输入缓存，卷积处理模块的卷积核尺寸为3×3，每次读取9个权值，使用9个定点小数乘法器，而后使用4层加法树结构将结果与偏置相加，然后通过ReLU函数激活，该函数表达式为y = max(0,x)。