CN110852428B

CN110852428B - 基于fpga的神经网络加速方法和加速器

Info

Publication number: CN110852428B
Application number: CN201910845286.6A
Authority: CN
Inventors: 秦国轩; 李炳剑
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-09-08
Filing date: 2019-09-08
Publication date: 2023-10-27
Anticipated expiration: 2039-09-08
Also published as: CN110852428A

Abstract

本发明属于神经网络技术领域，为提出一种基于FPGA的卷积神经网络加速器，该加速器同时考虑了神经网络加速器性能和通用方面的需求，具有广阔的应用场景。为此，本发明采取的技术方案是，基于FPGA的神经网络加速器，包括卷积运算模块，池化模块，直接内存存取DMA模块，指令控制模块，地址控制模块，内部随机存取存储器RAM模块和指令RAM模块；其中所述的卷积运算模块，用于对卷积神经网路中的卷积层进行运算。本发明主要应用于神经网络芯片的设计制作。

Description

基于FPGA的神经网络加速方法和加速器

技术领域

本发明属于神经网络技术领域，具体涉及一种基于现场可编程门阵列(FPGA)的神经网络加速器架构

背景技术

随着人工智能的高速发展，卷积神经网络(Convolutional Neutral Network，CNN)越来越受到人们的重视，在图像处理等很多领域发挥着重要的作用。相比于传统算法，CNN的计算复杂度要高很多，通用CPU已经无法满足计算需求，目前主要的的解决方法是使用GPU进行CNN的计算，虽然GPU在并行计算方面有着天然的优势，但是在成本和功耗方面有着很大的不足，无法满足一些低特定场景下的CNN加速。FPGA具有强大的并行处理能力、灵活的可配置特性和超低功耗，非常适合作为CNN的实现平台。

发明内容

为克服现有技术的不足，针对目前神经网络加速需求，本发明旨在提出一种基于FPGA的卷积神经网络加速器，该加速器同时考虑了神经网络加速器性能和通用方面的需求，具有广阔的应用场景。为此，本发明采取的技术方案是，基于FPGA的神经网络加速器，包括卷积运算模块，池化模块，直接内存存取DMA模块，指令控制模块，地址控制模块，内部随机存取存储器RAM模块和指令RAM模块；

其中所述的卷积运算模块，用于对卷积神经网路中的卷积层进行运算，卷积运算模块包括8个运算处理PE模块，和一个加法器，其中PE模块负责卷积运算中乘法运算，一部分加法运算，以及归一化运算，加法器责将8个PE模块的计算结果与内部RAM输入进来的中间结果相累加；

所述的的池化模块，用于对卷积神经网路中的池化层进行运算；

所述的的DMA模块，用于卷积神经网络运算中的数据搬运工作，DMA模块包括三个DMA通道，分别为DMA图像通道，DMA权重通道，DMA指令通道，DMA图像通道负责从双倍速率同步动态随机存储器DDR中搬运图像数据到内部RAM中，以及从内部RAM中搬运运算后的数据到外部DDR中，DMA权重通道负责从外部DDR中搬运权重数据到卷积运算模块中，DMA指令通道负责从外部DDR中搬运指令数据到指令RAM中；

所述的指令控制模块，用于对指令的读取和分发工作，支持从指令RAM中读取数据，并将读取到的指令分发给卷积运算模块，池化模块，地址控制模块和DMA模块；

所述的地址控制模块，负责生成卷积运算模块和池化模块访问内部RAM的地址；

所述的内部RAM模块，负责存储卷积神经网络运算中的图像数据，权重数据，以及部分中间运算结果；

所述的指令RAM模块，负责存储控制各个模块的指令数据。

池化模块由8个相同的子模块组成，8个子模块并行计算，子模块结构包括一个数据比较器，一个计数器和两个先进先出存储FIFO，其中数据比较器负责将输入的数据依次比较，得到最大值结果，计数器负责记录输入比较器的数据个数，FIFO负责输入输出数据缓存。

基于FPGA的神经网络加速方法，步骤如下：

1)将离线开发好的神经网络模型和参数转换成加速器能识别的神经网络指令；

2)将图像数据，权重数据和转换好的神经网络指令存入FPGA上的外部DDR中；

3)通过CPU启动加速器，加速器的DMA模块首先启动，将部分图像数据搬运到内部RAM中，将指令数据搬运到指令RAM中；

4)当图像数据和指令数据搬运完成后指令控制模块启动，从指令RAM中读取指令数据，分发给卷积运算模块和地址控制模块，卷积运算模块收到指令后，根据指令要求从内部RAM中读取图像数据同时从权重缓存单元weight buffer中读取权重数据，并进行卷积运算，卷积运算后将数据送入线性整流函数RELU运算模块完成RELU运算；

5)卷积以及RELU运算完成后，指令控制模块将后面的指令分发给池化模块和相应的地址控制模块，池化模块收到指令后，从内部RAM中读取第4步运算后的数据，根据指令要求进行最大或平均池化运算，运算后将结果写回内部RAM；

6)反复执行步骤4和步骤5，直到整个卷积神经网络运算完成，然后将运算结果通过DMA搬运回DDR中，完成整个加速过程。

本发明的特点及有益效果是：

本发明提出的设计在卷积运算中实现了并行化计算，单个时钟周期能够完成512次乘累加。设计了片内存储结构，减少片外存储访问的同时实现了有效的数据复用，使用流水线技术实现了完整的卷积神经网路单层运算过程，提升了运算效率。

附图说明：

图1为本发明加速器整体的架构图；

图2为本发明中的卷积运算模块结构图；

图3为本发明中的PE模块结构图。

具体实施方式

本发明设计了一种基于FPGA的卷积神经网络加速器。本发明包括卷积运算模块，池化模块，DMA模块，指令控制模块，地址控制模块，内部RAM模块和指令RAM模块。本文提出的设计在卷积运算中实现了并行化计算，单个时钟周期能够完成512次乘累加。设计了片内存储结构，减少片外存储访问的同时实现了有效的数据复用，使用流水线技术实现了完整的卷积神经网路单层运算过程，提升了运算效率。

提供以下解决方案：

包括卷积运算模块，池化模块，DMA模块，指令控制模块，地址控制模块，内部RAM模块和指令RAM模块。

其中所述的卷积运算模块，用于对卷积神经网路中的卷积层进行运算。卷积运算模块包括8个PE模块，和一个加法器，其中PE模块主要负责卷积运算中乘法运算，一部分加法运算，以及归一化(Batch Normalization)运算，加法器责将8个PE模块的计算结果与内部RAM输入进来的中间结果相累加。

所述的的池化模块，用于对卷积神经网路中的池化层进行运算，其支持最大池化运算。池化模块由8个相同的子模块组成，8个子模块并行计算以达到提高计算效率的目的，子模块结构包括一个数据比较器，一个计数器和两个先进先出存储(FIFO)，其中数据比较器负责将输入的数据依次比较，得到最大值结果，计数器负责记录输入比较器的数据个数，FIFO负责输入输出数据缓存。

所述的的DMA模块，用于卷积神经网络运算中的数据搬运工作，DMA模块包括三个DMA通道，分别为DMA图像通道，DMA权重通道，DMA指令通道。DMA图像通道负责从外部DDR中搬运图像数据到内部RAM中，以及从内部RAM中搬运运算后的数据到外部DDR中。DMA权重通道负责从外部DDR中搬运权重数据到卷积运算模块中。DMA指令通道负责从外部DDR中搬运指令数据到指令RAM中。

所述的指令控制模块，用于对指令的读取和分发工作，支持从指令RAM中读取数据，并将读取到的指令分发给卷积运算模块，池化模块，地址控制模块和DMA模块。

所述的内部RAM模块，负责存储卷积神经网络运算中的图像数据，权重数据，以及部分中间运算结果。

所述的指令RAM模块，负责存储控制各个模块的指令数据。

基于本发明架构的处理方法具体是：

1.将离线开发好的神经网络模型和参数转换成加速器能识别的神经网络指令。

2.将图像数据，权重数据和转换好的神经网络指令存入FPGA上的外部DDR中。

3.通过CPU启动加速器，加速器的DMA模块首先启动，将部分图像数据搬运到内部RAM中，将指令数据搬运到指令RAM中。

4.当图像数据和指令数据搬运完成后指令控制模块启动，从指令RAM中读取指令数据，分发给卷积运算模块和地址控制模块。卷积运算模块收到指令后，根据指令要求从内部RAM中读取图像数据同时从weight buffer中读取权重数据，并进行卷积运算，卷积运算后将数据送入RELU模块完成RELU运算。

5.卷积以及RELU运算完成后，指令控制模块将后面的指令分发给池化模块和相应的地址控制模块。池化模块收到指令后，从内部RAM中读取第4步运算后的数据，根据指令要求进行最大或平均池化运算，运算后将结果写回内部RAM。

6.反复执行步骤4和步骤5，直到整个卷积神经网络运算完成，然后将运算结果通过DMA搬运回DDR中，完成整个加速过程。

如图1所示，一种基于FPGA的神经网络加速器设计，包括卷积运算模块，池化模块，DMA模块，指令控制模块，地址控制模块，内部RAM模块和指令RAM模块。图中DMA模块负责从外部DDR中搬运图像数据，权重数据和指令数据，并负责将运算结果写回DDR，其中搬运进来的图像数据存放在内部RAM中，权重数据存放在weight buffer中，指令数据存放在指令RAM中，指令控制模块负责从指令RAM中读取指令数据分发给卷积运算模块，池化模块和这两个模块相对应的地址控制器。地址控制器1通过产生地址来访问内部RAM相应的特征图数据和权重数据并将这些数据送入卷积运算单元，同时负责将卷积模块以及RELU模块处理后的数据写回内部RAM中。地址控制器2负责从内部RAM中读取上一层卷积和RELU后的数据送入池化模块进行池化运算,然后将结果写回内部RAM中。

如图2所示，卷积运算单元，包括8个PE模块，和一个加法器，PE模块主要负责卷积运算中乘法运算，部分加法运算以及归一化(Batch Normalization)运算，加法器负责将8个PE模块的计算结果与内部RAM输入进来的中间结果相累加。PE模块结构如图3所示，8个PE模块每个模块中有一个weight buffer负责存储权重数据以便进行数据复用。输入PE的64个8bit特征值数据与相应的64个8bit权重数据对应相乘，然后将这64个结果累加起来加上偏置送入Batch Normalization模块进行归一化计算然后输出。

Claims

1.一种基于FPGA的神经网络加速器，其特征是，包括卷积运算模块，池化模块，直接内存存取DMA模块，指令控制模块，地址控制模块，内部随机存取存储器RAM模块和指令RAM模块；

其中所述的卷积运算模块，用于对卷积神经网路中的卷积层进行运算，卷积运算模块包括8个运算处理PE模块，和一个加法器，其中PE模块负责卷积运算中乘法运算，一部分加法运算，以及归一化运算，加法器则将8个PE模块的计算结果与内部随机存取存储器RAM模块输入进来的中间结果相累加；

所述的池化模块，用于对卷积神经网路中的池化层进行运算，池化模块由8个相同的子模块组成，8个子模块并行计算，子模块结构包括一个数据比较器，一个计数器和两个先进先出存储FIFO，其中数据比较器负责将输入的数据依次比较，得到最大值结果，计数器负责记录输入比较器的数据个数，FIFO负责输入输出数据缓存；

所述的DMA模块，用于卷积神经网络运算中的数据搬运工作，DMA模块包括三个DMA通道，分别为DMA图像通道，DMA权重通道，DMA指令通道，DMA图像通道负责从双倍速率同步动态随机存储器DDR中搬运图像数据到内部RAM中，以及从内部RAM中搬运运算后的数据到外部DDR中，DMA权重通道负责从外部DDR中搬运权重数据到卷积运算模块中，DMA指令通道负责从外部DDR中搬运指令数据到指令RAM中；

所述的地址控制模块，负责生成卷积运算模块和池化模块访问内部随机存取存储器RAM模块的地址；

所述的内部随机存取存储器RAM模块，负责存储卷积神经网络运算中的图像数据，权重数据，以及部分中间运算结果；

所述的指令RAM模块，负责存储控制各个模块的指令数据。

2.一种基于FPGA的神经网络加速方法，其特征是，利用权利要求1所述的神经网络加速器，步骤如下：

5)卷积以及RELU运算完成后，指令控制模块将后面的指令分发给池化模块和相应的地址控制模块，池化模块收到指令后，从内部RAM中读取步骤4)运算后的数据，根据指令要求进行最大或平均池化运算，运算后将结果写回内部RAM；

6)反复执行步骤4)和步骤5)，直到整个卷积神经网络运算完成，然后将运算结果通过DMA搬运回DDR中，完成整个加速过程。