CN107992940A

CN107992940A - 一种卷积神经网络在fpga上的实现方法及装置

Info

Publication number: CN107992940A
Application number: CN201711318756.0A
Authority: CN
Inventors: 景璐
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-05-04

Abstract

本发明实施例提供一种卷积神经网络在FPGA上的实现方法及装置，其中方法包括：压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；所述神经网络模型中神经网络单层包括多个计算单元，在FPGA上并行实现，各个所述计算单元之间通过channel进行数据交互。通过FPGA这种计算密集性计算设备提高了运算速度，另外压缩神经网络模型，使其模型可以全部存储到FPGA片上存储器，使得所有的推理计算和数据通信都在FPGA内部进行，大大减小了外部存储器通信带来的高功耗和低延迟。

Description

一种卷积神经网络在FPGA上的实现方法及装置

技术领域

本发明属于计算机领域，尤其涉及一种卷积神经网络在FPGA上的实现方法及装置。

背景技术

卷积神经网络(CNN)是人工神经网络的一种，广泛应用于图像分类、目标识别、行为识别、语音识别、自然语言处理和文档分类等领域。近几年来，随着计算机计算能力的增长以及神经网路结构的发展，CNN的网络性能和识别准确度都有了很大的提高。但与此同时，网络的深度不断加深，网络的计算量也越来越大。

因此，迫切需要提供一种实现方案，以提高运算速度。

发明内容

本发明实施例提供一种卷积神经网络在FPGA上的实现方法及装置，以解决上述问题。

本发明实施例提供一种卷积神经网络在FPGA上的实现方法。上述方法包括以下步骤：压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；所述神经网络模型中神经网络单层包括多个计算单元，在FPGA上并行实现，各个所述计算单元之间通过channel进行数据交互。

本发明实施例还提供一种卷积神经网络实现装置，包括：压缩模块，用于压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；FPGA模块，所述神经网络模型中神经网络单层包括多个计算单元，在所述FPGA模块上并行实现，各个所述计算单元之间通过channel进行数据交。

通过以下方案：压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；神经网络模型中神经网络单层包括多个计算单元，在FPGA上并行实现，各个计算单元之间通过channel进行数据交互。通过FPGA这种计算密集性计算设备提高了运算速度，另外压缩神经网络模型，使其模型可以全部存储到FPGA片上存储器，使得所有的推理计算和数据通信都在FPGA内部进行，大大减小了外部存储器通信带来的高功耗和低延迟，大大提升了FPGA对神经网络模型的处理效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1所示为本发明实施例1的卷积神经网络在FPGA上的实现方法处理流程图；

图2所示为本发明实施例2的卷积神经网络算法整体实现架构示意图；

图3所示为本发明实施例2的卷积神经网络各层实现方案图；

图4所示为本发明实施例3的卷积神经网络实现装置结构图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1所示为本发明实施例1的卷积神经网络在FPGA上的实现方法处理流程图，包括以下步骤：

步骤102：压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中。

步骤104：所述神经网络模型中神经网络单层包括多个计算单元，在FPGA上并行实现，各个所述计算单元之间通过channel进行数据交互。

上述方案通过FPGA这种计算密集性计算设备提高了运算速度，另外压缩神经网络模型，使其模型可以全部存储到FPGA片上存储器，使得所有的推理计算和数据通信都在FPGA内部进行，大大减小了外部存储器通信带来的高功耗和低延迟，大大提升了FPGA对神经网络模型的处理效率。

进一步地，所述多个计算单元包括：图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。

进一步地，所述特征图数据存储单元接收所述控制器单元发送的控制信号；

接收所述图片数据读取单元发送的数据，并根据所述控制信号中的写地址，将所述图片数据写入FPGA上数据缓存的特定地址；

接收所述模型数据读取单元读取的模型数据；

根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据，并对该图片数据进行Winograd转换；

将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元，使其进行卷积计算。

进一步地，所述PE单元接收来自所述特征图数据存储单元的数据和控制信号，进行点积计算，并对点积结果进行累加；

所述激活单元接收来自所述PE单元的点积计算结果，对所述点积计算结果进行Winograd转换，然后进行激活操作，输出计算结果；

所述BatchNorm计算单元接收来自所述激活单元的计算数据，进行BatchNorm计算，输出计算结果；

所述池化单元读取来自所述BatchNorm单元的计算数据，以流水线的方式依次处理每组输出特征图的池化操作；

所述输出单元输出最终的处理结果到外部存储。

其中，卷积神经网络在FPGA上的实现方法支持多种开源架构的模型输入，包括TensorFlow、Caffe、MxNet。支持模型压缩、支持浮点模型计算和量化模型计算。

卷积神经网络的实现包括模型训练和和线上推理两个阶段。本实施例用于应用推理阶段。本实施例通过以下各方面实现：

1)不同开源架构训练模型输入解析的实现

对于不同的开源架构如TensorFlow、Caffe等的模型输入，只需要调用不同的c++或Python接口即可实现模型的解析，进而进行模型的计算。TensorFlow和Caffe的模型解析都是使用Proto Buffer实现。此架构也可以扩展到目前没有支持的模型输入格式，扩展时只需要实现相应的接口就可，不需要修改之前的相关内容。

2)神经网络模型压缩

对于常用的卷积神经网络，如AlexNet，其模型大小为240MB，而FPGA的片上存储器大小为5MB左右，故在进行卷积神经网络推理计算时，需要分别读入单个计算层的模型数据进行计算，并且在进行多张图片的推理计算时，模型需要重复的从外部存储器读入。这样就增加了模型传输延迟，并且增加了FPGA的计算功耗。本实施例对神经网络模型在保持高精度的情况下，对模型进行了压缩，可压缩到5MB以下，以使其可以全部存储到FPGA片上存储器。在FPGA启动阶段，读取外部存储器的压缩模型到片上存储器。在多张图片的神经网络算法处理阶段，从片上存储器读取模型到处理单元。

2)神经网络模型的实现

此架构实现了卷积神经网络常用的基本计算单元，如卷积计算、池化计算、BatchNorm计算、激活计算、EltWise计算、局部响应归一化计算、DropOut计算等。

卷积神经网络算法的整体实现架构如图2所示。对于卷积神经网络单层中的多个计算，在FPGA上并行实现，各个单元之间通过channel进行数据交互。卷积神经网络的主要功能模块包括图片数据读取模块、模型数据读取模块、控制器模型、特征图数据存储模块、PE模块、激活模块、BatchNorm模块、池化模块和输出模块。

对于输入特征图、输出特征图都进行了向量化，如图3所示。输入特征图向量化参数为VEC_SIZE，输出特征图向量化参数为LANE_SIZE，即VEC_SIZE个输入特征图为一组进行运算，输出一组即LANE_SIZE个输出特征图，可提高FPGA计算的并行度。

神经网络各个计算单元的介绍如下：

(1)图片数据读取单元读取全部的输入推理图片，并存储到特征图数据存储模块，供PE单元计算使用。

(2)模型数据读取单元读取全部的压缩模型数据，并且存储到片上模型缓存器。在图片推理进行时，根据当前处理的层数计算模型数据地址偏移，读取模型数据并进行Winograd转换，并且发送模型数据到PE单元。

(3)控制器单元控制特征图数据存储单元和PE单元的工作时序。控制器单元生成特征图存储单元每个时钟周期的控制时序，使其在不同的工作模式进行不同的工作。

(4)特征图数据存储单元的功能如下：

a)接收控制器单元发送的控制信号；

b)接收图片数据读取单元发送的数据，根据控制器单元发送的控制信号中的写地址，写接收到的图片数据到片上数据缓存的特定地址；

c)接收模型数据读取单元读取的模型数据；

d)根据控制器发送单元发送的控制信号中的读数据地址读取当前时钟周期PE模块计算需要的图片数据，进行Winograd转换；

e)整合输入图片数据、模型数据和控制信号，发送到PE单元，使其进行卷积计算。

(5)PE单元接收特征图数据存储单元的数据和控制信号，进行点积计算，并对对此数据输入的点积结果进行累加。当控制信号中的输出使能信号置位时，即输出计算结果。

(6)激活单元接收PE单元的数据，首先对计算结果进行Winograd转换，然后进行激活操作，输出计算结果。

(7)BatchNorm计算单元接收激活单元的计算数据，进行BatchNorm计算，输出计算结果。

(8)池化单元读取BatchNorm单元的计算数据，以流水线的方式依次处理每组输出特征图的池化操作。每组内的单个池化操作并行进行。每个时钟周期可实现一次池化操作。如果当前计算为神经网络的最后一层计算，即输出池化结果数据到输出单元，输出结果数据；如果不是最后一层计算，即输出池化结果数据到特征图数据存储单元，以使其他单元进行后续处理。

(9)输出单元输出最终的处理结果到外部存储器，并传输到主机端。

(10)多有处理单元之间的数据传输都采用channel进行，多个处理单元在FPGA中并行执行。

本实施例中的卷积神经网络架构可基于Intel的Software Development Kit(SDK)开发环境和OpenCL语言实现。硬件平台安装Intel SDK开发环境后，编译即可运行于不同的Intel FPGA平台。

本实施例方案可使深度学习网络高效、方便的配置到FPGA高性能计算设备，用户不需要了解深度学习网络的算法本身，也不需要对算法进行优化，就可以在产品中方便的使用，既可以推进深度学习算法在实际产品中的使用。

图4所示为本发明实施例3的卷积神经网络实现装置结构图。

如图4所示，根据本发明实施例的卷积神经网络实现装置包括：压缩模块402，用于压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；

FPGA模块404，所述神经网络模型中神经网络单层包括多个计算单元，在所述FPGA模块上并行实现，各个所述计算单元之间通过channel进行数据交。

进一步地，在所述FPGA模块404中实现的所述多个计算单元包括：图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。

进一步地，所述特征图数据存储单元还用于接收所述控制器单元发送的控制信号，接收所述图片数据读取单元发送的数据，并根据所述控制信号中的写地址，将所述图片数据写入FPGA上数据缓存的特定地址，以及接收所述模型数据读取单元读取的模型数据，根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据，并对该图片数据进行Winograd转换，以及将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元，使其进行卷积计算。

所述输出单元输出最终的处理结果到外部存储器。

进一步地，支持多种开源架构的模型输入，包括TensorFlow、Caffe、MxNet。

本实施例能够压缩神经网络模型，使其可全部存储于FPGA片上存储器，免去外部存储器重复访问带来的低延时和高功耗，其次神经网络多层之间的数据交互均在FPGA片上进行，免去外部存储器重复访问带来的低延时和高功耗，并且特征图数据缓存和模型数据缓存均采用双缓存设计，可减小数据通信对计算的影响，提高计算效率，还能够对卷积计算使用Winograd算法进行优化。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种卷积神经网络在FPGA上的实现方法，其特征在于，包括以下步骤：

压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；

所述神经网络模型中神经网络单层包括多个计算单元，在FPGA上并行实现，各个所述计算单元之间通过channel进行数据交互。

2.根据权利要求1所述的方法，其特征在于，所述多个计算单元包括：图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。

3.根据权利要求2所述的方法，其特征在于，所述特征图数据存储单元接收所述控制器单元发送的控制信号；

接收所述模型数据读取单元读取的模型数据；

4.根据权利要求3所述的方法，其特征在于，所述PE单元接收来自所述特征图数据存储单元的数据和控制信号，进行点积计算，并对点积结果进行累加；

所述输出单元输出最终的处理结果到外部存储器。

5.根据权利要求1至4中任一项所述的方法，其特征在于，支持多种开源架构的模型输入，包括TensorFlow、Caffe、MxNet。

6.一种卷积神经网络实现装置，其特征在于，包括：

压缩模块，用于压缩神经网络模型，并将压缩后的神经网络模型存储于FPGA存储器中；

FPGA模块，所述神经网络模型中神经网络单层包括多个计算单元，在所述FPGA模块上并行实现，各个所述计算单元之间通过channel进行数据交。

7.根据权利要求6所述的装置，其特征在于，所述多个计算单元包括：图片数据读取单元、模型数据读取单元、控制器单元、特征图数据存储单元、PE单元、激活单元BatchNorm计算单元、池化单元、输出单元。

8.根据权利要求7所述的装置，其特征在于，所述特征图数据存储单元还用于接收所述控制器单元发送的控制信号，接收所述图片数据读取单元发送的数据，并根据所述控制信号中的写地址，将所述图片数据写入FPGA上数据缓存的特定地址，以及接收所述模型数据读取单元读取的模型数据，根据所述控制器单元发送的控制信号中的读数据地址读取当前时钟周期PE单元计算需要的图片数据，并对该图片数据进行Winograd转换，以及将经过转换的图片数据、所述模型数据和控制信号发送至所述PE单元，使其进行卷积计算。

9.根据权利要求8所述的装置，其特征在于，所述PE单元接收来自所述特征图数据存储单元的数据和控制信号，进行点积计算，并对点积结果进行累加；

所述输出单元输出最终的处理结果到外部存储器。

10.根据权利要求6至9中任一项所述的装置，其特征在于，支持多种开源架构的模型输入，包括TensorFlow、Caffe、MxNet。