CN109472734A

CN109472734A - 一种基于fpga的目标检测网络及其实现方法

Info

Publication number: CN109472734A
Application number: CN201811213005.7A
Authority: CN
Inventors: 顾晓东; 王玉玺
Original assignee: Jiangsu Second Normal College (jiangsu Academy Of Educational Sciences)
Current assignee: Jiangsu Second Normal College (jiangsu Academy Of Educational Sciences)
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-03-15
Anticipated expiration: 2038-10-18
Also published as: CN109472734B

Abstract

本发明公开了一种基于FPGA的目标检测网络及其实现方法，网络包括若干卷积层、若干池化层、上采样层、Route层、YOLO输出层，卷积层输出结果交替写入两个外部SRAM中；卷积层加速器包括四组移位寄存器和12个卷积运算操作单元；卷积层的二维卷积操作由四组移位寄存器实现；池化层输出结果交替写入两个SRAM中；目标检测网络各层之间的启动切换由握手信号决定；数据调度模块操纵SDRAM缓存图像数据，发送整帧图像数据至后续模块，将权值矩阵发送至卷积层中。本发明能够实现卷积层的加速，将传输时间掩盖于计算时间，得到FPGA平台计算吞吐与内存带宽的最佳匹配，达到最高计算‑通信比。

Description

一种基于FPGA的目标检测网络及其实现方法

技术领域

本发明属于图像处理技术领域，涉及目标检测网络技术，具体涉及一种基于FPGA的目标检测网络及其实现方法。

背景技术

目标检测是计算机视觉领域的关键任务之一，广泛地应用于无人驾驶以及安防系统。目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体(给出边界框)。目前主流的目标检测算法主要是基于深度学习模型，从基于RegionProposal的RCNN，fast-RCNN，到基于回归方法的SSD，YOLOV1，V2，V3等均超越了以往的算法。目前性能最好的YOLOV3能够实现小目标检测或检测相距很近的两个物体，相应的深度网络的嵌入式设计也随即提上日程。

由于深度网络的特殊计算模式，通用处理器实现深度网络并不高效，很难满足实时性的需求。于是，基于FPGA，GPU甚至ASIC的不同加速器被相继提出以提升深度网络设计性能。在这些方案中，基于FPGA的加速器由于其高能效，低功耗，开发周期短以及可重配置能力使其成为嵌入式AI和机器学习应用程序的理想选择。

现有的深度网络FPGA设计大致分为两类：一类采用压缩网络/剪枝网络实现，但其精度损失很大，效果并不理想；另一类采用定点化策略的设计，这类设计通常没有考虑FPGA平台的计算吞吐与内存带宽的匹配，要么未充分利用逻辑资源，要么未充分利用内存带宽，都不能获得最佳性能。

发明内容

为解决上述问题，本发明公开了一种基于FPGA的目标检测网络及其实现方法，针对目标检测领域的YOLO V3_tiny网络，进行卷积层Conv与池化层Maxpooling之间的流水设计，和卷积操作的移位寄存器设计，以及多个(12个)卷积运算操作的次序处理。

为了达到上述目的，本发明提供如下技术方案：

一种基于FPGA的目标检测网络，包括若干卷积层、若干池化层、上采样层、Route层、YOLO输出层，其中卷积层输出结果交替写入两个外部SRAM中；卷积层加速器包括四组移位寄存器和12个卷积运算操作单元，由计数器控制，按次序由12个卷积操作运算单元输出卷积结果，并根据计数器的数值剔除无效的卷积结果；卷积层的二维卷积操作由四组移位寄存器实现；池化层输出结果交替写入两个外部SRAM中；目标检测网络各层之间的启动切换由握手信号决定；数据调度模块操纵SDRAM缓存图像数据，发送整帧图像数据至后续模块，将权值矩阵发送至卷积层中。

进一步的，当采用3*3权值矩阵时，卷积层通过最前面的三组相连接的移位寄存器的输出与权值矩阵进行卷积运算，随着时钟信号的触发，移位寄存器的数据不停的向前移动，三组相连接的移位寄存器输出的不同的图像数据进入相对应的卷积运算处理单元。

进一步的，FPGA中还包括图像缩放模块，用于交替地从两SRAM中读数，将图像缩放为适合YOLO V3_tiny网络处理的尺寸。

进一步的，目标检测网络包括依次连接的卷积层、池化层、卷积层、池化层、卷积层、池化层、卷积层、池化层、卷积层、池化层、卷积层、卷积层、上采样层、Route层、卷积层、YOLO输出层。

本发明还提供了基于FPGA的目标检测网络的实现方法，包括如下步骤：

步骤1：首先采集的图像数据进入SDRAM缓存，数据调度模块操纵SDRAM发送整帧图像数据到FPGA外部存储器SRAM中，双缓存器实现乒乓操作；

步骤2：由握手信号启动的图像缩放模块交替地从两SRAM中读数，将图像缩放为适合YOLO V3_tiny网络处理的尺寸；

步骤3：由握手信号启动的卷积层和池化层交替地从两SRAM中读数，处理的结果送入下一级网络层，最终的YOLO输出层输出目标检测结果。

进一步的，卷积层加速器包括四组移位寄存器和12个卷积运算操作单元，由计数器控制，按次序由12个卷积操作运算单元输出卷积结果。

进一步的，卷积层的二维卷积操作方法由四组移位寄存器实现，当采用3*3权值矩阵时，卷积层通过最前面的三组相连接的移位寄存器的输出与权值矩阵进行卷积运算，随着时钟信号的触发，移位寄存器的数据不停的向前移动，三组相连接的移位寄存器输出的不同的图像数据进入相对应的卷积运算处理单元。

进一步的，输入权值矩阵和输入的图像数据均经过固定精度的定点化处理。

进一步的，所述固定精度为8位二进制。

与现有技术相比，本发明具有如下优点和有益效果：

本发明提供的FPGA的目标检测网络及其实现方法可以最大限度地加速计算，能够实现卷积层的加速，将传输时间掩盖于计算时间，得到FPGA平台的计算吞吐与内存带宽的最佳匹配，达到最高计算-通信比。

附图说明

图1为目标检测网络的FPGA设计与实现的架构示意图。

图2为目标检测网络的卷积层加速器的设计架构图。

图3为目标检测网络的卷积层加速器操作的设计结构图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供的基于FPGA的目标检测网络，其中YOLO V3_tiny网络结构如表1所示，包括以下多层网络：

表1

该网络的FPGA设计架构如图1所示，FPGA中的数据调度模块操纵SDRAM缓存图像数据，发送整帧图像数据至后续模块，并将权值矩阵发送至卷积层conv中，自SDRAM发出的的数据首先进入FIFO后再发送至外部SRAM中。FPGA中还包括图像缩放(Resize)模块，用于交替地从两SRAM中读数，将图像缩放为适合YOLO V3_tiny网络处理的尺寸。卷积层从SRAM中获取数据，其输出结果交替写入两个外部SRAM中，实现乒乓操作；池化层从SRAM中获取数据，其输出结果交替写入两个外部SRAM中，实现乒乓操作；目标检测网络各层之间的启动切换由握手信号决定。

更为具体的说，卷积层加速器结构如图2所示，由四组移位寄存器和12个卷积运算操作单元实现，由计数器控制，按次序由12个卷积操作运算单元输出卷积结果，考虑到边界效应，根据计数器的数值剔除无效的卷积结果。最终实现卷积层的加速，将传输时间掩盖于计算时间，达到计算资源和内存带宽的最佳匹配。每个卷积操作运算单元包含9个乘法器和8个加法器，12个卷积操作运算单元顺序运行可以最大限度地加速计算。

卷积层加速器的详细操作方法如图3所示，由四组移位寄存器实现。以3*3的权值矩阵为例，卷积层通过最前面的三组相连接的移位寄存器的输出与权值矩阵进行卷积运算，随着时钟信号的触发，移位寄存器的数据不停的向前移动，三组相连接的移位寄存器输出的不同的图像数据进入相对应的卷积运算处理单元。由于输入权值矩阵和输入的图像数据均经过固定精度(8位二进制)的定点化处理，卷积操作运算单元的执行总周期数为12(包含9个并行的乘法器处理周期(8个周期)加上4个顺序执行的加法器处理周期(4个周期)，一共12个周期)，因而设计的卷积层加速器中的12个卷积操作运算单元顺序运行可以最大限度地加速计算。

网络中池化层由四组移位寄存器实现。

基于上述网络，本发明还提供了该网络的实现方法，步骤如下：

步骤1：首先采集的图像数据进入SDRAM缓存，数据调度模块操纵SDRAM交替发送整帧图像数据到FPGA两外部存储器SRAM中，实现乒乓操作。

步骤2：由握手信号启动的图像缩放(Resize)模块交替地从两SRAM中读数，将图像缩放为适合YOLO V3_tiny网络处理的尺寸。

步骤3：由握手信号启动的卷积层Conv和池化层Maxpooling交替地从两SRAM中读数，处理的结果送入下一级网络层，最终的YOLO输出层输出目标检测结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于FPGA的目标检测网络，其特征在于：包括若干卷积层、若干池化层、上采样层、Route层、YOLO输出层，其中卷积层输出结果交替写入两个外部SRAM中；卷积层加速器包括四组移位寄存器和12个卷积运算操作单元，由计数器控制，按次序由12个卷积操作运算单元输出卷积结果，并根据计数器的数值剔除无效的卷积结果；卷积层的二维卷积操作由四组移位寄存器实现；池化层输出结果交替写入两个外部SRAM中；目标检测网络各层之间的启动切换由握手信号决定；数据调度模块操纵SDRAM缓存图像数据，发送整帧图像数据至后续模块，还将权值矩阵发送至卷积层中。

2.根据权利要求1所述的基于FPGA的目标检测网络，其特征在于：当采用3*3权值矩阵时，卷积层通过最前面的三组相连接的移位寄存器的输出与权值矩阵进行卷积运算，随着时钟信号的触发，移位寄存器的数据不停的向前移动，三组相连接的移位寄存器输出的不同的图像数据进入相对应的卷积运算处理单元。

3.根据权利要求1所述的基于FPGA的目标检测网络，其特征在于：FPGA中还包括图像缩放模块，用于交替地从两SRAM中读数，将图像缩放为适合YOLO V3_tiny网络处理的尺寸。

4.根据权利要求1所述的基于FPGA的目标检测网络，其特征在于：目标检测网络包括依次连接的卷积层、池化层、卷积层、池化层、卷积层、池化层、卷积层、池化层、卷积层、池化层、卷积层、卷积层、上采样层、Route层、卷积层、YOLO输出层。

5.一种基于FPGA的目标检测网络的实现方法，其特征在于，包括如下步骤：

步骤2：由握手信号启动的图像缩放模块交替地从两SRAM中读数，将图像缩放为适合YOLOV3_tiny网络处理的尺寸；

6.根据权利要求5所述的基于FPGA的目标检测网络的实现方法，其特征在于：卷积层加速器包括四组移位寄存器和12个卷积运算操作单元，由计数器控制，按次序由12个卷积操作运算单元输出卷积结果。

7.根据权利要求5所述的基于FPGA的目标检测网络的实现方法，其特征在于：卷积层的二维卷积操作方法由四组移位寄存器实现，当采用3*3权值矩阵时，卷积层通过最前面的三组相连接的移位寄存器的输出与权值矩阵进行卷积运算，随着时钟信号的触发，移位寄存器的数据不停的向前移动，三组相连接的移位寄存器输出的不同的图像数据进入相对应的卷积运算处理单元。

8.根据权利要求5所述的基于FPGA的目标检测网络的实现方法，其特征在于：输入权值矩阵和输入的图像数据均经过固定精度的定点化处理。

9.根据权利要求8所述的基于FPGA的目标检测网络的实现方法，其特征在于：所述固定精度为8位二进制。