CN108804973A

CN108804973A - 基于深度学习的目标检测算法的硬件架构及其执行方法

Info

Publication number: CN108804973A
Application number: CN201710286763.0A
Authority: CN
Inventors: 牛昕宇
Original assignee: Shanghai Kun Cloud Mdt Infotech Ltd
Current assignee: Shenzhen Corerain Technologies Co Ltd
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2018-11-13
Anticipated expiration: 2037-04-27
Also published as: CN108804973B

Abstract

本发明提供一种基于深度学习的目标检测算法的硬件架构及其执行方法，包括设置在FPGA上的输入缓存器、行缓存器、寄存器矩阵、卷积计算核、输出缓存器和全连接计算核；输入缓存器用于缓存基于深度学习的目标检测算法的输入层的数据；行缓存器包括k个存储单元，用于缓存k行输入缓存器的输出数据；所述寄存器矩阵包括k*k个寄存器；卷积计算核用于根据每个时钟周期所述寄存器矩阵输出的k*k个寄存器数据进行卷积计算；输出缓存器用于存储所述卷积计算核的输出结果；全连接计算核用于计算得到目标检测的最终结果。本发明的基于深度学习的目标检测算法的硬件架构及其执行方法能够在FPGA硬件架构下，实现基于深度学习的目标检测算法的实时计算。

Description

基于深度学习的目标检测算法的硬件架构及其执行方法

技术领域

本发明涉及FPGA的技术领域，特别是涉及一种基于深度学习的目标检测算法的硬件架构及其执行方法。

背景技术

现场可编程门阵列(Field-Programmable Gate Array，FPGA)是一种在生产后可编程的集成电路芯片。FPGA芯片中电路提供可编程节点，可根据用户设定重新定义电路逻辑。相比于传统处理芯片CPU，FPGA可提供针对特定问题的高度优化电路，提升百倍级别计算性能。相比于传统集成电路芯片ASIC，FPGA可提供更灵活的计算方案。

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一。目标检测为机器视觉的一个基础应用。相较于图像识别，目标检测需要在图像中标记物体位置。典型的目标检测算法包括以下两个步骤：

(1)边框收敛

(2)框内物体识别

然而，基于滑动窗口以及区域分割的目标检测算法存着这检测准确率低、检测时间长的缺点。因此，基于深度学习的目标检测算法应用而生，如YOLO，Faster R-CNN。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。因此，基于深度学习的目标检测算法需要大量的计算资源支持。在机器人、无人机、卫星等急需人工智能支持的移动设备中，受限于计算资源与空间，无法支持此类基于深度学习的目标检测算法的实现。

针对深度学习算法的硬件定制架构为在功耗、空间资源受限条件下的实时目标检测提供了可能。然而，在实际应用中，对于复杂的目标检测算法，如何在有限的硬件资源下实现计算性能的最优化成为当前一个热点研究课题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于深度学习的目标检测算法的硬件架构及其执行方法，能够在FPGA硬件架构下，在低功耗、低空间条件下实现基于深度学习的目标检测算法的实时计算。

为实现上述目的及其他相关目的，本发明提供一种基于深度学习的目标检测算法的硬件架构，包括设置在FPGA上的输入缓存器、行缓存器、寄存器矩阵、卷积计算核、输出缓存器和全连接计算核；所述输入缓存器用于缓存基于深度学习的目标检测算法的输入层的数据；所述行缓存器包括k个存储单元，用于缓存k行输入缓存器的输出数据，其中，k为卷积计算核的大小；所述寄存器矩阵包括k*k个寄存器，第一列k个寄存器分别与所述行缓存器的k个存储单元的输出端相连，相邻列寄存器相互连接；所述卷积计算核用于根据每个时钟周期所述寄存器矩阵输出的k*k个寄存器数据进行卷积计算；所述输出缓存器用于存储所述卷积计算核的输出结果；所述全连接计算核用于将所述输出缓存器中卷积计算核计算得到的特征向量图与所述输入缓存器输入的系数矩阵相乘，以得到目标检测的最终结果。

于本发明一实施例中，所述行缓存器通过硬件连接线与所述输入缓存器连接；当多个卷积计算核并行计算时，所述行缓存器通过并行连接线与所述输入缓存器相连。

于本发明一实施例中，单个卷积计算核能够配置为多个小卷积计算核。

于本发明一实施例中，所述全连接计算核包含多个矩阵向量乘单元，能够配置为行计算计算核或列计算计算核。

于本发明一实施例中，所述全连接计算核包括多个全连接计算子核，每个全连接计算子核的输入为卷积计算核计算得到的或者其他全连接计算子核计算得到的特征向量图，输出为目标检测的最终结果或目标检测的中间结果。

同时，本发明还提供一种基于深度学习的目标检测算法的硬件架构的执行方法，包括以下步骤：

设置在FPGA上的输入缓存器缓存基于深度学习的目标检测算法的输入层的数据；

设置在FPGA上的行缓存器基于k个存储单元缓存k行输入缓存器的输出数据，其中，k为卷积计算核的大小；

设置在FPGA上的寄存器矩阵基于k*k个寄存器寄存行缓存器输出的数据，其中，第一列k个寄存器分别与行缓存器的k个存储单元的输出端相连，相邻列寄存器相互连接；

设置在FPGA上的卷积计算核根据每个时钟周期所述寄存器矩阵输出的k*k个寄存器数据进行卷积计算；

设置在FPGA上的输出缓存器存储卷积计算核的输出结果；

设置在FPGA上的全连接计算核将输出缓存器中卷积计算核计算得到的特征向量图与输入缓存器输入的系数矩阵相乘，以得到目标检测的最终结果。

如上所述，本发明的基于深度学习的目标检测算法的硬件架构及其执行方法，具有以下有益效果：

(1)能够在FPGA硬件架构下实现基于深度学习的目标检测算法的实时计算；

(2)在功耗、计算资源、空间均有限的情况下，支持目标识别算法的实时运行；

(3)实用性强。

附图说明

图1显示为本发明的基于深度学习的目标检测算法的硬件架构的结构示意图；

图2显示为本发明的输入缓存器、行缓存器、寄存器矩阵的连接结构示意图；

图3显示为本发明的寄存器矩阵的重构状态和共享寄存器的示意图；

图4显示为本发明的基于深度学习的目标检测算法的硬件架构的执行方法的流程图。

元件标号说明

1 输入缓存器

2 行缓存器

3 寄存器矩阵

4 卷积计算核

5 输出缓存器

6 全连接计算核

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

本发明的基于深度学习的目标检测算法的硬件架构及其执行方法能够在FPGA硬件架构下实现基于深度学习的目标检测算法的实时计算。现有技术中，基于深度学习的目标检测算法大致分为以下两派：

(1)基于区域提名的，如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN；

(2)端到端(End-to-End)，无需区域提名的，如YOLO、SSD。

如图1所示，本发明的基于深度学习的目标检测算法的硬件架构包括设置在FPGA上的输入缓存器1、行缓存器2、寄存器矩阵3、卷积计算核4、输出缓存器5和全连接计算核6。

输入缓存器1用于缓存基于深度学习的目标检测算法的输入层的数据。

具体地，输入缓存器1支持对所有目标检测算法输入网络层级输入通道的缓存。

行缓存器2与输入缓存器1相连，包括k个存储单元，用于缓存k行输入缓存器1的输出数据，其中，k为卷积计算核的大小。

具体地，如图2所示，行缓存器2通过硬件连接线与输入缓存器连接，当本发明的基于深度学习的目标检测算法的硬件架构支持多个卷积计算核并行计算时，行缓存器通过并行连接线与输入缓存器相连。在行缓存器中，每行数据存储于单个存储单元中，单个存储单元提供输入输出引脚。每个存储单元的输入输出引脚数由卷积计算核的并行度，也就是输入缓存器的连线数目决定。

现有技术中，常见的卷积计算核为1*1、3*3、5*5和7*7，其中对应的卷积计算核的大小k分别为1、3、5和7。

寄存器矩阵3包括k*k个寄存器，第一列k个寄存器分别与行缓存器的k个存储单元的输出端相连，相邻列寄存器相互连接，如图2所示。

具体地，每个时钟周期，寄存器矩阵3内数据从左至右进行转移。每个时钟周期，所有k*k个寄存器数据输入对应的卷积计算核，以进行卷积计算。

卷积计算核4与寄存器矩阵3相连，用于根据每个时钟周期所述寄存器矩阵3输出的k*k个寄存器数据进行卷积计算。

优选地，为支持不同目标检测算法中的不同大小的卷积计算核，所述卷积计算核支持可重构配置，可在运行时重新配置为1*1、3*3、5*5、7*7等多种卷积计算核，并支持单个卷积计算核(如7*7)重新配置为多个小卷积计算核(如3*3)。以7x7卷积计算核为例，当配置为3x3卷积计算时，多个相邻3*3寄存器组由于存储数据相同，可共享寄存器单元。如图3所示，虚线内的寄存器矩阵对应一个卷积计算核，一个箭头对应的两个寄存器为共享寄存器，存储的数据相同。由图可知，两个相邻3*3寄存器矩阵共享2列寄存器，共使用4列寄存器。

需要说明的是，由于各个卷积计算核需要独立运行，故不同的计算器无法实现共享。以重新配置为3*3卷积计算核为例，7*7的卷积计算核使用49个乘法器，3*3的卷积计算核使用9个乘法器。故一个7*7的卷积计算核能够配置为5个3*3的卷积计算核。

输出缓存器5与卷积计算核4相连，用于存储卷积计算核4的输出结果。

具体地，输出缓存器5还与片下存储单元相连，当卷积计算核完成一个输出通道的输出，输出缓存器将其保存的输出结果输出至片下存储单元进行存储。

全连接计算核6与输入缓存器1和输出缓存器5相连，用于将输出缓存器5中卷积计算核计算得到的特征向量图与输入缓存器1输入的系数矩阵相乘，以得到目标检测的最终结果。

具体地，全连接计算核包含多个矩阵向量乘单元。根据目标检测算法需求，全连接计算核可配置为行计算计算核或列计算计算核。

优选地，全连接计算核可包括多个全连接计算子核，每个全连接计算子核的输入为卷积计算核计算得到的或者其他全连接计算子核计算得到的特征向量图，输出为目标检测的最终结果或目标检测的中间结果。

下面以YOLO及Faster R-CNN两个目标识别算法为例来进一步阐述本发明的基于深度学习的目标检测算法的硬件架构。

YOLO算法采用GoogleNet，包含24层卷积层(Conv1-Conv24)及2层全连接层(FC1和FC2)，每层的算法参数包括输入数据的行数、列数、输入通道数、输出通道数以及卷积核大小，具体如表1所示。

表1、YOLO算法各层参数

Faster R-CNN算法采用VGGNet，包含13层卷积层(Conv1-Conv13)、3层区域提取层(Rpn、Rpn_cls_score和Rpn_bbox_pred)、以及2层全连接层(FC1和FC2)，每层的算法参数包括输入数据的行数、列数、输入通道数、输出通道数以及卷积核大小，如表2所示。

表2、Faster R-CNN算法各层参数

因此，由于YOLO和Faster R-CNN算法分别包含不同的计算以及网络架构，本发明的基于深度学习的目标检测算法的硬件架构进行如下配置：

(1)将输入缓存器配置为所有层数所需的最大存储空间，且支持片上数据复用。若所需存储空间大于片上存储资源，在采用数据分割。

根据数据分割后行数配置行存储器，由于YOLO包含不同的卷积计算核，故行缓存器配置为可重构行缓存器，可缓存7行、3行、1行数据。

对于一个7*7的寄存器矩阵，可重构为支持7x7、5x5、3x3以及1x1卷积计算的寄存器组。由于单个寄存器矩阵包括49个寄存器，YOLO运行时重新配置为12个3x3寄存器组以及49个1x1寄存器组。针对具有相同卷积计算核的Faster R-CNN，寄存器矩阵为3x3寄存器组，多个3x3寄存器组间共享相邻数据。

卷积计算核与寄存器矩阵相对应。与寄存器组配置不同的是，相邻的寄存器存储的数据在不同卷积计算中可以共享。对于卷积计算核，虽然数据可以共享，由于计算单元并行运行，所有的7x7、5x5、3x3以及1x1计算单元并行运行，相互之间不共享资源。对于YOLO而言，7x7计算单元可重构为3x3及1x1计算单元，对于Faster R-CNN而言，其只需支持3x3计算单元。

输出缓存器保存一个输出通道结果。

全连接计算核的计算配置由其输入向量大小决定。

如图4所示，本发明的基于深度学习的目标检测算法的硬件架构的执行方法包括以下步骤：

步骤S1、设置在FPGA上的输入缓存器缓存基于深度学习的目标检测算法的输入层的数据；

具体地，输入缓存器支持对所有目标检测算法输入网络层级输入通道的缓存。

步骤S2、设置在FPGA上的行缓存器基于k个存储单元缓存k行输入缓存器的输出数据，其中，k为卷积计算核的大小。

具体地，如图2所示，行缓存器通过硬件连接线与输入缓存器连接，当本发明的基于深度学习的目标检测算法的硬件架构支持多个卷积计算核并行计算时，行缓存器通过并行连接线与输入缓存器相连。在行缓存器中，每行数据存储于单个存储单元中，单个存储单元提供输入输出引脚。每个存储单元的输入输出引脚数由卷积计算核的并行度，也就是输入缓存器的连线数目决定。

步骤S3、设置在FPGA上的寄存器矩阵基于k*k个寄存器寄存行缓存器输出的数据，其中，第一列k个寄存器分别与行缓存器的k个存储单元的输出端相连，相邻列寄存器相互连接，如图2所示。

具体地，每个时钟周期，寄存器列内数据从左至右进行转移。每个时钟周期，所有k*k个寄存器数据输入对应的卷积计算核，以进行卷积计算。

步骤S4、设置在FPGA上的卷积计算核根据每个时钟周期所述寄存器矩阵输出的k*k个寄存器数据进行卷积计算。

步骤S5、设置在FPGA上的输出缓存器存储卷积计算核的输出结果。

具体地，输出缓存器还与片下存储单元相连，当卷积计算核完成一个输出通道的输出，输出缓存器将其保存的输出结果输出至片下存储单元进行存储。

步骤S6、设置在FPGA上的全连接计算核将输出缓存器中卷积计算核计算得到的特征向量图与输入缓存器输入的系数矩阵相乘，以得到目标检测的最终结果。

综上所述，本发明的基于深度学习的目标检测算法的硬件架构及其执行方法能够在FPGA硬件架构下实现基于深度学习的目标检测算法的实时计算；在功耗、计算资源、空间均有限的情况下，支持目标识别算法的实时运行；实用性强。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于深度学习的目标检测算法的硬件架构，其特征在于：包括设置在FPGA上的输入缓存器、行缓存器、寄存器矩阵、卷积计算核、输出缓存器和全连接计算核；

所述输入缓存器用于缓存基于深度学习的目标检测算法的输入层的数据；

所述行缓存器包括k个存储单元，用于缓存k行输入缓存器的输出数据，其中，k为卷积计算核的大小；

所述寄存器矩阵包括k*k个寄存器，第一列k个寄存器分别与所述行缓存器的k个存储单元的输出端相连，相邻列寄存器相互连接；

所述卷积计算核用于根据每个时钟周期所述寄存器矩阵输出的k*k个寄存器数据进行卷积计算；

所述输出缓存器用于存储所述卷积计算核的输出结果；

所述全连接计算核用于将所述输出缓存器中卷积计算核计算得到的特征向量图与所述输入缓存器输入的系数矩阵相乘，以得到目标检测的最终结果。

2.根据权利要求1所述的基于深度学习的目标检测算法的硬件架构，其特征在于：所述行缓存器通过硬件连接线与所述输入缓存器连接；当多个卷积计算核并行计算时，所述行缓存器通过并行连接线与所述输入缓存器相连。

3.根据权利要求1所述的基于深度学习的目标检测算法的硬件架构，其特征在于：单个卷积计算核能够配置为多个小卷积计算核。

4.根据权利要求1所述的基于深度学习的目标检测算法的硬件架构，其特征在于：所述全连接计算核包含多个矩阵向量乘单元，能够配置为行计算计算核或列计算计算核。

5.根据权利要求1所述的基于深度学习的目标检测算法的硬件架构，其特征在于：所述全连接计算核包括多个全连接计算子核，每个全连接计算子核的输入为卷积计算核计算得到的或者其他全连接计算子核计算得到的特征向量图，输出为目标检测的最终结果或目标检测的中间结果。

6.一种基于深度学习的目标检测算法的硬件架构的执行方法，其特征在于：包括以下步骤：

设置在FPGA上的输出缓存器存储卷积计算核的输出结果；

7.根据权利要求6所述的基于深度学习的目标检测算法的硬件架构的执行方法，其特征在于：所述行缓存器通过硬件连接线与所述输入缓存器连接；当多个卷积计算核并行计算时，所述行缓存器通过并行连接线与所述输入缓存器相连。

8.根据权利要求6所述的基于深度学习的目标检测算法的硬件架构的执行方法，其特征在于：单个卷积计算核能够配置为多个小卷积计算核。

9.根据权利要求6所述的基于深度学习的目标检测算法的硬件架构的执行方法，其特征在于：所述全连接计算核包含多个矩阵向量乘单元，能够配置为行计算计算核或列计算计算核。

10.根据权利要求6所述的基于深度学习的目标检测算法的硬件架构的执行方法，其特征在于：所述全连接计算核包括多个全连接计算子核，每个全连接计算子核的输入为卷积计算核计算得到的或者其他全连接计算子核计算得到的特征向量图，输出为目标检测的最终结果或目标检测的中间结果。