CN107403117A

CN107403117A - 基于fpga的三维卷积器

Info

Publication number: CN107403117A
Application number: CN201710630095.9A
Authority: CN
Inventors: 王海; 赵伟; 沈越; 邵梦君; 王珂; 王中正
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-28

Abstract

本发明提出了一种基于FPGA的三维卷积器，用于解决现有技术中存在的输入数据重复载入的技术问题，包括在FPGA中实现的六个模块，其中输入数据存储模块，用于对待处理特征图进行输入缓存；三维卷积核存储模块，用于在FPGA内部以多个二维卷积核的形式存储一个三维卷积核；二维卷积器阵列模块，用于将待处理特征图与三维卷积核卷积后输出；中间数据延迟线模块，用于将指定的二维卷积器卷积结果相加、对相加结果延迟后输出；加法器模块，用于将二维卷积器阵列模块输出和中间数据延迟线输出相加并输出；数据输出控制器模块，用于控制加法器模块多个输出的先后顺序。本发明能够显著提升三维卷积运算速度，可用于目标跟踪或行为检测等方面。

Description

基于FPGA的三维卷积器

技术领域

本发明属于视频处理技术领域，涉及一种基于FPGA的三维卷积器，可用于基于FPGA硬件平台的利用卷积神经网络技术进行目标跟踪或人体行为检测的系统中。

背景技术

随着微电子制造工艺和集成电路设计的进步，现场可编程门阵列(FieldProgrammable Gate Array，FPGA)得到了快速发展，因为其资源丰富、设计灵活、功耗低的特点，已经被广泛使用。FPGA实现平台因为其高性能、低功耗、可重配的特点具备广阔的发展前景。FPGA作为可编程标准器件可适用于各种不同的功能，其需要的研发周期较短、开发成本低廉，并且具有很强的灵活性。近年来，基于FPGA的高层次综合工具的发展，极大的降低了FPGA设计的开发难度，使FPGA实现复杂算法更加方便快捷。

卷积神经网络作为一类典型的前馈型多层神经网络，能够从大量数据中自动提取复杂特征，进行自主学习，并且对输入图像要求不高，不需要对输入图像进行繁杂的前期预处理。因为卷积神经网络自身特定的网络结构，其识别能力不易受到图像中图形畸变或简单几何变换的影响，对有一些细微变化的识别对象也有较好的识别效果。卷积神经网络多年来一直是多层人工神经网络研究的一个重要方向、研究热点。

由于各种硬件平台的出现，二维卷积神经网络模型得到了广泛的发展。为满足视频处理领域的需求，在二维卷积神经网络的基础上，人们又提出了三维卷积神经网络的概念，三维卷积神经网络目前已成功应用于目标跟踪和人体行为检测等方面。三维卷积运算可以一次在多个连续帧中提取更多的信息。然而，这意味着将有更大的计算负担，特别是对于实时性要求高的系统。因此，在运用到三维卷积运算的系统中，如何达到需要的计算速度同时降低功耗已成为主要问题。

研究开发人员针对FPGA的三维卷积运算实现提出了多种结构，不同结构对FPGA内部的资源占用情况、数据传输带宽需求等各不相同，各有优劣。这些结构的普遍特征基本都包括输入数据存储模块、二维卷积器阵列模块、加法器模块和数据输出控制器模块。输入数据存储模块接收前级发送来的待处理特征图和三维卷积核，并发送给二维卷积器阵列模块，二维卷积器阵列模块完成多个二维卷积后将卷积结果发送给加法器模块相加，相加结果最终由数据输出控制器模块输出。

Bromberger M,Bastian P,Bergeest J P于2016年在《International Symposiumon Biomedical Imaging》上发表了名为“FPGA-accelerated Richardson-Lucydeconvolution for 3D image data”的论文。文中提出了一种基于FPGA的三维卷积运算结构，该结构包括输入数据存储模块、二维卷积器阵列模块、加法器和输出模块。输入数据存储模块接收前级发送来的待处理特征图和三维卷积核并发送给二维卷积器阵列模块，二维卷积器阵列模块以串行形式先后完成多次二维卷积，将每一次的二卷积结果缓存在加法器和输出模块并与前一次二维卷积结果相加，直到完成一次三维卷积后，将结果输出。该结构资源占用少，但并行度不高，且输入数据需要多次载入，增加了对数据源和FPGA之间数据传输带宽的要求，进而使三维卷积运算的整体速度受到限制。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于FPGA的三维卷积器，利用卷积运算数据相关性低的特点，用在FPGA中实现的中间数据延迟线对中间数据进行缓存，避免输入数据的重复载入，实现了所有输入数据仅需要输入一次的特性，用于解决现有计算结构需要多次载入数据的技术问题。

为实现上述目的，本发明采取的技术方案为：

基于FPGA的三维卷积器，包括在FPGA中实现的输入数据存储模块、二维卷积器阵列模块、加法器模块和数据输出控制器模块，其中：

输入数据存储模块，用于将多幅待处理特征图缓存在FPGA内部RAM中，并发送。

二维卷积器阵列模块，包括多个二维卷积器，用于对多幅待处理特征图与二维卷积核进行卷积，并输出多个卷积结果。

加法器模块，包括多个多输入加法器，用于将二维卷积器阵列模块输出的多个卷积结果与中间数据延迟线模块的输出相加并输出。

数据输出控制器模块，用于控制加法器模块的多个相加结果输出的先后顺序，并将多个相加结果输出。

所述基于FPGA的三维卷积器，还包括三维卷积核存储模块和中间数据延迟线模块，其中：

三维卷积核存储模块，用于存储三维卷积核的数值，并将三维卷积核的数值输出给二维卷积器阵列模块。

中间数据延迟线模块，包括多条中间数据延迟线，每条中间数据延迟线与一个或多个二维卷积器相连，用于将一个二维卷积器的卷积结果延迟后输出，或将多个二维卷积器的卷积结果相加，并将相加结果延迟后输出。

上述基于FPGA的三维卷积器，所述三维卷积核存储模块，其存储三维卷积核的数值，是按照三维卷积核的长度值，将一个三维卷积核以多个二维卷积核的形式进行的。

上述基于FPGA的三维卷积器，所述二维卷积器阵列模块，采用全缓存模式，通过循环展开和流水线的运算方法实现对待处理特征图和二维卷积核的二维卷积运算，并将卷积结果输出给中间数据延迟线模块或加法器模块。

上述基于FPGA的三维卷积器，所述多个多输入加法器，其中一个多输入加法器与多个二维卷积器相连，用于将多个二维卷积器的卷积结果相加并输出，其余多输入加法器与一条中间数据延迟线和一个或多个二维卷积器相连，用于将一条中间数据延迟线和一个或多个二维卷积器的运算结果相加输出。

上述基于FPGA的三维卷积器，所述数据输出控制器模块，其控制加法器模块的多个相加结果输出的先后顺序，是根据各加法器对应的中间数据延迟线上所连二维卷积器的数量不同实现的。

本发明与现有技术相比，具有以下优点：

1、本发明由于在二维卷积器阵列模块和加法器模块之间引入了中间数据延迟线模块，使在后几次运算中可能用到的信息能够被保存下来，从而达到所有输入数据只需输入一次的目的，可以在不损失精度和正确性的前提下提高数据输入效率，进而显著提高了三维卷积的运算速度。

2、本发明由于在二维卷积器阵列模块前引入了三维卷积核存储模块，卷积核数值永久的保存在FPGA内部存储资源中，可以随时输出给二维卷积器阵列模块，提高了计算效率，进一步提高了三维卷积的运算速度。

附图说明

附图1是本发明的整体结构示意图；

附图2是本发明各功能模块间的连接关系示意图；

附图3是本发明二维卷积阵列中的二维卷积器结构示意图；

附图4是本发明测试平台示意图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细说明。

如图1所示，基于FPGA的三维卷积器，包括在FPGA中实现的输入数据存储模块1、二维卷积器阵列模块3、加法器模块5和数据输出控制器模块6，其中：

输入数据存储模块1，用于将多幅待处理特征图缓存在FPGA内部RAM中，并发送，以3幅待处理特征图为实施例。

二维卷积器阵列模块3，包括多个二维卷积器，用于对多幅待处理特征图与二维卷积核进行卷积，并输出多个卷积结果，实施例要求二维卷积器个数为9个。

加法器模块5，包括多个多输入加法器，用于将二维卷积器阵列模块输出的多个卷积结果与中间数据延迟线模块的输出相加并输出实施例要求多输入加法器个数为3个。

数据输出控制器模块6，用于控制加法器模块的多个相加结果输出的先后顺序，并将多个相加结果输出。

还包括在FPGA中实现的三维卷积核存储模块2和中间数据延迟线模块4，其中：

三维卷积核存储模块2，用于存储三维卷积核的数值，并将三维卷积核的数值输出给二维卷积器阵列模块，以三维卷积核的长度等于3为实施例。

中间数据延迟线模块4，包括多条中间数据延迟线，每条中间数据延迟线与一个或多个二维卷积器相连，用于将一个二维卷积器的卷积结果延迟后输出，或将多个二维卷积器的卷积结果相加，并将相加结果延迟后输出，实施例要求中间数据延迟线的数量为两条。

所述三维卷积核存储模块2，其存储三维卷积核的数值，是按照三维卷积核的长度值，将一个三维卷积核以多个二维卷积核的形式进行的。

所述二维卷积器阵列模块3，采用全缓存模式，通过循环展开和流水线的运算方法实现对待处理特征图和二维卷积核的二维卷积运算，并将卷积结果输出给中间数据延迟线模块或加法器模块。

所述多个多输入加法器，其中一个多输入加法器与多个二维卷积器相连，用于将多个二维卷积器的卷积结果相加并输出，其余多输入加法器与一条中间数据延迟线和一个或多个二维卷积器相连，用于将一条中间数据延迟线和一个或多个二维卷积器的运算结果相加输出。

所述数据输出控制器模块6，其控制加法器模块的多个相加结果输出的先后顺序，是根据各加法器对应的中间数据延迟线上所连二维卷积器的数量不同实现的。

基于FPGA的三维卷积器的工作过程如下：如图2所示，长度为3的三维卷积核可表示为三个二维卷积核，分别用A、B和C表示。三幅待处理特征图1、2和3分别从输入通道CH1、CH2和CH3输入与3个二维卷积核A、B和C互连。此结构二维卷积器阵列模块中需要九个二维卷积器，每一个二维卷积器都用X_i进行标记，其中X∈{A,B,C}，指参与卷积的二维卷积核，下标i∈{1,2,3}指输入待处理特征图载入的通道。一旦待处理特征图开始被载入，每个二维卷积器进行输出，生成九个二维卷积输出，将第j个待处理特征图与X_i卷积得到的输出定义为其中j＝i+3n，S-3＜3n＜S，相应的x∈{a,b,c}。

输入待处理特征图1、2和3分别在CH1、CH2和CH3中被载入，当前三幅特征图载入时，通过将和相加得到第一个三维卷积运算输出。中间数据延迟线IDDL1存储和的和，同时中间数据延迟线IDDL2存储因为和没有用到，所以使用定制的硬件禁用三个二维卷积器B₁，C₁和C₂。前三幅待处理特征图处理完成后，开始载入第四、第五和第六幅待处理特征图。将与中间数据延迟线IDDL1中之和相加得到第二个三维卷积输出。第三个三维卷积输出可以由与在中间数据延迟线IDDL2中缓存的相加得到。和之和是三维卷积运算的第四个输出。中间数据延迟线IDDL1存储和的和，同时中间数据延迟线IDDL2存储后续工作是与上述流程类似的重复。中间数据延迟线IDDLs给加法器提供数据，同时存储和与之和。与的和存入中间数据延迟线IDDL1中然后与相加得到一张输出特征图。类似地，被缓存后等待与求和得到三维卷积运算输出。

如图3所示，二维卷积器阵列模块内部二维卷积器的计算结构如下：该结构由深度为(N-Q)的fifo和P个大小为Q的右移寄存器组成。每次存储((P-1)N+(Q-1))个输入特征图的像素值，与权值对应相乘相加输出结果。每个时钟周期输入一个像素值，二维卷积运算窗口自动滑向下一个位置，这种结构完成了二维卷积运算中滑动窗口的作用。这种结构的优点在于，当运算单元进行运算时，只需要一个数据流，需要的数据带宽小。输入图像的每个像素值只需要读入一次。但是这种运算结构需要很大的硬件开销。这种结构在每行非起始位置可以达到1pixel/clk的速度；每行输出结果间会有(Q-1)个输出空闲时钟周期，用来填充每行起始位置的输入数据。

如图4所示，一种基于FPGA的三维卷积器，其测试平台为基于Zynq系列FPGA的开发板，Zynq系列FPGA内部资源包括处理器系统PS和可编程逻辑PL，PS与PL间的数据传输的通道数设置为三维卷积核的长度。本文中，三维卷积核长度等于3。数据处理前，待处理特征图由PS存储在外部存储器中。数据处理时，3幅待处理特征图同时送入PL部分，每幅图像中的像素以按行扫描的顺序进行传输，对每一幅图像来说，数据均以流模式传输，不需要额外的数据地址控制器。PL部分里主要进行三维卷积计算，并生成输出特征图。最后，输出特征图在输出缓存中缓存后通过DMA模块传输至PS部分。

本发明未详细说明部分属于本领域技术人员公知常识。

以上描述仅是本发明的一个具体实例，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.基于FPGA的三维卷积器，包括在FPGA中实现的输入数据存储模块、二维卷积器阵列模块、加法器模块和数据输出控制器模块，其中：

输入数据存储模块，用于将多幅待处理特征图缓存在FPGA内部RAM中，并发送；

二维卷积器阵列模块，包括多个二维卷积器，用于对多幅待处理特征图与二维卷积核进行卷积，并输出多个卷积结果；

加法器模块，包括多个多输入加法器，用于将二维卷积器阵列模块输出的多个卷积结果与中间数据延迟线模块的输出相加并输出；

数据输出控制器模块，用于控制加法器模块的多个相加结果输出的先后顺序，并将多个相加结果输出；

其特征在于：所述基于FPGA的三维卷积器，还包括三维卷积核存储模块和中间数据延迟线模块，其中：

三维卷积核存储模块，用于存储三维卷积核的数值，并将三维卷积核的数值输出给二维卷积器阵列模块；

2.根据权利要求1中所述的基于FPGA的三维卷积器，其特征在于：所述三维卷积核存储模块，其存储三维卷积核的数值，是按照三维卷积核的长度值，将一个三维卷积核以多个二维卷积核的形式进行的。

3.根据权利要求1中所述的基于FPGA的三维卷积器，其特征在于：所述二维卷积器阵列模块，采用全缓存模式，通过循环展开和流水线的运算方法实现对待处理特征图和二维卷积核的二维卷积运算，并将卷积结果输出给中间数据延迟线模块或加法器模块。

4.根据权利要求1中所述的基于FPGA的三维卷积器，其特征在于：所述多个多输入加法器，其中一个多输入加法器与多个二维卷积器相连，用于将多个二维卷积器的卷积结果相加并输出，其余多输入加法器与一条中间数据延迟线和一个或多个二维卷积器相连，用于将一条中间数据延迟线和一个或多个二维卷积器的运算结果相加输出。

5.根据权利要求1中所述的基于FPGA的三维卷积器，其特征在于：所述数据输出控制器模块，其控制加法器模块的多个相加结果输出的先后顺序，是根据各加法器对应的中间数据延迟线上所连二维卷积器的数量不同实现的。