CN111126309A

CN111126309A - 基于fpga的卷积神经网络架构方法及其人脸识别方法

Info

Publication number: CN111126309A
Application number: CN201911366823.5A
Authority: CN
Inventors: 刘�文; 蒋云翔; 朱佳; 蔡晔; 丁杰; 郝志杰
Original assignee: CHANGSHA HAIGE BEIDOU INFORMATION TECHNOLOGY CO LTD
Current assignee: CHANGSHA HAIGE BEIDOU INFORMATION TECHNOLOGY CO LTD
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-08

Abstract

本发明公开了一种基于FPGA的卷积神经网络架构方法，包括系统初始化；根据crp的内部状态启动dma，读取ps侧的图像信息；根据S3FD算法，复用crp模块从而完成conv计算；对crp模块内部的乘加卷积运算进行实现与调度；对结构帧控模块进行复用；对结构层孔模块进行复用；对crp_calc模块进行复用本发明还公开了包括所述基于FPGA的卷积神经网络架构方法的人脸识别方法。本发明提供的这种基于FPGA的卷积神经网络架构方法及其人脸识别方法，采用FPGA复用的方式实现卷积神经网络的架构，兼顾了FPGA内部资源和卷积神经网络的运算速度；而且本发明方法的可靠性高，适用性好。

Description

基于FPGA的卷积神经网络架构方法及其人脸识别方法

技术领域

本发明属于图像识别领域，具体涉及一种基于FPGA的卷积神经网络架构方法及其人脸识别方法。

背景技术

随着经济技术的发展，智能网络时代已经到来。而人脸识别技术，也已经广泛应用于人们的生产和生活当中，给人们的生产和生活带来了无尽的便利。

现今的人脸识别技术，往往依靠的是传统的CNN算法，即卷积神经网络算法。传统的CNN算法大多基于通用处理器实现，在实时性和功耗方面都不能满足应用的需求。就目前卷积神经网络应用技术的发展而言，算法本身需要对图片等数据进行卷积运算操作，致使CPU运算速度极慢，资源消耗极高；而这也是限制卷积神经网络发展的一大重要因素。

现阶段出现了各种基于FPGA的卷积神经网络架构的设计，也确实为神经网络的发展解决了一些难题，但是由于各种算法中CNN层数不同，乘加运算量的差异，同时也受制于FPGA内部资源及功耗，对于一些权重位宽较大、个数较多的架构，FPGA并不能满足设计要求。这就要求对算法进行剪枝优化处理：剪枝能使算法的运算量降低，节省FPGA的逻辑消耗；但是，经过剪枝之后的算法在精度方面会降低，影响算法实现的效果。

因此，目前并没有一种能够兼顾性能和资源的基于FPGA的卷积神经网络架构方法。

发明内容

本发明的目的之一在于提供一种能够兼顾性能和资源、可靠性高且适用性好的基于FPGA的卷积神经网络架构方法。

本发明的目的之二在于提供一种包括了所述基于FPGA的卷积神经网络架构方法的人脸识别方法。

本发明提供的这种基于FPGA的卷积神经网络架构方法，包括如下步骤：

S1.系统初始化；

S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块)，读取ps(programmable system)侧的图像信息；

S3.根据S3FD算法，复用crp模块从而完成conv计算；所述conv为卷积神经网络运算模块；

S4.对crp模块内部的乘加卷积运算进行实现与调度；

S5.对结构帧控模块进行复用；

S6.对结构层孔模块进行复用；

S7.对crp_calc模块进行复用；所述crp_calc模块为卷积神经网络的乘加运算模块。

步骤S1所述的系统初始化，具体包括接收CPU通过APB总线下发的各项数据。

所述的各项数据包括DMA的读写首地址，图像信息、卷积核信息和反量化信息。

步骤S4所述的crp模块，具体包括crp_frame_ctrl模块，crp_layer_ctrl模块和crp_calc模块；crp_frame_ctrl模块用于负责帧控制与调度；crp_layer_ctrl模块用于负责crp层的控制与调度，crp_calc模块用于完成卷积神经网络的乘加运算。

步骤S5所述的对结构帧控模块进行复用，具体包括接收总线下发的配置信息，存储到内部RAM(crp_cfg_ram)；接收前一级模块帧信息，缓存到信息FIFO；控制读取帧信息，逐层从crp_cfg_ram读取配置信息，下发给crp_layer_ctrl模块和crp_calc模块。

步骤S6所述的对结构层孔模块进行复用，具体包括控制向ps侧读weight和bias数据；控制向pl侧发起读图像数据，启动crp_calc计算；根据索引值，控制每一层的数据流；根据配置要求将特征值及输出的结果缓存到pl侧。

步骤S7所述的对crp_calc模块进行复用，具体为对S3FD卷积神经网络的乘加进行运算；卷积计算规则为：先把卷积窗口内像素值分别和卷积核相应元素进行相乘，然后将相乘结果相加，最后加上偏置值。

本发明还提供了一种包括所述的基于FPGA的卷积神经网络架构方法的人脸识别方法，具体还包括如下步骤：

S8.采用步骤S1～S7的方法，动态进行多人脸的快速识别和比对。

本发明提供的这种基于FPGA的卷积神经网络架构方法及其人脸识别方法，采用FPGA复用的方式实现卷积神经网络的架构，兼顾了FPGA内部资源和卷积神经网络的运算速度；而且本发明方法的可靠性高，适用性好。

附图说明

图1为本发明的架构方法的方法流程示意图。

图2为本发明的架构方法的系统框图。

图3为本发明的架构方法的crp内部框图。

图4为本发明的在具体应用时的框图。

图5为本发明的识别方法的方法流程示意图。

具体实施方式

如图2所示为本发明的架构方法的系统框图：图中共包括5种模块：

psddr4(PS侧DDR4内存条)

ps(programmable system)是zynq的cpu端，视频流数据存储在ps端的ddr4中，根据CPU指定的地址读取数据；

DMA(直接存储器访问模块)

系统从ps(pl)端的ddr4中通过DMA主动读(写)图像数据的方式，DMA的启动由逻辑控制，每次DMA的首地址由CPU通过apb写寄存器来指定；

axi_ram(寄存器读写模块)

实现CPU主动读写逻辑端的配置寄存器，主要寄存器包括DMA的读写首地址，图像信息、卷积核信息、反量化信息等

crp(卷积神经网络模块)

卷积神经网络实现的核心部分，循环调用该模块来实现多层CRP的运算；

pl ddr4(逻辑端DDR4内存条)

逻辑端的ddr4用于存储每层crp之后的特征值及最终输出的结果等；

如图1所述为本发明的架构方法的方法流程示意图：本发明提供的这种基于FPGA的卷积神经网络架构方法，包括如下步骤：

S1.系统初始化；具体包括接收CPU通过APB总线下发的各项数据，如DMA的读写首地址，图像信息、卷积核信息和反量化信息等；

S3.根据S3FD算法，复用crp模块从而完成conv计算，共19层crp处理；所述conv为卷积神经网络运算模块；

S4.对crp模块内部的乘加卷积运算进行实现与调度；crp内部框图如图3所示：具体包括crp_frame_ctrl模块，crp_layer_ctrl模块和crp_calc模块；crp_frame_ctrl模块用于负责帧控制与调度；crp_layer_ctrl模块用于负责crp层的控制与调度，crp_calc模块用于完成卷积神经网络的乘加运算；

S5.对结构帧控模块进行复用；具体包括接收总线下发的配置信息，存储到内部RAM(crp_cfg_ram)；接收前一级模块帧信息，缓存到信息FIFO；控制读取帧信息，逐层从crp_cfg_ram读取配置信息，下发给crp_layer_ctrl模块和crp_calc模块；

S6.对结构层孔模块进行复用；具体包括控制向ps侧读weight和bias数据；控制向pl侧发起读图像数据，启动crp_calc计算；根据索引值，控制每一层的数据流；根据配置要求将特征值及输出的结果缓存到pl侧；

S7.对crp_calc模块进行复用；所述crp_calc模块为卷积神经网络的乘加运算模块；具体为对S3FD卷积神经网络的乘加进行运算；卷积计算规则为：先把卷积窗口内像素值分别和卷积核相应元素进行相乘，然后将相乘结果相加，最后加上偏置值。

输入图像M：

a00	a01	a02	a03	a04
					a10	a11	a12	a13	a14
a20	a21	a22	a23	a24
					a30	a31	a32	a33	a34
a40	a41	a42	a43	a44

b00	b01	b02	b03	b04
					b10	b11	b12	b13	b14
b20	b21	b22	b23	b24
					b30	b31	b32	b33	b34
b40	b41	b42	b43	b44

c00	c01	c02	c03	c04
					c10	c11	c12	c13	c14
c20	c21	c22	c23	c24
					c30	c31	c32	c33	c34
c40	c41	c42	c43	c44

输出通道卷积核为：

其中输入图像通道M为3，图像大小为5*5，卷积核大小为3*3，输出通道N＝1(例子中无pading)，输出通道N0计算如下：

N0＝a00*w0+a01*w1+a02*w2+a10*w3+a11*w4+a12*w5+a20*w6+a21*w7+a22*w8+b00*w9+b01*w10+b02*w11+b10*w12+b11*w13+b12*w14+b20*w15+b21*w16+b22*w17+c00*w18+c01*w19+c02*w20+c10*w21+c11*w22+c12*w23+c20*w24+c21*w25+c22*w26+bias0

＝(a00,b00,c00,a01,b01,c01,a02,b02,c02,a10,b10,c10,a11,b11,c11,a12,b12,c12,a20,b20,c20,a21,b21,c21,a22,b22,c22)*(w0,w9,w18,w1,w10,w19,w2,w11,w20,w3,w12,w21,w4,w13,w22,w5,w14,w23,w6,w15,w24,w7,w16,w25,w8,w17,w26)+bias0

如图4所示为本发明的在具体应用时的框图：在本系统中，FPGA采用带有arm内核的zynq，整个系统的实现完全基于FPGA完成，先由ps侧的arm采集外视频存入ps侧的DDR4中，pl侧由逻辑电路来实现，读取ps侧的原视频数据，经缩放后进入卷积神经网络中，该部分是系统的核心功能部分，通过卷积运算提取出视频中的人脸等关键特征值输送给后端处理，得出人脸的位置，进而在视频中能准确的画出人脸的位置方框。

如图5所述为本发明的识别方法的方法流程示意图：本发明还提供了一种包括所述的基于FPGA的卷积神经网络架构方法的人脸识别方法，具体还包括如下步骤：

S3.根据S3FD算法，复用crp模块从而完成conv计算；共19层crp处理；

S7.对crp_calc模块进行复用；所述crp_calc模块为卷积神经网络的乘加运算模块；具体为对S3FD卷积神经网络的乘加进行运算；卷积计算规则为：先把卷积窗口内像素值分别和卷积核相应元素进行相乘，然后将相乘结果相加，最后加上偏置值；

本发明提供的该卷积神经网络架构方法及其人脸识别方法，较其他方案及平台有多种优势，具体体现在：

1.FPGA基于可编程逻辑实现硬件功能,具有灵活性强，设计维护方便等优点。阵列式、可重构的数据流引擎(权重、数据流入、计算合理配合)，配合大量分布式RAM的设计，可以让FPGA适配特定的神经网络，在本发明中针对特定的SDF网络可以达到较高的峰值性能，这也是FPGA功耗比GPU做的更低的原因。

2.相比较其他的实现方案，由于卷积神经网络运算量大，采用CPU计算，受限于CPU的主频及核数，且CPU并不擅长运算；DSP虽然有强大的运算能力，但也同样受限于硬件资源配置；FPGA的并行处理架构可以同时多线程运算，运算主频可调，且没有软件中的群延时等问题，对于处理卷积神经网络中大量乘加运算有着十分显著的优势，能极大的缩短数据运算的延时，这在视频图像处理中有着十分重要的作用，虽然FPGA不合适做浮点运算，但是通过算法优化压缩网络、压缩权重、配合适配的NPU结构，更小的计算量达到接近的浮点运算的精度。

Claims

1.一种基于FPGA的卷积神经网络架构方法，包括如下步骤：

S1.系统初始化；

S2.根据crp的内部状态启动dma，读取ps侧的图像信息；

S4.对crp模块内部的乘加卷积运算进行实现与调度；

S5.对结构帧控模块进行复用；

S6.对结构层孔模块进行复用；

2.根据权利要求1所述的基于FPGA的卷积神经网络架构方法，其特征在于步骤S1所述的系统初始化，具体包括接收CPU通过APB总线下发的各项数据。

3.根据权利要求2所述的基于FPGA的卷积神经网络架构方法，其特征在于所述的各项数据包括DMA的读写首地址，图像信息、卷积核信息和反量化信息。

4.根据权利要求3所述的基于FPGA的卷积神经网络架构方法，其特征在于步骤S4所述的crp模块，具体包括crp_frame_ctrl模块，crp_layer_ctrl模块和crp_calc模块；crp_frame_ctrl模块用于负责帧控制与调度；crp_layer_ctrl模块用于负责crp层的控制与调度，crp_calc模块用于完成卷积神经网络的乘加运算。

5.根据权利要求4所述的基于FPGA的卷积神经网络架构方法，其特征在于步骤S5所述的对结构帧控模块进行复用，具体包括接收总线下发的配置信息，存储到内部RAM；接收前一级模块帧信息，缓存到信息FIFO；控制读取帧信息，逐层从crp_cfg_ram读取配置信息，下发给crp_layer_ctrl模块和crp_calc模块。

6.根据权利要求5所述的基于FPGA的卷积神经网络架构方法，其特征在于步骤S6所述的对结构层孔模块进行复用，具体包括控制向ps侧读weight和bias数据；控制向pl侧发起读图像数据，启动crp_calc计算；根据索引值，控制每一层的数据流；根据配置要求将特征值及输出的结果缓存到pl侧。

7.根据权利要求6所述的基于FPGA的卷积神经网络架构方法，其特征在于步骤S7所述的对crp_calc模块进行复用，具体为对S3FD卷积神经网络的乘加进行运算；卷积计算规则为：先把卷积窗口内像素值分别和卷积核相应元素进行相乘，然后将相乘结果相加，最后加上偏置值。

8.一种包括了权利要求1～7之一所述的基于FPGA的卷积神经网络架构方法的人脸识别方法，其特征在于还包括如下步骤：