CN108108809A

CN108108809A - 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法

Info

Publication number: CN108108809A
Application number: CN201810179570.XA
Authority: CN
Inventors: 朱顺意
Original assignee: Shandong Leading Electronic Technology Co Ltd
Current assignee: Shandong Leading Electronic Technology Co Ltd
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2018-06-01
Anticipated expiration: 2038-03-05
Also published as: CN108108809B

Abstract

本发明涉及一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法，包括预处理单元、硬件加速单元、存储单元；预处理单元用于对原始输入的原始图像帧进行预处理；硬件加速单元用于读入待卷积的预处理后的原始图像帧、卷积核系数、偏移量参数，进行卷积，卷积结束后执行全连接层计算，全连接层计算结束后，输出计算特征判断结果；存储单元用于存储原始输入的原始图像帧、卷积核系数、偏移量参数，以及每一次卷积的输出数据、全连接层的输出数据。本发明解决了传统处理器速度慢、延时大、无法实现实时推理等问题，为针对CNN卷积神经元网络进行推理计算的处理器的设计提供新的解决方案。

Description

一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法

技术领域

本发明涉及一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法，属于集成电路处理器层次结构设计技术领域。

背景技术

随着人工智能技术的快速发展，CNN卷积神经网络已经发展成为一种先进的计算机觉目标识别算法，在特征提取、目标识别、人脸识别等领域有着广泛的应用。然而，虽然卷积神经网络CNN的应用十分广泛，但是，依靠传统的CPU处理器和DPU处理器来运算CNN卷积神经网络进行推理有着非常多的局限性：在卷积神经网络中的推理过程中需要进行大量的计算，但是在CPU中，负责逻辑运算的部分(ALU模块)并不多，并且计算指令都是一条接一条的有序执行，无法做到并行计算。GPU虽然可以做到并行计算，但是其一次只能处理一张图片，限制了进行推理的速度，而且功耗很大，无法应用到嵌入式设备中。现有技术中提出了基于FPGA进行推理的方法，但是现有技术并没有充分利用逻辑计算单元，推理过程中很多计算单元都是闲置的。

设计专门针对CNN卷积神经网络进行推理加速的硬件架构，并且将CNN卷积神经网络做到可移动的嵌入式平台中，将大大提高其实用性。

发明内容

针对现有技术的不足，本发明提供了一种针对卷积神经元网络进行推理加速的硬件架构；

本发明还提供了上述硬件架构的工作方法；

本发明利用ARM处理器和AXI总线结构进行数据传输与交互，利用FE阵列电路、Pooling阵列电路和全连接层电路进行卷积神经元网络的计算，利用数据递归和流水线的方法来实现电路资源的最大利用率和高性能处理。

术语解释：

CNN网络中图像卷积的计算公式为：

a_i,j为计算后的结果，也称之为特征值。f为激活函数，w_(m,n)为卷积核的系数(权重)，x_(i+m,j+n)为像素值，w_b为偏移量参数，w_(m,n)为卷积核的系数，w_b为偏移量参数。

本发明的技术方案为：

一种针对卷积神经元网络进行推理加速的硬件架构，包括预处理单元、硬件加速单元、存储单元；

所述预处理单元用于对输入的原始图像帧进行预处理；

所述硬件加速单元用于读入待卷积的填充后的图像帧、卷积核系数、偏移量参数，进行卷积，卷积结束后执行全连接层计算，全连接层计算结束后，输出计算特征判断结果，计算特征判断结果是指判断出输入的图片符合各个不同结果的概率；也就是对输入图片进行推理判断然后输出结果，也就是判断出输入的图片符合各个不同结果的概率。

所述存储单元用于存储填充后的图像帧、卷积核系数、偏移量参数，以及每一次卷积的输出数据、全连接层的输出数据。

根据本发明优选的，所述预处理单元包括ARM，所述预处理单元通过AXI总线控制器连接所述硬件加速单元；CPU(ARM)为FPGA自带CPU，且支持AXI总线结构，FPGA逻辑通过AXI总线结构与ARM进行数据交互。所述硬件加速单元包括若干RAM、RAM控制器、裁剪模块、地址控制模块、数据分配控制模块、卷积阵列模块；所有RAM都由double buffer组成，以便提高效率。RAM为double buffer，增加数据共享，减少数据读取冗余，同时考虑最大化支持并行PE计算。

所述ARM对输入的原始图像帧依次执行图像补充、浮点数据转定点数据、对FPGA的逻辑寄存器进行配置；

所述AXI总线控制器读入待卷积的填充后的图像帧、卷积核系数、偏移量参数至若干RAM；所述裁剪模块通过所述RAM控制器从若干RAM中读取数据并进行裁减。压缩数据带宽，减少数据存储量。通过所述RAM控制器和所述地址控制模块，读取裁减后的原始图像帧、卷积核系数、偏移量参数到所述数据分配控制模块；所述数据分配控制模块将裁减后的原始图像帧、卷积核系数、偏移量参数发送至所述卷积阵列模块；所述卷积阵列模块依次进行卷积计算、pooling计算，输出计算特征判断结果。

上述硬件架构的工作方法，包括：

(1)所述ARM对输入的原始图像帧预处理，所述预处理包括依次执行图像补充、浮点数据转定点数据、对FPGA的逻辑寄存器进行配置；

(2)所述AXI总线控制器读入待卷积的填充后的图像帧、卷积核系数、偏移量参数至若干RAM；

(3)所述裁剪模块通过所述RAM控制器从若干RAM中读取数据并进行裁减。压缩数据带宽，减少数据存储量。裁减方法包括：系数阈值裁减、存储index裁减。对整型数据进一步裁减。

(4)通过所述RAM控制器和所述地址控制模块，读取裁减后的图像帧、卷积核系数、偏移量参数到所述数据分配控制模块；

(5)所述数据分配控制模块将裁减后的图像帧、卷积核系数、偏移量参数发送至所述卷积阵列模块；

(6)所述卷积阵列模块依次进行卷积计算、pooling计算，输出计算特征判断结果。

根据本发明优选的，所述步骤(2)，包括：所述AXI总线控制器实时判断待卷积的原始图像帧、卷积核系数、偏移量参数是否为边界数据，边界数据是指图像最边上的像素点；如果待卷积的原始图像帧、卷积核系数、偏移量参数均为边界数据，则进行图像补充，即将图像周围填上一圈0；否则，不进行图像补充。

对于M*M的卷积核，需要对图像周边像素进行1个像素的填充。并同时调整图像的存储地址和大小。由于卷积神经网络的滤波器在处理图片时，如果不对原输入图片进行扩充，滤波器无法卷积到图像边缘部分的像素点，因此需要对原图补充0像素点，并同时调整图像的存储地址和大小。

根据本发明优选的，所述步骤(1)中，浮点数据转定点数据是指将浮点数据转定点8bits数据。

步骤(1)中，对FPGA的逻辑寄存器进行配置，是指将权重、偏移量等数据利用AXI总线发送到逻辑寄存器中，配置完成后，输入图片便可以进行推理。

根据本发明优选的，所述步骤(6)，所述卷积阵列模块依次进行卷积计算、pooling计算，包括：依次进行第一层卷积计算、第一层pooling计算、第二层卷积计算、第二层pooling计算、第三层卷积计算、第三层pooling计算；

所述第一层卷积计算，设定输入N*N的原始图像帧，并扩展为(N+2)*(N+2)图像；卷积核心为M*M矩阵，步长为1；(扩展图像宽＝(卷积核矩阵宽－2)*2+原始图像帧宽，同理，可计算长)则需要N*N次M*M卷积的计算量；所述卷积阵列模块包括三组卷积矩阵，每组N个卷积核心，共需卷积核心N*M个；每个时钟周期执行N个M*M卷积，需要将N*N次卷积数据依次按照行的顺序执行；每个时钟周期执行一行N个M*M卷积；即N个时钟周期执行完第一层卷积；包括：

1)第一个时钟周期内，读取RAM中填充后的图像帧的第一行数据，第一行像素的M*M卷积在填充后的图像帧的一行像素(也就是值为0的像素)、填充后的图像帧的第一行像素、填充后的图像帧的第二行像素上进行，共需N个卷积PE，数据具有大量重叠共享的特性。因此，第一组卷积矩阵N个PE共享一个RAM存储，存储宽度为(N+2)*[(N/4)+1]bits，长度为N+2；

第二组卷积矩阵N个PE与第一卷积矩阵组N个PE共享一个存储；每次读取一行(N+2)*[(N/4)+1]bits数据，不同的PE分别从数据中抽取相应的比特进行卷积计算；因此，第一组N个PE能够同时并行计算，且数据存储的冗余性最小，并行度最高。

读取RAM的第二行数据，除了第一组N个PE需要第二行数据，第二组N个PE同样也需要第二行数据，因此，将第二行数据同时给到第一组卷积矩阵N个PE、第二组卷积矩阵N个PE中；

读取RAM的第三行数据，将第三行数据同时给到第一组卷积矩阵N个PE、第二组卷积矩阵N个PE、第三组卷积矩阵N个PE；此时，N*M个PE阵列已经同时工作。且，第一组PE阵列的数据已经读取完毕，可以完成填充后的图像帧的第一行像素的卷积计算。第一行卷积计算完毕后，第一组PE阵列输出数据组成N*[(N/4)+1]bits数据，输出到另外的输出RAM的第一行数据中(宽为N*[(N/4)+1]，长度＝N)。

2)第二个时钟周期内，读取RAM第四行数据，第二组卷积矩阵N个PE的数据准备完毕，完成填充后的图像帧的第二行像素的卷积；第二行像素的卷积计算完毕后，第二组卷积矩阵PE阵列输出数据组成N*[(N/4)+1]bits数据，输出到RAM的第二行数据中；第三组卷积矩阵N个PE接收第四行数据；此时，第一组卷积矩阵N个PE处于空闲状态，接受第四行数据，准备数据做填充后的图像帧第四行像素的卷积；

3)第三个时钟周期内，读取RAM第五行数据，第三组卷积矩阵N个PE的数据准备完毕，完成填充后的图像帧的第三行像素的卷积；第三行卷积计算完毕后，第三组卷积矩阵N个PE阵列输出数据组成N*[(N/4)+1]bits数据，输出到RAM的第三行数据中；第一组N个N个PE接收第五行数据；此时，第二组N个PE处于空闲状态，接受第五行数据，准备做填充后的图像帧第五行像素的卷积；

4)按照上述方法依次类推，第N个时钟周期内，读取RAM第N+2行数据，分别送到第一组卷积矩阵N个PE、第二组卷积矩阵N个PE、第三组卷积矩阵N个PE，分别完成或准备三行的卷积计算。可见，此时已经形成了PE阵列的流水操作，数据共享率高，执行效率高。

所述第一层pooling计算，包括：

5)对N*N图像进行pooling计算，输出(N/2)*(N/2)图像；Pooling为2*2的maxpooling。Pooling后输出图像为(N/2)*(N/2)。则需要N*N/4次2*2的pooling计算量。设计pooling电路，一个周期内完成所有2*2的pooling。为了进行下一层卷积计算，同样需要对图像进行边界像素补充。(N/2)*(N/2)→[(N/2)+2]*[(N/2)+2]图像(第二层卷集的卷积核心仍为M*M,扩展图像宽＝(卷积核矩阵宽－2)*2+原始图像帧宽，同理，可计算长)。因此，在输出图像像素时，同时判断是否为边界像素，如果为边界像素，则调整像素存储位置并补足0。输出RAM宽度为[(N/2)+2]*[(N/4)+1]bits，长度为[(N/2)+2]。

6)为了更好的利用卷积PE核心，增加电路利用率，减少电路空闲率，此处pooling输出的数据存储需要做特殊设计。将RAM以一条水平线为界，均分为两个部分，即pRAM1、pRAM2；1～[(N/4)+2]行的数据存储于pRAM1中([(N/2)+2]*[(N/4)+1]*[(N/4)+2]bits)，[(N/4)+1]～[(N/2)+2]行的数据存储于pRAM2中([(N/2)+2]*[(N/4)+1]*[(N/4)+2]bits)。以便于第二层卷积过程能够同时从两块pRAM中读取数据，将PE核心全部利用起来。

所述第二层卷积计算，输入第一层卷积计算、第一层pooling计算的输出数据，即(N/2)*(N/2)图像，已扩展为[(N/2)+2]*[(N/2)+2]图像；卷积核心为M*M矩阵，步长为1；则需要(N/2)*(N/2)次M*M卷积的计算量；卷积矩阵共有N*M个PE，对[(N/2)+2]*[(N/2)+2]图像的卷积，需要卷积PE核心N/2*M个，将N*M个PE分为两块，每块又分为三组，每组N/2个卷积核心；则每个时钟周期执行2*N/2个＝N个M*M卷积；即，每块PE阵列每个时钟周期执行一行N/2个M*M卷积，两块PE阵列同时执行计算，也就是N/4个时钟周期执行完第二层卷积；包括：

7)第一块PE阵列的第一组N/2个PE读取pRAM1第一行数据；同时，第二块PE阵列的第一组N/2个PE读取pRAM2第一行数据；第一块PE阵列和第二块PE阵列同时工作；两块PE阵列，每次读取一行[(N/2)+2]*[(N/4)+1]bits数据，不同的PE分别从数据中抽取相应的比特进行卷积计算。因此，第一组N/2个PE能够同时并行计算，且数据存储的冗余性最小，并行度最高。

8)第一块PE阵列的第一组N/2个PE读取pRAM1第二行数据；同时，第二块PE阵列的第一组N/2个PE读取pRAM2第二行数据；第一块PE阵列和第二块PE阵列同时工作；

9)按照上述方法依次类推，第一块PE阵列的第一组N/2个PE读取pRAM1最后一行数据；同时，第二块PE阵列的第一组N/2个PE读取pRAM2最后一行数据；第一块PE阵列和第二块PE阵列同时工作。

在pRAM1和pRAM2的结构下，虽然第二层卷积数量减少，但是所有的PE单元仍然同时工作，极大的提高了硬件利用率，并且数据共享率并为受到很大的影响，因为在pRAM1和pRAM2中，仅有2行数据重复。

所述第二层pooling计算，包括：

10)对(N/2)*(N/2)图像进行pooling计算，输出(N/4)*(N/4)图像；Pooling为2*2的max pooling。Pooling后输出图像为(N/4)*(N/4)。则，需要(N/2)*(N/2)/4次2*2的pooling计算量。设计pooling电路，一个周期内完成所有2*2的pooling。输出(N/4)*(N/4)图像。为了进行下一层卷积计算，同样需要对图像进行边界像素补充。(N/4)*(N/4)→[(N/4)+2]*[(N/4)+2]图像(第二层卷集的卷积核心仍为M*M,扩展图像宽＝(卷积核矩阵宽－2)*2+原始图像帧宽，同理，可计算长)。因此，在输出图像像素时，同时判断是否为边界像素，如果为边界像素，则调整像素存储位置并不足0。输出RAM宽度为[(N/4)+2]*[(N/4)+1]bits，长度为[(N/4)+2]。

11)同样的，为了更好的利用卷积PE核心，增加电路利用率，减少电路空闲率，此处pooling输出的数据存储需要做特殊设计。将RAM以三条水平线为界，均分为四个部分，即pRAM1、pRAM2、pRAM3、pRAM4；1～[(N/4)-3]行数据存储于pRAM1([(N/4)+2]*[(N/4)+1]*[(N/4)-1]bits)，[(N/4)-4]～[(N/4)-1]行数据存储于pRAM2([(N/4)+2]*[(N/4)+1]*[(N/4)-1]bits)，[(N/4)-2]～[(N/4)+1]行数据存储于pRAM3([(N/4)+4]*[(N/4)+1]*[(N/4)-1]bits)，(N/4)～[(N/4)+2]行数据存储于pRAM4([(N/4)+2]*[(N/4)+1]*[(N/4)-4]bits)。以便于第三层卷积过程能够同时从四块pRAM中读取数据，将PE核心全部利用起来。

所述第三层卷积计算，输入(N/4)*(N/4)图像，已扩展为[(N/4)+2]*[(N/4)+2]图像；卷积核心为M*M矩阵，步长为1；需要(N/4)*(N/4)次M*M卷积的计算量；卷积矩阵共有N*M个PE，对(N/4)*(N/4)的卷积，需要卷积PE核心N/2*M个；PE可以分为四块，每块又分为三组，每组(N/4)个卷积计算核心，则每个时钟周期执行4块*(N/4)个＝N个M*M卷积，即，每块PE阵列每个时钟周期执行一行(N/4)个M*M卷积，四块PE阵列同时执行计算，也就是2个时钟周期执行完第三层卷积，包括：

12)第一块PE阵列的第一组(N/4)个PE读取pRAM1第一行数据，同时，第二块PE阵列的第一组(N/4)个PE读取pRAM2第一行数据，第三块PE阵列的第一组(N/4)个PE读取pRAM3第一行数据，第四块PE阵列的第一组(N/4)个PE读取pRAM4第一行数据；第一块～第四块PE阵列同时工作。四块PE阵列，每次读取一行[(N/4)+2]*[(N/4)+1]bits数据，不同的PE分别从数据中抽取相应的比特进行卷积计算。

13)第一块PE阵列的第一组(N/4)个PE读取pRAM1第二行数据，同时，第二块PE阵列的第一组(N/4)个PE读取pRAM2第二行数据，第三块PE阵列的第一组(N/4)个PE读取pRAM3第二行数据，第四块PE阵列的第一组(N/4)个PE读取pRAM4第二行数据；

14)按照上述方法依次类推，第一块PE阵列的第一组(N/4)个PE读取pRAM1最后一行数据，同时，第二块PE阵列的第一组(N/4)个PE读取pRAM2最后一行数据，第三块PE阵列的第一组(N/4)个PE读取pRAM3最后一行数据，第四块PE阵列的第一组(N/4)个PE读取pRAM4最后一行数据。在pRAM1～pRAM4的结构下，虽然第三层卷积数量减少，但是所有的PE单元仍然同时工作，极大的提高了硬件利用率。但是，该层的数据重复率较大，以数据存储资源换取性能的提高。

所述第三层pooling计算，包括：

15)输入(N/4)*(N/4)图像进行pooling，输出4*4图像；Pooling为2*2的maxpooling。则，需要[(N/4)+1]*[(N/4)+1]/4次2*2的pooling计算量。设计pooling电路，一个周期内完成所有2*2的pooling。

16)存储第三层pooling计算输出数据。数据正常存储。

本发明的有益效果为：

1、本发明通过设计专门进行卷积运算的PE阵列、Pooling阵列、全连接层计算阵列和迭代的计算方法，并且增加ARM和AXI进行数据的总线传输，解决了传统处理器速度慢、延时大、无法实现实时推理等问题，为针对CNN卷积神经元网络进行推理计算的处理器的设计提供新的解决方案。

2、本发明利用ARM处理器和AXI总线结构进行数据传输与交互，利用FE阵列电路，Pooling阵列电路和全连接层电路来进行卷积神经元网络的计算，利用数据递归和流水线的方法来实现电路资源的最大利用率和高性能处理。递归是指再进行完一层的PE和Pooling之后，数据直接再次进入上次计算的电路中，不用再进行读取，从而实现电路的递归利用。流水线是指PE阵列进行卷积计算时候实现的流水操作，也就是通过数据的输送和PE的设计最大限度地让所有PE同时工作，让PE阵列实现流水工作。

3、本发明所有的数据均存于片内RAM中而不是存于外部存储中，从而大幅度减少了数据来回存储的延时，从而提高了推理的速度。而且数据在片内流动也大幅度减少了功耗，从而使其能够应用到嵌入式设备中。

4、本发明利用数据迭代的方法充分利用了逻辑计算单元，让逻辑计算单元大部分时间都同时工作。

附图说明

图1是本发明针对卷积神经元网络进行推理加速的硬件架构设计结构示意图。

图2是本发明针对卷积神经元网络进行推理加速控制结构图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种针对卷积神经元网络进行推理加速的硬件架构，如图1所示，包括预处理单元、硬件加速单元、存储单元；

预处理单元用于对输入的原始图像帧进行预处理；

硬件加速单元用于读入待卷积的填充后的图像帧、卷积核系数、偏移量参数，进行卷积，卷积结束后执行全连接层计算，全连接层计算结束后，输出计算特征判断结果，计算特征判断结果是指判断出输入的图片符合各个不同结果的概率；也就是对输入图片进行推理判断然后输出结果，也就是判断出输入的图片符合各个不同结果的概率。

存储单元用于存储填充后的图像帧、卷积核系数、偏移量参数，以及每一次卷积的输出数据、全连接层的输出数据。

实施例2

根据实施例1所述的一种针对卷积神经元网络进行推理加速的硬件架构，其区别在于，

预处理单元包括ARM，预处理单元通过AXI总线控制器连接硬件加速单元；CPU(ARM)为FPGA自带CPU，且支持AXI总线结构，FPGA逻辑通过AXI总线结构与ARM进行数据交互。硬件加速单元包括若干RAM、RAM控制器、裁剪模块、地址控制模块、数据分配控制模块、卷积阵列模块；所有RAM都由double buffer组成，以便提高效率。RAM为double buffer，增加数据共享，减少数据读取冗余，同时考虑最大化支持并行PE计算。

ARM对输入的原始图像帧依次执行图像补充、浮点数据转定点数据、对FPGA的逻辑寄存器进行配置；

AXI总线控制器读入待卷积的填充后的图像帧、卷积核系数、偏移量参数至若干RAM；裁剪模块通过RAM控制器从若干RAM中读取数据并进行裁减。压缩数据带宽，减少数据存储量。通过RAM控制器和地址控制模块，读取裁减后的原始图像帧、卷积核系数、偏移量参数到数据分配控制模块；数据分配控制模块将裁减后的原始图像帧、卷积核系数、偏移量参数发送至所述卷积阵列模块；卷积阵列模块依次进行卷积计算、pooling计算，输出计算特征判断结果。

实施例3

实施例2所述的硬件架构的工作方法，包括：

(1)ARM对输入的原始图像帧预处理，预处理包括依次执行图像补充、浮点数据转定点数据、对FPGA的逻辑寄存器进行配置；浮点数据转定点数据是指将浮点数据转定点8bits数据。对FPGA的逻辑寄存器进行配置，是指将权重、偏移量等数据利用AXI总线发送到逻辑寄存器中，配置完成后，输入图片便可以进行推理。FPGA的逻辑寄存器的连接关系在FPGA内部固定，如图1所示；

(2)AXI总线控制器读入待卷积的填充后的图像帧、卷积核系数、偏移量参数至若干RAM；包括：AXI总线控制器实时判断待卷积的原始图像帧、卷积核系数、偏移量参数是否为边界数据，边界数据是指图像最边上的像素点；如果待卷积的原始图像帧、卷积核系数、偏移量参数均为边界数据，则进行图像补充，即将图像周围填上一圈0；否则，不进行图像补充。

(3)裁剪模块通过RAM控制器从若干RAM中读取数据并进行裁减。压缩数据带宽，减少数据存储量。裁减方法包括：系数阈值裁减、存储index裁减。对整型数据进一步裁减。

(4)通过RAM控制器和地址控制模块，读取裁减后的图像帧、卷积核系数、偏移量参数到所述数据分配控制模块；

(5)数据分配控制模块将裁减后的图像帧、卷积核系数、偏移量参数发送至卷积阵列模块；

(6)卷积阵列模块依次进行卷积计算、pooling计算，输出计算特征判断结果。

针对卷积神经元网络进行推理加速控制结构图如图2所示。图2中，首先，利用AXI总线对FPGA的逻辑寄存器进行配置，将权重、偏置量等参数配置到片内RAM中，FPGA与ARM利用AXI总线进行数据交互。然后，输入图片进行推理运算，图片用AXI总线进行传输，存储于片上RAM中。最后，在FPGA中的加速电路得到计算特征判断结果后，利用显示器进行判断结果的显示。

卷积阵列模块依次进行卷积计算、pooling计算，包括：依次进行第一层卷积计算、第一层pooling计算、第二层卷积计算、第二层pooling计算、第三层卷积计算、第三层pooling计算；

第一层卷积计算，设定输入N*N的原始图像帧，并扩展为(N+2)*(N+2)图像；卷积核心为M*M矩阵，步长为1；(扩展图像宽＝(卷积核矩阵宽－2)*2+原始图像帧宽，同理，可计算长)则需要N*N次M*M卷积的计算量；所述卷积阵列模块包括三组卷积矩阵，每组N个卷积核心，共需卷积核心N*M个；每个时钟周期执行N个M*M卷积，需要将N*N次卷积数据依次按照行的顺序执行；每个时钟周期执行一行N个M*M卷积；即N个时钟周期执行完第一层卷积；包括：

第一层pooling计算，包括：

第二层卷积计算，输入第一层卷积计算、第一层pooling计算的输出数据，即(N/2)*(N/2)图像，已扩展为[(N/2)+2]*[(N/2)+2]图像；卷积核心为M*M矩阵，步长为1；则需要(N/2)*(N/2)次M*M卷积的计算量；卷积矩阵共有N*M个PE，对[(N/2)+2]*[(N/2)+2]图像的卷积，需要卷积PE核心N/2*M个，将N*M个PE分为两块，每块又分为三组，每组N/2个卷积核心；则每个时钟周期执行2*N/2个＝N个M*M卷积；即，每块PE阵列每个时钟周期执行一行N/2个M*M卷积，两块PE阵列同时执行计算，也就是N/4个时钟周期执行完第二层卷积；包括：

第二层pooling计算，包括：

第三层卷积计算，输入(N/4)*(N/4)图像，已扩展为[(N/4)+2]*[(N/4)+2]图像；卷积核心为M*M矩阵，步长为1；需要(N/4)*(N/4)次M*M卷积的计算量；卷积矩阵共有N*M个PE，对(N/4)*(N/4)的卷积，需要卷积PE核心N/2*M个；PE可以分为四块，每块又分为三组，每组(N/4)个卷积计算核心，则每个时钟周期执行4块*(N/4)个＝N个M*M卷积，即，每块PE阵列每个时钟周期执行一行(N/4)个M*M卷积，四块PE阵列同时执行计算，也就是2个时钟周期执行完第三层卷积，包括：

第三层pooling计算，包括：

16)存储第三层pooling计算输出数据。数据正常存储。

Claims

1.一种针对卷积神经元网络进行推理加速的硬件架构，其特征在于，包括预处理单元、硬件加速单元、存储单元；

所述预处理单元用于对输入的原始图像帧进行预处理；

所述硬件加速单元用于读入待卷积的填充后的图像帧、卷积核系数、偏移量参数，进行卷积，卷积结束后执行全连接层计算，全连接层计算结束后，输出计算特征判断结果，计算特征判断结果是指判断出输入的图片符合各个不同结果的概率；

2.根据权利要求1所述的一种针对卷积神经元网络进行推理加速的硬件架构，其特征在于，所述预处理单元包括ARM，所述预处理单元通过AXI总线控制器连接所述硬件加速单元；所述硬件加速单元包括若干RAM、RAM控制器、裁剪模块、地址控制模块、数据分配控制模块、卷积阵列模块；

所述AXI总线控制器读入待卷积的填充后的图像帧、卷积核系数、偏移量参数至若干RAM；所述裁剪模块通过所述RAM控制器从若干RAM中读取数据并进行裁减；通过所述RAM控制器和所述地址控制模块，读取裁减后的原始图像帧、卷积核系数、偏移量参数到所述数据分配控制模块；所述数据分配控制模块将裁减后的原始图像帧、卷积核系数、偏移量参数发送至所述卷积阵列模块；所述卷积阵列模块依次进行卷积计算、pooling计算，输出计算特征判断结果。

3.权利要求2所述的硬件架构的工作方法，其特征在于，包括：

(3)所述裁剪模块通过所述RAM控制器从若干RAM中读取数据并进行裁减；

4.根据权利要求3所述的硬件架构的工作方法，其特征在于，所述步骤(2)，包括：所述AXI总线控制器实时判断待卷积的原始图像帧、卷积核系数、偏移量参数是否为边界数据，边界数据是指图像最边上的像素点；如果待卷积的原始图像帧、卷积核系数、偏移量参数均为边界数据，则进行图像补充，即将图像周围填上一圈0；否则，不进行图像补充。

5.根据权利要求3所述的硬件架构的工作方法，其特征在于，所述步骤(1)中，浮点数据转定点数据是指将浮点数据转定点8bits数据。

6.根据权利要求3所述的硬件架构的工作方法，其特征在于，所述步骤(6)，所述卷积阵列模块依次进行卷积计算、pooling计算，包括：依次进行第一层卷积计算、第一层pooling计算、第二层卷积计算、第二层pooling计算、第三层卷积计算、第三层pooling计算；

所述第一层卷积计算，设定输入N*N的原始图像帧，并扩展为(N+2)*(N+2)图像；卷积核心为M*M矩阵，步长为1；则需要N*N次M*M卷积的计算量；所述卷积阵列模块包括三组卷积矩阵，每组N个卷积核心，共需卷积核心N*M个；每个时钟周期执行N个M*M卷积，需要将N*N次卷积数据依次按照行的顺序执行；每个时钟周期执行一行N个M*M卷积；即N个时钟周期执行完第一层卷积；包括：

1)第一个时钟周期内，读取RAM中填充后的图像帧的第一行数据，第一行像素的M*M卷积在填充后的图像帧的一行像素、填充后的图像帧的第一行像素、填充后的图像帧的第二行像素上进行，共需N个卷积PE，第一组卷积矩阵N个PE共享一个RAM存储，存储宽度为(N+2)*[(N/4)+1]bits，长度为N+2；

第二组卷积矩阵N个PE与第一卷积矩阵组N个PE共享一个存储；每次读取一行(N+2)*[(N/4)+1]bits数据，不同的PE分别从数据中抽取相应的比特进行卷积计算；

读取RAM的第二行数据，将第二行数据同时给到第一组卷积矩阵N个PE、第二组卷积矩阵N个PE中；

读取RAM的第三行数据，将第三行数据同时给到第一组卷积矩阵N个PE、第二组卷积矩阵N个PE、第三组卷积矩阵N个PE；

4)按照上述方法依次类推，第N个时钟周期内，读取RAM第N+2行数据，分别送到第一组卷积矩阵N个PE、第二组卷积矩阵N个PE、第三组卷积矩阵N个PE，分别完成或准备三行的卷积计算；

所述第一层pooling计算，包括：

5)对N*N图像进行pooling计算，输出(N/2)*(N/2)图像；

6)将RAM以一条水平线为界，均分为两个部分，即pRAM1、pRAM2；1～[(N/4)+2]行的数据存储于pRAM1中，[(N/4)+1]～[(N/2)+2]行的数据存储于pRAM2中；

7)第一块PE阵列的第一组N/2个PE读取pRAM1第一行数据；同时，第二块PE阵列的第一组N/2个PE读取pRAM2第一行数据；第一块PE阵列和第二块PE阵列同时工作；

9)按照上述方法依次类推，第一块PE阵列的第一组N/2个PE读取pRAM1最后一行数据；同时，第二块PE阵列的第一组N/2个PE读取pRAM2最后一行数据；第一块PE阵列和第二块PE阵列同时工作；

所述第二层pooling计算，包括：

10)对(N/2)*(N/2)图像进行pooling计算，输出(N/4)*(N/4)图像；

11)将RAM以三条水平线为界，均分为四个部分，即pRAM1、pRAM2、pRAM3、pRAM4；1～[(N/4)-3]行数据存储于pRAM1，[(N/4)-4]～[(N/4)-1]行数据存储于pRAM2，[(N/4)-2]～[(N/4)+1]行数据存储于pRAM3，(N/4)～[(N/4)+2]行数据存储于pRAM4；

12)第一块PE阵列的第一组(N/4)个PE读取pRAM1第一行数据，同时，第二块PE阵列的第一组(N/4)个PE读取pRAM2第一行数据，第三块PE阵列的第一组(N/4)个PE读取pRAM3第一行数据，第四块PE阵列的第一组(N/4)个PE读取pRAM4第一行数据；

14)按照上述方法依次类推，第一块PE阵列的第一组(N/4)个PE读取pRAM1最后一行数据，同时，第二块PE阵列的第一组(N/4)个PE读取pRAM2最后一行数据，第三块PE阵列的第一组(N/4)个PE读取pRAM3最后一行数据，第四块PE阵列的第一组(N/4)个PE读取pRAM4最后一行数据；

所述第三层pooling计算，包括：

15)输入(N/4)*(N/4)图像进行pooling，输出4*4图像；

16)存储第三层pooling计算输出数据。