CN108171317B

CN108171317B - 一种基于soc的数据复用卷积神经网络加速器

Info

Publication number: CN108171317B
Application number: CN201711207259.3A
Authority: CN
Inventors: 秦智勇; 陈雷; 于立新; 庄伟�; 彭和平; 倪玮琳; 张世远
Original assignee: Beijing Microelectronic Technology Institute; Mxtronics Corp
Current assignee: Beijing Microelectronic Technology Institute; Mxtronics Corp
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2020-08-04
Anticipated expiration: 2037-11-27
Also published as: CN108171317A

Abstract

本发明提供了一种基于SOC的数据复用卷积神经网络加速器，本方法提出对卷积神经网络的图像输入、权重参数以及偏置参数等输入数据进行分组，将大量的输入数据划分为可复用的块数据，并通过控制状态机实现复用数据块的读取。卷积神经网络参数量大、所需计算能力强，因此卷积神经网络加速器需要提供很大的数据带宽以及计算能力。本发明对大负载进行了可复用切分，并通过控制单元以及地址产生单元实现数据的复用，减小了卷积神经网络运算的延迟以及所需带宽，提高了运算效率。

Description

一种基于SOC的数据复用卷积神经网络加速器

技术领域

本发明涉及一种基于SOC的数据复用卷积神经网络加速器，特别涉及嵌入式设备对卷积神经网络，属于嵌入式应用领域。

背景技术

随着卷积神经网络CNN(Convolutional Neural Network)的不断发展与优化，其在模式识别领域得到了广泛应用，包括图像识别、目标识别，图像分割，目标跟踪等领域，并且取得了显著的效果，展现了卷积神经网络在模式识别算法中的主导地位。

然而深度卷积神经网络十分耗费计算资源和存储资源，无法直接应用在嵌入式端。用于图像识别的卷积神经网络AlexNet，卷积和全连接操作一共包括1.45G个操作，参数量为58M，如果每个参数占用4个字节，则模型参数需要232M个字节，这对于片上存储是十分庞大的，如果将这些参数存储在外存中，会显著降低处理速率，而一幅图像的处理就需要1.5G个操作，这还仅包括卷积和全连接的操作，不包括池化和正则化操作。虽然卷积神经网络参数量大，但其运算比较规律且大量数据需要重复使用，因此需要通过数据复用提高卷积神经网络运算效率，降低整个系统所需能耗。

发明内容

本发明的技术解决的问题是：克服了现有卷积神经网络运算效率低和大量访问外存导致的时延和功耗浪费的不足之处，提供了一种基于SOC的数据复用卷积神经网络加速器，充分利用输入数据、卷积核数据的重复利用特点，提高了嵌入式设备对卷积神经网络的运算性能。

本发明的技术解决方案是：一种基于SOC的数据复用卷积神经网络加速器，该加速器包括图像地址生成器、图像缓存区、移位逻辑、权重地址生成器、权重缓存区、偏置地址生成器、偏置缓存区、控制单元和计算单元阵列，控制单元接收外部输入的启动控制信号，之后，根据预设时序，控制偏置地址生成器、权重地址生成器和图像地址生成器产生偏置写控制信号、权重写控制信号和图像写控制信号，将偏置、权重和图像数据分块存入相应的缓冲区，之后，再控制偏置地址生成器、权重地址生成器和图像地址生成器产生相应缓冲区的读写地址，权重缓存区、偏置缓存区分别将相应地址内的权重、偏置数据输出至计算单元阵列；图像缓冲区将相应地址内的图像数据输出至移位逻辑，移位逻辑根据控制单元发送的移位控制信号和层运算序号，将图像数据进行移位处理之后输出至计算单元阵列，计算单元阵列，根据权重数据、偏置数据、图像数据，采用分块运算的方法，对图像数据进行多层卷积、池化以及多层全连接运算。

所述控制单元包括主控制模块、权重控制状态机，偏置控制状态机、图像控制状态机和写控制状态机，其中：

主控制模块主控制模块，接收外部输入的启动控制信号，之后，根据预设的卷积神经网络加速器各层卷积运算的时间和全连接运算时间，按照预设时序，将卷积、池化和全连接运算过程都分成多个层运算，每个层运算分为多个块运算，在层运算开始之前，向写控制状态机发送写控制启动指令，当前层运算所需数据全部写入相应的缓冲区后，向写控制状态机发出写控制停止信号；在层运算开始时刻，向权重读控制状态机、偏置读控制状态机、图像读控制状态机发送权重读控制启动信号，向移位逻辑发送移位控制信号和层运算序号；在层运算结束时刻和块运算结束时刻，向权重读控制状态机、偏置读控制状态机、图像读控制状态机，发送层运算结束标志和块运算结束标志信号，向移位逻辑发送的移位控制信号和层运算序号；

权重控制状态机、偏置控制状态机、图像控制状态机和写控制状态机，在主控制模块的控制下，分别向权重缓存区、偏置缓存区、图像缓存区输出相应的读使能信号、写使能信号和片选信号，向权重地址生成器、偏置地址生成器、图像地址生成器输出相应的地址控制信号，权重地址生成器、偏置地址生成器、图像地址生成器根据地址控制信号产生相应的读写地址。

所述图像缓存以及权重缓存均为分组存储结构，图像缓存区和权重缓存区分成M个子缓存区，M个子缓存区的片选控制端、读写使能端并联连接，地址线相互独立，各子缓存区相对应地址用来存储一个一次块运算所需要的图像数据或者权重数据，同时写入或读出，M为一次块运算所对应的最大图像数据大小。

权重地址生成器、偏置地址生成器包括计数器，计数器的计数值作为地址输出至相应的缓冲区，当地址复位信号“有效”时，计数器的计数值清零；当地址保持信号有效时，计数器的计数值不变；当地址递增信号有效时，计数器的计数值加1。

图像地址生成器，包括读地址生成模块、写地址生成模块、读写地址选通模块；

写地址生成模块，包括计数器，计数器的计数值作为图像写地址输出至读写地址选通模块，当地址复位信号“有效”时，计数器的计数值清零；当地址保持信号有效时，计数器的计数值不变；当地址递增信号有效时，计数器的计数值加1。

读地址生成模块，包括R个读地址生成子模块，所述R为层数。每个读地址生成子模块用来控制产生一次层运算中的所有块运算所需要的地址，根据层序号选通相应层的读地址生成子模块，对于某一层的处理，输入为三维图像数据，首先沿图像通道方向递增地址，当图像通道方向数据读取完成，按图像二维平面换列方向递增地址后，继续沿图像通道方向递增地址，当图像二维平面换列方向和图像通道方向数据均读取完成，按图像二维平面换行方向递增地址，继续沿图像通道方向递增地址，直到整块数据处理完成。

所述图像数据包括X*Y*N块，X表示在行方向的块数，X表示在列方向的块数，N表示在通道方向的块数；每次从外部读取一块三维图像数据存入M个子缓冲区内，每个子缓冲区对应存入三维数据块中的一个元素，提取数据块的顺序如下：

(1)、初始化数据块的行序号i为1,列序号j为1,通道序号k为1；

(2)、依次读取行序号为i,列序号j,通道序号为k的数据块；

(3)、将k加1更新k,重复执行步骤(2)～(3)，直到k大于等于N,进入步骤(4)；

(4)、将j加1更新j,令k等于1,重复执行步骤(2)～(4)，直到j大于等于Y,k大于等于N进入步骤(5)；

(5)、将i加1更新i,k＝1,j＝1,重复执行步骤(2)～(5)，直到i大于等于X,j大于等于Y,k大于等于N,结束。

卷积运算时，移位逻辑根据卷积层序号，由此确定卷积运算时二维平面方向两个维度的大小，根据这两个维度的大小变更图像数据组成的序列顺序，并根据控制单元发出的移位控制信号确定图像数据序列移位的多少，使得进入至计算单元阵列的每次块运算的图像数据与权重数据对齐，在池化或者全连接处理时，移位逻辑直接将缓冲区中的图像数据输出到计算单元阵列。

所述计算单元阵列包括乘法器阵列、加法器树、累加器、非线性单元和选通输出单元，其中：

乘法器阵列，将图像数据与权重相乘；

加法器树，将乘法器阵列的所有乘积项相加，结果输出到累加器；

累加器，块运算结束时清零，对加法器树输出的结果进行累加，并将累加结果作为卷积结果输出至非线性单元

非线性单元，对卷积结果进行池化处理，并输出，例如：比较累加结果与0，取较大值输出；

选通输出单元，接收控制单元发送的输出选通信号，选通卷积结果或者池化结果输出。

本发明与现有技术相比的有益效果是：

(1)、本发明通过多次读取数据量更小的卷积权重和偏置参数保证了数据量巨大的图像输入数据只需从外存读取一次，降低了外存访问总时延以及相应功耗，并且提高了卷积神经网络的运算效率；

(2)、本发明采用主控单元和地址产生单元分开的方式，分别负责卷积神经网络当前运算数据块状态的产生以及当前运算数据块中每个数据具体地址的产生，采用分开的控制结构使得整个地址控制状态机分为两个部分，相对于采用一个地址控制单元，其状态机更精简，面积开销以及功耗更小。

附图说明

图1是本发明卷积神经网络加速器的整体结构框图；

图2是本发明控制单元的时序示意图；

图3是本发明计算单元阵列的结构框图；

图4是本发明图像读地址生成状态机；

图5是本发明图像数据的具体分块存储方式；

图6是本发明图像读地址生成中y方向地址递增的具体示意图；

图7是本发明图像读地址生成中x方向地址递增的具体示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，本发明提供的一种基于SOC(片上系统)的数据复用卷积神经网络加速器，包括图像地址生成器、图像缓存区、移位逻辑、权重地址生成器、权重缓存区、偏置地址生成器、偏置缓存区、控制单元和计算单元阵列，控制单元接收外部输入的启动控制信号，之后，根据预设时序，控制偏置地址生成器、权重地址生成器和图像地址生成器产生偏置写控制信号、权重写控制信号和图像写控制信号，将偏置、权重和图像数据分块存入相应的缓冲区，之后，再控制偏置地址生成器、权重地址生成器和图像地址生成器产生相应缓冲区的读写地址，权重缓存区、偏置缓存区分别将相应地址内的权重、偏置数据输出至计算单元阵列；图像缓冲区将相应地址内的图像数据输出至移位逻辑，移位逻辑根据控制单元发送的移位控制信号和层运算序号，将图像数据进行移位处理之后输出至计算单元阵列，计算单元阵列，根据权重数据、偏置数据、图像数据，采用分块运算的方法，对图像数据进行多层卷积、池化以及多层全连接运算。所述预设时序如图2所示。

下面分别介绍各组成部分：

1、控制单元

控制单元包括主控制模块、权重控制状态机，偏置控制状态机、图像控制状态机和写控制状态机。

1.1主控制模块

主控制模块主控制模块，接收外部输入的启动控制信号，之后，根据预设的卷积神经网络加速器各层卷积运算的时间和全连接运算时间，按照预设时序，将卷积、池化和全连接运算过程都分成多个层运算，每个层运算分为多个块运算，在层运算开始之前，向写控制状态机发送写控制启动指令，当前层运算所需数据全部写入相应的缓冲区后，向写控制状态机发出写控制停止信号；在层运算开始时刻，向权重读控制状态机、偏置读控制状态机、图像读控制状态机发送权重读控制启动信号，向移位逻辑发送移位控制信号和层运算序号；在层运算结束时刻和块运算结束时刻，向权重读控制状态机、偏置读控制状态机、图像读控制状态机，发送层运算结束标志和块运算结束标志信号，向移位逻辑发送的移位控制信号和层运算序号。

权重控制状态机、偏置控制状态机、图像控制状态机和写控制状态机，，在主控制模块的控制下，分别向权重缓存区、偏置缓存区、图像缓存区输出相应的读使能信号、写使能信号和片选信号，向权重地址生成器、偏置地址生成器、图像地址生成器输出相应的地址控制信号，权重地址生成器、偏置地址生成器、图像地址生成器根据地址控制信号产生相应的读写地址。

卷积神经网络加速器共包含多个阶段，分别对应idle阶段、第1～第N1卷积层运算阶段和池化层运算阶段，以及第1～第N2全连接层运算阶段，控制单元开始时处于idle阶段，当外部给加速器启动信号后进入第1卷积层运算阶段，待第一卷积层运算阶段处理完成进入第2卷积层运算阶段，依次进行，直到处理完成。除idle阶段，每个阶段控制单元都采用相似的模式控制四个主要的子状态机，分别为写控制状态机、权重读控制状态机，偏置读控制状态机、图像读控制状态机，控制相应数据的地址产生以及读写。

1.2、权重读控制状态机

权重地址控制信号包括权重读地址复位信号、权重读地址保持信号、权重读地址递增信号，所述权重读控制状态机包括3个状态，分别为RW_state0、RW_state1、RW_state2，初始化为RW_state0，状态机的具体操作为：

RW_state0：读取读控制启动信号，当读控制启动信号有效时，发出“有效”权重读地址复位信号，一个时钟周期之后，向权重缓存区发出产生“有效”的权重片选信号，并将和置为“读使能”状态的权重读写使能信号，进入RW_state1，否则，继续保持RW_state0状态；

RW_state1：将权重地址复位信号置为“无效”，产生“有效”的权重地址保持信号；读取块运算结束标志信号和层运算结束标志信号，当块运算结束标志信号“有效”时，进入状态RW_state2；当层运算结束标志信号“有效”时，则回到RW_state0；

RW_state2：将权重地址保持信号置为“无效”，产生“有效”的权重地址递增信号，一个时钟周期后跳转回RW_state1。

1.3偏置读控制状态机

偏置读控制信号包括偏置读地址复位信号、偏置读地址保持信号、偏置读地址递增信号，所述偏置读控制状态机与权重读控制状态机设计相同，偏置读控制状态机包括3个状态，分别为RB_state0、RB_state1、RB_state2，初始化为RB_state0，状态机的具体操作为：

RB_state0：读取读控制启动信号，当读控制启动信号有效时，发出“有效”偏置读地址复位信号，一个时钟周期之后，向偏置缓存区发出“有效”的偏置片选信号和置为“读使能”状态的偏置读写使能信号，进入RB_state1，否则，继续保持RB_state0状态；

RB_state1：将偏置地址复位信号置为“无效”，产生“有效”的偏置地址保持信号；读取块运算结束标志信号和层运算结束标志信号，当块运算结束标志信号“有效”时，进入状态RB_state2；当层运算结束标志信号“有效”时，则回到RB_state0；

RB_state2：将偏置地址保持信号置为“无效”，产生“有效”的偏置地址递增信号，一个时钟周期后跳转回RB_state1。

1.4图像读控制状态机

图像读地址控制信号包括图像读地址复位信号、图像读地址保持信号、图像读地址递增信号，所述图像读控制状态机包括3个状态，分别为RP_state0、RP_state1、RP_state2，具体操作为：

RP_state0：读取读控制启动信号，当读控制启动信号有效时，发出“有效”图像读地址复位信号，一个时钟周期之后，向图像缓冲区发出产生“有效”的图像片选信号和，并将读写使能信号置为“读使能”状态的将读写使能信号，进入RP_state1，否则，继续保持RP_state0状态；

RP_state1：将图像读地址复位信号置为“无效”，产生“有效”的图像读地址递增信号，读取块运算结束标志信号和层运算结束标志信号，当读取块运算结束标志信号“有效”时,跳转到RP_state2状态；当层运算结束标志信号“有效”时，则回到RP_state0；

RP_state2:发出“有效”图像读地址复位信号，一个时钟周期之后，跳转到RP_state1。

1.5写控制状态机

写控制信号包括写地址复位信号、写地址保持信号、写地址递增信号、片选信号，写控制状态机包括：两个状态，分别为wr_state0、wr_state1，具体操作为：

wr_state0：读取写控制启动信号，当写控制启动信号有效时，发出“有效”的写地址复位信号，一个时钟周期之后，产生“有效”的片选信号，并将读写使能信号置为“写使能”状态，进入wr_state1，否则，继续保持wr_state0状态；

wr_state1：将写地址复位信号置为“无效”，产生“有效”的写地址递增信号，读取写控制停止信号，当写控制停止信号“有效”，跳转到wr_state0。

2、图像缓存区、权重缓存区、偏置缓存区

为了节约存储空间提高读取速度，本发明图像缓存以及权重缓存均为分组存储结构，图像缓存区和权重缓存区分成M个子缓存区，M个子缓存区的片选控制端、读写使能端并联连接，地址线相互独立，各子缓存区相对应地址用来存储一个一次块运算所需要的图像数据或者权重数据，同时写入或读出。M为一次块运算所对应的最大图像数据大小。

偏置缓存为普通的SRAM，存储数据深度大于加速器内运算的通道数即可。

3、地址生成器

为了方便存取数据，假设三维图像包括X*Y*N块，X表示在行方向的块数，X表示在列方向的块数；N表示在通道方向的块数；每次从外部读取一块三维图像数据存入M个子缓冲区内，每个子缓冲区对应存入三维数据块中的一个元素，提取数据块的顺序如下：

(1)、初始化数据块的行序号i为1,列序号j为1,通道序号k为1；

(2)、依次读取行序号为i,列序号j,通道序号为k的数据块；

读地址生成模块，包括R个读地址生成子模块，所述R为层数。如图4所示，每个读地址生成子模块用来控制产生一次层运算中的所有块运算所需要的地址，根据层序号选通相应层的读地址生成子模块。，对于某一层的处理，输入为三维图像数据，首先沿图像通道方向递增地址，当图像通道方向数据读取完成，按图像二维平面换列方向递增地址后，继续沿图像通道方向递增地址，当图像二维平面换列方向和图像通道方向数据均读取完成，按图像二维平面换行方向递增地址，继续沿图像通道方向递增地址，直到整块数据处理完成。图5给出了本发明图像数据的具体分块存储方式，图6给出了本发明图像读地址生成中y方向地址递增的具体示意图；图7给出了本发明图像读地址生成中x方向地址递增的具体示意图。每个读地址生成子模块的具体实现：

当层序号为r，定义层内块运算序号为y，y从0开始，步长为1，层内每个块运算的图像数据块数据大小为a_r×b_r×c_r时，其中，a_r表示图像数据块在行方向上的数据个数，b_r表示图像数据块在列方向上的数据个数，c_r表示图像数据块在通道方向上的数据个数，图像数据块的数据按照逐行、逐列、逐通道的顺序依次存放的第1～第M个子缓冲区中同一地址中。

当y等于0时，所有M个子缓冲区地址为初始地址，其值为1，否则，M个子缓冲区地址按照下列原则确定：

当y不能被c_r整除时，所有M个子缓冲区的地址递增；

当y能被c_r和a_r的乘积整除时，令y除以a_r、b_r、c_r的乘积的余数为rem,那么，当w％(a_r×b_r)∈[1+(rem-1)×a_r,a_r×rem]时，第w个子缓冲区的地址为原地址加1；否则，第w个子缓冲区的地址为原地址减去c_r×a_r加1；

当y能被c_r整除时，令(y/c_r)％a_r为re，当w除以a_r的余数为re时，第w个子缓冲区的地址为原地址加1；否则，第w个子缓冲区的地址为原地址减去c_r×a_r加1。

5、移位逻辑

由于卷积运算需要卷积核数据在图像数据滑动窗口进行运算，因此需要移位逻辑对图像数据进行相应的移位操作，移位逻辑读取当前卷积运算层序号，由此确定卷积运算时二维平面方向两个维度的大小，根据这两个维度的大小变更图像数据组成的序列顺序，并根据控制单元发出的移位控制信号确定图像数据序列移位的多少，使得进入至计算单元阵列的每次块运算的图像数据与权重数据对齐。在池化或者全连接处理时，移位逻辑直接将缓冲区中的图像数据输出到计算单元阵列。

6、计算单元阵列

如图3所示，计算单元阵列包括乘法器阵列、加法器树、累加器、非线性单元和选通输出单元，其中：

乘法器阵列，将图像数据与权重相乘；

选通输出单元，接收控制单元发送的输出选通信号，选通卷积结果或者池化结果输出；由于卷积运算与全连接运算在运算形式上相同，因此乘法器阵列、加法器树以及累加器共同完成了卷积操作以及全连接操作。

实施例：

卷积神经网络的运算负载主要包括图像输入、卷积神经网络模型本身的权重参数以及偏置参数。图像输入的特点是二维平面方向两个维度较大，范围在1到107，且随着卷积神经网络的层数加深，通道数也逐渐增多，由3增大到512；权重参数一般为卷积核数据，二维平面方向维度为7×7，5×5，3×3，1×1，通道数为3到512；偏置参数每个通道只有一个，因此每层参数只有3到512个。针对这些特点，本发明对不同数据分别存储，并采取分块的方式，即对二维平面方向维度较大的图像输入以及权重参数进行分组存储，将图像存储以及权重存储分为150个组，以提供足够的数据带宽，每组字长为16位，图像缓存位宽为9位，权重缓存位宽为7位。偏置缓存区为常规的一读一写SRAM，位宽为11位，字长为16位。

分组存储的数据需要通过灵活的地址控制实现数据复用，地址控制通过控制单元和地址生成单元共同完成。控制单元负责输出当前正在计算数据块的状态，地址生成单元根据当前数据块的状态生成150组数据的具体地址。如图2所示，控制单元控制加速器依次读取所有的输入，包括权重、偏置和图像，在输入准备好后开始计算并输出。控制单元读取权重时要将DRAM中的数据读取到权重缓存中。控制单元首先要使能权重缓存的片选信号，并且使权重缓存处于写入状态。但是写入权重缓存还需要地址，权重缓存是整块的，不存在多个通道卷积核复用的情况，因此控制单元只需给出地址顺序递增的信号即可，令权重地址生成器产生顺序递增的地址。与此同时，控制单元向其他模块发送无效信号，输出此时也为无效。整个读取权重的过程都处于上述的控制状态下，直到所需权重读取完成进入下一状态。读取偏置与读取权重时类似，只不过控制信号发送有效信号的对象是偏置缓存和偏置地址发生器。

读取图像数据的过程要比读取权重和偏置复杂。片选信号和读写状态信号是一致的，不同在于地址产生。当图像数据恰好分为150个数据的小块时，图像数据的边界非常齐整，所有的小数据块都恰好是150，即没有不完整的数据块，这时的写入地址顺序递增即可，与权重和偏置的地址产生相同。

分组完全的数据存储：分组完全是指输入参数与权重参数恰好可以分为150个组，如图5所示，输入图像大小为25×25×96，首先将输入图像按照卷积核的大小进行分块，卷积核大小为5×5×96，但是图像缓存只有150个分组，无法一次存储2400个数据，因此对每个卷积核大小的图像数据进行进一步拆解，变为5×5×6的小块，这样输入图像被分成了16×5×5＝400块，然后将每个5×5×6的小块存到图像缓存的150个组，这个过程一般是从DRAM取数存到SRAM中，而DRAM每次取数的位数一般是32位，因此顺序取出小块的数据依次放到缓存的150个小组中，第一个图像数据块就占用了图像缓存的所有地址为1的缓存，接下来再存储第二个图像数据块，占用图像缓存所有小组的地址为2的缓存，以此类推。

但是第二个数据块从哪个方向选取仍然是一个问题，这个方向的选择对性能有着很大的影响。如果我们从x方向选取第二个数据块，那么计算时最方便的方式就是处理完第一个数据块然后接着处理第二个数据块，这样就会产生一个问题，卷积核一共包含了16个小块的数据，每处理一个小块并没有产生最终的结果，而是中间结果，这样就需要额外的存储，下一次处理的输入就需要11个寄存器存储中间结果，如果是先x方向，后y方向，最后z方向就需要121个寄存器存储中间结果，121个寄存器规模还不是很大，但是如果是对于224×224的图像输入，使用3×3的卷积核，这样的方向选择就需要224×224＝50176个寄存器，这样庞大的寄存器阵列非常耗费资源，与此同时控制逻辑也随之更加复杂，如果是对50k个寄存器每个要采取单独的控制，这样的代价是不可承受的。因此对于通道数很多的卷积核应该选择z方向作为第一个存储数据的方向，这样就算通道数很多，只需要一个累加寄存器就可以得到最终的结果，接下来继续处理下一个输出即可。对于x和y方向的选择对于最终的性能几乎没有差别，因此我们就按照习惯设置了x方向优先。

总的来说，本发明通过对负载切分，将易于复用部分缓存到片上，提高了片上存储数据的利用效率，降低了频繁读写外存的延时和功耗，提高了卷积神经网络的运算效率。

本发明说明书中未进行详细描述部分属于本领域技术人员的公知常识。

Claims

1.一种基于SOC的数据复用卷积神经网络加速器，其特征在于包括图像地址生成器、图像缓存区、移位逻辑、权重地址生成器、权重缓存区、偏置地址生成器、偏置缓存区、控制单元和计算单元阵列，控制单元接收外部输入的启动控制信号，之后，根据预设时序，控制偏置地址生成器、权重地址生成器和图像地址生成器产生偏置写控制信号、权重写控制信号和图像写控制信号，将偏置、权重和图像数据分块存入相应的缓冲区，之后，再控制偏置地址生成器、权重地址生成器和图像地址生成器产生相应缓冲区的读写地址，权重缓存区、偏置缓存区分别将相应地址内的权重、偏置数据输出至计算单元阵列；图像缓冲区将相应地址内的图像数据输出至移位逻辑，移位逻辑根据控制单元发送的移位控制信号和层运算序号，将图像数据进行移位处理之后输出至计算单元阵列，计算单元阵列，根据权重数据、偏置数据、图像数据，采用分块运算的方法，对图像数据进行多层卷积、池化以及多层全连接运算；

主控制模块，接收外部输入的启动控制信号，之后，根据预设的卷积神经网络加速器各层卷积运算的时间和全连接运算时间，按照预设时序，将卷积、池化和全连接运算过程都分成多个层运算，每个层运算分为多个块运算，在层运算开始之前，向写控制状态机发送写控制启动指令，当前层运算所需数据全部写入相应的缓冲区后，向写控制状态机发出写控制停止信号；在层运算开始时刻，向权重读控制状态机、偏置读控制状态机、图像读控制状态机发送权重读控制启动信号，向移位逻辑发送移位控制信号和层运算序号；在层运算结束时刻和块运算结束时刻，向权重读控制状态机、偏置读控制状态机、图像读控制状态机，发送层运算结束标志和块运算结束标志信号，向移位逻辑发送的移位控制信号和层运算序号；

2.根据权利要求1所述的一种基于SOC的数据复用卷积神经网络加速器，其特征在于所述图像缓存以及权重缓存均为分组存储结构，图像缓存区和权重缓存区分成M个子缓存区，M个子缓存区的片选控制端、读写使能端并联连接，地址线相互独立，各子缓存区相对应地址用来存储一个一次块运算所需要的图像数据或者权重数据，同时写入或读出，M为一次块运算所对应的最大图像数据大小。

3.根据权利要求1所述的一种基于SOC的数据复用卷积神经网络加速器，其特征在于权重地址生成器、偏置地址生成器包括计数器，计数器的计数值作为地址输出至相应的缓冲区，当地址复位信号“有效”时，计数器的计数值清零；当地址保持信号有效时，计数器的计数值不变；当地址递增信号有效时，计数器的计数值加1。

4.根据权利要求1所述的一种基于SOC的数据复用卷积神经网络加速器，其特征在于图像地址生成器，包括读地址生成模块、写地址生成模块、读写地址选通模块；

写地址生成模块，包括计数器，计数器的计数值作为图像写地址输出至读写地址选通模块，当地址复位信号“有效”时，计数器的计数值清零；当地址保持信号有效时，计数器的计数值不变；当地址递增信号有效时，计数器的计数值加1；

读地址生成模块，包括R个读地址生成子模块，所述R为层数；每个读地址生成子模块用来控制产生一次层运算中的所有块运算所需要的地址，根据层序号选通相应层的读地址生成子模块，对于某一层的处理，输入为三维图像数据，首先沿图像通道方向递增地址，当图像通道方向数据读取完成，按图像二维平面换列方向递增地址后，继续沿图像通道方向递增地址，当图像二维平面换列方向和图像通道方向数据均读取完成，按图像二维平面换行方向递增地址，继续沿图像通道方向递增地址，直到整块数据处理完成。

5.根据权利要求1所述的一种基于SOC的数据复用卷积神经网络加速器，其特征在于所述图像数据包括X*Y*N块，X表示在行方向的块数，X表示在列方向的块数，N表示在通道方向的块数；每次从外部读取一块三维图像数据存入M个子缓冲区内，每个子缓冲区对应存入三维数据块中的一个元素，提取数据块的顺序如下：

(1)、初始化数据块的行序号i为1,列序号j为1,通道序号k为1；

(2)、依次读取行序号为i,列序号j,通道序号为k的数据块；

6.根据权利要求1所述的一种基于SOC的数据复用卷积神经网络加速器，其特征在于卷积运算时，移位逻辑根据卷积层序号，由此确定卷积运算时二维平面方向两个维度的大小，根据这两个维度的大小变更图像数据组成的序列顺序，并根据控制单元发出的移位控制信号确定图像数据序列移位的多少，使得进入至计算单元阵列的每次块运算的图像数据与权重数据对齐，在池化或者全连接处理时，移位逻辑直接将缓冲区中的图像数据输出到计算单元阵列。

7.根据权利要求1所述的一种基于SOC的数据复用卷积神经网络加速器，其特征在于所述计算单元阵列包括乘法器阵列、加法器树、累加器、非线性单元和选通输出单元，其中：

乘法器阵列，将图像数据与权重相乘；

非线性单元，对卷积结果进行池化处理，并输出；