CN106940815B

CN106940815B - 一种可编程卷积神经网络协处理器ip核

Info

Publication number: CN106940815B
Application number: CN201710076837.8A
Authority: CN
Inventors: 梁峰; 高震霆; 杨少飞; 买廷瑞
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2020-07-28
Anticipated expiration: 2037-02-13
Also published as: CN106940815A

Abstract

本发明公开了一种可编程卷积神经网络协处理器IP核，其目的是在数字芯片(FPGA或ASIC)上实现对卷积神经网络的运算加速。其具体架构包含了全局控制器、I/O控制器、多缓存体系、卷积单元、池化单元、填充单元、全连接单元、内部互联逻辑以及为该协处理器IP设计的指令集。所提出的硬件结构支持不同规模的卷积神经网络完整流程；充分利用硬件级并行，设计多级缓存体系，达到了高性能、低功耗特性；通过指令控制运算流程，具有可编程性与可配置性，易于部署在不同的应用场景中。

Description

一种可编程卷积神经网络协处理器IP核

技术领域

本发明涉及数字芯片设计领域，具体涉及一种可编程卷积神经网络协处理器IP核的设计。

背景技术

对人工智能(Artificial Intelligence)的探索、研究和实现一直是人类孜孜不倦的追求。作为计算机科学最重要的分支之一，人工智能科学随着计算机科学的诞生起源于20世纪中叶，逐渐发展成为多个领域诸如计算机、数学、电子、生物学、医学以及工程领域的交叉科学。

机器学习(Machine Learning)目前是人工智能领域中最核心、也是发展最快的一个分支，致力于研究通过一定的学习算法从数据中自动分析获得规律，再由模型去预测未知数据。机器学习理论已经广泛应用于计算机视觉、搜索引擎推荐、自然语言处理以及机器人等多个领域。

21世纪初，随着软硬件的发展，计算能力有了长足提升，而大数据技术的发展又为机器学习积累了海量的样本。因此，层数非常多的神经网络，即深度神经网络或深度学习(Deep Learning)充分利用了这些优势，取得了令人瞩目的表现能力，受到学术界与工业界的重新关注，掀起了机器学习的又一轮热潮，尤其在图像分类识别、视频跟踪、自然语言处理、人工智能与决策等领域取得了丰硕成果。

卷积神经网络(Convolutional Neural Network,CNN)是深度学习中使用最为广泛的一种模型之一，其思想来源于人脑在识别与处理图像过程中的一些行为模式，因此其在图像与视频处理方面成为了一定意义上的“标配”结构。

卷积神经网络结构日趋复杂，大规模、深层次的网络利用了海量数据样本，其学习能力与表现能力不断提升，然而随之而来的是训练参数与计算量的成倍增加。复杂的深度学习网络的训练与预测过程需要消耗巨额浮点计算资源以及极高访存带宽，由于硬件体系结构的限制，仅利用通用架构CPU进行深度学习计算效率低、速度慢，难以部署大规模的计算任务。随着以NVIDIA的CUDA为代表的GPU异构加速计算的兴起，研究者们开始使用GPU集群进行深度学习计算。然而，这样虽然解决了一定的计算力问题，但高端GPU芯片成本高昂、功耗巨大，能耗比仍然不甚理想，受限于体积、移动性、续航能力，通用CPU+GPU的计算模式难以支持日益普遍的嵌入式应用与终端应用场景。

对于上述应用场景，业界未来的一个趋势是在主控制器(桌面级或嵌入式CPU)之外，利用专用芯片(FPGA或ASIC)来进行卷积神经网络的计算加速，其优势在于延迟小、功耗低、效率高。当出货量增长后，平摊成本非常低廉。

FPGA具有灵活的可编程性和可配置性，可以设计高度并行化的专用计算单元，在高效计算的同时兼顾低功耗的优势。一方面，深度学习模型中有相当多的抽象模块可以分解为结构规整、复用度高的基本单元，适于硬件实现与集成。另一方面，深度学习算法理论仍然在快速发展中，与ASIC(专用集成电路)相比，FPGA的重构特性可以用于设计的快速更新与迭代，而当硬件设计有了兼顾通用性与稳定性的版本时，FPGA设计的积累也可以快速转型为ASIC。因此，近年来利用FPGA与ASIC进行深度学习异构加速正成为学术界和巨头企业关注的热门研究方向。

由于终端应用场景广泛，对卷积神经网络的规模和结构要求不同，需要根据应用场景进行灵活的调整与修改。众所周知，直接进行硬件设计的修改和调试是一个成本较高、耗时较长的过程。为了能够向不熟悉硬件设计的算法与软件人员提供应用支持，加速硬件具有可编程的接口，使上层应用与底层平台分离，对算法的支持有着重要的意义。

发明内容

本发明提供一种可编程卷积神经网络协处理器IP核，其目的是在数字芯片(FPGA或ASIC)上实现对卷积神经网络的运算加速，并应用于卷积神经网络的异构加速或终端部署。

本发明的预期应用场景要求专用芯片具有可配置性与可编程性，支持包含卷积、非线性激活函数、池化、填充与全连接计算的不同规模的卷积神经网络完整流程；计算效率保持高性能的同时，具有低功耗特性；具有标准的接口，具有可扩展性与可定制性。

为实现上述目的，本发明采用如下技术方案：

一种可编程卷积神经网络协处理器IP核，具体包含了全局控制器、I/O控制器、多缓存结构、卷积单元、池化单元、填充单元、全连接单元、内部互联逻辑以及针对该协处理器IP各种操作而自主设计的指令集。

所述各单元的控制端口与全局控制器的对应端口点对点连接，数据读写端口连接到内部互联逻辑的512位数据总线，以全局控制器仲裁的方式进行共享。

所述的全局控制器，完成对整个协处理器各模块的控制，包含了具有8个32位寄存器的通用寄存器堆、指令译码单元以及对各个单元的控制端口。

所述的I/O控制器，支持外部DDR3存储器及其控制器，以DMA(Direct MemoryAccess)方式进行对外部存储器的批量读写，由全局控制器给出读写首地址、偏移量之后自动进行读写操作。

所述的多缓存结构包含了全局数据缓存(分为两个存储块，每块容量1024KB)、全局权值缓存(分为四个存储块，每块容量64KB)、8KB指令缓存，与各模块的通过内部互联逻辑进行通信。

全局数据缓存，支持“乒乓”读写，被分为两个存储块(以下称Bank)。存储地址与空间不共享，每个块有一组独立的读写端口，两个块交替读写。Bank的切换由指令控制，但其读写切换的逻辑模块对外部是不可见的，即其他单元与全局数据缓存的连接不需要具体区分连接的是哪一个读写端口。

所述的卷积单元，包含了内部的控制模块、输入模块、计算模块、输出模块；

1)控制模块包含了配置表与控制器：配置表连接到卷积单元公共参数寄存器组，根据卷积单元的公共参数计算出在本次卷积迭代中，对各向量单元的开闭、执行、输入数据与输出数据的线性地址区间、逻辑索引值做了计算。控制器读取配置表的输出，并完成对各模块的调度。

2)输入模块包含了输入数据广播器、16组局部输入缓存、与局部输入缓存一一对应连接的16组数据移位器。输入模块从全局数据缓存读入数据，并按照各向量单元处理的不同子区域把数据以广播方式送入对应的局部输入缓存。移位器从局部输入缓存载入数据，以“滑窗”的方式发送给计算模块。

3)计算模块内调用了512个单精度乘法器与512个单精度加法器，每一个乘法器与加法器组合成一个乘法-加法对，作为一个最基本的浮点计算单元FPU，全部FPU被划分4个计算内核组，每组16个向量单元，可以通过配置相关参数寄存器确定每组开启的单元数量。每个向量单元长度为8个单精度浮点值，即256位，在一次迭代中负责输出特征中的1×8的行向量。每个向量单元包含8组浮点乘法器与浮点加法器。每一组乘法-加法对负责对一个输入特征的子区域进行卷积，计算结果为输出特征的一个点。加法器的输出反馈连接到输入端以完成累加。当所有计算内核都被开启时，在一次迭代中输出了一个16×8×4的三维子矩阵。

4)输出模块包含对应各向量单元的局部输出缓存和卷积单元输出接口。每一组局部输出缓存位宽为256位，与向量单元的位宽适配。各缓存的最终结果由输出接口轮流读出并按照对应的地址写入全局数据缓存的写Bank。

所述池化单元完成对卷积单元输出特征的采样。池化支持两种类型：2×2与3×3的最大池化与平均池化。最大池化单元从子区域中找出最大值，调用了9组浮点比较器，按9-5-3-2-1的的树形阵列连接；平均池化单元计算一个子区域的平均值，调用了加法器，按9-5-3-2-1的树形阵列连接，其最后一级的输出连接到浮点乘法器，乘以1/2、1/4、1/9等池化区域面积的倒数来取平均值，避免了使用资源开销大、延迟较高的除法器。

所述全连接单元完成向量的乘加操作，其向量长度与外部存储器的带宽匹配，完成一个行向量(输入特征)与矩阵相乘(权值)，输出另一个行向量(输出特征)的计算。本设计中，全连接单元调用了16个浮点乘法器，并通过16-8-4-2-1的树形浮点加法器阵列完成累加，一次计算迭代可以进行1×16的行向量内积运算。

卷积单元、池化单元、填充单元、全连接单元挂载在内部互联逻辑上，对内部总线的占有权由全局控制器进行仲裁。

所述的指令集，位宽为32位，包含了完成调度工作而不直接控制复杂计算的10条基本指令，如寄存器载入、存储器读写、单元执行、分支跳转等。

相对于现有技术，本发明具有以下优点：

与其他类似技术相比，本发明把卷积神经网络的其他组件集成在同一IP核中，提供了“卷积-池化-全连接”的完整的计算流程。特别地，与一些类似技术提供了固定尺寸与层数的卷积支持相比，本发明所提出的卷积单元，在硬件资源限制内，提出一种可扩展规模的设计，支持一定范围内的任意尺寸(即调整的最小步长为1)，且通过指令的控制可以支持任意层数的卷积神经网络。

本发明注重发挥芯片(FPGA或ASIC)硬件结构的并行性，与通用处理器相比，能耗比优势明显；同时，利用了卷积操作具有的数据复用特点，设计多级缓存体系，借助适度容量的缓存，大幅减小了对外部存储器的读写频率及带宽压力，有助于减小芯片功耗与SoC内部通信资源的占用。

通过指令控制运算流程，使软件设计人员、算法人员等用户面对不同的应用场景时，可以摆脱繁杂耗时的硬件设计与调试过程，具有使用的便捷性与广泛性，有利于快速迭代；接口与具体硬件设计分离的特性，也有利于硬件设计人员在本发明的新版本中提供内部模块的升级与改进。

附图说明

图1为卷积神经网络协处理器IP的顶层结构图示；

图2为卷积单元的硬件结构及其与外部模块的连接方式图示；

图3为卷积单元控制器状态流图示；

图4为卷积单元输入特征子区间交叠情况图示；

图5为卷积单元输入数据广播机制图示；

图6为卷积单元输入特征与卷积核的运算过程图示；

图7为卷积单元移位器工作图示；

图8为卷积单元中的向量计算单元结构图示；

图9为浮点加法器流水线填充机制图示；

图10为补齐边界的最大池化图示；

图11为填充单元图示；

图12为全连接单元乘法器与加法器连接结构图示；

具体实施方式

首先给出以下卷积运算基本定义以便后续的具体实施方式说明：

-fi：输入特征，即卷积层的输入矩阵。此处为分析一般情况，假设二维输入特征是一个正方形，三个维度定义为(is,is,ci)，分别表示输入特征的长、宽与通道数。

-fo：输出特征，即经过卷积层计算后的输出矩阵，三个维度为(os,os,co)，分别表示输出特征的长、宽与通道数。

-w：权值矩阵，即卷积核。此处假设卷积核为正方形，四个维度为(k，k，ci，co)，其中ci对应输入特征、co对应输出通道的同名变量定义。

-bias：权值的偏置值，一维向量，长度为co。

参照图1，一种可编程卷积神经网络协处理器IP核的硬件架构具体包含了全局控制器(附指令缓存)、I/O控制器、全局数据缓存(Bank0、Bank1)、全局权值缓存(Bank0～Bank3)、卷积单元(附局部输入、输出缓存)、池化单元、填充单元、全连接单元、内部互联逻辑。

协处理器IP核与外部各IP通过外部的互联逻辑连接，具体的外部结构由该发明被应用的具体场景决定，不局限于图1所示。

参照

图2，描述了卷积单元的整体架构及其与其他模块的连接方式。其中LIB指局部输入缓存，LOB指局部输出缓存。

卷积单元在开始工作前，首先要完成公共参数的配置：全局控制器在解析指令后把对应参数按顺序放入全局控制器通用寄存器堆，并通过使能信号告知卷积单元配置表从通用寄存器中读取如表1所示的公共参数。配置表会根据这些参数计算出如表2所示的具体参数。全局控制器在告知卷积单元开始工作时，对互联逻辑进行仲裁，以保证其数据流是由卷积单元作为主设备发起控制的。

卷积单元首先会从全局数据缓存的读Bank读入输入特征在本次卷积中需要的一个子区域，该子区域在全局缓存中的地址区间从配置表中获知。并通过数据广播器按照广播方式写入局部输入缓存(LIB)阵列中的每一个存储块；之后控制器按照卷积子区域的行、输出通道、输入通道的顺序进行遍历，计算中间结果存储在各向量单元的局部输出缓存(LOB)；遍历结束，中间结果成为最终结果。所有的最终结果通过输出接口按特定的地址映射机制写入全局数据缓存的写Bank正确位置；本次卷积的迭代结束后，系统向全局控制器发送结束信号，并进入空闲状态，等待下一次配置与计算。

表1卷积单元公共参数

参数	说明
		relu	输出特征是否需要通过ReLU函数
stride	卷积核滑动步长
		k	卷积核尺寸
is	输入特征尺寸
		os	输出特征尺寸
ci_num	输入通道数
		ci_start	输入通道初值
ci_end	输入通道终值
		co_num	输出通道数
row_start	本次卷积对应输出特征的行起点
		col_start	本次卷积对应输出特征的列起点
vec_active	本次卷积开启的向量单元组的数量

表2卷积配置表参数

参数	说明
		data_row_start	卷积子区域的起始行
data_col_start	卷积子区域的起始列
		data_row_end	卷积子区域的终点行
data_col_end	卷积子区域的终点列
		vecIdx[i].row	第i组局部数据缓存的起始行
vecIdx[i].col	第i组局部数据缓存的起始列

参照图3，卷积单元的控制器状态及描述如表3所示，其状态跳转条件如表4所示。

表3卷积单元控制器状态

表4卷积单元控制器状态跳转条件

参照图1，输入模块包含输入数据广播器、16组局部输入缓存与一一对应连接的数据移位器。

输出特征行相邻的向量单元，计算的输入特征子区域是高度重叠的，因此一组读入的数据可能会被多个向量单元在不同的时刻访问到。采用广播机制的数据传输可以使总的数据缓冲时间开销降低。

以下结合图4，对输入数据广播机制进行详细说明：

对一个特定的输入通道而言，输入数据子区域为一个二维矩阵。为方便分析，假设其起始行列的逻辑坐标为(0,0)，结束于(m,n)，卷积核尺寸为k，卷积滑动步长取通常值1，那么输入数据子区域表示为矩阵

各局部输入缓存需求的区间为

注意到，每一个局部输入缓存要求的数据都是该矩阵的子矩阵，开始于(i,0)，结束于(i+k-1,n)，具有k行n列，并且其各数据元素在存储器中的地址有很大的交集，如图4所示。

卷积单元输入数据广播机制的逻辑时序如图5所示。配置表中已经提供了各向量单元计算的子区域的行列起始坐标，由该坐标以及卷积公共参数可以计算出各向量单元对全局数据缓存的访存地址。控制器在LOAD状态发送的地址流是所有局部缓存需求区域的并集，即整个输入特征子区域的各数据元素的公共地址。当某个局部数据缓存的需求访存地址与当前公共地址匹配时，广播器获知该匹配信号，启动该局部数据缓存的传输过程，从数据总线上读取数据流，此时可能有多组局部数据缓存地址匹配，同时处于读取状态；当不再匹配时，匹配信号取消，传输过程结束。

结合图6，卷积运算可以看作卷积核在输入特征上的“滑窗”。8组向量计算单元的计算中，每一个卷积子区域列相邻的数据的物理位置是有交集的，但由于输出的8个元素之间在算法上互相无关联，因此各子区域在逻辑上又是独立的。卷积操作借鉴了SIMD(单指令多数据，single-instruction-multiple-data)的思想，一次移位操作完成8组数据的发送。移位器完成“滑窗”过程，在每一行数据移位完毕时，需要重载下一行数据再进行移位。

参照图7，移位器的硬件逻辑实现方式为：

1)从局部数据缓存读入一行待移位数据。局部数据缓存的读写带宽设计为256bit，因此一个周期便可以填充移位器，读入8个单精度浮点数的向量长度(8×32bit＝256bit)。

2)之后，移位寄存器向左移位，同时最右端补入下一个向量中的一个元素，具体取该向量中的元素索引与移位次数一致。同时，对应的权值也在每周期读入一个新值，该过程对应了控制器中的“SHIFT”状态。

3)移位次数与卷积核尺寸相等时，移位器从局部缓存读入并替换为卷积区域下一行的向量，对应了控制器中的“SWITCH”状态。

4)最后一个输入通道的卷积区域计算完毕时，需要额外增加一个偏置值(Bias，在权值缓存中保存，每个输入通道都有一个Bias)。为了保持乘加操作的连贯性，移位器的数值变为单精度的1.0(十六进制表示为0x3F800000)，即1.0×偏置值，把额外的加操作合并到之前的乘加流水中。这个过程对应了控制器中的“BIAS”状态。

重复2、3步骤，直到该卷积区域计算完毕，之后控制器将进入其他状态以完成对应操作。

如

图2所示，全部向量计算单元调用了512个单精度乘法器与512个单精度加法器。每一个乘法器与加法器组合成一个乘法-加法对，作为一个最基本的浮点计算单元(以下简称为FPU，floating point unit)。全部FPU被划分4个计算内核组，每组16个向量单元，可以通过配置相关参数寄存器确定每组开启的单元数量。

参照图8，一组向量单元包含8组浮点乘法器与浮点加法器，长度为8个单精度浮点数值，即256位。每一组乘法-加法对负责对一个输入特征的子区域进行卷积，在一次迭代中负责输出特征中的1×8的行向量，相当于把输入的二维矩阵延展成为一维向量，可以灵活处理不同卷积核尺寸。加法器的输出端经过一级寄存器后反馈到输入端，以完成累加。

SHIFT状态下，向量单元模式为“乘加”，权值与从移位器输入的向量相乘，乘积送入加法器(此时作为累加器)。

执行完一个输入通道对应的卷积时，该通道卷积计算的结果与已经暂存在局部输出缓存中的前一个通道的计算结果相加，其结果写回局部输出缓存的同一地址，该过程发生在ACC状态中，向量单元模式为“加”，加法器的输入分别来自累加和(Sum)寄存器和局部输出缓存。此时也表示前一段累加过程结束，因此对加法器的输出端清零，以开始另一组累加过程。

浮点运算较为复杂，经过对时序的评估，本设计采用了3级流水的浮点加法器。考虑到加法器输出端的还会经过一级累加寄存器，所以加法结果传递给下一级需要等待4个时钟周期。由于累加过程会产生数据依赖，即后一组累加需要等待前一组结果的完全产生，因此一次特定的卷积运算只能在流水线的固定节拍上执行，其余各节拍都会处于空闲状态。

流水线各节拍之间的数据互不影响，所以为了避免流水线气泡造成的性能浪费，控制器在其他三个节拍插入对应不同卷积核的计算(即输出特征属于不同的输出通道)，从而填充了流水线。

结合图9以及如下表达式，假设有四个数组A、B、C、D需要进行累加操作，即：

S_a＝A₀+A₁+A₂+…+A_n

S_b＝B₀+B₁+B₂+…+B_n

S_c＝C₀+C₁+C₂+…+C_n

S_d＝D₀+D₁+D₂+…+D_n

设计中将其分散在流水线的四个节拍中，即流水线节拍0——数组A、节拍1——数组B、节拍2——数组C、节拍3——数组D。

由于一组输入特征对应多组卷积核，因此一组移位器的数据可以由多个向量单元共享。本发明的硬件结构中，全局权值缓存有4个Bank，即4个独立读写通道，可同时输出4组不同的权值。因此一组移位器与4组向量单元连接，每个向量单元对应一组权值，并行执行4组卷积运算，其卷积运算结果对应于4组不同输出通道的输出特征。由于输出空间是一个三维矩阵，当所有计算内核都被开启时，在一次迭代中输出了一个16×8×4的三维矩阵。

卷积单元输出模块包含对应各向量单元的局部输出缓冲区和卷积单元输出接口。每一组局部输出缓冲区位宽为256bit，与向量单元的输出位宽适配，一个周期即可完成一组向量的读写，用于存储对应于一个特定输入通道的所有输出通道中间结果，并与下一个输入通道的值累加后重新写回原地址。该过程对应控制器的ACC状态。

当遍历了所有的输入通道之后，向量单元再次存入局部输出缓存的数值即为最终结果，由输出接口模块轮流读出并按照对应的地址写入全局数据缓存的写Bank。该过程对应控制器的SAVE状态。

池化单元包含了控制器、输入缓冲区、最大池化单元与平均池化单元。

池化过程从全局数据缓存的读Bank中读入数据，经过池化操作后的结果写回全局数据缓存的写Bank。

最大池化单元从子区域中找出最大值，调用了9组浮点比较器，按9-5-3-2-1的的树形阵列连接。

平均池化单元计算子区域的平均值，调用了加法器，按9-5-3-2-1的树形阵列连接，其最后一级的输出连接到浮点乘法器，乘以1/4、1/9等池化区域面积的倒数来取平均值，避免了使用资源开销大、延迟较高的除法器。

如图10所示，池化时考虑了输入特征的行列尺寸，如果行列不能由池化子区域完全覆盖，则需要额外处理边界，以输入尺寸为8、池化尺寸为3、池化步长为2的最大池化为例，需要补齐边界，填充为0或单精度负无穷(0xFF7FFFFF)，

如图11所示，填充单元在输入特征每一个输入通道的二维矩阵四周填充1到2层零。

1)首先根据填充的层数，向全局数据缓存的写Bank中写入全零行。

2)之后从全局数据缓存的读Bank中读取原输入特征，在原输入特征的每一行开头写入零，并把每个元素的写入地址增加一个偏移量。原输入特征的这一行存储完后，再在该行末尾写入零。

重复1、2两个过程至原输入特征的最后一行，在最后写入全零行。之后开始对下一个输入通道的二维矩阵进行处理。

图12描述了全连接单元的结构。卷积神经网络中的全连接单元实际上是一个行向量(输入特征)与矩阵相乘(权值矩阵)，输出另一个行向量(输出特征)的计算过程，因此权值不存在复用情形，其计算能力取决于存储器带宽，向量长度可以与外部存储器的带宽匹配。本设计中，外部数据存储器和权值存储器都是512bit，因此全连接单元设计为16组乘法器的输出与加法器的16-8-4-2-1树形连接模式，如图12所示。由于全连接层的尺寸较大，计算中会出现累加，数据依赖导致的加法器流水线气泡问题同样采用了如图9所示的处理策略。

所述全连接单元完成向量的乘加操作，其向量长度与外部存储器的带宽匹配，完成一个行向量(输入特征)与矩阵相乘(权值)，输出另一个行向量(输出特征)的计算。本设计中，全连接单元调用了16个浮点乘法器，并通过的树形浮点加法器阵列完成累加，一次计算迭代可以进行1×16的行向量内积运算。

多缓存结构包含了全局数据缓存与全局权值缓存。

卷积神经网络计算过程中，各层单向连接，每一层的计算结果成为下一层的输入，即访存过程要求同时读写数据缓存。为了满足这个需求，全局数据缓存的设计考虑了“乒乓”策略。

全局数据缓存被分为两个存储块(Bank)，存储地址与空间不共享，每个块都有独立的读写端口，读写位宽为512bit，每个块设计容量为1MB，共计2MB。

两个块交替读写，避免了读写阻塞与数据覆盖。例如，输入特征存储在Bank0，经过第一层卷积的输出特征存储在Bank1。输入特征在全部计算过程中都会使用到，卷积单元从Bank0读入数据的同时向Bank1写入输出数据。Bank的切换由指令控制，但其切换逻辑对外部是不可见的，即各计算单元在访问全局数据缓存时，并不需要关心具体访问的是哪一个Bank、使哪一个读写接口生效。

全局数据缓存使数据流能够主要在协处理器内部流动，避免了与外部DDR3存储器的频繁数据交换。

如果预计某一层卷积计算的输出特征存储空间会超过数据缓存容量，那么在生成指令时，就会把这次计算分成多个批次进行，每一个分批都只计算输出特征的一部分输出通道，从而能够保证该批次数据的完整性。在新一批次的计算开始之前，全局数据缓存中的这些数据会保存到外部DDR3存储器的一个地址段中。之后，需要这一批数据的时候，再从该地址段读回全局数据缓存。

卷积操作中，权值批量保存在全局权值缓存中，读写位宽为512bit，权值缓存从外部DDR3只读，并且对各计算单元只读，减少了两个方向的读写。

权值缓存设计为四个存储块，每个存储块的容量为16k×32bit＝64KB，共计256KB。每个存储块对应一个独立的权值读写通道，四个存储块可以支持四组向量计算单元对一组输入特征的共享。

I/O控制器负责外部DDR3存储器的控制器与协处理器内的全局数据、权值缓存和指令缓存的通信。

由于片上缓存与DDR3批量交换数据，因此I/O控制器采用了DMA(Direct MemoryAccess，直接内存访问)模式，把访存控制逻辑从全局控制器中分离出来，对DDR3控制器的读写以及各有效信号进行控制以完成批量访问，并自动完成对应不同字长的地址转换，把访问DDR3的多种信号配合过程简化为一条对I/O控制器的访存指令。

全局控制器需要提供读写请求、访存首地址、批量访问长度、目的存储器以及目的存储器首地址，I/O控制器会自动进行这一传输过程，而不需要全局控制器进行干涉。传输完成时向全局控制器发送结束信号。

全局控制器完成对整个协处理器各模块的控制，包含了具有8个32位寄存器的通用寄存器堆、指令译码单元以及对各个单元的控制端口；控制器具有独享的指令缓存，容量2048×32bit＝8KB。

在协处理器接受了外部某个主控制器或主机的启动信号，从等待状态上线时，需要首先自动进入启动阶段，从外部DDR3存储器的指定数据段向指令缓存载入指令，之后指令指针自动从指令缓存零地址开始读取指令，并在执行本条指令时取出下一条指令并进行译码。读取到NOP指令时，即本次计算任务结束，进入等待状态。

由于控制器只完成调度工作而不直接控制计算单元的复杂计算，因此本设计提供了一些必要的基本指令集，而不涉及很多具体的计算类指令。全部的指令位宽为32bit，具体指令定义如表5所示：

表5自设计指令集

表中，指令域由第31位到第28表示。对不同的指令，其操作数的规定也不同，具体描述如表6所示。

表6指令集具体规定

Claims

1.一种可编程卷积神经网络协处理器IP核，其特征在于，全局控制器、I/O控制器、多缓存结构、卷积单元、池化单元、填充单元、全连接单元、内部互联逻辑以及针对该协处理器IP各种操作的指令集；所述各单元的控制端口与全局控制器的对应端口点对点连接，数据读写端口连接到内部互联逻辑的512位数据总线，以全局控制器仲裁的方式进行共享，所述的多缓存结构包含了容量为1024KB×2的全局数据缓存、容量为64KB×4的全局权值缓存、8KB指令缓存，与各模块通过内部互联逻辑进行通信，全局数据缓存，支持乒乓读写，被分为两个简称为Bank的存储块，存储地址与空间不共享，每个块有一组独立的读写端口，两个块交替读写，Bank的切换由指令控制，但其读写切换的逻辑模块对外部是不可见的，即其他单元与全局数据缓存的连接不需要具体区分连接的是哪一个读写端口。

2.根据权利要求1所述的一种可编程卷积神经网络协处理器IP核，其特征在于，所述的全局控制器，完成对整个协处理器各模块的控制，包含了具有8个32位寄存器的通用寄存器堆、指令译码单元以及对各个单元的控制端口。

3.根据权利要求1所述的一种可编程卷积神经网络协处理器IP核，其特征在于，所述的I/O控制器，支持外部DDR3存储器及其控制器，以DMA(Direct Memory Access)方式进行对外部存储器的批量读写，由全局控制器给出读写首地址、偏移量之后自动进行读写操作。

4.根据权利要求1所述的一种可编程卷积神经网络协处理器IP核，其特征在于，所述的卷积单元，包含了内部的控制模块、输入模块、计算模块、输出模块；

1)控制模块包含了配置表与控制器：配置表连接到卷积单元公共参数寄存器组，根据卷积单元的公共参数计算出在本次卷积迭代中，对各向量单元的开闭、执行、输入数据与输出数据的线性地址区间、逻辑索引值做了计算，控制器读取配置表的输出，并完成对各模块的调度；

2)输入模块包含了输入数据广播器、16组局部输入缓存、与局部输入缓存一一对应连接的16组数据移位器，输入模块从全局数据缓存读入数据，并按照各向量单元处理的不同子区域把数据以广播方式送入对应的局部输入缓存，移位器从局部输入缓存载入数据，以“滑窗”的方式发送给计算模块；

3)计算模块内调用了512个单精度乘法器与512个单精度加法器，每一个乘法器与加法器组合成一个乘法-加法对，作为一个最基本的浮点计算单元FPU，全部FPU被划分4个计算内核组，每组16个向量单元，可以通过配置相关参数寄存器确定每组开启的单元数量，每个向量单元长度为8个单精度浮点值，即256位，在一次迭代中负责输出特征中的1×8的行向量，每个向量单元包含8组浮点乘法器与浮点加法器，每一组乘法-加法对负责对一个输入特征的子区域进行卷积，计算结果为输出特征的一个点，加法器的输出反馈连接到输入端以完成累加，当所有计算内核都被开启时，在一次迭代中输出了一个16×8×4的三维子矩阵；

4)输出模块包含对应各向量单元的局部输出缓存和卷积单元输出接口，每一组局部输出缓存位宽为256位，与向量单元的位宽适配，各缓存的最终结果由输出接口轮流读出并按照对应的地址写入全局数据缓存的写Bank。

5.根据权利要求1所述的一种可编程卷积神经网络协处理器IP核，其特征在于，所述池化单元完成对卷积单元输出特征的采样，池化支持两种类型：2×2与3×3的最大池化与平均池化，最大池化单元从子区域中找出最大值，调用了9组浮点比较器，按9-5-3-2-1的的树形阵列连接；平均池化单元计算一个子区域的平均值，调用了加法器，按9-5-3-2-1的树形阵列连接，其最后一级的输出连接到浮点乘法器，乘以池化区域面积的倒数来取平均值，避免了使用资源开销大、延迟较高的除法器。

6.根据权利要求1所述的一种可编程卷积神经网络协处理器IP核，其特征在于，所述全连接单元完成向量的乘加操作，其向量长度与外部存储器的带宽匹配，完成一个输入特征行向量与权值矩阵相乘，输出另一个输出特征行向量的计算，本设计中，全连接单元调用了16个浮点乘法器，并通过16-8-4-2-1的树形浮点加法器阵列完成累加，一次计算迭代可以进行1×16的行向量内积运算。

7.根据权利要求1所述的一种可编程卷积神经网络协处理器IP核，其特征在于，所述的指令集，位宽为32位，包含了完成调度工作而不直接控制复杂计算的10条基本指令，可完成寄存器载入、存储器读写、单元执行、分支跳转。