CN115456155A

CN115456155A - 一种多核存算处理器架构

Info

Publication number: CN115456155A
Application number: CN202211124021.5A
Authority: CN
Inventors: 黄科杰; 李鑫; 沈海斌; 范继聪; 徐彦峰
Original assignee: Zhejiang University ZJU; CETC 58 Research Institute
Current assignee: Zhejiang University ZJU; CETC 58 Research Institute
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-09

Abstract

本发明公开了一种多核存算处理器架构，该架构包括系统总线、内存模块、前端总线、外设总线、控制总线和Rocket Tile模块，Rocket Tile模块包括Rocket Core和Rocket协处理器RoCC。Rocket Core用于根据不同指令控制RoCC模块与内存模块进行数据交互或者控制RoCC内部存算核进入计算模式。Rocket协处理器RoCC，用于配置输入缓存模块、权重缓存模块、译码和逻辑控制模块以及存算核模块CIM Core完成数据存储与计算过程。本发明通过改变架构中可配置的模块协处理器RoCC，将能够实现存算处理的存算核CIM Core、缓存模块以及译码与逻辑控制模块配置于其中，不同的卷积神经网络根据存算核支持的数据大小对网络进行分割，配置最少能够实现网络映射的存算核个数完成计算。

Description

一种多核存算处理器架构

技术领域

本发明属于集成电路技术领域，涉及近存储器内计算技术，具体地说是一种可针对多种卷积神经网络映射的多核存算处理器架构。

背景技术

随着大数据与物联网时代的到来，从云端到边缘设备，人工智能(AI)和机器学习(ML)广泛用于许多认知任务，例如图像分类和语音识别。近年来，人工智能边缘设备的硬件加速器研究受到更多关注，主要得益于人工智能在边缘侧的优势：包括隐私、低延迟、更可靠、更有效地利用网络带宽。然而，传统的计算架构(如CPU、GPU、FPGA，甚至现有的AI加速器ASIC)无法满足未来能源受限的AI边缘应用的需求。这是因为ML计算是以数据为中心的，这些架构中的大部分能量都被内存访问所消耗。为了提高能源效率，学术界和工业界都在探索一种新的计算架构，即近存内计算或存内计算。

存内计算的基本思路就是把计算和存储合二为一，从而实现减少处理器访问存储器的频率(因为计算已经在存储器内完成了大部分)。它将存储和计算有机结合，直接利用存储单元进行计算，极大地消除了数据搬移带来的开销，解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题，可以数十倍甚至百倍地提高人工智能运算效率，降低成本。

Rocket Chip是基于Chisel开发的一款开源SoC生成器(Generator)，包含了由core，cache以及互连(interconnect)等构成的模块库，以此为基础构成一个完整的SoC，并可以生成可综合的RTL代码。它有非常灵活的参数化设计，便于我们根据特定的应用场景对其进行定制，我们可以通过仅仅更改一个配置，就得到大小迥异的SoC，可以是嵌入式微处理器，也可以是多核服务器芯片。

发明内容

为解决现有技术中的问题，本发明旨在基于Rocket Chip架构设计了一种可支持多种卷积神经网络映射的多核存算处理器架构。

本发明的技术方案如下：

本发明提供了一种多核存算处理器架构，包括系统总线、内存模块、前端总线、外设总线和控制总线，还包括Rocket Tile模块；

所述Rocket Tile模块用于实现所述存算架构上存算过程的配置，包括RocketCore和Rocket协处理器RoCC；

所述Rocket Core用于根据不同指令控制RoCC模块与内存模块进行数据交互或者控制RoCC内部存算核进入计算模式；

所述Rocket协处理器RoCC包括输入输出I/O模块、输入缓存模块、权重缓存模块、译码和逻辑控制模块以及若干存算核模块CIM Core，Rocket协处理器RoCC用于配置其内部的输入缓存模块、权重缓存模块、译码和逻辑控制模块以及不同个数的存算核模块CIMCore完成数据存储与计算过程。

进一步的，所述的输入输出I/O模块用于RoCC模块与其他模块进行数据交互；输入缓存模块用于存储从内存模块读出的输入激活数据；权重缓存模块用于存储从内存模块读出的权重数据；译码和逻辑控制模块用于将权重缓存模块存储的权重数据按照时序预先存储在存算核CIM Core、控制存算核阵列进行计算以及将存算阵列的计算结果进行处理并输出；存算核模块CIM Core用于实现输入激活与权重的乘加计算操作。

进一步的，所述的存算核CIM Core包括n×(m×8b)的SRAM阵列、行译码电路、乘法模块、加法模块和累加控制模块，SRAM阵列用于存储权重数据，行译码电路用于接收地址数据，将权重数据存储到SRAM阵列特定的一行。

进一步的，所述乘法模块用于实现激活与权重的每个8bit数据的乘法；加法模块用于将乘法模块的结果进行三三相加，共有两级；累加控制模块用于将加法模块的结果根据外部逻辑控制模块的控制逻辑进行数据的累加和输出。

进一步的，权重数据存至SRAM阵列中，输入激活由外部输入；每次乘加操作，由SRAM阵列中一行的数据与外部的输入进来的激活进行乘法操作，以三输入做二级加法操作，累加控制模块根据外部逻辑控制模块的控制逻辑进行数据的累加和输出。

进一步的，所述系统总线用于将存算架构上Rocket Tile模块、内存模块、前端总线、外设总线和控制总线之间传输数据；

所述系统总线包括数据总线和地址总线，数据总线用于搭载数据，地址总线来决定将数据送至何处，并通过控制总线的指令来实现各个模块的控制与数据传输过程。

进一步的，所述内存模块作为缓存，用于存储Rocket Tile模块的输入输出数据；所述前端总线与外界进行数据、命令、地址、控制信号互连；所述外设总线用于连接外设；所述控制总线用于传送控制信号和时序信号。

进一步的，Rocket协处理器RoCC的数据通过DMA直接与内存模块进行数据交互。

进一步的，存算核CIM Core支持存储和计算两种模式，在开始计算前默认工作在存储模式，逻辑控制模块会将权重缓存模块存储的权重数据按照时序预先存储在存算核CIM Core中；开始计算后，系统总线向Rocket Core发出计算指令，Rocket Core模块控制RoCC内部存算核进入计算模式，此时逻辑控制模块控制存算核不再进行存储操作，而是读取输入缓存模块中的数据进行计算；译码和逻辑控制模块可根据外部输入来控制存算核阵列进行计算，实现输入激活和权重的乘加操作，并将结果输出至内存模块。

与现有技术相比，本发明基于Rocket Chip架构，通过改变架构中可配置的模块协处理器RoCC，将能够实现存算处理的存算核CIM Core、缓存模块以及译码与逻辑控制模块配置于其中。不同的卷积神经网络根据存算核支持的数据大小对网络进行分割，配置最少能够实现网络映射的存算核个数完成计算。存算核支持存储和计算两种模式，在开始计算前让存算核工作在存储模式，此时通过接口，按照时序将网络的权重信息预先存储在存算核中；开始计算后通过Rocket Core模块控制让存算核进入计算模式，此时送入存算核的数据不再进行存储操作，而是直接放入寄存器中，等待读取到的权重后开始进行计算。本发明可以根据计算需要进行架构内部的配置，根据不同的配置生成不同的处理器，而传统的架构内部一般都是固定的，无法进行配置。且传统的冯诺依曼架构存储过程与计算过程是分离的，“存储墙”的存在已然成为了现今计算性能提升的瓶颈，而本文设计的存算架构使用了存内计算，支持数据在存储模块中直接运算，并将最终结果反馈回处理器，从而大幅缩减了数据在总线传输的用时和能耗，大大提升了计算的吞吐量与能效。

附图说明

图1为多核存算处理器架构整体示意图；

图2为实现存算处理的Rocket Tile模块以及与内存模块进行数据交互示意图；

图3为存算核CIM Core内部结构图；

图4为卷积层卷积核数据展开为矩阵过程图；

图5为卷积层的映射；

图6为全连接层卷积核数据展开为矩阵过程图；

图7为全连接层的映射；

图8为在ZCU102评估板部署该架构时的各个模块功耗占比图。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。所述实施例仅是本公开内容的示范且不圈定限制范围。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

本发明的多核存算处理器架构是基于Rocket Chip实现的，它是基于Chisel开发的一款开源SoC生成器(Generator)，包含了由core，cache以及互连(interconnect)等构成的模块库，以此为基础构成一个完整的SoC，并可以生成可综合的RTL代码。它有非常灵活的参数化设计，便于我们根据特定的应用场景对其进行定制，我们可以通过仅仅更改一个配置，就得到大小迥异的SoC，可以是嵌入式微处理器，也可以是多核服务器芯片。

如图1所示，多核存算处理器架构包括系统总线、内存模块、前端总线、外设总线、控制总线和Rocket Tile模块；所述系统总线用于将存算架构上Rocket Tile模块、内存模块、前端总线、外设总线和控制总线之间传输数据；所述系统总线包括数据总线和地址总线，数据总线用于搭载数据，地址总线来决定将数据送至何处，并通过控制总线的指令来实现各个模块的控制与数据传输过程。

Rocket Tile模块包括Rocket Core和Rocket协处理器RoCC。Rocket核为有序执行，系统会一直执行某一程序直至终了，以避免资源的浪费；协处理器RoCC内部结构可配置。内存模块可存储Rocket Tile模块的输入输出数据，通过系统总线与Rocket Tile模块进行数据交互。前端总线即外部数据总线，是CPU与外界进行数据、命令、地址、控制信号互连的通道。外设总线可连接其他外设，如网卡和块设备。它可通过各种不同的接口通信协议与外部PC进行数据交互。控制总线包括Boot Rom，它是上电或复位后执行的加载引导程序，还包括设备树(Device Tree)，来确认已连接的外围设备；CLINT,包括每个CPU的软件中断和计时器中断；PLIC,用来聚类和屏蔽设备中断和外部中断；调试单元(Debug Unit)，可用于外部控制芯片，用于将数据和指令加载到内存或从内存中提取数据。它可以通过自定义DMI(Desktop Management Interface)或标准JTAG协议进行控制。上述模块均由系统总线控制，共同构成该处理器架构。

图2为Rocket Tile模块中可配置协处理器模块RoCC的内部结构，以及其与内存进行数据交互的过程。系统总线可通过控制Rocket核来控制协处理器模块RoCC的数据交互与其内部计算过程，协处理器模块RoCC的数据可通过DMA(直接存储器访问)直接与内存Memory模块进行数据输入与输出，不需要通过总线传输。DMA是一种外部设备不通过CPU而直接与系统内存交换数据的接口技术，能够解决批量数据的输入输出问题。神经网络的输入激活、卷积核权重以及输出均存储在内存模块中。

协处理器模块RoCC内部包括输入输出I/O模块、输入缓存模块、权重缓存模块、译码和逻辑控制模块以及可配置不同个数的存算核模块CIM Core。神经网络的输入激活和权重数据存储在内存模块中，RoCC与内存模块数据交互过程由Rocket Core模块控制，系统总线向Rocket Core发送指令，Rocket Core根据不同指令控制RoCC模块从内存模块读出的输入激活和权重数据并存放在输入缓存模块和权重缓存模块，并将计算后的数据输出至内存模块。存算核CIM Core支持存储和计算两种模式，在开始计算前默认工作在存储模式，逻辑控制模块会将权重缓存模块存储的权重数据按照时序预先存储在存算核CIM Core中；开始计算后，系统总线向Rocket Core发出计算指令，Rocket Core模块控制RoCC内部存算核进入计算模式，此时逻辑控制模块控制存算核不再进行存储操作，而是读取输入缓存模块中的数据进行计算。译码和逻辑控制模块可根据外部输入来控制存算核阵列进行计算，实现输入激活和权重的乘加操作，并将结果输出至内存模块。

图3为存算核CIM Core的内部结构，包括一个大小为n×(m×8b)的SRAM阵列、行译码电路、乘法模块、加法模块以及累加控制模块。SRAM阵列用于存储权重数据，行译码电路用于接收地址数据，将权重数据存储到SRAM阵列特定的一行，乘法模块用于实现激活与权重的每个8bit数据的乘法；加法模块用于将乘法模块的结果进行三三相加，共有两级；累加控制模块用于将加法模块的结果根据外部逻辑控制模块的控制逻辑进行数据的累加和输出。本发明的权重数据存至SRAM阵列中，输入激活由外部输入。每次乘加操作，由SRAM阵列中一行的数据与外部的输入进来的激活进行乘法操作，以三输入做二级加法操作，累加控制模块根据外部逻辑控制模块的控制逻辑进行数据的累加和输出。

对于神经网络映射过程，以卷积层和全连接层进行举例说明。卷积层卷积核数据转化为矩阵过程如图4所示，每个卷积核按通道方向上展开为一行向量的形式。卷积层数据映射与计算过程如图5所示。f_i代表第i个卷积核，X_j代表第j个滑窗相对应的输入、

代表输出特征图中第m个位置第n个通道的数据。以总大小为3×3×3×64的卷积核为例，卷积核权重按照通道顺序映射到SRAM阵列的行方向，此时以SRAM阵列大小为256×288的存算核CIM Core为例，每行可存储288个8bit的数据，故每行可存放10个3×3×3个卷积核，64个卷积核共需放置7行。计算顺序由按滑窗顺序进行，计算完一个滑窗再计算下一个。同一个滑窗中，每一个卷积核对应的输入均一致，一行内需要复制多次输入，每个周期完成输入数据与SRAM阵列中一行的乘加的操作，在下个周期完成输入数据与SRAM阵列下一行存储的权重数据乘加操作，以此类推，直至完成第7个周期，所有的权重数据均与输入数据完成乘加操作，且每个周期的输入数据可保持不变，实现了对输入数据的复用，累加控制模块按照卷积核大小将输入数据进行输出，每次滑窗计算可得到输出特征图中每个位置所有通道的数据。在下一次滑窗计算中，只需改变输入数据即可，实现了对权重的复用。根据存算核的个数可配置同时多个滑窗进行计算。

全连接层卷积核数据转化为矩阵过程如图6所示，每个卷积核展开为一行向量的形式。图7为全连接层的映射过程，全连接层可看成特殊的卷积层，映射过程与卷积层类似，输入激活为1x1xIC(输入通道数)，输出数据的大小为1x1xOC(输出通道数)，卷积核的大小为1x1xIC，卷积核的个数为OC个。每个卷积核数据存放于SRAM阵列中的一行，以SRAM阵列大小为256×288的存算核CIM Core为例，若卷积核数据量超过288个，则列方向上需要通过配置多个存算核，直至数据存放完毕。多个卷积核数据分行存放，若输出通道数超过256，则需在行方向上配置多个存算核，直至数据存放完毕。

如图7所示，f_i,j代表第存算核SRAM阵列中第i行第j列的位置，X_k代表全连接层输入的第k个数据、

代表输出特征图中第m个通道中，X_n到X_l与权重乘加得到的部分和。以大小为4096×4096的全连接层为例，每个卷积核的大小为4096×1，故列方向上需要配置15个存算核，输出通道数为4096，行方向上需要配置16个存算核，构成存算核阵列。列方向上每个存算核的输入激活数据均一致，行方向上将全连接层输入激活进行拆分，输入到不同的存算核中，每个计算周期中每行存算核的输出需在外部进行累加，最终得到输出特征图不同通道的值。

进一步将该存算处理器架构映射至FPGA上，固定RoCC内部存算核CIM Core的数量为8个，在ZCU102评估板上进行部署测试，其中查找表LUT使用45608个，寄存器FF使用25529个，存储模块BRAM使用198个，在该板上的硬件资源使用率分别为21.71％、16.64％和4.66％。在20MHz的频率下测试了功耗，总功耗为1.021W，最大吞吐量为543GOPS，能效为186GOPS/W。各个模块的功耗占比如图8所示，其中静态功耗为0.652W，占比64％，动态功耗为0.369W，占比36％。动态功耗还可分为时钟模块Clocks、信号定义模块Signas、逻辑单元Logic、存储模块BRAM、数字数字信号处理模块DSP和输入/输出I/O模块，功耗具体数值和占比如图8所示。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种多核存算处理器架构，包括系统总线、内存模块、前端总线、外设总线和控制总线，其特征在于，还包括Rocket Tile模块；

所述Rocket Tile模块用于实现所述存算架构上存算过程的配置，包括Rocket Core和Rocket协处理器RoCC；

所述Rocket协处理器RoCC包括输入输出I/O模块、输入缓存模块、权重缓存模块、译码和逻辑控制模块以及若干存算核模块CIM Core，Rocket协处理器RoCC用于配置其内部的输入缓存模块、权重缓存模块、译码和逻辑控制模块以及不同个数的存算核模块CIM Core完成数据存储与计算过程。

2.根据权利要求1所述的多核存算处理器架构，其特征在于，所述的输入输出I/O模块用于RoCC模块与其他模块进行数据交互；输入缓存模块用于存储从内存模块读出的输入激活数据；权重缓存模块用于存储从内存模块读出的权重数据；译码和逻辑控制模块用于将权重缓存模块存储的权重数据按照时序预先存储在存算核CIM Core、控制存算核阵列进行计算以及将存算阵列的计算结果进行处理并输出；存算核模块CIM Core用于实现输入激活与权重的乘加计算操作。

3.根据权利要求1或2所述的多核存算处理器架构，其特征在于，所述的存算核CIMCore包括n×(m×8b)的SRAM阵列、行译码电路、乘法模块、加法模块和累加控制模块，SRAM阵列用于存储权重数据，行译码电路用于接收地址数据，将权重数据存储到SRAM阵列特定的一行。

4.根据权利要求3所述的多核存算处理器架构，其特征在于，所述乘法模块用于实现激活与权重的每个8bit数据的乘法；加法模块用于将乘法模块的结果进行三三相加，共有两级；累加控制模块用于将加法模块的结果根据外部逻辑控制模块的控制逻辑进行数据的累加和输出。

5.根据权利要求4所述的多核存算处理器架构，其特征在于，权重数据存至SRAM阵列中，输入激活由外部输入；每次乘加操作，由SRAM阵列中一行的数据与外部的输入进来的激活进行乘法操作，以三输入做二级加法操作，累加控制模块根据外部逻辑控制模块的控制逻辑进行数据的累加和输出。

6.根据权利要求1所述的多核存算处理器架构，其特征在于，所述系统总线用于将存算架构上Rocket Tile模块、内存模块、前端总线、外设总线和控制总线之间传输数据；

7.根据权利要求1所述的多核存算处理器架构，其特征在于，所述内存模块作为缓存，用于存储Rocket Tile模块的输入输出数据；所述前端总线与外界进行数据、命令、地址、控制信号互连；所述外设总线用于连接外设；所述控制总线用于传送控制信号和时序信号。

8.根据权利要求1所述的多核存算处理器架构，其特征在于，Rocket协处理器RoCC的数据通过DMA直接与内存模块进行数据交互。

9.根据权利要求1所述的多核存算处理器架构，其特征在于，存算核CIM Core支持存储和计算两种模式，在开始计算前默认工作在存储模式，逻辑控制模块会将权重缓存模块存储的权重数据按照时序预先存储在存算核CIM Core中；开始计算后，系统总线向RocketCore发出计算指令，Rocket Core模块控制RoCC内部存算核进入计算模式，此时逻辑控制模块控制存算核不再进行存储操作，而是读取输入缓存模块中的数据进行计算；译码和逻辑控制模块可根据外部输入来控制存算核阵列进行计算，实现输入激活和权重的乘加操作，并将结果输出至内存模块。