CN107301455B

CN107301455B - 用于卷积神经网络的混合立方体存储系统及加速计算方法

Info

Publication number: CN107301455B
Application number: CN201710311909.2A
Authority: CN
Inventors: 韩银和; 翁凯衡
Original assignee: Institute of Computing Technology of CAS
Current assignee: Zhongke Times (Shenzhen) Computer System Co.,Ltd.
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2020-11-03
Anticipated expiration: 2037-05-05
Also published as: CN107301455A

Abstract

本发明提供一种混合内存立方体存储系统，包括混合立方体和设置在所述混合立方体的电路逻辑层上的计算控制器、乘加加速器及缓存。其中计算控制器响应于接收的要进行乘加计算的指令，通过所述混合立方体的内存控制器读取要进行计算的数据存入至缓存中，并指示乘加加速器进行计算；该乘加加速器用于响应于来自所述计算控制器的指令，读取缓存中的数据来并行地进行多路乘加计算并将计算结果写入至缓存。这样，在卷积神经网络计算时大量的并行计算及其涉及的频繁访存操作都可以该混合内存立方体内部完成，充分利用了混合内存立方体内部极高的内存带宽和低访问延迟，加快了计算速度，使得卷积神经网络整体的计算效率得到了提升。

Description

用于卷积神经网络的混合立方体存储系统及加速计算方法

技术领域

本发明涉及神经网络及硬件加速技术，尤其涉及支持神经网络计算的加速方法及存储结构。

背景技术

卷积神经网络具有良好的容错能力、并行处理能力和自学习能力，被广泛应用在深度学习中作为基准神经网络架构。卷积神经网络的计算通常会涉及频繁的访存，降低访存延迟和提高访存带宽对于提高卷积神经网络的计算效率、降低计算功耗都有极大的好处。传统基于DRAM或SRAM的方式存储权重和中间计算结果的方法，并不能得到很好的效果。对于DRAM，其访存速度相较于SRAM要慢，访存带宽也相较于SRAM要小，对于神经网络的计算效率有很大的限制作用。而对于SRAM，虽然在访存速度和访存带宽上要略胜一筹，但是因为其高昂的价格，并不能提供很大的内存容量，也不适合具有大量计算数据的卷积神经网络计算。HMC(Hybrid Memory Cube，混合内存立方体)是一种新型的3D内存结构，由于其具有存储容量大、片上访存延迟小等特点，可能是一种合适应用于卷积神经网络计算中的存储计算载体，但如何利用这种新型内存结构更好地支持卷积神经网络计算，仍是亟需解决的问题。

发明内容

因此，本发明的目的是提供一种能较好地支持卷积神经网络计算的混合内存立方体结构及加速卷积神经网络计算的方法。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种混合内存立方体存储系统，包括混合立方体和设置在所述混合立方体的电路逻辑层上的计算控制器、乘加加速器及缓存，

其中所述计算控制器用于响应于接收的指令指示所述混合立方体的内存控制器对所述混合立方体中的数据进行存取，读写缓存以及指示乘加加速器进行计算；

所述乘加加速器用于响应于来自所述计算控制器的指令，读取缓存中的数据来并行地进行多路乘加计算并将计算结果写入至缓存。

在上述系统中，所述乘加加速器可包括并行乘加器、寄存器和状态机，其中状态机响应于来自计算控制器的指令控制并行乘加器进行运算；并行乘加器响应于状态机的控制，基于从寄存器读取的数据并行地进行多路乘加计算并将计算结果写入到寄存器；寄存器用于存储从缓存读取的数据和来自并行乘加器的计算结果。

在上述系统中，所述并行乘加器可以由多个并联的乘加器构成。

在上述系统中，所述寄存器大小可取决于并行乘加器一次计算所需的数据的最大容量。

在上述系统中，所述计算控制器可以为轻量级处理器。

在上述系统中，所述计算控制器可响应于收到要进行存取数据的指令时，通过内存控制器从混合立方体中存取相关数据，并返回对所述指令的响应。

在上述系统中，所述计算控制器可响应于收到要进行乘加运算的指令时，通过内存控制器从混合立方体中读取要进行计算的数据并将其保存至缓存中，指示乘加加速器从缓存中读取相应数据进行运算，以及从缓存中读取来自乘加加速器的运算结果并通过内存控制器将其写入混合立方体中，同时返回对所述指令的响应。

又一方面，本发明提供了一种采用上述的存储系统进行加速计算的方法，包括：

步骤S1，由计算控制器响应于确定收到的指令指示要进行乘加运算，从该指令中提取需要计算的数据在混合立方体中的物理地址；

步骤S2，由计算控制器指示混合立方体的内存控制器通过所提取的物理地址取出数据并保存到缓存中；

步骤S3，由计算控制器指示乘加加速器从缓存中读取数据进行相关的乘加计算并将得到的计算结果保存至缓存；

步骤S4，由计算控制器从缓存中读取计算结果，指示内存控制器将该计算结果写入到所收到的指令中指定的需要写入计算结果的物理地址。

在上述方法中，还可包括由计算控制器响应于确定收到的指令指示要进行数据存/取，从该指令中提取需要进行存/取的物理地址；

由计算控制器指示混合立方体的内存控制器在该物理地址处存/取数据并返回对指令的响应。

与现有技术相比，本发明的优点在于：

将卷积神经网络中大量的并发乘加计算放在HMC的电路逻辑层中进行，充分利用了HMC结构内部的高内存带宽和低访存延迟的特点，减少了主处理器的负担，提高了神经网络整体的计算效率，并降低了功耗开销。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为现有的混合立方体的结构示意图；

图2为对于现有混合立方体的访存示意图；

图3为根据本发明实施例的混合立方体存储系统结构示意图；

图4为根据本发明实施例的乘加加速器的结构示意图；

图5为根据本发明实施例的并行乘加器的结构示意图；

图6为根据本发明实施例的乘加加速器中状态机的状态转换示意图；

图7为基于本发明实施例的存储系统加速卷积神经网络计算的方法流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1给出了现有的混合立方体(HMC)的结构示例示意图。如图1所示，HMC包括多个内存层和一个电路逻辑层。HMC采用了3D封装技术，将多层DRAM以及电路逻辑层堆叠，其中电路逻辑层对各层进行排序，刷新，数据路由，纠错等。平行堆叠的多个内存芯片通过TSV(硅通孔)技术互相垂直链接，以使得每个芯片传输数据的输入输出端口大幅度增加从而大大提升了内存带宽并降低了传输延迟。其中每一个拱顶(vault)都在对应的电路逻辑层中存在一个内存控制器，用来对这个vault中的内存操作行为进行管理。

发明人研究发现，在卷积神经网络中直接采用这种HMC结构对于整体计算效率的改善并不大。如图2所示，主处理器通过系统总线访问HMC内存。在卷积神经网络计算中包括大量的并发乘加计算(例如，并发性卷积计算)，当进行这些并发乘加计算时，处理器需要密集地存取HMC中保存的数据，尽管HMC内部的内存带宽和访问延迟有所改善，但对于主处理器与HMC之间的大量的数据传输及延迟并没有改善，而且这些并发性乘加计算会占用主处理器的大量计算时间，因而卷积神经网络整体计算效率并没有太多的改善。虽然可以通过采用包括多个内核的处理器或专用图形处理器来优化计算能力，但这无疑会增加系统成本。并且现有的处理器本身在进行并发性乘加计算时的效率也不是很理想。

在本发明一个实施例中，提供了一种面向卷积神经网络的混合立方体存储系统，以更好地改善卷积神经网络整体的计算效率。该存储系统包括HMC和位于HMC的电路逻辑层的计算控制器、乘加加速器和缓存。该存储系统通过系统总线与外部的主处理器相连接。如图3所示，计算控制器响应于来自外部处理器的指令来执行相应的任务并将结果返回给外部处理器。更具体地，当计算控制器收到读取和写入指令时，可以通过HMC的内存控制器来对HMC进行数据的读取和写入。当计算控制器收到要进行乘加计算的指令时，通过内存控制器从HMC中读取要进行运算的数据并将其传输至缓存中，以及指示乘加加速器从缓存中读取相应数据进行运算。在运算完成之后，乘加加速器将运算结果写入缓存中。计算控制器从缓存中读出运算结果并通过内存控制器将其写入HMC内存芯片中，同时也可以向外部的主处理器返回运算结果和/或运算结果的存储地址。这里的计算控制器可以是实现上述功能任一逻辑控制电路、FPGA或ASIC芯片等。优选地，该计算控制器可以为轻量级处理核，例如ARM处理核或类似于ARM处理器的轻量级处理器，还可以适当地为主处理器承担部分非并发性乘加的计算和接受来自主处理器的相关指令调度，而并发乘加计算通过乘加加速器来进行。其中缓存大小可根据乘加加速器的规模而定，缓存的类型可以是静态随机存储器(Static Random Access Memory，SRAM)，动态随机存储器(Dynamic Random AccessMemory,DRAM)，寄存器堆(Register file,RF)等常见存储介质，也可以是新型的存储器件，如非易失存储器(Non-Volatile Memory,NVM)等。

图4为根据本发明一个实施例的乘加加速器的结构示意图。如图4所示，乘加加速器与计算控制器和缓存相连，其包括寄存器、状态机和并行乘加器。其中寄存器用于存储从缓存读取的、用来进行计算的数据。状态机接收来自计算控制器的指令来控制并行乘加器进行计算。并行乘加器根据从寄存器读取的数据来进行乘加计算，当得到计算结果后，将计算结果数据写入到寄存器中。寄存器大小可根据实际并行乘加器的计算规模而定，可以但不仅限于取决于并行乘加器一次计算所需的数据的最大容量。寄存器可以是寄存器堆(Register file,RF)，也可以是静态随机存储器(Static Random Access Memory，SRAM)，动态随机存储器(Dynamic Random Access Memory,DRAM)等存储介质，也可以是新型的存储器件，如非易失存储器(Non-Volatile Memory,NVM)。并行乘加器由多个的乘加器构成，乘加器的数量可根据实际卷积神经网络的计算规模而定，例如可以是由32路或64路乘加器构成。如图5所示，可以通过多个并联的乘加器组成的并行乘加器，可同时进行多路乘加计算。每个乘加器的基本运算通常是先乘后加，即y＝a*b+c。图5还给出了单个乘加器的电路结构示意图，其中乘加器包括乘法器，加法器，选择器和寄存器。左边为三个输入信号(即a,b,c)，右边为输出信号y。但应理解，图5仅是举例说明而非对乘加器本身的电路结构以及并行乘加器的电路结构进行任何限制，能实现基本乘加计算的乘加器电路和能实现多个乘加计算并行执行的电路结构都适用于本发明的实施例。

继续参考图4，该乘加加速器还包括状态机。状态机通常包括状态寄存器和组合逻辑电路，根据控制信号按照预先设定的状态进行状态转移，协调相关信号及相关模块以完成特定操作。如图4所示，在该实施例中，状态机相关控制信号来控制寄存器从缓存中读取计算数据，控制并行乘加器读取寄存器数据进行并行乘加计算并将计算结果写回寄存器，以及控制寄存器将数据写入缓存。图6给出了根据本发明一个实施例的状态机的状态转换图。如图6所示，该状态机的状态分为空闲、输入、读取、计算、写入和输出。而状态机的控制信号的类型包括指令信号Core_ins，寄存器控制信号RF，乘加控制信号MuxAdd。指令信号Core_ins来自于与状态机相连的计算控制器，寄存器控制信号RF来自于与状态机相连的寄存器，乘加控制信号MuxAdd来自于和状态机相连的并行乘加器。在图6中，该状态机的一次完整的状态转换可以如下所述：

空闲：初始状态为空闲，当收到来自计算控制器的Core_ins＝1信号时，进入下一状态“输入”。

输入：在输入状态下，状态机控制寄存器从缓存中读取数据，当寄存器读取完成后，发送RF＝1的信号给状态机，然后进入下一个状态“读取”。

读取：在读取状态下，状态机控制并行乘加器从寄存器中读取数据，当读取完毕后，并行乘加器发送MuxAdd＝1的信号给状态机，然后进入下一状态“计算”。

计算：在计算状态下，状态机控制并行乘加器对读取的数据进行乘加计算，当后者得到计算结果时，发送MuxAdd＝0的信号给状态机，然后进入下一状态“写入”。

写入：在写入状态下，并行乘加器将计算结果写入到寄存器中，当写入完毕后，寄存器发送信号RF＝1给状态机，若此时Core_ins＝1，则状态机进入输入状态，若Core_ins＝0，则状态机进入空闲状态。

应理解，上述状态转换仅是举例说明而非进行任何限制。在本发明的实施例对于状态机的具体结构也不进行限制，可以采用能完成上述功能的任何电路结构。

如上文提到的，在卷积神经网络计算中包括大量的并发乘加计算，当采用根据上述实施例的存储系统时，主处理器可以将大量的乘加计算转移给该存储系统内部设置的乘加加速器来执行，以利用HMC内部极高的内存带宽和低访问延迟来加快并发的乘加计算的速度。图7给出了利用根据本发明实施例的存储系统加速卷积神经网络计算的示例方法的流程示意。该方法主要可包括下列步骤：

步骤S701，该存储系统中的计算控制器接收来自主处理器的指令。该指令可以是读数据或写数据之类的访存指令，也可以是计算指令。对于其他访存指令的处理与现有HMC一样，在此不再赘述。如果计算控制器确定所接收的指令时需要进行下一步计算，则进入步骤S702。

步骤S702，计算控制器从该计算指令中提取需要进行卷积神经网络下一步计算的数据在HMC内存中的物理地址，然后进入步骤S703。

步骤S703，通过所提取的物理地址，指示HMC的内存控制器从内存中取出数据，将其保存到缓存中，然后进入步骤S704。

步骤S704，通过乘加加速器从缓存中读取数据进行相关的卷积神经网络计算，并将得到的计算结果保存至缓存，进入步骤S705。

步骤S705，计算控制根据从主处理器的接收的指令中指定的需要写入计算结果的内存物理地址然后进入步骤S706。

步骤S706，从缓存中读取计算结果，并通过HMC的内存控制器将该计算结果写入到步骤S705得到内存物理地址，接着进入步骤S707。

步骤S707，判断主处理器的指令是否全部处理完毕，若是则结束，若否则返回步骤S702。

从上述实施例可以看出，通过上述存储系统，卷积神经网络中大量的并行计算及其涉及的频繁访存操作都可以在HMC内部完成。相比HMC外部的主处理器，在HMC的电路逻辑层中设置乘加加速器可以充分利用HMC内极高的内存带宽和低访问延迟的优势，提高了卷积神经网络中大量的并发乘加计算的效率，并且主处理器也可以同时运行其他任务，卷积神经网络整体的计算效率得到了提升。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种用于卷积神经网络的混合内存立方体存储系统，该存储系统通过系统总线与外部的用于卷积神经网络的主处理器相连接，其包括混合立方体和设置在所述混合立方体的电路逻辑层上的计算控制器、乘加加速器及缓存，

其中所述计算控制器用于响应于从所述主处理器接收的指令指示所述混合立方体的内存控制器对所述混合立方体中的数据进行存取，读写缓存，指示乘加加速器进行计算以及向所述主处理器返回对所述指令的响应；

所述乘加加速器用于响应于来自所述计算控制器的指令，读取缓存中的数据来并行地进行多路乘加计算并将计算结果写入至缓存；

其中所述乘加加速器包括并行乘加器、寄存器和状态机，其中状态机响应于来自计算控制器的指令控制并行乘加器进行运算；并行乘加器响应于状态机的控制，基于从寄存器读取的数据并行地进行多路乘加计算并将计算结果写入到寄存器；寄存器用于存储从缓存读取的数据和来自并行乘加器的计算结果。

2.根据权利要求1所述的系统，其中所述并行乘加器由多个并联的乘加器构成。

3.根据权利要求1所述的系统，其中所述寄存器大小取决于并行乘加器一次计算所需的数据的最大容量。

4.根据权利要求1所述的系统，其中所述计算控制器为轻量级处理器。

5.根据权利要求1所述的系统，其中所述计算控制器响应于收到要进行存取数据的指令时，通过内存控制器从混合立方体中存取相关数据，并返回对所述指令的响应。

6.根据权利要求1所述的系统，其中所述计算控制器响应于收到要进行乘加运算的指令时，通过内存控制器从混合立方体中读取要进行计算的数据并将其保存至缓存中，指示乘加加速器从缓存中读取相应数据进行运算，以及从缓存中读取来自乘加加速器的运算结果并通过内存控制器将其写入混合立方体中，同时返回对所述指令的响应。

7.一种采用如权利要求1-6中任一项所述的存储系统加速计算的方法，包括：

8.根据权利要求7所述的方法，还包括由计算控制器响应于确定收到的指令指示要进行数据存/取，从该指令中提取需要进行存/取的物理地址；