CN117234720A

CN117234720A - 动态可配置的存算融合数据缓存结构、处理器及电子设备

Info

Publication number: CN117234720A
Application number: CN202311199065.9A
Authority: CN
Inventors: 李兆麟; 范仁昊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-15

Abstract

本申请涉及计算机体系结构技术领域，特别涉及一种动态可配置的存算融合数据缓存结构、处理器及电子设备，其中，结构包括：转置模块，用于接收并存储输入的向量数据，并对向量数据的摆放方式进行转置，获得转置向量数据；缓存模块，用于缓存程序数据和执行存内计算，其中，当接收的数据为程序数据时，执行缓存操作；接受的数据为转置向量数据时，执行存内计算操作，获得向量位计算结果；归约模块，用于将向量位计算结果归约成标量形式的计算结果；控制模块，用于根据收到的控制指令，控制转置模块、缓存模块和归约模块执行不同的操作。由此，解决相关技术中通用处理器内存带宽小、系统延迟高、能耗开销大，使得深度神经网络推理性能较差等问题。

Description

动态可配置的存算融合数据缓存结构、处理器及电子设备

技术领域

本申请涉及计算机体系结构技术领域，特别涉及一种动态可配置的存算融合数据缓存结构、处理器及电子设备。

背景技术

随着神经网络推理精度的不断提升，神经网络模型的参数量和计算量也急剧增长，对硬件平台的吞吐量、能耗和灵活性带来了巨大的挑战。通用处理器面临严重的“内存墙”问题：由于存储器设备的速度严重落后于处理器的计算速度，内存带宽成为整个系统的瓶颈；在多核并行计算的环境下，有限的内存带宽需要共享给多核使用，带来更大的延迟。

相关技术中，可以使用一种多级缓存以缓解存储器的延迟瓶颈，也可以使用一种向量处理器面向向量型并行计算，还可以使用一种向量寄存器暂存指令、数据和地址。

然而，相关技术中的向量处理器的计算电路和向量寄存器带来了大量的面积和能耗开销；多级缓存带来了额外的数据移动开销和一致性协议开销，从而增加了处理器的能耗和复杂性，严重影响了DNN(Deep Neural Networks，深度神经网络)推理的性能和能效。

发明内容

本申请提供一种动态可配置的存算融合数据缓存结构、处理器及电子设备，以解决相关技术中通用处理器内存带宽小、系统延迟高、能耗开销大，使得深度神经网络推理性能较差等问题。

本申请第一方面实施例提供一种动态可配置的存算融合数据缓存结构，包括以下步骤：转置模块，用于接收并存储输入的向量数据，并对所述向量数据的摆放方式进行转置，获得转置向量数据；缓存模块，用于缓存程序数据和执行存内计算，其中，当接收的数据为程序数据时，执行缓存操作；当接受的数据为所述转置向量数据时，执行存内计算操作，获得向量位计算结果；归约模块，用于将所述向量位计算结果归约成标量形式的计算结果；控制模块，用于根据收到的控制指令，控制所述转置模块、所述缓存模块和所述归约模块执行不同的操作。

可选地，所述转置模块采用支持数据双向读写的SRAM存储阵列。

可选地，所述转置模块接收并存储输入的向量数据时，将所述向量数据横向写入所述SRAM阵列中，所述向量数据的每个数据占据一行的多个单元，所述向量数据的向量的不同元素占据不同行；所述转置模块获得转置向量数据时，从所述SRAM单元阵列中纵向读出转置向量数据，读出的每列包含向量所有元素的一个比特，不同列对应向量所有元素的不同比特。

可选地，所述缓存模块包括多个相同的存算融合阵列和缓存控制器，其中，每个存算融合阵列包括SRAM存储阵列和周边逻辑电路。

可选地，所述缓存模块根据所述控制模块的控制信息动态配置所述存算融合阵列中缓存部分和执行单元部分的比例，其中，所述存算融合阵列的一部分作为程序数据的缓存，所述存算融合阵列的另一部分作为存内计算的执行单元。

可选地，所述存算融合阵列被配置为程序数据的缓存时，利用所述SRAM存储阵列作为程序数据的缓存，支持程序数据的读写功能；所述存算融合阵列被配置为存内计算执行单元时，利用所述SRAM存储阵列存储所述转置向量数据，在SRAM存储阵列中利用位线计算方法，在位线中完成按位的乘法计算，并在周边逻辑电路中，对所述按位的乘法计算结果进行计算，获得所述向量位计算结果。

可选地，所述归约模块用于接收向量位计算结果，将所述向量位计算结果的所有元素归约成一个标量计算结果。

可选地，所述控制模块数据处理方式包括缓存程序数据、执行向量逐元素计算和执行向量归约计算中的一种或多种。

本申请第二方面实施例提供一种处理器，包括如上述实施例所述的动态可配置的存算融合数据缓存结构。

本申请第三方面实施例提供一种电子设备，包括如上述实施例所述的动态可配置的存算融合数据缓存结构。

由此，本申请至少具有如下有益效果：

本申请实施例可以基于SRAM的存算融合技术，根据收到的不同控制指令，将数据高速缓存重构为数据缓存或存内计算两种模式的可动态配置的存算融合数据缓存结构，完成缓存程序数据、执行向量逐元素计算、执行向量归约计算操作；由于数据无需从存储器移动到处理器的寄存器中就能执行计算，因此降低了数据移动带来的延迟和能耗开销；且存内计算的向量计算方案只需要在SRAM阵列周围添加少量的辅助电路，结构简单，降低了处理器的面积和功耗，实现神经网络推理的高性能和高能效。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种动态可配置的存算融合数据缓存结构的示意图；

图2为本申请实施例的动态可配置的存算融合数据缓存流程的示意图；

图3为本申请实施例的缓存模块(缓存模块)的结构示意图；

图4为本申请实施例的缓存程序数据的工作流程示意图；

图5为本申请实施例的存算融合阵列的结构示意图；

图6为本申请实施例的执行向量逐元素计算的工作流程示意图；

图7为本申请实施例的执行向量归约计算的工作流程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

神经网络模型，如卷积神经网络、循环神经网络和Transformer(转换器模型)，已经被广泛地应用到现实场景中的各种复杂智能任务中，如自动驾驶和机器人领域。随着神经网络推理精度的不断提升，神经网络模型的参数量和计算量也急剧增长，对硬件平台的吞吐量、能耗和灵活性带来了巨大的挑战。

通用处理器，如CPU(Central Processing Unit，中央处理器)和GPU(GraphicsProcessing Unit，图形处理器)等，面临严重的“内存墙”问题：由于存储器设备的速度严重落后于处理器的计算速度，内存带宽成为整个系统的瓶颈；在多核并行计算的环境下，有限的内存带宽需要共享给多核使用，带来更大的延迟。

针对上述背景技术中提到的问题，本申请提供了一种动态可配置的存算融合数据缓存结构，下面参考附图描述本申请实施例的动态可配置的存算融合数据缓存结构、处理器及电子设备。

具体而言，图1为本申请实施例所提供的一种动态可配置的存算融合数据缓存结构的示意图。

如图1所示，该动态可配置的存算融合数据缓存结构包括：转置模块100、缓存模块200、归约模块300及控制模块400。

其中，转置模块100，用于接收并存储输入的向量数据，并对向量数据的摆放方式进行转置，获得转置向量数据；缓存模块200，用于缓存程序数据和执行存内计算，其中，当接收的数据为程序数据时，执行缓存操作；当接受的数据为转置向量数据时，执行存内计算操作，获得向量位计算结果；归约模块300，用于将向量位计算结果归约成标量形式的计算结果；控制模块400，用于根据收到的控制指令，控制转置模块100、缓存模块200和归约模块300执行不同的操作。

可以理解的是，如图2所示，当数据输入时，控制模块根据转置模块、缓存模块(即缓存模块，以下实施例中统称为缓存模块)、归约模块收到的控制命令执行不同控制操作：本申请实施例可以利用转置模块以一定的方式接收并存储输入的向量数据，并将其摆放方式进行转置，获得转置向量数据；接着数据输入缓存模块，其中，当缓存模块接收到的数据为程序数据时缓存，当接受的数据为转置向量数据时，执行存内计算操作，获得向量位计算结果；归约模块接收缓存模块计算得到的向量位计算结果，并将其归约成一个标量形式的计算结果输出；以下实施例中，将分别对控制转置模块100、缓存模块200、归约模块300和控制模块400进行具体阐述。

一、转置模块

在本申请实施例中，转置模块采用支持数据双向读写的SRAM(Static Random-Access Memory，静态随机存取存储器)存储阵列。

其中，本申请实施例可以使用8晶体管或10晶体管单元作为SRAM的存储单元，6晶体管SRAM单元因无法支持数据双向读写而不被选用。

可以理解的是，本申请实施例的转置模块可以包括支持双向读写的SRAM存储阵列，以支持数据的双向读写工作。本申请实施例转置模块的工作过程可以如下所示：

具体而言，转置模块接收并存储输入的向量数据时，将向量数据横向写入SRAM阵列中，向量数据的每个数据占据一行的多个单元，向量数据的向量的不同元素占据不同行；转置模块获得转置向量数据时，从SRAM单元阵列中纵向读出转置向量数据，读出的每列包含向量所有元素的一个比特，不同列对应向量所有元素的不同比特。

可以理解的是，本申请实施例的转置模块的工作模式可以分为接收输入的向量数据和获得转置向量数据两个步骤：

(1)接收输入端向量数据：本申请实施例的转置模块可以将向量数据横向写入转置模块的SRAM存储阵列中，保证每个数据占据一行的多个单元，而向量的不同元素占据不同行；

(2)获得转置向量数据：本申请实施例的转置模块可以从SRAM存储阵列中纵向读出转置向量数据，读出的每列包含向量所有元素的某一个比特，而不同列对应向量所有元素的不同比特。

举例而言，本申请一个实施例使用的转置模块可以为8晶体管SRAM单元，可以构成的64行、256列的存储阵列，存储容量可以为2KB；转置模块可以将向量数据横向写入该存储阵列的64行中，并从256列里读出包含向量所有元素的某一个比特。

二、缓存模块

在本申请实施例中，缓存模块包括多个相同的存算融合阵列和缓存控制器。

其中，缓存控制器用于管理存算融合阵列中被配置为程序数据缓存的存算融合阵列，支持缓存的基本行为；每个存算融合阵列包括SRAM存储阵列和周边逻辑电路。

具体而言，(1)SRAM存储阵列：用于保存程序数据或转置向量数据，并可以用于执行SRAM存内的按位“与”(AND)和“或非”(NAND)操作；其中，本申请实施例可以使用至少一种方式实现具体的按位操作计算，作为一种可能实现的方式，本申请实施例可以同时激活阵列的两个字线，即同时激活两行数据，每列中被激活的两个存储单元中存储的比特会在两条字线上分别完成“与”和“或非”操作，计算结果会沿着字线流出；

(2)周边逻辑电路：包括行解码器、列放大器和写入电路、计算电路。用于支持SRAM存储阵列正常的读写功能，并对SRAM存储阵列的存内的按位逻辑计算结果执行进一步计算，得到向量的乘法或加法结果。

需要说明的是，相关技术的SRAM存储阵列中，周边逻辑电路可以包括用于激活字线的行编码器、用于读出和写入数据的列放大器和写入电路；本申请实施例可以使用一种支持存算融合的周边逻辑电路，在上述周边逻辑电路上扩展了一些计算电路，用于将按位逻辑操作的计算结果执行进一步计算，得到按位的算术计算结果，即向量位计算结果。

在本申请实施例中，缓存模块根据控制模块的控制信息动态配置存算融合阵列中缓存部分和执行单元部分的比例，其中，存算融合阵列的一部分作为程序数据的缓存，存算融合阵列的另一部分作为存内计算的执行单元。

可以理解的是，如图3所示，本申请实施例的缓存模块工作原理为：根据控制模块的控制信息，将一部分存算融合阵列作为程序数据缓存，而将另一部分存算融合阵列作为存内计算执行单元；其中，这两部分的比例是可以动态配置的。

具体而言，存算融合阵列被配置为程序数据的缓存时，利用SRAM存储阵列作为程序数据的缓存，支持程序数据的读写功能；存算融合阵列被配置为存内计算执行单元时，利用SRAM存储阵列存储转置向量数据，在SRAM存储阵列中利用位线计算方法，在位线中完成按位的乘法计算，并在周边逻辑电路中，对按位的乘法计算结果进行计算，获得向量位计算结果。

可以理解的是，如图4所示，当存算融合阵列被配置为程序数据缓存时，缓存模块利用SRAM存储阵列储存程序数据，支持程序数据的快速读写功能，在此工作模式下，存算融合阵列受到缓存控制器的管理，共同支持缓存的各种行为；如图5所示，当存算融合阵列被配置为存内计算执行单元时，首先利用SRAM存储阵列来存储由转置模块生成的转置向量数据，随后在SRAM存储阵列中执行按位的“与”和“或非”计算，最后在周边逻辑电路中，对按位的计算结果执行进一步计算，获得向量位计算结果，在此工作模式下，多个存内计算执行单元可以并行地执行计算，提高计算的效率。

举例而言，本申请一个实施例使用的缓存模块可以包括8个可配置的存算融合阵列，每个存算融合阵列为64行、256列的存储阵列，存储容量可以为2KB；本申请的一个实施例可以利用该缓存模块实现上述缓存模块的相应功能。

三、归约模块

本申请实施例的归约模块可以用于执行向量的归约操作，可以由逻辑电路实现。其工作原理为：接收缓存模块中的向量位计算结果，将其向量中的所有元素通过累加或其他操作，归约成一个标量的计算结果；其中，本申请实施例的归约模块可以使用至少一种方式实现对计算结果的归约，比如可以使用归约树结构或其他电路结构等。

四、控制模块

在本申请实施例中，控制模块数据处理方式包括缓存程序数据、执行向量逐元素计算和执行向量归约计算中的一种或多种。

可以理解的是，本申请实施例的控制模块可以根据不同模块收到的相应控制指令，配置转置模块、缓存模块、归约模块的状态，并控制其运行逻辑和模块间的数据移动，对该结构的输入数据进行不同类型的处理；其中，本申请实施例的控制模块可以使用包括但不限于缓存程序数据、执行向量逐元素计算和执行向量归约计算三种方式，实现数据处理。

具体而言，(1)缓存程序数据：本申请实施例的控制模块可以将缓存模块的一部分存算融合阵列配置为程序数据缓存，再根据控制指令将程序数据存入程序数据缓存，或将程序数据从程序数据缓存中读出；

(2)执行向量逐元素计算：如图6所示，控制指令将缓存模块的一部分存算融合阵列配置为存内计算执行单元；本申请实施例的控制模块可以根据控制指令，将输入向量数据传入转置模块，获得转置向量数据，然后将其传入存内计算执行单元，获得向量位计算结果；

(3)执行向量归约计算：如图7所示，控制指令将缓存模块的一部分存算融合阵列配置为存内计算执行单元；本申请实施例的控制模块可以根据控制指令，首先将输入向量数据传入转置模块，获得转置向量数据，然后将其传入存内计算执行单元，获得向量位计算结果，再将其传入归约模块，获得归约后的标量计算结果。

综上，根据本申请实施例提出的动态可配置的存算融合数据缓存结构，可以基于SRAM的存算融合技术，根据收到的不同控制指令，将数据高速缓存重构为数据缓存或存内计算两种模式的可动态配置的存算融合数据缓存结构，完成缓存程序数据、执行向量逐元素计算、执行向量归约计算操作；由于数据无需从存储器移动到处理器的寄存器中就能执行计算，因此降低了数据移动带来的延迟和能耗开销；且存内计算的向量计算方案只需要在SRAM阵列周围添加少量的辅助电路，结构简单，降低了处理器的面积和功耗，实现神经网络推理的高性能和高能效。

本申请实施例还提供一种处理器，包括如上述实施例的动态可配置的存算融合数据缓存结构。

本申请实施例还提供一种电子设备，包括如上述实施例的动态可配置的存算融合数据缓存结构。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种动态可配置的存算融合数据缓存结构，其特征在于，包括：

转置模块，用于接收并存储输入的向量数据，并对所述向量数据的摆放方式进行转置，获得转置向量数据；

缓存模块，用于缓存程序数据和执行存内计算，其中，当接收的数据为程序数据时，执行缓存操作；当接受的数据为所述转置向量数据时，执行存内计算操作，获得向量位计算结果；

归约模块，用于将所述向量位计算结果归约成标量形式的计算结果；

控制模块，用于根据收到的控制指令，控制所述转置模块、所述缓存模块和所述归约模块执行不同的操作。

2.根据权利要求1所述的动态可配置的存算融合数据缓存结构，其特征在于，所述转置模块采用支持数据双向读写的SRAM存储阵列。

3.根据权利要求2所述的动态可配置的存算融合数据缓存结构，其特征在于，

所述转置模块接收并存储输入的向量数据时，将所述向量数据横向写入所述SRAM阵列中，所述向量数据的每个数据占据一行的多个单元，所述向量数据的向量的不同元素占据不同行；

所述转置模块获得转置向量数据时，从所述SRAM单元阵列中纵向读出转置向量数据，读出的每列包含向量所有元素的一个比特，不同列对应向量所有元素的不同比特。

4.根据权利要求1所述的动态可配置的存算融合数据缓存结构，其特征在于，所述缓存模块包括多个相同的存算融合阵列和缓存控制器，其中，每个存算融合阵列包括SRAM存储阵列和周边逻辑电路。

5.根据权利要求4所述的动态可配置的存算融合数据缓存结构，其特征在于，所述缓存模块根据所述控制模块的控制信息动态配置所述存算融合阵列中缓存部分和执行单元部分的比例，其中，所述存算融合阵列的一部分作为程序数据的缓存，所述存算融合阵列的另一部分作为存内计算的执行单元。

6.根据权利要求4所述的动态可配置的存算融合数据缓存结构，其特征在于，所述存算融合阵列被配置为程序数据的缓存时，利用所述SRAM存储阵列作为程序数据的缓存，支持程序数据的读写功能；所述存算融合阵列被配置为存内计算执行单元时，利用所述SRAM存储阵列存储所述转置向量数据，在SRAM存储阵列中利用位线计算方法，在位线中完成按位的乘法计算，并在周边逻辑电路中，对所述按位的乘法计算结果进行计算，获得所述向量位计算结果。

7.根据权利要求1所述的动态可配置的存算融合数据缓存结构，其特征在于，所述归约模块用于接收向量位计算结果，将所述向量位计算结果的所有元素归约成一个标量计算结果。

8.根据权利要求1所述的动态可配置的存算融合数据缓存结构，其特征在于，所述控制模块数据处理方式包括缓存程序数据、执行向量逐元素计算和执行向量归约计算中的一种或多种。

9.一种处理器，其特征在于，包括如权利要求1-8任意一项所述的动态可配置的存算融合数据缓存结构。

10.一种电子设备，其特征在于，包括如权利要求9所述的处理器。