CN114281301B

CN114281301B - 支持内部数据乒乓的高密度存内计算乘加单元电路

Info

Publication number: CN114281301B
Application number: CN202111326187.0A
Authority: CN
Inventors: 常亮; 李成龙; 竹子轩; 林水生; 周军
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2023-06-23
Anticipated expiration: 2041-11-10
Also published as: CN114281301A

Abstract

本发明属于智能处理器技术领域，具体提供一种支持内部数据乒乓的高密度存内计算乘加单元电路，用以解决现有技术存在的运算速度慢、运算效率低的问题。本发明在现有存内计算乘加单元中，将SRAM阵列成倍加大并分块划分形成逻辑上交叠的多个SRAM子阵列，用以作为实现数据乒乓操作的电路支持，通过内部数据乒乓操作减少甚至消除了切换的等待时间，大大提高计算效率；并且，成倍加大的SRAM阵列能够填补于实际集成电路中硅片上的空白区域，并不会增大电路面积，反而提高电路的硅片面积利用率。因此，本发明具有提升CIM架构芯片面效比及能效比的优点，乒乓结构提供了更加灵活的数据配置方案，且不限于使用全数字累加树、模拟域运算读出等方式。

Description

支持内部数据乒乓的高密度存内计算乘加单元电路

技术领域

本发明属于智能处理器技术领域，涉及智能算法中广泛应用在卷积层、反卷积层、全连接层等的乘加运算电路，具体提供一种支持内部数据乒乓的高密度存内计算乘加单元电路。

背景技术

存内计算是一种在存储器内进行逻辑运算的电路组织方式，可以减少数据在存储器和处理器之间的数据移动，在低功耗和物联网等领域具有广泛的应用价值；存内计算的设计目前主要有两种，一种用电流电压等模拟信号进行计算并使用模数转换器读出，另一种是直接在内部使用数字信号进行计算。存内计算是一种内部信号全都使用数字信号表示的存内计算设计方式，其中不涉及任何模拟计算，避免了模数转换器的使用；存内计算常使用SRAM(静态随机存储器)阵列进行设计，SRAM的特点是直接存储‘0’和‘1’的数字信号，且该信号可以直接从存储单元中使用导线引出。

乘加运算是一种基础数学运算，是人工智能算法中广泛应用在卷积层、反卷积层、全连接层等矩阵运算处理方法的数学基础；该运算的数学实质是对两个N元数组进行计算：

A＝(A₀,A₁,A₂,...,A_N-1)，B＝(B₀,B₁,B₂,...,B_N-1)。

现有的存内计算乘加单元电路是一种基于6T-SRAM的电路设计，该设计为每个6T-SRAM单元配备1-bit乘法电路，将一行(横向)中每4个SRAM单元作为一组，每组所在的列(纵向)配备一个加法树；这种方案在使用时，需要先使用若干周期将一个数组写入存储单元内，再将另一个数组按某种方式输入，即可得到乘加结果；但在计算另一组乘加时，又需要先使用若干周期将一个数组写入存储单元内；这种设计不支持数据乒乓操作，在切换内部存储的数组时，需要花费大量时间等待写入，在经典使用场景下很难达到较高的运算速度，且浪费了较多时间，效率不高。另外，在实际应用时发现，该设计中加法树占用了绝大多数硅片面积，而由于加法树与SRAM存储单元在逻辑上和物理位置上的明确对应关系，存储单元电路部分存在大量空白位置，硅片面积利用率较低。

发明内容

本发明的目的在于针对现有存内计算乘加单元电路存在的运算速度慢、运算效率低的问题，提供一种支持内部数据乒乓的高密度存内计算乘加单元电路；将SRAM阵列成倍加大并分块划分形成逻辑上交叠的多个SRAM子阵列，用以作为实现数据乒乓操作的电路支持，成倍加大的SRAM阵列能够填补于实际集成电路中硅片上的空白区域，并不会增大电路面积，反而提高电路的硅片面积利用率；并且，通过内部数据乒乓操作减少甚至消除了切换的等待时间，大大提高计算效率。

为实现上述目的，本发明采用的技术方案为：

一种支持内部数据乒乓的高密度存内计算乘加单元电路，包括：存储电路、运算电路及控制驱动电路；其特征在于，

所述存储电路用于数据存储、并为运算电路提供源数据，具体包括：SRAM阵列与选择电路；其中，

SRAM阵列：4个存储单元(cell)为一个组(group)，横向的N个组构成一行(row)，纵向的M个组构成一列(column)，每一列中相邻的m个组构成一个块(block)，共同构成一个Q×N个块的SRAM阵列，Q为正整数：Q＝M/m，m≥2；即通过上述划分，在SRA M阵列中形成逻辑上交叠的m个SRAM子阵列(array)，每个SRAM子阵列的组织方式相同、均由Q×N个组构成，用于支持数据乒乓；

选择电路：每个块配备一个选择电路，根据选择控制信号从该块的m个组中选出需要送入运算电路的数据；

所述运算电路用于数学运算、产生每行的1-bit输入和选出数据的乘加结果，具体包括：1-bit乘法器电路与求和电路；其中，

1-bit乘法器电路：每个块配备一个1-bit乘法器电路，对1-bit输入数据和选择电路选出的数据做乘法运算，即逻辑上的“与”操作；

求和电路：每一列配备一个求和电路，对该列所有1-bit乘法器电路的输出求和；

所述控制驱动电路用于对SRAM阵列进行读写和运算控制，具体包括：行控制驱动器与列控制驱动器；其中，

行控制驱动器：整个存内计算乘加单元电路配备一个列控制驱动器，在通用SRAM行控制驱动器的基础上，还将每一行的1-bit输入数据传输传至该行的1-bit乘法器电路；以组为单位，每一行配备一条字线(WL)，通过字线(WL)控制该行中N个组的打开；以块为单位，每个块配备一条输入线(DI)，通过输入线(DI)将1-bit输入数据传输至对应块的1-bit乘法器电路；

列控制驱动器：整个存内计算乘加单元电路配备一个行控制驱动器，在通用SRAM列控制驱动器的基础上，还产生选择电路需要的选择控制信号；以组为单位，每一列配备一组位线(BL)，通过位线(BL)实现对应组(该列中处于打开状态的组)的数据写入；以块为单位，每个块配备一条选择控制信号线(SEL)，通过选择控制信号线(SEL)实现对应块的选择电路控制。

进一步的，所述存内计算乘加单元电路在行控制驱动器与列控制驱动器控制下，能够实现数据乒乓操作。

进一步的，所述存内计算乘加单元电路的乘加运算流程为：

所述列控制驱动器产生选择控制信号，通过选择控制信号选定一个SRAM子阵列的数据作为选出数据输入至对应的1-bit乘法器电路；同时，所述行控制驱动器将每一行的1-bit输入数据输入至该1-bit乘法器电路，1-bit乘法器电路输出1-bit输入数据和选出数据的乘积；求和电路将一列中所有1-bit乘法器电路的输出相加，得到一个部分和；当输入数据为多bit时，将所有部分和进行移位累加得到乘加运算结果。

更进一步的，所述存内计算乘加单元电路的数据写入流程为：与经典SRAM阵列的写入方式相同，按行写入，每次打开一行字线，同时在位线上输入要写入的值并维持一定电压，即可写入打开的行；数据读出流程为：与经典SRAM阵列的读出方式相同，按行读出，每次打开一行字线，同时读出位线上的值，即可得到打开的行的数据。

从工作原理上讲：

数据乒乓操作是一种数据流控制方法，通常使用两个数据缓冲区，在第一个缓冲周期将输入数据写入缓冲区1，在第二个缓冲周期将输入数据写入缓冲区2并将缓冲区1的数据送至运算器进行处理，在第三个缓冲周期再将输入数据写入缓冲区1并将缓冲区2的数据送至运算器进行处理，如此循环。

本发明提供一种支持内部数据乒乓的高密度存内计算乘加单元电路，其数据乒乓的工作流程为：由于本发明中选择电路的输入不使用位线，所以乘加计算与数据读写能够同时进行；基于此，当选择电路选定某一SRAM子阵列进行乘加计算时，其他未参与计算的子阵列就可以进行写入或读出操作；以两个SRAM子阵列为例：第一个乒乓周期，写入SRAM子阵列1的数据；第二个乒乓周期，行控制驱动器开始输入数据，与SRAM子阵列1中的数据进行乘加运算，同时列控制驱动器写入SRAM子阵列2的数据；第三个乒乓周期，行控制驱动器继续输入数据，与SRAM子阵列2中的数据进行乘加运算，同时列控制驱动器再写入SRAM子阵列1的数据；如此循环。

综上，本发明的有益效果在于：

本发明提供一种支持内部数据乒乓的高密度存内计算乘加单元电路，在现有存内计算乘加单元中，将SRAM阵列成倍加大并分块划分形成逻辑上交叠的多个SRAM子阵列，用以作为实现数据乒乓操作的电路支持，通过内部数据乒乓操作减少甚至消除了切换的等待时间，大大提高计算效率；并且，成倍加大的SRAM阵列能够填补于实际集成电路中硅片上的空白区域，并不会增大电路面积，反而提高电路的硅片面积利用率。因此，本发明具有提升CIM架构芯片面效比及能效比的优点，且乒乓结构提供了更加灵活的数据配置方案。此外，该方案可以通过对读出电路的替换，支持全数字及数模混合运算方案，包括但不限于使用全数字加法树、模拟域运算读出等方式。

附图说明

图1为本发明支持内部数据乒乓的高密度存内计算单元电路的结构示意图。

图2为本发明实施例中SRAM阵列结构示意图。

图3为本发明实施例中控制驱动电路结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

实施例

一种支持内部数据乒乓的高密度存内计算单元电路，如图1所示，具体包括：存储电路、运算电路及控制驱动电路；本实施例以2个逻辑上行列均为16-bit的SRAM阵列、输入数据8-bit宽度、存内数据8-bit宽度为例进行说明：

模块1：存储电路；

如图2所示，SRAM阵列：包含逻辑上交叠的2个SRAM阵列(array)(物理上仍为一个)，每个逻辑上的SRAM阵列的组织方式相同：4个存储单元(cell)为一个组(group)，横向一行(row)有4个组，纵向一列(column)有16个组，一个SRAM阵列中有若16个行和4个列；按块(block)划分后，有16行、4列、共64个块；

如图3所示，选择电路：每个块配备一个选择电路，根据选择控制信号，从该块的2个组中，选出需要送入运算电路的数据；

模块2：运算电路；

如图3所示，1-bit乘法器电路：每个块配备一个1-bit乘法器电路，对输入的1-bit数据和选择电路选出的数据做乘法，即逻辑上的“与”操作；

求和电路：每个列配备一个求和电路，对该列所有乘法器电路的输出求和；

模块3：控制驱动电路；

列控制驱动器：整个存内计算乘加单元电路配备一个行控制驱动器，在通用SRAM列控制驱动器的基础上，还产生选择电路需要的选择控制信号；以组为单位，每一列配备一组(一组中包含4根位线(BL)、对应于4个存储单元cell、附图中简化表示为一根)位线(BL)，通过位线(BL)实现对应组(该列中处于打开状态的组)的数据写入；以块为单位，每个块配备一条选择控制信号线(SEL)，通过选择控制信号线(SEL)实现对应块的选择电路控制。

基于上述高密度存内计算单元电路，本实施例中计算乘加的工作流程：将每行的输入数据的8-bit按照某种顺序依次输入，每次1-bit，选择电路选出用于计算的存储数据，经过乘法器与求和电路后，得到输入的1-bit数据与存储的数据的乘加结果。由于存内数据为8-bit，需要2个组来存储，即需要两列的部分和来计算8-bit存内数据的部分和，将高4-bit产生的部分和记为pusm_M，低4-bit产生的部分和记为pusm_L，则8-bit存内数据的部分和可以使用如下公式计算：

psum＝psum_M×2⁴+psum_L

由于输入数据为8-bit，需要分8次输入，则每个8-bit输入数据可以得到8个部分和，按照输入bit的权重记为pusm₀至pusm₇，最终的乘加结果可以使用如下公式计算：

乒乓操作的工作流程：第一个乒乓周期，写入SRAM阵列1的数据；第二个乒乓周期，行驱动器开始输入数据，与SRAM阵列1中的数据进行乘加运算，同时列驱动器写入SRAM阵列2的数据；第三个乒乓周期，行驱动器继续输入数据，与SRAM阵列2中的数据进行乘加运算，同时列驱动器再写入SRAM阵列1的数据；如此循环。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.支持内部数据乒乓的高密度存内计算乘加单元电路，包括：存储电路、运算电路及控制驱动电路；其特征在于，

所述存储电路包括：SRAM阵列与选择电路；其中，SRAM阵列中4个存储单元为一个组、横向的N个组构成一行、纵向的M个组构成一列、每一列中相邻的m个组构成一个块，共同构成一个Q×N个块的SRAM阵列，Q为正整数：Q＝M/m，m≥2；并且，每个块配备一个选择电路；

所述运算电路包括：1-bit乘法器电路与求和电路，每个块配备一个1-bit乘法器电路、对1-bit输入数据和选择电路选出的数据做乘法运算，每一列配备一个求和电路、对该列所有1-bit乘法器电路的输出求和；

所述控制驱动电路包括：行控制驱动器与列控制驱动器，所述存内计算乘加单元电路配备一个行控制驱动器与一个列控制驱动器；所述行控制驱动器通过字线与输入线实现控制，以组为单位、每一行配备一条字线、通过字线控制该行中N个组的打开，以块为单位、每个块配备一条输入线、通过输入线将1-bit输入数据传输至对应块的1-bit乘法器电路；所述列控制驱动器通过位线与选择控制信号线实现控制，以组为单位、每一列配备一组位线、通过位线实现对该列中处于打开状态的组的数据写入，以块为单位、每个块配备一条选择控制信号线、通过选择控制信号线实现对应块的选择电路控制。

2.按权利要求1所述支持内部数据乒乓的高密度存内计算乘加单元电路，其特征在于，所述存内计算乘加单元电路在行控制驱动器与列控制驱动器控制下，能够实现数据乒乓操作。

3.按权利要求1所述支持内部数据乒乓的高密度存内计算乘加单元电路，其特征在于，所述存内计算乘加单元电路的乘加运算流程为：