CN113805842B

CN113805842B - 一种基于超前进位加法器实现的存算一体装置

Info

Publication number: CN113805842B
Application number: CN202111357751.5A
Authority: CN
Inventors: 乔树山; 史万武; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-22
Anticipated expiration: 2041-11-17
Also published as: CN113805842A

Abstract

本发明涉及一种基于超前进位加法器实现的存算一体装置，包括：2N个乘法模块、超前进位加法器和乘累加模块；利用乘法模块将输入数据与权重值相乘，并将相乘结果同时馈入超前进位加法器中进行累加，可实现灵活多位宽的全数字存内计算。另外，与串行进位加法器实现4Bit加法需要9级门延迟相比，本申请公开的超前进位加法器实现同等的4Bit加法只需要5级门延迟，可将累加延迟缩短44%。因此，本发明不仅实现对二进制化权重值和激活的神经网络实现硬件加速，还可以实现在单个周期内实现4×4的矢量矩阵乘法。

Description

一种基于超前进位加法器实现的存算一体装置

技术领域

本发明涉及存内计算技术领域，特别是涉及一种基于超前进位加法器实现的存算一体装置。

背景技术

人工智能、数据驱动计算、机器学习和优化任务引发了人们对开发硬件加速器的兴趣，这些加速器专门用于解决通信带宽、延迟、安全性等日益增加的问题。乘法和累加（MAC）是处理人工神经网络的硬件加速器的关键算术逻辑运算。例如，卷积神经网络（CNN）通常需要数十亿MAC操作来测试单个图像分类。因此，由多个MAC单元组成的MAC电路和算术逻辑单元（ALU）结构的设计对硬件加速器的性能起着至关重要的作用。

传统将ALU和内存的物理位置分开，独自使用各自功能（即基于流行的冯·诺依曼体系结构）。随着数据量的爆炸性增长，计算时过度能耗和显著延迟迅速增加，为了解决存储墙问题，人们提出存内计算(Computing In Memory)体系结构。CIM体系结构减轻了传统体系结构频繁的片外存储器访问带来的巨大能耗。此外，现有CIM宏的模拟密集型计算降低了计算能量，但牺牲了模拟特定的非理想性。目前对于模拟域实现CIM主要存在以下几个挑战：1.写干扰、位线动态裕度范围小；2.模拟本身的非理想性，包括工艺敏感，噪声敏感；3.DAC、ADC的面积功耗开销以及精度；4.输出ADC的定额量化导致位宽固定，可配置性差，应用场景受限。

发明内容

本发明的目的是提供一种基于超前进位加法器实现的存算一体装置，以缩短累加延迟。

为实现上述目的，本发明提供了一种基于超前进位加法器实现的存算一体装置，所述装置包括：

2N个乘法模块，用于将输入数据与权重值按相位相乘，获得乘积数据A_i和B_i，其中，N为大于等于1的正整数，i为大于等于0且小于等于N-1的正整数；

超前进位加法器，分别与2N个所述乘法模块连接，用于将乘积数据A_i和B_i进行超前进位计算，获得进位输出数据C_N和超前输出数据S_i；

乘累加模块，与所述超前进位加法器连接，用于将超前输出数据S_i进行累加操作，获得累加和；

所述超前进位加法器包括：N个进位产生器和N个异或门，第j个进位产生器分别与第2j-1个乘法模块和第2j个乘法模块连接，第j个异或门分别与第2j-1个乘法模块、第2j个乘法模块和第j-1个进位产生器连接；所述第j个进位产生器用于将乘积数据A_j-1和B_j-1进行超前进位计算，获得进位输出数据C_j；第j个所述异或门用于将乘积数据A_j-1、B_j-1和进位输出数据C_j-1进行异或操作，获得超前输出数据S_j-1；其中，j为大于1且小于等于N的正整数；

第1个异或门分别与第1个乘法模块和第2个乘法模块连接，用于乘积数据A₀、B₀和初始数据C₀进行异或操作，获得超前输出数据S₀；第1个进位产生器用于将乘积数据A₀、B₀和初始数据C₀进行超前进位计算，获得进位输出数据C₁。

可选地，所述装置还包括：

输入模块，分别与2N个所述乘法模块连接，用于将2N个输入数据分别输入各所述乘法模块。

可选地，各所述乘法模块均包括：

6T-SRAM存储单元，用于读、写和存储权重值；

累乘单元，分别与所述输入模块和6T-SRAM存储单元连接，用于将输入数据和权重值按相位相乘，获得乘积数据。

可选地，第j个所述进位产生器包括：2个或门和j+1个与门；第1个与门的两个输入端分别与第2j-1个乘法模块和第2j个乘法模块连接，第1个与门的输出端与第2个或门的输入端连接，第2个或门的输出端输出进位输出数据C_j；第1个或门的两个输入端分别与第2j-1个乘法模块和第2j个乘法模块连接，第1个或门的输出端与剩余j个与门的输入端均连接，剩余j个与门的输出端与第2个或门的输入端均连接；第2个与门与前1个所述进位产生器连接，第3个与门与前2个所述进位产生器连接，以此类推，直至第j个与门和第j+1个与门均与前j-1个所述进位产生器连接，其中，j为大于1且小于等于N的正整数；

第1个进位产生器包括2个或门和2个与门，第1个与门的两个输入端分别与第1个乘法模块和第2个乘法模块连接，第1个与门的输出端与第2个或门的输入端连接，第2个或门的输出端输出进位输出数据C₁；第1个或门的两个输入端分别与第1个乘法模块和第2个乘法模块连接，第1个或门的输出端与第2个与门的输入端连接，第2个与门的输出端与第2个或门的输入端连接。

可选地，所述6T-SRAM存储单元包括：

晶体管T1、晶体管T2、晶体管T3、晶体管T4、晶体管T5和晶体管T6；

晶体管T1的源极和晶体管T2的源极均与电源VDD连接，晶体管T1的栅极、晶体管T3的栅极、晶体管T2的漏极和晶体管T4的漏极均与Q点连接，晶体管T2的栅极、晶体管T4的栅极、晶体管T1的漏极和晶体管T3的漏极均与QB点连接，晶体管T3的源极和晶体管T4的源极均与公共端VSS连接，晶体管T5的栅极和晶体管T6的栅极均与字线连接，晶体管T5的漏极与QB点连接，晶体管T5的源极与位线连接，晶体管T6的源极与Q点连接，晶体管T6的漏极与反位线连接。

可选地，所述累乘单元为XNOR模块。

可选地，第j个所述进位产生器生成的进位输出数据C_j=G_j-1+P_j-1×C_j-1；其中，G_j-1=A_j-1×B_j-1，P_j-1=A_j-1+B_j-1；当j=1时，C₁=G₀+P₀×C₀，C₀表示初始数据。

可选地，第j个异或门生成的超前输出数据S_j-1=A_j-1⊕B_j-1⊕C_j-1；当j=1时，S₀=A₀⊕B₀⊕C₀；其中，⊕表示异或运算符号。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种基于超前进位加法器实现的存算一体装置，利用乘法模块将输入数据与权重值相乘，并将相乘结果同时馈入超前进位加法器中进行累加，可实现灵活多位宽的全数字存内计算。另外，本发明公开的超前进位加法器相比串行进位加法器实现4Bit加法需要9级门延迟，本申请公开的超前进位加法器实现同等的4Bit加法只需要5级门延迟，可将累加延迟缩短44%。因此本发明不仅实现对二进制化权重值和激活的神经网络实现硬件加速，还可以实现在单个周期内实现4×4的矢量矩阵乘法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实现4bit的存算一体装置结构图；

图2为本发明乘累加模块结构图；

图3为本发明4bit超前进位加法器结构示意图；

图4为本发明4bit进位产生器电路结构图；

图5为本发明6T-SRAM存储单元结构图；

符号说明：

1、输入模块，2、乘法模块，3、超前进位加法器，4、乘累加模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明公开一种基于超前进位加法器实现的存算一体装置，所述装置包括：输入模块、2N个乘法模块、超前进位加法器和乘累加模块；所述输入模块分别与2N个所述乘法模块连接，所述超前进位加法器分别与2N个所述乘法模块连接，所述乘累加模块与所述超前进位加法器连接，其中，N为大于等于1的正整数。

各所述乘法模块用于将输入数据与权重值按相位相乘，获得乘积数据A_i和B_i，其中，i为大于等于0且小于等于N-1的正整数；所述超前进位加法器用于将乘积数据A_i和B_i进行超前进位计算，获得进位输出数据C_N和超前输出数据S_i；所述乘累加模块用于将超前输出数据S_i进行累加操作，获得累加和。

所述超前进位加法器包括：N个进位产生器和N个异或门，第j个进位产生器分别与第2j-1个乘法模块和第2j个乘法模块连接，第j个异或门分别与第2j-1个乘法模块、第2j个乘法模块和第j-1个进位产生器连接；所述第j个进位产生器用于将乘积数据A_j-1和B_j-1进行超前进位计算，获得进位输出数据C_j；第j个所述异或门用于将乘积数据A_j-1、B_j-1和进位输出数据C_j-1进行异或操作，获得超前输出数据S_j-1；其中，j为大于1且小于等于N的正整数；第1个异或门分别与第1个乘法模块和第2个乘法模块连接，用于乘积数据A₀、B₀和初始数据C₀进行异或操作，获得超前输出数据S₀；第1个进位产生器用于将乘积数据A₀、B₀和初始数据C₀进行超前进位计算，获得进位输出数据C₁。

作为一种可选的实施方式，本发明第j个所述进位产生器包括：2个或门和j+1个与门；第1个与门的两个输入端分别与第2j-1个乘法模块和第2j个乘法模块连接，第1个与门的输出端与第2个或门的输入端连接，第2个或门的输出端输出进位输出数据C_j；第1个或门的两个输入端分别与第2j-1个乘法模块和第2j个乘法模块连接，第1个或门的输出端与剩余j个与门的输入端均连接，剩余j个与门的输出端与第2个或门的输入端均连接；第2个与门与前1个所述进位产生器连接，第3个与门与前2个所述进位产生器连接，以此类推，直至第j个与门和第j+1个与门均与前j-1个所述进位产生器连接，其中，j为大于1且小于等于N的正整数。

为了更清楚地显示各数据标号，所以本发明将图1-图4中的A_j用Aj表示，B_j用Bj表示，C_j用Cj表示，P_j用Pj表示，G_j用Gj表示，S_j用Sj表示，其中，j为任意自变量。

如图1所示，本发明以N=4为例进行论述：所述装置包括：1个输入模块1、8个乘法模块2、1个超前进位加法器3和1个乘累加模块4，输入模块1中引脚inputA[3:0]产生的4Bit输入数据INA0、INA1、INA2、INA3和引脚inputB[3:0]产生的4Bit输入数据INB0、INB1、INB2和INB3分别输入至8个乘法模块2中的XNOR模块，6T-SRAM存储单元将输出的权重值Q输入至乘法模块2中的XNOR模块，输入数据INA0-INA3、INB0-INB3和权重值Q通过XNOR模块按位相乘后的结果分别为乘积数据A0-A3和B0-B3。随后乘积数据A0-A3、B0-B3和初始进位C0连接至4Bit超前进位加法器3中，计算结果输出为超前输出数据S0、S1、S2、S3与进位输出数据C4。计算出的超前输出数据S0-S3输入乘累加模块4进行后续累加处理。

各所述乘法模块2均包括：6T-SRAM存储单元和累乘单元，所述累乘单元分别与所述输入模块和6T-SRAM存储单元连接。如图2所示，以第一个乘法模块为例，所述6T-SRAM存储单元用于读、写和存储权重值Q；所述累乘单元用于将输入数据INA0和权重值Q按相位相乘，获得乘积数据A0。本实施例中，所述累乘单元优选为同或门（XNOR模块）。

当输入权重值Q=0时，用-1表示，Q=1时，用+1表示；当输入数据INA0=0时，用-1表示，当输入数据INA0=1时，用+1表示，权重值和输入数据的乘法由XNOR模块完成，计算逻辑为A0=INA0⊙Q。具体的，1=-1⊙-1；0=-1⊙1；0=1⊙-1；1=1⊙1；具体计算原理及结果如表格1所示。

表1计算原理表

图3中（a）为4bit超前进位加法器结构框图，图3中（b）为4bit超前进位加法器结构图，所述超前进位加法器包括：4个进位产生器和4个异或门，其中，进位产生器用于产生进位供高位加和，异或门用于产生按位求和；第1个异或门用于将乘积数据A0、B0和初始数据C0进行异或操作，获得超前输出数据S0；第2个异或门用于将乘积数据A1、B1和进位输出数据C1进行异或操作，获得超前输出数据S1；以此类推，第4个异或门用于将乘积数据A3、B3和进位输出数据C3进行异或操作，获得超前输出数据S3；第1个进位产生器用于将乘积数据A0、B0和初始数据C0进行超前进位计算，获得进位输出数据C1，第2个进位产生器用于将乘积数据A2和B2进行超前进位计算，获得进位输出数据C2，以此类推，第4个进位产生器用于将乘积数据A3和B3进行超前进位计算，获得进位输出数据C4。

由全加器的性质可知，前一个全加器的参数可以用来表示后面的进位输出，设C_i+1为后一位的进位，乘积数据Ai和乘积数据Bi为两个加数，Ci为当前进位输出数据，则：

C_i+1=(Ai·Bi)+(Ai·Ci)+(Bi·Ci)=(Ai·Bi)+(Ai+Bi)·Ci；其中，生成(Generate)信号Gi=Ai·Bi，传播(Propagate)信号Pi=Ai+Bi，则Ci+1=Gi+Pi·Ci。

由上面推导可以得出，4Bit超前进位加法器生成的进位输出数据C1-C4分别为：

C1=G0+P0·C0；

C2=G1+P1·C1=G1+P1·(G0+P0·C0)=G1+P1·G0+P1·P0·C0；

C3=G2+P2·C2=G2+P2·(G1+P1·G0+P1·P0·C0)=G2+P2·G1+P2·P1·G0+P2·P1·P0·C0；

C4=G3+P3·C3=G3+P3·(G2+P2·G1+P2·P1·G0+P2·P1·P0·C0)=G3+P3·G2+P3·P2·G1+P3·P2·P1·G0+P3·P2·P1·P0·C0。

上述公式所表示的进位输出和按位和结果以电路形式表示，如下面图4所示，第1个进位产生器包括2个或门和2个与门；第2个进位产生器包括2个或门和3个与门；第3个进位产生器包括2个或门和4个与门；第4个进位产生器包括2个或门和5个与门。G0是将A0与B0做与操作获得的，G1是将A1与B1做与操作获得的，G2是将A2与B2做与操作获得的，G3是将A3与B3做与操作获得的，P0是将A0与B0做或操作获得的，P1是将A1与B1做或操作获得的，P2是将A2与B2做或操作获得的，P3是将A3与B3做或操作获得的。

各异或门产生的超前输出数据S0-S3分别为：

S0=A0⊕B0⊕C0；

S1=A1⊕B1⊕C1；

S2=A2⊕B2⊕C2；

S3=A3⊕B3⊕C3。

本发明公开的方案可以得出结论为：任意位宽的进位输出只需要经过3级门电路的延时，计算按位和只需要4级门电路延时，而以4位行波进位加法器为例，计算4Bit位宽进位输出与按位和均需要经过9级门延迟，故此4Bit超前进位加法器结合存内计算的设计缩短了近一半延时。

如图5所示，本发明公开所述6T-SRAM存储单元包括：晶体管T1、晶体管T2、晶体管T3、晶体管T4、晶体管T5和晶体管T6；晶体管T1的源极和晶体管T2的源极均与电源VDD连接，晶体管T1的栅极、晶体管T3的栅极、晶体管T2的漏极和晶体管T4的漏极均与Q点连接，晶体管T2的栅极、晶体管T4的栅极、晶体管T1的漏极和晶体管T3的漏极均与QB点连接，晶体管T3的源极和晶体管T4的源极均与公共端VSS连接，晶体管T5的栅极和晶体管T6的栅极均与字线连接，晶体管T5的漏极与QB点连接，晶体管T5的源极与位线连接，晶体管T6的源极与Q点连接，晶体管T6的漏极与反位线连接。

本发明公开的技术方案存在以下优点：

1、本发明设计的存算一体装置为全数字实现，避免了模拟域存内计算受工艺偏差影响，电路噪声影响以及模拟域存内计算固有的数模转换以及模数转换的功耗，面积开销和转换精度的损失。

2、本发明在乘积实现阶段采用4Bit输入与4Bit权重并行相乘的实现方式，相较采用串行输入方式虽然增加了布线资源，但是在单位时间内乘积计算量是串行实现方式的4倍，故本设计适合面积要求不高、低延时的需求环境。

3、本发明采用的存内计算和超前进位加法器结合的实现方式，相比采取进位链的实现方式，在计算按位和与进位输出时节省了一半延时，尽管实现面积有所增大，但是在低延时需求环境下，本设计优势明显。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于超前进位加法器实现的存算一体装置，其特征在于，所述装置包括：

2.根据权利要求1所述的基于超前进位加法器实现的存算一体装置，其特征在于，所述装置还包括：

3.根据权利要求2所述的基于超前进位加法器实现的存算一体装置，其特征在于，各所述乘法模块均包括：

6T-SRAM存储单元，用于读、写和存储权重值；

4.根据权利要求1所述的基于超前进位加法器实现的存算一体装置，其特征在于，第j个所述进位产生器包括：2个或门和j+1个与门；第1个与门的两个输入端分别与第2j-1个乘法模块和第2j个乘法模块连接，第1个与门的输出端与第2个或门的输入端连接，第2个或门的输出端输出进位输出数据C_j；第1个或门的两个输入端分别与第2j-1个乘法模块和第2j个乘法模块连接，第1个或门的输出端与剩余j个与门的输入端均连接，剩余j个与门的输出端与第2个或门的输入端均连接；第2个与门与前1个所述进位产生器连接，第3个与门与前2个所述进位产生器连接，以此类推，直至第j个与门和第j+1个与门均与前j-1个所述进位产生器连接，其中，j为大于1且小于等于N的正整数；

5.根据权利要求3所述的基于超前进位加法器实现的存算一体装置，其特征在于，所述6T-SRAM存储单元包括：

6.根据权利要求3所述的基于超前进位加法器实现的存算一体装置，其特征在于，所述累乘单元为XNOR模块。

7.根据权利要求4所述的基于超前进位加法器实现的存算一体装置，其特征在于，第j个所述进位产生器生成的进位输出数据C_j=G_j-1+P_j-1×C_j-1；其中，G_j-1=A_j-1×B_j-1，P_j-1=A_j-1+B_j-1；当j=1时，C₁=G₀+P₀×C₀，C₀表示初始数据。

8.根据权利要求7所述的基于超前进位加法器实现的存算一体装置，其特征在于，第j个异或门生成的超前输出数据S_j-1=A_j-1⊕B_j-1⊕C_j-1；当j=1时，S₀=A₀⊕B₀⊕C₀；其中，⊕表示异或运算符号。