CN114546335A

CN114546335A - 一种多比特输入与多比特权重乘累加的存内计算装置

Info

Publication number: CN114546335A
Application number: CN202210436223.7A
Authority: CN
Inventors: 乔树山; 史万武; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-05-27
Anticipated expiration: 2042-04-25
Also published as: CN114546335B

Abstract

本发明涉及一种多比特输入与多比特权重乘累加的存内计算装置，属于存内计算技术领域，包括多个存内计算子装置，各所述存内计算子装置均包括输入转换模块、权重阵列、数字时间转换器和计算单元；所述输入转换模块用于将多比特数字输入值转换为模拟电压；所述权重阵列与所述数字时间转换器连接；所述权重阵列用于提供多比特权重，所述数字时间转换器用于根据所述多比特权重和输入脉冲信号生成加权权重脉冲信号，所述计算单元用于对所述模拟电压和所述加权权重脉冲信号进行乘累加，将多比特数字输入值转换为模拟电压，根据多比特权重和输入脉冲信号生成加权权重脉冲信号，对模拟电压和加权权重脉冲信号进行乘累加，提高了计算速度。

Description

一种多比特输入与多比特权重乘累加的存内计算装置

技术领域

本发明涉及存内计算领域，特别是涉及一种多比特输入与多比特权重乘累加的存内计算装置。

背景技术

近年来，人工智能(AI)对高能效计算系统的需求日益增长，包括边缘智能及其应用，人工智能系统中的DNN需要大量的并行乘积(MAC)操作。在MAC操作过程中，处理单元(PE)和内存之间不可避免地要进行大量权重和中间输出的数据传输，这会导致不可避免的功耗和延迟，从而限制了某些AI应用，如电池供电的边缘设备。因此，出现了内存计算(CIM)体系结构，通过在模内存储器的位行(BL)上并发访问多个单元来执行节能的并行MAC操作。这大大减少了生成的中间数据量，并促进了高度并行计算。

传统存内计算实现按计算位宽可分为单比特和多比特。单比特输入乘单比特权重的计算方式效率较低，单个计算单元耗费的晶体管数量较多，且同一列过多单比特计算单元乘累加会导致模拟计算电压难以精确量化；而采用多比特计算在实现方法上通常采用多周期循环有限比特累加，这样导致完成多比特计算时间过长，在一定程度上对计算能效的提升并不大。

发明内容

本发明的目的是提供一种多比特输入与多比特权重乘累加的存内计算装置，提高了计算速度。

为实现上述目的，本发明提供了如下方案：

一种多比特输入与多比特权重乘累加的存内计算装置，包括多个存内计算子装置，各所述存内计算子装置均包括输入转换模块、权重阵列、数字时间转换器和计算单元；

所述输入转换模块用于将多比特数字输入值转换为模拟电压；所述权重阵列与所述数字时间转换器连接；所述权重阵列用于提供多比特权重，所述数字时间转换器用于根据所述多比特权重和输入脉冲信号生成加权权重脉冲信号，所述计算单元用于对所述模拟电压和所述加权权重脉冲信号进行乘累加。

可选地，所述输入转换模块包括第一控制信号、第二控制信号、选择信号、电容Cx、晶体管P1、晶体管N1和多个子电路；

所述晶体管P1的栅极连接所述第一控制信号，所述晶体管P1的源极连接电源VDD，所述晶体管N1的栅极连接所述第二控制信号，所述晶体管N1的源极连接电容Cx的一端，电容Cx的另一端连接地电位VSS，所述晶体管P1的漏极和所述晶体管N1的漏极之间的连接线为预充线，所述预充线上并联多个所述子电路；所述子电路的数量与所述数字输入值的比特数相同，各子电路均包括一个晶体管和一个耦合电容；第i个子电路上，晶体管Mi-1的漏极连接所述预充线，晶体管Mi-1的栅极连接比特位IN[i-1]，晶体管Mi-1的源极连接耦合电容Ci-1的一端，耦合电容Ci-1的另一端连接地电位VSS；i∈[1,K]，K为数字输入值的比特数；所述选择信号连接晶体管MK，晶体管MK的漏极连接所述预充线，晶体管MK的源极连接耦合电容CK的一端，耦合电容CK的另一端接地电位VSS；所述晶体管N1的源极为所述输入转换模块的输出端；

耦合电容Ci与电容Cx的电容比值为2ⁱ：1，耦合电容CK与电容Cx的电容比值为2^K：1；

所述第一控制信号和所述第二控制信号用于控制耦合电容CK和各耦合电容Ci的充电和放电；所述选择信号在所述输入转换模块进行输入转换时为高电平。

可选地，所述数字输入值为4比特数字输入值。

可选地，所述权重阵列包括多个矩阵式排列的SRAM阵列，各列SRAM中SRAM的权重存储节点均连接到所述数字时间转换器的权重输入端。

可选地，所述数字时间转换器包括一个或门和多个串联的延时选择模块，每个延时选择模块均包括一个延时单元和一个选择器；延时选择模块的数量与所述SRAM阵列的列数相同，每个延时选择模块对应连接所述SRAM阵列中一列的权重输入；

各延时选择模块中，延时单元的输入端和选择器的第一输入端连接作为所述延时选择模块的输入端，所述延时单元的输出端连接所述选择器的第二输入端，所述选择器的第三输入端连接对应权重输入，所述选择器的输出端连接下一个延时选择模块的输入端；多个串联的延时选择模块中第一个延时选择模块的输入端连接所述输入脉冲信号，最后一个延时选择模块的输出端连接所述或门的第一输入端，所述或门的第二输入端连接所述输入脉冲信号，所述或门的输出为延时选择模块的输出；

多个串联的延时选择模块中，从第一个延时选择模块到最后一个延时选择模块的延时单元的延时时间成倍递减。

可选地，所述SRAM阵列为4列32行的SRAM阵列；所述SRAM阵列中SRAM为6T-SRAM。

可选地，各延时单元均包括基本延时单元，所述基本延时单元包括4个依次连接的反相器，各延时单元的延时时间通过串联所述基本延时单元的数量确定。

可选地，所述计算单元包括晶体管N2、晶体管N3和电容Cc；晶体管N2的栅极连接所述模拟电压，晶体管N2的源极接地电位VSS，晶体管N2的漏极接晶体管N3的源极，晶体管N3的栅极连接所述数字时间转换器的输出，所述晶体管N3的漏极连接读位线，所述电容Cc的一端连接所述读位线，所述电容Cc的另一端连接地电位VSS。

可选地，还包括列选控制模块和行选控制模块，所述列选控制模块用于所述权重阵列中SRAM写入权重时位线的控制；所述行选控制模块用于所述权重阵列中SRAM写入权重时字线的控制。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种多比特输入与多比特权重乘累加的存内计算装置，将多比特数字输入值转换为模拟电压，根据多比特权重和输入脉冲信号生成加权权重脉冲信号，对模拟电压和加权权重脉冲信号进行乘累加，与传统多周期循环处理的乘累加方式相比，提高了计算速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种多比特输入与多比特权重乘累加的存内计算装置结构示意图；

图2为本发明输入转换模块结构简图；

图3为本发明实施例输入转换模块详细结构示意图；

图4为本发明实施例权重阵列及数字时间转换器结构示意图；

图5为本发明实施例数字时间转换器结构示意图；

图6为本发明实施例基本延时单元示意图；

图7为本发明实施例基本延时单元晶体管级结构示意图；

图8为本发明计算单元结构示意图；

图9为本发明6T-SRAM结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种多比特输入与多比特权重乘累加的存内计算装置结构示意图，如图1所示，一种多比特输入与多比特权重乘累加的存内计算装置，包括多个存内计算子装置，各所述存内计算子装置均包括输入转换模块103、权重阵列104、数字时间转换器105和计算单元106。

所述输入转换模块103用于将多比特数字输入值转换为模拟电压；所述权重阵列104与所述数字时间转换器105连接；所述权重阵列104用于提供多比特权重，所述数字时间转换器105用于根据所述多比特权重和输入脉冲信号生成加权权重脉冲信号，所述计算单元106用于对所述模拟电压和所述加权权重脉冲信号进行乘累加。

所述输入转换模块103包括第一控制信号、第二控制信号、选择信号、电容Cx、晶体管P1、晶体管N1和多个子电路。

所述晶体管P1的栅极连接所述第一控制信号，所述晶体管P1的源极连接电源VDD，所述晶体管N1的栅极连接所述第二控制信号，所述晶体管N1的源极连接电容Cx的一端，电容Cx的另一端连接地电位VSS，所述晶体管P1的漏极和所述晶体管N1的漏极之间的连接线为预充线，所述预充线上并联多个所述子电路；所述子电路的数量与所述数字输入值的比特数相同，各子电路均包括一个晶体管和一个耦合电容；第i个子电路上，晶体管Mi-1的漏极连接所述预充线，晶体管Mi-1的栅极连接比特位IN[i-1]，晶体管Mi-1的源极连接耦合电容Ci-1的一端，耦合电容Ci-1的另一端连接地电位VSS；i∈[1,K]，K为数字输入值的比特数；所述选择信号连接晶体管MK，晶体管MK的漏极连接所述预充线，晶体管MK的源极连接耦合电容CK的一端，耦合电容CK的另一端接地电位VSS；所述晶体管N1的源极为所述输入转换模块103的输出端。

耦合电容Ci与电容Cx的电容比值为2ⁱ：1，耦合电容CK与电容Cx的电容比值为2^K：1。

所述第一控制信号和所述第二控制信号分别用于控制耦合电容CK和各耦合电容Ci的充电和放电；所述选择信号在所述输入转换模块103进行输入转换时为高电平。

数字输入值为4比特数字输入值，则K=4，耦合电容分别为C0、C1、C2、C3和C4。

输入转换模块103进行输入转换时，首先将第一控制信号（Ctrl1）和第二控制信号（Ctrl2）均置为低电平，此时，晶体管P1为导通状态、晶体管N1为断开状态，电源VDD通过预充线分别向耦合电容C0、C1、C2、C3和C4充电，而耦合电容C0、C1、C2、C3和C4是否接收电荷通过输入信号IN[3:0]（数字输入值）决定，IN[3:0]表示从第0位IN[0]到第3位IN[3]共4位比特输入信号，若输入信号IN[3:0]内的各比特位信号的状态确定，则在耦合电容C0、C1、C2、C3和C4上存储的电荷量也确定，当前此输入转换模块103被选中转换输入时，选择信号一直为高电平，即耦合电容C4一直处于充电状态。当耦合电容预充电结束后，控制信号Ctrl1和Ctrl2均置为高电平，则PMOS管P1处于断开状态，NMOS管N1处于导通状态，此时在耦合电容预充的电荷将同时通过预充线(Pre_line)从N1管的漏极流向源极Vx点，最后所有电荷将在耦合电容Vx上累计，此时Vx点的模拟电压值可由下面公式求得：

；

其中，V _DD表示电源VDD的电压，IN _<3>表示比特位IN[3]的输入，IN _<2>表示比特位IN[2]的输入，IN _<1>表示比特位IN[1]的输入，IN _<0>表示比特位IN[0]的输入。

上面的描述即可将输入的4bit数字输入值IN[3:0]转换为对应的模拟电压值Vx。

所述权重阵列104包括多个矩阵式排列的SRAM阵列，各列SRAM中SRAM的权重存储节点均连接到所述数字时间转换器105的权重输入端。

所述数字时间转换器105包括一个或门和多个串联的延时选择模块，每个延时选择模块均包括一个延时单元和一个选择器；延时选择模块的数量与所述SRAM阵列的列数相同，每个延时选择模块对应连接所述SRAM阵列中一列的权重输入。

各延时选择模块中，延时单元的输入端和选择器的第一输入端连接作为所述延时选择模块的输入端，所述延时单元的输出端连接所述选择器的第二输入端，所述选择器的第三输入端连接对应权重输入，所述选择器的输出端连接下一个延时选择模块的输入端；多个串联的延时选择模块中第一个延时选择模块的输入端连接所述输入脉冲信号，最后一个延时选择模块的输出端连接所述或门的第一输入端，所述或门的第二输入端连接所述输入脉冲信号，所述或门的输出为延时选择模块的输出。

所述SRAM阵列为4列32行的SRAM阵列；所述SRAM阵列中SRAM为6T-SRAM。

6T-SRAM的结构如图9所示，包括PMOS晶体管TP1、TP2以及NMOS晶体管TN1、TN2、TN3、TN4，图9中Q点表示权重存储节点，QB点与Q点电位相反，WL表示字线，BL表示位线，BLB表示位线非。

各延时单元均包括基本延时单元，所述基本延时单元包括4个依次连接的反相器，各延时单元的延时时间通过串联所述基本延时单元的数量确定。

所述计算单元106包括晶体管N2、晶体管N3和电容Cc；晶体管N2的栅极连接所述模拟电压，晶体管N2的源极接地电位VSS，晶体管N2的漏极接晶体管N3的源极，晶体管N3的栅极连接所述数字时间转换器105的输出，所述晶体管N3的漏极连接读位线，所述电容Cc的一端连接所述读位线，所述电容Cc的另一端连接地电位VSS。

一种多比特输入与多比特权重乘累加的存内计算装置还包括列选控制模块101和行选控制模块108，所述列选控制模块101用于所述权重阵列104中SRAM写入权重时位线的控制；所述行选控制模块108用于所述权重阵列104中SRAM写入权重时字线的控制。

下面以4比特输入说明本发明一种多比特输入与多比特权重乘累加的存内计算装置。

本发明存内计算装置包括列选控制模块(Column Control Block)101、输入缓冲模块(Input Buffer)102、输入转换模块(Input Converter)103、权重阵列(Weight Array)104、数字时间转换器(Digital Time Converter，DTC)105、计算单元(Compute Cell)106、模拟数字转换模块(Analog Digital Converter)107、行选控制模块(Row Control Block)108。如图1所示，输入转换模块103、权重阵列104、数字时间转换器105和计算单元106组成的部分呈上下对称结构，且以行选控制模块108为对称轴在右边也呈同样的排布，左右部分共用同一个行选控制模块108。

图2为输入转换模块103的输入输出图示，每个输入转换模块103有7个输入端和1个输出端Vx。输入端分为1bit的选择信号sel，2bit的控制信号Ctrl1与Ctrl2，和4bit的数字输入信号IN[3:0]。

图3为输入转换模块103的晶体管级电路图，其中PMOS管P1，NMOS管N1是由Ctrl1与Ctrl2控制的晶体管，管P1源极接电源VDD，漏极接预充线(Pre_line)，N1漏极接预充线(Pre_line)，源极接耦合电容Cx左端点Vx；在P1和N1中间有五组NMOS晶体管和耦合电容的子电路，从上到下依次为NMOS管M4和耦合电容C4，其中管M4的栅极连接Sel信号，控制管M4的通断，管M4的漏极接预充线(Pre_line)，管M4源极接耦合电容C4的左端点，C4右端点接地；同理NMOS管M3栅极由输入数据的最高比特位IN[3]控制，管M3漏极接预充线(Pre_line)，管M3源极接耦合电容C3的左端点，C3的右端点接地，五组NMOS晶体管和耦合电容的子电路中，从C4到C0的电容与Cx比值为：16：8：4：2：1：1。

图3中向右的箭头表示充电电流方向，向左的箭头表示放电电流方向。

权重阵列104和数字时间转换器105在图1中也如输入转换模块103一样有4个同样的部分，每个部分如图4所示，其中权重阵列104由4列32行6T-SRAM组成，权重阵列104包括多个由4列32行6T-SRAM组成的阵列，每个阵列单独运行，每个权重值都通过6T-SRAM的Q端（权重存储节点）连接至DTC的输入端，4bit权重从左至右依次为Q[3]、Q[2]、Q[1]和Q[0]，通过在DTC左端输入脉冲(P_in)信号，根据4bit权重的不同，在DTC输出端输出等比例的权重输出脉冲(P_weight)，数字时间转换器105细节图如图5所示。

图5为数字时间转换器105结构示意图，如图5所示，DTC是由4组成比例的延时单元和选择器串联而成，在DTC的输入端输入单位脉冲信号P_in，若权重Q[3]为1，则P_in经过8个基本延时单元后传输至下一级，若Q[3]为0，P_in则绕过8倍延时单元传输至下一级，同理，P_in可从左传至最后一级延时组合，以P_out输出，P_in和P_out信号通过或门做逻辑或，形成权重脉冲输出P_weight。而图5中的基本延时单元T₀如图6所示，基本延时单元的晶体管级连接如图7所示，基本延时单元是由4个首尾相接的反相器链组成，只需要调节PMOS和NMOS的晶体管宽度就可得到基本延时脉宽，其中管P0’和管M0’构成一个反相器，管P1’和管M1’构成一个反相器，管P2’和管M2’构成一个反相器，管P3’和管M3’构成一个反相器。2T₀是由2个基本延时单元(Basic Delay Unit)串联形成，同理，4T₀是由4倍基本延时单元串联组成，8T₀是由8倍基本延时单元串联组成。

当由输入转换模块103生成Vx模拟电压，由权重阵列104及数字时间转换器105生成成比例加权脉宽P_weight后，两个模拟量可在计算单元106完成模拟量的乘积和累加。如图8所示，两个NMOS管N2和N3，N2源极接地，N2漏极接N3源极，N2栅极接模拟输入电压Vx，N3漏极接读位线(Read Bit Line, RBL)，耦合电容Cc上端接RBL，下端接地。

当输入模拟电压Vx达到NMOS管阈值电压时，NMOS管N2管逐渐导通，当权重脉宽P_weight呈不同宽度时，NMOS管N3的导通时间也呈比例，当管N2和管N3均导通时，耦合电容Cc将通过N2、N3向VSS放电，累计放电量的多少即为多比特输入和权重的乘累加量。这个过程便完成了多比特乘累加运算。

模拟数字转换模块用于将数字时间转换器的乘累加结果转换为数字信号后输出。

本发明采用输入转换模块103将输入的4bit数字值在单位时间内转换为单一的模拟电压Vx，这种实现方式相比传统多比特乘累加需要多周期循环处理的实现方式在计算速度上达到了成倍数的提升。

本发明提出的权重阵列104及数字时间转换器105将多比特权重通过不同比例的脉宽实现，将权重在计算电路中表现为计算电路的导通时间，多比特可在一次计算完毕，而不需要顺序多次叠加，同样也是减少了计算时间，为整体计算增速。

本发明提出的计算单元106仅采用两个NMOS管便完成输入和权重两个计算数的连接，思路简单，设计复杂度低，在电路中更易于实现。

本发明公开的架构采用左右对称分布式设计，而非传统的大阵列模式，优点有字线驱动负载较小，无论是权重写入还是计算时，输入信号脉冲的衰减现象会比较小，保证了信号输入的稳定性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多比特输入与多比特权重乘累加的存内计算装置，其特征在于，包括多个存内计算子装置，各所述存内计算子装置均包括输入转换模块、权重阵列、数字时间转换器和计算单元；

2.根据权利要求1所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，所述输入转换模块包括第一控制信号、第二控制信号、选择信号、电容Cx、晶体管P1、晶体管N1和多个子电路；

3.根据权利要求2所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，所述数字输入值为4比特数字输入值。

4.根据权利要求1所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，所述权重阵列包括多个矩阵式排列的SRAM阵列，各列SRAM中SRAM的权重存储节点均连接到所述数字时间转换器的权重输入端。

5.根据权利要求4所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，所述数字时间转换器包括一个或门和多个串联的延时选择模块，每个延时选择模块均包括一个延时单元和一个选择器；延时选择模块的数量与所述SRAM阵列的列数相同，每个延时选择模块对应连接所述SRAM阵列中一列的权重输入；

6.根据权利要求4所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，所述SRAM阵列为4列32行的SRAM阵列；所述SRAM阵列中SRAM为6T-SRAM。

7.根据权利要求5所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，各延时单元均包括基本延时单元，所述基本延时单元包括4个依次连接的反相器，各延时单元的延时时间通过串联所述基本延时单元的数量确定。

8.根据权利要求1所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，所述计算单元包括晶体管N2、晶体管N3和电容Cc；晶体管N2的栅极连接所述模拟电压，晶体管N2的源极接地电位VSS，晶体管N2的漏极接晶体管N3的源极，晶体管N3的栅极连接所述数字时间转换器的输出，所述晶体管N3的漏极连接读位线，所述电容Cc的一端连接所述读位线，所述电容Cc的另一端连接地电位VSS。

9.根据权利要求4所述的多比特输入与多比特权重乘累加的存内计算装置，其特征在于，还包括列选控制模块和行选控制模块，所述列选控制模块用于所述权重阵列中SRAM写入权重时位线的控制；所述行选控制模块用于所述权重阵列中SRAM写入权重时字线的控制。