CN119152906A - 一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法 - Google Patents
一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法 Download PDFInfo
- Publication number
- CN119152906A CN119152906A CN202411567617.1A CN202411567617A CN119152906A CN 119152906 A CN119152906 A CN 119152906A CN 202411567617 A CN202411567617 A CN 202411567617A CN 119152906 A CN119152906 A CN 119152906A
- Authority
- CN
- China
- Prior art keywords
- memory
- edram
- computing
- calculation
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C11/00—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
- G11C11/21—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
- G11C11/34—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
- G11C11/40—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
- G11C11/401—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming cells needing refreshing or charge regeneration, i.e. dynamic cells
- G11C11/4063—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing or timing
- G11C11/407—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing or timing for memory cells of the field-effect type
- G11C11/409—Read-write [R-W] circuits
- G11C11/4094—Bit-line management or control circuits
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C11/00—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
- G11C11/21—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
- G11C11/34—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
- G11C11/40—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
- G11C11/401—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming cells needing refreshing or charge regeneration, i.e. dynamic cells
- G11C11/4063—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing or timing
- G11C11/407—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing or timing for memory cells of the field-effect type
- G11C11/4074—Power supply or voltage generation circuits, e.g. bias voltage generators, substrate voltage generators, back-up power, power control circuits
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C11/00—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
- G11C11/21—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
- G11C11/34—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
- G11C11/40—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
- G11C11/401—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming cells needing refreshing or charge regeneration, i.e. dynamic cells
- G11C11/4063—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing or timing
- G11C11/407—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing or timing for memory cells of the field-effect type
- G11C11/409—Read-write [R-W] circuits
- G11C11/4091—Sense or sense/refresh amplifiers, or associated sense circuitry, e.g. for coupled bit-line precharging, equalising or isolating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computer Hardware Design (AREA)
- Dram (AREA)
Abstract
本发明提供一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法,其中所述架构包括:eDRAM近存与存算混合阵列、灵敏放大器、ADC电路、存算结果寄存器、特征值更新驱动电路、控制器、行译码器和列译码器;所述计算方法采用上架构进行计算。本发明通过结合近存与存内计算结构,充分配合两者的特点对阵列结构与基本单元进行优化设计并互补两种架构单独的不足,同时采用了深沟槽电容替代平面电容,具有低功耗、低延时、高计算效率和高密度等优点,有效克服传统近存电路带宽限制和存内计算电路工艺限制,可应用于深度学习加速器计算核,特别适用于对集成度和功耗性能有较高要求的边缘端硬件部署。
Description
技术领域
本发明涉及一种近存计算与存内计算混合架构及计算方法,特别是一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法。
背景技术
本部分提供的仅仅是与本公开相关的背景信息,其并不必然是现有技术。
近年来随着深度学习算法的快速发展,其计算量与参数量每年以指数级增长;许多内存密集型应用,如自然语言模型、图论分析等,都已然在现代数据分析中占据主导地位。然而传统的“冯·诺依曼”架构将计算单元与存储单元分离,导致在计算过程中大量的能耗与延时来自于访存与数据传输过程;相比较于人工智能应用计算量的增长速度,存储器件的发展十分缓慢,依靠传统的存储技术难以满足现代人工智能应用的带宽与存储容量需求。“存储墙”问题一直成为了人工智能等应用在硬件端快速部署的限制与瓶颈。
为了解决以上问题,现已提出的方法包括利用多级片上缓存(cache)、近存计算技术与存内计算技术等。片上缓存虽然在延时和功耗上优于片外内存(DRAM),但由于片上面积与资源有限,存储容量难以支撑现代AI的计算量。
如今正在发展的存算一体技术缓解了这个问题。广义的存算一体技术可以分为近存计算与存内计算两种架构。近存计算架构是将计算单元集成在邻近主存的位置,以降低数据传输的功耗与延时。存内计算架构是在存储器内部完成计算过程,存储器同时具有存储与计算功能,基本消除访存与数据传输的成本;同时,相比较于基于SRAM等数字存内计算架构,采用基于eDRAM结构和基于电荷的模拟电路进行计算将进一步降低计算过程的功耗与时间,大大提升计算并行度、能效比与面效比。
然而随着快速发展的深度学习算法,计算量与参数量与日俱增,虽然存算架构中权重参数与乘加运算的集成缓解了读写权重值的问题,但输入特征值的读写与更新仍然面临着较大的访存代价;同时近存架构中也面临着带宽限制导致的计算效率与能耗问题。仅仅使用近存或存内计算架构已无法满足当前算法部署到硬件上的带宽和性能需求。同时面向随身设备、无线设备等边缘端应用,对硬件电路集成度与尺寸也提出了进一步要求。深沟槽电容通过深度反应离子刻蚀技术形成高深宽比的深沟槽结构,具有高容量密度、小尺寸、高性能、高可靠性等优点,适用于现代需要高集成度的电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法。
为了解决上述技术问题,本发明公开了一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法,其中,所述架构包括:
eDRAM近存与存算混合阵列、灵敏放大器、ADC电路、存算结果寄存器、特征值更新驱动电路、控制器、行译码器和列译码器;其中,
所述eDRAM近存与存算混合阵列按功能划分为eDRAM存储阵列和eDRAM存算阵列,所述灵敏放大器与所述eDRAM存储阵列连接,所述ADC电路与所述eDRAM存算阵列连接,所述存算结果寄存器与所述ADC电路连接及所述特征值更新驱动电路连接,所述行译码器和列译码器与所述eDRAM近存与存算混合阵列连接,所述特征值更新驱动电路与灵敏放大器连接,所述控制器分别与eDRAM近存与存算混合阵列、灵敏放大器、ADC电路、存算结果寄存器、特征值更新驱动电路、行译码器和列译码器连接。
进一步的,所述eDRAM近存与存算混合阵列,用于对当前轮次计算的输入的特征值进行计算;
所述灵敏放大器,用于将eDRAM存储阵列写入和读出时的位线电压放大,以及所述eDRAM存储阵列的刷新;
所述ADC电路,用于将eDRAM存算阵列计算得到的模拟值转换为数字值;
所述存算结果寄存器,用于存储所述eDRAM存算阵列进行运算后经所述ADC电路转换得到的数字计算结果;所述存算结果寄存器还,将其存储的所述数字计算结果转移到所述特征值更新驱动电路;
所述行译码器和列译码器,用于根据所述控制器发出的地址信号选择所述eDRAM近存与存算混阵列中对应的行和列;
所述特征值更新驱动电路,用于更新所述eDRAM近存与存算混阵列中下一轮次计算的输入的特征值;
所述控制器,用于控制并选择所述eDRAM近存与存算混合阵列的工作模式、行地址和列地址。
进一步的,所述的eDRAM近存与存算混合阵列由若干相同的4T2C基本单元排列而成,所述eDRAM近存与存算混合阵列每次并地读取若干行特征值。
进一步的,所述4T2C基本单元,具体包括:
由4个场效应管和2个深沟槽电容组成;其中,第一场效应管M1的栅极接所述eDRAM存储阵列的字线WL_X,控制所述4T2C基本单元是否读写输入特征值;所述第一场效应管M1的源极连接所述eDRAM存储阵列的位线BL_X,用于写入输入信号的值;所述第一场效应管M1的漏极与第一电容C1相连,将写入的输入特征值以电荷的形式存储到第一电容C1上;
第二场效应管M2是写入管,其栅极连接所述eDRAM存算阵列的字线WL_W,控制权重是否写入,源极连接所述eDRAM存算阵列的位线BL_W写入权重的值,漏极与第四场效应管M4的栅极相连,通过所述第二场效应管M2与所述第四场效应管M4间的寄生电容存储权重电压V1;
第三场效应管M3是复位管,其源极连接电源VDD,栅极连接复位控制信号RST,控制对第二电容C2左端电压的复位,复位电压为电源电压;
第四场效应管M4是计算管,从所述第四场效应管M4的源极输入激活值,通过栅极的权重电压V1实现权重值与激活值的与运算,所述第四场效应管M4的漏极与所述第三场效应管M3的漏极共同连到第二电容C2左端,该处电压代表所述4T2C基本单元的计算结果值;所述第二电容C2的右端电压代表一次计算的输出值。
进一步的,所述4T2C基本单元,包括三种工作模式:数据写入模式、计算模式和特征值更新模式;其中,
所述的数据写入模式,将输入特征值与权重分别写入所述eDRAM近存与存算混合阵列中;
所述的计算模式,所述eDRAM近存与存算阵列基于电荷方法逐位完成特征值与权重的乘累加计算,该计算完成后将结果传入ADC电路中量化得到最终8bit数字计算值并写入存算结果寄存器中;
所述的在特征值更新模式,根据所述8bit数字计算值,通过特征值更新驱动电路刷新eDRAM阵列中的特征值电压。
进一步的,所述的计算模式,包括4个阶段:复位阶段、单比特计算阶段、列求和计算阶段和ADC量化阶段;
在所述eDRAM存算阵列的列上设置第一开关S1, 用于复位阶段的切换,在所述eDRAM存算阵列的位线BL_X上设置第二开关S2连接到VDD,第三开关S3用于读取输入特征值;上述开关用于计算模式下4个阶段间的切换。
进一步的,所述的计算模式,具体包括:
复位阶段,闭合所述第一开关S1,第二电容C2负极板电压被强行复位到GND;
单比特计算阶段,通过3-8译码器控制所述eDRAM存储阵列的字线WL_X的开断,选通一列所述eDRAM存储阵列的字线WL_X后,该列4T2C基本单元中的第一场效应管M1被开启,该4T2C基本单元中的第一电容C1存储的电压值即特征值对所述eDRAM存储阵列的位线BL_X电压进行扰动,灵敏放大器SA根据扰动方向将该电压拉高或拉低到高电平或低电平,闭合第三开关S3断开第二开关S2,稳定后的特征值电压通过缓冲器传递到第四场效应管M4的源极进行单比特计算;所述第四场效应管M4的栅极存储权重电压值即权重值,权重值与特征值在所述第四场效应管M4上完成单比特与运算,运算结果以电荷的方式存储在第二电容C2的正极板上;
列求和运算阶段,第一开关S1断开,RST低电平导通第三场效应管M3,第二电容C2正极板电压被置VDD,该列上的电容电荷进行了电荷重分配,并在一列上得到一列4T2C基本单元的计算电压值,通过列间电容的电荷重分配实现列间按比特位赋权的加权计算电压值;
对上述过程迭代8次,每次计算结果在设置在所述ADC电路与所述eDRAM存算阵列之间的ADC采样电容上进行按位赋权;最终乘累加的通过所述ADC电路量化为数字计算结果存储到存算结果寄存器中。
进一步的,所述的4T2C基本单元中,第一电容C1和第二电容C2为深沟槽电容。
进一步的,所述ADC电路,采用逐次逼近型ADC结构,具体包括:
CMOS采样开关、电容器、控制逻辑及转换开关电路、时钟生成模块和比较器;所述CMOS采样开关与电容器上极板、比较器输入端连接,用于控制是否传入正负采样电压到比较器的正负两级和电容上极板;
所述比较器与电容上极板、控制逻辑及转换开关电路连接,用于根据正负输入级电压产生一次比较结果,并将比较结果传递给控制逻辑及转换开关电路;
所述控制逻辑及转换开关与电容器下极板、比较器连接,用于根据比较器的一次比较结果产生相应的控制信号,控制信号控制转换开关的转换方向是电源端VDD或参考电压Vref,转换开关的输出连接到电容器下极板从而改变下极板电压;
所述时钟生成模块与控制逻辑与转换开关电路连接,用于生成8个时钟信号clk0~clk7依次控制从右到左共八个控制逻辑及转换开关电路的时钟触发;
通过设置参考电压Vref,控制ADC的量程与分辨率;在逻辑电路中,根据比较器的比较结果选择转换开关的转换方向是参考电压Vref或电源端VDD,从而改变对应电容的下极板电压,使得比较器所连的正负电压值逐渐逼近;在逻辑电路中包含D触发器以保存模数转换后的数字结果。
本发明还提出了一种基于eDRAM的高密度近存计算与存内计算混合计算方法,采用前述架构进行计算,所述计算方法包括:
步骤1,完成数据准备,具体完成利用行译码器和列译码器控制字线WL,通过位线BL将输入特征值与权重分别写入eDRAM近存与存算混合阵列中;
步骤2,完成复位,具体实施闭合第一开关S1、第二开关S2,断开第三开关S3,将第二电容C2的负极板电压复位到接地端GND,同时第四场效应管M4的源级接电源端VDD;
步骤3,完成读取特征值、单比特计算,具体实施闭合第一开关S1、第三开关S3,断开第二开关S2,位线BL_X上的特征电压值通过缓冲器传输到每个存算单元,与权重电压在第四场效应管M4上进行单比特计算,在第二电容C2的正极板侧电压存储单比特计算结果;
步骤4,完成列求和计算,具体实施断开第一开关S1、第二开关S2、第三开关S3,第二电容C2上存储的计算结果通过电荷重分配的模拟计算方式完成列内和列间的求和计算过程,乘累加后的模拟计算结果传入ADC电路;
步骤5,完成ADC量化过程并将结果写入存算结果寄存器,具体完成在ADC电路中通过逐次逼近方法实现将存内计算阵列的模拟计算结果量化为数字计算结果,并存储到结果寄存器中;
步骤6,完成特征值更新,根据存算计算结果,通过特征值更新驱动电路更新eDRAM存储阵列中的输入特征电压,等待下一层计算。
有益效果
(1)本发明提出的混合架构相比较于传统的存储与计算分离的冯·诺依曼架构,可以减少数据传输所需要的功耗与延时,解决“内存墙”问题。
(2)本发明相比较于现有的存内计算技术,该发明采用了近存和存内计算结合的方式,同时减少了输入特征值与权重值的访存和传输消耗。
(3)本发明中的存算阵列采取改进设计的eDRAM基本单元结构和基于电荷的模拟电路的卷积计算方法,进一步提高了计算效率与并行度,提高了面积利用率。
(4)本发明的eDRAM近存与存算结合的基本单元采用了先进的深沟槽电容技术,具有大容量、高稳定性、高密度的优点,能够实现高集成度的eDRAM存算一体阵列。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是基于eDRAM的结合近存计算与存内计算技术的整体电路架构图。
图2是eDRAM近存与存算混合阵列的基本单元结构图。
图3是eDRAM存储阵列的工作模式示意图。
图4是eDRAM存内计算阵列的电路结构图。
图5是逐次逼近型ADC的组成结构图。
图6是eDRAM近存与存算混合阵列在计算模式下不同工作阶段的电路转换示意图。
图7是利用近存与存内计算混合架构电路完成一次计算的整体流程图。
图8是SAR ADC的控制逻辑与转换开关电路示意图。
具体实施方式
本发明提出了一种基于eDRAM的高密度近存计算与存内计算的混合架构,eDRAM单元中采用了深沟槽电容(Deep Trench Capacitor),并采用基于eDRAM模拟电路的计算方式。旨在通过近存与存算两种架构的结合弥补目前它们各自的不足,进一步在功耗、延时与计算效率方面提升,设计面向边缘端人工智能应用的高集成度高性能芯片。
本发明采用的技术方案如下:
一种基于eDRAM的近存计算与存内计算相结合的电路架构,包括eDRAM近存与存算混合阵列,灵敏放大器,ADC,存算结果寄存器,行/列译码器,特征值更新驱动电路,以及控制器。
所述的eDRAM近存与存算混合阵列由许多相同的eDRAM基本单元排列组成,从功能上可以划分为两个部分,其中一部分eDRAM存储阵列用于存取和刷新输入特征值,另一部分eDRAM存算阵列用于权重与输入特征值进行MAC计算。所述eDRAM近存与存算混合阵列每次可以并行地读取若干行特征值,适应于存内计算阵列的并行计算特点,实现较高的近存读取速度和带宽。
所述的控制器与其余所有模块连接,用于控制选择eDRAM近存与存算混合阵列的工作模式、行地址和列地址。
所述的灵敏放大器(Senser Amplifier,SA)与所述eDRAM存储阵列连接,用于将eDRAM存储阵列写入和读出时的位线电压放大至0或1,以及eDRAM存储阵列的刷新。
所述的ADC与所述eDRAM存算阵列连接,采用了逐次逼近型ADC结构(SAR ADC),用于将eDRAM存内计算阵列计算得到的模拟值转换为数字值。
所述的存算结果寄存器与所述ADC连接,用于存储存算阵列进行MAC运算后再由ADC转换得到的数字计算结果,进一步的将结果转移到特征值更新驱动电路用以更新下一层计算的输入特征值。
所述的行译码器和列译码器与所述eDRAM近存与存算混合阵列连接,用于根据控制器的地址信号选择对应的某一行和列。
所述的特征值更新驱动电路与所述灵敏放大器(SA)连接,包括列选择器和特征值更新寄存器,用于更新eDRAM阵列中新一层计算的输入特征值。
进一步的,所述的eDRAM近存与存算混合阵列的基本单元由4个场效应管M1、M2、M3、M4和2个深沟槽电容(Deep Trench Capacitor)C1和C2组成。深沟槽电容通过深度反应离子刻蚀技术形成高深宽比的深沟槽结构,具有高容量密度、小尺寸、高性能、高良率等优点,适用于现代需要高集成度的电子设备。场效应管M1的栅极接字线(word line)WL_X,控制eDRAM单元是否读写输入特征值;M1的源级连接位线(bit line)BL_X,用于写入输入信号的值。M1的漏极与电容相连,将写入的输入特征值以电荷的形式存储到深沟槽电容C1上。M2是写入管,它的栅极连接存算阵列的字线WL_W,控制权重是否写入,源级连接位线写入权重的值,漏极与M4的栅极相连,通过M2与M4间的寄生电容存储权重电压为V1。M3是复位管,源级连接电源VDD,栅极连接复位控制信号RST,实现对电容左端电压的复位,复位电压为电源电压;M4是计算管,从M4的源级输入激活值,通过栅极的权重电压实现权重值与激活值的“与”运算,M4的漏极与M3的漏极共同连到电容C2左端,该处电压代表该基本单元的计算结果值;电容C2的右端电压代表一次计算的输出值。
更进一步的,所述的eDRAM存储阵列包括写入、读取与刷新三种模式。在写入模式下,根据控制器发送的写入数据值、行地址,首先灵敏放大器对位线进行预充电到某一稳定的中间电压值,然后写入驱动器通过位线每次将若干位数据写入到DRAM阵列对应的行位置;在读取模式下,根据控制器发送的行列地址,并行读出数据通过缓冲器传输给存算阵列进行计算;在刷新模式下,逐行开启eDRAM阵列,利用灵敏放大器进行充放电来刷新电荷。
更进一步的,所述的eDRAM存内计算阵列由256行*1024列组成,共256Kb。所存储的权重为8bit位宽,采用差分编码的方式,因此每个权重值需要16个存算单元进行存储,1024列可以存储64组权重值。存内计算阵列共分为写入、计算和复位三种模式,在列上设置了复位开关S1,在行上每行eDRAM基本单元的写入管栅极连接到8-256行译码器的输出端,形成WL_W<0:255>的权重写入行选通信号,每行复位管栅极连接到复位使能信号RST。
进一步的,所述ADC主要由采样开关、电容器、控制逻辑电路及转换开关、比较器以及时钟生成电路组成。选取一定参考电压Vref决定了ADC量程和分辨率,在控制逻辑电路中根据当次比较器结果控制转换开关,改变电容的下极板电压值,比较器所连的正负电压值在转换过程中逐次逼近。逻辑电路中包含D触发器,每比特位的转换结果存储在对应的D触发器中。
本发明旨在解决近存计算电路的带宽瓶颈和存内计算电路的性能瓶颈,通过将近存技术与存内计算技术相融合,并引入改进的eDRAM单元结构和先进电容工艺,实现高集成度高可靠性和更高计算效率的存算一体计算电路,为边缘端人工智能应用提供更强大的硬件支持。
如图7所示,为基于eDRAM的近存计算与存内计算混合架构的一次计算的操作流程图。具体涉及eDRAM近存与存算混合阵列、灵敏放大器、SAR ADC电路、结果寄存器、特征值更新驱动电路、控制器以及行列译码器等。eDRAM近存与存算混合阵列共包括数据写入、计算、特征值更新三种工作模式,其中在计算模式下,可以分为复位、单比特计算、列求和计算与ADC量化四个阶段。具体实施如下:
步骤1,完成数据准备,具体完成利用行、列译码器控制字线WL,通过位线BL将输入特征值与权重分别写入eDRAM近存与存算混合阵列中。
步骤2,完成复位,具体实施闭合开关S1、S2,断开S3,将深沟槽电容C2的负极板电压复位到GND,同时计算管M4的源级接VDD。
步骤3,完成读取特征值、单比特计算,具体实施闭合开关S1、S3,断开S2,位线BL_X上的特征电压值通过缓冲器传输到每个存算单元,与权重电压在M4上进行单比特计算,在电容C2的正极板侧电压存储单比特计算结果。
步骤4,完成列求和计算,具体实施断开开关S1、S2、S3,电容C2上存储的计算结果通过电荷重分配的模拟计算方式完成列内和列间的求和计算过程,乘累加后的模拟计算结果传入ADC。
步骤5,完成ADC量化过程并将结果写入存算结果寄存器,具体完成在ADC中通过逐次逼近方法实现将存内计算阵列的模拟计算结果量化为数字计算结果,并存储到结果寄存器中。
步骤6,完成特征值更新,根据存算计算结果,通过特征值更新驱动电路更新eDRAM阵列中的输入特征电压,等待下一层计算。
进一步地,所述步骤1中控制eDRAM近存与存算混合阵列写入特征值与权重的实施方法如下:
eDRAM近存与存算混合阵列整体架构如图1所示,基本单元结构如图2所示。在写入模式下,行、列译码器以及灵敏放大器接受到来自控制器的写入使能信号和行、列地址信号,输入特征值提前存到写入驱动器中;通过译码,只有字线WL对应行的eDRAM单元中写入晶体管M1和M2的栅极控制端被开启,晶体管导通。eDRAM存算阵列电路结构如图4所示,行译码器连接到WL_W,在行、列译码器的选择下,权重值通过位线BL_W写入,以电压值V1存储到M2漏极与M4栅极的连接处,同时RST为低电平,M3复位管导通,电容C2正极板电压复位到VDD。特征值eDRAM阵列电路如图3所示,特征值的写入过程是首先灵敏放大器对位线进行预充电,将位线电压稳定在高低电平的中间值;然后写入驱动器的电压值对位线BL_X进行一定扰动,灵敏放大器根据电压扰动方向将位线电平值拉高或拉低到高、低电平,即实现对eDRAM基本单元中深沟槽电容的充放电过程,预期写入的每比特特征值以电荷形式存储到了eDRAM基本单元中。
进一步的,所述步骤3、步骤4中完成特征值读取与计算过程的具体实施方法如下:
计算过程的电路转换图如图6所示,在复位阶段,闭合S1时,电容负极板电压被强行复位到GND;在单比特计算阶段,首先通过3-8译码器控制WL_X的开断,选通一列WL_X后该列eDRAM单元中的M1晶体管被开启,该单元中深沟槽电容C1存储的电压值对位线BL_X电压进行微小扰动,灵敏放大器根据扰动方向将位线电压拉高或拉低到高、低电平,闭合S3断开S2,稳定后的特征值电压通过缓冲器传递到计算管M4的源级进行单比特计算;M4晶体管的栅极存储着权重电压值,权重值与特征值在M4计算管上完成单比特“与”运算,计算结果以电荷的方式存储在深沟槽电容C2的正极板上。
单比特计算完成后,开始列求和运算,S1 开关断开,RST低电平导通M3复位管,电容C2正极板电压被置VDD,由电荷守恒定律,一列上的电容电荷进行了电荷重分配的过程,并在一列上得到一列eDRAM单元的计算电压值,之后再通过列间电容的电荷重分配实现列间按比特位赋权的加权计算电压值。由于本设计中的数据流是实现“按位”计算的,即逐位输入特征值进行计算,在8bit位宽下,上述过程需要迭代8次,每次计算结果在ADC采样电容上再实现按位赋权的过程。最终乘累加的模拟域计算结果被采样到ADC中完成量化过程,数字计算结果存储到存算结果寄存器中。
进一步的,所述步骤5中ADC量化过程,如图5所示,ADC根据采样电容上的模拟电压值进行模数转换,采用逐次逼近型方法,设置参考电压Vref为256mV,ADC的量程范围为0-256mV,最小分辨率为2mV。量化得到的8bit数字计算值写入存算结果寄存器中。
更进一步的,如图8所示为所述逐次逼近型ADC的控制逻辑及转换开关电路。在逻辑电路部分,每次比较器的比较结果CMP_OUT与时钟生成模块传入的时钟信号CLKi通过与、非逻辑运算得到一对相反的控制信号,控制两个转换开关的开启与关闭。所述两个转换开关一端分别接到电源电压VDD和参考电压Vref,另一端共同接到电容下极板。通过控制转换开关的方向改变电容下极板电压,使得比较器所连正负电压逐次逼近。每比特位的量化结果存储在逻辑电路的D触发器中,最终得到8bit量化结果。
进一步的,所述步骤6中特征值更新的具体实施方法如下:
如图3所示,eDRAM存储阵列在特征值更新模式下,行3-8译码器、列选择器以及灵敏放大器接受到来自控制器的刷新使能信号。灵敏放大器预先将位线BL_X预充电到高低电平的中间电压值,然后行译码器逐行开启eDRAM阵列,通过电容C1对位线电压的微小扰动,灵敏放大器完成了对电容的充放点;刷新过程需要逐行进行直到整个DRAM阵列完成刷新。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于eDRAM的高密度近存计算与存内计算混合架构的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机,MCU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于eDRAM的高密度近存计算与存内计算混合架构的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述架构包括:
eDRAM近存与存算混合阵列、灵敏放大器、ADC电路、存算结果寄存器、特征值更新驱动电路、控制器、行译码器和列译码器;其中,
所述eDRAM近存与存算混合阵列按功能划分为eDRAM存储阵列和eDRAM存算阵列,所述灵敏放大器与所述eDRAM存储阵列连接,所述ADC电路与所述eDRAM存算阵列连接,所述存算结果寄存器与所述ADC电路连接及所述特征值更新驱动电路连接,所述行译码器和列译码器与所述eDRAM近存与存算混合阵列连接,所述特征值更新驱动电路与灵敏放大器连接,所述控制器分别与eDRAM近存与存算混合阵列、灵敏放大器、ADC电路、存算结果寄存器、特征值更新驱动电路、行译码器和列译码器连接。
2.根据权利要求1所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,
所述eDRAM近存与存算混合阵列,用于对当前轮次计算的输入的特征值进行计算;
所述灵敏放大器,用于将eDRAM存储阵列写入和读出时的位线电压放大,以及所述eDRAM存储阵列的刷新;
所述ADC电路,用于将eDRAM存算阵列计算得到的模拟值转换为数字值;
所述存算结果寄存器,用于存储所述eDRAM存算阵列进行运算后经所述ADC电路转换得到的数字计算结果;所述存算结果寄存器还,将其存储的所述数字计算结果转移到所述特征值更新驱动电路;
所述行译码器和列译码器,用于根据所述控制器发出的地址信号选择所述eDRAM近存与存算混阵列中对应的行和列;
所述特征值更新驱动电路,用于更新所述eDRAM近存与存算混阵列中下一轮次计算的输入的特征值;
所述控制器,用于控制并选择所述eDRAM近存与存算混合阵列的工作模式、行地址和列地址。
3.根据权利要求2所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述的eDRAM近存与存算混合阵列由若干相同的4T2C基本单元排列而成,所述eDRAM近存与存算混合阵列每次并地读取若干行特征值。
4.根据权利要求3所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述4T2C基本单元,具体包括:
由4个场效应管和2个深沟槽电容组成;其中,第一场效应管M1的栅极接所述eDRAM存储阵列的字线WL_X,控制所述4T2C基本单元是否读写输入特征值;所述第一场效应管M1的源极连接所述eDRAM存储阵列的位线BL_X,用于写入输入信号的值;所述第一场效应管M1的漏极与第一电容C1相连,将写入的输入特征值以电荷的形式存储到第一电容C1上;
第二场效应管M2是写入管,其栅极连接所述eDRAM存算阵列的字线WL_W,控制权重是否写入,源极连接所述eDRAM存算阵列的位线BL_W写入权重的值,漏极与第四场效应管M4的栅极相连,通过所述第二场效应管M2与所述第四场效应管M4间的寄生电容存储权重电压V1;
第三场效应管M3是复位管,其源极连接电源VDD,栅极连接复位控制信号RST,控制对第二电容C2左端电压的复位,复位电压为电源电压;
第四场效应管M4是计算管,从所述第四场效应管M4的源极输入激活值,通过栅极的权重电压V1实现权重值与激活值的与运算,所述第四场效应管M4的漏极与所述第三场效应管M3的漏极共同连到第二电容C2左端,该处电压代表所述4T2C基本单元的计算结果值;所述第二电容C2的右端电压代表一次计算的输出值。
5.根据权利要求4所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述4T2C基本单元,包括三种工作模式:数据写入模式、计算模式和特征值更新模式;其中,
所述的数据写入模式,将输入特征值与权重分别写入所述eDRAM近存与存算混合阵列中;
所述的计算模式,所述eDRAM近存与存算阵列基于电荷方法逐位完成特征值与权重的乘累加计算,该计算完成后将结果传入ADC电路中量化得到最终8bit数字计算值并写入存算结果寄存器中;
所述的特征值更新模式,根据所述8bit数字计算值,通过特征值更新驱动电路刷新eDRAM阵列中的特征值电压。
6.根据权利要求5所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述的计算模式,包括4个阶段:复位阶段、单比特计算阶段、列求和计算阶段和ADC量化阶段;
在所述eDRAM存算阵列的列上设置第一开关S1, 在所述eDRAM存算阵列的位线BL_X上设置第二开关S2连接到VDD,在所述eDRAM近存与存算混合阵列的位线BL_X上设置第三开关S3,用于读取输入特征值;上述开关用于进行计算模式下4个阶段间的切换。
7.根据权利要求6所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述的计算模式,具体包括:
复位阶段,闭合所述第一开关S1,第二电容C2负极板电压被强行复位到GND;
单比特计算阶段,通过3-8译码器控制所述eDRAM存储阵列的字线WL_X的开断,选通一列所述eDRAM存储阵列的字线WL_X后,该列4T2C基本单元中的第一场效应管M1被开启,该4T2C基本单元中的第一电容C1存储的电压值即特征值对所述eDRAM存储阵列的位线BL_X电压进行扰动,灵敏放大器SA根据扰动方向将该电压拉高或拉低到高电平或低电平,闭合第三开关S3断开第二开关S2,稳定后的特征值电压传递到第四场效应管M4的源极进行单比特计算;所述第四场效应管M4的栅极存储权重电压值即权重值,权重值与特征值在所述第四场效应管M4上完成单比特与运算,运算结果以电荷的方式存储在第二电容C2的正极板上;
列求和运算阶段,第一开关S1断开,RST低电平导通第三场效应管M3,第二电容C2正极板电压被置VDD,该列上的电容电荷进行了电荷重分配,并在一列上得到一列4T2C基本单元的计算电压值,通过列间电容的电荷重分配实现列间按比特位赋权的加权计算电压值;
对上述过程迭代8次,每次计算结果在设置在所述ADC电路与所述eDRAM存算阵列之间的ADC采样电容上进行按位赋权;最终乘累加的通过所述ADC电路量化为数字计算结果存储到存算结果寄存器中。
8.根据权利要求7所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述的4T2C基本单元中,第一电容C1和第二电容C2为深沟槽电容。
9.根据权利要求8所述的一种基于eDRAM的高密度近存计算与存内计算混合架构,其特征在于,所述ADC电路,采用逐次逼近型ADC结构,具体包括:
CMOS采样开关、电容器、控制逻辑及转换开关电路、时钟生成模块和比较器;
所述CMOS采样开关与电容器上极板、比较器输入端连接,用于控制是否传入正负采样电压到比较器的正负两级和电容上极板;
所述比较器与电容上极板、控制逻辑及转换开关电路连接,用于根据正负输入级电压产生一次比较结果,并将比较结果传递给控制逻辑及转换开关电路;
所述控制逻辑及转换开关与电容器下极板、比较器连接,用于根据比较器的一次比较结果产生相应的控制信号,控制信号控制转换开关的转换方向是电源端VDD或参考电压Vref,转换开关的输出连接到电容器下极板从而改变下极板电压;
所述时钟生成模块与控制逻辑与转换开关电路连接,用于生成8个时钟信号clk0~clk7依次控制从右到左共八个控制逻辑及转换开关电路的时钟触发;
通过设置参考电压Vref,控制ADC的量程与分辨率;在逻辑电路中,根据比较器的比较结果选择转换开关的转换方向是参考电压Vref或电源端VDD,从而改变对应电容的下极板电压,使得比较器所连的正负电压值逐渐逼近;在逻辑电路中包含D触发器以保存模数转换后的数字结果。
10.一种基于eDRAM的高密度近存计算与存内计算混合计算方法,其特征在于,采用权利要求1至9中任一所述架构进行计算,所述计算方法包括:
步骤1,完成数据准备,具体完成利用行译码器和列译码器控制字线WL,通过位线BL将输入特征值与权重分别写入eDRAM近存与存算混合阵列中;
步骤2,完成复位,具体实施闭合第一开关S1、第二开关S2,断开第三开关S3,将第二电容C2的负极板电压复位到接地端GND,同时第四场效应管M4的源级接电源端VDD;
步骤3,完成读取特征值、单比特计算,具体实施闭合第一开关S1、第三开关S3,断开第二开关S2,位线BL_X上的特征电压值通过缓冲器传输到每个存算单元,与权重电压在第四场效应管M4上进行单比特计算,在第二电容C2的正极板侧电压存储单比特计算结果;
步骤4,完成列求和计算,具体实施断开第一开关S1、第二开关S2、第三开关S3,第二电容C2上存储的计算结果通过电荷重分配的模拟计算方式完成列内和列间的求和计算过程,乘累加后的模拟计算结果传入ADC电路;
步骤5,完成ADC量化过程并将结果写入存算结果寄存器,具体完成在ADC电路中通过逐次逼近方法实现将存内计算阵列的模拟计算结果量化为数字计算结果,并存储到结果寄存器中;
步骤6,完成特征值更新,根据存算计算结果,通过特征值更新驱动电路更新eDRAM存储阵列中的输入特征电压,等待下一层计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411567617.1A CN119152906B (zh) | 2024-11-05 | 2024-11-05 | 一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411567617.1A CN119152906B (zh) | 2024-11-05 | 2024-11-05 | 一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN119152906A true CN119152906A (zh) | 2024-12-17 |
CN119152906B CN119152906B (zh) | 2025-03-25 |
Family
ID=93803807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411567617.1A Active CN119152906B (zh) | 2024-11-05 | 2024-11-05 | 一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119152906B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9348539B1 (en) * | 2013-03-12 | 2016-05-24 | Inphi Corporation | Memory centric computing |
CN113627601A (zh) * | 2020-05-08 | 2021-11-09 | 深圳市九天睿芯科技有限公司 | 子单元、mac阵列、位宽可重构的模数混合存内计算模组 |
CN115713102A (zh) * | 2022-11-24 | 2023-02-24 | 清华大学 | 芯片及其制备方法 |
CN116543807A (zh) * | 2022-01-25 | 2023-08-04 | 上海交通大学 | 一种基于近似计算的高能效sram存内计算电路和方法 |
CN118034644A (zh) * | 2024-01-23 | 2024-05-14 | 浙江大学 | 一种基于eDRAM的高密度高可靠性存内计算电路 |
CN118364880A (zh) * | 2024-04-01 | 2024-07-19 | 北京大学 | 近存与存内混合的存算一体计算系统、方法及存算一体芯片 |
-
2024
- 2024-11-05 CN CN202411567617.1A patent/CN119152906B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9348539B1 (en) * | 2013-03-12 | 2016-05-24 | Inphi Corporation | Memory centric computing |
CN113627601A (zh) * | 2020-05-08 | 2021-11-09 | 深圳市九天睿芯科技有限公司 | 子单元、mac阵列、位宽可重构的模数混合存内计算模组 |
CN116543807A (zh) * | 2022-01-25 | 2023-08-04 | 上海交通大学 | 一种基于近似计算的高能效sram存内计算电路和方法 |
CN115713102A (zh) * | 2022-11-24 | 2023-02-24 | 清华大学 | 芯片及其制备方法 |
CN118034644A (zh) * | 2024-01-23 | 2024-05-14 | 浙江大学 | 一种基于eDRAM的高密度高可靠性存内计算电路 |
CN118364880A (zh) * | 2024-04-01 | 2024-07-19 | 北京大学 | 近存与存内混合的存算一体计算系统、方法及存算一体芯片 |
Non-Patent Citations (1)
Title |
---|
李雅琪;温晓君;: "存算一体化的发展现状与挑战", 机器人产业, no. 01, 25 January 2020 (2020-01-25), pages 30 - 33 * |
Also Published As
Publication number | Publication date |
---|---|
CN119152906B (zh) | 2025-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183739B (zh) | 基于忆阻器的低功耗脉冲卷积神经网络的硬件架构 | |
CN115048075A (zh) | 基于电容耦合的sram存算一体芯片 | |
CN107679622B (zh) | 一种面向神经网络算法的模拟感知计算架构 | |
Chiu et al. | A 22nm 8Mb STT-MRAM near-memory-computing macro with 8b-precision and 46.4-160.1 TOPS/W for edge-AI devices | |
CN113936717B (zh) | 一种复用权重的存算一体电路 | |
CN118034644B (zh) | 一种基于eDRAM的高密度高可靠性存内计算电路 | |
CN117636945B (zh) | 5bit带符号位的同或与同或累加运算电路、CIM电路 | |
Song et al. | A 28 nm 16 kb bit-scalable charge-domain transpose 6T SRAM in-memory computing macro | |
US20220374694A1 (en) | Neural network circuit and neural network system | |
CN113782072B (zh) | 一种多比特存内计算电路 | |
CN117056277A (zh) | 基于读写分离sram配置自适应扫描adc的乘累加存内计算电路 | |
CN115995256A (zh) | 一种自校准电流编程及电流计算型存内计算电路及其应用 | |
CN117238335A (zh) | 基于sram存算一体电路的混合信号读取电路 | |
CN118364881A (zh) | 一种支持多比特有符号数计算的存算一体计算系统、方法及存算一体芯片 | |
Biswas et al. | An area-efficient 6T-SRAM based compute-in-memory architecture with reconfigurable SAR ADCs for energy-efficient deep neural networks in edge ML applications | |
Tabrizchi et al. | TizBin: A low-power image sensor with event and object detection using efficient processing-in-pixel schemes | |
CN116092553A (zh) | 一种兼具乘加功能的存储器 | |
Xiao et al. | A 128 Kb DAC-less 6T SRAM computing-in-memory macro with prioritized subranging ADC for AI edge applications | |
CN115954029A (zh) | 多比特运算模块以及使用了该模块的存内计算电路结构 | |
WO2024082377A1 (zh) | 一种始终线性放电和减少数字步骤的d6t存内计算加速器 | |
CN119152906B (zh) | 一种基于eDRAM的高密度近存计算与存内计算混合架构及计算方法 | |
Wang et al. | Design challenges and methodology of high-performance SRAM-based compute-in-memory for AI edge devices | |
CN112233712A (zh) | 一种6t sram存算装置、存算系统及存算方法 | |
CN117711461A (zh) | 非易失性存储单元以及装置、计算存储单元以及装置 | |
CN114093394B (zh) | 一种可转置存内计算电路及其实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |