CN114791796A - 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法 - Google Patents

一种基于分离栅闪存晶体管的多输入计算单元及其计算方法 Download PDF

Info

Publication number
CN114791796A
CN114791796A CN202210526306.5A CN202210526306A CN114791796A CN 114791796 A CN114791796 A CN 114791796A CN 202210526306 A CN202210526306 A CN 202210526306A CN 114791796 A CN114791796 A CN 114791796A
Authority
CN
China
Prior art keywords
flash memory
memory transistor
gate flash
split
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210526306.5A
Other languages
English (en)
Inventor
蔡一茂
鲍霖
王宗巍
杨韵帆
黄如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210526306.5A priority Critical patent/CN114791796A/zh
Publication of CN114791796A publication Critical patent/CN114791796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • G06F7/53Multiplying only in parallel-parallel fashion, i.e. both operands being entered in parallel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/21Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
    • G11C11/34Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
    • G11C11/40Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/04Erasable programmable read-only memories electrically programmable using variable threshold transistors, e.g. FAMOS
    • G11C16/0483Erasable programmable read-only memories electrically programmable using variable threshold transistors, e.g. FAMOS comprising cells having several storage transistors connected in series

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Non-Volatile Memory (AREA)

Abstract

本发明公布了一种基于分离栅闪存晶体管的多输入计算单元及其计算方法,属于集成电路技术领域。本发明基于单个分离栅闪存晶体管实现存储变量与三个输入变量的多元素乘法,再基于互补器件阵列实现网络核心算法的映射。相比于利用神经元激活电路实现非线性变换的传统神经网络硬件,本发明利用器件的本征非线性实现非线性变换,有效降低了设计复杂性,优化了系统外围电路的面积和功耗。此外,本发明利用成熟存储器结构实现了复杂的矩阵‑向量运算,对高性能人工智能计算系统的设计具有重要意义。

Description

一种基于分离栅闪存晶体管的多输入计算单元及其计算方法
技术领域
本发明属于半导体(semiconductor)、人工智能(artificial intelligence)和互补型金属氧化物半导体(CMOS)混合集成电路技术领域,具体涉及一种基于分离栅闪存晶体管的多输入计算单元及其计算方法。
背景技术
随着移动终端设备的普及,在二十一世纪,人类获取信息的能力已得到极大提升。海量信息的及时存储和快速处理为电子计算系统带来了全新的挑战。现有的计算机系统主要遵循冯·诺依曼计算模式,即利用总线系统将存放在存储器的数据搬运至运算器计算,计算完成后再将返回的结果送回存储器。这种计算模式对总线带宽有极高的要求,数据传输速度往往成为计算系统的速度瓶颈,即产生了所谓的“存储墙”问题。这一问题在系统执行大量数据重复计算时尤为明显,而神经网络算法中常常存在大量矩阵向量乘法运算,因此,传统冯·诺依曼计算系统难以高效地完成神经网络计算。
基于新型器件的存算一体系统,利用器件本征方程进行乘法计算,可以实现存内计算,能够在一定程度上缓解“存储墙”问题。然而,这一类方案也存在一定的不足。从一方面看,基于两端线性器件阵列的计算单元只能实现数据的线性变换,而非线性激活功能仍需搭配外部电路或其它类型的器件完成。这不仅增加了整个系统的面积,还提升了系统的设计制造难度。从另一方面看,基于两端器件的计算单元只能实现简单的两变量相乘运算,而不能实现多变量相乘计算,限制了阵列的用途。对于某些需要矩阵与多向量相乘的计算任务,两端器件阵列将难以完成。
发明内容
为实现矩阵与多个向量相乘的计算任务,同时减少外部功能电路产生的硬件开销,本发明提出了一种基于分离栅闪存晶体管的多输入计算单元及其计算方法。
本发明通过器件本征方程完成多元素乘法操作,可以实现存储矩阵与多个向量的相乘计算,并最终实现输入到输出的非线性变换。这一方案不仅免除了层与层之间额外的非线性激活电路,降低了系统设计的复杂度,还实现了存储矩阵与多个信号向量的乘法运算,拓展了计算单元的应用场景。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于分离栅极闪存晶体管的多输入运算单元,其特征在于,包括分离栅闪存晶体管阵列,在阵列中,同一列分离栅闪存晶体管的漏电极由位线(Bit line,BL)相连接;同一行分离栅闪存晶体管的选择栅极和耦合栅极分别由字线(Word line,WL)和耦合线(Coupling Line,CL)相连接,而分离栅闪存晶体管的源电极则由源线(Source line,SL)相连接,单个分离栅闪存晶体管完成其存储信息(wFG ij)与三个输入信息(VWL j、VCL j、VBL i)之间的多元乘积计算,分离栅晶体管的写入和读取分别由耦合栅(Coupling Gate,CG)和选择栅(Select Gate,SG)完成。
一种基于分离栅闪存晶体管阵列实现矩阵-多向量乘法运算的方法,其特征在于,电流汇入源线实现电流求和运算,运算的矩阵形式如下:
ISL=WFGVBL⊙VCL⊙VWL
其中,分离栅闪存晶体管阵列的存储矩阵WFG先与输入向量VBL做内积,得到的结果再与两个输入向量VCL和VWL做元素积,最终得到源线的电流向量ISL
以树突网络为例,将ISL、WFG、VBL和VWL与网络中Ai+1、W、Ai和A0做一一映射,即可实现单层树突网络的运算。当多个阵列通过接口电路级联后,即可将整个网络映射至硬件,加速其运算,其中树突网络中的正负权重由互补分离栅闪存晶体管阵列实现,正权重阵列与负权重阵列共享输入,分别得到源线电流ISL +和ISL -,两者相减得到最终的源线电流ISL。通过互补阵列电流相减的模式,正、负权值阵列对应器件电流中的一次相、零次项成分之间将相互抵消。
本发明基于单个分离栅闪存晶体管实现存储变量与三个输入变量的多元素乘法,再基于互补器件阵列实现网络核心算法的映射。相比于利用神经元激活电路实现非线性变换的传统神经网络硬件,本发明利用器件的本征非线性实现非线性变换,有效降低了设计复杂性,优化了系统外围电路的面积和功耗。此外,本发明利用成熟存储器结构实现了复杂的矩阵-向量运算,对高性能人工智能计算系统的设计具有重要意义。
附图说明
图1为本发明具体实施例分离栅晶体管通过改变其存储信息wFG以调节跨导的示意图,其中(a)为器件存储状态(浮栅电荷量)对选择栅转移曲线的影响;(b)为器件存储状态对选择栅跨导的影响,当器件从状态0向状态7转变时,选择栅跨导逐渐降低。
图2为本发明具体实施例分离栅晶体管的改变漏极电压Vds以调节跨导的示意图,其中(a)为器件源漏电压(Vds)对选择栅转移曲线的影响;(b)为器件源漏电压对选择栅跨导的影响,当器件源漏电压从Vds0增加到Vds7时,选择栅跨导逐渐升高。
图3为本发明具体实施例分离栅晶体管的改变耦合栅极电压VCG以调节器件跨导的示意图,其中(a)为器件耦合栅电压(VCG)对选择栅转移曲线的影响;(b)为器件耦合栅电压对选择栅跨导的影响,当器件耦合栅电压从VCG0增加到VCG7时,选择栅跨导逐渐升高。
图4为本发明具体实施例的分离栅闪存晶体管阵列结构示意图;
图5为本发明具体实施例的正负权重由互补器件阵列实现矩阵向量运算示意图;
图6为本发明具体实施例的树突网络硬件示意图;
图7为本发明具体实施例的树突网络对MNIST数据集的识别精度示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下面结合附图和具体实施例,对本发明进行进一步描述。
分离栅闪存晶体管的结构示意图如图1(b)所示,当擦除栅(Erasing Gate,EG)浮置或电平为0V时,其选择栅跨导gm_SG由两个因子的乘积决定,即gm_SG=w×Vds,其中系数w表示选择栅对沟道的控制能力,Vds代表漏极与源极之间的电势差,分别控制w和Vds即可控制器件的选择栅跨导。在分离栅闪存晶体管中w由浮栅(Floating Gate,FG)电荷状态wFG和耦合栅电压VCG共同决定,即w=wFG×VCG,因此,选择栅跨导的表达式为gm_SG=wFG×VCG×Vds。本实施例中,在分别单独改变wFG、Vds以及VCG的条件下进行了电学测试,分离栅闪存晶体管的跨导变化情况分别如图1(b)、图2(b)和图3(b)所示。实验结果说明,wFG,Vds以及VCG均对选择栅跨导gm_SG具有调控能力(图中分别展示了调控wFG、Vds以及VSG所产生的8个gm_SG状态)。器件漏极电流可以由选择栅跨导与选择栅电压的乘积积表示:Id=gm_SG×VSG=wFG×VCG×Vds×VSG,根据上式可知器件的漏极电流为四个因子的乘积,其中WFG为器件存储状态,VCG、Vds和VSG均为输入信号,wFG,Vds以及VCG对选择栅转移曲线的影响分别如图1(a)、图2(a)和图3(a)所示。利用分离栅闪存晶体管的多端口优势,配合器件本征方程,可以实现四个元素的乘法操作,极大地丰富了器件的应用场景。
在分离栅闪存晶体管阵列中,同一列器件的漏电极由位线(Bit line,BL)相连接;同一行器件的选择栅极和耦合栅极分别由字线(Word line,WL)和耦合线(Coupling Line,CL)相连接,而源电极则由源线(Source line,SL)相连接。阵列结构如图4所示。
本发明实施例公开基于分离栅闪存晶体管阵列实现矩阵-多向量乘法运算的方法,主要包括输入输出映射方式、信息存储方式、以及利用器件本征方程实现计算的方法,电流汇入源线实现电流求和运算,当源线电位被钳制为0V时,每一条源线上的电流可由下列公式表示:
Figure BDA0003644625850000041
其中,存储矩阵WFG先与输入向量VBL做内积,得到的结果再与两个输入向量VCL和VWL做元素积,最终得到源线的电流向量ISL
其中,运算的矩阵形式如下:
ISL=WFGVBL⊙VCL⊙VWL
通过使用多输入计算单元阵列,可以实现存储矩阵与三个向量之间的运算,下面以一种神经网络算法(树突网络算法)为例,展示算法在阵列上的映射方式。当VCL中的各个元素相等且保持不变时(可令VCL=1),上式可以简化为:
lSL=WFCVBL⊙VWL
网络核心迭代公式如下:
Ai+1=WAi⊙A0
因此,只需将ISL、WFG、VBL和VWL与网络中Ai+1、W、Ai和A0做一一映射,即可实现单层网络的运算。当多个阵列通过接口电路级联后,即可将整个网络映射至硬件,加速其运算。当VCL也作为输入变量时,阵列可以实现存储矩阵与三个输入信号向量之间的操作,以很小的硬件代价就可实现复杂的矩阵向量运算。网络中的正负权重由互补分离栅闪存晶体管阵列实现,正权重阵列与负权重阵列共享输入,分别得到源线电流ISL +和ISL -,两者相减得到最终的源线电流ISL。通过互补阵列电流相减的模式,正、负权值阵列对应器件电流中的一次相、零次项成分之间将相互抵消,有效缓解了器件非理想效应对输出结果的影响。
本发明利用闪存晶体管的非线性,实现输入到输出的非线性变换,免除了层与层之间额外的非线性激活电路;并利用器件的多端口优势,实现了复杂的矩阵向量运算,正负权重由互补器件阵列实现,正权重阵列与负权重阵列共享输入,分别得到源线电流ISL +和ISL -,两者相减得到最终的源线电流ISL,如图5所示;树突网络硬件可以分为三层,分别为突触层、树突层以及输出层,其中树突层由分离栅闪存晶体管阵列实现,如图6所示;树突网络对MNIST数据集的识别精度随权重量化状态数目上升而上升,对于64×64规模的两层树突网络,在量化至3bit后,可以达到95.67%的识别准确率,与传统神经网络相当,如图7所示。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (4)

1.一种基于分离栅极闪存晶体管的多输入运算单元,其特征在于,包括分离栅闪存晶体管阵列,在阵列中,同一列分离栅闪存晶体管的漏电极由位线相连接;同一行分离栅闪存晶体管的选择栅极和耦合栅极分别由字线和耦合线相连接,而分离栅闪存晶体管的源电极则由源线相连接,单个分离栅闪存晶体管完成其存储信息与三个输入信息之间的多元乘积计算,分离栅晶体管的写入和读取分别由耦合栅和选择栅完成。
2.一种权利要求1所述的多输入运算单元的矩阵-多向量相乘计算方法,其特征在于,电流汇入源线实现电流求和运算,运算的矩阵形式如下:
ISL=WFGVBL⊙VCL⊙VWL
其中,分离栅闪存晶体管阵列的存储矩阵WFG先与输入向量VBL做内积,得到的结果再与两个输入向量VCL和VWL做元素积,最终得到源线的电流向量ISL
3.如权利要求2所述的矩阵-多向量相乘计算方法,其特征在于,多个分离栅闪存晶体管阵列通过接口电路级联后,将ISL、WFG、VBL和VWL与网络中Ai+1、W、Ai和A0做一一映射,即可实现单层网络的运算。
4.如权利要求3所述的矩阵-多向量相乘计算方法,其特征在于,网络中的正负权重由互补分离栅闪存晶体管阵列实现,正权重阵列与负权重阵列共享输入,分别得到源线电流ISL +和ISL -,两者相减得到最终的源线电流ISL
CN202210526306.5A 2022-05-16 2022-05-16 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法 Pending CN114791796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210526306.5A CN114791796A (zh) 2022-05-16 2022-05-16 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210526306.5A CN114791796A (zh) 2022-05-16 2022-05-16 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法

Publications (1)

Publication Number Publication Date
CN114791796A true CN114791796A (zh) 2022-07-26

Family

ID=82463685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210526306.5A Pending CN114791796A (zh) 2022-05-16 2022-05-16 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法

Country Status (1)

Country Link
CN (1) CN114791796A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024015023A3 (en) * 2022-07-15 2024-02-22 Agency For Science, Technology And Research Neural processing core for a neural network and method of operating thereof
CN117829224A (zh) * 2024-03-05 2024-04-05 南京大学 一种基于复合介质栅结构的仿生神经网络电路系统
WO2024092406A1 (zh) * 2022-10-31 2024-05-10 北京大学 互补光电晶体管像素单元、感算阵列结构及其操作方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024015023A3 (en) * 2022-07-15 2024-02-22 Agency For Science, Technology And Research Neural processing core for a neural network and method of operating thereof
WO2024092406A1 (zh) * 2022-10-31 2024-05-10 北京大学 互补光电晶体管像素单元、感算阵列结构及其操作方法
CN117829224A (zh) * 2024-03-05 2024-04-05 南京大学 一种基于复合介质栅结构的仿生神经网络电路系统
CN117829224B (zh) * 2024-03-05 2024-05-28 南京大学 一种基于复合介质栅结构的仿生神经网络电路系统

Similar Documents

Publication Publication Date Title
CN114791796A (zh) 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法
Pei et al. Towards artificial general intelligence with hybrid Tianjic chip architecture
Li et al. Long short-term memory networks in memristor crossbar arrays
EP3754561A1 (en) Reconfigurable memory compression techniques for deep neural networks
CN110807519B (zh) 基于忆阻器的神经网络的并行加速方法及处理器、装置
CN109800876B (zh) 一种基于NOR Flash模块的神经网络的数据运算方法
CN111126579B (zh) 一种适用于二值卷积神经网络计算的存内计算装置
TWI698884B (zh) 記憶體裝置及其操作方法
CN112636745B (zh) 逻辑单元、加法器以及乘法器
CN209182823U (zh) 一种数模混合存算一体芯片以及用于神经网络的运算装置
CN115904311A (zh) 用于多位存储单元中计算的模拟乘法-累加部件
CN111241028A (zh) 一种数模混合存算一体芯片以及运算装置
Solomon Analog neuromorphic computing using programmable resistor arrays
CN111193511A (zh) 一种应用于基于eFlash存算一体电路的数模混合读取电路的设计
CN112989273A (zh) 一种利用补码编码进行存内运算的方法
WO2018137177A1 (zh) 一种基于nor flash阵列的卷积运算方法
Geng et al. An on-chip layer-wise training method for RRAM based computing-in-memory chips
CN112734022B (zh) 一种具有识别和排序功能的四字符忆阻神经网络电路
CN112396176B (zh) 一种硬件神经网络批归一化系统
CN116523011B (zh) 基于忆阻的二值神经网络层电路及二值神经网络训练方法
CN115691613B (zh) 一种基于忆阻器的电荷型存内计算实现方法及其单元结构
CN117037877A (zh) 基于NOR Flash的存内计算芯片及其控制方法
Sabri et al. Redy: A novel reram-centric dynamic quantization approach for energy-efficient cnn inference
Ren et al. Batmann: A binarized-all-through memory-augmented neural network for efficient in-memory computing
Park et al. On-Chip Learning in Vertical NAND Flash Memory Using Forward–Forward Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination