CN114791796A

CN114791796A - 一种基于分离栅闪存晶体管的多输入计算单元及其计算方法

Info

Publication number: CN114791796A
Application number: CN202210526306.5A
Authority: CN
Inventors: 蔡一茂; 鲍霖; 王宗巍; 杨韵帆; 黄如
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-07-26

Abstract

本发明公布了一种基于分离栅闪存晶体管的多输入计算单元及其计算方法，属于集成电路技术领域。本发明基于单个分离栅闪存晶体管实现存储变量与三个输入变量的多元素乘法，再基于互补器件阵列实现网络核心算法的映射。相比于利用神经元激活电路实现非线性变换的传统神经网络硬件，本发明利用器件的本征非线性实现非线性变换，有效降低了设计复杂性，优化了系统外围电路的面积和功耗。此外，本发明利用成熟存储器结构实现了复杂的矩阵‑向量运算，对高性能人工智能计算系统的设计具有重要意义。

Description

一种基于分离栅闪存晶体管的多输入计算单元及其计算方法

技术领域

本发明属于半导体(semiconductor)、人工智能(artificial intelligence)和互补型金属氧化物半导体(CMOS)混合集成电路技术领域，具体涉及一种基于分离栅闪存晶体管的多输入计算单元及其计算方法。

背景技术

随着移动终端设备的普及，在二十一世纪，人类获取信息的能力已得到极大提升。海量信息的及时存储和快速处理为电子计算系统带来了全新的挑战。现有的计算机系统主要遵循冯·诺依曼计算模式，即利用总线系统将存放在存储器的数据搬运至运算器计算，计算完成后再将返回的结果送回存储器。这种计算模式对总线带宽有极高的要求，数据传输速度往往成为计算系统的速度瓶颈，即产生了所谓的“存储墙”问题。这一问题在系统执行大量数据重复计算时尤为明显，而神经网络算法中常常存在大量矩阵向量乘法运算，因此，传统冯·诺依曼计算系统难以高效地完成神经网络计算。

基于新型器件的存算一体系统，利用器件本征方程进行乘法计算，可以实现存内计算，能够在一定程度上缓解“存储墙”问题。然而，这一类方案也存在一定的不足。从一方面看，基于两端线性器件阵列的计算单元只能实现数据的线性变换，而非线性激活功能仍需搭配外部电路或其它类型的器件完成。这不仅增加了整个系统的面积，还提升了系统的设计制造难度。从另一方面看，基于两端器件的计算单元只能实现简单的两变量相乘运算，而不能实现多变量相乘计算，限制了阵列的用途。对于某些需要矩阵与多向量相乘的计算任务，两端器件阵列将难以完成。

发明内容

为实现矩阵与多个向量相乘的计算任务，同时减少外部功能电路产生的硬件开销，本发明提出了一种基于分离栅闪存晶体管的多输入计算单元及其计算方法。

本发明通过器件本征方程完成多元素乘法操作，可以实现存储矩阵与多个向量的相乘计算，并最终实现输入到输出的非线性变换。这一方案不仅免除了层与层之间额外的非线性激活电路，降低了系统设计的复杂度，还实现了存储矩阵与多个信号向量的乘法运算，拓展了计算单元的应用场景。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于分离栅极闪存晶体管的多输入运算单元，其特征在于，包括分离栅闪存晶体管阵列，在阵列中，同一列分离栅闪存晶体管的漏电极由位线(Bit line,BL)相连接；同一行分离栅闪存晶体管的选择栅极和耦合栅极分别由字线(Word line,WL)和耦合线(Coupling Line,CL)相连接，而分离栅闪存晶体管的源电极则由源线(Source line,SL)相连接，单个分离栅闪存晶体管完成其存储信息(w_FG ^ij)与三个输入信息(V_WL ^j、V_CL ^j、V_BL ⁱ)之间的多元乘积计算，分离栅晶体管的写入和读取分别由耦合栅(Coupling Gate,CG)和选择栅(Select Gate,SG)完成。

一种基于分离栅闪存晶体管阵列实现矩阵-多向量乘法运算的方法，其特征在于，电流汇入源线实现电流求和运算，运算的矩阵形式如下：

I_SL＝W_FGV_BL⊙V_CL⊙V_WL

其中，分离栅闪存晶体管阵列的存储矩阵W_FG先与输入向量V_BL做内积，得到的结果再与两个输入向量V_CL和V_WL做元素积，最终得到源线的电流向量I_SL。

以树突网络为例，将I_SL、W_FG、V_BL和V_WL与网络中A_i+1、W、A_i和A₀做一一映射，即可实现单层树突网络的运算。当多个阵列通过接口电路级联后，即可将整个网络映射至硬件，加速其运算，其中树突网络中的正负权重由互补分离栅闪存晶体管阵列实现，正权重阵列与负权重阵列共享输入，分别得到源线电流I_SL ⁺和I_SL ^-，两者相减得到最终的源线电流I_SL。通过互补阵列电流相减的模式，正、负权值阵列对应器件电流中的一次相、零次项成分之间将相互抵消。

本发明基于单个分离栅闪存晶体管实现存储变量与三个输入变量的多元素乘法，再基于互补器件阵列实现网络核心算法的映射。相比于利用神经元激活电路实现非线性变换的传统神经网络硬件，本发明利用器件的本征非线性实现非线性变换，有效降低了设计复杂性，优化了系统外围电路的面积和功耗。此外，本发明利用成熟存储器结构实现了复杂的矩阵-向量运算，对高性能人工智能计算系统的设计具有重要意义。

附图说明

图1为本发明具体实施例分离栅晶体管通过改变其存储信息w_FG以调节跨导的示意图，其中(a)为器件存储状态(浮栅电荷量)对选择栅转移曲线的影响；(b)为器件存储状态对选择栅跨导的影响，当器件从状态0向状态7转变时，选择栅跨导逐渐降低。

图2为本发明具体实施例分离栅晶体管的改变漏极电压V_ds以调节跨导的示意图，其中(a)为器件源漏电压(V_ds)对选择栅转移曲线的影响；(b)为器件源漏电压对选择栅跨导的影响，当器件源漏电压从V_ds0增加到V_ds7时，选择栅跨导逐渐升高。

图3为本发明具体实施例分离栅晶体管的改变耦合栅极电压V_CG以调节器件跨导的示意图，其中(a)为器件耦合栅电压(V_CG)对选择栅转移曲线的影响；(b)为器件耦合栅电压对选择栅跨导的影响，当器件耦合栅电压从V_CG0增加到V_CG7时，选择栅跨导逐渐升高。

图4为本发明具体实施例的分离栅闪存晶体管阵列结构示意图；

图5为本发明具体实施例的正负权重由互补器件阵列实现矩阵向量运算示意图；

图6为本发明具体实施例的树突网络硬件示意图；

图7为本发明具体实施例的树突网络对MNIST数据集的识别精度示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下面结合附图和具体实施例，对本发明进行进一步描述。

分离栅闪存晶体管的结构示意图如图1(b)所示，当擦除栅(Erasing Gate,EG)浮置或电平为0V时，其选择栅跨导g_{m_SG}由两个因子的乘积决定，即g_{m_SG}＝w×V_ds，其中系数w表示选择栅对沟道的控制能力，V_ds代表漏极与源极之间的电势差，分别控制w和V_ds即可控制器件的选择栅跨导。在分离栅闪存晶体管中w由浮栅(Floating Gate,FG)电荷状态w_FG和耦合栅电压V_CG共同决定，即w＝w_FG×V_CG，因此，选择栅跨导的表达式为g_{m_SG}＝w_FG×V_CG×V_ds。本实施例中，在分别单独改变w_FG、V_ds以及V_CG的条件下进行了电学测试，分离栅闪存晶体管的跨导变化情况分别如图1(b)、图2(b)和图3(b)所示。实验结果说明，w_FG，V_ds以及V_CG均对选择栅跨导g_{m_SG}具有调控能力(图中分别展示了调控w_FG、V_ds以及V_SG所产生的8个g_{m_SG}状态)。器件漏极电流可以由选择栅跨导与选择栅电压的乘积积表示：I_d＝g_{m_SG}×V_SG＝w_FG×V_CG×V_ds×V_SG，根据上式可知器件的漏极电流为四个因子的乘积，其中W_FG为器件存储状态，V_CG、V_ds和V_SG均为输入信号,w_FG，V_ds以及V_CG对选择栅转移曲线的影响分别如图1(a)、图2(a)和图3(a)所示。利用分离栅闪存晶体管的多端口优势，配合器件本征方程，可以实现四个元素的乘法操作，极大地丰富了器件的应用场景。

在分离栅闪存晶体管阵列中，同一列器件的漏电极由位线(Bit line,BL)相连接；同一行器件的选择栅极和耦合栅极分别由字线(Word line,WL)和耦合线(Coupling Line,CL)相连接，而源电极则由源线(Source line,SL)相连接。阵列结构如图4所示。

本发明实施例公开基于分离栅闪存晶体管阵列实现矩阵-多向量乘法运算的方法，主要包括输入输出映射方式、信息存储方式、以及利用器件本征方程实现计算的方法，电流汇入源线实现电流求和运算，当源线电位被钳制为0V时，每一条源线上的电流可由下列公式表示：

其中，存储矩阵W_FG先与输入向量V_BL做内积，得到的结果再与两个输入向量V_CL和V_WL做元素积，最终得到源线的电流向量I_SL。

其中，运算的矩阵形式如下：

I_SL＝W_FGV_BL⊙V_CL⊙V_WL

通过使用多输入计算单元阵列，可以实现存储矩阵与三个向量之间的运算，下面以一种神经网络算法(树突网络算法)为例，展示算法在阵列上的映射方式。当V_CL中的各个元素相等且保持不变时(可令V_CL＝1)，上式可以简化为：

l_SL＝W_FCV_BL⊙V_WL

网络核心迭代公式如下：

A_i+1＝WA_i⊙A₀

因此，只需将I_SL、W_FG、V_BL和V_WL与网络中A_i+1、W、A_i和A₀做一一映射，即可实现单层网络的运算。当多个阵列通过接口电路级联后，即可将整个网络映射至硬件，加速其运算。当V_CL也作为输入变量时，阵列可以实现存储矩阵与三个输入信号向量之间的操作，以很小的硬件代价就可实现复杂的矩阵向量运算。网络中的正负权重由互补分离栅闪存晶体管阵列实现，正权重阵列与负权重阵列共享输入，分别得到源线电流I_SL ⁺和I_SL ^-，两者相减得到最终的源线电流I_SL。通过互补阵列电流相减的模式，正、负权值阵列对应器件电流中的一次相、零次项成分之间将相互抵消，有效缓解了器件非理想效应对输出结果的影响。

本发明利用闪存晶体管的非线性，实现输入到输出的非线性变换，免除了层与层之间额外的非线性激活电路；并利用器件的多端口优势，实现了复杂的矩阵向量运算，正负权重由互补器件阵列实现，正权重阵列与负权重阵列共享输入，分别得到源线电流I_SL ⁺和I_SL ^-，两者相减得到最终的源线电流I_SL，如图5所示；树突网络硬件可以分为三层，分别为突触层、树突层以及输出层，其中树突层由分离栅闪存晶体管阵列实现，如图6所示；树突网络对MNIST数据集的识别精度随权重量化状态数目上升而上升，对于64×64规模的两层树突网络，在量化至3bit后，可以达到95.67％的识别准确率，与传统神经网络相当，如图7所示。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于分离栅极闪存晶体管的多输入运算单元，其特征在于，包括分离栅闪存晶体管阵列，在阵列中，同一列分离栅闪存晶体管的漏电极由位线相连接；同一行分离栅闪存晶体管的选择栅极和耦合栅极分别由字线和耦合线相连接，而分离栅闪存晶体管的源电极则由源线相连接，单个分离栅闪存晶体管完成其存储信息与三个输入信息之间的多元乘积计算，分离栅晶体管的写入和读取分别由耦合栅和选择栅完成。

2.一种权利要求1所述的多输入运算单元的矩阵-多向量相乘计算方法，其特征在于，电流汇入源线实现电流求和运算，运算的矩阵形式如下：

I_SL＝W_FGV_BL⊙V_CL⊙V_WL

3.如权利要求2所述的矩阵-多向量相乘计算方法，其特征在于，多个分离栅闪存晶体管阵列通过接口电路级联后，将I_SL、W_FG、V_BL和V_WL与网络中A_i+1、W、A_i和A₀做一一映射，即可实现单层网络的运算。

4.如权利要求3所述的矩阵-多向量相乘计算方法，其特征在于，网络中的正负权重由互补分离栅闪存晶体管阵列实现，正权重阵列与负权重阵列共享输入，分别得到源线电流I_SL ⁺和I_SL ^-，两者相减得到最终的源线电流I_SL。