CN114153421A - 存储器装置及其操作方法 - Google Patents

存储器装置及其操作方法 Download PDF

Info

Publication number
CN114153421A
CN114153421A CN202110829792.3A CN202110829792A CN114153421A CN 114153421 A CN114153421 A CN 114153421A CN 202110829792 A CN202110829792 A CN 202110829792A CN 114153421 A CN114153421 A CN 114153421A
Authority
CN
China
Prior art keywords
accumulation
circuit
digital
multiplication
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110829792.3A
Other languages
English (en)
Inventor
胡瀚文
李永骏
林柏榕
王淮慕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Macronix International Co Ltd
Original Assignee
Macronix International Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Macronix International Co Ltd filed Critical Macronix International Co Ltd
Publication of CN114153421A publication Critical patent/CN114153421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
    • G06F7/487Multiplying; Dividing
    • G06F7/4876Multiplying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • G06F7/501Half or full adders, i.e. basic adder cells for one denomination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/60Methods or arrangements for performing computations using a digital non-denominational number representation, i.e. number representation without radix; Computing devices using combinations of denominational and non-denominational quantity representations, e.g. using difunction pulse trains, STEELE computers, phase computers
    • G06F7/607Methods or arrangements for performing computations using a digital non-denominational number representation, i.e. number representation without radix; Computing devices using combinations of denominational and non-denominational quantity representations, e.g. using difunction pulse trains, STEELE computers, phase computers number-of-ones counters, i.e. devices for counting the number of input lines set to ONE among a plurality of input lines, also called bit counters or parallel counters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06JHYBRID COMPUTING ARRANGEMENTS
    • G06J1/00Hybrid computing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/10Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
    • G11C7/1006Data managing, e.g. manipulating data before writing or reading out, data bus switches or control circuits therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/38Indexing scheme relating to groups G06F7/38 - G06F7/575
    • G06F2207/48Indexing scheme relating to groups G06F7/48 - G06F7/575
    • G06F2207/4802Special implementations
    • G06F2207/4818Threshold devices
    • G06F2207/4824Neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Nonlinear Science (AREA)
  • Neurology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Computer Hardware Design (AREA)
  • Read Only Memory (AREA)
  • Complex Calculations (AREA)

Abstract

本公开提供了一种存储器装置与其操作方法。存储器装置包括:一存储器阵列,包括多个存储器单元,可用于储存多个权重值在该存储器阵列的这些存储器单元内;一乘法电路,对多个输入数据与这些权重值进行乘法,以得到多个乘法结果,其中在进行乘法时,这些存储器单元产生多个存储器单元电流;一数字式累加电路,对这些乘法结果进行一数字式累加;一模拟式累加电路,对这些存储器单元电流进行一模拟式累加以产生一第一乘积累加运算(MAC)操作结果;以及一决定单元,决定进行该模拟式累加、该数字式累加或一混合式累加,其中,在进行该混合式累加时,根据该第一乘积累加运算操作结果决定是否触发该数字式累加电路。

Description

存储器装置及其操作方法
技术领域
本公开有关于一种具有存储器内运算(In-Memory-Computing(IMC))的存储器装置及其操作方法。
背景技术
人工智能(AI)已在许多领域中成为高度有效解决方发明。AT的关键操作在于对大量的输入数据(如输入特征图(input feature maps))与权重值进行乘积累加运算(multiply-and-accumulation(MAC))。
然而,以目前的AI架构而言,容易遇到输出入瓶颈(IO bottleneck)与低效率的MAC运算流程(inefficient MAC operation flow)。
为达到高准确度,可执行具有多位输入及多位权重值的MAC操作。然而,输出入瓶颈变得更加严重,且效率将更低。
存储器内运算(In-Memory-Computing(IMC))可用于加速MAC运算,因为IMC可减少在中央处理架构下所需要用的复杂算术逻辑单元(Arithmetic logic unit,ALU),且提供存储器内的MAC操作的高并行性(parallelism)。
以非易失性存储器式IMC(NVM-based IMC)而言,其优点例如是,非易失性储存,数据搬移减少等。
在进行IMC时,如果能有同时兼顾“操作速度”与“操作准确性”的话,对于IMC性能将可有所助益。
公开内容
根据本发明一实例,提出一种存储器装置,包括:一存储器阵列,包括多个存储器单元,可用于储存多个权重值在该存储器阵列的这些存储器单元内;一乘法电路,耦接至该存储器阵列,该乘法电路对多个输入数据与这些权重值进行乘法,以得到多个乘法结果,其中在进行乘法时,这些存储器单元产生多个存储器单元电流;一数字式累加电路,耦接至该乘法电路,对这些乘法结果进行一数字式累加;一模拟式累加电路,耦接至该存储器阵列,对这些存储器单元电流进行一模拟式累加以产生一第一乘积累加运算(MAC)操作结果;以及一决定单元,耦接至该数字式累加电路与该模拟式累加电路,决定进行该模拟式累加、该数字式累加或一混合式累加,其中,在进行该混合式累加时,根据该第一乘积累加运算操作结果决定是否触发该数字式累加电路。
根据本发明另一实例,提出一种存储器装置的操作方法,包括:储存多个权重值在该存储器装置的一存储器阵列的多个存储器单元内;对多个输入数据与这些权重值进行位乘法,以得到多个乘法结果,其中在进行乘法时,这些存储器单元产生多个存储器单元电流;以及决定进行一模拟式累加、一数字式累加或一混合式累加,其中,在进行该模拟式累加时,对这些存储器单元电流进行该模拟式累加以产生一第一乘积累加运算(MAC)操作结果;在进行该数字式累加时,对这些乘法结果进行该数字式累加产生一第二乘积累加运算操作结果;以及在进行该混合式累加时,根据该第一乘积累加运算操作结果决定是否触发该数字式累加。
为了对本发明的上述及其他方面有更佳的了解,下文特举实施例,并配合附图详细说明如下:
附图说明
图1为根据本发明一实施例的具有存储器内运算功能的存储器装置的功能框图。
图2为根据本发明一实施例的数据映射(data mapping)示意图。
图3A至图3C为根据本发明一实施例的数据映射的数个例。
图4为本发明实施例的乘法运算的两种示范例示意图。
图5A与图5B为根据本发明一实施例的分群操作(多数决操作)与计数示意图。
图6为比较本发明一实施例的数种MAC运算流程。
图7A为本发明实施例中的编程固定存储器页面(memory page)的流程图,图7B为本发明实施例中的调整读取电压的流程图。
图8为根据本发明一实施例的MAC操作流程。
附图标记说明
100:存储器装置
110:存储器阵列
120:乘法电路
130:输出入电路
140:分群电路
150:计数单元
111:存储器单元
121:单位乘法单元
121A:输入锁存器
121B:感应放大器
121C:输出锁存器
121D:共同数据锁存器
141:分群单元
135:数字式累加电路
160:模拟式累加电路
170:决定单元
161:模数转换单元
163:比较器
301A、303A、301B、303B、311A、313A、311B、313B:位
302、312、314:权重值
405:锁存器
410:位线开关
710-750:步骤810-860:步骤
具体实施方式
本说明书的技术用语参照本技术领域的习惯用语,如本说明书对部分用语有加以说明或定义,该部分用语的解释以本说明书的说明或定义为准。本公开的各个实施例分别具有一或多个技术特征。在可能实施的前提下,本技术领域的技术人员可选择性地实施任一实施例中部分或全部的技术特征,或者选择性地将这些实施例中部分或全部的技术特征加以组合。
请参照图1,其为根据本发明一实施例的具有存储器内运算(In-Memory-Computing(IMC))功能的存储器装置100的功能框图。具有存储器内运算功能的存储器装置100包括:存储器阵列110、乘法电路120、输出入电路130、数字式累加电路135、模拟式累加电路160、决定单元170与比较器163。数字式累加电路135包括分群电路140与计数单元150。模拟式累加电路160包括模数转换单元161。其中,存储器阵列110、乘法电路120与模拟式累加电路160、模数转换单元161是模拟的,而数字式累加电路135、分群电路140与计数单元150是数字的。
存储器阵列110包括多个存储器单元111。在本发明一实施例中,存储器单元111例如但不受限于,为非易失性存储器单元。当进行MAC操作时,存储器单元111可用于储存权重值(weight)。
乘法电路120耦接至存储器阵列110。乘法电路120包括多个单位乘法单元121。各单位乘法单元121包括:输入锁存器121A、感应放大器(SA)121B、输出锁存器121C与共同数据锁存器(common data latch(CDL))121D。输入锁存器121A耦接至存储器阵列110。感应放大器121B耦接至输入锁存器121A。输出锁存器121C耦接至感应放大器121B。共同数据锁存器121D耦接至输出锁存器121C。
输出入电路130耦接至乘法电路120、分群电路140与计数单元150,用以接收输入数据,并将存储器装置100所得到的输出数据输出。
数字式累加电路135用以进行数字式累加,其细节将于底下说明。
模拟式累加电路160用以进行模拟式累加,其细节将于底下说明。
决定单元170决定存储器装置100进行模拟式累加、数字式累加或混合式累加。决定单元170可分别输出使能信号EN1与EN2至模拟式累加电路160与数字式累加电路135,以决定是否启动模拟式累加电路160或数字式累加电路135。
“模拟式累加”代表启动模拟式累加电路160但不启动数字式累加电路135。“数字式累加”代表启动数字式累加电路135但不启动模拟式累加电路160。“混合式累加”代表启动数字式累加电路135与模拟式累加电路160。
模数转换单元161耦接至存储器阵列110的这些存储器单元111。这些存储器单元111的这些单元电流可累加后输入至模数转换单元161,以转换成第一MAC操作结果OUT1。
比较器163耦接至模数转换单元161,用以比较第一MAC操作结果OUT1与一触发参考值。在选择“混合式累加”时,当第一MAC操作结果OUT1低于该触发参考值,该比较器163不输出一触发信号TS至数字式累加电路135(亦即,该数字式累加电路135不会被触发);以及,当第一MAC操作结果OUT1高于该触发参考值,该比较器163输出该触发信号TS至数字式累加电路135,以触发该数字式累加电路135进行数字式累加。当选择“模拟式累加”时,该比较器163所输出的触发信号TS会被数字式累加电路135所忽略。
在本发明一实施例中,“模拟式累加”可用于快速滤掉无用数据,以增快MAC的操作速度。而“数字式累加”则可累积未被滤掉的数据,以增加MAC的准确度。而“混合式累加”则由于使用低分辨率量化操作,可以减少变动影响(variation influence),此外,也可以避免累积无用数据,且可以维持分辨率。亦即,“混合式累加”兼顾“模拟式累加”与“混合式累加”的优点,而减少其缺点。
分群电路140耦接至乘法电路120。分群电路140包括多个分群单元141。这些分群单元141对于这些单位乘法单元121的多个乘法结果进行分群操作,以得到多个分群结果。在本发明一可能实施例中,分群操作例如可由多数决技术(majority technique)所实施,例如多数决功能技术(majority function technique),分群电路140由根据多数决功能技术的多数决群体电路(majority grouping circuit)所实施,分群单元141由分散式多数决群体单元(majority grouping unit)所实施,但本发明并不受限于此。分群技术可由其他相似技术来实施。在本发明一实施例中,分群电路140可选择性地设置。
计数单元150耦接至分群电路140或乘法电路120。在本发明一实施例中,计数单元150用以对乘法电路120的乘法结果进行位计数(bitwisecounting)或位累积(bitwiseaccumulation),以产生第二MAC操作结果OUT2(当存储器装置100不包括分群电路140时)。或者是,计数单元150用以对分群电路140的分群结果(例如,多数决结果)进行位计数或位累积,以产生第二MAC操作结果OUT2(当存储器装置100包括分群电路140时)。在本发明一实施例中,计数单元150可以用已知的计数电路,例如但不限于,波纹计数器(ripplecounter)来实现。在本发明说明中,计数与累积基本上具有相同意思,而计数器与累积器基本上具有相同意思。
细言之,当决定单元170决定存储器装置100进行模拟式累加时,以第一MAC操作结果OUT1为MAC操作结果。当决定单元170决定存储器装置100进行数字式累加时,以第二MAC操作结果OUT2为MAC操作结果。当决定单元170决定存储器装置100进行混合式累加时,在数字式累加电路135未被触发信号TS触发前,以第一MAC操作结果OUT1为MAC操作结果;以及,在数字式累加电路135被触发信号TS触发后,以第二MAC操作结果OUT2为MAC操作结果。
现请参照图2,其显示根据本发明一实施例的数据映射(data mapping)示意图。如图2所示,以各输入数据(或各权重值)具有N个维度(N是正整数)的8位为例(但当知本发明并不受限于此)。
下文以输入数据的数据映射为例做说明,但当知本发明并不受限于此。下文的说明同样适用于权重值的数据映射。
当将输入数据以二进制8位表示时,输入数据(或权重值)分为最高有效位(mostsignificant bit,MSB)矢量(vector)与最低有效位(least significant bit,LSB)矢量。8位输入数据(或权重值)的最高有效位矢量包括4位B7~B4,而最低有效位矢量包括4位B3~B0。
将输入数据的MSB矢量与LSB矢量的各位以一元编码(Unary coding)(亦即数值形式(value format))表示。例如,输入数据的最高有效位矢量的位B7可以表示为B70~B77,输入数据的最高有效位矢量的位B6可以表示为B60~B63,输入数据的最高有效位矢量的位B5可以表示为B50~B51,输入数据的最高有效位矢量的位B4一样表示为B4。
将以一元编码(数值形式)表示的输入数据的MSB矢量的各位与输入数据的LSB矢量的各位重复多次以成为乘积展开(unfolding dot product,unFDP)形式。例如,输入数据的MSB的各位被重复(24-1)次,同样地,输入数据的LSB的各位被重复(24-1)次。如此可以将输入数据以乘积展开式表示。
对输入数据(乘积展开式)与权重值进行乘法操作,以得到乘法操作结果。
为方便了解,底下以一例做说明,但当知其并非用于限制本发明。
现请参照图3A,其显示根据本发明一实施例的一维数据映射的一例。如图3A所示,输入数据=(IN1,IN2)=(2,1),与权重值=(We1,We2)=(1,2)。将输入数据的MSB与LSB以二进制形式表示,所以,IN1=10,而IN2=01,相似地,将权重值的MSB与LSB的各位以二进制形式表示,所以,We1=01,而We2=10。
将输入数据的MSB与LSB,以及,权重值的MSB与LSB,编码为以一元编码(数值形式)表示。亦即,将输入数据的MSB编码为110,将输入数据的LSB编码为001,相似地,将权重值的MSB编码为001,将权重值的LSB编码为110。
之后,将以编码为一元编码的输入数据的MSB(110)的各位与编码为一元编码的输入数据的LSB(001)的各位重复多次以成为乘积展开(unfolding dot product,unFDP)形式。例如,输入数据的MSB(110)的各位被重复3次,所以得到输入数据的MSB的乘积展开式为111111000。输入数据的LSB(001)的各位被重复3次,所以得到输入数据的LSB的乘积展开式为000000111。
对输入数据(乘积展开式)与权重值进行MAC操作,以得到MAC操作结果。MAC操作结果为:1*0=0、1*0=0、1*1=1、1*0=0、1*0=0、1*1=1、0*0=0、0*0=0、0*1=0、0*1=0、0*1=0、0*0=0、0*1=0、0*1=0、0*0=0、1*1=1、1*1=1、1*0=0。将这些数值相加,则可以得到:0+0+1+0+0+1+0+0+0+0+0+0+0+0+0+1+1+0=4。
由上述可知,如果输入数据是i位而权重值是j位(i与j皆为正整数),则所用的存储器单元数量为:(2i-1)*(2j-1)。
现请参照图3B,其显示根据本发明一实施例的数据映射的另一可能例。在图3B中,输入数据是(IN1)=(2),而权重值是(We1)=(1)。输入数据与权重值是4位。
输入数据表示为二进制格式时,IN1=0010。相似地,权重值表示为二进制格式时,We1=0001。
将输入数据与权重值编码成一元编码(数值形式)。例如,输入数据的最高位“0”编码成“00000000”,而输入数据的最低位“0”编码成“0”,以此类推。相似地,权重值的最高位“0”编码成“00000000”,而权重值的最低位“1”编码成“1”。
编码成一元编码的输入数据的各位被复制多次以成为乘积展开式。例如,编码成一元编码的输入数据的最高位301A被复制15次以成为位303A;以及,编码成一元编码的输入数据的最低位301B被复制15次以成为位303B。
编码成一元编码的权重值302也被复制15次,以表示为乘积展开式。
对表示为乘积展开式的输入数据与表示为乘积展开式的权重值进行乘法操作以产生MAC操作结果。详细而言,输入数据的位303A乘上权重值302;输入数据的位303B乘上权重值302,以此类推。将乘法值加总可以产生MAC操作结果(“2”)。
现请参照图3C,其显示根据本发明一实施例的数据映射的另一可能例。在图3C中,输入数据是(IN1)=(1),而权重值是(We1)=(5)。输入数据与权重值是4位。
输入数据表示为二进制格式时,IN1=0001。相似地,权重值表示为二进制格式时,We1=0101。
将输入数据与权重值编码成一元编码(数值形式)。
编码成一元编码的输入数据的各位被复制多次以成为乘积展开式。在图3C中,当复制输入数据的各位与权重值的各位时,加入位“0”。例如,编码成一元编码的输入数据的最高位311A被复制15次并加入位“0”以成为位313A;以及,编码成一元编码的输入数据的最低位311B被复制15次并加入位“0”以成为位313B。藉此将输入数据表示为乘积展开式。
相似地,编码成一元编码的权重值312也被复制15次,并额外加入位“0”至各权重值314。藉此将权重值表示为乘积展开式。
对表示为乘积展开式的输入数据与表示为乘积展开式的权重值进行乘法操作以产生MAC操作结果。详细而言,输入数据的位313A乘上权重值314;输入数据的位313B乘上权重值314,以此类推。将乘法值加总可以产生MAC操作结果(“5”)。
在习知技术中,对8位输入数据与8位权重值进行MAC操作,如果采用直接MAC运算法,则所用的存储器单元数量为255*255*512=33,292,822。
相反地,如上述般,在本发明实施例中,对8位输入数据与8位权重值进行MAC操作,则所用的存储器单元数量为15*15*512*2=115,200*2=230,400。故而,本发明实施例在进行MAC操作中所用的存储器单元数量约为习知技术的0.7%。
在本发明实施例中,利用unFDP式的数据映射,可以减少运算时所用的存储器单元数量,故而可以减少运算成本,且减少纠错码(ECC,error correction code)成本。另外,也可以容忍错误位效应(fail-bit effect)。
请再参考图1。在本发明实施例中,在进行乘法运算时,权重值(转导值)乃是储存于存储器阵列110的这些存储器单元111内,而输入数据(电压)则是由输出入电路130读取并传送给共同数据锁存器121D。共同数据锁存器121D传送输入数据给输入锁存器121A。
为更了解本发明实施例的乘法运算,现请参考图4,其显示本发明实施例的乘法运算的示范例示意图。图4应用于存储器装置支援受选位线读取(the selected bit-lineread function)。图4中,输入锁存器121A包括锁存器(第一锁存器)405与位线开关410。
如图4所示,将权重值以一元编码(数值形式)表示(如图2)。故而,权重值的最高位存在8个存储器单元111内,权重值的次高位存在4个存储器单元111内,权重值的第三高位存在2个存储器单元111内,权重值的最低位存在1个存储器单元111内。
同样地,将输入数据以一元编码(数值形式)表示(如图2),故而,输入数据的最高位存在8个共同数据锁存器121D内,输入数据的次高位存在4个共同数据锁存器121D内,输入数据的第三高位存在2个共同数据锁存器121D内,输入数据的最低位存在1个共同数据锁存器121D内。输入数据从共同数据锁存器121D送至锁存器405。
在图4中,这些多个位线开关410耦接于存储器单元111与感应放大器121B之间。位线开关410受控于锁存器405。例如,当锁存器405输出位1时,位线开关410为导通,而当锁存器405输出位0时,位线开关410为关闭。
此外,当存储器单元111内的权重值为位1且位线开关410为导通(输入数据为位1)时,感应放大器121B将感应到存储器单元电流以产生乘法结果“1”。当存储器单元111内的权重值为位0且位线开关410为导通(输入数据为位1)时,感应放大器121B感应不到存储器单元电流。当存储器单元111内的权重值为位1且位线开关410为关闭(输入数据为位0)时,感应放大器121B感应不到存储器单元电流以产生乘法结果“0”。当存储器单元111内的权重值为位0且位线开关410为关闭(输入数据为位0)时,感应放大器121B感应不到存储器单元电流。
亦即,经由图4的布局方式,当输入数据为位1且权重值为位1时,感应放大器121B感应到存储器单元电流以产生乘法结果“1”。至于其他情况,感应放大器121B感应不到存储器单元电流,以产生乘法结果“0”。
由这些存储器单元111所产生的存储器单元电流IMC会共同输入至模数转换单元161。
至于输入数据、权重值、数式乘法结果与模拟存储器单元电流IMC之间的关系如下表所示:
输入数据 权重值 数式乘法结果 IMC
0 0(HVT) 0 0
0 +1(LVT) 0 0
1 0(HVT) 0 IHVT
1 +1(LVT) 1 ILVT
在上表中,HVT与LVT分别代表高临界值存储器单元与低临界值存储器单元。而IHVT与ILVT则分别代表当输入数据为逻辑1时,高临界值存储器单元与低临界值存储器单元(权重值分别为0(HTV)与+1(LTV))所产生的模拟存储器单元电流IMC。
在本发明实施例中,在进行乘法运算时,可以重复使用受选位线读取(selectedbit line read,SBL-read)指令。故而,本发明实施例可以减少以单位表示(single-bitrepresentation)所来的变动影响(variation influence)。
现请参考图5A,其显示根据本发明一实施例的分群操作(多数决操作)与位计数(bitwise counting)示意图。如图5A所示,参考符号GM1代表对输入数据的第一MSB矢量与权重值进行位乘法(bitwise multiplication)后所得到的第一乘法运算结果;参考符号GM2代表对输入数据的第二MSB矢量与权重值进行位乘法后所得到的第二乘法运算结果;参考符号GM3代表对输入数据的第三MSB矢量与权重值进行位乘法后所得到的第三乘法运算结果;参考符号GL代表对输入数据的LSB与权重值进行位乘法后所得到的第四乘法运算结果。在分群操作(多数决操作)后,对第一乘法运算结果GM1进行分群结果是第一分群结果CB1(其累积权重是22);对第二乘法运算结果GM2进行分群结果是第二分群结果CB2(其累积权重是22);对第三乘法运算结果GM3进行分群结果是第三分群结果CB3(其累积权重是22);以及,对第四乘法运算结果GL进行分群结果是第四分群结果CB4(其累积权重是20)。
图5B显示图3C的累积例。请参照图3C与图5B。如图5B所示,输入数据(图3C)的位313B乘上权重值314。从输入数据(图3C)的位313B乘上权重值314所产生的乘法结果的前四个位(“0000”)被分群为第一乘法结果“GM1”。相似地,从输入数据(图3C)的位3-13B乘上权重值314所产生的乘法结果的第五至第八位(“0000”)被分群为第二乘法结果“GM2”。从输入数据(图3C)的位313B乘上权重值314所产生的乘法结果的第九至第十二位(“1111”)被分群为第三乘法结果“GM3”。从输入数据(图3C)的位313B乘上权重值314所产生的乘法结果的第十三至第十六位(“0010”)则被直接计数。
在分群操作(多数决操作)后,第一分群结果CB1是“0”(其累积权重是22);第二分群结果CB2是“0”(其累积权重是22);第三分群结果CB3是“1”(其累积权重是22)。在计数时,将这些分群结果CB1~CB4乘上个别累积权重并加以累积而产生MAC操作结果。例如,如图5B所示,MAC操作结果(第二MAC操作结果OUT2)是CB1*22+CB2*22+CB3*22+CB4*20=0*22+0*22+1*22+1*20=00000000000000000000000000000101=5。
在本发明一实施例中,分群原则(多数决原则)可如下所示:
群组位 分群结果(多数决结果)
1111(状况A) 1
1110(状况B) 1
1100(状况C) 1或0
1000(状况D) 0
0000(状况E) 0
在上表中,以状况A而言,由于群组皆为正确的(“1111”没有错误位),故而,其多数决结果为1。以状况E而言,由于群组皆为正确的(“0000”没有错误位),故而,其多数决结果为0。
以状况B而言,由于群组中有1个位是错误(“1110”中的“0”是错误的),通过多数决,可以将“1110”决定为“1”。以状况D而言,由于群组中有1个位是错误(“0001”中的“1”是错误的),通过多数决,可以将“0001”决定为“0”。
以状况C而言,群组中有2个位是错误的(“1100”中的“00”是错误的,或者,“1100”中的“11”是错误的),通过多数决,可以将“1100”决定为“1”或“0”。
故而,在本发明实施例中,通过分群(多数决)功能,可以减少错误位。
分群电路140的分群结果输入至计数单元150进行位计数。
在进行计数时,将MSB矢量的乘法运算结果的计数结果与LSB矢量的乘法运算结果的计数结果进行累积。以图5A的情况而言,使用两种累积器。第一种累积器要被分配较高的累积权重值(例如是22)。第一种累积器要累积:(1)“对乘法运算结果GM1进行分群(多数决)的所得到分群(多数决)结果:1位”加上“对乘法运算结果GM2进行分群(多数决)的分群(多数决)结果:1位”再加上“对乘法运算结果GM3进行分群(多数决)的分群(多数决)结果:1位”。第一种累积器所得到的计数结果再乘以较高的累积权重值(例如是22)。第二种累积器要被分配较低的累积权重值(例如是20)。第二种累积器则是对乘法运算结果GL(多位)进行直接计数。将经累积权重加权过的两种累积结果相加,即可得到MAC结果。例如,对乘法运算结果GM1进行分群的所得到分群结果为1(1位),对乘法运算结果GM2进行分群的分群结果为0(1位),对乘法运算结果GM3进行分群的分群结果为1(1位)。第一种累积器所得到的计数结果(1+0+1)再乘以22,等于2*22=8。对乘法运算结果GL为4(3位),可直接计数。将经累积权重加权过的两种累积结果相加,即可得到MAC结果为8+4=12。
由上述可知,在本发明实施例中,在进行计数或累积(accumulation)时,由于输入数据已展开为unFDP形式,可以对储存在共同数据锁存器内的数据进行分群(亦即,分为MSB矢量与LSB矢量),通过分群机制(多数决机制)可以减少在MSB矢量/LSB矢量内的错误位。
此外,在本发明实施例中,即便使用传统的累积器(计数器),仍可以减少计数/累积时间,这是因为本发明实施例乃是使用数字计数指令(错误位计数),以及对于不同矢量(MSB矢量与LSB矢量)的累积结果给予不同累积权重。以一例而言,可以将累积运算时间减少至约40%。
图6显示本发明一实施例的MAC运算流程。在图6中,DMAC代表第一种数字式累加(但不进行分群操作,亦即存储器装置100不包括分群电路140),mDMAC代表第二种数字式累加(进行分群操作,亦即存储器装置100包括分群电路140),AMAC代表“模拟式累加”,HMAC代表“混合式累加”。
以本发明实施例的第一种数字式累加运算流程而言,输入数据传输至存储器装置。同时进行位线设定与字线设定。在位线设定完成后,进行感应。进行数字式累加操作。并将数字式累加操作结果回传。重复上述操作,直到所有输入数据皆已运算完成。
以本发明实施例的第二种数字式累加运算流程而言,通过分群操作可以加速数字式累加的操作速度。
以本发明实施例的模拟式累加运算流程而言,当在进行感应时,可同时完成ADC转换与比较操作,所以可以更加提升MAC操作。
以本发明实施例的混合式累加运算流程而言,由于要进行模拟式累加与数字式累加,混合式累加的操作速度慢于模拟式累加但快于数字式累加。但是,混合式累加的准确度可几乎等同于数字式累加且高于模拟式累加。
由图6可知,本发明实施例的MAC操作可以分为两种子操作类型。第一种子操作类型是乘法操作,将输入数据乘上权重值,乃是根据受选位线读取指令而进行。第二种子操作类型则是累积(数据计数),特别是错误位计数(fail bit counting)。在本发明其他可能实施例中,可以加入更多计数单元,以加速计数/累积操作。
数字式累加的操作时间主要取决于计数单元150的累积速度,因为计数单元150是逐位计算。模数转换单元161的量化准确度主要取决于存储器单元的变化容忍度(variation tolerance)。故而,数字式累加相较于模拟式累加具有高准确但低累加速度。
此外,在本发明实施例中,亦可调整读取电压。图7A显示本发明实施例中的编程固定存储器页面(memory page)的流程图,图7B显示本发明实施例中的调整读取电压的流程图。
在图7A中,在步骤710中,将一笔已知输入数据编程至一固定存储器页面内。例如但不受限于,该笔已知输入数据的位比率是:75%是位0,25%是位1。
在图7B中,步骤720中,读取该固定存储器页面,并启动ADC。步骤730中,判断ADC的输出值是否接近参考测试值(如果ADC是8位,则参考测试值为127,但本发明不受限于此)。如果步骤730为否,则流程接至步骤740。如果步骤730为是,则流程接至步骤750。
步骤740中,如果ADC的输出值小于参考测试值,则增加读取电压;以及,如果ADC的输出值大于参考测试值,则减少读取电压。步骤740结束后,流程回至步骤720。
步骤750中,记录目前的读取电压,以做为后续读取操作所用。
如所知般,读取电压将会影响到ADC输出值与位1的读取。故而,在本发明实施例中,可以根据操作条件(例如但不受限于,编程周期,温度或读取干扰等),周期性地校正读取电压,以保持高正确性与可靠度。
图8显示根据本发明一实施例的MAC操作流程。在步骤810中,储存多个权重值于该存储器装置的一存储器阵列的多个存储器单元内。在步骤820中,对多个输入数据与这些权重值进行位乘法,以得到多个乘法结果,其中在进行乘法时,这些存储器单元产生多个存储器单元电流。在步骤830中,决定进行一模拟式累加、一数字式累加或一混合式累加。在步骤840中,在进行该模拟式累加时,对这些存储器单元电流进行模拟式累加以得到一第一乘积累加运算(MAC)操作结果。在步骤850中,在进行该数字式累加时,对这些乘法结果进行数字式累加得到一第二乘积累加运算(MAC)操作结果。在步骤860中,在进行该混合式累加时,根据该第一乘积累加运算操作结果决定是否触发该数字式累加。
本发明实施例可应用于NAND型快闪存储器,或者敏感于保持与热变化的存储器装置,例如但不受限于,NOR型快闪存储器,相变(PCM)型快闪存储器,磁式随机存取存储器(magnetic RAM)或电阻式RAM。
本发明实施例可应用于3D型存储器与2D型存储器,例如但不受限于,2D/3D NAND型快闪存储器,2D/3D NOR型快闪存储器,2D/3D相变(PCM)型快闪存储器,2D/3D磁式随机存取存储器(magnetic RAM)或2D/3D电阻式RAM。
虽然上述实施例中,将输入数据及/或权重值分为MSB矢量与LSB矢量(2个矢量),但本发明并不受限于此。在本发明其他可能实施例中,输入数据及/或权重值亦可分为更多个矢量,此亦在本公开精神范围内。
本公开实施例不只可应用多数决分群技术,也可应用其他分群技术,以加速累积。
本公开实施例可应用于,例如但不受限于,脸部辨认等AI技术之中。
本公开实施例中,模数转换单元161可为电流模式模数转换单元,或者是电压模式模数转换单元,或者是混合模式模数转换单元。
本公开实施例不只可应用于串联式MAC操作,也可应用于并联式MAC操作。
综上所述,虽然本公开已以实施例公开如上,然其并非用以限定本发明。本公开所属技术领域中技术人员,在不脱离本发明的精神和范围内,当可作各种的更改与修饰。因此,本发明的保护范围当视随附的权利要求书范围所界定为准。

Claims (10)

1.一种存储器装置,包括:
一存储器阵列,包括多个存储器单元,可用于储存多个权重值在该存储器阵列的这些存储器单元内;
一乘法电路,耦接至该存储器阵列,该乘法电路对多个输入数据与这些权重值进行乘法,以得到多个乘法结果,其中在进行乘法时,这些存储器单元产生多个存储器单元电流;
一数字式累加电路,耦接至该乘法电路,对这些乘法结果进行一数字式累加;
一模拟式累加电路,耦接至该存储器阵列,对这些存储器单元电流进行一模拟式累加以产生一第一乘积累加运算操作结果;以及
一决定单元,耦接至该数字式累加电路与该模拟式累加电路,决定进行该模拟式累加、该数字式累加或一混合式累加,
其中,在进行该混合式累加时,根据该第一乘积累加运算操作结果决定是否触发该数字式累加电路。
2.根据权利要求1所述的存储器装置,其中,
在进行该模拟式累加时,该决定单元能启动该模拟式累加电路但不能启动该数字式累加电路;
在进行该数字式累加时,该决定单元能启动该数字式累加电路但不能启动该模拟式累加电路;以及
在进行该混合式累加时,该决定单元能启动该数字式累加电路与该模拟式累加电路。
3.根据权利要求1所述的存储器装置,还包括:
一比较器,耦接至该模拟式累加电路与该数字式累加电路,比较该第一乘积累加运算操作结果与一触发参考值以输出一触发信号至该数字式累加电路,以触发该数字式累加电路进行该数字式累加,
其中,该模拟式累加电路包括一模数转换单元,耦接至该存储器阵列,这些存储器单元的这些存储器单元电流累加后输入至该模数转换单元,以转换成该第一乘积累加运算操作结果。
4.根据权利要求1所述的存储器装置,其中,该数字式累加电路包括:
一计数单元,耦接至该乘法电路,对这些乘法结果进行位计数以得到一第二乘积累加运算的运算结果。
5.根据权利要求4所述的存储器装置,还包括一分群电路,耦接至该乘法电路与该计数单元,该分群电路对该乘法电路的这些乘法结果进行分群操作,以得到多个分群结果,且将这些分群结果输入至该计数单元。
6.根据权利要求1所述的存储器装置,
各这些输入数据或各这些权重值的多个位分为多个位矢量;
将这些位矢量的各位从以一二进制形式转换成以一元编码表示;
将以一元编码表示的这些位矢量的该各位重复多次以成为一乘积展开式;以及
该乘法电路对该乘积展开式的这些输入数据与该乘积展开式的这些权重值进行乘法操作,以得到这些乘法操作结果。
7.根据权利要求5所述的存储器装置,其中,
在对这些乘法结果进行分群操作时,该分群电路分别对这些矢量的多个乘法结果进行分群操作,以得到这些分群结果;
在进行位计数时,对于这些分群结果给予不同累积权重值后进行累积以得到该第二乘积累加运算结果;以及
该分群电路是一多数决电路,包括多个多数决单元。
8.一种存储器装置的操作方法,包括:
储存多个权重值在该存储器装置的一存储器阵列的多个存储器单元内;
对多个输入数据与这些权重值进行位乘法,以得到多个乘法结果,其中在进行乘法时,这些存储器单元产生多个存储器单元电流;以及
决定进行一模拟式累加、一数字式累加或一混合式累加,
其中,
在进行该模拟式累加时,对这些存储器单元电流进行该模拟式累加以产生一第一乘积累加运算操作结果;
在进行该数字式累加时,对这些乘法结果进行该数字式累加产生一第二乘积累加运算操作结果;以及
在进行该混合式累加时,根据该第一乘积累加运算操作结果决定是否触发该数字式累加。
9.根据权利要求8所述的存储器装置的操作方法,其中,对这些存储器单元的这些存储器单元电流累加后进行模数转换成该第一乘积累加运算操作结果;以及
比较该第一乘积累加运算操作结果与一触发参考值以决定是否触发该数字式累加。
10.根据权利要求8所述的存储器装置的操作方法,其中,
将各这些输入数据或各这些权重值分为多个位矢量;
将这些位矢量的各位从以一二进制形式转换成以一元编码表示;
将以一元编码表示的这些位矢量的该各位重复多次以成为一乘积展开式;以及
对该乘积展开式的这些输入数据与该乘积展开式的这些权重值进行乘法操作,以得到这些乘法操作结果;
在进行位累积时,对于这些分群结果给予不同累积权重值后进行累积以得到该第二乘积累加运算结果;以及
对这些乘法结果进行分群操作对这些乘法结果进行多数决操作。
CN202110829792.3A 2020-09-08 2021-07-22 存储器装置及其操作方法 Pending CN114153421A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063075311P 2020-09-08 2020-09-08
US63/075,311 2020-09-08
US17/375,024 2021-07-14
US17/375,024 US20220075600A1 (en) 2020-09-08 2021-07-14 Memory device and operation method thereof

Publications (1)

Publication Number Publication Date
CN114153421A true CN114153421A (zh) 2022-03-08

Family

ID=80461938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110829792.3A Pending CN114153421A (zh) 2020-09-08 2021-07-22 存储器装置及其操作方法

Country Status (4)

Country Link
US (1) US20220075600A1 (zh)
JP (1) JP7255068B2 (zh)
KR (1) KR102603799B1 (zh)
CN (1) CN114153421A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935878B (zh) * 2023-01-06 2023-05-05 上海后摩智能科技有限公司 基于模拟信号的多比特数据计算电路、芯片及计算装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8064269B2 (en) * 2008-05-02 2011-11-22 Micron Technology, Inc. Apparatus and methods having majority bit detection
US9892782B1 (en) * 2011-05-25 2018-02-13 Terra Prime Technologies, Llc Digital to analog converters and memory devices and related methods
US9830999B2 (en) * 2014-06-05 2017-11-28 Micron Technology, Inc. Comparison operations in memory
US10410724B2 (en) * 2016-04-08 2019-09-10 SK Hynix Inc. Erase page indicator
US11308290B2 (en) * 2017-04-17 2022-04-19 Octavo Systems Llc Mixed signal computer architecture
JP2019139300A (ja) 2018-02-06 2019-08-22 国立大学法人北海道大学 ニューラル電子回路
US10643119B2 (en) 2018-07-24 2020-05-05 Sandisk Technologies Llc Differential non-volatile memory cell for artificial neural network
US10755783B2 (en) 2018-08-27 2020-08-25 Silicon Storage Technology Temperature and leakage compensation for memory cells in an analog neural memory system used in a deep learning neural network
US10877752B2 (en) * 2018-09-28 2020-12-29 Intel Corporation Techniques for current-sensing circuit design for compute-in-memory
KR102658831B1 (ko) * 2018-12-31 2024-04-18 삼성전자주식회사 비휘발성 메모리 장치 및 비휘발성 메모리 장치를 이용한 계산 방법
US11474785B2 (en) * 2019-02-08 2022-10-18 Samsung Electronics Co., Ltd. Memory device and computing device using the same
US10741247B1 (en) * 2019-06-21 2020-08-11 Macronix International Co., Ltd. 3D memory array device and method for multiply-accumulate
US11561795B2 (en) * 2020-03-30 2023-01-24 Arm Limited Accumulating data values and storing in first and second storage devices

Also Published As

Publication number Publication date
JP2022045335A (ja) 2022-03-18
US20220075600A1 (en) 2022-03-10
KR102603799B1 (ko) 2023-11-17
JP7255068B2 (ja) 2023-04-11
KR20220033021A (ko) 2022-03-15

Similar Documents

Publication Publication Date Title
US20150070957A1 (en) Semiconductor device and method of writing/reading entry address into/from semiconductor device
CN113741858B (zh) 存内乘加计算方法、装置、芯片和计算设备
Liu et al. Sme: Reram-based sparse-multiplication-engine to squeeze-out bit sparsity of neural network
CN114153421A (zh) 存储器装置及其操作方法
Liu et al. IM3A: Boosting Deep Neural Network Efficiency via I n-M emory A ddressing-A ssisted A cceleration
CN114640354A (zh) 数据压缩方法、装置、电子设备及计算机可读存储介质
TWI783573B (zh) 記憶體裝置及其操作方法
CN114153420A (zh) 存储器内运算方法及装置
CN114153419A (zh) 存储器装置及其操作方法
CN113988279A (zh) 一种支持负值激励的存算阵列输出电流读出方法及系统
TWI777645B (zh) 記憶體裝置及其操作方法
TWI788128B (zh) 記憶體裝置及其操作方法
US20230161556A1 (en) Memory device and operation method thereof
CN115525250A (zh) 内存计算电路
TWI806641B (zh) 記憶體裝置及其操作方法
Mondal et al. Current comparator-based reconfigurable adder and multiplier on hybrid memristive crossbar
TWI798798B (zh) 記憶體內運算方法及裝置
JPH07210533A (ja) ニューラルネットワーク回路及びこれを用いた演算方法
TW202321952A (zh) 記憶體裝置及其操作方法
CN117492696A (zh) 乘加运算电路、存储器及电子设备
CN107959502A (zh) 一种ldpc编码方法
CN116578906A (zh) 基于忆阻随机计算轻量化卷积神经网络的气体识别方法
CN116434802A (zh) 有符号位的sram多值单元及存算一体芯片
CN116089840A (zh) 一种相似度计算装置、方法和存储器件
CN107959501A (zh) 一种ldpc编码器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination