CN111798896A

CN111798896A - 一种基于磁随机存储器的支持通用计算的存内计算系统

Info

Publication number: CN111798896A
Application number: CN202010483849.4A
Authority: CN
Inventors: 贾小涛; 潘宇; 杨建磊; 赵巍胜
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-20
Anticipated expiration: 2040-06-01
Also published as: CN111798896B

Abstract

本发明属于通用存内计算领域，特别涉及一种基于磁随机存储器的支持通用计算的存内计算系统，包括GCIM架构，所述GCIM架构包括自旋转移力矩磁随机存储器阵列、移位器和连接器、行译码器、列译码器、位线驱动器、计算字线数模转化器、预充电感应放大器、第五代精简指令集处理器、指令解析器和寄存器。本发明不仅可以在内存中实现存储，而且可以在内存进行计算操作。此外，本发明可有效支持通用计算(包括逻辑计算、定点计算、浮点计算等)，充分利用多个子阵列结构和改进的移位器和连接器，提高架构的可重构性和计算并行度，提高计算效率。

Description

一种基于磁随机存储器的支持通用计算的存内计算系统

技术领域

本发明属于通用存内计算领域，特别涉及一种基于自旋转移力矩磁随机存储器(STT-MRAM)的面向通用计算的存内计算系统及计算方法。

背景技术

在过去的几十年里，数据集的大小随着时间指数增长，对数据分析应用程序的计算需求越来越大。然而，对于传统的冯诺依曼架构，处理器和内存单元之间的数据通信开销导致了巨大的性能下降和能源消耗，称为冯诺依曼瓶颈。

为了克服数据通信瓶颈，一种广泛被认可的方法是将处理器嵌入到内存中，即存内计算。一些研究提出了基于SRAM和DRAM的存内计算方案，虽然大大减少了数据通信开销，但是作为易失性存储器，SRAM和DRAM的静态功耗成为影响其性能的重要因素，令其很难满足将来基于大数据的应用场景的超低功耗的需求。

近年来，大量的研究表明新兴的非易失性存储器(NVMs)，如电阻式随机存取存储器/忆阻器(RRAM)、相变存储器(PCM)、STT-MRAM等基于电阻的存储机制提供了固有的逻辑计算功能，从而能够在内存中嵌入高效的逻辑计算能力。同时这些非易失性存储器件具有非易失性、低功耗、高密度等的优势。以上优点使得基于非易失性存储器的存内计算架构有望从根本上革新计算和内存之间的关系。

目前基于非易失性存储器件的存内计算方案大多只能执行一些特定于应用程序的逻辑功能，例如，有些研究利用忆阻器件的交叉横杆结构可以有效地进行矩阵-向量相乘的特点，提出神经网络推理/训练处理器或加速器；有些研究利用非易失性存储器电阻器件的条件切换特性，提出架构支持布尔逻辑运算、定点加法和乘法计算等。然而，目前的神经网络不仅仅需要逻辑运算和定点运算，因此支持通用计算的存内计算架构更有意义。

发明内容

为此，本发明一种磁随机存储器的支持通用计算的存内计算系统及计算方法，可以可重构地支持数据存取、逻辑运算、定点计算、浮点计算，并且降低功耗。

本发明提供了一种基于磁随机存储器的支持通用计算的存内计算系统，包括GCIM架构，所述GCIM架构包括自旋转移力矩磁随机存储器阵列、移位器和连接器、行译码器、列译码器、位线驱动器、计算字线数模转化器、预充电感应放大器、第五代精简指令集处理器、指令解析器和寄存器；

所述自旋转移力矩磁随机存储器阵列包括多个子阵列，每个子阵列由M行N列个存储单元组成，每个存储单元由2个晶体管和1个垂直磁各向异性磁隧道结组成；

所述移位器和连接器包括移位器和连接器，所述移位器包括桶形移位器和预充电感应放大器，所述预充电感应放大器连接所述自旋转移力矩磁随机存储器阵列的源线SLs和存取位线MBLs，用于读取判断数据和输出数据，将判断数据存储到所述寄存器，或者将输出数据发送至所述第五代精简指令集处理器；所述判断数据或输出数据是所述源线SLs和所述存取位线MBLs之间磁隧道结和参考磁隧道结的电阻大小；所述连接器用于连接所述移位器和相邻两个子阵列，可重构地调节所述多个子阵列的工作状态；

所述第五代精简指令集处理器用于向所述指令解析器发送工作命令，以控制可重构地调节所述多个子阵列的工作状态；同时接收所述预充电感应放大器和所述寄存器中的数据；

所述行译码器连接所述自旋转移力矩磁随机存储器阵列的存取字线MWLs，用于在存取模式激活对应行的存储单元；所述列译码器连接所述位线驱动器用来同时激活相邻8个位线驱动器；所述位线驱动器连接所述自旋转移力矩磁随机存储器阵列的源线SLs、存取位线MBLs以及计算位线CBLs，用于给不同字线提供相应电压；

所述计算字线数模转换器连接所述自旋转移力矩磁随机存储器阵列的计算字线CLs，用于在计算模式为其提供相应电压；

所述指令解析器用于解析所述第五代精简指令集处理器的指令并相应地将其传输给所述移位器和连接器、所述行译码器、所述列译码器、所述位线驱动器、所述计算字线数模转化器和所述预充电感应放大器。

进一步，所述多个子阵列包括4个子阵列，每个子阵列由32行128列个存储单元组成。

进一步，所述可重构地调节所述多个子阵列的工作状态包括：两个子阵列之间连接移位器来实现移位操作；两个子阵列连接，像一个阵列一样工作；两个子阵列不连接，各自独立工作。

进一步，每列存储单元中，连接移位器和上下两个相邻存储单元的连接器由6个晶体管组成。

进一步，所述计算字线数模转换器由一个2比特数模转换器和2个晶体管组成，其为计算字线CLs提供5种电压值：Vnor,Vnand,Vnot,Vmin和Gnd。

本发明的有益效果：

1)本发明不仅可以在内存中实现存储，而且可以在内存进行计算操作；

2)本发明可有效支持通用计算(包括逻辑计算、定点计算、浮点计算等)，充分利用多个子阵列结构和改进的移位器和连接器，可以提高本发明的通用存内计算架构(General-purpose-Computing-In-Memory,GCIM)架构的可重构性和计算并行度，提高计算效率；

3)利用本发明所提出的GCIM架构，能够实现一个8位浮点加法计算只需要426ns的时间和85.853pJ的能量；实现一个8位无符号定点加法计算只需要136ns的时间和21.037pJ的能量；同时如果利用本发明多个子阵列设计带来的并行度优势，4个子阵列可同时分别进行计算，由此平均每个8位无符号定点加法计算所需的时间会减少3/4。

附图说明

图1为本发明实施例的GCIM架构整体示意图；

图2为本发明实施例的每个子阵列的结构示意图；

图3为本发明实施例的每个存储单元的结构示意图；

图4为本发明实施例的垂直磁各向异性磁隧道结的原理图；

图5为本发明实施例的改进的移位器和连接器的结构示意图；

图6为本发明实施例的改进的移位器的结构示意图；

图7为本发明实施例的预充电感应放大器的结构示意图；

图8为本发明实施例的计算字线数模转化器的结构示意图；

图9为本发明的两输入逻辑计算的原理图；

图10为图9的简化图；

图11为本发明实施例的4比特乘法计算过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本实施例提出的基于自旋转移力矩磁随机存储器的面向通用计算的存内计算系统，包括自主设计的GCIM架构。图1是本实施例的GCIM架构整体示意图，其包括基于2晶体管1磁隧道结的自旋转移力矩磁随机存储器阵列(2T1MTJ STT-MRAM arrary)、改进的移位器和连接器Mser&Cor(Modified Shifter and Connector)、行译码器RD(Row Decoder)、列译码器CD(Column Decoder)、位线驱动器BL Dri(Bit Line Driver)、计算字线数模转化器CL-DAC、第五代精简指令集处理器RSIC-V、指令解析器(Parser)和寄存器(Register)。

其中，自旋转移力矩磁随机存储器阵列包括4个子阵列，如图2所示，每个子阵列由32(行)x128(列)个存储单元组成，每个存储单元由2个晶体管和1个垂直磁各向异性磁隧道结组成。如图3所示，其中，源线SL既工作在存取模式，又工作在计算模式；存取字线MWL和存取位线MBL只工作在存取模式；计算字线CL和计算位线CBL只工作在计算模式。

图4示出了垂直磁各向异性磁隧道结的原理图，存储单元的垂直磁各向异性磁隧道结包括两个铁磁层(CoFeB)以及两者之间氧化层(MgO)。其中，一个铁磁层的磁化方向是固定的，被称为参考层(Reference Layer)，另一个铁磁层的磁化方向可以与参考层的磁化方向相同(平行)或者相反(反平行)，被称作自由层(Free Layer)。如果自由层和参考层的磁化方向是相同的，则磁隧道结呈现低阻态(P),其电阻值R_P较低，代表二进制数据“0”；如果自由层和参考层的磁化方向相反，则磁隧道结呈现高阻态(AP)，其电阻值R_AP较高，代表二进制数据“1”。利用自旋转移力矩的机制，可以通过给磁隧道结施加极化电流来改变其状态，如果所施加的极化电流I_P→AP从磁隧道结的自由层流向参考层，并且大小大于临界翻转电流I_C0，则经过一定时间后，磁隧道结会从P状态变为AP状态；相反，如果所施加的极化电流I_AP→P从磁隧道结的参考层流向自由层，则磁隧道结会从AP状态变为P状态。

特别地，每列存储单元均利用由6个晶体管组成的连接器，连接改进的移位器(下文详细说明)和上下两个相邻存储单元。例如图5中所示第i列存储单元中，源线SL_i和存取位线MBL_i之间连接了3个NMOS和3个PMOS，并且PMOS之间连接了改进的移位器，连接器信号C1、C2的逻辑值控制这6个晶体管导通或断开，进而控制相邻两个存储单元的连接状态，每列都是如此，则连接器信号C1、C2控制了上下两个子阵列的连接状态，从而可重构地调节多个子阵列的工作状态。具体地，连接器信号C1、C2的逻辑值为00，则两个子阵列之间连接改进的移位器来实现移位操作；连接器信号C1、C2的逻辑值为11，则两个子阵列连接，像一个阵列一样工作；连接器信号C1、C2的逻辑值为10，则两个子阵列不连接，各自独立工作。由此，本发明既可以支持移位操作，为计算需要移位的复杂操作(如乘法操作)提供方便，又提高了GCIM架构的可重构性和计算并行度，提高了计算效率并降低了功耗。

本实施例改进的移位器如图6所示，由传统的桶形移位器和预充电感应放大器(PCSA)组成。桶形移位器上的信号S₀、S₁、S₂、S₃、S₄……表示数据移动的位数，比如，如果信号S₂为高电平，其他信号S_i(i＝0,1,3,4……)信号为低电平，则数据会移动2位，从上方子阵列中由源线SL、存取位线MBL连接的存储单元，移动到下方子阵列中由存取位线MBL’连接的存储单元。

本发明通过预充电感应放大器可读取存储单元所存储的数据。如图7所示，本实施例中预充电感应放大器包括四个PMOS、三个NMOS和一个参考磁隧道结，该参考磁隧道结的电阻值(即参考电阻)为Rref＝(R_P+R_AP)/2。如果源线SL和存取位线MBL之间的电阻大于参考电阻Rref，则Qm输出0而

输出1；反之，如果源线SL和存取位线MBL之间的电阻小于参考电阻Rref，则Qm输出1而

输出0。

特别地，计算字线数模转化器CL-DAC如图8所示，其由一个2比特模数转化器和两个晶体管组成，用于在不同情况下向存储单元的计算字线CL传输相应的电压。图8中，计算字线数模转化器CL-DAC的输入信号D1、D2的逻辑值00、01、10、11分别代表逻辑操作与非nand、或非nor、非not、求数量最少数min。根据输入信号D1和D2的输入，数模转化器DAC输出相应的电压Vnand、Vnor、Vnot、Vmin。本发明的计算字线数模转化器CL-DAC的输入信号CellM的逻辑值0，代表当前存储单元为操作数单元，存储了操作数，则计算字线CL输出DAC依据输入信号D1、D2输出的电压值；输入信号CellM的逻辑值1，代表当前存储单元为结果单元，用来存储计算结果，则输出计算字线CL电压为0。

使用本发明的存内计算系统进行的所有复杂计算都是以数据存取和逻辑计算为基础，下面结合图3、9和10说明本发明的2晶体管1磁隧道结磁随机存储器的存取操作原理和逻辑计算原理：

1)存取操作原理：阵列工作在存取模式，图3中的源线SL和存取位线MBL与存取字线MWL及其连接的NMOS工作，计算字线CL与计算位线CBL及其连接的NMOS不工作。根据前述磁隧道结的翻转原理，在存取字线MWL为高电平，即存取字线MWL与存取位线MBL连接的NMOS导通的情况下，通过给源线SL和存取位线MBL之间加一个合适的偏压来改变磁隧道结的状态，即写入“1”或“0”。源线SL和存取位线MBL连接到预充电感应放大器，便可通过预充电感应放大器的Qm读出其存储的数据，通过

读出其相反数。

2)逻辑计算原理：图9是两输入逻辑计算的原理图，图10是图9的简化图。两个输入单元的磁隧道结input1和input2并联，然后和结果单元的磁隧道结result并联。在计算模式只有源线SL和计算字线CL与计算位线CBL及其连接的NMOS工作，存取位线MBL与存取字线MWL及其连接的NMOS不工作。根据计算类型，通过计算字线数模转化器CL-DAC将两个输入单元的磁隧道结input1和input2中的计算字线CL₀和CL₁设置为相同的高压V_op，并将结果单元的计算字线CL₂电压设置为Ground。经过一段时间后，可以将计算结果写入结果单元(计算前将结果单元初始化为低阻状态)。

本发明的这种内存计算机制在计算时将结果写入存储阵列，然后可以通过常规的读操作输出结果，其不同于现有的某些存内计算机制，即通过感应放大器计算结果，同时输出结果。有利地，本发明所采用的存内计算方法在计算有大量中间结果需要用于后续计算的复杂计算时，十分有优势，因为本发明不需要读出并重新写入中间结果，而是直接利用中间结果进行后续计算。下面表1-表3分别给出了nor、nand和not三种逻辑操作时计算字线CL电压的真值表和高压V_op，其中，V_nor表示或非操作所需要的计算字线CL电压)；R_P//R_P是两个R_P的并联电阻，R_P//R_P＝(R_P*R_P)/(2R_P)；R_AP//R_P是R_AP和R_P的并联电阻，R_AP//R_P＝(R_AP*R_P)/(R_AP+R_P)。

表1.nor操作的真值表

表2.nand操作的真值表

表3.not操作的真值表

本发明利用所设计的GCIM架构完成存取操作和通用计算，通用计算包括逻辑计算、全加计算(FA)、向前进位加法计算(RCA)(完成无符号定点加法计算的一种方式)、有符号定点加法计算、有(无)符号定点减法计算、浮点加法计算、定点(浮点)乘法计算等。上面结合本实施例详细说明了存取操作，下面将详细说明如何利用本发明提出的GCIM架构进行通用计算：

1.全加计算

根据下面的式(1)和式(2)，本发明提出的GCIM架构可以作为一个全加器(FA)工作。

C_out＝(MIN(A+B+C_in))′ (1)

S＝A xnor B xnor C_in (2)

其中，C_out表示输出的进位；S表示输出的和；A、B分别表示操作数；C_in表示输入的进位。本发明通过2步操作(min和not)便可计算出进位C_out,然后通过两个xnor操作便可计算出和S。下面表4示出了利用本发明的GCIM架构，通过3步得到异或操作结果R＝xnor(A,B)的过程，其中，存储单元U_A和U_B存储输入操作数A和B，存储单元U_R0和U_R分别用来存储中间结果和最终的异或操作结果，应该注意，在计算之前需要将存储单元U_R0和U_R初始化为0。具体包括：步骤1)：对操作数A和B进行与非操作，设其结果为操作数R0，R0＝nand(A,B)，计算同时，结果写入存储单元U_R0；步骤2)：对操作数R0进行非操作not(R0)，结果写入存储单元U_R，此时存储单元U_R存储了操作数A和B的与结果and(A,B)；步骤3)：以存储单元U_A和U_B为操作数单元，以存储单元U_R为结果单元，进行或非操作，之后存储单元U_R便得到了异或操作值xnor(A,B)。

表4.异或操作xnor(A,B)的计算过程

2.无符号定点加法计算

本发明提出的GCIM架构也可以作为向前进位加法器(RCA)工作，可以根据下式(3)和式(4)来完成无符号定点加法计算。

C_i+1＝(MIN(A_i+B_i+C_i))′ (3)

S_i＝A_i xnor B_i xnor C_i (4)

其中，i代表操作数的第i个元素。

表5示出了计算一个8位无符号定点加法A+B的步骤。在表格中，Row0和Row1存储了8比特操作数A和B，Row2用来存储进位数据Ci，对Row0,Row1和Row2中数据进行min操作的结过存储在Row3。具体地，在步骤1)完成min操作得到C_i+1’，并从PCSA的

输出C_i+1，然后将C_i+1写入相应的存储单元，这是一个连续的过程；接下来，通过两次8比特异或操作便可计算出8比特和S，这个过程是8比特数并行进行的，需要6步完成：步骤2)和步骤5)是与非(nand)操作，步骤3)和步骤6)是非(not)操作，步骤4)和步骤7)是或非(nor)操作,这些操作的操作数均为A和B，操作结果存储在表5中相应的行中。

表5.8比特定点加法计算A+B的计算步骤

3.有符号定点加法计算和减法计算

利用本发明的GCIM架构，可以依据下式(5)和式(6)计算有符号定点加法和有(无)符号定点减法。

[D+E]_补码＝[D]_补码+[E]_补码 (5)

[D-E]_补码＝[D]_补码+[-E]_补码 (6)

其中，D、E为操作数。

具体地，通过以下3个步骤完成8比特有符号定点加法D+E：

步骤1)：分别计算操作数D和E的补码。由于正数和负数计算补码的规则不同，首先用GCIM架构中的PCSA读出操作数的符号位并存入寄存器，然后利用RSIC-V依据符号位值决定是否对操作数进行“求反”和“+1”。GCIM架构根据以下规则进行“+1”：从操作数的低位到高位读出数据，当读出的数据首次出现“0”，便在该位上写入“0”，并在其低位写入“1”，其他位保持不变。

步骤2)：依据前述“2.无符号定点加法计算”方法计算无符号定点加法[D]_complement+[E]_complement。

步骤3)：通过对步骤2)的结果求补码得到D+E的结果。

特别地，8比特有(无)符号定点减法D-E需要在步骤1)之前对操作数E的符号位求反，其他步骤与8比特有符号定点加法操作步骤相同。

4.浮点加法

一个浮点数N可以表示为

N_E和N_M分别为N的指数位和尾数位，本发明的GCIM架构存储二进制N_E和N_M来表示N。利用本发明GCIM架构，通过以下4步可完成浮点加法计算

具体地：

步骤1)：根据前述“3.有符号定点加法计算和减法计算”提出的方法，将两个操作数的指数位X_E和Y_E相减(X_E-Y_E)。

步骤2):读出步骤1)的结果并且存储在寄存器为下一步的判断做准备。

步骤3)：根据X_E-Y_E结果的符号位，第五代精简指令集处理器RSIC-V决定结果R_E的指数位，并决定哪个操作数的尾数位需要移动和移动的位数。例如：如果X_E>Y_E，GCIM架构会复制X_E作为结果的尾数位R_E，并且在第五代精简指令集处理器RSIC-V的控制下，将Y_M右移|X_E-Y_E|位。为了方便后面的描述，令M_M表示Y的尾数Y_M右移之后的值。特别地，由于本发明的多个子阵列和改进的移位器和连接器的设计，上述移位操作可直接在存储阵列上完成。

步骤4)：将M_M和X_M相加，其相加结果为R的尾数位R_M，根据前述“2.无符号定点加法计算”中描述的向前进位加法，可以很容易得到R_M。

另外，如果操作数是有符号数，在步骤4)中，将X和Y的符号位分别作为M_M和X_M的符号位，进行有符号加法计算便可。

5.定点乘法和浮点乘法

图11是4x4华莱士树乘法点阵图，本发明提出的GCIM架构可以根据图11中所示点阵图规则完成定点乘法，一个全加操作，即FA操作，需要三个1位输入，分别是A，B，Cin，有两个1位输出S和Cout，图中每个点表示1位，虚线框里A，B，Cin的四个点，表示并行进行4个FA操作。

首先，GCIM架构作为全加器(FA)计算出前三个部分积的和输出S和进位输出Cout，如虚线方框所示；然后，GCIM架构仍然作为全加器(FA)计算出已计算出的和输出S、进位输出Cout和第四个部分积的和输出S与进位输出Cout，如实线方框所示；最后，GCIM架构作为向前进位加法器(RCA)计算出最终结果。

综上，本发明的多个子阵列设计和改进的移位器和连接器设计，可以实现通过移动数据来对齐相应的位来保证全加计算和向前进位加法计算的结果的正确性。

此外，根据以上描述，本发明的GCIM架构也可以很容易地计算浮点乘法：首先，对两个操作数的符号位进行异或操作得到结果的符号位；然后，对操作数的指数位进行有符号加法计算得到结果的符号位；最后，对两个操作数的尾数位进行定点乘法计算来得到结果的尾数位。

对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以对本发明的实施例作出若干变型和改进，这些都属于本发明的保护范围。

Claims

1.一种基于磁随机存储器的支持通用计算的存内计算系统，其特征在于，包括GCIM架构，所述GCIM架构包括自旋转移力矩磁随机存储器阵列、移位器和连接器、行译码器、列译码器、位线驱动器、计算字线数模转化器、预充电感应放大器、第五代精简指令集处理器、指令解析器和寄存器；

2.根据权利要求1所述的存内计算系统，其特征在于，所述多个子阵列包括4个子阵列，每个子阵列由32行128列个存储单元组成。

3.根据权利要求1所述的存内计算系统，其特征在于，所述可重构地调节所述多个子阵列的工作状态包括：两个子阵列之间连接移位器来实现移位操作；两个子阵列连接，像一个阵列一样工作；两个子阵列不连接，各自独立工作。

4.根据权利要求1所述的存内计算系统，其特征在于，每列存储单元中，连接移位器和上下两个相邻存储单元的连接器由6个晶体管组成。

5.根据权利要求1所述的存内计算系统，其特征在于，所述计算字线数模转换器由一个2比特数模转换器和2个晶体管组成，其为计算字线CLs提供5种电压值：Vnor,Vnand,Vnot,Vmin和Gnd。