CN114267391A - 机器学习硬件加速器 - Google Patents

机器学习硬件加速器 Download PDF

Info

Publication number
CN114267391A
CN114267391A CN202111149473.4A CN202111149473A CN114267391A CN 114267391 A CN114267391 A CN 114267391A CN 202111149473 A CN202111149473 A CN 202111149473A CN 114267391 A CN114267391 A CN 114267391A
Authority
CN
China
Prior art keywords
information
sram
bit
sram cells
lookup table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111149473.4A
Other languages
English (en)
Inventor
M·M·梅赫达尔
V·J·梅内泽斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of CN114267391A publication Critical patent/CN114267391A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • G06F7/501Half or full adders, i.e. basic adder cells for one denomination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/21Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
    • G11C11/34Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
    • G11C11/40Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
    • G11C11/41Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
    • G11C11/412Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger using field-effect transistors only
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/21Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
    • G11C11/34Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
    • G11C11/40Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
    • G11C11/41Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
    • G11C11/413Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction
    • G11C11/417Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction for memory cells of the field-effect type
    • G11C11/419Read-write [R-W] circuits
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/10Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
    • G11C7/1006Data managing, e.g. manipulating data before writing or reading out, data bus switches or control circuits therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Logic Circuits (AREA)

Abstract

本申请公开机器学习硬件加速器。在存储器设备中,静态随机存取存储器(SRAM)电路包括按行和列排列并配置为存储数据的SRAM单元阵列[401、403]。SRAM阵列[401、403]被配置为:在SRAM阵列[401、403]中的查找表中存储用于机器学习(ML)过程的第一组信息;以及从查找表沿着SRAM单元的行连续地访问来自选择的SRAM单元组的信息。存储器控制器电路被配置为基于用于ML过程的第二组信息来选择SRAM单元组。

Description

机器学习硬件加速器
背景技术
机器学习(ML)是一种帮助软件系统学习以从数据中识别模式,而无需直接编程来这样做的人工智能(AI)。机器学习可以涉及广泛的技术。ML技术的示例包括神经网络和深度学习。广义上讲,ML技术以两个阶段操作,即:(a)训练阶段,在此阶段,模型和/或权重基于接收到的训练数据进行调整;和(b)操作阶段,在此阶段,这些模型和/或权重应用于接收到的实际数据。
ML技术在智能系统中非常有用,以检测或识别环境的多个方面。此类检测或识别场景的示例包括语音识别、视频和/或图像中的对象识别、手势和运动识别、声音签名检测、异常检测等。机器学习技术能够消耗大量的处理、数据和功率资源。这些要求对在便携式、电池供电和/或低功耗设备上执行复杂的ML技术提出了挑战。为了解决这些挑战,一种解决方法将部分或所有ML操作的处理卸载到远程网络(如云端),并将卸载后的ML操作的结果返回给设备。然而,该解决方法能够将不相关的信息发送到云端进行处理。例如,“始终开启”的设备能够不断监听特定的命令或关键字,捕获大量不相关的音频,并将不相关的音频上传到云端中进行处理,这会造成浪费带宽、处理能力和潜在的隐私问题。
发明内容
在存储器设备中,一种静态随机存取存储器(SRAM)电路包括按行和列排列并配置为存储数据的SRAM单元的阵列。SRAM阵列被配置为:在SRAM阵列中的查找表中存储用于机器学习(ML)过程的第一组信息;以及从查找表沿着SRAM单元的行连续地访问来自选择的SRAM单元组的信息。存储器控制器电路被配置为基于用于ML过程的第二组信息来选择SRAM单元组。
在另一方面中,一种系统包括耦合到存储器电路的一个或多个微处理器。存储器电路包括静态随机存取存储器(SRAM)电路,静态随机存取存储器(SRAM)电路包括按行和列排列并配置为存储数据的SRAM单元的阵列,SRAM阵列被配置为:在SRAM阵列中的查找表中存储用于机器学习(ML)过程的第一组信息;以及从查找表沿着SRAM单元的行连续地访问来自选择的SRAM单元组的信息。存储器控制器电路被配置为基于用于ML过程的第二组信息来选择SRAM单元组。
在另一方面中,一种方法包括接收用于机器学习(ML)过程的第一组信息;将第一组信息存储在SRAM单元的阵列中的查找表中,SRAM单元按行和列排列;基于用于ML过程的第二组信息选择SRAM单元组;以及从查找表沿着SRAM单元的行连续地访问来自选择的SRAM单元组的信息。
附图说明
图1在该说明书的多个方面中图示了示例分布式算术(DA)计算。
图2A、图2B和图2C是在该说明书的多个方面中的DA电路的框图。
图3在该说明书的多个方面中图示了ML网络的示例层。
图4在该说明书的多个方面中图示了示例SRAM存储器电路。
图5在该说明书的多个方面中图示了卷积层的示例操作。
图6在该说明书的多个方面中图示了具有进位保存加法器和移位器的示例累加器电路。
图7在该说明书的多个方面中图示了包括多个累加器电路的示例列选择电路。
图8在该说明书的多个方面中图示了用于预计算数据的电路。
图9在该说明书的多个方面中图示了用于增加ML过程的处理吞吐量的技术。
图10是在该说明书的多个方面中的计算设备的实施例的框图。
具体实施方式
为了提高设备的效率,专用硬件与更通用的硬件一起或代替更通用的硬件执行特定的操作。一个示例是图形处理单元(GPU)以及中央处理单元(CPU)。在该说明书的多个方面中,基于分布式算法(DA)和近存储器计算的ML硬件加速器可以提高操作ML网络的效率。
图1在该说明书的多个方面中图示了示例DA计算100。分布式算法是一种用于通过使用加法和移位运算代替硬件乘法器来高效求解乘法和累加运算的技术。DA计算可以是但不一定是位串行操作,该位串行操作通过预先计算某些常用值并根据需要将这些值存储在查找表(LUT)中,在单个步骤中形成一对向量的点积。例如,形式为
Figure BDA0003286410010000021
的等式(其中An是固定系数,Xn是接收到的数据,n是和的数量)可以以Y=A[0]X[0]+A[1]X[1]...A[N]X[N]形式展开。其中接收到的数据X是K位长(例如,8位、16位等),并且其中X[0][0]表示X[0]的最低有效位(LSB)[0],则该等式可以如图1所示展开。在该示例中,每个X都是单个二进制位,即逻辑0或逻辑1。DA计算不是通过将A[0]与X[0][0]相乘,将A[0]与X[0][1]*21相乘,并将这些相乘步骤的结果相加来执行计算,而是有效地垂直考虑等式。因此,在该示例中,LUT中,DA计算将X[n][i]的可能值(例如该示例中的十六个可能值)映射到在A[0]、A[1]、A[2]和A[3]的线性组合,如图1的102A-102D所示,并且如下面的表1所示。
表1
X[0][i] X[1][i] X[2][i] X[3][i] Y
0 0 0 0 0
0 0 0 1 A[3]
0 0 1 0 A[2]
0 0 1 1 A[2]+A[3]
0 1 0 0 A[1]
0 1 0 1 A[1]+A[3]
0 1 1 0 A[1]+A[2]
0 1 1 1 A[1]+A[2]+A[3]
1 0 0 0 A[0]
1 0 0 1 A[0]+A[3]
1 0 1 0 A[0]+A[2]
1 0 1 1 A[0]+A[2]+A[3]
1 1 0 0 A[0]+A[1]
1 1 0 1 A[0]+A[1]+A[3]
1 1 1 0 A[0]+A[1]+A[2]
1 1 1 1 A[0]+A[1]+A[2]+A[3]
因此,电路200(图2A)可以通过将正被处理到LUT的X[N][i]位的值映射到适当的Y值来求解使用DA的等式。例如,对于i=1位,其中X[0][1]是0,X[1][1]是1,X[2][1]是0,X[3][1]是1,Y值是A[1]+A[3]。从LUT 202读取A[1]+A[3]的值并将其置于累加器204中。从LUT读取X的下一个值,其中i=2,并通过执行来自LUT的值的左移位或右移位,有效地与累加器204的内容相乘。
因此,一个示例对累加器204的内容执行右移206,然后(经由加法器208)将结果加到累加器204的内容。对接收数据的所有K位重复该过程,以确定等式的解。通常,与求解此类等式的常规技术相比,使用DA求解会增加许多加法运算,但不需要复杂的乘法运算。这有助于DA计算比传统技术更高效,因为与传统技术的复杂乘法运算相比,LUT查找、位移位和加法步骤消耗的处理、数据和功率资源的量更少。使用DA计算,评估加权和的另一种方法是使用X[i]以及使用A[i]填充LUT以寻址LUT。
在某些情况下,可以减小LUT的大小,诸如通过使用多个较小的LUT或偏移二进制编码。图2B图示了使用偏移二进制编码的示例DA电路250。在偏移二进制编码的这个示例中,通过一组异或(XOR)门210提供接收的位值,以通过用异或门210有效地替换来自LUT212的一个X值(诸如X[0][i])来生成对称LUT 212。被替换的X值的值改变查找值的符号,并且可以基于基于符号的X[0]的值从累加器214值加或减去查找值。在某些情况下,可以基于INIT向mux 216提供的初始化信号将累加器初始化为LUT的第一值,诸如-1/2(A[0]+A[1]+A[2]+A[3]]或0,0,0。
作为更详细的示例,LUT 212可以耦合到多路复用器(mux)276,如图2C的另一示例DA电路275所示。接收的值指示可以在X0-X3处向XOR门278提供来自LUT的哪个地址。在某些情况下,XOR门278可以对应于图2B的XOR门210。将要被访问的LUT的地址提供给mux 276,并且然后可以提供LUT的寻址部分处的值。在某些情况下,诸如在开始计算时,利用一个值,诸如第一地址处的LUT的值,诸如000,累加器可以被初始化。在这种情况下,初始化信号可以由INIT提供。一组与(AND)门280确保提供给mux 276的地址对应于第一地址,诸如000。初始化信号还可指示累加器282不执行来自LUT的输出的右移。在某些情况下,DA技术可被修改以执行ML技术。
图3图示了ML网络300的示例层。通常,通过ML网络处理接收到的数据可以描述为两个向量的点积,这两个向量是:输入向量和权重向量。该示例ML网络300包括具有输入和输出特征映射的一层,作为1x1卷积层。该示例解决了单层,但ML网络能够包括多层。这些层表示一组卷积运算,该一组卷积运算可包括一组矩阵乘法。通常,每层将M个维度为W*H的输入特征映射(X)转换为N个输出特征映射Y。卷积运算包括重复H*W次的核运算(Kw*Kh)。在该示例中,由于存在单层,所以Kw和Kh=1。第一层X[M]利用一组连接联接到第二层,该连接表示由第一层应用于接收的数据的一组权重,以生成提供给第二层的输出。这些权重通常在训练阶段被限定,并且能够根据输入向量中到X层的给定输入的位置,以及X层的输出所对应的Y层中的位置而变化。例如,目标为Y[n]的X[m]的输入可乘以某个权重A[m,n],然后可将到Y[n]中的每个输入求和以确定Y[n]的值。然后,可以确定Y的一个或多个LUT作为针对X层的权重A的函数,并且可以如上所述使用DA来执行针对ML网络300的这些计算。
通常,静态随机存取存储器(SRAM)的速度和简单性已允许在包括微处理器的单个集成电路中制造SRAM,例如用于近处理器高速缓存。在本说明的多个方面中,可以修改突发SRAM以帮助加快基于ML网络的操作的处理。结合美国专利号9734896,对突发SRAM作了进一步的详细描述,该专利通过引用并入本文。通常,在传统的SRAM中(诸如具有8的mux因数),对于每个读取周期,可以对八位线进行预充电,但基于列解码器地址仅读取单列。在读取值后,在读取另一个值之前,这些线再次进行预充电/再充电。相比之下,突发SRAM允许以每个周期一个输出的速率从SRAM提供或突发多个存储器值,无需额外时间和/或电源进行位线预充电/再充电。
图4图示了示例SRAM存储器电路400。图4图示了SRAM存储器电路400的代表性实施方式,但也可以有其他实施方式。在图4中,SRAM单元401A-401C的阵列排列在第一列中,单元403A-403C排列在第二列中。这些单元排列在行A-C中,其中字线WLa-WLc将单元连接到行解码器405。实际生产的SRAM设备可包括数千或上万个SRAM单元(或更多)。字线WLa-WLc由行解码器405提供。列解码器407具有耦合到Y选择多路复用器409的控制线,Y选择多路复用器409具有接收位线对BLT0、BLC0到BLTn、BLCn的输入,并且具有耦合到感测放大器413的一对互补输出YT、YC。感测放大器413锁存所选位线对上的差分电压并提供信号DATA(数据)。真位线对和补位线对BLT0、BLC0至BLTn、BLCn分别耦合至预充电电路411A-411N。预充电控制电路415向预充电电路提供预充电控制信号PRE_BL。
在操作中,当时钟信号CLK变高时,SRAM存储器电路400存储器访问周期开始。输入地址ADD被锁存,并且行解码器405开始解码地址字段的一部分,并在由地址的一部分选择的字线WLa-WLc中选择的一条上提供高电压。列解码器407开始于解码地址字段ADD的第二部分并向Y选择多路复用器409提供选择信号。Y选择多路复用器确定位线对BLT0、BLC0-BLTn、BLCn中的哪一个被选择。
当选择的字线WLa-WLc上的字线电压升高时,沿选择的行的SRAM单元的互补位线耦合到每个SRAM单元内的存储节点。随着SRAM单元中的差分电压与位线共享,每列中互补位线对上的电压开始分散。沿活动行的每个位线将转换为相应列中的SRAM单元的存储节点的差分电压值。
列选择多路复用器409随后将选择的位线对耦合到互补输出信号YT和YC。列解码器407基于输入地址ADD的列部分确定选择的列。然后感测放大器413接收差分电压信号,感测差分电压、锁存和放大它,并提供来自所选SRAM单元的数据作为输出数据信号DATA。
如上所述,存储器访问周期包括在每个时钟周期期间在SRAM存储器电路400内执行的几个步骤。在某些情况下,可以执行沿特定行排列的SRAM单元的多个顺序(例如,连续或背靠背)SRAM读取。在第一SRAM单元访问新寻址行之前(或者,对于通电、复位或唤醒操作后的第一SRAM访问),预充电操作对SRAM阵列中的所有互补位线对进行预充电。为第一SRAM单元确定用于连续访问的选择的行线,并且行解码器断言选择的字线,诸如WLa。当字线电压沿在SRAM阵列中的特定行升高到用于SRAM单元的晶体管阈值电压以上时,耦合到SRAM单元的互补位线对各个沿所选行线接收对应于每个SRAM单元内的存储的数据的差分电压。列解码器同时解码地址字段的列部分,并控制Y选择多路复用器以选择用于读取操作的列。然后由感测放大器413执行感测操作,并且当感测放大器413提供锁存的感测数据时,第一读取数据变得可用。
在第一SRAM存储单元访问之后,通过选择连续访问中的下一个寻址列(位于SRAM阵列中的同一行上,并且可选地与先前访问的SRAM单元的列相邻)来访问第二SRAM单元。该列的对应的位线对然后耦合到感测放大器413(或另一感测放大器),感测差分电压,并提供来自该SRAM单元的数据。SRAM阵列可配置有任意数量的列和一个或更多个相应的多路复用器和感测放大器。在某些情况下,SRAM阵列可包括八列单元,并且Y选择多路复用器同样可以配置为从一行中的单元执行八次读取。LUT值能够存储在SRAM阵列中,因此SRAM阵列的八列对应于八位宽LUT的值。然后可以通过访问一行中单元的多个背靠背访问来执行对LUT的连续访问。对给定行执行连续访问,但是给定行的列的特定顺序可以是任何顺序。例如,在八个条目查找表中,ML过程可以进行八个背靠背访问,但这些访问能够是来自LUT的条目编号1、5、3、2、5、6、4、7。
因此,将LUT存储在突发SRAM中允许从SRAM一次一个地读取多个LUT值(存储在LUT中)。如上所述,基于DA的计算包括在LUT中的K次查找对应于接收的数据的每个位的值。然而,这些查找可以不是连续的,因为查找值取决于接收的位值。替代地,接收的位值驱动Y选择多路复用器,因此为接收的位值返回适当的LUT值。
图5图示了卷积层500的示例操作。在某些情况下,操作500可与LUT和累加器一起实现。在操作500中,接收的值可存储在位移位寄存器502中。这些位移位寄存器502耦合到开关电路,诸如异或门504的链,其结合图6进一步描述。每个周期将接收的值的位i提供给开关,并且每个位经由列解码器和Y选择多路复用器选择适当的列以读取存储在SRAM单元508中的LUT的值。然后可以将LUT的输出提供给累加器电路506。这有助于允许SRAM基于接收到的位突发适当的LUT值。
例如,在具有64个输入Y=A0.X0+A1.X1+A2.X2+…+A63.X63的单输出计算(例如卷积)中,十六个8条目LUT可由四个权重(A0-A3、A4-A7、A8-A11、…、A60-A63)的组构成。累加器电路506的输出寄存器可以初始化为全零。对于16个LUT中的每个LUT,接收的位以4(X[4i]、X[4i+1]、X[4i+2]、X[4i+3],对于i=0到15)的组加载到地址寄存器中。可以基于LUT中的第一地址(0,0,0)初始化输出寄存器。然后,LUT中的每组条目一次(例如,在该示例中为八次),操作包括将地址寄存器右移位1以获得下一个地址位(X0、X1、X2、X3),执行异或操作以获得LUT地址位(a0、a1、a2)和符号控制信号,读取LUT[i][a0:a1:a2]的内容,以及有条件地对右移位累加器求和(例如,加或减)。在某些情况下,累加器电路506包括被配置为执行适当的位移位的逻辑和加法逻辑,如结合图2A和图2B所述,并结合图6进一步描述。
图6图示了具有进位保存加法器和移位器的示例累加器电路600。累加器电路600每时钟周期接收一个位/比特,该位可被加到任何先前接收的位中,以在多个时钟周期内在位寄存器中累积结果。累加器电路600包括异或电路608和一组1位全加器602和寄存器位604。每个加法器可以接收:i1和i2处的位;以及Ci处的进位输入信号。此外,每个加法器可以提供:在Co处的进位输出信号;和在S处的和。加法器的数量可以基于接收的比特的预期数量。因此,例如,如果预期接收的数据的16位,则累加器电路600可以包括16个加法器。加法器可被配置为将进位输出线耦合到进位输入线。对于n位[n…0]的第一值,第一值的每一位可以在该位的相应的加法器602的i1处接收,并且可以在第一时钟周期中在S处将和输出到寄存器Y16到Y07中。该输出和被提供给加法器602的i2以用于第二值。然后可以在相应加法器602的i1处接收n位[n…0]的第二值,并在第二时钟周期中与i2处的值做加法。如果需要进位,则在Co处提供适当的值并存储在进位寄存器606中以用作下一个值的进位信号Ci。寄存器Y07中的值可以移位到寄存器Y06中,并且寄存器Y06中的任何值都可以移位到寄存器Y05中,以此类推。在符号控制寄存器610中记录值,指示操作是加法还是减法。对于每个接收到的值,例如对于LUT中的值,重复该模式,并且总和的输出值在寄存器Y00-Y07中可用。如果需要对值进行减法,则符号控制信号可以提供给多路复用器610,从而使得多路复用器610通过执行减法的一补运算(ones complement operation)来反转其输入。为了完成减法运算,通过在包括位S07-S00的符号控制寄存器612中设置值来执行二补运算,记录减法运算。在对每个接收到的值求和之后,符号控制寄存器S07-S00中的值被加到寄存器中以获得最终结果。当来自SRAM的输出(诸如SRAM单元508)在K个周期内突发时,可以将其提供给累加器电路600。这种一次一位的加法有助于减少所需的时间量(而不是读取整个突发、执行K位加法和左移位)。此外,加法器602的这种结构利用了SRAM如何将数据突发出来的优势,因此加法器的结构可以放置在非常靠近SRAM(在同一集成电路上)的位置,并在发送到CPU之前进行处理。
在神经网络的卷积层中,相同的卷积核应用于整个输入特征映射。在该说明书的多个方面中,通过同时使用相同LUT处理多组接收数据来增加ML硬件加速器的吞吐量。图7图示了包括多个累加器电路的示例列选择电路700。列选择电路700不同于图5的列选择电路500,因为列选择电路700在SRAM上(诸如在感测放大器上)具有第二读取端口,并且具有耦合到异或门704链和累加器电路706B的第二组位移位寄存器702。例如,可以同时访问输入特征映射的两个相邻数据。ML网络可以使用相同的权重来处理两个接收到的数据集,因此可以同时向两组累加器电路706A、706B提供来自SRAM突发的针对特定LUT值的输出。累加器电路706A、706B随后可以执行适当的位移位和加法操作。该示例图示了同时处理两组接收的数据,但是可以同时处理任意数量的接收的数据组。
如上所述,ML网络可以包括各种层。这些层可以包括卷积层、深度层、点层、完全连接层等。每种类型的层的处理能够略有不同。例如,如结合图4-图7所述的电路可完全支持卷积层或深度层。完全连接的层具有维度为1*1的输入特征映射,因此与卷积层相比,减少了单个输入中权重的重用。然而,多个输入(例如结合图7描述的)仍然可以使用相同的权重。这有助于完全连接的层受益于图7中所述的多个累加器电路,并且加速了这些层的操作。这可以通过使用接收到的数据填充LUT和使用权重访问LUT来实现。在这种情况下,LUT内容是在运行时计算的。
在某些情况下,ML网络可包括分别具有+1/-1或+1/0/-1的值的二元或三元权重。在这种情况下,基于权重构建LUT可能相对低效,因为在这种情况下,核心卷积主要包括加法或减法函数。替代地,可以基于接收到的数据A[K]和访问LUT的权重来填充LUT中的信息。这是因为权重被限定为固定值,而不是根据节点变化。接收到的数据未知,因此可以在运行时预计算数据值,并基于权重将其放入LUT中。
图8图示了用于预计算数据800的电路。通常,LUT的内容基于接收到的数据,该数据基于ML过程(例如,ML算法)的输入而变化。在该示例中,接收的数据的A[k]位可被提供给一组1位加法和减法电路(与权重为+1/-1相关),以便预计算一组可能的输出值。例如,对于四位的接收的数据,A[0]可以与A[1]做加法或做减法,反之亦然,并且在单个(十二个时钟周期)运算中,这些结果既可以加到A[2]和A[3]的加减结果中,也可以从这些结果中减去,反之亦然,以获得十二个可能的输出值。该逐位加法和移位过程可针对每组四个接收位重复以填充LUT。通过预计算至少一些可能的输出值,对于具有8位接收数据和具有逐点或完全连接层的64位输入(M)到64位输出(Y)的二进制网络,处理层所需的64*64个总加法可以减少到16*64个加法,加上预计算可能输出值所需的12个加法。在某些情况下,预计算的可能输出值能够填充LUT。
图9图示了用于增加由上述电路实现的ML过程(例如,ML算法)的处理吞吐量的技术900。在框902处,接收用于ML过程的第一组信息。在第一示例中,接收适用于ML过程的节点的权重。在第二示例中,在运行时,对ML过程的接收数据进行预处理,以确定一组可能的输出值。在框904处,第一组信息通过SRAM单元阵列存储在查找表中,其中SRAM单元以行和列的形式排列。例如,第一数据写入SRAM阵列,因此SRAM阵列包括针对第一组信息的查找表。在框906处,基于用于ML过程的第二组信息选择SRAM单元组。在第一示例中,接收到的数据可以以逐位方式使用以选择将提供其数据的特定行的SRAM单元。在框908处,存储在查找表中的数据可以基于特定行的选择的SRAM单元从SRAM阵列中的查找表连续地突发出来。
如图10所示,计算设备1000包括处理元件,诸如处理器1005(例如,微处理器),其包含一个或多个硬件处理器,其中每个硬件处理器可以具有单个或多个处理器核。处理器的示例包括但不限于中央处理单元(CPU)或微处理器。尽管在图10中未示出,但是形成处理器1005的处理元件还可以包括一个或多个其他类型的硬件处理部件,诸如图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和/或数字信号处理器(DSP)。在某些情况下,处理器1005可被配置为执行结合图7的模块710-716、724-730描述的任务。
如图10所示,存储器1010可以操作地且通信地耦合到处理器1005。存储器1010可以是配置为存储各种类型的数据的非暂时性计算机可读存储介质。例如,存储器1010可以包括一个或多个易失性设备,例如随机存取存储器(RAM)。在某些情况下,如图4-图8所描述的SRAM和电路可以是存储器1010的一部分。非易失性存储设备1020可以包括一个或多个磁盘驱动器、光盘驱动器、固态驱动器(SSD)、抽头驱动器、闪存、电可编程只读存储器(EEPROM)和/或配置为在断电或关机操作后在一段时间内保持数据的任何其他类型的存储器。非易失性存储设备1020还可以存储在执行这种程序时加载到RAM中的程序。
软件程序可以用各种计算语言为各种软件平台和/或操作系统开发、编码和编译,并随后由处理器1005加载和执行。在一个实施例中,软件程序的编译过程可以将以编程语言编写的程序代码转换为另一种计算机语言,因此处理器1005能够执行编程代码。例如,软件程序的编译过程可以生成可执行程序,该可执行程序为处理器1005提供编码指令(例如,机器代码指令),以完成特定的、非通用的、特定的计算功能。
在编译过程之后,编码的指令然后可以作为计算机可执行指令或过程步骤从存储设备1020、存储器1010加载到处理器1005和/或嵌入处理器1005内(例如,经由高速缓存或内部ROM)。处理器1005可被配置为执行所存储的指令或过程步骤,以便执行将计算设备转换为非通用、特定、特别编程的机器或装置的指令或过程步骤。在执行计算机可执行指令或过程步骤以指示计算设备1000内的一个或多个部件期间,处理器1005可以访问存储的数据(例如,由存储设备1020存储的数据)。存储设备1020可以被分区或分割成多个部分,这些部分可以由不同的软件程序访问。例如,存储设备1020可以包括指定用于特定目的的部分,例如存储用于更新计算设备1000的软件的程序指令或数据。在一个实施例中,要更新的软件包括计算设备的ROM或固件。在某些情况下,计算设备1000可以包括多个操作系统。例如,计算设备1000可以包括用于正常操作的通用操作系统。计算设备1000还可以包括另一操作系统,诸如引导加载程序,用于执行特定任务,诸如升级和恢复通用操作系统,并允许在通过通用操作系统通常不可用的级别上访问计算设备1000。通用操作系统和另一操作系统都可以访问指定用于特定目的的存储设备1020的部分。
通信接口1025可以包括配置成与一个或多个无线电通信设备接口的无线电通信接口。在某些情况下,耦合到处理器1005的元件可以集成在与处理器1005共享的硬件上。例如,通信接口1025、存储设备1020和存储器1010可以与诸如数字无线电的其他元件一起集成在单个集成电路或封装中,诸如集成在片上系统(SOC)中。计算设备1000还可以包括输入(和/或输出)设备1030,例如传感器、相机、人类输入设备(例如,鼠标、键盘、触摸屏)、监视器、显示屏、触觉或运动发生器、扬声器、灯光等。处理过的数据,诸如来自输入设备1030的数据,可以经由通信接口1025从计算设备1000向一个或多个其他设备提供。
在权利要求的范围内,在所描述的示例中可以进行修改,并且其他示例是可能的。

Claims (20)

1.一种存储器设备,包括:
静态随机存取存储器电路即SRAM电路,其包括按行和列排列并配置为存储数据的SRAM单元的阵列,SRAM阵列被配置为:
在所述SRAM阵列中的查找表中存储用于机器学习过程即ML过程的第一组信息;并且
从所述查找表沿所述SRAM单元的行连续访问来自选择的SRAM单元组的信息;以及
存储器控制器电路,其被配置为基于用于所述ML过程的第二组信息来选择所述SRAM单元组。
2.根据权利要求1所述的存储器设备,还包括:
第一开关电路,其被配置为基于来自所述第二组信息的位值来选择所述查找表的列;以及
第一累加器电路,其被配置为:接收从所选择的SRAM单元组访问的信息;以及当连续地访问接收的信息的第一位时,对第一位执行第一逐位加法和移位。
3.根据权利要求2所述的存储器设备,还包括:
第二开关电路,其被配置成基于来自第三组信息的位值来选择所述查找表的列;以及
第二累加器电路,其被配置为:接收从所述选择的SRAM单元组访问的所述信息;以及在连续访问接收的信息的第二位时,对第二位执行第二逐位加法和移位。
4.根据权利要求3所述的存储器设备,其中所述第一累加器电路和所述第二累加器电路包括一组1位全加器。
5.根据权利要求1所述的存储设备,其中所述第一组信息基于适用于所述ML过程的一个或更多个权重,并且所述第二组信息包括用于所述ML过程的输入数据。
6.根据权利要求1所述的存储设备,其中所述第一组信息包括用于所述ML过程的输入数据,并且所述第二组信息基于适用于所述ML过程的一个或更多个权重。
7.根据权利要求6所述的存储器设备,还包括被配置为基于所述输入数据计算一组可能的结果的电路。
8.一种系统,包括:
耦合到存储器电路的一个或更多个微处理器,所述存储器电路包括:
静态随机存取存储器电路即SRAM电路,其包括按行和列排列并配置为存储数据的SRAM单元的阵列,SRAM阵列被配置为:
在所述SRAM阵列中的查找表中存储用于机器学习过程即ML过程的第一组信息;以及
从所述查找表沿所述SRAM单元的行连续访问来自选择的一组所述SRAM单元的信息;以及
存储器控制器电路,其被配置为基于用于所述ML过程的第二组信息来选择该组所述SRAM单元。
9.根据权利要求8所述的系统,其中所述存储器电路包括:
第一开关电路,其被配置为基于来自所述第二组信息的位值来选择所述查找表的列;以及
第一累加器电路,其被配置为:接收从所述选择的一组所述SRAM单元访问的所述信息;以及当连续地访问接收的信息的第一位时,对第一位执行第一逐位加法和移位。
10.根据权利要求9所述的系统,其中所述存储器电路包括:
第二开关电路,其被配置成基于来自第三组信息的位值来选择所述查找表的列;以及
第二累加器电路,其被配置为:接收从所述选择的一组所述SRAM单元访问的所述信息;以及在连续访问接收的信息的第二位时,对第二位执行第二逐位加法和移位。
11.根据权利要求10所述的系统,其中第一累加器电路和第二累加器电路包括一组1位全加器。
12.根据权利要求8所述的系统,其中所述第一组信息基于适用于所述ML过程的一个更或多个权重,并且所述第二组信息包括用于所述ML过程的输入数据。
13.根据权利要求8所述的系统,其中所述第一组信息包括用于所述ML过程的输入数据,并且所述第二组信息基于适用于所述ML过程的一个或更多个权重。
14.根据权利要求13所述的系统,其中所述存储器电路包括被配置为基于所述输入数据计算一组可能的结果的电路。
15.一种方法,包括:
接收用于机器学习过程即ML过程的第一组信息;
将所述第一组信息存储在SRAM单元的阵列中的查找表中,所述SRAM单元按行和列排列;
基于用于所述ML过程的第二组信息选择一组所述SRAM单元;以及
从所述查找表沿所述SRAM单元的行连续访问来自所选择的一组所述SRAM单元的信息。
16.根据权利要求15所述的方法,还包括:
基于来自所述第二组信息的位值选择所述查找表的列;
接收从所述选择的一组所述SRAM单元访问的所述信息;以及
当连续地访问接收的信息的第一位时,对第一位执行第一逐位加法和移位。
17.根据权利要求16所述的方法,其进一步包括:
基于来自第三组信息的位值选择所述查找表的列;
接收从所述选择的一组所述SRAM单元访问的所述信息;以及
在连续访问接收的信息的第二位时,对所述第二位执行第二逐位加法和移位。
18.根据权利要求15所述的方法,其中所述第一组信息基于适用于所述ML过程的一个或更多个权重,并且所述第二组信息包括用于所述ML过程的输入数据。
19.根据权利要求15所述的方法,其中所述第一组信息包括用于所述ML过程的输入数据,并且所述第二组信息基于适用于所述ML过程的一个或更多个权重。
20.根据权利要求19所述的方法,还包括基于所述输入数据预计算一组可能的结果。
CN202111149473.4A 2020-10-01 2021-09-29 机器学习硬件加速器 Pending CN114267391A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/060,827 US20220108203A1 (en) 2020-10-01 2020-10-01 Machine learning hardware accelerator
US17/060,827 2020-10-01

Publications (1)

Publication Number Publication Date
CN114267391A true CN114267391A (zh) 2022-04-01

Family

ID=80824655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111149473.4A Pending CN114267391A (zh) 2020-10-01 2021-09-29 机器学习硬件加速器

Country Status (2)

Country Link
US (1) US20220108203A1 (zh)
CN (1) CN114267391A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102342994B1 (ko) * 2020-07-21 2021-12-24 고려대학교 산학협력단 산술 연산을 지원하는 인메모리 컴퓨팅

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11263522B2 (en) * 2017-09-08 2022-03-01 Analog Devices, Inc. Analog switched-capacitor neural network
US10769485B2 (en) * 2018-06-19 2020-09-08 Himax Technologies Limited Framebuffer-less system and method of convolutional neural network
US11726950B2 (en) * 2019-09-28 2023-08-15 Intel Corporation Compute near memory convolution accelerator

Also Published As

Publication number Publication date
US20220108203A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
CN107844828B (zh) 神经网络中的卷积计算方法和电子设备
CN108108811B (zh) 神经网络中的卷积计算方法和电子设备
CN107944545B (zh) 应用于神经网络的计算方法及计算装置
Kim et al. Z-PIM: A sparsity-aware processing-in-memory architecture with fully variable weight bit-precision for energy-efficient deep neural networks
Choi et al. An energy-efficient deep convolutional neural network training accelerator for in situ personalization on smart devices
US11281429B2 (en) Ternary in-memory accelerator
US20220269483A1 (en) Compute in memory accumulator
CN114267391A (zh) 机器学习硬件加速器
CN109978143B (zh) 一种基于simd架构的堆栈式自编码器及编码方法
KR20240036594A (ko) 인-메모리 연산을 위한 부분 합 관리 및 재구성가능 시스톨릭 플로우 아키텍처들
CN115879530A (zh) 一种面向rram存内计算系统阵列结构优化的方法
CN113378115B (zh) 一种基于磁性随机存储器的近存稀疏向量乘法器
Chen et al. BRAMAC: Compute-in-BRAM Architectures for Multiply-Accumulate on FPGAs
US20230068941A1 (en) Quantized neural network training and inference
TWI771014B (zh) 記憶體電路及其操作方法
CN117751346A (zh) 用于存储器中数字计算的折叠列加法器架构
US20220171602A1 (en) Integrated circuit for constant multiplication and device including the same
KR20240025540A (ko) 깊이별 콘볼루션을 위한 메모리 아키텍처에서의 컴퓨테이션
CN112132272B (zh) 神经网络的计算装置、处理器和电子设备
CN109416757B (zh) 用于处理数值数据的方法、设备和计算机可读存储介质
KR20190114208A (ko) 저전력 및 고속 연산을 위한 dram용 비트와이즈 컨볼루션 회로
CN114996646A (zh) 一种基于查找表的运算方法、装置、介质、及电子设备
US20240086152A1 (en) Calculation unit for multiplication and accumulation operations
US20230222315A1 (en) Systems and methods for energy-efficient data processing
CN118036682A (zh) 加法神经网络的存内计算实现方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination