CN110998486A - 超低功率神经元形态人工智能计算加速器 - Google Patents

超低功率神经元形态人工智能计算加速器 Download PDF

Info

Publication number
CN110998486A
CN110998486A CN201880053525.8A CN201880053525A CN110998486A CN 110998486 A CN110998486 A CN 110998486A CN 201880053525 A CN201880053525 A CN 201880053525A CN 110998486 A CN110998486 A CN 110998486A
Authority
CN
China
Prior art keywords
layer
ultra
accelerator
low power
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880053525.8A
Other languages
English (en)
Other versions
CN110998486B (zh
Inventor
Y·朴
Y·杜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110998486A publication Critical patent/CN110998486A/zh
Application granted granted Critical
Publication of CN110998486B publication Critical patent/CN110998486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3243Power saving in microcontroller unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3296Power saving characterised by the action undertaken by lowering the supply or operating voltage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/005Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor comprising combined but independently operative RAM-ROM, RAM-PROM, RAM-EPROM cells
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/02Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using magnetic elements
    • G11C11/16Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using magnetic elements using elements in which the storage effect is based on magnetic spin effect
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/54Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using elements simulating biological cells, e.g. neuron
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/0002Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
    • G11C13/0004Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements comprising amorphous/crystalline phase transition cells
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/18Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof the devices being of types provided for in two or more different subgroups of the same main group of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/50Multistep manufacturing processes of assemblies consisting of devices, each device being of a type provided for in group H01L27/00 or H01L29/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Neurology (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Power Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Manufacturing & Machinery (AREA)
  • Image Analysis (AREA)
  • Control Of Transmission Device (AREA)

Abstract

描述了一种三维(3D)超低功率神经元形态加速器。该3D超低功率神经元形态加速器包括功率管理器以及多个层。该3D超低功率神经元形态加速器还包括在每一层上定义并且耦合到功率管理器的多个核。每个核至少包括处理元件、非易失性存储器、以及通信模块。

Description

超低功率神经元形态人工智能计算加速器
相关申请的交叉引用
本申请要求于2017年9月1日提交的题为“ULTRA-LOW POWER NEUROMORPHICARTIFICIAL INTELLIGENCE COMPUTING ACCELERATOR(超低功率神经元形态人工智能计算加速器)”的美国临时专利申请No.62/553,447的权益,其公开内容通过援引全部明确纳入于此。
背景
领域
本公开的某些方面一般涉及神经元形态人工智能(AI)计算,尤其涉及用于实现超低功率神经元形态人工智能计算加速器的系统和方法。
背景技术
可包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示由计算设备执行的方法。这些神经网络可被用于各种应用和/或设备,诸如网际协议(IP)相机、物联网(IoT)设备、自主车辆、和/或服务机器人。
卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已被广泛使用于模式识别和分类领域。
深度学习架构(诸如深度置信网络和深度卷积网络)是分层神经网络架构,其中第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,依此类推。深度神经网络可被训练以识别特征阶层并且因此它们已被越来越多地用于对象识别应用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并且可使用反向传播来微调。
具有低资源(诸如功率、计算能力、和/或电池寿命)的设备可使用外部设备来执行训练和/或分类。例如,可在远程服务器上训练用于移动设备的人工神经网络,并且随后将其部署在该移动设备上。附加地或替换地,移动设备可将所收集的数据发送给远程服务器以进行分类,以使得随后将在移动设备处接收到分类结果。
传送和接收训练和/或分类数据会造成安全风险、增加网络工作负载、和/或增大网络带宽。此外,在一些情形中,设备可能不能接入网络。因此,期望提供一种超低功率神经元形态人工智能计算加速器,其可以在端点(诸如移动设备或无人机)处用于推断以及训练。
概述
描述了一种三维(3D)超低功率神经元形态加速器。所述3D超低功率神经元形态加速器包括功率管理器以及多个层。所述3D超低功率神经元形态加速器还包括在每一层上定义并且耦合到所述功率管理器的多个核。每个核至少包括处理元件、非易失性存储器、以及通信模块。
还描述了一种制造三维(3D)超低功率神经元形态加速器的方法。所述方法包括:制造所述3D超低功率神经元形态加速器的第一层,所述第一层至少包括存储器单元。所述方法还包括:制造所述3D超低功率神经元形态加速器的第二层,所述第二层至少包括通信模块。所述方法进一步包括:制造所述3D超低功率神经元形态加速器的第三层,所述第三层至少包括处理元件。所述方法包括:将所述第二层堆叠在所述第一层上并将所述第三层堆叠在所述第二层上以形成所述超低功率神经元形态加速器。所述方法进一步包括:制造功率管理器以自适应地缩放所述超低功率神经元形态加速器的电压。
一种三维(3D)超低功率神经元形态加速器包括通信和功率管理层。所述通信和功率管理层包括通信模块和局部功率管理器。所述3D超低功率神经元形态加速器还包括包含存储器单元的存储器层。所述3D超低功率神经元形态加速器还包括逻辑计算层。所述逻辑计算层包括神经处理单元。所述逻辑计算层耦合到所述通信和功率管理处以及所述存储器层。另外,每个神经处理单元耦合到所述存储器单元中的一者和所述局部功率管理器中的一者。
这已较宽泛地勾勒出本公开的特征和技术优势以便下面的详细描述可以被更好地理解。本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
附图简述
在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
图1解说了根据本公开的某些方面的使用包括超低功率神经元形态人工智能计算加速器的片上系统(SOC)来设计神经网络的示例实现。
图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。
图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。
图4解说了设计其中存储器可与个体分布式处理单元对接的神经网络的示例实现。
图5解说了根据本公开的某些方面的使用包括超低功率神经元形态人工智能计算加速器的神经处理器来设计神经网络的示例实现。
图6解说了根据本公开的某些方面的具有多个核的超低功率神经元形态人工智能加速器的示例实现。
图7是解说根据本公开的某些方面的包括多层、多核超低功率神经元形态加速器的三维(3D)异步片上网络(ANOC)的框图。
图8是解说根据本公开的某些方面的包括多层、多核超低功率神经元形态加速器的三维(3D)异步片上网络(ANOC)的同构配置的框图。
图9是解说根据本公开的某些方面的三维(3D)异步片上网络(ANOC)超低功率神经元形态加速器的异构配置的框图。
图10解说了根据本公开的某些方面的制造三维超低功率神经元形态加速器的方法的简化流程图。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
尽管本文描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
神经元形态计算通过使用神经元形态电路在神经元之后建模的架构来利用大脑的优势。然而,实现神经元形态架构与依赖于全局时钟进行同步的常规计算机网络完全不同。相比之下,人脑是异步的,因为它不依赖于全局时钟。还希望降低神经元形态电路的功耗。
本公开的各方面涉及用于边缘计算平台的三维(3D)异步片上网络(ANOC)。在一种配置中,3D ANOC包括多层(例如,1至N层)、多核超低功率神经元形态加速器。多层、多核超低功率神经元形态加速器可以被称为3D ANOC加速器。为了减少空间并增加包装密度,3DANOC加速器的各层被堆叠。3D ANOC加速器可以通过堆叠由多个硅晶片和/或管芯组成的层来制造。堆叠的管芯可以使用诸如通孔的通道来垂直和水平地互连,以用作3D ANOC加速器的单个器件。与常规的二维(2D)工艺相比,3D ANOC加速器在更小的占地面积内以降低的功率实现了性能改进。
每一层可包括多个核(例如,集成电路)。每个核包括处理元件(例如,神经元)、存储器(例如,突触)、局部功率管理器(例如,功率管理集成电路(PMIC))、以及通信模块。在一种配置中,每个核是局部同步并且全局异步的。基于给定任务,可以根据需要同步多个核。
此外,存储器可以是混合存储器。例如,存储器可以是MRAM(磁阻式随机存取存储器)和/或RRAM(电阻式随机存取存储器)。与常规存储器形成对比,MRAM中的数据不存储为电荷或电流。相反,MRAM中的数据由磁存储元件存储。该元件由两个铁磁板形成。每个铁磁板保持磁化,由绝缘层隔开。两个板中的一个板是被设置成特定极性的磁体。可以改变另一板的磁化以匹配外部场的磁化以便储存存储器。RRAM是一种非易失性(NV)RAM,其改变跨电介质固态材料(例如,忆阻器)的电阻。在超低功率芯片中期望MRAM,因为MRAM相对于常规的易失性存储器(例如,静态随机存取存储器(SRAM))呈现减小的电流漏泄。
在MRAM中,铁磁层中的一个铁磁层可以具有在特定方向上固定的磁化,并且通常被称为基准层,其可互换地被称为固定层。另一铁磁层可以具有可以更改以表示“1”或“0”的磁化方向,并且通常被称为自由层。例如,在自由层磁化与固定层磁化反平行时可表示“1”。另外,在自由层磁化与固定(基准)层磁化平行时可表示“0”,反之亦然。具有固定(基准)层、隧穿层和自由层的一种此类器件是磁性隧道结(MTJ)。MTJ的电阻取决于自由层磁化和固定层磁化是彼此平行还是彼此反平行。存储器器件(诸如MRAM)是从可个体寻址的MTJ阵列构建的。
图1解说了根据本公开的某些方面的超低功率神经元形态人工智能加速器的片上系统(SOC)100的示例实现,其可包括单核中央处理单元(CPU)或多核CPU。变量(例如,神经信号和突触权重)、与计算设备相关联的系统参数(例如,带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU 102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、专用存储器块118中,或可跨多个块分布。在CPU 102处执行的指令可从与CPU 102相关联的程序存储器加载或可从专用存储器块118加载。
SOC 100还可包括为具体功能定制的附加处理块(诸如GPU 104、DSP 106、连通性块110(其可包括第五代连通性(5G)、第四代长期演进(4G LTE)连通性、无执照Wi-Fi连通性、USB连通性、蓝牙连通性等))以及例如可检测和识别姿势的多媒体处理器112。在一种实现中,NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)、和/或导航120(其可包括全球定位系统)。SOC 100可基于ARM指令集。
深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式,深度学习解决了常规机器学习的主要瓶颈。在深度学习出现之前,用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征,或许与浅分类器相结合。浅分类器可以是两类线性分类器,例如,其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类别。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相比之下,深度学习架构可学习以表示与人类工程师可能会设计的类似的特征,但它是通过训练来学习的。此外,深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。
深度学习架构可以学习特征阶层。例如,如果向第一层呈递视觉数据,则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中,如果向第一层呈递听觉数据,则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合,诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如,更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。
深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如,机动车辆的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。
神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述,可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
神经网络的各层之间的连接可以是全连接的或局部连接的。图2A解说了全连接神经网络202的示例。在全连接神经网络202中,第一层中的神经元可将它的输出传达给第二层中的每个神经元,从而第二层中的每个神经元将从第一层中的每个神经元接收输入。图2B解说了局部连接的神经网络204的示例。在局部连接的神经网络204中,第一层中的神经元可连接到第二层中有限数目的神经元。更一般化地,局部连接的神经网络204的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,210、212、214和216)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连接的神经网络的一个示例是卷积神经网络。图2C解说了卷积神经网络206的示例。卷积神经网络206可被配置成使得与第二层中的每个神经元的输入相关联的连接强度被共享(例如,208)。卷积神经网络可能非常适合于其中输入的空间位置有意义的问题。
一种类型的卷积神经网络是深度卷积网络(DCN)。图3解说了DCN 300的详细示例,其被设计成从来自图像捕捉设备330(诸如车载相机)的图像326输入中识别视觉特征。可对该示例的DCN 300进行训练以标识交通标志以及在交通标志上提供的数字。当然,DCN 300可以被训练用于其他任务,诸如标识车道标记或标识交通信号灯。
可以用受监督式学习来训练DCN 300。在训练期间,可向DCN 300呈递图像(诸如限速标志的图像326),并且随后可计算“前向传递(forward pass)”以产生输出322。DCN 300可包括特征提取部分和分类部分。在接收到图像326之际,卷积层332可将卷积核(未示出)应用于图像326以生成第一组特征图318。作为示例,卷积层332的卷积核可以是生成28x28特征图的5x5核。在本示例中,由于在第一组特征图318中生成四个不同的特征图,因此在卷积层332处四个不同的卷积核被应用于图像326。卷积核也可被称为滤波器或卷积滤波器。
第一组特征图318可由最大池化层(未示出)进行子采样以生成第二组特征图320。最大池化层减小第一组特征图318的大小。即,第二组特征图320的大小(诸如14x14)小于第一组特征图318的大小(诸如28x28)。经减小的大小向后续层提供类似的信息,同时减小存储器消耗。第二组特征图320可经由一个或多个后续的卷积层(未示出)进行进一步卷积以生成一个或多个后续各组特征图(未示出)。
在图3的示例中,第二组特征图320被卷积以生成第一特征向量324。此外,第一特征向量324被进一步卷积以生成第二特征向量328。第二特征向量328的每个特征可包括与图像326的可能特征(诸如“标志”、“60”和“100”)相对应的数字。softmax函数(未示出)可将第二特征向量328中的数字转换成概率。如此,DCN 300的输出322是图像326包括一个或多个特征的概率。
在本示例中,输出322中“标志”和“60”的概率比其他输出322(诸如“30”、“40”、“50”、“70”、“80”、“90”和“100”)的概率更高。在进行训练之前,由DCN 200产生的输出322很可能是不正确的。由此,可在输出322与目标输出之间计算误差。目标输出是图像326的地面实况(例如,“标志”和“60”)。DCN 300的权重随后可被调整以使得DCN 300的输出322与目标输出更紧密地对齐。
为了调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层,该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”,因为其涉及在神经网络中的“反向传递(backward pass)”。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复,直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。
在学习之后,可向DCN呈递新图像(例如,326)并且在网络中的前向传递可产生输出322,其可被认为是该DCN的推断或预测。
深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类别的信息的情况下学习概率分布,因此RBM经常被用于无监督式学习中。使用混合无监督式和受监督式范式,DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器,而顶部RBM可按受监督方式(在来自先前层的输入和目标类别的联合分布上)被训练并且可用作分类器。
深度卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络的计算负担小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维的(3D),其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层中形成特征图,该特征图(例如,320)中的每个元素从先前层(例如,318)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。
图4解说了根据本公开的某些方面的卷积神经处理器的示例实现400,其中存储器402可经由互连网络404与计算网络(神经网络)的个体(分布式)处理单元(神经处理器)406对接。与计算网络(神经网络)相关联的变量(神经信号)、突触权重、系统参数,延迟,频率槽信息,相对激活,和/或连接失衡可被存储在存储器402中,并且可从存储器402经由互连网络404的(诸)连接被加载到每个处理单元(神经处理器)406中。
图5解说了根据本公开的某些方面的使用神经处理器502的超低功率神经元形态人工智能加速器的核的示例实现500。与计算网络(神经网络)相关联的变量(神经信号)、突触权重、系统参数,延迟,以及频槽信息可被存储在存储器块504中,而在神经处理器502处执行的指令可从程序存储器506中加载。程序存储器506和存储器块504可以是不同的单元或相同的单元。
图6解说了具有多个核的超低功率神经元形态人工智能加速器的示例实现600。如图6中所解说的,存储器组602可与计算网络(神经网络)的处理单元604直接对接。每一个存储器组602可存储与对应的处理单元(神经处理器)604相关联的变量(神经信号)、突触权重、和/或系统参数,延迟,频率槽信息,相对激活,和/或连接失衡。
图7是解说根据本公开的某些方面的包括多层、多核超低功率神经元形态加速器的三维(3D)异步片上网络(ANOC)的框图。3D ANOC加速器700包括同构配置中的多个层702(702-1,…,702-N),这些层被堆叠以减少空间消耗。在该同构配置中,多个层702中的每一层包括多个核720。例如,多个核720中的每个核包括处理元件(PE)730(例如,神经元)、局部功率管理器740(例如,功率管理集成电路(PMIC))、通信模块750、以及存储器760(例如,突触)。
人脑不包括时钟,因此,本公开的各方面涉及异步通信。即,在一种配置中,神经元形态加速器被实现为3D异步片上网络(ANOC),其在本文中可被称为3D ANOC加速器。3DANOC加速器的该实现寻求弥合常规神经元形态处理器与人脑之间的间隙。人脑由大约100万亿个突触组成,并且使用大约20瓦特(W)的总功率。由此,在常规神经元形态处理器与人脑之间存在大约1000倍的能量间隙。
如图7中所示,本公开的各方面涉及用于边缘计算平台的超低功率神经元形态加速器。为了弥合人脑与常规神经元形态处理器之间的间隙,3D ANOC加速器700可被配置有亚阈值电压核(例如,约0.2伏(V))。例如,可通过选择超低电压友好工艺(诸如举例而言,完全耗尽的绝缘体上覆硅(FD-SOI)或其他类似的超低电压工艺)来制造多个核720。另外,多个核720可被配置成执行自适应电压缩放到亚阈值电压(例如,0.2V到0.25V)。另外,多个核720内的晶体管可以用纳米大小的机械开关(例如,微机电系统(MEMS)开关)代替。
在图7中所示的配置中,存储器760可使用非易失性(NV)存储器(诸如MRAM(磁阻式随机存取存储器))来实现,以进一步近似人脑。在超低功率芯片中需要MRAM,因为MRAM相对于常规的易失性存储器(例如,静态随机存取存储器(SRAM))呈现减小的电流漏泄。电阻式随机存取存储器(RRAM)是一种非易失性(NV)RAM,其改变跨电介质固态材料(例如,忆阻器)的电阻。RRAM也可呈现类似的减小的电流漏泄以实现存储器760。相变存储器(PCM)也可被用于实现存储器760。在该配置中,存储器760包括多个突触,例如256个突触。PCM,MRAM和RRAM是呈现接近零漏泄的非易失性存储器的示例。然而,MRAM在耐久性(例如,写周期)和速度(例如,读/写等待时间)方面胜过PCM和RRAM存储器。
根据本公开的各方面,多个核720各自包括时钟,使得多个核720的突触局部同步。即,3D ANOC加速器700可以是全局异步并且局部同步的。全局异步通信配置避免了常规同步设计常见的全局时钟。尽管多个核720相对于彼此是异步的,但每个核自身可以是同步的或异步的。在一种配置中,可以根据需要同步多个核720。另外,通信模块750可被用于跨相同或不同层与多个核720通信。多个核720之间的通信通道770可以是使用例如光纤的纵横(X-bar)实现。用于实现通信通道770的其他示例包括甚高带宽的管芯间链路和物理层(PHY)桥。如果3D管芯到管芯处理能提供高密度细粒度链路,则也可以使用直接垂直通孔来实现通信通道770。
图8是解说根据本公开的某些方面的包括多层、多核超低功率神经元形态加速器的三维(3D)异步片上网络(ANOC)的同构配置的框图。3D ANOC加速器800以同构配置示出,其中每个层802(802-1,...,802-N)包括图7中所示的多个核720的相同配置。这种同构配置改善了系统可缩放性和可重新配置性,因为新的核(例如,720)和/或层(例如,802)由于异步操作而不必与全局时钟集成。同构配置降低了互连功率,同时消除了对每个突触(例如,存储器760)和神经元(例如,处理元件(PE)730)的扇入/扇出数目的限制。
可使用功率管理集成电路(PMIC)在局部功率管理器740中实现同构配置。在该配置中,可使用超低电压工艺(诸如完全耗尽(FD)-绝缘体上覆半导体(FD-SOI)晶片工艺或其他超低电压工艺)来制造局部功率管理器。局部功率管理器740可被配置成使用例如握手电路系统对毗邻核执行探听(snoop)来进行核到核通信以确定对应核的功率状态。
在本公开的一个方面,局部功率管理器740可被配置成提供自适应电压缩放以实现亚阈值电压(例如,0.2V至0.25V)操作。在该配置中,通过包括全局功率管理器(GPM)710来提供智能功率管理,以便与每个局部功率管理器740协调来为每一层702提供动态电压频率缩放(DVFS)和电源崩溃(power collapse)控制。在本公开的各方面中,GPM 710(被示出为片外)可以是片上或片外。在该示例中,GPM 710向一组核(例如,一层或多层上的核)递送功率,而局部功率管理器740为每个个体的核推导出功率。
在本公开的各方面,可使用概率图灵机来控制层802的电源崩溃控制,以在误差容限与功率之间进行折衷,以用于近似计算。即,基于任务的特异性/精确性,可以打开/关闭核。例如,当指定近似决定时,3D ANOC加速器800可以通过减少数量的核(例如,删减)来操作。另外,为训练而打开的核的数目可以小于用于推断/分类的核的数目。局部功率管理器可基于概率性近似来确定每个核(例如,720)的功率状态。
3D ANOC加速器800使用管芯上非易失性存储器(例如,存储器760)来实现突触。可以执行非易失性存储器的三维(3D)堆叠以存储大型网络的参数以实现边缘计算平台。使用非易失性存储器来实现存储器760涉及性能与能量效率之间的折衷(例如,减小的漏泄电流)。在本公开的各方面,存储器760被实现为非易失性存储器,诸如MRAM(磁阻式随机存取存储器)和/或RRAM(电阻式随机存取存储器)。
与常规存储器形成对比,MRAM中的数据不被存储为电荷或电流。相反,MRAM中的数据由磁存储元件存储。该元件由两个铁磁板形成。每个铁磁板保持磁化,由绝缘层隔开。两个板中的一个板是被设置成特定极性的磁体。可以改变另一板的磁化以匹配外部场的磁化以储存存储器。RRAM是一种非易失性(NV)RAM,其改变跨电介质固态材料(例如,忆阻器)的电阻。在超低功率芯片中需要MRAM,因为MRAM相对于常规的易失性存储器(例如,静态随机存取存储器(SRAM))呈现减小的电流漏泄。
自旋转移矩磁性随机存取存储器(STT-MRAM)是具有非易失性优势的新兴非易失性存储器。具体而言,嵌入有逻辑电路的STT-MRAM可在与片外动态随机存取存储器(DRAM)相当或更高的速度下操作。另外,STT-MRAM具有比嵌入式静态随机存取存储器(eSRAM)更小的芯片尺寸、与闪存相比几乎无限的读/写耐久性、以及低阵列漏泄电流。具体而言,相对于其他非易失性存储器选项(诸如电阻式RAM(RRAM)、铁电式RAM(FRAM)、嵌入式闪存(eFlash)等等),STT-MRAM是快速且非易失性的。
相比之下,静态RAM(SRAM)容易漏泄。作为结果,SRAM对于实现存储器760是不期望的。在本公开的该方面,存储器760使用非易失性存储器(例如,STT-MRAM)来形成混合和分布式存储器系统的一部分。例如,具有潜在较低写功率的非易失性存储器可被用于训练(例如,RRAM、MRAM)。在该示例中,具有潜在较低读功率的非易失性存储器可被用于推断/分类(例如,MRAM、相变存储器(PCM))。
图9是解说根据本公开的某些方面的三维(3D)异步片上网络(ANOC)超低功率神经元形态加速器900的异构配置的框图。在该异构配置中,3D ANOC加速器900包括堆叠在通信和功率层910上的逻辑计算层920,该通信和功率层910堆叠在3D堆叠中的存储器层902上。尽管示出了三层3D堆叠,但应当认识到,根据本公开的各方面构想了更少或更多的层。最大层数可以根据铸造Z高度限制来确定。
与图8中所示的同构配置形成对比,在该异构配置中,可使用不同的工艺节点来制造各个层。例如,在非易失性配置中,存储器层902的存储器单元960可使用不那么先进的工艺节点(例如,22或28纳米(nm))来制造。相比之下,逻辑计算层的处理元件(PE)930可使用先进的工艺节点(例如,7纳米(nm))来制造。通信和功率层910也可使用不那么先进的工艺节点(例如,40纳米(nm))来制造。这种灵活性可以实现相对于图8中所示的同构配置以降低的成本来制造3D ANOC加速器900,因为3D ANOC加速器800的层802用先进的工艺节点制造以支持边缘计算平台(例如,边缘人工智能(AI))。
在该配置中,存储器层902包括存储器单元960,由于低阵列漏泄电流,存储器单元960可被配置为使用自旋转移矩磁随机存取存储器(STT-MRAM),以更紧密地近似人脑的功率使用(例如,20瓦)。存储器层902可以形成混合和分布式非易失性存储器系统。例如,具有潜在较低写功率的非易失性存储器可被用于训练(例如,RRAM、MRAM)。在该示例中,具有潜在较低读功率的非易失性存储器可以在3D ANOC加速器900的操作期间用于推断/分类(例如,MRAM、相变存储器(PCM))。
通信和功率层910包括可以配对在一起的局部功率管理器940和通信模块950。局部功率管理器940可被配置成对处理元件(PE)930执行探听以确定处理元件(PE)930的功率状态。可使用例如握手电路系统来执行探听以使用通信模块950跨各层(例如,902、910和920)通信。可以跨3D ANOC通信通道970、存储器通道980、以及功率通道990(或电源轨)执行通信。在本公开的一个方面,存储器层902可被配置成提供自适应电压缩放以实现亚阈值电压(例如,0.2V至0.25V)操作。在该配置中,存储器层902提供智能功率管理以协调每个局部功率管理器940以提供动态电压频率缩放(DVFS)。
图10描绘了根据本公开的各方面的制造三维超低功率神经元形态加速器的方法1000的简化流程图。在框1002,制造3D超低功率神经元形态加速器的第一层以至少包括存储器单元。例如,如图8的同构配置中所示,第一层(例如,802-1)可被制造成包括存储器760(例如,突触)。替换地,在图9的异构配置中,存储器层902被制造成包括存储器单元960。在框1004,制造3D超低功率神经元形态加速器的第二层以至少包括通信模块。例如,如图8的同构配置中所示,层(例如,802-N)可被制造成包括通信模块750。替换地,在图9的异构配置中,通信和功率层910被制造成包括通信模块950。
再次参照图10,在框1006,制造3D超低功率神经元形态加速器的第三层以至少包括处理元件。例如,如图8的同构配置中所示,层(例如,802-N)可被制造成包括多个核720的处理元件(PE)730。替换地,在图9的异构配置中,逻辑计算层920被制造成包括处理元件(PE)930。在框1008,将第二层堆叠在第一层上并将第三层堆叠在第二层上以形成超低功率神经元形态加速器。例如,如图8中所示,层802被堆叠以形成3D ANOC加速器800。
在框1010,制造功率管理器以自适应地缩放超低功率神经元形态加速器的电压。例如,如图8的同构配置中所示,层(例如,802-N)可被制造成包括多个核720的局部功率管理器740。替换地,在图9的异构配置中,通信和功率层910被制造成包括局部功率管理器940和通信模块950。超低功率神经元形态加速器的三维(3D)堆叠使得能够存储神经网络的参数以支持边缘计算平台。此外,由局部/全局功率管理器提供的电压缩放使得超低电压操作能够更紧密地近似人脑。
在可任选配置中,在框1012,在第一层、第二层和第三层之间制造通信通道。例如,如图9中所示,提供3D ANOC通信通道970、存储器通道980和功率通道990以用于存储器层902、通信和功率层910、以及逻辑计算层920之间的通信和/或协调。通信通道使得能够在相同层和/或不同层上与多个核(例如,920)中的其他核进行通信。在另一可任选配置中,在框1014,在第一层、第二层和第三层中的每一层上制造处理元件、存储器单元、以及通信模块。例如,如图8的同构配置中所示,每一层802(802-1,...,802-N)包括图7中所示的多个核720的相同配置。
在又一可任选配置中,在框1016,全局功率管理器被配置成与每个局部功率管理器协调以自适应地缩放超低功率神经元形态加速器的电压。此外,在另一可任选配置中,在框1018,基于各个核中的一个核的毗邻核的功率状态来确定各个核中的该一个核的功率状态。可以执行该过程以实现针对每一层的动态电压缩放和/或电源崩溃控制。如所描述的,第一层、第二层和第三层是不同的层。此外,第一层、第二层和第三层并非指代层的实际位置。即,前述第一层不限于多个层中的第一层。相反,第一层可以是多个层中的任何层。类似地,第二和第三层可以是多个层中的任何层。
以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块,包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言,在附图中有解说的操作的场合,那些操作可具有带相似编号的相应配对装置加功能组件。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或其他数据结构中查找)、探知及诸如此类。另外,“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外,“确定”可包括解析、选择、选取、确立及类似动作。
如本文中所使用的,引述一列项目“中的至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一个”旨在涵盖:a、b、c、a-b、a-c、b-c、以及a-b-c。
结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文中所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。
结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM,等等。软件模块可以包括单条指令、或许多条指令,且可分布在若干不同的代码段上,分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。替换地,存储介质可以被整合到处理器。
本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。
所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现,则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束,总线可以包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面,用户接口(例如,按键板、显示器、鼠标、操纵杆,等等)也可以被连接到总线。总线还可以链接各种其他电路,诸如定时源、外围设备、稳压器、功率管理电路以及类似电路,它们在本领域中是众所周知的,因此将不再进一步描述。
处理器可负责管理总线和一般处理,包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合,无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例,机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。
在硬件实现中,机器可读介质可以是处理系统中与处理器分开的一部分。然而,如本领域技术人员将容易领会的,机器可读介质或其任何部分可在处理系统外部。作为示例,机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品,所有这些都可由处理器通过总线接口来访问。替换地或补充地,机器可读介质或其任何部分可被集成到处理器中,诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置,诸如局部组件,但它们也可按各种方式来配置,诸如某些组件被配置成分布式计算系统的一部分。
处理系统可以被配置成通用处理系统,该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器,它们都通过外部总线架构与其他支持电路系统链接在一起。替换地,该处理系统可包括一个或多个神经元形态处理器以用于实现本文中所描述的神经元模型和神经系统模型。作为另一替换方案,处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束,本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。
机器可读介质可以包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可以包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例,当触发事件发生时,可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间,处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时,将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外,应领会,本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。
如果以软件实现,则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外,任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和
Figure BDA0002386059880000191
碟,其中盘(disk)常常磁性地再现数据,而碟(disc)用激光来光学地再现数据。因此,在一些方面,计算机可读介质可以包括非瞬态计算机可读介质(例如,有形介质)。另外,对于其他方面,计算机可读介质可以包括瞬态计算机可读介质(例如,信号)。上述的组合应当也被包括在计算机可读介质的范围内。
因此,某些方面可以包括用于执行本文中给出的操作的计算机程序产品。例如,此类计算机程序产品可以包括其上存储(和/或编码)有指令的计算机可读介质,这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面,计算机程序产品可包括包装材料。
此外,应当领会,用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如,此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地,本文中所描述的各种方法能经由存储装置(例如,RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供,以使得一旦将该存储装置耦合至或提供给用户终端和/或基站,该设备就能获得各种方法。此外,可利用适于向设备提供本文中所描述的方法和技术的任何其他合适的技术。
将理解,权利要求并不被限于以上所解说的精确配置和组件。可在上述方法和装置的布置、操作和细节上作出各种修改、变更和变型而不会背离权利要求的范围。

Claims (22)

1.一种三维(3D)超低功率神经元形态加速器,包括:
功率管理器;
多个层;以及
在每一层上定义并且耦合到所述功率管理器的多个核,每个核至少包括:
处理元件;
非易失性存储器;以及
通信模块。
2.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述功率管理器包括全局功率管理器,并且每个核包括局部功率管理器。
3.如权利要求2所述的3D超低功率神经元形态加速器,其特征在于,所述局部功率管理器包括功率管理集成电路(PMIC)。
4.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述多个核中的每个核是局部同步并且全局异步的。
5.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述非易失性存储器包括混合分布式存储器。
6.如权利要求5所述的3D超低功率神经元形态加速器,其特征在于,所述混合分布式存储器包括磁阻式随机存取存储器(MRAM)、电阻式随机存取存储器(RRAM)、相变存储器(PCM)、或者其组合。
7.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述多个层中的每一层对应于边缘计算平台的神经网络的相应层。
8.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述功率管理器基于概率性近似来确定所述多个核中的每个核的功率状态。
9.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述通信模块在相同层、不同层、或者其组合中的至少一者上与所述多个核中的其他核进行通信。
10.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,所述3D超低功率神经元形态加速器被集成到3D异步片上网络(3D ANOC)架构中。
11.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,各层具有相同的工艺节点。
12.如权利要求1所述的3D超低功率神经元形态加速器,其特征在于,各层具有不同的工艺节点。
13.一种制造三维(3D)超低功率神经元形态加速器的方法,包括:
制造所述3D超低功率神经元形态加速器的第一层,所述第一层至少包括存储器单元;
制造所述3D超低功率神经元形态加速器的第二层,所述第二层至少包括通信模块;
制造所述3D超低功率神经元形态加速器的第三层,所述第三层至少包括处理元件;
将所述第二层堆叠在所述第一层上并将所述第三层堆叠在所述第二层上以形成所述超低功率神经元形态加速器;以及
制造功率管理器以自适应地缩放所述超低功率神经元形态加速器的电压。
14.如权利要求13所述的方法,其特征在于,进一步包括:制造至少在所述第一层、所述第二层和所述第三层之间的通信通道。
15.如权利要求13所述的方法,其特征在于,进一步包括:在所述第一层、所述第二层和所述第三层中的每一层上制造所述处理元件、所述存储器单元和所述通信模块。
16.如权利要求13所述的方法,其特征在于,制造所述功率管理器包括:
在所述第一层、所述第二层和所述第三层中的每一层上制造局部功率管理器;以及
将全局功率管理器配置成与所述第一层、所述第二层和所述第三层中的每一层上的局部功率管理器协调以自适应地缩放所述超低功率神经元形态加速器的电压。
17.如权利要求16所述的方法,其特征在于,进一步包括:
基于所述多个核中的一个核的毗邻核的功率状态来确定所述多个核中的所述一个核的功率状态。
18.如权利要求13所述的方法,其特征在于,所述3D超低功率神经元形态加速器的所述第三层是使用与用于制造所述3D超低功率神经元形态加速器的所述第一层和/或所述第二层的工艺节点不同的工艺节点来制造的。
19.一种三维(3D)超低功率神经元形态加速器,包括:
通信和功率管理层,所述通信和功率管理层包括多个通信模块和多个局部功率管理器;
存储器层,所述存储器层包括多个存储器单元;以及
逻辑计算层,所述逻辑计算层包括多个神经处理单元,所述逻辑计算层耦合到所述通信和功率管理层以及所述存储器层,每个神经处理单元耦合到所述多个存储器单元中的一者和所述多个局部功率管理器中的一者。
20.如权利要求19所述的3D超低功率神经元形态加速器,其特征在于,进一步包括全局功率管理器,所述全局功率管理器被配置成协调所述多个局部功率管理器以自适应地缩放所述超低功率神经元形态加速器的电压。
21.如权利要求19所述的3D超低功率神经元形态加速器,其特征在于,所述多个存储器单元包括混合分布式非易失性存储器,所述混合分布式非易失性存储器包括磁阻式随机存取存储器(MRAM)、电阻式随机存取存储器(RRAM)、相变存储器(PCM)、或者其组合。
22.如权利要求19所述的3D超低功率神经元形态加速器,其特征在于,所述多个逻辑计算层中的每一层对应于边缘计算平台的神经网络的相应层。
CN201880053525.8A 2017-09-01 2018-09-01 超低功率神经元形态人工智能计算加速器 Active CN110998486B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762553447P 2017-09-01 2017-09-01
US62/553,447 2017-09-01
US16/119,929 2018-08-31
US16/119,929 US11609623B2 (en) 2017-09-01 2018-08-31 Ultra-low power neuromorphic artificial intelligence computing accelerator
PCT/US2018/049287 WO2019046835A1 (en) 2017-09-01 2018-09-01 COMPUTER ACCELERATOR OF ARTIFICIAL INTELLIGENCE NEUROMORPHIC TO ULTRA-LOW CONSUMPTION

Publications (2)

Publication Number Publication Date
CN110998486A true CN110998486A (zh) 2020-04-10
CN110998486B CN110998486B (zh) 2024-05-31

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631982A (zh) * 2020-12-25 2021-04-09 清华大学 基于众核架构的数据交换方法及装置
CN113568865A (zh) * 2021-05-18 2021-10-29 首都师范大学 面向自供能系统的存算一体架构及软件优化方法
CN114822611A (zh) * 2022-06-27 2022-07-29 波平方科技(杭州)有限公司 用于近似计算的磁性存储芯片、模组及系统级封装芯片
TWI806056B (zh) * 2020-07-03 2023-06-21 聯發科技股份有限公司 一種用於執行程序的裝置及方法
US11726544B2 (en) 2020-07-03 2023-08-15 Mediatek Inc. Dynamic agent for multiple operators optimization

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302295A1 (en) * 2012-07-31 2015-10-22 International Business Machines Corporation Globally asynchronous and locally synchronous (gals) neuromorphic network
CN105892989A (zh) * 2016-03-28 2016-08-24 中国科学院计算技术研究所 一种神经网络加速器及其运算方法
CN106951961A (zh) * 2017-02-24 2017-07-14 清华大学 一种粗粒度可重构的卷积神经网络加速器及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302295A1 (en) * 2012-07-31 2015-10-22 International Business Machines Corporation Globally asynchronous and locally synchronous (gals) neuromorphic network
CN105892989A (zh) * 2016-03-28 2016-08-24 中国科学院计算技术研究所 一种神经网络加速器及其运算方法
CN106951961A (zh) * 2017-02-24 2017-07-14 清华大学 一种粗粒度可重构的卷积神经网络加速器及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI806056B (zh) * 2020-07-03 2023-06-21 聯發科技股份有限公司 一種用於執行程序的裝置及方法
US11726544B2 (en) 2020-07-03 2023-08-15 Mediatek Inc. Dynamic agent for multiple operators optimization
CN112631982A (zh) * 2020-12-25 2021-04-09 清华大学 基于众核架构的数据交换方法及装置
CN113568865A (zh) * 2021-05-18 2021-10-29 首都师范大学 面向自供能系统的存算一体架构及软件优化方法
CN113568865B (zh) * 2021-05-18 2024-05-14 陈仁昭 面向自供能系统的存算一体架构及应用方法
CN114822611A (zh) * 2022-06-27 2022-07-29 波平方科技(杭州)有限公司 用于近似计算的磁性存储芯片、模组及系统级封装芯片

Also Published As

Publication number Publication date
US20190073585A1 (en) 2019-03-07
EP3676764A1 (en) 2020-07-08
US11609623B2 (en) 2023-03-21
TWI795434B (zh) 2023-03-11
US11733766B2 (en) 2023-08-22
US20220308653A1 (en) 2022-09-29
SG11202000384PA (en) 2020-03-30
WO2019046835A1 (en) 2019-03-07
TW201921295A (zh) 2019-06-01

Similar Documents

Publication Publication Date Title
US11733766B2 (en) Ultra-low power neuromorphic artificial intelligence computing accelerator
CN107851213B (zh) 神经网络中的转移学习
CN107209873B (zh) 用于深度卷积网络的超参数选择
US11776608B2 (en) Static random-access memory (SRAM) compute in-memory integration
CN111052151B (zh) 基于关注提议进行视频动作定位
US11500960B2 (en) Memory cell for dot product operation in compute-in-memory chip
CN114402339A (zh) 以存储器内计算阵列进行神经网络的卷积层的并行处理
TW201627923A (zh) 模型壓縮和微調
WO2019209658A1 (en) Learning a truncation rank of singular value decomposed matrices representing weight tensors in neural networks
CN114207628A (zh) 通过调整存储器内计算阵列的列阈值来执行xnor等效运算
US10777259B1 (en) Static random-access memory (SRAM) for in-memory computing
CN114270441B (zh) 用于在边缘设备上执行机器学习操作的可编程电路
US11270425B2 (en) Coordinate estimation on n-spheres with spherical regression
US11410040B2 (en) Efficient dropout inference for bayesian deep learning
EP4222650A1 (en) Multi-modal representation based event localization
CN110998486B (zh) 超低功率神经元形态人工智能计算加速器
Schmid Neuromorphic microelectronics from devices to hardware systems and applications
US20240160998A1 (en) Representing atomic structures as a gaussian process
CN117203643A (zh) 等变可调向卷积神经网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025011

Country of ref document: HK

GR01 Patent grant