CN110476174B

CN110476174B - 包括装置间连接性的神经网络处理器

Info

Publication number: CN110476174B
Application number: CN201880022145.8A
Authority: CN
Inventors: A·鲍姆; O·达农; H·泽特林; D·丘博塔里; R·菲格
Original assignee: Hailo Technologies Ltd
Current assignee: Hailo Technologies Ltd
Priority date: 2017-04-04
Filing date: 2018-04-03
Publication date: 2023-06-23
Anticipated expiration: 2038-04-03
Also published as: US11238331B2; US11354563B2; EP3607497A1; EP3607500A1; US11675693B2; CN110462643A; EP3607498A4; JP7191329B2; US20180285718A1; US11461614B2; US20180285736A1; JP7170281B2; WO2018185766A1; WO2018185763A1; EP3607499B1; US20180285735A1; EP3607500B1; EP3607501A1; CN110494869A; JP2020515991A

Abstract

一种新颖且有用的神经网络(NN)处理核，包括装置间互联性并适用于实现人工神经网络(ANN)。芯片到芯片接口以无缝的方式跨多个装置传播给定ANN模型。所述NN处理器由以分层架构组织的独立计算单元构成。同质性使得能够更简单地管理和控制聚合在多个层级中的类似的计算单元。计算单元被设计成具有尽可能最小的开销，其中另外的特征和能力聚合在层次结构中的更高级别。片上存储器为特定层次结构处的基本操作固有地需要的内容提供存储，并以最佳比率与计算资源耦接。精益控制提供正好足够的信令来管理仅特定层级处需要的操作。提供动态资源指派敏捷性，其可根据装置的资源可用性和容量按照需要进行调整。

Description

包括装置间连接性的神经网络处理器

技术领域

本文所公开的主题涉及神经网络领域，并且更特别地涉及神经网络(NN)处理引擎，所述神经网络处理引擎包括装置间连接性并且适于实现人工神经网络(ANN)。

背景技术

人工神经网络(ANN)是受构成动物大脑的生物神经网络启发的计算系统。这些系统通过考虑实例来学习(即逐步改进性能)以完成任务，而通常不需要通过提取那些任务中的关键特征并从大量的实例中进行概括来进行特定于任务的编程。例如，在图像识别中，它们可能学习通过分析已经被手动标记为“猫”或“非猫”的示例性图像并且使用分析结果来标识其他图像中的猫来标识包含猫的图像。它们已经发现在传统计算机算法中应用程序中的大多数用途难以使用基于规则的编程来表达。

ANN是基于一组称为人工神经元(类似于生物大脑中的神经元)的连接单元。神经元之间的每个连接或突触可将信号传递给另一个神经元。接收或突触后神经元连接到另一个或若干神经元,并且可处理信号并且然后通过突触(也称为轴突)向连接到它的下游神经元发信号。神经元可具有状态，总体上由实数表示，通常在0与1之间。神经元和突触还可具有随学习进行而变化的权重，这可增加或减小它发送到下游的信号的强度。此外，它们可具有阈值，使得只有聚合信号低于或高于所述级别时才发送下游信号。

通常，神经元按层组织。不同的层可对它们的输入执行不同类型的转换。信号可能在多次遍历层之后从第一(即，输入)层行进到最后(即，输出)层。

神经网络方法的初始目标是以同人类大脑相同的方式解决问题。随着时间的推移，关注集中于匹配具体的心智能力，这导致偏离生物学，诸如反向传播，或反向传递信息并且调整网络以反映该信息。

人工神经网络的部件包括：(1)具有激活阈值的神经元；(2)用于传递神经元的输出的连接和权重；(3)用于计算来自前代神经元输出的对神经元的输入的传播函数；以及(4)学习规则，其是一种算法，所述算法修改神经网络参数以便给定输入产生期望结果，这通常相当于修改权重和阈值。

鉴于要解决的具体任务和一类函数F，学习需要使用一组观察来找到在某种最佳意义上解决任务的函数。成本函数C被限定成使得：对于最佳解决方案，没有其他解决方案具有比最佳解决方案的成本小的成本。

成本函数C是特定解决方案距待解决的问题的最佳解决方案的距离的量度。学习算法搜索解决方案空间以找到具有最小可能成本的函数。

可使用反向传播来训练神经网络，所述反向传播是计算相对于ANN中的权重的损失函数的梯度的方法。反向传播的权重更新可通过熟知的随机梯度下降技术来完成。应注意，成本函数的选择取决于诸如学习类型(例如，监督、无监督、强化)和激活函数的因素。

有三种主要的学习范式，并且每种学习范式对应于一个特定的学习任务：监督学习、无监督学习和强化学习。监督学习使用一组实例对，并且目标是在与实例匹配的允许的一类函数中查找函数。常用的成本是均方误差，它尝试使所有实例对上的网络输出与目标值之间的平均平方误差最小化。使用称为多层感知器(MLP)的一类神经网络的梯度下降来使此成本最小化产生了用于训练神经网络的反向传播算法。监督学习的实例包括图像识别，即分类和回归，即函数逼近。

在无监督学习中，给出一些数据并使成本函数最小化，这可以是数据和网络输出的任何函数。成本函数取决于任务(即模型域)和任何先验假设(即模型的隐含特性、其参数和观察到的变量)。落入无监督学习范式的任务通常是估计问题；应用程序包括集群、统计分布的估计、压缩和过滤。

在强化学习中，通常不提供数据，而是由代理与环境的交互生成数据。在每个时间点处，代理执行动作，并且环境根据一些通常未知的动态生成观察和瞬时成本。目的是发现用于选择使长期成本(例如预期的累积成本)的一些量度最小化的动作的策略。环境的动态和每个策略的长期成本通常是未知但可估算的。

现今，神经网络的一个常见应用是分析视频流，即机器视觉。实例包括：工业工厂，其中机器视觉在制造商品的组装线上使用；自主车辆，其中机器视觉用于检测车辆路径中和车辆周围的对象等。

人工神经网络(ANN)具有固有结构，所述结构极大地依赖于归因于所谓的‘网络模型’的一组参数。这些参数通常被称为网络的“权重”，因为它们倾向于在其沿网络传播时作为其他中间值的缩放系数操作。用于确定权重值的过程称为训练，如上所述。当训练完成时，网络就会进入稳定状态，并且现在可与新的(即未知的)数据一起用于提取信息。这个阶段被称为“推断”阶段。

在推断期间，可观察所得的参数集(即权重)，并操纵它们产生更好的性能(即表示)。用于裁剪并量化权重的方法是已知的。然而，这些方法仅在进入推断阶段之前应用于训练模型上。这种方法确实产生更好的执行性能。然而，它没有充分探索和利用修改权重的可能性。另外，只有在训练之后，当ANN的权重已经收敛到令人满意的级别时，现有的解决方案才应用权重的量化。

发明内容

本发明是一种神经网络(NN)处理引擎，其适于实现人工神经网络(ANN)并包括装置间连接性。芯片到芯片接口以无缝的方式跨多个装置传播给定ANN模型。NN处理引擎或处理器(也称为神经计算机或神经芯片)的粒度性质使得能够容易地标识神经网络的基础并且以非常高效的方式实现宽泛范围的神经网络模型。NN处理器在选择(1)过度概括关于计算方面的架构与(2)聚合专用的计算能力单元中的计算之间的平衡时提供了一定的灵活性。本发明提供了一种特定于神经网络的改进的平衡，并尝试以适当的容量满足所需的容量。因此，所得的架构更为高效并且提供了明显更高的计算单元密度以及低得多的每单元功率消耗。

本发明的NN处理器的架构的若干关键特征包括以下：(1)计2单元是独立的并且被配置为充分利用来实现其目标任务；(2)分层架构提供同质性和自类似性，从而能够更简单地管理和控制聚合在层次结构中的多个级别中的类似的计算单元；(3)计算单元被设计成具有尽可能最小的开销，其中另外的特征和能力被放置在层次结构中的较高级别处(即聚合)；(4)片上存储器为特定层次结构处的基本操作固有地需要的内容提供存储，以最佳比率与计算资源耦接；(5)精益控制提供正好足够的控制来管理仅特定层级处需要的操作；以及(6)动态资源指派灵活性可根据可用性和容量按照需要进行调整。

本发明的实施方案的这种、另外的和/或其他的方面和/或优点在下面的详细描述中进行阐述；可能从详细描述进行推断；和/或可通过实践本发明的实施方案学习。

因此，根据本发明提供了一种用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的神经网络(NN)处理器集成电路(IC)装置，其包括：多个计算电路，每个计算电路包括计算元件、相关联的专用存储器元件和相关的控制逻辑；其中所述多个计算电路聚合在多个级别中以形成层次结构；其中所述层次结构中的更高级别通常更为复杂并且包括比更低级别更少数量的实例化；多个装置到装置接口电路，所述多个装置到装置接口电路操作来实现多个NN处理器装置之间的通信并将多个NN处理器装置互连。

根据本发明还提供了一种用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的神经网络(NN)处理器系统，其包括：多个互连的NN处理器集成电路(IC)装置，每个NN处理器装置包括：多个计算电路，每个计算电路包括计算元件、相关联的专用存储器元件和相关的控制逻辑；其中所述多个计算电路聚合在多个级别中以形成层次结构；其中所述层次结构中的更高级别通常更为复杂并且包括比更低级别更少数量的实例化；多个装置到装置接口电路，所述多个装置到装置接口电路操作来实现多个NN处理器装置之间的通信并将多个NN处理器装置互连；并且其中所述ANN跨所述多个互连的NN处理器装置的实现方式是基本上无缝的，从而导致等同于在单个NN处理器装置上实现的所述ANN的行为。

根据本发明进一步提供了一种由神经网络(NN)集成电路(IC)装置实现的方法，所述装置包括用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的NN处理器电路，所述方法包括：提供多个计算电路，每个计算电路包括计算元件、相关联的专用存储器元件和控制逻辑；将所述多个计算电路聚合到多个级别中以形成层次结构；其中所述层次结构中的更高级别更为复杂并且包括比更低级别更少数量的实例化；以及通过装置到装置接口电路将多个NN装置互连，从而实现它们之间的通信。

根据本发明还提供了一种由神经网络(NN)集成电路(IC)装置实现的方法，所述装置包括用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的NN处理器电路，所述方法包括：提供多个计算电路，每个计算电路包括计算元件、相关联的专用存储器元件和控制逻辑；将所述多个计算电路聚合到多个级别中以形成层次结构；其中所述层次结构中的更高级别更为复杂并且包括比更低级别更少数量的实例化；提供多个装置到装置接口电路，所述多个装置到装置接口电路操作来实现多个NN装置之间的通信并将多个NN装置互连。通过装置到装置接口电路将多个NN装置互连，从而实现它们之间的通信并形成NN系统；并且其中所述ANN跨所述多个互连的NN装置的实现方式是基本上无缝的，从而导致等同于在单个NN装置上实现的所述ANN的行为。

附图说明

在以下示例性实施方案中并参考附图进一步详细解释本发明，其中相同或类似的元件可以部分地由相同或类似的附图标号指示，并且各种示例性实施方案的特征是可组合的。本文仅以举例的方式参考附图描述本发明，在附图中：

图1是展示适于实现本发明的一个或多个部分的示例性计算机处理系统的框图；

图2是展示第一示例性人工神经网络的图；

图3是展示神经网络处理系统的示例性多层抽象的图；

图4是展示包括一个或多个NN处理核的示例性基于SoC的NN处理系统的高级框图；

图5是更详细地展示示例性NN处理核的高级框图；

图6是更详细地展示第一示例性低级处理元件(PE)的框图；

图7A是更详细地展示第二示例性低级处理元件(PE)的框图；

图7B是更详细地展示PE的四重乘法器(quad multiplier)的框图；

图8是更详细地展示第一示例性子集群的高级框图；

图9是更详细地展示第二示例性子集群的高级框图；

图10是更详细地展示第一示例性集群的高级框图；

图11是更详细地展示第二示例性集群的高级框图；

图12是更详细地展示集群间交叉连接器的高级框图；

图13是展示第一示例性存储器加窗方案的图；

图14是展示第二示例性存储器加窗方案的图；

图15是展示计算元件与存储器元件之间的第一示例性存储器可访问性的图，所述可访问性包括窗口大小和计算机访问可配置性；

图16是展示计算元件与存储器元件之间的第二示例性存储器可访问性的图；

图17是展示示例性基于分散/聚集的资源加窗技术的图；

图18是展示示例性存储器争用解决方案的框图；

图19是更详细地展示第一示例性层控制器的高级框图；

图20是更详细地展示L3存储器和子集群的层控制器接口的高级框图；

图21是更详细地展示第二示例性层控制器的高级框图；

图22是展示示例性NN处理器编译器/SDK的高级框图；

图23是展示NN处理器的灵活处理粒度和相关存储器对延迟的折衷的图；

图24是展示本发明的第一示例性多NN处理器SoC系统的图；

图25是展示本发明的第二示例性多NN处理器SoC系统的图；

图26是展示本发明的第一示例性多NN处理器SoC系统的图；

图27是展示本发明的第一示例性多NN处理器SoC系统的图；

图28是展示用于图2的第一示例性人工神经网络的示例性映射策略的图；

图29是展示第二示例性人工神经网络的图；

图30是展示图29的ANN的示例性多NN处理器SoC系统的图；

图31是展示第三示例性人工神经网络的图；

图32是展示图31的ANN的第一示例性多NN处理器SoC系统的图；并且

图33是展示图31的ANN的第二示例性多NN处理器SoC系统的图。

具体实施方式

在以下详细描述中，阐述了许多具体细节以便提供对本发明的充分理解。然而，本领域技术人员应当理解，可在没有这些具体细节的情况下实践本发明。在其他情况下，并未对熟知的方法、程序以及部件进行详细描述，以免使本发明模糊。

在已经公开的那些益处和改进中，本发明的其他目的和优点将通过以下结合附图的描述变得显而易见。本文公开了本发明的详细实施方案；然而，应当理解，所公开的实施方案仅仅是可以各种形式来体现的本发明的展示。另外，结合本发明的各种实施方案给出的实例中的每一个意图是说明性的而非限制性的。

在本说明书的结论部分特别指出并清楚地要求保护视为本发明的主题。然而，关于组织和操作方法连同其目标、特征和优点，通过在阅读附图时参考以下详细描述可最好地理解本发明。

附图构成本说明书的一部分，并且包括本发明的说明性实施方案，并且展示其各种目标和特征。此外，附图不一定按比例绘制，一些特征可被放大以示出特定部件的细节。另外，附图中所示的任何测量、规格等都意图是说明性的而非限制性的。因此，本文公开的具体结构细节和功能细节不应当被解释为是限制性的，而是仅仅作为教导本领域技术人员以不同方式采用本发明的代表性基础。另外，在认为适当的情况下，可以在这些附图中重复附图标号以指示对应的或类似的要素。

因为本发明的示出的实施方案可在大多数情况下使用本领域技术人员已知的电子部件和电路来实现，所以为了理解和了解本发明的基本概念并且为了不混淆或转移本发明的教义，将不会以比所认为必要更大的任何程度解释细节。

说明书中对方法的任何引用都应以必要的变更适用于能够执行方法的系统。说明书中对系统的任何引用都应以必要的变更适用于可由系统执行的方法。

在整个说明书和权利要求中，除非上下文清楚地另有指明，否则以下术语采用与本文明确相关联的含义。本文使用的短语“在一个实施方案中”、“在一个示例性实施方案中”和“在一些实施方案中”不一定指代一个或多个相同的实施方案，尽管它可能指代。此外，本文使用的短语“在另一个实施方案中”、“在一个替代性实施方案中”和“在一些其他实施方案中”不一定指代不同的实施方案，尽管它可能指代。因此，如下文所述，在不脱离本发明的范围或精神的情况下，本发明的各种实施方案可容易地组合。

另外，除非上下文清楚地另有指明，否则如本文所用的术语“或”是包含性的“或”运算符，并且等于术语“和/或”。术语“基于”不是排他性的，并且允许基于未描述的另外的因素，除非上下文清楚地另有指明。另外，在整个说明书中，“一个(a)”、“一个(an)”和“所述”的含义包括复数引用。“在……中”的含义包括“在……中”和“在……上”。

如本领域技术人员应当理解的，本发明可体现为系统、方法、计算机程序产品或其任何组合。因此，本发明可采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施方案的形式，所述实施方案在本文中一般都可称为“电路”、“模块”或“系统”。另外，本发明的实施方案可采取体现在任何有形的表达介质中的计算机程序产品的形式，所述任何有形的表达介质具有体现在介质中的计算机可用程序代码。

可在由计算机执行的计算机可执行指令(诸如程序模块)的一般上下文中描述本发明。一般来说，程序模块包括执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、部件、数据结构等。可在分布式计算环境中实践本发明，在所述环境中由通过通信网络链接的远程处理装置来执行任务。在分布式计算环境中，程序模块可定位在包括存储器存储装置的本地和远程计算机存储介质两者中。

可利用一个或多个计算机可用介质或一个或多个计算机可读介质的任何组合。计算机可用或计算机可读介质可以是例如但不局限于电子、磁性、光学、电磁、红外或半导体系统、设备、装置或传播介质。计算机可读介质的更具体实例(不完全列表)将包括以下各项：具有一个或多个导线的电连接件、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光学纤维、便携式光盘只读存储器(CDROM)、光学存储装置、诸如支持互联网或内联网的传输介质或磁性存储装置。应注意，计算机可用或计算机可读介质甚至可以是纸或其上印有程序的另一种合适介质，因为程序可通过例如对纸或其他介质进行光学扫描来以电子方式捕获，随后进行编译、解释或在必要时以合适的方式另外处理，并随后存储在计算机存储器中。在本文档的上下文中，计算机可用或计算机可读介质可以是可包含或存储程序以供指令执行系统、设备或装置使用或与其结合使用的任何介质。

用于进行本发明的操作的计算机程序代码可用一种或多种编程语言的任何组合来编写，所述编程语言包括面向对象的编程语言(诸如Java、Smalltalk、C++、C#等)、常规程序性编程语言(诸如“C”编程语言)、以及函数式编程语言(诸如Prolog和Lisp)、机器代码、汇编程序或任何其他合适的编程语言。程序代码可完全在用户的计算机上执行、部分地在用户的计算机上执行、作为独立的软件包执行，部分地在用户的计算机上且部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种场景中，远程计算机可通过使用任何类型的网络协议的任何类型的网络(包括例如局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可(例如，通过使用互联网服务提供商的互联网)连接到外部计算机。

下文参考根据本发明的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本发明。应当理解，流程图图解和/或框图中的每个方框以及流程图图解和/或框图中的方框的组合可由计算机程序指令实现或支持。这些计算机程序指令可提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生一种机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令创建用于实现流程图和/或框图的一个或多个方框中所指定的功能/动作的手段。

这些计算机程序指令还可存储在可引导计算机或其他可编程数据处理设备以特定方式起作用的计算机可读介质中，使得存储在计算机可读介质中的指令产生一种制品，所述制品包括实现流程图和/或框图的一个或多个方框中所指定的功能/动作的指令手段。

计算机程序指令还可加载到计算机或其他可编程数据处理设备上以致使在计算机或其他可编程设备上执行一系列操作步骤来产生计算机实现的过程，使得在计算机或其他可编程设备上执行的指令提供用于实现流程图和/或框图的一个或多个方框中所指定的功能/动作的过程。

本发明可与许多通用或专用计算系统环境或配置一起操作。可适合与本发明一起使用的熟知的计算系统、环境和/或配置的实例包括但不限于个人计算机、服务器计算机、云计算、手持式或膝上型装置、多处理器系统、基于微处理器、微控制器或微型计算机的系统、机顶盒、可编程消费电子产品、ASIC或FPGA核、DSP核、网络PC、小型计算机、大型计算机、包括任何上述系统或装置的分布式计算环境等。

此外，本发明可在包括视频和静态相机、传感器等的系统中操作，诸如存在于在自动化工厂、自主车辆中、存在于诸如平板电脑和智能电话的移动装置、安装在电网中的智能电表和用于机器人网络的控制系统中。通常，可使用可托管代理的任何计算装置来实现本发明。

在图1中示出展示适于实现本发明的一个或多个部分的示例性计算机处理系统的框图。用于实现本发明的示例性计算机处理系统(通常标记为10)包括通用计算装置11。计算装置11包括中央处理单元(CPU)12、主机/PIC/高速缓存桥接器20和主存储器24。

CPU 12包括一个或多个通用CPU核14和可选的一个或多个专用核16(例如，DSP核、浮点、GPU和神经网络优化核)。一个或多个通用核执行通用操作码，而专用核执行特定于其目的的功能。CPU12通过CPU本地总线18耦接到主机/PCI/高速缓存桥接器或芯片组20。第二级高速缓存存储器(未示出)可耦接到芯片组中的高速缓存控制器。对于一些处理器，外部高速缓存可包括第一级高速缓存。桥接器或芯片组20通过存储器总线20耦接到主存储器24。主存储器包括动态随机存取存储器(DRAM)或扩展数据输出(EDO)存储器、或其他类型的存储器(诸如ROM、静态RAM、闪存和非易失性静态随机存取存储器(NVSRAM)、磁泡存储器等)。

计算装置11还包括通过系统总线26(例如，PCI)耦接到CPU的各种系统部件。主机/PCI/高速缓存桥接器或芯片组20交接到系统总线26，诸如外围部件互连(PCI)总线。系统总线26可包括使用多种总线架构中的任一种的若干类型的熟知的总线结构中的任一种。示例性架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和也称为夹层总线的外围部件互连(PCI)。

连接到系统总线的各种部件包括但不限于：非易失性存储器(例如，基于硬盘的数据存储设备)28、连接到显示器32的视频/图形适配器30、连接到一个或多个输入装置(诸如鼠标34、平板电脑35、传声器36、键盘38和调制解调器40)的用户输入接口(I/F)控制器31、网络接口控制器42、连接到一个或多个外部外围设备(诸如打印机54和扬声器56)的外围接口控制器52。网络接口控制器42通过可包括互联网云、局域网(LAN)、广域网(WAN)、存储区域网(SAN)等的网络44耦接到一个或多个装置(诸如数据存储设备46、运行一个或多个远程应用程序50的远程计算机48)。小型计算机系统接口(SCSI)适配器(未示出)也可耦接到系统总线。SCSI适配器可耦接到各种SCSI装置，诸如CD-ROM驱动器、磁带驱动器等。

非易失性存储器28可包括各种可移动/不可移动、易失性/非易失性计算机存储介质，诸如从不可移动的非易失性磁介质读取或写入不可移动的非易失性磁介质的硬盘驱动器、从可移动的非易失性磁盘读取或写入可移动的非易失性磁盘的磁盘驱动器、从可移动的非易失性光盘(诸如CD ROM或其他光学介质)读取或写入可移动的非易失性光盘的光盘驱动器。可用于本示例性操作环境中的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于盒式磁带、闪存卡、多功能数码光盘、数字录像带、固态RAM和固态ROM等。

用户可通过连接到用户输入接口31的输入装置将命令和信息输入到计算机中。输入装置的实例包括键盘和指向装置、鼠标、轨迹球或触控板。其他输入装置可包括传声器、操纵杆、游戏手柄、卫星天线、扫描仪等。

计算机11可通过连接到一个或多个远程计算机(诸如远程计算机48)在网络环境中操作。远程计算机可包括个人计算机(PC)、服务器、路由器、网络PC、对等装置或其他公共网络节点，并且通常包括上述元件中的许多或全部。此类联网环境在办公室、企业范围计算机网络、内联网和互联网中是常见的。

当用于LAN网络环境中时，计算机11通过网络接口42连接到LAN 44。当用于WAN网络环境中时，计算机11包括调制解调器40或用于通过WAN(诸如互联网)建立通信的其他装置。可位于内部或外部的调制解调器40通过用户输入接口31或其它适当机构连接到系统总线26。

计算系统环境(通常标记为10)是合适的计算环境的一个实例，并且不意图暗示对本发明的使用或功能性的范围的任何限制。计算环境也不应被解释为具有与示例性操作环境中所展示的部件中的任何一个或所述部件的组合相关的任何独立性或要求。

在一个实施方案中，适于实现本发明的系统和方法的软件还可驻留在云中。云计算提供不需要最终用户知道递送服务的系统的物理位置和配置的计算、软件、数据访问和存储服务。云计算涵盖任何基于订阅或按次计费的服务，并且通常涉及提供动态可扩展且经常虚拟化的资源。云计算提供商通过互联网递送应用程序，所述应用程序可通过网页浏览器访问，而商业软件和数据存储在远程位置处的服务器上。

在另一个实施方案中，适于实现本发明的系统和方法的软件适于驻留在计算机可读介质上。计算机可读介质可以是可由计算机访问并且能够存储以供实现本发明的方法的计算机计算机程序稍后读取的任何可用介质。计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质。以举例而非限制的方式，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性、可移动和不可移动的介质。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪存存储器或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储设备、磁盒、磁带、磁盘存储设备或其他磁性存储装置、或可用于存储期望的信息并且可由计算机访问的任何其他介质。通信介质通常体现计算机可读指令、数据结构、程序模块或其他数据，诸如磁盘驱动单元内的磁盘。适于实现本发明的系统和方法的软件也可全部或部分地驻留在静态或动态主存储器中或者位于计算机系统的处理器内的固件中(即，在微控制器、微处理器或微型计算机内部存储器内)。

也可采用其他数字计算机系统配置来实现本发明的系统和方法，并且就特定系统配置能够实现本发明的系统和方法来说，它等同于图1的代表性的数字计算机系统并且在本发明的精神和范围内。

当它们被编程为根据来自实现本发明的系统和方法的程序软件的指令执行特定功能时，这种数字计算机系统实际上成为特定于本发明方法的专用计算机。为此所必需的技术是计算机系统领域的技术人员所熟知的。

应注意，实现本发明的系统和方法的计算机程序通常将分发给分发介质(诸如软盘、CDROM、DVD、闪存存储器、便携式硬盘驱动器等)上的用户。从那里，它们将通常被复制到硬盘或类似的中间存储介质。当要运行程序时，它们将从它们的分发介质或它们的中间存储介质加载到计算机的执行存储器中，从而将计算机配置成根据本发明的方法起作用。所有这些操作都是计算机系统领域的技术人员所熟知的。

附图中的流程图和框图展示根据本发明的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能性和操作。就这一点而言，流程图或框图中的每个方框均可表示代码的模块、片段或部分，所述代码包括用于实现一个或多个指定的逻辑功能的一个或多个可执行指令。还应注意，在一些替代性实现方式中，方框中提到的功能可以不按附图中提到的顺序出现。例如，连续示出的两个方框实际上可以大致上同时执行，或者这些方框有时可以按相反的顺序执行，这取决于所涉及的功能性。还应注意，框图和/或流程图图解中的每个方框以及框图和/或流程图图解中的方框的组合可由执行指定功能或动作的基于专用硬件的系统或者由专用硬件和计算机指令的组合来实现。

神经网络(NN)处理核

在非常高的级别上，ANN本质上是具有大量参数的函数，其在输入空间至输出空间之间进行映射。因此，ANN可被视为一系列计算。然而，ANN具有特定的内部结构和一组特性。考虑到这种独特的结构，神经网络(NN)处理器包括进行相同或类似数学运算的多个基本计算单元，所述多个基本计算单元在组合在一起时构成神经网络。

本文使用以下一组符号来唯一地描述网络：

ANN∝{X^<S>，Y^<T>，M^<W>} (1)

其中：

X^<S>表示输入数据集，其特征在于特定结构S；

Y^<T>表示输出数据集，其具有由T指示的格式；

M^<W>表示ANN模型，鉴于一组参数或权重(W)，所述ANN模型是将输入映射到输出的函数；

在图2中示出展示示例性人工神经网络的图。示例性ANN(通常标记为350)包括四个网络层352，其包括网络层1至网络层4。每个网络层包括多个神经元354。输入X₁至X₁₄是对网络层1的输入。将权重358应用到网络层中的每个神经元的输入。生成一个网络层的输出，所述输出形成对下一个网络层的输入，直到生成最后输出359(输出1至输出3)。

在一个实施方案中，本发明的架构包括多层架构(即不指代ANN层)，所述多层架构以其全部容量满足人工神经网络的计算需要。术语多层指的是类似于用于联网的熟知的ISO OSI层模型的方法，其以不同抽象级别描述了整体解决方案。

在图3中示出展示神经网络处理系统的示例性多层抽象的图。神经网络处理的等效模型(通常标记为410)包括六个层，其包括：层1(物理层412)，其包括组成各种单元的物理原语；层2(单元层414)，其包括成为神经网络基础的基本计算单元；层3(互连层416)，其包括提供网络连接性的互连结构；层4(管理层418)，其提供网络级别流控制、监测和诊断；层5(接口层420)，其提供应用层接口并映射到架构原语；以及层6(应用层422)，其包括基于神经网络的应用。

在图4中示出展示包括一个或多个NN处理核的示例性片上系统(SoC)NN处理系统的高级框图。SoC NN处理系统(通常标记为100)包括通过一个或多个合适的芯片到芯片接口可选地耦接到一个或多个另外的内部或外部NN处理器104的至少一个NN处理器集成电路(或核)102、适于将NN处理器耦接到各种片上系统元件108、微控制器单元(MCU)子系统118和一个或多个接口126的总线结构106。

在一个实施方案中，SoC 108包括自举电路块110、调试电路块112、电源电路块114和时钟电路块116。MCU子系统118包括控制器电路块120、指令存储器122和数据存储器124。接口126包括引脚复用器139和一个或多个熟知的接口，所述一个或多个熟知的接口包括相机串行接口(CSI)128、显示器串行接口(DSI)、以太网132、通用串行总线(USB)134、内部集成电路(I²C)接口136、串行外围接口(SPI)137和控制器局域网(CAN)接口138。应注意，这些接口作为实例示出，因为可实现不同接口的任何组合。

在图5中示出更详细地展示示例性NN处理核的高级框图。NN处理引擎或核60包括若干分层计算单元。最低层级是带有其自己的专用内部层1或L1存储器78的处理元件(PE)76，其中实现单独神经元。N个多个PE 76连同专用层2或L2存储器74组成称为子集群70的下一个层级。M个多个子集群70连同专用层3或L3存储器72、多个激活函数电路80和多个层控制器(LC)电路82组成集群66。多个L个集群连同专用层4或L4存储器64在NN处理器核60中，所述NN处理器核60还包括NN管理器电路62和到片外层5或L5存储器98的存储器接口68。多个总线接口86(即芯片到芯片接口)将NN处理器耦接到其他片外NN处理器芯片以获得另外的网络容量。总线接口84(即芯片到芯片接口)将NN处理器耦接到包括CPU 90、指令存储器92和数据存储器94的常规基于规则的机器(RBM)协处理器88。在替代性实施方案中，RBM协处理器通过合适的接口(例如，GPU、I²C等)可选地耦接到NN装置60。

应注意，在示例性NN处理器实施方案中，PE包括P＝16个神经元，子集群包括N＝64个PE，集群包括M＝64个子集群，并且NN核包括L＝8个集群。应当理解，NN处理器可实现为具有任何期望数量的层级以及每个级别内的任何数量的计算单元，并且不限于本文所述的仅出于展示目的而提供的实例。此外，任何数量的激活函数80和层控制器82可在集群级别或任何其他级别实现，这取决于NN处理器的设计目标和特定实现方式。

在一个实施方案中，NN管理器62是同驱动网络结构的功能一起控制以下两个数据管道的专用处理器：一个并行管道和一个串行管道。此处理器进行专用操作，这些操作是神经网络的控制平面本身的专用操作。示例性操作包括但不限于推断、训练、负载权重和更新权重。负载平衡和资源分配由外部软件工具链处理，所述外部软件工具链包括解决这些任务的一组工具，所述一组工具包括编译器、映射器和分配器。

在一个实施方案中，NN处理器包括用于存储权重的共享存储器，并且专用存储器元件用于存储上下文，从而实现相对较高的数据处理带宽。此外，NN处理器包括彼此严格分离且向计算元件提供带外控制的数据平面和控制平面。此外，NN处理器包括聚合级别之间的可配置互连器，以用于产生动态且可编程数据管路。

在另一个实施方案中，NN处理器能够并行实现多个ANN，其中每个ANN具有一个或多个网络层。NN处理器适于同时处理与ANN相关联的一个或多个输入数据流。由于NN装置的架构类似于ANN的结构，因此可将多个ANN视为单个宽ANN。应注意，在部署多个ANN时，鉴于足够的资源，外部工具链中的映射器操作来映射可用资源，同时NN管理器管理事件触发器。在这种情况下，由于装置的庞大并行性，在ANN的“层”内分组的每组资源彼此独立。

此外，NN处理器的计算元件操作来在输入数据流的子集的任何期望粒度下起作用，从而对存储器元件使用与延迟进行折衷，如下文更详细地描述的。

本发明的NN处理器在其实现方式中使用若干设计原则，包括：(1)准时使用系统资源；(2)根据需要动态分配系统资源；(3)利用时域和空间域来优化利用率和效率；以及(4)平衡可用系统资源上的负载。

应注意，本发明非常适合于实现ANN。通常，ANN是在三个阶段中实现的：建模、训练和推断，所述全部三个阶段在某种程度上由本发明的NN处理器解决。

关于建模，NN处理器能够静态地和动态地改变模型表示，从而反映其灵活性。使用“处理器”符号而不是“加速器”，因为后者通常先验地适于执行预定义的一组操作。关于训练，NN处理器支持即时且互补的训练操作，所述训练操作允许实现训练程序。这包括：(1)通过网络来回运行(即反向传播)；(2)动态应用丢弃；以及(3)对层性能和不良行为检测进行即时评估。在推断模式期间，ANN以最佳且高效的方式执行，并应用于新的输入。

本发明的NN处理器对组合在一起的若干特征进行组合，以提供极高的计算速率、小的芯片占用面积、低功率消耗、可扩展性、可编程性和灵活性来处理许多类型的神经网络。

第一特征包括由计算单元提供的计算结构(或计算能力)，所述计算单元被组织成各种聚合级别或层级，诸如PE、子集群、集群、NN核，如在本文公开的示例性系统中所描述的。计算结构包括基本计算元件，所述基本计算元件被配置为满足ANN的计算需要的特殊性质。计算结构的若干特征包括：(1)精益电路架构，从而允许实现相对大量的物理实体；(2)一次进行大量的乘积累加运算，其中加法作为累加执行；(3)数字表示的灵活性，包括整数和浮点以及不同的位宽；(4)四重乘法器支持，从而允许更高分辨率计算；以及(5)N路ALU支持，以用于提供优化存储器带宽的能力，即不是每个周期执行单个运算(诸如y←y+w*x)，可实现更为复杂的运算(诸如y←y+w₁*x₁+w₂*x₂)，这反映了硅复杂性的增加与所需的存储器访问减少之间的折衷。

第二个特征是控制平面和控制结构与数据结构的严格分离，这实现了控制的聚合以及整个数据结构(即数据平面)的非常“精益”或“微小”的控制。控制平面与数据平面分离，并且它因此可在使用相对少的控制线(例如在一些情况下通过单个控制线)来控制大量计算单元的意义上进行聚合。例如，考虑到PE中的乘法电路，单个控制信号同时发起数千个PE中的乘法运算。另外，控制平面的可编程性与数据平面的可编程性分离。NN核的数据结构的大规模并行性与控制平面的精益结构匹配。

这与带内控制的典型现有技术方法形成对比，在所述方法中，控制信号是接近数据施加的，这需要通过多个计算元件复制控制信号。此外，带外控制与传统的基于微控制器的技术形成对比，因为它不是基于冯·诺依曼机器的技术。

控制和数据结构分离的另一个优点在于控制仍然是可编程的。控制结构的非刚性实现方式和计算单元(即PE、子集群、集群等)的一般性质允许NN核处理多种类型的ANN(诸如卷积NN(CNN)、循环NN(RNN)、深度NN(DNN)、MLP等)、以及在卷积模式中实现的上述项的更复杂的实现方式和每一者的精细组合和特性(例如，步长、填充等)。

第三个特征是存储器结构的构造，包括存储器加窗。除了存储器的定位和分层结构之外，还与大量计算单元同时提供的是对存储器的高带宽访问。这是通过将特定计算单元的访问缩小到存储器的仅一小部分来实现的。因此，不提供对整个存储器的完全随机访问。而是，提供对存储器的仅相对较小的窗口的访问。这允许跨数千个计算单元同时访问，因此表示带宽与随机可访问性之间的折衷。由于单个计算单元存储器访问模式由ANN构造并明确限定，并且不需要对整个存储器的完全随机访问，因此访问可“被加窗”到仅该特定计算单元所需的那些少数存储块。因此，实现了极高的存储器带宽，由此数千个计算单元可同时访问存储器，与此同时，折衷是仅对是计算单元“本地”的存储器进行访问。

在一个实施方案中，NN处理器的架构包括控制平面和数据平面(或控制结构和数据结构)。控制平面负责配置并控制NN处理器中的所有数据计算单元。它包括数据流机器或处理器，所述数据流机器或处理器在一个实施方案中包括为神经网络操作定制的微代码。在本文所述的示例性NN处理器中，控制平面管理集群实体66，所述集群实体66用作下一个聚合层(即子集群70)的聚合器。子集群继而包括最基本的单元，即处理元件(PE)76，所述处理元件76由乘积累加(MAC)电路和本地存储器构成。PE层级包含存在于典型神经网络中的一组神经元实体。

在NN处理器中实现ANN的一个重要方面在于所有计算元件的控制和互连。本发明利用ANN中非常大量的计算元件。装置控制结构的一个特征在于它相对非常精益，因为它在大量计算资源之间共享。在一个实施方案中，NN处理器的特征是(1)数据与控制之间的严格分离，其中控制信令是在带外执行的并且不包括任何数据驱动的存储器访问；(2)控制与附加的计算资源之间的动态映射；以及(3)控制结构的灵活性和可编程性(即在编译时)。此外，NN处理器包括层控制器，所述层控制器包括微代码机器，其允许完全访问计算元件、存储器等的控制信令。

应注意，数据驱动的存储器访问指示涉及观察流动通过数据管路的数据的访问。NN处理器不需要这样。应注意，数据驱动的存储器访问在基于规则的机器中很常见，因为规则的性质依赖于数据，并且因此控制必须与数据交织在一起。例如，考虑语句：if(x>some_value)then do A。这意味着需要观察每个输入‘x’。相比之下，考虑将许多输入与阈值进行比较的机器。在这种情况下，微代码仅需要触发应用大量比较器的操作。然而，这种方法不能在RBM中采用，因为它意味着必须硬连线的大量操作，这否定了对机器进行编程的可能性。

相比之下，NN处理器使用极其有限的一组操作来在数据上操作。处理流的性质不涉及数据的值。因此，可聚合控制并利用相对较少的控制信号来驱动海量计算元件。例如，在NN装置中，需要64控制信号的控制总线来控制数千个计算单元。

在一个实施方案中，NN处理器被实现成使得功能性在需要其的若干聚合点处提供，如下文更详细地描述的。此外，NN处理器被配置为在计算和存储器资源方面大体平衡以确保系统实现最大利用率。

在NN处理器的容量对于特定神经网络来说不充足的情况下，总线接口86提供互连另外的NN处理器96以扩展超过单个处理器的限制。

在一个实施方案中，RBM协处理器子系统88被配置为支持不由NN处理器支持的一个或多个原语。此外，协处理器用作交换从ANN提取并指派给RBM的任务。

NN处理器基本上操作为数据流机器，这意味着计算仅基于数据的可用性来执行。数据流在层与层(类似于ANN中的层)之间划分。层内部的计算单元同步起作用(当数据在层的输入处准备好时开始并且当它们需要新的数据和/或需要将结果传递到下一层时结束)，这时层的状态机器与前一层和/或下一层的状态机器同步。

作为一个实例，带有两个密集层的MLP网络可被映射为(1)从核外部接收输入的一个层、(2)表示神经网络层的两个层、以及(3)将结果发送到核外部的一个层。

在一个实施方案中，输入层进行等待直到它接收到所有输入(例如，用于熟知的MNIST数据集的784输入)，并且然后就其输入已准备好向层1发信号。然后，层1执行所有需要的乘积累加(MAC)运算、激活函数，并且最终向层2发信号，所述层2继而重复相同步骤。当层2完成时，它向输出层发信号以将结果发送到NN核外部。

在另一个实施方案中，考虑到相同的网络，NN核在层1中在较小部分的输入数据上开始MAC，从而减少了输入层与层1之间所需的缓冲，这是以层1中状态机器的复杂性以及发信号期间的可能的计算效率损失为代价的。

数据在NN核中的集群66内部通过共享的L3存储器72传递，而信令通过专用互连器282(图11)执行，下文将更详细地描述。在一个实施方案中，在集群之间使用AXI4-流协议，所述协议处理数据平面和控制平面两者。为了防止闲置，层与层之间的互连器提供了双缓冲机制，使得一层将其输出写入一个缓冲器，同时第二层从第二缓冲器读取先前的输出作为其输入。

在一个实施方案中，在神经网络中使用数据流架构以及相对有限的一组基本操作使得能够显著降低控制分布的要求。

首先，关于正在执行的计算的大部分信息在限定了网络模型时是静态已知的，并且可因此先验地通过窄带接口加载，从而减少计算期间所需的控制线的数量。结果是，实现层的‘内核’的代码在针对每个网络模型恒定的准静态配置与在整个计算中变化的动态指令之间划分。

其次，每个动态‘指令’实际上包括指示层中的所有计算元件在每个周期中做什么的多个指令。由于每个计算元件具有相对简单的功能性，因此基本指令本身相对简单。在带外提供重复(即循环)和跳转指令，以避免浪费周期。

第三，计算的静态顺序与存储器中的适当参数排列相结合使得能够顺序访问存储器。因此，只需要用于访问存储器的地址增量指令而不是完全寻址。

第四，由于微代码非常紧凑，它可驻留在片上SRAM而无需预取、分支预测等。

第五，虽然层包括许多处理元件(PE)，但是只需要一个中央状态机器以及仅存储子状态的较小从状态机器来控制整个层的计算步骤，其中所述状态机器中的每一个控制多个PE。在一个实施方案中，全局使能位开始执行所有状态机器，并且全局同步复位信号将它们返回到初始状态。应注意，复位对配置存储器和数据存储器没有影响，因为控制平面确保不使用无效数据。

应注意，术语‘模型’用于描述准静态配置，所述准静态配置限定NN核中所有计算单元的动态行为。模型通常类似于ANN模型，但可能存在其他类型的模型，诸如为调试目的而加载的模型或用于将权重加载到存储器中的模型。

配置空间在类似存储器的接口中暴露，其中使用分层地址空间对模块进行寻址。权重加载通常在配置模型之前执行，并且通过配置控制信令来实现，所述控制信令将权重复制到相关存储块中并设定使能位。然后在禁用集群时加载推断模型，使控制复位，并且最终启用集群。

存储器层次结构

在一个实施方案中，NN处理器的存储器结构被设计来满足ANN的固有性质。因此，存储器以分层方式构造，以便满足各种存储器消费者的需要。这些消费者包括：(1)层间数据(即跨层输入/输出)；(2)层内信息(即上下文或中间结果)；以及(3)权重。各种存储器层(例如，本文公开的示例性实施方案中的五个)从较小的、高效的、较本地化的存储器变为较大、较低效的全局存储器。

在一个实施方案中，利用以下内容组织和构造存储器结构：(1)存储器的本地化，其中计算元件需要访问本地数据，所述本地数据允许任何给定计算元件对预定义且有限的存储器实体的可访问性；(2)结构化的组织，由此存储器内容在给定的一致物质中先验地组织；(3)有限的回忆性质(即读取一次)，其中大部分数据本质上是易失的，并且一旦被处理则被完全消费而在有限的程度上需要进一步访问它或无需进一步访问它；(4)管路式操作，在该处一个计算元件的输出数据用作另一个计算元件的输入数据。

如上所述，每个层级包含其自己的本地存储器。PE包括L1存储器，子集群包括L2存储器，集群包括L3存储器，NN核包括L4存储器，并且L5存储器位于SoC外部。下面在表1中呈现了一个示例性存储器层次结构。

表1：存储器层次结构

其中N表示子集群中的处理元件的数量，M是集群中的子集群的数量，并且L是NN处理器装置中的集群的数量。应注意，为每个存储器级别L1至L5指示的大小仅用于展示的目的。应当理解，在不脱离本发明的范围的情况下，可实现各种存储器层的任何期望的存储器大小。

应注意，下存储器层(例如，PE中的L1)的尺寸被设定得较小，但所述存储器层具有较大的带宽。上存储器层(例如，NN核中的L4)的尺寸被设定得大得多，但所述存储器具有少得多的通信量。

根据本发明，尽可能多的存储器被保持成尽可能近地接近需要它的位置，同时利用ANN中的存储器使用的局部性质来避免提供整个存储器与计算元件之间的全网状访问。为了克服上述策略所施加的限制，向消费者分配存储器是以“渐进”的方式完成的，使得具有具体角色的每个存储器级别在它需要更多资源时由更高级别补充，其中更高级别存储器用于ANN中具有不同要求的多个层之间的‘资源负载平衡’。

应注意，在一个实施方案中，这种‘溢出’是准静态特征，因为资源需求在选择模型时就已经知晓，并且因此不需要复杂的仲裁。此特征允许在每层中静态分配显著较少量的存储器资源，因为它们是根据标称情况而不是最坏情况分配的。

此外，存储器的“逐渐”分配的特征还在于上面简要描述的滑动窗口机制，其用于L3存储器中并在下文中更详细地描述。

处理元件(PE)

在一个实施方案中，基本计算单元是处理元件(PE)。在图6中示出更详细地展示示例性低级处理元件(PE)的框图。PE(通常标记为140)包括由乘法触发器177控制的一个或多个乘法器142、由加法器触发器171控制的加法器144、包括多个寄存器152的L1存储器150、由目的地控制175控制的目的地复用器146、由源控制173控制的源复用器148、由输出混洗控制178控制的写入复用器154、以及由输入混洗控制179控制的读取复用器156。

来自输入存储器158的输入(x)数据161和来自权重存储器160的权重(w)163分别根据输入控制和权重控制提供给一个或多个乘法器142。

神经网络中神经元的最基本的数学运算由以下限定：

其中：

x(i)指示输入数据集，其被组织成1D向量；

w(i，j)指示表示对输出j的第i个输入贡献的权重；

σ表示激活函数，其通常是非线性标量函数；

基本计算单元是PE并且包括反映神经元的内在操作的乘法/累加实体。中间结果或成果存储在L1存储器150中，所述存储器150是PE本地的。在本文所述的实例中，L1存储器具有特定的深度和宽度，例如，神经元的数量P＝16，所述神经元中的每一个是16位宽。应当理解，可使用具有任何期望的深度和宽度的L1存储器。L1存储器的深度P反映了PE可处理的同步‘神经元’或‘上下文’的数量。应注意，可通过将另外的神经元的中间结果存储在L2/L3存储器中来处理多于P个神经元(即上下文)。延迟受到影响，因为需要另外的时间来处理另外的神经元。提供P个神经元既通过将计算构造限制到绝对最小值来利用空间域，同时还通过存储多个上下文来利用时域。

处理内部上下文的能力提供了许多能力，诸如：(1)将多个逻辑神经元指派给单个物理神经元的能力(每个上下文存储一个神经元的输出)；(2)存储相同输入的多个中间结果，从而导致同时操作以及不同版本的权重的假设测试(例如，反向传播结果、基于梯度的校正值等)；(3)为了应用网络委员会的共同方法和多数票提取的目的，进行相同输入的多线程推断；(4)在资源可用时运行多个网络；以及(5)基于由NN管理器管理的整体网络容量进行的负载平衡。

在操作时，反映神经元功能性的上面的等式2在多个时间实例上传播并且如下文列表1中提供的那样实现。应注意，这仅是示例性实现方式，因为可通过将不同的微代码加载到层控制器(LC)642(图20)来使用其他序列。

列表1：神经元功能性

参考图6，PE包括针对权重(w)和输入(x)单独控制的计数元件以及对加法器和乘法器的表示格式的单独控制。它还包括单独控制的入口/出口L1条目索引，其允许操纵计算的顺序。累加函数的中间结果本地存储在L1存储器寄存器152中。此外，初始化期间的预处理使得L1存储器能够预加载有默认值(例如，先前的中间结果、偏置值等)。PE还包括中间存储器聚合控制，即分配步长。此外，激活函数被聚合以最小化面积开销，并且不是在PE或子集群级别实现，而是在集群级别实现。PE还支持激活旁路以允许级联。

预合成可配置性允许：(1)N路乘积累加(即Y＝Y+A₁*B₁+...+A_N*B_N)；(2)表示格式跨度(例如，每个条目支持k₀...k_N位，其具有m位尾数和e位指数，其中k＝m+e)；以(3)选择本地存储深度P。

在操作时，PE内的数据流相当灵活。加法器144的输出151可使用目的地控制175通过目的地复用器146转向以(1)通过路径162到激活函数；(2)通过路径164到L2或L3存储器；或(3)通过路径166到源复用器148。源复用器148通过源控制173选择(1)来自加法器的输出；或(2)来自L2或L3存储器168的中间结果。写入复用器通过输出混洗选择178选择神经元寄存器152中的一个，以通过P个路径172中的一个写入源复用器的输出。写入L1存储器的数据通常包括由于在许多周期期间执行的乘积累加运算而生成的中间结果。

通过将神经元寄存器连接到读取复用器156并通过输入混洗控制选择179选择的P个路径174中的一个从L1存储器中读出数据。读取复用器的输出176形成对加法器144的两个输入中的一个。对加法器的另一个输入是乘法器142的输出。应注意，在实现多个乘法器142的情况下，预加法器(未示出)用于使乘法器的输出相加以生成单个和，所述单个和然后输入到加法器144。

在图7A中示出更详细地展示第二示例性低级处理元件(PE)的框图。如上所述，PE是NN处理器的最基本的计算元件。ANN的神经元在PE中实现，基本上在L1存储器中实现。处理元件(通常标记为450)包括输入数据表示电路452、乘法器电路454、表示转换/舍入电路456、累加器(即加法器)458、L1存储器460、否定电路472和复用器474。

在操作时，输入数据(X)468和权重(W)470是从L3存储器到输入数据表示电路452的输入。此电路操作来根据INT/Fp信号462(其也输入到乘法器)将输入数据和/或权重的表示从整数转换为浮点(FP)格式，并且反之亦然。所得的X 504和W 506被输入到乘法器454。应注意，图6和图7A所示的两个PE实施方案中的任一者可用在本发明的NN装置中。

在一个实施方案中，乘法器包括并行操作的若干乘法器。乘法器能够乘以整数和浮点数。输入数据和权重的有效位数也可不同，如分别由控制输入464、466设定的。乘法器486的乘积输出被输入到表示转换/舍入电路456。FP累加器和FP输入端分别控制输入508、510，就乘积是整数还是FP格式向电路456发信号。另外，电路456用于在输入到累加器之前执行乘积的舍入。

电路456的输出488输入到累加器(加法器)458。对累加器的第二输入496包括来自L2或L3存储器的上下文(即中间结果)490或本地L1存储器460的输出。复用器474根据SEL476在两者之间进行选择。输出494输入到否定电路472，其中，根据否定控制478，输出496在输入到累加器之前进行否定。

对累加器的另外的配置控制包括累加器移位信号(accumulator_shift)498、累加器启用(accum_en)500和FP累加器502。累加器的输出484被写入L1存储器。L1存储器还包括L1输出选择480和零跳过482。从L1存储器输出的中间结果(即上下文)通过路径493输入到累加器或者通过路径492写入L2或L3存储器。在一个实施方案中，累加(即中间)结果被顺序地写入L1存储器并从L1存储器读取，即不存在对L1存储器中的神经元寄存器的随机访问。应注意，除随机之外，可使用任何合适的预定义模式(例如，顺序(逐个)、跳过一个、跳过两个等)来访问L1存储器。这极大地简化了访问神经元寄存器所需的寻址。此外，如果没有足够的本地L1存储器可用于特定ANN，则提供进出L2和L3存储器层的通路。在这种情况下，中间结果存储在较高的存储器层中以适应特定的ANN。然而，折衷是在访问较高存储器层时的延迟增加。

在替代性实施方案中，通过组合四个低精度(例如，8位)乘法器来产生高(或双)精度(例如，16位)乘积，可执行较高精度的乘法(例如，16位)。图7B中示出更详细地展示PE的四重乘法器的框图。四重乘法器(通常标记为870)包括四个较低精度(例如，8位)乘法器872，即Q0、Q1、Q2和Q3。对四重乘法器的输入是：双倍精度输入X，其由两个低精度(例如，8位)值组成，即X_L873和X_H871；以及双倍精度权重W，其也包括两个低精度(例如，8位)值，即W_L880和X_H882。

在操作时，每个基本单元Qi接收低精度(例如，8位)W和X值并且基于此，四重乘法器电路生成结果Y←Y+W*X.。考虑到双倍精度X和W值，我们将权重、输入数据和输出的上部和下部分别表示为W_H882、X_H871、Y_H876和W_L880、X_L873、Y_L875。还生成三个进位C₀ 874、C₁ 878和C2 879。

将Y←Y+W*X扩展成

(Y_H<<16+Y_L)←(W_H<<8+W_L)*(X_H<<8+X_L) (3)

产生以下

Y_L←W_L*X_L+[(W_L*X_H+W_H*X_L)<<8]_L+C₀<<9 (4)

和

Y_H←W_H*X_H+[(W_L*X_H+W_H*X_L)<<8]_H+C₁<<9+C₂<<9 (5)

应注意，每个输出Y_L和Y_H表示一个16位数以产生32位乘法乘积Y。应当理解，可使用另外的乘法器以及输入、权重和进位分量的合适组合获得具有更大精度的结果。

子集群

在图8中示出更详细地展示第一示例性子集群的高级框图。子集群(通常标记为180)包括N个多个PE 182(每个单独PE 182包括本地L1存储器184)、互连结构186、分成多个分配的存储块190的专用本地L2存储器188、配置和解码块192和控制/数据信号181。配置/解码电路192从外部控制总线194接收指令。每个子集群180还与输入/输出对准电路196和激活电路198通信，所述输入/输出对准电路196和激活电路198在本文呈现的示例性实施方案中位于集群层级中，如下文更详细地描述的。

在一个实施方案中，子集群的功能是聚合N个多个PE，例如，N＝64。子集群中的所有PE都属于神经网络的同一层，这极大地简化了所需的控制逻辑。例如，除了先验的静态配置之外，不需要逐周期操作的控制。

此外，子集群封装下一级别存储器层次结构，即存储层间和中间结果的L2存储器层。在一个实施方案中，它还包括激活函数电路(即，由上面的等式2中的σ表示)。然而，为了效率，示例性NN核将激活函数移动到集群级别。激活函数无论其位置如何都接收神经元的输出，并且每N次乘积累加运算被触发一次。应注意，激活函数电路的数量和位置被选择成反映硬件的最佳利用率。

子集群的若干特征包括：(1)用于管理存储器访问的分布式控制方案；(2)L2存储器的权重和中间结果的动态分配；(3)用于无缝增大L1存储器的固有的中间结果混洗支持；(4)以层为中心的信息和诊断存储；(5)以层为中心的预处理；(6)以层为中心的后处理；以及(7)层内分割支持(例如，用于量化细分)。

在图9中示出更详细地展示第二示例性子集群的高级框图。虽然图8反映了子集群的主要是逻辑的视图，但图8反映了更为物理的视图。子集群(通常标记为200)包括专用本地L2存储器210、每个具有其自己的L1存储器214并且接收启用EN 211、PE控制信号213和PE配置信号215的N个多个PE 212、输入互连器206、输出互连器208、从子集群控制总线230接收指令并输出L2_cbus 236的子集群配置202、以及接收层控制232和组控制234并且输出地址ADDR238、启用EN 240和选择SEL 242的子集群解码器204。

在操作时，根据控制信号201，从集群级别的L3存储器向输入互连器206提供输入数据216和权重218。输入互连器将输入数据244和权重246馈送到PE 212。零跳过(zero_skip)信号217通知PE输入数据或权重具有零值，并且因此不需要乘法和加法运算。应注意，权重220也可来自本地L2存储器210，其接收地址ADDR 205、启用EN 207和控制L2_cbus209。

一旦PE中的神经元已经累加特定层所需的计算，则现在表示中间结果248的神经元的内容被读出并通过控制信号203输出到输出互连器208。然后，中间结果可通过路径226写入本地L2存储器，或者通过路径221、复用器222和路径228写入L3存储器。另外，中间结果224可从L2存储器读取，并且通过复用器222传输到L3存储器或者传输到输出互连器，然后所述输出互连器通过路径249将其转发到PE。

因此，每个子集群包括灵活且可编程的路径，所述路径用于将输入数据和权重馈送到PE中的神经元，以及使来自神经元的中间结果向和从L2或L3存储器转向。

在一个实施方案中，子集群专用于执行单个ANN层或其一部分。它的功能是从L3存储器接收外部输入，利用来自本地L2存储器或外部L3存储器的权重执行乘法和加法，将中间结果(也称为“上下文”)存储在PE L1存储器中(或在L1存储器不足时存储在本地L2存储器中)，并且最后将结果发送到外部激活函数进行归一化和激活。

子集群解码器204用于将来自子集群配置202的静态输入与动态输入(公共层控制和定时组控制)相结合。它存储的状态包括保存以下寻址的计数器：(1)权重读取/写入地址；(2)上下文读取地址；(3)上下文写入地址；(4)激活源地址(PE输出到其以用于读取)。

输入互连器操作来(1)在外部权重(即L3存储器)或本地权重(即来自L2存储器)之间进行选择；(2)选择权重存储器的宽度，即所选权重的数量和存储器的深度，其中最大宽度允许所有PE从L2存储器或从L3外部存储器接收不同的权重；(3)从所选权重源中选择要传递给PE的权重(使用地址的MSB)；选择输入总线的宽度；并且(4)从所选输入源选择要传递给PE的输入(使用地址的MSB)。

应注意，L2存储器210用于在同一块中存储权重和上下文。权重地址从零开始并向上计数，而上下文地址从存储器的末端开始。控制平面有责任防止溢出。

集群

在图10中示出更详细地展示第一示例性集群的高级框图。集群(通常标记为250)包括M个多个子集群(每个子集群266具有其自己的L2存储器268)、分成多个分配的存储块264的专用本地L3存储器262、适于将L3存储器与子集群交接的存储器管理单元(MMU)260、包括控制同步器254和多个层控制电路256的管理和控制块252、多个输入对准器274和多个激活函数电路276。输入/输出(I/O)端口270将每个集群与集群间交叉连接交换机272交接。

在一个实施方案中，集群是通常表示多于一个的神经网络层的下一级别的聚合。它包含其中包含PE基本计算实体的子集群以及子集群之间的互连结构。这通过控制子集群之间的连接性为NN核提供了表示不同神经网络模型的灵活性。L3存储器262用于将层间结果存储在一个或多个分配的存储块264中。

集群的若干特征包括：(1)用于管理存储器访问的分布式控制方案；(2)用于支持将总共M个子集群表示成多个层的灵活可配置路由矩阵；(3)L3存储器的权重和中间结果的动态分配(相对不频繁)；以及(4)用于允许数据流节流和负载平衡的层间控制。

另外的特征包括：(1)权重/输入数据平衡；(2)前后处理块；(3)动态总线宽度和存储位单元；(4)MMU中的输入数据和权重互换性；(5)提供事件驱动行为和管路输送的能力；(6)控制与数据平面分离；(7)可选的零管路输送能力；以及(8)运行时配置修改的平衡能力。

在图11中示出更详细地展示第二示例性集群的高级框图。集群(通常标记为280)包括集群互连电路282、输入缓冲器284、输出缓冲器292、M个多个子集群306、子集群互连器304、多个激活函数/池化电路300、多个输入对准器电路302、和包括多个分配的存储块298的L3存储器296。

输入数据和权重286存储在输入缓冲器284中。输入数据和权重288从输入缓冲器输入到集群互连282。输入数据305和权重307也可写入L3存储器296并从L3存储器296读取。来自集群互连的输入数据281在输入到子集群互连器304之前输入到对准器电路302。输入数据285从子集群互连器馈送到子集群306，而来自子集群的输出283发送到子集群互连器。输出309输入到激活函数/池化电路300，其中结果输出308输入到集群互连282。输出数据290写入到输出缓冲器292。数据输出294然后发送到其他集群或片外。

在一个实施方案中，NN核并行地支持多个神经网络。每个集群操作来暴露控制接口(例如，时钟、复位、启用等)、配置接口(类似存储器)和数据接口(例如，高级可扩展接口(AXI))。每个集群适于实现一个或多个ANN层，其可能来自多于一个ANN。AXI互连器暴露控制接口，并且用于连接集群、NN核中ARM控制器的DMA引擎和外部端口。ARM通过DMA引擎、集群和互连器的控制和配置接口以及外部标准接口暴露AXI接口。

在一个实施方案中，集群包括：(1)配置电路；(2)存储器管理单元(MMU)；(3)控制互连器；(4)触发器互连器；(5)多个子集群；(6)多个层控制器(LC)；(7)多个专用单元；(8)多个输入单元；(9)多个输出单元；以及(10)多个存储块(即L3存储器)。

在一个实施方案中，集群并行地支持可能来自多个ANN的多个ANN层。应注意，网络层可实现为层控制器(LC)，所述层控制器具有通过控制互连器连接的一个或多个子集群或其内包含控制的具体单元(专用、输入或输出)中的一个。层使用用于通过触发器互连器进行流控制的信令、通过L3存储器296中的分配的存储块298传送数据，所有这些都由配置限定。分配的存储块也用作子集群的权重存储器。从各层到L3存储器的所有控制信号都由MMU260使用配置从虚拟地址转化成物理地址。

MMU使用两个通信端口组(诸如L3存储器的读取端口与子集群的输入端口)之间的滑动重叠窗口机制。每个子集群可从围绕其在子集群列表中的相对位置的一组存储器端口中选择其输入。窗口机构在下文中更详细地描述。

为了能够高效地利用NN核中的管路，每个ANN层的子集群的分配优选地与每次馈送的ANN层中所需的计算的数量成比例。分配由控制互连器确定，所述控制互连器将子集群映射到LC。映射在两个级别中执行：(1)通过滑动重叠窗口机制(即类似于MMU中使用的机制)将每个子集群指派给LC；(2)将子集群指派给ANN层内部的定时组。定时组随时间推移传播需要公共资源(诸如激活后使用的L3的写入端口)的动作。ANN层可包括一个或多个定时组，每个定时组包含一个或多个子集群。在所有定时组中常见的控制不通过第二选择级别，从而降低了电路的复用复杂性。

在一个实施方案中，ANN层之间的发信号机制基于两条双向线，其关于它们之间的双缓冲器的状态进行协商。因此，需要两条双向线来连接两个连续的层，即每层使用四条双向线，两条用于前一层，并且两条用于下一层。两个反向信号指示缓冲器是否准备好接收层之间的两个缓冲器中的每一个的新数据，并且两个正向信号指示缓冲器中的数据是否对两个缓冲器都有效。为了简化接口，控制器可使用专用指令在两个方向上翻转两个缓冲器(即有源和无源)的含义。

在图12中示出更详细地展示集群间交叉连接器的高级框图。集群间互连结构/交叉连接器(通常标记为430)包括实现集群436之间的通信的多个复用器432和分路器440。在一个实施方案中，每个集群J包括多个端口，所述多个端口包括输入端口396和输出端口398。在实例中示出四个输入端口和四个输出端口，但可实现任何数量。

输入侧上的复用器432由SEL线438控制。每个复用器的输入434包括来自相邻集群(例如集群J-2、J-1、J、J+1)的输出线。来自每个复用器的输出444输入到集群中的单独输入端口396。类似地，输出侧上的分路器440生成输出442，所述输出442馈送到相邻集群(例如，集群J-1、J、J+1、J+2)的输入线。来自集群的每个输出端口398的输出446输入到单独的复用器440。NN管理器392用于控制交叉连接器430的配置。在一个实施方案中，有意地限制从一个集群到另一个集群的可能连接以减少寻址和控制路由并改进带宽。例如，通过输入434到集群J的连接限于集群J-2、J-1、J和J+1，即仅限于相邻集群(和它们自身)。类似地，从集群J到输出442处的连接限于集群J-2、J-1、J和J+1。应注意，虽然与其他集群的直接连接受到限制，但任何集群仍然能够通过遍历一个或多个中间集群间接地与任何其他集群通信。

应注意，交叉连接发生在所有级别，从集群级别开始，经过NN处理器核的最高级别以及装置到装置之间。NN处理器中的L个集群使用循环互连结构连接，所述循环互连结构使得来自一个集群的输出端口能够映射到相邻集群。交叉连接器还能够将集群的输出路由到自身(即自路由)。应注意，交叉连接器中的访问范围是可配置的，并允许在设计复杂性与可访问性之间进行折衷。还应注意，“分散/聚集”机制允许将输出(即通过分路器)分成多个副本，使得相同的输出并行地馈送多个输入。NN管理器392通过控制线431提供交叉连接器的控制。

滑动重叠的存储器加窗

在图13中示出展示第一示例性存储器加窗方案的图。为了保持灵活性，处理器中的每个存储器消费者都能够访问不同的存储器段以进行数据交换。术语存储器加窗是指一种方案，由此计算元件或实体仅被给出对可用存储器资源的某个子集的访问而不是对更宽范围的存储器资源的访问。使用存储器加窗方案限制计算元件对存储器的访问显著地改进了可用带宽，同时大大减少了所需的地址和控制路由。应注意，存储器结构可动态地重新布置存储器加窗方案，由此计算元件可访问的存储器资源是可编程且可配置的(例如，在编译时、运行时等)。加窗方案基于下文更详细描述的分散/聚集技术。

在所示的实例(通常标记为580)中，两个计算元件582访问存储器资源584、586、588。没有任何计算元件可访问整个存储器，而只能访问有限窗口。这是因为计算元件永远不需要一次访问整个存储器结构。应注意，加窗可针对控制、入口数据、出口数据和权重而有所不同。此外，窗口通常重叠以实现共享和管路输送。此外，存储器资源自身是多用途的，其中它可用于存储多于一种类型的信息。

在展示性实例中，计算元件1的控制跨越存储块584、586和588，这由控制1箭头590指示。计算元件1包括到存储块586的入口数据窗口，其由入口数据箭头592指示。类似地，计算元件1包括到存储块588的出口数据窗口，其由出口数据箭头594指示。权重存储在存储块584以及存储块588中，所述存储块588还用于存储出口数据。以类似的方式，其他计算元件也包括控制、入口、出口和权重窗口。例如，计算元件2包括跨越存储块588以及一个或多个其他存储块(未示出)的控制窗口596。

在图14中示出展示第二示例性存储器加窗方案的图。在一个实施方案中，流动通过NN处理器中的计算元件的数据是管路输送的，其中子集群中的PE接收数据作为输入并生成输出，所述输出然后用作一些其他子集群的输入以用于后续计算。各层中的存储器尽可能地被本地化并且被利用来使每层服务的计算元件的可访问性和效率最大化。由于计算元件仅需要访问存储器的有限子集，因此路由(即，地址线、控制等)可限于交叉连接器存储块和实际需要的计算元件。图15、图16和图17展示存储器访问窗口的可配置性，每个资源的分配通过此来管理并配置，并且配备有解决特定需求的资源。

窗口存储器方案(通常标记为340)包括多个子集群348(每个子集群348包括多个PE 349)、L3存储器(未共享的)342和L3存储器(共享的)344。在操作时，子集群从L3存储器的未共享的一部分接收权重信息345。从来自L3存储器的共享部分的分配的存储块346接收到子集群的输入数据341。子集群内的PE处理权重和输入数据并生成输出343。然而，输出写入不同的(例如，相邻的)分配的存储块(即，不是从中读取输入的存储块)。然后将这些输出作为到另一个子集群(例如，ANN的后续层中的神经元)的输入读取。以这种方式，ANN输入数据347输入共享L3存储器，从分配的存储块读取，由一个或多个子集群中的PE处理，输出到相邻存储块，并且在遍历ANN中的各层之后最终从共享L3存储器输出为ANN输出数据349。

然而应注意，子集群对L3存储器不具有直接随机访问能力，而是仅对分配的存储块的邻近处或附近具有所述访问能力。例如，子集群H可访问子集群H-2、H-1、H(自身)和H+1子集群。这大大降低了存储器访问的寻址和控制路由要求。因此，每个子集群只能‘看到’足以供其PE执行它们的功能的相对较小的存储器窗口。

在图15中示出展示计算元件和存储器元件窗口大小与计算机访问可配置性之间的第一示例性存储器可访问性的图。此图展示了存储器加窗方案，由此计算元件以及存储器元件可有限地访问彼此。例如，考虑存储器元件1至D和计算元件1至E。阴影线遮挡区域520表示每个元件可访问的资源。因此，计算元件1至3只可访问存储器元件1至12。类似地，存储器元件1至12只可连接到计算元件1至3。如图所示，计算元件可访问的存储器元件形成彼此重叠的滑动访问窗口。访问窗口具有可以动态配置而不是硬连线或固定的大小(即跨度)和具体连接性。一个关键特征在于任何单个计算元件都不可随机访问整个存储器。相反，每个计算元件只可访问存储器元件的一部分，例如相邻存储器元件或附近的存储器元件。存储器的计算元件不可访问的部分由白色区域522表示。

还应注意，存储器可访问的计算元件的数量是可编程且可配置的，如由竖直箭头523表示的。类似地，计算元件可访问的存储器元件的数量是可编程且可配置的，如由水平箭头521表示的。

在图16中示出展示计算元件与存储器元件之间的第二示例性存储器可访问性的图。此图展示计算元件与存储器元件之间的访问不限于连续的窗口。相反，访问可以是不连续的，这在一个实施方案中使用虚拟到物理的映射来实现。无论手段如何，可访问区都具有有着有限且预定义范围的矩形形状，其指示计算元件与存储器元件之间的访问是受限的且有限的，即此类区不会覆盖整个地址空间。

在图17中示出展示示例性的基于分散/聚集的资源加窗技术的图。出于展示目的，示出了示例性集群530的一部分。然而，所述技术不限于在集群中使用，并且可在NN处理器中任何地方使用。考虑两个资源A 532和B 538，其中资源可包括任何期望的电路，例如计算、存储器、控制元件等。为了限制访问，每个资源A 532的输出输入到分路器534并且到每个资源B 538的输入是复用器536的输出。分路器的输出仅转为有限数量的复用器输入，因此提供有限的连接性，而不是提供全网状连接性。例如，资源A1的输出仅输入到资源B1和B2。类似地，资源A2的输出仅输入到资源B1、B2和B3，并且资源A3的输出仅输入到资源B2和B3。以这种方式，每个B资源仅连接到A资源的小窗口。因此，100个A资源与50个B资源之间的访问(资源的数量仅是一个实例)形成滑动窗口，其中有限数量的A资源在重叠滑动的基础上与有限数量的B资源连接。

分路器和复用器的控制由层控制器(LC)548提供。LC的控制线549输出输入到控制结构544中的一系列复用器546，所述复用器根据源自LCU并且可在LC内进一步解码的SEL线547从LC中选择一个控制。复用器546的控制诸如在编译或运行时是可编程且可配置的，从而实现A资源与B资源之间的灵活映射。

根据本发明，NN处理器的存储器访问结构的特征在于能够以基本上较高的并行度操作。这是计算资源与附接到它们的存储器之间的固有的映射分离的优点。例如，权重仅显式连接到相关的子集群。然而，一个例外是共享分配的存储块并发生冲突的情况。虽然这种事件通常很少见，但NN处理器提供了解决冲突导致的争用的能力。在一个实施方案中，在控制层解决存储器争用，其中共享公共存储块的两个计算实体在信令级别处理冲突避免，如下所述。应注意，反压通常是暂时的且短暂的，并且整个总带宽由NN处理器的设计保证。

在图18中示出展示示例性存储器争用解决方案的框图。存储器争用解决电路(通常标记为600)包括L3存储器602(其包括多个存储块632)、MMU 626、LCU A 604、LCU B 606、形成ANN层G 614的一个或多个子集群618、以及形成ANN层G+1 616的一个或多个子集群620。

在此展示性实例中，ANN的层G和层G+1两者都向和从L3存储器中的存储块634读取和写入数据。层G的输出用作层G+1的输入。然而，偶尔两个层可能会同时尝试访问同一个存储块。这由标有“X”的存储块636指示。当发生对同一存储块的争用时，MMU 626检测到所述事件并在它们各自的LC中生成对LCU(在这个实例中为A和B)的争用警报608。响应于争用警报，LCU中的一个生成停止命令610、612，所述停止命令610、612输入到子集群。接收停止命令的子集群禁止访问L3存储器中的存储块，直到完成读取或写入操作。

应注意，存储器争用总是发生在ANN层之间而不是一个层内，因为在一个层内，构成所述层的子集群被配置成使得永远不会发生对存储器的争用。通常，当一个层正在写入而另一个层正在读取时会发生争用。响应于争用警报，可禁止写入或读取操作。在一个实施方案中，禁止写入操作，因为ANN的性质在于写入操作是罕见得多的事件。此外，禁止读取操作会使数据处理管路的很大一部分停止。因此，禁止写入操作而不是读取操作。向要禁止的层发出停止信号(610到层G或612到层G+1)。还应注意，是否禁止写入或读取操作的决定在编译时是先验地可编程且可配置的。

层控制器

在图19中示出更详细地展示示例性层控制器的高级框图。层控制器(LC)(通常标记为310)包括层控制单元(LCU)314，其负责解码并执行从指令存储器312读取的微代码指令311。根据指令，一个或多个命令信号313输出到各种控制和解码块，所述控制和解码块包括输入对准器控制316、激活控制318、输入地址解码器320、权重地址解码器322、输出地址解码器324和PE控制326。来自这六个块的控制和地址信号分别输出到输入对准器328、激活函数电路330、输入存储器332、权重存储器334、输出窗口335和控制窗口336。PE控制信号315从控制窗口336输出到子集群338中的PE电路。

在图20中示出更详细地展示L3存储器和子集群的层控制器接口的高级框图。示例性集群(通常标记为640)包括L3存储器644、LC642、多个子集群662、后处理器666、以及用于控制、写入数据、读取数据和权重的加窗，如上文结合图17所述。LC 642包括LCU 656、一个或多个预处理器652、指令存储器654、一个或多个解码器电路658和MMU 660。

特别地，控制加窗包括电路674和控制线684；权重加窗包括电路646、648和信号线650；入口数据加窗包括电路676、678、672和信号线690、692；出口数据加窗包括电路680、682、668和信号线686、688。应注意，访问L3存储器的入口窗口和出口窗口重叠，如虚线所指示的。由LCU和解码器生成并输入到窗口电路674、646、648、676、678、672、680、682和668的存储器窗口控制(MWC)信号670提供对加窗的控制(即，针对分路器和复用器进行选择)。

在操作时，从L3存储器读取入口数据并将其输入到预处理电路652。这些电路用于可选地重塑数据，对输入数据执行操作，例如移位等。预处理的数据输出到子集群，其中PE664使输入数据与也从L3存储器读取的权重相乘。中间结果(即上下文)通过存储器加窗从子集群输出到后处理电路系统666。后处理电路是数据处理管路的一部分，并且操作来应用激活函数并且可选应用对准。

应注意，每个LC都指派了一个或多个子集群，这些子集群组成ANN中的一个层。每个集群包括多个LC(例如，八个)。因此，所示的子集群662仅是每个集群内的M个子集群的子集，其中每个LC控制可使用上述相同的加窗概念选择的不同组的子集群。此外，子集群内的N个PE不会被分开，这意味着子集群中的所有PE被控制为单个单元。这简化了计算元件的控制并允许相对精益的控制信令，因为只有少数控制线控制大量的PE并最终控制神经元。类似地，解码器电路658中的每一个被配置为控制不同组的存储块。在一个实施方案中被编码的控制信号698由LCU生成并输入到解码器电路658。LCU自身由指令存储器654的内容控制。每个指令的执行导致编码的控制信号的生成，所述解码的控制信号然后由解码器解码并通过控制窗口电路674输出到计算元件。应注意，除了控制子集群中的计算元件的控制信号之外，LCU还生成也用于控制控制窗口(连同权重、入口和出口数据窗口)的控制信号(即MWC选择控制)。当配置时(在编译时)，静态路由控制信号、权重、入口和出口数据。MMU 660生成用于L3存储器加窗的控制信号，并且用于执行虚拟到物理的映射。它还用于响应于ANN中两个层之间的存储器争用事件而生成争用警报694。如上所述，LCU通过向其中一个层发出停止命令来解决争用事件。

在图21中示出更详细地展示第二示例性层控制器的高级框图。示例性LC(通常标记为550)包括指令存储器552(其包括多个指令554)、LCU 556、指令解码器566、触发器窗口交叉连接器558和触发器处理器560。LCU 556包括状态机器562和指令寄存器564。

在操作时，指令551从指令存储器读入决定并执行它们的LCU中的指令寄存器564中。被配置为直接控制硬件的指令的一个或多个部分568发送到一个或多个解码器566以进行解码。解码器的输出包括直接控制信令，其被发送到子集群以控制内部PE操作，如上文在图20中所示和所述。指令的其他部分570、572控制LCU的逻辑状态并输入到状态机器562。例如，这些部分控制循环和分支。下一个553命令致使来自指令存储器552的下一个指令被读入LCU中以便执行。

在一个实施方案中，一个或多个触发器555由状态机器生成并输入到触发器交叉连接器558。触发器功能类似于“中断”，其中活动可停止并延迟，直到某个事件发生。触发器信号用于触发活动。可发出触发器以激活其他触发器。它们表示一种用于同步化NN处理器中的活动的异步机制。例如，可发出触发器以停止处理，直到写入缓冲器，或者直到层完成处理(或以其他方式用作某个事件已经发生并且可开始进一步处理的指示)。

此外，可发出触发器以触发不同LC中的LCU中的活动。这个过程称为“切换”。切换机制可触发从一个LC到另一个LC的活动，例如，当一个ANN层完成并且将结果发送到ANN中的另一个层时可使用触发器。触发器窗口交叉连接器用于使输出触发器信号559转向到适当LC中的触发器处理器，其中它们用于通过信号557控制LCU中的活动。

关于数据平面与控制平面之间的分离，在一个实施方案中，管理控制平面的微代码在LC中执行并且不可访问数据。LC中微代码机器的另外的能力是没有条件语句或条件分支。这对于数据管路输送是有利的，因为避免了管理分支预测或其他管路开销的需要。因此，执行是完全可预测的。这与典型的现有技术微代码形成对比，所述现有技术微代码可进行分支，以致使执行依赖于输入。在NN处理器中，当微代码执行时，数据流的演变是完全可预测的，即可在每个时间实例处预测每个控制信号的生成。

在一个实施方案中，在基于微代码的控制器中执行的每个微代码指令操作来生成用于计算资源和存储器资源的控制信令。换句话说，微代码不具有任何“开销”，因为不存在负责内部处理的任何操作，所述操作也不会将实际控制信令施加到输出。因此，没有微代码指令操作被浪费在微代码机器的内部内务处理上(唯一的例外是‘NOP'操作)。

LC中的微代码机器的另一个能力是触发操作。虽然分支不被支持，但是执行流可由外部信号触发，所述外部信号指示执行的开始/停止以实现数据管路握手，例如，从一个LCU切换到另一个LCU。

LC中的微代码机器的又一个能力是重复操作支持，从而支持操作的内联重复(即，内联运行的循环)，使得可在操作码自身内指示重复操作，从而避免设立并管理循环的不必要的周期以及相关的提取。应注意，与循环管理的开销相比，这个特征对于操作较少的循环是有用的。后者在神经网络操作(例如，激活之后的许多乘积累加(MAC)运算)中非常常见。在数据管路机器中，当控制与数据之间的比率使得非常少的控制限定了相对大的数据管道的行为时，这是非常重要的。

例如，考虑被配置为执行1000次乘积累加(MAC)运算的常规处理器。在下面的列表2中提供示例性伪代码。

列表2：示例性常规处理器伪代码循环

在上面的伪代码中，在循环中存在四个操作码(即四个周期)，其中两个是可操作的，使用率为50％。假设这个循环控制1024个MAC电路，这意味着只有512个以满容量有效地操作。

相反，在NN处理器中支持内联重复。此外，内部控制的开销为零，这消除了对具有“备用”操作码(即仅用于机器内部管理或内务处理的操作码)的需求。清单2的伪代码转换成下面在清单3中呈现的下面的伪代码。

列表3：示例性NN处理器伪代码循环

如上所示，所有循环信息都嵌入在功能操作码中，并且MAC利用率增加到100％。

应注意，在控制平面与数据平面之间具有深度分离还用于使得一定程度地固有地免受控制平面安全危害。这是因为用于非法侵入装置的常见技术是向其馈送干扰控制平面的数据。由于两个平面是严格分离的，因此干扰一个平面不会影响另一个平面。

编译器

在图22中示出展示示例性NN处理器编译器/SDK的高级框图。编译器(通常标记为770)用于基于输入ANN模型配置NN处理器。它在作为由用户使用和发起的外部软件工具链的一部分的在片外执行的过程中执行。通常，编译器具有将成为源ANN模型的目标的NN处理器、NN处理器SoC或多个NN处理器SoC的知识。

特别地，翻译器772用于接收用户模型并生成模型的中间格式。优化器774用于执行模型级别优化、后翻译模型性能调整以及对不同位宽的数值改型。资源分配器778根据中间模型分配并指派物理资源(例如，计算元件和存储器元件等)。分析器786执行性能评估，包括例如预期的功率消耗、吞吐量、等待时间等。软件仿真器782用于使用翻译器772的中间模型输出执行NN处理器的位精确数值仿真。

在一个实施方案中，向用户提供若干目标选项以实现外部工具链。三个目标选项包括：(1)NN装置780、(2)仿真器782、和(3)模拟器784，所述模拟器784包括模拟NN装置功能性的硬件的软件模型。因此，用户可选择使用NN装置自身、NN装置的硬件仿真或NN装置的软件仿真来执行工具链。

NN处理器的多个操作粒度和相关的存储器/延迟折衷

本发明的能力和优点在于：NN处理器中的管路能够以输入的任何子集的任何期望粒度进行操作，其中存储器针对延迟进行折衷并且反之亦然。更具体地，当输入数据具有一些内部结构(例如，视频帧，并且每个帧由多行(或缓冲器、分组等)构成时，NN处理器架构可触发来自单个此类行、缓冲器、分组等或其倍数的任何聚合处的下一层的活动。

在较低聚合的情况下，需要另外的中间结果(即上下文)存储设备来存储中间结果。然而，延迟是最小的，因为后续处理元件被释放以便在管路中更早地进行进一步处理，这允许传入通信量被消费但不会被阻塞。因此，较高的存储器存储要求针对较低的上下文延迟进行折衷。

另一方面，在更高聚合的情况下，即期望较少的上下文存储器或者要实现需要大量上下文的ANN模型，可在以下情况进行折衷：使用较少的上下文存储器来交换缓冲器存储器，由此实现输入的另外的缓冲，从而导致在任何一个时间同时需要的上下文的数量减少，但是延迟增加。在一个实施方案中，这种折衷通过LC中的微代码来实现，并且因此是可配置且可编程的。

在图23中示出展示NN处理器的灵活处理粒度和相关存储器对延迟的折衷的图。数据管路实例(通常标记为930)突出显示了利用数据管路来支持最小延迟并以低输入域粒度操作的选项。考虑包括输入数据938的示例性输入张量932，所述输入数据938可位于网络的开始处或网络中的任意点处。然后，网络层中的一个将NN操作934应用到输入数据(例如，在这个实例中为3×3的卷积)，其后是包括存储块931和939的输出域936。

在这个实例中，输入数据流被完全消费并且应用所有需要的计算，同时最小化延迟并且不需要检索输入数据，因为所有计算都被提交到存储在存储器中的中间结果。在替代性实施方案中，这个功能可通过以下方式执行：(1)等待整个帧并应用批处理操作，由此所有数据立即提交到输出以避免中间结果；(2)等待最小组的行以便避免中间结果(在这个实例中为三)；(3)随着存储器访问延迟的增加，使用存储在外部存储器中的中间结果；或(4)根据需要调用输入(即多次读取相同数据)，以便避免必须存储中间结果。

NN处理器SoC、芯片内和芯片间连接性

如上文详细描述的，NN处理器可用于实现ANN。然而，如果要实现的ANN超过NN处理器的容量，则本发明提供使用若干NN处理器来实现ANN模型的能力。如上所述，NN处理器包括用于在NN个处理器核之间通信的多个总线接口(例如，芯片到芯片接口)。在本文所公开的实例中，提供了两个芯片到芯片接口，但是可实现任何数量。因此，可通过组合多个NN处理器核的处理能力来适应大型ANN模型。

应注意，在芯片到芯片接口上部署互连NN处理器的网络是基本上无缝的。利用装置到装置通信，网络的行为等同于单个NN装置上包含的ANN。在一个实施方案中，芯片到芯片接口与在层边界上缩窄带宽的技术保持一致。接口的物理层可包括同步的任何合适的协议并保证所需的带宽。下一层是分组层，其具有可通过接收芯片解码的帧格式。帧格式的结构尝试使装置之间的转变中的开销最小化并且类似于以太网的结构，其包括多个字段，包括例如流ID、目的地层、数据格式等。例如，考虑具有WxHxF输出张量的层。协议在任何处理发生之前识别下一个装置中的结构、流ID和网络ID。然后所需的带宽是(WxHxF+开销)x帧/秒。

在图24中示出展示本发明的第一示例性多NN处理器SoC系统的图。在一个实施方案中，如上所述并在图4和图5中示出的NN处理器核(或引擎)可以被复制并实现为片上系统(SoC)。NN处理器核的知识产权(IP)可用于实现单片集成电路(IC)。可替代地，可在SoC上集成并实现物理NN处理器核管芯。

实现为单片半导体或SoC的NN处理器SoC(通常标记为700)包括通过内部总线710互连的多个NN处理器核706、一个或多个外部接口电路702、一个或多个‘外部’L5存储器电路708、自举和预处理电路704和后处理电路712。应注意，NN处理器核、L5存储器电路等的数量不限于所示的数量，因为半导体领域的技术人员可实现具有任何数量的NN处理器核和其他部件的IC或SoC。

在操作时，ANN输入数据714通过外部I/F 702写入SoC 700。自举和预处理电路704操作来根据实现方式执行一个或多个功能，包括例如缓冲、计时、功率管理、数据节流等。然后将数据馈送到NN处理器核706进行处理。NN处理器核通过内部总线710彼此通信。应注意，NN处理器核之间的连接性可包括任何期望的路由类型，包括诸如全网状、令牌环、链接等，这取决于实现方式并且对于本发明来说不是关键的。应注意，其他电路部件也通过总线通信，包括自举和预处理器704、外部I/F 702、L5存储器708和后处理器712。

在图25中示出展示本发明的第二示例性多NN处理器SoC系统的图。在这个示例性系统(通常标记为790)中，多个NN处理器核或SoC 794串行连接。ANN输入数据792输入最左边的NN处理器，并且ANN输出数据799离开最右边的NN处理器。多个NN处理器一起逐层实现ANN模型。

在图26中示出展示本发明的第一示例性多NN处理器SoC系统的图。在这个示例性系统(通常标记为800)中，三个NN处理器核或SoC 804、806、808以2→1聚集方案组合并一起实现ANN模型。ANN输入数据802通过输入端口输入到NN处理器804、806。在这个实例中，需要并行的两个NN处理器核804、806来实现ANN模型，例如，(1)模型在一个或多个层中包含非常大量的神经元或(2)神经元的数量超过单个装置的任何资源约束(例如，控制、存储器或计算)。每个NN处理器804、806的输出通过芯片到芯片输入端口输入到NN处理器808，所述NN处理器808用于生成ANN输出809。

在图27中示出展示本发明的第一示例性多NN处理器SoC系统的图。在这个示例性系统(通常标记为810)中，三个NN处理器核或SoC 814、816、818以1→2分散方案组合并一起实现ANN模型。ANN输入数据812通过输入端口输入到NN处理器814。NN处理器814的输出输入到NN处理器816、818两者。在这个实例中，需要并行的两个NN处理器核816、818来实现ANN模型，例如，(1)模型在一个或多个层中包含非常大量的神经元或(2)神经元的数量超过单个装置的任何资源约束(例如，控制、存储器或计算)。由每个NN处理器816、818生成的输出被组合以形成ANN输出819。

示例性ANN映射策略

如上所述，如果ANN的需求超过单个NN处理器核的计算和/或存储器资源，则ANN模型可分成若干装置。编译器/SDK无缝地利用ANN的典型细胞性质，所述ANN的典型细胞性质允许在网络层之间和之上进行分开与合并。在编译器内，除了依赖于层间带宽固有地远低于层内带宽的事实之外，在考虑到映射到每个装置的子网络的输入和输出处的带宽要求的同时完成分离。提出了几个示例性映射可能性和策略。

一般来讲，由编译器执行的装置到装置的映射由装置中存在的输入和输出端口的数量(例如，在本实例中为两个)驱动。在装置上的两个输入和输出端口的示例性情况下，映射1→2(即分散)、2→1(即聚集)以及1→1(即前馈)的灵活性允许构建所示的系统布置。

在图28中示出展示图2的第一示例性ANN的示例性映射策略的图。如上所述，编译器/SDK用于将逻辑ANN模型映射到物理NN处理器装置。作为其分析的结果，在这个实例中，编译器确定整个ANN可在单个NN处理器装置中的单个集群362中实现。ANN中的每个网络层365被映射到一个或多个子集群364，并且也指派LC 361。因此，例如，网络层1被映射到三个子集群，即子集群1、2和3，它们也接收ANN输入363。这三个子集由LC 1配置并控制。类似地，网络层2中的神经元由编译器映射到子集群4、5和6并被指派给LC2。网络层3中的神经元被映射到子集群7和8并被指派给LC 3。最后，网络层4被映射到子集群9，并且由LC 4配置并控制。ANN输出369由子集群9生成。

在图29中示出展示第二示例性人工神经网络的图。可以是卷积型NN的这个示例性ANN(通常标记为720)包括多个层726，所述多个层726包括层1至6。层1接收ANN输入722，并且层6生成ANN输出724。

在图30中示出展示图29的ANN的示例性多NN处理器SoC系统的图。NN系统(通常标记为730)表示ANN 720到本发明的NN处理器系统的映射。每个NN处理器736包括单独的IC，或者可替代地包括SoC中的单独管芯。

在编译过程中，编译器和SDK的功能是将逻辑ANN模型映射到物理NN处理器配置。在这个实例中，层1映射到整个NN处理器1中，因为其在计算元件、存储器结构等方面的容量仅足以实现层1。NN处理器1还接收ANN输入732。层2和3使得它们不能在单个装置中实现，因此需要两个装置(即并行的NN处理器2和3)并且处理在它们之间分离。层4很大，但编译器确定它可在单个装置中实现。因此，整个NN处理器4被映射到层4。层5和6被分析并由编译器映射到单个NN处理器5装置。NN处理器5生成ANN输出734。应注意，NN处理器通过每个装置中的芯片到芯片的接口以前馈方式彼此通信。

在图31中示出展示第三示例性人工神经网络的图。示例性ANN(通常标记为740)意图表示任何期望的ANN。它包括组织成不同网络层的多个神经元744。输入数据X 746输入到第一层，并且输出数据Y 748由最后一层生成。

在图32中示出展示图31的ANN的第一示例性多NN处理器SoC系统的图。在这个实例中，第一映射(通常标记为750)由编译器/SDK生成，并且包括若干NN处理器装置。特别地，前两个网络层中的神经元756被映射到NN处理器1，第三网络层被映射到NN处理器2，并且最后三个网络层被映射到NN处理器3。ANN输入数据752输入到NN处理器1中的第一层。NN处理器3生成ANN输出数据754。

在图33中示出展示图31的ANN的第二示例性多NN处理器SoC系统的图。在这个实例中，不同的映射(通常标记为760)由编译器/SDK生成，并且包括若干NN处理器装置。特别地，前四个网络层中的神经元766在两个装置(即NN处理器1与2)之间分离，因为它们超过单个装置的容量。最后两个网络层映射到NN处理器3。ANN输入数据762输入到NN处理器1和2中的第一层。NN处理器3生成ANN输出数据764。

本领域的技术人员将认识到在逻辑与电路模块之间的边界仅是说明性的并且替代性实施方案可合并逻辑模块或电路元件或者对各种逻辑模块或电路元件施加替代性的功能性分解。因此，应当理解，本文描绘的架构仅是示例性的，并且事实上实现相同功能性的许多其他架构可被实现。

用于实现相同功能性的任何部件布置有效地“相关联”，以使得实现期望的功能性。从而，在本文中组合以便实现特定功能性的任何两个部件可被看做与彼此“相关联”，以使得不考虑架构或中间部件，实现期望的功能性。同样地，这样相关联的任何两个部件也可被看做彼此“可操作地连接”或“可操作地耦接”，以便实现期望的功能性。

此外，本领域的技术人员将认识到如上所述的操作之间的边界仅是说明性的。多个操作可被组合成单个操作，所述单个操作可分布在另外的操作中并且所述操作可在时间上至少部分地重叠期间执行。此外，替代性实施方案可包括特定操作的多个实例，并且操作的顺序可在各种其他实施方案中改变。

本文所使用的术语仅用于描述特定实施方案的目的，并且不意图对本发明进行限制。如本文所用，除非上下文另外明确指出，否则单数形式“一个(a)”、“一个(an)”和“所述”也意图包括复数形式。将进一步理解，术语“包括(comprises)”和/或“包括(comprising)”在用于本说明书中时，规定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其群组。

在权利要求中，放置在括号之间的任何附图标记不得理解为是对权利要求的限制。在权利要求中使用诸如“至少一个”和“一个或多个”的引导短语不应被理解为暗示由不定冠词“一个(a)”或“一个(an)”引入的另一个权利要求要素将包含此类引入的权利要求要素的任何特定权利要求限制于仅包含一个此类要素的发明，即使当相同的权利要求包括引导短语“一个或多个”或“至少一个”以及诸如“一个(a)”或“一个(an)”的不定冠词时。对于定冠词的使用，也是这样。除非另行指出，诸如“第一”、“第二”等的术语用于在此类术语描述的元件之间进行任意辨别。因此，这些术语不一定意图指示此类元件的时间或其他优先次序。在互相不同的权利要求中叙述某些测量的不争事实不指示这些测量的组合不可用于获得优点。

下文权利要求中所有手段或步骤以及功能要素的对应结构、材料、动作和等效物意图包括用于结合特定要求保护的其他所要求保护要素来实现所述功能的任何结构、材料或动作。本发明的描述已经出于展示和描述的目的进行呈现，但并不意图是详尽的或将本发明限于所公开的形式。由于本领域技术人员易于想到各种修改和变化,因此本发明并不意图限于本文所述的有限数量的实施方案。因此，应当理解，可采用落入本发明的精神和范围内的所有合适的变型、修改和等效物。选择并且描述实施方案以便最好地解释本发明的原理和实际应用，并且使得本领域其他普通技术人员能够针对具有适合于预期的特定用途的各种修改的各种实施方案来理解本发明。

Claims

1.一种用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的神经网络(NN)处理器集成电路(IC)装置，其包括：

多个计算电路，每个计算电路包括计算元件、相关联的专用物理存储器元件和相关的控制逻辑，其配置成根据网络层中所要求的计算数量动态地映射到存储元件的集合；

其中所述多个计算电路聚合在多个级别中以形成层次结构；

其中所述层次结构中的更高级别更为复杂并且包括比更低级别更少数量的实例化；

多个装置到装置接口电路，所述多个装置到装置接口电路操作来经由每个NN处理器装置上的一个或多个输入和输出端口实现多个所述NN处理器装置之间的通信并将多个所述NN处理器装置互连；

其中在离线编译过程中，编译器逐层地将逻辑ANN模型映射到包括多个NN处理器装置的物理配置，从而根据映射到多个所述NN处理器装置的任何ANN子网络的输入和输出处的带宽要求进行一个或多个分离；并且

其中所述映射和由此产生的物理配置由每个NN处理器装置的可用资源驱动，包括存储器容量、计算容量、控制资源的可用性以及每个具有有限带宽的输入和输出端口。

2.根据权利要求1所述的装置，其还包括NN处理器系统，所述NN处理器系统包括多个NN处理器装置，每个NN处理器装置通过所述装置到装置接口电路互连，其中所述ANN跨所述多个互连的NN处理器装置的实现方式是基本上无缝的，从而导致等同于在单个NN处理器装置上实现的所述ANN的行为。

3.根据权利要求2所述的装置，其中所述多个NN处理器装置以分散配置、聚集配置和前馈配置中的至少一个配置进行互连。

4.根据权利要求2所述的装置，其中所述互连的多个NN处理器装置操作来实现因太大而不能在单个NN处理器装置中实现的ANN。

5.根据权利要求1所述的装置，其中所述装置到装置接口电路包括提供两个NN处理器装置之间的双向通信的一个或多个输入端口和输出端口。

6.一种用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的神经网络(NN)处理器系统，其包括：

多个互连的NN处理器集成电路(IC)装置，每个NN处理器装置包括：

多个处理内核，包括计算电路，所述计算电路包括计算元件、相关联的专用存储器元件和相关的控制逻辑；

其中所述多个计算电路聚合在多个级别中以形成层次结构；

多个装置到装置接口电路，所述多个装置到装置接口电路操作来经由每个NN处理器装置上的一个或多个输入和输出端口实现多个NN处理器内核和装置之间的通信并将多个所述NN处理器内核和装置互连；

内部总线，使用同步协议在多个所述NN处理器内核之间提供同步通信并保证其间所要求的带宽；

其中在离线编译过程中，编译器逐层地将逻辑ANN模型映射到包括多个NN处理器内核的物理配置，从而根据映射到多个所述NN处理器内核的任何ANN子网络的输入和输出处的带宽要求进行一个或多个分离；

其中所述映射和由此产生的物理配置由每个NN处理器内核的可用资源驱动，包括存储器容量、计算容量、控制资源的可用性以及每个具有有限带宽的输入和输出端口；并且

其中所述ANN跨所述多个互连的NN处理器装置的实现方式是基本上无缝的，从而导致等同于在单个NN处理器装置上实现的所述ANN的行为。

7.根据权利要求6所述的系统，其中所述系统中的所述多个NN处理器装置被配置和布置为实现扩展超过单个NN处理器装置的容量的ANN。

8.根据权利要求6所述的系统，其中所述多个NN处理器装置以分散配置、聚集配置和前馈配置中的至少一个配置进行互连。

9.根据权利要求6所述的系统，其中所述互连的多个NN处理器装置操作来实现因太大而不能在单个NN处理器装置中实现的ANN。

10.根据权利要求6所述的系统，其中所述装置到装置接口电路包括提供两个NN处理器装置之间的双向通信的一个或多个输入端口和输出端口。

11.一种由神经网络(NN)集成电路(IC)装置实现的方法，所述装置包括用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的NN处理器电路，所述方法包括：

提供多个计算电路，每个计算电路包括计算元件、相关联的专用存储器元件和控制逻辑；

将所述多个计算电路聚合到多个级别中以形成层次结构；

通过装置到装置接口电路将多个NN装置互连，从而实现它们之间的通信；

由编译器在离线编译过程中逐层地将逻辑ANN模型映射到包括多个NN处理器装置的物理配置，从而根据映射到多个所述NN处理器装置的任何ANN子网络的输入和输出处的带宽要求进行一个或多个分离；并且

12.根据权利要求11所述的方法，其还包括组合多个NN装置，每个NN装置通过所述装置到装置接口电路互连以形成NN系统，其中所述ANN跨所述NN系统的实现方式是基本上无缝的，从而导致等同于在单个NN处理器装置上实现的所述ANN的行为。

13.根据权利要求12所述的方法，其中所述NN系统操作来实现因太大而不能在单个NN装置中实现的ANN。

14.根据权利要求11所述的方法，其还包括组合多个NN装置，每个NN装置通过所述装置到装置接口电路以分散配置、聚集配置和前馈配置中的至少一个配置进行互连。

15.根据权利要求11所述的方法，其中所述装置到装置接口电路包括提供两个NN装置之间的双向通信的一个或多个输入端口和输出端口。

16.一种由神经网络(NN)集成电路(IC)装置实现的方法，所述装置包括用于为具有一个或多个网络层的人工神经网络(ANN)执行神经网络计算的NN处理器电路，所述方法包括：

提供多个处理内核，包括计算电路，所述计算电路包括计算元件、相关联的专用存储器元件和控制逻辑；

将所述多个计算电路聚合到多个级别中以形成层次结构；

提供多个装置到装置接口电路，所述多个装置到装置接口电路操作来经由每个NN处理器装置上的一个或多个输入和输出端口实现多个NN处理器内核和装置之间的通信并将多个所述NN处理器内核和装置互连；

通过装置到装置接口电路将多个NN装置互连，从而实现它们之间的通信并形成NN系统；并且

提供内部总线，用于使用同步协议在多个NN处理器内核之间同步通信并保证其间所要求的带宽；

由编译器在离线编译过程中逐层地将逻辑ANN模型映射到包括多个NN处理器内核的物理配置，从而根据映射到多个所述NN处理器内核的任何ANN子网络的输入和输出处的带宽要求进行一个或多个分离；

其中所述ANN跨所述多个互连的NN装置的实现方式是基本上无缝的，从而导致等同于在单个NN装置上实现的所述ANN的行为。

17.根据权利要求16所述的方法，其还包括将所述多个NN装置配置和布置为实现扩展超过单个NN装置的容量的ANN。

18.根据权利要求16所述的方法，其还包括组合多个NN装置，每个NN装置通过所述装置到装置接口电路以分散配置、聚集配置和前馈配置中的至少一个配置进行互连。

19.根据权利要求16所述的方法，其中所述互连的多个NN装置的NN系统操作来实现因太大而不能在单个NN装置中实现的ANN。

20.根据权利要求16所述的方法，其中所述装置到装置接口电路包括提供两个NN装置之间的双向通信的一个或多个输入端口和输出端口。