CN110582785A

CN110582785A - 配置用于执行层描述符列表的具有功率效率的深度神经网络模块

Info

Publication number: CN110582785A
Application number: CN201880025508.3A
Authority: CN
Inventors: A·A·安巴德卡; K·D·塞多拉; L·M·瓦尔; B·博布罗夫; G·彼得; C·B·麦克布赖德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-16
Publication date: 2019-12-17
Anticipated expiration: 2038-04-16
Also published as: US20180300616A1; US20180299943A1; CN110506260B; US10540584B2; US20180300606A1; CN110546654A; JP7004741B2; WO2018194849A1; US20180300634A1; KR102596644B1; CN110537194B; WO2018194993A1; US20230071352A1; EP3612989A1; US10963403B2; US20180300607A1; EP3612946B1; US11722147B2; US20180300605A1; EP3612947A1

Abstract

一种深度神经网络(DNN)处理器被配置为执行层描述符列表中的描述符。所述描述符定义用于由所述DNN处理器执行DNN的传递的指令。可以使用若干类型的描述符：存储器到存储器移动(M2M)描述符；操作描述符；主机通信描述符；配置描述符；分支描述符；以及同步描述符。DMA引擎使用M2M描述符来执行多维跨界DMA操作。操作描述符定义将由DNN处理器中的神经元执行的操作的类型以及将由神经元使用的激活函数。M2M描述符与操作描述符分开缓存，并且可以在受制于明确设置依赖性的情况下下尽快执行。结果，可以减少等待时间，并且因此神经元可以更快地完成其处理。因此，与其他方式相比，可以更早地关闭DNN模块的电源，从而节省功率。

Description

配置用于执行层描述符列表的具有功率效率的深度神经网络模块

背景技术

在诸如人脑等生物神经系统中，在信息处理和通信模式之后，对深度神经网络(“DNN”)进行松散建模。DNN可以用来解决复杂的分类问题，诸如但不限于对象检测、语义标记和特征提取。结果，DNN构成了很多人工智能(“AI”)应用的基础，诸如计算机视觉、语音识别和机器翻译。在很多领域，DNN都可以达到或甚至超过人类的准确性。

DNN的高级性能源于它们在对大数据集使用统计学习以获取输入空间的有效表示之后从输入数据中提取高级特征的能力。但是，DNN的优越性能是以高计算复杂度为代价的。诸如图形处理单元(“GPU”)等高性能通用处理器通常用于提供很多DNN应用所需要的高水平计算性能。

尽管诸如GPU等通用处理器可以为实现DNN提供高水平的计算性能，但是这些类型的处理器通常不适合在低功耗至关重要的计算设备中长时间执行DNN操作。例如，诸如GPU等通用处理器可能不适合在诸如智能手机或替代/虚拟现实(AR/VR)设备等电池供电的便携式设备中执行长时间运行的DNN任务，其中需要降低功耗以延长电池寿命。

在执行诸如人体活动的检测等连续DNN任务时，降低功耗在诸如以太网供电(“POE”)安全相机等非电池供电的设备中也很重要。在该特定示例中，POE交换机只能提供有限的电量，而POE设备(如安全相机)中的功耗降低造成较低的POE交换机的功耗和成本。

与通用处理器相比，已经开发出可以在降低功耗的同时提供高性能DNN处理的专用集成电路(“ASIC”)。尽管该领域取得了进步，但仍然需要提高执行DNN处理的ASIC的性能并且降低其功耗，尤其是在低功耗至关重要的计算设备中。

正是针对于这些和其他技术挑战，提出了本文的公开内容。

发明内容

公开了一种神经网络模块或处理器，其可以以在DNN计算的执行期间减少等待时间的方式来执行层描述符列表中的描述符。使用所公开的技术在DNN计算的处理期间减少等待时间可以减少功耗。还可以通过所公开的主题的实现来实现本文中未具体提及的其他技术益处。

为了实现上面简要提及的技术益处以及潜在的其他益处，公开了一种DNN模块，该DNN模块能够检索和执行层描述符列表中包含的描述符以实现DNN。层描述符列表(本文中可以称为“描述符列表”)由诸如编译器等软件预编译，并且包括用于由DNN模块执行神经网络的前向传递和/或后向传播的指令。

描述符列表中的描述符也可以用来配置DNN模块的操作的各方面，包括用于实现神经网络的DNN模块中的神经元的配置。在一个实施例中，描述符列表存储在用作DNN模块的主机的计算设备的主存储器中，并且由DNN模块加载以即时执行。

描述符列表可以包括几种类型的DNN层描述符(本文中可以称为“描述符”)：存储器到存储器移动(“M2M”)描述符；操作描述符；主机通信描述符；配置描述符；分支描述符；以及同步描述符。这些描述符类型中的每个将在下面描述。

在一个实施例中，DNN模块中的直接存储器访问(“DMA”)引擎利用M2M描述符来执行DMA操作。为了启用该功能，M2M描述符包括指定用于定义往返任何存储器地址的多维跨DMA操作的参数的字段。例如而非限制，可以执行M2M描述符以将要由DNN模块中的神经元操作的输入数据和权重数据从主机计算设备的存储器传输到DNN模块中的存储器，诸如缓冲存储器。M2M描述符包含定义这样的存储器传输的参数的数据。

操作描述符定义DNN模块中的神经元应当对由M2M描述符获取的数据执行的特定操作。例如，操作描述符可以定义将由神经元执行的算术运算，诸如但不限于加法合并、标量乘法和加法、卷积、反卷积、最大池化或完全连接层。

操作描述符还可以指定将由神经元使用的激活函数(诸如但不限于ReLU激活函数和基于查找表的激活函数)以及将由神经元使用的数学精度。操作描述符也可以包括用于配置DNN模块硬件操作的各方面的微代码。操作描述符可以包括其他字段，这些字段包含定义用于实现DNN的神经元配置的各方面的数据，下面将对其中的一些进行描述。

主机通信描述符使得DNN模块能够中断和/或发信号通知主机计算设备以提供状态消息和/或其他类型的数据。例如，DNN模块可以执行主机通信描述符以向主机计算设备提供与DNN的层的状态或完成有关的数据。

配置描述符使得能够修改DNN模块的配置状态。例如，可以执行配置描述符以配置DNN模块如何执行舍入操作、电源管理或者启用和禁用神经元。

当指定条件满足时，分支描述符启用描述符列表之间的分支。通过指示神经元暂停其处理直到神经网络的其他神经元完成其处理，可以使用同步描述符来同步多个神经元的执行。在其他实施例中，可以定义和执行其他类型的描述符。

在一个实施例中，DNN模块从主机计算设备的主存储器中检索层描述符列表。然后可以将层描述符列表存储在例如DNN模块的缓冲存储器中。然后，DNN模块开始执行描述符列表中的描述符。例如而非限制，可以执行M2M描述符以获取将由DNN模块中的神经元操作的数据，诸如DNN的输入数据和权重数据。该数据也可以存储在缓冲器中以供神经元使用。

一旦执行了描述符(例如，M2M描述符)，则DNN模块将执行层描述符列表中的下一描述符。例如，DNN模块可以执行操作描述符。在执行时，操作描述符将致使神经元被配置，例如通过将神经元配置为执行在操作描述符中指定的操作类型(例如，加法合并、标量乘法和加法、卷积、反卷积等)并且配置将由神经元使用的激活函数的类型。一旦配置，神经元就可以按照由操作描述符定义的方式来处理通过M2M描述符的执行而检索到的数据。可以针对其他描述符(诸如上述描述符和其他层描述符列表)重复该过程。

如将在下面更详细描述的，M2M描述符与操作描述符分开地被缓存并且可以在明确地设置依赖性的情况下尽快被执行。结果，可以减少通常在获取数据以供DNN模块中的神经元进行处理时所造成的等待时间，因此，神经元可以比其他方式更快地完成其处理。然后，DNN模块可以比其他方式更早地断电，从而节省了功率。还可以通过所公开的技术的实现来实现本文中未具体确定的其他技术益处。

应当理解，上述主题可以被实现为计算机控制的装置、计算机实现的方法、计算设备或诸如计算机可读介质等制品。通过阅读以下“具体实施方式”并且查看相关附图，这些和各种其他特征将变得很清楚。

提供本“发明内容”以便以简化的形式介绍下面在“具体实施方式”中进一步描述的所公开的技术的一些方面。本“发明内容”既并非旨在识别所要求保护的主题的关键特征或必要特征，并非不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于能够解决在本公开的任何部分中指出的任何或所有缺点的实现。

附图说明

图1是示出根据一个实施例的可以实现本文中公开的技术的DNN模块的配置和操作的各方面的计算架构图；

图2是示出根据一个实施例的用于创建和执行层描述符列表的说明性环境的各方面的计算系统图；

图3是示出根据一个实施例的图2所示的层描述符列表的其他方面的数据结构图；

图4A是示出根据一个实施例的操作描述符的配置的各方面的数据结构图；

图4B是示出根据一个实施例的M2M描述符的配置的各方面的数据结构图；

图5是示出根据一个实施例的关于能够执行层描述符列表中的描述符的DNN模块配置细节的计算架构图；

图6是示出根据本文中公开的一个实施例的例程的流程图，该例程示出了参考图1-5描述的用于执行层描述符列表中的描述符的DNN模块的操作的各方面；

图7是示出根据一个实施例的可以用作本文中提出的DNN模块的应用主机的计算设备的说明性计算机硬件和软件架构的计算机架构图；以及

图8是示出根据本文中呈现的各种实施例的可以在其中实现所公开技术各方面的分布式计算环境的网络图。

具体实施方式

以下针对一种神经网络模块进行详细描述，该神经网络模块可以执行层描述符列表中的描述符以有效地执行DNN计算。如以上简要讨论的，使用所公开的技术对DNN计算的有效处理还可以降低功耗。还可以通过所公开的主题的实现来实现本文中未具体提及的其他技术益处。

虽然本文中描述的主题是在硬件DNN模块的一般上下文中介绍的，但本领域技术人员将认识到，可以结合其他类型的计算系统和模块来执行其他实现。本领域技术人员还将认识到，本文中描述的主题可以与其他计算机系统配置一起实践，包括手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、嵌入在设备(诸如可穿戴计算设备、汽车、家庭自动化等)中的计算或处理系统、小型计算机、大型计算机等。

在下面的详细描述中，参考构成其一部分的附图，并且通过说明的方式示出了具体的配置或示例。现在参考附图，其中贯穿若干附图，相同的数字表示相同的元素，将描述可以执行层描述符列表中的描述符以有效执行DNN计算的神经网络模块的各个方面。

图1是示出根据一个实施例的实现本文中公开的技术的深度神经网络(“DNN”)模块105的配置和操作的各方面的计算架构图。在一些实施例中，本文中公开的DNN模块105被配置为解决分类问题(和相关问题)，诸如但不限于对象检测、语义标记和特征提取。

为了提供该功能，DNN模块105可以实现仅召回神经网络，并且以编程方式支持多种网络结构。由DNN模块105实现的网络的训练可以在服务器场、数据中心或其他合适的计算环境中脱机执行。训练DNN的结果是被称为“权重”或“内核”的一组参数。这些参数表示可以应用于输入的转换函数，其结果是分类或语义标记输出。

本文中公开的DNN模块105可以被认为是超标量处理器。DNN模块105可以将一个或多个指令分派给多个执行单元(称为神经元105F。执行单元可以是“同时调度同时完成”，其中每个执行单元与每个其他执行单元同步。DNN模块105可以被分类为单指令流多数据流(“SIMD”)架构。

DNN模块105包括多个神经元105F(例如，二的幂)。神经元105F是人工神经网络中用于对大脑中的生物神经元进行建模的基本单元。神经元105F的模型可以包括输入矢量的内积，其中权重矢量被添加到偏置。由本文中描述的DNN模块105中的神经元105F执行的处理被紧密地映射到人造神经元。

DNN模块105中的每个神经元105F能够执行加权和、最大合并、旁路和潜在的其他类型的操作。神经元105F在每个时钟周期处理输入和权重数据。就内核内的进度而言，每个神经元105F与所有其他神经元105F同步，以最小化DNN模块105内的内核数据流。

每个神经元105F可以包含乘法器、加法器、比较器和多个累加器(图1中未示出)。通过具有多个累加器，神经元105F能够一次为多个不同的活动内核保持上下文。每个累加器能够通过BaSRAM150(如下所述)的读取来加载。累加器可以将其自身与来自其他神经元105F的其他累加器的内容求和。

DNN模块105接受平面数据作为输入，诸如图像数据。然而，至DNN模块105的输入不限于图像数据。而是，DNN模块105可以对以统一平面格式呈现给DNN模块105的任何输入数据进行操作。在一个特定实施例中，DNN模块105可以接受多平面一字节或两字节数据帧作为输入。

每个输入帧可以与一组NxKxHxW个内核进行卷积，其中N是内核数，K是每个内核的通道数，H是高度，W是宽度。在跨输入数据的重叠间隔上执行卷积，其中间隔由X和Y方向上的跨度定义。这些函数由神经元105F执行，并且由DNN模块105和软件可见控制寄存器进行管理。

DNN模块105支持三种主要的数据类型：权重；输入数据/特征图；以及激活数据。在大多数情况下，输入数据/特征图和激活数据是同一数据的两个名称，区别在于，在涉及层的输出时，使用术语激活数据。当涉及层的输入时，使用术语输入数据/特征图。

DNN模块105中的神经元105F计算其输入的加权和，并且使加权和通过“激活函数”或“传递函数”。传递函数通常具有S形形状，但也可以采用以下形式：分段线性函数、非线性函数、阶跃函数或另一种函数。激活函数允许神经元105F训练到更大的一组输入和期望输出。

DNN模块105对与神经网络的层相对应的层描述符列表进行操作。DNN模块105可以将层描述符列表视为指令。这些描述符可以从存储器中预先提取到DNN模块105中并且按顺序执行。描述符列表用作DNN模块105的一组指令。可以在DNN模块105外部的设备上执行软件工具和/或编译器以创建在DNN模块105上执行的描述符列表。

可以使用多种类型的描述符，包括但不限于存储器到存储器移动(“M2M”)描述符和操作描述符。M2M描述符可以用于将数据往返于主存储器与本地缓冲器(即，下述行缓冲器125)之间来回移动以供操作描述符消费。M2M描述符遵循与操作描述符不同的执行流水线。M2M描述符的目标流水线可以是内部DMA引擎105B或配置寄存器105G，而操作描述符的目标流水线可以是神经元105F。

操作描述符包括定义神经元105F应当对位于本地静态随机存取存储器(“SRAM”)的存储器或另一类型的高性能本地存储器(包括但不限于磁阻RAM(“MRAM”))中的数据结构执行的特定操作的数据。操作描述符按顺序处理，并且能够执行很多不同的层运算，本文中描述其中的至少一些操作。关于M2M描述符、操作描述符和若干其他类型的描述符以及用于执行描述符的机制的附加细节将在下面参考图2-6提供。

如图1所示，DNN模块105具有带有唯一的L1和L2缓冲器结构的存储器子系统。图1所示的L1和L2缓冲器是专门为神经网络处理而设计的。作为示例，L2缓冲器150可以通过以选定频率操作的高速专用接口来保持选定存储容量。L1缓冲器125可以保持可以在内核数据与激活数据之间分配的选定存储容量。L1缓冲器125在本文中可以称为“行缓冲器125”，并且L2缓冲器150在本文中可以称为BaSRAM 150。

在一些实施例中，计算数据(即，输入数据、权重和激活数据)存储在BaSRAM 150主要行(row-major)中。可以将计算数据组织为两个行缓冲器，其中一个行缓冲器包含输入数据(本文中可以称为“输入缓冲器”)，另一行缓冲器(本文中可以称为“权重缓冲器”)包含内核权重。行缓冲器由加载/存储单元105C从BaSRAM 150填充。数据在每个行缓冲器中累积，直到达到预定容量。然后，在一些实施例中，将行缓冲器数据复制到阴影缓冲器，并且呈现给神经元105F。

DNN模块105还可以包括其他组件，包括但不限于寄存器接口105G、预取单元105A、保存/恢复单元105E、层控制器105D和寄存器接口105G。在一些实施例中，DNN模块105可以包括附加或替代组件。

在一些配置中，DNN模块105与其他外部计算组件相结合操作。例如，在一些实施例中，DNN模块105连接到片上主机应用处理器系统(“主机SoC”)130。DNN模块105可以例如通过PCIe接口连接到主机SoC 130。适当的PCIe组件(诸如PCIe端点135)可以用于启用这些连接。

在一些实施例中，主机SoC 130用作DNN模块105的应用处理器。主操作系统、应用和辅助传感器处理由主机SoC 130执行。主机SoC 130还可以连接到向DNN模块105提供输入数据(例如，图像数据)的输入数据源102(诸如外部相机)。

DDR DRAM 155还可以连接到可以用作主系统存储器的主机SoC 130。该存储器可以通过存储器控制器145在高带宽结构120(例如，PCIe总线)上从主机SoC 130访问。高带宽结构120提供双向直接存储器访问(“DMA”)小型消息传递事务和较大DMA事务。桥接器115和低带宽结构110可以将DNN模块105连接到主机SoC 130以用于子模块配置和其他功能。

DNN模块105可以包括被配置为将数据移入和移出主存储器155的DMA引擎105B。在一些实施例中，DMA引擎105B具有两个通道。一个通道专用于获取操作描述符，而另一通道专用于M2M操作。DMA描述符可以嵌入在M2M描述符中。在这种情况下，描述符是用于移动存储器的内容的DMA描述符，请勿与上面描述的操作描述符混淆。

为了卸载本地BaSRAM存储器150，并且为了为输入数据和权重数据提供更多空间，激活输出可以可选地直接流传输到DDR存储器155。当将数据流传输到DDR存储器155时，DNN模块105将累积足以用于高带宽结构120上的突发事务的数据，并且充分缓冲以最小化神经元105F上背负的压力。下面将提供关于DNN模块105的操作的附加细节。

图2是示出根据一个实施例的用于创建和执行层描述符列表202的说明性环境的各方面的计算系统图。如以上简要描述的，DNN模块105可以检索和执行层描述符列表202中包含的层描述符204以实现DNN。

层描述符列表202由诸如在开发计算设备208上执行的编译器206等软件预编译，并且对应于神经网络的层。层描述符列表202可以在开发计算设备208上或在另一环境中创建，并且被部署到托管DNN模块105的设备210(在本文中可以称为“主机210”)。DNN模块105将层描述符204视为指令，并且可以执行层描述符204以执行神经网络的前向传递。

在一个实施例中，层描述符列表202被存储在用作DNN模块105的主机的计算设备210的主存储器中，并且由DNN模块加载以用于即时执行。描述符204可以按顺序从主机210的存储器预取到DNN模块105中并且执行。

层描述符列表204可以包括几种类型的DNN层描述符204：存储器到存储器移动(“M2M”)描述符204B；操作描述符204C；主机通信描述符204D；配置描述符204A；分支描述符204E(在图3中示出并且在下面描述)；以及同步描述符204F。这些描述符类型中的每个在下面描述。在其他实施例中，可以使用其他类型的层描述符。

M2M描述符204B可以用于将数据从本地缓冲器(即，下面描述的行缓冲器125)移动至主机计算设备210的主存储器/从主机计算设备210的主存储器移动至本地缓冲器，以供操作描述符消耗，如下所述。在一实施例中，DNN模块105中的直接存储器存取(DMA)引擎(图1中未示出)利用M2M描述符204B来执行DMA操作。

M2M描述符204B包括指定定义去往和来自任何存储器地址的多维跨度DMA操作的参数的字段。例如而非限制，可以执行M2M描述符，以将将由DNN模块105中的神经元105F操作的输入数据和权重数据从主机计算设备210的存储器传输到DNN模块105中的存储器，诸如缓冲存储器。M2M描述符204B包括定义这种存储器传输的参数的数据。关于这些参数中的至少一些的细节将在下面参考图4B来提供。

操作描述符204C指定DNN模块105中的神经元105F应当对由M2M描述符获取的数据所执行的操作。例如，操作描述符204C可以定义将由神经元105F执行的算术运算，诸如但不限于加法合并、标量乘法和加法、卷积、反卷积、最大池化或完全连接层。

操作描述符204C还可以指定将由神经元105F使用的激活函数(诸如但不限于ReLU激活函数和基于查找表的激活函数)以及将由神经元105F在执行这些操作时使用的数学精度。

操作描述符204C还可以包括用于配置DNN模块105的硬件的操作的各方面的微代码。操作描述符204C可以包括其他字段，所述其他字段包含定义用于实现DNN的神经元105F的配置的各方面的数据，其中的一些在下面参考图4A来描述。

配置描述符204A启用DNN模块105的配置状态的修改。例如，可以执行配置描述符204A，以配置DNN模块105如何执行舍入操作、功率管理或启用和禁用神经元。

主机通信描述符204D使得DNN模块105能够中断或发信号通知主机计算设备210，以提供状态消息和/或其他类型的数据。例如，DNN模块105可以执行主机通信描述符204D，以向主机计算设备210提供关于DNN的层的状态或完成的数据。

通过指示神经元105F暂停其处理直到神经网络的其他神经元105F完成其处理，可以利用同步描述符204F来同步DNN模块105中多个神经元105F的执行。在其他实施例中，可以定义和执行其他类型的描述符。

图3是示出根据一个实施例的图2所示的层描述符列表202的附加方面的数据结构图。特别地，图3示出了包括分支描述符204E的层描述符列表202A的各方面。当指定条件被满足时，分支描述符204E使得执行能够在描述符204或层描述符列表202之间进行分支。

在图3所示的示例中，例如，已经定义了分支描述符204E，该分支描述符204E在被执行时将基于对指定条件的评估来将执行分支到层描述符列表202B的头部或层描述符列表202C的头部。在其他实施例中，对描述符204的执行进行分支可以以其他方式来执行。

图4A是示出根据一个实施例的操作描述符204C的配置的各方面的数据结构图。如图4A所示，操作描述符204C可以包括字段402A-402I，字段402A-402I存储定义特定操作的数据，所述特定操作是DNN模块105中的神经元105F应当对通过M2M描述符204B的执行而获取的数据执行的操作。在一个实施例中，操作描述符204C是对该信息进行编码的128字节宽的数据结构。在其他实施例中，操作描述符204C可以以其他方式实现。

在一个实施例中，操作描述符204C包括字段402A，字段402A存储定义将由神经元105F执行的操作的类型的数据，诸如但不限于加法合并、标量乘法和加法、卷积、反卷积、最大池化或完全连接层。操作描述符204C还可以包括字段402B，字段402B存储指定在指定处理操作期间将由神经元105F使用的激活函数的数据，诸如但不限于ReLU激活函数和基于查找表的激活函数。操作描述符204C还可以包括字段402G，字段402G指定在执行操作时将由神经元105F利用的数学精度。

操作描述符204C还可以包括字段402C，字段402C存储指示神经元105F在其处理完成时暂停的数据。操作描述符204C还可以包括字段402D，字段402D存储将致使DNN模块105阻止对描述符204的进一步处理直到其之前(即，具有较低标识(“ID”)标签)的所有描述符204已经完成他们的处理并且已经从他们完成存储接收到写入响应(该过程在本文中被称为“防护”)的数据。这可以用来确保在描述符处理流水线中没有剩余其他描述符204。ID标签是单调递增的编号，其基于描述符在层描述符列表202中的放置而被分配给每个描述符204(即，描述符列表202中的第一描述符204将具有最低编号)。在一个实施例中，操作描述符204的ID标签存储在字段402R中。

操作描述符204C还可以包括字段402E，字段402E嵌入用于配置DNN模块105的硬件的操作的各方面的微代码。例如而非限制，字段402E中的微代码可以由DNN模块105提取并且被执行以配置实现神经元105F的硬件。作为特定示例，微代码可以被执行以配置如何执行卷积操作，配置迭代器，和/或配置神经元105F的操作的其他方面。

操作描述符204C还可以包括字段402F，字段402F存储定义对另一描述符204的完成执行的依赖性的数据。具有依赖性集合表示一描述符在字段402F中标识的描述符完成其操作之前将不被执行。字段402F可以被设置为零，以指示描述符204不具有依赖性并且因此应当对该描述符204而禁用依赖性检查。

为了启用依赖性检查，DNN模块105可以保持存储有最近完成的描述符的ID标签的寄存器。可以保持用于标识最近完成的M2M描述符204B和最近完成的操作描述符204C的分开的寄存器。DNN模块105将基于存储在这些寄存器中的值来释放依赖性。

应当理解，在某些情况下，有必要设置两个M2M描述符204B之间的依赖性。例如，当一个操作的执行时间非常短并且下一操作需要来自前一操作的数据时，必须在两个M2M描述符204B之间设置依赖性。出于类似的原因，可能有必要在两个操作描述符204C之间设置依赖性。

M2M描述符204B和操作描述符204C还可以取决于以上标识的其他描述符类型的完成执行。例如，在图2所示的示例中，M2M描述符204B的执行可以取决于配置描述符204A的完成执行。类似地，主机通信描述符204D的执行可以取决于第二操作描述符204C的完成执行。在本文中公开的实施例中，以上标识的不同类型的描述符204可以彼此依赖。

操作描述符204C还可以包括字段402H和402I，字段402H和402I存储定义输入数据到操作和由操作生成的输出数据(本文中可以称为“斑点”)的各方面的数据。这些字段可以包括例如标识以下各项的数据：输入数据和输出数据的存储器地址、输入数据和输出数据的尺寸、输入数据和输出数据的精度、特征计数、输入数据的高度和宽度、通道数、输出数据的高度和宽度、填充配置和跨步配置。在其他实施例中，可以在操作描述符204C中来指定输入数据和输出数据的其他方面。

应当理解，字段402A-402I仅是说明性的。在其他实施例中，操作描述符204C可以包括附加或替代字段，所述附加或替代字段存储定义将由神经元105F执行以实现DNN的操作的其他方面的数据。

图4B是示出根据一个实施例的M2M描述符204B的配置的各方面的数据结构图。如上所述，M2M描述符204B包括指定定义至任何存储器地址/从任何存储器地址的多维跨度DMA操作的参数的字段。在一个实施例中，M2M描述符204B是编码该信息的128字节宽的数据结构。在其他实施例中，M2M描述符204B可以以其他方式来实现。

在一个实施例中，M2M描述符204B包括指示描述符是M2M描述符204B的字段402A。M2M描述符204B还可以包括存储诸如以上针对M2M描述符204B所描述的ID标签的字段402R。M2M描述符204B还可以包括也以上述方式指定对另一描述符204的完成执行的依赖性的字段402F。类似地，M2M描述符204B可以包含字段402D，字段402D存储将致使DNN模块105阻止对描述符204B的进一步处理直到在其之前的所有描述符204已经完成他们的处理并且已经从他们的完成存储接收到写入响应(即，上述防护操作)的数据。

M2M描述符204B还可以包括指定用户定义的传输ID的字段402J。通过在该字段中存储唯一编号并且监测DNN模块105的操作状态寄存器中的相应字段，软件可以标识当前正在执行的传输。

M2M描述符204B还可以包括指定要被传输的数据的各方面的字段402K-402P。例如而非限制，这些字段可以存储分别标识源跨度(即，DMA传输的连续行的第一字节之间的字节数)、目的地跨度、X和Y维度上的操作大小、源存储器地址和目的地存储器地址的数据。在其他实施例中，M2M描述符204B可以包括附加或替代字段，该附加或替代字段存储定义M2M操作的其他方面的数据。

图5是示出根据一个实施例的关于被配置为执行层描述符列表202中的描述符204的DNN模块105的配置的细节的计算架构图。在该实施例中，DNN模块105包括执行用于检索和路由在层描述符列表202中的描述符204的操作的描述符列表控制器(“DLC”)500。

如图5所示，主机CPU 502(即，主机计算设备210中的CPU)向DLC 500提供识别将被执行的层描述符列表202的数据。在一个实施例中，该数据存储在描述符队列504中。描述符获取单元506又从描述符队列504中检索数据，并且指示DMA引擎105B检索所标识的层描述符列表202。DMA引擎105B从主机计算机210的DRAM 155中检索层描述符列表202，并且将层描述符列表202存储在由DLC 500提供的缓冲器508中。

在一些实施例中，依赖性/防护检查单元510从缓冲器508中检索描述符204，并且强制执行上述防护和依赖性检查。在由依赖性/防护检查单元510进行处理之后，层描述符列表202中的描述符204被提供给路由引擎512。

路由引擎512将不同类型的描述符路由到不同的流水线。例如，在图5所示的示例中，路由引擎512已经将M2M描述符204B路由到DMA引擎105B。如上所述，DMA引擎105B可以利用M2M描述符204B的内容，来把将由DNN模块105中的神经元105F进行操作的输入数据和权重数据从主机计算设备210的存储器传输到DNN模块105中的存储器，诸如缓冲器。

在图5所示的示例中，路由引擎512还已经将操作描述符204C路由到操作控制器514以用于执行。操作控制器514将利用操作描述符204C来配置神经元105F。一旦被配置，神经元105F可以处理通过M2M描述符204B的执行而检索到的数据。可以针对诸如上面描述的附加描述符204、和附加层描述符列表202来重复该过程。

还如图5所示，路由引擎512可以利用配置描述符204A来设置定义DNN模块105的配置的配置寄存器516的状态。还如图5所示，主机CPU 502还可以独立地访问配置寄存器516，以设置或检索DNN模块105的配置状态。例如，主机CPU 502可以以致使DNN模块105在DNN处理完成之后自己断电的方式来设置配置寄存器516。在其他实施例中，主机CPU 502可以利用配置寄存器516来设置DNN模块105的配置状态的其他方面。寄存器516可以在包含DNN模块105的功率岛的外部，以便在DNN模块105断电时允许主机210访问寄存器516。

如上所述，DLC 500与操作描述符204C分开地缓冲M2M描述符204B。以这种方式，可以在受制于明确设置依赖性的情况下，尽快执行M2M描述符204B。结果，可以减少通常在获取数据以供DNN模块105中的神经元105F进行处理时所招致的等待时间，并且因此，神经元105F可以比其他情况下原本时间更快地完成其处理。于是，DNN模块105可以比其他情况下原本时间更早地断电，从而节省功率。还可以通过所公开的技术的实现来实现本文中未具体确定的其他技术益处。

图6是示出根据本文中公开的一个实施例的例程600的流程图，该例程600示出了用于执行层描述符列表202中的描述符204的参考图1-5所描述的DNN模块105的操作的各方面。应当理解，本文中关于图6和其他图描述的逻辑操作可以实现为(1)在计算设备上运行的一系列计算机实现的动作或程序模块，和/或(2)诸如DNN模块105等计算设备内的互连的机器逻辑电路或电路模块。

本文中公开的技术的特定实现是取决于计算设备的性能和其他要求的选择问题。因此，本文中描述的逻辑操作被不同地称为状态、操作、结构设备、动作或模块。这些状态、操作、结构设备、动作和模块可以用硬件、软件、固件、专用数字逻辑及其任何组合来实现。应当理解，可以执行比附图中示出和本文中描述的更多或更少的操作。这些操作也可以以与本文中描述的顺序不同的顺序执行。

例程600开始于操作602，在操作602，DLC 500从主机CPU 502接收描述描述符列表202在主机DRAM 155中的位置的数据。该数据被放置在描述符队列504中。然后，例程600从操作602前进到操作604，在操作604，描述符获取单元506指示DMA引擎105B从主机DRAM 155中检索层描述符列表202。DMA引擎105B又检索层描述符列表202并且将列表202存储在缓冲器508中。然后，例程600从操作604前进到操作606。

在操作606，从缓冲器508中检索描述符列表202中的第一描述符204。然后，例程600前进到操作608，在操作608，依赖性/防护检查单元510确定描述符204是否指示防护或依赖性。如果是，则例程600从操作608前进到操作610，在操作610，依赖性/防护检查单元510确定是否满足指定的防护或依赖性条件。如果是，则例程600从操作612分支到操作614。

如果在操作608，依赖性/防护检查单元510确定描述符204未指示防护或依赖性，则例程600从操作608前进到操作614。在操作614，路由引擎512确定当前描述符204是否是分支描述符204E。如果是，则例程600从操作614前进到操作616，在操作616，确定是否满足由分支描述符204E指定的条件。如果是，则例程600从操作616前进到操作618，在操作618，描述符204的执行分支到由分支描述符204E标识的描述符204。例程600然后从操作618回到操作608，在操作608，可以处理下一描述符204。

如果在操作614，路由引擎512确定当前描述符204不是分支描述符204E，则例程600从操作614前进到操作620。在操作620，路由引擎512确定当前描述符204是否是M2M描述符204B。如果是，则例程600从操作614前进到操作622，在操作622，路由引擎512将当前描述符204B路由到DMA引擎105B，以便执行指定的M2M操作。如果当前描述符204不是M2M描述符204B，则例程600从操作620前进到操作624。

在操作624，路由引擎512确定当前描述符204是否是操作描述符204C。如果是，则例程600从操作624前进到操作626，在操作626，路由引擎512将当前描述符204C路由到操作控制器514，以便配置神经元105F并且执行由操作描述符204C指定的处理操作。如果当前描述符204不是操作描述符204C，则例程600从操作624前进到操作628。

在操作628，路由引擎512确定当前描述符204是否是主机通信描述符204D。如果是，则例程600从操作628前进到操作630，在操作630，主机210可以被中断或以其他方式被发信号通知，以便将数据从DNN模块104传输到主机210。如果当前描述符204不是主机通信描述符204D，则例程600从操作628前进到操作632。

在操作632，路由引擎512确定当前描述符204是否是同步描述符。如果是，则例程600从操作632前进到操作634，在操作634，操作控制器514以上述方式同步神经元105F。如果当前描述符204不是同步描述符，则例程600从操作632前进到操作636，在操作636，可以执行其他描述符类型。然后，例程600从操作636前进到操作638。

在操作638，DLC 500确定在描述符列表202中是否存在要执行的附加描述符204。如果否，则例程600从操作638前进到操作642，在操作642，例程600结束。如果还有待处理的附加描述符204，则例程600从操作638前进到操作640，在操作640，检索描述符列表202中的下一描述符204。然后，例程600返回到操作608，在操作608，可以以上述方式处理描述符204。

图7是示出可以用作本文中提出的DNN模块105的应用主机的计算设备的说明性计算机硬件和软件架构的计算机架构图。特别地，图7所示的架构可以用于实现服务器计算机、移动电话、电子阅读器、智能电话、台式计算机、AR/VR设备、平板计算机、膝上型计算机、或适合于与DNN模块105一起使用的另一种类型的计算设备。

图7所示的计算机700包括中央处理单元702(“CPU”)、系统存储器704(包括随机存取存储器706(“RAM”)和只读存储器(“ROM”)708)、以及将存储器704耦合到CPU 702的系统总线710。包含用于帮助诸如在启动过程中在计算机700内的各个元件之间传输信息的基本例程的基本输入/输出系统(“BIOS”或“固件”)可以存储在ROM 708中。计算机700还包括用于存储操作系统722、应用程序和其他类型的程序的大容量存储设备712。大容量存储设备712还可以被配置为存储其他类型的程序和数据。

大容量存储设备712通过连接到总线710的大容量存储控制器(未示出)连接到CPU702。大容量存储设备712及其关联的计算机可读介质为计算机700提供非易失性存储。尽管本文中包含的计算机可读介质的描述是指大容量存储设备，诸如硬盘、CD-ROM驱动器、DVD-ROM驱动器或USB存储密钥，但是本领域技术人员应当理解，计算机可读介质介质可以是计算机700可访问的任何可用的计算机存储介质或通信介质。

通信介质包括诸如载波或其他传输机制等调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何分发介质。术语“调制数据信号”是指具有以能够将信息编码在信号中的方式来改变或设置其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、射频、红外和其他无线介质等无线介质。以上任何内容的组合也应当被包括在计算机可读介质的范围内。

作为示例而非限制，计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如，计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁性存储设备、或者可以用于存储期望信息并且可以由计算机700访问的任何其他介质。出于权利要求的目的，短语“计算机存储介质”及其变体不包括波或信号本身或通信介质。

根据各种配置，计算机700可以使用通过至诸如网络720等网络到远程计算机的逻辑连接来在联网环境中操作。计算机700可以通过连接到总线710的网络接口单元716连接到网络720。应当理解，网络接口单元716也可以用于连接到其他类型的网络和远程计算机系统。计算机700还可以包括输入/输出控制器718，输入/输出控制器718用于接收和处理来自很多其他设备(包括键盘、鼠标、触摸输入、电子笔(图7中未示出)或物理传感器，诸如视频相机)的输入。类似地，输入/输出控制器718可以向显示屏或其他类型的输出设备(在

图7中也未示出)提供输出。

应当理解，本文中描述的软件组件在被加载到CPU 702中并且被执行时，可以将CPU 702和整个计算机700从通用计算设备转换为被定制为促进本文中介绍的功能的专用计算设备。CPU 702可以由可单独或共同地呈现任何数目的状态的任何数目的晶体管或其他分立电路元件来构成。更具体地，响应于本文中公开的软件模块中包含的可执行指令，CPU 702可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU 702如何在状态之间转换来对CPU 702进行转换，从而对构成CPU 702的晶体管或其他分立硬件元件进行转换。

对本文中提出的软件模块进行编码还可以变换本文中提出的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换取决于各种因素。这样的因素的示例包括但不限于用于实现计算机可读介质的技术、计算机可读介质的特征是主要存储设备吧还是辅助存储设备。例如，如果计算机可读介质被实现为基于半导体的存储器，则可以通过变换半导体存储器的物理状态来将本文中公开的软件编码在计算机可读介质上。例如，该软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以转换这些组件的物理状态，以便在其上存储数据。

作为另一示例，本文中公开的计算机可读介质可以使用磁性或光学技术来实现。在这样的实现中，当软件被编码在其中时，本文中提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性特性。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或特性，以改变这些位置的光学特性。在不背离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，其中提供前述示例仅是为了促进该讨论。

鉴于以上所述，应当理解，在计算机700中发生了很多类型的物理变换以便存储和执行本文中提出的软件组件。还应当理解，图7中针对计算机700示出的架构或类似架构可以用于实现其他类型的计算设备，包括手持计算机、视频游戏设备、嵌入式计算机系统、移动设备(诸如智能手机、平板电脑和AR/VR设备)、以及本领域技术人员已知的其他类型的计算设备。还可以想到，计算机700可能并非包括如图7所示的所有组件，可以包括图7中未明确示出的其他组件，或者可以使用与图7所示的架构完全不同的架构。

图8是示出根据本文中呈现的各种实施例的可以在其中实现所公开的技术的各方面的分布式网络计算环境800的网络图。如图8所示，一个或多个服务器计算机800A可以经由通信网络720(其可以是固定有线或无线LAN、WAN、内联网、外联网、对等网络、虚拟专用网络、因特网、蓝牙通信网络、专有低压通信网络或其他通信网络)与多个客户端计算设备(诸如但不限于平板电脑800B、游戏控制台800C、智能手表800D、电话800E(诸如智能电话)、个人计算机800F和AR/VR设备800G)互连。

例如，在通信网络720是因特网的网络环境中，服务器计算机800A可以是专用服务器计算机，该专用服务器计算机可操作以经由多种已知协议中的任何一种来处理并传送至客户端计算设备800B-800G的数据以及来自客户端计算设备800B-800G的数据，多种已知协议诸如是超文本传输协议(“HTTP”)、文件传输协议(“FTP”)或简单对象访问协议(“SOAP”)。另外，网络计算环境800可以利用各种数据安全协议，诸如安全套接字层(“SSL”)或相当好的隐私(“PGP”)。客户端计算设备800B-800G中每个可以配备有操作系统，该操作系统可操作以支持一个或多个计算应用或终端会话，诸如网络浏览器(图8中未示出)或其他图形用户界面(图8中未示出)或移动桌面环境(图8中未示出)，以获取对服务器计算机800A的访问。

服务器计算机800A可以通信地耦合到其他计算环境(图8中未示出)，并且接收有关参与用户的交互/资源网络的数据。在说明性操作中，用户(图8中未示出)可以与在客户端计算设备800B-800G上运行的计算应用交互以获取期望数据和/或执行其他计算应用。

数据和/或计算应用可以存储在一个或多个服务器800A上，并且在示例性通信网络720上通过客户端计算设备800B-800G而传送到合作用户。参与用户(图8中未示出)可以请求访问全部或部分容纳在服务器计算机7800A上的特定数据和应用。这些数据可以在客户端计算设备800B-800G与服务器计算机800A之间被传送，以便进行处理和存储。

服务器计算机800A可以托管用于数据、应用的生成、认证、加密和通信的计算应用、过程和小程序，并且可以与其他服务器计算环境(图8中未示出)、第三方服务供应商(图8中未示出)、网络附加存储(“NAS”)和存储区域网络(“SAN”)协作以实现应用/数据交易。

应当理解，图7所示的计算架构和图8所示的分布式网络计算环境出于便于讨论的原因而被简化。还应当理解，计算架构和分布式计算网络可以包括和利用本文中未具体描述的更多的计算组件、设备、软件程序、网络设备和其他组件。

本文中提出的公开内容还涵盖以下条款中阐述的主题：

条款1.一种神经网络处理器，包括：一个或多个神经元；第一存储器设备，用于存储层描述符列表，所述层描述符列表包括至少一个存储器到存储器(M2M)描述符和至少一个操作描述符；第二存储器设备，用于存储将由所述一个或多个神经元操作的数据；以及控制器，被配置为执行所述至少一个M2M描述符，以执行M2M操作，以将要由所述一个或多个神经元操作的所述数据从主机计算设备的存储器传输到所述第二存储器设备，以及执行存储在所述第一存储器设备中的至少一个操作描述符，以致使所述一个或多个神经元对所述第二存储器设备中的数据执行操作。

条款2：根据条款1所述的神经网络处理器，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元执行的操作的字段，并且其中所述操作包括加法合并操作、标量乘法和加法运算、卷积运算、反卷积运算、最大池化运算或完全连接层运算。

条款3.根据条款1和2中任一项所述的神经网络处理器，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元在所述操作期间使用的激活函数的类型的字段。

条款4.根据条款1-3中任一项所述的神经网络处理器，其中所述层描述符列表还包括分支描述符，所述分支描述符在被执行时将致使所述控制器：确定条件是否已经满足；以及响应于确定所述条件已经满足，致使所述层描述符列表中的描述符的执行从第一描述符分支到第二描述符。

条款5.根据条款1-4中任一项所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时将致使所述控制器同步所述一个或多个神经元的同步描述符。

条款6.根据条款1-5中任一项所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时修改所述神经网络模块的配置状态的配置描述符。

条款7.根据条款1-6中任一项所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时将致使所述控制器向所述主机计算设备传输数据的主机通信描述符。

条款8：一种计算机实现的方法，包括：将层描述符列表存储在神经网络模块的存储器中，所述层描述符列表包括至少一个存储器到存储器(M2M)描述符和至少一个操作描述符；通过所述神经网络模块执行所述至少一个M2M描述符，以执行M2M操作，用于从主机计算设备的存储器中获取将由所述一个或多个神经元操作的数据；以及通过所述神经网络模块执行所述至少一个操作描述符，以致使所述一个或多个神经元对所述数据执行操作。

条款9.根据条款8所述的计算机实现的方法，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元对所述数据执行的操作的字段，并且其中所述操作包括加法合并运算、标量乘法和加法运算、卷积运算、反卷积运算、最大池运算或完全连接层运算。

条款10，根据条款8和9所述的计算机实现的方法，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元使用的激活函数的类型的字段。

条款11.根据条款8-10中任一项所述的计算机实现的方法，其中所述至少一个操作描述符包括指定将由所述操作利用的数学精度的字段。

条款12：根据条款8-11中任一项所述的计算机实现的方法，其中所述至少一个操作描述符包括用于配置所述神经网络模块以执行所述操作的微代码。

条款13.根据条款8-12中任一项所述的计算机实现的方法，其中所述层描述符列表还包括主机通信描述符，所述主机通信描述符在由所述控制器执行时将致使所述控制器中断或发信号通知所述主机计算设备并且向所述主机计算设备传输数据。

条款14.根据条款8-13中任一项所述的计算机实现的方法，其中所述层描述符列表还包括分支描述符，所述分支描述符在被执行时将致使所述神经网络模块：确定条件是否已经满足；以及响应于确定所述条件已经满足，致使所述层描述符列表中的描述符的执行从第一描述符分支到第二描述符。

条款15：一种神经网络处理器，包括：一个或多个神经元；第一存储器设备，用于存储层描述符列表，所述层描述符列表包括定义神经网络的层的配置的有序描述符列表；以及控制器，被配置为执行所述层描述符列表中的第一描述符，以获取将由所述一个或多个神经元操作的数据，以及执行所述层描述符列表中的第二描述符，以致使所述一个或多个神经元对所述数据执行操作。

条款16.根据条款15所述的神经网络处理器，其中所述第一描述符包括指定所述操作的字段，并且其中所述操作包括加法合并运算、标量乘法和加法运算、卷积运算、反卷积运算、最大池化运算或完全连接层运算。

条款17.根据条款15和16中任一项所述的神经网络处理器，其中所述第一描述符包括指定将由所述一个或多个神经元使用的激活函数的类型的字段。

条款18.根据条款15-17中任一项所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时将致使所述控制器进行以下操作的描述符：确定条件是否已经满足；以及响应于确定所述条件已经满足，分支所述层描述符列表中的描述符的执行。

条款19.根据条款15-18中任一项所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时修改所述神经网络模块的配置状态的描述符。

条款20.根据条款15-19中任一项所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时将致使所述控制器同步所述一个或多个神经元的描述符。

基于前述内容，应当理解，本文中已经公开了可以执行层描述符列表中的描述符以有效地执行DN计算的神经网络模块。尽管已经以计算机结构特征、方法和转换动作、特定的计算机器和计算机可读介质专用的语言描述了本文中介绍的主题，但是应当理解，所附权利要求书中提出的主题不必限于本文中描述的特定功能、动作或介质。相反，特定特征、动作和介质被公开作为实现所要求保护的主题的示例形式。

上述主题仅以示例的方式提供，并且不应当被解释为是限制性的。可以在不遵循示出和描述的示例配置和应用的情况下，并且在不脱离在所附权利要求中阐述的本公开的范围的情况下，对本文中描述的主题进行各种修改和改变。

Claims

1.一种神经网络处理器，包括：

一个或多个神经元；

第一存储器设备，用于存储层描述符列表，所述层描述符列表包括：

至少一个存储器到存储器(M2M)描述符，以及

至少一个操作描述符；

第二存储器设备，用于存储将由所述一个或多个神经元操作的数据；以及

控制器，被配置为：

执行所述至少一个M2M描述符，以执行M2M操作，将要由所述一个或多个神经元操作的所述数据从主机计算设备的存储器传输到所述第二存储器设备，以及

执行存储在所述第一存储器设备中的至少一个操作描述符，以致使所述一个或多个神经元对所述第二存储器设备中的所述数据执行操作。

2.根据权利要求1所述的神经网络处理器，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元执行的所述操作的字段，并且其中所述操作包括：

加法合并运算，

标量乘法和加法运算，

卷积运算，

反卷积运算，

最大池化运算，或者

完全连接层运算。

3.根据权利要求1所述的神经网络处理器，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元在所述操作期间使用的激活函数的类型的字段。

4.根据权利要求1所述的神经网络处理器，其中所述层描述符列表还包括分支描述符，所述分支描述符在被执行时将致使所述控制器：

确定条件是否已经满足；以及

响应于确定所述条件已经满足，致使所述层描述符列表中的描述符的执行从第一描述符分支到第二描述符。

5.根据权利要求1所述的神经网络处理器，其中所述层描述符列表还包括：

同步描述符，在由所述控制器执行时将致使所述控制器同步所述一个或多个神经元；

配置描述符，在由所述控制器执行时修改所述神经网络模块的配置状态；或者

主机通信描述符，在由所述控制器执行时将致使所述控制器向所述主机计算设备传输数据。

6.一种计算机实现的方法，包括：

将层描述符列表存储在神经网络模块的存储器中，所述层描述符列表包括：

至少一个存储器到存储器(M2M)描述符，以及

至少一个操作描述符；通过所述神经网络模块执行所述至少一个M2M描述符，以执行M2M操作，用于从主机计算设备的存储器中获取将由所述一个或多个神经元操作的数据；以及

通过所述神经网络模块执行所述至少一个操作描述符，以致使所述一个或多个神经元对所述数据执行操作。

7.根据权利要求6所述的计算机实现的方法，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元对所述数据执行的所述操作的字段，并且其中所述操作包括：

加法合并运算，

标量乘法和加法运算，

卷积运算，

反卷积运算，

最大池化运算，或者

完全连接层运算。

8.根据权利要求6所述的计算机实现的方法，其中所述至少一个操作描述符包括指定将由所述一个或多个神经元使用的激活函数的类型的字段。

9.根据权利要求6所述的计算机实现的方法，其中所述至少一个操作描述符包括指定将由所述操作利用的数学精度的字段。

10.根据权利要求6所述的计算机实现的方法，其中所述至少一个操作描述符包括用于配置所述神经网络模块以用于执行所述操作的微代码。

11.根据权利要求6所述的计算机实现的方法，其中所述层描述符列表还包括主机通信描述符，所述主机通信描述符在由所述控制器执行时将致使所述控制器中断或发信号通知所述主机计算设备并且向所述主机计算设备传输数据。

12.一种神经网络处理器，包括：

一个或多个神经元；

第一存储器设备，用于存储层描述符列表，所述层描述符列表包括定义神经网络的层的配置的有序描述符列表；以及

控制器，被配置为：

执行所述层描述符列表中的第一描述符，以获取将由所述一个或多个神经元操作的数据，以及

执行所述层描述符列表中的第二描述符，以致使所述一个或多个神经元对所述数据执行操作。

13.根据权利要求12所述的神经网络处理器，其中所述第一描述符包括指定所述操作的字段，并且其中所述操作包括：

加法合并运算，

标量乘法和加法运算，

卷积运算，

反卷积运算，

最大池化运算，或者

完全连接层运算。

14.根据权利要求12所述的神经网络处理器，其中所述第一描述符包括指定将由所述一个或多个神经元使用的激活函数的类型的字段。

15.根据权利要求12所述的神经网络处理器，其中所述层描述符列表还包括在由所述控制器执行时修改所述神经网络模块的配置状态的描述符。