CN110546611B

CN110546611B - 通过跳过处理操作来减少神经网络处理器中的功耗

Info

Publication number: CN110546611B
Application number: CN201880025480.3A
Authority: CN
Inventors: A·A·安巴德卡; C·B·麦克布赖德; G·彼得; L·M·瓦尔; K·D·塞多拉; B·博布罗夫
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-16
Publication date: 2023-05-02
Anticipated expiration: 2038-04-16
Also published as: AU2018256212A1; EP3612934A1; EP3613026A1; CN110582785A; US11405051B2; EP3612936B1; US20180300615A1; MX2019012388A; RU2019136750A3; KR102596644B1; WO2018194845A1; US11030131B2; IL269888B; CN116909985A; BR112019021541A2; US11722147B2; EP3612946A1; US11100390B2; US20180300607A1; US11476869B2

Abstract

深度神经网络(“DNN”)模块可以确定由神经元对输入缓冲区或权重缓冲区中的某些值的处理是否可以被跳过。例如，DNN模块可以确定神经元是否可以跳过对神经元缓冲区的整个列中的值的处理。例如，如果输入缓冲区或权重缓冲区的整个列为零，则可以跳过对这些值的处理。DNN模块还可以确定对输入缓冲区或权重缓冲区的行中的单个值的处理(例如，如果这些值为零)是否可以被跳过。由于跳过操作而提早完成其处理的神经元可以协助其他神经元进行其处理。可以在将由神经元执行的处理操作的结果传递给其正确所有者的处理完成之后执行组合操作。

Description

通过跳过处理操作来减少神经网络处理器中的功耗

背景技术

在诸如人脑等生物神经系统中的信息处理和通信模式之后，对深度神经网络(“DNN”)进行松散建模。DNN可以用于解决复杂的分类问题，诸如但不限于对象检测、语义标记和特征提取。结果，DNN形成了很多人工智能(“AI”)应用的基础，诸如计算机视觉、语音识别和机器翻译。在这些领域中的很多领域，DNN都可以匹配或超过人类的准确性。

DNN的高级性能源于它们在对大数据集使用统计学习以获取输入空间的有效表示之后从输入数据中提取高级特征的能力。然而，DNN的优越性能是以高计算复杂度为代价的。诸如图形处理单元(“GPU”)等高性能通用处理器通常用于提供由很多DNN应用所需要的高水平计算性能。

尽管如GPU的通用处理器可以为实现DNN提供高水平的计算性能，但是这些类型的处理器通常不适合在低功耗至关重要的计算设备中长时间执行DNN操作。例如，诸如GPU等通用处理器可能不适合在如智能电话或替代/虚拟现实(AR/VR)设备等需要降低的功耗以延长电池寿命的电池供电的便携式设备中执行长时间运行的DNN任务。

在执行诸如人体移动的检测等连续DNN任务的同时降低功耗，在诸如以太网供电(“POE”)安全相机等非电池供电的设备中也很重要。在该特定示例中，POE交换机可能仅提供有限的电量，并且减少如安全相机等POE设备的功耗允许使用提供更少功率的POE交换机。

与通用处理器相比，已经开发出可以在降低功耗的同时提供高性能DNN处理的专用集成电路(“ASIC”)。尽管该领域取得了进步，然而仍然需要提高执行DNN处理的ASIC的性能并且降低其功耗，尤其对于在低功耗至关重要的计算设备中的使用。

关于这些和其他技术挑战，提出了本文中进行的公开内容。

发明内容

本文中公开了一种神经网络模块或处理器，其可以通过跳过某些类型的神经网络处理操作的执行来提高吞吐量并且降低功耗。更具体地，本文中公开的神经网络模块可以在某些条件下跳过对输入数据和权重数据或其他类型的数据执行的算术运算，从而与先前的硬件神经网络处理器相比提高吞吐量并且节省功率。还可以通过所公开的技术方案的实现来实现本文中未具体提及的其他技术益处。

为了实现上面简要提到的技术益处，提供了一种DNN模块，其包括神经元和神经元缓冲区。神经元缓冲区存储输入缓冲区和权重缓冲区，输入缓冲区包含到神经网络的输入数据，并且权重缓冲区存储限定神经网络的方面的权重。输入缓冲区中的输入数据和权重缓冲区中的权重数据可以被组织成对应的行和列。在不同实施例中，输入缓冲区和权重缓冲区可以以不同方式用硬件来实现。

在一个实施例中，DNN模块提供用于全列操作跳过的功能。在该实施例中，DNN模块中的神经元同步操作。输入缓冲区和权重缓冲区中的每列数据是将在单个时钟周期内被馈送到所有神经元的数据。行包括被提供给每个神经元的数据。输入缓冲区的列和权重缓冲区的列相匹配。也就是说，如果跳过对输入缓冲区的列的处理，则也跳过对权重缓冲区的对应列的处理，反之亦然。

为了执行按列操作跳过，DNN模块可以确定输入缓冲区的整个列或权重缓冲区的整个列中的值是否是特定值或在值的范围内。例如，在一个特定实施例中，DNN模块中的组分区器和调度器确定输入缓冲区的整个列中的所有值是否均为零。例如，这可以在卷积运算期间发生，其中零输入值或权重值将导致被浪费的处理周期。

如果输入缓冲区的任一列中的值均为零，则可以跳过原本将由DNN模块的神经元对该列(和权重缓冲区的对应列)执行的处理操作。类似地，DNN模块可以确定权重缓冲区的整个列中的所有值是否均为零(或另一预定值或在值的范围内)。如果权重缓冲区的任一列中的值均为零，则可以跳过原本将由神经元对该列(和输入缓冲区的对应列)执行的处理操作，从而提高吞吐量并且降低功耗。

在一些实施例中，DNN模块可以确定输入缓冲区的整个列或权重缓冲区的整个列中的所有值是否均是接近零的特定值、在指定值的范围内，或者均是高于或低于指定阈值的值。如果是这样，则DNN模块可以使得神经元跳过对整个列的值的处理。在其他配置中，将使得神经元跳过对数据列的处理的特定值可以以其他方式定义。

在另一实施例中，DNN模块提供用于异步神经元处理和操作跳过的功能。在该实施例中，神经元异步地执行其处理，从而使得神经元能够比在上述实施例中的每列基础上更细粒度地跳过处理操作。确切地说，在该实施例中，组分区器和调度器可以确定输入缓冲区或权重缓冲区的行中的单个值是否包括特定值(例如，零、接近零的值或值范围内的值)。如果输入缓冲区或权重缓冲区的行中的单个值包括该值，则负责神经元可以跳过对两个缓冲区中该值的处理。

在另一实施例中，DNN模块提供用于异步神经元处理、操作跳过和协同神经元处理的功能。在该实施例中，由于以上述方式跳过操作而提早完成其处理的神经元可以辅助其他神经元进行其处理。例如而非限制，跳过两个操作的神经元将提早两个周期完成其处理。结果，该神经元可以投入两个周期来代表其他神经元执行处理操作。

在该实施例中，在使用边带求和将由神经元执行的处理操作的结果传递给其正确的所有者的处理完成之后执行组合操作。在一个实施例中，这是通过将累加器配置为从神经元组中的所有神经元可访问的共享存储器的一部分来实现的。在该实施例中，在该周期的最后，对部分结果执行按行求和以获取针对每行的最终输出值。在其他的一些实施例中，可以执行其他类型的组合操作，诸如最大池化。

如以上简要讨论的，本文中公开的技术在DNN处理器中的实现可以跳过某些类型的处理操作，从而与先前的解决方案相比产生更高的吞吐量并且更低的功耗。例如，所公开的技术的实现可以跳过涉及权重数据和其他类型的数据(诸如但不限于权重数据)的处理操作。还可以通过所公开的技术的实现来实现本文中未具体确定的其他技术益处。

应当理解，上述技术方案可以被实现为计算机控制的装置、计算机实现的方法、计算设备或诸如计算机可读介质等制品。通过阅读以下“具体实施方式”并且查看相关联的附图，这些和各种其他特征将变得很清楚。

提供本发明内容以便以简化的形式介绍下面在具体实施方式中进一步描述的所公开的技术的一些方面。本发明内容既不旨在标识所要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求保护的技术方案的范围。此外，所要求保护的技术方案不限于能够解决在本公开的任何部分中指出的任何或所有缺点的实现。

附图说明

图1是示出根据一个实施例的实现本文中公开的技术的方面的DNN模块的配置和操作的方面的计算架构图；

图2是示出根据一个实施例的在DNN模块中利用的神经元缓冲区、组分区器和调度器、组调度器以及累加器缓冲区的配置和操作的各方面的计算架构图；

图3是示出根据一个实施例的本文中所公开的提供全列操作跳过的一个实施例中的说明性神经元缓冲区的方面的数据结构图；

图4是示出根据一个实施例的本文中所公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图，其中DNN模块提供异步神经元处理和操作跳过；

图5是示出根据一个实施例的本文中所公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图，其中DNN模块提供异步神经元处理、操作跳过和协同神经元处理；

图6A-图6C是示出根据本文中公开的一个实施例的若干例程的流程图，这些例程图示了参考图1-图5描述的用于同步和异步操作跳过的DNN模块的操作的方面；

图7是示出根据一个实施例的可以用作本文中公开的DNN模块的应用主机的计算设备的说明性计算机硬件和软件架构的计算机架构图；以及

图8是示出根据本文中呈现的各种实施例的可以在其中实现所公开的技术的方面的分布式计算环境的网络图。

具体实施方式

以下详细描述涉及一种神经网络模块或处理器，其可以通过跳过某些类型的处理操作来降低功耗。特别地，所公开的技术使得神经网络处理器能够跳过对输入数据和权重数据执行的某些类型的算术运算，从而提高吞吐量并且节省功率。还可以通过所公开的技术方案的实现来实现本文中未具体提及的其他技术益处。

虽然本文中描述的技术方案是在硬件DNN模块的一般上下文中介绍的，但是本领域技术人员将认识到，可以结合其他类型的计算系统和模块来执行其他实现。本领域技术人员还将认识到，本文中描述的技术方案可以与其他计算机系统配置一起实践，包括手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、嵌入在设备(诸如可穿戴计算设备、汽车、家庭自动化等)中的计算或处理系统、小型计算机、大型计算机等。

在下面的详细描述中，参考形成其一部分并且通过说明的方式示出了具体的配置或示例的附图。现在参考附图，其中贯穿若干附图，相同的数字表示相同的元素，将描述可以通过跳过某些类型的处理操作来降低功耗的神经网络模块或处理器的方面。

图1是示出根据一个实施例的实现本文中公开的技术的深度神经网络(“DNN”)模块105的配置和操作的方面的计算架构图。在一些实施例中，本文中公开的DNN模块105被配置为解决分类问题(和相关问题)，诸如但不限于对象检测、语义标记和特征提取。

为了提供该功能，DNN模块105可以实现仅召回神经网络，并且以编程方式支持多种网络结构。由DNN模块105实现的网络的训练可以在服务器场、数据中心或其他合适的计算环境中脱机执行。训练DNN的结果是被称为“权重”或“内核”的一组参数。这些参数表示可以应用于输入的转换函数，其结果是分类或语义标记输出。

本文中公开的DNN模块105可以被认为是超标量处理器。DNN模块105可以将一个或多个指令分派给多个执行单元(称为神经元105F。执行单元可以是“同时分派同时完成”，其中每个执行单元与其他执行单元中的每一个同步。DNN模块105可以被分类为单指令流多数据流(“SIMD”)架构。

DNN模块105包括多个神经元105F(例如，二的幂)。神经元105F是人工神经网络中用于对大脑中的生物神经元进行建模的基本单元。神经元105F的模型可以包括输入矢量的内积，其中权重矢量被添加到偏置，并且应用了非线性。由本文中描述的DNN模块105中的神经元105F执行的处理被紧密地映射到人工神经元。

DNN模块105中的每个神经元105F能够执行加权和、最大池化、旁路和潜在的其他类型的操作。神经元105F在每个时钟周期处理输入和权重数据。就内核内的进度而言，每个神经元105F与所有其他神经元105F同步，以最小化DNN模块105内的内核数据流。

每个神经元105F可以包含乘法器、加法器、比较器和多个累加器(图1中未示出)。通过具有多个累加器，神经元105F能够一次为多个不同的活动内核保持上下文。每个累加器能够从对BaSRAM150(如下所述)的读取来加载。累加器可以将它们的值与来自其他神经元105F的其他累加器的内容组合。

DNN模块105接受平面数据作为输入，诸如图像数据。然而，到DNN模块105的输入不限于图像数据。而是，DNN模块105可以对以统一平面格式被呈现给DNN模块105的任何输入数据进行操作。在一个特定实施例中，DNN模块105可以接受多平面一字节或两字节数据帧作为输入。

每个输入帧可以与一组NxKxHxW个内核进行卷积，其中N是内核数目，K是每个内核的通道数目，H是高度，W是宽度。在跨输入数据的重叠间隔上执行卷积，其中间隔由X和Y方向上的跨度定义。这些功能由神经元105F执行，并且由DNN模块105和软件可见控制寄存器管理。

DNN模块105支持三种主要的数据类型：权重；输入数据/特征图；以及激活数据。在大多数情况下，输入数据/特征图和激活数据是用于同一数据的两个名称，区别在于，在提及层的输出时，使用术语激活数据。当提及层的输入时，使用术语输入数据/特征图。

DNN模块105中的神经元105F计算其输入的加权和，并且使加权和通过“激活函数”或“传递函数”。传递函数通常具有S形(sigmoid)形状，但也可以采用以下形式：分段线性函数、阶跃函数或另一类型函数。激活函数允许神经元105F在分类边界为非线性的情况下训练到较大的一组输入和期望输出。

DNN模块105对与神经网络的层相对应的层描述符列表进行操作。可以由DNN模块105将层描述符列表视为指令。这些描述符可以从存储器中预取到DNN模块105中并且按顺序执行。描述符列表用作对DNN模块105的一组指令。可以在DNN模块105外部的设备上执行软件工具和/或编译器，以创建在DNN模块105上执行的描述符列表。

通常，描述符可以有两大类：存储器到存储器移动(“M2M”)描述符；和操作描述符。M2M描述符可以用于将数据往返于主存储器与本地缓冲区(即，下文描述的排缓冲区(linebuffer)125)之间来回移动以供操作描述符消费。M2M描述符遵循与操作描述符不同的执行流水线。用于M2M描述符的目标流水线可以是内部DMA引擎105B或配置寄存器105G，而用于操作描述符的目标流水线可以是神经元105F。

操作描述符指定神经元105F应当对位于本地静态随机存取存储器(“SRAM”)存储器中的数据结构执行的特定操作。操作描述符按顺序处理，并且能够执行很多不同的层运算，本文中描述其中的至少一些。

如图1所示，DNN模块105具有带有唯一的L1和L2缓冲区结构的存储器子系统。图1所示的L1和L2缓冲区是专门为神经网络处理而设计的。作为示例，L2缓冲区150可以利用以所选择的频率操作的高速专用接口来维持所选择的存储容量。L1缓冲区125可以维持可以在内核数据与激活数据之间划分的所选择的存储容量。L1缓冲区125在本文中可以称为“排缓冲区125”，并且L2缓冲区150在本文中可以称为BaSRAM 150。

在一些实施例中，计算数据(即，输入数据、权重和激活数据)以行优先方式被存储在BaSRAM 150中。可以将计算数据组织成两个排缓冲区，其中一个排缓冲区包含输入数据(本文中可以称为“输入缓冲区”)，并且另一排缓冲区(本文中可以称为“权重缓冲区”)包含内核权重。排缓冲区由加载/存储单元105C从BaSRAM 150填充。数据在每个排缓冲区中累积，直到其达到预定容量。然后，在一些实施例中，将排缓冲区数据复制到阴影缓冲区，并且呈现给神经元105F。

DNN模块105还可以包括多个其他组件，包括但不限于寄存器接口105G、预取单元105A、保存/恢复单元105E、层控制器105D和寄存器接口105G。在一些实施例中，DNN模块105可以包括附加或替代组件。

在一些配置中，DNN模块105与其他外部计算组件相结合操作。例如，在一些实施例中，DNN模块105连接到片上主机应用处理器系统(“主机SoC”)130。DNN模块105可以例如通过PCIe接口而连接到主机SoC 130。适当的PCIe组件(诸如PCIe端点135)可以用于启用这些连接。

主机SoC 130用作用于DNN模块105的应用处理器。主操作系统、应用和辅助传感器处理由主机SoC 130执行。主机SoC 130还可以连接到向DNN模块105提供输入数据(例如，图像数据)的输入数据源102(诸如外部相机)。

DDR DRAM 155还可以连接到可以用作主系统存储器的主机SoC 130。该存储器可以通过存储器控制器145跨高带宽结构120(例如，PCIe总线)从主机SoC 130访问。高带宽结构120提供双向直接存储器访问(“DMA”)小型消息发送事务和较大DMA事务。桥接器115和低带宽结构110可以将DNN模块105连接到主机SoC 130以用于子模块配置和其他功能。

DNN模块105可以包括被配置为将数据移到和移出主存储器155的DMA引擎105B。在一些实施例中，DMA引擎105B具有两个通道。一个通道专用于取回操作描述符，而另一通道专用于M2M操作。DMA描述符可以嵌入在M2M描述符中。这种上下文中的描述符是用于移动存储器的内容的DMA描述符，而勿与上面描述的操作描述符混淆。

为了卸载本地BaSRAM存储器150，并且为了提供用于输入数据和权重数据的更多空间，激活输出可以可选地直接流传输到DDR存储器155。当将数据流传输到DDR存储器155时，DNN模块105将累积足以用于高带宽结构120上的突发事务的数据，并且将缓冲足以最小化神经元105F上的背压的事务。下面将提供关于DNN模块105的操作的附加细节。

图2是示出根据一个实施例的神经元缓冲区、组分区器和调度器、组调度器以及累加器缓冲区的配置和操作的方面的计算架构图。特别地，图2示出了用于优化硬件中的人工神经网络的处理的DNN模块105的一部分的方面。

如图2所示并且在上面简要讨论的，一组神经元105F耦合到两个缓冲区或排缓冲区，在一个实施例中，其中一个排缓冲区包含输入数据(即，输入缓冲区202)，而另一排缓冲区包含内核权重(即，权重缓冲区204)。输入缓冲区202和权重缓冲区204在本文中可以统称为“神经元缓冲区”。如上所述，在一个实施例中，排缓冲区由加载/存储单元105C从BaSRAM150填充。数据被累积在每个排缓冲区中，直到其达到预定容量。然后在一些实施例中，排缓冲区数据被复制到阴影缓冲区，并且被呈现给神经元105F。

尽管在图2中示出并且在下面描述输入缓冲区202和权重缓冲区204，但是应当理解，当仅利用输入缓冲区202时，本文中公开的实施例也可以跳过处理操作。例如，在神经元将输入数据乘以恒定值的情况下，就是这种情况。在这种情况下，可以以下面描述的方式跳过琐碎(trivial)操作的处理，诸如当输入值为零时。还应当理解，当第二缓冲区(即，权重缓冲区204)包含除权重数据以外的数据时，可以跳过处理操作。例如，第二缓冲区也可以包括输入数据。因此，涉及输入和权重的处理操作仅是说明性的，并且本文中公开的实施例不限于涉及输入数据和权重数据的处理操作。

在图2所示的实施例中，输入缓冲区202和权重缓冲区204被组织成N乘M的矩阵，其中N是行数，其对应于神经元105F的数目，并且M是列数，其对应于神经元缓冲区的“宽度”(即，可用于神经元105F的数据的周期数目)。神经元缓冲区的列表示由神经元105F在其间消耗数据的时钟周期。在图2所示的示例中，排缓冲区包含八列，其表示神经元105F在其上进行操作的八个数据周期。

在一个实施例中，每个排缓冲区有两个副本：主副本和影子副本。当存储排缓冲区的主副本的存储位置被填充时，神经元105F对排缓冲区的影子副本进行操作。一旦存储主副本的存储位置被填充，并且排缓冲区的影子副本被神经元105F消耗，则主副本数据被移至影子副本，并且用于存储主副本的存储位置可以用下一组数据来填充。

在本文中公开的各种实施例中，神经元105F可以同步或异步地处理排缓冲区中的数据。在同步操作模式下，每个神经元105F处理来自输入缓冲区的行，使得一个或多个列取决于神经元的容量按时钟周期被选择以用于处理。在同步操作模式下，神经元105F可以被组织成与神经元105F的数目相等的多个组。

在异步操作模式下，一组神经元105F对一组缓冲区排(即，神经元缓冲区中的行)工作。为了实现该功能，组分区器和调度器206工作以对缓冲区排进行分组，并且将其呈现给每个组调度器208A和208B(统称为“组调度器208”)。在一个实施例中，组分区器和调度器206使用静态分配的(即，预定的)分区模式将缓冲区排分配给组调度器208。在其他的一些实施例中，可以以其他方式将缓冲区排分配给组调度器208，例如，将缓冲区排分配给组以使得每个组具有相对相等的工作负载。

在缓冲区排已经被分区之后，组分区器和调度器206将缓冲区排分配给相应的组调度器208。组调度器208尝试平衡一组神经元105F内的工作负载。在图2所示的示例中，神经元N1和N2已经被分配给组1。这些神经元处理来自神经元缓冲区的前两行的数据。神经元N3和N4已经被分配给组2。这些神经元处理来自神经元缓冲区的第三行和第四行的数据。为了简单起见，组大小在图2中被示出为两个神经元105F，但是组大小可以是神经元105F的总数目的任何因子。

在一些实施例中，还利用累加器缓冲区210。在这些实施例中，一组累加器212被分配给每组神经元105F。在图2所示的示例中，例如，已经将一组累加器212A分配给第一组神经元105F(即，神经元N1和N2)，并且将第二组累加器212B分配给第二组神经元105F(即，神经元N3和N4)。

每个累加器212能够从对BaSRAM 150的读取中被加载。另外，累加器212可以将自己与分配给其他神经元105F或神经元组的其他累加器的内容组合。如上所述，通过具有多个累加器212，神经元105F可以一次维护针对多个不同有效内核的上下文。

如上面简要描述的，人工神经网络通常产生稀疏激活。在ReLu激活函数(例如，ReLu(y＝max(x,0)))的情况下，尤其如此，其中不成比例的激活比例(在某些情况下高达80％)为零。此外，如膨胀卷积的某些操作可能涉及稀疏(即，包含很多零)的权重矩阵(即，卷积滤波器)。这些激活又成为用于神经网络的下一层的输入。结果，人工神经网络的很多层最终执行了琐碎操作，其中操作的结果不受这些计算的影响。

本文中公开的技术利用人工神经网络产生稀疏激活的趋势，来改善神经元105F的性能，并且因此降低DNN模块105的功耗。下面关于图3-图5公开用于在DNN模块105中实现该优化的若干示例实施例。

图3是示出本文中公开的一个实施例中的由DNN模块105使用的说明性神经元缓冲区的方面的数据结构图，其中DNN模块105提供全列操作跳过。在该实施例中，DNN模块105维护输入缓冲区202和权重缓冲区204，使得所有神经元105F同步处理其中包含的数据。

DNN模块105还可以检测输入缓冲区202或权重缓冲区204的整个列是否仅包含在由神经元105F操作时将不影响最终结果的值。在一些实施例中，组分区器和调度器206执行该功能。例如，组分区器和调度器206可以确定输入缓冲区202或权重缓冲区204的整个列是否包含零或任何其他值(例如，接近零的值)，其中所得到的操作将不影响最终结果。因为对这些类型的值的操作对最终结果没有影响，所以对这些值的操作可以被神经元105F跳过。该机制在本文中可以称为“全列操作跳过”或“按列零跳过”。

在一些实施例中，DNN模块105可以检测输入缓冲区202的列或权重缓冲区204的列是否包括小于或等于阈值的所有值(例如，小于1的值)或在值的范围(例如，-5到5)内的全部值。在某些实施例中，要针对其跳过操作的值、阈值或值的范围是用户定义的，从而使得用户能够定义要由DNN模块105跳过的操作。

在图3所示的示例中，例如，组分区器和调度器206已经检测到输入缓冲区202中的列C5包含全零。结果，由神经元105F对该列中的值执行的任何操作将以零作为最终结果。因此，神经元105F可以跳过原本将对神经元缓冲区的列C5和权重缓冲区的对应列C5中包含的值执行的所有处理操作。

在图3所示的示例中，组分区器和调度器206还检测到权重缓冲区204的列C7包含全零。结果，由神经元105F对该列中的值执行的任何操作也将以零作为最终结果。因此，神经元105F可以跳过原本将对神经元缓冲区的列C7和输入缓冲区的对应列中的值执行的所有处理操作。

因为在该示例中跳过了对列C5和C7中的值的处理，所以对神经元缓冲区中加载的数据的处理比预期快两个周期。通过以这种方式跳过处理操作，DNN模块105可以节省原本将花费在被跳过的处理操作上的功率。下面参考图4和图5描述用于通过跳过神经元105F处理操作来优化DNN模块105的操作的若干其他机制。

图4是示出本文中公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图，其中DNN模块105提供异步的神经元处理和操作跳过。在以上关于图3描述的实施例中，DNN模块105中的神经元105F同步处理输入缓冲区202和权重缓冲区204中的值。然而，在其他的一些实施例中，DNN模块105中的神经元105F可以异步地处理神经元缓冲区中的值。如将在下面详细讨论的，与以上关于图3讨论的实施例相比，该配置可以导致更高的吞吐量和进一步的节省功率。

在异步神经元实现中，可以修改DNN模块105的操作，使得一组神经元105F对一组缓冲区排(即，神经元缓冲区中的行)工作。特别地，组分区器和调度器206可以对缓冲区排进行分组，并且以上文关于图2描述的方式将缓冲区排呈现给组调度器208。

在缓冲区排已经被分区之后，它们被分配给组调度器208，在一些实施例中，组调度器208试图平衡组内的工作负载。在图5所示的示例中，例如，神经元组1(即，神经元N1和N2)对神经元缓冲区的前两行工作。在一个实施例中，组分区器和调度器206中的逻辑标识每个缓冲区排中的非琐碎操作(例如，零或接近零的权重或输入值)。

关于是否需要处理特定行中的特定列的决策可以在缓冲区填充操作期间即时进行，并且因此可以对后续逻辑(例如，神经元105F)隐藏。例如，对于图4所示的示例神经元缓冲区的第一行，使用以下公式：IsTrivial(Input_C1)||IsTrivial(Weights_C1)，可以确定列C1、C3、C4和C6是非琐碎的。

对于图4中的示例神经元缓冲区的第二行，所有操作都是非琐碎的。该信息由组分区器和调度器逻辑206传递到组1调度器208A，使得调度器可以在组中的神经元105F(即，神经元N1和N2)之间平均分配工作负载。

在图4所示的示例中，神经元N1将对四个操作(即，R1C1、R1C3、R1C4和R1C6)工作，而不是在未跳过R1C2、R1C5、R1C7和R1C8的情况下神经元N1将执行的八个操作。然后可以将神经元N1断电四个时钟周期，直到神经元N2完成其处理，从而节省了功率。

如图4所示，由于神经元N1和N2异步操作，因此神经元N2执行八个处理操作。与以上关于图3描述的实施例相比，通过异步地操作神经元105F并且在按行/列的基础上跳过琐碎的处理操作，可以获取附加的功率节省。应当理解，尽管出于讨论的目的而将行R2在图4中示出为没有琐碎操作，但是实际上，相邻神经元的琐碎操作的数目通常是相关的。

图5是示出根据一个实施例的在本文中公开的一个实施例中的说明性神经元缓冲区的方面的数据结构图，其中DNN模块105提供异步神经元处理、操作跳过和协同神经元处理。在该实施例中，通过使得提早完成处理的神经元105F能够协助其他神经元105F进行其分配的处理，可以获取甚至更高的效率。在一些实施例中，神经元105F可以专用于协助其他神经元105F处理它们在神经元缓冲区中的值。

在图5所示的示例中，例如，神经元N1将对四个操作(即，R1C1、R1C3、R1C4和R1C6)工作，并且对于四个时钟周期是空闲的，以接替来自其他神经元105F的操作。例如，在该示例中，神经元N1帮助神经元N2执行两个操作(即，R2C7和R2C8)。因此，该组神经元105F在六个周期而不是八个周期内完成其工作负载，因此，与上述示例相比，实现了吞吐量的提高。

因为神经元N1协助神经元N2，所以在使用边带求和将由神经元N1执行的处理操作的结果传递给其正确的所有者(在该示例中为神经元N2)的处理完成之后，执行合并操作。在一个实施例中，这是通过将累加器212配置为从神经元组中的所有神经元105F可访问的共享存储器的一部分来实现，其中每个神经元104F维护与神经元组中的行数目相等的累加器212的阵列。在周期的结束处，可以对部分结果执行按行求和，以获取针对每行的最终输出值。在其他的一些实施例中，可以利用在神经元105F之间传递处理操作的结果的其他机制。

图6A-图6C是示出根据本文中公开的一个实施例的若干例程的流程图，这些例程图示了用于同步和异步操作跳过的参考图1-图5描述的DNN模块的操作的方面。应当理解，本文中关于图6A-图6C和其他图描述的逻辑操作可以实现为(1)在计算设备上运行的一系列计算机实现的动作或程序模块，和/或(2)诸如DNN模块105等计算设备内的互连的机器逻辑电路或电路模块。

本文中公开的技术的特定实现是取决于计算设备的性能和其他要求的选择问题。因此，本文中描述的逻辑操作被不同地称为状态、操作、结构设备、动作或模块。这些状态、操作、结构设备、动作和模块可以用硬件、软件、固件、专用数字逻辑及其任何组合来实现。应当理解，可以执行比附图中示出和本文中描述的更多或更少的操作。这些操作也可以以与本文中描述的那些顺序不同的顺序被执行。

图6所示的例程600示出了上文针对全列操作跳过而描述的实施例的方面。例程600在操作602处开始，在操作602，DNN模块105确定神经元105F是否可以跳过对神经元缓冲区的整个列中的值的处理。例如，DNN模块105可以确定输入缓冲区202的整个列或权重缓冲区204的整个列是否是特定值或是否在值的范围内。

如果可以跳过输入缓冲区202或权重缓冲区204的任何列中的值，则例程600从操作606进行，在操作606，跳过原本将由DNN模块105的神经元105F对那些列执行的处理操作。如果不能跳过神经元缓冲区的任何列，则例程600从操作604进行到操作608，在操作608，由神经元105F处理神经元缓冲区的所有列中的值。例程600从操作606和608返回操作602，在操作602，可以以上述方式继续进行进一步的处理。

图6B所示的例程632示出了上文针对异步神经元处理/操作跳过而描述的实施例的各方面。例程632在操作634处开始，在操作634，DNN模块105确定是否可以跳过对神经元缓冲区的任何行/列中的值的处理。如上所述，例如，如果输入缓冲区或权重缓冲区的行中的值包括零或接近零的值，则可以跳过对值的处理。

如果可以跳过对神经元缓冲区中的值的处理，则例程632从操作636进行到操作638，在操作638，可以跳过由神经元105F对那些值的处理。如果没有值可以被跳过，则例程632从操作636进行到操作640，在操作640，由神经元105F处理神经元缓冲区中的所有值。例程632从操作640和638回到操作634，在操作634，可以以上述方式继续进行进一步的处理。

图6C所示的例程650示出了上文针对异步处理、操作跳过和协同神经元处理而描述的实施例的方面。该例程从操作652开始，在操作652，DNN模块105确定是否可以跳过对神经元缓冲区的任何行/列中的值的处理。如上所述，例如，如果输入缓冲区或权重缓冲区的行中的值包括零或接近零的值，则可以跳过对值的处理。

如果没有值可以被跳过，则例程650从操作654进行到操作656，在操作656，由神经元105F处理神经元缓冲区中的所有值。然而，如果可以跳过对神经元缓冲区中的值中的至少一些值的处理，则例程650从操作654进行到操作658，在操作658，跳过由神经元105F对那些值的处理。

例程650从操作658进行到操作660，在操作660，由于以上述方式跳过操作而提早完成其处理的神经元以上述方式被分配来自其他神经元的处理操作。例程650然后从操作660进行到操作662，在操作662，在使用边带求和或另一机制将由神经元105F执行的处理操作的结果传递给其正确的所有者的处理完成之后，执行组合操作。例程650从操作662和656返回操作652，在操作652，可以以上述方式继续进行进一步的处理。

图7是示出针对可以用作本文中提出的DNN模块105的应用主机的计算设备的说明性计算机硬件和软件架构的计算机架构图。特别地，图7所示的架构可以用于实现服务器计算机、移动电话、电子阅读器、智能电话、台式计算机、AR/VR设备、平板计算机、膝上型计算机、或适合于与DNN模块105一起使用的另一种类型的计算设备。

图7所示的计算机700包括：中央处理单元702(“CPU”)、包括随机存取存储器706(“RAM”)和只读存储器(“ROM”)708的系统存储器704、以及将存储器704耦合到CPU 702的系统总线710。包含帮助诸如在启动期间在计算机700内的元件之间传输信息的基本例程的基本输入/输出系统(“BIOS”或“固件”)可以被存储在ROM 708中。计算机700还包括用于存储操作系统722、应用程序和其他类型的程序的大容量存储设备712。大容量存储设备712还可以被配置为存储其他类型的程序和数据。

大容量存储设备712通过连接到总线710的大容量存储控制器(未示出)而连接到CPU 702。大容量存储设备712及其关联的计算机可读介质为计算机700提供非易失性存储。尽管本文中包含的计算机可读介质的描述是指大容量存储设备，诸如硬盘、CD-ROM驱动器、DVD-ROM驱动器或USB存储密钥，但是本领域技术人员应当理解，计算机可读介质可以是可以由计算机700访问的任何可用的计算机存储介质或通信介质。

通信介质包括以诸如载波或其他传输机制等经调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何递送介质。术语“经调制数据信号”是指具有以将信息编码在信号中的方式来改变或设置其特性中的一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、射频、红外和其他无线介质等无线介质。以上任何内容的组合也应当被包括在计算机可读介质的范围内。

作为示例而非限制，计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。例如，计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、或者可以用于存储期望信息并且可以由计算机700访问的任何其他介质。出于权利要求的目的，短语“计算机存储介质”及其变体不包括波或信号本身或通信介质。

根据各种配置，计算机700可以使用通过诸如网络720等网络到远程计算机的逻辑连接来在联网环境中操作。计算机700可以通过连接到总线710的网络接口单元716而连接到网络720。应当理解，网络接口单元716也可以用于连接到其他类型的网络和远程计算机系统。计算机700还可以包括用于接收和处理来自多个其他设备的输入的输入/输出控制器718，多个其他设备包括键盘、鼠标、触摸输入、电子笔(图7中未示出)或诸如视频相机的物理传感器。类似地，输入/输出控制器718可以向显示屏或其他类型的输出设备(在图7中也未示出)提供输出。

应当理解，本文中描述的软件组件在被加载到CPU 702中并且被执行时可以将CPU702和整个计算机700从通用计算设备转换为被定制为支持本文中介绍的功能的专用计算设备。CPU 702可以由可以单独或共同地呈现任何数目的状态的任何数目的晶体管或其他分立电路元件构成。更具体地，响应于本文中公开的软件模块中所包含的可执行指令，CPU702可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU 702如何在状态之间转换来对CPU 702进行转换，从而对构成CPU 702的晶体管或其他分立硬件元件进行转换。

对本文中提出的软件模块进行编码还可以变换本文中提出的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换取决于各种因素。这样的因素的示例包括但不限于用于实现计算机可读介质的技术，无论计算机可读介质被特征化为初级存储还是次级存储等。例如，如果计算机可读介质被实现为基于半导体的存储器，则可以通过变换半导体存储器的物理状态来将本文中公开的软件编码在计算机可读介质上。例如，该软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。软件还可以变换这些组件的物理状态，以便在其上存储数据。

作为另一示例，本文中公开的计算机可读介质可以使用磁性或光学技术来实现。在这样的实现中，当软件被编码在其中时，本文中提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性特性。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或特性，以改变那些位置的光学特性。在不背离本说明书的范围和精神的情况下，物理介质的其他变换也是可能的，其中提供前述示例仅是为了促进该讨论。

鉴于以上所述，应当理解，很多类型的物理变换在计算机700中发生，以便存储和执行本文中提出的软件组件。还应当理解，图7中针对计算机700示出的架构或类似架构可以用于实现其他类型的计算设备，包括手持计算机、视频游戏设备、嵌入式计算机系统、移动设备(诸如智能电话、平板计算机和AR/VR设备)、以及本领域技术人员已知的其他类型的计算设备。还设想，计算机700可以并非包括图7所示的所有组件，可以包括图7中未明确示出的其他组件，或者可以使用与图7所示的架构完全不同的架构。

图8是示出根据本文中呈现的各种实施例的可以在其中实现所公开的技术的方面的分布式网络计算环境800的网络图。如图8所示，一个或多个服务器计算机800A可以经由通信网络720(其可以是固定有线或无线LAN、WAN、内联网、外联网、对等网络、虚拟专用网络、因特网、蓝牙通信网络、专有低压通信网络或其他通信网络中的任一项或其组合)与多个客户端计算设备互连，客户端计算设备诸如但不限于平板计算机800B、游戏控制台800C、智能手表800D、电话800E(诸如智能电话)、个人计算机800F和AR/VR设备800G。

例如，在其中通信网络720是因特网的网络环境中，服务器计算机800A可以是专用服务器计算机，该专用服务器计算机可操作以经由多种已知协议中的任何一种来处理与客户端计算设备800B-800G的数据以及与客户端计算设备800B-800G传送数据，多种已知协议诸如超文本传输协议(“HTTP”)、文件传输协议(“FTP”)或简单对象访问协议(“SOAP”)。另外，联网的计算环境800可以利用各种数据安全协议，诸如安全套接字层(“SSL”)或优良保密协议(“PGP”)。客户端计算设备800B-800G中的每一个可以配备有操作系统，该操作系统可操作以支持一个或多个计算应用或终端会话，诸如web浏览器(图8中未示出)或其他图形用户界面(图8中未示出)或移动桌面环境(图8中未示出)，以获取对服务器计算机800A的访问。

服务器计算机800A可以通信地耦合到其他计算环境(图8中未示出)，并且接收有关参与用户的交互/资源网络的数据。在说明性操作中，用户(图8中未示出)可以与在客户端计算设备800B-800G上运行的计算应用交互，以获取期望数据和/或执行其他计算应用。

数据和/或计算应用可以被存储在一个或多个服务器800A上，并且通过示例性通信网络720通过客户端计算设备800B-800G而传送到合作用户。参与用户(图8中未示出)可以请求访问全部或部分容纳在服务器计算机7800A上的特定数据和应用。这些数据可以在客户端计算设备800B-800G与服务器计算机800A之间传送，以用于处理和存储。

服务器计算机800A可以托管用于数据和应用的生成、认证、加密和通信的计算应用、过程和小程序，并且可以与其他服务器计算环境(图8中未示出)、第三方服务供应方(图8中未示出)、网络附加存储(“NAS”)和存储区域网络(“SAN”)协同以实现应用/数据交易。

应当理解，图7所示的计算架构和图8所示的分布式网络计算环境为了便于讨论而被简化。还应当理解，计算架构和分布式计算网络可以包括和利用本文中未具体描述的更多的计算组件、设备、软件程序、网络设备和其他组件。

本文中提出的公开内容还涵盖以下条款中阐述的技术方案：

条款1.一种神经网络模块，包括：多个神经元；存储器设备，存储器设备存储第一缓冲区和第二缓冲区，第一缓冲区包括用于由神经网络模块中的多个神经元处理的第一数据，第二缓冲区存储用于由神经网络模块中的多个神经元处理的第二数据，其中第一缓冲区中的第一数据和第二缓冲区中的第二数据被组织成对应的行和列；以及其中神经网络模块被配置为确定第一缓冲区的列中的第一数据是否包括值或者第二缓冲区的对应列中的第二数据是否包括该值，以及如果第一数据或第二数据包括该值，则使得多个神经元跳过对第一数据和第二数据的处理。

条款2.根据条款1的神经网络模块，其中该值包括零、值的范围、或者高于或低于阈值的值。

条款3.根据条款1或2的神经网络模块，其中第一缓冲区中的第一数据包括到神经网络的输入数据。

条款4.根据条款1-3中的任一项的神经网络模块，其中第二缓冲区中的第二数据包括与神经网络相关联的权重。

条款5.根据条款1-4中的任一项的神经网络模块，其中神经网络模块还包括组分区器和调度器，并且其中组分区器和调度器确定第一缓冲区的列中的第一数据是否包括值或者第二缓冲区的列中的第二数据是否包括值。

条款6.根据条款1-5中的任一项的神经网络模块，其中多个神经元使用ReLu(y＝max(x,0))作为用于神经网络的激活函数。

条款7.根据条款1-6中的任一项的神经网络模块，其中多个神经元被配置为同步地处理第一数据和第二数据。

条款8：一种神经网络模块，包括：多个神经元；存储器设备，所述存储器设备存储第一缓冲区，第一缓冲区存储用于由神经网络模块中的多个神经元处理的第一数据，并且其中神经网络模块被配置为确定第一缓冲区中的数据是否包括值，以及如果第一缓冲区中数据包括值，则跳过对该数据的处理。

条款9.根据条款8的神经网络模块，其中该值包括零、值的范围、或者高于或低于阈值的值。

条款10.根据条款8或9的神经网络模块，其中第一缓冲区中的第一数据包括到神经网络的输入数据。

条款11.根据条款8-10中的任一项的神经网络模块，其中神经网络模块还包括组分区器和调度器，并且其中组分区器和调度器确定位于第一缓冲区中的数据是否包括值。

条款12.根据条款8-11中的任一项的神经网络模块，其中多个神经元使用ReLu(y＝max(x,0))作为用于神经网络的激活函数。

条款13.根据条款8-12中的任一项的神经网络模块，其中多个神经元被配置为异步地处理第一数据和第二缓冲区中的第二数据。

条款14.根据条款8-13中的任一项的神经网络模块，其中多个神经元被配置为同步地处理第一数据和第二缓冲区中的第二数据。

条款15：一种神经网络模块，包括：多个神经元；存储器设备，存储器设备第一缓冲区和第二缓冲区，第一缓冲区存储用于由神经网络模块中的多个神经元处理的第一数据，第二缓冲区存储用于由神经网络模块中的多个神经元处理的第二数据，其中第一缓冲区中的第一数据和第二缓冲区中的第二数据被组织成对应的行和列；并且其中神经网络模块被配置为确定位于第一缓冲区或第二缓冲区中的行和列的数据是否包括值，如果位于行和列的包括该值，则使得多个神经元中的第一神经元跳过对该数据的处理，以及响应于跳过对位于该行和列的数据的处理，使得多个神经元中的第一神经元代表多个神经元中的第二神经元执行至少一个操作。

条款16.根据条款15的神经网络模块，其中该值包括零、值的范围、或者高于或低于阈值的值。

条款17.根据条款15或16的神经网络模块，其中神经网络模块还被配置为将由第一神经元代表第二神经元执行的至少一个操作的结果与由第二神经元执行的一个或多个操作的结果相组合。

条款18.根据条款15-17中的任一项的神经网络模块，其中第一缓冲区中的第一数据包括到神经网络的输入数据，并且其中第二缓冲区中的第二数据包括与神经网络相关联的权重。

条款19.根据条款15-18中的任一项的神经网络模块，其中多个神经元使用ReLu(y＝max(x,0))作为用于神经网络的激活函数。

条款20.根据条款15-19中的任一项的神经网络模块，其中多个神经元被配置为异步地处理第一数据和第二数据。

基于前述内容，应当理解，本文中已经公开了可以通过跳过对某些类型的处理操作的执行来降低功耗的神经网络模块或处理器。尽管已经以特定于处理器结构特征、方法和转换动作、特定的计算机器和计算机可读介质的语言描述了本文中介绍的技术方案，但是应当理解，所附权利要求书中提出的技术方案不必限于本文中描述的特定特征、动作或介质。相反，特定特征、动作和介质被公开作为实现所要求保护的技术方案的示例形式。

上述技术方案仅以示例的方式被提供，并且不应当被解释为是限制性的。可以在不遵循所示出和描述的示例配置和应用的情况下，并且在不脱离在所附权利要求中阐述的本公开的范围的情况下，对本文中描述的技术方案进行各种修改和改变。

Claims

1.一种神经网络模块，包括：

多个神经元；

组分区器和调度器；以及

存储器设备，所述存储器设备存储：

第一缓冲区，所述第一缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第一数据，以及

第二缓冲区，所述第二缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第二数据，其中所述第一缓冲区中的所述第一数据和所述第二缓冲区中的所述第二数据被组织成对应的行和列，

其中所述多个神经元被配置为同时处理所述第一数据和所述第二数据，从而每个时钟周期所述列中的一个或多个列被选择用于处理，并且

其中所述组分区器和调度器被配置为：

确定所述第一缓冲区的整列中的所述第一数据是否包括预定值或值的范围，

如果所述第一缓冲区的所述整列中的所述第一数据包括所述预定值或值的范围，则使得所述多个神经元跳过对所述第一数据和所述第二数据的处理，

确定所述二缓冲区的所述整列中的所述第二数据是否包括所述预定值或值的范围，以及

确定所述二缓冲区的所述整列中的所述第二数据包括所述预定值或值的范围，使得所述多个神经元跳过所述第一数据和所述第二数据的处理。

2.根据权利要求1所述的神经网络模块，其中所述预定值包括零、值的范围、或者高于或低于阈值的值。

3.根据权利要求1所述的神经网络模块，其中所述第一缓冲区中的所述第一数据包括到神经网络的输入数据。

4.根据权利要求1所述的神经网络模块，其中所述第二缓冲区中的所述第二数据包括与神经网络相关联的权重。

5.根据权利要求1所述的神经网络模块，其中所述多个神经元使用ReLu(y＝max(x,0))作为用于神经网络的激活函数。

6.根据权利要求1所述的神经网络模块，其中所述预定值或值的范围是用户可定义的。

7.一种神经网络模块，包括：

多个神经元；

组分区器和调度器；以及

存储器设备，所述存储器设备存储：

第一缓冲区，所述第一缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第一数据，所述第一数据包括到神经网络的输入数据，

第二缓冲区，所述第二缓冲区存储用于由所述神经网络模块中的所述多个神经元处理的第二数据，所述第二数据包括针对所述神经网络的权重数据，

其中所述第一缓冲区中的所述第一数据和所述第二缓冲区中的所述第二数据被组织成对应的行和列；

其中所述组分区器和调度器被配置为：

确定所述第一缓冲区中的整列中的所述第一数据是否包括预定值或值的范围，

如果所述第一缓冲区的所述整列中的所述第一数据数据包括所述预定值或值的范围，跳过对所述第一缓冲区中的所述第一数据的处理，

确定所述第二缓冲区的整列中的所述第二数据是否包括所述预定值或值的范围，以及

如果所述第二缓冲区的所述整列中的所述第二数据包括所述预定值或值的范围，则跳过对所述第二缓冲区中的所述第二数据的处理。

8.根据权利要求7所述的神经网络模块，其中所述预定值包括零、值的范围、或者高于或低于阈值的值。

9.根据权利要求7所述的神经网络模块，其中所述多个神经元使用ReLu(y＝max(x,0))作为用于神经网络的激活函数。

10.根据权利要求7所述的神经网络模块，其中所述预定值或值的范围是用户可定义的。