CN110546654A

CN110546654A - 通过构造接口的带宽控制来增强dnn模块的处理性能

Info

Publication number: CN110546654A
Application number: CN201880025130.7A
Authority: CN
Inventors: C·B·麦克布赖德; T·H·黑尔; A·A·安巴德卡; G·彼得; K·D·塞多拉; L·M·瓦尔; B·博布罗夫
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-16
Publication date: 2019-12-06
Anticipated expiration: 2038-04-16
Also published as: WO2018194845A1; WO2018194848A1; CN110520857B; CN110520853B; EP3612946B1; NZ756870A; CN110546610A; EP3612933B1; US11405051B2; CN116909984A; US20180299943A1; US11100390B2; US20180300634A1; BR112019021541A2; CN110520870B; WO2018194850A1; CN110537194A; RU2019136750A; EP3612934A1; EP3612933A1

Abstract

具有DNN模块的示例性计算环境可以维持一个或多个带宽节流机制。说明性地，第一节流机制可以指定在协作构造组件(例如，数据总线)上的事务之间等待的周期数目。说明性地，第二节流机制可以是事务计数限制器，该事务计数限制器操作性地设定在给定事务序列期间要被处理的事务数目的阈值，并且限制诸如飞行中的多个事务的事务数目不超过所设定的阈值。在说明性操作中，在执行这两个示例性的所计算的节流参数时，平均带宽使用和峰值带宽使用可以被限制。操作性地，利用该构造带宽控制，DNN的处理单元被优化，以跨每个事务周期处理数据，从而得到增强的处理和较低的功耗。

Description

通过构造接口的带宽控制来增强DNN模块的处理性能

背景技术

深度神经网络(“DNN”)根据生物神经系统(诸如，人脑)中的信息处理和通信模式被松散地建模。DNN可以用于解决复杂的分类问题，例如但不限于对象检测、语义标记和特征提取。因此，DNN形成了诸如计算机视觉、语音识别和机器翻译等许多人工智能(“AI”)应用的基础。DNN可以在许多这些领域中匹配或超越人类的准确度。

DNN的高级别性能源于它们能够在使用大数据集上的统计学习来获得输入空间的有效表示之后，从输入数据中提取高级别特征。然而，DNN的优越性能以高计算复杂性为代价。高性能通用处理器(诸如，图形处理单元(“GPU”))通常用于提供许多DNN应用所需的高级别计算性能。

虽然如GPU的通用处理器可以提供用于实现DNN的高级别计算性能，但是这些类型的处理器通常不适合用于在低功耗是关键的计算设备中长时间执行DNN操作。例如，诸如GPU的通用处理器可能不适合用于在电池供电的便携式设备(例如，智能电话或备用/虚拟现实(“AR/VR”)设备)中执行长时间运行的DNN任务，在这些便携式设备中，需要降低的功耗来延长电池寿命。

还可以在非电池供电的设备(例如，诸如以太网供电(“POE”)的安全相机)中，在执行连续DNN任务(诸如，检测人类移动)的同时降低功耗。在该特定示例中，POE交换机可以仅提供有限量的功率，并且诸如安全相机的POE设备中的降低的功率可以使POE交换机的功耗和成本降低。

已经开发了可以提供高性能DNN处理同时与通用处理器相比降低功耗的专用集成电路(“ASIC”)。然而，尽管在该领域取得了进步，但仍然需要提高执行DNN处理的ASIC的性能且降低ASIC的功耗，特别是对于在低功耗是关键的计算设备中的使用。

当前的实践提供了各种机制来管理存储器和/或处理，以确保针对示例性计算环境的共享资源的请求组件之间的平衡。通过当前的实践，这样的存储器/处理器管理不足以优化每个可用处理元件(例如，协作DNN芯片的神经元)的整体效用。此外，当前的实践关注于系统的整体处理/存储器管理，而不考虑DNN芯片的整体功耗和处理性能。

关于这些和其他技术挑战，提出了本文的公开内容。

发明内容

公开了一种神经网络模块，该神经网络模块可以通过确保处理单元的均匀效用来增强模块的处理单元的处理性能，以及通过增强的存储器管理降低功耗。本文未具体提及的其他技术益处也可以通过所公开的主题的实现来达到。

为了达到上面简要提及的技术益处，说明性地，在具有DNN模块的示例性计算环境中，DNN的内部数据传递组件可以维持一个或多个带宽节流机制。在说明性实现中，第一节流机制可以指定在协作构造组件(例如，数据总线)上的事务之间等待的周期数目。举例来说，如果在事务之间等待的周期数目的值被设定为零，则在事务之间不插入间隙，并且数据传递可以以构造的最大传递速率发生。在另一说明性实现中，第二节流机制可以是事务计数限制器，事务计数限制器操作性地设定在给定事务序列期间要被处理的事务数目的阈值，并且限制诸如在飞行中的多个事务的事务数目不超过所设定的阈值。在说明性操作中，在执行这两个所计算的节流参数时，平均带宽使用和峰值带宽使用可以被限制。在说明性操作中，可以对示例性计算环境的一个或多个所选择的协作存储器组件执行这些节流参数。在说明性操作中，以一定速率向诸如神经元的一个或多个协作处理单元提供数据，以优化其效用来避免神经元在事务处理序列期间空闲。事务处理周期可以被认为是在所选择的时间单位期间由示例性计算环境处理的事务的数目。

如上面简要讨论的，假设DNN模块可以对示例性神经网络环境的协作处理单元可用的带宽进行优化，则本文所公开的技术的实现提供DNN模块的增强的处理性能和降低的功耗。通过实现所公开的技术，也可以达到本文未具体标识的其他技术益处。

应当理解，上述主题可以被实现为计算机控制的装置、计算机实现的方法、计算设备或者诸如计算机可读介质的制品。通过阅读以下具体实施方式以及查阅附图，这些和各种其他特征将是显而易见的。

提供本发明内容是为了以简化的形式介绍所公开技术的一些方面的简要描述，这些描述将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在将本发明内容用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。

附图说明

图1是示出根据一个实施例的实现本文所公开的技术的各方面的DNN模块的配置和操作的各方面的计算架构图。

图2图示了根据本文所描述的系统和方法的具有协作组件的示例性神经联网环境的框图。

图3图示了根据本文所描述的系统和方法的说明性逻辑数据映射中表示的示例性输入数据的框图。

图4图示了在说明性逻辑数据映射中表示的示例性输入数据的框图，其示出了操作以跨越说明性逻辑数据映射的一行或多行的说明性的n个滑动窗的使用。

图5图示了根据本文所描述的系统和方法的在说明性逻辑数据映射中表示的示例性输入数据的框图，其示出了操作以跨越说明性逻辑数据映射的一行或多行的、操作以允许数据填充作为处理增强说明性的n个滑动窗的使用。

图6是示出根据本文所描述的系统和方法的示例性神经网络环境的各种组件的交互的框图，该示例性神经网络环境操作以执行对示例性构造接口的带宽控制。

图7是用于根据说明性神经联网计算环境中的示例性构造接口的带宽控制来处理数据的说明性过程的流程图。

图8是示出根据一个实施例的用于计算设备的说明性计算机硬件和软件架构的计算机架构图，该计算设备可以充当本文所提出的DNN模块的应用主机；以及

图9是图示根据本文所提出的各种实施例的分布式计算环境的网络图，在该分布式计算环境中可以实现所公开的技术的各方面。

具体实施方式

以下详细描述涉及神经网络模块，该神经网络模块可以通过确保处理单元的一致效用以及通过经增强的存储器管理降低功耗，增强模块的处理单元的处理性能。如上面简要讨论的，假设DNN模块可以优化示例性神经网络环境的协作处理单元可用的带宽，则本文所公开的技术的实现提供DNN模块进行的增强的处理性能和降低的功耗。本文未具体提及的其他技术益处也可以通过所公开的主题的实现来达到。

为了达到上面简要提及的技术益处，说明性地，在具有DNN模块的示例性计算环境中，DNN的内部数据传递组件可以维持一个或多个带宽节流机制。在说明性实现中，第一节流机制可以指定在协作构造组件(例如，数据总线)上的事务之间等待的周期数目。举例来说，如果在事务之间等待的周期数目的值被设定为零，则在事务之间不插入间隙，并且数据传递可以以构造的最大传递速率发生。在另一说明性实现中，第二节流机制可以是事务计数限制器，其操作性地设定在给定的事务序列期间要被处理的事务数目的阈值，并且限制诸如在飞行中的多个事务的事务数目不超过所设定的阈值。

在说明性操作中，在执行这两个经计算的节流参数时，可以限制平均带宽使用和峰值带宽使用。在说明性操作中，可以对示例性计算环境的一个或多个所选择的协作存储器组件执行这些节流参数。在说明性操作中，以一定速率向诸如神经元的一个或多个协作处理单元提供数据，以优化其在存储器传递期间的对计算的利用。事务可以被认为是存储器的任意区域到存储器的另一(相等大小)区域的存储器传递操作。

虽然在硬件DNN模块的一般上下文中呈现了本文所描述的主题，但是本领域技术人员将认识到，可以结合其他类型的计算系统和模块来执行其他实现。本领域技术人员还将理解，可以利用其他计算机系统配置来实践本文所描述的主题，其他计算机系统配置包括手持设备、多处理器系统、基于微处理器或可编程的消费电子产品、嵌入设备中的计算或处理系统(例如，可穿戴计算设备、汽车、家庭自动化系统等)、小型计算机、大型计算机等。

在以下详细描述中，参考形成其一部分的附图，并且通过图示的具体配置或示例来示出这些附图。现在参考附图，其中相同的附图标记在若干附图中表示相同的元件，将描述具有增强的处理且通过协作构造接口的带宽控制利用较少功率的示例性DNN模块的各方面。

图1是示出根据一个实施例的实现本文所公开的技术的深度神经网络(“DNN”)模块105的配置和操作的各方面的计算架构图。本文所公开的DNN模块105在一些实施例中被配置为解决分类问题(和相关问题)，诸如但不限于对象检测、语义标记和特征提取。

为了提供该功能性，DNN模块105可以实现仅召回(recall-only)神经网络并且以编程方式支持各种各样的网络结构。针对由DNN模块105实现的网络的训练可以在服务器群、数据中心或另一合适的计算环境中离线执行。训练DNN的结果是参数集，其可以被称为“权重”或“核”)。这些参数表示可以被应用于输入的变换函数，其结果是分类或语义标记的输出。

本文所公开的DNN模块105可以被认为超标量处理器。DNN模块105可以将一个或多个指令分派给多个执行单元，其被称为神经元105F。执行单元可以是“同时分派同时完成”，其中每个执行单元与其他执行单元中的每一个同步。DNN模块105可以被分类为单指令流、多数据流(“SIMD”)架构。

DNN模块105包括一定数目(例如，二的幂)神经元105F。神经元105F是人工神经网络中用于建模大脑中的生物神经元的基本单元。神经元105F的模型可以包括输入向量与被添加到偏置的权重向量的内积，其中应用了激活函数。由本文所描述的DNN模块105中的神经元105F所执行的处理紧密地映射到人工神经元。

DNN模块105中的每个神经元105F能够执行加权和、最大池化、旁路以及可能的其他类型的操作。神经元105F在每个时钟周期处理输入和加权数据。就核内的进程而言，每个神经元105F与所有其他神经元105F同步，以将DNN模块105内的核数据流最小化。

每个神经元105F可以包含乘法器、加法器、比较器和一定数目的累加器(图1中未示出)。通过具有多个累加器，神经元105F能够一次维持多个不同活动核的上下文。每个累加器能够从BaSRAM150的读取被加载(下面描述)。累加器可以将其自身与来自其他神经元105F的其他累加器的内容进行求和。

DNN模块105接受平面数据(例如，图像数据)作为输入。然而，DNN模块105的输入不限于图像数据。而是，DNN模块105可以对以均匀平面格式被呈现给DNN模块105的任何输入数据进行操作。在一个特定实施例中，DNN模块105可以接受多平面一字节或二字节数据帧作为输入。

每个输入帧可以与NxKxHxW核集进行卷积，其中N是核的数目，K是每个核的信道数目，H是高度，以及W是宽度。在跨输入数据的重叠间隔上执行卷积，其中间隔由X和Y方向上的步幅限定。这些函数由神经元105F执行，并且由DNN模块105和软件可见的控制寄存器管理。

DNN模块105支持三个主要数据类型：权重；输入数据/特征映射；以及激活数据。在大多数情况下，输入数据/特征映射和激活数据是相同数据的两个名称，区别在于在指层的输出时，使用术语激活数据。在指层的输入时，使用术语输入数据/特征映射。

DNN模块105中的神经元105F计算其输入的加权和，并且通过“激活函数”或“传递函数”传递加权和。传递函数通常具有S形形状，但也可以采用分段线性函数形式、步进整流线性单元(ReLu)函数的形式或另一类型的函数的形式。激活函数允许神经元105F对更大的输入集和所期望的输出进行训练，其中分类边界是非线性的。

DNN模块105在对应于神经网络层的层描述符列表上操作。层描述符列表可以被DNN模块105视为指令。这些描述符可以从存储器被预获取到DNN模块105中并且按顺序被执行。描述符列表充当DNN模块105的指令集。软件工具和/或编译器可以在DNN模块105外部的设备上执行，以创建在DNN模块105上执行的描述符列表。

通常，可以存在若干主要类别的描述符：存储器到存储器移动(“M2M”)描述符、配置描述符和操作描述符。M2M描述符可以用于将数据从本地缓冲器(即，下面描述的行缓冲器125)移入主存储器/从主存储器移入本地缓冲器，以供操作描述符使用。M2M描述符遵循与操作描述符不同的执行管线。针对M2M描述符的目标管线可以是内部DMA引擎105B或配置寄存器105G，而针对操作描述符的目标管线可以是神经元105F。

操作描述符指定神经元105F应当对位于本地静态随机存取存储器(“SRAM”)存储器中的数据结构执行的特定操作。操作描述符按顺序被处理并且能够进行许多不同的层操作，至少能够进行在本文中描述的层操作中的一些层操作。

如图1中所示，DNN模块105具有存储器子系统，存储器子系统具有唯一的L1和L2缓冲器结构。图1中所示的L1和L2缓冲器被设计为专用于神经网络处理。举例来说，L2缓冲器150可以利用以所选择的频率(例如，每秒16千兆比特(16GBps))操作的高速度私有接口来维持所选择的存储容量(例如，1兆字节(1MB))。L1缓冲器125可以维持可以在核和激活数据之间拆分的所选择的存储容量(例如，8千字节(8KB))。L1缓冲器125在本文中可以被称为“行缓冲器125”，并且L2缓冲器150在本文中可以被称为BaSRAM 150。

在一些实施例中，计算数据(即，输入数据、权重和激活数据)被存储在行优先的BaSRAM 150中。计算数据可以被组织为两个行缓冲器，其中一个行缓冲器包括输入数据，其在本文中可以称为“输入缓冲器”，并且另一行缓冲器包含核权重，其在本文中可以被称为“权重缓冲器”。行缓冲器由加载/存储单元105C从BaSRAM 150被填充。数据在每个行缓冲器中累积，直到达到其预定容量。然后在一些实施例中，行缓冲器数据被复制到阴影缓冲器并被呈现给神经元105F。

DNN模块105还可以包括一定数目的其他组件，其他组件包括但不限于寄存器接口105G、预获取单元105A、保存/恢复单元105E、层控制器105D和寄存器接口105G。在一些实施例中，DNN模块105可以包括附加或备选组件。

在一些配置中，DNN模块105与其他外部计算组件结合进行操作。例如，在一些实施例中，DNN模块105连接到主机应用处理器片上系统(“主机SoC”)130。例如，DNN模块105可以通过PCIe接口连接到主机SoC 130。可以利用适当的PCIe组件(例如，PCIe端点135)来实现这些连接。

主机SoC 130用作DNN模块105的应用处理器。主操作系统、应用和辅助传感器处理由主机SoC 130执行。主机SoC 130还可以连接到输入数据源102(例如，外部相机)，输入数据源102向DNN模块105提供诸如图像数据的输入数据。

DDR DRAM 155还可以连接到主机SoC 130，其可以用作主系统存储器。可以跨高带宽构造120(例如，PCIe总线)、通过存储器控制器145从主机SoC 130访问该存储器。高带宽构造120提供双向直接存储器访问(“DMA”)小消息传递事务和更大的DMA事务。桥接器115和低带宽构造110可以将DNN模块105连接到主机SoC 130，以用于子模块配置和其他功能。

DNN模块105可以包括DMA引擎105B，DMA引擎105B被配置为将数据移入和移出主存储器155。在一些实施例中，DMA引擎105B具有两个信道。一个信道专用于获取操作描述符，而另一信道专用于M2M操作。DMA描述符可以嵌入M2M描述符中。在本上下文中，描述符是用于移动存储器的内容的DMA描述符，而不与上述操作描述符混淆。

为了卸载本地BaSRAM存储器150，并且为输入数据和权重数据提供更多空间，可以可选地将激活输出直接流式传输到DDR存储器155。当将数据流式传输到DDR存储器155时，DNN模块105将累积足够的数据用于高带宽构造120上的突发事务，并且将缓冲足够的事务来将神经元105F上的背压最小化。下面将提供关于DNN模块105的操作的附加细节。

图2图示了可操作以采用有向行缓冲器220作为数据处理的一部分的示例性神经网络环境200。如图所示，示例性神经网络环境200(在本文中也称为计算设备或计算设备环境)包括一个或多个操作控制器235，一个或多个操作控制器235与行缓冲器220协作，以通过协作组件仲裁器245和协作组件先入先出(FIFO)缓冲器250提供用于数据处理的一个或多个指令。行缓冲器220可以操作以通过外部构造230和构造215从协作外部存储器组件225接收数据，并且操作以从(多个)迭代器240(例如，基于硬件和/或虚拟化迭代器)接收一个或多个指令/命令(例如，用于从协作存储器组件读取数据的指令/命令和/或用于写入从行缓冲器中的协作存储器组件加载的数据的指令)。此外，如图2所示，示例性神经网络环境还可以包括直接存储器访问模块(DMA)模块240和数据链路控制(DLC)模块245。在说明性操作中，协作组件仲裁器245可以接收数据指令并根据一个或多个所选择的路由范式来路由这样的指令。说明性地，FIFO缓冲器250可以操作性地接收指令并以先入/先出的方式将其传递给一个或多个其他协作DNN环境组件。

操作性地，行缓冲器220可以根据从一个或多个操作控制器235(本文中也称为“协作控制器组件235”)接收的一个或多个指令、根据所选择的步幅宽度将数据移位。此外，行缓冲器220可以与(多个)处理单元(例如，(多个)神经元)协作，以提供所写入的经比特移位的数据，以用于通过构造215直接或间接地进一步处理。神经网络环境构造可以是能够传递各种数据的数据总线。有向行缓冲器可以被认为是能够根据一个或多个所接收的指令读取和写入数据和/或数据元素的存储器组件。

操作性地，DMA模块240可以与DLC模块245协作，以提供指令来对外部构造进行节流，以处理去往/来自外部存储器225和存储器210的数据。在说明性操作中，DMA模块240可以提供一个或多个指令来根据所选择的节流协议对跨外部存储器225和/或存储器210的数据处理进行节流，所选择的节流协议包括但不限于：在被处理去往和/或来自一个或多个协作存储器组件(例如，210和225)的存储器元件之间插入间隙，并且限制对被存储在一个或多个协作存储器组件(例如，210和225)的数据/从中取回的数据执行的事务数目。其他节流技术可以包括：限制在给定的处理周期期间的一个或多个处理单元205的操作。说明性地，DMA模块240可以在驻留在一个或多个协作存储器组件210和225中的一个或多个可配置寄存器(未示出)上操作。

在说明性操作中，示例性神经网络环境200可以根据图7中描述的过程操作性地处理数据。具体到图2中描述的组件，这些组件仅仅是示例性的，本领域普通技术人员将理解图6和图7中描述的处理也可以由图2中所图示的组件之外的其他组件执行。

此外，如图2所示，示例性神经网络环境可以可选地包括一个或多个迭代器(例如，基于硬件和/或虚拟化的迭代器)(如虚线所示)，一个或多个迭代器可以说明性地操作，以迭代输入数据(未示出)，以供一个或多个神经元处理器205处理。本领域技术人员可以理解，这样的可选地包括示例性的一个或多个迭代器仅是示例性的，因为在没有任何迭代器的情况下，本文所公开的系统和方法所描述的发明构思在示例性神经网络环境200中可操作。

图3图示了用于示例性输入数据的示例逻辑数据映射300。如图所示，数据305可以被表示为具有一定维度340的数据(例如，使得整个数据维度可以限定数据体积)，维度340包括信道计数310、高度315和宽度320。根据本文中描述的系统和方法，数据305可以被分成部分并且被准备用于由协作的n个神经元330进行处理，使得第一部分a可以被传送到第一神经元、第二部分b可以被传送到第二神经元，以此类推，直到n个部分被传送到n个神经元。

在说明性操作中，可以基于由示例性神经网络环境(例如，图2的200)的协作控制器组件提供的一个或多个指令，使用n个滑动窗/核325来确定数据305的部分。此外，如图所示，可以使用由示例性神经网络环境(例如，图2中的200)的协作操作控制器组件(235)提供的一个或多个初始化参数，将输入数据部分a、b、c和d寻址到物理存储器325。

图4图示了示例性输入数据(未示出)的示例性逻辑数据映射400。示例性逻辑数据映射400包括第一行410(利用斜线标记图示)和第二行420(由虚线图示)。每个映射行可以包括一定数目的滑动窗(例如，针对第一行410的430、440和450以及针对第二行420的460、470和480)。附加地，如图所示，逻辑数据映射400示出了滑动窗跨越输入数据的数据维度边界(例如，跨越第一行410和第二行420)的能力。这样的能力允许提高的性能，因为可以更高效地准备更多数据以用于协作神经网络处理组件(例如，图2的205)的后续处理。

图5类似于图4，并且被呈现以描述本文所描述的系统和方法的允许使用填充来进一步增强示例性神经网络环境(例如，图1的100和图2的200)的性能特性的能力。如图所示，(未示出的示例性输入数据的)逻辑数据映射500可以包括跨越一个或多个行(例如，510和520)的各种滑动窗(530、540、550、560、570和580)。附加地，逻辑数据映射500还可以包括填充580。

在说明性操作中，在示例性神经网络环境(图1的100或图2的200)的运行时间，可以动态地添加填充580。图2的操作控制器235可以指定要在图3中所示的输入数据(例如，blob)的每个维度340上使用的填充量(例如，使得维度整体可以被认为是数据体积)，并且神经网络环境(例如，迭代器控制器指令)可以操作性地构建数据体积，就好像填充物理地存在于存储器中。还可以由示例性神经网络环境(例如，迭代器控制器指令)在填充被添加的迭代器输出位置中生成默认值。

本文中所公开的技术的特定实现是取决于计算设备的性能和其他要求的选择。因此，本文中所描述的逻辑操作被不同地称为状态、操作、结构设备、动作或模块。这些状态、操作、结构设备、动作和模块可以以硬件、软件、固件、专用数字逻辑及其任何组合来实现。应当理解，可以执行比附图中示出的和本文中所描述的更多或更少的操作。还可以以与本文中描述的顺序不同的顺序来执行这些操作。

图6是示出操作以执行示例性构造接口的带宽控制的示例性计算环境600的各种组件的交互的图。如图所示，示例性神经网络环境包括与示例性CPU 615协作的DNN模块610、构造650、构造存储器620和本地存储器625。在说明性操作中，示例性计算环境600可以标识需要由计算环境600处理的各种示例性事务605。如图6所示，示例性事务可以包括存储器类型事务(例如，605(a)、605(b)、605(c)、605(e)、605(f)、605(h)和605(i))以及操作事务(例如，605(d)和605(g))。事务中的每一个事务可以包括标识(ID)和字段相关性参数(FLD)。ID和FLD操作性地由示例性计算环境600使用来标识执行示例性事务所需的资源。

在说明性操作中，基于事务列表，与CPU 615协作的DNN模块610可以计算执行事务列表605的示例性事务所需的整体系统资源，以及计算并选择可以在构造存储器620、本地存储器625和/或构造650上执行以优化可用处理/存储器资源的使用的一个或多个节流参数，以努力降低示例性计算环境600的整体功耗。在说明性操作中，所选择执行的节流参数可以包括在网络事务处理周期期间、在构造存储器(620)操作之间插入时间间隙，使得数据元素(630、635和640)可以由示例性协作DMA模块以无间隙形式从构造存储器写入到本地存储器中。然后，被写入本地存储器中的数据元素可以被一个或多个处理单元(例如，神经元)使用。该操作允许协作处理单元从本地存储器组件进行更直接的数据访问，从而得到更少的事务周期并且最终降低功耗。

在说明性实现中，可以选择构造650的大小，使得在执行一个或多个所计算的所选择的节流参数时，在事务序列期间充分利用一个或多个协作处理单元。在说明性实现中，用于执行的所选择的节流参数可以以所选择的协作存储器组件为目标。例如，节流可以以仅流向一个数据源(如，DRAM)的业务为目标。在说明性操作中，示例性DMA模块能够将数据从SRAM移动到SRAM，以及从SRAM移动到DRAM，以及从DRAM移动到DRAM，以及从紧耦合存储器(TCM)移动到SRAM等。因此，可以指定所选择的存储器作为共享资源，并且仅针对所选择的存储器对事务进行节流。

图7是执行示例性计算环境的示例性构造接口的带宽控制，从而得到示例性计算环境的降低的整体功耗的示例性过程700的流程图。如图所示，处理开始于框705，在框705处，接收来自示例性计算环境的协作组件的一个或多个系统参数，系统参数表示处理输入数据所需的处理和/或存储器资源。处理进行到框710，在框710处，计算外部构造(例如，系统构造)上的总可用存储器来确定整体系统负载。然后处理进行到框715，在框715处，使用系统参数和/或所计算的系统负载来计算一个或多个节流参数，所计算的节流参数表示对输入数据的处理和/或存储器管理进行节流。

然后，处理进行到框720，在框720处，选择用于执行的一个或多个节流参数，所选择的节流参数由示例性DMA组件操作性地执行。在框725处，示例性DMA组件还操作以与示例性计算环境的一个或多个协作存储器组件进行协作，以执行所选择的节流参数(例如，在事务序列期间的间隙插入、限制事务计数、循环一个或多个处理单元(例如，神经元))，操作性地耦合到示例性计算环境的外部构造组件的一个或多个存储器组件。

然后，处理进行到框730，在框730处，执行检查来确定是否存在需要处理的附加数据。如果不存在附加数据，则处理在框735处终止。如果附加数据需要处理，则处理返回到框710并从那里进行。

图7中描述的示例性处理可以应用于在示例性神经网络环境中执行的各种操作，包括但不限于服务质量操作、DNN静默操作和硬件调试操作。在说明性实现中，可以在本文描述的系统和方法的上下文中执行服务质量操作，其中示例性DNN环境可以包括多个DNN，使得一个DNN可以比另一DNN具有更高的处理优先级。在这样的情况下，可以向具有较高优先级的DNN提供比具有较低优先级的DNN更有利的节流设置。通过这样做，可以在处理期间向更高优先级的DNN提供对构造的更好访问。

在另一说明性实现中，可以使DNN静默，而不必完全关闭或暂停说明性DNN环境中的(多个)DNN模块。在该说明性实现中，可以在事务之间插入非常大的间隙(例如，数千个周期)，这可以具有使DNN静默的效果，因为可以使得数据移动停止。

在另一说明性实现中，可以执行硬件调试操作，使得数据模式可以在所观察的硬件组件中减慢到它们可以通过诸如示波器和逻辑分析器的各种仪器被观察到的速率。附加地，利用这样的方法，可以在调试操作期间隔离数据事务。举例来说，可以测量DMA的未加载时延，使得可以在事务之前和之后使用大间隙来隔离事务，并且可以使用外部仪器来测量DMA对整体计算环境的影响。

图8是示出用于计算设备的说明性计算机硬件和软件架构的计算机架构图，该计算设备可以充当针对本文所呈现的DNN模块105的应用主机。特别地，图8中所图示的架构可以用于实现服务器计算机、移动电话、电子阅读器、智能电话、台式计算机、AR/VR设备、平板计算机、膝上型计算机或适合与DNN模块105一起使用的其他类型的计算设备。

图8中图示的计算机800包括：中央处理单元802(“CPU”)、系统存储器804(包括随机存取存储器806(“RAM”)和只读存储器(“ROM”)808)以及将存储器804耦合到CPU 802的系统总线810。例如在启动期间，包括有助于在计算机800内的元件之间传递信息的基本例程的基本输入/输出系统(“BIOS”或“固件”)可以被存储在ROM 808中。计算机800还包括用于存储操作系统822、应用程序和其他类型的程序的大容量存储设备812。大容量存储设备812还可以被配置为存储其他类型的程序和数据。

大容量存储设备812通过连接到总线810的大容量存储控制器(未示出)连接到CPU802。大容量存储设备812及其相关联的计算机可读介质为计算机800提供非易失性存储。虽然本文中包括的计算机可读介质的描述是指大容量存储设备，例如，硬盘、CD-ROM驱动、DVD-ROM驱动或USB存储密钥，但是本领域技术人员应理解，计算机可读介质可以是可由计算机800访问的任何可用计算机存储介质或通信介质。

通信介质包括计算机可读指令、数据结构、程序模块或经调制的数据信号(例如，载波)中的其他数据或其他传输机制，并且包括任何递送介质。术语“经调制的数据信号”意指以对信号中的信息进行编码的方式来改变或设置其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、射频、红外和其他无线介质的无线介质。上述任何组合也应被包括在计算机可读介质的范围内。

作为示例而非限制，计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。例如，计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪式存储器或其他固态存储器技术、CD-ROM、数字通用盘(“DVD”)、HD-DVD、BLU-RAY、或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备或可用于存储所需信息并且可由计算机800访问的任何其他介质。出于保护的目的，短语“计算机存储介质”及其变体不包括波或信号本身或通信介质。

根据各种配置，计算机800可以使用通过网络(例如，网络820)到远程计算机的逻辑连接在联网环境中操作。计算机800可以通过连接到总线810的网络接口单元816连接到网络820。应当理解，网络接口单元816还可以用于连接到其他类型的网络和远程计算机系统。计算机800还可以包括用于接收和处理来自一定数目的其他设备的输入的输入/输出控制器818，输入/输出控制器818包括键盘、鼠标、触摸输入、电子笔(图8中未示出)或物理传感器(例如，摄像机)。类似地，输入/输出控制器818可以向显示屏或其他类型的输出设备(在图8中也未示出)提供输出。

应当理解，本文描述的软件组件在被加载到CPU 802中并被执行时，可以将CPU802和整体计算机800从通用计算设备变换为被定制为有助于本文所呈现的功能性的专用计算设备。CPU 802可以由可以单独地或共同地呈现任何数目的状态的、任何数目的晶体管或其他分立电路元件构建。更具体地，CPU 802可以响应于包含在本文公开的软件模块内的可执行指令，作为有限状态机进行操作。这些计算机可执行指令可以通过指定CPU 802如何在状态之间转换来对CPU 802进行变换，从而对构成CPU 802的晶体管或其他分立硬件元件进行变换。

对本文所呈现的软件模块进行编码还可以对本文所呈现的计算机可读介质的物理结构进行变换。在本说明书的不同实现中，物理结构的特定变换取决于各种因素。这样的因素的示例包括但不限于：用于实现计算机可读介质的技术、计算机可读介质是否被表征为主存储装置或辅助存储装置等。例如，如果计算机可读介质被实现为基于半导体的存储器，则可以通过变换半导体存储器的物理状态将本文所公开的软件编码在计算机可读介质上。例如，软件可以对构成半导体存储器的晶体管、电容器或其他分立电路元件的状态进行变换。软件还可以对这样的组件的物理状态进行变换，以在其上存储数据。

作为另一示例，本文所公开的计算机可读介质可以使用磁或光技术来实现。在这样的实现中，本文所呈现的软件可以在软件被编码在磁或光介质中时，对磁或光介质的物理状态进行变换。这些变换可以包括更改给定磁介质内的特定位置的磁特性。这些变换还可以包括更改给定光介质内的特定位置的物理特征或特性，以改变那些位置的光学特性。在不脱离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，提供前述示例仅用以有助于该讨论。

鉴于以上，应当理解，在计算机800中发生许多类型的物理变换，以存储和执行本文所呈现的软件组件。还应理解，图8中针对计算机800所示出的架构或类似架构可以用于实现其他类型的计算设备，包括手持式计算机、视频游戏设备、嵌入式计算机系统、诸如智能电话、平板电脑的移动设备以及AR/VR设备以及本领域技术人员已知的其他类型的计算设备。还预期，计算机800可以不包括图8中所示的所有组件，可以包括未在图8中明确示出的其他组件或可以使用与图8所示的架构完全不同的架构。

图9是图示根据本文所呈现的各种实施例的分布式网络计算环境900的网络图，其中可以实现所公开的技术的各方面。如图9所示，一个或多个服务器计算机900A可以经由通信网络920(可以是固定有线或无线LAN、WAN、内联网、外联网、对等网络、虚拟私有网络、因特网、蓝牙通信网络、专有低压通信网络或其他通信网络中的任一个或其组合)与一定数目的客户端计算设备互连，客户端计算设备例如但不限于：平板计算机900B、游戏控制台900C、智能手表900D、诸如智能电话的电话900E、个人计算机900F和AR/VR设备900G。

例如，在通信网络920是因特网的网络环境中，服务器计算机900A可以是专用服务器计算机，专用服务器计算机可操作以经由一定数目的已知协议(例如，超文本传输协议(“HTTP”)、文件传输协议(“FTP”)或简单对象访问协议(“SOAP”))中的任一个，对去往和来自客户端计算设备900B-900G的数据进行处理并传送数据。附加地，联网计算环境900可以利用各种数据安全协议(例如，安全套接层协议(“SSL”)或优良隐私协议(“PGP”))。客户端计算设备900B-900G中的每一个可以配备有操作系统，操作系统可操作以支持一个或多个计算应用或终端会话(例如，web浏览器(图9中未示出)或其他图形用户界面(图9中未示出)或移动桌面环境(图9中未示出))，以获得对服务器计算机900A的访问。

服务器计算机900A可以通信地耦合到其他计算环境(图9中未示出)，并且接收关于参与用户的交互/资源网络的数据。在说明性操作中，用户(图9中未示出)可以与在客户端计算设备900B-900G上运行的计算应用交互，以获得期望的数据和/或执行其他计算应用。

数据和/或计算应用可以被存储在服务器900A上，并且在示例性通信网络820上、通过客户端计算设备900B-900G被传送到协作用户。参与用户(图9中未示出)可以请求访问服务器计算机900A上全部或部分容纳的特定数据和应用。可以在客户端计算设备900B-900G与服务器计算机900A之间通信这些数据来进行处理和存储。

服务器计算机900A可以主存用于数据和应用的生成、认证、加密和通信的计算应用、过程和小应用，并且可以与其他服务器计算环境(图9中未示出)、第三方服务提供方(图9中未示出)、网络附接存储装置(“NAS”)和存储区域网络(“SAN”)协作，以实现应用/数据事务。

应当理解，为了方便讨论，已简化了图8中所示出的计算架构和图9中所示出的分布式网络计算环境。还应理解，计算架构和分布式计算网络可以包括并利用更多计算组件、设备、软件程序、联网设备和本文未具体描述的其他组件。

示例条款

本文所呈现的公开内容可以鉴于以下条款而被考虑。

示例条款A，一种用于计算环境(200)中的增强数据处理的系统，该系统包括：至少一个神经网络处理器(105)，至少一个存储器组件(220、225)以及至少一个存储器(210)，该至少一个存储器(210)与至少一个神经网络处理器(105)通信，至少一个存储器(210)具有存储在其上的计算机可读指令，该计算机可读指令在由至少一个处理器执行时使得至少一个处理器：从计算环境(200)的协作组件接收一个或多个处理参数，该一个或多个处理参数表示处理输入数据所需的处理和存储器资源；计算计算环境(200)的协作构造组件(230)上的总可用存储器，以确定针对计算环境(200)的负载参数；使用所接收的一个或多个处理参数和所计算的负载参数来计算一个或多个节流参数；选择所计算的节流参数中的一个或多个节流参数来执行；以及通过执行所选择的、所计算的一个或多个节流参数，对计算环境(200)的一个或多个协作存储器组件(210、220、225)进行节流。

示例条款B，根据示例条款A的系统，其中该节流由计算环境(200)的协作DMA组件执行。

示例条款C，根据示例条款A和B的系统，其中所计算的节流参数包括事务限制和间隙插入。

示例条款D，根据示例条款A至C的系统，其中计算机可读指令还使得至少一个处理器：根据所计算的节流参数，在一个或多个协作存储器组件上配置协作可配置寄存器。

示例条款E，根据示例条款A至D的系统，其中由计算环境的示例性神经网络处理器处理的事务的数目受限于低于协作存储器组件中的一个或多个协作存储器组件的最大带宽的阈值。

示例条款F，根据示例条款A至E的系统，其中协作存储器组件包括外部构造组件。

示例条款G，根据示例条款A至F的系统，其中根据所选择的阈值由示例性神经网络处理器处理的事务的受限制的数目包括：未完成事务的指定数目和事务之间的周期的指定数目。

示例条款H，一种计算机实现的方法，包括：从计算环境(200)的协作组件接收一个或多个处理参数，该一个或多个处理参数表示处理输入数据所需的处理和存储器资源；计算计算环境(200)的协作构造组件(230)上的总可用存储器，以确定针对计算环境(200)的负载参数；使用所接收的一个或多个处理参数和所计算的负载参数来计算一个或多个节流参数；选择所计算的节流参数中的一个或多个节流参数来执行；通过在一个或多个协作存储器组件上执行所选择的、所计算的一个或多个节流参数，对计算环境(200)的一个或多个协作存储器组件(210、220、225)进行节流，该参数包括：在由示例性计算环境的神经网络处理器处理的事务之间插入间隙，以及限制由示例性计算环境的神经网络处理器处理的事务的数目。

示例条款I，根据示例条款H的计算机实现的方法，还包括从能够执行所计算的节流参数的控制计算机处理单元接收指令。

示例条款J，根据示例条款H和I的计算机实现的方法，还包括：利用来自所计算的节流参数的数据元素来配置可配置寄存器，以用于执行节流。

示例条款K，根据示例条款H至J的计算机实现的方法，还包括：设定事务阈值参数值以用于节流，该事务阈值参数值包括未完成事务的指定数目以及事务之间的周期的指定数目。

示例条款L，根据示例条款H至K的计算机实现的方法，还包括在节流期间由计算环境的神经网络处理器利用所设定的事务阈值参数。

示例条款M，根据示例条款H至L的计算机实现的方法，还包括选择在其上执行节流的一个或多个存储器组件。

示例条款N，根据示例条款H至M的计算机实现的方法，还包括向外部构造组件提供包括所计算的节流参数的一个或多个节流指令。

示例条款O，根据示例条款H至N的计算机实现的方法，还包括：与包括构造客户端的计算环境的一个或多个存储器管理组件通信，以影响包括服务质量操作、硬件静默操作和硬件调试操作的一个或多个操作。

示例条款P，一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机可读指令在由计算设备的一个或多个处理器执行时使得计算设备的一个或多个处理器：从计算环境(200)的协作组件接收一个或多个处理参数，该一个或多个处理参数表示处理输入数据所需的处理和存储器资源；计算计算环境(200)的协作构造组件(230)上的总可用存储器，以确定针对计算环境(200)的负载参数；使用所接收的一个或多个处理参数和所计算的负载参数来计算一个或多个节流参数；选择所计算的节流参数中的一个或多个节流参数来执行；以及通过执行所选择的、所计算的一个或多个节流参数，对计算环境(200)的一个或多个协作存储器组件(210、220、225)进行节流。

示例条款Q，根据示例条款P的计算机可读存储介质，其中该指令还使得计算设备的一个或多个处理器：利用来自所计算的节流参数的数据元素，对驻留在一个或多个协作存储器组件上的可配置寄存器进行配置，以用于执行节流。

示例条款R，根据示例条款P和Q的计算机可读存储介质，其中该指令还使得计算设备的一个或多个处理器：从能够执行所计算的节流参数的控制计算机处理单元接收一个或多个指令。

示例条款S，根据示例条款P至R的计算机可读存储介质，其中该指令还使得计算设备的一个或多个处理器：设定事务阈值参数值以用于节流，该事务阈值参数值包括未完成事务的指定数目和事务之间的周期的指定数目。

示例条款T，根据示例条款P至S的计算机可读存储介质，其中该指令还使得计算设备的一个或多个处理器：选择在其上执行节流的一个或多个存储器组件。

示例条款U，根据示例条款P至T的计算机可读介质，其中存储器组件与能够产生由一个或多个协作处理单元进行后续处理的输入数据的物理传感器协作，该输入数据包括音频数据、视频数据、触觉感觉数据和其他数据。

示例条款V，根据示例条款P至U的计算机可读介质，其中协作处理单元与一个或多个输出物理组件进行电协作，一个或多个输出物理组件操作以接收用于人类交互的经处理的输入数据，该输入数据包括音频数据、视频数据、触觉感觉数据和其他数据。

基于前述内容，应当理解，本文已公开了得到DNN模块的增强的处理性能和较低功耗的构造带宽控制。尽管已经以特定于计算机构造特征、方法和变换动作、特定计算机器和计算机可读介质的语言描述了本文所呈现的主题，但应理解，所附权利要求中阐述的主题不必受限于本文所描述的特定特征、动作或介质。相反，特定特征、动作和介质作为实现所要求保护的主题的示例形式而被公开。

以上描述的主题仅以说明的方式被提供，且不应被解释为是限制性的。可以在不遵循所图示和描述的示例配置和应用并且不脱离在所附权利要求中阐述的本公开的范围的情况下，对本文所描述的主题进行各种修改和变化。

Claims

1.一种用于计算环境中的增强数据处理的系统，所述系统包括：

至少一个神经网络处理器；

至少一个存储器组件；以及

至少一个存储器，所述至少一个存储器与所述至少一个神经网络处理器通信，所述至少一个存储器具有存储在其上的计算机可读指令，所述计算机可读指令在由所述至少一个处理器执行时使得所述至少一个处理器：

从所述计算环境的协作组件接收一个或多个处理参数，所述一个或多个处理参数表示处理输入数据所需的处理和存储器资源；

计算所述计算环境的协作构造组件上的总可用存储器，以确定针对所述计算环境的负载参数；

使用所接收的所述一个或多个处理参数和所计算的所述负载参数来计算一个或多个节流参数；

选择所计算的所述节流参数中的一个或多个节流参数来执行；以及

通过执行所选择的、所计算的所述一个或多个节流参数，对所述计算环境的一个或多个协作存储器组件进行节流。

2.根据权利要求1所述的系统，其中所述节流由所述计算环境的协作DMA组件执行。

3.根据权利要求2所述的系统，其中所计算的所述节流参数包括事务限制和间隙插入。

4.根据权利要求3所述的系统，其中所述计算机可读指令还使得所述至少一个处理器：根据所计算的所述节流参数，在所述一个或多个协作存储器组件上配置协作可配置寄存器。

5.根据权利要求4所述的系统，其中由所述计算环境的所述示例性神经网络处理器处理的事务的数目受限于低于所述协作存储器组件中的一个或多个协作存储器组件的最大带宽的阈值。

6.根据权利要求5所述的系统，其中协作存储器组件包括外部构造组件。

7.根据权利要求6所述的系统，其中根据所选择的阈值由所述示例性神经网络处理器处理的事务的受限制的所述数目包括：未完成事务的指定数目和事务之间的周期的指定数目。

8.一种计算机实现的方法，包括：

从计算环境的协作组件接收一个或多个处理参数，所述一个或多个处理参数表示处理输入数据所需的处理和存储器资源；

通过在一个或多个协作存储器组件上执行所选择的、所计算的所述一个或多个节流参数，对所述计算环境的一个或多个协作存储器组件进行节流，所述参数包括：在由示例性计算环境的神经网络处理器处理的事务之间插入间隙，以及限制由示例性计算环境的神经网络处理器处理的事务的数目。

9.根据权利要求8所述的计算机实现的方法，还包括从能够执行所计算的所述节流参数的控制计算机处理单元接收指令。

10.根据权利要求8所述的计算机实现的方法，还包括：利用来自所计算的所述节流参数的数据元素来配置可配置寄存器，以用于执行节流。

11.根据权利要求8所述的计算机实现的方法，还包括：设定事务阈值参数值以用于节流，所述事务阈值参数值包括未完成事务的指定数目和事务之间的周期的指定数目。

12.根据权利要求11所述的计算机实现的方法，还包括在节流期间由计算环境的神经网络处理器利用所设定的所述事务阈值参数。

13.根据权利要求8所述的计算机实现的方法，还包括选择在其上执行节流的一个或多个存储器组件。

14.根据权利要求13所述的计算机实现的方法，还包括向外部构造组件提供包括所计算的所述节流参数的一个或多个节流指令。

15.根据权利要求14所述的计算机实现的方法，还包括：与包括构造客户端的计算环境的一个或多个存储器管理组件通信，以影响包括服务质量操作、硬件静默操作和硬件调试操作的一个或多个操作。