CN110520856A

CN110520856A - 处理不邻近存储器作为邻近存储器以提高神经网络的性能

Info

Publication number: CN110520856A
Application number: CN201880025244.1A
Authority: CN
Inventors: G·彼得; C·B·麦克布赖德; A·A·安巴德卡; K·D·塞多拉; B·博布罗夫; L·M·瓦尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-06
Publication date: 2019-11-29
Anticipated expiration: 2038-04-06
Also published as: US20210232904A1; MX2023008178A; CN110506260B; EP3612942B1; EP3612991B1; EP3612990B1; US20180300617A1; CN110537194B; US11405051B2; US20180300616A1; WO2018194850A1; EP3612934A1; CN110546610A; US20180300614A1; WO2018194996A1; CN110520857B; AU2018256212A1; CN110546628B; US10795836B2; WO2018194995A1

Abstract

神经网络(NN)的性能可能会受到所执行的操作的数目的限制。使用涉及将存储器块移位所选择的移位步幅以用于协作神经元的线缓冲器，可以像在单个线缓冲器写入周期中那样处理可操作地驻留在存储器中并且需要向协作线缓冲器中的多个写入周期的数据，从而增强了NN/DNN的性能。控制器和/或迭代器可以生成具有用于与线缓冲器通信的存储器块移位值的一个或多个指令。移位值可以使用输入数据的各种特性以及包括数据维度在内的NN/DNN来计算。线缓冲器可以读取数据以进行处理，移位存储器块的数据，并且将数据写入线缓冲器中以进行后续处理。

Description

处理不邻近存储器作为邻近存储器以提高神经网络的性能

背景技术

在人工神经网络(NN)中，神经元是用于对大脑中的生物神经元建模的基本单位。人工神经元的模型包括输入向量与权重向量的内积再加上应用了非线性的偏差。对于深度神经网络(DNN)(例如，如由示例性DNN模块表示的)，可以将神经元紧密地映射到人工神经元。可操作地，当DNN的神经元连续处理数据并且避免出现神经元或一组神经元在处理周期内不处理数据的情况时，DNN便会发挥其最佳性能。

在处理跨NN或DNN的数据时，需要执行示例性处理操作的控制器对大量数据进行迭代以便应用特定操作。这样的要求可能会影响整个NN或DNN性能，从而导致关键时延，从而损害期望的指定处理目标(例如，在示例性输入数据中标识对象和/或对象特性——图像、声音、地理坐标等)。通常，一些现有的NN和DNN在对NN/DNN的各种协作存储器组件(例如，线缓冲器)执行包括存储器读取和写入在内的各种操作时会花费可避免的处理时间(例如，每秒浮点/定点操作(GFlops/s))和存储器空间(例如，每秒传输的字节数(GBytes/s))。具体地，当前的实践并未标识输入/数据的关键特征和/或未向NN或DNN的协作组件提供有关如何最佳地管理/指示协作的NN或DNN存储器组件(包括线缓冲器在内)中的输入数据的读取/写入操作以避免这样的性能问题的指令。与NN或DNN中的低效率的数据处理相关联的性能影响的部分原因是NN或DNN的神经处理组件中间的数据的低效处理。这种低效的数据管理和处理需要附加的通常是可避免的计算/神经处理器操作，这进一步影响了整个NN/DNN的性能。

更有利的NN/DNN将部署指令集，该指令集指示NN/DNN的协作存储器组件、特别是线缓冲器以可操作地将存储器块移位每个连贯的神经元的移位步幅。可操作地，存储器块的移位可以允许在单个处理周期中从单个存储器块提取针对多个重叠/连贯的滑动窗口的数据。这样，存储器中的数据可以被视为用于处理的邻近的(contiguous)存储器块，从而提高NN/DNN的整体性能。

关于这些考虑和其他考虑，提出了本文中给出的公开内容。

发明内容

本文中描述的技术提供了要在示例性神经网络(NN)和/或深度神经网络(DNN)环境中使用的一个或多个硬件迭代器的虚拟化，其中协作的线缓冲器组件可操作地允许提高整体性能并且优化存储器管理的数据处理。在说明性实现中，示例性DNN环境可以包括一个或多个处理块(例如，计算机处理单元CPU)、存储器控制器、线缓冲器、高带宽结构(例如，本地或外部结构)(例如，在示例性DNN模块与DNN环境的协作组件之间传递数据和/或数据元素的数据总线)、操作控制器和DNN模块。在说明性实现中，示例性DNN模块可以包括示例性DNN状态控制器、描述符列表控制器(DLC)、dMA(DDMA)、DMA流激活(DSA)、操作控制器、加载控制器和存储库控制器。

在说明性操作中，NN/DNN环境的操作控制器可以可操作地处理大量数据，以便应用一个或多个期望数据处理操作(例如，卷积、最大池化、标量乘法/加法、求和、完全连接等)。在说明性操作中，参与的用户可以通过使用可操作地从协作操作控制器/迭代器接收执行各种操作(包括但不限于数据处理和存储器管理操作)的一个或多个指令的线缓冲器，来指定正被处理的数据的维度以及有关如何处理该数据以供NN/DNN计算环境使用的配置。

在说明性实现中，要由NN/DNN环境处理的数据可以表示为blob。通常，blob表示存储器中需要迭代的数据。每个blob可以维持由各种维度(诸如宽度、高度、通道数、内核数和其他可用维度单位)定义的逻辑映射形状。在说明性操作中，操作控制器可以遍历多维blob(例如，由逻辑数据映射定义)或这样的blob的较小N维切片，其中N是维数(例如，对于表示具有宽度、高度和通道数的图像的3D blob，N＝3)(例如，使用一个或多个硬件或虚拟迭代器)。遍历的blob可以利用一个或多个指令被传送到协作线缓冲器以管理线缓冲器中遍历数据的读取/写入。数据的blob可以由NN/DNN的各种组件来处理，包括能够处理输入数据的迭代器和能够处理输出数据的迭代器，这些数据可以说明性地从NN/DNN的一个或多个协作处理单元被输出。

示意性地，线缓冲器可以可操作地将存储器块的数据移位一个或多个协作处理单元(诸如神经元)的移位步幅。可以将线缓冲器构造为将数据存储在预定义数目的行(row)/线(line)(例如，64行、线)中，该行/线可以接收行/线中的所选择的数目的数据(例如，可以为线缓冲器的每行接收32字节的数据)。线缓冲器可以操作以按照所计算的移位步幅来移位存储器块数据，该移位步幅说明性地可以基于输入数据的特性(例如，移位步幅、连续性、高度、宽度、内核等)(例如，如果步幅的值为0，则线缓冲器的线可以具有相同的数据，而如果步幅的值为1，则数据可以被移位1以允许线缓冲器内的更有效的读取/写入操作)。可操作地，线缓冲器可以从可操作地驻留在存储器中的协作存储器块读取附加数据，以允许从协作存储器进行单次读取，从而使得存储器块的数据已经在邻近的存储器块中。

说明性地，写入线缓冲器的数据可以由一个或多个协作处理单元(诸如一个或多个神经元)可操作地处理以生成输出数据。输出数据还可以包括一个或多个数据元素，该数据元素代表在将所生成的输出数据写入协作存储器组件时可以被丢弃的、在示例性移位步幅操作期间被插入的数据元素。

应当理解，尽管关于系统进行了描述，但是上述主题内容也可以被实现为计算机控制的装置、计算机过程、计算系统或诸如计算机可读介质和/或专用芯片组等制品。通过阅读以下详细说明并且审查相关联的附图，这些和各种其他特征将变得很清楚。提供本“发明内容”以便以简化的形式介绍一些概念，这些概念将在下面的“具体实施方式”中进一步描述。

本“发明内容”既不旨在标识所要求保护的主题内容的关键特征或必要特征，也不旨在用于限制所要求保护的主题内容的范围。此外，所要求保护的主题内容不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。

附图说明

参考附图描述“具体实施方式”。在附图中，附图标记的(多个)最左边的数字标识该附图标记首次出现的附图。不同附图中的相同附图标记表示相似或相同的项目。对多个项目中的单独项目的引用可以使用带有字母序列中的字母的附图标记来引用每个单独项目。对项目的通用引用可以使用不带字母序列的特定附图标记。

图1图示了根据本文中描述的系统和方法的示例性神经网络计算环境的框图。

图2图示了利用有向线缓冲器的示例性神经网络环境的框图。

图3图示了根据本文中描述的系统和方法的在说明性逻辑数据映射中表示的示例性输入数据的框图。

图4图示了在说明性逻辑数据映射中表示的示例性输入数据的框图，其示出了使用可操作以跨越说明性逻辑数据映射的一条或多条线的说明性的n个滑动窗口。

图5图示了根据本文中描述的系统和方法的在说明性逻辑数据映射中表示的示例性输入数据的框图，其示出了使用可操作以跨越说明性逻辑数据映射的一条或多条线的说明性的n个滑动窗口，这些说明性逻辑数据映射可操作以允许数据填充作为处理增强。

图6图示了根据本文中描述的系统和方法的在说明性逻辑数据映射中表示的示例性输入数据的框图，其示出了使用移位步幅以允许在有向线缓冲器内进行邻近的存储器读取/写入操作。

图6A图示了在说明性逻辑数据映射中表示的示例性输出数据的框图，其示出了在示例性输出写入操作期间所插入的移位步幅数据位的丢弃。

图7是根据本文中描述的系统和方法的用于使用有向线缓冲器的示例性神经网络环境中的数据处理的示例性过程的流程图。

图8示出了针对能够执行本文中描述的方法的计算机的说明性计算机架构的附加细节。

图9示出了根据本文中描述的系统和方法进行协作的说明性计算设备的附加细节。

具体实施方式

以下“具体实施方式”描述了要在示例性神经网络(NN)和/或深度神经网络(DNN)环境中使用的一个或多个硬件迭代器的虚拟化技术，其中协作的线缓冲器组件可操作地允许提高整体性能并且优化存储器管理的数据处理。在说明性实现中，示例性DNN环境可以包括一个或多个处理块(例如，计算机处理单元CPU)、存储器控制器、线缓冲器、高带宽结构(例如，本地或外部结构)(例如，在示例性DNN模块与DNN环境的协作组件之间传递数据和/或数据元素的数据总线)、操作控制器和DNN模块。在说明性实现中，示例性DNN模块可以包括示例性DNN状态控制器、描述符列表控制器(DLC)、dMA(DDMA)、DMA流激活(DSA)、操作控制器、加载控制器和存储库控制器。

应当理解，所描述的主题内容可以被实现为计算机控制的装置、计算机过程、计算系统或诸如计算机可读存储介质等制品。除了很多其他益处之外，本文中的技术提高了关于各种计算资源的效率。例如，确定移位步幅可以减少执行诸如面部识别、对象识别、图像生成等很多复杂任务所需要的计算周期数目。

另外，通过引入这种任务的更准确和更快的完成，可以实现改进的人际交互。另外，使用移位步幅可以减少网络业务，减少功耗和存储器使用。也可以从本文中公开的技术的实现中实现除了本文中提及的那些以外的其他技术效果。

在说明性操作中，NN/DNN环境的操作控制器可以可操作地处理大量数据以便应用一个或多个期望数据处理操作(例如，卷积、最大池化、标量乘法/加法、求和、完全连接等)。在说明性操作中，参与的用户可以通过使用可操作地从协作操作控制器/迭代器接收执行各种操作(包括但不限于数据处理和存储器管理操作)的一个或多个指令的线缓冲器，来指定正被处理的数据的维度以及有关如何处理该数据以供NN/DNN计算环境使用的配置。

示意性地，线缓冲器可以可操作地将存储器块的数据移位可以被视为可以在任何位置写入线缓冲器中的存储器块中的一个或多个值的移位的移位步幅。可以将线缓冲器构造为将数据存储在预定义数目的行/线(例如，64行、线)中，该行/线可以接收行/线中的所选择的数目的数据(例如，可以为线缓冲器的每行接收32字节的数据)。线缓冲器可以操作以按照移位步幅来移位存储器块数据，该移位步幅说明性地可以基于输入数据的特性(例如，移位步幅、连续性、高度、宽度、内核等)(例如，如果步幅的值为0，则线缓冲器的线可以具有相同的数据，而如果步幅的值为1，则数据可以被移位1以允许线缓冲器内的更有效的读取/写入操作)。可操作地，线缓冲器可以从可操作地驻留在存储器中的协作存储器块读取附加数据，以允许从协作存储器进行单次读取，从而使得存储器块的数据已经在邻近的存储器块中。

神经网络背景：

在人工神经网络中，神经元是用于对大脑中的生物神经元建模的基本单位。人工神经元的模型可以包括输入向量与权重向量的内积再加上应用了非线性的偏差。比较而言，在示例性DNN模块中，神经元(例如，图1的105)被紧密映射到人工神经元。

说明性地，可以将DNN模块视为超标量处理器。可操作地，它可以将一个或多个指令调度到称为神经元的多个执行单元。执行单元可以是“同时调度同时完成”，其中每个执行单元与所有其他执行单元同步。DNN模块可以被分类为SIMD(单指令流、多数据流)架构。

转向图1的示例性DNN环境100，DNN模块105具有带有唯一的L1和L2高速缓存结构的存储器子系统。这些不是传统的高速缓存，而是专门为神经处理而设计的。为了方便起见，这些高速缓存结构采用了反映其预期目的的名称。通过示例，L2高速缓存150可以说明性地以在所选择的频率(例如，每秒十六吉比特(16GBps))下操作的高速专用接口来维持所选择的存储容量(例如，一兆字节(1MB))。L1高速缓存可以维持所选择的存储容量(例如，可以在内核数据与激活数据之间分配的八千字节(8KB))。L1高速缓存可以称为线缓冲器，而L2高速缓存可以称为BaSRAM。

DNN模块可以是仅召回的神经网络，并且以编程方式支持多种网络结构。可以在服务器场或数据中心中离线执行网络训练。训练的结果是可以称为权重或内核的一组参数。这些参数表示可以应用于输入的变换函数，其结果是分类或语义标记的输出。

在说明性操作中，DNN模块可以接受平面数据作为输入。输入不仅限于图像数据，只要所呈现的数据是统一的平面格式，DNN就可以对其进行操作。

DNN模块对与神经网络的层相对应的层描述符列表进行操作。说明性地，DNN模块可以将层描述符列表视为指令。这些描述符可以从存储器中被预取到DNN模块中，并且按顺序执行。

通常，可以有两种主要类的层描述符：1)存储器到存储器移动描述符，以及2)操作描述符。存储器到存储器移动描述符可以用于将数据从主存储器移至本地高速缓存/从本地高速缓存移至主存储器以供操作描述符使用。存储器到存储器移动描述符所遵循的执行流水线与操作描述符不同。存储器到存储器移动描述符的目标流水线可以是内部DMA引擎，而操作描述符的目标流水线可以是神经元处理元件。操作描述符能够执行很多不同的层操作。

DNN的输出也是数据的blob。可以可选地将输出流式传输到本地高速缓存或流式传输到主存储器。DNN模块可以在软件允许的范围内尽早提取数据。软件可以通过使用描述符之间的隔离和设置依赖关系来控制预取。在满足依赖关系之前，将阻止具有依赖关系集的描述符前进。

现在转向图1，示例性神经网络环境100可以包括各种协作组件，包括DNN模块105、高速缓冲存储器125或150、低带宽结构110、桥接器组件115、高带宽结构120、SOC 130、PCIE“端点”135、泰思立达(Tensilica)节点140、存储器控制器145、LPDDR4存储器155和输入数据源102。此外，如图所示，DNN模块105还可以包括多个组件，包括预取105(A)、DMA 105(B)、寄存器接口105(D)、加载/存储单元105(C)、层控制器105(D)、保存/恢复组件105(E)和神经元105(F)。可操作地，示例性DNN环境100可以根据所选择的规范来处理数据，其中DNN模块执行本文中描述的一个或多个功能。

图2图示了可操作以采用有向线缓冲器220作为数据处理的一部分的示例性神经网络环境200。如图所示，示例性神经网络环境200(本文中也称为计算设备或计算设备环境)包括与线缓冲器220协作以提供用于数据处理的一个或多个指令的一个或多个操作控制器235。线缓冲器220可以操作以通过外部结构230和结构215从协作的外部存储器组件225接收数据，以及操作以从(多个)迭代器240(例如，基于硬件和/或虚拟化的迭代器)接收一个或多个指令/命令(例如，从协作存储器组件读取数据的指令/命令和/或将从协作存储器组件加载的数据写入线缓冲器的指令)。可操作地，线缓冲器220可以根据从一个或多个操作控制器235(本文中也称为“协作控制器组件235”)接收的一个或多个指令根据所选择的步幅宽度来移位数据。此外，线缓冲器220可以与(多个)处理单元(例如，(多个)神经元)协作以提供写入的比特移位数据以直接或间接地通过结构215进行进一步处理。神经网络环境结构可以是能够通过各种数据的数据总线。有向线缓冲器可以被认为是一种能够根据所接收的一个或多个指令来读取和写入数据和/或数据元素的存储器组件。

在说明性操作中，示例性神经网络环境200可以根据图7所述的过程可操作地处理数据。特定于图2所述的组件，这些组件仅是说明性的，本领域的普通技术人员将理解图6和图7所述的处理也可以由除了图2所示的组件之外的其他组件执行。

另外，如图2所示，示例性神经网络环境可以可选地包括可以说明性地操作以迭代输入数据(未示出)以用于由一个或多个神经元处理器205处理的一个或多个迭代器(例如，基于硬件和/或虚拟化的迭代器)(如虚线所示)。本领域技术人员应当理解，示例性的一个或多个迭代器的这种可选包括仅是说明性的，因为本文中公开的系统和方法所描述的发明概念在示例性神经网络环境200中可操作，其在无需任何迭代器的情况下操作。

图3图示了用于示例性输入数据的说明性逻辑数据映射300。如图所示，数据305可以表示为具有一定维度340的数据(例如，使得整体上考虑的数据维度可以定义数据卷)，包括通道计数310、高度315和宽度320。在本文中描述的系统和方法，可以分配和准备数据305用于由协作的n个神经元330来处理，使得可以将第一部分a传送到第一神经元，将第二部分b传送到第二神经元，依此类推，直到n个部分被传送到n个神经元。

在说明性操作中，数据305的各部分可以基于由示例性神经网络环境(例如，图2的200)的协作控制器组件提供的一个或多个指令使用n个滑动窗口/内核325来确定。此外，如图所示，输入数据部分a、b、c和d可以使用由示例性神经网络环境(例如，图2的200)的协作操作控制器组件(235)提供的一个或多个初始化参数寻址到物理存储器325。

图4示出了示例性输入数据(未示出)的示例性逻辑数据图400。示例性逻辑数据图400包括第一线410(用对角线标记示出)和第二线420(以虚线示出)。每个地图线可以包括多个滑动窗口(例如，用于第一线410的430、440和450、以及用于第二线420的460、470和480)。另外，如图所示，逻辑数据图400示出了滑动窗口跨越输入数据的数据维度边界(例如，跨越第一线410和第二线420)的能力。这种能力允许提高性能，因为可以通过协作的神经网络处理组件(例如，图2的205)更有效地准备更多数据用于后续处理。

图5类似于图4，并且被呈现以描述本文中描述的系统和方法允许使用填充来进一步增强示例性神经网络环境(例如，图1的100和图2的200)的性能特性的能力。如图所示，逻辑数据图500(未示出的示例性输入数据的)可以包括跨越一个或多个线(例如，510和520)的各种滑动窗口(530、540、550、560、570和580)。另外，逻辑数据图500还可以包括填充580。

在说明性操作中，在示例性神经网络环境(图1的100或图2的200)的运行时，可以动态添加填充580。图2的操作控制器235可以指定要在输入数据(例如，blob)的图3所示的每个维度340上使用的填充量(例如，使得维度的总和可以被视为数据卷)，并且神经网络环境(例如，迭代器控制器指令)可以可操作地构造数据卷，就好像填充在物理上存在于存储器中。还可以通过示例神经网络环境(例如，迭代器控制器指令)在添加了填充的迭代器输出位置生成默认值。

图6是示例性线缓冲器数据600的框图。如图6所示，示例性线缓冲器输入数据600可以包括线缓冲器数据600的边界逻辑映射605。逻辑映射可以包括高度和宽度以及数据元素(605(1)、605(2)、605(3)、605(4)、605(5)、605(6)、605(7)、605(8)、605(9)、605(10)、605(11)、605(12)、605(13)、605(14)、605(15)、605(16)、605(17)、605(18)、605(19)、605(20)、605(21)、605(22)、605(23)、605(24)、605(25)、605(26)

等)。示例性数据元素可以存储在逻辑映射中的行610、615和620中，并且可以使用n个滑动窗口进行迭代。线缓冲器数据600也可以表示为具有连续数据块的解散逻辑映射625，该邻近的数据块具有单独的数据段630和635。单独的数据段可以表示跨线缓冲器输入数据的一个或多个行(row)/行(line)存储的数据量。另外，如图6所示，解散的数据段630和635中的每个可以包括线缓冲器输入数据块跨越输入数据的两行一个或多个位置640。可操作地，示例性线缓冲器可以根据所选择的步幅宽度来移位存储器块数据以写入不邻近的存储器块作为邻近的存储器块。在说明性实现中，线缓冲器数据600可以包括从协作数据存储器和/或协作迭代器组件中取回的数据。

作为示例，在加载用于处理卷积层的数据时，示例性线缓冲器可以接收一个存储器块(例如，32字节数据)，并且通过将块移动每个连续神经元的移位步幅，可以在单个周期中将该数据块的一部分分配给多个神经元。这样，可以在单个周期中从单个块中提取多个重叠/连续滑动窗口的数据。当滑动窗口从一条线到另一条线跨跃输入时，并且在内核宽度大于1的情况下，从上一行的最后窗口到下一行的第一窗口的数据中将存在不连续点。因此，即使这些窗口的数据位于说明性本地存储器中的相同存储器块中，也可能需要线缓冲器执行两次写入以解决这种不连续性。

此外，如图6所示，示例性线数据600可以物理地存储在说明性存储器块中。如图所示，根据两个示例性存储器块写入场景655和650，说明性地示出示例性存储器块。说明性的第一数据写入场景655中的示例性行缓冲存储器数据670A可以包括表示来自多个存储位置(例如，655(1)、650(2)、655(3)、655(4)、655(5)、655(6)、655(7)、655(8)和655(9))的数据655A的第一周期写入的数据。类似地，说明性的第二数据写入场景655中的示例性行缓冲存储器数据670A可以包括表示来自多个存储位置(例如，650(10)、650(11)、650(12)、650(13)、650(14)、650(15)、650(16))的数据650A的第二周期写入的数据。

另外，如图6所示，根据示例性线缓冲器移位步幅操作660，示例性线缓冲器数据可以从存储在存储器块680中的数据写入单周期写入操作。如图所示，存储器块680可以包括多个存储位置(例如，680(1)、680(2)、680(3)、680(4)、680(5)、680(6)、680(7)、680(8)、680(9)、680(10)、680(11)、680(12)、680(13)、680(14)、680(16)等)。在说明性实现中，如图6所示，可以根据线缓冲器移位步幅操作660来存储线缓冲器675的示例性线缓冲器数据675A。在移位步幅移位操作660中，应用计算出的移位步幅来移位存储器块680数据的数据以写入线缓冲器数据675A。可以将附加移位步幅位645作为线缓冲器675的一部分写入线缓冲器675，从而允许对存储器块680数据进行单周期处理680A，而不是像存储器块写入场景650和655的存储器块写入那样的两个周期。

说明性地，根据存储器块680的单周期处理680A操作，与双周期处理655A和650A相比，如图6所示的单写入操作可以在线缓冲器中产生额外的行。可操作地，如图6A中说明性地描述的，NN可以处理线缓冲器中的额外数据行，作为诸如卷积等NN数据处理操作的一部分，以产生输出数据，然后可以在由诸如神经元等一个或多个协作处理单元生成的输出数据的运行时保存操作期间将其丢弃。

应当理解，尽管图6的示例性存储器块数据被示出为应用值为1的移位步幅以允许将存储器视为具有邻近的存储器块，但是该移位步幅仅是描述性的，并且可以具有实现示例性神经网络环境预期的各种数据处理操作的存储结果所需要的任何值。。

图6A示出了具有根据两个输出数据生成场景I和II表示的输出数据的说明性输出数据环境680的示例性逻辑数据映射。如图6A所示，很多神经元682可以处理数据元素(未示出)以生成相应的输出数据，诸如684(M)、686(M)、688(M)、690(M)和692(M)，以存储在诸如示例性线缓冲器等协作存储器组件682(M)中。根据示例性输出数据生成场景I，神经元684、686、688和690可以可操作地处理数据元素(未示出)以生成相应的输出数据684(M)、686(M)、688(M)和690(6M)。根据示例性输出数据生成场景II，神经元684、686、688、690和692可以可操作地处理数据元素(未示出)以生成相应的输出数据684(M)、686(M)、688(M)、690(M)和692(M)。如根据示例性辅助输出生成场景II所示，可以在由示例性逻辑数据映射的阴影/条纹区域指示的输出数据写入操作期间，可操作地丢弃可以由示例性神经元692生成的示例性输出数据元素692(M)。

在说明性实现中，示例性输出数据生成场景II可以表示部署诸如图6所述的移位步幅操作的示例性神经网络环境的数据处理，使得由移位步幅操作表示的附加数据元素由示例性神经元682处理以生成多余的输出数据，该多余的输出数据可以在将输出数据示例性存储在协作存储器组件中期间被丢弃。

图7是利用有向线缓冲器来最小化NN/DNN环境中的存储器读取的说明性过程700的流程图。如图所示，处理开始于框705，在框705，从神经网络计算环境的协作组件(例如，操作控制器)接收一个或多个初始化参数，其中一个或多个初始化参数可以包括表示输入数据的维度的数据以及表示输入数据的行之间的所计算的数据块不连续性的数据。然后，处理进行到框710，在框710，计算可以用于对所取回的数据进行移位的移位步幅。说明性地，移位步幅可以使用一个或多个初始化参数生成一个或多个有向线缓冲器写入指令(LBWI)来计算。

处理然后进行到框715，在框715，可以从神经网络环境的协作存储器存储库和/或协作迭代器组件中取回数据。然后，在框720，将数据写入与一个或多个处理单元相关联的线缓冲器的一个或多个行中。可以根据所生成的有向线缓冲器写入指令(LBWI)来写入数据。LBWI可以包括根据框705的所接收的导致对线缓冲器中的输入数据进行单周期处理的初始化参数来将数据写入到以移位步幅移位的线缓冲器中的一个或多个指令。

然后，处理进行到框725，在框725，将数据传送到一个或多个协作处理单元(例如，神经元)以进行后续数据处理。然后，经处理的数据可以用作神经网络环境和/或协作计算环境的一个或多个协作组件的输入。可以显示这样的输出以供参与的用户交互。另外，在框725，当从一个或多个协作处理单元向神经网络环境的其他协作组件进行写入时，可以丢弃写入线缓冲器中并且由一个或多个协作处理单元处理的附加的移位步幅块。

然后在框735执行检查以确定是否存在要处理的其他输入数据(即，作为迭代操作的一部分)。如果没有附加输入数据，则处理在框740处终止。但是，如果附加输入数据需要迭代操作，则处理然后返回框705并且从那里继续进行。

图8所示的计算机架构800包括中央处理单元802(“CPU”)、系统存储器804(包括随机存取存储器806(“RAM”)和只读存储器(“ROM”)808)、以及将存储器804耦合到CPU 802的系统总线810。包含用于帮助诸如在启动过程中在计算架构800内的各个元件之间传输信息的基本例程的基本输入/输出系统存储在ROM 808中。计算架构800还包括用于存储操作系统814、其他数据和一个或多个应用程序的大容量存储设备812。

大容量存储设备812通过连接到总线810的大容量存储控制器(未示出)连接到CPU802。大容量存储设备812及其关联的计算机可读介质为计算架构800提供非易失性存储。尽管本文中包含的计算机可读介质的描述是指大容量存储设备，诸如固态驱动器、硬盘或CD-ROM驱动器，但是本领域技术人员应当理解，计算机可读介质介质可以是计算架构800可以访问的任何可用的计算机存储介质或通信介质。

通信介质包括诸如载波或其他传输机制等调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何传递介质。术语“调制数据信号”是指具有以能够将信息编码在信号中的方式来改变或设置其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、RF、红外和其他无线介质等无线介质。以上任何内容的组合也应当被包括在计算机可读介质的范围内。

通过示例而非限制，计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。例如，计算机介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、或者可以用于存储期望信息并且可以由计算机架构800访问的任何其他介质。出于权利要求的目的，短语“计算机存储介质”、“计算机可读存储介质”及其变体不包括波、信号和/或其他瞬态和/或无形通信介质本身。

根据各种技术，计算机架构800可以使用通过网络820和/或另一网络(未示出)到远程计算机805的逻辑连接来在联网环境中操作。计算机架构800可以通过连接到总线810的网络接口单元816连接到网络820。应当理解，网络接口单元816也可以用于连接到其他类型的网络和远程计算机系统。计算机架构800还可以包括用于接收和处理来自多个其他设备(包括键盘、物理传感器825、鼠标、或电子触笔(图8中未示出))的输入的输入/输出控制器818。类似地，输入/输出控制器818可以向显示屏、打印机或其他类型的输出设备(在图8中也未示出)提供输出。还应当理解，经由通过网络接口单元816到网络820的连接，计算架构可以使得DNN模块105能够与计算环境100通信。

应当理解，本文中描述的软件组件可以在被加载到CPU 802和/或DNN模块105中并且被执行时，将CPU 802和/或DNN模块105和整个计算机800从通用计算系统变换为被定制为促进本文中呈现的功能性的专用计算系统。CPU 802和/或DNN模块105可以由可以单独或共同地呈现任何数目的状态的任何数目的晶体管或其他分立电路元件和/或芯片组构成。更具体地，响应于本文中公开的软件模块内所包含的可执行指令，CPU 802和/或DNN模块105可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU 802如何在状态之间转变来对CPU 802进行变换，从而对构成CPU 802的晶体管或其他分立硬件元件进行变换。

对本文中呈现的软件模块进行编码还可以变换本文中提出的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换可以取决于各种因素。这样的因素的示例可以包括但不限于用于实现计算机可读介质的技术、计算机可读介质被表征为主存储装置还是辅助存储装置等。例如，如果计算机可读介质被实现为基于半导体的存储器，则可以通过变换半导体存储器的物理状态来将本文中公开的软件编码在计算机可读介质上。例如，该软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这些组件的物理状态，以便在其上存储数据。

作为另一示例，本文中公开的计算机可读介质可以使用磁性或光学技术来实现。在这样的实现中，当软件被编码在其中时，本文中提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括更改给定磁性介质内的特定位置的磁性特性。这些变换还可以包括更改给定光学介质内的特定位置的物理特征或特性，以改变这些位置的光学特性。在不背离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，提供前述示例仅是为了促进该讨论。

鉴于以上内容，应当理解，在计算机架构800中发生了很多类型的物理变换，以便存储和执行本文中呈现的软件组件。还应当理解，计算机架构800可以包括其他类型的计算设备，包括手持式计算机、嵌入式计算机系统、个人数字助理和本领域技术人员已知的其他类型的计算设备。还可以设想，计算机架构800可以不包括图8所示的所有组件，可以包括图8中未明确示出的其他组件，或者可以使用与图8所示的架构完全不同的架构。

如上所述的计算系统800可以被部署为计算机网络的一部分。通常，对计算环境的上述描述适用于部署在网络环境中的服务器计算机和客户端计算机两者。

图9图示了其中可以采用本文中描述的装置和方法的示例性说明性联网计算环境900，其中服务器经由通信网络与客户端计算机通信。如图9所示，(多个)服务器905可以经由通信网络820(其可以是固定有线或无线LAN、WAN、内联网、外联网、对等网络、虚拟专用网络、因特网、蓝牙通信网络、专有低电压通信网络或其他通信网络中的一个或者组合)与多个客户端计算环境(诸如平板个人计算机910、移动电话915、电话920、(多个)个人计算机801、个人数字助理925、智能电话手表/个人目标跟踪器(例如，Apple手表、Samsung、FitBit等)930和智能电话935)互连。在通信网络820是因特网的网络环境中，例如，(多个)服务器905可以是专用计算环境服务器，该服务器可操作以经由多种已知协议中的任何一种来处理数据并且向和从客户端计算环境801、910、915、920、925、930和935传送数据，已知协议诸如超文本传输协议(HTTP)、文件传输协议(FTP)、简单对象访问协议(SOAP)或无线应用协议(WAP)。另外，网络计算环境900可以利用各种数据安全协议，诸如安全套接字层(SSL)或良好隐私(PGP)。每个客户端计算环境801、910、915、920、925、930和935可以配备有操作系统814，该操作系统814可操作以支持一个或多个计算应用或终端会话，诸如web浏览器(未示出)或其他图形用户界面(图中未示出)或移动桌面环境(未示出)，以获取对(多个)服务器计算环境905的访问。

(多个)服务器905可以被通信地耦合到其他计算环境(未示出)，并且接收有关参与用户的交互/资源网络的数据。在说明性操作中，用户(未示出)可以与在(多个)客户端计算环境上运行的计算应用交互，以获取期望数据和/或计算应用。数据和/或计算应用可以被存储在(多个)服务器计算环境905上，并且在示例性通信网络820上通过客户端计算环境801、910、915、920、925、930和935被传送到协作用户。参与用户(未示出)可以请求访问全部或部分容纳在(多个)服务器计算环境905上的特定数据和应用。这些数据可以在客户端计算环境801、910、915、920、925、930、935与(多个)服务器计算环境905之间被传送以用于处理和存储。(多个)服务器计算环境905可以托管用于数据和应用的生成、认证、加密和通信的计算应用、过程和小程序，并且可以与其他服务器计算环境(未示出)、第三方服务供应者(未示出)、网络附加存储装置(“NAS”)和存储区域网络(“SAN”)协作，以实现应用/数据交易。

示例条款

可以鉴于以下条款考虑本文中提出的公开内容。

示例条款A，一种用于增强的数据处理的系统，该系统包括：至少一个处理器、可操作以执行以读取和/或写入数据的至少一个线缓冲器、以及与至少一个处理器通信的至少一个存储器，至少一个存储器上存储有计算机可读指令，计算机可读指令在由至少一个处理器执行时使至少一个处理器：从神经网络环境的协作控制器组件接收一个或多个初始化参数，初始化参数包括代表要由神经网络环境处理的数据的维度的数据和代表数据的一个或多个行之间的一个或多个数据元素的一个或多个不连续性的数据，从神经网络环境的协作存储器组件加载数据，根据初始化参数来计算代表比特数的移位步幅，用以移位数据的一个或多个数据元素，从神经网络环境的协作控制器组件接收一个或多个指令，以将数据元素移位到经加载的数据中，以生成用于写入至少一个线缓冲器中的移位步幅移位的数据，以及将至少一个线缓冲器中的被写入的数据传送到神经网络环境的一个或多个处理组件以用于处理。

示例条款B，示例条款A的系统，其中移位步幅的应用导致至少一个线缓冲器中的线缓冲器数据的单周期处理。

示例条款C，示例条款A和B的系统，其中计算机可读指令还使至少一个处理器将由协作迭代器遍历的数据传送到线缓冲器。

示例条款D，示例条款A至C的系统，其中计算机可读指令还使至少一个处理器利用一个或多个滑动窗口来遍历数据，窗口可操作以选择数据卷的一个或多个数据元素作为被传送到一个或多个处理组件的一个或多个部分。

示例条款E，示例条款A至D的系统，其中计算机可读指令还使至少一个处理器使用跨越经加载的数据的数据维度边界的一个或多个滑动窗口来遍历经加载的数据。

示例条款F，示例条款A至E中的系统，其中计算机可读指令还使至少一个处理器将一个或多个数据填充插入到经加载的数据中。

示例条款G，示例条款A至F的系统，其中计算机可读指令还使一个或多个附加比特被一个或多个处理单元处理，以生成用于写入至少一个存储器中的输出数据并且在执行输出数据写入时丢弃经处理的一个或多个附加比特。

示例条款H，一种计算机实现的方法，包括：从神经网络环境的协作控制器组件接收一个或多个初始化参数，初始化参数包括代表要由神经网络环境处理的数据的维度的数据和代表数据的一个或多个行之间的一个或多个数据元素的一个或多个不连续性的数据；从神经网络环境的协作存储器组件加载数据；由神经网络环境的协作迭代器组件根据所选择的迭代操作迭代经加载的数据；根据初始化参数计算代表比特数的移位步幅，用以插入数据的一个或多个数据元素；从神经网络环境的协作控制器组件接收一个或多个指令；根据一个或多个初始化参数，将移位步幅应用于经加载的数据中，以生成有向线缓冲器数据并且将有向线缓冲器数据写入线缓冲器中；以及将线缓冲器中的被写入的数据传送到神经网络环境的一个或多个处理组件以用于处理。

示例条款I，示例条款H的计算机实现的方法，其中经加载的数据的一个或多个部分是不相等的部分。

示例条款J，示例条款H和I的计算机实现的方法，其中滑动窗口可操作以跨越数据的数据维度边界。

示例条款K，示例条款H至J的计算机实现的方法，还包括：将填充子卷插入到经加载的数据中，经加载的数据由从协作控制器组件接收到的一个或多个指令以及所接收的一个或多个初始化参数来定义。

示例条款L，示例条款H至K的计算机实现的方法，还包括：由一个或多个处理单元处理线缓冲器中的被写入的数据，以生成输出数据。

示例条款M，示例条款H至L的计算机实现的方法，还包括：由输出迭代器组件处理输出数据，以丢弃由于所计算的移位步幅的应用而被处理的附加比特。

示例条款N，示例条款H至M的计算机实现的方法，还包括：清除被写入的有向线缓冲器数据的线缓冲器，以接收附加有向线缓冲器数据以用于写入线缓冲器中。

示例条款O，示例条款H至N的计算机实现的方法，还包括：将有向线缓冲器数据写入线缓冲器中的所选择的数目的线中，其中线缓冲器的每条线与神经网络环境的协作处理单元相关联。

示例条款P，一种其上存储有计算机可执行指令的计算机可读存储介质，计算机可执行指令在由计算设备的一个或多个处理器执行时使计算设备的一个或多个处理器：从神经网络环境的协作控制器组件接收一个或多个初始化参数，初始化参数包括代表要由神经网络环境处理的数据的维数的数据和代表数据的一个或多个行之间的一个或多个数据元素的一个或多个不连续性的数据；从神经网络环境的协作存储器组件加载数据；由神经网络环境的协作迭代器组件根据所选择的迭代操作迭代经加载的数据；根据初始化参数，计算代表用于移位数据的一个或多个数据元素的比特数的移位步幅；从神经网络环境的协作控制器组件接收一个或多个指令，以将一个或多个比特插入到经加载的数据中，以生成有向线缓冲器数据并且将有向线缓冲器数据写入线缓冲器的一条或多条线中，其中线缓冲器的一条或多条线与神经网络环境的一个或多个处理组件相关联；以及将线缓冲器的一条或多条线中的被写入的数据传送到与线缓冲器的一条或多条线相关联的神经网络环境的一个或多个处理组件以用于处理。

示例条款Q，示例条款P的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器将附加数据卷插入经加载的数据。

示例条款R，示例条款P和Q的计算机可读存储介质，其中指令还引起计算设备的一个或多个处理器：由一个或多个处理单元处理被写入的数据以生成输出数据。

示例条款S，示例条款P至R的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器：由输出迭代器丢弃输出数据的一个或多个比特，被丢弃的比特表示在应用移位步幅时插入的一个或多个比特。

示例条款T，示例条款P至S的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器：利用经加载的数据的逻辑数据映射来遍历经加载的数据，经加载的数据的遍历包括将一个或多个滑动窗口应用于逻辑数据映射以将经加载的数据的部分与一个或多个物理存储器地址相关联。

示例条款U，示例条款P至T的计算机可读介质，其中存储器组件与物理传感器协作，物理传感器能够产生包括音频数据、视频数据、触觉感觉数据和其他数据在内的输入数据以用于随后由一个或多个协作处理单元处理。

示例条款V，示例条款P至U的计算机可读介质，其中协作处理单元与一个或多个输出物理组件电子地协作，一个或多个输出物理组件可操作以接收包括音频数据、视频数据、触觉数据和其他数据在内的经处理的输入数据以用于人类交互。

示例条款W，示例条款P至V的计算机可读介质，还包括：首先根据所计算的第一移位比特值来移位经加载的数据，并且然后根据另一移位比特值来移位经加载的数据。

结论

总之，尽管已经用特定于结构特征和/或方法动作的语言描述了各种技术，但是应当理解，所附表示中限定的主题内容不必限于所描述的特定特征或动作。而是，特定特征和动作被公开作为实现所要求保护的主题内容的示例形式。

Claims

1.一种用于减少神经网络环境中的功耗的系统，所述系统包括：

至少一个处理器；

至少一个线缓冲器，所述至少一个线缓冲器可操作以执行读取和/或写入数据；以及

与所述至少一个处理器通信的至少一个存储器，所述至少一个存储器上存储有计算机可读指令，所述计算机可读指令在由所述至少一个处理器执行时使所述至少一个处理器：

从所述神经网络环境的协作控制器组件接收一个或多个初始化参数，所述初始化参数包括代表要由所述神经网络环境处理的所述数据的维度的数据和代表所述数据的一个或多个行之间的一个或多个数据元素的一个或多个不连续性的数据；

从所述神经网络环境的协作存储器组件加载数据；

根据所述初始化参数计算代表比特数的移位步幅，用以移位所述数据的所述一个或多个数据元素；

从所述神经网络环境的所述协作控制器组件接收一个或多个指令，以将所述数据元素移位到经加载的所述数据中，以生成用于写入所述至少一个线缓冲器中的已移位移位步幅的数据；以及

将所述至少一个线缓冲器中的被写入的所述数据传送到所述神经网络环境的一个或多个处理组件以用于处理。

2.根据权利要求1所述的系统，其中所述移位步幅的应用导致所述至少一个线缓冲器中的线缓冲器数据的单周期处理。

3.根据权利要求1所述的系统，其中所述计算机可读指令还使所述至少一个处理器将由协作迭代器遍历的数据传送到所述线缓冲器。

4.根据权利要求3所述的系统，其中所述计算机可读指令还使所述至少一个处理器利用一个或多个滑动窗口来遍历所述数据，所述窗口操作以选择数据卷的一个或多个数据元素作为被传送到所述一个或多个处理组件的一个或多个部分。

5.根据权利要求4所述的系统，其中所述计算机可读指令还使所述至少一个处理器使用跨越经加载的所述数据的数据维度边界的一个或多个滑动窗口来遍历经加载的所述数据。

6.根据权利要求1所述的系统，其中所述计算机可读指令还使所述至少一个处理器将一个或多个数据填充插入到经加载的所述数据中。

7.根据权利要求1所述的系统，其中所述计算机可读指令还使一个或多个附加比特被所述一个或多个处理单元处理，以生成用于写入所述至少一个存储器中的输出数据并且在执行输出数据写入时丢弃被处理的所述一个或多个附加比特。

8.一种用于减少神经网络环境中的功耗的计算机实现的方法，包括：

从所述神经网络环境的协作控制器组件接收一个或多个初始化参数，所述初始化参数包括代表要由所述神经网络环境处理的数据的维度的数据和代表所述数据的一个或多个行之间的一个或多个数据元素的一个或多个不连续性的数据；

从所述神经网络环境的协作存储器组件加载数据；

由所述神经网络环境的协作迭代器组件根据所选择的迭代操作迭代经加载的所述数据；

根据所述初始化参数计算代表比特数的移位步幅，用以插入所述数据的一个或多个数据元素；

根据所述一个或多个初始化参数，从所述神经网络环境的所述协作控制器组件接收一个或多个指令，并且将所述移位步幅应用于经加载的所述数据中，以生成有向线缓冲器数据并且将所述有向线缓冲器数据写入线缓冲器中；以及

将所述线缓冲器中的被写入的数据传送到所述神经网络环境的一个或多个处理组件以用于处理。

9.根据权利要求8所述的计算机实现的方法，其中经加载的所述数据的一个或多个部分是不相等的部分。

10.根据权利要求8所述的计算机实现的方法，其中滑动窗口操作以跨越所述数据的数据维度边界。

11.根据权利要求8所述的计算机实现的方法，还包括：

将填充子卷插入到经加载的所述数据中，经加载的所述数据由从所述协作控制器组件接收到的所述一个或多个指令以及所接收的所述一个或多个初始化参数来定义。

12.根据权利要求8所述的计算机实现的方法，还包括：

由所述一个或多个处理单元处理所述线缓冲器中的被写入的所述数据，以生成输出数据。

13.根据权利要求12所述的计算机实现的方法，还包括：

由输出迭代器组件处理所述输出数据，以丢弃由于一个或多个移位步幅比特的插入而被处理的附加比特。

14.根据权利要求8所述的计算机实现的方法，还包括：

清除被写入的所述有向线缓冲器数据的所述线缓冲器，以接收附加的有向线缓冲器数据以用于写入所述线缓冲器中。

15.根据权利要求8所述的计算机实现的方法，还包括：将所述有向线缓冲器数据写入所述线缓冲器中的所选择的数目的线中，其中所述线缓冲器的每条线与所述神经网络环境的协作处理单元相关联。