CN110506260A

CN110506260A - 通过在神经网络环境的处理单元中利用已对齐的blob数据来最小化存储器读取并提高性能

Info

Publication number: CN110506260A
Application number: CN201880024892.5A
Authority: CN
Inventors: G·彼得; C·B·麦克布赖德; A·A·安巴德卡; K·D·塞多拉; B·博布罗夫; L·M·瓦尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-06
Publication date: 2019-11-26
Anticipated expiration: 2038-04-06
Also published as: US10540584B2; US11476869B2; CN110520853A; WO2018194994A2; KR20230152828A; US20180300613A1; CN110582785B; CN110678843B; CN110506260B; EP3612988A2; CN110546611A; CN110546654B; CN110520846B; CN116909985A; EP3612945A1; CN110520853B; US20200233820A1; US20180300604A1; WO2018194995A1; CN110546610B

Abstract

神经网络(NN)和/或深度神经网络(DNN)的性能可能会受到被执行的操作的数量以及NN/DNN的各种存储器组件之间的数据管理的限制。通过在输入数据中插入选择的填充以对齐存储器中的输入数据，数据读取/写入可以被优化以供NN/DNN处理，从而增强NN/DNN的整体性能。操作上，操作控制器/迭代器可以生成一个或多个指令，其将所选填充插入数据中。可以使用输入数据的各种特性以及NN/DNN以及协作存储器组件的特性来计算数据填充。输出数据上的填充可用于支持NN/DNN的存储器组件和协作处理单元处的数据对齐。

Description

通过在神经网络环境的处理单元中利用已对齐的BLOB数据来最小化存储器读取并提高性能

背景技术

在神经网络(NN)或深度神经网络(DNN)的示例性层上执行诸如卷积的一个或多个处理操作时，从存储器中读取数据会占用由NN/DNN消耗的大量时间和处理资源的花费。通常，NN/DNN的控制器组件的任务是执行迭代大量数据以便于应用特定操作所需的处理操作。通常，一些现有的NN和DNN在执行包括对NN/DNN的各种协作存储器组件(例如，行缓冲器)的存储器读和写的各种操作以及对层数据执行一种或多种操作以优化处理操作中，花费可避免的处理时间(例如，每秒浮点/定点操作(GFlops/s))和存储器空间(例如，每秒传送的字节数(GBytes/s))。

具体地，当前实践并未标识输入/数据的关键特征和/或未向NN或DNN的协作组件提供以下指令：关于如何最佳地管理/指导对协作NN或DNN存储器组件中的输入数据的读/写操作，以及利用存储器中的数据特征来避免性能问题。与NN或DNN中低效率的数据处理相关联的性能影响的部分原因是NN或DNN的神经处理组件之间的数据的低效处理。这种低效的数据管理和处理需要额外的、通常是可以避免的计算/神经处理器操作，这些操作会对整个NN/DNN性能产生负面影响。

更有利的NN/DNN将部署指令集合，该指令集合指导NN/DNN的协作控制器和处理组件，以基于指定的数据维度(例如数据的大小，如在逻辑数据模型中表示的数据的连续性等)来操作地在逻辑上映射输入数据，并在协作存储器组件中对齐逻辑映射的数据，这将在数据处理周期期间最小化对协作存储器组件的读取和写入次数。在操作上，新对齐的数据导致减少的存储器操作数目。存储器中数据的对齐可以使用各种数据填充技术来实现。

相对于这些考虑和其他考虑，提出了本文进行的公开。

发明内容

本文描述的技术提供了在示例性神经网络(NN)和/或深度神经网络(DNN)环境中使用的一个或多个硬件迭代器的虚拟化，其中用于对齐存储器组件中的数据的数据的物理填充允许数据的处理，该数据的处理提高整体性能并优化存储器管理。应当理解，本文描述的系统和方法适用于NN和/或DNN，并且因此，当提及NN时，其也应指DNN，反之亦然。

在示意性实现中，示例性DNN环境可以包括一个或多个处理块(例如计算机处理单元–CPU)、存储器控制器、行缓冲器、高带宽结构(例如本地或外部结构)(例如数据总线在示例性DNN模块和DNN环境的协作组件之间传递数据和/或数据元素)、操作控制器和DNN模块。在示意性实现中，示例性DNN模块可以包括示例性DNN状态控制器、描述符列表控制器(DLC)、dMA(DDMA)、DMA流激活(DSA)、操作控制器、加载控制器和存储控制器。

在示意性操作中，NN/DNN环境的操作控制器可以操作地处理大量数据，以便应用一个或多个所需的数据处理操作(例如卷积、最大池化、标量乘法/加法、求和、完全连接等)。在示意性操作中，参与的用户可以指定要处理的数据的维度，以及有关如何处理数据以供NN/DNN计算环境使用的配置。

在示意性实现中，由NN/DNN环境处理的数据可以表示为blob。通常，blob表示存储器中需要迭代的数据。每个blob可以维持由诸如宽度、高度、通道数、内核数和其他可用维度单位的各种维度来定义的逻辑映射形状。在示意性操作中，操作控制器可以遍历多维blob(例如由逻辑数据映射定义)或这种blob的较小N维切片，其中N是维数(例如对于表示具有宽度、高度和通道数的图像的3D blob-N＝3)(例如使用一个或多个硬件或虚拟迭代器)。遍历的blob可以用一个或多个指令被传送到协作行缓冲区，以管理行缓冲区中遍历数据的读/写。

作为说明，诸如硬件和/或虚拟化硬件迭代器的操作控制器和/或迭代器可以生成一个或多个指令，以将blob的物理填充包括在一个或多个协作存储器组件中，blob的物理填充导致存储器组件中的blob数据块的对齐。blob数据的对齐可以通过以下各项来实现：将所选择的大小的数据位插入到blob中，以便在处理周期期间读取存储器块时，该存储器块中的第一位将用于读取操作。在示例性实现中，对于示例性卷积层，可以用选择的数量的位填充输入数据的行，使得输入数据的填充宽度的大小可以是存储器块大小的倍数。

填充还可以在跨blob的其他维度上实现，包括blob内核。示意性地，对于内核的示例性卷积操作，可以用选择的数量的位来填充内核通道，使得内核的通道的第一值被映射到协作存储器组件的存储器块中的第一值。

应当理解，尽管相对于执行DNN层的卷积操作的系统进行了描述，但是本文描述的发明构思可以使用其他类型的DNN数据处理/管理操作来应用。此外，上述主题还可以被实现为计算机控制的装置、计算机过程、计算系统、或者诸如计算机可读介质和/或专用芯片组的制品。通过阅读以下具体实施方式并查看相关附图，这些和各种其他特征将变得显而易见。提供本发明内容以简化形式介绍概念的选择，这些概念将在下面的具体实施方式中进一步描述。

应当理解，所描述的主题可以被实现为计算机控制的装置、计算机过程、计算系统或诸如计算机可读存储介质的制品。除许多其他益处之外，本文的技术相对于广泛的计算资源改进了效率。例如具有选择的插入数据填充的输出blob可以减少执行诸如面部识别、对象识别、图像生成等的许多复杂任务所需的多个计算周期。此外，可以通过引入更准确、更快地完成此类任务来实现改进的人机交互。另外，具有选择的插入数据填充的输出blob的使用可以减少网络业务、降低功耗和存储器的使用。也可以从本文公开的技术的实现中实现除本文提及的那些以外的其他技术效果。

本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在将本发明内容用于限制所要求保护的主题的范围。此外，要求保护的主题不限于解决在本公开的任意部分中指出的任意或所有缺点的实现。

附图说明

参考附图描述具体实施方式。在附图中，附图标记的最左边的数字标识该附图标记首次出现的附图。不同附图中的相同附图标记表示相似或完全相同的项目。对多个项目中的单个项目的引用可以使用带有字母序列中的字母的附图标记来引用每个单个项目。对项目的通用引用可以使用不带字母序列的特定参考编号。

图1示出了根据本文所述的系统和方法的示例性神经网络计算环境的框图。

图2示出了利用有向行缓冲器的示例性神经网络环境的框图。

图3示出了根据本文描述的系统和方法的在示意性逻辑数据映射中表示的示例性输入数据的框图。

图4示出了在示意性逻辑数据映射中表示的示例性输入数据的框图，其示出了使用示意性n个滑动窗口来操作地跨越逻辑数据映射的一个或多个行。

图5示出了根据本文描述的系统和方法的在示意性逻辑数据映射中表示的示例性输入数据的框图，该框图示出了使用示意性n个滑动窗口来操作地跨越逻辑数据映射的一个或多个行，从而操作地允许数据填充作为处理增强。

图6示出了根据本文所述的系统和方法的在示意性逻辑数据映射中表示的示例性输入数据的框图，其示出了使用数据填充以允许最小化的存储器读取操作。

图7是根据本文所述的系统和方法的使用对齐的数据在示例性神经网络环境中的数据的处理的示意性过程的流程图。

图8示出了用于能够执行本文描述的方法的计算机的示意性计算机架构的附加细节。

图9示出了根据本文描述的系统和方法的示意性计算设备协作的其他细节。

具体实施方式

本文所述的以下具体实施方式技术提供了将在示例性神经网络(NN)和/或深度神经网络(DNN)环境中利用的一个或多个硬件迭代器的虚拟化，其中数据的物理填充以对齐存储器组件中的数据允许数据的处理，其改进整体性能并优化存储器管理。应当理解，本文描述的系统和方法适用于NN和/或DNN，并且因此，当参考NN时，其也应指DNN，反之亦然。

在示意性实现中，示例性DNN环境可以包括一个或多个处理块(例如计算机处理单元–CPU)、存储器控制器、行缓冲器、高带宽结构(例如本地或外部结构)(例如在示例性DNN模块和DNN环境的协作组件之间传递数据和/或数据元素的数据总线)、操作控制器和DNN模块。在示意性实现中，示例性DNN模块可以包括示例性DNN状态控制器、描述符列表控制器(DLC)、dMA(DDMA)、DMA流激活(DSA)、操作控制器、加载控制器和存储控制器。

在示意性操作中，NN/DNN环境的操作控制器可以可操作地处理大量数据，以便应用一个或多个所期望的数据处理操作(例如卷积、最大池化、标量乘法/加法、求和、完全连接等)。在示意性操作中，参与的用户可以指定要被处理的数据的维度、以及有关如何处理数据以供NN/DNN计算环境使用的配置。

在示意性实现中，要由NN/DNN环境处理的数据可以表示为blob。通常，blob表示存储器中需要被迭代的数据。每个blob可以维持由诸如宽度、高度、通道数、内核数和其他可用维度单位的各种维度定义的逻辑映射形状。在示意性操作中，操作控制器可以遍历多维blob(例如如逻辑数据映射所定义)或此类blob的较小N维切片，其中N是维数(例如对于表示具有宽度、高度和通道数的图像的3D blob-N＝3)(例如使用一个或多个硬件或虚拟迭代器)。遍历的blob可以通过一个或多个指令传送到协作行缓冲区，以管理行缓冲区中遍历数据的读/写。

示意性地，诸如硬件和/或虚拟化硬件迭代器的操作控制器和/或迭代器可以生成一个或多个指令，以将blob的物理填充包括在一个或多个协作存储器组件中，该物理填充导致存储器组件中的blob的数据块的对齐。blob数据的对齐可以通过将选择的大小的数据位插入到blob中来实现，以便在处理周期期间读取存储器块时，该存储器块中的第一位将用于读取操作。在示意性实现中，对于示例性卷积层，可以用所选择的数量的位来填充输入数据的行，使得输入数据的填充宽度的大小可以是存储器块大小的倍数。

填充也可以跨包括blob内核的blob的其他维度而被实现。示意性地，对于内核的示例性卷积操作，可以用选择的数量的位来填充内核通道，使得内核的通道的第一值被映射到协作存储器组件的存储器块中的第一值。

神经网络背景：

在人工神经网络中，神经元是用于对大脑中的生物神经元进行建模的基本单位。人工神经元的模型可以包括输入向量与添加到偏置的权重向量的内积，其中非线性被应用。比较而言，在示例性DNN模块(例如图1的105)中，神经元被紧密映射到人造神经元。

作为说明，可以将DNN模块视为超标量处理器。在操作上，它可以将一个或多个指令分派到称为神经元的多个执行单元。执行单元可以是“同时分派同时完成”，其中每个执行单元都与所有其他执行单元同步。DNN模块可以被分类为SIMD(单指令流、多数据流)架构。

转到图1的示例性DNN环境100，DNN模块105具有存储器子系统，存储器子系统具有唯一L1和L2高速缓存结构。这些不是传统的高速缓存，而是专门为神经处理而设计的。为了方便起见，这些高速缓存结构采用了反映其预期目的的名称。举例来说，L2高速缓存器150可以示意性地保持具有以选择的频率(例如每秒十六个千兆位(16GBps))操作的高速专用接口的选择的存储容量(例如一兆字节(1MB))。L1高速缓存可以保持选择的存储容量(例如可以在内核数据和激活数据之间分开的8KB(8KB))。L1高速缓存可以被称为行缓冲区，并且L2高速缓存可以被称为BaSRAM。

DNN模块可以是仅回忆神经网络，并且以编程方式支持多种网络结构。可以在服务器场或数据中心中离线进行网络培训。DNN模块不执行任意训练功能。训练的结果是可以称为权重或内核的参数集合。这些参数表示可以应用于输入的变换函数，其中结果是分类或语义标记的输出。

在示意性操作中，DNN模块可以接受平面数据作为输入。输入不仅限于图像数据，只要呈现的数据是统一的平面格式，DNN就可以对其进行操作。

DNN模块对与神经网络的层相对应的层描述符的列表进行操作。示意性地，DNN模块可以将层描述符列表视为指令。这些描述符可以从存储器中预取到DNN模块中，并且按顺序执行。

通常，可以存在两种主要类别的层描述符：1)存储器到存储器移动描述符，以及2)操作描述符。存储器到存储器移动描述符可用于将数据从本地高速缓存移至主存储器/从主存储器移至本地高速缓存，以供操作描述符使用。存储器到存储器移动描述符遵循与操作描述符不同的执行管道。存储器到存储器移动描述符的目标管道可以是内部DMA引擎，而操作描述符的目标管道可以是神经元处理元素。操作描述符能够执行许多不同的层操作。

DNN的输出也是数据的blob。可以选择将输出流式传输到本地高速缓存或流式传输到主存储器。DNN模块可以在软件将允许的范围内尽早预取数据。软件可以通过使用隔离和设置描述符之间的依赖关系来控制预取。在满足依赖关系之前，将阻止具有依赖关系集合的描述符前进。

现在转到图1，示例性神经网络环境100可以包括各种协作组件，包括DNN模块105、高速缓存存储器125或150、低带宽结构110、桥组件115、高带宽结构120、SOC 130、PCIE“端点”135、Tensilica节点140、存储器控制器145、LPDDR4存储器105和输入数据源102。此外，如图所示，DNN模块105还可以包括多个组件，包括预取105(A)、DMA 105(B)、寄存器接口105(D)、加载/存储单元105(C)、层控制器105(D)、保存/恢复组件105(E)和神经元105(F)。在操作上，示例性DNN环境100可以根据所选择的规范来处理数据，其中DNN模块执行本文所述的一个或多个功能。

图2示出了示例性神经网络环境200，该神经网络环境200可操作用于采用有向行缓冲器220作为数据处理的一部分。如图所示，示例性神经网络环境200(在本文中也被称为计算设备或计算设备环境)包括一个或多个操作控制器235，操作控制器235与行缓冲器220协作以提供一个或多个指令用于数据处理。行缓冲器220可以操作以通过外部结构230和结构215从协作的外部存储器组件225接收数据，以及可以操作以从迭代器240(例如基于硬件和/或虚拟化的迭代器)接收数据。在操作上，行缓冲器220可以根据从一个或多个操作控制器235(在本文中也称为“协作控制器组件235”)接收的一个或多个指令，将计算出的移位插入数据并将位移动的数据写入行缓冲器220。此外，行缓冲器220可以与处理单元(例如神经元)协作以提供写入的位移动的数据以用于进一步处理。神经网络环境结构215可以是能够传递各种数据的数据总线。定向行缓冲器可以被认为是能够根据一个或多个接收到的指令来读取和写入数据和/或数据元素的存储器组件。

在示意性操作中，示例性神经网络环境200可以根据图7中描述的过程来操作性地处理数据。特定于图2中描述的组件，这些组件仅是示意性的，作为本领域普通技术人员之一将会理解，图6和图7中所描述的处理将由除图2中所示的组件之外的其他组件执行。

同样，如图2所示，示例性神经网络环境可以可选地包括一个或多个迭代器(例如基于硬件和/或虚拟化的迭代器)(如虚线所示)，其可以示例性地操作以迭代输入数据(未示出)以供一个或多个神经元处理器205处理。本领域技术人员应理解，示例性一个或多个迭代器的这种可选包括仅是说明性的，因为本文公开的系统和方法描述的发明构思是可以在没有任意迭代器的情况下在运行的示例性神经网络环境200中进行操作。

图3示出了用于示例性输入数据的示例逻辑数据映射300。如图所示，数据305可以表示为具有一定维度340的数据(例如使得作为整体来看的数据维度可以定义数据量)，包括信道计数310、高度315和宽度320。根据本文描述的系统和方法，数据305可以被分成部分并且准备通过协作n个神经元330来进行处理，以便可以将第一部分a传送给第一神经元，将第二部分b传送给第二神经元，依此类推，直到n个部分被传送给n个神经元。

在示意性操作中，可以基于由示例性神经网络环境(例如图2的200)的协作控制器组件提供的一个或多个指令，使用n个滑动窗口/内核325确定数据305的部分。进一步如图所示，输入数据部分a、b、c和d可以使用由示例性神经网络环境(例如图2的200)的协作操作控制器组件(235)提供的一个或多个初始化参数来被寻址到物理存储器335。

图4示出了示例性输入数据(未示出)的示例性逻辑数据图400。示例性逻辑数据图400包括第一行410(用对角线标记示出)和第二行420(以虚线示出)。每个图行可以包括多个滑动窗口(例如第一行410的430、440和450，第二行420为460、470和480)。另外，如图所示，逻辑数据图400示出了滑动窗口跨越输入数据的数据维度边界(例如跨越第一行410和第二行420)的能力。这种能力允许提高性能，因为更多数据可以被更高效地准备用于由协作的神经网络处理组件(例如图2的205)进行后续处理。

图5与图4相似，并且被呈现以描述本文描述的系统和方法的能力，以允许使用填充来进一步增强示例性神经网络环境(例如，图1的100和图2的200)的性能特征。如图所示，(未示出的示例性输入数据的)逻辑数据图500可以包括跨越一行或多行(例如510和520)的各种滑动窗口(530、540、550、560、570和580)。另外，逻辑数据图500还可以包括填充580。

在示例性操作中，在示例性神经网络环境(图1的100或图2的200)的运行时，可以动态添加填充580。图2的操作控制器235可以指定输入数据(例如blob)的、在图3中所示的每个维度340上将使用的填充量(例如使得共同采取的维度可以被认为是数据量)，并且神经网络环境(例如迭代器控制器指令)可以操作地构造数据量，就好像填充物理存在于存储器中一样。默认值还可以由示例神经网络环境(例如迭代器控制器指令)在添加了填充的迭代器输出位置中生成。

图6是示例性存储器数据600的框图。如图6所示，存储器数据600可以包括具有不对齐的blob数据的示例性存储器布局605和具有利用数据填充的对齐的blob数据的示例性存储器布局625的框表示。如图所示，存储器布局605可以包括可以驻留在各种存储器行610、615和620上的各种存储器块675。示例性存储器块675可以具有选择的大小。在示例性实现中，如示例性存储器布局605中所示，每个存储器块集合以不同的灰色阴影表示。

类似地，存储器布局625可以包括可以驻留在各种存储器行630、635、640上的各种存储器块680。示例性存储器块680可以具有选择的大小。在示例性实现中，如示例性存储器布局625中所示，每个存储器块集合以不同的灰色阴影表示。

此外，如图6所示，示例性存储器布局625也可以包括具有填充值645、650、655和660的填充数据块。在示意性操作中，附加填充数据s的数据645、650、655和660可以用于对齐在存储器布局625中找到的数据元素，以使得该存储器块集合的读取可以包括给定的存储器块集合的所有数据元素。举例来说，如图6所示，看存储器布局605的第二行615，可以理解，需要三个不同的存储器读取来读取该行的数据元素。

具体地说，第一存储器块集合的数据元素的第一读取是以浅灰色被阴影显示，针对第二存储器块集合的第二读取是以深灰色被阴影显示，针对存储器块集合的第三读取由更深的灰色阴影指示。注意存储器布局625，在使用填充的数据元素645、650、655和660时，现在需要两次存储器读取以读取存储器布局625的第二行数据的数据元素。应当理解，布局605和625的可用数据元素是完全相同的，并且可用数据元素是能够被示例性神经网络环境处理的一个或多个数据元素。

图7是示意性过程700的流程图，该过程700利用填充的对齐输入数据来最小化NN/DNN环境中的存储器读取。如图所示，处理在框705处开始，在框705处，从神经网络计算环境的协作组件(例如操作控制器)接收一个或多个初始化参数，其中一个或多个初始化参数可以包括表示输入数据的维度的数据，然后，处理进行到框710，在框710处可以从操作控制器和/或迭代器接收一个或多个指令，该指令可以可操作地将选择的大小的数据填充插入到输入数据中。示意性地，输入数据可以表示由一个或多个处理层输出的数据，并且可以包括与一个或多个存储器组件的数据对齐。应当理解，在其中输入数据是处理层的输出的上下文中描述了该示意性处理，这种描述仅是示例性的，因为本文描述的发明构思考虑将填充插入到输入数据中，该填充不代表处理层的输出数据，使得输入数据不具有数据对齐。

然后，处理进行到框715，在框715处，将对齐的数据加载到协作存储器组件中，使得一个或多个存储器块的第一位用于存储器读取操作中。然后，在框720，将填充的数据传送到一个或多个协作处理单元以用于处理。此外，可以在框725处生成输出blob(例如逻辑数据映射)，其也可以包含针对输出数据而生成的选择的填充，以便于适应用于后续处理层的对齐的输入数据维度。

然后在框735执行检查以确定是否存在要处理的附加的输入数据(即，作为迭代操作的一部分)。如果不存在附加的输入数据，则处理在框740处终止。但是，如果附加的输入数据需要附加的迭代操作，则处理然后返回框705并从那里继续进行。

图8所示的计算机架构800包括中央处理单元802(“CPU”)，系统存储器804，该系统存储器804包括随机存取存储器806(“RAM”)和只读存储器(“ROM”)808，以及将存储器804耦合到CPU 802的系统总线810。基本输入/输出系统被存储在ROM 808中，基本输入/输出系统包含基本例程，该例程有助于诸如在启动期间在计算机架构800中的元件之间传递信息。计算机架构800还包括大容量存储设备812，用于存储操作系统814、其他数据以及一个或多个应用程序。

大容量存储设备812通过连接到总线810的大容量存储控制器(未示出)连接到CPU802。大容量存储设备812及其相关联的计算机可读介质为计算机架构800提供了非易失性存储。尽管本文包含的计算机可读介质的描述是指大容量存储设备，诸如固态驱动器、硬盘或CD-ROM驱动器，但本领域技术人员应理解，计算机可读介质介质可以是由计算机架构800访问的任意可用的计算机存储介质或通信介质。

通信介质包括计算机可读指令、数据结构、程序模块或诸如载波或其他传输机制的调制数据信号中的其他数据，并且包括任意传递介质。术语“调制数据信号”是指具有以将信息编码在信号中的方式来改变或设置其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、RF、红外和其他无线介质的无线介质。以上任意内容的组合也应包括在计算机可读介质的范围内。

作为示例而非限制，计算机存储介质可以包括以用于诸如计算机可读指令、数据结构、程序模块或其他数据的信息的存储的任意方法或技术实现的易失性和非易失性、可移除和不可移除介质。例如计算机介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储设备、盒式磁带、磁带、磁盘存储设备或其他磁性存储设备、或可用于存储所需信息并可由计算机架构800访问的任意其他介质。为了权利要求的目的，短语“计算机存储介质”、“计算机可读存储介质”及其变体本身并不包括波、信号和/或其他瞬时和/或无形通信介质。

根据各种技术，计算机架构800可以使用通过网络820和/或另一个网络(未示出)到远程计算机805的逻辑连接，在联网环境中操作。计算机架构800可以通过连接到总线810的网络接口单元816连接到网络820。应当理解，网络接口单元816也可以用于连接到其他类型的网络和远程计算机系统。计算机架构800还可以包括输入/输出控制器818，用于接收和处理来自多个其他设备的输入，多个其他设备包括物理传感器837，键盘，鼠标或电子笔(图8中未示出)。类似地，输入/输出控制器818可以将输出提供给显示屏，打印机或其他类型的输出设备(在图8中也未示出)。还应当理解，经由通过网络接口单元816到网络820的连接，计算架构可以使DNN模块105能够与计算环境100通信。

应当理解，本文描述的软件组件在被加载到CPU 802和/或DNN模块105中并执行时，可以将CPU 802和/或DNN模块105和整个计算机架构800从通用计算系统变换为被定制以促进本文介绍的功能的专用计算系统。CPU 802和/或DNN模块105可以由任意数量的晶体管或其他分立电路元件和/或芯片组构成，其可以单独或共同地假定任意数量的状态。更具体地说，响应于本文公开的软件模块中包含的可执行指令，CPU 802和/或DNN模块105可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU 802如何在状态之间转换来对CPU 802进行变换，从而对晶体管或构成CPU 802的其他分立的硬件元件进行变换。

对本文提出的软件模块进行编码还可以变换本文提出的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换可以取决于各种因素。这样的因素的示例可以包括但不限于用于实现计算机可读介质的技术、计算机可读介质被表征为主要存储装置还是辅助存储装置等。例如如果计算机可读介质被实现为基于半导体的存储器，则本文中公开的软件可以通过变换半导体存储器的物理状态而被编码在计算机可读介质上。例如软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这些组件的物理状态，以便在其上存储数据。

作为另一个示例，可以使用磁性或光学技术来实现本文公开的计算机可读介质。在这样的实现中，当软件在磁性或光学介质中被编码时，本文呈现的软件可以变换磁性或光学介质的物理状态。这些变换可以包括改变给定磁性介质内特定位置的磁性特征。这些变换还可以包括改变给定光学介质内特定位置的物理特征或特性，以改变那些位置的光学特性。在不脱离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，其中提供前述示例仅是为了促进该讨论。

鉴于以上内容，应当理解，在计算机架构800中发生了许多类型的物理变换，以便存储和执行本文呈现的软件组件。还应当理解，计算机架构800可以包括其他类型的计算设备，包括手持计算机、嵌入式计算机系统、个人数字助理以及本领域技术人员已知的其他类型的计算设备。还可以想到，计算机架构800可能不包括图8所示的所有组件，可能包括在图8中未明确示出的其他组件，或者可以利用与图8所示的架构完全不同的架构。

如上所述的计算系统800可以被部署为计算机网络的一部分。通常，以上对计算环境的描述应用于部署在网络环境中的服务器计算机和客户端计算机两者。

图9示出了示例性的示意联网计算环境900，其中服务器经由通信网络与客户端计算机进行通信，其中可以采用本文所述的装置和方法。如图9所示，服务器905可以经由通信网络820(其可以是固定有线或无线LAN、WAN、内联网、外联网、对等网络、虚拟专用网络、因特网、蓝牙通信网络、专有低压通信网络或其他通信网络中的任一个或组合)与许多客户端计算环境互连，诸如平板计算机910、移动电话915、电话920、个人计算机801、个人数字助理925、智能手机手表/个人目标跟踪器(例如Apple Watch、三星、FitBit等)930和智能电话935。在通信网络是因特网的网络环境中820，例如服务器905可以是专用计算环境服务器，其可操作用于处理并经由多种已知协议(诸如超文本传输协议(HTTP)，文件传输协议(FTP)，简单对象访问协议(SOAP)或无线应用程序协议(WAP)中的任何一种传送去往和来自客户端计算环境801、910、915、920、925、930和935的数据。另外，联网计算环境900可以利用各种数据安全协议，诸如安全套接字层(SSL)或相当好的保密性(PGP)。客户端计算环境801、910、915、920、925、930和935中的每一个可以配备操作系统814，其可操作用于支持一个或多个计算应用程序或终端会话，诸如Web浏览器(未显示)或其他图形用户界面(未示出)或移动桌面环境(未示出)以获得对服务器计算环境905的访问。

服务器905可以被通信地耦合到其他计算环境(未示出)，并接收有关参与用户的交互/资源网络的数据。在示意性操作中，用户(未示出)可以与在客户端计算环境上运行的计算应用进行交互以获得期望的数据和/或计算应用。数据和/或计算应用程序可以被存储在服务器计算环境905上，并在示例性通信网络820上通过客户端计算环境801、910、915、920、925、930和935传送给协作用户。参与用户(未示出)可以请求访问全部或部分容纳在服务器计算环境905上的特定数据和应用。这些数据可以在客户端计算环境801、910、915、920、925、930、935与服务器计算环境905之间被传送以用于处理和存储。服务器计算环境905可以托管用于数据和应用的生成、认证、加密以及通信的计算应用、过程和小应用程序，并且可以与其他服务器计算环境(未示出)、第三方服务提供商(未示出)网络附加存储(NAS)和存储区域网络(SAN)协作，以实现应用/数据交易。

示例条款

可以鉴于以下条款考虑本文提出的公开。

示例条款A，一种用于神经网络环境中的增强数据处理的系统，该系统包括至少一个处理器，与至少一个处理器通信的至少一个协作存储器组件，该至少一个协作存储器组件具有存储在其上的计算机可读指令，该计算机可读指令在由至少一个处理器执行时，使得至少一个处理器：从神经网络环境的协作控制器组件接收一个或多个初始化参数，该初始化参数包括表示将由神经网络环境处理的数据的维度的数据和表示要插入到数据中的选择的数据填充的大小的数据，选择的数据填充的大小被选择使得用于处理层的输入数据的宽度大小为至少一个存储器的存储器块大小的倍数，使用所插入的选择的数据填充生成对齐的输入数据集合，将对齐的数据集合加载到神经网络环境的至少一个协作存储器组件中，从神经网络环境的至少一个协作存储器组件中读取对齐的数据集合，并从所述至少一个存储器组件向所述神经网络环境的一个或多个处理组件传送对齐的数据集合以用于处理。

示例条款B，根据示例条款A所述的系统，还包括：从协作控制器组件接收一个或多个指令，以生成具有选择的插入数据填充的输出blob，该输出blob操作用于接收由神经网络环境的一个或多个处理组件处理的数据。

示例条款C，根据示例条款A和B所述的系统，其中计算机可读指令还使得至少一个处理器将由协作迭代器遍历的数据传送到至少一个协作存储器组件。

示例条款D，根据示例条款A至C所述的系统，其中计算机可读指令还使得至少一个处理器利用一个或多个滑动窗口遍历数据，该窗口操作用于选择数据量的一个或多个数据元素，作为被传送到一个或多个处理组件的一个或多个部分。

示例条款E，根据示例条款A至D所述的系统，其中计算机可读指令还使得至少一个处理器使用跨越加载数据的数据维度边界的一个或多个滑动窗口来遍历加载数据。

示例条款F，根据权利要求示例条款A至E所述的系统，其中所述计算机可读指令还使得所述至少一个处理器将一个或多个数据填充插入所述加载的数据中。

示例条款G，根据权利要求示例条款A至F所述的系统，其中计算机可读指令还使得协作迭代器生成具有选择的插入数据填充的输出blob。

示例条款H，一种计算机实现的方法，包括：从神经网络环境的协作控制器组件接收一个或多个初始化参数，所述初始化参数包括表示要由神经网络环境处理的数据的维度的数据，和表示要插入到所述输入数据中的选择的数据填充的所述大小的数据以及将选择的数据填充插入到所述输入数据中，选择的数据填充大小是被选择的选择的数据填充大小，使得用于处理层的输入数据的宽度大小是至少一个存储器的存储器块大小的倍数，使用所插入的选择的数据填充来生成对齐的输入数据集合，将对齐的数据集合加载到神经网络环境的至少一个协作存储器组件中，从神经网络环境的至少一个协作存储器组件中读取存储器块的第一位，并从至少一个存储器组件向神经网络环境的一个或多个处理组件传送对齐的数据集合以用于处理，并生成具有选择的插入数据填充的输出blob，其操作用于接收由神经网络环境中的一个或多个处理组件处理的数据。

示例条款I，根据示例条款H所述的计算机实现的方法，其中输入数据被存储在一个或多个存储行中的至少一个协作存储器组件中。

示例条款J，根据示例条款H和I所述的计算机实现的方法，其中滑动窗口操作用于跨越数据的数据维度边界。

示例条款K，根据示例条款H至J所述的计算机实现的方法，还包括：在由神经网络环境的一个或多个处理组件来处理对齐的输入数据时，选择要读取的至少一个存储器组件的存储器块的第一位。

示例条款L，根据示例条款H至K所述的计算机实现的方法，还包括：由迭代器处理输入数据的内核的一个或多个通道，以插入选择的数据填充以生成对齐的数据集合。

示例条款M，根据示例条款H至L所述的计算机实现的方法，还包括：通过迭代器来生成具有选择的数据填充的输出blob，该输出blob操作用于通过神经网络环境的一个或多个处理组件来接收处理的数据。

示例条款N，根据示例条款H至M所述的计算机实现的方法，进一步包括：迭代器对输入数据执行卷积运算。

示例条款O，根据示例条款H至N所述的计算机实现的方法，还包括将选择的数据填充大小计算为数据填充宽度大小，以用于插入到输入数据中，从而导致至少一个协作存储器组件的存储器块中每个存储器块行的最小读取次数。

示例条款P，一种计算机可读存储介质，具有在存储在其上的计算机可执行指令，该计算机可执行指令在由计算设备的一个或多个处理器执行时，使该计算设备的一个或多个处理器：从神经网络环境的协作控制器组件接收一个或多个初始化参数，所述初始化参数包括表示要由神经网络环境处理的数据的维度的数据，和表示要插入到输入数据中的选择的数据填充的大小的数据，选择的数据填充大小是选择的数据填充大小，选择的数据填充大小被选择以使得用于处理层的输入数据的宽度大小是至少一个存储器的存储器块大小的倍数，使用所插入的选择的数据填充来生成对齐的输入数据集合，并将对齐的数据集合加载到神经网络环境的至少一个协作存储器组件中，从神经网络环境的至少一个协作存储器组件中读取对齐的数据集合，并从至少一个存储器组件向神经网络环境的一个或多个处理组件传送对齐的数据集合以用于处理。

示例条款Q，根据示例条款P所述的计算机可读存储介质，其中指令还使得计算设备的一个或多个处理器生成其中具有选择的数据填充的输出blob。

示例条款R，根据示例条款P和Q所述的计算机可读存储介质，其中指令还使得计算设备的一个或多个处理器读取至少一个协作存储器组件的一个或多个存储器块的第一位表示对齐的数据集合。

示例条款S，根据示例条款P至R所述的计算机可读存储介质，其中指令还使得计算设备的一个或多个处理器将选择的数据填充大小计算为数据填充宽度大小，以用于插入到输入数据，导致至少一个协作存储器组件的存储器块中每个存储器块行的最小读取次数。

示例条款T，根据示例条款P至S所述的计算机可读存储介质，其中指令还使得计算设备的一个或多个处理器利用加载数据的逻辑数据映射遍历加载数据，加载数据的遍历包括：将一个或多个滑动窗口应用于逻辑数据映射，以将加载的数据的一部分与一个或多个物理存储器地址相关联。

示例条款U，根据示例条款P至T所述的计算机可读介质，其中至少一个协作存储器组件与物理传感器协作，物理传感器能够产生包括音频数据、视频数据、触觉感觉数据和其他数据的输入数据以用于由一个或多个协作处理单元进行后续处理。

示例条款V，根据示例条款P至U所述的计算机可读介质，其中一个或多个协作处理单元与一个或多个输出物理组件进行电子协作，所述输出物理组件操作用于接收处理的输入数据以用于人机交互，处理的输入数据包括音频数据、视频数据、触觉感觉数据和其他数据。

最后，尽管已经用特定于结构特征和/或方法动作的语言描述了各种技术，但是应该理解，所附表示中定义的主题不一定限于所描述的特定特征或动作。相反，将特定特征和动作公开为实现所要求保护的主题的示例形式。

Claims

1.一种用于神经网络环境中的增强数据处理的系统，所述系统包括：

至少一个处理器；以及

至少一个协作存储器组件，与所述至少一个处理器通信，所述至少一个协作存储器组件具有存储在其上的计算机可读指令，所述计算机可读指令在由所述至少一个处理器执行时，使得所述至少一个处理器：

从所述神经网络环境的协作控制器组件接收一个或多个初始化参数，所述初始化参数包括表示要由所述神经网络环境处理的数据的维度的数据和表示要插入到所述数据中的选择的数据填充的大小的数据，选择的数据填充大小被选择，使得用于处理层的输入数据的宽度大小为至少一个存储器的存储器块大小的倍数；

使用所插入的所述选择的数据填充来生成对齐的输入数据集合；

将对齐的数据集合加载到所述神经网络环境的所述至少一个协作存储器组件中；

从所述神经网络环境的所述至少一个协作存储器组件中读取所述对齐的数据集合；以及

从所述至少一个存储器组件向所述神经网络环境的所述一个或多个处理组件传送所述对齐的数据集合以用于处理。

2.根据权利要求1所述的系统，还包括：从所述协作控制器组件接收一个或多个指令，以生成具有选择的插入数据填充的输出blob，所述输出blob操作用于接收由所述神经网络环境的所述一个或多个处理组件处理的数据。

3.根据权利要求1所述的系统，其中所述计算机可读指令还使得所述至少一个处理器将由协作迭代器遍历的数据传送到所述至少一个协作存储器组件。

4.根据权利要求3所述的系统，其中所述计算机可读指令还使得所述至少一个处理器利用一个或多个滑动窗口遍历所述数据，所述窗口操作用于选择数据量的一个或多个数据元素，作为被传送到所述一个或多个处理组件的一个或多个部分。

5.根据权利要求4所述的系统，其中所述计算机可读指令还使得所述至少一个处理器使用跨越加载数据的数据维度边界的一个或多个滑动窗口来遍历所述加载数据。

6.根据权利要求5所述的系统，其中所述计算机可读指令还使得所述至少一个处理器将一个或多个数据填充插入所述加载数据中。

7.根据权利要求6所述的系统，其中所述计算机可读指令还使得所述协作迭代器生成具有选择的插入数据填充的输出blob。

8.一种计算机实现的方法，包括：

从神经网络环境的协作控制器组件接收一个或多个初始化参数，所述初始化参数包括表示要由所述神经网络环境处理的数据的维度的数据，和表示要插入到所述输入数据中的选择的数据填充的大小的数据，以及将所述选择的数据填充插入到所述输入数据中，所述选择的数据填充大小被选择，使得用于处理层的所述输入数据的所述宽度大小是所述至少一个存储器的存储器块大小的倍数；

将对齐的数据集合加载到所述神经网络环境的至少一个协作存储器组件中；

从所述神经网络环境的所述至少一个协作存储器组件中读取存储器块中的第一位；以及

从所述至少一个存储器组件向所述神经网络环境的所述一个或多个处理组件传送所述对齐的数据集合以用于处理；以及

生成具有选择的插入数据填充的输出blob，所述输出blob操作用于接收由所述神经网络环境中的所述一个或多个处理组件处理的数据。

9.根据权利要求8所述的计算机实现的方法，其中所述输入数据被存储在一个或多个存储器行中的所述至少一个协作存储器组件中。

10.根据权利要求8所述的计算机实现的方法，其中滑动窗口操作用于跨越所述数据的数据维度边界。

11.根据权利要求10所述的计算机实现的方法，还包括：

在由所述神经网络环境的所述一个或多个处理组件来处理所对齐的输入数据时，选择要读取的所述至少一个存储器组件的存储器块的所述第一位。

12.根据权利要求8所述的计算机实现的方法，还包括：

由迭代器处理所述输入数据的内核的一个或多个通道，以插入所述选择的数据填充以生成所述对齐的数据集合。

13.根据权利要求12所述的计算机实现的方法，还包括：

由迭代器生成具有所述选择的数据填充的输出blob，所述输出blob操作用于由所述神经网络环境的所述一个或多个处理组件接收处理的数据。

14.根据权利要求8所述的计算机实现的方法，还包括：

由所述迭代器对所述输入数据执行卷积运算。

15.根据权利要求8所述的计算机实现的方法，还包括：

将所述选择的数据填充大小计算为数据填充宽度大小，以用于插入到所述输入数据中，从而导致所述至少一个协作存储器组件的所述存储器块中每个存储器块行的最小读取次数。