CN110546610B

CN110546610B - 通过数据共享和分配增强人工智能/机器硬件的处理性能

Info

Publication number: CN110546610B
Application number: CN201880025126.0A
Authority: CN
Inventors: C·B·麦克布赖德; A·A·安巴德卡; K·D·塞多拉; B·博布罗夫; G·彼得; L·M·瓦尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-16
Publication date: 2023-02-10
Anticipated expiration: 2038-04-16
Also published as: CN110520846B; US11182667B2; US20180300607A1; CN110546654B; EP3612946B1; EP3612989B1; CN116909985A; US20210232904A1; CN110678843A; US11750212B2; WO2018194851A1; CN110520846A; WO2018194849A1; CL2019002864A1; WO2018194994A2; EP3612942A1; RU2019136750A3; WO2018194995A1; PH12019550191A1; US11030131B2

Abstract

具有与一个或多个存储器组件协作的示例性DNN模块的示例性人工智能/机器学习硬件计算环境可以执行数据共享和分发以及缓冲器数据的重用，以减少存储器组件读/写的数目，从而增强整体硬件性能并降低功耗。说明性地，根据示例性硬件的所选操作来读取来自协作存储器组件的数据，并将其写入对应的其他存储器组件以供一个或多个处理元件(例如，神经元)使用。以该方式读取数据，来优化每个处理周期的一个或多个处理元件的参与，以及重用先前存储在一个或多个协作存储器组件中的数据。可操作地，将写入的数据在被处理元件消费之前复制到阴影存储器缓冲器。

Description

通过数据共享和分配增强人工智能/机器硬件的处理性能

背景技术

通过示例性人工智能/机器学习硬件环境表达的深度神经网络(“DNN”)在经过生物神经系统(诸如人脑)中的信息处理和通信模式之后被松散地建模。DNN可以被用来解决复杂的分类问题，诸如但不限于对象检测、语义标记和特征提取。结果，DNN构成了许多人工智能(“AI”)应用的基础，诸如计算机视觉、语音识别和机器翻译。DNN可以在许多上述领域中匹配或超过人类的准确性。

DNN的高性能源于它们在使用大数据集上的统计学习来获得输入空间的有效表示之后，从输入数据中提取高级特征的能力。然而，DNN的优越性能是以高计算复杂性为代价的。高性能通用处理器，诸如图形处理单元(“GPU”)，通常用于提供许多DNN应用所需的高水平计算性能。

虽然如GPU一类的通用处理器可以为实现DNN提供高水平的计算性能，但是这些类型的处理器通常不适合用于在低功耗至关重要的计算设备中长时间执行DNN操作。例如，诸如GPU一类的通用处理器可能不适合用于在电池供电的便携式设备中执行长时间运行的DNN任务，如智能电话或替代现实/虚拟现实(“AR/VR”)设备，其中需要降低功耗以延长电池寿命。

在执行连续的DNN任务(诸如检测人体移动)的同时降低功耗在非电池供电设备中也可以是重要的，例如诸如通过以太网供电(“POE”)安全相机。在该具体示例中，POE交换机只能提供有限量的功率，而如安全相机等POE设备的功率降低可以导致POE交换机的更低的功耗和成本。

已经开发了专用集成电路(“ASIC”)，与通用处理器相比，其可以提供高性能DNN处理，同时降低了功耗。然而，尽管在该领域取得了进步，但仍然需要改进性能并降低执行DNN处理的ASIC的功耗，特别是用于低功耗至关重要的计算设备。

当前的实践提供了管理存储器和/或处理的各种机制，以确保请求用于示例性计算环境的共享资源的组件之间的平衡。利用当前的实践，这种存储器/处理器管理不足以优化在DNN模块的协作存储器元件之间执行的读/写操作的数目以及每个可用处理元件(诸如协作DNN芯片的神经元)的总体效用。此外，当前的实践集中于系统的整体处理/存储器管理，而不考虑人工智能/机器学习硬件组件的总体功耗和处理性能。

关于这些和其他技术挑战，本文所公开的内容被呈现。

发明内容

公开了一种表示为DNN模块的人工智能/机器学习硬件，其可以通过执行优化的数据共享和分发以及跨示例性环境的各种协作存储器组件的数据重用来增强模块的处理单元的处理性能，以及通过增强的存储器管理降低功耗。本文未具体提及的其他技术益处也可以通过所公开的主题内容的实现来实现。

为了实现上文简要提到的技术益处，说明性地，在具有DNN模块的示例性计算环境中，可以操作DNN模块以优化数据共享和分发以及跨一个或多个协作存储器组件(诸如示例性神经元缓冲器和/或线缓冲器)的数据重用。说明性地，可以测量性能的两个方面。第一组件(计算)可以根据多个单元来测量，包括但不限于每秒的浮点操作(例如，GFlops/s)和每秒的乘法加法(例如，GMAC/s)。第二组件(数据传输)可以通过每秒传输的字节数(例如GBytes/s)来测量。为了确保示例性DNN模块的最高性能，可以优化和平衡计算和数据传输速率两者。这种优化可以导致由本文所描述的示例性人工智能/机器学习硬件实现的整体处理性能的增强和总体降低的功耗。

在示例性DNN环境中的数据传输可以进一步分解为两种数据传输，诸如第一指令获取和第二算法数据传输。在说明性实现中，示例性NN环境算法可以依赖于一个或多个函数，该一个或多个函数可以被分解成若干不同矩阵操作，诸如卷积、反卷积、乘法、加法等，以从输入数据推断/学习一个或多个接下来的操作。说明性地，这种推断/学习可以基于表示为其他输入数据的某种其他上下文。这些操作中的许多操作本质上是并行的，并且可以利用在示例性DNN硬件中实现的同时处理。

为了在具有有限带宽使用的高吞吐量下实现这种并行处理，这里描述的系统和方法可以说明性地构造输入数据，以便由硬件中的示例性DNN环境进行处理，使得对于输入数据的每个所需使用，输入数据的同时和近期使用在不重新读取来自一个或多个协作存储器组件的相同输入数据的情况下发生。在说明性操作中，这里描述的系统和方法可以说明性地操作为数据缓冲器，该数据缓冲器可以在本地可操作地存储数据并且可以依赖于要处理的数据的时间和空间所在。

这里描述的系统和方法可操作地最小化从存储器的数据读取的数目，并且最大化在该数据离开DNN环境的协作存储器组件(诸如数据缓冲器)之前对该数据执行的操作的数目。可操作地，所需的公共数据可以分布在数据的许多消费者中间，诸如示例性DNN环境的神经元。这里描述的系统和方法还通过允许一个或多个维度中的数据共享/分发的可扩展性来解决诸如数据缓冲器的协作存储器组件的可扩展性，包括但不限于：1)跨越许多协作数据消费者(例如，神经元)和2)在可用于数据共享机会的时间窗口中。

可操作地，可以跨协作数据消费者共享数据，使得有足够的步骤时间来移除可能的数据取回未命中停顿(即，数据在协作存储器组件中不可用于供数据消费者消费)，从而消除了等待返回数据的数百个停顿周期。

在说明性实现中，由协作数据消费者执行的函数可以由示例性DNN模块的示例性操作控制器接收，作为处理示例性输入数据的一部分。可操作地，然后可以组织输入数据以减少来自一个或多个协作存储器组件的存储器读取的数目，以使(多个)给定操作完全执行到完成。

说明性地，由于多个处理操作共享相同的输入数据和/或输入数据的可变配置，因此可以减少带宽要求，因为存储器读取被优化。在说明性实现中，这里描述的系统和方法可以根据推送模型(例如，在被一个或多个协作消费者(例如，神经元)消费之前，数据被预先填充在协作存储器组件中的模型)，在跨一个或多个协作存储器组件存储的数据的多个副本上操作。说明性地，神经元存储缓冲器可操作，以在单个周期中重新配置从协作本地存储器读取的数据，使得从外部存储器读取的所有X个元素都被写入预期的存储器位置。在没有这种数据的即时(on-the-fly)重新配置的情况下，必须多次读取相同的数据，这需要附加的处理时间和增加的功耗。

在说明性实现中，可以利用神经元缓冲器，其以所选择的速率可操作地向一个或多个协作的神经元提供输入数据，该所选择的速率确保在处理周期期间一个或多个协作神经元的最大处理操作。神经元缓冲器的大小可以取决于神经元的数目、数据单元的大小以及数据快照表示的周期数。在说明性实现中，示例性神经元缓冲器可以包括四个存储器结构。可以为示例性操作数A分配这些存储器结构中的两个，并且可以为示例性操作数B分配两个示例性存储器结构。应当理解，尽管使用两个操作数描述了说明性实现，但是这里描述的发明构思考虑使用任何数目的操作数。在说明性实现中，每个操作数对可以包括主存储器和包括双缓冲器存储器组件的阴影存储器，其中阴影副本表示为处理而消费的当前数据，并且主副本表示用于消费的下一数据块。

在说明性实现中，主存储器缓冲器可以被部署为数据重新配置存储器和阴影缓冲器存储器，作为可以保持重新配置存储器的多个快照的示例性队列。通过示例，如果阴影缓冲器存储器配置具有队列大小＝1，则系统可以可操作地连续地从外部存储器读取数据并将其置于重新配置(主)存储器中。一旦主存储器被填满，主存储器元素就可以被复制到阴影存储器队列中的下一可用位置，主数据存储器元素也在复制后被擦除，使主存储器缓冲器可用于将新数据写入其中。

在说明性操作中，神经元缓冲器的行可以被映射到每个神经元。例如，行[0]可以表示神经元[0]的数据，行[1]可以表示神经元[1]的数据。神经元的数目可以称为N。此外，神经元缓冲器的列可以在时钟周期方面被映射到时间。例如，列[0]是协作神经元将在周期0中相对于驻留在示例性阴影缓冲器中的数据的最后副本处理的数据。被处理的周期数可以称为K。

在说明性操作中，输入数据可以从本地存储器读取并写入神经元缓冲器A和B操作数存储器中的任一个或两者，使得主缓冲器有足够的数据来可操作地使N个神经元忙于K个周期。说明性地，在对主缓冲器的最终写入时，可以将数据复制到阴影寄存器。执行复制到阴影的控制信息被包括在其他控制信息中，该其他控制信息定义了由协作存储器组件处理的读/写操作。

在说明性操作中，在发生复制到阴影之后的周期，神经元可以可操作地处理被复制到阴影副本的数据。可操作地，一个或多个协作神经元可以从操作数A缓冲器和操作数B缓冲器读取值。然后将这两个值相乘并添加到神经元中的示例性累加器组件。

如上文简要讨论的，假设DNN模块可以优化示例性神经网络环境的协作处理单元可用的带宽，则本文公开的技术的实现提供DNN模块的增强的处理性能和降低的功耗，通过所公开的技术的实现，也可以实现本文未具体标识的其他技术益处。

应当理解，上述主题内容可以被实现为计算机控制的装置，计算机实现的方法，计算设备，或者诸如计算机可读介质之类的制品。通过阅读以下详细描述和对相关联附图的回顾，这些和各种其他特征将是明显的。

提供本发明内容是为了以简化的形式介绍所公开技术的一些方面的简要描述，这些技术将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题内容的关键特征或必要特征，也不旨在将本发明内容用以限制所要求保护的主题内容的范围。此外，所要求保护的主题内容不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。

附图说明

图1是根据一个实施例的计算架构图，该计算架构图实现本文所公开的技术的各方面的DNN模块的配置和操作的各方面。

图2图示了根据本文描述的系统和方法的具有协作组件的示例性神经网络环境的框图。

图3图示了根据这里描述的系统和方法的说明性逻辑数据映射中表示的示例性输入数据的框图。

图4图示了在说明性逻辑数据映射中表示的示例性输入数据的框图，该说明性逻辑数据映射示出了使用说明性n个滑动窗口可操作以跨越说明性逻辑数据映射的一条或多条线。

图5图示了根据这里描述的系统和方法的在说明性逻辑数据映射中表示的示例性输入数据的框图，该说明性逻辑数据映射示出了使用说明性n个滑动窗口，其可操作以跨越说明性逻辑数据映射的一条或多条线，以允许数据填充作为处理增强。

图6是示出了示例性人工智能/机器学习硬件环境的各种组件的交互的框图，该环境可操作以利用缓冲器数据的重用来执行数据共享和分发。

图7是根据本文描述的系统和方法的用于根据示例性数据分发/共享/重用来处理数据的说明性过程的流程图。

图8是根据一个实施例的计算机架构图，其示出了用于计算设备的说明性计算机硬件和软件架构，该计算设备可以充当针对本文呈现的DNN模块的应用主机；以及

图9是图示了根据本文呈现的各种实施例的分布式计算环境的网络图，在该分布式计算环境中可以实现所公开的技术的各方面。

具体实施方式

以下详细描述涉及人工智能/机器学习硬件环境，诸如神经网络模块，其可以通过执行优化的数据共享和分发来增强模块的处理单元的处理性能，以及跨示例性环境的各种协作存储器组件重用数据，以及通过增强的存储器管理来降低功耗。

如上面简要讨论的，这里公开的技术的实现提供了DNN模块的增强的处理性能和降低的功耗，假设DNN模块可以优化示例性神经网络环境的协作处理单元可用的带宽。本文未具体提及的其他技术益处也可以通过所公开的主题内容的实现来实现。

为了实现上面简要提到的技术益处，说明性地，在具有DNN模块的示例性计算环境中，可以操作DNN模块以优化数据共享和分发以及跨一个或多个协作存储器组件(诸如示例性神经元缓冲器和/或线缓冲器)重用数据。说明性地，可以测量两个性能组件。第一组件(计算)可以用每秒浮点操作(例如GFlops/s)来测量。第二组件(数据传输)可以通过每秒传输的字节数(例如GBytes/s)来测量。为了确保示例性DNN模块的最高性能，可以优化和平衡计算和数据传输速率。

在示例性DNN环境中的数据传输可以进一步被分解为两种数据传输，诸如第一指令获取和第二算法数据传输。在说明性实现中，示例性NN环境算法可以依赖于一个或多个函数，其可以被分解成若干不同矩阵操作，诸如卷积，反卷积，乘法，加法等，以从输入数据推断/学习一个或多个接下来的操作。说明性地，这种推断/学习可以基于被表示为其他输入数据的某种其他上下文。这些操作中的许多操作本质上是并行的，并且可以利用在示例性DNN硬件中实现的同时处理。

为了在具有有限带宽使用的高吞吐量下实现这种并行处理，这里描述的系统和方法可以说明性地构造输入数据以供硬件中的示例性DNN环境处理，使得可以发生输入数据的同时和近期未来使用，而无需为每个输入数据的所需使用重新读取来自一个或多个协作存储器组件的相同输入数据。在说明性操作中，这里描述的系统和方法可以说明性地操作为数据缓冲器，该数据缓冲器可以在本地可操作地存储数据并且可以依赖于要处理的数据的时间和空间所在。

这里描述的系统和方法可操作地最小化从存储器的数据读取的数目，并在该数据离开诸如数据缓冲器的DNN环境的协作存储器组件之前最大化对该数据执行的操作的数目。可操作地，所需的公共数据可以分布在数据的许多消费者中间，诸如示例性DNN环境的神经元。本文描述的系统和方法还通过允许一个或多个维度中的数据共享/分发的可扩展性来解决诸如数据缓冲器的协作存储器组件的可扩展性，包括但不限于：1)跨越一个或多个协作数据消费者(例如，神经元)以及2)在可用于数据共享机会的时间窗口中。

可操作地，可以在协作数据消费者之间共享数据，使得有足够的步骤时间来移除可能的数据取回未命中停顿(即，数据在协作存储器组件中不可用于供数据消费者消费)，从而消除了等待返回数据的数百个停顿周期。

在说明性实现中，由协作数据消费者执行的函数可以由示例性DNN模块的示例性操作控制器接收，作为处理示例性输入数据的一部分。然后，可以可操作地组织输入数据以减少来自一个或多个协作存储器组件的存储器读取的数目，以使给定操作完全执行到完成。说明性地，由于多个处理操作共享相同的输入数据，因此可以减少带宽要求，因为优化了存储器读取。在说明性实现中，这里描述的系统和方法可以根据推送模型(例如，在被一个或多个协作消费者(例如，神经元)消费之前，数据被预先填充在协作存储器组件中的模型)对存储在一个或多个协作存储器组件上的数据的多个副本进行操作。说明性地，神经元存储器缓冲器可操作以在单个周期中重新配置从协作本地存储器读取的数据，使得从外部存储器读取的所有X个元素被写入预期存储器位置。如果没有这种数据的即时重新配置，则必须多次读取相同的数据倍数，这需要附加的处理时间和增加地功耗。

在说明性实现中，可以利用神经元缓冲器，其以所选择的速率可操作地向一个或多个协作神经元提供输入数据，其确保了在处理周期期间一个或多个协作神经元的最大处理操作。神经元缓冲器的大小可以取决于神经元的数目，数据单元的大小以及数据快照表示的周期数。

在说明性实现中，示例性神经元缓冲器可以包括四个存储器结构。可以为示例性操作数A分配这些存储器结构中的两个，并且可以为示例性操作数B分配两个示例性存储器结构。应当理解，尽管使用两个操作数描述了说明性实现，但是这里描述的发明构思考虑使用任何数目的操作数。在说明性实现中，每个操作数对可以包括主存储器和包括双缓冲器存储器组件的阴影存储器，其中，阴影副本表示用于处理所消费的当前数据，而主副本表示用于消费的下一数据块。

在说明性操作中，神经元缓冲器的行可以映射到每个神经元。例如，行[0]是神经元[0]的数据，行[1]是神经元[1]的数据。神经元的数目可以称为N。此外，神经元缓冲器的列可以在时钟周期方面被映射到时间。例如，列[0]是协作神经元将在周期0中相对于驻留在示例性阴影缓冲器中的数据的最后副本处理的数据。被处理的周期数可以称为K并且可操作地配置。

在说明性操作中，输入数据可以从本地存储器读取并写入神经元缓冲器A和B操作数存储器中的任一个或两者，使得主缓冲器具有足够的数据以使N个神经元保持忙碌K个周期。说明性地，在对主缓冲器的最终写入时，然后可以将数据复制到阴影寄存器。用于执行复制到阴影的控制信息被包括在其他控制信息中，该控制信息定义由协作存储器组件处理的读/写操作。

在说明性操作中，在发生复制到阴影之后的周期，神经元可以可操作地处理被复制到阴影副本的数据。说明性地，阴影副本存储器缓冲器可以具有与主存储器缓冲器相同的大小，或者是主存储器缓冲器的大小的倍数，以便作为队列操作以在任何给定时间保持主存储器数据的N个副本。可操作地，一个或多个协作神经元可以从操作数A缓冲器和操作数B缓冲器读取值。然后将这两个值相乘并添加到神经元中的示例性累加器组件。

在说明性实现中，主存储器缓冲器可以被部署为数据重新配置存储器和阴影缓冲器存储器，作为可以保持重新配置存储器的多个快照的示例性队列。通过示例，如果阴影缓冲器存储器配置具有队列大小＝1，则系统可以可操作地连续地从外部存储器读取数据并将其置于重新配置(主)存储器中。在填充主内存后，就可以将主存储器元素复制到阴影存储器队列中的下一可用位置，在复制后也会擦除主数据存储器元素，使主存储器缓冲器可用于将新数据写入其中。

尽管在硬件DNN模块的一般上下文中呈现了本文描述的主题内容，但是本领域技术人员将认识到，可以结合其他类型的计算系统和模块来执行其他实现，包括各种人工智能和/或机器学习硬件组件。本领域技术人员还将理解，本文描述的主题内容可以用其他计算机系统配置来实践，包括手持式设备，多处理器系统，基于微处理器或可编程的消费电子产品，嵌入式设备中的计算或处理系统(诸如可穿戴计算设备，汽车，家庭自动化等)，小型计算机，大型计算机等。

在以下详细描述中，参考形成其一部分的附图，并且这些附图通过图示的具体配置或示例被示出。现在参考附图，其中相同的附图标记在若干附图中表示相同的元件，将描述具有增强的处理并通过协作的结构接口的带宽控制利用较少功率的示例性DNN模块的各方面。

图1是根据一个实施例的计算架构图，其示出实现本文公开的技术的深度神经网络(“DNN”)模块105的配置和操作的各方面。这里公开的DNN模块105在一些实施例中被配置为解决分类问题(和相关问题)，诸如但不限于对象检测、语义标记和特征提取。

为了提供该功能性，DNN模块105可以实现仅召回神经网络并且以编程方式支持各种网络结构。针对由DNN模块105实现的网络的训练可以在服务器群、数据中心或另一合适的计算环境中离线执行。训练DNN的结果是一组参数，其可以称为“权重”或“内核”。这些参数表示可以被应用于输入的变换函数，其结果是分类或语义标记的输出。

这里公开的DNN模块105可以被认为是超标量处理器。DNN模块105可以将一个或多个指令调度(dispatch)给多个执行单元，称为神经元105F。执行单元可以是“同时调度同时完成”，其中每个执行单元与每个其他执行单元同步。DNN模块105可以被分类为单个指令流，多数据流(“SIMD”)架构。

DNN模块105包括多个神经元105F(例如，2的幂)。神经元105F是人工神经网络中的基本单元，其被用于模拟大脑中的生物神经元。神经元105F的模型可以包括输入向量的内积，其中权重向量被添加到偏置，并且应用了激活函数。由本文描述的DNN模块105中的神经元105F执行的处理被紧密地映射到人工神经元。

DNN模块105中的每个神经元105F能够执行加权和，最大池化，旁路以及潜在的其他类型的操作。神经元105F在每个时钟周期处理输入和权重数据。就内核内的进展而言，每个神经元105F与所有其他神经元105F同步，以最小化DNN模块105内的内核数据流。

每个神经元105F可以包含乘法器，加法器，比较器和多个累加器(图1中未示出)。通过具有多个累加器，神经元105F能够一次维持针对多个不同活动内核的上下文。每个累加器能够从BaSRAM150的读取被加载(下面描述)。累加器可以将其自身与来自其他神经元105F的其他累加器的内容求和。

DNN模块105接受平面数据作为输入，诸如图像数据。然而，DNN模块105的输入不限于图像数据。而是，DNN模块105可以按照均匀平面格式对呈现给DNN模块105的任何输入数据进行操作。在一个特定实施例中，DNN模块105可以接受多平面单字节或双字节数据帧作为输入。

每个输入帧可以与NxKxHxW内核集合进行卷积，其中N是内核的数目，K是每个内核的通道数，H是高度，并且W是宽度。在输入数据上的重叠间隔上执行卷积，其中间隔由X和Y方向上的步幅限定。这些函数由神经元105F执行，并由DNN模块105和软件可视控制寄存器管理。

DNN模块105支持三种主要数据类型：权重；输入数据/特征映射；和激活数据。在大多数情况下，输入数据/特征映射和激活数据是相同数据的两个名称，区别在于当引用层的输出时使用术语激活数据。当引用层的输入时，使用术语输入数据/特征映射。

DNN模块105中的神经元105F计算其输入的加权和并通过“激活函数”或“传递函数”传递加权和。传递函数通常具有S形形状，但也可以采用分段线性函数、阶梯函数或另一类型函数的形式。激活函数允许神经元105F训练到输入和期望输出的更大集合，其中分类边界是非线性的。

DNN模块105对层描述符列表进行操作，层列描述符对应于神经网络的层。层描述符列表可以由DNN模块105处理为指令。这些描述符可以从存储器被预取到DNN模块105中并按顺序执行。描述符列表用作DNN模块105的一组指令。可以在DNN模块105外部的设备上执行软件工具和/或编译器，以创建在DNN模块105上执行的描述符列表。

通常，可以有两类主要的描述符：存储器到存储器移动(“M2M”)描述符；以及操作描述符。M2M描述符可以被用来将数据移入/移出主存储器到/来自本地缓冲器(即下面描述的线缓冲器125)，以供操作描述符消费。M2M描述符遵循与操作描述符不同的执行管道。用于M2M描述符的目标流水线可以是内部DMA引擎105B或配置寄存器105G，而用于操作描述符的目标流水线可以是神经元105F。

操作描述符指定神经元105F应该对位于本地静态随机存取存储器(“SRAM”)存储器中的数据结构执行的特定操作。操作描述符按顺序处理并且能够进行许多不同的层操作，其中至少一些在此描述。

如图1所示，DNN模块105具有存储器子系统，其具有唯一L1和L2缓冲结构。图1中所示的L1和L2缓冲器被设计专门用于神经网络处理。通过示例，L2缓冲器150可以保持所选择的存储容量。L1缓冲器125可以保持可以在内核和激活数据之间分配的所选存储容量。L1缓冲器125在这里可以称为“线缓冲器125”，并且L2缓冲器150在这里可以称为BaSRAM150。

在一些实施例中，计算数据(即输入数据，权重和激活数据)被存储在BaSRAM150行-主(row-major)中。计算数据可以被组织为两个线缓冲器，其中一个线缓冲器包含输入数据，其在本文中可以称为“输入缓冲器”，而另一个线缓冲器包含内核权重，其在本文中可以称为“权重缓冲器”。通过加载/存储单元105C从BaSRAM150填充线缓冲器。数据在每个线缓冲器中累积，直到达到其预定容量。然后，在一些实施例中将线缓冲器数据复制到阴影缓冲器并呈现给神经元105F。

DNN模块105还可以包括许多其他组件，包括但不限于寄存器接口105G，预取单元105A，保存/恢复单元105E，层控制器105D和寄存器接口105G。在一些实施例中，DNN模块105可以包括附加或替代组件。

在一些配置中，DNN模块105与其他外部计算组件一起操作。例如，在一些实施例中，DNN模块105被连接到主机应用处理器片上系统(“主机SoC”)130。例如，DNN模块105可以通过PCIe接口被连接到主机SoC130。可以利用适当的PCIe组件(诸如PCIe端点135)来实现这些连接。

主机SoC130用作DNN模块105的应用处理器。主操作系统、应用和辅助传感器处理由主机SoC130执行。主机SoC130还可以被连接到输入数据源102，诸如外部相机，其向DNN模块105提供输入数据，诸如图像数据。

DDR DRAM155还可以被连接到可以用作主系统存储器的主机SoC130。该存储器可跨高速带宽结构120(例如PCIe总线)从主机SoC130通过存储器控制器145访问。高带宽结构120提供双向直接存储器访问(“DMA”)小消息传递事务和更大的DMA事务。桥接器115和低带宽结构110可以将DNN模块105连接到主机SoC130，以用于子模块配置和其他函数。

DNN模块105可以包括DMA引擎105B，其被配置为将数据移入和移出主存储器155。在一些实施例中，DMA引擎105B具有两个通道。一个通道专用于获取操作描述符，而另一个通道专用于M2M操作。DMA描述符可以被嵌入M2M描述符中。该上下文中的描述符是用于移动存储器内容的DMA描述符，而不与上述操作描述符混淆。

为了卸载本地BaSRAM存储器150，并为输入数据和权重数据提供更多空间，激活输出可以可选地直接被流传输到DDR存储器155。当将数据流传输到DDR存储器155时，DNN模块105将为高带宽结构120上的突发事务累积足够的数据，并将缓冲足够的事务以最小化神经元105F上的背压。下面将提供关于DNN模块105的操作的附加细节。

图2图示了可操作以采用定向线缓冲器220作为数据处理的一部分的示例性神经网络环境200。如图所示，示例性神经网络环境200(这里也称为计算设备或计算设备环境)包括一个或多个操作控制器235，其与线缓冲器220协作以提供用于数据处理的一个或多个指令。

线缓冲器220可以操作以通过外部结构230和结构215从协作外部存储器组件225接收数据，以及操作以从(多个)迭代器240(例如，基于硬件和/或虚拟化迭代器)接收一个或多个指令/命令(例如，用于从协作存储器组件读取数据的指令/命令和/或用于写入从线缓冲器中的协作存储器组件加载的数据的指令)。此外，如图2所示，示例性神经网络环境还可以包括直接存储器访问模块(DMA)模块240和数据链路控制(DLC)模块245。

可操作地，线缓冲器220可以根据从一个或多个操作控制器235(这里也称为“协作控制器组件235”)接收的一个或多个指令根据选择的步幅宽度移位数据。此外，线缓冲器220可以与(多个)处理单元(例如，(多个)神经元)协作以提供写入的位移位数据，以便通过结构215直接或间接地进行进一步处理。神经网络环境结构可以是能够传递各种数据的数据总线。定向线缓冲器可以被认为是能够根据一个或多个接收的指令读取和写入数据和/或数据元素的存储器组件。

可操作DMA模块240可以与DLC模块245协作以提供指令来节流调节外部结构，以处理去往/来自外部存储器225和存储器210的数据。在说明性操作中，DMA模块240可以提供一个或多个指令以根据所选择的节流协议来节流调节跨外部存储器225和/或存储器210的数据处理，所选择的节流协议包括但不限于在去往和/或来自一个或多个协作存储器组件(例如，210和225)的经处理的存储器元件之间插入间隙，并且限制对从一个或多个协作存储器组件(例如，210和225)存储/取回的数据执行的事务的数目。其他节流技术可以包括在给定处理周期期间限制一个或多个处理单元205的操作。说明性地，DMA模块240可以在驻留在一个或多个协作存储器组件210和225中的一个或多个可配置寄存器(未示出)上操作。

在说明性操作中，示例性神经网络环境200可以根据图7中描述的过程可操作地处理数据。具体到图2中描述的组件，这些组件仅仅是说明性的，因为本领域普通技术人员将理解图6和图7中描述的处理也由除图2中所示的组件之外的其他组件执行。

而且，如图2所示，示例性神经网络环境可以可选地包括一个或多个迭代器(例如，基于硬件和/或虚拟化的迭代器)(如虚线所示)，其可以说明性地操作以迭代输入数据(未示出)用于由另外一个神经元处理器205处理。本领域技术人员可以理解，示例性一个或多个迭代器的这种可选包含仅仅是说明性的，因为本文公开的系统和方法描述的发明构思在没有任何迭代器的情况下操作的示例性神经网络环境200中可操作。

图3图示了用于示例性输入数据的示例逻辑数据映射300。如图所示，数据305可以表示为具有特定维度340的数据(例如，使得整个数据维度可以定义数据卷(volume))，该维度340包括通道计数310、高度315和宽度320。根据这里描述的系统和方法，数据305可以被分配和准备用于通过协作n个神经元330进行处理，使得第一部分a可以被传送到第一神经元，第二部分b可以被传送到第二神经元等等，直到n个部分被传送到n个神经元。

在说明性操作中，基于由示例性神经网络环境(例如，图2的200)的协作控制器组件提供的一个或多个指令，可以使用n个滑动窗口/内核325来确定数据305的部分。此外，如图所示，输入数据部分a，b，c和d可以使用由示例性神经网络环境(例如，图2中的200)的协作操作控制器组件(235)提供的一个或多个初始化参数被寻址到物理存储器325。

图4图示了示例性输入数据(未示出)的示例性逻辑数据映射400。示例性逻辑数据映射400包括第一线410(用对角线标记图示)和第二线420(由虚线图示)。每条映射线可以包括多个滑动窗口(例如，第一线410的430，440和450以及第二线420的460，470和480)。另外，如图所示，逻辑数据映射400示出了滑动窗口跨越输入数据的数据维度边界(例如，跨越第一线410和第二线420)的能力。这种能力允许提高的性能，因为可以更有效地准备更多数据，以便由协作神经网络处理组件(例如，图2的205)进行后续处理。

图5类似于图4，并且被呈现以描述这里描述的系统和方法的能力，以允许使用填充来进一步增强示例性神经网络环境(例如，图1中的100和图2中的200)的性能特征。如图所示，逻辑数据映射500(未示出其示例性输入数据)可以包括跨越一条或多条线(例如，510和520)的各种滑动窗口(530，540，550，560，570和580)。另外，逻辑数据映射500还可以包括填充580。

在说明性操作中，在示例性神经网络环境(图1的100或图2的200)的运行时，可以动态地添加填充580。图2的操作控制器235可以指定在输入数据(例如，二进制大对象(blob))的图3中所示的每个维度340上使用的填充量(例如，使得共同采用的维度可以被认为是数据卷)，并且神经网络环境(例如，迭代器控制器指令)可以可操作地构造数据卷，就像填充物理上存在于存储器中一样。还可以通过添加填充的迭代器输出位置中的示例性神经网络环境(例如，迭代器控制器指令)来生成默认值。

这里公开的技术的特定实现是取决于计算设备的性能和其他要求的选择问题。因此，这里描述的逻辑操作被不同地称为状态，操作，结构设备，动作或模块。这些状态，操作，结构设备，动作和模块可以用硬件，软件，固件，专用数字逻辑及其任何组合来实现。应当理解，可以执行比图中所示以及在此描述的更多或更少的操作。这些操作也可以以与这里描述的顺序不同的顺序执行。

图6是示出了示例性计算环境600(例如，表示为说明性DNN计算环境的人工智能/机器学习硬件环境)的各种组件的交互的示意图，示例性计算环境600可操作以执行数据分发/共享以及缓冲器重用，以增强整体处理性能以及降低示例性计算环境600的功耗。如图所示，示例性计算环境协作本地存储器组件605，神经元缓冲器610以及神经元635(例如，示例性协作一个或多个处理单元)。此外，如图6所示，神经元缓冲器610可以包括协作的主神经元缓冲器操作数A存储器组件615，协作的阴影神经元缓冲器操作数A存储器组件620，协作的主神经元缓冲器操作数B存储器组件630和协作阴影神经元缓冲器操作数B存储器组件625。说明性地，阴影神经元缓冲器可以被实现为阴影存储器组件的队列。

在说明性实现中，神经元缓冲器610可以被用于以保持所有神经元在每个周期忙碌的速率向神经元635提供输入。说明性地，神经元缓冲器510的大小可以取决于神经元635的数目，数据单元的大小(例如，一个或两个字节-未示出)，以及每个神经元预加载的值的数目，这可以相当于神经元可以对输入数据执行的计算周期数。

在说明性实现中，神经元缓冲器610可以包括四个存储器结构：协作的主神经元缓冲器操作数A存储器组件615，协作的阴影神经元缓冲器操作数A存储器组件620，协作的主神经元缓冲器操作数B存储器组件630，以及协作的阴影神经元缓冲器操作数B存储器组件625。在说明性实现中，可以为操作数A分配这些存储器结构中的两个，并且可以为操作数B分配其中两个。

本领域普通技术人员应理解，在一些实现中，本文公开的技术使用两个操作数，但是也可以使用任何数目的操作数以及各种数据单元大小(即，可以使用任何数据单元大小)。说明性地，每个操作数对可以包括主存储器和阴影存储器。可操作地，这些存储器对可以是双缓冲器，其中写入数据的阴影副本可以存储当前数据以供神经元635消费，并且写入主神经元缓冲器操作数存储器组件中的数据是要复制到阴影副本以供神经元635消费的下一数据。此外，应当理解，可以仅使用主存储缓冲器来部署本文描述的发明构思，而无需将数据复制到阴影存储缓冲器。在这种情况下，说明性地，计算环境的控制逻辑将确保神经元将具有用于从主存储缓冲器处理的相干数据。

在说明性操作中，神经元缓冲器610的行可以被映射到每个神经元635。通过示例，例如，行[0]可以表示神经元[0]的数据，并且行[1]可以表示神经元[1]的数据。在该示例中，神经元的数目可以由变量N表示。说明性地，神经元缓冲器610的列可以在时钟周期方面被映射到时间。例如，列[0]可以表示神经元635可以在周期0中相对于存储在协作阴影神经元缓冲器存储器组件(例如，620或625)中的数据的最后副本处理的数据。在该示例中，处理示例性输入数据所需的周期数可以用变量K表示。

因此，在说明性操作中，可以从协作的本地存储器组件605读取示例性输入数据640，并将其写入神经元缓冲器操作数存储器组件615或630中的任一个或两者。在说明性操作中，可以重复这样的数据读取，直到主缓冲器615和630具有足够的数据以使N个神经元忙于K个周期。可操作地，在最终写入主缓冲器615和630时，可以将输入数据复制到协作的阴影神经元缓冲器操作数存储器组件620和630。执行“复制到阴影”的控制信息可以被包括在定义读/写操作的其他控制信息中。

示例性神经元635可以在复制到阴影发生之后的周期中开始对阴影复制中的数据进行操作。在说明性操作中，一个或多个神经元635可以从协作神经元缓冲器操作数A存储器组件615和协作神经元缓冲器操作数B存储器组件630读取值。在示例性操作中，然后可以将两个读取值相乘并将其添加到一个或多个神经元635中的累加器(未示出)。

在说明性操作中，可以存在许多神经元缓冲器控制参数，其可以影响将数据写入主神经元缓冲器操作数存储器组件615和630。这些参数可以包括但不限于：数据块(DataBlock)—这可以是三十二(32)个字节的数据，该数据可以从协作的本地存储器组件605(例如1MB存储器)读取并且可以写入神经元缓冲器610；开始(Start)—输入块中的开始位置，从该位置开始读取数据；结束(End)—输入块中的结束位置，用于读取数据到该结束位置；列偏移(Column Offset)—每个神经元缓冲器条目中首先写入数据的列；线偏移(Line Offset)—可以写入第一个完整写入宽度的神经元缓冲器条目；最小线偏移(Minimum Line Offset)—可以写入数据的最小神经元缓冲器条目；最大线偏移(MaximumLine Offset)—可以写入数据的最大神经元缓冲器条目；宽度(Width)—可以写入神经元缓冲器条目的字值总数；步幅(Stride)—更新每个神经元缓冲器条目后可以被用于移位数据块的步幅；步幅余数(Stride Remainder)—在最后一次数据写入一个或多个神经元期间可能错过的完整步幅的值的数目；步幅重复(Stride Repeat)—在递增之前指定步幅的行数；以及步幅复位(Stride Reset)—指定一个或多个神经元中的修改常量选择值。另外，在说明性操作中，可以存在影响参数范围的许多参数约束。

如图6所示，可以从本地存储器组件605读取数据并将其写入神经元缓冲器610。对缓冲器610的写入可以在单个时钟周期中发生。写入可以由这里描述的的参数限制，使得仅可以更新期望窗口中的单元。所有其他单元格可以保留其先前的值。在期望窗口内的一些单元也可以取决于步幅而保留其先前的值。

缓冲线(buffer-line)写入背后的基本前提是缓冲器中的所有行可以同时(即，相同的时钟周期)被写入，使得每行可以利用相同的数据，并且每行可以利用不同的移位值，这取决于这里描述的参数。如图6所示，数据输入块640可以包括多个单元645。如图所示，输入数据640可以被写入神经元缓冲器610，使得行1-行5全部接收数据“76543”。如图所示，行1可以将数据左移一个周期，因为它比线偏移(LineOffset)设置小1。行2可以操作为不移位数据，因为它与线偏移设置对齐。行5可以将数据右移3个单元，因为行5比线偏移高3条线。对于此示例，步幅值可以被设置为值1。备选地，如果步幅值被设置为2，则行1将数据左移2个单元，依此类推其他步幅值。

在说明性实现中，可以根据多个等式来表达行移位操作，包括但不限于：

a[N]＝(neuronIndex-lineOffset)>>strideRepeat；

a[n]＝(strideReset！＝0)？a[n]&((1<<strideReset)-1)：a[n]；以及

Shift[N]＝(a[N]*stride)+strideRemainder余+(开始start-列偏移columnOffset)。

在说明性实现中，神经元缓冲器中的N条线中的每一条可以接收与输入相同的M字节数据。说明性地，每行(n)可以移位输入数据以使其进入正确的位置。例如，如果等式中的stride被设置为值0，则每个行将具有相同的数据。然而，在此示例中，如果将stride设置为值1，则数据可以向右移位一。以这种方式，神经元缓冲器610可以有效地分发数据以用于重叠消费。

神经元缓冲器的列可以表示消费数据的周期。如图6所示，由于神经元缓冲器可以包含16列，因此列可以表示一个或多个协作神经元635可以参与的16个数据周期。对于每个神经元缓冲器，可以有2个数据副本-主副本和阴影副本。当迭代器填充主副本时，神经元可以在阴影副本上操作。

在说明性操作中，一旦填充了主副本并且消费了阴影副本，则可以将主副本数据移动到阴影副本，并且迭代器可以开始用下一组数据填充主副本。在说明性操作中，从主缓冲器到阴影副本的写入可以是神经元的同步点。在这样的示例性点，所有神经元必须已完成对阴影副本中的所有数据的处理，因为其内容将被完全重写。

在说明性实现中，由两个相邻神经元使用的数据可以完全相同或者可以包括来自相邻神经元的数据的子集。在这种实例中，主缓冲器存储器和与主缓冲器存储器相关联的数据重新配置逻辑可以可操作地重新配置要由神经元使用的数据，从而导致减少来自外部存储器的多个数据读取。通过示例，如果输入数据需要与步幅1进行3乘3的卷积以产生64个输出，则将需要64乘3乘3的输入值(即，每个神经元3乘3输入值)。计算的数据输入大小(即，假设正在输出单行数据)可以被计算为(63+3)*3。应用这里描述的发明概念，可以读取66*3个元素用于输入，而常规方法将必须读取64乘3乘3个元素(即，几乎是本文描述的操作系统和方法所要求的元素的3倍)。而且，对于仅在单个元素上工作的神经元，可能需要9个周期来消化数据。相比之下，利用可以支持每个周期读取32个元素的数据输入接口，在短至7个周期内，可以读取和重新配置输入数据(即，32*7>66*3)。然而，根据目前的方法，填充数据需要18个周期。结果，神经元将被有效地停顿9个周期，因为它们将在9个周期中完成处理。

图7是说明性过程700的流程图，说明性过程700在被说明性地表示为示例性DNN网络环境的说明性人工智能/机器学习硬件环境中执行数据分发和共享以及缓冲器重用。如图所示，处理开始于框705，其中接收来自计算环境的协作组件的一个或多个系统参数以用于处理示例性输入数据，该一个或多个系统参数可以代表所需处理(例如，要执行的数据函数)和存储器资源。

处理然后进行到框710，其中读取来自协作本地存储器组件的数据。然后，在框715，可以将读入(read-in)数据写入协作的主神经元缓冲器操作数存储器组件，使得可以重组读入数据，以优化在协作存储器本地存储器组件和/或主神经元缓冲器操作数存储器组件上执行的读/写操作的数目。

处理然后进行到框720，其中在填充主神经元缓冲器操作数存储器组件时，将被写入主神经元缓冲器操作数存储器组件的数据的副本写入阴影神经元缓冲器操作数存储器组件。在框725，存储在阴影神经元缓冲器操作数存储器组件中的数据可用于由一个或多个协作处理单元的消费。

处理然后进行到框730，其中执行检查以确定是否存在需要处理的附加数据。如果没有附加数据，则处理在框735处终止。如果附加数据需要处理，则处理返回到框710并从那里继续。

图8是示出用于计算设备的说明性计算机硬件和软件架构的计算机架构图，该计算设备可以充当本文呈现的DNN模块105的应用主机。特别地，图8中所示的架构可以被用于实现服务器计算机，移动电话，电子阅读器，智能电话，台式计算机，AR/VR设备，平板计算机，膝上型计算机或适用于与DNN模块105一起使用的另一类型的计算设备。

图8所示的计算机800包括中央处理单元802(“CPU”)；系统存储器804，包括随机存取存储器806(“RAM”)和只读存储器(“ROM”)808；以及将存储器804耦合到CPU802的系统总线810。包含有助于在计算机800内的元件之间传递信息的基本例程的基本输入/输出系统(“BIOS”或“固件”)，诸如在启动期间，可以被存储在ROM808中。计算机800还包括大容量存储设备812，用于存储操作系统822，应用程序和其他类型的程序。大容量存储设备812还可以被配置为存储其他类型的程序和数据。

大容量存储设备812通过连接到总线810的大容量存储控制器(未示出)被连接到CPU802。大容量存储设备812及其相关联的计算机可读介质为计算机800提供非易失性存储装置。虽然这里包含的计算机可读介质的描述是指大容量存储设备，诸如硬盘，CD-ROM驱动器，DVD-ROM驱动器或USB存储密钥，但是本领域技术人员应该理解，计算机可读介质可以是可以由计算机800访问的任何可用计算机存储介质或通信介质。

通信介质包括计算机可读指令、数据结构、程序模块或经调制的数据信号(诸如载波或其他运输机制)中的其他数据，并且包括任何递送介质。术语“经调制的数据信号”表示以一种方式改变或设置其一个或多个特性以便对信号中的信息进行编码的信号。通过示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、射频、红外和其他无线介质的无线介质。上述任何组合也应被包括在计算机可读介质的范围内。

通过示例而非限制，计算机存储介质可以包括易失性和非易失性、可移除和不可移除介质，其以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现。例如，计算机存储介质包括但不限于RAM，ROM，EPROM，EEPROM，闪存或其他固态存储器技术，CD-ROM，数字通用盘(“DVD”)，HD-DVD，BLU-RAY，或其他光学存储装置，磁带盒，磁带，磁盘存储设备或其他磁存储设备，或可以被用来存储期望信息并且可以由计算机800访问的任何其他介质。出于权利要求的目的，短语“计算机存储介质”及其变体不包括波或信号本身或通信介质。

根据各种配置，计算机800可以使用通过诸如网络820的网络到远程计算机的逻辑连接在联网环境中操作。计算机800可以通过连接到总线810的网络接口单元816连接到网络820。应当理解，网络接口单元816还可以用于连接到其他类型的网络和远程计算机系统。计算机800还可以包括输入/输出控制器818，用于接收和处理来自多个其他设备的输入，包括键盘，鼠标，触摸输入，电子触笔(图8中未标示出)或物理传感器，诸如视频相机。类似地，输入/输出控制器818可以向显示屏或其他类型的输出设备(也未在图8中示出)提供输出。

应当理解，这里描述的软件组件在被加载到CPU802中并被执行时，可以将CPU802和整个计算机800从通用计算设备变换为专用计算设备，该专用计算设备被定制以便于在此呈现的功能性。CPU802可以由任何数目的晶体管或其他分立电路元件构成，其可以单独地或共同地假设任何数目的状态。更具体地，响应于包含在本文公开的软件模块内的可执行指令，CPU802可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU802如何在状态之间转换来变换CPU802，从而变换构成CPU802的晶体管或其他分立硬件元件。

对本文呈现的软件模块进行编码还可以转换本文呈现的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换取决于各种因素。这些因素的示例包括但不限于用于实现计算机可读介质的技术，计算机可读介质是否被表征为主存储装置或辅助存储装置等。例如，如果计算机可读介质被实现为基于半导体的存储器，则可以通过变换半导体存储器的物理状态将本文公开的软件编码在计算机可读介质上。例如，软件可以转换构成半导体存储器的晶体管，电容器或其他分立电路元件的状态。该软件还可以转换这些组件的物理状态，以便在其上存储数据。

作为另一示例，本文公开的计算机可读介质可以使用磁或光技术来实现。在这样的实现中，当在其中编码软件时，本文呈现的软件可以转换磁或光介质的物理状态。这些变换可以包括更改给定磁介质内的特定位置的磁特性。这些变换还可以包括更改给定光学介质内的特定位置的物理特征或特性，以改变那些位置的光学特性。在不脱离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，前述示例仅被提供以便于该讨论。

鉴于上述情况，应当理解，在计算机800中发生许多类型的物理变换，以便存储和执行这里给出的软件组件。还应当理解，图8所示的用于计算机800或类似架构的架构可以被用来实现其他类型的计算设备，包括手持式计算机，视频游戏设备，嵌入式计算机系统，移动设备诸如智能手机，平板电脑和AR/VR设备，以及本领域技术人员已知的其他类型的计算设备。还预期计算机800可能不包括图8中所示的所有组件，可以包括未在图8中明确示出的其他组件，或者可以利用与图8中所示的完全不同的架构。

图9是根据本文给出的各种实施例的网络图，其图示了分布式网络计算环境900，其中可以实现所公开的技术的各方面。如图9所示，一个或多个服务器计算机900A可以经由通信网络820(其可以是固定有线或无线LAN，WAN，内联网，外联网，对等网络，虚拟私用网络，因特网，蓝牙通信网络，专有低电压通信网络或其他通信网络中的任一个或其组合)与多个客户端计算设备互连，客户端计算设备诸如但不限于：平板电脑900B，游戏控制台900C，智能手表900D，电话900E诸如智能电话，个人计算机900F和AR/VR设备900G。

例如，在通信网络820是因特网的网络环境中，服务器计算机900A可以是专用服务器计算机，其可操作以经由多个已知协议中的任何协议处理和传送去往和来自客户端计算设备900B-900G的数据，多个已知协议诸如：超文本传输协议(“HTTP”)，文件传输协议(“FTP”)或简单对象访问协议(“SOAP”)。另外，联网计算环境900可以利用各种数据安全协议，诸如安全套接字层(“SSL”)或非常好的隐私(“PGP”)。客户端计算设备900B-900G中的每一个可以配备有可操作以支持一个或多个计算应用或终端会话的操作系统，诸如web浏览器(图9中未示出)，或其他图形用户界面(图9中未示出)，或移动桌面环境(图9中未示出)，以获得对服务器计算机900A的访问。

服务器计算机900A可以被通信地耦合到其他计算环境(图9中未示出)，并且接收关于参与用户的交互/资源网络的数据。在说明性操作中，用户(图9中未示出)可以与在客户端计算设备900B-900G上运行的计算应用程序交互，以获得期望的数据和/或执行其他计算应用。

数据和/或计算应用可以被存储在一个服务器900A或多个服务器900A上，并在示例性通信网络820上通过客户端计算设备900B-900G传送给协作用户。参与用户(图9中未示出)可以请求访问全部或部分地容纳在服务器计算机900A上的特定数据和应用。可以在客户端计算设备900B-900G与服务器计算机900A之间传送这些数据以进行处理和存储。

服务器计算机900A可以托管用于数据和应用的生成，认证，加密和通信的计算应用，过程和小程序，并且可以与其他服务器计算环境(图9中未示出)，第三方服务提供者(图9中未示出)，网络附加存储装置(“NAS”)和存储区域网络(“SAN”)协作，以实现应用/数据事务。

应当理解，为了便于讨论，已经简化了图8中所示的计算架构和图9中所示的分布式网络计算环境。还应当理解，计算架构和分布式计算网络可以包括并利用更多计算组件，设备，软件程序，联网设备和本文未具体描述的其他组件。

示例条款

本文呈现的公开内容涵盖以下条款中阐述的主题内容。

示例条款A，一种用于人工智能/机器学习计算环境中的增强的数据处理的系统，该系统包括：至少一个神经网络处理器；至少一个存储器组件；以及与至少一个神经网络处理器通信的至少一个存储器，至少一个存储器具有存储在其上的计算机可读指令，该计算机可读指令在由至少一个处理器执行时使至少一个处理器：从计算环境的协作组件接收一个或多个处理参数，该一个或多个处理参数代表数据处理的特性，该数据处理的特性包括输入数据的特性和将由计算环境执行的处理类型；从存储器组件读取输入数据；在人工智能/机器学习计算环境的一个或多个数据处理周期期间，根据一个或多个处理参数重组经读取的输入数据以用于写入协作神经元缓冲器；将经重组的数据写入神经元缓冲器的一个或多个主神经元缓冲器存储器组件；以及将一个或多个主神经元缓冲器存储器组件的被写入的数据复制到一个或多个阴影神经元缓冲器存储器组件。

示例条款B，示例性条款A的系统，其中计算机可读指令还使至少一个处理器将被复制到一个或多个阴影神经元缓冲器存储器组件的数据传送到一个或多个协作神经元以用于处理。

示例条款C，示例条款A和B的系统，其中在存储器容量在一个数据事务处理周期期间达到一个或多个主神经元缓冲器存储器组件之后，一个或多个主神经元缓冲器存储器组件的写入数据的复制操作被执行。

示例条款D，示例条款A至C的系统，其中计算机可读指令还使至少一个处理器根据所选择的步幅值重组数据。

示例条款E，示例条款A至D的系统，其中一个或多个主神经元缓冲器存储器组件包括多个行和列，列的数目与处理输入数据所需的数据周期的数目成比例。

示例条款F，示例条款A至E的系统，其中计算机可读指令还使至少一个处理器通过一个或多个其他计算环境组件处理一个或多个处理参数，以生成特定于经读取的输入数据的重组的一个或多个指令。

示例条款G，示例条款A至F的系统，其中数据的重组由一个或多个其他计算环境组件计算，以在数据事务周期期间将数据传送到每个可用的一个或多个神经元。

示例条款H，一种计算机实现的方法，包括：从计算环境的协作组件接收一个或多个处理参数，该一个或多个处理参数代表数据处理的特性，该数据处理的特性包括输入数据的特性和将由计算环境执行的处理的类型；从存储器组件读取输入数据；根据一个或多个处理参数重组经读取的输入数据以用于写入协作神经元缓冲器；将经重组的数据写入神经元缓冲器的一个或多个主神经元缓冲器存储器组件；将一个或多个主神经元缓冲器存储器组件的被写入的数据复制到一个或多个阴影神经元缓冲器存储器组件；以及将被复制到一个或多个阴影神经元缓冲器存储器组件的数据传送给一个或多个协作神经元以用于处理。

示例条款I，示例条款H的计算机实现的方法，还包括从存储器组件读取数据以用于写入协作的第一主神经元缓冲器存储器组件。

示例条款J，示例条款H和I的计算机实现的方法，还包括从存储器组件读取数据以用于写入协作的第二主神经元缓冲器存储器组件。

示例条款K，权利要求示例条款H至J的计算机实现的方法，还包括将被写入协作的第一主神经元缓冲器存储器的数据复制到协作的第一阴影神经元缓冲器存储器组件，并且将被写入协作的第二主神经元缓冲器存储器组件的数据复制到协作的第二阴影神经元缓冲器存储器组件。

示例条款L，示例条款H至K的计算机实现的方法，还包括对从协作的第一阴影神经元缓冲器存储器组件读取的数据和从协作的第二阴影神经元缓冲器存储器组件读取的数据执行所选择的函数，这种函数包括用以生成函数应用的数据的加法、乘法、减法和其他算术函数。

示例条款M，示例条款H至L的计算机实现的方法，还将函数应用的数据传送到一个或多个协作神经元以用于处理。

示例条款N，示例条款H至M的计算机实现的方法，还包括将协作的第一主神经元缓冲器存储器组件的行映射到一个或多个协作神经元的神经元。

示例条款O，示例条款H至N的计算机实现的方法，还包括将协作的第一主神经元缓冲器存储器组件的列映射到代表计算环境的时钟周期的时间变量。

示例条款P，一种计算机可读存储介质，具有存储在其上的计算机可执行指令，计算机可执行指令在由计算设备的一个或多个处理器执行时使计算设备的一个或多个处理器：从计算环境的协作组件接收一个或多个处理参数，该一个或多个处理参数代表数据处理的特性，该数据处理的特性包括输入数据的特性和将由计算环境执行的处理的类型；从存储器组件读取输入数据；根据一个或多个处理参数重组经读取的输入数据以用于写入协作神经元缓冲器；将经重组的数据写入神经元缓冲器的一个或多个主神经元缓冲器存储器组件；以及将一个或多个主神经元缓冲器存储器组件的被写入的数据复制到一个或多个阴影神经元缓冲器存储器组件。

示例条款Q，示例条款P的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器：选择一个或多个处理参数，以用于从一组处理参数重组经读取的输入数据。

示例条款R，示例条款P和Q的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器：将一个或多个阴影神经元缓冲器存储器组件的写入数据传送到一个或多个协作神经元。

示例条款S，示例条款P至R的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器：在与一个或多个协作神经元通信之前，对从一个或多个阴影神经元缓冲器存储器组件读取的数据执行包括加法、乘法、减法、除法或其他算术函数的所选函数。

示例条款T，示例条款P至S的计算机可读存储介质，其中指令还使计算设备的一个或多个处理器：根据所选择的步幅值重组经读取的输入数据。

示例条款U，示例条款P至T的计算机可读介质，其中存储器组件与能够产生输入数据的物理传感器协作，输入数据包括音频数据、视频数据、触觉传感数据和其他数据，以供一个或多个协作处理单元进行后续处理。

示例条款V，示例条款P至U的计算机可读介质，其中协作处理单元与一个或多个输出物理组件电子地协作，该一个或多个输出物理组件可操作以接收经处理的输入数据以用于人类交互，输入数据包括音频数据、视频数据、触觉传感数据和其他数据。

基于前述内容，应当理解，本文已经公开了结构带宽控制，其导致DNN模块的增强的处理性能和更低的功耗。尽管已经用计算机结构特征、方法和变换动作、特定计算机器和计算机可读介质专用的语言描述了本文呈现的主题内容，但应理解，所附权利要求中阐述的主题内容不必限于这里描述的特定特征、动作或介质。而是，公开了特定特征、动作和介质作为实现所要求保护的主题内容的示例形式。

上述主题内容仅通过说明被提供，而不应被解释为限制性的。可以对本文描述的主题内容进行各种修改和改变，而不遵循所图示和描述的示例配置和应用，并且不脱离在所附权利要求中阐述的本公开的范围。

Claims

1.一种用于人工智能/机器学习计算环境(200)中的增强的数据处理的系统，所述系统包括：

至少一个神经网络处理器(105)；

至少一个存储器组件(220，225)；以及

至少一个存储器(210)，所述至少一个存储器(210)与所述至少一个神经网络处理器(105)通信，所述至少一个存储器(210)具有被存储在其上的计算机可读指令，所述计算机可读指令在由所述至少一个处理器执行时使所述至少一个处理器：

从所述计算环境(200)的协作组件接收一个或多个处理参数，所述一个或多个处理参数代表数据处理的特性，所述数据处理的特性包括输入数据(640)的特性和将由所述计算环境(200)执行的处理的类型；

从所述存储器组件(220，225)读取所述输入数据(640)；

在所述人工智能/机器学习计算环境(200)的一个或多个数据处理周期期间，根据所述一个或多个处理参数重组经读取的所述输入数据以用于写入协作神经元缓冲器(610)；

将经重组的所述数据写入所述神经元缓冲器(610)的一个或多个主神经元缓冲器存储器组件(615，630)；以及

将所述一个或多个主神经元缓冲器存储器组件(615，630)的被写入的所述数据复制到一个或多个阴影神经元缓冲器存储器组件(620，625)。

2.根据权利要求1所述的系统，其中所述计算机可读指令还使所述至少一个处理器将被复制到所述一个或多个阴影神经元缓冲器存储器组件的所述数据传送到一个或多个协作神经元以用于处理。

3.根据权利要求2所述的系统，其中在所述一个或多个主神经元缓冲器存储器组件的存储器在数据事务处理周期期间已满之后，所述一个或多个主神经元缓冲器存储器组件的被写入的所述数据的复制操作被执行。

4.根据权利要求3所述的系统，其中所述计算机可读指令还使所述至少一个处理器根据所选择的步幅值重组所述数据。

5.根据权利要求4所述的系统，其中所述一个或多个主神经元缓冲器存储器组件包括多个行和列，列的数目与处理所述输入数据所需的数据周期的数目成比例。

6.根据权利要求5所述的系统，其中所述计算机可读指令还使所述至少一个处理器通过一个或多个其他计算环境组件处理所述一个或多个处理参数，以生成特定于经读取的所述输入数据的所述重组的一个或多个指令。

7.根据权利要求6所述的系统，其中所述数据的所述重组由所述一个或多个其他计算环境组件计算，以在数据事务周期期间将数据传送到每个可用的一个或多个神经元。

8.一种计算机实现的方法，包括：

从计算环境(200)的协作组件接收一个或多个处理参数，所述一个或多个处理参数代表数据处理的特性，所述数据处理的特性包括输入数据(640)的特性和将由所述计算环境(200)执行的处理的类型；

从存储器组件(220，225)输入数据读取输入数据(640)；

根据所述一个或多个处理参数重组经读取的所述输入数据(640)以用于写入协作神经元缓冲器(610)；

将经重组的所述数据写入所述神经元缓冲器(610)的一个或多个主神经元缓冲器存储器组件(615，630)；

将所述一个或多个主神经元缓冲器存储器组件(615，630)的被写入的所述数据复制到一个或多个阴影神经元缓冲器存储器组件(620，625)；以及

将被复制到所述一个或多个阴影神经元缓冲器存储器组件的所述数据传送到一个或多个协作神经元(635)以用于处理。

9.根据权利要求8所述的计算机实现的方法，还包括从所述存储器组件读取数据以用于写入协作的第一主神经元缓冲器存储器组件。

10.根据权利要求9所述的计算机实现的方法，还包括从所述存储器组件读取数据以用于写入协作的第二主神经元缓冲器存储器组件。

11.根据权利要求10所述的计算机实现的方法，还包括将被写入所述协作的第一主神经元缓冲器存储器的所述数据复制到协作的第一阴影神经元缓冲器存储器组件，并且将被写入所述协作的第二主神经元缓冲器存储器组件的所述数据复制到协作的第二阴影神经元缓冲器存储器组件。

12.根据权利要求11所述的计算机实现的方法，还包括对从所述协作的第一阴影神经元缓冲器存储器组件读取的所述数据和从所述协作的第二阴影神经元缓冲器存储器组件读取的数据执行所选择的函数，所述函数包括用以生成函数应用的数据的加法、乘法、减法和其他算术函数。

13.根据权利要求12所述的计算机实现的方法，还将所述函数应用的数据传送到一个或多个协作神经元以用于处理。

14.根据权利要求11所述的计算机实现的方法，还包括将所述协作的第一主神经元缓冲器存储器组件的行映射到所述协作神经元中的所述一个或多个协作神经元的神经元。

15.根据权利要求8所述的计算机实现的方法，还包括将所述协作的第一主神经元缓冲器存储器组件的列映射到代表所述计算环境的时钟周期的时间变量。

16.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令在由计算设备的一个或多个处理器执行时使得所述计算设备的所述一个或多个处理器：

从存储器组件(220，225)读取输入数据(640)；

17.根据权利要求16所述的计算机可读存储介质，其中所述指令还使得所述计算设备的所述一个或多个处理器：

选择所述一个或多个处理参数，以用于从一组处理参数重组经读取的所述输入数据。

18.根据权利要求17所述的计算机可读存储介质，其中所述指令还使得所述计算设备的所述一个或多个处理器：

将所述一个或多个阴影神经元缓冲器存储器组件的被写入的所述数据传送到一个或多个协作神经元。

19.根据权利要求18所述的计算机可读存储介质，其中所述指令还使得所述计算设备的所述一个或多个处理器：

在与所述一个或多个协作神经元通信之前，对从所述一个或多个阴影神经元缓冲器存储器组件读取的所述数据执行包括加法、乘法、减法、除法或其他算术函数的所选函数。

20.根据权利要求16所述的计算机可读存储介质，其中所述指令还使得所述计算设备的所述一个或多个处理器：

根据所选择的步幅值重组经读取的所述输入数据。

21.根据权利要求16所述的计算机可读存储介质，其中所述存储器组件与能够产生输入数据的物理传感器协作，所述输入数据包括音频数据、视频数据、触觉传感数据和其他数据，以供所述一个或多个协作处理单元进行后续处理。

22.根据权利要求21所述的计算机可读存储介质，其中所述协作处理单元与一个或多个输出物理组件电子地协作，所述一个或多个输出物理组件可操作以接收经处理的输入数据以用于人类交互，所述经处理的输入数据包括音频数据、视频数据、触觉传感数据和其他数据。