CN110520909B

CN110520909B - 使用激活数据的压缩和解压缩来减少存储器带宽利用率的神经网络处理器

Info

Publication number: CN110520909B
Application number: CN201880025420.1A
Authority: CN
Inventors: J·L·科克里; B·E·伦德尔; L·M·瓦尔; C·B·麦克布赖德; A·A·安巴德卡; G·彼得; K·D·塞多拉; B·博布罗夫
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-17
Filing date: 2018-04-16
Publication date: 2021-03-19
Anticipated expiration: 2038-04-16
Also published as: CN110520846B; US11182667B2; US20180300607A1; CN110546654B; EP3612946B1; EP3612989B1; CN116909985A; US20210232904A1; CN110678843A; US11750212B2; WO2018194851A1; CN110520846A; WO2018194849A1; CL2019002864A1; CN110546610B; WO2018194994A2; EP3612942A1; RU2019136750A3; WO2018194995A1; PH12019550191A1

Abstract

深度神经网络(“DNN”)模块可以压缩和解压缩神经元生成的激活数据，以减少存储器总线带宽的利用率。压缩单元可以接收由DNN模块中的神经元生成的未压缩数据块。压缩单元生成压缩输出块的掩码部分和数据部分。掩码部分对未压缩数据块中的零字节和非零字节的存在和位置进行编码。数据部分存储来自未压缩数据块的截断的非零字节。解压缩单元可以从DNN处理器中的存储器或应用主机的存储器中接收压缩数据块。解压缩单元使用掩码部分和数据部分对压缩数据块进行解压缩。这可以减少存储器总线利用率，允许DNN模块更快地完成处理操作，并降低功耗。

Description

使用激活数据的压缩和解压缩来减少存储器带宽利用率的神经网络处理器

背景技术

在诸如人脑的生物神经系统中的信息处理和通信模式之后，对深度神经网络(“DNN”)进行松散建模。DNN可以被利用来解决复杂的分类问题，诸如但不限于对象检测、语义标记和特征提取。结果，DNN形成了用于诸如计算机视觉、语音标识和机器翻译之类的许多人工智能(“AI”)应用的基础。DNN在这些领域中的许多领域中都可以匹配甚至超过人类的准确性。

DNN的高级性能源于它们在对大数据集使用统计学习以获得输入空间的有效表示之后从输入数据中提取高级特征的能力。但是，DNN的卓越性能是以高计算复杂度为代价的。诸如图形处理单元(“GPU”)之类的高性能通用处理器通常被利用来提供许多DNN应用所需的高水平计算性能。

尽管像GPU之类的通用处理器可以为实现DNN提供高水平的计算性能，但是这些类型的处理器通常不适合在低功耗至关重要的计算设备中长时间执行DNN操作时使用。例如，诸如GPU之类的通用处理器可能不适合在像智能电话或交替/虚拟现实(AR/VR)设备之类的电池供电的便携式设备中执行长时间运行的DNN任务时使用，其中需要降低功耗以延长电池寿命。

在执行诸如人体移动的检测之类的连续DNN任务时，降低功耗在诸如以太网供电(“POE”)安全相机之类的非电池供电的设备中也很重要。在该特定示例中，POE交换机只能提供有限的电量，并且降低如安全相机之类的POE设备的功耗允许使用提供更少功率的POE交换机。

已经开发出可以提供高性能DNN处理、同时与通用处理器相比降低了功耗的专用集成电路(“ASIC”)。但是，尽管在该领域取得了进步，但仍然需要提高执行DNN处理的ASIC的性能并降低其功耗，尤其是对于在低功耗至关重要的计算设备中使用。

关于这些和其他技术挑战，提出了本文进行的公开。

发明内容

公开了一种DNN模块或处理器，其可以压缩和解压缩激活数据以减少存储器总线带宽的利用率。特别地，DNN模块可以利用压缩来减少神经元输出与板载(on-board)存储器或非板载(off-board)存储器之间的总线带宽的利用率。DNN模块还可以利用解压缩来减少板载存储器或非板载存储器与神经元输入之间的存储器总线带宽的利用率。减少的带宽利用率可以使得能够加快处理，并且因此还可以降低功耗。还可以通过所公开的主题的实现来实现本文未具体提及的其他技术益处。

为了实现上面简要提及的技术益处，公开了一种DNN处理器，其包括一个或多个神经元和压缩单元。压缩单元可以接收由一个或多个神经元生成的未压缩数据块。在一些实施例中，未压缩数据块包括固定数目的字节，诸如64个字节。

为了对未压缩数据块进行压缩，压缩单元可以生成压缩输出块的掩码部分和数据部分。压缩输出块的掩码部分包括与未压缩数据块中的字节的固定数目相等的数目的比特。例如，如果未压缩数据块包括64个字节的数据，则掩码部分将包括64个比特(即8个字节)。

在一些实施例中，压缩输出块的掩码部分中的每个比特对应于未压缩数据块中的一个字节。例如，掩码部分的比特一可以对应于未压缩数据块中的第一个字节，掩码部分的比特二可以对应于未压缩数据块中的第二个字节，依此类推。在其他实施例中，压缩输出块的掩码部分中的两个或更多比特对应于未压缩数据块中的一个字节。在这些实施例中，压缩输出块的掩码部分中的比特不仅可以指示未压缩块中的对应字节，还可以指示其近似量级。

当掩码部分的各个比特对应于未压缩块中的字节时，压缩单元将压缩输出块的掩码部分中的每个比特设置为逻辑假(其在本文中还可以被称为“逻辑零”)，其中未压缩数据块中的对应字节包含全零(即“零字节”)。压缩单元还将压缩输出块的掩码部分中的每个比特设置为逻辑真(其在本文中还可以被称为“逻辑一”)，其中未压缩数据块中的对应字节至少包含一个非零比特(即“非零字节”)。以这种方式，压缩输出块的掩码部分对未压缩数据块中零字节和非零字节的存在和位置进行编码。

压缩单元通过确定未压缩数据块中的非零字节的数目来生成压缩输出块的数据部分。然后，基于未压缩数据块中的非零字节的数目和压缩输出块的数据部分中可用的字节的数目，压缩单元确定压缩输出块的数据部分中的可用于存储未压缩数据块的每个非零字节的比特的数目。例如，如果压缩数据块的数据部分为24个字节(即192个比特)宽，并且未压缩数据块中有47个非零字节，则数据部分中存在四个比特可用于存储来自未压缩数据块中的每个非零字节。

在一些实施例中，压缩单元还可以确定在压缩输出块的数据部分中可用于存储未压缩数据块的非零字节的附加比特的数目(如果有的话)。例如，在上面给出的示例中，四个附加比特可用于存储非零字节(即192对47取余(mod)＝四个比特)。压缩单元可以在截断未压缩数据块中的一个或多个非零字节之前将这些附加比特指派给该一个或多个非零字节。例如，压缩单元可以将这些附加比特指派给压缩输出块的数据部分中的前几个字节。

然后，压缩单元将未压缩数据块中的非零字节截断为数据部分中可用的所确定的比特的数目，以存储每个非零字节(即，在上述示例中为四个)。在一个实施例中，压缩单元截断非零字节的最低有效比特(“LSB”)以适合于数据部分中的可用比特数内。在另一个实施例中，压缩单元截断非零字节的最高有效比特(“MSB”)。然后，压缩单元将截断的非零字节存储在压缩输出块的数据部分中。然后可以将包括掩码部分和数据部分的压缩输出块输出到例如DNN处理器中的板载存储器或DNN处理器的应用主机的非板载存储器。

DNN模块还可以包括解压缩单元，其可以解压缩已经以上述方式压缩的数据块。例如，解压缩单元可以从DNN处理器中的存储器或应用主机的存储器中接收压缩数据块。然后，解压缩单元可以基于压缩输出块的掩码部分中的逻辑真比特的数目来确定未压缩数据块的数据部分中的非零字节的数目。解压缩单元还可以基于压缩输出块的掩码部分中的逻辑真比特的位置来确定非零字节在未压缩数据块中的位置。解压缩单元可以以类似的方式确定零字节在未压缩数据块中的位置。

解压缩单元还可以确定被压缩单元用来在压缩输出块的数据部分中存储截断的非零字节的比特的数目。解压缩单元可以基于压缩数据块中的非零字节的数目和未压缩输出块的数据部分中可用的字节的数目，确定用于存储每个截断的非零字节的比特的数目。

例如，在上面给出的示例中，如果压缩数据块的数据部分为24个字节(即192个比特)宽，并且未压缩数据块中存在47个非零字节，则压缩单元将利用四比特来将未压缩数据块的每个截断的非零字节存储在数据部分中。解压缩单元还可以确定压缩单元分配给存储在压缩输出块的数据部分中的一个或多个截断的非零字节的附加比特的数目(如果有的话)。

对于压缩输出块的掩码部分中为逻辑零的每个比特位置，解压缩单元将零字节插入到解压缩输出块的对应位置中。对于掩码部分中为逻辑一的每个位置，解压缩单元将来自压缩输入块的对应位置中的截断的非零字节以及与在压缩输出块的压缩期间被截断的比特的数目相等的数目的零比特一起插入到解压缩输出块的对应位置中。根据压缩期间哪些比特被截断，可以将零比特插入到被截断的非零字节的LSB或MSB中。

在一些实施例中，解压缩单元还向存储在解压缩输出块中的一个或多个截断的非零字节添加偏移(例如，00000001)。例如，可以将偏移添加到未压缩数据块的非零字节，该非零字节在压缩之后变为零字节。以这种方式，非零字节在压缩和解压缩时将不会变为零字节。在其他实施例中，可以将偏移添加到解压缩输出块中的所有字节。

如以上简要讨论的，本文公开的技术的实现可以减少DNN模块中的存储器总线带宽利用率，允许DNN模块更快地完成处理操作，并降低功耗。还可以通过所公开技术的实现来实现本文未具体确定的其他技术益处。

应当理解，上述主题可以被实现为计算机控制的装置、计算机实现的方法、计算设备或诸如计算机可读介质之类的制品。通过阅读以下具体实施方式并查看相关附图，这些和各种其他特征将变得显而易见。

提供本发明内容以简化形式介绍所公开技术的一些方面的简要描述，在以下具体实施方式中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。

附图说明

图1是根据一个实施例的计算架构图，其示出了实现本文所公开的技术的各方面的DNN模块的配置和操作的各方面；

图2A和图2B是示出根据一个实施例的用于对激活数据进行压缩的DNN模块的配置和操作的各方面的计算系统架构图；

图3是示出根据一个实施例的用于参考示例未压缩激活数据块来对激活数据进行压缩的DNN模块的操作的各方面的数据结构图；

图4是示出根据本文公开的一个实施例的例程的流程图，该例程图示出了用于对激活数据进行压缩的所公开的DNN模块的操作的各方面；

图5A和图5B是示出根据一个实施例的用于对激活数据进行解压缩的DNN模块的配置和操作的各方面的计算系统架构图；

图6是图示出根据一个实施例的、用于参考示例压缩激活数据块来对激活数据进行解压缩的DNN模块的操作的各方面的数据结构图；

图7是示出根据本文公开的一个实施例的例程的流程图，该例程图示出了用于对激活数据进行解压缩的所公开的DNN模块的操作的各方面；

图8是根据一个实施例的示出了用于计算设备的示例性计算机硬件和软件架构的计算机架构图，该计算设备可以充当本文提出的DNN模块的应用主机；和

图9是图示出根据本文提出的各种实施例在其中可以实现所公开技术的各方面的分布式计算环境的网络图。

具体实施方式

以下详细描述针对一种DNN模块，该模块可以压缩和解压缩激活数据以减少存储器总线带宽的利用率。如以上简要讨论的，所公开技术的实现可以减少DNN模块中的存储器总线带宽利用率，允许DNN模块更快地完成处理操作，并降低功耗。还可以通过所公开的主题的实现来实现本文未具体提及的其他技术益处。

虽然在硬件DNN模块的一般上下文中呈现本文所述的主题，但本领域技术人员将认识到，可以结合其他类型的计算系统和模块来执行其他实现。本领域技术人员还将认识到，本文描述的主题可以与其他计算机系统配置一起被实践，包括手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、嵌入在设备中的计算或处理系统(诸如可穿戴计算设备、汽车、家庭自动化等)、小型计算机、大型计算机等等。

如下面将更详细描述的，公开了一种被配置为压缩其神经元的输出的DNN模块。压缩的输出可以被存储在DNN模块上的存储器中，或者可以被存储在DNN模块外部的存储器中，诸如由应用主机为DNN模块提供的存储器。DNN模块随后可以对先前压缩的数据进行解压缩，并将解压缩数据提供给神经元。

根据一个实施例，DNN处理器中的压缩单元以固定的压缩比(例如2：1)压缩未压缩的激活数据的固定长度块(例如64个字节)。由压缩单元生成的压缩激活数据可以包括具有固定长度(例如32个字节)的数据块，其包括固定长度的掩码部分(例如8个字节)和固定长度的数据部分(例如24个字节)。

在一个实施例中，压缩输出块的掩码部分的比特对应于未压缩输入块内的字节。例如，掩码部分的第一比特可以对应于未压缩输入块中的第一字节，掩码部分的第二比特可以对应于未压缩输入块中的第二字节，依此类推。如果未压缩输入块中的字节为零，则可以将压缩激活数据的掩码部分中的对应比特设置为逻辑零，并且如果未压缩输入块中的字节为非零，则可以将压缩激活数据的掩码部分中的对应比特设置为逻辑一。

如以上简要讨论的，在一些实施例中，压缩输出块的掩码部分中的两个或更多比特对应于未压缩数据块中的字节。在这些实施例中，压缩输出块的掩码部分中的比特不仅可以指示未压缩块中的对应字节，还可以指示其近似量级。

压缩输出块的数据部分包括未压缩输入块的非零字节，这些非零字节已经被截断以使用压缩数据部分中的可用比特数表示输入块的非零字节。在一些实施例中，通过将数据部分中的可用比特的总数(例如192个比特)除以未压缩输入块中的非零字节数，来确定针对每个非零字节的压缩输出块的数据部分中的可用比特的数目。该计算的结果指示压缩输出块的数据部分中可用于表示未压缩输入块中的非零数据的每个字节的比特数。任何剩余比特可以被用来提供附加比特，以用于表示压缩输出块的数据部分中的一些非零值。

一旦确定了压缩输出块的数据部分中可用于表示未压缩输入块中的每个非零字节的比特数，就将未压缩输入块中的非零值的LSB截断以适合于可用比特数内。在其他实施例中，非零值的MSB可以被截断。截断的非零值然后可以被存储在压缩输出块的数据部分中。可以对未压缩输入激活值的每个块重复此过程。然后可以将压缩输出块存储在模块上或模块外的存储器中，以供以后进行解压缩并由神经元使用。

所公开的DNN模块还可以包括解压缩单元，该解压缩单元用于对已经由压缩单元以上述方式压缩的激活值进行解压缩。解压缩单元接收包括掩码部分和数据部分的压缩激活数据块。解压缩单元可以利用掩码部分的比特来标识将在解压缩输出块中出现的非零字节的数目以及它们在解压缩输出块中的位置。该掩码还指示零字节在解压缩输出块中的位置。

在一些实施例中，解压缩单元通过将压缩块的数据部分中的可用比特总数(例如192个比特)除以由掩码指定的未压缩输入块中的非零字节数来确定由压缩单元用来表示每个非零字节的比特数。解压缩单元还可以假设压缩单元使用任何剩余比特来提供附加比特，以用于表示压缩块的数据部分中的一些非零值(例如，前N个值)。

对于掩码中为逻辑零的每个比特位置，解压缩单元可以将零字节插入到其对应位置处的解压缩输出块中。对于掩码中为逻辑一的每个比特位置，解压缩单元将来自压缩输入块的数据部分中的对应位置的截断的非零字节插入到解压缩输出块中的对应位置处。解压缩单元还在非零值的LSB或MSB中适当地插入零，以替换压缩期间被截断的那些比特。

在一些实施例中，解压缩单元向被截断的非零值添加偏移值以确保解压缩时非零未压缩值不会变为零字节。然后可以将解压缩输出块存储在模块上或模块外的存储器中，以供神经元使用。下面将提供有关DNN模块、压缩单元和解压缩单元的操作的其他详细信息。

在下面的详细描述中，对构成其一部分的附图进行了参考，并且通过图示的方式示出了具体的配置或示例。现在参考附图，其中在所有几个附图中相同的附图标记表示相同的元件，将描述可以对激活数据进行压缩和解压缩以减少存储器总线带宽利用率的DNN模块的各方面。

图1是根据一个实施例的计算架构图，其示出了实现本文所公开的技术的DNN模块105的配置和操作的各方面。在一些实施例中，本文公开的DNN模块105被配置为解决分类问题(和相关问题)，诸如但不限于对象检测、语义标记和特征提取。

为了提供此功能性，DNN模块105可以实现仅召回神经网络，并以编程方式支持各种各样的网络结构。可以在服务器场、数据中心或其他合适的计算环境中脱机执行由DNN模块105实施的对于网络的训练。训练DNN的结果是可以被称为“权重”或“内核”的参数集合。这些参数表示可以被应用于输入的转换函数，其结果是分类或语义标记的输出。

本文公开的DNN模块105可以被认为是超标量处理器。DNN模块105可以将一个或多个指令调度到多个执行单元(被称为神经元105F)。执行单元可以是“同时调度同时完成”，其中每个执行单元与每个其他执行单元同步。DNN模块105可以被分类为单个指令流、多个数据流(“SIMD”)架构。

DNN模块105包括多个神经元105F(例如，二的幂)。神经元105F是人工神经网络中的基本单元，其被用来对大脑中的生物神经元进行建模。神经元105F的模型可以包括输入矢量与被添加到偏置的权重矢量的内积，并且应用了激活函数。由本文描述的DNN模块105中的神经元105F执行的处理被紧密地映射到人造神经元。

DNN模块105中的每个神经元105F能够执行加权和、最大池化、旁路以及潜在的其他类型的操作。神经元105F处理每个时钟周期的输入和权重数据。就内核内的过程而言，每个神经元105F与所有其他神经元105F同步，以将DNN模块105内的内核数据的流动最小化。

每个神经元105F可以包含乘法器、加法器、比较器以及多个累加器(图1中未示出)。通过具有多个累加器，神经元105F能够一次为多个不同的活动内核维持上下文。每个累加器能够从BaSRAM 150的读取来进行加载(如下所述)。累加器可以将它们自己与来自其他神经元105F的其他累加器的内容进行求和。

DNN模块105接受平面数据作为输入，诸如图像数据。然而，到DNN模块105的输入不限于图像数据。而是，DNN模块105可以对以统一平面格式呈现给DNN模块105的任何输入数据进行操作。在一个特定实施例中，DNN模块105可以接受多平面一字节或两字节数据帧作为输入。

每个输入帧可以与NxKxHxW个内核集合进行卷积，其中N是内核数，K是每个内核的通道数，H是高度，并且W是宽度。在跨输入数据的重叠间隔上执行卷积，其中间隔由X和Y方向上的步幅来定义。这些函数由神经元105F执行，并由DNN模块105和软件可见控制寄存器进行管理。

DNN模块105支持三种主要的数据类型：权重；输入数据/特征图；和激活数据。在大多数情况下，输入数据/特征图和激活数据是针对同一数据的两个名称，区别在于当指代层的输出时，使用术语激活数据。当指代层的输入时，使用术语输入数据/特征图。

DNN模块105中的神经元105F计算其输入的加权和，并将加权和通过“激活函数”或“传递函数”传递。传递函数通常具有S形形状，但也可以采取以下形式：分段线性函数、阶跃函数或另一类型的函数。激活函数允许神经元105F在分类边界为非线性的情况下训练到更大组的输入和所期望的输出。

DNN模块105在与神经网络的层相对应的层描述符的列表上进行操作。DNN模块105可以将层描述符的列表视为指令。可以将这些描述符从存储器中预先提取到DNN模块105中并按顺序执行。描述符列表充当对DNN模块105的指令集。可以在DNN模块105外部的设备上执行软件工具和/或编译器，以创建在DNN模块105上执行的描述符列表。

通常，可以存在两大类的描述符：存储器到存储器移动(“M2M”)描述符；和操作描述符。M2M描述符可以被用来将数据在主存储器与本地缓冲器(即下述的行缓冲器125)之间往返移动，以供操作描述符消耗。M2M描述符遵循与操作描述符不同的执行管道。用于M2M描述符的目标管道可以是内部DMA引擎105B或配置寄存器105G，而用于操作描述符的目标管道可以是神经元105F。

操作描述符指定如下特定操作：神经元105F应该在位于本地静态随机存取存储器(“SRAM”)存储器中的数据结构上执行。操作描述符按顺序进行处理，并且能够执行许多不同的层操作，本文中至少描述了其中一些。

如图1中所图示，DNN模块105具有存储器子系统，该存储器子系统具有唯一的L1和L2缓冲器结构。图1中所示的L1和L2缓冲器是专门为神经网络处理而设计的。举例来说，L2缓冲器150可以通过以所选择的频率操作的高速专用接口来维持所选择的存储容量。L1缓冲器125可以维持所选择的存储容量，该所选择的存储容量可以在内核和激活数据之间进行分割。L1缓冲器125在本文中可以被称为“行缓冲器125”，并且L2缓冲器150在本文中可以被称为BaSRAM 150。

在一些实施例中，计算数据(即，输入数据、权重和激活数据)以行优先(row-major)被存储在BaSRAM 150中。可以将计算数据组织为两个行缓冲器，其中在本文中可被称为“输入缓冲器”的一个行缓冲器包含输入数据，并且可被称为“权重缓冲器”的另一个行缓冲器包含内核权重。由加载/存储单元105C从BaSRAM 150填充行缓冲器。在每个行缓冲器中累积数据，直到其达到其预定容量为止。然后在一些实施例中，将行缓冲器数据复制到阴影缓冲器，并呈现给神经元105F。

DNN模块105还可以包括许多其他组件，包括但不限于寄存器接口105G、预取单元105A、保存/恢复单元105E、层控制器105D和寄存器接口105G。在一些实施例中，DNN模块105可以包括附加的或替代的组件。

在一些配置中，DNN模块105与其他外部计算组件结合来操作。例如，在一些实施例中，DNN模块105连接到主机应用处理器片上系统(“主机SoC”)130。DNN模块105可以例如通过PCIe接口连接到主机SoC 130。诸如PCIe端点135之类的适当的PCIe组件可以被利用来启用这些连接。

主机SoC 130用作DNN模块105的应用处理器。主操作系统、应用和辅助传感器处理由主机SoC 130执行。主机SoC 130还可以被连接到诸如外部相机之类的输入数据源102，其将诸如图像数据之类的输入数据提供给DNN模块105。

DDR DRAM 155还可以连接到可以被用作主系统存储器的主机SoC 130。该存储器可以通过存储器控制器145在高带宽结构120(例如PCIe总线)上从主机SoC 130进行存取。高带宽结构120向双向直接存储器存取(“DMA”)提供小型消息收发事务和较大DMA事务。桥接器115和低带宽结构110可以将DNN模块105连接到主机SoC 130，以用于子模块配置和其他功能。

DNN模块105可以包括被配置为将数据移入和移出主存储器155的DMA引擎105B。在一些实施例中，DMA引擎105B具有两个通道。一个通道专用于提取操作描述符，而另一个通道专用于M2M操作。可以将DMA描述符嵌入在M2M描述符中。在这种上下文中，描述符是DMA描述符，其被用来移动存储器的内容，请勿与上述操作描述符混淆。

为了卸载本地BaSRAM存储器150，并为输入数据和权重数据提供更多的空间，可以可选地将激活输出直接流式传输到DDR存储器155。当将数据流式传输到DDR存储器155时，DNN模块105将累积足够的数据用于高带宽结构120上的突发事务，并将缓冲足够的事务以将神经元105F上的背压最小化。下面将提供关于DNN模块105的操作的其他细节。

图2A和图2B是示出根据一个实施例的用于对激活数据进行压缩的DNN模块105的配置和操作的各方面的计算系统架构图。如图2中所示并且如在上面简要讨论的，DNN模块105包括一个或多个神经元105F和压缩单元200。在一些实施例中，压缩单元200由加载/存储单元105C实现，但是在其他实施例中可以以其他方式实现。

压缩单元200可以接收由一个或多个神经元105F生成的未压缩激活数据块202。在一些实施例中，未压缩数据块202包括固定数目的字节，诸如64个字节。

压缩单元200可以对未压缩数据块202进行压缩以生成压缩激活数据块204。然后，可以将压缩激活数据块204存储在存储器206中。例如，压缩激活数据块204可以被存储在由应用主机提供的LPDDR4存储器155中，或者可以被存储在由DNN模块105提供的BASRAM 150中。如下面将更详细地公开的，当从LPDDR4存储器155或BASRAM 150存储或取回压缩或解压缩的激活数据时，本文公开的技术可以利用压缩和解压缩来减少存储器总线利用率的利用率。关于这些技术的附加细节在下面关于图2A-图9而被公开。

如图2B中所图示，压缩单元200可以生成压缩输出数据块204的掩码部分208和数据部分210。压缩输出块204的掩码部分208包括与未压缩数据块202中的固定字节数相等的数目的比特。例如，如果未压缩数据块202包括64个字节的数据，则压缩输出块204的掩码部分208将包括64个比特(即8个字节)。

在一些实施例中，压缩输出块204的掩码部分208中的每个比特对应于未压缩数据块202中的一个字节。例如，掩码部分208的比特一可以对应于未压缩数据块202中的第一字节，掩码部分208的比特二可以对应于未压缩数据块202中的第二字节，以此类推。

压缩单元200将压缩输出块204的掩码部分208中的每个比特设置为逻辑零，其中，未压缩数据块202中的对应字节为零字节。压缩单元200还将压缩输出块204的掩码部分208中的每个比特设置为逻辑一，其中，未压缩数据块202中的对应字节是非零字节。以这种方式，压缩输出块204的掩码部分208对未压缩数据块202中的零字节和非零字节的存在和位置进行编码。

压缩单元200通过确定未压缩数据块202中的非零字节数来生成压缩输出块204的数据部分210。然后，压缩单元200基于未压缩数据块202中的非零字节数和压缩输出块204的数据部分210中可用的字节数，来确定压缩输出块204的数据部分210中的、可用于存储未压缩数据块202的每个非零字节的比特的数目。例如，如果压缩数据块204的数据部分210为24个字节(即192个比特)宽，并且未压缩数据块202中存在47个非零字节，则数据部分210中的四个比特可用于存储来自未压缩数据块202的每个非零字节。

在一些实施例中，压缩单元200还可以确定压缩输出块204的数据部分210中的、可用于存储未压缩数据块202的非零字节的附加比特的数目(如果有的话)。在以上给出的示例中，例如，四个附加比特可用于存储非零字节(即192对47取余(mod)＝四个比特)。压缩单元200可以在截断未压缩数据块204中的一个或多个非零字节之前将这些附加比特指派给该一个或多个非零字节。例如，压缩单元200可以将这些附加比特指派给压缩输出块204的数据部分210中的前N个字节。

然后，压缩单元200将未压缩数据块202中的非零字节截断为数据部分210中可用的、用以存储每个非零字节的所确定的比特的数目(即，在上述示例中为四个)。在一个实施例中，压缩单元200截断非零字节的LSB以适合数据部分210中的可用比特数。在另一个实施例中，压缩单元200截断非零字节的MSB。压缩单元200然后将被截断的非零字节存储在压缩输出块204的数据部分210中。然后可以将包括掩码部分208和数据部分210的压缩输出块204输出到例如DNN模块105中的板载存储器或DNN模块105的应用主机的非板载存储器。下面将关于图3和图4提供关于上述压缩过程的其他细节。

如以上简要讨论的，在一些实施例中，压缩输出块204的掩码部分208中的两个或更多比特对应于未压缩数据块202中的字节。在这些实施例中，压缩输出块204的掩码部分208中的比特可以不仅指示未压缩块202中的对应字节，而且还指示其近似量级。例如而非限制，掩码部分208可以在未压缩数据块202中每字节包括两比特。在该示例中，00可以指示在未压缩数据块202中对应的非零值的MSB是零，01可以指示MSB<64，10可以指示MSB<128，并且11可以指示MSB>128。这些值可以被利用来标识未压缩数据块202中的字节的哪个MSB可以被截断。例如，如果特定字节的MSB<64，则可以将前两个MSB截断而不会丢失数据。

图3是图示了根据一个实施例的用于参考示例未压缩激活数据块202来对未压缩激活数据块202进行压缩的DNN模块105的操作的各方面的数据结构图。在图3所示的示例中，未压缩激活数据块202为64个字节长。未压缩激活数据块202的字节零、一和63是零字节。未压缩激活数据块202的字节二、三和62是非零字节，分别存储值112、121和二。示例未压缩激活数据块202的字节4至61可以存储零或非零字节。

如上所讨论，压缩单元200可以生成掩码部分208，其对未压缩激活数据块202中的零字节和非零字节的存在和位置进行编码。在该示例中，例如，掩码部分208的比特零、一和63已被设置为逻辑零，以指示在未压缩激活数据块202中的对应位置中存在零字节。类似地，掩码部分208的比特二、三和62已被设置为逻辑一，以指示未压缩激活数据块202的字节二、三和62存储非零字节。

如上所讨论，压缩单元200通过确定未压缩数据块202中的非零字节数来生成压缩输出块204的数据部分210。例如，在图3中所示的示例中，未压缩数据块202包括47个非零字节(图3中未全部示出)。然后，压缩单元200基于未压缩数据块202中的非零字节数以及压缩输出块204的数据部分210中的可用字节数，来确定压缩输出块204的数据部分210中的、可用于存储未压缩数据块202的每个非零字节的比特的数目。

例如，在图3中所示的示例中，压缩数据块204的数据部分210是24个字节(即192个比特)宽，并且未压缩数据块202中存在47个非零字节。结果，在数据部分210中存在四个比特可用，以存储来自未压缩数据块202的每个非零字节(即192/47＝4余数4)。

还如上所讨论，压缩单元200还可以确定压缩输出块204的数据部分210中的、可用于存储未压缩数据块202的非零字节的附加比特的数目(如果有的话)。在图3中所示的示例中，例如，四个附加比特可用于存储非零字节(即192对47取余(mod)＝四个比特)。压缩单元200可以在截断未压缩数据块204中的一个或多个非零字节之前将这些附加比特指派给该一个或多个非零字节。在图3中所示的示例中，已经将四个附加比特之一指派给未压缩激活数据块202中的前四个非零字节中的每一个非零字节。结果，未压缩激活数据块202的前四个字节将被截断为五个比特而不是四个比特。

压缩单元200然后将未压缩数据块202中的非零字节截断为数据部分210中可用的、用以存储每个非零字节的所确定的比特的数目(即，对于前四个非零字节为五个比特——在上面的示例中为四个)。在图3中所示的示例中，在一个实施例中，压缩单元200截断非零字节的LSB以适合数据部分210中的可用比特数(即，在该示例中为四)。在另一个实施例中，压缩单元200截断非零字节的MSB。

如图3中所示，未压缩激活数据块202的第二字节存储值113(01110001)。因为已经将五个比特指派给了未压缩激活数据块202中的前四个非零值，所以该值的三个LSB被截断，导致值01110被存储在压缩激活数据块210中的第一位置中。未压缩激活数据块202的第三字节存储值121(01111001)。因为已经将五个比特指派给了未压缩激活数据块202中的前四个非零值，所以该值的三个LSB被截断，导致值01111被存储在压缩激活数据块210中的第二位置中。

在图3中所示的示例中，未压缩激活数据块202的第62个字节存储值2(00000010)。由于已将四个比特指派给了未压缩激活数据块202中的第5至第63个非零值，因此该值的四个LSB被截断，导致值0000被存储在压缩激活数据块210中的第62个位置中。未压缩激活数据块202中的其他非零字节可以以类似的方式被截断并存储在压缩激活数据块204的数据部分210中。

一旦未压缩激活数据块202的所有非零字节都已被存储在数据部分203中，则压缩单元200将包括掩码部分208和数据部分210的压缩输出块204存储在例如DNN模块105中的板载存储器中或DNN模块105的应用主机的非板载存储器中。在下面关于图4提供关于压缩过程的附加细节。

图4是示出根据本文公开的一个实施例的例程400的流程图，该例程图示出了用于对未压缩激活数据块202进行压缩的DNN模块105的操作的各方面。应当理解的是，本文中关于图4和其他图描述的逻辑操作可以被实现为：(1)在计算设备上运行的一系列计算机实现的动作或程序模块，和/或(2)在计算设备内的互连机器逻辑电路或电路模块。

本文公开的技术的特定实现是取决于计算设备的性能和其他要求的选择问题。因此，本文描述的逻辑操作被不同地称为状态、操作、结构设备、动作或模块。这些状态、操作、结构设备、动作和模块可以以硬件、软件、固件、专用数字逻辑及其任何组合来实现。应当理解，可以执行比附图中所示并在本文中所述的更多或更少的操作。这些操作还可以以与本文描述的顺序不同的顺序来执行。

例程400在操作402开始，其中压缩单元200确定未压缩激活数据块202中的非零字节数。然后，例程400进行到操作404，其中压缩单元200确定未压缩激活数据块202中的非零字节数是否小于或等于压缩激活数据块204中的数据部分210中可用的字节数。如果非零字节数小于或等于压缩激活数据块204的数据部分210中可用的字节数，则不需要压缩未压缩激活数据块202的非零字节。因此，在这种情况下，例程400继续进行到操作408，其中非零字节被存储在数据部分210中而没有被截断。

如果未压缩激活数据块202中的非零字节数大于压缩激活数据块204中的数据部分210中可用的字节数，则例程400从操作406进行到操作412。在操作412处，压缩单元200确定压缩输出数据块204的数据部分210中的、可用于以上述方式存储未压缩激活数据块202的被截断的非零字节的比特的数目。然后，例程400从操作412进行到操作414。

在操作414处，压缩单元200确定在压缩输出块204的数据部分210中的、可用于存储未压缩数据块202的非零字节的附加比特的数目(如果有的话)。如上所讨论，压缩单元200可以在截断未压缩数据块202中的一个或多个非零字节之前将这些附加比特指派给该一个或多个非零字节。这在操作416处发生。

例程400从操作416进入操作418，其中压缩单元200将压缩激活数据块204的掩码部分208中的比特设置为逻辑一，其中未压缩激活块202中的对应字节不为零。压缩单元200还将压缩激活数据块204的掩码部分208中的比特设置为逻辑零，其中未压缩激活块202中的对应字节为零。

例程400然后从操作418进入操作420，其中压缩单元200将未压缩数据块202中的非零字节的LSB或MSB截断为数据部分210中可用于每个非零字节的所确定的比特的数目。被截断的非零字节然后被存储在压缩激活数据块204的数据部分210中。压缩单元200然后将包括掩码部分208和数据部分210的压缩输出块204存储在DNN模块105中的板载存储器中或在DNN模块105的应用主机的非板载存储器中。例程400从操作408和420前进到操作410，其在此结束。

图5A和图5B是示出根据一个实施例的用于对压缩激活数据进行解压缩的DNN模块105的配置和操作的各方面的计算系统架构图。如以上简要讨论的以及如图5A和图5B中所示，DNN模块105还可以包括解压缩单元500，其可以对已经以上述方式压缩的激活数据块204进行解压缩。

例如，解压缩单元500可以从诸如DNN处理器中的存储器或应用主机的存储器之类的存储装置206接收压缩激活数据块204。然后，解压缩单元500可以基于压缩块204的掩码部分208中的逻辑真比特的数目来确定压缩数据块204的数据部分210中的非零字节数。解压缩单元500还可以基于压缩输出块204的掩码部分208中的逻辑真比特的位置来确定解压缩数据块502中的非零字节的位置。解压缩单元500可以以类似的方式确定零字节在解压缩数据块502中的位置。

解压缩单元500还可以确定被压缩单元200用来将每个被截断的非零字节存储在压缩输出块204的数据部分210中的比特的数目。解压缩单元500可以基于压缩数据块204中的非零字节数(如掩码部分208所指示的)和解压缩输出块502的目标大小来确定被用来存储每个被截断的非零字节的比特数。

例如，在上面给出的示例中，如果压缩数据块204的数据部分为24个字节(即192个比特)宽，并且在未压缩数据块202中有47个非零字节，则这意味着压缩单元200利用四个比特将未压缩数据块202的每个截断的非零字节存储在数据部分210中。解压缩单元500还可以确定压缩单元200中被分配给存储在压缩输出块204的数据部分210中的一个或多个截断的非零字节的附加比特的数目(如果有的话)。

对于压缩输出块204的掩码部分208中为逻辑零的每个比特位置，解压缩单元500将零字节插入到解压缩输出块502的对应位置中。对于掩码部分208中为逻辑一的每个位置，解压缩单元500将来自压缩输入块204的对应位置的截断的非零字节以及与压缩输出块204的压缩期间被截断的比特数相等的数目的零比特一起插入到解压缩输出块502的对应位置中。取决于压缩期间哪些比特被截断，可以将零比特插入到被截断的非零字节的LSB或MSB中。

如上所提及，在一些实施例中，解压缩单元500还向存储在解压缩输出块502中的一个或多个截断的非零字节添加偏移(例如，00000001)。例如，可以将偏移添加到未压缩数据块202的非零字节，该非零字节在压缩之后变为零字节。以这种方式，非零字节在解压缩时将不会变为零字节。

图6是图示出根据一个实施例的、用于参考示例压缩激活数据块来对激活数据进行解压缩的DNN模块105的操作的各方面的数据结构图。图6中所示的示例图示出了在以上关于图3描述的示例中生成的压缩激活数据204的解压缩。如图6中所示，掩码部分208在比特零、一和63中存储零，并且在比特二、三和62中存储一。数据部分210以图6中所示的方式存储值01110、01111和0000。

当解压缩单元500执行上述处理操作时，掩码部分208的第一比特位置中的逻辑零将使解压缩单元500将零字节存储为解压缩激活数据块502的第一字节。类似地，掩码部分208的第二比特位置中的逻辑零将使解压缩单元500将零字节存储为解压缩激活数据块502的第二字节。

掩码部分208的第三位置中的逻辑一将使解压缩单元500取回数据部分210的前五个比特(即01110)并插入三个LSB，从而得到值01110000(112)，其被存储为解压缩激活数据块502的第三字节。类似地，掩码部分208的第四比特位置中的逻辑一将使解压缩单元500取回数据部分210的第二个五个比特(即01111)并插入三个LSB，从而得到值01111000(120)，其被存储为解压缩激活数据块502的第四字节。

掩码部分208的第63个比特位置中的逻辑一将使解压缩单元500取回数据部分210的最后四个比特(即0000)并插入四个零LSB，从而得到被存储在解压缩激活数据块502的第63个字节位置中的零值。掩码部分208的最后比特位置中的逻辑零将使解压缩单元500将零字节存储为解压缩数据块502的最后一个字节。

如上所讨论，解压缩单元500可以将偏移值添加到解压缩激活数据块502中的某些字节。例如，解压缩单元500可以将偏移值(诸如00000001)添加到在压缩激活数据块204中被压缩为零字节的但在未压缩激活数据块202中是非零的字节中。

在图6中所示的示例中，数据部分210中的最后一个字节在未压缩激活数据块202中为非零(即二)，但是在压缩激活数据块504中变为零。因此，解压缩单元500可以将偏移值(诸如00000001)添加到该字节，从而确保未压缩激活数据块202中的非零字节将不被压缩为零字节。

图7是示出了根据本文公开的一个实施例的例程700的流程图，该例程图示出了用于对激活数据进行解压缩的DNN模块105的操作的各方面。例程700开始于操作702，其中解压缩单元500利用压缩激活数据块204的掩码部分208来确定非零字节的数目及其在解压缩激活数据502块中的位置。

例程700从操作702进行到操作704，其中解压缩单元500确定压缩激活数据块204中的非零字节数是否小于或等于解压缩激活数据块502的字节数。如上所讨论，如果非零字节数小于或等于解压缩激活数据块502的字节数，则不需要对压缩激活数据块204的非零字节进行解压缩。因此，在这种情况下，例程700进行到操作708，其中将压缩激活数据块204中的非零字节存储在解压缩激活数据块502中而无需修改。

如果压缩激活数据块504中的非零字节数大于解压缩激活数据块502中的非零字节数，则例程700从操作4706进行到操作712。在操作712处，解压缩单元500确定压缩输出数据块204的数据部分210中的、被压缩单元200用来存储未压缩激活数据块202的每个被截断的非零字节的比特的数目。例程700然后以上述方式从操作712进行到操作714。

在操作714处，解压缩单元500确定被用来存储未压缩数据块202的非零字节的附加比特的数目(如果有的话)。解压缩单元500可以以上述方式将这些附加比特指派给解压缩数据块502中的一个或多个非零字节。这在操作716处发生。

例程700从操作716进入操作718，其中对于压缩输出块204的掩码部分208中为逻辑零的每个比特位置，解压缩单元500将零字节插入到解压缩输出块502的对应位置中。对于压缩输出块204的掩码部分208中为逻辑一的每个比特位置，解压缩单元500将来自压缩输入块204的对应位置的截断的非零字节以及与压缩输出块204的压缩期间被截断的比特数相等的数目的零比特一起插入到解压缩输出块502的对应位置中。取决于压缩期间哪些比特被截断，可以将零比特插入到被截断的非零字节的LSB或MSB中。这在操作720处发生。

在一些实施例中，解压缩单元500还可以向存储在解压缩输出块502中的一个或多个截断的非零字节添加偏移值。例如，可以将偏移量添加到未压缩数据块202的非零字节，该非零字节在压缩之后变为零字节。以这种方式，非零字节在压缩和解压缩时将不会变为零字节。在其他实施例中，可以将偏移添加到解压缩激活数据块502中的所有字节。

然后，解压缩单元500将解压缩输出块502存储在DNN模块105中的板载存储器中或DNN模块105的应用主机的非板载存储器中，以供神经元105F使用。例程400从操作708和720前进至操作710，其在此结束。

图8是示出了用于计算设备的示例性计算机硬件和软件架构的计算机架构图，该计算设备可以充当本文提出的DNN模块105的应用主机。特别地，图8中所图示的架构可以被利用来实现服务器计算机、移动电话、电子阅读器、智能电话、台式计算机、AR/VR设备、平板计算机、膝上型计算机或适合与DNN模块105一起使用的另一种类型的计算设备。

图8中所图示的计算机800包括中央处理单元802(“CPU”)、系统存储器804和系统总线810，系统总线810将存储器804耦合到CPU 802，系统存储器804包括随机存取存储器806(“RAM”)和只读存储器(“ROM”)808。包含诸如在启动期间帮助在计算机800内的元件之间传递信息的基本例程在内的基本输入/输出系统(“BIOS”或“固件”)可以被存储在ROM808中。计算机800还包括大容量存储设备812，大容量存储设备812用于存储操作系统822、应用程序和其他类型的程序。大容量存储设备812还可以被配置为存储其他类型的程序和数据。

大容量存储设备812通过连接到总线810的大容量存储控制器(未示出)而连接到CPU 802。大容量存储设备812及其关联的计算机可读介质为计算机800提供了非易失性存储。尽管对本文所包含的计算机可读介质的说明是指大容量存储设备，诸如硬盘、CD-ROM驱动器、DVD-ROM驱动器或USB存储密钥，但本领域技术人员应理解，计算机可读介质可以是计算机800可以访问的任何可用计算机存储介质或通信介质。

通信介质包括诸如载波或其他传输机制的调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何递送介质。术语“调制数据信号”意指具有以将信息编码在信号中的方式改变或设置其一个或多个特性的信号。作为示例而非限制，通信介质包括：诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频、红外和其他无线介质之类的无线介质。以上任何内容的组合也应被包括在计算机可读介质的范围内。

作为示例而非限制，计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如，计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储器技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储设备、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、或可以被用来存储所期望的信息并可由计算机800访问的任何其他介质。对于权利要求书而言，短语“计算机存储介质”及其变体不包括波或信号本身或通信介质。

根据各种配置，计算机800可以使用通过诸如网络820之类的网络到远程计算机的逻辑连接来在联网环境中操作。计算机800可以通过连接到总线810的网络接口单元816而连接到网络820。应当理解，网络接口单元816还可以被利用来连接到其他类型的网络和远程计算机系统。计算机800还可以包括用于接收和处理来自许多其他设备的输入的输入/输出控制器818，包括键盘、鼠标、触摸输入、电子笔(图8中未示出)或诸如摄像机之类的物理传感器。类似地，输入/输出控制器818可以将输出提供给显示屏或其他类型的输出设备(在图8中也未示出)。

应当理解，本文描述的软件组件在被加载到CPU 802中并被执行时，可以将CPU802和整个计算机800从通用计算设备转换为被定制来促进本文介绍的功能性的专用计算设备。CPU 802可以由任意数目的晶体管或其他分立电路元件构成，它们可以单独或共同地呈现任意数目的状态。更具体地，响应于本文公开的软件模块内所包含的可执行指令，CPU802可以作为有限状态机操作。这些计算机可执行指令可以通过指定CPU 802如何在状态之间转移来对CPU 802进行变换，从而对构成CPU 802的晶体管或其他分立的硬件元素进行变换。

对本文提出的软件模块进行编码还可以变换本文提出的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换取决于各种因素。这种因素的示例包括但不限于用于实现计算机可读介质的技术，计算机可读介质被表征为主要存储装置还是辅助存储装置等。例如，如果计算机可读介质被实现为基于半导体的存储器，则可以通过变换半导体存储器的物理状态来将本文公开的软件编码在计算机可读介质上。例如，该软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这些组件的物理状态，以便在其上存储数据。

作为另一个示例，可以使用磁性或光学技术来实现本文公开的计算机可读介质。在这种实现中，当软件被编码在其中时，本文提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性特性。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或特性，以改变那些位置的光学特性。在不背离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，提供前述示例仅是为了促进该讨论。

鉴于以上所述，应当理解，在计算机800中发生了许多类型的物理变换，以便存储和执行本文提出的软件组件。还应当理解，图8中所示的用于计算机800的架构是可替代的，或者类似的架构可以被利用来实现其他类型的计算设备，包括手持计算机、视频游戏设备、嵌入式计算机系统、诸如智能电话、平板电脑和AR/VR设备之类的移动设备、以及本领域技术人员已知的其他类型的计算设备。还可以想到，计算机800可以不包括图8中所示的所有组件，可以包括在图8中未明确示出的其他组件，或者可以利用与图8中所示的架构完全不同的架构。

图9是图示出了根据本文提出的各种实施例在其中可以实现所公开技术的各方面的分布式网络计算环境900的网络图。如图9中所示，一个或多个服务器计算机900A可以经由通信网络820(其可以是固线或无线LAN、WAN、内联网、外联网、对等网络、虚拟专用网、互联网、蓝牙通信网络、专有低压通信网络或其他通信网络中的任一个或组合)来与许多客户端计算设备(诸如但不限于平板计算机900B、游戏机900C、智能手表900D、诸如智能电话之类的电话900E、个人计算机900F以及AR/VR设备900G)互连。

例如，在通信网络820是互联网的网络环境中，服务器计算机900A可以是专用服务器计算机，该专用服务器计算机可操作以经由多种已知协议(诸如超文本传输协议(“HTTP”)、文件传输协议(“FTP”)或简单对象访问协议(“SOAP”))来与客户端计算设备900B-900G往返进行数据通信和处理。另外，网络计算环境900可以利用各种数据安全协议，诸如安全套接字层(“SSL”)或相当好的隐私(“PGP”)。每个客户端计算设备900B-900G可以配备有操作系统，该操作系统可操作来支持诸如网络浏览器(图9中未示出)或其他图形用户界面(图9中未示出)或移动桌面环境(图9中未示出)之类的一个或多个计算应用或终端会话，以获得对服务器计算机900A的访问权。

服务器计算机900A可以可通信地耦合到其他计算环境(图9中未示出)，并接收有关参与用户的交互/资源网络的数据。在说明性操作中，用户(图9中未示出)可以与在客户端计算设备900B-900G上运行的计算应用进行交互，以获得期望的数据和/或执行其他计算应用。

数据和/或计算应用可以被存储在一个或多个服务器900A上，并在示例性通信网络820上通过客户端计算设备900B-900G传送给合作用户。参与用户(图9中未示出)可以请求访问全部或部分地容纳在服务器计算机8800A上的特定数据和应用。这些数据可以在客户端计算设备900B-900G和服务器计算机900A之间被传送以进行处理和存储。

服务器计算机900A可以托管用于数据和应用的生成、认证、加密和通信的计算应用、过程和小程序，并且可以与其他服务器计算环境(图9中未示出)、第三方服务提供者(图9中未示出)、网络附加存储装置(“NAS”)和存储区域网络(“SAN”)协作，以实现应用/数据事务。

应当理解，为了便于讨论，图8中所示的计算架构和图9中所示的分布式网络计算环境已被简化。还应当理解，计算架构和分布式计算网络可以包括并利用更多的计算组件、设备、软件程序、网络设备以及本文未具体描述的其他组件。

本文提出的公开内容还涵盖以下条款中提出的主题：

条款1.一种神经网络处理器，包括：一个或多个神经元；以及压缩单元，所述压缩单元被配置为：接收由所述神经网络处理器中的所述神经元中的至少一个神经元生成的未压缩数据块，所述未压缩数据块包括固定数目的字节；生成压缩输出块的掩码部分，所述掩码部分包括与所述未压缩数据块中的字节的所述固定数目相等的数目的比特，所述掩码部分中的每个比特对应于所述未压缩数据块中的字节，以及其中所述掩码部分中的每个比特在所述未压缩数据块中的对应字节为零的情况下被设置为逻辑零，并且在所述未压缩数据块中的对应字节为非零的情况下被设置为逻辑一；通过以下操作生成所述压缩输出块的数据部分：确定所述未压缩数据块中的非零字节的数目，基于所述未压缩数据块中的所述非零字节的数目，确定所述压缩输出块的所述数据部分中可用于存储所述未压缩数据块的截断的非零字节的比特的数目，将所述未压缩数据块中的所述非零字节截断为所确定的所述比特的数目，以及将所述截断的非零字节存储在所述压缩输出块的所述数据部分中；以及输出所述压缩输出块，所述压缩输出块包括所述掩码部分和所述数据部分。

条款2.根据条款1所述的神经网络处理器，其中所述神经网络处理器还包括解压缩单元，所述解压缩单元被配置为：接收所述压缩输出块；基于所述压缩输出块的所述掩码部分，确定所述未压缩数据块的所述数据部分中的所述非零字节的数目；基于所述压缩输出块的所述掩码部分，确定所述非零字节在所述未压缩数据块中的位置；确定被所述压缩单元用来在所述压缩输出块的所述数据部分中存储所述截断的非零字节的所述比特的数目；对于所述压缩输出块的所述掩码部分中为逻辑零的每个位置，将零字节插入解压缩输出块的对应位置中；和对于所述掩码部分中为逻辑一的每个位置，将来自所述压缩输入块的对应位置中的所述截断的非零字节以及与在所述压缩输出块的压缩期间被截断的比特的数目相等的数目的零比特一起插入到所述解压缩输出块的对应位置中。

条款3.根据条款1和2中任一项所述的神经网络处理器，其中所述压缩单元还被配置为：确定所述压缩输出块的所述数据部分中可用于存储所述未压缩数据块的截断的非零字节的附加比特的数目；以及在截断所述未压缩数据块中所述非零字节中的的一个或多个非零字节之前，将所述附加比特分配给所述一个或多个非零字节。

条款4.根据条款1-3中任一项所述的神经网络处理器，其中所述解压缩单元还被配置为确定分配给存储在所述压缩输出块的所述数据部分中的所述一个或多个非零字节的所述附加比特的数目。

条款5.根据条款1-4中任一项所述的神经网络处理器，其中所述解压缩单元还被配置为向存储在所述解压缩输出块中的所述截断的非零字节中的一个或多个字节添加偏移。

条款6.根据条款1-5中任一项所述的神经网络处理器，其中所述非零字节的一个或多个最低有效比特(LSB)被截断。

条款7.根据条款1-6中任一项所述的神经网络处理器，其中所述非零字节的一个或多个最高有效比特(MSB)被截断。

条款8：一种神经网络处理器，包括：一个或多个神经元；以及解压缩单元，所述解压缩单元被配置为：接收包括掩码部分和数据部分的压缩数据块；基于所述掩码部分中的比特确定解压缩数据块中的非零字节的数目；至少部分地基于所述非零字节的数目，确定被用来在所述压缩输出数据块的所述数据部分中存储截断的非零字节的比特的数目；对于所述压缩数据块的所述掩码部分中为逻辑零的每个比特位置，将零字节插入到所述解压缩数据块的对应位置中；和对于所述压缩数据块的所述掩码部分中为逻辑一的每个位置，将来自所述压缩数据块的所述数据部分中的所述对应位置的截断的非零字节以及与在所述压缩数据块的压缩期间被截断的比特的数目相等的数目的零比特插入所述解压缩数据块中的对应位置中。

条款9.根据条款8所述的神经网络处理器，还包括压缩单元，所述压缩单元被配置为：接收由所述神经网络处理器中的至少一个神经元生成的未压缩数据块，所述未压缩数据块包括固定数目的字节；生成所述压缩数据块的所述掩码部分，所述掩码部分包括与所述未压缩数据块中的字节的所述固定数目相等的数目的比特，所述掩码部分中的每个比特对应于所述未压缩数据块中的字节，并且其中所述掩码部分中的每个比特在所述未压缩数据块中的对应字节为零的情况下包括逻辑零，并且在所述未压缩数据块中的对应字节为非零的情况下包括逻辑一；通过以下操作生成所述压缩数据块的所述数据部分：确定所述未压缩数据块中的非零字节的数目，基于所述未压缩数据块中的所述非零字节的数目，确定所述压缩数据块的所述数据部分中可用于存储所述未压缩数据块的截断的非零字节的比特的数目，将所述未压缩数据块中的所述非零字节截断为确定的比特的数目，以及将所述截断的非零字节存储在所述压缩数据块的所述数据部分中；以及输出所述压缩数据块，所述压缩数据块包括所述掩码部分和所述数据部分。

条款10.根据条款8和9中任一项所述的神经网络处理器，其中所述压缩单元还被配置为：如果所述未压缩数据块中的所述非零字节的数目小于或等于所述压缩数据块的所述数据部分中的字节的数目，则将所述未压缩数据块中的所述非零字节存储在所述压缩数据块的所述数据部分中而不截断。

条款11.根据条款8-10中任一项所述的神经网络处理器，其中所述压缩单元还被配置为：确定所述压缩输出块的所述数据部分中可用于存储所述未压缩数据块的截断的非零字节的附加比特的数目；和在截断所述未压缩数据块中的所述非零字节中的一个或多个非零字节之前，将所述附加比特分配给所述一个或多个非零字节。

条款12.根据条款8-11中任一项所述的神经网络处理器，其中所述解压缩单元还被配置为：确定分配给存储在所述压缩输出块的所述数据部分中的所述一个或多个非零字节的附加比特的数目。

条款13.根据条款8-12中任一项所述的神经网络处理器，其中在所述压缩数据块的压缩期间，所述非零字节的一个或多个最低有效比特(LSB)被截断。

条款14.根据条款8-13中任一项所述的神经网络处理器，其中在所述压缩数据块的压缩期间，所述非零字节的一个或多个最高有效比特(MSB)被截断。

条款15：一种计算机实现的方法，其包括：在神经网络处理器的压缩单元处接收由所述神经网络处理器中的至少一个神经元生成的未压缩数据块，所述未压缩数据块包括固定数目的字节；生成压缩输出块的掩码部分，所述掩码部分包括：与所述未压缩数据块中的字节的所述固定数目相等的数目的比特，所述掩码部分中的每个比特对应于所述未压缩数据块中的字节，以及其中所述掩码部分中的每个比特在所述未压缩数据块中的对应字节为零的情况下包括逻辑零，并且在所述未压缩数据块中的对应字节为非零的情况下包括逻辑一；通过以下操作生成所述压缩输出块的数据部分：确定所述未压缩数据块中的非零字节的数目，基于所述未压缩数据块中的所述非零字节的数目，确定所述压缩输出块的所述数据部分中的、可用于存储所述未压缩数据块的截断的非零字节的比特的数目，将所述未压缩数据块中的所述非零字节截断为所确定的比特的数目，以及将所述截断的非零字节存储在所述压缩输出块的所述数据部分中；以及将所述压缩输出块存储在所述神经网络处理器的存储器中，所述压缩输出块包括所述掩码部分和所述数据部分。

条款16.根据条款15所述的计算机实现的方法，该方法还包括：确定所述压缩输出块的所述数据部分中的、可用于存储所述未压缩数据块的截断的非零字节的附加比特的数目；和在截断所述未压缩数据块中的所述非零字节中的一个或多个非零字节之前，将所述附加比特分配给所述一个或多个非零字节。

条款17.根据条款15和16中任一项所述的计算机实现的方法，还包括：如果所述未压缩数据块中的所述非零字节的数目小于或等于所述压缩数据块的所述数据部分中的字节的数目，则将所述未压缩数据块中的所述非零字节存储在所述压缩数据块的所述数据部分中而不截断。

条款18.根据条款15-17中任一项所述的计算机实现的方法，该方法还包括：在神经网络处理器的解压缩单元处接收所述压缩输出块；基于所述压缩输出块的所述掩码部分，确定所述未压缩数据块的所述数据部分中的所述非零字节的数目；基于所述压缩输出块的所述掩码部分，确定所述非零字节在所述未压缩数据块中的位置；确定被所述压缩单元用来在所述压缩输出块的所述数据部分中存储所述截断的非零字节的所述比特的数目；对于所述压缩输出块的所述掩码部分中为逻辑零的每个比特位置，将零字节插入到解压缩输出块的对应位置中；以及对于所述压缩输出块的所述掩码部分中为逻辑一的每个位置，将来自所述压缩输出块的对应位置中的所述截断的非零字节以及与在所述压缩输出块的压缩期间被截断的所述比特的数目相等的数目的零比特一起插入到所述解压缩输出块的对应位置中。

条款19.根据条款15-18中任一项所述的计算机实现的方法，还包括将偏移添加到存储在所述解压缩输出块中的所述截断的非零字节中的一个或多个字节。

条款20.根据条款15-19中任一项所述的计算机实现的方法，其中将偏移添加到存储在所述解压缩输出块中的所述截断的非零字节的一个或多个最低有效比特(LSB)。

基于前述，应当理解，本文已经公开了可以压缩和解压缩激活数据以减少存储器总线带宽的利用率的DNN模块。尽管已经以计算机结构特征、方法和转换动作、特定的计算机器和计算机可读介质专用的语言描述了本文介绍的主题，但是应该理解，所附权利要求书中提出的主题不必受限于本文描述的特定特征、动作或介质。相反，特定特征、动作和介质作为实现所要求保护的主题的示例形式而被公开。

上面描述的主题仅以举例说明的方式而被提供，并且不应被解释为限制性的。可以在不遵循所示出和描述的示例配置和应用的情况下并且在不脱离在所附权利要求中阐述的本公开的范围的情况下，对本文描述的主题进行各种修改和改变。

Claims

1.一种神经网络处理器，包括：

一个或多个神经元；和

压缩单元，所述压缩单元被配置为：

接收由所述神经网络处理器中的所述神经元中的至少一个神经元生成的未压缩数据块，所述未压缩数据块包括固定数目的字节；

生成压缩输出块的掩码部分，所述掩码部分包括与所述未压缩数据块中的字节的所述固定数目相等的数目的比特，所述掩码部分中的每个比特对应于所述未压缩数据块中的字节，以及其中所述掩码部分中的每个比特在所述未压缩数据块中的对应字节为零的情况下被设置为逻辑零，并且在所述未压缩数据块中的对应字节为非零的情况下被设置为逻辑一；

通过以下操作生成所述压缩输出块的数据部分：

确定所述未压缩数据块中的非零字节的数目，

基于所述未压缩数据块中的所述非零字节的数目，确定所述压缩输出块的所述数据部分中的、可用于存储所述未压缩数据块的截断的非零字节的比特的数目，

将所述未压缩数据块中的所述非零字节截断为所确定的所述比特的数目，以及

将所述截断的非零字节存储在所述压缩输出块的所述数据部分中；以及

输出所述压缩输出块，所述压缩输出块包括所述掩码部分和所述数据部分。

2.根据权利要求1所述的神经网络处理器，其中所述神经网络处理器还包括解压缩单元，所述解压缩单元被配置为：

接收所述压缩输出块；

基于所述压缩输出块的所述掩码部分，确定所述未压缩数据块的所述数据部分中的所述非零字节的数目；

基于所述压缩输出块的所述掩码部分，确定所述非零字节在所述未压缩数据块中的位置；

确定被所述压缩单元用来在所述压缩输出块的所述数据部分中存储所述截断的非零字节的所述比特的数目；

对于所述压缩输出块的所述掩码部分中为逻辑零的每个位置，将零字节插入到解压缩输出块的对应位置中；以及

对于所述掩码部分中为逻辑一的每个位置，将来自压缩输入块的对应位置中的所述截断的非零字节以及与在所述压缩输出块的压缩期间被截断的所述比特的数目相等的数目的零比特一起插入到所述解压缩输出块的对应位置中。

3.根据权利要求1所述的神经网络处理器，其中所述压缩单元还被配置为：

确定所述压缩输出块的所述数据部分中的、可用于存储所述未压缩数据块的截断的非零字节的附加比特的数目；以及

在截断所述未压缩数据块中的所述非零字节中的一个或多个非零字节之前，将所述附加比特分配给所述非零字节中的所述一个或多个非零字节。

4.根据权利要求2所述的神经网络处理器，其中所述解压缩单元还被配置为：确定向在所述压缩输出块的所述数据部分中存储的所述非零字节中的所述一个或多个非零字节分配的附加比特的数目。

5.根据权利要求2所述的神经网络处理器，其中所述解压缩单元还被配置为向在所述解压缩输出块中存储的所述截断的非零字节中的一个或多个截断的非零字节添加偏移。

6.根据权利要求1所述的神经网络处理器，其中所述非零字节的一个或多个最低有效比特(LSB)被截断。

7.根据权利要求1所述的神经网络处理器，其中所述非零字节的一个或多个最高有效比特(MSB)被截断。

8.一种神经网络处理器，包括：

一个或多个神经元；和

解压缩单元，所述解压缩单元被配置为：

接收包括掩码部分和数据部分的压缩数据块；

基于所述掩码部分中的比特，确定解压缩数据块中的非零字节的数目；

至少部分地基于所述非零字节的数目，确定被用来在所述压缩数据块的所述数据部分中存储截断的非零字节的比特的数目；

对于所述压缩数据块的所述掩码部分中为逻辑零的每个比特位置，将零字节插入到所述解压缩数据块的对应位置中；以及

对于所述压缩数据块的所述掩码部分中为逻辑一的每个位置，将来自所述压缩数据块的所述数据部分中的对应位置的截断的非零字节以及与在所述压缩数据块的压缩期间被截断的比特的数目相等的数目的零比特插入所述解压缩数据块中的对应位置中。

9.根据权利要求8所述的神经网络处理器，还包括压缩单元，所述压缩单元被配置为：

生成所述压缩数据块的所述掩码部分，所述掩码部分包括与所述未压缩数据块中的字节的所述固定数目相等的数目的比特，所述掩码部分中的每个比特对应于所述未压缩数据块中的字节，并且其中所述掩码部分中的每个比特在所述未压缩数据块中的对应字节为零的情况下包括逻辑零，并且在所述未压缩数据块中的对应字节为非零的情况下包括逻辑一；

通过以下操作生成所述压缩数据块的所述数据部分：

确定所述未压缩数据块中的非零字节的数目，

基于所述未压缩数据块中的所述非零字节的数目，确定所述压缩数据块的所述数据部分中的、可用于存储所述未压缩数据块的截断的非零字节的比特的数目，

将所述截断的非零字节存储在所述压缩数据块的所述数据部分中；以及

输出所述压缩数据块，所述压缩数据块包括所述掩码部分和所述数据部分。

10.根据权利要求9所述的神经网络处理器，其中所述压缩单元还被配置为：如果所述未压缩数据块中的所述非零字节的数目小于或等于所述压缩数据块的所述数据部分中的字节的数目，则将所述未压缩数据块中的所述非零字节存储在所述压缩数据块的所述数据部分中而不截断。

11.根据权利要求9所述的神经网络处理器，其中所述压缩单元还被配置为：

12.根据权利要求8所述的神经网络处理器，其中所述解压缩单元还被配置为：确定向在所述压缩输出块的所述数据部分中存储的所述非零字节中的所述一个或多个非零字节分配的附加比特的数目。

13.根据权利要求8所述的神经网络处理器，其中所述非零字节的一个或多个最低有效比特(LSB)在所述压缩数据块的压缩期间被截断。

14.根据权利要求8所述的神经网络处理器，其中所述非零字节的一个或多个最高有效比特(MSB)在所述压缩数据块的压缩期间被截断。

15.一种计算机实现的方法，包括：

在神经网络处理器的压缩单元处接收由所述神经网络处理器中的至少一个神经元生成的未压缩数据块，所述未压缩数据块包括固定数目的字节；

生成压缩输出块的掩码部分，所述掩码部分包括：

与所述未压缩数据块中的字节的所述固定数目相等的数目的比特，

所述掩码部分中的每个比特对应于所述未压缩数据块中的字节，以及

其中所述掩码部分中的每个比特在所述未压缩数据块中的对应字节为零的情况下包括逻辑零，并且在所述未压缩数据块中的对应字节为非零的情况下包括逻辑一；

通过以下操作生成所述压缩输出块的数据部分：

确定所述未压缩数据块中的非零字节的数目，

将所述压缩输出块存储在所述神经网络处理器的存储器中，所述压缩输出块包括所述掩码部分和所述数据部分。

16.根据权利要求15所述的计算机实现的方法，还包括：

17.根据权利要求16所述的计算机实现的方法，还包括：如果所述未压缩数据块中的所述非零字节的数目小于或等于所述压缩数据块的所述数据部分中的字节的数目，则将所述未压缩数据块中的所述非零字节存储在所述压缩数据块的所述数据部分中而不截断。

18.根据权利要求15所述的计算机实现的方法，还包括：

在神经网络处理器的解压缩单元处接收所述压缩输出块；

对于所述压缩输出块的所述掩码部分中为逻辑零的每个比特位置，将零字节插入到解压缩输出块的对应位置中；以及

对于所述压缩输出块的所述掩码部分中为逻辑一的每个位置，将来自所述压缩输出块的对应位置中的所述截断的非零字节以及与在所述压缩输出块的压缩期间被截断的所述比特的数目相等的数目的零比特一起插入到所述解压缩输出块的对应位置中。

19.根据权利要求18所述的计算机实现的方法，进一步包括：向在所述解压缩输出块中存储的所述截断的非零字节中的一个或多个截断的非零字节添加偏移。

20.根据权利要求19所述的计算机实现的方法，其中所述偏移被添加到在所述解压缩输出块中存储的所述截断的非零字节的一个或多个最低有效比特(LSB)。