CN112883982A

CN112883982A - 一种面向神经网络稀疏特征的数据去零编码及封装方法

Info

Publication number: CN112883982A
Application number: CN202110024406.3A
Authority: CN
Inventors: 张萌; 王党辉; 张盛兵; 朱挺; 李楚曦; 丁汇; 姚腾腾; 王淼
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-06-01
Anticipated expiration: 2041-01-08
Also published as: CN112883982B

Abstract

本发明公开了一种面向神经网络稀疏特征的数据去零编码及封装方法，首先定义数据存储传输单元，再将数据存储传输单元划分为若干个数据去零单元，根据数据去零单元中的非零和零数据，形成数据去零单元的掩码信息，再将掩码信息与非零数据组成结构体，完成第一级编码；再按照数据传输位宽对结构体进行封装；对封装后的数据定义MaskLoc和MaskEff，组成maskinfo，完成第二级编码；再按照数据传输位宽对maskinfo进行第三级编码和封装；本发明可以保留去零时神经网络计算输出特征图与DDR存储结构之间的映射关系，能够提升计算速度，并且减少实际需要的译码资源，降低实际的系统功耗。

Description

一种面向神经网络稀疏特征的数据去零编码及封装方法

技术领域

本发明属于信息处理技术领域，具体涉及一种数据去零编码及封装方法。

背景技术

受到神经网络结构模型的影响，在计算中存在大量的激活操作，目前最常见的激活函数为RELU函数，而通过RELU函数激活后的输出数据中有着伴随着大量的零值的稀疏化特征。传统的卷积神经网路加速器在计算过程中往往会伴随着高达40％的零值分布情况，零值的分布在神经网络计算过程中十分普遍。

神经网络加速器的带宽限制是制约其高效完成计算任务的瓶颈，计算过程往往伴随着大量的数据，这些数据直接进行传输会消耗大量的传输时间。但是由于这些数据中的稀疏化特征，直接传输原始数据时接口传输了大量的无效零值，对于提升计算的性能是十分不利的。

在神经网络加速器中，由于硬件模型操作造成的这种大量的零值，在计算和数据传输过程中会耗费大量的计算资源和传输带宽处理这些零值的问题。这种零值的问题极大制约了神经网络加速器性能的提升，造成资源尤其是传输带宽的极大浪费。

深度卷积神经网络模型具有模型深度高、层次复杂、数据量级大、并行度高、计算密集和存储密集等特征，所以计算结果的数据维度比较高，加上神经网络中可能存在的频繁的输出维度变化操作，本身索引方式就相对比较复杂。数据存储在DDR中的存储只具有一维的线性存储关系，而计算结果在输出特征图上的存储结构则为三维结构，这样不去零时由于计算结果的数据总量是固定的，所以此时仍然存在从DDR一维结构到输出特征图的三维结构上的位置映射。这种情况在去零过程中更加的明显，由于对数据进行去零处理后，有效数据总量不再固定，去零数据进行去零后会失去数据总量固定性的特征，直接进行去零编码会使数据丧失其存储在DDR上的位置到三维输出特征图结构上相应的位置的映射，这样在译码过程中对于数据的译码必须从第一个数据开始进行，造成译码逻辑较为复杂。

嵌入式系统在要求更高的计算并行度时这种问题将会更加严重。当嵌入式平台并行度要求比较高时，采取去零的方式时，如果数据没有保留相应的位置信息，会造成数据译码时由于需要对去零后的数据进行串行译码而严重制约并行度的提升。串行解码需要硬件按照数据存储的顺序将数据依次进行解码，即后面的译码结果会与前面的译码过程有着很重要的依赖关系。在这种关系上，无法进行高并行的额的译码和计算，造成计算并行度的浪费。

发明内容

为了克服现有技术的不足，本发明提供了一种面向神经网络稀疏特征的数据去零编码及封装方法，首先定义数据存储传输单元，再将数据存储传输单元划分为若干个数据去零单元，根据数据去零单元中的非零和零数据，形成数据去零单元的掩码信息，再将掩码信息与非零数据组成结构体，完成第一级编码；再按照数据传输位宽对结构体进行封装；对封装后的数据定义MaskLoc和MaskEff，组成maskinfo，完成第二级编码；再按照数据传输位宽对maskinfo进行第三级编码和封装；本发明可以保留去零时神经网络计算输出特征图与DDR存储结构之间的映射关系，能够提升计算速度，并且减少实际需要的译码资源，降低实际的系统功耗。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：神经网络加速器的输出特征图具有三维结构；将输出特征图三维结构中的任意两个维度定义为数据的二维位置信息，二维位置信息之外第三个维度表示的通道数为C；设定原始二进制数据位宽为N，N＝2ⁿ,n＝1,2,3……；C＝p*N，p＝1,2,3…；

定义数据存储传输单元：任意一个数据存储传输单元中包含C个原始数据，同一个数据存储传输单元中的C个原始数据的二维位置信息相同，且这C个原始数据分布在第三个维度的C个通道上，每个通道一个原始数据；

步骤2：将数据存储传输单元划分为连续的p个数据去零单元，数据去零单元中的数据个数为N；

步骤3：将数据存储传输单元的第一个数据去零单元中的非零值数据标记为1，零值数据标记为0，由连续N个标记形成一个位宽为N的二进制数据，记为掩码信息 Mask1；将掩码信息Mask1和数据去零单元中的非零值数据组成结构体MaskData1，结构体MaskData1中掩码信息Mask1排第一位，数据去零单元中的非零值数据按照在数据去零单元中顺序依次排列在掩码信息Mask1后面；

步骤4：将数据存储传输单元的其余数据去零单元按照步骤3的方法进行处理，得到p个结构体MaskData，将这p个结构体MaskData按照数据去零单元在数据存储传输单元中的顺序依次排列，记为总结构体pMaskData；完成第一级编码；

步骤5：设定神经网络加速器的数据传输位宽为M，M＝2^m,m＝1,2,3……，m>n， m/n＝q；将总结构体pMaskData按每M位划分为一组，最后一组不足M位的部分补零，补够M位，完成对总结构体pMaskData的封装；

步骤6：对总结构体pMaskData的第一组，将表示掩码信息Mask的N位数据记为1，将表示非掩码信息Mask的N位数据记为0，形成一个位宽为q的二进制数，记为位置掩码信息MaskLoc1；将q用二进制表示，记为MaskEff1；由MaskLoc1和 MaskEff1组成maskinfo_1，maskinfo_1为位宽为2q的二进制数；

步骤7：对总结构体pMaskData中除第一组和最后一组之外的其余组，按照步骤 5的方法得到其余组对应的maskinfo，依次定义为maskinfo_2,maskinfo_3,…；对于最后一组，位置掩码信息MaskLoc的生成方法与步骤5相同，统计最后一组中掩码信息 Mask和非零值数据的数量，用二进制表示为MaskEff，最后一组的MaskLoc和MaskEff 组成最后一组的maskinfo；由maskinfo_1,maskinfo_2,maskinfo_3,…,最后一组的 maskinfo顺序排列构成pmaskinfo；完成第二级编码；

步骤8：将pmaskinfo按每M位划分为一组，完成第三级编码；

最后一组不足M位的部分用16bit的FF00补充，补够M位，完成对pmaskinfo 的封装；

步骤9：改变二维位置信息，形成新的数据存储传输单元，按照步骤2到步骤8的方法对新的数据存储传输单元进行编码和封装；

步骤10：遍历所有的二维位置信息，完成对所有数据存储传输单元的编码和封装；各个数据存储传输单元相互独立。

本发明的有益效果如下：

(1)本发明有利于完成在较少硬件资源下数据的灵活调度与计算，提升整体硬件系统灵活性；

(2)本发明可以在神经网络硬件加速过程中尽可能提升数据传输效果，最大程度上提升计算性能；

(3)本发明有助于对神经网络计算的数据高效编码方案提供基础，并且可以通过一定方式进行扩展，实现更高效的量化稀疏计算模式。

附图说明

图1为本发明方法整体流程图。

图2为本发明方法表示的输出数据稀疏特征。

图3为本发明方法数据在输出特征图上的三维位置特征。

图4为本发明方法数据存储在DDR上的一维线性特征。

图5为本发明方法为解决去零索引困难问题对数据进行分组去零的示意图。

图6为本发明方法根据像素点位置进行分组后各个部分的划分及其需要进行的操作。

图7为本发明方法三级编码及封装示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明能在神经网络加速器进行前向推导时降低网络计算数据中分布的大量零值造成的计算及带宽资源的浪费，并且使数据在去零后仍然保持数据所具有的三维位置特征信息。

如图1所示，本发明提供一种面向神经网络稀疏特征的数据去零编码及封装方法，包括以下步骤：

步骤8：将pmaskinfo按每M位划分为一组，完成第三级编码；

具体实施例：

如图2到图7所示，本实施例去零编码操作依赖于对于原始数据的三级去零编码，以数据位宽为16b，传输接口位宽为128b，神经网络计算输出通道并行度为32为例，此时的输出原始数据32个通道上同一个像素点位置的信息，数据划分的结构应当尽可能保留数据的位置信息，所以为了能够保留去零后数据的三维位置信息，则对于存储传输单元的划分为32个数据一个单元。此时不考虑发生输出通道优化的情况下，假设某一个时刻接收到的原始数据如图7的Data所示，数据共有32个，其中包含着大量的零值信息，此时第一级的去零时先根据数据的位宽以16为单位将此32个数据分为两组，此为两个去零分组单元，两个单元之间的去零操作相互独立，由图7所示，前16个数据根据其位置上是否为有效值会得到16个标志位，此16个标志位按照顺序进行组合则得到第一组原始数据的去零掩码信息Msak1，此时第一级的编码则将第一组数据按照先Mask后去零有效数据的方式重新进行编码。

本实施例在第一个去零分组单元完成去零编码后，由于此时的存储传输单元中没有将该单元内的所有32个数据完全进行处理，所以在对该存储传输单元的第二个去零分组单元(图2中的后16个数据)的去零操作是独立的，但是编码操作要在第一个去零分组编码结果基础上进行，如图7所示，第二个去零分组单元产生了一个用标记有效数据位置的Mask2和若干个去零有效数据，将他们按照先Mask后去零数据的顺序编码后需要严格编码在第一个去零分组单元的编码结构之后。

此时图7中的该存储传输的数据已经完全去零编码完成，所以进行该存储传输模块的封装，在编码完成后的数据之后补充无效的零值使其能够满128b的位宽要求，此时第一级的去零编码已经完成。

本实施例为了进一步保留去零过程中的相关信息则会对去零数据继续进行第二级编码，通过记录MaskData中的Mask的位置可以得到8个Mask标记位(MaskLoc)。此时通过将这些标记位按照顺序进行排列则可以得到8位(128/16)的Mask位置信息，此时再扩展另外的8位(记MaskEff)用来记录当前所传输的MaskData的有效的数据量，此时每个传输的MaskData数据都有一个8bit的MaskLoc与一个同样8bit的 askEff与其相互对应。第二级的编码则将按照先askEff后MaskLoc的顺序编码成完整的MaskInfo信息(16bit)，然后将同一个数据存储传输单元的所有MaskInfo编码到同一个数据结构中。

在去零数据的第二级编码完成后，需要将整个存储传输单元的所有MaskInfo信息进行第三级的编码，按照数据发送的顺序(先传输的mask_data数据对应的MaskInfo 信息置于高位)将MaskInfo按照传输接口带宽的128bit进行编码，当前存储传输单元的所有MaskInfo编码完成后，必须进行MaskInfo信息的封装，保证MaskInfo信息与 MaskData信息有着相同的封装分离程度。如图7所示，用16bit的FF00来补充不足 128的整数倍的问题。

在对编码完成的数据进行译码使用时，由于前面的编码已经实现了不同位置之间数据的完全分离，此时当并行译码实现在不同位置(即在不同数据存储传输单元)之间时，则可以直接独立的去处理不同的数据存储传输单元即可。当并行译码需要进一步深入到同一个位置的数据时，MaskInfo可以方便让译码过程方便的各个去零分组单元完全分离并分别进行并行译码。根据MaskInfo中MaskLoc的位置判断出Mask的位置信息，则可以直接对应到相应的去零分组单元的位置。

Claims

1.一种面向神经网络稀疏特征的数据去零编码及封装方法，其特征在于，包括以下步骤：

步骤3：将数据存储传输单元的第一个数据去零单元中的非零值数据标记为1，零值数据标记为0，由连续N个标记形成一个位宽为N的二进制数据，记为掩码信息Mask1；将掩码信息Mask1和数据去零单元中的非零值数据组成结构体MaskData1，结构体MaskData1中掩码信息Mask1排第一位，数据去零单元中的非零值数据按照在数据去零单元中顺序依次排列在掩码信息Mask1后面；

步骤5：设定神经网络加速器的数据传输位宽为M，M＝2^m,m＝1,2,3……，m>n，m/n＝q；将总结构体pMaskData按每M位划分为一组，最后一组不足M位的部分补零，补够M位，完成对总结构体pMaskData的封装；

步骤6：对总结构体pMaskData的第一组，将表示掩码信息Mask的N位数据记为1，将表示非掩码信息Mask的N位数据记为0，形成一个位宽为q的二进制数，记为位置掩码信息MaskLoc1；将q用二进制表示，记为MaskEff1；由MaskLoc1和MaskEff1组成maskinfo_1，maskinfo_1为位宽为2q的二进制数；

步骤7：对总结构体pMaskData中除第一组和最后一组之外的其余组，按照步骤5的方法得到其余组对应的maskinfo，依次定义为maskinfo_2,maskinfo_3,…；对于最后一组，位置掩码信息MaskLoc的生成方法与步骤5相同，统计最后一组中掩码信息Mask和非零值数据的数量，用二进制表示为MaskEff，最后一组的MaskLoc和MaskEff组成最后一组的maskinfo；由maskinfo_1,maskinfo_2,maskinfo_3,…,最后一组的maskinfo顺序排列构成pmaskinfo；完成第二级编码；

步骤8：将pmaskinfo按每M位划分为一组，完成第三级编码；

最后一组不足M位的部分用16bit的FF00补充，补够M位，完成对pmaskinfo的封装；