CN109245773A

CN109245773A - 一种基于块循环稀疏矩阵神经网络的编解码方法

Info

Publication number: CN109245773A
Application number: CN201811279234.9A
Authority: CN
Inventors: 潘红兵; 秦子迪; 朱杏伟; 孙华庆; 苏岩; 朱棣; 吴加维; 沈庆宏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-01-18
Anticipated expiration: 2038-10-30
Also published as: CN109245773B

Abstract

本发明涉及基于块循环稀疏矩阵神经网络的编解码方法，对具有块循环稀疏权值矩阵的全连接神经网络进行压缩编码；利用权值矩阵的循环特性和稀疏性，设计的采取掩模矩阵和非零值列表的编码方法；利用输入激励的稀疏性，设计的采取掩模向量和非零值列表的编码方法；充分利用了掩模矩阵和循环矩阵的特点，采用了硬件友好的解码方法。有益效果为：对稀疏的输入激励向量和权值矩阵同时进行压缩编码，有效减少数据所需的存储空间和运算过程中搬运数据所需的存储接入次数。在神经网络运算过程中，该方法能够有效降低访存消耗的能量，便于处理器跳过不必要的运算，提高硬件系统的吞吐率。

Description

一种基于块循环稀疏矩阵神经网络的编解码方法

技术领域

本发明涉及稀疏深度神经网络压缩方法，尤其涉及基于块循环稀疏矩阵神经网络的编解码方法。

背景技术

深度神经网络广泛应用于人工智能领域，尤其在图像识别领域取得了目前最好的准确度。大规模的深度神经网络的计算复杂度高、包含大量的运算参数，因此对处理器的运算性能有较高的要求。在嵌入式系统等资源受限的系统中处理深度神经网络，对处理器的能效要求很高。研究发现深度神经网络中包含大量的零元素，通过剪枝技术进行处理后，神经网络的稀疏度会更高。因此利用深度神经网络的稀疏性设计专门的硬件加速器有利于提高稀疏矩阵向量乘的运算吞吐率，并且降低功耗，提高系统能效，有利于在嵌入式系统中实现高效能的深度神经网络。目前出现的针对稀疏神经网络的加速器存在负载不均衡，编解码方式复杂，运算不规则等问题。

发明内容

本发明目的在于克服以上现有技术之不足，提供一种基于块循环稀疏矩阵神经网络的编解码方法，具体有以下技术方案实现：

所述基于块循环稀疏矩阵神经网络的编码方法，包括如下步骤：

步骤1)将全连接神经网络权值矩阵采用块循环矩阵进行表示和稀疏化处理后，转换成由多个子循环稀疏矩阵组成的矩阵，由W^b表示；

步骤2)将所述块循环矩阵应用到全连接层中后，假设权值矩阵划分为p×q个子矩阵，每个子矩阵的分块大小为k，将全连接层中的矩阵向量乘变换成小块的循环矩阵向量乘运算；

步骤3)将块循环稀疏矩阵W^b由循环掩模矩阵M和非零值矩阵Val进行存储；

步骤4)进一步对输入的稀疏激励向量x进行压缩处理，激励向量x被分成q段短向量，用x^q表示，每段向量长度为k，对于每一段向量x^q，采用权重压缩的方式进行存储，采用掩模向量v^q表示非零值的位置，采用非零值向量V^u存储所有的非零元素。

所述基于块循环稀疏矩阵神经网络的编码方法的进一步设计在于，所述步骤1)包括如下步骤：

步骤1-1)根据式1)表示全连接层的算法；

y＝f(Wa+b) (1)

其中，a是计算输入的激励向量，y表示输出向量，b表示偏置，f表示非线性函数，W表示权值矩阵；

步骤1-2)结合式(1)输出向量y的每个元素值的运算由式(2)表现；

i表示元素所在行数，j表示元素所在列数，n表示输入激励的个数；

步骤1-3)根据式(3)将神经网络权值矩阵转换；

其中，每一个子矩阵W_ij ^c都是一个循环矩阵，其中i∈[1,p],j∈[1,q]，根据循环矩阵的特点，矩阵W_ij ^c中的每一行都可以由第一行的循环移位来形成。

所述基于块循环稀疏矩阵神经网络的编码方法的进一步设计在于，所述步骤2)中根据式(4)将全连接层中的矩阵向量乘变换成小块的循环矩阵向量乘运算，输出结果将被划分为多个子向量yⁱ，其中i∈[1,p]

所述基于块循环稀疏矩阵神经网络的编码方法的进一步设计在于，所述步骤4)中对于任意一个初始权值矩阵，压缩率L由公式(5)进行计算，

其中，s代表权值矩阵的稀疏度，b代表每个权值的数据位宽。

根据上述基于块循环稀疏矩阵神经网络的编码方法，提供一种对应的解码方法，具体包括如下步骤：

步骤A)处理器读取一个子块的权值矩阵W_ij和激励向量v_ij对应的掩模初始向量和激励掩模向量将初始掩模向量循环展开成掩模矩阵

步骤B)通过将掩模矩阵和激励的掩模向量进行按行相与操作，得到中间掩模矩阵R^bq；步骤C)根据掩模矩阵R^bq计算出相应的非零元素值，同时取出激励中相应的非零元素值，传输至运算单元中进行计算；

步骤D)运算单元进行计算后将结果缓存到寄存器中，至此处理器根据提出的块循环矩阵完成快速的解码操作。

所述解码方法的进一步设计在于，R^bq是一个由0和1组成的矩阵，1的位置代表了和中共同非零元素的位置，若向量值全部为0，则不需要对该子块进行计算，若存在1，则计算出1在向量中的位置。

所述解码方法的进一步设计在于，中间掩模矩阵R^bq中每一行中1的位置所代表的元素通过初始行向量中非零元素的位置根据循环规律得出。

所述解码方法的进一步设计在于，激励掩模向量中1的位置所代表的元素直接从存储器中的非零值向量V^u取出。

本发明的优点如下：

本发明提供的基于块循环稀疏矩阵神经网络的编解码方法，充分利用了基于块循环矩阵的稀疏神经网络权值矩阵的运算特点，同时对权值矩阵和输入激励进行了压缩、编码，提出了采用掩模矩阵、向量的编码方法。该方法有效减少了存储激励和权重的存储需求。本发明提供的解码方法便于硬件在计算过程中同时跳过激励和权值的零元素，有效地提高硬件运算的吞吐率。该方法便于硬件实现，能够快速实现压缩的解码过程。

附图说明

图1是循环矩阵压缩示意图。

图2是循环稀疏矩阵压缩算法示意图。

图3是激励向量压缩方式示意图。

图4是解码过程示意图。

具体实施方式

下面结合附图对本发明方案进行详细说明。

本方案所述的编解码方法主要针对全连接深度神经网络中进行设计，结合了块循环矩阵和稀疏矩阵的特点进行网络压缩。

全连接层的算法计算公式如下：

y＝f(Wa+b) (1)

其中，a是计算输入的激励向量，y表示输出向量，b表示偏置，f表示非线性函数，W表示权值矩阵。

公式(1)中输出向量y的每个元素值的运算可以表示：

式(2)中，i表示元素所在行数，j表示元素所在列数，n表示输入激励的个数(权值矩阵总列数)。

因此，全连接层的主要运算分为：矩阵向量乘法、非线性函数运算和元素相加运算。其中，矩阵向量乘法计算复杂度最高，运算过程中需要进行大量的数据搬移。

假设神经网络权值矩阵采用块循环矩阵进行表示，那么权值矩阵W将会被转换成由多个子循环矩阵组成的矩阵，由W^b表示，如公式(3)所示：

其中，每一个子矩阵W_ij ^c都是一个循环矩阵，其中i∈[1,p],j∈[1,q]。根据循环矩阵的特点，矩阵中的每一行都可以由第一行的循环移位来形成，因此只需要存储循环矩阵的第一行，就可以生成矩阵中其他的行。

将上述块循环矩阵应用到FC层中后，假设权值矩阵划分为p×q个子矩阵，每个子矩阵的分块大小为k。全连接层中的矩阵向量乘将会变换成如公式(4)所示(省略了ReLU和偏置)，输出结果将被划分为多个子向量yⁱ，其中i∈[1,p]

可以看出原来的大的矩阵向量乘，划分成了小块的循环矩阵向量乘运算。采用这种块循环矩阵的方法，可以将矩阵的存储复杂度从O(pqk²)降低到O(pqk)。假设k＝4，权值矩阵分为4块小的循环矩阵，如图1所示，权值矩阵将被压缩成4行向量进行存储。

由于神经网络中的权值矩阵和输入向量都具有较高的稀疏性，因此可以利用稀疏性来进一步降低计算复杂度和压缩运算数据。针对上述循环矩阵的特点和权值的稀疏性，本方案提出了一个针对稀疏的块循环矩阵和输入向量的压缩、编码和解码方式。

本实施例提供的压缩算法如图2所示，该方法中原始权值矩阵W^b可以由循环掩模矩阵M和非零值矩阵Val来进行存储。矩阵M中存储的是每个块循环矩阵向量中的非零值对应的位置，也就是非零值处为1，零值处为0。非零值矩阵Val用来存储各初始循环向量的非零值，存储方式为按行压缩存储。图2中展示的是循环矩阵分块大小k＝4的情况，压缩前的循环矩阵的数据量为2048bits(32bits浮点表示)，而压缩后所需要的数据量仅需要304bits，压缩率达到了14.8％。对于任意一个初始权值矩阵，压缩率L可以由公式(5)进行计算，其中，s代表矩阵的稀疏度，b代表每个权值的数据位宽，

进一步对输入激励向量x进行压缩处理，激励向量x被分成q段短向量，用x^q表示，每段向量长度为k。对于每一段向量x^q，用类似于权重压缩的方式进行存储，如图3所示。用一个掩模向量v^q来表示非零值的位置，一个非零值向量V^u来存储所有的非零元素。

下面介绍该压缩方法在硬件中的解码步骤。解码过程如图4所示，在进行矩阵向量乘运算时，处理器首先读取一个子块的权值矩阵W_ij和激励向量v_ij对应的掩模初始向量和激励掩模向量将初始掩模向量循环展开成掩模矩阵然后通过矩阵中每一行和进行按位与的操作，得到中间掩模矩阵R^bq。R^bq是一个由0和1组成的矩阵，1的位置代表了和中共同非零元素的位置。若向量值全部为0，则不需要对该块进行计算。若存在1，则计算出1在向量中的位置，然后根据1所在位置，计算出相应的非零元素值，同时取出激励中相应的非零元素值，送到运算单元中进行计算。激励掩模向量中1的位置所代表的元素可以直接从存储器中取出；中间掩模矩阵R^bq中每一行中1的位置所代表的元素可以通过初始行向量中非零元素的位置通过循环的规律得出。将对应数据送入运算单元进行计算，结果缓存到寄存器中。通过上述过程，处理器便能够根据提出的编、解码方法对稀疏的块循环矩阵进行快速的解码。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于块循环稀疏矩阵神经网络的编码方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于块循环稀疏矩阵神经网络的编码方法，其特征在于所述步骤1)包括如下步骤：

步骤1-1)根据式1)表示全连接层的算法；

y＝f(Wa+b) (1)

步骤1-3)根据式(3)将神经网络权值矩阵转换；

3.根据权利要求1所述的基于块循环稀疏矩阵神经网络的编码方法，其特征在于所述步骤2)中根据式(4)将全连接层中的矩阵向量乘变换成小块的循环矩阵向量乘运算，输出结果将被划分为多个子向量yⁱ，其中i∈[1,p]

4.根据权利要求1所述的基于块循环稀疏矩阵神经网络的编码方法，其特征在于所述步骤4)中对于任意一个初始权值矩阵，压缩率L由公式(5)进行计算，

5.采用如权利要求1-4任一项所述的基于块循环稀疏矩阵神经网络的编码方法的解码方法，其特征在于包括如下步骤：

步骤B)通过将掩模矩阵和激励的掩模向量进行按行相与操作，得到中间掩模矩阵R^bq；

步骤C)根据掩模矩阵R^bq计算出相应的非零元素值，同时取出激励中相应的非零元素值，传输至运算单元中进行计算；

6.根据权利要求5所述的解码方法，其特征在于，R^bq是一个由0和1组成的矩阵，1的位置代表了和中共同非零元素的位置，若向量值全部为0，则不需要对该子块进行计算，若存在1，则计算出1在向量中的位置。

7.根据权利要求5所述的解码方法，其特征在于，中间掩模矩阵R^bq中每一行中1的位置所代表的元素通过初始行向量中非零元素的位置根据循环规律得出。

8.根据权利要求5所述的解码方法，其特征在于，激励掩模向量中1的位置所代表的元素直接从存储器中的非零值向量V^u中取出。