CN108416427A

CN108416427A - 卷积核堆积数据流、压缩编码以及深度学习算法

Info

Publication number: CN108416427A
Application number: CN201810153442.8A
Authority: CN
Inventors: 高日超; 张盛; 陈豪; 钟明远
Original assignee: Chongqing Trust Technology Co Ltd
Current assignee: Beijing sifengke Technology Co.,Ltd.
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2018-08-17

Abstract

本发明提供卷积核堆积数据流、压缩编码以及深度学习算法，从参数模型中逐层读取卷积层和全连接层的卷积核矩阵，将卷积核矩阵进行重组变换；一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个卷积核权重数组进行卷积计算。本发明解决稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点，以及提高计算阵列利用率的问题。

Description

卷积核堆积数据流、压缩编码以及深度学习算法

技术领域

本发明涉及神经网络技术领域，特别涉及卷积核堆积数据流、压缩编码以及深度学习算法。

背景技术

近年来深度神经网络获得突破性进展，在大量领域取得突破性的性能优势，并且性能逐年提升；在图像分类识别，运动检测，物体检测，图像语义理解，翻译，自然语言处理等领域具有广阔的应用前景；但同时具有网络参数存储占用大量内存，计算量巨大，计算过程中需要大量的内存数据交互，内存能耗带宽成为瓶颈；目前设计普遍处理速度相对较慢，不适合高速应用等缺点；目前基于GPU的加速设计功耗大体积大，不适用于小型移动设备。移动嵌入式设备由于内存计算资源有限，限制了深度神经网络的广泛应用。

当前优化加速深度学习神经网络的研究方向主要可以分为四类：1)降低精度：降低网络参数的精度，由浮点数转为定点数，降低比特数，由高比特32bit降低为16bit，8bit，4bit，甚至1比特等；2)简化计算：将卷积层和全连接层中乘法运算转为移位和加法运算；3)优化流程：通过优化运算流程和数据流程降低移动数据所需的次数和功耗；4)深度压缩：通过深度数据压缩来降低参数所需存储空间和运算次数，尽可能的将所有数据都缓存到片上，降低内存存取次数。

斯坦福大学的深度压缩，通过剪枝，量化，共享权重，huffman编码等手段可以将Alexnet压缩35×，VGGNET压缩49×，但是他们的硬件实现中只针对全连接层进行了优化。麻省理工大学的Eyeriss的流程优化没有充分考虑稀疏数据的特点等，目前的实现往往只针对某一个方面，适应性不强，对于压缩的稀疏数据，由于稀疏数据内存不规则的特点，普遍存在数据处理电路复杂，计算阵列利用率低的问题。

因此，为了解决上述问题，需要提高计算阵列利用率的卷积核堆积数据流、压缩编码以及深度学习算法。

发明内容

本发明的目的在于提供一种深度学习算法以解决现有技术中稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点，以及提高计算阵列利用率的问题。

本发明的一个方面在于提供一种用于深度学习网络的卷积核堆积数据流的方法，所述方法包括如下步骤：

从参数模型中逐层读取卷积层和全连接层的卷积核矩阵，将卷积核矩阵进行重组；

一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算。

优选地，所述卷积核矩阵重组通过如下步骤实现：

将卷积核矩阵分为M’组，每一组具有m个卷积核矩阵，并且将卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组，将全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。

本发明的另一个方面在于提供一种相对索引稀疏卷积核压缩的编码方法，所述编码方法包括：

将按卷积核通道顺序存放的权重数组展开，

按列将m个filter同一通道相同位置的m个卷积核矩阵的权重数组顺序存放。

优选地，所述编码方法还包括：如果第一行中某一个权重数组的值为0，则删除该列；

并且，将下一列中第二行的相对索引值加一，第三行的相对列指针减一。

本发明的再一个方面在于提供一种寻找最优存储索引的比特数的方法，所述方法通过如下公式计算：

其中，Nz_num为非0卷积核矩阵的权重数组的个数；wbit为存储卷积核矩阵的权重数组所需的bit数；bit为存储相对索引所需的bit数；zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。

本发明的又一个方面在于提供一种深度学习算法，所述算法包括如下步骤：

a)从参数模型中逐层读取卷积层和全连接层的卷积核矩阵，将卷积核矩阵进行重组；

b)统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布，以及权重数组非0值的个数；

c)通过如下方法寻找最优存储索引的比特数：

d)一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算，将卷积计算的结果重新连接为输出矩阵。

优选地，所述步骤c)得到最优存储索引的比特数后，重新统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布，以及权重数组非0值的个数；

当权重数组连续为0的个数≥2^bit时插入一个0，并将权重数组非0值与插入的0值记录到稀疏矩阵数据流和索引流中。

本发明用于深度学习网络的卷积核堆积数据流的方法(SFS)以及相对索引稀疏卷积核压缩(CSF)的编码方法，同时应用于卷积层以及全连接层等，具有实用性强，编码后的数据可以直接在计算中使用，避免了稀疏数据内存不规则导致在使用时需要复杂的处理电路的缺点。同时编码方法得到编码格式中将大部分0数据压缩为索引，在计算可以直接跳过，省却了大量的旁路0所需的时钟，同时因为在编码时已经将大部分0压缩，计算阵列利用率大大提升。

本发明提出的数据流以及编码方法使得数据的分布改变，0数据分布更趋于1方向集中，同样总得非零数据个数的分布也更趋于1方向集中，这个分布使得执行计算时的负载更加均衡，保存索引所需要的bit数以及补0的数量进一步降低。

应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了现有技术中m个卷积核矩阵的权重数组的存储方式；

图2示出了本发明m个卷积核矩阵的权重数组的存储方式；

图3示出了本发明与ALEXNET相比不同层中连续0的个数的分布示意图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例，相关技术术语应当是本领域技术人员所熟知的。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤，除非另有说明。下面通过具体的实施例对本发明的内容进行说明，本发明提供了深度学习算法，用于深度学习网络的卷积核堆积数据流的方法(SFS)和相应的相对索引稀疏卷积核压缩(CSF)编码方法同时应用于卷积层(CONV)和全连接层(FC)。根据本发明的实施例，首先将卷积层和全连接层的计算统一，即：

其中，0≤cho＜M，0≤chi＜C，0≤r＜K，0≤c＜K，

0≤x＜W’，0≤y＜H’，W'＝(W-K)/S+1，H'＝(H-K)/S+1。

式中，V_o为输出特征，V_i为输入特征，W_f为卷积核矩阵，S为步长，C为通道数，K为卷积核内核尺寸，M为卷积核数量，W，H为输入特征的每个通道的尺寸维度，W’H’为输出特征的每个通道的尺寸维度。

本实施例中，以深度压缩后的Alexnet为例(忽略其他层)，Alexnet共有5层卷积层，3层全连接层。

本发明将一个已经训练好的稀疏网络卷积核矩阵的权重数组重组，将权重数组按本发明提供的编码方法得到编码格式进行存放(编码方法将在下文中说明)。实施例中，训练好的caffemodel模型里面包含了每一层(包括卷积层和全连接层)的信息以及权重数组。

卷积核堆积数据流

从参数模型(训练好的caffemodel模型)中逐层读取卷积层和全连接层的卷积核矩阵，将卷积核矩阵进行重组。卷积核矩阵重组通过如下步骤实现：

卷积层和全连接层的计算统一后，将卷积核矩阵分为M’组，每一组具有m个卷积核矩阵，并且将卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组，将全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。

根据本发明的实施例，卷积核矩阵的权重数组在维数转变之前卷积核矩阵表示为：维数转变之后卷积核矩阵表示为：

实施例中，通过如下公式进行卷积核矩阵的权重数组的维数转变：

卷积层：W_f'[n][chi][r][c][j]＝W_f[n×m+j][chi][r][c]，

全连接层：W_f'[n][chi][j]＝W_f[n×m+j][chi]，

其中，0≤chi＜C，0≤r＜K,0≤c＜K,0≤j＜m，0≤n＜M',M'＝M/m。

每组卷积核矩阵的大小m可以取4，8，16等值，实施例中为了简便起见，取卷积核数量为每组大小m＝M。

经过上述维数转变，卷积层的卷积核矩阵的权重数组由四维数组转变为五维数组；全连接层的卷积核矩阵的权重数组由两维数组转变为三维数组。

例如第一个卷积层conv1，卷积核矩阵为四维矩阵W_f[96][3][11][11]，取m＝M＝96，变换后新的卷积核矩阵为五维矩阵W_f'[1][3][11][11][96]。

一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算，实施例中计算过程通过下式计算：

其中，0≤chi＜C，0≤r＜K，0≤c＜K，0≤j＜m，

0≤x＜W’，0≤y＜H’，W'＝(W-K)/S+1，H'＝(H-K)/S+1。

式中，V_o为输出特征，V_i为输入特征，W_f为卷积核矩阵，S为步长，C为通道数，K为卷积核内核尺寸，W，H为输入特征的每个通道的尺寸维度，W’H’为输出特征的每个通道的尺寸维度。

相对索引稀疏卷积核压缩的编码

目前已有的稀疏数据编码格式有CSC，CSR以及CISR等。但是这些编码格式在应用于深度学习时由于内存不规则的特点会使得执行时计算复杂化，这会导致并行处理效率低下，以及增大芯片面积。本发明提出相对索引稀疏卷积核压缩(CSF)编码格式来解决这一问题。

如图1所示现有技术中m个卷积核矩阵的权重数组的存储方式，卷积核的权重数组顺序按列存储。

根据本发明的实施例，进一步改变卷积核矩阵的权重数组，m个卷积核矩阵的权重数组按列存放。具体为，将按卷积核通道顺序存放的权重数组展开，然后按列将m个filter同一通道相同位置的m个卷积核矩阵的权重数组顺序存放，当任一元素与来自同一列的m个卷积核矩阵的权重数组相乘时，卷积核矩阵的权重数组被顺序从内存读取。如图2所示本发明m个卷积核矩阵的权重数组的存储方式。

如果第一行中某一个权重数组的值为0，则删除该列；

并且，将下一列中第二行的相对索引值加一和第三行的相对列指针减一。

当相对列指针的值为0时表示前一列的所有值都为0，此时存储在文件时不需要存储第三行的相对列指针。

将改变后存储方式的权重数组的数据以CSF格式编码。

如图3所示本发明与ALEXNET对比不同层中连续0的个数的分布示意图，，其中(a)、(b)、(c)为卷积层连续0的个数分布，(d)为全连接层连续0的个数分布。实施例中对比了ALEXNET不同层中连续0的个数的分布后发现，使用本发明提供的编码方法，分布向比较小的数字方向集中，连续非0数据的个数的统计分布也是如此，这会使得存储索引所需bit数降低，插入补足0的个数减少，在运行中计算负载更加均衡。

寻找最优存储索引的比特数

根据本发明的实施例，寻找最优存储索引的比特数的方法通过如下公式计算：

深度学习算法

根据本发明的实施例一种深度学习算法包括如下步骤：

步骤S101，堆积卷积核数据流

从参数模型中逐层读取卷积层和全连接层的卷积核矩阵，将卷积核矩阵进行重组。卷积核矩阵重组通过如下步骤实现：

卷积层：W_f'[n][chi][r][c][j]＝W_f[n×m+j][chi][r][c]，

全连接层：W_f'[n][chi][j]＝W_f[n×m+j][chi]，

其中，0≤chi＜C，0≤r＜K,0≤c＜K,0≤j＜m，0≤n＜M',M'＝M/m。

步骤S102，统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布，以及权重数组非0值的个数。

根据本发明的实施例，例如第一个卷积层conv1中非0值的个数为29386，连续0的个数的统计分为：

0

3578

634

139

34

11

0

1

0

步骤S103，寻找最优存储索引的比特数

根据本发明的实施例，通过如下方法寻找最优存储索引的比特数：

其中，Nz_num为非0卷积核矩阵的权重数组的个数；wbit为存储卷积核矩阵的权重数组所需的bit数；bit为存储相对索引所需的bit数；zero_stat为卷积核矩阵的权重数组连续0个数的统计分布。例如第一个卷积层conv1中当用1bit存储相对索引(index)数据时额外的存储空间共需要37189bits，2比特存储时需59242bits，3比特存储时需要88169bits，等等，故最优比特数为1比特。

得到最优存储索引的比特数后，重新统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布，以及权重数组非0值的个数。

当权重数组连续为0的个数≥2^bit时插入一个0，并将权重数组非0值与插入的0值记录到稀疏矩阵数据流和索引流中(稀疏矩阵数据流和索引流为一维byte数组)。例如第一个卷积层conv1中当用1bit存储index数据时每连续2个0时在数据流插入一个0，这样数据流共有30253个数据(非0值数据为29386)，每个数据对应一个index这样额外的比特数为(30253-29386)×8+30253＝37189比特。

将稀疏矩阵数据流和索引流按二进制写入参数文件，每层数据在文件内的格式如下表：

表一，稀疏矩阵数据流和索引流的写入参数

	格式	数量
			偏置	float32	偏置长度
非零值字典	float32	2的非零值存储bit次幂
			非零值数量	uint32	1
索引bit数	uint32	1
			稀疏矩阵数据流长度	uint32	1
索引流长度	uint32	1
			稀疏矩阵数据流	uint8	稀疏矩阵数据流长度
索引流	uint8	索引流长度

例如一个卷积层conv1中当用1bit存储index数据时，稀疏矩阵数据流长度30253，索引流长度为(30253+7)/8＝3782。

步骤S104，一个通道输入的特征数据与来自同一通道的重组后的卷积核矩阵的多个权重数组进行卷积计算，将卷积计算的结果重新连接为输出矩阵。

本实施例中，按照表一的格式从文件读入稀疏矩阵数据流和索引流，通过如下公式进行卷积计算：

全部计算完成以后按如公式拼接为最终的输出：

例如新输入一副尺寸为227x227的彩色图片输入矩阵V_i[3][227][227]，在卷积层conv1与卷积核矩阵W_f'[1][3][11][11][96]卷积时，先读取第一个通道数据V_i[0][0][0]到V_i[0][226][226]数据与同一通道的96个卷积核进行卷积。计算过程中，V_i中的单一数据将与W_f'中96个数据分别相乘，例如V_i[0][0][0]与W_f'[0][0][0][0][0]到W_f'[0][0][0][0][95]共96个数据分别相乘得到V_o[0][0][0]到V_o[95][0][0]的部分和。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种用于深度学习网络的卷积核堆积数据流的方法，其特征在于，所述方法包括如下步骤：

一个通道输入的特征数据与来自同一通道的重组后的多个卷积核权重数组进行卷积计算。

2.根据权利要求1所述的方法，其特征在于，所述卷积核矩阵重组通过如下步骤实现：

3.一种相对索引稀疏卷积核压缩的编码方法，其特征在于，所述编码方法包括：

将按卷积核通道顺序存放的权重数组展开，

4.根据权利要求3所述的编码方法，其特征在于，所述编码方法还包括：如果第一行中某一个权重数组的值为0，则删除该列；

5.一种寻找最优存储索引的比特数的方法，其特征在于，所述方法通过如下公式计算：

6.一种深度学习算法，其特征在于，所述算法包括如下步骤：

c)通过如下方法寻找最优存储索引的比特数：

7.根据权利要求6所述算法，其特征在于，所述步骤c)得到最优存储索引的比特数后，重新统计重组后卷积核矩阵在内层存储时权重数组连续为0的个数分布，以及权重数组非0值的个数；