CN109086866B

CN109086866B - 一种适用于嵌入式设备的部分二值卷积方法

Info

Publication number: CN109086866B
Application number: CN201810706834.2A
Authority: CN
Inventors: 刘铎; 凌英剑; 梁靓
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2021-07-30
Anticipated expiration: 2038-07-02
Also published as: CN109086866A

Abstract

本发明公开了一种适用于嵌入式设备的部分二值化卷积方法,属于深度学习的模型压缩方法，它包括步骤1、对给定CNN的每一个卷积层，根据每个输出特征图的统计量测量出每个卷积核的重要性；将每层的卷积核分别构成两组；步骤2、将两组卷积核在存储空间上进行重新排列使同组卷积核的存储位置邻近，记录重排顺序，生成新的卷积层；步骤3、根据步骤2的重排顺序改变下一个卷积层卷积核的通道顺序；步骤4、根据以上步骤处理后的CNN进行微调训练，对划分为非重要的卷积层执行二值量化，整个网络通过量化与训练的迭代操作逐步恢复准确率。本发明确保了给定CNN在大数据集上的准确度的同时，减少了卷积神经网络在嵌入式设备上的计算、存储开销。

Description

一种适用于嵌入式设备的部分二值卷积方法

技术领域

本发明属于深度学习的模型压缩领域，具体涉及一种适用于嵌入式设备的部分二值卷积方法。

背景技术

随着深度卷积神经网络(CNNs)的快速发展，CNN已经在许多任务领域，如图像分类、物体识别、语义分割中成为了顶尖的技术。传统上，搭载有高端图像处理器(GPU)的数据中心是部署CNN应用的最佳选择，但是这种以云为中心的应用框架通常会引起一些问题，比如用户隐私性问题、响应时间长，在没有互联网的情况下这些应用甚至无法被使用。因此，人们开始采用直接在嵌入式设备上部署CNN。

CNN模型往往需要大量的计算资源和存储资源，比如拥有5个卷积层的AlexNet需要722M的浮点数操作次数(FLOPs)和240MB的存储空间；VGG-16则需要15.8G的FLOPs和552MB的存储空间，这会极大的资源需求会导致系统负载问题，尤其是对于资源受限的嵌入式系统而言。

为了在嵌入式系统上的应用CNN，现有的处理方法大致分为以下几种：网络剪枝、定点数量化、结构优化。在这些处理方法中基于二值量化技术因其良好的网络性能改善能力而备受关注。但是，这些二值量化技术在大规模数据集如ImageNet上降低了CNN基准网络的准确度，表1列出了以AlexNet为基础模型的几种二值量化技术在ImageNet数据集上的准确度对比。

表1不同二值量化技术准确度比较

BWN和XNOR-Net的准确度依据文献：Rastegari M,Ordonez V,and Redmon J,“Xnor-net:Imagenet classification using binary convolutional neuralnetworks,”in European Conference on Computer Vision,2016,pp.525-542.(作者：Rastegari M,Ordonez V,Redmon J，论文题目：Xnor-net：使用二值卷积神经网络进行Imagenet分类，会议名称：欧洲计算机视觉会议，2016，论文集页码：525-542)；

BinaryConnect的准确度依据文献：Courbariaux M,Bengio Y,and David J P,“Binaryconnect:Training deep neural networks with binary weights duringpropagations,”in Advances in neural information processing systems,2015,pp.3123-3131.(作者：Courbariaux M,Bengio Y,David J P，论文题目：Binaryconnect：在传播期间训练二值权重深度神经网络，会议名称：神经信息处理系统进展会议，2015，论文集页码：3123-3131)；

BNN的准确度依据文献：Hubara I,Courbariaux M,and Soudry D,“Binarizedneural networks,”in Advances in neural information processing systems,2016,pp.4107-4115.(作者：Hubara I,Courbariaux M,Soudry D，论文题目：二值化的神经网络，会议名称：神经信息处理系统进展会议，2016，论文集页码：4107-4115)。

从表1可以看到，相比于基准网络，现有的二值量化技术都较大地降低了CNN基准网络的准确度。这主要是因为：统一对所有卷积核执行二值量化而未考虑不同的卷积核拥有不同的重要性，如果重要的卷积核被二值量化则有可能导致准确度的下降。所以，二值量化处理方法应该能够考虑卷积核的不同重要性，针对不同重要性的卷积核执行差异化的操作。

发明内容

本发明所要解决的技术问题就是提供一种适用于嵌入式设备的部分二值卷积方法，它能充分利用卷积核的差异性，对不同重要性的卷积核执行差异化的量化操作，减少CNN在嵌入式设备上的计算、存储消耗，还能够尽可能高地维持CNN在大数据集上的准确度。

本发明所要解决的技术问题是通过这样的技术方案实现的，它包括以下步骤：

步骤1、对给定深度卷积神经网络的每一个卷积层，根据每个输出特征图的统计量测量出每个卷积核的重要性；并将每层的卷积核按照重要性进行排序，设定卷积核重要性阈值，把大于阈值和小于阈值的卷积核分为两组；

步骤2、将两组卷积核在存储空间上进行重新排列，使同组卷积核的存储位置邻近，保存重排顺序，为重排后的每组卷积核生成新的卷积层；

步骤3、根据步骤2的重排顺序改变下一个卷积层卷积核的通道顺序，使得每个卷积核的通道顺序与重排顺序一致；

步骤4、根据以上步骤处理后的CNN进行微调训练，对划分为重要的卷积层保留其全精度，对划分为非重要的卷积层执行二值量化，整个网络通过量化与训练的迭代操作逐步恢复准确度。

本发明的技术效果是：

本发明针对卷积核的不同重要性执行不同的量化策略，确保了给定CNN在大数据集上的准确度的同时，减少了深度卷积神经网络在嵌入式设备上的计算、存储开销。

附图说明

本发明的附图说明如下：

图1为本发明的信息处理过程图；

图2为本发明的流程简图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

本发明的信息处理过程如图1所示，图1中包含有4个子图：卷积核分组、卷积核重排、通道重排和模型微调。

1、卷积核分组子图为本发明步骤1，即：对给定深度卷积神经网络的每一个卷积层，根据卷积核重要性计算公式计算出每个卷积核的重要性；并将每层的卷积核按照重要性进行排序，设定卷积核重要性阈值，把大于阈值和小于阈值的卷积核分为两组。图中N_c为输入特征图的通道数，h_i/w_i为输入特征图的高和宽，k为卷积核的高和宽，N_k为卷积核的个数，h_o/w_o为输出特征图的高和宽，黑色和白色卷积核分别代表被划分后的两组。

2、卷积核重排子图为本发明步骤2，即：将两组卷积核在存储空间上进行重新排列，使同组卷积核的存储位置邻近，保存重排顺序，为重排后的每组卷积核生成新的卷积层。

3、通道重排子图为本发明步骤3，即：根据步骤2的重排顺序改变下一个卷积层卷积核的通道顺序，使得每个卷积核的通道顺序与重排顺序一致。

4、模型微调子图为本发明步骤4，即：根据以上步骤处理后的CNN进行微调训练，对划分为重要的卷积层保留其全精度，对划分为非重要的卷积层执行二值量化，CNN整个网络通过量化与训练的迭代操作逐步恢复准确度。

本发明的运行环境是：一台电脑设备，它包含CPU等必要的硬件设备，能够运行基于Linux kernel的操作系统，caffe深度学习框架。

同时需要ImageNet数据集，预训练好的AlexNet Caffe Model。

在得到预训练好的AlexNet Caffe Moel(也可以是其他预训练好的模型，这里使用AlexNet作为实例)后，执行图2所示的流程：

该流程开始于步骤S00，输入预训练好的CNN；

在步骤S01，从ImageNet数据集采样N张图片，用给定的AlexNet进行前向传播，从而获得各层的输出特征图

L为卷积层总数，n＝1,2,3,...,N，N是用于计算重要性的样本的个数，设

表示第l卷积层在第n个输入样本上的输出特征图，则每个输出特征图可以表示为一个三维张量,

表示

中坐标为(k,i,j)的元素，其中k为通道索引,i/j为宽/高索引。对l层的第k个卷积核，其重要性的计算式如下：

式中,

是第l层第k个卷积核的重要性。

在步骤S02，根据给定的阈值

对各层各卷积核进行比较，若

则第l层的第k个卷积核被划分为非重要卷积核，若

则该卷积核被划分为重要卷积核。

在步骤S03，根据步骤S02的分组结果，每个卷积层的卷积核都可被分为2组。设对于第l层，非重要卷积核构成的集合为

重要卷积核构成的集合为

其中X和Y分别为组内卷积核个数。为

和

构造两个新的卷积层，这两个卷积层共享相同输入、两个卷积层的输出拼接到一起作为下一层的输入。

在步骤S04，假设第l层在步骤S03前的卷积核为

分组后由

构成

(非重要卷积层)，由

构成

在本步骤中，依次对l+1层的所有卷积核执行如下操作：

设

表示第l+1层的第k个卷积核，对该卷积核内的5个通道

按照第l层的卷积核重排顺序进行重排，构成

在步骤S05，对给定的非重要卷积层(即由第l层所有的非重要卷积核

构成的卷积层)进行二值量化，其计算式如下：

其中

为第l层第x个非重要卷积核。

在步骤S06，对CNN整个网络执行如下标准的前向传播算法：

其中X为CNN的输入，W为所有重要卷积层的卷积核

构成的集合，其中l＝1,2,3,...,Y，y＝1,2,3...,Y；

为所有非重要卷积层

经过二值量化后由

构成的集合,Y为网络预测的输出值。

在步骤S07，对CNN整个网络执行如下标准的反向传播算法：

其中

为损失函数C对CNN网络输出Y的梯度，

为损失函数对所有重要权重W的梯度,

为损失函数对所有非重要权重经过二值量化后的权重

的梯度，最后计算损失函数对所有非重要权重的梯度

式(3)中

为如下函数：

在步骤S08，更新网络参数，计算式如下：

其中η为预设的学习率。

本发明在ImageNet数据集上的准确度见表2

表2

从表2看出，本发明的准确度高于现有的二值量化处理方法。