CN109934285A

CN109934285A - 一种基于深度学习的图像分类神经网络压缩模型设计

Info

Publication number: CN109934285A
Application number: CN201910180138.7A
Authority: CN
Inventors: 张源涛; 元润一
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-06-25
Anticipated expiration: 2039-03-11
Also published as: CN109934285B

Abstract

本发明涉及电子信息科学技术领域，提供了一种基于深度学习的图像分类神经网络压缩模型设计。深度神经网络很难去训练，并且训练过程占用大量内存，为此提出了一个简单、高效和模块化压缩双通道网络结构。该网络以双通道网络为主干，引入了压缩网络卷积的计算单元，并将训练好的网络模型转换为SNPE加载的DLC文件，可选择量化DLC文件以在Hexagon DSP上运行，准备模型的输入图片数据，使用SNPE运行时加载并执行模型。实验通过两个基准数据集：ImagNet‑1k和PASCAL VOC，证明压缩双通道网络在保持性能的同时能有效减少模型和计算复杂度。

Description

一种基于深度学习的图像分类神经网络压缩模型设计

技术领域

本发明是一种利用深度学习技术实现对图像进行推理得出规定类别概率。此发明属于电子信息科学技术领域。

背景技术

传统的图像分类步骤大致是两步，分别为特征提取和训练分类器。在特征提取阶段，会尝试各种通用特征或者自己设计的特征对图像进行特征提取，通用的特征就是HOG、SURF、LBP、haar等特征。在选定了这些备用特征之后，会进行尝试特征与权衡利弊，因为对于计算机来说，特征的唯一性、通用性越好，所意味的计算量就越大，必须在保证速度的情况下选择尽量好的特征。

当选择了计算量适中同时能达到要求的准确率的特征例如LBP和haar特征之后，使用传统的机器学习方法例如朴素贝叶斯、adaboost、随机森林等建模方法，训练出一个分类模型，使用这个分类模型来进行图像分类或检测。模型的选择通常要比特征选择简单的多，只需要把备选的模型都试一遍，挑效果最好的模型进行调参，调到极致之后，分类模型就做出来了。

传统图像检测方法的流程需要很长的时间，并且每一步都需要做好，最终的模型才会有较好的效果，一旦中间的一步出现错误就会牵一发而动全身。所以使用传统方法做图像处理是需要很大代价的。

图像处理大部分使用的方法都是深度学习，也就是神经网络。神经网络通过很多的神经元构建成一层一层的网络，通过激活层来使得模型有很强的非线性拟合的能力。只需要将图像输入，将图像标注信息输入给模型，模型便会自动的学习特征提取与结果映射。当然基于深度学习的图像分类方法也有两个问题一个问题是模型参数多，计算量比较大，第二个问题是损失函数设计问题。

本发明主要解决的问题有两个，第一个是指结构上将残差网络与级联网络结合在一起构建一个双通道的网络结构从而强化网络提取图片特征的能力，第二个是在原有的网络模型前提价尽可能压缩网络模型参数。本设计在克服传统神经网络的局限性的同时，还大大简化了整个网络的构成，具有一定的实用意义。

发明内容

本发明在电子信息技术基础上首先概述不同深度神经网络网架构的一些参数设计结构，然后引入了化简模块并建立由化简模块为单元，以双通道网络为主干的网络模型。最后利用提出的设计策略，构建压缩双通道网络结构。其具体的实施方案如下：一种基于深度学习的图像分类神经网络压缩模型设计包括图片数据的采集单元、数据的预处理单元、模型载入单元。

所述图片数据的采集单元用于对图像传感器获取的图像光学信号转化成RGB数字信号，并且以浮点数变量类型存储在内存中。

所述数据的预处理单元用于对采集来的图片数据进行分析处理，将图像传感器采集的图片数据进行去噪，平滑等图片与处理计算，作用是为了减小硬件输入对于原始图片的畸变效果。

所述模型载入单元用于读取模型时变量参数是依附在计算图的结构上的，但此时仅仅将保存模型的变量参数加载进来，并没有加载模型的计算图，所以如果正常的加载保存模型的变量参数的话，就需要定义一个和保存模型时候一模一样的计算图结构。

作为一种设计方案，所述保存模型包括在当前执行全局变量的初始化和对当前计算图上的变量进行初始化，因为此时并没有加载保存的计算图结构，所以此时必须在加载变量的模型中手动的创建一个和保存的模型一模一样的计算图结构。当然此时执行全局变量进行初始化是对当前计算图上的变量进行初始化操作。

作为一种设计方案，所述计算图包括代数中的一个基础处理方法、有向图来表示一个给定的数学表达式以及根据图的特点快速方便对表达式中的变量进行求导。神经网络的本质是一个多层复合函数,因此也可以通过一个计算图表达式来实现。

作为一种设计方案，所述模型加载，模型导入的硬件处理平台为高通骁龙平台snpe，可以执行任意深度的神经网络，在SnapdragonTM CPU，AdrenoTM GPU或HexagonTMDSP上执行网络。在x86Ubuntu Linux上调试网络执行，将Caffe，Caffe2，ONNXTM和TensorFlowTM模型转换为SNPE深度学习容器(DLC)文件，将DLC文件量化为8位定点，以便在Hexagon DSP上运行，使用SNPE工具调试和分析网络性能，通过C++或Java将网络集成到应用程序和其他代码中。

作为一种设计方案，所述计算图依赖硬件平台和操作系统包括：图像预处理单元和数据采集单元使用的处理器为英特尔Core i5-6500@3.20GHz四核处理器，主板为华硕B150M-K，内存为8GB(瑞势DDR4 2133MHz)，硬盘为希捷ST1000DM003-1SB102(1TB/7200转/分)机械硬盘GPT分区，操作系统为ubuntu16.04，显卡：Nvidia GeForce GTX 1050Ti(4GB/华硕)，显卡驱动为nvidia375，并行架构计算平台：cuda8.0，深度神经网络的GPU加速库：cudnn5.1，计算机视觉库为opencv3.2，集成开发环境为pycharm2018，深度学习平台为TensorFlow，移动端处理器为高通骁龙835处理器。

所述计算图的实现用于在计算图这个有向图中，每个节点代表着一种特定的运算例如求和，乘积，向量乘积，平方等等，在张量的便是方法中直接定义节点的类型，其中主要定义了四种类型来表示图中的节点:操作节点主要接受一个或者两个输入节点然后进行简单的操作运算；变量没有输入节点的节点，此节点包含的数据在运算过程中是可以变化的；常量也没有输入节点，此节点中的数据在图的运算过程中不会发生变化；占空同样没有输入节点，此节点的数据是通过图建立好以后通过用户传入的其实图中的所有节点都可以看成是某种操作，其中变量、常量、占空都是一种特殊的操作，只是相对于普通的操作而言，他们没有输入，但是都会有输出，通常会输出到操作节点，进行进一步的计算。

采用上述设计方案后，本发明的有益效果是：

本发明可以实现对密集连接通道的网络结构以及DBA计算单元高效利用，验证了ResNet本质上是可以与DenseNet共享复用的相应特征图。基于SqueezeNet化简参数模型的思想，提出了压缩双通道深度神经网络。在保证DPN性能的基础上，在图像分类任务的实验结果表明，该压缩双通道网络具有高精度、小尺寸模型，计算成本低，低内存消耗，非常适用于图像分类。实验表明通过简单地替换基础网络，该网络框架在目标检测任务也可以使用，极大地简化了整体结构，便于复杂运算任务使用。

附图说明

图1是本发明提供的一种基于深度学习的图像分类神经网络压缩模型设计的结构示意图；

图2是图像分类神经网络结构图；

图3是检测池化结构图；

图4是ResNet中的DBA单元结构图；

图5a是Resnet网络结构图；

图5b是Densenet网络结构图；

图5c是DPN双通道网络结构图；

图5d是squeeze双通道网络结构图；

图6是化简模块原理图；

图7是处理视频数据的流程图；

图8是多种基础网络参数对比图；

图9是分类网络模型在imagenet数据集上的实验结果图；

图10是分类网络模型在pascalvoc数据集上的实验结果图；

具体实施方式

以下内容将结合附图和一些实例来对发明内容进行进一步解释说明，但这些实例和附图的用途和目的仅用来例举本发明，并非对本发明的实际保护范围构成任何形式的任何限定，更非将本发明的保护范围局限于此。

如图1所示，一种基于深度学习的图像分类神经网络压缩模型设计包括图片数据的采集单元、数据的预处理单元、模型载入单元。

首先使用图像传感单元进行数据的采集。然后将采集的图像数据导入图片数据的采集单元，将待分类的图片数据特征图提取出来。其次采用粒子滤波算法的跟踪器来预测物体运动的方向得出物体运动的轨迹，考虑到物体分类识别的时效性，最后选择将有运动轨迹的图片导入到卷积神经网络模型中，从而提取出有用的三维特征张量，网络末端的全连接层会对轨迹的特征向量进行分类识别，最后在显示器终端中进行输出。

图2是图像分类神经网络结构图。在网络总体分为三个部分，浅层网络部分迅速增加网络下采样次数，这么做的目的是为了快速降低张量的长宽尺寸，从而降低对于处理器内存的消耗。这里需要注意的是残差单元中的旁路分支需要使用普通卷积做下采样，这样做的目的也是为了使特征信息在张量信道之间传播分享语义信息。中间网络部分就是增加整体深度来提升模型稳定性，这里在图中的结构会重复多次。网络的结尾部分是一个下采样的残差单元接三个分离卷积这是为了与全连接层做一个过渡，虽然特征图在信道的维度上会变得很厚，但是长宽尺寸已经非常小了，所以提升信道维度有利于提取高级抽象信息。

图3是检测池化结构图。由图可知，原来是800像素尺寸的图片中左面的大象它的位置可用665像素尺寸的方形框来表示，经过下采样为32的基础网络输出的特征图尺寸变为25像素尺寸，这样大象这个物体在特征图的像素尺寸就变为20.78，因为这里保留两位小数点，所以小数部分像素值需要用到双线性差值来得到，因为变形池化这一层，可以学习每个池化小框的偏执信息，所以每一个像素面积为2.97的池化小框会从特征图中先对下采样32的特征图做一个切片的操作，将切片的部分拼成一个规整的由7*7个池化小框组成的对齐特征图，然后对每一个尺寸为2.97的小框池化成一个像素，最后输出7*7的特征图。

图4是ResNet中的DBA单元结构图。ResNet的核心内容是设计深度瓶颈结构，整个残差网络也是由多个DBA单元堆叠组成的。网络设计的初衷也是为了使网络参数进一步减少，让训练也相对容易一些。如图1所示，是以第一个卷积层相连的第二个卷积层的结构，可以看到DBA的基本结构，输入为第一个卷积层的输出特征图，特征图下面的四个参数分别代表了每次训练的批处理特征图的个数，特征图的宽度和高度，以及特征图的信道数。

图5a至图5d图为不同网络结构对比图。(a)表示Resnet网络。(b)表示Densenet网络，每个卷积层的输入都可以访问上级卷积层的输出。画着下划线的1x1卷积层与深度残差网络中残差支路通道的卷积层具有相同的设计结构。(c)代表DPN双通道网络，符号“”表示张量信道分离操作，符号“+”表示张量信道合并操作。(d)为本文提出的squeeze双通道网络(Squeeze Dual Path Networks，在接下来的叙述中用SDPN表示)，将核函数为3x3的卷积层替换为核函数为1x1和3x3的卷积层可以缩小参数规模。

图6是化简模块结构图。将原来简单的一层卷积操作变成两层卷积操作：压缩层和扩张层，两层之间还要带上非线性函数为ReLU的激活层。在压缩层里面全是1x1的卷积核，数量记为S11；在扩张层里面有1x1和3x3的卷积核，数量分别记为E11和E33，要求S11小于输入特征图数量。扩张层之后将1x1和3x3的卷积输出特征图在张量信道维度拼接起来。

需要注意的是，替换3x3的卷积核为1x1的卷积核。对于卷积模板的选择，从的AlexNet模型一路发展到ResNet模型，基本上卷积大小都选择在3x3了，因为这样的参数可以使网络具有时效性，以及设计上的简洁性。本文参考了SqueezeNet的网络，替换尺寸为3x3的卷积核成尺寸为1x1的卷积核可以让参数在数量上缩小9倍。但是为了不影响网络学习特征的精度，参数并不是全部替换，而是一部分用1x1的卷积核，一部分用3x3的卷积核。其次，减少输入3x3卷积层输入特征图的数量。如果是多个卷积层直连的网络结构，那么实际上是没有办法减少后一个卷积层的输入的响应特征图数量。所以SqueezeNet巧妙地把原本一个卷积层分解为两层，并且封装为一个化简模型。

图7是处理视频数据的流程图。初始化阶段就是载入分类网络模型，进入搜索阶段，就是在待搜索区域里放入大量的粒子，放入粒子的规则有很多，这里使用的是让粒子的分布为高斯分布，计算每个粒子所在区域的特征直方图，与手势目标区域特征进行比较，特征接近的粒子的权重大一些，反之权重小一些。通过调整各粒子的权重大小和样本位置来近似实际的概率分布，以样本期望作为系统估计值。然后进行重采样，重新分布粒子的位置。

图8是多种基础网络参数对比图。计算复杂度，通过测量尺寸为224x224的图像输入到整个深度网络中的浮点运算量总数(加法和乘法操作数总和，称之为FLOPs)来表示。本专利显示了不同网络的计算复杂度的理论值。实际神经网络训练的过程中，虽然运行时间可能会受到一些因素的影响，如GPU带宽和编码质量，计算复杂度也只能说明运行速度的上限。从结果可以看出，SDPN-66(40x4d)浮点计算量比DPN-98(40x4d)减少约17.9％，而SDPN-66(40x4d)浮点计算量比ResNeXt-101(64×4d)减少约38.1％。

图9是分类网络模型在imagenet数据集上的实验结果图。由图可知，比较压缩双通道网络与当前先进的网络框架的进行图像分类的性能比较。卷积层深度为62的SDPN-62与DenseNet-161相比，降低了5.0％和5.1％左右的Top1和Top-5的错误率，降低了26.0％的浮点计算量；与DenseNet-161相比，降低了4.1％和6.7％左右的Top1和Top-5的错误率，降低了26.2％的浮点计算量。更深的SDPN-66性能优于DenseNet-161和ResNet-101，与DPN-98相比，减少了17.9％左右更少的浮点计算量和一个更小的参数模型大小(196MB和236MB)。详细对比见表2，表中GFLOPs代表十亿次浮点计算量。Top-1、Top-5分别代表验证数据集在分类结果中置信度排名前1、5的错误率。

图10是分类网络模型在pascal voc数据集上的实验结果图。由图可知，实验进一步评估提出的压缩双通道网络在目标检测任务中的表现。实验是在PASCAL VOC数据集上进行的。模型对PASCAL VOC 2007和2012训练集和验证集进行训练，并用PASCAL VOC 2007测试集评估网络框架的性能。实验使用标准的评价指标平均精度来评价网络框架的性能，单个物体和总体框架的识别精度均用平均正确率来衡量。

在进行所有的实验的基础上，是以基于ResNet的faster r-cnn为目标检测框架，通过更换ResNet基础框架同时保持其他部分不变，来进行性能比较。因为实验的目标只是评估压缩双通道网络，所以要尽量保证采用SDPN-62(32x3d)和与其他网络都在大致相同的复杂程度进行实验。压缩双通道网络的检测性能与现有的几种先进的模型的比较的实验结果。实验表明，压缩双通道网络在目标检测任务中也能学习更好的特征表示。

经过实验测试后，此程序基本满足本发明的所有要求。

以上就是本发明对具体实施方式的详尽介绍。

应当理解，这些实例的用途仅用于说明本发明而非意欲限制本发明的保护范围。此外，也应理解，在阅读了本发明对技术内容之后，本领域技术人员可以对本发明做各种改动或变型，所有的这些等价形式同样落于本申请所附权利要求书所限定的保护范围之内。

Claims

1.一种基于深度学习的图像分类神经网络压缩模型设计，其特征在于，组成结构包括：卷积层、池化层、非线性激活单元、批标准化层、压缩信道单元和残差结构单元；所述卷积层、批标准化层和非线性激活单元，这三个部分前后一次连接组成一个神经单元，每三个神经单元会组成一个残差结构，残差的分支会使用有两个卷积层构成的压缩信道单元；深度卷积网络总体上分为特征提取阶段和分类器决策阶段，在特征提取阶段会将卷积网络分为低级几何特征提取浅层网络，中级边界特征提取中层网络，高级语义特征提取深层网络，每个部分都是由若干残差结构重复级联构成的拓扑结构且在相邻的网络结构之间会添加池化层来缩小计算张亮的长和宽，随着网络的逐渐加深在卷积层中运算核的信道数目也会逐渐加深，这种结构设计可以达到高效提图图片中有效信息的作用。

2.根据权利要求1所述的一种基于深度学习的图像分类神经网络压缩模型设计，其特征在于，所述分类器决策阶段由两个全局卷积层和最后一个softmax层组成，并且在两个全局卷积层中使用dropout来防止模型过拟化，在模型的训练阶段网络模型参数需要不断更新，所以softmax后面需要添加focal loss损失函数，以便模型遇到简正例快算削减权重；在模型的预测阶段，在张量的内存分配上将float32的存取计算类型转化为float16的存取类型来达到减小运算量和推理时间的目的；在训练方法上，使用蒸馏训练方法，将训练图片数据分别计算已经训练好的标准大网络模型和待训练的压缩网络模型输出的损失函数，最后通过将两个函数加权相加作为最后的反向传播更新模型参数的损失函数值，以此来缩短网络训练模型时间提高训练准确率的作用。

3.根据权利要求2所述的一种基于深度学习的图像分类神经网络压缩模型设计，其特征在于，所述卷积运算网络模型压缩设计单元，使用nvidia gpu对模型进行训练，深度学习平台依赖于TensorFlow框架。

4.根据权利要求3所述的一种基于深度学习的图像分类神经网络压缩模型设计，其特征在于，所述载入图片预处理单元，使用英特尔i5cpu对图片进行预处理。

5.根据权利要求4所述的一种基于深度学习的图像分类神经网络压缩模型设计，其特征在于，所述视频流处理单元使用高通骁龙snpe平台，对模型进行参数载入和转化操作。