CN108288270A

CN108288270A - 一种基于通道修剪与全卷积深度学习的目标检测方法

Info

Publication number: CN108288270A
Application number: CN201810113321.0A
Authority: CN
Inventors: 许正; 朱松豪; 荆晓远; 石路路
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-07-17
Anticipated expiration: 2038-02-05
Also published as: CN108288270B

Abstract

本发明公开了一种基于通道修剪与全卷积深度学习的目标检测方法，首先，使用套索回归方法在卷积神经网络的每层通道上实现冗余通道的修剪；然后，使用线性最小二乘法重构最小化误差；最后，利用全卷积神经网络获取感兴趣区域，加速目标检测。通过在通用Caltech行人检测数据集的实验表明，本发明提出的方案可有效提高行人检测的准确性与快速性。

Description

一种基于通道修剪与全卷积深度学习的目标检测方法

技术领域

本发明涉及一种目标检测方法，尤其涉及一种基于通道修剪与全卷积深度学习的目标检测方法，属于计算机视觉领域。

背景技术

目标检测是计算机视觉领域最流行的研究方向之一，在社会、生活、法治、军事等领域有着广泛的应用。目前，目标检测已广泛引用于视频监控系统、GPS无人驾驶导航、车牌检测系统、智能报警系统、机器人控制系统等应用方向，在我们日常生活中随处可见到目标检测原理。

现有的目标检测方法归类为传统的目标检测方法和基于深度学习方法的目标检测。传统的目标检测方法大致分成两种，基于背景建模的方法和基于统计学习的方法。然而，目前大多数传统的目标检测方法存在时间复杂度高，窗口冗余，鲁棒性不强等缺点。

为了解决传统目标检测方法的缺点，于是提出了基于深度学习的目标检测方法。深度学习相关的目标检测也大致分为两类，一种是基于区域提名的，包括区域卷积神经网络、基于快速区域卷积神经网络、更快速区域卷积神经网络以及掩码区域卷积神经网络等；另一种是端到端，无需区域提名的方法，包括你只要看一次方法和单炮多盒探测器方法等。总的来说，基于区域提名的方法近年来发展迅速，在现今目标检测领域占据领先地位。但是，端到端的方法速度上优势明显，后续发展可期。

随着近年深度学习的火热研究、硬件系统的稳步提高、大数据和云计算等方面的研究，目标检测的识别率和计算速度也进一步提高。目前，提高目标检测速率仍是世界研究的热门方向之一，如何在更快速区域卷积网络框架下保证在不影响深度学习的大量数据样本训练特征优势的前提下，精简框架，提高推理速率成为当今深度学习研究的热点问题。

由于目标分类要求提取的特征具有平移不变性，而目标检测需要对目标的位置平移进行准确的响应，所以目前大多数卷积神经网络在目标检测中效果不佳。而插入感兴趣区域池化层之后，后面的网络结构就不再具备平移不变性，且因为各个感兴趣区域的计算不共享所以造成计算速度变慢。

目前提出许多加速模型方法，包括参数修剪、低秩分解、压缩卷积滤波器、知识精炼等。参数修剪是指探索模型参数中冗余的部分，并尝试去除这些参数；低秩分解是使用张量分解来估计深度卷积神经网络中最具信息量的参数。压缩卷积滤波器是指设计特殊结构的卷积滤波器来降低存储和计算的复杂度；知识精炼指的是学习一个精炼模型。其中，参数修剪适用于更快的区域卷积网络中，因为全连接层包含90％的权重参数，而性能仅提高1％。

根据减少冗余参数的方式，参数修剪可以进一步分为模型量化、结构化矩阵以及通道修剪。模型量化难以分解现代网络(比如GoogleNet、ResNet),并且对识别率有很大影响。通道修剪可以缩小网络体积，加速推理时间，但通道修剪也存在一些需要解决的问题，例如，通道修剪需要更多的迭代次数才能收敛，并且需要手动精调参数非常复杂。

发明内容

发明目的：本发明的目的在于解决现有的深度学习目标检测方法共享计算间的不足，以及提高目标检测的推理速度问题，提出一种基于通道修剪与全卷积深度学习的目标检测方法。

技术方案：本发明采用以下技术方案：一种基于通道修剪与全卷积深度学习的目标检测方法，包括以下步骤：

A)利用套索回归方法对卷积神经网络的每层通道实现冗余通道的修剪；

B)利用线性最小二乘法来最小化重构误差；

C)全卷积化基础卷积神经网络来共享感兴趣区域的计算。

进一步地，通过减少特征图通道和相应的滤波器来减小网络体积并保持最小重构误差，优化公式描述如下：

其中，x是从特征图采样的大小为N*c的输入量，x_i(i＝1,2,……,c)是x的第i个通道的输入矩阵，w是大小为n*c的滤波器权重，w_i是w的第i个通道权重；y是大小为N*n的输出矩阵，其中N是采样数，n是输出通道数；c是原通道数，c’(0≤c’≤c)是保留通道的数量，β是标量掩码用来进行通道选择，β_i是标量掩码的第i个通道，如果β_i＝0，则表示x_i被切断，w_i也被删除，α是一个惩罚系数，通过增加α，在β中将会有更多的零项，并且可以获得更高的加速比，||β₁||为β的正则化，等式i||w_i||_F＝1用于防止明显解的出现。

进一步地，固定w，并优化β来选择高贡献的通道，通过套索回归方法对卷积神经网络的每层通道进行冗余通道的修剪，套索回归可以得到较小的系数α，甚至一些绝对值较小的系数可以直接变成零，适用于修剪的参数缩减和参数选择，回归通道选择公式为：

s.t.||β||₀≤c′

进一步地，固定β，并优化w以利用选择的通道来减少重构误差，我们采用最小二乘法得到最优解，其优化公式如下：

其中，

其中，w’是基于以下形式重建的：

β_i||w_i||_F→β_i,w_i/||w_i||_F→w_i。

进一步地，当α为0时，||β||₀为c，然后使用套索回归方法，通过逐渐增加系数α来继续运行，直到||β||0≤c’稳定时，使用线性最小二乘法来最小化重构误差，直到获得最小重构误差。

进一步地，在VGG-16网络结构和累积误差的条件下，从当前输入特征图中获得输入量，并从未修剪模型输出特征图中获得输出量，此时，未修剪通道公式被描述为：

(||β||₀≤c′)

其中，y’是在未修剪模型中得到的输出量。

进一步地，使VGG-16网络框架全卷积化，首先，使用卷积层替代后三段全连接层，其中第六和第七段卷积层使用大小为4096×1×1的卷积核，第八段卷积层使用大小为1000×1×1的卷积核，使用上采样方法对第五段输出进行反卷积，然后依次对第三段和第四段输出反卷积，得到和原始图像大小相同并且清晰的特征图。

进一步地，在卷积网络后面连接一个大小为k²×(c+1)的全卷积层，通过这种方式，在整个特征图上为每类生成k²个位置敏感分数图；

假设k＝3，即输出特征图矩形分成9个部分，9个分数图分别编码为上左、上中、上右、……、下右；

假设一共有c类目标和一个背景，则有3²×(c+1)个通道输出层；

与更快速区域卷积神经网络方法类似，从区域提议网络层中生成感兴趣区域，感兴趣区域由最后一个新连接的卷积层进行分类，也就是将其输出从整个图像的卷积相应图像中分解为感兴趣区域的卷积响应图像，所有类别目标和背景都共享位置敏感分数图。

进一步地，整个网络后添加一个位置敏感的感兴趣区域池化层，它聚合了最后卷积层和感兴趣区域的输出，并给每一个感兴趣区域一个分数，池化公式如下：

其中，r_c(i,j|Θ)是c类中(i,j)箱子的池化响应，Z_i,j,c是3²×(c+1)分数图的输出，(x₀,y₀)是感兴趣区域的左上角分数图，n为桶里像素总数，Θ是网络参数；

然后，给感兴趣区域每个类别的所有相对空间位置分数进行投票，并通过使用多项逻辑回归分类如下：

该全卷积网络使用类似于更快速的区域卷积神经网络的多任务损失函数，分为分类回归损失函数L_cls和L_box；分类通过使用交叉熵损失函数得到，而回归使用L1-smooth损失函数得到。

有益效果：本发明与现有技术相比：本发明利用套索回归在卷积神经网络的每个通道上对贡献不大的通道进行修剪，达到加速特征提取的目的；然后利用线性最小二乘法来最小化重构误差以减小修剪通道对网络的影响；最后对VGG-16全卷积网络进行建模，并共享区域提议网络的感兴趣区域的计算，达到加速推理时间的目的。通过在通用Caltech数据集的实验表明，本发明提出的方案可有效提高目标检测的准确性与快速性。

附图说明

图1为基于通道修剪与全卷积深度学习的目标检测方法流程图；

图2为生活中情景示例；

图3为采用Caltech数据集下对生活中情景示例检测结果示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

本发明的目的是提供一种基于通道修剪与全卷积深度学习的目标检测方法，其实现思路为：首先，利用套索回归在卷积神经网络的每个通道上对贡献不大的通道进行修剪，达到加速特征提取的目的；然后，利用线性最小二乘法来最小化重构误差，减小修剪通道对网络的影响；最后，对VGG-16全卷积网络进行建模，并共享区域提议网络的感兴趣区域的计算，达到加速推理时间的目的。

本发明的基于通道修剪与全卷积深度学习的目标检测方法的一个优选实施方式，具体包括以下步骤：

步骤A、利用套索回归方法对卷积神经网络的每层通道实现冗余通道的修剪。

通道修剪的目的是通过减少特征图通道和相应的滤波器来减小网络体积并保持最小重构误差。优化公式描述如下：

其中，x是从特征图采样的大小为N*c的输入量，并且x_i(i＝1,2,……,c)是x的第i个通道的输入矩阵。w是大小为n*c的滤波器权重，并且w_i是w的第i个通道权重。y是大小为N*n的输出矩阵，其中N是采样数，n是输出通道数。c是原通道数，c’(0≤c’≤c)是保留通道的数量。β是标量掩码用来进行通道选择，β_i是标量掩码的第i个通道。如果β_i＝0，则表示x_i被切断，w_i也被删除。α是一个惩罚系数，通过增加α，在β中将会有更多的零项，并且可以获得更高的加速比。||β₁||为β的正则化，用以增加β的稀疏性。等式i||w_i||_F＝1用于防止明显解的出现。

固定w，并优化β来选择高贡献的通道，通过套索回归方法对卷积神经网络的每层通道进行冗余通道的修剪。套索回归可以得到较小的系数α，甚至一些绝对值较小的系数可以直接变成零，适用于修剪的参数缩减和参数选择。回归通道选择公式为：

步骤B、利用线性最小二乘法来最小化重构误差。

固定β，并优化w以利用选择的通道来减少重构误差。我们采用最小二乘法得到最优解，其优化公式如下：

其中，

其中，w’是基于以下形式重建的：

β_i||w_i||_F→β_i,w_i/||w_i||_F→w_i (5)

该最小化重构误差问题是一个非确定性多项式问题，可以分两步进行优化。首先，当α为0时，||β||₀为c。然后公式(2)使用套索回归方法，通过逐渐增加系数α来继续运行，直到||β||0≤c’稳定时，再使用公式(3)，使用线性最小二乘法来最小化重构误差，直到获得最小重建误差。

本发明在VGG-16网络结构和累积误差的条件下，从当前输入特征图中获得输入量，并从未修剪模型输出特征图中获得输出量。此时，未修剪通道公式被描述为：

其中，y’是在未修剪模型中得到的输出量。

步骤C、全卷积化基础卷积神经网络来共享感兴趣区域的计算。

本发明使VGG-16网络框架全卷积化。首先，本发明使用卷积层替代后三层全连接层，其中第六和第七段卷积层使用大小为4096×1×1的卷积核，第八段卷积层使用大小为1000×1×1的卷积核。这样，VGG-16网络成为一个全卷积神经网络。由于增加了三段卷积层，所以特征图会缩小到32倍，所以通过反卷积方法把第五段的输出还原到原图大小。

本发明使用上采样方法对第五层输出进行反卷积，然后依次对第三层和第四层输出反卷积，这样可以得到和原始图像大小相同并且清晰的特征图。此外，本发明在卷积网络后面连接一个大小为k²×(c+1)的全卷积层。

通过这种方式，本发明可以在整个图片上为每类生成k²个位置敏感分数图。通常情况下，假设k＝3，即输出特征图矩形分成9个部分，9个分数图分别编码为上左、上中、上右、……、下右。假设一共有c类目标和一个背景，则有3²×(c+1)个通道输出层。

与更快速区域卷积神经网络方法类似，从区域提议网络层中生成感兴趣区域。候选提议网络层实际分成2条线路，一条线路通过多项逻辑回归分类锚点来获得前景和背景；另一条线路计算锚点的边框回归偏移量，以获取更准确的感兴趣区域，同时删除太小和超出边界的感兴趣区域。感兴趣区域池化层就是把感兴趣区域中的坐标映射到特征图上，得到特征图上的框坐标后，通过使用最大池化来得到相同的尺寸输出。感兴趣区域由最后一个新连接的卷积层进行分类，也就是将其输出从整个图像的卷积相应图像中分解为感兴趣区域的卷积响应图像，所有类别目标和背景都共享位置敏感分数图。

最后，整个网络后添加一个位置敏感的感兴趣区域池化层，它聚合了最后卷积层和感兴趣区域的输出，并给每一个感兴趣区域一个分数。池化公式如下：

其中，r_c(i,j|Θ)是c类中(i,j)箱子的池化响应，Z_i,j,c是3²×(c+1)分数图的输出，(x₀,y₀)是感兴趣区域的左上角分数图，n为桶里像素总数，Θ是网络参数。

该全卷积网络使用类似于更快速的区域卷积神经网络的多任务损失函数，分为分类回归损失函数L_cls和L_box。分类通过使用交叉熵损失函数得到，而回归使用L1-smooth损失函数得到。

Caltech数据集下的目标检测示例结果如图2和图3所示。图2和图3中的行人、车辆、树木可以被正确地检测到，并且全卷积化VGG-16网络在不影响准确率的情况下2倍4倍加速基础学习率，从而加速推理速度。Caltech数据集下不同加速学习率的精度比较如下表所示。

Caltech数据集下不同加速学习率的精度比较

学习率加速	平均精度均值	平均精度均值变化
			基础速率	0.687	-
2倍	0.681	0.006
			4倍	0.665	0.022

Claims

1.一种基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，包括以下步骤：

B)利用线性最小二乘法来最小化重构误差；

C)全卷积化基础卷积神经网络来共享感兴趣区域的计算。

2.根据权利要求1所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，通过减少特征图通道和相应的滤波器来减小网络体积并保持最小重构误差，优化公式描述如下：

3.根据权利要求2所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，固定w，并优化β来选择高贡献的通道，通过套索回归方法对卷积神经网络的每层通道进行冗余通道的修剪，套索回归可以得到较小的系数α，甚至一些绝对值较小的系数可以直接变成零，适用于修剪的参数缩减和参数选择，回归通道选择公式为：

4.根据权利要求3所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，固定β，并优化w以利用选择的通道来减少重构误差，我们采用最小二乘法得到最优解，其优化公式如下：

其中，

其中，w’是基于以下形式重建的：

β_i||w_i||_F→β_i,w_i/||w_i||_F→w_i。

5.根据权利要求1至4任意一项所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，当α为0时，||β||₀为c，然后使用套索回归方法，通过逐渐增加系数α来继续运行，直到||β||0≤c’稳定时，使用线性最小二乘法来最小化重构误差，直到获得最小重构误差。

6.根据权利要求5所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，在VGG-16网络结构和累积误差的条件下，从当前输入特征图中获得输入量，并从未修剪模型输出特征图中获得输出量，此时，未修剪通道公式被描述为：

(||β||₀≤c′)

其中，y’是在未修剪模型中得到的输出量。

7.根据权利要求6所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，使VGG-16网络框架全卷积化，首先，使用卷积层替代后三段全连接层，其中第六和第七段卷积层使用大小为4096×1×1的卷积核，第八段卷积层使用大小为1000×1×1的卷积核，使用上采样方法对第五段输出进行反卷积，然后依次对第三段和第四段输出反卷积，得到和原始图像大小相同并且清晰的特征图。

8.根据权利要求7所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，在卷积网络后面连接一个大小为k²×(c+1)的全卷积层，通过这种方式，在整个特征图上为每类生成k²个位置敏感分数图；

9.根据权利要求8所述基于通道修剪与全卷积深度学习的目标检测方法，其特征在于，整个网络后添加一个位置敏感的感兴趣区域池化层，它聚合了最后卷积层和感兴趣区域的输出，并给每一个感兴趣区域一个分数，池化公式如下：