CN107392214B

CN107392214B - 一种基于全卷积分裂网络的目标检测方法

Info

Publication number: CN107392214B
Application number: CN201710616541.0A
Authority: CN
Inventors: 李宏亮
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2020-10-09
Anticipated expiration: 2037-07-26
Also published as: CN107392214A

Abstract

本发明提供了一种基于全卷积分裂网络的目标检测方法，对图片进行预处理：将搜集到的数据集中的图片进行随机抽取裁剪，具体剪裁方法为：取图片长宽的设定大小的预置框，在图片中选取5处裁剪预置框大小的图片，分别为图片的四角和中心位置，将对应目标的目标框映射到处理后的图片，得到训练图片。与现有技术相比，在计算资源损耗方面是当前网络模型（比如VGG网络）的1/100；在运算时间方面提速了300倍，极大提升了运算效率；在检测性能方面，本方法能有效检测到道路上出现的大小目标，达到了速度与精度的平衡。

Description

一种基于全卷积分裂网络的目标检测方法

技术领域

本发明涉及一种计算机视觉目标检测领域，特别是涉及一种适用于基于全卷积分裂网络的目标检测方法。

背景技术

视觉是人类获取信息的主要方式，人类获取的信息有70%来自视觉信息。随着社会的发展，智能感知传感器的分布越来越广泛，我们可以从这些传感器中获得大量的信息。人类可以从复杂的环境中准确的定位和检测到物体，这是人类视觉的基本的功能。计算机视觉中的目标检测，旨在利用计算机对自然图片中的目标进行检测和定位，是目标跟踪和大量后续工作的基础。具有极其重要的研究价值。在学术界和工业界，研究目标检测的算法是十分重要的，但是在计算机视觉领域，现有的目标检测算法仍然存在着十分重要的缺陷。比如，无法满足实时性，算法运行时资源消耗巨大。

随着卷积神经网络的发展，基于卷积神经网络的分类方法在图像分类问题上面有着优异的表现，现有19层的VGG网络将1000类的分类挑战的精度突破到了7.3%；22层的GoogleNet网络将分类精度突破到了6.7%.到了2015年，由何凯明发明的152层残差网络将分类误差降低到了3.57%.然而随着网络的不断深入发展，卷积神经网络的深度在不断提升，与此同时网络的大小也在不断的增大。网络越大，所消耗的计算资源越多，计算的时间复杂度也就越大，然而现有的计算资源是十分有限的。于是深度网络的大规模运用就收到了局限。

基于深度学习的目标检测算法主要的框架主要是利用卷积神经网络作为特征提取的模块，然后利用深度特征进行目标的检测。现有主流的基于深度学习的目标检测算法分为两大类，一类是以候选区域(region proposal)算法为主要框架的R-CNN系列，分别包括(R-cnn, fast R-cnn, faster R-cnn)；另一类是以预置框(anchor box)为主要框架的YOLO和SSD两个方法。两类方法都得益于卷积神经网络的优异的特征提取的能力。但是由于特征提取的部件所消耗的计算资源十分巨大。于是现有的基于深度学习的目标检测算法在实时性方面依然差强人意。

随着计算资源的分散化，视觉方面的计算移动化越来越成为趋势，人们更多的希望可以在移动端使用目标检测的功能。这就给基于深度学习的目标检测算法待来了极大的挑战。因为现有比较优秀的检测框架和算法根本无法在超小计算能力的平台上运行。于是，在保证检测识别的精度的前提下，提高实时性成为了我们这个专利的研究方向。

发明内容

本发明要解决的技术问题是克服现有基于深度学习的目标检测算法技术的复杂度过高的不足，提供一种基于全卷积分裂网络的目标检测方法，在保证检测识别的精度的前提下，提高目标检测的实时性。

本发明采用的技术方案如下：一种基于全卷积分裂网络的目标检测方法，具体方法包括：

对图片进行预处理：将搜集到的数据集中的图片进行随机抽取裁剪，具体剪裁方法为：取图片长宽的设定大小的预置框，在图片中选取5处裁剪预置框大小的图片，分别为图片的四角和中心位置，将对应目标的目标框映射到处理后的图片，得到训练图片；

特征提取阶段特征提取部分的特征提取网络结构为：特提取网络的层数为9层卷积层；其中，有n层卷积层后级联一个用于降采样的池化层；两个滤波器的输出大小分别为1x1(单位：像素)和3x3(单位：像素)；其中，n为大于等于1小于等于9的自然数；

在目标检测阶段，在特征提取网络后级联6个的卷积层，构成检测网络，每个卷积层直接输出目标的位置信息和类别信息；在检测网络中，改变其中两个卷积层的卷积核的大小由原来的3x3(单位：像素)改为2x4和4x2(单位：像素)。

所述设定大小的预置框为图片长宽的1/3大小的预置框。

特征提取网络中，所述池化层的类型选择为取最大的池化。

特征提取网络中，每个卷积层的输出特征谱个数分别为30、70、80、200、80、200、256、500和1000。

所述方法还包括，在目标检测阶段，结合所述目标框的大小比例的分布，采用两种以上宽高比的检测模型。

检测网络检测模型为宽高比分别为1:2和2:1的两种矩形卷积核的检测模型。

所述6个卷积层中，前三个卷积层的卷积核大小为3x3（单位：像素），网络再级联两个卷积层，其中的卷积核设计为2x4和4x2(单位：像素)，然后再级联一个卷积层。

与现有技术相比，本发明的有益效果是：经过图片预处理的操作，每一张原始图片变成了5张训练图片，增广了训练数据集，训练样本的数量变成了原来的5倍。由于训练数据的增多，提高了特征提取网络提取特征的能力，目标框的映射操作相当于将小目标的尺度放大，从而提高了对小目标的检测精度。

在计算资源损耗方面是当前网络模型（比如VGG网络）的1/100；在运算时间方面提速了300倍，极大提升了运算效率；在检测性能方面，本方法能有效检测到道路上出现的大小目标，达到了速度与精度的平衡。

附图说明

图1为本发明其中一实施例的特征提取网络配置示意图。

图2为本发明其中一实施例的检测网络框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

具体实施例1

一种基于全卷积分裂网络的目标检测方法，具体方法包括：

经过图片预处理的操作，每一张原始图片变成了5张训练图片，增广了训练数据集，训练样本的数量变成了原来的5倍。由于训练数据的增多，提高了特征提取网络提取特征的能力，目标框的映射操作相当于将小目标的尺度放大，从而提高了对小目标的检测精度。

特征提取网络中，减少了网络的层数，并且减小了滤波器的大小。

在本具体实施例中，将特征提取网络在1000类目标的分类数据ImageNet(ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库)上面进行预训练，迭代100,000次，达到网络收敛。收敛时，网络的分类精度为48%。网络总参数大小约是2百万(单位：个),所以在特征提取速度上有很大的提升，在实验阶段，在英伟达TITANX平台上，每张图片的特征提取时间约为5毫秒。

如图1所示，在本具体实施例中，输入是100x100（单位：像素）的3通道的图片，卷积核的大小通常为1x1和3x3（单位：像素），卷积层下面标注有pooling表示当前层级联了一个池化层，max和avg表示池化的类型。

为了测试网络的有效性，构建了一个日常场景数据库，共30000张图片，该数据库中包含人，汽车，自行车，摩托车四类目标。在精度方面，本发明在构建的日常场景数据库中表现优异，其中人的检测精度有66%，汽车的检测精度有62%，摩托车的检测精度为49.8%，自行车检测精度为49.3%。平均检测精度为56.86%；在速度方面，本发明的算法的在英伟达GPU平台上的运行时间为每张图片7ms，可以达到实时的效果。

具体实施例2

在具体实施例1的基础上，所述设定大小的预置框为图片长宽的1/3大小的预置框。

具体实施例3

在具体实施例1或2的基础上，特征提取网络中，所述池化层的类型选择为取最大的池化。

具体实施例4

在具体实施例1到3之一的基础上，特征提取网络中，每个卷积层的输出特征谱个数分别为30、70、80、200、80、200、256、500和1000。特征提取网络中，减少了卷积层的输出特征谱的个数，在多个特征谱上面进行检测，充分利用全卷积操作直接输出检测目标的坐标和类别信息，这样的操作简化了计算，减少了计算的时间复杂度和空间复杂度。在实验阶段，在英伟达TITANX平台上，每张图片检测时间约为2毫秒。

具体实施例5

在具体实施例1到4之一的基础上，所述方法还包括，在目标检测阶段，结合所述目标框的大小比例的分布，采用两种以上宽高比的检测模型。

具体实施例6

在具体实施例1到5之一的基础上，检测网络检测模型为宽高比分别为1:2和2:1的两种矩形卷积核的检测模型。

在检测端，提出的2x4和4x2(单位:像素)的多宽高比的卷积核模型，能够很好地捕捉目标的姿态变化，提高检测的精度。在实验阶段，人的检测精度有66%，汽车的检测精度有62%，摩托车的检测精度为49.8%，自行车检测精度为49.3%。平均检测精度为56.86%。

具体实施例7

在具体实施例1到6之一的基础上，所述6个卷积层中，前三个卷积层的卷积核大小为3x3（单位：像素），网络再级联两个卷积层，其中的卷积核设计为2x4和4x2(单位：像素)，然后再级联一个卷积层。

如图2所示，在本截图实施例中，检测网络框架中，特征提取层为图1的全卷积网络，其中检测层的前两个卷积核大小为3x3，两个方向的卷积核大小分别为2x4和4x2，最后一个卷积核大小为1x1，卷积层直接输出的结果表示目标的坐标和类别，称为检测输出。

Claims

1.一种基于全卷积分裂网络的目标检测方法，具体方法包括：

特征提取阶段的特征提取网络结构为：特征提取网络的层数为9层卷积层；其中，有n层卷积层后级联一个用于降采样的池化层；卷积层的两个卷积核大小分别为1x1和3x3；其中，n为大于等于1小于等于9的自然数；

在目标检测阶段，在特征提取网络后级联6个卷积层，构成检测网络，每个卷积层直接输出目标的位置信息和类别信息；在检测网络中，改变其中两个卷积层的卷积核的大小，由3x3改为2x4和4x2；所述6个卷积层中，前三个卷积层的卷积核大小为3x3网络再级联两个卷积层，其中的卷积核设计为2x4和4x2，然后再级联一个卷积核大小为1x1的卷积层。

2.根据权利要求1所述的基于全卷积分裂网络的目标检测方法，所述设定大小的预置框为图片长宽的1/3大小的预置框。

3.根据权利要求1或2所述的基于全卷积分裂网络的目标检测方法，特征提取网络中，所述池化层的类型选择为取最大的池化。

4.根据权利要求3所述的基于全卷积分裂网络的目标检测方法，特征提取网络中，每个卷积层的输出特征谱个数分别为30、70、80、200、80、200、256、500和1000。

5.根据权利要求1或2所述的基于全卷积分裂网络的目标检测方法，所述方法还包括，在目标检测阶段，结合所述目标框的大小比例的分布，采用具有两种以上宽高比矩形卷积核的检测网络。

6.根据权利要求1或2所述的基于全卷积分裂网络的目标检测方法，检测网络为具有宽高比分别为1:2和2:1的两种矩形卷积核的检测网络。