CN111353544B

CN111353544B - 一种基于改进的Mixed Pooling-YOLOV3目标检测方法

Info

Publication number: CN111353544B
Application number: CN202010146020.5A
Authority: CN
Inventors: 郝琨; 郭飞; 赵璐
Original assignee: Tianjin Chengjian University
Current assignee: Tianjin Chengjian University
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2023-07-25
Anticipated expiration: 2040-03-05
Also published as: CN111353544A

Abstract

本发明公开了一种基于改进的Mixed Pooling‑YOLOV3目标检测方法，基于回归的思想进行目标检测算法的设计，实现了多尺度和多标签的分类。本发明基于目前一阶段目标检测方法YOLOV3的不足，设计了基于Darknet‑53结构的DMP网络作为特征提取器；其次，对原有损失函数进行重构，同时也对其参数进行优化，有效提升了检测精度，也使得收敛更加快速。DMP框架兼顾了网络的复杂度与检测的准确率，与常用的目标检测特征提取网络VGG‑16相比降低了模型运算量，本专利方法将计算机视觉的最新进展引入到目标检测领域中，在检测精度和检测速度上都有良好的效果，同时具有更好的性能和推广应用前景。

Description

一种基于改进的Mixed Pooling-YOLOV3目标检测方法

技术领域

本发明涉及计算机视觉、深度学习技术、目标检测的技术领域，特别是涉及一种基于改进的Mixed Pooling-YOLOV3的目标检测方法。

背景技术

作为计算机视觉中最基本和最具有挑战性的问题之一，目标检测近年来受到了极大的关注。目标检测是一项基本计算机视觉任务，它提供了用于图像和视频理解语义分割的基本信息，也能够用于检测数字图像中特定类别视觉对象的实例，因此受到了广泛的关注。目标检测的目的在于开发一个能够提供给计算机视觉应用程序所需基本信息的计算模型和技术：什么样的目标，它是在哪儿？从应用角度来看，目标检测可以分为两个研究主题：“一般物体检测”和“检测应用”，前者的意义在于统一框架下利用不同的目标检测方法去模拟人类的视觉和认知，后者的目的在于针对特定的应用场景下对特定的物体进行检测，如行人检测、人脸检测、文本检测等等。从目标检测的历程来看，目标检测分为两个历史阶段：传统目标检测时期(2014年以前)和基于深度学习的目标检测时期，P.Viola和M.Jones等人首次提出实现了实时人脸检测的Viola-Jones(VJ)detector，VJ detector采用最直接的检测方式,即滑动窗口查看所有可能包含人脸的位置和比例，以便查看是否存在人脸，虽然过程比较简单，VJ detector结合了“图像整体”、“特征选择”和“级联检测”三项重要的技术，极大提升了检测的速度；2005年N.Dalal和B.Triggs等人提出HOG(Histogram of OrientedGradients)，HOG被认为当时尺度不变特征变换和形状上下文的重要改进，主要用于检测不同的目标对象类，尤其是行人检测问题；P.Felzenszwalb等人于2008年提出DPM(Deformable Part-based Model),作为一种基于组件的检测算法，创造了传统目标检测方法的巅峰。

伴随着2012年卷积神经网络CNN(Convolutional Neural Network)的出现，目标检测已得到了明显的提升。在深度学习的时代，目标检测大致被分为两大类：“两阶段检测”和“一阶段检测”，前者目标检测是一个由粗略到精细的过程，而后者是一步到位完成。2014年R.Girshick首次提出具有CNN特征的候选区域网络(Region-CNN)，其思想简单：首先是通过Selective search区域建议方法对可能存在的目标位置(对象候选框)进行筛选，然后将每个建议框进行缩放，输入到提前训练好的CNN模型(例如AlexNet)中进行特征的提取，最后借助分类器判断各个区域中是否含有特定类型的目标，通过一些的后处理操作(例如非极大值抑制、边框位置回归)等，得到最终目标的位置；同年，K.He等人提出SPPNet(SpatialPyramid Pooling Networks)通过引入SPP(Spatial Pyramid Pooling)解决了R-CNN重复计算大量重叠候选区域的问题，从而避免了反复计算卷积特征，速度明显提升；2015年R.Girshick等人针对SPPNet存在的问题提出了Fast RCNN使得能够在相同网络配置下同时训练检测器和边框回归器，检测速度比R-CNN快200倍；同年，S.Ren等人又提出FasterRCNN，通过引入区域建议网络(RPN Region Proposal Network)实现了第一个接近实时、端到端的深度学习检测器，突破了速度的瓶颈；2017年T.-Y.Lin等人在Faster RCNN的基础上提出了FPN(Feature Pyramid Networks)网络，实现了当时最先进的模型结果。两阶段的目标检测方法虽然在能够实现很高的精确度，但是检测速度还有待提升；2015年R.Joseph首次提出了深度学习时代的一阶段目标检测器YOLO(You Only Look Once)，代替了两阶段“proposal detection+verification”的检测模式，相反的它将整个神经网络应用于完整图像，将图像划分为对多个区域，并预测每个区域的边界框和概率。尽管YOLO的检测速度提升了很多，但是与两级检测器相比，它定位的精度却下降了，特别是针对一些小的物体，R.Joseph做出了一系列的改进，并提出了v2和v3版本，进一步改善检测能力，并保持了较高的检测速度。SSD(Single Shot MultiBox Detector)作为第二个一阶段检测器，相对于需要目标建议的方法而言是简单的，因为它完全消除了建议区域的生成和后续像素或特征重采样阶段，将所有的计算封装在单个网络中，使得更加容易训练。

发明内容

本发明的目的在于，针对一阶段目标检测算法YOLOV3存在的精度低、正负样本不均衡及过拟合等问题，将“混合池化”和“重构损失函数”思想融入到YOLOV3的网络结构中，提出一种新型DMP(Darknet based on Mixed Pooling)的目标检测网络框架。本发明能够有效提升检测的精度，且收敛速度更快，使得检测能力进一步提升。

为解决上述技术问题，本发明提供一种基于改进的Mixed Pooling-YOLOV3的目标检测方法，是采用下述技术方案实现的：

一种基于改进的Mixed Pooling-YOLOV3目标检测方法，包括以下步骤：

a.制作非自然场景中的图像数据集，并对部分图像进行预处理操作；

b.数据预处理完成之后根据需要识别的目标类型优化DMP网络参数并开始模型训练；

c.训练完模型之后将采集得到的图像输入到模型中进行测试，实现目标的识别与定位。

一种可能的技术方案中，所述的步骤a中，图像数据集的格式为VOC格式；图像数据集制作时，采集含有各种类型目标对象的图像，利用标签制作工具将所述图像数据集中各类型目标对象进行位置和类别标记，同时采用数据增强技术对部分图像进行翻转、裁剪、平移等一系列预处理操作，进而制得图像数据集。

一种可能的技术方案中，所述标签制作工具为labelImg标签制作工具，所述图像数据集包括存储图像的文件、存放xml标签的文件以及存放图像路径的txt文件。

一种可能的技术方案中，所述的模型训练和目标的识别与定位是基于MixedPooling-YOLOV3的DMP框架进行，其是先将输入的图像分成S×S等大的网络单元，目标的中心落在哪个网格单元中，则这个网格单元就负责检测这个目标；然后利用DMP特征提取网络对输入图像进行特征提取，得到一定尺寸大小的特征图，之后继续利用卷积网络进一步完成目标的检测与定位；采用GIoU来衡量检测边框和真实边框之间的差距，GIoU的值越大说明定位误差越小；因为每个格子中都会预测固定数量的边界框，要选择与真实目标置信度值最大的那个边框作为最终检测边框，最理想的情况是GIoU＝IoU:找到所有真实边框的集合为GroundTruth(GT)与所有预测边框的集合为DectionResult(DR)的最小闭包最终计算得到GIoU值：

Mixed Pooling-YOLOV3在每一个单元格上为每个边界框预测4个值，记为(t_x,t_y,t_w,t_h),如果目标网格偏离图像左上角的边距(c_x,c_y)，且它对应锚点框的宽和高(p_w,p_h)，那么最终的网格预测值为

b_x＝σ(t_x)+c_x (3) b_y＝σ(t_y)+c_y (4)

其中，c_x,c_y是目标网格偏移图像的偏移量；p_w,p_h是对应锚点框的宽和高；b_x,b_y,b_w,b_h为最终预测得到的边框坐标值；t_x,t_y,t_w,t_h为DMP特征提取网络学习目标；x,y为目标对象的中心位置坐标；w,h为目标对象坐标相对于网格的偏移的宽度和高度；所述的x,y,w,h为了数据处理方便，均作归一化处理。

一种可能的技术方案中，所述的DMP框架的0～79层中，共有52个卷积层，其中res层用于解决网络的梯度弥散或者是梯度爆炸的问题；Mixed Pooling层旨在通过降低特征映射的分辨率，同时解决过度拟合的问题。

一种可能的技术方案中，所述的DMP框架的79～111层作为Mixed Pooling-YOLOV3特征交互层，所述的特征交互层分为三个尺寸，每个尺寸内，通过卷积核的方式实现局部的特征交互，通过卷积核1*1和3*3的方式实现特征映射图之间的局部特征交互。

一种可能的技术方案中，所述的三个尺寸的特征输出尺寸具体如下：

尺寸1：在基础网络之后添加少数卷积层再输出boundingbox信息；

尺寸2：为了实现细粒度的检测，从尺寸1中倒数第二层的卷积层又开始作上采样再与最后一个26*26大小的特征图进行融合操作，同样经过几个卷积层后得到输入图像16倍下采样的特征图，再次输出boundingbox信息，相比尺寸1变为原来的2倍；

尺寸3：从尺寸2输出的特征图基础上再次进行上采样，最后得到相对输入图像8倍下采样的52*52特征图，在此基础上进行分类和回归。

与现有技术相比本发明的有益效果为：本发明基于改进的Mixed Pooling-YOLOV3目标检测方法，本发明在YOLOV3(You Only Look Once:An Incremental Improvement)算法的基础上进行以下两大改进：(1)设计了使用混合池化(Mixed Pooling)的特征提取网络DMP(Darknet based on Mixed Pooling)，缓解在训练过程中由于网络过深而造成的过拟合问题，从而减少因下采样而导致特征空间信息丢失.(2)对原有损失函数进行重构，不仅减少梯度消失的情况，而且可以使网络收敛更加快速，同时解决正负样本分布不均衡问题，从而降低分配给分类良好样本的损失；在Pascal VOC数据集上的实验表明，在不影响检测速度的情况下准确率提升了3个百分点左右，且收敛速度变快，使目标检测能力进一步提升。

综上，本发明旨在提出基于改进的Mixed Pooling-YOLOV3目标检测方法，避免了其他目标检测算法的复杂度，利用相对较好的YOLOV3检测算法和神经网络DMP框架实现，DMP框架提取的特征加上局部特征交互，能够有效提升检测目标的精度；另外，该发明在非自然场景中目标检测应用上具有更好的性能和推广应用前景。

附图说明

附图用来提供对本发明作进一步说明，并构成说明书的一部分，并与本发明的实施例一起，旨在便于本发明的理解，并不构成对本发明的限制。

在附图中：

图1是本发明中基于改进Mixed Pooling-YOLOV3的S×S等大单元格预测边框示意图；

图2是本发明中计算先验框anchor所对应的先验框位置示意图；

图3是本发明所使用的DMP网络结构图；

图4是本发明所提供的基于改进的Mixed Pooling-YOLOV3目标检测方法的整体流程图；

图5(a)～(c)是实际测试的效果截图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图4所示，本发明实施例的基于改进的Mixed Pooling-YOLOV3目标检测方法，包括以下步骤：

前述的步骤a，图像数据集的格式为VOC格式；数据集按照下述方法进行制作，采集含有各种类型目标对象的图像，利用标签制作工具将图像数据集中各类型目标进行位置和类别标记，同时也采用数据增强技术对部分图像进行翻转、裁剪、平移等一系列预处理操作，进而制得图像数据集。

前述的标签制作工具为labelImg标签制作工具，所述的图像数据集包括存储图像的文件、存放xml标签的文件以及存放图像路径的txt文件。

前述的模型训练和目标的识别与定位是基于Mixed Pooling-YOLOV3的DMP框架进行；其主要思想是将输入的图像分成S×S等大的网络单元，如图1，目标的中心落在哪个网格单元中，则这个网格单元就负责检测这个目标；然后利用DMP特征提取网络对输入图像进行特征提取，得到一定尺寸大小的特征图，之后继续利用卷积网络进一步完成目标的检测与定位；采用GIoU(Generalized Intersection over Union)来衡量检测边框和真实边框之间的差距，GIoU的值越大说明误差越小。因为每个格子中都会预测固定数量的边界框，要选择与真实目标的置信度值最大的那个检测边界框作为最终检测边框，最理想的情况是GIoU＝IoU(Intersection over Union):找到真实边框的集合与预测边框的集合/>的最小闭包/>最终计算得到GIoU值：

如图3所示，基于改进的Mixed Pooling-YOLOV3目标检测方法采用DMP网络结构为目标对象所在的每个单元格预测每个边界框的4个值，记为(t_x,t_y,t_w,t_h),如果目标网格偏离图像左上角的边距(c_x,c_y)，且它对应锚点框的宽和高(p_w,p_h)那么最终的网格预测值将为(如图2示)

b_x＝σ(t_x)+c_x (3) b_y＝σ(t_y)+c_y (4)

前述的模型，在准备图像数据集之后，利用DMP特征提取网络对输入图像进行训练，训练在GPU(图形处理器)上进行。所述的DMP框架的0～79层中，共有52个卷积层，其中res层：用于解决网络的梯度弥散或者是梯度爆炸的问题；mixed Pooling层旨在通过降低特征映射的分辨率，同时也可以解决过度拟合问题，其性能优于最大池化和平均池化。DMP框架借鉴darknet-53整合了各主流网络结构性能优异卷积层的优势作为改进的MixedPooling-YOLOV3特征网络提取主要结构。DMP网络结构如图3所示，右侧支路的作用为特征融合和预测。

前述的DMP框架的79～111层作为Mixed Pooling-YOLOV3特征交互层，所述的特征交互层分为三个尺寸，每个尺寸内，通过卷积核的方式实现局部的特征交互，通过卷积核1*1和3*3的方式实现特征映射图之间的局部特征交互。

前述的三个尺寸的特征图输出尺寸具体如下：

具体地，尺寸1：输入13*13的特征图，一共1024个通道，输出特征图的大小13*13,255个通道，在此基础上进行分类与位置回归。

尺寸2：将84层的13*13、512通道的特征图进行卷积操作，生成13*13、256通道的特征图，然后进行上采样，生成26*26、256通道的特征图，同时与65层26*26、512通道的中尺度的特征图合并，再进行一系列卷积操作。输出26*26大小的特征图，255个通道，然后在此进行分类与位置回归。

尺寸3：将96层的26*26、256通道的特征图进行卷积操作，生成26*26、128通道的特征图，然后进行上采样，生成52*52、512通道的特征图，同时与39层52*52、256通道的中尺度的特征图合并，再进行一系列卷积操作。输出52*52大小的特征图，255个通道，然后在此进行分类与位置回归。

图5(a)～(c)为实际测试的系列结果截图，实际测试时目标的识别与定位。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于改进的Mixed Pooling-YOLOV3目标检测方法，其特征在于，该方法包括以下步骤：

a.制作非自然场景中的图像数据集，并对部分图像进行预处理操作；所述非自然场景中含有各种类型目标对象；

c.训练完模型之后将采集得到的图像输入到模型中进行测试，实现目标的识别与定位；

所述的模型训练和目标的识别与定位是基于Mixed Pooling-YOLOV3的DMP框架进行，其是先将输入的图像分成S×S等大的网络单元，目标的中心所在的网格单元负责检测这个目标；然后利用DMP特征提取网络对输入图像进行特征提取，得到一定尺寸大小的特征图，之后继续利用卷积网络进一步完成目标的检测与定位；采用GIoU来衡量检测边框和真实边框之间的差距，GIoU的值越大说明定位误差越小；因为每个格子中都会预测固定数量的边界框，要选择与真实目标置信度值最大的那个边框作为最终检测边框，最理想的情况是GIoU＝IoU:找到所有真实边框的集合为GroundTruth(GT)与所有预测边框的集合为DectionResult(DR)的最小闭包最终计算得到GIoU值：

Mixed Pooling-YOLOV3在每一个单元格上为每个边界框预测4个值,记为(t_x,t_y,t_w,t_h),如果目标网格偏离图像左上角的边距(c_x,c_y)，且它对应锚点框的宽和高(p_w,p_h)，那么最终的网格预测值为

b_x＝σ(t_x)+c_x (3) b_y＝σ(t_y)+c_y (4)

其中，c_x,c_y是目标网格偏移图像的偏移量；p_w,p_h是对应锚点框的宽和高；b_x,b_y,b_w,b_h为最终预测得到的边框坐标值；t_x,t_y,t_w,t_h为DMP特征提取网络学习目标；x,y为目标对象的中心位置坐标；w,h为目标对象坐标相对于网格的偏移的宽度和高度；所述的x,y,w,h为了数据处理方便，均作归一化处理；

所述的DMP框架的0～79层中，共有52个卷积层，其中res层用于解决网络的梯度弥散或者是梯度爆炸的问题；Mixed Pooling层旨在通过降低特征映射的分辨率，同时解决过度拟合的问题；

所述的DMP框架的79～111层作为Mixed Pooling-YOLOV3特征交互层，所述的特征交互层分为三个尺寸，每个尺寸内，通过卷积核的方式实现局部的特征交互，通过卷积核1*1和3*3的方式实现特征映射图之间的局部特征交互；

所述的三个尺寸的特征输出尺寸具体如下：

2.如权利要求1所述的基于改进的Mixed Pooling-YOLOV3目标检测方法，其特征在于，所述的步骤a中，图像数据集的格式为VOC格式；图像数据集制作时，采集含有各种类型目标对象的图像，利用标签制作工具将所述图像数据集中各类型目标对象进行位置和类别标记，同时采用数据增强技术对部分图像进行翻转、裁剪、平移等一系列预处理操作，进而制得图像数据集。

3.如权利要求2所述的基于改进的Mixed Pooling-YOLOV3目标检测方法，其特征在于，所述标签制作工具为labelImg标签制作工具，所述图像数据集包括存储图像的文件、存放xml标签的文件以及存放图像路径的txt文件。