CN107563381B

CN107563381B - 基于全卷积网络的多特征融合的目标检测方法

Info

Publication number: CN107563381B
Application number: CN201710816619.3A
Authority: CN
Inventors: 郭亚婧; 郭晓强; 姜竹青; 周芸; 门爱东; 王强; 付光涛
Original assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Current assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2020-10-23
Anticipated expiration: 2037-09-12
Also published as: CN107563381A

Abstract

本发明设计了一种基于全卷积网络的多特征融合的目标检测方法，其主要技术特点是：搭建具有六个卷积层组的全卷积神经网络；利用卷积神经网络的前五组卷积层提取图像特征，并将其输出进行融合，形成融合特征图；对融合后的特征图进行卷积处理，直接产生固定数目的不同大小的目标边框；计算卷积神经网络生成的目标边框与真实边框之间的分类误差与定位误差，利用随机梯度下降法降低训练误差，得到最终训练模型的参数，最后进行测试得到目标检测结果。本发明利用了深度卷积网络对目标的强大的表示能力，构建了用于目标检测的全卷积神经网络，提出了新的融合特征方法，提高了算法的检测速度和精度，获得了良好的目标检测结果。

Description

基于全卷积网络的多特征融合的目标检测方法

技术领域

本发明属于目标检测技术领域，尤其是一种基于全卷积网络的多特征融合的目标检测方法。

背景技术

目标检测作为计算机视觉的重要研究课题之一，被广泛应用于国防军事、公共交通、社会安全和商业应用等各个领域。因此目标检测算法的研究，具有非常重要的军事以及商业价值。所谓目标检测，是通过分析图像或者视频中的目标的特征，将目标识别出来，获得目标的类别和位置信息，能够对目标做进一步分析和理解提供帮助，例如目标跟踪以及基于图像内容的分析等。然而目标通常具有不同的形态、颜色、光亮和遮挡等多变因素，目标所处的场所环境也缤纷复杂，这些因素使得基于计算机视觉的目标检测面临着巨大的挑战。

传统的目标检测模型通常采用复杂的人工特征提取方法，比如方向梯度直方图(HOG)、尺度不变特征转换(SIFT)、局部二值模式特征(LBP)等，来获得与目标有关的信息表达，并在所提取的特征信息上训练分类器和回归器从而实现目标检测。随着计算机计算能力的大幅提高和大规模数据集的产生，深度学习应运而生，也使得目标检测技术取得了飞快的发展。目前流行的目标检测算法均使用卷积神经网络来进行特征提取。卷积神经网络广泛应用于计算机视觉领域主要源于2012年Krizhevsky等人提出的AlexNet(A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenet classification with deepconvolutional neural networks,”in NIPS,2012,pp.1097–1105.)在ILSVRC2012竞赛中取得冠军，AlexNet成为卷积神经网络在图像分类上的经典模型。AlexNet由5层卷积层和3层全连接层构成，卷积层主要用于提取目标特征，全连接层用于对目标的分类，这一模型的精度显著高于当时基于传统手工特征的算法。之后Girshick等人将卷积神经网络应用于目标检测，提出了经典的R-CNN算法(R.Girshick,J.Donahue,T.Darrell,and J.Malik,“Richfeature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014,pp.580–587.)。其对于一张输入图像，首先产生2000个左右的候选框，然后利用卷积神经网络提取特征，并利用所提取的特征训练SVM分类器以及利用回归器实现目标的位置修正。基于候选框的目标检测技术在检测精度上表现优异，然而由于候选框的产生需要耗费大量时间。为了提高检测速度，能够实现实时目标检测，Redmon等人提出一种基于单一卷积神经网络的目标检测算法YOLO(J.Redmon,S.Divvala,R.Girshick,andA.Farhadi,“You only look once:Unified,real-time object detection,”arXivpreprint arXiv:1506.02640,2015)。对于一张输入图像，YOLO可以直接输出目标类别置信度以及目标位置，YOLO等算法的出现使得实时目标检测成为可能，并将目标检测的实际应用向前推动了一大步。

虽然目标检测算法经过了几十年的发展已经取得了不错的效果，卷积神经网络的出现更是将目标检测精度提升了很多，但是很多问题还是有待改善，例如，如何平衡精度和速度，提高小目标检测精度，降低目标定位误差等。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理、精度高且速度快的基于全卷积网络的多特征融合的目标检测方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于全卷积网络的多特征融合的目标检测方法，包括以下步骤：

步骤1、搭建具有六个卷积层组的全卷积神经网络；

步骤2、利用卷积神经网络的前五组卷积层提取图像特征，并将其输出进行融合，形成融合特征图；

步骤3、对融合后的特征图进行卷积处理，直接产生固定数目的不同大小的目标边框；

步骤4、计算卷积神经网络生成的目标边框与真实边框之间的分类误差与定位误差，利用随机梯度下降法降低训练误差，得到最终训练模型的参数，最后进行测试得到目标检测结果。

所述步骤1中搭建的全卷积神经网络结构如下：

所述步骤2的具体实现方法包括以下步骤：

⑴将图像输入到全卷积神经网络中，使得输入图像经过五组卷积层处理，每组卷积层均输出相应的特征图；

⑵将第三卷积层组和第四卷积层组输出的特征图进行映射处理，尺度减少通道数增加，以使得其特征图尺寸与第五卷积层组的输出特征图保持一致；

⑶将上述第三至第五卷积层组输出的特征图进行级联，得到包含图像多级特征信息的特征图。

所述步骤3的具体实现方法包括以下步骤：

⑴将输入图像分成11*11的网格，并对应到特征图当中；

⑵对于每个网格，预测产生6个尺寸和长宽比不同的边界框，包括2种尺度以及3种长宽比1：1、1：2和2：1；

⑶每个边界框生成4+C个值，4个值为x，y，w，h用来表示边界框位置及大小，C表示目标类别，对于每个类别边界框将产生一个相应的置信度，来表示属于某类别的可能性。

所述步骤4的具体实现方法包括以下步骤：

⑴分别计算预测边界框与真实边框的分类误差和定位误差，其中对于分类误差只计算有目标出现的网格的误差，对于定位误差，则计算smooth L1损失；

⑵在训练过程中，取正负样本的比例为1:3；

⑶利用随机梯度下降法进行模型的训练，使得最终产生的预测边框更加接近真实边框，并利用已训练好的模型参数对实际目标进行测试。

所述分类误差和定位误差具有相同的权重。

所述正样本的选取方法为：真实边框交除并值大于0.7的预测边框为正样本；所述负样本的选取方法为：交除并值小于0.3且大于0.1的预测边框为负样本。

所述计算smooth L1损失采用如下公式：

其中，L_loc(t，t＊)表示定位误差损失函数，t，t＊分别代表预测边框和真实边框，包含了x,y,w,h的值，(x,y)表示边框中心的坐标，w和h表示边框的宽度和高度。

本发明的优点和积极效果是：

本发明采用全卷积网络的多特征融合的目标检测方法，通过搭建一个不含全连接层的卷积神经网络用于目标检测，由于输入图像尺寸不受限制，提高了检测灵活度；充分利用深度不同的特征信息进行融合，以获得所检测目标的丰富的特征信息，进一步提高了检测精度；并且由于省去了传统目标检测方法中生成目标候选框的步骤，明显提高了模型训练以及测试的时间。本发明利用了深度卷积网络对目标的强大的表示能力，构建了用于目标检测的全卷积神经网络，提出了新的融合特征方法和多尺度训练的策略，提高了算法的检测速度和精度，获得了良好的目标检测结果。

附图说明

图1是本发明的目标检测模型的整体框架；

图2是本发明的目标检测模型在PASCAL VOC2012数据集上的测试结果；

图3是本发明与其他不同算法的检测错误分析结果对比图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种基于全卷积网络的多特征融合的目标检测方法，如图1所示，包括以下步骤：

步骤1、构建如下全卷积神经网络结构：

在每一个卷积层组内，我们大多数采用了3*3的滤波器，并且在每一步最大池化操作之后将滤波器的通道数量加倍，3*3滤波器之间的1*1滤波器用来压缩特征。

步骤2、利用卷积神经网络的前5组卷积层提取图像特征，并将其输出进行融合，形成融合特征图：

(1)首先将带目标真实边框的图像输入到步骤一所述的全卷积神经网络结构中，使得输入图像经过五组卷积层处理，每组卷积层都可以输出相应的特征图；

(2)将卷积层组3、4、5输出的特征图分别进行处理，其中卷积层组3和4输出的特征图需要进行映射处理，尺度减少通道数增加，以使得其特征图尺寸与卷积层组5的输出特征图保持一致；

(3)将上述卷积层组3、4、5输出的特征图进行融合，得到包含图像多级特征信息的特征图。

步骤3、对融合后的特征图进行卷积处理，直接产生固定数目的不同大小的目标边框：

(1)由于通过卷积操作生成的特征图在位置上与输入图像保持一致，我们将输入图像分成11*11的网格，对应到特征图当中；

(2)对于每个网格，将会预测产生6个大小、长宽比不同的边界框，包括2种尺度以及3种长宽比1：1、1：2和2：1；

(3)每个边界框包含4+C个值，4个值为x，y，w，h用来表示边界框位置及大小，C表示目标类别，对于每个类别边界框将产生一个相应的置信度，来表示属于某类别的可能性。

步骤4、计算卷积神经网络生成的目标边框与真实边框之间的分类误差与定位误差，利用随机梯度下降法使训练误差降到最低，得到最终训练模型的参数，最后进行测试得到目标检测结果：

(1)分别计算预测边界框与真实边框的分类误差和定位误差，其中对于分类误差只计算有目标出现的网格的误差，对于定位误差，则计算smooth L1损失，将分类误差和定位误差设置了相同的权重，即λ＝1，表明在训练过程中两者同样重要；所述损失函数的公式为：

其中，L_loc(t，t＊)表示定位误差损失函数，t，t＊分别代表预测边框和真实边框，包含了x,y,w,h的值，(x,y)表示边框中心的坐标，w和h表示边框的宽度和高度。采用smoothL1函数使得定位损失对于离群点更加鲁棒。

(2)训练过程中正负样本的比例为1:3，其中与真实边框交除并值(Intersection-over-Union，IoU)大于0.7的预测边框为正样本，交除并值小于0.3大于0.1的预测边框为负样本；

(3)利用随机梯度下降法进行模型的训练，使得最终产生的预测边框更加接近真实边框，并利用已训练好的模型参数对实际目标进行测试。

下面按照本发明的方法进行实验，说明本发明的实验效果。

测试环境：Ubuntu14.04，MATLAB 2014b

测试序列：所选测试序列来自目标检测的PASCAL VOC数据集(M.Everingham,L.Van Gool,C.K.Williams,J.Winn,and A.Zisserman,“The pascal visual objectclasses(voc)challenge,”International journal of computer vision,vol.88,no.2,pp.303–338,2007.)。其中包含的目标均为日常生活常见种类，共20个类别，包括人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。

测试指标：使用了三种评价指标，即精度指标mAP(mean average precision)、速度指标FPS(frames per second)和错误分析(error analysis)。其中精度mAP是目标检测结果的平均准确度测量，对不同算法计算此参数值，证明本发明算法在目标检测领域得到较好的结果；FPS是目标检测速度的度量，通过在测试过程中每秒能处理多少帧图片来评定目标进测速度，对不同算法计算此参数值，证明本发明算法在目标检测领域的优越性；错误分析通过将目标检测错误类型归类，可以看出各算法的优劣势，通过该分析，证明本文算法在目标检测的定位、背景干扰等方面的优势。

测试结果如下：

表1基于PASCAL VOC2012的目标检测精度

表1是基于PASCAL VOC数据集中所有图像类别测试精度的平均结果，可以看出本发明在mAP上优于其他目标检测算法。Faster R-CNN和SSD为目前国际最高目标检测算法的代表，本发明的mAP为73.2％，分别比Faster R-CNN和SSD300的检测精度提高了2.8％和0.8％。而且，相比于YOLO，本发明在小物体(如瓶子、鸟、植物)检测上精度有了很大提升。上述结果表明本发明算法所产生的目标检测结果拥有更高的精度，而且能更好的解决小目标检测的难题。

表2基于PASCAL VOC2012的目标检测速度

表2是基于PASCAL VOC2012数据集中所有图像类别检测速度的结果，可以看出本发明算法在FPS上比其他目标检测算法有明显提高。本发明FPS不仅高于Fast R-CNN和Faster R-CNN等非实时目标检测算法，也高于YOLO和SSD等实时目标检测算法，可以实现实时目标检测。上述结果表明本发明算法所产生的目标检测结果拥有更高的速度。

图3是对本发明和其他算法的目标检测错误类型分析的结果，可以看出本发明算法定位误差显著低于YOLO，背景干扰误差显著低于Fast R-CNN。上述结果表明本发明算法所产生的目标检测能够很好的定位并排除一定的背景干扰，而且在目标检测的速度和精度两项指标中，均能达到好的目标检测结果，说明本发明算法具有前沿性。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于全卷积网络的多特征融合的目标检测方法，其特征在于包括以下步骤：

步骤1、搭建具有六个卷积层组的全卷积神经网络，其结构如下：

2.根据权利要求1所述的基于全卷积网络的多特征融合的目标检测方法，其特征在于：所述步骤2的具体实现方法包括以下步骤：

3.根据权利要求1所述的基于全卷积网络的多特征融合的目标检测方法，其特征在于：所述步骤3的具体实现方法包括以下步骤：

⑴将输入图像分成11*11的网格，并对应到特征图当中；

4.根据权利要求1所述的基于全卷积网络的多特征融合的目标检测方法，其特征在于：所述步骤4的具体实现方法包括以下步骤：

⑵在训练过程中，取正负样本的比例为1:3；

5.根据权利要求4所述的基于全卷积网络的多特征融合的目标检测方法，其特征在于：所述分类误差和定位误差具有相同的权重。

6.根据权利要求4所述的基于全卷积网络的多特征融合的目标检测方法，其特征在于：所述正样本的选取方法为：与真实边框交除并值大于0.7的预测边框为正样本；所述负样本的选取方法为：交除并值小于0.3且大于0.1的预测边框为负样本。