CN107886117A

CN107886117A - 基于多特征提取和多任务融合的目标检测算法

Info

Publication number: CN107886117A
Application number: CN201711038002.XA
Authority: CN
Inventors: 娄英欣; 郭晓强; 王琳; 夏治平; 姜竹青; 门爱东
Original assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications
Current assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-04-06

Abstract

本发明涉及一种基于多特征提取和多任务融合的目标检测算法，其技术特点是：基于深度学习卷积神经网络架构提取图像特征，提取多层卷积输出结果形成多特征图，在多特征图上提取不同可视野的目标感兴趣区域并进行特征连接；对原图实现语义分割提取目标分割区域结果，并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测；上述结果通过最后的全连接层后，通过组合分类定位损失函数对图像特征进行分类和回归定位，得到最终目标检测的结果。本发明通过深度学习卷积神经网络提取特征、对图像特征进行多组多层融合连接及组合损失函数实现了高精度的目标检测定位和分类，获得了良好的目标检测结果。

Description

基于多特征提取和多任务融合的目标检测算法

技术领域

本发明属于目标检测技术领域，尤其是一种基于多特征提取和多任务融合的目标检测算法。

背景技术

目标检测的主要任务是对图像序列中的目标物体进行自动检测，包括分类和定位。目前流行的目标检测算法，首先在一张图片上生成1K-2K的候选框，然后对于每个候选框使用CNN卷积神经网络提取特征，其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类，最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征，通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配，从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性，由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易，传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性，卷积神经网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到，预训练基于ILVCR 2012计算机视觉识别挑战赛的全部数据集进行训练，然后针对预训练模型基于PASCAL VOC 2007训练集进行调优训练，从而实现通过CNN网络提取图片特征。

深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构，该框架在ILSVRC 2012比赛中取得了非常好的成绩，此后，卷积神经网络被广泛应用于各类图像相关领域。Geoffrey Hinton设计的AlexNet是一个8层CNN架构，包括5个卷积层和3个全连接层，将当时最好算法的错误率减半，其证明了CNN在复杂模型下的有效性，且GPU使得训练在可接受的时间范围内得到结果。在2014年，Christian Szegedy提出了GoogleNet架构在ILSVRC 2014分类比赛中取得第一名，与AlexNet不同的是：GoogleNet的深度(层数)更深，宽度(层核或者神经元数)更宽。同年，Andrew Zisserman提出的VGG-Net架构在ILSVRC 2014定位比赛中取得第一名，与AlexNet不同的是：VGG-Net使用更多的层，通常有16－19层。在2015年，Kaiming He提出的Res-Net架构在ILSVRC 2015分类和定位比赛中取得第一名，该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注；同时，工业界加入深度学习的研究中来，百度、google、facebook纷纷建立深度学习实验室,通过深度学习，进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法，这些算法也取得了良好的效果，但是仍有许多方面有待改进，如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。

发明内容

本发明的目地在于克服现有技术的不足，提出一种设计合理、精度高且稳定性强的基于多特征提取和多任务融合的目标检测算法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于多特征提取和多任务融合的目标检测算法，包括以下步骤：

步骤1、基于深度学习卷积神经网络架构提取图像特征，提取多层卷积输出结果形成多特征图，并在多特征图上提取不同可视野的目标感兴趣区域，对提取的目标感兴趣区域进行特征连接；

步骤2、对原图实现语义分割提取目标分割区域结果，并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测；

步骤3、上述结果通过最后的全连接层后，通过组合分类定位损失函数对图像特征进行分类和回归定位，得到最终目标检测的结果。

所述深度学习卷积神经网络架构为VGG-16卷积神经网络架构。

所述步骤1的具体实现方法包括以下步骤：

⑴将带有物体真实包围框的图片输入到目标检测卷积神经网络架构中，使用Caffe框架提取图像并通过卷积神经网络输出的不同层的图像特征；

⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图，第一个卷积层输出卷积特征最大池化，最后一个卷基层输出卷积特征反卷积，使两个卷积层的输出特征尺寸与中间卷积层的输出特征尺寸大小一致，连接多层卷积层的输出图像特征形成多特征图；

⑶在多特征图上，对于生成的可能包含物体的目标感兴趣区域，进行不同倍数的区域缩放，得到不同的目标感兴趣区域，然后将不同的目标感兴趣区域进行连接形成最终的目标感兴趣区域。

所述⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图的方法为：基于深度学习VGG-16卷积神经网络架构提取图像特征，提取其中第1层、第3层和第5层卷积输出结果形成多特征图，并在特征图上提取目标感兴趣区域面积的1、2和3倍特征区域，得到不同可视野感兴趣区域，并对提取结果进行特征连接。

所述步骤2的具体实现方法以下步骤：

⑴将带有物体真实包围框的图片输入到目标分割卷积神经网络架构中，提取卷积神经网络的输出结果；

⑵按照目标检测比例系数为0.7及目标分割比例系数为0.3融合目标检测结果和目标分割结果，实现输出结果交叉连接功能；

⑶将最后一层全连接层的结果输出到下一模块。

所述步骤3的具体实现方法包括以下步骤：

⑴通过Softmax分类损失函数算法对图像特征进行分类，基于目标检测的公开标准数据集，每类物体具有自己相应的精度；

⑵通过Overlap定位损失函数算法对图像位置进行定位，使得目标检测生成的包围物体的候选框更加接近物体输入的真实包围框；

⑶根据Softmax输出的分类损失值进行排序，选出得分最高的类别，作为该物体最有可能属于哪一个类别；

⑷根据Overlap输出的定位损失值反向传播梯度，使得损失值逐渐下降，实现物体候选框更加接近物体的真实包围框。

本发明的优点和积极效果是：

本发明设计合理，其利用深度学习框架卷积神经网络VGG-16进行多特征提取并提取不同可视野的感兴趣区域，实现更加准确的分类；且在定位中采用了多任务交叉辅助定位，能够更加准确的定位出目标物体所在位置，获得了良好的目标检测结果。本发明在现有的公开数据集PASCALVOC上进行试验，实验表明结果优于其他主流目标检测框架如Fast R-CNN的检测效果，提高了检测精度和稳定性。

附图说明

图1为本发明提出的目标检测框架；

图2为本发明提出的多特征提取和不同倍数可视野的感兴趣区域示意图；

图3为本发明提出的多任务交叉辅助定位原理示意图；

图4为基于PASCAL VOC的目标检测精度结果对照图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种基于多特征提取和多任务融合的目标检测算法，是在图1给出的目标检测框架上实现的，其通过多特征提取和多任务融合方法改善目标检测性能。其设计思路为：首先基于深度学习VGG-16卷积神经网络架构提取图像特征，提取其中1、3和5层卷积输出结果形成多特征图，并在特征图上提取目标感兴趣区域面积的1、2和3倍特征区域，得到不同可视野感兴趣区域，然后对提取结果进行特征连接；其次对原图实现语义分割提取目标分割区域结果，并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测，其中目标检测比例系数为0.7和目标分割比例系数为0.3；最后上述结果通过全连接层8后，通过组合Softmax分类损失函数算法和Overlap定位损失函数算法分别对图像特征进行分类和回归定位，得到最终目标检测的结果。

本实施例给出的基于多特征提取和多任务融合的目标检测算法包括以下步骤：

S1、基于深度学习VGG-16卷积神经网络架构提取图像特征，提取1、3和5层卷积输出结果形成多特征图，并在特征图上提取目标感兴趣区域面积的1、2和3倍特征区域，然后对提取结果进行特征连接。

本步骤的具体实现方法细化为如下步骤：

S1.1、将带有物体真实包围框的图片输入到VGG-16目标检测卷积神经网络架构中，通过Caffe框架提取图像通过卷积神经网络输出的不同层的特征。

S1.2、隔层提取出3层卷积层的输出并进行连接形成多特征的特征图，对于第一卷积层输出的卷积特征最大池化，对于第五卷基层输出的卷积特征反卷积，实现两个卷积层的输出特征尺寸与第三卷积层的输出特征尺寸大小一致，连接三层卷积层的输出图像特征形成多特征图。

S1.3、在特征图上，对于生成的可能包含物体的目标感兴趣区域，以该目标感兴趣区域中点为放大中心，实现*1、*2和*3三种倍数的区域缩放，得到3种不同的目标感兴趣区域，然后将区域特征进行连接形成最终的目标感兴趣区域。

图2给出了本发明提出的多特征提取和不同倍数可视野的感兴趣区域，因此，步骤S1.3进一步包括：

S1.3.1、在上述S1.2步骤中提取卷积层1、3和5的输出特征进行融合形成多特征图，在多特征图上提取目标物体的感兴趣区域；

S1.3.2、对于目标物体的感兴趣区域，由于其周围的内容信息有助于目标物体的分类和定位，所以以该目标感兴趣区域中点为放大中心，实现*1、*2和*3三种倍数的区域放大，并将3个区域图像特征进行连接形成最终的目标感兴趣区域特征。

步骤2、对原图实现语义分割提取目标分割区域结果，并将目标检测结果和目标分割结果在全连接层中通过一定的比例系数进行多任务交叉辅助目标检测，其中目标检测比例系数为0.7和目标分割比例系数为0.3。

图3给出了本发明中提出的多任务交叉辅助定位原理图，本步骤的具体实现方法细化为如下步骤：

S2.1、将带有物体真实包围框的图片输入到VGG-16目标分割卷积神经网络架构中，提取卷积神经网络的输出结果；

S2.2、目标分割结果可以辅助目标检测结果，所以我们将二者的卷积层输出结果在全连接层6、7和8中实现输出结果交叉连接，即按照一定的比例系数融合目标检测结果和目标分割结果，实现多任务交叉辅助目标检测结果，其中目标检测比例系数为0.7和目标分割比例系数为0.3的时候，目标检测结果精度最高，所述多任务检查辅助定位公式以及反向传播梯度计算公式分别为：

t′₁＝α₁₁t₁+α₂₁t₂

t′₂＝α₁₂t₁+α₂₂t₂

S2.3、将最后一层全连接层的结果输出到分类和定位模块。

步骤3、上述结果通过最后的全连接层后，通过组合Softmax分类损失函数算法和Overlap定位损失函数算法分别对图像特征进行分类和回归定位，得到最终目标检测的结果。

本步骤的具体实现方法细化为如下步骤：

S3.1、上述步骤S2.3中的交叉辅助检测结果输出后，通过Softmax分类损失函数算法对图像特征进行分类，基于目标检测的公开标准数据集PASCAL VOC，分类结果包含20类物体，可以在该数据集上测试所提出的框架对各类物体的检测精度。

S3.2、上述步骤S2.3中的交叉辅助检测结果输出后，通过Overlap定位损失函数算法对图像位置进行定位，使得目标检测生成的包围物体的候选框更加接近物体输入的真实包围框，损失函数值越接近1说明候选框和真实包围框重合度越大；

S3.3、根据Softmax输出的分类损失值进行排序，选出20类中得分最高的类别，即该物体最有可能属于哪一个类别；

S3.4、根据Overlap输出的定位损失值，即候选框和真实包围框之间的差值，通过随机梯度下降法反向传播梯度，使得损失值逐渐下降，实现物体候选框更加接近物体的真实包围框。

下面，按照本发明的方法进行实验，说明本发明的实验效果。

测试环境：MATLAB 2014b；Caffe框架；Ubuntu14.04系统；NVIDIA GTX 1070p GPU。

测试序列：所选测试序列和其对应标准目标检测物体真实包围框(GroundTruth)，均来自目标检测的PASCAL VOC数据集(M.Everingham,L.Van Gool,C.K.Williams,J.Winn,and A.Zisserman,“The pascal visual object classes(voc)challenge,”International journal of computer vision,vol.88,no.2,pp.303–338,2007.)。其中包含的图像有20个类别，分别为人类；动物(鸟、猫、牛、狗、马、羊)；交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)；室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。选用目标均是日常中最常见的物体，为的就是能更好的体现算法的实用性，共包含9,963张图片，有24,640个被标记的目标物体。

测试指标：本发明使用了一种评价指标，为精度mAP(mean average precision)。精度mAP是目标检测结果的平均准确度测量，与理想目标检测结果进行比较并对数据库中所有物体类别进行加权平均计算，对当今流行的不同算法计算此参数值然后进行结果对比，证明本文算法在目标检测领域得到较好的结果。

测试结果如图4所示，图中给出了基于PASCAL VOC 2102数据集中所有图像类别测试精度的平均结果，可以看出本发明算法在mAP上相比其他目标检测算法有明显提高，其中Our[1]代表加入多特征提取，Our[2]代表加入多特征提取和组合损失函数，Our[3]代表加入多特征提取和多任务辅助定位，Our[4]代表同时加入多特征提取、多任务辅助定位和组合损失函数。目前目标检测Fast R-CNN的mAP为68.4％，本发明Our[4]的mAP为71.2％，比Faster R-CNN的检测精度提高了2.8％。而且，在小物体检测方面，如瓶子、飞机和植物，本发明算法比其他算法得到更高的检测精度。上述结果表明本发明算法所产生的目标检测结果拥有更高的精度，而且能更好的解决小目标检测的难题。

表1基于PASCAL VOC的交叉辅助定位系数

表1是基于PASCALVOC 2012数据集中不同的多任务辅助定位系数所得到的不同目标检测和目标分割结果。可以看出当目标检测比例系数为0.7和目标分割比例系数为0.3的时候，目标检测和目标分割结果精度最高，即70％目标检测的输出特征占主要部分，30％目标分割的输出特征作为辅助检测，能达到最好的目标检测效果。其中第一组系数代表目标分割90％占主要部分，目标检测10％占小部分，其效果并不好；最后一组系数代表只有100％目标检测，不采用目标分割作为辅助，其效果也没有本文算法的好。上述结果表明本发明算法使用目标分割辅助目标检测，所产生的目标检测结果拥有更高的精度，说明本发明算法具有前沿性。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于多特征提取和多任务融合的目标检测算法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于多特征提取和多任务融合的目标检测算法，其特征在于：所述深度学习卷积神经网络架构为VGG-16卷积神经网络架构。

3.根据权利要求1或2所述的基于多特征提取和多任务融合的目标检测算法，其特征在于：所述步骤1的具体实现方法包括以下步骤：

4.根据权利要求3所述的基于多特征提取和多任务融合的目标检测算法，其特征在于：所述⑵隔层提取出多层卷积层的输出并进行连接形成多特征的特征图的方法为：基于深度学习VGG-16卷积神经网络架构提取图像特征，提取其中第1层、第3层和第5层卷积输出结果形成多特征图，并在特征图上提取目标感兴趣区域面积的1、2和3倍特征区域，得到不同可视野感兴趣区域，并对提取结果进行特征连接。

5.根据权利要求1或2所述的基于多特征提取和多任务融合的目标检测算法，其特征在于：所述步骤2的具体实现方法以下步骤：

⑶将最后一层全连接层的结果输出到下一模块。

6.根据权利要求1或2所述的基于多特征提取和多任务融合的目标检测算法，其特征在于：所述步骤3的具体实现方法包括以下步骤：