CN109034245B

CN109034245B - 一种利用特征图融合的目标检测方法

Info

Publication number: CN109034245B
Application number: CN201810843493.3A
Authority: CN
Inventors: 张世辉; 王红蕾; 桑榆; 何欢
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-02-05
Anticipated expiration: 2038-07-27
Also published as: CN109034245A

Abstract

本发明公开了一种利用特征图融合的目标检测方法，包括以下步骤：首先利用ZF网络提取图像特征并得到一系列处于不同层次的特征图；其次将ZF网络提取的图像特征图中的最深层特征图和浅层特征图相融合得到新特征图；再次将新特征图输入到RPN网络中得到区域建议；最后将新特征图和区域建议输入到ROIPooling层中得到区域建议的特征并同时对特征进行分类和对区域建议进行边框回归得到目标检测结果。本发明可以检测出图像中多种类别的目标，且所用的图像无需特定的图像采集设备采集。

Description

一种利用特征图融合的目标检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种利用特征图融合的目标检测方法。

背景技术

目标检测一直是事件识别、智能交通等领域重要且困难的课题之一，它要完成的任务是对待检测图像中数目不定的目标进行定位和分类，定位即确定图像中目标的具体位置并以边界框的形式标出目标位置，分类即确定图像中目标是什么类别。

目前已有的目标检测方法可分为传统的目标检测方法和基于深度学习的目标检测方法两大类。由于传统方法在某些情况下的检测效果与实际需求有一定的差距，而基于深度学习的目标检测方法利用卷积神经网络(CNN)自动提取图像特征且提取的特征鲁棒性更强、检测效果更好，因此近几年的目标检测方法一般都基于深度学习实现。然而，多数已有的基于深度学习的目标检测方法在使用CNN提取图像特征时都仅利用了CNN所提取的特征图中最深层的特征图并未利用浅层的特征图，且目标的检测精度在某些方面不能满足实际需求。Girshick R和Donahue J在文章“Rich feature hierarchies for accurateobject detection and semantic segmentation.Computer Vision and PatternRecognition.IEEE,2014:580-587”中所提方法用CNN提取区域建议特征的过程中存在计算冗余的问题，且所提方法的目标检测精度相对较低。Girshick R在文章“Fast R-CNN.Computer Vision.IEEE,2015:1440-1448”中所提方法是非端到端的，且目标的检测精度相对较低。Redmon J和Divvala S在文章“You only look once:Unified,real-timeobject detection.Computer Vision and Pattern Recognition.IEEE,2016:779-788”中所提方法对小目标的检测精度相对较低。

发明内容

针对上述技术问题，本发明的目的在于提供一种利用特征图融合的目标检测方法，本发明通过将ZF网络提取的不同层次的特征图进行融合，得到了检测精度更高的目标检测结果。

为了解决上述存在的技术问题，本发明所述方法的是通过以下技术方案实现的：

一种利用特征图融合的目标检测方法，其特征在于，包括如下步骤：

步骤S1：利用ZF网络提取图像特征并得到特征图；

步骤S2：对所得特征图进行特征图融合并得到新特征图：

步骤S3：通过RPN网络获取区域建议；

步骤S4：把新特征图和区域建议输入到后续网络层中得到目标检测结果。

上述技术方案中，所述步骤S1包括以下步骤：

步骤S101：对输入图像进行归一化处理，使图像的大小均为224×224像素；

步骤S102：利用ZF网络提取归一化后的图像特征并得到一系列处于不同层次的特征图，其中ZF网络(ZFNet)是一种卷积神经网络。

上述技术方案中，所述步骤S2包括以下步骤：

步骤S201：根据特征图融合思想选取ZF网络提取的第3层和第4层浅层特征图Conv3和Conv4；

步骤S202：利用1×1的卷积核对浅层特征图Conv3和Conv4进行降维，且降维到特征图Conv5的大小；

步骤S203：将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合得到新特征图。

上述技术方案中，所述步骤S201包括以下步骤：

步骤S2011：根据卷积神经网络提取的不同层次的特征图具有的不同特点，总结出将浅层特征图降维后和最深层特征图进行融合得到新特征图；

步骤S2012：根据特征图融合及ZF网络的结构、卷积层数及各层次特征图需要降维的具体情况，确定选取ZF网络中第3层和第4层卷积层产生的特征图Conv3和Conv4。

上述技术方案中，所述步骤S202中对浅层特征图Conv3和Conv4进行降维的计算公式如下：

G_Convi(m,n,d)＝f(g_Convi(m,n,k)*δ_Convi(1,1,k)+b)

其中，参数m、n分别表示特征图的长和宽，k和d和分别表示浅层特征图降维前的通道数和浅层特征图降维后的通道数，g_Convi(m,n,k)表示浅层特征图Convi且i的取值为3或4，G_Convi(m,n,d)表示g_Convi(m,n,k)降维后的特征图，δ_Convi(1,1,k)表示得到的G_Convi(m,n,d)时所需的1×1的卷积核，b表示得到G_Convi(m,n,d)时所需的标量参数，*表示卷积，f()表示激活函数。

上述技术方案中，所述步骤S203中将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合的计算公式如下：

F_new(m,n,d)＝∑λ_iG_Convi(m,n,d)+γ_gConv5(m,n,d)

其中，常量参数λ_i和γ分别表示特征图融合时浅层特征图和最深层特征图的权值，F_new(m,n,d)表示新特征图，g_Conv5(m,n,d)表示特征图Conv5。

上述技术方案中，所述步骤S3包括以下步骤：

步骤S301：将新特征图输入到RPN(Region Proposal Network，区域建议网络)网络中得到候选窗口，其过程如下：利用3×3的卷积核在输入的新特征图上滑动，并在3×3的卷积核滑过的每个位置处都生成12种候选窗口，其中包括3种长宽比例{1:1，1:2，2:1}和4种面积种类{64×64，128×128，256×256，512×512}，卷积核滑过新特征图的所有位置后得到所有的候选窗口；

步骤S302：利用Softmax层从中选取包含目标的候选窗口，其过程如下：Softmax层是一种具有多分类功能的卷积神经网络层，将候选窗口分成包含目标的候选窗口和不包含目标的候选窗口，且Softmax层为每一个包含目标的候选窗口生成一个分数，根据该分数选取候选窗口；

步骤S303：通过非极大值抑制对包含目标的候选窗口进行再次筛选，并将筛选出的候选窗口作为RPN网络的输出，得到区域建议。

上述技术方案中，所述步骤S4包括以下步骤：

步骤S401：将新特征图和区域建议输入到ROIPooling层中得到区域建议的特征,其中ROI(Region of Interest)表示新特征图上的区域建议，ROIPooling层的作用是将新特征图上的区域建议下采样到固定尺寸；

步骤S402：用Softmax层对区域建议的特征进行分类得到目标的类别，同时进行边框回归得到更加准确的目标边界框，得到图像的目标检测结果。

上述技术方案中，步骤S401具体包括如下步骤：

步骤S4011：把区域建议按照由归一化的图像到最深层特征图Conv5的尺度变化进行相同的变化映射；

步骤S4012：将映射后的区域建议在水平和竖直都分为7份；

步骤S4013：对每一份都进行max pooling最大值下采样处理，得到区域建议的特征且特征的大小均为7×7像素。

由于采用上述技术方案，本发明与现有技术相比，具有如下有益效果：

1、与ZF网络提取的最深层特征图相比，由特征图融合得到的新特征图更有利于小目标的检测、更具鲁棒性。

2、所用图像无需特定的图像采集设备采集，且适用于不同场景下的彩色图像。

3、可以用于多类别目标检测和单类别目标检测，且在包含小目标较多的数据集上目标的检测精度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明一种利用特征图融合的目标检测方法的流程图。

图2是ZF网络中特征图融合示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明的一种利用特征图融合的目标检测方法，包括如下步骤：

步骤S1：利用ZF网络提取图像特征并得到特征图；

其中步骤S1包括以下步骤：

步骤S102：利用ZF网络提取归一化后的图像特征并得到一系列处于不同层次的特征图，长×宽×通道数各不相同，其中ZF网络(ZFNet)是一种卷积神经网络，由ZF网络最后的卷积层产生的特征图为最深层特征图，其余特征图均为浅层特征图。

步骤S2：对所得特征图进行特征图融合并得到新特征图：

其中，本发明步骤S2包括以下步骤：

本发明的步骤S201包括以下步骤：

其中，步骤S202中对浅层特征图Conv3和Conv4进行降维的计算公式如下：

G_Convi(m,n,d)＝f(g_Convi(m,n,k)*δ_Convi(1,1,k)+b)

步骤S203中将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合的计算公式如下：

F_new(m,n,d)＝∑λ_iG_Convi(m,n,d)+γ_gConv5(m,n,d)

步骤S3：通过RPN网络获取区域建议；

ZF网络中进行特征图融合的过程如图2所示，该图中激活函数层未画出。

本发明的步骤S3包括以下步骤：

步骤S302：利用Softmax层从中选取包含目标的候选窗口，其过程如下：Softmax层是一种具有多分类功能的卷积神经网络层，将候选窗口分成包含目标的候选窗口和不包含目标的候选窗口，且Softmax层为每一个包含目标的候选窗口生成一个分数，根据该分数对候选窗口进行排名并选取排名靠前的候选窗口；

步骤S4包括以下步骤：

步骤S401：将新特征图和区域建议输入到ROIPooling层中得到区域建议的特征且所得的区域建议的特征大小均相同,其中ROI(Region of Interest)表示新特征图上的区域建议，ROIPooling层的作用是将新特征图上的区域建议下采样到固定尺寸；

步骤S401具体包括如下步骤：

步骤S4012：将映射后的区域建议在水平和竖直都分为7份；

其中，具体地，将区域建议的特征输入到Softmax层中，对这些特征进行分类并输出每个类别的概率，同时利用边框回归获得每个区域建议的位置偏移量，用于得到更加精确的目标边界框。至此，可获得图像中目标的检测结果。

根据本发明的一个具体应用：

(1)选取数据集KITTI和PASCAL VOC2007。其中，数据集KITTI中标记出的目标有‘pedestrian’、‘car’等8种类别，数据集PASCAL VOC2007中标记出的目标有‘bird’、‘boat’、‘bottle’等20种类别。上述2种数据集中的图像均被分为训练集和测试集，并都以数据集PASCAL VOC的格式保存。

(2)分别用数据集KITTI和PASCAL VOC2007中的训练集对本发明中的各层网络进行训练，且训练过程都是端到端的。训练所用的时间与训练所用的数据集有关，数据集中包含的图像越多所用的训练时间越长。

(3)训练完成后，用相应数据集中的测试集对本发明中的网络进行测试，获取在相应数据集上的目标检测精度和图像中目标的检测结果，其中目标的检测结果就是在图像上标出检测到的目标的位置边框和目标类别。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种利用特征图融合的目标检测方法，其特征在于，包括如下步骤：

步骤S1：利用ZF网络提取图像特征并得到特征图；

所述步骤S1包括以下步骤：

步骤S102：利用ZF网络提取归一化后的图像特征并得到一系列处于不同层次的特征图；

步骤S2：对所得特征图进行特征图融合并得到新特征图；

所述步骤S2包括以下步骤：

步骤S203：将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合得到新特征图；

所述步骤S202中对浅层特征图Conv3和Conv4进行降维的计算公式如下：

G_Convi(m,n,d)＝f(g_Convi(m,n,k)*δ_Convi(1,1,k)+b)

其中，参数m、n分别表示特征图的长和宽，k和d和分别表示浅层特征图降维前的通道数和浅层特征图降维后的通道数，g_Convi(m,n,k)表示浅层特征图Convi且i的取值为3或4，G_Convi(m,n,d)表示g_Convi(m,n,k)降维后的特征图，δ_Convi(1,1,k)表示得到的G_Convi(m,n,d)时所需的1×1的卷积核，b表示得到G_Convi(m,n,d)时所需的标量参数，*表示卷积，f()表示激活函数；

所述步骤S203中将降维后的特征图Conv3和Conv4与特征图Conv5中进行融合的计算公式如下：

F_new(m,n,d)＝∑λ_iG_Convi(m,n,d)+γg_Conv5(m,n,d)

其中，常量参数λ_i和γ分别表示特征图融合时浅层特征图和最深层特征图的权值，F_new(m,n,d)表示新特征图，g_Conv5(m,n,d)表示特征图Conv5；

步骤S3：通过RPN网络获取区域建议；

2.根据权利要求1所述的目标检测方法，其特征在于，所述步骤S201包括以下步骤：

3.根据权利要求1所述的目标检测方法，其特征在于，所述步骤S3包括以下步骤：

步骤S301：将新特征图输入到RPN网络中得到候选窗口，其过程如下：利用3×3的卷积核在输入的新特征图上滑动，并在3×3的卷积核滑过的每个位置处都生成12种候选窗口，其中包括3种长宽比例{1:1，1:2，2:1}和4种面积种类{64×64，128×128，256×256，512×512}，卷积核滑过新特征图的所有位置后得到所有的候选窗口；

4.根据权利要求1所述的目标检测方法，其特征在于，所述步骤S4包括以下步骤：

步骤S401：将新特征图和区域建议输入到ROIPooling层中得到区域建议的特征；

5.根据权利要求4所述的目标检测方法，其特征在于，步骤S401具体包括如下步骤：

步骤S4012：将映射后的区域建议在水平和竖直都分为7份；