CN115761220A

CN115761220A - 一种基于深度学习的增强检测遮挡目标的目标检测方法

Info

Publication number: CN115761220A
Application number: CN202211635125.2A
Authority: CN
Inventors: 曹丹阳; 杨建�; 马金锋; 田学法; 贺珊珊
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-03-07

Abstract

本发明公开了一种基于深度学习的增强检测遮挡目标的目标检测方法，采用了Faster‑RCNN作为网络框架，主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构，使用多层残差块进行特征提取；特征金字塔网络能够融合不同层的特征并输出多层特征图；空洞卷积层作用于特征金字塔网络输出的各层特征图，扩大特征图的感觉野；区域生成网络通过在特征图上滑动检测图像中可能含有目标的区域和位置，生成候选区域集；分类网络和回归网络对候选区域中的目标做类别判定和进一步定位。本发明方法的网络框架由于增加空洞卷积对特征图的处理，扩大了特征图的感受野，学习到更多轮廓特征，从而增强了网络对遮挡目标的检测效果。

Description

一种基于深度学习的增强检测遮挡目标的目标检测方法

技术领域

本发明涉及人工智能系统目标检测领域，具体是一种基于深度学习的增强检测遮挡目标的目标检测方法。

背景技术

目标检测是计算机视觉领域中一个富有挑战性的课题，其主要目的是从静态图像或者视频中识别并定位一个或多个有效目标。传统的目标检测任务主要通过人工提取特征模型建立，常用的特征包括：HOG(Histogram of Oriented Gradient,HOG),SIFT(Scale-invariant feature transform,SIFT)和Haar(Haar-like features,Haar)等，特征提取模型之后进行支持向量机或者Adaboost的分类任务，进而得到我们所关注的目标结果。由于这种特征模型对复杂场景多类目标的检测具有局限性，因此当前最先进的目标检测算法均引入具备更强大表征能力的深度卷积神经网络得到图像的多层特征信息，既包含前级卷积层得到的细节纹理等特征，又包含后级卷积层得到的在语义语境方面更加抽象的高层信息。在此基础上结合多种候选边框选取策略，结合区域回归算法与物体分类算法形成可端到端训练的，可应用于多种复杂场景的多目标检测统一模型。

对遮挡目标的检测是目标检测领域的一个难点，由于无法提取到遮挡物体的全部特征，在检测过程中存在一定的难度。目前针对遮挡目标的检测方法是针对待检测目标的特性做个性化的分析，例如在遮挡行人的检测中，部分方法将人体分为头部、四肢、躯干等关键部分分别检测，再通过各个关键部分的检测结果综合判断是否为行人。该类方法的是针对检测特定物体进行设计，不具备一定的通用性。

发明内容

本发明的目的在于提供一种基于深度学习的增强检测遮挡目标的目标检测方法，能够提高遮挡目标的检测效果，提高MAP值，以解决上述背景技术中提出的图像中遮挡目标的检测效果较差的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的增强检测遮挡目标的目标检测方法，采用了Faster-RCNN作为网络框架，包括ResNet50作为主干特征提取网络、特征金字塔网络(Feature PyramidNetwork，FPN)、空洞卷积操作、区域生成网络(Region Proposal Network，RPN)、分类网络和回归网络；所述主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构，使用多层残差块进行特征提取；所述特征金字塔网络利用低层特征高分辨率和高层特征的高语义信息，融合不同层的特征并输出多层特征图；所述空洞卷积层作用于特征金字塔网络输出的各层特征图，扩大特征图的感觉野；所述区域生成网络通过在特征图上滑动检测图像中可能含有目标的区域和位置，生成候选区域集；所述分类网络和回归网络对候选区域中的目标做类别判定和进一步定位。该网络框架由于增加空洞卷积对特征图的处理，扩大了特征图的感受野，学习到更多轮廓特征，从而增强了网络对遮挡目标的检测效果。

进一步的：所述空洞卷积层是基于Faster-RCNN网络框架的基础,选择ResNet50骨干网络，FPN特征金字塔网络特征融合后进行增加的，作为进一步处理特征图的操作。

进一步的：所述ResNet50层卷积网络能够在ImageNet数据集做预训练，目标检测网络在WIDER FACE数据集上进行训练。

进一步的：所述目标分类网络是使用全连接层及Softmax方法输出候选区域中目标所属类别的概率。

与现有技术相比，本发明方法的网络框架由于增加空洞卷积对特征图的处理，扩大了特征图的感受野，学习到更多轮廓特征，从而增强了网络对遮挡目标的检测效果。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一种基于深度学习的增强检测遮挡目标的目标检测方法的框架示意图。

图2为本发明实施例的检测结果对比图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

请参阅图1，一种基于深度学习的增强检测遮挡目标的目标检测方法，

采用了Faster-RCNN作为网络框架，包括ResNet50作为主干特征提取网络、特征金字塔网络、空洞卷积层、区域生成网络、目标分类网络和回归网络；

所述主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构，使用多层残差块进行特征提取，利用残差结构避免网络层数增加带来的梯度消失问题。首先使用7×7卷积处理输入的图像，然后使用4组残差块进行特征提取，这4组残差块卷积核大小依次为

经过4每组残差块的输出的特征图分别表示为定义为{C2，C3，C4，C5}。

所述特征金字塔网络是自上而下和横向连接的过程，自上而下是把ResNet50生成的{C2，C3，C4，C5}特征图进行上采样，横向连接则是将上采样的结果和自底向上生成的相同大小的特征图进行融合。横向连接的两层特征在空间尺寸相同，这样做可以利用底层定位细节信息。将低分辨率的特征图做2倍上采样。然后通过按元素相加，将上采样映射与相应的自底而上输出的特征图{C2，C3，C4，C5}合并。这个过程是迭代的，直到生成最终的特征图。为了开始迭代，我们只需在C5上附加一个1×1卷积层来生成低分辨率图P5，然后P5层进行上采样操作得到P4’，再用1x1的卷积对层C4进行降维处理得到C4’，使P4’和C4’具有相同的维度，然后将对应元素相加得到P4。依次进行这样的操作，得到P3和P2，这样最终的特征图定义为{P2，P3，P4，P5}，分别对应于{C2，C3，C4，C5}。

所述空洞卷积层是在特征金字塔网络输出的4层特征图{P2，P3，P4，P5}上分别做3x3空洞卷积。假定普通卷积的卷积核为k,输出的特征图大小o，其计算公式为：

其中i为输入图像大小，k为卷积核，s为步长，p为填充的图素；而空洞卷积引入了新的超参d，(d-1)为填充的空洞数，那么原来为k的卷积核填充了(d-1)个空洞后，卷积核变为(k+(k-1)*(d-1))，进而通过空洞卷积后输出的特征图大小的计算公式变为：

因此可以通过后式从最后一层到第一次级联后计算在原图上的感受野。

计算感受野时不需要考虑填充的情况下，感受野的计算步骤为：

RF＝1#待计算的feature map上的感受野大小

for layer in(top layer To down layer):

RF＝((RF-1)*stride)+kernel size

其计算公式为：

其中l_k是第k层的每个点的感受野，f_k是第k层卷积核的大小，S_i是第i层卷积的步长，在第k层的感受野比第k-1层的感觉野大

这里我们使用扩张率为2的空洞卷积对进行特征提取，从而提高特征图的感受野，增强了特征图对目标轮廓信息的表达，提高对遮挡物体的检测精度。

所述区域生成网络是使用锚点框长宽比例为(1:2,1:1,2:1)，锚点框长度为(32,64,128,256,512)，组合出15种不同大小的锚点框在特征图中的每个像素点进行滑动，通过特征图的像素点位置找到原图像中对应的区域框，判断可能含有目标的区域，生成候选区域集，并对含有有目标的区域进行初步的定位。

所述目标分类网络是使用全连接层及Softmax方法输出候选区域中目标所属类别的概率。

所述回归网络是通过使用Smoooh L1方法优化锚点框与目标真正区域的距离，进一步精准定位目标的位置。

本发明提出的方法最终在WIDER FACE数据集中有遮挡图像上得到MAP(MeanAverage Precision,MAP)为32.3％；相比RCNN系列的目标检测算法在MAP提高了大约2.5％，在不带有空洞卷积的同一主干网络下提高了大约1.9％；另外，对同一测试图像进行随意的几何形变操作，发现在经过一定旋转、缩放的图像数据上，本发明的网络结构具有较好的对遮挡目标检测结果。

为了验证本方法对遮挡物体识别的效果，从WIDER FACE数据集中选出部分图片进行测试。如图2所示，第一行的三张图片为普通目标检测方法的检测结果，部分有遮挡的目标不能有效检测出来；第二行的三张图片为本发明方法的检测结果，从对比结果中可以看到，本方法在检测遮挡目标方面具有明显优势。

经过测试，本发明提出的方法最终在WIDER FACE数据集中有遮挡的图像的MAP,MAP为32.2％，相比RCNN系列的目标检测算法在MAP提高了大约2.5％；另外，对同一测试图像进行随意的几何形变操作，发现在经过一定旋转、缩放的图像数据上，本发明的网络结构具有较好的对遮挡目标检测结果。

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，采用了Faster-RCNN作为网络框架，包括ResNet50作为主干特征提取网络、特征金字塔网络、空洞卷积操作、区域生成网络、分类网络和回归网络；

主干特征提取网络是一种用于提取图像特征信息的深度残差卷积结构，使用多层残差块进行特征提取；

特征金字塔网络利用低层特征高分辨率和高层特征的高语义信息，融合不同层的特征并输出多层特征图；

空洞卷积层作用于特征金字塔网络输出的各层特征图，扩大特征图的感觉野；

区域生成网络通过在特征图上滑动检测图像中可能含有目标的区域和位置，生成候选区域集；

分类网络和回归网络对候选区域中的目标做类别判定和进一步定位。

2.根据权利要求1所述的一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，所述ResNet50卷积网络能够用ImageNet数据集做预训练，目标检测网络在WIDERFACE数据集上进行训练。

3.根据权利要求1所述的一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，所述空洞卷积层是基于Faster-RCNN网络框架的基础,选择ResNet50骨干网络，FPN特征金字塔网络特征融合后进行增加的，作为进一步处理特征图的操作。

4.根据权利要求1所述的一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，所述目标分类网络是使用全连接层及Softmax方法输出候选区域中目标所属类别的概率。

5.根据权利要求1所述的一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，所述目标分类网络是使用全连接层及Softmax方法输出候选区域中目标所属类别的概率。

6.根据权利要求1所述的一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，通过空洞卷积后输出的特征图大小的计算公式变为：

其中i为输入图像大小，k为卷积核，s为步长，p为填充的图素，o为输出的特征图大小，(d-1)为填充的空洞数，那么原来为k的卷积核填充了(d-1)个空洞后，卷积核变为(k+(k-1)*(d-1))；因此能够通过后式从最后一层到第一次级联后计算在原图上的感受野。

7.根据权利要求6所述的一种基于深度学习的增强检测遮挡目标的目标检测方法，其特征在于，计算感受野时不需要考虑填充的情况下，感受野的计算公式为：