CN112801117B

CN112801117B - 多路感受野引导的特征金字塔小目标检测网络及检测方法

Info

Publication number: CN112801117B
Application number: CN202110148501.4A
Authority: CN
Inventors: 张宝; 张婧; 卓亮; 魏东梅; 胡伟; 李小霞; 韩翔雨; 张东; 何林洋
Original assignee: China Tobacco Sichuan Industrial Co Ltd; Southwest University of Science and Technology
Current assignee: China Tobacco Sichuan Industrial Co Ltd; Southwest University of Science and Technology
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-07-12
Anticipated expiration: 2041-02-03
Also published as: CN112801117A

Abstract

本发明公开了一种多路感受野引导的特征金字塔小目标检测网络，包括依次连接的获取目标图片特征的骨干网络、融合扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络，其中：骨干网络用于提取不同层次的特征信息；融合扩大感受野模块的特征金字塔网络用于将不同层次的特征信息经过扩大感受野模块后再进行特征融合，以引导网络获得不同层次感受野下的上下文信息，同时获取足够的语义信息和丰富的细节信息；两个分支的检测头网络用于得到目标的预测框以及分类置信度；本发明还提供了一种多路感受野引导的特征金字塔小目标检测方法；本发明优于目前主流的目标检测方法。

Description

多路感受野引导的特征金字塔小目标检测网络及检测方法

技术领域

本发明涉及视觉检测技术领域，特别是一种多路感受野引导的特征金字塔小目标检测网络及检测方法。

背景技术

目标检测作为机器视觉领域十分重要的一个分支，一直是研究者关注的热点问题，其中小目标检测更是由于其目标像素少和噪点多等问题长期困扰着研究者。对于小目标来说，利用浅层特征的传统方法已经满足不了检测需求，因此多层次的卷积神经网络是目前小目标检测技术的常用手段。

使用卷积神经网络检测小目标的主要难点在于获得高层次语义信息的同时会丢失低层的细节信息，因此容易造成小目标漏检。针对这个问题，Kaiming He 等提出特征金字塔网络(Feature Pyramid Network，FPN)，融合高层特征信息与低层特征信息，既获得了高层的语义信息，也保留了低层的细节信息，大大地提高了小目标的检测效果。自FPN提出后其改进算法层出不穷，目标均是获得高层语义信息与低层细节信息之间更好的融合方式。Ross等人提出RetinaNet，与FPN不同的是其特征融合从倒数第三层开始。Liu S等人提出PANet，提出了自顶向下的二次融合，对自底向下的FPN路径进行增强，减短了信息传播路径，同时更好地利用了低层特征的精准定位信息。Liu S等人还提出了ASFF，将每一层的特征信息都与其他层次的特征信息相融合，在融合时采用了注意力机制，控制不同层次特征的贡献度。谷歌大脑团队提出NAS-FPN，旨在使用神经架构搜索，学习到更好的目标检测特征金字塔网络架构，在此基础上进一步提出BiFPN，在神经架构搜索的基础上进行人为设计，获得更好的特征金字塔网络。除了直接对FPN网络进行修改以外，还有些研究设计了可与FPN融合的模块提高检测效果，例如：Kai Chen等人提出的CARAFE为一种全新的上采样方式，可以替换传统的上采样方式融入特征金字塔中，与传统的上采样方式不同，CARAFE分为两个主要模块，分别是上采样核预测模块和特征重组模块，CARAFE首先利用上采样核预测模块预测上采样核，然后利用特征重组模块完成上采样，得到输出特征图，使之更加轻量级，可以获得更大的感受野，并随意嵌入分割或检测网络中；Liang-Chieh等人提出的空洞空间卷积池化金字塔(Astrous Spatial Pyramid Polling，ASPP)对给定的输入图像进行并行采样，以多个比例捕捉图像的上下文信息。

以上网络的改进大部分是在获得高低层次融合信息后继续增加路径，使得高层次的特征信息可以与低层次的特征信息更好地相辅相成，这样的好处是可以得到更多的语义信息，从而获得更高的检测率，但是也增加了网络的复杂度，给网络训练带来了更大的难度与更高的计算量。

小目标检测由于目标像素少、噪点多和特征缺失等问题更容易出现漏检和误检，通过统计分析小目标框的宽高以及宽高占比，发现小目标下采样的次数过多会导致大多数的目标信息丢失，而有限次数的下采样不能获得足够的语义信息。针对小目标检测，上采样卷积层太多时目标容易丢失，而太少时感受野又太小。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种多路感受野引导的特征金字塔小目标检测网络及检测方法，本发明在传统特征金字塔的基础上融入扩大感受野模块，在不增加网络深度的情况下获取更大的感受野，提供更多的语义信息，提升网络模型的检测性能。

为实现上述目的，本发明采用的技术方案是：一种多路感受野引导的特征金字塔小目标检测网络，包括依次连接的获取目标图片特征的骨干网络、融合扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络，其中：

骨干网络用于提取不同层次的特征信息；

融合扩大感受野模块的特征金字塔网络用于将不同层次的特征信息经过扩大感受野模块后再进行特征融合，以引导网络获得不同层次感受野下的上下文信息，同时获取足够的语义信息和丰富的细节信息；

两个分支的检测头网络用于得到目标的预测框以及分类置信度。

作为本发明的进一步改进，所述骨干网络为Resnet50网络。

作为本发明的进一步改进，所述扩大感受野模块包括n条并行支路，设置其中的n-1条并行支路对输入特征图进行空洞卷积，得到n-1个不同大小感受野的特征图并进行融合，然后使用1*1的卷积降低通道数，再利用剩余的一条并行支路与输入特征图融合，最后获得的输出特征图既保留了原有感受野下的细节信息，又获得了更大感受野下的语义信息。

作为本发明的进一步改进，所述扩大感受野模块的计算公式为： O＝Add(I,M)，其中：O为扩大感受野模块后最终的输出特征图，I为输入特征图，M为对输入特征图进行空洞卷积后的n-1张特征图的连接特征图，Add表示将I和M进行特征图相加。

作为本发明的进一步改进，对输入特征图进行空洞卷积后的n-1张特征图的连接特征图M的计算公式为：M＝Conv[Concat(y₁,y₂,……，y_n-1)]，其中：y₁、y₂、……、 y_n-1为输入特征图进行空洞卷积后的特征图，Concat表示将y₁、y₂、……、y_n-1通道连接起来。

作为本发明的进一步改进，输入特征图进行空洞卷积后的特征图y₁、y₂、……、y_n-1的计算公式为：y_i＝DConv(I,U,V)，其中：i＝1、2、……、n-1，DConv表示对特征图进行空洞卷积，U表示空洞率，V表示卷积核大小。

作为本发明的进一步改进，所述扩大感受野模块融合在特征金字塔网络的第四层特征图。

本发明还提供了一种多路感受野引导的特征金字塔小目标检测方法，应用于如上所述的多路感受野引导的特征金字塔小目标检测网络，所述的检测方法包括：

首先选取残差网络作为骨干网络；

其次设计由n-1条空洞卷积支路和原图直连组成的n路扩大感受野模块，可在不继续下采样的情况下扩大特征图的感受野；

然后将扩大感受野模块加入骨干网络和特征金字塔之间，以引导网络获得不同层次感受野下的上下文信息；

最后将经过扩大感受野模块获得的特征图与骨干网络对应层特征图相加后形成输出特征图，可同时获取足够的语义信息和丰富的细节信息。

本发明的有益效果是：

本发明针对小目标检测时需要足够的语义信息，但是在通过下采样获取语义信息时会丢失细节信息的问题，提出了多路感受野引导的特征金字塔 (gMRF-FPN)小目标检测方法，本发明设计了一种扩大感受野模块，使用不同空洞率的空洞卷积使输出特征图具有更大的感受野，融合四种感受野大小的特征图可获得多层次的语义信息，在传统特征金字塔网络的基础上融合扩大感受野模块，在不改变网络层数以及融合路径的基础上获得多种感受野下的上下文信息，从而提高小目标检测精度；本发明在自建数据集上进行了大量的对比实验，在不同的算法框架下，本发明方法的平均精度均优于目前主流的检测算法，表明本发明提出方法的有效性。

附图说明

图1为本发明实施例中的整体网络框架图；

图2为本发明实施例中扩大感受野模块的结构示意图；

图3为本发明实施例中融合扩大感受野模块的特征金字塔网络的机构示意图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例

自建小目标数据集：

在卷积神经网络的学习中，质量优异的数据样本是网络训练的一个重要前提，因此制作一个好的数据集是训练神经网络的首要条件。本实施例以烟草甲虫这种典型的小目标为例，验证本发明提出算法的有效性。目前常用目标检测数据集内无公开的大规模烟草甲虫图片数据，为了获得质量优良的烟草甲虫数据集，本实施例采用自建数据集的方式，实地采集大量烟草甲虫的图片并且进行标注，使用自行设计的图像采集终端对烟草甲虫图片进行采集，选用的图片分辨率为1920×1080，标注工具使用的是LabelImg软件，图片标注格式为Vocal 数据集标注格式。

自建数据集中烟草甲虫图片一共12861张，每张图片上烟草甲虫的数量不一，图片采集考虑到多种实际情况：根据图片背景情况分为简单背景(无烟丝、少烟丝)和复杂背景(多烟丝)，根据烟草甲虫聚集情况分为无聚集和有聚集，根据光线情况分为光线正常和光线过暗，每种情况总比例都为100％，具体各种情况数据分布见表1。

表1烟草甲虫图片情况分布

为了更好地构建算法框架，本实施例对自建数据集内图片标注的实际目标框进行了数据分析，统计了实际目标框的宽高以及实际框占整幅图片的宽高占比，采用热力图的形式展示。

根据宽高热力图可以看出来实际目标框集中在40×40的像素大小，当下采样到32倍时，绝大部分目标只剩下一个像素，继续进行下采样会丢失绝大部分目标。因此，根据对自建数据集内图片标注实际目标框的分析，本实施例设定骨干网络2倍下采样次数不超过五次，保持下采样倍数不超过32倍，由此保证大部分目标信息不丢失。

从以上分析可知，在小目标检测时有必要对实际目标框宽高以及实际框占整幅图的宽高占比进行统计，针对不同的小目标数据集，统计分析其大多数目标的像素大小，由此设定不同的下采样层数，保留大部分目标信息，可以保证骨干网络提取有效的目标特征。

基于扩大感受野的小目标检测网络：

为了在不增加网络复杂度的同时获得更大感受野的特征图，本实施例提出多路感受野引导的特征金字塔小目标检测网络，如图1所示：

该网络主要包括获取目标图片特征的骨干网络、融合扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络这三个模块。骨干网络用于提取不同层次的特征信息，本实施例选取可以更好地表征特征差异性以及拥有良好的特征提取性能的Resnet50网络作为骨干网络；融合扩大感受野模块的特征金字塔网络将不同层次的特征信息经过扩大感受野模块后再进行特征融合，以引导网络获得不同层次感受野下的上下文信息，同时获取足够的语义信息和丰富的细节信息；最后通过两个分支网络得到目标的预测框以及分类置信度。

扩大感受野模块：

感受野是深度学习中的一个基本概念，表示输出的特征图中某个节点的响应对应的输入图像的区域，即多大范围的输入图像对这一层输出的神经元有影响。

原始的卷积神经网络主要以增加网络深度的方式增加感受野，随着网络层数的增加，感受野也在不断地增大。记r_n为第n层的感受野大小，k_n为第n层的卷积核大小，s_i为第i层的卷积步长，卷积神经网络中感受野大小的计算公式为：

然而卷积神经网络中感受野的增大也伴随着图片分辨率降低和细节损失等问题，因此感受野的增大与细节信息的丢失一直是伴随产生的。希望在获取更大感受野的同时也可以控制图片分辨率不再降低，由此空洞卷积应运而生，当设置步长为1时，通过设置不同的空洞率可以在增大感受野的同时不降低图片分辨率的大小，从而解决在获取更大感受野的同时丢失细节信息的问题，空洞卷积感受野的计算公式为：

r_n＝(r_n-1-1)+(2·d_n+1) n≥2 (2)

其中，r_n-1为n-1层特征图的感受野大小，d_n为空洞卷积的空洞率，(2·d_n+1) 为空洞卷积的卷积核大小。

在小目标的检测任务中，为了保证大多数的目标信息在下采样时不丢失，设置在骨干网络中不超过限定次数的下采样，但是限定次数的下采样并不能获得足够的语义信息，因此为了在不增加下采样层数的同时可以获得更大的感受野以及更多的上下文信息，本实施例在特征金字塔网络融合扩大感受野模块，可以使本实施例设计的网络在不丢失太多细节信息的情况下可以获得更大的感受野以及更多的上下文信息，由此获得足够的语义信息，提高检测率，本实施例的扩大感受野模块是在空洞卷积的基础上进行设计的。

图2为扩大感受野模块示意图，扩大感受野模块一共使用四条并行支路，设置空洞率为1、3、5的三条并行支路对输入特征图进行空洞卷积，得到三个不同大小感受野的特征图并进行融合，然后使用1*1的卷积降低通道数，再与输入特征图融合，最后获得的输出特征图既保留了原有感受野下的细节信息，又获得了更大感受野下的语义信息。扩大感受野模块的计算公式如式(3)所示。

O＝Add(I,M) (3)

公式(3)中，O为扩大感受野模块后最终的输出特征图，I为输入特征图， M为对输入特征图进行空洞卷积后的三张特征图的连接特征图，Add表示将I和 M进行特征图相加，M的计算公式如式(4)所示。

M＝Conv[Concat(y₁,y₂,y₃)] (4)

公式(4)中，y₁、y₂、y₃为输入特征图进行空洞率为1、3、5的空洞卷积后的特征图，Concat表示将y₁、y₂、y₃通道连接起来，y₁、y₂、y₃的计算公式如公式(5)所示。

y₁＝DConv(I,1,3)

y₂＝DConv(I,3,3)

y₃＝DConv(I,5,3) (5)

公式(5)中，DConv表示对特征图A进行空洞卷积，括号内的第二列表示空洞率，第三列表示卷积核大小。

融合扩大感受野模块的特征金字塔网络：

由于小目标的目标像素过小，不能采取传统的多次下采样的方式获得足够大的感受野，本实施例提出在传统的特征金字塔网络中融合扩大感受野模块，在不继续减小特征图尺寸的条件下，获取更大的感受野，提高小目标的检测率。本实施例提出的扩大感受野模块可以融入骨干网络与特征金字塔网络连接的任何一层，融合扩大感受野模块的特征金字塔网络如图3中的(d)，通过后续消融实验发现在第四层特征图添加扩大感受野模块效果最好，因此本实施例对比试验仅在第四层特征图添加扩大感受野模块。

与传统特征金字塔网络相比，融合扩大感受野模块的特征金字塔网络的预测输出不仅仅是本层特征与上层特征的融合，还与扩大感受野模块之后的特征相融合，具有更多的语义信息。与PANet以及NAS-FPN等相比，并未在传统的预测输出后增加更多的融合路径，而是在骨干网络提取的特征信息的基础上增加并行的特征信息进行融合，在不增加网络复杂度的基础上可获得更大的感受野即更多的语义信息。

实验与结果分析：

实验环境：

本实施例的实验平台为：CPU型号为Inter(R)Core(TM)i7-7700K、GPU型号为GeForce GTX 1080Ti、显存为11G、内存为32G的台式电脑；本实施例实验使用的深度学习框架为Pytorch1.2.0、Cuda10.1以及CuDNN7.6.4。在训练阶段，输入图片大小为1920×1080，然后根据宽高比缩放至1333×750，最后经过裁剪补零操作后变换为1344×768，本实施例使用了随机水平翻转的数据增强方式，优化器选用SGD优化器，初始学习率设定为0.01，训练批次大小为4，共训练 70轮，为了微调模型，本实施例设定在训练了16轮之后将学习率降低为原来的 1/3，在训练了30轮后，再次降低为上一次学习率的1/3。

评价指标：

为了客观地评估小目标的检测结果，使用平均精度(mean Average Precision，mAP)作为评价指标。mAP是度量模型预测框类别和位置是否准确的指标，由于本实施例的检测只涉及到烟草甲虫这一种类别，因此精度与平均精度含义相同，是PR(Precision-Recall)曲线下的面积。mAP的计算公式为：

本实施例在进行测试时设置了三种不同大小的IOU进行测试，IOU为预测框与真实框的交集与并集的比值。mAP_0.5、mAP_0.6、mAP_0.7分别对应IOU＝0.5、0.6、 0.7时的平均精度。

实验介绍：

在烟草甲虫的检测实验中，采用来自图像采集终端拍摄的自建数据集中的 2074张图片以及对应的标签作为实验数据，将图片按6：2：2随机分成6份训练集图片，2份验证集图片以及2份测试集图片。本实施例选用两种算法框架进行实验，分别是：Faster R-CNN以及Cascade R-CNN，使用的骨干网络均为 Resnet50。首先，对Faster R-CNN进行消融实验，即对特征金字塔的每一层分别添加扩大感受野模块进行结果对比。然后，在Faster R-CNN以及Cascade R-CNN 的算法框架下将本实施例算法与目前主流的特征金字塔网络进行对比，对比的特征金字塔网络包括经典的FPN，二次融合的PANet，使用神经架构搜索的NasFPN，融合ASPP的特征金字塔网络形成Aspp_FPN，除此之外，还包括将上采样的 CARAFE方法嵌入传统FPN中形成的CARAFE_FPN，由此验证本实施例提出算法的有效性。

实验结果与分析

表2为本实施例设计的扩大感受野模块添加在特征金字塔网络不同层的消融实验，算法框架为Faster R-CNN。本实施例将Resnet50的第二个到第五个卷积块的输出表示为{C2，C3，C4，C5}，将{C2，C3，C4，C5}经过特征金字塔后的输出表示为{P2，P3，P4，P5}。由表2可知，扩大感受野模块添加在特征金字塔的C5-P5层时平均精度mAP_0.5、mAP_0.6、mAP_0.7分别为90.3％、87.4％、59.5％，在将IOU阈值设定为0.5以及0.6时实验结果最好，这是因为相较于低层特征图，高层特征图的噪声信息减小了，避免了烟丝等干扰对烟草甲检测的影响，因此在高层添加扩大感受野模块可以更加有效地提高检测率，本实施例选择在 C5-P5层即第四层特征图添加扩大感受野模块。

表2消融实验结果

表3为各种特征金字塔网络与本实施例提出的融合扩大感受野模块的特征金字塔网络在Faster R-CNN以及Cascade R-CNN两种算法框架下的对比试验，表明本实施例提出算法的有效性和普适性。在Faster R-CNN框架下本实施例提出算法的平均精度分别为：90.3％(IOU＝0.5)、87.4％(IOU＝0.6)、59.5％(IOU＝0.7)，在Cascade R-CNN框架下本实施例提出算法的平均精度分别为：90.1％(IOU＝0.5)、 87.4％(IOU＝0.6)、61.7％(IOU＝0.7)，在不同的IOU阈值下本实施例设计算法的平均精度均达到最高，两种算法框架下的对比实验表明本实施例提出的算法优于目前主流的算法。

表3在自建数据上不同算法的实验结果

结论：

本实施例针对小目标检测时需要足够的语义信息，但是在通过下采样获取语义信息时会丢失细节信息的问题，提出了多路感受野引导的特征金字塔 (gMRF-FPN)小目标检测方法。本实施例设计了一种扩大感受野模块，使用不同空洞率的空洞卷积使输出特征图具有更大的感受野，融合四种感受野大小的特征图可获得多层次的语义信息，在传统特征金字塔网络的基础上融合扩大感受野模块，在不改变网络层数以及融合路径的基础上获得多种感受野下的上下文信息，从而提高小目标检测精度。本实施例在自建数据集上进行了大量的对比实验，在不同的算法框架下，本实施例方法的平均精度均优于目前主流的检测算法，表明本实施例提出方法的有效性。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种多路感受野引导的特征金字塔小目标检测方法，其特征在于，包括特征金字塔小目标检测网络，所述的特征金字塔小目标检测网络包括依次连接的获取目标图片特征的骨干网络、融合扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络，所述的检测方法包括：

首先选取残差网络作为骨干网络，骨干网络用于提取不同层次的特征信息；

然后将扩大感受野模块加入骨干网络和特征金字塔之间，融合扩大感受野模块的特征金字塔网络用于将不同层次的特征信息经过扩大感受野模块后再进行特征融合，以引导网络获得不同层次感受野下的上下文信息，同时获取足够的语义信息和丰富的细节信息；

最后将经过扩大感受野模块获得的特征图与骨干网络对应层特征图相加后形成输出特征图，可同时获取足够的语义信息和丰富的细节信息；两个分支的检测头网络用于得到目标的预测框以及分类置信度。

2.根据权利要求1所述的多路感受野引导的特征金字塔小目标检测方法，其特征在于，所述骨干网络为Resnet50网络。

3.根据权利要求1所述的多路感受野引导的特征金字塔小目标检测方法，其特征在于，所述扩大感受野模块包括n条并行支路，设置其中的n-1条并行支路对输入特征图进行空洞卷积，得到n-1个不同大小感受野的特征图并进行融合，然后使用1*1的卷积降低通道数，再利用剩余的一条并行支路与输入特征图融合，最后获得的输出特征图既保留了原有感受野下的细节信息，又获得了更大感受野下的语义信息。

4.根据权利要求3所述的多路感受野引导的特征金字塔小目标检测方法，其特征在于，所述扩大感受野模块的计算公式为：O＝Add(I,M)，其中：O为扩大感受野模块后最终的输出特征图，I为输入特征图，M为对输入特征图进行空洞卷积后的n-1张特征图的连接特征图，Add表示将I和M进行特征图相加。

5.根据权利要求4所述的多路感受野引导的特征金字塔小目标检测方法，其特征在于，对输入特征图进行空洞卷积后的n-1张特征图的连接特征图M的计算公式为：M＝Conv[Concat(y₁,y₂,……，y_n-1)]，其中：y₁、y₂、……、y_n-1为输入特征图进行空洞卷积后的特征图，Concat表示将y₁、y₂、……、y_n-1通道连接起来。

6.根据权利要求5所述的多路感受野引导的特征金字塔小目标检测方法，其特征在于，输入特征图进行空洞卷积后的特征图y₁、y₂、……、y_n-1的计算公式为：y_i＝DConv(I,U,V)，其中：i＝1、2、……、n-1，DConv表示对特征图进行空洞卷积，U表示空洞率，V表示卷积核大小。

7.根据权利要求1所述的多路感受野引导的特征金字塔小目标检测方法，其特征在于，所述扩大感受野模块融合在特征金字塔网络的第四层特征图。