CN113393457B

CN113393457B - 一种结合残差密集块与位置注意力的无锚框目标检测方法

Info

Publication number: CN113393457B
Application number: CN202110793165.9A
Authority: CN
Inventors: 邝利丹; 陶家俊; 张建明
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-02-28
Anticipated expiration: 2041-07-14
Also published as: CN113393457A

Abstract

本发明公开了一种结合残差密集块与位置注意力的无锚框目标检测方法，属于计算机视觉深度学习领域。采用新型特征融合模块，该模块使用含有位置注意力的残差密集块，与原始特征金字塔网络相比，网络参数量降低了5.3倍并提高了网络特征提取的能力；使用多尺度预测方法解决同一位置大小样本重叠的问题；提出非关键点抑制分支降低非关键点对检测效果的影响，使其后续能在置信度阈值和非极大值抑制中被过滤。本发明能够有效提升提取能力，并降低目标边缘低质量点对检测结果的影响，较之现有算法呈现出较大的精确度与速度提高，在目标检测领域有良好的应用前景。

Description

一种结合残差密集块与位置注意力的无锚框目标检测方法

技术领域

发明涉及计算机视觉深度学习领域，特别是涉及一种结合残差密集块与位置注意力的无锚框目标检测方法。

背景技术

作为智能世界的双眸，计算机视觉是人工智能技术的一大分支，计算机视觉中目标检测是一个复杂且重要的任务，并广泛应用于生活、工业、医疗等实际场景中，其主要目标是在图像中定位出目标边框的位置以及识别该目标所属的类别。传统目标检测方法首先选择出感兴趣的区域，然后利用多尺度、多长宽比的滑框来扫描整张图片，计算量大且冗余窗口多。随着深度学习的快速发展，深度卷积神经网络(convolutional neural networks，CNN)越来越多地应用于计算机视觉领域，并且引领了目标检测领域的发展。

主流的目标检测算法由骨干网络、特征融合网络和检测头组成，最具代表性的网络有YOLO系列，SSD系列和RetinaNet等，这些基于锚框的检测器需要根据数据集采用聚类算法计算出预先设定的大小。无锚框算法则不需要设计各种各样的锚框，从而降低了超参数，提升了网络的泛化能力和鲁棒性。无锚框检测器分为密集点预测和关键点预测两类。以Densebox，FCOS，FSAF，SAPD和FoveaBox等为代表，预测落入真实边界框内所有点的称为密集点预测算法；而以CornerNet，ExtremeNet，和CenterNet等为代表，预测真实边界框内一个或几个关键点的称为关键点预测算法。基于关键点预测算法目前主要存在如下三大问题：

第一，从stride为2或4的一张特征图中计算得到较高精确率需要更大的内存消耗和更多的训练与推理时间；

第二，单尺度特征图同一位置大小目标重叠，检测器将无法正确判断检测点属于哪个目标；

第三，关键点预测不准确，具体表现为物体边缘仍然被判断为检测点，导致出现大量低质量冗余检测框。

发明内容

本发明目的在于，一种结合残差密集块与位置注意力的无锚框目标检测方法，通过残差密集块和注意力机制，多尺度预测和引入非关键点抑制解决上述问题，在VOC2007测试集中取得优于现有算法的结果。

本发明的技术方案是，使用含有位置注意力的残差密集块(residual denseblock with coordinate attention，RDBCA)，与原始特征金字塔网络(feature pyramidnetwork，FPN)相比，降低了网络参数并提高了网络特征提取的能力；使用多尺度预测方法解决大小样本之间重叠的问题；提出非关键点抑制分支(non-key-point suppression，NKS)降低非关键点对检测效果的影响，使其后续能在置信度阈值和非极大值抑制(non-maximum suppression，NMS)中被过滤，具体实现步骤如下：

第一步：以50％的概率对原始图片进行随机增强，包括(1)亮度，对比度，色度调整；(2)图片的随机裁剪；(3)图片左右翻转；(4)保持图片比例填充背景色。最后得到原始图像数据I∈R^H×W×3，H和W分别是原始图像的长和宽，3为彩色通道数；

第二步：将原始图像数据输入骨干网络，得到特征层。本方法提出的模型使用ResNet-18作为骨干网络，修改网络最后的全连接层以构造全卷积网络；骨干网络每次下采样，特征图大小变为原始图像的一半，最后得到三层特征C₃，C₄和C₅，特征层stride分别为8，16和32，特征图通道数分别为128，256和512；

第三步：调整通道数大小。使用一个1×1卷积将特征层C₃，C₄和C₅的通道数调整为64，64和128，记为D₃，D₄和D₅；

第四步：将特征D₅输入RDBCA模块得P₅。记输入RDBCA的特征数据为F₀，首先使用连续三个3×3深度可分离卷积并且保存每次卷积后的特征信息分别记为F_{1_1}、F_{1_2}与F₁。每个3×3深度可分离卷积后，都会与F₀进行残差连接，以降低梯度消失和梯度爆炸现象，最后输出结果为F₁：

其中

是3×3深度可分离卷积，δ是ReLu激活函数。然后将特征信息F₀、F_{1_1}、F_{1_2}与F₁共4层串联起来，即concat([F₀,F_{1_1},F_{1_2},F₁])，得到比输入数据F₀通道数大4倍的新特征，再用一个1×1卷积将特征层通道数降低到与F₀相同大小，并与F₀相加作为局部特征融合得到特征层F₂：

其中“concat”是串联操作，

是1×1卷积，δ是ReLu激活函数。接着利用水平方向自适应平均池化和垂直方向自适应平均池化，从F₂得到两个不同方向的池化数据，再将这一对方向感知特征串联起来，送入一个共享参数的1×1卷积进行特征提取，得到输出F₃：

其中“HAvgPool”是水平方向自适应平均池化，“WAvgPool”是垂直方向自适应平均池化，“concat”是串联操作，

是1×1卷积。然后沿着空间维度将F₃切分为两个单独的张量记为F_{3_1}和F_{3_2}：

F_{3_1},F_{3_2}＝split(F₃) (4)

其中“split”函数可以将张量拆分为块。接着再利用1×1卷积将F_{3_1}和F_{3_2}变换到和F₂相同的通道数，使用sigmoid函数将其映射到(0,1)范围内，再与F₂相乘得到输出的特征数据F₄：

其中

是1×1卷积，σ是sigmoid激活函数；最后，将输入特征F₀与输出特征F₄相加作为第二条局部特征融合得到最后输出特征F_out：

F_out＝δ(F₀+F₄) (6)

其中δ是ReLu激活函数，F_out即为RDBCA的输出结果；

第五步：使用1×1卷积将P₅的通道数缩小一倍，然后使用双线性插值上采样，将特征图放大到与前一层D₄一样的大小，接着将D₄与P₅串联起来，最后将串联后的特征输入第五步中的RDBCA模块得到P₄；

第六步：重复第四步与第五步，得到P₃，使用最大池化将D₅下采样，并输入第四步中的RDBCA模块得到P₆，最终得到4个特征层P_l，l∈{3,4,5,6}；

第七步：生成检测头。对P₃，P₄，P₅和P₆分别使用一个通道数为128的3×3深度可分离卷积，接着用一个输出通道数为C的1×1卷积生成分类分支，C为类别数，采用文献“Lin,T.Y.,Goyal,P.,Girshick,R.,He,K.,Dollar,P.:Focal loss for dense objectdetection.In:Proceedings of the IEEE International Conference on ComputerVision,pp.2980–2988(2017).”中生成分类分支方法，得到各特征层各像素点各类的置信度

用一个输出通道数为4的1×1卷积生成定位分支，采用文献“Tian,Z.,Shen,C.,Chen,H.,He,T.:FCOS:fully convolutional one-stage object detection.In:ICCV,pp.9627–9636.IEEE(2019).”中方法，得到各特征层各像素点到边界框的距离

用一个输出通道数为1的1×1卷积生成“非关键点抑制分支”，用一个二分类器进行训练，对于“非关键点抑制分支”预测到的各层各像素点的值，用sigmoid函数映射到(0，1)上，这些值即为各特征层各像素点“是关键点”的置信度

其中l＝{3,4,5,6}，

第八步：计算损失。记特征层P_l上像素点的坐标为(i_l,j_l)，其中l∈{3,4,5,6}，

对于一副H×W输入图像，假设有N个目标点，每个目标点Bⁿ，1≤n≤N，都包含其左上和右下坐标以及该目标类别的标注信息，记为

其中

且

设置特征层P_l的最大距离为：

h_l＝A×2^l-1,l＝3,4,5,6 (7)

其中A取12。如果目标n满足：

则认为该目标落入P_l层。对于任意一个落入P_l层的目标

其“关键点”即为目标区域内的中心点

其中

令其真实值权重

其余点均为“非关键点”，令其真实值权重

对所有特征层均进行如上操作，那么，采用二进制交叉熵计算非关键点抑制损失L_nks可表示为：

其中M为所有特征层样本总数，

为原始图像输入神经网络后得到的P_l层上“非关键点抑制分支”预测值权重。分类损失L_cls采用文章“Zhou,X.,Wang,D.,et al.:Objects as points.arXiv preprint arXiv:1904.07850(2019).”中分类损失的设置方法进行计算。位置损失L_iou采用文章“Yu,J.,Jiang,Y.,Wang,Z.,Cao,Z.,Huang,T.:UnitBox:an advancedobject detection network.In:Proceedings of the24th ACM International Conference on Multimedia,pp.516–520(2016).”中IoU(Intersection over Union)损失进行计算。网络的总损失L为三个分支损失之和：

L＝L_cls+L_iou+L_nks (10)

第九步：迭代终止条件判断；使用公式(10)计算损失，根据损失求取梯度，反向传播更新优化器参数。重复第一步至第八步，直到迭代次数达到最大时结束。

第十步：推理阶段。采用文献“Lin,T.Y.,Goyal,P.,Girshick,R.,He,K.,Dollar,P.:Focal loss for dense object detection.In:Proceedings of the IEEEInternational Conference on Computer Vision,pp.2980–2988(2017).”中方法，从检测头的分类分支得到预测的各特征层各像素点各类别的预测结果

采用文献“Tian,Z.,Shen,C.,Chen,H.,He,T.:FCOS:fully convolutional one-stage object detection.In:ICCV,pp.9627–9636.IEEE(2019).”中方法，得到各特征层各像素点到边界框的距离

从检测头的非关键点抑制分支，得到各特征层各像素点“是关键点”的预测结果，然后使用sigmoid函数将值映射到(0，1)上，这些值即为各特征层各像素点“是关键点”的置信度

其中l＝{3,4,5,6}，

C为类别数。分类置信度

首先利用“非关键点抑制分支”的预测结果

与其进行计算，以抑制非关键点对检测结果的影响，得到修正后的各像素点各类别的置信度

然后从

选择置信度从大到小的前100个预测点，再过滤掉置信度低于0.05的点。最后采用文章“Tian,Z.,Shen,C.,Chen,H.,He,T.:FCOS:fully convolutional one-stage object detection.In:ICCV,pp.9627–9636.IEEE(2019).”中方法，计算预测点到四条边的距离并利用非极大值抑制方法去除冗余的预测框。保留下来的类别和边界框即为网络对输入图像内目标的预测结果。

本发明所达到的效果和益处是与现有采用基于Resnet-18、分辨率384×384和512×512的CenterNet算法相比，本方法精确率分别提高了4.7％与3.6％，FPS达到了87与77，分别提升了1.38倍和1.40倍。与基于Resnet-50、分辨率384×384和512×512的FCOS算法、本方法精确率分别提高了5.9％和1.6％，每秒传输帧数(Frames Per Second，FPS)达到了65与60，速度提升2.5倍和2.4倍。另外本发明的非关键点抑制分支能有效抑制非关键点对检测效果的干扰，因此本发明能够有效提升检测精确率和速度，在目标检测领域有良好的应用前景。

附图说明

图1为本发明一种结合残差密集块与位置注意力的无锚框目标检测方法流程图。

图2为本发明方法网络整体结构示意图。

图3为本发明方法含有RDBCA的特征融合模块示意图。

图4为本发明方法RDBCA模块示意图。

具体实施方式

下面结合技术方案和附图，详细叙述本发明的一个具体实施例。

本文所使用的平台是Windows Server 2019操作系统，CPU为Intel(R)Xeon(R)Gold 6226R CPU，GPU为一块Nvidia GeForce RTX 2060SUPER，并在基于CUDA 10.2和CUDNN7.6.5版本的Pytorch 1.8.1深度学习框架下训练本文模型。本文使用Pytorch官方提供的Resnet-18预训练权重文件初始化骨干网络，并采用Adam对网络进行优化，设置批量数大小是24，一共设置200个世代，其中第1个世代采用“预热(warm up)”技术，学习率从10^-5逐渐提升到10^-3，之后20个世代保持学习率为10^-3，再采用余弦退火函数逐步下降学习率，直到第200个世代时下降到10^-5训练结束。如图1所示，一种结合残差密集块与位置注意力的无锚框目标检测方法，包括以下步骤：

第一步：以50％的概率对VOC2007和VOC2012训练集原始图片进行随机增强，包括(1)亮度，对比度，色度调整；(2)图片的随机裁剪；(3)图片左右翻转；(4)保持图片比例填充背景色。最后得到原始图像数据I∈R^384×384×3

第二步：将原始图像数据输入骨干网络，得到三层特征C₃，C₄和C₅，特征层stride分别为8，16和32，特征图通道数分别为128，256和512；

第三步：参考图2，使用一个1×1卷积将特征层C₃，C₄和C₅的通道数调整为64，64和128，得到为D₃，D₄和D₅；

第四步：参考图3，将特征D₅输入RDBCA模块得P₅；

第六步：重复第四步与第五步，得到P₃；使用最大池化将D₅下采样，并输入第四步中的RDBCA模块得到P₆；

第七步：对P₃，P₄，P₅和P₆分别使用一个3×3深度可分离卷积，接着用一个输出通道数为20的1×1卷积生成分类分支；用一个输出通道数为4的1×1卷积生成定位分支；用一个输出通道数为1的1×1卷积生成非关键点抑制分支；

第八步：使用公式(9)和(10)计算损失；

第九步：根据损失求取梯度，反向传播更新优化器参数，重复第一步至第八步，直到迭代次数达到最大时结束；

第十步：从检测头的分类分支获得各特征层各像素点各类别的置信度

从检测头的定位分支获得各特征层各像素点到四条边的距离

使用公式(11)对分类置信度得分进行抑制，得到抑制后的各特征层各像素点各类别的置信度

然后从

选择置信度从大到小的前100个预测点，再过滤掉置信度低于0.05的点。再计算预测点到四条边的距离并利用非极大值抑制方法去除冗余的预测框。保留下来的类别和边界框即为网络对输入图像内目标的预测结果。

Claims

1.一种结合残差密集块与位置注意力的无锚框目标检测方法，采用新型特征融合模块，该模块使用含有位置注意力的残差密集块(residual dense block with coordinateattention，RDBCA)；使用多尺度预测方法解决大小样本之间重叠的问题；提出非关键点抑制分支(non-key-point suppression，NKS)降低非关键点对检测效果的影响，使其后续能在置信度阈值和非极大值抑制(non-maximum suppression，NMS)中被过滤，具体步骤如下：

第一步：以50％的概率对原始图片进行随机增强，包括(1)亮度，对比度，色度调整；(2)图片的随机裁剪；(3)图片左右翻转；(4)保持图片比例填充背景色；最后得到原始图像数据I∈R^H×W×3，H和W分别是原始图像的长和宽，3为彩色通道数；

第二步：将原始图像数据输入骨干网络，得到特征层；本方法提出的模型使用ResNet-18作为骨干网络，修改网络最后的全连接层以构造全卷积网络；骨干网络每次下采样，特征图大小变为原始图像的一半，最后得到三层特征C₃，C₄和C₅，特征层stride分别为8，16和32，特征图通道数分别为128，256和512；

第三步：调整通道数大小；使用一个1×1卷积将特征层C₃，C₄和C₅的通道数调整为64，64和128，记为D₃，D₄和D₅；

第四步：将特征D₅输入RDBCA模块得P₅；记输入RDBCA的特征数据为F₀，首先使用连续三个3×3深度可分离卷积并且保存每次卷积后的特征信息分别记为F_{1_1}、F_{1_2}与F₁；每个3×3深度可分离卷积后，都会与F₀进行残差连接，以降低梯度消失和梯度爆炸现象，最后输出结果为F₁：

其中

是3×3深度可分离卷积，δ是ReLu激活函数；然后将特征信息F₀、F_{1_1}、F_{1_2}与F₁共4层串联起来，即concat([F₀,F_{1_1},F_{1_2},F₁])，得到比输入数据F₀通道数大4倍的新特征，再用一个1×1卷积将特征层通道数降低到与F₀相同大小，并与F₀相加作为局部特征融合得到特征层F₂：