CN114299383A

CN114299383A - 基于密度图与注意力机制融合的遥感图像目标检测方法

Info

Publication number: CN114299383A
Application number: CN202111471860.XA
Authority: CN
Inventors: 娄渊胜; 童雪帅
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-08

Abstract

基于密度图与注意力机制融合的遥感图像目标检测方法。本发明主要基于密度图切割的思想，通过物体的稀疏或密集的分布情况，指导图像进行前景与背景的分割，尽可能减少目标检测中对于背景部分的计算，降低复杂背景对于小目标检测的影响，结合注意力机制，通过网络中的通道注意力机制过滤冗余矛盾的背景信息。使用空间注意力机制，更加关注图像中的目标区域，并抑制了非目标区域或背景区域。采用改进的FPN金字塔网络进行目标检测的多尺度特征提取，融合低层特征高分辨率和高层特征的高语义信息，用Soft‑NMS替换NMS，减少误检率。最后采用Faster R‑CNN二级检测器进行目标检测，生成目标类别及位置回归，最终达到提升小目标检测精度的目的。

Description

基于密度图与注意力机制融合的遥感图像目标检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及基于密度图与注意力机制融合的遥感图像目标检测方法。

背景技术

到目前为止，目标检测是计算机视觉领域中一项基本而艰巨的任务。现有的检测方法可以分为基于模板匹配的方法，基于知识的方法，基于对象图像分析的方法和基于机器学习的方法四大类。深度学习算法是目前流行的一种新型计算模型，与传统的对象检测和定位方法相比，基于深度学习的方法具有更强的泛化能力和特征表达能力。但是，过大的图像，复杂的图像背景以及训练样本的大小和数量分布不均，使得检测任务更具挑战性。

遥感图像目标检测作为要给图像分割、遥感信息自动提取的基础任务，重在实现的是在遥感图像中标记目标的类别以及它的具体位置信息。然而，自然场景下的目标检测算法并未在遥感图像研究中取得突破性进展，高分辨率遥感图像中的目标检测是一项具有挑战性的任务，主要原因有以下几点：

1、遥感图像通常具有不同的分辨率并包含大量的实例目标，整体分布稀疏，收集到的物体相比较于一般物体尺度更小，复杂的场景经常使得小目标的特征信息被淹没，这使得遥感图像非常复杂；

2、收集到的数据受光照、地理位置以及地形、气候等自然因素影响，像素分布复杂，导致遥感图像目标检测难度显著上升；

3、受到拍摄角度的影响，密集物体场景下物体会有遮挡或堵塞的情况，这些物体的真值不全，不利于模型的训练；

4、航拍图像中无法保证每一类物体均衡出现于数据集中，因而数据集分布不均衡，给检测算法带来了极大的挑战。

对于高分辨率的航拍图像，通常的方法是将图片裁剪成均匀的小块，并对这些小块进行目标检测，这种方法的召回率比较高，漏检率较低。但是均匀裁剪，会导致均匀作物具有更多的背景像素，不能适应不同类别作物的边界框分辨率，此外这种方法不能利用语义信息进行裁剪，导致大多数分块图像只有背景或者大型物体可能被切割成两种或两种以上不同的作物，造成错检或漏检。

发明内容

发明目的：本发明的目的在于克服上述背景技术的不足，针对密集场景下物体会有遮挡的情况，由密度图引导，根据目标的分布对图片进行分割，尽可能将前景与背景区分开来，将生成的前景进行目标检测可以更快的检测遥感图像中的物体。结合注意力机制，通过网络中的通道注意力机制过滤冗余矛盾的背景信息，使网络上的信息更加准确，提高了网络识别目标的性能。使用空间注意力机制，更加关注图像中的目标区域，并抑制了非目标区域或背景区域。遥感图像中可能出现大量的小目标，从骨干网络到FPN卷积的过程中，丢失的特征层很可能直接丢失特征。单纯使用传统的FPN是有问题的，注意力机制模块可以更好地提取特征，并且可以避免转换过程中的特征丢失。采用Soft-NMS替换NMS，克服NMS对大量物体重叠场景的不适应，通过改进的FPN进一步的对目标进行多尺度特征提取以提高对遥感图像中目标检测的精度。

技术方案：为实现本发明的目的，本发明所采用的技术方案是基于密度图与注意力机制融合的遥感图像目标检测方法，包括如下步骤：

步骤1，输入遥感图像，根据图像中物体的分布生成密度图并进行图片分割。

步骤2，将分割后的图片通过ImageNet数据集上预先训练的Resnet101进行自下而上的特征提取。

步骤3，采用改进的FPN特征金字塔通过横向连接分别连接Resnet101的特征层，自下至上的不同维度特征生成，自上至下的特征补充增强，低层特征图包含更多的位置信息，有利于定位的实现，而高层特征图包含更多的语义信息，更有利于分类的实现。

步骤4，引入注意力机制模块，水平连接FPN各特征层，在不引入过多参数的情况下获得较好的语义信息捕获能力。

步骤5，通过FPN的特征层，区域生成网络在每个尺度上根据预测中心点坐标和宽、高生成候选区域(x，y，w，h)，x，y，w，h分别代表中心点的横坐标，纵坐标，宽和高；将候选区域进行池化操作，进一步提取降维后的候选区域特征，作为全连接层分类的输入。

步骤6，用Soft-NMS替换NMS，减少误检率。

步骤7，将池化特征输入全连接层，输出目标的位置以及通过Softmax输出目标分类。

进一步地，所述的步骤1中，对所述的遥感图像根据密度图进行分割，密度图是人群计数中常用发方法。给定一张图像，用卷积神经网络的方法来估计人数，一般两种方案：一是输入图像，输出估计的人头数目；二是输出的是人群密度图，然后通过积分求总人数。密度图保留更多的信息。与人群的总数相比，密度图给出了在给定图像中人群的空间分布，这样的分布信息在许多应用中是有用的。由此启发，根据给定图像中检测目标的空间分布，可以判断该区域物体的分布情况。

进一步地，所述的步骤2中，将Resnet101作为骨干网络，为了减少计算和参数量。

进一步地，所述的步骤3中，采用改进的FPN特征金字塔通过横向连接分别连接Resnet101的特征层，对FPN特征金字塔的具体改进为：

3.1)构建特征金字塔。选择conv3、conv4、conv5三个阶段中的特征图进行逐层的特征融合，得到C3、C4、C5。通过双线性插值对高分辨率图像进行2倍的上采样，扩大其分辨率为原来的2倍，对相邻层低分辨率的图像通过1*1卷积缩减通道数，两者以elt-wise相加的方式进行融合。

3.2)获取均衡多层语义特征。对C3进行上采样，对C5进行下采样，使得所有的特征图都统一缩放到C4大小。然后对三个层的特征图进行elt-wise相加并求平均值得到融合后的特征C：

3.3)特征增强：采用步骤3.2)中相反的步骤，把C分别缩放到C3、C5的尺寸，对原始特征进行增强，此时得到的各特征图就具有来自深、中、浅各层次的语义信息。

进一步地，所述步骤4中，注意力机制模块包括跨通道注意块和坐标注意块，由两个注意块获得的权值乘以原始特征图。将两个特征图相加后，得到去噪网络，注意力模块的完整计算如下：

F_out＝W_cc(F_in)+W_ca(F_in)

其中，F_in表示FPN网络获得的输入特征映射，F_out表示注意力模块获得的结果特征映射，W_cc表示跨通道注意块获得的权重，W_ca表示坐标注意块获得的权重。在跨通道注意块中，首先使用最大池化和平均池化来压缩输入特征图，然后生成

和

公式如下：

其中H，W，C代表特征图的宽度、高度和通道数，x^k代表第k个通道数，将

和

转置后，用一维卷积来实现相邻通道之间的相互作用，用sigmod函数生成权重W_cc，计算如下：

其中σ_s为sigmoid函数，σ_BN为BN层，σ_R为ReLU函数，f^1×15为卷积大小为1×15的一维卷积核，最后得到W_cc。坐标注意模块公式如下：

其中

代表第k个通道的第i行，

代表第k个通道的第j列。然后，转置

和

并将二者连接起来。1×1卷积后，将通道数减少到32，然后通过ReLU激活它们，得到

W_ca是通过分割

和sigmoid函数得到的。

进一步地，所述步骤5中，通过FPN的特征层，区域生成网络在每个尺度上根据预测中心点坐标和宽、高生成候选区域(x，y，w，h)，x，y，w，h分别代表中心点的横坐标，纵坐标，宽和高；将候选区域进行池化操作，进一步提取降维后的候选区域特征，作为全连接层分类的输入。

步骤6，用Soft-NMS替换NMS，减少误检率。

附图说明

图1是基于密度图与注意力机制融合的遥感图像目标检测整体流程图

具体实施方式

下面结合本发明实例中的附图对本发明的实施方式进行清晰完整的描述。应理解以下实例仅仅用于说明本发明而不用限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于密度图与注意力机制融合的遥感图像目标检测方法，主要实现步骤如下：

步骤1：选择DOTA数据集评估所提方法的性能，将数据集划分为

验证集，

测试集，

训练集。

步骤2：将训练集数据输入基于密度图分割的模块，根据目标分布生成密度图，通过滑动窗口采集像素强度之和，并与阈值进行比较，形成密度掩模。连接部分就可以判断为前景，并进行分割。

步骤3：使用ImageNet数据集上预先训练的ResNet101网络进行特征提取，所提方法是基于Faster R-CNN这一深度学习框架而设计的。将分割后的图片作为Faster R-CNN目标检测器的输入，在PRN阶段和分类阶段的小批尺寸分别为256和512。设置前30000次迭代的初始学习率为0.0003，后续70000次迭代的初始学习率为0.0001。

步骤4：引入注意力机制模块，水平连接FPN各特征层。

步骤5：使用改进的FPN对目标进行多尺度特征提取，设置9个尺度参数的水平锚框，并设置锚框与地真值的交并比阈值为0.7。

步骤6：使用Soft-NMS进行交并比数据后处理，使用高斯加权函数

找出最佳锚框。

其中，S_i代表b_i的得分，M是当前得分最高的锚框，b_i是要处理的锚框。D代表最终检测锚框集，IOU表示交并比，即检测锚框与地真值的重叠率。f_IOU(M，b_i)是M和b_i之间的交并比。f_IOU(M，b_i)越大，S_i下降的越严重。

步骤7：使用平均精度(AP)和类平均精度(mAP)来评估模型的性能，首先定义精度和召回率。

其中，当锚框与真实区域的面积交比大于0.7时，认为锚框是正确检测的目标框(TP)，否则认为是错误检测的目标框(FP)。此外，如果该区域多个锚框和真正的区域面积的交并比大于0.7，只有面积最大的矩形框架交叉比率将被视为正确检测到目标框架(TP)，其他矩形帧被认为是一个错误的检测帧(FP)。FN表示被错误判断为错误检测锚框的正确检测锚框的数量。

设置步长为0.1，并在recall＝[0，0.1，0.2，...，1]时取相应的精度值。这些精度值的平均值为AP。mAP是计算所有类的AP的平均值。

方法比较

将本方法与基于Faster R-CNN且均匀切割图片的方法相比较，在平均精度和类平均精度上均提升了3％和7.1％，从中我们可以发现基于密度图和注意力机制融合的模型提高了遥感图像目标检测的精度，尤其是小目标检测的精度。

最后应说明的是：以上实例仅用以说明本发明的技术方法，而非对其限制；尽管参照前述实例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实例技术方案的精神和范围。

Claims

1.基于密度图与注意力机制融合的遥感图像目标检测方法，其特征在于，包括如下步骤：

步骤1：输入遥感图像，根据图像中物体的分布生成密度图并进行图片分割。

步骤2：将分割后的图片通过ImageNet数据集上预先训练的Resnet101进行自下而上的特征提取。

步骤3：采用改进的FPN特征金字塔通过横向连接分别连接Resnet101的特征层，自下至上的不同维度特征生成，自上至下的特征补充增强，低层特征图包含更多的位置信息，有利于定位的实现，而高层特征图包含更多的语义信息，更有利于分类的实现。

步骤4：引入注意力机制模块，水平连接FPN各特征层，在不引入过多参数的情况下获得较好的语义信息捕获能力。注意力机制模块包括跨通道注意块和坐标注意块，由两个注意块获得的权值乘以原始特征图。将两个特征图相加后，得到去噪网络。

步骤5：通过FPN的特征层，区域生成网络在每个尺度上根据预测中心点坐标和宽、高生成候选区域(x，y，w，h)，x，y，w，h分别代表中心点的横坐标，纵坐标，宽和高；将候选区域进行池化操作，进一步提取降维后的候选区域特征，作为全连接层分类的输入。

步骤6：用Soft-NMS替换NMS，减少误检率。使用Soft-NMS进行交并比数据后处理，使用高斯加权函数

找出最佳锚框；

步骤7：将池化特征输入全连接层，输出目标的位置以及通过Softmax输出目标分类，通过平均精度(AP)和类平均精度(mAP)对目标的检测的性能进行评估。首先定义精度和召回率：

设置步长为0.1，并在recall＝[0，0.1，0.2，...，1]时取相应的精度值。这些精度值的平均值为AP。mAP是计算所有类的AP的平均值。最终得到预测目标类别和坐标回归的精度。