CN113989612A

CN113989612A - 基于注意力及生成对抗网络的遥感影像目标检测方法

Info

Publication number: CN113989612A
Application number: CN202110524297.1A
Authority: CN
Inventors: 李佳琪; 吴湘宁; 邓中港; 王稳; 陈苗; 代刚; 邓玉娇
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-01-28

Abstract

本发明提供基于注意力及生成对抗网络的遥感影像目标检测方法，包括对数据进行初始处理，之后将处理过的数据集输入到算法网络，输入图像流经由卷积神经网络构成的图像特征提取网络；由网络生成影像目标候选区域；将候选区域位置信息映射到对应的特征图；映射特征图输入全连接网络预测出准确的边界框位置并完成目标的分类，掩码生成分支则继续根据候选区域生成目标掩码，本发明用于解决一些特定目标数据稀缺，遥感图像中的飞机船只的目标检测问题。

Description

基于注意力及生成对抗网络的遥感影像目标检测方法

技术领域

本发明涉及人工智能、深度学习、目标检测技术领域，尤其涉及基于注意力及生成对抗网络的遥感影像目标检测方法。

背景技术

早期因为卫星遥感图像的空间分辨率较低，对于图像中一些较小的物体，无法进行精确检测，对于遥感图像的检测主要集中在提取某一块区域的空间地理属性，例如图像中的森林，湖泊，植被分布等。近几年，得益于遥感技术快速发展，航空遥感图像的空间分辨率也可以达到亚米级别，使得检测图像中的单独个体成为可能。

在海量高分辨率的遥感图像数据支持下，一些应用在遥感图像上的目标检测技术开始相继涌现，尤其基于深度学习技术的目标检测更是发展快速。虽然基于深度学习的分类和检测模型已经被广泛的应用在遥感图像领域，但大多数还是关注在日常的物体检测中，日常物体的检测与遥感图像目标检测的区别在于其容易获取，尺度变化比较小，一般一张图片中需要检测的目标也比较少，这些深度学习的模型对于遥感图像这种目标变化尺度大，样本分布不均衡，背景复杂的图像检测并不能体现出来其在自然图像识别上的出色学习性能。

发明内容

有鉴于此，本发明目的是提供一种基于注意力及生成对抗网络的遥感影像目标检测方法，用以解决普通的卷积神经网络在检测遥感影像中飞机、舰船、车辆等小目标的检测效果不理想问题；具体步骤如下：

S1、利用现有的Mask R-CNN模型，在骨干网络ResNet101上嵌入注意力机制、特征金字塔FPN，在Mask掩码分支进行GAN对抗训练，得到训练好的目标检测识别深度网络；

S2、对收集制作的遥感影像数据集上使用数据增强方法对数据集进行样本扩充；

S3、将S2中扩充之后的遥感影像数据集送入S1中以ResNet101以及FPN 作为骨干网络的深度卷积层生成特征图；

S4、将S3中生成的特征图送入MaskR-CNN中的区域推荐网络，使用卷积神经网络做分类与目标检测框回归，得到候选区域；

S5、对S4中生成的候选区域做感兴趣区域对齐，重塑特征图的尺寸；

S6、对S5中重塑尺寸后的特征图送入三个全连接网络，分别对图像做目标分类、目标检测框回归以及掩码生成。

本发明提供的技术方案带来的有益效果是：本发明将高性能目标检测算法应用到了飞机舰船等小的军事目标的检测，提高了识别的效率和准确度，可帮助指挥人员做出正确的决策，对军事作战及指挥有着重要的意义。而在民用领域，对农田、建筑物的有效识别也可用于监测农业产量，违章建筑识别等场景。

附图说明

图1是本发明基于注意力及生成对抗网络的遥感影像目标检测方法的流程图；

图2是本发明基于注意力及生成对抗网络的遥感影像目标检测方法的网络架构图；

图3是本发明基于注意力及生成对抗网络的遥感影像目标检测方法的检测效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明提供了基于注意力及生成对抗网络的遥感影像目标检测方法，构建了由MASK-RCNN+RPN+RA-ATTENTION+GAN组成的解决方案，可以准确的提取图像中目标的特征信息，有效提高遥感图像中的目标检测精度。

针对高分辨率遥感图像中目标复杂，数据规模、数据量过少，以及军事目标检测需求，在数据预处理阶段构建一个完整的飞机目标检测数据集，用于卷积神经网络的输入，针对军事目标检测的精度要求，对数据进行初始处理，数据增强，数据集扩充等，在数据增强阶段使用“马赛克”增强技术对图像进行处理，提高模型的识别精度和泛化能力。

主干网络拟选择Dense Net思路对block进行联接，同时将网络中的block替换成RA-Attention module，请参考图2。由于输入数据中有部分占比低于1％的小目标，为让模型可以更好的检测出这类目标，在主体网络中结合了FPN(Feature PyramidNetwork,特征金字塔网络)，以减少因尺度变化而导致的特征丢失，并在 FPN中添加RA-Attention(循环注意力机制)，将不被经常使用的上下文信息进行融合，保证数据上下文信息的完整性。在MASK分支中使用GAN网络对MASK 判别器进行预训练提升掩膜输出精度。

本发明具体步骤如下：

首先，输入待处理的图片，然后进行对应的预处理操作，或者预处理后的图片；然后，将其输入到一个预训练好的神经网络中(ResNet50/ResNet101)获得对应的特征图；接着，根据这个特征图中的每一点设定的RoI数量，获得多个候选RoI；将这些候选的RoI送入RPN网络进行二值分类(前景或背景)和bbox 回归，过滤掉一部分候选的RoI；接着，对这些剩下的RoI进行RoIAlign操作(即先将原图和特征图的像素对应起来，然后将特征图和固定的特征对应起来)；

最后，对这些RoI进行分类(N类别分类)、bbox回归和Mask生成(在每一个RoI里面进行FCN操作)其中Mask分支添加生成对抗网络结构，将Mask生成器中添加一层判别器以提升Mask生成的精确度，请参考图3。

所述Mask R-CNN网络中用到RoIAlign,在原始池化操作上引入双线性内插算法，具体算法公式如下：

x_i代表池化前特征图上的像素点；y_rj代表池化后的第r个候选区域的第j个点；i*(r,j)代表点y_rj像素值的来源，最大池化的时候选出的最大像素值所在点的坐标，d(.)表示两点之间的距离，Δh和Δw表示x_i与x_i*(r，j)横纵坐标的差值，这里作为双线性内插的系数乘在原始的梯度上。

所述Mask R-CNN基础网络中用到的损失函数为分类损失、边界框回归损失、掩膜损失的和，具体算法公式如下：

L＝L_cls+L_box+L_mask

其中，L表示模型总损失，L_cls表示分类损失，L_box表示边界框损失， L_mask表示掩膜损失。

所述Mask R-CNN基础网络中用到注意力模块，具体算法公式如下：

σ表示sigmoid函数，MLP表示多层感知器，用于共享参数，

和

分别代表全局平均池化和全局最大值池化输出的特征，f^7*7表示在拼接后的特征图上做7*7的卷积，M_s(F)表示最终生成的空间注意力特征。

所述Mask R-CNN基础网络中用到Mask分支网络用于构建生成对抗网络，具体的优化目标函数如下所示：

对应的损失函数公式如下，其中P_data(x)为真实样本的分布，D(x)为判别器，G(z)为生成器；

其中，L^D为判别器的损失函数，L^G为生成器的损失函数；n为样本数。

在深度学习的过程中，输入图像经过神经网络模型后，将获得一个描述输入图像的特征矩阵，然后根据拟解决任务的不同，使用该特征矩阵完成图像分类、分割等任务。但是在刚开始进行模型训练时，该特征矩阵并不能很好的描述输入图像，因此需要根据训练集每次训练的结果，调整模型中各层的参数，使模型能通过特征矩阵较好地描述输入图像。神经网络模型需要使用损失函数，通过该函数将得到的神经网络输出结果与训练集所标识的实际值相对比，得到损失值，当损失函数为0时，表示该神经网络模型能完美拟合所有输入数据，因此损失函数为0的模型为一个理想模型。训练神经网络模型的目的是尽可能减小损失值。

神经网络方法通过反向传播算法进行模型的训练，也就是根据损失函数计算得到的损失值，沿着神经网络模型反向的向前传播，在该传播过程中根据梯度下降的方向，调整每一层的卷积参数权重参数w和偏置量b。通过不断迭代，得到收敛的神经网络模型。为了提高网络模型的收敛速度和特征结果的鲁棒性，本文采用小批量随机梯度下降方法进行训练。

在改进后的Mask R-CNN神经网络模型的训练过程中，设置输入批大小为 2，网络迭代次数与原Mask R-CNN一致，为90000。参数更新策略为动量梯度下降优化方法和学习率衰减方法，动量梯度下降优化方法如公式所示：

其中V_dw表示权重w下降速率，V_db表示偏置b下降速率，β为梯度更新动量值，α为学习率。学习率衰减方法如公式所示：

其中α为学习率，d为衰减率，n为迭代次数，α₀为初始学习率。

在训练改进后的MaskR-CNN时，α₀＝0.0025，β＝0.9，d＝0.0001，使用分段常数学习率衰减方法，设置n为60000和80000，该方法如公式所示：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，包括以下几个步骤：

S3、将S2中扩充之后的遥感影像数据集送入S1中以ResNet101以及FPN作为骨干网络的深度卷积层生成特征图；

2.根据权利要求1所述的基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，所述增强方法包括尺度变换、旋转以及马赛克。

3.根据权利要求1所述的基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，所述目标检测框的获得具体包括：

S11、对初始图片进行尺寸归一化处理；

S12、利用ResNet101进行图片特征提取，在骨干网络中加入注意力模块，计算图像的卷积特征，将最后一层卷积特征输入特征金字塔网络，构建包含语义与位置的特征图，最后以特征金字塔网络的输出特征图构建候选区域生成网络推荐图，生成候选区域；

S13、将候选区域与感兴趣区域对齐，将其输入到全连层进行预测，得到多个目标检测候选框；

S14、采用非极大值抑制算法，剔除多余的目标检测框，得到最终的目标检测框。

4.根据权利要求1所述的基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，所述Mask R-CNN网络中用到RoI Align，在原始池化操作上引入双线性内插算法，具体算法公式如下：

x_i代表池化前特征图上的像素点；y_rj代表池化后的第r个候选区域的第j个点；i*(r，j)代表点y_rj像素值的来源，最大池化的时候选出的最大像素值所在点的坐标，d(.)表示两点之间的距离，Δh和Δw表示x_i与x_i*(r，j)横纵坐标的差值，这里作为双线性内插的系数乘在原始的梯度上。

5.根据权利要求1所述的基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，所述Mask R-CNN基础网络中用到的损失函数为分类损失、边界框回归损失、掩膜损失的和，具体算法公式如下：

L＝L_cls+L_box+L_mask

其中，L表示模型总损失，L_cls表示分类损失，L_box表示边界框损失，L_mask表示掩膜损失。

6.根据权利要求1所述的基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，所述Mask R-CNN基础网络中用到注意力模块，具体算法公式如下：

σ表示sigmoid函数，MLP表示多层感知器，用于共享参数，

和

7.根据权利要求1所述的基于注意力及生成对抗网络的遥感影像目标检测方法，其特征在于，所述Mask R-CNN基础网络中用到Mask分支网络用于构建生成对抗网络，具体的优化目标函数如下所示：