CN111783523A

CN111783523A - 一种遥感影像旋转目标检测方法

Info

Publication number: CN111783523A
Application number: CN202010427245.8A
Authority: CN
Inventors: 洪海龙; 李成源; 毛文举; 安雨; 陈东; 罗斌; 刘军; 王晨捷
Original assignee: 93114 Troops Of Chinese Pla; Wuhan University WHU
Current assignee: 93114 Troops Of Chinese Pla; Wuhan University WHU
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-10-16
Anticipated expiration: 2040-05-19
Also published as: CN111783523B

Abstract

本发明公开一种基于全局‑局部注意力机制的遥感影像旋转目标检测方法，包括以下步骤：S1：提取深度特征；S2：提取显著性特征图；S3：构建显著性金字塔；S4：提取包含前景潜在目标且排名靠前的候选区域特征及坐标；S5：生成全局场景语义约束特征，并与来自S4中的特征进行拼接；S6：进行RoIAlign池化操作；S7：生成最终特征图；S8：进行类别预测和五参数表示的包围框坐标的预测；S9：计算类比损失和坐标损失，采用IoU优化非极大值抑制算法的计算结果，显示目标检测结果。本发明可有效降低背景噪声的干扰，提高检测结果的精度，同时可以有效剔除明显的误检测结果，最终获得高精度、合理的类别与旋转包围框结果。

Description

一种遥感影像旋转目标检测方法

技术领域

本发明涉及一种遥感影像旋转目标检测方法，属于航空图像目标检测技术领域。

背景技术

同时定位和类别识别是航空图像目标检测的基础和难点。随着飞机和卫星数量的增加，有越来越多的航空图像可用。航空图像中的目标检测已成为计算机视觉领域的研究热点之一，在交通控制、机场监控、油库监控、近岸船舶检测、军事目标发现等领域有着广泛的应用。

在目标尺度变化剧烈、背景复杂、目标方向任意、气象环境复杂的情况下，利用场景与目标的语义信息和目标与背景的差异有效准确地检测特定目标是一个重要而紧迫的问题。近年来，深度学习在计算机视觉任务中显示出巨大的优势，在目标检测领域取得了重大进展。

一般来说，航空图像目标检测方法通常采用以下策略：首先确定待检测目标，然后分析目标特征并选择特征描述方法，最后提取特征并进行分类器训练或计算相似距离。众所周知，提取的特征质量对检测结果有着至关重要的影响。设计良好的特征使分类器更容易区分前景和背景，在获取目标类别的同时获得相对准确的边界框。因此，选择一种提取遥感图像特征的方法对航空图像目标检测具有重要意义。各种手动设计的特征被用来描述不同类型的目标，如有向梯度直方图(HOG)、尺度不变特征变换(SIFT)等，这些方法具有良好的性能。然而，手工设计的特性只能针对特定类型的目标，不能应用于所有的目标和场景，且手工制作的特征在大数据背景下难以高效处理遥感图像，因为它们不能同时具有良好的旋转和尺度不变性，在多个光照、尺度、拍摄角度、场景等条件下都不具有鲁棒性。此外，如何平衡计算速度和特征描述精度仍然是许多研究中的难题。

目前，特别是LeNet和AlexNet出现，以深学习算法为代表的人工智能技术在图像处理领域已经取得了很大进步，可从大量的数据中有效提取具有一定平移不变性和旋转不变性的深度特征并用于多种图像处理任务，如有效的目标检测、图像分类、图像生成、场景理解、目标跟踪、目标重识别等。与传统的目标检测和定位方法相比，基于深度学习的方法具有较强的泛化能力和特征表达能力。在目标检测领域，特别是针对卷积神经网络，通过对大脑机制的仿生将大量的卷积层、池化层、激活层等层叠加起来，实现人工神经网络的构建。利用这种神经网络，可以从大量标记数据中学习潜在的有效特征表达。

根据目标包围框的样式，基于深度学习的目标检测算法主要分为两类：基于关键点的目标检测算法和基于四边形的目标检测算法。基于关键点的算法相对较新，通常采用关键点检测技术来避免边界框的预测问题。对于预测四边形包围框的方法，在基于四元数的深度学习范式下，最近的研究集中在提高目标检测网络性能的两个主流分支上。

第一个分支是基于区域的卷积神经网络(R-CNN)，也称为两级网络，它使用一个弱分类器从图像中提取可疑的目标区域，然后使用一个训练有素的网络最终确定类别和目标位置。与传统的遍历分块方法不同，这种非端到端方法在进行目标检测时只需要处理提取出的候选区域内的像素，减少了计算量，提高了算法的速度；这种深度学习和非深度学习的结合展现出优秀的性能，但是对具有重叠的候选区域进行特征提取会造成资源浪费，并且非端到端的特性没有完全发挥硬件性能，因此R-CNN具有检测精度高、速度仍可提高特点，更重要的是，由于存在全连通层，R-CNN要求输入的图像数据是固定大小的(227*227)。

为了改进它，SPP-Net在最后一个卷积层的顶部增加了一个空间金字塔层，即感兴趣区域(region of interest，RoI)，RoI池化将特征生成固定尺度的特征图，这样就可以处理任意尺寸的输入。此外，SPP-Net从整个图像中提取特征一次，并在检测过程中共享特征，避免R-CNN等重复提取特征的低效。

Fast R-CNN使用一个基于全连接层的小网络来代替SVM进行分类和定位。FasterR-CNN在Fast R-CNN的基础上使用候选区域网络(RPN)代替选择性搜索算法，实现了端到端的目标检测过程。

FPN提出了一种基于区域的特征金字塔网络，该网络充分利用了低分辨率、强语义特征和高分辨率、弱语义特征。通过构建不同尺度目标的特征金字塔，FPN可以从不同的语义层次理解目标，对小目标具有较强的鲁棒性和较好的检测精度。

Cascade R-CNN使用机器学习中常用的级联概念来级联多个神经网络分类器来提高检测性能。

除了基于R-CNN的目标检测框架外，第二个分支为快速的目标检测网络，包括Overfeat、YOLO、YOLOv2、YOLOv3、SSD等。这些算法被称为单级算法，能够实现端到端目标检测，并且由于其简单的网络结构和图像网格化，能够实时实现最先进的检测速度。

与自然图像中的目标检测不同，由于气象条件多样、地面背景复杂、目标朝向和尺度变化剧烈，光学遥感目标检测仍然是一项具有挑战性的任务。常用的基于区域卷积神经网络(R-CNN)的航空图像目标检测方法主要的局限在于在背景复杂的情况下不够鲁棒，不能预测出包围目标的旋转四边形坐标，以及没有充分利用场景与目标之间的语义信息。

发明内容

本发明的目的是提供一种遥感影像旋转目标检测方法，以解决光学遥感目标检测存在的在背景复杂的情况下不够鲁棒，不能预测出包围目标的旋转四边形坐标，以及没有充分利用场景与目标之间的语义信息的问题。

为达到上述目的，本发明采用的技术方案是：一种遥感影像旋转目标检测方法，包括以下步骤：

S1：使用resnet101网络，提取输入的遥感影像的深度特征；

S2：使用区域显著性算法(region contrast，RC)，提取输入的遥感影像的显著性特征图；

S3：将S2中提取出的显著性特征图与S1中提取出的深度特征进行融合，构建显著性金字塔(Saliency Feature Pyramid，SFP)；

S4：将显著性金字塔特征送入RPN网络，提取包含前景潜在目标且排名靠前的候选区域特征及坐标；

S5：将显著性金字塔最顶层特征图送入基于通道注意力的全局语义约束网络(global attention network，GANet)，生成全局场景语义约束特征，并与来自S4中RPN网络提取的候选区域中的特征在通道维度进行拼接；

S6：将来自S5的特征图进行RoIAlign池化操作；

S7：将S6得到的特征图送入连续的两层全连接层，生成最终特征图；

S8：使用S7生成的最终特征图，分别进行类别预测和五参数表示的包围框坐标的预测；

S9：检测时，使用一种角度敏感的IoU算法(angle-sensitive intersection overunion，angle-sensitive IoU)，对来自S8的预测结果进行优选，并输出最终的检测结果。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明一种遥感影像旋转目标检测方法，通过构建显著性金字塔降低局部区域复杂背景的干扰，使用全局语义约束分支引入场景上下文信息，并通过一种角度敏感的IoU算法获取了更加合理的目标旋转包围框表示，在航空图像目标检测时，可有效降低背景噪声的干扰，提高检测结果的精度，同时可以有效剔除明显的误检测结果，最终获得高精度、合理的类别与旋转包围框结果。

附图说明

附图1为本发明遥感影像旋转目标检测方法的流程示意图；

附图2为本发明目标检测方法中显著性金字塔构建方法流程图；

附图3为本发明遥感影像旋转目标检测方法中全局-局部特征融合流程图；

附图4为本发明遥感影像旋转目标检测方法中旋转包围框坐标说明图；

附图5为本发明遥感影像旋转目标检测方法中resnet101结构示意图。

具体实施方式

实施例：一种遥感影像旋转目标检测方法，其提出一种新的目标检测网络(GLS-Net)，在Fast R-CNN网络的基础上，将显著性算法RC与特征金字塔网络相结合、采用基于显著性算法与神经网络构建显著性金字塔，并在显著性金字塔的基础上，提出全局注意力网络分支、使用基于通道注意力机制的全局语义约束网络提取场景深度特征，再在此基础上，提出基于显著性金字塔的局部目标信息与经通道注意力机制优化后的全局语义信息相结合的快速特征融合策略，最后，提出并使用一种角度敏感的IoU算法优化训练时非极大值抑制算法效果，以获得一个更精确的五参数旋转框表示；

具体包括以下步骤：

S1：使用resnet101网络，对输入的BGR波段遥感影像的深度特征进行提取，其中resnet101网络结构如图5所示；

S2：使用区域显著性算法(region contrast，RC)提取输入的遥感影像的显著性特征图，具体包括以下步骤：

S21：用基于图的图像分割方法将输入的遥感影像分割成若干区域，然后根据以下公式，为每个区域建立颜色直方图，对于图像中的每个像素，其显著性定义为：

其中D(I_k，I_i)为像素I_k和像素I_i在L*a*b空间的颜色距离度量，S(I_k)为像素I_k的显著性值；

S22：忽略像素之间的空间关系，具有相同像素值的像素具有相同的显著性值，因此可以得到以下公式：

其中S(c_l)为像素I_k的颜色值，n为输入的BGR波段遥感影像(BGR三波段数据、像素值域为[0，255])中所含的颜色总数，f_j为c_j在遥感影像I中出现的概率，在实际计算时，在每个RGB颜色通道量化为12个颜色等级，因此总共存在12³个颜色等级；

S23：图像中和周围物体对比度大的区域会更加容易被注意，且一个像素相邻区域的高对比度更加容易导致该区域引起视觉注意，因此在RC方法中引入区域对比度权重，得到以下公式：

其中ω(r_i)为S21分割后得到的区域r_i的权值，D_r(·，·)为两个区域的颜色距离度量，两个区域r_k，r_i的颜色距离为：

其中f(c_k，i)为第i个颜色c_k，i在第k个区域r_k的所有n_k种颜色中出现的概率，k＝{1，2}；

S24：计算空间加权区域对比度，在以上三个公式的基础上，增加空间信息，对于任意的区域r_k，基于空间加权区域对比度的显著性定义为：

其中D_s(r_k，r_i)为区域r_k和r_i的空间距离，σ_s控制空间权值强度，σ_s越大，空间权值的影响越小，两个区域的空间距离定义为两个区域重心的欧式距离，这里

像素坐标归一化到[0，1]之间；

S3：将S2中获取的显著性特征图下采样后，分别与S1中基于resnet101提取的深度特征(C2,C3,C4,C5)融合进行通道维的拼接操作，构建显著性金字塔(Saliency FeaturePyramid，SFP)，完成后C2,C3,C4,C5特征的通道维分别加一，如图2所示；

S4：将S2获取的显著性金字塔特征{s2,s3,s4,s5}送入RPN网络，提取包含前景潜在目标且排名靠前的候选区域特征及坐标，其中RPN网络结构如下所示：

输入的遥感影像首先经过一层卷积层，卷积核尺寸为7*7*3，输出维度为96，步长为2，padding为3，激活函数使用relu；

然后通过最大化池化层，池化核大小为3*3，步长为2，padding为1；

进行卷积操作，卷积核为5*5，输入维度为96，输出维度为256，步长为2，padding为2，激活函数为relu；

进行卷积操作，卷积核为3*3，输入维度为256，输出维度为384，步长为1，padding为1，激活函数为relu；

进行卷积操作，卷积核为3*3，输入维度为384，输出维度为384，步长为1，padding为1，激活函数为relu；

进行卷积操作，卷积核为3*3，输入维度为256，输出维度为256，步长为1，padding为1，激活函数为relu；

最后分别使用两个卷积输出目标的类别和正矩形左上点和右下点的坐标四参数表示；

S5：将显著性金字塔最顶层特征图送入基于通道注意力的全局语义约束网络(GANet)，生成如图3所示的全局场景语义约束特征，其过程描述如下：

MLP(x)＝f_decoder(ReLU(f_coder(x)))，

M_c(F)为经通道显著性处理后的特征，其中F为来自特征金字塔最顶层的特征，维度为[n,n,256]，该特征被分别进行最大化池化和平均池化操作，生成两个维度为[1,1,256]的向量，

和

分别为矩形的加法和乘法操作，为了降低计算量，将M_c(F)特征通过两层卷积层将通道数从256降至32；

然后在通道维将生成的全局场景语义约束特征与S4中获取的特征进行拼接，生成一个通道维度为289维的特征图；

S6：将来自S5的通道维度为289维的特征图进行RoIAlign池化操作，生成7*7*289维的特征图；

S7：将S6得到的7*7*289维的特征图送入两层全连接网络，生成最终特征图；

S8：使用S7中生成的最终特征图，分别进行类别预测和五参数表示的包围框坐标的预测，获得该目标属于多个类别的概率(一般取最大的概率作为该目标的类别)和旋转包围框的五参数坐标，其中包围框的坐标如图4所示，x轴沿着逆时针旋转，遇到的矩形第一条边为w，因此另一条边h，此时x轴转过的角度记为θ，θ∈[-90，0)，那么五参数的坐标表示为(x,y,w,h,θ)，其中x,y为矩形中心点的坐标；

S9：检测时，基于S8生成的类别分数和旋转包围框坐标，计算分类损失(交叉熵损失)和坐标损失，加权后进行反向传播优化网络参数，在坐标损失计算时，采用一种角度敏感的IoU来优化非极大值抑制算法的计算结果：

其中，area_i和area_j分别表示两个旋转矩形的面积，area_inter表示两个矩形相交的面积；

S10：输出目标检测结果。

采用上述遥感影像旋转目标检测方法时，其通过构建显著性金字塔降低局部区域复杂背景的干扰，使用全局语义约束分支引入场景上下文信息，并通过一种角度敏感的IoU算法获取了更加合理的目标旋转包围框表示，在航空图像目标检测时，可有效降低背景噪声的干扰，提高检测结果的精度，同时可以有效剔除明显的误检测结果，如将水面上的船只错误检测为车辆等，最终获得高精度、合理的类别与旋转包围框结果。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种遥感影像旋转目标检测方法，其特征在于，包括以下步骤：

S1：使用resnet101网络，提取输入的遥感影像的深度特征；

S2：使用区域显著性算法（region contrast，RC），提取输入的遥感影像的显著性特征图；

S3：将S2中提取出的显著性特征图与S1中提取出的深度特征进行融合，构建显著性金字塔（Saliency Feature Pyramid，SFP）；

S5：将显著性金字塔最顶层特征图送入基于通道注意力的全局语义约束网络（globalattention network，GANet），生成全局场景语义约束特征，并与来自S4中RPN网络提取的候选区域中的特征在通道维度进行拼接；

S6：将来自S5的特征图进行RoIAlign池化操作；

S9：检测时，设计并使用一种角度敏感的IoU算法（angle-sensitive intersectionover union，angle-sensitive IoU），对来自S8的预测结果进行优选，并输出最终的检测结果。