CN114821356B

CN114821356B - 一种精确定位的光学遥感目标检测方法

Info

Publication number: CN114821356B
Application number: CN202210458580.3A
Authority: CN
Inventors: 何林远; 贺旭; 周理; 马时平; 刘达; 王晨; 史鹤欢; 陈广阳; 马国勇; 张立朝
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2024-05-28
Anticipated expiration: 2042-04-24
Also published as: CN114821356A

Abstract

本发明公开了一种精确定位的光学遥感目标检测方法，通过一个非局部空间注意力机制将特征金字塔网络输出的多尺度特征进行优化，利用非局部空间上下文关联注意力突出关键特征并抑制噪声，将目标与背景区分开来；将目标长宽比引入中心度中，有效抑制了低质量的正样本像素点并提高了模型对大长宽比目标的检测精度；针对遥感旋转目标的方向多变的特性，将四参数水平框表示方法扩展为六参数的旋转框表示方法，实现了定向包围框的检测。

Description

一种精确定位的光学遥感目标检测方法

技术领域

本发明涉及遥感技术领域，具体涉及一种精确定位的光学遥感目标检测方法。

背景技术

光学遥感图像的旋转目标检测任务是一项典型的计算机视觉应用，旨在从光学遥感图像中自动定位并甄别出感兴趣的带有方向的旋转目标。近年来，由于光学探测手段的不断提升，有越来越多的遥感数据被逐步挖掘出来，越来越多的专家学者开始研究一些基于数据驱动的高性能的基于深度学习的自然场景图像目标检测算法，然而光学遥感图像中旋转目标的特性对这些算法提出了更高的要求和更多的挑战。相比于自然场景图像而言，光学遥感图像中的旋转目标的背景复杂多变，网络提取出的特征往往包含大量的背景噪声，导致特征的表征能力大大下降；光学遥感图像中存在大量的大长宽比狭长目标，目标也往往呈现方向多变的特点。因此，光学遥感旋转目标的这些特点给光学探测系统带来了很大的难题，同时也使得光学遥感图像中的旋转目标检测任务成为遥感图像处理领域经久不衰的一个研究难点与热点。

人类的视觉注意力机制是人类视觉系统中常见的一种信息选择方式，在人类视觉信息的获取过程中发挥着重要的作用。人类视觉注意力机制是指人的视觉系统在进行视觉信息获取过程中并不是一次性获取全部视觉信息，而是会首先筛选出感兴趣的重要目标区域同时抑制无关的目标区域，从而快速地获取感兴趣区域的更多的细节信息。深度学习中的注意力机制则与人类视觉系统中的注意力机制类似，在进行特征提取的过程中会加强关键特征的表达同时抑制无关的特征，进而筛选出更有效的特征。这种计算机视觉注意力机制已经广泛应用于包括图像识别、图像检测、语义分割在内的多个图像分析领域。考虑到光学遥感图像中的旋转目标对于整幅图像而言，存在稀疏特性，而诸多目标之间，又具有局部聚集的特点，加上光学遥感图像中会有大量的背景噪声干扰，注意力机制在光学遥感图像的旋转目标检测任务上有很大的应用潜力。因此，如何针对光学遥感图像旋转目标的特性设计出有效而鲁棒的注意力特征优化机制并研究出一种基于注意力特征优化的高精度光学遥感图像旋转目标检测方法对于提升光学探测系统的检测性能显得尤为重要。

FCOS^[1]网络则借鉴了全卷积化网络的思想，采用类似于图像分割的方法，这种检测算法首先通过多尺度的特征金字塔网络提取出多尺度的特征，然后在预测头中逐像素地直接对特征图中每个像素点进行类别判断、对应原图的包围框尺寸回归以及Centerness中心度回归，整个网络全卷积化，其中Centerness是一种用来抑制低质量的边界框的策略，这种检测算法在自然场景图像的目标检测任务上取得了一定的效果。FCOS是针对自然场景图像的目标检测任务而设计的，自然场景图像中的目标大都是平视的视角拍摄，大都采用水平包围框标注，FCOS则是主要用来检测水平包围框的，而光学遥感图像大都是俯视的拍摄视角，目标大都方向多变，呈现旋转特性，因此很难适用于遥感图像的旋转目标检测任务中，对于一些大长宽比的狭长目标更是会产生较大的预测误差。

在FCOS检测框架的基础上，Lin等人提出了针对航空图像定向目标检测的网络IENet^[2],在原有的水平框回归方法的基础上利用一种基于自注意力机制的特征图交互作用模块来引导方向的预测，从而实现了对旋转目标的检测。IENet巧妙地利用自注意力机制来引导方向的预测，解决了目标方向多变的问题，但是遥感图像大都包含大量的背景噪声干扰以及背景杂波，IENet并没有考虑，因此效果欠佳，同时IENet对于一些狭长的目标并没有相应的应对措施，导致检测准确率不高。

Xiao等人^[3]提出了一种光学遥感图像中的基于轴学习的密集预测检测网络，通过预测目标框内的像素点到目标包围框的轴两端的距离以及与轴垂直的包围框的宽度来实现旋转目标框的定位，同时设计了一种全新的宽高比感知方向Centerness来更好地权衡正样本的质量并且引导网络从复杂的背景中提取出更有辨别力的特征，显著提高了网络对大长宽比目标的检测效果。这种基于轴学习的密集预测检测网络虽然对于目标的长宽比以及目标的旋转方向都有一定的设计但是并没有利用注意力机制进一步深挖目标空间上的上下文关系，网络的检测效果有待进一步提升。

参考文献：

[1]Tian Z,Shen C,Chen H,et al.Fcos:Fully convolutional one-stageobject detection[C].In Proceedings of the IEEE/CVF internat ional conferenceon computer vision.2019:9627–9636.

[2]Lin Y,Feng P,Guan J,et al.IENet:Interacting embranchment one stageanchor free detector for orientation aerial object detection[J].arXivpreprint arXiv:1912.00969.2019.

[3]Xiao Z,Qian L,Shao W,et al.Axis learning for orientated objectsdetection in aerial images[J].Remote Sensing.2020,12(6):908.

[4]Wang X,Girshick R,Gupta A,et al.Non-local neural networks[C].InPro-ceedings of the IEEE conference on computer vision and patternrecognition.2018:7794–7803.

[5]Jiang Y,Zhu X,Wang X,et al.R2cnn:rotational region cnn fororientation robust scene text detection[J].arXiv preprint arXiv:1706.09579.2017.

[6]Zinkevich M,Weimer M,Smola A J,et al.Parallelized stochasticgradient descent[C].NIPS.2010,4(1):4.

[7]Liu Z,Wang H,Weng L,et al.Ship rotated bounding box space for shipextraction from high-resolution optical satellite images with complexbackgrounds[J].IEEE Geoscience and Remote Sensing Letters.2016,13(8):1074–1078.

[8]Sutskever I,Martens J,Dahl G,et al.On the importance ofinitialization and momentum in deep learning[C].International conference onmachine learning.PMLR,2013:1139-1147.

[9]Jiang Y,Zhu X,Wang X,et al.R2cnn:rotational region cnn fororientation robust scene text detection[J].arXiv preprint arXiv:1706.09579.2017.

[10]Liu Z,Yuan L,Weng L,et al.A high resolution optical satelliteimage dataset for ship recognition and some new baselines[C].In Internationalconference on pattern recognition applications and methods.2017:324–331.

[11]Ma J,Shao W,Ye H,et al.Arbitrary-oriented scene text detectionvia rotation proposals[J].IEEE Transactions on Multimedia.2018,20(11):3111–3122.

[12]Yang X,Liu Q,Yan J,et al.R3det:Refined single-stage detector withfeature refinement for rotating object[J].arXiv preprint arXiv:1908.05612.2019,2(4).

[13]Zhang X,Wang G,Zhu P,et al.GRS-Det:An anchor-free rotation shipdetector based on Gaussian-mask in remote sensing images[J].IEEE Transactionson Geoscience and Remote Sensing.2020,59(4):3518–3531.

[14]Liu S,Zhang L,Lu H,et al.Center-Boundary Dual Attention forOriented Ob-ject Detection in Remote Sensing Images[J].IEEE Transactions onGeoscience and Re-mote Sensing.2021.

[15]Yu F,Wang D,Shelhamer E,et al.Deep layer aggregation[C].InProceedings of the IEEE conference on computer vision and patternrecognition.2018:2403–2412.

[16]He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[C].In Proceedings of the IEEE conference on computer vision andpattern recognition.2016:770–778.

发明内容

针对现有技术的不足，本发明旨在提供一种精确定位的光学遥感目标检测方法增强关键特征并抑制无关的噪声特征，优化特征表达同时提升了模型的抗干扰能力；针对目标方向多变的旋转特性，利用定向的旋转包围框对目标进行检测；提高了模型对大长宽比目标的检测效果。

为了实现上述目的，本发明采用如下技术方案：

一种精确定位的光学遥感目标检测方法，具体过程为：

S1、读入光学遥感图像数据集，将数据集划分为训练集和测试集，并进行数据增强处理；

S2、建立具有ResNet残差网络、特征金字塔网络Feature Pyramid Network、空间注意力模块Spatial Attention Refinement以及预测头Prediction Head的注意力特征优化旋转目标检测网络；

所述注意力特征优化旋转目标检测网络中，采用ResNet残差网络以及特征金字塔网络来提取光学遥感图像中的深度特征，同时特征金字塔网络捕捉光学遥感图像中多尺度分布的目标；

特征金字塔网络输出的特征图将会被送入在空间注意力模块；空间注意力模块采用非局部空间注意力机制；所述非局部空间注意力机制进行空间范围上特征的优化，通过全局上下文信息来增强关键有效的特征同时抑制无效特征，消除背景噪声的干扰，最后生成优化过的特征图{A_j}；这些多尺度的特征图被送进预测头网络中进行分类与定位；

S3、利用划分好的训练集及其对应的真值标签对步骤S2中所建立的注意力特征优化旋转目标检测网络进行相应的训练并调整参数，直到训练达到预设的epoch,最后保留相应的参数与训练好的网络；

S4、利用步骤S3得到的训练好的注意力特征优化旋转目标检测网络对相应的测试集进行测试并记录光学遥感图像旋转目标检测性能结果。

进一步地，步骤S1的具体过程为：

S1.1、按照设定的比例将数据集划分为训练集、验证集以及测试集；

S1.2、利用数据增强的常用方法将数据集进行增强处理，主要包括随机旋转、高斯模糊化、随机裁剪、随机镜像变换；

S1.3、将数据集的输入图像的尺寸修改为统一的要求的尺寸。

进一步地，步骤S2中，{C_i}代表ResNet残差网络中的多尺度特征图，其中特征图C_i的总步长为2ⁱ，特征图C_i的分辨率为原始图像分辨率W×H的1/2ⁱ；ResNet残差网络通过由上至下的路径连接将高层的特征图与低层的特征图进行融合；特征金字塔网络输出的各个特征图{P_j}用于进行多尺度特征的检测，特征图P_j的总步长为2^j，特征图P_j的分辨率为原图分辨率W×H的1/2^j。

进一步地，预测头网络为多尺度回归头，所述多尺度回归头主要包含分类子网络与定位子网络；分类子网络用于进行类别的预测，其输出的通道数为数据集中的类别数C；定位子网络的输出包含两部分，其中六通道的输出用来预测目标包围框的六个参数量(t,b,l,r,d,f)，另一个通道数为1的输出用于预测长宽比引导中心度，其中的长宽比引导中心度用于抑制远离目标中心点的低质量样本同时减缓大长宽比目标中心度变化剧烈的现象；所有的多尺度回归头的权重均共享。

进一步地，预测头网络中，将FCOS里的水平包围框通过添加两个额外的参数来过渡到定向包围框：用内部的包围框代表目标数据集中标注的定向包围框样式，其上下左右四个顶点的坐标(x_t,y_t)、(x_b,y_b)、(x_l,y_l)、(x_r,y_r)来表示，用外部的矩形框代表定向包围框的外接水平包围框，用六条线段表示回归的定向包围框六参数(t,b,l,r,d,f)，这六个参数的具体计算方式如下：

t＝y_t-y,b＝y-y_b,

l＝x-x_l,r＝x_r-x,

d＝y_l-y_b,f＝x_t-x_r. (1)

其中(x,y)代表目标内的正样本回归点；采用逐像素预测的方式进行像素级别的目标预测，对于特征金字塔网络输出的特征图{P_j}上的某个像素点(x,y)，其横纵坐标分别位于(0,W/2^j-1)与(0,H/2^j-1)之间；像素点(x,y)映射回原图的点的坐标可以通过以下公式求得：

基于锚框的目标检测算法通过计算预测到的包围框与真值包围框之间的IoU的大小判断该框是否为真样本框，真样本点的判断方法为：如果特征金字塔网络的特征图的某点(x,y)映射回原图的点的坐标位于某个类别的目标的定向包围框内，同时原图的点位于距中心点半径为{r＝1.25×2^j}的范围内，则该点被当作正样本点并进行分类与定位预测，否则该点为负样本；同时考虑到某像素点可能位于多个目标的包围框之内，选择面积最小的包围框作为回归目标；对于一个正样本，其分类的回归目标为目标的类别c，其特征金字塔网络中各层特征图的有关定位的回归目标计算如下：

其中j代表特征图对应的层数；采取标准化的值回归目标包围框的六个参数量(t,b,l,r,d,f)。

进一步地，空间注意力模块的具体结构包括Con 3×1、Con 1×3以及Con 3×3，Con 3×1、Con 1×3以及Con 3×3分别表示卷积核为3×1、1×3和3×3的卷积操作，Reshape表示python常用的改变维度操作，Transpose表示矩阵的转置，Softmax表示软最大值函数，Element-wise summation表示逐元素相加，Maxtrix multiplication表示矩阵的相乘；用来表示空间注意力模块输入的特征图；

特征金字塔网络输入的特征图分别送入卷积核为1×3和3×1的卷积并生成两个特征图P^3×1,其中r设为4；然后两个特征图P^3×1和P^3×1的尺寸将会被Reshape成的大小；此外特征图P^3×1还会进行一个Transpose操作使得输出的特征图的尺寸为/>接下来将获得的P^3×1和P^3×1进行逐位置矩阵相乘操作以融合两个特征图上的信息，并通过软最大值softmax函数得到归一化后的特征图/>

其中m_i,j用来评估i^th位置上的特征点在j^th位置特征的影响；

此外，将特征金字塔网络输入的多尺度的特征图P输入一个3×3的卷积单元以获得优化过的同尺寸特征图P^3×3，然后将此特征图Reshape成的特征图，并将输出的特征图P^3×3与上述的特征图M进行逐元素矩阵相乘操作并生成特征图F，最后将F的尺寸Reshape成/>的大小；经过以上操作之后，输出的全局优化后的特征图O可以通过F与给定的特征金字塔网络输入的特征图P之间的逐元素相加操作完成，具体计算公式如下：

其中变量δ的初始值为0并且是一个用来平衡原图特征以及经过非局部优化后的特征之间权重的可学习的量。

更进一步地，长宽比引导中心度由两部分组成，其中一部分是FCOS中原有的中心度，目标框内的某点到四个边界的距离由{t,b,l,r}修改为{O1,O2,O3,O₄}；另一部分则是包含长宽比信息的引导因子；长宽比引导中心度ARG-Centerness的具体计算公式如下:

其中公式(7)中右边部分代表中心度的定向包围框形式，左边部分根号内代表定向包围框的长宽比，采用六参数(t,b,l,r,d,f)中的四个参数来表示，由于此值大于等于1，对此值求均方根来防止此值过大；将长宽比引导中心度限制在0到1之间，将所有目标中长宽比最大值定义为1，其他目标的长宽比与其的比值作为长宽比最终的值；在网络训练时，所有的分类以及回归损失将会乘以ARG-Centerness，同时在网络进行预测时，分类置信度将会乘以ARG-Centerness作为最后的检测得分，当两者相乘得到的检测得分大于0.05时，该像素点被判定为正样本，否则为负样本；最后通过旋转非极大值抑制算法操作来抑制冗余的样本。

进一步地，步骤S3中，训练时，损失函数主要包括三部分：分类损失、回归损失以及ARG-Centerness损失，只有正样本才会计算回归损失以及ARG-Centerness损失，而分类损失则是针对特征图上的所有像素点，总体的训练损失计算如下：

其中N_pos代表真值框中正样本的数量，λ以及μ是损失平衡因子，1_{positive}是正负样本指示因子，当某像素点为正样本时取1，反之取0；L_reg表示定向包围框有关定位方面的回归量；采用Smooth L1函数作为预测量与真值之间的回归损失函数，L_reg的具体表达式如下：

其中{u_i,i＝t,b,l,r,d,f}代表定向目标框的位置回归目标，代表对应的预测值；

L_cls代表目标分类损失，采用适用于目标检测的焦点损失(Focal Loss)函数来训练，L_cls的具体计算表达式如下：

其中N_c代表数据集中目标类别的数量，p_c代表预测的经过Sigmoid函数处理后的类别预测值，α以及γ是焦点损失(Focal Loss)的两个关键的超参数；1_{label＝c}表示当真值类别标签为c是此值取1，反之取0；

L_ARG-Center代表ARG-Centerness回归损失，采用二值交叉熵损失对其进行训练，具体计算表达式如下：

L_ARG-Center＝-y·log(p)-(1-y)·log(1-p) (11)

其中p代表预测的ARG-Centerness，y代表ARG-Centerness的真值；根据损失函数的变化对训练过程中的参数进行相应的调整。

本发明的有益效果在于：

1)本发明通过一个非局部空间注意力机制将特征金字塔网络输出的多尺度特征进行优化，利用非局部空间上下文关联注意力突出关键特征并抑制噪声，将目标与背景区分开来；

2)本发明将目标长宽比引入中心度中，有效抑制了低质量的正样本像素点并提高了模型对大长宽比目标的检测精度；

3)本发明针对遥感旋转目标的方向多变的特性，将四参数水平框表示方法扩展为六参数的旋转框表示方法，实现了定向包围框的检测。

附图说明

图1为本发明实施例1的方法流程示意图；

图2为本发明实施例1的基于注意力优化的光学遥感旋转目标检测框架示意图；

图3为本发明实施例1的定向包围框示意图；

图4为本发明实施例1的非局部空间注意力模块示意图；

图5为本发明实施例2中HRSC2016数据集上实施例1方法的检测结果示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

实施例1

本实施例在充分分析光学遥感图像旋转目标特性的基础上，借鉴深度卷积神经网络，利用人类视觉注意力机制对特征进行优化，构建出的基于注意力特征优化的光学遥感图像旋转目标检测网络。

具体地，本实施例提供的一种精确定位的光学遥感目标检测方法，如图1所示，包括如下步骤：

S2、建立具有ResNet残差网络、特征金字塔网络Feature Pyramid Network、空间注意力模块Spat ial Attent ion Refinement以及预测头Prediction Head的注意力特征优化旋转目标检测网络；ResNet残差网络为骨干网络Backbone Network。

在本实施例中，步骤S1的具体过程为：

S1.3、将数据集的输入图像的尺寸修改为统一的要求的尺寸。

在本实施例中，步骤S2的具体过程为：

本实施例方法中提出的注意力特征优化旋转目标检测网络的总体结构如图2所示。

首先采用ResNet残差网络以及特征金字塔网络(Feature Pyramid Network,FPN)来提取光学遥感图像中的深度特征，同时特征金字塔网络也可以有效地捕捉光学遥感图像中多尺度分布的目标。在图2中，{C_i,i∈(3,4,5)}代表ResNet残差网络中的多尺度特征图，其中特征图C_i的总步长为2ⁱ，特征图C_i的分辨率为原始图像分辨率W×H的1/2ⁱ。ResNet残差网络通过由上至下的路径连接将高层的特征图与低层的特征图进行连接融合，弥补了高层特征图像细节信息不足以及低层特征语义信息不足的缺点。特征金字塔网络输出的各个特征图{P_j,j∈(3,4,5,6,7)}用于进行多尺度特征的检测，特征图P_j的总步长为2^j，特征图P_j的分辨率为原图分辨率W×H的1/2^j。

特征金字塔网络输出的特征图将会被送入在空间注意力模块。本实施例的空间注意力模块采用非局部空间注意力(Non-Local Spatial Attention,NLSA)机制。非局部空间注意力机制进行空间范围上特征的优化，通过全局上下文信息来增强关键有效的特征同时抑制无效特征，消除背景噪声的干扰，最后生成优化过的特征图{A_j,j∈(3,4,5,6,7)}。这些多尺度的特征图被送进预测头网络中进行分类与定位。

本实施例中，预测头网络为多尺度回归头(Regression Head)，所述多尺度回归头主要包含分类子网络与定位子网络；分类子网络用于进行类别的预测，其输出的通道数为数据集中的类别数C；定位子网络的输出包含两部分，其中六通道的输出用来预测目标包围框的六个参数量(t,b,l,r,d,f)，另一个通道数为1的输出用于预测长宽比引导中心度(Aspect-Ratio Guided Centerness,ARG-Centeness)。其中的长宽比引导中心度可以用于抑制远离目标中心点的低质量样本同时减缓大长宽比目标中心度变化剧烈的现象。所有的多尺度回归头的权重均共享，使网络可以更好地学习到多尺度特征。

如图3所示，预测头网络中，将FCOS里的水平包围框通过添加两个额外的参数来过渡到定向包围框。具体而言，在图3中，内部的包围框代表目标数据集中标注的定向包围框样式，用上下左右四个顶点的坐标(x_t,y_t)、(x_b,y_b)、(x_l,y_l)、(x_r,y_r)来表示，外部的矩形框代表定向包围框的外接水平包围框，带箭头的六条线段表示回归的定向包围框六参数(t,b,l,r,d,f)，这六个参数的具体计算方式如下：

t＝y_t-y,b＝y-y_b,

l＝x-x_l,r＝x_r-x,

d＝y_l-y_b,f＝x_t-x_r. (1)

其中(x,y)代表目标内的正样本回归点。采用逐像素预测的方式进行像素级别的目标预测，对于特征金字塔网络输出的特征图{P_j,j∈(3,4,5,6,7)}上的某个像素点(x,y)，其横纵坐标分别位于(0,W/2^j-1)与(0,H/2^j-1)之间。像素点(x,y)映射回原始图像的点的坐标可以通过以下公式求得：

基于锚框的目标检测算法通过计算预测到的包围框与真值包围框之间的IoU的大小判断该框是否为真样本框，而这种基于逐像素点预测的检测算法则是不同于基于锚框的IoU判断方法。其真样本点的判断方法为：如果特征金字塔网络的特征图的某点(x,y)映射回原图的点的坐标位于某个类别的目标的定向包围框内，同时原图的点/>位于距中心点半径为{r＝1.25×2^j,j＝3,4,5,6,7}的范围内，则该点被当作正样本点并进行分类与定位预测，否则该点为负样本。同时考虑到某像素点可能位于多个目标的包围框之内，本实施例方法只会选择面积最小的包围框作为回归目标。对于一个正样本，其分类的回归目标为目标的类别c，其特征金字塔网络中各层特征图的有关定位的回归目标计算如下：

其中{j∈(3,4,5,6,7)}代表特征图对应的层数。本实施例方法并没有直接回归目标包围框的六个参数量(t,b,l,r,d,f)，而是采取标准化的值进行回归，使得模型在进行回归预测时整个网络的训练更加稳定、易于收敛。

以下对空间注意力模块进行进一步的描述。光学遥感图像中的目标往往具有相对复杂的背景，图像中存在大量的背景噪声，同时光学遥感图像中的许多目标之间往往有聚集的特点，多个目标之间往往存在一定的上下文联系。针对图像之间的全局上下文联系，文献^[4]设计了一种非局部神经网络(Non-Local Neural Network,NLNN)。受此网络的启发，本实施例方法针对光学遥感图像中的目标提出了一种非局部空间注意力(Non-LocalSpatial Attention,NLSA)机制来加强特征之间的上下文联系并抑制背景噪声特征的干扰。非局部空间注意力模块的具体结构如图4所示。图4中的Con 3×1、Con 1×3以及Con 3×3分别表示卷积核为3×1、1×3和3×3的卷积操作，Reshape表示python常用的改变维度操作，Transpose表示矩阵的转置，Softmax表示软最大值函数，Element-wise summation表示逐元素相加，Maxtrix mul t ipl icat ion表示矩阵的相乘。为了方便表示，本实施方法用来表示非局部空间注意力模块输入的特征图。首先本实施例方法将输入的特征图分别送入卷积核为1×3和3×1的卷积并生成两个特征图P^3×1,/>其中r在本实施例方法中设为4。然后特征图P^3×1和P^3×1的尺寸将会被Reshape成/>的大小。此外特征图P^3×1还会进行一个Transpose操作使得输出的特征图的尺寸为/>接下来将获得的P^3×1和P^3×1进行逐位置矩阵相乘(Matr ix Mul t ipl icat ion)操作以融合两个特征图上的信息，并通过软最大值softmax函数得到归一化后的特征图/>

其中m_i,j用来评估i^th位置上的特征点在j^th位置特征的影响。

此外，将特征金字塔网络输入的多尺度的特征图P输入一个3×3的卷积单元以获得优化过的同尺寸特征图P^3×3，然后将此特征图Reshape成的特征图，并将输出的特征图P^3×3与上述的特征图M进行逐元素矩阵相乘操作并生成特征图F，最后将F的尺寸Reshape成/>的大小。经过以上操作之后，输出的全局优化后的特征图O可以通过F与给定的特征金字塔网络输入的特征图P之间的逐元素相加操作完成，具体计算公式如下：

其中变量δ的初始值为0并且是一个用来平衡原图特征以及经过非局部优化后的特征之间权重的可学习的量。值得注意的是本实施例方法采用的1×3、3×1和3×1卷积这样非对称的卷积来对输入的特征图初步处理，主要考虑到非对称的卷积可以消除目标旋转的失真，提高模型对目标旋转的鲁棒性。通过这样一个非局部上下文信息交互与融合有效地增强了远距离的空间上下文联系并提高了关键特征的表达，同时抑制了无效的特征，消除了背景噪声的干扰，有效提高了特征的表达能力。本实施例方法将这种空间上的非局部注意力模块用在了特征金字塔网络(Feature Pyramid Network,FPN)之后，对特征进行优化并将优化后的特征图输入后续的预测头网络进行目标的分类与定位。

需要说明的是，基于锚框机制的目标检测算法主要通过预测框与真值框之间的IoU的大小来过滤掉低质量的预测框，而基于无锚机制的目标检测算法则可能会产生大量的低质量的正样本，从而降低检测的精度。FCOS检测网络为了解决以上问题提出了一种中心度(Centerness)的正样本权重评判方法，其具体的计算公式如下：

一般来说位于中心点附近的正样本相较于目标边缘的正样本的中心度更接近于1，样本的质量更高，也更加重要，因此FCOS中的分类得分将会乘以中心度作为最终的检测得分。然而对于光学遥感图像中大长宽比的目标而言，目标内各个像素点的中心度的值从中心到边缘将会变化剧烈，不利于网络的学习，因此本实施例方法提出了一种长宽比引导的中心度(Aspect-Ratio Guided Centerness,ARG-Centerness)，该中心度主要由两部分组成，其中一部分是FCOS中原有的中心度，但是由于本实施例方法采用的是定向包围框，因此目标框内的某点到四个边界的距离由{t,b,l,r}修改为{O1,O2,O3,O₄}。另一部分则是包含长宽比信息的引导因子。ARG-Centerness的具体计算公式如下:

其中公式(7)中右边部分代表中心度的定向包围框形式，左边部分根号内代表定向包围框的长宽比，本实施例方法采用六参数(t,b,l,r,d,f)中的四个参数来表示，由于此值大于等于1，本实施例方法对此值求均方根来防止此值过大。同时本实施例方法会将ARG-Centerness限制在0到1之间，将所有目标中长宽比最大值定义为1，其他目标的长宽比与其的比值作为长宽比最终的值。在网络训练时，所有的分类以及回归损失将会乘以ARG-Centerness，同时在网络进行预测时，分类置信度将会乘以ARG-Centerness作为最后的检测得分，当两者相乘得到的检测得分大于0.05时，该像素点被判定为正样本，否则为负样本。最后会通过旋转非极大值抑制算法(Rotated Non-Maximum Suppression,R-NMS)^[5]操作来抑制冗余的样本。

本实施例方法中，训练的过程中，损失函数主要包括三部分：分类损失、回归损失以及ARG-Centerness损失，只有正样本才会计算回归损失以及ARG-Centerness损失，而分类损失则是针对特征图上的所有像素点，总体的训练损失计算如下：

其中N_pos代表真值框中正样本的数量，λ以及μ是损失平衡因子，1_{positive}是正负样本指示因子，当某像素点为正样本时取1，反之取0。L_reg表示定向包围框有关定位方面的回归量，具体回归目标为公式(3)。本实施例方法采用Smooth L1函数作为预测量与真值之间的回归损失函数，L_reg的具体表达式如下：

其中{u_i,i＝t,b,l,r,d,f}代表定向目标框的位置回归目标，代表对应的预测值。

L_cls代表目标分类损失，本实施例方法采用适用于目标检测的焦点损失(FocalLoss)函数来训练，L_cls的具体计算表达式如下：

其中N_c代表数据集中目标类别的数量，p_c代表预测的经过Sigmoid函数处理后的类别预测值，α以及γ是焦点损失(Focal Loss)的两个关键的超参数。1_{label＝c}表示当真值类别标签为c是此值取1，反之取0。

L_ARG-Center代表ARG-Centerness回归损失，本实施例方法采用二值交叉熵损失对其进行训练，具体计算表达式如下：

L_ARG-Center＝-y·log(p)-(1-y)·log(1-p) (11)

其中p代表预测的ARG-Centerness，y代表ARG-Centerness的真值。根据损失函数的变化对训练过程中的参数进行相应的调整。

实施例2

本实施例旨在通过实验验证实施例1所述方法的性能。

1)模型测试细节

本实施例采用在ImageNet数据集上预训练过的ResNet-101^[16]网络作为骨干网络，回归的损失采用实施例1的损失函数，其中的超参数α、γ、λ以及μ分别取2，0.5，0.9以及1。本实施例方法采用随机梯度下降(Stochastic gradient descent,SGD)^[6]算法对网络进行训练及优化，在HRSC2016^[7]数据集上训练了200个epoch，其中HRSC2016是一个公开的光学遥感舰船数据集，是现在光学遥感旋转目标检测的主要的基准数据集。HRSC2016数据集均来源谷歌地图拍摄的世界上著名的六个港口，由1070幅图片组成，共包含2970个方向多变、尺寸不一、背景复杂的舰船目标。图片的分辨率介于300×300至1500×900之间。图片中舰船目标的长宽比较大，目标的平均长宽比能达到5左右。数据集中训练集、验证集以及测试集分别包含436、181和444张图片。在本实施例的实验中，训练集以及验证集均用来进行网络的训练。实验中初始学习率设为1×10^-3，动量(Momentum)^[8]设为0.95。在网络的预测阶段将最终检测得分高于0.05的样本选做正样本，同时采用门限为0.05的旋转非极大值抑制算法(Rotated Non-Maximum Suppression,R-NMS)进行后处理。具体的实验基础环境及配置见表1。

表1 实验基础环境及配置

2)评估标准

在实验中，采用平均精度(Average Precision,AP)来评价模型定向目标检测的精度，同时采用每秒帧率(Frames Per Second,FPS)来评价模型检测的速度。其中两个最基本的检测精度评价指标是准确率(Precision)与召回率(Recall)。准确率描述的是检测出来的真正样本数所占所有检测到的正样本数的比例，召回率描述的是检测到的真正样本所有正样本的比例，可由以下公式计算得到：

其中TP、FP以及FN分别代表检测到的真阳样本、假阳样本以及假阴样本的数量。结合目标检测到的准确率与召回率，可以计算出目标检测到的平均精度(AveragePrecision,AP)，具体计算方式如下：

P和R代表目标的检测准确率以及召回率。此外，对于目标检测的速度而言，采用每秒帧率(Frames Per Second,FPS)来评价，FPS代表每秒钟检测的图像的数量，是一种目标检测中常用的速度评价指标。

3)测试结果

本实施例在大型舰船数据集HRSC2016上进行了一定的对比实验。具体的对比结果见表2。

表2 HRSC2016数据集上本章方法与先进的舰船目标检测方法对比结果

实施例1方法与其他七种面向光学遥感图像舰船目标的检测器进行了对比，主要包括R²CNN^[9]、RC1&RC2^[10]、Axis^[3]、RRPN^[11]、R³Det^[12]、GRS-Det^[13]以及CBDA-Net^[14]这7种方法，本实施例将所有对照方法的输入图像的分辨率统一为800×800像素，因为不同分辨率的输入图像中包含的信息存在一定的差异，因此本实施例将所有输入图像的分辨率调整为一样以公平对比。通过表2的实验结果表明本实施例方法提出的方法在HRSC2016数据集上的检测平均精度(Average Precision,AP)达到了90.85％，高于实验中对照的其他7种性能优异的舰船检测算法。同时本算法的检测速度可以达到8.56FPS，仅仅低于采用了轻量的骨干网络ResNet-101以及DLA-34^[15]的GRS-Det^[13]以及CBDA-Net^[14]模型，同样具有一定的检测速度的优势。图5展示了本实施例在HRSC2016数据集上的部分检测结果，其中第一排的检测结果表明实施例1所述方法可以有效地捕捉大长宽比的舰船目标，第二排的检测结果表明本方法可以从具有复杂背景噪声的遥感图像中精确地定位舰船目标，证明了实施例1所述方法在大长宽比遥感旋转目标检测任务上表现优异。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种精确定位的光学遥感目标检测方法，其特征在于，具体过程为：

预测头网络为多尺度回归头，所述多尺度回归头主要包含分类子网络与定位子网络；分类子网络用于进行类别的预测，其输出的通道数为数据集中的类别数C；定位子网络的输出包含两部分，其中六通道的输出用来预测目标包围框的六个参数量(t,b,l,r,d,f)，另一个通道数为1的输出用于预测长宽比引导中心度，其中的长宽比引导中心度用于抑制远离目标中心点的低质量样本同时减缓大长宽比目标中心度变化剧烈的现象；所有的多尺度回归头的权重均共享；

2.根据权利要求1所述的方法，其特征在于，步骤S1的具体过程为：

S1.3、将数据集的输入图像的尺寸修改为统一的要求的尺寸。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，{C_i}代表ResNet残差网络中的多尺度特征图，其中特征图C_i的总步长为2ⁱ，特征图C_i的分辨率为原始图像分辨率W×H的1/2ⁱ；ResNet残差网络通过由上至下的路径连接将高层的特征图与低层的特征图进行连接融合；特征金字塔网络输出的各个特征图{P_j}用于进行多尺度特征的检测，特征图P_j的下采样的总步长为2^j，特征图P_j的分辨率为原图分辨率W×H的1/2^j。

4.根据权利要求1所述的方法，其特征在于，预测头网络中，将FCOS里的水平包围框通过添加两个额外的参数来过渡到定向包围框：用内部的包围框代表目标数据集中标注的定向包围框样式，其上下左右四个顶点的坐标(x_t,y_t)、(x_b,y_b)、(x_l,y_l)、(x_r,y_r)来表示，用外部的矩形框代表定向包围框的外接水平包围框，用六条线段表示回归的定向包围框六参数(t,b,l,r,d,f)，这六个参数的具体计算方式如下：

t＝y_t-y,b＝y-y_b,

l＝x-x_l,r＝x_r-x, (1)

d＝y_l-y_b,f＝x_t-x_r.

基于锚框的目标检测算法通过计算预测到的包围框与真值包围框之间的IoU的大小判断该框是否为真样本框，真样本点的判断方法为：如果特征金字塔网络的特征图的某点(x,y)映射回原图的点的坐标位于某个类别的目标的定向包围框内，同时原图的点/>位于距中心点半径为{r＝1.25×2^j}的范围内，则该点被当作正样本点并进行分类与定位预测，否则该点为负样本；同时考虑到某像素点可能位于多个目标的包围框之内，选择面积最小的包围框作为回归目标；对于一个正样本，其分类的回归目标为目标的类别c，其特征金字塔网络中各层特征图的有关定位的回归目标计算如下：

5.根据权利要求1所述的方法，其特征在于，空间注意力模块的具体结构包括Con 3×1、Con 1×3以及Con 3×3，Con 3×1、Con1×3以及Con 3×3分别表示卷积核为3×1、1×3和3×3的卷积操作，Reshape表示python常用的改变维度操作，Transpose表示矩阵的转置，Softmax表示软最大值函数，Element-wise summation表示逐元素相加，Maxtrixmultiplication表示矩阵的相乘；用来表示空间注意力模块输入的特征图；

特征金字塔网络输入的特征图分别送入卷积核为1×3和3×1的卷积并生成两个特征图其中r设为4；然后两个特征图P^3×1和P^3×1的尺寸将会被Reshape成的大小；此外特征图P^3×1还会进行一个Transpose操作使得输出的特征图的尺寸为/>接下来将获得的P^3×1和P^3×1进行逐位置矩阵相乘操作以融合两个特征图上的信息，并通过软最大值Softmax函数得到归一化后的特征图/>

其中m_i,j用来评估i^th位置上的特征点在j^th位置特征的影响；

6.根据权利要求1所述的方法，其特征在于，长宽比引导中心度由两部分组成，其中一部分是FCOS中原有的中心度，目标框内的某点到四个边界的距离由{t,b,l,r}修改为{O₁,O₂,O₃,O₄}；另一部分则是包含长宽比信息的引导因子；长宽比引导中心度ARG-Centerness的具体计算公式如下:

7.根据权利要求1所述的方法，其特征在于，步骤S3中，训练时，损失函数主要包括三部分：分类损失、回归损失以及ARG-Centerness损失，只有正样本才会计算回归损失以及ARG-Centerness损失，而分类损失则是针对特征图上的所有像素点，总体的训练损失计算如下：

L_ARG-Center＝-y·log(p)-(1-y)·log(1-p) (11)