CN117710827A

CN117710827A - 基于改进RetinaNet的遥感图像目标检测模型

Info

Publication number: CN117710827A
Application number: CN202410169692.6A
Authority: CN
Inventors: 刘伟; 康紫文; 程路; 郑宇超; 周庆忠; 于洋
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15

Abstract

本发明提供一种基于改进RetinaNet的遥感图像目标检测模型，本发明引入了改进的下采样模块，将其嵌入到RetinaNet骨干网络中，融合三种下采样方法对提取到的特征来生成下采样图像特征，增强模型捕获复杂细节的能力，利用核选择模块的卷积核选择机制动态选择空间感受野，增强模型提取并融合多尺度特征信息的能力，进而对多尺度的信息进行建模，最后得到目标物体的分类和回归结果，实验结果表明，本发明的模型在大规模遥感图像目标检测数据集DOTA上的全类平均准确率优于传统的RetinaNet目标检测模型，能够更精确地检测遥感目标。

Description

基于改进RetinaNet的遥感图像目标检测模型

技术领域

本发明涉及目标检测技术领域，特别是涉及一种基于改进RetinaNet的遥感图像目标检测模型。

背景技术

遥感图像目标检测是一种高分辨率图像内容解析中的关键任务，旨在精确识别与定位遥感图像中的特定目标物体，如车辆、船舶及飞机等。这一技术在高精度遥感图像智能分析领域具有举足轻重的地位，并广泛应用于智能交通、城市规划以及地理信息系统更新等多个领域。

近年来，深度学习的飞速发展在通用目标检测领域取得了显著的进步。然而，在遥感图像分析这一特定领域，由于遥感图像具有目标小而密集、尺度变化大且以任意方向分布等特点，通用目标检测器，例如传统的RetinaNet目标检测模型，直接应用于遥感图像时检测效果不佳。

发明内容

本发明的目的在于提供一种基于改进RetinaNet的遥感图像目标检测模型，针对遥感图像具有目标小而密集、尺度变化大且以任意方向分布的特点，提高在遥感图像上的目标检测能力。

一种基于改进RetinaNet的遥感图像目标检测模型，包括RetinaNet骨干网络、特征金字塔和分类回归子网，在所述RetinaNet骨干网络中引入改进的下采样模块，所述模型还包括核选择模块；

所述骨干网络在进行残差学习时采用所述改进的下采样模块进行下采样，所述改进的下采样模块将输入的图像特征P复制为图像特征P₁和图像特征P₂，其中，P∈R ^H×W×C，R表示实数，W、H和C分别表示图像特征的宽度、高度和通道数量，所述改进的下采样模块对图像特征P₁进行切片下采样，经过切片处理得到四个空间下采样后的图像特征C₁、C₂、C₃和C₄，切片下采样的过程，在通道维度，拼接图像特征C₁、C₂、C₃和C₄，得到新的图像特征，经过拼接，使图像特征P₁的通道数量由C增加到4C，接着，再使用步长为1的1×1卷积运算将新的图像特征的通道数量压缩为2C，得到图像特征Q₁；

所述改进的下采样模块对图像特征P₂采用两个分支进行处理，在其中一个分支，使用步长为1、尺寸为3×3的分组卷积GConv处理，然后使用步长为2的3×3卷积进行下采样，并使用GELU激活函数和归一化层，得到图像特征Q₂；在另一个分支上，使用步长为1、尺寸为3×3的分组卷积GConv处理，并做最大池化和归一化处理，得到图像特征Q₃；

在通道方向上拼接图像特征Q₁、Q₂和Q₃，并在拼接结果上使用1×1卷积层，得到图像特征；

所述核选择模块根据输入图像的特性动态选择多种不同的卷积核融合特征。

根据本发明提供的基于改进RetinaNet的遥感图像目标检测模型，引入了改进的下采样模块，将其嵌入到RetinaNet骨干网络中，融合三种下采样方法对提取到的特征来生成下采样图像特征，增强模型捕获复杂细节的能力，利用核选择模块的卷积核选择机制动态选择空间感受野，增强模型提取并融合多尺度特征信息的能力，进而对多尺度的信息进行建模，最后得到目标物体的分类和回归结果，实验结果表明，本发明的模型在大规模遥感图像目标检测数据集DOTA上的全类平均准确率优于传统的RetinaNet目标检测模型，能够更精确地检测遥感目标。

附图说明

图1为本发明中ResNet50网络的结构示意图；

图2为本发明中改进的下采样模块进行下采样过程的示意图；

图3为切片下采样的过程示意图；

图4为核选择模块的工作原理示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供一种基于改进RetinaNet的遥感图像目标检测模型，包括RetinaNet骨干网络、特征金字塔和分类回归子网，本发明在所述RetinaNet骨干网络中引入改进的下采样模块，增强模型捕获复杂细节的能力，此外，所述模型还包括核选择模块，用于增强网络提取并融合多尺度特征信息的能力。

在遥感图像中，目标尺度变化较大，且小目标的数量占比很高，传统的RetinaNet目标检测模型采用的下采样方法主要依靠卷积层进行，这可能会导致一些关键的语义信息被遗漏，同时难以充分挖掘和保留细粒度的特征信息。为解决这一问题，本发明引入了一种改进的下采样模块(Improved Downsampling Module，简称IDM)，以ResNet50网络为例，改进的下采样模块在网络中的位置如图1所示，在ResNet50网络的每个瓶颈构建块的输入或输出位置添加一个IDM。

ResNet50网络包括一系列堆叠的残差块，每个残差块包含多个卷积层和恒等映射，在进行残差学习时采用IDM进行下采样，下采样过程如图2所示。本发明使用三个分支对输入的特征进行处理，实现了多尺度特征的提取与融合，增强了特征的表示能力，从而减少了模型在小目标检测时的细节丢失。

具体的，所述骨干网络在进行残差学习时采用所述改进的下采样模块进行下采样，所述改进的下采样模块将输入的图像特征P复制为图像特征P₁和图像特征P₂，其中，P∈R ^H×W×C，R表示实数，W、H和C分别表示图像特征的宽度、高度和通道数量，所述改进的下采样模块对图像特征P₁进行切片下采样，经过切片处理得到四个空间下采样后的图像特征C₁、C₂、C₃和C₄，切片下采样的过程如图3所示，图3中，x ₁₁、x ₁₂、x ₁₃、x ₁₄、x ₂₁、x ₂₂、x ₂₃、x ₂₄、x ₃₁、x ₃₂、x ₃₃、x ₃₄、x ₄₁、x ₄₂、x ₄₃、x ₄₄、x _(H)(W)、x _(H-1)(W-1)、x _(H-1)(W)、x _(H)(W-1)分别表示图像特征P₁在空间位置（1, 1）、（1, 2）、（1, 3）、（1, 4）、（2, 1）、（2, 2）、（2, 3）、（2, 4）、（3, 1）、（3, 2）、（3, 3）、（3, 4）、（4, 1）、（4, 2）、（4, 3）、（4, 4）、（H, W）、（H-1, W-1）、（H-1, W）、（H, W-1）的特征。

在通道维度，拼接图像特征C₁、C₂、C₃和C₄，得到新的图像特征，经过拼接，使图像特征P₁的通道数量由C增加到4C，接着，再使用步长为1的1×1卷积运算将新的图像特征的通道数量压缩为2C，得到图像特征Q₁，图像特征通道数的减半，可以使模型的计算量减小。

所述改进的下采样模块对图像特征P₂采用两个分支进行处理，在其中一个分支，使用步长为1、尺寸为3×3的分组卷积GConv处理，然后使用步长为2的3×3卷积进行下采样，并使用GELU激活函数和归一化层，得到图像特征Q₂；在另一个分支上，使用步长为1、尺寸为3×3的分组卷积GConv处理，并做最大池化和归一化处理，得到图像特征Q₃。

具体的，所述改进的下采样模块对图像特征P₁进行切片下采样的过程中，满足以下条件式：

Q₁=Conv(CutD(P₁))；

Q₂=GELU(BN(DWConvD(GConv(P₂))))；

Q₃=BN(MaxP(GConv(P₂))；

其中，式中，Conv、CutD、GELU、BN、DWConvD、GConv、MaxP分别表示卷积、切片处理、GELU激活函数、批量归一化、深度卷积、分组卷积和最大池化操作。

在通道方向上拼接图像特征Q₁、Q₂和Q₃，并在拼接结果上使用1×1卷积层，得到一组通道数翻倍、尺寸减半的图像特征。

图像特征满足以下条件式：

；

其中，Concat表示在通道方向上连接特征的操作。

此外，请参阅图4，为提高模型对不同尺度目标的检测能力，本发明采用了核选择模块，所述核选择模块根据输入图像的特性动态选择多种不同的卷积核融合特征，从而提高模型的表达能力。

在模型的检测任务头中，对于输入的图像特征K，所述核选择模块利用卷积核大小为3×3、5×5、7×7的三个空洞卷积来学习多尺度空间信息，得到三个不同尺度感受野的图像特征X₁、X₂、X₃，其中，X₁∈R ^H×W×C，X₂∈R ^H×W×C，X₃∈R ^H×W×C，接着，使用通道拼接融合X₁、X₂、X₃，得到图像特征X，并在通道方向上拼接图像特征X的平均池化和最大池化的结果，然后，相继使用卷积和Sigmoid函数获取独立的空间选择掩码，再使用空间选择掩码对X₁、X₂、X₃分别加权，分别得到图像特征F₁、F₂、F₃，最后，对F₁、F₂、F₃逐元素相加，得到带有注意力的融合特征，并将融合特征和输入的图像特征K进行逐元素相乘，获得图像特征。

其中，图像特征X₁、X₂、X₃满足以下条件式：

X₂=DWConv(X₁)；

X₃=DWConv(X₂)；

其中，DWConv表示空洞卷积。

图像特征满足以下条件式：

。

下面对本发明进行测试：

1、实验对象

选用DOTA数据集作为测试所用的对象，DOTA数据集是用于目标检测任务的大规模航拍图像公共数据集，由2806张大尺寸图像组成，包含了15类不同尺度、方向和形状的物体。DOTA数据集包含15个对象类别，包括飞机(PL)、棒球场(BD)、桥梁(BR)、田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储油罐(ST)、足球场(SBF)、环路(RA)、港口(HA)、游泳池(SP)和直升机(HC)。图像的分辨率在800×800到4 000×4 000之间。本发明以步幅200将图像裁剪成1 024×1 024大小。训练集和测试集分别包含21 046和10 833张图像。测试结果提交至DOTA评测服务器。

2、实验设置

实验使用一块显存为24GB的GeForce RTX3090的显卡训练和测试算法。训练的batch size和epoch分别设置为2和12使用SGD作为优化器，初始学习率和动量系数分别为0.0025和0.9。采用平均准确率（Average Precision，简称AP）和全类平均准确率（meanAverage Precision，简称mAP）作为检测评价指标。此外，使用Params（模型参数的总数）和Flops（浮点运算次数）衡量模型的计算复杂度和参数数量。

3、消融实验

本发明分析了不同下采样模块对模型的贡献。如表1所示。

表1 下采样模块的消融实验结果对比

由表1可知，各下采样策略可以使模型的精度得到不同程度的提升，同时使用这三种下采样策略，模型的mAP最高，性能最优。

此外，本发明也研究了核组成对实验结果的影响。大尺度感受野的特征图可以直接通过大型卷积核处理或者由多个小型空洞卷积核逐层处理这两种方式获得。如表2所示，当卷积运算后均得到感受野尺寸为29的特征图时，以三个小型空洞卷积核组合获得大尺度感受野特征图时，模型的计算复杂度最低，参数总量最少。

表2 不同核组成的实验结果对比

本发明也验证了核选择模块中融合特征的分支数对模型造成的影响。结果如表3所示，本发明在多种设置下融合不同尺度的感受野特征图。通过对比这些实验结果可以发现，采用3×3、5×5和7×7组合时，模型表现出最佳的性能。

表3 网络中不同卷积核设置的实验结果对比

4、对比实验

为了验证本发明的优越性，开展实验对比分析了本发明与其它遥感图像目标检测模型。如表4所示，本申请达到了71.63％的mAP，超过了现有技术中的模型。与基准模型相比，在大型车辆（LV）、船舶（SH）、海港（HA）、环岛（RA）等目标类别，关于AP指标的检测精度方面明显提高。实验结果表明，本发明提出的模型能够有效提升尺度变化大的物体的检测精度。

表4 不同在DOTA数据集上平均准确率和全类平均准确率对比

表4中，现有技术1为论文：Azimi S M，Vig E，Bahmanyar R，et al. Towardsmulticlass object detection in unconstrained remote sensing imagery[C]//Asianconference on computer vision. Ch-am： Springer International Publishing，2018： 150-165。现有技术2为论文：Lin T Y，Goyal P，Girshick R，et al. Focal Lossf--or Dense Object Detection. IEEE Transactions on Pattern Analysis&MachineIntelligence， 2017， PP(99)：2999-3007。现有技术3为论文：Yang X，Liu Q，Yan J，etal. R3Det： Refined Single Stage Detector with Feature Refinement for Rota-ting Object. 2019。现有技术4为论文：Ding，Jian，et al. "Learning RoI transformerfor oriented object detection in aerial images." Proceedings of the IEEE/CVFConference on Computer VisionandPattern Recognition. 2019。现有技术5为论文：Zhang G， Lu S， Zhang W. CAD-Net： A context-aware detection network forobjects in remote sensing imagery. IEEE Transactions on Geoscience and RemoteSensing，2019，57(12)：10015-10024。现有技术6为论文：Pan X，Ren Y，Sheng K，et al.Dynamic refinement network for oriented and densely packed object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. 2020：11207-11216。

此外，为了定性对比基线方法和本发明的效果，从数据集中随机挑选了4张图片，测试并可视化。结果显示，本发明在检测海港和小型车（SV）的效果明显优于基线模型，相比基线模型，本发明的模型能更加准确地定位识别海港、船舶、飞机等尺度变化大的目标，而基线模型则可能会出现漏检或误检。

综上，根据本发明提供的基于改进RetinaNet的遥感图像目标检测模型，引入了改进的下采样模块，将其嵌入到RetinaNet骨干网络中，融合三种下采样方法对提取到的特征来生成下采样图像特征，增强模型捕获复杂细节的能力，利用核选择模块的卷积核选择机制动态选择空间感受野，增强模型提取并融合多尺度特征信息的能力，进而对多尺度的信息进行建模，最后得到目标物体的分类和回归结果，实验结果表明，本发明的模型在大规模遥感图像目标检测数据集DOTA上的全类平均准确率优于传统的RetinaNet目标检测模型，能够更精确地检测遥感目标。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于改进RetinaNet的遥感图像目标检测模型，包括RetinaNet骨干网络、特征金字塔和分类回归子网，其特征在于，在所述RetinaNet骨干网络中引入改进的下采样模块，所述模型还包括核选择模块；

2.根据权利要求1所述的基于改进RetinaNet的遥感图像目标检测模型，其特征在于，所述改进的下采样模块对图像特征P₁进行切片下采样的过程中，满足以下条件式：

Q₁=Conv(CutD(P₁))；

Q₂=GELU(BN(DWConvD(GConv(P₂))))；

Q₃=BN(MaxP(GConv(P₂))；

3.根据权利要求2所述的基于改进RetinaNet的遥感图像目标检测模型，其特征在于，图像特征满足以下条件式：

；

其中，Concat表示在通道方向上连接特征的操作。

4.根据权利要求1所述的基于改进RetinaNet的遥感图像目标检测模型，其特征在于，在模型的检测任务头中，对于输入的图像特征K，所述核选择模块利用卷积核大小为3×3、5×5、7×7的三个空洞卷积来学习多尺度空间信息，得到三个不同尺度感受野的图像特征X₁、X₂、X₃，其中，X₁∈R ^H×W×C，X₂∈R ^H×W×C，X₃∈R ^H×W×C，接着，使用通道拼接融合X₁、X₂、X₃，得到图像特征X，并在通道方向上拼接图像特征X的平均池化和最大池化的结果，然后，相继使用卷积和Sigmoid函数获取独立的空间选择掩码，再使用空间选择掩码对X₁、X₂、X₃分别加权，分别得到图像特征F₁、F₂、F₃，最后，对F₁、F₂、F₃逐元素相加，得到带有注意力的融合特征，并将融合特征和输入的图像特征K进行逐元素相乘，获得图像特征。

5.根据权利要求4所述的基于改进RetinaNet的遥感图像目标检测模型，其特征在于，图像特征X₁、X₂、X₃满足以下条件式：

X₂=DWConv(X₁)；

X₃=DWConv(X₂)；

其中，DWConv表示空洞卷积。

6.根据权利要求4所述的基于改进RetinaNet的遥感图像目标检测模型，其特征在于，图像特征满足以下条件式：

。