CN117710827A - 基于改进RetinaNet的遥感图像目标检测模型 - Google Patents
基于改进RetinaNet的遥感图像目标检测模型 Download PDFInfo
- Publication number
- CN117710827A CN117710827A CN202410169692.6A CN202410169692A CN117710827A CN 117710827 A CN117710827 A CN 117710827A CN 202410169692 A CN202410169692 A CN 202410169692A CN 117710827 A CN117710827 A CN 117710827A
- Authority
- CN
- China
- Prior art keywords
- image
- improved
- remote sensing
- downsampling
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000007306 functionalization reaction Methods 0.000 claims description 3
- 101100329795 Desulfovibrio alaskensis (strain ATCC BAA 1058 / DSM 17464 / G20) cutD gene Proteins 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于改进RetinaNet的遥感图像目标检测模型,本发明引入了改进的下采样模块,将其嵌入到RetinaNet骨干网络中,融合三种下采样方法对提取到的特征来生成下采样图像特征,增强模型捕获复杂细节的能力,利用核选择模块的卷积核选择机制动态选择空间感受野,增强模型提取并融合多尺度特征信息的能力,进而对多尺度的信息进行建模,最后得到目标物体的分类和回归结果,实验结果表明,本发明的模型在大规模遥感图像目标检测数据集DOTA上的全类平均准确率优于传统的RetinaNet目标检测模型,能够更精确地检测遥感目标。
Description
技术领域
本发明涉及目标检测技术领域,特别是涉及一种基于改进RetinaNet的遥感图像目标检测模型。
背景技术
遥感图像目标检测是一种高分辨率图像内容解析中的关键任务,旨在精确识别与定位遥感图像中的特定目标物体,如车辆、船舶及飞机等。这一技术在高精度遥感图像智能分析领域具有举足轻重的地位,并广泛应用于智能交通、城市规划以及地理信息系统更新等多个领域。
近年来,深度学习的飞速发展在通用目标检测领域取得了显著的进步。然而,在遥感图像分析这一特定领域,由于遥感图像具有目标小而密集、尺度变化大且以任意方向分布等特点,通用目标检测器,例如传统的RetinaNet目标检测模型,直接应用于遥感图像时检测效果不佳。
发明内容
本发明的目的在于提供一种基于改进RetinaNet的遥感图像目标检测模型,针对遥感图像具有目标小而密集、尺度变化大且以任意方向分布的特点,提高在遥感图像上的目标检测能力。
一种基于改进RetinaNet的遥感图像目标检测模型,包括RetinaNet骨干网络、特征金字塔和分类回归子网,在所述RetinaNet骨干网络中引入改进的下采样模块,所述模型还包括核选择模块;
所述骨干网络在进行残差学习时采用所述改进的下采样模块进行下采样,所述改进的下采样模块将输入的图像特征P复制为图像特征P1和图像特征P2,其中,P∈R H×W×C,R表示实数,W、H和C分别表示图像特征的宽度、高度和通道数量,所述改进的下采样模块对图像特征P1进行切片下采样,经过切片处理得到四个空间下采样后的图像特征C1、C2、C3和C4,切片下采样的过程,在通道维度,拼接图像特征C1、C2、C3和C4,得到新的图像特征,经过拼接,使图像特征P1的通道数量由C增加到4C,接着,再使用步长为1的1×1卷积运算将新的图像特征的通道数量压缩为2C,得到图像特征Q1;
所述改进的下采样模块对图像特征P2采用两个分支进行处理,在其中一个分支,使用步长为1、尺寸为3×3的分组卷积GConv处理,然后使用步长为2的3×3卷积进行下采样,并使用GELU激活函数和归一化层,得到图像特征Q2;在另一个分支上,使用步长为1、尺寸为3×3的分组卷积GConv处理,并做最大池化和归一化处理,得到图像特征Q3;
在通道方向上拼接图像特征Q1、Q2和Q3,并在拼接结果上使用1×1卷积层,得到图像特征;
所述核选择模块根据输入图像的特性动态选择多种不同的卷积核融合特征。
根据本发明提供的基于改进RetinaNet的遥感图像目标检测模型,引入了改进的下采样模块,将其嵌入到RetinaNet骨干网络中,融合三种下采样方法对提取到的特征来生成下采样图像特征,增强模型捕获复杂细节的能力,利用核选择模块的卷积核选择机制动态选择空间感受野,增强模型提取并融合多尺度特征信息的能力,进而对多尺度的信息进行建模,最后得到目标物体的分类和回归结果,实验结果表明,本发明的模型在大规模遥感图像目标检测数据集DOTA上的全类平均准确率优于传统的RetinaNet目标检测模型,能够更精确地检测遥感目标。
附图说明
图1为本发明中ResNet50网络的结构示意图;
图2为本发明中改进的下采样模块进行下采样过程的示意图;
图3为切片下采样的过程示意图;
图4为核选择模块的工作原理示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供一种基于改进RetinaNet的遥感图像目标检测模型,包括RetinaNet骨干网络、特征金字塔和分类回归子网,本发明在所述RetinaNet骨干网络中引入改进的下采样模块,增强模型捕获复杂细节的能力,此外,所述模型还包括核选择模块,用于增强网络提取并融合多尺度特征信息的能力。
在遥感图像中,目标尺度变化较大,且小目标的数量占比很高,传统的RetinaNet目标检测模型采用的下采样方法主要依靠卷积层进行,这可能会导致一些关键的语义信息被遗漏,同时难以充分挖掘和保留细粒度的特征信息。为解决这一问题,本发明引入了一种改进的下采样模块(Improved Downsampling Module,简称IDM),以ResNet50网络为例,改进的下采样模块在网络中的位置如图1所示,在ResNet50网络的每个瓶颈构建块的输入或输出位置添加一个IDM。
ResNet50网络包括一系列堆叠的残差块,每个残差块包含多个卷积层和恒等映射,在进行残差学习时采用IDM进行下采样,下采样过程如图2所示。本发明使用三个分支对输入的特征进行处理,实现了多尺度特征的提取与融合,增强了特征的表示能力,从而减少了模型在小目标检测时的细节丢失。
具体的,所述骨干网络在进行残差学习时采用所述改进的下采样模块进行下采样,所述改进的下采样模块将输入的图像特征P复制为图像特征P1和图像特征P2,其中,P∈R H×W×C,R表示实数,W、H和C分别表示图像特征的宽度、高度和通道数量,所述改进的下采样模块对图像特征P1进行切片下采样,经过切片处理得到四个空间下采样后的图像特征C1、C2、C3和C4,切片下采样的过程如图3所示,图3中,x 11、x 12、x 13、x 14、x 21、x 22、x 23、x 24、x 31、x 32、x 33、x 34、x 41、x 42、x 43、x 44、x (H)(W)、x (H-1)(W-1)、x (H-1)(W)、x (H)(W-1)分别表示图像特征P1在空间位置(1, 1)、(1, 2)、(1, 3)、(1, 4)、(2, 1)、(2, 2)、(2, 3)、(2, 4)、(3, 1)、(3, 2)、(3, 3)、(3, 4)、(4, 1)、(4, 2)、(4, 3)、(4, 4)、(H, W)、(H-1, W-1)、(H-1, W)、(H, W-1)的特征。
在通道维度,拼接图像特征C1、C2、C3和C4,得到新的图像特征,经过拼接,使图像特征P1的通道数量由C增加到4C,接着,再使用步长为1的1×1卷积运算将新的图像特征的通道数量压缩为2C,得到图像特征Q1,图像特征通道数的减半,可以使模型的计算量减小。
所述改进的下采样模块对图像特征P2采用两个分支进行处理,在其中一个分支,使用步长为1、尺寸为3×3的分组卷积GConv处理,然后使用步长为2的3×3卷积进行下采样,并使用GELU激活函数和归一化层,得到图像特征Q2;在另一个分支上,使用步长为1、尺寸为3×3的分组卷积GConv处理,并做最大池化和归一化处理,得到图像特征Q3。
具体的,所述改进的下采样模块对图像特征P1进行切片下采样的过程中,满足以下条件式:
Q1=Conv(CutD(P1));
Q2=GELU(BN(DWConvD(GConv(P2))));
Q3=BN(MaxP(GConv(P2));
其中,式中,Conv、CutD、GELU、BN、DWConvD、GConv、MaxP分别表示卷积、切片处理、GELU激活函数、批量归一化、深度卷积、分组卷积和最大池化操作。
在通道方向上拼接图像特征Q1、Q2和Q3,并在拼接结果上使用1×1卷积层,得到一组通道数翻倍、尺寸减半的图像特征。
图像特征满足以下条件式:
;
其中,Concat表示在通道方向上连接特征的操作。
此外,请参阅图4,为提高模型对不同尺度目标的检测能力,本发明采用了核选择模块,所述核选择模块根据输入图像的特性动态选择多种不同的卷积核融合特征,从而提高模型的表达能力。
在模型的检测任务头中,对于输入的图像特征K,所述核选择模块利用卷积核大小为3×3、5×5、7×7的三个空洞卷积来学习多尺度空间信息,得到三个不同尺度感受野的图像特征X1、X2、X3,其中,X1∈R H×W×C,X2∈R H×W×C,X3∈R H×W×C,接着,使用通道拼接融合X1、X2、X3,得到图像特征X,并在通道方向上拼接图像特征X的平均池化和最大池化的结果,然后,相继使用卷积和Sigmoid函数获取独立的空间选择掩码,再使用空间选择掩码对X1、X2、X3分别加权,分别得到图像特征F1、F2、F3,最后,对F1、F2、F3逐元素相加,得到带有注意力的融合特征,并将融合特征和输入的图像特征K进行逐元素相乘,获得图像特征。
其中,图像特征X1、X2、X3满足以下条件式:
X2=DWConv(X1);
X3=DWConv(X2);
其中,DWConv表示空洞卷积。
图像特征满足以下条件式:
。
下面对本发明进行测试:
1、实验对象
选用DOTA数据集作为测试所用的对象,DOTA数据集是用于目标检测任务的大规模航拍图像公共数据集,由2806张大尺寸图像组成,包含了15类不同尺度、方向和形状的物体。DOTA数据集包含15个对象类别,包括飞机(PL)、棒球场(BD)、桥梁(BR)、田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储油罐(ST)、足球场(SBF)、环路(RA)、港口(HA)、游泳池(SP)和直升机(HC)。图像的分辨率在800×800到4 000×4 000之间。本发明以步幅200将图像裁剪成1 024×1 024大小。训练集和测试集分别包含21 046和10 833张图像。测试结果提交至DOTA评测服务器。
2、实验设置
实验使用一块显存为24GB的GeForce RTX3090的显卡训练和测试算法。训练的batch size和epoch分别设置为2和12使用SGD作为优化器,初始学习率和动量系数分别为0.0025和0.9。采用平均准确率(Average Precision,简称AP)和全类平均准确率(meanAverage Precision,简称mAP)作为检测评价指标。此外,使用Params(模型参数的总数)和Flops(浮点运算次数)衡量模型的计算复杂度和参数数量。
3、消融实验
本发明分析了不同下采样模块对模型的贡献。如表1所示。
表1 下采样模块的消融实验结果对比
由表1可知,各下采样策略可以使模型的精度得到不同程度的提升,同时使用这三种下采样策略,模型的mAP最高,性能最优。
此外,本发明也研究了核组成对实验结果的影响。大尺度感受野的特征图可以直接通过大型卷积核处理或者由多个小型空洞卷积核逐层处理这两种方式获得。如表2所示,当卷积运算后均得到感受野尺寸为29的特征图时,以三个小型空洞卷积核组合获得大尺度感受野特征图时,模型的计算复杂度最低,参数总量最少。
表2 不同核组成的实验结果对比
本发明也验证了核选择模块中融合特征的分支数对模型造成的影响。结果如表3所示,本发明在多种设置下融合不同尺度的感受野特征图。通过对比这些实验结果可以发现,采用3×3、5×5和7×7组合时,模型表现出最佳的性能。
表3 网络中不同卷积核设置的实验结果对比
4、对比实验
为了验证本发明的优越性,开展实验对比分析了本发明与其它遥感图像目标检测模型。如表4所示,本申请达到了71.63%的mAP,超过了现有技术中的模型。与基准模型相比,在大型车辆(LV)、船舶(SH)、海港(HA)、环岛(RA)等目标类别,关于AP指标的检测精度方面明显提高。实验结果表明,本发明提出的模型能够有效提升尺度变化大的物体的检测精度。
表4 不同在DOTA数据集上平均准确率和全类平均准确率对比
表4中,现有技术1为论文:Azimi S M,Vig E,Bahmanyar R,et al. Towardsmulticlass object detection in unconstrained remote sensing imagery[C]//Asianconference on computer vision. Ch-am: Springer International Publishing,2018: 150-165。现有技术2为论文:Lin T Y,Goyal P,Girshick R,et al. Focal Lossf--or Dense Object Detection. IEEE Transactions on Pattern Analysis&MachineIntelligence, 2017, PP(99):2999-3007。现有技术3为论文:Yang X,Liu Q,Yan J,etal. R3Det: Refined Single Stage Detector with Feature Refinement for Rota-ting Object. 2019。现有技术4为论文:Ding,Jian,et al. "Learning RoI transformerfor oriented object detection in aerial images." Proceedings of the IEEE/CVFConference on Computer VisionandPattern Recognition. 2019。现有技术5为论文:Zhang G, Lu S, Zhang W. CAD-Net: A context-aware detection network forobjects in remote sensing imagery. IEEE Transactions on Geoscience and RemoteSensing,2019,57(12):10015-10024。现有技术6为论文:Pan X,Ren Y,Sheng K,et al.Dynamic refinement network for oriented and densely packed object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. 2020:11207-11216。
此外,为了定性对比基线方法和本发明的效果,从数据集中随机挑选了4张图片,测试并可视化。结果显示,本发明在检测海港和小型车(SV)的效果明显优于基线模型,相比基线模型,本发明的模型能更加准确地定位识别海港、船舶、飞机等尺度变化大的目标,而基线模型则可能会出现漏检或误检。
综上,根据本发明提供的基于改进RetinaNet的遥感图像目标检测模型,引入了改进的下采样模块,将其嵌入到RetinaNet骨干网络中,融合三种下采样方法对提取到的特征来生成下采样图像特征,增强模型捕获复杂细节的能力,利用核选择模块的卷积核选择机制动态选择空间感受野,增强模型提取并融合多尺度特征信息的能力,进而对多尺度的信息进行建模,最后得到目标物体的分类和回归结果,实验结果表明,本发明的模型在大规模遥感图像目标检测数据集DOTA上的全类平均准确率优于传统的RetinaNet目标检测模型,能够更精确地检测遥感目标。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (6)
1.一种基于改进RetinaNet的遥感图像目标检测模型,包括RetinaNet骨干网络、特征金字塔和分类回归子网,其特征在于,在所述RetinaNet骨干网络中引入改进的下采样模块,所述模型还包括核选择模块;
所述骨干网络在进行残差学习时采用所述改进的下采样模块进行下采样,所述改进的下采样模块将输入的图像特征P复制为图像特征P1和图像特征P2,其中,P∈R H×W×C,R表示实数,W、H和C分别表示图像特征的宽度、高度和通道数量,所述改进的下采样模块对图像特征P1进行切片下采样,经过切片处理得到四个空间下采样后的图像特征C1、C2、C3和C4,切片下采样的过程,在通道维度,拼接图像特征C1、C2、C3和C4,得到新的图像特征,经过拼接,使图像特征P1的通道数量由C增加到4C,接着,再使用步长为1的1×1卷积运算将新的图像特征的通道数量压缩为2C,得到图像特征Q1;
所述改进的下采样模块对图像特征P2采用两个分支进行处理,在其中一个分支,使用步长为1、尺寸为3×3的分组卷积GConv处理,然后使用步长为2的3×3卷积进行下采样,并使用GELU激活函数和归一化层,得到图像特征Q2;在另一个分支上,使用步长为1、尺寸为3×3的分组卷积GConv处理,并做最大池化和归一化处理,得到图像特征Q3;
在通道方向上拼接图像特征Q1、Q2和Q3,并在拼接结果上使用1×1卷积层,得到图像特征;
所述核选择模块根据输入图像的特性动态选择多种不同的卷积核融合特征。
2.根据权利要求1所述的基于改进RetinaNet的遥感图像目标检测模型,其特征在于,所述改进的下采样模块对图像特征P1进行切片下采样的过程中,满足以下条件式:
Q1=Conv(CutD(P1));
Q2=GELU(BN(DWConvD(GConv(P2))));
Q3=BN(MaxP(GConv(P2));
其中,式中,Conv、CutD、GELU、BN、DWConvD、GConv、MaxP分别表示卷积、切片处理、GELU激活函数、批量归一化、深度卷积、分组卷积和最大池化操作。
3.根据权利要求2所述的基于改进RetinaNet的遥感图像目标检测模型,其特征在于,图像特征满足以下条件式:
;
其中,Concat表示在通道方向上连接特征的操作。
4.根据权利要求1所述的基于改进RetinaNet的遥感图像目标检测模型,其特征在于,在模型的检测任务头中,对于输入的图像特征K,所述核选择模块利用卷积核大小为3×3、5×5、7×7的三个空洞卷积来学习多尺度空间信息,得到三个不同尺度感受野的图像特征X1、X2、X3,其中,X1∈R H×W×C,X2∈R H×W×C,X3∈R H×W×C,接着,使用通道拼接融合X1、X2、X3,得到图像特征X,并在通道方向上拼接图像特征X的平均池化和最大池化的结果,然后,相继使用卷积和Sigmoid函数获取独立的空间选择掩码,再使用空间选择掩码对X1、X2、X3分别加权,分别得到图像特征F1、F2、F3,最后,对F1、F2、F3逐元素相加,得到带有注意力的融合特征,并将融合特征和输入的图像特征K进行逐元素相乘,获得图像特征。
5.根据权利要求4所述的基于改进RetinaNet的遥感图像目标检测模型,其特征在于,图像特征X1、X2、X3满足以下条件式:
X2=DWConv(X1);
X3=DWConv(X2);
其中,DWConv表示空洞卷积。
6.根据权利要求4所述的基于改进RetinaNet的遥感图像目标检测模型,其特征在于,图像特征满足以下条件式:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410169692.6A CN117710827A (zh) | 2024-02-06 | 2024-02-06 | 基于改进RetinaNet的遥感图像目标检测模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410169692.6A CN117710827A (zh) | 2024-02-06 | 2024-02-06 | 基于改进RetinaNet的遥感图像目标检测模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117710827A true CN117710827A (zh) | 2024-03-15 |
Family
ID=90144761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410169692.6A Pending CN117710827A (zh) | 2024-02-06 | 2024-02-06 | 基于改进RetinaNet的遥感图像目标检测模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117710827A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258559A (zh) * | 2020-10-26 | 2021-01-22 | 上海萱闱医疗科技有限公司 | 一种基于多目标跟踪的智能跑步计时评分系统和方法 |
CN112561060A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
CN113345578A (zh) * | 2021-06-20 | 2021-09-03 | 上海市第六人民医院 | 基于cest骨科康复临床体系的骨科康复信息处理系统 |
CN115861772A (zh) * | 2023-02-22 | 2023-03-28 | 杭州电子科技大学 | 基于RetinaNet的多尺度单阶段目标检测方法 |
CN116071701A (zh) * | 2023-01-13 | 2023-05-05 | 昆明理工大学 | 基于注意力机制和GSConv的YOLOv5行人检测方法 |
CN116310850A (zh) * | 2023-05-25 | 2023-06-23 | 南京信息工程大学 | 基于改进型RetinaNet的遥感图像目标检测方法 |
CN117237808A (zh) * | 2023-09-27 | 2023-12-15 | 杭州电子科技大学 | 基于odc-yolo网络的遥感图像目标检测方法及系统 |
CN117392640A (zh) * | 2023-10-18 | 2024-01-12 | 北京联合大学 | 一种基于改进YOLOv8s的交通标志牌检测方法 |
-
2024
- 2024-02-06 CN CN202410169692.6A patent/CN117710827A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258559A (zh) * | 2020-10-26 | 2021-01-22 | 上海萱闱医疗科技有限公司 | 一种基于多目标跟踪的智能跑步计时评分系统和方法 |
CN112561060A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 神经网络训练方法及装置、图像识别方法及装置和设备 |
CN113345578A (zh) * | 2021-06-20 | 2021-09-03 | 上海市第六人民医院 | 基于cest骨科康复临床体系的骨科康复信息处理系统 |
CN116071701A (zh) * | 2023-01-13 | 2023-05-05 | 昆明理工大学 | 基于注意力机制和GSConv的YOLOv5行人检测方法 |
CN115861772A (zh) * | 2023-02-22 | 2023-03-28 | 杭州电子科技大学 | 基于RetinaNet的多尺度单阶段目标检测方法 |
CN116310850A (zh) * | 2023-05-25 | 2023-06-23 | 南京信息工程大学 | 基于改进型RetinaNet的遥感图像目标检测方法 |
CN117237808A (zh) * | 2023-09-27 | 2023-12-15 | 杭州电子科技大学 | 基于odc-yolo网络的遥感图像目标检测方法及系统 |
CN117392640A (zh) * | 2023-10-18 | 2024-01-12 | 北京联合大学 | 一种基于改进YOLOv8s的交通标志牌检测方法 |
Non-Patent Citations (2)
Title |
---|
WEI LU等: "A Robust Feature Downsampling Module for Remote-Sensing Visual Tasks", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》, vol. 61, 1 June 2023 (2023-06-01), pages 4 - 6 * |
YUXUAN LI等: "Large Selective Kernel Network for Remote Sensing Object Detection", 《2023IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV)》, vol. 2024, 15 January 2024 (2024-01-15), pages 16751 - 16752 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
Li et al. | Cross-layer attention network for small object detection in remote sensing imagery | |
CN108764063B (zh) | 一种基于特征金字塔的遥感影像时敏目标识别系统及方法 | |
Li et al. | Unsupervised learning of edges | |
CN105740799B (zh) | 基于三维Gabor特征选择的高光谱遥感图像分类方法及系统 | |
CN112270249A (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
CN108596108B (zh) | 基于三元组语义关系学习的航拍遥感图像变化检测方法 | |
CN101441082A (zh) | 快速三角形星图识别方法 | |
CN101976461A (zh) | 一种新的户外增强现实无标跟踪注册算法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN108520203A (zh) | 基于融合自适应多外围框与十字池化特征的多目标特征提取方法 | |
Liu et al. | An automatic extraction architecture of urban green space based on DeepLabv3plus semantic segmentation model | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN104217459A (zh) | 一种球面特征提取方法 | |
CN115410102A (zh) | 基于联合注意力机制的sar图像飞机目标检测方法 | |
CN116310701A (zh) | 基于注意力效率网络的跨视角图像地理定位方法及装置 | |
Bui et al. | Cross-view geo-localization for autonomous UAV using locally-aware transformer-based network | |
CN104700359A (zh) | 像平面不同极轴方向图像序列进行超分辨率重建的方法 | |
CN117710827A (zh) | 基于改进RetinaNet的遥感图像目标检测模型 | |
Yang et al. | ROPDet: real-time anchor-free detector based on point set representation for rotating object | |
CN114694042A (zh) | 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法 | |
Li et al. | What do we learn by semantic scene understanding for remote sensing imagery in CNN framework? | |
CN107341151A (zh) | 图像检索数据库生成方法、增强现实的方法及装置 | |
Yu et al. | Joint learning using multiscale attention-enhanced features for remote sensing image scene classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |