CN115457395A - 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法 - Google Patents

基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法 Download PDF

Info

Publication number
CN115457395A
CN115457395A CN202211155626.0A CN202211155626A CN115457395A CN 115457395 A CN115457395 A CN 115457395A CN 202211155626 A CN202211155626 A CN 202211155626A CN 115457395 A CN115457395 A CN 115457395A
Authority
CN
China
Prior art keywords
feature map
size
remote sensing
map
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211155626.0A
Other languages
English (en)
Inventor
魏新池
郑钰辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211155626.0A priority Critical patent/CN115457395A/zh
Publication of CN115457395A publication Critical patent/CN115457395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,包括:获取遥感数据;将遥感数据中的图片输入训练好的遥感目标检测模型;根据模型的输出,确定遥感目标检测结果;模型的构建训练方法包括:获取数据集,使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框;构建主干网络提取特征图;在主干网络后构建快速空间金字塔池化结构进行特征融合;构建三层的加强特征提取网络BiFPN,融合浅层特征图的空间信息与深层特征图的语义信息;在BiFPN后构建通道注意力模块ECA;在ECA后构建三个预测输出头,进行预测;利用数据集及锚框训练并评估模型。网络参数少计算量小,提高了检测精度的同时满足了实时性。

Description

基于通道注意力与多尺度特征融合的轻量级遥感目标检测 方法
技术领域
本发明涉及遥感图像处理领域,具体但不限于涉及基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法。
背景技术
目标检测是计算机视觉领域近几年的热门研究方向之一,其任务是识别出图像中感兴趣物体的类别,并同时检测出物体的位置和大小。目标检测是图像理解与计算机视觉的基石,作为计算机视觉的基本问题之一,目标检测构成了许多其它视觉任务的基础,例如实例分割,目标跟踪和图像描述等等。随着信息化技术的不断发展,目标检测技术在近几年发展迅速,其广泛应用在生物医药、监控安防、航天航空等领域,深刻影响着人们的生活。
深度学习的发展促进了目标检测技术在遥感图像领域的应用,基于深度学习的遥感图像目标检测性能普遍优于传统方法,检测精度有了大幅度的提升。然而遥感图像具有场景复杂、尺度多样和目标较小等问题,增大了对其目标检测的难度。近年来,虽然基于深度学习的遥感图像目标检测算法性能优异,但是模型结构复杂,参数量与计算量较大,对小目标的检测性能仍有广阔的提升空间。因此在提升一定检测精度的同时,研究轻量化的遥感图像目标检测模型具有较强的理论意义和应用价值。
有鉴于此,需要提供一种新的检测方法,以期解决上述至少部分问题。
发明内容
针对现有技术中的一个或多个问题,本发明提出了一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法。
实现本发明目的的技术解决方案为:
第一方面,提供一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,包括:
获取遥感数据,其中所述遥感数据包括至少一张图片;
将遥感数据中的图片输入训练好的遥感目标检测模型;
根据遥感目标检测模型的输出,确定遥感目标检测结果;
其中所述遥感目标检测模型的构建训练方法包括:
步骤1:获取数据集;
步骤2:使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框;
步骤3:构建主干网络经过特征提取得到特征图;
步骤4:在主干网络后构建快速空间金字塔池化结构SPPF进行特征融合得到融合特征图;
步骤5:在快速空间金字塔池化结构SPPF后构建三层的加强特征提取网络BiFPN,融合浅层特征图的空间信息与深层特征图的语义信息,减少信息丢失;
步骤6:在加强特征提取网络BiFPN后构建三个通道注意力模块ECA,使网络更加关注目标的细节信息,提高检测精度;
步骤7:在每个通道注意力模块ECA后构建一个预测输出头,对输出的特征进行预测;
步骤8:利用所述数据集及锚框对遥感目标检测模型进行训练并评估,利用最佳模型进行测试,得到训练好的遥感目标检测模型。
在一些实施例中,所述步骤1中,获取数据集,包括:
所述数据集至少包括遥感数据集DOTA v1.0、数据集VOC12以及遥感数据集RSOD、遥感数据集DIOR;
其中数据集VOC12、RSOD的训练集,验证集,测试集按照7:1:2进行随机划分,DIOR按照官方给出的比例1:1:2进行随机划分;
其中遥感数据集DOTA v1.0需要先进行预处理,包括:
步骤1-1:选取遥感数据集DOTA v1.0中水平标注部分的图片;将选取的每张图片切割为多张固定大小的图片,并对切割后的图片生成相应的标注信息xml文件;
步骤1-2:对步骤1-1得到的xml文件进行处理,删除不符合要求的xml文件及对应的图片,得到处理后的DOTA数据集;
其中不符合要求的xml文件有以下三种情况:标注目标为空;所有标注目标的difficult值均为1;标注目标存在越界的问题,标注目标存在越界有六种情况:xmin<0、ymin<0、xmax>width、ymax>height、xmax<xmin、ymax<ymin;其中xmin:标注框最小横坐标值;ymin:标注框最小纵坐标值;xmax:标注框最大横坐标值;ymax:标注框最大纵坐标值;width:图片的宽;height:图片的高;
步骤1-3:对步骤1-2得到的处理后的DOTA数据集进行划分,划分为train、val、trainval、test四个文件,训练集,验证集,测试集按照7:1:2进行随机划分。
在一些实施例中,所述步骤2中,使用Kmeans聚类算法对数据集作聚类处理,包括:
步骤2-1:根据数据集,在所有的边界框中随机选择K个作为簇中心;
步骤2-2:计算每个边界框与每个簇中心的距离D,公式如下:
Figure BDA0003858420810000031
D=1-IOU
式中,A、B分别为边界框与簇中心,IoU为A和B的交并比;
步骤2-3:计算每个边界框距离最近的簇中心,并分配到离它最近的簇中;
步骤2-4:根据每个簇中的边界框重新计算簇中心,默认使用中位数来更新簇中心;
步骤2-5:重复2-3到2-4,直到每个簇中的元素不在发生变化则聚类完毕,得到K个簇中心,即所需要的锚框;
步骤2-6:考虑到预测网络中K值较大时,会增加神经网络的预测时间,因而簇中心的个数K设置为9;在各数据集上使用的锚框如下:
DOTA v1.0:(11,10)(20,22)(29,41)(43,25)(44,98)(47,45)(78,63)(100,106)(169,202)
RSOD:(14,15)(22,23)(30,29)(36,39)(47,48)(55,62)(68,74)(80,92)(223,275)
DIOR:(7,7)(8,16)(14,28)(19,11)(26,47)(36,20)(57,60)(107,128)(278,280)
VOC12:(21,40)(52,68)(62,141)(97,272)(159,155)(177,380)(303,495)(372,267)(549,556)。
在一些实施例中,所述步骤3中,主干网络的构建方法包括:
步骤3-1:图片输入的尺寸设置为416*416,首先构建两个卷积模块DarknetConv2D_BN_Leaky用于获取特征图,卷积模块包括一个3*3的二维卷积,归一化和激活函数Leaky ReLu,步长设置为2;第一个卷积模块使图片尺寸降为208*208,第二个卷积模块再次缩小图片尺寸为104*104,Leaky ReLu函数表达式如下,x代表输入值:
Figure BDA0003858420810000032
步骤3-2:在两个卷积模块后串行构建三个残差网络Reduction;残差网络分成两条支路,第一条支路是将输入的特征图进行一次1*1卷积,特征图尺寸不变;再进行一次3*3卷积,使特征图的尺寸减小一半;最后进行一次1*1卷积,特征图的尺寸不变;第二条支路是将输入的特征图进行一次2*2的最大池化,使特征图尺寸减半;再进行一次1*1卷积,特征图尺寸不变;将这两条支路输出的特征图进行堆叠拼接,最终获得尺寸减半后的特征图;第一残差网络、第二残差网络、第三残差网络输出的特征图尺寸分别为:52*52、26*26、13*13;
步骤3-3:在最后一个残差网络后构建一个卷积模块DarknetConv2D_BN_Leaky进行特征整合,主干网络最终输出的特征图尺寸为13*13。
在一些实施例中,所述步骤4中,快速空间金字塔池化结构SPPF的构建方法,包括:
步骤4-1:将主干网络输出的特征图输入至快速空间金字塔池化结构SPPF,对输入的特征图进行一次卷积得到卷积后的特征图,使通道数减半;
步骤4-2:构建池化核大小为5*5的三个最大池化层,将卷积后的特征图先经过第一最大池化层进行一次最大池化,输出的结果再依次经过第二最大池化层、第三最大池化层进行最大池化,将第一最大池化层、第二最大池化层、第三最大池化层的结果与卷积后的特征图进行堆叠拼接,将堆叠拼接后的特征图进行一次卷积,最后输出尺寸仍为13*13的融合特征图。
在一些实施例中,所述步骤5中,加强特征提取网络BiFPN的构建方法包括:
步骤5-1:将快速空间金字塔池化结构SPPF输出的尺寸为13*13的融合特征图进行1*1卷积和上采样,使特征图尺寸变为26*26;然后与主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接;
步骤5-2:将步骤5-1堆叠拼接后的尺寸为26*26的特征图继续进行1*1卷积和上采样,使特征图尺寸变为52*52;然后与主干网络中第一残差网络输出的尺寸为52*52的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第一通道注意力模块ECA;
步骤5-3:对步骤5-2堆叠拼接后的尺寸为52*52的特征图进行下采样,使特征图尺寸变为26*26,然后与步骤5-1堆叠拼接后的尺寸为26*26的特征图以及主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第二通道注意力模块ECA;
步骤5-4:对步骤5-3堆叠拼接后的尺寸为26*26的特征图进行下采样,使特征图的尺寸变为13*13,然后与SPPF输出的尺寸为13*13的融合特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第三通道注意力模块ECA。
在一些实施例中,所述步骤6中,通道注意力模块ECA的构建方法包括:
步骤6-1:将加强特征提取网络输出的特征图进行全局平均池化,特征图从矩阵形式变成向量形式;
步骤6-2:避免降维,用卷积核大小为k的1维卷积实现局部跨通道交互,提取通道间的依赖关系,并经过Sigmoid激活函数得到各个通道的权重ω,公式如下:
ω=σ(C1Dk(y)),其中C1D表示一维卷积,σ表示Sigmoid激活函数,y表示步骤6-1输出的向量形式的特征图;
步骤6-3:将权重ω与经过加强特征提取网络处理后的输入特征图进行逐通道相乘,生成加权后的特征图。
在一些实施例中,所述步骤7包括:
为进行特征图的回归预测,在每个通道注意力模块ECA后构建一个预测输出头;在预测输出头中,首先构建一个3*3卷积模块进行特征整合,激活函数使用LeakyReLU,步长设置为1;然后构建一个1*1卷积模块进行通道数的调整,步长设置为1;每个预测输出头获得1个特征图的预测结果,分别对应每张图不同尺寸的网格上的3个预测框位置;最后对预测结果进行解码得到最终的预测框在图片上的位置。
在一些实施例中,所述步骤8包括:
步骤8-1:配置训练数据集与模型的相关信息,导入训练数据并训练,各数据集的训练设置如下:
VOC12:轮次为300,批大小为64,图片尺寸为640*640;
DOTA v1.0:轮次为500,批大小为64,图片尺寸为640*640;
RSOD:轮次为1000,批大小为32,图片尺寸为640*640;
DIOR:轮次为300,批大小为64,图片尺寸为640*640;
步骤8-2:训练过程中每个轮次计算一次精确度P,召回率R,mAP@0.5,mAP@0.5:0.95的值,最后绘制成曲线图,横坐标为轮次,纵坐标为P/R/map@0.5/map@0.5:0.95,公式如下:
Figure BDA0003858420810000061
Ntp:正样本预测为正样本;
Nfp:负样本预测为正样本;
Nfn:正样本预测为负样本;
AP:以P作为纵坐标,R为横坐标绘制PR曲线,AP值是PR曲线下的面积;
k:图片数目;
p(k):识别出k个图片是P的值;
Δr(k):识别的图片由k-1增加到k时召回率的变化情况;
mAP:平均精度均值;
c:类别总数;
mAP@0.5:交并比为0.5时的mAP;
mAP@0.5:0.95:步长0.05,从0.5到0.95不同交并比阈值上的平均mAP;
步骤8-3:使用训练获取的最佳权重对测试集进行测试,批大小设置为1,图片尺寸为640*640,最终输出精确度P,召回率R,mAP@0.5,mAP@0.5:0.95的值以及每张图片的推理时间T,计算帧率FPS,FPS=1000/T。
第二方面,本发明提供了一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框,加快了模型收敛速度,提高了模型的检测精度。
2、主干网络中使用残差网络Reduction,减少了计算量,提高了模型的运行速度。
3、使用快速空间金字塔池化结构SPPF进行特征融合,强化了小目标信息的表达,改善了遥感图像中小目标难以检测的问题。
4、使用加强特征提取网络BiFPN增加了预测层特征图的空间细节信息,减少了信息丢失,改善了模型多尺度特征融合能力,提高了融合速度与检测精度。
5、使用通道注意力机制ECA,使网络更加关注遥感图像中目标的细节信息,提高了检测精度。
附图说明
附图用来提供对本发明的进一步理解,与说明描述一起用于解释本发明的实施例,并不构成对本发明的限制。在附图中:
图1示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法的整体网络结构图。
图2示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法的残差网络Reduction结构图。
图3示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法的通道注意力ECA结构图。
图4示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法在遥感数据集DOTA v1.0上的检测结果示意图。
图5示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法在遥感数据集DIOR上的检测结果示意图。
图6示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法在遥感数据集RSOD上的检测结果示意图。
图7示出了本发明的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法在非遥感数据集VOC12上的检测结果示意图。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。不同实施例的组合、不同实施例中的一些技术特征进行相互替换,相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,包括:
获取遥感数据,其中所述遥感数据包括至少一张图片;
将遥感数据中的图片输入训练好的遥感目标检测模型;
根据遥感目标检测模型的输出,确定遥感目标检测结果;
其中所述遥感目标检测模型的构建训练方法包括:
步骤1:获取数据集;
步骤2:使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框;
步骤3:构建主干网络经过特征提取得到特征图;
步骤4:在主干网络后构建快速空间金字塔池化结构SPPF进行特征融合得到融合特征图;
步骤5:在快速空间金字塔池化结构SPPF后构建三层的加强特征提取网络BiFPN,融合浅层特征图的空间信息与深层特征图的语义信息,减少信息丢失;
步骤6:在加强特征提取网络BiFPN后构建三个通道注意力模块ECA,使网络更加关注目标的细节信息,提高检测精度;
步骤7:在每个通道注意力模块ECA后构建一个预测输出头,对输出的特征进行预测;
步骤8:利用所述数据集及锚框对遥感目标检测模型进行训练并评估,利用最佳模型进行测试,得到训练好的遥感目标检测模型。
根据本发明的一个方面,基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,整体网络结构图如图1所示,包括如下步骤:
步骤1:获取数据集并对数据集进行切割与划分。
步骤1-1:获取遥感数据集DOTA v1.0,选取水平标注部分,共2806张图像。由于DOTA数据集中的部分图片纵横比太大,不能直接用于后续的训练,所以对DOTA数据集进行切割。将数据集中的每张图片切割为多张600*600固定大小的图片,共得到30888张,并对切割后的图片生成相应的标注信息xml文件。
步骤1-2:对切割后得到的xml文件进行处理,删除不符合要求的xml文件及对应的图片。不符合要求的xml文件有以下三种情况:标注目标为空;所有标注目标的difficult值均为1;标注目标存在越界的问题,标注越界有六种情况(xmin<0、ymin<0、xmax>width、ymax>height、xmax<xmin、ymax<ymin),最终数据集共20889张图片。
xmin:标注框最小横坐标值;ymin:标注框最小纵坐标值
xmax:标注框最大横坐标值;ymax:标注框最大纵坐标值
width:图片的宽;height:图片的高
步骤1-3:对处理后的DOTA数据集进行划分,划分为train、val、trainval、test四个文件,训练集,验证集,测试集按照7:1:2进行随机划分。
步骤1-4:获取数据集VOC12,以及遥感数据集RSOD、DIOR,其中数据集VOC12、RSOD的训练集,验证集,测试集按照7:1:2进行随机划分,DIOR按照官方给出的比例1:1:2进行随机划分。
步骤2:使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框。
步骤2-1:根据数据集,在所有的边界框中随机选择K个作为簇中心;
步骤2-2:计算每个边界框与每个簇中心的距离D,公式如下:
Figure BDA0003858420810000101
D=1-IOU
式中,A、B分别为边界框与簇中心,IoU为A和B的交并比;
步骤2-3:计算每个边界框距离最近的簇中心,并分配到离它最近的簇中;
步骤2-4:根据每个簇中的边界框重新计算簇中心,默认使用中位数来更新簇中心;
步骤2-5:重复2-3到2-4,直到每个簇中的元素不在发生变化则聚类完毕,得到K个簇中心,即所需要的锚框;
步骤2-6:考虑到预测网络中K值较大时,会增加神经网络的预测时间,因而本发明聚类中心点数值设置为9,这样可以加快神经网络损失函数的收敛,获得较高的定位精度,降低神经网络的预测时间。本发明在各数据集上使用的锚框如下:
DOTAv1.0:(11,10)(20,22)(29,41)(43,25)(44,98)(47,45)(78,63)(100,106)(169,202)
RSOD:(14,15)(22,23)(30,29)(36,39)(47,48)(55,62)(68,74)(80,92)(223,275)
DIOR:(7,7)(8,16)(14,28)(19,11)(26,47)(36,20)(57,60)(107,128)(278,280)
VOC12:(21,40)(52,68)(62,141)(97,272)(159,155)(177,380)(303,495)(372,267)(549,556)
步骤3:构建主干网络提取特征图。
步骤3-1:图片输入的尺寸设置为416*416,首先构建两个卷积模块DarknetConv2D_BN_Leaky获取特征图,该模块包括一个3*3的二维卷积,归一化和激活函数Leaky ReLu,步长设置为2。第一个模块使图片尺寸降为208*208,第二个模块再次缩小图片尺寸为104*104,Leaky ReLu函数表达式如下,x代表输入值:
Figure BDA0003858420810000102
步骤3-2:在两个卷积模块后串行构建三个残差网络Reduction。该网络分成两条支路,第一条支路是将输入的特征图进行一次1*1卷积,特征图尺寸不变;再进行一次3*3卷积,使特征图的尺寸减小一半;最后进行一次1*1卷积,特征图的尺寸不变。第二条支路是将输入的特征图进行一次2*2的最大池化,使特征图尺寸减半;再进行一次1*1卷积,特征图尺寸不变。将这两条支路输出的特征图进行堆叠拼接(Concat),最终获得尺寸减半后的特征图。三个残差网络输出的特征图尺寸分别为:52*52、26*26、13*13。
步骤3-3:在最后一个残差网络后构建卷积模块DarknetConv2D_BN_Leaky进行特征整合,输出的特征图尺寸为13*13。
步骤4:在主干网络后构建快速空间金字塔池化结构SPPF进行特征融合。
步骤4-1:将主干网络最后一个卷积模块输出的尺寸为13*13的特征图输入至快速空间金字塔池化结构SPPF,对其进行一次卷积,使通道数减半。
步骤4-2:构建池化核大小为5*5的最大池化层,将卷积后的的特征图进行一次最大池化,输出的结果再依次进行最大池化,重复两次,将每次的结果与仅经过卷积的特征图进行堆叠拼接,将堆叠拼接后的特征图进行一次卷积,最后输出尺寸仍为13*13的特征图。
步骤5:在SPPF后构建三层的加强特征提取网络BiFPN,融合浅层特征图的空间信息与深层特征图的语义信息,减少信息丢失。
步骤5-1:将快速空间金字塔池化结构SPPF输出的尺寸为13*13的特征图进行1*1卷积和上采样,使特征图尺寸变为26*26。然后与主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接(Concat)。
步骤5-2:将步骤5-1堆叠拼接后的尺寸为26*26的特征图继续进行1*1卷积和上采样,使特征图尺寸变为52*52。然后与主干网络中第一残差网络输出的尺寸为52*52的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至通道注意力模块ECA。
步骤5-3:对步骤5-2堆叠拼接后的尺寸为52*52的特征图进行下采样,使特征图尺寸变为26*26,然后与步骤5-1堆叠拼接后的尺寸为26*26的特征图以及主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至通道注意力模块ECA。
步骤5-4:对步骤5-3堆叠拼接后的尺寸为26*26的特征图进行下采样,使特征图的尺寸变为13*13,然后与SPPF输出的尺寸为13*13的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至通道注意力模块ECA。
步骤6:在BiFPN网络后构建三个通道注意力模块ECA,使网络更加关注目标的细节信息,提高检测精度。
步骤6-1:将加强特征提取网络输出的特征图进行全局平均池化,特征图从矩阵形式变成向量形式;
步骤6-2:避免降维,用卷积核大小为k的1维卷积实现局部跨通道交互,提取通道间的依赖关系,并经过Sigmoid激活函数得到各个通道的权重ω,公式如下:
ω=σ(C1Dk(y)),其中C1D表示一维卷积,σ表示Sigmoid激活函数,y表示步骤6-1输出的向量形式的特征图;
步骤6-3:将权重ω与经过加强特征提取网络处理后的输入特征图进行逐通道相乘,生成加权后的特征图。
步骤7:在每个ECA模块后构建一个预测输出头,对输出的特征进行预测。
为进行特征图的回归预测,在每个ECA后构建一个预测输出头(yolo head)。在预测输出头中,首先构建一个3x3卷积模块进行特征整合,激活函数使用LeakyReLU,步长设置为1。然后构建一个1x1卷积模块进行通道数的调整,步长设置为1。每个预测输出头获得1个特征图的预测结果,分别对应每张图不同尺寸的网格上的3个预测框位置。最后对预测结果进行解码得到最终的预测框在图片上的位置。
步骤8:训练并评估模型,利用最佳模型进行测试。
步骤8-1:配置训练数据集与模型的相关信息,导入训练数据并训练,各数据集的训练设置如下:
VOC12:轮次为300,批大小为64,图片尺寸为640*640
DOTA v1.0:轮次为500,批大小为64,图片尺寸为640*640
RSOD:轮次为1000,批大小为32,图片尺寸为640*640
DIOR:轮次为300,批大小为64,图片尺寸为640*640
步骤8-2:训练过程中每个轮次计算一次精确度(P),召回率(R),mAP@0.5,mAP@0.5:0.95的值,最后绘制成曲线图,横坐标为轮次,纵坐标为P/R/map@0.5/map@0.5:0.95,公式如下:
Figure BDA0003858420810000121
Ntp:正样本预测为正样本;
Nfp:负样本预测为正样本;
Nfn:正样本预测为负样本;
AP:以P作为纵坐标,R为横坐标绘制PR曲线,AP值是PR曲线下的面积;
k:图片数目;
p(k):识别出k个图片是P的值
Δr(k):识别的图片由k-1增加到k时召回率的变化情况;
mAP:平均精度均值;
c:类别总数;
mAP@0.5:交并比为0.5时的mAP;
mAP@0.5:0.95:不同交并比阈值(从0.5到0.95,步长0.05)上的平均mAP;
步骤8-3:使用训练获取的最佳权重对测试集进行测试,批大小设置为1,图片尺寸为640*640,最终输出精确度(P),召回率(R),mAP@0.5,mAP@0.5:0.95的值以及每张图片的推理时间T(单位ms),计算帧率FPS,FPS=1000/T。
本发明先后在数据集DOTA v1.0、DIOR、RSOD、VOC12上进行了实验并获取了检测结果,选取其中具有代表性的检测结果展示,分别对应图4、图5、图6与图7。为进一步验证本发明目标检测方法的优势,在同等条件下对其他模型进行了实验,并与本实施例基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法的检测效果进行了对比,评价指标采用mAP@0.5,mAP@0.5:0.95,检测一张图片的时间T以及帧率FPS,其中FPS和T是50次测试求取的平均值。
数据集RSOD上的实验结果如表1所示:
和yolov4相比,本发明方法的map@0.5仅降低0.1个百分点,map@0.5:0.95仅降低7.2个百分点,但FPS提升了167,速度远超yolov4。
和yolov3相比,本发明方法的map@0.5提升了2.7个百分点,map@0.5:0.95降低了5.5个百分点,但FPS提升了147,速度远超yolov3。
和yolov4-tiny相比,本发明方法的FPS降低了51,但map@0.5提升了7.7个百分点,map@0.5:0.95提升了4.9个百分点,检测精度更高。
和yolov3-tiny相比,本发明方法的FPS降低了49,但map@0.5提升了9.5个百分点,map@0.5:0.95提升了7.3个百分点,检测精度更高。
表1 RSOD数据集上的实验结果
Figure BDA0003858420810000141
数据集DIOR上的实验结果如表2所示:
和yolov4相比,本发明方法的map@0.5降低了11.2个百分点,map@0.5:0.95降低了14.9个百分点,但FPS提升了160,速度远超yolov4。
和yolov3相比,本发明方法的map@0.5降低了8.2个百分点,map@0.5:0.95降低了13.4个百分点,但FPS提升了133,速度远超yolov3。
和yolov4-tiny相比,本发明方法的FPS降低了51,但map@0.5提升了10.4个百分点,map@0.5:0.95提升了6.4个百分点,检测精度更高。
和yolov3-tiny相比,本发明方法的FPS降低了53,但map@0.5提升了15.2个百分点,map@0.5:0.95提升了10.5个百分点,检测精度更高。
表2 DIOR数据集上的实验结果
Figure BDA0003858420810000142
数据集VOC12上的实验结果如表3所示:
和yolov4相比,本发明方法的map@0.5降低了12.8个百分点,map@0.5:0.95降低了16.8个百分点,但FPS提升了167,速度远超yolov4。
和yolov3相比,本发明方法的map@0.5降低了10.5个百分点,map@0.5:0.95降低了14.7个百分点,但FPS提升了160,速度远超yolov3。
和yolov4-tiny相比,本发明方法的FPS降低了47,但map@0.5提升了11.8个百分点,map@0.5:0.95提升了12.9个百分点,检测精度更高。
和yolov3-tiny相比,本发明方法的FPS降低了45,但map@0.5提升了14.5个百分点,map@0.5:0.95提升了15.6个百分点,检测精度更高。
表3 VOC12数据集上的实验结果
Figure BDA0003858420810000151
数据集DOTA上的实验结果如表4所示:
和yolov4相比,本发明方法的map@0.5降低了3.8个百分点,map@0.5:0.95降低了15.9个百分点,但FPS提升了179,速度远超yolov4。
和yolov3相比,本发明方法的map@0.5降低了1.9个百分点,map@0.5:0.95降低了14.2个百分点,但FPS提升了154,速度远超yolov3。
和yolov4-tiny相比,本发明方法的FPS降低了23,但map@0.5提升了6个百分点,map@0.5:0.95提升了3.9个百分点,检测精度更高。
和yolov3-tiny相比,本发明方法的FPS降低了40,但map@0.5提升了7个百分点,map@0.5:0.95提升了9.4个百分点,检测精度更高。
表4 DOTA v1.0数据集上的实验结果
Figure BDA0003858420810000152
为了验证残差网络Reduction(M1)、快速空间金字塔池化结构SPPF(M2)、加强特征提取网络BiFPN(M3)和通道注意力ECA(M4)的重要性,在DIOR数据集上进行了消融实验:“基线”、“基线+M1”、“基线+M1+M2”、“基线+M1+M2+M3”和“基线+M1+M2+M3+M4”。其中,“基线”表示yolov4-tiny算法。结果如表5所示,M1提高了模型的推理速度,M2、M3和M4提高了yolov4-tiny的检测精度。
表5 DIOR数据集上的消融实验
Figure BDA0003858420810000161
实施例2
第二方面,本实施例提供了一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。说明书中所涉及的效果或优点等相关描述可因具体条件参数的不确定或其它因素影响而可能在实际实验例中不能体现,效果或优点等相关描述不用于对发明范围进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (10)

1.基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,包括:
获取遥感数据,其中所述遥感数据包括至少一张图片;
将遥感数据中的图片输入训练好的遥感目标检测模型;
根据遥感目标检测模型的输出,确定遥感目标检测结果;
其中所述遥感目标检测模型的构建训练方法包括:
步骤1:获取数据集;
步骤2:使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框;
步骤3:构建主干网络经过特征提取得到特征图;
步骤4:在主干网络后构建快速空间金字塔池化结构SPPF进行特征融合得到融合特征图;
步骤5:在快速空间金字塔池化结构SPPF后构建三层的加强特征提取网络BiFPN,融合浅层特征图的空间信息与深层特征图的语义信息,减少信息丢失;
步骤6:在加强特征提取网络BiFPN后构建三个通道注意力模块ECA,使网络更加关注目标的细节信息,提高检测精度;
步骤7:在每个通道注意力模块ECA后构建一个预测输出头,对输出的特征进行预测;
步骤8:利用所述数据集及锚框对遥感目标检测模型进行训练并评估,利用最佳模型进行测试,得到训练好的遥感目标检测模型。
2.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤1中,获取数据集,包括:
所述数据集至少包括遥感数据集DOTA v1.0、数据集VOC12以及遥感数据集RSOD、遥感数据集DIOR;
其中数据集VOC12、RSOD的训练集,验证集,测试集按照7:1:2进行随机划分,DIOR按照官方给出的比例1:1:2进行随机划分;
其中遥感数据集DOTA v1.0需要先进行预处理,包括:
步骤1-1:选取遥感数据集DOTA v1.0中水平标注部分的图片;将选取的每张图片切割为多张固定大小的图片,并对切割后的图片生成相应的标注信息xml文件;
步骤1-2:对步骤1-1得到的xml文件进行处理,删除不符合要求的xml文件及对应的图片,得到处理后的DOTA数据集;
其中不符合要求的xml文件有以下三种情况:标注目标为空;所有标注目标的difficult值均为1;标注目标存在越界的问题,标注目标存在越界有六种情况:xmin<0、ymin<0、xmax>width、ymax>height、xmax<xmin、ymax<ymin;其中xmin:标注框最小横坐标值;ymin:标注框最小纵坐标值;xmax:标注框最大横坐标值;ymax:标注框最大纵坐标值;width:图片的宽;height:图片的高;
步骤1-3:对步骤1-2得到的处理后的DOTA数据集进行划分,划分为train、val、trainval、test四个文件,训练集,验证集,测试集按照7:1:2进行随机划分。
3.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤2中,使用Kmeans聚类算法对数据集作聚类处理,包括:
步骤2-1:根据数据集,在所有的边界框中随机选择K个作为簇中心;
步骤2-2:计算每个边界框与每个簇中心的距离D,公式如下:
Figure FDA0003858420800000021
D=1-IOU
式中,A、B分别为边界框与簇中心,IoU为A和B的交并比;
步骤2-3:计算每个边界框距离最近的簇中心,并分配到离它最近的簇中;
步骤2-4:根据每个簇中的边界框重新计算簇中心,默认使用中位数来更新簇中心;
步骤2-5:重复2-3到2-4,直到每个簇中的元素不在发生变化则聚类完毕,得到K个簇中心,即所需要的锚框;
步骤2-6:考虑到预测网络中K值较大时,会增加神经网络的预测时间,因而簇中心的个数K设置为9;在各数据集上使用的锚框如下:
DOTA v1.0:(11,10)(20,22)(29,41)(43,25)(44,98)(47,45)(78,63)(100,106)(169,202)
RSOD:(14,15)(22,23)(30,29)(36,39)(47,48)(55,62)(68,74)(80,92)(223,275)
DIOR:(7,7)(8,16)(14,28)(19,11)(26,47)(36,20)(57,60)(107,128)(278,280)
VOC12:(21,40)(52,68)(62,141)(97,272)(159,155)(177,380)(303,495)(372,267)(549,556)。
4.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤3中,主干网络的构建方法包括:
步骤3-1:图片输入的尺寸设置为416*416,首先构建两个卷积模块DarknetConv2D_BN_Leaky用于获取特征图,卷积模块包括一个3*3的二维卷积,归一化和激活函数Leaky ReLu,步长设置为2;第一个卷积模块使图片尺寸降为208*208,第二个卷积模块再次缩小图片尺寸为104*104,Leaky ReLu函数表达式如下,x代表输入值:
Figure FDA0003858420800000031
步骤3-2:在两个卷积模块后串行构建三个残差网络Reduction;残差网络分成两条支路,第一条支路是将输入的特征图进行一次1*1卷积,特征图尺寸不变;再进行一次3*3卷积,使特征图的尺寸减小一半;最后进行一次1*1卷积,特征图的尺寸不变;第二条支路是将输入的特征图进行一次2*2的最大池化,使特征图尺寸减半;再进行一次1*1卷积,特征图尺寸不变;将这两条支路输出的特征图进行堆叠拼接,最终获得尺寸减半后的特征图;第一残差网络、第二残差网络、第三残差网络输出的特征图尺寸分别为:52*52、26*26、13*13;
步骤3-3:在最后一个残差网络后构建一个卷积模块DarknetConv2D_BN_Leaky进行特征整合,主干网络最终输出的特征图尺寸为13*13。
5.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤4中,快速空间金字塔池化结构SPPF的构建方法,包括:
步骤4-1:将主干网络输出的特征图输入至快速空间金字塔池化结构SPPF,对输入的特征图进行一次卷积得到卷积后的特征图,使通道数减半;
步骤4-2:构建池化核大小为5*5的三个最大池化层,将卷积后的特征图先经过第一最大池化层进行一次最大池化,输出的结果再依次经过第二最大池化层、第三最大池化层进行最大池化,将第一最大池化层、第二最大池化层、第三最大池化层的结果与卷积后的特征图进行堆叠拼接,将堆叠拼接后的特征图进行一次卷积,最后输出尺寸仍为13*13的融合特征图。
6.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤5中,加强特征提取网络BiFPN的构建方法包括:
步骤5-1:将快速空间金字塔池化结构SPPF输出的尺寸为13*13的融合特征图进行1*1卷积和上采样,使特征图尺寸变为26*26;然后与主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接;
步骤5-2:将步骤5-1堆叠拼接后的尺寸为26*26的特征图继续进行1*1卷积和上采样,使特征图尺寸变为52*52;然后与主干网络中第一残差网络输出的尺寸为52*52的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第一通道注意力模块ECA;
步骤5-3:对步骤5-2堆叠拼接后的尺寸为52*52的特征图进行下采样,使特征图尺寸变为26*26,然后与步骤5-1堆叠拼接后的尺寸为26*26的特征图以及主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第二通道注意力模块ECA;
步骤5-4:对步骤5-3堆叠拼接后的尺寸为26*26的特征图进行下采样,使特征图的尺寸变为13*13,然后与SPPF输出的尺寸为13*13的融合特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第三通道注意力模块ECA。
7.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤6中,通道注意力模块ECA的构建方法包括:
步骤6-1:将加强特征提取网络输出的特征图进行全局平均池化,特征图从矩阵形式变成向量形式;
步骤6-2:避免降维,用卷积核大小为k的1维卷积实现局部跨通道交互,提取通道间的依赖关系,并经过Sigmoid激活函数得到各个通道的权重ω,公式如下:
ω=σ(C1Dk(y)),其中C1D表示一维卷积,σ表示Sigmoid激活函数,y表示步骤6-1输出的向量形式的特征图;
步骤6-3:将权重ω与经过加强特征提取网络处理后的输入特征图进行逐通道相乘,生成加权后的特征图。
8.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤7包括:
为进行特征图的回归预测,在每个通道注意力模块ECA后构建一个预测输出头;在预测输出头中,首先构建一个3*3卷积模块进行特征整合,激活函数使用LeakyReLU,步长设置为1;然后构建一个1*1卷积模块进行通道数的调整,步长设置为1;每个预测输出头获得1个特征图的预测结果,分别对应每张图不同尺寸的网格上的3个预测框位置;最后对预测结果进行解码得到最终的预测框在图片上的位置。
9.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤8包括:
步骤8-1:配置训练数据集与模型的相关信息,导入训练数据并训练,各数据集的训练设置如下:
VOC12:轮次为300,批大小为64,图片尺寸为640*640;
DOTA v1.0:轮次为500,批大小为64,图片尺寸为640*640;
RSOD:轮次为1000,批大小为32,图片尺寸为640*640;
DIOR:轮次为300,批大小为64,图片尺寸为640*640;
步骤8-2:训练过程中每个轮次计算一次精确度P,召回率R,mAP@0.5,mAP@0.5:0.95的值,最后绘制成曲线图,横坐标为轮次,纵坐标为P/R/map@0.5/map@0.5:0.95,公式如下:
Figure FDA0003858420800000051
Ntp:正样本预测为正样本;
Nfp:负样本预测为正样本;
Nfn:正样本预测为负样本;
AP:以P作为纵坐标,R为横坐标绘制PR曲线,AP值是PR曲线下的面积;
k:图片数目;
p(k):识别出k个图片是P的值;
Δr(k):识别的图片由k-1增加到k时召回率的变化情况;
mAP:平均精度均值;
c:类别总数;
mAP@0.5:交并比为0.5时的mAP;
mAP@0.5:0.95:步长0.05,从0.5到0.95不同交并比阈值上的平均mAP;
步骤8-3:使用训练获取的最佳权重对测试集进行测试,批大小设置为1,图片尺寸为640*640,最终输出精确度P,召回率R,mAP@0.5,mAP@0.5:0.95的值以及每张图片的推理时间T,计算帧率FPS,FPS=1000/T。
10.一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述方法的步骤。
CN202211155626.0A 2022-09-22 2022-09-22 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法 Pending CN115457395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211155626.0A CN115457395A (zh) 2022-09-22 2022-09-22 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211155626.0A CN115457395A (zh) 2022-09-22 2022-09-22 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法

Publications (1)

Publication Number Publication Date
CN115457395A true CN115457395A (zh) 2022-12-09

Family

ID=84307377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211155626.0A Pending CN115457395A (zh) 2022-09-22 2022-09-22 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法

Country Status (1)

Country Link
CN (1) CN115457395A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN116468892A (zh) * 2023-04-24 2023-07-21 北京中科睿途科技有限公司 三维点云的语义分割方法、装置、电子设备和存储介质
CN116563680A (zh) * 2023-05-05 2023-08-08 北京卫星信息工程研究所 基于高斯混合模型的遥感图像特征融合方法、电子设备
CN116958053A (zh) * 2023-06-21 2023-10-27 三峡大学 一种基于yolov4-tiny的竹签计数方法
CN117689731A (zh) * 2024-02-02 2024-03-12 陕西德创数字工业智能科技有限公司 一种基于改进YOLOv5模型的轻量化新能源重卡电池包识别方法
CN117934891A (zh) * 2024-03-25 2024-04-26 南京信息工程大学 一种基于图结构的图像对比聚类方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN116468892A (zh) * 2023-04-24 2023-07-21 北京中科睿途科技有限公司 三维点云的语义分割方法、装置、电子设备和存储介质
CN116563680A (zh) * 2023-05-05 2023-08-08 北京卫星信息工程研究所 基于高斯混合模型的遥感图像特征融合方法、电子设备
CN116563680B (zh) * 2023-05-05 2024-02-06 北京卫星信息工程研究所 基于高斯混合模型的遥感图像特征融合方法、电子设备
CN116958053A (zh) * 2023-06-21 2023-10-27 三峡大学 一种基于yolov4-tiny的竹签计数方法
CN116958053B (zh) * 2023-06-21 2024-05-14 三峡大学 一种基于yolov4-tiny的竹签计数方法
CN117689731A (zh) * 2024-02-02 2024-03-12 陕西德创数字工业智能科技有限公司 一种基于改进YOLOv5模型的轻量化新能源重卡电池包识别方法
CN117689731B (zh) * 2024-02-02 2024-04-26 陕西德创数字工业智能科技有限公司 一种基于改进YOLOv5模型的轻量化新能源重卡电池包识别方法
CN117934891A (zh) * 2024-03-25 2024-04-26 南京信息工程大学 一种基于图结构的图像对比聚类方法及系统

Similar Documents

Publication Publication Date Title
CN115457395A (zh) 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法
US20200004777A1 (en) Image Retrieval with Deep Local Feature Descriptors and Attention-Based Keypoint Descriptors
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN113706480B (zh) 一种基于关键点多尺度特征融合的点云3d目标检测方法
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN112541460B (zh) 一种车辆再识别方法及系统
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN111768375A (zh) 一种基于cwam的非对称gm多模态融合显著性检测方法及系统
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN115661767A (zh) 一种基于卷积神经网络的图像前方车辆目标识别方法
CN114565842A (zh) 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统
CN114529581A (zh) 基于深度学习及多任务联合训练的多目标跟踪方法
CN115393601A (zh) 一种基于点云数据的三维目标检测方法
CN113780287A (zh) 一种多深度学习模型的最优选取方法及系统
CN114913519B (zh) 一种3d目标检测方法、装置、电子设备及存储介质
CN114663662B (zh) 超参数搜索方法、装置、计算机设备和存储介质
CN116612382A (zh) 一种城市遥感图像目标检测方法和装置
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
CN114820755A (zh) 一种深度图估计方法及系统
CN114220078A (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN113362372B (zh) 一种单目标追踪方法及计算机可读介质
CN114444597B (zh) 基于渐进式融合网络的视觉跟踪方法及装置
Zhang Deep learning multi-modal fusion based 3D object detection
CN113591575A (zh) 一种基于改进YOLO v3网络的目标检测方法
CN115457287A (zh) 利用卷积神经网络同时进行目标检测与回归分析的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination