CN116385896A - 一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 - Google Patents
一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116385896A CN116385896A CN202310271703.7A CN202310271703A CN116385896A CN 116385896 A CN116385896 A CN 116385896A CN 202310271703 A CN202310271703 A CN 202310271703A CN 116385896 A CN116385896 A CN 116385896A
- Authority
- CN
- China
- Prior art keywords
- fusion
- feature map
- scale
- remote sensing
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 113
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 230000007246 mechanism Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000010586 diagram Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 102100025129 Mastermind-like protein 1 Human genes 0.000 claims description 10
- 101100455985 Arabidopsis thaliana MAM3 gene Proteins 0.000 claims description 9
- 101001005668 Homo sapiens Mastermind-like protein 3 Proteins 0.000 claims description 9
- 101150108881 MAM1 gene Proteins 0.000 claims description 9
- 102100025134 Mastermind-like protein 3 Human genes 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 101150064138 MAP1 gene Proteins 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012938 design process Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 abstract description 11
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 12
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 10
- 238000013461 design Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005728 strengthening Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 102100027237 MAM domain-containing protein 2 Human genes 0.000 description 2
- 101710116166 MAM domain-containing protein 2 Proteins 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101710165470 Mastermind-like protein 1 Proteins 0.000 description 1
- 102100025130 Mastermind-like protein 2 Human genes 0.000 description 1
- 101710165467 Mastermind-like protein 2 Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质,方法为:输入图像进入特征提取网络,获得多尺度融合特征图,放入可旋转区域候选网络,定义新的旋转目标检测方法和自定义损失函数,选出包含目标的候选区域图,对其进行分类预测和边界框回归,得到检测结果;系统、设备及介质,用于实现一种基于融合级联注意力机制的遥感小目标检测方法;本发明通过提供一种端到端的目标检测网络,将多尺度注意力模块MAM与融合级联注意力模块FCAM结合,在新的旋转框表示方法上,优化并改进模型的损失函数;具有减少背景噪声对检测结果的影响,增强小目标特征信息,改善正负样本不均衡,提升模型平均检测精度,提高光学遥感目标检测性能的特点。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质。
背景技术
光学遥感技术是指利用卫星、飞机、无人机等设备通过光学遥感传感器对地面进行大范围观测的一种技术,利用此技术能够高效的观测大范围的地面目标与资源。近些年来随着遥感成像技术的不断提高,遥感图像的分辨率与成像质量也不断上升,许多带有高质量标注的光学遥感图像数据开始出现,为遥感图像的目标检测,以及具体到目标子类别的细粒度识别技术提供了强有力的数据支撑。
遥感目标检测技术是遥感图像处理方面的一个基础性的任务,其目标是在遥感图像中寻找需要关注的目标,获取其在整个图像中的空间位置并做基本的分类识别。随着遥感技术的发展,在自然场景下应用广泛的细粒度识别技术,开始在遥感领域内取得突破。与粗粒度的识别技术相比,细粒度识别技术能够大幅度扩展遥感技术的应用范围。
现有的遥感目标检测方法有:
(1)光学遥感图像中的目标检测方法
遥感目标检测是通用的目标检测技术的一个分支,由于其独有的高空俯瞰视角,导致面向遥感图像的目标检测技术需要克服更多的难题。通常的基于Faster RCNN的两阶段目标检测器的步骤为:首先通过卷积网络提取特征,通过区域建议网络RPN生成候选区域,再根据特征对候选区域进行分类和回归。但将该类方法应用到光学遥感图像中,无法适应遥感图像中朝向各异的旋转目标,需要额外的方法来编码锚框的方向信息;同时,遥感图像中存在大量的密集小目标,准确的检测该类目标也是难点之一。
(2)旋转目标检测
为了适应各种方向的遥感目标,RRPN将旋转的锚框引入到FasterRCNN中,该算法起初是应用于文本检测当中,但在遥感目标检测领域也有着不错的效果。其改进了锚框的表达方式,在原有的锚框参数(x,y,w,h)上,添加了旋转角度θ。其中x,y为锚框的中心点坐标,w,h为锚框的宽和高,θ为锚框与x轴正方向的夹角。由于此方法预置了6种旋转角度的参数,使得锚框的总参数量扩大了6倍,极大的增加了计算量,并且,此方法设置的锚框过多,过于冗余,造成了大量的资源浪费。
针对RRPN中锚框数量冗余的问题,又设计一个自学习的特征提取模块,通过旋转敏感的RoIAlign将有方向的旋转不变的特征区域映射到水平特征区域,将其送入到最后的分类器中;此方法通过网络去学习旋转角度,不需要额外设置多种方向的锚框,解决了锚框冗余的问题,但是其网络本身的参数量也较大,同样有很大的计算量。
(3)旋转目标的特征对齐方法
RefineDet网络通过由粗到细的方式来回归边界框,使得特征与候选框定位更加精准,即先通过RPN网络得到粗粒度的锚框信息,然后再通过回归支路得到更加精确的边界框。但是RefineDet两次回归得到的锚框不够精准,其用于回归的特征都是与感兴趣区域不对齐的特征。AlignDet方法的第一步先对初始的锚框进行回归得到学习锚框(learnedanchor),此时的锚框已经比较接近真实的候选框了;第二步,AlignDet采用了可变性卷积在卷积核加上此位置给定的偏移量,将卷积核映射到对齐后的位置上,使用对齐的特征回归最后的锚框位置,该方法提取的对象特征不够精准,无法反映物体具体的细节特征。
名称为“一种基于FPN与PAN网络的双重注意力的遥感小目标检测方法”,公开号为「CN114821341A」的发明,首先对FPN网络中的顶层特征图进行池化得到通道向量,再将通道向量进行矩阵运算后得到通道注意力矩阵,接着将其归一化得到通道权重矩阵,并将该权重乘到特征图中得到带有通道权重的特征图,再与低层特征融合,在PAN网络中首先对底层特征图进行通道压缩得到空间向量,再将空间向量进行矩阵运算后得到空间注意力矩阵,接着将其归一化得到空间权重矩阵,并将该权重乘到特征图中得到带有空间权重的特征图,再与高层特征融合,最后送往检测头生成检测结果;该种方法由于采用了FPN与PAN双重结构的注意力机制,虽然在精度上有所上升,但是复杂的结构使得该方法具有计算量较大与模型结构臃肿的缺点。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质,通过提供一种端到端的目标检测网络,将多尺度注意力模块MAM与融合级联注意力模块FCAM相结合,在新的旋转框的表示方法上,优化并改进了模型的损失函数,具有较少背景噪声对检测结果的影响,增强小目标的特征信息,改善各类小目标的检测精度,改善了正负样本不均衡问题,提升模型的平均检测精度,提高光学遥感目标检测性能的特点。
一种基于融合级联注意力机制的遥感小目标检测方法,包括以下步骤:
步骤1:输入图像进入特征提取网络,获得通道注意力机制与多尺度融合的多尺度融合特征图;
步骤2:将经过步骤1得到的通道注意力机制与多尺度融合的多尺度融合特征图,放入可旋转的区域候选网络中,针对候选网络定义新的旋转目标的检测方法和自定义损失函数,通过区域候选网络选取出包含目标的候选区域图;
步骤3:将经过步骤2得到的候选区域图进行分类预测和边界框回归,得到基于融合级联注意力机制的遥感小目标检测结果。
所述步骤1的特征提取网络是以Resnet-50为骨干网络,经过优化后,得到多尺度注意力模块MAM和融合级联注意力模块FCAM;所述步骤1获得通道注意力机制与多尺度融合的多尺度融合特征图具体过程为:
步骤1.1:输入图像到特征提取网络的骨干网络Resnet-50进行6层卷积操作,提取到第3、4层卷积操作后的特征图;
步骤1.2:根据步骤1.1提取到的第3、4层卷积操作后的特征图一起送入融合级联注意力模块FCAM,得到带有融合多尺度特性的特征图;
步骤1.3:根据步骤1.2得到的带有融合多尺度特性的特征图,与经过骨干网络4层卷积操作后得到的特征图通过逐元素相加的操作,得到多尺度融合特征图;
步骤1.4:输出步骤1.2中的带有融合多尺度特性的特征图、步骤1.3中多尺度融合特征图以及骨干网络6层卷积操作后的特征图,将上述特征图并行输出,得到多尺度融合特征图。
所述步骤1.2中融合级联注意力模块FCAM的构建过程具体为:
步骤1.2.1:通过一个带孔洞的反卷积的操作,对骨干网络第4层进行卷积操作,输出特征图;
步骤1.2.2:将骨干网络第3层卷积操作输出后的特征图输入多尺度注意力模块MAM1,得到特征图2,将经过步骤1.2.1得到特征图1与特征图2,用逐元素相加的方式进行融合,得到融合后的特征图,送入到多尺度注意力模块MAM2,得到结合了注意力机制与多尺度融合的多尺度融合特征图。
所述的多尺度注意力模块MAM1或MAM2,是将通道注意力机制同改进的Inception结构相结合,并行引入了带有跳跃链接的空间注意力模块;所述步骤1.2.2中的多尺度注意力模块MAM1或MAM2的具体构建过程为:
步骤1.2.2.1:输入特征图,对特征图采用1×1卷积压缩输入特征的维度,得到输出通道数减少的特征图;
步骤1.2.2.2:对步骤1.2.2.1输出的特征图利用1×1卷积、3×1卷积组合1×3卷积、5×1卷积组合1×5卷积,这三路卷积操作获取不同尺度的特征;
步骤1.2.2.3:对步骤1.2.2.2输出的3路不同尺度的特征,分别连接3×3的空洞卷积,输出2~10倍感受野的的特征;
步骤1.2.2.4:通过concat的方式将步骤1.2.2.3中输出的三路不同尺度的特征进行拼接,并再次通过1×1卷积调整维度,得到多尺度融合特征;
步骤1.2.2.5:将步骤1.2.2.4输出的多尺度融合特征与通道注意力机制分支输出的通道注意力特征图进行通道相加的操作,输出中间层的特征图;
步骤1.2.2.6:将步骤1.2.2.5中的中间层的特征图进行空间注意力的操作,最终输出多尺度注意力特征图。
所述步骤1.2.2.5中的通道注意力机制分支构建过程为:
步骤1.2.2.5.1:输入原始特征图,通过一个全局平均池化将原始特征图压缩为1维度向量的特征图;
步骤1.2.2.5.2:根据步骤1.2.2.5.1得到的特征图先通过两个全连接层,后进行ReLU激活函数运算,学习通道的重要权重,得到激活后的特征图;
步骤1.2.2.5.4:根据步骤1.2.2.5.3得到的不同层的激活特征通过逐元素相乘的方式,作用于Fi,进行通道域内的特征选择作用,其计算公式如下所示,最终输出通道注意力特征图,其计算公式如下所示:
Fc=σ(MLP(AvgPool(F))),
其中σ为Sigmoid函数,F为输入特征图,MLP为两个全连接层与ReLU激活函数构成的多层感知器,AvgPool为全局平均池化操作。
所述步骤2中可旋转的区域候选网络的设计过程为:
步骤2.1:根据经过特征提取网络的多尺度融合特征图,连接1×1卷积,使得多尺度融合特征图的通道数由256转变为64,即H×W×256->H×W×64,得到通道数减少的特征图;
步骤2.2:根据经过步骤2.1得到通道数减少的特征图,采用滑窗的方式遍历每个像素点,在每个像素点上,以像素点为中心,按照预设的五种比例的水平锚框,生成候选的区域框图,后进行筛选,得到区域框图;
在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框,即{3∶1,2∶1,1∶1,1∶2,1∶3},对于每个不同位置的锚框,输出(x,w,h,Δα,Δβ)6个回归参数来为一个有向的锚框。
所述步骤2.2获得区域框图的表示方法为:
区域框图的表示方法即是中心点加偏移量的表示方法,该方法的坐标表示公式为:
其中x,y为锚框的中心点坐标,w,h分别为该有向锚框的外接水平矩形锚框的宽和高,Δα和Δβ分别表示有向锚框的顶边及右边的顶点,距离外接水平矩形锚框顶边及右边中点的偏移量,该值可正可负;(x1,y1)、(x2,y2)、(x3,y3)与(x4,y4)为有向边界框四个顶点的坐标。
所述步骤2中的自定义的损失函数为:
其中,i是每个训练批次(batch)中锚框的编号,N是锚框的最大总量,pi是第i个锚框属于前景的概率,是第i个锚框的真实候选,/>是第i个锚框同真实候选框的差异也就是偏移量,Freg是SmoothL1损失,其定义公式为:
一种基于融合级联注意力机制的遥感小目标检测系统,包括:
特征提取模块:将输入的图像进行多尺度的特征提取,并将不同尺度的特整图融合,生成融合特征;
区域候选模块:在特征提取模块生成的融合特征的基础上,寻找到目标所在的区域框图,将其送入分类预测模块;
分类预测模块:将区域候选模块中送入的区域框图进行分类预测,得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出。
一种基于融合级联注意力机制的遥感小目标检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的种基于融合级联注意力机制的遥感小目标检测方法。
一种计算机可读存储介质,包括:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够对一种基于融合级联注意力机制的遥感小目标进行检测。
相对于现有技术,本发明的有益效果在于:
1.本发明针对光学遥感图像中背景复杂多样的问题,设计了多尺度注意力模块MAM,可用于过滤无用特征;设计了融合级联注意力模块FCAM,可获得更好的小目标检测能力;针对数据集类别极度不平衡的问题,在新的旋转框的表示方法上,优化并改进了模型的损失函数,提高了模型的平均检测性能,提升了光学遥感目标检测性能。
2.本发明结合了Inception网络以及通道域和空间域上的两种注意力机制的思路,设计了多尺度注意力模块MAM,多尺度注意力模块MAM可将通道注意力机制同改进的Inception结构相结合,然后并行引入了一个带有跳跃链接的空间注意力模块,起到同时保留重要的通道信息与空间信息与扩大感受野的作用。
3.本发明针对旋转目标的实现问题,改进了区域候选网络以适应极端长宽比的目标,设计可选转的区域候选网络,即在特征金字塔的每一层都分别连接1个3×3卷积和两个并行的1×1卷积去学习有向的锚框,为了适应更多的极限长宽比的目标,在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框,即{3:1,2:1,1:1,1:2,1:3},对于每个不同位置的锚框,输出(x,w,h,Δα,Δβ)6个回归参数来表示一个有向的锚框,可旋转的区域候选网络的损失函数定义为可实现极端长宽比的目标。
4.本发明在卷积神经网络中,通过一系列的卷积、非线性激活函数、可旋转的区域候选特征网络的互相连接,能够提取到图像中各个位置的空间信息和通道信息,实现了通过一种机制来提取到具有强判别性的多尺度特征。
5.本发明中Inception结构通过加宽网络的方式,在保证模型质量的前提下,减少参数个数,提升了高维特征的提取能力,通过进行多尺度卷积以及池化的操作来得到不同尺度的特征,最后将这些特征进行融合叠加,即通过将稀疏矩阵聚类为较为密集的子矩阵的方式提高了计算性能。
6.本发明通过注意力机制模仿了人眼对物体的观察方式,学习人眼对重点区域额外关注的特性,设计了能够强化局部的空间区域的方法,通过一个可以自学习的网络,学习各个位置的权重信息,从而抑制无用的背景等特征,并强化稀少的小目标等物体的特征,从而使得整个特征图具有更强的判别性。
7.本发明通过提供一种端到端的目标检测网络,将多尺度注意力模块MAM与融合级联注意力模块FCAM相结合,在新的旋转框的表示方法上,优化并改进了模型的损失函数,因此可以对复杂背景下的各类目标有着较为精准的检测效果,经过实验也验证了本发明的鲁棒性与有效性。
附图说明
图1为本发明的方法流程图。
图2为本发明的特征提取网络结构图。
图3为本发明的融合级联注意力模块FCAM结构图。
图4为本发明的多尺度注意力模块MAM结构图。
图5为本发明的可旋转的区域候选网络图。
图6为本发明DOTA数据集上的可视化结果图。
图7为本发明与当前同领域方法性能的对比图。
具体实施方式
下面结合附图对本发明的工作原理作详细叙述。
参见图1,一种基于融合级联注意力机制的遥感小目标检测方法,包括以下步骤:
步骤1:输入图像进入特征提取网络,获得注意力机制与多尺度融合的多尺度融合特征图;
步骤2:将经过步骤1得到的注意力机制与多尺度融合的多尺度融合特征图,放入可旋转的区域候选网络中,针对候选网络定义新的旋转目标的检测方法和自定义损失函数,通过该网络选取出包含目标的候选区域图;
步骤3:将经过步骤2处理得到的候选区域图进行分类预测和边界框回归,得到基于融合级联注意力机制的遥感小目标检测结果;注意力机制模仿了人眼对物体的观察方式,学习人眼对重点区域额外关注的特性,设计了能够强化局部的空间区域的方法,通过一个可以自学习的网络,学习各个位置的权重信息,从而抑制无用的背景等特征,并强化稀少的小目标等物体的特征,从而使得整个特征图具有更强的判别性。
所述步骤1的特征提取网络是以Resnet-50为骨干网络,经过优化后,得到多尺度注意力模块MAM和融合级联注意力模块FCAM;设计了多尺度注意力模块MAM,可用于过滤无用特征;设计了融合级联注意力模块FCAM,可获得更好的小目标检测能力。
参见图2,所述步骤1获得注意力机制与多尺度融合的多尺度融合特征图具体过程为:
步骤1.1:输入图像到特征提取网络的骨干网络Resnet-50进行6层卷积操作,提取到第3、4层卷积操作后的特征图;
步骤1.2:根据步骤1.1提取到的第3、4层卷积操作后的特征图一起送入融合级联注意力模块FCAM,得到带有融合多尺度特性的特征图;
步骤1.3:根据步骤1.2得到的带有融合多尺度特性的特征图,与经过骨干网络4层卷积操作后得到的特征图进行通道相加的操作,得到多尺度融合特征图;
步骤1.4:输出步骤1.2中的带有融合多尺度特性的特征图、步骤1.3中多尺度融合特征图以及骨干网络6层卷积操作后的特征图,将上述特征图并行输出,得到多尺度融合特征图;所述步骤1的特征提取网络是以Resnet-50为骨干网络,经过优化后,得到多尺度注意力模块MAM和融合级联注意力模块FCAM。
参见图3,所述步骤1.2中融合级联注意力模块FCAM的构建过程具体为:
步骤1.2.1:通过一个带孔洞的反卷积的操作,对骨干网络第4层卷积操作,输出特征图,即C4层特征图进行两倍上采样,输出特征图1;
步骤1.2.2:将骨干网络第3层卷积操作输出后的特征图输入多尺度注意力模块MAM1,得到特征图2,将经过步骤1.2.1得到特征图1与特征图2,用逐元素相加的方式进行融合,得到融合后的特征图,送入到多尺度注意力模块MAM2,得到结合了注意力机制与多尺度融合的多尺度融合特征图;可增强融合特征的语义信息,提升小尺度目标的特征数量;
在骨干网络的C3和C4层上添加了融合级联注意力模块FCAM,通过此类模块的串联设计,可以提升多尺度的特征提取能力,从而改善小目标多,分布稠密的问题。
参见图4,所述步骤1.2.2中的多尺度注意力模块MAM1和MAM2的具体构建过程为:
步骤1.2.2.1:输入特征图,对特征图采用1×1卷积压缩输入特征的维度,可减少计算量,得到输出通道数减少的特征图;
步骤1.2.2.2:对步骤1.2.2.1输出的特征图利用1×1卷积、3×1卷积组合1×3卷积、5×1卷积组合1×5卷积,这三路卷积操作获取不同尺度的特征;
步骤1.2.2.3:对步骤1.2.2.2输出的3路不同尺度的特征,分别连接3×3的空洞卷积,输出2~10倍感受野的的特征,可进一步提升网络的感受野与深层特征提取能力,并且控制计算量的提升;
步骤1.2.2.4:通过concat的方式将步骤1.2.2.3中输出的三路不同尺度的特征进行拼接,并再次通过1×1卷积调整维度,得到多尺度融合特征;
步骤1.2.2.5:将步骤1.2.2.4输出的多尺度融合特征与通道注意力机制分支输出的通道注意力特征图进行通道相加的操作,输出中间层的特征图;
步骤1.2.2.6:将步骤1.2.2.5中的中间层的特征图进行空间注意力的操作,最终输出多尺度注意力特征图;
多尺度注意力模块MAM1或MAM2,是将通道注意力机制同改进的Inception结构相结合,并行引入了带有跳跃链接的空间注意力模块;结合了Inception网络以及通道域和空间域上的两种注意力机制的思路,设计了多尺度注意力模块MAM即MAM1和MAM2,多尺度注意力模块MAM可将通道注意力机制同改进的Inception结构相结合,然后并行引入了一个带有跳跃链接的空间注意力模块,起到同时保留重要的通道信息与空间信息与扩大感受野的作用;Inception结构通过加宽网络的方式,在保证模型质量的前提下,减少参数个数,提升了高维特征的提取能力,通过进行多尺度卷积以及池化的操作来得到不同尺度的特征,最后将这些特征进行融合叠加,即通过将稀疏矩阵聚类为较为密集的子矩阵的方式提高了计算性能。
所述步骤1.2.2.5中的通道注意力机制分支构建过程为:
步骤1.2.2.5.1:输入原始特征图,通过一个全局平均池化将原始特征图压缩为1维度向量的特征图;
步骤1.2.2.5.2:根据步骤1.2.2.5.1得到的特征图先通过两个全连接层,后进行ReLU激活函数运算,学习通道的重要权重,得到激活后的特征图;
步骤1.2.2.5.4:根据步骤1.2.2.5.3得到的不同层的激活特征通过逐元素相乘的方式,作用于Fi,进行通道域内的特征选择作用,其计算公式如下所示,最终输出通道注意力特征图,其计算公式如下所示:
Fc=σ(MLP(AvgPool(F))),
其中σ为Sigmoid函数,F为输入特征图,MLP为两个全连接层与ReLU激活函数构成的多层感知器,AvgPool为全局平均池化操作。
参见图5,所述可旋转的区域候选网络的设计过程为:
步骤2.1:根据经过特征提取网络的多尺度融合特征图,连接1×1卷积,使得多尺度融合特征图的通道数由256转变为64,即H×W×256—>H×W×64,得到通道数减少的特征图;
步骤2.2:根据经过步骤2.1得到通道数减少的特征图,采用滑窗的方式遍历每个像素点,在每个像素点上,以像素点为中心,按照预设的五种比例的水平锚框,生成候选的区域框图,后进行训练拟合,得到区域框图,即图中的Decoding过程;以一个点(x,y)为例,在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框,即{3:1,2:1,1:1,1:2,1:3},对于每个不同位置的锚框,输出(x,w,h,Δα,Δβ)6个回归参数来表示一个有向的锚框,可实现极端长宽比的目标。
所述步骤2.2区域框图的表示方法即中心点加偏移量的表示方法,该方法的坐标表示公式如下所示:
其中,x,y为锚框的中心点坐标,w,h分别为该有向锚框的外接水平矩形锚框的宽和高,Δα和Δβ分别表示有向锚框的顶边及右边的顶点,距离外接水平矩形锚框顶边及右边中点的偏移量,该值可正可负;(x1,y1)、(x2,y2)、(x3,y3)与(x4,y4)为有向边界框四个顶点的坐标。
所述步骤2中的自定义的损失函数为:
其中,i是每个训练批次(batch)中锚框的编号,N是锚框的最大总量,pi是第i个锚框属于前景的概率,是第i个锚框的真实候选,/>是第i个锚框同真实候选框的差异也就是偏移量,Freg是Smooth L1损失,其定义公式为:
为了验证本发明提出的旋转的多尺度注意力网络的有效性和可行性,在DOTA数据集、UCAS-AOD数据集以及HRSC2016数据集上进行实验。
在DOTA数据集上,先针对粗粒度的目标检测问题,验证本方法的小目标检测能力;然后,在HRSC2016数据集上进行舰船检测实验,再扩展到细粒度识别任务上做初步的验证;最后,在UCAS-AOD数据集上进行泛化实验,验证方法的鲁棒性。
为了评估遥感图像目标检测模型的性能,将旋转多尺度注意力网络RMAN与目前针对遥感目标检测所设计的一些优秀方法进行对比,在DOTA数据集上,对比了CAD-Net、SCR-Det、DRN以及R3-Det。
试验结果如表所示:
其中,15类目标分别为:飞机(PL)、棒球场(BD)、桥梁(BR)、田径场(GTF)、小型车辆(SV)、大型车辆(LV)、船只(SH)、网球场(TC)、篮球场(BC)、油罐(ST)、足球场(SBF)、交叉路口(RA)、港口(HA)、游泳池(SP)和直升机(HC);
从上表可以看出,本发明多尺度注意力网络RMAN在DOTA数据集上的平均精度值达到了73.34%,比R3Det的平均精度高1.38%,在每个测试结果中,多尺度注意力网络RMAN在SV、LV、TC、ST和HA类别中取得了最好的性能;在小型车辆类中,多尺度注意力网络RMAN的精度达到了74.21%,比DRN高0.73%;在油罐类中,多尺度注意力网络RMAN的AP达到了88.53%,比SCRDet的精度高1.67%。
参见图6,图(a)是针对密集分布的车辆类别的目标,本发明对图片中存在的车辆类别目标精准的选中,其中黄色框体选中的是小型货车,绿色框体选中的是大型货车,并对其类别做出了正确的判断;图(b)是针对密集分布的船舶类目标,其中绿色框体选中的是船类目标,蓝色框体选中的是港口目标,可以看出本发明准确的寻找到目标并做出了正确的判别;图(c)针对的是不同类别、尺度的目标,黄色框体选中的是小型火车目标,浅绿色框体选中的是船类目标,深绿色框体选中的是网球场目标;可以看出本发明准确并完整的对目标进行框选,并且做出了正确的分类;图(d)深绿色框体选中的是网球场目标,黄色框体选中的是小型货车目标,可以看出本发明对复杂背景下的各类目标有着较为精准的检测效果。
参见图7,与DOTA数据集不同,HRSC2016数据集中的对象多为纵横比很大的舰船目标,并且其朝向各异;在HRSC2016数据集上进行二分类检测时,多尺度注意力网络RMAN在HRSC216数据集上的准确率达到93.3%,比DRN高0.6%。
为了验证泛化能力,本发明使用多尺度注意力网络RMAN在UCAS-AOD数据集上进行跨数据集验证,结果如表2所示:
算法 | DOTA(mAP%) | UCAS-AOD(mAP%) |
DRN | 70.70 | 85.73 |
R3Det | 71.69 | 83.16 |
RMAN(Ours) | 73.34 | 87.24 |
表2:UCAS-AOD数据集上的泛化验证结果
本实施例提出的模型是在DOTA数据集上进行训练的,但在UCAS-AOD数据集上取得了很好的效果,提升了整体的检测精度;
此外,在DOTA数据集上进行了消融实验,以验证本节所提出的模块与优化方法对算法的整体影响,实验结果如表3所示:
表3:在DOTA数据集上的消融实验结果
由表3可知,改进的损失函数使mAP提高了2.27%,在此基础上,多尺度注意力模块MAM使mAP提高了2.83%,结合了多尺度注意力模块MAM与融合级联注意力模块FCAM的方法,自顶向下的结合了深、浅层特征,相比于只采用了改进的损失函数的方法,使得检测精度整体上提高了6.30%。总的来说,改进的损失函数、多尺度注意力模块MAM和融合级联注意力模块FCAM的组合使mAP比基线增加了11.02%。
一种基于融合级联注意力机制的遥感小目标检测系统,包括:
特征提取模块:将输入的图像进行多尺度的特征提取,并将不同尺度的特整图融合,生成融合特征;
区域候选模块:在特征提取模块生成的融合特征的基础上,寻找到目标所在的区域框图,将其送入分类预测模块;
分类预测模块:将区域候选模块中送入的区域框图进行分类预测,得出预测结果并进行输出。
一种基于融合级联注意力机制的遥感小目标检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的一种基于融合级联注意力机制的遥感小目标检测方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够对一种基于融合级联注意力机制的遥感小目标进行检测。
所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器也可以是任何常规的处理器等,所述处理器是所述一种基于融合级联注意力机制的遥感小目标检测设备的控制中心,利用各种接口和线路连接整个一种基于融合级联注意力机制的遥感小目标检测设备的各个部分。
所述处理器执行所述计算机程序时实现上述一种基于融合级联注意力机制的遥感小目标检测方法的步骤,例如:输入图像进入特征提取网络,获得通道注意力机制与多尺度融合的多尺度融合特征图;将经过步骤1得到的通道注意力机制与多尺度融合的多尺度融合特征图,放入可旋转的区域候选网络中,针对候选网络定义新的旋转目标的检测方法和自定义损失函数,通过对区域候选网络选取出包含目标的候选区域图;实现了所述得到基于融合级联注意力机制的遥感小目标检测结果。
或者,所述处理器执行所述计算机程序时实现上述系统中各模块的功能,例如:特征提取模块:将输入的图像进行多尺度的特征提取,并将不同尺度的特整图融合,生成融合特征;区域候选模块:在特征提取模块生成的融合特征的基础上,寻找到目标所在的区域框图,将其送入分类预测模块;分类预测模块:将区域候选模块中送入的区域框图进行分类预测,得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出;输出得到所述一种基于融合级联注意力机制的遥感小目标检测结果。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成预设功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序在所述一种基于融合级联注意力机制的遥感小目标检测的设备中的执行过程。例如,所述计算机程序可以被分割成特征提取模块、区域候选模块、分类预测模块,各模块具体功能如下:特征提取模块:将输入的图像进行多尺度的特征提取,并将不同尺度的特整图融合,生成融合特征;区域候选模块:在特征提取模块生成的融合特征的基础上,寻找到目标所在的区域框图,将其送入分类预测模块;分类预测模块:将区域候选模块中送入的区域框图进行分类预测,得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出;输出得到所述一种基于融合级联注意力机制的遥感小目标检测系统的结果。
所述一种基于融合级联注意力机制的遥感小目标检测设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述一种基于融合级联注意力机制的遥感小目标检测设备可包括,但不仅限于处理器、存储器。本领域技术人员可以理解,上述是一种基于融合级联注意力机制的遥感小目标检测设备的示例,并不构成对一种基于融合级联注意力机制的遥感小目标检测设备的限定,可以包括比上述更多的部件,或者组合某些部件,或者不同的部件,例如所述一种基于融合级联注意力机制的遥感小目标检测设备还可以包括输入输出设备、网络接入设备、总线等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于融合级联注意力机制的遥感小目标检测设备的各种功能。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种基于融合级联注意力机制的遥感小目标检测的方法的步骤。
所述一种基于融合级联注意力机制的遥感小目标检测系统集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
本发明实现上述一种基于融合级联注意力机制的遥感小目标检测方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述一种基于融合级联注意力机制的遥感小目标检测方法的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或预设中间形式等。
所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。
本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
Claims (10)
1.一种基于融合级联注意力机制的遥感小目标检测方法,其特征在于,包括以下步骤:
步骤1:输入图像进入特征提取网络,获得通道注意力机制与多尺度融合的多尺度融合特征图;
步骤2:将经过步骤1得到的通道注意力机制与多尺度融合的多尺度融合特征图,放入可旋转的区域候选网络中,针对候选网络定义新的旋转目标的检测方法和自定义损失函数,通过区域候选网络选取出包含目标的候选区域图;
步骤3:将经过步骤2得到的候选区域图进行分类预测和边界框回归,得到基于融合级联注意力机制的遥感小目标检测结果。
2.根据权利要求1所述的一种基于融合级联注意力机制的遥感小目标检测方法,其特征在于,所述步骤1的特征提取网络是以Resnet-50为骨干网络,经过优化后,得到多尺度注意力模块MAM和融合级联注意力模块FCAM;所述步骤1获得通道注意力机制与多尺度融合的多尺度融合特征图具体过程为:
步骤1.1:输入图像到特征提取网络的骨干网络Resnet-50进行6层卷积操作,提取到第3、4层卷积操作后的特征图;
步骤1.2:根据步骤1.1提取到的第3、4层卷积操作后的特征图一起送入融合级联注意力模块FCAM,得到带有融合多尺度特性的特征图;
步骤1.3:根据步骤1.2得到的带有融合多尺度特性的特征图,与经过骨干网络4层卷积操作后得到的特征图通过逐元素相加的操作,得到多尺度融合特征图;
步骤1.4:输出步骤1.2中的带有融合多尺度特性的特征图、步骤1.3中多尺度融合特征图以及骨干网络6层卷积操作后的特征图,将上述特征图并行输出,得到多尺度融合特征图。
3.根据权利要求2所述的一种基于融合级联注意力机制的遥感小目标检测方法,其特征在于,所述步骤1.2中融合级联注意力模块FCAM的构建过程具体为:
步骤1.2.1:通过一个带孔洞的反卷积的操作,对骨干网络第4层进行卷积操作,输出特征图;
步骤1.2.2:将骨干网络第3层卷积操作输出后的特征图输入多尺度注意力模块MAM1,得到特征图2,将经过步骤1.2.1得到特征图1与特征图2,用逐元素相加的方式进行融合,得到融合后的特征图,送入到多尺度注意力模块MAM2,得到结合了注意力机制与多尺度融合的多尺度融合特征图。
4.根据权利要求3所述的一种基于融合级联注意力机制的遥感小目标检测方法,其特征在于,所述的多尺度注意力模块MAM1或MAM2,是将通道注意力机制同改进的Inception结构相结合,并行引入了带有跳跃链接的空间注意力模块;所述步骤1.2.2中的多尺度注意力模块MAM1或MAM2的具体构建过程为:
步骤1.2.2.1:输入特征图,对特征图采用1×1卷积压缩输入特征的维度,得到输出通道数减少的特征图;
步骤1.2.2.2:对步骤1.2.2.1输出的特征图利用1×1卷积、3×1卷积组合1×3卷积、5×1卷积组合1×5卷积,这三路卷积操作获取不同尺度的特征;
步骤1.2.2.3:对步骤1.2.2.2输出的3路不同尺度的特征,分别连接3×3的空洞卷积,输出2~10倍感受野的特征;
步骤1.2.2.4:通过concat的方式将步骤1.2.2.3中输出的三路不同尺度的特征进行拼接,并再次通过1×1卷积调整维度,得到多尺度融合特征;
步骤1.2.2.5:将步骤1.2.2.4输出的多尺度融合特征与通道注意力机制分支输出的通道注意力特征图进行通道相加的操作,输出中间层的特征图;
步骤1.2.2.6:将步骤1.2.2.5中的中间层的特征图进行空间注意力的操作,最终输出多尺度注意力特征图。
5.根据权利要求4所述的一种基于融合级联注意力机制的遥感小目标检测方法,其特征在于,所述步骤1.2.2.5中的通道注意力机制分支构建过程为:
步骤1.2.2.5.1:输入原始特征图,通过一个全局平均池化将原始特征图压缩为1维度向量的特征图;
步骤1.2.2.5.2:根据步骤1.2.2.5.1得到的特征图先通过两个全连接层,后进行ReLU激活函数运算,学习通道的重要权重,得到激活后的特征图;
步骤1.2.2.5.4:根据步骤1.2.2.5.3得到的不同层的激活特征通过逐元素相乘的方式,作用于Fi,进行通道域内的特征选择作用,其计算公式如下所示,最终输出通道注意力特征图,其计算公式如下所示:
Fc=σ(MLP(AvgPool(F))),
其中,σ为Sigmoid函数,F为输入特征图,MLP为两个全连接层与ReLU激活函数构成的多层感知器,AvgPool为全局平均池化操作。
6.根据权利要求1所述的一种基于融合级联注意力机制的遥感小目标检测方法,其特征在于,所述步骤2中可旋转的区域候选网络的设计过程为:
步骤2.1:根据经过特征提取网络的多尺度融合特征图,连接1×1卷积,使得多尺度融合特征图的通道数由256转变为64,即H×W×256—>H×W×64,得到通道数减少的特征图;
步骤2.2:根据经过步骤2.1得到通道数减少的特征图,采用滑窗的方式遍历每个像素点,在每个像素点上,以像素点为中心,按照预设的五种比例的水平锚框,生成候选的区域框图,后进行筛选,得到区域框图;
在每个空间位置上的所有层级的特征中设置了五种比例的水平锚框,即{3:1,2:1,1:1,1:2,1:3},对于每个不同位置的锚框,输出(x,w,h,Δα,Δβ)6个回归参数来表示一个有向的锚框;
所述步骤2.2获得区域框图的表示方法为:
区域框图的表示方法即是中心点加偏移量的表示方法,该方法的坐标表示公式为:
其中,x,y为锚框的中心点坐标,w,h分别为该有向锚框的外接水平矩形锚框的宽和高,Δα和Δβ分别表示有向锚框的顶边及右边的顶点,距离外接水平矩形锚框顶边及右边中点的偏移量,该值可正可负;(x1,y1)、(x2,y2)、(x3,y3)与(x4,y4)为有向边界框四个顶点的坐标。
8.一种基于融合级联注意力机制的遥感小目标检测系统,其特征在于,包括:
特征提取模块:将输入的图像进行多尺度的特征提取,并将不同尺度的特整图融合,生成融合特征;
区域候选模块:在特征提取模块生成的融合特征的基础上,寻找到目标所在的区域框图,将其送入分类预测模块;
分类预测模块:将区域候选模块中送入的区域框图进行分类预测,得到基于融合级联注意力机制的遥感小目标检测结果预测结果并输出。
9.一种基于融合级联注意力机制的遥感小目标检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的权利要求1-7一种基于融合级联注意力机制的遥感小目标检测方法。
10.一种计算机可读存储介质,其特征在于,包括:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够对权利要求1-7一种基于融合级联注意力机制的遥感小目标进行检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271703.7A CN116385896A (zh) | 2023-03-20 | 2023-03-20 | 一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310271703.7A CN116385896A (zh) | 2023-03-20 | 2023-03-20 | 一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385896A true CN116385896A (zh) | 2023-07-04 |
Family
ID=86966708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310271703.7A Pending CN116385896A (zh) | 2023-03-20 | 2023-03-20 | 一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385896A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152576A (zh) * | 2023-10-27 | 2023-12-01 | 北京观微科技有限公司 | 遥感图像的舰船检测方法、装置、电子设备及存储介质 |
CN117636172A (zh) * | 2023-12-06 | 2024-03-01 | 中国科学院长春光学精密机械与物理研究所 | 面向遥感图像弱小目标的目标检测方法及系统 |
CN117671473A (zh) * | 2024-02-01 | 2024-03-08 | 中国海洋大学 | 基于注意力和多尺度特征融合的水下目标检测模型及方法 |
CN117689880A (zh) * | 2024-02-01 | 2024-03-12 | 东北大学 | 基于机器学习用于生物医学图像中目标识别的方法及系统 |
-
2023
- 2023-03-20 CN CN202310271703.7A patent/CN116385896A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152576A (zh) * | 2023-10-27 | 2023-12-01 | 北京观微科技有限公司 | 遥感图像的舰船检测方法、装置、电子设备及存储介质 |
CN117152576B (zh) * | 2023-10-27 | 2023-12-29 | 北京观微科技有限公司 | 遥感图像的舰船检测方法、装置、电子设备及存储介质 |
CN117636172A (zh) * | 2023-12-06 | 2024-03-01 | 中国科学院长春光学精密机械与物理研究所 | 面向遥感图像弱小目标的目标检测方法及系统 |
CN117671473A (zh) * | 2024-02-01 | 2024-03-08 | 中国海洋大学 | 基于注意力和多尺度特征融合的水下目标检测模型及方法 |
CN117689880A (zh) * | 2024-02-01 | 2024-03-12 | 东北大学 | 基于机器学习用于生物医学图像中目标识别的方法及系统 |
CN117689880B (zh) * | 2024-02-01 | 2024-04-16 | 东北大学 | 基于机器学习用于生物医学图像中目标识别的方法及系统 |
CN117671473B (zh) * | 2024-02-01 | 2024-05-07 | 中国海洋大学 | 基于注意力和多尺度特征融合的水下目标检测模型及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | HyperLi-Net: A hyper-light deep learning network for high-accurate and high-speed ship detection from synthetic aperture radar imagery | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
Gao et al. | Multiscale residual network with mixed depthwise convolution for hyperspectral image classification | |
CN116385896A (zh) | 一种基于融合级联注意力机制的遥感小目标检测方法、系统、设备及介质 | |
CN108764063B (zh) | 一种基于特征金字塔的遥感影像时敏目标识别系统及方法 | |
WO2023015743A1 (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
WO2021147325A1 (zh) | 一种物体检测方法、装置以及存储介质 | |
CN111523521A (zh) | 一种双支路融合多尺度注意神经网络的遥感图像分类方法 | |
CN110084093B (zh) | 基于深度学习的遥感图像中目标检测与识别的方法及装置 | |
Anderson et al. | Fuzzy choquet integration of deep convolutional neural networks for remote sensing | |
CN113743417B (zh) | 语义分割方法和语义分割装置 | |
CN111914804A (zh) | 多角度旋转遥感图像小目标检测方法 | |
CN112364979B (zh) | 一种基于GoogLeNet的红外图像识别方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
Lin et al. | Lateral refinement network for contour detection | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
Guo et al. | Salient object detection from low contrast images based on local contrast enhancing and non-local feature learning | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
Xu et al. | Feature-selection high-resolution network with hypersphere embedding for semantic segmentation of VHR remote sensing images | |
CN112084897A (zh) | 一种gs-ssd的交通大场景车辆目标快速检测方法 | |
Ye et al. | Remote sensing image instance segmentation network with transformer and multi-scale feature representation | |
Chen et al. | Coupled global–local object detection for large vhr aerial images | |
CN112508863B (zh) | 一种基于rgb图像和msr图像双通道的目标检测方法 | |
Leng et al. | Single-shot augmentation detector for object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |