CN118379480A - 一种基于焦点注意网络增强的海陆空微小目标检测方法 - Google Patents

一种基于焦点注意网络增强的海陆空微小目标检测方法 Download PDF

Info

Publication number
CN118379480A
CN118379480A CN202410369332.0A CN202410369332A CN118379480A CN 118379480 A CN118379480 A CN 118379480A CN 202410369332 A CN202410369332 A CN 202410369332A CN 118379480 A CN118379480 A CN 118379480A
Authority
CN
China
Prior art keywords
candidate
target
bounding box
frame
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410369332.0A
Other languages
English (en)
Inventor
金伟强
王晓田
闫天
曾庆杰
王宁伟
张瑜
石博航
张紫薇
赵彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202410369332.0A priority Critical patent/CN118379480A/zh
Publication of CN118379480A publication Critical patent/CN118379480A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于焦点注意网络增强的海陆空微小目标检测方法,包括:基于视觉状态空间模型的图像特征提取;基于改进区域建议网络的候选框生成;基于非极大值抑制算法的候选框筛选;借助自适应几何修正的候选框边界对齐;基于焦点注意网络的改进候选框回归修正:引入焦点注意网络,并设计两类损失函数,注意力指导损失和焦点边界吸附损失,前者为网络模型对小目标的检测附加更敏感的注意力权重,改善海陆空场景中的微小目标检测;后者用于计算并优化候选边界框与目标边界框之间的相对位置回归损失,并以此提升对微小目标的候选框回归至目标框的优化能力。本发明提高了复杂海陆空场景下微小目标检测任务的准确性和执行效率。

Description

一种基于焦点注意网络增强的海陆空微小目标检测方法
技术领域
本发明涉及海陆空微小目标检测技术领域,具体涉及一种基于焦点注意网络增强的海陆空微小目标检测方法。
背景技术
随着人工智能技术的快速发展,海陆空微小目标检测技术领域受益于人工智能技术的迅猛发展,当前正处于快速发展的阶段并在社会生产生活中扮演着越来越重要的角色。此外,军事侦察、边境安全监控、海上救援、智能交通监控等领域对海陆空微小目标检测技术的性能需求日益紧迫,全面智能化的装备升级将成为未来国际发展的趋势。
尽管目前主流的微小目标检测方法具有诸多优势,但实际应用中仍面临一些困难和挑战:
1、骨干网络感受野受限且计算复杂度高:当前主流的特征提取骨干网络,以CNN卷积神经网络和ViT模型为代表,存在一系列缺陷:CNN采用固定大小的卷积核进行局部感受野处理,导致模型在处理全局信息时受限;ViT模型虽利用注意力机制实现了全局感知,但导致了模型计算复杂度成平方增长,尤其在处理高分辨率超清图像时面临巨大的计算开销;
2、目标环境复杂性:海陆空中图像中的目标通常受到复杂的背景干扰,例如建筑物、道路、水体等,这增加了目标检测的难度,特别是针对小型目标,其与背景之间的对比度可能很低,使得其更容易被忽略或错误地分类;
3、目标形态多样性:空中图像中的目标形态各异,有些目标可能呈现不规则形状、旋转或者尺寸较小,这增加了目标检测的复杂性。传统方法往往难以适应这种多样性,因此需要一种能够灵活应对不同形态目标的检测模型;
4、训练样本不平衡:在海陆空复杂场景的图像中,有方向性的微小目标往往是少数类别,相对于背景或其他常见目标,其数量较少,导致了训练样本的不平衡问题,传统的目标检测模型可能会出现对少数类别的识别效果不佳的情况。
发明内容
本发明的目的在于提供了一种基于焦点注意网络增强的海陆空微小目标检测方法。该方法通过在引入VMamba视觉状态空间模型作为特征提取骨干网络,并在原始可转向R-CNN检测头的分类与回归优化过程基础上,引入了新颖的焦点注意网络,进一步增强目标分类与边界框回归的性能,提高了复杂海陆空场景下微小目标检测任务的准确性和执行效率。
为达到上述目的,本申请提供如下技术方案:
本发明所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,面向海陆空微小目标检测技术领域,该方法的主要步骤包括:
(1)基于视觉状态空间模型的图像特征提取:给定正执行目标探查任务的海陆空探测器,将其配备的监控系统下的视频传感器采集的实时帧作为该方法的图像输入。借助视觉状态空间模型作为特征编码骨干网络,对所述图像实时帧编码,完成特征提取并得到骨干网络每层块的特征图表示;
(2)基于改进区域建议网络的候选框生成:给定改进区域建议网络,上述特征编码骨干网络最后的五层特征图表示作为该网络的输入,通过滑动窗口遍历每层特征图,获取前后景分类结果以及锚框坐标的偏移量预测结果,以此依据获取大量可视为前景的候选框;
(3)基于非极大值抑制算法的候选框筛选:通过非极大值抑制算法,从上述大量前景候选框中,去除掉区域重复度高的且置信度低的重叠候选框,保留置信度最高的候选边界框,并做后续目标类别分类和边界修正优化;
(4)借助自适应几何修正的候选框边界对齐:上述生成的候选框默认为平行四边形,由于该形状的边界框自由度较高,不适用于后续分类与回归优化。为此,引入自适应几何修正策略,将候选框边界对齐至转向矩形边界框。该自适应几何修正策略,利用候选框的中心点横纵坐标、锚框长宽、以及转向偏移量,计算出该候选框的四个顶点。进而,基于长对角线上的两顶点,延长短对角线上的两顶点,使得该短对角线延长后的长度等于原长对角线长度。最终,将原长对角线两顶点与延长后短对角线的两顶点作为对齐后的矩形候选框;
(5)基于焦点注意网络的改进候选框回归修正:区别于原始可转向R-CNN的检测头分类与回归优化,在该过程中额外引入了新颖的焦点注意网络,包含两个新关键损失优化函数,注意力指导损失和焦点边界吸附损失,用于辅助增强原始R-CNN的分类与回归过程,该网络改善了原R-CNN检测模型对海陆空图像拍摄的微小物体的检测精度,并提高了复杂语义场景下的整体目标检测性能。借助焦点注意网络增强后的原R-CNN检测模型,对上述对齐后的矩形候选边界框进行目标分类损失函数与边界框回归修正损失函数的优化,完成海陆空图像中目标类别判定与定位。
通过以上五大步骤,完成探测器对海陆空微小目标实时检测任务。
优选的,所述方法执行流程中的步骤(1):基于视觉状态空间模型的图像特征提取的过程,所使用的特征编码骨干网络为VMamba视觉状态空间模型,VMamba模型是区别于卷积神经网络(CNN)与视觉Transformer(ViT),是一种新颖的可取缔上述视觉表征基础模型的颠覆性骨干网络。VMamba模型结合了ViT的全局的感受野和动态的权重分配特性以及卷积神经网络CNN的高效的线性计算复杂度,通过其中的交叉扫描模块(CSM)模块,能够在不破坏全局感受野的前提下,达到线性复杂度。此外,随着图像分辨率的增加,VMamba的优势更加明显,更擅长于与本方法所涉及的海陆空关键目标探查任务类似的复杂语义场景。
优选的,所述方法执行流程中的步骤(2):基于改进区域建议网络的候选框生成的过程,具体包括:
首先,初始化维度为256的3×3卷积核,以及两个维度分别是2与6的1×1卷积核,通过3×3卷积核对五层特征图的每层分别通过滑动窗口进行滑动卷积操作,假设其中一层特征图维度36×W×H,通过256×3×3的滑动卷积后,得到256×W×H个特征向量;
随后,设置锚框特征包含三种长宽比{1:1,2:1,1:2}以及三种尺寸大小{1,2,3},锚框总数为9。随后,在上述的滑动卷积操作层的下游,分别接入维度为18×1×1的用于前后景分类的卷积层,和维度为54×1×1的用于锚框偏移修正的坐标回归卷积层。具体操作如下:
首先,256×W×H个特征向量在经过18×1×1的前后景分类卷积后,得到18×W×H个特征向量,表示对该W×H特征图(即特征点总数为W×H)上的每个特征点,该点上的9个锚框的前后景二分类概率大小,即18(向量维度)=2(前后景二分类值空间)×9(锚框种类数);
其次,256×W×H个特征向量在经过54×1×1的锚框偏移修正的卷积层后,得到54×W×H个特征向量,表示对该W×H特征图上的每个特征点,即特征点总数为W×H,该点上的9个锚框的偏移回归量的6个预测值,即54(向量维度)=6(偏移回归预测量,包括中心点横纵坐标偏移Δx,Δy,锚框长宽偏移Δw,Δh,以及转向偏移与对应锚框长宽的比值Δα,Δβ)×9(锚框种类数)。
进而,基于上述两次1×1卷积操作后,可确定大量的前景候选锚框,一般来说,在实验设定中,将前后景二分类结果经过归一化指数函数后,取前景概率大于0.7的锚框与锚框对应的候选框作进一步操作,并基于中心点横纵坐标偏移Δx,Δy,锚框长宽偏移Δw,Δh,以及转向偏移Δα,Δβ,通过如下公式,从固定种类的锚框还原至目标候选框。
公式(1):
公式(2):
公式(3):
其中,w,h为特征图上锚框的原始长宽,为修正后的目标候选框的长宽;x,y为特征图上的原始中心点坐标,为修正后的中心点坐标;为在目标候选框横纵方向上的顺时针偏移长度,取值为于(-1,1)区间的小数。
优选的,所述方法执行流程中的步骤(2):基于改进区域建议网络的候选框生成,其中,所选定锚框是否为前后景的判定依据具体如下:
首先,计算当前给定锚框与所有真实框的区域面积交并比IoU的集合,基于该集合中IoU值,若存在IoU值大于等于0.75,或当锚框与某一真实框的IoU值大于等于0.35且其他锚框与该真实框的IoU值均小于该锚框的,则视该锚框为前景的正样本;对于IoU值小于0.35的以及其他情况的,则视为后景的负样本。
此外,所述步骤二中前后景二分类与偏移预测回归的损失函数如下,将其累加进行联合优化:
其中,N表示在当前训练样本下于特征图上滑动卷积后所有给定锚框的总量,pf,pb分别表示前后景分类的预测值与真实值,有两种情况: Δx,Δy,Δw,Δh,Δα,Δβ与分别表示偏移回归预测值与真实框的回归测量值;Fcls是交叉熵分类损失函数;Freg是平滑L1回归损失函数。
优选的,所述方法执行流程中的步骤(3):基于非极大值抑制算法的候选框筛选,基于上步区域建议网络生成的大量候选框,默认取前1000个候选框,利用非极大值抑制算法,去除掉区域重复度高的且置信度低的重叠候选框,保留置信度最高的边界框做后续目标类别分类和边界修正优化。其处理过程包括:
1.置信度排序:将所有候选边界框按照其前后景分类任务得出的前景置信度(得分)进行降序排序,即置信度最高的边界框排在前面。
2.最高置信边界框选择:从排好序的边界框列表中选取置信度最高的边界框,并将其添加到最终输出的边界框集合D中,同时从候选框集合中移除该边界框。
3.重叠边界框移除:遍历剩余的候选边界框集合,计算它们与已选定的边界框,即边界框集合D中最后一个添加的边界框的区域面积交并比(IoU)值。如果某个候选边界框与已选定的边界框的IoU值大于设定的阈值,默认为0.75,则将该候选边界框从候选框集合中移除。
4.重复筛选与保留:重复进行步骤2和步骤3,直到所有候选边界框都被遍历并处理完毕,或者候选边界框集合为空为止。
最终,边界框集合D中所包含的候选边界框即为经过非极大值抑制算法处理后得到的最终候选边界框集合,用于后续目标类别分类和边界修正优化。这些候选边界框具有最高的置信度,并且相互之间没有重叠或者重叠较小。
优选的,所述方法执行流程中的步骤(4):借助自适应几何修正的候选框边界对齐,旨在解决上述生成的候选框为平行四边形,边界自由度较高导致不适用于后续分类与回归优化的问题,该自适应几何修正策略,将候选框边界对齐至可转向矩形的处理过程包括:
1.首先,利用平行四边形候选框的中心点坐标、长宽参数、以及转向偏移量,计算得出该候选框的四个顶点坐标。给定所述方法流程中从步骤(2)得到的修正后的目标候选框六要素:长宽中心点坐标以及横纵方向顺时针偏移量该目标候选框的四个顶点v1,v2,v3,v4的计算公式如下:
2.进而,确定该平行四边形候选框的对角线长短,基于长对角线上的两个顶点,延长短对角线上的两个顶点,使得该短对角线延长后的长度等于原始长对角线长度。具体操作如下:
假定的该平行四边形候选框的四个顶点分别为v1=(x1,y1),v2=(x2,y2),v3=(x3,y3),v4=(x4,y4),计算对角线的长度为通过对角线比较,假定其中v1与v3是长对角线的顶点;接着,延长v2与v4上的短对角线,延长后的长度与长对角线v1 v3的长度相等。
假设v1与v3的中点为M=((x1+x3)/2,(y1+y3)/2)。延长后的v2'和v4'应满足以下公式:
v2'=M+(v2-M)×(d/||v2-M||)v4'=M+(v4-M)×(d/||v4-M||)
其中,||||表示向量的模,×表示向量的数量积(点乘),将v2和v4的坐标代入上述公式,即可得到延长后的v2'和v4'的坐标。
3.最终,将原始长对角线两顶点v1,v3与短对角线延长后的两个新顶点v2',v4'视为边界对齐后的矩形候选框。至此,完成候选框的边界对齐操作。
优选的,所述方法执行流程中的步骤(5):基于焦点注意网络的改进候选框回归修正,该步骤中的原始可转向R-CNN检测头的分类与回归优化过程如下:
首先,基于上述边界对齐后的候选框,映射至不同的特征图上,得到通道数为C的RoI感兴趣区域。
随后,基于上述长宽不规则的多个通道上的感兴趣区域,通过平均池化操作,得到等长等宽7×7固定大小的二维特征向量。具体操作如下:
首先,确定候选框中心点在特征图上的位置,对于即将得到的特征向量上的每个点元素,基于其相对特征向量中心的空间位置与上述的特征图中心点位置,映射至原始特征图上得到映射点坐标,并设定一个3×3大小的扫描网格,对该映射点坐标周围执行平均池化操作;
接下来,池化后得到的值视为该固定7×7二维特征向量的点元素值,具体公式如下:
其中,Fc′(·)表示在通道C上对应的固定7×7二维特征向量上的第(i,j)位置点元素值;Fc(·)表示感兴趣区域的某位置在原始特征图上的值;area(i,j)表示固定7×7二维特征向量上的第(i,j)位置点映射至原始特征图上的区域;(x,y)指代在上述area(i,j)区域上的所有点;R(x,y,θ)表示从中心位置和角度坐标到原始特征图上横纵坐标的旋转变换操作;n表示该3×3扫描网格的大小,因此这里为9。
随后,通过上述池化操作,得到固定大小7×7×通道C的特征向量,可视为最终建议的目标特征,在该特征后续接入两个全连接层,分别用于类别分类与候选框的坐标回归矫正。前者的输出通道数为物体类别总数+1(上述类别之外的陌生物体);后者的输出通道数为6,即所述方法流程中从步骤(2)得到的边界对齐后的目标候选框六要素,即长宽中心点坐标以及横纵方向顺时针偏移量用于对该边界对齐后的目标候选框进一步修正。
最后,通过交叉熵损失优化类别分类任务;通过平滑L1回归损失来优化候选框的回归矫正任务。通过以上步骤,从原始图像上得到最终的目标检测结果集合。
值得一提的,给定回归任务的某预测值p和真实值q,所述的平滑L1回归损失函数公式如下:
优选的,所述方法的步骤(5):基于焦点注意网络的改进候选框回归修正,我们在上述的原始可转向R-CNN检测头的分类与回归优化过程基础上,额外引入了一个新颖的焦点注意网络。该网络中引入的两个新关键损失优化函数,分别为注意力指导损失和焦点边界吸附损失,用于指导与辅助原始的分类与回归优化过程。
优选的,所述方法的步骤(5):基于改进焦点注意网络的候选框回归修正过程,其焦点注意网络中的注意力指导损失函数用于确保在每个RoI感兴趣区域中突出显示目标,其实现过程如下:
首先,通过自注意力机制处理RoI感兴趣区域,以获取丰富的注意力特征,自注意力机制允许模型根据全局上下文来处理RoI感兴趣区域。
继而,将这些特征与目标掩码进行比较,其中,目标掩码是将边界框转换为目标实例分割得到的。通过使用二元交叉熵损失函数,将注意力特征与目标掩码之间的相似性进行比较,所述的损失函数表示如下:
其中,SelfAttn(·)表示注意力的特征融合操作;Mask表示目标掩码,即边界框内的目标实例在图像上二值化转换后的前景表示。其中,前景表示为1且背景表示为0;N为目标掩码Mask中的点的总数。
最后,通过在数据集上执行多轮训练,注意力特征将学习对象掩码,并使得模型更专注于前景,从而比单独的RoI感兴趣区域输入包含更多信息。
总体来说,通过引入注意力指导损失,有助于改善该方法对应的模型对海陆空图像拍摄的微小物体的检测精度,且提高复杂语义场景下的整体目标检测性能。
优选的,所述方法的步骤(5):基于改进焦点注意网络的候选框回归修正过程,其焦点注意网络中的焦点边界吸附损失函数旨在评估目标的边界框点的预测精度,其实现过程如下:
首先,计算目标边界框和预测的边界框点之间的相对位置。具体地,计算了边界框点相对于边界框内部或外部的位置。
为了处理这种非可微的函数,设计了一个近似函数,用于计算边界框点相对于边界框的位置。该近似函数使用了一种核函数,其目的是将非可微函数的导数用于训练。
具体来说,所述的焦点边界吸附损失的近似函数的公式表示如下:
其中,AreaRoI表示RoI感兴趣区域的面积;表示预测的边界框点与真实框的四条边的第n条边组成三角形的面积;N表示特征图上所有预测边界框点的总数;δ(Pi,j|RoI)为特征图上第(i,j)位置的点偏离RoI感兴趣区域的程度大小。
最终,通过计算所有边界框点相对于边界框的位置并取其平均值,得到了焦点边界吸附损失函数值。
值得一提的是,与主流的投影交并比损失函数不同的是,焦点边界吸附损失使用了目标边界框点和预测边界框点之间的距离作为损失度量,而不是像投影交并比损失那样使用了像素之间的欧几里得距离。
投影交并比损失函数是一种主流的用于目标检测任务的损失函数,旨在评估预测边界框与真实边界框之间的匹配程度。与传统的区域交并比度量不同,投影交并比损失考虑了边界框的投影关系,特别适用于倾斜目标的检测任务。
在投影交并比损失函数中,首先计算预测边界框和真实边界框的交集和并集,然后将它们的比值作为损失函数的一部分。与传统的区域交并比不同,投影交并比损失使用了边界框的投影面积而不是真实边界框的边界框面积。在倾斜目标检测中,真实边界框可能是倾斜的,因此使用边界框的投影更能反映它们的重叠程度。投影交并比损失函数的公式表示如下:
通过最小化投影交并比损失,可以促使模型学习预测更准确的边界框,并提高目标检测的性能。投影交并比损失已被广泛应用于各种倾斜目标检测任务中,在一定程度上提高了检测精度。
本发明提供的一种基于焦点注意网络增强的海陆空微小目标检测方法,至少具有如下有益的技术效果:
1、全局感知且高效的骨干网络:引入了最新的视觉表征模型:VMamba视觉状态空间模型,来代替主流的特征提取骨干网络,解决了CNN的局部感受野导致模型在处理全局信息时受限的问题,并解决了ViT模型在处理大规模图像时平方增长的巨大的计算复杂度与时间开销;
2、微小目标的检测准确性提高:针对目标检测模型在识别小型目标方面的不足,设计了一种新颖的焦点注意网络,通过注意力机制提取目标的重要特征,特别是在识别小型和复杂目标方面的效果更为显著;
3、海陆空目标的有方向性处理:针对海陆空复杂图像中具有方向性的微小目标,传统方法难以准确定位。在提出的焦点注意网络中,通过引入两种损失函数:注意力指导损失和焦点边界吸附损失函数,解决了有方向性的微小目标检测问题;
4、优越的不平衡样本学习性能:引入的焦点注意网络解决了训练样本不平衡问题,通过引入有效的样本加权策略,对少数类别样本赋予更高的权重,平衡了不同类别之间的训练样本分布,提高了对少数类别微小目标的识别能力。
附图说明
图1为本发明一种基于焦点注意网络增强的海陆空微小目标检测方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。需要注意的是,接下来所描述的实施例仅仅是本发明一部分实施例,而不是兼容全部应用场景的实施例。参考本发明所演示的实施例,所有本领域普通研究人员在没有作出任何创造性的前提下所获得的其他实施例,也属于本发明的保护范围。
本发明提供的一种基于焦点注意网络增强的海陆空微小目标检测方法,包括:
首先,参照附图1步骤(1):基于视觉状态空间模型的图像特征提取所示,该实施流程旨在借助VMamba视觉状态空间模型,替换主流的卷积神经网络(CNN)与视觉Transformer(ViT)等视觉表征基础模型,作为新的特征编码骨干网络,对所述图像实时帧编码,完成特征提取并得到骨干网络每层块的特征图表示,具体包括:
将原始图像的多通道作为该VMamba视觉状态空间模型的输入,引入一种新颖的交叉扫描模块,与传统按照行或列遍历的方式不同,交叉扫描模块采用了“四向”扫描策略,即从图像的四角开始,曲折行进至对角。该策略保证了在特征图种的每个元素都能够融合其他位置和方向的元素。因此,该策略可以使模型在拥有全局感知野的同时,具有线性的计算复杂度。
作为本发明的一种特定实施例,所述的VMamba模型中,状态空间模型包含如下含义:状态空间模型旨在描述时变系统,其将系统输入x(t)∈RL映射至系统响应y(t)∈RL。数学上把状态空间模型描述为如下的微分方程形式:
h′(t)=Ah(t)+Bx(t)
y(t)=Ch(t)+Dx(t)
其中,A∈CN×N,B,C∈CN,D∈C1,N为状态空间的变量数目。
进一步的,参照附图1步骤(2):基于改进区域建议网络的候选框生成所示,该实施流程包括,具体如下:
1.初始化维度为256的3×3卷积核,以及两个维度分别是2与6的1×1卷积核,通过3×3卷积核对五层特征图的每层分别通过滑动窗口进行滑动卷积操作,假设其中一层特征图维度36×W×H,通过256×3×3的滑动卷积后,得到256×W×H个特征向量。
2.设置锚框特征包含三种长宽比{1:1,2:1,1:2}以及三种尺寸大小{1,2,3},锚框总数为9。随后,在上述的滑动卷积操作层的下游,分别接入维度为18×1×1的用于前后景分类的卷积层,和维度为54×1×1的用于锚框偏移修正的坐标回归卷积层。
基于上述网络结构,具体实施操作如下:
首先,256×W×H个特征向量在经过18×1×1的前后景分类卷积后,得到18×W×H个特征向量,表示对该W×H特征图(即特征点总数为W×H)上的每个特征点,该点上的9个锚框的前后景二分类概率大小,即18(向量维度)=2(前后景二分类值空间)×9(锚框种类数);
其次,256×W×H个特征向量在经过54×1×1的锚框偏移修正的卷积层后,得到54×W×H个特征向量,表示对该W×H特征图上的每个特征点,即特征点总数为W×H,该点上的9个锚框的偏移回归量的6个预测值,即54(向量维度)=6(偏移回归预测量,包括中心点横纵坐标偏移Δx,Δy,锚框长宽偏移Δw,Δh,以及转向偏移与对应锚框长宽的比值Δα,Δβ)×9(锚框种类数)。
进而,基于上述两次1×1卷积操作后,可确定大量的前景候选锚框。
在其中一些实施例的实验中,将前后景二分类结果经过归一化指数函数后,取前景概率大于0.7的锚框与锚框对应的候选框作进一步操作,并基于中心点横纵坐标偏移Δx,Δy,锚框长宽偏移Δw,Δh,以及转向偏移Δα,Δβ,通过如下公式,从固定种类的锚框还原至目标候选框。
公式(1):
公式(2):
公式(3):
其中,w,h为特征图上锚框的原始长宽,为修正后的目标候选框的长宽;x,y为特征图上的原始中心点坐标,为修正后的中心点坐标;为在目标候选框横纵方向上的顺时针偏移长度,取值为于(-1,1)区间的小数。
优选的,对于附图1步骤(2)的部分实施例,选定锚框的前后景判定依据如下:
首先,计算当前给定锚框与所有真实框的区域面积交并比IoU的集合,基于该集合中IoU值,若存在IoU值大于等于0.75,或当锚框与某一真实框的IoU值大于等于0.35且其他锚框与该真实框的IoU值均小于该锚框的,则视该锚框为前景的正样本;对于IoU值小于0.35的以及其他情况的,则视为后景的负样本。
此外,所述步骤二中前后景二分类与偏移预测回归的损失函数如下,将其累加进行联合优化:
其中,N表示在当前训练样本下于特征图上滑动卷积后所有给定锚框的总量,pf,pb分别表示前后景分类的预测值与真实值,有两种情况: Δx,Δy,Δw,Δh,Δα,Δβ与分别表示偏移回归预测值与真实框的回归测量值;Fcls是交叉熵分类损失函数;Freg是平滑L1回归损失函数。
进一步的,参照附图1步骤(3):基于非极大值抑制算法的候选框筛选所示,该实施步旨在利用非极大值抑制算法,去除掉区域重复度高的且置信度低的重叠候选框,保留置信度最高的边界框做后续目标类别分类和边界修正优化,该流程包括:
1.置信度排序:首先,根据前景分类任务获得的得分,将所有候选边界框按照置信度进行降序排列,即得分最高的边界框排在前面;
2.最高置信边界框选择:从排好序的边界框列表中选取置信度最高的边界框,并将其添加到最终输出的边界框集合D中。同时,从候选框集合中移除该边界框;
3.重叠边界框移除:接着遍历剩余的候选边界框集合,计算它们与已选定的边界框(即边界框集合D中最后一个添加的边界框)的区域面积交并比(IoU)值。若某个候选边界框与已选定的边界框的IoU值大于设定的阈值,则将该候选边界框从候选框集合中移除;
4.重复筛选与保留:重复流程2和3,直至所有候选边界框都被遍历并处理完毕,或者候选边界框集合为空为止。
在其中一些实施例中,上述的阈值默认设定为0.75即可。
进一步的,参照附图1步骤(4):借助自适应几何修正的候选框边界对齐所示,该实施流程旨在解决上述生成的候选框为平行四边形,边界自由度较高导致不适用于后续分类与回归优化的问题,包括以下流程:
1.首先,利用平行四边形候选框的中心点坐标、长宽参数、以及转向偏移量,计算得出该候选框的四个顶点坐标。给定权利要求3所述的修正后的目标候选框的六要素:长宽中心点坐标以及横纵方向顺时针偏移量该目标候选框的四个顶点v1,v2,v3,v4的计算公式如下:
2.进而,确定该平行四边形候选框的对角线长短,基于长对角线上的两个顶点,延长短对角线上的两个顶点,使得该短对角线延长后的长度等于原始长对角线长度。具体操作如下:
假定的该平行四边形候选框的四个顶点分别为v1=(x1,y1),v2=(x2,y2),v3=(x3,y3),v4=(x4,y4),计算对角线的长度为通过对角线比较,假定其中v1与v3是长对角线的顶点;接着,延长v2与v4上的短对角线,延长后的长度与长对角线v1 v3的长度相等。
假设v1与v3的中点为M=((x1+x3)/2,(y1+y3)/2)。延长后的v2'和v4'应满足以下公式:
v2'=M+(v2-M)×(d/||v2-M||)v4'=M+(v4-M)×(d/||v4-M||)
其中,||||表示向量的模,×表示向量的数量积(点乘),将v2和v4的坐标代入上述公式,即可得到延长后的v2'和v4'的坐标。
3.最终,将原始长对角线两顶点v1,v3与短对角线延长后的两个新顶点v2',v4'视为边界对齐后的矩形候选框。至此,完成候选框的边界对齐操作。
进一步的,参照附图1步骤(5):基于焦点注意网络的改进候选框回归修正所示,该实施流程包括:
首先,基于上述边界对齐后的候选框,映射至不同的特征图上,得到通道数为C的RoI感兴趣区域。
随后,基于上述长宽不规则的多个通道上的感兴趣区域,通过平均池化操作,得到等长等宽7×7固定大小的二维特征向量。具体操作如下:
1.确定候选框中心点在特征图上的位置,对于即将得到的特征向量上的每个点元素,基于其相对特征向量中心的空间位置与上述的特征图中心点位置,映射至原始特征图上得到映射点坐标,并设定一个3×3大小的扫描网格,对该映射点坐标周围执行平均池化操作;
2.接下来,池化后得到的值视为该固定7×7二维特征向量的点元素值,具体公式如下:
其中,Fc′(·)表示在通道C上对应的固定7×7二维特征向量上的第(i,j)位置点元素值;Fc(·)表示感兴趣区域的某位置在原始特征图上的值;area(i,j)表示固定7×7二维特征向量上的第(i,j)位置点映射至原始特征图上的区域;(x,y)指代在上述area(i,j)区域上的所有点;R(x,y,θ)表示从中心位置和角度坐标到原始特征图上横纵坐标的旋转变换操作;n表示该3×3扫描网格的大小,因此这里为9。
接着,通过上述池化,得到固定大小7×7×通道C的特征向量,可视为最终建议的目标特征,在该特征后续接入两个全连接层,分别用于类别分类与候选框的坐标回归矫正。前者的输出通道数为物体类别总数+1(上述类别之外的陌生物体);后者的输出通道数为6,即权利要求6所述的边界对齐后的目标候选框的要素总数,即长宽中心点坐标以及横纵方向顺时针偏移量用于对该边界对齐后的目标候选框进一步修正。
最后,通过交叉熵损失优化类别分类任务;通过平滑L1回归损失来优化候选框的回归矫正任务。通过以上步骤,从原始图像上得到最终的目标检测结果集合。
在其中一些实施例中,所述的平滑L1回归损失函数如下:
给定回归任务的某预测值p和真实值q,该损失函数可表示为:
参照附图1步骤(5):基于焦点注意网络的改进候选框回归修正所示,基于上述的原始可转向R-CNN检测头的分类与回归优化过程,额外引入了焦点注意网络。该网络中引入的两个新的关键损失优化函数,注意力指导损失和焦点边界吸附损失,用于指导增强原始的R-CNN分类与回归优化。
在其中一些实施例中,所述的注意力指导损失旨在确保在每个RoI感兴趣区域中突出显示目标,其实现过程如下:
首先,通过自注意力机制处理RoI感兴趣区域,以获取丰富的注意力特征,自注意力机制允许模型根据全局上下文来处理RoI感兴趣区域。
其次,将这些特征与目标掩码进行比较,其中,目标掩码是将边界框转换为目标实例分割得到的。通过使用二元交叉熵损失函数,将注意力特征与目标掩码之间的相似性进行比较.
作为本发明的一种典型实施例,所述的注意力指导损失函数公式如下:
其中,SelfAttn(·)表示注意力的特征融合操作;Mask表示目标掩码,即边界框内的目标实例在图像上二值化转换后的前景表示。其中,前景表示为1且背景表示为0;N为目标掩码Mask中的点的总数。
最后,通过在数据集上执行多轮训练,注意力特征将学习对象掩码,并使得模型更专注于前景,从而比单独的RoI感兴趣区域输入包含更多信息。
在其中一些实施例中,所述的焦点边界吸附损失旨在评估目标的边界框点的预测精度,其实现过程如下:
首先,计算目标边界框和预测的边界框点之间的相对位置。具体地,计算了边界框点相对于边界框内部或外部的位置。
为了处理这种非可微的函数,设计了一个近似函数,用于计算边界框点相对于边界框的位置。该近似函数使用了一种核函数,其目的是将非可微函数的导数用于训练。
作为本发明的一种典型实施例,所述的焦点边界吸附损失的近似函数的公式表示如下:
其中,AreaRoI表示RoI感兴趣区域的面积;表示预测的边界框点与真实框的四条边的第n条边组成三角形的面积;N表示特征图上所有预测边界框点的总数;δ(Pi,j|RoI)为特征图上第(i,j)位置的点偏离RoI感兴趣区域的程度大小。
最终,通过计算所有边界框点相对于边界框的位置并取其平均值,得到了焦点边界吸附损失函数值。
总体来说,本发明相比以往的海陆空微小目标检测方法,使用了最新的VMamba视觉状态空间模型作为视觉表征模型,解决了CNN的局部感受野全局信息处理受限的问题和ViT模型在处理大规模图像时巨大计算复杂度与时间开销的挑战;引入了焦点注意网络,结合注意力指导损失和焦点边界吸附损失,改善了模型对海陆空图像拍摄的微小物体的检测精度,并提高复杂语义场景下的整体目标检测性能。
再次强调,上述实施例仅仅是本发明中一部分实施例,而不是兼容全部应用场景的实施例。参考本发明所演示的实施例,所有本领域普通研究人员在没有作出任何创造性的前提下所获得的其他实施例,也属于本发明的保护范围。

Claims (10)

1.一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,包括以下步骤:
步骤一、基于视觉状态空间模型的图像特征提取:给定正执行目标探查任务的海陆空探测器,将其配备的监控系统下的视频传感器采集的实时帧作为图像输入,借助视觉状态空间模型作为特征编码骨干网络,对图像实时帧编码,完成特征提取并得到骨干网络每层块的特征图表示;
步骤二、基于改进区域建议网络的候选框生成:给定改进区域建议网络,特征编码骨干网络最后的五层特征图表示作为定改进区域建议网络的输入,通过滑动窗口遍历每层特征图,获取前后景分类结果以及锚框坐标的偏移量预测结果,并以此获取大量可视为前景候选框;
步骤三、基于非极大值抑制算法的候选框筛选:通过非极大值抑制算法,从大量可视为前景候选框中,去除掉区域重复度高的且置信度低的重叠候选框,保留置信度最高的候选边界框,并做后续目标类别分类和边界修正优化;
步骤四、借助自适应几何修正的候选框边界对齐:借助自适应几何修正策略,将原平行四边形的候选框边界对齐至转向矩形边界框;该自适应几何修正策略,利用候选框的中心点横纵坐标、锚框长宽以及转向偏移量,计算出该候选框的四个顶点,进而,基于长对角线上的两顶点,延长短对角线上的两顶点,使得短对角线延长后的长度等于原长对角线长度;最后将原长对角线两顶点与延长后短对角线的两顶点作为边界对齐后的矩形候选边界框;
步骤五、基于焦点注意网络的改进候选框回归修正:引入焦点注意网络,包含两个新关键损失优化函数,注意力指导损失和焦点边界吸附损失,用于增强原始R-CNN的分类与回归过程;基于焦点注意网络增强后的R-CNN检测头,对对齐后的矩形候选边界框进行目标分类损失函数与边界框回归修正损失函数的优化,完成海陆空图像中目标类别判定与定位。
2.根据权利要求1所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,步骤一中:基于视觉状态空间模型的图像特征提取,其使用的特征编码骨干网络为VMamba视觉状态空间模型;VMamba模型结合了ViT的全局的感受野和动态的权重分配特性以及CNN的高效的线性计算复杂度,通过其中的CSM交叉扫描模块模块,能够在不破坏全局感受野的前提下,达到线性复杂度。
3.根据权利要求1所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,步骤二中:基于改进区域建议网络的候选框生成,其实现过程如下:
使用3×3的卷积核对五层特征图进行滑动卷积操作,生成256×W×H个特征向量;
设定包括三种长宽比和三种尺寸大小的锚框,总数为9,并接入前后景分类和锚框偏移修正的卷积层;
通过前后景分类卷积层获得每个特征点上的9个锚框的前后景二分类概率;
通过锚框偏移修正的卷积层获得每个特征点上的9个锚框的偏移回归量的6个预测值;
根据前景概率大于0.7的锚框与对应的候选框,使用修正映射公式将其还原至目标候选框,其中包括长宽的修正、中心点坐标的修正以及转向偏移长度的计算。
4.根据权利要求3所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,步骤二中:基于改进区域建议网络的候选框生成中,所选定锚框是否为前后景的判定依据具体如下:
首先,计算当前给定锚框与所有真实框的区域面积交并比IoU的集合,基于该集合中IoU值,若存在IoU值大于等于0.75,或当锚框与某一真实框的IoU值大于等于0.35且其他锚框与该真实框的IoU值均小于该锚框的,则视该锚框为前景的正样本;对于IoU值小于0.35的以及其他情况的,则视为后景的负样本。
5.根据权利要求4所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,步骤三中:基于非极大值抑制算法的候选框筛选,基于区域建议网络生成的大量候选框,默认取前1000个候选框,利用非极大值抑制算法,去除掉区域重复度高的且置信度低的重叠候选框,保留置信度最高的边界框做后续目标类别分类和边界修正优化;其实现过程如下:
置信度排序:将所有候选边界框按照其前后景分类任务得出的前景置信度进行降序排序,即置信度最高的边界框排在前面;
最高置信边界框选择:从排好序的边界框列表中选取置信度最高的边界框,并将其添加到最终输出的边界框集合D中,同时从候选框集合中移除该边界框;
重叠边界框移除:遍历剩余的候选边界框集合,计算它们与已选定的边界框,即边界框集合D中最后一个添加的边界框的区域面积交并比IoU值;如果某个候选边界框与已选定的边界框的IoU值大于设定的阈值,则将该候选边界框从候选框集合中移除;
重复筛选与保留:重复进行最高置信边界框选择和重叠边界框移除,直到所有候选边界框都被遍历并处理完毕,或者候选边界框集合为空为止;
最终,边界框集合D中所包含的候选边界框即为经过非极大值抑制算法处理后得到的最终候选边界框集合,用于后续目标类别分类和边界修正优化。
6.根据权利要求5所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,步骤四中:自适应几何修正策略,将候选框边界对齐至可转向矩形的处理过程包括:
首先,利用平行四边形候选框的中心点坐标、长宽参数、以及转向偏移量,计算得出该候选框的四个顶点坐标;给定修正后的目标候选框的六要素:长宽中心点坐标以及横纵方向顺时针偏移量该目标候选框的四个顶点v1,v2,v3,v4的计算公式如下:
进而,确定该平行四边形候选框的对角线长短,基于长对角线上的两个顶点,延长短对角线上的两个顶点,使得该短对角线延长后的长度等于原始长对角线长度;具体操作如下:
假定的该平行四边形候选框的四个顶点分别为v1=(x1,y1),v2=(x2,y2),v3=(x3,y3),v4=(x4,y4),计算对角线的长度为,通过对角线比较,假定其中v1与v3是长对角线的顶点;接着,延长v2与v4上的短对角线,延长后的长度与长对角线v1 v3的长度相等;
假设v1与v3的中点为M=((x1+x3)/2,(y1+y3)/2);延长后的v2'和v4'满足以下公式:
v2'=M+(v2-M)×(d/||v2-M||);
v4'=M+(v4-M)×(d/||v4-M||);
其中,||||表示向量的模,×表示向量的数量积,将v2和v4的坐标代入上述公式,即可得到延长后的v2'和v4'的坐标;
最终,将原始长对角线两顶点v1,v3与短对角线延长后的两个新顶点v2',v4'视为边界对齐后的矩形候选框。
7.根据权利要求1所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,步骤五中:基于焦点注意网络的改进候选框回归修正,该步骤中的原始可转向R-CNN检测头的分类与回归优化过程如下:
将候选框映射至不同特征图上,得到RoI感兴趣区域,并进行平均池化操作,计算得到固定大小的二维特征向量,其公式如下:
其中Fc′(·)表示在通道C上对应的固定7×7二维特征向量上的第(i,j)位置点元素值;Fc(·)表示感兴趣区域的某位置在原始特征图上的值;area(i,j)表示固定7×7二维特征向量上的第(i,j)位置点映射至原始特征图上的区域;(x,y)指代在上述area(i,j)区域上的所有点;R(x,y,θ)表示从中心位置和角度坐标到原始特征图上横纵坐标的旋转变换操作;n为9,表示3×3扫描网格的大小;
特征向量中每个点元素的值通过对原始特征图上的周围区域执行平均池化操作得到;
对池化后的特征向量进行全连接层处理,分别用于类别分类和候选框的坐标回归矫正;
使用交叉熵损失优化类别分类任务,使用平滑L1回归损失函数优化候选框的回归矫正任务;给定回归任务的某预测值p和真实值q,平滑L1回归损失函数公式如下:
8.根据权利要求7所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,基于原始可转向R-CNN检测头的分类与回归优化过程,引入了一个焦点注意网络,该焦点注意网络中引入的两个新关键损失优化函数,分别为注意力指导损失和焦点边界吸附损失,用于指导与辅助原始的分类与回归优化过程。
9.根据权利要求8所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,焦点注意网络中的注意力指导损失函数,用于确保在每个RoI感兴趣区域中突出显示目标,过程如下:
首先,通过自注意力机制处理RoI感兴趣区域,以获取丰富的注意力特征,自注意力机制允许模型根据全局上下文来处理RoI感兴趣区域;
其次,将这些特征与目标掩码进行比较,其中,目标掩码是将边界框转换为目标实例分割得到的;通过使用二元交叉熵损失函数,将注意力特征与目标掩码之间的相似性进行比较,损失函数表示如下:
其中,SelfAttn(·)表示注意力的特征融合操作;Mask表示目标掩码,即边界框内的目标实例在图像上二值化转换后的前景表示;其中,前景表示为1且背景表示为0;N为目标掩码Mask中的点的总数;
最后,通过在数据集上执行多轮训练,注意力特征将学习对象掩码,并使得模型更专注于前景,从而比单独的RoI感兴趣区域输入包含更多信息。
10.根据权利要求9所述的一种基于焦点注意网络增强的海陆空微小目标检测方法,其特征在于,焦点注意网络中的焦点边界吸附损失函数,旨在评估目标的边界框点的预测精度,过程如下:
首先,计算目标边界框和预测的边界框点之间的相对位置;具体地,计算了边界框点相对于边界框内部或外部的位置;
其次,设计了一个近可微的似函数,用于测量边界框点相对于边界框的位置远近;该可微的似函数使用了一种核函数,其目的是将非可微函数的导数用于训练;
具体来说,焦点边界吸附损失的近似函数的公式表示如下:
其中,AreaRoI表示RoI感兴趣区域的面积;表示预测的边界框点与真实框的四条边的第n条边组成三角形的面积;N表示特征图上所有预测边界框点的总数;δ(Pi,j|RoI)为特征图上第(i,j)位置的点偏离RoI感兴趣区域的程度大小;
最后,通过计算所有边界框点相对于边界框的位置并取其平均值,得到了焦点边界吸附损失函数值。
CN202410369332.0A 2024-03-28 2024-03-28 一种基于焦点注意网络增强的海陆空微小目标检测方法 Pending CN118379480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410369332.0A CN118379480A (zh) 2024-03-28 2024-03-28 一种基于焦点注意网络增强的海陆空微小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410369332.0A CN118379480A (zh) 2024-03-28 2024-03-28 一种基于焦点注意网络增强的海陆空微小目标检测方法

Publications (1)

Publication Number Publication Date
CN118379480A true CN118379480A (zh) 2024-07-23

Family

ID=91900737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410369332.0A Pending CN118379480A (zh) 2024-03-28 2024-03-28 一种基于焦点注意网络增强的海陆空微小目标检测方法

Country Status (1)

Country Link
CN (1) CN118379480A (zh)

Similar Documents

Publication Publication Date Title
CN110942000B (zh) 一种基于深度学习的无人驾驶车辆目标检测方法
CN112818903B (zh) 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN109635685B (zh) 目标对象3d检测方法、装置、介质及设备
CN109615611B (zh) 一种基于巡检影像的绝缘子自爆缺陷检测方法
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN111401150B (zh) 一种基于实例分割和自适应变换算法的多车道线检测方法
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN109712071B (zh) 基于航迹约束的无人机图像拼接与定位方法
CN109145747A (zh) 一种水面全景图像语义分割方法
CN113191296A (zh) 一种基于yolov5的任意朝向目标五参数检测方法
CN110490155B (zh) 一种禁飞空域无人机检测方法
CN113313703A (zh) 基于深度学习图像识别的无人机输电线巡检方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN115170978A (zh) 车辆目标检测方法、装置、电子设备及存储介质
CN114820668A (zh) 一种端到端的基于同心环卷积的建筑物规则轮廓自动提取方法
CN114494875A (zh) 一种电网设备可视检测方法、系统、设备和介质
Shi et al. RAOD: refined oriented detector with augmented feature in remote sensing images object detection
CN113420648A (zh) 一种具有旋转适应性的目标检测方法及系统
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统
CN111160372A (zh) 一种基于高速卷积神经网络的大目标识别方法
CN116452809A (zh) 一种基于语义分割的线条物体提取方法
CN118379480A (zh) 一种基于焦点注意网络增强的海陆空微小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication