CN116778176B - 基于频域注意力的sar图像舰船尾迹检测方法 - Google Patents
基于频域注意力的sar图像舰船尾迹检测方法 Download PDFInfo
- Publication number
- CN116778176B CN116778176B CN202310789015.XA CN202310789015A CN116778176B CN 116778176 B CN116778176 B CN 116778176B CN 202310789015 A CN202310789015 A CN 202310789015A CN 116778176 B CN116778176 B CN 116778176B
- Authority
- CN
- China
- Prior art keywords
- frame
- feature
- feature map
- attention
- real value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims 1
- 230000007306 turnover Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提出基于频域注意力的SAR图像舰船尾迹检测方法。所述方法用于舰船尾迹检测,该方法通过图像的频域信息来提取尾流特征。然后通过特征金字塔产生多尺度的特征表示,增强了相邻特征图间的信息融合。实现了高效准确的检测SAR图像舰船尾迹。
Description
技术领域
本发明涉及合成孔径雷达(SAR)目标检测技术领域,特别是涉及一种基于频域注意力的SAR图像舰船尾迹检测方法。
背景技术
合成孔径雷达(SAR)不受光照、天气等条件的影响,具有全天时、全天候的强大监视能力,已经被广泛应用于海洋港口和海战场指挥等场景。SAR通过检测舰船尾迹来实现准确、高效的舰船定位。舰船尾迹不仅可以帮助检测舰船,还可以通过尾流特征来反演舰船状态,包括航速、航向等信息。因此开展SAR图像舰船尾迹检测的研究,在维护海洋安全、监管海上交通等方面具有广阔的应用前景。
近年来,深度学习方法已成功应用于SAR图像中的目标检测。然而,传统的检测方法在SAR图像舰船尾迹检测仍然存在很大的问题。相比于海洋背景下的舰船定位,舰船尾迹的条纹常常与海岸线、溢油和海洋内波等线性结构特征相混淆。单纯的舰船检测方法只能识别舰船目标,获取舰船信息有限,并不能有效利用尾迹信息。因此如何高效准确的检测SAR图像舰船尾迹是一项亟需解决的重要问题。
发明内容
本发明目的是为了解决现有技术中的问题,提出了一种基于频域注意力的SAR图像舰船尾迹检测方法。
本发明是通过以下技术方案实现的,本发明提出基于频域注意力的SAR图像舰船尾迹检测方法,所述方法包括:
步骤1:对数据集进行预处理增强,将增强后的数据集按照比例划分为训练集、验证集以及测试集;
步骤2:对输入图像进行特征提取,选取FcaNet为骨干网络,通过离散余弦变换从输入图像中提取频域信息;
步骤3:改进金字塔特征提取模块FPN,在金字塔的三层至七层上进行特征融合,在三层至五层上应用MSAM,通过卷积层转换到相邻特征图,从而融合信息;
步骤4:使用包含多个卷积核的分类头和OBB回归头对特征进行多任务回归,并赋予权重系数以适应舰船尾迹的场景,最终得到检测结果并进行可视化。
进一步地,在步骤1中,所述数据集为高分三号舰船尾迹数据集,对使用的数据集进行旋转、平移和翻转预处理操作来增强数据。
进一步地,在步骤2中,通过FcaNet在卷积过程中执行离散余弦变换以选择性的提取图像特征,FcaNet骨干网络将通道划分成n等分,先分别计算出通道注意力中每个频率分量的结果,再根据所得结果筛选出k个性能最佳的频率分量。
进一步地,在步骤3中,利用特征金字塔提取目标的多尺度特征,改进特征金字塔网络中的特征融合步骤,在特征图的每个元素中进行具有相邻尺度间空间相关性的上下文信息加权编码,MSAM对高层特征图和浅层特征图进行卷积,生成具有相同通道数的特征图,然后重塑为长向量并通过全连接层。
进一步地,2D离散余弦变换DCT有:
其中x(i,j)是输入,H是输入图像的高,W是输入图像的宽;相应的2D离散余弦逆变换IDCT可以写成:
通道注意力机制通过标量来表示并评估每个通道的重要程度,输入特征X∈RH×W×C沿通道维度分为m组,X∈RH×W×C[X0,X1,X2…Xm-1],每组中的通道数为使用2D-DCT计算出对应每个部分的频率分量:
其中Freqn∈RC是计算得到的频率分量,通过级联来获得整个通道的注意力权重为:
W=sigmoid(fc(compress([X0,X1,X2…Xm-1]))
=sigmoid(fc(conactenation([Freq0,Freq1,Freq2…Freqm-1]))
其中sigmoid是sigmoid函数,fc表示映射函数。
进一步地,在FPN的C3-C7进行特征融合,并在C3-C5应用MSAM,通过卷积层转换相邻特征图,并将它们融合到一起,对高层信息和浅层信息进行变换;首先分别对高层特征图Ch和浅层特征图Cl进行1×1卷积,生成具有相同通道数的特征图Mh和Ml,然后将Mh和Ml重塑为长向量并通过全连接层得到Bh和(Bl)T,接下来通过softmax函数计算相邻特征图之间的注意力权重分布H:
其中分别为对应特征图的x位置,A=H×W代表特征图所有点的总数;最后对H进行重塑和矩阵乘法以及softmax层来获得空间注意力映射,并与低级特征图Ml进行相加得到输出Pl:
Pl=rs(HTAh)+Ml
通过上式将FPN的高层信息和浅层信息进行聚合,通过学习权重矩阵将全局特征与原始特征图结合来获得具有上下文关系的特征。
进一步地,分类头的损失函数为:
其中,a表示检测结果,a′表示真实值标签,N表示锚框的总数,Lfocal为聚焦损失:
Lfocal(ai,a′i)=-(1-a′i)ηlog(a′i)
其中η为超参数。
进一步地,OBB回归的参数包括预定义锚框参数(x0,y0,w0,h0,θ0)和预测框参数(x,y,w,h,θ),预测框与预定义锚框输出结果的偏移量offset=(xs,ys,ws,hs,θs)为:
θs=tan(θ-θ0)
其中x,x0分别为预测框和预定义锚框的中心点横坐标,y,y0分别为预测框和预定义锚框的中心点纵坐标,w,w0分别为预测框和预定义锚框的宽度,h,h0分别为预测框和预定义锚框的高度,θ,θ0分别为预测框和预定义锚框的旋转角度;
真实值框参数(x′,y′,w′,h′,θ′),预测框与预定义锚框输出结果的偏移量offset′=(x′s,y′s,w′s,h′s,θ′s)为:
θ′s=tan(θ′-θ0)
其中x′为真实值框的中心点横坐标,y′为真实值框的中心点纵坐标,w′为真实值框的宽度,h′为真实值框的高度,θ′为真实值框的旋转角度;
使用五参数损失函数LOBB:
Lsmooth1=L(x′s,xs)+L(y′s,ys)+L(w′s,ws)+L(h′s,hs)+L(θ′s,θs)
Lsmooth2=L(x′s,xs)+L(y′s,ys)+L(w′s,hs)+L(h′s,ws)+L(θ′s,θs-π/2)
其中Lsmooth1,2为平滑损失由此得到网络模型在训练阶段的损失函数为:
L(a,b)=αLclass(a,a′)+βLOBB(b,b′)
其中a,b表示检测结果,a′,b′表示真实值标签α,β为超参数。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于频域注意力的SAR图像舰船尾迹检测方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述基于频域注意力的SAR图像舰船尾迹检测方法的步骤。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于频域注意力的SAR图像舰船尾迹检测方法,所述方法用于舰船尾迹检测,该方法通过图像的频域信息来提取尾流特征。然后通过特征金字塔产生多尺度的特征表示,增强了相邻特征图间的信息融合。实现了高效准确的检测SAR图像舰船尾迹。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为基于频域注意力的SAR图像舰船尾迹检测方法的流程示意图。
图2为深度学习网络的结构框架图。
图3为实施例中输入数据图像。
图4为实施例中输出数据可视化图像。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种新的基于卷积神经网络的SAR图像舰船尾迹自动检测方法。为了更好地提取舰船以及尾迹的特征信息,该方法基于有锚框的单阶段检测器。FcaNet骨干网络模型不仅可以提取不同频率的特征信息,还可以通过增加通道注意力间接提取舰船的频域特征。此外,为了有效地提取不同层次特征图之间的空间信息,本发明引入了多尺度注意力模块(MSAM)。该方法通过改进特征金字塔网络(Feature Pyramid Network,FPN)中的特征融合步骤,在特征图的每个元素中进行具有相邻尺度间空间相关性的上下文信息加权编码,从而提高了FPN在不同尺度下的识别能力。
本发明提出基于频域注意力的SAR图像舰船尾迹检测方法,所述方法包括:
步骤1:对数据集进行预处理增强,将增强后的数据集按照比例划分为训练集、验证集以及测试集;
步骤2:对输入图像进行特征提取,选取FcaNet为骨干网络,通过离散余弦变换从输入图像中提取频域信息;
步骤3:改进金字塔特征提取模块FPN,在金字塔的三层至七层上进行特征融合,在三层至五层上应用MSAM,通过卷积层转换到相邻特征图,从而融合信息;
步骤4:使用包含多个卷积核的分类头和OBB回归头对特征进行多任务回归,并赋予权重系数以适应舰船尾迹的场景,最终得到检测结果并进行可视化。
在步骤1中,所述数据集为高分三号舰船尾迹数据集,首先对使用的数据集进行旋转、平移和翻转预处理操作来增强数据,接下来将数据集划分为训练集、验证集和测试集。最后设置训练参数。
在步骤2中,通过FcaNet在卷积过程中执行离散余弦变换(DCT)以选择性的提取图像特征,FcaNet骨干网络将通道划分成n等分,先分别计算出通道注意力中每个频率分量的结果,再根据所得结果筛选出k个性能最佳的频率分量。
2D离散余弦变换DCT有:
其中x(i,j)是输入,H是输入图像的高,W是输入图像的宽;相应的2D离散余弦逆变换IDCT可以写成:
通道注意力机制通过标量来表示并评估每个通道的重要程度,输入特征X∈RH×W×C沿通道维度分为m组,X∈RH×W×C[X0,X1,X2…Xm-1],每组中的通道数为使用2D-DCT计算出对应每个部分的频率分量:
其中Freqn∈RC是计算得到的频率分量,通过级联来获得整个通道的注意力权重为:
W=sigmoid(fc(compress([X0,X1,X2…Xm-1]))
=sigmoid(fc(conactenation([Freq0,Freq1,Freq2…Freqm-1]))
其中sigmoid是sigmoid函数,fc表示映射函数
在步骤3中,利用特征金字塔提取目标的多尺度特征,改进特征金字塔网络中的特征融合步骤,在特征图的每个元素中进行具有相邻尺度间空间相关性的上下文信息加权编码,MSAM对高层特征图和浅层特征图进行卷积,生成具有相同通道数的特征图,然后重塑为长向量并通过全连接层。
在FPN的C3-C7进行特征融合,并在C3-C5应用MSAM,通过卷积层转换相邻特征图,并将它们融合到一起,对高层信息和浅层信息进行变换;首先分别对高层特征图Ch和浅层特征图Cl进行1×1卷积,生成具有相同通道数的特征图Mh和Ml,然后将Mh和Ml重塑为长向量并通过全连接层得到Bh和(Bl)T,接下来通过softmax函数计算相邻特征图之间的注意力权重分布H:
其中分别为对应特征图的x位置,A=H×W代表特征图所有点的总数;最后对H进行重塑和矩阵乘法以及softmax层来获得空间注意力映射,并与低级特征图Ml进行相加得到输出Pl:
Pl=rs(HTAh)+Ml
通过上式将FPN的高层信息和浅层信息进行聚合,通过学习权重矩阵将全局特征与原始特征图结合来获得具有上下文关系的特征。
步骤4使用的是检测任务中常见的分类头和OBB回归头,第一个分支负责分类,另一个分支负责OBB回归。在此基础上,本发明还增加了一个包含RT层的子网络,用于预测尾流尖端位置和开尔文臂方向。
在步骤4中,分类头的损失函数为:
其中,a表示检测结果,a′表示真实值标签,N表示锚框的总数,Lfocal为聚焦损失:
Lfocal(ai,a′i)=-(1-a′i)ηlog(a′i)
其中η为超参数。
OBB回归的参数包括预定义锚框参数(x0,y0,w0,h0,θ0)和预测框参数(x,y,w,h,θ),预测框与预定义锚框输出结果的偏移量offset=(xs,ys,ws,hs,θs)为:
θs=tan(θ-θ0)
其中x,x0分别为预测框和预定义锚框的中心点横坐标,y,y0分别为预测框和预定义锚框的中心点纵坐标,w,w0分别为预测框和预定义锚框的宽度,h,h0分别为预测框和预定义锚框的高度,θ,θ0分别为预测框和预定义锚框的旋转角度;
真实值框参数(x′,y′,w′,h′,θ′),预测框与预定义锚框输出结果的偏移量offset′=(x′s,y′s,w′s,h′s,θ′s)为:
θ′s=tan(θ′-θ0)
其中x′为真实值框的中心点横坐标,y′为真实值框的中心点纵坐标,w′为真实值框的宽度,h′为真实值框的高度,θ′为真实值框的旋转角度;
使用五参数损失函数LOBB:
Lsmooth1=L(x′s,xs)+L(y′s,ys)+L(w′s,ws)+L(h′s,hs)+L(θ′s,θs)
Lsmooth2=L(x′s,xs)+L(y′s,ys)+L(w′s,hs)+L(h′s,ws)+L(θ′s,θs-π/2)
其中Lsmooth1,2为平滑损失由此得到网络模型在训练阶段的损失函数为:
L(a,b)=αLclass(a,a′)+βLOBB(b,b′)
其中a,b表示检测结果,a′,b′表示真实值标签α,β为超参数。
实施例
本发明的目的是解决SAR图像舰船尾迹的问题,并通过尾迹反演船舶导航信息。利用深度学习网络对舰船尾迹进行高效准确的自动化检测。为了实现以上所提目的,本发明实例提供了一种基于SAR图像舰船尾迹检测的方法,其基本流程如图1所示,包括:
步骤1:对数据集进行预处理增强,将增强后的数据集按照比例划分为训练集、验证集以及测试集。
步骤2:对输入图像进行特征提取,选取FcaNet为骨干网络,通过离散余弦变换从输入图像中提取频域信息。
步骤3:改进金字塔特征提取模块,在金字塔的三层至七层上进行特征融合,在三层至五层上应用MSAM,通过卷积层转换到相邻特征图,从而融合信息。
步骤4:使用包含多个卷积核的分类头和OBB回归头对特征进行多任务回归,并赋予权重系数以适应舰船尾迹的场景,最终得到检测结果并进行可视化。
步骤1中使用的数据集为高分三号舰船尾迹数据集,共485张图像(862对舰船和尾迹目标)。首先对使用的数据集进行预处理,包括旋转、平移、缩放、裁剪、翻转、图像混合、拼接等来增强数据。接下来进行数据集的划分,训练集占图像总数的80%,测试集占图像总数的20%(训练集和测试集随机生成),训练集中随机选择一部分作为验证集。训练时,输入图像固定为416×416。训练批次大小为3,训练迭代次数为100。
步骤2中通过FcaNet在卷积过程中执行DCT以选择性的提取图像特征。对于2D离散余弦变换有:
其中x(i,j)是输入,H是输入图像的高,W是输入图像的宽。相应的2D离散余弦逆变换(IDCT)可以写成:
通道注意力机制通过标量来表示并评估每个通道的重要程度,输入特征X∈RH×W×C沿通道维度分为m组,X∈RH×W×C[X0,X1,X2…Xm-1],每组中的通道数为使用2D-DCT可以计算出对应每个部分的频率分量:
其中Freqn∈RC是计算得到的频率分量,可以通过级联来获得整个通道的注意力权重为:
W=sigmoid(fc(compress([X0,X1,X2…Xm-1]))
=sigmoid(fc(conactenation([Freq0,Freq1,Freq2…Freqm-1]))
其中sigmoid是sigmoid函数,fc表示映射函数,通常全局平均池化是最常用的压缩方法,除此之外还有全局最大值池化和全局标准差池化等方法。
步骤3中利用特征金字塔提取目标的多尺度特征,从而增强密集目标的检测能力,在FPN的C3-C7进行特征融合,并在C3-C5应用MSAM,通过卷积层转换相邻特征图,并将它们融合到一起,对高层信息和浅层信息进行变换。首先分别对高层特征图Ch和浅层特征图Cl进行1×1卷积,生成具有相同通道数的特征图Mh和Ml,然后将Mh和Ml重塑为长向量并通过全连接层得到Bh和(Bl)T,接下来通过softmax函数计算相邻特征图之间的注意力权重分布H:
其中分别为对应特征图的x位置,A=H×W代表特征图所有点的总数。最后对H进行重塑和矩阵乘法以及softmax层来获得空间注意力映射,并与低级特征图Ml进行相加得到输出Pl:
Pl=rs(HTAh)+Ml
通过上式将FPN的高层信息和浅层信息进行聚合,通过学习权重矩阵将全局特征与原始特征图结合来获得具有上下文关系的特征。
步骤4为了得到较好的鲁棒性和稳定性本发明使用的是检测任务中常见的分类头和OBB回归头,首先头部包含4个3×3的卷积核,接着通过1个3×3的卷积核以降低通道维度,第一个分支负责分类,另一个分支负责OBB回归。分类头的损失函数为:
其中,a表示检测结果,a′表示真实值标签,N表示锚框的总数,Lfocal为聚焦损失:
Lfocal(ai,a′i)=-(1-a′i)ηlog(a′i)
其中η为超参数,在本发明中设置为2.0。OBB回归的参数包括预定义锚框参数(x0,y0,w0,h0,θ0),预测框参数(x,y,w,h,θ),预测框与预定义锚框输出结果的偏移量offset=(xs,ys,ws,hs,θs)为:
θs=tan(θ-θ0)
其中x,x0分别为预测框和预定义锚框的中心点横坐标,y,y0分别为预测框和预定义锚框的中心点纵坐标,w,w0分别为预测框和预定义锚框的宽度,h,h0分别为预测框和预定义锚框的高度,θ,θ0分别为预测框和预定义锚框的旋转角度。类似地,真实值框参数(x′,y′,w′,h′,θ′),预测框与预定义锚框输出结果的偏移量offset′=(x′s,y′s,w′s,h′s,θ′s)为:
θ′s=tan(θ′-θ0)
其中x′为真实值框的中心点横坐标,y′为真实值框的中心点纵坐标,w′为真实值框的宽度,h′为真实值框的高度,θ′为真实值框的旋转角度。本发明所述方法中使用五参数损失函数LOBB:
Lsmooth1=L(x′s,xs)+L(y′s,ys)+L(w′s,ws)+L(h′s,hs)+L(θ′s,θs)
Lsmooth2=L(x′s,xs)+L(y′s,ys)+L(w′s,hs)+L(h′s,ws)+L(θ′s,θs-π/2)
其中Lsmooth1,2为平滑损失由此得到所提出的网络模型在训练阶段的损失函数为:
L(a,b)=αLclass(a,a′)+βLOBB(b,b′)
其中a,b表示检测结果,a′,b′表示真实值标签α,β为超参数。在本发明中分别设置为1.0和0.9。
本发明提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于频域注意力的SAR图像舰船尾迹检测方法的步骤。
本发明提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述基于频域注意力的SAR图像舰船尾迹检测方法的步骤。
本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM,DRRAM)。应注意,本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disc,SSD))等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
以上对本发明所提出的一种基于频域注意力的SAR图像舰船尾迹检测方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.基于频域注意力的SAR图像舰船尾迹检测方法,其特征在于:所述方法包括:
步骤1:对数据集进行预处理增强,将增强后的数据集按照比例划分为训练集、验证集以及测试集;在步骤1中,所述数据集为高分三号舰船尾迹数据集,对使用的数据集进行旋转、平移和翻转预处理操作来增强数据;
步骤2:对输入图像进行特征提取,选取FcaNet为骨干网络,通过2D离散余弦变换DCT从输入图像中提取频域信息;在步骤2中,通过FcaNet在卷积过程中执行2D离散余弦变换DCT以选择性的提取图像特征,FcaNet骨干网络将通道划分成n等分,先分别计算出通道注意力中每个频率分量的结果,再根据所得结果筛选出k个性能最佳的频率分量;
步骤3:改进金字塔特征提取模块FPN,在金字塔的三层至七层上进行特征融合,在三层至五层上应用MSAM,通过卷积层转换到相邻特征图,从而融合信息;
步骤4:使用包含多个卷积核的分类头和OBB回归头对特征进行多任务回归,并赋予权重系数以适应舰船尾迹的场景,最终得到检测结果并进行可视化;
2D离散余弦变换DCT有:
其中x(i,j)是输入,H是输入图像的高,W是输入图像的宽;相应的2D离散余弦逆变换IDCT可以写成:
通道注意力机制通过标量来表示并评估每个通道的重要程度,输入特征X∈RH×W×C沿通道维度分为m组,X∈RH×W×C[X0,X1,X2…Xm-1],每组中的通道数为使用2D离散余弦变换DCT计算出对应每个部分的频率分量:
其中Freqn∈RC是计算得到的频率分量,通过级联来获得整个通道的注意力权重为:
W=sigmoid(fc(compress([X0,X1,X2…Xm-1])))
=sigmoid(fc(conactenation([Freq0,Freq1,Freq2…Freqm-1])))
其中sigmoid是sigmoid函数,fc表示映射函数。
2.根据权利要求1所述的方法,其特征在于:在步骤3中,利用特征金字塔提取目标的多尺度特征,改进特征金字塔网络中的特征融合步骤,在特征图的每个元素中进行具有相邻尺度间空间相关性的上下文信息加权编码,MSAM对高层特征图和浅层特征图进行卷积,生成具有相同通道数的特征图,然后重塑为长向量并通过全连接层。
3.根据权利要求2所述的方法,其特征在于:在金字塔特征提取模块FPN的C3-C7进行特征融合,并在C3-C5应用MSAM,通过卷积层转换相邻特征图,并将它们融合到一起,对高层信息和浅层信息进行变换;首先分别对高层特征图Ch和浅层特征图Cl进行1×1卷积,生成具有相同通道数的特征图Mh和Ml,然后将Mh和Ml重塑为长向量并通过全连接层得到Bh和(Bl)T,接下来通过softmax函数计算相邻特征图之间的注意力权重分布H:
其中分别为对应特征图的x位置,A=H×W代表特征图所有点的总数;最后对H进行重塑和矩阵乘法以及softmax层来获得空间注意力映射,并与低级特征图Ml进行相加得到输出Pl:
Pl=rs(HTAh)+Ml
通过上式将金字塔特征提取模块FPN的高层信息和浅层信息进行聚合,通过学习权重矩阵将全局特征与原始特征图结合来获得具有上下文关系的特征。
4.根据权利要求1所述的方法,其特征在于:分类头的损失函数为:
其中,a表示检测结果,a′表示真实值标签,N表示锚框的总数,Lfocal为聚焦损失:
Lfocal(a,a′)=-(1-a′)ηlog(a′)
其中η为超参数。
5.根据权利要求4所述的方法,其特征在于:OBB回归的参数包括预定义锚框参数(x0,y0,w0,h0,θ0)和预测框参数(x,y,w,h,θ),预测框与预定义锚框输出结果的偏移量offset=(xs,ys,ws,hs,θs)为:
θs=tan(θ-θ0)
其中x,x0分别为预测框和预定义锚框的中心点横坐标,y,y0分别为预测框和预定义锚框的中心点纵坐标,w,w0分别为预测框和预定义锚框的宽度,h,h0分别为预测框和预定义锚框的高度,θ,θ0分别为预测框和预定义锚框的旋转角度;
真实值框参数(x′,y′,w′,h′,θ′),真实值框与预定义锚框输出结果的偏移量offset′=(x′s,y′s,w′s,h′s,θ′s)为:
θ′s=tan(θ′-θ0)
其中x′为真实值框的中心点横坐标,y′为真实值框的中心点纵坐标,w′为真实值框的宽度,h′为真实值框的高度,θ′为真实值框的旋转角度;
使用五参数损失函数LOBB:
Lsmooth1=L(x′s,xs)+L(y′s,ys)+L(w′s,ws)+L(h′s,hs)+L(θ′s,θs)
Lsmooth2=L(x′s,xs)+L(y′s,ys)+L(w′s,hs)+L(h′s,ws)+L(θ′s,θs-π/2)
其中Lsmooth1,2为平滑损失由此得到网络模型在训练阶段的损失函数为:
L(a,b)=αLclass(a,a′)+βLOBB(b,b′)
其中a,b表示检测结果,a′,b′表示真实值标签α,β为超参数。
6.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法的步骤。
7.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310789015.XA CN116778176B (zh) | 2023-06-30 | 2023-06-30 | 基于频域注意力的sar图像舰船尾迹检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310789015.XA CN116778176B (zh) | 2023-06-30 | 2023-06-30 | 基于频域注意力的sar图像舰船尾迹检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116778176A CN116778176A (zh) | 2023-09-19 |
CN116778176B true CN116778176B (zh) | 2024-02-09 |
Family
ID=88007841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310789015.XA Active CN116778176B (zh) | 2023-06-30 | 2023-06-30 | 基于频域注意力的sar图像舰船尾迹检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116778176B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133024A (zh) * | 2023-10-12 | 2023-11-28 | 湖南工商大学 | 综合多尺度特征与动态学习率的掌纹图像识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2019101133A4 (en) * | 2019-09-30 | 2019-10-31 | Bo, Yaxin MISS | Fast vehicle detection using augmented dataset based on RetinaNet |
CN115393734A (zh) * | 2022-08-30 | 2022-11-25 | 吉林大学 | 基于Faster R-CNN与CV模型联合方法的SAR图像舰船轮廓提取方法 |
CN115631427A (zh) * | 2022-10-21 | 2023-01-20 | 西北工业大学 | 一种基于混合注意力多场景船舶检测分割方法 |
CN115841629A (zh) * | 2022-12-12 | 2023-03-24 | 中国人民武装警察部队海警学院 | 一种基于卷积神经网络的sar图像舰船检测方法 |
CN116071664A (zh) * | 2023-01-05 | 2023-05-05 | 江苏科技大学 | 基于改进CenterNet网络的SAR图像舰船检测方法 |
-
2023
- 2023-06-30 CN CN202310789015.XA patent/CN116778176B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2019101133A4 (en) * | 2019-09-30 | 2019-10-31 | Bo, Yaxin MISS | Fast vehicle detection using augmented dataset based on RetinaNet |
CN115393734A (zh) * | 2022-08-30 | 2022-11-25 | 吉林大学 | 基于Faster R-CNN与CV模型联合方法的SAR图像舰船轮廓提取方法 |
CN115631427A (zh) * | 2022-10-21 | 2023-01-20 | 西北工业大学 | 一种基于混合注意力多场景船舶检测分割方法 |
CN115841629A (zh) * | 2022-12-12 | 2023-03-24 | 中国人民武装警察部队海警学院 | 一种基于卷积神经网络的sar图像舰船检测方法 |
CN116071664A (zh) * | 2023-01-05 | 2023-05-05 | 江苏科技大学 | 基于改进CenterNet网络的SAR图像舰船检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116778176A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nie et al. | Attention mask R-CNN for ship detection and segmentation from remote sensing images | |
Chen et al. | Ship detection from coastal surveillance videos via an ensemble Canny-Gaussian-morphology framework | |
Zhang et al. | A mask attention interaction and scale enhancement network for SAR ship instance segmentation | |
CN110796048B (zh) | 一种基于深度神经网络的船舰目标实时检测方法 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN115331087A (zh) | 融合区域语义与像素特征的遥感影像变化检测方法及系统 | |
CN116778176B (zh) | 基于频域注意力的sar图像舰船尾迹检测方法 | |
Sun et al. | Global Mask R-CNN for marine ship instance segmentation | |
CN115311531A (zh) | 一种RefineDet网络模型的探地雷达地下空洞目标自动检测方法 | |
CN116665095B (zh) | 一种运动舰船检测方法、系统、存储介质和电子设备 | |
Na et al. | Object detection by a super-resolution method and a convolutional neural networks | |
Ding et al. | Improved object detection algorithm for drone-captured dataset based on yolov5 | |
CN112766108A (zh) | 基于上下文信息的sar图像目标检测方法 | |
CN116935332A (zh) | 一种基于动态视频的渔船目标检测与跟踪方法 | |
Wang et al. | Automatic SAR Ship Detection Based on Multi-Feature Fusion Network in Spatial and Frequency Domain | |
Zhou et al. | Ship detection based on multi-scale weighted fusion | |
Kong et al. | Lightweight algorithm for multi-scale ship detection based on high-resolution SAR images | |
Zhang et al. | Light-SDNet: a lightweight CNN architecture for ship detection | |
Yang et al. | A feature temporal attention based interleaved network for fast video object detection | |
Zhao et al. | Multitask learning for sar ship detection with gaussian-mask joint segmentation | |
Wang et al. | An unsupervised heterogeneous change detection method based on image translation network and post-processing algorithm | |
Chen et al. | SAR ship target detection for SSDv2 under complex backgrounds | |
CN115049927A (zh) | 基于SegNet的SAR图像桥梁检测方法、装置和存储介质 | |
Tan et al. | Divide to attend: A multiple receptive field attention module for object detection in remote sensing images | |
Li et al. | Learning to Holistically Detect Bridges from Large-Size VHR Remote Sensing Imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |