CN114998759A - 一种基于视觉Transformer的高精度SAR舰船检测方法 - Google Patents
一种基于视觉Transformer的高精度SAR舰船检测方法 Download PDFInfo
- Publication number
- CN114998759A CN114998759A CN202210591949.8A CN202210591949A CN114998759A CN 114998759 A CN114998759 A CN 114998759A CN 202210591949 A CN202210591949 A CN 202210591949A CN 114998759 A CN114998759 A CN 114998759A
- Authority
- CN
- China
- Prior art keywords
- result
- network
- recording
- feature extraction
- overlapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 132
- 230000000007 visual effect Effects 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 123
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 83
- 238000005070 sampling Methods 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 42
- 238000010276 construction Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Astronomy & Astrophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视觉Transformer的高精度SAR舰船检测方法,它主要包括HRSwin‑T骨干网络、语义增强金字塔,区域推荐头和级联检测头四部分。HRSwin‑T骨干网络通过最近邻插值的方法生成额外高分辨率特征图,增强对小尺度舰船的检测能力。语义增强金字塔通过多次自上而下的连接,增强层级特征图中的语义信息。区域推荐头用于生成潜在目标的区域,加快网络收敛速度。级联检测头通过多次分类回归,从而最大限度提高检测框的准确度。采用本发明SAR图像船只检测方法,能够克服现有技术存在的难以提取全局信息问题,提高SAR图像中船只的检测精度。
Description
技术领域
本发明属于合成孔径雷达(Synthetic Aperture Radar,SAR)图像解译技术领域,涉及一种基于视觉Transformer的高精度SAR舰船检测方法。
背景技术
合成孔径雷达(SAR)是一种用于高分辨率对地观测的先进主动微波传感器,可以实现全天候、全天时对地面目标进行观测。在海上交通管制、救灾、渔业管理等领域有着广泛的应用。相较于光学传感器,SAR图像可以穿透云层,在海洋上复杂的天气状态下能出色地完成观测任务。因此,SAR在海洋区域感知中起着非常重要的作用。
船只检测是海洋检测中重要的研究领域。SAR图像船只检测技术可以检测搜索遭遇危险的船舶并展开搜救,此外,SAR图像船只检测技术可以监视海面从而维护国家安全。SAR图像舰船检测也广泛的受到了学者们的关注。其中最为经典的SAR图像舰船检测方法是CFAR算法。CFAR算法首先需要人为确定背景杂波分布模型,接着通过寻求一个检测阈值,将求得的检测阈值与观测强度进行比较,然后通过一个简单的二元假设问题将目标从复杂的背景杂波中检测出来,并且保证检测的恒虚警性。但是由于海杂波的复杂分布,人为确定的分布模型难以拟合真实情况,因此CFAR算法在复杂场景下的检测精度较低。详见“杜兰,王兆成,王燕,魏迪,李璐.复杂场景下单通道SAR目标检测及鉴别研究进展综述[J].雷达学报,2020,9(01):34-54.”。
随着深度学习(deep learning,DL)的发展,深度学习在各行各业都有了广泛的应用。SAR图像舰船检测领域的学者们建立了一些基于深度学习实现SAR图像舰船检测的模型。相较于传统的CFAR算法,基于深度学习的算法更为简单和高效。基于深度学习的方法通常需要准备一定量的SAR图像数据以及相应的标签,然后合理构造网络,最后将准备的数据及标签输入网络即可得到相对精度更高的检测结果。
然而,现有的基于深度学习的SAR舰船检测方法通常采用卷积神经网络进行特征提取。这种特征提取方式使得网络更加关注于临近像素间的关系而忽略了相距较远的像素之间的关系,从而导致了网络难以建立长距离依赖关系、提取全局信息,最后导致检测精度受限。
因此,为了解决网络难以利用SAR图像全局信息的问题,本文提出了一种基于视觉Transformer的高精度SAR舰船检测方法。该方法包括HRSwin-T骨干网络、语义增强金字塔,区域推荐头和级联检测头四种用于解决无法捕获全局信息问题的模块。
发明内容
本发明属于合成孔径雷达(SAR)图像解译技术领域,公开了一种基于视觉Transformer的高精度SAR舰船检测方法,用来解决现有技术中难以建立长距离依赖关系、难以提取全局信息的问题。该方法基于深度学习理论,主要包括HRSwin-T骨干网络、语义增强金字塔,区域推荐头和级联检测头四部分。HRSwin-T骨干网络通过最近邻插值的方法生成额外高分辨率特征图,增强对小尺度舰船的检测能力。语义增强金字塔通过多次自上而下的连接,增强层级特征图中的语义信息。区域推荐头用于生成潜在目标的区域,加快网络收敛速度。级联检测头通过多次分类回归,从而最大限度提高检测框的准确度。实验证明,在SSDD数据集上的全场景下,基于视觉Transformer的SAR图像船只检测方法的检测精度AP为61.60%,现有其他基于深度学习的SAR船只检测精度最高为60.80%。在SSDD数据集上的靠岸场景下,基于视觉Transformer的SAR图像船只检测方法的检测精度AP为51.20%,现有其他基于深度学习的SAR船只检测精度最高为47.60%。基于视觉Transformer的SAR图像船只检测方法提高了船只检测精度。
为了方便描述本发明的内容,首先作以下术语定义:
定义1:SSDD数据集获取方法
SSDD数据集是指SAR船只检测数据集,英文全称为SAR Ship Detection Dataset,SSDD是第一个开放的SAR船只检测数据集。包括Sentinel-1、RadarSat-2和TerraSAR-X的SAR图像共1160幅,分辨率为500×500像素。SSDD有2551艘船只。最小的是28pixel2,最大的是62878pixel2(pixel2是宽度像素和高度1的乘积)。在SSDD中,选取后缀为1和9的图像(232个样本)作为测试集,其余的作为训练集(928个样本)。获取SSDD数据集方法可从参考文献“李健伟,曲长文,彭书娟,邓兵.基于卷积神经网络的SAR图像船只目标检测[J].系统工程与电子技术,2018,40(09):1953-1959.”中获得。
定义2:经典的卷积神经网络方法
经典的卷积神经网络通常由输入层,隐含层,输出层组成。输入层可以处理多维数据,在计算机视觉领域通常预先假设输入层输入三维输入数据,即平面上的二维像素点和RGB通道。输出层在图像检测和识别当中通常使用逻辑函数或归一化指数函数输出分类标签和相应边框坐标值。隐含层包含卷积层、非线性激活函数、池化层和全连接层构成,卷积层以输入特征的一小块矩形区域为单位,将特征进行高维的抽象;非线性池化层被用来缩小矩阵,进而减少后续神经网络中的参数;全连接层等价于传统前馈神经网络中的隐含层,它将之前抽象得到的高维特征作为输入进行分类和检测任务。经典的卷积神经网络方法详见文献“胡伏原,李林燕,尚欣茹,沈军宇,戴永良.基于卷积神经网络的目标检测算法综述[J].苏州科技大学学报(自然科学版),2020,37(02):1-10+25.”
定义3:经典的Adam算法
经典的Adam算法是一种对随机梯度下降法的扩展,最近在计算机视觉和自然语言处理中广泛应用于深度学习应用。经典的Adam与经典的随机梯度下降法是不同的。随机梯度下降保持一个单一的学习速率,用于所有的权重更新,并且在训练过程中学习速率不会改变。每一个网络权重都保持一个学习速率,并随着学习的展开而单独地进行调整。该方法从梯度的第一次和第二次矩的预算来计算不同参数的自适应学习速率。经典的Adam算法详见“Kingma,D.;Ba,J.Adam:A Method for Stochastic Optimization.arXiv 2014,arXiv:1412.6980.”。
定义4:传统前向传播方法
前向传播方法是深度学习当中最基本的一个方法,主要是将输入依据网络中的参数和连接方法进行前向推理,从而得到网络的输出。传统前向传播方法详见“https://www.jianshu.com/p/f30c8daebebb”。
定义5:经典Swin Transformer骨干网络构建方法
Swin Transformer是由来自Microsoft Research的7位学者提出的骨干网络,在2021年的ICCV中获得了最佳论文。它的特点是可以输出层级特征图,易于进行多尺度检测任务。通过提出变化窗机制(Shifted windows mechanism),将自注意力计算限制在窗口之内,实现了相对于输入图片尺寸而言的线性复杂度,在各类光学数据集上取得了良好的表现。经典Swin Transformer骨干网络构建方法详见“Liu Z,Lin Y,Cao Y,et al.SwinTransformer:Hierarchical Vision Transformer using Shifted Windows[J].2021.”。
定义6:传统卷积核操作方法
卷积核是实现将输入的特征图或者图片中的一小部分矩形区域内的值分别加权然后求和作为输出的一个节点。每个卷积核需要人工指定多个参数。一类参数是卷积核所处理的节点矩阵的长和宽,这个节点矩阵的尺寸也是卷积核的尺寸。另外一类卷积核的参数是处理得到的单位节点矩阵的深度,单位节点矩阵的深度也是卷积核的深度。在卷积操作过程中,每个卷积核在输入数据上滑动,然后计算整个卷积核与输入数据相对应位置的内积,之后将内积通过非线性函数得到最终结果,最后所有对应位置的结果组成了一张二维的特征图。每个卷积核都会生成一张二维的特征图,多个卷积核生成的特征图相叠加组成了一个三维的特征图。传统卷积核操方法作详见“范丽丽,赵宏伟,赵浩宇,胡黄水,王振.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(05):1152-1164.”。
定义7:传统级联操作方法
级联是网络结构设计中重要的一种操作,用于将特征联合,多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合,从而增强网络的特征提取能力。传统级联操作方法详见“https://blog.csdn.net/alxe_made/article/details/80506051?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param”。
定义8:经典上采样操作方法
上采样是将图片或特征图进行方法的一种操作,主流的上采样操作通常采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。在主流插值的算法中,邻插值较简单,容易实现,早期的时候应用比较普遍。但是,该方法会在新图像中产生明显的锯齿边缘和马赛克现象。双线性插值法具有平滑功能,能有效地克服邻法的不足,但会退化图像的高频部分,使图像细节变模糊。在放大倍数比较高时,高阶插值,如双三次和三次样条插值等比低阶插值效果好。这些插值算法可以使插值生成的像素灰度值延续原图像灰度变化的连续性,从而使放大图像浓淡变化自然平滑。但是在图像中,有些像素与相邻像素间灰度值存在突变,即存在灰度不连续性。这些具有灰度值突变的像素就是图像中描述对象的轮廓或纹理图像的边缘像素。经典的上采样操作详见“https://blog.csdn.net/weixin_43960370/article/details/106049708?utm_term=%E5%8D%B7%E7%A7%AF%E7%89%B9%E5%BE%81%E5%9B%BE%E4%B8%8A%E9%87%87%E6%A0%B7&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduweb~default-1-106049708&spm=3001.4430”。
定义9:经典池化操作方法
池化操作(Pooling)是CNN中非常常见的一种操作,Pooling层是模仿人的视觉系统对数据进行降维,池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling),在构建卷积神经网络时,往往会用在卷积层之后,通过池化来降低卷积层输出的特征维度,有效减少网络参数的同时还可以防止过拟合现象。经典的池化操作方法详见“https://www.zhihu.com/question/303215483/answer/615115629”
定义10:经典区域推荐网络构建方法
区域推荐网络是Faster R-CNN中的子网络,用于提取图片中可能存在目标的区域。区域推荐网络是全卷积网络,其采用基础网络输出的卷积特征图作为输入,输出是每个候选框的目标置信度得分。经典区域推荐网络构建方法详见“Ren S,He K,Girshick R,etal.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”
定义11:传统目标分类网络构建方法
目标分类网络是Faster R-CNN中的子网络,用于对图片中的目标检测框进行分类。目标分类网络采用基础网络输出的卷积特征图作为输入,输出是每个候选框的类别得分。传统目标分类网络构建方法详见“Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”
定义12:传统特征提取网络构建方法
特征提取网络是Faster R-CNN中的子网络,用于对图片中的目标区域进行特征提取。特征提取网络是全卷积网络,其采用基础网络输出的卷积特征图作为输入,输出是被提取的特征图。传统特征提取网络构建方法详见“Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”
定义13:传统非极大值抑制方法
非极大值抑制方法是目标检测领域中用来去除冗余检测框的算法。在经典的检测网络的前向传播结果中,常常会出现同一目标对应多个检测框的情况。因此,需要一种算法从同一目标的多个检测框中筛选出一个质量最好、得分最高的检测框。非极大值抑制通过计算重叠率阈值进行局部最大搜索。传统非极大值抑制方法详见“https://www.cnblogs.com/makefile/p/nms.html”。
定义14:传统召回率和精确率计算方法
召回率R指在所有的正样本中预测正确的数量,表达式为精确率P指预测为正例的结果中,正确的个数所占的比例表达式为其中,TP(truepositive)表示被模型预测为正值的正样本;FN(false negative)表示被模型预测为负值的负样本;FP(false positive)表示为被模型预测为负值的正样本。召回率和精确率曲线P(R)指以R为自变量,P为因变量的函数,传统召回率和精确率计算方法详见文献“李航.统计学习方法[M].北京:清华大学出版社,2012.”。
定义15:传统最近邻差值方法
最近邻插值法是最简单的灰度值插值。也称作零阶插值,是一种将变换后的图像中的原像素点最邻近像素的灰度值赋给原像素点的方法。传统最近邻插值方法详见“https://www.cnblogs.com/wancy/p/15068519.html”。
定义16交并比IOU
交并比(IOU)是一种测量在特定数据集中检测相应物体准确度的一个标准。IOU是一个简单的测量标准,只要是在输出中得出一个预测范围的任务都可以用IOU来进行测量。计算IOU的公式为其中Area of Overlap为预测框和真值框相交的区域面积,Area of Union为预测框和真值框合并的区域面积。IOU的取值范围为0到1,数值越高,重叠程度越高。交并比IOU的具体实现详见“https://blog.csdn.net/weixin_44656422/article/details/123057530”。
本发明提供的一种基于视觉Transformer的高精度SAR舰船检测方法,它包括以下步骤:
步骤1、初始化数据集
采用随机的方法调整SSDD数据集中的SAR图像次序,得到新的SSDD数据集。
步骤2、搭建前向传播网络
步骤2.1、建立HRSwin-T骨干网络
采用定义5中的经典Swin Transformer骨干网络构建方法,搭建SwinTransformer骨干网络,记为Swin-T。
以步骤1中获取得到的新的SSDD数据作为输入,将经过第一个Swin Transformer基本模块所得的128×128×96维输出结果,采用定义15中的传统最近邻插值法进行最近邻插值,得到插值后256×256×96维的结果向量,作为第一层特征图,记为F1。
以步骤1中获取得到的新的SSDD数据作为输入,将经过第一个Swin Transformer基本模块后得到的128×128×96维的输出结果,作为第二层特征图,记为F2。
以128×128×96维的向量F2作为输入,经过第二个Swin Transformer基本模块后得到的64×64×192维的输出结果,作为第三层特征图,记为F3。
以64×64×192维的向量F3作为输入,经过第三个Swin Transformer基本模块后得到的32×32×384维的输出结果,作为第四层特征图,记为F4。
以32×32×384维的向量F3作为输入,经过第三个Swin Transformer基本模块后得到的16×16×768维的输出结果,作为第五层特征图,记为F5。
步骤2.2、搭建语义增强金字塔网络
采用定义8中的经典上采样操作方法,将第五层特征图F5,进行2倍上采样,记上采样结果为U1,5;采用定义6中的传统卷积核操作方法,将第四层特征图F4用1×1卷积和进行特征提取,记特征提取结果记为E1,4。采用定义7中的传统级联操作方法,将E1,4和U1,5进行叠加,将叠加结果记为P1,4。
采用定义8中的传统上采样操作方法,将P1,4,进行2倍上采样,记上采样结果为U1,4;采用定义6中的传统卷积核操作方法,将F3用1×1卷积和进行特征提取,记特征提取结果记为E1,3。采用定义7中的传统级联操作方法,将E1,3和U1,4进行叠加,将叠加结果记为P1,3。
采用定义8中的传统上采样操作方法,将P1,3,进行2倍上采样,记上采样结果为U1,3;采用定义6中的传统卷积核操作方法,将F2用1×1卷积和进行特征提取,记特征提取结果记为E1,2。采用定义7中的传统级联操作方法,将E1,2和U1,3进行叠加,将叠加结果记为P1,2。
采用定义8中的传统上采样操作方法,将P1,2,进行2倍上采样,记上采样结果为U1,2;采用定义6中的传统卷积核操作方法,将F1用1×1卷积和进行特征提取,记特征提取结果记为E1,1。采用定义7中的传统级联操作方法,将E1,1和U1,2进行叠加,将叠加结果记为P1,1。
将F5,另记为G5。
采用定义8中的传统上采样操作方法,将F5,进行2倍上采样,再进行0.5倍加权,记结果为U2,4,采用定义6中的传统卷积和操作方法,将P1,4用3×3卷积和进行特征提取,记特征提取结果记为E2,4。采用定义7中的传统级联操作方法,将E2,4和U2,4进行叠加,将叠加结果记为P2,4。
采用定义8中的传统上采样操作方法,将P2,4,进行2倍上采样,再进行0.5倍加权,记结果为U2,3,采用定义6中的传统卷积核操作方法,将P1,3用3×3卷积和进行特征提取,记特征提取结果记为E2,3。采用定义7中的传统级联操作方法,将E2,3和U2,3进行叠加,将叠加结果记为P2,3。
采用定义8中的传统上采样操作方法,将P2,3,进行2倍上采样,再进行0.5倍加权,记结果为U2,2,采用定义6中的传统卷积核操作方法,将P1,2用3×3卷积和进行特征提取,记特征提取结果记为E2,2。采用定义7中的传统级联操作方法,将E2,2和U2,2进行叠加,将叠加结果记为P2,2。
采用定义8中的传统上采样操作方法,将P2,2,进行2倍上采样,再进行0.5倍加权,记结果为U2,1,采用定义6中的传统卷积核操作方法,将P1,1用3×3卷积和进行特征提取,记特征提取结果记为E2,1。采用定义7中的传统级联操作方法,将E2,1和U2,1进行叠加,将叠加结果记为P2,1。
将P2,4,另记为G4。
采用定义8中的传统上采样操作方法,将P2,4,进行2倍上采样,再进行0.25倍加权,记结果为U3,3,采用定义6中的传统卷积核操作方法,将P2,3用3×3卷积和进行特征提取,记特征提取结果记为E3,3。采用定义7中的传统级联操作方法,将E3,3和U3,3进行叠加,将叠加结果记为G3。
采用定义8中的传统上采样操作方法,将G3,进行2倍上采样,再进行0.25倍加权,记结果为U3,2,采用定义6中的传统卷积核操作方法,将P2,2用3×3卷积和进行特征提取,记特征提取结果记为E3,2。采用定义7中的传统级联操作方法,将E3,2和U3,2进行叠加,将叠加结果记为G2。
采用定义8中的传统上采样操作方法,将G2,进行2倍上采样,再进行0.25倍加权,记结果为U3,1,采用定义6中的传统卷积核操作方法,将P2,1用3×3卷积和进行特征提取,记特征提取结果记为E3,1。采用定义7中的传统级联操作方法,将E3,1和U3,1进行叠加,将叠加结果记为G1。
至此,语义增强金字塔搭建网络工作完成,记搭建的语义增强金字塔网络为SEPN。
步骤2.3、搭建区域推荐网络
采用定义10中的经典区域推荐网络构建方法,搭建区域推荐网络,记为R。由SwinTransformer骨干网络Swin-T、语义增强金字塔网络SEPN和区域推荐网络R组成区域推荐头网络,记为区域推荐头网络RPN0。
步骤2.4、搭建级联检测头网络
采用定义7中的传统卷积核方法构建卷积层Conv;采用定义9中的经典的池化操作方法构建三个池化层,分别记为Pooling1、Pooling2、Pooling3。
采用定义12中的传统特征提取网络构建方法,搭建三个特征提取网络,分别记为H1,H2,H3;
采用定义11中的传统目标分类网络构建方法,搭建三个目标分类网络,分别记为C1,C2,C3。
采用定义10中的经典区域推荐网络构建方法,搭建三个区域推荐网络,记为B1,B2,B3。
将Conv和RPN的输出作为Pooling1的输入,将Pooling1的输出作为H1的输入,将H1的输出作为C1和B1的输入;将Conv和B1的输出作为Pooling2的输入,将Pooling2的输出作为H2的输入,将H2的输出作为C2和B2的输入;将Conv和B2的输出作为Pooling3的输入,将Pooling3的输出作为H3的输入,将H3的输出作为C3和B3的输入;特征提取网络H1,H2,H3,分类网络C1,C2,C3,区域推荐网络B0,B1,B2,B3,池化层Pooling1、Pooling2、Pooling3,以及卷积层Conv一起共同构成级联检测头,记为CasNet0。
步骤3、训练区域推荐头网络
设置迭代参数epoch,初始化epoch值为1。
步骤3.1、对区域推荐网络进行前向传播
将步骤1中的数据集的训练集Train作为区域推荐网络B的输入采用定义4中的传统前向传播方法把训练集Train送入区域推荐头网络RPN0进行运算,记网络RPN0的输出作为Result1。
步骤3.2、对前向传播结果进行平衡区间采样
将步骤3.1得到的输入Result1和训练集Train作为输入,采用定义16交并比IOU计算公式计算,计算得到Result1中每个推荐框的IOU值,其中Area ofOverlap为预测框和真值框相交的区域面积,Area of Union为预测框和真值框合并的区域面积;
将Result1中IOU大于0.5的输出作为正样本,记为Result1p;将Result1中IOU小于0.5的输出作为负样本,记为Result1n。
统计负样本Result1n中的总样本数记为M,人为输入所需负样本数,记为N;人为输入所需等分IOU的间隔数为nb,记第i个IOU区间的样本数为Mi。设置第i个区间的随机采样概率为对每个IOU区间进行随机采样,将随机采样后得到的负样本所有IOU区间的采样结果记为Result1ns。
统计正样本Result1p中的样本数,记为P。
步骤3.3、对区域推荐网络进行训练和优化
将步骤3.2中得到的正样本采样结果Result1ps和负样本采样结果Result1ns作为输入,采用定义3中的经典的Adam算法对区域推荐网络进行训练和优化。得到训练和优化之后的区域推荐网络RPN1。
步骤4、训练级联检测头网络
步骤4.1、对级联检测头网络进行前向传播
将步骤1中的数据集的训练集Train作为级联检测头网络CasNet0的输入,采用定义5中的传统前向传播方法把训练集Train送入级联检测头网络CasNet0进行运算,记级联检测头网络CasNet0的输出作为Result2。
步骤4.2、对级联检测头网络进行训练和优化
将步骤4.1中得到的级联检测头网络CasNet0的输出Result2作为输入,采用定义3中的经典的Adam算法对级联检测头网络进行训练和优化。得到训练和优化之后的级联检测头网络CasNet1。
步骤5、进行交替训练
判断步骤3中设置的epoch是否等于12;
如果epoch不等于12,则令epoch=epoch+1、SEPN0=SEPN1、RPN0=RPN1、CasNet0=CasNet1,依次重复步骤3.1、步骤3.2、步骤3.3、步骤4.1、步骤4.2,然后返回步骤5对epoch进行再次判断;
如果epoch等于12,则令训练后的语义增强金字塔网络SEPN1、区域推荐网络RPN1和级联检测头网络CasNet1记为网络HRSwin-CASN,然后进行步骤6.
步骤6、评估方法
步骤6.1、前向传播
以步骤5中得到网络HRSwin-CASN和步骤1中得到的测试集Tests作为输入,采用定义4传统的前向传播方法进行检测,得到检测结果,记为R。
以检测结果R作为输入,采用定义13中传统的非极大值抑制方法,去除检测结果R1中的冗余框,具体步骤如下:
步骤(1)首先令检测结果R1中得分最高的框,记为BS;
步骤(3)从剩余框中选出得分最高的框BS;
重复上述步骤(2)中计算IoU和舍弃的过程,直到没有框可以舍弃,最后剩余的框即为最终检测结果,记为RF。
步骤6.2、计算指标
以步骤6.1中得到的检测结果RF作为输入,采用定义14中传统的召回率和精确率计算方法,求出网络的精确率P、召回率R和精确率和召回率曲线P(R);采用公式计算基于视觉Transformer的高精度SAR舰船检测平均精度mAP。
本发明的创新点在于引入了HRSwin-T骨干网络、语义增强金字塔,区域推荐网络和级联检测头,从而解决现有基于深度学习的SAR船只检测方法中存在的难以建立长距离依赖关系、难以提取全局信息的问题。采用本方法的SAR图像船只检测,在全场景下,基于视觉Transformer的SAR图像船只检测方法的检测精度AP为61.60%,超过次优SAR图像船只检测器0.8个百分点。在靠岸场景下,基于视觉Transformer的SAR图像船只检测方法的检测精度AP为51.20%,超过次优SAR图像船只检测器3.6个百分点。
本发明的优点在于能够克服现有技术存在的难以提取全局信息问题,提高SAR图像中船只的检测精度。
附图说明
图1为本发明中的基于视觉Transformer的高精度SAR舰船检测方法的流程示意图。
图2为本发明中的HRSwin-T骨干网络结构示意图。
图3为本发明中的语义增强金字塔结构示意图。
图4为本发明中的级联检测头网络结构示意图。
图5为本发明中的基于视觉Transformer的高精度SAR舰船检测方法的检测精度。
具体实施方式
下面结合附图1、附图2、附图3、附图4、附图5对本发明的作进一步详细描述。
本发明提供的一种基于视觉Transformer的高精度SAR舰船检测方法,它包括以下步骤:
步骤1、初始化数据集
采用随机的方法调整SSDD数据集中的SAR图像次序,得到新的SSDD数据集。
步骤2、搭建前向传播网络
步骤2.1、建立HRSwin-T骨干网络
如图2所示,按照定义5中的Swin Transformer构建方法,搭建Swin Transformer骨干网络Swin-T。
以步骤1中获取得到的新的SSDD数据作为输入,将第一个Swin Transformer基本模块所得的输出结果进行最近邻插值,得到插值后256×256×96维的结果向量,作为第一层特征图,记为F1。
以步骤1中获取得到的新的SSDD数据作为输入,经过第一个Swin Transformer基本模块后得到的128×128×96维的输出结果,作为第二层特征图,记为F2。
以128×128×96维的向量F2作为输入,经过第二个Swin Transformer基本模块后得到的64×64×192维的输出结果,作为第三层特征图,记为F3。
以64×64×192维的向量F3作为输入,经过第三个Swin Transformer基本模块后得到的32×32×384维的输出结果,作为第四层特征图,记为F4。
以32×32×384维的向量F3作为输入,经过第三个Swin Transformer基本模块后得到的16×16×768维的输出结果,作为第五层特征图,记为F5。
步骤2.2、搭建语义增强金字塔网络
如图3所示,按照定义8中的上采样操作,将F5,进行2倍上采样,记上采样结果为U1,5;按照定义6中的卷积核操作,将F4用1×1卷积和进行特征提取,记特征提取结果记为E1,4。按照定义7中的级联操作,将E1,4和U1,5进行叠加,将叠加结果记为P1,4。
按照定义8中的上采样操作,将P1,4,进行2倍上采样,记上采样结果为U1,4;按照定义6中的卷积核操作,将F3用1×1卷积和进行特征提取,记特征提取结果记为E1,3。按照定义7中的级联操作,将E1,3和U1,4进行叠加,将叠加结果记为P1,3。
按照定义8中的上采样操作,将P1,3,进行2倍上采样,记上采样结果为U1,3;按照定义6中的卷积核操作,将F2用1×1卷积和进行特征提取,记特征提取结果记为E1,2。按照定义7中的级联操作,将E1,2和U1,3进行叠加,将叠加结果记为P1,2。
按照定义8中的上采样操作,将P1,2,进行2倍上采样,记上采样结果为U1,2;按照定义6中的卷积核操作,将F1用1×1卷积和进行特征提取,记特征提取结果记为E1,1。按照定义7中的级联操作,将E1,1和U1,2进行叠加,将叠加结果记为P1,1。
将F5,另记为G5。
按照定义8中的上采样操作,将F5,进行2倍上采样,再进行0.5倍加权,记结果为U2,4,按照定义6中的卷积和操作,将P1,4用3×3卷积和进行特征提取,记特征提取结果记为E2,4。按照定义7中的级联操作,将E2,4和U2,4进行叠加,将叠加结果记为P2,4。
按照定义8中的上采样操作,将P2,4,进行2倍上采样,再进行0.5倍加权,记结果为U2,3,按照定义6中的卷积核操作,将P1,3用3×3卷积和进行特征提取,记特征提取结果记为E2,3。按照定义7中的级联操作,将E2,3和U2,3进行叠加,将叠加结果记为P2,3。
按照定义8中的上采样操作,将P2,3,进行2倍上采样,再进行0.5倍加权,记结果为U2,2,按照定义6中的卷积核操作,将P1,2用3×3卷积和进行特征提取,记特征提取结果记为E2,2。按照定义7中的级联操作,将E2,2和U2,2进行叠加,将叠加结果记为P2,2。
按照定义8中的上采样操作,将P2,2,进行2倍上采样,再进行0.5倍加权,记结果为U2,1,按照定义6中的卷积核操作,将P1,1用3×3卷积和进行特征提取,记特征提取结果记为E2,1。按照定义7中的级联操作,将E2,1和U2,1进行叠加,将叠加结果记为P2,1。
将P2,4,另记为G4。
按照定义8中的上采样操作,将P2,4,进行2倍上采样,再进行0.25倍加权,记结果为U3,3,按照定义6中的卷积核操作,将P2,3用3×3卷积和进行特征提取,记特征提取结果记为E3,3。按照定义7中的级联操作,将E3,3和U3,3进行叠加,将叠加结果记为G3。
按照定义8中的上采样操作,将G3,进行2倍上采样,再进行0.25倍加权,记结果为U3,2,按照定义6中的卷积核操作,将P2,2用3×3卷积和进行特征提取,记特征提取结果记为E3,2。按照定义7中的级联操作,将E3,2和U3,2进行叠加,将叠加结果记为G2。
按照定义8中的上采样操作,将G2,进行2倍上采样,再进行0.25倍加权,记结果为U3,1,按照定义6中的卷积核操作,将P2,1用3×3卷积和进行特征提取,记特征提取结果记为E3,1。按照定义7中的级联操作,将E3,1和U3,1进行叠加,将叠加结果记为G1。
记搭建的语义增强金字塔网络为SEPN0。
步骤2.3、搭建区域推荐网络
按照定义10中的区域推荐网络构建方法,搭建区域推荐网络,记为R。将SwinTransformer骨干网络Swin-T、语义增强金字塔网络SEPN,区域推荐网络R,共同记为区域推荐头网络RPN0。
步骤2.4、搭建级联检测头网络
如图4所示,按照定义7中的卷积核方法构建卷积层Conv;同时,按照定义10中的池化操作构建三个池化层,分别记为Pooling1、Pooling2、Pooling3。按照定义12中的区域提取网络构建方法,搭建三个特征提取网络,分别记为H1,H2,H3。按照定义11中的目标分类网络构建方法,搭建三个目标分类网络,分别记为C1,C2,C3。按照定义10中的区域推荐网络构建方法,搭建三个区域推荐网络,记为B1,B2,B3。将Conv和RPN的输出作为Pooling1的输入,将Pooling1的输出作为H1的输入,将H1的输出作为C1和B1的输入;将Conv和B1的输出作为Pooling2的输入,将Pooling2的输出作为H2的输入,将H2的输出作为C2和B2的输入;将Conv和B2的输出作为Pooling3的输入,将Pooling3的输出作为H3的输入,将H3的输出作为C3和B3的输入;特征提取网络H1,H2,H3,分类网络C1,C2,C3,区域推荐网络B0,B1,B2,B3,池化层Pooling1、Pooling2、Pooling3,以及卷积层Conv一起共同构成级联检测头,记为CasNet0。
步骤3、训练区域推荐头网络
设置迭代参数epoch,初始化epoch值为1。
步骤3.1、对区域推荐网络进行前向传播
将步骤1中的数据集的训练集Train作为区域推荐网络B的输入,按照定义4中的前向传播方法把训练集Train送入区域推荐头网络RPN0进行运算,记网络RPN0的输出作为Result1。
步骤3.2、对前向传播结果进行平衡区间采样
将步骤3.1得到的输入Result1和训练集Train作为输入,按照公式计算方法计算Result1中每个推荐框的IOU值,将Result1中IOU大于0.5的输出作为正样本,记为Result1p;将Result1中IOU小于0.5的输出作为负样本,记为Result1n。统计负样本Result1n中的总样本数为M。人为输入所需负样本数,记为N;人为输入所需等分IOU的间隔数为nb,记第i个IOU区间的样本数为Mi。设置第i个区间的随机采样概率为对每个IOU区间进行随机采样,将负样本所有IOU区间的采样结果记为Result1ns。
步骤3.3、对区域推荐网络进行训练和优化
将步骤3.2中得到的正样本采样结果Result1ps和负样本采样结果Result1ns作为输入,按照定义3中的经典的Adam算法对区域推荐网络进行训练和优化。得到训练和优化之后的区域推荐网络RPN1。
步骤4、训练级联检测头网络
步骤4.1、对级联检测头网络进行前向传播
将步骤1中的数据集的训练集Train作为级联检测头网络CasNet0的输入,按照定义5中的前向传播方法把训练集Train送入级联检测头网络CasNet0进行运算,记级联检测头网络CasNet0的输出作为Result2。
步骤4.2、对级联检测头网络进行训练和优化
将步骤4.1中得到的级联检测头网络CasNet0的输出Result2作为输入,按照定义3中的经典的Adam算法对级联检测头网络进行训练和优化。得到训练和优化之后的级联检测头网络CasNet1。
步骤5、进行交替训练
判断步骤3中设置的epoch是否等于12。如果epoch不等于12,则令epoch=epoch+1、SEPN0=SEPN1、RPN0=RPN1、CasNet0=CasNet1,依次重复步骤3.1、步骤3.2、步骤3.3、步骤4.1、步骤4.2,然后返回步骤5对epoch进行再次判断;如果epoch等于12,则令训练后的语义增强金字塔网络SEPN1、区域推荐网络RPN1和级联检测头网络CasNet1记为网络HRSwin-CASN,然后进行步骤7.
步骤6、评估方法
步骤6.1、前向传播
以步骤5中得到网络HRSwin-CASN和步骤1中得到的测试集Tests作为输入,采用定义4传统的前向传播方法,得到检测结果,记为R。
以检测结果R作为输入,采用定义13中传统的非极大值抑制方法,去除检测结果R1中的冗余框,具体步骤如下:
步骤(1)首先令检测结果R1中得分最高的框,记为BS;
步骤(3)从剩余框中选出得分最高的框BS;
重复上述步骤(2)中计算IoU和舍弃的过程,直到没有框可以舍弃,最后剩余的框即为最终检测结果,记为RF。
步骤6.2、计算指标
Claims (1)
1.一种基于视觉Transformer的高精度SAR舰船检测方法,其特征是它包括以下步骤:
步骤1、初始化数据集
采用随机的方法调整SSDD数据集中的SAR图像次序,得到新的SSDD数据集;
步骤2、搭建前向传播网络
步骤2.1、建立HRSwin-T骨干网络
采用经典Swin Transformer骨干网络构建方法,搭建Swin Transformer骨干网络,记为Swin-T;
以步骤1中获取得到的新的SSDD数据作为输入,将经过第一个Swin Transformer基本模块所得的128×128×96维输出结果,采用传统最近邻插值法进行最近邻插值,得到插值后256×256×96维的结果向量,作为第一层特征图,记为F1;
以步骤1中获取得到的新的SSDD数据作为输入,将经过第一个Swin Transformer基本模块后得到的128×128×96维的输出结果,作为第二层特征图,记为F2;
以128×128×96维的向量F2作为输入,经过第二个Swin Transformer基本模块后得到的64×64×192维的输出结果,作为第三层特征图,记为F3;
以64×64×192维的向量F3作为输入,经过第三个Swin Transformer基本模块后得到的32×32×384维的输出结果,作为第四层特征图,记为F4;
以32×32×384维的向量F3作为输入,经过第三个Swin Transformer基本模块后得到的16×16×768维的输出结果,作为第五层特征图,记为F5;
步骤2.2、搭建语义增强金字塔网络
采用经典上采样操作方法,将第五层特征图F5,进行2倍上采样,记上采样结果为U1,5;采用传统卷积核操作方法,将第四层特征图F4用1×1卷积和进行特征提取,记特征提取结果记为E1,4;采用传统级联操作方法,将E1,4和U1,5进行叠加,将叠加结果记为P1,4;
采用传统上采样操作方法,将P1,4,进行2倍上采样,记上采样结果为U1,4;采用传统卷积核操作方法,将F3用1×1卷积和进行特征提取,记特征提取结果记为E1,3;采用传统级联操作方法,将E1,3和U1,4进行叠加,将叠加结果记为P1,3;
采用传统上采样操作方法,将P1,3,进行2倍上采样,记上采样结果为U1,3;采用传统卷积核操作方法,将F2用1×1卷积和进行特征提取,记特征提取结果记为E1,2;采用传统级联操作方法,将E1,2和U1,3进行叠加,将叠加结果记为P1,2;
采用传统上采样操作方法,将P1,2,进行2倍上采样,记上采样结果为U1,2;采用传统卷积核操作方法,将F1用1×1卷积和进行特征提取,记特征提取结果记为E1,1;采用传统级联操作方法,将E1,1和U1,2进行叠加,将叠加结果记为P1,1;
将F5,另记为G5;
采用传统上采样操作方法,将F5,进行2倍上采样,再进行0.5倍加权,记结果为U2,4,采用传统卷积和操作方法,将P1,4用3×3卷积和进行特征提取,记特征提取结果记为E2,4;采用传统级联操作方法,将E2,4和U2,4进行叠加,将叠加结果记为P2,4;
采用传统上采样操作方法,将P2,4,进行2倍上采样,再进行0.5倍加权,记结果为U2,3,采用传统卷积核操作方法,将P1,3用3×3卷积和进行特征提取,记特征提取结果记为E2,3;采用传统级联操作方法,将E2,3和U2,3进行叠加,将叠加结果记为P2,3;
采用传统上采样操作方法,将P2,3,进行2倍上采样,再进行0.5倍加权,记结果为U2,2,采用传统卷积核操作方法,将P1,2用3×3卷积和进行特征提取,记特征提取结果记为E2,2;采用传统级联操作方法,将E2,2和U2,2进行叠加,将叠加结果记为P2,2;
采用传统上采样操作方法,将P2,2,进行2倍上采样,再进行0.5倍加权,记结果为U2,1,采用传统卷积核操作方法,将P1,1用3×3卷积和进行特征提取,记特征提取结果记为E2,1;采用传统级联操作方法,将E2,1和U2,1进行叠加,将叠加结果记为P2,1;
将P2,4,另记为G4;
采用传统上采样操作方法,将P2,4,进行2倍上采样,再进行0.25倍加权,记结果为U3,3,采用传统卷积核操作方法,将P2,3用3×3卷积和进行特征提取,记特征提取结果记为E3,3;采用传统级联操作方法,将E3,3和U3,3进行叠加,将叠加结果记为G3;
采用传统上采样操作方法,将G3,进行2倍上采样,再进行0.25倍加权,记结果为U3,2,采用传统卷积核操作方法,将P2,2用3×3卷积和进行特征提取,记特征提取结果记为E3,2;采用传统级联操作方法,将E3,2和U3,2进行叠加,将叠加结果记为G2;
采用传统上采样操作方法,将G2,进行2倍上采样,再进行0.25倍加权,记结果为U3,1,采用传统卷积核操作方法,将P2,1用3×3卷积和进行特征提取,记特征提取结果记为E3,1;采用传统级联操作方法,将E3,1和U3,1进行叠加,将叠加结果记为G1;
至此,语义增强金字塔搭建网络工作完成,记搭建的语义增强金字塔网络为SEPN;
步骤2.3、搭建区域推荐网络
采用经典区域推荐网络构建方法,搭建区域推荐网络,记为R;由Swin Transformer骨干网络Swin-T、语义增强金字塔网络SEPN和区域推荐网络R组成区域推荐头网络,记为区域推荐头网络RPN0;
步骤2.4、搭建级联检测头网络
采用传统卷积核方法构建卷积层Conv;采用经典的池化操作方法构建三个池化层,分别记为Pooling1、Pooling2、Pooling3;
采用传统特征提取网络构建方法,搭建三个特征提取网络,分别记为H1,H2,H3;
采用传统目标分类网络构建方法,搭建三个目标分类网络,分别记为C1,C2,C3;
采用经典区域推荐网络构建方法,搭建三个区域推荐网络,记为B1,B2,B3;
将Conv和RPN的输出作为Pooling1的输入,将Pooling1的输出作为H1的输入,将H1的输出作为C1和B1的输入;将Conv和B1的输出作为Pooling2的输入,将Pooling2的输出作为H2的输入,将H2的输出作为C2和B2的输入;将Conv和B2的输出作为Pooling3的输入,将Pooling3的输出作为H3的输入,将H3的输出作为C3和B3的输入;特征提取网络H1,H2,H3,分类网络C1,C2,C3,区域推荐网络B0,B1,B2,B3,池化层Pooling1、Pooling2、Pooling3,以及卷积层Conv一起共同构成级联检测头,记为CasNet0;
步骤3、训练区域推荐头网络
设置迭代参数epoch,初始化epoch值为1;
步骤3.1、对区域推荐网络进行前向传播
将步骤1中的数据集的训练集Train作为区域推荐网络B的输入采用传统前向传播方法把训练集Train送入区域推荐头网络RPN0进行运算,记网络RPN0的输出作为Result1;
步骤3.2、对前向传播结果进行平衡区间采样
将步骤3.1得到的输入Result1和训练集Train作为输入,采用交并比IOU计算公式计算,计算得到Result1中每个推荐框的IOU值,其中Area of Overlap为预测框和真值框相交的区域面积,Area of Union为预测框和真值框合并的区域面积;
将Result1中IOU大于0.5的输出作为正样本,记为Result1p;将Result1中IOU小于0.5的输出作为负样本,记为Result1n;
统计负样本Result1n中的总样本数记为M,人为输入所需负样本数,记为N;人为输入所需等分IOU的间隔数为nb,记第i个IOU区间的样本数为Mi;设置第i个区间的随机采样概率为对每个IOU区间进行随机采样,将随机采样后得到的负样本所有IOU区间的采样结果记为Result1ns;
统计正样本Result1p中的样本数,记为P;
步骤3.3、对区域推荐网络进行训练和优化
将步骤3.2中得到的正样本采样结果Result1ps和负样本采样结果Result1ns作为输入,采用经典的Adam算法对区域推荐网络进行训练和优化;得到训练和优化之后的区域推荐网络RPN1;
步骤4、训练级联检测头网络
步骤4.1、对级联检测头网络进行前向传播
将步骤1中的数据集的训练集Train作为级联检测头网络CasNet0的输入,采用传统前向传播方法把训练集Train送入级联检测头网络CasNet0进行运算,记级联检测头网络CasNet0的输出作为Result2;
步骤4.2、对级联检测头网络进行训练和优化
将步骤4.1中得到的级联检测头网络CasNet0的输出Result2作为输入,采用经典的Adam算法对级联检测头网络进行训练和优化;得到训练和优化之后的级联检测头网络CasNet1;
步骤5、进行交替训练
判断步骤3中设置的epoch是否等于12;
如果epoch不等于12,则令epoch=epoch+1、SEPN0=SEPN1、RPN0=RPN1、CasNet0=CasNet1,依次重复步骤3.1、步骤3.2、步骤3.3、步骤4.1、步骤4.2,然后返回步骤5对epoch进行再次判断;
如果epoch等于12,则令训练后的语义增强金字塔网络SEPN1、区域推荐网络RPN1和级联检测头网络CasNet1记为网络HRSwin-CASN,然后进行步骤6.
步骤6、评估方法
步骤6.1、前向传播
以步骤5中得到网络HRSwin-CASN和步骤1中得到的测试集Tests作为输入,采用传统的前向传播方法进行检测,得到检测结果,记为R;
以检测结果R作为输入,采用传统的非极大值抑制方法,去除检测结果R1中的冗余框,具体步骤如下:
步骤(1)首先令检测结果R1中得分最高的框,记为BS;
步骤(3)从剩余框中选出得分最高的框BS;
重复上述步骤(2)中计算IoU和舍弃的过程,直到没有框可以舍弃,最后剩余的框即为最终检测结果,记为RF;
步骤6.2、计算指标
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210591949.8A CN114998759A (zh) | 2022-05-27 | 2022-05-27 | 一种基于视觉Transformer的高精度SAR舰船检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210591949.8A CN114998759A (zh) | 2022-05-27 | 2022-05-27 | 一种基于视觉Transformer的高精度SAR舰船检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998759A true CN114998759A (zh) | 2022-09-02 |
Family
ID=83029664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210591949.8A Pending CN114998759A (zh) | 2022-05-27 | 2022-05-27 | 一种基于视觉Transformer的高精度SAR舰船检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998759A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507398A (zh) * | 2020-04-16 | 2020-08-07 | 浙江华云信息科技有限公司 | 基于目标检测的变电站金属仪器锈蚀识别方法 |
CN112285712A (zh) * | 2020-10-15 | 2021-01-29 | 电子科技大学 | 一种提高sar图像中靠岸船只检测精度的方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN113989672A (zh) * | 2021-10-29 | 2022-01-28 | 电子科技大学 | 一种基于平衡学习的sar图像船只检测方法 |
CN114202696A (zh) * | 2021-12-15 | 2022-03-18 | 安徽大学 | 基于上下文视觉的sar目标检测方法、装置和存储介质 |
CN114220015A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于改进YOLOv5的卫星图像小目标检测方法 |
-
2022
- 2022-05-27 CN CN202210591949.8A patent/CN114998759A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111507398A (zh) * | 2020-04-16 | 2020-08-07 | 浙江华云信息科技有限公司 | 基于目标检测的变电站金属仪器锈蚀识别方法 |
CN112285712A (zh) * | 2020-10-15 | 2021-01-29 | 电子科技大学 | 一种提高sar图像中靠岸船只检测精度的方法 |
CN113989672A (zh) * | 2021-10-29 | 2022-01-28 | 电子科技大学 | 一种基于平衡学习的sar图像船只检测方法 |
CN114202696A (zh) * | 2021-12-15 | 2022-03-18 | 安徽大学 | 基于上下文视觉的sar目标检测方法、装置和存储介质 |
CN114220015A (zh) * | 2021-12-21 | 2022-03-22 | 一拓通信集团股份有限公司 | 一种基于改进YOLOv5的卫星图像小目标检测方法 |
Non-Patent Citations (2)
Title |
---|
XIAO KE; XIAOLING ZHANG; TIANWEN ZHANG; JUN SHI; SHUNJUN WEI: "SAR Ship Detection Based on Swin Transformer and Feature Enhancement Feature Pyramid Network", 《 IGARSS 2022 - 2022 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》, 28 September 2022 (2022-09-28) * |
赵云飞;张宝华;张艳月;谷宇;王月明;李建军;赵瑛;: "基于深度特征金字塔和级联检测器的SAR图像舰船检测", 激光与光电子学进展, no. 12, 19 November 2019 (2019-11-19) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN108230329B (zh) | 基于多尺度卷积神经网络的语义分割方法 | |
US20230169623A1 (en) | Synthetic aperture radar (sar) image target detection method | |
CN112285712B (zh) | 一种提高sar图像中靠岸船只检测精度的方法 | |
CN112926457B (zh) | 一种基于融合频域和空间域网络模型的sar图像识别方法 | |
CN110826428A (zh) | 一种高速的sar图像中船只检测方法 | |
CN111046781B (zh) | 一种基于三元注意力机制的鲁棒三维目标检测方法 | |
CN111027497B (zh) | 基于高分辨率光学遥感影像的弱小目标快速检测方法 | |
Chen et al. | Geospatial transformer is what you need for aircraft detection in SAR Imagery | |
CN110334584B (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN112784757B (zh) | 海上sar舰船目标显著性检测与识别方法 | |
CN113705331A (zh) | 一种基于四元特征金字塔网络的sar船只检测方法 | |
US20220198694A1 (en) | Disparity estimation optimization method based on upsampling and exact rematching | |
Jiang et al. | Semantic segmentation network combined with edge detection for building extraction in remote sensing images | |
CN113989672B (zh) | 一种基于平衡学习的sar图像船只检测方法 | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
CN113902975B (zh) | 一种用于sar舰船检测的场景感知数据增强方法 | |
CN114998759A (zh) | 一种基于视觉Transformer的高精度SAR舰船检测方法 | |
CN116091764A (zh) | 一种基于融合变换网络的云图像分割方法 | |
CN113534146B (zh) | 一种雷达视频图像目标自动检测方法与系统 | |
CN115272842A (zh) | 一种基于全局语义边界注意网络的sar图像船只实例分割方法 | |
CN115170662A (zh) | 基于yolov3和卷积神经网络的多目标定位方法 | |
Wang et al. | Sonar objective detection based on dilated separable densely connected CNNs and quantum-behaved PSO algorithm | |
Zhou et al. | Complex background SAR target recognition based on convolution neural network | |
CN110827238A (zh) | 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |