CN114998759A

CN114998759A - 一种基于视觉Transformer的高精度SAR舰船检测方法

Info

Publication number: CN114998759A
Application number: CN202210591949.8A
Authority: CN
Inventors: 张晓玲; 邵子康; 柯潇; 师君; 韦顺军
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-02

Abstract

本发明公开了一种基于视觉Transformer的高精度SAR舰船检测方法，它主要包括HRSwin‑T骨干网络、语义增强金字塔，区域推荐头和级联检测头四部分。HRSwin‑T骨干网络通过最近邻插值的方法生成额外高分辨率特征图，增强对小尺度舰船的检测能力。语义增强金字塔通过多次自上而下的连接，增强层级特征图中的语义信息。区域推荐头用于生成潜在目标的区域，加快网络收敛速度。级联检测头通过多次分类回归，从而最大限度提高检测框的准确度。采用本发明SAR图像船只检测方法，能够克服现有技术存在的难以提取全局信息问题，提高SAR图像中船只的检测精度。

Description

一种基于视觉Transformer的高精度SAR舰船检测方法

技术领域

本发明属于合成孔径雷达(Synthetic Aperture Radar,SAR)图像解译技术领域，涉及一种基于视觉Transformer的高精度SAR舰船检测方法。

背景技术

合成孔径雷达(SAR)是一种用于高分辨率对地观测的先进主动微波传感器，可以实现全天候、全天时对地面目标进行观测。在海上交通管制、救灾、渔业管理等领域有着广泛的应用。相较于光学传感器，SAR图像可以穿透云层，在海洋上复杂的天气状态下能出色地完成观测任务。因此，SAR在海洋区域感知中起着非常重要的作用。

船只检测是海洋检测中重要的研究领域。SAR图像船只检测技术可以检测搜索遭遇危险的船舶并展开搜救，此外，SAR图像船只检测技术可以监视海面从而维护国家安全。SAR图像舰船检测也广泛的受到了学者们的关注。其中最为经典的SAR图像舰船检测方法是CFAR算法。CFAR算法首先需要人为确定背景杂波分布模型，接着通过寻求一个检测阈值，将求得的检测阈值与观测强度进行比较，然后通过一个简单的二元假设问题将目标从复杂的背景杂波中检测出来，并且保证检测的恒虚警性。但是由于海杂波的复杂分布，人为确定的分布模型难以拟合真实情况，因此CFAR算法在复杂场景下的检测精度较低。详见“杜兰,王兆成,王燕,魏迪,李璐.复杂场景下单通道SAR目标检测及鉴别研究进展综述[J].雷达学报,2020,9(01):34-54.”。

随着深度学习(deep learning,DL)的发展，深度学习在各行各业都有了广泛的应用。SAR图像舰船检测领域的学者们建立了一些基于深度学习实现SAR图像舰船检测的模型。相较于传统的CFAR算法，基于深度学习的算法更为简单和高效。基于深度学习的方法通常需要准备一定量的SAR图像数据以及相应的标签，然后合理构造网络，最后将准备的数据及标签输入网络即可得到相对精度更高的检测结果。

然而，现有的基于深度学习的SAR舰船检测方法通常采用卷积神经网络进行特征提取。这种特征提取方式使得网络更加关注于临近像素间的关系而忽略了相距较远的像素之间的关系，从而导致了网络难以建立长距离依赖关系、提取全局信息，最后导致检测精度受限。

因此，为了解决网络难以利用SAR图像全局信息的问题，本文提出了一种基于视觉Transformer的高精度SAR舰船检测方法。该方法包括HRSwin-T骨干网络、语义增强金字塔，区域推荐头和级联检测头四种用于解决无法捕获全局信息问题的模块。

发明内容

本发明属于合成孔径雷达(SAR)图像解译技术领域，公开了一种基于视觉Transformer的高精度SAR舰船检测方法，用来解决现有技术中难以建立长距离依赖关系、难以提取全局信息的问题。该方法基于深度学习理论，主要包括HRSwin-T骨干网络、语义增强金字塔，区域推荐头和级联检测头四部分。HRSwin-T骨干网络通过最近邻插值的方法生成额外高分辨率特征图，增强对小尺度舰船的检测能力。语义增强金字塔通过多次自上而下的连接，增强层级特征图中的语义信息。区域推荐头用于生成潜在目标的区域，加快网络收敛速度。级联检测头通过多次分类回归，从而最大限度提高检测框的准确度。实验证明，在SSDD数据集上的全场景下，基于视觉Transformer的SAR图像船只检测方法的检测精度AP为61.60％，现有其他基于深度学习的SAR船只检测精度最高为60.80％。在SSDD数据集上的靠岸场景下，基于视觉Transformer的SAR图像船只检测方法的检测精度AP为51.20％，现有其他基于深度学习的SAR船只检测精度最高为47.60％。基于视觉Transformer的SAR图像船只检测方法提高了船只检测精度。

为了方便描述本发明的内容，首先作以下术语定义：

定义1：SSDD数据集获取方法

SSDD数据集是指SAR船只检测数据集，英文全称为SAR Ship Detection Dataset，SSDD是第一个开放的SAR船只检测数据集。包括Sentinel-1、RadarSat-2和TerraSAR-X的SAR图像共1160幅，分辨率为500×500像素。SSDD有2551艘船只。最小的是28pixel²，最大的是62878pixel²(pixel²是宽度像素和高度1的乘积)。在SSDD中，选取后缀为1和9的图像(232个样本)作为测试集，其余的作为训练集(928个样本)。获取SSDD数据集方法可从参考文献“李健伟,曲长文,彭书娟,邓兵.基于卷积神经网络的SAR图像船只目标检测[J].系统工程与电子技术,2018,40(09):1953-1959.”中获得。

定义2：经典的卷积神经网络方法

经典的卷积神经网络通常由输入层，隐含层，输出层组成。输入层可以处理多维数据，在计算机视觉领域通常预先假设输入层输入三维输入数据，即平面上的二维像素点和RGB通道。输出层在图像检测和识别当中通常使用逻辑函数或归一化指数函数输出分类标签和相应边框坐标值。隐含层包含卷积层、非线性激活函数、池化层和全连接层构成，卷积层以输入特征的一小块矩形区域为单位，将特征进行高维的抽象；非线性池化层被用来缩小矩阵，进而减少后续神经网络中的参数；全连接层等价于传统前馈神经网络中的隐含层，它将之前抽象得到的高维特征作为输入进行分类和检测任务。经典的卷积神经网络方法详见文献“胡伏原,李林燕,尚欣茹,沈军宇,戴永良.基于卷积神经网络的目标检测算法综述[J].苏州科技大学学报(自然科学版),2020,37(02):1-10+25.”

定义3：经典的Adam算法

经典的Adam算法是一种对随机梯度下降法的扩展，最近在计算机视觉和自然语言处理中广泛应用于深度学习应用。经典的Adam与经典的随机梯度下降法是不同的。随机梯度下降保持一个单一的学习速率，用于所有的权重更新，并且在训练过程中学习速率不会改变。每一个网络权重都保持一个学习速率，并随着学习的展开而单独地进行调整。该方法从梯度的第一次和第二次矩的预算来计算不同参数的自适应学习速率。经典的Adam算法详见“Kingma,D.；Ba,J.Adam:A Method for Stochastic Optimization.arXiv 2014,arXiv:1412.6980.”。

定义4：传统前向传播方法

前向传播方法是深度学习当中最基本的一个方法，主要是将输入依据网络中的参数和连接方法进行前向推理，从而得到网络的输出。传统前向传播方法详见“https://www.jianshu.com/p/f30c8daebebb”。

定义5：经典Swin Transformer骨干网络构建方法

Swin Transformer是由来自Microsoft Research的7位学者提出的骨干网络，在2021年的ICCV中获得了最佳论文。它的特点是可以输出层级特征图，易于进行多尺度检测任务。通过提出变化窗机制(Shifted windows mechanism)，将自注意力计算限制在窗口之内，实现了相对于输入图片尺寸而言的线性复杂度，在各类光学数据集上取得了良好的表现。经典Swin Transformer骨干网络构建方法详见“Liu Z,Lin Y,Cao Y,et al.SwinTransformer:Hierarchical Vision Transformer using Shifted Windows[J].2021.”。

定义6：传统卷积核操作方法

卷积核是实现将输入的特征图或者图片中的一小部分矩形区域内的值分别加权然后求和作为输出的一个节点。每个卷积核需要人工指定多个参数。一类参数是卷积核所处理的节点矩阵的长和宽，这个节点矩阵的尺寸也是卷积核的尺寸。另外一类卷积核的参数是处理得到的单位节点矩阵的深度，单位节点矩阵的深度也是卷积核的深度。在卷积操作过程中，每个卷积核在输入数据上滑动，然后计算整个卷积核与输入数据相对应位置的内积，之后将内积通过非线性函数得到最终结果，最后所有对应位置的结果组成了一张二维的特征图。每个卷积核都会生成一张二维的特征图，多个卷积核生成的特征图相叠加组成了一个三维的特征图。传统卷积核操方法作详见“范丽丽,赵宏伟,赵浩宇,胡黄水,王振.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(05):1152-1164.”。

定义7：传统级联操作方法

级联是网络结构设计中重要的一种操作，用于将特征联合，多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合，从而增强网络的特征提取能力。传统级联操作方法详见“https://blog.csdn.net/alxe_made/article/details/80506051？utm_medium＝distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source＝distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param”。

定义8：经典上采样操作方法

上采样是将图片或特征图进行方法的一种操作，主流的上采样操作通常采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。在主流插值的算法中，邻插值较简单，容易实现，早期的时候应用比较普遍。但是，该方法会在新图像中产生明显的锯齿边缘和马赛克现象。双线性插值法具有平滑功能，能有效地克服邻法的不足，但会退化图像的高频部分，使图像细节变模糊。在放大倍数比较高时，高阶插值，如双三次和三次样条插值等比低阶插值效果好。这些插值算法可以使插值生成的像素灰度值延续原图像灰度变化的连续性，从而使放大图像浓淡变化自然平滑。但是在图像中，有些像素与相邻像素间灰度值存在突变，即存在灰度不连续性。这些具有灰度值突变的像素就是图像中描述对象的轮廓或纹理图像的边缘像素。经典的上采样操作详见“https://blog.csdn.net/weixin_43960370/article/details/106049708？utm_term＝％E5％8D％B7％E7％A7％AF％E7％89％B9％E5％BE％81％E5％9B％BE％E4％B8％8A％E9％87％87％E6％A0％B7&utm_medium＝distribute.pc_aggpage_search_result.none-task-blog-2～all～sobaiduweb～default-1-106049708&spm＝3001.4430”。

定义9：经典池化操作方法

池化操作(Pooling)是CNN中非常常见的一种操作，Pooling层是模仿人的视觉系统对数据进行降维，池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling)，在构建卷积神经网络时，往往会用在卷积层之后，通过池化来降低卷积层输出的特征维度，有效减少网络参数的同时还可以防止过拟合现象。经典的池化操作方法详见“https://www.zhihu.com/question/303215483/answer/615115629”

定义10：经典区域推荐网络构建方法

区域推荐网络是Faster R-CNN中的子网络，用于提取图片中可能存在目标的区域。区域推荐网络是全卷积网络，其采用基础网络输出的卷积特征图作为输入，输出是每个候选框的目标置信度得分。经典区域推荐网络构建方法详见“Ren S,He K,Girshick R,etal.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”

定义11：传统目标分类网络构建方法

目标分类网络是Faster R-CNN中的子网络，用于对图片中的目标检测框进行分类。目标分类网络采用基础网络输出的卷积特征图作为输入，输出是每个候选框的类别得分。传统目标分类网络构建方法详见“Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”

定义12：传统特征提取网络构建方法

特征提取网络是Faster R-CNN中的子网络，用于对图片中的目标区域进行特征提取。特征提取网络是全卷积网络，其采用基础网络输出的卷积特征图作为输入，输出是被提取的特征图。传统特征提取网络构建方法详见“Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”

定义13：传统非极大值抑制方法

非极大值抑制方法是目标检测领域中用来去除冗余检测框的算法。在经典的检测网络的前向传播结果中，常常会出现同一目标对应多个检测框的情况。因此，需要一种算法从同一目标的多个检测框中筛选出一个质量最好、得分最高的检测框。非极大值抑制通过计算重叠率阈值进行局部最大搜索。传统非极大值抑制方法详见“https://www.cnblogs.com/makefile/p/nms.html”。

定义14：传统召回率和精确率计算方法

召回率R指在所有的正样本中预测正确的数量，表达式为

精确率P指预测为正例的结果中，正确的个数所占的比例表达式为

其中，TP(truepositive)表示被模型预测为正值的正样本；FN(false negative)表示被模型预测为负值的负样本；FP(false positive)表示为被模型预测为负值的正样本。召回率和精确率曲线P(R)指以R为自变量，P为因变量的函数，传统召回率和精确率计算方法详见文献“李航.统计学习方法[M].北京:清华大学出版社,2012.”。

定义15：传统最近邻差值方法

最近邻插值法是最简单的灰度值插值。也称作零阶插值，是一种将变换后的图像中的原像素点最邻近像素的灰度值赋给原像素点的方法。传统最近邻插值方法详见“https://www.cnblogs.com/wancy/p/15068519.html”。

定义16交并比IOU

交并比(IOU)是一种测量在特定数据集中检测相应物体准确度的一个标准。IOU是一个简单的测量标准，只要是在输出中得出一个预测范围的任务都可以用IOU来进行测量。计算IOU的公式为

其中Area of Overlap为预测框和真值框相交的区域面积，Area of Union为预测框和真值框合并的区域面积。IOU的取值范围为0到1，数值越高，重叠程度越高。交并比IOU的具体实现详见“https://blog.csdn.net/weixin_44656422/article/details/123057530”。

本发明提供的一种基于视觉Transformer的高精度SAR舰船检测方法，它包括以下步骤：

步骤1、初始化数据集

采用随机的方法调整SSDD数据集中的SAR图像次序，得到新的SSDD数据集。

步骤2、搭建前向传播网络

步骤2.1、建立HRSwin-T骨干网络

采用定义5中的经典Swin Transformer骨干网络构建方法，搭建SwinTransformer骨干网络，记为Swin-T。

以步骤1中获取得到的新的SSDD数据作为输入，将经过第一个Swin Transformer基本模块所得的128×128×96维输出结果，采用定义15中的传统最近邻插值法进行最近邻插值，得到插值后256×256×96维的结果向量，作为第一层特征图，记为F₁。

以步骤1中获取得到的新的SSDD数据作为输入，将经过第一个Swin Transformer基本模块后得到的128×128×96维的输出结果，作为第二层特征图，记为F₂。

以128×128×96维的向量F₂作为输入，经过第二个Swin Transformer基本模块后得到的64×64×192维的输出结果，作为第三层特征图，记为F₃。

以64×64×192维的向量F3作为输入，经过第三个Swin Transformer基本模块后得到的32×32×384维的输出结果，作为第四层特征图，记为F4。

以32×32×384维的向量F3作为输入，经过第三个Swin Transformer基本模块后得到的16×16×768维的输出结果，作为第五层特征图，记为F5。

步骤2.2、搭建语义增强金字塔网络

采用定义8中的经典上采样操作方法，将第五层特征图F₅，进行2倍上采样，记上采样结果为U_1,5；采用定义6中的传统卷积核操作方法，将第四层特征图F₄用1×1卷积和进行特征提取，记特征提取结果记为E_1,4。采用定义7中的传统级联操作方法，将E_1,4和U_1,5进行叠加，将叠加结果记为P_1,4。

采用定义8中的传统上采样操作方法，将P_1,4，进行2倍上采样，记上采样结果为U_1,4；采用定义6中的传统卷积核操作方法，将F₃用1×1卷积和进行特征提取，记特征提取结果记为E_1,3。采用定义7中的传统级联操作方法，将E_1,3和U_1,4进行叠加，将叠加结果记为P_1,3。

采用定义8中的传统上采样操作方法，将P_1,3，进行2倍上采样，记上采样结果为U_1,3；采用定义6中的传统卷积核操作方法，将F₂用1×1卷积和进行特征提取，记特征提取结果记为E_1,2。采用定义7中的传统级联操作方法，将E_1,2和U_1,3进行叠加，将叠加结果记为P_1,2。

采用定义8中的传统上采样操作方法，将P_1,2，进行2倍上采样，记上采样结果为U_1,2；采用定义6中的传统卷积核操作方法，将F₁用1×1卷积和进行特征提取，记特征提取结果记为E_1,1。采用定义7中的传统级联操作方法，将E_1,1和U_1,2进行叠加，将叠加结果记为P_1,1。

将F₅，另记为G₅。

采用定义8中的传统上采样操作方法，将F₅，进行2倍上采样，再进行0.5倍加权，记结果为U_2,4，采用定义6中的传统卷积和操作方法，将P_1,4用3×3卷积和进行特征提取，记特征提取结果记为E_2,4。采用定义7中的传统级联操作方法，将E_2,4和U_2,4进行叠加，将叠加结果记为P_2,4。

采用定义8中的传统上采样操作方法，将P_2,4，进行2倍上采样，再进行0.5倍加权，记结果为U_2,3,采用定义6中的传统卷积核操作方法，将P_1,3用3×3卷积和进行特征提取，记特征提取结果记为E_2,3。采用定义7中的传统级联操作方法，将E_2,3和U_2,3进行叠加，将叠加结果记为P_2,3。

采用定义8中的传统上采样操作方法，将P_2,3，进行2倍上采样，再进行0.5倍加权，记结果为U_2,2,采用定义6中的传统卷积核操作方法，将P_1,2用3×3卷积和进行特征提取，记特征提取结果记为E_2,2。采用定义7中的传统级联操作方法，将E_2,2和U_2,2进行叠加，将叠加结果记为P_2,2。

采用定义8中的传统上采样操作方法，将P_2,2，进行2倍上采样，再进行0.5倍加权，记结果为U_2,1,采用定义6中的传统卷积核操作方法，将P_1,1用3×3卷积和进行特征提取，记特征提取结果记为E_2,1。采用定义7中的传统级联操作方法，将E_2,1和U_2,1进行叠加，将叠加结果记为P_2,1。

将P_2,4，另记为G₄。

采用定义8中的传统上采样操作方法，将P_2,4，进行2倍上采样，再进行0.25倍加权，记结果为U_3,3,采用定义6中的传统卷积核操作方法，将P_2,3用3×3卷积和进行特征提取，记特征提取结果记为E_3,3。采用定义7中的传统级联操作方法，将E_3,3和U_3,3进行叠加，将叠加结果记为G₃。

采用定义8中的传统上采样操作方法，将G₃，进行2倍上采样，再进行0.25倍加权，记结果为U_3,2,采用定义6中的传统卷积核操作方法，将P_2,2用3×3卷积和进行特征提取，记特征提取结果记为E_3,2。采用定义7中的传统级联操作方法，将E_3,2和U_3,2进行叠加，将叠加结果记为G₂。

采用定义8中的传统上采样操作方法，将G₂，进行2倍上采样，再进行0.25倍加权，记结果为U_3,1,采用定义6中的传统卷积核操作方法，将P_2,1用3×3卷积和进行特征提取，记特征提取结果记为E_3,1。采用定义7中的传统级联操作方法，将E_3,1和U_3,1进行叠加，将叠加结果记为G₁。

至此，语义增强金字塔搭建网络工作完成，记搭建的语义增强金字塔网络为SEPN。

步骤2.3、搭建区域推荐网络

采用定义10中的经典区域推荐网络构建方法，搭建区域推荐网络，记为R。由SwinTransformer骨干网络Swin-T、语义增强金字塔网络SEPN和区域推荐网络R组成区域推荐头网络，记为区域推荐头网络RPN₀。

步骤2.4、搭建级联检测头网络

采用定义7中的传统卷积核方法构建卷积层Conv；采用定义9中的经典的池化操作方法构建三个池化层，分别记为Pooling1、Pooling2、Pooling3。

采用定义12中的传统特征提取网络构建方法，搭建三个特征提取网络，分别记为H₁，H₂，H₃；

采用定义11中的传统目标分类网络构建方法，搭建三个目标分类网络，分别记为C₁，C₂，C₃。

采用定义10中的经典区域推荐网络构建方法，搭建三个区域推荐网络，记为B₁，B₂，B₃。

将Conv和RPN的输出作为Pooling1的输入，将Pooling1的输出作为H₁的输入，将H₁的输出作为C₁和B₁的输入；将Conv和B₁的输出作为Pooling2的输入，将Pooling2的输出作为H₂的输入，将H₂的输出作为C₂和B₂的输入；将Conv和B₂的输出作为Pooling3的输入，将Pooling3的输出作为H₃的输入，将H₃的输出作为C₃和B₃的输入；特征提取网络H₁，H₂，H₃，分类网络C₁，C₂，C₃，区域推荐网络B₀，B₁，B₂，B₃，池化层Pooling1、Pooling2、Pooling3，以及卷积层Conv一起共同构成级联检测头，记为CasNet₀。

步骤3、训练区域推荐头网络

设置迭代参数epoch，初始化epoch值为1。

步骤3.1、对区域推荐网络进行前向传播

将步骤1中的数据集的训练集Train作为区域推荐网络B的输入采用定义4中的传统前向传播方法把训练集Train送入区域推荐头网络RPN₀进行运算，记网络RPN₀的输出作为Result1。

步骤3.2、对前向传播结果进行平衡区间采样

将步骤3.1得到的输入Result1和训练集Train作为输入，采用定义16交并比IOU计算公式

计算，计算得到Result1中每个推荐框的IOU值，其中Area ofOverlap为预测框和真值框相交的区域面积，Area of Union为预测框和真值框合并的区域面积；

将Result1中IOU大于0.5的输出作为正样本，记为Result1p；将Result1中IOU小于0.5的输出作为负样本，记为Result1n。

统计负样本Result1n中的总样本数记为M，人为输入所需负样本数，记为N；人为输入所需等分IOU的间隔数为n_b，记第i个IOU区间的样本数为M_i。设置第i个区间的随机采样概率为

对每个IOU区间进行随机采样，将随机采样后得到的负样本所有IOU区间的采样结果记为Result1ns。

统计正样本Result1p中的样本数，记为P。

设置随机采样概率为

对Result1p进行随机采样，将随机采样后得到的正样本采样结果记为Result1ps。

步骤3.3、对区域推荐网络进行训练和优化

将步骤3.2中得到的正样本采样结果Result1ps和负样本采样结果Result1ns作为输入，采用定义3中的经典的Adam算法对区域推荐网络进行训练和优化。得到训练和优化之后的区域推荐网络RPN₁。

步骤4、训练级联检测头网络

步骤4.1、对级联检测头网络进行前向传播

将步骤1中的数据集的训练集Train作为级联检测头网络CasNet₀的输入，采用定义5中的传统前向传播方法把训练集Train送入级联检测头网络CasNet₀进行运算，记级联检测头网络CasNet₀的输出作为Result2。

步骤4.2、对级联检测头网络进行训练和优化

将步骤4.1中得到的级联检测头网络CasNet₀的输出Result2作为输入，采用定义3中的经典的Adam算法对级联检测头网络进行训练和优化。得到训练和优化之后的级联检测头网络CasNet₁。

步骤5、进行交替训练

判断步骤3中设置的epoch是否等于12；

如果epoch不等于12，则令epoch＝epoch+1、SEPN₀＝SEPN₁、RPN₀＝RPN₁、CasNet₀＝CasNet₁，依次重复步骤3.1、步骤3.2、步骤3.3、步骤4.1、步骤4.2，然后返回步骤5对epoch进行再次判断；

如果epoch等于12，则令训练后的语义增强金字塔网络SEPN₁、区域推荐网络RPN₁和级联检测头网络CasNet₁记为网络HRSwin-CASN，然后进行步骤6.

步骤6、评估方法

步骤6.1、前向传播

以步骤5中得到网络HRSwin-CASN和步骤1中得到的测试集Tests作为输入，采用定义4传统的前向传播方法进行检测，得到检测结果，记为R。

以检测结果R作为输入，采用定义13中传统的非极大值抑制方法，去除检测结果R1中的冗余框，具体步骤如下：

步骤(1)首先令检测结果R1中得分最高的框，记为BS；

步骤(2)然后采用定义16交并比IOU计算公式为：

计算检测结果R1所有框的重叠率阈值(IoU)；舍弃IoU>0.5的框；

步骤(3)从剩余框中选出得分最高的框BS；

重复上述步骤(2)中计算IoU和舍弃的过程，直到没有框可以舍弃，最后剩余的框即为最终检测结果，记为R^F。

步骤6.2、计算指标

以步骤6.1中得到的检测结果R^F作为输入，采用定义14中传统的召回率和精确率计算方法，求出网络的精确率P、召回率R和精确率和召回率曲线P(R)；采用公式

计算基于视觉Transformer的高精度SAR舰船检测平均精度mAP。

本发明的创新点在于引入了HRSwin-T骨干网络、语义增强金字塔，区域推荐网络和级联检测头，从而解决现有基于深度学习的SAR船只检测方法中存在的难以建立长距离依赖关系、难以提取全局信息的问题。采用本方法的SAR图像船只检测，在全场景下，基于视觉Transformer的SAR图像船只检测方法的检测精度AP为61.60％，超过次优SAR图像船只检测器0.8个百分点。在靠岸场景下，基于视觉Transformer的SAR图像船只检测方法的检测精度AP为51.20％，超过次优SAR图像船只检测器3.6个百分点。

本发明的优点在于能够克服现有技术存在的难以提取全局信息问题，提高SAR图像中船只的检测精度。

附图说明

图1为本发明中的基于视觉Transformer的高精度SAR舰船检测方法的流程示意图。

图2为本发明中的HRSwin-T骨干网络结构示意图。

图3为本发明中的语义增强金字塔结构示意图。

图4为本发明中的级联检测头网络结构示意图。

图5为本发明中的基于视觉Transformer的高精度SAR舰船检测方法的检测精度。

具体实施方式

下面结合附图1、附图2、附图3、附图4、附图5对本发明的作进一步详细描述。

步骤1、初始化数据集

步骤2、搭建前向传播网络

步骤2.1、建立HRSwin-T骨干网络

如图2所示，按照定义5中的Swin Transformer构建方法，搭建Swin Transformer骨干网络Swin-T。

以步骤1中获取得到的新的SSDD数据作为输入，将第一个Swin Transformer基本模块所得的输出结果进行最近邻插值，得到插值后256×256×96维的结果向量，作为第一层特征图，记为F₁。

以步骤1中获取得到的新的SSDD数据作为输入，经过第一个Swin Transformer基本模块后得到的128×128×96维的输出结果，作为第二层特征图，记为F₂。

步骤2.2、搭建语义增强金字塔网络

如图3所示，按照定义8中的上采样操作，将F₅，进行2倍上采样，记上采样结果为U_1,5；按照定义6中的卷积核操作，将F₄用1×1卷积和进行特征提取，记特征提取结果记为E_1,4。按照定义7中的级联操作，将E_1,4和U_1,5进行叠加，将叠加结果记为P_1,4。

按照定义8中的上采样操作，将P_1,4，进行2倍上采样，记上采样结果为U_1,4；按照定义6中的卷积核操作，将F₃用1×1卷积和进行特征提取，记特征提取结果记为E_1,3。按照定义7中的级联操作，将E_1,3和U_1,4进行叠加，将叠加结果记为P_1,3。

按照定义8中的上采样操作，将P_1,3，进行2倍上采样，记上采样结果为U_1,3；按照定义6中的卷积核操作，将F₂用1×1卷积和进行特征提取，记特征提取结果记为E_1,2。按照定义7中的级联操作，将E_1,2和U_1,3进行叠加，将叠加结果记为P_1,2。

按照定义8中的上采样操作，将P_1,2，进行2倍上采样，记上采样结果为U_1,2；按照定义6中的卷积核操作，将F₁用1×1卷积和进行特征提取，记特征提取结果记为E_1,1。按照定义7中的级联操作，将E_1,1和U_1,2进行叠加，将叠加结果记为P_1,1。

将F₅，另记为G₅。

按照定义8中的上采样操作，将F₅，进行2倍上采样，再进行0.5倍加权，记结果为U_2,4,按照定义6中的卷积和操作，将P_1,4用3×3卷积和进行特征提取，记特征提取结果记为E_2,4。按照定义7中的级联操作，将E_2,4和U_2,4进行叠加，将叠加结果记为P_2,4。

按照定义8中的上采样操作，将P_2,4，进行2倍上采样，再进行0.5倍加权，记结果为U_2,3,按照定义6中的卷积核操作，将P_1,3用3×3卷积和进行特征提取，记特征提取结果记为E_2,3。按照定义7中的级联操作，将E_2,3和U_2,3进行叠加，将叠加结果记为P_2,3。

按照定义8中的上采样操作，将P_2,3，进行2倍上采样，再进行0.5倍加权，记结果为U_2,2,按照定义6中的卷积核操作，将P_1,2用3×3卷积和进行特征提取，记特征提取结果记为E_2,2。按照定义7中的级联操作，将E_2,2和U_2,2进行叠加，将叠加结果记为P_2,2。

按照定义8中的上采样操作，将P_2,2，进行2倍上采样，再进行0.5倍加权，记结果为U_2,1,按照定义6中的卷积核操作，将P_1,1用3×3卷积和进行特征提取，记特征提取结果记为E_2,1。按照定义7中的级联操作，将E_2,1和U_2,1进行叠加，将叠加结果记为P_2,1。

将P_2,4，另记为G₄。

按照定义8中的上采样操作，将P_2,4，进行2倍上采样，再进行0.25倍加权，记结果为U_3,3,按照定义6中的卷积核操作，将P_2,3用3×3卷积和进行特征提取，记特征提取结果记为E_3,3。按照定义7中的级联操作，将E_3,3和U_3,3进行叠加，将叠加结果记为G₃。

按照定义8中的上采样操作，将G₃，进行2倍上采样，再进行0.25倍加权，记结果为U_3,2,按照定义6中的卷积核操作，将P_2,2用3×3卷积和进行特征提取，记特征提取结果记为E_3,2。按照定义7中的级联操作，将E_3,2和U_3,2进行叠加，将叠加结果记为G₂。

按照定义8中的上采样操作，将G₂，进行2倍上采样，再进行0.25倍加权，记结果为U_3,1,按照定义6中的卷积核操作，将P_2,1用3×3卷积和进行特征提取，记特征提取结果记为E_3,1。按照定义7中的级联操作，将E_3,1和U_3,1进行叠加，将叠加结果记为G₁。

记搭建的语义增强金字塔网络为SEPN₀。

步骤2.3、搭建区域推荐网络

按照定义10中的区域推荐网络构建方法，搭建区域推荐网络，记为R。将SwinTransformer骨干网络Swin-T、语义增强金字塔网络SEPN，区域推荐网络R，共同记为区域推荐头网络RPN₀。

步骤2.4、搭建级联检测头网络

如图4所示，按照定义7中的卷积核方法构建卷积层Conv；同时，按照定义10中的池化操作构建三个池化层，分别记为Pooling1、Pooling2、Pooling3。按照定义12中的区域提取网络构建方法，搭建三个特征提取网络，分别记为H₁，H₂，H₃。按照定义11中的目标分类网络构建方法，搭建三个目标分类网络，分别记为C₁，C₂，C₃。按照定义10中的区域推荐网络构建方法，搭建三个区域推荐网络，记为B₁，B₂，B₃。将Conv和RPN的输出作为Pooling1的输入，将Pooling1的输出作为H₁的输入，将H₁的输出作为C₁和B₁的输入；将Conv和B₁的输出作为Pooling2的输入，将Pooling2的输出作为H₂的输入，将H₂的输出作为C₂和B₂的输入；将Conv和B₂的输出作为Pooling3的输入，将Pooling3的输出作为H₃的输入，将H₃的输出作为C₃和B₃的输入；特征提取网络H₁，H₂，H₃，分类网络C₁，C₂，C₃，区域推荐网络B₀，B₁，B₂，B₃，池化层Pooling1、Pooling2、Pooling3，以及卷积层Conv一起共同构成级联检测头，记为CasNet₀。

步骤3、训练区域推荐头网络

设置迭代参数epoch，初始化epoch值为1。

步骤3.1、对区域推荐网络进行前向传播

将步骤1中的数据集的训练集Train作为区域推荐网络B的输入，按照定义4中的前向传播方法把训练集Train送入区域推荐头网络RPN₀进行运算，记网络RPN₀的输出作为Result1。

步骤3.2、对前向传播结果进行平衡区间采样

将步骤3.1得到的输入Result1和训练集Train作为输入，按照公式

计算方法计算Result1中每个推荐框的IOU值，将Result1中IOU大于0.5的输出作为正样本，记为Result1p；将Result1中IOU小于0.5的输出作为负样本，记为Result1n。统计负样本Result1n中的总样本数为M。人为输入所需负样本数，记为N；人为输入所需等分IOU的间隔数为n_b，记第i个IOU区间的样本数为M_i。设置第i个区间的随机采样概率为

对每个IOU区间进行随机采样，将负样本所有IOU区间的采样结果记为Result1ns。

统计正样本Result1p中的样本数，记为P。设置随机采样概率为

对Result1p进行随机采样，将正样本采样结果记为Result1ps。

步骤3.3、对区域推荐网络进行训练和优化

将步骤3.2中得到的正样本采样结果Result1ps和负样本采样结果Result1ns作为输入，按照定义3中的经典的Adam算法对区域推荐网络进行训练和优化。得到训练和优化之后的区域推荐网络RPN₁。

步骤4、训练级联检测头网络

步骤4.1、对级联检测头网络进行前向传播

将步骤1中的数据集的训练集Train作为级联检测头网络CasNet₀的输入，按照定义5中的前向传播方法把训练集Train送入级联检测头网络CasNet₀进行运算，记级联检测头网络CasNet₀的输出作为Result2。

步骤4.2、对级联检测头网络进行训练和优化

将步骤4.1中得到的级联检测头网络CasNet₀的输出Result2作为输入，按照定义3中的经典的Adam算法对级联检测头网络进行训练和优化。得到训练和优化之后的级联检测头网络CasNet₁。

步骤5、进行交替训练

判断步骤3中设置的epoch是否等于12。如果epoch不等于12，则令epoch＝epoch+1、SEPN₀＝SEPN₁、RPN₀＝RPN₁、CasNet₀＝CasNet₁，依次重复步骤3.1、步骤3.2、步骤3.3、步骤4.1、步骤4.2，然后返回步骤5对epoch进行再次判断；如果epoch等于12，则令训练后的语义增强金字塔网络SEPN₁、区域推荐网络RPN₁和级联检测头网络CasNet₁记为网络HRSwin-CASN，然后进行步骤7.

步骤6、评估方法

步骤6.1、前向传播

以步骤5中得到网络HRSwin-CASN和步骤1中得到的测试集Tests作为输入，采用定义4传统的前向传播方法，得到检测结果，记为R。

步骤(1)首先令检测结果R1中得分最高的框，记为BS；

步骤(2)然后采用计算公式为：

计算检测结果R1所有框的重叠率阈值(IoU)；舍弃IoU>0.5的框；

步骤(3)从剩余框中选出得分最高的框BS；

步骤6.2、计算指标

如图5所示，以步骤7.1中得到的检测结果R^F作为输入，采用定义14中传统的召回率和精确率计算方法，求出网络的精确率P、召回率R和精确率和召回率曲线P(R)；采用公式

计算基于视觉Transformer的高精度SAR舰船检测平均精度mAP。

Claims

1.一种基于视觉Transformer的高精度SAR舰船检测方法，其特征是它包括以下步骤：

步骤1、初始化数据集

采用随机的方法调整SSDD数据集中的SAR图像次序，得到新的SSDD数据集；

步骤2、搭建前向传播网络

步骤2.1、建立HRSwin-T骨干网络

采用经典Swin Transformer骨干网络构建方法，搭建Swin Transformer骨干网络，记为Swin-T；

以步骤1中获取得到的新的SSDD数据作为输入，将经过第一个Swin Transformer基本模块所得的128×128×96维输出结果，采用传统最近邻插值法进行最近邻插值，得到插值后256×256×96维的结果向量，作为第一层特征图，记为F₁；

以步骤1中获取得到的新的SSDD数据作为输入，将经过第一个Swin Transformer基本模块后得到的128×128×96维的输出结果，作为第二层特征图，记为F₂；

以128×128×96维的向量F₂作为输入，经过第二个Swin Transformer基本模块后得到的64×64×192维的输出结果，作为第三层特征图，记为F₃；

以64×64×192维的向量F3作为输入，经过第三个Swin Transformer基本模块后得到的32×32×384维的输出结果，作为第四层特征图，记为F4；

以32×32×384维的向量F3作为输入，经过第三个Swin Transformer基本模块后得到的16×16×768维的输出结果，作为第五层特征图，记为F5；

步骤2.2、搭建语义增强金字塔网络

采用经典上采样操作方法，将第五层特征图F₅，进行2倍上采样，记上采样结果为U_1,5；采用传统卷积核操作方法，将第四层特征图F₄用1×1卷积和进行特征提取，记特征提取结果记为E_1,4；采用传统级联操作方法，将E_1,4和U_1,5进行叠加，将叠加结果记为P_1,4；

采用传统上采样操作方法，将P_1,4，进行2倍上采样，记上采样结果为U_1,4；采用传统卷积核操作方法，将F₃用1×1卷积和进行特征提取，记特征提取结果记为E_1,3；采用传统级联操作方法，将E_1,3和U_1,4进行叠加，将叠加结果记为P_1,3；

采用传统上采样操作方法，将P_1,3，进行2倍上采样，记上采样结果为U_1,3；采用传统卷积核操作方法，将F₂用1×1卷积和进行特征提取，记特征提取结果记为E_1,2；采用传统级联操作方法，将E_1,2和U_1,3进行叠加，将叠加结果记为P_1,2；

采用传统上采样操作方法，将P_1,2，进行2倍上采样，记上采样结果为U_1,2；采用传统卷积核操作方法，将F₁用1×1卷积和进行特征提取，记特征提取结果记为E_1,1；采用传统级联操作方法，将E_1,1和U_1,2进行叠加，将叠加结果记为P_1,1；

将F₅，另记为G₅；

采用传统上采样操作方法，将F₅，进行2倍上采样，再进行0.5倍加权，记结果为U_2,4，采用传统卷积和操作方法，将P_1,4用3×3卷积和进行特征提取，记特征提取结果记为E_2,4；采用传统级联操作方法，将E_2,4和U_2,4进行叠加，将叠加结果记为P_2,4；

采用传统上采样操作方法，将P_2,4，进行2倍上采样，再进行0.5倍加权，记结果为U_2,3,采用传统卷积核操作方法，将P_1,3用3×3卷积和进行特征提取，记特征提取结果记为E_2,3；采用传统级联操作方法，将E_2,3和U_2,3进行叠加，将叠加结果记为P_2,3；

采用传统上采样操作方法，将P_2,3，进行2倍上采样，再进行0.5倍加权，记结果为U_2,2,采用传统卷积核操作方法，将P_1,2用3×3卷积和进行特征提取，记特征提取结果记为E_2,2；采用传统级联操作方法，将E_2,2和U_2,2进行叠加，将叠加结果记为P_2,2；

采用传统上采样操作方法，将P_2,2，进行2倍上采样，再进行0.5倍加权，记结果为U_2,1,采用传统卷积核操作方法，将P_1,1用3×3卷积和进行特征提取，记特征提取结果记为E_2,1；采用传统级联操作方法，将E_2,1和U_2,1进行叠加，将叠加结果记为P_2,1；

将P_2,4，另记为G₄；

采用传统上采样操作方法，将P_2,4，进行2倍上采样，再进行0.25倍加权，记结果为U_3,3,采用传统卷积核操作方法，将P_2,3用3×3卷积和进行特征提取，记特征提取结果记为E_3,3；采用传统级联操作方法，将E_3,3和U_3,3进行叠加，将叠加结果记为G₃；

采用传统上采样操作方法，将G₃，进行2倍上采样，再进行0.25倍加权，记结果为U_3,2,采用传统卷积核操作方法，将P_2,2用3×3卷积和进行特征提取，记特征提取结果记为E_3,2；采用传统级联操作方法，将E_3,2和U_3,2进行叠加，将叠加结果记为G₂；

采用传统上采样操作方法，将G₂，进行2倍上采样，再进行0.25倍加权，记结果为U_3,1,采用传统卷积核操作方法，将P_2,1用3×3卷积和进行特征提取，记特征提取结果记为E_3,1；采用传统级联操作方法，将E_3,1和U_3,1进行叠加，将叠加结果记为G₁；

至此，语义增强金字塔搭建网络工作完成，记搭建的语义增强金字塔网络为SEPN；

步骤2.3、搭建区域推荐网络

采用经典区域推荐网络构建方法，搭建区域推荐网络，记为R；由Swin Transformer骨干网络Swin-T、语义增强金字塔网络SEPN和区域推荐网络R组成区域推荐头网络，记为区域推荐头网络RPN₀；

步骤2.4、搭建级联检测头网络

采用传统卷积核方法构建卷积层Conv；采用经典的池化操作方法构建三个池化层，分别记为Pooling1、Pooling2、Pooling3；

采用传统特征提取网络构建方法，搭建三个特征提取网络，分别记为H₁，H₂，H₃；

采用传统目标分类网络构建方法，搭建三个目标分类网络，分别记为C₁，C₂，C₃；

采用经典区域推荐网络构建方法，搭建三个区域推荐网络，记为B₁，B₂，B₃；

将Conv和RPN的输出作为Pooling1的输入，将Pooling1的输出作为H₁的输入，将H₁的输出作为C₁和B₁的输入；将Conv和B₁的输出作为Pooling2的输入，将Pooling2的输出作为H₂的输入，将H₂的输出作为C₂和B₂的输入；将Conv和B₂的输出作为Pooling3的输入，将Pooling3的输出作为H₃的输入，将H₃的输出作为C₃和B₃的输入；特征提取网络H₁，H₂，H₃，分类网络C₁，C₂，C₃，区域推荐网络B₀，B₁，B₂，B₃，池化层Pooling1、Pooling2、Pooling3，以及卷积层Conv一起共同构成级联检测头，记为CasNet₀；

步骤3、训练区域推荐头网络

设置迭代参数epoch，初始化epoch值为1；

步骤3.1、对区域推荐网络进行前向传播

将步骤1中的数据集的训练集Train作为区域推荐网络B的输入采用传统前向传播方法把训练集Train送入区域推荐头网络RPN₀进行运算，记网络RPN₀的输出作为Result1；

步骤3.2、对前向传播结果进行平衡区间采样

将步骤3.1得到的输入Result1和训练集Train作为输入，采用交并比IOU计算公式

计算，计算得到Result1中每个推荐框的IOU值，其中Area of Overlap为预测框和真值框相交的区域面积，Area of Union为预测框和真值框合并的区域面积；

将Result1中IOU大于0.5的输出作为正样本，记为Result1p；将Result1中IOU小于0.5的输出作为负样本，记为Result1n；

统计负样本Result1n中的总样本数记为M，人为输入所需负样本数，记为N；人为输入所需等分IOU的间隔数为n_b，记第i个IOU区间的样本数为M_i；设置第i个区间的随机采样概率为

对每个IOU区间进行随机采样，将随机采样后得到的负样本所有IOU区间的采样结果记为Result1ns；

统计正样本Result1p中的样本数，记为P；

设置随机采样概率为

对Result1p进行随机采样，将随机采样后得到的正样本采样结果记为Result1ps；

步骤3.3、对区域推荐网络进行训练和优化

将步骤3.2中得到的正样本采样结果Result1ps和负样本采样结果Result1ns作为输入，采用经典的Adam算法对区域推荐网络进行训练和优化；得到训练和优化之后的区域推荐网络RPN₁；

步骤4、训练级联检测头网络

步骤4.1、对级联检测头网络进行前向传播

将步骤1中的数据集的训练集Train作为级联检测头网络CasNet₀的输入，采用传统前向传播方法把训练集Train送入级联检测头网络CasNet₀进行运算，记级联检测头网络CasNet₀的输出作为Result2；

步骤4.2、对级联检测头网络进行训练和优化

将步骤4.1中得到的级联检测头网络CasNet₀的输出Result2作为输入，采用经典的Adam算法对级联检测头网络进行训练和优化；得到训练和优化之后的级联检测头网络CasNet₁；

步骤5、进行交替训练

判断步骤3中设置的epoch是否等于12；

步骤6、评估方法

步骤6.1、前向传播

以步骤5中得到网络HRSwin-CASN和步骤1中得到的测试集Tests作为输入，采用传统的前向传播方法进行检测，得到检测结果，记为R；

以检测结果R作为输入，采用传统的非极大值抑制方法，去除检测结果R1中的冗余框，具体步骤如下：

步骤(1)首先令检测结果R1中得分最高的框，记为BS；

步骤(2)然后采用交并比IOU计算公式为：

计算检测结果R1所有框的重叠率阈值(IoU)；舍弃IoU>0.5的框；

步骤(3)从剩余框中选出得分最高的框BS；

重复上述步骤(2)中计算IoU和舍弃的过程，直到没有框可以舍弃，最后剩余的框即为最终检测结果，记为R^F；

步骤6.2、计算指标

以步骤6.1中得到的检测结果R^F作为输入，采用传统的召回率和精确率计算方法，求出网络的精确率P、召回率R和精确率和召回率曲线P(R)；采用公式

计算基于视觉Transformer的高精度SAR舰船检测平均精度mAP。