CN116486243A

CN116486243A - 基于DP-ViT的声呐图像目标检测方法

Info

Publication number: CN116486243A
Application number: CN202211434552.4A
Authority: CN
Inventors: 孙玉山; 郑淏天; 张国成; 周天; 张力文; 柴璞鑫
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-07-25

Abstract

本发明公开了一种基于DP‑ViT的声呐图像目标检测方法，将提出了Dual‑Sc ale Patch Embedding(DSPE),将ViT与CNN结合，提出了Dual Path Transformer Block(DPTB)，充分结合了transformer的序列编码能力、全局信息感知能力与CN N的泛化能力。这样既能够保留CNN的平移旋转不变性，也能保留transformer的优势。本发明提出的DP‑ViT分别在侧扫声呐和前视声呐目标检测任务中，相比于现有技术的目标检测方法，具有更好的性能，并且大幅降低了声呐图像对比度低、干扰噪声大对检测任务的影响。在样本较少情况下相比于单一transformer的方法有更加明显的优势。

Description

基于DP-ViT的声呐图像目标检测方法

技术领域

本发明涉及声呐图像处理技术领域，特别涉及一种基于Dual Path VisionTransformer network(DP-ViT)的声呐图像目标检测方法。

背景技术

无人自主水下航行器(AUV)是一种不依靠人为操作并且可以进行长时间探测作业的装备，因其作业深度大、高效和长续航的能力，成为各国研究的热点。由于水下环境存在浑浊、黑暗等问题，对光学图像产生了偏色、模糊、视距低等影响，性能受到了极大的限制，因此AUV的感知系统主要由声呐来完成。前视声呐可以辅助AUV完成石油管道检测、威胁检测、猎雷等任务；侧扫声呐可以协助AUV对失事船舶、失事飞机等位置进行查找。因此前视声呐与侧扫声呐是AUV最常搭载的用于水下成像的高分辨率图像声呐。

由于水声信道的复杂多变和声波本身的传播损失，声呐图像往往呈现出对比度不高、噪声干扰严重、目标轮廓模糊等特点。传统目标检测方法很难准确的提取到目标物特征轮廓。在AUV自主行驶的过程中，如果没有很好的实时检测方法对声呐图像进行识别，AUV很有可能会因此做出错误的决策从而导致其执行任务效率低下。

目前，许多研究人员提出的基于深度学习的方法已经可以在复杂场景下达到非常高的目标检测效率与精度。当前主流的基于CNN的目标检测网络大致可以分为two-stage和one-stage两类。基于two-stage的目标检测网络如SPP-Net[1]、Faster R-CNN[2]、FPN[3]、Mask R-CNN[4]、R-FCN[5]等的提出，大幅度提升了目标检测精度，但是检测速度相对较差。基于one-stage的网络如SSD[6]、CornerNet[7]、YOLOV7[8]等，此类算法虽然精度低于two-stage，但是检测实时性非常好。

然而，在natural language processing(NLP)[9]中效果非常好的Transformer，在2020年首次应用于computer vision community，并且证明其在cv领域依然有着非常惊人的性能。随着ViT[10]、DETR[11]、Swin Transformer V2[12]等网络的提出，基于Transformer的目标检测网络得到了广泛的应用。但是由于Transforme r的目标检测器需要大量的数据集进行训练，并且计算复杂度高、收敛速度慢，并不适合应用于声呐图像处理。Next-ViT[13]将CNN与ViT相结合，并在coco数据集取得了非常好的效果。但是由于声呐图像存在着对比度低、噪声大、轮廓模糊、数据较少、目标较小等问题，Next-ViT直接应用在声呐图像目标检测中检测精度并不理想。

参考文献

[1]He K,Zhang X,Ren S,et al.Spatial Pyramid Pooling in DeepConvolutional Networks for Visual Recognition[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2014,37(9):1904-16；

[2]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[C]//NIPS.2016；

[3]Lin T Y,Dollar P,Girshick R,et al.Feature Pyramid Networks forObject Detection[C]//2017IEEE Conference on Computer Vision and PatternRecognition(CVPR).IEEE Computer Society,2017；

[4]He K,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//Proceedings of theIEEE international conference on computer vision.2017:2961-2969；

[5]Ma L,Zhao D,Li S,et al.End-to-End Denoising of Dark Burst Imagesusing Recurrent Fully Convolutional Networks[C]//15th InternationalConference on Computer Vision Theory and Applications.2020；

[6]Liu W,Anguelov D,Erhan D,et al.Ssd:Single shot multibox detector[C]//European conference on computer vision.Springer,Cham,2016:21-37；

[7]Law H,Deng J.Cornernet:Detecting objects as paired keypoints[C]//Proceedings of the European conference on computer vision(ECCV).2018:734-750；

[8]Wang C Y,Bochkovskiy A,Liao H Y M.YOLOv7:Trainable bag-of-freebiessets new state-of-the-art for real-time object detectors[J].arXiv preprint arXiv:2207.02696,2022；

[9]Radford A,Narasimhan K,Salimans T,et al.Improving language understanding with unsupervised learning[J].2018；

[10]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An Image is Worth 16x16Words:Transformers for Image Recognition at Scale[C]//InternationalConference on Learning Representations.2021；

[11]Carion N,Massa F,Synnaeve G,et al.End-to-end object detectionwith transformers[C]//European conference on computer vision.Springer,Cham,2020:213-229；

[12]Liu Z,Hu H,Lin Y,et al.Swin transformer v2:Scaling up capacityand resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2022:12009-12019；

[13]Li J,Xia X,Li W,et al.Next-ViT:Next Generation Vision Transformerfor Efficient Deployment in Realistic Industrial Scenarios[J].arXiv preprintar Xiv:2207.05501,2022；

[14]Cho H,Gu J,Yu S C.Robust sonar-based underwater object recognition against angle-of-view variation[J].IEEE Sensors Journal,2015,16(4):1013-1025；

[15]Abu A,Diamant R.A statistically-based method for the detection ofunderwater objects in sonar imagery[J].IEEE Sensors Journal,2019,19(16):6858-6871；

[16]Kim J,Yu S C.Convolutional neural network-based real-time ROVdetection using forward-looking sonar image[C]//2016 IEEE/OES Autonomous Underwater Vehicles(AUV).IEEE,2016:396-400；

[17]Kong W,Hong J,Jia M,et al.YOLOv3-DPFIN:A dual-path feature fusionneural network for robust real-time sonar target detection[J].IEEE SensorsJournal,2019,20(7):3745-3756；

[18]Fan Z,Xia W,Liu X,et al.Detection and segmentation of underwaterobjects from forward-looking sonar based on a modified Mask RCNN[J].Signal,Image and Video Processing,2021,15(6):1135-1143；

[19]Howard A G,Zhu M,Chen B,et al.Mobilenets:Efficient convolutionalneural networks for mobile vision applications[J].arXiv preprint arXiv:1704.04861,2017；

[20]Zhang X,Zhou X,Lin M,et al.Shufflenet:An extremely efficientconvolutional neural network for mobile devices[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2018:6848-6856；

[21]Liu Z,Mao H,Wu C Y,et al.A convnet for the 2020s[C]//Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:11976-11986；

[22]Sun P,Zhang R,Jiang Y,et al.Sparse r-cnn:End-to-end objectdetection with learnable proposals[C]//Proceedings of the IEEE/CVF conferenceon computer vision and pattern recognition.2021:14454-14463；

[23]Touvron H,Cord M,Douze M,et al.Training data-efficient imagetransformers&distillation through attention[C]//International Conference onMachine Learning.PMLR,2021:10347-10357；

[24]Zhu X,Su W,Lu L,et al.Deformable detr:Deformable transformers forend-to-end object detection[J].arXiv preprint arXiv:2010.04159,2020；

[25]Li Y,Mao H,Girshick R,et al.Exploring plain vision transformerbackbones for object detection[J].arXiv preprint arXiv:2203.16527,2022；

[26]Xu W,Xu Y,Chang T,et al.Co-scale conv-attentional image transformers[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.2021:9981-9990；

[27]Li X,Wang W,Wu L,et al.Generalized focal loss:Learning qualifiedand distributed bounding boxes for dense object detection[J].Advances inNeural Information Processing Systems,2020,33:21002-21012；

[28]He J,Chen J N,Liu S,et al.Transfg:A transformer architectureforfine-grained recognition[C]//Proceedings of the AAAI Conference onArtificial Int elligence.2022,36(1):852-860；

[29]Chollet F.Xception:Deep learning with depthwise separableconvolutions[C]//Proceedings of the IEEE conference on computer vision andpattern recog nition.2017:1251-1258；

[30]Russakovsky O,Deng J,Su H,et al.ImageNet Large Scale VisualRecognition Challenge[J].International Journal of Computer Vision,2015,115(3):211-252；

[31]Radosavovic I,Kosaraju R P,Girshick R,et al.Designing NetworkDesign Spaces[J].IEEE,2020；

[32]Buslaev A,Iglovikov V I,Khvedchenya E,et al.Albumentations:fastand flexible image augmentations[J].Information,2020,11(2):125；

[33]Selvaraju R R,Cogswell M,Das A,et al.Grad-cam:Visual explanationsfrom deep networks via gradient-based localization[C]//Proceedings of theIEEE international conference on computer vision.2017:618-626；

[34]Ge Z,Liu S,Wang F,et al.Yolox:Exceeding yolo series in 2021[J].arXiv preprint arXiv:2107.08430,2021；

[35]Gensane M.A statistical study of acoustic signals backscatteredfrom the sea bottom[J].IEEE Journal of Oceanic Engineering,1989,14(1):84-93。

发明内容

本发明针对现有技术的缺陷，本发明提供一种基于DP-ViT的声呐图像目标检测方法，适用于前视声呐与侧扫声呐图像目标检测。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于DP-ViT的声呐图像目标检测方法，包括以下步骤：

步骤S1、构建基于DP-ViT的声呐图像目标检测模型的数据集，所述数据集包括训练集、验证集和测试集；

步骤S2、在所述基于DP-ViT的声呐图像目标检测模型的引入AP作为评价标准，对所述基于DP-ViT的声呐图像目标检测模型中的学习网络进行求解；

步骤S3、在所述基于DP-ViT的声呐图像目标检测模型中，使用Conv-Attent ion作为self-attention；

步骤S4、对所述基于DP-ViT的声呐图像目标检测模型进行训练，得到检测结果；

步骤S5、评估所述基于DP-ViT的声呐图像目标检测模型的网络性能。

进一步地，S1中所述基于DP-ViT的声呐图像目标检测模型中的声呐图像进行数据集划分，设定随机数种子来随机划分所述训练集、验证集和测试集，其中所述训练集、验证与测试集的数量比例为6：2：2。

进一步地，S2的详细步骤如下：

S21：先确定划分positive和negative的IoU阈值，预测的proposal与当前这个类别的GT的IoU大于阈值，则这个预测结果为positive(TP)，否则为negative(FP)；

S22：计算P-R(Precision-Recall)曲线下的面积就是这单个类别预测结果的AP值,平均计算所有类别的AP就是mAP；

S23：使用不同的置信度阈值得到Precision和Recall从而得到PR曲线；

S24：计算得到当前IoU和置信度阈值下的precision和Recall；

S25：基于第一步和第二步预测得到的positive和negative，以及TP和FP计算混淆矩阵TP、FP、FN、TN；

S26：在确定好IoU阈值的基础上，将预测的一系列proposal按照置信度倒序排序，将排序后的每个置信度依次作为置信度阈值，设定预测置信度阈值，大于阈值的proposal预测为positive，小于阈值的proposal预测为negative；

S27：在得到precision和recall之后，通过recall区间方法AP计算过程；

S28：先根据recall列表划分为多个区间并计算各个区间内对应的precision的最大值；

S29：recall区间长度乘以对应的precision，然后求和即可计算出AP。

进一步地，S3中所述基于DP-ViT的声呐图像目标检测模型中，Conv-Attention作为self-attention，包括：

通过一种类似于卷积的方式设计了Factorized Attention Block，通过引入co-scale并设计了Conv-Attention，在Factorized Attention中实现相对位置嵌入。通过多尺度建模，既提高了模型的学习能力，也可以大幅减少参数[26]。Conv-Attention机制可以在各个尺度上保持Transformer encorder的完整性，并且可以增加多尺度信息和上下文建模功能。

进一步地，S4中对所述基于DP-ViT的声呐图像目标检测模型进行训练，包括：

S41：对所述基于DP-ViT的声呐图像目标检测模型的数据集Albumentations进行数据增强，防止模型训练过拟合；

S42：设置训练参数，采用小批量梯度下降算法进行训练，训练批次设置为16，训练迭代轮数设置为3000，初始学习率设置为0.01，最终学习率设置为0.2。

S43：自适应缩放所述数据集中的声呐图像的大小到512像素*512像素。

S44：对所述训练集和验证集进行训练，将模型在VOC数据集上进行预训练，在有预训练模型的基础上对所述基于DP-ViT的声呐图像目标检测网络进行训练，训练得到所述验证集上性能最优的前视声呐图像目标检测结果模型；

进一步地，S5中评估所述基于DP-ViT的声呐图像目标检测模型的网络性能，包括：

从平均检测精度上对所述基于DP-ViT的声呐图像目标检测模型进行评估。

从模型尺寸与训练参数量上对所述基于DP-ViT的声呐声呐图像目标检测模型进行评估。

从检测速度上对所述基于DP-ViT的声呐声呐图像目标检测模型进行评估。

基于DP-ViT模型对前视声呐图像进行目标检测，其中有2000张前视声呐图像，分别由人体、球、圆笼、方笼、轮胎、水桶、立方体和圆筒八类目标组成。

基于DP-ViT模型对侧扫声呐图像进行目标检测，其中有900张侧扫声呐图像，分别由飞机、人和沉船三类目标组成。

与现有技术相比，本发明的优点在于：

首先，本发明提出了一个全新的声呐目标检测网络Dual Path ViT，它适用于侧扫声呐和前视声呐的目标检测任务，可以在保证检测精度的前提下，减少了网络训练参数，相比于Next-ViT等网络有着更快的收敛速度。并且可以在样本较少的声呐数据集上有着更好的性能表现。

其次，采用了Dual-Scale Patching Embedding代替原有的Patching Embedding，不同尺度的tokens会并行的送入Transformer encorder，大小补丁不同的transformerencorder会执行global self-attention，。所提出的DSPE可以有效增大感受野，减少噪声对目标检测任务精度的影响。

再次，参考Next-ViT[13]，根据DSPE设计了Dual Path Transformer Block，该过程将convolutional local features连接到transformer global features，使局部特征与全局特征连接。所提出的DPTB可以更好的获取图像中全局与局部的特征信息，可以在复杂的声呐图像中获得更高的检测精度。

最后，分别对前视声呐和侧扫声呐构建了声呐目标图像数据集，并在该数据集上验证了DP-ViT在声呐图像目标检测方面先进的性能。

附图说明

图1是本发明实施例基于DP-ViT的声呐图像目标检测方法框架流程示意图；

图2是本发明实施例Dual Path结构示意图；

图3是本发明实施例DSPE流程图；

图4是本发明实施例小批量梯度下降算法进行参数优化流程图；

图5是本发明实施例DP-ViT与其他方法在前视声呐数据集中的对比图；(a)realsonar image(b)true sonar image target(c)our method:DP-ViT(d)Faster R-CNN(Resnet50)(e)Faster R-CNN(Resnet101)(f)Sparse R-CNN(resnet50)(g)Sparse R-CNN(resnet101)(h)Next ViT(i)YOLOX-s(j)YOLOv3 DPFIN；

图6是本发明实施例各方法Loss对比图；(a)Our method:DP-ViT(b)Faster R-CNN(Resnet 50)(c)Faster R-CNN(Resnet 101)(d)Sparse R-CNN(resnet 50)(e)Sparse R-CNN(resnet 101)(f)Next-ViT；

图7是本发明实施例DP-ViT与其他方法在侧扫声呐数据集中对比图；(a)ourmethod:DP-ViT(b)Faster R-CNN(Resnet50)(c)Faster R-CNN(Resnet101)(d)Spars e R-CNN(resnet50)(e)Sparse R-CNN(resnet101)(f)Next ViT(g)YOLOX-s(h)YOLOv3 DPFIN；

图8是本发明实施例各方法Loss对比图(a)Our method:DP-ViT(b)Faster R-CNN(Resnet 50)(c)Faster R-CNN(Resnet 101)(d)Sparse R-CNN(resnet 50)(e)Sparse R-CNN(resnet 101)(f)Next-ViT；

图9是本发明实施例侧扫声呐图像与前视声呐图像添加噪声示意图。(a)Realimage(b)Gaussian noise(c)Rayleigh noise(d)Salt and pepper noise。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

在声呐图像目标检测过程中，不论是侧扫声呐还是前视声呐，都需要对声呐图像中的目标物区域的特征进行提取，确定目标物的位置与类别。虽然基于CNN、Transformer的方法在目标检测的任务中具有良好的表现，但是对于样本数量较少、低信噪比的声呐图像数据集，上述网络存在着计算复杂度高、泛化性差、检测精度降低、收敛速度慢、难以充分训练等问题。

受到多尺度任务的启发，本发明提出了一个Dual-Scale Patch Embedding(DSPE)取代Next-ViT中的Patch Embedding模块。与现有的多尺度任务不同，DSPE可以在相同序列长度时具有更好的特征提取能力与特征融合能力，并且可以通过两个尺度的接受场获得全局上下文信息。这样的设计可以更好的提高模型的泛化能力，更有利于应用在低信噪比少样本的声呐图像小目标检测任务中。

与COCO数据集相比，无论是前视声呐数据集还是侧扫声呐数据集中的目标物类别数、目标物尺寸等都更简单。因此这里认为Next-ViT中的NCB与NTB在声呐图像检测情况下设计较为复杂。为了节省计算资源的开销，本发明将NCB与NTB模块合并为Dual PathTransformer Block(DPTB)，并根据提出的DSPE模块将其改进。这样的设计可以降低模型的计算复杂度，提升收敛速度，更适合声呐图像目标检测任务。

如图1所示.和其他大部分网络相同，DP-ViT遵循分层金字塔结构，在每个阶段都配备了双尺度patch-embedding和双路径Transformer Block。与Next ViT整体结构设计相似，空间分辨率将逐渐减小32倍，而通道尺寸将在不同阶段扩展，本发明首先对深入设计信息交互的核心模块进行讨论，并对提出的DSPE和DPT B进行详细阐述。同时，transformer(全局信息)与CNN(局部信息)也在DPTB中进行信息融合。最终，由于双路结构较为复杂,它需要更多的计算资源.因此我们引入了CoaT[26]中提出的注意力机制和GFL[27]中提出的损失函数。

一、Dual-Scale Patching Embedding(DSPE)

在our network中包括4个stage，每个stage中包括DSPE和DPTB两个部分。由于Dual-scale结构，在first stage之前设计了Conv-stem，通过两次下采样降低维度。这样操作既可以减少计算量和序列长度，同时也不会像ViT一样造成序列长度过短而不利于特征提取。

本发明设计了Dual-Scale Patch Embedding(DSPE)层，通过同时嵌入patch，将dual scale token独立输入到DPTB中。本发明引入overlapping matches，similar toTransFG[28].给定输入图像大小为H×W×3,stage_i的输入为那么输出的token的尺寸/>具有高度和宽度如下式所示：

其中k是kernel的尺寸,s是stride的长度，p是padding，通过上述公式可知，可以通过对stride和padding的调整来改变不同尺度token的长度。也就是说，可以通过不同尺寸大小的patch生成相同输出尺寸的特征向量。因此本发明用3×3和5×5两个尺寸的kernel,去并行生成多个卷积patch embedding，如图2所示.采用叠加连续卷积运算可以用更少的参数得到更大的感受野,我们用了两个在padding尺寸、stride的长度和通道数相同的3×3卷积代替了一个5×5卷积.由于采用的双路结构，DP-ViT会有更多嵌入层和参数两。本发明采用3×3的深度可分离卷积[29]用于减少模型参数和降低计算量。最后，双路的token会被分别送入DPTB。

二、Dual Path Transformer Block(DPTB)

在一些classical structural design of CNN and Transformer block，如Resnet[30]消除了“退化现象(Degradation)”即深度过大的神经网络训练困难的问题，并且引导学者将神经网络向“深度”发展。但是与Transformer Block相比，Neck Block有效性还是很低。ConvNeXt[21]虽然改进了Neck Block，提高了网络性能，但是采用的GELU和LayerNorm等效率较低的模块导致其无法完成实时目标检测。Transformer在各大视觉任务中都取得了非常好的成绩，但是由于其复杂的注意力机制与序列展开，严重影响了推理速度。Next-ViT[13]中引入了Next Convolution Block(NCB)and Next Transformer Block(NTB)。Next-ViT证明了这种设计同时兼具优异的性能和较好的实时性。由于声呐图像目标检测任务中的类别数较少，并且图像背景噪声变化不大，本发明认为这种设计在声呐图像目标检测任务中是冗余的(原因)，并且在较小目标情况下的检测任务表现并不好。为了解决上述问题，本发明引入了Dual Path Transformer Block(DPTB)，并对localinformation and global information进行融合，进一步提高了模型的泛化性，并且降低了所需计算资源，提升了推理速度。

1.Transformer Encorder

在目标检测的领域中Transformer block的精度很高，其在捕获global information的能力是独一无二的，例如对global shapes and global structures等信息的low-drequency signals捕获能力十分强大。但是由于其复杂的attention mechanisms,其实时性与推理速度受到了严重的影响。为了克服上述缺点，本发明开发了Tranformer Encorder对声呐图像中的形状、结构信息进行捕获，并且进一步增强了modeling capability。虽然在采用的DSPE结构中使用了depthwise separable convo lutions，但是仍会增加模型训练参数与计算量。为了解决上述问题并减少采用DSPE对模型训练带来的影响，提出了如图3所示的方法，首先采用高效的Factorized MHSA代替原有的Self Attention。CoaT通过一种类似于卷积的方式设计了Factorized Attention Block，通过引入co-scale并设计了Conv-Attention，在Factorized Attention中实现相对位置嵌入，通过多尺度建模，既提高了模型的学习能力，也可以大幅减少参数[26]。Conv-Attention机制可以在各个尺度上保持Transformer encorder的完整性，并且可以增加多尺度信息和上下文建模功能.CoaT中提出的Factorized self-attention：

其中Q,K,V∈R^N×C是线性投影的queries,keys,values.N,C分别表示tokens的数量和嵌入维度。如果没有卷积位置编码，Transformer仅由self attention模块组成，会导致模型无法得到局部特征的差异，这一特性无法应用在图像背景噪声较大的声呐图像目标检测任务中。为了能够更好的将CoaT集成到DP-ViT中，根据ViT[10]中的class token andimage token，本发明使用2-D深度可分离卷积，将其仅用于进行image token的计算(i.e.from Q,V respectively):

其中，is the Hadamard product.同时，将传统transformer中的LN和GELU替换为BN和ReLU，不但加快了计算速度还提高了模型性能。

2.Feature Interaction

相关研究[31]表明，transformer block会在一定程度上恶化如local texturesinformation等high-frequency informtion，忽略每个patch中的结构性信息与局部关系。但是这些信息在声呐图像目标检测任务上是不可或缺的。为了避免上述问题导致局部特征丢失，DPTB中引入了Convolutional Local Feature。通过利用CNN的平移不变性和旋转不变性中的局部连通性弥补Transformer对模型的影响。为了表示局部特征构建了一个depthwise residual bottleneck block，包括1×1卷积、3×3深度卷积和1×1卷积和残差连接。DPTB中将CNN与Transformer以互补的方式连接在一起。由此，本发明引入了一个全局特征和局部特征融合模块，该模块是以聚合串联的方式将全局特征和局部特征融合到一起的。

三、损失函数

由于声呐图像数据集存在正负样本不均衡，样本数量较少，图像噪声多等问题。使得在训练过程中一部分分数较低，且实际上是正样本但是被判定为“负样本”的质量预测在训练过程中不能被定义。结果很有可能出现一个真正的负样本(例如图像中的噪声等)被预测为一个质量很高的分数，从而导致声呐图像中真正应该被识别检测到的目标物预测的分数比噪声等负样本预测分数低的问题。为此本发明引入Generalized Focal Loss(GFL)[27]来解决上述问题。GFL的公式为：

其中，y∈{1,0}specifies the ground truth classes,p∈[0,1]代表估计概率，γ是一个参数。

四、实验

1.模型训练

为了验证DP-ViT的有效性和优越性，本发明实施例分别在前视声呐和侧扫声呐两个数据集上进行实验验证和对比分析。本发明实施例所采用的前视声呐数据集包括八类物体(立方体、球体、圆柱体、人体、轮胎、环形笼和铁桶)，数据集内图像是经过增益与上色，但未进行极坐标变换的前视声呐原始回波图像，这样不但有助于保留更多的声波细节，还便于数据集标注与人工判读。该数据集由1650张训练图像和350张测试图像组成，标注格式为VOC。侧扫声呐图像数据集包括三类无图(human,ship,aircraft),由650张训练图像和250张测试图像组成，标注格式为VOC。该数据集具有较严重的海底噪声和混响干扰。针对声呐图像背景复杂、噪声较大等问题，本发明实施例对两套数据集的测试集分别添加高斯噪声、椒盐噪声和Rayleigh noise，来验证DP-ViT算法在较大噪声情况下仍具有较好的性能，证明模型有着较好的泛化性。

本发明实施例采用小批量梯度下降算法进行参数优化。小批量梯度下降方法是对批量梯度下降以及随机梯度下降方法的一个折中办法，利用梯度来确定参数更新的方向。在每次迭代的过程中，使用“batch size”样本数对参数进行更新，通过不断迭代更新目标函数的参数，使目标函数逐渐接近最小值。小批量梯度下降可以利用矩阵和向量计算进行加速，还可以减少参数更新的方差，得到更稳定的收敛。在合理选择batch size时，采用小批量梯度下降方法可以提高内存利用率，减少每一个epoch的迭代次数，进一步加快收敛速度，降低训练的震荡。具体流程参照图4。

在声呐数据集训练过程中，采用Albumentations[32]对模型训练的输入图像进行随机旋转、翻转、平移和缩放等多种图像变换操作，防止训练过拟合现象的发生。

为了测试网络的目标检测性能，并与其他网络进行比较，本发明用Precision,Recall,mean Average Precision(mAP),GFLOPs and FPS定量评估DP-ViT与其他网络在子测试集上的目标检测性能。GFLOPs is Giga Floating-point Operati ons，用于量化衡量模型复杂度。FPS用于评估目标检测模型的速度，即每秒内可以处理的图片数量或者一张图片所需时间。Precision and recall are calculated as follows:

其中，TP是模型预测为正样本的real positive samples。FP是模型预测为正的负样本。FN是模型预测为负的正样本。(公式全加上)The mAP is equal to taking the areaunder the precision-recall curve.The paper uses the mAP calcul ation standardin VOC2012.The AP calculation formula is as follows:

本发明实施例中的所有模型都是使用Python在很成熟的mmdetection框架上构建的。实验平台的操作系统为Ubuntu18.04，计算机内存为32GB，硬件使用Nvidia RTX3090显卡，配备Intel Core i9-10900 CPU。

2.前视声纳实验

为了验证DP-ViT网络的性能，本发明在前视声呐图像数据集上将DP-ViT与其他检测方法进行了对比，其中包括一些通用目标检测方法如Faster R-CNN[2],YOLOX[34]，Faster R-CNN[2],Sparse R-CNN[22]，Next-ViT[13]，以及声呐目标检测模型YOLOv3DPFIN[17]。检测结果图如图5所示，各个方法置信度在表1中说明，各检测方法在前视声呐数据集训练结果如表2所示。

表1图5中检测结果示意

表2基于前视声纳的探测,在前视声纳数据集进行训练与测试，在RTX3090上使用CUDA11.3和CUDNN8.2.1对每个算法进行评估

由于YOLOX-s在声呐图像目标检测任务中的mAP与Confidence较差，loss曲线对比结果不列入YOLOX-s，Loss对比图如图6所示。

3.侧扫声纳实验

为了进一步验证所提出的DP-ViT在其他类型声呐图像上进行目标检测任务的性能，本发明在侧扫声呐数据集上对DP-ViT进行验证。检测结果图如图7所示，各个方法置信度在表3中说明，各检测方法在前视声呐数据集训练结果如表4所示。

图7DP-ViT与其他方法在侧扫声呐数据集中对比(a)our method:DP-ViT(b)Faster R-CNN(Resnet50)(c)Faster R-CNN(Resnet101)(d)Sparse R-CNN(resnet50)(e)Sparse R-CNN(resnet101)(f)Next ViT(g)YOLOX-s(h)YOLOv3 DPFIN

表3图7中检测结果示意

表4基于侧扫声纳的探测,在侧扫声呐数据集进行训练与测试，在RTX3090上使用CUDA11.3和CUDNN8.2.1对每个算法进行评估

由于YOLOX-s在侧扫声呐图像目标检测任务中的mAP与Confidence较差，loss曲线对比结果不列入YOLOX-s，Loss对比图如所示。

4.不同噪声的实验

由于声呐在水中传播会衰减、混响和散射，所以声呐图像中通常具有大量不同类型的噪声。根据噪声源的不同可以将其分为三类：(1)由于海洋介质运动、水体特性变化以及海洋生物发出的声音引起的环境噪声会影响声波在水中的传播，从而影响声呐图像的精准度，本发明实施例采用高斯噪声模拟。(2)由于海洋环境中存在着大量悬浮物和散射体，对真实的目标回波造成干扰，本发明实施例采用椒盐噪声模拟。(3)混响噪声是声呐图像最重要的干扰信号，严重时甚至会遮盖真实目标。根据Middleton[35]提出的海底混响模型，可以认为混响的相位服从均匀分布，振幅特征符合瑞利分布。Rayleigh noise可以根据以下公式实现。

其中η和μ分别表示噪声的强度和斑点大小。为了进一步验证本发明实施例算法的抗噪声干扰能力，分别对图像进行Rayleigh noise、高斯噪声与椒盐噪声变换，声呐图像添加噪声示意图如图9所示。在增加噪声的情况下，采用未添加噪声的训练集训练的网络模型，对DP-ViT进行添加噪声的声呐图像测试，其测试结果如表5所示。

表5DP-ViT在不同噪声环境下测试结果

通过表5中的数据可以发现，噪声干扰对侧扫声呐图像检测精度影响较大，对前视声呐图像检测精度影响较小。从实验结果来看，DP-ViT在较强噪声干扰条件下仍有着较高的准确性，且在低信噪比环境中有着良好的回归精度与鲁棒性。

为了验证DP-ViT在少样本声呐数据集的表现，分别在前视声呐数据集与侧扫声呐数据集中随机选取较少量图像作为训练集测试DP-ViT网络在少样本情况下的检测精度。所构建的前视声呐数据集包括160张图像作为训练集，40张图像作为测试集。侧扫声呐数据集包括80张图像作为训练集，20张图像作为测试集。测试结果如下表和下图所示。

从实验结果来看，DP-ViT在少样本训练情况下有着不错的表现，虽然置信度有所下降，但是仍可以完成目标检测任务。

6.消融实验

为了验证四种变换方法对训练模型的影响，本发明实施例采用控制变量法，分别把Dual Scale Patch Embedding换为Patch Embedding、去掉Dual Path Tran sformerBlock中的Convolution Local Feature，去掉Generalized Focal Loss。在前视声呐数据集中进行验证分别得到mAP、Aps，实验结果见表六。此外，可以发现当去除Dual ScalePatch Embedding，更换为普通的Patch Embedding时，对目标检测精度影响更大。

表6

7.定性评估

本发明实施例提出的DP-ViT方法在前视声呐与侧扫声呐的目标检测任务中均有良好的表现，在mAP，APs等指标上的表现优于其他主流目标检测网络。在训练模型收敛速度上，由于以Transformer为主的网络具有难训练、收敛慢、需要较大数据集等缺点，通过在DPTB中采用Dual Scale来扩大感受野，DSPE中将CNN与Transformer结合，很好的解决了上述问题。且无论是在添加噪声的情况下，还是在少样本数据集情况下，DP-ViT也保持了很好的检测精度，良好的回归精度与鲁棒性。

五、结论

在本发明中，本发明提出了一个基于ViT的全新的DP-ViT网络，可以完成对不同类别的声呐图像进行目标检测任务。借鉴Next-ViT结构，创新性的引入了Dual Scale PatchEmbedding，能够有效提取声呐图像中的local and global imfor mation，增大感受野，从而获得更丰富的多尺度信息。Dual Path Transformer Block通过互补的方式将CNN和Transformer的信息结合，并引入Conv-Attention来减少模型训练参数，提高模型泛化性的同时降低了所需的计算资源。此外，采用Generalized Focal Loss解决了正负样本不均衡的问题。通过前视声呐数据集与侧扫声呐图像数据集上的实验结果表明，DP-ViT有着较高的检测精度，较快的检测速度与模型的抗噪声干扰性能，并且很好的解决了Transformer结构带来的参数多、收敛慢、需要大量数据集等问题。未来，本发明将重点减少模型训练所需参数，并将其部署在水下机器人上实现实时声呐检测，提升AUV环境感知能力。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于DP-ViT的声呐图像目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于DP-ViT的声呐图像目标检测方法，其特征在于：S1中所述基于DP-ViT的声呐图像目标检测模型中的声呐图像进行数据集划分，设定随机数种子来随机划分所述训练集、验证集和测试集，其中所述训练集、验证与测试集的数量比例为6：2：2。

3.根据权利要求1所述的一种基于DP-ViT的声呐图像目标检测方法，其特征在于：S2的详细步骤如下：

S21：先确定划分positive和negative的IoU阈值，预测的proposal与当前这个类别的GT的IoU大于阈值，则这个预测结果为positive(TP)，否则为negativ e(FP)；

S24：计算得到当前IoU和置信度阈值下的precision和Recall；

4.根据权利要求1所述的一种基于DP-ViT的声呐图像目标检测方法，其特征在于：S3中所述基于DP-ViT的声呐图像目标检测模型中，Conv-Attention作为self-attention，包括：

通过一种类似于卷积的方式设计了Factorized Attention Block，通过引入co-scale并设计了Conv-Attention，在Factorized Attention中实现相对位置嵌入。

5.根据权利要求1所述的一种基于DP-ViT的声呐图像目标检测方法，其特征在于：S4中对所述基于DP-ViT的声呐图像目标检测模型进行训练，包括：

S42：设置训练参数，采用小批量梯度下降算法进行训练，训练批次设置为16，训练迭代轮数设置为3000，初始学习率设置为0.01，最终学习率设置为0.2；

S43：自适应缩放所述数据集中的声呐图像的大小到512像素*512像素；

S44：对所述训练集和验证集进行训练，将模型在VOC数据集上进行预训练，在有预训练模型的基础上对所述基于DP-ViT的声呐图像目标检测网络进行训练，训练得到所述验证集上性能最优的前视声呐图像目标检测结果模型。

6.根据权利要求1所述的一种基于DP-ViT的声呐图像目标检测方法，其特征在于：S5中评估所述基于DP-ViT的声呐图像目标检测模型的网络性能，包括：

从平均检测精度上对所述基于DP-ViT的声呐图像目标检测模型进行评估；

从模型尺寸与训练参数量上对所述基于DP-ViT的声呐声呐图像目标检测模型进行评估；

从检测速度上对所述基于DP-ViT的声呐声呐图像目标检测模型进行评估；

基于DP-ViT模型对前视声呐图像进行目标检测；

基于DP-ViT模型对侧扫声呐图像进行目标检测。