CN114594461A

CN114594461A - 基于注意力感知与缩放因子剪枝的声呐目标检测方法

Info

Publication number: CN114594461A
Application number: CN202210246394.3A
Authority: CN
Inventors: 孔万增; 胡宏洋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-07

Abstract

本发明公开了基于注意力感知与缩放因子剪枝的声呐目标检测方法。该检测方法的过程为：步骤1、搭建注意力感知目标检测网络，注意力感知目标检测网络包括注意力感知网络、路径聚合增强网络和多尺度联合预测网络。步骤2、使用声呐数据集对步骤1所得的注意力感知网络进行训练。步骤3、使用缩放因子衡量通道的重要性并进行模型剪枝。步骤4、使用步骤3得到的剪枝模型对声呐目标进行回归与定位。本发明中针对深度学习目标检测算法应用于声呐图像目标检测时，对细长、细小目标的定位回归精度不佳及算法自身参数量大、运算复杂的问题进行改进。通过注意力感知模块获得目标的短距离形变感知与长距离依赖感知，并通过缩放因子对模型进行轻量化处理。

Description

基于注意力感知与缩放因子剪枝的声呐目标检测方法

技术领域

本发明属于人工智能与水声电子信息的技术领域，具体涉及一种基于注意力感知与缩放因子剪枝结合的声呐目标轻量级检测方法。

背景技术

声呐作为水下机器人、航行器等载具的辅助设备，为其执行海底目标探测识别、海床建模与绘图等任务提供有效的声学信息。声呐图像是声呐数据信息的一种直观表现形式。当前通过声呐图像实现海底探测的自动化、智能化已经成为一种主流的形式。

声呐图像目标检测技术是指在声呐图像的基础上，完成对感兴趣/可疑目标的检测，针对不同类的目标，给出不同类的预测结果，并提供相应的位置信息。传统的目标检测方法通常需要两步完成，首先需要进行目标与背景的前景背景分割，再通过对提取到的前景目标进行特征匹配，实现目标类别的判别回归。这种过程一般依赖于大量专业人员的先验目标工程知识，对目标特征进行手工设计，当目标出现刚性形变、遮挡等类内变化时，需要为其重新设计手工特征，而且可移植性差，特征匹配速度慢。

近年来，基于卷积神经网络的目标检测算法发展迅速，逐渐形成以R-CNN为代表的基于兴趣区域的两阶段目标检测器和YOLO为代表的一阶段回归定位目标检测器。在自然语言处理任务上表现优异的Transformers，由于其可插入性强、任务关联性紧密的特点，当前也在逐步引入到计算机视觉任务，并且表现出强大的性能。

然而深度学习是依赖于数据驱动的算法，水下声呐图像需要通过大量湖试、海试获取，获取成本高，且由于水下环境多变、目标回声复杂导致水下数据可用数据少，可用信息有限。因此对深度学习目标检测算法在复杂小样本条件下的特征提取能力的要求进一步提高。此外不断加宽加深的深度学习网络结构在训练、测试过程中大量的矩阵运算、批处理操作、函数响应激活等，对数据存储内存大小及图形处理器显存大小要求较高。学术界在追求检测精度和检测速度的同时往往忽略了算法对资源的要求。在如今深度学习网络层次架构越来越多且复杂的情况下，提出一个检测精度高、检测速度快、方便移植的轻量级目标检测模型，将其落实到工程实践中，是一个势在必行的问题。

发明内容

本发明针对当前深度学习目标检测模型应用于声呐图像目标检测的不足，提出一种基于注意力感知与缩放因子剪枝结合的声呐目标轻量级检测方法。

本发明的具体步骤如下：

1.基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：包括以下步骤：

步骤1、搭建注意力感知目标检测网络，注意力感知目标检测网络包括注意力感知网络、路径聚合增强网络和多尺度联合预测网络。

1-1.搭建注意力感知网络；注意力感知网络包括依次相连的五个跨阶段模块；其中，第三个跨阶段模块为可变形跨阶段模块；第五个跨阶段模块为多头自注意力跨阶段模块；将第三、四、五个跨阶段模块输出的特征图分别称为特征图P3、P4、P5，用以向后输出。

1-2.搭建路径聚合增强网络；路径聚合增强网络对注意力感知网络中输出的三层特征图自下而上不断进行上采样、拼接操作融合低分辨率特征图的语义信息，自上而下进行下采样、拼接操作融合高分辨率特征图的结构信息，对特征的反复提取复用，输出三个尺度特征图。

1-3：搭建多尺度联合预测网络；多尺度联合预测网络对路径聚合增强网络输出的三个尺度特征图进行全卷积，得到检测结果；检测结果包含三层特征分类，每层均包含对声呐目标种类预测结果及预测回归框的中心点横坐标、纵坐标，长、宽、置信度的预测。

步骤2、使用声呐数据集对步骤1所得的注意力感知网络进行训练。

步骤3、使用缩放因子衡量通道的重要性并进行模型剪枝。

根据损失函数L，通过梯度下降策略对各层参数进行更新，对于在卷积层后跟有BN层的卷积核，获取其各个通道当前二维特征的缩放因子矩阵gamma和偏置beta，该缩放因子矩阵gamma表示卷积核各通道的缩放因子γ；根据预设的剪枝稀疏率确定缩放因子γ的阈值，设置掩膜矩阵，将缩放因子小于该阈值的通道的掩膜置为零，将缩放因子大于或等于该阈值的通道的掩膜置为1，得到剪枝模型。

步骤4、使用步骤3得到的剪枝模型对声呐目标进行回归与定位。

作为优选，在注意力感知网络中，第一个跨阶段模块的输入端设置有用于对输入数据进行升维操作的CBM模块。

作为优选，第三个跨阶段模块中增加通道数为2N的旁路卷积，保持卷积前后特征图尺寸不发生变化，计算卷积核沿x方向和y方向的偏移量；N为像素个数。

作为优选，第五个跨阶段模块中，对输入的特征进行步长为1的1×1卷积，以获得q向量、k向量、v向量；再对q、k、v向量沿着通道进行伸展，根据通道量进行划分实现多头机制；之后采用缩放点积的方式来计算注意力；将二维相对位置编码的方式表示的像素位置表达为r向量；对q向量进行缩放后分别与k向量的转置及r向量的转置进行点积操作，对所得两个向量相加后对进行softmax计算，将多头之间的相似度进行归一化处理，得到概率；然后用概率与v向量相乘得到注意力信息。

作为优选，注意力感知网络中，特征图P3和P4直接输出至路径聚合增强网络；特征图P5经过卷积后进入空间金字塔池化，池化后得到的特征进行拼接和卷积后，输出至路径聚合增强网络。

作为优选，路径聚合增强网络生成三个尺度特征图的过程为：特征图P5在经过卷积与最邻近插值上采样后与经过卷积后的特征图P4进行特征拼接，拼接后的特征经过1x1、3x3、1x1、3x3、1x1五次卷积后形成特征图Out4；特征图Out4上采样后，与特征图P3重复上述特征拼接和卷积操作生成特征图Out3；特征图Out3一方面作为第一尺度特征图，另一方面通过下采样再次与特征图Out4进行拼接卷积，得到第二尺度特征图；第二尺度特征图上采样后，与特征图P5重复上述特征拼接和卷积操作，得到第三尺度特征图。

作为优选，步骤2的执行过程具体如下：

2-1.对声呐图像目标训练数据集使用K-means算法聚类获取预定义锚框。

2-2.使用Mosaic增强算法对训练数据集进行增强。

2-3.对注意力感知目标检测网络实施Ranger梯度优化策略，以最小的计算开销实现任务收敛。

作为优选，步骤3中，稀疏正则化后的损失函数L的表达式如下：

其中，(x,y)表示训练的输入和输出，W表示训练权重，

为正常网络损失，g(·)表示缩放因子的正则化，γ为缩放因子，λ_s为惩罚系数。

正常网络损失函数L_CIoU的表达式如下：

L_CIoU＝1-IoU+R_CIoU (9)

其中，IoU为回归预测框与真实框间的交集、并集的比例；B、B^gt分别表示预测回归框与真实框。

R_CIoU是预测回归框与真实框的惩罚项，其表达式如下：

其中，b、b^gt表示B、B^gt的中心位置，l(·)表示欧氏距离，c表示最小包围两回归框的矩形对角距离。

a表示权重负载因子，v表示长宽比相似性，其表达式如下：

其中，w^gt、h^gt分别表示真实框的宽和长，w、h分别表示预测框的宽和长。

作为优选，步骤3中，BN层操作如下：

其中，z表示输出特征；z_in表示输入特征；μ_B表示当前通道的平均值；

表示当前通道的方差；ε为稳定性参数。

作为优选，步骤4中，剪枝模型在使用前经过再训练，以微调恢复模型精度。

本发明具有的有益效果是：

本发明中针对深度学习目标检测算法应用于声呐图像目标检测时，对细长、细小目标的定位回归精度不佳及算法自身参数量大、运算复杂的问题进行改进。通过注意力感知模块获得目标的短距离形变感知与长距离依赖感知，并通过缩放因子对模型进行轻量化处理，提升模型部署于嵌入式设备的可能性。

附图说明

图1为本发明的整体流程图。

图2为本发明中基于注意力感知的声呐图像目标检测网络流程图。

图3(a)为本发明中可变形跨阶段模块的结构图。

图3(b)为本发明中多头自注意力跨阶段模块的结构图。

图4为本发明在训练过程中使用不同梯度优化策略的损失曲线图。

图5为本发明在训练过程中缩放因子变化对比图。

图6(a)和6(b)为本发明对声呐数据的目标检测效果图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，一种基于注意力感知与缩放因子剪枝的声呐目标检测方法，具体包括如下步骤：

步骤1：如图2所示，搭建基于YOLOv4的注意力感知目标检测网络。

基于YOLOv4的注意力感知目标检测网络包括3个主要部分：分别为注意力感知网络、路径聚合增强网络和多尺度联合预测网络。注意力感知网络首先包含一个卷积核大小为3x3，个数为32的CBM模块(Convolution+BatchNormalize+Mish)，通过CBM模块进行升维操作后，将特征图大小变为416x416x32。之后依次通过1、2x、8x、8x、4x的五组跨阶段模块，分别获得大小为208x208x64、104x104x128、52x52x256、26x26x512、13x13x1024大小的特征图。如图3(a)所示，第三个跨阶段模块为可变形跨阶段模块；如图3(b)所示，第五个跨阶段模块为多头自注意力跨阶段模块。可变形跨阶段模块增加通道数为2N的旁路卷积，保持卷积前后特征图尺寸不发生变化，计算卷积核沿x方向和y方向共两个方向的偏移量，取前两个通道，即当前卷积核处理像素点的横坐标偏移和纵坐标偏移。多头自注意力跨阶段模块对输入的特征进行步长为1的1×1卷积，以获得q向量、k向量、v向量(具体为Query、Key、Value向量)。再对q、k、v向量沿着通道进行伸展，使其根据通道量进行划分实现多头机制，每个头对应的一组通道特征图表示当前位置与整体特征图之间的相互关系。之后采用缩放点积的方式来计算注意力。将二维相对位置编码的方式表示的像素位置表达为r向量。对q向量进行缩放后分别与k向量的转置及r向量的转置进行点积操作，对所得两个向量相加后对进行softmax计算，将多头之间的相似度进行归一化处理，得到概率；然后用概率与v向量相乘得到注意力信息，实现像素与像素间的注意力感知。

将第三、四、五个跨阶段模块输出的特征图分别称为P3、P4、P5特征图。其中，P3、P4特征图用作后续特征增强，P5特征图经过1x1、3x3、1x3三次卷积后进入空间金字塔池化(Spatial Pyramid Pooling，SPP)，池化后得到的特征进行拼接和卷积，使得特征图在获得更大感受野的同时，保持了原有形状，此时获得新的特征图P5。

在路径聚合增强网络中，新的特征图P5在经过卷积与最邻近插值上采样后与经过卷积后的P4特征图进行特征拼接，拼接后的特征经过1x1、3x3、1x1、3x3、1x1五次卷积后形成特征图Out4。特征图Out4上采样后，与特征图P3重复上述特征拼接和卷积操作生成特征图Out3。特征图Out3一方面作为第一尺度特征图，输出到DetectionHead，另一方面通过下采样再次与特征图Out4进行拼接卷积，得到第二尺度特征图，输出到DetectionHead。第二尺度特征图上采样后，与新的特征图P5重复上述特征拼接和卷积操作，生成输出到DetectionHead的第三尺度特征图。

多尺度联合预测网络对输入的三个尺度特征图(尺度分别为52x52、26x26、13x13)分别进行全卷积操作(所得结果维度分别为(52,52,21)，(26,26,21)，(13,13,21))。全卷积操作包括3x3卷积层、批归一化处理层、LeakyRelu激活函数层、1x1卷积预测层。其中，1x1卷积预测层的通道数量表示为C_out，计算方式如下：

C_out＝B*(C+5) (1)

其中，B表示在每个尺度上的锚框数量，本实施例中共有9个锚框，每个尺度存在3个锚框；C表示目标种类数，本实施例中共有两个目标种类，分别为线状、柱状目标；数字5对应的五个通道分别为中心点横坐标、纵坐标、长、宽、置信度的预测。

步骤2：使用声呐数据集对步骤1所得的注意力感知网络进行训练。

2-1.对声呐图像目标训练数据集使用K-means算法聚类获取预定义锚框，K-means聚类为现有成熟技术，故在此不做详解，最终获得聚类锚框数量为9，尺寸分别为[15,15]、[11,34]、[13,31]、[15,34]、[16,46]、[136,11]、[415,4]、[343,46]、[416,64]，分别对应小、中、大三个尺度大小的目标进行预测，预定义锚框与训练集检测框平均交并比为0.84。

2-2.使用Mosaic增强算法对训练数据集进行增强，使检测数据里包含丰富的背景、目标，且每个批处理归一化层能够计算4张不同图片的激活信息，减小mini-batch的大小。具体过程为对一个batch中随机取出的四张图片进行翻转、裁剪、平移、颜色空间变化等操作后，沿一个随机的十字线进行裁剪、拼接，重复batch size次后获得增强后的一个batch数据，传给注意力感知目标检测网络训练

步骤2-3：对增强后的注意力感知目标检测网络实施Ranger梯度优化策略，以最小的计算开销，实现任务的更快收敛。Ranger梯度优化策略通过AdamW与LookAhead优化器相结合能够根据方差调整Adam的自适应动量，有效提供自动预热，并通过额外的权重副本，使权重更新更快，训练更加稳定。

AdamW对自适应学习率Adam引入解耦权重衰减，在梯度更新时对权重指数衰减，实现惩罚项与学习率之间的解耦。对于AdamW的梯度优化流程如下：

θ_t←θ_t-1-γλθ_t-1 (3)

m_t←β₁m_t-1+(1-β₁)g_t (4)

其中，g_t表示损失函数f(θ)的梯度优化结果；t表示当前迭代轮数；θ_t表示在学习率γ、权重衰减因子λ的约束下更新的参数θ；m_t表示在惩罚因子β₁的约束下更新的第一动量m；v_t表示在惩罚因子β₂的约束下更新的第二动量v；

和

分别为第一动量m和第二动量v通过平均梯度方向修正得到更新值。

LookAhead优化器会维护两份模型参数，其中每次更新k步的权重称为“快权重”，每次更新一步权重称为“慢权重”。通过AdamW优化器对权重参数更新后，在权重空间内线性插值，对“慢权重”进行更新，“慢权重”拥有自己的学习率。权重每当参数经过k步更新，回望一次，利用指数移动平均算法对梯度下降方向进行约束，借助于“慢权重”的更新对下降速度快的“快权重”回拉，使其更容易跃出局部最优点的谷底。

步骤3：使用缩放因子衡量通道的重要性，并据此进行模型剪枝

基于缩放因子的剪枝压缩无需对现有的CNN架构引入任何更改，通过L1正则化将BN缩放因子推向零，由此识别出无用的通道(或神经元)。

对于批归一化处理层而言，其每个缩放因子值对应当前批次输出同一通道层面的相应激活特征，当前通道激活特征不明显即缩放因子接近于零时表示通道的冗余性。通过缩放因子的排序，对当前卷积层实施通道级别的裁剪，缩放因子在训练过程中不断对权重进行正则归一化，获得稀疏解。

其训练过程中的稀疏正则化后损失函数L的表达式如下：

其中，(x,y)表示训练的输入和输出，W表示训练权重，

为正常网络损失，g(·)表示缩放因子的正则化，使用L₁正则化，γ为缩放因子，λ_s为惩罚系数。

正常网络损失函数L_CIoU的表达式如式(9)所示：

L_CIoU＝1-IoU+R_CIoU (9)

其中，IoU为回归预测框与真实框间的交集、并集的比例；B、B^gt分别表示预测回归框与真实框；R_CIoU是预测回归框与真实框的惩罚项，其表达式如式(11)所示。

其中，b、b^gt表示B、B^gt的中心位置，l(·)表示欧氏距离，c表示最小包围两回归框的矩形对角距离，a表示权重负载因子，v表示长宽比相似性，计算公式如下：

根据损失函数L，通过梯度下降策略对各层参数进行更新，对于在卷积层后跟有BN层的卷积核，获取其各个通道当前二维特征的缩放因子矩阵gamma和偏置beta，该缩放因子矩阵gamma表示卷积核各通道的缩放因子γ，对网络层中所有含有缩放因子的卷积核，根据缩放因子大小进行排序。根据预设的剪枝稀疏率确定缩放因子γ的阈值，设置掩膜矩阵，将缩放因子小于该阈值的通道的掩膜置为零，将缩放因子大于或等于该阈值的通道的掩膜置为1，得到剪枝模型。其中BN层操作如下：

表示当前通道的方差；ε为稳定性参数；gamma、beta表示可以学习到的缩放因子矩阵和偏置。

剪枝过程中缩放因子γ的分布变化如图5所示，图5中a部分表示惩罚因子为0时的缩放因子系数；图5中b部分表示惩罚因子为1e^-4时的缩放因子系数，各通道具有明显区分度，且大多数通道对模型的贡献度小，进行权重映射时，小的缩放因子γ映射经过卷积后的通道很难激活，可以将其作为冗余通道，使用掩膜矩阵将其置0。

在本实施例中，针对解决模型剪枝后精度丢失的问题，为检测模型精度，本实施例采用模型训练后剪枝，即先对基于注意力感知的声呐图像目标检测模型进行训练，训练后针对不同的剪枝稀疏率，对不同网络层中的滤波器进行剪枝，为保留注意力感知模块的性能，模型主要完成对普通卷积进行剪枝操作，剪枝完成获取滤波器掩码，根据掩码将冗余滤波器的参数置零。

步骤4：剪枝模型对于声呐目标的回归与定位。

对步骤3得到的剪枝模型进行再训练，微调训练模型恢复模型精度；之后，使用微调后所得模型进行声呐目标的检测。

由表1可以看出，对注意力感知模型剪枝30％后，能够与未剪枝的注意力感知模型精度相同且检测速度更快，经过70％剪枝率的结构化剪枝后，在交并比阈值为0.5的粗粒度检测中AP值达0.884，在交并比为0.75的细粒度检测中AP值达到0.694，模型总参数量减少33.66M，总计算量减少15.61G，将检测速度提升至44.7FPS。

表1模型性能指标量化

表中input表示输出图像尺寸，mAP、FPS、Params、Flops等常用指标定义如下：

mAP作为目标检测模型常用的性能指标，可以客观的表示模型进行多类别下预测的综合表现，其计算公式定义如下：

其中，AP_i表示每个类别的平均精准度，m表示检测的类别数。

Flops表示浮点运算数，用来衡量模型实际运算量。以常见卷积操作为例，单层卷积浮点运算量表示如下：

Flops＝2HWC_inK²C_out+HWC_out (17)

其中C_in表示输出特征图通道数量，C_out表示输出特征图通道数量，则当前卷积操作包括C_out个C_in×K×K个卷积核，当前输入表示为H×W×C_in。

参数量表示模型所含参数数量，同样以卷积操作为例，单次卷积所需参数量表示如下：

Params＝K²C_inC_out+C_out (18)

其中等式右边第一项表示C_out个C_in×K×K个卷积核的参数量，第二项表示偏置的参数量。

由表1可以看出，对注意力感知模型剪枝30％后，能够与未剪枝的注意力感知模型精度相同在交并比阈值为0.5的粗粒度检测中AP值达0.983，在交并比为0.75的细粒度检测中AP值达到0.773且检测速度更快达到27.3FPS，模型参数量减少16M，浮点运算量减少7.18G。经过70％剪枝率的结构化剪枝后，在交并比阈值为0.5的粗粒度检测中AP值达0.884，在交并比为0.75的细粒度检测中AP值达到0.694，模型总参数量减少33.66M，总计算量减少15.61G，将检测速度提升至44.7FPS。

本实施例最终检测结果如图6(a)和6(b)所示。可以看出，在实现轻量化的同时，本实施例所得模型依然能够精准识别出线状和柱状目标。

Claims

步骤1、搭建注意力感知目标检测网络，注意力感知目标检测网络包括注意力感知网络、路径聚合增强网络和多尺度联合预测网络；

1-1.搭建注意力感知网络；注意力感知网络包括依次相连的五个跨阶段模块；其中，第三个跨阶段模块为可变形跨阶段模块；第五个跨阶段模块为多头自注意力跨阶段模块；将第三、四、五个跨阶段模块输出的特征图分别称为特征图P3、P4、P5，用以向后输出；

1-2.搭建路径聚合增强网络；路径聚合增强网络对注意力感知网络中输出的三层特征图自下而上不断进行上采样、拼接操作融合低分辨率特征图的语义信息，自上而下进行下采样、拼接操作融合高分辨率特征图的结构信息，对特征的反复提取复用，输出三个尺度特征图；

1-3：搭建多尺度联合预测网络；多尺度联合预测网络对路径聚合增强网络输出的三个尺度特征图进行全卷积，得到检测结果；检测结果包含三层特征分类，每层均包含对声呐目标种类预测结果及预测回归框的中心点横坐标、纵坐标，长、宽、置信度的预测；

步骤2、使用声呐数据集对步骤1所得的注意力感知网络进行训练；

步骤3、使用缩放因子衡量通道的重要性并进行模型剪枝；

根据损失函数L，通过梯度下降策略对各层参数进行更新，对于在卷积层后跟有BN层的卷积核，获取其各个通道当前二维特征的缩放因子矩阵gamma和偏置beta，该缩放因子矩阵gamma表示卷积核各通道的缩放因子γ；根据预设的剪枝稀疏率确定缩放因子γ的阈值，设置掩膜矩阵，将缩放因子小于该阈值的通道的掩膜置为零，将缩放因子大于或等于该阈值的通道的掩膜置为1，得到剪枝模型；

2.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：在注意力感知网络中，第一个跨阶段模块的输入端设置有用于对输入数据进行升维操作的CBM模块。

3.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：第三个跨阶段模块中增加通道数为2N的旁路卷积，保持卷积前后特征图尺寸不发生变化，计算卷积核沿x方向和y方向的偏移量；N为像素个数。

4.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：第五个跨阶段模块中，对输入的特征进行步长为1的1×1卷积，以获得q向量、k向量、v向量；再对q、k、v向量沿着通道进行伸展，根据通道量进行划分实现多头机制；之后采用缩放点积的方式来计算注意力；将二维相对位置编码的方式表示的像素位置表达为r向量；对q向量进行缩放后分别与k向量的转置及r向量的转置进行点积操作，对所得两个向量相加后对进行softmax计算，将多头之间的相似度进行归一化处理，得到概率；然后用概率与v向量相乘得到注意力信息。

5.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：注意力感知网络中，特征图P3和P4直接输出至路径聚合增强网络；特征图P5经过卷积后进入空间金字塔池化，池化后得到的特征进行拼接和卷积后，输出至路径聚合增强网络。

6.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：路径聚合增强网络生成三个尺度特征图的过程为：特征图P5在经过卷积与最邻近插值上采样后与经过卷积后的特征图P4进行特征拼接，拼接后的特征经过1x1、3x3、1x1、3x3、1x1五次卷积后形成特征图Out4；特征图Out4上采样后，与特征图P3重复上述特征拼接和卷积操作生成特征图Out3；特征图Out3一方面作为第一尺度特征图，另一方面通过下采样再次与特征图Out4进行拼接卷积，得到第二尺度特征图；第二尺度特征图上采样后，与特征图P5重复上述特征拼接和卷积操作，得到第三尺度特征图。

7.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：步骤2的执行过程具体如下：

2-1.对声呐图像目标训练数据集使用K-means算法聚类获取预定义锚框；

2-2.使用Mosaic增强算法对训练数据集进行增强；

8.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法，其特征在于：步骤3中，稀疏正则化后的损失函数L的表达式如下：