CN112861919A

CN112861919A - 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法

Info

Publication number: CN112861919A
Application number: CN202110051819.0A
Authority: CN
Inventors: 杨惠珍; 翟羽佳; 李源
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-28

Abstract

本发明公开了一种基于改进YOLOv3‑tiny的水下声纳图像目标检测方法，首先采用基本图形变换增强声纳图像数据，获得足够数量的声纳图像数据集；然后构建一种融合浅层次特征与高层次特征的YOLOv3‑tiny网络的改进模型，通过多尺度特征融合进行检测；在此基础上，根据YOLOv3‑tiny预测层的特征图优化网络结构，删去特征表达能力差的预测分支，提高了改进YOLOv3‑tiny的检测速度，保证了检测的实时性；最终对所有预测的目标类别和位置结果采用非极大值抑制方法，输出置信度最大的预测的目标类别和位置。本发明方法准确率高，减少了目标的漏检。

Description

一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种水下声纳图像目标检测方法。

背景技术

由于水下环境的特殊性，电磁波在海底传播的损失远大于陆上，传统光学检测手段在水下的距离有限。而声波可以在深海远距离传播，声学检测手段具有光学检测手段不可比拟的优越性。成像声纳通过收集物体表面的反射回波进行实时成像，可以获得更加完整、丰富、详细的水下数据，是水下环境感知的重要工具。

目前，对于水下目标检测的研究方法可以分成两大类：一类是传统的目标检测算法，这一类算法多数是改进应用于非水下图像的传统图像处理算法；另一类算法是基于机器学习的目标检测算法，其中基于深度学习的算法是应用效果最好、泛用性最广的。基于深度学习的目标检测方法可以分为三个大类，第一类是基于候选区域的目标检测算法，例如R-CNN、Fast R-CNN、Faster R-CNN、R-FCN等；第二类是基于回归的目标检测算法，例如YOLO、SSD、KittiBox等；第三类是基于搜索的目标检测算法，例如基于强化学习的算法和基于视觉注意的AttentionNet。YOLO算法属于典型的One- Stage算法，可以在一个stage直接产生物体的类别概率和位置坐标，流程较为简单，在检测速度上具有比较大的优势。本发明采用的YOLOv3-tiny算法相比原版的YOLO 算法，在精确率损失不大的情况下，具有更简单的网络结构和更高的实时性，很适合用于水下目标检测。

但是在现有水下目标检测技术中，存在声纳图像质量差、数量少、没有公开数据集，导致检测算法准确率不高、应用深度学习数据不足、受到噪声干扰的错检漏检等问题。

发明内容

为了克服现有技术的不足，本发明提供了一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法，首先采用基本图形变换增强声纳图像数据，获得足够数量的声纳图像数据集；然后构建一种融合浅层次特征与高层次特征的YOLOv3-tiny网络的改进模型，通过多尺度特征融合进行检测；在此基础上，根据YOLOv3-tiny预测层的特征图优化网络结构，删去特征表达能力差的预测分支，提高了改进YOLOv3-tiny的检测速度，保证了检测的实时性；最终对所有预测的目标类别和位置结果采用非极大值抑制方法，输出置信度最大的预测的目标类别和位置。本发明方法准确率高，减少了目标的漏检。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：通过二维成像声纳获取多幅原生声纳图像；

步骤2：对步骤1获取的原生声纳图像采用图形变换方法随机进行变换，变换后的图像和原生声纳图像数据共同构成声纳图像数据集；将声纳图像数据集的所有图像尺寸变换为512×224；将声纳图像数据集划分为声纳图像训练集和声纳图像测试集，声纳图像训练集中图像数量大于声纳图像测试集中图像数量；

步骤3：对声纳图像数据集图像中目标的类别和位置进行标注；

如果声纳图像数据集图像中不存在目标，则该图像定义为负样本；

如果声纳图像数据集图像中存在目标，则该图像定义为正样本，同时对目标标注类别；用边界框标记目标的位置，边界框为目标最小外接矩形，目标位置表示为边界框的四个顶点的坐标：X_max，X_min，Y_max，Y_min，归一化如下：

x＝(X_max+X_min)/2*S_x

y＝(Y_max+Y_min)/2*S_y

w＝(X_max-X_min)/S_x

h＝(Y_max-Y_min)/S_y (1)

其中S_x为目标所在图像的长度，S_y为目标所在图像的宽度；(x,y)为归一化的边界框中心坐标，(w,h)为归一化的边界框宽度和高度；

步骤4：采用多尺度特征融合策略构建改进YOLOv3-tiny网络；

步骤4-1：融合YOLOv3-tiny网络第8层和第18层的特征，并在YOLOv3-tiny网络已有两个预测层的基础上新增第3个预测层；

从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128；

从YOLOv3-tiny网络第18层引出的特征图维度为32×14×256，经过一个 1×1×128的卷积层和上采样层之后得到64×28×128的特征图，将得到的64× 28×128的特征图与第8层引出的特征图进行同维度拼接，再经过一个3×3×128和一个1×1×18的卷积层，最终输出维度为64×28×18的特征图，即为新增的第3个预测层；

此时，YOLOv3-tiny网络的3个预测层的特征图分尺寸分别为16×7、32×14和 64×28；

改进YOLOv3-tiny网络的特征图尺寸为32×14的预测层是将YOLOv3-tiny网络的第15层的特征图引出，通过一个1×1×128的卷积层与一个上采样层之后与第10层的特征图进行同维度拼接，再经过一个3×3×256和一个1×1×18的卷积层，最终输出维度为32×14×18的预测层；

步骤4-2：删除特征图尺寸为16×7的预测层；得到改进YOLOv3-tiny网络；

步骤5：使用声纳图像训练集对改进YOLOv3-tiny网络进行训练，得到最终训练完成的改进YOLOv3-tiny网络模型；

步骤6：使用最终训练完成的改进YOLOv3-tiny网络模型预测目标的位置坐标和置信度；

步骤6-1：采用K-means++聚类方法，对声纳图像数据集中图像的边界框进行聚类，得到22×21、34×32、40×39、42×43、46×47、57×54六种尺寸的先验框；

步骤6-2：将22×21、34×32、40×39三种尺寸的先验框分配给特征图尺寸为 32×14的预测层；将42×43、46×47、57×54三种尺寸的先验框分配给特征图尺寸为64×28的预测层；

步骤6-3：将尺寸为32×14的预测层特征图划分成32×14个网格单元，根据目标所在边界框中心坐标，将每个目标分配到对应位置的网格单元，该对应位置的网格单元使用步骤6-2给特征图尺寸为32×14的预测层分配的先验框预测目标的位置坐标和置信度；

将尺寸为64×28的预测层特征图划分成64×28个网格单元，根据目标所在边界框中心坐标，将每个目标分配到对应位置的网格单元，该对应位置的网格单元使用步骤6-2给特征图尺寸为64×28的预测层分配的先验框预测目标的位置坐标和置信度；

预测目标的位置坐标和置信度的计算公式如下：

其中，C_x和C_y是网格单元的左上角坐标，改进YOLOv3-tiny网络中每个网格单元在特征图中的宽和高都为1；P_w和P_h是先验框在预测层特征图中的映射宽度和高度，(t_x， t_y，t_w，t_h，t_o)表示YOLOv3-tiny的回归预测输出；σ_sigmoid表示sigmoid激活函数， σ_logistic表示logistic回归；e表示自然指数；(b_x,b_y)表示预测结果框的中心坐标偏移值； (b_w,b_h)表示归一化后预测结果框的宽度和高度；c表示置信度；通过式(2)对YOLOv3- tiny的回归预测输出进行解码，获得预测结果框的(b_x,b_y,b_w,b_h,c)；

步骤6-4：对所有预测的目标位置坐标和置信度结果采用非极大值抑制方法，输出置信度最大的预测结果。

优选地，所述步骤2的图形变换方法包括：旋转、镜像、缩放、随机亮度、随机裁剪、弹性形变。

优选地，所述步骤3使用LabelImg标注工具进行标注。

优选地，所述交并比计算如下：

假设边界框为G，先验框为A，交并比IOU计算公式为：

其中，S_A表示先验框的面积，S_G表示边界框的面积，S_A∩G表示S_A与S_G的重叠部分面积， IOU(A,G)∈[0,1]。

本发明的有益效果如下：

本发明方法通过多尺度特征融合进行多尺度检测，提高了平均精确率，减少了目标的漏检；在此基础上，根据YOLOv3-tiny预测层的特征图优化网络结构，删去特征表达能力差的预测分支，提高了改进YOLOv3-tiny模型的检测速度，保证了检测的实时性。

附图说明

图1为本发明方法的流程图。

图2为本发明实施例采用的二维成像声纳。

图3为本发明实施例获取声纳图像的实验情况。

图4为本发明实施例采用的原生声纳图像以及六种基本图形变换后的图像，其中，图(a)为原生声纳图像，(b)为旋转，(c)为镜像，(d)为缩放，(e)为随机亮度，(f)为随机裁剪，(g)为弹性形变。

图5为本发明实施例对声纳图像标注示意图。

图6为本发明方法YOLOv3-tiny模型的主干网络部分结构图。

图7为本发明方法多尺度特征融合示意图。

图8为本发明方法3个预测层提取到的不同维度可视化特征图，其中，图(a)16×7，图(b)32×14，图(c)64×28。

图9为本发明方法采用的改进YOLOv3-tiny网络结构图。

图10为本发明方法的改进YOLOv3-tiny模型训练过程损失图，其中，图(a)为总体损失曲线，图(b)为平均损失曲线。

图11为本发明方法对物体位置坐标预测示意图。

图12为本发明方法使用改进YOLOv3-tiny模型检测结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了解决现有水下目标检测技术中，声纳图像质量差、数量少、没有公开数据集，导致传统检测算法准确率不高、应用深度学习数据不足、受到噪声干扰的错检等问题，本发明提供一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法，如图1所述，具体步骤如下：

步骤1：通过二维成像声纳获取多幅原生声纳图像；

x＝(X_max+X_min)/2*S_x

y＝(Y_max+Y_min)/2*S_y

w＝(X_max-X_min)/S_x

h＝(Y_max-Y_min)/S_y (1)

步骤4：采用多尺度特征融合策略构建改进YOLOv3-tiny网络；

从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128；

步骤6-2：将22×21、34×32、40×39三种尺寸的先验框分配给特征图尺寸为32×14的预测层；将42×43、46×47、57×54三种尺寸的先验框分配给特征图尺寸为64×28的预测层；

预测目标的位置坐标和置信度的计算公式如下：

具体实施例：

本实施例采用的Blueview M900/2250-130成像声纳是Blueview公司的二维图像声纳，又叫做双频声学照相机，如图2所示。可以获取实时、高分辨率的类视频声纳图像，具有高刷新率、高频率、体积小等特点，在视角、范围、深度等方面有多种选择。M系列二维图像声纳最大视角可以达到130度，工作深度4000米，额外搭载了一个量程100米的声纳头，可以在100米和10米两个探测范围之间切换，本发明采用的是10米的探测范围。网络模型的训练和检测采用的计算机配置为CPU：Intel(R) Core(TM)i7-7700HQ，主频：2.8GHz，GPU：NVDIA GeForce GTX 1060，显存：6G(显存GDDR5，位宽192bit)操作系统：Windows10。

1、通过二维成像声纳获取原生声纳图像。

声纳图像获取的实验场地是一个消声水池，尺寸为长宽高：20*8*7米，实验场地的水面、四壁都采用消声尖劈覆盖，用来消除声波在这些位置的反射回波，防止这些回波在声纳图像中产生干扰。原生声纳图像的获取方式如图3所示。

2、采用基本图形变换增强声纳图像数据。

基本图形变换的方法具体是以下6种：旋转、镜像、缩放、随机亮度、随机裁剪、弹性形变，这些变换方法采用Augmentor库实现。Augmentor是用于机器学习的Python 图像增强库，独立于平台和框架，灵活方便，采用基于管道的处理方式，允许将定义的各种增强方法拼凑在一起，随机地作用于图像上。对原生声纳图像使用六种增强方法的效果如图4所示，图(a)为原生声纳图像，(b)为旋转，(c)为镜像，(d)为缩放，(e)为随机亮度，(f)为随机裁剪，(g)为弹性形变。

经过以上6种方法增强的图像数据副本与原生声纳图像一起构成本发明采用的声纳图像数据集。使用增强后的数据集进行训练，具有以下优点：①增强后的副本数据对卷积神经网络来说具有不变性的性质，即具有同等的训练效果；②可供深度学习网络学习的数据量增加，发挥深层网络大数据优势；③提高数据质量，防止过拟合，丰富样本多样性。

3、使用LabelImg标注工具对声纳图像数据集进行标注。

标注即：用边界框(bounding box)标记出目标的类别和所在的位置坐标，如图5，目标的类别是“ball”，位置是矩形框四个角的位置坐标。再进行归一化。

4、输入的声纳图像由主干网络提取出不同层次、不同维度的特征。

YOLOv3-tiny主干网络(BackboneNet)主要由不同的卷积层(Convolution)和最大池化层(MaxPooling)的组合堆叠构成，如图6所示，图中“Conv”表示卷积层， “Max”表示最大池化层。

设输入图像尺寸为m×n，卷积核尺寸为f×f，填充(padding)为p，步长(stride)为s，则输出特征图尺寸为：

[(m+2p-f)/s+1]×[(n+2p-f)/s+1] (6)

以图6中的第二层卷积层(Conv 16 3x3/1)举例，它表示这一层有16个卷积核 (也称为滤波器，filter)，表示这一层可以提取到特征的维度是16，卷积核尺寸为3×3，步长为1，填充为1，则输入图像(512×224)经过第二个卷积层得到输出尺寸： 512×224。

设最大池化层维度为f×f，步长为s，则输出特征图维度同式(6)。

以图6中第三层最大池化层(Max 2x2/2)举例，滤波器维度为2×2，填充为1，步长为2，则输出尺寸：256×112，最大池化层的作用就是提取更具有代表性的特征，也就是保留特征的最大值。

5、采用多尺度特征融合策略对YOLOv3-tiny网络进行改进。

主干网络提取出了不同层次、不同维度的特征，越高层次的特征图感受野大，颗粒度越大，特征图分辨率低，对大目标特征的表达能力较强；越低层次的特征图感受野小，颗粒度越小，特征图分辨率高，对小目标特征的表达能力较强，在深度学习中把这些不同的特征图融合在一起对检测和分割都很有效果，这就是多尺度特征融合。声纳图像视野范围比较大，水下目标在声纳图像中占有像素尺寸比较小，因此，需要融合更浅层次的细颗粒特征，来提高声纳图像中目标的检测精确率。图7展示了三个不同尺寸的特征融合。

从三个YOLO层提取到的特征图如图8所示，尺寸分别是：图(a)16×7，图(b) 32×14，图(c)64×28。对比三个特征图不难看出，(a)的尺寸小，提取到的特征少，成像也较模糊，特征表达能力差，而(b)、(c)提取到的特征较多、更清晰，特征表达能力强，且可以从其中看出明显的目标轮廓。由于新增的第三个YOLO层以及相关的预测分支，给网络增加了一定的运算量和复杂度，每检测2000张图片，耗时从21秒增加到了27秒，实时性受到了很大影响。因此，从网络中删去特征表达能力差的16×7预测分支，在不影响检测精确率的情况下，减少网络的运算量，可以提升检测检测速度。

采用步骤4的方法最终得到了本发明提出的改进YOLOv3-tiny网络结构如图9所示。

6、使用声纳图像数据集训练网络。

传统YOLOv3-tiny网络都会对输入图像使用resize函数，统一输入图像尺寸，这样做可以使得网络输入不同尺寸的图像进行训练。但是，步骤2、3制作的声纳图像数据集尺寸大小是统一的，而且执行resize函数之后，尺寸较宽的声纳图像会损失较多的横向特征信息，因此，需要一个合适的输入图像尺寸来保留这些信息。YOLOv3的网络结构规定输入图像尺寸为32的整数倍，而原生声纳图像的尺寸为1137×474，因此，保持图像纵横比0.417，将输入图像尺寸修改为512×224。然后将步骤3制作的声纳图像数据集一共7723张图像，按照7：3分成了训练集和测试集，训练集一共5406 张图像，测试集一共2160张图像，并设置批处理大小为128，迭代次数为25000，学习率为0.001，开始训练。

训练结束后，为了展现直观的损失曲线，剔除了前500次损失较大而下降较急的数据，损失数据可视化如图10所示，图10的(a)为总体损失曲线，(b)为平均损失曲线，从图中可以看出，随着训练迭代次数的增多，损失逐渐收敛至一个较低的稳定水平，证明了改进网络结构的收敛性。

7、预测位置坐标和置信度。

由第5步最后得到了32×14和64×28两种尺寸的特征图，它们分别被划分成了 32×14和64×28个网格单元，改进YOLOv3-tiny网络根据物体的中心点的位置，给每一个物体分配一个网格单元，物体的中心点位于哪个网格单元，哪个网格单元就负责用先验框预测这个物体的位置坐标和置信度，与目标形状更相似的先验框会获得更大的交并比，而交并比是计算置信度的指标之一，所以先验框的尺寸很大程度上影响了检测的效果。

7.1：采用K-means++聚类对声纳图像数据集的标注框进行聚类，重新设计先验框的尺寸。

YOLOv3-tiny网络模型的预测是基于预设的一组或多组先验框，这些先验框的形状是基于COCO数据集使用K-means++聚类算法对标注框进行量化聚类形成的，对于本发明研究的声纳图像数据集不太适用。

传统的K-means聚类方法因使用欧几里德距离函数，采用小的边界框会比采用大的边界框产生更大的误差，使得聚类效果受边界框尺寸影响很大。为了削弱这样的影响，使模型做出更合理的预测，改进YOLOv3-tiny网络定义了新的距离公式取代欧几里德距离函数，如式(7)所示：

D(box,cluster)＝1-IOU(box,cluster) (7)

其中，box表示边界框，cluster表示聚类中心，这样保证距离D越小，交并比越大。

采用K-means++聚类具体计算过程如下：

(1)K-means++聚类首先生成包含边界框位置和类别的txt文件，位置由边界框中心点(x_i,y_i)和宽高(w_i,h_i)表示，N表示标注的边界框个数，i∈{1,2,...,N}。

(2)给定k个聚类中心(W_j,H_j)，j∈{1,2,...,k}，(W_j,H_j)表示聚类目标的边界框的宽度和高度。

(3)使标注的边界框中心与聚类的中心重合，即：将距离聚类中心最近的边界框分配给这一个聚类中心。计算每个边界框和每个聚类中心点的距离D：

D(box,central)＝1-IOU[(x_i,y_i,w_i,h_i),(x_i,y_i,W_j,H_j)] (8)

(4)N个标注的边界框分配完毕后，用以下公式重新求聚类中心：

其中，N_j表示第j个聚类中心被分配的标注边界框个数。也就是计算每一个聚类中所有边界框宽度和高度的平均值。最后重复(3)和(4)，直至聚类中心(W_j,H_j)的变化量达到一个很小的值。

由于改进的YOLOv3-tiny网络模型有两个预测层，每个预测层上计算3个先验框，因此需要设定6个聚类。采用K-means++聚类方法，对声纳图像训练集图片里的标注边界框进行聚类，得到了22×21、34×32、40×39、42×43、46×47、57×54六种先验框。

7.2：采用重新设计的六种不同尺寸先验框，预测位置坐标和置信度。

在给改进YOLOv3-tiny网络预测层分配先验框的选择上，维度为32×14的特征图感受野较大，因此分配的是尺寸较大的三个先验框，而维度为64×28的特征图感受野较小，分配的是尺寸较小的三个先验框。

由于本实施例只涉及一类物体的检测，所以每个网格单元只有1个类别的预测，每个YOLO预测层输出张量维度为3×(4+1+1)＝18，分别表示每个预测层的3个先验框，4个位置预测值，1个预测框内有无物体(0或1)，1个预测置信度(confidence)。

图11为改进YOLOv3-tiny网络对物体位置坐标的预测示意图。

7.3：对所有预测结果采用非极大值抑制，输出置信度最大的预测结果。

非极大值抑制(NMS)具体步骤如下：

(1)对于第7.2步得到的一系列预测框集合，按照同一类目标置信度概率从小到大排序，假设有6个预测框：A、B、C、D、E、F、G。

(2)从最大概率的预测框G开始，分别判断其余框与最大概率框的交并比是否大于某个阈值。

(3)假设B和E与G的IOU超过阈值，则舍弃B和E，并标记保留G。

(4)从剩下的框中选择概率最大的F，然后判断A与F的交并比大于阈值，则舍弃A，并标记保留F。

循环往复，找到所有保留下来的预测框，作为非极大值抑制的输出，即是整个网络的预测输出。

本发明的水下目标检测算法评价指标采用平均精确率(Average Precision，AP)，首先需要计算精确率(Precision)和召回率(Recall)，计算方式如下：

其中，TP(True Positive)表示预测正确的正样本，即与Ground Truth的交并比大于阈值的预测框数量；FP(False Positive)表示预测错误的正样本，即与Ground Truth的交并比小于阈值的预测框数量；FN(False Negative)表示分类错误的正样本，即在没有目标的图像中检测到了目标。这里的交并比阈值一般取0.5。

平均精确率计算方式如下：

(1)将每一个预测框的置信度，按照从大到小排列，组成一个序列，并按照大于阈值标记为TP，小于阈值标记为FP，标记序列。

(2)按照顺序，采用式(11)和式(12)对序列中的每一个置信度都计算到目前为止的精确率和召回率，得到一个精确率序列和一个召回率序列。

(3)最后将召回率序列采用插值法，按照(0，0.1，0.2，...，1)共11个插值点进行分类，取每一个分类召回率之中对应精确率最高的值作为这个分类的代表，将11个代表的精确率求平均值得到平均精确率，也就是PR曲线下的面积。

将改进的YOLOv3-tiny网络模型应用在声纳图像测试集上进行检测，检测结果如表1和图12所示：

表1

从上表可以看出：

(1)改进模型的平均精确率从81.81％提高到了90.49％，提高了8.68％。检测结果如图12所示，检测到的物体分类为“ball”，“1.00”表示检测到的物体置信度为1。

(2)改进模型的负样本检测到的目标(detections count)数量由1691个提升到了1866个，说明改进模型在漏检问题上有了一定改善。

(3)改进模型在一段声纳视频中的平均FPS(Frames Per Second，FPS)为64，而未改进模型的FPS约为47.5，而原版YOLOv3-tiny在视频中的FPS约为64.5，可以看出改进模型的检测速度得到保持，满速实时性的要求。

Claims

1.一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法，其特征在于，包括以下步骤：

步骤1：通过二维成像声纳获取多幅原生声纳图像；

x＝(X_max+X_min)/2*S_x

y＝(Y_max+Y_min)/2*S_y

w＝(X_max-X_min)/S_x

h＝(Y_max-Y_min)/S_y (1)

其中S_x为目标所在图像的长度，S_y为目标所在图像的宽度；(x，y)为归一化的边界框中心坐标，(w，h)为归一化的边界框宽度和高度；

步骤4：采用多尺度特征融合策略构建改进YOLOv3-tiny网络；

从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128；

从YOLOv3-tiny网络第18层引出的特征图维度为32×14×256，经过一个1×1×128的卷积层和上采样层之后得到64×28×128的特征图，将得到的64×28×128的特征图与第8层引出的特征图进行同维度拼接，再经过一个3×3×128和一个1×1×18的卷积层，最终输出维度为64×28×18的特征图，即为新增的第3个预测层；

此时，YOLOv3-tiny网络的3个预测层的特征图分尺寸分别为16×7、32×14和64×28；

预测目标的位置坐标和置信度的计算公式如下：

其中，C_x和C_y是网格单元的左上角坐标，改进YOLOv3-tiny网络中每个网格单元在特征图中的宽和高都为1；P_w和P_h是先验框在预测层特征图中的映射宽度和高度，(t_x，t_y，t_w，t_h，t_o)表示YOLOv3-tiny的回归预测输出；σ_sigmoid表示sigmoid激活函数，σ_logistic表示logistic回归；e表示自然指数；(b_x,b_y)表示预测结果框的中心坐标偏移值；(b_w,b_h)表示归一化后预测结果框的宽度和高度；c表示置信度；通过式(2)对YOLOv3-tiny的回归预测输出进行解码，获得预测结果框的(b_x,b_y,b_w,b_h,c)；

2.根据权利要求1所述的一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法，其特征在于，所述步骤2的图形变换方法包括：旋转、镜像、缩放、随机亮度、随机裁剪、弹性形变。

3.根据权利要求1所述的一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法，其特征在于，所述步骤3使用LabelImg标注工具进行标注。

4.根据权利要求1所述的一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法，其特征在于，所述交并比计算如下：

假设边界框为G，先验框为A，交并比IOU计算公式为：

其中，S_A表示先验框的面积，S_G表示边界框的面积，S_A∩G表示S_A与S_G的重叠部分面积，IOU(A,G)∈[0,1]。