CN111368633A

CN111368633A - 一种基于auv的侧扫声呐图像识别方法

Info

Publication number: CN111368633A
Application number: CN202010058612.1A
Authority: CN
Inventors: 何波; 于菲; 李凯歌; 王淇; 武玫含
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-01-18
Filing date: 2020-01-18
Publication date: 2020-07-03

Abstract

本发明公开了一种基于AUV的侧扫声呐图像识别方法，通过搭载在AUV上的侧扫声呐图像识别系统采集并获取声呐原始数据流；对所获声呐原始数据流进行实时解析，然后将解析后的数据进行声呐图像的拼接，并对其进行矫正；将实时解析后的图像输入到提前训练好的深度网络模型之中，实时进行识别，并且在识别的过程中计算目标点的经纬度；将识别的结果和目标点的经纬度转换成相应的系统指令，反馈给AUV，AUV对于识别的结果进行相应的决策。本发明解决了现有技术存在的实现过程繁琐、实时性差，识别精度低等问题，提高了AUV作业效率，使处于测绘区域的AUV对选择继续探索未知区域的海底环境能力增强，并能够做出智能化的决策，具有较高的实际应用价值。

Description

一种基于AUV的侧扫声呐图像识别方法

技术领域

本发明涉及一种基于AUV的侧扫声呐图像识别方法，属于侧扫声呐图像识别技术领域。

背景技术

声学成像传感器能提供海底回波信号形成的高分辨率声图像，侧扫声呐是海底地形地貌探测的主要传感器之一，近年来，声呐探测技术的发展极大的拓展了人类对海洋的认知，其中高分辨率侧扫声呐在海底勘探、地质分类、水下目标探测等方面得到重要应用。

基于侧扫声呐图像的水下目标探测与识别方法的一般过程可分为声呐图像的预处理、特征提取和目标识别，其中高效、精准的识别算法可确保目标识别的效率和精度。近年来深度学习在计算机视觉应用中高速发展，侧扫声呐图像的识别技术得到了极大的发展，识别结果给AUV的决策带来了极大的保障。因此，基于AUV的侧扫声呐图像识别系统具有重要研究意义，其中，快速、高效的海底目标识别技术使得搭载侧扫声呐的AUV具有更高的安全性、智能型和更低的维护成本。

现有技术中，对于AUV的控制一般都是在岸机端，通过按键或手柄控制AUV的活动。然而，在岸上控制AUV具有较大的缺陷：1、水下环境使得声学和无线电通信变得复杂，一些在岸上给设备发送命令的控制方式很难实现；2、AUV在接收岸上的命令信号时可能会出现延时或偏差等错误，导致AUV不能实时的反馈真实的海底地貌情况；3、要想勘察真实的海底地貌，需要搭载在AUV上的侧扫声呐进行带缆操作，人员根据岸基上侧扫声呐的扫描结果再决定AUV的下一步路线，因此只能在水深较浅的海域进行试验，对深海的勘测则存在很大的限制。

对于实际要求较高的实践性工作，水下设备交互控制、实现实时性勘察的重要性不言而喻。然而，由于上述问题导致交互控制方式受到极大限制，现有技术无法满足技术需要。

发明内容

本发明的目的在于克服现有AUV实时勘测后识别效率低，甚至需要线下分析扫描过的海域是否有目标物存在的缺陷，提出了一种基于AUV的侧扫声呐图像识别方法，在复杂水下环境中能有效提高识别效率，达到实时性的同时，还具有较高的识别精度，从而实现AUV在复杂海域里识别不同的目标物，为AUV决策提供保障。

为实现上述技术目的，本发明给出的技术方案是：一种基于AUV的侧扫声呐图像识别方法，具体步骤如下：

步骤一、通过搭载在AUV上的侧扫声呐图像识别系统采集并获取声呐原始数据流；

步骤二、对步骤一中所获声呐原始数据流进行实时解析，然后将解析后的数据进行声呐图像的拼接，并对其进行矫正；

步骤三、将步骤二实时解析后的图像输入到提前训练好的深度网络模型之中，实时进行识别，并且在识别的过程中计算目标点的经纬度；

步骤四、将识别的结果和目标点的经纬度转换成相应的系统指令，反馈给AUV，AUV对于识别的结果进行相应的决策。

进一步的，所述采集依据的准则是：在AUV左右各安装一条侧扫声纳的换能器，首先发射一个短促的声脉冲，声波按球面波方式向外传播，碰到海底或水中物体会产生散射，其中的反向散射波会按原传播路线返回，被换能器接收，经换能器转换成一系列电脉冲，而后将每一发射周期的接收数据一线接一线地纵向排列，显示在显示器上，构成二维海底地貌声图，声图平面和海底平面成逐点映射关系，声图的亮度包涵了海底的特征。

进一步的，所述步骤二主要包括以下几步：

一、将每一数据包的原始声强信号转换成像素值，将像素值进行归一化；

二、将处理好的数据转成图片格式，每5秒处理一次；

三、上述的数据进行裁剪，然后进行双线性插值，处理成深度卷积神经网络所需要的数据大小，作为神经网络的输入。

进一步的，所述搭载在AUV上的侧扫声呐图像识别系统包括侧扫声纳数据采集单元、在线解析原始数据单元、声呐图像识别单元和AUV执行机构。

所述侧扫声纳数据采集单元通过侧扫声呐传感器采集声呐数据，侧扫声呐传感器逐条扫描海底，将每条扫描线记录为一个数据包，通过转换模块将采集到的数据转变成通用的原始数据流，并将AUV执行机构的控制模块发送的AUV当前位置和姿态角整合到每一数据包的数据流中；

所述在线解析原始数据单元将所获声呐原始数据流进行实时解析，将解析后的数据进行声呐图像的拼接，并对其进行矫正；

所述声呐图像识别单元包含了图像分割模块和自导模块，用基于此两个模块的深度神经网络提前将侧扫声纳采集的数据进行训练，得到泛化能力较好的模型，将此模型载入到声呐图像识别单元，当AUV行进过程中采集到声呐数据后，声呐图像识别单元会实时进行识别，并且在识别的过程中计算目标点的经纬度；

将声呐识别结果以及目标点对应的经纬度转换成相应的系统指令，输送至所述AUV执行机构的控制模块，AUV执行机构针对识别结果进行决策，获取更丰富和精准的海底信息，进行下一步路径规划。

更进一步的，所述深度卷积神经网络模型，其构建步骤如下：

步骤1、获取训练样本集，并对其依据不同声呐图像类别设定标签，所述声呐图像类别包括沙波、珊瑚礁、渔网，训练样本集主体来自步骤一、二获取的数据；

步骤2、对训练样本集进行预处理：

(1)图像尺寸处理，采集的侧扫声呐数据包括沙波、珊瑚礁、渔网，将沙波和珊瑚礁的数据尺寸设置为500像素×500像素，将渔网的数据尺寸设置为224像素×224像素，这三组数据均为RGB图像；

(2)样本集图像数据扩充，采用旋转变换、缩放变换、水平和垂直翻转变换以及随机改变亮度、对比度和颜色对样本集图像进行数据增强，由数据增强对图像样本进行数据扩充；

(3)对处理好的数据进行打标签处理，按照不同声呐图像类别将采集的图像分别保存，从而构建深度学习集，三种数据集的标签分别设为1、2、3，背景设为0，按照标签类别分类保存图像；

步骤3、将经处理后获得的训练数据集图像作为训练样本，构建深度卷积神经网络模型；所述网络模型包括分割模块，自导模块，两个模块依次相连构成整体网络结构。

更进一步的，所述分割模块基于UNet网络，在此网络的基础上，分割模块引入递归卷积神经网络和残差神经网络，包括卷积层、最大池化层、规范化层和激活层，分割模块表示为：

y_l+1＝x_l+F(x_l,w_l)

其中，x_l为R²CNN得第l层的输入；(i,j)代表了第k个特征在循环卷积神经网络上的映射；

为第t时刻的输出；

和

分别是卷积神经网络和循环卷积神经网络的第k个特征映射的权重；b_k为偏置；这里的t设置为2；循环卷积神经网络的输出作为激活函数的输入，这里用公式f来表示；F(x_l,w_l)为循环卷积神经网络的输出；y_l+1为最终R²CNN的输出；

自导模块将标签图和分割模块生成的相应概率图作为输入，通过检测输出是0还是1来区分标签和分割模块生成的结果，当结果显示为0时，表示输入为分割模块的结果，否则，输入为标签，自导模块包括卷积层和池化层，在训练网络时使用1×1卷积核。

更进一步的，所述分割模块用SG(x,y)∈[0，1]表示自导模块预测的标量概率，GT为代表标签，给定一个数据集N，训练图像为x_n，对应的标签为GT_n，s(x_n)，表示分割模块的结果，分割模块的损失表示如下：

以上公式中，μ代表分割模型中的权重，l_{soft max}(s(x_n),GT_n)表示将分割模块预测结果s(x_n)和输入x_n求loss，SG(s(x_n))为自导模块输出的结果，l_bce(SG(s(x_n)),1)表示试图使分割模块的结果更加接近真实的标签；

训练自导模块等同于最大程度地减少二进制分类损失，自导模型将标签识别为1，将分割结果识别为0，将标签与分割结果区分开，从而引导分割模块以获得更接近标签的分割结果，公式如下：

最终的总Loss为

进一步的，所述步骤三在识别分析中，加入定量分析，从语义分割和场景解析评估中报告四个指标，包括像素精度，平均准确度，均值IU和频率加权IU，像素精度是总像素中正确像素的概率，由等式计算得出；平均准确度代表0级预测和1级预测的平均正确概率；均值IU是标签像素值与预测图片的交集与并集之比；频率加权IU根据每个类的出现频率设置权重，这也是语义分割的一种度量；此四个指标的公式分别如下：

像素精度：

平均准确度：

均值IU：

频率加权IU：

本发明的有益技术效果是：通过设计新型的深度卷积神经网络架构对侧扫声呐图像进行识别，解决了现有声呐图像识别方法存在的实现过程较为繁琐、实时性差，识别精度低等问题，提高了AUV作业效率，使处于测绘区域的AUV对选择继续探索未知区域的海底环境能力增强，并能够做出智能化的决策，具有较高的实际应用价值。

附图说明

为了能够更清楚的理解本发明的上述目的和优点，下面结合附图和实施例对本发明做详细地描述。

图1为本发明实施例1中基于AUV的侧扫声呐图像识别系统流程示意图；

图2为本发明实施例1中数据采集单元的侧扫声纳采集数据准则示意图；

图3为本发明实施例1中在线解析声纳原始数据单元实时解析并拼接得到的海底地貌图；

图4为本发明实施例1中声呐图像识别单元的深度卷积神经网络的模型结构示意图；

图5为本发明实施例3中声呐图像识别单元中分割模块以UNet为例的结构示意图；

图6为本发明实施例3中声呐图像识别单元中递归残差卷积神经网络的结构示意图；

图7为本发明实施例3中自导模块的结构示意图。

具体实施方式

实施例1

一种基于AUV的侧扫声呐图像识别方法，具体步骤如下：

基于深度卷积神经网络模型的搭建构成了声呐图像识别单元，主要对声呐图像信息提取纹理特征，以对其进行声呐图像识别。

其中，步骤一通过搭载在AUV上的侧扫声呐传感器以及其配套的计算机板卡来获取原始数据。侧扫声纳采集数据准则如图2所示，在AUV左右各安装一条侧扫声纳的换能器，首先发射一个短促的声脉冲，声波按球面波方式向外传播，碰到海底或水中物体会产生散射，其中的反向散射波会按原传播路线返回，被换能器接收，经换能器转换成一系列电脉冲，而后将每一发射周期的接收数据一线接一线地纵向排列，显示在显示器上，构成二维海底地貌声图，声图平面和海底平面成逐点映射关系，声图的亮度包涵了海底的特征。

步骤二对步骤一中所获声呐原始数据流进行实时解析，然后将解析后的数据进行声呐图像的拼接，并对其进行矫正，部分解析的数据如图3所示。主要包括以下几步：

1.将每一ping的原始声强信号转换成像素值，将像素值进行归一化；

2.将处理好的数据转成图片格式，每5秒处理一次；

3.上述的数据进行裁剪，然后进行双线性插值，处理成深度卷积神经网络所需要的数据大小，作为神经网络的输入。

步骤三将步骤二解析后的图像输入到提前训练好的深度网络模型之中，实时进行识别，并且在识别的过程中计算目标点的经纬度。

对侧扫声呐图像进行识别时，首先需要建立一个可靠稳定的深度卷积神经网络模型对声呐图像进行训练，其次才能实时的对侧扫声纳采集的数据进行识别，从而使得AUV针对识别结果做出相应的决策，此发明提出的新颖的深度卷积神经网络的流程图如图4所示，其中，获得深度卷积神经网络模型需要如下步骤：

获取训练样本集。此数据集主要由步骤一、二来获取。我们主要采用了在中国南海采集的珊瑚礁数据集、在中国青岛胶州湾采集的沙波数据集、在中国福建省采集的渔网数据集。

对训练样本集进行预处理：

图像尺寸处理

本实施例中采集的侧扫声呐数据主要包括沙波、珊瑚礁、渔网，为了减少计算量、提高运行效率，我们将原始图片插值、裁剪之后，将沙波和珊瑚礁的数据尺寸设置为500像素×500像素，将渔网的数据尺寸设置为224像素×224像素，，这三组数据均为RGB图像。

样本集图像数据扩充

相对于海底目标的多样性，数据集的类别是有限的，侧扫声呐数据有限，导致已有的数据不足以训练复杂的深度学习网络。实际环境中的数据与数据集不同，其中充斥着大量纯背景的场景，而我们不可能把所有的场景都提供给模型训练。为了防止由于样本较少引起的过拟合问题，也为了满足侧扫声呐分割模型有较好的泛化能力，采用数据增强的方式对图像样本进行数据扩充，本实施例中主要采用旋转变换、缩放变换、水平和垂直翻转变换以及随机改变亮度、对比度和颜色等方式对样本集图像进行数据增强。在沙波数据集中，考虑了从扩增数据集中随机选择的7521张图像，其中5000张用于训练，1000张用于验证，2521张用于测试。每个原始图像的大小为500像素×500像素；珊瑚礁数据集中，经过处理，该数据集总共包含8324个样本，其中5076个训练样本，1248个验证样本和2000个测试样本，每个原始图像的尺寸为500像素×500像素；渔网数据经过数据扩充处理后，该数据集总共包含6460个样本，其中5500张图像进行训练，1000张图像进行验证，其余960张用于测试，原始图像尺寸为240像素×240像素。

对处理好的数据进行打标签处理

按照不同声呐图像类别(沙波、珊瑚礁、渔网)将采集的图像分别保存，从而构建深度学习集，三种数据集的标签分别设为1、2、3，背景设为0，按照标签类别分类保存图像。

将经处理后获得的训练数据集图像作为训练样本，构建深度卷积神经网络模型。

如图4所示，为声呐图像识别单元的深度卷积神经网络的模型结构示意图，所述网络模型包括2个模块：分割模块，自导模块，两个模块依次相连构成整体网络结构。

定量分析方法

为了对实验结果进行定量分析，我们从常见的语义分割和场景解析评估中报告了四个指标。包括像素精度，平均准确度，均值IU和频率加权IU。像素精度是总像素中正确像素的概率，由等式计算得出。平均准确度代表0级预测和1级预测的平均正确概率。均值IU是标签像素值与预测图片的交集与并集之比。频率加权IU根据每个类的出现频率设置权重，这也是语义分割的一种度量。此四个指标的公式分别如下：

像素精度：

平均准确度：

均值IU：

频率加权IU：

性能分析

为了证明提出技术的性能，我们在三个不同的声学数据集上对它们进行了测试，包括沙波，珊瑚礁和渔网。并且将在NVIDIA Jetson AGX Xavier嵌入式系统模块上报告经过良好训练的模型的识别结果。

步骤四将识别的结果(是否有目标物，目标物属于哪一类)和目标物所在的经纬度转换成相应的系统指令，反馈给AUV，AUV对于侧扫声呐识别的结果进行相应的决策。

为证明本发明方案的效果，下面结合具体实例进行实验验证，分别列举了不同模型在不同训练数据集(沙波、珊瑚礁、渔网)下的结果对比：

表1、实验结果对比表：

实施例2

本发明提出一种基于AUV的侧扫声呐图像识别系统，如图1所示。

数据采集单元：此单元主要是采集声呐数据，通过将AUV向前移动，将逐条扫描海底，侧扫声呐传感器的每条扫描线记录为一个ping。计算机板卡将采集到的数据转变成通用的XTF的原始数据流，并且将主控系统发送的AUV当前位置和姿态角整合到每一ping的数据流中，使得采集到的声呐数据具有相应的位置和姿态信息。

一ping数据包格式如表2，第一通道和第二通道分别对应左舷和右舷的数据。若声呐为双频侧扫声呐，则在下表中的补充里继续添加第三通道帧头和第四通道帧头以及他们对应的数据。

表2、一ping数据包格式

文件头	第一通道帧头	第一通道数据	第二通道帧头	第二通道数据	补充
						256bytes	64bytes	2050bytes	64bytes	2050bytes	N bytes

该单元在前期主要用于采集丰富的海洋数据，作为声呐图像识别单元的前提，当识别单元的模型训练好之后，将其加载在AUV系统中，此时声呐采集的数据将会实时的输送给下一个在线解析声纳原始数据单元。

在线解析声纳原始数据单元：此单元主要是将每一ping中通道数据里的声强信息解析成像素信息，然后将解析后的数据进行声呐图像的拼接，并对其进行矫正。实时解析并拼接的声呐示意图如图3。

声呐图像识别单元：此单元中提出了专门为侧扫声呐图像设计的端到端的识别网络。与先前广泛依赖于编码-解码结构的有监督的深度学习工作不同，本发明提出了一种基于识别网络的递归残差卷积神经网络(R²CNN)，同时，为了提高网络的稳定性并得到更好的图像分割结果，本发明引入了一个额外的模块，称为自导模块。首先，递归残差卷积神经网络可确保更好地表示侧扫声呐图像的特征，并有助于减少错误并提高准确性。其次，自导模块的设计，使得本发明中的识别网络相比于其他网络具有相同数量网络参数，但是具有很好的识别性能。该网络模型分别在侧扫声呐获得的三个数据集(沙波，珊瑚礁和渔网)上进行了测试。该单元的整体流程图如图4。

AUV执行机构：该部分主要由AUV的“大脑”来实现，上一级将声呐识别的结果以及目标点对应的经纬度反馈到此主控系统，此时，该执行机构会针对识别结果进行决策，从而获取更加丰富和精准的海底信息。

实施例3

作为实施例1中构建深度卷积神经网络模型的具体方式，如图5、6、7所示，

所述构建过程如下：

步骤C1、获取训练样本集，并对其依据声呐图像不同类别设定标签，所述声呐图像类别包括沙波、珊瑚礁、渔网；

步骤C2、训练样本集预处理；

步骤C3、将经步骤C2处理后数据作为训练样本，构建深度卷积神经网络模型：

所述深度卷积神经网络模型包括分割模块、自导模块，经过这两个模块完成对声呐图像特征的提取与分类，根据识别结果判断输入图像属于哪种类别，从而完成声呐图像的识别；

步骤C4、将声呐图像识别结果发送给AUV主控系统中的执行机构，以辅助AUV进行相应的决策。

所述步骤C3包括：C31、所述图像分割模块包括卷积层、最大池化层、规范化层和激活层，其中，引入了递归卷积网络的思想和残差网络的思想，称为R²CNN，使得特征提取更加准确。

图像分割模块表示为：

y_l+1＝x_l+F(x_l,w_l)

为第t时刻的输出；

和

分别是卷积神经网络和循环卷积神经网络的第k个特征映射的权重；b_k为偏置；这里的t设置为2；循环卷积神经网络的输出作为激活函数的输入，这里用公式f来表示；F(x_l,w_l)为循环卷积神经网络的输出；y_l+1为最终R²CNN的输出。

C32、自导模块将标签图和分割模块生成的相应概率图作为输入。该模块可以通过检测输出是0还是1来区分标签和分割模块生成的结果。当结果显示为零时，表示输入为分割模块的结果，否则，输入为标签。在这个模块中，我们使用一个简单的卷积神经网络，主要包括卷积层和池化层。在这个模块中，我们用1×1卷积层替换了全连接层，因为全连接层会破坏图像的空间结构，并且其输入是固定的，因此在训练网络时使用1×1卷积核，它的输入图大小是不固定的，并且还具有降级的作用。

C33、分割模块以及自导模块的Loss计算

分割模块loss计算：

分割模块的训练使交叉熵损失，这意味着交叉熵损失越小，分割结果和标签越接近。这鼓励了分割模块产生难以与标签分开的结果。我们使用SG(x,y)∈[0，1]表示自导模块预测的标量概率，GT为代表标签。给定一个数据集N，训练图像为x_n，其对应的标签为GT_n，s(x_n)表示分割模块的结果。该模块的损失表示如下：

以上公式中，μ代表分割模型中的权重，l_{soft max}(s(x_n),GT_n)表示将分割模块预测结果s(x_n)和输入x_n求loss，SG(s(x_n))为自导模块输出的结果，l_bce(SG(s(x_n)),1)表示试图使分割模块的结果更加接近真实的标签。

自导模块的loss计算：

训练自导模块等同于最大程度地减少二进制分类损失。换句话说：该模型将标签识别为1，将分割结果识别为0，这等效于区分器，将标签与分割结果区分开，从而鼓励和引导分割模块以获得更接近标签的分割结果。公式如下：

最终的总Loss为

C34、优化

在采集数据的过程中，实际环境中的可用数据是有限的，大多数场景中都填充了大量的背景数据，而我们所需的目标通常非常稀缺。海试和工程技术的经济成本有限，海洋信息采集的成本相对较高。目前只能获得数量有限的水下目标侧扫声纳图像，因此侧扫声纳数据有限，导致这种类型的图像数据稀疏。当输入数据稀疏时，可以选择自适应学习率方法以获得最佳结果。这种方法的另一个好处是不需要调整学习速度，但是可能会使用默认值获得最佳结果。因此，我们使用了Adam优化算法来训练网络，这使我们的网络可以非常迅速地收敛。我们将学习率设置为0.0001。β₁设为0.5，β₂设为0.9。Adam在实践中表现良好，并且与其他自适应学习方法算法相比具有优势。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于AUV的侧扫声呐图像识别方法，具体步骤如下：

步骤三、将步骤二实时解析后的图像输入到提前训练好的深度卷积神经网络模型之中，实时进行识别，并且在识别的过程中计算目标点的经纬度；

2.根据权利要求1所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述步骤一中，采集依据的准则是：在AUV左右各安装一条侧扫声纳的换能器，首先发射一个短促的声脉冲，声波按球面波方式向外传播，碰到海底或水中物体会产生散射，其中的反向散射波会按原传播路线返回，被换能器接收，经换能器转换成一系列电脉冲，而后将每一发射周期的接收数据一线接一线地纵向排列，显示在显示器上，构成二维海底地貌声图，声图平面和海底平面成逐点映射关系，声图的亮度包涵了海底的特征。

3.根据权利要求1所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述步骤二主要包括以下几步：

二、将处理好的数据转成图片格式，每5秒处理一次；

4.根据权利要求1所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述搭载在AUV上的侧扫声呐图像识别系统包括侧扫声纳数据采集单元、在线解析原始数据单元、声呐图像识别单元和AUV执行机构。

5.根据权利要求1所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述步骤三中，深度卷积神经网络模型其构建步骤如下：

步骤2、对训练样本集进行预处理：

6.根据权利要求5所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述分割模块基于UNet网络，在此网络的基础上，分割模块引入递归卷积神经网络和残差神经网络，包括卷积层、最大池化层、规范化层和激活层，分割模块表示为：

y_l+1＝x_l+F(x_l,w_l)

为第t时刻的输出；

和

7.根据权利要求6所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述分割模块用SG(x,y)∈[0，1]表示自导模块预测的标量概率，GT为代表标签，给定一个数据集N，训练图像为x_n，对应的标签为GT_n，s(x_n)，表示分割模块的结果，分割模块的损失表示如下：

以上公式中，μ代表分割模型中的权重，l_softmax(s(x_n),GT_n)表示将分割模块预测结果s(x_n)和输入x_n求loss，SG(s(x_n))为自导模块输出的结果，l_bce(SG(s(x_n)),1)表示试图使分割模块的结果更加接近真实的标签；

最终的总Loss为

8.根据权利要求1所述的基于AUV的侧扫声呐图像识别方法，其特征在于：所述步骤三在识别分析中，加入定量分析，从语义分割和场景解析评估中报告四个指标，包括像素精度，平均准确度，均值IU和频率加权IU，像素精度是总像素中正确像素的概率，由等式计算得出；平均准确度代表0级预测和1级预测的平均正确概率；均值IU是标签像素值与预测图片的交集与并集之比；频率加权IU根据每个类的出现频率设置权重，这也是语义分割的一种度量；此四个指标的公式分别如下：

像素精度：

平均准确度：

均值IU：

频率加权IU：