CN116051840A

CN116051840A - 一种基于生成对抗学习的半监督水下图像语义分割方法

Info

Publication number: CN116051840A
Application number: CN202310059786.3A
Authority: CN
Inventors: 刘彦呈; 郭筠; 刘厶源; 朱鹏莅; 陈瀚; 王帅; 马匡旗; 马欢; 张勤进; 郭昊昊
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-02

Abstract

本发明公开了一种基于生成对抗学习的半监督水下图像语义分割方法，包括：获取水下图像并划分为训练集、验证集和测试集，并对水下图像进行预处理；设计兼具Transformer全局自注意力机制和卷积神经网络底层细节和定位优势的混合编码分割器；构建半监督语义分割的生成对抗网络；利用半监督语义分割的生成对抗网络对训练集和验证集上进行训练，得到预测模型，并采用测试集对预测模型进行评估。本发明能够以较低的计算成本实现准确的图像分割，能更好的应用于水下图像语义分割任务，对水下航行器光视觉智能感知系统的发展具有重要的指导意义和应用价值。

Description

一种基于生成对抗学习的半监督水下图像语义分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于生成对抗学习的半监督水下图像语义分割方法。

背景技术

水下环境感知，特别是光学视觉感知，是水下航行器自主导航与作业的重要环节。图像语义分割作为水下环境感知的关键技术之一，其快速性、准确性和清晰性直接决定了环境感知的整体性能，高效、准确的水下图像语义分割算法，对水下航行器光视觉智能感知系统的发展具有重要的现实意义和应用价值。

基于深度学习的水下图像语义分割方法大多需要大量有标注的训练数据，且语义分割要求对每个训练图像进行精确的逐像素标注，再加上复杂水下环境中的目标具有难辨识性，使得图像手工标注需要高昂的人工和时间成本，加剧了获取大量标注数据的挑战性。面对这些问题，基于半监督学习的语义分割方法应运而生，即在缺乏大量手工标注的情况下，通过显式或隐式地注入某种形式的先验知识，减少对高质量数据的依赖，从而高效地进行语义分割任务。近几年，研究学者针对半监督语义分割展开广泛研究，提出了许多相关的半监督的语义分割算法，包括基于图滤波方法，多扩张卷积定位算法，以及交叉一致性训练算法。这些算法都可以从不同的角度实现半监督的语义分割，也取得了一定的发展，但分割精度仍无法满足水下作业任务的需求。因此，水下目标语义分割任务如何在图像数据量不足和图像质量较低的情况下，精确、快速、稳定地识别水下目标物体是亟待解决的问题。

发明内容

根据现有技术存在的问题，本发明公开了一种基于生成对抗学习的半监督水下图像语义分割方法，具体包括如下步骤：

获取水下图像并划分为训练集、验证集和测试集，并对水下图像进行预处理；

设计兼具Transformer全局自注意力机制和卷积神经网络底层细节和定位优势的混合编码分割器；

构建半监督语义分割的生成对抗网络；

利用半监督语义分割的生成对抗网络对训练集和验证集上进行训练，得到预测模型，并采用测试集对预测模型进行评估。

所述对水下图像进行预处理时：在两个已公开的水下数据集DUT和SUIM上进行划分，将两个数据集的有标注数据按照8:1:1的比例分为训练集、验证集和测试集，采用随机裁剪、随机镜像数据增广以及归一化方式对图像进行预处理。

所述混合编码分割器包括编码器和解码器，在编码器部分：将预处理后的图像输入CNN，通过三次下采样提取低纬度特征信息，经过线性映射将特征图分成多个序列化的块、并加上位置编码，输入重复堆叠的Transformer编码器来获取全局特征信息；在解码器部分，先将编码器输出的特征序列进行数据结构变形，将一维向量重塑为多维特征结构，采用卷积运算将通道数变换为512，再使用转置卷积操作进行上采样将图像尺寸变换为原来的2倍，每次上采样后都与编码器部分CNN获取的同级特征信息进行融合并降低特征维度，经过多次特征融合后，再经过一次上采样，数据恢复至和输入图像相同尺寸，最后通过特征分类层得到分割预测结果。

所述半监督语义分割的生成对抗网络包括分割网络和鉴别网络，采用重视全局信息的Transformer结构和底层图像特征的CNN的混合编码网络作为分割网络；经过训练的鉴别网络识别分割网络的预测结果并生成置信度图，将该置信度图作为监督信号，用于推断与真实标签分布足够接近的区域，设置一个阈值对这个置信度图进行二值化处理从而突出显示可信区域，将可信区域作为伪标签用于模型的自训练，通过对当前网络和前次迭代网络的性能进行比较获得当前最优模型。

采用半监督语义分割的生成对抗网络对训练集和验证集上进行训练，得到预测模型，并采用测试集对预测模型进行评估具体方式为：

设：分割网络S(·)输入尺寸H×W×3的彩色训练图像X，输出尺寸H×W×C的类别概率图S(X)，而基于全卷积网络鉴别网络D(·)，以分割网络输出的类别概率图或输入图像对应的真实标签作为输入，输出大小为H×W×1的置信度图；

在半监督设置下，同时使用有标注数据和无标注数据对网络进行训练，有标签数据通过最小化多分类标准交叉熵损失来训练语义分割网络，设计相应的半监督多分类交叉熵损失L_semi，定义如下：

其中，I(·)是指示函数，用于高置信度的像素分类，T_semi是控制自训练灵敏度的阈值，对置信度图进行二值化，用于权衡生成伪标签的可信度和数据量，如果

则

否则，

鉴别网络的训练贯穿整个半监督学习过程，且只使用有标注数据并应用二分类的对抗损失L_adv对鉴别网络进行全监督训练，定义如下：

其中，如果样本输入来自分割网络，则y＝0；如果样本来自真实的标签，则y＝1，D(S(X))^(h,w)是训练数据X经过分割网络和鉴别网络后，在位置(h，w)处得到的置信度图，并且D(Y_gt)^(h,w)表示对应的真实标签Y_gt经鉴别网络得到的在(h，w)处的置信度图。

由于采用了上述技术方案，本发明提供的一种基于生成对抗学习的半监督水下图像语义分割方法，该方法具有如下优点：将高性能的CNN-Transformer混合编码的分割网络引入生成对抗框架，充分利用CNN特征中的详细高分辨率空间信息和Transformer的全局相关性信息，能够显著提高水下图像分割的准确性；采取动态自训练学习策略，使用无标注数据进行半监督学习，可以有效降低水下数据集标注成本；本发明能够以较低的计算成本实现准确的图像分割，能更好的应用于水下图像语义分割任务，对水下航行器光视觉智能感知系统的发展具有重要的指导意义和应用价值。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的生成网络整体框架图；

图2为本发明中的分割网络结构图；

图3为本发明的训练流程图；

图4为本发明在DUT数据集上的分割性能对比图。

图5为本发明在SUIM数据集上的分割性能对比图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于生成对抗学习的半监督水下图像语义分割方法，具体包括如下步骤：

S1、使用公开的水下数据集获取训练集、验证集和测试集，并进行预处理；

S2、设计兼具Transformer全局自注意力机制和卷积神经网络底层细节和定位优势的混合编码分割器；

S3、构建半监督语义分割的生成对抗网络；

S4、利用半监督语义分割的生成对抗网络在训练集和验证集上进行训练，得到预测模型，并在测试集上对模型进行评估。

进一步的，所述的使用公开的水下数据集获取训练集、验证集和测试集，并进行预处理，包括：

在两个已公开的水下数据集DUT和SUIM上进行划分时，将两个数据集的有标注数据都按照8:1:1的比例，分为训练集、验证集和测试集。在训练过程中的预处理方法，采用随机裁剪，再采用随机镜像数据增广操作，后将翻转后的图像进行归一化。

进一步的，所述的设计兼具Transformer全局自注意力机制和卷积神经网络底层细节和定位优势的混合编码分割器，如图2所示，包括：

分割网络结构分为编码器和解码器结构。在编码器部分，首先将原图输入CNN，通过三次下采样提取低纬度特征信息，经过线性映射将特征图分成16×16个序列化的块，并加上位置编码，然后输入重复堆叠12次的Transformer编码器来获取全局特征信息。在解码器部分，先将编码器输出的特征序列进行数据结构变形，将一维向量重塑为多维特征结构。然后使用1×1卷积将通道数变换为512，再使用转置卷积操作进行上采样将图像尺寸变换为原来的2倍，每次上采样后都与编码器部分CNN获取的同级特征信息进行融合并降低特征维度。经过3次特征融合后，再经过一次上采样，数据恢复至和输入图像相同尺寸。最后通过特征分类层，得到分割预测结果。

进一步的，所述的构建半监督语义分割的生成对抗网络，包括：

(1)分割网络：采用重视全局信息的Transformer结构和底层图像特征的CNN的混合编码网络作为分割网络，无需预训练。

(2)鉴别网络：

鉴别网络由5个卷积层组成，卷积核大小设置为4×4，通道数分别设置为64、128、256、512、1，跨步卷积设置步幅为2。除最后一层外，每个卷积层之后的非线性激活层都使用GeLU激活函数。在模型的最后一层添加上采样层，使用双线性插值法，输出维度为H×W×1的置信度图。

(3)自训练学习策略，如图3：经过训练的鉴别网络可以较好的识别分割网络的预测结果并生成置信度图。该置信度图可作为监督信号，用于推断与真实标签分布足够接近的区域。然后，设置一个阈值对这个置信度图进行二值化处理以突出显示可信区域。将这些可信区域作为伪标签用于模型的自训练，通过对当前模型和前次迭代模型的性能进行比较获得当前最优模型。

进一步的，所述的利用半监督语义分割的生成对抗网络在训练集和验证集上进行训练，得到预测模型，并在测试集上对模型进行评估，包括：

分割网络S(·)输入尺寸H×W×3的彩色训练图像X，输出尺寸H×W×C的类别概率图S(X)。而基于全卷积网络鉴别网络D(·)，以分割网络输出的类别概率图或输入图像对应的真实标签作为输入，输出大小为H×W×1的置信度图。

分割网络训练：在半监督设置下，可以同时使用标记的和未标记的图像，通过最小化多分类损失函数L_seg来训练语义分割网络：

L_seg＝L_ce+λ_preL_pre+λ_semiL_semi (1)

其中，L_ce、L_pre和L_semi分别表示多分类交叉熵损失、预测损失和半监督多分类交叉熵损失，λ_pre和λ_semi是用于调节各项权重的两个超参数。

当使用标记的图像时，分割网络同时受到图像真实标签的标准交叉熵损失函数和预测损失L_pre的监督；

预测损失为：

当使用未标记的图像时，使用提出的半监督方法训练分割网络；在获得未标记图像的原始的分割预测值之后，把分割预测值输入鉴别网络以获取置信图；使用自训练学习策略把该置信图当作监督信号，迭代训练带有标记的交叉熵损失函数的分割网络。

半监督多分类交叉熵损失L_semi的定义如下：

在全监督训练完成后，分割网络已经具备初步的分割能力，鉴别网络也获得了更好的判别性能。随后，同时使用有标注数据和无标注数据进行训练，由于无标注的数据没有真实的标签信息，故不使用交叉熵损失L_ce，但是预测损失L_pre仍然适用，只是要选择一个比有标注数据更小的合适的λ_pre。

进一步地，所述的鉴别网络训练，最小化关于两个类别的交叉熵损失函数；鉴别网络把一个控制通路的概率图像作为其输入；为了把带有离散标签值的实况标签图像转换成为控制通路的概率图像，在实况标签图像上采用独热编码程序；如果

则

否则，

其中，如果样本输入是来自分割网络，则y＝0；如果样本来自真实的标签，则y＝1。此外，D(S(X))^(h,w)是训练数据X经过分割网络和鉴别网络后，在位置(h，w)处得到的置信度图，并且D(Y_gt)^(h,w)表示训练数据X对应的经过独热编码后的标签Y_gt，经由鉴别网络得到的在(h，w)处的置信度图。

使用通用的语义分割评价指标平均交并比(Mean Intersection over Union,mIoU)来对图像的分割准确度进行性能定量分析以及定性比较。DUT数据集和SUIM数据集的定量对比结果分别如表1、表2所示，对应的定性对比结果分别如图4、5所示，图4中第一列为原始图像，第二列是手工标注的标签图像，FCN、DeeplabV3、LR ASPP和TransUNet是现有全监督方法的分割结果，SUISS为本发明方法的分割结果。图5中第一列为原始图像，第二列是手工标注的标签图像，FCN、DeeplabV3、LR ASPP和TransUNet是现有全监督方法的分割结果，SUISS为本发明方法的分割结果。

本发明方法得到的最终分割结果精度比现有的方法得到的分割结果具有较大提升。

表1DUT数据集实验结果对比

表2SUIM数据集实验结果对比

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于生成对抗学习的半监督水下图像语义分割方法，其特征在于包括：

构建半监督语义分割的生成对抗网络；

2.根据权利要求1所述的一种基于生成对抗学习的半监督水下图像语义分割方法，其特征在于：所述对水下图像进行预处理时：在两个已公开的水下数据集DUT和SUIM上进行划分，将两个数据集的有标注数据按照8:1:1的比例分为训练集、验证集和测试集，采用随机裁剪、随机镜像数据增广以及归一化方式对图像进行预处理。

3.根据权利要求1所述的一种基于生成对抗学习的半监督水下图像语义分割方法，其特征在于：所述混合编码分割器包括编码器和解码器，在编码器部分：将预处理后的图像输入CNN，通过三次下采样提取低纬度特征信息，经过线性映射将特征图分成多个序列化的块、并加上位置编码，输入重复堆叠的Transformer编码器来获取全局特征信息；在解码器部分，先将编码器输出的特征序列进行数据结构变形，将一维向量重塑为多维特征结构，采用卷积运算将通道数变换为512，再使用转置卷积操作进行上采样将图像尺寸变换为原来的2倍，每次上采样后都与编码器部分CNN获取的同级特征信息进行融合并降低特征维度，经过多次特征融合后，再经过一次上采样，数据恢复至和输入图像相同尺寸，最后通过特征分类层得到分割预测结果。

4.根据权利要求1所述的一种基于生成对抗学习的半监督水下图像语义分割方法，其特征在于：所述半监督语义分割的生成对抗网络包括分割网络和鉴别网络，采用重视全局信息的Transformer结构和底层图像特征的CNN的混合编码网络作为分割网络；经过训练的鉴别网络识别分割网络的预测结果并生成置信度图，将该置信度图作为监督信号，用于推断与真实标签分布足够接近的区域，设置一个阈值对这个置信度图进行二值化处理从而突出显示可信区域，将可信区域作为伪标签用于模型的自训练，通过对当前网络和前次迭代网络的性能进行比较获得当前最优模型。

5.根据权利要求1所述的一种基于生成对抗学习的半监督水下图像语义分割方法，其特征在于：采用半监督语义分割的生成对抗网络对训练集和验证集上进行训练，得到预测模型，并采用测试集对预测模型进行评估具体方式为：

则

否则，