CN112148906A

CN112148906A - 基于修正的CycleGAN模型的声纳图像库构建方法

Info

Publication number: CN112148906A
Application number: CN202010985999.5A
Authority: CN
Inventors: 谢奎; 凡志邈; 刘雪; 夏伟杰; 卞俊; 寿怀韬; 姚可为
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-29

Abstract

本发明公开了基于修正的CycleGAN模型的声纳图像库构建方法，在CycleGAN模型基础上，对网络模型的损失函数进行改进实现声纳图像库的构建，即利用光学图像构建声纳图像，实现光学图像到声纳图像的风格迁移。通过对CycleGAN网络损失函数的改进，提高了声纳图像合成效果，并设计目标检测网络以验证构建的声纳图像数据集的有效性。

Description

基于修正的CycleGAN模型的声纳图像库构建方法

技术领域

本发明属于声纳图像处理领域，特别涉及了一种声纳图像库构建方法。

背景技术

近年来随着海洋水声探测行业的蓬勃发展，受水中介质复杂性影响，电磁波易被吸收，导致在水中的传播距离很短，难以实现远距离探测任务，而声波在水中可传播数十公里，是一种较为理想的传播信号。低频段下，声波传播距离较远，可以直接利用回波信号的频谱等特征实现噪声识别工作(如舰船噪声)；而高频阶段，在几百米范围内可以实现声纳目标的成像，目前成像声纳逐渐成为海洋水声探测行业的必需设备之一。由于水下环境复杂，实际作业难度大，难以获取大量数据样本，然而目前许多水下工程研究都需要较大的数据样本，如利用深度学习实现水下目标分类与检测网络的训练需要大量的声纳图像，而现实中无法收集到大量的声纳图像。

随着人工智能领域的发展，很多研究工作的开展也应用了机器学习领域相关的技术。但是很多神经网络的训练都需要大量的训练数据，因此构建充足的声纳图像数据库成为很多水下研究工作的重要前提条件。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了基于修正的CycleGAN模型的声纳图像库构建方法。

为了实现上述技术目的，本发明的技术方案为：

基于修正的CycleGAN模型的声纳图像库构建方法，包括以下步骤：

(1)准备光学图像数据集和声纳图像数据集，分别放在源域和目标域；

(2)设置初始化参数，包括初始学习率、批大小、优化器的选择以及用于约束各损失函数占比的超参数；

(3)改进CycleGAN模型的损失函数，根据改进的损失函数训练模型，并采用优化器进行优化；

(4)训练过程中生成器与其对应的鉴别器交替更新，观察判别器损失曲线是否满足纳什均衡条件；

(5)CycleGAN模型训练结束，导出模型；

(6)向训练好的模型输入用于测试的光学图像进行测试，生成对应的声纳图像；

(7)设计目标检测网络验证构建的声纳图像数据集的有效性。

进一步地，在步骤(3)中，所述改进的损失函数如下：

上式中，L_GAN为改进的损失函数，G为生成器，D为鉴别器，X为源域，Y为目标域，E表示数据期望，x为源域样本，y为目标域样本，x～P_data(x)表示源域样本的概率分布，y～P_data(y)表示目标域样本的概率分布，

表示求D(x)梯度的p范数，L_idt为恒等损失，λ_w和λ_idt为超参数。

进一步地，在步骤(3)中，所述恒等损失L_idt如下：

上式中，F为G的逆向映射。

进一步地，在步骤(3)中，所述优化器采用Adam优化器。

进一步地，在步骤(4)中，通过Tensorboard观察判别器损失曲线是否满足纳什均衡条件。

进一步地，步骤(7)的具体过程如下：

(7a)将构建的声纳图像数据集按照目标进行分类，分别用每一类目标数据集训练Mask RCNN模型，训练结束后导出Mask RCNN模型；

(7b)利用前视二维成像声纳采集真实的声纳图像测试训练后的Mask RCNN模型，得出相应的目标检测结果；

(7c)将步骤(7a)中构建的所有种类的声纳图像合为一个训练集，重复步骤(7a)中的模型训练，并导出训练后的Mask RCNN模型；

(7d)利用成像声纳采集含有多个目标的声纳图像，测试步骤(7c)中得到的MaskRCNN模型。

采用上述技术方案带来的有益效果：

(1)本发明利用CycleGAN模型可以直接从光学图像合成声纳图像，进而实现声纳图像库构建；

(2)本发明利用平方损失替换原始的CycleGAN中的对数似然损失，增加网络训练稳定性；

(3)本发明在判别器的损失函数中加入Wasserstein距离，通过将Wassertein作为正则项，指导CycleGAN模型训练，有效缓解模式崩塌问题，同时加快网络收敛速度；

(4)本发明利用改进后的CycleGAN模型构建的声纳图像库训练目标检测网络MaskRCNN，并用真实的声纳图像进行测试，最终能成功检测出对应的目标，进一步验证本发明提出构建声纳图像库方法的有效性。

附图说明

图1是CycleGAN模型图；

图2是CycleGAN网络训练流程图；

图3是改进前、后CycleGAN模型鉴别器损失函数对比图；

图4是采用不同方法实现光学到声纳图像合成结果图；

图5是本发明中输入不同光学图像合成的声纳图像结果图；

图6是本发明中目标检测Mask RCNN模型图；

图7是实施例的声纳图像目标检测结果图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，将光学和声纳图像分别放置在源域(X域)和目标域(Y域)，CycleGAN模型可以通过训练学习到光学和声纳图像之间的映射关系。假设正向映射G(x)：X→Y，表示从光学图像中生成声纳图像，其目标是使G(x)的分布与真实的声纳图像的分布很接近，以至于鉴别器Dy无法区分。反向映射F(y)：Y→X，该映射可以看作是G(x)的逆向映射，表示从声纳图像生成光学图像，其目标与G(x)相似，使F(y)的分布与真实的光学图像分布很近，以至于鉴别器Dx无法区分。利用正向映射和反向映射，可以保证CycleGAN网络循环迭代训练，即满足F(G(x))≈X，G(F(y))≈Y。

实施例1

基于改进的CycleGAN实现声纳图像库方法，通过网络的不断训练和优化，学习光学与声纳图像的映射关系，利用映射关系可以直接从光学图像合成对应的声纳图像，CycleGAN模型训练流程图如图2所示，步骤如下：

步骤1，准备光学图像数据集和声纳图像数据集，分别放在源域(X域)和目标域(Y域)。

步骤2，设置初始化参数，包括初始学习率、批大小(即Batchsize值)、优化器的选择以及用于约束各损失函数占比的超参数，具体参数设置如表1所示。

表1

参数	大小设置
		优化器	Adam
初始学习率	2e-4
		批大小(Batchsize)	4
λ<sub>f</sub>＝λ<sub>b</sub>	10
		λ<sub>idt</sub>	0.5
λ<sub>w</sub>	10

步骤3，根据生成器损失、鉴别器损失和循环一致损失训练模型，并采用Adam优化器进行优化。

CycleGAN的总损失由对抗损失和循环一致性损失两部分组成，可表示为：

L(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,X,Y)+λL_cyc(G,F)

其中，超参数λ是用来控制循环一致损失在整体损失中的占比。

下式分别对应正向对抗损失和反向对抗损失：

循环一致性损失可以表示为：

上式中，超参数λ_f和λ_b分别控制前向循环损失和后向循环损失的占比。

步骤4，在训练的过程中，生成器与其对应的鉴别器交替更新，通过Tensorboard查看判别器损失曲线是否接近0.5，即达到纳什平衡条件。循环一致性损失用来防止生成器G和F产生过拟合，避免所有的光学图像全部映射到声纳图像其中的一张图像。

步骤5，训练结束，导出模型。

步骤6，输入测试图像(光学)进行测试，生成对应的声纳图像。

步骤7，设计目标检测网络验证构建的声纳图像数据集的有效性。

实施例2

本发明对CycleGAN模型的改进，具体改进分为如下几个步骤：

CycleGAN网络在实现图像风格迁移时不需要匹配的数据集，且在纹理和色彩转换方面有一定的优势，但是在训练过程中CycleGAN容易出现模型崩塌的现象，接下来从CycleGAN损失函数进行改进，以缓解该情况的发生，使最终合成的声纳图像有更好的效果。

步骤a，将原始的GAN损失公式中的对数似然损失用平方损失替换，可以增加网络训练的稳定性，相应的平方损失函数表达式如下：

其中，X和Y分别表示源域(光学图像域)和目标域(声纳图像域)；G和D分别表示生成器和鉴别器；G(x)：X→Y，表示从光学图像中生成声纳图像，其目标是使G(x)的分布与真实的声纳图像的分布很接近，以至于鉴别器D无法区分；x～P_data(x)表示源于样本的概率分布；y～P_data(y)表示目标域样本概率分布。

步骤b，增加一个恒等损失函数，该损失函数是在CycleGAN论文的实际应用部分被提及，用来增强图像翻译色调的准确性。CycleGAN中的重构损失主要由两部分组成：GAN损失和循环一致损失，其中GAN损失实现类别迁移，而循环一致损失保证循环迁移；除此之外，在本发明中加入一个恒等损失，用来防止循环迁移过多，对应的恒等损失的表示形式：

其中，F(·)可以看作是G(·)的逆向映射。

步骤c，为了加快网络的收敛速度，在判别器的损失函数中加入Wasserstein距离，其定义如下：

其中，Π(P₁,P₂)表示P₁和P₂的所有可能组合的联合分布集合，γ表示Π(P₁,P₂)中可能的联合分布；对于一个可能的γ可以从采样(x,y)～γ中得到一个真实样本x和一个生成样本y；||x-y||表示真实样本与生成样本之间的距离。Wasserstein距离是在Π(P₁,P₂)分布下，对距离期望E_(x,y)～γ[||x-y||]求下限。在判别器的优化过程中CycleGAN模型损失函数近似于真实分布和生成分布的JS(Jensen-Shannon)散度，当两个分布在没有重叠或者重叠非常少的情况下，JS散度为常量，在训练过程中不能提供有效梯度；而在此情况下，Wasserstein距离仍然可以体现两个分布的距离，因此本发明利用Wasserstein距离作为正则项，指导CycleGAN模型的训练，有效缓解模式崩塌问题。对Wasserstein距离的实际求解需要满足利普希茨连续条件：判别损失函数梯度不能超过常数K，如下式所示：

其中，Relu(·)为激活函数，

表示求D(x)梯度的p范数，p在此处取值为2，K值取1。

经改进后，CycleGAN模型的判别器的损失函数为：

其中，λ_w和λ_idt为超参数，分别控制Wasserstein距离损失和恒等损失占比。

如图3所示，CycleGAN模型改进前后鉴别器的损失函数变化曲线可以看出，采用Wassrestein距离修正后的鉴别器损失有更好的收敛效果。

实施例3

根据CycleGAN实现图像风格迁移思想，其主要任务示学习光学图像与声纳图像之间的映射关系，并且通过损失函数和优化算法，得到尽可能最佳的映射关系，具体实验步骤如下：

步骤A，数据集获取，即分别采集了不同目标的光学图像和声纳图像，并用它们来训练CycleGAN模型。本发明对三种目标的声纳图像进行了合成实验，分别是三角形、饮料瓶以及轮胎。因此，需要采集相应的光学图像和声纳图像，并且每个实验都是独立进行的。对于光学图像，由于没有现成的数据机可供使用，通过网络爬取(如饮料瓶、轮胎)以及采用绘图软件手工绘制方式(如三角架)获得。本实施例采用了英国Tritech公司生产的Gemini720前视二维成像声纳采集声纳图像，图像分辨率为1024×768×3，但是由于图像中实际目标占比较小，因此根据目标大小按照特定比例进行裁剪，最终使所有图像的分辨率均为256×256×3。具体数据集构成见表2所示。

表2

	三角架	饮料瓶	轮胎
				光学图像	1560	1926	588
声纳图像	54	208	153

步骤B，模型训练，即用准备好的数据集分别训练MUNIT、DiscoGAN、Pix2Pix、原CycleGAN以及改进后的CycleGAN模型，并将训练好的模型导出。

步骤C，模型测试，用光学图像集分别测试步骤B中导出的模型，生成对应的声纳图像结果，实验结果如图4所示。

从实验结果可以看出，训练的网络都能实现从光学到声纳图像的风格迁移，但是最终的效果却不尽相同。Pix2Pix模型可以生成三角架和饮料瓶，但是轮胎的生成效果不好，此外当输入不同测试图片时，合成的声纳图像总是相同；从图中可以看出，MUNIT和DiscoGAN模型合成的声纳图像的分辨率很低；原CycleGAN模型不能合成的声纳图像出现像素点缺失现象，相较之下，经过修正的CycleGAN模型合成的声纳图像与真实的声纳图相很接近，

步骤D，为了说明修正后的CycleGAN模型具有泛化性，在模型测试过程中，输入的光学图像中目标的位置、形状、大小等不同时，合成的声纳图像也不同，从而保证构建的声纳图像数据集的多样性。

最后输出的声纳图像也是不同的，从而保证利用光学图像构建声纳图像的多样性，实验结果如图5所示。

实施例4

为了进一步验证生成的声纳图像的效果，本发明还开展了目标检测实验，实验开展分成两步，先对生成的每一类目标进行了单目标检测，然后将生成的所有数据集混合，进行多目标检测。每一个实验中数据集安排见表3所示。

表3

目标类别	训练集	验证集	测试集
				三角架	1458	648	55
饮料瓶	579	204	208
				轮胎	608	212	208
多目标	2645	1064	471

在目标检测实验中，本发明采用的是Mask RCNN模型，如图6所示；它是在FasterRCNN的基础上进行改进，增加了一个用于分割任务的分支，虽然在检测速度上较FasterRCNN慢，但是检测精度有很大的提升。目前，利用Mask RCNN可以实现目标的检测、识别、分割以及人体姿态估计等任务。本发明中Mask RCNN的特征提取网络采用的是一个32层的卷积神经网络，为了解决模型的退化问题，在部分层中采用了残差模块。

参考图7中示出目标检测结果：(1)对于单目标的检测，图7中的(a)是三角架目标的检测结果，从图中可以看到成功地将三角架目标检测出来，并且所有的三角架测试图片均被检测出来，检测率达到100％；图7中的(b)为饮料瓶的检测结果，饮料瓶也被成功检测到，所有的饮料瓶测试图片中有8张图片未被成功检测，单目标饮料瓶的检测率约为96.2％；图7中的(c)为轮胎目标的检测结果，轮胎目标被检测出来，所有的轮胎测试图片中有5张没有检测到任何目标，检测率约为97.6％；因此从单目标的检测结果来看，利用CycleGAN模型构建的声纳图像库可以用于目标检测网络的训练。(2)对于多目标的检测如图7中的(d)所示，左边为输入的多目标图像，图中的目标有三角架、饮料瓶、轮胎，右边为检测结果；从检测结果可以看出，多目标输入的情况下，对应的目标也成功被检测出来，进一步验证了CycleGAN模型生成的声纳图像的有效性。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.基于修正的CycleGAN模型的声纳图像库构建方法，其特征在于，包括以下步骤：

(5)CycleGAN模型训练结束，导出模型；

(7)设计目标检测网络验证构建的声纳图像数据集的有效性。

2.根据权利要求1所述基于修正的CycleGAN模型的声纳图像库构建方法，其特征在于，在步骤(3)中，所述改进的损失函数如下：

3.根据权利要求2所述基于修正的CycleGAN模型的声纳图像库构建方法，其特征在于，在步骤(3)中，所述恒等损失L_idt如下：

上式中，F为G的逆向映射。

4.根据权利要求1所述基于修正的CycleGAN模型的声纳图像库构建方法，其特征在于，在步骤(3)中，所述优化器采用Adam优化器。

5.根据权利要求1所述基于修正的CycleGAN模型的声纳图像库构建方法，其特征在于，在步骤(4)中，通过Tensorboard观察判别器损失曲线是否满足纳什均衡条件。

6.根据权利要求1所述基于修正的CycleGAN模型的声纳图像库构建方法，其特征在于，步骤(7)的具体过程如下：

(7a)将构建的声纳图像数据集按照目标进行分类，分别用每一类目标数据集训练MaskRCNN模型，训练结束后导出Mask RCNN模型；

(7d)利用成像声纳采集含有多个目标的声纳图像，测试步骤(7c)中得到的Mask RCNN模型。