CN113139916A

CN113139916A - 基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法

Info

Publication number: CN113139916A
Application number: CN202110407439.6A
Authority: CN
Inventors: 王正阳; 叶秀芬; 雷敏; 刘文智; 李海波
Original assignee: Harbin Engineering University; 710th Research Institute of CSIC
Current assignee: Harbin Engineering University; 710th Research Institute of CSIC
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-20

Abstract

本发明公开了一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，包括：构建训练数据样本集；构建数据预处理系统，对样本数据进行预处理；构建生成器网络模型，将预处理后的图像输入生成器网络模型，得到保证图像尺寸和细节特征的输出图像；构建判别器网络模型，与生成器网络模型在训练的过程中不断对抗训练，得到质量好的图像；构建训练模型，通过训练模型对生成器网络模型和判别器网络模型进行训练；构建梯度惩罚项模型，在训练模型损失函数基础上增加梯度惩罚项，模型训练时，引入的梯度惩罚项使训练过程中梯度不会骤变；开始训练，获得优质的水下声呐仿真图像。本发明能够生成更高质量、更高分辨率和细节更逼真的水下声呐图像。

Description

基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法

技术领域

本发明属于声呐图像技术领域，更具体的说是涉及一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法。

背景技术

随着信息技术的发展，水下探测技术取得了巨大进步。各类水下作业需要良好的探测工具。传统的基于光学、雷达信号的探测方式在水下均受到较大的干扰，水下浑浊、强噪的环境使得信号的穿透力差，受噪声影响严重。而声学信号在水下的衰减大大降低，具有较远的可视距离，在水下的表现远远优于其他成像方式，因而成为水下探测的主要工具。

但是由于水下探测成像设备造价昂贵，使用成本高，不适合大规模拍摄，导致海底声呐图像数据集很是稀少。同时，由于水下噪声的影响，图像质量较差，直接利用传统深度学习算法对水下声呐图像进行分类，难以获得较好的分类效果，误分类率较高。另外，深度学习的目标检测算法是基于大数据的，而数据缺乏已成为深度学习算法处理海底声呐图像的首要障碍。

目前常用的数据扩充方法有镜像、旋转、尺度变换、裁剪等。这些方法是对原始数据进行处理的，但是在一定程度上还是缺少多样性，使训练的结果缺乏一定的泛化能力。而使用生成对抗网络的方式进行数据扩增，可以在原有数据集的基础上生成新的数据，从而训练一个更加具有鲁棒性的模型。

目前所使用的基于生成对抗网络的图像生成方法存在训练困难，生成图像的质量都不是很高，分辨率低，而且图像细节不足等问题，无法满足实际工程中使用生成对抗网络生成图像进行模型训练和目标检测的需求，需要进一步提高生成图像的质量。

因此，如何提供一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，能够有效解决现有使用基于生成对抗网络的水下声呐图像生成方法存在的训练困难，生成图像的质量都不是很高，分辨率低，而且图像细节不足等问题。使用基于DCGAN的简单模型，针对声呐图像的特点，构建在不降低训练效率的前提下可以有效提升生成图像分辨率的改进生成器和判别器网络。并针对生成图像质量差的问题，在判别器损失函数中引入梯度惩罚项，解决训练过程中梯度消失和梯度骤变问题带来的图像质量差的问题，使基于生成对抗网络的水下声呐图像生成方法能够生成更高质量、更高分辨率和细节更逼真的水下声呐图像。

为了实现上述目的，本发明采用如下技术方案：

一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，包括如下步骤：

S1：构建训练数据样本集；

S2：构建数据预处理系统，对样本数据进行预处理；

S3：构建生成器网络模型，将预处理后的图像输入生成器网络模型，得到保证图像尺寸和细节特征的输出图像；

S4：构建判别器网络模型，判别器网络模型能够与生成器网络模型在训练的过程中不断对抗训练，最终得到质量好的图像；

S5：构建训练模型，通过训练模型能够对生成器网络模型和判别器网络模型进行训练；

S6：构建梯度惩罚项模型，在训练模型损失函数的基础上增加梯度惩罚项，模型训练时，引入的梯度惩罚项使训练过程中梯度不会骤变；

S7：开始训练，获得优质的水下声呐仿真图像。

优选的，数据样本集要保证样本的多样性和数量，通过镜像、旋转、尺度变换、裁剪、平移方法对数据集进行数据扩充操作。

优选的，预处理系统对样本数据的预处理包括：导入图像、尺寸裁剪、图像缩放、修剪图像、图像归一化和图像随机洗牌。

优选的，构建一个包含i+1个反卷积层的生成器网络模型，生成器网络模型的结构依次为：图像输入层→第一个反卷积层→图像批归一化层→Leaky ReLu层→第二个反卷积层→图像批归一化层→Leaky ReLu层→第三个反卷积层→图像批归一化层→Leaky ReLu层→第四个反卷积层→图像批归一化层→Leaky ReLu层→第五个反卷积层→…→Tanh层。

优选的，构建一个包含i+1个卷积层的判别器网络模型，判别器网络模型的结构依次为：图像输入层→第一个卷积层→Leaky ReLu层→第二个卷积层→批归一化层→LeakyReLu层→第三个反卷积层→批归一化层→Leaky ReLu→第四个卷积层→批归一化层→Leaky ReLu→第五个卷积层→……。

优选的，训练模型通过设置Adam优化器更新生成器网络模型的参数，且损失函数采用交叉熵函数；交叉熵损失函数如下所示：

L_BCE＝-z*log(P(LeakyReLu(z)))-(1-z)*log(P(1-LeakyReLu(z)))

其中，z是输入的随机信号，P(LeakyReLu(z))是经过Leaky ReLu层之后判断该信号为真实的概率，z*P(LeakyReLu(z))表示该概率的信息量；(1-z)*log(1-P(LeakyReLu(z)))则表示随机信号产生的结果不为真实的概率。

优选的，引入梯度惩罚项后判别器网络模型的损失函数为：

其中，x为真实样本，D(x)为判别器判断x为真实的概率，z为随机信号，G(z)为随机信号生成数据的分布，D(G(z))为判别器判断G(z)为假的概率，

表示真实样本与生成样本之间的差异，

为D(x)梯度的p范数，λ是该正则项的参数，k是用户定义的固定常数。

优选的，训练时，先初始化学习率、batch_size、梯度惩罚项参数λ、卷积层数量i、迭代次数epoch、Adam优化器动量值β、Leaky ReLu激活函数阈值α，再开始训练。

本发明的有益效果在于：

本发明提出了一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，针对现有的使用基于生成对抗网络的水下声呐图像生成方法存在的训练困难，生成图像的质量都不是很高，分辨率低，而且图像细节不足等问题。使用基于DCGAN的简单模型，针对声呐图像的特点，构建在不降低训练效率的前提下可以有效提升生成图像分辨率的改进生成器和判别器网络。并针对生成图像质量差的问题，在判别器损失函数中引入梯度惩罚项，解决训练过程中梯度消失和梯度骤变的问题带来的图像质量差的问题，使基于生成对抗网络的水下声呐图像生成方法能够生成更高质量、更高分辨率和细节更逼真的水下声呐图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图1是本发明方法流程图。

附图2是本发明数据预处理系统工作流程图。

附图3是本发明生成器网络模型的结构图。

附图4是本发明判别器网络模型的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅附图1，本发明提供了一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，包括以下几个步骤：

步骤一：构建训练数据样本集，应尽可能保证样本的多样性和数量，可以适当使用镜像、旋转、尺度变换、裁剪、平移等方法对数据集进行数据扩充操作。

步骤二：构建数据预处理系统，使样本数据集图像能够满足训练网络的要求。如附图2所示，预处理系统对样本数据的操作步骤如下：

(1)导入图像，从训练数据样本集中将图像依次导入到数据预处理系统中。

(2)尺寸裁剪，将图像裁剪到指定的边界框中，用户可控制的变量为offset_height、offset_width、target_height、target_width，分别表示输入中结果左上角的垂直坐标、输入中结果左上角的水平坐标、结果的高度、结果的宽度，以控制裁剪图像的结果；

(3)图像缩放，随机缩放的尺寸可以由用户自己控制，设置为4*2ⁱ(i＝4,5,6,7,8,...,n)，可根据用户的系统硬件情况自行选定i的取值。用户可根据需求选择采用双线性插值法、最近邻居法、双三次插值法、面积插值法来实现图像缩放功能；

(4)修剪图像，对图像实现张量操作，将张量中的每一个元素都压缩在0～255之间，即使图像像素范围在0～255之间；

(5)图像归一化，用户可以选择归一化范围是[0,1]或者[-1,1]，归一化的目的是为了消除奇异样本数据导致的不良影响；

(6)图像随机洗牌，将每个训练批次的训练数据随机洗牌送入训练，保证了训练结果的随机性。

步骤三：构建生成器网络模型，如附图3所示，构建一个包含i+1个反卷积层的生成器网络模型，用户可根据需求设定网络层数以获得不同分辨率输出的仿真声呐图像。

生成器网络模型的具体结构依次为：

图像输入层→第一个反卷积层→图像批归一化层→Leaky ReLu层→第二个反卷积层→图像批归一化层→Leaky ReLu层→第三个反卷积层→图像批归一化层→LeakyReLu层→第四个反卷积层→图像批归一化层→Leaky ReLu层→第五个反卷积层→…→Tanh层。如果i设置为4，则输入图像特征图尺寸为64*64*3；如果i设置为5，则输入图像特征图尺寸为128*128*3；如果i设置为6，则输入图像特征图尺寸为256*256*3…以此类推。得到的输出图像不仅可以保证图像尺寸，细节特征也得以保留。通过增设卷积层的方式来实现提升分辨率的操作，相比于传统的resize方法，在网络中增设采样卷积层，可以在特征提取的角度直接增加图像中目标的细节特征，进而提升生成的仿真声呐图像的图像质量和分辨率。

步骤四：构建判别器网络模型，如附图4所示，构建一个包含i+1个卷积层的判别器网络模型，用户可根据需求设定网络层数以获得不同分辨率输出的仿真声呐图像。

判别器网络模型的具体结构依次为：

图像输入层→第一个卷积层→Leaky ReLu层→第二个卷积层→批归一化层→Leaky ReLu层→第三个反卷积层→批归一化层→Leaky ReLu→第四个卷积层→批归一化层→Leaky ReLu→第五个卷积层→……如果i设置为4，则输入图像特征图尺寸为64*64*3；如果i设置为5，则输入图像特征图尺寸为128*128*3；如果i设置为6，则输入图像特征图尺寸为256*256*3…以此类推。判别器网络与生成器网络在训练的过程中不断对抗训练，最终得到质量较好的图像。判别器模型的大致结构需要和生成器模型保持对称，对特征张量的操作顺序是相反的。

生成器网络模型和判别器网络模型每个卷积层后均使用了图像批归一化层做归一化处理以防止梯度弥散。其中判别器网络模型中所有的激活函数均设置为Leaky ReLu函数以保证在x＜0时也有梯度变化。生成器网络模型的最后一层采用Tanh激活函数。在判别器损失函数中加入了梯度惩罚项以减小训练过程中的梯度消失和梯度骤变现象，从而提升生成的声呐图像的质量。

步骤五：构建训练模型，主要内容为：设置Adam优化器用于更新生成器的参数，Adam优化器的动量β根据经验一般可以设置为0.5，损失函数为交叉熵函数。该方案中交叉熵损失函数如下所示：

L_BCE＝-z*log(P(LeakyReLu(z)))-(1-z)*log(P(1-LeakyReLu(z)))

由于水下干扰多，声呐图像中存在较大的噪声，且目标特征经常不是很明显。所以这样设置能够更加便于提取到声呐图像中的目标特征信息。采用的损失函数为交叉熵函数，损失函数对于最后一层权重的梯度不再跟激活函数的导数相关，只跟输出值和真实值的差值成正比，此时收敛较快。且由于反向传播的连乘特性，整个权重矩阵的更新会更快，易于模型训练和收敛。

步骤六：构建梯度惩罚项模型。主要步骤为：在基于交叉熵函数的损失函数上增加梯度惩罚项，主要针对判别器网络的损失函数而言。梯度惩罚项的关键在于加入Lipschitz条件作为梯度的变化的限制条件，这样限制了损失函数变化的速度，即限制了梯度变化的速度，有效防止了训练过程中产生梯度消失和梯度骤变的现象。梯度消失和梯度骤变将带来模型崩溃，从而使训练生成的图像质量变差。Lipschitz条件可以对任意度量空间的函数定义，很明显，我们训练中使用到的损失函数符合要求。则引入梯度惩罚项后判别器的损失函数为：

表示真实样本与生成样本之间的差异，

模型训练时，由于Lipschitz条件的限制，梯度惩罚项会将梯度限制在k附近。后引入的梯度惩罚项使训练过程中梯度不会骤变，而有效解决了图像生成质量不高的问题。梯度惩罚项参数根据经验一般可以设置为λ＝0.5、1、2、5、10等。生成器的训练损失函数不变。

步骤七：模型训练，初始化学习率(根据实验经验为了保证实验效果一般将学习率设置为lr＝0.0002)、batch_size(根据用户实验机器的配置自由选择，一般取值为batch_size＝2ⁱ(i＝1,2,3,4,5,6,...))、梯度惩罚项参数λ(根据经验一般可以设置为λ＝0.5、1、2、5、10等)、卷积层数量i(如果i设置为4，则输入图像特征图尺寸为64*64*3；如果i设置为5，则输入图像特征图尺寸为128*128*3；如果i设置为6，则输入图像特征图尺寸为256*256*3…以此类推)、迭代次数epoch(根据用户需求和训练机器配置进行设定，可设定epoch＝8000，本发明设置了即时断点保存，用户可随时暂停训练过程，下一次训练时可从断点处继续进行)、Adam优化器动量值β(根据经验一般可以设置为β＝0.5)、Leaky ReLu激活函数阈值α(根据实验经验一般可以设置为＝0.2)。持续训练直到获得优质的水下声呐仿真图像。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，包括如下步骤：

S1：构建训练数据样本集；

S2：构建数据预处理系统，对样本数据进行预处理；

S7：开始训练，获得优质的水下声呐仿真图像。

2.根据权利要求1所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，数据样本集要保证样本的多样性和数量，通过镜像、旋转、尺度变换、裁剪、平移方法对数据集进行数据扩充操作。

3.根据权利要求2所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，预处理系统对样本数据的预处理包括：导入图像、尺寸裁剪、图像缩放、修剪图像、图像归一化和图像随机洗牌。

4.根据权利要求1所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，构建一个包含i+1个反卷积层的生成器网络模型，生成器网络模型的结构依次为：图像输入层→第一个反卷积层→图像批归一化层→Leaky ReLu层→第二个反卷积层→图像批归一化层→Leaky ReLu层→第三个反卷积层→图像批归一化层→LeakyReLu层→第四个反卷积层→图像批归一化层→Leaky ReLu层→第五个反卷积层→.....→Tanh层。

5.根据权利要求1所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，构建一个包含i+1个卷积层的判别器网络模型，判别器网络模型的结构依次为：图像输入层→第一个卷积层→Leaky ReLu层→第二个卷积层→批归一化层→Leaky ReLu层→第三个反卷积层→批归一化层→Leaky ReLu→第四个卷积层→批归一化层→Leaky ReLu→第五个卷积层→……。

6.根据权利要求1所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，训练模型通过设置Adam优化器更新生成器网络模型的参数，且损失函数采用交叉熵函数；交叉熵损失函数如下所示：

L_BCE＝-z*log(P(LeakyReLu(z)))-(1-z)*log(P(1-LeakyReLu(z)))

7.根据权利要求1所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，引入梯度惩罚项后判别器网络模型的损失函数为：

其中，x为真实样本，D(x)为判别器判断x为真实的概率，z为随机信号，G(z)为随机信号生成数据的分布，D(G(z))为判别器判断G(z)为假的概率；

表示真实样本与生成样本之间的差异；

8.根据权利要求7所述的一种基于生成式对抗网络的水下声呐仿真图像生成和数据扩充方法，其特征在于，训练时，先初始化学习率、batch_size、梯度惩罚项参数λ、卷积层数量i、迭代次数epoch、Adam优化器动量值β、Leaky ReLu激活函数阈值α，再开始训练。