CN113688941A

CN113688941A - 基于生成对抗网络的小样本声呐图像分类识别优化方法

Info

Publication number: CN113688941A
Application number: CN202111057694.9A
Authority: CN
Inventors: 梁红; 徐微雨; 杨长生
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-11-23

Abstract

本发明涉及一种基于生成对抗网络的小样本声呐图像分类识别优化方法，利用真实声呐图像样本通过生成对抗网络进行数据合成，合成数据作为真实训练样本的扩充数据用于深层卷积神经网络训练，完成对水下目标声呐图像更加准确的分类与识别。使用合成图像数据对原有小样本情况下的数据集互补增强后进行网络训练，能够避免深层卷积神经网络过拟合问题，获得86.85％的识别准确率，识别精度有明显提升，有效解决了水下目标识别研究中声呐图像样本不足的问题，具有广泛的应用前景，可进一步应用于实测水下目标声呐图像的分类识别。

Description

基于生成对抗网络的小样本声呐图像分类识别优化方法

技术领域

本发明属于水下目标声呐图像分类与识别领域，，涉及一种基于生成对抗网络的小样本声呐图像分类识别优化方法，具体涉及一种通过对声呐图像数据集进行互补增强，从而提高深层卷积神经网络对小样本声呐图像分类识别准确率的方法。

背景技术

目前大部分对于水下目标识别的研究是直接应用经由光学图像更改优化的网络，这些网络模型在光学图像数据集上极高的识别率，是基于数以百万记的光学图片的积累，搭配越来越深层的网络才取得的。而水下目标识别研究所用的声呐图像数量往往远少于光学图像，在深层卷积神经网络的训练中会发生过拟合问题，水下目标的分类识别准确率较低。为了解决小样本情况下深层卷积神经网络在声呐图像数据集上识别率较低的问题，采用生成对抗网络(Generative Adversarial Networks,GAN)对声呐图像进行数据扩充，能够有效解决小样本情况下深层卷积神经网络模型的训练和识别问题。

对于生成对抗网络，Martin Arjovsky等人于2017年提出的WGAN，其网络使用Wassertein距离作为度量，解决了GAN训练不稳定的问题，确保了生成样本的多样性；Guo-Jun Qi等人于2017年提出的LSGAN，使用最小二乘函数作为GAN的损失函数，构建了一个稳定且收敛快的GAN。然而这些基于GAN的改进和应用目前主要在光学图像上，对于水下目标声呐图像的合成效果较差，在样本数较少时生成的图片中目标主体结构特征保留较少，并伴随有大量噪点。为了使得生成对抗网络合成的图像数据与真实的水下目标声呐图像更加相似，本方法在深层卷积神经网络基础上搭建了一个适用于声呐图像的生成对抗网络，通过合成大量更加清晰相似的水下目标声呐图像用于网络训练，达到提升识别精度的目的，且国内发明专利中并未涉及到利用生成对抗网络针对小样本情况下声呐图像识别的优化，故该发明是十分有必要的。

我国是一个海洋大国，海洋资源丰富，但仅有一小部分被人类探测和熟知，仍有极大的未知区域等待着开发。由于人类的力量有限，因此需要进行水下无人探测，而水下目标识别就是核心技术之一。由于光波在水下传播距离短、衰减快，而低频声波在水下传播距离远、衰减小，可以实现各种复杂水域环境的远距离成像，因此水下目标识别主要依赖声呐成像。然而声呐成像的成像效果远不如光学图像，并且水下声呐图像采集通常需要耗费大量人力物力，很难获得足够的水下图像数据用于卷积神经网络的训练，因此需要对声呐图像数据进行增广，用于提升水下目标识别的精度。针对上述状况，本发明提出一种基于生成对抗网络进行数据增广扩充的小样本声呐图像分类识别优化算法。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于生成对抗网络的小样本声呐图像分类识别优化方法，可以针对声呐图像特点，利用现有真实图像样本进行数据合成，生成与真实声呐图像相似且清晰度较高的图片，从而实现声呐图像数据集的扩充，获取大量训练样本，利用更多声呐图像样本进行深层卷积神经网络的训练，减小过拟合问题，达到更高的识别精度。

技术方案

一种基于生成对抗网络的小样本声呐图像分类识别优化方法，其特征在于步骤如下：

步骤1：搜集水下目标声呐图像，建立水下目标声呐图像数据集；对声呐图像采用3×3中值滤波处理，去除声呐图像中的椒盐噪声图像；

对滤波后数据集进行规范化操作：

1、使用Lanczos插值法将搜集到的尺寸不一的声呐图片进行重置，统一数据集中声呐图像的输入大小；

2、通过公式Gray＝0.299R+0.587G+0.114B将RGB图像转化为灰度图像，对声呐图片进行灰度化处理；

3、将像素值右[0,255]归一化为[0,1]，进行像素值归一化预处理；

将处理后的数据分为训练集、验证集和测试集；

步骤2、搭建生成对抗网络模型：

模型包含生成器和判别器D；

所述生成器G的结构为一个全连接层连接五个串联的反卷积层，用来捕获数据特点分布细节的模型，最终输出为图像的像素值，将像素值归一化在[-1,1]区间内，最后一层输出的激活函数使用tanh函数，其表达式为：

生成器G使用反卷积操作对输入矩阵的长和宽进行拓展，反卷积作为卷积的逆操作，其输入输出尺寸变换原则为：

若(o+2p-k)％s＝0，则反卷积后输出图像尺寸o＝s(i-1)-2p+k；

若(o+2p-k)％s≠0，则反卷积后输出图像尺寸o＝s(i-1)-2p+k+1；

其中，i表示输入矩阵尺寸，o表示输出矩阵尺寸，k表示卷积核大小，d表示卷积核数量，s表示步长，p表示反卷积过程中的填充参数；

所述判别器D的结构为四个串联的卷积层连接一个全连接层，用来估计样本数据来自真实训练数据还是生成器的模型，即进行二分类任务，最后一层输出为一个元素，输出结果为0到1之间的数值，其中0表示数据来源于生成器的生成图像，1表示数据来源于真实图像样本；判别器的最后一层使用Sigmoid函数作为分类函数，其表达式为：

所述各层之间的激活函数使用PReLU函数，表达式为：

f_PReLU(x)＝max(αx,x)

其一阶导函数的表达式为：

其中参数α随着网络的训练而改变能够更好地适应网络，加速网络收敛；

步骤3、训练及生成声呐图像：将训练集数据输入生成对抗网络训练，训练结束后生成与真实图像结构相似的声呐图像为合成数据；

步骤4：将合成数据加入原训练集中对原来小样本情况下的声呐图像训练集样本进行扩充增加得到样本扩充后的声呐图像数据集；

步骤5：以样本扩充后的声呐图像数据集对经典网络结构进行训练，并观测训练过程中训练集的损失变化曲线以及验证集的识别准确率变化曲线，若训练集损失逐渐减小，网络对验证集的分类准确率不断上升，最终趋于稳定，表明训练完成后的网络结构能够对声呐图像数据进行正确分类；若曲线变化未达到预期，需重新训练网络；

步骤6：以步骤5训练后的经典网络结构对原声呐图像数据集中的测试集样本进行分类与识别；完成对小样本声呐图像分类识别的优化后，根据真实样本生成更多声呐图像作为训练集，使网络结构能够得到充分训练，从而在真实测试集样本上识别更加准确。

所述步骤3的训练过程为：

步骤1)：生成器模型首先产生随机噪声，经过全连接层和像素值规范化之后，转化为矩阵输入反卷积层中，利用批次标准化操作和激活函数对特征值进行归一化，提高网络收敛的稳定性，然后通过反卷积操作扩充矩阵的长和宽，缩减矩阵维度；经过5个反卷积层之后，网络输出与真实声呐图像尺寸相同的生成数据；

步骤2)：对于生成数据或真实数据，将其打乱顺序输入判别器中，经过4个卷积层，对图像进行特征提取，然后通过全连接层转化为一个值，最终这个值经过sigmoid激活函数的整合输出判别器对图片来源的概率估算值，即进行判别真伪的二分类任务；损失函数为二分类交叉熵损失函数，其表达式为：

L_BCE(x_i,y_i)＝y_ilogx_i+(1-y_i)log(1-x_i)

其中，x_i为第i次迭代目标的输出值，y_i为真实标签值；

步骤3)：计算出损失函数值后，对整个网络进行反向传播，进而调整生成器的输出，使生成的图像数据与真实图像数据更加相似。

所述经典网络结构为ResNet-18、ResNet-34、ResNet-50或ResNet-101。

有益效果

本发明提出的一种基于生成对抗网络的小样本声呐图像分类识别优化方法，利用真实声呐图像样本通过生成对抗网络进行数据合成，合成数据作为真实训练样本的扩充数据用于深层卷积神经网络训练，完成对水下目标声呐图像更加准确的分类与识别。主要包括：搜集水下目标声呐图像，建立水下目标声呐图像数据集并对图像进行预处理；针对现有真实声呐图像样本，搭建生成对抗网络进行图像生成；利用合成的图像数据，对原声呐图像数据集中的训练集样本进行互补增强，增加深层网络模型训练所用样本数，同时不改变数据集中验证集和测试集；针对扩充后得到的大量训练集样本，使用深层卷积神经网络模型进行训练，对水下目标进行更加精确的分类与识别。

通过以上技术方案，可以获知本发明的有益效果在于：

水下目标声呐图像获取困难，通常具有小样本情况，数据样本较少，直接针对获取到的小样本声呐图像，使用深层卷积神经网络进行训练识别，会产生过拟合现象，识别准确率较低，仅有79.88％。本发明提出的小样本优化方法，可以依据现有真实图像，通过设计搭建的生成对抗网络进行数据合成，得到大量质量更好、清晰度更高、噪声更少、与真实声呐图像中目标主体结构更加相似的生成图像样本，使用合成图像数据对原有小样本情况下的数据集互补增强后进行网络训练，能够避免深层卷积神经网络过拟合问题，获得86.85％的识别准确率，识别精度有明显提升，有效解决了水下目标识别研究中声呐图像样本不足的问题，具有广泛的应用前景，可进一步应用于实测水下目标声呐图像的分类识别。

附图说明

图1为本发明的流程图。

图2为建立的小样本声呐图像数据集介绍。

图3为本发明搭建的生成对抗网络结构示意图，其中图3(a)是生成器模型结构示意图，图3(b)是判别器模型结构示意图。

图4为生成对抗网络训练过程示意图。

图5为小样本声呐图像数据集中训练集样本的扩充。

图6为样本扩充增加后声呐图像数据集的训练过程，其中图6(a)是训练集损失变化曲线，图6(b)是验证集识别准确率变化曲线。

图7为水下目标声呐图像数据集样本扩充前后的识别准确率对比。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明的基本思路是基于卷积神经网络设计搭建一个适用于声呐图像的生成对抗网络，利用生成对抗网络生成的图像数据，对声呐图像数据集进行互补增强，得到大量训练样本用于深层卷积神经网络的模型训练，从而达到更高精度的水下目标识别准确率，完成对小样本声呐图像分类识别的优化。

参照图1，本发明实现步骤如下：

步骤一：建立与预处理小样本声呐图像数据集

搜集并建立的水下目标声呐图像数据集中包含多种类型的声呐图像，例如侧扫声呐、前视声呐和三维成像声呐等多种成像设备，以增强本发明对多类型声呐图像的适应性。

由于水下声传播环境复杂，成像声呐的回波信号不可避免会受到发射系统自噪声、海洋环境噪声、混响等多方面的干扰，导致声呐图像被噪声严重污染，给图像特征提取带来不利的影响。因此，针对收集到的声呐图像采用3×3中值滤波处理，在保留更多图片细节信息的基础上去除声呐图像中的椒盐噪声。

完成声呐图像的降噪操作之后，为了对输入进行一定的统一规范，提高输入的可靠性，对滤波后数据集进行规范化操作：

1)使用Lanczos插值法将搜集到的尺寸不一的声呐图片大小进行重置，统一数据集中声呐图像的输入大小；

2)通过公式Gray＝0.299R+0.587G+0.114B将RGB图像转化为灰度图像，对声呐图片进行灰度化处理；

3)将像素值右[0,255]归一化为[0,1]，进行像素值归一化预处理。

将处理后的数据分为训练集和验证集，其中80％的数据为训练集，20％的数据为验证集；

步骤二：搭建生成对抗网络

依据预处理之后得到的声呐图像数据信息，搭建适用于声呐图像的生成对抗网络模型。该模型包含两个部分，一个是生成器G，另一个是判别器D。为了在图像的组成部分和背景上学习到丰富的层次表达，并使得生成的图片具有非常好的泛化能力，本方法使用卷积神经网络搭建生成对抗网络的生成器和判别器部分。

生成器是用来捕获数据特点分布细节的模型，主要使用反卷积操作对输入矩阵的长和宽进行拓展，反卷积作为卷积的逆操作，其输入输出尺寸变换原则为

若(o+2p-k)％s＝0，则反卷积后输出图像尺寸o＝s(i-1)-2p+k；

若(o+2p-k)％s≠0，则反卷积后输出图像尺寸o＝s(i-1)-2p+k+1。

其中，i表示输入矩阵尺寸，o表示输出矩阵尺寸，k表示卷积核大小，d表示卷积核数量，s表示步长，p表示反卷积过程中的填充参数。

5个反卷积层的最终输出为图像的像素值，为了将像素值归一化在[-1,1]区间内，最后一层输出的激活函数使用tanh函数，其表达式为

而判别器是用来估计样本数据来自真实训练数据还是生成器的模型，即进行二分类任务，最后一层输出为一个元素，输出结果为0到1之间的数值，其中0表示数据来源于生成器的生成图像，1表示数据来源于真实图像样本。因此，判别器的最后一层使用Sigmoid函数作为分类函数，其表达式为

另外，搭建的生成对抗网络各层之间的激活函数使用PReLU函数，表达式为

f_PReLU(x)＝max(αx,x)

其一阶导函数的表达式为：

其中参数α随着网络的训练而改变能够更好地适应网络，加速网络收敛。

至此，本发明中用于声呐图像合成的生成对抗网络搭建完成。

步骤三：生成声呐图像

将真实声呐图像样本输入到本发明搭建的生成对抗网络中，利用生成器和判别器的对抗博弈过程，输出得到与真实声呐图像相似但不完全相同的高质量合成图像数据。其训练过程如下。

本方法中生成器模型首先产生随机噪声，经过全连接层和像素值规范化之后，转化为矩阵输入反卷积层中，利用批次标准化操作和激活函数对特征值进行归一化，提高网络收敛的稳定性，然后通过反卷积操作扩充矩阵的长和宽，缩减矩阵维度。经过5个反卷积层之后，网络输出与真实声呐图像尺寸相同的生成数据。

对于生成数据或真实数据，将其打乱顺序输入判别器中，经过4个卷积层，对图像进行特征提取，然后通过全连接层转化为一个值，最终这个值经过sigmoid激活函数的整合输出判别器对图片来源的概率估算值，也就是进行判别真伪的二分类任务。这里的损失函数为常见的二分类交叉熵损失函数，其表达式为

L_BCE(x_i,y_i)＝y_ilogx_i+(1-y_i)log(1-x_i)

其中，x_i为第i次迭代目标的输出值，y_i为真实标签值。

计算出损失函数值后，便可以对整个网络进行反向传播，进而调整生成器的输出，使生成的图像数据与真实图像数据更加相似。

这样的训练过程是一个关于损失值函数V(G,D)的对抗博弈问题：

其中，P_data表示真实数据的分布，P_g表示生成数据的分布，P_z(z)表示输入噪声的先验变量，G(z)表示数据空间的映射，

表示数据来自于真实数据分布的概率。

在这个对抗训练过程中，对于生成器G来说，为了尽可能欺骗判别器D，需要最大化生成样本的判别概率D(G(z))，即最小化log(1-D(G(z)))。

这样经过多次不断往复的交替训练之后，最终的情况是模型收敛，生成器G和判别器D达到纳什平衡，此时p_real(x)＝p_fake(x)，使得判别器判别不出样本来自于生成器的输出还是真实的输出，即D(x)＝0.5。

至此，生成对抗网络训练结束，生成的声呐图像与真实图像结构相似，可用于后续深层卷积神经网络的训练。

步骤四：扩充训练集样本

在不改变验证集和测试集数据的基础上，使用合成数据对原来小样本情况下的声呐图像训练集样本进行扩充增加，得到大量可用于网络训练的水下目标声呐图像样本，以避免深层神经网络训练的过拟合。

步骤五：训练深层卷积神经网络

为了确保本方法对深层卷积神经网络的适应性，针对样本扩充后的声呐图像数据集，使用ResNet-18、ResNet-34、ResNet-50、ResNet-101四种不同的经典网络结构进行训练，并观测训练过程。

以样本扩充后的声呐图像数据集对经典网络结构进行训练，并观测训练过程中训练集的损失变化曲线以及验证集的识别准确率变化曲线。若训练集损失逐渐减小，网络对验证集的分类准确率不断上升，最终趋于稳定，表明训练完成后的网络结构能够对声呐图像数据进行正确分类。若曲线变化未达到预期，需重新训练网络。

步骤六：分类与识别水下目标

包括ResNet-18、ResNet-34、ResNet-50、ResNet-101在内的四种深层卷积神经网络训练完成之后，针对声呐图像数据集中的测试集样本进行分类与识别，识别准确率结果如附图7所示。

根据真实样本生成更多声呐图像作为训练集，使网络结构能够得到充分训练，从而在真实测试集样本上识别更加准确。

从图7可以看出，通过使用GAN产生的合成数据对数据集进行合理的扩充后，四种经典resnet网络的变体结构对前述建立声呐图像测试集的识别率都有提升，且最大提高了6.97％。因此，通过GAN对数据进行有规律的增广是一种有效且实用的方法，减小了网络的过拟合，解决了水下声呐图像数据量不足的问题。可以预见，继续对数据集进行扩充仍能在一定程度上减少网络过拟合。

通过以上步骤，即可完成对小样本声呐图像分类识别的优化，实现对小样本水下目标声呐图像更加准确的分类与识别。