CN113420870A

CN113420870A - 用于水声目标识别的U-Net结构生成对抗网络及方法

Info

Publication number: CN113420870A
Application number: CN202110753982.1A
Authority: CN
Inventors: 曾向阳; 薛灵芝; 杨爽
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-07-04
Filing date: 2021-07-04
Publication date: 2021-09-21
Anticipated expiration: 2041-07-04
Also published as: CN113420870B

Abstract

本发明涉及一种用于水声目标识别的U‑Net结构生成对抗网络及方法，建立适用水下目标识别的基于U‑Net结构的生成对抗模型，该模型可以很好的消除小样本数据在深度学习网络中的过拟合问题，利用多尺度特征提取的跳跃连接提取水声特征，送入生成对抗网络中。实验利用相同的训练集与测试集对最新的基于水中目标识别方法UATC‑Densenet方法做识别实验，并与本方法进行识别准确率对比，本方法的识别率均优于UATC‑Densenet方法，比较常见的深度网络的水中识别方法DBN网络与DAE网络，以及基础网络GAN网络，在‑20dB～20dB的信噪比范围内，本方法的识别率均高于其他网络。实验证明所提出方法在加大网络层数的情况下，消除过拟合现象，提高水声信号的识别率，增大网络模型的鲁棒性。

Description

用于水声目标识别的U-Net结构生成对抗网络及方法

技术领域

本发明属于水声目标识别方法，涉及一种用于水声目标识别的U-Net结构生成对抗网络(GAN_U-Net)及在水声目标识别中的应用方法。

背景技术

近年来，深度学习在水声识别中的应用日趋增多，其中深度生成对抗网络由于其博弈的思想，成为深度学习的研究热点，在水声识别中也有应用。在水声信号的小样本情形下，GAN网络通过生成模型与真实样本多次相互对抗，使得生成模型无限接近真实样本，对抗模型可以很好的识别出真实样本与生成样本。GAN网络应用反向传播算法使得判断模型的准确度进一步提高，但由于水声目标信号的样本数量有限及随机性的特点，使得GAN网络在不同信噪比情形下信号的识别率不稳定，鲁棒性较差；同时在正常的水下背景噪声中，识别率不高。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种用于水声目标识别的U-Net结构生成对抗网络及方法，克服GAN网络在不同信噪比条件下识别率不稳定，鲁棒性较差的缺点。基于U-Net结构的生成对抗网络。该网络通过提取多尺度特征来提高识别率，同时针对小样本容易过拟合的问题，在多尺度的网络提取中引入跳跃连接，消除过拟合现象。

技术方案

一种用于水声目标识别的U-Net结构生成对抗网络方法，其特征在于步骤如下：

步骤1、设置U-Net网络：由下采样路径与上采样路径组成U-Net模型，将训练集数据首先输入下采样路径，连接两个1×3大小的卷积核，重复卷积操作，然后利用一个激活函数eLU进行校正，然后利用一个1×2卷积核大小、步长为2的最大池化操作用于第一次下采样操作，每次下采用完以后，增加一倍的通道数；将第一次下采样的输出值作为第二次下采样的输入值，再重复两次上述操作；第三次下采样的输出作为第一次上采样的输入，每一次上采样操作包含一个卷积核大小为1×3的反卷积操作，并与下采样路径中同规模卷积输出拼接，对拼接结果重复应用两个1×3大小的卷积核重复两次卷积操作，其中，第一次卷积运算时，通道数量减半，然后利用一个激活函数eLU进行校正；将第一次的上采样输出作为第二次上采样的输入，再重复两次上采样操作；三次上采样操作以后的输出加入稀疏层，并映射到与类别数量相同的一维向量，此一维向量作为网络输出为z′；

步骤2、设置GAN模型：

GAN模型的目标函数定义为：

其中：x～p_d(x)、z～p_z(z)分别代表真实样本和生成样本分布，生成样本为U-Net网络的输出，D、G代表判别模型和生成模型，D(x)表示判别模型的输出，G(z)表示生成模型的输出，表示为z′；

所述判别模型目标函数为：

所述生成模型目标函数为：

步骤4、基于U-Net结构生成对抗网络：

以U-Net网络作为GAN网络的生成模型，将U-Net网络的输出z′与水声样本同时送入生成对抗网络的判别模型，利用输出函数与样本标签的交叉熵优化生成模型与判别模型。

一种采用所述U-Net结构生成对抗网络对水声目标识别的方法，其特征在于步骤如下：

步骤1：对采样的原始水声信号以每n个采样点分为一帧，对分帧以后的信号加汉明窗，分别对每一帧信号进行短时傅里叶变换；

其中，u为短时傅里叶变换的时间变量，z(u)为原始信号，t为窗函数与原始信号的时间差，g(u-t)为窗函数，f为傅里叶变换复平面上的旋转频率；

步骤2：在步骤1处理的信号中随机选取1/3样本作为训练集，剩余2/3样本作为测试集；

步骤3：训练基于U-Net结构生成对抗网络

将步骤2得到的训练样本z输入U-Net模型，得到与z相同大小的输出z′，然后将真实样本z与生成样本z′同时送入判别模型中，得到输出D(Z)与D(z′)，分别与样本标签求交叉熵然后相加作为损失函数；整个网络的目标函数可以写为：

其中z～p_z(z)代表z服从训练样本z的分布，D、G代表判别模型和生成模型，D(z)表示判别模型的输出，G(z)表示生成模型的输出，表示为z′；

整个网络的判别模型目标函数为：

整个网络的生成模型目标函数为：

利用损失函数优化网络模型，优化过程选取Adam优化器，优化时的初始学习率为0.001，网络参数的初始化选择随机初始化方法。优化网络过程中首先固定生成器的参数，优化判别器的参数两次，然后固定判别器的参数优化生成器一次，循环500次，得到优化好的生成器与判别器模型；

步骤4、测试基于U-Net结构生成对抗网络：将步骤2得到的测试集输入步骤3训练好的模型中，测试模型的稳健性；

以测试通过的模型对实施对水声信号的识别。

有益效果

本发明提出的一种用于水声目标识别的U-Net结构生成对抗网络及方法，针对水声信号的小样本以及不稳定性与随机性，提出一种适用水下目标识别的基于U-Net结构的生成对抗模型，该模型可以很好的消除小样本数据在深度学习网络中的过拟合问题，利用多尺度特征提取方法，提高水声信号的识别率。

本发明提出基于U-Net结构的生成对抗模型提高水声信号的识别率。传统的水声识别方法，均在识别之前有些对样本的假设条件，然而有些假设条件在实际的水下环境中是无法完全满足的。目前普遍应用于水声识别的深度学习网络模型，可以在不用假设独立性的情况下很好的对信号进行识别，但是由于水声信号的小样本特性，深度学习的网络均使用浅层网络防止过拟合现象。每一层深度学习的网络都是对特定模糊特征的提取，层数太少，无法精确提取用于分类的有效特征，成为制约深度学习用于水声信号识别任务的主要因素。在此基础上研究者提出跳跃连接网络(UATC-Densenet)，利用网络间的跳跃连接，消除过拟合现象。本发明在此基础上，利用多尺度特征提取的跳跃连接提取水声特征，送入生成对抗网络中。实验利用相同的训练集与测试集对最新的基于水中目标识别方法UATC-Densenet方法做识别实验，并与本方法进行识别准确率对比，由图3可以得出，在-20dB～20dB的信噪比范围内，本方法的识别率均优于UATC-Densenet方法，进一步研究比较常见的深度网络的水中识别方法DBN网络与DAE网络，以及本方法的基础网络GAN网络，在-20dB～20dB的信噪比范围内，本方法的识别率均高于其他网络。实验证明所提出方法在加大网络层数的情况下，消除过拟合现象，提高水声信号的识别率，增大网络模型的鲁棒性，

附图说明

图1 U-Net模型

图2基于U-Net网络的生成对抗模型

图3识别结果对比图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明解决其技术问题所采用的技术方案：一种基于U-Net结构的生成对抗网络在水声目标识别方法中的应用，网络分为两个部分，第一部生成模型(生成器)，能生成与真实信号相似的水声信号(U-Net结构实现)。第二部分为对抗模型(判别器)，能对生成信号的类别进行判断(卷积神经网络实现)，从而优化生成模型的特征提取能力。其特点包括下述步骤：

步骤1：对原始水声信号进行采样、分帧、短时傅里叶变换得到信号的频域信息。首先对原始信号选取特定频率采样，对采样以后的信号，每n个点作为一帧，为了保存完整的水声信号特征，对分帧以后的信号加汉明窗，分别对每一帧信号进行短时傅里叶变换。短时傅里叶变换就是先把一个函数和窗函数进行相乘，然后再进行一维的傅里叶变换，并通过窗函数的滑动得到一系列的傅里叶变化结果，将这些结果排开便得到一个二维的表象，具体的数学表达如式1所示：

其中，u为短时傅里叶变换的时间变量，z(u)为原始信号，t为窗函数与原始信号的时间差，g(u-t)为窗函数，f为傅里叶变换复平面上的旋转频率。

步骤2：训练集送入基于U-Net结构的生成对抗模型中训练出稳定的识别模型。

1、将步骤1处理好的信号，随机选取1/3样本作为训练集，剩余2/3样本作为测试集。

2、GAN模型基于博弈思想，包含两个部分：生成模型与判别模型，生成模型与判别模型可以由深度神经网络构成。随机噪声经由生成模型变换得到与真实样本相同长度的序列，再交由判别模型去判定样本的真假性。判别模型最终输出一个介于(0,1)之间的数：当判定输入样本为真时，模型输出接近1的值；判定输入样本为假时，模型输出接近0的值。网络优化两个目标：(1)判别模型对于样本的真假性尽量判断准确；(2)生成模型尽量生成足以造成判别模型判断失误的假样本。因此GAN模型的目标函数定义为：

其中x～p_d(x)、z～p_z(z)分别代表真实样本和生成样本分布，D、G代表判别模型和生成模型，D(x)表示判别模型的输出，G(z)表示生成模型的输出。将该目标函数拆成两项，分别讨论判别模型与生成模型的优化问题。

对判别模型D进行优化时，固定生成模型G的参数。当样本来源于真实样本集，判别模型D(x)需尽量接近于1；当样本来源生成模型生成的假样本集，判别模型D(G(z))需尽量接近于0，即1-D(G(z))接近于1，故判别模型目标函数为：

对生成模型G进行优化时，固定判别模型D的参数。生成模型的目标函数只有一个，在判别模型D在判定生成样本z的真假性时，使其输出为真，即D(G(z))趋近于1，1-D(G(z))趋近于0。故生成模型目标函数为：

3、GAN模型中的生成模型主要作用是将一种分布投影到另一种分布上，判别模型对真实数据的分布与生成模型的输出分布进行判别，生成器与判别器相互博弈过程中，达到纳什均衡。对于水下声信号样本数量不足的情况，根据有限的样本，在生成模型中，将某一种特定的分布映射到水声样本的分布是很困难的，对于水声识别问题中，判别器直接对输入数据分类，如果生成器的输出不能很好的映射水声分布，判别器的作用就会弱化，因此，本文提出利用U-Net网络的上采样部分作为GAN网络的生成模型，从模型本身映射分布。U-Net模型是由卷积神经网络组成的多尺度特征提取模型，U-Net模型框架如附图1所示，由下采样路径与上采样路径组成，每一条路径上使用卷积神经网络，对于卷积神经网络，一般利用1×1或3×3大小的卷积核作为每一层的滤波器，由于尺寸太小，只能对水声信号的局部特征进行提取，没有办法提取全局特征，实验证明，简单的增大卷积核尺寸不能提取全局特征，而且额外增加参数数量，加大网络计算量。U-Net模型利用下采样与上采样方法提取多尺度特征，在下采样路径中，每一次都会提取更细微尺度的特征，在上采样路径中，上采样可以模糊细微尺度特征，提取更大局部特征，经过几次上采样以后，可以模糊大部分局部特征，提取全局特征。

U-Net模型由下采样路径与上采样路径组成，将训练集数据首先输入下采样路径，连接两个1×3大小的卷积核，重复卷积操作，然后利用一个激活函数(eLU)进行校正，然后利用一个1×2卷积核大小、步长为2的最大池化操作用于第一次下采样操作，每次下采用完以后，增加一倍的通道数。将第一次下采样的输出值作为第二次下采样的输入值，再重复两次上述操作。第三次下采样的输出作为第一次上采样的输入，每一次上采样操作包含一个卷积核大小为1×3的反卷积操作，并与下采样路径中同规模卷积输出拼接，对拼接结果重复应用两个1×3大小的卷积核重复两次卷积操作，其中，第一次卷积运算时，通道数量减半，然后利用一个激活函数(eLU)进行校正。将第一次的上采用输出作为第二次上采样的输入，再重复两次上采样操作。三次上采样操作以后的输出加入稀疏层，并映射到与类别数相同的一维向量，将输出数据送入GAN网络中，完整模型如图2所示。

4、本发明的实验数据是三类实测水声数据，对网络的训练过程，利用随机梯度下降实现，将步骤1得到的水声样本与其对应的类别标签用于训练网络，利用网络最终输出特征的softmax函数与对应标签的交叉熵函数作为网络的优化依据，softmax层是求取输出属于某一类的概率，数学表达式如式5所示：

其中，x_i代表网络层的第i个单元的输出。

交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，本方法中表示的是预测类别与真实样本标签之间的差异，交叉熵的值越小，模型预测效果越好，交叉熵的数学表达式如式6所示：

其中，y′_i表示真实标签中的第i个值，y_i表示softmax输出层额第i个向量。优化方法采用反向传播算法更新网络中的所有参数。

优化模型利用反向传播算法，原理是找到使得损失函数(交叉熵)下降最快的变量变化方向，更新原始变量。梯度下降算法是一种求损失函数最小化的重要方法之一，主要思想是导数为0处是一个函数的最小值点，卷积神经网络的反向传播分为池化层的反向传播与卷积层的反向传播。

卷积层反向传播过程首先求出误差函数下降最快的方向，从卷积层到池化层的反向传播数学表达式如式8：

其中，H代表误差函数(交叉熵)，ω^l代表第l层的卷积核函数，a^l-1代表第l-1层的池化层输出函数，*代表卷积操作，rot180代表对卷积核的反转；

Δw^l代表第l层卷积层的卷积核权重的微小变化量，微小变化量所取的方向是变化最快的方向，以最快的速度找到损失函数的最小值，在梯度方向上，变换是最快的，取微小变化量为梯度，表达式为式9：

其中，η为学习率，w^l代表第l层卷积核函数，用微小变化量来更新，更新的形式为式10所示：

w^l′＝w^l-Δw^l (10)

利用梯度下降法，对所有的权重进行更新，优化网络中所有的权重值。

利用卷积神经网络反向传播算法优化基于U-Net网络的生成对抗模型，使得模型的识别效果达到最优，取误差小于0.001时，停止训练。基于U-Net网络的生成对抗模型将U-Net模型作为生成对抗网络的生成模型，其目标函数由式(2)改为：

网络的判别模型目标函数由式(3)改为：

网络的生成模型目标函数由式(3)改为：

步骤3：将测试集送入基于U-Net结构的生成对抗模型中测试模型的稳健性。

基于U-Net结构的生成对抗模型网络层数较深，利用测试集测试在小样本下，模型是否会发生过拟合现象，保存步骤2已经训练良好的模型，对模型输入测试集，观察测试集的识别率与训练集的识别率，得出一种稳健的网络模型。

具体实施例：

步骤1首先对样本进行采样、分帧加窗、短时傅里叶变换，采样频率为8000，分帧时200个点为一帧，帧间重叠100个点，加窗函数选择汉明窗，窗长为200，对加窗以后的函数做短时傅里叶变换。

步骤2将步骤1得到的数据分为两个部分，随机选取1/3的数据作为训练数据，2/3的数据作为测试数据，测试数据与训练数据之间不重复。设置GAN模型的参数。其中生成模型由U-Net结构构成，其参数设置为：下采样路径包含3次下采样，每一次下采样前对数据进行两次相同的卷积操作，选取卷积核大小为1×3，步长为1，通道数分别为64、128、256，每一次下采样对卷积后的数据进行最大池化操作，选取核大小为1×3，步长为2，通道数加倍；上采样路径包含3次上采样，每一次上采样以后采样点加倍，通道数减半，采样以后与同尺度的下采样数据拼接，对拼接数据连续两次卷积操作，选取卷积核大小为1×3，步长为1，通道数分别为256、128、64。对抗模型的参数设置为：五层卷积层，卷积核的大小1×3、1×3、1×5、1×5、1×5，步长为1，通道数为32、32、64、64、64。优化过程选取Adam优化器，优化时的初始学习率为0.001。

步骤3将步骤1得到的训练集输入到步骤2设置好的GAN模型中，训练网络模型，当得到的识别率误差小于0.001时停止训练。将测试集输入训练好的模型中，测试模型的稳健性。

本方法对三类实测水声数据下的识别率如附图3所示，图中展示了基于U-Net结构的GAN模型(GAN_U-Net)在不同信噪比条件下的识别率，并与常用的水声识别深度网络DBN模型、DAE模型、GAN模型以及最新的水声识别深度网络UATC-Densenet模型进行比较，结果表明，本发明提出的模型在相同信噪比条件下识别率均优于其他网络模型。