CN117648851A

CN117648851A - 一种基于生成对抗网络的声纳数据仿真生成方法

Info

Publication number: CN117648851A
Application number: CN202311391738.0A
Authority: CN
Inventors: 孔万增; 朱仪迪; 王海啸; 白植权
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-03-05

Abstract

本发明公开了一种基于生成对抗网络的声纳数据仿真生成方法。本发明如下：1、对原始声纳音频数据进行切片处理，获得包括多个声纳切片数据的训练集。2、将声纳切片数据转化为梅尔频谱图。3、构建生成对抗网络模型。4、对生成对抗网络进行训练：5、基于取生成对抗网络的生成器在不同轮次的输出，获得多个不同的合并声纳音频仿真数据。本发明将深度学习技术融入到声纳数据仿真中，用到了生成对抗网络；将音频转换为梅尔频谱图图像再通过生成对抗网络模型进行仿真，从而生成仿真音频数据。并且找到合理有效的评估方法对仿真音频数据的效果进行量化评估。本发明可以生成高质量一维声纳音频并且有合理量化评估仿真声纳音频方法。

Description

一种基于生成对抗网络的声纳数据仿真生成方法

技术领域

本发明属于人工智能与声纳数据仿真的技术领域，具体涉及一种基于生成对抗网络的声纳数据仿真生成方法。

背景技术

我国拥有近两万公里长的海岸线和300万平方公里的海洋国土，海洋资源非常丰富。近年来，随着现代水声信号处理技术和水声设备研发技术的巨大进步，水下声纳数据相关的处理与分析技术已成为国内外研究的热点，并且在军事和民事等领域具有广泛的应用。

声纳技术是目前水下探测、监测和通讯的主要手段之一。与传统的光学探测技术不同，声波在水中传播的速度远远高于光波，能够穿透海水深度较大的区域，具有深度大、范围广、成本低等优点，因此在军事、民用、海洋资源开发等领域都有着广泛的应用。

声纳数据的采集由于成本高等因素往往受到限制，这是一个在海洋学、地质学、军事和水下资源勘探等领域广泛应用的技术。然而，声纳数据采集过程中涉及昂贵的设备和大规模的海洋或水下操作，导致成本居高不下。首先，声纳传感器的制造和维护需要大量的投资，包括高性能的超声波传感器和复杂的数据记录设备。其次，声纳设备通常需要进行水下操作，这需要专业的潜水人员和水下船只，这些方面的人员和设备也都需要大量的资金投入。正是因为声纳数据采集的成本高昂和复杂性，声纳仿真变得至关重要。

声纳数据仿真是指通过计算机模拟声纳信号的传播、反射、散射等物理过程，生成虚拟的声纳数据。在海洋工程、水下探测等领域中，声纳数据仿真技术被广泛应用。现有的声纳数据仿真方法主要是基于物理建模的方法，这种方法需要对物理过程进行详细建模，计算量大、耗时长、难以适应复杂情况。因此，研究开发一种高效、精准的声纳数据仿真方法具有重要的研究价值。通过这些仿真生成技术，可以生成大量高质量的声纳数据。声纳数据仿真生成技术可以加速声纳数据处理技术的研究和应用，同时还可以为相关领域提供更加丰富的实验数据，为实际应用提供更加可靠的技术保障。

因此，研究声纳仿真生成技术，对于提高声纳数据处理的精度和效率，满足海洋资源勘探、海洋环境监测、军事目标探测等领域的需求具有重要的现实意义和应用价值。

生成对抗性网络(GANs)(Goodfellow等人，2014)是一种将低维潜在向量映射到高维数据的无监督策略。GANs模型的核心思想在于对抗训练，通过生成器和判别器的相互对抗，使得生成器逐渐学习到真实数据的分布规律，从而生成更加逼真的数据。GAN模型的一个重要特点是可以生成全新的数据样本，而不仅仅是复制已有数据。

基于GAN的音频合成方法的潜在优势是多方面的。首先，GANs可以用于数据饥饿语音识别系统中的数据增强(Shrivastava等人，2017)。其次，GANs可以实现对大量音频的快速而直接的采样。此外，虽然用GANs生成静态图像的有用性是有争议的，但对于许多应用(例如Foley)，生成声音效果是立即有用的。但是，尽管GANs在合成图像时的保真度越来越高(Radford等人，2016；Bertelot等人，2017；Karras等人，2018)，但尚未证明GANs能够在无监督的环境中合成音频。

将图像生成GANs应用于音频的一个简单解决方案是在类似图像的频谱图上操作它们，即音频的时频表示。这种用于音频任务的自举图像识别算法的做法在判别环境中很常见(Hershey等人，2017)。然而，在生成环境中，这种方法是有问题的，因为最具感知能力的频谱图是不可逆的，因此在没有损耗估计(Griffin&Lim，1984)或学习反演模型(Shen等人，2018)的情况下无法收听。

工作(van den Oord等人，2016；Mehri等人，2017；)表明，神经网络可以通过自回归训练来对原始音频进行操作。这样的方法很有吸引力，因为它们省去了工程化的特征表示。然而，与GANs不同的是，自回归设置导致生成缓慢，因为输出音频样本必须一次一个地反馈到模型中。Yamamoto等人(2019)使用GANs来提取生成原始语音音频的自回归模型，然而他们的结果表明，仅对抗性损失不足以生成高质量的波形；它需要一个基于KL发散的蒸馏目标作为关键组成部分。

为了解决近年来声纳数据仿真生成的问题，本发明提出基于生成对抗网络的声纳数据仿真生成方法。

发明内容

本发明的目的在于提供一种基于生成对抗网络的声纳数据仿真生成方法。

该基于生成对抗网络的声纳数据仿真生成方法，包括以下步骤：

步骤1、对原始声纳音频数据进行切片处理，获得包括多个声纳切片数据的训练集。

步骤2、将声纳切片数据转化为梅尔频谱图。

步骤3、构建生成对抗网络模型。

步骤4、对生成对抗网络进行训练：

步骤5、基于取生成对抗网络的生成器在不同轮次的输出，获得多个不同的合并声纳音频仿真数据。

作为优选，步骤5执行后，对合并声纳音频仿真数据进行评价筛选如下：

6-1.对合并声纳音频仿真数据、原始声纳音频数据和跨类真实声纳音频数据分别进行特征提取；跨类真实声纳音频数据与原始声纳音频通过相同设备采集，且采集的对象不相同；

6-2.提取合并声纳音频仿真数据与原始声纳音频数据的特征的相似度作为正例距离x₁，提取合并声纳音频仿真数据与跨类真实声纳音频数据的相似度作为反例距离x₂。正例距离x₁越小，反例距离x₂与正例距离x₁的差值越大的合并声纳音频仿真数据越符合要求。

6-3.根据正例距离x₁和反例距离x₂，对各个合并声纳音频仿真数据进行筛选，得到最终的声纳音频仿真数据。

作为优选，步骤6-1中，以VGGish模型的嵌入层对数据特征提取，获取128维度的特征。

作为优选，步骤6-2中，使用两组特征在多元高斯分布中的映射的Fréchet距离作为相似度。特征提取过程为将音频数据转换得到的梅尔频谱图依次经过6个卷积层、4个下采样层以及3个全连接层，输出128维度的特征向量。

作为优选，每个声纳切片数据对应的时长为10s。

作为优选，步骤2的具体过程为：对输入的声纳切片数据使用反射填充方法进行处理后，进行短时傅里叶变换，再使用滤波器组将短时傅里叶变换合并成梅尔倒谱频率；最后对Mel频带应用对数变换。

作为优选，步骤3中构建的生成对抗网络模型中的生成器以梅尔频谱图作为输入，逐步上采样，共放大256倍。在相邻两次上采样之间加入卷积块，计算频域到时域的变换，最终输出音频数据。

作为优选，所述的生成器包括四个上采样层、一个自注意力层、两个残差卷积块，以及分别位于首端和尾端的两个卷积层。上采样层采用反卷积层实现，残差卷积块使用膨胀卷积层增大感受野。

作为优选，步骤3中构建的生成对抗网络模型中的判别器采用了多尺度的架构；判别器包括三个鉴别器D1、D2、D3。鉴别器D1、D2、D3具有相同的网络结构，且在不同的音频尺度上运行。鉴别器D1操作在原始音频的尺度上，而鉴别器D2和鉴别器D3分别操作在原始音频下采样2倍和下采样4倍的尺度上。

作为优选，步骤4中，训练使用损失函数选择铰链损失函数；训练中加入网络权重的惩罚项。将判别器每层的特征输出取L1范数，作为额外惩罚项loss加入生成器的反向传播中。

作为优选，步骤5获得的各个合并声纳音频仿真数据均对应生成时域图和时频图。

本发明具有的有益效果是：

1、本发明采用深度学习中的生成对抗网络(GAN)进行训练，相较于传统的基于物理建模的声纳数据仿真方法，其主要优势在于不需要进行复杂的物理过程建模。GAN是一种基于深度学习的模型，其生成器模块可以自动地学习输入数据的分布规律，并生成与输入数据相似的输出结果。通过反复的训练以及生成器与判别器的博弈，GAN可以不断地提高生成器的性能，生成出更加真实的声纳数据。因此，相较于传统的物理建模方法，基于GAN的声纳数据仿真方法具有更高的灵活性和可适应性，能够应对更加复杂的仿真场景。

2、本发明利用音频信号处理技术将声音信号转化为梅尔频谱，可以很好地提取音频信号的特征。因为建模原始音频是一个特别具有挑战性的问题，因为数据的高时间分辨率和不同时间尺度的结构存在短期和长期依赖关系，大多数方法不是直接建模原始时间音频，而是通过建模可以从原始时间信号有效计算的低分辨率表示来简化问题。梅尔频谱是一种能够更好地模拟人耳听觉感知的频谱表示方式，其能够更好地反映音频信号的语音内容和音调特征。因此，将声音信号转化为梅尔频谱这种中间形式后，不仅能够对音频更容易建模，同时能够十分精确地反映音频信号的特征，从而提高声纳数据仿真的质量和准确性。

3、在生成对抗网络模型的生成器的卷积层后加入了自注意力机制，能够轻松地捕获不同距离的元素之间的关联性，使生成器在处理长序列时更加准确进而提高仿真声纳音频的真实性。

4、提出了对于仿真声纳音频的评估方法，即利用FAD分数。使用音频大模型VGGish模型生成嵌入。用VGGish最终分类层之前的128维嵌入层提取音频特征。FAD使用该网络来提取声纳音频特征的网络模型，将声音表示成128维度的特征向量。利用特征向量映射到多元高斯分布后，计算高斯分布的距离来评估声纳仿真音频的效果好坏。

附图说明

图1为本发明的流程图；

图2为本发明中生成对抗网络中的生成器网络结构图；

图3为本发明中生成对抗网络中的三个判别器的示意图；

图4为本发明中生成对抗网络中的判别器网络结构图；

图5为本发明中生成器中残差卷积块的结构图；

图6(a)-6(c)分别为本发明对于货船、集装箱、噪声原始声纳数据进行仿真后的效果图(左侧为时域图，右侧为时频图)；

图7为本发明中VGGish的网络结构图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，基于生成对抗网络的声纳数据仿真生成方法，包括以下步骤：

步骤1、声纳音频数据预处理

将所需仿真类型的原始声纳音频文件切片成十秒时长的多段声纳切片数据。将所得的多个声纳切片数据分为训练集和测试集。

步骤2、将声纳音频转化为梅尔频谱图图像

对输入的声纳切片数据使用反射填充方法进行处理，以确保在短时傅里叶变换后仍保持所需的帧大小。对声纳音频进行短时傅里叶变换，窗口大小设为1024ms，重叠设为256ms，创建一个滤波器组，用以将短时傅里叶变换合并成梅尔倒谱频率；使用的滤波器组的数量为80，能够将频域分成80个Mel频带，用于后续梅尔倒谱系数特征提取，这些滤波器将覆盖声音频谱的不同频率区域。再对Mel频带应用对数变换，以便于后续处理，同时确保避免计算中的小数值问题。该频谱表示了音频在Mel频率空间上的特征。

步骤3、构建生成对抗网络模型

3-1.生成对抗网络模型中的生成器由步骤2所得的梅尔频谱图生成一维音频信号，即基于梅尔频谱图特征作为输入，逐步上采样，共放大256倍。在相邻两次上采样之间加入卷积块，计算频域到时域的变换，最终输出固定维度的音频数据。本实施例中使用的生成器包括四个上采样层、一个自注意力层、两个残差卷积块以及开头结尾两个卷积层。其中，上采样层采用反卷积层实现，残差卷积块使用膨胀卷积层以达到感受野增大的目的。膨胀卷积层的感受视野随层数的增加而指数级增加，将残差卷积块加入生成器中可有效地增加每个输出时间步长的感受视野。自注意力层的加入是为了能够轻松地捕获不同距离的元素之间的关联性，使生成器在处理长序列时更加准确。

3-2.生成对抗网络模型中的判别器采用了多尺度的架构；本实施例中使用的判别器包括三个鉴别器，分别称为D1、D2和D3。该三个鉴别器在不同的音频尺度上运行，具有相同的网络结构，但操作在不同的音频尺度上。具体来说，鉴别器D1操作在原始音频的尺度上，而鉴别器D2和鉴别器D3分别操作在原始音频下采样2倍和下采样4倍的尺度上。为了实现尺度的下采样，本实施例使用了内核大小为4的平均池化操作。由于音频数据具有多层次的结构，因此多尺度鉴别器能够感知不同尺度下的特征。这种结构的好处是，每个鉴别器可以学习不同频率范围内的特征，从而更好地理解音频数据。以下采样音频为例，对应的鉴别器无法访问高频分量，因此更倾向于学习与低频分量相关的鉴别特征。这种多尺度的判别器结构有助于提高模型对音频数据的理解能力。

步骤4、对步骤3构建的生成对抗网络进行训练：

4-1.将训练的次数设为3000，批大小设为16。

4-2.损失函数选择为铰链损失函数(即Hinge loss)，这是一种针对二分类模型的目标函数，针对判别器，即为区分是真实声纳音频还是生成声纳音频。除了铰链损失函数，还加入了网络权重的惩罚项。将判别器每层的特征输出取L1范数，作为额外惩罚项loss加入生成器的反向传播中，这样做的目的是减少模型参数的数量，使权重更加稀疏化。这有助于控制模型的复杂度，并提高模型的泛化能力。

步骤5、取生成对抗网络的生成器在不同轮次的输出作为声纳音频仿真数据。

由于生成器输出的仿真音频数据的时长均为10秒，为获得长时间的音频数据；本实施例将生成器的1-1000轮次、1001-2000轮次、2001-3000轮次的数据分别进行合并，获得三个不同的合并声纳音频仿真数据；合并声纳音频数据是一整段长时间持续仿真声纳音频数据。

步骤6、对步骤5得到的合并声纳音频仿真数据进行可视化处理，生成合并声纳音频的时域图以及时频图；以此了解音频信号在时间上的变化情况，比如持续时间、波形形状等以及音频信号在不同频率下的能量分布情况。

步骤7、对步骤6所得合并声纳音频仿真数据进行量化评估：

7-1.使用评估模型对合并声纳音频仿真数据进行量化评估；

评估模型用于输出FAD分数，其以VGGish模型的嵌入层作为基础。VGGish(VGG-based Audio Embedding)是一种用于音频特征提取和音频分类的深度学习模型。VGGish模型基于经典的计算机视觉模型VGGNet的架构。VGGish包含6个卷积层、4个下采样层以及3个全连接层，VGGish的输入为音频数据的梅尔频谱图，通过卷积层与池化层计算，通过3个全连接层，最终输出128维度的特征向量。本实施例中利用VGGish模型对声音进行特征提取，获得128维度的特征向量。

7-2.对于原始声纳音频以及仿真声纳音频，分别使用步骤7-1中的VGGish模型提取各自的128维度的特征N_b与N_e。对两个特征N_b和N_e计算多元高斯函数。最后，生成样本的FAD分数使用两个多元高斯函数的Fréchet距离表达，如公式所示。当原始声纳音频与仿真声纳音频的高斯分布越接近时，对应的FAD分数就越小。

7-3.根据步骤7-1和7-2中的方法，对跨类真实声纳音频数据与仿真声纳音频进行FAD分数的检测；跨类真实声纳音频数据与原始声纳音频通过相同设备采集，且采集的对象不相同；本实施例中，原始声纳音频的采集对象为噪声、货船和拖船；分别根据原始声纳音频进行仿真且对跨类真实声纳音频数据进行比较。

7-4.取原始声纳音频与仿真声纳音频的FAD分数作为正例距离x₁，跨类真实声纳音频数据与仿真声纳音频作为反例距离x₂；正例距离x₁与反例距离x₂的差异越大，说明仿真声纳音频与原始声纳音频的一致性越好，越适合用于原始声纳音频对应的目标的识别网络的训练。

7-5.根据正例距离x₁和反例距离x₂，对各个合并声纳音频仿真数据进行筛选。本实施例将生成器1-1000训练轮次、1001-2000训练轮次、2001-3000训练轮次的合并音频数据分别与本类原始音频及跨类原始音频进行FAD分数的计算。由表1可知，训练轮次越多，生成对抗网络模型中的生成器效果越好，仿真声纳数据与原始声纳数据一致性越好，货船、噪声、拖船皆在2001-3000训练轮次的正例距离x₁最小，并且三类仿真声纳数据的x₁皆小于x₂，说明本实施例基于生成对抗网络模型仿真的数据与原始声纳数据具有一致性。

本实施例对于货船数据的筛选，包括以下步骤：

设仿真货船与原始货船距离的阈值threshold_cargo＝8.8，选取训练轮次为2001-3000中x₁<＝8.8且x₂>＝1.8*threshold_cargo的仿真货船数据。

本实施例对于噪声数据的筛选，包括以下步骤：

设仿真噪声与原始噪声距离的阈值threshold_noise＝2.2，选取训练轮次为2001-3000中x₁<＝2.2且x₂>＝6.0*threshold_noise的仿真噪声数据。

本实施例对于拖船数据的筛选，包括以下步骤：

设仿真拖船与原始拖船距离的阈值threshold_tug＝5.6，选取训练轮次为2001-3000中x₁<＝5.6且x₂>＝1.56*threshold_tug的仿真拖船数据。

综合考虑正例距离x₁与反例距离x₂筛选出效果较好的仿真声纳数据即可保证数据的合理性和一致性。

表1仿真声纳数据与不同原始声纳类型的FAD分数对比表。

Claims

1.一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：包括以下步骤：

步骤1、对原始声纳音频数据进行切片处理，获得包括多个声纳切片数据的训练集；

步骤2、将声纳切片数据转化为梅尔频谱图；

步骤3、构建生成对抗网络模型；

步骤4、对生成对抗网络进行训练：

2.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤5执行后，对合并声纳音频仿真数据进行评价筛选如下：

6-2.提取合并声纳音频仿真数据与原始声纳音频数据的特征的相似度作为正例距离x₁，提取合并声纳音频仿真数据与跨类真实声纳音频数据的相似度作为反例距离x₂；正例距离x₁越小，反例距离x₂与正例距离x₁的差值越大的合并声纳音频仿真数据越符合要求；

3.根据权利要求2所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤6-1中，以VGGish模型的嵌入层对数据特征提取，获取128维度的特征。

4.根据权利要求2所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤6-2中，使用两组特征在多元高斯分布中的映射的Fréchet距离作为相似度；特征提取过程为将音频数据转换得到的梅尔频谱图依次经过6个卷积层、4个下采样层以及3个全连接层，输出128维度的特征向量。

5.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤2的具体过程为：对输入的声纳切片数据使用反射填充方法进行处理后，进行短时傅里叶变换，再使用滤波器组将短时傅里叶变换合并成梅尔倒谱频率；最后对Mel频带应用对数变换。

6.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤3中构建的生成对抗网络模型中的生成器以梅尔频谱图作为输入，逐步上采样，共放大256倍；在相邻两次上采样之间加入卷积块，计算频域到时域的变换，最终输出音频数据。

7.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：所述的生成器包括四个上采样层、一个自注意力层、两个残差卷积块，以及分别位于首端和尾端的两个卷积层；上采样层采用反卷积层实现，残差卷积块使用膨胀卷积层增大感受野。

8.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤3中构建的生成对抗网络模型中的判别器采用了多尺度的架构；判别器包括三个鉴别器D1、D2、D3；鉴别器D1、D2、D3具有相同的网络结构，且在不同的音频尺度上运行；鉴别器D1操作在原始音频的尺度上，而鉴别器D2和鉴别器D3分别操作在原始音频下采样2倍和下采样4倍的尺度上。

9.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤4中，训练使用损失函数选择铰链损失函数；训练中加入网络权重的惩罚项；将判别器每层的特征输出取L1范数，作为额外惩罚项loss加入生成器的反向传播中。

10.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法，其特征在于：步骤5获得的各个合并声纳音频仿真数据均对应生成时域图和时频图。