CN117648851A - 一种基于生成对抗网络的声纳数据仿真生成方法 - Google Patents
一种基于生成对抗网络的声纳数据仿真生成方法 Download PDFInfo
- Publication number
- CN117648851A CN117648851A CN202311391738.0A CN202311391738A CN117648851A CN 117648851 A CN117648851 A CN 117648851A CN 202311391738 A CN202311391738 A CN 202311391738A CN 117648851 A CN117648851 A CN 117648851A
- Authority
- CN
- China
- Prior art keywords
- sonar
- data
- audio
- simulation
- countermeasure network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000011049 filling Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008485 antagonism Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000013139 quantization Methods 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于生成对抗网络的声纳数据仿真生成方法。本发明如下:1、对原始声纳音频数据进行切片处理,获得包括多个声纳切片数据的训练集。2、将声纳切片数据转化为梅尔频谱图。3、构建生成对抗网络模型。4、对生成对抗网络进行训练:5、基于取生成对抗网络的生成器在不同轮次的输出,获得多个不同的合并声纳音频仿真数据。本发明将深度学习技术融入到声纳数据仿真中,用到了生成对抗网络;将音频转换为梅尔频谱图图像再通过生成对抗网络模型进行仿真,从而生成仿真音频数据。并且找到合理有效的评估方法对仿真音频数据的效果进行量化评估。本发明可以生成高质量一维声纳音频并且有合理量化评估仿真声纳音频方法。
Description
技术领域
本发明属于人工智能与声纳数据仿真的技术领域,具体涉及一种基于生成对抗网络的声纳数据仿真生成方法。
背景技术
我国拥有近两万公里长的海岸线和300万平方公里的海洋国土,海洋资源非常丰富。近年来,随着现代水声信号处理技术和水声设备研发技术的巨大进步,水下声纳数据相关的处理与分析技术已成为国内外研究的热点,并且在军事和民事等领域具有广泛的应用。
声纳技术是目前水下探测、监测和通讯的主要手段之一。与传统的光学探测技术不同,声波在水中传播的速度远远高于光波,能够穿透海水深度较大的区域,具有深度大、范围广、成本低等优点,因此在军事、民用、海洋资源开发等领域都有着广泛的应用。
声纳数据的采集由于成本高等因素往往受到限制,这是一个在海洋学、地质学、军事和水下资源勘探等领域广泛应用的技术。然而,声纳数据采集过程中涉及昂贵的设备和大规模的海洋或水下操作,导致成本居高不下。首先,声纳传感器的制造和维护需要大量的投资,包括高性能的超声波传感器和复杂的数据记录设备。其次,声纳设备通常需要进行水下操作,这需要专业的潜水人员和水下船只,这些方面的人员和设备也都需要大量的资金投入。正是因为声纳数据采集的成本高昂和复杂性,声纳仿真变得至关重要。
声纳数据仿真是指通过计算机模拟声纳信号的传播、反射、散射等物理过程,生成虚拟的声纳数据。在海洋工程、水下探测等领域中,声纳数据仿真技术被广泛应用。现有的声纳数据仿真方法主要是基于物理建模的方法,这种方法需要对物理过程进行详细建模,计算量大、耗时长、难以适应复杂情况。因此,研究开发一种高效、精准的声纳数据仿真方法具有重要的研究价值。通过这些仿真生成技术,可以生成大量高质量的声纳数据。声纳数据仿真生成技术可以加速声纳数据处理技术的研究和应用,同时还可以为相关领域提供更加丰富的实验数据,为实际应用提供更加可靠的技术保障。
因此,研究声纳仿真生成技术,对于提高声纳数据处理的精度和效率,满足海洋资源勘探、海洋环境监测、军事目标探测等领域的需求具有重要的现实意义和应用价值。
生成对抗性网络(GANs)(Goodfellow等人,2014)是一种将低维潜在向量映射到高维数据的无监督策略。GANs模型的核心思想在于对抗训练,通过生成器和判别器的相互对抗,使得生成器逐渐学习到真实数据的分布规律,从而生成更加逼真的数据。GAN模型的一个重要特点是可以生成全新的数据样本,而不仅仅是复制已有数据。
基于GAN的音频合成方法的潜在优势是多方面的。首先,GANs可以用于数据饥饿语音识别系统中的数据增强(Shrivastava等人,2017)。其次,GANs可以实现对大量音频的快速而直接的采样。此外,虽然用GANs生成静态图像的有用性是有争议的,但对于许多应用(例如Foley),生成声音效果是立即有用的。但是,尽管GANs在合成图像时的保真度越来越高(Radford等人,2016;Bertelot等人,2017;Karras等人,2018),但尚未证明GANs能够在无监督的环境中合成音频。
将图像生成GANs应用于音频的一个简单解决方案是在类似图像的频谱图上操作它们,即音频的时频表示。这种用于音频任务的自举图像识别算法的做法在判别环境中很常见(Hershey等人,2017)。然而,在生成环境中,这种方法是有问题的,因为最具感知能力的频谱图是不可逆的,因此在没有损耗估计(Griffin&Lim,1984)或学习反演模型(Shen等人,2018)的情况下无法收听。
工作(van den Oord等人,2016;Mehri等人,2017;)表明,神经网络可以通过自回归训练来对原始音频进行操作。这样的方法很有吸引力,因为它们省去了工程化的特征表示。然而,与GANs不同的是,自回归设置导致生成缓慢,因为输出音频样本必须一次一个地反馈到模型中。Yamamoto等人(2019)使用GANs来提取生成原始语音音频的自回归模型,然而他们的结果表明,仅对抗性损失不足以生成高质量的波形;它需要一个基于KL发散的蒸馏目标作为关键组成部分。
为了解决近年来声纳数据仿真生成的问题,本发明提出基于生成对抗网络的声纳数据仿真生成方法。
发明内容
本发明的目的在于提供一种基于生成对抗网络的声纳数据仿真生成方法。
该基于生成对抗网络的声纳数据仿真生成方法,包括以下步骤:
步骤1、对原始声纳音频数据进行切片处理,获得包括多个声纳切片数据的训练集。
步骤2、将声纳切片数据转化为梅尔频谱图。
步骤3、构建生成对抗网络模型。
步骤4、对生成对抗网络进行训练:
步骤5、基于取生成对抗网络的生成器在不同轮次的输出,获得多个不同的合并声纳音频仿真数据。
作为优选,步骤5执行后,对合并声纳音频仿真数据进行评价筛选如下:
6-1.对合并声纳音频仿真数据、原始声纳音频数据和跨类真实声纳音频数据分别进行特征提取;跨类真实声纳音频数据与原始声纳音频通过相同设备采集,且采集的对象不相同;
6-2.提取合并声纳音频仿真数据与原始声纳音频数据的特征的相似度作为正例距离x1,提取合并声纳音频仿真数据与跨类真实声纳音频数据的相似度作为反例距离x2。正例距离x1越小,反例距离x2与正例距离x1的差值越大的合并声纳音频仿真数据越符合要求。
6-3.根据正例距离x1和反例距离x2,对各个合并声纳音频仿真数据进行筛选,得到最终的声纳音频仿真数据。
作为优选,步骤6-1中,以VGGish模型的嵌入层对数据特征提取,获取128维度的特征。
作为优选,步骤6-2中,使用两组特征在多元高斯分布中的映射的Fréchet距离作为相似度。特征提取过程为将音频数据转换得到的梅尔频谱图依次经过6个卷积层、4个下采样层以及3个全连接层,输出128维度的特征向量。
作为优选,每个声纳切片数据对应的时长为10s。
作为优选,步骤2的具体过程为:对输入的声纳切片数据使用反射填充方法进行处理后,进行短时傅里叶变换,再使用滤波器组将短时傅里叶变换合并成梅尔倒谱频率;最后对Mel频带应用对数变换。
作为优选,步骤3中构建的生成对抗网络模型中的生成器以梅尔频谱图作为输入,逐步上采样,共放大256倍。在相邻两次上采样之间加入卷积块,计算频域到时域的变换,最终输出音频数据。
作为优选,所述的生成器包括四个上采样层、一个自注意力层、两个残差卷积块,以及分别位于首端和尾端的两个卷积层。上采样层采用反卷积层实现,残差卷积块使用膨胀卷积层增大感受野。
作为优选,步骤3中构建的生成对抗网络模型中的判别器采用了多尺度的架构;判别器包括三个鉴别器D1、D2、D3。鉴别器D1、D2、D3具有相同的网络结构,且在不同的音频尺度上运行。鉴别器D1操作在原始音频的尺度上,而鉴别器D2和鉴别器D3分别操作在原始音频下采样2倍和下采样4倍的尺度上。
作为优选,步骤4中,训练使用损失函数选择铰链损失函数;训练中加入网络权重的惩罚项。将判别器每层的特征输出取L1范数,作为额外惩罚项loss加入生成器的反向传播中。
作为优选,步骤5获得的各个合并声纳音频仿真数据均对应生成时域图和时频图。
本发明具有的有益效果是:
1、本发明采用深度学习中的生成对抗网络(GAN)进行训练,相较于传统的基于物理建模的声纳数据仿真方法,其主要优势在于不需要进行复杂的物理过程建模。GAN是一种基于深度学习的模型,其生成器模块可以自动地学习输入数据的分布规律,并生成与输入数据相似的输出结果。通过反复的训练以及生成器与判别器的博弈,GAN可以不断地提高生成器的性能,生成出更加真实的声纳数据。因此,相较于传统的物理建模方法,基于GAN的声纳数据仿真方法具有更高的灵活性和可适应性,能够应对更加复杂的仿真场景。
2、本发明利用音频信号处理技术将声音信号转化为梅尔频谱,可以很好地提取音频信号的特征。因为建模原始音频是一个特别具有挑战性的问题,因为数据的高时间分辨率和不同时间尺度的结构存在短期和长期依赖关系,大多数方法不是直接建模原始时间音频,而是通过建模可以从原始时间信号有效计算的低分辨率表示来简化问题。梅尔频谱是一种能够更好地模拟人耳听觉感知的频谱表示方式,其能够更好地反映音频信号的语音内容和音调特征。因此,将声音信号转化为梅尔频谱这种中间形式后,不仅能够对音频更容易建模,同时能够十分精确地反映音频信号的特征,从而提高声纳数据仿真的质量和准确性。
3、在生成对抗网络模型的生成器的卷积层后加入了自注意力机制,能够轻松地捕获不同距离的元素之间的关联性,使生成器在处理长序列时更加准确进而提高仿真声纳音频的真实性。
4、提出了对于仿真声纳音频的评估方法,即利用FAD分数。使用音频大模型VGGish模型生成嵌入。用VGGish最终分类层之前的128维嵌入层提取音频特征。FAD使用该网络来提取声纳音频特征的网络模型,将声音表示成128维度的特征向量。利用特征向量映射到多元高斯分布后,计算高斯分布的距离来评估声纳仿真音频的效果好坏。
附图说明
图1为本发明的流程图;
图2为本发明中生成对抗网络中的生成器网络结构图;
图3为本发明中生成对抗网络中的三个判别器的示意图;
图4为本发明中生成对抗网络中的判别器网络结构图;
图5为本发明中生成器中残差卷积块的结构图;
图6(a)-6(c)分别为本发明对于货船、集装箱、噪声原始声纳数据进行仿真后的效果图(左侧为时域图,右侧为时频图);
图7为本发明中VGGish的网络结构图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1所示,基于生成对抗网络的声纳数据仿真生成方法,包括以下步骤:
步骤1、声纳音频数据预处理
将所需仿真类型的原始声纳音频文件切片成十秒时长的多段声纳切片数据。将所得的多个声纳切片数据分为训练集和测试集。
步骤2、将声纳音频转化为梅尔频谱图图像
对输入的声纳切片数据使用反射填充方法进行处理,以确保在短时傅里叶变换后仍保持所需的帧大小。对声纳音频进行短时傅里叶变换,窗口大小设为1024ms,重叠设为256ms,创建一个滤波器组,用以将短时傅里叶变换合并成梅尔倒谱频率;使用的滤波器组的数量为80,能够将频域分成80个Mel频带,用于后续梅尔倒谱系数特征提取,这些滤波器将覆盖声音频谱的不同频率区域。再对Mel频带应用对数变换,以便于后续处理,同时确保避免计算中的小数值问题。该频谱表示了音频在Mel频率空间上的特征。
步骤3、构建生成对抗网络模型
3-1.生成对抗网络模型中的生成器由步骤2所得的梅尔频谱图生成一维音频信号,即基于梅尔频谱图特征作为输入,逐步上采样,共放大256倍。在相邻两次上采样之间加入卷积块,计算频域到时域的变换,最终输出固定维度的音频数据。本实施例中使用的生成器包括四个上采样层、一个自注意力层、两个残差卷积块以及开头结尾两个卷积层。其中,上采样层采用反卷积层实现,残差卷积块使用膨胀卷积层以达到感受野增大的目的。膨胀卷积层的感受视野随层数的增加而指数级增加,将残差卷积块加入生成器中可有效地增加每个输出时间步长的感受视野。自注意力层的加入是为了能够轻松地捕获不同距离的元素之间的关联性,使生成器在处理长序列时更加准确。
3-2.生成对抗网络模型中的判别器采用了多尺度的架构;本实施例中使用的判别器包括三个鉴别器,分别称为D1、D2和D3。该三个鉴别器在不同的音频尺度上运行,具有相同的网络结构,但操作在不同的音频尺度上。具体来说,鉴别器D1操作在原始音频的尺度上,而鉴别器D2和鉴别器D3分别操作在原始音频下采样2倍和下采样4倍的尺度上。为了实现尺度的下采样,本实施例使用了内核大小为4的平均池化操作。由于音频数据具有多层次的结构,因此多尺度鉴别器能够感知不同尺度下的特征。这种结构的好处是,每个鉴别器可以学习不同频率范围内的特征,从而更好地理解音频数据。以下采样音频为例,对应的鉴别器无法访问高频分量,因此更倾向于学习与低频分量相关的鉴别特征。这种多尺度的判别器结构有助于提高模型对音频数据的理解能力。
步骤4、对步骤3构建的生成对抗网络进行训练:
4-1.将训练的次数设为3000,批大小设为16。
4-2.损失函数选择为铰链损失函数(即Hinge loss),这是一种针对二分类模型的目标函数,针对判别器,即为区分是真实声纳音频还是生成声纳音频。除了铰链损失函数,还加入了网络权重的惩罚项。将判别器每层的特征输出取L1范数,作为额外惩罚项loss加入生成器的反向传播中,这样做的目的是减少模型参数的数量,使权重更加稀疏化。这有助于控制模型的复杂度,并提高模型的泛化能力。
步骤5、取生成对抗网络的生成器在不同轮次的输出作为声纳音频仿真数据。
由于生成器输出的仿真音频数据的时长均为10秒,为获得长时间的音频数据;本实施例将生成器的1-1000轮次、1001-2000轮次、2001-3000轮次的数据分别进行合并,获得三个不同的合并声纳音频仿真数据;合并声纳音频数据是一整段长时间持续仿真声纳音频数据。
步骤6、对步骤5得到的合并声纳音频仿真数据进行可视化处理,生成合并声纳音频的时域图以及时频图;以此了解音频信号在时间上的变化情况,比如持续时间、波形形状等以及音频信号在不同频率下的能量分布情况。
步骤7、对步骤6所得合并声纳音频仿真数据进行量化评估:
7-1.使用评估模型对合并声纳音频仿真数据进行量化评估;
评估模型用于输出FAD分数,其以VGGish模型的嵌入层作为基础。VGGish(VGG-based Audio Embedding)是一种用于音频特征提取和音频分类的深度学习模型。VGGish模型基于经典的计算机视觉模型VGGNet的架构。VGGish包含6个卷积层、4个下采样层以及3个全连接层,VGGish的输入为音频数据的梅尔频谱图,通过卷积层与池化层计算,通过3个全连接层,最终输出128维度的特征向量。本实施例中利用VGGish模型对声音进行特征提取,获得128维度的特征向量。
7-2.对于原始声纳音频以及仿真声纳音频,分别使用步骤7-1中的VGGish模型提取各自的128维度的特征Nb与Ne。对两个特征Nb和Ne计算多元高斯函数。最后,生成样本的FAD分数使用两个多元高斯函数的Fréchet距离表达,如公式所示。当原始声纳音频与仿真声纳音频的高斯分布越接近时,对应的FAD分数就越小。
7-3.根据步骤7-1和7-2中的方法,对跨类真实声纳音频数据与仿真声纳音频进行FAD分数的检测;跨类真实声纳音频数据与原始声纳音频通过相同设备采集,且采集的对象不相同;本实施例中,原始声纳音频的采集对象为噪声、货船和拖船;分别根据原始声纳音频进行仿真且对跨类真实声纳音频数据进行比较。
7-4.取原始声纳音频与仿真声纳音频的FAD分数作为正例距离x1,跨类真实声纳音频数据与仿真声纳音频作为反例距离x2;正例距离x1与反例距离x2的差异越大,说明仿真声纳音频与原始声纳音频的一致性越好,越适合用于原始声纳音频对应的目标的识别网络的训练。
7-5.根据正例距离x1和反例距离x2,对各个合并声纳音频仿真数据进行筛选。本实施例将生成器1-1000训练轮次、1001-2000训练轮次、2001-3000训练轮次的合并音频数据分别与本类原始音频及跨类原始音频进行FAD分数的计算。由表1可知,训练轮次越多,生成对抗网络模型中的生成器效果越好,仿真声纳数据与原始声纳数据一致性越好,货船、噪声、拖船皆在2001-3000训练轮次的正例距离x1最小,并且三类仿真声纳数据的x1皆小于x2,说明本实施例基于生成对抗网络模型仿真的数据与原始声纳数据具有一致性。
本实施例对于货船数据的筛选,包括以下步骤:
设仿真货船与原始货船距离的阈值threshold_cargo=8.8,选取训练轮次为2001-3000中x1<=8.8且x2>=1.8*threshold_cargo的仿真货船数据。
本实施例对于噪声数据的筛选,包括以下步骤:
设仿真噪声与原始噪声距离的阈值threshold_noise=2.2,选取训练轮次为2001-3000中x1<=2.2且x2>=6.0*threshold_noise的仿真噪声数据。
本实施例对于拖船数据的筛选,包括以下步骤:
设仿真拖船与原始拖船距离的阈值threshold_tug=5.6,选取训练轮次为2001-3000中x1<=5.6且x2>=1.56*threshold_tug的仿真拖船数据。
综合考虑正例距离x1与反例距离x2筛选出效果较好的仿真声纳数据即可保证数据的合理性和一致性。
表1仿真声纳数据与不同原始声纳类型的FAD分数对比表。
Claims (10)
1.一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:包括以下步骤:
步骤1、对原始声纳音频数据进行切片处理,获得包括多个声纳切片数据的训练集;
步骤2、将声纳切片数据转化为梅尔频谱图;
步骤3、构建生成对抗网络模型;
步骤4、对生成对抗网络进行训练:
步骤5、基于取生成对抗网络的生成器在不同轮次的输出,获得多个不同的合并声纳音频仿真数据。
2.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤5执行后,对合并声纳音频仿真数据进行评价筛选如下:
6-1.对合并声纳音频仿真数据、原始声纳音频数据和跨类真实声纳音频数据分别进行特征提取;跨类真实声纳音频数据与原始声纳音频通过相同设备采集,且采集的对象不相同;
6-2.提取合并声纳音频仿真数据与原始声纳音频数据的特征的相似度作为正例距离x1,提取合并声纳音频仿真数据与跨类真实声纳音频数据的相似度作为反例距离x2;正例距离x1越小,反例距离x2与正例距离x1的差值越大的合并声纳音频仿真数据越符合要求;
6-3.根据正例距离x1和反例距离x2,对各个合并声纳音频仿真数据进行筛选,得到最终的声纳音频仿真数据。
3.根据权利要求2所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤6-1中,以VGGish模型的嵌入层对数据特征提取,获取128维度的特征。
4.根据权利要求2所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤6-2中,使用两组特征在多元高斯分布中的映射的Fréchet距离作为相似度;特征提取过程为将音频数据转换得到的梅尔频谱图依次经过6个卷积层、4个下采样层以及3个全连接层,输出128维度的特征向量。
5.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤2的具体过程为:对输入的声纳切片数据使用反射填充方法进行处理后,进行短时傅里叶变换,再使用滤波器组将短时傅里叶变换合并成梅尔倒谱频率;最后对Mel频带应用对数变换。
6.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤3中构建的生成对抗网络模型中的生成器以梅尔频谱图作为输入,逐步上采样,共放大256倍;在相邻两次上采样之间加入卷积块,计算频域到时域的变换,最终输出音频数据。
7.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:所述的生成器包括四个上采样层、一个自注意力层、两个残差卷积块,以及分别位于首端和尾端的两个卷积层;上采样层采用反卷积层实现,残差卷积块使用膨胀卷积层增大感受野。
8.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤3中构建的生成对抗网络模型中的判别器采用了多尺度的架构;判别器包括三个鉴别器D1、D2、D3;鉴别器D1、D2、D3具有相同的网络结构,且在不同的音频尺度上运行;鉴别器D1操作在原始音频的尺度上,而鉴别器D2和鉴别器D3分别操作在原始音频下采样2倍和下采样4倍的尺度上。
9.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤4中,训练使用损失函数选择铰链损失函数;训练中加入网络权重的惩罚项;将判别器每层的特征输出取L1范数,作为额外惩罚项loss加入生成器的反向传播中。
10.根据权利要求1所述的一种基于生成对抗网络的声纳数据仿真生成方法,其特征在于:步骤5获得的各个合并声纳音频仿真数据均对应生成时域图和时频图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311391738.0A CN117648851A (zh) | 2023-10-25 | 2023-10-25 | 一种基于生成对抗网络的声纳数据仿真生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311391738.0A CN117648851A (zh) | 2023-10-25 | 2023-10-25 | 一种基于生成对抗网络的声纳数据仿真生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117648851A true CN117648851A (zh) | 2024-03-05 |
Family
ID=90042325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311391738.0A Pending CN117648851A (zh) | 2023-10-25 | 2023-10-25 | 一种基于生成对抗网络的声纳数据仿真生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648851A (zh) |
-
2023
- 2023-10-25 CN CN202311391738.0A patent/CN117648851A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Underwater target recognition using convolutional recurrent neural networks with 3-D Mel-spectrogram and data augmentation | |
CN110245608B (zh) | 一种基于半张量积神经网络的水下目标识别方法 | |
CN101303764B (zh) | 基于非下采样轮廓波的多传感器图像自适应融合方法 | |
Feng et al. | A transformer-based deep learning network for underwater acoustic target recognition | |
Ren et al. | UALF: A learnable front-end for intelligent underwater acoustic classification system | |
Sun et al. | Underwater single-channel acoustic signal multitarget recognition using convolutional neural networks | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Wei et al. | A method of underwater acoustic signal classification based on deep neural network | |
Zhu et al. | Underwater acoustic target recognition based on spectrum component analysis of ship radiated noise | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Li et al. | Data augmentation method for underwater acoustic target recognition based on underwater acoustic channel modeling and transfer learning | |
Zhou et al. | An attention-based multi-scale convolution network for intelligent underwater acoustic signal recognition | |
Xu et al. | Self-supervised learning–based underwater acoustical signal classification via mask modeling | |
Zhang et al. | MSLEFC: A low-frequency focused underwater acoustic signal classification and analysis system | |
Yang et al. | Underwater acoustic target recognition based on sub-band concatenated Mel spectrogram and multidomain attention mechanism | |
Chen et al. | A ship-radiated noise classification method based on domain knowledge embedding and attention mechanism | |
CN117310668A (zh) | 融合注意力机制与深度残差收缩网络的水声目标识别方法 | |
CN117251822A (zh) | 一种新的加权梅尔频率倒谱特征融合方法 | |
Wang et al. | Underwater acoustic target recognition combining multi-scale features and attention mechanism | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
Hummel et al. | A survey on machine learning in ship radiated noise | |
CN116992263A (zh) | 一种基于多任务学习的水下航行器自噪声特征提取、识别与分离的方法 | |
CN116612735A (zh) | 一种水声音频去噪方法 | |
CN116417011A (zh) | 基于特征融合和残差cnn的水声目标识别方法 | |
CN115586516A (zh) | 一种基于深度学习和多特征提取的舰船辐射噪声识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |