CN117765962A - 一种海洋哺乳动物叫声数据增强方法 - Google Patents
一种海洋哺乳动物叫声数据增强方法 Download PDFInfo
- Publication number
- CN117765962A CN117765962A CN202311269327.4A CN202311269327A CN117765962A CN 117765962 A CN117765962 A CN 117765962A CN 202311269327 A CN202311269327 A CN 202311269327A CN 117765962 A CN117765962 A CN 117765962A
- Authority
- CN
- China
- Prior art keywords
- sound data
- data
- sound
- real
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000283153 Cetacea Species 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002708 enhancing effect Effects 0.000 title claims description 4
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013461 design Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 44
- 238000009826 distribution Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008485 antagonism Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 239000011664 nicotinic acid Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明具体为一种海洋哺乳动物叫声数据增强方法,该方法使用自编码器对海洋哺乳动物叫声数据进行特征提取与降噪重构;将重构后的叫声数据划分为训练集和测试集;搭建生成对抗网络模型,生成对抗网络模型包括生成器和鉴别器,生成器基于GRU网络设计,鉴别器基于轻量化CNN网络设计,生成器将噪声数据转化为生成叫声数据并输入鉴别器,同时将步骤2训练集真实叫声数据输入鉴别器,从而对生成对抗网络模型进行训练;将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证,最后调用最优的生成对抗网络模型进行数据增强。通过生成器和鉴别器之间的博弈学习来提升模型性能,实现数据增强,增强后的海洋哺乳动物叫声逼真且具有多样性。
Description
技术领域
本发明涉及仿生隐蔽水声通信技术领域,具体为一种基于自编码器和WGAN-GP的海洋哺乳动物叫声数据增强方法。
背景技术
本发明基于深度学习网络开展隐蔽通信研究,由于深度学习模型训练需要大量的数据集做支撑,但海洋哺乳动物叫声采集难度大、成本高,公开的数据集有限,因此设计合适的数据增强方法是一个重要挑战。
在水声通信中,海洋哺乳动物叫声是一种特殊而复杂的数据。传统的数据增强方法如平移、旋转和缩放等没有考虑到海洋哺乳动物叫声的特殊性质,平移操作可能改变声音信号的时间和频率结构,导致声音的时序关系被破坏。旋转操作可能改变声音的方向性特征,影响声纳定位和识别的准确性。缩放操作可能导致声音频率的畸变,使得声音无法被正常解码和理解。因此,传统方法可能会导致数据丢失关键特征;且传统数据增强方法无法学习到数据的潜在分布,无法生成多样性数据来增加训练集的丰富性,这将导致该技术无法根据不同海域、不同季节动物的栖息情况自适应调整。
综上所述,目前基于传统平移、旋转、缩放等的数据增强方法存在数据失真、无法生成多样性数据等问题。因此,设计一种保持数据真实性、增加数据多样性和提高仿生隐蔽水声通信技术可行性的海洋哺乳动物数据增强方法成为亟待解决的关键问题。
发明内容
本发明提供了一种海洋哺乳动物叫声数据增强方法,该方法通过生成器和鉴别器之间的博弈学习来提升模型性能,实现数据增强,增强后的海洋哺乳动物叫声逼真且具有多样性,为后续开展基于深度学习的仿生隐蔽水声通信研究提供了有力支持。为实现上述发明目的,本发明采用下述技术方案予以实现:
本发明提供一种海洋哺乳动物叫声数据增强方法,所述方法依次包括以下步骤:
S1:使用自编码器对海洋哺乳动物叫声数据进行特征提取与降噪重构;
S2:将经过自编码器重构后的海洋哺乳动物叫声数据划分为训练集和测试集;
S3:搭建生成对抗网络模型,所述生成对抗网络模型包括生成器和鉴别器,所述生成器基于GRU网络设计,所述鉴别器基于轻量化CNN网络设计,所述生成器将噪声数据转化为生成叫声数据并输入鉴别器,同时将步骤2训练集真实叫声数据输入鉴别器,从而对生成对抗网络模型进行训练;
S4:将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证,最后调用最优的生成对抗网络模型进行数据增强。
优选的,步骤S1所述使用自编码器对海洋哺乳动物叫声数据进行特征提取和降噪重构的方法为:所述自编码器将输入的海洋哺乳动物叫声数据x变换到隐藏变量z,编码过程用公式(1)表示为:
z = f (w1 x+b1) (1)
然后通过解码器重构出海洋哺乳动物叫声数据解码过程用公式(2)表示为:
其中,f()为激活函数,x为输入的海洋哺乳动物叫声数据;z为隐藏变量;为重构后的海洋哺乳动物叫声数据;w1、w2为权重矩阵,b1、b2为偏置向量,所述自编码器将输入海洋哺乳动物叫声数据x变换到隐藏变量z,并通过解码器重建出/>使解码器的输出与原始输入尽可能相似,给定一组数据x(n)∈R(H),1≤n≤N,N是数据样本数量,R(H)表示H维的特征空间,其重构误差为:/>最小化重构误差后得有效学习网络参数θ={w1,w2,b1,b2}。
优选的,为了解决所述生成器和鉴别器之间训练不稳定问题,所述生成对抗网络模型采用Wasserstein距离衡量真实叫声数据和生成叫声数据两个分布间的相似程度,Wasserstein距离定义为:
W(Preal,Pgen)=sup||f||≤1Ex~Preal[fw(x)]-Ex~Pgen[fw(x)](3)
式中,E表示期望,Preal表示真实叫声样本,Pgen表示生成叫声样本,sup表示上确界,即最小上界,||f||≤1表示函数是1-Lipschitz函数,将f定义为一个参数化模型后:
K×W(Preal, Pgen) = W: ||f||L≤Ksup Ex~Preal [fw(x)] - Ex~Pgen [fw(x)] (4)
式中,K为Lipschitz常数,用于限制鉴别器函数斜率,确保Wasserstein距离的计算有效,W表示真实叫声样本Preal与生成叫声样本Pgen间的距离,fw(x)表示鉴别器。
优选的,为了使所述生成对抗网络模型更好的学习音频数据的分布特征,提高训练稳定性,在生成对抗网络的基础上增加梯度惩罚项,表达式如下:
其中,D表示鉴别器,λ表示梯度惩罚的权重系数,X′表示真实叫声数据和生成叫声数据之间的插值,即X′=α*x_real+(1-α)*x_fake,α表示真实叫声数据和生成叫声数据之间均匀采样的随机数,x_real表示真实叫声数据,x_fake表示生成叫声数据,在训练过程中,惩罚项分别从真实叫声样本和生成叫声样本分布中进行采样,生成对抗网络采用双边惩罚机制,使所有样本的梯度范数都向1靠拢。
优选的,所述生成器由一层嵌入层、一层全连接层以及五层一维反卷积层组成。
优选的,为了评估生成器生成的叫声数据与真实海洋哺乳动物叫声之间的差异,采用均方误差和对抗损失作为生成器组合损失函数,将真实叫声A和生成叫声B的采样点进行逐一比较,计算它们之间差值的平方,突出差异的重要性;将所有差值的平方求和,并除以采样点数量N,得到均方误差MSE,其公式为:
其中,Ai表示真实叫声A的第i个采样点,Bi表示生成叫声的第i个采样点,MSE的数值越小,表示生成叫声数据与真实叫声数据之间的差异越小,越接近真实叫声;采用MSE和基于Wasserstein距离来度量生成叫声分布与真实叫声分布之间差异的对抗损失函数,设计组合损失函数作为生成器损失函数Lgen,表示为:
Lgen=λ1Ladv+λ2Lmse (8)
其中,Ladv为对抗损失函数,Lmse为均方误差损失函数,通过最小化Wasserstein距离逼近真实分布,λ1、λ2为权重参数,R表示生成叫声样本总数,r表示生成叫声样本序号,D'(·)表示输入鉴别器的叫声样本被判断为真实样本的概率,表示生成叫声样本中第r个样本。
优选的,所述鉴别器由五层一维卷积层、一层全连接层组成。
优选的,所述鉴别器的卷积层使用深度可分离卷积,所述深度可分离卷积由深度卷积和逐点卷积两部分组成,深度卷积独立地对输入的每个通道进行卷积计算,逐点卷积将深度卷积的结果加权融合。
优选的,所述鉴别器的中间层加入批归一化层可以减少中间层输入的分布偏移,使得鉴别器在训练过程中更加稳定,所述中间层指的是鉴别器的五个一维卷积层和一个全连接层,其公式为:
式中,μ表示批处理数据均值,Nbat表示批量值,xn表示张量中的数据,σ2为批处理数据方差,表示归一化后数据,x表示原始数据,ε为常量,yn为批归一化后数据,γ为比例参数,β为位移参数。
优选的,中间层批归一化后使用激活函数,公式为:
其中,`x:表示批归一化后的中间层参数,在负值邻域增加常数系数变体ω,使其在负值输入领域不被完全忽略。
本发明的有益效果为:
本发明首先使用自编码器对海洋哺乳动物叫声和其他海洋环境噪声进行特征提取和降噪重构,提升了数据集质量;然后基于深度学习方法进行数据增强,解决了传统基于平移、旋转、缩放等数据增强方法无法学习到数据的潜在分布,无法生成多样性数据等问题,为后续开展基于深度学习的仿生隐蔽水声通信研究提供了有力支持。
附图说明
图1:实施例海洋哺乳动物叫声数据增强方法的整体流程图,
图2:实施例自编码器的网络结构图,
图3:实施例生成对抗网络的结构图,
图4:实施例生成器的结构图,
图5:实施例鉴别器的结构图,
图6:实施例真实叫声与生成叫声的波形图对比;(a)为海洋哺乳动物真实叫声波形图,(b)为模型生成叫声波形图,其中横坐标为时间,纵坐标为相对振幅。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
海洋哺乳动物叫声是一种特殊而复杂的数据,目前基于传统平移、旋转、缩放等的数据增强方法因没有考虑其特殊性质导致存在数据失真、无法生成多样性数据等问题。随着生成对抗网络在音频生成领域取得了杰出表现,考虑基于WGAN-GP方法实现海洋哺乳动物叫声数据增强,该方法通过生成器和鉴别器之间的博弈学习来提升模型性能,实现数据增强,增强后的海洋哺乳动物叫声逼真且具有多样性,为后续开展基于深度学习的仿生隐蔽水声通信研究提供了有力支持。
本实施例是一种海洋哺乳动物叫声数据增强方法,其整体流程图如图1、2所示,包括以下步骤:
S1:对海洋哺乳动物叫声数据经过自编码器训练保留声音的频谱特征、时域特征、能量分布等关键特征信息,减小海洋环境中的噪声干扰,实现对目标数据的有效预处理,提升数据集质量。如图2所示,自编码器中编码器部分学习映射关系Lθ:x→v,此过程可以提取对输入进行表达的关键特征,将H维的海洋哺乳动物叫声数据x映射到低维特征空间,得到每个数据的编码:
z(n)∈R(G),1≤n≤N
式中,N是数据样本数量,R表示特征空间,G是特征空间维度;
解码器学习映射关系hθ:v→x,将提取出的隐藏特征进行重构,其中G≤H。
对于输入的海洋哺乳动物叫声数据x,自编码器的编码过程用如下公式表示为:
z=f(w1 x+b1)
解码过程用如下公式表示为:
其中,f()为激活函数,x为输入的海洋哺乳动物叫声数据;z为隐藏变量;为重构后的海洋哺乳动物叫声数据;w1、w2为权重矩阵,b1、b2为偏置向量。自编码器将输入海洋哺乳动物叫声数据x变换到隐藏变量z,并通过解码器重建出/>使解码器的输出与原始输入尽可能相似,给定一组数据x(n)∈R(H),1≤n≤N,N是数据样本数量,R(H)表示H维的特征空间,其重构误差为:/>最小化重构误差后得有效学习网络参数θ={w1,w2,b1,b2}。
S2:将经过自编码器重构后的海洋哺乳动物叫声数据划分为训练集和测试集。
S3:参考图3,基于梯度惩罚项搭建生成对抗网络,所述生成对抗网络是由生成器和鉴别器组成的神经网络模型,通过生成器将随机噪声生成假的叫声数据(即生成叫声数据),然后将生成器生成的假的叫声数据和步骤1重构的叫声数据(即真实叫声数据)输入鉴别器进行区分,生成器的功能是尽可能的欺骗鉴别器,使其将生成叫声数据误以为是真实叫声数据,而鉴别器的目标是尽可能准确地区分真实叫声数据和生成叫声数据,两个模型相互对抗,通过不断调整参数来提升自己的性能。
为了解决生成器和鉴别器之间训练不稳定问题,本实施例采用基于Wasserstein距离的生成对抗网络架构(即WGAN架构),有效衡量真实叫声数据和生成叫声数据两个分布间的相似程度,Wasserstein距离是一种测量真实叫声数据和生成叫声数据两个分布之间相似程度的距离度量。在WGAN架构中,鉴别器被修改为一个评估函数,用于估计两个分布之间的Wasserstein距离。Wasserstein距离可以理解为将一个分布转化为另一个分布所需的最小代价,即从真实叫声数据分布转化为生成叫声数据分布的代价。生成器与鉴别器博弈学习,互相帮助训练Wasserstein距离,Wasserstein距离定义为:
W(Preal,Pgen)=sup||f||≤1Ex~Preal[fw(x)]-Ex~Pgen[fw(x)]
式中,E表示期望,Preal表示真实叫声样本,Pgen表示生成叫声样本,sup表示上确界,即最小上界,||f||≤1表示函数是1-Lipschitz函数,将f定义为一个参数化模型后:
K×W(Preal,Pgen)=W:||f||L≤KsupEx~Preal[fw(x)]-Ex~Pgen[fw(x)]
式中,K为Lipschitz常数,用于限制鉴别器函数斜率,确保Wasserstein距离的计算有效,W表示真实叫声样本Preal与生成叫声样本Pgen间的距离,fw(x)表示鉴别器;
在WGAN的基础上增加梯度惩罚项,表达式如下:
其中,D表示鉴别器,λ表示梯度惩罚的权重系数,X′表示真实叫声数据和生成叫声数据之间的插值,即X′=α*x_real+(1-α)*x_fake,α表示真实叫声数据和生成叫声数据之间均匀采样的随机数,x_real表示真实叫声数据,x_fake表示生成叫声数据,在训练过程中,惩罚项分别从真实叫声样本和生成叫声样本分布中进行采样,WGAN采用双边惩罚机制,使所有样本的梯度范数都向1靠拢,设置训练六次生成器对应优化一次鉴别器,使模型更好的学习音频数据的分布特征,提高训练稳定性。
S4:本实施例基于GRU网络设计生成器,生成器架构如图4所示,由一层嵌入层、一层全连接层以及五层一维反卷积层组成。生成器接收随机噪声向量作为输入,输出的是一个与真实叫声数据尺寸和特征相匹配的虚假叫声样本。
GRU网络通过引入门控机制,能够更好捕捉长期依赖关系,减轻了传统循环神经网络中的梯度消失问题,使网络能够更好地学习海洋哺乳动物叫声中的时序特征和频谱信息,以更好地捕捉海洋哺乳动物叫声的特征和模式。GRU网络中的两个门,分别是更新门rt和重置门zt,更新门的传播公式为:
rt=σ(wr·[ht-1,xt])
其中,σ是激活函数sigmoid函数,激活函数将输入和隐藏状态进行融合,输出一个0到1之间的值,决定当前时间步隐藏状态的更新幅度,wr是通过训练学习的更新门数据输入所占权重参数,更新门决定了当前时间步的输入和上一时间步的隐藏状态的更新程度,ht是t时刻循环单元的隐藏状态,ht-1是前一时刻循环单元的隐藏状态,xt是t时刻循环单元的输入;
重置门的传播公式为:
zt=σ(wz·[ht-1,xt])
其中,σ是激活函数sigmoid函数,激活函数将输入和隐藏状态进行融合,输出一个0到1之间的值,决定当前时间步隐藏状态的更新幅度,wz是通过训练学习的重置门数据输入所占权重参数;ht是t时刻循环单元的隐藏状态,ht-1是前一时刻循环单元的隐藏状态,xt是t时刻循环单元的输入;
单元状态的计算公式为:
式中,tanh为双曲正切激活函数,将输入的值映射到[-1,1]范围内,W为权重参数,rt为重置门的输出,ht是t时刻循环单元的隐藏状态,ht-1是前一时刻循环单元的隐藏状态,xt是t时刻循环单元的输入,该式根据当前输入和前一时间步的隐藏状态来计算和更新当前时间步的状态,以此捕捉序列数据中的长期依赖关系,最终结果的计算公式:
yt=σ(W0·ht)
上述公式将隐藏状态映射到最终的输出空间,其中,σ为激活函数,将输入的值映射到[0,1]的范围内,W0为权重参数,ht是t时刻循环单元的隐藏状态。
设计生成器损失函数:
为了评估生成器生成的叫声数据与真实海洋哺乳动物叫声之间的差异,本实施例采用均方误差(MSE)和对抗损失作为组合损失函数。将真实叫声A和生成叫声B的采样点进行逐一比较,计算它们之间差值的平方,突出差异的重要性;将所有差值的平方求和,并除以采样点数量N,得到MSE,其公式为:
其中,Ai表示真实叫声A的第i个采样点,Bi表示生成叫声的第i个采样点,MSE的数值越小,表示生成叫声数据与真实叫声数据之间的差异越小,越接近真实叫声。采用MSE和基于Wasserstein距离来度量生成叫声分布与真实叫声分布之间差异的对抗损失函数,设计组合损失函数作为生成器损失函数Lgen,表示为:
Lgen=λ1Ladv+λ2Lmse
其中,Ladv为对抗损失函数,Lmse为均方误差损失函数,通过最小化Wasserstein距离逼近真实分布,λ1、λ2为权重参数,R表示生成叫声样本总数,r表示生成叫声样本序号,D'(·)表示输入鉴别器的叫声样本被判断为真实样本的概率,表示生成叫声样本中第r个样本。
S5:基于轻量化的CNN网络设计鉴别器,包括设计搭建生成对抗网络鉴别器,由五层一维卷积层、一层全连接层组成,如图5所示:
使用深度可分离卷积(Depthwise Separable Convolution)替代部分标准卷积。它由深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)两部分组成,深度卷积独立地对输入的每个通道进行卷积计算,逐点卷积将深度卷积的结果加权融合。
N个T×W×C的卷积核由C个T×W×1的深度卷积核与N个1×1×C个逐点卷积核替代,则普通卷积参数数量Params1计算如式:
Params1=T×W×C×N
深度可分离卷积的参数数量Params2计算如式:
Params2=T×W×C+C×N
由此,深度可分离卷积能够使模型在保持较高性能的同时减少参数数量,更好的进行训练;
中间层加入批归一化层:
由于梯度的传播问题,中间层的输入分布可能会发生变化,导致训练过程中的不稳定性。加入批归一化层可以减少中间层输入的分布偏移,使得鉴别器在训练过程中更加稳定,其公式为:
其中,μ表示批处理数据均值,Nbat表示批量值,xn表示张量中的数据,σ2为批处理数据方差,表示归一化后数据,x表示原始数据,ε为常量,yn为批归一化后数据,γ为比例参数,β为位移参数;
将激活函数用于中间层批归一化后,公式为:
其中,`x:表示批归一化后的中间层参数,在负值邻域增加常数系数变体ω,使其在负值输入领域不被完全忽略。
S6、将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证,最后调用最优的生成对抗网络模型进行数据增强。
将本发明搭建好的网络模型不断训练调整优化后进行数据增强,得到18kHz的海洋哺乳动物叫声音频,将音频信号处理后得到真实叫声与生成叫声的波形图,经过观察与比较,肉眼无法看出其差别,如图6所示,为真实叫声与生成叫声的时域波形图对比,(a)为海洋哺乳动物真实叫声波形图,(b)为模型生成叫声波形图。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下,可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种海洋哺乳动物叫声数据增强方法,其特征在于:所述方法依次包括以下步骤:
S1:使用自编码器对海洋哺乳动物叫声数据进行特征提取与降噪重构;
S2:将经过自编码器重构后的海洋哺乳动物叫声数据划分为训练集和测试集;
S3:搭建生成对抗网络模型,所述生成对抗网络模型包括生成器和鉴别器,所述生成器基于GRU网络设计,所述鉴别器基于轻量化CNN网络设计,所述生成器将噪声数据转化为生成叫声数据并输入鉴别器,同时将步骤2训练集真实叫声数据输入鉴别器,从而对生成对抗网络模型进行训练;
S4:将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证,最后调用最优的生成对抗网络模型进行数据增强。
2.根据权利要求1所述的海洋哺乳动物叫声数据增强方法,其特征在于:步骤S1所述使用自编码器对海洋哺乳动物叫声数据进行特征提取和降噪重构的方法为:所述自编码器将输入的海洋哺乳动物叫声数据x变换到隐藏变量z,编码过程用公式(1)表示为:
z = f (w1 x+b1) (1)
然后通过解码器重构出海洋哺乳动物叫声数据解码过程用公式(2)表示为:
其中,f()为激活函数,x为输入的海洋哺乳动物叫声数据;z为隐藏变量;为重构后的海洋哺乳动物叫声数据;w1、w2为权重矩阵,b1、b2为偏置向量,所述自编码器将输入海洋哺乳动物叫声数据x变换到隐藏变量z,并通过解码器重建出/>使解码器的输出与原始输入尽可能相似,给定一组数据x(n)∈R(H),1≤n≤N,N是数据样本数量,R(H)表示H维的特征空间,其重构误差为:/>最小化重构误差后得有效学习网络参数θ={w1,w2,b1,b2}。
3.根据权利要求2所述的海洋哺乳动物叫声数据增强方法,其特征在于:为了解决所述生成器和鉴别器之间训练不稳定问题,所述生成对抗网络模型采用Wasserstein距离衡量真实叫声数据和生成叫声数据两个分布间的相似程度,Wasserstein距离定义为:
W(Preal,Pgen)=sup||f||≤1Ex~Preal[fw(x)]-Ex~Pgen[fw(x)](3)
式中,E表示期望,Preal表示真实叫声样本,Pgen表示生成叫声样本,sup表示上确界,即最小上界,||f||≤1表示函数是1-Lipschitz函数,将f定义为一个参数化模型后:
K×W(Preal, Pgen) = W: ||f||L≤Ksup Ex~Preal [fw(x)] - Ex~Pgen [fw(x)] (4)
式中,K为Lipschitz常数,用于限制鉴别器函数斜率,确保Wasserstein距离的计算有效,W表示真实叫声样本Preal与生成叫声样本Pgen间的距离,fw(x)表示鉴别器。
4.根据权利要求3所述的海洋哺乳动物叫声数据增强方法,其特征在于:为了使所述生成对抗网络模型更好的学习音频数据的分布特征,提高训练稳定性,在生成对抗网络的基础上增加梯度惩罚项,表达式如下:
其中,D表示鉴别器,λ表示梯度惩罚的权重系数,X′表示真实叫声数据和生成叫声数据之间的插值,即X′=α*x_real+(1-α)*x_fake,α表示真实叫声数据和生成叫声数据之间均匀采样的随机数,x_real表示真实叫声数据,x_fake表示生成叫声数据,在训练过程中,惩罚项分别从真实叫声样本和生成叫声样本分布中进行采样,生成对抗网络采用双边惩罚机制,使所有样本的梯度范数都向1靠拢。
5.根据权利要求1所述的海洋哺乳动物叫声数据增强方法,其特征在于:所述生成器由一层嵌入层、一层全连接层以及五层一维反卷积层组成。
6.根据权利要求5所述的海洋哺乳动物叫声数据增强方法,其特征在于:为了评估生成器生成的叫声数据与真实海洋哺乳动物叫声之间的差异,采用均方误差和对抗损失作为生成器组合损失函数,均方误差MSE计算公式为:
其中,Ai表示真实叫声A的第i个采样点,Bi表示生成叫声B的第i个采样点,N为采样点数量,MSE的数值越小,表示生成叫声数据与真实叫声数据之间的差异越小,越接近真实叫声;采用MSE和基于Wasserstein距离来度量生成叫声分布与真实叫声分布之间差异的对抗损失函数,设计组合损失函数作为生成器损失函数Lgen,公式为:
Lgen=λ1Ladv+λ2Lmse(8)
其中,Ladv为对抗损失函数,Lmse为均方误差损失函数,通过最小化Wasserstein距离逼近真实分布,λ1、λ2为权重参数,R表示生成叫声样本总数,r表示生成叫声样本序号,D'(·)表示输入鉴别器的叫声样本被判断为真实样本的概率,表示生成叫声样本中第r个样本。
7.根据权利要求1所述的海洋哺乳动物叫声数据增强方法,其特征在于:所述鉴别器由五层一维卷积层、一层全连接层组成。
8.根据权利要求7所述的海洋哺乳动物叫声数据增强方法,其特征在于:所述鉴别器的卷积层使用深度可分离卷积,所述深度可分离卷积由深度卷积和逐点卷积两部分组成,深度卷积独立地对输入的每个通道进行卷积计算,逐点卷积将深度卷积的结果加权融合。
9.根据权利要求8所述的海洋哺乳动物叫声数据增强方法,其特征在于:所述鉴别器的中间层加入批归一化层可以减少中间层输入的分布偏移,使得鉴别器在训练过程中更加稳定,其公式为:
式中,μ表示批处理数据均值,Nbat表示批量值,xn表示张量中的数据,σ2为批处理数据方差,表示归一化后数据,x表示原始数据,ε为常量,yn为批归一化后数据,γ为比例参数,β为位移参数。
10.根据权利要求9所述的海洋哺乳动物叫声数据增强方法,其特征在于:中间层批归一化后使用激活函数,公式为:
其中,x表示批归一化后的中间层参数,在负值邻域增加常数系数变体ω,使其在负值输入领域不被完全忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311269327.4A CN117765962B (zh) | 2023-09-28 | 2023-09-28 | 一种海洋哺乳动物叫声数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311269327.4A CN117765962B (zh) | 2023-09-28 | 2023-09-28 | 一种海洋哺乳动物叫声数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117765962A true CN117765962A (zh) | 2024-03-26 |
CN117765962B CN117765962B (zh) | 2024-05-24 |
Family
ID=90311070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311269327.4A Active CN117765962B (zh) | 2023-09-28 | 2023-09-28 | 一种海洋哺乳动物叫声数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117765962B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805188A (zh) * | 2018-05-29 | 2018-11-13 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
EP3477633A1 (en) * | 2017-10-27 | 2019-05-01 | Baidu USA LLC | Systems and methods for robust speech recognition using generative adversarial networks |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN112466320A (zh) * | 2020-12-12 | 2021-03-09 | 中国人民解放军战略支援部队信息工程大学 | 一种基于生成对抗网络的水声信号降噪方法 |
CN113488069A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
CN114444013A (zh) * | 2020-10-19 | 2022-05-06 | 中国石油化工股份有限公司 | 一种基于对抗博弈的配电网大数据修复方法 |
CN115438686A (zh) * | 2022-07-29 | 2022-12-06 | 西北工业大学 | 一种基于数据增强和残差cnn的水声目标识别方法 |
CN115588436A (zh) * | 2022-09-29 | 2023-01-10 | 沈阳新松机器人自动化股份有限公司 | 基于变分自编码器生成对抗网络的语音增强方法 |
WO2023052523A1 (en) * | 2021-09-29 | 2023-04-06 | Dolby International Ab | Universal speech enhancement using generative neural networks |
CN116403590A (zh) * | 2023-06-08 | 2023-07-07 | 青岛科技大学 | 基于小波变换与生成对抗网络的仿生信号处理方法 |
US20230290371A1 (en) * | 2022-03-11 | 2023-09-14 | International Institute Of Information Technology, Hyderabad | System and method for automatically generating a sign language video with an input speech using a machine learning model |
-
2023
- 2023-09-28 CN CN202311269327.4A patent/CN117765962B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3477633A1 (en) * | 2017-10-27 | 2019-05-01 | Baidu USA LLC | Systems and methods for robust speech recognition using generative adversarial networks |
CN108805188A (zh) * | 2018-05-29 | 2018-11-13 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN114444013A (zh) * | 2020-10-19 | 2022-05-06 | 中国石油化工股份有限公司 | 一种基于对抗博弈的配电网大数据修复方法 |
CN112466320A (zh) * | 2020-12-12 | 2021-03-09 | 中国人民解放军战略支援部队信息工程大学 | 一种基于生成对抗网络的水声信号降噪方法 |
CN113488069A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
WO2023052523A1 (en) * | 2021-09-29 | 2023-04-06 | Dolby International Ab | Universal speech enhancement using generative neural networks |
US20230290371A1 (en) * | 2022-03-11 | 2023-09-14 | International Institute Of Information Technology, Hyderabad | System and method for automatically generating a sign language video with an input speech using a machine learning model |
CN115438686A (zh) * | 2022-07-29 | 2022-12-06 | 西北工业大学 | 一种基于数据增强和残差cnn的水声目标识别方法 |
CN115588436A (zh) * | 2022-09-29 | 2023-01-10 | 沈阳新松机器人自动化股份有限公司 | 基于变分自编码器生成对抗网络的语音增强方法 |
CN116403590A (zh) * | 2023-06-08 | 2023-07-07 | 青岛科技大学 | 基于小波变换与生成对抗网络的仿生信号处理方法 |
Non-Patent Citations (1)
Title |
---|
吴承安等: "基于时空特征融合的水声信号调制识别", 《青岛科技大学学报(自然科学版)》, vol. 44, no. 4, 14 August 2023 (2023-08-14), pages 121 - 126 * |
Also Published As
Publication number | Publication date |
---|---|
CN117765962B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807365B (zh) | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 | |
CN111653288B (zh) | 基于条件变分自编码器的目标人语音增强方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108696331B (zh) | 一种基于生成对抗网络的信号重构方法 | |
CN109993280A (zh) | 一种基于深度学习的水下声源定位方法 | |
CN116403590B (zh) | 基于小波变换与生成对抗网络的仿生信号处理方法 | |
Yang et al. | A new cooperative deep learning method for underwater acoustic target recognition | |
CN115602152B (zh) | 一种基于多阶段注意力网络的语音增强方法 | |
CN110968845B (zh) | 基于卷积神经网络生成的针对lsb隐写的检测方法 | |
CN117408164B (zh) | 储能辅助黑启动的风速智能预测方法及系统 | |
CN113571067A (zh) | 一种基于边界攻击的声纹识别对抗样本生成方法 | |
CN112560710B (zh) | 一种用于构建指静脉识别系统的方法及指静脉识别系统 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
WO2021179198A1 (zh) | 图像特征可视化方法、图像特征可视化装置及电子设备 | |
CN114745187B (zh) | 一种基于pop流量矩阵的内部网络异常检测方法及系统 | |
CN115188440A (zh) | 一种相似病历智能匹配方法 | |
CN113850013A (zh) | 一种舰船辐射噪声分类方法 | |
CN117765962B (zh) | 一种海洋哺乳动物叫声数据增强方法 | |
CN113948067A (zh) | 一种具有听觉高保真度特点的语音对抗样本修复方法 | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN115047422A (zh) | 一种基于多尺度混合空洞卷积的雷达目标识别方法 | |
CN114333846A (zh) | 发声者识别方法、装置、电子设备和存储介质 | |
CN114067832A (zh) | 一种头相关传输函数的预测方法、装置和电子设备 | |
CN115208613A (zh) | 一种基于小样本学习的三元cct网络的入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |