CN117765962A

CN117765962A - 一种海洋哺乳动物叫声数据增强方法

Info

Publication number: CN117765962A
Application number: CN202311269327.4A
Authority: CN
Inventors: 王景景; 蒋嘉铭; 鄢社锋; 刘帅; 曹润琪; 王猛; 姜帅; 牛秋娜; 程婉璐
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-03-26
Anticipated expiration: 2043-09-28
Also published as: CN117765962B

Abstract

本发明具体为一种海洋哺乳动物叫声数据增强方法，该方法使用自编码器对海洋哺乳动物叫声数据进行特征提取与降噪重构；将重构后的叫声数据划分为训练集和测试集；搭建生成对抗网络模型，生成对抗网络模型包括生成器和鉴别器，生成器基于GRU网络设计，鉴别器基于轻量化CNN网络设计，生成器将噪声数据转化为生成叫声数据并输入鉴别器，同时将步骤2训练集真实叫声数据输入鉴别器，从而对生成对抗网络模型进行训练；将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证，最后调用最优的生成对抗网络模型进行数据增强。通过生成器和鉴别器之间的博弈学习来提升模型性能，实现数据增强，增强后的海洋哺乳动物叫声逼真且具有多样性。

Description

一种海洋哺乳动物叫声数据增强方法

技术领域

本发明涉及仿生隐蔽水声通信技术领域，具体为一种基于自编码器和WGAN-GP的海洋哺乳动物叫声数据增强方法。

背景技术

本发明基于深度学习网络开展隐蔽通信研究，由于深度学习模型训练需要大量的数据集做支撑，但海洋哺乳动物叫声采集难度大、成本高，公开的数据集有限，因此设计合适的数据增强方法是一个重要挑战。

在水声通信中，海洋哺乳动物叫声是一种特殊而复杂的数据。传统的数据增强方法如平移、旋转和缩放等没有考虑到海洋哺乳动物叫声的特殊性质，平移操作可能改变声音信号的时间和频率结构，导致声音的时序关系被破坏。旋转操作可能改变声音的方向性特征，影响声纳定位和识别的准确性。缩放操作可能导致声音频率的畸变，使得声音无法被正常解码和理解。因此，传统方法可能会导致数据丢失关键特征；且传统数据增强方法无法学习到数据的潜在分布，无法生成多样性数据来增加训练集的丰富性，这将导致该技术无法根据不同海域、不同季节动物的栖息情况自适应调整。

综上所述，目前基于传统平移、旋转、缩放等的数据增强方法存在数据失真、无法生成多样性数据等问题。因此，设计一种保持数据真实性、增加数据多样性和提高仿生隐蔽水声通信技术可行性的海洋哺乳动物数据增强方法成为亟待解决的关键问题。

发明内容

本发明提供了一种海洋哺乳动物叫声数据增强方法，该方法通过生成器和鉴别器之间的博弈学习来提升模型性能，实现数据增强，增强后的海洋哺乳动物叫声逼真且具有多样性，为后续开展基于深度学习的仿生隐蔽水声通信研究提供了有力支持。为实现上述发明目的，本发明采用下述技术方案予以实现：

本发明提供一种海洋哺乳动物叫声数据增强方法，所述方法依次包括以下步骤：

S1：使用自编码器对海洋哺乳动物叫声数据进行特征提取与降噪重构；

S2：将经过自编码器重构后的海洋哺乳动物叫声数据划分为训练集和测试集；

S3：搭建生成对抗网络模型，所述生成对抗网络模型包括生成器和鉴别器，所述生成器基于GRU网络设计，所述鉴别器基于轻量化CNN网络设计，所述生成器将噪声数据转化为生成叫声数据并输入鉴别器，同时将步骤2训练集真实叫声数据输入鉴别器，从而对生成对抗网络模型进行训练；

S4：将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证，最后调用最优的生成对抗网络模型进行数据增强。

优选的，步骤S1所述使用自编码器对海洋哺乳动物叫声数据进行特征提取和降噪重构的方法为：所述自编码器将输入的海洋哺乳动物叫声数据x变换到隐藏变量z，编码过程用公式(1)表示为：

z ＝ f (w₁ x+b₁) (1)

然后通过解码器重构出海洋哺乳动物叫声数据解码过程用公式(2)表示为：

其中，f()为激活函数，x为输入的海洋哺乳动物叫声数据；z为隐藏变量；为重构后的海洋哺乳动物叫声数据；w₁、w₂为权重矩阵，b₁、b₂为偏置向量，所述自编码器将输入海洋哺乳动物叫声数据x变换到隐藏变量z，并通过解码器重建出/>使解码器的输出与原始输入尽可能相似，给定一组数据x(n)∈R(H),1≤n≤N，N是数据样本数量，R(H)表示H维的特征空间，其重构误差为：/>最小化重构误差后得有效学习网络参数θ＝{w₁,w₂,b₁,b₂}。

优选的，为了解决所述生成器和鉴别器之间训练不稳定问题，所述生成对抗网络模型采用Wasserstein距离衡量真实叫声数据和生成叫声数据两个分布间的相似程度，Wasserstein距离定义为：

W(P_real,P_gen)＝sup_||f||≤1E_x～Preal[f_w(x)]-E_x～Pgen[f_w(x)](3)

式中，E表示期望，P_real表示真实叫声样本，P_gen表示生成叫声样本，sup表示上确界，即最小上界，||f||≤1表示函数是1-Lipschitz函数，将f定义为一个参数化模型后：

K×W(P_real, P_gen) ＝ W: ||f||_L≤K^sup E_x～Preal [f_w(x)] - E_x～Pgen [f_w(x)] (4)

式中，K为Lipschitz常数，用于限制鉴别器函数斜率，确保Wasserstein距离的计算有效，W表示真实叫声样本P_real与生成叫声样本P_gen间的距离，f_w(x)表示鉴别器。

优选的，为了使所述生成对抗网络模型更好的学习音频数据的分布特征，提高训练稳定性，在生成对抗网络的基础上增加梯度惩罚项，表达式如下：

其中，D表示鉴别器，λ表示梯度惩罚的权重系数，X^′表示真实叫声数据和生成叫声数据之间的插值，即X′＝α*x_real+(1-α)*x_fake，α表示真实叫声数据和生成叫声数据之间均匀采样的随机数，x_real表示真实叫声数据，x_fake表示生成叫声数据，在训练过程中，惩罚项分别从真实叫声样本和生成叫声样本分布中进行采样，生成对抗网络采用双边惩罚机制，使所有样本的梯度范数都向1靠拢。

优选的，所述生成器由一层嵌入层、一层全连接层以及五层一维反卷积层组成。

优选的，为了评估生成器生成的叫声数据与真实海洋哺乳动物叫声之间的差异，采用均方误差和对抗损失作为生成器组合损失函数，将真实叫声A和生成叫声B的采样点进行逐一比较，计算它们之间差值的平方，突出差异的重要性；将所有差值的平方求和，并除以采样点数量N，得到均方误差MSE，其公式为：

其中，Ai表示真实叫声A的第i个采样点，Bi表示生成叫声的第i个采样点，MSE的数值越小，表示生成叫声数据与真实叫声数据之间的差异越小，越接近真实叫声；采用MSE和基于Wasserstein距离来度量生成叫声分布与真实叫声分布之间差异的对抗损失函数，设计组合损失函数作为生成器损失函数L_gen，表示为：

L_gen＝λ₁L_adv+λ₂L_mse (8)

其中，L_adv为对抗损失函数，L_mse为均方误差损失函数，通过最小化Wasserstein距离逼近真实分布，λ₁、λ₂为权重参数，R表示生成叫声样本总数，r表示生成叫声样本序号，D'(·)表示输入鉴别器的叫声样本被判断为真实样本的概率,表示生成叫声样本中第r个样本。

优选的，所述鉴别器由五层一维卷积层、一层全连接层组成。

优选的，所述鉴别器的卷积层使用深度可分离卷积，所述深度可分离卷积由深度卷积和逐点卷积两部分组成，深度卷积独立地对输入的每个通道进行卷积计算，逐点卷积将深度卷积的结果加权融合。

优选的，所述鉴别器的中间层加入批归一化层可以减少中间层输入的分布偏移，使得鉴别器在训练过程中更加稳定，所述中间层指的是鉴别器的五个一维卷积层和一个全连接层，其公式为：

式中，μ表示批处理数据均值，N_bat表示批量值，x_n表示张量中的数据，σ²为批处理数据方差，表示归一化后数据，x表示原始数据，ε为常量，y_n为批归一化后数据，γ为比例参数，β为位移参数。

优选的，中间层批归一化后使用激活函数，公式为：

其中，`x_：表示批归一化后的中间层参数，在负值邻域增加常数系数变体ω，使其在负值输入领域不被完全忽略。

本发明的有益效果为：

本发明首先使用自编码器对海洋哺乳动物叫声和其他海洋环境噪声进行特征提取和降噪重构，提升了数据集质量；然后基于深度学习方法进行数据增强，解决了传统基于平移、旋转、缩放等数据增强方法无法学习到数据的潜在分布，无法生成多样性数据等问题，为后续开展基于深度学习的仿生隐蔽水声通信研究提供了有力支持。

附图说明

图1：实施例海洋哺乳动物叫声数据增强方法的整体流程图，

图2：实施例自编码器的网络结构图，

图3：实施例生成对抗网络的结构图，

图4：实施例生成器的结构图，

图5：实施例鉴别器的结构图，

图6：实施例真实叫声与生成叫声的波形图对比；(a)为海洋哺乳动物真实叫声波形图，(b)为模型生成叫声波形图，其中横坐标为时间，纵坐标为相对振幅。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

海洋哺乳动物叫声是一种特殊而复杂的数据，目前基于传统平移、旋转、缩放等的数据增强方法因没有考虑其特殊性质导致存在数据失真、无法生成多样性数据等问题。随着生成对抗网络在音频生成领域取得了杰出表现，考虑基于WGAN-GP方法实现海洋哺乳动物叫声数据增强，该方法通过生成器和鉴别器之间的博弈学习来提升模型性能，实现数据增强，增强后的海洋哺乳动物叫声逼真且具有多样性，为后续开展基于深度学习的仿生隐蔽水声通信研究提供了有力支持。

本实施例是一种海洋哺乳动物叫声数据增强方法，其整体流程图如图1、2所示，包括以下步骤：

S1：对海洋哺乳动物叫声数据经过自编码器训练保留声音的频谱特征、时域特征、能量分布等关键特征信息，减小海洋环境中的噪声干扰，实现对目标数据的有效预处理，提升数据集质量。如图2所示，自编码器中编码器部分学习映射关系L_θ:x→v，此过程可以提取对输入进行表达的关键特征，将H维的海洋哺乳动物叫声数据x映射到低维特征空间，得到每个数据的编码：

z(n)∈R(G),1≤n≤N

式中，N是数据样本数量，R表示特征空间，G是特征空间维度；

解码器学习映射关系h_θ:v→x，将提取出的隐藏特征进行重构，其中G≤H。

对于输入的海洋哺乳动物叫声数据x，自编码器的编码过程用如下公式表示为：

z＝f(w₁ x+b₁)

解码过程用如下公式表示为：

其中，f()为激活函数，x为输入的海洋哺乳动物叫声数据；z为隐藏变量；为重构后的海洋哺乳动物叫声数据；w₁、w₂为权重矩阵，b₁、b₂为偏置向量。自编码器将输入海洋哺乳动物叫声数据x变换到隐藏变量z，并通过解码器重建出/>使解码器的输出与原始输入尽可能相似，给定一组数据x(n)∈R(H),1≤n≤N，N是数据样本数量，R(H)表示H维的特征空间，其重构误差为：/>最小化重构误差后得有效学习网络参数θ＝{w₁,w₂,b₁,b₂}。

S2：将经过自编码器重构后的海洋哺乳动物叫声数据划分为训练集和测试集。

S3：参考图3，基于梯度惩罚项搭建生成对抗网络，所述生成对抗网络是由生成器和鉴别器组成的神经网络模型，通过生成器将随机噪声生成假的叫声数据(即生成叫声数据)，然后将生成器生成的假的叫声数据和步骤1重构的叫声数据(即真实叫声数据)输入鉴别器进行区分，生成器的功能是尽可能的欺骗鉴别器，使其将生成叫声数据误以为是真实叫声数据，而鉴别器的目标是尽可能准确地区分真实叫声数据和生成叫声数据，两个模型相互对抗，通过不断调整参数来提升自己的性能。

为了解决生成器和鉴别器之间训练不稳定问题，本实施例采用基于Wasserstein距离的生成对抗网络架构(即WGAN架构)，有效衡量真实叫声数据和生成叫声数据两个分布间的相似程度，Wasserstein距离是一种测量真实叫声数据和生成叫声数据两个分布之间相似程度的距离度量。在WGAN架构中，鉴别器被修改为一个评估函数，用于估计两个分布之间的Wasserstein距离。Wasserstein距离可以理解为将一个分布转化为另一个分布所需的最小代价，即从真实叫声数据分布转化为生成叫声数据分布的代价。生成器与鉴别器博弈学习，互相帮助训练Wasserstein距离，Wasserstein距离定义为：

W(P_real,P_gen)＝sup_||f||≤1E_x～Preal[f_w(x)]-E_x～Pgen[f_w(x)]

K×W(P_real,P_gen)＝W:||f||_L≤K^supE_x～Preal[f_w(x)]-E_x～Pgen[f_w(x)]

式中，K为Lipschitz常数，用于限制鉴别器函数斜率，确保Wasserstein距离的计算有效，W表示真实叫声样本P_real与生成叫声样本P_gen间的距离，f_w(x)表示鉴别器；

在WGAN的基础上增加梯度惩罚项，表达式如下：

其中，D表示鉴别器，λ表示梯度惩罚的权重系数，X′表示真实叫声数据和生成叫声数据之间的插值，即X′＝α*x_real+(1-α)*x_fake，α表示真实叫声数据和生成叫声数据之间均匀采样的随机数，x_real表示真实叫声数据，x_fake表示生成叫声数据，在训练过程中，惩罚项分别从真实叫声样本和生成叫声样本分布中进行采样，WGAN采用双边惩罚机制，使所有样本的梯度范数都向1靠拢，设置训练六次生成器对应优化一次鉴别器，使模型更好的学习音频数据的分布特征，提高训练稳定性。

S4：本实施例基于GRU网络设计生成器，生成器架构如图4所示，由一层嵌入层、一层全连接层以及五层一维反卷积层组成。生成器接收随机噪声向量作为输入，输出的是一个与真实叫声数据尺寸和特征相匹配的虚假叫声样本。

GRU网络通过引入门控机制，能够更好捕捉长期依赖关系，减轻了传统循环神经网络中的梯度消失问题，使网络能够更好地学习海洋哺乳动物叫声中的时序特征和频谱信息，以更好地捕捉海洋哺乳动物叫声的特征和模式。GRU网络中的两个门，分别是更新门r_t和重置门z_t，更新门的传播公式为：

r_t＝σ(w_r·[h_t-1,x_t])

其中，σ是激活函数sigmoid函数，激活函数将输入和隐藏状态进行融合，输出一个0到1之间的值，决定当前时间步隐藏状态的更新幅度，w_r是通过训练学习的更新门数据输入所占权重参数，更新门决定了当前时间步的输入和上一时间步的隐藏状态的更新程度，h_t是t时刻循环单元的隐藏状态，h_t-1是前一时刻循环单元的隐藏状态，x_t是t时刻循环单元的输入；

重置门的传播公式为：

z_t＝σ(w_z·[h_t-1,x_t])

其中，σ是激活函数sigmoid函数，激活函数将输入和隐藏状态进行融合，输出一个0到1之间的值，决定当前时间步隐藏状态的更新幅度，w_z是通过训练学习的重置门数据输入所占权重参数；h_t是t时刻循环单元的隐藏状态，h_t-1是前一时刻循环单元的隐藏状态，x_t是t时刻循环单元的输入；

单元状态的计算公式为：

式中，tanh为双曲正切激活函数，将输入的值映射到[-1,1]范围内，W为权重参数，r_t为重置门的输出，h_t是t时刻循环单元的隐藏状态，h_t-1是前一时刻循环单元的隐藏状态，x_t是t时刻循环单元的输入，该式根据当前输入和前一时间步的隐藏状态来计算和更新当前时间步的状态，以此捕捉序列数据中的长期依赖关系，最终结果的计算公式：

y_t＝σ(W₀·h_t)

上述公式将隐藏状态映射到最终的输出空间，其中，σ为激活函数，将输入的值映射到[0,1]的范围内，W₀为权重参数，h_t是t时刻循环单元的隐藏状态。

设计生成器损失函数：

为了评估生成器生成的叫声数据与真实海洋哺乳动物叫声之间的差异，本实施例采用均方误差(MSE)和对抗损失作为组合损失函数。将真实叫声A和生成叫声B的采样点进行逐一比较，计算它们之间差值的平方，突出差异的重要性；将所有差值的平方求和，并除以采样点数量N，得到MSE，其公式为：

其中，Ai表示真实叫声A的第i个采样点，Bi表示生成叫声的第i个采样点，MSE的数值越小，表示生成叫声数据与真实叫声数据之间的差异越小，越接近真实叫声。采用MSE和基于Wasserstein距离来度量生成叫声分布与真实叫声分布之间差异的对抗损失函数，设计组合损失函数作为生成器损失函数L_gen，表示为：

L_gen＝λ₁L_adv+λ₂L_mse

S5：基于轻量化的CNN网络设计鉴别器，包括设计搭建生成对抗网络鉴别器，由五层一维卷积层、一层全连接层组成，如图5所示：

使用深度可分离卷积(Depthwise Separable Convolution)替代部分标准卷积。它由深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)两部分组成，深度卷积独立地对输入的每个通道进行卷积计算，逐点卷积将深度卷积的结果加权融合。

N个T×W×C的卷积核由C个T×W×1的深度卷积核与N个1×1×C个逐点卷积核替代，则普通卷积参数数量Params₁计算如式：

Params₁＝T×W×C×N

深度可分离卷积的参数数量Params₂计算如式:

Params₂＝T×W×C+C×N

由此，深度可分离卷积能够使模型在保持较高性能的同时减少参数数量，更好的进行训练；

中间层加入批归一化层：

由于梯度的传播问题，中间层的输入分布可能会发生变化，导致训练过程中的不稳定性。加入批归一化层可以减少中间层输入的分布偏移，使得鉴别器在训练过程中更加稳定，其公式为：

其中，μ表示批处理数据均值，N_bat表示批量值，x_n表示张量中的数据，σ²为批处理数据方差，表示归一化后数据，x表示原始数据，ε为常量，y_n为批归一化后数据，γ为比例参数，β为位移参数；

将激活函数用于中间层批归一化后，公式为：

S6、将步骤2测试集输入步骤3训练好的生成对抗网络模型进行验证，最后调用最优的生成对抗网络模型进行数据增强。

将本发明搭建好的网络模型不断训练调整优化后进行数据增强，得到18kHz的海洋哺乳动物叫声音频，将音频信号处理后得到真实叫声与生成叫声的波形图，经过观察与比较，肉眼无法看出其差别，如图6所示，为真实叫声与生成叫声的时域波形图对比，(a)为海洋哺乳动物真实叫声波形图，(b)为模型生成叫声波形图。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下，可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种海洋哺乳动物叫声数据增强方法，其特征在于：所述方法依次包括以下步骤：

2.根据权利要求1所述的海洋哺乳动物叫声数据增强方法，其特征在于：步骤S1所述使用自编码器对海洋哺乳动物叫声数据进行特征提取和降噪重构的方法为：所述自编码器将输入的海洋哺乳动物叫声数据x变换到隐藏变量z，编码过程用公式(1)表示为：

z ＝ f (w₁ x+b₁) (1)

3.根据权利要求2所述的海洋哺乳动物叫声数据增强方法，其特征在于：为了解决所述生成器和鉴别器之间训练不稳定问题，所述生成对抗网络模型采用Wasserstein距离衡量真实叫声数据和生成叫声数据两个分布间的相似程度，Wasserstein距离定义为：

W(P_real,P_gen)＝sup_||f||≤1E_x～Preal[f_w(x)]-E_x～Pgen[f_w(x)](3)

4.根据权利要求3所述的海洋哺乳动物叫声数据增强方法，其特征在于：为了使所述生成对抗网络模型更好的学习音频数据的分布特征，提高训练稳定性，在生成对抗网络的基础上增加梯度惩罚项，表达式如下：

其中，D表示鉴别器，λ表示梯度惩罚的权重系数，X^′表示真实叫声数据和生成叫声数据之间的插值，即X^′＝α*x_real+(1-α)*x_fake，α表示真实叫声数据和生成叫声数据之间均匀采样的随机数，x_real表示真实叫声数据，x_fake表示生成叫声数据，在训练过程中，惩罚项分别从真实叫声样本和生成叫声样本分布中进行采样，生成对抗网络采用双边惩罚机制，使所有样本的梯度范数都向1靠拢。

5.根据权利要求1所述的海洋哺乳动物叫声数据增强方法，其特征在于：所述生成器由一层嵌入层、一层全连接层以及五层一维反卷积层组成。

6.根据权利要求5所述的海洋哺乳动物叫声数据增强方法，其特征在于：为了评估生成器生成的叫声数据与真实海洋哺乳动物叫声之间的差异，采用均方误差和对抗损失作为生成器组合损失函数，均方误差MSE计算公式为：

其中，Ai表示真实叫声A的第i个采样点，Bi表示生成叫声B的第i个采样点，N为采样点数量，MSE的数值越小，表示生成叫声数据与真实叫声数据之间的差异越小，越接近真实叫声；采用MSE和基于Wasserstein距离来度量生成叫声分布与真实叫声分布之间差异的对抗损失函数，设计组合损失函数作为生成器损失函数L_gen，公式为：

L_gen＝λ₁L_adv+λ₂L_mse(8)

7.根据权利要求1所述的海洋哺乳动物叫声数据增强方法，其特征在于：所述鉴别器由五层一维卷积层、一层全连接层组成。

8.根据权利要求7所述的海洋哺乳动物叫声数据增强方法，其特征在于：所述鉴别器的卷积层使用深度可分离卷积，所述深度可分离卷积由深度卷积和逐点卷积两部分组成，深度卷积独立地对输入的每个通道进行卷积计算，逐点卷积将深度卷积的结果加权融合。

9.根据权利要求8所述的海洋哺乳动物叫声数据增强方法，其特征在于：所述鉴别器的中间层加入批归一化层可以减少中间层输入的分布偏移，使得鉴别器在训练过程中更加稳定，其公式为：

10.根据权利要求9所述的海洋哺乳动物叫声数据增强方法，其特征在于：中间层批归一化后使用激活函数，公式为：

其中，x表示批归一化后的中间层参数，在负值邻域增加常数系数变体ω，使其在负值输入领域不被完全忽略。