CN112257521A

CN112257521A - 基于数据增强和时频分离的cnn水声信号目标识别方法

Info

Publication number: CN112257521A
Application number: CN202011063007.XA
Authority: CN
Inventors: 沈同圣; 刘峰; 赵德鑫; 罗再磊; 李光明
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-22
Anticipated expiration: 2040-09-30
Also published as: CN112257521B

Abstract

本发明公开了基于数据增强和时频分离的CNN水声信号目标识别方法，能够提高识别正确率。方案为：获取不同目标类别的水声信号作为样本，分帧得到原始时域信号样本，据此构建训练集和测试集。对原始时域信号样本进行数据增强和扩充。对扩展后原始时域信号样本提取Mel功率谱，采用随机时域掩蔽和频率掩蔽方式进行谱图数据的扩展。对扩展后的Mel功率谱进行标注，并归一化处理，作为待识别水声信号的频谱特征。采用训练集中样本得到的待识别水声信号的频谱特征，进行目标分类模型训练。采用测试集中样本得到的待识别水声信号的频谱特征，输入至训练好的目标分类模型进行分类识别测试，获得训练好的目标分类模型的分类精度。

Description

基于数据增强和时频分离的CNN水声信号目标识别方法

技术领域

本发明涉及水下目标识别领域，具体为基于数据增强和时频分离的CNN水声信号目标识别方法。

背景技术

水声信号被动目标识别对于海洋开发、国防安全都有着重大意义，由于海洋环境的时变性和目标特征的复杂性，该问题一直没有得到很好的解决。经过多年的发展，新的理论、技术、方法不断被提出和验证，目前一部分相对有效的技术已从实验室仿真过渡到硬件应用阶段。然而，要想达到依靠识别系统进行自动判断，还有很多新方法和新途径值得人们去探索。

水声信号目标识别受到海洋环境的影响，存在强烈的噪声干扰，且数据采集和标注的难度较大，通常需要在小样本情况下进行识别。此外，水声信号的类内差异性和类间相似性也制约着识别的效果，相同目标在不同的航行状态下可能呈现出不同的特征，而不同目标在吨位、航速、工作状态、环境变化等作用下，可能存在相似的特征。因此，水声目标识别一直是水声探测领域中重要的研究方向。

利用深度学习方法对水声信号进行分类需要大量的数据进行训练，如何在有限的样本下，提取具有更加包容性的特征向量并构建高精度和高效率的目标识别模型，这是水声信号目标识别中最具挑战性的任务。目前大多数水声信号识别系统都是在特定的条件下经过优化，以获得最佳的性能，这会导致识别系统在应用于新环境时存在泛化风险。

发明内容

有鉴于此，本发明提供了基于数据增强和时频分离的CNN水声信号目标识别方法，能够通过数据扩展和时频分类提供一种适用于小样本水声信号的识别方法，提高识别正确率。

为达到上述目的，本发明的技术方案包括如下步骤：

步骤1：获取不同目标类别的水声信号作为样本，对水声信号样本按照预设的时间步长进行分帧，得到原始时域信号样本，据此构建训练集和测试集。

步骤2：对原始时域信号样本进行数据增强和扩充，针对原始时域信号样本，在添加高斯噪声的基础上，采用时域拉伸和音调变换的方式进行扩展，得到第一次扩展后的数据。

针对原始时域信号样本，提取Mel功率谱，再采用随机时域掩蔽和频率掩蔽方式进行谱图数据的扩展，得到第二次扩展后的数据。

步骤3：按照原始时域信号所属目标类别对第一次扩展后的数据和第二次扩展后的数据进行标注，将第一次扩展后的数据提取Mel功率谱后，与第二次扩展后的数据一起进行归一化处理，作为待识别水声信号的频谱特征。

步骤5：利用训练集中样本得到的待识别水声信号的频谱特征，采用如下方式进行目标分类模型训练：

根据预设的频段划分界限将待识别水声信号的频谱特征划分为低频特征和高频特征，将低频特征和高频特征分别输入独立的卷积神经网络即CNN网络；对两个独立的CNN网络的输出特征进行串联，并利用两个全连接层实现目标分类。

步骤6：采用测试集中样本得到的待识别水声信号的频谱特征，输入至训练好的目标分类模型进行分类识别测试，获得训练好的目标分类模型的分类精度。

进一步地，步骤1中，获取不同目标类别的水声信号作为样本，对水声信号样本按照预设的时间步长进行分帧，得到原始时域信号X(n)，据此构建训练集和测试集，具体为：

S101、对水听器采集的水声信号进行预处理，去除空白信号，得到水声信号样本，将水声信号样本按照5s时长进行分帧和标注，生成原始时域信号。

S102:、将原始时域信号样本进行随机划分，70％的原始时域信号样本取出作为训练集，30％的原始时域信号样本为测试集。

进一步地，步骤2，对原始时域信号样本进行数据增强和扩充，在添加高斯噪声的基础上，对原始时域信号样本采用时域拉伸和音调变换的方式进行扩展，具体为：

针对原始时域信号样本添加均值为0、方差为1的高斯白噪声，之后分别对每个原始时域信号样本进行时域拉伸和音调变化，其中，时域拉伸的参数为{0.8，0.9，1.1，1.2}。

进一步地，步骤3，对扩展后原始时域信号样本提取Mel功率谱，采用随机时域掩蔽和频率掩蔽方式进行谱图数据的扩展，具体为：

针对原始时域信号样本提取的Mel功率谱，采用随机时频掩蔽的方式进行数据扩展，时间掩蔽为在Mel功率谱中使t个连续的时间步长[t₀,t₀+t)被图像均值掩蔽，其中，t₀为起始时间，t为掩蔽时长，t₀取值从[0,τ-t)的均匀分布中随机选择，τ为信号帧长，t取值从[0,T]的均匀分布中随机选择。

频率掩蔽为在Mel功率谱中使f个连续的频率通道[f₀,f₀+f)被图像均值掩蔽，其中，f₀为起始频率，f为掩蔽频段，f₀取值从[0,υ-f)的均匀分布中随机选择，υ是Mel功率谱的总频带数，f取值从[0,F]的均匀分布中随机选择。

每帧信号Mel功率谱图的时间掩蔽数N_t＝4，频率掩蔽数N_f＝4，得到8倍的基于Mel功率谱的数据扩展结果，即扩展后的Mel功率谱。

进一步地，步骤4中，将扩展后的Mel功率谱进行归一化处理，具体为：将将扩展后的Mel功率谱按照相同的尺寸进行裁剪并进行归一化处理，裁剪尺寸为(128,200)，对添加类别标注后作为待识别水声信号的频谱特征。

进一步地，步骤5中，根据预设的频段划分界限将待识别水声信号的频谱特征划分为低频特征和高频特征，具体为：将待识别水声信号的频谱特征的[0,64)维选择为低频特征，将[64,128)维选择为高频特征。

进一步地，步骤5中，在进行目标分类模型训练时，两个独立的CNN网络选择为ResNet；在CNN网络中，通过对池化层下采样操作进行改进，在频率轴方向不进行下采样，在时间轴进行下采样到1维，使得网络模型可学习到全局时间范围内的多频段特征。

有益效果：

本发明的优点在于：利用时域和时频结合的数据扩展技术，利用现有的少量数据样本获得更多的数据样本，增加网络训练的泛化性能；另一方面，在设计网络时考虑到频谱图中时频轴和高低频段代表了不同的特征含义，利用两个独立的网络分别进行学习，提高识别的正确率。

附图说明

图1是本发明所提出的水声信号目标识别方法流程图；

图2是本发明所提出的水声信号目标识别具体实施例的示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了基于数据增强和时频分离的CNN水声信号目标识别方法，其流程如图1所示，包括如下步骤：

该步骤具体为：

步骤2：对原始时域信号样本进行数据增强和扩充，在添加高斯噪声的基础上，对原始时域信号样本采用时域拉伸和音调变换的方式进行扩展，得到第一次扩展后的数据。针对原始时域信号样本添加均值为0、方差为1的高斯白噪声，之后分别对每个原始时域信号样本进行时域拉伸和音调变化，其中，时域拉伸的参数为{0.8，0.9，1.1，1.2}。

对原始时域信号样本提取Mel功率谱，采用随机时域掩蔽和频率掩蔽方式进行谱图数据的扩展，得到第二次扩展后的数据。

本发明实施例中，对原始时域信号样本采样率统一下采样到22050Hz，并进行Mel功率谱特征提取，其中，每一帧的采样点选取2048个，滑动步长为1/4采样点数，将每一帧乘以汉明窗，以增加帧左端和右端的连续性，再利用STFT变换得到信号在频谱上的能量分布；将能量谱通过一组128维的三角形滤波器，并计算每个滤波器组输出的对数能量，得到128维的Mel功率谱。

针对原始信号提取的Mel功率谱，采用随机时频掩蔽的方式进行数据扩展，时间掩蔽为在Mel功率谱中使t个连续的时间步长[t₀,t₀+t)被图像均值掩蔽，其中，t₀为起始时间，t为掩蔽时长，t₀取值从[0,τ-t)的均匀分布中随机选择，τ为信号帧长，本发明中每帧时长为5s，τ＝216，t取值从[0,T]的均匀分布中随机选择，本发明中取T＝30。

频率掩蔽为在Mel功率谱中使f个连续的频率通道[f₀,f₀+f)被图像均值掩蔽，其中，f₀为起始频率，f为掩蔽频段，f₀取值从[0,υ-f)的均匀分布中随机选择，υ是Mel功率谱的总频带数，本发明中取υ＝128，f取值从[0,F]的均匀分布中随机选择，本发明中取F＝13。

每帧信号Mel功率谱图的时间掩蔽数N_t＝4，频率掩蔽数N_f＝4，因此，可得到8倍的基于时频谱图的数据扩展。

步骤3：按照原始时域信号所属目标类别对第一次扩展后的数据和第二次扩展后的数据进行标注，将第一次扩展后的数据提取Mel功率谱后，与第二次扩展后的数据一起进行归一化处理，作为待识别水声信号的频谱特征；

本发明实施例中，将原始信号和扩展生成数据的Mel功率谱按照相同的尺寸进行裁剪并进行归一化处理，裁剪尺寸为(128,200)，对所有数据添加类别标注后作为带训练数据。

步骤4：采用训练集中样本得到的待识别水声信号的频谱特征，采用如下方式进行目标分类模型训练：

根据预设的频段划分界限将待识别水声信号的频谱特征划分为低频特征和高频特征，对低频特征和高频特征分别输入独立的卷积神经网络即CNN网络；对两个独立的CNN网络的输出特征进行串联，并利用两个全连接层实现目标分类。

由于不同信号源之间存在着差异，因此将Mel功率谱划分为低频段和高频段并利用两个独立的CNN网络进行训练，将Mel功率谱的[0,64)维选择为低频特征，将[64,128)维选择为高频特征，CNN网络输入的数据尺寸为(64,100)。

本发明设计的CNN网络中，在频率轴方向不进行下采样，两个路径特征图的频率维度保持64不变，在时间轴进行下采样到1维，本发明中，两个并行的CNN网络选择为ResNet。

将两个网络的输出特征进行串联，再利用两个全连接层实现目标的分类，第一个全连接层的维度为128，第二个全连接层的维度为目标类别的数量。在网络训练过程中，卷积层上的权值衰减为5×10^-4，每一个卷积层之后连接一个无参数的批处理归一化(BatchNormalization)层防止训练过拟合。使用Adam优化器，选择交叉熵作为损失函数，批处理大小为64，动量为0.9，每个网络训练400个周期，初始学习速率为1×10^-4，学习速率从100个周期到300个周期开始线性衰减，达到5×10^-6后，再以最小学习速率5×10^-6训练100个周期。

步骤5：采用测试集中样本得到的待识别水声信号的频谱特征，输入至训练好的目标分类模型进行分类识别测试，获得训练好的目标分类模型的分类精度。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于数据增强和时频分离的CNN水声信号目标识别方法，其特征在于，包括如下步骤：

步骤1：获取不同目标类别的水声信号作为样本，对水声信号样本按照预设的时间步长进行分帧，得到原始时域信号样本，据此构建训练集和测试集；

步骤2：对原始时域信号样本进行数据增强和扩充，针对原始时域信号样本，在添加高斯噪声的基础上，采用时域拉伸和音调变换的方式进行扩展，得到第一次扩展后的数据；

针对原始时域信号样本，提取Mel功率谱，再采用随机时域掩蔽和频率掩蔽方式进行谱图数据的扩展，得到第二次扩展后的数据；

步骤4：利用训练集中样本得到的待识别水声信号的频谱特征，采用如下方式进行目标分类模型训练：

根据预设的频段划分界限将待识别水声信号的频谱特征划分为低频特征和高频特征，将低频特征和高频特征分别输入独立的卷积神经网络即CNN网络；对两个独立的CNN网络的输出特征进行串联，并利用两个全连接层实现目标分类；

2.如权利要求1所述的方法，其特征在于，所述步骤1中，获取不同目标类别的水声信号作为样本，对水声信号样本按照预设的时间步长进行分帧，得到原始时域信号X(n)，据此构建训练集和测试集，具体为：

S101、对水听器采集的水声信号进行预处理，去除空白信号，得到水声信号样本，将水声信号样本按照5s时长进行分帧和标注，生成原始时域信号；

3.如权利要求1或2所述的方法，其特征在于，所述步骤2，对原始时域信号样本进行数据增强和扩充，在添加高斯噪声的基础上，对原始时域信号样本采用时域拉伸和音调变换的方式进行扩展，具体为：

4.如权利要求3所述的方法，其特征在于，所述步骤3，对扩展后原始时域信号样本提取Mel功率谱，采用随机时域掩蔽和频率掩蔽方式进行谱图数据的扩展，具体为：

针对原始时域信号样本提取的Mel功率谱，采用随机时频掩蔽的方式进行数据扩展，时间掩蔽为在Mel功率谱中使t个连续的时间步长[t₀,t₀+t)被图像均值掩蔽，其中，t₀为起始时间，t为掩蔽时长，t₀取值从[0,τ-t)的均匀分布中随机选择，τ为信号帧长，t取值从[0,T]的均匀分布中随机选择；

频率掩蔽为在Mel功率谱中使f个连续的频率通道[f₀,f₀+f)被图像均值掩蔽，其中，f₀为起始频率，f为掩蔽频段，f₀取值从[0,υ-f)的均匀分布中随机选择，υ是Mel功率谱的总频带数，f取值从[0,F]的均匀分布中随机选择；

5.如权利要求4所述的方法，其特征在于，所述步骤4中，所述将扩展后的Mel功率谱进行归一化处理，具体为：

将将扩展后的Mel功率谱按照相同的尺寸进行裁剪并进行归一化处理，裁剪尺寸为(128,200)，对添加类别标注后作为待识别水声信号的频谱特征。

6.如权利要求5所述的方法，其特征在于，所述步骤5中，所述根据预设的频段划分界限将待识别水声信号的频谱特征划分为低频特征和高频特征，具体为：

将待识别水声信号的频谱特征的[0,64)维选择为低频特征，将[64,128)维选择为高频特征。

7.如权利要求6所述的方法，其特征在于，所述步骤5中，在进行目标分类模型训练时，两个独立的CNN网络选择为ResNet；

在CNN网络中，通过对池化层下采样操作进行改进，在频率轴方向不进行下采样，在时间轴进行下采样到1维，使得网络模型可学习到全局时间范围内的多频段特征。