CN115909040A

CN115909040A - 一种基于自适应多特征融合模型的水声目标识别方法

Info

Publication number: CN115909040A
Application number: CN202211618499.3A
Authority: CN
Inventors: 潘晓英; 冯天浩; 郑为; 张无瑕; 吕维; 王红玉; 孙乃葳; 赵罡; 张洁; 申珅; 倪文玺
Original assignee: 705 Research Institute China Shipbuilding Industry Corp; Xian University of Posts and Telecommunications
Current assignee: 705 Research Institute China Shipbuilding Industry Corp; Xian University of Posts and Telecommunications
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-04

Abstract

本发明属于水声目标识别技术领域，具体涉及一种基于自适应多特征融合模型的水声目标识别方法。包括以下步骤：首先将原始的音频数据切割得到数据集；对每条音频提取MFCC特征并生成二维时频谱图；然后进行多维特征提取：包括深度时序特征提取、深度空间特征提取和深度频域特征提取；最后进行自适应多特征融合模型构建：将三种网络提取的特征进行初步拼接作为输入；将拼接后的特征集输入到通道注意力层进行自适应加权；将加权信息输入到全连接层进行水声目标识别。本方法通过多维度特征提取网络结构，挖掘了时域音频信号和频域的二维频谱图所对应的时频互补信息；通过自适应加权为后续的目标识别提供更具有判别性的特征，有效的提高了识别精度。

Description

一种基于自适应多特征融合模型的水声目标识别方法

技术领域

本发明属于水声目标识别技术领域，具体涉及一种基于自适应多特征融合模型的水声目标识别方法。

背景技术

水声目标识别是水声学信号处理中最重要的研究方向之一，它在国民经济和国防军事上都具有十分重要的意义，因此成为水声领域研究的热点。应用水声信号进行水下探测、通讯、救生以及海洋开发是当前最为有效的手段。在进行水下预警防御和军事进攻活动中，声纳需要通过接收到的噪声信号分辨出目标的真伪，还要在同时检测到多个目标时，识别出各个目标的类型，依据以上两项判决结果决定对目标实施何种行为，如攻击或避让。

水下目标识别的核心在于水声信号的处理，水声信号的声源和传播环境导致了其信号的复杂性。噪声源各不相同，辐射噪声差异性大，海洋环境复杂、多样、时变性强，由此被动声纳接收到的信号也就千差万别。如何提取能够用以识别目标的特征是水声目标被动识别的关键性问题，也是目标识别实现自动化的首要问题。这也使得水声目标识别问题相较于普通语音识别具有更大的挑战性。目前的方法依据特征提取方式主要分为两种。第一种是基于时域的音频信号提取水声信号的特征。其中，典型的方法是将一维卷积神经网络(1D-CNN)与LSTM进行联合，以音频(MeI-scale FreguencyCeptraI Coefficients，MFCC)特征作为输入对水声目标进行识别。第二种是基于频域的二维频谱图提取水声信号的特征。其中，典型的方法是将水声信号先转换为二维频谱图，然后输入到二维卷积神经网络(2D-CNN)进行识别。实测数据的实验结果表明，将水声信号转换为二维时频图谱可以有效的降低噪声影响，因此可以有效的提高分类识别性能。然而这些方法大多是基于时域的音频信号或者频域的频谱图提取水声信号的特征，考虑的角度比较单一，并没有同时从时域和频域角度出发，挖掘时域音频信号和频域的二维频谱图所对应的时频互补信息，而时频互补信息对提高水声目标识别的精度是有帮助的。

综上所述，目前，基于深度学习的水声目标识别方法大多是基于单一的时域或者频域信号提取水声特征，而单一的考虑时域音频信号或频域的二维时频谱图会遗漏部分时频信息，导致识别精度不够高。因此高精度的水声目标识别方法一直是本领域科研人员研究的热点问题。

发明内容

本发明针对性的提出一种基于自适应多特征融合模型的水声目标识别方法，以解决现有技术存在的水声目标识别方法大多是基于单一的时域或者频域信号提取水声特征，而单一的考虑时域音频信号或频域的二维时频谱图会遗漏部分时频信息，导致识别精度不高的问题。

为实现上述目的，本发明的具体技术方案如下：本发明提供了一种基于自适应多特征融合模型的水声目标识别方法，包括以下步骤：一种基于自适应多特征融合模型的水声目标识别方法，包括以下步骤：

(1)数据准备：将原始的音频数据切割得到数据集；

(2)数据预处理：对每条音频提取MFCC特征并生成二维时频谱图

(3)多维特征提取：包括深度时序特征提取、深度空间特征提取和深度频域特征提取；

(4)自适应多特征融合模型构建：

4.1、输入处理：将三种网络提取的特征进行初步拼接作为输入；

4.2：自适应加权：将拼接后的特征集输入到通道注意力层进行自适应加权，通道注意力层包括3个模块，分别是Squeeze、Excitation、Scale，其中Squeeze利用全局平均池化操作将每个通道的全局空间信息进Excitation为每个特征通道归一化生成权重；Scale将前面得到的归一化权重通过与每个通道的特征相乘进行加权。

4.3、输出处理：将加权信息输入到全连接层进行水声目标识别。

进一步的，上述步骤(3)中，基于水声信号的MFCC特征数据训练LSTM网络并进提取dropout层的输出作为水声信号的深度时序特征集；基于水声信号的MFCC特征训练1D-CNN网络并提取Fully-connected layer1的输出作为水声信号的深度空间特征集；基于由原始语音信号生成的二维时频谱图训练2D-CNN网络并提取Global max pool1层的输出作为水声信号的深度频域特征集。

进一步的，构建的LSTM共4层，包含一个输入层、一个LSTM层、一个dropout层以及全连接层，其中输入层是一个长度为1、维度为40的时序向量；LSTM层的隐藏单元个数设置为128；引入dropout层，丢失率设置为0.2；全连接层包含5个节点，分别表示预测样本为不同水声目标的概率，最后通过提取dropout层的输出作为水声信号的深度时序特征集。

进一步的，上述1D-CNN网络总共为9层，包含1个输入层、2个卷积层、2个池化层、2个dropout层以及2个全连接层。输入层接受的是大小为40×1的MFCC特征，因此输入大小设置为40×1；2层卷积层对水声信号的空间特征进行提取，1层最大池化层以及1层全局最大池化层用于特征信息压缩，2层dropout层防止模型过拟合，连接2层全连接层输出预测样本属于不同水声目标的概率。最后通过提取Fully-connected layer1的输出作为水声信号的深度空间特征集。

进一步的，上述2D-CNN网络总共为10层，包含一个输入层、三个卷积层、三个池化层、两个dropout层以及一个全连接层。输入层接受的是大小为224×224、RGB三通道的时频谱图，因此输入大小设置为224×224×3；3层卷积层对图像特征进行提取，2层最大池化层以及一层全局最大池化层用于特征信息压缩，2层dropout层防止模型过拟合，连接一层全连接层输出预测样本属于不同水声目标的概率，最后通过提取Global max pool1层的输出作为水声信号的深度频域特征集。

与现有技术相比，本发明具有的优点如下：

1、本发明方法提出了一种多维度特征提取网络结构，该网络结构同时从时域和频域角度出发，针对水声信号的MFCC特征数据同时具有时序连续特性和空间连续性的特性，分别采用LSTM、1D-CNN对水声信号的MFCC特征进一步提取深度时序特征、深度空间特征；针对基于音频生成的二维时频谱图包含丰富的频域信息的特点，采用2D-CNN对水声信号的二维时频谱图进一步提取深度频域特征；从而挖掘了时域音频信号和频域的二维频谱图所对应的时频互补信息，有效的提高识别精度。

2、本发明方法提出了一种基于通道注意力机制的特征加权融合策略，该策略采用注意力机制对多维度特征提取模块提取的三种特征进行了自适应加权融合，通过对各通道的依赖性进行自适应加权以提高网络的表示能力，即分配给有效特征更多的权重，解决了特征图分配时的权重不够准确的问题，为后续的目标识别提供更具有判别性的特征，从而可以有效的提高识别精度。

附图说明

图1为本发明流程图；

图2为本发明实施例中提出的多特征自适应融合网络。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供了一种基于自适应多特征融合模型的水声目标识别方法，参见图1可以看到本发明包括以下步骤：

步骤1、输入WAV格式的原始音频数据，将WAV格式的数据进行切割；

步骤2、对每条切割后的音频做预处理，提取MFCC特征以及生成二维时频谱图。

步骤3、多维特征提取：包括深度时序特征提取、深度空间特征提取和深度频域特征提取。

基于水声信号的MFCC特征数据训练LSTM网络并进提取dropout层的输出作为水声信号的深度时序特征集。

基于水声信号的MFCC特征训练1D-CNN网络并提取Fully-connected layer1的输出作为水声信号的深度空间特征集。

基于由原始语音信号生成的二维时频谱图训练2D-CNN网络并提取Global maxpool1层的输出作为水声信号的深度频域特征集。

步骤4、自适应多特征融合模型构建：参照图2可以看到整个构建流程，将步骤3中三种网络提取的特征拼接，并基于通道注意力机制的特征加权融合策略给提取的多维度特征赋予不同的权重，将加权信息输入到两层全连接层进行水声目标识别。

实施例：一种基于自适应多特征融合模型的水声目标识别方法，所述方法包括以下步骤：

1：数据准备。具体为：

采用ShipEar数据集来评估所提出方法的性能。该数据集收集于2012至2013年间，采集地点为西班牙海岸地区，录音是用MarSensingLda公司(葡萄牙法罗)制造的自主声学digitalHyd SR-1录音机录制的。该数据集总共包含90条音频，时长在15s到10min之间，音频类别包含11种船舶以及环境噪声。依据数据集来源论文介绍，该数据集可以进一步分为A、B、C、D、E五个类别，其中A、B、C、D代表舰船种类的四个大类，E为环境噪声。原始音频数据只有90条且不同类别的音频之间数量差距较大，可能会导致模型出现欠拟合现象。为了解决该问题，将原始的音频数据切割成3s的片段，从而达到扩充数据集的目的。

2：数据预处理。分别对每条切割后的音频做如下预处理：提取MFCC特征以及生成二维时频谱图。

2.1：提取MFCC特征：提取的MFCC特征维度为(40,309)；对特征的列向量进行均值压缩，MFCC特征最终维度为(40,1)。

2.2：生成二维时频谱图：通过对原始音频进行傅里叶变换得二维时频谱图，二维时频谱图的尺寸大小569×435，RGB三通道。对于网络而言，输入图像的尺寸过大会导致计算量递增，而剪裁的尺寸过小会导致信息丢失严重，将图像尺寸裁剪为224×224是一个较好的选择。因此，本发明将生成的二维时频谱图reshape为224×224×3。

3：多维特征提取。具体为：

3.1：深度时序特征提取。音频的MFCC特征具有时序连续特性，因此本发明基于水声信号的MFCC特征采用LSTM网络进一步提取深度时序特征用于识别。构建的LSTM共4层，包含一个输入层、一个LSTM层、一个dropout层以及全连接层。输入层是一个长度为1、维度为40的时序向量；LSTM层的隐藏单元个数设置为128；为了防止LSTM在训练集上过拟合，引入了dropout层来降低模型在训练过程的计算量，丢失率设置为0.2；作为输出的全连接层包含5个节点，分别表示预测样本为不同水声目标的概率。最后通过提取dropout层的输出作为水声信号的深度时序特征集。

3.2：深度空间特征提取。MFCC特征数据同时具有空间连续特性和时序连续特性。因此本发明同时采用1DCNN处理水声信号的MFCC特征，利用1D-CNN的空间特性进一步提取水声信号的深度空间特征用于识别。设计的1D-CNN网络总共为9层，包含1个输入层、2个卷积层、2个池化层、2个dropout层以及2个全连接层。输入层接受的是大小为40×1的MFCC特征，因此输入大小设置为40×1；2层卷积层对水声信号的空间特征进行提取，1层最大池化层以及1层全局最大池化层用于特征信息压缩，2层dropout层通过随机选择一些神经元并将其临时丢弃来防止模型过拟合，连接2层全连接层输出预测样本属于不同水声目标的概率。最后通过提取Fully-connected layer1的输出作为水声信号的深度空间特征集。

3.3：深度频域特征提取。基于原始语音信号生成的二维时频谱图包含丰富的频域信息，可以作为分类的依据。因此本发明采用2DCNN对二维时频谱图进一步提取深度频域特征。设计的2D-CNN网络总共为10层，包含一个输入层、三个卷积层、三个池化层、两个dropout层以及一个全连接层。输入层接受的是大小为224×224、RGB三通道的时频谱图，因此输入大小设置为224×224×3；3层卷积层对图像特征进行提取，2层最大池化层以及一层全局最大池化层用于特征信息压缩，2层dropout层通过随机选择一些神经元并将其临时丢弃来防止模型过拟合，连接一层全连接层输出预测样本属于不同水声目标的概率。最后通过提取Global max pool1层的输出作为水声信号的深度频域特征集。

4：自适应多特征融合模型构建。为了更好的融合三种方式下提取到的特征信息，设计了一个只包含输入输出的多特征融合网络结构。具体为：

4.1：输入处理。将三种网络提取的特征进行初步拼接作为输入。

4.2：自适应加权。为了增强从输入到输出的映射能力，针对特征图分配时的权重不够准确的问题，在该模型中引入了通道注意力机制Squeeze-and-Excitation(SE)，SE层的实现主要分为3个模块，分别是Squeeze、Excitation、Scale。Squeeze利用全局平均池化(Global Average Pooling，GAP)操作将每个通道的全局空间信息进行压缩，即将每个通道的二维特征(W×H)进行压缩，压缩后的特征变为1×1×C。全局平均池化操作的公式为：

zc为压缩操作之后的权值参数；F_sq(.)为特征压缩操作；u_c为U中第c个二维矩阵，U为多个局部特征图的集合；H为特征矩阵的高度；W为特征矩阵的宽度。Excitation通过参数w来为每个特征通道生成一个取值范围(0，1)权重，其中参数w被学习用来显式地建模特征通道间的相关性。具体实现时是利用两层全连接(FC-ReLU-FC-Sigmoid)来计算权重值，权重的计算公式为：

s＝F_ex(z，w)＝σ(g(z，w))＝σ(w₂δ(w₁z))

δ(w₁z)代表第一个全连接操作，w₁的维度是C/r×C，r是一个缩放参数，通过减少通道个数从而降低计算量，在本发明中取的是4。z的维度是1×1×C，所以w₁z的结果就是1×1×C/r，然后再经过一个ReLU层，输出的维度不变。将δ(w₁z)的结果和w₂相乘进行第二个全连接操作，w₂的维度是C×C/r，因此输出的维度就是1×1×C；最后再经过sigmoid函数，得到最终的权重s。Scale将前面得到的归一化权重通过与每个通道的特征相乘进行加权。

4.3：输出处理。将SE层的加权信息输入到两层节点数分别为64、5的全连接层进行水声目标识别。

本发明方法与其他方法比较结果，参照下表，可以看到单一LSTM在水声数据集上的分类Acc、Recall、Precision、F1-score均高于其他单一子网络，分别为0.9022、0.9017、0.8926、0.8967。由于水声数据是时序信号，LSTM更加关注时序特征，因此，在这三个单一子网络中LSTM性能最好。将不同网络提取的特征进行分组融合时，识别精度均高于所有单一网络。其中将三个网络提取的特征同时融合时的识别Acc、Recall、Precision、F1-score均达到最高，分别为0.9348、0.9296、0.9336、0.9315。相较于单一LSTM的表现，分别提升3.26％、2.79％、4.1％、3.48％。相较于次优融合特征集(2DCNN+LSTM)，分别提升1.31％、0.82％、2.03％、1.47％。从这可以推断出，单一的网络结构对水声信号提取的特征信息比较片面，只能提取水声信号的时域或者频域信息，并不能考虑到两者之间存在的互补信息，从而导致识别精度存在上升的空间。而通过对多个网络结构提取的特征信息进行简单融合则可以有效的解决这个问题，所以在性能上优于单一网络，显著提高识别精度。

参见上表，本发明提出的自适应多特征融合模型在水声数据集上的分类Acc、Recall、Precision、F1-score达到最高，分别为0.9492、0.9448、0.9443、0.9442，相比与未加注意力前的表现，分别提高了1.44％、1.52％、1.07％、1.27％。这可以推出，将三种网络提取的特征进行简单融合的确可以考虑到水声信号时域和频域的互补信息，从而提升识别精度。但是这种简单的特征融合方式并没有考虑到不同来源的特征对最后识别的作用是不同的。而本发明提出的多特征自适应融合模型将2D-CNN与1D-CNN、LSTM提取的特征通过通道注意力进行自适应加权融合，可以为重要的特征分配更多的权重，从而可以更好的发挥重要特征的作用。因此，可以显著提高识别精度。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制。凡是根据发明技术实质对以上实施例所作的任何简单修改、变更以及等效变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于自适应多特征融合模型的水声目标识别方法，其特征在于：所述方法包括以下步骤：

（1）数据准备：将原始的音频数据切割得到数据集；

（2）数据预处理：对每条音频提取MFCC特征并生成二维时频谱图；

（3）多维特征提取：包括深度时序特征提取、深度空间特征提取和深度频域特征提取；

（4）自适应多特征融合模型构建：

4.2、自适应加权：将拼接后的特征集输入到通道注意力层进行自适应加权，通道注意力层包括3个模块，分别是Squeeze、Excitation、Scale，其中Squeeze利用全局平均池化操作将每个通道的全局空间信息进Excitation为每个特征通道归一化生成权重；Scale将前面得到的归一化权重通过与每个通道的特征相乘进行加权；

2.根据权利要求1所述的一种基于自适应多特征融合模型的水声目标识别方法，其特征在于：步骤3中，基于水声信号的MFCC特征数据训练LSTM网络并进提取dropout层的输出作为水声信号的深度时序特征集；基于水声信号的MFCC特征训练1D-CNN网络并提取Fully-connected layer1的输出作为水声信号的深度空间特征集；基于由原始语音信号生成的二维时频谱图训练2D-CNN网络并提取Global max pool1层的输出作为水声信号的深度频域特征集。

3.根据权利要求2所述的一种基于自适应多特征融合模型的水声目标识别方法，其特征在于：构建的LSTM共4层，包含一个输入层、一个LSTM层、一个dropout层以及全连接层，其中输入层是一个长度为1、维度为40的时序向量；LSTM层的隐藏单元个数设置为128；引入dropout层，丢失率设置为0.2；全连接层包含5个节点，分别表示预测样本为不同水声目标的概率，最后通过提取dropout层的输出作为水声信号的深度时序特征集。

4.根据权利要求2或3所述的一种基于自适应多特征融合模型的水声目标识别方法，其特征在于：所述1D-CNN网络总共为9层，包含1个输入层、2个卷积层、2个池化层、2个dropout层以及2个全连接层,其中输入层输入大小设置为40×1；2层卷积层对水声信号的空间特征进行提取，1层最大池化层以及1层全局最大池化层用于特征信息压缩，2个dropout层防止模型过拟合，连接2层全连接层输出预测样本属于不同水声目标的概率,最后通过提取Fully-connected layer1的输出作为水声信号的深度空间特征集。

5.根据权利要求2或4所述的一种基于自适应多特征融合模型的水声目标识别方法，其特征在于：所述2D-CNN网络总共为10层，包含一个输入层、三个卷积层、三个池化层、两个dropout层以及一个全连接层,其中,输入层输入大小设置为224×224×3；3层卷积层对图像特征进行提取，2层最大池化层以及一层全局最大池化层用于特征信息压缩，2个dropout层防止模型过拟合，连接一层全连接层输出预测样本属于不同水声目标的概率,最后通过提取Global max pool1层的输出作为水声信号的深度频域特征集。