CN112329819A

CN112329819A - 基于多网络融合的水下目标识别方法

Info

Publication number: CN112329819A
Application number: CN202011127311.6A
Authority: CN
Inventors: 殷波; 魏志强; 贾东宁
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-05

Abstract

本发明属于水下目标识别技术领域，具体公开了一种基于多网络融合的水下目标识别方法，包括以下步骤：设计基础网络架构的步骤：特征提取的步骤：模型训练的步骤：将构建好的特征表示送入各自对应的基础网络中进行训练；最后通过分类器产生的预测结果识别分类，本发明可以显著提高水声目标的识别精度。

Description

基于多网络融合的水下目标识别方法

技术领域

本发明属于水下目标识别技术领域，特别涉及基于多网络融合的水下目标识别方法。

背景技术

对水下目标识别相关方面的研究已开展多年，其中传统水下主动识别系统由于其依靠目标的回波完成对目标的定位和识别，导致自身隐蔽性较差；而当前的被动识别系统因其较好的隐蔽性和灵活性，可以安静地监听较远距离的水下目标辐射噪声，且系统本身不辐射能量，在发现目标的同时不易被目标察觉，具有很好的作战优势，目前已成为研究全球海洋性质的常用方案。

水下目标被动识别的核心任务即是从声纳阵列信号中分析出目标的特征信息。目标特征信息是目标数据中包含的一种能准确和简化代表目标状态和特征的信息。传统水下目标被动识别系统的常规构架，主要包括以下几个步骤：

(1)数据获取；(2)数据预处理；(3)特征提取；(4)分类器；(5)输出识别结果。在传统技术框架下，相关工作主要围绕两个方向展开，一方面是特征提取技术，另一方面是在特征基础上的分类技术。对数据构建适当的特征表示和分类器模型通常被作为两个最关键的问题，构建具有较高精度和较高效率的分类器和构建适应的特征表示是水下目标被动识别研究的重中之重。

由于深度学习理论的不断发展，研究人员通过训练深层神经网络模型来提取信号的特征信息，配合高效率的分类器，来共同完成分类任务，该方案可以大幅提高识别的准确度和效率。特征提取的基本原则是在提升类别间区分性的同时保有类内的一致性，传统特征提取技术主要依靠人类自身的经验，根据不同目标的信号特点采用时频分析方法获得。后端分类器的建模能力是决定整个目标识别系统的性能的关键因素。与传统分类器相比，以数据为驱动的深度学习模型则具有更加强大的建模能力，可以直接从大量原始数据中提取特征信息，完全摒弃了之前人工构建特征表示的操作。

目前基于深度学习的水下目标识别技术大多数仍是采取单一的网络架构，包括使用以谱图特征为输入的2-D CNN模型，以原始信号(时域信号或频谱图)作为输入的1-D CNN模型，还有以MFCC特征为输入的LSTM模型。但由于水下目标识别任务中的音频信号具有多变性，多样性，非平稳化，非结构化等特点，单一的神经网络模型和特征表示方法很难对不同种类的音频信号进行高精度的识别。并且单一的分类器易受噪声影响，对个别数据中出现的异常点和离群点很敏感，容易产生过拟合现象。

发明内容

针对现有技术存在的不足，本发明提供一种基于多网络融合的水下目标识别方法，设计基于多网络融合的基层网络结构，该架构由三个基础分类器组成，包括1-D CNN模型，2-D CNN模型，双向LSTM模型，分别以原始信号(时域信号)，Lofar谱图，MFCC特征作为输入，最后对分类器产生的预测结果使用综合投票的融合机制来进行识别分类，从而可以显著提高水声目标的识别精度。

为了解决上述技术问题，本发明采用的技术方案是：

基于多网络融合的水下目标识别方法，包括以下步骤：

(1)设计基础网络架构的步骤：所述基础网络架构由三个基础分类器组成，包括1-D CNN模型、2-D CNN模型、双向LSTM模型；

(2)数据获取与数据预处理的步骤；

(3)特征提取的步骤：对预处理后数据构建特征表示，包括生成lofar谱图和MFCC特征；

(4)模型训练的步骤：将构建好的特征表示送入各自对应的基础网络中进行训练，其中，1-D CNN模型以原始信号直接作为输入，不做特征提取，2-D CNN模型以Lofar谱图作为输入，双向LSTM模型以MFCC特征作为输入；

(5)输出分类结果：采用加权融合的策略，为三个基础网络设置三个可学习参数，最后将三个基础网络中Softmax函数的输出结果按照从网络中学习到参数进行分数融合，并选取预测概率最大的类别为最后的预测结果。

进一步的，步骤(3)特征提取时，对信号加窗分帧后再进行短时傅里叶变换，得出在不同时刻下功率谱，生成lofar谱图，具体步骤为：

1)分帧处理：将信号的采样序列分成W帧，每帧含有T个采样点，短帧之间重叠40％。

2)归一化和中心化：首先对每帧的信号样本S_w(i)进行归一化处理，将输入信号的数据范围保持在[0,1]范围内；然后再作中心化处理，使样本的均值为0；

归一化公式：

中心化处理：

3)短时傅里叶变换：最后对每帧信号进行短时傅里叶变换，并照时间顺序排列在坐标系中，即可得到Lofar谱图。

进一步的，步骤(3)特征提取时，提取MFCC特征的步骤为：

1)离散傅里叶变换：对输入的音频信号进行离散傅里叶变化DFT，即可获得其对应的线性频谱分布X_a(s)，公式如下：

其中，f(n)为输入的音频信号，N为傅里叶变换的点数，e^-2jπn/N为复变函数，起到频限作用；

2)Mel滤波器组：将所得到的线性频谱分布X_a(s)通过设计好的Mel滤波器组H_m(s)进行滤波以得到Mel频谱，考虑到噪声产生的误差影响，进行取对数操作,其具体公式如下：

其中，H_m(s)是滤波器组，P(m)是对数能量,M为滤波器个数；

3)采用离散余弦变换：经过离散余弦变换即可得到MFCC系数，其表达式如下：

其中，C(n)为MFCC系数，L是MFCC系数阶数。

进一步的，所述MFCC特征在频率坐标轴进行滤波处理；

在获得M个MFCC系数后，得到矩阵A，矩阵的行表示帧数，列表示一帧下的倒谱系数；每帧下按照MFCC系数阶数从小到大排列，计算每一列所有元素的标准差，然后矩阵中每个元素减去所在列的标准差，每一行中取差值最小的两个所对应的倒谱系数为所需的倒谱系数，并作为最终的训练样本，输入双向LSTM模型进行训练。

进一步的，步骤(5)输出分类结果时，三个模型的Softmax函数输出结果定义为：

其中，a_i为第i个节点的输出值，C为类别个数，D为输出值中的最大值，θ_j(j＝1,2,3)为1-D CNN模型、2-D CNN模型、双向LSTM模型训练得到的全连接层的参数；

从每个模型的输出结果中获取概率最大的为该模型的预测结果，然后融合三个模型的预测结果，定义样本向量x属于第l个分类的概率

选取概率最大的类别即为最终的预测结果；

其中，T_j(j＝1,2,3)为模型的预测结果，T₁、T₂、T₃分别为1-D CNN模型、2-D CNN模型、双向LSTM模型得到的预测结果,λ、γ为权重系数。

进一步的，数据预处理包括预加重、分帧、加窗的步骤，其中预加重系数的数值介于0.9-1.0之间，分帧操作采样率设为1024、重叠率50％，并使用汉明窗口进行加窗操作。

与现有技术相比，本发明优点在于：

1.本发明提出的多网络融合架构，由于综合考虑多个不同分类器之间的差异，采用集成学习的策略，不再使用单一的模型进行预测，可以有效减少噪声对目标信号的干扰，从而提高目标识别的准确率。本发明由于充分利用并融合了多种特征表示来进行分类识别，比使用单一分类器或单一特征表示的识别系统更全面、准确。

2.本发明使用多种特征表示进行训练，多网络融合架构通过将多种不同种类的特征表示有效结合起来，可以在短时间内获得到单一分类器所不能得到的信息，多种分类器之间可以进行功能性互补，模型有了“集思广益”的能力，也就不容易产生过拟合现象。并且通过多模态信息的互补性可用来解决较为复杂的识别问题，有很好的抗噪能力，并且对异常点离群点不敏感，具有很高的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

基于多网络融合的水下目标识别方法，包括以下步骤：

(1)设计基础网络架构的步骤：所述基础网络架构由三个基础分类器组成，包括1-D CNN模型、2-D CNN模型、双向LSTM模型。

1)1-D CNN：1D CNN通常是将原始音频数据作为输入，而不是手工特征。通过几个可训练的卷积层处理这样的输入数据，以学习音频的特征表示。如表1所示的，1D-CNN由4个卷积层和2个池化层组成，然后是2个完全连接层和1个Softmax输出层。本发明采用最大池化的策略，使用ReLU作为激活函数并作用于所有的层，2个完全连接层分别具有128个神经元和64个神经元，并设置Dropout率为0.25。为了减少过度拟合，在每个卷积层的激活函数之后应用batch normalization(BN)，最后使用Softmax函数作为输出。

表1 1-D CNN网络架构

2)2-D CNN：采用类似于VGGNet的架构，以使模型参数的保持较少的数量。网络架构如表2所示，在每个卷积层之后，采用batch normalization(BN)方式缓解梯度爆炸和梯度消失的问题。采用最大池化的策略，ReLU作为激活函数，使用分类交叉熵作为损失函数，并使用Adam作为优化器，对网络进行训练，将初始学习率设置为0.001，衰减因子设置为0.0001，最小批量大小设置为128，最后使用Softmax函数作为输出。

表2 2D-CNN网络架构

3)LSTM：由于双向架构通常比单向架构表现更好，所以本发明使用了LSTM双向层。如表1所示，每层包含256个LSTM单元，每个完全连接层具有512个ReLU单元，最后是一个输出softmax层。为了减少过拟合，对每个隐藏层应用40％的Dropout率。损失函数为分类交叉熵，并使用学习率为0.0001的Adam作为优化器进行训练。

表3 LSTM网络架构

(2)数据获取与数据预处理的步骤

1)数据获取：利用声呐等外部设备采集水下目标的声学信号作为原始数据输入，并将其降采样至22050Hz。

2)数据预处理：由于数据所呈现高维性和多样性的特点，需要对原始信号进行预处理，主要包括预加重，分帧，加窗等操作。预加重的主要目的是通过一个一阶响应的告诫滤波器，从而提升信号中的高频部分，使信号的频谱变得平坦。

预加重：H(z)＝1-αz^-1

其中α为预加重系数，数值介于0.9-1.0之间。

分帧则是为了提取语音信号的短时特征，将输入信号的N个采样点集合作为为一个单位进行处理，这样的一个单位即是一帧。为了避免帧之间变化过大，因此帧之间一般存在一定的重叠，一般采用50％。加窗操作则是用于窗口化每一个帧，以增加每帧开始到结束之间的平稳性。窗函数一般选择矩形窗或者汉明窗。

在本发明中，我们将预加重系数设为0.9，采样率设为1024，重叠率50％，并使用汉明窗口进行加窗操作。

(3)特征提取的步骤：对预处理后数据构建特征表示，包括生成lofar谱图和MFCC特征。

1)Lofar谱图：基于信号的局部平稳特性，对信号进行连续时域采样，并通过短时傅里叶变换得到时变功率谱在时频域上的投影而形成是三维谱图被称为Lofar谱图。考虑到水下目标的声学信号的非平稳特性，其时频特性会随时间发生较为明显的变化，因此不能采用传统的傅里叶变换，而应采用短时傅里叶变换(STFT)进行计算得出。STFT主要针对的是非平稳的输入信号，利用信号短平稳(伪平稳)的特点，对信号加窗分帧后在进行傅里叶变换，从而计算出其在个不同时刻下功率谱，能更为准确的刻画信号时频特征分布情况。

其具体计算公式如下：

其中，w代表频率，t代表时间，e^-jwt为复变函数，起到频限的作用，g(t)为时间窗函数，f(t)为当前被分析的信号。随着x的变化，g(t)所确定的时间窗在时间轴上移动，使得f(t)依次进入被分析状态。

本发明对信号加窗分帧后再进行短时傅里叶变换，得出在不同时刻下功率谱，生成lofar谱图，具体步骤为：

①分帧处理：将信号的采样序列分成W帧，每帧含有T个采样点，短帧之间重叠40％。

②归一化和中心化：首先对每帧的信号样本S_w(i)进行归一化处理，将输入信号的数据范围保持在[0,1]范围内；然后再作中心化处理，使样本的均值为0；

归一化公式：

中心化处理：

③短时傅里叶变换：最后对每帧信号进行短时傅里叶变换，并照时间顺序排列在坐标系中，即可得到Lofar谱图。

2)MFCC：梅尔倒谱系数(MFCC)是一种常用的特征提取技术，它通过模拟人耳的听觉机制，并引入Mel频率的概念来描述人耳听觉感知的非线性特征。其求解方法是将时域信号进行频域变换，然后对其对数能量谱用Mel刻度分布的三角滤波器组进行卷积操作，最后对滤波器组的输出向量做离散余弦变化，得到了前N维向量即为MFCC。提取MFCC特征的步骤为：

①离散傅里叶变换：对输入的音频信号进行离散傅里叶变化DFT，即可获得其对应的线性频谱分布X_a(s)，公式如下：

其中，f(n)为输入的音频信号，N为傅里叶变换的点数，e^-2jπns/N为复变函数，起到频限作用；

②Mel滤波器组：将所得到的线性频谱分布H_a(s)通过设计好的Mel滤波器组H_m(s)进行滤波以得到Mel频谱，考虑到噪声产生的误差影响，进行取对数操作,其具体公式如下：

其中，H_m(s)是滤波器组，P(m)是对数能量,M为滤波器个数；

③采用离散余弦变换：经过离散余弦变换即可得到MFCC系数，其表达式如下：

其中，C(n)为MFCC系数，L是MFCC系数阶数。

该步需要进行反傅里叶变换然后通过低通滤波器获得最后的低频信号，使用DCT直接可以获取频率谱的低频信息。由于滤波器之间是有重叠的，所以前面的获得的能量值之间是具有相关性的，DCT还可以对数据进行降维压缩和抽象，获得最后的特征参数。

所述MFCC特征的特点在于是在频率坐标轴进行滤波，而不是在均匀统一的分布上进行滤波，所以能把特征的关注点放在某些特点的频率上，可以较好的抓住线管信号的本质特征

M通常取12-16之间。

(4)模型训练的步骤：将构建好的特征表示送入各自对应的基础网络中进行训练，其中，1-D CNN模型以原始信号直接作为输入，不做特征提取，2-D CNN模型以Lofar谱图作为输入，双向LSTM模型以MFCC特征作为输入。

(5)输出分类结果：采用加权融合的策略，为三个基础网络设置三个可学习参数，最后将三个基础网络中Softmax函数的输出结果按照从网络中学习到参数进行分数融合，并选取预测概率最大的类别为最后的预测结果，可以有效避免因某一个分类器出现极值而导致的分类错误。

输出分类结果时，三个模型的Softmax函数输出结果定义为：

选取概率最大的类别即为最终的预测结果；

综上所述，本发明综合考虑多个不同分类器之间的差异，采用集成学习的策略，不再使用单一的模型进行预测，可以有效减少噪声对目标信号的干扰，从而提高目标识别的准确率。本发明使用多种特征表示进行训练，多网络融合架构通过将多种不同种类的特征表示有效结合起来，可以在短时间内获得到单一分类器所不能得到的信息，并且通过多模态信息的互补性可用来解决较为复杂的识别问题，可有效提高识别的准确度。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.基于多网络融合的水下目标识别方法，其特征在于，包括以下步骤：

(1)设计基础网络架构的步骤：所述基础网络架构由三个基础分类器组成，包括1-DCNN模型、2-D CNN模型、双向LSTM模型；

(2)数据获取与数据预处理的步骤；

2.根据权利要求1所述的基于多网络融合的水下目标识别方法，其特征在于，步骤(3)特征提取时，对信号加窗分帧后再进行短时傅里叶变换，得出在不同时刻下功率谱，生成lofar谱图，具体步骤为：

3.根据权利要求1所述的基于多网络融合的水下目标识别方法，其特征在于，步骤(3)特征提取时，提取MFCC特征的步骤为：

其中，H_m(s)是滤波器组，P(m)是对数能量,M为滤波器个数；

其中，C(n)为MFCC系数，L是MFCC系数阶数。

4.根据权利要求3所述的基于多网络融合的水下目标识别方法，其特征在于：所述MFCC特征在频率坐标轴进行滤波处理；在获得M个MFCC系数后，得到矩阵A，矩阵的行表示帧数，列表示一帧下的倒谱系数；每帧下按照MFCC系数阶数从小到大排列，计算每一列所有元素的标准差，然后矩阵中每个元素减去所在列的标准差，每一行中取差值最小的两个所对应的倒谱系数为所需的倒谱系数，并作为最终的训练样本，输入双向LSTM模型进行训练。

5.根据权利要求1-4任一项所述的基于多网络融合的水下目标识别方法，其特征在于，步骤(5)输出分类结果时，三个模型的Softmax函数输出结果定义为：

对于每个模型的输出结果，我们采用加权融合的策略，通过在网络Softmax层后设置三个可学习参数。最后按照在网络中学习到的权重参数比例进行分数融合。

选取概率最大的类别即为最终的预测结果；

其中，T_j(j＝1,2,3)为模型的预测结果，T₁、T₂、T₃分别为1-D CNN模型、2-D CNN模型、双向LSTM模型得到的预测结果,α、β、λ为权重系数，且α+β+λ＝1。

6.根据权利要求1所述的基于多网络融合的水下目标识别方法，其特征在于，数据预处理包括预加重、分帧、加窗的步骤，其中预加重系数的数值介于0.9-1.0之间，分帧操作采样率设为1024、重叠率50％，并使用汉明窗口进行加窗操作。