CN112364779B

CN112364779B - 信号处理与深-浅网络多模型融合的水声目标识别方法

Info

Publication number: CN112364779B
Application number: CN202011264120.4A
Authority: CN
Inventors: 罗恒光; 张博轩; 王大宇; 宋高宇; 曾昕
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-10-21
Anticipated expiration: 2040-11-12
Also published as: CN112364779A

Abstract

本发明公开了一种信号处理与深‑浅网络多模型融合的水声目标识别方法，属于水声目标被动侦察技术领域。本方法首先用信号处理方法对被动侦察阵列采集的目标信号数据进行预处理，滤除干扰并提取目标特征，然后采用卷积神经网络和残差网络构建多模型识别架构，最后引入投票决策机制，实现对水中机动目标的分类识别。本发明以声纳信号处理为预处理应对复杂海况下干净样本获取困难的问题；采用多个维度的特征作为训练样本提升不同海况和工况下适应能力和识别正确率；基于多神经网路模型的融合识别提升本方法的识别正确率和鲁棒性。

Description

信号处理与深-浅网络多模型融合的水声目标识别方法

技术领域

本发明属于水声目标被动侦察技术领域，特别是指一种信号处理与深-浅网络多模型融合的水声目标识别方法，可用于分析探测阵列采集的目标辐射噪声信号。

背景技术

水声目标被动分类识别是对声纳设备接收的目标辐射噪声信号进行分析处理，提取目标特征并判别目标类型的信息处理技术。常用的目标分类识别方法主要有统计分类、模型匹配和专家系统等，但是，由于目标种类繁杂、噪声信号产生机理复杂、易受海洋环境影响和高质量样本获取困难等原因，使得不同的方法均存在应用局限性。此外，如果根据噪声信号的节拍、音色、起伏和频谱等信息判断未知目标的属性，则难免受到精神状态、心理因素等影响，使判断结果出现偏差。

随着深度学习技术在相关分类识别问题上取得突破性进展，人工智能在水声信号处理中的应用技术成为研究热点。由此，基于典型信号处理方法与深度学习相结合的水中机动目标被动识别技术不失为一种有效解决途径。但是，目前现有技术中还缺少这样的方案。

发明内容

有鉴于此，本发明的目的在于提供一种信号处理与深-浅网络多模型融合的水声目标识别方法，其具有准确率高，环境适应性强，提取特征鲁棒性好的优点。

为了实现上述目的，本发明采用的技术方案为：

一种信号处理与深-浅网络多模型融合的水声目标识别方法，括以下步骤：

(1)对基阵接收的水声目标辐射噪声信号进行滤波降噪，得到干净和增强后的时域信号数据；

(2)对步骤(1)的时域信号数据做域变换，提取具有类间区分度的时频谱图和梅尔倒谱系数作为特征样本；

(3)搭建三通道深-浅网络，所述三通道深-浅网络包括两个卷积神经网络和一个残差网络；将步骤(2)得到特征样本标注所属类别，使用特征样本中的时频谱图分别对一个卷积神经网络和残差网络进行训练，使用特征样本中的梅尔倒谱系数特征对另一个卷积神经网络进行训练，形成多模型联合识别的处理架构；

其中，使用特征样本中的时频谱图分别对一个卷积神经网络和残差网络进行训练的具体方式为：

(A301)将所有时频谱图按照3:1:1的比例划分为训练集、验证集和测试集，并打乱顺序以确保每个样本集中各类数据均匀分布；

(A302)根据时频谱图的特征搭建卷积神经网络分类模型，卷积神经网络包括1个输入层、4个卷积层、4个极大池化层、1个全连接层和1个Softmax层，卷积层使用ReLU函数作为激活函数；

(A303)对卷积神经网络进行训练，得到具有分类识别能力的卷积神经网络模型；

(A304)根据时频图谱数据搭建残差网络分类模型，所述残差网络包括4层layer，每个layer由不同个数的block构成，4层layer的block个数分别为3、4、6、3，每个block均包括卷积层、批量标准化层和Softmax分类层；根据样本特性，对残差网络分类模型进行适应性迁移，调整输入层维度，加载预训练好的模型参数并进行训练，得到可以分辨不同目标时频谱图的残差网络模型；

使用特征样本中的梅尔倒谱系数特征对另一个卷积神经网络进行训练的具体方式为：

(B301)将所有梅尔倒谱系数样本数据按照3:1:1的比例划分为训练集、验证集和测试集，并打乱顺序以确保每个样本集中各类数据均匀分布；

(B302)根据梅尔倒谱系数的特征搭建基本的卷积神经网络分类模型，卷积神经网络包括1个输入层、2个卷积层、2个极大池化层、4个Dropout层、2个全连接层和1个Softmax层，卷积层和全连接层使用的激活函数均为ReLU；

(B303)对卷积神经网络进行训练，得到可以分辨不同目标梅尔倒谱系数特征的卷积神经网络模型；

(4)对步骤(3)中的三个网络模型赋予不同的权重，使用投票表决机制得出最终判决结果，若投票结果各不相同，则使用权重最大的模型的识别结果作为最终判决结果。

进一步的，步骤(1)的具体方式为：

(101)将基阵采集的实数形式的信号分割成等时长样本；

(102)对样本数据采用分裂波束相关法进行波束形成，在全方位进行谱峰检测选取目标疑似方位；

(103)对步骤(102)输出的疑似方位进行时间累积，通过经验门限判决，得到目标精准方位；

(104)根据步骤(103)得到的目标精准方位，进行时域波束形成，完成空域滤波过程，并提取增强后的时域信号数据；

(105)对步骤(104)得到的时域信号数据通过FIR滤波器做频域滤波，完成滤波降噪。

进一步的，步骤(2)的具体方式为：

(201)对时域信号数据进行归一化处理；

(202)对处理后的每帧信号做短时傅里叶变换，提取信号的线谱特征；

(203)对处理后的每帧时域信号做快速傅立叶变换，对结果取平方值得到信号的能量谱，通过梅尔滤波器组进行滤波，得到信号的梅尔频率，然后做对数运算和离散余弦变换求倒谱，得到信号的梅尔倒谱特征。

进一步的，步骤(4)中对三个网络模型赋予不同的权重的具体方式为：

(401)将训练好的三个网络模型进行预加载，对步骤(3)各网络模型训练阶段的识别准确率由高到低进行排序，并依次赋予高、中、低三个权重；

(402)将三个网络的识别结果输入softmax函数，并将softmax函数的输出送入投票器中，将概率向量进行加权求和，得到最终识别结果；

(403)若投票结果为1:1:1，即预测结果各不相同的情况时，则以权重最大模型的识别结果为最终判决结果。

本发明所取得的有益效果在于：

1、本发明使用了深度学习建模的水声目标识别方法，首先滤除了声纳信号数据中的干扰与杂波，其次提取出类间表征能力强的特征信息，接着利用神经网络学习不同噪声目标的特征，最终达到分类识别的目的。这种方式自动化程度高，可以提高水声目标识别的效率。

2、本发明根据不同海况和工况下各特征量表现出不同程度的区分性，设计了多神经网络模型融合识别架构，使网络在变化的环境中都能利用当下最具区分度的特征，实现对水声目标稳高识别准确率和环境宽容性的识别能力。

3、本发明采用深-浅网络多模型融合的水声目标智能识别方式，能够提高水声目标被动识别的准确率，并具有良好的环境适应性。此外，本发明采用高效信号处理方法与深度学习相合的识别模式，能够克服深度学习方法采用单一滤波降噪方式所带来的提取特征鲁棒性差的问题。

附图说明

图1是本发明实施例中的滤波降噪处理流程图；

图2是本发明实施例中特征提取的流程图；

图3是本发明实施例中用于学习时频特征的卷积神经网络的结构示意图；

图4是本发明实施例中用于学习梅尔倒谱特征的卷积神经网络的结构示意图；

图5是本发明实施例中用于学习时频特征的残差网络的结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案作进一步的详细说明。

一种信号处理与深-浅网络多模型融合的水声目标识别方法，本方法首先用信号处理方法对被动侦察阵列采集的目标信号数据进行预处理，滤除干扰并提取目标特征，然后采用卷积神经网络(CNN)和残差网络(ResNet)构建多模型识别架构，最后引入投票决策机制，实现对水中机动目标的分类识别。具体包括以下步骤：

(1)对于基阵接收的水声目标辐射噪声信号进行滤波降噪，得到“干净”且增强后的目标时域信号数据；

(2)对步骤(1)的信号数据做域变换，提取具有类间区分度的时频谱图(LOFAR)和梅尔倒谱系数(MFCC)特征样本；

(3)将步骤(2)得到特征样本标注所属类别，搭建由双通道“卷积神经网络”(CNN)和单通道“残差网络”(ResNet)共同组成的三通道深-浅网络，使用时频特征分别对“卷积神经网络”(CNN)和“残差网络”(ResNet)进行训练；使用梅尔倒谱系数特征对CNN网络进行训练，从而形成多模型联合识别的处理架构。在网络训练中可使用“dropout”的训练技巧，以防止出现过拟合现象；

步骤(1)中，分别从空域和频率对信号数据进行滤波，具体步骤包括：

(101)将基阵采集的实数形式的信号分割成等时长样本；

(102)对样本数据采用分裂波束相关法进行波束形成,，在全方位进行谱峰检测选取目标疑似方位；

(104)根据步骤(103)得到的目标方位，作时域波束形成完成空域滤波过程，提取增强后的时域信号数据；

(105)对步骤(104)得到的时域信号数据通过FIR滤波器作频域滤波.

步骤(2)中，对信号数据进行短时傅里叶变换和梅尔倒谱分析，得到二维时频谱图和梅尔倒谱系数，具体步骤包括：

(201)对时域信号数据进行归一化处理；

(202)对处理后的每帧信号x_k(n)做短时傅里叶变换得到F_k(m，n)，提取信号的线谱特征；

(203)对处理后的每帧时域信号x_k(n)做FFT变换，对结果取平方值得到信号的能量谱，通过梅尔滤波器组进行滤波，得到信号的梅尔频率，作对数运算和离散余弦变换求倒谱，得到信号的梅尔倒谱特征。

步骤(3)中，根据采集时记录的目标类型对特征样本进行分类标注，作为神经网络的训练样本；

使用时频特征分别对CNN网络和ResNet进行训练的具体步骤包括：

(A301)将所有时频特征按照3:1:1的比例划分为训练集、验证集和测试集，打乱顺序以确保每个样本集中各类数据均匀分布；

(A302)根据时频数据的特征搭建CNN分类模型，网络结构由1层输入层，4层卷积层，4层极大池化层，1层全连接层和1层Softmax层构成，卷积层使用ReLU函数作为激活函数；

(A303)在训练阶段，首先初始化可训练参数和超参数，将时频数据输入CNN抽取特征信息，将其通过一个非线性激活函数；

(A304)将激活函数的输出送入池化层，进行特征降维，保留关键信息；

(A305)调整对应参数，重复(A303)、(A304)两步三次后，将结果输入全连接层，使特征可以映射到样本标记空间；

(A306)将(A305)结果输入softmax分类函数，得到预测类别；

(A307)用(A306)的输出与标签值计算损失，更新模型参数；

(A308)训练过程中根据验证集分类准确率的变化趋势进行自适应优化，直至得到具有分类识别能力的网络模型；

(A309)根据时频数据的特征搭建的ResNet分类模型，包括4层layer，layer层的block个数分别为3,4,6,3，每个block主要由卷积层、批量标准化层和Softmax分类层组成，根据样本特性，调整输入层维度，对模型进行适应性迁移；

(A310)参照(A303)至(A308)步骤的训练过程，得到可以分辨不同目标时频特征的ResNet网络模型。

步骤(3)中，使用梅尔倒谱征对CNN模型进行训练的具体步骤包括：

(B301)将所有梅尔倒谱系数样本数据按照3:1:1的比例划分为训练集、验证集和测试集，打乱顺序以确保每个样本集中各类数据均匀分布；

(B302)根据梅尔倒谱系数的特征搭建基本的CNN分类模型，由1层输入层，2层卷积层，2层极大池化层，4层Dropout层，2层全连接层和1层Softmax层构成，卷积层和全连接层使用的激活函数均为ReLU；

(B303)参照(A303)至(A308)步骤的训练过程，得到可以分辨不同目标梅尔倒谱系数特征的CNN网络模型。

以下为一个更具体的例子：

一种信号处理与深-浅网络多模型融合的水声目标识别方法，具体方式如下：

S1：滤波降噪

由于在实际工作环境中，探测范围的海域内，通常会出现多个目标同时存在的情况，即声纳设备采集的数据中存在多目标特征交织的情况，而深度学习需要尽量干净的特征样本，需要一种方法在获取某一目标的信号数据时，尽量抑制其他目标的噪声信号。图1为本实施例中的滤波降噪处理流程图，首先需要将数据进行等间隔的划分，利用目标空间分布特性，采用分裂波束相关法在全方位进行谱峰检测选取目标疑似方位，对其进行时间累积，通过经验门限判决，得到目标精准方位，针对该方位执行时域波束形成完成空域滤波，实现滤除其他方位目标信号的目的；进一步对空域滤波得到的数据通过FIR滤波器做频率滤波，降低海洋背景噪声及其他杂波的干扰，得到干净的样本数据。

S2：时频特征提取

参考图2上半部分时频特征提取处理流程，对滤波后的声纳信号数据(L₁(n)，L₂(n)，...，L_k(n))进行短时傅立叶变换，生成时频谱序列(F₁(u，v),F₂(u，v),…,F_k(u，v))，实现步骤如下：

S21：通过控制帧间的重叠，将原始信号的采样序列分为存在前后联系的连续若干帧；

S22：对每帧信号样本L_k(n)(1≤k≤M)做归一化和中心化处理；

归一化处理：

中心化处理：

(N为信号的帧数)。

S23：对每帧信号x_k(n)做短时傅里叶变换得到F_k(m，n)；

通过使用窗函数，使得短时傅里叶变换具有局部特性，从而可以利用它获取水声信号的“局部频谱”，运算操作如下：

其中g^*为窗函数，N为总采样点数，m为滑动步长

窗函数选择汉宁窗，通过快速傅里叶变换，得到了LOFAR谱图，提取出声信号的低频线谱特征。

S3：梅尔倒谱系数特征提取

参见图2中下半部分梅尔倒谱系数特征提取流程，提取出基于人耳听觉特性的MFCC特征并制成二维谱图，作为分类模型的输入，实现步骤如下：

S31：对每帧信号样本L_k(n)(1≤k≤M)做归一化和中心化处理；

S32：将经上一步处理后得到的结果逐帧进行FFT得到帧信号频谱。经过STFT后，对结果取绝对值再平方得到能量谱图。每帧信号的能量谱计算公式如下所示：

p(f)＝|X(f)²|＝|FFT(x(n))|²，

其中，x(n)为输入帧信号，X(f)为输入帧信号频谱。

S33：构造一个梅尔滤波器组，并与能量谱进行点积运算得到梅尔频谱图，滤波过程可以用以下公式进行表示：

其中N表示各帧信号总点数，H_m(f)为梅尔滤波器组系数。

S34：模拟人耳对声音响度的“对数式”特性，对梅尔频谱图取对数得到：

E′(m)＝lgE(m).

S35：对每帧数据，利用DCT改变数据分布，将大部分信号数据将集中在低频区，取变换后的前33个低频数据作为该帧的MFCC特征。

S4：神经网络模型训练

参考图3的网络模型结构搭建学习时频特征的卷积神经网络，将所有样本数据按照3∶1∶1的比例划分为训练集、验证集和测试集。在训练阶段，训练集和验证集的特征图为模型输入，观察训练过程中验证集的分类准确率变化，手动调整超参数来提高模型的泛化能力和鲁棒性。在测试阶段，测试集中的特征图输入训练完成的CNN模型中，完成本模型的训练过程。

S41:在基于LOFAR谱图特征搭建CNN模型时，需要将谱图的尺寸归一化为128*128，确保维度一致；

S42：将归一化后的LOFAR谱图输入一个卷积核为8*8，通道数为5，步长为1的卷积层，得到第i个隐藏层hi，卷积层中卷积核工作过程可由下式来表示：

(i，j)∈{0，1，...，L_l+1}

式中b为偏差量,Z^l和Z^l+1表示第l+1层的卷积输入和输出，也被称为特征图，L_l+1为Z^l+1的尺寸，这里假设特征图长宽相同。Z(i，j)对应特征图的像素，K为特征图的通道数，f、s₀和p是卷积层参数，对应卷积核大小、卷积步长和填充层数。

为了增加神经网络各层间的非线性关系，同时缓解过拟合问题，需将hi输入ReLU激活函数，如下式：

S43：将结果输入窗长为2、步长为2的池化层，对特征图进行采样降维，剔除掉无关信息，减少参数量，池化层的一般表示形式为：

式中步长s₀、像素(i，j)的含义与卷积层相同，p是预指定参数。当p→∞时，池化在区域内取极大值，被称为极大池化。

S44：调整卷积层的卷积核参数，继续采用卷积层+ReLU函数+池化层的方法迭代2次，进一步提取特征图的深层特征。在获得所需的所有局部特征之后，将它们先后通过3个全连接层，映射到样本的标记空间，得到一个一维向量；使用3个全连接层，是为更好地拟合真实的概率分布；

S45：之后利用softmax函数，以概率形式呈现的多分类结果，softmax函数的计算方法如下：

其中，f_c表示标签为c的向量；

S46：利用交叉熵函数作为损失函数，具体形式如下

其中t_i表示标签值，y_i表示softmax函数的输出。根

S47：采用Adam(Adaptive Moment Estimation)算法作为深度学习模型的优化算法，利用一阶矩估计和二阶矩估计实现学习率的自适应调整，公式如下：

v_dw＝0v_db＝0S_dw＝0S_db＝0

参数更新公式：

在使用指数加权平均值算法的时通过下面的方法进行偏差修正:

其中，t表示的是迭代的次数，β₁是动量的参数，通常取0.9，β是RMSprop的参数，通常取0.999，∈主要是用来避免分母为0的情况，一般取10^-8，w和b分别代表神经网络的权重和偏置，α表示学习率。

表示的是参数w的梯度的平方。

S48:参考图4的网络模型结构，搭建用于学习梅尔倒谱系数的卷积神经网络，在根据MFCC谱图特征搭建基本的CNN模型时，由于作为模型输入的32*32MFCC谱图的尺寸较小，在CNN结构中仅设计2层卷积层和2层极大池化层对MFCC谱图交替进行局部特征提取。其余步骤与根据时频搭建CNN模型步骤类似；

S49:参考图5的网络模型结构，搭建用于学习时频特征的残差网络，将深层网络模型构建为浅层网络模型和自身映射的增加层，把训练好的浅层结构与自身映射的增加层，通过残差块连接在一起。将CNN中的最优映射改写成H(X)＝F(X)+X，此处通过在前馈网络中增加一个短接层来实现。短接层以不同的步长跳过一个或多个层与主径回合，这样结构的输出为：

如果输入和输出维度不同，则需要增加一个线性投影，计算公式如下式：

S410：在训练ResNet过程中，为了利用先前类似任务的训练结果，采用了迁移学习的思想，准备已经在ImageNet上训练过的ResNet-34，并去掉ResNet-34的最后一层全连接层。在训练时只需要训练替换过的全连接层的参数。

步骤S5：投票机制的运用

S51：将三个通道网络经过softmax函数的输出概率向量赋予不同的权重，单独测试准确率更高的网络可以赋予其更大的权重；

S52：取出经过加权求和的概率向量中值最大的索引作为最终类别判别的结果

S53：当三个模型的预测结论中出现1:1:1，即预测结果各不相同的情况时，则以权重最大模型的识别结果为最终判决结果。

本发明通过时频谱分析和梅尔倒谱分析方法提取声纳信号有效特征，使用双通道卷积神经网络CNN和单通道残差网络ResNet对该特征进行深度学习形成稳定的辨析能力，最后对三通道的结果进行投票融合，实现了对水中机动目标准确、稳定的识别。通过大样本的真实数据集测试取得了很好的实验结果，数据集采集于南海近海海域，共有4类总计14600个样本，每个样本都是采样率为5kS/s长度不到3.768秒的数据。在实验时，将数据集做进一步的划分，其中5300个样本作为训练数据，900个样本作为验证数据，8400个样本作为测试数据。最终结果显示，当设置在LOFAR-CNN、MFCC-CNN、LOFAR-ResNet的权重比分别是3：2：4时，深浅网络的准确率不仅比单通道网络的最高准确率高出4％，还比传统方法的准确率高出至少9％，达到93.17％识别正确率；相对于单网络识别模型和其他经典识别方法表现出更好的稳定性和拓展性，具有很好的应用前景。

总之，本发明以声纳信号处理为预处理应对复杂海况下干净样本获取困难的问题；采用多个维度的特征作为训练样本提升不同海况和工况下适应能力和识别正确率；基于多神经网络模型的融合识别提升本方法的识别正确率和鲁棒性。

Claims

1.一种信号处理与深-浅网络多模型融合的水声目标识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种信号处理与深-浅网络多模型融合的水声目标识别方法，其特征在于，步骤(1)的具体方式为：

(101)将基阵采集的实数形式的信号分割成等时长样本；

3.根据权利要求1所述的一种信号处理与深-浅网络多模型融合的水声目标识别方法，其特征在于，步骤(2)的具体方式为：

(201)对时域信号数据进行归一化处理；

4.根据权利要求1所述的一种信号处理与深-浅网络多模型融合的水声目标识别方法，其特征在于，步骤(4)的具体方式为：