CN113191178A

CN113191178A - 一种基于听觉感知特征深度学习的水声目标识别方法

Info

Publication number: CN113191178A
Application number: CN202011397588.0A
Authority: CN
Inventors: 陈越超; 王方勇; 尚金涛
Original assignee: 715th Research Institute of CSIC
Current assignee: 715th Research Institute of CSIC
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-07-30
Anticipated expiration: 2040-12-04
Also published as: CN113191178B

Abstract

本发明提出一种基于听觉感知特征深度学习的水声目标识别方法，针对水声数据信噪比低、可分性特征提取困难、识别泛化能力差等现状，首先基于听觉感知方法开展预处理，生成MFCC谱图和GFCC谱图样本，接着针对以上谱图样本，分别基于深度学习方法构建深层网络模型进行处理，最后对多模型结果进行加权联合判决，输出目标识别结果。该方法综合利用了听觉感知方法在特征表征上和深度学习方法在特征抽象上的优势，同时通过多模型联合判决的方法实现了多维听觉感知特征之间的优势互补，有助于提高目标识别稳健性，是人工智能算法在水声信号处理领域应用的创新方法。

Description

一种基于听觉感知特征深度学习的水声目标识别方法

技术领域

本发明属于水中目标识别与人工智能技术领域，主要是一种基于听觉感知特征深度学习的水声目标识别方法。

背景技术

水中目标辐射噪声识别是声纳的主要功能之一，能够为声纳员综合决策提供重要依据。受目标噪声产生机理复杂、海洋信道时空变性传输、多目标强干扰、平台背景噪声、高质量数据获取困难等因素影响，水声目标噪声识别长期以来是国际公认亟待解决的难题。

人耳听觉系统经过长期进化，对声音信号具有较强的分析和识别能力，通过借鉴听觉感知方法在语音信号处理中的成功经验，将听觉感知机理引入水声目标噪声识别处理中，在一定程度上有助于提升识别算法在复杂多变环境下的鲁棒性。

近年来，深度学习方法成为人工智能领域的热点，不仅算法研究层出不穷，在语音、图像等领域也得到了广泛应用。针对水声目标识别，也有不少国内外的研究团队开展了深度学习方法的应用研究，但一般所用模型较为单一，未针对水声目标识别特点展开深化研究。

发明内容

本发明的目的在于克服现有技术存在的不足，而提供一种基于听觉感知特征深度学习的水声目标识别方法。鉴于水声目标辐射噪声的复杂性，其可分性可能在不同特征维度具备独立的特性，为充分利用不同多特征的本质属性凸显性，本发明提出生成多种水声目标噪声听觉感知特征并构建相应的深层网络处理模型，基于多模型联合判决体制实现目标识别，从而提升水中目标辐射噪声识别的宽容性。

本发明的目的是通过如下技术方案来完成的。本发明提出一种基于听觉感知特征深度学习的水声目标识别方法，首先对水中目标辐射噪声数据进行预处理，基于听觉感知方法，生成MFCC谱图和GFCC谱图作为深度学习处理对象，其次针对以上听觉感知谱图，分别构建深层网络模型进行处理，输出各类目标识别置信度；接着对多模型置信度结果进行加联合判决，基于梯度下降方法对实现加权系数，最后基于上述模型和准则实现未知目标噪声数据识别。

本发明的有益效果为：本发明利用听觉感知信号处理方法，从高维水声目标噪声中获取能凸显目标特性的谱图样本，进一步基于深度学习方法建立多模型加权联合的处理体制，实现深层次特征信息抽象与识别，实际数据处理结果表明，应用听觉感知特征深度学习方法能够有效分辨三类水声目标。该方法与传统基于物理机理和信号处理手段的特征提取与识别方法相比，具有更强的非线性数据处理能力，能够更有效识别水中目标。

附图说明

图1所示为水声目标噪声听觉感知特征智能识别总体架构。针对水中辐射噪声展开预处理，生成MFCC谱图和GFCC谱图，对于具备先验信息的目标数据，标注后加入样本集中。基于深度学习方法，面向MFCC谱图和GFCC谱图识别，分别构建深层网络模型，并基于上述模型输出的结果进行融合判决，得到综合识别结果。基于样本集对上述深层网络模型展开训练并对融合判决准则进行优化。最后，基于上述方法对未知目标数据进行处理，实现目标智能识别。

图2所示为具体处理流程图，其中包括听觉感知谱图样本集构建、深层网络模型构建、深层网络模型训练、多模型联合判决系数确定和方法应用五个阶段。

图3和图4所示分别为MFCC和GFCC的特征提取过程。

图5所示为本发明中深层网络模型构建时所用的基本卷积模块，模块基于残差网络机制，配置了1个直连分支和2个并行卷积分支，通过设定不同的卷积操作过程参数，能够增强对不同尺度的适应性，捕捉数据精细特征，最后基于网络整合层将这些卷积特征在通道数量维度进行集成，输出多通道卷积特征。各卷积层使用的激活函数均设置为ReLU函数。

图6所示为某目标噪声听觉感知谱图。

具体实施方式

下面将结合附图对本发明做详细的介绍：

本发明公开了一种基于听觉感知特征深度学习的水声目标识别方法，首先对水中目标辐射噪声数据进行预处理，基于听觉感知方法，生成MFCC谱图和GFCC谱图作为深度学习处理对象，其次针对以上听觉感知谱图，分别构建深层网络模型进行处理，输出各类目标识别置信度；接着对多模型置信度结果进行加联合判决，基于梯度下降方法对实现加权系数，最后基于上述模型和准则实现未知目标噪声数据识别。具体实施方式如下：

(1)基于带标签水声目标噪声数据构建MFCC谱图和GFCC谱图样本集，基本过程如下。

(1.1)对水声目标噪声数据按分辨率需求进行分帧和加窗，形成标准长度的信号片段。

(1.2)构建MFCC谱图样本集，具体构建方式如下。

(1.2.1)对单帧信号进行快速傅里叶变换。

(1.2.2)设计Mel滤波器组。根据信号特点确定上限频率、下限频率、滤波器数量等参数，形成滤波器组。

(1.2.3)对快速傅里叶变换后的频谱基于Mel滤波器组进行滤波。

(1.2.4)对Mel滤波器组输出的幅值作对数运算，得到频域输出的对数分布。

(1.2.5)对信号进行离散余弦变换，得到MFCC谱图。

(1.2.6)重复(1.2.1)～(1.2.5)过程，对其余信号帧进行处理，形成MFCC谱图样本集。

(1.2.7)基于随机不放回方式取样方式，对MFCC谱图样本集中的每类目标样本按一定比例划分为训练样本子集和交叉验证样本子集。

(1.3)构建GFCC谱图样本集，具体构建方式如下。

(1.3.1)对单帧信号进行快速傅里叶变换。

(1.3.2)设计Gammatone滤波器组。根据信号特点确定上限频率、下限频率、滤波器数量等参数，形成滤波器组。

(1.3.3)对快速傅里叶变换后的频谱基于Gammatone滤波器组进行滤波。

(1.3.4)对Gammatone滤波器组输出的幅值作指数压缩，得到对数能量谱。

(1.3.5)对信号进行离散余弦变换，得到GFCC谱图。

(1.3.6)重复(1.3.1)～(1.3.5)过程，对其余信号帧进行处理，形成MFCC谱图样本集。

(1.3.7)基于随机不放回方式取样方式，对GFCC谱图样本集中的每类目标样本按一定比例划分为训练样本子集和交叉验证样本子集。

(2)基于TensorFlow框架构建用于目标噪声听觉感知谱图识别的深层网络模型，基本过程如下：

(2.1)构建基本卷积模块，具体构建方式如下。在数据输入层之后添加3个并行分支。分支1为直接分支，不添加任何操作。分支2包括4个卷积层，卷积层1参数为(1×1,x,1)，即卷积核尺寸为1×1，卷积核数量可根据需求进行设定，卷积步长为1，表示方法下同。卷积层2～4的参数依次为(1×3,x,1)，(3×1,2x,1)和(1×1,nx,1或2)。分支2包括3个卷积层，各卷积层参数依次为(1×1,x,1)，(3×3,x,1)和(1×1,nx,1或2)。在3个并行分支之后添加网络整合层，实现卷积特征组合。

(2.2)构建面向MFCC谱图识别的深层网络模型，具体构建方式如下。

(2.2.1)添加数据输入层，输入数据尺寸为48×48×1。

(2.2.2)添加卷积层，参数为(5×5,64,2)，各数字依次为卷积核尺寸、输出通道数量和步长值，下同。

(2.2.3)添加卷积层，参数为(3×3,64,2)。

(2.2.4)添加基本卷积模块，参数为(2,64,4,1)，各数字依次为模块数量、x值、n值和中间卷积层步长值，需设置的中间卷积层可参见图3，下同。

(2.2.5)添加基本卷积模块，参数为(1,128,4,2)。

(2.2.6)添加基本卷积模块，参数为(2,128,4,1)。

(2.2.7)添加基本卷积模块，参数为(1,256,4,2)。

(2.2.8)添加基本卷积模块，参数为(4,256,4,1)。

(2.2.9)添加基本卷积模块，参数为(1,512,4,2)。

(2.2.9)添加全局平均池化层。

(2.2.10)添加Softmax分类器。

(2.3)构建面向GFCC谱图识别的深层网络模型，具体构建方式参照步骤(2.2.1)～(2.2.10)。

(3)对建立的深层网络模型进行训练，基本过程如下。

(3.1)对面向MFCC谱图识别的深层网络模型进行训练，基本过程如下。

(3.1.1)设定深层网络模型训练参数，包括学习率、优化器等，损失函数设置为交叉熵函数。

(3.1.2)设定顺序取样轮次和随机放回取样次数。

(3.1.3)从MFCC谱图样本集的训练样本子集中按顺序取出一定数量样本。

(3.1.4)针对输入样本，对深层网络模型作前向计算，得到最后分类结果。

(3.1.5)基于梯度下降算法最小化分类结果与对应样本标签之间的误差。

(3.1.6)重复步骤(3.1.3)～(3.1.5)，直至完成设定的循环取样轮次。

(3.1.7)从MFCC谱图样本集的训练样本子集中按随机放回方式取出一定数量样本。

(3.1.8)重复步骤(3.1.3)～(3.1.5)，直至完成设定的随机放回取样次数。

(3.2)对面向GFCC谱图识别的深层网络模型进行训练，基本过程与面向MFCC谱图识别的深层网络模型训练方法相同。

(4)计算多深层网络模型融合判决系数，基本过程如下。

(4.1)基于面向MFCC谱图识别的深层网络模型对MFCC谱图样本集的交叉验证样本子集中的数据按次序进行处理，输出置信度，得到集合C_MFCC(c_MFCC,1,c_MFCC,2,...,c_MFCC,n)，其中c_MFCC,n表示第n类结果的置信度，下同。

(4.2)基于面向GFCC谱图识别的深层网络模型对GFCC谱图样本集的交叉验证样本子集中的数据按次序进行处理，输出置信度，得到集合C_GFCC(c_GFCC,1,c_GFCC,2,...,c_GFCC,n)，其中c_GFCC,n表示第n类结果的置信度，下同。

(4.3)构建融合判决置信度计算模型，综合置信度计算方法如下所示。

其中，α_n，β_n分别为面向MFCC谱图识别的深层网络模型、面向GFCC谱图识别的深层网络模型对第n类目标分类置信度的加权系数，针对C_class,n，取综合置信度最大值为识别类别。

(4.4)基于梯度下降算法对融合判决置信度计算模型的加权系数进行优化，设置目标函数为max{R_class}，决策变量为

所有决策变量上界和下界均分别设置为1和0。

(4.5)对建立的融合判决置信度计算模型进行迭代寻优，得到最佳加权系统组合。

(5)对未知水中目标辐射噪声数据进行识别，基本过程如下：

(5.1)对水中目标辐射噪声数据进行预处理，生成若干帧MFCC谱图和GFCC谱图样本。

(5.2)基于面向MFCC谱图识别的深层网络模型和面向GFCC谱图识别的深层网络模型分别对MFCC谱图和GFCC谱图进行处理，生成各模型的置信度列表。

(5.3)通过对置信度列表进行加权融合判决，得到各帧谱图的识别结果。

(5.4)统计所有帧谱图的识别结果，输出最终的识别结果。

表1

表2

表1所示为二维卷积神经模型构建方案，包含了多个卷积层和基本卷积模块，其中处理类型里面的卷积对应的处理参数依次为卷积核尺寸、通道数量和步长，基本卷积模块对应的处理参数依次为模块数量、x、n和l，Type_num为待识别目标类别数量，下同。输入原始时频图像尺寸为48×48×1，通过一系列卷积层/模块处理后，输出尺寸为2×2×2048的卷积特征，基于全局平均池化层将卷积特征降维变为1×1×2048尺寸，最后添加Softmax分类器，输出分类置信度。

将两个深层网络模型输出的识别类型判别置信度进行决策级加权融合，对各模型加权系数进行优化，该问题为给定约束条件下的最优化问题，目标函数为最大化综合识别正确率，约束为各加权系统的取值区间，基于梯度下降算法对目标函数进行迭代寻优，实现加权系数优化。最后，输出各模型加权判决结果。

针对某三类水中目标噪声识别，基于以上方法进行识别，图6所示为某目标噪声听觉感知谱图，表2所示为多模型及联合判决识别正确率统计结果，可以看到，两个深层网络模型均可以有效分辨三类目标，而联合判决识别模型的总体识别效果最好，验证了上述方法的有效性。

可以理解的是，对本领域技术人员来说，对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于听觉感知特征深度学习的水声目标识别方法，其特征在于：首先对水中目标辐射噪声数据进行预处理，基于听觉感知方法，生成MFCC谱图和GFCC谱图作为深度学习处理对象，其次针对以上听觉感知谱图，分别构建深层网络模型进行处理，输出各类目标识别置信度；接着对多模型置信度结果进行加联合判决，基于梯度下降方法对实现加权系数，最后基于上述模型和准则实现未知目标噪声数据识别。

2.根据权利要求1所述的基于听觉感知特征深度学习的水声目标识别方法，其特征在于：该方法具体步骤如下:

(1)基于带标签水声目标噪声数据构建MFCC谱图和GFCC谱图样本集，基本过程如下:

(1.1)对水声目标噪声数据按分辨率需求进行分帧和加窗，形成标准长度的信号片段；

(1.2)构建MFCC谱图样本集，具体构建方式如下；

(1.2.1)对单帧信号进行快速傅里叶变换；

(1.2.2)设计Mel滤波器组，根据信号特点确定上限频率、下限频率、滤波器数量相关参数，形成滤波器组；

(1.2.3)对快速傅里叶变换后的频谱基于Mel滤波器组进行滤波；

(1.2.4)对Mel滤波器组输出的幅值作对数运算，得到频域输出的对数分布；

(1.2.5)对信号进行离散余弦变换，得到MFCC谱图；

(1.2.6)重复(1.2.1)～(1.2.5)过程，对其余信号帧进行处理，形成MFCC谱图样本集；

(1.2.7)基于随机不放回方式取样方式，对MFCC谱图样本集中的每类目标样本按一定比例划分为训练样本子集和交叉验证样本子集；

(1.3)构建GFCC谱图样本集，具体构建方式如下：

(1.3.1)对单帧信号进行快速傅里叶变换；

(1.3.2)设计Gammatone滤波器组，根据信号特点确定上限频率、下限频率、滤波器数量相关参数，形成滤波器组；

(1.3.3)对快速傅里叶变换后的频谱基于Gammatone滤波器组进行滤波；

(1.3.4)对Gammatone滤波器组输出的幅值作指数压缩，得到对数能量谱；

(1.3.5)对信号进行离散余弦变换，得到GFCC谱图；

(1.3.6)重复(1.3.1)～(1.3.5)过程，对其余信号帧进行处理，形成MFCC谱图样本集；

(1.3.7)基于随机不放回方式取样方式，对GFCC谱图样本集中的每类目标样本按一定比例划分为训练样本子集和交叉验证样本子集；

(2.1)构建基本卷积模块，具体构建方式如下：在数据输入层之后添加3个并行分支，分支1为直接分支，不添加任何操作；分支2包括4个卷积层，卷积层1参数为(1×1,x,1)，即卷积核尺寸为1×1，卷积核数量可根据需求进行设定，卷积步长为1，表示方法下同；卷积层2～4的参数依次为(1×3,x,1)，(3×1,2x,1)和(1×1,nx,1或2)；分支2包括3个卷积层，各卷积层参数依次为(1×1,x,1)，(3×3,x,1)和(1×1,nx,1或2)；在3个并行分支之后添加网络整合层，实现卷积特征组合；

(2.2)构建面向MFCC谱图识别的深层网络模型，具体构建方式如下：

(2.2.1)添加数据输入层，输入数据尺寸为48×48×1；

(2.2.2)添加卷积层，参数为(5×5,64,2)，各数字依次为卷积核尺寸、输出通道数量和步长值，下同；

(2.2.3)添加卷积层，参数为(3×3,64,2)；

(2.2.4)添加基本卷积模块，参数为(2,64,4,1)，各数字依次为模块数量、x值、n值和中间卷积层步长值，需设置的中间卷积层，下同；

(2.2.5)添加基本卷积模块，参数为(1,128,4,2)；

(2.2.6)添加基本卷积模块，参数为(2,128,4,1)；

(2.2.7)添加基本卷积模块，参数为(1,256,4,2)；

(2.2.8)添加基本卷积模块，参数为(4,256,4,1)；

(2.2.9)添加基本卷积模块，参数为(1,512,4,2)；

(2.2.9)添加全局平均池化层；

(2.2.10)添加Softmax分类器；

(2.3)构建面向GFCC谱图识别的深层网络模型，具体构建方式参照步骤(2.2.1)～(2.2.10)；

(3)对建立的深层网络模型进行训练，基本过程如下：

(3.1)对面向MFCC谱图识别的深层网络模型进行训练，基本过程如下：

(3.1.1)设定深层网络模型训练参数，包括学习率、优化器，损失函数设置为交叉熵函数；

(3.1.2)设定顺序取样轮次和随机放回取样次数；

(3.1.3)从MFCC谱图样本集的训练样本子集中按顺序取出一定数量样本；

(3.1.4)针对输入样本，对深层网络模型作前向计算，得到最后分类结果；

(3.1.5)基于梯度下降算法最小化分类结果与对应样本标签之间的误差；

(3.1.6)重复步骤(3.1.3)～(3.1.5)，直至完成设定的循环取样轮次；

(3.1.7)从MFCC谱图样本集的训练样本子集中按随机放回方式取出一定数量样本；

(3.1.8)重复步骤(3.1.3)～(3.1.5)，直至完成设定的随机放回取样次数；

(3.2)对面向GFCC谱图识别的深层网络模型进行训练，基本过程与面向MFCC谱图识别的深层网络模型训练方法相同；

(4)计算多深层网络模型融合判决系数，基本过程如下；

(4.1)基于面向MFCC谱图识别的深层网络模型对MFCC谱图样本集的交叉验证样本子集中的数据按次序进行处理，输出置信度，得到集合C_MFCC(c_MFCC,1,c_MFCC,2,...,c_MFCC,n)，其中c_MFCC,n表示第n类结果的置信度，下同；

(4.2)基于面向GFCC谱图识别的深层网络模型对GFCC谱图样本集的交叉验证样本子集中的数据按次序进行处理，输出置信度，得到集合C_GFCC(c_GFCC,1,c_GFCC,2,...,c_GFCC,n)，其中c_GFCC,n表示第n类结果的置信度，下同；

(4.3)构建融合判决置信度计算模型，综合置信度计算方法如下所示

其中，α_n，β_n分别为面向MFCC谱图识别的深层网络模型、面向GFCC谱图识别的深层网络模型对第n类目标分类置信度的加权系数，针对C_class,n，取综合置信度最大值为识别类别；

所有决策变量上界和下界均分别设置为1和0；

(4.5)对建立的融合判决置信度计算模型进行迭代寻优，得到最佳加权系统组合；

(5)对未知水中目标辐射噪声数据进行识别，基本过程如下：

(5.1)对水中目标辐射噪声数据进行预处理，生成若干帧MFCC谱图和GFCC谱图样本；

(5.2)基于面向MFCC谱图识别的深层网络模型和面向GFCC谱图识别的深层网络模型分别对MFCC谱图和GFCC谱图进行处理，生成各模型的置信度列表；

(5.3)通过对置信度列表进行加权融合判决，得到各帧谱图的识别结果；

(5.4)统计所有帧谱图的识别结果，输出最终的识别结果。