CN116417011A

CN116417011A - 基于特征融合和残差cnn的水声目标识别方法

Info

Publication number: CN116417011A
Application number: CN202310204176.8A
Authority: CN
Inventors: 汪勇; 姚琦海; 杨益新
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-11

Abstract

本发明公开了一种基于特征融合和残差CNN的水声目标识别方法，整个过程先通过提取MFCC和GFCC特征，并经过领域成分分析法实现特征降维，将降维后的两种特征融合后，输入残差CNN模型用于训练。本发明在ResNet18模型的基础上，搭建和训练残差CNN模型，并对比了单独输入MFCC和GFCC特征的SVM、GRNN、3_CNN和ResNet18模型，结果表明，将特征融合参数作为输入特征，训练残差CNN模型，由于该方法充分发挥了特征融合技术的丰富信息优势和残差CNN的特征挖掘能力，所以，相比其它模型，MFCC‑GFCC‑ResNet18模型的识别结果较好，在无噪声场景中，达到了97.52％的识别准确度，并且在低信噪比下也可实现有效识别，在0dB时，仍可达到90.15％的识别准确度。

Description

基于特征融合和残差CNN的水声目标识别方法

技术领域

本发明属于水声目标识别技术领域，具体涉及一种基于特征融合和残差CNN的水声目标识别方法。

背景技术

水声目标识别对于海洋开发、国防安全有着重大意义，现已成为水声领域的研究热点之一。水下目标自动识别主要包括特征提取与构建分类器两大部分。随着传感器和智能信息技术的迅猛发展，传统方法已逐渐无法适应水下探测信息处理的智能化发展要求。

近年来在计算机领域获得广泛应用的机器学习方法为水下目标识别及定位的智能化提供了理论支持。在水下目标定位领域，机器学习方法在声源的距离、深度和方位估计上表现了良好的性能，Niu将前馈神经网络(Feedforward Neural Network,FNN)和支持向量机(Support Vector Machine,SVM)方法的机器学习分类模型应用到船舶的距离估计问题上，在缺少海洋环境参数的情况下，基于机器学习的分类器可实现有效定位。Wang引入了GRNN(Generalized Regression Neural Network,GRNN)方法，实现了浅海高信噪比环境下有效的垂直阵目标距离估计，并利用SWellEX-96实验中无强干扰的S5航次数据验证了该方法的可行性。Huang将声场模型数据用于训练，建立多层深度神经网络(Deep NeuralNetworks,DNN)模型，由卷积神经网络(Convolutional Neural Network,CNN)-前馈神经网络(CNN-FNN)组合而成，结果表明，DNN可有效估计浅海声源位置，在缺乏海洋环境先验信息的前提下，定位性能优于MFP方法。Ferguson等人在浅海波导环境中，提取声源信号的倒频谱图和广义互相关图特征，基于卷积神经网络实现目标方位估计。Liu等人在深度范围大致确定的前提下，利用一维卷积神经网络和集成学习实现了水下目标距离估计。在水下目标识别领域，机器学习方法已应用在船舶和海洋生物等声音的识别中，Kamal等将深度置信网络(Deep BriefNetwork,DBN)模型应用于水声信号被动目标识别任务中，实现了无标签的水下目标声信号识别。Shamir等人在提取鲸鱼声学特征的基础上，利用机器学习方法实现了不同种类鲸鱼的自动识别。Yue等人利用SVM、DBN和CNN模型，实现了船舶目标声信号的有效识别。Yu等人搭建了多种机器学习模型，用于检测北大西洋露脊鲸的发声，结果表明CNN模型可很大程度地提高准确度。Mishachandar等人通过CNN模型有效识别了人为声音、自然声音和海洋动物声音。Song等人利用CNN方法在不同信噪比下实现水下噪声有效分类，且识别性能优于SVM方法。Yang等人通过提取多属性之间的相关性信息，利用深度CNN模型实现船舶目标识别。Escobar-Amado等人通过提取频谱图中胡须海豹的感兴趣区域，并利用CNN模型实现了胡须海豹声音的有效分类。Luo等人对输入不同长度的水下声音数据频谱，提出了一种局部能量归一化的方法，并将CNN模型应用于齿鲸回声定位声音的有效检测。

以上研究大多根据单一特征进行识别，因此识别准确度较差。

发明内容

针对上述背景技术中存在的技术问题，本发明提出了一种基于特征融合技术和残差CNN的水声目标识别方法，通过提取MFCC和GFCC特征，并经过领域成分分析实现特征降维，将降维后的两种特征融合后，输入以ResNet18模型为框架的残差CNN，训练后的模型用于水声目标的识别。

本发明具体采用以下技术方案予以实现：

提供一种基于特征融合和残差CNN的水声目标识别方法，包括：

获取目标水声的音频数据，提取所述音频数据的MFCC特征参数和GFCC特征参数，用于残差CNN的训练和测试；

通过领域成分分析法实现所述MFCC特征参数和所述GFCC特征参数的降维，筛选出重要性较高的特征参数；

将筛选出的所述MFCC特征参数和所述GFCC特征参数融合后，输入残差CNN模型，训练所述残差CNN模型，并进行分类识别。

作为本发明的进一步说明，所述提取所述音频数据的MFCC特征参数，包括：

将所述音频数据进行预处理，所述预处理的过程包括预加重，分帧和加窗；

预处理完成后，对每帧信号做FFT得到频谱；

将所述频谱通过一组三角带通滤波器滤波得到Mel滤波；

计算每个滤波器输出的对数能量；

将计算得到的所述对数能量进行离散余弦变换，求出L阶的MFCC；

根据L个MFCC倒谱系数值计算一阶倒谱差分参数和二阶倒谱差分参数；

将MFCC、计算得到的一阶倒谱差分参数和二阶倒谱差分参数这三部分参数组合作为信号的特征向量，用于残差CNN的训练和测试。

作为本发明的进一步说明，所述分帧过程包括：

将所述音频数据进行分段，将信号划分为若干个短时段的信号，每段256个样本，每段偏移128个样本。

作为本发明的进一步说明，所述GFCC特征参数的提取过程与所述MFCC特征参数的提取过程差别在于将Mel三角滤波器组换为Gammatone滤波器组。

作为本发明的进一步说明，所述Gammatone滤波器的滤波阶数n＝4，所述Gammatone滤波器数量N＝64。

作为本发明的进一步说明，所述领域成分分析法具体为：

假设数据集为S＝{(x_i,y_i),i＝1,2,…,n}，其中x_i为样本，样本维度为p，y_i为对应类标；

在所述数据集中随机选取一个参考点x_i，并认为下一个x_j的类别与x_i相同，这相当于一个1-近邻分类器；

所述参考点x_i从所述数据集中被选出的为P(Ref(x)＝x_j|S)，另一个点x_j被选出做参考点的与上一个参考点的距离有关，定义两者距离公式如下：

其中w_r为特征权重值；假设被选中的概率与上一个参考点的距离相关，即：

P(Ref(x)＝x_j|S)∝k(d_w(x,x_j))；

其中k为表示两点距离的核函数，当d_w(x,x_j)很小，即距离很近时，k值很大；公式如下：

由于x属于数据集S，因此P(Ref(x)＝x_j|S)的和应为1；

用留一法对上述的随机分类器进行测试，即预留测试样本(x_i,y_i)，所述数据集中的其它样本作为训练集，那么测试点x_i被相同类别参考点选中的为：

所述随机分类器使用留一法正确分类测试样本的平均为：

其中当y_i与y_j相等时，l为1，否则为0，则上式化简如下：

其中：

那么在整个样本中随机分类器正确分类简写如下：

再增加惩罚项，调节模型复杂度：

根据梯度下降算法训练模型，即可得到特征的重要性权值。

作为本发明的进一步说明，所述MFCC特征参数和所述GFCC特征参数融合后得到的融合参数，如下式所示：

M_mix＝[(C₁,C₂,…,C_m),(G₁,G₂,…,G_n)]；

式中，C_m和G_n分别为从MFCC、GFCC中选取的特征参数。

作为本发明的进一步说明，所述残差CNN模型具体为：

在ResNet18模型的基础上，去掉其中的池化层，并将输入层、全连接层和输出层换为适合识别任务的尺寸，搭建残差CNN模型。

本发明与现有技术相比具有以下优点：

本发明针对常见的水声特征参数有效维数不足以及抗噪性能差等问题，利用NCA方法将MFCC和GFCC中重要性较大的特征参数筛选出来，并组合成混合特征参数，再将混合特征参数输入SVM、GRNN、3-CNN和ResNet18模型进行水声目标识别。结果表明，在低信噪比下，MFCC特征的识别结果较差，而GFCC特征的抗噪性能较好。由于MFCC-GFCC-ResNet18模型充分发挥了特征融合优势和残差CNN的特征挖掘能力，所以，相比其它模型，该模型识别结果较好，在无噪声场景中，达到了97.52％的识别准确度，并且在低信噪比下也可实现有效识别，在0dB时，仍可达到90.15％的识别准确度。

附图说明

图1是本发明提供的一种基于特征融合和残差CNN的水声目标识别方法实现流程图。

图2是本发明提供的一种基于特征融合和残差CNN的水声目标识别方法中MFCC特征提取流程图。

图3是本发明采用的残差CNN模型框架图。

图4是本发明一实施例中不同目标初始信号波形图。

图5是本发明一实施例中不同目标声信号的MFCC特征；其中：(a)小型船声；(b)摩托艇声；(c)客船声；(d)远洋船声；(e)自然声。

图6是本发明一实施例中不同目标声信号的GFCC特征；其中：(a)小型船声；(b)摩托艇声；(c)客船声；(d)远洋船声；(e)自然声。

图7是本发明一实施例中不同目标声信号的GFCC和MFCC的NCA特征筛选图；其中：(a)GFCC的NCA特征筛选图，(b)MFCC的NCA特征筛选图。

图8是本发明一实施例中原始信号和不同信噪比下波形。

图9是本发明一实施例中使用原始数据的MFCC、GFCC和MFCC-GFCC特征的四种机器学习方法的比较。

图10是本发明一实施例中不同信噪比下多种方法的水声目标识别结果；其中：(a)SVM；(b)GRNN；(c)3-CNN；(d)ResNet18。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于特征融合和残差CNN的水声目标识别方法，包括如下步骤：

步骤1：获取目标水声的音频数据，提取音频数据的MFCC特征参数和GFCC特征参数，用于残差CNN的训练和测试；

步骤2：通过领域成分分析法实现MFCC特征参数和GFCC特征参数的降维，筛选出重要性较高的特征参数；

步骤3：将筛选出的MFCC特征参数和GFCC特征参数融合后，输入残差CNN模型，训练残差CNN模型，并进行分类识别。

进一步的，步骤1中的提取音频数据的MFCC特征参数，包括如下步骤：

步骤101：将音频数据进行预处理，预处理的过程包括预加重，分帧和加窗。

其中预加重是通过提升信号高频部分的频谱，使信号的频谱变得更加平缓。分帧可以将信号划分为若干个短时段的信号，在短时段内信号可看作平稳过程。在分帧过程中，采用重叠分段的办法，使得帧与帧之间过度平滑。加窗则是为了减小信号的截断效应，设信号为s(n)，窗函数为w(n)。加窗后得到的信号s'(n)为：

s'(n)＝s(n)w(n),0≤n≤N-1 (1)

其中，N为样点数，w(n)通常取海明窗。

步骤102：预处理完成后，对每帧信号做FFT得到频谱。

对每帧信号做FFT得到信号的离散频谱S'_a(k)为：

步骤103：将频谱通过一组三角带通滤波器滤波得到Mel滤波。

设有M个滤波器，中心频率为f(m)，其中，m＝1,2,…,M。三角滤波器的公式为：

步骤104：计算每个滤波器输出的对数能量。

步骤105：将计算得到的对数能量进行离散余弦变换，求出L阶的MFCC。

通常L取12～16，其中，离散余弦变换公式为:

步骤106：根据L个MFCC倒谱系数值计算一阶倒谱差分参数和二阶倒谱差分参数(Delta Cepstrum)。

公式如下：

式中，d表示第n个一阶差分结果，C_n表示经过(5)式计算得到的第n个倒谱系数，L表示求取MFCC时的阶数，K表示一阶导数的时间差，可取1或2。将计算结果再带入(6)时可以得到二阶差分结果。

步骤107：将MFCC、计算得到的一阶倒谱差分参数和二阶倒谱差分参数这三部分参数组合作为信号的特征向量，用于残差CNN的训练和测试。

更进一步的，步骤1中GFCC特征参数的提取过程与MFCC特征参数的提取过程基本相似，差别在于将Mel三角滤波器组换为Gammatone滤波器组。

Gammatone滤波器是一种基于标准耳蜗结构的滤波器^[18]，其时域表达式如下：

式中，A为滤波器的增益；f_i为滤波器的中心频率；U(t)为阶跃函数；φ_i为偏移相位，而人耳对相位偏移不敏感，因此为了简化模型，本发明取为0；n为滤波器的阶数；N为滤波器数量；b_i为滤波器的衰减因子，它将决定当前滤波器对脉冲响应的衰减速度，与中心频率的对应关系如下：

b_i＝1.019b_EBR(f_i) (8)

式中，b_EBR(f_i)为等效矩形带宽，与中心频率f_i的关系如下所示：

本发明中选用滤波阶数n＝4，滤波器数量N＝64，经过上面的提取过程得到特征参数G_n。同样地，为了显示声音的动态特性，本发明对GFCC的一阶差分ΔGFCC进行二次特征提取ΔGFCC的计算方式同MFCC，通过计算当前帧前后两帧变化得到特征参数ΔGn。

进一步的，步骤2中的领域成分分析法的实现过程如下：

假设现有数据集S＝{(x_i,y_i),i＝1,2,…,n}，其中x_i为样本，样本维度为p，y_i为对应类标。在数据集中随机选取一个参考点x_i，并认为下一个x_j的类别与x_i相同。这本质上相当于一个1-近邻分类器。参考点x_i从数据集中被选出的为P(Ref(x)＝x_j|S)，另一个点x_j被选出做参考点的与上一个参考点的距离有关，定义两者距离公式如下

其中w_r为特征权重值。假设被选中的概率与上一个参考点的距离相关，即：

P(Ref(x)＝x_j|S)∝k(d_w(x,x_j)) (11)

其中k为表示两点距离的核函数，当d_w(x,x_j)很小，即距离很近时，k值很大。公式如下：

由于x属于数据集S，因此P(Ref(x)＝x_j|S)的和应为1。

用留一法对上述的随机分类器进行测试，即预留测试样本(x_i,y_i)，数据集中的其它样本作为训练集，那么测试点x_i被相同类别参考点选中的为：

随机分类器使用留一法正确分类测试样本的平均为：

其中当y_i与y_j相等时，l为1，否则为0。则上式化简如下：

其中

那么在整个样本中随机分类器正确分类简写如下

再增加惩罚项，调节模型复杂度

根据梯度下降算法训练模型，即可得到特征的重要性权值。

进一步的，步骤3中的MFCC特征参数和GFCC特征参数融合过程如下：

Gammatone滤波器主要是根据基底膜上的频率感应而设计的，只要少量的几个参数就能拟合出抗干扰性强的特征参数，Mel滤波器是根据人耳听觉特征设计的，因此为了提高特征参数的抗噪性，本发明将MFCC和GFCC作为特征融合参数，如式(20)所示：

M_mix＝[(C₁,C₂,…,C_m),(G₁,G₂,…,G_n)] (20)

式中，C_m和G_n分别为从MFCC、GFCC中选取的特征参数。

进一步的，步骤3中残差CNN模型具体为：

作为残差CNN中的代表性模型，ResNet18模型有着优异的识别性能，本发明中采用ResNet18作为主干网络，首先有一个7×7的卷积层，后续有四个ResBlock，紧接着有一个池化层和一个全连接层。本发明采用的CNN模型框架如图3所示，为了适应水声数据特征，本发明采用的CNN模型去掉原始ResNet18模型中的池化层，从而保留输入数据中的更多特征信息。

实施例1

本实施例选取5种目标声信号样本，包括4类不同的船只目标和1类环境噪声：小型船、摩托艇、客船、远洋船和自然声音。数据是利用自容式水听器对码头上往来的船只噪声信号进行采集，以获得不同船速下的噪声以及与进坞或离坞时的空化噪声。各个类型目标初始信号如图4所示。

(1)特征提取

在提取MFCC特征的过程中，首先将音频数据进行分段，每段256个样本，每段偏移128个样本，设置20组滤波器，并求取其一阶差分系数和二阶差分系数，从而使每段数据得到一个1*36的特征向量。多种声目标均选取2.5s声音数据为例，其MFCC特征如图5所示。

在提取GFCC特征的过程中，同样先将音频数据进行分段，每段256个样本，每段偏移128个样本，采用4阶滤波器，设置64组滤波器，并求取其一阶差分系数和二阶差分系数，从而使每段数据得到一个1*93的特征向量。多种声目标同样均选取2.5s声音数据为例，其GFCC特征分别如图6所示。

本实施例中各个类型声目标均提取到6250段的GFCC和MFCC特征，每种目标均包含1250个样本，各个类别均选取其中3/4的数据用于模型的训练，剩余的1/4用于模型的测试。

对于特征融合，为避免特征参数混合后带来维数过高的问题，本实施例采用NCA方法实现特征降维，筛选出其中重要性较高的特征用于混合，图7为GFCC和MFCC的NCA特征筛选图，将其中重要性非0的特征挑出，作为NCA降维后的特征，通过筛选后，GFCC特征由93维降至53维，MFCC特征由36维降至17维。本实施例输入为音频数据的GFCC和MFCC特征的融合特征，将筛选后的GFCC和MFCC特征作为特征向量输入机器学习模型中，进行分类识别。

(2)识别结果

在实际应用中，海洋往往存在不同程度的环境噪声，本实施例还分析了该方法在不同信噪比下的识别性能，对原始声信号添加高斯白噪声，以小型船的原始信号和不同信噪比下信号的波形为例，如图8所示，可得到信噪比越低，信号中出现的毛刺越多。

本实施例将支持向量机、GRNN和普通CNN模型作为对比模型。对SVM模型，本实施例将径向基函数作为核函数。对GRNN模型，本实施例使用k折交叉验证方法实现扩展因子的优化，k取10。对普通CNN模型，层数较浅，包括3个卷积层，表示为3-CNN。将筛选后的GFCC和MFCC特征相融合，得到70维的向量。对SVM和GRNN模型，即可将该特征向量输入机器学习模型中，进行分类识别。对3-CNN和ResNet18模型，本实施例将特征向量转化为维度5*14的二维矩阵，作为输入特征。

本实施例中将识别准确度作为估计结果的衡量指标，公式如下：

其中，N为样本数量，

为N个样本中正确识别的样本数量。

图9显示了使用原始数据的MFCC、GFCC和MFCC-GFCC特征的四种机器学习方法的比较。结果表明，在无添加噪声的场景中，相比GFCC特征，输入MFCC特征的识别准确度较高。由于MFCC-GFCC特征结合了MFCC和GFCC中重要性较大的特征，所以，输入MFCC-GFCC特征的识别结果最好。相比传统机器学习模型，由于神经网络模型的特征挖掘能力较好，所以，GRNN、3-CNN和ResNet18模型优于SVM模型。由于GRNN模型有着较好的非线性拟合能力，且仅有一个网络参数需要优化，所以，相比浅层CNN模型，GRNN模型识别性能较好。相比GRNN模型，属于深度残差CNN的ResNet18模型可挖掘出更丰富的深层特征，所以，ResNet18模型识别性能较好。

本实施例还对比了多种方法在不同信噪比场景下MFCC、GFCC和两种特征融合后的特征参数的识别性能，所得实验结果如图10所示。由于Gammatone滤波器组是基于ERB频域对人类听觉仿生进行建模，相比于Mel尺度，ERB尺度在低频带范围具有更高的分辨率，而舰船类水下目标大部分能量分布在较低的频率范围，且GFCC特征提取中的立方根非线性压缩优于MFCC中的对数压缩，所以，GFCC更加适用于舰船等水下声学目标的特征提取。结果表明，在低信噪比条件下，MFCC的识别准确度大幅度下降，抗噪性能较差；而GFCC的识别准确度下降比较缓慢，抗噪性能较好。由于MFCC-GFCC-ResNet18模型充分发挥了特征融合优势和残差CNN的特征挖掘能力，所以，相比其它模型，该模型识别结果较好，并且在低信噪比下仍可实现稳健识别，在0dB时，仍可达到90.15％的识别准确度。

综上所述，本发明提出的基于特征融合和残差CNN的识别模型在不同信噪比下的识别准确度均明显高于其他模型，且受信噪比的影响程度也小于其他方法。

此外，虽然本发明将该方法用于船舶识别，但并不限于此，在被动声学领域中，该方法还适用于其它目标声音识别中，如自然声音和水下发声生物识别。

需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。