CN114565828A

CN114565828A - 一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法

Info

Publication number: CN114565828A
Application number: CN202210170623.8A
Authority: CN
Inventors: 王兴梅; 刘洋涛; 米佳琛; 田兆楠; 孙润泽
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-31
Anticipated expiration: 2042-02-24
Also published as: CN114565828B

Abstract

本发明属于水下目标识别技术领域，具体涉及一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法。本发明通过构建自监督SAE模型，完成从FBank特征到GBank特征的空间转换重构，学习具有良好声纹特性和抗噪鲁棒性的SAE Spec特征；通过基于AEMU模块的负样本挖掘策略，使用动态队列字典对负样本进行动态更新存储，提高了负样本学习的效率；利用改进的CE Loss函数将AEMU模块与SAE模型结合，构建AEMU‑SAE模型，使特征转换重构和特征负样本学习统一在AEMU‑SAE模型中，保证AEMU‑SAE模型能够在特征对抗增强过程中学习到包含高级语义信息的ASAE Spec特征，将ASAE Spec特征分别作为MLP模型和MLR模型的输入，通过多分类目标识别模型对识别任务进行处理，最终完成水下目标识别。

Description

一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法

技术领域

本发明属于水下目标识别技术领域，具体涉及一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法。

背景技术

近年来基于声信号的水下目标识别技术得到飞速发展，在各个领域都扮演着十分关键的角色。不过依然存在许多问题，一方面水下环境声信号复杂程度远大于陆地环境，提高了高质量海洋目标样本的标注成本；另一方面水体和地形的不均匀起伏导致水下声信号在海洋远距离传播过程中发生波形畸变、随机波动、信号衰减等现象，使得针对目标样本提取的单一特征类泛化能力较弱，很多适用于陆地声信号的目标识别算法无法应用于水下环境中。因此，国内外学者对水下目标识别进行了深入的分析研究，取得了相关突破。其中在已有的文献中最著名和效果的水下目标识别方法主要包括：1.基于伽马频率倒谱系数的水声目标识别方法研究：2018年Zhang W,Wu Y,Wang D,et al.Underwater target featureextraction and classification based on gammatone filter and machinelearning.International Conference on Wavelet Analysis and PatternRecognition,Chengdu,China.2018,95:42-47.提出将伽马频率倒谱系数作为水下目标识别的信号特征，通过支持向量机和决策树等19种不同的机器学习分类模型对多种特征进行综合比较，最终证明伽马频率倒谱系数具有更为显著的抗噪鲁棒性能。2.基于卷积神经网络和极限学习机的水下目标识别方法研究：2018年Hu G,Wang K,Peng Y,et al.Deeplearning methods for underwater target feature extraction andrecognition.Computational intelligence and neuroscience,2018,18(3):1-10.提出一种基于卷积神经网络和极限学习机的水声数据特征提取和识别方法，该方法将卷积神经网络的深度和鲁棒性特征提取能力与极限学习机出色的分类能力有效结合，最终达到93.04％的识别准确率。3.基于多维融合特征与改进深度神经网络的水下目标识别方法研究：2019年Wang X,Liu A,Zhang Y,et al.Underwater acoustic target recognition:acombination of multi-dimensional fusion features and modified deep neuralnetwork.Remote Sensing,2019,11(16):1888-1890.提出结合伽马频率倒谱系数和改进经验模态分解的多维特征，利用高斯混合模型对深度神经网络进行改进的水声目标识别，最终提高了水下目标识别任务的准确率。

自监督学习是一种知识迁移机制，主要是提出一种自动打标签的辅助任务，利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。自监督学习作为提高神经网络特征学习能力的方法在难以获取高质量样本的场景中广泛应用，其在已有的文献中最著名的自监督学习方法主要包括：1.基于对比预测编码算法的声特征学习方法研究：2018年Oord A,Li Y,Vinyals O.Representation learning with contrastive predictivecoding.arXiv,2018,7(3748):2-3.提出利用自监督方法构造过去随机抽样帧预测未来帧的辅助任务，并通过自回归模型提取对比预测编码，同时将编码作为信息表征应用于语音、图像、文本和强化学习中，最终取得优异的性能表现。2.基于自监督多任务的无关声特征学习方法研究：2019年Pascual S,Ravanelli M,Serra J,et al.Learning problem-agnostic speech representations from multiple self-supervised tasks.arXiv,2019,4(3416):1-12.提出使用卷积编码网络从原始声信号中学习声特征，并同时使用这些特征构建自监督任务训练网络模型，最终通过自监督任务学习得到的声特征可以提高说话人识别、情感分类和自动语音识别任务的性能。3.基于双向编码器网络的自监督声特征学习方法研究：2020年Wang W,Tang Q,Livescu K.Unsupervised pre-training ofbidirectional speech encoders via masked reconstruction.IEEE InternationalConference on Acoustics,Speech and Signal Processing.Virtual Site.2020,156:6889-6893.提出一种通过遮掩重建损失预训练语音表征的方法，利用双向编码器网络进行自监督重建任务，最终在LibriSpeech和华尔街日报语料库上均展现了十分优异的语音识别表现。

发明内容

本发明的目的在于提供能更好的提高水下目标识别精度、任务适应性和抗噪鲁棒性的一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法。

一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法，包括以下步骤：

步骤1：获取已识别的原始水下声信号数据集，对数据集中的原始水下声信号进行FBank特征和GBank特征提取；

对原始水下声信号进行预加重、分帧、加窗、短时傅里叶变换后，再分别利用梅尔滤波器组和伽马滤波器组提取具有良好声纹区分性优势的FBank特征和具有抗噪鲁棒性优势的GBank特征；

FBank特征为：

其中，s(n)是帧信息；N是帧的总数量；m是特征阶数；L是特征总阶数；M是梅尔滤波器个数；

GBank特征为：

其中，i是帧编号；E_S(i)代表帧能谱信息；I是帧的总数量；n是特征阶数；Q是伽马滤波器个数；

步骤2：通过包含原始水下声信号FBank特征和GBank特征的数据集，训练AEMU-SAE模型；

所述AEMU-SAE模型包括随机高斯噪声嵌入模块、编码器模块、解码器模块、AEMU模块，具体训练过程为：

步骤2.1：随机高斯噪声嵌入模块在训练过程中产生随机高斯噪声，原始水下声信号的FBank特征与随机高斯噪声混叠后，输入至编码器模块；

步骤2.2：编码器模块输出ASAE Spec特征，并将其输入至解码器模块；

步骤2.3：解码器模块通过上采样过程，将编码器模块的输出结果重构为伪GBank特征，并输入至AEMU模块；

步骤2.4：AEMU模块执行负样本挖掘策略，以动态队列字典形式存储大量来自原始数据空间的负样本，在训练过程中，通过关键词查询的方式直接从字典中取样，每一次迭代中，小批次样本集通过出队入队的方式更新字典，从而提高负样本的学习效率；

AEMU模块将伪GBank特征与真实的GBank特征进行空间相似度的损失计算，达到训练模型的目的；

损失函数采用改进的CE Loss损失函数，具体为：

其中，τ是温度超参数系数；sim(·)表示特征相似性函数，即CE Loss函数；f(x_i)和f(x_j)表示正样本对，即重构的伪GBank特征和同源的真实GBank特征；f(x_i)和f(x_k)表示负样本对，即重构的伪GBank特征和非同源的真实GBank特征；最小化l即表示最小化正样本对的互信息间距，并最大化负样本对的互信息间距，保证AEMU-SAE模型学习到包含高级语义信息的ASAE Spec特征；

步骤3：将待识别的原始水下声信号数据进行FBank特征提取后输入至训练好的AEMU-SAE模型的编码器模块中，得到包含高级语义信息的ASAE Spec特征；将ASAE Spec特征分别作为MLP模型和MLR模型的输入，通过多分类目标识别模型对识别任务进行处理，最终完成水下目标识别。

进一步地，所述步骤2.1中随机高斯噪声嵌入模块在训练过程中产生的随机高斯噪声具体为：

其中，z为噪声信息，μ为噪声期望，σ为噪声方差。

进一步地，所述步骤2.4中特征相似性函数sim(·)，即CE Loss函数具体为：

其中，margin是防止过拟合的特征相似度最小阈值；x_i和x_j分别代表重构的伪GBank特征和真实的GBank特征经一维映射展开后的矢量对；y代表是自动产生的正负样本伪标签，计算得到的损失值可以看作是重构的伪GBank特征和真实的GBank特征在听觉空间中的相似度。

进一步地，所述步骤2中AEMU-SAE模型的训练优化算法采用Adam算法，具体为：

其中，

为偏差修正的一阶矩估计；

为偏差修正的二阶矩估计；ε是防止实现过程中出现除零错；η为学习率，负责控制权重的更新比率。

本发明的有益效果在于：

本发明通过构建自监督SAE模型，完成从FBank特征到GBank特征的空间转换重构，学习具有良好声纹特性和抗噪鲁棒性的SAE Spec特征，解决了高质量水下目标样本标注成本极高且提取的单一特征类在海洋场景中的泛化能力较弱等问题。本发明提出基于AEMU模块的负样本挖掘策略，使用动态队列字典对负样本进行动态更新存储，提高了负样本学习的效率。本发明利用改进的CE Loss函数将AEMU模块与SAE模型结合，构建AEMU-SAE模型，使特征转换重构和特征负样本学习统一在AEMU-SAE模型中，保证AEMU-SAE模型能够在特征对抗增强过程中学习到包含高级语义信息的ASAE Spec特征，将ASAE Spec特征分别作为MLP模型和MLR模型的输入，通过多分类目标识别模型对识别任务进行处理，最终完成水下目标识别。

附图说明

图1是本发明的流程图。

图2(a)～图2(c)是实际收集的水下声信号目标数据集中随机选取的水下哺乳动物类频谱实例图，图2(a)是FBank特征频谱实例图，图2(b)是GBank特征频谱实例图，图2(c)是原始频谱实例图。

图3是本发明提出的自监督SAE模型结构图。

图4(a)～图4(d)是SAE模型的随机高斯噪声嵌入模块消融实验对比图，图4(a)是实际收集的水下声信号目标数据集在MLP模型上的消融实验对比图，图4(b)是ShipsEar数据集在MLP模型上的消融实验对比图，图4(c)是实际收集的水下声信号目标数据集在MLR模型上的消融实验对比图，图4(d)是ShipsEar数据集在MLR模型上的消融实验对比图。

图5(a)～图5(d)是AEMU模块的消融实验对比图，图5(a)是实际收集的水下声信号目标数据集在MLP模型上的AEMU模块消融实验对比图，图5(b)是ShipsEar数据集在MLP模型上的AEMU模块消融实验对比图，图5(c)是实际收集的水下声信号目标数据集在MLR模型上的AEMU模块消融实验对比图，图5(d)是ShipsEar数据集在MLR模型上的AEMU模块消融实验对比图。

图6是本发明提出的AEMU-SAE模型结构图。

图7(a)～图7(d)是本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征，与SAESpec特征以及FBank特征、GBank特征、MFCC特征和GFCC特征的识别精度对比图，图7(a)是实际收集的水下声信号目标数据集在MLP模型上的识别精度对比图，图7(b)是ShipsEar数据集在MLP模型上的识别精度对比图，图7(c)是实际收集的水下声信号目标数据集在MLR模型上的识别精度对比图，图7(d)是ShipsEar数据集在MLR模型上的识别精度对比图。

图8(a)～图8(d)是极大迭代次数为500Epochs时，本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征，与SAE Spec特征、FBank特征、GBank特征、MFCC特征和GFCC特征分别在MLP模型和MLR模型上的训练损失曲线对比图，图8(a)是实际收集的水下声信号目标数据集在MLP模型上的训练损失曲线对比图，图8(b)是ShipsEar数据集在MLP模型上的训练损失曲线对比图，图8(c)是实际收集的水下声信号目标数据集在MLR模型上的训练损失曲线对比图，图8(d)是ShipsEar数据集在MLR模型上的训练损失曲线对比图。

图9(a)～图9(d)给出本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征，与SAE Spec特征、FBank特征、GBank特征、MFCC特征和GFCC特征在水下目标识别任务的抗噪鲁棒性对比图，图9(a)是添加背景噪声的实际收集的水下声信号目标数据集在MLP模型上的识别精度对比图，图9(b)是添加背景噪声ShipsEar数据集在MLP模型上的识别精度对比图，图9(c)是添加背景噪声的实际收集的水下声信号目标数据集在MLR模型上的识别精度对比图，图9(d)是添加背景噪声ShipsEar数据集在MLR模型上的识别精度对比图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提供的是一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法。包括如下步骤：(1)对原始水下声信号进行声纹特征和听觉特征提取；(2)提出构建自监督空间编码器(SpaceAuto-Encoder，SAE)模型；(3)提出基于声嵌入记忆单元(Acoustic-Embedding Memory Unit，AEMU)模块的负样本挖掘策略；(4)完成基于声嵌入记忆空间编码器(Acoustic-Embedding Memory Unit Modified Space Auto-Encoder，AEMU-SAE)模型的特征对抗增强水下目标识别方法。本发明为了取得更好的水下声信号目标识别效果，提出一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法。即原始水下声信号提取具有声纹特性的梅尔滤波器组声谱图(Mel Filter-bank，FBank)特征和听觉特性的伽马滤波器组声谱图(Gammatone Filter-bank，GBank)特征；为解决高质量水下目标样本标注成本极高且提取的单一特征类在海洋场景中的泛化能力较弱等问题，提出构建自监督SAE模型，通过完成从FBank特征到GBank特征的空间转换重构，学习具有良好声纹特性和抗噪鲁棒性的空间编码器谱图(Space Auto-Encoder Spectrogram，SAE Spec)特征；针对SAE模型负样本学习不足的问题，提出基于AEMU模块的负样本挖掘策略，使用动态队列字典对负样本进行动态更新存储，提高负样本学习的效率；在此基础上，为解决SAESpec特征在高级语义信息上的缺失问题，提出利用改进的余弦嵌入损失(CosineEmbedding Loss，CE Loss)函数将AEMU模块与SAE模型结合，构建AEMU-SAE模型，使特征转换重构和特征负样本学习统一在AEMU-SAE模型中，保证AEMU-SAE模型能够在特征对抗增强过程中学习到包含高级语义信息的声嵌入记忆空间编码器谱图(Acoustic-EmbeddingMemory Unit Modified Space Auto-Encoder Spectrogram，ASAE Spec)特征，将ASAESpec特征分别作为多层感知机(Multi-Layer Perceptron，MLP)模型和多分类逻辑回归(Multinomial Logistic Regression，MLR)模型的输入，通过多分类目标识别模型对识别任务进行处理，最终完成水下目标识别。本发明提出的基于AEMU-SAE模型的特征对抗增强水下目标识别方法，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。

FBank特征为：

GBank特征为：

AEMU-SAE模型的训练优化算法采用Adam算法，具体为：

其中，

为偏差修正的一阶矩估计；

随机高斯噪声嵌入模块在训练过程中产生的随机高斯噪声具体为：

其中，z为噪声信息，μ为噪声期望，σ为噪声方差。

损失函数采用改进的CE Loss损失函数，具体为：

其中，τ是温度超参数系数；sim(·)表示特征相似性函数，即CE Loss函数；f(x_i)和f(x_j)表示正样本对，即重构的伪GBank特征和同源的真实GBank特征；f(x_i)和f(x_k)表示负样本对，即重构的伪GBank特征和非同源的真实GBank特征；最小化e即表示最小化正样本对的互信息间距，并最大化负样本对的互信息间距，保证AEMU-SAE模型学习到包含高级语义信息的ASAE Spec特征；

特征相似性函数sim(·)，即CE Loss函数具体为：

其中，margin是防止过拟合的特征相似度最小阈值；x_i和x_j分别代表重构的伪GBank特征和真实的GBank特征经一维映射展开后的矢量对；y代表是自动产生的正负样本伪标签，计算得到的损失值可以看作是重构的伪GBank特征和真实的GBank特征在听觉空间中的相似度；

实施例1：

本发明在实现过程中包括如下步骤：

(1)对原始水下声信号进行FBank特征和GBank特征提取：①对原始水下声信号利用梅尔滤波器组提取具有良好声纹区分性优势的FBank特征；②对原始水下声信号利用伽马滤波器组提取具有抗噪鲁棒性优势的GBank特征；

(2)提出构建自监督SAE模型：①以类动物发声听觉系统的方式结合FBank特征的声纹区分性优势和GBank特征的抗噪鲁棒性优势；②通过完成从FBank特征到GBank特征的空间转换重构，学习具有良好声纹特性和抗噪鲁棒性的SAE Spec特征；

(3)提出基于AEMU模块的负样本挖掘策略；

(4)完成基于AEMU-SAE模型的特征对抗增强水下目标识别方法：①利用改进的CELoss函数将AEMU模块与SAE模型结合，构建AEMU-SAE模型，使特征转换重构和特征负样本学习统一在AEMU-SAE模型中，保证AEMU-SAE模型能够在特征对抗增强过程中学习到包含高级语义信息的ASAE Spec特征；②将ASAE Spec特征分别作为MLP模型和MLR模型的输入，通过多分类目标识别模型对识别任务进行处理，最终完成水下目标识别。

本发明还可以包括：

1、在步骤(1)中对原始水下声信号进行预加重、分帧、加窗、短时傅里叶变化，得到基本的语谱图特征。

2、所述步骤(1)中对对语谱图特征利用梅尔滤波器提取FBank特征，具体为

其中n是帧编号，s(n)是帧信息，N是帧的总数量，m是特征阶数，L是特征总阶数，M是梅尔滤波器个数，同时对语谱图特征利用伽马滤波器组提取GBank特征，具体为

其中i是帧编号，E_S(i)代表帧能谱信息，I是帧的总数量，n是特征阶数，Q是伽马滤波器个数。

3、在步骤(2)中根据重构式自监督学习的特点，提出构建的自监督SAE模型包含随机高斯噪声嵌入模块、编码器模块和解码器模块。

4、所述步骤(2)中自监督SAE模型的随机高斯噪声嵌入模块，在训练过程中产生随机高斯噪声，并与FBank特征混叠作为模型输入，以此提升模型抗噪鲁棒性，具体为

其中z为噪声信息，μ为噪声期望，σ为噪声方差。

5、所述步骤(2)中自监督SAE模型的编码器模块获取输入数据，执行包括数据降维和特征权重学习等操作，最后映射到声嵌入空间中，获得比输入数据更小的维度特征空间。

6、所述步骤(2)中自监督SAE模型的解码器模块是以编码器模块处理后的编码结果作为输入数据，通过上采样过程，完成从低维编码特征重构伪GBank特征的任务，并与真实的GBank特征进行空间相似度的损失计算，达到训练模型的目的。

7、所述步骤(2)中自监督SAE模型的损失函数为CE Loss函数，具体为

其中margin是防止过拟合的特征相似度最小阈值，x_i和x_j分别代表重构的伪GBank特征和真实的GBank特征经一维映射展开后的矢量对，y代表是自动产生的正负样本伪标签，计算得到的损失值可以看作是重构的伪GBank特征和真实的GBank特征在听觉空间中的相似度。

8、所述步骤(2)中自监督SAE模型使用Adam算法作为模型的训练优化算法，具体为

其中

为偏差修正的一阶矩估计，

为偏差修正的二阶矩估计，ε是防止实现过程中出现除零错，η称为学习率或步长因子，负责控制权重的更新比率。

9、在步骤(3)中提出基于AEMU模块的负样本挖掘策略，其以动态队列字典形式存储大量来自原始数据空间的负样本，在训练过程中，通过关键词查询的方式直接从字典中取样，每一次迭代中，小批次样本集通过出队入队的方式更新字典。

10、在步骤(4)中由于模型引入特征对抗增强机制，采用改进的CE Loss损失函数，具体为

其中τ是温度超参数系数，sim(·)表示特征相似性函数，f(x_i)和f(x_j)表示正样本对，f(x_i)和f(x_k)表示负样本对，最小化l_i,j即表示最小化正样本对的互信息间距，并且最大化负样本对的互信息间距，保证AEMU-SAE模型学习到包含高级语义信息的ASAE Spec特征。

11、所述步骤(4)中训练好的AEMU-SAE模型提取ASAE Spec特征作为水下目标识别的高级语义信息特征，分别输入至MLP模型和MLR模型中，经由Softmax函数映射转换，最终得到识别结果，完成水下目标识别任务。

本发明与现有技术相比的优点在于：a.传统深度学习方法依赖于大量高质量标注样本集训练模型完成水下目标识别任务，但水下高质量目标样本标注成本极高，影响识别的有效性，而自监督学习模型是通过构建辅助任务自动学习目标特征，根据自监督学习模型无需标签自动学习目标特征的优势，结合水下声信号自身特点，本发明提出基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法；b.为解决高质量水下目标样本标注成本极高且提取的单一特征类在海洋场景中的泛化能力较弱等问题，本发明提出构建自监督SAE模型，通过完成从FBank特征到GBank特征的空间转换重构，学习具有良好声纹特性和抗噪鲁棒性的SAE Spec特征；c.针对自监督SAE模型负样本学习不足的问题，本发明提出基于AEMU模块的负样本挖掘策略，使用动态队列字典对负样本进行动态更新存储，提高了负样本学习的效率；d.为解决SAE Spec特征在高级语义信息上的缺失问题，本发明利用改进的CE Loss函数将AEMU模块与SAE模型结合，构建AEMU-SAE模型，使特征转换重构和特征负样本学习统一在AEMU-SAE模型中，保证AEMU-SAE模型能够在特征对抗增强过程中学习到包含高级语义信息的ASAE Spec特征，将ASAE Spec特征分别作为MLP模型和MLR模型的输入，通过多分类目标识别模型对识别任务进行处理，最终完成水下目标识别。

本发明提出的基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。

实施例2：

结合图1，本发明的具体步骤如下：

(1)对原始水下声信号进行声纹特征和听觉特征提取

本发明共采用两个数据集，一是实际收集的水下声信号目标数据集，该数据集分为5类，包括4种类型的船舶和水下哺乳动物声音数据集，总大小接近20小时，每个声信号被分为多段时长为2秒的短语音。另一个是来自2012年至2013年间在西班牙海岸不同地区录制的ShipsEar船舰噪声数据集，该数据集共有15s到10min以内的11种舰船类型共计90条记录，按照数据集原文的标注，根据舰船种类可以将它们合并为A、B、C、D各4个大类。

对原始水下声信号进行预加重、分帧、加窗、短时傅里叶变换后，再分别利用梅尔滤波器组和伽马滤波器组提取具有良好声纹区分性优势的FBank特征和具有抗噪鲁棒性优势的GBank特征。

利用梅尔滤波器提取FBank特征为：

式中，s(n)是帧信息，N是帧的总数量，m是特征阶数，L是特征总阶数，M是梅尔滤波器个数。

利用伽马滤波器组提取GBank特征为：

式中，i是帧编号，E_S(i)代表帧能谱信息，I是帧的总数量，n是特征阶数，Q是伽马滤波器个数。

图2是实际收集的水下声信号目标数据集中随机选取的水下哺乳动物类频谱实例图，其中图2(a)是FBank特征频谱实例图，图2(b)是GBank特征频谱实例图，图2(c)是原始频谱实例图。

(2)提出构建自监督SAE模型

由于高质量水下目标样本标注成本极高且提取的单一特征类在海洋场景中的泛化能力较弱，因此提出构建自监督SAE模型，依据类动物发声听觉系统的自监督辅助任务，完成从FBank特征到GBank特征的空间转换重构，将FBank特征的声纹区分性优势和GBank特征的抗噪鲁棒性优势结合起来，学习具有良好声纹特性和抗噪鲁棒性的SAE Spec特征。根据重构式自监督学习的特点，提出构建的自监督SAE模型包括随机高斯噪声嵌入模块、编码器模块和解码器模块，采用CE Loss函数作为模型的损失函数，并使用Adam算法作为模型的训练优化算法。图3是本发明提出的自监督SAE模型结构图。

①随机高斯噪声嵌入模块

为了使SAE模型具有更强的任务处理能力以及抗噪鲁棒性，在数据输入层添加一个并列的随机高斯噪声嵌入模块。在模型训练时，随机高斯噪声嵌入模块产生随机高斯噪声并与FBank特征一起输入到模型中，通过附着噪声在原始水下声信号上，使得SAE模型基于拟动物发声听觉系统的辅助任务设计变得有意义，另外，输入信息增加噪声的训练方式能够更好地提升SAE模型的抗噪鲁棒性，从而提高下游水下目标识别任务的抗噪性能表现。

随机高斯噪声具体为：

式中，z为噪声信息，μ为噪声期望，σ为噪声方差。

为了验证随机高斯噪声嵌入模块对于声特征抗噪鲁棒性的提升作用，在实际收集的水下声信号目标数据集和ShipsEar数据集进行了15组消融实验设计，比较含有随机高斯噪声模块的SAE模型学习得到的SAE Spec特征和不含有随机高斯噪声模块的空间编码器(Un-robust Space Auto-Encoder，USAE)模型学习得到的非鲁棒空间编码器谱图特征(Un-robust Space Auto-Encoder Spectrogram，USAE Spec)在MLP模型和MLR模型上的抗噪鲁棒性表现，图4是SAE模型的随机高斯噪声嵌入模块消融实验对比图，其中图4(a)是实际收集的水下声信号目标数据集在MLP模型上的消融实验对比图，图4(b)是ShipsEar数据集在MLP模型上的消融实验对比图，图4(c)是实际收集的水下声信号目标数据集在MLR模型上的消融实验对比图，图4(d)是ShipsEar数据集在MLR模型上的消融实验对比图。从图4中可以看出，尽管SAE Spec特征的识别精度和USAE Spec特征的识别精度在MLP模型和MLR模型上均出现了细微的波动，但是SAE Spec特征的抗噪鲁棒性优势依旧明显。图4(a)和图4(b)中，在MLP模型中，实际收集的水下声信号目标数据集和ShipsEar数据集上SAE Spec特征的识别精度均高出USAE Sepc特征的识别精度约2.10％。图4(c)和图4(d)中，在MLR模型中，实际收集的水下声信号目标数据集和ShipsEar数据集上SAE Spec特征的识别精度分别高出USAE Sepc特征的识别精度约2.05％和2.12％。综上所述，SAE Spe特征在15组消融对比实验中的识别精度表现均优于USAE Spec特征，从而验证了随机高斯噪声嵌入模块对于水下目标识别任务的声特征抗噪鲁棒性具有提升作用。

②编码器模块

自监督SAE模型的编码器模块获取输入数据，执行包括数据降维和特征权重学习等操作，最后映射到声嵌入空间中，获得比输入数据更小的维度特征空间。编码器模块是一个卷神经网络结构，其结构类似于常见的ResNet50模型。编码器模块共5个Stage，每个stage中都包含了3卷积层的残差模块。

编码器模块的原理，有：

z_i＝f(x_i)

式中，x_i代表第i个输入样本，z_i代表编码器得到的第i个声嵌入，f(·)代表编码器模块。

③解码器模块

自监督SAE模型的解码器模块是以编码器模块处理后的编码结果作为输入数据，通过上采样过程，完成从低维编码特征重构伪GBank特征的任务，并与真实的GBank特征进行空间相似度的损失计算，达到训练模型的目的。

解码器模块的原理为：

r_i＝g(z_i)

式中，z_i代表编码器输出的第i个声嵌入，r_i代表解码器得到的第i个伪GBank特征，g(·)代表解码器模块。

④CE Loss函数和Adam优化算法

由于水下目标识别任务的数据集采集工作比较困难，数据集大都呈现类别分布不均衡的问题，另外，自监督SAE算法中所处理的任务为特征重构辅助任务，使用CE Loss作为损失函数能够更好地进行特征向量相似度量，避免过拟合现象，CE Loss损失函数定义为：

式中，margin是防止过拟合的特征相似度最小差值，x_i和x_j分别代表重构的伪GBank特征和真实的GBank特征经一维映射展开后的矢量对，y代表是自动产生的正负样本伪标签，计算得到的损失值可以看作是重构的伪GBank特征和真实的GBank特征在听觉空间中的相似度。

自监督SAE模型使用Adam算法作为模型的训练优化算法，Adam算法的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。具体为：

式中，

为偏差修正的一阶矩估计，

(3)提出基于AEMU模块的负样本挖掘策略

提出基于AEMU模块的负样本挖掘策略，其以动态队列字典形式存储大量来自原始数据空间的负样本，在训练过程中，通过关键词查询的方式直接从字典中取样，每一次迭代中，小批次样本集通过出队入队的方式更新字典，从而提高负样本的学习效率。

为了验证AEMU模块对于负样本学习的提升作用，在实际收集的水下声信号目标数据集和ShipsEar数据集进行了8组消融实验设计，比较不同大小规模的AEMU模块学习得到ASAE Spec特征在MLP模型和MLR模型上的识别精度，图5是AEMU模块的消融实验对比图，其中图5(a)是实际收集的水下声信号目标数据集在MLP模型上的AEMU模块消融实验对比图，图5(b)是ShipsEar数据集在MLP模型上的AEMU模块消融实验对比图，图5(c)是实际收集的水下声信号目标数据集在MLR模型上的AEMU模块消融实验对比图，图5(d)是ShipsEar数据集在MLR模型上的AEMU模块消融实验对比图。从图5中可以看出，ASAE Spec特征在MLP模型和MLR模型的识别精度随着AEMU模块的大小不同而不同，具体数据集的识别精度与AEMU模块大小呈现正相关，当AEMU模块大小超过256以后，ASAE Spec特征的识别精度逐渐趋于平稳。综合上述ASAE Spec特征在MLP模型和MLR模型水下目标识别任务上的表现，验证了AEMU模块对于负样本学习的提升作用。

(4)完成基于AEMU-SAE模型的特征对抗增强水下目标识别

①构建AEMU-SAE模型

利用改进的CE Loss函数将AEMU模块与SAE模型结合，构建AEMU-SAE模型，使特征转换重构和特征负样本学习统一在AEMU-SAE模型中，保证AEMU-SAE模型能够在特征对抗增强过程中学习到包含高级语义信息的ASAE Spec特征，图6是本发明提出的AEMU-SAE模型结构图。

改进后的CE Loss函数具体为：

式中：τ是温度超参数系数，sim(·)表示特征相似性函数，f(x_i)和f(x_j)表示正样本对，f(x_i)和f(x_k)表示负样本对，最小化l_i,j即表示最小化正样本对的互信息间距，并且最大化负样本对的互信息间距。

②利用ASAE Spec特征完成较准确的水下目标识别

训练好的AEMU-SAE模型提取ASAE Spec特征作为水下目标识别的高级语义信息特征，分别输入至MLP模型和MLR模型中，经由Softmax函数映射转换得到识别的概率分布，最终输出识别的结果。

识别准确率(Accuracy，Acc.)、收敛速度(Recognition Loss Convergence Rate，CLCR)和抗噪鲁棒性(Anti-Noise Robust，ANR)三大指标是ASAE Spec特征完成水下目标识别任务的性能评价标准。Acc.是最基本的性能评价指标，用于验证当前特征在下游水下目标识别任务中的识别正确率。CLCR是验证当前模型是否能够学习含有高级语音特征的重要指标，其将相同数量级的不同特征样本放到同一个识别模型中进行训练，当模型达到收敛时所需要的轮次(Epochs)即为CLCR。ANR作为水下任务场景的特殊评价指标，用来衡量当前模型处理复杂水下声信号的抗噪鲁棒性强弱。ANR的特殊处理在于需要先将当前海域的背景噪声与各类目标的水下声信号进行融合处理，在此基础上再进行特征提取和目标识别。

为验证本发明提出的一种AEMU-SAE模型的特征对抗增强水下目标识别方法的有效性，给出实际收集的水下声信号目标数据集和ShipsEar数据集在识别精度、收敛速度以及抗噪鲁棒性的实验。图7是本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征，与SAESpec特征以及FBank特征、GBank特征、MFCC特征和GFCC特征的识别精度对比图，其中图7(a)是实际收集的水下声信号目标数据集在MLP模型上的识别精度对比图，图7(b)是ShipsEar数据集在MLP模型上的识别精度对比图，图7(c)是实际收集的水下声信号目标数据集在MLR模型上的识别精度对比图，图7(d)是ShipsEar数据集在MLR模型上的识别精度对比图。从图7中可以得出，本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征在MLP模型和MLR模型上的识别精度都相对最高。SAE模型由于缺少AEMU模块，在自监督学习过程中存在负样本学习不足的问题，造成声特征在高级语义上的缺失，因此在MLP模型和MLR模型上，SAE Spec特征的识别精度低于ASAE Spec特征的识别精度。FBank特征虽具有声纹区分性优势但抗噪鲁棒性较弱，GBank特征具有较强的抗噪鲁棒性但是其声纹区分性不够强，因此这两种特征针对水下目标识别任务的适应性都不够强。MFCC特征和GFCC特征均属于浅层机器学习特征，特征工程复杂且不适用于深度目标识别模型，因此识别精度均低于ASAE Spec特征的识别精度。表1给出训练集和测试集比例为7比3的实际收集的水下声信号目标数据集和ShipsEar数据集，在MLP模型和MLR模型训练迭代次数为80Epochs时，MFCC、GFCC、FBank、GBank、SAE Spec以及ASAE Spec特征的目标识别精度对比结果。

表1各类特征识别精度对比结果

从表1中可以看出，在实际收集的水下声信号目标数据集和ShipsEar数据集上，提取的ASAE Spec特征均要高于其他特征在MLP模型和MLR模型上的识别精度。因此，可以证明本发明提出的AEMU-SAE模型对于水下目标识别具有一定的有效性。

为进一步验证收敛速度，图8给出极大迭代次数为500Epochs时，ASAE Spec特征，与SAE Spec特征、FBank特征、GBank特征、MFCC特征和GFCC特征分别在MLP模型和MLR模型上的训练损失曲线对比图，其中图8(a)是实际收集的水下声信号目标数据集在MLP模型上的训练损失曲线对比图，图8(b)是ShipsEar数据集在MLP模型上的训练损失曲线对比图，图8(c)是实际收集的水下声信号目标数据集在MLR模型上的训练损失曲线对比图，图8(d)是ShipsEar数据集在MLR模型上的训练损失曲线对比图。从图8中可以得出，虽然各类特征的收敛表现都呈现出训练开始时急速下降，而后出现轻微抖动，最终趋于平缓达到局部最优的表现，由于ASAE Spec特征包含更高级的语义，因此ASAE Spec特征的收敛速度表现最佳。表2给出实际收集的水下声信号目标数据集和ShipsEar数据集，MFCC、GFCC、FBank、GBank、SAE Spec以及ASAE Spec特征的收敛速度对比结果。

表2各类特征收敛速度对比结果

从表2可以看出，实际收集的水下声信号目标数据集和ShipsEar数据集中，ASAESpec特征收敛速度表现均优于其他特征。因此，本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征包含更高级的语义。

由于在水下目标识别任务中，模型的抗噪鲁棒性同样是重要的评价指标，因此，以实际采集的水下背景噪声数据集，添加到实际收集的水下声信号目标数据集和ShipsEar数据集中，验证ASAE Spec特征的抗噪鲁棒性，图9给出本发明提出的AEMU-SAE模型学习得到的ASAE Spec特征，与SAE Spec特征、FBank特征、GBank特征、MFCC特征和GFCC特征在水下目标识别任务的抗噪鲁棒性对比图，其中图9(a)是添加背景噪声的实际收集的水下声信号目标数据集在MLP模型上的识别精度对比图，图9(b)是添加背景噪声ShipsEar数据集在MLP模型上的识别精度对比图，图9(c)是添加背景噪声的实际收集的水下声信号目标数据集在MLR模型上的识别精度对比图，图9(d)是添加背景噪声ShipsEar数据集在MLR模型上的识别精度对比图。从图9中可以看出，尽管识别精度都出现了较原始数据集更为剧烈的抖动，并均出现下降，但是ASAE Spec特征的识别精度仍然高于其他特征。因此，ASAE Spec特征的抗噪鲁棒性较好。表3给出了训练集和测试集比例为7比3的将实际采集的水下背景噪声数据集，添加到实际收集的水下声信号目标数据集和ShipsEar数据集中，在MLP模型和MLR模型训练迭代次数为80Epochs时，MFCC、GFCC、FBank、GBank、SAE Spec以及ASAE Spec特征的抗噪鲁棒性对比结果。

表3各类特征抗噪鲁棒性对比结果

从表3可以看出，由于ASAE Spec特征的抗噪鲁棒性最强，因此ASAE Spec特征在实际收集的水下声信号目标数据集和ShipsEar数据集中和将实际采集的水下背景噪声数据集，添加到实际收集的水下声信号目标数据集和ShipsEar数据集中识别精度均要高于其他特征，并且其精度下降率最低。结合表3的识别精度实验对比数据和表4的识别模型收敛速度实验对比数据分析可得，本发明提出的基于AEMU-SAE模型的特征对抗增强水下目标识别方法，在无法获取高质量海洋目标样本且标注成本较高的情况下，可以有效地通过自监督学习结合特征对抗增强的方法提升标签弱且存在较大环境噪声干扰下水下目标识别精度的整体性能。

本发明提出的基于AEMU-SAE模型的特征对抗增强水下目标识别方法，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法，其特征在于，包括以下步骤：

FBank特征为：

GBank特征为：

损失函数采用改进的CE Loss损失函数，具体为：

2.根据权利要求1所述的一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法，其特征在于：所述步骤2.1中随机高斯噪声嵌入模块在训练过程中产生的随机高斯噪声具体为：

其中，z为噪声信息，μ为噪声期望，σ为噪声方差。

3.根据权利要求1所述的一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法，其特征在于：所述步骤2.4中特征相似性函数sim(·)，即CE Loss函数具体为：

4.根据权利要求1所述的一种基于声嵌入记忆空间编码器模型的特征对抗增强水下目标识别方法，其特征在于：所述步骤2中AEMU-SAE模型的训练优化算法采用Adam算法，具体为：

其中，

为偏差修正的一阶矩估计；