CN115293214A

CN115293214A - 一种基于样本扩充网络的水声目标识别模型优化方法

Info

Publication number: CN115293214A
Application number: CN202210988928.XA
Authority: CN
Inventors: 王大宇; 张博轩; 王少博; 陈卫东; 罗恒光; 李晋; 赵天白
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-04

Abstract

本发明提出了一种基于样本扩充网络的水声目标识别模型优化方法，属于水声目标识别模型优化领域。本发明针对目标数据不足导致的分类准确率不高的问题，利用基于掩模的样本生成思想，在保证模型实时效果的前提下，搭建了两对结构完全对称的生成器和判别器，将源域样本映射到目标域。实验结果表明，本发明通过掩模提示思想搭建循环对抗生成网络，在保证模型结构明了的同时，生成了目标域的可靠真实样本，并加入训练集来优化识别模型，提高了识别准确率。

Description

一种基于样本扩充网络的水声目标识别模型优化方法

技术领域

本发明涉及水声目标识别模型优化领域，具体涉及一种基于样本扩充网络的水声目标识别模型优化方法。

背景技术

声呐是至今为止最有效也是最为流行的远程目标探测方法，因为声波是在水介质中传播损失最小的信号。因此，通过声纳收集水下信息来完成水下目标的自动识别依旧是主流方法。被动声呐作为水下识别的一种方式，只接受信号，不发送信号，具有良好的隐蔽性。随着国家海洋战略和国防日益增长的需要，对声呐信号的智能化处理分析依旧是当今各国的研发热点。尤其是在某些无人场合，比如深海领域等。

在当今声呐信号的智能化处理方法中，有一个最基本的需求，就是用大量的数据来训练神经网络。但是由于水下目标存在数据稀少，难以采集的问题，导致样本数据不足，从而严重影响了神经网络的识别效率以及自动化识别装备的水平和性能的发挥。上述问题让声呐信号引入人工智能的想法陷入瓶颈。因此，在声呐信号采集较少的情况下，如何引入先验知识对样本进行扩充并让识别装备保持较高的分类准确率仍是一个极具挑战性的问题。

当前，世界上各个国家的科研人员多在致力于这个方向的深入研究。而我们在该领域起步较晚，发展潜力巨大。传统的水声目标识别方法，不需要大量的声呐信号数据，如线谱分析法、匹配滤波法等。虽然这些方法都取得了较好的识别效果，但它们对声呐的信噪比要求极高，对不同类型的声信号的辨析能力相差较大且检测速度较慢。因此，难以应用于实时且噪声较复杂的场景。而通过利用样本扩充网络，通过引入先验知识对少量水声数据进行扩充，可以通过对抗的方式提高水声目标识别模型性能。同时，扩充的数据也可被用于提高舰船噪声样本的真实性。使用循环生成对抗网络的水声目标样本扩充任务，主要有四个步骤，第一步是对水声样本进行MFCC谱图特征提取，第二步就是利用已知标签的样本特征对2个生成器和4个判别器进行模型训练，第三步就是使用第二步中生成的模型，并通过给定的源域样本生成目标域样本并通过MFCC谱图特征解码器得到音频文件以测试模型，第四步是利用模型进行目标分类，即将第三步中产生的数据加入样本集中用于下游识别模型训练。但是，被动识别水声目标任务中存在的真实样本数量少的问题，从而导致上述方法难以有效实施。

发明内容

针对被动识别水声目标任务中存在的真实样本数量少的问题，本发明提供一种基于样本扩充网络的水声目标识别模型优化方法。

为了实现上述目的，本发明采用的技术方案为：

一种基于样本扩充网络的水声目标识别模型优化方法，包括以下步骤：

(1)使用Mel滤波器组提取目标舰船声信号的Mel频率，计算得到倒谱；

(2)搭建2个在源域样本和目标域样本之间进行转换的生成器和对应的4个判别器，用已知标签的源域样本和目标域样本进行训练；2个生成器为X-Y生成器和Y-X生成器；

(3)模型训练完成后，利用现有目标域样本的Mel频率倒谱系数谱图特征，生成新样本的Mel频率倒谱系数谱图特征，并通过Mel频率倒谱系数谱图特征解码器进行解码，得到新的时域样本和对应的音频文件；

(4)将步骤(3)得到的新的时域样本加入到目标域的样本集中，用于优化识别模型训练，从而提升识别模型的准确率和鲁棒性。

进一步地，步骤(1)的具体方式为：

(101)对源域样本X和目标域样本Y的音频信号求取Mel频率倒谱系数谱图特征；

(102)对Mel频率倒谱系数谱图特征进行归一化和批处理，得到倒谱。

进一步地，步骤(2)的具体方式为：

(201)生成与源域样本X维度相同的掩膜X以及与目标域样本Y维度相同的掩膜Y，将源域样本X和掩模X通过X-Y生成器生成目标域生成样本Y1，再将Y1通过Y-X生成器生成循环样本X2；将目标域样本Y和掩模Y通过Y-X生成器生成源域生成样本X1，再将X1通过X-Y生成器生成循环样本Y2；将源域样本X通过Y-X生成器生成身份样本X3，将目标域样本Y通过X-Y生成器生成身份样本Y3；

(202)通过四个判别器，分别对X1、Y1、X2、Y2进行判别，得到相应的损失函数；再分别对X和X3，Y和Y3计算距离；

(203)固定判别器的参数，利用步骤(202)得到的损失函数和距离，通过Adam优化器来更新生成器的参数；

(204)重新生成X1、Y1、X2、Y2，然后再次对X、Y以及重新生成的X1、Y1、X2、Y2用相应的判别器进行判别，得到相应的损失函数；

(205)固定生成器的参数，利用步骤(204)得到的损失函数，通过Adam优化器来更新判别器的参数。

进一步地，步骤(3)的具体方式为：

(301)将样本X输入训练好的生成器X-Y，生成对应的假Y；

(302)通过Mel频率倒谱系数谱图特征解码器，得到假Y的音频文件。

进一步地，步骤(4)的具体方式为：

(1)用事先训练好的分类器测试步骤(302)得到的音频文件的样本生成效果；

(2)将步骤(302)得到的音频文件加入目标域的样本集中，用于训练分类器，提升分类器的准确率。

本发明的有益效果在于：

1、本发明通过提取舰船噪声的MFCC谱图特征，优化模型训练，并使用循环生成对抗网络对特征进行学习，从而使该网络中的生成器能够生成和需要类别相似的MFCC谱图特征。

2、本发明能够通过MFCC反变换生成所需要的声信号，生成真实样本。具体而言，本发明将MFCC反变换得到的新样本加入到目标域的样本集中，用于下游识别模型的训练，提升了深度神经网络的识别准确率。

附图说明

图1为本发明实施例的原理示意图。

图2为本发明实施例中提取MFCC谱图特征的示意图。

图3为本发明实施例中生成器和判别器的构造示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

S1，Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)谱图特征提取：使用MFCC谱图特征滤波器组提取目标舰船声信号的Mel频率后，计算得到倒谱；

S2，模型训练优化：搭建2个在源域样本和目标域样本之间进行转换的生成器(X-Y生成器和Y-X生成器)和对应的4个(即2*2个)判别器，用已知标签的源域样本和目标域样本进行训练；

S3，生成音频文件：模型训练完成后，利用现有目标域样本的MFCC谱图特征，生成新样本的MFCC谱图特征，并通过MFCC谱图特征解码器进行解码得到新的时域样本和对应的音频文件；

S4，模型测试应用：将S3得到的新的时域样本加入到目标域的样本集中，用于优化识别模型训练，从而达到提升识别模型的准确率和鲁棒性的目的。

其中，步骤S1包括如下步骤：

S11：对输入的源域X和目标域Y的音频信号求取MFCC谱图特征；

S12：对MFCC谱图特征进行归一化和批处理。

步骤S2包括如下步骤：

S21：将样本X和掩模X通过X-Y生成器生成Y1(即假Y)，再将假Y通过Y-X生成器生成循环样本X2；将样本Y和掩模Y通过Y-X生成器生成X1(即假X)，再将假X通过X-Y生成器生成循环样本Y2；此外，将X通过Y-X生成器生成身份样本X3，将Y通过X-Y生成器生成身份样本Y3；

S22：通过四个判别器，分别对X1、Y1、X2、Y2进行判别，得到相应的损失函数；再对X和X3，Y和Y3计算距离；

S23：固定判别器的参数，利用S22得到的损失函数和距离，通过adam优化器来更新生成器的参数；

S24：重新生成X1、Y1、X2、Y2后，对X、Y以及重新生成的X1、Y1、X2、Y2分别用相应的判别器进行判别，得到相应的损失函数；

S25：固定生成器的参数，利用S24得到的损失函数，通过adam优化器来更新判别器的参数。

步骤S3包括如下步骤：

S31：通过训练好的生成器X-Y，将样本X生成对应的假Y；

S32：通过MFCC谱图解码器，得到假Y的音频文件。

其中，步骤S4包括如下步骤：

S41：对S32得到的音频文件，用事先训练好的识别模型测试其样本生成效果；

S42：将S32得到的音频文件加入目标域的样本集中，训练识别模型，提升识别模型准确率。

以下为一个更具体的例子：

如图1所示，一种基于样本扩充网络的水声目标识别模型优化方法，包括以下步骤：

步骤S1，MFCC谱图特征提取：

MFCC谱图特征是Mel频率倒谱系数，Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

S11：在获得音频的能量谱的同时，还需要构造一个梅尔滤波器组，并与能量谱进行点积运算得到梅尔频谱图。梅尔滤波器组的作用是将能量谱转换为更接近人耳机理的梅尔频率，本方法中设置梅尔滤波器个数为128。滤波过程可以用以下公式进行表示：

其中，N表示各帧信号总点数，f表示频点，H_m(f)为梅尔滤波器组系数，p(f)是信号的幅值，E(m)为梅尔频率；

S12：对微小的声音，只要响度稍有增加人耳即可感觉到，但是当声音响度已经大到一定程度后，即使再有较大的增加，人耳的感觉却无明显变化。模拟人耳对声音响度的“对数式”特性，对梅尔频谱图取对数，得到：

E′(m)＝lgE(m)

S13：对每帧数据，利用DCT改变数据分布，将大部分信号数据将集中在低频区，取变换后的前64个低频数据作为该帧的MFCC谱图特征。单个信号样本中每帧的64个特征按照时间拼接得到64*64的MFCC谱图特征，为了方便分类模型进行后续处理，将时间维度的最后一帧和特征纬度的第一帧进行复制，得到最终80*64的MFCC谱图特征，如图2所示。

S14：在提取了MFCC谱图特征后，对每个类的样本求取批均值和批标准差，批归一化MFCC谱图特征：

式中，x_scale是归一化后的特征，x是样本，μ是样本均值，S是样本方差，N是样本总数。第二个公式为计算所有样本总和取平均值，第三个公式为每个样本减去样本均值的平方再取平均值。

步骤S2，模型训练优化：

本方法的模型由两个生成器和四个判别器组成，结构如图3所示，较为复杂，需要多种约束条件来训练网络模型参数。本方法设计了如下损失函数：

等号右侧，前两项是两种不同的对抗损失，第三项为身份映射损失，而第四项为循环一致损失。在训练过程中，将这四类损失按权重相结合作为最终优化函数，确保模型向目标方向学习并逐步收敛。

S21：对应X类样本，生成对应维度的掩模X(80*64)，掩模X中随机一列是全1向量，其余列为全0向量，将X样本和掩模X一起通过X-Y生成器生成对应的Y1(80*64)，再将Y1和全1掩模通过Y-X生成器生成X2，再将X通过Y-X生成器生成X3；对Y类样本也做对应的操作，生成X1、Y2、Y3(大小均为84*64)；掩模和样本相结合的公式如下：

式中，x为样本，m为掩模，通过矩阵对应元素相乘，得到结合的样本

S22：通过四个判别器，分别对X1，Y1，X2，Y2进行判别，得到对抗损失和循环一致损失，再对X和X3、Y和Y3计算L1距离；m和m′分别代表随机缺失性掩膜和全1掩膜；x和y是来自源域和目标域的真实样本；

其中，D_Y(y)表示判别器判断目标域真实样本来自目标域的概率；

为判别器将生成样本判断为来自源域的概率；相加得到的

为判别器的对抗损失值，

与其形式一致。

其中，D′_X(x)表示判别器判断源域真实样本来自源域的概率，1-D′_X(G_Y→X(concat(y′，m′)))为判别器将生成样本判断为来自目标域的概率；相加得到的

为模型的循环一致损失值，

与其形式一致。

其中，G_Y→X(G_X→Y(concat(x，m′)))表示源域样本在经过两个生成器后的得到的样本，采用向量的1-范数进行计算其和原样本的距离，即求各个元素差值的绝对值之和；得到的

为模型的身份对抗损失值，

与其形式一致。

其中，

表示目标域样本在经过X-Y生成器后的得到的样本，得到的

为模型的身份对抗损失值，

与其形式一致。

S23：计算好S22的损失和距离后，固定判别器的参数，通过adam优化器来更新生成器的参数；

m_t＝μ*m_t-1+(1-μ)*g_t

其中，g_t为梯度，m_t为当前g_t各分量的均值，n_t为当前g_t各分量的方差，

为经过修正后的m_t，

为经过修正后的n_t，μ^t为对

的修正系数，ν^t为对

的修正系数。前两个公式分别是对梯度的一阶矩估计和二阶矩估计，第三、四个公式是对一阶二阶矩估计的校正。最后一个公式是对学习率n形成的一个动态约束，而且有明确的范围；

S24：更新完生成器参数后，重新生成假A、假B、循环A、循环B，再次计算S22的损失；

S25：固定生成器的参数，通过另一个adam优化器来更新判别器的参数。

步骤S3，生成音频文件：

通过模型将源域特征图转化为目标域特征图后，为了验证生成音频文件的有效性，还需通过MFCC谱图特征解码器将其还原为音频文件。

S31：通过S2训练好的生成器A-B，将样本A生成对应的需要的假B的MFCC谱图特征；

S32：通过MFCC谱图特征解码器，得到假B的音频文件；

h_(t)＝f(h_(t-1)，y_t-1，c)

P(y_t|y_t-1，y_t-2，...，y₁，c)＝g(h_(t)，y_t-1，c)

其中，f是激活函数，g是解码器的函数，P是生成的音频文件，h是MFCC谱图。

步骤S4，模型测试应用：

通过未优化的识别模型测试S3生成的音频文件的真实性；将生成音频文件加入训练集，验证样本扩充模型的效果。具体方式为：

S41：对S32得到的音频文件用识别模型测试样本生成效果，识别模型将其分到对应类的概率为100％；

式中，exp(f_y)是当前节点的输出值，

是所有节点的输出总和。

S42：将S32得到的音频文件加入B类中，重新训练识别模型，识别模型的准确率从93％提升到97％。

总之，本发明针对目标数据不足导致的分类准确率不高的问题，利用基于掩模的样本生成思想，在保证模型实时效果的前提下，搭建了两对结构完全对称的生成器和判别器，将源域样本映射到目标域。实验结果表明，本发明通过掩模提示思想搭建循环对抗生成网络，在保证模型结构明了的同时，生成了目标域的可靠真实样本，并加入训练集来优化识别模型，提高了识别准确率。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于样本扩充网络的水声目标识别模型优化方法，其特征在于，包括以下步骤：

（1）使用Mel滤波器组提取目标舰船声信号的Mel频率，计算得到倒谱；

（2）搭建2个在源域样本和目标域样本之间进行转换的生成器和对应的4个判别器，用已知标签的源域样本和目标域样本进行训练；2个生成器为X-Y生成器和Y-X生成器；

（3）模型训练完成后，利用现有目标域样本的Mel频率倒谱系数谱图特征，生成新样本的Mel频率倒谱系数谱图特征，并通过Mel频率倒谱系数谱图特征解码器进行解码，得到新的时域样本和对应的音频文件；

（4）将步骤（3）得到的新的时域样本加入到目标域的样本集中，用于优化识别模型训练，从而提升识别模型的准确率和鲁棒性。

2.根据权利要求1所述的一种基于样本扩充网络的水声目标识别模型优化方法，其特征在于，步骤（1）的具体方式为：

（101）对源域样本X和目标域样本Y的音频信号求取Mel频率倒谱系数谱图特征；

（102）对Mel频率倒谱系数谱图特征进行归一化和批处理，得到倒谱。

3.根据权利要求2所述的一种基于样本扩充网络的水声目标识别模型优化方法，其特征在于，步骤（2）的具体方式为：

（201）生成与源域样本X维度相同的掩膜X以及与目标域样本Y维度相同的掩膜Y，将源域样本X和掩模X通过X-Y生成器生成目标域生成样本Y1，再将Y1通过Y-X生成器生成循环样本X2；将目标域样本Y和掩模Y通过Y-X生成器生成源域生成样本X1，再将X1通过X-Y生成器生成循环样本Y2；将源域样本X通过Y-X生成器生成身份样本X3，将目标域样本Y通过X-Y生成器生成身份样本Y3；

（202）通过四个判别器，分别对X1、Y1、X2、Y2进行判别，得到相应的损失函数；再分别对X和X3，Y和Y3计算距离；

（203）固定判别器的参数，利用步骤（202）得到的损失函数和距离，通过Adam优化器来更新生成器的参数；

（204）重新生成X1、Y1、X2、Y2，然后再次对X、Y以及重新生成的X1、Y1、X2、Y2用相应的判别器进行判别，得到相应的损失函数；

（205）固定生成器的参数，利用步骤（204）得到的损失函数，通过Adam优化器来更新判别器的参数。

4.根据权利要求3所述的一种基于样本扩充网络的水声目标识别模型优化方法，其特征在于，步骤（3）的具体方式为：

（301）将样本X输入训练好的生成器X-Y，生成对应的假Y；

（302）通过Mel频率倒谱系数谱图特征解码器，得到假Y的音频文件。

5.根据权利要求4所述的一种基于样本扩充网络的水声目标识别模型优化方法，其特征在于，步骤（4）的具体方式为：

（1）用事先训练好的分类器测试步骤（302）得到的音频文件的样本生成效果；

（2）将步骤（302）得到的音频文件加入目标域的样本集中，用于训练分类器，提升分类器的准确率。