CN117198331B

CN117198331B - 一种基于对数比调整的水下目标智能识别方法及系统

Info

Publication number: CN117198331B
Application number: CN202311473612.8A
Authority: CN
Inventors: 赵茜茜; 姜龙玉; 安典坤; 王骏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-03-15
Anticipated expiration: 2043-11-08
Also published as: CN117198331A

Abstract

本发明公开了一种基于对数比调整的水下目标智能识别方法及系统，所述方法包括：对水声信号数据集进行标注和数据增强，通过音频频谱转换技术将水声信号转化为对应的频谱表示；根据水声信号数据集中的标注类别统计计算类别权重，作为全局对数比调整值；利用线性投影层将频谱分片序列化并展平得到补丁嵌入，根据位置嵌入与补丁嵌入结合得到矩阵M，输入Transformer编码器；计算损失函数，并根据全局对数比调整值更新损失函数，重更新模型训练参数权重，训练并保存模型权重；利用训练好的模型对获取的水声信号进行水下目标识别。本方法能在实际环境中从大量数据中准确识别稀有目标。

Description

一种基于对数比调整的水下目标智能识别方法及系统

技术领域

本发明涉及水下目标识别技术领域，具体涉及一种基于对数比调整的水下目标智能识别方法及系统。

背景技术

水下目标检测是海上实际作战的重大难题。随着潜艇消声材料和消声技术的发展，以及海上运输事业的日益繁荣，水下目标识别难度日益增加。

近年来随着人工智能神经网络的兴起，水下目标识别领域也发展出将信号处理方法和特征提取方法与大规模数据集和深度学习方法结合起来的技术，通过深度神经网络的训练和优化，提高目标识别的性能和效率。水下目标识别借助深度学习取得了显著进展。深度学习模型如卷积神经网络（CNN）和循环神经网络（RNN）能够自动从水声信号中学习特征，有效地捕捉目标的频谱、时域特征。深度学习的优势在于对复杂非线性关系的建模能力，使模型适应不同水声环境，提高识别准确率。其自动特征学习降低了特征工程的需求，且模型在大数据下能更好地泛化。深度学习技术为水下目标识别带来了更高的效率和准确性，对海洋探测、军事目标等领域有着广泛应用前景。

但是，在实际作战的水下目标识别场景中，军事目标样本与其他水声样本呈现典型的长尾分布，即一小部分的类别（如海洋生物样本、常见货轮目标样本）拥有大量的样本点，而其他类别（如潜艇、鱼雷等军事目标样本）仅和少量的样本相关联。这种数据分布会导致一般的深度学习模型在训练时对尾部数据的学习不足，从而影响模型的预测能力。此外，长尾分布还会导致一些统计指标（比如均值、方差）失效，因为它们对极端值的敏感度较低。为实现在现实环境中从大量数据中准确识别稀有目标，如至关重要的军事目标等，需要一种性能更优的水下目标识别方法。

发明内容

发明目的：本发明的目的是提供一种基于对数比调整的水下目标智能识别方法及系统，解决背景技术中的问题。

技术方案：本发明所述的一种基于对数比调整的水下目标智能识别方法，包括以下步骤：

对水声信号数据集进行标注和数据增强，通过音频频谱转换技术将水声信号转化为对应的频谱表示；

根据水声信号数据集中的标注类别信息计算类别权重，根据类别权重确定全局对数比调整值；

利用线性投影层将频谱分片序列化并展平得到补丁嵌入E，根据由不同频谱分片位置信息构成的位置嵌入与补丁嵌入E结合得到矩阵M，将矩阵M输入Transformer编码器中，通过多重自注意力机制和多层感知机对输入序列进行建模和编码；

对经由Transformer编码器计算的矩阵M抽取分类标识，通过多层感知机头得到模型预测结果，将其与真实类别结合计算损失函数，并根据全局对数比调整值更新损失函数，重更新模型训练参数权重，训练指定轮次后，保存最优模型权重；

利用训练好的模型对获取的水声信号进行水下目标识别。

优选地，通过音频频谱转换技术将水声信号转化为对应的频谱表示包括：将音频信号分成帧，在每帧上应用梅尔滤波器组，将连续的频率范围划分成不同频带；在每个频带内计算能量，对这些能量值取对数；将每帧中所有频带的对数能量值汇总成一个特征向量，形成FBank特征。

优选地，数据增强的方法包括：对水声信号随机时域信号区间执行掩码操作，和/或对水声信号随机频率区间执行掩码操作。

优选地，根据以下公式计算类别权重：

，

式中表示类别i的权重，该类别权重作为类别i的全局对数比调整值，/>表示水声信号数据集中类别i的频率，/>是设定的超参数，/>是一个微调值，/>，/>是水声信号数据集中类别分布的频率期望，/>是类别数。

优选地，矩阵M的计算公式如下：

，

其中代表类别特征，用于表示频谱图中的全局信息与整体特征；/>表示2维的频谱分片序列的局部特征；/>为补丁嵌入，/>表示局部特征/>与补丁嵌入/>的张量积操作；/>为分片数；/>为维度；位置嵌入/>包含序列不同分片位置信息，是一个可训练的参数，用于编码图像中不同位置的信息。

优选地，Transformer编码器由多个包含多头注意力机制的模块组成，每一模块均包括层归一化、多头注意力计算、多层感知机与Droppath正则化的处理，

在层归一化阶段，对矩阵M的每一个标识进行归一化处理，将矩阵M的输入分布拉回到均值为0方差为1的标准正态分布区间；

在多头注意力计算阶段，将经过层归一化的矩阵输入映射到质询矩阵Q、键矩阵K、值矩阵V三个矩阵，在有H个注意力头的情况下矩阵Q、K、V的维度为[N,]，其中N代表频谱序列分片数，经多头注意力计算后，将H组Q、K、V矩阵的输出拼接起来，使得输出维度与输入维度相同；

多层感知机由两个全连接层、GELU激活函数与两个Dropout组成，在第一个全连接层将输入节点翻4倍，第二个全连接层用于还原节点个数。

优选地，损失函数的更新公式如下：

，

其中，表示模型的损失函数；/>表示一个与类i相关的概率分布，用于表示观测值y属于类i的概率；A_i表示类i的对数比调整值，A_j表示类j的对数比调整值，y_i表示模型对第i个类别的预测得分，y_j表示模型对第j个类别的预测得分，/>为类别数。

本发明还提供一种基于对数比调整的水下目标智能识别系统，包括：

数据预处理模块，对水声信号数据集进行标注和数据增强，通过音频频谱转换技术将水声信号转化为对应的频谱表示；

基于对数比调整的音频频谱Transformer模块，根据对数比调整的方法利用音频频谱对Transformer模型进行训练，具体包括：

对数比计算单元，根据水声信号数据集中的标注类别信息计算类别权重，根据类别权重确定全局对数比调整值；

特征学习单元，利用线性投影层将频谱分片序列化并展平得到补丁嵌入E，根据由不同频谱分片位置信息构成的位置嵌入与补丁嵌入E结合得到矩阵M，将矩阵M输入Transformer编码器中，通过多重自注意力机制和多层感知机对输入序列进行建模和编码；

训练控制单元，对经由Transformer编码器计算的矩阵M抽取分类标识，通过多层感知机头得到模型预测结果，将其与真实类别结合计算损失函数，并根据全局对数比调整值进行损失函数更新，重更新模型训练参数权重，训练指定轮次后，保存最优模型权重；

下游任务模块，利用训练好的模型对获取的水声信号进行水下目标识别。

本发明还提供一种计算机设备，该计算机设备包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现本发明如上所述的基于对数比调整的水下目标智能识别方法的步骤。

本发明还提供一种计算可读存储介质，该计算机可读存储介质上存储有计算机程序，在处理器执行所述计算机程序时可实现本发明如上所述的基于对数比调整的水下目标智能识别方法的步骤。

有益效果：

（1）本发明采用基于对数比的深度学习方法对水声信号进行目标识别，可通过该模型提取水声信号中的频谱特征，较之于传统的水下目标识别方法提升了效率和准确性，多种目标的分类Top-1准确率达97%，领先于国内最新的水下目标识别技术，与国际最先进的音频模型CAV-MAE与EffcientAT的准确率持同一水平。

（2）本发明采用对数比调整机制，通过动态地调整模型输出的对数比值，增强模型对不同目标的区分能力，并平衡模型对头部数据与尾部数据的权重，相较于未经过对数比调整的同结构模型的识别方法，经对数比调整的识别方法准确率提升了约3%的准确度。

（3）本发明采用的自注意力机制允许模型对输入序列中的不同位置进行加权，从而捕捉序列中的关系，这在水声信号中的时间关系和频谱特征之间尤为重要。该机制使得模型能够更好地捕捉不同频率的声音特征，从而提高了对水下目标的识别性能。

附图说明

图1为本发明水下目标智能识别方法流程示意图；

图2为本发明数据预处理流程示意图；

图3为本发明基于对数比调整的音频频谱Transformer模块的结构与流程示意图；

图4为Transformer编码器结构与流程示意图；

图5为本发明测试例中训练集幂律曲线拟合结果示意图与Kolmogorov-Smirnov检验结果，旨在证明测试例水声目标样本分布符合长尾分布；

图6和图7分别为本发明测试例中初始训练轮次的混淆矩阵示意图与模型最优训练轮次的混淆矩阵示意图；

图8和图9分别为本发明测试例中初始训练轮次的宏平均P-R曲线示意图与模型最优训练轮次的宏平均P-R曲线示意图；

图10和图11分别为本发明测试例中初始训练轮次的平均精确度曲线示意图与模型最优训练轮次的平均精确度曲线示意图。

具体实施方式

为了对本发明的技术方案的特征、优点有更清楚的了解，下面结合附图对具体方案的组成以及实施做出说明。

参照图1，本发明实施例中一种基于对数比调整的水下目标智能识别方法，包括以下步骤：

步骤1：水声信号数据集进行标注，数据增强处理以扩充数据集，按一定比例将数据集划分为三个互斥的集合，一个作为训练集，一个作为验证集，一个作为测试集，利用音频频谱转换技术将训练集与验证集的原始水声信号转换为对应的频谱表示；

步骤2：基于步骤1划分的训练集，计算全局对数比调整值，即计算基于类别的频率信息，使用其倒频率与频率期望作为类别权重；

步骤3：经由线性投影层将步骤1得到的训练集频谱分片序列化并展平得到补丁嵌入E，结合位置嵌入与补丁嵌入E得到矩阵M，将矩阵M输入Transformer编码器，通过多重自注意力机制和多层感知机对输入序列进行建模和编码，Transformer编码器中堆叠多层包含多头注意力机制的模块，每个层都独立地学习输入的序列的特征，并计算不同的子空间中的注意力；

步骤4：对经由Transformer编码器计算的矩阵M抽取分类标识，通过多层感知机头得到模型预测结果，将其与真实类别结合计算损失函数，并经过基于步骤2所得的类别权重进行对数比调整更新损失函数，重更新模型训练参数权重，训练指定轮次后，保存最优模型权重；

步骤5：利用测试集数据测试模型的性能。在实际应用中，根据采集的水声信号数据利用训练好的模型进行水下目标的识别。

在本发明实施例中，以ShipsEar舰船噪声数据集为例，详细叙述本发明具体实施流程与实施细节。ShipsEar数据集包含了丰富的水下声音样本，涵盖了各种舰船类型和环境条件下的水声信号。该数据集船只声纳数据来自于2012年至2013年在西班牙北部不同地区所录制的声纳信号，其数据类别分布详见表1所示。

表1 ShipsEar数据集

类别	水声声纳类型	说明
			1	Motorboat,Yacht	摩托艇
2	Pilot ship	引航船
			3	Sailboat	帆船
4	Fishboat	渔船
			5	Trawler	拖网渔船
6	Mussel boat	贻贝船
			7	Tugboat	拖船
8	Dredger	挖泥船
			9	Passenger ferries	客运渡船
10	Ocean Liner	客运邮轮
			11	Ro-ro vessels	滚装船
12	Natural ambient noise	自然环境噪音

本发明的数据预处理流程图如图2所示。从原始数据中获取舰船声纳信号，这些信号通常具有较长的时间持续性，并且可能包含背景噪声和其他干扰。为了减少计算复杂度并提高模型的鲁棒性，本发明将原始水声信号数据按3.6s为单位进行切片处理并进行16000 Hz的下采样操作。每个切片代表一个较短的时间窗口内的声纳信号。经过切割后，以8：1：1的比例将数据集分为训练集、验证集、测试集。

对于划分好的训练集，对其进行幂律曲线拟合以及Kolmogorov-Smirnov检验，检验其是否符合长尾分布，是否适用对数比调整方法。训练集的幂律曲线拟合与长尾分布Kolmogorov-Smirnov检验结果如图5所示。本发明在ShipsEar上经幂律曲线拟合后，得到幂律指数为0.668，幂律常数0.238；在K-S检验中，得到K-S统计量及其p值分别为0.19以及0.76，其中显著水平p值>=0.5时，可认为数据符合对应检验的分布，即符合幂律分布。

在特征提取方面，本发明所提取的谱图为128维梅尔谱图。对数据集中的每个音频切片，用128维的对数Mel滤波器组（Fbank）特征序列进行频谱提取，并在每10ms使用25ms的汉明窗口计算，这样即得到维度360x128x1的频谱图。步骤如下：将音频信号分割成短时窗口；设计一组滤波器，本发明采用的是梅尔滤波器；将每个窗口内的音频信号与滤波器组进行卷积，将连续的频率范围划分成不同频带；在每个频带内对每个滤波器的输出进行幅度平方运算，然后对幅度平方进行积分，得到每个滤波器的能量，并对这些能量值取对数；最后将每帧中所有频带的对数能量值汇总成一个特征向量，形成Fbank特征。Fbank特征提取的公式可以表示为：

，

在该公式中，代表在第t个时间窗口内，通过第m个滤波器计算得到的Fbank特征值；/>表示在第t个时间窗口和第k个频率点的音频信号的幅度；/>代表第m个滤波器在第k个频率点的响应。K表示频率点的数量，其为音频信号在频率域上的离散采样点数量。

在数据增强方面，本发明采用时域掩码与频域掩码技术对训练集进行数据增强操作。频域掩码表现为对水声信号随机频率区间执行掩码操作，频域掩码的公式可以表示为：

，

其中表示应用了频域掩码后的频谱数据，/>是原始的频谱数据，/>是频域掩码，是一个与频率f相关的值，用于控制在该频率上的保留程度。

时域掩码表现为对水声信号随机时域信号区间执行掩码操作，频域掩码的公式可以表示为：

，

其中表示应用了时域掩码后的信号，/>是原始的时域数据，/>是频域掩码，是一个与时间t相关的值，用于控制在该时间点上的信号加权。

本发明实施例中将时域掩码维度设置为音频信号时域长度的0.2倍，即72，频域掩码维度为72。

进一步地，本发明实施例中对音频数据进行归一化，将其范围限制在特定的数值范围内，使数据具有相似的尺度和统一的幅度范围，有利于分类器的训练和收敛。ShipsEar的在执行归一化处理时，其平均均值为-2.61，平均方差为3.42。

根据本发明的实施方式，在步骤2中计算训练集全局对数比调整值，具体计算方法包括：

（a）计算基于训练集类别的频率，/>的计算公式如下：

，

其中目标识别样本，类别标签/>，L表示类别集合，B为训练集所有目标样本统计，/>表示训练集中所有标签为某一类别的样本统计。

（b）计算基于训练集的类别分布频率期望，并计算全局对数比调整值中的微调值/>，/>为类别数，/>的计算公式如下：

，

（c）设定超参数；

（d）根据以下公式计算全局对数比调整值：

，

上述公式中是类别先验P(y)的估计，表示为类别频率；参数/>用于调整损失函数中不同类别比值的权重，/>越大，则模型训练过程中会更加关注少数类样本；微调值/>的引入是为了缓解在极端情况下对特定水声数据训练模型的过拟合问题，以基于类别频率期望/>所计算的微调值能平衡数据集的头类和尾类，以适应不同的数据分布。

在模型训练方面，本发明采用基于对数比调整的音频频谱Transformer作为目标识别模型，该模块的框架结构与流程图如图3所示。本发明通过Adam优化器对模型参数进行更新，并通过先验概率P(y)来修正对数比从而最小化损失函数。

本发明实施例中，步骤3所使用的线性投影层为一个卷积层，该卷积层包含768个核大小为16x16、步距为16的卷据核，该层用于将所提取的128维梅尔谱图序列化并展平得到补丁嵌入E。

矩阵M由位置嵌入与补丁嵌入E结合而来，矩阵M计算公式如下：

，

其中代表类别特征，用于表示频谱图中的全局信息与整体特征，该标识是一个可训练的参数，其维度为[1,768]；/>表示2维的频谱分片序列；/>为分片数；/>为维度，即768；/>表示局部特征/>与补丁嵌入的张量积（Kronecker Product）操作，这个操作用于将局部特征和补丁嵌入进行组合，以获得综合的特征表示；位置嵌入/>包含该批序列不同分片位置信息，是一个可训练的参数，用于编码图像中不同位置的信息。

本发明所用的Transformer编码器的结构如表2所示，它由若干个（一般在12到16个）包含多头注意力机制的模块组成，每一模块包括层归一化（LayerNorm）、多头注意力计算（MutiHeadAttention）、多层感知机（MLP）、DropPath正则化与残差连接加法（ResidualAdd），如图4所示。

表2 音频频谱Transformer编码器结构

结构名	类型
		LayerNorm1	归一化（Norm）
MutiHeadAttention	/
		ResidualAdd	残差连接（Residual Connection）
DropPath	DropPath正则化
		LayerNorm2	归一化（Norm）
MLP	/
		ResidualAdd	残差连接（Residual Connection）

在层归一化阶段，对矩阵M的每一个标识进行归一化处理，将矩阵M的输入分布拉回到均值为0方差为1的标准正态分布区间。

在多头注意力计算阶段，将经过层归一化的矩阵输入映射到Q、K、V三个矩阵，假定有H个注意力头，则矩阵Q、K、V的维度为[N,]，其中N代表该批序列分片数，经多头注意力计算后，将H组Q、K、V矩阵的输出拼接起来，是得输出维度与输入维度相同。多头注意力层结构如表3所示，其包含两个线性全连接层与两个Dropout层。

表3 MutiHeadAttention层结构

结构名	类型	神经元个数
			qkv	Linear Fc	2304
attn_drop	Dropout	/
			proj	Linear Fc	768
proj_drop	Dropout	/

所述的多层感知机由两个全连接层、GELU激活函数与两个Dropout组成，其细节如表4所示。在第一个全连接层将输入节点翻4倍，第二个全连接层用于还原节点个数。

表4 MLP层结构

结构名	类型	神经元个数
			fc1	Linear Fc	3072
act	GELU	/
			fc2	Linear Fc	768
drop	Dropout	/

本发明实施例中，步骤4所述的多层感知机头（MLP-Head）主要由一个全连接层组成，其细节如表5所示。

表5 MLP-Head层结构

结构名	类型	神经元个数
			LayerNorm	Norm	/
Linear	LinearFc	12

本发明将Data-Efficient Image Transformer（DeiT）的预训练权重作为初始权重载入本发明的音频频谱Transformer模块中，通过Adam优化器对模型参数进行更新，并通过先验概率P(y)来修正对数比从而最小化损失函数。DeiT为一种经过卷积神经网络知识蒸馏训练的预训练模型，本发明将其预训练权重作为初始权重，加快训练速度。

根据本发明的实施方式，步骤4中根据对数比调整值进行更新损失函数的公式如下：

，

这里表示模型的损失函数；/>表示一个与类i相关的概率分布，用于表示观测值y属于类i的概率；A_i表示类i的对数比调整值，A_j表示类j的对数比调整值，y_i表示模型对第i个类别的预测得分，y_j表示模型对第j个类别的预测得分，N_class为类别数。

在超参数调优方面，实施例中的训练超参数包括初始学习率、学习率调度参数、批大小、训练轮次、对数比调整值等，以获得最佳的模型性能，目前在ShipsEar上模型表现最优的超参数如表6所示。

表6 当前实施例最优超参数

参数	值	参数	值
				训练轮次	30	初始学习率	0.00025
学习率调度起始轮次	1	学习率调度步长轮次	1
				学习率调度衰减比率	0.85	批大小	32
τ	1.0

模型训练完成后的下游任务主要包含模型性能评估以及水下目标识别任务应用。实施例中，在步骤5中用测试集数据对模型进行评估。对模型的性能评估指标包括混淆矩阵、Top-1准确率、精确度与AUC。

混淆矩阵（Confusion Matrix）是在机器学习和统计学中用来评估分类模型性能的表格，它以实际类别和预测类别为基础，将样本划分以下4类，True Positive（TP）：真正类。样本的真实类别是正类，并且模型识别的结果也是正类；False Negative（FN）：假负类。样本的真实类别是正类，但是模型将其识别为负类；False Positive（FP）：假正类。样本的真实类别是负类，但是模型将其识别为正类；True Negative（TN）：真负类。样本的真实类别是负类，并且模型将其识别为负类。

在混淆矩阵中，行表示实际类别，列表示预测类别。各个单元格中的数值表示对应类别的样本数量。

Top-1准确率的计算公式如下：

，

精确度的计算公式如下：

。

AUC（Area Under the Curve）是用于衡量二分类模型性能的指标，表示ROC曲线下的面积，范围在0到1之间。AUC值越大，表示模型的性能越好。AUC的计算公式如下：

，

其中，Z是ROC曲线上的点数，和/>分别表示第/>个点的False Positive Rate（FPR）和True Positive Rate（TPR）。AUC实际上是ROC曲线下的累积梯形面积，ROC曲线是以不同阈值为基础，绘制出一系列不同的TPR（True Positive Rate）和FPR（False PositiveRate）点，其中：

。

图6和图7给出了初始训练轮次的模型以及最优训练轮次得到的模型在测试集上的性能表现，本发明取其Top-1预测类别作为最终预测类别，绘制了混淆矩阵，可以显著观察到，本方法在罕见目标识别下也具有较高的精确度。图8和图9给出了在本发明测试例下，初始训练轮次的宏平均P-R曲线示意图与模型最优训练轮次的宏平均P-R曲线示意图；图10和图11给出了在本发明测试例下，初始训练轮次的平均精确度曲线示意图与模型最优训练轮次的平均精确度曲线示意图，横轴为12个类别。在最优训练轮次下，模型表现性能较好，各个类别的平均精确度均达99%。

表7给出了本发明同今年国内外同类型一般音频识别方法模型的性能对比，可以显著观察到，本发明提出的基于对数比调整的的水下目标智能识别方法比同模型结构的识别方法准确率提升了约3%的准确度，并与当下最先进的音频模型CAV-MAE与EffcientAT的准确率持同一水平，参数量持一般水平。

表7 当前实施例下不同训练策略模型性能指标（ShipsEar）

训练网络	模型结构	平均准确度 /%	平均AUC	参数量/Million
					PANNs	CNN+Attention	89.91	0.8322	81.10
EffcientAT	CNN	97.50	0.9963	68.43
					CAV-MAE	CAV+MAE	97.81	0.9986	164.51
Resnet	Resnet32	79.84	0.7421	0.31
					基于对数比调整 Resnet	Resnet32	84.81	0.7654	0.31
音频频谱Transformer	Attention	94.08	0.9945	87.13
					基于对数比调整音频频谱Transformer	Attention	97.82	0.9991	87.13

水下环境的复杂性和多变性导致水声信号中存在噪声、回声等干扰，降低了目标信号的可辨识性。本发明的方法通过音频频谱转换技术，将原始水声信号转换为频谱表示，捕捉频域特征，使模型更能适应不同水声环境，提高目标识别的鲁棒性。其次，水声目标多样性和数量不均衡导致模型难以充分识别罕见目标，如军事目标。长尾数据分布问题引发了模型过度依赖常见目标，对稀有目标的识别表现不佳。本方法引入对数比调整机制，动态地调整模型损失函数的对数比值，增强模型对不同目标的区分能力，平衡头部和尾部数据的权重。这解决了长尾数据分布问题，使得模型更具适应性，能够更准确地识别不同类型的目标。

此外，传统深度学习方法在处理水声信号等长序列数据时存在信息丢失和计算复杂度高的问题。本方法将音频频谱序列进行序列化，通过Transformer编码器对序列进行建模和编码，充分利用自注意力机制计算序列中各位置的上下文关系，提高了模型对序列信息的捕捉能力。实际水下环境复杂多变，对模型的鲁棒性也提出了挑战。本方法通过数据增强技术如频域掩码、时域掩码等，模拟实际噪声情况，提高模型对噪声的适应能力。

本发明提出的结合对数比调整和音频频谱Transformer的水下目标识别方法针对水声领域中的噪声、长尾数据分布、特征建模和鲁棒性等关键技术问题的解决效果表现优异，为水下目标识别提供了一种更准确、可靠的解决方案。

根据方法实施例相同的技术构思，本发明还提供一种基于对数比调整的水下目标智能识别系统，包括数据预处理模块、基于对数比调整的音频频谱Transformer模块、下游任务模块；

基于对数比调整的音频频谱Transformer模块，根据对数比调整的方法利用音频频谱对Transformer模型进行训练，具体包括：对数比计算单元，根据水声信号数据集中的标注类别信息计算类别权重，根据类别权重确定全局对数比调整值；特征学习单元，利用线性投影层将频谱分片序列化并展平得到补丁嵌入E，根据由不同频谱分片位置信息构成的位置嵌入与补丁嵌入E结合得到矩阵M，将矩阵M输入Transformer编码器中，通过多重自注意力机制和多层感知机对输入序列进行建模和编码；训练控制单元，对经由Transformer编码器计算的矩阵M抽取分类标识，通过多层感知机头得到模型预测结果，将其与真实类别结合计算损失函数，并根据全局对数比调整值进行损失函数更新，重更新模型训练参数权重，训练指定轮次后，保存模型权重；

应理解，本发明实施例中的基于对数比调整的水下目标智能识别系统可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其中基于对数比调整的音频频谱Transformer模块实现对应步骤2-4的功能，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如上所述的基于对数比调整的水下目标智能识别方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于对数比调整的水下目标智能识别方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置（系统）、计算机设备或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程以及流程图中的流程的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

Claims

1.一种基于对数比调整的水下目标智能识别方法，其特征在于，包括以下步骤：

根据水声信号数据集中的标注类别信息计算类别权重，根据类别权重确定全局对数比调整值，其中类别权重的计算公式如下：

，

式中表示类别i的权重，该类别权重作为类别i的全局对数比调整值，/>表示水声信号数据集中类别i的频率，/>是设定的超参数，/>是一个微调值，/>，/>是水声信号数据集中类别分布的频率期望，/>是类别数；

利用训练好的模型对获取的水声信号进行水下目标识别。

2.根据权利要求1所述的方法，其特征在于，通过音频频谱转换技术将水声信号转化为对应的频谱表示包括：将音频信号分成帧，在每帧上应用梅尔滤波器组，将连续的频率范围划分成不同频带；在每个频带内计算能量，对这些能量值取对数；将每帧中所有频带的对数能量值汇总成一个特征向量，形成FBank特征。

3.根据权利要求1所述的方法，其特征在于，数据增强的方法包括：对水声信号随机时域信号区间执行掩码操作，和/或对水声信号随机频率区间执行掩码操作。

4.根据权利要求1所述的方法，其特征在于，矩阵M的计算公式如下：

，

5.根据权利要求1所述的方法，其特征在于，Transformer编码器由多个包含多头注意力机制的模块组成，每一模块均包括层归一化、多头注意力计算、多层感知机与Droppath正则化的处理，

6.根据权利要求1所述的方法，其特征在于，损失函数的更新公式如下：

，

7.一种基于对数比调整的水下目标智能识别系统，其特征在于，包括：

对数比计算单元，根据水声信号数据集中的标注类别信息计算类别权重，根据类别权重确定全局对数比调整值，其中类别权重的计算公式如下：

，

8.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-6中任一项所述的基于对数比调整的水下目标智能识别方法的步骤。

9.一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，其特征在于，在处理器执行所述计算机程序时可实现权利要求1-6中任一项所述的基于对数比调整的水下目标智能识别方法的步骤。