CN116343016A

CN116343016A - 一种基于轻量型卷积网络的多角度声呐图像目标分类方法

Info

Publication number: CN116343016A
Application number: CN202310002666.XA
Authority: CN
Inventors: 巩文静; 田杰; 刘纪元
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-06-27

Abstract

本发明涉及水下目标识别领域，尤其涉及基于轻量型卷积网络的多角度声呐图像目标分类方法，所述方法包括：(1)对声呐图像进行处理，获得多角度声呐图像数据集；(2)获取图像训练集与验证集；(3)构建基于轻量型网络的多角度声呐图像目标分类模型；(4)利用数据集对上述模型进行迭代训练；(5)获取目标分类结果。本发明利用多个角度的声呐图像进行目标分类，相较于单角度图像而言能够更加全面地描述目标散射特性，由此对目标进行属性判别，拥有更高的准确度，同时轻量化的网络模型也能够减小资源消耗，为实际应用提供可能。

Description

一种基于轻量型卷积网络的多角度声呐图像目标分类方法

技术领域

本发明涉及水声信号处理领域，尤其涉及一种基于轻量型卷积网络的多角度声呐图像目标分类方法。

背景技术

近年来，声呐成像技术日渐成熟，目前已经成为水下图像获取的重要途径，在军事以及民用领域都有广泛的应用。声呐设备可以直观地提供水下目标的全局信息，对水下光源没有依赖，实用性强。声呐图像是目标散射信息在二维图像中的映射，可能存在混叠、畸变，这使声呐图像在视觉上更难解释与理解。因此，从声呐图像中识别出目标的真实属性，是一直以来的研究热点。

随着深度学习相关理论的发展，基于深度学习的目标识别技术得到了广泛应用，很多学者设计了不同的卷积网络来对声呐图像中的目标进行检测和识别，并取得了较好的效果，但是大多数方法均基于单角度声呐图像。在声呐成像过程中，对于同一观测目标，不同角度下所得目标的声呐图像会有较大差别，而不同目标在某一角度下又具有较大的相似性。因此，基于单角度声呐图像的目标识别具有一定局限性。

同一目标的多角度声呐图像序列中蕴含着目标在多个角度的散射回波，更加精细地刻画出目标的散射特性，将多个视角的目标声图融合成一幅图像，能够充分利用目标在不同视角下的共有信息，但是融合方式的选择以及目标分类网络的构建均会对目标分类效果产生影响。

总之，在水下目标多角度声呐图像分类任务中，目前急需一种既能够充分利用目标信息又能灵活部署到现有设备的目标分类方法，以提高后续目标分类的准确率与效率。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于轻量型卷积网络的多角度声呐图像目标分类方法。

为达到上述目的，本发明通过下述技术方案实现。

本发明提出了一种基于轻量型卷积网络的多角度声呐图像目标分类方法，所述方法包括：

将目标的多个角度的单通道声呐图像预处理后进行信息融合，获得目标的多角度声呐图像；

将目标的多角度声呐图像输入预选建立并训练好的基于轻量型卷积网络的多角度声呐图像目标分类模型中，得到目标分类结果；

其中，所述多角度声呐图像目标分类模型通过对轻量型MobileNetV2网络改进得到；所述对轻量型MobileNetV2网络改进，包括：去掉轻量型MobileNetV2网络中特征提取卷积层Conv2之后的网络层，并修改特征提取卷积层Conv2的通道数；添加Flatten层实现降维操作，并且添加Dropout层进行随机丢弃，最后添加一个全连接层对结果进行分类。

作为上述技术方案的一种改进，所述多角度声呐图像目标分类模型具体包括：特征提取模块和分类模块；其中，

所述特征提取模块包括输入层Input、特征提取卷积层Conv1、瓶颈层Bottleneck1-Bottleneck7、特征提取卷积层Conv2、Flatten层和Dropout层；其中，特征提取卷积层Conv2的通道数为128，Dropout层的丢弃率为0.5；

所述分类模块包括一个全连接层。

作为上述技术方案的一种改进，所述多角度声呐图像目标分类模型的处理过程具体包括：

输入层Input将目标的多角度声呐图像送入特征提取卷积层Conv1；

具有3×3卷积核的特征提取卷积层Conv1对多角度声呐图像进行特征图提取，并输入瓶颈层Bottleneck1-Bottleneck7；

瓶颈层Bottleneck1-Bottleneck7中每一层Bottleneck均包括：第一标准卷积、一个深度可分离卷积和第二标准卷积；首先，1×1的第一标准卷积进行维度扩展操作，其次，3×3的深度分离卷积进行特征提取，最后，1×1的第二标准卷积将数据进行压缩；瓶颈层Bottleneck1-Bottleneck7中每一层Bottleneck依次对特征图进行处理，并将处理后的特征图输入特征提取卷积层Conv2；

特征提取卷积层Conv2的通道数设置为128，对特征图进行处理并输入到Flatten层；

Flatten层将特征图转化为一维，并输入到Dropout层；

Dropout层对特征图进行随机丢弃处理；

全连接层将目标分类并输出目标分类结果，即目标属于某一类别的概率。

作为上述技术方案的一种改进，所述第一标准卷积使用函数ReLU6(x)进行激活，表达式为：

ReLU6(x)＝min(6,max(x,0))

x表示激活函数输入值，min(·)表示取最小值函数，max(·)表示取最大值函数；

所述第二标准卷积使用函数Linea(x)进行激活，表达式为：

Linear(x)＝x。

作为上述技术方案的一种改进，所述深度可分离卷积使用标准化BN层进行正则化，表达式为：

其中，

为卷积层的输出结果，m表示当前网络层节点的总个数，x_i表示当前网络层第i个节点的值，μ_B和/>

分别表示均值和方差，y_i为归一化后的输出结果，/>

表示归一化后的x_i值，ε表示正则化因子，γ和β为可学习重构参数；

所述深度可分离卷积使用函数ReLU6(x)进行激活，表达式为：

ReLU6(x)＝min(6,max(x,0))。

作为上述技术方案的一种改进，所述方法还包括：对多角度声呐图像目标分类模型进行训练，训练过程具体包括：

步骤1)获取声呐图像，对获取的声呐图像进行预处理后，将多幅连续单通道声呐图像进行图像融合，获得具有相同尺寸的多角度声呐图像数据集，并作为训练数据集和测试数据集；

步骤2)构建基于轻量型卷积网络的多角度声呐图像目标分类模型；

步骤3)利用训练数据集和测试数据集对多角度声呐图像目标分类模型分别进行迭代训练和测试，获得训练好的多角度声呐图像目标分类模型。

作为上述技术方案的一种改进，所述步骤1)具体包括：

步骤1-1)获取包含K类目标的原始声呐图像N幅，N幅均为单通道声呐图像；对图像进行分割和上采样，处理后得到一组尺寸相同的图像集X₁,X₂,...,X_N以及对应的标签向量Y₁,Y₂,...,Y_N；

步骤1-2)将N幅声呐图像分为K个类别并且按类别进行图像融合处理，将每个类别中的图像每连续P幅融合成为一张P通道图像，即X₁'＝X₁+X₂+...+X_P，X₂'＝X₂+X₃+...+X_P+1；

步骤1-3)经过步骤1-2)处理完成后，共得到图像集X₁',X₂',...,X'_N-2K以及对应的标签向量Y₁',Y₂',...,Y_N'_-2K，记为X₁',X₂',...,X'_M与Y₁',Y₂',...,Y'_M；

步骤1-4)在步骤1-3)的图像集中随机选取N₁幅图像及对应的标签向量构成训练数据集D_train，剩余M-N₁幅图像及对应的标签向量构成测试数据集D_test。

作为上述技术方案的一种改进，所述步骤3)具体包括：

步骤3-1)对于构建的基于轻量型卷积网络的多角度声呐图像目标分类模型，对每个网络层的参数进行均值为0，方差为1的高斯分布G(μ,σ²)随机初始化；

步骤3-2)使用Optimizers优化器对网络参数进行更新，使得输出图像与标签之间的误差收敛到最佳水平；

步骤3-3)通过交叉熵损失函数来计算模型的函数损失值Loss；

步骤3-4)使用Softmax分类函数将网络最后一层的输出转化为输入图像属于各类别的概率Softmax(z_i)，得到最终的分类结果。

作为上述技术方案的一种改进，所述步骤3-3)中Loss的计算公式为：

其中，n代表训练集样本个数，K代表目标总类别数，q(x_j,k)表示样本x_j,k的预测类别，p(x_j,k)表示样本x_j,k为当前预测类别的概率。

作为上述技术方案的一种改进，所述步骤3-4)中Softmax(z_i)的计算公式为：

其中，z_i为最后一个网络层第i个节点的输出值。

为了增强模型在水下场景的适用性，充分发挥深度分离卷积在特征提取中的优势，提高目标分类的精确度，本发明在轻量型MobileNetV2网络的基础上进行了如下改进：(1)为了在训练网络时进一步减少计算资源、节约内存空间，在保证精度的前提下充分考虑参数量和运算成本，通过多次实验对比，本发明在模型设计时去掉第9层之后的网络层，并将该卷积层通道数由1280改为128。(2)为了适应水下目标分类任务，在保留目标特征信息的同时提升网络的收敛速率，本发明使用Flatten层进行数据降维，将三维的输出转化为一维后，添加Dropout层改善网络拟合，丢弃率设为0.5，最后增加一个全连接层，得到最终的分类结果。

改进原因：

(1)原始轻量型MobilenetV2网络使用ImageNet数据集进行训练，数据集图片数量达到140万张，包含图像1000个类别，而水下目标图像采集较为困难，获取的数据数量较少，直接使用原网络进行训练无法得到较好的拟合效果。(2)MobilenetV2网络第9层的输出通道由320增加到1280，通道数的增加会消耗更多的计算资源。(3)原始轻量型网络使用平均池化Avgpool降采样来减少特征数量，此种降采样方法更多地保留图像的背景信息，不完全适用于水下目标分类任务。

本发明与现有技术相比优点在于：

1、将多个角度的单通道声呐图像进行信息融合，利用多通道的声呐图像对水下目标进行分类，相较于单一角度的声呐图像而言能够更加全面地描述目标散射特性，由此对目标进行属性判别，能够拥有更高的准确度；

2、为了减小图像融合带来的运算成本，选择轻量化卷积网络作为特征提取和目标分类的基础网络模型，该模型能够减小网络的参数量和计算量，提高网络对目标的分类效率；

3、为了增强网络在水下场景中的适用性，在充分考虑参数量和运算成本的基础上，对现有轻量型网络进行改进，改进后的网络模型在保留目标特征信息的同时能够提升网络的收敛速率，更加适合声呐图像的目标分类任务，提高目标分类的精确度。

附图说明

图1是本发明的基于轻量型卷积网络的多角度声呐图像目标分类方法整体流程框图；

图2(a)是步长为1时的瓶颈层结构示意图；图2(b)步长为2时的瓶颈层结构示意图；

图3是改进的轻量型卷积网络模型图，包括输入层、特征提取卷积层、瓶颈层、密集连接层等模块。

具体实施方式

步骤1)对获取的声呐图像进行预处理，将3幅连续单通道声呐图像进行图像融合，获得具有相同尺寸的多角度声呐图像数据集；

步骤3)利用获取的数据集对上述多角度声呐图像目标分类模型进行迭代训练；

步骤4)利用图像数据集对目标分类模型进行训练和测试，得到目标分类结果。

为实现上述目的，所述步骤1)具体包括：

步骤1-1)获取包含K类目标的原始声呐图像N幅，均为单通道声呐图像，对图像进行分割和上采样，处理后得到一组尺寸相同的图像集X₁,X₂,...,X_N以及对应的标签向量Y₁,Y₂,...,Y_N；

步骤1-2)将上述单通道图像集中的声呐图像分为K个类别并且按类别进行图像融合处理，将每个类别中的图像每连续3幅融合成为一张3通道图像，即X'₁＝X₁+X₂+X₃，X'₂＝X₂+X₃+X₄，以此类推；

步骤1-3)经过上述处理后，共得到图像集X'₁,X'₂,...,X'_N-2K以及对应的标签向量Y₁',Y'₂,...,Y'_N-2K，记为X'₁,X'₂,...,X'_M与Y₁',Y'₂,...,Y'_M；

步骤1-4)在上述图像集中随机选取N₁幅图像及其标签构成训练数据集D_train，剩余N₂幅图像及其标签构成训练数据集D_test，其中N₁+N₂＝M，

为实现上述目的，所述步骤2)具体包括：

步骤2-1)基于轻量型卷积网络的多角度声呐图像目标分类模型以轻量型MobileNetV2网络作为基础网络，整个网络模型包括特征提取和分类两个部分，特征提取网络包括输入层Input、特征提取卷积层Conv1、瓶颈层Bottleneck1-Bottleneck7、特征提取卷积层Conv2、Flatten层，通过Flatten层将特征图转换为一维后，使用Dropout层进行随机丢弃以改善网络的拟合效果，最后的分类网络通过一个全连接层来得到最终的目标分类结果；

步骤2-2)瓶颈层Bottleneck是基于轻量型卷积网络的多角度声呐图像目标分类模型的核心部分，每个Bottleneck单元由两个标准卷积和一个深度可分离卷积组成，在深度可分离卷积模块中，标准卷积被分解成一个深度卷积和一个逐点卷积，深度卷积将输入特征图的每个通道与其对应的卷积核进行卷积，产生与输入通道数个数相同的结果，完成对输入特征图的过滤，逐点卷积将前述深度卷积的结果作为输入，使用1×1大小的卷积核完成对深度卷积输出结果的线性组合；

步骤2-3)瓶颈层Bottleneck首先通过1×1的标准卷积实现维度扩展操作，再用3×3的深度分离卷积进行特征提取，最后使用1×1的标准卷积将数据进行压缩，两个标准卷积分别使用ReLU6和Linear函数进行激活，深度可分离卷积使用标准化BN层和线性整流函数ReLU6进行正则化和激活：

ReLU6(x)＝min(6,max(x,0))

Linear(x)＝x

其中，

为卷积层的输出结果，μ_B和/>

分别表示均值和方差，y_i为归一化后的输出结果；这里，x_i表示当前网络层第i个神经元(节点)的值，m为当前网络层神经元(节点)的总个数。/>

为归一化后的x_i值，γ与β为可学习重构参数，ε表示正则化因子。

步骤2-4)原始轻量型MobileNetV2网络在训练过程中使用的是ImageNet数据集，使用平均池化Avgpool下采样来减少特征数量，考虑到水下目标图像在数量与种类上均与原数据集相差较大，为了得到较好的拟合效果，本发明中将特征提取卷积层Conv2的通道数由原来的1280设置为128，以此减少计算开销和内存占用，并使用Flatten层实现降维操作，将该层的三维输出转化为一维，并且在其后添加一个丢弃率为0.5的Dropout层随机丢弃一部分单元，从而改善网络拟合情况，最后通过一个全连接层得到目标分类结果；

步骤2-5)在基于轻量型卷积网络的多角度声呐图像目标分类模型中，输入层Input的图像尺寸为(224,224,3)，经过具有3×3卷积核的特征提取卷积层Conv1后，特征图大小为(112,112,32)，之后经过7个瓶颈层Bottleneck1-Bottleneck7，特征图大小变为(112,112,16)(56,56,24)(28,28,32)(14,14,64)(14,14,96)(7,7,160)(7,7,320)，经过具有3×3卷积核的特征提取卷积层Conv2后，特征图大小为(7,7,128)，随后通过Flatten层将特征图转换为一维，使用全连接层将目标分类为K类；

为实现上述目的，所述步骤3)具体包括：

步骤3-1)在搭建基于轻量型卷积网络的多角度声呐图像目标分类网络时，对每个网络层的参数进行均值为0，方差为1的高斯分布G(μ,σ²)随机初始化；

步骤3-3)通过交叉熵损失函数(categorical cross entropy)来计算模型的函数损失值，计算公式为：

步骤3-4)使用Softmax分类函数将网络最后一层的输出转化为输入图像属于各类别的概率，得到最终的分类结果：

其中，z_i为第i个节点的输出值，K为输出节点数，即分类的类别数；

为实现上述目的，所述步骤4)具体包括：

步骤4-1)使用不同网络模型进行对比试验，通过不同的评价指标来衡量各模型最终的分类效果；

步骤4-2)使用单通道声呐图像与多角度声呐图像进行对比实验，验证本发明所提方法的分类性能。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例

如图1所示，本发明的实施例提出了基于轻量型卷积网络的多角度声呐图像分类方法，其实施方式包括以下步骤：

步骤1：对获取的声呐图像进行预处理，将3幅连续单通道声呐图像进行图像融合，获得具有相同尺寸的多角度声呐图像数据集，具体实施如下：

步骤2：构建基于轻量型卷积网络的多角度声呐图像目标分类模型，具体实施如下：

步骤2-2)瓶颈层Bottleneck是基于轻量型卷积网络的多角度声呐图像目标分类模型的核心部分，每个Bottleneck单元由两个标准卷积和一个深度可分离卷积组成，在深度可分离卷积模块中，标准卷积被分解成一个深度卷积和一个逐点卷积，深度卷积将输入特征图的每个通道与其对应的卷积核进行卷积，产生与输入通道数个数相同的结果，完成对输入特征图的过滤，逐点卷积将前述深度卷积的结果作为输入，使用1×1大小的卷积核完成对深度卷积输出结果的线性组合；如图2(a)和图2(b)所示，分别是步长为1和步长为2时的瓶颈层结构示意图。

ReLU6(x)＝min(6,max(x,0))

Linear(x)＝x

其中，

为卷积层的输出结果，μ_B和/>

分别表示均值和方差，y_i为归一化后的输出结果；

步骤2-4)原始轻量型MobileNetV2网络在训练过程中使用的是ImageNet数据集，使用平均池化Avgpool下采样来减少特征数量，考虑到水下目标图像在数量与种类上均与原数据集相差较大，为了得到较好的拟合效果，本发明中将特征提取卷积层Conv2的通道数由原来的1280设置为128，以此减少计算开销和内存占用，并使用Flatten层实现降维操作，将该层的三维输出转化为一维，并且在其后添加一个丢弃率为0.5的Dropout层随机丢弃一部分单元，从而改善网络拟合情况，最后通过一个全连接层得到目标分类结果；如图3所示，是改进的轻量型卷积网络模型图，包括输入层、特征提取卷积层、瓶颈层、密集连接层等模块。

步骤2-5)在基于轻量型卷积网络的多角度声呐图像目标分类模型中，输入层Input的图像尺寸为(224,224,3)，经过具有3×3卷积核的特征提取卷积层Conv1后，特征图大小为(112,112,32)，之后经过7个瓶颈层Bottleneck1-Bottleneck7，特征图大小变为(112,112,16)(56,56,24)(28,28,32)(14,14,64)(14,14,96)(7,7,160)(7,7,320)，经过具有3×3卷积核的特征提取卷积层Conv2后，特征图大小为(7,7,128)，随后通过Flatten层将特征图转换为一维，使用全连接层将目标分类为K类。

步骤3：利用获取的数据集对上述多角度声呐图像目标分类模型进行迭代训练，具体实施如下：

步骤4：利用图像数据集对目标分类模型进行训练和测试，得到目标分类结果，具体实施如下：

下面结合仿真实验，对本发明的技术效果作进一步的说明：

仿真实验的条件和内容：

仿真实验平台为：Windows系统、基于TensorFlow后台的Keras环境构建网络，实验计算机CPU为i7-10750H、GPU为RTX2070。实验所用仿真数据集为三维建模软件得到的仿真数据集，包括球状、柱状、台状目标3种形状的目标共1526张，仿真过程中，声呐与目标之间的掠射角范围为30～45°，目标轴线与入射声波的角度范围为0～180°，仿真数据集用以对模型进行辅助训练。

为了验证所提方法性能，随机抽取80％的图像数据进行训练，剩余数据作为测试集验证网络性能。网络代价函数选用分类交叉熵，计算预测值与真实标签之间的距离，采用Optimizers优化器对整个网络的参数进行优化，丢弃率设为0.5，批尺寸设为16，学习率设为0.0001，迭代次数为100，分别使用VGG、MobileNetV2以及本发明改进的网络进行10次随机实验并计算平均值，表1为几种网络模型在本文数据集上的分类准确率和参数量：

表1不同模型的分类性能/％

从表1中可以看出，本发明所提模型的分类准确率最高，VGGNet模型的分类准确率仅次于本发明提出的模型，但是其参数量过大；本发明所提模型较原始MobileNetV2来说在分类准确率和参数量上都更具优势。使用本发明所提模型，利用单通道图像数据进行对比实验，分类结果如表2所示，结果表明多通道数据能够充分利用图像信息，更有利于目标分类。

表2不同数据下的分类性能/％

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。