CN113052215A

CN113052215A - 基于神经网络可视化的声呐图像自动目标识别方法

Info

Publication number: CN113052215A
Application number: CN202110275720.9A
Authority: CN
Inventors: 郑荣濠; 楼冠廷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-29

Abstract

本发明公开了一种基于神经网络可视化的声呐图像自动目标识别方法。通过实现一种仅依靠样本类别标签对声呐图像目标的定位与识别方法，较大减少了方法的人工成本和在声呐图像领域的泛化能力。针对声呐数据集缺乏造成的训练模型明显的过拟合问题，本发明通过自适应实例正则化(Adaptive InstanceNormalization，AdaIN)风格转换方法将原预训练所用光学数据集转换为了基于形状偏好的光学数据集，使得获取的预训练参数对形状特征更为鲁棒，从而辅助模型在声呐数据集的训练中侧重于提取声呐图像目标特有的形状特征。实验证明该方法不但有助于解决声呐数据集不足造成的模型定位失准的问题，而且进一步提升了模型在声呐图像的自动目标识别任务中的效果。

Description

基于神经网络可视化的声呐图像自动目标识别方法

技术领域

本发明属于声呐目标识别领域，特别涉及一种基于神经网络可视化的声呐图像自动目标识别方法。

背景技术

声呐图像的自动目标识别技术能够不受水质和光学可见度的影响，广泛应用于AUV中承担一些测量、检测和探测任务。声纳图像中目标的自动识别通常分为定位和识别两个步骤。定位部分的目的是定位最可能包含目标的区域，而分类部分则通过利用定位区域的信息来确定目标的类别。大多数方法通过不同的技术分两步完成自动目标识别任务，增加了方法的人工成本，也影响了泛化能力。

近年来，随着CNN方法在光学图像检测和识别任务中取得了优异的效果，研究人员也试图将CNN方法应用到声纳图像中目标的自动识别领域。在文献“Valdenegro-ToroM.Object recognition in forward-looking sonar images with ConvolutionalNeural Networks[C]//Oceans.IEEE,2016.”中，作者利用CNNs将海洋垃圾数据集的识别率提高到99\％，并通过各种模型的融合提高了分类效果。但是，作者数据集中的目标对象是手动截获的。文献“Berthomier T,Williams D P,Dugelay S.Target Localization inSynthetic Aperture Sonar Imagery using Convolutional Neural Networks[C]//OCEANS 2019 MTS/IEEE SEATTLE.IEEE, 2019.”的作者提出，根据声呐图像的特点，提出可以利用训练在分类任务上的 CNNs来可视化定位目标。由此，基于神经网络可视化的方法解决声呐图像自动目标识别的实际问题成为可能。

发明内容

为解决神经网络可视化的方法实际应用到声呐图像中存在的技术问题，本发明提出一种基于神经网络可视化的声呐图像自动目标识别方法，通过寻求合适的数据集预训练参数，提升模型提取特征的基础能力，从而准确且鲁棒的识别定位目标。

本发明技术方案如下：

本范首先公开了一种基于神经网络可视化的声呐图像自动目标识别方法，其包括如下步骤：

1)使用ResNet-18分类主干网络和Grad-CAM神经网络可视化搭建自动目标识别模型；其中，Grad-CAM模块置于ResNet-18分类主干网络的全连接层前；

2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集，利用形状偏好数据集对自动目标识别模型进行预训练，获取对形状特征鲁棒的预训练参数，

3)利用标记了样本类别的声呐图像作为训练集，对步骤2)预训练后的自动目标模型进行再训练；

4)将待识别样本输入经再训练后的自动目标识别模型，得到分类类别，基于Grad-CAM模块得到指示目标位置的可视化热力图；对热力图高亮部分使用最小外接矩形法获得具体目标位置。

进一步的，所述的Grad-CAM模块，其结构为

其中Aⁱ表示最终输出的n张特征图中的1张，其对样本被分类到某一类别c的影响权重记为

ReLU为激活函数，使得可视化时只关注与类c正相关的区域。

进一步的，

由识别模型判定样本为类c的总得分对每个特征图像素求导得到：

式中S_c表示全连接层判定样本被分类到某一类别c的得分，

是一张大小为i1×i2的特征图i中某一点的像素值；由于

代表的是特征图的平均权重，进一步除以

以求平均，由此，Grad-CAM模块一般化的结构为:

进一步的，所述ResNet-18分类主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成；每个卷积单元由两个卷积层和一个跳跃连接层组成。

进一步的，所述步骤2)中，基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集，具体为：

ImageNet光学数据集获取背景为海洋场景的部分数据，作为基础光学数据集；

利用Painter by Numbers数据集作为风格数据集，之后基于VGG-19实现AdaIN风格转换生成形状偏好光学数据集，AdaIN的具体描述如下：

式中，x是内容图像，y是风格图像，μ和σ分别表示均值和标准差。

进一步的，所述步骤3)中，训练集中的声呐图像调整为统一像素尺寸，如果声呐图像中有多个目标，以居于中央最明显的目标作为该声呐图像的样本类别。

进一步的，所述步骤4)中，对热力图高亮部分使用最小外接矩形法获得具体目标位置具体为：

通过设定灰度阈值，对热力图中高亮部分求取其最小外接矩形，该矩形在热力图中的位置即对应于原图中目标位置。

本发明克服了声呐数据集训练容易过拟合的问题，将神经网络可视化的方法引入到声呐图像的自动目标识别任务中，与现有技术相比，本发明仅依靠类别标签就可以完整实现声呐目标的定位与识别，且不需要人工设计特征提取算法，有利于降低人工和时间成本，同时也有利于泛化到声呐图像的其他场景中解决相似问题。

附图说明

图1为本发明方法流程图；

图2为本实施方式所用实际声呐数据集样本示意图；

图3为本实施方式具体网络结构示意图；

图4为本实施方式风格转换前后数据结果图；

图5为本实施方式使用不同预训练参数后模型识别结果；

图6为本实施方式使用不同预训练参数后模型定位结果。

具体实施方式

下面参照附图对本发明作进一步详细描述。

如图1所示，本发明所提出的基于神经网络可视化的声呐图像自动目标识别方法主要包括四个步骤，

以下结合具体实施例，对本发明方法的各步骤进行展开描述。

步骤1、使用ResNet-18分类主干网络和Grad-CAM神经网络可视化技术搭建自动目标识别模型：

所述自动目标识别模型结构如图3所示，主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成。每个卷积单元由两个卷积层和一个跳跃连接层组成。Grad-CAM模块置于全连接层前，其结构为：

其中Aⁱ表示最终输出的n张特征图中的1张，其对样本被分类到某一类别c 的影响权重记为

ReLU激活函数，使得可视化时只关注与类c正相关的区域。其中

可以由模型判定样本为类c的总得分对每个特征图像素求导得到：

公式(2)中S_c表示全连接层判定样本被分类到某一类别c的得分。

是一张大小为i1×i2的特征图i中某一点的像素值。由于

代表的是特征图的平均权重，所以进一步除以

以求平均。由此，Grad-CAM模块一般化的结构为:

步骤2、基于ImageNet光学数据集和自适应实例正则化(Adaptive InstanceNormalization，AdaIN)风格转换技术构建形状偏好数据集，利用形状偏好数据集对自动目标识别模型进行预训练，获取对形状特征鲁棒的预训练参数，包括以下步骤：

步骤201、基于ImageNet光学数据集获取背景为海洋场景，内容与声呐图像相似的图像，作为基础光学数据集；

步骤202、利用Painter by Numbers数据集作为风格数据集，之后基于VGG-19 实现AdaIN风格转换，AdaIN的具体描述如下：

式(4)中，x是内容图像，y是风格图像。AdaIN通过调整对齐内容特征和风格特征的均值μ和标准差σ，保证了内容和风格的融合。AdaIN完全作用于通道层面，在基本保留了形状结构特征的基础上，对基础光学数据集的纹理和颜色进行了极大程度的转换。生成形状偏好光学数据集，部分转换结果如图4所示；

步骤203、将形状偏好光学数据集作为预训练数据集，为步骤2所述自动目标识别模型的训练提供初始化参数，提升模型在训练过程中提取鲁棒形状特征的偏好。

步骤3、利用标记了样本类别的声呐图像作为训练集，对步骤2)预训练后的自动目标模型进行再训练；

本实施例使用的声呐图像样本如图2所示，为了方便实验，声呐图像都被调整到448×448像素大小，同时我们尽可能将一张完整声呐图像作为一个样本，如果声呐图像中有多个目标，以居于中央最明显的目标作为该声呐图像的样本类别。

步骤4、将测试样本输入经过步骤3训练后的模型，得到分类类别，并基于 Grad-CAM模块得到指示目标位置的可视化热力图。对热力图高亮部分使用最小外接矩形法获得具体目标位置，包括以下步骤：

步骤401、对于输入的待识别样本，由步骤3训练后的模型确定类别，图5 为基于不同大小和类型的预训练数据集训练的声呐图像目标识别结果，其中IN-9， IN-56表示模型预训练使用的是包含9类和56类数据的原始光学数据集，TIN-9， TIN-56则使用的是风格转换后对应的形状偏好光学数据集。可以看出，与IN-9 和IN-56相比，TIN-9和TIN-56的分类结果收敛速度有了明显提升，说明本发明可以在迁移参数过程中，强化模型的形状特征提取能力，从而有效帮助模型解决声呐图像自动目标识别任务；

步骤402、利用步骤3所述的Grad-CAM方法对样本输入全连接层前的特征图计算权重，按照权重将所有特征图进行叠加融合，对融合后的特征图进行像素值归一化，并放大到样本原图大小，最终得到以热力图显示的结果。图6为基于不同大小和类型的预训练数据集训练的声呐图像目标定位结果，可以看出，不论是TIN-9与IN-9相比还是TIN-56和IN-56的结果相比，定位能力都有显著提升。通过有针对性的提升模型对声呐图像场景中形状特征的提取能力，不但有助于缓解迁移参数时对大规模数据量的依赖，还可以进一步提升模型在声呐图像的自动目标识别任务中的效果；

步骤403、对输入样本的热力图高亮部分求取其最小外接矩形，该矩形在热力图中的位置即对应于原图中目标位置。为了定量评估本方法的定位能力，本实施例使用183张包含各种目标和场景的样本作为测试集，计算测试集样本热力图高亮部分得到的最小外接矩形框和人工确定的目标实际位置框的交叠比 (Intersection Over Union，IOU)，并以0.5，0.4，0.3等不同阈值情况下样本超过阈值的比例作为量化后的定位准确率。具体结果如表1所示，数值结果同样印证了步骤402的观点。

表1：本实施方式使用不同预训练参数后模型定位能力的定量结果

由此可见，本发明仅依靠类别标签就可以完整实现声呐目标的定位与识别，且不需要人工设计特征提取算法，有利于降低人工和时间成本，同时也有利于泛化到声呐图像的其他场景中解决相似问题。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，所述的Grad-CAM模块，其结构为

ReLU为激活函数，使得可视化时只关注与类c正相关的区域。

3.根据权利要求2所述的基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，

式中S_c表示全连接层判定样本被分类到某一类别c的得分，

是一张大小为i1×i2的特征图i中某一点的像素值；由于

代表的是特征图的平均权重，进一步除以

以求平均，由此，Grad-CAM模块一般化的结构为:

4.根据权利要求1或2所述的基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，所述ResNet-18分类主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成；每个卷积单元由两个卷积层和一个跳跃连接层组成。

5.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，所述步骤2)中，基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集，具体为：

6.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，所述步骤3)中，训练集中的声呐图像调整为统一像素尺寸，如果声呐图像中有多个目标，以居于中央最明显的目标作为该声呐图像的样本类别。

7.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法，其特征在于，所述步骤4)中，

对热力图高亮部分使用最小外接矩形法获得具体目标位置具体为：