CN113052215A - 基于神经网络可视化的声呐图像自动目标识别方法 - Google Patents

基于神经网络可视化的声呐图像自动目标识别方法 Download PDF

Info

Publication number
CN113052215A
CN113052215A CN202110275720.9A CN202110275720A CN113052215A CN 113052215 A CN113052215 A CN 113052215A CN 202110275720 A CN202110275720 A CN 202110275720A CN 113052215 A CN113052215 A CN 113052215A
Authority
CN
China
Prior art keywords
sonar
data set
automatic target
neural network
sonar image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110275720.9A
Other languages
English (en)
Inventor
郑荣濠
楼冠廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110275720.9A priority Critical patent/CN113052215A/zh
Publication of CN113052215A publication Critical patent/CN113052215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络可视化的声呐图像自动目标识别方法。通过实现一种仅依靠样本类别标签对声呐图像目标的定位与识别方法,较大减少了方法的人工成本和在声呐图像领域的泛化能力。针对声呐数据集缺乏造成的训练模型明显的过拟合问题,本发明通过自适应实例正则化(Adaptive InstanceNormalization,AdaIN)风格转换方法将原预训练所用光学数据集转换为了基于形状偏好的光学数据集,使得获取的预训练参数对形状特征更为鲁棒,从而辅助模型在声呐数据集的训练中侧重于提取声呐图像目标特有的形状特征。实验证明该方法不但有助于解决声呐数据集不足造成的模型定位失准的问题,而且进一步提升了模型在声呐图像的自动目标识别任务中的效果。

Description

基于神经网络可视化的声呐图像自动目标识别方法
技术领域
本发明属于声呐目标识别领域,特别涉及一种基于神经网络可视化的声呐图像自动目标识别方法。
背景技术
声呐图像的自动目标识别技术能够不受水质和光学可见度的影响,广泛应用于AUV中承担一些测量、检测和探测任务。声纳图像中目标的自动识别通常分为定位和识别两个步骤。定位部分的目的是定位最可能包含目标的区域,而分类部分则通过利用定位区域的信息来确定目标的类别。大多数方法通过不同的技术分两步完成自动目标识别任务,增加了方法的人工成本,也影响了泛化能力。
近年来,随着CNN方法在光学图像检测和识别任务中取得了优异的效果,研究人员也试图将CNN方法应用到声纳图像中目标的自动识别领域。在文献“Valdenegro-ToroM.Object recognition in forward-looking sonar images with ConvolutionalNeural Networks[C]//Oceans.IEEE,2016.”中,作者利用CNNs将海洋垃圾数据集的识别率提高到99\%,并通过各种模型的融合提高了分类效果。但是,作者数据集中的目标对象是手动截获的。文献“Berthomier T,Williams D P,Dugelay S.Target Localization inSynthetic Aperture Sonar Imagery using Convolutional Neural Networks[C]//OCEANS 2019 MTS/IEEE SEATTLE.IEEE, 2019.”的作者提出,根据声呐图像的特点,提出可以利用训练在分类任务上的 CNNs来可视化定位目标。由此,基于神经网络可视化的方法解决声呐图像自动目标识别的实际问题成为可能。
发明内容
为解决神经网络可视化的方法实际应用到声呐图像中存在的技术问题,本发明提出一种基于神经网络可视化的声呐图像自动目标识别方法,通过寻求合适的数据集预训练参数,提升模型提取特征的基础能力,从而准确且鲁棒的识别定位目标。
本发明技术方案如下:
本范首先公开了一种基于神经网络可视化的声呐图像自动目标识别方法,其包括如下步骤:
1)使用ResNet-18分类主干网络和Grad-CAM神经网络可视化搭建自动目标识别模型;其中,Grad-CAM模块置于ResNet-18分类主干网络的全连接层前;
2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,
3)利用标记了样本类别的声呐图像作为训练集,对步骤2)预训练后的自动目标模型进行再训练;
4)将待识别样本输入经再训练后的自动目标识别模型,得到分类类别,基于Grad-CAM模块得到指示目标位置的可视化热力图;对热力图高亮部分使用最小外接矩形法获得具体目标位置。
进一步的,所述的Grad-CAM模块,其结构为
Figure BDA0002976554400000021
其中Ai表示最终输出的n张特征图中的1张,其对样本被分类到某一类别c的影响权重记为
Figure BDA0002976554400000022
ReLU为激活函数,使得可视化时只关注与类c正相关的区域。
进一步的,
Figure BDA0002976554400000023
由识别模型判定样本为类c的总得分对每个特征图像素求导得到:
Figure BDA0002976554400000024
式中Sc表示全连接层判定样本被分类到某一类别c的得分,
Figure BDA0002976554400000025
是一张大小为i1×i2的特征图i中某一点的像素值;由于
Figure BDA0002976554400000026
代表的是特征图的平均权重,进一步除以
Figure BDA0002976554400000027
以求平均,由此,Grad-CAM模块一般化的结构为:
Figure BDA0002976554400000028
进一步的,所述ResNet-18分类主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成;每个卷积单元由两个卷积层和一个跳跃连接层组成。
进一步的,所述步骤2)中,基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,具体为:
ImageNet光学数据集获取背景为海洋场景的部分数据,作为基础光学数据集;
利用Painter by Numbers数据集作为风格数据集,之后基于VGG-19实现AdaIN风格转换生成形状偏好光学数据集,AdaIN的具体描述如下:
Figure BDA0002976554400000031
式中,x是内容图像,y是风格图像,μ和σ分别表示均值和标准差。
进一步的,所述步骤3)中,训练集中的声呐图像调整为统一像素尺寸,如果声呐图像中有多个目标,以居于中央最明显的目标作为该声呐图像的样本类别。
进一步的,所述步骤4)中,对热力图高亮部分使用最小外接矩形法获得具体目标位置具体为:
通过设定灰度阈值,对热力图中高亮部分求取其最小外接矩形,该矩形在热力图中的位置即对应于原图中目标位置。
本发明克服了声呐数据集训练容易过拟合的问题,将神经网络可视化的方法引入到声呐图像的自动目标识别任务中,与现有技术相比,本发明仅依靠类别标签就可以完整实现声呐目标的定位与识别,且不需要人工设计特征提取算法,有利于降低人工和时间成本,同时也有利于泛化到声呐图像的其他场景中解决相似问题。
附图说明
图1为本发明方法流程图;
图2为本实施方式所用实际声呐数据集样本示意图;
图3为本实施方式具体网络结构示意图;
图4为本实施方式风格转换前后数据结果图;
图5为本实施方式使用不同预训练参数后模型识别结果;
图6为本实施方式使用不同预训练参数后模型定位结果。
具体实施方式
下面参照附图对本发明作进一步详细描述。
如图1所示,本发明所提出的基于神经网络可视化的声呐图像自动目标识别方法主要包括四个步骤,
1)使用ResNet-18分类主干网络和Grad-CAM神经网络可视化搭建自动目标识别模型;其中,Grad-CAM模块置于ResNet-18分类主干网络的全连接层前;
2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,
3)利用标记了样本类别的声呐图像作为训练集,对步骤2)预训练后的自动目标模型进行再训练;
4)将待识别样本输入经再训练后的自动目标识别模型,得到分类类别,基于Grad-CAM模块得到指示目标位置的可视化热力图;对热力图高亮部分使用最小外接矩形法获得具体目标位置。
以下结合具体实施例,对本发明方法的各步骤进行展开描述。
步骤1、使用ResNet-18分类主干网络和Grad-CAM神经网络可视化技术搭建自动目标识别模型:
所述自动目标识别模型结构如图3所示,主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成。每个卷积单元由两个卷积层和一个跳跃连接层组成。Grad-CAM模块置于全连接层前,其结构为:
Figure BDA0002976554400000041
其中Ai表示最终输出的n张特征图中的1张,其对样本被分类到某一类别c 的影响权重记为
Figure BDA0002976554400000042
ReLU激活函数,使得可视化时只关注与类c正相关的区域。其中
Figure BDA0002976554400000043
可以由模型判定样本为类c的总得分对每个特征图像素求导得到:
Figure BDA0002976554400000044
公式(2)中Sc表示全连接层判定样本被分类到某一类别c的得分。
Figure BDA0002976554400000045
是一张大小为i1×i2的特征图i中某一点的像素值。由于
Figure BDA0002976554400000046
代表的是特征图的平均权重,所以进一步除以
Figure BDA0002976554400000047
以求平均。由此,Grad-CAM模块一般化的结构为:
Figure BDA0002976554400000048
步骤2、基于ImageNet光学数据集和自适应实例正则化(Adaptive InstanceNormalization,AdaIN)风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,包括以下步骤:
步骤201、基于ImageNet光学数据集获取背景为海洋场景,内容与声呐图像相似的图像,作为基础光学数据集;
步骤202、利用Painter by Numbers数据集作为风格数据集,之后基于VGG-19 实现AdaIN风格转换,AdaIN的具体描述如下:
Figure BDA0002976554400000051
式(4)中,x是内容图像,y是风格图像。AdaIN通过调整对齐内容特征和风格特征的均值μ和标准差σ,保证了内容和风格的融合。AdaIN完全作用于通道层面,在基本保留了形状结构特征的基础上,对基础光学数据集的纹理和颜色进行了极大程度的转换。生成形状偏好光学数据集,部分转换结果如图4所示;
步骤203、将形状偏好光学数据集作为预训练数据集,为步骤2所述自动目标识别模型的训练提供初始化参数,提升模型在训练过程中提取鲁棒形状特征的偏好。
步骤3、利用标记了样本类别的声呐图像作为训练集,对步骤2)预训练后的自动目标模型进行再训练;
本实施例使用的声呐图像样本如图2所示,为了方便实验,声呐图像都被调整到448×448像素大小,同时我们尽可能将一张完整声呐图像作为一个样本,如果声呐图像中有多个目标,以居于中央最明显的目标作为该声呐图像的样本类别。
步骤4、将测试样本输入经过步骤3训练后的模型,得到分类类别,并基于 Grad-CAM模块得到指示目标位置的可视化热力图。对热力图高亮部分使用最小外接矩形法获得具体目标位置,包括以下步骤:
步骤401、对于输入的待识别样本,由步骤3训练后的模型确定类别,图5 为基于不同大小和类型的预训练数据集训练的声呐图像目标识别结果,其中IN-9, IN-56表示模型预训练使用的是包含9类和56类数据的原始光学数据集,TIN-9, TIN-56则使用的是风格转换后对应的形状偏好光学数据集。可以看出,与IN-9 和IN-56相比,TIN-9和TIN-56的分类结果收敛速度有了明显提升,说明本发明可以在迁移参数过程中,强化模型的形状特征提取能力,从而有效帮助模型解决声呐图像自动目标识别任务;
步骤402、利用步骤3所述的Grad-CAM方法对样本输入全连接层前的特征图计算权重,按照权重将所有特征图进行叠加融合,对融合后的特征图进行像素值归一化,并放大到样本原图大小,最终得到以热力图显示的结果。图6为基于不同大小和类型的预训练数据集训练的声呐图像目标定位结果,可以看出,不论是TIN-9与IN-9相比还是TIN-56和IN-56的结果相比,定位能力都有显著提升。通过有针对性的提升模型对声呐图像场景中形状特征的提取能力,不但有助于缓解迁移参数时对大规模数据量的依赖,还可以进一步提升模型在声呐图像的自动目标识别任务中的效果;
步骤403、对输入样本的热力图高亮部分求取其最小外接矩形,该矩形在热力图中的位置即对应于原图中目标位置。为了定量评估本方法的定位能力,本实施例使用183张包含各种目标和场景的样本作为测试集,计算测试集样本热力图高亮部分得到的最小外接矩形框和人工确定的目标实际位置框的交叠比 (Intersection Over Union,IOU),并以0.5,0.4,0.3等不同阈值情况下样本超过阈值的比例作为量化后的定位准确率。具体结果如表1所示,数值结果同样印证了步骤402的观点。
表1:本实施方式使用不同预训练参数后模型定位能力的定量结果
Figure BDA0002976554400000061
由此可见,本发明仅依靠类别标签就可以完整实现声呐目标的定位与识别,且不需要人工设计特征提取算法,有利于降低人工和时间成本,同时也有利于泛化到声呐图像的其他场景中解决相似问题。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,包括如下步骤:
1)使用ResNet-18分类主干网络和Grad-CAM神经网络可视化搭建自动目标识别模型;其中,Grad-CAM模块置于ResNet-18分类主干网络的全连接层前;
2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,
3)利用标记了样本类别的声呐图像作为训练集,对步骤2)预训练后的自动目标模型进行再训练;
4)将待识别样本输入经再训练后的自动目标识别模型,得到分类类别,基于Grad-CAM模块得到指示目标位置的可视化热力图;对热力图高亮部分使用最小外接矩形法获得具体目标位置。
2.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,所述的Grad-CAM模块,其结构为
Figure FDA0002976554390000011
其中Ai表示最终输出的n张特征图中的1张,其对样本被分类到某一类别c的影响权重记为
Figure FDA0002976554390000012
ReLU为激活函数,使得可视化时只关注与类c正相关的区域。
3.根据权利要求2所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,
Figure FDA0002976554390000013
由识别模型判定样本为类c的总得分对每个特征图像素求导得到:
Figure FDA0002976554390000014
式中Sc表示全连接层判定样本被分类到某一类别c的得分,
Figure FDA0002976554390000015
是一张大小为i1×i2的特征图i中某一点的像素值;由于
Figure FDA0002976554390000016
代表的是特征图的平均权重,进一步除以
Figure FDA0002976554390000017
以求平均,由此,Grad-CAM模块一般化的结构为:
Figure FDA0002976554390000018
4.根据权利要求1或2所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,所述ResNet-18分类主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成;每个卷积单元由两个卷积层和一个跳跃连接层组成。
5.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,所述步骤2)中,基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,具体为:
ImageNet光学数据集获取背景为海洋场景的部分数据,作为基础光学数据集;
利用Painter by Numbers数据集作为风格数据集,之后基于VGG-19实现AdaIN风格转换生成形状偏好光学数据集,AdaIN的具体描述如下:
Figure FDA0002976554390000021
式中,x是内容图像,y是风格图像,μ和σ分别表示均值和标准差。
6.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,所述步骤3)中,训练集中的声呐图像调整为统一像素尺寸,如果声呐图像中有多个目标,以居于中央最明显的目标作为该声呐图像的样本类别。
7.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,所述步骤4)中,
对热力图高亮部分使用最小外接矩形法获得具体目标位置具体为:
通过设定灰度阈值,对热力图中高亮部分求取其最小外接矩形,该矩形在热力图中的位置即对应于原图中目标位置。
CN202110275720.9A 2021-03-15 2021-03-15 基于神经网络可视化的声呐图像自动目标识别方法 Pending CN113052215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275720.9A CN113052215A (zh) 2021-03-15 2021-03-15 基于神经网络可视化的声呐图像自动目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275720.9A CN113052215A (zh) 2021-03-15 2021-03-15 基于神经网络可视化的声呐图像自动目标识别方法

Publications (1)

Publication Number Publication Date
CN113052215A true CN113052215A (zh) 2021-06-29

Family

ID=76512617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275720.9A Pending CN113052215A (zh) 2021-03-15 2021-03-15 基于神经网络可视化的声呐图像自动目标识别方法

Country Status (1)

Country Link
CN (1) CN113052215A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807324A (zh) * 2021-11-02 2021-12-17 中国人民解放军32021部队 一种声呐图像识别方法、装置、电子设备和储存介质
CN114419309A (zh) * 2022-01-07 2022-04-29 福州大学 一种基于大脑T1-w磁共振影像的高维特征自动提取方法
CN115019107A (zh) * 2022-06-29 2022-09-06 武汉理工大学 基于风格迁移的声呐仿真图像生成方法、系统及介质
CN117274788A (zh) * 2023-10-07 2023-12-22 南开大学 一种声呐图像目标定位方法、系统、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
G. LOU,ET.AL: "Automatic Target Recognition in Forward-Looking Sonar Images using Transfer Learning", 《GLOBAL OCEANS 2020: SINGAPORE – U.S. GULF COAST》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807324A (zh) * 2021-11-02 2021-12-17 中国人民解放军32021部队 一种声呐图像识别方法、装置、电子设备和储存介质
CN114419309A (zh) * 2022-01-07 2022-04-29 福州大学 一种基于大脑T1-w磁共振影像的高维特征自动提取方法
CN115019107A (zh) * 2022-06-29 2022-09-06 武汉理工大学 基于风格迁移的声呐仿真图像生成方法、系统及介质
CN117274788A (zh) * 2023-10-07 2023-12-22 南开大学 一种声呐图像目标定位方法、系统、电子设备及存储介质
CN117274788B (zh) * 2023-10-07 2024-04-30 南开大学 一种声呐图像目标定位方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110363182B (zh) 基于深度学习的车道线检测方法
CN113052215A (zh) 基于神经网络可视化的声呐图像自动目标识别方法
CN111553837B (zh) 一种基于神经风格迁移的艺术文本图像生成方法
CN105809121A (zh) 多特征协同的交通标志检测与识别方法
CN111310760B (zh) 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
CN111461134A (zh) 一种基于生成对抗网络的低分辨率车牌识别方法
CN111626993A (zh) 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统
CN111680706A (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN111652213A (zh) 一种基于深度学习的船舶水尺读数识别方法
CN110659601B (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN109766823A (zh) 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法
CN112052817A (zh) 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法
CN114998603B (zh) 一种基于深度多尺度特征因子融合的水下目标检测方法
CN112149620A (zh) 基于无锚点的自然场景文字区域检测模型的构建方法
CN112784757B (zh) 海上sar舰船目标显著性检测与识别方法
CN114648806A (zh) 一种多机制自适应的眼底图像分割方法
CN114821229A (zh) 基于条件生成对抗网络的水下声学数据集增广方法及系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN110458019B (zh) 稀缺认知样本条件下的排除倒影干扰的水面目标检测方法
CN115223032A (zh) 一种基于图像处理和神经网络融合的水生物识别与匹配方法
CN114549909A (zh) 一种基于自适应阈值的伪标签遥感图像场景分类方法
CN114049478A (zh) 基于改进Cascade R-CNN的红外船舶图像快速识别方法及系统
CN114882204A (zh) 船名自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210629