CN117274788A - 一种声呐图像目标定位方法、系统、电子设备及存储介质 - Google Patents

一种声呐图像目标定位方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN117274788A
CN117274788A CN202311281656.0A CN202311281656A CN117274788A CN 117274788 A CN117274788 A CN 117274788A CN 202311281656 A CN202311281656 A CN 202311281656A CN 117274788 A CN117274788 A CN 117274788A
Authority
CN
China
Prior art keywords
sonar image
training
data set
target
sonar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311281656.0A
Other languages
English (en)
Other versions
CN117274788B (zh
Inventor
张建磊
张春燕
魏光泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202311281656.0A priority Critical patent/CN117274788B/zh
Publication of CN117274788A publication Critical patent/CN117274788A/zh
Application granted granted Critical
Publication of CN117274788B publication Critical patent/CN117274788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开一种声呐图像目标定位方法、系统、电子设备及存储介质,涉及水下声呐图像处理技术领域,所述方法包括:获取待定位声呐图像;基于待定位声呐图像和分类模型,确定待定位声呐图像的特征图、梯度和目标的预测类型;分类模型是利用训练数据集和测试数据集对resnet‑18网络进行训练得到的;训练数据集和测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;特征图和梯度是利用分类模型确定目标的预测类型的过程中的中间量;利用GradCAM算法,根据特征图和梯度确定待定位声呐图像中的目标的位置。本发明提高了声呐图像目标定位的准确率,降低了人工成本。

Description

一种声呐图像目标定位方法、系统、电子设备及存储介质
技术领域
本发明涉及水下声呐图像处理技术领域,特别是涉及一种声呐图像目标定位方法、系统、电子设备及存储介质。
背景技术
在水下的信息处理中,图像是更为直接有效的信息传递方式,而其中又以声呐图像为主,但因为水下环境的复杂,导致声呐成像遇到很多问题,如低分辨率、散斑噪声、强度不均匀性和旁瓣干扰等。相比光学图像,水下图像的获取有着更大的困难,而且存在着声呐图像获取成本高、质量差等缺点,而公开可用的声呐数据,用于分析与研究中往往存在着数量和质量不足的情况,这给水下目标的检测与识别带来诸多挑战。近年来深度学习异军突起,基于神经网络的深度学习对数据有着很强的特征学习能力,而且其学习到的特征数据对原始数据有着更强的表征性。
在光学图像领域,深度学习已经取得了很多高质量的发展,涌现了很多优秀的神经网络模型,这些模型拥有优异的特征提取及目标识别能力。为了应对声呐图像获取成本高、可用数据质量参差不齐的问题,可以通过将基于光学图像训练得到的模型迁移至声呐图像的检测与识别中,利用模型优异的特征提取及表征能力,基于深度迁移学习,对模型进行调整,从而使模型在声呐图像中获得优异的性能。
当对图像目标进行识别后,为了进一步对目标进行处理,通常需要对目标进行定位。声呐图像有一个典型的特征:图像中通常只有一个目标。对于图像中只有一个目标,希望给出目标的类型和位置的识别任务被叫做“目标定位”。实现这一任务通常使用全监督目标检测方法,但是这类方法需要人工对图像目标的类型和位置逐个进行标注,工作量很大且准确率较低。
发明内容
本发明的目的是提供一种声呐图像目标定位方法、系统、电子设备及存储介质,提高了声呐图像目标定位的准确率,降低了人工成本。
为实现上述目的,本发明提供了如下方案:
一种声呐图像目标定位方法,包括:
获取待定位声呐图像;
基于所述待定位声呐图像和分类模型,确定所述待定位声呐图像的特征图、梯度和目标的预测类型;所述分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;所述训练数据集和所述测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;所述特征图和所述梯度是利用所述分类模型确定目标的预测类型的过程中的中间量;
利用GradCAM算法,根据所述特征图和所述梯度确定所述待定位声呐图像中的目标的位置。
可选地,所述分类模型的训练过程,包括:
获取所述训练数据集和所述测试数据集;所述训练数据集包括:多张训练用灰度图像和对应的目标的真实类型,所述训练用灰度图像为训练用声呐图像的灰度图,所述测试数据集包括:多张测试用灰度图像和对应的目标的真实类型,所述测试用灰度图像为测试用声呐图像的灰度图;
以所述训练数据集中的各训练用灰度图像为输入,以对应的目标的真实类型为输出,对resnet-18网络进行训练,得到预训练resnet-18模型;
利用降采样方法,分别对所述训练数据集进行n次采样,得到n个降采样数据集;
分别利用各所述降采样数据集中的各训练用灰度图像为输入,以对应的目标的真实类型为输出,对所述预训练resnet-18网络进行微调,得到n个微调后的resnet-18模型;
基于所述测试数据集分别对预训练resnet-18模型和n个微调后的resnet-18模型进行测试和筛选,得到多个待融合模型;
计算所有所述待融合模型的神经元的权重的平均值作为权重平均值,计算所有所述待融合模型的偏置系数的平均值作为偏置系数平均值;
将所述权重平均值替换所述预训练resnet-18模型的神经元的权重,将所述偏置系数平均值替换所述预训练resnet-18模型的偏置系数,得到所述分类模型。
可选地,基于所述待定位声呐图像和分类模型,确定所述待定位声呐图像的特征图、梯度和目标的预测类型,具体包括:
将所述待定位声呐图像灰度化,得到待定位灰度图;
将所述待定位灰度图输入至所述分类模型中,得到所述待定位声呐图像的特征图、梯度和目标的预测类型。
可选地,利用GradCAM算法,根据所述特征图和所述梯度确定所述待定位声呐图像中的目标的位置,具体包括:
利用GradCAM算法,根据所述特征图和所述梯度确定特征热力图;
对所述特征热力图进行连通化,确定连通区域;
确定所述连通区域的坐标信息,从而确定所述待定位声呐图像中的目标的位置。
可选地,基于所述测试数据集分别对预训练resnet-18模型和n个微调后的resnet-18模型进行测试和筛选,得到多个待融合模型,具体包括:
将所述测试数据集中的各测试用灰度图像分别输入到预训练resnet-18模型和n个微调后的resnet-18模型中,得到对应的预测类型;
基于各模型输出的预测类型和对应的真实类型,计算各模型的准确率和几何均值指标;
将各模型的准确率和几何均值指标的和确定为对应模型的指标值;
基于所述指标值,按照预设遗弃率对各模型进行遗弃,得到多个所述待融合模型。
一种声呐图像目标定位系统,包括:
待定位声呐图像获取模块,用于获取待定位声呐图像;
分类模块,用于基于所述待定位声呐图像和分类模型,确定所述待定位声呐图像的特征图、梯度和目标的预测类型;所述分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;所述训练数据集和所述测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;所述特征图和所述梯度是利用所述分类模型确定目标的预测类型的过程中的中间量;
定位模块,用于利用GradCAM算法,根据所述特征图和所述梯度确定所述待定位声呐图像中的目标的位置。
一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述所述的声呐图像目标定位方法。
一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述所述的声呐图像目标定位方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种声呐图像目标定位方法、系统、电子设备及存储介质,首先,获取待定位声呐图像;然后,基于待定位声呐图像和分类模型,确定待定位声呐图像的特征图、梯度和目标的预测类型;分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;训练数据集和测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;特征图和梯度是利用分类模型确定目标的预测类型的过程中的中间量;最后,利用GradCAM算法,根据特征图和梯度确定待定位声呐图像中的目标的位置,实现了基于GradCAM算法的声呐图像弱监督目标定位,提高了声呐图像目标定位的准确率,降低了人工成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的声呐图像目标定位方法流程示意图;
图2为深度迁移学习流程示意图;
图3为类型平衡采样流程示意图;
图4为集成剪枝阶段流程示意图;
图5为baseline混淆矩阵示意图;
图6为BETL混淆矩阵示意图;
图7为baseline正确率-召回率曲线示意图;
图8为BETL正确率-召回率曲线示意图;
图9为交集示意图;
图10为并集示意图;
图11为IOU示意图;
图12为具体实施例中的弱监督飞机定位结果示意图;
图13为具体实施例中的弱监督人定位结果示意图;
图14为具体实施例中的弱监督残骸定位结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种声呐图像目标定位方法、系统、电子设备及存储介质,旨在提高声呐图像目标定位的准确率,降低人工成本。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1为本发明实施例1提供的声呐图像目标定位方法流程示意图。如图1所示,本实施例中的声呐图像目标定位方法,包括:
步骤101:获取待定位声呐图像。
步骤102:基于待定位声呐图像和分类模型,确定待定位声呐图像的特征图、梯度和目标的预测类型。
其中,分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;训练数据集和测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;特征图和梯度是利用分类模型确定目标的预测类型的过程中的中间量。
作为一种可选的实施方式,步骤102,具体包括:
将待定位声呐图像灰度化,得到待定位灰度图。
将待定位灰度图输入至分类模型中,得到待定位声呐图像的特征图、梯度和目标的预测类型。
作为一种可选的实施方式,分类模型的训练过程,包括:
获取训练数据集和测试数据集;训练数据集包括:多张训练用灰度图像和对应的目标的真实类型,训练用灰度图像为训练用声呐图像的灰度图,测试数据集包括:多张测试用灰度图像和对应的目标的真实类型,测试用灰度图像为测试用声呐图像的灰度图。
以训练数据集中的各训练用灰度图像为输入,以对应的目标的真实类型为输出,对resnet-18网络进行训练,得到预训练resnet-18模型。
利用降采样方法,分别对训练数据集进行n次采样,得到n个降采样数据集。
分别利用各降采样数据集中的各训练用灰度图像为输入,以对应的目标的真实类型为输出,对预训练resnet-18网络进行微调,得到n个微调后的resnet-18模型。
基于测试数据集分别对预训练resnet-18模型和n个微调后的resnet-18模型进行测试和筛选,得到多个待融合模型。
计算所有待融合模型的神经元的权重的平均值作为权重平均值,计算所有待融合模型的偏置系数的平均值作为偏置系数平均值。
将权重平均值替换预训练resnet-18模型的神经元的权重,将偏置系数平均值替换预训练resnet-18模型的偏置系数,得到分类模型。
作为一种可选的实施方式,基于测试数据集分别对预训练resnet-18模型和n个微调后的resnet-18模型进行测试和筛选,得到多个待融合模型,具体包括:
将测试数据集中的各测试用灰度图像分别输入到预训练resnet-18模型和n个微调后的resnet-18模型中,得到对应的预测类型。
基于各模型输出的预测类型和对应的真实类型,计算各模型的准确率和几何均值指标。
将各模型的准确率和几何均值指标的和确定为对应模型的指标值。
基于指标值,按照预设遗弃率对各模型进行遗弃,得到多个待融合模型。
步骤103:利用GradCAM算法,根据特征图和梯度确定待定位声呐图像中的目标的位置。
作为一种可选的实施方式,步骤103,具体包括:
利用GradCAM算法,根据特征图和梯度确定特征热力图。
对特征热力图进行连通化,确定连通区域。
确定连通区域的坐标信息,从而确定待定位声呐图像中的目标的位置。
为了验证实施例1中的方法,下面用一个具体实施例进行说明。本具体实施例采用的数据集是声呐通用目标检测数据集,共有三个类型:plane(飞机)、human(人)和wreck(残骸)。本数据集共提供357张RGB图像。
一、数据预处理。
为符合平衡集成迁移学习的输入格式,对数据首先进行预处理,数据的预处理共有两步:(1)将所有图像转换为灰度图;(2)生成三个txt文本,分别为kfold_train.txt、kfold_val.txt和train.txt。其中,kfold_train.txt是一个随机数文本,包含着每一次交叉验证的训练集的文件序号,kfold_val.txt是一个随机数文本,包含着每一次交叉验证的验证集的文件序号,train.txt是一个目录文本,包含着图片的路径信息及每张图片对应的类型标签(即真实标签),每一张图片的信息都单独存在文本文档中的一行内,每张图片的编号为所处的行数,便于拿到训练随机数后程序定位到对应的图片。因为平衡集成迁移学习算法使用了十次五折交叉验证,所以在k折的训练和验证txt文本中需要生成共50组随机数,其中每组训练集的总数为数据集数的80%,验证集的总数为数据集数的20%。以一折的训练为例,从kfold_train.txt中拿到该折对应的随机数,在train.txt中找到所有随机数对应的图片,将这些图片作为训练集,同理,在验证阶段也是从kfold_train.txt获取对应折的随机数,并从train.txt找到所有对应图片,然后作为验证集。
对数据集进行预处理后,得到图片数据集和三个包含图片路径信息的文本文档,即一个可用于平衡集成迁移学习算法的数据形式,但是因为该算法涉及到一些与数据集相关联的超参数,所以还需要对平衡集成迁移学习算法中部分参数做对应修改,部分参数如下:
1、平衡采样的子集数。在平衡集成迁移学习算法中,平衡采样的子集数不是一个定值,具体的取值需要根据实际的实验效果和数据集的类型、大小进行调整。而实验表明,当平衡采样的子集数为长尾度时实验的效果最佳。长尾度表示数据集中样本数最多的类型的样本数除以样本数最少的类型的样本数。该超参数用于多次平衡降采样中,超参数的大小决定平衡降采样时一共采集几个子集。
2、平衡采样子集的大小。每个数据集中每个类型的数量都不同,所以采样子集的大小需要根据实际数据集的大小进行调整,以便达到最佳的训练效果。实验表明,当平衡采样子集的大小为数据集中尾类的训练样本的平均值时效果最佳。该超参数用于多次平衡降采样中,超参数的大小决定平衡降采样时采样的子集中共含有多少张图片。
二、确定分类模型。
在本具体实施例中使用的平衡集成迁移学习算法,共分为三个阶段。
第一阶段:先迁移模型进行微调,结构如图2,通过迁移学习,以声呐数据集的灰度图作为输入,以图片的真实类型作为输出,对基于训练集对resnet-18网络进行训练,调整预训练resnet-18模型中神经元的权重和偏置系数,保留其优异的特征提取能力并使其在声呐图像上具有较优的分类性能,最终得到一个在声呐数据集上具有更好分类性能的resnet-18模型,即预训练resnet-18模型。
第二阶段:再平衡集成学习阶段。该阶段采用了多次类平衡降采样,以预处理后的声呐数据集作为输入,通过多次的类型平衡采样,得到多个分类模型,对所有分类模型进行性能排序,保留部分分类器进入第三阶段。采样方式如图3,以KLSG数据集为例,该数据集共含有plane类图片62张,wreck类图片385张,为了充分利用数据集的信息,如果使用第一种降采样的方式,plane类和wreck类都只采样62张,那么会导致wreck类欠拟合;如果使用上采样,plane类和wreck类都采样385张,那么会plane的重复采样会导致plane类的过拟合;而在平衡集成迁移学习算法中,使用了多次平衡降采样,以降采样的形式进行多次采样,共得到六个数据集,每个数据集包含plane类62张,wreck类62张。多次平衡降采样得到了多个数据集,既避免了对数据集的重复采集,也能充分利用数据信息并保证类型之间的数据平衡。在具体采样过程中,采样的子集数取决于平衡采样的子集数,而将子集的图片数量取决于平衡采样子集的大小。
利用多次类平衡降采样得到的n个数据集,分别训练预训练resnet-18模型得到n个分类模型,n个分类模型和预训练resnet-18模型共同构成n+1个分类器。
第三阶段:集成剪枝阶段(集成剪枝阶段过程如图4所示)。将验证集分别输入n+1个分类器会得到n+1个预测类型,根据这些预测类型,经评估指标对模型进行排序,保留下性能最优的部分模型进入剪枝。其中,评估指标分别为:准确率和几何均值指标Gmean,准确率即预测正确的概率,由分类正确的图片数除以总图片数得到;定义Gmean前,先定义如表1所示的混淆矩阵。
表1混淆矩阵表
正向 负向
正向 nTP nFN
负向 nFP nTN
表1中,nTP表示真实类型和预测类型都是正值的图片数量;nFP表示真实类型是正值,预测类型是负值的图片数量;nTN表示真实类型和预测类型都是负值的图片数量;nFN表示真实类型是负值,预测类型是正值的图片数量。其中,真实类型是图像中目标的实际类型,而预测类型是模型对图像中目标的类型的预测结果,正向、负向仅仅是一种表述方式,在应用中需要根据实际情况进行替换,例如在KLSG数据集中,可将正向变为plane类,负向变为wreck类,那么nTP表示真实类型和预测类型都为plane类的图片数量,nTN表示真实类型和预测类型都为wreck类的图片数量;nFN表示真实类型是wreck类,预测类型是plane类的图片数量;nFP表示真实类型是plane,预测类型是wreck类的图片数量。
基于混淆矩阵,真阳性的概率(True Positive Rate,TPR)定义为:
真阴性的概率(True Negative Rate,TNR)定义为:
根据TPR和TNR可以得到Gmean的定义为:
因为尾部的分类器性能不佳,保留的话会在之后的融合阶段影响模型的分类性能。因此,在得到准确率和几何均值指标Gmean后,将准确率和几何均值指标Gmean的值相加,然后根据相加后的值的大小从高到低对n+1个分类器进行排序,以一定的遗弃率α对分类器进行遗弃,即剩下的α×(n+1)个分类器,最后使用融合策略融合被保留下的分类器。经测试得到保留60%的分类器具有较优的实验效果,于是,在本具体实施例中使用的融合策略为对多个分类器的参数进行平均,得到一个新的分类器。即将剩下的所有分类器中对应的神经元的权重和偏置系数均进行平均,然后将预训练resnet-18模型中的神经元的权重、偏置系数用平均值进行替换,得到一个融合后的分类器,即分类模型。分类模型在声呐图像目标分类上的性能优于传统迁移学习得到的模型。分类器模型的预测为某一类别的置信度,根据保留的数据绘制绘制混淆矩阵(如图5-图6所示)以及Precision-Recall曲线(如图7-图8所示)。由图5-图8可以看出,在混淆矩阵中,平衡集成迁移学习算法基本都优于深度迁移学习算法,只是在wreck类别的准确率出现了一定的下降。而由Precision-Recall曲线可得到,平衡集成迁移学习算法明显优于深度迁移学习算法,证明了该算法在小样本、分布不均的数据集上具有不错的分类性能。
三、定位。
利用在分类模型输出声呐图像对应类别的中间处理过程中,会产生中间量:特征图和梯度,分类过程中不对中间量进行直接操作,而GradCAM算法会根据梯度大小和特征图输出特征热力图,特征热力图反映哪些区域重点影响了分类模型的分类结果,而这些区域就是目标的位置所在,从而完成了目标的定位。
在GradCAM算法中,梯度的具体计算公式为:
其中,为分类模型中第k个神经元的梯度;Z为特征图长度与宽度的乘积;/>为特征图,由用于分类模型的卷积层进行卷积得到;yc为目标类别的得分,由分类模型的全连接层计算得到;i,j为长、宽维度上的累加数,/>即对于特定目标类别求特征图的梯度,梯度表征了特征图之于预测结果的重要程度,梯度越大,表明该特征图对于预测的类别影响程度越大,也侧面反映了该特征属于目标的一部分,也即一定程度反映了目标的位置。对梯度进行求和平均,等价于CAM算法中的全局平均池化。
为了对定位效果进行有效性验证,故获取原始数据集中每张图像的人工标注的位置信息,与GradCAM生成的定位信息作对比。
GradCAM算法基于声呐图像数据集产生对应的特征热力图。特征热力图是一张与原始图大小相等的图片,图片上每个像素取值由0到1,取值的大小可以表示该像素点之于神经网络预测结果的贡献分布,贡献分布由梯度大小确定,值越大的地方表示对预测结果的影响权重越大。对特征热力图进行连通区域划分并获取相应标记框的坐标信息。得到特征热力图之后需要对网络重点识别的区域也即对预测结果影响权重大的地方进行框选,但特征热力图本身不具有直接获取目标范围的功能。于是在该步骤将目标检测的任务以目标分割方式进行,使用相应python库对特征热力图中相同区域进行连通化,获取连通区域的坐标信息。之后为了验证定位的有效性,需要将特征热力图中获取的坐标信息与实际标注的坐标信息进行对比,为了量化,需要生成标记框与人工标记框进行一个比较,标记框是一个矩形区域。量化的方式是对生成标记框与人工标记框进行IOU(Intersection overUnion)计算,IOU定义如图9-图11所示,设人工标记框为A1,生成标记框为A2两个标记框的交集为A1∩A2,并集为A1∪A2,则
因为本具体实施例是实现弱监督目标定位,对于图像目标的先验位置信息较少,于是IOU的阈值设置为0.3,当IOU大于该值即认为弱监督目标定位成功。
在对特征热力图进行连通区域框过程的中,需要将图像的检测任务转化为图像分割任务,使用到了skimage库。skimage即是Scikit-Image,是基于scipy的一款图像处理包,将图片作为numpy数组进行处理,其子模块提供了图像属性测量的功能,能够对图像进行连通区域标记,将像素点相邻且值相同的区域变成一个相互连通的区域,并且能够对每一个连通区域作外接矩形,并返回矩形的坐标信息。因为在图像中可能存在多个连通图,为避免噪音等干扰,设置连通区域像素大于500的连通区域才算有效,区域筛选后,仍可能得到多个外接框图坐标,为避免错误使用坐标信息,于是将所有筛选后的外接框图坐标都进行保存,逐一与人工标注坐标进行IOU计算,之中之一满足相应阈值即认为弱监督目标定位成功。本具体实施例结果如图12-图14所示,定位准确率如表2。
表2定位正确率表
由表2可以看出,本具体实施例实现了对声呐图像的弱监督目标定位,提高了声呐图像处理的正确率和效率,简化了声呐图像的处理,加快了声呐图像的分析与定位效率,并且可以方便相关人员更专注于图像中实际重要区域。
实施例2
本实施例中的声呐图像目标定位系统,包括:
待定位声呐图像获取模块,用于获取待定位声呐图像。
分类模块,用于基于待定位声呐图像和分类模型,确定待定位声呐图像的特征图、梯度和目标的预测类型;分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;训练数据集和测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;特征图和梯度是利用分类模型确定目标的预测类型的过程中的中间量。
定位模块,用于利用GradCAM算法,根据特征图和梯度确定待定位声呐图像中的目标的位置。
实施例3
一种电子设备,包括:
一个或多个处理器。
存储装置,其上存储有一个或多个程序。
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如实施例1中的声呐图像目标定位方法。
实施例4
一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如实施例1中的声呐图像目标定位方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种声呐图像目标定位方法,其特征在于,所述方法包括:
获取待定位声呐图像;
基于所述待定位声呐图像和分类模型,确定所述待定位声呐图像的特征图、梯度和目标的预测类型;所述分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;所述训练数据集和所述测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;所述特征图和所述梯度是利用所述分类模型确定目标的预测类型的过程中的中间量;
利用GradCAM算法,根据所述特征图和所述梯度确定所述待定位声呐图像中的目标的位置。
2.根据权利要求1所述的声呐图像目标定位方法,其特征在于,所述分类模型的训练过程,包括:
获取所述训练数据集和所述测试数据集;所述训练数据集包括:多张训练用灰度图像和对应的目标的真实类型,所述训练用灰度图像为训练用声呐图像的灰度图,所述测试数据集包括:多张测试用灰度图像和对应的目标的真实类型,所述测试用灰度图像为测试用声呐图像的灰度图;
以所述训练数据集中的各训练用灰度图像为输入,以对应的目标的真实类型为输出,对resnet-18网络进行训练,得到预训练resnet-18模型;
利用降采样方法,分别对所述训练数据集进行n次采样,得到n个降采样数据集;
分别利用各所述降采样数据集中的各训练用灰度图像为输入,以对应的目标的真实类型为输出,对所述预训练resnet-18网络进行微调,得到n个微调后的resnet-18模型;
基于所述测试数据集分别对预训练resnet-18模型和n个微调后的resnet-18模型进行测试和筛选,得到多个待融合模型;
计算所有所述待融合模型的神经元的权重的平均值作为权重平均值,计算所有所述待融合模型的偏置系数的平均值作为偏置系数平均值;
将所述权重平均值替换所述预训练resnet-18模型的神经元的权重,将所述偏置系数平均值替换所述预训练resnet-18模型的偏置系数,得到所述分类模型。
3.根据权利要求1所述的声呐图像目标定位方法,其特征在于,基于所述待定位声呐图像和分类模型,确定所述待定位声呐图像的特征图、梯度和目标的预测类型,具体包括:
将所述待定位声呐图像灰度化,得到待定位灰度图;
将所述待定位灰度图输入至所述分类模型中,得到所述待定位声呐图像的特征图、梯度和目标的预测类型。
4.根据权利要求1所述的声呐图像目标定位方法,其特征在于,利用GradCAM算法,根据所述特征图和所述梯度确定所述待定位声呐图像中的目标的位置,具体包括:
利用GradCAM算法,根据所述特征图和所述梯度确定特征热力图;
对所述特征热力图进行连通化,确定连通区域;
确定所述连通区域的坐标信息,从而确定所述待定位声呐图像中的目标的位置。
5.根据权利要求2所述的声呐图像目标定位方法,其特征在于,基于所述测试数据集分别对预训练resnet-18模型和n个微调后的resnet-18模型进行测试和筛选,得到多个待融合模型,具体包括:
将所述测试数据集中的各测试用灰度图像分别输入到预训练resnet-18模型和n个微调后的resnet-18模型中,得到对应的预测类型;
基于各模型输出的预测类型和对应的真实类型,计算各模型的准确率和几何均值指标;
将各模型的准确率和几何均值指标的和确定为对应模型的指标值;
基于所述指标值,按照预设遗弃率对各模型进行遗弃,得到多个所述待融合模型。
6.一种声呐图像目标定位系统,其特征在于,所述系统包括:
待定位声呐图像获取模块,用于获取待定位声呐图像;
分类模块,用于基于所述待定位声呐图像和分类模型,确定所述待定位声呐图像的特征图、梯度和目标的预测类型;所述分类模型是利用训练数据集和测试数据集对resnet-18网络进行训练得到的;所述训练数据集和所述测试数据集均包括多张声呐图像的灰度图和对应的目标的真实类型;所述特征图和所述梯度是利用所述分类模型确定目标的预测类型的过程中的中间量;
定位模块,用于利用GradCAM算法,根据所述特征图和所述梯度确定所述待定位声呐图像中的目标的位置。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任意一项所述的声呐图像目标定位方法。
8.一种存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的声呐图像目标定位方法。
CN202311281656.0A 2023-10-07 2023-10-07 一种声呐图像目标定位方法、系统、电子设备及存储介质 Active CN117274788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311281656.0A CN117274788B (zh) 2023-10-07 2023-10-07 一种声呐图像目标定位方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311281656.0A CN117274788B (zh) 2023-10-07 2023-10-07 一种声呐图像目标定位方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117274788A true CN117274788A (zh) 2023-12-22
CN117274788B CN117274788B (zh) 2024-04-30

Family

ID=89217507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311281656.0A Active CN117274788B (zh) 2023-10-07 2023-10-07 一种声呐图像目标定位方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117274788B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596030A (zh) * 2018-03-20 2018-09-28 杭州电子科技大学 基于Faster R-CNN的声呐目标检测方法
CN112734739A (zh) * 2021-01-18 2021-04-30 福州大学 一种基于注意力机制与ResNet融合的建筑裂缝可视化识别方法
CN113052215A (zh) * 2021-03-15 2021-06-29 浙江大学 基于神经网络可视化的声呐图像自动目标识别方法
WO2022113083A1 (en) * 2020-11-26 2022-06-02 Ramot At Tel-Aviv University Ltd. Method and system for visualizing neural network output
CN114782859A (zh) * 2022-03-28 2022-07-22 华中科技大学 一种目标行为时空感知定位模型的建立方法及应用
US20220261972A1 (en) * 2021-02-18 2022-08-18 Adobe Inc. Synthesizing digital images utilizing image-guided model inversion of an image classifier
CN115830240A (zh) * 2022-12-14 2023-03-21 山西大学 一种基于图像融合视角的无监督深度学习三维重建方法
CN116486305A (zh) * 2023-04-27 2023-07-25 中国海洋大学 一种基于图像识别的深海悬浮颗粒物浓度预测方法
CN116486243A (zh) * 2023-01-30 2023-07-25 哈尔滨工程大学 基于DP-ViT的声呐图像目标检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596030A (zh) * 2018-03-20 2018-09-28 杭州电子科技大学 基于Faster R-CNN的声呐目标检测方法
WO2022113083A1 (en) * 2020-11-26 2022-06-02 Ramot At Tel-Aviv University Ltd. Method and system for visualizing neural network output
CN112734739A (zh) * 2021-01-18 2021-04-30 福州大学 一种基于注意力机制与ResNet融合的建筑裂缝可视化识别方法
US20220261972A1 (en) * 2021-02-18 2022-08-18 Adobe Inc. Synthesizing digital images utilizing image-guided model inversion of an image classifier
CN113052215A (zh) * 2021-03-15 2021-06-29 浙江大学 基于神经网络可视化的声呐图像自动目标识别方法
CN114782859A (zh) * 2022-03-28 2022-07-22 华中科技大学 一种目标行为时空感知定位模型的建立方法及应用
CN115830240A (zh) * 2022-12-14 2023-03-21 山西大学 一种基于图像融合视角的无监督深度学习三维重建方法
CN116486243A (zh) * 2023-01-30 2023-07-25 哈尔滨工程大学 基于DP-ViT的声呐图像目标检测方法
CN116486305A (zh) * 2023-04-27 2023-07-25 中国海洋大学 一种基于图像识别的深海悬浮颗粒物浓度预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张建磊等: "Sonar Images Classification While Facing Long-Tail and Few-Shot", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》, vol. 60, 4 October 2022 (2022-10-04), pages 1 - 20 *
朱兆彤;付学志;胡友峰;: "一种利用迁移学习训练卷积神经网络的声呐图像识别方法", 水下无人系统学报, no. 01, 15 February 2020 (2020-02-15), pages 91 - 98 *
赵冰等: "基于深度学习的铁路图像场景分类优化研究", 《计算机系统应用》, vol. 6, no. 6, 15 June 2019 (2019-06-15), pages 226 - 232 *

Also Published As

Publication number Publication date
CN117274788B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN108764257B (zh) 一种多视角的指针式仪表识别方法
CN108564085B (zh) 一种自动读取指针式仪表读数的方法
CN109460754B (zh) 一种水面异物检测方法、装置、设备及存储介质
CN112102229A (zh) 一种基于深度学习的工业ct检测缺陷的智能识别方法
CN111914642B (zh) 一种行人重识别方法、装置、设备及介质
CN108537751B (zh) 一种基于径向基神经网络的甲状腺超声图像自动分割方法
CN111626993A (zh) 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统
CN108564092A (zh) 基于sift特征提取算法的向日葵病害识别方法
CN111652213A (zh) 一种基于深度学习的船舶水尺读数识别方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN112819748B (zh) 一种带钢表面缺陷识别模型的训练方法及装置
CN112365497A (zh) 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统
CN111382766A (zh) 一种基于Faster R-CNN的设备故障检测方法
CN112581483B (zh) 基于自学习的植物叶片叶脉分割方法和装置
CN112991280B (zh) 视觉检测方法、系统及电子设备
CN112200163B (zh) 水下底栖生物检测方法及系统
CN112163530B (zh) 基于特征增强和样本选择的ssd小目标检测方法
CN110910497B (zh) 实现增强现实地图的方法和系统
CN110458019B (zh) 稀缺认知样本条件下的排除倒影干扰的水面目标检测方法
CN115984210A (zh) 无人机遥感多光谱影像的车辆实时检测方法、检测系统
CN114299291A (zh) 一种可解释的人工智能医疗图像语义分割方法
CN117152601A (zh) 一种基于动态感知区域路由的水下目标检测方法及系统
CN117274788B (zh) 一种声呐图像目标定位方法、系统、电子设备及存储介质
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant