CN113343964A - 一种平衡的水下声学图像目标检测方法 - Google Patents

一种平衡的水下声学图像目标检测方法 Download PDF

Info

Publication number
CN113343964A
CN113343964A CN202110905839.XA CN202110905839A CN113343964A CN 113343964 A CN113343964 A CN 113343964A CN 202110905839 A CN202110905839 A CN 202110905839A CN 113343964 A CN113343964 A CN 113343964A
Authority
CN
China
Prior art keywords
image
branch
layer
underwater acoustic
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110905839.XA
Other languages
English (en)
Other versions
CN113343964B (zh
Inventor
顾善植
彭智亮
蓝丹
吴瑶
王聪睿
胡亚清
王明兴
杨石梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Huishiwei Intelligent Technology Co ltd
Original Assignee
Hunan Huishiwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Huishiwei Intelligent Technology Co ltd filed Critical Hunan Huishiwei Intelligent Technology Co ltd
Priority to CN202110905839.XA priority Critical patent/CN113343964B/zh
Publication of CN113343964A publication Critical patent/CN113343964A/zh
Application granted granted Critical
Publication of CN113343964B publication Critical patent/CN113343964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种平衡的水下声学图像目标检测方法,解决了水下声学图像目标检测的不平衡问题。具体为:利用图像嫁接、物体拉伸、图像随机裁剪以及多方向物体翻转技术来解决水下声学图像的样本不平衡问题;利用对偶特征金字塔、可变形卷积以及图像尺度抖动来解决水下声学图像中的物体尺度不平衡问题;利用高斯模型建模回归问题、高斯模型方差投票修正以及级联目标检测器技术来解决水下声学图像中物体定位不平衡问题;利用重加权以及重采用技术来解决水下声学图像中图像类型不平衡问题。本发明提出的方法针对性强,性能优越,提高了目标检测方法在水下声学图像中的适用性和泛化性,对于水下声学图像处理领用具有重要的应用价值。

Description

一种平衡的水下声学图像目标检测方法
技术领域
本发明涉及一种平衡的水下声学图像目标检测方法,属于水下声学图像目标检测技术领域。
背景技术
水下目标检测是近年来非常活跃的研究领域之一,其应用非常广泛,涉及濒危水生物的跟踪与保护、鱼群定位、分类与跟踪、打捞与救助、海底管道探测等方面。由于水下环境复杂多变(如声学介质约束及异质性)以及水下信号获取、传送及处理成本等因素,水下可用数据往往不够准确。由于声呐可以在低能见度条件下可靠运行,是目前最常用的检测手段。水下声呐设备主要包括前视声呐、侧扫声呐和合成孔径声呐。
基于声呐图像的水下目标检测方法很多,其中常用的目标检测方法有基于恒虚警率检测算法、单元平均恒虚警率算法和累积单元平均恒虚警率算法等。此类算法通过比较声呐图像的像素灰度是否超过设定的检测阈值实现水下目标的检测。
显然,这些算法基于声学图像的表面特征(纹理、边框等)和一些统计特征(灰度直方图、图像矩等)来实现目标检测,因此难以泛化到场景复杂的地形中,以及难以对复杂目标实现检测。同时,不同于通用场景下的目标检测,水下声学图像目标检测更容易出现不平衡情况。对此,需要将这些不平衡情况总结归纳并逐一提出解决方案,以提高水下声学图像目标检测的准确率,从而提高其实用性。
发明内容
本发明所要解决的技术问题是:提供一种平衡的水下声学图像目标检测方法,解决了水下声学图像目标检测的不平衡问题,提高了通用目标检测方法在水下声学图像中的适用性和泛化性。
本发明为解决上述技术问题采用以下技术方案:
一种平衡的水下声学图像目标检测方法,所述方法包括如下步骤:
步骤1,获取水下声学图像,并分为训练图像和测试图像,对训练图像进行预处理,包括采用图像嫁接、物体拉伸、图像随机裁剪、多方向物体翻转以及图像尺度抖动技术进行数据增强;
步骤2,利用卷积神经网络基网对步骤1预处理后的训练图像提取特征,得到卷积神经网络基网四个阶段各自对应的特征图;
步骤3,将步骤2卷积神经网络基网各个阶段生成的特征图输入对偶特征金字塔网络,得到从上至下和从下至上的两个对偶的特征金字塔,再将两者相加得到最后的输出;
步骤4,将步骤3最后输出的特征经过区域提取网络得到若干个感兴趣区域及各感兴趣区域的分类得分,将各感兴趣区域与真实包围框进行匹配,得到面积交并比,将面积交并比大于阈值的感兴趣区域标记为正例,反之则为负例;将分类得分前2000的感兴趣区域按其面积从各个层级的特征金字塔中提取对应的特征到同一分辨率尺度,得到感兴趣区域特征;
步骤5,将步骤4得到的感兴趣区域特征输入到三个级联检测头中,依次进行分类、回归以及各个检测头对应的预测框位置的方差估计,得到每个检测头对应的预测框分类得分、预测框位置及其方差;
步骤6,对步骤5中每个检测头得到的预测框与真实包围框进行匹配,得到面积交并比,将面积交并比大于检测头对应的面积交并比阈值的预测框标记为正例,反之则为负例;其中,三个级联检测头对应的面积交并比阈值逐渐提升;
步骤7,对步骤4标记为正例的感兴趣区域和标记为负例的感兴趣区域的分类得分计算交叉熵损失,同时,对每个检测头,将步骤6标记为正例的预测框和标记为负例的预测框的分类得分计算交叉熵损失;
步骤8,对步骤4标记为正例的感兴趣区域计算与对应真实包围框的回归损失,对步骤6每个检测头的预测框,计算标记为正例的预测框及其方差与对应真实包围框的相对熵损失;
步骤9,计算步骤7和步骤8中所有损失的梯度,对整个目标检测网络进行梯度反向传播,并更新网络参数,直至网络收敛;
步骤10,利用训练得到的目标检测网络对测试图像进行检测,并通过方差投票的软非极大值抑制算法进行后处理,得到最终的目标检测结果。
作为本发明的一种优选方案,步骤1所述图像嫁接的具体过程为:
对于给定的一张侧扫的声学图像
Figure 100002_DEST_PATH_IMAGE002
,随机选取
Figure 100002_DEST_PATH_IMAGE002A
的左半边或者右半边图像
Figure 100002_DEST_PATH_IMAGE004
,从训练图像中随机选取一张侧扫图像
Figure 100002_DEST_PATH_IMAGE006
,并随机选取
Figure 691937DEST_PATH_IMAGE006
的左半边或者右半边图像
Figure 100002_DEST_PATH_IMAGE008
,将图像
Figure 517067DEST_PATH_IMAGE004
Figure 765645DEST_PATH_IMAGE008
嫁接得到一张新的图像
Figure 100002_DEST_PATH_IMAGE010
,上述过程形式化为:
Figure 100002_DEST_PATH_IMAGE012
其中,
Figure 100002_DEST_PATH_IMAGE014
为拼接算子,优先选择
Figure 100002_DEST_PATH_IMAGE002AA
中没有物体的一半作为
Figure 613384DEST_PATH_IMAGE004
,优先选择
Figure 631019DEST_PATH_IMAGE006
中有物体的一半作为
Figure 656744DEST_PATH_IMAGE008
作为本发明的一种优选方案,步骤1所述物体拉伸的具体过程为:
对于给定的前视或者侧扫声学图像,随机将图像的宽或者高拉伸或者压缩预设比例,得到一张新的图像,所述预设比例所在的范围是(0.95,1.05)。
作为本发明的一种优选方案,所述步骤3中,对偶特征金字塔网络包括从左至右、从上到下的第一支路以及从左至右、从下到上的第二支路,第一支路与第二支路并行,第一支路与第二支路均由大小为
Figure 100002_DEST_PATH_IMAGE016
的卷积模块堆叠四个层级实现;
将卷积神经网络基网第一阶段生成的特征图作为第一支路第一层的输入,第一支路第一层的输出作为第二支路第一层的输入,将第一支路第一层的输出与第二支路第一层的输出之和作为对偶特征金字塔网络第一层的输出;将卷积神经网络基网第二阶段生成的特征图作为第一支路第二层的输入,第一支路第二层的输出作为第二支路第二层的输入,将第一支路第二层的输出与第二支路第二层的输出之和作为对偶特征金字塔网络第二层的输出;将卷积神经网络基网第三阶段生成的特征图作为第一支路第三层的输入,第一支路第三层的输出作为第二支路第三层的输入,将第一支路第三层的输出与第二支路第三层的输出之和作为对偶特征金字塔网络第三层的输出;将卷积神经网络基网第四阶段生成的特征图作为第一支路第四层的输入,第一支路第四层的输出作为第二支路第四层的输入,将第一支路第四层的输出与第二支路第四层的输出之和作为对偶特征金字塔网络第四层的输出。
作为本发明的一种优选方案,步骤7所述交叉熵损失的定义如下:
Figure 100002_DEST_PATH_IMAGE018
其中,
Figure 100002_DEST_PATH_IMAGE020
表示交叉熵损失,
Figure 100002_DEST_PATH_IMAGE022
表示样本,
Figure 100002_DEST_PATH_IMAGE024
表示样本的标签,
Figure 100002_DEST_PATH_IMAGE026
表示样本的得分,
Figure 100002_DEST_PATH_IMAGE028
为物体所属图像类型的权重,定义如下:
Figure 100002_DEST_PATH_IMAGE030
Figure 100002_DEST_PATH_IMAGE032
其中,
Figure 100002_DEST_PATH_IMAGE034
分别表示物体所属图像为前视、侧扫图像的权重,
Figure 100002_DEST_PATH_IMAGE036
分别表示前视、侧扫图像的数量。
作为本发明的一种优选方案,步骤8所述相对熵损失中将目标检测的回归问题建模成高斯分布
Figure 100002_DEST_PATH_IMAGE038
,真实包围框视为狄拉克分布
Figure 100002_DEST_PATH_IMAGE040
,相对熵损失定义为:
Figure 100002_DEST_PATH_IMAGE042
Figure 100002_DEST_PATH_IMAGE044
Figure 100002_DEST_PATH_IMAGE046
其中,
Figure 100002_DEST_PATH_IMAGE048
表示相对熵损失,
Figure 100002_DEST_PATH_IMAGE050
表示KL散度,
Figure 100002_DEST_PATH_IMAGE052
为预测的包围框的位置,
Figure 100002_DEST_PATH_IMAGE054
为对应位置的真实包围框的位置,
Figure 100002_DEST_PATH_IMAGE056
为预测的包围框的方差。
作为本发明的一种优选方案,步骤10所述方差投票的软非极大值抑制算法的具体过程如下:
先得到任意物体回归位置
Figure 100002_DEST_PATH_IMAGE058
相对于某个物体的回归位置
Figure 100002_DEST_PATH_IMAGE060
的置信度
Figure 100002_DEST_PATH_IMAGE062
Figure 100002_DEST_PATH_IMAGE064
其中,
Figure 100002_DEST_PATH_IMAGE066
为预设的参数;再利用得到的
Figure 100002_DEST_PATH_IMAGE062A
修正预测的框的位置:
Figure 100002_DEST_PATH_IMAGE068
其中,
Figure 100002_DEST_PATH_IMAGE070
为所有的预测位置,
Figure 100002_DEST_PATH_IMAGE072
为回归位置
Figure 100002_DEST_PATH_IMAGE058A
的方差,最后使用软非极大值抑制算法得到最终的预测框。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明将水下声学图像目标检测的难点归纳成了四个不平衡问题,分别是样本不平衡问题、物体尺度不平衡问题、物体定位不平衡问题以及图像类型不平衡问题。对于水下声学图像的样本不平衡问题,由于侧扫图像左右两边的语义无关特性以及声呐图像的纹理特性,本发明首次提出了图像嫁接和物体拉伸等方法以增强水下声学图像中物体的多样性。对于水下声学图像中的物体尺度不平衡问题,本发明则是提出了对偶特征金字塔实现多方向的特征聚合,辅以可变形卷积以及图像尺度抖动等技术来提升模型对物体尺度的不变性。而对于水下声学图像中物体定位不平衡问题,本发明则是利用高斯模型建模回归问题、高斯模型方差投票修正以及级联目标检测器等技术来增强模型对物体边框的感知能力。最后则是利用重加权以及重采用技术来解决水下声学图像中图像类型不平衡问题。
2、本发明提出并采用了较多的数据增强策略,使得数据集样本多样性大大增加,同时对通用的级联检测算法进行了针对性的加强,使得本发明方法在水下声学目标检测任务上表现优异。同时,总结归纳了各个方向的不平衡问题,有目的地提出了不同的解决方案,使得本发明方法的鲁棒性和泛化性大大提升。
附图说明
图1是本发明一种平衡的水下声学图像目标检测方法的流程图。
图2是本发明图像嫁接示例图。
图3是本发明物体拉伸示例图。
图4是本发明图像随机裁剪示例图。
图5是本发明图像尺度抖动示例图。
图6是本发明用高斯建模回归问题示例图。
图7是本发明图高斯方差投票修正预测框示例图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明提出了一种平衡的水下声学图像目标检测方法,整体结构如图1所示,具体过程如下:
步骤1:对水下声学训练图像进行预处理,包括图像嫁接(图2)、物体拉伸(图3)、图像随机裁剪(图4)、多方向物体翻转以及图像尺度抖动(图5)技术来进行数据增强;
图像嫁接为本发明针对水下声学侧扫图像的特异性——左右格式近乎一致,且两侧没有语义关联的特点,所提出的数据增强方法,旨在增加声学图像的多样性。具体过程为:给定一张侧扫的声学图像
Figure DEST_PATH_IMAGE002AAA
,随机选取左半边或者右半边图像(优先选择没有物体的一半),再随机从数据库中随机选取一张侧扫图像
Figure 512110DEST_PATH_IMAGE006
的左半边或者右半边图像(优先选择有物体的一半),将其与原图像嫁接得到一张新的图像
Figure 179852DEST_PATH_IMAGE010
,该过程可形式化为:
Figure 553458DEST_PATH_IMAGE012
其中,
Figure 750084DEST_PATH_IMAGE014
为拼接算子。
物体拉伸本发明针对水下声学图像中物体的特点——声学图像中物体的纹理信息比起语义信息更加丰富的特点,所提出的数据增强方法,旨在增加声学图像中物体的多样性。具体过程为:对于给定的前视或者侧扫声学图像,随机将图像的宽或者高拉伸或者压缩一定的比例,本发明所采用的比例范围为(0.95,1.05)。
步骤2:利用卷积神经网络基网(如ResNet50、ResNeXt152)对步骤1处理后的水下声学图像提取特征图,其中基网的第三、第四阶段可使用可变形卷积来增强网络的特征的表达能力;
步骤3:收集步骤2中的卷积神经网络的各个阶段生成的特征图,将其通过对偶特征金字塔网络,得到从上至下和从下至上的对偶的特征金字塔,再将两者相加得到最后的输出;
本发明提出的对偶特征金字塔是对传统特征金字塔(FPN)的改进,以加强模型对水下声学图像特征的多尺度融合。具体实现过程为:除了FPN的从左到右、从上到下的支路,再加上一条从左到右、从下到上的并行支路,这些支路均由大小为
Figure DEST_PATH_IMAGE016A
的卷积模块堆叠实现,从而实现多方向的特征融合。
步骤4:对步骤3中的特征经过区域提取网络得到若干个感兴趣区域,将其与真实包围框进行匹配,其面积交并比(IOU)大于阈值的预测框则标记为正例,反之则为负例。然后将分类得分前2000个感兴趣区域按其面积从各个层级的特征金字塔中提取对应的特征到同一分辨率尺度(例如
Figure DEST_PATH_IMAGE074
);
步骤5:将步骤4得到的感兴趣图像区域特征输入到三个级联的检测头中,依次进行分类,回归以及对应框位置的方差估计;
步骤6:对步骤5得到的预测框与真实包围框进行匹配,其IOU大于阈值的预测框则标记为正例,反之则为负例。三个级联的检测头中使用了逐渐提升的IOU阈值;
步骤7:对步骤4和步骤6中的正例框和负例框的分类得分计算交叉熵损失,步骤4中的正例框的标签与物体类别无关,步骤6中的正例框的标签即为对应水下声学图像中物体的类别;
计算分类损失时考虑到水下声学图像中图像类型不平衡问题,本发明提出了一种图像类型敏感的交叉熵损失,对于给定样本
Figure DEST_PATH_IMAGE022A
及其对应的标签
Figure DEST_PATH_IMAGE024A
,交叉熵损失定义如下:
Figure DEST_PATH_IMAGE018A
其中
Figure DEST_PATH_IMAGE028A
为物体所属图像类型的权重,定义如下:
Figure DEST_PATH_IMAGE030A
Figure DEST_PATH_IMAGE032A
即该权重与图像中物体类型无关,只与物体所属图像类型相关。
步骤8:对步骤4中的正例框计算与对应真实包围框的回归损失,对步骤6中的正例框计算预测框及其方差与对应真实包围框的相对熵损失(KL散度损失);
如图6所示,为了解决水下声学图像中物体定位不平衡问题,将目标检测的回归问题建模成高斯分布,真实包围框视为狄拉克分布,通过散度损失最小化两个分布的距离,该损失可定义为:
Figure DEST_PATH_IMAGE042A
Figure DEST_PATH_IMAGE044A
Figure DEST_PATH_IMAGE075
其中
Figure DEST_PATH_IMAGE052A
为预测的包围框的位置,
Figure DEST_PATH_IMAGE054A
为对应位置的真实包围框的位置,
Figure DEST_PATH_IMAGE056A
为预测的包围框的方差。
步骤9:计算步骤7和步骤8中所有损失的梯度,对整个目标检测网络模型进行梯度反向传播,并更新网络参数,直至网络收敛。
步骤10:将训练得到的目标检测网络模型直接应用于水下声学图像测试图像中进行检测,检测结果需通过方差投票的软非极大值抑制算法进行后处理,得到最终的检测结果。
方差投票的软非极大值抑制算法是本发明针对水下声学图像目标检测问题提出的最大值抑制算法,是利用预测的方差来删除冗余框的后处理算法,具体过程为:先得到任意物体回归位置
Figure DEST_PATH_IMAGE058AA
相对于某个物体的回归位置
Figure DEST_PATH_IMAGE060A
的置信度:
Figure DEST_PATH_IMAGE064A
其中,
Figure DEST_PATH_IMAGE066A
为预设的参数;再利用得到的
Figure DEST_PATH_IMAGE062AA
修正预测的框的位置(如图7所示):
Figure DEST_PATH_IMAGE068A
其中,
Figure DEST_PATH_IMAGE070A
为所有的预测位置,
Figure DEST_PATH_IMAGE072A
为回归位置
Figure DEST_PATH_IMAGE058AAA
的方差,执行完修正的所有预测框再使用软非极大值抑制算法得到最终的预测框。
实施例
1、数据集
数据集含有训练集和测试集。训练集包含2288张声呐图像,其中侧扫声呐图像1216张、前视声呐图像800张、负样本(无目标)272张。测试集包含600张声呐图像,其中侧扫声呐图像400张、前视声呐图像200张。
2、性能评测准则
为了进行算法性能的评测以及与其他方法的对比,选取在目标检测中被广泛使用的评测方法:基于Recall(查全率)和Precision(准确率)计算出的AP(Average Precision,平均准确率)。
首先介绍Recall和Precision的计算过程。在训练集上学习到分类模型之后,测试集上的每一个样本都会由分类器计算出一个得分,根据样本的得分可以判断样本是正例还是反例,对所有样本的正反例评判有如下四种情况:
a) True Positive(TP):正确的正例,也就是正例样本被分类器正确的判定为正例样本。
b) False Positive(FP):错误的正例,也就是反例样本被分类器错误的判定为正例样本。
c) True Negative(TN):正确的反例,也就是反例样本被分类器正确的判定为反例样本。
d) False Negative(FN):错误的反例,也就是正例样本被分类器错误的判定为反例样本。
有了上述四个定义之后,Recall和Precision可以用如下公式计算:
Figure DEST_PATH_IMAGE077
Figure DEST_PATH_IMAGE079
实验中对所有测试样本的得分排序,并且通过不断的调整正反例样本的得分阈值形成不同的Recall和Precision。同时采用了目标检测使用最为广泛的AP值,通过多组Recall和Precision计算出平均性能mAP。
3、结果与分析
本发明使用NVIDIA TITAN RTX 24G GPU作为计算平台。在数据集上训练后,在测试集上测试后得到的结果见表1。同时,对本发明做了消融实验,结果见表2。
表1各方法测试性能
方法 基网 mAP(%) FPS
Faster R-CNN + FPN ResNet50 20.9 5.4
Faster R-CNN + FPN ResNet101 22.4 3.6
Cascade R-CNN ResNet101 23.9 0.8
Cascade R-CNN ResNet152 25.3 0.4
本发明 ResNet101 29.8 0.4
表2本发明消融实验
方法 基网 提升(%) FPS
Cascade R-CNN ResNet50 22.1 1.7
Cascade R-CNN ResNet101 23.9 (+1.8) 0.8
+ 图像嫁接 ResNet101 24.6 (+0.7) 0.8
+ 物体拉伸 ResNet101 25.0 (+0.4) 0.8
+ 图像随机裁剪 ResNet101 25.3 (+0.3) 0.8
+ 多方向物体翻转 ResNet101 25.8 (+0.5) 0.8
+ 图像尺度抖动 ResNet101 26.1 (+0.3) 0.8
+ 对偶特征金字塔 ResNet101 26.7 (+0.6) 0.7
+ 可变形卷积 ResNet101 27.3 (+0.6) 0.5
+ 重加权 ResNet101 27.7 (+0.4) 0.5
+ 高斯建模回归问题 ResNet101 28.8 (+1.1) 0.5
+ 高斯方差投票 ResNet101 29.3 (+0.5) 0.4
+ 软非极大值抑制 ResNet101 29.8 (+ 0.5) 0.4
本发明 ResNet101 29.8 0.4
Faster R-CNN、FPN、Cascade R-CNN都是目标检测中常用的算法。表1和2中FPS是指在单张GPU测试的模型的推理速度,即每秒可以测试多少张图像。
表1中,对于Faster R-CNN+FPN算法而言,其使用ResNet-101作为基网时,mAP只能达到22.4%,而本发明使用ResNet-101作为基网时则能够达到29.8%。而对于Cascade R-CNN算法而言,当其使用ResNet-152作为基网时,mAP只能达到25.3%,而本发明在相同的FPS下能够达到29.8%的mAP,仍具有较大的优势。
表2中,同一逐一的添加变量,得到各项技术带来的mAP的提升。首先,当使用ResNet-101作为基网时,Cascade R-CNN只能达到23.9%mAP。通过本发明提出的图像嫁接,物体拉伸等数据增强技术可以达到26.1%的mAP,充分说明了本发明所提出的数据增强技术的有效性。当使用了对偶特征金字塔和可变形卷积技术后,mAP能够达到27.3%。当使用了重加权技术解决图像类型不平衡问题后,mAP能够达到27.7%。最后通过解决定位不平衡问题后,mAP能够达到最高的29.8%,远高于作为基线方法的Cascade R-CNN。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种平衡的水下声学图像目标检测方法,其特征在于,所述方法包括如下步骤:
步骤1,获取水下声学图像,并分为训练图像和测试图像,对训练图像进行预处理,包括采用图像嫁接、物体拉伸、图像随机裁剪、多方向物体翻转以及图像尺度抖动技术进行数据增强;
步骤2,利用卷积神经网络基网对步骤1预处理后的训练图像提取特征,得到卷积神经网络基网四个阶段各自对应的特征图;
步骤3,将步骤2卷积神经网络基网各个阶段生成的特征图输入对偶特征金字塔网络,得到从上至下和从下至上的两个对偶的特征金字塔,再将两者相加得到最后的输出;
步骤4,将步骤3最后输出的特征经过区域提取网络得到若干个感兴趣区域及各感兴趣区域的分类得分,将各感兴趣区域与真实包围框进行匹配,得到面积交并比,将面积交并比大于阈值的感兴趣区域标记为正例,反之则为负例;将分类得分前2000的感兴趣区域按其面积从各个层级的特征金字塔中提取对应的特征到同一分辨率尺度,得到感兴趣区域特征;
步骤5,将步骤4得到的感兴趣区域特征输入到三个级联检测头中,依次进行分类、回归以及各个检测头对应的预测框位置的方差估计,得到每个检测头对应的预测框分类得分、预测框位置及其方差;
步骤6,对步骤5中每个检测头得到的预测框与真实包围框进行匹配,得到面积交并比,将面积交并比大于检测头对应的面积交并比阈值的预测框标记为正例,反之则为负例;其中,三个级联检测头对应的面积交并比阈值逐渐提升;
步骤7,对步骤4标记为正例的感兴趣区域和标记为负例的感兴趣区域的分类得分计算交叉熵损失,同时,对每个检测头,将步骤6标记为正例的预测框和标记为负例的预测框的分类得分计算交叉熵损失;
步骤8,对步骤4标记为正例的感兴趣区域计算与对应真实包围框的回归损失,对步骤6每个检测头的预测框,计算标记为正例的预测框及其方差与对应真实包围框的相对熵损失;
步骤9,计算步骤7和步骤8中所有损失的梯度,对整个目标检测网络进行梯度反向传播,并更新网络参数,直至网络收敛;
步骤10,利用训练得到的目标检测网络对测试图像进行检测,并通过方差投票的软非极大值抑制算法进行后处理,得到最终的目标检测结果。
2.根据权利要求1所述平衡的水下声学图像目标检测方法,其特征在于,步骤1所述图像嫁接的具体过程为:
对于给定的一张侧扫的声学图像
Figure DEST_PATH_IMAGE002
,随机选取
Figure DEST_PATH_IMAGE002A
的左半边或者右半边图像
Figure DEST_PATH_IMAGE004
,从训练图像中随机选取一张侧扫图像
Figure DEST_PATH_IMAGE006
,并随机选取
Figure 323605DEST_PATH_IMAGE006
的左半边或者右半边图像
Figure DEST_PATH_IMAGE008
,将图像
Figure 912849DEST_PATH_IMAGE004
Figure 649511DEST_PATH_IMAGE008
嫁接得到一张新的图像
Figure DEST_PATH_IMAGE010
,上述过程形式化为:
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE014
为拼接算子,优先选择
Figure DEST_PATH_IMAGE002AA
中没有物体的一半作为
Figure 529873DEST_PATH_IMAGE004
,优先选择
Figure 547508DEST_PATH_IMAGE006
中有物体的一半作为
Figure 635549DEST_PATH_IMAGE008
3.根据权利要求1所述平衡的水下声学图像目标检测方法,其特征在于,步骤1所述物体拉伸的具体过程为:
对于给定的前视或者侧扫声学图像,随机将图像的宽或者高拉伸或者压缩预设比例,得到一张新的图像,所述预设比例所在的范围是(0.95,1.05)。
4.根据权利要求1所述平衡的水下声学图像目标检测方法,其特征在于,所述步骤3中,对偶特征金字塔网络包括从左至右、从上到下的第一支路以及从左至右、从下到上的第二支路,第一支路与第二支路并行,第一支路与第二支路均由大小为
Figure DEST_PATH_IMAGE016
的卷积模块堆叠四个层级实现;
将卷积神经网络基网第一阶段生成的特征图作为第一支路第一层的输入,第一支路第一层的输出作为第二支路第一层的输入,将第一支路第一层的输出与第二支路第一层的输出之和作为对偶特征金字塔网络第一层的输出;将卷积神经网络基网第二阶段生成的特征图作为第一支路第二层的输入,第一支路第二层的输出作为第二支路第二层的输入,将第一支路第二层的输出与第二支路第二层的输出之和作为对偶特征金字塔网络第二层的输出;将卷积神经网络基网第三阶段生成的特征图作为第一支路第三层的输入,第一支路第三层的输出作为第二支路第三层的输入,将第一支路第三层的输出与第二支路第三层的输出之和作为对偶特征金字塔网络第三层的输出;将卷积神经网络基网第四阶段生成的特征图作为第一支路第四层的输入,第一支路第四层的输出作为第二支路第四层的输入,将第一支路第四层的输出与第二支路第四层的输出之和作为对偶特征金字塔网络第四层的输出。
5.根据权利要求1所述平衡的水下声学图像目标检测方法,其特征在于,步骤7所述交叉熵损失的定义如下:
Figure DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE020
表示交叉熵损失,
Figure DEST_PATH_IMAGE022
表示样本,
Figure DEST_PATH_IMAGE024
表示样本的标签,
Figure DEST_PATH_IMAGE026
表示样本的得分,
Figure DEST_PATH_IMAGE028
为物体所属图像类型的权重,定义如下:
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
分别表示物体所属图像为前视、侧扫图像的权重,
Figure DEST_PATH_IMAGE036
分别表示前视、侧扫图像的数量。
6.根据权利要求1所述平衡的水下声学图像目标检测方法,其特征在于,步骤8所述相对熵损失中将目标检测的回归问题建模成高斯分布
Figure DEST_PATH_IMAGE038
,真实包围框视为狄拉克分布
Figure DEST_PATH_IMAGE040
,相对熵损失定义为:
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE046
其中,
Figure DEST_PATH_IMAGE048
表示相对熵损失,
Figure DEST_PATH_IMAGE050
表示KL散度,
Figure DEST_PATH_IMAGE052
为预测的包围框的位置,
Figure DEST_PATH_IMAGE054
为对应位置的真实包围框的位置,
Figure DEST_PATH_IMAGE056
为预测的包围框的方差。
7.根据权利要求1所述平衡的水下声学图像目标检测方法,其特征在于,步骤10所述方差投票的软非极大值抑制算法的具体过程如下:
先得到任意物体回归位置
Figure DEST_PATH_IMAGE058
相对于某个物体的回归位置
Figure DEST_PATH_IMAGE060
的置信度
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
其中,
Figure DEST_PATH_IMAGE066
为预设的参数;再利用得到的
Figure DEST_PATH_IMAGE062A
修正预测的框的位置:
Figure DEST_PATH_IMAGE068
其中,
Figure DEST_PATH_IMAGE070
为所有的预测位置,
Figure DEST_PATH_IMAGE072
为回归位置
Figure DEST_PATH_IMAGE058A
的方差,最后使用软非极大值抑制算法得到最终的预测框。
CN202110905839.XA 2021-08-09 2021-08-09 一种平衡的水下声学图像目标检测方法 Active CN113343964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110905839.XA CN113343964B (zh) 2021-08-09 2021-08-09 一种平衡的水下声学图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110905839.XA CN113343964B (zh) 2021-08-09 2021-08-09 一种平衡的水下声学图像目标检测方法

Publications (2)

Publication Number Publication Date
CN113343964A true CN113343964A (zh) 2021-09-03
CN113343964B CN113343964B (zh) 2022-06-10

Family

ID=77481079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110905839.XA Active CN113343964B (zh) 2021-08-09 2021-08-09 一种平衡的水下声学图像目标检测方法

Country Status (1)

Country Link
CN (1) CN113343964B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2794716C1 (ru) * 2022-07-11 2023-04-24 Федеральное государственное бюджетное учреждение науки Институт проблем морских технологий им. академика М.Д. Агеева Дальневосточного отделения Российской академии наук (ИПМТ ДВО РАН) Способ обнаружения шумящих объектов в мелком море в инфразвуковом диапазоне частот

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594457B1 (en) * 2009-05-18 2013-11-26 The United States Of America As Represented By The Secretary Of The Navy Correlation image detection
US8620082B1 (en) * 2011-04-01 2013-12-31 The United States Of America As Represented By The Secretary Of The Navy Sonar image texture segmentation
CN105182350A (zh) * 2015-09-26 2015-12-23 哈尔滨工程大学 一种应用特征跟踪的多波束声呐目标探测方法
EP2909807B1 (en) * 2012-10-17 2020-02-19 Cathx Research Ltd. Improvements in relation to underwater imaging for underwater surveys
CN112052817A (zh) * 2020-09-15 2020-12-08 中国人民解放军海军大连舰艇学院 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法
CN112053317A (zh) * 2020-04-26 2020-12-08 张辉 一种基于级联神经网络的工件表面缺陷检测方法
CN112200163A (zh) * 2020-12-03 2021-01-08 中国科学院自动化研究所 水下底栖生物检测方法及系统
CN112633274A (zh) * 2020-12-21 2021-04-09 中国航天空气动力技术研究院 一种声呐图像目标检测方法、装置、电子设备
CN112861919A (zh) * 2021-01-15 2021-05-28 西北工业大学 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594457B1 (en) * 2009-05-18 2013-11-26 The United States Of America As Represented By The Secretary Of The Navy Correlation image detection
US8620082B1 (en) * 2011-04-01 2013-12-31 The United States Of America As Represented By The Secretary Of The Navy Sonar image texture segmentation
EP2909807B1 (en) * 2012-10-17 2020-02-19 Cathx Research Ltd. Improvements in relation to underwater imaging for underwater surveys
CN105182350A (zh) * 2015-09-26 2015-12-23 哈尔滨工程大学 一种应用特征跟踪的多波束声呐目标探测方法
CN112053317A (zh) * 2020-04-26 2020-12-08 张辉 一种基于级联神经网络的工件表面缺陷检测方法
CN112052817A (zh) * 2020-09-15 2020-12-08 中国人民解放军海军大连舰艇学院 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法
CN112200163A (zh) * 2020-12-03 2021-01-08 中国科学院自动化研究所 水下底栖生物检测方法及系统
CN112633274A (zh) * 2020-12-21 2021-04-09 中国航天空气动力技术研究院 一种声呐图像目标检测方法、装置、电子设备
CN112861919A (zh) * 2021-01-15 2021-05-28 西北工业大学 一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONG ZHANG 等: "Object Detection Algorithm Based on Deformable Convolutional Networks for Underwater Images", 《2019 2ND CHINA SYMPOSIUM ON COGNITIVE COMPUTING AND HYBRID INTELLIGENCE (CCHI)》 *
JIANGMIAO PANG 等: "Libra R-CNN: Towards Balanced Learning for Object Detection", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
PENG ZHANG 等: "Self-Trained Target Detection of Radar and Sonar Images Using Automatic Deep Learning", 《 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING (EARLY ACCESS)》 *
ZHILIANG PENG 等: "Conformer: Local Features Coupling Global Representations for Visual Recognition", 《ARXIV:2105.03889》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2794716C1 (ru) * 2022-07-11 2023-04-24 Федеральное государственное бюджетное учреждение науки Институт проблем морских технологий им. академика М.Д. Агеева Дальневосточного отделения Российской академии наук (ИПМТ ДВО РАН) Способ обнаружения шумящих объектов в мелком море в инфразвуковом диапазоне частот
RU2795375C1 (ru) * 2022-11-16 2023-05-03 Федеральное государственное бюджетное учреждение науки Институт проблем морских технологий им. академика М.Д. Агеева Дальневосточного отделения Российской академии наук (ИПМТ ДВО РАН) Гидроакустический комплекс для обнаружения движущегося подводного источника звука, измерения пеленга на источник звука и горизонта источника звука в мелком море в инфразвуковом диапазоне частот

Also Published As

Publication number Publication date
CN113343964B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
CN112435221A (zh) 一种基于生成式对抗网络模型的图像异常检测方法
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN113569667B (zh) 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN110222604B (zh) 基于共享卷积神经网络的目标识别方法和装置
CN112818862A (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN112668483B (zh) 一种融合行人重识别和人脸检测的单目标人物跟踪方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN112288026B (zh) 一种基于类激活图的红外弱小目标检测方法
CN111951283A (zh) 一种基于深度学习的医学图像识别方法及系统
CN111310609A (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
CN117274774A (zh) 一种基于YOLOv7的X射线安检图像危险品检测算法
CN111144497B (zh) 基于美学分析的多任务深度网络下的图像显著性预测方法
CN113343964B (zh) 一种平衡的水下声学图像目标检测方法
CN110503157B (zh) 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法
CN111783656A (zh) 一种基于统计特性预分割的自适应红外小目标检测方法
CN111666822A (zh) 一种基于深度学习的低空无人机目标检测方法及系统
CN115861956A (zh) 一种基于解耦头部的Yolov3道路垃圾检测方法
CN113570564B (zh) 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
CN115294424A (zh) 一种基于生成对抗网络的样本数据增强方法
CN111368625B (zh) 一种基于级联优化的行人目标检测方法
CN113963178A (zh) 地空背景下红外弱小目标检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant