CN113343964A

CN113343964A - 一种平衡的水下声学图像目标检测方法

Info

Publication number: CN113343964A
Application number: CN202110905839.XA
Authority: CN
Inventors: 顾善植; 彭智亮; 蓝丹; 吴瑶; 王聪睿; 胡亚清; 王明兴; 杨石梦
Original assignee: Hunan Huishiwei Intelligent Technology Co ltd
Current assignee: Hunan Huishiwei Intelligent Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-09-03
Anticipated expiration: 2041-08-09
Also published as: CN113343964B

Abstract

本发明公开了一种平衡的水下声学图像目标检测方法，解决了水下声学图像目标检测的不平衡问题。具体为：利用图像嫁接、物体拉伸、图像随机裁剪以及多方向物体翻转技术来解决水下声学图像的样本不平衡问题；利用对偶特征金字塔、可变形卷积以及图像尺度抖动来解决水下声学图像中的物体尺度不平衡问题；利用高斯模型建模回归问题、高斯模型方差投票修正以及级联目标检测器技术来解决水下声学图像中物体定位不平衡问题；利用重加权以及重采用技术来解决水下声学图像中图像类型不平衡问题。本发明提出的方法针对性强，性能优越，提高了目标检测方法在水下声学图像中的适用性和泛化性，对于水下声学图像处理领用具有重要的应用价值。

Description

一种平衡的水下声学图像目标检测方法

技术领域

本发明涉及一种平衡的水下声学图像目标检测方法，属于水下声学图像目标检测技术领域。

背景技术

水下目标检测是近年来非常活跃的研究领域之一，其应用非常广泛，涉及濒危水生物的跟踪与保护、鱼群定位、分类与跟踪、打捞与救助、海底管道探测等方面。由于水下环境复杂多变(如声学介质约束及异质性)以及水下信号获取、传送及处理成本等因素，水下可用数据往往不够准确。由于声呐可以在低能见度条件下可靠运行，是目前最常用的检测手段。水下声呐设备主要包括前视声呐、侧扫声呐和合成孔径声呐。

基于声呐图像的水下目标检测方法很多，其中常用的目标检测方法有基于恒虚警率检测算法、单元平均恒虚警率算法和累积单元平均恒虚警率算法等。此类算法通过比较声呐图像的像素灰度是否超过设定的检测阈值实现水下目标的检测。

显然，这些算法基于声学图像的表面特征（纹理、边框等）和一些统计特征（灰度直方图、图像矩等）来实现目标检测，因此难以泛化到场景复杂的地形中，以及难以对复杂目标实现检测。同时，不同于通用场景下的目标检测，水下声学图像目标检测更容易出现不平衡情况。对此，需要将这些不平衡情况总结归纳并逐一提出解决方案，以提高水下声学图像目标检测的准确率，从而提高其实用性。

发明内容

本发明所要解决的技术问题是：提供一种平衡的水下声学图像目标检测方法，解决了水下声学图像目标检测的不平衡问题，提高了通用目标检测方法在水下声学图像中的适用性和泛化性。

本发明为解决上述技术问题采用以下技术方案：

一种平衡的水下声学图像目标检测方法，所述方法包括如下步骤：

步骤1，获取水下声学图像，并分为训练图像和测试图像，对训练图像进行预处理，包括采用图像嫁接、物体拉伸、图像随机裁剪、多方向物体翻转以及图像尺度抖动技术进行数据增强；

步骤2，利用卷积神经网络基网对步骤1预处理后的训练图像提取特征，得到卷积神经网络基网四个阶段各自对应的特征图；

步骤3，将步骤2卷积神经网络基网各个阶段生成的特征图输入对偶特征金字塔网络，得到从上至下和从下至上的两个对偶的特征金字塔，再将两者相加得到最后的输出；

步骤4，将步骤3最后输出的特征经过区域提取网络得到若干个感兴趣区域及各感兴趣区域的分类得分，将各感兴趣区域与真实包围框进行匹配，得到面积交并比，将面积交并比大于阈值的感兴趣区域标记为正例，反之则为负例；将分类得分前2000的感兴趣区域按其面积从各个层级的特征金字塔中提取对应的特征到同一分辨率尺度，得到感兴趣区域特征；

步骤5，将步骤4得到的感兴趣区域特征输入到三个级联检测头中，依次进行分类、回归以及各个检测头对应的预测框位置的方差估计，得到每个检测头对应的预测框分类得分、预测框位置及其方差；

步骤6，对步骤5中每个检测头得到的预测框与真实包围框进行匹配，得到面积交并比，将面积交并比大于检测头对应的面积交并比阈值的预测框标记为正例，反之则为负例；其中，三个级联检测头对应的面积交并比阈值逐渐提升；

步骤7，对步骤4标记为正例的感兴趣区域和标记为负例的感兴趣区域的分类得分计算交叉熵损失，同时，对每个检测头，将步骤6标记为正例的预测框和标记为负例的预测框的分类得分计算交叉熵损失；

步骤8，对步骤4标记为正例的感兴趣区域计算与对应真实包围框的回归损失，对步骤6每个检测头的预测框，计算标记为正例的预测框及其方差与对应真实包围框的相对熵损失；

步骤9，计算步骤7和步骤8中所有损失的梯度，对整个目标检测网络进行梯度反向传播，并更新网络参数，直至网络收敛；

步骤10，利用训练得到的目标检测网络对测试图像进行检测，并通过方差投票的软非极大值抑制算法进行后处理，得到最终的目标检测结果。

作为本发明的一种优选方案，步骤1所述图像嫁接的具体过程为：

对于给定的一张侧扫的声学图像

，随机选取

的左半边或者右半边图像

，从训练图像中随机选取一张侧扫图像

，并随机选取

的左半边或者右半边图像

，将图像

与

嫁接得到一张新的图像

，上述过程形式化为：

其中，

为拼接算子，优先选择

中没有物体的一半作为

，优先选择

中有物体的一半作为

。

作为本发明的一种优选方案，步骤1所述物体拉伸的具体过程为：

对于给定的前视或者侧扫声学图像，随机将图像的宽或者高拉伸或者压缩预设比例，得到一张新的图像，所述预设比例所在的范围是（0.95，1.05）。

作为本发明的一种优选方案，所述步骤3中，对偶特征金字塔网络包括从左至右、从上到下的第一支路以及从左至右、从下到上的第二支路，第一支路与第二支路并行，第一支路与第二支路均由大小为

的卷积模块堆叠四个层级实现；

将卷积神经网络基网第一阶段生成的特征图作为第一支路第一层的输入，第一支路第一层的输出作为第二支路第一层的输入，将第一支路第一层的输出与第二支路第一层的输出之和作为对偶特征金字塔网络第一层的输出；将卷积神经网络基网第二阶段生成的特征图作为第一支路第二层的输入，第一支路第二层的输出作为第二支路第二层的输入，将第一支路第二层的输出与第二支路第二层的输出之和作为对偶特征金字塔网络第二层的输出；将卷积神经网络基网第三阶段生成的特征图作为第一支路第三层的输入，第一支路第三层的输出作为第二支路第三层的输入，将第一支路第三层的输出与第二支路第三层的输出之和作为对偶特征金字塔网络第三层的输出；将卷积神经网络基网第四阶段生成的特征图作为第一支路第四层的输入，第一支路第四层的输出作为第二支路第四层的输入，将第一支路第四层的输出与第二支路第四层的输出之和作为对偶特征金字塔网络第四层的输出。

作为本发明的一种优选方案，步骤7所述交叉熵损失的定义如下：

其中，

表示交叉熵损失，

表示样本，

表示样本的标签，

表示样本的得分，

为物体所属图像类型的权重，定义如下：

其中，

分别表示物体所属图像为前视、侧扫图像的权重，

分别表示前视、侧扫图像的数量。

作为本发明的一种优选方案，步骤8所述相对熵损失中将目标检测的回归问题建模成高斯分布

，真实包围框视为狄拉克分布

，相对熵损失定义为：

其中，

表示相对熵损失，

表示KL散度，

为预测的包围框的位置，

为对应位置的真实包围框的位置，

为预测的包围框的方差。

作为本发明的一种优选方案，步骤10所述方差投票的软非极大值抑制算法的具体过程如下：

先得到任意物体回归位置

相对于某个物体的回归位置

的置信度

：

其中，

为预设的参数；再利用得到的

修正预测的框的位置：

其中，

为所有的预测位置，

为回归位置

的方差，最后使用软非极大值抑制算法得到最终的预测框。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明将水下声学图像目标检测的难点归纳成了四个不平衡问题，分别是样本不平衡问题、物体尺度不平衡问题、物体定位不平衡问题以及图像类型不平衡问题。对于水下声学图像的样本不平衡问题，由于侧扫图像左右两边的语义无关特性以及声呐图像的纹理特性，本发明首次提出了图像嫁接和物体拉伸等方法以增强水下声学图像中物体的多样性。对于水下声学图像中的物体尺度不平衡问题，本发明则是提出了对偶特征金字塔实现多方向的特征聚合，辅以可变形卷积以及图像尺度抖动等技术来提升模型对物体尺度的不变性。而对于水下声学图像中物体定位不平衡问题，本发明则是利用高斯模型建模回归问题、高斯模型方差投票修正以及级联目标检测器等技术来增强模型对物体边框的感知能力。最后则是利用重加权以及重采用技术来解决水下声学图像中图像类型不平衡问题。

2、本发明提出并采用了较多的数据增强策略，使得数据集样本多样性大大增加，同时对通用的级联检测算法进行了针对性的加强，使得本发明方法在水下声学目标检测任务上表现优异。同时，总结归纳了各个方向的不平衡问题，有目的地提出了不同的解决方案，使得本发明方法的鲁棒性和泛化性大大提升。

附图说明

图1是本发明一种平衡的水下声学图像目标检测方法的流程图。

图2是本发明图像嫁接示例图。

图3是本发明物体拉伸示例图。

图4是本发明图像随机裁剪示例图。

图5是本发明图像尺度抖动示例图。

图6是本发明用高斯建模回归问题示例图。

图7是本发明图高斯方差投票修正预测框示例图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提出了一种平衡的水下声学图像目标检测方法，整体结构如图1所示，具体过程如下：

步骤1：对水下声学训练图像进行预处理，包括图像嫁接（图2）、物体拉伸（图3）、图像随机裁剪（图4）、多方向物体翻转以及图像尺度抖动（图5）技术来进行数据增强；

图像嫁接为本发明针对水下声学侧扫图像的特异性——左右格式近乎一致，且两侧没有语义关联的特点，所提出的数据增强方法，旨在增加声学图像的多样性。具体过程为：给定一张侧扫的声学图像

，随机选取左半边或者右半边图像（优先选择没有物体的一半），再随机从数据库中随机选取一张侧扫图像

的左半边或者右半边图像（优先选择有物体的一半），将其与原图像嫁接得到一张新的图像

，该过程可形式化为：

其中，

为拼接算子。

物体拉伸本发明针对水下声学图像中物体的特点——声学图像中物体的纹理信息比起语义信息更加丰富的特点，所提出的数据增强方法，旨在增加声学图像中物体的多样性。具体过程为：对于给定的前视或者侧扫声学图像，随机将图像的宽或者高拉伸或者压缩一定的比例，本发明所采用的比例范围为（0.95，1.05）。

步骤2：利用卷积神经网络基网（如ResNet50、ResNeXt152）对步骤1处理后的水下声学图像提取特征图，其中基网的第三、第四阶段可使用可变形卷积来增强网络的特征的表达能力；

步骤3：收集步骤2中的卷积神经网络的各个阶段生成的特征图，将其通过对偶特征金字塔网络，得到从上至下和从下至上的对偶的特征金字塔，再将两者相加得到最后的输出；

本发明提出的对偶特征金字塔是对传统特征金字塔（FPN）的改进，以加强模型对水下声学图像特征的多尺度融合。具体实现过程为：除了FPN的从左到右、从上到下的支路，再加上一条从左到右、从下到上的并行支路，这些支路均由大小为

的卷积模块堆叠实现，从而实现多方向的特征融合。

步骤4：对步骤3中的特征经过区域提取网络得到若干个感兴趣区域，将其与真实包围框进行匹配，其面积交并比（IOU）大于阈值的预测框则标记为正例，反之则为负例。然后将分类得分前2000个感兴趣区域按其面积从各个层级的特征金字塔中提取对应的特征到同一分辨率尺度（例如

）；

步骤5：将步骤4得到的感兴趣图像区域特征输入到三个级联的检测头中，依次进行分类，回归以及对应框位置的方差估计；

步骤6：对步骤5得到的预测框与真实包围框进行匹配，其IOU大于阈值的预测框则标记为正例，反之则为负例。三个级联的检测头中使用了逐渐提升的IOU阈值；

步骤7：对步骤4和步骤6中的正例框和负例框的分类得分计算交叉熵损失，步骤4中的正例框的标签与物体类别无关，步骤6中的正例框的标签即为对应水下声学图像中物体的类别；

计算分类损失时考虑到水下声学图像中图像类型不平衡问题，本发明提出了一种图像类型敏感的交叉熵损失，对于给定样本

及其对应的标签

，交叉熵损失定义如下：

其中

为物体所属图像类型的权重，定义如下：

即该权重与图像中物体类型无关，只与物体所属图像类型相关。

步骤8：对步骤4中的正例框计算与对应真实包围框的回归损失，对步骤6中的正例框计算预测框及其方差与对应真实包围框的相对熵损失（KL散度损失）；

如图6所示，为了解决水下声学图像中物体定位不平衡问题，将目标检测的回归问题建模成高斯分布，真实包围框视为狄拉克分布，通过散度损失最小化两个分布的距离，该损失可定义为：

其中

为预测的包围框的位置，

为对应位置的真实包围框的位置，

为预测的包围框的方差。

步骤9：计算步骤7和步骤8中所有损失的梯度，对整个目标检测网络模型进行梯度反向传播，并更新网络参数，直至网络收敛。

步骤10：将训练得到的目标检测网络模型直接应用于水下声学图像测试图像中进行检测，检测结果需通过方差投票的软非极大值抑制算法进行后处理，得到最终的检测结果。

方差投票的软非极大值抑制算法是本发明针对水下声学图像目标检测问题提出的最大值抑制算法，是利用预测的方差来删除冗余框的后处理算法，具体过程为：先得到任意物体回归位置

相对于某个物体的回归位置

的置信度：

其中，

为预设的参数；再利用得到的

修正预测的框的位置（如图7所示）：

其中，

为所有的预测位置，

为回归位置

的方差，执行完修正的所有预测框再使用软非极大值抑制算法得到最终的预测框。

实施例

1、数据集

数据集含有训练集和测试集。训练集包含2288张声呐图像，其中侧扫声呐图像1216张、前视声呐图像800张、负样本（无目标）272张。测试集包含600张声呐图像，其中侧扫声呐图像400张、前视声呐图像200张。

2、性能评测准则

为了进行算法性能的评测以及与其他方法的对比，选取在目标检测中被广泛使用的评测方法：基于Recall（查全率）和Precision（准确率）计算出的AP（Average Precision，平均准确率）。

首先介绍Recall和Precision的计算过程。在训练集上学习到分类模型之后，测试集上的每一个样本都会由分类器计算出一个得分，根据样本的得分可以判断样本是正例还是反例，对所有样本的正反例评判有如下四种情况：

a) True Positive（TP）：正确的正例，也就是正例样本被分类器正确的判定为正例样本。

b) False Positive（FP）：错误的正例，也就是反例样本被分类器错误的判定为正例样本。

c) True Negative（TN）：正确的反例，也就是反例样本被分类器正确的判定为反例样本。

d) False Negative（FN）：错误的反例，也就是正例样本被分类器错误的判定为反例样本。

有了上述四个定义之后，Recall和Precision可以用如下公式计算：

实验中对所有测试样本的得分排序，并且通过不断的调整正反例样本的得分阈值形成不同的Recall和Precision。同时采用了目标检测使用最为广泛的AP值，通过多组Recall和Precision计算出平均性能mAP。

3、结果与分析

本发明使用NVIDIA TITAN RTX 24G GPU作为计算平台。在数据集上训练后，在测试集上测试后得到的结果见表1。同时，对本发明做了消融实验，结果见表2。

表1各方法测试性能

方法	基网	mAP(%)	FPS
				Faster R-CNN + FPN	ResNet50	20.9	5.4
Faster R-CNN + FPN	ResNet101	22.4	3.6
				Cascade R-CNN	ResNet101	23.9	0.8
Cascade R-CNN	ResNet152	25.3	0.4
				本发明	ResNet101	29.8	0.4

表2本发明消融实验

方法	基网	提升(%)	FPS
				Cascade R-CNN	ResNet50	22.1	1.7
Cascade R-CNN	ResNet101	23.9 (+1.8)	0.8
				+ 图像嫁接	ResNet101	24.6 (+0.7)	0.8
+ 物体拉伸	ResNet101	25.0 (+0.4)	0.8
				+ 图像随机裁剪	ResNet101	25.3 (+0.3)	0.8
+ 多方向物体翻转	ResNet101	25.8 (+0.5)	0.8
				+ 图像尺度抖动	ResNet101	26.1 (+0.3)	0.8
+ 对偶特征金字塔	ResNet101	26.7 (+0.6)	0.7
				+ 可变形卷积	ResNet101	27.3 (+0.6)	0.5
+ 重加权	ResNet101	27.7 (+0.4)	0.5
				+ 高斯建模回归问题	ResNet101	28.8 (+1.1)	0.5
+ 高斯方差投票	ResNet101	29.3 (+0.5)	0.4
				+ 软非极大值抑制	ResNet101	29.8 (+ 0.5)	0.4
本发明	ResNet101	29.8	0.4

Faster R-CNN、FPN、Cascade R-CNN都是目标检测中常用的算法。表1和2中FPS是指在单张GPU测试的模型的推理速度，即每秒可以测试多少张图像。

表1中，对于Faster R-CNN+FPN算法而言，其使用ResNet-101作为基网时，mAP只能达到22.4%，而本发明使用ResNet-101作为基网时则能够达到29.8%。而对于Cascade R-CNN算法而言，当其使用ResNet-152作为基网时，mAP只能达到25.3%，而本发明在相同的FPS下能够达到29.8%的mAP，仍具有较大的优势。

表2中，同一逐一的添加变量，得到各项技术带来的mAP的提升。首先，当使用ResNet-101作为基网时，Cascade R-CNN只能达到23.9%mAP。通过本发明提出的图像嫁接，物体拉伸等数据增强技术可以达到26.1%的mAP，充分说明了本发明所提出的数据增强技术的有效性。当使用了对偶特征金字塔和可变形卷积技术后，mAP能够达到27.3%。当使用了重加权技术解决图像类型不平衡问题后，mAP能够达到27.7%。最后通过解决定位不平衡问题后，mAP能够达到最高的29.8%，远高于作为基线方法的Cascade R-CNN。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。