CN116912673A

CN116912673A - 一种基于水下光学图像的目标检测方法

Info

Publication number: CN116912673A
Application number: CN202310909216.9A
Authority: CN
Inventors: 赵亮; 云晴; 袁夫彩; 陈瑞; 金军委; 朱献超; 张坤鹏; 付璐璐; 李宣; 任旭
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-20

Abstract

本发明提供一种基于水下光学图像的目标检测方法。该方法包括：步骤1：获取水下光学图像目标数据集，并分为训练集、验证集和测试集；步骤2：对YOLOv7网络进行改进以构建得到基于水下光学图像的目标检测模型，包括构建新的骨干网络、新的检测头模块和融入新的注意力机制；步骤3：采用训练集和验证集对所述目标检测模型进行训练；步骤4：使用训练好的目标检测模型对测试集进行检测。本发明构建的目标检测模型极大地提高了水下目标检测的平均检测精度，且有效减少了模型参数规模，使检测模型更加轻量化，有利于部署在低成本的水下检测设备上。

Description

一种基于水下光学图像的目标检测方法

技术领域

本发明涉及计算机视觉和人工智能技术领域，尤其涉及一种基于水下光学图像的目标检测方法。

背景技术

水下目标检测技术在海洋环境监测和早期预警方面发挥着重要作用。装备有目标检测设备的水下机器人可以代替潜水员实施水下环境中感兴趣目标的准确定位与识别。因为以下三个因素使得水下目标检测任务具有相当的挑战：(1)天气和洋流等因素导致水下环境复杂多变，捕捉的图像在环境噪声的作用下饱和度低、边缘模糊；(2)水下目标种类丰富，部分种类目标体型微小且位置隐蔽；(3)水下目标检测设备有限的存储和计算能力要求检测模型轻量化。传统的基于水下光学图像的目标检测方法效果不佳。

随着计算机视觉和深度学习技术的发展，使用深度学习方法从水下光学图像中检测感兴趣目标成为研究热点。Jian Zhang等提出一种基于改进的YOLOv5框架的海洋生物检测方法。此外，Hao Wang等改进了Faster RCNN两阶段算法，用于检测海参、棘鱼、扇贝、海星和水草。虽然他们已经取得了相当的成果，但仍然存在明显的缺陷。改进的YOLOv5的检测精度仍然差强人意，改进的Faster RCNN的实时性不能满足要求。所以，改进和创新水下目标检测技术是当前亟需解决的重要问题。

发明内容

为了兼顾基于水下光学图像的目标检测任务需要的检测精度和实时性，本发明提出了一种水下目标检测方法，通过对YOLOv7进行深度改进，构建得到一种高精度轻量化的YOLOv7-CHS目标检测模型，能够更好地适应水下环境的特殊要求。

本发明提供的一种基于水下光学图像的目标检测方法，包括：

步骤1：获取水下光学图像目标数据集，并分为训练集、验证集和测试集；

步骤2：对YOLOv7网络进行改进以构建得到基于水下光学图像的目标检测模型，包括构建新的骨干网络、新的检测头模块和融入新的注意力机制；

步骤3：采用训练集和验证集对所述目标检测模型进行训练；

步骤4：使用训练好的目标检测模型对测试集进行检测。

进一步地，步骤2中，构建新的骨干网络具体包括：

将YOLOv7的骨干网络中的两个ELAN模块替换为C3HB模块，并在第一个C3HB模块后加入一个下采样卷积层，在第二个C3HB模块后加入一个特征提取卷积层。

进一步地，所述C3HB模块的构建过程具体包括：

使用递归门控卷积RGConv构建高阶空间交互HOSI模块；

使用HOSI模块替换C3模块中的一个卷积层得到C3HB模块。

进一步地，步骤2中，构建新的检测头模块具体包括：

在YOLOv7的检测头中的ELAN模块替换为CT3模块；其中，所述CT3模块包括第一分支、第二分支、连接层和第一CBS模块；其中，所述第一分支的输出和所述第二分支的输出先经连接层进行拼接，拼接后的特征图再经第一CBS模块处理；所述第一分支包括相连接的第二CBS模块和CT瓶颈模块，所述第二分支包括第三CBS模块；

所述CT瓶颈模块包括第四CBS模块和CT模块；其中，输入的原始特征图依次经过第四CBS模块和CT模块处理后，再与输入的原始特征图合并。

进一步地，所述融入新的注意力机制包括：

将YOLOv7的检测头中的MP-2模块中的1×1卷积块替换为SPFA模块得到MP-SPFA模块；其中，所述SPFA模块包括：先由特征生成3-D权重，再经过扩展生成既包含通道注意力又包含空间注意力的三维权重。

进一步地，步骤3具体包括：

采用COCO基准数据集对所述目标检测模型进行预训练；

采用训练集和验证集对预训练后的目标检测模型进行调整，得到训练好的目标检测模型。

本发明的有益效果：

(1)提出C3HB模块构建检测模型新的骨干网络，可以更好地提取水下光学图像中目标特征，同时克服了检测模型参数量巨大、计算复杂度高的缺陷，使得改进的检测模型更加轻量化，更有利于将检测模型部署在水下机器人的目标检测设备中；

(2)提出CT3模块替换YOLOv7检测头部分的ELAN模块，提高了检测模型对尺寸微小的水下目标的检测效果，改善了模型的检测精度，以适应严苛的水下检测环境；

(3)引入SPFA注意力机制改进MP-2模块，使得检测模型的视觉表示能力进一步提高以更加准确地识别模糊的水下图像，提升了模型的检测精度。

(4)在训练基于水下光学图像的目标检测模型时，基于迁移学习方法，先使用COCO基准数据集上的模型权重作为目标检测模型的预训练权重，再在水下光学图像数据集上重新训练，加快模型的收敛增强泛化能力；

(5)本发明构建的目标检测模型极大地提高了水下目标检测的平均检测精度，且有效减少了模型参数规模，使检测模型更加轻量化，有利于部署在低成本的水下目标检测设备上。

附图说明

图1为本发明实施例提供的一种基于水下光学图像的目标检测方法的流程示意图；

图2为本发明实施例提供的不同环境下的水下光学图像示意图：(a)光线昏暗环境；(b)成像模糊环境；(c)微小目标环境；

图3为本发明实施例提供的YOLOv7-CHS目标检测模型的整体结构；

图4为本发明实施例提供的水下光学图像四种检测目标分布；

图5为本发明实施例提供的HOSI模块结构图；

图6为本发明实施例提供的C3HB模块结构图；

图7为本发明实施例提供的CT模块结构图；

图8为本发明实施例提供的(a)CT瓶颈模块结构图；(b)CT3模块结构图；

图9为本发明实施例提供的SPFA模块结构图；

图10为本发明实施例提供的MP-SPFA模块结构图；

图11为本发明实施例提供的YOLOv7-CHS目标检测模型在测试集上的检测结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现性能优异的高精度轻量化水下目标检测任务，本发明提出了一种基于YOLOv7-CHS进行水下目标检测的方法，解决了传统水下目标检测任务面临的水下成像质量差、目标微小、以及检测模型参数规模过大等问题。如图1所示，具体实施方式如下：

S101：获取水下光学图像目标数据集，并分为训练集、验证集和测试集；

本实施例中，采集到的水下光学图像目标数据集包括海参、海胆、扇贝和海星四类待检测目标。四类目标的总数为74515个，其中海参、海胆、扇贝和海星分别为7887、50156、1924和14548个(如图4所示)，具有相当显著的长尾效应，会对检测结果(扇贝的检出率)带来不利影响。该数据集一共包含7782张不同分辨率的水下光学图像和对应的标注信息，标注信息是图像中目标的类别和包围该目标边界框的坐标值。

将采集到的水下光学图像数据集制作成YOLO格式的数据集，主要包括图像和标签两个文件夹，其中图像文件夹中包含三个子文件夹，分别用来存放训练集、验证集和测试集的jpg格式的水下光学图像，标签文件夹中也包含三个子文件夹，分别用来存放图像文件夹中三个子文件夹对应的txt格式的标签信息。经过归一化处理的标签信息格式为[class,x_center,y_center,w,h]。其中class表示目标类别；(x_center,y_center)表示边界框的中心点坐标；w表示边界框的宽度；h表示边界框的高度。

S102：对YOLOv7网络进行改进以构建得到YOLOv7-CHS目标检测模型，包括构建新的骨干网络、新的检测头模块和融入新的注意力机制；

为了更加高效地完成水下目标检测任务，本发明实施例对YOLOv7网络进行深度改进，主要改进方面包括构建新的骨干网络、新的检测头模块和融入新的注意力机制。本实施例是在Windows10操作系统上使用Python3.7环境，并基于Pytorch深度学习框架构建目标检测模型。本发明实施例提出的目标检测模型的整体结构如图3所示。

(1)构建新的骨干网络增强水下目标的有效特征提取

水下成像设备的工作环境异常严酷，光照强度、温度、盐度、洋流速度、方向以及水下机器人的工作状态都会对水下环境的图像捕捉造成巨大影响。因此，水下光学图像(如图2所示)的质量不能达到大气中光学图像的质量水平。

为了更好的提取水下光学图像中目标特征且使模型骨干网络更加轻量化，将YOLOv7骨干网络中的两个ELAN模块替换为C3HB模块，并在第一个C3HB模块后加入一个下采样卷积层，在第二个C3HB模块后加入一个特征提取卷积层，使得骨干网络能够实现高阶空间交互，并且网络更加轻量化。

所述C3HB模块的构建过程具体包括：使用递归门控卷积RGConv构建高阶空间交互HOSI模块，如图5所示；使用HOSI模块替换C3模块中的一个卷积层得到C3HB模块，如图6所示，该模块使得检测模型提取水下光学图像特征能力更强且参数更加轻量化。

(2)提出新的检测头模块改善微小水下目标的检测效果

水下设备捕获的环境光学图像中大部分目标是小于30×30像素的微小目标，容易漏检。为了提高它们的检测率，在检测头部分将ELAN模块替换为可以检测微小目标的CT3模块，通过静态和动态上下文的融合提高模型对局部图像特征的视觉建模能力。

CT3模块主要是为了提高水下图像中微小目标的检出率而设计的。先使用CT模块构建CT瓶颈模块，再由CT瓶颈模块构建CT3模块。关于CT模块，首先通过上下文对输入键进行编码卷积，使输入的静态上下文得到表示，接着通过两个连续的卷积将编码键与输入查询连接起来，然后将学习到的注意力矩阵乘以输入值，以实现输入的动态上下文表示，静态和动态上下文表示的融合最终被作为输出。CT模块的结构如图7所示。图8(a)是CT瓶颈模块，而图8(b)表示CT3模块。CT3模块使得模型检测微小目标的精度得到了有效提高。

(3)融入新的注意力机制提高水下目标的检测精度和实时性

水下机器人的目标检测设备成本和实时性要求检测模型在不增加网络参数规模的前提下进一步提高精度。为达成这一目标，提出一种新的注意力机制SPFA替换MP-2模块中的一个1×1卷积操作，得到MP-SPFA模块，结构如图10所示，MP-SPFA模块包括两个分支：第一个分支由一个最大池化层和一个卷积核为1×1、步长为1的CBS模块组成；第二个分支包括SPFA模块和一个卷积核为3×3、步长为2的CBS模块。相比于现有的通道注意力和空间注意力机制，SPFA模块可以直接推理出三维的注意力权重，不增加任何参数量，改善卷积操作的表征能力，使模型的检测能力进一步有效提高，结构如图9所示。所述SPFA模块包括：先由特征生成3-D权重，然后扩展生成既包含通道注意力又包含空间注意力的三维权重。相同的颜色表示每个特征上的每个点使用单个标量。

S103：采用训练集和验证集对所述目标检测模型进行训练；

为了保证实验结果的可靠性和鲁棒性，需要合理选择模型训练的超参数。输入模型的水下光学图像大小是640×640像素，训练进行300次迭代，训练批次大小是8。对比实验中使用Adam优化器调整模型参数，学习率设置为0.001。消融实验中使用SGD优化器调整模型参数，学习率设置为0.01。

在训练模型时，采用迁移学习的方法，先在COCO基准数据集上训练得到一个权重文件，然后以该权重文件作为YOLOv7-CHS模型的预训练权重在基于水下光学图像的目标检测数据集上(训练集和验证集)进行训练，最终得到目标检测模型。

S104：使用训练好的目标检测模型对测试集进行检测；

当检测模型构建并训练完成之后，使用测试集对YOLOv7-CHS检测模型进行性能评估。在给定置信度阈值条件下，得到最终的检测结果如图11所示，它包含预测的目标类别和预测边界框的坐标信息。

表1比较不同目标检测模型的检测精度和实时性

表2消融实验

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于水下光学图像的目标检测方法，其特征在于，包括：

步骤3：采用训练集和验证集对所述目标检测模型进行训练；

步骤4：使用训练好的目标检测模型对测试集进行检测。

2.根据权利要求1所述的一种基于水下光学图像的目标检测方法，其特征在于，步骤2中，构建新的骨干网络具体包括：

3.根据权利要求2所述的一种基于水下光学图像的目标检测方法，其特征在于，所述C3HB模块的构建过程具体包括：

使用递归门控卷积RGConv构建高阶空间交互HOSI模块；

使用HOSI模块替换C3模块中的一个卷积层得到C3HB模块。

4.根据权利要求1述的一种基于水下光学图像的目标检测方法，其特征在于，步骤2中，构建新的检测头模块具体包括：

5.根据权利要求1所述的一种基于水下光学图像的目标检测方法，其特征在于，所述融入新的注意力机制包括：

6.根据权利要求1所述的一种基于水下光学图像的目标检测方法，其特征在于，步骤3具体包括：

采用COCO基准数据集对所述目标检测模型进行预训练；