CN116758407A

CN116758407A - 一种基于CenterNet的水下小目标检测方法及装置

Info

Publication number: CN116758407A
Application number: CN202310648940.0A
Authority: CN
Inventors: 鲍正位; 郭颖; 王季宇; 严舒; 朱琳琳; 黄骏
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-09-15

Abstract

本发明提供一种基于CenterNet的水下小目标检测方法及装置，涉及人工智能领域。该水下小目标检测方法，包括以下步骤：对获取的原始图像利用局部信息来增强图像，并对原始图像对比度进行优化；利用HRNet骨干网络提取原始图像的特征得到初始特征图，引入了通道空间注意力模块在空间维度及通道维度对初始特征图进行特征增强得到中间特征图，基于预设的感受野模块融合中间特征图得到最终特征图；对最终特征图进行预测，得到检测结果。解决了现有的方法采用了数据增强的方式来增加样本量，从而提高模型的泛化性能，但同时也增加了参数量，影响了计算速度的问题，相比centernet使用的沙漏网络hourglass，本发明降低了参数量，提升了计算速度。

Description

一种基于CenterNet的水下小目标检测方法及装置

技术领域

本发明涉及人工智能技术领域，具体为一种基于CenterNet的水下小目标检测方法及装置。

背景技术

水下目标检测是一项关键的计算机视觉任务，也是水下探测和海洋目标智能探测的基础。随着水下机器人技术的不断发展，自动捕获技术已成为实现水下任务的必要条件。虽然目标检测在普通数据集中已经取得了成功，但水下物体的实时检测具有很大的研究价值和广阔的应用前景。尽管如此，水下目标检测任务仍然存在巨大的挑战。

随着深度学习技术的不断发展，基于深度学习的目标检测算法逐渐取代了传统的基于机器学习的方法，在水下领域也不例外。目前，基于深度学习的目标检测算法大致可以分为两种：一种是基于分类的两阶段算法，例如R-CNN、Fast R-CNN和Faster R-CNN，这些算法的精度相对较高，但是速度较慢；另一种是基于回归的一阶段算法，例如YOLO和SSD，这些算法不使用RPN网络，直接通过主干网络进行分类和回归，速度相对较快，但精度较低。其中，YOLO的特点是检测速度快，在视场清晰、物体特征明显的环境中具有良好的检测能力，但在水下环境中的表现不佳。而SSD骨干网络结构较深，参数较多，不利于在硬件上部署，而且其对于小物体的检测能力较差。

申请号为CN202210141099.1的中国发明公开了一种基于改进的CenterNet的图像小目标检测方法，该方法采用了数据增强的方式来增加样本量，从而提高模型的泛化性能，但同时也增加了参数量，影响了计算速度。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于CenterNet的水下小目标检测方法及装置，解决了现有的方法采用了数据增强的方式来增加样本量，从而提高模型的泛化性能，但同时也增加了参数量，影响了计算速度的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，提供了一种基于CenterNet的水下小目标检测方法，包括以下步骤：

图像预处理步骤，对获取的原始图像利用局部信息来增强图像，并对原始图像对比度进行优化；

特征提取步骤，利用HRNet骨干网络提取原始图像的特征得到初始特征图，引入了通道空间注意力模块在空间维度及通道维度对初始特征图进行特征增强得到中间特征图，基于预设的感受野模块融合中间特征图得到最终特征图；

检测步骤，对最终特征图进行预测，得到检测结果。

优选的，所述图片预处理步骤，具体包括：

分块处理步骤，利用CLAHE算法对图像进行像素分块处理；

直方图均衡化步骤，对每个分块进行直方图均衡化，计算映射关系时使用对比度限制；

图像增强步骤，使用插值方法得到增强图像；

对比度优化步骤，将对比度限制引入每个小区域，对原始图像对比度进行优化，并抑制其噪声的过度放大。

优选的，所述HRNet骨干网络由四个分辨率不同的并行子网络组成，其中，第一个并行子网络包括四个宽度为64的瓶颈残差单元，后跟一个3×3卷积将特征图通道调整为32，以减少网络内部参数；第二并行子网络、第三并行子网络、第四并行子网络分别包含1、4、3个交换块，每个交换块包含四个残差单元，每个分辨率都包含两个3×3卷积和跨分辨率交换单元；HRNet骨干网络的四个分辨率不同的并行子网络分别对图像进行4、8、16、32倍下采样和提取不同分辨率的特征图。

优选的，所述引入了通道空间注意力模块在空间维度及通道维度对初始特征图进行特征增强得到中间特征图，具体包括：

输入的初始特征图分别经过基于宽度和长度的全局最大池化层和全局平均池化层，得到两个大小为1×1×C的特征图；

将两个特征图分别送入一个两层的MLP神经网络，得到两个新的特征图；

两个新的特征图经过Concat拼接后，使用Sigmoid激活函数，将经过Concat拼接后的特征图与初始特征图融合得到中间特征图；

所述MLP网络的结构由卷积层、激活函数和卷积层三层结构堆叠而成。

优选的，所述基于预设的感受野模块融合中间特征图得到最终特征图，具体包括：

采用多个分支并行处理输入的中间特征图；每个分支由1×1卷积和其他几个不同核大小的简单卷积组成，每个分支形成一个类似瓶颈的结构；

将输入和特征融合结果加权相加，再通过ReLU激活函数输出最终特征图；这种结构的设计可以有效提高网络的感受野，捕捉多尺度上下文信息，并且保持特征的丰富性和多样性。

第二方面，提供了一种基于CenterNet的水下小目标检测装置，包括：

图像预处理模块，用于对获取的原始图像利用局部信息来增强图像，并对原始图像对比度进行优化；

特征提取模块，用于利用HRNet骨干网络提取原始图像的特征得到初始特征图，引入了通道空间注意力模块在空间维度及通道维度对初始特征图进行特征增强得到中间特征图，基于预设的感受野模块融合中间特征图得到最终特征图；

检测模块，用于对最终特征图进行预测，得到检测结果。

优选的，所述图片预处理模块，具体包括：

分块处理模块，用于利用CLAHE算法对图像进行像素分块处理；

直方图均衡化模块，用于对每个分块进行直方图均衡化，计算映射关系时使用对比度限制；

图像增强模块，用于使用插值方法得到增强图像；

对比度优化模块，将对比度限制引入每个小区域，对原始图像对比度进行优化，并抑制其噪声的过度放大。

优选的，所述HRNet骨干网络由四个分辨率不同的并行子网络组成，所述HRNet骨干网络的四个分辨率不同的并行子网络分别对图像进行4、8、16、32倍下采样和提取不同分辨率的特征图。

第二方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

第三方面，提供了一种计算设备，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

(三)有益效果

本发明一种基于CenterNet的水下小目标检测方法及装置，首先，引入了限制对比度自适应直方图均衡(CLAHE)算法对输入图像进行预处理，以解决颜色失真和图像模糊的问题。然后，使用高分辨率人体姿态估计网络HRNet代替CenterNet模型中的Hourgl ass-104骨干网络，使网络保持较强的特征提取能力的同时，降低模型参数量，提升检测速度。进一步，引入了注意力模块(CBAM)，在空间维度及通道维度进行特征增强，使网络关注重要目标特征信息，提高检测精度。最后，构建了感受野模块(RFB)来融合多分辨率特征图，进一步增强特征的鲁棒性和辨别性，提高模型对于水下多尺度目标的检测能力。本发明与其他主流检测网络模型相比，在水下小目标检测上取得了良好的检测效果。

附图说明

图1为本发明水下小目标检测方法整体流程图；

图2为本发明水下小目标检测方法整体框架图；

图3为本发明实施例中的主干网络示意图；

图4为本发明实施例中的CBAM注意力模块示意图；

图5为本发明实施例中的通道注意力机制模块示意图；

图6为本发明实施例中的空间注意力机制模块示意图；

图7为本发明实施例中的感受野增强模块示意图。

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1-7所示，本发明实施例提供一种基于CenterNet的水下小目标检测方法，包括以下步骤：

特征提取步骤，将原始CenterNet模型的主干网络替换为可以获得高分辨率的主干网络，来获得高质量的特征图，即利用HRNet骨干网络提取原始图像的特征得到初始特征图，引入了通道空间注意力模块在空间维度及通道维度对初始特征图进行特征增强得到中间特征图，基于预设的感受野模块融合中间特征图得到最终特征图；

检测步骤，对最终特征图进行预测，得到检测结果。

进一步的，所述图片预处理步骤，具体包括：

分块处理步骤，利用CLAHE算法对图像进行像素分块处理；

图像增强步骤，使用插值方法得到增强图像；

如图3所示，进一步的，为了提高网络的性能，我们使用HRNet替换了原有的主干网络。HRNet是一种针对人体姿态估计的高分辨率网络，通过并行多个不同分辨率的分支，并不断进行特征融合，从而增强高分辨率特征，同时提高语义信息和精准位置信息的准确性。HRNet骨干网络由四个分辨率不同的并行子网络组成，其中第一个阶段包括四个宽度为64的瓶颈残差单元，后跟一个3×3卷积将特征图通道调整为32，以减少网络内部参数；第二、第三、第四阶段分别包含1、4、3个交换块，每个交换块包含四个残差单元，每个分辨率都包含两个3×3卷积和跨分辨率交换单元。HRNet的四个子网络分别对图像进行4、8、16、32倍下采样和提取不同分辨率的特征图。为了充分利用多尺度特征信息，本发明使用了HRNet四个并行子网络产生的特征图作为骨干网络的输出，从而进一步提高了网络的性能。

如图4、5、6所示，进一步的通道注意力(CAM)操作如下：首先，输入的特征图分别经过基于宽度和长度的全局最大池化层和全局平均池化层，得到两个大小为1×1×C的特征图。接着，这两个特征图分别送入一个两层的MLP神经网络，得到两个新的特征图。两个新特征图经过Concat拼接后，使用Si gmo id激活函数，将该结果与原始特征图融合。MLP网络的结构由卷积层、激活函数和卷积层三层结构堆叠而成。

空间注意力(SAM)操作如下：首先，特征图经过最大池化层和全局平均池化层，得到两个大小为1×1×C的特征图。接着，这两个特征图基于通道做concat拼接操作，然后经过一个7×7的卷积层，使用Sigmoid激活函数。最后，将该结果与原始特征图融合。

CBAM模块由CAM和SAM线性堆叠构成，其引入可以学习特征的空间和通道相互依存的特点。通过建立局部特征之间的依赖关系，特征图在反卷积过程中能更好地反映空间变化的信息，从而获得更加全面的信息。此外，网络能够学习到更加关键的信息，提高了图像匹配的精度和鲁棒性。

进一步的，所述基于预设的感受野模块融合中间特征图得到最终特征图，具体包括：

将输入和特征融合结果加权相加，再通过ReLU激活函数输出最终特征图；这种结构的设计可以有效提高网络的感受野，捕捉多尺度上下文信息，并且保持特征的丰富性和多样性；

如图7所示，该结构采用多个分支并行处理输入数据。每个分支由1×1卷积和其他几个不同核大小的简单卷积组成，最后每个分支形成一个类似瓶颈的结构。每个分支的卷积核大小略有变化，有利于捕捉多尺度的上下文信息。为了扩大感受野，我们使用不同的扩张率来增强多尺度特征，然后将多个分支的特征进行融合，最后使用1×1卷积来调整通道大小。此外，我们还引入了快捷连接方法来模拟残差结构，将输入和特征融合结果加权相加，再通过ReLU激活函数输出最终结果。这种结构的设计可以有效提高网络的感受野，捕捉多尺度上下文信息，并且保持特征的丰富性和多样性，从而提高图像匹配的精度和鲁棒性。

本模型使用Adam作为优化器，初始学习率为1.25e-4，动量设置为1e-4，并在训练50、60epoch时下降10倍。本发明中的模型评价指标使用平均精度(Average Precision，AP)、均值平均精度(mAP)和每秒处理帧数(Frame Per Second，FPS)。

使用在第一阶段处理好的测试集样本送入到第二阶段经过训练后得到的最优网络模型中进行测试，最后通过训练出的权重参数对测试数据进行类别分类和位置回归，得到最终的检测结果。

检测模块，用于对最终特征图进行预测，得到检测结果。

进一步的，所述图片预处理模块，具体包括：

图像增强模块，用于使用插值方法得到增强图像；

进一步的，所述HRNet骨干网络由四个分辨率不同的并行子网络组成，所述HRNet骨干网络的四个分辨率不同的并行子网络分别对图像进行4、8、16、32倍下采样和提取不同分辨率的特征图。

本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于CenterNet的水下小目标检测方法，其特征在于，包括以下步骤：

检测步骤，对最终特征图进行预测，得到检测结果。

2.根据权利要求1所述的一种基于CenterNet的水下小目标检测方法，其特征在于：所述图片预处理步骤，具体包括：

分块处理步骤，利用CLAHE算法对图像进行像素分块处理；

图像增强步骤，使用插值方法得到增强图像；

3.根据权利要求2所述的一种基于CenterNet的水下小目标检测方法，其特征在于：所述HRNet骨干网络由四个分辨率不同的并行子网络组成，其中，第一个并行子网络包括四个宽度为64的瓶颈残差单元，后跟一个3×3卷积将特征图通道调整为32，以减少网络内部参数；第二并行子网络、第三并行子网络、第四并行子网络分别包含1、4、3个交换块，每个交换块包含四个残差单元，每个分辨率都包含两个3×3卷积和跨分辨率交换单元；HRNet骨干网络的四个分辨率不同的并行子网络分别对图像进行4、8、16、32倍下采样和提取不同分辨率的特征图。

4.根据权利要求3所述的一种基于CenterNet的水下小目标检测方法，其特征在于：所述引入了通道空间注意力模块在空间维度及通道维度对初始特征图进行特征增强得到中间特征图，具体包括：

5.根据权利要求4所述的一种基于CenterNet的水下小目标检测方法，其特征在于：所述基于预设的感受野模块融合中间特征图得到最终特征图，具体包括：

6.一种基于CenterNet的水下小目标检测装置，其特征在于，包括：

检测模块，用于对最终特征图进行预测，得到检测结果。

7.根据权利要求6所述的一种基于CenterNet的水下小目标检测装置，其特征在于：所述图片预处理模块，具体包括：

图像增强模块，用于使用插值方法得到增强图像；

8.根据权利要求6所述的一种基于CenterNet的水下小目标检测装置，其特征在于：所述HRNet骨干网络由四个分辨率不同的并行子网络组成，所述HRNet骨干网络的四个分辨率不同的并行子网络分别对图像进行4、8、16、32倍下采样和提取不同分辨率的特征图。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-5所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-5所述的方法中的任一方法的指令。