CN116452966A

CN116452966A - 一种水下图像的目标检测方法、装置、设备及存储介质

Info

Publication number: CN116452966A
Application number: CN202310452840.0A
Authority: CN
Inventors: 颜经辉; 周壮; 王腾辉; 赵泽锋; 唐佳林; 赖韵婷; 周俊涛; 陈炯江; 王振波; 李智创; 梁婉欣; 刘辰晨
Original assignee: Beijing Institute of Technology Zhuhai
Current assignee: Beijing Institute of Technology Zhuhai
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-18

Abstract

本发明公开了一种水下图像的目标检测方法、装置、设备及存储介质，方法包括：提取水下图像的多种特征，并组合得到多尺度特征；将多尺度特征分散到多个特征图上，并根据特征图融合多尺度特征，得到融合特征；通过卷积块注意力模块获取多尺度特征与融合特征中的目标特征通道信息和目标特征空间信息，并得到目标特征；通过卷积模块整合目标特征，并转换为最终的预测结果。本发明可以提高水下图像目标的检测准确率，可广泛应用于水下图像处理领域。

Description

一种水下图像的目标检测方法、装置、设备及存储介质

技术领域

本发明涉及水下图像处理领域，尤其是一种水下图像的目标检测方法、装置、设备及存储介质。

背景技术

现有基于学习的水下目标检测算法是利用大量标注的水下目标图像数据，将图像中的目标进行标注和分类，通过模型训练结果和标注信息之间不断趋近，学习得到某一类目标的特征学习并且进行标注，从而达到目标检测的效果。

然而在水下环境中，由于水下介质、水下光照条件、水下海底环境等都要比地面环境复杂，不同波长光在水中的差异性衰减，水中浮游生物和悬浮粒子对光的散射，使得水下图像和视频中的目标模糊，且存在严重色差严重影响目标的特征，为水下目标的特征学习、识别理解造成严重障碍。现有的水下目标检测方案不能解决上述问题。

发明内容

有鉴于此，本发明实施例提供一种水下图像的目标检测方法、装置、设备及存储介质，用于提高水下图像目标的检测准确率。

本发明实施例的一方面提供了一种水下图像的目标检测方法，包括：

提取水下图像的多种特征，并组合得到多尺度特征；

将所述多尺度特征分散到多个特征图上，并根据所述特征图融合所述多尺度特征，得到融合特征；

通过卷积块注意力模块获取所述多尺度特征与所述融合特征中的目标特征通道信息和目标特征空间信息，并得到目标特征；

通过卷积模块整合所述目标特征，并转换为最终的预测结果。

可选地，所述提取水下图像的多种特征，并组合得到多尺度特征，包括：

提取水下图像的多种特征，所述多种特征包括纹理、颜色和形状中的至少之一；

将所述多种特征的感受野大小和中心步长进行多种方式的组合，得到多尺度特征。

可选地，所述将所述多种特征的感受野大小和中心步长进行多种方式的组合，得到多尺度特征，包括：

通过CBS模块卷积提取所述水下图像的多种特征，进行归一化操作并激活处理；

通过E-ELAN模块和MP模块交替提取经过卷积、归一化和激活处理后的多种特征，输出由不同感受野和不同中心步长组合的多尺度特征。

可选地，所述根据所述特征图融合所述多尺度特征，得到融合特征，包括：

通过特征金字塔和路径聚合网络将分散在所述特征图中的多尺度特征进行融合，得到融合特征。

可选地，所述通过卷积块注意力模块获取所述多尺度特征与所述融合特征中的目标特征通道信息和目标特征空间信息，并得到目标特征，包括：

通过卷积块注意力模块获取所述多尺度特征与所述融合特征中特征通道的权重信息和特征空间的权重信息；

根据所述特征通道的权重信息确定目标特征通道信息，根据所述特征空间的权重信息确定目标特征空间信息；

所述多尺度特征与所述融合特征、目标特征通道信息和目标特征空间信息相乘，得到目标特征。

可选地，所述通过卷积模块整合所述目标特征，包括：

分别将所述多尺度特征、所述特征金字塔提取并融合得到的第一融合特征，以及所述路径聚合网络提取并融合得到的第二融合特征进行卷积，以整合所述目标特征。

可选地，所述方法还包括：

通过跨阶段局部快速空间金字塔池化增加所述多种特征的感受野。

本发明实施例的另一方面还提供了一种水下图像的目标检测装置，包括：

特征提取单元，用于提取水下图像的多种特征，并组合得到多尺度特征；

特征融合单元，用于将所述多尺度特征分散到多个特征图上，并根据所述特征图融合所述多尺度特征，得到融合特征；

特征获取单元，用于通过卷积块注意力模块获取所述多尺度特征与所述融合特征中的目标特征通道信息和目标特征空间信息，并得到目标特征；

结果预测单元，用于通过卷积模块整合所述目标特征，并转换为最终的预测结果。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现上述任一项所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现上述任一项所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明先提取水下图像的多尺度特征，进而获取多尺度特征在通道及空间维度的信息，并据此减少了特征提取过程中的信息损失，提高了网络整体的特征提取能力，使得本发明在水下目标场景有更高的检测精度，可以在一定程度上解决了水下场景目标重叠、背景模糊复杂等问题给水下目标检测带来的困难。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种水下图像的目标检测方法的流程示意图；

图2为本发明实施例提供的一种数据对比图；

图3为本发明实施例提供的一种水下图像的目标检测装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明实施例提供了一种水下图像的目标检测方法，具体包括以下步骤：

S100：提取水下图像的多种特征，并组合得到多尺度特征。

由于，在水下环境中，由于水下介质、水下光照条件、水下海底环境等都要比地面环境复杂，使得水下图像和视频中的目标模糊，且存在严重色差严重影响目标的特征，为水下目标的特征学习、识别理解造成严重障碍。为了使网络结构能够在这种复杂的环境下完成目标检测的任务，一种可选的实施方式下，本发明可以基于对YOLOv7模型的改进，提出了一种适用于水下环境的目标检测网络方法。本发明的YOLOv7模型可以包括Backbone网络、Neck网络和Detect网络。

具体的，Backbone网络可以用于水下图像的特征提取，例如水下图像的纹理，颜色和形状。Backbone网络可以提供多种尺度，多种感受野大小和中心步长的组合，从而满足不同尺度和类别的要求。Backbone网络的提取过程可以包括：首先经过4个CBS模块进行卷积、归一化和激活，然后经过E-ELAN模块和MP模块交替提取特征，引出最后的3个E-ELAN模块的输出，作为Neck的输入。其中MP模块可以由MaxPool和CBS模块构成，E-ELAN模块额可以由多层卷积层构成。

S110：将所述多尺度特征分散到多个特征图上，并根据所述特征图融合所述多尺度特征，得到融合特征。

具体的，为了使YOLOv7模型能够学到多样化信息，提高目标检测的性能，Neck网络的作用可以包括将Backbone网络提供的多尺度特征学习分散到多个特征图上，将学习到的多尺度信息融合在一起，在提高了YOLOv7模型的感受野同时有效的分离了最重要的上下文特征，可以避免图像失真的问题。

可选的，本发明实施例中，Neck网络可以是一个PAFPN结构，由改进的FPN(FeaturePyramid Networks，即特征金字塔)和PANet(Path Aggregation Network，即路径聚合网络)构成，用于提取特征并且融合特征。本发明实施例本发明的PAFPN结构可以和YOLOV5的PAFPN结构基本一致，不同的是，本发明的PAFPN结构可以使用E-ELAN-L模块进行特征提取和融合，使用MP模块进行下采样。

S120：通过卷积块注意力模块获取所述多尺度特征与所述融合特征中的目标特征通道信息和目标特征空间信息，并得到目标特征。

具体的，本发明实施例的卷积块注意力模块可以是一种融合了特征通道信息和特征空间信息两个维度的注意力机制模块。卷积块注意力模块对输入的特征层，即多尺度特征分别进行通道注意力机制的处理和空间注意力机制的处理，通过学习的方式自动获取对每个特征通道和特征空间的重要程度，利用得到的重要程度来提升特征并抑制对当前任务不重要的特征。卷积块注意力模块的整体公式概括如下所示：

卷积块注意力模块的工作过程可以包括先将输入的特征层F经过通道注意力机制，得到的M_c与输入特征层F相乘，获得通道上加强和抑制的输出F′，再将F′作为空间注意力机制的输入，得到的M_s与F′相乘得到最终在通道内容和空间位置的加强和抑制的输出F″。

用于通道注意力机制的模块可以包括MaxPool最大池化、AvgPool平均池化和Shared MLP共享全连接层。相关的公式如下式：

其中σ表示sigmoid函数，W₀、W₁表示构成MLP的两个共享全连接层。

具体的，用于通道注意力机制的模块对输入的单个特征层F(H×W×C)，分别在H×W维度上进行MaxPool和AvgPool，将特征层压缩为1×1×C，经过MaxPool压缩之后的一维参数保留原有特征层的特征纹理，汇聚了区别物体特征的重要信息。而经过AvgPool压缩之后的一维参数汇聚了压缩前HxW的全局视觉信息，拥有更大的感知区域。进而将MaxPool和AvgPool的结果送入Shared MLP网络进行处理，再对处理后的两个结果进行相加，得到特征图通道权重。

用于空间注意力机制的模块可以包括MaxPool最大池化、AvgPool平均池化和convlayer卷积层。相关的公式如下：

其中σ表示sigmoid函数，f^7×7表示卷积核大小7×7的卷积运算。

具体的，用于空间注意力机制的模块对输入的单个特征层F(H×W×C)，分别在通道维度上进行MaxPool和AvgPool，将特征层压缩为H×W×1，压缩后的特征层聚焦了空间内区域的有效信息，用于提取沿通道的高效信息区域，进而再对两者的结果进行拼接，然后进行卷积降维，得到特征图空间权重，从而捕获特征信息的局部相关性。

S130：通过卷积模块整合所述目标特征，并转换为最终的预测结果。

具体的，对输入的水下图像经过Backbone网络的一次特征提取和Neck网络的两次特征提取后，使用1×1卷积整合特征信息并转换为最后的预测信息，得到模型的预测结果。

为了增加感受野提高检测准确性，本发明实施例还可以增加跨阶段局部快速空间金字塔池化。

具体的，跨阶段局部快速空间金字塔池化比现有仅使用最大池化的方式，更有效的增加水下图像主干特征的接收范围，显著的分离了最重要的上下文特征，跨阶段局部快速空间金字塔池化经过多尺度特征提取输出固定大小的特征向量，增加网络的感受野。

跨阶段局部快速空间金字塔池化中的空间金字塔结构可以使用三个池化核大小不同的独立池化层计算构成空间金字塔池化结构，但每次池化具有相同的输入，池化核较大的结果可以在池化核较小输出结果的计算结果上计算得到，在减少计算量的同时不改变模块的感受野，相关的池化部分公式如下式所示：

其中，R表示输出结果，⊙表示张量拼接，F表示输入的特征层。

具体的，本发明实施例可以将三次独立的池化进行联系，在较小池化核的池化层输出结果上使用更少的计算量，得出较大池化核的池化层结果，在保持感受野不变的情况下获得速度提升。跨阶段局部快速空间金字塔池化的池化部分计算公式如下式所示：

R₄＝R₁⊙R₂⊙R₃ (9)

其中，R₁表示最小池化核的池化层结果，R₂表示中等池化核的池化层结果，R₃表示最大池化核的池化层结果，R₄表示最终输出结果。

进一步，对本发明实施例的YOLOv7模型训练过程进行说明。

具体的，本发明实施例的YOLOv7模型训练过程中的损失函数可以是联合损失函数，联合损失计算公式如下式所示：

其中，M表示输出的特征层；S²表示像素格子；B表示每个像素格子上先验框的数量；α_box、α_obj、α_cls表示对应项的权重，实验中取值为α_box＝0.05，α_obj＝1.0，α_cls＝0.03；为控制函数，表示第k个输出特征图，第i个cell,第j个anchor box是否是正样本，如果是正样本则为1，反之为0；t_p,t_gt是预测向量和标注框向量；/>用于平衡每个尺度的输出特征图的权重，实验中取值为[4.0,1.0,0.4],依次对应80×80，40×40，20×20的输出特征图。

边界框边界回归损失函数表示的定位坐标损失，采用CIoU损失，只计算正样本的定位损失，具体的公式如下：

其中，b,b_gt表示预测框向量{b_x,b_y,b_w,b_h}和标注框向量{b_gt-x,b_gt-y,b_gt-w,b_gt-h}；IOU表示预测框与标注框交并比；d_o表示预测框与标注框中心点的欧式距离；d_c表示预测框与标注框的最小外接矩形的对角线距离；v表示衡量长宽比的影响因子。

目标置信度损失函数采用BCE损失，只计算正样本匹配得到的样本的obj损失，具体公式如下：

其中p_o表示预测框中的目标置信度分数；p_iou表示预测框和与之对应的标注框的IOU值。

分类损失函数，采用BCE损失，只计算正样本的分类损失，具体计算公式如下：

其中c_p表示预测框中的目标类别的概率；c_gt表示预测框与之对应的标注框的类别的概率。

本发明实施例采用改进后的YOLOv7模型提高了水下目标检测的准确率和速度，提高了在水下环境中，对模糊的水下目标和较小的水下目标的检测能力。而且，本发明实施例在改进的YOLOv7模型中，引入了卷积快注意力模块的注意力机制，对提取到的特征在通道及空间维度进行增强，减少了特征提取过程中的信息损失，提高了YOLOv7模型整体的特征提取能力。最后，本发明实施例的跨阶段局部快速空间金字塔池化可以将原本的三个独立的池化层进行联系，在保持感受野不变的情况下，减少了YOLOv7模型计算量，获得了更快的推理速度。本发明实施例可以在水下目标检测上拥有更好的检测准确度，可以解决水下场景目标重叠、背景模糊复杂等问题给水下目标检测带来的困难。

接下来，将以具体实例说明本发明的实际应用过程。

参照图2，本发明实施例提供了一种数据对比图。图2展示了本发明实施例提供的YOLOv7模型与一些现有模型的对比实验测量结果。由此可以看出本发明实施例提供的YOLOv7模型在各项评价指标中都有较好的数据。

具体的，本发明实施例通过均值平均精度(mAP)进行准确率评估，值越大表明模型识别目标的准确率越好。每秒帧数(Frame Per Second，FPS)代表模型每秒处理的帧数，反映模型推理速度的快慢；数值越大表明模型的推理速度越块，模型性能越好。每秒10亿的浮点运算次数(GFLOPS)是模型所需的计算次数，衡量模型的复杂度。参数量(params)是模型中的参数的总和，用于评价模型大小。

参照图3，本发明实施例提供了一种水下图像的目标检测装置，包括：

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种水下图像的目标检测方法，其特征在于，包括：

提取水下图像的多种特征，并组合得到多尺度特征；

2.根据权利要求1所述的一种水下图像的目标检测方法，其特征在于，所述提取水下图像的多种特征，并组合得到多尺度特征，包括：

3.根据权利要求2所述的一种水下图像的目标检测方法，其特征在于，所述将所述多种特征的感受野大小和中心步长进行多种方式的组合，得到多尺度特征，包括：

4.根据权利要求1所述的一种水下图像的目标检测方法，其特征在于，所述根据所述特征图融合所述多尺度特征，得到融合特征，包括：

5.根据权利要求1所述的一种水下图像的目标检测方法，其特征在于，所述通过卷积块注意力模块获取所述多尺度特征与所述融合特征中的目标特征通道信息和目标特征空间信息，并得到目标特征，包括：

6.根据权利要求4所述的一种水下图像的目标检测方法，其特征在于，所述通过卷积模块整合所述目标特征，包括：

7.根据权利要求2所述的一种水下图像的目标检测方法，其特征在于，所述方法还包括：

8.一种水下图像的目标检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。