CN117746233A

CN117746233A - 一种水域无人清理船目标轻量化检测方法

Info

Publication number: CN117746233A
Application number: CN202311681649.XA
Authority: CN
Inventors: 沈靖夫; 张元良; 刘飞跃; 柳淳
Original assignee: Jiangsu Ocean University
Current assignee: Jiangsu Ocean University
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-22

Abstract

本发明涉及一种水域无人清理船目标轻量化检测方法，包括一个多层特征提取backbone，用于处理输入图像并生成不同维度的特征图，该特征图分别包含细节信息和全局语义信息，适用于不同大小目标的检测；采用了一个多联级混合编码器MCHE，其中包含一个高效的多头自注意力机制EMSA，专门用于处理最高维度的特征图，以增强对大型目标的识别能力；一个特征融合模块EMFFM，通过结合不同尺度的特征层，有效地解决了特征融合过程中的语义鸿沟问题。该方法在提高水面无人清理船目标检测的准确性和效率方面具有显著优势，特别适用于水面垃圾的识别和定位任务，对于提升水域环境保护工作的效率具有重要意义。

Description

一种水域无人清理船目标轻量化检测方法

技术领域：

本发明涉及水面无人艇领域，具体为一种水域无人清理船目标轻量化检测方法。

背景技术：

水面无人艇是一种可自主或半自主操作的小型水面船艇，具备一定的智能性，能够执行多种任务。在这些任务中，水面无人清理船通过目标检测算法识别和定位水面垃圾，是一个关键的应用方向。准确的目标识别对于后续的目标定位和巡逻轨迹规划至关重要。

目前，目标检测技术主要基于深度学习，分为基于卷积神经网络(CNN)和基于Transformer的两大类。基于CNN的目标检测器分为两种技术路线：一种是先生成候选框再进行分类和回归预测的two-stage方法，具有较高的检测精度；另一种是无需生成候选框，直接在单个网络中完成检测的one-stage方法，具有较快的检测速度。在one-stage方法中，又可分为基于预定义锚框的anchor-based方法和基于密集采样和回归预测的anchor-free方法，前者具有良好的泛化能力，后者则具有较强的灵活性。

近年来，基于Transformer的目标检测器框架(DETRs)成为新兴研究方向。DETRs通过Transformer提取图像特征，代替传统的卷积神经网络，并消除非极大值抑制(NMS)，实现端到端的神经网络。尽管基于DETR框架的目标检测网络在训练收敛速度和检测精度上取得了显著进步，但这些网络由于需要对多个特征图进行注意力机制的特征提取，导致推理速度慢、实时性差。此外，注意力机制带来的全局信息使得这些网络在大目标检测上表现较好，而在小目标检测上则表现较弱。

在水面目标检测领域，由于水面亮度变化大，图像信息易受水面反射光等环境因素的影响，使得水面目标检测变得更加困难。为了提高水面小目标的检测精度，本发明对现有的目标检测算法进行了多种改进来增强对水面目标的检测能力，为此提供一种水域无人清理船目标轻量化检测方法。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种水域无人清理船目标轻量化检测方法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：一种水域无人清理船目标轻量化检测方法，包含一个The LRT-DETR网络模型，该模型通过以下步骤完成水面物体检测：具体步骤如下：

S1：使用一个backbone(骨干网络)进行输入图像的特征提取，输出四个不同维度的特征图；从低维到高维或从下到上依次是{F₀、F₁、F₂、F₃}；

S2：采用一个LEHE(轻量级高效混合编码器)，通过EMFI(高效多头特征交互模块)对最高维度的特征图F₃进行注意力特征提取得到输出M₄；

S3：结合EMFFM(高效多尺度特征融合模块)对{F₀、F₁、F₂、M₄}进行特征融合；

S4：通过Iou-aware query selection(交并比感知选择器)选取固定数量的图像特征输出序列作为Decoder(解码器)的初始化对象查询，进一步迭代优化生成目标检测框及置信度分数，表示检测到的目标存在的概率，完成整个图像处理系统的目标检测任务。

作为本发明的一种技术优选方案，The LRT-DETR网络模型是基于RT-DETR的改进框架，RT-DETR的特征在于：采用MSA(多头注意力机制)对最高维度的特征图进行特征提取；在MSA中，计算量随着token的数量或者维度成二次方的比例，其网络参数较大；在MSA中，每个头只负责每个token的子集，当token的维度较短时query和key的点积无法形成有效的信息。

作为本发明的一种技术优选方案，所述S1中backbone用于接收输入图像并进行特征提取，生成不同尺度的特征图，其中最高维度特征图F₃经过EMFI模块处理后，包含丰富的全局语义信息，适用于大目标检测，而其他维度特征图F₀、F₁、F₂包含细节信息，其高分辨率特性使其适用于小目标检测。

作为本发明的一种技术优选方案，所述S2中EMFI模块具体通过以下步骤完成注意力特征提取：

S2-1：通过映射操作从输入特征图中获得query，并将2D token变换成三维结构，以便进行更深层次的特征分析；

S2-2：通过深度卷积操作减小特征图的尺寸，以降低计算复杂度，然后将3D token重新映射回二维结构；

S2-3：通过进一步的映射操作，生成key和value；

S2-4：计算自注意力，其计算公式为：

其中，IN(·)为实例规范化，Conv(·)是一个标准的1×1矩阵，d_k为key的维度；

S2-5：并将每个头的计算结果相加通过线性层linear输出，其计算为：

y＝x^*+FFN(LN(x^*))and x^*＝EMSA(LN(x)) (2)

其中，LN(·)为批量归一化层，FNN(·)用于特征变换和非线性处理。

作为本发明的一种技术优选方案，所述S3中EMFFM是在传统FPN结构的基础上进行的改进，用于增强特征图对图像中上下文信息和全局特征的理解，同时解决特征融合过程中的语义鸿沟问题，其具体包含以下步骤完成特征融合：

S3-1：首先通过Receptive Field Block(感受野块网络)引入不同大小的卷积核和池化层，扩增特征图的感受野，同时消除由于FPN结构中多次上采样和下采样导致的高层语义信息传播不足的问题；

S3-2：EMFFM模块使用一个新提出的FUSE模块对相邻特征层进行融合，有效地整合不同尺度的特征信息；

S3-3：S3-2中的FUSE模块通过特殊设计，能够自适应地学习特征通道之间的相关性，实现不同维度特征的有效整合；

S3-4：EMFFM模块对特征提取后的特征图进行拼接，并将拼接后的特征图输出到解码器层，其计算公式为：

Output＝EMFFM({M₄,F₂,F₁,F₀})。

作为本发明的一种技术优选方案，所述S3-2中FUSE模块解决不同尺度特征层之间的语义鸿沟问题，通过对相邻尺度的特征层进行有效融合，增强了特征图对目标的表达能力，具体步骤如下：

S3-2-1：通过QARepBlock(量化感知Rep块)对网络进行参数重构，减少了网络的参数量，提高了整体的计算效率；

S3-2-2：结合通道注意力机制，FUSE模块自适应地学习特征通道之间的相关性，实现对不同维度特征的有效整合，提高特征融合的质量和效果。

与相关的现有技术相比，本申请提案相比现有技术，有以下主要技术优点：本发明的有益效果是：

提高小目标检测精度：本发明通过改进的目标检测网络，特别是对于水面环境中的小目标(如水面垃圾)，能够提供更高的检测精度。这是通过采用先进的特征提取和融合技术实现的，如EMFI模块和EMFFM结构，它们能够更有效地处理不同尺度的特征图，从而提高对小目标的识别能力。

加快处理速度，提高实时性：相比于传统的基于Transformer的目标检测网络，本发明采用的网络结构在保持高精度的同时，显著提高了处理速度，这对于水面无人艇等需要实时处理图像数据的应用场景尤为重要。

降低计算资源需求：本发明的网络设计考虑到了计算资源的优化，通过轻量化的网络结构和高效的算法设计，减少了对计算资源的需求，使得该系统更适合在资源受限的环境中部署，如小型无人艇。

适应性强于现有技术：由于本发明的网络能够有效处理不同尺度的特征图，并且对水面环境下的光照变化和反射等因素具有较强的鲁棒性，因此在复杂的水面环境中表现出更好的适应性。

简化了目标检测流程：本发明通过采用端到端的目标检测方法，简化了传统目标检测流程中的多个步骤，如非极大值抑制(NMS)，从而简化了整个检测流程，减少了出错的可能性。

更好的泛化能力：本发明的网络结构和算法设计使其具有更好的泛化能力，能够适应不同的水面环境和不同类型的目标物体，提高了系统的实用性和灵活性。

附图说明：

图1是本发明提供的方法的网络模型架构图；

图2是本发明提供实施例的关键数据图像；

图3是本发明提供实施例的数据图像的实例统计信息图；

图4是本发明提供实施例的EMFI模块架构图；

图5是本发明提供实施例的EMFFM模块架构图；

图6是本发明提供实施例的FUSE模块架构图；

图7是本发明提供实施例中EMFFM的不同组合类型。

具体实施方式：

以下结合附图和实施例，进一步说明本发明。但是，本发明可以以多种不同方式实现，并且不应被理解为限制于所示的实施例；反之，这些实施例为那些熟悉技术的人员提供了满足适用的法律要求的实施方式。

实施例1：一种水域无人清理船目标轻量化检测方法，包含一个The LRT-DETR网络模型，该模型通过以下步骤完成水面物体检测，The LRT-DETR网络模型是基于RT-DETR的改进框架，RT-DETR的特征在于：采用MSA(多头注意力机制)对最高维度的特征图进行特征提取；在MSA中，计算量随着token的数量或者维度成二次方的比例，其网络参数较大；在MSA中，每个头只负责每个token的子集，当token的维度较短时query和key的点积无法形成有效的信息；

具体步骤如下：

S1：使用一个backbone(骨干网络)进行输入图像的特征提取，输出四个不同维度的特征图；从低维到高维或从下到上依次是{F₀、F₁、F₂、F₃}；backbone用于接收输入图像并进行特征提取，生成不同尺度的特征图，其中最高维度特征图F₃经过EMFI模块处理后，包含丰富的全局语义信息，适用于大目标检测，而其他维度特征图F₀、F₁、F₂包含细节信息，其高分辨率特性使其适用于小目标检测；

EMFI模块具体通过以下步骤完成注意力特征提取：

S2-3：通过进一步的映射操作，生成key和value；

S2-4：计算自注意力，其计算公式为：

y＝x^*+FFN(LN(x^*))and x^*＝EMSA(LN(x)) (2)

EMFFM是在传统FPN结构的基础上进行的改进，用于增强特征图对图像中上下文信息和全局特征的理解，同时解决特征融合过程中的语义鸿沟问题，其具体包含以下步骤完成特征融合：

S3-2-2：结合通道注意力机制，FUSE模块自适应地学习特征通道之间的相关性，实现对不同维度特征的有效整合，提高特征融合的质量和效果；

Output＝EMFFM({M₄，F₂，F₁，F₀})；

为了进行水域无人清理船目标检测的研究，搭建了本发明的水域清理任务数据(Water Cleanup Mission Dataset，WCMD)。如图2所示，本发明提出的WCMD共采集5076张图像，每张图像的分辨率为1280×720，包含了海域、湖域及河域等多种环境以及多个视角下的水域目标图像。通过对图像进行标注共分为3个类别(瓶子、塑料袋、小船)及12570个实例，统计出每个类别对应的实例数量并根据COCO目标检测指标(0～32×32pixel为Small、32×32～96×96pixel为Medium、≥96×96pixel为Large)对每个实例像素面积进行分类，其实例统计信息如图3所示。

如图1所示，The LRT-DETR是在RT-DETR的整体框架上进行优化改进的，一个backbone，一个多联级混合编码器(MCHE)和具有辅助预测头的解码器。整体的网络模型架构，如图所示。首先通过backbone对输入图像进行特征提取，LRT-DETR为提升小目标的检测效果，输出4个不同维度的特征图，由低维到高维(从下到上)依次是{F₀、F₁、F₂、F₃}，作为编码层的输入。接着，Lightweight Efficient Hybrid Encoder通过EMFI对最高维度的特征图(F₃)进行注意力特征提取得到输出M₄，并结合EMFFM对{F₀、F₁、F₂、M₄}进行特征融合。最后，通过the Iou-aware query selection选取固定数量的图像特征输出序列作为Decoder的初始化对象查询，进一步迭代优化生成目标检测框及置信度分数。如图4所示，EMFI模块采用的是Efficient Multi-Head Self-Attention(EMSA),其有效解决了MSA的缺点。首先通过映射获得query，同时将2D token变换成三维，然后通过深度卷积操作减小特征图的尺寸，接着重新将3D token映射到二维，通过映射得到key和value。最后，通过式(1)：计算自注意力，并将每个头的计算结果相加通过线性层(linear)输出，其计算如式(2)：y＝x^*+FFN(LN(x^*))and x^*＝EMSA(LN(x))所示。为了进一步验证EMFI的有效性，以RT-DETR作为baseline，将RT-DETR中的AIFI模块替换成EMFI模块在WCMD数据集上进行对比实验，如表1所示，相较于baseline AP提高了0.04％，同时在小目标及大目标检测AP上也均有所提高。如图5所示，EMFFM是在FPN结构上的更新，首先通过RFB引入不同大小的卷积核和池化层，在扩增特征图的感受野的同时，消除FPN结构经过多次上采样和下采样导致高层语义信息不能有效传播的问题，进而增强特征对图像中上下文信息和全局特征的理解，接着为解决相邻特征层存在语义鸿沟问题，使用提出的FUSE模块对相邻特征层进行融合，最后对特征提取后的特征图进行拼接，输出到解码器层。如图6所示，FUSE模块对相邻尺度进行融合，首先通过QARepBlock对网络进行参数重构，减少网络参数量的同时也提高了计算效率，接着结合通道注意力机制，自适应地学习特征通道之间的相关性，实现对不同维度特征的整合。最后为了检验FUSE模块的有效性，以RT-DETR作为baseline，将RT-DETR中的Fusion模块替换成FUSE模块在WCMD数据集上进行对比实验，如表1所示，相较于baseline AP提高了0.03％，同时在小目标及大目标检测AP上也均有所提高。

表1：EMFI和FUSE在RT-DETR上的比较分析

本实施例中使用的训练平台是Ubuntu20.04操作系统，CPU处理器为6核的Intel(R)Xeon(R)Platinum CPU@2.60GHZ，GPU处理器为NVIDIA GeForce RTX 3090，显存为24G。软件环境主要包括Python3.9.18、Paddle11.8、CUDA12.2。同时，为了确保不同算法的相关配置参数保持一致，以保证实现的公平性，本发明选择使用百度开发的PaddleDetection-v2.6.0，其内部构建了图像数据的输入输出及多种目标检测网络，可以直接通过配置参数文件进行网络训练。对比及消融实验的数据集采用WCMD，并按照8:2比例分成训练数据集和验证数据集。同时为了进一步验证网络效果，在Microsoft COCO数据集上分别对RT-DETR和LRT-DETR分别做了对比实验，同时使用带有单个尺度图像的标准COCO AP度量作为输入。使用ResNet50作为网络的backbone，EMFI模块包含一个transformer层，并且FUSE模块默认使用3个QARepBlocks。解码器结构与RT-DETR中保持一致。接着，训练数据集进行图像预处理操作，以增加训练数据的多样性。首先将输入图像统一放缩至640×640的大小，通过随机裁剪、80％概率的随机翻转完成图像预处理。接着设置相关配置参数，主要包括优化器以及学习率的设置，本次实验中，共进行80个epoch的训练，优化器采用Adam Weight DecayRegularization(AdamW)，学习率设置为0.0001，动量设置为1.0，权重衰减率设置为0.0001。

表2将所提出的LRT-DETR与目前主流的one-stage、two-stage及基于DETR框架的目标检测网络进行比较，LRT-DETR实现了58.2％的AP和18.45FPS，其网络参数量为32.67，网络计算速度为56.82。在保留较高的检测速度前提下，LRT-DETR相较于其他主流目标检测网络，检测精度有所提升的同时，其网络参数和网络计算量都有所下降。进行对比实验时，图像预处理均与训练过程保持一致，输入图像的尺寸为640×640。

与卷积目标检测器相比。与two-stage的Faster-rcnn相比，LRT-DETR的精度提高了4.7％，网络参数量下降了1.2％。与one-stage的YOLO系列网络YOLOv5-L/YOLOv6-L/YOLOv7-L/YOLOv8-L相比，AP分别提高了10.6％/10.1％/10.9％/9.0％，模型参数量下降了29.5％/45.3％/10.5％/25.1％。

与DETR目标检测器相比。从表2可以看出，以ResNet50作为backbone的DETR框架的目标检测器中DN-Deformable-DETR在各方面表现的最好，而相较于该网络，LRT-DETR在精度上提高了2.1％，模型参数量下降了34.9％。

与RT-DETR目标检测器相比。LRT-DETR是在RT-DETR的框架上进行改进优化，为此本发明分别在自构建的WCMD和COCO数据集上分别对这两个网络做出比较，在表2(in WCMD)可以看出，LRT-DETR的AP提高了1.1％，且在小目标和大目标有明显的提高，分别为1.3％/5.3％，同时网络参数量也下降了30.9％。表3(in COCO)中。可见，改进后的LRT-DETR无论在模型参数量和检测精度上都比RT-DETR有进步。

表2：WCMD中各网络对比分析

表3：COCO中RT-DETR和LRT-DETR的对比分析

为了进一步验证Multi Cascade Hybrid Encoder的有效性，本发明做了关于关于Encoder的消融实验，从表1中本发明已经验证了EMFI模块和FUSE模块的有效性，相较于RT-DETR原始的AIFI模块和Fusion模块，改进后的效果是有所提升。所以，接下来的消融实验均以EMFI模块和FUSE模块为基础，分析本发明提出的EMFFM模块的有效性。在图7中，本发明以变量A(只有三个维度的特征层，且融合了EMFI和FUSE模块)作为baseline。

A→B:变量B是在变量A的基础上在每个特征层上引入了RFB模块，并将FPN结构中的连接特征图之间的Bottom-up结构转变成连接在RFB中。

A→C:变量C是在变量A的基础上多引入一个低维度特征图，并依旧采用FPN结构进行连接。

C→D:变量D是在变量C的基础上在各层中引入RFB模块，并将FPN结构中的连接特征图之间的Bottom-up结构转变成连接在各层RFB中。

从表4可以看出，变量A在加入EMFI和FUSE模块后，其网络参数量有明显的增加，虽然其AP相较于RT-DETR提高了3％，但是通过表2可以看出，融合之后的效果并没有提升。变量B中引入了RFB的同时改变了其Bottom-up结构,相较于变量A，AP提高了1％，同时网络参数量下降了40.2％，可以验证出，该方式的融合结构不仅可以提高检测精度，还可以降低网络的参数量。变量C通过加入4个维度的特征，降低了其隐藏层的通道数，相较于变量A，AP提高了1％，同时网络参数量下降了39.6％，可以验证出，通过引入一个低维度特征，不仅可以降低网络参数，同时对检测精度的提高有所帮助。最后，变量D就是本发明所提出的LRT-DETR。

表4：WCMD中LEHE的消融实验

通过这种方法，本发明根据水面无人清理船的任务特点，提出了一种轻量型实时目标检测网络LRT-DETR，在RT-DETR网络的基础上，提出了LEHE编码层对特征进行提取和学习，提出了通过大量的实验可知，LRT-DETR网络在目标检测方面(大目标、小目标及中等目标)和模型参数方面(帧率、计算速度及模型参数量)均优于主流的目标检测网络。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种水域无人清理船目标轻量化检测方法，其特征在于，包含一个The LRT-DETR网络模型，该模型通过以下步骤完成水面物体检测：具体步骤如下：

2.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法，其特征在于，TheLRT-DETR网络模型是基于RT-DETR的改进框架，RT-DETR的特征在于：采用MSA(多头注意力机制)对最高维度的特征图进行特征提取；在MSA中，计算量随着token的数量或者维度成二次方的比例，其网络参数较大；在MSA中，每个头只负责每个token的子集，当token的维度较短时query和key的点积无法形成有效的信息。

3.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法，其特征在于，所述S1中backbone用于接收输入图像并进行特征提取，生成不同尺度的特征图，其中最高维度特征图F₃经过EMFI模块处理后，包含丰富的全局语义信息，适用于大目标检测，而其他维度特征图F₀、F₁、F₂包含细节信息，其高分辨率特性使其适用于小目标检测。

4.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法，其特征在于，所述S2中EMFI模块具体通过以下步骤完成注意力特征提取：

S2-3：通过进一步的映射操作，生成key和value；

S2-4：计算自注意力，其计算公式为：

其中，IN(·)为实例规范化,Conv(·)是一个标准的1×1矩阵,d_k为key的维度；

y＝x^*+FFN(LN(x^*))and x^*＝EMSA(LN(x)) (2)

5.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法，其特征在于，所述S3中EMFFM是在传统FPN结构的基础上进行的改进，用于增强特征图对图像中上下文信息和全局特征的理解，同时解决特征融合过程中的语义鸿沟问题，其具体包含以下步骤完成特征融合：

Ourput＝EMFFM({M₄，F₂，F₁，F₀})。

6.根据权利要求5所述的一种水域无人清理船目标轻量化检测方法，其特征在于，所述S3-2中FUSE模块解决不同尺度特征层之间的语义鸿沟问题，通过对相邻尺度的特征层进行有效融合，增强了特征图对目标的表达能力，具体步骤如下：