CN117746233A - 一种水域无人清理船目标轻量化检测方法 - Google Patents
一种水域无人清理船目标轻量化检测方法 Download PDFInfo
- Publication number
- CN117746233A CN117746233A CN202311681649.XA CN202311681649A CN117746233A CN 117746233 A CN117746233 A CN 117746233A CN 202311681649 A CN202311681649 A CN 202311681649A CN 117746233 A CN117746233 A CN 117746233A
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- module
- network
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 38
- 238000004140 cleaning Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000007499 fusion processing Methods 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010835 comparative analysis Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 239000003643 water by type Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种水域无人清理船目标轻量化检测方法,包括一个多层特征提取backbone,用于处理输入图像并生成不同维度的特征图,该特征图分别包含细节信息和全局语义信息,适用于不同大小目标的检测;采用了一个多联级混合编码器MCHE,其中包含一个高效的多头自注意力机制EMSA,专门用于处理最高维度的特征图,以增强对大型目标的识别能力;一个特征融合模块EMFFM,通过结合不同尺度的特征层,有效地解决了特征融合过程中的语义鸿沟问题。该方法在提高水面无人清理船目标检测的准确性和效率方面具有显著优势,特别适用于水面垃圾的识别和定位任务,对于提升水域环境保护工作的效率具有重要意义。
Description
技术领域:
本发明涉及水面无人艇领域,具体为一种水域无人清理船目标轻量化检测方法。
背景技术:
水面无人艇是一种可自主或半自主操作的小型水面船艇,具备一定的智能性,能够执行多种任务。在这些任务中,水面无人清理船通过目标检测算法识别和定位水面垃圾,是一个关键的应用方向。准确的目标识别对于后续的目标定位和巡逻轨迹规划至关重要。
目前,目标检测技术主要基于深度学习,分为基于卷积神经网络(CNN)和基于Transformer的两大类。基于CNN的目标检测器分为两种技术路线:一种是先生成候选框再进行分类和回归预测的two-stage方法,具有较高的检测精度;另一种是无需生成候选框,直接在单个网络中完成检测的one-stage方法,具有较快的检测速度。在one-stage方法中,又可分为基于预定义锚框的anchor-based方法和基于密集采样和回归预测的anchor-free方法,前者具有良好的泛化能力,后者则具有较强的灵活性。
近年来,基于Transformer的目标检测器框架(DETRs)成为新兴研究方向。DETRs通过Transformer提取图像特征,代替传统的卷积神经网络,并消除非极大值抑制(NMS),实现端到端的神经网络。尽管基于DETR框架的目标检测网络在训练收敛速度和检测精度上取得了显著进步,但这些网络由于需要对多个特征图进行注意力机制的特征提取,导致推理速度慢、实时性差。此外,注意力机制带来的全局信息使得这些网络在大目标检测上表现较好,而在小目标检测上则表现较弱。
在水面目标检测领域,由于水面亮度变化大,图像信息易受水面反射光等环境因素的影响,使得水面目标检测变得更加困难。为了提高水面小目标的检测精度,本发明对现有的目标检测算法进行了多种改进来增强对水面目标的检测能力,为此提供一种水域无人清理船目标轻量化检测方法。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种水域无人清理船目标轻量化检测方法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种水域无人清理船目标轻量化检测方法,包含一个The LRT-DETR网络模型,该模型通过以下步骤完成水面物体检测:具体步骤如下:
S1:使用一个backbone(骨干网络)进行输入图像的特征提取,输出四个不同维度的特征图;从低维到高维或从下到上依次是{F0、F1、F2、F3};
S2:采用一个LEHE(轻量级高效混合编码器),通过EMFI(高效多头特征交互模块)对最高维度的特征图F3进行注意力特征提取得到输出M4;
S3:结合EMFFM(高效多尺度特征融合模块)对{F0、F1、F2、M4}进行特征融合;
S4:通过Iou-aware query selection(交并比感知选择器)选取固定数量的图像特征输出序列作为Decoder(解码器)的初始化对象查询,进一步迭代优化生成目标检测框及置信度分数,表示检测到的目标存在的概率,完成整个图像处理系统的目标检测任务。
作为本发明的一种技术优选方案,The LRT-DETR网络模型是基于RT-DETR的改进框架,RT-DETR的特征在于:采用MSA(多头注意力机制)对最高维度的特征图进行特征提取;在MSA中,计算量随着token的数量或者维度成二次方的比例,其网络参数较大;在MSA中,每个头只负责每个token的子集,当token的维度较短时query和key的点积无法形成有效的信息。
作为本发明的一种技术优选方案,所述S1中backbone用于接收输入图像并进行特征提取,生成不同尺度的特征图,其中最高维度特征图F3经过EMFI模块处理后,包含丰富的全局语义信息,适用于大目标检测,而其他维度特征图F0、F1、F2包含细节信息,其高分辨率特性使其适用于小目标检测。
作为本发明的一种技术优选方案,所述S2中EMFI模块具体通过以下步骤完成注意力特征提取:
S2-1:通过映射操作从输入特征图中获得query,并将2D token变换成三维结构,以便进行更深层次的特征分析;
S2-2:通过深度卷积操作减小特征图的尺寸,以降低计算复杂度,然后将3D token重新映射回二维结构;
S2-3:通过进一步的映射操作,生成key和value;
S2-4:计算自注意力,其计算公式为:
其中,IN(·)为实例规范化,Conv(·)是一个标准的1×1矩阵,dk为key的维度;
S2-5:并将每个头的计算结果相加通过线性层linear输出,其计算为:
y=x*+FFN(LN(x*))and x*=EMSA(LN(x)) (2)
其中,LN(·)为批量归一化层,FNN(·)用于特征变换和非线性处理。
作为本发明的一种技术优选方案,所述S3中EMFFM是在传统FPN结构的基础上进行的改进,用于增强特征图对图像中上下文信息和全局特征的理解,同时解决特征融合过程中的语义鸿沟问题,其具体包含以下步骤完成特征融合:
S3-1:首先通过Receptive Field Block(感受野块网络)引入不同大小的卷积核和池化层,扩增特征图的感受野,同时消除由于FPN结构中多次上采样和下采样导致的高层语义信息传播不足的问题;
S3-2:EMFFM模块使用一个新提出的FUSE模块对相邻特征层进行融合,有效地整合不同尺度的特征信息;
S3-3:S3-2中的FUSE模块通过特殊设计,能够自适应地学习特征通道之间的相关性,实现不同维度特征的有效整合;
S3-4:EMFFM模块对特征提取后的特征图进行拼接,并将拼接后的特征图输出到解码器层,其计算公式为:
Output=EMFFM({M4,F2,F1,F0})。
作为本发明的一种技术优选方案,所述S3-2中FUSE模块解决不同尺度特征层之间的语义鸿沟问题,通过对相邻尺度的特征层进行有效融合,增强了特征图对目标的表达能力,具体步骤如下:
S3-2-1:通过QARepBlock(量化感知Rep块)对网络进行参数重构,减少了网络的参数量,提高了整体的计算效率;
S3-2-2:结合通道注意力机制,FUSE模块自适应地学习特征通道之间的相关性,实现对不同维度特征的有效整合,提高特征融合的质量和效果。
与相关的现有技术相比,本申请提案相比现有技术,有以下主要技术优点:本发明的有益效果是:
提高小目标检测精度:本发明通过改进的目标检测网络,特别是对于水面环境中的小目标(如水面垃圾),能够提供更高的检测精度。这是通过采用先进的特征提取和融合技术实现的,如EMFI模块和EMFFM结构,它们能够更有效地处理不同尺度的特征图,从而提高对小目标的识别能力。
加快处理速度,提高实时性:相比于传统的基于Transformer的目标检测网络,本发明采用的网络结构在保持高精度的同时,显著提高了处理速度,这对于水面无人艇等需要实时处理图像数据的应用场景尤为重要。
降低计算资源需求:本发明的网络设计考虑到了计算资源的优化,通过轻量化的网络结构和高效的算法设计,减少了对计算资源的需求,使得该系统更适合在资源受限的环境中部署,如小型无人艇。
适应性强于现有技术:由于本发明的网络能够有效处理不同尺度的特征图,并且对水面环境下的光照变化和反射等因素具有较强的鲁棒性,因此在复杂的水面环境中表现出更好的适应性。
简化了目标检测流程:本发明通过采用端到端的目标检测方法,简化了传统目标检测流程中的多个步骤,如非极大值抑制(NMS),从而简化了整个检测流程,减少了出错的可能性。
更好的泛化能力:本发明的网络结构和算法设计使其具有更好的泛化能力,能够适应不同的水面环境和不同类型的目标物体,提高了系统的实用性和灵活性。
附图说明:
图1是本发明提供的方法的网络模型架构图;
图2是本发明提供实施例的关键数据图像;
图3是本发明提供实施例的数据图像的实例统计信息图;
图4是本发明提供实施例的EMFI模块架构图;
图5是本发明提供实施例的EMFFM模块架构图;
图6是本发明提供实施例的FUSE模块架构图;
图7是本发明提供实施例中EMFFM的不同组合类型。
具体实施方式:
以下结合附图和实施例,进一步说明本发明。但是,本发明可以以多种不同方式实现,并且不应被理解为限制于所示的实施例;反之,这些实施例为那些熟悉技术的人员提供了满足适用的法律要求的实施方式。
实施例1:一种水域无人清理船目标轻量化检测方法,包含一个The LRT-DETR网络模型,该模型通过以下步骤完成水面物体检测,The LRT-DETR网络模型是基于RT-DETR的改进框架,RT-DETR的特征在于:采用MSA(多头注意力机制)对最高维度的特征图进行特征提取;在MSA中,计算量随着token的数量或者维度成二次方的比例,其网络参数较大;在MSA中,每个头只负责每个token的子集,当token的维度较短时query和key的点积无法形成有效的信息;
具体步骤如下:
S1:使用一个backbone(骨干网络)进行输入图像的特征提取,输出四个不同维度的特征图;从低维到高维或从下到上依次是{F0、F1、F2、F3};backbone用于接收输入图像并进行特征提取,生成不同尺度的特征图,其中最高维度特征图F3经过EMFI模块处理后,包含丰富的全局语义信息,适用于大目标检测,而其他维度特征图F0、F1、F2包含细节信息,其高分辨率特性使其适用于小目标检测;
S2:采用一个LEHE(轻量级高效混合编码器),通过EMFI(高效多头特征交互模块)对最高维度的特征图F3进行注意力特征提取得到输出M4;
EMFI模块具体通过以下步骤完成注意力特征提取:
S2-1:通过映射操作从输入特征图中获得query,并将2D token变换成三维结构,以便进行更深层次的特征分析;
S2-2:通过深度卷积操作减小特征图的尺寸,以降低计算复杂度,然后将3D token重新映射回二维结构;
S2-3:通过进一步的映射操作,生成key和value;
S2-4:计算自注意力,其计算公式为:
其中,IN(·)为实例规范化,Conv(·)是一个标准的1×1矩阵,dk为key的维度;
S2-5:并将每个头的计算结果相加通过线性层linear输出,其计算为:
y=x*+FFN(LN(x*))and x*=EMSA(LN(x)) (2)
其中,LN(·)为批量归一化层,FNN(·)用于特征变换和非线性处理。
S3:结合EMFFM(高效多尺度特征融合模块)对{F0、F1、F2、M4}进行特征融合;
EMFFM是在传统FPN结构的基础上进行的改进,用于增强特征图对图像中上下文信息和全局特征的理解,同时解决特征融合过程中的语义鸿沟问题,其具体包含以下步骤完成特征融合:
S3-1:首先通过Receptive Field Block(感受野块网络)引入不同大小的卷积核和池化层,扩增特征图的感受野,同时消除由于FPN结构中多次上采样和下采样导致的高层语义信息传播不足的问题;
S3-2:EMFFM模块使用一个新提出的FUSE模块对相邻特征层进行融合,有效地整合不同尺度的特征信息;
S3-2-1:通过QARepBlock(量化感知Rep块)对网络进行参数重构,减少了网络的参数量,提高了整体的计算效率;
S3-2-2:结合通道注意力机制,FUSE模块自适应地学习特征通道之间的相关性,实现对不同维度特征的有效整合,提高特征融合的质量和效果;
S3-3:S3-2中的FUSE模块通过特殊设计,能够自适应地学习特征通道之间的相关性,实现不同维度特征的有效整合;
S3-4:EMFFM模块对特征提取后的特征图进行拼接,并将拼接后的特征图输出到解码器层,其计算公式为:
Output=EMFFM({M4,F2,F1,F0});
S4:通过Iou-aware query selection(交并比感知选择器)选取固定数量的图像特征输出序列作为Decoder(解码器)的初始化对象查询,进一步迭代优化生成目标检测框及置信度分数,表示检测到的目标存在的概率,完成整个图像处理系统的目标检测任务。
为了进行水域无人清理船目标检测的研究,搭建了本发明的水域清理任务数据(Water Cleanup Mission Dataset,WCMD)。如图2所示,本发明提出的WCMD共采集5076张图像,每张图像的分辨率为1280×720,包含了海域、湖域及河域等多种环境以及多个视角下的水域目标图像。通过对图像进行标注共分为3个类别(瓶子、塑料袋、小船)及12570个实例,统计出每个类别对应的实例数量并根据COCO目标检测指标(0~32×32pixel为Small、32×32~96×96pixel为Medium、≥96×96pixel为Large)对每个实例像素面积进行分类,其实例统计信息如图3所示。
如图1所示,The LRT-DETR是在RT-DETR的整体框架上进行优化改进的,一个backbone,一个多联级混合编码器(MCHE)和具有辅助预测头的解码器。整体的网络模型架构,如图所示。首先通过backbone对输入图像进行特征提取,LRT-DETR为提升小目标的检测效果,输出4个不同维度的特征图,由低维到高维(从下到上)依次是{F0、F1、F2、F3},作为编码层的输入。接着,Lightweight Efficient Hybrid Encoder通过EMFI对最高维度的特征图(F3)进行注意力特征提取得到输出M4,并结合EMFFM对{F0、F1、F2、M4}进行特征融合。最后,通过the Iou-aware query selection选取固定数量的图像特征输出序列作为Decoder的初始化对象查询,进一步迭代优化生成目标检测框及置信度分数。如图4所示,EMFI模块采用的是Efficient Multi-Head Self-Attention(EMSA),其有效解决了MSA的缺点。首先通过映射获得query,同时将2D token变换成三维,然后通过深度卷积操作减小特征图的尺寸,接着重新将3D token映射到二维,通过映射得到key和value。最后,通过式(1):计算自注意力,并将每个头的计算结果相加通过线性层(linear)输出,其计算如式(2):y=x*+FFN(LN(x*))and x*=EMSA(LN(x))所示。为了进一步验证EMFI的有效性,以RT-DETR作为baseline,将RT-DETR中的AIFI模块替换成EMFI模块在WCMD数据集上进行对比实验,如表1所示,相较于baseline AP提高了0.04%,同时在小目标及大目标检测AP上也均有所提高。如图5所示,EMFFM是在FPN结构上的更新,首先通过RFB引入不同大小的卷积核和池化层,在扩增特征图的感受野的同时,消除FPN结构经过多次上采样和下采样导致高层语义信息不能有效传播的问题,进而增强特征对图像中上下文信息和全局特征的理解,接着为解决相邻特征层存在语义鸿沟问题,使用提出的FUSE模块对相邻特征层进行融合,最后对特征提取后的特征图进行拼接,输出到解码器层。如图6所示,FUSE模块对相邻尺度进行融合,首先通过QARepBlock对网络进行参数重构,减少网络参数量的同时也提高了计算效率,接着结合通道注意力机制,自适应地学习特征通道之间的相关性,实现对不同维度特征的整合。最后为了检验FUSE模块的有效性,以RT-DETR作为baseline,将RT-DETR中的Fusion模块替换成FUSE模块在WCMD数据集上进行对比实验,如表1所示,相较于baseline AP提高了0.03%,同时在小目标及大目标检测AP上也均有所提高。
表1:EMFI和FUSE在RT-DETR上的比较分析
本实施例中使用的训练平台是Ubuntu20.04操作系统,CPU处理器为6核的Intel(R)Xeon(R)Platinum CPU@2.60GHZ,GPU处理器为NVIDIA GeForce RTX 3090,显存为24G。软件环境主要包括Python3.9.18、Paddle11.8、CUDA12.2。同时,为了确保不同算法的相关配置参数保持一致,以保证实现的公平性,本发明选择使用百度开发的PaddleDetection-v2.6.0,其内部构建了图像数据的输入输出及多种目标检测网络,可以直接通过配置参数文件进行网络训练。对比及消融实验的数据集采用WCMD,并按照8:2比例分成训练数据集和验证数据集。同时为了进一步验证网络效果,在Microsoft COCO数据集上分别对RT-DETR和LRT-DETR分别做了对比实验,同时使用带有单个尺度图像的标准COCO AP度量作为输入。使用ResNet50作为网络的backbone,EMFI模块包含一个transformer层,并且FUSE模块默认使用3个QARepBlocks。解码器结构与RT-DETR中保持一致。接着,训练数据集进行图像预处理操作,以增加训练数据的多样性。首先将输入图像统一放缩至640×640的大小,通过随机裁剪、80%概率的随机翻转完成图像预处理。接着设置相关配置参数,主要包括优化器以及学习率的设置,本次实验中,共进行80个epoch的训练,优化器采用Adam Weight DecayRegularization(AdamW),学习率设置为0.0001,动量设置为1.0,权重衰减率设置为0.0001。
表2将所提出的LRT-DETR与目前主流的one-stage、two-stage及基于DETR框架的目标检测网络进行比较,LRT-DETR实现了58.2%的AP和18.45FPS,其网络参数量为32.67,网络计算速度为56.82。在保留较高的检测速度前提下,LRT-DETR相较于其他主流目标检测网络,检测精度有所提升的同时,其网络参数和网络计算量都有所下降。进行对比实验时,图像预处理均与训练过程保持一致,输入图像的尺寸为640×640。
与卷积目标检测器相比。与two-stage的Faster-rcnn相比,LRT-DETR的精度提高了4.7%,网络参数量下降了1.2%。与one-stage的YOLO系列网络YOLOv5-L/YOLOv6-L/YOLOv7-L/YOLOv8-L相比,AP分别提高了10.6%/10.1%/10.9%/9.0%,模型参数量下降了29.5%/45.3%/10.5%/25.1%。
与DETR目标检测器相比。从表2可以看出,以ResNet50作为backbone的DETR框架的目标检测器中DN-Deformable-DETR在各方面表现的最好,而相较于该网络,LRT-DETR在精度上提高了2.1%,模型参数量下降了34.9%。
与RT-DETR目标检测器相比。LRT-DETR是在RT-DETR的框架上进行改进优化,为此本发明分别在自构建的WCMD和COCO数据集上分别对这两个网络做出比较,在表2(in WCMD)可以看出,LRT-DETR的AP提高了1.1%,且在小目标和大目标有明显的提高,分别为1.3%/5.3%,同时网络参数量也下降了30.9%。表3(in COCO)中。可见,改进后的LRT-DETR无论在模型参数量和检测精度上都比RT-DETR有进步。
表2:WCMD中各网络对比分析
表3:COCO中RT-DETR和LRT-DETR的对比分析
为了进一步验证Multi Cascade Hybrid Encoder的有效性,本发明做了关于关于Encoder的消融实验,从表1中本发明已经验证了EMFI模块和FUSE模块的有效性,相较于RT-DETR原始的AIFI模块和Fusion模块,改进后的效果是有所提升。所以,接下来的消融实验均以EMFI模块和FUSE模块为基础,分析本发明提出的EMFFM模块的有效性。在图7中,本发明以变量A(只有三个维度的特征层,且融合了EMFI和FUSE模块)作为baseline。
A→B:变量B是在变量A的基础上在每个特征层上引入了RFB模块,并将FPN结构中的连接特征图之间的Bottom-up结构转变成连接在RFB中。
A→C:变量C是在变量A的基础上多引入一个低维度特征图,并依旧采用FPN结构进行连接。
C→D:变量D是在变量C的基础上在各层中引入RFB模块,并将FPN结构中的连接特征图之间的Bottom-up结构转变成连接在各层RFB中。
从表4可以看出,变量A在加入EMFI和FUSE模块后,其网络参数量有明显的增加,虽然其AP相较于RT-DETR提高了3%,但是通过表2可以看出,融合之后的效果并没有提升。变量B中引入了RFB的同时改变了其Bottom-up结构,相较于变量A,AP提高了1%,同时网络参数量下降了40.2%,可以验证出,该方式的融合结构不仅可以提高检测精度,还可以降低网络的参数量。变量C通过加入4个维度的特征,降低了其隐藏层的通道数,相较于变量A,AP提高了1%,同时网络参数量下降了39.6%,可以验证出,通过引入一个低维度特征,不仅可以降低网络参数,同时对检测精度的提高有所帮助。最后,变量D就是本发明所提出的LRT-DETR。
表4:WCMD中LEHE的消融实验
通过这种方法,本发明根据水面无人清理船的任务特点,提出了一种轻量型实时目标检测网络LRT-DETR,在RT-DETR网络的基础上,提出了LEHE编码层对特征进行提取和学习,提出了通过大量的实验可知,LRT-DETR网络在目标检测方面(大目标、小目标及中等目标)和模型参数方面(帧率、计算速度及模型参数量)均优于主流的目标检测网络。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (6)
1.一种水域无人清理船目标轻量化检测方法,其特征在于,包含一个The LRT-DETR网络模型,该模型通过以下步骤完成水面物体检测:具体步骤如下:
S1:使用一个backbone(骨干网络)进行输入图像的特征提取,输出四个不同维度的特征图;从低维到高维或从下到上依次是{F0、F1、F2、F3};
S2:采用一个LEHE(轻量级高效混合编码器),通过EMFI(高效多头特征交互模块)对最高维度的特征图F3进行注意力特征提取得到输出M4;
S3:结合EMFFM(高效多尺度特征融合模块)对{F0、F1、F2、M4}进行特征融合;
S4:通过Iou-aware query selection(交并比感知选择器)选取固定数量的图像特征输出序列作为Decoder(解码器)的初始化对象查询,进一步迭代优化生成目标检测框及置信度分数,表示检测到的目标存在的概率,完成整个图像处理系统的目标检测任务。
2.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法,其特征在于,TheLRT-DETR网络模型是基于RT-DETR的改进框架,RT-DETR的特征在于:采用MSA(多头注意力机制)对最高维度的特征图进行特征提取;在MSA中,计算量随着token的数量或者维度成二次方的比例,其网络参数较大;在MSA中,每个头只负责每个token的子集,当token的维度较短时query和key的点积无法形成有效的信息。
3.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法,其特征在于,所述S1中backbone用于接收输入图像并进行特征提取,生成不同尺度的特征图,其中最高维度特征图F3经过EMFI模块处理后,包含丰富的全局语义信息,适用于大目标检测,而其他维度特征图F0、F1、F2包含细节信息,其高分辨率特性使其适用于小目标检测。
4.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法,其特征在于,所述S2中EMFI模块具体通过以下步骤完成注意力特征提取:
S2-1:通过映射操作从输入特征图中获得query,并将2D token变换成三维结构,以便进行更深层次的特征分析;
S2-2:通过深度卷积操作减小特征图的尺寸,以降低计算复杂度,然后将3D token重新映射回二维结构;
S2-3:通过进一步的映射操作,生成key和value;
S2-4:计算自注意力,其计算公式为:
其中,IN(·)为实例规范化,Conv(·)是一个标准的1×1矩阵,dk为key的维度;
S2-5:并将每个头的计算结果相加通过线性层linear输出,其计算为:
y=x*+FFN(LN(x*))and x*=EMSA(LN(x)) (2)
其中,LN(·)为批量归一化层,FNN(·)用于特征变换和非线性处理。
5.根据权利要求1所述的一种水域无人清理船目标轻量化检测方法,其特征在于,所述S3中EMFFM是在传统FPN结构的基础上进行的改进,用于增强特征图对图像中上下文信息和全局特征的理解,同时解决特征融合过程中的语义鸿沟问题,其具体包含以下步骤完成特征融合:
S3-1:首先通过Receptive Field Block(感受野块网络)引入不同大小的卷积核和池化层,扩增特征图的感受野,同时消除由于FPN结构中多次上采样和下采样导致的高层语义信息传播不足的问题;
S3-2:EMFFM模块使用一个新提出的FUSE模块对相邻特征层进行融合,有效地整合不同尺度的特征信息;
S3-3:S3-2中的FUSE模块通过特殊设计,能够自适应地学习特征通道之间的相关性,实现不同维度特征的有效整合;
S3-4:EMFFM模块对特征提取后的特征图进行拼接,并将拼接后的特征图输出到解码器层,其计算公式为:
Ourput=EMFFM({M4,F2,F1,F0})。
6.根据权利要求5所述的一种水域无人清理船目标轻量化检测方法,其特征在于,所述S3-2中FUSE模块解决不同尺度特征层之间的语义鸿沟问题,通过对相邻尺度的特征层进行有效融合,增强了特征图对目标的表达能力,具体步骤如下:
S3-2-1:通过QARepBlock(量化感知Rep块)对网络进行参数重构,减少了网络的参数量,提高了整体的计算效率;
S3-2-2:结合通道注意力机制,FUSE模块自适应地学习特征通道之间的相关性,实现对不同维度特征的有效整合,提高特征融合的质量和效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311681649.XA CN117746233A (zh) | 2023-12-08 | 2023-12-08 | 一种水域无人清理船目标轻量化检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311681649.XA CN117746233A (zh) | 2023-12-08 | 2023-12-08 | 一种水域无人清理船目标轻量化检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117746233A true CN117746233A (zh) | 2024-03-22 |
Family
ID=90258471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311681649.XA Pending CN117746233A (zh) | 2023-12-08 | 2023-12-08 | 一种水域无人清理船目标轻量化检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746233A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984700A (zh) * | 2023-01-29 | 2023-04-18 | 河海大学 | 一种基于改进Transformer孪生网络的遥感图像变化检测方法 |
CN116246109A (zh) * | 2023-02-20 | 2023-06-09 | 南京邮电大学 | 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用 |
WO2023167530A1 (en) * | 2022-03-04 | 2023-09-07 | Samsung Electronics Co., Ltd. | Method for classifying images using novel classes |
CN116758130A (zh) * | 2023-06-21 | 2023-09-15 | 安徽理工大学 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
CN116912675A (zh) * | 2023-09-13 | 2023-10-20 | 吉林大学 | 一种基于特征迁移的水下目标检测方法及系统 |
CN116958687A (zh) * | 2023-07-27 | 2023-10-27 | 淮阴工学院 | 一种基于改进detr的面向无人机的小目标检测方法及装置 |
CN117152416A (zh) * | 2023-09-01 | 2023-12-01 | 淮阴工学院 | 一种基于detr改进模型的稀疏注意力目标检测方法 |
-
2023
- 2023-12-08 CN CN202311681649.XA patent/CN117746233A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023167530A1 (en) * | 2022-03-04 | 2023-09-07 | Samsung Electronics Co., Ltd. | Method for classifying images using novel classes |
CN115984700A (zh) * | 2023-01-29 | 2023-04-18 | 河海大学 | 一种基于改进Transformer孪生网络的遥感图像变化检测方法 |
CN116246109A (zh) * | 2023-02-20 | 2023-06-09 | 南京邮电大学 | 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用 |
CN116758130A (zh) * | 2023-06-21 | 2023-09-15 | 安徽理工大学 | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 |
CN116958687A (zh) * | 2023-07-27 | 2023-10-27 | 淮阴工学院 | 一种基于改进detr的面向无人机的小目标检测方法及装置 |
CN117152416A (zh) * | 2023-09-01 | 2023-12-01 | 淮阴工学院 | 一种基于detr改进模型的稀疏注意力目标检测方法 |
CN116912675A (zh) * | 2023-09-13 | 2023-10-20 | 吉林大学 | 一种基于特征迁移的水下目标检测方法及系统 |
Non-Patent Citations (4)
Title |
---|
ENZE LI 等: "Fish Detection under Occlusion Using Modified You Only Look Once v8 Integrating Real-Time Detection Transformer Features", 《APPLIED SCIENCES》, 24 November 2023 (2023-11-24) * |
WENYU LV等: "DETRs Beat YOLOs on Real-time Object Detection", 《ARXIV:2304.08069V2》, 6 July 2023 (2023-07-06) * |
刘飞跃等: "基于改进YOLOv5s的船上火灾检测算法", 《电脑知识与技术》, vol. 19, no. 29, 31 October 2023 (2023-10-31) * |
周华平等: "基于多尺度下采样的遥感图像目标检测算法", 《重庆工商大学学报(自然科学版)》, 28 November 2023 (2023-11-28) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
CN113052200B (zh) | 一种基于yolov3网络的声呐图像目标检测方法 | |
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及系统 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Yu et al. | Multi-stage residual fusion network for lidar-camera road detection | |
CN116468995A (zh) | 一种联合slic超像素和图注意力网络的声呐图像分类方法 | |
Zhang et al. | YoloXT: A object detection algorithm for marine benthos | |
Li et al. | Real-time underwater target detection for AUV using side scan sonar images based on deep learning | |
CN115147601A (zh) | 基于自注意力全局特征增强的城市街道点云语义分割方法 | |
Dai et al. | GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar | |
CN117274883B (zh) | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 | |
Zhang et al. | An efficient center-based method with multilevel auxiliary supervision for multiscale SAR ship detection | |
Nebili et al. | Augmented convolutional neural network models with relative multi-head attention for target recognition in infrared images | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
Yang et al. | A super lightweight and efficient sar image ship detector | |
CN117746233A (zh) | 一种水域无人清理船目标轻量化检测方法 | |
CN116452408A (zh) | 一种基于风格迁移的透明液体感知方法 | |
CN116758363A (zh) | 一种权重自适应与任务解耦的旋转目标检测器 | |
Wang et al. | Detection of SAR Image Multiscale Ship Targets in Complex Inshore Scenes Based on Improved YOLOv5 | |
CN114255385A (zh) | 基于感知向量的光学遥感图像舰船检测方法及系统 | |
Niu et al. | Underwater Waste Recognition and Localization Based on Improved YOLOv5. | |
Hu et al. | Research on bamboo defect segmentation and classification based on improved U-net network | |
Li et al. | DCSP-Yolov5: Improved Yolov5 Based on Dilated Convolution for Object Detection of Forward-Looking Sonar Images | |
Liu et al. | Text detection based on bidirectional feature fusion and sa attention mechanism | |
Chen et al. | Real-Time Ship Detection Algorithm Based on Improved YOLOv8 Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |