CN116797910A - 一种基于分组快速空间金字塔池化的轻量化yolo模型方法 - Google Patents

一种基于分组快速空间金字塔池化的轻量化yolo模型方法 Download PDF

Info

Publication number
CN116797910A
CN116797910A CN202310825192.9A CN202310825192A CN116797910A CN 116797910 A CN116797910 A CN 116797910A CN 202310825192 A CN202310825192 A CN 202310825192A CN 116797910 A CN116797910 A CN 116797910A
Authority
CN
China
Prior art keywords
module
network
scale
neck
modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310825192.9A
Other languages
English (en)
Inventor
王晗
徐少杰
刘文杰
张新宇
金文�
张翟容
金鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jinhaixing Navigation Technology Co ltd
Original Assignee
Jiangsu Jinhaixing Navigation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jinhaixing Navigation Technology Co ltd filed Critical Jiangsu Jinhaixing Navigation Technology Co ltd
Priority to CN202310825192.9A priority Critical patent/CN116797910A/zh
Publication of CN116797910A publication Critical patent/CN116797910A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种基于分组快速空间金字塔池化的轻量化YOLO模型,包括如下步骤:步骤1)利用跨阶段局部网络和分组卷积,构建分组快速空间金字塔池化结构GFSPP;步骤2)利用通道空间意力模块(CBAM)和GFSPP结构,构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP‑Backbone;步骤3)利用幻影卷积结构,构建轻型颈部网络模块Ghost‑Slim‑Neck;步骤4)按照主干网络模块GFSPP‑Backbone、颈部网络模块Ghost‑Slim‑Neck、检测头网络模块的顺序,将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP‑YOLO。本发明的方法能够大幅度提升主干网络模块特征提取能力的同时,显著降低颈部网络模块的计算量。

Description

一种基于分组快速空间金字塔池化的轻量化YOLO模型方法
技术领域
本发明涉及一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,属于图像目标检测与识别技术、计算机视觉技术领域。
背景技术
目标检测作为计算机视觉领域中的重要任务被广泛应用于工业场景,例如人脸检测,安全帽检测,缺陷检测等。然而,传统的目标检测模型在实时性、检测精度以及模型体量等方面存在矛盾。
目前,为平衡这一矛盾,常见的方法是运用一些轻量化的网络结构,如MobileNet、ShuffleNet以及GhostNet,旨在保持检测精度的同时减少模型的参数量和计算量。其中,MobileNet采用DWConv代替Conv降低模型的参数量和计算量。ShuffleNet使用通道混洗的操作实现了通道之间信息的交互融合。而GhostNet考虑到特征图冗余的问题,通过简单的线性操作获得了与普通卷积相同数量的特征图,降低了计算量,提升了计算速度。部分学者将这些轻量化网络集成到目标检测模型中,能够保持模型在一定检测精度的同时有效减少计算复杂度和参数量,使得在移动端设备上进行实时目标检测成为可能。
面向嵌入式环境,上述方法大部分利用DWConv有效降低了参数体量和计算量,但是模型的检测准确性下降过大、检测精度较低,无法满足检测精度要求
发明内容
针对上述现有技术存在的问题,本发明提供一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,从空间金字塔池化结构入手,在增强主干网络的特征表征能力同时,在颈部网络做轻量化设计,提出了一种基于分组快速空间金字塔池化的轻量化YOLO模型,该模型在一定程度上平衡了检测精度、计算速度与模型体量,使得面向嵌入式设备环境依然能够保持较强的鲁棒性和有效识别能力。
为了实现上述目的,本发明采用的技术方案是:一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,包括如下步骤:
步骤1:利用跨阶段局部网络和分组卷积,构建分组快速空间金字塔池化结构GFSPP;
步骤2:利用通道空间意力模块(CBAM)和GFSPP结构,构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP-Backbone;
步骤3:利用幻影卷积结构,构建轻型颈部网络模块Ghost-Slim-Neck;
步骤4:按照主干网络模块GFSPP-Backbone、颈部网络模块Ghost-Slim-Neck、检测头网络模块的顺序,将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP-YOLO。
进一步的,所述步骤1具体内容为:
步骤1-1:首先,将原特征图分为两个分支,在第一个分支中经过卷积核大小分别为1×1、3×3、1×1的分组卷积层;
步骤1-2:然后,将输出的特征图输入到SPPF结构中,SPPF结构是由一个卷积核大小为1×1的分组卷积层和三个尺度为5×5的最大池化层组成;即,输入特征图经过三个尺度为5×5的最大池化层,并且每经过一个最大池化层都输出一个分支,并将原特征图与三个分支的输出进行通道拼接后,再经过一个1×1的分组卷积层输出;
步骤1-3:在经过SPPF结构之后,再输入到卷积核大小分别为1×1、3×3的分组卷积层,并将输出特征图与原特征图的另一个分支(经过一个卷积核大小为1×1的分组卷积层)进行通道拼接;
步骤1-4:最后,拼接后的特征图再经过一个卷积核大小为1×1的分组卷积层输出,作为GFSPP结构的输出。
进一步的,所述步骤2中,主干网络模块GFSPP-Backbone共输出大、中、小三个尺度的图像特征,其网络结构主要由五个CBS模块,四个C3模块,步骤1)中的GFSPP结构和CBAM模块组成;
具体内容为:
步骤2-1:首先,将五个CBS模块,四个C3模块,按照如下顺序连接成基础特征提取模块:CBS模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块;
步骤2-2:其中,CBS模块主要由卷积层、BN层和SiLU激活函数组成;C3模块作为主干网络的重要部分,其作用主要是增加网络的深度和特征提取能力,该模块主要由三个CBS模块,若干个BottleNeck模块组成,BottleNeck模块为两个CBS模块的串联;
首先,将原输入分为两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行CBS操作,再经过BottleNeck×N的操作,另一个分支直接进行CBS操作,最后将两个分支进行通道拼接后再进行一个CBS操作,使得特征图在进入C3模块之后确保输入和输出是一样的大小,并且C3模块的重复堆叠可以构建更深层次的特征提取网络;
步骤2-3:在上述基础特征提取模块后连接步骤1)所描述的GFSPP结构;
步骤2-4:在步骤2-3)基础上,串联CBAM模块;CBAM由通道注意力模块、空间注意力模块两部分组成,通道注意力通过全局平均池化和全连接层生成通道注意力权重,对不同通道特征进行加权融合;空间注意力通过卷积层生成空间注意力映射,突出重要位置并抑制不重要位置;最后,将通道注意力和空间注意力处理的特征图相加得到最终表示,以捕捉关键信息,提高网络特征的表征能力。
进一步的,所述步骤3的具体内容为:
轻型颈部网络模块Ghost-Slim-Neck将主干网络模块GFSPP-Backbone的三种尺度的输出作为输入,分别对特征进行自上而下、自下而上的多尺度融合后再输出三种不同尺度的优化特征,其网络结构主要由四个GhostConv模块、四个C3Ghost模块、四个通道拼接(Concat)模块和两个上采样(Upsample)模块组成;
步骤3-1:颈部网络共有14个模块组成,其顺序依次为GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块;其中第一个Concat模块为主干网络的中尺度输出与第一个Upsample模块的通道拼接,第二个Concat模块为主干网络的小尺度输出与第二个Upsample模块的通道拼接,第三个Concat模块为颈部网络中第五个GhostConv模块与第九个GhostConv模块的通道拼接,第四个Concat模块为颈部网络中第一个GhostConv模块与第十二个GhostConv模块的通道拼接;其中第八个模块、第十一个模块、第十四个模块分别输出小尺度、中尺度、大尺度图像特征;
步骤3-2:GhostConv模块由一个CBS模块和一个DWConv模块组成,将原特征图先经过一个CBS模块后分为两个分支,其一分支进行DWConv操作,另一分支不进行任何操作,然后将两个分支进行通道拼接作为GhostConv模块的输出;
步骤3-3:C3Ghost模块主要由三个CBS模块和一个GhostBottleneck模块组成,其结构与C3模块相同,只是替换其中的GhostBottleneck模块,而GhostBottleneck模块是由两个串联的GhostConv模块和一个并行的DWConv模块进行元素相加操作并输出。
进一步的,所述步骤4的具体内容为:
步骤4-1:GFSPP-Backbone主干网络输出的特征图,分别作为Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输入;
步骤4-2:Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输出特征图,分别连接大尺度、中尺度、小尺度的检测头网络;
步骤4-3:最后,三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数,实现轻量化目标定位与识别功能。
本发明的有益效果是:本发明提出了一种基于分组快速空间金字塔池化的轻量化YOLO模型。区别现有YOLOv5模型,首先,在主干网络的末端,利用跨阶段局部网络和分组卷积的思想扩大感受野,构建分组快速空间金字塔池化结构GFSPP,避免因图像失真造成的误检与漏检;并在主干网络中引入CBAM注意力机制,增强网络特征的表征能力。其次,在颈部网络使用Slim-Neck范式结合GhostConv轻量化卷积模块的方法压缩网络结构。实验结果表明,本发明提出的GFSPP-YOLO模型在PASCAL VOC2007+12数据集上相比于传统YOLOv5模型,计算量和参数量分别减少了10%和3.5%,同时mAP0.5提高了2%,使得本发明的模型更适合移动终端嵌入式环境的应用。
附图说明
图1为本发明的轻型目标检测网络构建方法的流程示意图;
图2为本发明提出的GFSPP网络结构示意图;
图3为本发明提出的GFSPP-Backbone网络结构示意图;
图4为本发明提出的Ghost-Slim-Neck颈部网络结构示意图;
图5为本发明提出的基于分组快速空间金字塔池化的轻量化YOLO模型;
图6为本发明轻型目标检测网络与其他轻量化检测模型在目标检测精度和及模型参数体量上的比较示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。
除非另有定义,本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,包括如下步骤:
步骤101:利用跨阶段局部网络和分组卷积,构建分组快速空间金字塔池化结构GFSPP;的具体内容为:
如图2所示,分组快速空间金字塔池化结构GFSPP(Group Fast Spatial PyramidPooling),在SPPF的基础上结合了跨阶段局部网络和分组卷积的思想,旨在提高模型的感受野和特征表达能力。该结构通过在SPPF结构的前端和后端分别引入若干分组卷积层,其中卷积核大小为1×1和3×3。具体结构如下:
步骤1-1首先,将原特征图分为两个分支,在第一个分支中经过卷积核大小分别为1×1、3×3、1×1的分组卷积层;
步骤1-2然后,将输出的特征图输入到SPPF结构中。SPPF结构是由一个卷积核大小为1×1的分组卷积层和三个尺度为5×5的最大池化层组成。即,输入特征图经过三个尺度为5×5的最大池化层,并且每经过一个最大池化层都输出一个分支,并将原特征图与三个分支的输出进行通道拼接后,再经过一个1×1的分组卷积层输出。
步骤1-3在经过SPPF结构之后,再输入到卷积核大小分别为1×1、3×3的分组卷积层,并将输出特征图与原特征图的另一个分支(经过一个卷积核大小为1×1的分组卷积层)进行通道拼接。
步骤1-4最后,拼接后的特征图再经过一个卷积核大小为1×1的分组卷积层输出,作为GFSPP结构的输出。
步骤102:利用通道空间意力模块(CBAM)和GFSPP结构,构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP-Backbone;的具体内容为:
如图3所示,
步骤2-1首先,将五个CBS模块,四个C3模块,按照如下顺序连接成基础特征提取模块:CBS模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块。
步骤2-2其中,CBS模块主要由卷积层、BN层和SiLU激活函数组成;C3模块作为主干网络的重要部分,其作用主要是增加网络的深度和特征提取能力,该模块主要由三个CBS模块,若干个BottleNeck模块组成,BottleNeck模块为两个CBS模块的串联。首先,将原输入分为两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行CBS操作,再经过BottleNeck×N的操作,另一个分支直接进行CBS操作,最后将两个分支进行通道拼接后再进行一个CBS操作,使得特征图在进入C3模块之后确保输入和输出是一样的大小,并且C3模块的重复堆叠可以构建更深层次的特征提取网络。
步骤2-3在上述基础特征提取模块后连接步骤1)所描述的GFSPP结构;
步骤2-4在步骤2-3)基础上,串联CBAM模块。CBAM由通道注意力模块、空间注意力模块两部分组成,通道注意力通过全局平均池化和全连接层生成通道注意力权重,对不同通道特征进行加权融合。空间注意力通过卷积层生成空间注意力映射,突出重要位置并抑制不重要位置。最后,将通道注意力和空间注意力处理的特征图相加得到最终表示,以捕捉关键信息,提高网络特征的表征能力。
步骤103:利用幻影卷积结构,构建轻型颈部网络模块Ghost-Slim-Neck;的具体内容为:
如图4所示,轻型颈部网络模块Ghost-Slim-Neck将主干网络模块GFSPP-Backbone的三种尺度的输出作为输入,分别对特征进行自上而下、自下而上的多尺度融合后再输出三种不同尺度的优化特征。其网络结构主要由四个GhostConv模块、四个C3Ghost模块、四个通道拼接(Concat)模块和两个上采样(Upsample)模块组成。具体结构如下:
步骤3-1颈部网络共有14个模块组成,其顺序依次为GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块。其中第一个Concat模块为主干网络的中尺度输出与第一个Upsample模块的通道拼接,第二个Concat模块为主干网络的小尺度输出与第二个Upsample模块的通道拼接,第三个Concat模块为颈部网络中第五个GhostConv模块与第九个GhostConv模块的通道拼接,第四个Concat模块为颈部网络中第一个GhostConv模块与第十二个GhostConv模块的通道拼接。其中第八个模块、第十一个模块、第十四个模块分别输出小尺度、中尺度、大尺度图像特征。
步骤3-2其中,GhostConv模块由一个CBS模块和一个DWConv模块组成,将原特征图先经过一个CBS模块后分为两个分支,其一分支进行DWConv操作,另一分支不进行任何操作,然后将两个分支进行通道拼接作为GhostConv模块输出。
步骤3-3其中,C3Ghost模块主要由三个CBS模块和一个GhostBottleneck模块组成,其结构与C3模块相同,只是替换其中的GhostBottleneck模块,而GhostBottleneck模块是由两个串联的GhostConv模块和一个并行的DWConv模块进行元素相加操作并输出。
步骤104:按照主干网络模块GFSPP-Backbone、颈部网络模块Ghost-Slim-Neck、检测头网络模块的顺序,将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP-YOLO。的具体内容为:
如图5所示,GFSPP-Backbone主干网络的输出特征图,分别作为Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输入;Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输出特征图,分别连接大尺度、中尺度、小尺度的检测头网络;最后,三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数,实现轻量化目标定位与识别功能。
图6给出了本发明的轻量化模型与其他轻量化模型,包括YOLOv5s、YOLOv5-GSConv-Slim-Neck、YOLOv5-ShuffleNetv2、YOLOv5-MobileNetv3、YOLOv5-GhostNet在VOC2007+12公众数据集上的检测结果比较。本发明的实验环境以及设置如下:本发明的实验都在Intel(R)Silver 4214CPU 2.20GH中进行,该服务器的系统为Ubuntu18.04.5LTS,搭载NVIDIA GeForce RTX 3090显卡,并在Pytorch1.8+CUDA11.1深度学习框架下运行。训练的超参数如下:优化器为随机梯度下降SGD,采用线性衰减学习率调整策略,初始学习率为0.01,动量和权值衰减分别为0.937和0.0005,batch size为64,epochs为300轮。实验数据集为PASCAL VOC07+12,其中训练集为16551张图片,测试集为4952张图片,共20个类别。对于模型的评价指标,本发明采用参数大小(Params)、浮点运算次数(FLOPs)、每秒传输帧数(FPS)来分别表示模型含有多少参数、复杂度以及推理速度。采用mAP0.5以及mAP0.5:0.95来衡量模型的精度,其中mAP0.5代表IoU阈值为0.5时所有类别的平均精度。mAP0.5:0.95代表IoU阈值从0.5到0.95以0.05的步长并加权平均的所有类别的平均精度。表1给出了本发明提出的轻量化模型与其他轻量化模型的对比实验。
从表1中可以看出,我们的模型与基线(原YOLOv5s)相比,计算量降低了10%,参数量减少了3.5%,并且mAP0.5和mAP0.5:0.95分别提高2%和4.7%。与其他改进的轻量化模型相比,虽然参数量和计算量略高,但是检测精度远低于本文模型,不适于在移动端设备中使用,本发明模型在参数量、计算量以及模型的检测精度等方面达到了一个平衡,使得模型部署在边缘设备上,在进行实时处理(FPS>35)的同时,依然能够保持较强的鲁棒性和有效识别能力。
表1轻量化目标检测模型的对比试验结果
Model GFLOPS Params(M) mAP0.5 mAP0.5:0.95 FPS
YOLOv5s 16.0 7.06 0.789 0.527 128
YOLOv5s+MobileNetv3 6.4 3.59 0.703 0.429 103
YOLOv5s+ShuffleNetv2 8.1 3.84 0.733 0.460 105
YOLOv5s+GhostNet 8.2 3.73 0.788 0.538 113
YOLOv5s+GSConv+Slim-Neck 12.8 5.89 0.791 0.551 120
Ours 14.4 6.81 0.809 0.571 106
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,其特征在于,包括如下步骤:
步骤1:利用跨阶段局部网络和分组卷积,构建分组快速空间金字塔池化结构GFSPP;
步骤2:利用通道空间意力模块(CBAM)和GFSPP结构,构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP-Backbone;
步骤3:利用幻影卷积结构,构建轻型颈部网络模块Ghost-Slim-Neck;
步骤4:按照主干网络模块GFSPP-Backbone、颈部网络模块Ghost-Slim-Neck、检测头网络模块的顺序,将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP-YOLO。
2.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,其特征在于,所述步骤1具体内容为:
步骤1-1:首先,将原特征图分为两个分支,在第一个分支中经过卷积核大小分别为1×1、3×3、1×1的分组卷积层;
步骤1-2:然后,将输出的特征图输入到SPPF结构中,SPPF结构是由一个卷积核大小为1×1的分组卷积层和三个尺度为5×5的最大池化层组成;即,输入特征图经过三个尺度为5×5的最大池化层,并且每经过一个最大池化层都输出一个分支,并将原特征图与三个分支的输出进行通道拼接后,再经过一个1×1的分组卷积层输出;
步骤1-3:在经过SPPF结构之后,再输入到卷积核大小分别为1×1、3×3的分组卷积层,并将输出特征图与原特征图的另一个分支(经过一个卷积核大小为1×1的分组卷积层)进行通道拼接;
步骤1-4:最后,拼接后的特征图再经过一个卷积核大小为1×1的分组卷积层输出,作为GFSPP结构的输出。
3.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,其特征在于,所述步骤2中,主干网络模块GFSPP-Backbone共输出大、中、小三个尺度的图像特征,其网络结构主要由五个CBS模块,四个C3模块,步骤1)中的GFSPP结构和CBAM模块组成;
具体内容为:
步骤2-1:首先,将五个CBS模块,四个C3模块,按照如下顺序连接成基础特征提取模块:CBS模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块;
步骤2-2:其中,CBS模块主要由卷积层、BN层和SiLU激活函数组成;C3模块作为主干网络的重要部分,其作用主要是增加网络的深度和特征提取能力,该模块主要由三个CBS模块,若干个BottleNeck模块组成,BottleNeck模块为两个CBS模块的串联;
首先,将原输入分为两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行CBS操作,再经过BottleNeck×N的操作,另一个分支直接进行CBS操作,最后将两个分支进行通道拼接后再进行一个CBS操作,使得特征图在进入C3模块之后确保输入和输出是一样的大小,并且C3模块的重复堆叠可以构建更深层次的特征提取网络;
步骤2-3:在上述基础特征提取模块后连接步骤1)所描述的GFSPP结构;
步骤2-4:在步骤2-3)基础上,串联CBAM模块;CBAM由通道注意力模块、空间注意力模块两部分组成,通道注意力通过全局平均池化和全连接层生成通道注意力权重,对不同通道特征进行加权融合;空间注意力通过卷积层生成空间注意力映射,突出重要位置并抑制不重要位置;最后,将通道注意力和空间注意力处理的特征图相加得到最终表示,以捕捉关键信息,提高网络特征的表征能力。
4.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,其特征在于,所述步骤3的具体内容为:
轻型颈部网络模块Ghost-Slim-Neck将主干网络模块GFSPP-Backbone的三种尺度的输出作为输入,分别对特征进行自上而下、自下而上的多尺度融合后再输出三种不同尺度的优化特征,其网络结构主要由四个GhostConv模块、四个C3Ghost模块、四个通道拼接(Concat)模块和两个上采样(Upsample)模块组成;
步骤3-1:颈部网络共有14个模块组成,其顺序依次为GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块;其中第一个Concat模块为主干网络的中尺度输出与第一个Upsample模块的通道拼接,第二个Concat模块为主干网络的小尺度输出与第二个Upsample模块的通道拼接,第三个Concat模块为颈部网络中第五个GhostConv模块与第九个GhostConv模块的通道拼接,第四个Concat模块为颈部网络中第一个GhostConv模块与第十二个GhostConv模块的通道拼接;其中第八个模块、第十一个模块、第十四个模块分别输出小尺度、中尺度、大尺度图像特征;
步骤3-2:GhostConv模块由一个CBS模块和一个DWConv模块组成,将原特征图先经过一个CBS模块后分为两个分支,其一分支进行DWConv操作,另一分支不进行任何操作,然后将两个分支进行通道拼接作为GhostConv模块的输出;
步骤3-3:C3Ghost模块主要由三个CBS模块和一个GhostBottleneck模块组成,其结构与C3模块相同,只是替换其中的GhostBottleneck模块,而GhostBottleneck模块是由两个串联的GhostConv模块和一个并行的DWConv模块进行元素相加操作并输出。
5.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法,其特征在于,所述步骤4的具体内容为:
步骤4-1:GFSPP-Backbone主干网络输出的特征图,分别作为Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输入;
步骤4-2:Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输出特征图,分别连接大尺度、中尺度、小尺度的检测头网络;
步骤4-3:最后,三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数,实现轻量化目标定位与识别功能。
CN202310825192.9A 2023-07-05 2023-07-05 一种基于分组快速空间金字塔池化的轻量化yolo模型方法 Pending CN116797910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310825192.9A CN116797910A (zh) 2023-07-05 2023-07-05 一种基于分组快速空间金字塔池化的轻量化yolo模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310825192.9A CN116797910A (zh) 2023-07-05 2023-07-05 一种基于分组快速空间金字塔池化的轻量化yolo模型方法

Publications (1)

Publication Number Publication Date
CN116797910A true CN116797910A (zh) 2023-09-22

Family

ID=88043693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310825192.9A Pending CN116797910A (zh) 2023-07-05 2023-07-05 一种基于分组快速空间金字塔池化的轻量化yolo模型方法

Country Status (1)

Country Link
CN (1) CN116797910A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113066A (zh) * 2023-10-25 2023-11-24 南昌大学 一种基于计算机视觉的输电线路绝缘子缺陷检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113066A (zh) * 2023-10-25 2023-11-24 南昌大学 一种基于计算机视觉的输电线路绝缘子缺陷检测方法
CN117113066B (zh) * 2023-10-25 2024-03-29 南昌大学 一种基于计算机视觉的输电线路绝缘子缺陷检测方法

Similar Documents

Publication Publication Date Title
CN110298266B (zh) 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN112991354B (zh) 一种基于深度学习的高分辨率遥感影像语义分割方法
CN110348384B (zh) 一种基于特征融合的小目标车辆属性识别方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN110084274A (zh) 实时图像语义分割方法及系统、可读存储介质和终端
CN116797910A (zh) 一种基于分组快速空间金字塔池化的轻量化yolo模型方法
CN111046928B (zh) 定位精准的单阶段实时通用目标检测器及方法
CN112541532A (zh) 基于密集连接结构的目标检测方法
CN113421222B (zh) 一种轻量化煤矸目标检测方法
CN112766229A (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN116468740A (zh) 一种图像语义分割模型及分割方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN108363962B (zh) 一种基于多层次特征深度学习的人脸检测方法及系统
CN114821106A (zh) 一种基于特征金字塔的圣女果检测识别方法
CN115063833A (zh) 一种基于图像分层视觉的机房人员检测方法
CN117911394A (zh) 基于改进YOLOv5的钢材表面缺陷检测方法及系统
CN113902753A (zh) 基于双通道和自注意力机制的图像语义分割方法及系统
CN116977860A (zh) 一种基于上下文感知局部增强的轻量级目标检测方法及系统
CN112149518A (zh) 基于began和yolov3模型的松果检测方法
CN117058542A (zh) 基于大感受野和注意机制的多尺度高精度轻量化目标检测方法
CN116562341A (zh) 一种用于交通信号灯检测的改进型YOLOv5n模型
CN113902904B (zh) 一种轻量化网络架构系统
CN113902903B (zh) 一种基于下采样的双注意力多尺度融合方法
CN114612758A (zh) 一种基于深度分组可分离卷积的目标检测方法
CN113313721B (zh) 基于多尺度结构的实时语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination