CN116797910A

CN116797910A - 一种基于分组快速空间金字塔池化的轻量化yolo模型方法

Info

Publication number: CN116797910A
Application number: CN202310825192.9A
Authority: CN
Inventors: 王晗; 徐少杰; 刘文杰; 张新宇; 金文�; 张翟容; 金鸥
Original assignee: Jiangsu Jinhaixing Navigation Technology Co ltd
Current assignee: Jiangsu Jinhaixing Navigation Technology Co ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-22

Abstract

本发明公开一种基于分组快速空间金字塔池化的轻量化YOLO模型，包括如下步骤：步骤1)利用跨阶段局部网络和分组卷积，构建分组快速空间金字塔池化结构GFSPP；步骤2)利用通道空间意力模块(CBAM)和GFSPP结构，构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP‑Backbone；步骤3)利用幻影卷积结构，构建轻型颈部网络模块Ghost‑Slim‑Neck；步骤4)按照主干网络模块GFSPP‑Backbone、颈部网络模块Ghost‑Slim‑Neck、检测头网络模块的顺序，将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP‑YOLO。本发明的方法能够大幅度提升主干网络模块特征提取能力的同时，显著降低颈部网络模块的计算量。

Description

一种基于分组快速空间金字塔池化的轻量化YOLO模型方法

技术领域

本发明涉及一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，属于图像目标检测与识别技术、计算机视觉技术领域。

背景技术

目标检测作为计算机视觉领域中的重要任务被广泛应用于工业场景，例如人脸检测，安全帽检测，缺陷检测等。然而，传统的目标检测模型在实时性、检测精度以及模型体量等方面存在矛盾。

目前，为平衡这一矛盾，常见的方法是运用一些轻量化的网络结构，如MobileNet、ShuffleNet以及GhostNet，旨在保持检测精度的同时减少模型的参数量和计算量。其中，MobileNet采用DWConv代替Conv降低模型的参数量和计算量。ShuffleNet使用通道混洗的操作实现了通道之间信息的交互融合。而GhostNet考虑到特征图冗余的问题，通过简单的线性操作获得了与普通卷积相同数量的特征图，降低了计算量，提升了计算速度。部分学者将这些轻量化网络集成到目标检测模型中，能够保持模型在一定检测精度的同时有效减少计算复杂度和参数量，使得在移动端设备上进行实时目标检测成为可能。

面向嵌入式环境，上述方法大部分利用DWConv有效降低了参数体量和计算量，但是模型的检测准确性下降过大、检测精度较低，无法满足检测精度要求

发明内容

针对上述现有技术存在的问题，本发明提供一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，从空间金字塔池化结构入手，在增强主干网络的特征表征能力同时，在颈部网络做轻量化设计，提出了一种基于分组快速空间金字塔池化的轻量化YOLO模型，该模型在一定程度上平衡了检测精度、计算速度与模型体量，使得面向嵌入式设备环境依然能够保持较强的鲁棒性和有效识别能力。

为了实现上述目的，本发明采用的技术方案是：一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，包括如下步骤：

步骤1:利用跨阶段局部网络和分组卷积，构建分组快速空间金字塔池化结构GFSPP；

步骤2:利用通道空间意力模块(CBAM)和GFSPP结构，构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP-Backbone；

步骤3:利用幻影卷积结构，构建轻型颈部网络模块Ghost-Slim-Neck；

步骤4：按照主干网络模块GFSPP-Backbone、颈部网络模块Ghost-Slim-Neck、检测头网络模块的顺序，将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP-YOLO。

进一步的，所述步骤1具体内容为：

步骤1-1：首先，将原特征图分为两个分支，在第一个分支中经过卷积核大小分别为1×1、3×3、1×1的分组卷积层；

步骤1-2：然后，将输出的特征图输入到SPPF结构中，SPPF结构是由一个卷积核大小为1×1的分组卷积层和三个尺度为5×5的最大池化层组成；即，输入特征图经过三个尺度为5×5的最大池化层，并且每经过一个最大池化层都输出一个分支，并将原特征图与三个分支的输出进行通道拼接后，再经过一个1×1的分组卷积层输出；

步骤1-3：在经过SPPF结构之后，再输入到卷积核大小分别为1×1、3×3的分组卷积层，并将输出特征图与原特征图的另一个分支(经过一个卷积核大小为1×1的分组卷积层)进行通道拼接；

步骤1-4：最后，拼接后的特征图再经过一个卷积核大小为1×1的分组卷积层输出，作为GFSPP结构的输出。

进一步的，所述步骤2中，主干网络模块GFSPP-Backbone共输出大、中、小三个尺度的图像特征，其网络结构主要由五个CBS模块，四个C3模块，步骤1)中的GFSPP结构和CBAM模块组成；

具体内容为：

步骤2-1：首先，将五个CBS模块，四个C3模块，按照如下顺序连接成基础特征提取模块：CBS模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块；

步骤2-2：其中，CBS模块主要由卷积层、BN层和SiLU激活函数组成；C3模块作为主干网络的重要部分，其作用主要是增加网络的深度和特征提取能力，该模块主要由三个CBS模块，若干个BottleNeck模块组成，BottleNeck模块为两个CBS模块的串联；

首先，将原输入分为两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行CBS操作，再经过BottleNeck×N的操作，另一个分支直接进行CBS操作，最后将两个分支进行通道拼接后再进行一个CBS操作，使得特征图在进入C3模块之后确保输入和输出是一样的大小，并且C3模块的重复堆叠可以构建更深层次的特征提取网络；

步骤2-3：在上述基础特征提取模块后连接步骤1)所描述的GFSPP结构；

步骤2-4：在步骤2-3)基础上，串联CBAM模块；CBAM由通道注意力模块、空间注意力模块两部分组成，通道注意力通过全局平均池化和全连接层生成通道注意力权重，对不同通道特征进行加权融合；空间注意力通过卷积层生成空间注意力映射，突出重要位置并抑制不重要位置；最后，将通道注意力和空间注意力处理的特征图相加得到最终表示，以捕捉关键信息，提高网络特征的表征能力。

进一步的，所述步骤3的具体内容为：

轻型颈部网络模块Ghost-Slim-Neck将主干网络模块GFSPP-Backbone的三种尺度的输出作为输入，分别对特征进行自上而下、自下而上的多尺度融合后再输出三种不同尺度的优化特征，其网络结构主要由四个GhostConv模块、四个C3Ghost模块、四个通道拼接(Concat)模块和两个上采样(Upsample)模块组成；

步骤3-1：颈部网络共有14个模块组成，其顺序依次为GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块；其中第一个Concat模块为主干网络的中尺度输出与第一个Upsample模块的通道拼接，第二个Concat模块为主干网络的小尺度输出与第二个Upsample模块的通道拼接，第三个Concat模块为颈部网络中第五个GhostConv模块与第九个GhostConv模块的通道拼接，第四个Concat模块为颈部网络中第一个GhostConv模块与第十二个GhostConv模块的通道拼接；其中第八个模块、第十一个模块、第十四个模块分别输出小尺度、中尺度、大尺度图像特征；

步骤3-2：GhostConv模块由一个CBS模块和一个DWConv模块组成，将原特征图先经过一个CBS模块后分为两个分支，其一分支进行DWConv操作，另一分支不进行任何操作，然后将两个分支进行通道拼接作为GhostConv模块的输出；

步骤3-3：C3Ghost模块主要由三个CBS模块和一个GhostBottleneck模块组成，其结构与C3模块相同，只是替换其中的GhostBottleneck模块，而GhostBottleneck模块是由两个串联的GhostConv模块和一个并行的DWConv模块进行元素相加操作并输出。

进一步的，所述步骤4的具体内容为：

步骤4-1：GFSPP-Backbone主干网络输出的特征图，分别作为Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输入；

步骤4-2：Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输出特征图，分别连接大尺度、中尺度、小尺度的检测头网络；

步骤4-3：最后，三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数，实现轻量化目标定位与识别功能。

本发明的有益效果是：本发明提出了一种基于分组快速空间金字塔池化的轻量化YOLO模型。区别现有YOLOv5模型，首先，在主干网络的末端，利用跨阶段局部网络和分组卷积的思想扩大感受野，构建分组快速空间金字塔池化结构GFSPP，避免因图像失真造成的误检与漏检；并在主干网络中引入CBAM注意力机制，增强网络特征的表征能力。其次，在颈部网络使用Slim-Neck范式结合GhostConv轻量化卷积模块的方法压缩网络结构。实验结果表明，本发明提出的GFSPP-YOLO模型在PASCAL VOC2007+12数据集上相比于传统YOLOv5模型，计算量和参数量分别减少了10％和3.5％，同时mAP0.5提高了2％，使得本发明的模型更适合移动终端嵌入式环境的应用。

附图说明

图1为本发明的轻型目标检测网络构建方法的流程示意图；

图2为本发明提出的GFSPP网络结构示意图；

图3为本发明提出的GFSPP-Backbone网络结构示意图；

图4为本发明提出的Ghost-Slim-Neck颈部网络结构示意图；

图5为本发明提出的基于分组快速空间金字塔池化的轻量化YOLO模型；

图6为本发明轻型目标检测网络与其他轻量化检测模型在目标检测精度和及模型参数体量上的比较示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。

除非另有定义，本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同，本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，包括如下步骤：

步骤101：利用跨阶段局部网络和分组卷积，构建分组快速空间金字塔池化结构GFSPP；的具体内容为：

如图2所示，分组快速空间金字塔池化结构GFSPP(Group Fast Spatial PyramidPooling)，在SPPF的基础上结合了跨阶段局部网络和分组卷积的思想，旨在提高模型的感受野和特征表达能力。该结构通过在SPPF结构的前端和后端分别引入若干分组卷积层，其中卷积核大小为1×1和3×3。具体结构如下:

步骤1-1首先，将原特征图分为两个分支，在第一个分支中经过卷积核大小分别为1×1、3×3、1×1的分组卷积层；

步骤1-2然后，将输出的特征图输入到SPPF结构中。SPPF结构是由一个卷积核大小为1×1的分组卷积层和三个尺度为5×5的最大池化层组成。即，输入特征图经过三个尺度为5×5的最大池化层，并且每经过一个最大池化层都输出一个分支，并将原特征图与三个分支的输出进行通道拼接后，再经过一个1×1的分组卷积层输出。

步骤1-3在经过SPPF结构之后，再输入到卷积核大小分别为1×1、3×3的分组卷积层，并将输出特征图与原特征图的另一个分支(经过一个卷积核大小为1×1的分组卷积层)进行通道拼接。

步骤1-4最后，拼接后的特征图再经过一个卷积核大小为1×1的分组卷积层输出，作为GFSPP结构的输出。

步骤102：利用通道空间意力模块(CBAM)和GFSPP结构，构建基于分组快速空间金字塔池化结构的主干网络模块GFSPP-Backbone；的具体内容为：

如图3所示，

步骤2-1首先，将五个CBS模块，四个C3模块，按照如下顺序连接成基础特征提取模块：CBS模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块、CBS模块、C3模块。

步骤2-2其中，CBS模块主要由卷积层、BN层和SiLU激活函数组成；C3模块作为主干网络的重要部分，其作用主要是增加网络的深度和特征提取能力，该模块主要由三个CBS模块，若干个BottleNeck模块组成，BottleNeck模块为两个CBS模块的串联。首先，将原输入分为两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行CBS操作，再经过BottleNeck×N的操作，另一个分支直接进行CBS操作，最后将两个分支进行通道拼接后再进行一个CBS操作，使得特征图在进入C3模块之后确保输入和输出是一样的大小，并且C3模块的重复堆叠可以构建更深层次的特征提取网络。

步骤2-3在上述基础特征提取模块后连接步骤1)所描述的GFSPP结构；

步骤2-4在步骤2-3)基础上，串联CBAM模块。CBAM由通道注意力模块、空间注意力模块两部分组成，通道注意力通过全局平均池化和全连接层生成通道注意力权重，对不同通道特征进行加权融合。空间注意力通过卷积层生成空间注意力映射，突出重要位置并抑制不重要位置。最后，将通道注意力和空间注意力处理的特征图相加得到最终表示，以捕捉关键信息，提高网络特征的表征能力。

步骤103：利用幻影卷积结构，构建轻型颈部网络模块Ghost-Slim-Neck；的具体内容为：

如图4所示，轻型颈部网络模块Ghost-Slim-Neck将主干网络模块GFSPP-Backbone的三种尺度的输出作为输入，分别对特征进行自上而下、自下而上的多尺度融合后再输出三种不同尺度的优化特征。其网络结构主要由四个GhostConv模块、四个C3Ghost模块、四个通道拼接(Concat)模块和两个上采样(Upsample)模块组成。具体结构如下:

步骤3-1颈部网络共有14个模块组成，其顺序依次为GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Upsample模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块、GhostConv模块、Concat模块、C3Ghost模块。其中第一个Concat模块为主干网络的中尺度输出与第一个Upsample模块的通道拼接，第二个Concat模块为主干网络的小尺度输出与第二个Upsample模块的通道拼接，第三个Concat模块为颈部网络中第五个GhostConv模块与第九个GhostConv模块的通道拼接，第四个Concat模块为颈部网络中第一个GhostConv模块与第十二个GhostConv模块的通道拼接。其中第八个模块、第十一个模块、第十四个模块分别输出小尺度、中尺度、大尺度图像特征。

步骤3-2其中，GhostConv模块由一个CBS模块和一个DWConv模块组成，将原特征图先经过一个CBS模块后分为两个分支，其一分支进行DWConv操作，另一分支不进行任何操作，然后将两个分支进行通道拼接作为GhostConv模块输出。

步骤3-3其中，C3Ghost模块主要由三个CBS模块和一个GhostBottleneck模块组成，其结构与C3模块相同，只是替换其中的GhostBottleneck模块，而GhostBottleneck模块是由两个串联的GhostConv模块和一个并行的DWConv模块进行元素相加操作并输出。

步骤104：按照主干网络模块GFSPP-Backbone、颈部网络模块Ghost-Slim-Neck、检测头网络模块的顺序，将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP-YOLO。的具体内容为：

如图5所示，GFSPP-Backbone主干网络的输出特征图，分别作为Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输入；Ghost-Slim-Neck颈部网络的大尺度、中尺度、小尺度特征的输出特征图，分别连接大尺度、中尺度、小尺度的检测头网络；最后，三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数，实现轻量化目标定位与识别功能。

图6给出了本发明的轻量化模型与其他轻量化模型，包括YOLOv5s、YOLOv5-GSConv-Slim-Neck、YOLOv5-ShuffleNetv2、YOLOv5-MobileNetv3、YOLOv5-GhostNet在VOC2007+12公众数据集上的检测结果比较。本发明的实验环境以及设置如下：本发明的实验都在Intel(R)Silver 4214CPU 2.20GH中进行，该服务器的系统为Ubuntu18.04.5LTS，搭载NVIDIA GeForce RTX 3090显卡，并在Pytorch1.8+CUDA11.1深度学习框架下运行。训练的超参数如下：优化器为随机梯度下降SGD，采用线性衰减学习率调整策略，初始学习率为0.01，动量和权值衰减分别为0.937和0.0005，batch size为64，epochs为300轮。实验数据集为PASCAL VOC07+12，其中训练集为16551张图片，测试集为4952张图片，共20个类别。对于模型的评价指标，本发明采用参数大小(Params)、浮点运算次数(FLOPs)、每秒传输帧数(FPS)来分别表示模型含有多少参数、复杂度以及推理速度。采用mAP0.5以及mAP0.5:0.95来衡量模型的精度，其中mAP0.5代表IoU阈值为0.5时所有类别的平均精度。mAP0.5:0.95代表IoU阈值从0.5到0.95以0.05的步长并加权平均的所有类别的平均精度。表1给出了本发明提出的轻量化模型与其他轻量化模型的对比实验。

从表1中可以看出，我们的模型与基线(原YOLOv5s)相比，计算量降低了10％，参数量减少了3.5％，并且mAP0.5和mAP0.5:0.95分别提高2％和4.7％。与其他改进的轻量化模型相比，虽然参数量和计算量略高，但是检测精度远低于本文模型，不适于在移动端设备中使用，本发明模型在参数量、计算量以及模型的检测精度等方面达到了一个平衡，使得模型部署在边缘设备上，在进行实时处理(FPS>35)的同时，依然能够保持较强的鲁棒性和有效识别能力。

表1轻量化目标检测模型的对比试验结果

Model	GFLOPS	Params(M)	mAP0.5	mAP0.5:0.95	FPS
						YOLOv5s	16.0	7.06	0.789	0.527	128
YOLOv5s+MobileNetv3	6.4	3.59	0.703	0.429	103
						YOLOv5s+ShuffleNetv2	8.1	3.84	0.733	0.460	105
YOLOv5s+GhostNet	8.2	3.73	0.788	0.538	113
						YOLOv5s+GSConv+Slim-Neck	12.8	5.89	0.791	0.551	120
Ours	14.4	6.81	0.809	0.571	106

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，其特征在于，包括如下步骤：

步骤4:按照主干网络模块GFSPP-Backbone、颈部网络模块Ghost-Slim-Neck、检测头网络模块的顺序，将步骤2)、步骤3)以及检测头网络模块依次串联成为轻量化目标检测模型GFSPP-YOLO。

2.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，其特征在于，所述步骤1具体内容为：

3.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，其特征在于，所述步骤2中，主干网络模块GFSPP-Backbone共输出大、中、小三个尺度的图像特征，其网络结构主要由五个CBS模块，四个C3模块，步骤1)中的GFSPP结构和CBAM模块组成；

具体内容为：

4.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，其特征在于，所述步骤3的具体内容为：

5.根据权利要求1所述的一种基于分组快速空间金字塔池化的轻量化YOLO模型方法，其特征在于，所述步骤4的具体内容为：