CN116071701A

CN116071701A - 基于注意力机制和GSConv的YOLOv5行人检测方法

Info

Publication number: CN116071701A
Application number: CN202310041201.5A
Authority: CN
Inventors: 高英; 吴玉虹
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-05

Abstract

本发明公开了基于注意力机制和GSConv的YOLOv5行人检测方法，采用YOLOv5网络，YOLOv5主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、检测端(Head)四个部分组成，Input为图像预处理阶段，Backbone为提取特征阶段，Neck为特征融合阶段，Head对图像特征进行预测，生成边界框和并预测类别；在YOLOv5中依次引入CA注意力机制、GSConv模块和CoT模块。本发明将Backbone网络中的C3模块全部替换为改进的C3CA2模块；Neck网络中的所有标准卷积Conv替换为GSConv，能够有效减轻Neck网络的复杂度；Neck网络最后一层的C3模块替换为CoT3模块，并将CA模块加入Neck网络23层后，增强网络学习特征的表达能力。

Description

基于注意力机制和GSConv的YOLOv5行人检测方法

技术领域

本发明涉及目标检测技术领域，特别涉及基于注意力机制和GSConv的YOLOv5行人检测方法。

背景技术

行人检测可定义为判断输入图片或视频帧是否包含行人，如果有将其检测出来，一般用矩形框做出标记。行人检测的性能受到光照变化，遮挡，背景复杂以及行人姿态，尺度多变等因素的影响，一直是计算机视觉研究中的热点和难点。现如今，被广泛应用在智能交通系统、医疗、自动驾驶技术等生活中的各个领域。

传统的行人检测方法是利用手工提取特征并通过分类器进行训练，最经典的传统行人检测算法为，2005年Da l a l等提出的提取方向梯度直方图(H i stogram of or iented grad i ent，HOG)特征送入支持向量机(support vector mach i nes,SVM)进行分类的方法。但该类方法太过依赖人为提取特征，计算量巨大，并且会产生冗余的标记窗口，因此检测精度和速度都无法满足要求。

基于深度卷积神经网络的目标检测算法主要分为单阶段和双阶段两大类。双阶段算法是基于候选框的方法，代表算法主要R-CNN、Fast R-CNN、Faster R-CNN，该类算法精度较高，但检测速度较慢。单阶段算法是基于回归的方法，不再提取候选区域，代表算法主要有SSD(S i ng l e Shot Mu l t i Box Detector)、YOLO(You On l y Look Once)、YOLOv2、YOLOv3和YOLOv4等。该类算法检测速度快，但检测精度较低。2020年U l tra l yti cs团队汇集了很多深度学习目标检测框架的优点提出了YOLOv5，这种设计使得模型能够轻量化，但是又不会降低模型的准确性。为进一步提高行人检测准确率，轻量化模型，本申请提出一种基于注意力机制和GSConv的YOLOv5行人检测方法。

发明内容

本发明的目的是提供基于注意力机制和GSConv的YOLOv5行人检测方法，在在YOLOv5中依次引入CA注意力机制、GSConv模块和CoT模块，解决进一步提高行人检测准确率，轻量化模型的问题。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种基于注意力机制和GSConv的YOLOv5行人检测方法，采用YOLOv5网络，YOLOv5主要由输入端(I nput)、主干网络(Backbone)、颈部网络(Neck)、检测端(Head)四个部分组成，I nput为图像预处理阶段，Backbone为提取特征阶段，Neck为特征融合阶段，Head对图像特征进行预测，生成边界框和并预测类别；

在YOLOv5中依次引入CA注意力机制、GSConv模块和CoT模块。

本发明的进一步设置为：将Backbone中的C3模块替换为改进的C3CA2模块，并将CA注意力机制加入Neck网络23层后，将Neck中的Conv替换为改进的GSConv，将CoT模块融合C3模块。

本发明的进一步设置为：CA注意力机制的实现过程为将输入特征图分为宽度(W)和高度(H)两个方向沿着X轴和Y轴进行全局平均池化(Avg Poo l)，分别获得在宽度和高度两个方向的特征图z^h和z^w，接着将这两个特征图拼接(Concat)在一起，之后将它们送入Conv2d的卷积模块，将其维度降低为原来的C/r，然后将经过批量归一化处理的特征图F₁送入Sigmoid激活函数得到形如1×(W+H)×C/r的特征图f，接着将特征图f按照原来的H和W进行卷积核为Conv2d的卷积，分别得到通特征图F_h和F_w，经过Sigmoid激活函数后分别得到特征图在H和W上的注意力权重g^h和在宽度方向的注意力权重g^w，最后在原始特征图上通过乘法加权计算，将得到最终在宽度和高度方向上带有注意力权重的特征图。

本发明的进一步设置为：将CA注意力机制融合C3模块，其中C3CA1模块是在C3模块末尾添加CA模块，去除部分卷积层，改进为C3CA2结构。

本发明的进一步设置为：GSConv将普通卷积层Conv和深度可分离卷积层DSC结合，通过通道随机混合操作，即“重塑-转置-重塑”操作，使用Shuff l e将Conv生成的信息渗透到DSC生成的信息的每个部分。

本发明的进一步设置为：DSC操作将一个完整的卷积运算分解为两步进行，分别为3×3逐通道卷积与1×1逐点卷积用来提取特征图。

本发明的进一步设置为：CoT模块将输入图像经过卷积核进行卷积操作，获取图像临近局部信息，然后，将局部信息与原信息进行叠加(Concat)操作，经过2个卷积，再进行Softmax操作，与Va l ue Map进行Se l f-Attent ion计算，获得图像全局信息，最后，将所得的临近信息与全局信息进行相加融合，获得输出并将CoT模块融合C3模块。

综上所述，本发明具有以下有益效果：

本发明结合CA注意力模块改进主干网络的C3模块，增强模型对行人目标的精确定位能力；引入了一种新卷积层GSConv替换颈部网络的卷积层(Conv)，来减轻模型的复杂度并保持准确性；引入改进的自注意力模块CoT，进一步提高网络模型的特征表达能力。使用INRIA数据集进行训练和测试，实验结果表明，改进后的YOLOv5s-CG模型mAP@0.5达到了97％，相比于原始模型提高了1.9％，mAP@0.5:0.95提高了2.1％，而模型参数量降低了10.5％，模型体积降低了13％，GFLOPS减少7％，提高了行人检测精度的同时模型更加轻量化，更易于实际应用和工程部署。

附图说明

图1是本发明中的YOLOv5网络结构图；

图2是本发明中的CA注意力机制网络结构图；

图3是本发明中的改进的C3模块；

图4是本发明中的GSConv结构图；

图5是本发明中的CoT B l ock结构图；

图6是本发明中的CoT3结构图；

图7是本发明中的YOLOv5s-CG网络结构图；

图8是本发明中的检测结果对比图。

具体实施方式

实施例，选用YOLOv5-6.0版本的网络，按照网络的深度和宽度不同，可分为n、s、m、l、x五个版本。选用YOLOv5s既能满足模型轻量化设计又能保证检测精度。YOLOv5主要由输入端(I nput)、主干网络(Backbone)、颈部网络(Neck)、检测端(Head)四个部分组成。其结构如图1所示。

I nput为图像预处理阶段，将输入图像自适应缩放到网络指定的输入大小，并进行归一化等操作。训练网络阶段，使用了自适应计算锚框和马赛克(Mosa i c)数据增强等方法。

Backbone为提取特征阶段。Conv模块包含二维卷积(Conv2d)、批量归一化(BatchNorma l i zat i on)和激活函数(S i LU)三个部分；C3模块包含了3个Conv以及多个Bottl eneck模块；SPPF模块采用多个小尺寸的池化核级联代替空间金字塔池化SPP(Spat i al Pyrami dPoo l i ng)模块中单个大尺寸池化核。

Neck为特征融合阶段。采用了FPN+PAN的结构。C3_F模块相比于C3模块，去掉了残差结构，使用原始的Conv。

Head对图像特征进行预测，生成边界框和并预测类别。对Neck中得到的不同尺度的特征图分别通过1×1卷积将通道数扩展输出3种不同尺寸的特征图，最后使用非极大值抑制算法(NMS)对生成的大量候选框进行后处理，去除冗余的候选框，以加快目标检测的效率。

1、引入CA注意力机制：

注意力机制原理是通过权重大小控制检测图片信息的侧重点，有效的提高了模型的性能，并且一定程度上降低了计算量。目前主流注意力机制主要有：SE(Squeeze Exc itat i on Networks)、CBAM(Convo l ut i ona l B l ock Attent i on Modu l e)、CA(Coord i nate Attent i on)等。其中SE注意力只考虑通过建模通道关系来重新衡量每个通道的重要性，而忽略了位置信息的问题进行改进。CBAM作为一种空间与通道相结合的注意力机制模块，但只能感受到捕获区域局部特征的相关性。CA模块沿着水平和垂直的空间方向编码特征图的通道信息，既能获取到空间方向的长期依赖关系，还能保存精确的位置信息，同时扩大网络的全局感受野。CA注意力机制的实现过程如图2所示。

图2中，先将输入特征图分为宽度(W)和高度(H)两个方向沿着X轴和Y轴进行全局平均池化(Avg Poo l)，分别获得在宽度和高度两个方向的特征图z^h和z^w，接着将这两个特征图拼接(Concat)在一起，之后将它们送入Conv2d的卷积模块，将其维度降低为原来的C/r，然后将经过批量归一化处理的特征图F₁送入Si gmoid激活函数得到形如1×(W+H)×C/r的特征图f，接着将特征图f按照原来的H和W进行卷积核为Conv2d的卷积，分别得到通特征图F_h和F_w，经过S igmo i d激活函数后分别得到特征图在H和W上的注意力权重g^h和在宽度方向的注意力权重g^w，最后在原始特征图上通过乘法加权计算，将得到最终在宽度和高度方向上带有注意力权重的特征图，进而加强了特征图的表示能力。

将CA注意力机制模块添加至YOLOv5主干网络中，可以加强特征提取能力。为进一步提高增强主干网络感受野，将CA注意力机制融合C3模块。两种融合方式，如图3所示。

其中C3CA1模块是在C3模块末尾添加CA模块，精确度有所提高；为减少参数量，去除部分卷积层，改进为C3CA2结构，精度没有降低同时减少了参数量。本申请将Backbone网络中的C3模块全部替换为改进的C3CA2模块，并将CA注意力机制加入Neck网络23层后。

2、引入GSConv模块：

为满足模型轻量化设计，减少计算成本，许多模型使用深度可分离卷积层(Depth-wi se Separab l e Convo l ut i on，DSC)操作来减少参数和计算量，但大量深度可分离卷积层构建的轻量级模型无法达到足够的准确性。本申请引入了一种新卷积GSConv替换模型普通卷积层，来减轻模型的复杂度并保持准确性。GSConv结构如图4所示。

在图4中，“Conv”为普通卷积层，结构与图1中Conv结构相同；“DSC”操作将一个完整的卷积运算分解为两步进行，分别为3×3逐通道卷积与1×1逐点卷积用来提取特征图，其结构如图5所示。GSConv将普通卷积层Conv和深度可分离卷积层DSC结合，通过通道随机混合操作，即“重塑-转置-重塑”操作。使用Shuff l e将Conv生成的信息渗透到DSC生成的信息的每个部分。

模型的所有阶段都使用GSConv，模型的网络层会更深，极大增加了推理时间。所以本申请仅在Neck网络使用GSConv。

3、引入CoT模块：

传统的自注意力机制(Se l f-Attent i on)可以很好地触发不同空间位置的特征交互。然而，所有的Query-Key关系都是通过独立的，没有探索两者之间的丰富上下文，这极大的限制了视觉表示学习。本申请引入了CoT B l ock[21]，结构如图5所示，这个结构是基于Se l f-Attent i on的Transformer结构，这种结构充分利用了key的上下文信息，以指导动态注意力矩阵的学习，从而增强了视觉表示的能力。

图5中，输入图像经过卷积核进行卷积操作，获取图像临近局部信息，然后，将局部信息与原信息进行叠加(Concat)操作，经过2个卷积，再进行Softmax操作，与Va l ue Map进行Se l f-Attent i on计算，获得图像全局信息，最后，将所得的临近信息与全局信息进行相加融合，获得输出Y。将CoT模块融合C3模块，如图6所示。

本申请将Backbone网络中的C3模块全部替换为改进的C3CA2模块；Neck网络中的所有标准卷积Conv替换为GSConv，能够有效减轻Neck网络的复杂度；Neck网络最后一层的C3模块替换为CoT3模块，并将CA模块加入Neck网络23层后，增强网络学习特征的表达能力。改进后网络结构如图7所示。

实验对比与分析

1、实验环境与数据集

本文实验的均在以下的环境开展：GPU为NVI D IA GeForce RTX3090，40GB显存，ubuntu18.04操作系统，Pytorch1.7深度学习框架，编程语言为python3.7，GPU加速软件为CUDA11.0，在网络模型训练过程使用的优化器为SGD。实验超参数设置：输入图像尺寸大小为640×640，训练时批量处理大小batch-s i ze为32，总共训练批次300个epoch，优化器选择为SGD，初始化学习率为0.01，学习率动量为0.937。

本文所有实验在I NRIA公开数据集上进行训练和测试，I NRIA数据集是目前使用最多的行人数据集，数据集中的行人图像分辨率较大，行人目标与背景的区分相对明显，比较容易检测。图片中的行人姿态、背景和光照条件等丰富多变，存在单个行人以及拥挤遮挡人群的情况，适合用于行人检测。训练集中有614张，测试集288张图像。数据集训练样本较少，YOLOv5中使用数据增强技术，充分利用计算机来生成数据，增加数据量，如采用缩放、平移、旋转、色彩变换、Mosa i c等方法增强数据。

2、实验评估指标

本研究使用目标检测通用评估指标来分析改进的YOLOv5s模型的性能，分别为精确率(Prec i s i on，P)、召回率(Reca l l，R)、平均精确率AP(Average Prec i s i on)、模型大小(MB)、参数量(Params)、计算量(GFLOPS)、以及模型每秒检测的图像数量(FPS)几项性能指标评判算法的性能。P、R和AP分别表示为：

其中，TP(True Pos it i ves)表示IoU大于设定阈值的检测框数量；FP(Fa l sePos i t i ves)表示IoU小于等于设定的阈值的检测框；FN(Fa l se Negat i ve)表示没有检测到的真实框的数目。

mAP(Mean Average Prec i s i on)平均精度均值，即多个类别的AP的平均值，本文只讨论一个类别，所以mAP值等于AP值。mAP@0.5代表在IoU阈值为0.5时的平均AP，mAP@0.5:0.95代表在IoU阈值为从0.5到0.95，步长为0.05时各个mAP的平均值。

3、实验结果与分析

3.1、添加注意力机制实验分析

为了验证主流的注意力机制模块哪个效果好，把SE、CBAM、CA三种注意力机制分别添加一个注意力模块进主干网络倒数第二层，在I NRIA测试集上进行对比实验。实验结果由表1所示，可以看出CA模块效果更好接着为进一步提高其性能，将CA注意力机制融合C3模块，根据图3两种融合方法，将主干网络中所以C3模块替换为改进的融合模块。更改的C3CA1和C3CA2模块mAP值都有所提升，其中C3CA2的mAP@0.5提升1.8％，mAP@0.5:0.95提高了1.2％，体积，参数量和计算量都有所下降。采用C3CA2方法改进主干网络模型整体性能得到了显著的提升。

表1各种注意力机制性能对比

3.2、消融实验

在本文提出的四种改进方法分别为C3CA2，GSConv，CoT3和CA，为了验证四种不同改进方法的有效性，以原始YOLOv5s算法为基础，分别增加一种，两种，三种改进方法，做了9组实验来验证各个方法改进的效果和融合效果。以四种方法融合YOLOv5s为最终改进模型。对比实验由表2所示。

表2消融实验性能对比

“√”表示引入该方法，从表2可以看出，在YOLOv5s模型的基础上，分别引入四种方法其检测精度都有均有不同程度的提升，其中引入C3CA2方法mAP提升效果最好，且参数量、模型体积和计算量都有所降低；GSConv方法mAP提升次之，但参数量、模型体积降低最多；引入单个CoT3和CA模块mAP值提高较小，但不引入这两个模块达不到预期效果，因此本文采用四种方法对YOLOv5s进行改进，实现模型轻量化和精度的提升，最终改进的模型CG-YOLOv5s相较于原始YOLOv5s模型，检测精度mAP@0.5提高了1.9％,mAP@0.5:0.95提高了2.1％，而参数量降低了10.5％，模型体积降低了13％，GFLOPS减少7％，FPS有所降低但依旧满足算法的实时性要求。

3.3、实验对比

图8是改进算法CG-YOLOv5s与YOLOv5s检测结果对比。左侧图片为原模型检测结果，右侧图片为改进后模型检测结果。通过对比可以看出，改进后模型的漏检率明显少于前者，且预测置信度也高于改进前，改后的检测效果明显提升，证明了改进后模型的优越性。

4、实验结论

对实际场景下行人检测方法计算量大、检测精度低的问题，本文通过C3模块融合CA注意力模块，引入轻量化卷积层GSConv，融合自注意力模块CoT等方法的集成，来优化YOLOv5s算法。实验结果表明，改进后的CG-YOLOv5模型相比于原始模型mAP@0.5提高了1.9％，mAP@0.5:0.95提高了2.1％，而模型参数量降低了10.5％，模型体积降低了13％，GFLOPS减少7％，有效提升了行人检测的精度，对于实际场景下的行人有较好的检测效果和较强的鲁棒性；同时模型更加轻量化，高效，体量小的检测算法能够更好地应用于一些小型智能设备或无人机之类的使用场景中,研究具有一定的现实意义。改进算法对密集行人检测仍有提升空间，下一步将对密集行人的检测进行研究。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：采用YOLOv5网络，YOLOv5主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、检测端(Head)四个部分组成，Input为图像预处理阶段，Backbone为提取特征阶段，Neck为特征融合阶段，Head对图像特征进行预测，生成边界框和并预测类别；

在YOLOv5中依次引入CA注意力机制、GSConv模块和CoT模块。

2.根据权利要求1所述的基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：将Backbone中的C3模块替换为改进的C3CA2模块，并将CA注意力机制加入Neck网络23层后，将Neck中的Conv替换为改进的GSConv，将CoT模块融合C3模块形成CoT3模块，再将Neck网络最后一层的C3模块替换为CoT3模块。

3.根据权利要求2所述的基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：CA注意力机制的实现过程为将输入特征图分为宽度(W)和高度(H)两个方向沿着X轴和Y轴进行全局平均池化(AvgPool)，分别获得在宽度和高度两个方向的特征图z^h和z^w，接着将这两个特征图拼接(Concat)在一起，之后将它们送入Conv2d的卷积模块，将其维度降低为原来的C/r，然后将经过批量归一化处理的特征图F₁送入Sigmoid激活函数得到形如1×(W+H)×C/r的特征图f，接着将特征图f按照原来的H和W进行卷积核为Conv2d的卷积，分别得到通特征图F_h和F_w，经过Sigmoid激活函数后分别得到特征图在H和W上的注意力权重g^h和在宽度方向的注意力权重g^w，最后在原始特征图上通过乘法加权计算，将得到最终在宽度和高度方向上带有注意力权重的特征图。

4.根据权利要求3所述的基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：将CA注意力机制融合C3模块，其中C3CA1模块是在C3模块末尾添加CA模块，去除部分卷积层，改进为C3CA2结构。

5.根据权利要求2所述的基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：GSConv将普通卷积层Conv和深度可分离卷积层DSC结合，通过通道随机混合操作，即“重塑-转置-重塑”操作，使用Shuffle将Conv生成的信息渗透到DSC生成的信息的每个部分。

6.根据权利要求5所述的基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：DSC操作将一个完整的卷积运算分解为两步进行，分别为3×3逐通道卷积与1×1逐点卷积用来提取特征图。

7.根据权利要求2所述的基于注意力机制和GSConv的YOLOv5行人检测方法，其特征在于：CoT模块将输入图像经过卷积核进行卷积操作，获取图像临近局部信息，然后，将局部信息与原信息进行叠加(Concat)操作，经过2个卷积，再进行Softmax操作，与ValueMap进行Self-Attention计算，获得图像全局信息，最后，将所得的临近信息与全局信息进行相加融合，获得输出并将CoT模块融合C3模块。