CN115862066A

CN115862066A - 一种改进YOLOv5的轻量化社区场景下行人检测方法

Info

Publication number: CN115862066A
Application number: CN202211548178.0A
Authority: CN
Inventors: 宋冰; 时运; 侍洪波; 张天清; 许恒祥
Original assignee: Shanghai Shixiang Technology Co ltd; East China University of Science and Technology
Current assignee: Shanghai Shixiang Technology Co ltd; East China University of Science and Technology
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-03-28

Abstract

本发明涉及一种改进yolov5的轻量化社区场景下行人检测方法。采集社区场景下的行人图像并制作成数据集，将改进后的轻量化yolov5网络在训练集上训练出最佳模型，将测试集图片输入网络进行判断和预测，得到图像中行人的位置信息。改进的轻量化网络方法主要包含使用GhostConv和C3Ghost替换原backbone主干网络中的Conv和C3模块，去除了冗余的卷积操作，实现模型的轻量化；在特征提取最后一层嵌入CBAM通道注意力和空间注意力机制，增强网络对目标特征的感知，抑制背景等无用信息；使用SIoU损失函数，加快模型收敛速度。本发明在不损失模型检测效果的条件下，减少了模型参数量，降低了模型对硬件计算力的要求，使之可以部署在移动端设备上进行目标检测。

Description

一种改进YOLOv5的轻量化社区场景下行人检测方法

技术领域

本发明属于目标检测技术领域，特别涉及一种改进YOLOv5的轻量化社区场景下行人检测方法。

背景技术

近年来，随着GPU的快速发展和普及应用，人工智能技术得到飞速发展，以传统机器学习为基础的深度学习算法取得了突破性成果。基于深度学习的目标检测算法虽会占用较多计算资源，但是可以获得优秀的检测效果。目标检测算法分为One Stage方法和TwoStage方法，Two Stage方法将检测问题变为提取候选框和对候选框分类两个阶段，CNN、R-CNN、Faster R-CNN等算法的不断提出逐渐提升着检测效果，但是依旧不能满足目标检测任务对于实时性的要求。One Stage方法开创了目标检测的新纪元，2016年正式提出的YOLO(You Only Look Once)算法真正意义上实现了实时监测。在YOLO算法的基础之上，SSD、YOLO9000、YOLOv3、YOLOv4和YOLOv5相继被提出，算法精度不断提高，但伴随而来的是网络的体积不断增大。针对如何将深度学习算法部署到算力有限的移动端和嵌入式设备上的问题，本发明提出了一种改进YOLOv5的轻量化检测方法，该方法在不损失识别效果的基础之上，压缩模型，减少模型计算量，使得网络可以部署在低算力的移动设备上，实现在移动端的目标检测。

发明内容

为了克服上述方法的不足，本发明提出一种改进YOLOv5的轻量化检测方法，该方法可以有效降低模型参数量，降低模型对计算硬件平台的算力要求，同时又可以保证与原模型近乎相同的检测效果。

为了实现上述效果，本发明的技术方案如下：

一种改进YOLOv5的轻量化社区场景下行人检测方法，包括如下步骤：

步骤一：准备数据集。

步骤二：网络改进：YOLOv5主干网络主要使用四个CSP模块以及一个SPPF构成，深度由depth_multiple参数控制，网络较为复杂。针对于实时的检测速率不高的问题进行网络的轻量化改进；具体改进措施如下：

(1)使用Ghost卷积改进YOLOv5中的CSP(C3)模块和Conv(除了主干网络的第零层Conv降采样)为C3Ghost和GhostConv，并替换YOLOv5中的C3和Conv模块；

(2)在主干网络的最后一层输出添加注意力机制，使得网络注意力凝聚在主要特征上，提升网络识别能力；

(3)使用SIOU来作为损失函数，改进后的损失函数可以进一步降低训练数据的真实值与预测值之间的损失，从而提升模型鲁棒性。

步骤三：网络训练；在模型构建完成的基础之上，将数据集输入模型进行训练，具体方案如下：在INRIA行人检测数据集上进行网络模型的预训练，得到在该数据集上表现最好的模型，在此模型的基础之上，通过在LLVIP和社区场景下的图片组成的数据集上进行微调，得到最终的训练模型。

步骤四：模型检测；将待检测的图片或视频流输入到已经训练好的网络模型中实现行人检测。

在本发明一实施例中，步骤一中，数据集具有较为优质的图片以及图片中行人目标的标注信息，但由于INRIA数据集中有许多未标出的行人目标，故使用Label Img标注工具标注出图片中未标出的行人目标信息，Label Img是一款开源的图片标注工具；同时，对采集的社区场景下的图片进行行人目标锚定框标注；准备好YOLO网络需要的数据标注格式，进而将数据集分为训练、验证和测试集。

在本发明一实施例中，步骤二中，给定输入数据

其中c为输入通道数，h和w为输入数据的高度和宽度，输入数据通过任意卷积层生成n个特征映射的运算可以表述为Y＝X*f+b，其中*是卷积操作，b是偏置项，/>

是n个通道的输出特征映射，h'和w'分别是输出数据的高度和宽度，/>

是该层的卷积滤波器，k×k是卷积核的大小。在这个卷积过程中，所需的FLOPs(每秒浮点运算次数)可以计算为n*h'*w'*c*k*k，这数量级是十万级，甚至更高的，因为滤波器数量n和通道数c一般非常大(例如512或者256)。考虑到卷积计算成本开销大，并且有很多冗余运算，所以改变普通卷积为Ghost卷积。Ghost卷积的思想是减少卷积核，得到较少的特征图，然后将特征图做线性变换，从而得到更多的特征图。对于Y中的第i个特征y_i，引入线性变换Φ：/>

其中j表示第j次线性变换，y_ij表示第i个特征y_i经过第j次线性变换得到的Ghost特征图。

在本发明一实施例中，所述Ghost卷积操作可以引入YOLOv5中，利用Ghost卷积的特点将YOLOv5s中CSP(C3)模块全部改进为C3Ghost模块，将Conv模块替换为GhostConv模块，从而使网络轻量化，从而大大减少网络计算量。具体替换之处包括：将原网络的第1、3、5、7、10、14、18、21层的Conv替换为GhostConv，第2、4、6、8、13、17、20、23层的C3替换为C3Ghost。

在本发明一实施例中，在步骤二中，由于所述改进网络方法压缩了卷积操作，会导致检测精度下降，故引入CBMA注意力机制来增强网络对主要特征图的关注，从而提升网络识别能力。CBMA结合了特征通道和特征空间两个维度的注意力机制，通道注意力和空间注意力定义分别如下：

式中，M_C(F)表示生成的通道注意力映射，F表示输入特征，

和/>

分别表示使用平均池化和最大池化操作聚合特征图的空间信息得到的平均池化特征和最大池化特征，σ表示sigmoid函数，W₁、W₀是多层感知器(MLP)生成的两个权值；M_S(F)表示生成的空间注意力映射，f^7×7表示卷积核为7×7的卷积操作；

对输入特征的空间维数进行压缩以有效得到通道注意力，普遍采用的是平均池化的方法；另外，通过最大池化方法对对象特征的不同感知推算出更加精密的通道注意，两者结合可以大大提高网络的表示能力。与通道注意力不同的是，空间注意更加关注重要信息的空间位置，与通道注意力互为补充。为了计算空间注意力，首先沿通道轴使用平均池化和最大池化操作，并将它们连接起来，使用一个卷积层来生成一个空间特征图。

在本发明一实施例中，在步骤二中，所述损失函数采用SIoU，SIoU损失函数由4个cost函数组成，分别是Angle cost、Distance cost、Shape cost和IoU cost；SIoU新添加的角度感知LF组件可以最大限度的减少与距离相关变量的数量，这加速了训练收敛过程并且能够取得较好的收敛效果；SIoU的定义如下：

其中，L_box是回归损失函数，Λ是LF组件，△是距离损失，Ω是形状损失，ρ_t是衡量距离损失和角度损失的权重，ω_t表示预测框和标签框的相似度；

在本发明一实施例中，步骤三中，在INRIA数据集上训练得到最佳预训练模型权重，继续在LLVIP和社区场景图片组成的数据集上继续训练，经过不断地图片输入、特征提取和特征聚合之后，网络的识别能力达到最优。

在本发明一实施例中，步骤四中，输入图片或视频流进入网络，网络由detect层检测三个尺度的信息，分别对应大中小目标尺度，输出识别出来的图片或视频流，利用非极大值抑制(NMS)去除冗余的检测框，输出最终检测结果，包含边界框坐标、置信度和类别概率。

本发明对深度学习YOLOv5目标检测网络进行轻量化处理，可以将其部署至移动设备中，改进后的网络对硬件条件的要求较之改进前的网络有所降低，但是并没有导致检测精度的降低。

本发明基于深度学习神经网络，针对网络体积太大无法部署至移动设备上的问题，提出以Ghost卷积模块替换普通卷积操作，大大减少模型的计算量；在主干网络的最后一层引入CBMA注意力机制，增强网络学习能力，提高目标检测效果；改进损失函数，加快网络收敛的同时提高识别精度。

附图说明

图1为本发明的流程图

图2为Ghost卷积原理图

图3为本发明改进后的Ghost卷积模块的结构图

图4为本发明改进YOLOv5的主干网络结构图

图5为本发明改进YOLOv5的整体网络结构图

图6为本发明一实例的检测效果图

具体实施方式

下面将结合本发明实例中的附图和一具体实施例来对本发明的技术方案作进一步的说明。所描述的实施例仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示，本发明具体分为如下四个步骤：

步骤一：准备数据集；针对INRIA行人检测数据集，优选地来自LLVIP数据集下可见光图像中光线条件良好和昏暗条件下的图片，以及特定社区场景下的图片。

步骤二：网络改进；YOLOv5主干网络主要由四个CSP模块以及一个SPPF构成，深度由depth_multiple参数控制，网络较为复杂。针对实时检测速率不高的问题进行网络的轻量化改进；具体改进措施如下：

(3)使用SIOU作为损失函数，改进后的损失函数可以进一步降低训练数据的真实值与预测值之间的损失，从而提升模型鲁棒性。

步骤三：网络训练；在模型构建完成的基础之上，将数据集输入模型进行训练，具体方案如下：在INRIA行人检测数据集上进行网络模型的预训练，得到在该数据集上表现最好的模型，在此模型的基础上，通过在LLVIP和社区场景下的图片组成的数据集上进行微调，得到最终的训练模型。

在步骤一中，公开数据集具有较为优质的图片以及图片中行人目标的标注信息。考虑到INRIA数据集中有许多未标出的行人目标，使用Label Img标注工具标注出图片中未标出的行人目标信息，Label Img是一款开源的图片标注工具；同时，对采集的社区场景下的图片进行行人目标锚定框标注；准备好yolo网络需要的数据标注格式，进而将数据集分为训练、验证和测试集。

在步骤二中，对网络的具体改进包括如下步骤：

(1)如图2和图3所示，Ghost卷积模块主要是由两部分组成，结合本发明内容中Ghost特征图的设计思路，避免复杂而冗余的卷积运算，Ghost卷积模块的具体实现方式是：首先对输入特征图做1×1卷积操作，得到的特征图的通道数是整个GhostConv模块输出特征图通道数的一半，其次将1×1卷积操作得到的卷积结果图进行卷积核为5的卷积操作该操作类似于将输入特征图进行线性变换得到尺寸相同的输出特征图，此操作得到的特征图的通道数也是整个GhostConv模块输出特征图通道数的一半，将两张特征图进行concat通道拼接操作，得到GhostConv模块操作最终的特征图。C3Ghost的结构采用了三个GhostConv模块和两个DWConv模块。DWConv是深度可分离卷积中的逐通道卷积，DepthwiseConvolution的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的feature map通道数和输入的通道数完全一样。相比常规的卷积操作，DWConv的参数数量和运算成本都比较低，是轻量化模型中常使用的特征提取方法。在C3Ghost模块中，将输入特征图分成两路，一路按序经过GhostConv降低通道数、DWConv特征提取和GhostConv升高通道数，一路按序经过DWConv特征提取和GhostConv升高通道数，最后将两路特征图进行add特征拼接操作，得到C3Ghost模块操作最终的特征图。

(2)如图4所示，改进后的YOLOv5的backbone主干网络基本将原先的Conv卷积模块替换为了GhostConv卷积模块，第零层采用Conv的目的是尽可能的提取多的基于输入图片的特征，如果将该层替换为GhostConv卷积模块，则会导致backbone主干网络不能提取尽可能多的特征，最终导致模型精度出现大幅度缺损。在该图中，方框内上一行表示特征图经过方框中的模块处理后得到的新的特征图的尺度信息，方框内下一行表示对特征图的操作。首先对于训练集中输入网络的图片进行resize操作统一变为30×640×640，之后经过不断地降采样和改变通道数来进行特征提取，特别地，第4、6、11层的特征图尺度将用于后续head层的特征拼接和融合。

(3)如图4所示，在堆叠了若干个模块之后，在YOLOv5的backbone主干网络的第9层引入了CBAM注意力机制，将特征图送入通道注意力和空间注意力机制模块中学习，在增加少量参数量和计算量的前提下，使网络的注意力集中在特征图中的检测目标位置上，同时抑制背景等无关信息，提升网络检测效果。CBAM主要包括通道注意力和空间注意力两个模块，输入特征图F首先经过通道注意力模块得到通道注意力特征，将得到的通道注意力特征和输入特征图进行通道相乘得到F'，将F'作为空间注意力的输入得到空间注意力特征，将得到的空间注意力特征和F'进行通道相乘得到F”，将F”和输入特征图F进行add拼接，如此便得到经过CBMA注意力机制的特征图。

(4)如图5所示，在改进后的网络整体结构图中，backbone部分主要负责特征提取，head部分主要负责特征融合，detect部分对经过多尺度聚合得到的特征图进行目标位置和类别的预测。head部分输出三个不同尺度的特征向量经过1×1卷积进行通道调整后分别是255×20×20、255×40×40和255×80×80，其中80×80、40×40和20×20表示特征图的长和宽，255是由3×(4+1+nc)得到的，3表示该尺度下的预测框数量，4表示预测框的四个点坐标，1表示该预测框3所预测结果的置信度，nc表示数据的类别数量。利用损失函数进行训练，其中，损失函数采用SIoU。SIoU损失函数由4个cost函数组成，分别是Angle cost、Distance cost、Shape cost和IoU cost；SIoU新添加的角度感知LF组件可以最大限度的减少与距离相关变量的数量，这加速了训练收敛过程并且能够取得较好的收敛效果；SIoU的定义如下：

其中，L_box是回归损失函数，Λ是LF组件，△是距离损失，Ω是形状损失，ρ_t是衡量距离损失和角度损失的权重，ω_t表示预测框和标签框的相似度。

SIoU是一种边界框回归损失函数，可以极大地改善目标检测算法的训练和推理。通过在损失函数成本中引入方向性，与YOLOv5原网络中的损失函数CIoU相比，引入SIoU后模型在训练阶段实现了更快的收敛，并且在推理方面具有更好的性能。

改进后的网络训练部分超参数如下表1

表1

lr0	0.01
		lrf	0.2
momentum	0.937
		weight_decay	0.0005
warmup_epochs	3
		warmup_momentum	0.8
warm_bias_lr	0.1
		box	0.05
cls	0.5
		cls_pw	1.0
obj	1.0
		obj_pw	1.0
iou_t	0.2
		anchor_t	4.0
mosaic	1.0

对于本发明提出的轻量化行人检测模型，采用以下指标作为评估指标：平均精度(AP)、参数量(params)、计算量(GFLOPs)、模型大小(size)和模型部署GPU(RTX 3060)上的检测速度(FPS)。

与原版的YOLOv5模型对比结果如下表2

表2

由上表2可见，改进后的模型较之原始模型在参数量、计算量和模型大小的参数上都显著降低近50％，但是检测精度达到了和原模型相同的效果，该实例达到本发明需要解决的问题，即在保证检测效果的前提下，将网络轻量化，减少参数量和计算量，降低网络对硬件设备的计算能力的要求，使之可以部署在移动设备上。

如图6所示，该图片显示了网络对输入图片的识别结果。

以上是本发明的较佳实施案例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，包括如下步骤：离线建模阶段的实施过程如下所示：

步骤一：准备数据集；

步骤二：网络改进；YOLOv5主干网络主要使用四个CSP模块以及一个SPPF构成，深度由depth_multiple参数控制，网络较为复杂，针对于实时的检测速率不高的问题进行网络的轻量化改进；具体改进措施如下：

步骤三：网络训练；在模型构建完成的基础之上，将数据集输入模型进行训练，得到最终的训练模型。

2.根据权利要求1所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，步骤二中，给定输入数据

是该层的卷积滤波器，k×k卷积核的大小。在这个卷积过程中，所需的FLOPs(每秒浮点运算次数)可以计算为n*h'*w'*c*k*k，这数量级是十万级，甚至更高的，因为滤波器数量n和通道数c一般非常大(例如512或者256)。考虑到卷积计算成本开销大，并且有很多冗余运算，所以改变普通卷积为Ghost卷积。Ghost卷积减少卷积核，得到较少的特征图，然后将特征图做线性变换，从而得到更多的特征图。对于Y中的第i个特征y_i，引入线性变换Φ：/>

3.根据权利要求1或2所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，所述Ghost卷积操作可以引入YOLOv5中，利用Ghost卷积的特点将YOLOv5s中CSP(C3)模块全部改进为C3Ghost模块，将Conv模块替换为GhostConv模块，从而使网络轻量化，大大减少了网络的计算量。具体替换之处包括：将原网络的第1、3、5、7、10、14、18、21层的Conv替换为GhostConv，第2、4、6、8、13、17、20、23层的C3替换为C3Ghost。

4.根据权利要求1所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，步骤一中，公开数据集具有较为优质的图片以及图片中行人目标的标注信息，但由于INRIA数据集中有许多未标出的行人目标，故使用Label Img标注工具标注出图片中未标出的行人目标信息，Label Img是一款开源的图片标注工具；同时，对采集的社区场景下的图片进行行人目标锚定框标注；准备好YOLO网络需要的数据标注格式，最后将数据集分为训练、验证和测试集。

5.根据权利要求1所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，由于所述改进网络方法压缩了卷积操作，所以会导致检测精度下降，故引入CBMA注意力机制来增强网络对主要特征图的关注，从而提升网络识别能力。CBMA结合了特征通道和特征空间两个维度的注意力机制，通道注意力和空间注意力定义分别如下：

式中，M_C(F)表示生成的通道注意力映射，F表示输入特征，

和/>

对输入特征的空间维数进行压缩，以有效地得到通道注意力，目前普遍采用的是平均池化的方法；另外，通过最大池化方法对对象特征的不同感知推算出更加精密的通道注意，经过试验证实，两者结合可以大大提高网络的表示能力；与通道注意不同的是，空间注意更加关注重要信息的空间位置，与通道注意互为补充。为了计算空间注意力，首先沿通道轴使用平均池化和最大池化操作，并将它们连接起来，使用一个卷积层来生成一个空间特征图。

6.根据权利要求1所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，所述损失函数采用SIoU，SIoU损失函数由4个cost函数组成，分别是Angle cost、Distance cost、Shape cost和IoU cost；SIoU新添加的角度感知LF组件可以最大限度的减少与距离相关变量的数量，这加速了训练收敛过程并且能够取得较好的收敛效果；SIoU的定义如下：

7.根据权利要求1所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，步骤三中，在INRIA数据集上训练得到最佳预训练模型权重，继续在LLVIP和社区场景图片组成的数据集上继续训练，经过不断地图片输入、特征提取和特征聚合之后，网络的识别能力达到最优。

8.根据权利要求1所述一种改进YOLOv5的轻量化社区场景下行人检测方法，其特征在于，步骤四中，输入图片或视频流进入网络，网络由detect层检测三个尺度的信息，分别对应大中小目标尺度，输出识别出来的图片或视频流，利用非极大值抑制(NMS)去除冗余的检测框，输出最终检测结果包含边界框坐标，置信度和类别概率。