CN116740532A

CN116740532A - 一种基于yolov5算法的轻量化行人检测方法

Info

Publication number: CN116740532A
Application number: CN202310719014.8A
Authority: CN
Inventors: 李明晶
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-12

Abstract

本发明公开了一种基于yolov5算法的轻量化行人检测方法，具体包括以下步骤：S1、GhostModule对其中的一个特征图进行简单的线性运算，从而在使用更少参数前提下生成更多相似特征图，相似的特征图认为是彼此的Ghost；S2、轻量级网络设计可以缓解现阶段的高计算成本，这个目的主要是通过使用深度可分离卷积操作来减少参数量和浮点操作，效果很明显，但是，深度可分离卷积的缺点也很明显，输入图像的通道信息在计算过程中是分离的，本发明涉及智能交通技术领域。该基于yolov5算法的轻量化行人检测方法，检测精准度提升1.7％。实验结果表明，该方法在有限的硬件条件下，应对行人密集场景能够有效检测行人，适用于行人的在线实时检测。

Description

一种基于yolov5算法的轻量化行人检测方法

技术领域

本发明涉及智能交通技术领域，具体为一种基于yolov5算法的轻量化行人检测方法。

背景技术

行人检测对于自动驾驶和智能交通至关重要，尤其是在行人和交通安全方面。YOLOv5算法用于视频中的行人检测，但由于内存和计算资源的限制，很难在移动设备和嵌入式设备上部署。

通常，基于卷积神经网络(CNN)的检测器由三部分组成，backbone、neck、head。backbone用于提取输入图像的特征，用于更好地分配和合并特征到head和neck。neck一般是负责加强特征，然后head负责预测。卷积操作有着较大的参数量和计算量，为了在行人密集场景下保持一定准确性和鲁棒性的前提下提高算法的运行速度，解决传统方法下内存和计算资源的限制，本发明提出一种基于yolov5算法的轻量化行人检测方法。

发明内容

针对现有技术的不足，本发明提供了一种基于yolov5算法的轻量化行人检测方法，解决了yolov5算法的轻量化行人检测方法效果不是很好的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于yolov5算法的轻量化行人检测方法，具体包括以下步骤：

S1、GhostModule对其中的一个特征图进行简单的线性运算，从而在使用更少参数前提下生成更多相似特征图，相似的特征图认为是彼此的Ghost；

S2、轻量级网络设计可以缓解现阶段的高计算成本，这个目的主要是通过使用深度可分离卷积操作来减少参数量和浮点操作，效果很明显，但是，深度可分离卷积的缺点也很明显，输入图像的通道信息在计算过程中是分离的，这种缺陷导致深度可分离卷积的特征提取和融合能力比标准卷积低得多；

S3、GhostNet使用“减半”标准卷积操作来保留通道之间的交互信息，但是，1*1的密集卷积反而占用了更多的计算资源，使用“channel shuffle”的效果仍然没有触及标准卷积的结果，而GhostNet或多或少又回到了标准卷积的路上，影响可能会来从很多方面，许多轻量级模型使用类似的思维来设计基本架构，从深度神经网络的开始到结束只使用深度可分离卷积，但深度可分离卷积的缺陷直接在主干中放大，无论是用于图像分类还是检测，我们相信标准卷积和深度可分离卷积可以合作，标准卷积、深度可分离卷积和shuffle的混合卷积，命名为GSConv。

优选的，所述S1中，与普通卷积相比，GhostModule使用更少量的卷积运算，FLOPs远低于普通卷积，GhostModule通过深度可分离卷积从生成的特征图中变换出冗余特征，具有与普通卷积一样强的特征提取能力。

优选的，所述S1中，YOLO使用多层卷积进行图像检测，其中3×3的卷积占据了计算量的主要部分，通常，基于卷积神经网络的检测器由三部分组成，backbone、neck、head，backbone用于提取输入图像的特征，用于更好地分配和合并特征到head和neck，neck一般是负责加强特征，然后head负责预测。

有益效果

本发明提供了一种基于yolov5算法的轻量化行人检测方法。与现有技术相比具备以下有益效果：

该基于yolov5算法的轻量化行人检测方法，本发明对原YOLOv5s模型进行了优化，使用轻量级主干网络及颈部，在1％-3％的平均精度损失的情况下，模型参数量降低17.2％，计算量降低14.7％。模型占用存储空间减少79％。使用CIoU损失函数来改善密集场景下预测框重叠问题，检测精准度提升1.7％。实验结果表明，该方法在有限的硬件条件下，应对行人密集场景能够有效检测行人，适用于行人的在线实时检测。

附图说明

图1为本发明YOLOv5轻量化行人检测方法整体框图；

图2为本发明GhostConv原理框图；

图3为本发明GSConv原理框图；

图4为本发明COCOperson数据集表图；

图5为本发明Widerperson数据集表图；

图6为本发明Crowdperson数据集表图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，本发明提供一种技术方案：一种基于yolov5算法的轻量化行人检测方法，具体包括以下步骤：

S3、GhostNet使用“减半”标准卷积操作来保留通道之间的交互信息，但是，1*1的密集卷积反而占用了更多的计算资源，使用“channel shuffle”的效果仍然没有触及标准卷积的结果，而GhostNet或多或少又回到了标准卷积的路上，影响可能会来从很多方面，许多轻量级模型使用类似的思维来设计基本架构，从深度神经网络的开始到结束只使用深度可分离卷积，但深度可分离卷积的缺陷直接在主干中放大，无论是用于图像分类还是检测，我们相信标准卷积和深度可分离卷积可以合作，标准卷积、深度可分离卷积和shuffle的混合卷积，命名为GSConv。同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

本发明中，所述S1中，与普通卷积相比，GhostModule使用更少量的卷积运算，FLOPs远低于普通卷积，GhostModule通过深度可分离卷积从生成的特征图中变换出冗余特征，具有与普通卷积一样强的特征提取能力。

本发明中，所述S1中，YOLO使用多层卷积进行图像检测，其中3×3的卷积占据了计算量的主要部分，通常，基于卷积神经网络的检测器由三部分组成，backbone、neck、head，backbone用于提取输入图像的特征，用于更好地分配和合并特征到head和neck，neck一般是负责加强特征，然后head负责预测。

通常，基于卷积神经网络(CNN)的检测器由三部分组成，backbone、neck、head。backbone用于提取输入图像的特征，用于更好地分配和合并特征到head和neck。neck一般是负责加强特征，然后head负责预测。

卷积操作有着较大的参数量和计算量，为了降低模型的整体参数量及计算量，使用轻量级卷积替换原backbone和neck部分的卷积操作。对于backbone部分，使用GhostConv进行替换；对于neck部分，使用GSConv进行替换。

如图4-6所示，分别在COCOperson、Widerperson、Crowdperson数据集上来评估本文算法的有效性。这三个数据集按照行人密集程度顺序排列，可以有效地验证算法在不同密集程度下的性能。

本文方法在较小的行人密集程度场景下的mAP有较小的降低，P和R指标有提高。与其他三个轻量级主干网络相比，本文方法的精度表现最好。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于yolov5算法的轻量化行人检测方法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的一种基于yolov5算法的轻量化行人检测方法，其特征在于：所述S1中，与普通卷积相比，GhostModule使用更少量的卷积运算，FLOPs远低于普通卷积，GhostModule通过深度可分离卷积从生成的特征图中变换出冗余特征，具有与普通卷积一样强的特征提取能力。

3.根据权利要求1所述的一种基于yolov5算法的轻量化行人检测方法，其特征在于：所述S1中，YOLO使用多层卷积进行图像检测，其中3×3的卷积占据了计算量的主要部分，通常，基于卷积神经网络的检测器由三部分组成，backbone、neck、head，backbone用于提取输入图像的特征，用于更好地分配和合并特征到head和neck，neck一般是负责加强特征，然后head负责预测。