CN116740532A - 一种基于yolov5算法的轻量化行人检测方法 - Google Patents

一种基于yolov5算法的轻量化行人检测方法 Download PDF

Info

Publication number
CN116740532A
CN116740532A CN202310719014.8A CN202310719014A CN116740532A CN 116740532 A CN116740532 A CN 116740532A CN 202310719014 A CN202310719014 A CN 202310719014A CN 116740532 A CN116740532 A CN 116740532A
Authority
CN
China
Prior art keywords
convolution
lightweight
depth separable
convolutions
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310719014.8A
Other languages
English (en)
Inventor
李明晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University
Original Assignee
Changchun University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University filed Critical Changchun University
Priority to CN202310719014.8A priority Critical patent/CN116740532A/zh
Publication of CN116740532A publication Critical patent/CN116740532A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于yolov5算法的轻量化行人检测方法,具体包括以下步骤:S1、GhostModule对其中的一个特征图进行简单的线性运算,从而在使用更少参数前提下生成更多相似特征图,相似的特征图认为是彼此的Ghost;S2、轻量级网络设计可以缓解现阶段的高计算成本,这个目的主要是通过使用深度可分离卷积操作来减少参数量和浮点操作,效果很明显,但是,深度可分离卷积的缺点也很明显,输入图像的通道信息在计算过程中是分离的,本发明涉及智能交通技术领域。该基于yolov5算法的轻量化行人检测方法,检测精准度提升1.7%。实验结果表明,该方法在有限的硬件条件下,应对行人密集场景能够有效检测行人,适用于行人的在线实时检测。

Description

一种基于yolov5算法的轻量化行人检测方法
技术领域
本发明涉及智能交通技术领域,具体为一种基于yolov5算法的轻量化行人检测方法。
背景技术
行人检测对于自动驾驶和智能交通至关重要,尤其是在行人和交通安全方面。YOLOv5算法用于视频中的行人检测,但由于内存和计算资源的限制,很难在移动设备和嵌入式设备上部署。
通常,基于卷积神经网络(CNN)的检测器由三部分组成,backbone、neck、head。backbone用于提取输入图像的特征,用于更好地分配和合并特征到head和neck。neck一般是负责加强特征,然后head负责预测。卷积操作有着较大的参数量和计算量,为了在行人密集场景下保持一定准确性和鲁棒性的前提下提高算法的运行速度,解决传统方法下内存和计算资源的限制,本发明提出一种基于yolov5算法的轻量化行人检测方法。
发明内容
针对现有技术的不足,本发明提供了一种基于yolov5算法的轻量化行人检测方法,解决了yolov5算法的轻量化行人检测方法效果不是很好的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于yolov5算法的轻量化行人检测方法,具体包括以下步骤:
S1、GhostModule对其中的一个特征图进行简单的线性运算,从而在使用更少参数前提下生成更多相似特征图,相似的特征图认为是彼此的Ghost;
S2、轻量级网络设计可以缓解现阶段的高计算成本,这个目的主要是通过使用深度可分离卷积操作来减少参数量和浮点操作,效果很明显,但是,深度可分离卷积的缺点也很明显,输入图像的通道信息在计算过程中是分离的,这种缺陷导致深度可分离卷积的特征提取和融合能力比标准卷积低得多;
S3、GhostNet使用“减半”标准卷积操作来保留通道之间的交互信息,但是,1*1的密集卷积反而占用了更多的计算资源,使用“channel shuffle”的效果仍然没有触及标准卷积的结果,而GhostNet或多或少又回到了标准卷积的路上,影响可能会来从很多方面,许多轻量级模型使用类似的思维来设计基本架构,从深度神经网络的开始到结束只使用深度可分离卷积,但深度可分离卷积的缺陷直接在主干中放大,无论是用于图像分类还是检测,我们相信标准卷积和深度可分离卷积可以合作,标准卷积、深度可分离卷积和shuffle的混合卷积,命名为GSConv。
优选的,所述S1中,与普通卷积相比,GhostModule使用更少量的卷积运算,FLOPs远低于普通卷积,GhostModule通过深度可分离卷积从生成的特征图中变换出冗余特征,具有与普通卷积一样强的特征提取能力。
优选的,所述S1中,YOLO使用多层卷积进行图像检测,其中3×3的卷积占据了计算量的主要部分,通常,基于卷积神经网络的检测器由三部分组成,backbone、neck、head,backbone用于提取输入图像的特征,用于更好地分配和合并特征到head和neck,neck一般是负责加强特征,然后head负责预测。
有益效果
本发明提供了一种基于yolov5算法的轻量化行人检测方法。与现有技术相比具备以下有益效果:
该基于yolov5算法的轻量化行人检测方法,本发明对原YOLOv5s模型进行了优化,使用轻量级主干网络及颈部,在1%-3%的平均精度损失的情况下,模型参数量降低17.2%,计算量降低14.7%。模型占用存储空间减少79%。使用CIoU损失函数来改善密集场景下预测框重叠问题,检测精准度提升1.7%。实验结果表明,该方法在有限的硬件条件下,应对行人密集场景能够有效检测行人,适用于行人的在线实时检测。
附图说明
图1为本发明YOLOv5轻量化行人检测方法整体框图;
图2为本发明GhostConv原理框图;
图3为本发明GSConv原理框图;
图4为本发明COCOperson数据集表图;
图5为本发明Widerperson数据集表图;
图6为本发明Crowdperson数据集表图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,本发明提供一种技术方案:一种基于yolov5算法的轻量化行人检测方法,具体包括以下步骤:
S1、GhostModule对其中的一个特征图进行简单的线性运算,从而在使用更少参数前提下生成更多相似特征图,相似的特征图认为是彼此的Ghost;
S2、轻量级网络设计可以缓解现阶段的高计算成本,这个目的主要是通过使用深度可分离卷积操作来减少参数量和浮点操作,效果很明显,但是,深度可分离卷积的缺点也很明显,输入图像的通道信息在计算过程中是分离的,这种缺陷导致深度可分离卷积的特征提取和融合能力比标准卷积低得多;
S3、GhostNet使用“减半”标准卷积操作来保留通道之间的交互信息,但是,1*1的密集卷积反而占用了更多的计算资源,使用“channel shuffle”的效果仍然没有触及标准卷积的结果,而GhostNet或多或少又回到了标准卷积的路上,影响可能会来从很多方面,许多轻量级模型使用类似的思维来设计基本架构,从深度神经网络的开始到结束只使用深度可分离卷积,但深度可分离卷积的缺陷直接在主干中放大,无论是用于图像分类还是检测,我们相信标准卷积和深度可分离卷积可以合作,标准卷积、深度可分离卷积和shuffle的混合卷积,命名为GSConv。同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
本发明中,所述S1中,与普通卷积相比,GhostModule使用更少量的卷积运算,FLOPs远低于普通卷积,GhostModule通过深度可分离卷积从生成的特征图中变换出冗余特征,具有与普通卷积一样强的特征提取能力。
本发明中,所述S1中,YOLO使用多层卷积进行图像检测,其中3×3的卷积占据了计算量的主要部分,通常,基于卷积神经网络的检测器由三部分组成,backbone、neck、head,backbone用于提取输入图像的特征,用于更好地分配和合并特征到head和neck,neck一般是负责加强特征,然后head负责预测。
通常,基于卷积神经网络(CNN)的检测器由三部分组成,backbone、neck、head。backbone用于提取输入图像的特征,用于更好地分配和合并特征到head和neck。neck一般是负责加强特征,然后head负责预测。
卷积操作有着较大的参数量和计算量,为了降低模型的整体参数量及计算量,使用轻量级卷积替换原backbone和neck部分的卷积操作。对于backbone部分,使用GhostConv进行替换;对于neck部分,使用GSConv进行替换。
如图4-6所示,分别在COCOperson、Widerperson、Crowdperson数据集上来评估本文算法的有效性。这三个数据集按照行人密集程度顺序排列,可以有效地验证算法在不同密集程度下的性能。
本文方法在较小的行人密集程度场景下的mAP有较小的降低,P和R指标有提高。与其他三个轻量级主干网络相比,本文方法的精度表现最好。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于yolov5算法的轻量化行人检测方法,其特征在于:具体包括以下步骤:
S1、GhostModule对其中的一个特征图进行简单的线性运算,从而在使用更少参数前提下生成更多相似特征图,相似的特征图认为是彼此的Ghost;
S2、轻量级网络设计可以缓解现阶段的高计算成本,这个目的主要是通过使用深度可分离卷积操作来减少参数量和浮点操作,效果很明显,但是,深度可分离卷积的缺点也很明显,输入图像的通道信息在计算过程中是分离的,这种缺陷导致深度可分离卷积的特征提取和融合能力比标准卷积低得多;
S3、GhostNet使用“减半”标准卷积操作来保留通道之间的交互信息,但是,1*1的密集卷积反而占用了更多的计算资源,使用“channel shuffle”的效果仍然没有触及标准卷积的结果,而GhostNet或多或少又回到了标准卷积的路上,影响可能会来从很多方面,许多轻量级模型使用类似的思维来设计基本架构,从深度神经网络的开始到结束只使用深度可分离卷积,但深度可分离卷积的缺陷直接在主干中放大,无论是用于图像分类还是检测,我们相信标准卷积和深度可分离卷积可以合作,标准卷积、深度可分离卷积和shuffle的混合卷积,命名为GSConv。
2.根据权利要求1所述的一种基于yolov5算法的轻量化行人检测方法,其特征在于:所述S1中,与普通卷积相比,GhostModule使用更少量的卷积运算,FLOPs远低于普通卷积,GhostModule通过深度可分离卷积从生成的特征图中变换出冗余特征,具有与普通卷积一样强的特征提取能力。
3.根据权利要求1所述的一种基于yolov5算法的轻量化行人检测方法,其特征在于:所述S1中,YOLO使用多层卷积进行图像检测,其中3×3的卷积占据了计算量的主要部分,通常,基于卷积神经网络的检测器由三部分组成,backbone、neck、head,backbone用于提取输入图像的特征,用于更好地分配和合并特征到head和neck,neck一般是负责加强特征,然后head负责预测。
CN202310719014.8A 2023-06-16 2023-06-16 一种基于yolov5算法的轻量化行人检测方法 Pending CN116740532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310719014.8A CN116740532A (zh) 2023-06-16 2023-06-16 一种基于yolov5算法的轻量化行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310719014.8A CN116740532A (zh) 2023-06-16 2023-06-16 一种基于yolov5算法的轻量化行人检测方法

Publications (1)

Publication Number Publication Date
CN116740532A true CN116740532A (zh) 2023-09-12

Family

ID=87902478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310719014.8A Pending CN116740532A (zh) 2023-06-16 2023-06-16 一种基于yolov5算法的轻量化行人检测方法

Country Status (1)

Country Link
CN (1) CN116740532A (zh)

Similar Documents

Publication Publication Date Title
CN112541483B (zh) Yolo和分块-融合策略结合的稠密人脸检测方法
CN110991321B (zh) 一种基于标签更正与加权特征融合的视频行人再识别方法
CN101719144A (zh) 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN111008608B (zh) 一种基于深度学习的夜间车辆检测方法
CN109785356B (zh) 一种视频图像的背景建模方法
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及系统
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
Han et al. A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN111079567B (zh) 采样方法、模型生成方法、视频行为识别方法及装置
CN101600115A (zh) 一种剔除图像稳像系统周期性特征块的方法
CN116740532A (zh) 一种基于yolov5算法的轻量化行人检测方法
Ouyang et al. The comparison and analysis of extracting video key frame
CN111931551A (zh) 一种基于轻量级级联网络的人脸检测方法
CN116363064A (zh) 融合目标检测模型和图像分割模型的缺陷识别方法及装置
CN113780136B (zh) 基于时空纹理识别的VOCs气体泄漏检测方法、系统及设备
CN114694080A (zh) 一种监控暴力行为检测方法、系统、装置及可读存储介质
CN113963204A (zh) 一种孪生网络目标跟踪系统及方法
CN115100546A (zh) 一种基于mobilenet的电力设备小目标缺陷识别方法及系统
CN114202774A (zh) 密集行人检测方法
CN111291602A (zh) 视频检测方法、装置、电子设备及计算机可读存储介质
CN114372994B (zh) 视频浓缩中背景图像的生成方法
Yi et al. Research on Water Garbage Detection Algorithm Based on GFL Network
CN113177460B (zh) 基于卷积神经网络的双分支Anchor Free人脸检测方法及系统
CN112929662B (zh) 解决码流结构化图像编码方法中对象重叠问题的编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination