CN116612427A

CN116612427A - 一种基于改进的轻量型YOLOv7的密集行人检测系统

Info

Publication number: CN116612427A
Application number: CN202310505340.9A
Authority: CN
Inventors: 陈俊; 姜乃祺; 石浩铭; 孟伟强; 陈芳; 易才键; 王师玮
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-18
Anticipated expiration: 2043-05-08
Also published as: CN116612427B

Abstract

本发明提供一种基于改进的轻量型YOLOv7的密集行人检测系统，包括步骤：采集不同场景下的行人图像；对采集的行人图像，根据类别和位置信息进行标注；对行人图像进行数据增强，形成可供检测模型训练的数据图像；构建改进的轻量型YOLOv7，在基于原始的YOLOv7的基础上对模型进行改进，实现轻量化设计，并对改进的检测模型进行轻量化处理；将轻量化处理后的YOLOv7部署到嵌入式终端，与QT搭建的上位机构成完整的密集行人检测系统。应用本技术方案不仅可以实现日常生活的行人检测功能，同时可以实现对密集人群的行人检测。

Description

一种基于改进的轻量型YOLOv7的密集行人检测系统

技术领域

本发明涉及深度学习目标检测技术领域，特别是一种基于改进的轻量型YOLOv7的密集行人检测系统。

背景技术

在日常生活的各个场所中，比如大型超市、车站、交通路口、娱乐场所和旅游景点等人员相对密集的区域，都需要摄像头等监控设备对人群进行实时检测,评估人员密集度，记录行人的行为信息,以便及时疏导人群,做出合理的安全防患措施。

随着深度学习技术的发展，越来越多的深度学习技术应用于目标检测等领域，但对于密集行人检测的问题，尚在研究阶段，同时深度学习模型往往计算量大、参数量大，不易部署到嵌入式终端之中。

发明内容

有鉴于此，本发明的目的在于提供一种基于改进的轻量型YOLOv7的密集行人检测系统，将改进的轻量型YOLOv7检测模型运用于密集行人检测任务之中，同时满足密集行人场景和稀疏行人场景下的行人检测，满足实际应用的实时性要求，处理速度快，检测精度高。

为实现上述目的，本发明采用如下技术方案：一种基于改进的轻量型YOLOv7的密集行人检测系统，包括以下步骤：

步骤S1：采集不同场景下的行人图像，包括行人密集度高的图像；

步骤S2：对所述步骤S1采集的行人图像进行信息标注，根据行人在图像中的位置和所占图像像素尺寸，标注行人位置信息、图像行人密度信息、图像行人尺度信息；

步骤S3：对所述步骤S1采集的行人图像进行数据增强；

步骤S4：构建改进的YOLOv7密集行人检测模型，同时实现在密集行人场景下的行人检测和非密集行人场景下的行人检测；

步骤S5：将所述步骤S4改进的YOLOv7密集行人检测模型进行模型的轻量化处理；

步骤S6：将所述步骤S5轻量化处理后的模型部署至终端设备中，并构建密集行人检测系统；

步骤S7：将所述步骤S3中预处理好的行人图像，通过步骤S6构建的密集行人检测系统，对图像中的行人进行实时检测，并输出检测结果。

在一较佳的实施例中，所述步骤S1中行人图像的采集方式有通过公共场所监控摄像头采集行人图像信息、通过无人机摄像头俯拍公共场所采集行人图像信息、通过公共交通车辆的车载摄像头采集行人图像信息或通过研究人员使用摄像机在公共场所采集行人图像信息。

在一较佳的实施例中，所述步骤S2中标注的方法为：通过DarkLabel软件对采集的行人图像进行标注，分别标注行人在图像中的位置信息、图像中行人的密度信息、图像中行人的尺度信息即行人在图像中所占的像素大小，行人所占像素与图像像素之比小于1%的行人目标视为小尺度目标；根据图像的行人密度信息和图像的行人尺度信息，对行人图像进行分级，将行人密度较大的图像或行人尺度较小的图像分为难分类的一级。

在一较佳的实施例中，所述步骤S3中的数据增强操作，为以下几种方式进行数据增强：

N1：对图像进行刚性变换：对行人图像使用随机裁剪、随机旋转、随机水平翻转、Mosaic增强、Cutout、Mixup、CutMix；

N2：对图像的像素值进行变换：对行人图像使用随机亮度变换、随机饱和度变换、加入随机环境噪声、随机锐化、随机模糊、随机灰度化；

N3：对图像中难分类样本进行数据增强：对行人图像使用PuzzleMix、过采样、Copy-Paste、instance-level imbalance；

通过以上数据增强作为检测模型的训练数据集，增强检测模型的泛化性能和鲁棒性。

在一较佳的实施例中，所述步骤S4中的YOLOv7模型改进方式如下：

U1：YOLOv7的主干特征提取网络backbone使用PC-ELAN模块替代原ELAN结构，使用PC卷积和PW卷积作为卷积算子，利用轻量化神经网络模块，提高检测速度，保证检测实时性；

U2：在不大量增加网络参数的同时，将PC-ELAN模块融入坐标注意力机制Coordinate Attention和长效空间注意力机制Decoupled Fully Connected，提高网络模型对特征图的特征提取能力；

U3：backbone的降采样方式采用S2D降采样，实现轻量化网络设计；

U4：在backbone的浅层加入Global Context Block，用于捕捉全局依赖；

U5：特征提取层使用Recusive FPN结构和四组加权双向特征金字塔网络结构BiFPN替代原PAN结构，使检测模型更关注重要层次，实现快速高效的多尺度融合方式；

U6：在YOLOv7检测模型的Head部分，使用三个Head分别对行人的头部、可见区域和全身区域进行预测，提高模型的检测精度，同时符合人眼的视觉结构。

在一较佳的实施例中，所述的步骤S5中的模型轻量化处理方法为：通过结构重参数化，将步骤S4所述检测模型中的卷积层和BN层完成合并，减少检测模型推理时间；再通过剪枝、量化、蒸馏的方法对模型进一步压缩，使检测模型可以部署在轻量型终端中。

在一较佳的实施例中，所述步骤S6中的食品中常见菌落分类和鉴别系统结构如下：

步骤S61：使用Qt搭建检测系统的上位机，实现行人检测功能；

步骤S62: 将所述步骤S5中轻量化处理后的模型，通过TensorRT部署到英伟达的Jetson Xavier NX 8G终端；

步骤S63：使用索尼HD-X12MP-AF摄像头采集菌落图像。

与现有技术相比，本发明具有以下有益效果：本发明将改进的轻量型YOLOv7目标检测模型应用于行人检测任务中，能够在密集人群中仍然能保证高准确率、实时性，同时满足不同应用场景下的行人检测任务。对于密集行人检测技术，具有一定的应用和研究价值。

附图说明

图1为本发明优选实施例的PC-ELAN结构图；

图2为本发明优选实施例的Attention-FasterNet Block结构结构图；

图3为本发明优选实施例的坐标注意力机制结构图；

图4为本发明优选实施例的长效空间注意力机制结构图；

图5为本发明优选实施例的S2D降采样结构图；

图6为本发明优选实施例的Global Context Block结构图；

图7为本发明优选实施例的Neck结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明提供了如图1-图7所示的一种基于改进的YOLOv7网络的密集行人检测系统，所述系统设计方法包括以下步骤：

步骤一、由研究人员使用如下几种方式采集行人图像：

1、通过公共场所监控摄像头，采集行人图像信息；

2、通过无人机摄像头俯拍公共场所，采集行人图像信息；

3、通过公共交通车辆的车载摄像头，采集行人图像信息；

4、通过研究人员使用摄像机在公共场所，采集行人图像信息；

采集的行人图像应满足以下几种要求：

1、行人形态多样化，即具有不同姿态的人类实例，如行走姿态，直立姿态，坐姿姿态等不同的姿态，以此解决密集行人检测系统对行人的类内变化处理问题；

2、行人衣着多样化，即行人穿着不同样式、颜色的服饰，以此解决密集行人检测系统对行人的类内变化处理问题；

3、行人所处场景多样化，为满足密集行人检测应用于不同场景，研究人员采集的行人所处场景应包括人流量大的交通路口、车站、公共交通工具内部场景、超市、商场、娱乐场所和旅游景点等复杂场景，同时具有不同天气情况，通过多样化场景图像提高密集行人检测系统的鲁棒性和泛化性能；

4、行人的人群密度均匀分布，即存在密集行人图像，也存在稀疏行人图像，同时行人之间应存在多种遮挡关系，保证密集行人检测系统在不同人群密度的检测性能、应对密集人群的遮挡问题；

5、行人的尺度大小均匀分布，即存在大尺度行人目标，也存在小尺度行人目标，保证密集行人检测系统对小尺度目标、多尺度目标的检测性能。

步骤二、对步骤一采集的行人图像使用DarkLabel软件按照coco格式进行图像位置信息标注，主要的标注信息有：图像中行人的位置信息，行人的类别信息（真人、假人、镜中人等）、图像中的忽视区域、图像中行人的密度信息、图像中行人的尺度信息。具体来说，通过DarkLabel软件对采集的行人图像进行标注，分别标注行人在图像中的位置信息、图像中行人的密度信息、图像中行人的尺度信息（即行人在图像中所占的像素大小，行人所占像素与图像像素之比小于1%的行人目标视为小尺度目标）。根据图像的行人密度信息和图像的行人尺度信息，对行人图像进行分级，将行人密度较大的图像或行人尺度较小的图像分为难分类的一级。

步骤三、将采集的行人图像进行数据增强操作，增强的方式为：

1、对图像进行刚性变换：对行人图像使用随机裁剪、随机旋转、随机水平翻转、Mosaic增强、Cutout、Mixup、CutMix；

2、对图像的像素值进行变换：对行人图像使用随机亮度变换、随机饱和度变换、加入随机环境噪声、随机锐化、随机模糊、随机灰度化；

3、对图像中难检测样本进行数据增强：对行人图像使用PuzzleMix（使密集行人检测模型关注于显著性区域）、过采样（使密集行人检测模型关注于难分类样例）、Copy-Paste（将行人实例复制到图像的不同位置，以增加行人图像的密集度和遮挡程度）、instance-level imbalance（增加小尺度行人在图像中的占比，以增强密集行人检测系统对小目标的检测能力）；

通过以上数据增强作为密集行人检测系统的训练数据集，增强密集行人检测模型的泛化性能和鲁棒性，使训练出的密集行人检测模型可以应用于复杂场景，在密集行人场景下仍能保持较高准确率。

步骤四、选定YOLOv7检测模型作为行人检测模型的基础框架，使用Pytorch对YOLOv7检测模型进行搭建，在原始模型的基础上，对网络模型进行优化，根据检测任务进行针对性结构调整：

将YOLOv7的ELAN结构使用PC-ELAN结构代替，PC-ELAN如图1所示，同时在每一个Attention-FasterNet Block中融入坐标注意力机制（Coordinate Attention）和长效空间注意力机制（DFC），Attention-FasterNetBlock结构如图2所示，在不大量增加网络参数的同时，提高主干网络（backbone）对特征图的特征提取能力。其中坐标注意力机制，如图3所示，不仅可以实现坐标的注意力机制，同时实现通道注意力机制；长效空间注意力机制，如图4所示，实现高效率自注意力机制，可以捕获长距离空间信息，增强主干网络的特征提取能力。

进一步的，backbone的降采样方式采用S2D降采样，如图5所示，S2D为无参降采样，通过将特征图的空间尺寸转换为特征图的深度，实现降采样功能，避免了传统卷积降采样或池化降采样带来的信息损失，同时可以保存更多的特征图信息。

进一步的，backbone的浅层加入Global Context Block，结构如图6所示，实现了轻量化的Non-local网络，避免了传统Non-local计算量大、无法应用于轻量型模型的问题，同时具有捕获长距离依赖关系的功能。

进一步的，特征提取层使用Recusive FPN结构（递归FPN）和四组BiFPN结构（加权双向特征金字塔网络）替代原PAN结构，结构如图7所示，使检测模型更关注重要层次，实现快速高效的多尺度融合方式。其中Recusive FPN由降采样和backbone的卷积神经网络进行循环，提高对backbone的利用率；BiFPN使用降采样和上采样进行信息融合，将backbone提取的小目标信息、大目标信息、细节信息和高级语义信息进行融合，增强网络的感知能力。

步骤五、将构建的改进的YOLOv7检测模型通过结构重参数化，将模型主干网络中的卷积层和BN层完成合并，在模型训练时表现为卷积层和BN层，在模型推理时，表现为卷积层，减少模型的参数量和计算量；通过剪枝、量化对构建的YOLOX检测模型进行进一步压缩，使检测模型可以部署于轻量型终端。

步骤六、将轻量化处理后的改进的轻量型YOLOv7检测模型通过TensorRT部署到英伟达Jetson Xavier NX 8G，该终端专为AI而设计，性能相比树莓派、单片机等嵌入式设备更强大，支持所有热门 AI 框架。这为需要提升性能来支持 AI 工作负载，同时受限于大小、重量、功耗或成本的嵌入式边缘计算设备带来了新的可能性。Jetson Xavier NX在10瓦功率下可提供 14 TOPS，而在15瓦功率下可提供21TOPS，非常适合在大小和功率方面受限的系统。凭借384个CUDA 核心、48个Tensor Core和2个NVDLA引擎，它可以并行运行多个现代神经网络模型，并同时处理来自多个传感器的高分辨率数据。

在实际应用时，通过索尼HD-X12MP-AF摄像头采集行人图像，将摄像头采集行人图像通过Jetson Xavier NX终端进行数据处理，利用QT搭建检测系统的上位机，实时显示行人检测结果。密集行人检测系统具体实现功能：

实时自动保存摄像头记录的图像信息；

实时显示当前摄像头捕捉的图像信息中行人的位置信息并保存；

实时显示当前摄像头捕捉的图像信息中行人的总数目和人群密度并保存；

当密集行人检测系统检测到人群密度达到安全阈值，发出安全警告；

可以指定图像的识别区域，根据需要，检测相应区域内的行人；同时可以指定图像的忽视区域，满足不同的行人检测需求。

Claims

1.一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于：包括以下步骤：

步骤S3：对所述步骤S1采集的行人图像进行数据增强；

2.根据权利要求1所述的一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于，所述步骤S1中行人图像的采集方式有通过公共场所监控摄像头采集行人图像信息、通过无人机摄像头俯拍公共场所采集行人图像信息、通过公共交通车辆的车载摄像头采集行人图像信息或通过研究人员使用摄像机在公共场所采集行人图像信息。

3.根据权利要求1所述的一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于，所述步骤S2中标注的方法为：通过DarkLabel软件对采集的行人图像进行标注，分别标注行人在图像中的位置信息、图像中行人的密度信息、图像中行人的尺度信息即行人在图像中所占的像素大小，行人所占像素与图像像素之比小于1%的行人目标视为小尺度目标；根据图像的行人密度信息和图像的行人尺度信息，对行人图像进行分级，将行人密度较大的图像或行人尺度较小的图像分为难分类的一级。

4.根据权利要求1所述的一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于，所述步骤S3中的数据增强操作，为以下几种方式进行数据增强：

5.根据权利要求1所述的一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于，所述步骤S4中的YOLOv7模型改进方式如下：

U2：在不大量增加网络参数的同时，将PC-ELAN模块融入坐标注意力机制CoordinateAttention和长效空间注意力机制Decoupled Fully Connected，提高网络模型对特征图的特征提取能力；

6.根据权利要求1所述的一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于，所述的步骤S5中的模型轻量化处理方法为：通过结构重参数化，将步骤S4所述检测模型中的卷积层和BN层完成合并，减少检测模型推理时间；再通过剪枝、量化、蒸馏的方法对模型进一步压缩，使检测模型可以部署在轻量型终端中。

7.根据权利要求1所述的一种基于改进的轻量型YOLOv7的密集行人检测系统，其特征在于，所述步骤S6中的食品中常见菌落分类和鉴别系统结构如下：

步骤S63：使用索尼HD-X12MP-AF摄像头采集菌落图像。