CN112668451A

CN112668451A - 一种基于YOLOv5的人群密度实时监测方法

Info

Publication number: CN112668451A
Application number: CN202011551457.3A
Authority: CN
Inventors: 段连元
Original assignee: Nanjing Hongtu Artificial Intelligence Technology Research Institute Co ltd
Current assignee: Nanjing Hongtu Artificial Intelligence Technology Research Institute Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16

Abstract

本发明提供一种基于YOLOv5的人群密度实时监测方法，具体包括如下步骤，构建网络模型，并加载网络模型；网络模型读取视频文件，读取视频文件中一帧图像，网络模型检测并计算人数并得出人群密度，人群密度是否大于设定值P。通过在公开的人群数据集上进行训练得出网络模型，该网络通过检测视频流中每一帧图像中人肩膀以上部分，即人头的数量来计算人群数量，以人数比面积来衡量人群的密集程度，经过测试，在YOLOv5网络上检测可以达到实时性要求，本发明的检测准确率比较高，能够避免大量漏检测的情况的出现，对于密集的人群能够起到优良的检测效果，YOLOv5在检测速度更快的同时，对检测小目标有着优异的性能，能够满足人群密度实时统计的要求。

Description

一种基于YOLOv5的人群密度实时监测方法

技术领域

本发明涉及计算机技术领域，具体为一种基于YOLOv5的人群密度实时监测方法。

背景技术

当人群密集程度过高的时候，容易发生各种意外，而且会对秩序管理者的管理带来困难，及时地检测人群的密度，并在人群密度过高的时候发出警示信息，有利于管理者及时疏散人群。

如今对人的检测可以大致分为传统的图像处理方法和基于机器学习的方法。传统的图像处理方法检测人通过对图像进行一定的预处理，然后检测人的轮廓，这种方法通常检测准确率比较低，而且会大量出现漏检测的情况。如今一些基于机器学习的方法在检测稀疏的人群时有比较好的效果，但是难以检测到密集的人群。

发明内容

本发明目的在于提供一种基于YOLOv5的人群密度实时监测方法，YOLOv5在检测速度更快的同时，对检测小目标有着优异的性能，能够满足人群密度实时统计的要求。

为达成上述目的，本发明提出如下技术方案：一种基于YOLOv5的人群密度实时监测方法，具体包括如下步骤：

第一步，构建网络模型，并加载网络模型；

第二步：网络模型读取视频文件，读取视频文件中一帧图像；

第三步：网络模型检测并计算人数并得出人群密度，人群密度是否大于设定值P，若大于设定值P则发出报警后继续对后续视频检测，若小于设定值P则继续对后续视频进行检测，直至视频结束。

进一步的，在本发明中，所述网络模型包括权重文件，权重文件由训练而成；

所述训练过程如下：

加载数据集并进行处理，将人群数据集中的每个人头用矩形框标注出来得出待加载数据集；

将待加载数据集加载到程序中，并在获取单个数据时对数据进行增强；

模型权重文件的训练；

对训练出来的权重文件进行测试。

进一步的，在本发明中，所述加载数据集的过程如下：

在给定的图片数据文件夹下遍历所有图片文件，并存储图片文件的路径；

在标签文件夹下遍历所有标签文件，并且存储所有标签文件的路径；

将所有图片的路径和标签的路径存入缓存文件，方便下次读取；

从数据集中获取单个数据，包括图片文件和标签文件。

进一步的，在本发明中，获取单个数据包括图片的读取和txt文本的读取，读取数据之后对数据增强，数据增强是将四张图片进行随机的缩放和裁剪拼接起来，将四张图片对应的标签文件里的标签框参数根据图片变化做相应的调整，保证数据的正确性；

在训练的过程中，对输入的图片进行缩放与填充以适应规定的大小，具体过程如下：

计算图片的长需要缩放的比例L₁，图片的宽需要缩放的比例L₂；

选择L₁和L₂中较小的作为长和宽的统一缩放比例系数；

缩放完成之后对缩放比例不匹配的那条边进行填充；

对数据的增强步骤是在训练过程中，每读一次数据，数据集自动完成的。当数据集准备完毕则可以开始训练。

进一步的，在本发明中，所述模型权重文件的训练的具体步骤是：

将图片数据带入网络模型中得出预测结果；

计算损失函数，即预测的值和标注的值之间的误差；

通过损失函数来以选定的学习率更新网络模型参数。

有益效果，本申请的技术方案具备如下技术效果：

1、本发明的检测准确率比较高，能够避免大量漏检测的情况的出现，对于密集的人群能够起到优良的检测效果，YOLOv5在检测速度更快的同时，对检测小目标有着优异的性能，能够满足人群密度实时统计的要求。

2、本发明公开的方法使用YOLOv5作为网络，通过在公开的人群数据集上进行训练得出网络模型，该网络通过检测视频流中每一帧图像中人肩膀以上部分，即人头的数量来计算人群数量，以人数比面积来衡量人群的密集程度，经过测试，在YOLOv5网络上检测可以达到实时性要求。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本发明测试流程示意图。

图2为本发明测试流程图。

图3为本发明数据集标注信息示例图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本发明通过读取视频文件或者直接连接摄像头，提取视频文件的每一帧图像并对其进行检测，网络可以检测出当前图片中人头，统计人头数量作为人群中人的数量，将数量除一个固定的面积得到人群密度。本实施例的方法如下：

一种基于YOLOv5的人群密度实时监测方法，具体包括如下步骤：

第一步，构建网络模型，并加载网络模型；

所述网络模型包括权重文件，权重文件由训练而成，训练过程如下：

数据集的处理，将人群数据集中的每个人头用矩形框标注出来；

将数据集加载到程序中，并在获取单个数据时对数据进行增强；

模型权重文件的训练；

对训练出来的权重文件进行测试；

其中标注工作，对于图片中正面的人脸、后脑勺或者侧面的人脸，均需要清楚地标注出来，在检测的过程中，这些都是检测目标。数据集的标注需要标注的信息如图3所示，YOLOv5网络支持的数据集标注文件是txt文本格式的，其内每一行代表一个标注框，在图1中，①代表标注框的类别，从零开始递增，在本发明中数据只有一类，②③代表的是标注框归一化之后中心点坐标，④⑤表示标注框归一化之后的宽和高。

数据增强过程是随机选择四张图片，对这四张图片进行随机裁剪、随机缩放，最后通过将四张图片随机分别分布在窗口的左上、左下、右上和右下四个区域来拼合成一张新的图片，这种数据增强的方式可以大大增加网络模型检测的鲁棒性，而且通过缩放的改变，网络可以更好地训练出检测小目标的能力，对于密集的人群检测有着更好的效果。

对于模型权重文件的训练，我们采用了加载一个预先训练的模型，这样做可以将整个网络模型的参数做一个合理的初始化，能够加快网络训练的速度。

对训练出来的权重文件进行测试中，本实施例是读取一个拍摄人群的视频文件，在程序中将该视频的每一帧分别提取出来，并利用网络对每一帧图像进行检测，我们通过判断程序输出的视频文件每秒播放的帧数来衡量网络是否达到了实时性的要求。

更进一步的，在模型训练之前，需要先加载整个数据集。加载的步骤如下：

从数据集中获取单个数据，包括图片文件和标签文件。

获取单个数据包括图片的读取和txt文本的读取。在具体的实施过程中使用了数据增强，具体做法是将四张图片进行随机的缩放和裁剪，然后拼接起来，然后将四张图片对应的标签文件里的标签框参数根据图片变化做相应的调整，保证数据的正确性。在训练的过程中，输入的图片有规定的大小，我们在将图片输入到网络之前需要对图片进行缩放以使其满足指定的大小。

缩放与填充的策略是：

选择L₁和L₂中较小的作为长和宽的统一缩放比例系数；

缩放完成之后对缩放比例不匹配的那条边进行填充。

对数据的增强步骤是在训练过程中，每读一次数据，数据集自动完成的。当数据集准备完毕则可以开始训练，训练的具体步骤是：

在数据集中读取一次数据选择学习率，即每一次更改网络参数的值时改变的大小；

将图片数据带入网络模型中得出预测结果；

计算损失函数，即预测的值和标注的值之间的误差；

通过损失函数来以选定的学习率更新网络模型参数。

训练完成之后得到权重文件，加载权重文件即可进行测试。在检测的过程中会出现同一个目标被多次检测到，会发生多个检测框检测到同一个目标，我们需要选择可能性最大的检测框，并且计算其他检测框和最可能的检测框重合的面积，当面积大于一定阈值则删除重叠的检测框。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于YOLOv5的人群密度实时监测方法，其特征在于：具体包括如下步骤：

第一步，构建网络模型，并加载网络模型；

2.根据权利要求1所述的一种基于YOLOv5的人群密度实时监测方法，其特征在于：所述网络模型包括权重文件，权重文件由训练而成；

所述训练过程如下：

模型权重文件的训练；

对训练出来的权重文件进行测试。

3.根据权利要求2所述的一种基于YOLOv5的人群密度实时监测方法，其特征在于：所述加载数据集的过程如下：

从数据集中获取单个数据，包括图片文件和标签文件。

4.根据权利要求3所述的一种基于YOLOv5的人群密度实时监测方法，其特征在于：获取单个数据包括图片的读取和txt文本的读取，读取数据之后对数据增强，数据增强是将四张图片进行随机的缩放和裁剪拼接起来，将四张图片对应的标签文件里的标签框参数根据图片变化做相应的调整，保证数据的正确性；

选择L₁和L₂中较小的作为长和宽的统一缩放比例系数；

缩放完成之后对缩放比例不匹配的那条边进行填充；

5.根据权利要求4所述的一种基于YOLOv5的人群密度实时监测方法，其特征在于：所述模型权重文件的训练的具体步骤是：

将图片数据带入网络模型中得出预测结果；

计算损失函数，即预测的值和标注的值之间的误差；

通过损失函数来以选定的学习率更新网络模型参数。