CN110490099B

CN110490099B - 一种基于机器视觉的地铁公共地点人流量分析方法

Info

Publication number: CN110490099B
Application number: CN201910702656.0A
Authority: CN
Inventors: 孟小亮; 王才群; 陈志伊; 魏冕; 杨一鸣; 王晓悦
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-10-21
Anticipated expiration: 2039-07-31
Also published as: CN110490099A

Abstract

本发明公开了一种基于机器视觉的地铁公共地点人流量分析方法，包括以：S1、获取地铁摄像头拍摄的历史视频流数据，提取地铁人流训练数据集；S2、加载YOLOv3网络的预训练模型，初始化网络权重；S3、将INRIA行人数据集与地铁人流数据训练集输入YOLOv3网络进行训练，得到真实目标框标注；S4、增加N次上采样操作，获得N个更小尺度的特征图，改变输入图像的大小；S5、对混合后的数据集进行网络粗训练，优化目标框的个数和宽高；S6、对地铁人流训练数据集进行网络精训练；S7、利用训练后的网络模型对地铁人流测试数据集进行检测，统计人流量；并评价网络模型的性能。本发明检测精度高，由粗到精的策略训练网络，优化了边界框参数，控制了检测速度与精度的平衡。

Description

一种基于机器视觉的地铁公共地点人流量分析方法

技术领域

本发明涉及目标检测领域，尤其涉及一种基于机器视觉的地铁公共地点人流量分析方法。

背景技术

人流量是商场、地铁站等公共地点安全管理和预警不可或缺的数据。传统的基于视频的目标检测，通过帧与帧之间图像信息的变化实现，相对静态目标检测，容易造成漏检。基于特征的方法，泛化能力差，且提取的往往是底层特征，无法表达高层语义特征。近年来，深度学习在机器视觉领域的研究成果被越来越多的应用到目标检测领域。其中又分为基于区域的方法和基于回归的方法。基于回归的方法解决检测速度与精度平衡的问题，其中YOLOv3借鉴了残差块、多尺度预测等其他网络成果，综合表现优秀，可满足实时处理的要求。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于机器视觉的地铁公共地点人流量分析方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于机器视觉的地铁公共地点人流量分析方法，该方法包括以下步骤：

S1、获取地铁摄像头拍摄的历史视频流数据，作为训练集，从中提取地铁人流训练数据集；

S2、加载YOLOv3网络的预训练模型，初始化网络权重；

S3、获取开源的INRIA行人数据集，将INRIA行人数据集与地铁人流数据训练集输入YOLOv3网络进行训练，得到真实目标框标注，并对其进行补充和再整理；

S4、增加N次上采样操作，获得N个更小尺度的特征图，扩大可监测目标的尺寸范围，并据此改变输入图像的大小；

S5、将INRIA行人数据集与地铁人流训练数据集混合，对混合后的数据集进行网络粗训练，优化目标框的个数和宽高；

S6、结合上述步骤得到的参数，对地铁人流训练数据集进行网络精训练，得到训练后的网络模型；

S7、输入待分析的地铁人流测试数据集，利用训练后的网络模型对地铁人流测试数据集进行检测，统计人流量；并评价网络模型的性能。

进一步地，本发明的步骤S1的具体方法为：

通过RTSP协议获取地铁摄像头的视频流数据，从视频流数据中每三帧取一帧作为待检测图像，组成地铁公共地点人流的静态图像数据集。

进一步地，本发明的步骤S3的具体方法为：

对每张输入图片，有txt文件存放图片上真实目标框的标注信息，对任一目标框，信息格式为：所属类别编号，归一化后的中心点x坐标，y坐标，归一化后的目标框宽度，目标框高度。对于没有标注信息或信息不完全不规范的图像，利用LabelImg工具进行人工补充标注和整理。

进一步地，本发明的步骤S4的具体方法为：

YOLOv3网络采用多尺度特征图来检测不同尺寸的目标。由于距离摄像头远近不同，行人显示在视频上的尺寸存在差异。为了减少漏检，提高检测准确度，增加3次上采样操作。又由于采样步长为2，因此特征图尺度由原来的52×52，26×26，13×13变为64×64，32×32，16×16，8×8，4×4，2×2。输入网络的原始图像尺度对应由416×416变为512×512。

进一步地，本发明的步骤S5的具体方法为：

S51、改变边界框个数，对地铁人流数据测试集进行k-means维度聚类分析；

S52、根据损失函数值变化曲线设置边界框参数。

进一步地，本发明的步骤S51的具体方法为：

当前边界框个数为n时，对图像集中选取n个真实目标框宽高做为初始聚类中心；采用重叠度IOU建立聚类目标函数，即误差函数：

其中，k为检测边界框个数，box为目标候选框，truth为目标真实框,IOU为候选框与真实框的交集与并集之比；

更新聚类中心，以每类别所有边界框宽高均值作为新聚类中心；

迭代，直至前后两次迭代的目标函数值之差绝对值小于10^-5。

进一步地，本发明的步骤S52的具体方法为：

改变边界框个数，再次进行聚类分析，绘制不同边界框个数时的损失函数值变化曲线；曲线上最邻近拐点的整数即为优化后的边界框个数，各类的聚类中心为优化后的宽高。

进一步地，本发明的步骤S6的具体方法为：

设置网络参数，冲量常数为0.9，权值衰减系数为0.0005，初始学习效率为0.001，迭代次数25000；

对不同尺寸的特征图，划分为N×N个网格，特征图上的输出个数为N×N×[k×(4+C)]，即对每个边界框的4个偏移坐标和各个类的置信度得分进行输出，C是类别数，在地铁人流检测中，若不对行人进行分类，C取值为1，k是检测边界框个数。

进一步地，本发明的该方法中偏移坐标的表示方法为：

4个偏移坐标t_x,t_y,t_w,t_h,定义如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，t_x,t_y是边界框中心点坐标，p_w,p_h是边界框的宽高，c_x,c_y是边界框中心坐标所在网格相对整张图像左上角的横纵偏移量。

本发明产生的有益效果是：本发明的基于机器视觉的地铁公共地点人流量分析方法，增设特征图尺度，解决由于距离摄像头远近不同，行人显示在视频上的尺寸存在差异而造成的漏检、准确率低的问题；由粗到精的策略训练网络，优化边界框参数(个数和宽高)，控制检测速度与精度的平衡。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的基于机器视觉的地铁公共地点人流量分析方法，该方法包括以下步骤：

S2、加载YOLOv3网络的预训练模型，初始化网络权重；

S3、获取开源的INRIA行人数据集，根据INRIA行人数据集与地铁人流数据训练集进行真实目标框标注的补充和再整理；

S4、增加3次上采样操作，获得3个更小尺度的特征图，扩大可监测目标的尺寸范围，并据此改变输入图像的大小；

步骤S1的具体方法为：

步骤S3的具体方法为：

步骤S4的具体方法为：

步骤S5的具体方法为：

S52、根据损失函数值变化曲线设置边界框参数。

步骤S51的具体方法为：

步骤S52的具体方法为：

步骤S6的具体方法为：

对不同尺寸的特征图，划分为N×N个网格，特征图上的输出张量为N×N×[k×(4+C)]，即对每个边界框的4个偏移坐标和各个类的置信度得分进行输出，C是类别数，在地铁人流检测中，若不对行人进行分类，C取值为1，k是检测边界框个数。

偏移坐标的表示方法为：

4个偏移坐标t_x,t_y,t_w,t_h,定义如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

具体实施例。

下面通过分析武汉某地铁站通道人流量情况为例阐述本方面的方法：step1，地铁通道摄像头拍摄的视频流每三帧取一帧作为待检测图像，组成数据集，共678张，包含2352个行人，随机抽取75％作为训练集。图像上行人高矮胖瘦不一，姿态不同，距离摄像头远近不同，所以尺寸也不同。step2，加载Imagenet官网的YOLOv3预训练模型(文件名darknet53.conv.74)初始化权重。step3，从INRIA行人数据集中选择正样本502张，包含2176个行人，负样本941张，包含3296个行人，进行标注再整理。利用LabelImg工具对训练集真实行人区域框做标注。行人类别为1。step4，通过重采样和背景填充等预处理，将原始训练图像转换为512*512大小，进行训练，聚类分析绘制损失函数值变化曲线，得到候选框个数为4个。step5，对地铁人流量数据集单独进行训练。step7，利用训练好的网络进行测试，较改进前的YOLOv3网络，mAP提高了2.97个百分比，传输速率达到40.86f/s，满足实时检测要求。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于机器视觉的地铁公共地点人流量分析方法，其特征在于，该方法包括以下步骤：

S2、加载YOLOv3网络的预训练模型，初始化网络权重；

S3、获取开源的INRIA行人数据集，将INRIA行人数据集与地铁人流训练数据集输入YOLOv3网络进行训练，得到真实目标框标注，并对其进行补充和再整理；

S7、输入待分析的地铁人流测试数据集，利用训练后的网络模型对地铁人流测试数据集进行检测，统计人流量；并评价网络模型的性能；

步骤S5的具体方法为：

S51、改变边界框个数，对混合后的数据集进行k-means维度聚类分析；

S52、根据损失函数值变化曲线设置边界框参数；

步骤S51的具体方法为：

当前边界框个数为k时，对图像集中选取k个真实目标框宽高做为初始聚类中心；采用重叠度IOU建立聚类目标函数，即误差函数：

其中，k为检测边界框个数，box_pre为目标候选框，box_truth为目标真实框，IOU为候选框与真实框的交集与并集之比；

迭代，直至前后两次迭代的目标函数值之差绝对值小于10^-5；

步骤S52的具体方法为：

2.根据权利要求1所述的基于机器视觉的地铁公共地点人流量分析方法，其特征在于，步骤S1的具体方法为：

3.根据权利要求1所述的基于机器视觉的地铁公共地点人流量分析方法，其特征在于，步骤S3的具体方法为：

对每张输入图片，有txt文件存放图片上真实目标框的标注信息，对任一目标框，信息格式为：所属类别编号，归一化后的中心点x坐标，y坐标，归一化后的目标框宽度，目标框高度；对于没有标注信息或信息不完全不规范的图像，利用LabelImg工具进行人工补充标注和整理。

4.根据权利要求1所述的基于机器视觉的地铁公共地点人流量分析方法，其特征在于，步骤S4的具体方法为：

YOLOv3网络采用多尺度特征图来检测不同尺寸的目标；由于距离摄像头远近不同，行人显示在视频上的尺寸存在差异，为了减少漏检，提高检测准确度，增加3次上采样操作；又由于采样步长为2，因此特征图尺度由原来的52×52，26×26，13×13变为64×64，32×32，16×16，8×8，4×4，2×2，输入网络的原始图像尺度对应由416×416变为512×512。

5.根据权利要求1所述的基于机器视觉的地铁公共地点人流量分析方法，其特征在于，步骤S6的具体方法为：

对不同尺寸的特征图，划分为M×M个网格，特征图上的输出个数为M×M×[k×(4+C)]，即对每个边界框的4个偏移坐标和各个类的置信度得分进行输出，C是类别数，在地铁人流检测中，若不对行人进行分类，C取值为1，k是检测边界框个数。

6.根据权利要求5所述的基于机器视觉的地铁公共地点人流量分析方法，其特征在于，该方法中偏移坐标的表示方法为：

4个偏移坐标t_x，t_y，t_w，t_h，定义如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，t_x，t_y是边界框中心点坐标，p_w，p_h是边界框的宽高，c_x，c_y是边界框中心坐标所在网格相对整张图像左上角的横纵偏移量。