CN112632601A

CN112632601A - 面向地铁车厢场景的人群计数方法

Info

Publication number: CN112632601A
Application number: CN202011484695.7A
Authority: CN
Inventors: 田青; 唐绍鹏
Original assignee: Suzhou Jiuhe Intelligent Technology Co ltd
Current assignee: Suzhou Jiuhe Intelligent Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-09
Anticipated expiration: 2040-12-16
Also published as: CN112632601B

Abstract

一种面向地铁车厢场景的人群计数方法，步骤包括：一、首先采用广角摄像机获取车厢内的图像数据，并对数据进行处理；二、然后把数据送入人群特征识别网络进行处理，进行人群计数。在步骤一中，将实时视频按时间截取图片，进行矫正和增强，然后把实时数据送入步骤二进行处理；在步骤二中，对于实时数据，先判断是稀疏人群数据还是密集人群数据；人群特征识别网络使用权重A和权重B分别用于稀疏和密集人群数据计数。

Description

面向地铁车厢场景的人群计数方法

技术领域

本发明涉及计算机技术领域，具体是一种计算机视觉技术在人群计数中的应用。

背景技术

人群计数的主要任务是从图像中识别人群特征，准确的计算出图像中的人群数量。早期的人群计数分为基于检测和基于回归的方法。在基于检测的方法中，使用一个滑动窗口检测器来检测场景中人群，并统计相应的人数。基于检测的方法主要分为两大类，一种是基于整体的检测，另一种是基于部分身体的检测。基于整体的检测方法，例如，典型的传统方法，主要训练一个分类器，利用从行人全身提取的小波，HOG，边缘等特征去检测行人。学习算法主要有SVM,boosting和随机森林等方法。基于整体的检测方法主要适用于稀疏的人群计数，但是随着人群密度的提升，人与人之间的遮挡变得越来越严重。所以基于部分身体检测的方法，被用来处理人群计数问题，它主要通过检测身体的部分结构，例如头，肩膀等去统计人群的数量。这种方法比之基于整体的检测，在效果上有略微的提升。

基于回归的方法，主要思想是通过学习一种特征到人群数量的映射，这类方法步骤主要分为两步，第一步提取低级的特征，例如前景特征，边缘特征，纹理和梯度特征；第二步是学习一个回归模型，例如线性回归，分段线性回归，岭回归和高斯过程回归等方法学习一个低级特征到人群数的映射关系。

随着深度学习DL被广泛应用于各个研究领域(计算机视觉，自然语言处理等)。DL凭借其出色的特征学习能力，同样被研究人员用于人群计数的研究中。这类方法通过设计深度神经网络，多次提取图像中的人群特征，融合特征图生成人群密度图，最后求和得到图像中的人数，实现人群计数的目的。

在地铁车厢中实现精准的人群计数，当前面临的主要困难是景深过大导致的人群尺度变化太大，常规神经网络无法适应及识别各种尺度的人群特征，故而影响计数的准确度。

发明内容

为了解决现有技术中存在的问题，本发明针对地铁车厢的应用场景提出一种基于新的多尺度神经网络的人群计数方法，通过该方法解决了在严重畸变、大尺度变化的地铁车厢中的人群计数问题。具体来说：

一种面向地铁车厢场景的人群计数方法，其特征是步骤包括：

一、首先采用广角摄像机获取车厢内的图像数据，并对数据进行处理；

二、然后把数据送入人群特征识别网络进行处理，进行人群计数；

在步骤一中，将实时视频按时间截取图片，进行矫正和增强，然后再送入网络；

在步骤二中，，对于实时数据，先判断是稀疏人群数据还是密集人群数据；人群特征识别网络使用权重A和权重B分别用于稀疏和密集人群数据计数；

权重A和权重B的选用方法为：取空无一人的车厢图片作为背景，将得到的实时数据与背景图片进行遮挡比对，当遮挡率小于某个阈值将其认定为稀疏人群数据，读取权重A来进行计数，反之，读取权重B进行计数；

所述人群特征识别网络包括：

网络前端：前端网络采用剔除了全连接层的VGG-16网络，并且采用3×3的卷积核；

上采样层：前端的VGG-16网络中，进行了三次最大池化，用以降低特征图的分辨率；

网络后端：后端网络为三层分支网络，它们分别采用空洞率为2和3的空洞卷积，空洞卷积的定义如下：

其中：x(m,n)是长宽分别为M和N的输入图像信息，经过卷积核w(i,j)得到空洞卷积的输出y(m,n)；参数r表示空洞率；如果r＝1，则空洞卷积是普通卷积；

所述人群特征网络的训练步骤包括：

1)生成密度图：

采用脉冲函数卷积高斯核的方式来定义密度图；

假设标注点的位置为xi，则具有N个头的标签设为H(x)；如果假设在一个人头区域的周围，人群的密度是均匀的，它的最近邻给出了一个对于几何形变的合理的估计；

为了使得密度图能够更好地与不同视角且人群很密的图像对应起来，使用几何适应高斯核的密度图；对于每一个人头的位置点xi，给出了多个近邻距离的平均值di，与xi相关的像素对应于场景中地面上的一个区域，这个区域的半径与di成正比；为了估计xi周围的人群密度，则把H(x)卷积一个自适应的高斯核，这个高斯核的方差σi是可变的并且和di成比例；

2)损失函数

在训练期间，随机梯度下降的学习率固定为1e-6；

采用欧氏距离测量生成的密度图与真实值的距离；使用分块计算损失函数的方法，将高密度区域和低密度区域分别计算损失以减少误差；

3)评估标准

评估人群密度估计模型时，采用均方误差MSE和平均绝对误差MAE，MSE用来描述模型的准确度，MSE越小则准确度越高，MAE能反映出预测值的误差情况。

网络前端的VGG-16网络采用10层卷积层和3层池化层的组合。

附图说明

图1是数据预处理流程示意图；

图2是网络训练流程示意图；

图3是本计数方法的检测计数流程示意图；

图4是本技术方法的整体流程示意图；

图5是空洞卷积示意图。

具体实施方式

下面结合附图与具体实施方式对本方案进一步说明：

一、方案概述：

1、预训练部分

1.1、数据预处理：

参考图1，由于摄像机拍摄的数据是具有严重畸变的视频文件，人群不同的畸变程度严重影响了网络对人头特征的识别，因此，数据预处理部分如图一所示，包含截取单帧图片、畸变处理、图像增强三个主要步骤。

1.2、网络预训练

参考图2和4针对尺度变化过大这种情况，首先将图片裁剪为上下两部分，将每一张的尺度变化缩小在可控范围，以便提升人群计数准确率。将人头尺度大的图片送入大尺度网络(空洞率为3的)后端以更好的适应大尺度人群；人头尺度小的图片送入小尺度后端(空洞率为3的)网络以适应小尺度人群。网络分别进行两次训练，首先使用的数据是地铁早晚高峰时段的数据，这个时段的数据集具有人群密集遮挡严重的特点，训练结束后得到的权重B(密集)，第二次使用晚十点或者地铁终点站附近站点的车厢内数据进行训练，数据集特点是人群稀疏，位置随机性大，训练结束后得到权重A(稀疏)。详细流程参考图2、4，

1.3、输出并储存权重

在上述步骤中，使用不同数据集分别得到权重A(稀疏)和权重B(密集)两个权重文件，将其分别存储。由于地铁车厢中人群分布存在时间差异(比如早晚高峰时段车厢内人群密集，晚十点后人群稀疏)，在检测网络中将使用不同权重来适应人群分布的时间差异。

二、实时计数

1、数据预处理：

此步骤与上述步骤1.1的过程大致相同，由于训练数据是进行畸变矫正后的图片，因此检测时需将实时视频按合适时间截取图片，进行矫正、增强，然后送入网络。

现有技术中，广角镜头获得的图片的畸变较为严重，本技术方法中择优选择现有技术中的畸变矫正方法进行处理。

现有技术中，图像增强是通过一定手段对原图像附加一些信息或变换数据，有选择地突出图像中感兴趣的特征或者抑制(掩盖)图像中某些不需要的特征，使图像与视觉响应特性相匹配。在图像增强过程中，不分析图像降质的原因，处理后的图像不一定逼近原始图像。图像增强技术根据增强处理过程所在的空间不同，可分为基于空域的算法和基于频域的算法两大类。

2、人群计数

网络使用单一权重无法同时在稀疏和密集的数据上同时取到很好效果，此处用到步骤1.3中涉及到的权重A和权重B来增强计数性能。具体步骤如图3所示：取空无一人的车厢图片作为背景，将得到的实时数据与背景图片进行遮挡比对，当遮挡率小于某个阈值将其认定为稀疏人群数据，读取权重A来进行计数，反之，读取权重B进行计数。

三、总结：

1、多尺度深度神经网络

设计了多尺度神经网络，解决了常规网络难以适应同一节车厢内、同一张图片中人头尺度变化大的问题。

2、判断分支检测网络

在检测网络之前加入分支判断模块，使检测网络在稀疏和密集数据上都能取得良好的结果，解决了地铁车厢场景下人群时间分布不均的问题。

参考图2，本例的人群特征识别网络构建及训练方法为：

人群特征识别网络包括：

网络前端：

采用剔除了全连接层的VGG-16网络，并且采用3×3的卷积核。研究表明，对于相同大小的感知域，卷积核越小，卷积层数越多的模型要优于那些有着更大卷积核且卷积层数较少的模型。为了平衡准确性和资源开销，这里的VGG-16网络采用10层卷积层和3层池化层的组合。

上采样层

前端采用VGG-16网络中，进行了三次最大池化，使得得到特征图的分辨率降低，这里采用上采样的方法恢复特征图分辨率。

网络后端

后端网络为三层分支网络，分别采用空洞率为2和3的空洞卷积，空洞卷积的定义如下：

x(m,n)是长宽分别为M和N的输入图像信息，经过卷积核w(i,j)得到空洞卷积的输出y(m,n)，其中参数r表示空洞率。如果r＝1则空洞卷积就是普通卷积。实验证明，空洞卷积利用稀疏的卷积核，实现交替卷积和池化操作，在没有增加网络参数和计算规模的前提下增大了感知域，更适合人群密度估计任务。而普通的卷积操作需要增加卷积层数才能获得更大的感知域，而且也增加了更多的数据操作。空洞率为r的空洞卷积操作，K x K的卷积核会被扩大为K+(K-1)(r-1)。图5中卷积核大小为3×3的感知域分别被扩大为5×5和7×7。

网络训练方法

1)生成密度图

生成密度图的方法参考的MCNN(CVPR2016)中的方法。采用脉冲函数卷积高斯核的方式来定义密度图。假设标注点的位置为xi，那么具有N个头的标签可以被表示为

这里把它与高斯函数做卷积变成一个连续的函数。但是这种密度函数假设每个xi在图像空间中是独立的。然而事实上，每个xi是在3D场景中一个人群密度的样本，并且由于透视失真，不同样本xi相关的像素与场景中区域的不同尺度一致。于是为了精确估计群体密度，需要考虑透视变换。如果假设在一个人头区域的周围，人群的密度是均匀的，它的最近邻给出了一个对于几何形变的合理的估计。为了使得密度图能够更好地与不同视角(不同人头大小)且人群很密的图像对应起来，使用几何适应高斯核的密度图，由下式表示：

对于每一个人头的xi点，给出了k个近邻距离的的平均值di，于是，与xi相关的像素对应于场景中地面上的一个区域，这个区域的半径与di成正比。于是，为了估计像素xi周围的人群密度，为我们需要把H(x)卷积一个自适应的高斯核的，这个高斯核的的方差σi是可变的并且和di成比例。

2)损失函数

在训练期间，随机梯度下降的学习率固定为1e-6。采用欧氏距离测量我们生成的密度图与真实值的距离。损失函数定义如下：

N表示batch size，Z表示生成的密度图，ZGT表示密度图ground truth

L2距离作为损失函数存在高估低密度区人群、低估高密度去人群的问题，本文使用分块计算损失函数的方法，将高密度区域(数据对比得出的人群密集区域)和低密度区域分别计算loss以减少这类误差。

3)评估标准

评估人群密度估计模型时，为了与最新的研究进行对比，我们采用普遍被研究人员采用的均方误差(MSE)和平均绝对误差(MAE)，MSE用来描述模型的准确度，MSE越小则准确度越高，MAE能反映出预测值的误差情况。

N表示一次测试序列中图片的数量，Ci表示对图片Xi的预测人数，CiGT表示真实人数

Zl,w表示在长为L宽为W的密度图中(l,w)处的像素值。

在一些场景中，不同时段的人群密度有高低不同。本方案使用分块计算损失函数的方法，将高密度区域(数据对比得出的人群密集区域)和低密度区域分别计算loss以减少这类误差。

以应用于密闭空间的人数统计检测为例，由于在密闭空间内，摄像机采集到的图像具有较大景深，在同一幅采集到的图片中，人头尺度变化大。采用多尺度神经网络进行识别更为合适。

本方案中，加入先验信息的loss：在网络训练时，使用L2距离作为损失函数，传统L2距离作为损失函数存在高估低密度区人群、低估高密度去人群的问题，使用分块计算损失函数的方法，大大减小了这个问题带来的误差，有效的提升了计数准确率。

Claims

1.一种面向地铁车厢场景的人群计数方法，其特征是步骤包括：

在步骤一中，将实时视频按时间截取图片，进行矫正和增强，然后把实时数据送入步骤二进行处理；

在步骤二中，对于实时数据，先判断是稀疏人群数据还是密集人群数据；人群特征识别网络使用权重A和权重B分别用于稀疏和密集人群数据计数；

所述人群特征识别网络包括：

所述人群特征网络的训练步骤包括：

1)生成密度图：

采用脉冲函数卷积高斯核的方式来定义密度图；

2)损失函数

在训练期间，随机梯度下降的学习率固定为1e-6；

3)评估标准

2.根据权利要求1所述的面向地铁车厢场景的人群计数方法，其特征是网络前端的VGG-16网络采用10层卷积层和3层池化层的组合。