CN109272487A

CN109272487A - 一种基于视频的公共区域内人群的数量统计方法

Info

Publication number: CN109272487A
Application number: CN201810935488.5A
Authority: CN
Inventors: 李林洋; 周思远; 豆泽阳
Original assignee: Beijing Information Technology Co Ltd
Current assignee: Beijing Information Technology Co Ltd
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2019-01-25

Abstract

本发明公开了一种基于视频的公共区域内人群的数量统计方法，包括：获取在公共区域安置监控摄像头所传来的视频和视频信息，其中，视频信息包括：监控摄像头编号和拍摄时间；将视频按照帧拆分成一系列的图像；将图像分别进行上采样和下采样操作后，连同原图像一起进入到预先训练好的预测网络模型中，并输出边框信息，所述边框信息为框住人头的边框在图像中的坐标信息；根据边框的数量得到图中的人数。

Description

一种基于视频的公共区域内人群的数量统计方法

技术领域

本发明属于一种基于视频的公共区域内人群的数量统计方法。

背景技术

公共场所，尤其是公共场所中的商业综合体作为一个以购物、娱乐、休闲、餐饮为主的商业组织形式，更关注于集客能力、行销推广、商品展示、客户服务等方面，这需要精细化管理，而精细化管理以事实为依据，用数字说话，决策者、管理者通过结合各种物流传感器得出的数字进行分析，并用这些数据为顾客与商户服务。人群数量数据对公共场所来说是其核心元素，充足有效的人群数量才能提升商业综合体的盈利能力，人群数量不仅是定位和招商的基础，更是综合体是否能成功运营的关键。

宏观地统计人群数量能够概括地证实综合体具体设施的成功运营，从总体上评估和调整综合体的运作，并且对综合体内部作业管理有一定的日常指导作用。

在综合体的日常营运中，人数若过分集中，不但会降低公共设施与服务人员的服务品质，同时如果拥挤度到达一定程度，必然会降低顾客的舒适感与享受度；而在某些时段，如果顾客人数过少，场面冷清，则会严重降低顾客的购买意愿，这样也不利于购物中心的有效经营。根据人群数量的变化，有效分配和安排物业管理人员、维护人员、安保人员、保洁人员等，合理利用人力资源。根据分析当前人群数量状况和变化趋势，可以对人群数量比较大的区域采取预防突发事件的措施。

然而，由于公共场所的环境复杂，监控像头安装位置有各种限制，如何在不同距离、复杂背景的情况下对公共场所人群数量进行精确统计称为一个难题。以前的一些经典算法如SVM等由于只对图像特征做初等建模，提取的是图像的简单特征，因此并不能在复杂场景下对公共场所人群数量做精准统计。

目前，现有技术存在以下的方法：

(1)红外线感应统计方式：红外感应人群数量统计设备可以分为：红外对射方式、红外反射方式等设备，其主要的实现方式是对从红外感应区域经过的人体，切断或阻挡红外线使其产生电阻变化、或是通过检测人体发出的10um左右的特定红外线来判断人体数量。此方式成本比较适中，可以在人们自由进出门口时，系统自动获取人群数量数据，设备较小且安装美观。

此技术有固有的缺点：

其一，由于红外光极易受到外界因素干扰，使其统计数据产生较大误差；对于比较宽的门口，多人同时经过的时候也容易产生漏数现象；

其二，由于其本身技术原因，红外方式只能判断过某一横截面的人群数量数量，没法给出全局的人群数量统计。

(2)基于传统机器视觉的人群数量统计方法：将视频分割成图像后输入特征提取器提取角点、直线等特征信息，然后将提取的特征输入如SVM、集成学习器等传统机器学习模型中获得当前画面的人数。

受限于算法表达能力，实际的准确度也相对不高，一般能达到80％左右，在光线变化的情况下会低到60％或更低。

(3)基于双目视觉的人群数量统计方法：主要使用两个相同的摄像头，类似人的双眼，两个摄像头取得的图像，经过一系列的计算，得到3D的图像。在双目人群数量中，最大的优势是获取了实际场中的第三维信息，就是人的高度信息，因些，只用检测高度在1米到2米之间高度图像，使用两个相同的摄像头，类似人的双眼，两个摄像头取得的图像，经过一系列的计算，得到3D的图像。由人的头部在最高位置，因些很容易就可以得到人的位置信息，而且可以排除灯光，阳光等干扰。

双目视觉的人群数量统计对像头安装要求较高，要求像头必须垂直于地面安放，观察范围一般较窄，不适合大范围的人群数量统计。

发明内容

为了解决这一问题，本发明提供了一种基于视频的公共区域内人群的数量统计方法。

本发明解决上述技术问题所采取的技术方案如下：

一种基于视频的公共区域内人群的数量统计方法，包括：

获取在公共区域安置监控摄像头所传来的视频和视频信息，其中，视频信息包括：监控摄像头编号和拍摄时间；

将视频按照帧拆分成一系列的图像；

将图像分别进行上采样和下采样操作后，连同原图像一起进入到预先训练好的预测网络模型中；

输出边框信息，所述边框信息为框住人头的边框在图像中的坐标信息，根据边框的数量得到图中的人数。

优选的是，所述预测网络模型，根据以下方法训练而成：

步骤1)获取在公共区域内安置监控摄像头所传来的视频和视频信息，其中，视频信息包括：监控摄像头编号和拍摄时间；

将视频按照帧拆分成一系列的图像，并用边框标出图像中人的头部，标注的边框信息为边框在图中的坐标，并以此作为训练样本中的训练标签信息；

对标注的边框信息进行聚类，得出不同大小的边框模板；

步骤2)根据训练样本和边框信息，构建训练样本集合，其中，该样本集合中包括：人头正样本和背景负样本；

步骤3)对上述训练样本集合进行采样，其中，采样过程中保留人头样本周围的全部信息作为正样本，并使用随机采样来构建正负样本；

步骤4)将获得的训练样本输入区域定位网络进行训练，根据训练结果更新网络参数；

步骤5)网络训练好后，输出边框信息，将输出的边框信息使用非极大值抑制算法进行处理，得到最终输出边框。

优选的是，步骤1)中，使用MATLAB为标注工具，聚类算法使用Kmeans算法；步骤4)区域定位网络选择VGG16网络；

视频图片的分辨率应在1280×720以上，边框的坐标分为边框左上角与右下角的横纵坐标；

还包括：将图像做上采样、下采样操作，对应的边框坐标也相应乘以、除以对应的采样系数。

优选的是，将边框输入Kmeans算法中做聚类操作，输出边框模板，包括：

给定样本集D＝x1,x2,…,xm,假设有k个类，则：

子步骤11)根据事先选择好的k，随机在原始样本中选择初值，这些初值就当做是k个中心；

子步骤12)对所有的点x1,x2,…,xm，计算每个点跟这k个中心的距离；

子步骤13)每个点计算得到k个距离，选取最近的那个距离，把这个点归到该类别；

子步骤14)重新计算每个类别的中心点，然后更新一下这些k个类别的中心；

子步骤15)当类别中心不再变化时，算法终止，输出每个类的中心点，即聚类后的边框模板，否则从子步骤12)开始重复。

优选的是，步骤2)，还包括：

将边框在正样本附近扰动，通过计算扰动后的边框与原边框的交并比来判断扰动边框是否是新的正样本，其中，交并比为扰动后的边框与原边框的相交面积与相并面积的比值；

当交并比大于0.7时，作为正样本；

当交并比小于0.3时作为负样本，交并比在0.7到0.3之间的不作为训练样本。

优选的是，步骤3)包括：按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

优选的是，步骤4)中，包括：

得到训练数据与对应的边框信息后，将训练数据和边框标签一起输入VGG16网络中，使用后向传播算法进行训练，训练好的网络即为预测网络模型。

将待处理图像输入预测网络模型中，提取图像的特征，最终输出人头的得分热力图与人头的边框信息。

优选的是，步骤5)中，具体包括：

子步骤51)将所有框的得分排序，选中最高分及其对应的框；

子步骤52)遍历其余的框，如果和当前最高分框的重叠面积大于一定阈值，就将框删除；

子步骤53)从未处理的框中继续选一个得分最高的，重复上述过程，直到未处理的框为空集。

优选的是，步骤1)中，还包括：

提前制作一个感兴趣区域(opencv ROI)掩码；

若当前像素值属于感兴趣区域，则掩码的值为1，否则为0，将图像乘以对应的掩码，作为输出进行步骤1操作。

本专利考虑使用深度学习对监控像头拍摄到的画面进行建模学习，使得模型自动学习出复杂、抽象的特征，实现准确的人群数量统计。包括：对待学习的图像数据进行图像预处理；利用深度学习引擎对处理后的图像数据进行训练，获得区域定位深度学习模型；使用区域定位深度学习模型对接收的图像数据进行识别。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于视频的公共区域内人群的数量统计方法的流程示意图；

图2是本发明基于视频的公共区域内人群的数量统计方法的流程示意图；

图3是本发明中卷织神经网络的处理示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为解决以上问题，本方法采用深度学习技术，使用卷积神经网络来提取图像的人头有关特征，使得模型的准确率更高，使用范围更广。

具体思路如下：将监控像头拍到的图片/视频流存储在数据库，作为模型的输入等待随时调用。如果像头拍摄图片尺寸过大，则需要对图片事先进行裁剪。将图片输入模型中，模型提取与人头相关的特征，并进入两个回归器中。一个回归器用来检测特定位置是否存在人头，另一个回归器用来检测人头的具体位置。

考虑到人的机动性，不同的人可以出现在不同位置，而不同位置对应到监控像头的距离不同，导致人头的尺度会发生较大变化。因此，将不同位置的人头尺寸进行聚类，不同尺寸的人头采取不同的特征提取方式，最终得到不同尺度下的人头的特征。

具体来说，一种基于视频的公共区域内人群的数量统计方法，包括：

将视频按照帧拆分成一系列的图像；

优选的是，所述预测网络模型，根据以下方法训练而成：

对标注的边框信息进行聚类，得出不同大小的边框模板；

其中，在一个实施例中，使用公共区域进行人群数量统计流程如下：

首先，在公共区域安置监控摄像头，返回拍摄的图像与对应的信息。对应的信息包括监控像头编号、时间。将图像进行收集，然后对图像进行人工标注，标出图像中人的头部，以此为训练标签信息。对标注的边框信息进行聚类，得出不同大小的边框模板。

其次，根据上一步所提取的训练样本及边框，构建原始的训练样本集合，该样本集合包含得到人头正样本与背景负样本。由于正常情况中，人在图中所占比例较少，本步骤所构建的样本集分布为非常不均衡集合。

针对不均衡分布的原始训练样本集进行采样。由于人头为少量样本，采样过程中保留人头样本周围的全部信息作为正样本。按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

将获得的训练样本输入区域定位网络训练，更新网络参数。

将训练好的网络后端接非极大值抑制层。

将测试图像分别进行上采样和下采样操作后，连同原图像一起进入网络进行预测，输出边框信息，根据边框数量直接得到图中的人数。

实施例一：

在上述步骤中，以空旷广场为例，对本专利进行实例描述。使用MATLAB为标注工具，聚类算法使用Kmeans算法。区域定位网络可以采用常用的网络结构，如采用VGG16网络。

1)获取广场的人群图片并对获得的数据图像做人为标注，标注信息为边框在图中的坐标。其中，图片的分辨率应在1280×720以上，边框的坐标分为边框左上角与右下角的横纵坐标。随后，将图像做上采样、下采样操作，对应的边框坐标也相应乘以、除以对应的采样系数。最后，将边框输入Kmeans算法中做聚类操作，输出边框模板。至此完成训练数据预处理。Kmeans算法流程如下：给定样本集D＝x1,x2,…,xm,假设有k个类，则

1、根据事先选择好的k，随机在原始样本中选择初值，这些初值就当做是k个中心。

2、对所有的点x1,x2,…,xm，计算每个点跟这k个中心的距离。

3、每个点计算得到k个距离，选取最近的那个距离，把这个点归到该类别。

4、重新计算每个类别的中心点，然后更新一下这些k个类别的中心。

5、当类别中心不再变化时，算法终止，否则从第2步继续重复。

2)根据上一步所提取的训练样本及边框，构建原始的训练样本集合，该样本集合包含得到人头正样本与背景负样本。将边框在正样本附近扰动，通过计算扰动后的边框与原边框的相交面积与相并面积的比值(交并比)来决定扰动边框是否是新的正样本。当交并比大于0.7时，作为样本，当交并比小于0.3时作为负样本，交并比在0.7到0.3之间的不作为训练样本。由于正常情况中，人在图中所占比例较少，本步骤所构建的样本集分布为非常不均衡集合。

3)针对不均衡分布的原始训练样本集进行采样。由于人头为少量样本，采样过程中保留人头样本周围的全部信息作为正样本。使用随机采样来构建正负样本。按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

4)得到训练数据与对应的边框后，将数据和边框标签输入VGG16网络。VGG16网络为一个卷积神经网络，用来提取图像的特征。以下介绍卷积神经网络的一层卷积层与池化层，VGG16网络为这两种基础结构的堆叠。

卷积层结构：假设实施方案中输入的训练图像为X、输出特征为Y，卷积核为W。卷积过程可以理解为卷积核W覆盖在输入图像X的一个局部的面上，W对应位置的权重乘于X对应神经元的输出，对各项乘积求和，经过非线性变换(如sigmoid函数或线性修正单元Relu)，最终赋值到Y矩阵的对应位置。卷积核在X图中从左向右，从上至下每次移动一个位置，完成整张X的卷积过程。以sigmoid函数，整个流程的数学表达式为：

Y＝W*X+b

其中*为卷积算子，b为偏置权重信息。

池化层：池化层有两种结构，一种是均值池化，一种是最大值池化。两种子采样看成特殊的卷积过程。若池化为均值池化，卷积核的权重为0.25，卷积核在输入图像X上的滑动的步长为2，则均值子采样将特征图压缩至至原来的1/4。若池化为最大值池化，则最大值采样的卷积核中各权重值中只有一个为1，其余均为0，卷积核中为1的位置对应X被卷积核覆盖部分值最大的位置。若卷积核的滑动步长为2，则最大值采样把特征图缩减至原来的1/4，并保留局部特征的最强点。

在卷积神经网络的卷积层，卷积核本质是神经元之间相互连接的权重，而且该权重被属于同一特征图的神经元所共享。在实际的网络训练过程中，输入神经元组成的特征图被交叠切割成卷积核大小的小图。每个小图通过卷积核与后层特征图的一个神经元连接。一个特征图上的所有小图和后层特征图中某个神经元的连接使用的是相同的卷积核，也就是同特征图的神经元共享了连接权重。训练过程采用后向传播算法进行，用来更新每一层的W和b。以第l层为例，后向传播计算如下所示：

其中J为网络的损失函数，z为网络每一层的特征图，a为经过激活函数后的特征图，δ为每一层的后向传播误差。rot180表示将特征图旋转180度。最终模型输出为物体是人头的得分与人头的边框信息。如图3，是输入后的示意图。

5)由于模型预测出的边框有非常多重叠的部分，将预测的边框使用非极大值算法进行处理，输出去重后的边框信息。非极大值抑制的算法流程为：

(1).将所有框的得分排序，选中最高分及其对应的框；

(2)遍历其余的框，如果和当前最高分框的重叠面积大于一定阈值，就将框删除。

(3)从未处理的框中继续选一个得分最高的，重复上述过程。直到未处理的框为空集。

6)整个模型训练完成后，将测试图像分别上采样、下采样，连同原图分别输入网络中，得到输出的边框信息。由边框个数即可得知当前图像中的人数。

实施例2:

下以狭长空间为例，对本专利进行实例描述。对于狭长空间来说，监控像头会拍摄到多余的场景，因此需要将多余的场景去除。去除方法为提前制作一个感兴趣区域掩码，若当前像素值属于感兴趣区域，则掩码的值为1，否则为0。将图像乘以对应的掩码后，作为步骤1的输入进行处理，执行与实例1相同的操作即可。

其中，在复杂场景中进行公共场所人群数量统计充满了挑战，对于例如广场这样的宽阔公共区域来说，如何使用最少的像头来精确统计人群数量量为重中之重。在实际工作中，在保证统计的灵活性的同时又不失准确性是当前人群数量统计的一个痛点。

基于这种观察，本专利采用深度学习这一工具，通过人工标注大量人头训练数据，使用区域定位网络进行训练，达到在不同距离与复杂场景等条件下都能较为准确的统计图像中人的个数的要求。所提出的方法处理速度较快，同时精度较高，能够灵活适应多场合下的人群数量统计工作。

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的公共区域内人群的数量统计方法，包括：

将视频按照帧拆分成一系列的图像；

2.根据权利要求1所述的基于视频的公共区域内人群的数量统计方法，其特征在于，所述预测网络模型，根据以下方法训练而成：

对标注的边框信息进行聚类，得出不同大小的边框模板；

3.根据权利要求1所述的基于视频的公共区域内人群的数量统计方法，，其特征在于，步骤1)中，使用MATLAB为标注工具，聚类算法使用Kmeans算法；步骤4)区域定位网络选择VGG16网络；

4.根据权利要求2所述的基于视频的公共区域内人群的数量统计方法，其特征在于，将边框输入Kmeans算法中做聚类操作，输出边框模板，包括：

给定样本集D＝x1,x2,…,xm,假设有k个类，则：

5.根据权利要求1所述的基于视频的公共区域内人群的数量统计方法，其特征在于，步骤2)，还包括：

当交并比大于0.7时，作为正样本；

6.根据权利要求1所述的基于视频的公共区域内人群的数量统计方法，其特征在于，步骤3)包括：按照预设的采样比例为p，从训练图像样本中随机选取p个正样本与4p个负样本。

7.根据权利要求2所述的基于视频的公共区域内人群的数量统计方法，，其特征在于，步骤4)中，包括：

8.根据权利要求2所述的基于视频的公共区域内人群的数量统计方法，，其特征在于，将待处理图像输入预测网络模型中，提取图像的特征，最终输出人头的得分热力图与人头的边框信息。

9.根据权利要求1所述的基于视频的公共区域内人群的数量统计方法，其特征在于，步骤5)中，具体包括：

子步骤51)将所有框的得分排序，选中最高分及其对应的框；

10.根据权利要求2所述的基于视频的公共区域内人群的数量统计方法，其特征在于，步骤1)中，还包括：

提前制作一个感兴趣区域(opencv ROI)掩码；