CN105160313A

CN105160313A - 视频监控中人群行为分析的方法及装置

Info

Publication number: CN105160313A
Application number: CN201510540230.1A
Authority: CN
Inventors: 匡金骏; 颜卓; 周曦; 王秀英; 贺光明; 周祥东; 石宇; 易敏; 鲁江坤
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2014-09-15
Filing date: 2015-08-28
Publication date: 2015-12-16

Abstract

本发明适用于视频监控技术，涉及一种视频监控人群行为分析的方法及装置，所述方法包括：获取视频流，将视频流中每帧图像按行人身高作为尺度基准，分成不同透视程度的图像子块；提取图像子块中的深层神经网络特征；分类优化该深层神经网络特征，得到相应的向量特征集，根据向量特征集，建立不同核函数的SVR数学模型，统计不同密度人群的人数；采用摄像机标定方法，获取深层神经网络特征的坐标向量，对比前后两帧图像子块的深层神经网络特征的位移，根据位移计算人群的移动方向与移动速度。本发明通过对视频监控中的人群进行跟踪分析，获取人群移动的速度、方向、人数等特征信息，同时与历史数据分析比较，对人群态势做出判断，对异常事件报警。

Description

视频监控中人群行为分析的方法及装置

技术领域

本发明属于视频监控技术领域，特别是涉及一种视频监控中人群行为分析的方法及装置。

背景技术

视频监控是安全防范系统的重要组成部分，它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来，随着计算机、网络以及图像处理、传输技术的飞速发展，视频监控技术也有了长足的发展。通过视频监控对“人群整体特征”进行分析，实现对“人群异常聚集”和“特殊人群特征”等的实时监测和预警，及时发现人群拥堵和预防群体性事件、非法集会等具有重要的意义，是维护公共场所人员安全的重要手段。

然而，现有的针对人群密度与人数统计的方法主要为两种，其中，一种是基于像素统计的人群特征提取，通过对全局特征和内部边缘特征的研究，分析人群的数量和遮挡关系；另一种是基于纹理分析的人群特征提取，通过对不同密度人群所体现出来的模式不同进行人群密度分析，同时结合基于人体分割技术进行人数统计，获取人数信息。上述两种方法通过前景像素提取、前景像素边缘分析及像素纹理特征分析的人群密度和人数统计分析技术只适合分析低密度人群或者高密度人群。究其原因在于：在视频监控录像时，会随着时间的不同，导致在不同时间段内出现不同程度的人群拥挤，现有的监控方法不能既适合低密度人群也适合高密度人群的行为分析，同时，不能通过视频监控准确获取人群的特征信息。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种视频监控中人群行为分析的方法及装置，用于解决低密度人群与高密度人群的视频监控中通用人群行为分析；同时，输出视频监控中人群数目、人群移动速度与移动方向。

为实现上述目的及其他相关目的，本发明提供一种视频监控中人群行为分析的方法，包括：

获取监控区域内的视频流；

根据所述视频流中每帧图像的行人身高作为尺度基准，将每帧图像分成若干不同透视程度的图像子块；

提取所述图像子块的特征描述子，其中，所述特征描述子包含深层神经网络特征；

分类优化所述深层神经网络特征，得到所述图像子块的向量特征集；

根据所述图像子块中向量特征集与图像人数，建立不同核函数的SVR的数学模型；

根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数；

采用摄像机标定方法，获取所述深层神经网络特征的坐标向量；

对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度。

发明的另一目的还在于提供一种视频监控中人群行为分析的装置，所述装置包括：

获取模块，适用于获取监控区域内的视频流；

分块模块，适用于根据所述视频流中每帧图像的行人身高作为尺度基准，将每帧图像分成若干不同透视程度的图像子块；

提取模块，适用于提取所述图像子块的特征描述子，其中，所述特征描述子包含卷积神经网络；

分类优化模块，适用于分类优化所述深层神经网络特征，得到所述图像子块的向量特征集；

模型建立模块，适用于根据所述图像子块中向量特征集与图像人数，建立不同核函数的SVR的数学模型；

统计模块，适用于根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数；

转换模块，适用于采用摄像机标定方法，获取所述深层神经网络特征的坐标向量；

计算模块，适用于对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度。

如上所述，本发明为一种视频监控中人群行为分析的方法及装置，具有以下有益效果：

根据从监控视频中获取视频流，将所述视频流中每帧图像按照行人身高作为尺度基准，将每帧图像分成若干不同透视程度的图像子块，提取所述图像子块中深层神经网络特征，采用WFS分类器与Simile分类器分类优化所述深层神经网络特征，得到对应的特征向量集，调用预先建立不同核函数的SVR的数学模型，根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数；采用摄像机标定方法，获取所述深层神经网络特征的坐标向量，对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度。通过对视频图像中的进行人群运动的分析跟踪，获取监控区域内量化地的人群移动速度、密度、人数等特征信息，同时与历史数据分析比较，对人群态势做出判断，对异常事件报警。

附图说明

图1显示本发明的实施例中提供的视频监控中人群行为分析的方法流程图；

图2显示本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S103的流程图；

图3显示本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S104的流程图；

图4显示本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S106的流程图；

图5显示本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S108的流程图；

图6显示本发明的实施例中提供的经WFS分类器处理生成后的样本图；

图7显示本发明的实施例中提供为计算透视关系的方法处理后图像子块；

图8显示本发明的实施例中提供的视频监控中人群行为分析的装置结构框图；

图9显示本发明的实施例图8中提供的计算模块的结构框图。

附图标号说明：

1、获取模块，2、分块模块，3、提取模块，4、分类优化模块，5、模型建立模块，6、统计模块，7、转换模块，71、转换单元，8、计算模块，81、比较单元，82、计算单元。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种视频监控中人群行为分析的方法流程图；具体包括：

在步骤S101，获取监控区域内的视频流；其中，所述视频流为视频图像，所述视频图像包括本地视频图像与在线视频图像。

在本实施例中，获取视频图像包括本地存储系统监视器或者录像机生成的视频文件，也包括监视器或者录像机正在录制的视频文件，当获取所述视频文件进行相应的视频解码。

在步骤S102中，根据所述视频流中每帧图像的行人身高作为尺度基准，将每帧图像分成若干不同透视程度的图像子块；

在步骤S103中，提取所述图像子块的特征描述子，其中，所述特征描述子包含深层神经网络特征。

如图2所示，为本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S103的流程图，包括：

在步骤S301中，将待分析的每帧图像子块缩放为同一大小的N×N像素的图像；

在步骤S302中，再将每帧图像分成2N个1/8N×1/8N像素的子图像区域，每1/8N个相邻的子图像区域可组成1个1/4N×1/4N的图像，每帧图像子块共包括2N-15个子图像子块；

在步骤S303中，根据15°的精度统计每个子图像子块在0-180°内的深层神经网络特征，并将归一化后的深层神经网络特征作为12维的局部特征；

在步骤S304中，串联所有子图像子块的局部特征为12×(2N-15)维的图像深层神经网络特征，以得到待分析的所述每帧图像子块的特征描述子。

在本实施例中，所述深层神经网络特征实际为(卷积神经网络ConvolutionalNeuralNetwork,CNN)，此特征的提取是基于Caffe深度学习网络模型进行的，在所述分块的视频步骤如下：首先，输入图片统一尺寸到224*224大小，卷积核大小为5*5像素，采用7层卷积神经网络，步长为4，由于采用权值共享策略，因此第一层卷积每个Featuremap的可训练参数为26个，连接数为44*44*25＝48400个，之后每层以此类推。然后进行池化处理，池化的过程为：对相邻的四个像素求和，然后通过标量W加权，再增加偏置b，然后通过一个sigmoid激活函数，产生一个大概缩小四倍的特征映射图P。直到特征图变为1*1维，进行全连接，最终得到每一个rect的特征向量。最后，得到所有子图像块的局部特征为1024维的图像深层神经网络特征。

在步骤S104中，分类优化所述深层神经网络特征，得到所述图像子块的向量特征集。

其中，单纯的图像像素是无法判断所述图像的显示内容，因此，像素级特征在分析人群行为的过程是不起作用的，因此，通过深层神经网络特征将图像经过多层处理，依靠神经网络模型中浅层学习和深层学习，获取相应的深层神经网络特征。

如图3所示，为本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S104的流程图，包括：

其中，调用分类器对所述图像子块中深层神经网络特征进行分类优化，其中，所述分类器包括WFS分类器与Simile分类器，所述WFS分类器对所述图像子块中深层神经网络特征进行分类，所述Simile分类器对所述图像子块中深层神经网络特征进行优化；

步骤S401中，当所述WFS分类器对所述图像子块中深层神经网络特征进行分类时，根据预先调测的WFS分类器按照K近邻分类算法进行分类，并用向量表示生成相应的分类结果；

如图6所示，为本发明的实施例中提供的经WFS分类器处理生成后的样本图，详述如下：

在本实施例中，所述WFS分类器在进行深层神经网络特征进行分类时，首先，按照45度的精度将深层神经网络特征中的行人朝向划分为八个部分，即八个样本，为了提升WFS树结构检测器的效率，采用需要先采取K近邻分类算法进行分类，八类样本合并成四类，卷积神经网络统计图反映了和KNN聚类算法相同的结果。假设统计曲线越接近的两类姿态共同性越多，在树结构第二层更适合合并成一类。卷积神经网络统计图反映了和KNN聚类算法相同的结果。树结构第二层的每个节点有6个子节点，反映各种视角下头肩比的差异。检测器测试样本时，样本必须通过树的叶节点才能够被识别为目标(正样本)。当样本通过最底层的多个节点时，样本的姿态为置信度最高的叶节点决定。

采用WFS分类器为(width-first-search)树结构算法的检测器，所述WFS相对于并行cascade检测方法、金字塔结构检测方法、决策树结构算法，拥有实时性高、运算量小、连贯性强的优点。

步骤S402中，当所述Simile分类器对所述图像子块中深层神经网络特征进行优化时，根据分类结果中的图像特征与预先设置的参考图像特征相似性，生成向量特征集。

通过LBP特征提取可以将图像子块较高的特征维数转化为较低特征维数向量，它通过比较中心像素点和其邻域像素点的值进而产生一串比特流来描述该点的纹理特征。ULBP特征改进了原始的LBP特征，它不仅将原始的LBP特征从128维降低到59维，降低了特征提取的复杂度，同时还增强了该特征抵抗噪声的能力。ALBP特征降低了ULBP特征的维数，从原始的59维ULBP特征降低为16维特征。ULBP特征的编码可看作是“1”弧线(白弧)和“0”弧线(黑弧)连接而成。用白弧长度和白弧起点表示ULBP特征，即得到ALBP特征。

所述ALBP特征统计了背景纹理和行人纹理，但缺乏准确描述行人的能力，因此将经过ALBP特征提取后图像特征，经过simile分类器优化，“simile”分类器的基本思想是：物体的属性可以用与它同范畴的其它物体的属性比较得到。对于人群计数问题，一幅图像的人数可以和其它图像的人数相比较得到。在人脸识别问题中采用simile分类器显著的提高了识别率，同时，也增强了ALBP特征描述人数的能力。

在步骤S105中，根据所述图像子块中向量特征集与图像人数，建立不同核函数的SVR的数学模型。

采用支撑向量回归机制，建立所述图像子块中向量特征集与图像人数之间的SVR数学模型，获取不同核函数的SVR数学模型，其中，所述核函数包括线性函数与基核函数。

在步骤S106中，根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数。

在步骤S107中，采用摄像机标定方法，获取所述深层神经网络特征的坐标向量。

在步骤S108中，对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度。

步骤S102的图像分块，如图7所示，为本发明的实施例中提供为计算透视关系的方法处理后图像子块；

根据视频图像中基准计算透视关系的方法，对获取的视频图像按照所述视频图像中人体身高进行分块处理，生成相应的图像子块。

人群计数问题不需要知道摄像机参数的数值，但需要计算行人姿态或者大小在图像中变化的规律。在图像顶左坐标系中，行人身高(或者行人面积)随着图像纵坐标减小而增加，故该摄像机透视关系可以表示为图像中行人身高和图像位置的函数。基于该函数关系将连续的透视效果离散化：将图像分成多个子图像块，并认为每个子图像块中的透视程度一致，以消除透视效果对特征的影响，具体方法如下：

假设摄像机拍摄平面场景，所有行人的身高均为h，图像中y轴方向上行人的身高为H，图像中行人脚的纵坐标为y₁，那么有如下数学关系：

H＝k·y₁+b(1)

式(1)中，k、b为反映图像平面上行人大小与图像位置关系的两个变量。对于待估计人数的视频或者图像，用户仅需在图像中指定多个行人的头和脚的位置，根据式算法自动将图像分成多个图像子块。因此，为了得到较准确的k、b值和较好的分块效果，优选在多幅图像的不同位置指定多个行人的位置。

是按照上述方法计算的图像分块结果。每个子图像块中行人的大小并没有明显的差异，便于用同一个特征描述行人，算法通过估计每个图像子块人数以达到人群计数的目的。对于只有部分身体在子图像块中时，按照行人的面积计数。

如图4所示，为本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S106的流程图，详述如下：

在步骤S601中，当所述图像子块的人群表示为拥挤程度时，调用基核函数到数学模型中，计算所述图像子块中人群人数；

在步骤S602中，当所述图像子块的人群表示为稀疏程度时，调用线性函数到数学模型中，计算所述图像子块中人群人数。

在本实施例中，对于分类优化后的图像特征，使用向量回归机(SVR)建立所述图像特征与所述图像人数的数学模型(即数学关系)，采用向量回归机具有结构简单、全局最优解、泛化能力强等优点，当获取到分类优化后图像子块i，根据训练样本中图像特征与图像人数训练SVR模型，所述SVR模型估计人数的表达式如下：

f (x) = Σ_{i = 1}^{1} (a_{i} - {a_{i}}^{*}) * K ({\overset{&OverBar;}{x}}_{i}, x) + b - - - (2)

式(2)中，a_i和a_i ^*为拉格朗日乘子，为支持向量，x为图像特征，f(x)为估计的图像人数，为代表核函数，b为常数。当人群稀疏时，通常认为深层神经网络特征和图像人数是线性关系，所以设为线性核。

然而，当图像子块中人群密度较高，因为行人之间相互遮挡，造成统计图像特征与图像人数不清楚，影响人数估计准确性；另外，SVR模型中在训练人数分布范围也会存在一定程度的影响SVR模型估计值；如果用人数偏低的样本训练模型，那么该模型的估计人数值很有可能偏低。所以，根据不同的人群密度，需要使用不同的核函数才能够得到更满意的实验结果。

在本实施例中，判断图像子块是否人群拥挤时，根据判断的结果调用两个不同的SVR核函数。

当图像子块中人群密度为拥挤时，采用径向基核函数，如下：

K ({\overset{&OverBar;}{x}}_{i}, x) = e^{- g * {({\overset{&OverBar;}{x}}_{i} - x)}^{2}} - - - (3)

式(3)中，为径向基核函数，所述g为常数，为支持向量，x为图像特征。

当图像子块中人群密度不拥挤时，即稀疏时，采用线性函数，如下：

K ({\overset{&OverBar;}{x}}_{i}, x) {\overset{&OverBar;}{x}}_{i}^{T} * x - - - (4)

式(4)中，为基函数，T为常数，为支持向量，x为图像特征。

步骤S106中，所述采用摄像机标定方法，获取所述深层神经网络特征的坐标向量，具体包括：

采用摄像机标定方法，将同一所述图像子块中的同一深层神经网络特征，通过所述转换矩阵，将所述深层神经网络特征由摄像机坐标系转换为世界坐标系，获取所述深层神经网络特征的坐标向量。

如图5所示，本发明的实施例图1中提供的视频监控中人群行为分析的方法步骤S108的流程图；具体包括：

步骤S801，获取前后两帧同一所述图像子块中同一深层神经网络特征坐标向量，将所述深层神经网络特征的坐标向量进行差分运算，获取深层神经网络特征的位移；

步骤S802，根据所述位移的大小与方向、以及前后两帧图像子块之间的时间差，计算所述图像子块中行人的移动速度与移动方向。

在本实施例中，采用传统的KLT特征点跟踪方法进行目标对应特征点的跟踪，通过特征点跟踪结果获取速度与方向的估计。首先，采用KLT特征点跟踪算法计算得到相同特征点在前后两帧的位置，由摄像机标定方法可以计算由图像平面到世界平面的转换矩阵，转换矩阵将像素坐标的特征点计算到该点表示的世界坐标，即获取所述深层神经网络特征的坐标，根据前后两帧同一深层神经网络特征，计算坐标向量；将所述深层神经网络特征向量进行差分运算，获取深层神经网络特征的位移；根据所述位移除以时间间隔计算出人员移动的速度，同时计算运动方向，并计算所有特征点的平均速度和方向，得到最终速度和方向。最后，采用均值滤波，得到更加稳定的速度和方向，从而确定出人群所需要的特征信息。

在本实施例中，在以往的历史数据中，通过对比人群特征数据库历史数据，设置预设人群特征警报值，包括预设的人群人数、人群方向与人群移动速度；当计算的所述人群的人数超过预设的人群人数时，自动进入报警程序，以报警声通知相关操作人员；当人群朝某一个方向的移动速度低于预设的人群移动速度时，自动进入报警程序，以报警声通知相关操作人员；同时，可以根据预设人群特征信息，综合设置报警程序的启动条件，达到更适宜的监控设置。

如图8所示，为本发明的实施例中提供的视频监控中人群行为分析的装置结构框图，所述装置包括：

获取模块1，适用于获取监控区域内的视频流；

分块模块2，适用于根据所述视频流中每帧图像的行人身高作为尺度基准，将每帧图像分成若干不同透视程度的图像子块；

提取模块3，适用于提取所述图像子块的特征描述子，其中，所述特征描述子包含卷积神经网络特征；

分类优化模块4，适用于分类优化所述深层神经网络特征，得到所述图像子块的向量特征集；

模型建立模块5，适用于根据所述图像子块中向量特征集与图像人数，建立不同核数的SVR的数学模型；

统计模块6，适用于根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数；

转换模块7，适用于采用摄像机标定方法，获取所述深层神经网络特征的坐标向量；

计算模块8，适用于对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度。

其中，转换单元71，适用于根据摄像机标定方法，将同一所述图像子块中的同一深层神经网络特征，通过所述转换矩阵，将所述深层神经网络特征由摄像机坐标系转换为世界坐标系，获取所述深层神经网络特征的坐标向量。

如图9所示，为本发明的实施例图8中提供的计算模块8的结构框图，所属计算模块包括：

比较单元81，适用于获取前后两帧同一所述图像子块中同一深层神经网络特征坐标向量，将所述深层神经网络特征的坐标向量进行差分运算，获取深层神经网络特征的位移；

计算单元82，适用于根据所述位移的大小与方向、以及前后两帧图像子块之间的时间差，计算所述图像子块中行人的移动速度与移动方向。

综上所述，本发明根据从监控视频中获取视频流，将所述视频流中每帧图像按照行人身高作为尺度基准，将每帧图像分成若干不同透视程度的图像子块，提取所述图像子块中深层神经网络特征，采用WFS分类器与Simile分类器分类优化所述深层神经网络特征，得到对应的特征向量集，调用预先建立不同核函数的SVR的数学模型，根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数；采用摄像机标定方法，获取所述深层神经网络特征的坐标向量，对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度。通过对视频图像中的进行人群运动的分析跟踪，获取监控区域内量化地的人群移动速度、密度、人数等特征信息，同时与历史数据分析比较，对人群态势做出判断，对异常事件报警。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种视频监控中人群行为分析的方法，其特征在于，包括：

获取监控区域内的视频流；

2.根据权利要求1所述的视频监控中人群行为分析的方法，其特征在于，所述提取所述图像子块的特征描述子，其中，所述特征描述子包括深层神经网络特征，具体包括：

将待分析的每帧图像子块缩放为同一大小的N×N像素的图像；

再将每帧图像分成2N个1/8N×1/8N像素的子图像区域，每1/8N个相邻的子图像区域可组成1个1/4N×1/4N的图像，每帧图像子块共包括2N-15个子图像子块；

根据15°的精度统计每个子图像子块在0-180°内的深层神经网络特征，并将归一化后的深层神经网络特征作为12维的局部特征；

串联所有子图像子块的局部特征为12×(2N-15)维的图像深层神经网络特征，以得到待分析的所述每帧图像子块的特征描述子。

3.根据权利要求1所述的视频监控中人群行为分析的方法，其特征在于，所述分类优化所述深层神经网络特征，得到所述图像子块的向量特征集，具体包括：

调用分类器对所述图像子块中深层神经网络特征进行分类优化，其中，所述分类器包括WFS分类器与Simile分类器，所述WFS分类器对所述图像子块中深层神经网络特征进行分类，所述Simile分类器对所述图像子块中深层神经网络特征进行优化；

当所述WFS分类器对所述图像子块中深层神经网络特征进行分类时，根据预先调测的WFS分类器按照K近邻分类算法进行分类，并用向量表示生成相应的分类结果；

当所述Simile分类器对所述图像子块中深层神经网络特征进行优化时，根据分类结果中的图像特征与预先设置的参考图像特征相似性，生成向量特征集。

4.根据权利要求1所述的视频监控中人群行为分析的方法，其特征在于，所述根据所述图像子块中向量特征集与图像人数，建立不同核函数的SVR的数学模型，具体包括：

5.根据权利要求1所述的视频监控中人群行为分析的方法，其特征在于，所述根据所述图像子块中人群拥挤程度与稀疏程度，调用相应的核函数到数学模型中，统计所述图像子块的人数，具体包括：

当所述图像子块的人群表示为拥挤程度时，调用基核函数到数学模型中，计算所述图像子块中人群人数；当所述图像子块的人群表示为稀疏程度时，调用线性函数到数学模型中，计算所述图像子块中人群人数。

6.根据权利要求1所述的视频监控中人群行为分析的方法，其特征在于，所述采用摄像机标定方法，获取所述深层神经网络特征的坐标向量，具体包括：

7.根据权利要求1所述的视频监控中人群行为分析的方法，其特征在于，对比前后两帧所述图像子块的深层神经网络特征的位移，根据所述位移计算人群的移动方向与移动速度，具体包括：

获取前后两帧同一所述图像子块中同一深层神经网络特征坐标向量，将所述深层神经网络特征的坐标向量进行差分运算，获取深层神经网络特征的位移；

根据所述位移的大小与方向、以及前后两帧图像子块之间的时间差，计算所述图像子块中行人的移动速度与移动方向。

8.一种视频监控中人群行为分析的装置，包括采用权利要求1至7任一项所述的视频监控中人群行为分析的方法，其特征在于，所述装置包括：

获取模块，适用于获取监控区域内的视频流；

提取模块，适用于提取所述图像子块的特征描述子，其中，所述特征描述子包含深层神经网络特征；

模型建立模块，适用于根据所述图像子块中向量特征集与图像人数，建立不同核数的SVR的数学模型；

9.根据权利要求8所述的视频监控中人群行为分析的装置，其特征在于，所述转换模块，具体包括：

转换单元，适用于根据摄像机标定方法，将同一所述图像子块中的同一深层神经网络特征，通过所述转换矩阵，将所述深层神经网络特征由摄像机坐标系转换为世界坐标系，获取所述深层神经网络特征的坐标向量。

10.根据权利要求8所述的视频监控中人群行为分析的装置，其特征在于，所述计算模块，具体包括：

比较单元，适用于获取前后两帧同一所述图像子块中同一深层神经网络特征坐标向量，将所述深层神经网络特征的坐标向量进行差分运算，获取深层神经网络特征的位移；

计算单元，适用于根据所述位移的大小与方向、以及前后两帧图像子块之间的时间差，计算所述图像子块中行人的移动速度与移动方向。