CN110705408A

CN110705408A - 基于混合高斯人数分布学习的室内人数统计方法及系统

Info

Publication number: CN110705408A
Application number: CN201910897992.5A
Authority: CN
Inventors: 耿新; 凌妙根
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-17

Abstract

本发明公开一种基于混合高斯人数分布学习的室内人数统计方法及系统，方法步骤是：对视频帧进行室内前景提取，计算带权重的多维前景特征；利用MATLAB建立人数标注工具的GUI界面；采用以真实人数标记为中心的离散高斯分布初始化每个训练帧对应的人数分布；结合最大熵模型与正则化项生成目标函数，使用L‑BFGS算法得到优化后的参数模型；利用多个近邻帧构成混合高斯模型得到每一个视频帧的人数分布，多次迭代得到优化后的混合高斯模型，利用得到的混合高斯模型更新每一帧对应的人数分布；交替优化直至收敛，得到最优的最大熵模型参数；对于待统计的视频帧，得到前景特征，然后计算得到每一帧所对应的人数分布。此种技术方案能够更准确地预测视频帧包含的人数。

Description

基于混合高斯人数分布学习的室内人数统计方法及系统

技术领域

本发明属于模式识别和机器学习技术领域，特别涉及一种室内场景视频人数统计方法及系统。

背景技术

室内场景视频人数统计是根据每一帧室内场景图像，估计出该帧图像包含的人的数目。室内场景视频人数统计技术目前主要的应用领域包括：1)安全领域，计算机对室内监控场景中的人数进行实时估计，当人数超出一定阈值时发出警报；2)办公领域，可对多个不同场景下人数情况进行估计，为企业或高校的管理提供参考；3)交通领域，对不同交通工具内的人数情况进行实时估计，合理调配交通资源，减少交通工具内人员拥堵的情况。因此室内场景视频人数统计技术的研究与发展有着十分重要的意义。

在以往的研究中，室内场景视频人数统计技术往往只采用单个的人数标记来进行训练，而这往往是不符合现实场景的，在很多的时候，由于室内场景的空间局限性，人员之间常常会发生遮挡，而导致人数标记的模糊性。因此单个人数标记无法准确描述图像中的人数信息。此外，相邻帧的人数变化对当前帧人数标记的模糊度也有影响。

针对现有室内人数估计方法仅采用单个人数标记来表示视频帧的做法，本案发明人进行深入研究，产生本案。

发明内容

本发明的目的，在于提供一种基于混合高斯人数分布学习的室内人数统计方法及系统，其可更准确地预测视频帧包含的人数。

为了达成上述目的，本发明的解决方案是：

一种基于混合高斯人数分布学习的室内人数统计方法，包括如下步骤：

步骤1，对室内场景的视频帧进行室内前景提取，利用自回归模型对相邻帧差结果在时间和空间上进行累积得到初步的前景区域；然后对自回归模型得到的前景区域与三帧差法得到的前景区域求并集作为最终的前景提取结果；

步骤2，对每一个视频场景进行透视估计得到视频帧每个像素对应的权重，从而对步骤1得到的前景区域计算带权重的多维前景特征；

步骤3，利用MATLAB建立人数标注工具的GUI界面；

步骤4，使用每个场景的前一半的视频帧(以10帧为间隔)作为训练集；初始时，采用以真实人数标记为中心的离散高斯分布来初始化每一个训练帧对应的人数分布，每个高斯分布具有相同的标准差；

步骤5，将最大熵模型与混合l_2,1范式的正则化项结合起来生成目标函数，使用L-BFGS算法得到优化后的参数模型；

步骤6，考虑到相邻视频帧人数变化对当前帧人数标记模糊度的影响，利用多个近邻帧构建混合高斯模型表示每一个视频帧对应的人数分布，通过对混合高斯模型的距离权衡参数和每个人数对应高斯分布的标准差进行交替优化直至收敛，可得到优化后的混合高斯模型，利用得到的混合高斯模型生成新的每一帧对应的人数分布，替换原有的初始人数分布；

步骤7，重复步骤5-6直至收敛，得到最优的最大熵模型参数；

步骤8，对于待统计的视频帧，首先根据步骤1-2得到视频帧的前景特征，然后根据步骤7训练得到的参数模型计算得到每一帧所对应的人数分布，该分布表示每个人数在该帧图像中所占的成分比，其中最大的标记成分比被认为是该视频帧对应的人数，而不是对所有人数进行以标记成分比为权重的加权求和作为预测的人数。

上述步骤1中，采用自回归模型得到初步的前景区域的方法是：令g(x,y,t)表示第t帧的位置处自回归模型的输出：

其中自回归系数C₀₀₀表示当前帧差的权重，C_iju表示前T帧领域像素的权重，d(x,y,t)表示第t帧的(x,y)位置处的归一化图像的帧差，T表示自回归过程的时序控制帧数，R表示局部空间范围的大小；g(x,y,t)大于特定阈值的像素被视为前景。

上述步骤1中，在进行前景提取前，首先将视频的每一帧彩色图像转换为灰度图，利用5*5的高斯模糊进行滤波去除噪声，然后对图像进行光照强度归一化，对图像中每个像素除以其R*R邻域内的最大像素值来实现图像强度归一化。

上述步骤2中，进行透视估计的方法是：当视频帧中存在消失线时，对每个场景划定出梯形的透视区域，采用线性插值的方法得到图像每个像素对应的权重；当视频帧中不存在消失线时，对透视图与垂直方向线性相关的场景，根据离基准线距离较远和较近的两个人的尺寸进行线性插值来估计图像任意点处人的尺寸，则该像素点处的权重为该点处估计出人尺寸的倒数。

上述步骤3中，建立的GUI界面能够在视频人数标定过程中通过调节视频播放速度来加快人数标定速度，并且通过只标定少数变化人数的帧从而获得全部视频帧的人数标定。

上述步骤6中，混合高斯模型每个相邻帧的权重由每一帧与当前帧前景特征的距离及帧距离共同决定，两个距离的权衡参数和不同人数对应的高斯分布的标准差可通过内点法交替优化得到，具体方法是：确定目标函数为所有挑选出样本所生成的混合高斯人数分布和由最大熵模型生成的人数分布之间的KL散度；利用内点法对距离的权衡参数和每个人数对应的高斯分布的标准差进行交替优化直至收敛，得到最优的模型参数。

一种基于混合高斯人数分布学习的室内人数统计系统，包括室内前景提取模块、透视分析及前景提取模块、参数模型预测模块和人数预测模块；其中，室内前景提取模块用于对视频帧进行前景区域提取；透视分析及前景提取模块用于对视频帧每个像素进行权重分析，并计算相应前景特征；参数模型预测模块基于训练视频帧的前景特征向量和基于混合高斯模型的人数分布预测参数模型；人数预测模块基于未使用的测试帧的前景特征向量和训练好的人数分布预测参数模型预测测试帧中的人数。

采用上述方案后，本发明具有如下特点：

(1)本发明提出的方法是由混合高斯模型构建人数分布来表示每一个视频帧对应的人数信息，通过训练得到视频帧前景到人数分布的映射关系，利用训练得到的模型预测视频帧包含的人数；

(2)本发明提出的室内场景的人数估计方法，在训练过程中使用一个人数分布向量表示这些每个人数标记所占的比重，称为成分比，每个标记的成分比都属于0到1之间，并且和为1；

(3)本发明提出的方法和系统可以快速、有效地训练出室内人数统计的模型，利用该方法预测的人数不仅具有较高的精度，还适用于多种室内场景。

附图说明

图1是本发明的流程图；

图2是GUI标定工具示例；

图3是传统的透视标定示例；

图4是不存在消失线的透视标定示例。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，本发明提供一种基于混合高斯人数分布学习的室内人数统计方法，包括如下步骤：

第一步，对室内场景的视频帧进行室内前景提取，利用自回归模型对相邻帧差结果在时间和空间上进行累积得到初步的前景区域；然后对自回归模型得到的前景区域与三帧差法得到的前景区域求并集作为最终的前景提取结果；具体包括如下步骤：

1)针对视频的每一帧彩色图像，首先转换为灰度图，利用5*5的高斯模糊进行滤波去除噪声。然后对图像进行光照强度归一化，对图像中每个像素除以其R*R邻域(如11像素)内的最大像素值来实现图像强度归一化，以减少不同区域光照变化对图像像素值的影响；

2)在完成以上的预处理后，采用自回归模型累积帧差像素来实现前景提取。令g(x,y,t)表示第t帧的像素(x,y)位置处自回归模型的输出：

其中，自回归系数C₀₀₀表示当前帧差的权重，C_iju表示前T帧领域像素的权重，d(x,y,t)表示第t帧的(x,y)位置处的归一化图像的帧差，T表示自回归过程的时序控制帧数，R表示局部空间范围的大小；g(x,y,t)大于特定阈值的像素被视为前景；

3)由于自回归模型把当前前景与历史累积前景进行加权求和来得出前景区域，部分正确的当前前景像素被忽略。考虑到三帧差方法(参考Khemlani,Amit,Duncan,Kester,and Sarkar,Sudeep.People counter:counting of mostly static people in indoorconditions[EB/OL].2012.)通过对当前帧与前后相邻两帧图像的帧差求并集，可以较好地保存当前帧的前景区域，并考虑了视频前后帧的关联，本发明提出采用对三帧差法与自回归模型得到的前景区域求并集作为最终的前景提取结果。

第二步，需要对前景区域提取前景特征，首先需要对每个场景进行透视分析。

4)对每一个视频场景进行透视估计得到视频帧每个像素对应的权重，从而对前述得到的前景区域计算带权重的多维前景特征；

“透视”问题是指由于图像中人员与摄像头距离远近导致其在成像时占据不同大小的像素区域的问题。本发明采用类似于Chan等人(参考Chan,Antoni B andVasconcelos,Nuno.Bayesian poisson regression for crowd counting[C].In:IEEEInternational Conference on Computer Vision.2009.545–551.)提出的透视标准化方法，对每个场景划定出梯形的透视区域，采用线性插值的方法得到图像每个像素对应的权重。如图3所示，针对具有消失线的室内场景中，首先在每个场景标出两条水平的消失线

和

对线段

和

的长度进行标定后，任何平行于

的线段都可以由和

的线性插值来计算出，其中|·|表示线段长度。这样，假设线段

上所有像素点的权重为1，则任意线段

上像素点的权重为

在某些视频场景下，无法直接找到可以帮助透视标定的消失线，如图4所示。这时，我们仍然可以对透视图与垂直方向线性相关的场景进行透视分析。若以图像底部直线为基准线，我们从图中首先找出分别距离基准线较远和较近的两个人，用矩形边框对这两个人进行标定，得到矩形边框的宽和高。这样，这两个人边框的中心点(分别用(u₁,v₁)和(u₂,v₂)表示)处人的尺寸可以根据边框面积的平方根估计得到，记为z₁和z₂。那么，图像任意点(记为(u₀,v₀))处人的尺寸z₀则可由标定两个人的尺寸沿垂直方向进行线性插值计算得到

这样，z₀的倒数即为点(u₀,v₀)处的权重。

在步骤4)中，本发明不仅提出针对存在消失线的场景进行透视估计的方法，也提出当视频帧中不存在消失线时的透视估计方法。当不存在消失线时，对透视图与垂直方向线性相关的场景，可以根据离基准线距离较远和较近的两个人的尺寸进行线性插值来估计图像任意点处人的尺寸，则该像素点处的权重为该点处估计出人尺寸的倒数。

考虑到“透视”的影响，针对前景图像计算与像素位置相关联的特征时，均需要乘以相应的权重。如前景分段的面积特征与线段的长度平方成正比，因此需乘以该位置处像素权重的平方，其他特征均与线段的长度成正比，因此直接乘以该位置处像素的权重。这样即可从视频帧集合

中提取出前景特征向量

5)利用MATLAB建立人数标注工具的GUI界面，如图2所示，该工具可以在视频人数标定过程中调节视频播放速度以加快人数标定速度，通过只标定少数变化人数的帧以获得全部视频帧的人数标定；初始时，根据当前视频帧的位置读取一幅图像(一般设为1)。标记人员需根据图像所显示的人数在“人数：”后的文本框中手动输入数值，或者通过下方的+1，+2，-1，-2按钮改变“人数：”中的计数值(初始值为0)。“图像帧数”中显示当前为第几帧，通过点击“确定”记录当前帧的人数并切换到下一帧，可以实现逐帧的视频人数标定。

当人数一直保持不变时，点击“开始快进”，可以从当前帧开始播放视频，视频播放速度可以通过按钮*2，*4，*6或/2，/4，/6改变当前帧数播放间隔。当出现人数改变时，立即点击“暂停播放”，则视频暂停显示。此时在“图像帧数”中输入提前一些帧的适当位置，点击“打开”可以直接跳转至需要显示的帧，或通过点击“上一帧”或“下一帧”，逐步找到人数变化的帧(人的身体出现1/2以上为1个人，可以看到完整头部和肩部为1个人)，对变化的人数进行逐帧标定后，重新点击“开始快进”，可继续接着播放视频。

标记结束或者想暂停标记时，确认当前帧人数后点击“确认”，再点击“退出”，程序将会保存当前标记人数。最后全部标记结束后，可以按如下方式补全所有未赋值的人数：依次从第一帧到最后的标记帧位置，把所有未设置(默认值为-1)的帧的人数赋值为其前一帧的人数统计值。

6)令X表示所有视频帧，Y＝{y₁,y₂,…,y_c}表示所有C个人数标记。如前所述，在原始的训练数据中未包含每一帧对应的人数分布，因此需要通过合理的假设来生成。这里，首先采用单个以真实人数标记为中心的离散高斯分布来初始化每一个训练帧对应的人数分布。每个人数α对应的初始高斯分布具有相同的标准差

其中σ⁰是预设的初始标准差。在本发明中，第k次迭代时第x_i帧对应的单高斯人数分布采用来表示，混合高斯人数分布采用

来表示。初始时，混合高斯表示与单个高斯表示相同，每一个具有α_i人的训练帧x_i对应的初始人数分布具体表示为

其中表示人数α_i的初始标准差，Z是使

的标准化因子。

人数分布学习的目标是找到一个包含参数Θ的概率密度函数p(y|x_i；Θ)，使其生成类似于真实人数分布的输出由上一次的迭代更新得到，初始时为

这里的p(y|x；Θ)可以采用最大熵模型(参考Berger,Adam L,Pietra,Vincent J Della,andPietra,Stephen A Della.A maximum entropy approach to natural languageprocessing[J].Computational Linguistics,1996,22(1):39–71.)，该模型用指数形式表示为

其中是标准化因子，Θ＝[θ₁,θ₂,···,θ_C]，θ_y是Θ的第y列，是用于预测第y个人数标记的权重，φ(x)表示x的特征。由于视频帧的人数变化是一个逐渐变化的过程，本发明提出预测相邻人数对应的权重系数应具有局部相关性。从而，对于参数向量Θ添加混合l_2,1范式约束以保证相邻权重矩阵的结构化稀疏性(参考He,Zhouzhou,Li,Xi,Zhang,Zhongfei,et al.Data-dependent label distributionlearning for age estimation[J].IEEE Transactions on Image Processing,2017,26(8):3846–3858.)。

假设利用KL散度来度量真实人数分布与预测人数分布p(y|x；Θ)之间的相似性，那么第k次迭代的最佳参数向量Θ^k由下式决定：

其中γ是权衡系数，表示由Θ中的相邻列组成的Θ的子矩阵：

其中ò用于控制时序窗口的宽度，在实验中设置为6。这样可以得到目标函数

可以采用拟牛顿法的L-BFGS算法(具体可参考：Dong C.Liu and Jorge Nocedal,"On thelimited memory BFGS method for large scale optimization,"MathematicalProgramming,45(1-3),PP:503-528,1989.)进行有效的优化。

在训练集中，找到人数分布预测比较准确的训练样本，利用这些训练样本优化混合高斯模型的平衡参数和每个人数所对应的高斯分布的标准差。目标函数由所有挑选出样本所生成的混合高斯人数分布和由最大熵模型生成的人数分布之间的KL散度决定。利用内点法(参考Waltz R A,Morales J L,Nocedal J,et al.An interior algorithm fornonlinear optimization that combines line search and trust region steps[J].Mathematical Programming,2006,107(3):391-408))优化目标函数得到最优的混合高斯模型的参数，利用得到的混合高斯模型重新生成训练集中的每一帧对应的人数分布，替换初始的人数分布；

7)通过以上人数分布学习过程，可以得到条件概率密度函数p(y|x；Θ^k)的最佳参数Θ^k。这样，每一个训练帧x_i的人数分布被预测为p(y|x_i；Θ^k)。根据预测的人数分布，x_i帧的人数估计为

每一帧人数估计的绝对误差可由

得到。对于包含同样人数的视频帧，挑选出人数估计误差小于所有训练样本的平均绝对误差

的视频帧，作为匹配每个人数对应高斯分布的标准差σ的训练集。所有选择的样本根据对应人数的不同被分为C个子集(C为人数标记的个数)用于优化相应的σ。

如前所述，除了当前帧人数标记由于人员的多少而具有不同的模糊性外，相邻帧人数的变化亦会影响当前帧标记的模糊性。因此本发明提出采用混合高斯模型来生成视频中每一帧对应的人数分布。首先要确定需要考虑哪些近邻帧以及每个近邻帧在生成混合模型时的权重。对于人数标记为α_i的第i帧x_i，选出与当前帧具有不同人数标记的p个最近邻帧。在选择最近邻帧时需同时考虑视频帧特性的相似性和帧位置的距离，用D(i,j)来度量帧x_i和x_j的距离

其中

用于权衡第k次迭代时人数α_i的特征相似性和帧距离的重要性。本发明用N_i,p表示x_i帧的p个最近邻帧。这样，第j个最近邻帧的权重为

其中

为标准化因子。当前帧原始人数分布的权重为假设令

表示人数α_i对应的帧索引集合，那么帧

(包括第i帧)对应的人数分布可通过以下高斯混合模型生成

其中

对每个人数α，所有挑选出的训练样本所生成的混合高斯人数分布，应与由最大熵模型p(y|x；Θ^k)生成的人数分布相接近。平衡参数

初始值被设为1。算法通过交替迭代来优化参数

和

整个过程在满足所有人数标记相邻两次迭代的

和

差异绝对值的和分别低于特定的阈值时停止，这两个阈值在本发明中分别设置为20和0.1。

8)在计算出每个人数标记α对应的的

后，可以得到每一帧x_s所对应的新的标记分布，即

然后被送入人数分布学习模型开始下一次(k+1次)迭代。整个过程一直重复直至所有训练集样本预测人数的平均绝对误差(MAE)的差异低于指定的阈值，该阈值在实验中被设为0.01。最后，每个测试集中图像帧x′的人数通过y^*＝argmax_yp(y|x′；Θ^*)来决定，其中Θ^*是收敛后的最优权重参数。

综合以上，本发明的步骤可以概括为：(1)对室内场景视频图像去除光照变化和噪声的影响并进行室内前景提取；(2)对视频进行透视分析并计算前景区域对应的特征；(3)利用标定工具对视频帧每幅图像进行人数标定；(4)利用视频帧前景的特征向量及其人数分布来训练模型，将最大熵模型加上保证预测人数对应的权重矩阵具有局部相关性和结构化稀疏性的正则化项形成目标函数，用L-BFGS方法对该目标函数进行优化；(5)根据视频当前帧与相邻帧特征及距离的相似性，构建当前帧的混合高斯人数分布，利用挑选出的预测较为准确的训练样本优化混合高斯人数分布的模型参数；(6)多次重复步骤(4)和(5)直至收敛得到最终优化后的最大熵模型；(7)将待估计测试帧前景的特征向量送入训练好的模型，从而计算出该帧图像包含的人数。

本发明还提出一种室内人数统计系统，包括室内前景提取模块、透视分析及前景提取模块、参数模型预测模块和人数预测模块；其中室内前景提取模块用于对视频帧进行去噪、预处理和前景区域提取；透视分析及前景提取模块用于对视频帧每个像素进行权重分析，并计算相应前景特征；参数模型预测模块基于训练视频帧的前景特征向量和基于混合高斯模型的人数分布预测参数模型；人数预测模块基于未使用的测试帧的前景特征向量和训练好的人数分布预测参数模型预测测试帧中的人数。

本发明在七个室内场景的视频数据集上进行实验，包括四个教室场景、两个餐厅场景和一个公交车内场景。本发明在实验中采用常用的平均绝对误差(MAE)和平均平方误差(MSE)两个指标对不同方法进行比较。通常而言，MAE表示算法对人数预测的精度，MSE表示算法的稳定性，两个指标都是越小越好。

对比算法包括经常使用的高斯过程回归GPR(参考Chan,A.B.,&Dong,D.Generalized Gaussian process models.IEEE Conference on Computer Vision andPattern Recognition.2011:2681-2688.)、基于累积属性的岭回归CA-RR(参考Chen K,Gong S,Xiang T,et al.Cumulative attribute space for age and crowd densityestimation[C],IEEE Conference on Computer Vision and PatternRecognition.2013:2467-2474.)、AlexNet(参考Wang C,Zhang H,Yang L,et al.Deeppeople counting in extremely dense crowds[C],ACM international conference onMultimedia.ACM,2015:1299-1302.)、CSRNet(参考Li Y,Zhang X,Chen D.Csrnet:Dilatedconvolutional neural networks for understanding the highly congested scenes[C],IEEE Conference on Computer Vision and Pattern Recognition.2018:1091-1100.)、传统的人数分布学习LDL(参考Zhang Z,Wang M,Geng X.Crowd counting inpublic video surveillance by label distribution learning[J].Neurocomputing,2015,166:151-163.)和基于头肩检测的算法HSD(参考Luo J,Wang J,Xu H,et al.Real-time people counting for indoor scenes[J].Signal Processing,2016,124:27-35.)。在前景提取步骤中，时序累积帧数T和局部邻域范围的大小R分别被设为11和4。自回归系数中的C₀₀₀被设为0.5，其余参数C_ijk采用相同的值并保证所有自回归的系数相加为1。自回归模型前景阈值T_f被设为0.05。实验结果表明，我们提出的方法在任何一种评价指标上都要比其他方法效果好很多。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于混合高斯人数分布学习的室内人数统计方法，其特征在于包括如下步骤：

步骤3，利用MATLAB建立人数标注工具的GUI界面；

步骤4，使用每个场景的前一半的视频帧作为训练集；初始时，采用以真实人数标记为中心的离散高斯分布来初始化每一个训练帧对应的人数分布，每个高斯分布具有相同的标准差；

步骤6，考虑到相邻视频帧人数变化对当前帧人数标记模糊度的影响，利用多个近邻帧构建混合高斯模型来表示当前帧对应的人数分布，通过交替优化得到优化后的混合高斯模型；

步骤7，重复步骤5-6直至收敛，得到最优的最大熵模型参数；

步骤8，对于待统计的视频帧，首先根据步骤1-2得到视频帧的前景特征，然后根据步骤7训练得到的参数模型计算得到每一帧所对应的人数分布，该分布表示每个人数在该帧图像中所占的成分比，其中最大的标记成分比被认为是该视频帧对应的人数。

2.如权利要求1所述的基于混合高斯人数分布学习的室内人数统计方法，其特征在于：所述步骤1中，采用自回归模型得到初步的前景区域的方法是：令g(x,y,t)表示第t帧的位置处自回归模型的输出：

3.如权利要求1所述的基于混合高斯人数分布学习的室内人数统计方法，其特征在于：所述步骤1中，在进行前景提取前，首先将视频的每一帧彩色图像转换为灰度图，利用5*5的高斯模糊进行滤波去除噪声，然后对图像每个像素除以其R*R邻域内的最大像素值来实现图像光照强度归一化。

4.如权利要求1所述的基于混合高斯人数分布学习的室内人数统计方法，其特征在于：所述步骤2中，进行透视估计的方法是：当视频帧中存在消失线时，对每个场景划定出梯形的透视区域，采用线性插值的方法得到图像每个像素对应的权重；当视频帧中不存在消失线时，对透视图与垂直方向线性相关的场景，根据离基准线距离较远和较近的两个人的尺寸进行线性插值来估计图像任意点处人的尺寸，则该像素点处的权重为该点处估计出人尺寸的倒数。

5.如权利要求1所述的基于混合高斯人数分布学习的室内人数统计方法，其特征在于：所述步骤3中，建立的GUI界面能够在视频人数标定过程中通过调节视频播放速度来加快人数标定速度，并且通过只标定少数变化人数的帧而获得全部视频帧的人数标定。

6.如权利要求1所述的基于混合高斯人数分布学习的室内人数统计方法，其特征在于：所述步骤6中，混合高斯模型每个相邻帧的权重由每一帧与当前帧前景特征的距离及帧位置距离共同决定。

7.如权利要求6所述的基于混合高斯人数分布学习的室内人数统计方法，其特征在于：相邻帧与当前帧距离的权衡参数和不同人数对应的高斯分布的标准差通过内点法交替优化得到，具体方法是：确定目标函数为所有挑选出样本所生成的混合高斯人数分布和由最大熵模型生成的人数分布之间的KL散度；利用内点法对距离的权衡参数和每个人数对应的高斯分布的标准差进行交替优化直至收敛，得到最优的模型参数。

8.一种基于混合高斯人数分布学习的室内人数统计系统，其特征在于：包括室内前景提取模块、透视分析及前景提取模块、参数模型预测模块和人数预测模块；其中，室内前景提取模块用于对视频帧进行前景区域提取；透视分析及前景提取模块用于对视频帧每个像素进行权重分析，并计算相应前景特征；参数模型预测模块基于训练视频帧的前景特征向量和基于混合高斯模型的人数分布预测参数模型；人数预测模块基于未使用的测试帧的前景特征向量和训练好的人数分布预测参数模型预测测试帧中的人数。