CN106874862A

CN106874862A - 基于子模技术和半监督学习的人群计数方法

Info

Publication number: CN106874862A
Application number: CN201710059446.5A
Authority: CN
Inventors: 周齐; 张军平
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2017-06-20
Anticipated expiration: 2037-01-24
Also published as: CN106874862B

Abstract

本发明属于计算机视觉和机器学习领域，具体为一种基于子模技术和半监督学习的人群计数方法。本发明主要解决了人群计数在训练模型过程中样本稀缺的问题。对于连续的高频人群监控图像，首先对每帧图像进行预处理，并提取人群面积、纹理等特征；对该图像样本集合，使用子模样本选择算法抽取少量的最优样本，再进行人为标注；最后使用半监督回归算法训练模型，利用大量未标注的样本提升模型性能。相比于随机采样、基于聚类的样本选择方法，本发明能显著降低训练样本数量，并提升模型的预测性能。

Description

基于子模技术和半监督学习的人群计数方法

技术领域

本发明属于计算机视觉、机器学习、及智能交通技术领域，具体涉及基于图像和视频的人群计数方法。

背景技术

基于视频图像的人群计数问题是计算机视觉和机器学习领域研究的问题之一。当给定某场景人群图像，要求根据计算机视觉或机器学习算法输出行人数量。目前该领域已经有不少前人工作，其主要方法可以分为两大类：基于行人检测的方法、基于图像特征的回归方法。以下是这两类方法的一些参考文献：

[1]A.B.Chan,Z.J.Liang,and N.Vasconcelos.Privacy pre-serving crowdmonitoring:Counting people without people models or tracking.In Conference onComputer Vision and Pattern Recognition,pages 1–7,2008.

[2]B.Chan and N.Vasconcelos.Counting people with low-level featuresand bayesian regression.IEEE Transactions on Image Processing,21(4):2160–2177,2012.

[3]K.Chen,C.C.Loy,S.Gong,and T.Xiang.Feature min-ing for localisedcrowd counting.In British Machine Vision Conference,2012.

[4]C.C.Loy,S.Gong,and T.Xiang.From semi-supervised to transfercounting of crowds.In Conference on Computer Vision and Pattern Recognition,pages 2256–2263,2013.

[5]W.Ouyang and X.Wang.Single-pedestrian detection aided by multi-pedestrian detection.In Conference on Computer Vision and PatternRecognition,pages 3198–3205,2013.

[6]B.Tan,J.Zhang,and L.Wang.Semi-supervised elastic net forpedestrian counting.Pattern Recognition,44(10):2297–2304,2011.

[7]W.Xia,J.Zhang,and U.Kruger.Semisupervised pedes-trian countingwith temporal and spatial consistencies.IEEE Transactions on IntelligentTransportation Systems,16(4):1705–1715,2015.

[8]Y.Zhang,D.Zhou,S.Chen,S.Gao,and Y.Ma.Single-image crowd countingvia multi-column convolutional neu-ral network.In Conference on ComputerVision and Pattern Recognition,pages 589–597,2016。

基于行人检测的人群计数法需要对图像的每个区域逐个检测，并识别出每个行人的外貌或动作，从而确定行人数量，如文献[5]所述方法。因为该方法需要识别出每一个行人，当行人与其他行人、建筑、树木等其他物体的遮挡十分严重时，识别性能会显著下降。另外，由于这种方法的复杂度与具体场景的人数有关，当人群高度密集时，该方法的识别速度会降低。

第二类方法则不需要检测出每个行人。基于图像特征的回归法通过学习低维特征到人群数量之间的映射关系获得预测模型，这些低维特征通常采用图像纹理(texture)，人群区域面积，闵可夫斯基分形维度(Minkowski dimension)，图像边缘长度等。如[1]中使用高斯过程回归(Gaussian ProcessRegression，简称GPR)学习回归模型。方法[8]采用卷积神经网络(Convolutional Neural Network,简称CNN)提取特征并使用深度神经网络(DeepNeuralNetwork，简称DNN)学习这样的映射关系。这种方法面临的主要问题之一是，需要标注大量的人群图像样本去学习这样的映射关系，然而现实中的标注都需要大量的人工操作。

为了解决标注样本的稀缺以及人工标注代价太大的问题，目前已经有多种方法被提出。其中一个是设法利用无标签的样本提升模型的预测性能，如方法[4]采取的半监督回归(Semi-Supervised Regression)。又例如方法[7]，通过提取更多的低维特征，获得所有样本之间的时间、空间一致性约束，从而提升性能。这类方法主要是从无标签样本上考虑的。另外一种方法，则是设法选取最优的样本集合进行人为标注，再训练回归模型。如方法[6]，首先对所有样本聚类，再从每个簇中选取一个样本进行标注，这样就可以减少标注样本的冗余信息。因为同一个簇中的样本，特征和标签都极为相似，相似的样本对模型的预测性能不会带来很大的提升，相反，从不同的簇中选取的样本会对模型参数产生较大影响，因此可以提升模型预测性能。然而这种方法只是避免了样本之间的信息冗余，但没有考虑到不同样本所包含的信息量也不同，因此无法从每个簇选取最有代表性的样本。

本发明提出一种人群计数方法，同时考虑有标签样本和无标签样本。该发明解决了有标签样本的选择问题，不仅避免样本标注的冗余和重复，而且选取信息量最大的的样本集合进行标注；同时利用无标签样本训练半监督回归模型进一步提升模型的预测性能。

发明内容

本发明的目的在于提出一种识别速度快、计算精度高的人群计数方法。

本发明提出的人群计数方法，是基于子模技术的，其同时考虑有标签样本和无标签样本，解决了有标签样本的选择问题，不仅避免样本标注的冗余和重复，而且选取信息量最大的的样本集合进行标注；同时利用无标签样本训练半监督回归模型进一步提升模型的预测性能。具体步骤为：

(a)输入预先提取的图像特征，原图像为连续的高频人群视频图像，且未标记确切人数。该样本集合为：

V＝{x₁,x₂,x₃,…,x_n}

向量x_i是单帧图像的所有特征，n是所有图像样本的数量；所有样本特征都已进行归一化；

(b)计算样本集合V的时间空间相似度，构建k-近邻图，每个图像样本只与最相似的图像连接；再根据该图创建相似矩阵W，矩阵中的每个元素W_ij对应于图像样本x_i,x_j的相似度，对于每个样本，只有对应的k个最相似的样本值不为0；

(c)结合时间空间相似度矩阵,使用谱聚类将人群特征集合V聚类，得到K个簇{G₁,G₂,…,G_K}；

(d)使用子模样本选择算法，从V中选择样本子集S，该集合能充分代表原样本集合，且冗余信息量达到最小，最优子集S满足以下两项：

(1)代表性(Representativeness)：该项衡量子集S与全集V的相似性：

(2)差异性(Diversity)：该项衡量子集S中的样本再原集合中的分散性；差异性越大，则所选子集内的样本冗余则越低。

其中，m_k(S)代表子集S中包含的第k个簇中的样本数；差异性函数的极值反映了每个S中每个簇样本的数量与全集中是等比例的；

(e)对子集S中的样本进行标注，标定该集合中图像的实际人数；

(f)使用所有人群图像，包括标注和未标注的图像，训练回归模型。

本发明中，所述的时间空间相似度矩阵的构建步骤为：

(1)计算V中所有样本的空间相似度:若样本x_j是x_i的k-近邻，则样本x_j和x_i在空间上的相似度被表示为：

否则空间相似度反应了样本在特征空间中的距离；

(2)计算V中所有样本的时间相似度:若样本x_j和x_i在帧数上相差不超过t，则样本x_j和x_i在时间上的相似形被表示为：

否则其中t_i表示样本x_i的图像序号；时间相似度反应了人群图像在时间尺度上的距离；

(3)任意两个样本的相似度表示为空间相似度和时间相似度的加权和：

其中,参数ε控制时间相似度的权重。

子模函数一般可以使用贪心算法(greedy algorithm)优化求解，贪心算法可以达到(1-1/e)的近似最优解。但是本发明设计的样本选择策略两个子模函数，不能直接使用贪心算法优化。这两个准则通过以下迭代过程求解，即本发明中所述的使用子模样本选择算法，从样本全集V的K个簇中选择最优子集S，其具体步骤为：

(1)初始状态，最优子集S以及候选集合R为空，接下来每次迭代，首先获得候选集合R,再从候选集合中选取样本放入集合S中。此外，每个簇G_k需记录记录已选样本集合A_k；

(2)优化代表性函数f_r(S)，使得候选集合与全集的相似性最大。对于每个簇G_k,从中选出一个最优样本a_k放入集合R中，同时放入A_k。每个簇选择。选择样本a_k的条件是使得A_k与G_k的相似性最大，该相似性用设施选址函数(facility location function)表示：

每个簇始终有一个最优样本在候选集合R中；

(3)优化差异性函数f_d(S)，从候选集合R中选择一个样本，放入子集S中，使得差异性准则达到最大，这样最优子集S内的所有样本就分散在全集V中，即所选的样本冗余达到最小；

(4)将步骤(3)中所选的样本从R移入S中，对其所在的簇重新选择一个候选样本，并更新候选集合R和A_k；

(5)重复步骤(2)到步骤(4)，直到子集S的规模达到所需数量为止。

本发明中，所述的使用所有人群图像，包括标注的图像样本(X_L,Y_L)和未标注样本(X_U)，训练回归模型，得到目标参数β^*，其中，X_L和X_U分别是有标签和无标签样本的特征，Y_L是有标签样本的真实标签。回归模型优化目标函数：

参数λ和分别控制两个正则项的影响效果。其中，L是所有样本构成的拉普拉斯矩阵，并且有如下等效表示：

λf^TLf＝∑_ijW_ij||x_iβ-x_jβ||² (8)。

x_iβ是根据图像的低维特征的预测值，该目标项同时优化已标注和未标注图像样本，可以反映训练样本的潜在结构。另外，P_α(β)是一个弹性网络正则项，其结合了目标参数β^*的L1范数||β^*||和L2范数||β^*||₂，α表示L1范数的权重。弹性网络很好地是使得到的结果保持稀疏且防止过拟合，能显著提升模型的预测性能。结合(7)式和(8)式，模型的优化目标可重写为：

其中，表示未标注样本扩充后的训练集，D是用相似度加权的新样本：

该目标函数此时转变成了一个标准的弹性网络，可以直接使用最小角回归(LeastAngle Regression)算法优化求解。

附图说明

图1：本发明选择样本以及模型训练流程图。

图2：UCSD数据集样例展示。

图3：Fudan数据集样例展示。

图4：Mall数据集样例展示。

图5：几种方法选择不同数量样本的性能表现——UCSD。

图6：几种方法选择不同数量样本的性能表现——Fudan。

图7：几种方法选择不同数量样本的性能表现——Mall。

具体实施方式

介绍了本发明的具体步骤和算法原理之后，下面展示该发明在几个人群数据集的测试效果。

实验采用了三个数据集，包括UCSD数据集、Fudan数据集以及Mall数据集。

UCSD是一个灰度行人图像数据集，包含2000张连续的158*238像素的图像，图像帧率(fps)为10张每秒。由于帧率较高，图像中有1684张相邻的图像人数是相同的，这些连续的图像特征很相似，所以存在大量冗余。图2展示了UCSD数据集的一些示例图像。按照以往大量的实验设置，该数据集的第601到1400帧图像作为训练集，剩余的1200帧图像作为测试集。

Fudan数据集包含1500张灰度图像，帧率也是10帧每秒，其中有1175张相邻的图像人数是相同的，也存在大量冗余帧。该数据集包含五个不同的短视频，每个短视频有300帧图像，我们选取每个视频的前100张图像作为训练集，剩下的1000张作为训练集。图3展示了Fudan数据集的一些示例图像。

Mall是一个彩色的人群图像数据集，由于其帧率只有2帧每秒，相邻图像标签相同的数量也只有389张，所以存在的冗余信息较低。另外，由于该数据集场景光照变化较为剧烈，而且人群遮挡较严重，所以该数据集的情况更加复杂，更加考验模型的预测性能。该数据集的前800帧作为训练集，剩下的1200张作为测试集。图4展示了Mall数据集的一些示例图像。

实验使用均方根误差MSE(mean square error)作为性能指标，其定义方式为：

其中，N表示测试集图像数量，y_i是图像的真实标签，y_i′是对应的预测值。

试验中，所有数据集以及所有对比方法都提取了相同的29维特征，包括人群区域面积、区域周长、内部边缘长度、灰度直方图纹理特征以及闵可夫斯基分形维度。所有模型的的参数都使用10折交叉验证从参数表格中获取最优参数。

实验例1：回归算法预测性能

这部分实验展示了不同的回归方法，在随机选择有标签样本的情况下的误差。作为对比方法，我们选择了有监督学习的高斯过程回归，基于半监督的弹性网以及半监督脊回归。表1展示了三个数据集上本发明的回归算法和三种对比方法的比较。可以看到，在UCSD和Fudan数据集上，本发明的的性能是最好的，在Mall数据集上，本发明的性能与半监督弹性网的性能十分接近。

实验例2：选择不同相似度量对模型的影响

表2展示了使用不同相似度量(即时间相似度的权重∈取不同值)时，回归模型在三个数据及上的性能变化。可以看到，在所有的数据集上，使用无标签样本都可以提升模型的预测性能；而使用不同相似度量时，会对性能产生不同的影响，若同时使用时间和空间相似性(权重∈通过交叉验证获得)，模型能获得最低的预测误差。

实验例3：子模样本选择算法

表3展示了本发明子模样本选择算法的效果。作为对比，选择了k-均值聚类和m-中心点方法。k-均值聚类法首先对所有样本进行聚类，再从每个簇中随机选择样本；m-中心点方法，首先计算样本的拉普拉斯矩阵，再通过谱聚类得到多个簇，最后从每个簇中选择中心点样本。

与表1对比后可以发现，对于UCSD数据集，半监督弹性网和本发明的子模技术选择的样本对模型性能提升很大；其余的数据集只有本发明的子模技术能够明显提升性能，特别是Mall数据集，说明了本发明对于复杂场景的适用性。

实验例4：不同子模函数对训练样本的影响

表4展示了使用不同子模函数选择样本时，训练得到的模型性能对比。随机选择样本始终获得最差性能。设施选址函数(facility location function)作为对比方法也表现出了提升效果。若单独使用本发明提出的代表性子模函数或差异性子模函数，模型能一定的性能提升，但是结合二者之后能显著提升预测性能。

实验例5：几种方法选择不同数量样本的性能表现

图5、图6、图7展现了在三个数据集上，四种样本选择方法——随机、k-均值聚类、m-中心点以及本发明提出的子模样本选择算法，随着所选样本数量的增加，对模型预测性能的提升空间。这几种方法结合的都是都是本发明提出的半监督回归方法。

由图可以看出，相比于随机的方法，另外三种方法都能提升模型预测精度，但是随着选择样本数量的增加，每种方法的性能增长幅度也表现不同。本发明提出的方法，当样本增长到30以后，性能提升都很不明显，说明性能继续提升的空间已经不大；而其他两种方法的性能会出现下降的情况，说明在选择样本的过程中，并不能总是找到最利于模型提升的样本。

表1：不同方法对于随机训练样本的预测性能

数据集	高斯过程回归	半监督弹性网	半监督脊回归	本发明的半监督回归
					UCSD	7.39	9.88	7.33	6.98
Fudan	2.02	1.96	N/A	1.94
					Mall	19.61	16.37	18.11	16.52

表2：使用无标签样本及不同相似度量对模型的影响

	UCSD	Fudan	Mall
				只用有标签样本	8.43	2.42	18.25
使用无标签样本+空间相似度	6.91	2.05	16.62
				使用无标签样本+时间相似度	7.07	1.89	17.09
使用无标签样本+时间和空间相似度	6.98	1.94	16.52

表3不同样本选择方法得到的训练样本对模型的影响

表4：不同子模函数对训练样本的影响

Claims

1.基于子模技术和半监督学习的人群计数方法，其特征在于具体步骤为：

(a)输入预先提取的图像特征，原图像为连续的高频人群视频图像，且未标记确切人数；该样本集合为：

V＝{x₁,x₂,x₃,…,x_n}

(1)代表性：该项衡量子集S与全集V的相似性：

f_{r} (S) = Σ_{k = 1}^{K} Σ_{i &Element; G_{k}} \max_{j &Element; S \cap G_{k}} W_{i j} - - - (1)

(2)差异性：该项衡量子集S中的样本再原集合中的分散性；

f_{d} (S) = Σ_{k = 1}^{K} \sqrt{\frac{m_{k} (S)}{| G_{k} |}} - - - (2)

其中，m_k(S)代表子集S中包含的第k个簇中的样本数：

2.根据权利要求1所述的人群计数方法，其特征在于，所述的时间空间相似度矩阵W的构建步骤为：

(a)计算V中所有样本的空间相似度:若样本x_j是样本x_i的k-近邻，则样本在空间上的相似度或距离表示为：

w_{i j}^{s} = \exp {- | | x_{i} - x_{j} | |^{2}} - - - (3)

否则

(b)计算V中所有样本的时间相似度:若样本x_j和x_i在帧数上相差不超过t，则样本在时间上的相似度或距离被表示为：

w_{i j}^{t} = \exp {- | | t_{i} - t_{j} | |^{2}} - - - (4)

否则其中t_i表示样本x_i的图像序号；

(c)任意两个样本的相似度表示为空间相似度和时间相似度的加权和：

W_{i j} = (1 - &Element;) w_{i j}^{s} + &Element; w_{i j}^{t} - - - (5)

其中,参数ε控制时间相似度的权重。

3.根据权利要求1所述的人群计数方法，其特征在于，所述的使用子模样本选择算法，从样本全集V的K个簇中选择最优子集S的具体步骤为：

(1)初始状态，最优子集S以及候选集合R为空，接下来每次迭代，首先获得候选集合R,再从候选集合中选取样本放入集合S中；此外，每个簇G_k需记录已选样本集合A_k；

(2)优化代表性函数，使得候选集合与全集的相似性最大；对于每个簇G_k,从中选出一个最优样本a_k放入集合R中，同时放入A_k。每个簇选择。选择样本a_k的条件是使得A_k与G_k的相似性最大，该相似性用设施选址函数表示：

f_{l o c} (A_{k}) = Σ_{i &Element; G_{k}} \max_{j &Element; A_{k} W_{i j}} - - - (6)

每个簇始终有一个最优样本在候选集合R中；

(3)优化差异性函数，从候选集合R中选择一个样本，放入子集S中，使得差异性准则达到最大，这样最优子集S内的所有样本就分散在全集V中，即所选的样本冗余达到最小。

4.根据权利要求1所述的人群计数方法，其特征在于，所述的使用所有人群图像，包括标注的图像样本(X_L,Y_L)和未标注样本(X_U)，训练回归模型，得到目标参数β^*，其中，训练回归模型的具体方法为：

优化目标函数：

其中，

λf^TLf＝∑_ijW_ij||x_iβ-x_jβ||² (8)

βx_i是根据图像的低维特征的预测值，该目标项同时优化已标注和未标注图像样本，反映训练样本的潜在结构；另外，P_α(β)是一个弹性网络正则项，其结合了目标参数β^*的L1范数||β^*||和L2范数||β^*||₂；结合(7)式和(8)式，模型的优化目标重写为：

于是目标函数转变成一个标准的弹性网络，直接使用最小角回归算法优化求解。