CN104951804B

CN104951804B - 基于无监督特征学习与密度估计的拥挤场景分类方法

Info

Publication number: CN104951804B
Application number: CN201510359561.5A
Authority: CN
Inventors: 袁媛; 王�琦; 万佳
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2018-02-06
Anticipated expiration: 2035-06-25
Also published as: CN104951804A

Abstract

本发明公开了一种基于无监督特征学习与密度估计的拥挤场景分类方法，用于解决现有拥挤场景分类方法实用性差的技术问题。技术方案是对未标记训练集中的图像进行数据扩充，然后在扩充的数据集中随机采取图像块，将所有图像块作为特征学习算法的训练样本X；从训练样本X中学习k_y个预备特征C，选择出最有效的特征；利用不同特征的表观区别，训练一个二分类器，去掉被分类器判别为噪声的元素形成最终的k个特征C。同时提取输入图像中的n个图像块X，将图像块X映射到特征空间并形成k个响应通道；在响应通道上估计局部密度，并将所有通道的密度连接形成图像的最终特征，进行拥挤场景的类别决策。本发明解决了复杂状况下的拥挤场景分类问题，实用性强。

Description

基于无监督特征学习与密度估计的拥挤场景分类方法

技术领域

本发明涉及一种拥挤场景分类方法，特别是涉及一种基于无监督特征学习与密度估计的拥挤场景分类方法。

背景技术

拥挤场景的检测与识别对于监控交通状况，防止由于过度拥挤产生的问题有重要作用。但是由于拥挤场景中物体(即人和车)之间的遮挡很严重，人和车辆的检测非常困难。因此对拥挤场景分类的研究相对较少，这些研究的流程大体如下：首先去掉背景，然后以场景中物体的数量或流动速度为依据将拥挤场景识别出来。这些研究都只针对人或车辆：

基于人群的拥挤场景检测有G.Kim等人在文献1“G.Kim,K.Eom,M.Kim,J.Jung,andT.Ahn.Automated measurement of crowd density based on edge detection andoptical flow,In Proceedings of International Conference on IndustrialMechatronics and Automation,pp.553–556,2010.”中提出的基于边缘检测与光流法的方法，该方法通过光流法去除了背景的影响，再通过边缘检测的结果来估计人群的密度。

基于车辆的拥挤场景分类有A.Sobral等人在文献2“A.Sobral,L.Oliveira,L.Schnitman,and F.Souza.Highway traffic congestion classification usingholistic properties,In Proceedings of International Conference on SignalProcessing,Pattern Recognition and Applications,pp.1-7,2013.”中提出的基于整体特征的拥挤场景分类。该方法使用背景剪除法去除了背景的影响，再使用跟踪算法估计出车辆流动的速度，以此为依据来区分拥挤场景。

这些方法都有其局限性。背景单一，场景中只包含行人或车辆，与实际情况不符，所以实用性不强。

发明内容

为了克服现有拥挤场景分类方法实用性差的不足，本发明提供一种基于无监督特征学习与密度估计的拥挤场景分类方法。该方法通过无监督特征学习和拥挤场景分类，即首先对未标记训练集中的图像进行数据扩充，然后在扩充的数据集中随机采取图像块，将所有图像块进行归一化和白化处理之后作为特征学习算法的训练样本X；从训练样本X中学习k_y个预备特征选择出最有效的特征；利用不同特征的表观区别，训练一个二分类器，该分类器将噪声与有用的特征进行区分，去掉预备特征中被分类器判别为噪声的元素形成最终的k(k<k_y)个特征C＝{c₁,c₂,...,c_k}。同时提取输入图像中的n个图像块X＝{x₁,x₂,...,x_n}，通过学习到的特征C将图像块X映射到特征空间并形成k个响应通道；在响应通道上估计局部密度，并将所有通道的密度连接起来形成图像的最终特征；将最终特征送入分类器进行拥挤场景的类别决策。本发明将拥挤场景的识别看作一个基于场景的分类问题，可以有效解决复杂状况下的拥挤场景分类问题，实用性强。

本发明解决其技术问题所采用的技术方案是：一种基于无监督特征学习与密度估计的拥挤场景分类方法，其特点是采用以下步骤：

第一部分、无监督特征学习的实现步骤如下：

步骤一、将无标签的训练图片旋转至不同的角度以适应车辆和人群的角度变化并形成一个扩大的数据集，在此基础上放缩不同的尺度以适应车辆和人群的尺度变化，在扩充的数据集中采集n个图像块X＝{x₁,x₂,...,x_n}，对图像块进行归一化与白化预处理。

步骤二、采用Spherical k-means算法，以步骤一中经过预处理的图像块X为输入，初始化k个特征C＝{c₁,c₂,...,c_k}，最小化以下目标函数：

计算得到C，s_i表示第i个图像块。

步骤三、预先训练一个能将噪声与有效特征区别的二分类器，将步骤二中生成的特征中被判定为噪声的特征去除，最终形成个特征。

第二部分、拥挤场景分类的实现步骤如下：

步骤一、给定输入图像，滑动窗口以采集一系列图像块X。

步骤二、选取C的一个子集最小化目标函数：

将x_i映射到特征空间形成s_i，最终形成了个特征通道。

步骤三、将每个特征通道四分形成四个区域，估计每个区域中的局部最大密度值，将所有的密度值链接形成图像的最终特征。

步骤四、通过图像的最终特征，分别以拥挤与不拥挤的场景作为正负样本训练支持向量机，利用所述二分类器判定输入图像是否为拥挤场景。

本发明的有益效果是：该方法通过无监督特征学习和拥挤场景分类，即首先对未标记训练集中的图像进行数据扩充，然后在扩充的数据集中随机采取图像块，将所有图像块进行归一化和白化处理之后作为特征学习算法的训练样本X；从训练样本X中学习k_y个预备特征选择出最有效的特征；利用不同特征的表观区别，训练一个二分类器，该分类器将噪声与有用的特征进行区分，去掉预备特征中被分类器判别为噪声的元素形成最终的k(k<k_y)个特征C＝{c₁,c₂,...,c_k}。同时提取输入图像中的n个图像块X＝{x₁,x₂,...,x_n}，通过学习到的特征C将图像块X映射到特征空间并形成k个响应通道；在响应通道上估计局部密度，并将所有通道的密度连接起来形成图像的最终特征；将最终特征送入分类器进行拥挤场景的类别决策。本发明将拥挤场景的识别看作一个基于场景的分类问题，可以有效解决复杂状况下的拥挤场景分类问题，训练速度快，识别率高达86％以上。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于无监督特征学习与密度估计的拥挤场景分类方法的流程图。

具体实施方式

参照图1。本发明基于无监督特征学习与密度估计的拥挤场景分类方法具体步骤如下：

第一部分、无监督特征学习的实现步骤如下：

步骤1，首先，数据扩充与预处理。将无标签的训练图片旋转至不同的角度以适应车辆和人群的角度变化并形成一个扩大的数据集，在此基础上放缩不同的尺度以适应车辆和人群的尺度变化。然后，在扩充的数据集中采集n个图像块X＝{x₁,x₂,...,x_n}。最后，对图像块进行归一化与白化预处理。

步骤2，采用Spherical k-means算法，学习特征。以步骤1中经过预处理的图像块X为输入，初始化k个特征C＝{c₁,c₂,...,c_k}，最小化以下目标函数：

可以计算得到C，s_i表示第i个图像块新的表示。

步骤3，利用表观差异，选择有效的特征。预先训练一个能将噪声与有效特征区别的二分类器，将步骤2中生成的特征中被判定为噪声的特征去除，最终形成个特征。

第二部分、拥挤场景分类的实现步骤如下：

步骤1，采用滑窗策略，提取图像块。给定输入图像，滑动窗口以采集一系列图像块X。

步骤2，采用局部限制编码，将局部图像块映射到特征空间，形成特征通道。具体来说，首先选取C的一个子集(元素远少于C中的元素)，最小化目标函数：

可以将x_i映射到特征空间形成s_i。最终形成了个特征通道。

步骤3，在特征通道上估计局部密度，链接形成最终的表示。首先将每个特征通道四分形成四个区域。然后，估计每个区域中的局部最大密度值。将所有的密度值链接形成最后的表示。

步骤4，使用支持向量机作分类器，进行拥挤场景的类别决策。通过提取有效的特征之后，分别以拥挤与不拥挤的场景作为正负样本训练支持向量机。利用该分类器判定输入图像的类别(即是否为拥挤场景)。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件。

本发明是在中央处理器为i5-3470 3.2GHz CPU、内存4G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。

仿真中使用的数据为自主采集的拥挤和非拥挤场景的图片。

2.仿真内容。

首先，使用训练集按照具体实施方式中无监督特征学习的步骤学习特征；然后，按照拥挤场景分类中的步骤将测试集中的图片分类并结合真实标记的结果计算出分类准确率。

为了证明算法的有效性，选择了视觉词汇模型(BOF)，基于空间金字塔匹配的模型(SPM)与基于局部限制编码(LLC)的模型作为对比算法，BOF算法在文献“L.Fei-Fei andP.Perona.A bayesian hierarchical model for learning natural scene categories,In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,pp.524–531,2005.”中有详细的介绍；SPM算法是文献“S.Lazebnik,C.Schmid,andJ.Ponce.Beyond bags of features:Spatial pyramid matching for recognizingnatural scene categories,In Proceedings of IEEE Conference on Computer Visionand Pattern Recognition,pp.2169–2178,2006.”提出的；LLC算法是文献“J.Wang,J.Yang,K.Yu,F.Lv,T.Huang,and Y.Gong.Locality-constrained linear coding forimage classification,In Proceedings of IEEE Conference on Computer Vision andPattern Recognition,pp.3360–3367,2010.”提出的。对比结果如表1所示。

表1

Method	BOF	SPM	LLC	EUFL
					Accuracy	78.09％	80.58％	80.92％	85.50

从表1可见，本发明的分类准确率显著地高于传统的场景分类算法。本发明将高效的特征学习算法加以扩展，提高了算法的实用性与鲁棒性；本发明巧妙地挖掘了场景中的密度信息，使该方法更具有针对性；本发明易于扩展，可以通过微小的改动扩展为一种有效的通用场景分类方法：高效无监督学习方法(EUFL)。表2为扩展的算法与其对比算法的分类准确率的比较。

表2

Method	BOF	SPM	LLC	EUFL
					Accuracy	79.79％	83.44％	83.96％	86.44％

从表2可见，扩展后的方法的分类准确率也高于传统方法。通过以上仿真实验可以验证本发明的有效性。

Claims

1.一种基于无监督特征学习与密度估计的拥挤场景分类方法，其特征在于包括以下步骤：

第一部分、无监督特征学习的实现步骤如下：

步骤一、将无标签的训练图片旋转至不同的角度以适应车辆和人群的角度变化并形成一个扩大的数据集，在此基础上放缩不同的尺度以适应车辆和人群的尺度变化，在扩充的数据集中采集n个图像块X＝{x₁,x₂,...,x_n}，对图像块进行归一化与白化预处理；

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mrow> <mi>C</mi> <mo>,</mo> <mi>s</mi> </mrow> </munder> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>Cs</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mi>j</mi> <mi>e</mi> <mi>c</mi> <mi>t</mi> <mi> </mi> <mi>t</mi> <mi>o</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>0</mn> </msub> <mo>&le;</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>i</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

计算得到C，s_i表示第i个图像块；

步骤三、预先训练一个能将噪声与有效特征区别的二分类器，将步骤二中生成的特征中被判定为噪声的特征去除，最终形成个特征，其中

第二部分、拥挤场景分类的实现步骤如下：

步骤一、给定输入图像，滑动窗口以采集一系列图像块X；

步骤二、选取C的一个子集最小化目标函数：

将x_i映射到特征空间形成s_i，最终形成了个特征通道；

步骤三、将每个特征通道四分形成四个区域，估计每个区域中的局部最大密度值，将所有的密度值链接形成图像的最终特征；

步骤四、通过图像的最终特征，分别以拥挤与不拥挤的场景作为正负样本训练支持向量机，利用所述支持向量机作分类器判定输入图像是否为拥挤场景。