CN104077613B

CN104077613B - 一种基于级联多级卷积神经网络的人群密度估计方法

Info

Publication number: CN104077613B
Application number: CN201410339426.XA
Authority: CN
Inventors: 李涛; 叶茂; 李旭冬; 付敏; 唐宋; 向涛; 黄仁杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2017-04-12
Anticipated expiration: 2034-07-16
Also published as: CN104077613A

Abstract

本发明公开了一种基于级联多级卷积神经网络的人群密度估计方法，1)采用多级卷积神经网络，提取由低层到高层的特征，并且将低层和高层特征组合在一起形成多阶段的特征，从而增强了人群密度特征的可分性；2)根据多级卷积神经网络降采样层中特征图的相似性，去掉卷积神经网络中冗余神经元的连接，从而加快特征提取的速度；3)依据人群密度样本可分性的难易程度，训练了两种不同结构的多级卷积神经网络，并采用由简单到复杂的顺序级联这两种多级卷积神经网络，形成级联的多级卷积神经网络的人群密度估计模型，对视频终端实时获取的检测图像快速地进行人群密度等级的估计。本发明的实时性，检测准确度方面较之以前的方案都有了更好的效果。

Description

一种基于级联多级卷积神经网络的人群密度估计方法

技术领域

本发明属于数字图像处理技术领域，更为具体地讲，涉及一种视频智能监控系统中，对公共区域人群密度进行实时准确估计的方法。

背景技术

随着计算机视觉技术和相关硬件的发展以及人类安全意识的不断提高，基于公共场合的智能监控技术越来越引起社会的广泛关注，也是实现数字化城市的重要组成部分。特别是针对公共场合中的人群管理能够有效地提高人身安全，防止因为过度拥堵导致的群体性践踏事件的发生，同时根据人群密度的区域分布实现对公共资源合理配置。因此针对公共场合的人群密度估计及其相关技术也得到了广泛应用。

当前基于视频图像的人群密度估计主要通过以下两个步骤实现：人群特征提取、人群特征分类。

人群特征提取主要是从监控设备采集到的视频图像上获取人群特征描述，从而刻画人群密度。当前人群特征描述主要集中在手工设计的纹理特征上，如：基于小波分析、基于LBP和基于灰度共生矩阵的GLDM纹理特征。

人群特征分类主要集中在选择一个什么样的分类模型来拟合人群密度，从而获得相应人群密度等级。当前基于人群密度估计的分类器选择主要集中在支持向量机SVM和BP神经网络。

然而由于公共场合的人群密度估计多为非约束的开放性环境，复杂多变，存在光照变化，视角变换，远近变换等，使用当前手工设计的人群特征和人群特征分类器，不能准确刻画人群密度的本征表示，对不同密度等级缺乏较强的可分性。另外，当前人群特征分类器由于自身较高的复杂性也降低了系统的处理速度，因此，需要一种准确、实时、且在复杂场合具有高适应性的人群密度估计方法。

1、与本发明相关的现有技术一

在中山大学和广州中大南沙科技创新产业园有限公司纪庆革、杜景洪、迟锐申请、2014年05月28日公开、公开号为CN103824074A、发明名称为“一种基于背景减除和纹理特征的人群密度估计方法及系统”的中国发明专利申请中，首先对输入图像采用带有背景减除的方式进行前景提取，获取前景图像；然后使用小波变换提取纹理特征，利用SVM分类器实现视频获取图像的人群密度估计，具体如图1所示，包括以下步骤：

(1)、采用背景差分法检测运动目标，就是用当前帧图像与设定的背景图像相减，获得初步前景图像；

(2)、通过中值滤波获得二值前景掩码，并应用该掩码最终获得提取的前景图像；

(3)、采用小波滤波，对每张图像做三级小波变换形成一张低通近似图和九张细节子图，并在每张细节子图上获取两组特征向量即统计特征和GLDM纹理特征。

(4)、利用步骤(3)得到特征进行训练获得SVM分类模型，实现人群密度等级估计。

该专利申请利用了背景差分获取人群前景区域，检测准确性密切依赖前景提取的结果，复杂场景无法准确获取前景，从而会在一定程度上产生误报。另外，采用手工设计的GLDM等特征，存在一定局限性，对于实际应用中的非约束的开放性环境中人群密度无法准确刻画其本征，从而造成一定程度误报。

2、与本发明相关的现有技术二

2.3.1现有技术二的技术方案

在佳都新太科技股份有限公司的毛亮、冯琰一、张少文申请、2013年11月13号公开、公开号为CN103390172A，发明名称为“一种高密度场景下的人群密度估计方法”的中国发明专利申请中，首先利用视频获取图像，并进行梯度方向计算，获取梯度方向图；然后对梯度方向图进行LBP纹理特征计算；最后利用ADABOOST进行人头检测，获取高密度场景下的人头数目，利用人头数目，进行人群密度估计，具体如图2所示，包括以下步骤：

首先获取视频图像，然后计算梯度方向图，然后利用LBP进行编码获得纹理特征；在获得纹理特征基础上，利用ADABOOST进行人头检测，从而统计出人头个数，达到人群密度等级的检测。

该专利申请利用求取的梯度方向图的LBP特征进行纹理刻画，然后通过ADABOOST进行人头检测实现密度估计，该专利申请的检测结果严重依赖于人头检测的结果，在复杂场景下，由于存在遮挡，视角，远近等诸多不确定性干扰，无法准确获取人头数，造成人群密度估计的错误。

上述两种传统的人群密度估计方法，利用人为设计的纹理特征都无法准确刻画人群图像的本征，导致无法准确地实现人群密度的估计，另外，人群密度估计的实时性也有待提高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于级联多级卷积神经网络的人群密度估计方法，以提高人群密度估计的准确性和实时性。

为实现以上目的，本发明1、一种基于级联多级卷积神经网络的人群密度估计方法，其特征在于，包括以下步骤：

(1)、离线训练和优化阶段

1.1)、对于一个应用场景，将人群密度分为M个密度等级，然后，从视频终端监控视频中收集每个密度等级的人群密度样本各N₁张组成训练集，收集每个密度等级的人群密度样本各N₂张组成验证集；

1.2)、人群密度估计模型的设计

构造一个两阶段特征提取器和一个分类器的多级卷积神经网络作为人群密度估计模型，其中，每个阶段的特征提取器均包含一个卷积层和降采样层，执行卷积、降采样，分类器是一个不含隐藏层的全连接神经网络，依据第一阶段以及第二阶段输出的特征图进行人群密度等级进行估计，输出各密度等级的估计值，并根据估计值得到密度等级分类；

在第一阶段的特征提取器中，输入为视频图像，输出为多张特征图，在卷积层，其计算公式为：

其中，上标2表示参数属于第二阶段特征特征提取器的参数，G_j为输入特征图即第一阶段输出的特征图与第二阶段输出的第j个卷积特征图的连接关系，w_ij表示第二阶段输出的第j卷积特征图与第i个第一阶段输出的特征图的卷积核，b_j表示第j个偏移量，f(·)为sigmoid激活函数；

在降采样层，无重叠地用一个均值核扫描卷积层特征图，输出与卷积层等数量的特征图；

在第二阶段的特征提取器中，卷积层的输入为第一阶段输出的特征图和输出为多张特征图，在卷积层，其计算公式为：

其中，上标2表示参数属于第二阶段特征特征提取器的参数，G_j为输入特征图即第一阶段输出的特征图与第二阶段输出的第j个卷积特征图的连接关系，w_ij表示第二阶段输出的第j卷积特征图与第i个第一阶段输出的特征图的卷积核，b_j表示第j个偏移量；

在降采样层，同第一阶段一样，无重叠地用一个均值核扫描卷积层特征图，输出与卷积层等数量的特征图；

1.3)、采用BP算法训练简单结构的人群密度估计模型

利用步骤1.2)的方法构建一个人群密度估计模型作为简单结构的人群密度估计模型，其采用经典的BP算法进行学习，学习速率设定为恒定值0.01；

在训练集中，每个密度等级选出p₁张人群密度样本，然后按张作为视频图像输入到简单结构的人群密度估计模型，计算每张人群密度样本经过简单结构的人群密度估计模型后的输出即各密度等级的估计值与自身样本标签中对应密度等级值的误差，然后进行平均，用平均误差来更新简单结构的人群密度估计模型的参数，包括特征提取器中的卷积核和偏移量，以及分类器中的权重和偏移量；其中，样本标签为各个密度等级的值，其中人群密度样本所属的密度等级1，其余密度等级的值为0；

更新完毕后，在验证集上，每个密度等级选取p₂张人群密度样本输入到简单结构的人群密度估计模型进行验证，如果每一个密度等级的分类正确率不再提高，则终止简单结构的人群密度估计模型的训练，否则重新选出p₁张人群密度样本，继续简单结构的人群密度估计模型的训练，直到满足每一个密度等级分类正确率不再提高为止；

1.4)、采用BP算法训练复杂结构的人群密度估计模型

利用步骤1.2)的方法构建一个人群密度估计模型作为复杂结构的人群密度估计模型，其第一阶段特征提取器输出的特征图数量以及第二阶段特征提取器输出的特征图数量都大于简单结构的人群密度估计模型，同时，也采用经典的BP算法进行学习，学习速率设定为恒定值0.001；

将训练集中的所有人群密度样本，按张作为视频图像输入送入步骤1.3)训练后的简单结构的人群密度估计模型中进行分类，如果人群密度样本的分类密度等级与实际密度等级不一致，或者无法分类出密度等级，则定义这样的人群密度样本为复杂样本；

每个密度等级选出p₃张复杂样本，然后按张作为视频图像输入到简单结构的人群密度估计模型，采用步骤1.3)相同的方法进行迭代训练，直到满足每一个密度等级分类正确率不再提高为止；

1.5)、优化简单结构的人群密度估计模型

1.5.1)、计算特征图之间的相似度

在训练集中，每个密度等级选出p₄张人群密度样本按张作为视频图像输入到步骤1.3)训练完成的简单结构的人群密度估计模型，提取每个人群密度样本在第二阶特征提取器降采样层的特征图，并求取各个特征图之间的相似度S_k(m,n)，k＝1,2,…,p₄，相似度S_k(m,n)表示第k个人群密度样本第二阶段降采样层第m个特征图和第n个特征图之间的余弦相似度；

计算各个特征图之间相似度的平均值，即：

1.5.2)、利用特征图之间相似度的平均值，形成相似特征图组：以σ为聚类半径，对特征图之间相似度的平均值进行聚类，形成多个特征图组，其中，σ根据实际情况确定；

1.5.3)合并相似特征图，减少特征图组的冗余

如果特征图组中含有多个特征图，则以每组聚类中心的特征图作为该组的保留特征图，其余为冗余特征图；然后去掉冗余特征图的前向连接，合并冗余特征图的后向连接并付给该组的保留特征图的后向连接上；如果特征图组中只含有一个特征图，则不做处理；这样完成了对简单结构的人群密度估计模型的优化；

1.6)、优化复杂结构的人群密度估计模型

每个密度等级选出p₅张复杂样本按张作为视频图像输入到步骤1.4)训练完成的复杂结构的人群密度估计模型中，采用步骤1.5)同样的方法对复杂结构的人群密度估计模型进行优化；

(2)、在线检测阶段

2.1)、从视频终端监控视频中实时获取人群密度估计的检测图像；

2.2)、利用步骤1.5)、1.6)优化后的简单、复杂结构的人群密度估计模型，采用由易到难的级联方式形成层次性的人群密度估计模型对检测图像进行人群密度估计，并输出最终的人群密度等级：

2.2.1)将检测图像作为视频图像输入到优化后的简单结构的人群密度估计模型，如果简单结构的人群密度模型能估计出人群密度等级，则输出人群密度等级，如果不能，则进入步骤2.2.2)；

2.2.2)、将检测图像作为视频图像输入到优化后的复杂结构的人群密度估计模型，如果复杂结构的人群密度模型能分类出人群密度等级，则输出人群密度等级，如果不能，则依据简单结构、复杂结构的人群密度模型的估计结果进行判断：将简单结构的人群密度模型输出中的最大值与复杂结构的人群密度模型输出中的最大值进行比较，哪个大，则选取该最大值对应的人群密度等级。

本发明的目的是这样实现的：

本方案提出了一种基于级联多级卷积神经网络(Convolutional NeuralNetworks，简称CNN)的人群密度估计方法，1)采用多级卷积神经网络进行人群密度的估计，在特征提取时交替利用卷积和降采样操作，提取由低层到高层的特征，并且将低层和高层特征组合在一起形成多阶段的特征，从而增强了人群密度特征的可分性；2)根据多级卷积神经网络降采样层中特征图的相似性，去掉卷积神经网络中冗余神经元的连接，从而加快特征提取的速度；3)依据人群密度样本可分性的难易程度，训练了两种不同结构的多级卷积神经网络，并采用由简单到复杂的顺序级联这两种多级卷积神经网络，形成级联的多级卷积神经网络的人群密度估计模型，对视频终端实时获取的检测图像快速地进行人群密度等级的估计。本发明的实时性，检测准确度方面较之以前的方案都有了更好的效果。

附图说明

图1是现有技术中一种人群密度估计方法的流程图；

图2是现有技术中另一种人群密度估计方法的流程图；

图3是本发明基于级联多级卷积神经网络的人群密度估计方法一种具体实施方式流程图；

图4是本发明中基于多级卷积神经网络结构的人群密度估计模型的结构示意图；

图5是本发明中人群密度估计模型优化示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

本发明基于级联多级卷积神经网络的人群密度估计方法，基于大量不同人群密度等级的人群密度样本，利用多级卷积神经网络自动提取具有高区分度的特征图，以级联方式连接不同结构的多级卷积神经网络形成人群密度估计模型，有效地实现人群密度的估计。在训练阶段，训练两个不同结构的多级卷积神经网络即简单结构的人群密度估计模型、复杂结构的人群密度估计模型，从大量不同人群密度等级的人群密度样本中学习到人群密度的本质特征。在优化阶段，针对多级卷积神经网络在训练过程中提取到相类似的特征图，形成冗余的问题，对训练完成的多级卷积神经网络进行结构优化，减少特征图提取的计算量，提高检测(估计)的实时性。在检测阶段，利用训练好的不同结构的多级卷积神经网络模型逐级对检测图像进行人群密度分类，实现快速和准确的人群密度估计。

本发明基于级联多级卷积神经网络的人群密度估计方法主要有离线训练和优化、在线检测两个阶段。

离线训练的主要步骤为：1)从应用场景的监控视频中收集大量不同人群密度等级的人群密度样本；2)对人群密度样本进行预处理；3)利用人群密度样本训练简单结构的人群密度估计模型，在利用简单结构的人群密度估计模型对人群密度样本进行估计，将人群密度样本的估计密度等级与实际密度等级不一致，或者无法估计出密度等级的人群密度样本定义为复杂样本，利用复杂样本训练复杂结构的多级CNN人群密度估计模型。

离线优化的主要步骤为：1)计算每个样本在人群密度估计模型中第二阶段降采样层的特征图，以及特征图之间的相似度；2)根据特征图之间的相似度构建相似特征图组；3)合并相似特征图，简化人群密度估计模型的网络结构。

在线检测阶段的主要步骤为：1)通过视频终端监控视频实时获取检测图像；2)预处理；3)人群密度估计，如果简单结构的CNN人群密度估计模型无法满足一定条件，实现正确估计，进入下一级复杂结构的CNN人群密度估计模型重新进行人群密度估计；4)根据级联的多级卷积神经网络人群密度估计模型的结果，输出最终人群密度估计结果。

在本实施例中，本发明基于级联多级卷积神经网络的人群密度估计方法具体的流程如图3所示。

一、离线训练和优化阶段

1、收集人群密度样本

从一个具体的应用场景中，视频终端监控视频中收集大量的人群密度样本，并人为地对人群密度样本分为M＝5个密度等级：很低very low(VL)，低low(L)，中Medium(M)，高High(H)，很高Very High(VH)。每个密度等级的人数范围根据具体的应用场景决定。在本实施例中，每个密度等级都收集了2500张人群密度样本，总共12500张人群密度样本，其中训练集包含10000张样本(每个密度等级N₁＝2000张)，验证集包含1000张样本(每个密度等级N₂＝200张)，测试集包含1500张样本(每个密度等级300张)。

在本实施例中，为了减少计算量，离线训练和优化阶段的人群密度样本在线检测阶段的检测图像还需要进行预处理：

(1)、根据设定的人群密度样本、检测图像尺寸，对人群密度样本、检测图像进行尺度变换；

(2)、然后获取人群密度样本、检测图像的灰度图，并进行平滑处理；

(3)、最后对人群密度样本、检测图像进行归一化处理，像素值取值范围为[-1,+1]。

在本实施例中，对所有的人群密度样本进行预处理。首先，对人群密度样本进行尺度变换，统一为48*48的像素分辨率；然后，提取灰度图，将人群密度样本从RGB空间变换到灰度空间，并用3*3大小的均匀核对人群密度样本进行平滑处理；最后，把人群密度样本像素值归一化到[-1,1]的范围内。

在本实施例中，对每个人群密度样本设定样本标签，密度等级为VL的样本标签设定为[1,0,0,0,0]，密度等级为L的样本标签设定为[0,1,0,0,0]，密度等级为M的样本标签设定为[0,0,1,0,0]，密度等级为H的样本标签设定为[0,0,0,1,0]，密度等级为VH的样本标签设定为[0,0,0,0,1]。

2、设计人群密度估计模型

本发明利用多级卷积神经网络进行人群密度估计。人群密度估计模型的输入是整个检测图像，输出是五个密度等级的估计值(分别由五个神经元节点输出，每个节点输出值的范围为[0,1])。人群密度估计模型由一个两阶段特征提取器和一个分类器组成。其中，两阶段特征提取器交替包含两个卷积层和降采样层，执行卷积、降采样，提取检测图像的特征图；分类器是一个不含隐藏层的全连接神经网络，依据第一阶段以及第二阶段输出的特征图进行人群密度等级进行估计。

特征图提取有两个阶段：第一阶段提取低层特征，第二阶段对低层特征进行随机组合形成高层特征。每个阶段都包含一个卷积层和一个降采样层。在第一阶段，卷积层的输入是单张转换为灰度图的人群密度样本，输出是多张特征图。其中，sigmoid激活函数的表达式为f(t)＝1/(1+e^-t)。

本发明中采用的卷积神经网络在结构上与传统卷积神经网络有所不同。我们将第一阶段特征提取的结果进行一次降采样后，与第二阶段特征提取的结果组合在一起，作为检测图像的多阶段特征。多阶段特征既包含了低层特征，又包含了高层特征，具有更好的可分性。

在多阶段特征形成后，用不含隐藏层的全连接神经网络分类器对特征进行分类，每个输出节点代表人群密度的一个等级，根据五个节点输出值的大小即可判定输入图像的人群密度等级，例如，输出为[0.9,0.1,0.1,0,0]是VL等级，输出为[0.3,0.2,0.8,0,0]是M等级。

在本实施例中，基于多级卷积神经网络结构的人群密度估计模型，如图4所示。

3、训练

本发明基于级联多级卷积神经网络的人群密度估计方法根据估计人群密度样本的难易程度训练两个多级卷积神经网络：简单结构的CNN人群密度估计模型(简称S-CNN)和复杂结构的CNN人群密度估计模型(简称C-CNN)。这里的简单和复杂是指网络结构的复杂度，C-CNN比S-CNN在每个阶段都包含更多的特征图。一般来说，结构越复杂，模型的分类效果也就越好，但结构过于复杂的模型不能保证实时性。因此，本发明训练两种不同结构的CNN人群密度估计模型，采用级联的方式组织，形成层次性的人群密度估计模型。

3.1、训练简单结构的人群密度估计模型

首先，设计简单结构的人群密度估计模型。在本实施例中，S-CNN第一阶段每层有6张特征图，第二阶段每层有18张特征图，采用5*5大小的卷积核和2*2大小的均值核。因此，两阶段特征提取的维数为2184维，模型总共的训练参数有13187个。

然后，将训练样本用于训练简单结构的人群密度估计模型。在训练过程中，学习速率设定为恒定值0.01。采用最小批的训练样本选择方式，每次从每个密度等级的人群密度样本中随机挑选p₁＝30张，总共150张人群密度样本，作为一次迭代的训练样本。模型的训练算法采用经典的BP算法，根据150个样本经过简单结构的人群密度估计模型的输出与样本标签的平均误差来更新网络的参数。

简单结构的人群密度估计模型中每次迭代被更新的参数包括特征提取器中的卷积核和偏移量，以及分类器中的权重和偏移量。迭代次数由模型在验证集上的分类效果决定。当模型更新一次参数后，测试当前模型在验证集上分类效果，如果分类正确率不再明显提高，那么终止模型的训练过程，否则继续模型的训练过程。

其次，当简单结构的人群密度估计模型训练完成后，用S-CNN对训练集中的所有人群密度样本进行分类，如果人群密度样本的估计密度等级与实际密度等级不一致(例如，某个人群密度样本经过S-CNN的输出为[0.1,0.2,0.8,0.5,0.3]，而该人群密度样本属于H等级的样本)，或者无法分类出密度等级(如输出为[0.3,0.2,0,0.1,0]，最大值为0.3)人群密度样本经过S-CNN的输出最大值小于阈值0.7，无法分类)，则定义这样的人群密度样本为复杂样本，其余的样本为简单样本。

3.2、训练复杂结构的人群密度估计模型

简单结构的人群密度估计模型无法判别复杂样本的密度等级。因此针对复杂样本，重新训练一个复杂结构的人群密度估计模型对复杂样本进行分类。在本实施例中，C-CNN的结构为：第一阶段每层有12张特征图，第二阶段每层有36张特征图，采用5*5大小的卷积核和2*2大小的均值核。因此，多阶段特征提取的维数为4368维，模型总共的训练参数有30581个。训练采用的参数和方式与训练简单结构的人群密度估计模型相同。

4、优化人群密度估计模型

卷积神经网络特征提取过程中，由于逐级映射往往会增加大量的特征图，而同一层中存在一些相似的特征图，造成模型冗余。因此对已经训练好的多级卷积神经网络通过合并相似特征图的方式优化网络结构，避免重复的特征提取，在一定程度上加快检测速度。

4.1、在训练集中，每个密度等级选出p₄＝50张人群密度样本输入到步骤1.3)训练完成的简单结构的人群密度估计模型，每个密度等级选出p₅张复杂样本输入到步骤1.4)训练完成的复杂结构的人群密度估计模型中。

提取每个人群密度样本在第二阶特征提取器降采样层的特征图，并求取各个特征图之间的相似度S_k(m,n)，k＝1,2,…,p₄，相似度S_k(m,n)表示第k个人群密度样本第二阶段降采样层第m个特征图和第n个特征图之间的余弦相似度。

相似度S_k(m,n)可以构成相似度矩阵S_k，其长和宽是降采样层特征图的数量。在计算相似度矩阵S_k时，只需计算i>j的情况，因此相似度矩阵S_k是一个上三角矩阵。对所有训练样本的相似度矩阵求均值，获得平均相似度矩阵。

4.2、利用平均相似度矩阵，以σ＝0.1为聚类半径，对特征图进行聚类，形成多个相似特征图组。如果相似特征图组只有一个特征图，则不做合并。如果相似特征图组包含多张特征图，确定每个相似特征图组的聚类中心，并将该聚类中心的特征图作为保留特征图，其余作为冗余特征图。

4.3、删除冗余特征图的前向连接，包括对应的卷积层连接(卷积核)和降采样层连接(均值核)。合并冗余特征图的后向连接到保留特征图的后向连接上。如图5所示，假定第i张特征图与第j张特征图的相似度为0.95，形成一个相似特征图组。而第i张特征图作为保留特征图，第j张特征图作为冗余特征图。首先，删除形成第j张特征图有关的卷积层连接和降采样层连接；然后，假定第i张特征图与输出层的连接权重为w_i，第j张特征图与输出层的连接权重为w_j，那么合并权重的方式为：

w_i＝w_i+w_j (5)

最后当所有相似特征图组都只含有一张特征图时，模型优化完成，获得优化的人群密度估计模型。

二、在线检测阶段

1、从视频终端监控视频中实时获取人群密度估计的检测图像。

2、对检测图像进行预处理

(2.1)根据设定的尺寸48*48，对检测图像进行尺度变换；

(2.2)然后将检测图像转换为灰度图，并进行平滑处理；

(2.3)检测图像进行归一化处理，像素值取值范围为[-1,+1]。

3、利用训练并优化好的不同结构的人群密度估计模型，采用由易到难的级联方式形成层次性的人群密度估计模型，并输出最终的人群密度估计结果。

3.1、将预处理后的检测图像输入到简单结构的CNN人群密度估计模型中，如果S-CNN输出，用向量O_S表示，其中元素最大值大于阈值0.8，即能分类出则检测结束；否则认为不能，利用S-CNN不能正确划分(分类)检测图像的人群密度等级，到(3.2)进一步处理。

3.2、利用复杂结构的CNN人群密度估计模型对检测图像进行二次判断，输出该检测图像第二次的估计结果，用向量O_C表示，如果向量O_C中的最大值大于阈值0.7，则检测结束，否则最终结果O取两次判别结果中的最大值，即将简单结构CNN人群密度模型输出中的最大值与复杂结构CNN人群密度模型输出中的最大值进行比较，哪个大，则选取该最大值对应的人群密度等级。另外，一般不会出现相等的情况，所以可以不予考虑，也可以任选其一。

整个分类用公式表示为：

三、测试比较

本发明采用级联的多级卷积神经网络模型，能准确提取刻画人群密度的特征，实现快速和准确的人群密度估计。

本发明在三组不同场景上进行了测试：PETS2009行人检测数据集、地铁站的视频和成都春熙路的视频。由于拍摄角度以及拍摄距离带来的近大远小的问题，在不同场景下每个密度等级的人数范围规定略有不同，表1是三个数据集人群密度等级的标准。

数据集	VL	L	M	H	VH
						PETS2009	0～8	9～16	17～24	25～32	≥33
地铁站	0～7	7～11	11～21	21～31	≥31
						春熙路	0～3	3～5	5～10	10～14	≥14

表1

本发明与现有的基于神经网络的公共区域的人群密度估计(Estimation ofCrowd Density in Public Areas Based on Neural Network，以下简称现有人群密度估计方法)在准确率上的对比如表2、表3和表4所示，其中，表2为在PETS2009数据集的实验结果对比，表3为在地铁视频的实验结果对比，表4在春熙路视频的实验结果对比。

很明显，本发明比现有人群密度估计方法正确率要提高许多。主要原因归结于本发明采用了多级卷积神经网络来提取检测图像的特征，分类效果比人工设计的特征好。

表2

表3

表4

本发明与现有人群密度估计方法在检测速度上的对比如表5所示。本发明比现有人群密度估计方法检测速度快1倍，主要原因在于在线检测时大部分检测图片被简单结构的CNN人群密度估计模型正确地判别出人群密度等级，只有少量的样本进入下一级的判别，并且S-CNN的结构简单，计算速度快，因此检测速度有明显提高。

表5

通过实验，在三个数据集上验证了我们的结果。经过对比发现，本发明提出的级联的多级卷积神经网络人群密度估计模型不仅在速度上能够达到实时，而且在检测效果上能够达到平均94.3％的正确率

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于级联多级卷积神经网络的人群密度估计方法，其特征在于，包括以下步骤：

(1)、离线训练和优化阶段

1.2)、人群密度估计模型的设计

y_{i}^{1} = f (x^{1} &CircleTimes; w_{i}^{1} + b_{i}^{1}) - - - (1),

其中，下标i表示卷积层特征图的索引，上标1表示参数属于第一阶段特征提取器的参数，y_i表示第i个卷积层特征图，x表示输入的视频图像，w_i表示第i个卷积核，b_i表示第i个偏移量，表示卷积操作；

y_{j}^{2} = f (Σ_{i &Element; G_{j}} y_{i}^{1} &CircleTimes; w_{i j}^{2} + b_{j}^{2}) - - - (2),

1.3)、采用BP算法训练简单结构的人群密度估计模型

1.4)、采用BP算法训练复杂结构的人群密度估计模型

将训练集中的所有人群密度样本，按张作为视频图像输入步骤1.3)训练后的简单结构的人群密度估计模型中进行分类，如果人群密度样本的分类密度等级与实际密度等级不一致，或者无法分类出密度等级，则定义这样的人群密度样本为复杂样本；

1.5)、优化简单结构的人群密度估计模型

1.5.1)、计算特征图之间的相似度

在训练集中，每个密度等级选出p₄张人群密度样本按张作为视频图像输入到步骤1.3)训练完成的简单结构的人群密度估计模型，提取每个人群密度样本在第二阶特征提取器降采样层的特征图，并求取各个特征图之间的相似度S_k(m,n)，k＝1,2,…,p₄；

计算各个特征图之间相似度的平均值，即：

S (m, n) = \frac{1}{p_{4}} Σ_{k = 1}^{p_{4}} S_{k} (m, n);

1.5.3)合并相似特征图，减少特征图组的冗余

1.6)、优化复杂结构的人群密度估计模型

(2)、在线检测阶段

2.2.2)、将检测图像作为视频图像输入到优化后的复杂结构的人群密度估计模型，如果复杂结构的人群密度模型能分类出人群密度等级，则输出人群密度等级，如果不能，则依据简单结构、复杂结构人群密度模型的估计结果进行判断：将简单结构的人群密度模型输出中的最大值与复杂结构的人群密度模型输出中的最大值进行比较，哪个大，则选取该最大值对应的人群密度等级。

2.根据权利要求1所述的人群密度估计方法，所述的离线训练和优化阶段的人群密度样本、在线检测阶段的检测图像还要进行预处理：