CN107563349A

CN107563349A - 一种基于VGGNet的人数估计方法

Info

Publication number: CN107563349A
Application number: CN201710859062.1A
Authority: CN
Inventors: 马争; 秦方; 李佩伦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-01-09

Abstract

本发明公开了一种基于VGGNet的人数估计方法，属于基于深度学习的人群密度估计技术领域。本发明提出了一种新的深度卷积网络VGG‑MCNN，用于图像的人数估计。本发明将用于图像分类领域的VGGNet迁移至人数估计领域，并在VGGNet的基础上添加多列不同大小卷积核所组成的卷积网，以获取不同感受野信息。本发明的深度卷积网络不仅充分利用了VGGNet强大的提取有效特征的能力，又有效获取了不同尺度人头信息，从而大大提高了网络估计的准确度。同时，由于引入了已经过有效预训练的VGGNet，该部分网络参数不用再次训练，从而降低了网络训练规模，对训练数据数量的要求也大大降低，同时降低了网络过拟合风险。

Description

一种基于VGGNet的人数估计方法

技术领域

本发明属于数字图像技术领域，具体涉及基于深度学习的人群密度估计。

背景技术

随着科学技术的快速发展和经济水平的不断提高，人们的生活需求也越来越高，从而促使了人工智能的快速发展，目前人工智能技术已经逐渐应用到各个领域，包括智能驾驶、智能监控、安防等等。通过视频图像实现人数估计在智能监控、安防领域有重要的应用价值，在大型公共场合，比如大型活动现场，火车站等地方，通过图像及时估计人数，有助于及时疏散过密人群，防止踩踏等安全事故的发生等。另外，还可用于异常警示信号等等。

目前的人数统计算法可以概括为3类：

(1)基于目标检测的方法：

根据行人目标特征建立检测模型，选择的目标特征有多种，包括人头、整体行人目标、或者头部和肩部轮廓相结合等等，根据这些特征训练检测器，并结合滑窗的方法进行目标检测，统计检测到的目标个数，即为人数。其中，检测器主要是特征加分类器的形式，特征主要采取HOG(梯度方向直方图)、LBP等特征，分类器主要采用Adaboost、SVM等。这种基于检测的方法对所使用的目标检测方法的准确度依赖性很高，且只适用于背景简单，人数稀疏、行人之间没有遮挡或者遮挡较少的场景，实用性及可推广性较低。

(2)基于密度图或人数回归的方法：

这种方法通过建立图像特征和人数之间的回归模型，或者通过建立图像特征与人群密度图之间的回归模型来估计图像中的人数。常用的特征有边缘特征，纹理特征等，常用的回归函数主要有高斯回归，线性回归等。这类方法多用于监控视频场景，利用前景分割提取视频图像中的目标区域，以提取有效特征。但是由于此类算法主要依赖于特征的选取，目前基于边缘信息、纹理信息以及融合多种特征信息等方法准确性较差，如何设计有效特征仍然是该类算法的主要问题，且该类方法对场景依赖性高，不同场景之间的可迁移能力差，即泛化能力差。

(3)基于深度学习的方法：

目前深度学习在计算机视觉的众多研究领域都表现出了惊人的优越性，虽然深度学习算法在人数统计方面的应用不多，但是此类算法在准确度上和推广性上相比较于传统算法具有显著的进步。此类方法利用深度卷积神经网络，通过大量的标记样本来训练该网络学习人群特征，从而输出图像中的人数，此类方法不用人为设计特征，并且算法简单，易于训练。但是目前的深度学习算法多采用多列卷积神经网络，存在复杂度高，样本需要量大，训练时间长的问题。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种利用深度学习技术估计图像中的人数。

本发明的基于VGGNet的人数估计方法包括下列步骤：

构建深度神经网络模型(VGG-MCNN)：

底层网络采用VGG16的前10个卷积层和3个池化层，用conv1_1、conv1_2、conv2_1、conv2_2、conv3_1、conv3_2、conv4_1、conv4_2、conv4_3表示VGG16的前10个卷积层，pool1～3表示对应的3个池化层，则本发明的VGG-MCNN的底层网络结构为：conv1_1、conv1_2、pool1、conv2_1、conv2_2、pool2、conv3_1、conv3_2、pool3、conv4_1、conv4_2和conv4_3的顺次连接；

在底层网络后设置3列卷积网，每列卷包括4个卷积层和1个池化层，3列的卷积核大小分别为5x5、7x7、9x9；

3列卷积网的网络输出并入1个拼接层，所述拼接层再顺次连接3个卷积层，各卷积层的卷积核大小分别为：5x5、5x5、1x1；

采集训练样数据对所构建的深度神经网络模型进行训练，获得训练好的深度神经网络模型，训练时，底层网络设置为无后向计算，即无需更新底层网络的权值参数，直接采用VGG16已训练好的权值参数即可；

将待估计图像输入训练好的深度神经网络模型中，得到待估计图像的估计密度图，对所述估计密度图进行积分，得到待估计图像的估计人数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：在本发明的人数估计方法中，引入图像分类领域的卷积网络VGG16为基础网络，由于该网络已经经过大量数据的训练，获得了强大的特征提取能力，通过将VGG16的前10个卷积层引入到本发明所设计的网络中，使得该网络能够有效提取图像特征，包括人头轮廓、上下文等信息。由于在卷积网络中，不同的卷积核可以获得不同的感受野，因此本网络将结合不同卷积核，构成多列网络，搭建于VGG网络之上，用来提取不同尺度的人头特征，从而解决图像中由拍摄视角所引起的人头多尺度问题，提高估计准确度。

附图说明

附图1：基于深度学习的人数估计算法的整体流程示意图；

附图2：基于VGG16Net的人数估计卷积神经网络结构图；

附图3：现有人数估计网络MCNN(Multi-Column Convolutional Neural Network)与本发明的神经网络VGG-MCNN网络结构对比图，其中3-a为现有的MCNN网络结构，3-b为本发明的VGG-MCNN网络结构。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明将VGG16(现有的深度卷积网络，能够有效提取图像特征，其采用13个卷积层加3个全连接层的结构，共包括39个Layer)的前10个layer作为基础layer来提取图像特征，并在此基础上添加了3列不同感受野的卷积网路，用于提取不同尺度的人头信息，简称为VGG‐MCNN网络。

参见图1，本发明的具体实施步骤如下：

步骤1.构建深度神经网络VGG‐MCNN并训练：

步骤1‐1准备训练数据：针对本发明的VGG‐MCNN网络，准备训练网络参数所需要的样本数据，本具体实施方式中，采用目前人数统计领域常用的数据库UCSD、ShanghaitechPartA与ShanghaitechPartB，样本的标注信息(ground truth)为图像样本中的人头位置信息(x,y)，即人头中心像素在图像中的坐标。然后根据该人头坐标计算密度图作为神经网络的标签(label)信息，并利用Caffe框架下的工具将样本图像和label信息生成LMDB数据文件(包括训练和测试样本数据)。

计算密度图：根据训练图像样本中的人头位置信息，计算样本的基于高斯核的密度图。基于几何适应高斯核的密度图的计算为：其中，δ(x-x_i)为图像中人头位置的冲击函数，x_i为人头位置向量，即人头位置信息(x,y)，N为人头总数，G为高斯核。

步骤1‐2构建网络：本发明的深度学习网络整体结构如图2所示，即：

(1)底层网络采用VGG16的前10个卷积层和3个池化层(Conv1‐Conv4，pool1‐pool3)；

(2)在(1)的基础上再添加3列卷积网，每列有4个卷积层，1个池化层，并分别采用size为5x5、7x7、9x9的卷积核；

(3)最后由3个卷积层和一个拼接层(融合层)将3列网络输出合并为一个输出，得到网络所估计的密度图。

(4)训练过程中所采用的损失函数采用欧氏距离损失函数。欧式距离损失函数(Euclidean Loss)的计算为：其中，为网络前向计算所得到的密度图，而F_n为输入图像由公式(1)计算出的真实密度图，即输入网络的label信息，M为训练样本数量。

与现有的MCNN网络结构(图3-a)相比，本发明本发明所采用的网络结构简单，其网络结构对比图如图3所示。

步骤1‐3训练VGG‐MCNN网络：

(1)利用Caffe框架将步骤1‐2生成的训练数据和测试数据(LMDB文件)以及步骤1‐2构建的网络文件载入Caffe的训练执行过程。

(2)载入VGG16网络的参数文件(已知的公开模型文件，可以不用重新训练)，并将VGG16网络层设置为无后向计算，即无需更新这些层(前10个layer)的权值参数，只是利用这些layer的提取特征的能力。

(3)通过网络的前向计算，以及损失函数计算网络误差，并将该误差反向传播，计算网络每一层权重的误差梯度，并进行权值更新，逐渐缩小网络误差值。不断循环执行上述过程，寻找最有效的网络训练参数，使得网络损失降低至最小或者降至符合要求的值，即完成网络的训练过程，获得网络模型，此过程可以简单概括为参数寻优。

步骤2.测试VGG‐MCNN网络性能：

将待检测图像送入到步骤1中构建的网络结构，载入步骤1中训练好的网络模型参数进行前向计算，得到该图像的估计密度图对该密度图进行积分，得到估计人数

本具体实施方式在测试实验中采用两种人数统计领域通用的算法衡量标准，平均绝对误差(MAE)和均方误差(MSE)，分别用于衡量算法的准确性和稳定性。

平均绝对误差(MAE)定义：

均方误差(MSE)定义：

其中，M为测试样本数量，Z_i为测试样本i的实际人数，为网络计算出的测试样本i的人数。

通过在通用的人数统计数据库UCSD、ShanghaitechPartA与ShanghaitechPartB数据库上实验测试，对比现有性能较好的MCNN网络与本发明所提出的简单结构网络，本发明所采用的网络结构简单，训练时间大大降低，同时保证了准确率。实验对比结果如表1、表2、表3所示。

表1网络训练迭代次数对比

表2MCNN网络测试结果

数据库	MSE	MAE
			Shanghaitech PartA	173.2	110.2
Shanghaitech PartB	41.3	26.4
			UCSD	1.35	1.07

表3VGG-MCNN网络测试结果

数据库	MSE	MAE
			Shanghaitech PartA	166.46	107.15
Shanghaitech PartB	28.86	17.11
			UCSD	1.32	1.03

综上可知，本发明所采用的卷积神经网络结构，通过在人群数据库上(UCSD、ShanghaitechPartA与ShanghaitechPartB)进行训练测试，取得了较好的结果，且网络结构简单，复杂度低，计算量相对较小，训练时间和样本需求量都大大降低。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于VGGNet的人数估计方法，其特征在于，包括下列步骤：

构建深度神经网络模型：

底层网络采用VGG16的前10个卷积层和3个池化层构成；10个卷积层分为顺次连接的四组，第一和第二组均包括2个卷积层、第三和第四组均包括3个卷积层，每组之间连接一个池化层；

采集训练样数据对所构建的深度神经网络模型进行训练，获得训练好的深度神经网络模型，且训练时，将底层网络设置为无后向计算；