CN106778502B

CN106778502B - 一种基于深度残差网络的人群计数方法

Info

Publication number: CN106778502B
Application number: CN201611042789.2A
Authority: CN
Inventors: 曾令科; 徐向民; 邢晓芬; 青春美; 张通
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-11-21
Filing date: 2016-11-21
Publication date: 2020-09-22
Anticipated expiration: 2036-11-21
Also published as: CN106778502A

Abstract

本发明公开一种基于深度残差网络的人群计数方法。该方法运用深度残差网络提取人群监控视频中每帧图像的特征，其中深度残差网络的输入为一帧图像，经过一个5x5的核卷积与池化后得到初始特征图，再经过10个残差网络单元提取特征，主分支经过1x1的核卷积获得输入图像对应的人群密度图，辅助分支经过1x1的核卷积获得输入图像对应的人数，最后通过对人群密度图积分获得输入图像的人数估计值。每个残差网络单元结构为：1x1的卷积核后接入3x3的卷积核，再接入1x1的卷积核，每个卷积核后都加入批归一化与线性整流操作，同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入。本发明能减小场景变换对人群计数的影响，获得稳定的人群计数结果。

Description

一种基于深度残差网络的人群计数方法

技术领域

本发明涉及一种监控视频中的人群计数方法，具体是一种基于深度残差网络的人群计数方法。

背景技术

目前主流的人群计数方法主要有基于前景特征的数量回归算法以及基于神经网络的密度图回归算法，前者的主要缺点是特征提取依赖于视频图像的进行前景分割效果，并且训练得到的模型受限于具体场景；后者的主要缺点是需要使用子网络结构实现多尺度特征提取，尺度跳跃性较大，并且获得的模型参数量也较大，不适用在当前计算力较低的监控设备中。

发明内容

本发明的目的在于提供一种基于深度残差网络的人群计数方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下的技术方案。

一种基于深度残差网络的人群计数方法，包括如下步骤：

(1)模型定义阶段，基于静态人群图像训练集训练深度残差网络，设第i张输入图像为X_i，网络参数为W，经过训练后主分支得到人群密度图为f(X_i,W)，辅助分支得到人群计数为g(X_i,W)，两者对应与真实密度图D_i及真实人数Y_i计算欧式距离作为损失函数，使得L(f,D_i)与L(g,Y_i)达到最小化。所述深度残差网络结构包括一个5x5核卷积层与10个残差单元，主分支经过1x1的核卷积获得输入图像对应的人群密度图，辅助分支经过1x1的核卷积获得输入图像对应的人数，最后通过对人群密度图积分获得输入图像的人数估计值。其中每个残差网络单元结构为：1x1的卷积核后接入3x3的卷积核，再接入1x1的卷积核，每个卷积核后都加入批归一化与线性整流操作，同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入。

(2)模型训练阶段，主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离，即

其中N为训练集图像总数，按高斯分布每层初始化网络参数W₀后，先根据主分支的损失函数L(f,D_i)对网络参数进行优化迭代，当L(f,D_i)收敛后，根据辅助分支的损失函数L(g,Y_i)对网络参数进行优化迭代，当L(g,Y_i)收敛后再返回优化主分支，依次交替优化，直至两个分支的损失函数都收敛到可接受的阈值以下。

作为本发明进一步的方案：所述步骤(1)中使用10个连续的残差单元构造人群图像特征提取网络，在残差短路的作用下等效与多个组合式浅层网络的特征融合，实现多尺度特征的提取。

作为本发明进一步的方案：所述步骤(2)中训练集输入图像X_i对应的真实密度图D_i通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得，即

其中X_i为训练集第i张输入图像对应的灰度矩阵，D_i为第i张输入图像对应的真实密度图，M为第i张输入图像中的总人数，||Z||为单点二维标准正态分布在图像中的加权值，经过归一化操作保证密度图加权值即为人群总数。

作为本发明进一步的方案：所述步骤(2)中训练网络参数W时，使用随机梯度下降法交替优化主分支与辅助分支，实现局部与全局信息的平衡。

与现有技术相比，本发明的有益效果是：本发明可以通过深度残差网络等效为多个浅层网络的融合，在监控视频帧中提取多个尺度的人群图像特征，实现在不同的场景下均能对人群数量作出较准确的估计，并且获得的网络参数模型较小，适用于一般监控设备中。

附图说明

图1为本发明实例中的深度残差网络结构图。

图2为本发明实例中深度残差网络结构使用的残差网络单元示意图。

图3为基于深度残差网络的人群计数方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～3，本发明实例中，一种基于深度残差网络的人群计数方法包括如下步骤：

(1)模型定义阶段，基于静态人群图像训练集训练深度残差网络，设第i张输入图像为X_i，网络参数为W，经过训练后主分支得到人群密度图为f(X_i,W)，辅助分支得到人群计数为g(X_i,W)，两者对应与真实密度图D_i及真实人数Y_i计算欧式距离作为损失函数，使得L(f,D_i)与L(g,Y_i)达到最小化。所述深度残差网络结构包括一个5x5核卷积层与10个残差单元，主分支经过1x1的核卷积获得输入图像对应的人群密度图，辅助分支经过1x1的核卷积获得输入图像对应的人数，最后通过对人群密度图积分获得输入图像的人数估计值，网络结构如图1所示，Xi表示输入图像，Di表示真实密度图，Yi表示真实人数，Conv表示卷积层，Pool表示池化层。其中每个残差网络单元结构为：1x1的卷积核后接入3x3的卷积核，再接入1x1的卷积核，每个卷积核后都加入批归一化与线性整流操作，同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入，残差网络单元结构如图2所示，其中Conv表示卷积层，每个Conv层都包括卷积(Convolution)、批归一化(Batch Normalize)以及线性整流(ReLU)操作。

(2)训练阶段，主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离，即

其中N为训练集图像总数，按高斯分布每层初始化网络参数W₀，其中高斯分布均值设置为0，方差设置为0.01。每层按先根据主分支的损失函数L(f,D_i)对网络参数进行优化迭代，当L(f,D_i)收敛后，根据辅助分支的损失函数L(g,Y_i)对网络参数进行优化迭代，当L(g,Y_i)收敛后再返回优化主分支，依次交替优化，直至两个分支的损失函数都收敛到可接受的阈值(一般为0.1)以下。

所述步骤(1)中使用10个连续的残差单元构造人群图像特征提取网络，在残差短路的作用下等效与多个组合式浅层网络的特征融合，实现多尺度特征的提取。

所述步骤(2)中训练集输入图像X_i对应的真实密度图D_i通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得，即

所述步骤(2)中训练网络参数W时，使用随机梯度下降法交替优化主分支与辅助分支，实现局部与全局信息的平衡。

本发明的工作原理是，级联深度残差网络经过对各条截路进行展开可以等效为多个不同深度的浅层网络的结果融合，运用深度残差网络提取监控视频每帧图像的多尺度人群特征并映射得到图像对应的密度图，对映射得到的密度图进行积分从而得到每帧图像的人群数量估计值，如图3。

深度残差网络训练集的构造需要获取每张人群图像对应的真实密度图，获取方法为：针对输入图像X_i，其对应的真实密度图D_i通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得，即

深度残差网络的结构为，首层使用5x5的核卷积与2x2的池化层对图像总体特征进行提取，此后接入连续10个残差网络单元，其中每个残差网络单元包括1x1的卷积核后紧接3x3的卷积核，最后经过1x1的核卷积映射后与上一残差单元输出的特征图经过1x1的核卷积映射后作差运算。经过10个残差网络单元后，主分支经过1x1的核卷积获得密度图D_i，辅助分支经过全连接层获得人群数量估计值Y。

本发明中，深度残差网络模型卷积核与全连接层的参数均初始化为标准差为0.01，均值为0的高斯分布，每个层的偏置均初始化为0。在训练阶段，主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离，即

其中N为训练集图像总数，按高斯分布每层初始化网络参数W₀后，先根据主分支的损失函数L(f,D_i)对网络参数进行优化迭代，当L(f,D_i)收敛后，根据辅助分支的损失函数L(g,Y_i)对网络参数进行优化迭代，当L(g,Y_i)收敛后再返回优化主分支，依次交替优化，直至两个分支的损失函数都收敛到可接受的阈值(一般取0.1)以下，表1为本发明在UCF_CC_50数据集上与现有方法的结果对比。

表1

本发明的优点在于所设计的深度残差网络从原理上等效于多个浅层网络的融合，在监控视频帧中提取多个尺度的人群图像特征，实现在不同的场景下均能对人群数量作出较准确的估计，并且获得的网络参数模型较小(约20MB)，适用于一般监控设备中，

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度残差网络的人群计数方法，其特征在于，包括如下步骤：

模型定义阶段，基于静态人群图像训练集训练深度残差网络，设第i张输入图像为X_i，网络参数为W，经过训练后主分支得到人群密度图为f(X_i，W)，辅助分支得到人群计数为g(X_i，W)，人群密度图为f(X_i，W)和人群计数g(X_i，W)对应地与真实密度图D_i及真实人数Y_i计算欧式距离，并将欧式距离作为主分支与辅助分支使用的损失函数，使得L(f，D_i)与L(g，Y_i)达到最小化；所述深度残差网络结构包括一个5x5核卷积层与10个残差单元，主分支经过1x1的核卷积获得输入图像对应的人群密度图，辅助分支经过1x1的核卷积获得输入图像对应的人数，最后通过对人群密度图积分获得输入图像的人数估计值，其中每个残差网络单元结构为：1x1的卷积核后接入3x3的卷积核，再接入1x1的卷积核，每个卷积核后都加入批归一化与线性整流操作，同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入；其中每个残差网络单元包括1x1的卷积核后紧接3x3的卷积核，最后经过1x1的核卷积映射后与上一残差单元输出的特征图经过1x1的核卷积映射后作差运算；经过10个残差网络单元后，主分支经过1x1的核卷积获得密度图D_i，辅助分支经过全连接层获得人群数量估计值Y；

训练阶段，主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离，即

其中N为训练集图像总数，按高斯分布每层初始化网络参数W₀后，先根据主分支的损失函数L(f，D_i)对网络参数进行优化迭代，当L(f，D_i)收敛后，根据辅助分支的损失函数L(g，Y_i)对网络参数进行优化迭代，当L(g，Y_i)收敛后再返回优化主分支，依次交替优化，直至两个分支的损失函数都收敛到设定阈值以下。

2.根据权利要求1所述的基于深度残差网络的人群计数方法，其特征在于，使用10 个连续的残差单元构造人群图像特征提取网络，在残差短路的作用下等效与多个组合式浅层网络的特征融合，实现多尺度特征的提取。

3.根据权利要求1所述的基于深度残差网络的人群计数方法，其特征在于，训练集输入图像X_i对应的真实密度图D_i通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得，即

其中G(X_i)为训练集第i张输入图像对应的灰度矩阵，D_i为第i张输入图像对应的真实密度图，M为第i张输入图像中的总人数，‖Z‖为单点二维标准正态分布在图像中的加权值，经过归一化操作保证密度图加权值即为人群总数。

4.根据权利要求1所述的基于深度残差网络的人群计数方法，其特征在于，训练网络参数W时，使用随机梯度下降法交替优化主分支与辅助分支，实现局部与全局信息的平衡。