CN110705344B

CN110705344B - 一种基于深度学习的人群计数模型及其实现方法

Info

Publication number: CN110705344B
Application number: CN201910772643.0A
Authority: CN
Inventors: 林倞; 甄家杰; 刘凌波; 李冠彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2023-03-28
Anticipated expiration: 2039-08-21
Also published as: CN110705344A

Abstract

本发明公开了一种基于深度学习的人群计数模型及其实现方法，所述方法包括：步骤S1，获取人群图像，对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图；步骤S2，将输入的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用特征增强模块增强各个尺度的特征；步骤S3，将多个子网络产生的特征结合，生成估计的人群密度图；步骤S4，利用估计的人群密度图与真实的人群密度图计算损失，更新模型参数；步骤S5，利用不同人群图像多次迭代式地进行步骤S1‑S4的训练过程，直到符合停止的条件。

Description

一种基于深度学习的人群计数模型及其实现方法

技术领域

本发明涉及基于深度学习的计算机视觉技术领域，特别是涉及一种基于深度学习的人群计数模型及其实现方法。

背景技术

人群计数是计算机视觉中的一个重要研究课题，其目标是根据人群图像自动生成人群密度图并估计场景中的人数。最近，由于其广泛的实际应用，例如视频监控、交通管理和人群流量预测，这项任务在学术界和工业界都受到越来越多的关注。

传统的人群计数算法一般需要对图像进行复杂的预处理，并且需要人工设计和提取特征，在跨场景的情况下往往需要重新提取特征，适应性较差。近几年，卷积神经网络的成功运用为人群计数技术带来了重大突破，C.Zhang等人在2015年的研究工作“Cross-scene Crowd Counting via Deep Convolutional Neural Networks”(IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),June 2015)提出一个适用人群计数的卷积神经网络模型，其实现了端对端训练，无需进行前景分割以及人为地设计和提取特征，经过多层卷积之后得到高层特征，提高在跨场景人群计数的性能。然而，在不同的拥挤场景中，人群规模差异很大，同一图象中因距离摄像头距离不同人群的密度和分布也存在差异，该类方法无法捕捉如此巨大的规模变化。

为了解决人群规模变化的问题，一些研究工作的关注点放在了提取多个不同尺度的特征以减少规模变化的影响，例如Y.Zhang等人在2016年的研究工作“Single-ImageCrowd Counting via Multi-Column Convolutional Neural Network”(IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),June 2016)和X.Cao等人在2018年的研究工作“Scale Aggregation Network for Accurate and Efficient CrowdCounting”(Proceedings of the European Conference on Computer Vision(ECCV),2018)，均通过提取多个不同尺度的特征以减少规模变化，然而，这些方法大多采用简单的策略来融合多个特征，不能很好地捕获不同尺度的特征之间的互补信息。人群在不同场景下的规模差异问题仍未得到完全解决。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于深度学习的人群计数模型及其实现方法，以解决现有技术在不同场景下的人群规模差异问题。

为达上述目的，本发明提出一种基于深度学习的人群计数模型，包括：

预处理单元，用于获取人群图像，对获取的人群图像进行预处理后输出至特征提取单元，并利用标注信息产生对应的人群密度图；

特征提取单元，用于将输入的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用特征增强模块增强各个尺度的特征；

估计人群密度图生成单元，用于将多个子网络产生的特征结合，生成估计的人群密度图；

更新单元，用于使用所述估计人群密度图生成单元生成的估计的人群密度图与所述预处理单元生成的真实人群密度图计算损失，更新模型参数；

迭代训练单元，用于多次迭代式地对不同人群图像进行所述预处理单元、特征提取单元、估计人群密度图生成单元以及更新单元的训练过程，直到满足设定的停止条件时停止训练。

优选地，所述预处理单元进一步包括：

图像裁剪模块，用于对获取的人群图像随机裁剪成固定大小的图像；

人群密度图生成模块，用于利用标注的人头位置信息通过高斯核生成对应的人群密度图，将其作为标签图像。

优选地，所述人群密度图生成模块通过如下公式生成人群密度图：

其中，M代表所述人群图像中的人数，x代表图像中每个像素的位置，x_i代表第i个人的标注位置，δ(x-x_i)表示激活函数，

表示标准差为σ_i的高斯核，β为一常数，/>

代表第i个人的标注位置与其周边的m个人的标注位置的平均距离，/>

优选地，所述特征提取单元进一步包括：

子网络构建模块，用于构建多个并行的子网络，对输入的人群图像提取多个尺度的图像的特征；

特征增强模块，用于在子网络各个下采样层前结合不同尺度的特征，增强各个尺度的特征。

优选地，所述并行的子网络使用相同的网络结构并共享参数，由预训练的VGG-16模型的前十个卷积层组成，前十个卷积层分成四组，每一组卷积层之间都有一个下采样层，用于扩大感受野。

优选地，所述特征增强模块设置在每一组卷积层后下采样层前，基于条件随机场对各个子网络中相同大小的特征进行互补增强，。

优选地，所述特征增强模块基于条件随机场增强各个尺度的特征具体为根据如下公式：

式中f_i为第i个子网络的原特征，

为迭代增强过程中的中间特征，/>

为第i个子网络增强后的特征，/>

为可学习的参数。

优选地，所述估计人群密度图生成单元采用自顶向下的方式所述特征提取单元产生的多个特征组，将不同感受野、不同尺度的特征结合生成估计的人群密度图。

优选地，所述更新单元利用所述估计人群密度图生成单元中生成的估计的人群密度图与预处理单元产生的真实人群密度图基于扩张卷积算法的多尺度结构相似性计算损失，并采用自适应矩估计优化算法更新模型参数。

为达到上述目的，本发明还提供一种基于深度学习的人群计数模型的实现方法，包括如下步骤：

步骤S1，获取人群图像，对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图；

步骤S2，将输入的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用特征增强模块增强各个尺度的特征；

步骤S3，将多个子网络产生的特征结合，生成估计的人群密度图；

步骤S4，使用估计的人群密度图与真实的人群密度图计算损失，更新模型参数；

步骤S5，利用不同人群图像多次迭代式地进行步骤S1-S4的训练过程，直到符合停止的条件。

与现有技术相比，本发明一种基于深度学习的人群计数模型及其实现方法通过对人群图像进行预处理并利用标注信息产生对应的人群密度图，然后将输入的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用条件随机场模型增强各个尺度的特征，将多层子网络产生的特征结合，生成估计的人群密度图，使用估计密度图与真实密度图计算损失，更新模型参数，多次迭代进行训练过程直到符合停止的条件，最后得到最终的人群计数模型，可有效地解决在不同场景下的人群规模差异问题。

附图说明

图1为本发明一种基于深度学习的人群计数模型的系统架构图；

图2为本发明具体实施例中包括三个并行的子网络的特征提取单元的结构图；

图3为本发明具体实施例中扩张多尺度结构相似性算法的示意图；

图4为本发明一种基于深度学习的人群计数模型的实现方法的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于深度学习的人群计数模型的系统架构图。如图1所示，本发明一种基于深度学习的人群计数模型，包括：

预处理单元101，用于获取人群图像，对获取的人群图像进行预处理后输出至特征提取单元102，并利用标注信息产生对应的人群密度图。

具体地，预处理单元101进一步包括

图像裁剪模块，用于对获取的人群图像随机裁剪成固定大小的图像，例如大小为224×224，所述人群图像可以是从训练数据集中获取的图像，也可以是通过摄像装置拍摄获得的人群图像，在本发明具体实施例中，预处理单元101从训练数据集中获取人群图像，图像裁剪模块对获得的人群图像随机裁剪成固定大小224×224，并输出至特征提取单元102。

人群密度图生成模块，用于利用标注的人头位置信息通过高斯核生成对应的人群密度图，作为标签图像。也就是说，对于人群图像中的人头位置信息进行标注，然后利用标注的人头位置信息通过高斯核生成对应的224*224分辨率的人群密度图，在本发明具体实施例中，人头位置信息可采用人工标注方式。

具体地说，本发明参考Y.Zhang等人的研究工作“Single-Image Crowd Countingvia Multi-Column Convolutional Neural Network”(IEEE Conference on ComputerVision and Pattern Recognition(CVPR),June 2016)，对传统的基于高斯核的密度图进行改进，使用基于几何适应高斯核的人群密度图作为模型的标签图像。与人群总数相比，人群密度图给出了在给定图像中人群的空间分布，包含着更多信息，更有利于网络学习，而对密度图求和即可得到人群总数。通过高斯核生成对应的人群密度图具体可根据如下公式实现：

式中M代表人群图像中的人数，x代表图像中每个像素的位置，x_i代表第i个人的标注位置，δ(x-x_i)表示激活函数，当x与x_i的距离大于设定的阈值时为0，小于等于设定的阈值时为1，

表示标准差为σ_i的高斯核，β为一常数，/>

代表第i个人的标注位置与其周边的m个人的标注位置的平均距离，即/>

特征提取单元102，用于将输入的224×224分辨率的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用条件随机场模型增强各个尺度的特征。

具体地，特征提取单元102具体用于：

子网络构建模块，用于构建多个并行的子网络，以提取多个尺度的图像的特征。在本发明具体实施例中，子网络构建模块构建三个并行的子网络，以提取三个尺度的图像的特征，各子网络使用相同的网络结构并共享参数，由VGG-16模型的前十个卷积层组成；

特征增强模块，用于在子网络各个下采样层前结合不同尺度的特征，基于条件随机场增强各个尺度的特征。

如图2所示，三个并行的子网络使用相同的网络结构并共享参数，由VGG-16模型的前十个卷积层组成，卷积层的初始化使用预训练VGG-16模型的参数。前十个卷积层分成四组，分别为卷积层1_2、卷积层2_2、卷积层3_3、卷积层4_3，其中卷积层i_j中的j表示层数。每一组卷积层之间都有一个下采样层，用于扩大感受野。

本发明嵌入了特征增强模块来对特征图进行微调，具体地，该特征增强模块基于条件随机场。在基于条件随机场的特征增强模块中，采用以下的能量公式：

其中，

代表原特征和增强后的特征的相似性，/>

代表两个增强后的特征之间的相关性，它们的定义如下所示：

通过平均场推断可得：

优选地，可使用迭代近似，得到最终的增强特征公式：

表示第i个特征在第t次迭代后的中间特征，/>

表示第i个增强后的特征，

表示在每次迭代中第j个中间特征的权重，是可学习的参数。

在一组卷积层后增加一个基于条件随机场的特征增强模块，对各个子网络中相同大小的特征进行互补增强，使得模型更充分地利用不同尺度下的特征，提高对人头尺度变化的鲁棒性。

估计人群密度图生成单元103，用于将多个子网络产生的特征结合，生成估计的人群密度图。具体地，通过自顶向下的方式，处理特征提取单元102产生的多个特征组，将不同感受野、不同尺度的特征结合生成估计的人群密度图。

如图2所示，在本发明具体实施例中，特征提取单元102共有四个特征增强模块，四组增强前的特征记为

其中/>

表示在第k个子网络的卷积层i_j之后的特征，同一组的特征具有相同的长和宽以及相同的通道数。

除了最顶层输出的密度图M₄，每一个密度图M_i都是利用上一个输出的密度图M_i+1和第i个特征组生成。具体的生成策略如下：

首先对最顶层的输出

用一个1×1卷积层将其通道数降为128，然后通过一个3×3卷积层产生密度图M₄。

对于其余的密度图M_i的生成，将第i组的特征在通道维度级联，，用一个1×1卷积层将其通道数降为128，然后通过一个3×3卷积层产生中间密度图

最后通过如下公式：

生成密度图M_i。其中w_i和w_i+1为可学习的参数，Up()表示双线性插值运算。通过这种结合方式，充分利用不同尺度、不同感受野的特征，生成效果更好的人群密度图。

更新单元104，用于使用估计人群密度图生成单元103生成的估计的人群密度图与预处理单元生成的真实人群密度图计算损失，更新模型参数。具体地，使用估计人群密度图生成单元103中生成的估计的人群密度图与预处理单元101产生的真实人群密度图计算损失，并采用自适应矩估计优化算法更新模型参数。损失计算方法基于本发明提出的扩张多尺度结构相似性。

在本发明具体实施例中，所述损失计算方法基于本发明提出的扩张多尺度结构相似性。图3为本发明具体实施例中扩张多尺度结构相似性算法的结构图。对估计的人群密度图X₀和真实的人群密度图Y₀，分别通过扩张卷积算法，聚合多个不同感受野的信息，聚合使用5×5的高斯核，定义为w＝{w(o)|o∈O,O＝{(-2,-2),...,(2,2)}}，其中o表示离核中心的偏移量。具体聚合的方式如下式所示：

其中r_i+1为第i+1层的扩张率，用于控制感受野的大小，Y_i+1(p)的计算方法也类似上述式子。

利用每一层的聚合信息，对每一层进行结构相似性的运算，先使用如下公式：

其中，

表示以位置p为中心的局部区域的加权平均值，即

计算方差和协方差，然后使用如下公式：

分别计算亮度对比因子L_i、对比度因子C_i和结构对比因子S_i，其中c₁、c₂和c₃的作用是防止分母为0，X_i和Y_i的结构相似性如下式所示：

SSIM(X_i,Y_i)＝L_i·C_i·S_i

最终，本发明提出的扩张多尺度结构相似性及损失函数定义如下：

Loss(X₀,Y₀)＝1-DMS–SSIM(X₀,Y₀)

其中，DMS-SSIM(Dilated Multi Scale-Structural Similarity Index)表示扩张多尺度结构相似性，α_i为第i层结构相似性的权重，其数值的定义参照Z.Wang等人的研究工作“Multiscale structural similarity for image quality assessment”(InAsilomar Conference on Signals,Systems and Computers,volume 2,pages 1398–1402.Ieee,2003)。

本发明通过扩张多尺度结构相似性计算损失，能促进网络捕获不同大小区域内的局部相关性，从而生成具有局部一致性的密度图。

迭代训练单元105，用于多次迭代式地进行预处理单元101、特征提取单元102、估计人群密度图生成单元103以及更新单元104的训练过程，直到满足设定的停止条件时停止训练。

图4为本发明一种基于深度学习的人群计数模型的实现方法的步骤流程图。如图4所示，本发明一种基于深度学习的人群计数模型的实现方法，包括如下步骤：

步骤S1，获取人群图像，对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图。

具体地，步骤S1进一步包括：

步骤S101，对人群图像随机裁剪成固定大小224×224。所述人群图像可以是从训练数据集中获取的图像，也可以是通过摄像装置拍摄获得的人群图像，在本发明具体实施例中，则从训练数据集中获取人群图像，对获得的人群图像随机裁剪成固定大小224×224；

步骤S102，利用标注的人头位置信息通过高斯核生成对应的人群密度图，作为标签图像。

本发明参考Y.Zhang等人的研究工作“Single-Image Crowd Counting viaMulti-Column Convolutional Neural Network”(IEEE Conference on Computer Visionand Pattern Recognition(CVPR),June 2016)，对传统的基于高斯核的密度图进行改进，使用基于几何适应高斯核的人群密度图作为模型的标签图像。与人群总数相比，人群密度图给出了在给定图像中人群的空间分布，包含着更多信息，更有利于网络学习，而对密度图求和即可得到人群总数。通过高斯核生成对应的人群密度图的步骤具体为根据如下公式：

其中，M代表人群图像中的人数，x代表图像中每个像素的位置，x_i代表第i个人的标注位置，

表示标准差为σ_i的高斯核，β为一常数，/>

步骤S2，将输入的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用条件随机场模型增强各个尺度的特征。

具体地，步骤S2进一步包括：

步骤S201，构建多个并行的子网络，以提取多个尺度的图像的特征。在本发明具体实施例中，构建三个并行的子网络，以提取三个尺度的图像的特征；

步骤S202，在子网络各个下采样层前结合不同尺度的特征，利用条件随机场模型增强各个尺度的特征。

在本发明具体实施例中，如图2所示，构建三个并行的子网络，三个并行的子网络使用相同的网络结构并共享参数，由VGG-16模型的前十个卷积层组成，卷积层的初始化使用预训练VGG-16模型的参数。前十个卷积层分成四组，分别为卷积层1_2、卷积层2_2、卷积层3_3、卷积层4_3，其中卷积层i_j中的j表示层数。每一组卷积层之间都有一个下采样层，用于扩大感受野。

优选地，本发明还嵌入了一个特征增强模块来对特征图进行微调，具体地，该特征增强模块基于条件随机场。在基于条件随机场的特征增强模块中，采用以下的能量公式：

其中，

代表原特征和增强后的特征的相似性，/>

通过平均场推断可得：

优选地，可使用迭代近似，得到最终的增强特征公式：

步骤S3，将多个子网络产生的特征结合，生成估计的人群密度图。具体地，通过自顶向下的方式，处理步骤S2产生的多个特征组，将不同感受野、不同尺度的特征结合生成估计的人群密度图。

在本发明具体实施例中，所述的特征结合方式具体描述如下：

如图2所示，在本发明具体实施例中，共使用四个特征增强模块，四组增强前的特征记为

其中/>

首先对最顶层的输出

用一个1×1卷积层将其通道数降为128，然后通过一个3×3卷积层产生密度图M₄。/>

最后通过如下公式：

步骤S4，使用估计的人群密度图与真实的人群密度图计算损失，更新模型参数。具体地，使用步骤S3中生成的估计的人群密度图与步骤S1产生的真实的人群密度图计算损失，并采用自适应矩估计优化算法更新模型参数。

在本发明具体实施例中，所述损失计算方法基于本发明提出的扩张多尺度结构相似性。图3为本发明具体实施例中扩张多尺度结构相似性算法的结构图。对估计的人群密度图X₀和真实的人群密度图Y₀，分别通过扩张卷积算法，聚合多个不同感受野的信息。聚合使用5×5的高斯核，定义为w＝{w(o)|o∈O,O＝{(-2,-2),...,(2,2)}}，其中o表示离核中心的偏移量。具体聚合的方式如下式所示：

其中r_i+1为第i+1层的扩张率，用于控制感受野的大小。Y_i+1(p)的计算方法也类似上述式子。

利用每一层的聚合信息，对每一层进行结构相似性的运算，先使用如下式子：

计算方差和协方差。然后使用如下式子：

分别计算亮度对比因子L_i、对比度因子C_i和结构对比因子S_i。其中c₁、c₂和c₃的作用是防止分母为0。X_i和Y_i的结构相似性如下式所示：

SSIM(X_i,Y_i)＝L_i·C_i·S_i

Loss(X₀,Y₀)＝1-DMS–SSIM(X₀,Y₀)

其中α_i为第i层结构相似性的权重，其数值的定义参照Z.Wang等人的研究工作“Multiscale structural similarity for image quality assessment”(In AsilomarConference on Signals,Systems and Computers,volume 2,pages 1398–1402.Ieee,2003)。

步骤S5，多次迭代式地进行步骤S1-S4的训练过程，直到符合停止的条件。具体地，交替进行步骤S1、S2、S3、S4，直到满足设定的停止条件时停止第一阶段的训练。

综上所述，本发明一种基于深度学习的人群计数模型及其实现方法通过对人群图像进行预处理并利用标注信息产生对应的人群密度图，然后将输入的人群图像缩放成多个尺度版本，通过多个子网络提取各个尺度的特征，并利用条件随机场模型增强各个尺度的特征，将多层子网络产生的特征结合，生成估计的人群密度图，使用估计密度图与真实密度图计算损失，更新模型参数，多次迭代进行训练过程直到符合停止的条件，最后得到最终的人群计数模型，可有效地解决在不同场景下的人群规模差异问题。本发明针对不同场景下人群规模存在差异的问题，利用多个子网络提取多个尺度的特征，通过基于条件随机场的增强模块相互改进多个尺度的特征，提高其对尺度变化的鲁棒性，最终的效果超过了所有现有的人群计数方法。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。