CN112861697B

CN112861697B - 基于图片自对称性人群计数网络的人群计数方法及装置

Info

Publication number: CN112861697B
Application number: CN202110149554.8A
Authority: CN
Inventors: 王瀚漓; 王书蘅
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-10-25
Anticipated expiration: 2041-02-03
Also published as: CN112861697A

Abstract

本发明涉及一种基于图片自对称性人群计数网络的人群计数方法及装置，该方法包括以下步骤：1)采用人群图像构建数据集，对数据集中的图像进行分割、镜像处理和数据增强处理，并将数据集划分为训练集和测试集，采用训练集通过高斯核函数生成人群密度基准图；2)构建人群计数网络模型，基于图片自对称的性质，以训练集和人群密度基准图作为输入对人群计数网络模型进行训练；3)将待预测的人群图像输入训练后的人群计数网络模型，获得人群密度估计图，并通过对人群密度估计图中所有像素值进行求和获得该人群图像中人的数量。与现有技术相比，本发明在不增加网络模型复杂度、计算量和推理时间的情况下得到更精确的结果，具有更强的鲁棒性。

Description

基于图片自对称性人群计数网络的人群计数方法及装置

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种基于图片自对称性人群计数网络的人群计数方法及装置。

背景技术

近年来城市人口的快速增长、经济的不断发展，越来越多的人们选择在节假日出行。在许多公共场景如旅游景点、工业园区等地区会出现许多人员聚集的现象，若没有及时进行预警或采取相关疏散措施可能会出现人员伤亡的情况。为了尽量减少因拥挤造成的事故发生，需要对监控视频中关注区域内的人群进行相关分析，同时，人群分析还可以应用于公共区域设计、安全监控、灾害管理等应用中。而在人群分析任务中，人群中个体总数是其一项非常重要的属性，因此对图片中人群数量进行估计成为了人群分析中亟需解决的子任务。

近年来，卷积神经网络在计算机视觉任务中取得成功，基于卷积神经网络的方法也被研究者们用于人群计数领域，包括多列卷积神经网络MCNN、CSRNet网络模型、Switching-CNN模型、MDNet模型等技术，以上几种经典方法将输入的场景图片映射到相关的人群密度图片中，最终将人群密度图进行求和得到场景下人群数量，并且人群密度图能更好地表示出原有场景图片中的人群密度分布。

现有技术也给出了一些解决方案，中国专利CN108388852A提出了一种基于多尺度卷积神经网络的人群密度估计方法，利用空洞卷积与原始卷积进行不同感受野信息的特征融合，以及融合不同分辨率下特征图不同的层级语义信息，从而生成具有更高质量的人群密度图，但该方法网络结构复杂，计算量大，网络实现和训练难度高。上述方法容易出现对于内容一致但观测角度不同的图片生成出不一样的密度分布图的现象，例如对于竖直镜像处理后的图片，经过网络生成出的密度预测图镜像处理后，与原图经过网络生成的密度预测图在一些区域的分布仍然有较大的偏差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图片自对称性人群计数网络的人群计数方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种基于图片自对称性人群计数网络的人群计数方法，用以生成人群密度估计图，包括以下步骤：

1)采用人群图像构建数据集，对数据集中的图像进行分割、镜像处理和数据增强处理，并将数据集划分为训练集和测试集，采用训练集通过高斯核函数生成人群密度基准图；

2)构建人群计数网络模型，基于图片自对称的性质，以训练集和与之对应的人群密度基准图作为输入对人群计数网络模型进行训练；

3)将待预测的人群图像输入训练后的人群计数网络模型，获得人群密度估计图，并通过对人群密度估计图中所有像素值进行求和获得该人群图像中人的数量。

所述的步骤1)中，对数据集中的图像进行分割和镜像处理具体为：

将数据集中的图像分割成原图像长和宽的1/2，并对分割后获得的图片进行镜像处理，用以增加图像多样性；

划分数据集之前对数据集进行数据增强处理，具体为：

将训练集进行复制后，部分图像使用裁剪的方式生成新的训练图像。

所述的步骤1)中，生成人群密度基准图包括以下步骤：

101)对于训练集的图像中的个体标注，将距第i个个体标注h_i最近的k个个体标注距离该个体标注h_i的距离设为集合

102)对于个体标注h_i，定义其平均距离

103)对于每一个像素点x，生成的密度函数F(x)为：

其中，N为图像中的个体标记总数，

为高斯核函数，其中标准差

β为设置参数，δ(x-h_i)为德尔塔函数，x-h_i表示像素点x到个体标注h_i的欧式距离；

104)重复步骤101)-103)，直至训练集中所有图像都生成对应的人群密度基准图。

所述的步骤2)中，人群计数网络模型为一卷积网络模型，其输入为RGB三通道图片，输出为单通道图片，即人群密度估计图。

所述的卷积网络模型由网络前端和网络后端构成，所述的网络前端采用VGG16网络的前10层卷积层和3层max-pooling层，所述的网络后端包括依次连接的多尺度扩展卷积模块和降维卷积层组，网络前端的数据传输至多尺度扩展卷积模块的四个独立并列的分支卷积层进行并行处理，每个多尺度扩展卷积模块均包括四个独立并列的分支卷积层以及与各分支卷积层连接的拼接层，每个分支卷积层均由1×1卷积核和3个扩张率分别为1、2和3的3×3卷积核构成，每个分支卷积层的通道数均为输入数据的1/4，并将输出进行拼接，然后通过降维卷积层组输出单通道人群密度图，所述的降维卷积层组由四个通道数分别为256、128、64和1的卷积层依次连接构成，通道数为256、128和64的3个卷积层均采用3×3卷积核，通道数为1的卷积层的卷积核为1×1，除通道数为1的卷积层以外，卷积网络中其它卷积层均包含ReLU激活函数。

为便于计算，进行网络训练时采用双线性插值法将人群密度基准图的长和宽缩小至原来的1/8，使人群密度基准图与输出的人群密度图大小一致。

所述的步骤2)中，对人群计数网络模型进行训练具体包括以下步骤：

201)将训练集中的原图片与其本身进行水平镜像翻转后的镜像图片作为训练图片对；

202)将图片对输入卷积网络模型，根据训练集中的原图片获得的密度估计图与对应的人群密度基准图计算损失并回传；

203)将由镜像图片生成的密度估计图经过水平镜像后，与原图片生成的密度估计图进行损失计算并回传；

204)重复步骤201)-203)，直至训练收敛。

所述的步骤202)与步骤203)中均采用L₂损失函数计算损失，对于步骤202)中，则有：

对于步骤203)中，则有：

其中，M为训练总批次数，m为当前训练批次数，D_m＝D(X_m；Θ)为输入图像X_m对应的密度估计图，Θ为网络参数，

为输入图像X_m的基准密度图，

为镜像图片生成的密度估计图再进行水平镜像后的结果。

所述的卷积网络模型的总损失函数为：

其中，λ为超参数，用以调节主损失

和辅助损失

的比例。

一种基于图片自对称性人群计数网络的人群计数装置，该装置包括存储器和处理器，所述的存储器存储有计算机程序指令，所述的处理器调用该程序指令以执行人群计数网络训练方法的步骤。

与现有技术相比，本发明具有以下优点：

一、本发明使用基于图片自对称的方式进行训练，能够让模型对镜像输入的图片也能够生成与原图片更为相似的人群密度分布图，对于未见过的场景能够有更好地表现，网络模型使用此方法进行训练后对人群密度分布图的生成会更为精确和稳定，对如镜像等不同观测方式也能够有更好的效果。

二、本发明利用图片自对称的训练算法，仅仅在训练阶段会有额外的计算和耗时，在最终模型训练收敛后进行推理时，并不需要将镜像对称后的图片一同输入，此时的图片处理方式与原模型无任何区别，利用此训练方法，在推理阶段不会引入额外的开销，但能够让模型有更好的表达能力。

三、基于图片自对称的训练算法实现简单，易于实现，在不同的模型上都很容易将其部署。

附图说明

图1为基于自对称的训练算法示意图。

图2为实施例1的可视化结果说明图。

图3为实施例1中实验一的对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本实施例提供一种基于图片自对称性人群计数网络的人群计数方法，包括以下步骤：

S1：构建卷积网络模型，将数据集中的图像分割成原图像长和宽的1/2，对获得的图片进行镜像处理，增加图像多样性，然后将数据集划分为训练集和测试集，训练集通过高斯核函数生成人群密度基准图；

S2：基于图片自对称的性质，利用训练集和人群密度基准图对人群计数网络(卷积网络模型)进行训练；

S3：将测试集输入训练后的卷积网络模型，获得测试集的人群密度估计图。

如图1所示，本实施例的测试卷积网络模型包括网络前端(front end)和网络后端(back end)，网络前端使用VGG16网络前10层卷积层和3层max-pooling层，网络后端包括依次连接的多尺度扩展卷积模块和降维卷积层组，每个多尺度扩展卷积模块包括四个独立并列的分支卷积层以及与各分支卷积层连接的拼接层，每个分支卷积层均由1×1卷积核和3个扩张率分别为1、2和3的3×3卷积核构成，每个分支卷积层的通道数均为输入数据的1/4，并将输出进行拼接，然后通过降维卷积层组输出单通道人群密度图，网络前端的数据传输至多尺度扩展卷积模块的四个独立并列的分支卷积层进行并行处理，本实施例中，多尺度扩展卷积模块设有3个，3个多尺度扩展卷积模块依次连接。

降维卷积层组由四个通道数为256、128、64和1的卷积层依次连接构成，通道数为256、128和64的3个卷积层采用3×3卷积核，通道数为1的卷积层采用的卷积核为1×1。除最后一层卷积层即通道数为1的1×1卷积层以外，卷积网络中其它卷积层均包含ReLU激活函数。

网络前端包括包含VGG-16的三个max-pooling层，每个池化层中核大小为2x2，步长为2，使得经过卷积网络后得到的人群密度图变为输入图像的1/8长宽，为了便于计算，步骤S2中，进行网络训练时采用双线性插值法将人群密度基准图的长和宽缩小至原来的1/8，使得人群密度基准图与输出的人群密度图大小一致。

步骤S1中，人群密度基准图的生成过程具体为：

101)对于训练集的图像中的个体标注h_i，将距个体标注h_i最近的k个个体标注离个体标注h_i的距离设为集合

102)对个体标注h_i，定义其平均距离为

103)对每一个像素点x，密度函数生成为：

其中，N为图像中的个体标记总数，

为高斯核函数，其中标准差

β为实验设置参数；

步骤S2中对卷积网络模型进行训练具体为：

201)将训练集中的图像与其本身进行水平镜像翻转后的图片作为训练图片对，每一次前向传播时图片对中的两张图片均需要经过网络；

202)将图片对中原图片，即未修改的图片送入人群计数网络，生成预测人群密度图，将预测密度图与基准密度图根据损失函数进行损失计算进行回传，更新相关权重；

203)将图片对中的镜像图片生成的密度估计图，再一次经过水平镜像后，将其与原图片生成的密度估计图进行损失计算并回传，降低此损失占比并更新相关权重；

204)重复步骤201)-203)，直至训练收敛。

本实施例步骤202)选用的损失函数的表达式为：

为输入图像X_m的基准密度图，在本实施例中，203)中的损失比例为202)损失比例的十分之一，由此构建总损失函数为：

其中，λ为超参数，本例中取值为0.1，用以调节主损失

和辅助损失

的比例。

利用数据集中的训练集对网络进行训练和微调，其中学习率设置为1e-6，卷积网络的网络前端采用预训练的VGG-16网络进行初始化，网络后端采用标准差为0.01的高斯初始化，网络训练采用随机梯度下降的方式进行迭代更改。

步骤S3将测试集输入训练后的卷积网络模型，获得测试集的人群密度估计图，对该图进行求和得到该图的人群计数。

采用对平均错误率MAE和均方错误率MSE对测试集的结果进行评价，MAE和MSE定义如下：

其中，N为样本数目，S_i为网络生成密度图求和得到的人群数目，S_i ^GT为图像人群数目基准值，MAE和MSE越小代表结果越好。

本实施例的数据集选用ShanghaiTech PartA和ShanghaiTech PartB数据集，将数据集通过利用图片自对称的训练算法得到的模型后获得的部分结果如图2所示，左列两栏为ShanghaiTech PartA中的结果可视化，右侧两栏为ShanghaiTech PartB中的结果可视化，第一行为输入的图片，第二行为人群密度图基准值，第三行为本发明进行预测生成的人群密度图，人群密度估计数目在密度图片的左下角。

本实施例为了验证本发明的性能，设计了两组对比实验：

(1)使用基于自对称的训练算法和未使用该算法的对比试验；

实验选取ShanghaiTech PartA和ShanghaiTech PartB数据集进行相关比较，比较结果如表1：

表1是否使用自对称训练算法的结果比较

由表1可以看出，使用自对称的训练算法在数据集中都有更好地表现。

图3左列为输入图片和基准密度图，中间一列为使用自对称训练算法的结果，右侧为不使用该训练算法，第二行为对第一行中部分区域放大后显示。从图3中可以看出，使用自对称的训练方式得到的图片在对于镜像操作后的图片进行处理，能够生成和原图处理后更为接近的密度分布图。

(2)不同数据集与其他方法的比较；

在ShanghaiTech PartA、ShanghaiTech PartB数据集中与主流算法进行比较，包括MCNN、FCN、Swiching-CNN、IG-CNN和CSRNet，MDNet代表本实施例的多尺度扩张卷积网络，比较结果如表2：

表2与主流人群密度估计方法结果比较

由表2可得，本实施例采用的基于图片自对称的人群计数训练算法的测试实验结果证明本发明与目前公布的主流算法相比具有更好的人群密度估计准确率。

实施例2

本实施例提供与实施例1对应的一种基于图片自对称性人群计数网络的人群计数方法的装置，包括存储器和处理器，存储器存储有计算机程序，处理器调用计算机程序执行如实施例1中所述方法的步骤。

综上，本发明提出了一种基于图片自对称性人群计数网络的人群计数方法，利用图片的对称性来改进模型的鲁棒性。用类似的方法在推理阶段能够不增加计算量和参数量的条件下让网络结果更为准确。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于图片自对称性人群计数网络的人群计数方法，用以生成人群密度估计图，其特征在于，包括以下步骤：

2)构建人群计数网络模型，基于图片自对称的性质，以训练集和与之对应的人群密度基准图作为输入对人群计数网络模型进行训练，对人群计数网络模型进行训练具体包括以下步骤：

203)将由镜像图片生成的密度估计图经过水平镜像后，与原图片生成的密度估计图进行损失计算并回传，所述的步骤202)与步骤203)中均采用L₂损失函数计算损失，对于步骤202)中，则有：

对于步骤203)中，则有：

为输入图像X_m的基准密度图，

为镜像图片生成的密度估计图再进行水平镜像后的结果；

所述的卷积网络模型的总损失函数为：

其中，λ为超参数，用以调节主损失

和辅助损失

的比例；

204)重复步骤201)-203)，直至训练收敛；

2.根据权利要求1所述的一种基于图片自对称性人群计数网络的人群计数方法，其特征在于，所述的步骤1)中，对数据集中的图像进行分割和镜像处理具体为：

划分数据集之前对数据集进行数据增强处理，具体为：

3.根据权利要求1所述的一种基于图片自对称性人群计数网络的人群计数方法，其特征在于，所述的步骤1)中，生成人群密度基准图包括以下步骤：

102)对于个体标注h_i，定义其平均距离

103)对于每一个像素点x，生成的密度函数F(x)为：

其中，N为图像中的个体标记总数，

为高斯核函数，其中标准差

4.根据权利要求1所述的一种基于图片自对称性人群计数网络的人群计数方法，其特征在于，所述的步骤2)中，人群计数网络模型为一卷积网络模型，其输入为RGB三通道图片，输出为单通道图片，即人群密度估计图。

5.根据权利要求4所述的一种基于图片自对称性人群计数网络的人群计数方法，其特征在于，所述的卷积网络模型由网络前端和网络后端构成，所述的网络前端采用VGG16网络的前10层卷积层和3层max-pooling层，所述的网络后端包括依次连接的多尺度扩展卷积模块和降维卷积层组，网络前端的数据传输至多尺度扩展卷积模块的四个独立并列的分支卷积层进行并行处理，每个多尺度扩展卷积模块均包括四个独立并列的分支卷积层以及与各分支卷积层连接的拼接层，每个分支卷积层均由1×1卷积核和3个扩张率分别为1、2和3的3×3卷积核构成，每个分支卷积层的通道数均为输入数据的1/4，并将输出进行拼接，然后通过降维卷积层组输出单通道人群密度图，所述的降维卷积层组由四个通道数分别为256、128、64和1的卷积层依次连接构成，通道数为256、128和64的3个卷积层均采用3×3卷积核，通道数为1的卷积层的卷积核为1×1，除通道数为1的卷积层以外，卷积网络中其它卷积层均包含ReLU激活函数。

6.根据权利要求5所述的一种基于图片自对称性人群计数网络的人群计数方法，其特征在于，为便于计算，进行网络训练时采用双线性插值法将人群密度基准图的长和宽缩小至原来的1/8，使人群密度基准图与输出的人群密度图大小一致。

7.一种实现如权利要求1-6任一项所述的基于图片自对称性人群计数网络的人群计数方法的装置，其特征在于，该装置包括存储器和处理器，所述的存储器存储有计算机程序指令，所述的处理器调用该程序指令以执行人群计数网络训练方法的步骤。