CN112101164A

CN112101164A - 基于全卷积网络的轻量化人群计数方法

Info

Publication number: CN112101164A
Application number: CN202010925231.9A
Authority: CN
Inventors: 王鹏; 高晨雨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-09-06
Filing date: 2020-09-06
Publication date: 2020-12-18

Abstract

本发明涉及一种基于全卷积网络的轻量化人群计数方法，本发明属基于目标计数领域。通过建立全卷积网络，所述的全卷积网络包括编码器结构、解码器结构和预测层三部分，其中编码器结构包括4层瓶颈模块bottlenecker，解码器结构包含4个CRP模块和3个FUSION模块；预测层首先包含一个1×1卷积，将输入特征图中每个像素位置的d维特征向量转变成相应的密度值；然后将得到的密度图通过双线性插值的上采样操作恢复到原始图像的大小，得到最终输出密度图，密度图的每个像素位置的数值之和即为该图片的人数。本发明相比于现有其他模型结构具有更少的参数与更低的运算量需求，在保留现有人群计数方法较高的精度的前提下，能够达到实时人群计数的效果。

Description

基于全卷积网络的轻量化人群计数方法

技术领域

本发明属基于目标计数领域，具体为采用全卷积编码器-解码器网络结构的高精度实时人群计数方法。

背景技术

人群计数技术因其远高于肉眼计数的准确率和速度，已广泛应用于机场、车站、运营车辆、艺术展馆等多种场景，一方面可有效防止拥挤踩踏、超载等隐患发生，另一方面还可帮助零售商等统计客流。然而，当前较为先进的人群计数算法基本上都是基于深度神经网络的，这些方法虽然在精度上取得了重大的突破，但是精度的提高往往伴随着大量的计算量增加为代价，并且现实中应用这些算法的平台往往都是一些计算能力较低的移动终端，这也就使得这些高精度方法实际上无法被直接被应用。

因此，本发明主要为了将人群计数方法应用于移动设备而设计。本发明使得人群计数网络模型能够在计数的精度不下降或精度降低在可容忍范围内的前提下，达到实时的效果。

发明内容

要解决的技术问题

为了避免现有技术的计算方法不能实时计算的问题，本发明提出一种基于全卷积网络的轻量化人群计数方法。

技术方案

一种基于全卷积网络的轻量化人群计数方法，所述的全卷积网络包括编码器结构、解码器结构和预测层三部分，其中编码器结构包括4层瓶颈模块bottlenecker，解码器结构包含4个CRP模块和3个FUSION模块；其特征在于步骤如下：

步骤1：将图片经过一个步长为2的1×1卷积和一个步长为2的3×3最大池化层后得到一个特征图

步骤2：特征图V^l经过4层瓶颈模块bottlenecker，分别于每一层瓶颈模块后输出一个特征图：

步骤3：将特征图V^b4通过链式残差池化模块CRP，从CRP模块输出的特征图连同特征图V^b3会被一同传送进融合模块FUSION；经过FUSION模块的融合特征会被送入CRP模块，从CRP模块输出的特征图连同编码器的第二层输出的特征图V^b2会被一同传送进融合模块FUSION，经过FUSION模块的融合特征会被送入CRP模块；从CRP模块输出的特征图连同编码器的特征图V^b1会被一同传送进融合模块FUSION，经过FUSION模块的融合特征会被送入CRP模块；

所述的融合模块FUSION包括两条路径，每条路径的开始都包含一个1×1卷积，低分辨率特征图输入的路径包含一个上采样操作，该操作会将低分辨率特征图进行上采样操作映射到另一条路径中特征图的高分辨率；然后两条路径的特征图会有一个加和的操作；

步骤4：将步骤3解码器结构输出的特征图传送给预测层，预测层首先包含一个1×1卷积，将输入特征图中每个像素位置的d维特征向量转变成相应的密度值；然后将得到的密度图通过双线性插值的上采样操作恢复到原始图像的大小，得到最终输出密度图，密度图的每个像素位置的数值之和即为该图片的人数。

在训练阶段，把最终得到的密度图特征作回归训练，计算获得的密度图上的预测人数和该图像真实的标记人数的之间平均绝对误差MAE和均方误差MSE，并将该误差作为模型参数训练反向传播的依据及最佳模型的选取参照标准：

其中，

根据图片估计的人数，

标记的真实人数；

在测试及最终应用阶段，该模型对于每张图片的输出为步骤4中提及的一张该

图片对应的密度图和该图片对应的预测人数。

有益效果

本发明提出的一种基于全卷积网络的轻量化人群计数方法，设计实现了轻量化的人群计数网络模型结构。该模型相比于现有其他模型结构具有更少的参数与更低的运算量需求，在保留现有人群计数方法较高的精度的前提下，能够达到实时人群计数的效果，从而更适用于小型终端设备。

附图说明

图1本发明基于全卷积网络的人群计数模型结构图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明提供了一种基于带有编码器-解码器的全卷积神经网络结构的轻量化人群计数方法。该网络结构分为编码器结构、解码器结构和预测层三部分。网络模型整体结构如说明书附图1所示。

编码器部分基于MobileNetV2，并在瓶颈模块(bottlenecker)的运算开始前添加了一个步长2的3×3最大池化层，且对通道数和瓶颈模块(bottlenecker)的使用个数做了相应的调整，具体设计如表1所示。每个bottlenecker所包含的中间扩展层都使用轻量级深度卷积来过滤特征，t即表示扩展因子；Conv2d代表3×3卷积层；MaxPool表示3×3最大池化层；每行描述一个n次重复的操作重复；其步幅是s；输出通道数为c。编码器架构的细节如图1(a)的Light-Weight Encoder部分所示。根据图例可以清晰的看出，在编码器部分总共分成了四层，这4层可以表述为：编码器的第1层为从图像输入后到第1个bottlenecker结束前；编码器的第2层为第2个bottlenecker；编码器的第3层为第3个bottlenecker；编码器的第4层为第4个bottlenecker。每个立方体代表经过编码器每一层相应运算之后的特征。

解码器结构采用经过特殊改造后的Light-Weight RefineNet的解码器部分，以能结合多种尺度的上下文信息，从而更好的应对具有不同尺寸的目标物。解码过程开始于编码器结构的最后一层输出特征图(具有最低分辨率)。这些特征图会被传送通过链式残差池化模块(CRP)(图1(b))。从CRP模块输出的特征图连同编码器的倒数第二层输出的特征图。会被一同传送进融合模块内(FUSION)(图1(c))。在FUSION模块的内部包括两条路径，每条路径的开始都包含一个1×1卷积。低分辨率特征图输入的路径包含一个上采样操作，该操作会将低分辨率特征图进行上采样操作映射到另一条路径中特征图的高分辨率。然后两条路径的特征图会有一个加和的操作。网络模型会类似地进一步传播通过几个CRP和FUSION模块，直到分辨率恢复到所需的大小。解码器结构共包含4个CRP模块和3个FUSION模块。

预测层结构首先包含一个1×1卷积，将输入特征图中每个像素位置的d维特征向量转变成相应的密度值，然后将得到的密度图通过双线性插值的上采样操作恢复到原始图像的大小。

编码器结构设计表

步骤如下：

(1)一张图片经过一个步长为2的1×1卷积和一个步长为2的3×3最大池化层后得到一个特征图(feature map)

(2)特征图(feature map)V^l经过Light-Weight Encoder 4层bottlenecker，分别于每一层瓶颈模块后输出一个特征图(feature map)，对应图1中从左向右的四个蓝色立方体：

(3)Light-Weight Decoder的解码过程开始于步骤三中编码器结构的最后一层输出特征图V^b4(具有最低分辨率)。该特征图会被传送通过链式残差池化模块(CRP)(图1(b))。从CRP 1模块输出的特征图连同编码器的倒数第二层输出的特征图V^b3会被一同传送进融合模块内(FUSION)(图1(c))。经过FUSION模块的融合特征会被送入CRP 2模块。从CRP 2模块输出的特征图连同编码器的第二层输出的特征图V^b2会被一同传送进FUSION模块内，经过FUSION模块的融合特征会被送入CRP 3模块。从CRP 3模块输出的特征图连同编码器的第二层输出的特征图V^b1会被一同传送进FUSION模块内，经过FUSION模块的融合特征会被送入CRP4模块。此时，特征图的分辨率已经恢复到所需的大小。

(4)由第三步解码器结构输出的特征图(feature map)传送给预测层。预测层首先包含一个1×1卷积，将输入特征图中每个像素位置的d维特征向量转变成相应的密度值。然后将得到的密度图通过双线性插值的上采样操作恢复到原始图像的大小。得到最终输出密度图，密度图的每个像素位置的数值之和即为该图片的人数。

(5)在训练阶段，把最终得到的密度图特征作回归训练，计算获得的密度图上的预测人数和该图像真实的标记人数的之间平均绝对误差(MAE)和均方误差(MSE)，并将该误差作为模型参数训练反向传播的依据及最佳模型的选取参照标准(误差越小，则模型准确度越高)。

(6)在测试及最终应用阶段，该模型对于每张图片的输出为步骤(4)中提及的一张该图片对应的密度图和该图片对应的预测人数。

具体过程如下：

1、ground truth密度图生成

目标计数的相关数据集中提供的ground truth往往是一个点代表一个目标物。由于直接对标注点回归难度太大，因此大家采用生成密度图的方式重新构建了训练需要使用的ground truth。

为了便于模型进行学习，通过在每个有标注点的位置应用高斯核模糊，从而生成ground truth密度图：

其中δ(·)代表着狄拉克函数；x_i,i＝1,…,代表着第i个标注点的位置；σ_i代表应用于每个标注点i的高斯核标准差。

2、数据预处理

为了能够使得输入图像兼容更多的网络，预处理时对图像的高和宽进行了限制，使其能够被16整除，确保网络中一些含有降采样操作的层(conv with stride2或者池化)能够正确输出。在人群计数领域中，常见encoder中一般输出为1/8原图尺寸，因此被16整除完全满足需求。为节约显存，对原始尺寸大小超过768×1024的图像进行了保持长宽比的降采样操作。

对于一个初始化好的人群计数网络来说，自身参数符合一定的分布，如果目标分布和初始化分布相差过大的话，网络会陷入一个比较差的局部解，难以训练出好的结果。由于发现原始生成的密度图ground truth由于每个像素位置的数值都过小，直接用来回归效果会很差或者是有些情况下根本无法拟合。通过实验发现，对于密度图乘以一个较大的放大因子，可以使网络更快的收敛，甚至取得更低的估计误差。因此在代码中对密度图点乘一个放大因子，并且多个实验的结果都能证明，点乘这个放大因子确实有利于网络更好的拟合并获得更好的精度效果。

训练时使用Adam优化器来更新参数。

3、编码器编码

数据预处理后的图片被输入到编码器中，首先经过一个步长为2的1×1卷积和一个步长为2的3×3最大池化层后得到一个特征图(feature map)

该特征图(feature map)V^l再逐次经过4层瓶颈模块(bottlenecker)，分别于每一层瓶颈模块后输出一个特征图(feature map)：

4、解码器解码

解码器结构设计基于Light-Weight RefineNet的解码器结构。解码过程开始于编码器结构的最后一层输出特征图V^b4。这些特征图会被传送通过链式残差池化模块(CRP)(图1(b))。从CRP模块输出的特征图连同编码器的倒数第二层输出的特征图V^b3会被一同传送进融合模块内(FUSION)(图1(c))。在FUSION模块的内部包括两条路径，每条路径的开始都包含一个1×1卷积。低分辨率特征图输入的路径包含一个上采样操作，该操作会将低分辨率特征图进行上采样操作，并将其分辨率映射到另一条路径中特征图的高分辨率，然后两条路径的特征图会进行加和的操作，从而实现特征融合的目的。网络模型会类似地进一步传播通过几个CRP和FUSION模块，直到分辨率恢复到所需的大小。

5、预测层生成最终密度图

预测层首先包含一个1×1卷积，将输入特征图中每个像素位置的d维特征向量转变成相应的密度值，然后将得到的密度图通过双线性插值的上采样操作恢复到原始图像的大小。经过上采样操作恢复到原图分辨率的密度图即为最终输出的结果。

6、人数回归

对于总人数的计算，只需要将整张密度图中的所有像素上的预测值相加并除以放大因子即可。

7、模型训练

模型使用PyTorch框架实现。训练过程使用了NVIDIA GeForce GTX 1080Ti GPU。测试过程中精度的测试在NVIDIA GeForce GTX 1080Ti GPU上完成，速度的测试则分别在NVIDIA GeForce GTX 1080Ti GPU和NVIDIA GeForce GTX 1080GPU上进行了GPU速度的测试。

在实验中，使用了多batch训练，并且batch size为的6。在训练集的构成上，与多数先前方法使用离线处理的数据集不同，在训练过程中在线对每个图像随机裁剪80％大小的补丁。由于ShanghaiTech Part A、UCF_CC_50和UCF-QNRF所包含的图像尺寸不一，为了实现多batch训练，多batch训练的数据是随机拿到需要的数量的图片与其对应ground truth后，选择其中最小的宽(w_min)和高(h_min)，并以此为标准对这一批的图像和其对应的groundtruth进行裁切，之后处理成w为：N*3*h_min*w_min形式的Tensor送进网络进行训练。另外，初始学习率设定为1×10^(-4)，并且每个epoch都会衰减为上一个epoch的0.995倍。

对人群计数领域使用到的数据集进行了相关调研，综合考虑了这个领域的相关数据集中的图像所具有的平均分辨率大致为1920×1080。因此，在评估模型速度FPS及所涉及到的所有FLOPs、Params的计算的过程中输入分辨率均采用为1920×1080。通过大量的实验验证，实验结果可以强有力的说明本方法在对模型实现轻量化是行之有效的，并且本模型可以在保证速度的同时，仍然具有较高的精度。

8、模型应用

在经过上面的训练过程后可以得到多个模型，选取其中最优的模型(损失函数值最小)用于应用。在模型的应用过程中，不需要任何的图片数据预处理操作，只需要将一张任意尺寸的图片输入到网络模型中。整个的网络模型的参数都固定不动，只要输入图像数据并进行网络模型的正向推理即可。输入图像依次经过编码器结构、解码器结构和预测层结构，最终得到预测的人群密度图，且对该密度图上的每个像素值直接求和并除以放大因子即可获得模型预测的图像总人数。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均在本发明的保护范围之内。

Claims

1.一种基于全卷积网络的轻量化人群计数方法，所述的全卷积网络包括编码器结构、解码器结构和预测层三部分，其中编码器结构包括4层瓶颈模块bottlenecker，解码器结构包含4个CRP模块和3个FUSION模块；其特征在于步骤如下：

步骤2：特征图V¹经过4层瓶颈模块bottlenecker，分别于每一层瓶颈模块后输出一个特征图：

2.根据权利要求1所述的一种基于全卷积网络的轻量化人群计数方法，其特征在于在训练阶段，把最终得到的密度图特征作回归训练，计算获得的密度图上的预测人数和该图像真实的标记人数的之间平均绝对误差MAE和均方误差MSE，并将该误差作为模型参数训练反向传播的依据及最佳模型的选取参照标准：

其中，

根据图片估计的人数，

标记的真实人数；

在测试及最终应用阶段，该模型对于每张图片的输出为步骤4中提及的一张该图片对应的密度图和该图片对应的预测人数。