CN111242036A

CN111242036A - 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

Info

Publication number: CN111242036A
Application number: CN202010038984.8A
Authority: CN
Inventors: 孟月波; 刘光辉; 徐胜军; 纪拓
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05
Anticipated expiration: 2040-01-14
Also published as: CN111242036B

Abstract

本发明公开了一种基于编码‑解码结构多尺度卷积神经网络的人群计数方法，其特征在于，包括以下步骤：考虑图像的视角扭曲，采用自适应高斯滤波器，计算图像的真值密度图；采用编码‑解码结构，搭建多尺度卷积神经网络模型，所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述；对搭建的多尺度卷积神经网络模型进行训练和测试，获得训练好的多尺度卷积神经网络模型；将待估图像输入训练好的多尺度卷积神经网络模型，预测获得人群密度图；对人群密度图进行回归估计，获得待估图像的人员数量。本发明的方法，能够保留尺度特征和图像的上下文信息；可提升密度图的输出质量。

Description

一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

技术领域

本发明属于图像处理技术领域，特别涉及一种基于编码-解码结构多尺度卷积神经网络的人群计数方法。

背景技术

随着国民经济迅猛发展及城市化进度不断加快，城市人口数量急剧增加，由此带来的社会问题也不断增加；例如，人员拥挤导致踩踏等不安全事故的发生；候车大厅人员的增加对交通调度带来的压力等。解决上述问题需要准确预测出场景下的人群数量，而图像可以清晰直观的反映出实际场景中的人群变化情况，因此基于图像信息的人群密度估计与计数有重要的研究意义。

卷积神经网络(Convolutional Neural Network，CNN)模型因具有获取深层次特征的能力，在语义分割、目标检测与识别等领域发展迅速，研究人员也将其应用于人群计数领域并取得了较好的效果。Zhang(ZHANG Y,ZHOU D,CHEN S,et al.Single-Image CrowdCounting via Multi-Column Convolutional Neural Network[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).Las Vegas，NV，USA:IEEE,2016:589-597.)等首次提出一种多列卷积神经网络(Multi-Column ConvolutionalNeural Network，MCNN)模型，其通过多列CNN结构并行提取多尺度信息，一定程度上解决了多尺度特征提取问题，大大提升了人群计数的精度。受到此多列结构的启发，Zeng(ZENG L,XU X,CAI B,et al.Multi-scale convolutional neural networks for crowd counting[C]//2017IEEE International Conference on Image Processing(ICIP).Piscataway,NJ,USA:IEEE,2017:465-469.)等提出了一种基于多尺度块(Multi-Block)的人群密度估计模型MSCNN，侧重解决多模型组合(Mulit-Network)和多栏组合模型(Multi-Column)存在的模型优化困难问题，简化了模型训练步骤；但多卷积核提取到的特征经1x1卷积融合，损失了底层特征，进而影响了计数准确度。

综上，亟需一种新的基于编码-解码结构多尺度卷积神经网络的人群计数方法。

发明内容

本发明的目的在于提供一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，以解决基于多列卷积神经网络的人群计数方法存在的多尺度特征信息丢失、融合不佳以及密度图质量不高等问题。本发明的方法，能够保留尺度特征和图像的上下文信息；可提升密度图的输出质量。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，包括以下步骤：

步骤1，采集场景的图像，考虑图像的视角扭曲，采用自适应高斯滤波器，计算图像的真值密度图；

步骤2，采用编码-解码结构，搭建多尺度卷积神经网络模型，用于计算人群的人员数量；其中，所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述；

步骤3，根据步骤1采集的图像以及其对应的真值密度图，对步骤2搭建的多尺度卷积神经网络模型进行训练和测试，获得训练好的多尺度卷积神经网络模型；

步骤4，将待估图像输入步骤3训练好的多尺度卷积神经网络模型，预测获得人群密度图；对人群密度图进行回归估计，获得待估图像的人员数量。

本发明的进一步改进在于，步骤1中具体包括：

步骤1.1，采集的图像x中第i个坐标为x_i的人头标记点，表示为函数δ(x-x_i)；对于一张具有N个人头标记点的图像，表示为H(x)函数，表达式为：

步骤1.2，考虑图像的视角扭曲，采用自适应高斯滤波器G_σ与H(x)函数进行卷积，获得密度图方程，表达式为：

第i个坐标为x_i的人头标记点的自适应高斯核表达式为：

式中，

是标记点x_i与其最近的K个人头之间的平均距离。

本发明的进一步改进在于，步骤1.2中，参数β＝0.3。

本发明的进一步改进在于，步骤2搭建的多尺度卷积神经网络模型中：

编码器通过多尺度卷积模块捕获多尺度特征，用于从原始图像中学习与尺度相关的特征，实现多尺度信息的有效获取；

采用空洞空间金字塔池化模块聚合尺度特征，用于避免细节信息的丢失；

解码器对编码器的输出进行上采样，并与前半层的输出特征图经1x1卷积匹配通道数后融合，再经一个3x3的卷积核微调，进行输出，获得预测密度图。

本发明的进一步改进在于，所述多尺度卷积模块采用四个并列的1x1、3x3、5x5、7x7卷积核聚合上下文语义信息，获取尺度信息。

本发明的进一步改进在于，所述空洞空间金字塔池化模块，采用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样，揭示图像的上下文信息；在空洞卷积尾部串行空间金字塔结构，用于将不同大小特征图映射为相同维度空间信息融入图像表示中。

本发明的进一步改进在于，所述空洞卷积是在标准卷积核中添加空洞，空洞卷积表达式为：

式中，w代表卷积核；k代表卷积核尺寸；w[k]表示大小为k的卷积核；a[i]表示第i个输入；*_l表示空洞卷积运算；l表示扩张率。

本发明的进一步改进在于，步骤2的所述多尺度卷积神经网络模型的损失函数中，

采用像素空间损失L_D反映估计的密度图像素级别的准确程度，表达式为：

式中，D_i表示第K_i(i＝1......M)幅训练样本图像的真值密度图，F_D(K_i；θ)表示第K_i(i＝1......M)幅训练样本图像的网络输出，θ表示网络的可学习参数；M表示训练图像数量；

采用计数误差描述L_Y增强网络对计数的敏感性，表达式为：

式中，F_Y(K_i；θ)表示第K_i(i＝1......M)幅训练样本图像经由预测密度图F_D(K_i；θ)积分求和后得到的预测人数，Y_i表示第K_i(i＝1......M)幅训练样本图像的真值人数；

总损失函数L表达式为：

L(θ)＝L_D(1-λ)(θ)+λL_Y(θ)，

式中，λ表示计数损失的权值。

本发明的进一步改进在于，λ的取值为0.5

与现有技术相比，本发明具有以下有益效果：

本发明针对目前人群计数存在的尺度变换以及生成密度图质量不佳问题，提出了基于编码-解码结构的多尺度人群密度估计网络模型；模型通过编码-解码结构融合高低级特征，实现密度图质量的提高。具体的，本发明提出一种编码-解码结构的多尺度卷积神经网络用于人群计数任务，以解决基于多列卷积神经网络的人群计数方法存在的多尺度特征信息丢失、融合不佳以及密度图质量不高等问题。本发明提出一种新的损失函数，在以往像素空间损失函数的基础上考虑了计数损失，可增强网络对计数的敏感性。本发明的方法适用于商场、会场等人群分布复杂的场景，可广泛应用于安防以及交通调度等领域。

本发明中，网络编码器部分采用多列卷积捕获多尺度特征，通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量，保留尺度特征和图像的上下文信息；解码器部分对编码器输出进行上采样，实现高层语义信息和编码器前端低层特征信息有效融合，从而提升密度图的输出质量。

本发明中，为进一步提升计数精度，本发明提出一种包括人群计数误差描述的新的损失函数，以提升网络对计数的敏感性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法的流程示意框图；

图2是本发明实施例中，基于编码-解码结构的多尺度人群密度估计模型结构示意图；

图3是本发明实施例中，多尺度卷积模块示意图；

图4是本发明实施例中，多尺度卷积块示意图；

图5是本发明实施例中，扩张卷积感受野变化示意图；其中，图5中的(a)表示标准的3×3卷积，图5中的(b)表示扩张率为2的3×3扩张卷积，图5中的(c)表示扩张率为4的3×3扩张卷积；

图6是本发明实施例中，一单幅测试图像实验结果示意图；其中，图(6)中的(a)为原图示意图，图(6)中的(b)为真值密度图及人数示意图，图(6)中的(c)为预测密度图及人数示意图；

图7是本发明实施例中，又一单幅测试图像实验结果示意图；其中，图(7)中的(a)为原图示意图，图(7)中的(b)为真值密度图及人数示意图，图(7)中的(c)为预测密度图及人数示意图；

图8是本发明实施例中，再一单幅测试图像实验结果示意图；其中，图(8)中的(a)为原图示意图，图(8)中的(b)为真值密度图及人数示意图，图(8)中的(c)为预测密度图及人数示意图；

图9是本发明实施例中，测试数据集实验结果示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

本发明实施例的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，包括以下步骤：

步骤1：通过监控摄像头采集实际场景下的图像信息，考虑图像的视角扭曲，采用自适应高斯滤波器，计算图像的真值密度图；

步骤2：采用编码-解码结构，搭建多尺度卷积神经网络人群计数网络模型，用于人群计数任务；

步骤3：建立包括像素空间损失和计数误差描述两部分的损失函数。

步骤4：完成网络训练，获得性能较好的模型参数；网络模型参数确定后，输入待估图像，预测人群密度图，并对人群密度图进行回归估计，得到当前图像人员数量。

本发明实施例中，步骤1具体包括：

1a)图像x中第i个坐标为x_i的人头标记点，将其表示为函数δ(x-x_i)，对于一张具有N个人头标记点的图像可以将其表示为H(x)函数：

1b)考虑图像的视角扭曲，采用自适应高斯滤波器G_σ与公式(1)进行卷积，得到如公式(2)的密度图方程。第i个坐标为x_i的人头标记点的自适应高斯核如公式(3)所示。

式中，

是标记点x_i与其最近的K个人头之间的平均距离。

优选的，参数β＝0.3时生成的密度图质量最好。

本发明实施例中，步骤2具体包括：

2a)搭建基于编码-解码结构的多尺度卷积神经网络基本结构。

2b)编码器部分通过多尺度卷积模块(Multi-Conv)捕获多尺度特征，从原始图像中学习与尺度相关的特征，实现多尺度信息的有效获取；采用空洞空间金字塔池化模块(Atrous Space Pyramid Pooling，ASPP)聚合尺度特征，避免细节信息的丢失。

2c)本发明多尺度卷积模块(Multi-Conv)从原始图像中学习与尺度相关的特征，实现多尺度信息的有效获取。具体的，该模块采用四个并列的1x1、3x3、5x5、7x7卷积核来聚合上下文语义信息，获取尺度信息。

2d)本发明空洞空间金字塔池化模块(ASPP)，利用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样，揭示图像的上下文信息；在空洞卷积尾部串行空间金字塔结构，将不同大小特征图映射为相同维度空间信息融入图像表示中，以更好地完成密度图预测任务。

空洞卷积是通过在标准卷积核中添加空洞，即在空洞的位置添加0，达到扩大卷积核尺度，增大感受野的目的，且不增加参数运算量。空洞卷积算法定义如式(4)所示，w代表卷积核；k代表卷积核尺寸；w[k]表示大小为k的卷积核；a[i]表示第i个输入；*_l表示空洞卷积运算；l表示扩张率，描述卷积核处理数据时采样的步幅，调整l可自适应的调整感受野大小。

2e)解码器部分对编码器的输出(高级特征)进行上采样，并与前半层的输出特征图(低级特征)经1x1卷积匹配通道数后融合，经一个3x3的卷积核微调后，进行输出，获得预测密度图。

本发明实施例中，步骤3具体包括：

3a)采用像素空间损失L_D反映估计的密度图像素级别的准确程度，其表达式如式(5)所示。

式中，D_i表示第K_i(i＝1......M)幅训练样本图像的真值密度图，F_D(K_i；θ)表示第K_i(i＝1......M)幅训练样本图像的网络输出，即预测密度图；θ表示网络的可学习参数；M表示训练图像数量。

3b)采用计数误差描述L_Y增强网络对计数的敏感性，其表达式如式(6)所示。

式中，F_Y(K_i；θ)表示第K_i(i＝1......M)幅训练样本图像经由预测密度图F_D(K_i；θ)积分求和后得到的预测人数，Y_i表示第K_i(i＝1......M)幅训练样本图像的真值人数。

3c)本发明总损失函数L表达式如式(7)所示：

L(θ)＝L_D(1-λ)(θ)+λL_Y(θ) (7)

式中，λ表示计数损失的权值。

优选的，本发明将λ设为0.5。

综上所述，本发明实施例针对目前人群计数存在的尺度变换以及生成密度图质量不佳问题，提出基于编码-解码结构的多尺度人群密度估计网络模型。模型通过编码-解码结构融合高低级特征，实现密度图质量的提高。网络编码器部分采用多列卷积捕获多尺度特征，通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量，保留尺度特征和图像的上下文信息；解码器部分对编码器输出进行上采样，实现高层语义信息和编码器前端低层特征信息有效融合，从而提升密度图的输出质量。本发明实施例提出一种新的损失函数，在以往像素空间损失函数的基础上考虑了计数损失，增强了网络对计数的敏感性。

请参阅图1，本发明实施例的一种基于编码-解码结构的多尺度人群密度估计方法，包括以下步骤：

步骤1：通过监控摄像头采集实际场景下的图像信息，考虑图像的视角扭曲，采用自适应高斯滤波器，计算图像的真值密度图。

式中，

是标记点x_i与其最近的K个人头之间的平均距离。当参数β＝0.3时生成的密度图质量最好。

请参阅图2至图5，步骤2：采用编码-解码结构，搭建多尺度卷积神经网络人群计数网络模型，用于人群计数任务。

2a)搭建基于编码-解码结构的多尺度卷积神经网络基本结构，具体如图2所示。

2b)编码器部分通过多尺度卷积模块(Multi-Conv)捕获多尺度特征，从原始图像中学习与尺度相关的特征，实现多尺度信息的有效获取，其具体结构如图3所示。采用空洞空间金字塔池化模块(Atrous Space Pyramid Pooling，ASPP)聚合尺度特征，避免细节信息的丢失。

2c)本发明多尺度卷积模块(Multi-Conv)从原始图像中学习与尺度相关的特征，实现多尺度信息的有效获取，具体结构如图4所示。该模块采用四个并列的1x1、3x3、5x5、7x7卷积核来聚合上下文语义信息，获取尺度信息。

不同空洞率的空洞卷积如图5所示，图5中的(a)表示标准的3×3卷积，其感受野仅为3×3；图5中的(b)表示扩张率为2的3×3扩张卷积，其感受野可达7×7；图5中的(c)表示扩张率为4的3×3扩张卷积，其感受野可达15×15。

3c)本发明总损失函数L表达式如式(7)所示：

L(θ)＝L_D(1-λ)(θ)+λL_Y(θ) (7)

式中，λ表示计数损失的权值，本发明实施例将其设为0.5。

请参阅图6至图9和表1，本发明算法实验在Ubuntu系统下进行，GPU型号为TitanV，环境配置为CUDA9.0+anaconda3+python3+tensorflow1.8.0。所有层均使用标准差为0.01的高斯分布初始化，网络初始训练学习率为1e-2，迭代次数为100000。

本发明在ShanghaiTech数据集(ZHANG Y,ZHOU D,CHEN S,et al.Single-ImageCrowd Counting via Multi-Column Convolutional Neural Network[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).Las Vegas，NV，USA:IEEE,2016:589-597.)进行了实验与实验结果分析。ShanghaiTech数据集共包含1198幅图像，共计330165个已标记人头，是目前已知标记人数最多的数据集。数据集共分为两部分，Part_A和Part_B。Part_A包含482幅图像，来源于互联网；Part_B包含716幅图像，来源于上海的街道。本发明将Part_A的300幅和Part_B的400幅图像用于训练，其余用于测试。

ShanghaiTech数据集部分单幅测试图像原图、真值密度图及计数真值、预测密度图及预测人数如图6、图7、图8所示，整个测试集人数预测结果如图9所示，本发明提出算法与对比算法(技术背景中提到的MCNN与MSCNN两种算法)实验结果性能对比如表1所示。

将图6、图7、图8中的真值与预测结果对比，可以发现，本发明密度图预测效果较好，人数预测误差较小；由图9实验结果可知，在整个测试集上，本发明算法人数预测具有较高准确度。

表1

表1实验性能评价指标采用本领域常用的平均绝对误差(MAE)和均方误差(MSE)作为评价指标，其中，MAE反映网络预测人数与图像真值人数之间的误差，MSE描述网络预测人数与图像真值人数之间差异程度。由表1可知，本发明算法MAE有了7.3的提升，MSE有了18.2的提升，表明本文算法具有准确度较高，鲁棒性较好。

本发明实施例提出了一种编码-解码架构的多尺度卷积神经网络(Encoding-Decoding Multi-Scale Convolutional Neural Network，EDMSCNN)人群计数方法。网络编码器部分采用多列卷积捕获多尺度特征，通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量，保留尺度特征和图像的上下文信息；解码器部分对编码器输出进行上采样，实现高层语义信息和编码器前端低层特征信息有效融合，从而提升密度图的输出质量。此外，本发明提出了一种新的损失函数，在以往像素空间损失的基础上考虑了计数误差描述，增强网络对计数的敏感性。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，步骤1中具体包括：

第i个坐标为x_i的人头标记点的自适应高斯核表达式为：

式中，

是标记点x_i与其最近的K个人头之间的平均距离。

3.根据权利要求2所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，步骤1.2中，参数β＝0.3。

4.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，步骤2搭建的多尺度卷积神经网络模型中：

5.根据权利要求4所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，所述多尺度卷积模块采用四个并列的1x1、3x3、5x5、7x7卷积核聚合上下文语义信息，获取尺度信息。

6.根据权利要求4所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，所述空洞空间金字塔池化模块，采用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样，揭示图像的上下文信息；在空洞卷积尾部串行空间金字塔结构，用于将不同大小特征图映射为相同维度空间信息融入图像表示中。

7.根据权利要求6所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，所述空洞卷积是在标准卷积核中添加空洞，空洞卷积表达式为：

8.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，步骤2的所述多尺度卷积神经网络模型的损失函数中，

式中，D_i表示第K_i，i＝1......M幅训练样本图像的真值密度图，F_D(K_i；θ)表示第K_i，i＝1......M幅训练样本图像的网络输出，θ表示网络的可学习参数；M表示训练图像数量；

采用计数误差描述L_Y增强网络对计数的敏感性，表达式为：

式中，F_Y(K_i；θ)表示第K_i，i＝1......M幅训练样本图像经由预测密度图F_D(K_i；θ)积分求和后得到的预测人数，Y_i表示第K_i，i＝1......M幅训练样本图像的真值人数；

总损失函数L表达式为：

L(θ)＝L_D(1-λ)(θ)+λL_Y(θ)，

式中，λ表示计数损失的权值。

9.根据权利要求8所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法，其特征在于，λ的取值为0.5。