CN111626237A

CN111626237A - 基于增强型多尺度感知网络的人群计数方法及系统

Info

Publication number: CN111626237A
Application number: CN202010475260.XA
Authority: CN
Inventors: 刘才华; 段仪浓; 李夏华; 徐涛
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-04

Abstract

本发明涉及一种基于增强型多尺度感知网络的人群计数方法及系统，属于图像处理技术领域，其特征在于，包括以下步骤：步骤一，对于输入图像，使用多列扩张卷积构成的生成网络提取输入图像的多尺度特征，并生成密度图像；步骤二，将输入图像与中间生成图像和标签图像进行拼接，使用判别网络对二者的数据分布进行真假判别；步骤三，由增强模块对生成网络产生的密度图像提取多尺度细节特征，并生成最终密度图像；步骤四，将生成网络、判别网络、增强模块组合构成增强型多尺度感知网络模型；步骤五，对所生成密度图像的像素值进行累加，得到人群数量。本发明实现了对人群图像多尺度上下文信息的高质量建模，达到了很好的人群计数效果。

Description

基于增强型多尺度感知网络的人群计数方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于增强型多尺度感知网络的人群计数方法及系统。

背景技术

目前，计算机视觉应用中基于人群计数的应用已经成为人工智能领域的一个重要问题。图像或视频监控资料中包含丰富的人群场景信息，通过卷积神经网络实现人群场景图像到人群密度图像的端到端转换，形成对场景中人群数量信息与分布信息的直观理解，可以辅助安防和资源分配等实际任务的实施。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：由于人群图像中包含的行人尺度大小不同，并且存在严重遮挡等现象，现有技术难以较好的对多尺度特征进行建模；此外，现有技术大多仅使用L₂损失函数对人群图像到密度图像的转换进行约束，该损失面对图像中尖锐的边缘与异常值时会导致平均化的结果，并且独立的考虑生成图像与标签图像中对应像素间的差异，忽略了像素与像素之间的联系，这极大地影响了人群计数任务的准确性。

发明内容

本发明提供了一种基于增强型多尺度感知网络的人群计数方法及系统，本发明实现了对图像人群数据的深度建模，用于加强局部相关性并创建高质量的人群密度图，其中增强模块可以进一步增强网络的规模鲁棒性，从而进行准确而有效的人群计数。

本发明的第一目的是提供一种基于增强型多尺度感知网络的人群计数方法，至少包括：

步骤1，对于输入图像，使用多列扩张卷积构成的生成网络提取输入图像的多尺度特征，并生成密度图像；

步骤2，将输入图像分别与中间生成图像和标签图像进行拼接，使用判别网络对二者的数据分布进行真假判别；

步骤3，由增强模块对生成网络产生的密度图像进一步提取多尺度细节特征并生成最终密度图像；

步骤4，将生成网络、判别网络、增强模块组合构成增强型多尺度感知网络模型，其中，嵌入式GAN模块和增强器组合旨在增强像素的局部相关性以及缩放比例变化的鲁棒性，并对增强型多尺度感知网络模型的参数进行优化；

步骤5，对所生成密度图像的像素值进行累加，得到人群数量。

进一步：步骤1中，使用VGG-16作为生成网络的主干，使用预训练的VGG-16的前十个卷积层，保留了原始VGG-16网络的五个池化层中的三个最大池化层，将六个3×3的扩张卷积层与ReLU激活层一起用作生成网络的back-end。

进一步：步骤2中，判别网络是一个具有五个卷积层的全卷积网络，其中除了最后一层以外的每一个卷积层都实现了批量归一化和LeakyReLU激活函数。

进一步：步骤3中，增强模块是一种基于空间金字塔池的结构，可以融合不同比例和不同子区域之间的特征细节。

进一步：步骤4中，所述增强型多尺度感知网络模型包括：L₁损失函数，用于计算中间生成图像与标签图像对应像素间的距离绝对值；对抗性损失函数，用于计算中间生成图像与标签图像整体数据分布间的差异；L₂损失函数，用于计算生成图像与标签图像对应像素间的距离平方和；采用联合训练的方式对上述三项损失函数进行优化。

进一步：步骤5中，对增强型多尺度感知网络模型的参数优化的具体方式为：使用随机梯度下降的方式优化损失函数并采用后向传播的方式逐层进行求导。

本发明的第二目的是提供一种基于增强型多尺度感知网络的人群计数系统，包括：

第一密度图像生成模块：对于输入图像，使用多列扩张卷积构成的生成网络提取输入图像的多尺度特征，并生成密度图像；

判别模块，将输入图像分别与中间生成图像和标签图像进行拼接，使用判别网络对二者的数据分布进行真假判别；

第二密度图像生成模块：由增强模块对生成网络产生的密度图像提取多尺度细节特征，并生成最终密度图像；

组合优化模块：将生成网络、判别网络、增强模块组合构成增强型多尺度感知网络模型，其中，嵌入式GAN模块和增强器组合旨在增强像素的局部相关性以及缩放比例变化的鲁棒性，并对增强型多尺度感知网络模型的参数进行优化；

累加模块：对所生成密度图像的像素值进行累加，得到人群数量。

本发明的第三目的是提供一种基于增强型多尺度感知网络的人群计数方法的信息数据处理终端。

本发明的第四目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于增强型多尺度感知网络的人群计数方法。

本发明提供的技术方案具有的优点和积极效果是：

本发明创建增强型多尺度感知网络，判别网络引导生成网络在整体角度上构建密度图像，之后的增强模块进一步从多尺度细节角度上生成最终的密度图像；通过对L₁损失、对抗性损失和L₂损失的联合训练，实现了对人群图像多尺度信息的准确建模，从而生成高质量的人群密度图像，提高人群计数任务的准确性，满足了实际应用中的多种需要。

附图说明

图1为本发明优选实施例的流程图；

图2为本发明优选实施例中增强型多尺度感知网络模型整体结构示意图；

图3为本发明优选实施例中增强型多尺度感知网络模型整体结构中输入图像示例图；

图4为本发明优选实施例中增强型多尺度感知网络模型整体结构中中间结果示例图；

图5为本发明优选实施例中增强型多尺度感知网络模型整体结构中标签图像示例图；

图6为本发明优选实施例中增强型多尺度感知网络模型整体结构中输出图像示例图；

图7为本发明优选实施例中生成网络后端结构示意图；

图8为本发明优选实施例中增强模块子模块结构示意图；

图9为数据集ShanghaiTech_A部分人群图像示意图；

图10为数据集ShanghaiTech_B部分人群图像示意图；

图11为数据集UCF_CC_50人群图像示意图；

图12a为ShanghaiTech_A部分输入图像示意图；

图12b为ShanghaiTech_A部分标签图像示意图；

图12c为ShanghaiTech_A部分生成图像示意图；

图13a为ShanghaiTech_B部分输入图像示意图；

图13b为ShanghaiTech_B部分标签图像示意图；

图13c为ShanghaiTech_B部分生成图像示意图；

图14a为UCF_CC_50部分输入图像示意图；

图14b为UCF_CC_50部分标签图像示意图；

图14c为UCF_CC_50部分生成图像示意图；

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下：

本发明创建增强型多尺度感知网络，判别网络引导生成网络在整体角度上构建密度图像，之后的增强模块进一步从多尺度细节角度上生成最终的密度图像；通过对L₁损失、对抗性损失和L₂损失的联合训练，实现了对人群图像多尺度上下文信息的准确建模，从而生成高质量的人群密度图像，提高人群计数任务的准确性，详见下文描述：

参见附图1，本发明实施例公开了一种基于增强型多尺度感知网络的人群计数方法，该方法包括以下步骤：

步骤101：由多列扩张卷积构成的生成网络提取输入图像的多尺度特征并生成密度图像；

步骤102：将输入图像与分别与中间生成图像和标签图像)拼接，由判别网络对二者的数据分布进行真假判别；

步骤103：由增强模块对生成网络产生的密度图像进一步提取多尺度细节特征并生成最终密度图像；

步骤104：将生成网络、判别网络、增强模块组合构成增强型多尺度感知网络模型，并进行优化；

步骤105：对所生成密度图像的像素值进行累加，得到人群数量。

其中，步骤104中的增强型多尺度感知网络模型包括：

L₁损失函数，用于计算中间生成图像与标签图像对应像素间的距离绝对值；

对抗性损失函数，用于计算中间生成图像与标签图像整体数据分布间的差异；

L₂损失函数，用于计算生成图像与标签图像对应像素间的距离平方和；

采用联合训练的方式对上述三项损失函数进行优化。

进一步地，步骤104中的对增强型多尺度感知网络模型参数优化具体为：

使用随机梯度下降的方式优化损失函数并采用后向传播的方式逐层进行求导。

综上所述，通过上述步骤101至步骤105的处理，本发明实施例实现了对人群图像到密度图像的高质量转换，达到了很好的人群计数效果。

参见附图2，其中，网络整体结构由三部分构成，分别为生成网络、判别网络、增强模块，下面结合网络结构，计算公式进行详细描述：

步骤201：由多列扩张卷积构成的生成网络提取输入图像的多尺度特征并生成密度图像；

生成网络的结构如图7所示，本发明实施例采用VGG-16模型(该模型为本领域技术人员所公知，本发明实施例对此不做赘述)作为生成网络的前端，包含原VGG-16网络的前十个卷积层和三个最大池化层，其具有出色的迁移学习能力与灵活的架构，用于提取人群图像的深层特征。之后，采用具有不同扩张率的多个扩张卷积层来构建网络后端，其中，每层包含三列扩张卷积(扩张率分别为1、2、4)，使用1×1卷积对每层进行通道融合，每层包含的通道数依次为256、128、64、1(输出层)。每个卷积层之后加入了Relu激活函数(该函数为本领域技术人员所公知，本发明实施例对此不做赘述)，以加快收敛速度。扩张卷积在不增加参数量的前提下增大了感受野，可以从更宽广的视图中集成更丰富的上下文信息。扩张卷积层定义如下：

其中y(m,n)是来自输入x(m,n)的扩张卷积和具有M和N的长度和宽度的滤波器w(i,j)的输出。参数r为扩张率，如果r＝1，则扩张卷积变为正常卷积。生成网络最后部分为一个1×1卷积层，其可以跨通道融合特征并生成最后的密度图像。

需要说明的是，在此部分中，VGG-16骨干加载经ImageNet数据集训练过的预训练参数，其余各卷积层参数均为随机初始化，经过步骤204对参数进行优化求导后，根据优化过程不断更新此部分参数。

步骤202：将输入图像与(中间生成图像/标签图像)组成图像对，由判别网络对二者的数据分布进行真假判别；

将生成网络生成的图像与标签图像送入判别网络，以对其数据分布进行真假判别。判别网络包含5个卷积层，其构成依次为C(64,4,2)-C(128,4,2)-C(256,4,2)-C(512,4,1)-C(1,4,1)，其中C代表卷积层，每个括号中的数字分别代表卷积核数量、卷积核大小及步长。除最后一层外，其余各卷积层后均连接批标准化层和LeakyReLU激活函数(该两项同样为本领域技术人员所公知，本发明实施例对此不做赘述)，以加快收敛速度。将输入图像与(中间生成图像/标签图像)组成图像对，判别网络判断每个N×N图像块的分布真实性，对所有结果求平均后产生最终输出。判别网络的判断过程将激励生成网络匹配真实分布，这可以优化细节处理并生成高质量的密度图。

需要说明的是，此部分卷积层参数均为随机初始化，经过步骤204对参数进行优化求导后，根据优化过程不断更新此部分参数。

步骤203：由增强模块对生成网络产生的密度图像进一步提取多尺度细节特征并生成最终密度图像；

本发明实施例中增强模块包括两个结构相同的子模块。子模块结构如图8所示，首先包括两个3×3的前端卷积层，将前端卷积层的输出通过2×2、3×3、6×6、8×8四个尺寸实现金字塔池化，每个尺寸的特征图后接一个1×1卷积层，以实现跨通道特征融合。将四个1×1卷积层的输出特征图上采样到输入大小并与前端输入拼接，送入最后的3×3卷积层融合特征并输出最终密度图像。将两个上述结构的子模块串联构成增强模块。增强模块将特征图分块并提取多尺度上下文信息，对于人群图像中行人尺度的不同大小具有较好的适应性。

根据步骤201和步骤203的操作，本发明实施例构建增强型多尺度感知网络模型。在增强型多尺度感知网络模型中，除了模型整体的设计之外，损失函数的使用也极为重要，本发明实施例根据实际应用问题，提出了损失函数的使用方法。

本发明实施例为增强型多尺度感知网络模型使用三项损失函数，即L₁损失函数、对抗性损失函数、L₂损失函数，具体包括：

L₁损失函数，主要用于计算中间生成图像与标签图像对应像素间的距离绝对值，其具体定义为：

其中，n表示训练样本的数量，x_i表示第i张输入图像，G(x_i)表示第i张中间生成图像，y_i表示对应于x_i的第i张标签图像。

对抗性损失函数，用于计算中间生成图像与标签图像整体数据分布间的差异，具体定义为：

其中，x表示输入图像，G(x)表示中间生成图像，y表示标签图像。

L₂损失函数，主要用于计算生成图像与标签图像对应像素间的距离平方和，其具体定义为：

其中，n表示训练样本的数量，x_i表示第i张输入图像，G(x_i)表示第i张生成图像，y_i表示对应于x_i的第i张标签图像。

因此，本发明实施例将上述三项损失函数加权组合形成综合损失，作为增强型多尺度感知网络模型的总损失函数，具体定义为：

L＝λ_aL₁+λ_bL_GAN+L₂ (4)

其中，λ_a、λ_b是用于平衡各项损失函数的超参数。

步骤204：增强型多尺度感知网络模型的优化；

本发明实施例对增强型多尺度感知网络模型的优化步骤具体为：

(1)生成网络提取输入图像多尺度特征并生成密度图像；

(2)判别网络对中间生成图像与标签图像的数据分布进行真假判别；

(3)根据对抗性损失函数更新判别网络的参数；

(4)根据L₁损失函数与对抗性损失函数更新生成网络的参数；

(5)根据L₂损失函数更新生成网络与增强模块的参数；

(6)重复进行(1)-(5)，直至模型收敛；

步骤205：对所生成的人群密度图像进行像素值累加，得到人群数量。

本发明实施例定义C_i为增强型多尺度感知网络模型预测的人数，给定生成密度图像，C_i具体计算方式定义如下：

其中，L和W分别表示密度图像的长度和宽度，而Z_l,w表示在密度图像(l,w)位置处的像素值，C_i则为该密度图像所预测的人数。

综上所述，通过上述步骤201至步骤205的处理，本发明实施例实现了对人群图像到密度图像的高质量转换，达到了很好的人群计数效果。

下面以具体的试验来验证本方法的可行性，本发明针对所提出的算法在两个人群数据集上进行验证。其一是包含拥挤、稀疏两种人群密度的shanghaiTech数据集，其二是包含高人群密度的UCF_CC_50数据集。下面将对两个数据集以及实验结果分别进行描述。

参见图9、图10，shanghaiTech数据集是人群计数任务中常用标准数据集之一。此数据集具有1198张带注释图像，其中共包含330165人。该数据集具体分为A、B两部分，A部分包含482张不同场景的拥挤人群图像，其中300张作为训练集，182张作为测试集；B部分包含716张人群较稀疏的街景图像，其中400张作为训练集，316张作为测试集。

参见图11，为了验证本方法对于高密度人群场景的计数能力。本方法针对UCF_CC_50数据集进行了验证。UCF_CC_50是一个非常具有挑战性的数据集，包含从因特网下载的50张高密度人群图像，每张图像的人数范围为94至4543，平均为1280人。由于该数据集包含图像较少，因此将50张图像平均分为5组，采用5折交叉验证的方式进行实验。

本方法采用两个评价指标，即平均绝对误差MAE和均方误差MAE。其中MAE反应方法的准确性，MSE反应方法的鲁棒性，shanghaiTech数据集的实验对比结果如表1所示。

表1 shanghaiTech数据集的实验对比结果

对比其他六个最新的方法，本方法实验获得了最好的MAE，MSE也与其他方法近似，这表明本方法对于图像的多尺度上下文信息具有较好的适应性，并且对图像高频细节特征的处理更加到位。在Part_A部分，对比基准方法CSRNet，本方法的MAE较其低4.7，MSE较其低8.8，这表明对抗性损失和增强模块的引入是有效的，可以使生成网络产生更加接近标签图像的密度图像，因此也使得MAE、MSE得到了明显的降低。

另外，本方法对高密度人群场景数据集UCF_CC_50进行了实验验证，相关的结果如表2所示：

表2 UCF_CC_50数据集的实验对比结果

方法	MAE	MSE
			Switching CNN	318.1	439.2
ACSCP	291.0	404.6
			IG-CNN	291.4	349.4
ic-CNN	260.9	365.5
			CSRNet	266.1	397.5
SANet	258.4	334.9
			所提方法	226.7	310.6

对比其他六个最新的方法，本方法实验同样获得了最好的MAE和MSE，这表明对于高密度人群场景下存在的遮挡、重叠等问题，本方法也能较好地适应与克服。

一种基于增强型多尺度感知网络的人群计数系统，包括：

一种基于增强型多尺度感知网络的人群计数方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于增强型多尺度感知网络的人群计数方法。

综上所述，本发明实施了基于增强型多尺度感知网络的人群计数方法，创建增强型多尺度感知网络，判别网络引导生成网络在整体角度上构建密度图像，之后的增强模块进一步从多尺度细节角度上生成最终的密度图像；通过对L₁损失、对抗性损失和L₂损失的联合训练，实现了对人群图像多尺度上下文信息的准确建模，从而生成高质量的人群密度图像，提高人群计数任务的准确性。同时本发明在两个标准数据集上的实验结果优于其他发明方法的实验结果，实现了在不同密度人群场景下的较准确计数。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于增强型多尺度感知网络的人群计数方法，其特征在于，包括以下步骤：

步骤一，对于输入图像，使用多列扩张卷积构成的生成网络提取输入图像的多尺度特征，并生成密度图像；

步骤二，将输入图像分别与中间生成图像和标签图像进行拼接，使用判别网络对二者的数据分布进行真假判别；

步骤三，由增强模块对生成网络产生的密度图像提取多尺度细节特征，并生成最终密度图像；

步骤四，将生成网络、判别网络、增强模块组合构成增强型多尺度感知网络模型，其中，嵌入式GAN模块和增强器组合旨在增强像素的局部相关性以及缩放比例变化的鲁棒性，并对增强型多尺度感知网络模型的参数进行优化；

步骤五，对所生成密度图像的像素值进行累加，得到人群数量。

2.根据权利要求1所述的基于增强型多尺度感知网络的人群计数方法，其特征在于：

在步骤一中，使用VGG-16作为生成网络的主干，使用预训练的VGG-16的前十个卷积层，保留了原始VGG-16网络的五个池化层中的三个，将六个3×3的扩张卷积层与ReLU激活层一起用作生成网络的back-end。

3.根据权利要求1所述的基于增强型多尺度感知网络的人群计数方法，其特征在于：

在步骤二中，判别网络是一个具有五个卷积层的全卷积网络，其中，前四个卷积层的每一个卷积层都均实现了批量归一化和LeakyReLU激活函数。

4.根据权利要求1所述的基于增强型多尺度感知网络的人群计数方法，其特征在于：

在步骤三中，增强模块是一种基于空间金字塔池的结构，融合不同比例和不同子区域之间的特征细节。

5.根据权利要求1所述的基于增强型多尺度感知网络的人群计数方法，其特征在于：

在步骤四中，所述增强型多尺度感知网络模型包括：L₁损失函数，用于计算中间生成图像与标签图像对应像素间的距离绝对值；对抗性损失函数，用于计算中间生成图像与标签图像整体数据分布间的差异；L₂损失函数，用于计算生成图像与标签图像对应像素间的距离平方和；采用联合训练的方式对上述三项损失函数进行优化。

6.根据权利要求1所述的基于增强型多尺度感知网络的人群计数方法，其特征在于：

在步骤五中，对增强型多尺度感知网络模型的参数优化的具体方式为：使用随机梯度下降的方式优化损失函数并采用后向传播的方式逐层进行求导。

7.一种基于增强型多尺度感知网络的人群计数系统，其特征在于，包括：

8.一种实现权利要求1-6任一项所述基于增强型多尺度感知网络的人群计数方法的信息数据处理终端。

9.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6任一项所述的基于增强型多尺度感知网络的人群计数方法。