CN113887536B

CN113887536B - 一种基于高层语义引导的多阶段高效人群密度估计方法

Info

Publication number: CN113887536B
Application number: CN202111471734.4A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞; 翟贵乾
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-04
Anticipated expiration: 2041-12-06
Also published as: CN113887536A

Abstract

本发明属于机器视觉及深度学习技术领域，涉及一种基于高层语义引导的多阶段高效人群密度估计方法，先通过主干网络提取底层卷积特征，再在不同的池化层后添加不同阶段的空洞卷积分支，其中不同阶段的分支使用来自主干网络的底层特征，减少了特征重复提取的计算消耗；并在不同阶段使用不同空洞因子的空洞卷积替换普通卷积，在增加计算量的基础上提高了网络对于不同尺度人群的感知能力；而且采用了逐点通道注意调制模块，每个空间位置的通道特征上下文分别聚合，提升了对于小目标的感知能力，解决了多尺度特征提取效率低的问题。

Description

一种基于高层语义引导的多阶段高效人群密度估计方法

技术领域

本发明属于机器视觉及深度学习技术领域，涉及一种人群计数方法，特别是一种基于高层语义引导的多阶段高效人群密度估计方法。

背景技术

随着人工智能、物联网、5G等技术的迅速发展，智能视频监控在智慧城市中发挥了重要作用，人群密度估计在智能视频监控体系扮演了重要的角色。准确估计公共基础设施中人群密度的重要意义不言而喻，即准确的疏导人群统计数据防止了踩踏、骚乱等多种危险事故的发生，在管理控制和商业决策方面起着重要的作用。

目前，人头存在较大的尺度变化是阻碍对人群进行精准计数的主要挑战之一，引起这种现象的主要原因是不同的人头距离相机的远近不一，如果可以提供人群图片对应的透视信息，便可以将不同尺度的人头归一化为相同大小，但是如果人头之间密度较高，存在明显的重叠，这个时候透视图可能会失效，甚至带来严重的失真。现有的基于卷积神经网络的方法往往使用多个输入或多个网络模型来提取尺度相关特征，这对于模型优化尤为复杂，如MCNN在网络中结合不同尺度语义的人头信息，使用多列的深度和浅层网络，每个网络都有不同的接受域，可以对特定尺度规模的人头进行计数，这种多列结构就是将这个思想扩展到两个以上的网络中，与现有多网络融合的方法相比，该方法可以对不同层次、不同尺度特征进行优化，它通过深度监督策略来增强单一网络规模的鲁棒性。然而，由于多列网络结构复杂、参数多，使得训练过程变得复杂，因此需要对各列分别进行训练，然后采用预先训练好的多列网络来构造多列结构，并对训练进行微调，增加了网络的冗余度和计算量。因此如何在考虑多尺度的基础上提高网络的效率是亟待解决的问题。另一方面，现有注意力模块倾向于聚合全局上下文特征，其基本假设是对象相对较大且分布更为全局，但是针对人群密度估计中密集的小目标，全局注意力模块会削弱它们的功能，并不能突出小目标。因此，除了高效的多尺度网络外，还需要重新设计注意模块和特征融合方法。

由此可见，针对智能视频监控场景，现有的人群密度估计方法普遍存在高低层语义特征利用不充分的问题，亟需一种更有效的方法对人群密度进行估计。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于高层语义引导的多阶段高效人群密度估计方法，用于解决多尺度特征提取效率低的问题，可用于智能视频监控场景的人群密度估计任务中，能够高效的统计人群的密度和数量。

为了实现上述目的，本发明所述基于高层语义引导的多阶段高效人群密度估计方法，使用VGG16卷积神经网络作为主干网络用于底层特征的提取，并在第一个池化层和第二个池化层之后分支出两个阶段，用于不同尺度的特征提取，其中在不同阶段使用空洞卷积来替代普通卷积，并不断增大空洞卷积的空洞因子，增大同一阶段内的感受野的差异，提升对不同尺度人群的感知能力；在不同的阶段之间使用逐点通道注意调制模块进行关联，其中每个空间位置的通道特征上下文分别聚合；最后使用1×1卷积将不同阶段的特征聚合起来回归人群密度图，并通过对人群密度图积分实现人群计数，具体包括如下步骤：

（1）数据集预处理，生成密度图。

使用Shanghai Tech 数据集PartA作为训练和测试数据集，先通过经典的对称性增强方法对训练数据集进行增强，然后将训练集中的每张图片切成9块，每张图片的大小是原图的1/4，间隔是图片的1/6，每张训练集中的原图增强到18张，训练数据集为5400张图像，测试集为182张，数量保持不变；在后续进行训练的时候需要成对的人群图象块及其对应的真实密度图，数据集是以点注释的形式给出在每个人的头部中心，因此需要头部注释的坐标值到密度图的转换，假设在图像中的坐标处有个目标注释，则该点可以表示为

函数

，因此，对于具有

个目标点的图像，密度方程卷积

表示为：

，高斯滤波器

可以与密度方程卷积得到密度方程，将离散的密度方程转化为连续的，以此得到标记的人群密度图，用于后续网络训练，公式为：

；

（2）底层特征提取。

首先构建人群密度估计网络结构的主干网络，将步骤（1）生成的训练数据集图片输入到VGG16卷积神经网络中作为主干网络用于特征的提取，从VGG16卷积神经网络切割前13层，其中包含10层卷积层和3层池化层，三层池化层分别连接在第二层卷积之后、第四层卷积之后和第七层卷积之后，并在最后的卷积层输出底层特征；

（3）多阶段特征提取。

在主干网络第一个池化层和第二个池化层之后分支出两个阶段，使用空洞卷积来替代普通卷积，并且不断增大空洞卷积的空洞因子，使得该阶段获得的感受野比不同阶段的感受野更大，增加不同阶段之间感受野的差距，每一个阶段在经过两个卷积操作之后均使用最大池化对特征图进行操作，其中第一个阶段使用的空洞卷积的空洞因子为2、3、4逐步增大，第二个阶段使用的空洞卷积的空洞因子为2、3，由此在两个阶段的最后一个卷积输出不同尺度的人群特征；

（4）高层语义引导的权重分配模块。

为了突出远距离小目标的细微细节，在步骤（3）的主干网络与不同阶段之间使用一种逐点通道权重分配模块进行关联，其中每个空间位置的通道特征上下文分别聚合，逐点通道权重模块以自下而上的方式传播上下文信息，用以丰富高层特征和底层特征的空间细节，高层语义引导的语义权重

为：

，

其中PConv表示逐点卷积，PConv1和PConv2的核大小分别为

和

，

为ReLU激活函数，

为Sigmoid函数，

具有与底层特征Y相同的形状，能以元素方式突出小目标，调制的底层语义特征

为：

，其中x为高层语义特征，Y是底层特征，通过将权重和底层特征进行矩阵运算，得到权重重分配后的底层语义特征

，最终将高层语义引导的权重分配模块应用于不同的阶段之间，用于增强不同尺度特征之间的上下文关联，增强高层语义对于底层特征的语义引导；

（5）多阶段特征融合。

将步骤（3）提取的VGG16底层特征和步骤（4）得到的两个阶段的特征共三个阶段的特征使用Concat操作合并在一起，最后使用采用1×1的卷积运算将Channel维度降为1，得到预测的人群密度图；

（6）训练网络结构，得到训练好的模型参数。

使用步骤（1）Shanghai Tech 数据集PartA增广裁剪后的训练集图像，图片尺寸为512

512

3，按照批次尺寸（B），依次输入到步骤（2）-步骤（5）构建的网络结构中，整个主干网络的输入

，输出密度图的分类置信度

，通过计算人工标注密度图和预测密度图之间的距离来进行有监督的训练，网络的损失函数定义为：

，

其中

是在完全卷积神经网络中学习的参数，

表示训练集中的第

个训练图像，N是训练集中的图像数，用

和

分别表示标记的人群密度图和预测的人群密度图；

将标注密度图和预测的人群密度图之间的欧几里德距离来计算损失；经过设定次数（200次）完整训练集训练迭代后，保存验证集上结果最好的模型参数，作为最终模型训练好的参数，即得到训练好的人群密度估计网络参数；

（7）测试网络。

在测试过程中，使用步骤（2）-步骤（5）构建的网络结构加载步骤（6）训练好的人群密度估计网络参数，使用Shanghai Tech 数据集PartA中测试集合数据，保持图片尺寸不变，作为人群密度估计网络的输入，即可输出人群图对应的密度图，然后对密度图进行积分就是该图的人的数量，从而完成基于高层语义引导的多阶段高效人群密度估计方法的训练和测试，实现了对人群密度的估计和人群计数。

与现有技术相比，本发明的有益效果是：

（1）通过主干网络提取底层卷积特征，然后在不同的池化层后添加不同阶段的空洞卷积分支，其中不同阶段的分支使用来自主干网络的底层特征，采用多阶段的特征提取结构，减少了对训练微调的依赖程度，减少了特征重复提取的计算消耗，减少了网络的冗余度和计算量；

（2）在不同阶段使用不同空洞因子的空洞卷积替换普通卷积，在不增加计算量的基础上，提升了不同阶段特征的尺度差异，有益于不同尺度人群的密度估计；

（3）提出的注意力模块与自上而下的调制方式相反，这种调制方式以自下而上的方式传播上下文信息，以丰富高层特征和底层特征的空间细节，增加了高层语义信息对于底层语义信息的指导，提高了小目标的感知能力。本发明不仅可以用来进行智能监控场景的人群密度的估计，还可以用于智能交通场景道路上密集车辆的密度估计、车辆计数等各项密集场景计数任务。使用我们提出的基于高层语义引导的多阶段高效人群密度估计方法，在Shanghai Tech数据集PartA中，实现了MAE指标为65.1和MSE指标为104.9的高精度人群密度估计，同时减少了大量计算。

附图说明

图1为本发明提供的人群密度估计的结构框架示意图，其中（a）是高层语义引导的权重分配模块，图（b）为整个网络结构图。

图2为本发明提供的基于高层语义引导的多阶段高效人群密度估计方法的流程框图。

图3为本发明实施例在Shanghai Tech数据集PartA上某一原图的真实密度图（a）及预测密度图（b）。

图4为本发明实施例在Shanghai Tech数据集PartA上另一原图的真实密度图（a）及预测密度图（b）。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

实施例

本实施例所述基于高层语义引导的多阶段高效人群密度估计方法，使用VGG16卷积神经网络作为主干网络用于底层特征的提取，并在第一个池化层和第二个池化层之后分支出两个阶段，用于不同尺度的特征提取，其中在不同阶段使用空洞卷积来替代普通卷积，并不断增大空洞卷积的空洞因子，增大同一阶段内的感受野的差异，提升对不同尺度人群的感知能力；在不同的阶段之间使用一种逐点通道注意调制模块进行关联，其中每个空间位置的通道特征上下文分别聚合；最后使用1×1卷积将不同阶段的特征聚合起来回归人群密度图，并通过对人群密度图积分实现人群计数，如图1和图2所示，具体包括如下步骤：

（1）数据集预处理，生成密度图。

使用Shanghai Tech 数据集PartA作为训练和测试数据集，先通过经典的对称性增强方法对训练数据集进行增强，然后将训练集中的每张图片切成9块，每张图片的大小是原图的1/4，间隔是图片的1/6，每张训练集中的原图增强到18张，训练数据集为5400张图像，测试集为182张，数量保持不变。在进行训练的时候需要成对的人群图像块及其对应的真实密度图，数据集是以点注释的形式给出在每个人的头部中心，因此需要头部注释的坐标值到密度图的转换，假设在图像中的坐标处有个目标注释，则该点可以表示为

函数

，因此，对于具有

个目标点的图像，密度方程卷积

表示为：

，

高斯滤波器

可以与密度方程卷积得到密度方程，将离散的密度方程转化为连续的，以此得到标记的人群密度图，用于后续网络训练，公式如下所示：

；

（2）底层特征提取。

首先构建人群密度估计网络结构的主干网络，将步骤（1）生成的训练数据集图片输入到VGG16卷积神经网络中作为主干网络用于特征的提取，从VGG16卷积神经网络切割前13层，其中包含10层卷积层和3层池化层，它们的连接顺序如图1所示，三层池化层分别连接在第二层卷积之后、第四层卷积之后和第七层卷积之后，并在最后的卷积层输出底层特征；

（3）多阶段特征提取。

（4）高层语义引导的权重分配模块。

为了突出远距离小目标的细微细节，在步骤（3）的主干网络与不同阶段之间使用一种逐点通道权重分配模块进行关联，其中每个空间位置的通道特征上下文分别聚合，逐点通道权重模块以自下而上的方式传播上下文信息，用以丰富高层特征和底层特征的空间细节，其网络结构如图1（a）所示，高层语义引导的语义权重

为：

，

其中PConv表示逐点卷积，PConv1和PConv2的核大小分别为

和

，

为ReLU激活函数，

为Sigmoid函数，

为：

，最终将高层语义引导的权重分配模块应用于不同的阶段之间，用于增强不同尺度特征之间的上下文关联，增强高层语义对于底层特征的语义引导；；

（5）多阶段特征融合。

（6）训练网络结构，得到训练好的模型参数。

512

，输出密度图的分类置信度

，通过计算人工标注密度图和预测密度图之间的距离来进行有监督的训练，网络的损失函数定义如下：

，

其中

是在完全卷积神经网络中学习的参数，

表示训练集中的第

个训练图像，N是训练集中的图像数，用

和

分别表示标记的人群密度图和预测的人群密度图，

7）测试网络。

在测试过程中，使用步骤（2）-步骤（5）构建的网络结构加载步骤（6）训练好的网络参数，使用Shanghai Tech 数据集PartA中测试集合数据，保持图片尺寸不变，作为人群密度估计网络的输入，即可输出人群图对应的密度图，然后对密度图进行积分就是该图的人的数量，从而完成基于高层语义引导的多阶段高效人群密度估计方法的训练和测试，实现了对人群密度的估计和人群计数。

本实施例采用上述方法得到的预测密度图跟在Shanghai Tech数据集PartA上真实密度图对比不同场景的结果如图3和图4所示，从密度图结果上采用的方法能够很好的预测不同尺度人群的密度图，并且在不同场景中具有良好的泛化性和鲁棒性，本实施例在不同的池化层后添加不同阶段的空洞卷积分支，其中不同阶段的分支使用来自主干网络的底层特征，减少了特征重复提取的计算消耗，提升了多尺度特征提取的效率，能够高效的统计人群的密度和数量。

需要注意的是，本实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于高层语义引导的多阶段高效人群密度估计方法，其特征在于，包括如下步骤：

(1)数据集预处理，生成密度图：

使用Shanghai Tech数据集PartA作为训练和测试数据集，并对训练数据集进行处理和训练；

(2)底层特征提取：

首先构建人群密度估计网络结构的主干网络，将步骤(1)生成的训练数据集图片输入到VGG16卷积神经网络中作为主干网络用于特征的提取，从VGG16卷积神经网络切割前13层，其中包含10层卷积层和3层池化层，三层池化层分别连接在第二层卷积之后、第四层卷积之后和第七层卷积之后，并在最后的卷积层输出底层特征；

(3)多阶段特征提取：

在主干网络第一个池化层和第二个池化层之后分支出两个阶段，使用空洞卷积来替代普通卷积，并且不断增大空洞卷积的空洞因子，使得该阶段获得的感受野比不同阶段的感受野更大，增加不同阶段之间感受野的差距，每一个阶段在经过两个卷积操作之后均使用最大池化对特征图进行操作，由此在两个阶段的最后一个卷积输出不同尺度的人群特征；

(4)高层语义引导的权重分配模块：

为了突出远距离小目标的细微细节，在步骤(3)的主干网络与不同阶段之间使用逐点通道权重分配模块进行关联，其中每个空间位置的通道特征上下文分别聚合，逐点通道权重模块以自下而上的方式传播上下文信息，用以丰富高层特征和底层特征的空间细节，通过将权重L(x)和底层特征Y进行矩阵运算，得到权重重分配后的底层语义特征Y′，最终将高层语义引导的权重分配模块应用于不同的阶段之间，用于增强不同尺度特征之间的上下文关联，增强高层语义对于底层特征的语义引导；

(5)多阶段特征融合：

将步骤(3)提取的VGG16底层特征和步骤(4)得到的两个阶段的特征共三个阶段的特征使用Concat操作合并在一起，最后使用采用1×1的卷积运算将Channel维度降为1，得到预测的人群密度图；

(6)训练网络结构，得到训练好的模型参数：

使用步骤(1)Shanghai Tech数据集PartA增广裁剪后的训练集图像，图片尺寸为512×512×3，按照批次尺寸B，依次输入到步骤(2)-步骤(5)构建的网络结构中，整个主干网络的输入I∈R^{B×3×512×512}，输出密度图的分类置信度O∈R^B×1×64×64，通过计算人工标注密度图和预测密度图之间的距离来进行有监督的训练，经过设定次数完整训练集训练迭代后，保存验证集上结果最好的模型参数，作为最终模型训练好的参数，即得到训练好的人群密度估计网络参数；

(7)测试网络：

在测试过程中，使用步骤(2)-步骤(5)构建的网络结构加载步骤(6)训练好的人群密度估计网络参数，使用Shanghai Tech数据集PartA中测试集合数据，保持图片尺寸不变，作为人群密度估计网络的输入，即可输出人群图对应的密度图，然后对密度图进行积分就是该图的人的数量，从而完成基于高层语义引导的多阶段高效人群密度估计方法的训练和测试，实现了对人群密度的估计和人群计数。

2.根据权利要求1所述基于高层语义引导的多阶段高效人群密度估计方法，其特征在于，对训练数据集进行处理和训练的具体过程为：先通过经典的对称性增强方法对训练数据集进行增强，然后将训练集中的每张图片切成9块，每张图片的大小是原图的1/4，间隔是图片的1/6，每张训练集中的原图增强到18张，训练数据集为5400张图像，测试集为182张，测试集数量保持不变；在训练的时候需要成对的人群图象块及其对应的真实密度图，数据集以点注释的形式给出在每个人的头部中心，需要头部注释的坐标值到密度图的转换，假设在图像中的坐标处有个目标注释，则该点可以表示为δ函数δ(x-x_i)，因此，对于具有N个目标点的图像，密度方程卷积H(x)表示为：

高斯滤波器G_σ(x)可以与密度方程卷积得到密度方程，将离散的密度方程转化为连续的，以此得到标记的人群密度图，用于后续网络训练，公式为：F(x)＝H(x)*G_σ(x)。

3.根据权利要求1所述基于高层语义引导的多阶段高效人群密度估计方法，其特征在于，步骤(3)中第一个阶段使用的空洞卷积的空洞因子为2、3、4逐步增大，第二个阶段使用的空洞卷积的空洞因子为2、3。

4.根据权利要求1所述基于高层语义引导的多阶段高效人群密度估计方法，其特征在于，所述权重L(x)∈R^C×H×W为高层语义引导的语义权重，具体为：

L(x)＝σ(PConv2(δ(PConv1(x))))，

其中PConv表示逐点卷积，PConv1和PConv2的核大小分别为

和

δ为ReLU激活函数，σ为Sigmoid函数，L(x)具有与底层特征Y相同的形状，能以元素方式突出小目标，调制的底层语义特征Y′为：

其中x为高层语义特征。

5.根据权利要求2所述基于高层语义引导的多阶段高效人群密度估计方法，其特征在于，步骤(6)中训练过程产生的网络损失函数定义为：

其中θ是在完全卷积神经网络中学习的参数，I_i表示训练集中的第i个训练图像，N是训练集中的图像数，用D_i和E_i分别表示标记的人群密度图和预测的人群密度图；L(θ)将标注密度图和预测的人群密度图之间的欧几里德距离来计算损失。