CN113361374B

CN113361374B - 一种人群密度估计方法及系统

Info

Publication number: CN113361374B
Application number: CN202110613051.1A
Authority: CN
Inventors: 孔维航; 刘嘉宇; 李贺
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2024-01-05
Anticipated expiration: 2041-06-02
Also published as: CN113361374A

Abstract

本发明涉及一种人群密度估计方法及系统。该方法包括：将原始人群场景的RGB图像输入主干网络进行初始特征提取，得到初始特征图；将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像；将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像；将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果。本发明在卷积神经网络中使用注意力聚合膨胀卷积的方法，可以有效降低尺度不均对人群密度估计结果的影响，提高准确率。本发明利用小波变换作为人群场景先验信息的提取方法，能够节省计算资源，使模型的训练和应用效率提高。

Description

一种人群密度估计方法及系统

技术领域

本发明涉及人群密度估计领域，特别是涉及一种人群密度估计方法及系统。

背景技术

随着世界人口的快速增长及其城市化，人群聚集变得越来越频繁。这就迫切需要了解人群场景，以保证公共安全，因此密集人群场景分析吸引了研究者越来越多的注意力。人群密度估计主流方法是对场景中的人群的密度图进行生成然后得到行人数目及其分布信息。

目前人群密度估计方法主要有三类：基于检测的方法、基于回归的方法和基于密度图的方法。基于检测的方法和基于回归的方法在一定程度上由于人群严重遮挡和多尺度等现象性能受到限制，同时忽略了图像上关键的空间信息。因此近些年人群密度估计任务大多采用基于密度图的方法。同基于检测和回归的方法相比，基于密度图的人群密度估计方法可以提供人群场景的关键空间分布信息，并且在一定程度上降低人群密度估计工作的难度。现有的人群密度估计方法大多采用基于密度图方式的深度神经网络模型，但这些已有的用于人群密度估计的深度神经网络模型在严重的尺度不均情况的影响下会有准确率下降的问题。同时，在针对人群密度不均问题时，现有方法通常利用卷积神经网络对人群先验信息提取进行来加强人群场景的特征，由于卷积神经网络分支较多，参数量较大，需要耗费大量资源进行计算，导致模型在训练和应用时的效率降低。

发明内容

本发明的目的是提供一种人群密度估计方法及系统，通过将注意力机制和膨胀卷积相结合，搭建出使用注意力聚合膨胀卷积方法的卷积神经网络来降低人群场景尺度不均问题的影响，提高准确率，同时，通过小波变换对人群场景图像的先验信息进行提取，降低计算资源的耗费。

为实现上述目的，本发明提供了如下方案：

一种人群密度估计方法包括：

将原始人群场景的RGB图像输入主干网络进行初始特征提取，得到初始特征图；

将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像；

将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像；

将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果。

可选地，所述主干网络包括十层卷积层和三层池化层。

可选地，所述将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像，具体包括：

将所述初始特征图输入到注意力聚合膨胀卷积模块中使用膨胀率不同的膨胀卷积层对图像进行卷积处理，得到尺度感知特征图像；

使用注意力聚合操作学习所述尺度感知图像在空间和信道方向上的权重，得到聚合特征图；

根据所述聚合特征图联结之后输入网络模型的头部模块进行计算，得到高级特征图像。

可选地，所述将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像，具体包括：

将原始人群场景的RGB图像输入小波变换模块；

使用低通滤波器对原始人群场景的RGB图像进行卷积操作，同时在图像的水平和垂直方向使用高通滤波器，得到图像的对角线子带，将对角线小波变换的结果作为初始先验信息图像；

将所述初始先验信息图像输入三层卷积网络中进行增强，得到最终先验信息图像。

可选地，所述将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果，具体包括：

将所述高级特征图像和所述先验信息图像进行融合，得到融合结果；

将所述融合结果输入到维度变换层，使用1×1×1的卷积核进行卷积操作，得到人群密度估计结果。

一种人群密度估计系统包括：

初始特征图确定模块，用于将原始人群场景的RGB图像输入主干网络进行初始特征提取，得到初始特征图；

高级特征图像确定模块，用于将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像；

先验信息图像确定模块，用于将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像；

人群密度估计结果确定模块，用于将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果。

可选地，所述主干网络包括十层卷积层和三层池化层。

可选地，所述高级特征图像确定模块具体包括：

尺度感知特征图像确定单元，用于将所述初始特征图输入到注意力聚合膨胀卷积模块中使用膨胀率不同的膨胀卷积层对图像进行卷积处理，得到尺度感知特征图像；

聚合特征图确定单元，用于使用注意力聚合操作学习所述尺度感知图像在空间和信道方向上的权重，得到聚合特征图；

高级特征图像确定单元，用于根据所述聚合特征图联结之后输入网络模型的头部模块进行计算，得到高级特征图像。

可选地，所述先验信息图像确定模块具体包括：

输入单元，用于将原始人群场景的RGB图像输入小波变换模块；

初始先验信息图像确定单元，用于使用低通滤波器对原始人群场景的RGB图像进行卷积操作，同时在图像的水平和垂直方向使用高通滤波器，得到图像的对角线子带，将对角线小波变换的结果作为初始先验信息图像；

最终先验信息图像确定单元，用于将所述初始先验信息图像输入三层卷积网络中进行增强，得到最终先验信息图像。

可选地，所述人群密度估计结果确定模块具体包括：

融合单元，用于将所述高级特征图像和所述先验信息图像进行融合，得到融合结果；

人群密度估计结果确定单元，用于将所述融合结果输入到维度变换层，使用1×1×1的卷积核进行卷积操作，得到人群密度估计结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

(1)通过将注意力机制和膨胀卷积相结合，在卷积神经网络中使用注意力聚合膨胀卷积的方法，可以有效降低尺度不均对人群密度估计结果的影响，提高准确率。

(2)利用小波变换作为人群场景先验信息的提取方法，节省了计算资源，使模型的训练和应用效率提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人群密度估计方法流程图；

图2是本发明整体网络结构示意图；

图3是采用本发明人群密度估计方法进行人群密度估计的示意图；

图4为本发明人群密度估计系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明人群密度估计方法流程图。如图1所示，一种人群密度估计方法包括：

步骤101：将原始人群场景的RGB图像输入主干网络进行初始特征提取，得到初始特征图。所述主干网络包括十层卷积层和三层池化层。所述主干网络具体结构为：卷积核大小都为3×3，通道数及池化层依次为：64，64，大小为2×2且stride＝2的最大池化层，128，128，大小为2×2且stride＝2的最大池化层，256，256，256，大小为2×2且stride＝2的最大池化层，512，512，512。图2是本发明整体网络结构示意图。

步骤102：将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像，具体包括：

步骤1021：将所述初始特征图输入到注意力聚合膨胀卷积模块中使用膨胀率不同的膨胀卷积层对图像进行卷积处理，得到尺度感知特征图像。

该注意力聚合膨胀卷积模块的通道数设为256。特征图输入之后，使用膨胀率不同的膨胀卷积层分别对图像进行卷积处理。共有四个膨胀卷积层分支，第一个分支有一个卷积层，卷积核大小为1×1，膨胀率为1；第二个分支有三层卷积层，卷积核大小依次为3×3，3×3，3×3，膨胀率依次为1，1，2，第三个分支有三层卷积层，卷积核大小分别为3×3，3×3，3×3，膨胀率依次为2，5，7；第四个分支有三层卷积层，卷积核大小依次为3×3，3×3，3×3，膨胀率分别为7，9，11，一共得到四组不同尺度感知图像。

步骤1022：使用注意力聚合操作学习所述尺度感知图像在空间和信道方向上的权重，得到聚合特征图。

其中信道注意力聚合计算方式为：

M_c(F)＝S(GloAvgPool(F)) (1)

其中M_c(F)为通道注意力聚合映射，S为sigmoid函数，GloAvgPool为全局平均池化，F为输入图像；

空间注意力聚合计算方式为：

M_s(F)＝S(Conv(F)) (2)

其中M_s(F)为空间注意力聚合映射，S为sigmoid函数，Conv为卷积核大小为1×1，通道数为输入图像通道数的卷积操作，F为输入图像。

对于具体的信道注意力聚合进行解释：

注意力聚合操作使用大小为1×1×256的卷积层和sigmoid激活函数对聚合特征图进行卷积和激活，其中sigmoid函数计算方式为：

S(x)＝1/(1+e^-x)

其中S(x)为激活函数的输出，x为特征图矩阵，e为自然对数的底数；

之后得到聚合特征图空间上的注意力权重ω_h,w，大小为W×H×C，其中W、H和C分别为尺度感知图像的宽、高和通道数。

对于具体的空间注意力聚合进行解释：

注意力聚合操作使用全局平均池化和sigmoid激活函数对中间图像进行池化和激活，得到聚合特征图通道上的注意力权重ω_c，大小为1×1×C，其中C为通道的数目。

信道注意力聚合和信道注意力聚合同时进行。

将得到的两项注意力权重和尺度感知图像进行矩阵对应元素相乘，得到尺度感知图像在三个维度的注意力聚合特征图像，然后将相乘的结果进行联结，得到注意力聚合卷积模块的聚合特征图输出。

步骤1023：根据所述聚合特征图联结之后输入网络模型的头部模块进行计算，得到高级特征图像。

网络模型头部的网络结构卷积核大小×通道数依次为：3×3×512，3×3×512，3×3×256，3×3×128，3×3×64，3×3×32。

步骤103：将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像，具体包括：

步骤1031：将原始人群场景的RGB图像输入小波变换模块；

步骤1032：使用低通滤波器对原始人群场景的RGB图像进行卷积操作，同时在图像的水平和垂直方向使用高通滤波器，得到图像的对角线子带，将对角线小波变换的结果作为初始先验信息图像；

步骤1033：将所述初始先验信息图像输入三层卷积网络中进行增强，得到最终先验信息图像。该步骤的目的是保证小波变换中提取的先验特征仅来自人群，排除不相干物体的干扰。

通过低通滤波器进行卷积操作，然后使用高通滤波器滤波分别获得了水平方向，垂直方向和对角线方向的小波变换图像，由于对角线方向的小波变换图像和真实密度图接近程度最高，所以选择对角线小波变换图像作为先验信息图像。该层卷积网络结构的卷积核大小×通道数依次为：1×1×32，3×3×32，1×1×32。

步骤104：将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果，具体包括：

步骤1041：将所述高级特征图像和所述先验信息图像进行融合，得到融合结果；

步骤1042：将所述融合结果输入到维度变换层，使用1×1×1的卷积核进行卷积操作，得到人群密度估计结果，人群密度估计结果包括人群密度估计图和人群计数结果。

图3是采用本发明人群密度估计方法进行人群密度估计的示意图。

图4为本发明人群密度估计系统结构图。如图4所示，一种人群密度估计系统包括：

初始特征图确定模块201，用于将原始人群场景的RGB图像输入主干网络进行初始特征提取，得到初始特征图；

高级特征图像确定模块202，用于将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像；

先验信息图像确定模块203，用于将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像；

人群密度估计结果确定模块204，用于将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果。

所述主干网络包括十层卷积层和三层池化层。

所述高级特征图像确定模块202具体包括：

所述先验信息图像确定模块203具体包括：

所述人群密度估计结果确定模块204具体包括：

实施例1：

步骤1：准备任意大小的原始RGB人群场景图像作为输入，由于本发明中全部为卷积层，所以可以接收任意尺寸的图像作为输入。

步骤2：建立网络模型，包括主干网络，注意力聚合膨胀卷积网络和小波变换模块。建立模型的过程如下：

1.1)主干网络由十层卷积层和三层池化层组成，具体结构为：卷积核大小都为3×3，通道数及池化层依次为：64，64，大小为2×2且stride＝2的最大池化层，128，128，大小为2×2且stride＝2的最大池化层，256，256，256，大小为2×2且stride＝2的最大池化层，512，512，512。

1.2)膨胀卷积网络结构为：第一个分支有一个卷积层，为卷积核大小为1×1，膨胀率为1的卷积层；第二个分支有三个卷积层，依次为卷积核大小为3×3，膨胀率为1的卷积层，卷积核大小为3×3，膨胀率为1的卷积层，卷积核大小为3×3，膨胀率为2的卷积层；第三个分支有三个卷积层，依次为卷积核大小为3×3，膨胀率为2的卷积层，卷积核大小为3×3，膨胀率为5的卷积层，卷积核大小为3×3，膨胀率为7的卷积层；第四个分支有三个卷积层，依次为卷积核大小为3×3，膨胀率为7的卷积层，卷积核大小为3×3，膨胀率为9的卷积层，卷积核大小为3×3，膨胀率为11的卷积层。

1.3)小波变换模块的结构依次为低通滤波器，高通滤波器，三层用于增强先验特征的卷积网络：1×1×32的卷积层，3×3×32的卷积层，1×1×32的卷积层。

步骤3：将准备好的图像同时输入主干网络和小波变换模块进行计算处理。

3.1)将RGB图像输入到主干网络中，获得初始特征图，然后经过四列的膨胀卷积网络，获得尺度感知图，然后经过注意力聚合模块获得聚合特征图，将聚合特征图联结后经过网络模型的头部进行计算获得高级特征图；

3.2)将RGB图像输入到小波变换模块，经过低通滤波器卷积和高通滤波得到初始先验特征图像，然后经过三层增强卷积网络，获得先验特征图像。

步骤4：将高级特征图和先验信息图像进行融合，通过1×1×1的卷积核对融合后的图像进行卷积操作，生成密度图并计算人数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人群密度估计方法，其特征在于，包括：

将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像，具体包括：

将所述初始特征图输入到注意力聚合膨胀卷积模块中使用膨胀率不同的膨胀卷积层对图像进行卷积处理，得到尺度感知特征图像；使用注意力聚合操作学习所述尺度感知图像在空间和信道方向上的权重，得到聚合特征图；根据所述聚合特征图联结之后输入网络模型的头部模块进行计算，得到高级特征图像；

2.根据权利要求1所述的人群密度估计方法，其特征在于，所述主干网络包括十层卷积层和三层池化层。

3.根据权利要求1所述的人群密度估计方法，其特征在于，所述将原始人群场景的RGB图像输入小波变换模块，得到先验信息图像，具体包括：

将原始人群场景的RGB图像输入小波变换模块；

4.根据权利要求1所述的人群密度估计方法，其特征在于，所述将所述高级特征图像和所述先验信息图像进行融合，得到人群密度估计结果，具体包括：

5.一种人群密度估计系统，其特征在于，包括：

高级特征图像确定模块，用于将所述初始特征图输入到注意力聚合膨胀卷积模块，得到高级特征图像，具体包括：

尺度感知特征图像确定单元，用于将所述初始特征图输入到注意力聚合膨胀卷积模块中使用膨胀率不同的膨胀卷积层对图像进行卷积处理，得到尺度感知特征图像；聚合特征图确定单元，用于使用注意力聚合操作学习所述尺度感知图像在空间和信道方向上的权重，得到聚合特征图；高级特征图像确定单元，用于根据所述聚合特征图联结之后输入网络模型的头部模块进行计算，得到高级特征图像；

6.根据权利要求5所述的人群密度估计系统，其特征在于，所述主干网络包括十层卷积层和三层池化层。

7.根据权利要求5所述的人群密度估计系统，其特征在于，所述先验信息图像确定模块具体包括：

8.根据权利要求5所述的人群密度估计系统，其特征在于，所述人群密度估计结果确定模块具体包括：