CN115937758A

CN115937758A - 一种基于多尺度动态图卷积的弱监督人群计数方法

Info

Publication number: CN115937758A
Application number: CN202210859858.8A
Authority: CN
Inventors: 张勇; 苗壮壮; 孙艳丰; 胡永利; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2023-04-07

Abstract

一种基于多尺度动态图卷积网络的弱监督人群计数方法属于人群计数在公共安全、城市规划和交通调度等领域。由于交通场景的复杂性和多样性，对大量人群进行点级标注非常困难，而且需要大量人力。弱监督人群计数更适合这些场景，因为它们只需要计数级别的注释。现有的弱监督人群计数忽略了交叉距离人群密度分布的不均匀性和多尺度人群头部，无法获得与全监督人群计数方法相似的准确计数结果。本发明提出了一种多级区域动态图卷积模块来提取不同人群区域之间的内在关系，从而学习动态区域得分，进而优化区域特征表示，还设计了一个粗粒度的多级特征融合模块来提取多尺度人群头部信息。本发明具有较高的回归精度的端到端人群计数能力。

Description

一种基于多尺度动态图卷积的弱监督人群计数方法

技术领域

本发明基于深度学习技术，研究了一种针对密集场景人群计数的弱监督方法。首先利用Transfomer网络提取密集人群中深层的特征表示；然后通过多尺度特征融合模块去解决弱监督人群计数任务中的人群尺度问题，并且利用特征增强模块去增大感受野和增强人群语义信息；最后利用多尺度动态图卷积网络优化区域人群特征，建立相似人群区域间的关联关系，并且使用此偏置在区域之间互相监督。本发明属于计算机视觉领域，具体涉及深度学习，模式识别等技术。

背景技术

人群计数是人群分析领域的一个热门话题，用于估计图像中的人数。它在社会保障、异常情况预警和交通管制方面发挥着至关重要的作用。随着人口的增长和城市化的趋势，地铁站、公交车站、机场、旅游景点、码头等交通场景越来越多，同时，严重的人群聚集可能导致拥堵和踩踏事故。

根据标签的内容，现有主流人群统计方法可分为两类：强监督人群计数和弱监督人群计数。其中，完全监督的方法需要点级标注(图像中对象框或头部的标注)和计数级标注(图像中人群的数量)。此外，现有的完全监督人群计数方法可分为目标检测、密度估计、点监督和框回归方法。近年来，随着深度学习的快速发展，基于密度估计的方法取得了最新的成果。这些方法可以对图像的预测密度图进行回归，以反映图像的密度变化。然而，这些方法需要精确的点级注释来生成密度地图标签，这在复杂的交通场景中非常困难。此外，通过对密度图进行积分得到最终计数结果。但是这些方法无法实现端到端的人群计数。

交通场景的复杂性和多样性使得很难准确定位物体的坐标。弱监督方法可以解决这个问题，并且只需要计数级注释即可实现回归计数。然而，对于弱监督人群计数，由于缺乏点级注释，很难获得与完全监督方法一样精确的计数结果。应该从图像本身中找到更多有用的信息。人群图像包含区域尺度和目标尺度的变化。考虑到多尺度区域信息和相似图像区域之间的内部关系，可以建立不同区域之间的交叉距离关系。通过学习基于多层次特征图的区域动态计数分数，建立了计数分数相似的不同区域之间的关系，以优化区域的特征。这在一定程度上克服了没有点级注释的问题。此外，提出了一个粗粒度的多层次特征融合模块来解决多规模人群头部的问题。

发明内容

弱监督的人群计数任务可以看作是一个离散值回归问题。该任务的目标是回归图像中的人群数，可以用以下公式表示：

Count＝F(IM)

其中F表示的方法，IM表示图像，Count是预测的人群数。该方法主要考虑了两个问题：跨距离人群密度的不均匀分布和多尺度人群头部的不均匀分布。由于缺乏点级标注，弱监督的人群计数不知道人群的确切位置，也不能学习复杂场景中的密度变化信息。发现区域尺度信息可以反映一定的密度信息。而区域尺度的信息与图像中的位置并不相关。如附图1所示，非相邻区域的密度可能很接近。特别是，在其他图像区域之间存在着许多内部连接。为了更好地利用人群区域之间的内部关系与区域尺度信息之间的内部关系，设计了一个多层区域动态图卷积模块来实现相似区域之间的相关性。这个模块可以建立跨距离的关系。此外，目前弱监督人群计数方法中的多层次特征融合模块通常只关注细粒度的特征信息，而忽略了弱监督人群计数的特点。基于上述思想，提出了一种新的弱监督方法来实现端到端人群计数。模型的整体结构如附图2所示，：

Swin-Transformer特征提取网络；粗粒度的多尺度特征融合模块；特征增强模块；多尺度动态图卷积回归模块；

(1)Swin-Transformer特征提取网络

Transformer独特的长短距离注意力机制是解决缺乏点级注释的一个很好的解决方案，并对图像中的人群区域有积极的关注。它有效地解决了卷积神经网络接受域有限的问题。这意味着Transformer比卷积神经网络更适合用于弱监督人群计数任务的骨干网络。此外，由于Swin-Transformer的窗口注意机制是在图像斑块中处理的，它在一定程度上缓解了人群分布不均匀的问题。所以选择Swin-Transformer作为特征提取网络。

(2)粗粒度的多尺度特征融合模块

现有的弱监督人群计数方法通常使用来自一般上游任务的多级特征融合模块。这些上游任务通常对对象有精确的坐标注释，但弱监督的人群计数没有这样的标签。与完全监督的方法不同，弱监督的人群计数可以从没有点级注释的图像中回归一个数字。但是，由于缺少点级注释，不能知道每个对象的确切位置，无法监督细粒度的高分辨率多层次人群特征。因此，粗粒度特征更适合用于弱监督的人群计数。因此，设计了一个粗粒度的多层次特征融合模块来解决弱监督人群计数任务中的对象尺度问题。然而，不适当的特征分辨率会导致严重的人群头部分割问题。因此，进行了广泛的消融实验来确定融合特征的大小。此外，高级特征具有足够的特征表示来瞄准图像中的一个区域。低级特征具有丰富的详细信息，但缺乏语义信息。构建了一个金字塔结构来融合高层特征和低级特征。

(3)特征增强模块

为了增强特征图中的人群语义信息，在粗粒度的多层次特征融合模块之后添加了该模块。特征增强模块由一个多层扩展卷积模块和一个多层全局池化模块组成。其中，多层扩展卷积模块的灵感是基于CCTrans开发的。该模块可以构建多层次的感受野，增强感受野，检测密度变化。扩张卷积是计算机视觉中常用的方法之一，它可以在不引入额外参数的情况下扩展接受域，同时捕获上下文信息。多层次全局池模块使用不同尺度下的全局池操作来提取群体区域特征。由于图像包含不同尺度的区域，一个单个分辨率的特征图不能满足所有的场景。因此，认为能够在不同区域尺度上的计数会更有益。

(4)多尺度动态图卷积回归模块

发现，在不同的人群区域之间存在着很强的内在关系。具体来说，在相似规模的区域之间的人群特征应该是相似的。可以使用这个偏移量在区域之间相互监督，以提高计数精度。从以上角度出发，提出了多层区域动态图卷积回归模块来利用内部关系信息。在这个模块中，设计了一个多多层动态图卷积模块来建立不同区域之间的关系。它可以通过自我的区域特征来学习图像区域的分数。使用该区域得分来建立得分相似的区域之间的关联，并使用图卷积网络来优化人群区域的特征。此外，还设计了一个简单的线性回归磁头来回归最终结果。

图结构的构造是GCN的基础，弱监督人群计数没有先验信息来构造图。利用内部关系来构造人群区域图。对于区域特征图，想学习图像区域在整个图像中的计数百分比。首先通过Con2d(3×3)将特征简化为低维空间，得到图像中每个区域的低维特征图表示。然后，由于Sigmoid能够将一个连续的值转换为一个在0到1之间的值(这可以看作是概率)，所以它被用来将低维特征映射到非线性分数水平。最后，该模块可以通过Softmax得到一个分数地图。使用得分图来计算相对距离，并利用KNN来获得每个区域的其他类似的人群区域。此外，由于GCN没有批处理参数，所以的特征提取网络也有这样的参数。因此，将所有的批图放在一个稀疏图上，解决了无批的图卷积问题。值得注意的是，设计了两层叠加图卷积来优化区域特征。最后，在多层区域动态图卷积模块之后加入一个简单的线性回归头，通过叠加线性层对每个图像区域的计数结果进行回归。通过将所有图像区域的计数相加，得到该图像的计数结果。

本发明与现有技术相比，具有以下明显的优势和有益效果：

1)提出了一种用于弱监督人群计数的多尺度动态图卷积框架MDGCC，它具有具有较高的回归精度的端到端人群计数能力。2)为了解决跨距离人群密度分布不均匀的问题，提出了一个多层次的区域动态图卷积模块。利用多层次人群区域之间的内部关系构建了人群区域图，然后利用图卷积网络对跨距离人群区域的特征进行了优化。需要指出的是是首次利用图卷积网络来解决弱监督人群计数问题。3)弱监督人群计数由于缺少点级注释，不能知道每个对象的确切位置，无法监督细粒度的高分辨率多层次人群特征，粗粒度特征更适合用于弱监督的人群计数。因此，针对多尺度人群头部问题，提出了一种将全局池化和上采样操作相结合的粗粒度多级特征融合模块，并且能够提取区域级别的人群语义信息。

附图说明

图1弱监督的人群图，下图表示的是区域尺度的变化，上图表示的是单个目标尺度的变化。

图2是模型的整体结构。

根据上述描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。

步骤1：数据预处理

首先使用四个经典的人群计数数据库来构建输入样本点：a)将图像的大小调整为1152×768或768×1152；b)然后将每张图像分割为6张384×384的图像块；c)对数据集采用随机数据增强(随机水平翻转和灰度尺度变换)。

步骤2：模型训练

步骤2.1模型参数设定

对于特征提取主干网络，采用Swin-L模型，并利用ImageNet-22K的预训练参数作为初始参数来加快模型的收敛速度。训练批处理参数的大小为30。学习率最初设置为 10^-5，在100个批次后衰减到10^-6。训练总批次设置为200。

在模型的评估阶段，使用MSE和MAE作为度量标准，计算公式如下：

其中，N为图像数，P_i和G_i分别表示预测值和真实值。平均绝对误差(MAE)是目标值与预测值之间的差值的绝对值之和。它只测量预测值误差的平均值。均方误差(MSE)是最常用的回归损失函数。它是通过计算预测值与目标值之间的距离的平方来计算的。

步骤2.2Swin-Transformer主干网络特征提取

对于一张图像X∈R^384*384*3(在这里说明，第一维度和第二维度表示特征图的长和宽，第三维度代表特征图的通道数)，要想输入到Swin-Transformer主干网络，首先需要将二维图像信息转换为符合主干网络输入的一维序列信息。因此，特征提取主干网络中包括图像块分区和图像块合并的操作，能够解决输入的问题。值得注意的是，此特征提取主干网络包含四个阶段，每个阶段都降低了输入特征图的分辨率，并像卷积神经网络一样扩展了特征图的感受野。因此，此步骤能够提取四种不同尺度的图像特征图(X1∈R^96*96*192、X2∈R^48*48*384、X3∈R^24*24*768、X4∈R^12*12*1536)

步骤2.3多尺度特征融合

基于步骤2.2输出的多尺度图像特征图，为了解决人群图像中目标多尺度的问题，将融合主干网络输出的四种不同尺度的特征图。具体来说，融合X1、X2、X3、X4特征，使得最后输出的特征能够包含多尺度的信息。选择原图像的1/16(24*24)作为特征图输出的最佳分辨率。因此X3不需要改变大小，X1、X2使用全局平均池化操作将分辨率降低到24*24。然而X4则利用双线性上采样操作将分辨率调整为24*24。最后，针对X1、X2、X3、X4都使用利用卷积核为3*3的2D卷积在特征图上滑动来消除平均池化和上采样对特征图产生的消极效应并且统一特征图的通道数为384。最后，将多尺度的特征图相加融合为最终包含多尺度信息的特征表示Z∈R^24*24*384。

步骤2.4特征增强

特征增强包含多尺度空洞卷积模块和多尺度全局池化模块。多尺度空洞卷积模块包含四个通道，其中包含三个空洞卷积通道和一个额外的普通卷积通道，此模块通过不同空洞率的卷积能够提取大的感受野并且能够学习到图像中不同尺度的人群信息。具体来说，三个空洞卷积通道分别采用空洞率为1、空洞率为2、空洞率为3的空洞卷积层对步骤2.3输出的特征表示Z进行处理，输出三种具有不同大小感受野的特征图Z1∈ R^24*24*384，Z2∈R^24*24*384，Z3∈R^24*24*384。额外的普通卷积通道对特征图进行普通卷积输出为Z4∈R^24*24*1152。最后首先将Z1、Z2、Z3在特征维度进行拼接，增加特征图中每个像素点的信息输出为Z123∈R^24*24*1152，最后将此特征图与Z4进行像素级别的相加输出为M∈R^24*24*1152。多级全局池化模块由三个通道组成：池化大小为12×12，池化大小为 6×6，池化大小为3×3。用不同尺度的池化层去提取多尺度的区域计数特征以解决单一尺度区域可能会出现人群分割的消极问题。在每个池化层后，都有一个卷积核为3*3的 2D卷积在特征图上滑动来消除平均池化对特征图产生的消极效应并且统一特征图的通道数为64。需要指出的是，每个卷积层之后都有一个批处理归一化BN层和一个ReLU激活函数。最后步骤2.4的输出为不同尺度的区域特征M1∈R^12*12*64、M2∈R^6*6*64、M3 ∈R^3*3*64。

步骤2.5基于多尺度区域动态图卷积的计数回归

针对多尺度的区域特征表示，首先利用卷积核大小为1*1的2D卷积减低特征表示到低维空间，此时得到了人群区域的地维特征图表示。然后，由于Sigmoid能够将一个连续的值转换为一个在0到1之间的值，所以它被用来将低维特征映射到非线性分数水平。通过Softmax得到一个每个区域的计数分数。使用区域计数分数来计算相对距离，并利用KNN来获得每个区域的相似的人群区域。具体来说，首先利用1D卷积对步骤 2.4的输出进行特征降维为M11∈R^12*12*1、M22∈R^6*6*1、M33∈R^3*3*1。然后再通过sigmoid 激活函数和Softmax层得到每个区域的计数分数M11_f∈R¹⁴⁴、M22_f∈R³⁶、M33_f∈R⁹。利用每个区域计数分数相减能够计算区域间的相对距离，相对距离越近特征越相似。其中，M11、M22、M33分别取每个区域相对距离最近的12、6、3个区域作为最近邻相似人群区域。因此，能够根据相对距离得到每个区域特征最近邻相似的人群区域，利用邻接矩阵的形式来表达这种区域间特征相似的关系。将步骤2.4输出的多尺度区域特征和邻接矩阵输入到叠加的两层图卷积网络中(需要注意的是，两层图卷积传播的过程中节点特征维度变化为：64→64→64)。最后，将图卷积网络输出的特征Q1∈R^12*12*64、 Q2∈R^6*6*64、Q3∈R^3*3*64输入到叠加的MLP层中，对图像中每个区域的计数结果进行回归获得Q11∈R^12*12、Q22∈R^6*6、Q33∈R^3*3。将所有区域的计数相加，并对不同尺度的计数结果取平均，得到该图像最终的计数结果P＝(Q11+Q22+Q33)/3。

Claims

1.基于多尺度动态图卷积的弱监督人群计数方法，其特征在于，包括以下步骤：

步骤1：数据预处理

首先使用四个经典的人群计数数据库来构建输入样本点：a)将图像的大小调整为1152×768或768×1152；b)然后将每张图像分割为6张384×384的图像块；c)对数据集采用随机数据增强；

步骤2：模型训练

步骤2.1模型参数设定

对于特征提取主干网络，采用Swin-L模型，并利用ImageNet-22K的预训练参数作为初始参数来加快模型的收敛速度；训练批处理参数的大小为30；学习率最初设置为10^-5，在100个批次后衰减到10^-6；训练总批次设置为200；

其中，N为图像数，P_i和G_i分别表示预测值和真实值；平均绝对误差MAE是目标值与预测值之间的差值的绝对值之和；它只测量预测值误差的平均值；均方误差MSE是最常用的回归损失函数；它是通过计算预测值与目标值之间的距离的平方来计算的；

步骤2.2Swin-Transformer主干网络特征提取

对于一张图像X∈R^384*384*3，第一维度和第二维度表示特征图的长和宽，第三维度代表特征图的通道数；要想输入到Swin-Transformer主干网络，首先需要将二维图像信息转换为符合主干网络输入的一维序列信息；因此，特征提取主干网络中包括图像块分区和图像块合并的操作，能够解决输入的问题；值得注意的是，此特征提取主干网络包含四个阶段，每个阶段都降低了输入特征图的分辨率，并像卷积神经网络一样扩展了特征图的感受野；因此，此步骤能够提取四种不同尺度的图像特征图即X1∈R^96*96*192、X2∈R^48*48*384、X3∈R²⁴ ^*24*768、X4∈R^12*12*1536；

步骤2.3多尺度特征融合

基于步骤2.2输出的多尺度图像特征图，将融合主干网络输出的四种不同尺度的特征图；具体来说，融合X1、X2、X3、X4特征，使得最后输出的特征能够包含多尺度的信息；选择原图像的1/16即24*24作为特征图输出的最佳分辨率；因此X3不需要改变大小，X1、X2使用全局平均池化操作将分辨率降低到24*24；然而X4则利用双线性上采样操作将分辨率调整为24*24；最后，针对X1、X2、X3、X4都使用利用卷积核为3*3的2D卷积在特征图上滑动来消除平均池化和上采样对特征图产生的消极效应并且统一特征图的通道数为384；最后，将多尺度的特征图相加融合为最终包含多尺度信息的特征表示Z∈R^24*24*384；

步骤2.4特征增强

特征增强包含多尺度空洞卷积模块和多尺度全局池化模块；多尺度空洞卷积模块包含四个通道，其中包含三个空洞卷积通道和一个额外的普通卷积通道，此模块通过不同空洞率的卷积能够提取大的感受野并且能够学习到图像中不同尺度的人群信息；具体来说，三个空洞卷积通道分别采用空洞率为1、空洞率为2、空洞率为3的空洞卷积层对步骤2.3输出的特征表示Z进行处理，输出三种具有不同大小感受野的特征图Z1∈R^24*24*384，Z2∈R²⁴ ^*24*384，Z3∈R^24*24*384；额外的普通卷积通道对特征图进行普通卷积输出为Z4∈R^24*24*1152；最后首先将Z1、Z2、Z3在特征维度进行拼接，增加特征图中每个像素点的信息输出为Z123∈R^24*24*1152，最后将此特征图与Z4进行像素级别的相加输出为M∈R^24*24*1152；多级全局池化模块由三个通道组成：池化大小为12×12，池化大小为6×6，池化大小为3×3；用不同尺度的池化层去提取多尺度的区域计数特征以解决单一尺度区域可能会出现人群分割的消极问题；在每个池化层后，都有一个卷积核为3*3的2D卷积在特征图上滑动来消除平均池化对特征图产生的消极效应并且统一特征图的通道数为64；需要指出的是，每个卷积层之后都有一个批处理归一化BN层和一个ReLU激活函数；最后步骤2.4的输出为不同尺度的区域特征M1∈R^12*12*64、M2∈R^6*6*64、M3∈R^3*3*64；

步骤2.5基于多尺度区域动态图卷积的计数回归

针对多尺度的区域特征表示，首先利用卷积核大小为1*1的2D卷积减低特征表示到低维空间，此时得到了人群区域的地维特征图表示；用Sigmoid来将低维特征映射到非线性分数水平；通过Softmax得到一个每个区域的计数分数；使用区域计数分数来计算相对距离，并利用KNN来获得每个区域的相似的人群区域；具体来说，首先利用1D卷积对步骤2.4的输出进行特征降维为M11∈R^12*12*1、M22∈R^6*6*1、M33∈R^3*3*1；然后再通过sigmoid激活函数和Softmax层得到每个区域的计数分数M11_f∈R¹⁴⁴、M22_f∈R³⁶、M33_f∈R⁹；利用每个区域计数分数相减能够计算区域间的相对距离，相对距离越近特征越相似；其中，M11、M22、M33分别取每个区域相对距离最近的12、6、3个区域作为最近邻相似人群区域；因此，能够根据相对距离得到每个区域特征最近邻相似的人群区域，利用邻接矩阵的形式来表达这种区域间特征相似的关系；将步骤2.4输出的多尺度区域特征和邻接矩阵输入到叠加的两层图卷积网络中；最后，将图卷积网络输出的特征Q1∈R^12*12*64、Q2∈R^6*6*64、Q3∈R^3*3*64输入到叠加的MLP层中，对图像中每个区域的计数结果进行回归获得Q11∈R^12*12、Q22∈R^6*6、Q33∈R^3*3；将所有区域的计数相加，并对不同尺度的计数结果取平均，得到该图像最终的计数结果P＝(Q11+Q22+Q33)/3。