CN113536925B

CN113536925B - 一种基于引导注意力机制的人群计数方法

Info

Publication number: CN113536925B
Application number: CN202110659971.7A
Authority: CN
Inventors: 汤景凡; 姜明; 张旻; 周美佳
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2024-02-02
Anticipated expiration: 2041-06-15
Also published as: CN113536925A

Abstract

本发明公开了一种基于引导注意力机制的人群计数方法。本发明步骤如下：获取并预处理人群图像数据集；建立基于引导注意力机制的人群计数网络；将预处理之后的人群图像输入该人群计数网络进行特征提取；网络中的特征编码部分生成图像中人群目标的注意力特征图；网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征；将解码部分的特征转换为人群分布密度图，并与真实标注的密度图进行相似度计算，不断迭代更新人群计数网络；将测试图片输入优化后的人群计数网络，生成人群密度图并且进行人群计数。本发明能够有效解决人群计数任务中的背景干扰问题，以生成高质量的人群分布密度图并统计出高精度的人数。

Description

一种基于引导注意力机制的人群计数方法

技术领域

本发明涉及人群计数领域，具体涉及一种基于引导注意力机制的人群计数方法，属于计算机视觉的图像处理技术领域。

背景技术

由于各个国家的高速城镇化，拥有高度拥挤的人群场景越来越常见。人群计数在这一情况下能够在视频监控，智能治安管理领域中发挥十分重要的作用。现有的人群计数算法常常考虑目标尺度变化对计数任务产生的误差，而在实际的人群计数任务中，还存在严重的背景干扰问题。复杂的背景对于计数准确性的影响在于它会使网络错误地把一些背景区域识别为人群目标区域。一些人群图像中某些区域实际上是树木、建筑物等背景区域，而由于其特征与人群目标的特征具有一定的相似性，人群计数网络会错误地将这些物体都识别为人群目标，导致了最终的计数误差。为了降低复杂背景对人群计数任务的干扰，本发明设计了一个基于引导注意力机制的人群计数网络，通过注意力网络生成人群目标注意力掩膜，校准优化网络生成的初步特征图，从而减少背景对人群密度估计的影响。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于引导注意力机制的人群计数方法，以解决由于图像中出现的树木、建筑物等复杂背景干扰，而导致人群计数不准确的问题。

一种基于引导注意力机制的人群计数方法，包括以下步骤：

步骤(1)获取人群图像数据集并预处理；

步骤(2)建立基于引导注意力机制的人群计数网络；

步骤(3)将预处理之后的人群图像输入该人群计数网络进行特征提取；

步骤(4)人群计数网络中的特征编码部分生成图像中人群目标的注意力特征图；

步骤(5)人群计数网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征；

步骤(6)将解码部分的深层特征转换为人群分布密度图，并与真实标注的密度图进行相似度计算，不断迭代更新人群计数网络；

步骤(7)将测试图片输入优化后的人群计数网络，生成人群密度图并且进行人群计数。

本发明所具有的优点如下：

本发明构建的编码-解码结构，能够将特征编码的梯度信息输入特征解码，加快网络的学习过程。特征编码构建引导注意力结构，空间注意力对整张图像进行编码捕获空间依赖，通道注意力在训练过程中选择合适的通道使得整个模型更加关注图像中的人头区域，通过融合空间注意力与通道注意力的特征，网络将兴趣点固定在人群目标区域。特征解码在注意力特征图所表示的人群范围内进行高层语义信息的融合。在此基础上，特征解码引入Inception空洞卷积结构，能够扩大空洞卷积的优势，以更多的空洞模式获取更大的感受野。最终使得预测的人群分布密度图具有很高的准确度。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的网络模型结构图；

图3是引导注意力结构图；

图4是单通道下Inception空洞卷积的结构图；

具体实施方式

下面结合附图对本发明作进一步描述。

本发明的整体实施方案流程图参照图1，一种基于引导注意力机制的人群计数方法，包括以下步骤：

步骤(1)获取并预处理人群图像数据集；

步骤(2)建立基于引导注意力机制的人群计数网络；

步骤(4)网络中的特征编码部分生成图像中人群目标的注意力特征图；

步骤(5)网络中的特征解码部分根据注意力特征图提取人群范围内的深层特征；

步骤(6)将解码部分的特征转换为人群分布密度图，并与真实标注的密度图进行相似度计算，不断迭代更新人群计数网络；

所述的步骤(1)具体过程如下：

(1-1)从互联网上或者现实中获取一定量的人群图像训练数据集；

(1-2)对于收集到的人群图像进行二值化、归一化、数据增强的预处理，去除人群图像中的无关信息，使得预处理后的人群图像训练集P(p₁,p₂…p_n)能够被网络处理。

所述的步骤(2)具体过程如下：

(2-1)构建基于引导注意力机制的人群计数网络，确定网络层的深度和分支结构；

(2-2)该人群计数网络为一个编码-解码结构，特征编码部分在不同深度的网络层中构建引导注意力结构，使网络将兴趣点固定在人群目标区域；

(2-3)每层引导注意力结构并联空间注意力和通道注意力，空间注意力对整张人群图像进行编码捕获空间依赖，通道注意力在训练过程中选择最佳的通道使得整个网络模型更加关注图像中的人头区域；

(2-4)特征解码部分接收特征编码的数据信息，在注意力掩膜区域内进行高层语义信息的融合，同时设置Inception空洞卷积保证分辨率不降低。

所述的步骤(3)具体过程如下：

(3-1)将步骤(1-2)中经过预处理后的人群图像训练集P(p₁,p₂…p_n)，输入到人群计数网络中；

(3-2)输入的人群图像首先经过人群计数网络前端提取低层的基础特征x，一定程度上对图像降维，减少网络的计算量，从而作为网络后端的编码-解码部分的输入。

所述的步骤(4)具体过程如下：

(4-1)基于步骤(3-2)，将基础特征x输入到特征编码部分作进一步处理，特征编码部分以VGG-16的5-13层卷积层为基础，在三个深度的网络层中分别构建引导注意力结构；

(4-2)将基础特征x输入到引导注意力结构，该引导注意力结构并联空间注意力与通道注意力；

(4-3)通道注意力将输入的基础特征x直接进行变形，其中变形后的一个特征经过转置后与另一个变形矩阵进行点乘计算，将计算出的结果利用Softmax层转换为大小为C×C的通道注意力图c，将该过程用数学公式表示如下：

其中，c_ji表示通道注意力图c中第i通道对j通道的影响。xc₁表示的是输入的基础特征x在通道注意力中经过变形的特征，xc₂为输入的基础特征x经过变形转置后的特征。得到通道注意力图c后，将通道注意力图c与变形矩阵xc₃相乘，以将尺寸重塑为C×H×W。最后将结果与权重λ相乘，并与输入的基础特征x逐像素相加，得到最终的注意力特征图y₁，该过程可表示如下：

其中，λ是网络中从0开始的可学习参数，x^j表示输入的基础特征x在第j通道上的值，为注意力特征图y₁在第j通道上的值。最终输出的注意力特征图是通道注意力特征与原始特征加权求和的结果，通过求和运算可以使所有通道的特征图之间建立语义依赖，增强特征的可辨别能力；

(4-4)空间注意力将输入的基础特征x首先经过三个1×1的卷积，保留图像原有的平面结构。然后分别经过变换和转置获得三个重置后的特征图xs₁、xs₂和xs₃，将xs₁和xs₂进行点乘运算，得到的运算结果通过Softmax层生成大小为(H×W)×(H×W)的空间注意力图s，整个变换过程可以由以下公式表达：

其中，s_ji表示空间注意力图s中第i个区域对第j个区域的影响，任意两个区域的特征相似性越高，它们的关联性也就越强。

得到空间注意力图s之后，将s与xs₃进行矩阵相乘，将特征的尺寸重塑为C×H×W，之后将结果与原始输入的基础特征x加权求和，得到最终的空间注意力特征图y₂，整个过程的数学表达式如下：

其中，μ是可学习的权重参数，通过网络训练从0开始逐渐调整到最适合的权重值，x^j表示输入的基础特征x在第j区域上的值，为注意力特征图y₂在第j区域上的值；

(4-5)将步骤(4-3)和(4-5)的两个输出y₁和y₂通过一个连接操作融合在一起，进一步增强特征表示。假设z为引导注意力结构的最终输出，则输出的注意力特征图用以下公式表示：

z＝Concat(y₁,y₂) (5)

由于网络构建了三个引导注意力结构，所以三层引导注意力结构输出的人群注意力特征图Z可表示为如下集合Z(z₁,z₂,z₃)。

所述的步骤(5)具体过程如下：

(5-1)将步骤(4-5)的人群注意力特征图z_i与步骤(3-2)的基础特征x输入特征解码部分,在人群目标范围内对x进行高层特征的提取；

(5-2)以Inception空洞卷积为基础构建特征解码。假设y为Inception卷积的特征输出，则映射过程如下：

其中，d表示特征图的通道数，z_i(i＝1,2,3)为对应引导注意力的特征输出，g(*)为矩阵点乘运算，f(*)为卷积过程，rd和ld表示卷积核在行、列两个方向上的空洞率，可以通过rd和ld来设置Inception卷积在行、列两个维度上的膨胀效果。

所述的步骤(6)具体过程如下：

(6-1)将步骤(5-2)的输出特征y转换为网络预测的人群密度图，为了使密度图能够适应人群图像的各种条件，可以将其表示为N个头的F(x)。F(x)的计算方法是将增量函数δ(x-x_i)与归一化为1的高斯核进行卷积，过程如下：

其中，x_i代表每个行人人头所在的像素点。σ_i是数据集中所有图像的人群分布。β是一个常数，表示目标与其周围最近k个人头的平均距离。

(6-2)将网络预测的人群密度图与真实标注的人群密度图通过欧几里得损失函数L(σ)进行相似度计算，优化更新网络参数：

其中σ是网络中的映射参数，p_i表示从第i张人群图像中的基础特征，n表示用于训练网络的图像样本数目，F_i表示人工标注的真实人群密度图，而F(x_i)表示网络预测的人群密度图；

(6-3)采用Adam优化器进行训练，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳；

(6-4)结束训练，得到最优的人群计数网络。

所述步骤(7)具体过程如下：

(7-1)将需要测试的人群图像输入训练好的基于引导注意力机制的人群计数网络中；

(7-2)输出对应的人群分布密度图与总人数。

本发明网络模型结构如图2所示，包括网络层的深度、分支结构：

它由一个前端网络与一个编码-解码后端网络组成。图像输入到网络中，首先经过3*3*64、3*3*64、3*3*128和3*3*128四层卷积提取初步的特征向量，每一层卷积之后紧跟Relu非线性激活，以减少参数之间的相互依赖，提高网络的非线性拟合能力。每两层卷积都引入一个步长为2的最大池化向量Maxpool，用于降低图片的分辨率，提高网络存储的利用率。之后，初步特征向量将被输入到后端的编码-解码网络。特征编码部分构建了多层引导注意力结构，每个引导注意力结构并联一个空间注意力和通道注意力，融合两个维度上的注意力图按梯度输入特征解码部分。特征解码部分为串联的多个Inception空洞卷积，在注意力图所划定的人群目标范围内对特征提取高层语义信息。最后，本发明网络模型通过1*1*1的卷积将高层特征转换为人群密度图并计数。

本发明构建的引导注意力结构如图3所示：

引导注意力结构是一个以空间注意力和通道注意力为基础的并联结构。假设原始图像经过一系列的卷积变换之后得到大小为W×H的特征图X，该特征图有C个通道，将其输入到构建的通道注意力和空间注意力。进入通道注意力的X首先经过全局平均池化获得每个通道的全局信息S，将S使用全连接层生成新特征Z，使用Softmax得到通道权重向量a，将X与a相乘，计算出最终具有通道权重的特征图T。通道注意力机制的目的就是为同一特征图中的各个通道设置不同感受野，分配各个通道之间的资源。

而输入到空间注意力中的特征图X，首先会通过Localization Net与目标特征T的空间变换参数θ。通过空间变换模块，不仅能够标注出图像中需要被关注的空间区域，还能提取出图像的局部信息。然后，Grid generator利用前面学习到的空间变换参数θ和目标特征T中的坐标点去X中采样，填充T中的每个像素点。最后，使用Sampler函数处理坐标为小数的位置。

最后将空间与通道两个维度上的特征输出融合作为引导注意力结构的输出。

本发明构建的Inception空洞卷积结构如图4所示：

常规的空洞卷积只包含一个空洞率参数，通过该空洞率参数同时控制卷积核在行和列两个方向上的膨胀大小，通过这种方法产生的空洞卷积在行、列两个方向上的膨胀效果是一致的。假设卷积核大小为3×3，空洞率为d，则在常规情况下，该空洞卷积的感受野大小为(1+2d)×(1+2d)。本发明引入的Inception卷积是一个二维独立的空洞卷积，设置了两个空洞率参数rd、ld(rd,ld＝1,2,3)，可以独立控制卷积核在行、列两个方向上的膨胀效果。同时设置卷积核大小为3×3，则整个空洞卷积的感受野范围可以从3×3取到(1+2ld)×(1+2rd)。将Inception空洞卷积的九种膨胀形式串联并划分为三个深度层作为特征编码的基础结构。

Claims

1.一种基于引导注意力机制的人群计数方法，其特征在于包括以下步骤：

步骤(1)获取并预处理人群图像数据集；

步骤(2)建立基于引导注意力机制的人群计数网络；

步骤(7)将测试图片输入优化后的人群计数网络，生成人群密度图并且进行人群计数；

步骤(1)具体过程如下：

(1-2)对于收集到的人群图像进行二值化、归一化、数据增强的预处理，去除人群图像中的无关信息，使得预处理后的人群图像训练集P(p₁,p₂…p_n)能够被网络处理；

步骤(3)具体过程如下：

(3-2)输入的人群图像首先经过人群计数网络前端提取低层的基础特征x，对图像降维，减少网络的计算量，从而作为网络后端的编码-解码部分的输入；

步骤(4)具体过程如下：

其中，c_ji表示通道注意力图c中第i通道对j通道的影响；xc₁表示的是输入的基础特征x在通道注意力中经过变形的特征，xc₂为输入的基础特征x经过变形转置后的特征；得到通道注意力图c后，将通道注意力图c与变形矩阵xc₃相乘，以将尺寸重塑为C×H×W；最后将结果与权重λ相乘，并与输入的基础特征x逐像素相加，得到最终的注意力特征图y₁，该过程可表示如下：

其中，λ是网络中从0开始的可学习参数，x^j表示输入的基础特征x在第j通道上的值，为注意力特征图y₁在第j通道上的值；最终输出的注意力特征图是通道注意力特征与原始特征加权求和的结果，通过求和运算可以使所有通道的特征图之间建立语义依赖，增强特征的可辨别能力；

(4-4)空间注意力将输入的基础特征x首先经过三个1×1的卷积，保留图像原有的平面结构；然后分别经过变换和转置获得三个重置后的特征图xs₁、xs₂和xs₃，将xs₁和x₂进行点乘运算，得到的运算结果通过Softmax层生成大小为(H×W)×(H×W)的空间注意力图s，整个变换过程可以由以下公式表达：

其中，s_ji表示空间注意力图s中第i个区域对第j个区域的影响，任意两个区域的特征相似性越高，它们的关联性也就越强；

(4-5)将步骤(4-3)和(4-4)的两个输出y₁和y₂通过一个连接操作融合在一起，进一步增强特征表示；假设z为引导注意力结构的最终输出，则输出的注意力特征图用以下公式表示：

z＝Concat(y₁,y₂) (5)

2.根据权利要求1所述的一种基于引导注意力机制的人群计数方法，其特征在于步骤(2)具体过程如下：

(2-3)每层引导注意力结构并联空间注意力和通道注意力，空间注意力对整张人群图像进行编码捕获空间依赖，通道注意力在训练过程中选择最佳的通道使得整个网络模型更加关注图像中的人头区域。

3.根据权利要求1所述的一种基于引导注意力机制的人群计数方法，其特征在于步骤(5)具体过程如下：

(5-2)以Inception空洞卷积为基础构建特征解码；假设y为Inception卷积的特征输出，则映射过程如下：

其中，d表示特征图的通道数，z_i为对应引导注意力的特征输出，i＝1,2,3，g(*)为矩阵点乘运算，f(*)为卷积过程，rd和ld表示卷积核在行、列两个方向上的空洞率，可以通过rd和ld来设置Inception卷积在行、列两个维度上的膨胀效果。

4.根据权利要求3所述的一种基于引导注意力机制的人群计数方法，其特征在于步骤(6)具体过程如下：

(6-1)将步骤(5-2)的输出特征y转换为网络预测的人群密度图，为了使密度图能够适应人群图像的各种条件，可以将其表示为N个头的F(x)；F(x)的计算方法是将增量函数δ(x-x_i)与归一化为1的高斯核进行卷积，过程如下：

其中，x_i代表每个行人人头所在的像素点；σ_i是数据集中所有图像的人群分布；β是一个常数，表示目标与其周围最近k个人头的平均距离；

(6-4)结束训练，得到最优的人群计数网络。

5.根据权利要求4所述的一种基于引导注意力机制的人群计数方法，其特征在于整个网络模型包括一个前端网络与一个编码-解码后端网络；图像输入到网络模型中，首先经过3*3*64、3*3*64、3*3*128和3*3*128四层卷积提取初步的特征向量，每一层卷积之后紧跟Relu非线性激活，每两层卷积都引入一个步长为2的最大池化向量Maxpool；初步特征向量将被输入到后端的编码-解码网络；特征编码部分构建多层引导注意力结构，每个引导注意力结构并联一个空间注意力和通道注意力，融合两个维度上的注意力图按梯度输入特征解码部分；特征解码部分为串联的多个Inception空洞卷积，在注意力图所划定的人群目标范围内对特征提取高层语义信息；网络模型通过1*1*1的卷积将高层特征转换为人群密度图并计数。

6.根据权利要求5所述的一种基于引导注意力机制的人群计数方法，其特征在于引导注意力结构如下：

引导注意力结构是一个以空间注意力和通道注意力为基础的并联结构；假设原始图像经过一系列的卷积变换之后得到大小为W×H的特征图X，该特征图有C个通道，将其输入到构建的通道注意力和空间注意力；进入通道注意力的X首先经过全局平均池化获得每个通道的全局信息S，将S使用全连接层生成新特征Z，使用Softmax得到通道权重向量a，将X与a相乘，计算出最终具有通道权重的特征图T；

输入到空间注意力中的特征图X，首先通过Localization Net与目标特征T的空间变换参数θ；Grid generator利用前面学习到的空间变换参数θ和目标特征T中的坐标点去X中采样，填充T中的每个像素点；使用Sampler函数处理坐标为小数的位置；

7.根据权利要求5或6所述的一种基于引导注意力机制的人群计数方法，其特征在于引入Inception卷积构建实现如下：Inception卷积是一个二维独立的空洞卷积，设置两个空洞率参数rd、ld能够独立控制卷积核在行、列两个方向上的膨胀效果；同时设置卷积核大小为3×3，则整个空洞卷积的感受野范围可以从3×3取到(1+2ld)×(1+2rd)；将Inception空洞卷积的九种膨胀形式串联并划分为三个深度层作为特征编码的基础结构。