CN109993269A

CN109993269A - 基于注意力机制的单张图像人群计数方法

Info

Publication number: CN109993269A
Application number: CN201910189248.XA
Authority: CN
Inventors: 张少卿; 刘琼; 周靖凯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-09
Anticipated expiration: 2039-03-13
Also published as: CN109993269B

Abstract

本发明公开基于注意力机制的单张图像人群计数方法。所述方法包括对当前图像进行逐通道像素Z‑Score归一化；设计4+2+2网络提取图像纹理特征；设计编‑解码网络提取图像全局注意力特征；逐通道将纹理特征与全局注意力特征进行元素乘，生成融合特征；对融合特征进行1*1卷积运算生成人群密度图，对人群密度图进行积分获得计数结果。本方法设计的网络能够端到端地进行训练和测试，能够提高行人非均匀分布场景下的人群计数精度，在World Expo10数据集的5个测试场景中平均计数误差不大于3.28人。

Description

基于注意力机制的单张图像人群计数方法

技术领域

本发明及人群密度估计与人群计数，更具体地，涉及一种基于注意力机制的单张图像人群计数方法。

背景技术

复杂场景下的人群密度估计和人群计数是人流监控，场景分析等许多需要高级认知能力场合的基础。随着世界人口的指数化增长和城市化进程的加快，运动会，集市，公共展览等活动更易聚集大批的人群。公共安全与人群数目密切相关，当大量行人聚集，人群密度过高时，容易引发恐慌和推挤，甚至导致踩踏、伤亡等事故。

人群计数指的是计算某个人群图像中行人的总个数，人群密度指的是把人群图像中的每个人分布到数个像素中，在人与人重叠的地方进行像素值的叠加。人群密度图不仅可以反应图像中的总人数，还可以反应人群的空间分布信息，是一种使用非常广泛的人群分析工具。目前研究人员主要使用卷积神经网络(Convolution Neural Network，CNN)来将人群图像转换为人群密度图。卷积神经网络可以学习人群图像与人群密度图之间的非线性表达，大大降低了行人相互遮挡对算法性能的影响，这使得人群计数可以取得一个比较准确的结果。

目前，制约模型计数精度与鲁棒性的因素有两个，一个是透视效应带来的行人尺寸差异性问题，另一个是场景中人群分布不均匀问题。为了解决这两个问题，本发明提出了基于注意力机制的单张图像人群计数方法，对于前一个问题，设计了4+2+2结构网络提取图像纹理特征，通过膨胀卷积扩大了模型的感知野，提高模型对大尺度行人的识别能力；对于后一个问题，设计了编-解码网络提取图像注意力特征，排除无关区域的干扰。在设计这两个网络过程中，涉及到以下现有技术：

现有技术1(Wang,C.,Zhang,H.,Yang,L.,Liu,S.,Cao,X.,2015.Deep peoplecounting in extremely dense crowds,in:Proceedings of the 23rd ACMinternational conference on Multimedia,ACM.pp.1299–1302.)提出使用卷积神经网络进行人群计数，通过对Alex网络的改进实现了高准确率的人群计数。此技术将Alex网络最后的输出神经元改为1，使其能够直接输出计数结果。现有技术2(Zhang,Y.,Zhou,D.,Chen,S.,Gao,S.,Ma,Y.,2016b.Single image crowd counting via multi-columnconvolutional neural network,in:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pp.589–597.)提出先使用多列的卷积神经网路将人群图像转换为人群密度图，再对人群密度图进行积分得到人群计数结果。此技术使用了具有不同大小感知野的三列卷积神经网络来分别提取大、中、小三个尺寸的行人信息，极大地提高了模型的精度。现有技术3(Sindagi,V.,Patel,V.,2017.Cnn-basedcascaded multi-task learning of high-level prior and density estimation forcrowd counting,in:Advanced Video and Signal Based Surveillance(AVSS),2017IEEEInternational Conference on,IEEE.)提出了一个串联卷积神经网络的架构，在对人群进行计数时，还根据图像中人数的多少把总体人群的密度等级分为了10级。此技术通过融合总体人群的密度等级这个全局的先验信息，增加人群计数的精度。此外，现有技术3还使用了反卷积(De-Convolution)生成了一个比其他方法更高分辨率的人群密度图。

数据集对于模型的训练、测试，区域人群数量、分布范围等统计信息的获取等具有重要的意义。目前，利用卷积神经网络进行人群密度估计和人群计数方面主要的评判标准是建立在2个公开数据集上的，分别为World Expo 10和Shanghai Tech。

World Expo 10数据集由上海复旦大学在2015年提出，主要是想解决多场景下人群计数(Cross-scene Crowd Count)的模型训练问题。他们在2010年上海世博会期间，收集并标记了1132张由108个不同的监视摄像头拍摄的连续图像。各个摄像头角度和高度均不一致保证了该数据集场景的多样性。该数据集包含了总共3980帧576*720的图像，总标记行人数达到199923人。该数据集被分为了两个部分，训练集为103个不同场景的1127个1分钟的短视频；测试集包括5个不同场景的5个1小时的长视频，每个视频中有120帧的标记数据，行人数量范围为1到220人。尽管将测试场景扩展到了5个，该数据集仍然不足以覆盖真实世界的绝大多数场景，也不适用于极端密集的人群计数。

Shanghai Tech数据集是上海科技大学在2016年提出的大规模人群计数数据集，包含了1198张图像，330165名有标注的行人，具有非常广泛的场景分布与密度分布。该数据集分为了两部分，第一部分Part A包含了从网上随机挑选的482张人群图像，其中300张为训练图像，182张为测试图像；第二部分Part B是上海市中心区域拍下的行人图像，包括了400张训练图像，316张测试图像。由于数据集在各个密度等级上并不是均匀分布的，用来估计的人群密度会偏低。但是总体而言，该数据集中场景的多样性、行人尺寸的多样性和透视造成的图像扭曲都让此数据集非常具有挑战性。

在这些数据集上，学者们提出了两个公认的评判标准：平均绝对误差(MeanAbsolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)：

其中，N是测试图像的张数，y_i和y′_i分别为第i张图像中实际拥有的行人数目和估计的行人数目。MAE表示对行人数目估计的精确程度，RMSE表示模型在测试数据上的鲁棒性。

发明内容

本发明的目的在于提出一种基于注意力机制的单张图像人群计数方法，旨在解决场景中透视效应带来的行人尺寸差异性问题和人群分布不均匀问题，更准确、更鲁棒地估计单张图像中的行人数目。

为了达到上述目的，本发明至少采用如下技术方案之一。

基于注意力机制的单张图像人群计数方法，主要包括以下步骤：

步骤一、对当前图像进行逐通道像素Z-Score归一化；

步骤二、通过4+2+2网络提取图像纹理特征；

步骤三、通过编-解码网络提取图像全局注意力特征；

步骤四、逐通道将纹理特征与全局注意力特征进行元素乘；

步骤五、通过1*1卷积计算生成人群密度图，对人群密度图进行积分获得人群计数结果。

进一步地，对图像进行逐通道像素Z-Score归一化的计算公式为：

X′_i＝(X_i-U_k)/E_k

其中，X_i代表当前图像像素值，X′_i代表归一化后的图像像素值，U_k代表当前数据集所有图像当前通道像素值的均值，E_k代表当前数据集所有图像当前通道像素值的标准差。每张图像包括R(红)、G(绿)、B(蓝)三个通道。

进一步地，4+2+2网络包含4个卷积和2组膨胀卷积，4个卷积均为步长为1、补零填充为1的3*3滤波器，每组膨胀卷积包括1个步长为2、补零填充为2、膨胀系数为2的3*3滤波器和1个步长为2、补零填充为2、膨胀系数为3的3*3滤波器。这4个卷积输出的纹理特征的通道数依次置为16、32、32和64，每组膨胀卷积输出纹理特征的通道数依次置为64和64。

进一步地，编-解码网络由编码网络、解码网络和特征输出单元串联构成，其中，编码网络包括四个串联的编码单元，解码网络包括四个串联的解码单元。特征输出单元包含1个步长为1、补零填充为1的3*3卷积，该卷积输出图像特征的通道数置为1，该特征即为所需提取的图像全局注意力特征。

进一步地，编码网络的前三个编码单元分别为：2个步长为1、补零填充为1的3*3滤波器、1个下采样；2个步长为1、补零填充为1的3*3滤波器、1个下采样；3个步长为1、补零填充为1的3*3滤波器、1个下采样。这里的下采样为步长为2、补零填充为0的2*2最大值池化。第四个编码单元包含3个步长为1、补零填充为1的3*3滤波器。这四个编码单元输出的特征的通道数依次置为64、128、256和512，并记为：F₁,F₂,F₃,F₄；所涉三个下采样生成的位置向量的通道数依次为64、128和256，并记为：I₁,I₂,I₃。

进一步地，解码网络中第一个解码单元包含1个步长为1、补零填充为1的3*3滤波器；后三个解码单元均包含：1个上采样、1个拼接和1个步长为2、补零填充为2的3*3反卷积。上采样为1个步长为2、补零填充为0的2*2最大值反池化，所述拼接指对输入的两个向量序列进行连接操作。四个解码单元输出特征通道数依次置为256、128、64和32，并记为：E₁,E₂,E₃,E₄。编码单元3、2、1所涉的下采样依次传递位置向量I₃,I₂,I₁至解码单元2、3、4的上采样，编码单元3、2、1生成的特征向量F₃,F₂,F₁分别传递至解码单元2、3、4的拼接操作。

进一步地，纹理特征和全局注意力特征的通道数分别为64和1，逐通道将纹理特征与有唯一通道数的全局注意力特征进行元素乘，依次输出，得到64个通道的融合特征。

进一步地，对融合特征进行步长为1、补零填充为0的1*1卷积，生成人群密度图，将此人群密度图上每个像素点的值相加，即可获得当前图像人群计数结果。

与现有技术相比，本发明能够有效提高行人非均匀分布场景下的人群计数精度，在Shanghai Tech Part A和World Expo10数据集五个测试场景上平均MAE和RMSE分别为3.28、4.3和22.1、23.5。

附图说明

图1为本发明实施例中基于注意力机制的单张图像人群计数方法的流程图；

图2a和2b为不同场景下逐通道Z-Score归一化前后的图像，其中左侧为原始图像，右侧为对应的归一化后的图像；

图3为4+2+2网络结构图；

图4为编-解码网络结构图；

图5a与5b为不同场景的人群图像与生成的全局注意力特征，其中左侧为原始图像，右侧为生成的全局注意力特征；

图6为逐通道元素乘示意图；

图7a与7b为不同场景的人群图像与生成的人群密度图，其中左侧为原始图像，右侧为生成的人群密度图与人群计数结果。

具体实施方式

提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但是这些被认为仅仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在下面的描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用使得能够清楚和一致地理解本公开。因此，本领域技术人员应该清楚，提供本公开的各种实施例的以下描述仅用于说明的目的，而不是为了限制由所附权利要求及其等同物限定的本公开。

本实施例的基于注意力机制的单张图像人群计数方法，如图1所示，包括以下步骤：对当前图像进行逐通道像素Z-Score归一化；设计4+2+2网络提取图像纹理特征；设计编-解码网络提取图像全局注意力特征；逐通道将纹理特征与全局注意力特征进行元素乘；通过1*1卷积计算生成人群密度图，对人群密度图进行积分获得人群计数结果。

下面对各环节的具体实施方式进行介绍，其中涉及到的卷积、膨胀卷积和反卷积均为公认的使用滤波器来进行提取特征的运算。

步骤110：对当前图像进行逐通道像素Z-Score归一化。图像标准化是将数据通过去均值实现中心化的处理，根据凸优化理论与数据概率分布相关知识，使数据中心化符合某种数据分布规律，是数据预处理的常见方法之一。本发明使用的逐通道像素Z-Score归一化的计算公式为：

X′_i＝(X_i-U_k)/E_k

其中，X_i代表当前图像像素值，X′_i代表归一化后的图像像素值，U_k代表当前数据集所有图像当前通道像素值的均值，E_k代表当前数据集所有图像当前通道像素值的标准差。每张输入的人群图像均包括R(红)、G(绿)、B(蓝)三个通道。图2a和2b为不同场景下经过本步骤处理后的图像示例，其中左侧为原始图像，右侧为对应的预处理后图像。

步骤120：设计4+2+2网络提取图像纹理特征。4+2+2网络具体结构如图3所示，包含4个卷积和2组膨胀卷积。4个卷积均包含1个步长为1、补零填充为1的3*3滤波器，每组膨胀卷积包括1个步长为2、补零填充为2、膨胀系数为2的3*3滤波器和1个步长为2、补零填充为2、膨胀系数为3的3*3滤波器。这4个卷积输出的纹理特征的通道数依次置为16、32、32和64，每组膨胀卷积输出纹理特征的通道数依次置为64和64。

经过多次串联的卷积操作后，4+2+2网络能够具有更大的感知野，识别处更大尺寸的行人，提取的纹理特征通道数为64。

步骤130：设计编-解码网络提取图像全局注意力特征。编-解码网络如图4所示，由编码网络、解码网络和特征输出单元串联构成。其中，编码网络包括四个串联的编码单元，解码网络包括四个串联的解码单元。特征输出单元为包含1个步长为1、补零填充为1的3*3滤波器的卷积，该卷积输出图像特征的通道数置为1，该特征即为所需提取的图像全局注意力特征。

编码网络的前三个编码单元分别为：2个步长为1、补零填充为1的3*3滤波器、1个下采样；2个步长为1、补零填充为1的3*3滤波器、1个下采样；3个步长为1、补零填充为1的3*3滤波器、1个下采样。这里的下采样为步长为2、补零填充为0的2*2最大值池化。第四个编码单元包含3个步长为1、补零填充为1的3*3滤波器。这四个编码单元输出的特征的通道数依次置为64、128、256和512，并记为：F₁,F₂,F₃,F₄；所涉三个下采样生成的位置向量的通道数依次为64、128和256，并记为：I₁,I₂,I₃。

解码网络中第一个解码单元包含1个步长为1、补零填充为1的3*3滤波器；后三个解码单元均包含：1个上采样、1个拼接和1个步长为2、补零填充为2的3*3反卷积。上采样为1个步长为2、补零填充为0的2*2最大值反池化，所述“拼接”指对输入的两个向量序列进行连接操作。四个解码单元输出特征通道数依次置为256、128、64和32，并记为：E₁,E₂,E₃,E₄。编码单元3、2、1所涉的下采样依次传递位置向量I₃,I₂,I₁至解码单元2、3、4的上采样，编码单元3、2、1生成的特征向量F₃,F₂,F₁分别传递至解码单元2、3、4的拼接操作。

具体而言，第二个解码单元对特征向量E₁进行步长为2、补零填充为0的2*2最大值反池化运算，使用位置矩阵I₃；使用超连接方式拼接特征向量F₃；对拼接后的特征向量进行步长为2、补零填充为2的3*3反卷积运算，生成128维的特征向量E₂。

第二个单元对特征向量E₂进行步长为2、补零填充为0的2*2最大值反池化运算，使用位置矩阵I₂；使用超连接方式拼接特征向量F₂；对拼接后的特征向量进行步长为2、补零填充为2的3*3反卷积运算，生成64维的特征向量E₃。

第三个单元对特征向量E₃进行步长为2、补零填充为0的2*2最大值反池化运算，使用位置矩阵I₁；使用超连接方式拼接特征向量F₁；对拼接后的特征向量进行步长为2、补零填充为2的3*3反卷积运算，生成32维的特征向量E₄。

通过多个特征编码模块逐步地学习图像中的语义特征和抽象特征，多个特征提取模块逐步恢复特征张量的尺寸，融合底层网络的细节信息，能够得到注意力特征，排除无关区域的干扰，最终达到一个更准确的人群计数结果行。编-解码网络提取的全局注意力特征通道数为1，图5a与5b为不同场景的人群图像与生成的全局注意力特征示意。

步骤140：逐通道将纹理特征与全局注意力特征进行元素乘，生成融合特征。此步骤为注意力机制的核心操作，能够排除不可能存在行人区域的噪声干扰，提高行人非均匀分布场景下的计数准确性，示意图如图6所示。步骤120和步骤130输出的纹理特征和全局注意力特征的通道数分别为64和1，逐通道将纹理特征与有唯一通道数的全局注意力特征进行元素乘，依次输出，得到64个通道的融合特征。

步骤150：对64通道的融合特征进行步长为1、补零填充为0的1*1卷积，实现跨通道的特征交互和信息融合，生成人群密度图。

步骤160：由于最后的人群密度图是一个二维的矩阵，每个像素点上的值表示该点处的行人数量，将生成的人群密度图上每个像素点的值进行加和，即可得到当前图像人群计数的结果。与MCNN，FCN等人群计数领域的基准算法相比，使用本方生成的人群密度图分辨率更高，统计出的人群计数结果有更低误差，在人群分布不均匀的场景中效果尤佳。

Claims

1.基于注意力机制的单张图像人群计数方法，其特征在于包括如下步骤：

(1)对当前图像进行逐通道像素Z-Score归一化；

(2)通过4+2+2网络提取图像纹理特征；通过编-解码网络提取图像全局注意力特征；

(3)将纹理特征逐通道与全局注意力特征进行元素乘；

(4)通过1*1卷积计算生成人群密度图，对人群密度图进行积分获得当前图像人群计数。

2.根据权利要求1所述的基于注意力机制的单张图像人群计数方法，其特征在于步骤(1)中对当前图像进行逐通道像素Z-Score归一化的公式为：X′_i＝(X_i-U_k)/E_k，其中，i代表输入图像中的一个像素，X_i代表当前图像像素值，X′_i代表归一化后的图像像素值；k代表输入图像的一个通道，U_k代表当前数据集所有图像第k个通道像素值的均值，E_k代表当前数据集所有图像第k个通道像素值的标准差，k的取值为1～3，分别对应输入图像的三个通道。

3.根据权利要求1所述的基于注意力机制的单张图像人群计数方法，其特征在于步骤(2)所述4+2+2网络包含4个卷积和2组膨胀卷积，4个卷积均为步长为1、补零填充为1的3*3滤波器，每组膨胀卷积包括1个步长为2、补零填充为2、膨胀系数为2的3*3滤波器和1个步长为2、补零填充为2、膨胀系数为3的3*3滤波器；进一步的，4个卷积输出的纹理特征的通道数依次置为16、32、32和64；每组膨胀卷积输出纹理特征的通道数依次置为64和64。

4.根据权利要求1所述的基于注意力机制的单张图像人群计数方法，其特征在于步骤(2)所述编-解码网络由编码网络、解码网络和特征输出单元串联构成；进一步的，编码网络包括四个串联的编码单元，解码网络包括四个串联的解码单元，特征输出单元包含1个步长为1、补零填充为1的3*3卷积运算，该卷积运算输出的图像特征的通道数置为1，为所提取的图像全局注意力特征。

5.根据权利要求4所述的基于注意力机制的单张图像人群计数方法，其特征在于所述四个串联的编码单元中，前三个编码单元分别包含：2个步长为1、补零填充为1的3*3滤波器、1个下采样；2个步长为1、补零填充为1的3*3滤波器、1个下采样；3个步长为1、补零填充为1的3*3滤波器、1个下采样；进一步的，1个下采样即为1个步长为2、补零填充为0的2*2最大值池化；进一步的，第四个编码单元包含3个步长为1、补零填充为1的3*3滤波器；进一步的，四个编码单元输出的特征的通道数依次置为64、128、256和512，并记为：F₁,F₂,F₃,F₄；前三个编码单元中每个单元内的下采样生成的位置向量的通道数依次为64、128和256，并记为：I₁,I₂,I₃。

6.根据权利要求4所述的基于注意力机制的单张图像人群计数方法，其特征在于所述四个串联的解码单元中，第一个解码单元包含1个步长为1、补零填充为1的3*3滤波器；后三个解码单元分别包含：1个上采样、1个拼接和1个步长为2、补零填充为2的3*3反卷积；进一步的，上采样即为1个步长为2、补零填充为0的2*2最大值反池化；进一步的，四个解码单元输出特征通道数依次置为256、128、64和32，并记为：E₁,E₂,E₃,E₄；进一步的，所述拼接指对输入的两个向量序列进行连接操作；进一步的，前三个编码单元中的下采样依次传递位置向量I₃,I₂,I₁至第二至四个解码单的上采样，前三个编码单元生成的特征向量F₃,F₂,F₁分别传递至第二至第四解码单元的“拼接”操作。

7.根据权利要求1所述的基于注意力机制的单张图像人群计数方法，其特征在于步骤(3)中，纹理特征和全局注意力特征的通道数分别为64和1，逐通道将纹理特征与有唯一通道数的全局注意力特征进行元素乘，输出64通道的融合特征。

8.根据权利要求1所述的基于注意力机制的单张图像人群计数方法，其特征在于步骤(4)中对当前64个通道的融合特征进行步长为1、补零填充为0的1*1卷积，生成人群密度图。