CN110263849A

CN110263849A - 一种基于多尺度注意力机制的人群密度估计方法

Info

Publication number: CN110263849A
Application number: CN201910531606.0A
Authority: CN
Inventors: 郭丹; 李坤; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-20
Anticipated expiration: 2039-06-19
Also published as: CN110263849B

Abstract

本发明公开了一种基于多尺度注意力机制的人群密度估计方法，其步骤包括：1、先从图片提取低维特征；2、使用多尺度空洞卷积来生成丰富的上下文特征；3、通过注意力机制对丰富的上下文特征进行融合；4、根据融合特征生成高清晰人群密度图。本发明能快速准确地识别出图片中的人群区域特征，基于注意力机制可以有效的融合多尺度特征，并提高人群密度估计的准确度。

Description

一种基于多尺度注意力机制的人群密度估计方法

技术领域

本发明属于图像处理、计算机视觉领域，主要涉及一种基于多尺度注意力机制的人群密度估计方法。

背景技术

随着中国的社会不断发展，人们出行也越来越方便，公共场所(如火车站、机场、公交站、地铁站等)往往会产生人群拥挤的现象，拥挤的人群会造成人群骚乱、踩踏事件的发生。公共场所的安全越来越受到重视，因此人群密度统计对预防踩踏事件具有重大意义。人群密度估计是一种智能的图像分析方法，其目的就是估计出拥挤图片中的人群密度和人群数量，是计算机视觉领域中热门的研究课题之一。人群密度估计可应用于公共场所安防监控、人流统计与控制等方面。

随着现代图像处理技术的发展，人群密度估计方法也取得了巨大的发展，但是仍面临以下几点问题：

一：现有的方法中，不能有效的适应人群图片中尺度的变化，因此不能真实的反映出人群的密度分布和人群数量，不利于实际场景中的应用。

例如2016年，Yingying Zhang等作者在顶级国际会议IEEE Conference onComputer Vision and Pattern Recognition上发表的文章《Single-image crowdcounting via multi-column convolutional neural network》提出的一种人群密度估计方法，该方法采用多路具有不同卷积核大小的卷积提取多尺度图像特征，直接将不同尺度拼接在一起实现密度图估计，然而方法并未考虑到不同尺度特征之间是存在差异的，缺乏对多尺度特征的精细处理，使得生成的人群密度不够清晰，从而导致不能准确的估计出人群的密度分布和人群数量。

二：很多多尺度特征融合人群密度估计算法，忽略了密度图中像素之间的重要性，因此不能有效估计人群密度。

例如2018年，Yihong Li等作者在顶级国际会议IEEE Conference onComputerVision and Pattern Recognition发表的文章《CSRNet:Dilated ConvolutionalNeural Networks for Understanding the Highly Congested Scenes》。这篇论文提出使用连续的空洞卷积来融合多尺度特征，但是该方法仅使用了单一尺度的空洞卷积，使得生成人群密度图不够清晰，不能有效的估计人群密度。

发明内容

本发明为解决上述现有方法存在的不足之处，提出了一种基于多尺度注意力机制的人群密度估计方法，以期能生成高清晰的人群密度估计图，并提高人群密度估计的准确性。

本发明为解决方法问题采用如下的方法方案：

本发明一种基于多尺度注意力机制的人群密度估计方法的特点是按如下步骤进行：

步骤1、数据预处理：

步骤1.1、获取人群密度估计数据集，并将所述人群密度估计数据集中的任意一张图片记为I_i，1≤i≤N，N为所述人群密度估计数据集中的图片数目；

对于第i张图片I_i，标定人头位置的坐标集为其中，表示第i张图片I_i中的第j个人头位置坐标，j∈N_i，N_i表示第i张图片I_i中人头位置坐标的总数；

步骤1.2、令第i张图片I_i所对应的标签矩阵记为M_i，且标签矩阵M_i和第i张图片I_i的尺寸相同，若第i张图片I_i中的像素点为人头位置的像素点，则将标签矩阵M_i中相应像素点设置为1，反之设置为0；

步骤1.3、对第i张标签矩阵M_i进行归一化高斯卷积操作，得到第i张图片I_i对应的密度图Y_i，从而获得所述人群密度估计数据集中每张图片所对应的密度图；

步骤1.4、对第i张图片I_i和对应的密度图Y_i随机截取相同位置上的m张大小为k×k的区域，从而对所述人群密度估计数据集中所有的图片及其对应的密度图进行截取操作，并构成网络模型的训练数据集；

步骤2、网络模型训练：

步骤2.1、建立网络模型为Y＝F(I,ξ)，I为输入所述网络模型的图片，ξ为所述网络模型的参数，Y为所述网络模型输出的密度图；

定义当前训练次数为t，并初始化t＝1；令第t次训练时网络模型的参数为ξ_t，

步骤2.2、采用VGGNet-16网络的前10层作为第t次训练时的特征提取器将所述训练数据集中m×N个图片区域及其对应的密度图区域以数目B为批次依次输入所述第t次训练时的特征提取器中进行处理，从而依次提取到B×m个低维特征，进而得到第t次训练时的m×N个低维特征

步骤2.3、利用式(1)所示的多尺度空洞卷积提取所述第t次训练时的低维特征中第r个尺度上下文特征其中，H×W×ch表示第r个尺度上下文特征的维度：

式(1)中，r＝[r₁,r₂,…,r_n]，r_n表示第n种尺度，表示膨胀率为r的空洞卷积操作；

步骤2.4、利用式(2)计算第t次训练时第r个尺度上下文特征的信息特征图

式(2)中，Sigmoid(·)表示Sigmoid激活函数，表示第t次训练时第r个尺度上卷积核为1×1的卷积操作；

步骤2.5、利用式(3)对第t次训练时的信息特征图进行归一化处理，得到第t次训练时第r个尺度上下文特征对应的二维注意力图

式(3)中，“./”表示点除运算；

步骤2.6、利用式(4)对不同尺度的特征进行融合，从而得到第t次训练时的融合特征

式(4)中，⊙表示点乘运算，H×W×ch表示融合特征的维度大小；

步骤2.7、利用式(5)所示的第t次训练时的可变核密度图估计器对融合特征进行解码，得到第t次训练时预测的人群密度图Y^t：

式(5)中，第t次训练时的可变核密度图估计器由m个卷积层构成，且前m-1个卷积层的卷积操作为可变核卷积，第m个卷积层为卷积核大小为1×1的单通道卷积操作；

步骤2.8、对所述第t次训练时的人群密度图Y^t中所有像素点进行求和，从而得到第t次训练时估计的人数；

步骤2.9、利用式(6)计算第t次训练时人群密度与真实的人群密度之间误差Loss(ξ_t)，并作为所述网络模型的损失函数：

式(6)中，I′_p为训练数据集中第p张图片区域，Y′_p为第p张图片区域I′_p对应的密度图区域；

步骤2.10、判断所述第t次训练时的误差Loss(ξ_t)，是否收敛，若收敛，则表示所述第t次训练时网络模型的参数ξ_t为最优参数ξ^*，并以最优参数ξ^*所对应的网络模型作为最终用于估计人群密度的模型；否则，对所述网络模型进行第t次梯度反向传播，从而更新第t次训练时网络模型的参数ξ_t，得到更新后的网络模型参数记为ξ_t+1，再执行步骤2.11；

步骤2.11、将t+1赋值给t，返回步骤2.2顺序执行。

与现有的技术相比，本发明有益效果体现在：

1、本发明使用空洞卷积和多尺度注意力机制，不同的注意力图可以学习到不同尺度特征间的感兴趣区域，提高了人群密度估计的准确性。

2、本发明中的网络模型具有能学习不同尺度特征的能力，因此具有良好的鲁棒性，能够适应实际应用中的真实情景(如：人群图片中的噪音，人群遮挡等)。

3、本发明使用可变核卷积进行特征的解码，可以生成高质量的人群密度图，能更好反映出人群分布和人群数量。

附图说明

图1为本发明的网络模型示意图；

图2为本发明的网络模型训练示意图；

图3为本发明的多尺度注意力机制特征融合示意图。

具体实施方式

本实施例中，一种基于多尺度注意力机制的人群密度估计方法是按如下步骤进行：

步骤1、数据预处理：

步骤1.1、从网上获取人群密度估计数据集，网上公开的人群密度数据集主要有：

1)ShanghaiTech Dataset，这个数据集分为A，B两部分，A部分的图片来源于网上，B部分的图片来源于上海的街头。

2)UCF_CC_50，这个数据集是佛罗里达大学制作的人群密度估计的数据集。

3)UCF_QNRF Dataset，这个数据集是目前图片质量最高，人头标记数量最多的人群密度估计数据集。

并将人群密度估计数据集中的任意一张图片记为I_i，1≤i≤N，N为人群密度估计数据集中的图片数目；对于第i张图片I_i，标定人头位置的坐标集为其中，表示第i张图片I_i中的第j个人头位置坐标，j∈N_i，N_i表示第i张图片I_i中人头位置坐标的总数；

步骤1.3、对第i张标签矩阵M_i进行归一化高斯卷积操作，得到第i张图片I_i对应的密度图Y_i，从而获得人群密度估计数据集中每张图片所对应的密度图；对于所有使用的人群密度估计数据集，归一化高斯卷积操作均是卷积核大小为15，标准差为4。

步骤1.4、对第i张图片I_i和对应的密度图Y_i随机截取相同位置上的4张大小为256×256的区域，从而对人群密度估计数据集中所有的图片及其对应的密度图进行截取操作，并构成网络模型的训练数据集；

步骤2、如图2所示，对网络模型训练：

步骤2.1、如图1所示，建立人群密度估计的网络模型，网络模型为Y＝F(I,ξ)，I为输入网络模型的图片，ξ为网络模型的参数，Y为网络模型输出的密度图；初始化网络模型F(,)，将卷积核的标准差设置为0.01的高斯核初始化，偏置设置为0；

步骤2.2、采用VGGNet-16网络的前10层作为第t次训练时的特征提取器将训练数据集中4N个图片区域及其对应的密度图区域以数目40为批次依次输入第t次训练时的特征提取器中进行处理，从而依次提取到4B个低维特征，进而得到第t次训练时的4N个低维特征

步骤2.3、如图3所示，利用式(1)所示的多尺度空洞卷积提取第t次训练时的低维特征中第r个尺度上下文特征其中，H×W×ch表示第r个尺度上下文特征的维度：

式(1)中，r＝[1,3,6,9]，r_n表示第n种尺度，表示膨胀率为r的空洞卷积操作，的过滤器的个数设置为512；

式(3)中，“./”表示点除运算；

式(5)中，第t次训练时的可变核密度图估计器由4个卷积层构成，且前3个卷积层的卷积操作为可变核卷积，第4个卷积层为卷积核大小为1×1的单通道卷积操作；

步骤2.8、对第t次训练时的人群密度图Y^t中所有像素点进行求和，从而得到第t次训练时估计的人数；

步骤2.9、利用式(6)计算第t次训练时人群密度与真实的人群密度之间误差Loss(ξ_t)，并作为网络模型的损失函数：

式(6)中，I′_p为训练数据集中第p张图片区域，Y′_p为I′_p对应的密度图区域；

步骤2.10、判断第t次训练时的误差Loss(ξ_t)，是否收敛，若收敛，则表示第t次训练时网络模型的参数ξ_t为最优参数ξ^*，并以最优参数ξ^*所对应的网络模型作为最终用于估计人群密度的模型；否则，对网络模型进行第t次梯度反向传播，从而更新第t次训练时网络模型的参数ξ_t，得到更新后的网络模型参数记为ξ_t+1，再执行步骤2.11；

步骤2.11、将t+1赋值给t，返回步骤2.2顺序执行。

Claims

1.一种基于多尺度注意力机制的人群密度估计方法，其特征是按如下步骤进行：

步骤1、数据预处理：

步骤2、网络模型训练：

式(3)中，“./”表示点除运算；

步骤2.11、将t+1赋值给t，返回步骤2.2顺序执行。