CN111460912B

CN111460912B - 基于级联高分辨卷积神经网络的密集人群计数算法

Info

Publication number: CN111460912B
Application number: CN202010170236.5A
Authority: CN
Inventors: 张姗姗; 姚肇亮; 杨健
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2022-10-28
Anticipated expiration: 2040-03-12
Also published as: CN111460912A

Abstract

本发明公开了一种基于级联高分辨卷积神经网络的密集人群计数算法，包括：估计密集人群图中单个人头的尺度大小，生成监督预测密度图；利用初级高分辨率特征提取网络HRNet提取输入图像的高分辨特征；利用高分辨率特征预测初级密集人群对应密度图像；基于初级高分辨率特征提取网络，构建级联高分辨特征提取网络CHRNet提取第二级高分辨率特征；采用分区域损失加权方式，使用MSE和计数误差两种损失函数进行网络参数优化；利用第二级高分辨率特征预测最终密集人群密度图；对密度图像素值进行累加求和，得到最终密集人群计数结果。本发明提高了密集人群计数的精度，有效改善了因分辨率低、人群遮挡、人群密度高等造成计数不准的情况。

Description

基于级联高分辨卷积神经网络的密集人群计数算法

技术领域

本发明涉及视觉人群密度分析领域，具体涉及一种基于级联高分辨卷积神经网络的密集人群计数算法。

背景技术

密集人群计数是许多与视觉人群密度分析相关应用的基本且重要的任务，例如安防监控、交通拥堵控制。此任务的目的是在图像中识别每个人的人头并获取图像中出现的所有人头的数目。目前大多数方法都是基于卷积神经网络的计数方法，其中包括单阶段卷积神经网络计数方法：利用卷积神经网络提取图像特征，进行密度预测得到密度图，基于密度图完成计数；多阶段卷积神经网络计数方法：设计多阶段集成网络模型，引入多阶段的损失函数监督网络参数优化，最终得到更精准的预测密度图。

Li Yuhong等人提出一种基于VGG-16网络的空洞卷积神经网络CSRNet，CSRNet通过将VGG-16网络最后的全连接层修改为空洞卷积层，使得网络的感受野进一步扩大，并且将保持了解码阶段的特征分辨率，有利于解决因最大值池化操作导致的分辨率下降问题。Ranjan Viresh等人迭代式卷积神经网络ic-CNN，ic-CNN由两个分支网络构成，低分辨率分支网络和高分辨率分支网络：低分辨率分支网络预测出低分辨率密度图；高分辨率分支网络迭代式地结合输入图像的特征和低分辨率密度图，预测出高分辨率密度图，最终完成计数。

尽管上述方法在密集人群计数上有很大进步，但是这些方法在解决高密度密集人群计数时依旧表现不佳，主要原因在于，这些方法的网络中存在池化操作层、步长大于一的卷积层，随着网络加深会使得特征分辨率下降，而低分辨率的特征不利于对密集人群的小尺度目标进行预测。所以需要设计一种保持特征高分辨率、提升密集人群中小尺度目标预测精度的计数方法。

发明内容

本发明的目的在于提供一种基于级联高分辨卷积神经网络的密集人群计数算法，解决密集人群计数中因分辨率低、人群遮挡、人群密度高等造成计数不准的问题。

实现本发明目的的技术解决方案为：一种基于级联高分辨卷积神经网络的密集人群计数算法，包括如下步骤：

步骤1、利用几何自适应高斯响应技术估计密集人群图中单个人头的尺度大小，生成监督预测密度图；

步骤2、利用初级高分辨率特征提取网络提取输入图像的高分辨率特征；

步骤3、利用高分辨率特征预测初级密集人群对应密度图；

步骤4、基于初级高分辨率特征提取网络，构建级联高分辨特征提取网络，提取第二级高分辨率特征；

步骤5、采用分区域损失加权方式，使用MSE和计数误差两种损失函数进行网络参数优化；

步骤6、利用第二级高分辨率特征预测最终密集人群密度图；

步骤7、利用最终密集人群密度图，对密度图像素值进行累加求和，得到最终密集人群计数结果。

本发明与现有技术相比，其显著优点在于：(1)本发明利用级联高分辨率特征提取网络对密集人群图像进行特征提取，解决了随着卷积网络加深带来的分辨率下降问题；(2)本发明利用分区域损失加权的方式网络参数，赋予不同人群密集程度的图像特征以不同的优化权重，有效地解决了因密集人群图像中密集人群、稀疏人群和背景噪音共同出现而扰乱密度图预测的问题。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为本发明的基于级联高分辨卷积神经网络的密集人群计数算法流程图。

图2为本发明使用几何自适应高斯响技术生成监督预测密度图D_p可视化图。

图3为本发明第一级输出D_p1可视化图。

图4为CHRNet结构示意图。

图5为本发明的分区域损失加权方法示意图。

图6为本发明最终级联输出D_p2可视化图。

具体实施方式

如图1所示，一种基于级联高分辨卷积神经网络的密集人群计数算法，包括：利用几何自适应高斯响应技术GAK估计密集人群图中单个人头的尺度大小，据此生成监督预测密度图D_p；利用初级高分辨率特征提取网络HRNet提取输入图像的高分辨率特征；利用高分辨率特征预测初级密集人群对应密度图像D_p1；基于初级高分辨率特征提取网络，构建级联高分辨特征提取网络CHRNet提取第二级高分辨率特征；采用分区域损失加权方式，使用MSE和计数误差两种损失函数进行网络参数优化；利用第二级高分辨率特征预测最终密集人群密度图D_p2；利用最终密度图D_p2，对密度图像素值进行累加求和，得到最终密集人群计数结果C_n。下面对上述步骤进行详细说明：

步骤1、利用几何自适应高斯响应技术GAK估计密集人群图中单个人头的尺度大小，据此生成监督预测密度图D_p。在密集人群图像中，先计算当前人头x_i与其周围最近邻k个人头的平均距离

高斯核函数的方差由平均距离

乘以一个比例系数β得到，即

其中β＝0.3，从而包含M个人头的图像其对应的监督密度图D_p可由以高斯函数为核函数进行逐个人头卷积以后得到：

其中，M为人头总个数，x为D_p内当前像素，δ(·)为狄拉克函数，

是方差为σ_i的高斯函数，通过这样的处理，每个人头的高斯相应区域大小近似等于人头实际大小，单个人头的高斯响应像素值累加和等于一，预测密度图朝着与真值相似的分布优化，最终预测密度图内所有像素值的累加和近似等于密集人群计数预测结果。如图2所示，左图是输入图像，右图是由GAK生成的监督预测密度图D_p，图像的左下角数值为图中对应人数。

步骤2、利用初级高分辨率特征提取网络HRNet提取输入图像的高分辨率特征。HRNet首先使用两个卷积操作将输入图像的特征下采样到原图尺度的四分之一大小，然后输入图像特征到网络主干当中进行多分辨率并行融合，同时使所提取的特征维持在输入图像四分之一尺寸大小的高分辨水平，确保低分辨率密集人群中的小尺寸人头不会因分辨率下降而被破坏。

步骤3、在步骤2基础上，利用步骤2的高分辨特征预测初级密集人群密度图D_p1，如图3所示，左图是输入图像，右图是预测得到的D_p1，图像的左下角数值为图中对应人数，然后在D_p1基础上使用MSE损失函数对HRNet网络参数进行优化。MSE损失函数通过计算目标像素和预测像素之间的欧式距离来获取预测误差：

其中，L_MSE即为MSE损失，

为2范数算式。

步骤4、基于初级高分辨特征提取网络HRNet，构建级联高分辨特征提取网络CHRNet提取第二级高分辨特征，与HRNet不同，CHRNet在密度图估计分支上进行级联，将高分辨率特征和D_p1联合作为级联分支的输入特征，如图4所示，CHRNet由HRNet和第一级输出D_p1级联构成，虚线框部分即为CHRNet，通过级联的操作，可对D_p1进一步的修正优化。

步骤5、采用分区域损失加权的方式，使用MSE和计数误差两种损失函数进行网络参数优化，与常用的MSE损失函数不同，对真值密度图和预测密度图进行了区域划分，计算每个子区域对应的MSE损失和计数损失，再通过加权方式组合成新的损失函数，从而对步骤4构建的CHRNet网络参数进行优化。如图5所示为分区域损失加权方法示意图，图5子图(a)为输入图像；(b)为预测密度图；(c)为分区域损失加权的权重，其中θ₁＞θ₂，即θ₁对应人群相对密集的区域，优化权重较大，θ₂对应人群相对稀疏区域，优化权重较小。

步骤6、利用第二级高分辨特征预测最终密集人群密度图D_p2，与D_p1不同，D_p2的输入是CHRNet的高分辨率特征和第一级输出D_p1，达到进一步修正的目的，从而获得更精准的最终密集人群密度图D_p2。

步骤7、利用最终密集人群密度图D_p2，对密度图像素值进行累加求和，得到最终密集人群计数结果C_n，如图6所示，左图是输入图像，右图是预测得到的D_p2，图像的左下角数值为图中对应人数。

表1本发明方法在数据集ShanghaiTech数据集上的比较

表1是本发明方法CHRNet，与其他在线方法在数据集ShanghaiTech上结果的比较。评测指标包括MAE表示平均单张图像计数误差人数，MSE表示平均计数的方差，符号“↓”表示值越低性能越好。可以发现，本发明在MAE、MSE这2个指标上都取得最高的排名，充分证明了本发明不仅能提高密集人群计数的效果。

本发明利用级联式高分辨卷积神经网络提取密集人群图像高分辨率特征，采用分区域损失加权方式优化网络参数，在高分辨特征基础上预测高分辨率密度图，有效地解决密集人群因分辨率低、人群遮挡、人群密度高等造成计数不准的问题。

Claims

1.一种基于级联高分辨卷积神经网络的密集人群计数算法，其特征在于，包括如下步骤：

步骤1、利用几何自适应高斯响应技术GAK估计密集人群图像中单个人头的尺度大小，据此生成二维高斯响应密度图像作为密度图像估计真值D_t，用于监督预测密度图像D_p，并确保每个人头高斯响应像素值累加和为一，具体为：

先计算当前人头x_i与其周围最近邻k个人头的平均距离

高斯核函数的方差由平均距离

乘以比例系数β得到，即

从而包含M个人头的图像其对应的监督密度图D_p可由以高斯函数为核函数进行逐个人头卷积以后得到：

为方差为σ_i的高斯函数；

步骤2、利用初级高分辨率特征提取网络HRNet提取输入图像的高分辨率特征，具体为：

HRNet首先使用两个卷积操作将输入图像的特征下采样到原图尺度的四分之一大小，然后输入图像特征到网络主干当中进行多分辨率并行融合，同时使所提取的特征维持在输入图像四分之一尺寸大小的分辨水平；

步骤3、利用步骤2输出的高分辨特征预测初级密集人群密度图D_p1，在D_p1基础上使用MSE损失函数对HRNet网络参数进行优化；

步骤4、基于初级高分辨特征提取网络HRNet，构建级联高分辨特征提取网络CHRNet提取第二级高分辨特征，与HRNet不同，CHRNet在密度图估计分支上进行级联，将高分辨率特征和D_p1联合作为级联分支的输入特征；

步骤5、采用分区域损失加权的方式，使用MSE和计数误差两种损失函数进行网络参数优化，具体为：对真值密度图和预测密度图进行区域划分，计算每个子区域对应的MSE损失和计数损失，再通过加权方式组合成新的损失函数，从而对步骤4构建的CHRNet网络参数进行优化；

步骤6、利用第二级高分辨特征预测最终密集人群密度图D_p2，D_p2的输入是CHRNet的高分辨率特征和第一级输出D_p1；