CN114758306B

CN114758306B - 一种基于金字塔特征融合的人群密度估计方法

Info

Publication number: CN114758306B
Application number: CN202210676833.4A
Authority: CN
Inventors: 刘寒松; 王国强; 王永; 翟贵乾; 刘瑞; 焦安健
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-08-23
Anticipated expiration: 2042-06-16
Also published as: CN114758306A

Abstract

本发明属于人群密度估计技术领域，涉及一种基于金字塔特征融合的人群密度估计方法，使用VGG‑16的前十三层作为主干网络，进行初步的特征提取，然后针对多尺度目标感知难得问题，设计了金字塔特征融合模块，采用不同空洞率的空洞卷积提取多尺度特征，并将多尺度特征进行自下而上和自上而下两阶段的特征融合，增强网络的尺度感知能力；同时，针对复杂背景被误判为目标的问题，设计通道注意力分支，提取全局注意力信息，监督多尺度特征的提取，最后使用卷积和激活函数的组合将多尺度特征回归为最终密度图，不仅可以用来进行无约束场景的人群密度估计，还可以用于原木、细胞等各项密集目标的密度估计。

Description

一种基于金字塔特征融合的人群密度估计方法

技术领域

本发明属于人群密度估计技术领域，涉及一种基于金字塔特征融合的人群密度估计方法。

背景技术

随着世界医疗技术日益进步，各国人口普遍呈增长趋势，同时，由于城市化进程不断推进，城市人口日益增多，在演出会场、旅游胜地、商业街、机场、火车站等公共场所日益频繁地出现大规模人群聚集，在人群密度过高的区域，极易发生各种安全事故，给安防工作带来了极大挑战，而人群密度估计可以实时监测场景内人群的聚集程度，及时发现高密度的人群并采取疏散措施。

早期的基于检测的人群密度估计方法多采用滑动窗口遍历图像，以统计图像中的人数。这些检测器多通过支持向量机、随机森林已经Boosting等方法训练得到，用来提取低层特征来监测行人，该类方法在人群稀疏的场景中表现良好，但在密集场景下，目标间的相互遮挡导致无法精确检测到行人，因此该类算法精度极低。

针对上述问题，基于回归的方法出现，该类方法通过将低级特征直接映射为人数，来实现密度估计，基于回归的方法通常包括两步，第一步为特征提取，提取纹理特征、边缘特征等低级特征；第二步为回归，即利用线性回归、岭回归、高斯函数和随机森林等回归模型，将特征映射为人数，此类方法有效地解决了遮挡问题，但无法获取图像中的人群分布情况。

为了准确预测密集人群的人数，同时保留人群分布信息，基于深度学习的方法采用预测密度图的思路，使用卷积神经网络对输入图像进行特征提取，回归成人群密度图，为解决尺度变化问题，现阶段的人群密度估计网络多采用多通道的网络结构，在不同感受野下提取多尺度特征，在精度上取得较大提升，但是该类方法大多采用独立的多个通道，其多尺度特征提取能力有限，还有的方法虽引入了通道间的特征融合，但其采用的无差别化特征融合会造成特征过度融合，各个通道的特征逐渐趋同，导致精度降低；除了使用多通道的网络结构提取多尺度特征以外，注意力机制的引入能有效抑制背景特征的干扰，过滤部分无效计数，从而提升整体精度。

由此可见，针对复杂背景下的高密度人群密度估计精度不高的技术问题，急需更有效的人群密度估计方法。

发明内容

本发明的目的在于克服现有技术的不足，设计提供一种基于金字塔特征融合的人群密度估计方法，用来解决多尺度目标感知困难的问题，可用于非受限实际场景的人群密度估计人去中，能够准确的实现密度估计。

为实现上述目的，本发明实现人群密度估计的具体过程为：

（1）数据集生成：对人群公开数据集的标注信息进行处理，使用高斯核模糊标注信息中的标注点，以形成训练所需的真实密度图，并采用裁剪和翻转的方式将数据集进行增广，以获取更多的训练数据图像；

（2）主干网络特征提取：将步骤（1）得到的图像输入到主干网络中进行卷积特征提取，获得初步特征；

（3）金字塔特征融合：根据步骤（2）得到的初步特征，使用金字塔特征融合模块进一步提取并输出多尺度特征；

（4）密度图回归：采用密度图回归器将步骤（3）输出的多尺度特征解码为人群密度图，实现人群密度的估计。

作为本发明的进一步技术方案，步骤（1）中模糊标注信息中的标注点时，对人群密度高的人群图像采用几何自适应高斯核，对人群密度低的人群图像采用标准差为15的高斯核。

作为本发明的进一步技术方案，步骤（2）所述主干网络使用VGG16前十三层作为特征提取网络，该主干网络由3×3卷积层和最大池化层组成，主干网络输出特征的尺寸为输入图像的1/8，在后期特征融合和密度图回归阶段中可有效减小计算量，提高模型处理速度。

作为本发明的进一步技术方案，步骤（3）所述金字塔特征融合模块在不同分支间引入跨分支的信息传递路径，灵活地聚合不同分支的多尺度特征，同时引入注意力分支，获取空间注意力信息，增强对人群区域的关注，具体包括如下步骤：

（31）给定输入特征图F，为获取不同感受野下的多尺度特征，金字塔特征融合模块使用空洞率分别为1、2、3、4的3×3空洞卷积处理输入特征，经不同空洞率空洞卷积提取的多尺度特征分别表示为F ₁ 、F ₂ 、F ₃ 、F ₄；

（32）将空洞卷积提取的多尺度特征自下而上跨分支融合，先将F ₁与F ₂经concat操作串联在一起，使用3×3卷积操作将串联特征融合，并引入ReLU激活函数，将融合后特征图中的负值置为0，减小计算量；同时将正值进行线性变换，防止出现梯度消失和梯度饱和问题，加速网络收敛，融合后的特征表示为P ₂；后续采用相同的融合策略，依次将P ₂与F ₃融合得到P ₃，将P ₃与F ₄融合得到P ₄，则聚合了其他分支特征信息的多尺度特征P ₁ 、P ₂ 、P ₃ 、P ₄具体表示为：

，

式中R为ReLU激活函数， C _3×3代表3×3普通卷积，

代表串联操作；

（33）将特征P ₁ 、P ₂ 、P ₃ 、P ₄进行自上而下的跨分支融合，使用多尺度空洞卷积，引入ReLU激活函数处理多尺度特征，得到输出特征M ₁ 、M ₂ 、M ₃ 、M ₄，具体表示为：

，

式中式中DC _i为空洞率为i的3×3空洞卷积，然后将四个分支的输出特征串联，引入3×3卷积聚合不同分支特征，得到多尺度特征M；

（34）在金字塔特征融合模块引入注意力分支，利用全局平均池化操作获取逐通道的注意力信息，其中

为A的第c个通道的元素，具体表示为：

，

式中F _c为输入特征F第c个通道的特征信息，H和W分别为特征图的高和宽；A经一个 3×3卷积和一个像素级卷积操作处理后形成注意力信息

，将

与输出的多尺度特征逐像素相乘，得到输出特征

，具体表示为：

。

作为本发明的进一步技术方案，步骤（4）所述密度图回归器使用四组卷积层和ReLU激活函数的组合，其中前三组卷积层采用3×3卷积层，最后一组采用1×1卷积层。

本发明使用VGG-16的前十三层作为主干网络，进行初步的特征提取，然后针对多尺度目标感知难得问题，设计了金字塔特征融合模块，采用不同空洞率的空洞卷积提取多尺度特征，并将多尺度特征进行自下而上和自上而下两阶段的特征融合，增强网络的尺度感知能力；同时，针对复杂背景被误判为目标的问题，设计通道注意力分支，提取全局注意力信息，监督多尺度特征的提取，最后使用卷积和激活函数的组合将多尺度特征回归为最终密度图。

本发明与现有技术相比，使用更精简的网络结构，聚合多尺度特征，获取更具尺度感知能力的网络模型，采用金字塔特征融合模块，在多个拥有不同感受野的独立分支基础上，进行自下而上和自上而下两阶段的特征传递，聚合不同分支的特征信息，从而增强网络的多尺度空间信息聚合能力；同时在金字塔特征融合模块中引入注意力分支，获取通道注意力，增强网络对人群区域的感知，抑制背景区域特征的激活，不仅可以用来进行无约束场景的人群密度估计，还可以用于原木、细胞等各项密集目标的密度估计，该方法在ShanghaiTech数据集上将平均绝对误差（MAE）降低到了59.3，在UCF_CC_50数据集上将MAE降低到了175.0。

附图说明

图1为本发明所述人群密度估计网络的结构框架示意图。

图2为本发明所述金字塔特征融合模块结构示意图。

图3为本发明所述密度图回归模块结构示意图。

图4为本发明所述人群密度估计的工作流程框图。

具体实施方式

下面结合附图并通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

实施例：

本实施例通过主干提取卷积特征，然后使用四个并行的分支进一步提取多尺度特征，同时引入注意力分支，将注意力集中于人群所在区域，最后多尺度特征经密度图回归器处理得到最终密度图，具体包括如下步骤：

（1）数据集生成：对人群公开数据集的标注信息进行处理，使用高斯核模糊标注信息中的标注点，以形成训练所需的真实密度图，其中，对人群密度高的人群图像，使用几何自适应高斯核，对人群密度低的人群图像，使用标准差为15的高斯核；然后采用裁剪和翻转的方式将数据集进行增广，以获取更多的训练数据图像；

（2）主干网络特征提取：先将图像输入到主干网络中进行卷积特征提取得到初步特征，其中主干网络使用VGG16前十三层作为特征提取网络，该主干网络仅由3*3卷积层和最大池化层组成，结构简单且特征提取能力强，由于主干网络中引入了三个最大池化层，因此主干网络输出特征的尺寸为输入图像的1/8，在后期特征融合和密度图回归阶段中可有效减小计算量，提高模型处理速度；

（3）金字塔特征融合：根据步骤（3）得到的初步特征，使用金字塔特征融合模块进一步提取多尺度特征，金字塔特征融合模块在不同分支间引入跨分支的信息传递路径，灵活地聚合不同分支的多尺度特征，同时引入注意力分支，获取空间注意力信息，增强对人群区域的关注，包括四个步骤，具体如下：

（31）给定输入特征图F，为获取不同感受野下的多尺度特征，金字塔特征融合模块使用空洞率分别为1、2、3、4的3×3空洞卷积处理输入特征，相比于普通的3×3、5×5、7×7和9×9的卷积层，金字塔特征融合模块采用的多尺度空洞卷积在保证感受野相同的前提下需要的参数更少，经空洞卷积提取的多尺度特征表示为F ₁ 、F ₂ 、F ₃ 、F ₄；

（32）将空洞卷积提取的多尺度特征自下而上跨分支融合，首先将F ₁与F ₂经concat操作串联在一起，使用3×3卷积操作将串联特征融合，由于融合后的特征图中包含负值，均为无用信息，因此，本实施例引入ReLU激活函数，将负值置为0，减小计算量；同时，将正值进行线性变换，防止出现梯度消失和梯度饱和问题，加速网络收敛，融合后的特征表示为P ₂，后续采用相同的融合策略，依次将P ₂与F ₃融合得到P ₃，将P ₃与F ₄融合得到P ₄，聚合了其他分支特征信息的多尺度特征P ₁ 、P ₂ 、P ₃ 、P ₄具体表示为：

，

式中R为ReLU激活函数， C _3×3代表3×3普通卷积，

代表串联操作；

（33）将特征P ₁ 、P ₂ 、P ₃ 、P ₄进行自上而下的跨分支融合，与步骤（32）不同的是步骤（33）使用了多尺度空洞卷积，在多局部感受野下感知其他分支的特征信息，从而保留更多的多尺度特征，并引入ReLU激活函数处理多尺度特征，得到输出特征M ₁ 、M ₂ 、M ₃ 、M ₄，具体表示为：

，

式中DC _i为空洞率为i的3×3空洞卷积；然后将四个分支的输出特征串联，引入3×3卷积聚合不同分支特征，得到多尺度特征M；

（34）由于每个卷积核只有一个局部感受野，多尺度特征M缺少上下文信息，导致网络灵敏度降低，针对这一问题，在金字塔特征融合模块引入注意力分支，利用全局平均池化操作获取逐通道的注意力信息，其中

为A的第c个通道的元素，具体表示为：

，

，将

与输出的多尺度特征逐像素相乘，得到输出特征

，具体表示为：

；

（4）密度图回归：在密度图回归阶段，密度图回归器使用四组卷积层和ReLU激活函数的组合，将步骤（34）的输出特征解码为人群密度图，密度图回归器的前三组卷积层使用3×3卷积层，最后一组使用1×1卷积层，卷积和ReLU激活函数的组合可以在卷积层进行线性变换之后引入非线性变换，增强网络的非线性表达能力。

需要注意的是，本文中未公开的算法和图像处理方法均采用本领域通用技术，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的，因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于金字塔特征融合的人群密度估计方法，其特征在于，具体过程为：

（3）金字塔特征融合：根据步骤（2）得到的初步特征，使用金字塔特征融合模块进一步提取并输出多尺度特征；其中金字塔特征融合模块在不同分支间引入跨分支的信息传递路径，灵活地聚合不同分支的多尺度特征，同时引入注意力分支，获取空间注意力信息，增强对人群区域的关注，具体包括如下步骤：

（32）将空洞卷积提取的多尺度特征自下而上跨分支融合，先将F ₁与F ₂经concat操作串联在一起，使用3×3卷积操作将串联特征融合，并引入ReLU激活函数，将融合后特征图中的负值置为0，同时将正值进行线性变换，融合后的特征表示为P ₂；后续采用相同的融合策略，依次将P ₂与F ₃融合得到P ₃，将P ₃与F ₄融合得到P ₄，则聚合了其他分支特征信息的多尺度特征P ₁ 、P ₂ 、P ₃ 、P ₄具体表示为：