CN113743422B

CN113743422B - 多特征信息融合的人群密度估计方法、设备及存储介质

Info

Publication number: CN113743422B
Application number: CN202111045858.6A
Authority: CN
Inventors: 孟月波; 陈宣润; 占华; 刘光辉; 徐胜军
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2024-05-03
Anticipated expiration: 2041-09-07
Also published as: CN113743422A

Abstract

本发明公开一种多特征信息融合的人群密度估计方法、设备及存储介质，具体步骤为，构建训练数据集，对训练数据集进行预处理；构建并训练多特征信息融合卷积神经网络，得到多特征信息融合的人群密度估计模型；所述多特征信息融合卷积神经网络分为上下两层，上层包括VGG16前10层，下层包括VGG16前10层后衔接的空间注意力透视网络、多尺度信息聚合网络、语义嵌入融合网络以及后端空洞卷积网络；使用多特征信息融合的人群密度估计模型对待检测数据集中的人群密度进行检测，输出最终的人群密度图；本发明提高了人群密度估计模型的准确度与鲁棒性，提升人群密度估计方法的性能，为人群密度估计算法在工业当中的实际部署落地做出有益尝试。

Description

多特征信息融合的人群密度估计方法、设备及存储介质

技术领域

本发明属于人群密度估计技术领域，具体涉及一种多特征信息融合的人群密度估计方法、设备及存储介质。

背景技术

随着国民经济迅猛发展及城市化进度不断加快，城市人口数量急剧增加，由此带来的社会问题也不断增加，群众因各种原因可能聚集在不同的场景下，易造成交通拥堵、人员踩踏等不安全事故的发生，因此人群密度估计在视频监控、公共安全、城市规划等诸多领域具有较高的应用价值。

基于检测的人群计数方法主要是通过类似滑动窗口探测器检测图像中人员全身或者诸如脸、头等局部位置，但此方法对遮挡较多人群，存在计算量大、精度较差等问题；MCNN通过多列CNN结构并行提取多尺度信息，解决一定程度上的视角变化问题，但多列结构每一列具有相似的学习功能，视角的变化使得多列卷积核大小难以适用一些视角情况；CSRNet利用单列卷积神经网络VGG-16，在网络后端添加空洞卷积以扩大感受野，同时缩减网络参数，但其对空间信息的提取以及深度特征的提取能力较差；CAN针对尺度信息获取困难的问题，通过学习每个特征对图像位置的重要性，结合多特征信息结果，从而获取尺度上下文信息，但其对稀疏和较复杂场景时，因背景干扰及特征提取能力的问题，会导致错误的预测。

由上述可知，上下文信息、多列结构为多尺度的学习提供了一种有效手段，在一定程度上可以解决视角变化问题，但上述方法仍无法解决视角变化导致的全局上下文信息提取能力差、特征融合不充分、及特征空间信息丢失等问题，导致网络最终估计精度低，效果差。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种多特征信息融合的人群密度估计方法、设备及存储介质，该方法利用骨架网络输出结果得到高层语义信息，并通过空间注意力透视网络来聚合图像的空间全局上下文信息，同时通过多尺度非对称卷积与不同膨胀率的空洞卷积组合使提取到的语义信息与尺度信息表达能力更强；最后使用语义嵌入的方法，将空间信息引入表达更强的高层语义信息，将高层语义信息引入低层空间信息，增强特征表达，以获取高质量的密度图，更准确的预估人群人数。

为实现上述目的，本发明提供如下技术方案：一种多特征信息融合的人群密度估计方法，具体步骤如下：

S1构建训练数据集，对训练数据集进行预处理；

S2构建并训练多特征信息融合卷积神经网络，得到多特征信息融合的人群密度估计模型；所述多特征信息融合卷积神经网络分为上下两层，上层包括VGG16前10层，下层包括VGG16前10层后衔接的空间注意力透视网络、多尺度信息聚合网络、语义嵌入融合网络以及后端空洞卷积网络；

S3使用多特征信息融合的人群密度估计模型对待检测数据集中的人群密度进行检测，输出最终的人群密度图。

进一步的，步骤S2中，

1)构建多特征信息融合的人群密度估计网络，将基础骨架VGG16中的第二、三、十层的结果分别输出，生成一组不同分辨率的初始特征图；

2)将第十层的初始特征图输入多尺度信息聚合网络，多尺度信息聚合网络通过多尺度非对称卷积捕捉第十层的特征图的多尺度特征，通过不同膨胀率的空洞卷积扩大多尺度特征的群感受野，得到多尺度图像上下文信息F_M；

3)将第十层的特征图输入空间注意力透视网络，空间注意力透视网络对第十层的初始特征图进行四个方向的卷积得到四张特征图，对得到的特征图进行融合，得到空间全局上下文信息F_P；

4)将第二、三层的初始特征图与步骤2中的多尺度图像上下文信息F_M在语义嵌入融合网络中进行语义嵌入上采样，语义上采样后再进行语义嵌入融合得到语义嵌入特征图F_SE。

5)将步骤3)空间全局上下文信息F_P和步骤2)中的多尺度图像上下文信息F_M拼接后输入空洞卷积网络第一层，步骤4)得到的语义嵌入特征图F_SE输入空洞卷积网络第五层，通过后端空洞卷积网络输出得到预测密度图M；

6)根据预测密度图M与对应真值图计算人群密度估计损失值，利用人群密度估计损失值对所述多特征信息融合的人群密度估计网络进行训练得到多特征信息融合的人群密度估计模型。

进一步的，步骤2)中，所述多尺度非对称卷积采用1×1、3×3、5×5三种不同卷积核尺寸，所述多尺度非对称卷积包括训练和部署两个阶段，其中训练阶段为将现有网络每一个3×3卷积层替换成3×3、3×1、1×3三个卷积层，所述部署阶段为融合三个卷积核再对初始特征图进行卷积。

进一步的，步骤2)中，所述不同空洞率的空洞卷积包括rate＝1、rate＝3和rate＝5的3×3扩张卷积。

进一步的，步骤3)中，所述四个方向的卷积依次为从左到右，从右到左，从上到下，从下到上的卷积。

进一步的，步骤4)中，所述语义嵌入融合如公式(3)所示：

m_l＝Upsample(m_l)+F(m_l-1,m_l)， (3)

F_SE＝m₃，式中，l＝[1,2,3]，F(﹒)函数功能为矩阵逐元素相乘操作，Uupsample(m_l)为对第l层的特征进行上采样，利用此方法从高级特征中引入更多的语义信息来提升特征融合的质量。

进一步的，步骤5)中，所述后端空洞卷积网络为六层。

进一步的，步骤S1中，所述预处理为对训练数据集进行数据增强。

本发明还提供一种计算机设备，所述计算机设备包括计算机、服务器或者其他具有计算功能的终端设备，所述设备包括通过总线连接的处理器、存储器，所述存储器中储存程序，并且该程序被配制成由处理器执行，程序包括用于执行上述多特征信息融合的人群密度估计方法。

本发明还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述程序被处理器执行，处理器执行所述计算机程序时，实现上述多特征信息融合的人群密度估计方法。

与现有技术相比，本发明至少具有以下有益效果：

本发明公开一种多特征信息融合的人群密度估计方法，该方法利用基于VGG16前10层构成的卷积神经网络构建人群密度估计网络，利用骨架网络生成包含高层语义信息的特征图，而后同时利用空间注意力透视网络与多尺度信息聚合网络，生成包含注意力信息的全局空间上下文信息与包含多尺度的特征信息，最后通过细致语义特征嵌入融合方式，补充高层特征图的空间信息及低层特征图语义信息，并使上下文信息与尺度信息相互补充，提高了模型的准确度与鲁棒性，提升人群密度估计方法的性能，为人群密度估计算法在工业当中的实际部署落地做出有益尝试。

附图说明

图1为本发明多特征信息融合的人群密度估计模型匹配的流程图；

图2为本发明多特征信息融合的人群密度估计网络结构图；

图3为本发明空间注意力透视网络结构图；

图4为本发明多尺度信息聚合网络结构图；

图5为本发明在ShanghaiTech数据集的结果展示，其中图(a)为原图、图(b)为真值图、图(c)为预测密度图；

图6为本发明在Mall数据集的结果展示，其中图(a)为原图、图(b)真值图、图(c)预测密度图；

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的说明。

本发明提供一种多特征信息融合的人群密度估计方法，其流程图如图1所示：

1.ShanghaiTech数据集及Mall数据集密度图制作，并对数据集图像进行预处理。

具体步骤包括：

下载ShanghaiTech数据集及Mall数据集图像，并对其图像进行数据筛查，确保数据图像的完整性。而后利用真值图生成程序，生成代表人群分布密度位置的特殊高亮真值密度图，程序核心采用高斯卷积核构成的密度函数F(x)：

其中，函数δ(x-x_i)表示人头标记点图像x中第i个坐标为xi的人头标记点的密度平滑区域，区域大小与积分为1的自适应高斯滤波器一致，N为图像中人头标记点总数，*表示卷积运算。为避免漏检，采用自适应高斯滤波器/>与δ(x-x_i)进行卷积，其中滤波器大小/>式中，/>表示标记点x_i与其最近的K个人头之间的平均距离。经大量实践验证，参数β＝0.3时生成的密度图质量最好。并将ShanghaiTech数据集及Mall数据集按照3:1及1:1比例分别划分为检测训练数据集和测试数据集，并分别对检测训练数据集的图像进行预处理得到预处理训练数据集。

预处理阶段，本发明采用数据增强方法，对样本图像随机进行裁剪、旋转、放缩等操作，扩充数据集样本数量，增强CNN模型的鲁棒性。

2.构造多特征信息融合的人群密度估计网络。具体步骤包括：

如图2所示，基于多特征信息融合卷积神经网络结构包含：基础骨架网络(VGG-16)，空间注意力透视网络(Perspective of spatial attention，PSA)，多尺度信息聚合网络(Multi-Scale Information Aggregation，MSIA)、语义嵌入融合网络以及空洞卷积网络。

首先，利用基础骨架网络(VGG-16)生成初始特征图{F₂，F₃，F₁₀}；然后，将初始特征图F₁₀分别送入PSA网络及MSIA网络，获取特征图的空间全局上下文信息F_P和多尺度图像上下文信息F_M；之后，将第二、三层的特征图F₂和F₃以及多尺度图像上下文信息F_M送入语义嵌入融合网络，进行语义嵌入上采样，通过语义特征嵌入融合的方式，获得语义嵌入特征图F_S；其次，MSIA得到的多尺度图像上下文信息F_M、PSA网络得到的空间全局上下文信息F_P融合后与语义嵌入特征图F_SE输入空洞卷积网络，最终输出预测密度图M，完成整体多特征信息融合人群密度估计网络的构建。

3.基础骨架网络的执行，具体步骤包括：

将预处理训练数据集中的图像送入VGG16前十层，在图像卷积运算的过程中，第二、三、十层分别生成一组不同分辨率的初始特征图，将初始特征图标记为{F₂，F₃，F₁₀}。

4.空间注意力透视网络的构建。具体步骤包括：

首先，空间注意力透视网络PSA结构如图3所示，由四个卷积类型(从左到右，从右到左，从上到下，从下到上)组成，分别处理四个方向，本发明将聚合方向称作左(Left)，右(Right)，上(Up)，下(Down)四个方向以及相对应的注意力机制(Attention)。

其中，以Left方向为例，对卷积过程进行说明。初始特征图F₁₀作为输入特征图，其大小为C×H×W，其中C为上一卷积层的卷积核的个数，H为特征图的高度，W为特征图的宽度。将输入特征图F的宽度W均分为等份N，则输入特征图F可被分为N个大小为的特征块，用/>表示第i个特征块，i∈[1，N]。

Left方向卷积层由大小的卷积核c与ReLU激活函数组成。按照公式(2)进行Leftto Right卷积过程运算。将特征块送入Left方向卷积层后，生成一个与/>同样大小的特征块，记作/>将/>与/>加和送入Left方向卷积层得到/>经过不断迭代之后，输出第N个特征块/>最后，将/>连接起来，生成Left层输出的特征图FD，其大小为C×H×W，与输入特征图F尺寸一致。

式中，L(*)表示进行Left方向卷积层(Conv+ReLU)运算。在空间注意力透视网络PSA中，其他三个方向Right，Up，Down的操作，除滑动方向不同外，计算与Left方向类似，将不同方向得到的结果最后进行拼接，获取特征图的空间全局上下文信息F_P，减少背景噪声的影响，提升有效信息的获取能力。

5.多尺度信息聚合网络(MSIA)的构建。具体步骤包括：

首先，多尺度信息聚合网络(MSIA)如图4所示，初始特征图标F₁₀作为输入特征图F，即输入为VGG16第十层的特征图，其大小为C×H×W，将输入特征图F进行多尺度非对称卷积与不同膨胀率的空洞卷积操作，得到多个中间过程特征图，将多个中间过程特征图进行有效融合，获得拥有更佳人员特征信息提取性能的多尺度信息聚合网络(MSIA)的输出特征图，即上文中提到的多尺度图像上下文信息F_M。MSIA网络主要由不同卷积核尺寸的多尺度非对称卷积与不同扩张率的空洞卷积组成，两者结合用以模拟神经学中人眼感受野与离心率的变化，增强特征表达能力。

其中，多尺度非对称卷积采用1×1、3×3、5×5三种不同卷积核尺寸，非对称卷积增大对信息熵较大位置的信息提取，从而增强平方卷积核，提升获取图像特征的能力，其实质是一种提升特征表达的方法，其分为训练和部署两个阶段。

训练阶段：对卷积核进行额外的参数训练，利用训练后的卷积核参数初始化多尺度信息聚合网络(MSIA)，将现有网络每一个3×3卷积层替换成3×3、3×1、1×3三个卷积层，在于强化特征提取，实现效果提升。

部署阶段：将三个卷积核做融合后，对输入特征图F进行先卷积后融合的结果，与先融合卷积核再对输入特征图F进行卷积的结果是一样的。部署阶段通过融合卷积核，可以达到结构不改变、不增加计算量、提升特征提取能力的目的。

其中，不同空洞率的空洞卷积如图4所示，图中rate＝1表示标准的3×3卷积，其感受野仅为3×3；图中rate＝3表示扩张率为3的3×3扩张卷积，其感受野可达9×9；图中rate＝5表示扩张率为5的3×3扩张卷积，其感受野可达19×19。

最后，多尺度非对称卷积核负责捕获多尺度特征，对应不同扩张率的空洞卷积负责扩大群感受野，降低参数量的同时保留多尺度特征和图像上下文信息，最终得到高质量、更丰富语义的特征图的多尺度图像上下文信息F_M。

6.语义嵌入融合网络的构建。具体步骤包括：

本发明利用多尺度的结构，将初始特征图F₂和F₃与多尺度信息聚合网络得到的多尺度图像上下文信息F_M进行自低向上融合，得到包含丰富尺度信息的语义嵌入特征图F_SE，增加低层特征的语义信息，改进低层的语义信息。

具体的，语义嵌入融合如公式(3)所示：

m_l＝Upsample(m_l)+F(m_l-1，m_l)， (3)

7.后端空洞卷积网络

设计包含6层的后端空洞卷积网络，将融合得到的具有多尺度结构的语义嵌入特征图F_SE送入后端空洞卷积网络的第五层，将空间全局上文信息F_P和多尺度图像上下文信息F_M拼接并送入后端空洞卷积网络第一层，通过后端空洞卷积网络第六层输出得到预测密度图M；

8.损失计算，具体步骤包括：

将预处理训练数据集送入多特征信息融合卷积神经网络得到预测密度图M，利用损失函数，通过欧氏距离计算预测密度图M的损失值，并采用Adam优化算法训练多特征信息融合卷积神经网络，获得最终的多特征信息融合卷积神经网络模型参数。

本发明的工作原理：

第一步，下载人群密度数据集ShanghaiTech及Mall，构建人群密度估计网络训练数据集，用于训练本方法所设计的网络；

第二步，构造多特征信息融合的人群密度估计网络，其基础骨架为VGG16前10层，提取将第二、三、十层的初始特征图，将初始特征图标记为{F₂，F₃，F₁₀}，后端衔接空间注意力透视网络与多尺度信息聚合网络，同时利用语义嵌入融合网络，补充高层特征图的空间信息及低层特征图语义信息；

第三步，空间注意力透视网络的执行，输入初始特征图F₁₀，利用四个卷积类型(从左到右，从右到左，从上到下，从下到上)，分别处理四个方向，且每个方向的特征块之间相互融合，特征结果相互影响，因此可将其中一个方向输出结果视为图像特征的一个聚合表示，对于不同的列，由于计算顺序不一致，每列聚合信息不同，这与视角变化是一一对应的，可获取对应的空间全局上文信息F_P；

第四步，多尺度信息聚合网络的构造，输入初始特征图F₁₀，利用多尺度非对称卷积与不同膨胀率的空洞卷积构造多尺度类分支，多尺度卷积核负责捕获多尺度特征，对应不同扩张率的空洞卷积负责扩大群感受野，降低参数量的同时保留多尺度特征和图像上下文信息，以模拟人眼感受野与离心率变化，重塑最终的表达，获取多尺度图像上下文信息F_M；

第五步，语义嵌入融合网络的构造，将初始特征图F₂和F₃与多尺度信息聚合网络得到的多尺度图像上下文信息F_M进行自低向上融合，得到包含丰富尺度信息的语义嵌入特征图F_SE；

第六步，将包含丰富尺度信息的语义嵌入特征图F_SE送入空洞卷积网络的第五层，将空间全局上文信息和多尺度图像上下文信息拼接并送入空洞卷积网络第一层，通过后层空洞卷积网络输出得到预测密度图M；

第七步，损失计算，根据人群预测密度图M与对应真值图，计算人群密度估计损失；

第八步，人群密度预测，采用训练及调整参数后的人群密度估计网络，预测数据集中测试集的人群人数及输出最终的密度图，实现人群密度估计。

本发明还提供一种计算机设备，该计算机设备可以是计算机，其包括通过总线连接的处理器、存储器，所述存储器中储存程序，并且该程序被配制成由处理器执行，程序包括用于执行上述多特征信息融合的人群密度估计方法。

上述计算机设备还可以是服务器或者是其他具有计算功能的终端设备。

本发明还提供一种计算机存储介质，其存储有计算机程序，所述程序被处理器执行，处理器执行存储器存储的计算机程序时，实现上述多特征信息融合的人群密度估计方法。

图5、图6为本发明在不同数据集ShanghaiTech及Mall的部分实验结果展示，其中图5中(a)为本发明在ShanghaiTech数据集中的原图，图(b)为真值图、图(c)为最终预测密度图及预测人数与真值人数对比结果，图6中(a)本发明在Mall数据集中的原图，图(b)为真值图、图(c)为最终预测密度图及预测人数与真值人数对比结果。从图中可以看出，本发明提出的人群密度估计方法，可有效改善二维图像中视角变化呈现较大差异、特征空间信息丢失、尺度特征及人群特征提取困难等问题，能较好的弱化视角变化带来的影响，人群密度估计性能更佳。

表1算法复杂度对比分析

由表1可以看出，Switch-CNN模型网络结构最大，运行速度也最慢；Zhang模型较小，但其采用全连接层导致速度较慢；MCNN、MSCNN模型采用了多列结构的同时，使用了尺寸较大的卷积核，导致模型参数量较高，运行速度较慢。

相较而言，本发明模型相对较小，且模型运行度较快。分析原因有以下3点：1)本发明所提模型运用了空洞卷积思想，在扩大感受野的基础上大大减少了参数量；2)本发明的多尺度信息模块部分，虽采用额外训练时间增强了卷积核的特征提取能力，但不影响模型速度，并且因采用组合卷积核的模式，在保留上下文信息的同时降低了参数量；3)本发明模型中拖慢速度及增大模型大小的原因是空间注意力透视网络，因其在获取图像的空间全局上下文信息时，卷积递进的过程增大模型大小、降低模型速度。

Claims

1.一种多特征信息融合的人群密度估计方法，其特征在于，具体步骤如下：

S1构建训练数据集，对训练数据集进行预处理；

S3使用多特征信息融合的人群密度估计模型对待检测数据集中的人群密度进行检测，输出最终的人群密度图；

步骤S2中，

1）构建多特征信息融合的人群密度估计网络，将基础骨架VGG16中的第二、三、十层的结果分别输出，生成一组不同分辨率的初始特征图；

2）将第十层的初始特征图输入多尺度信息聚合网络，多尺度信息聚合网络通过多尺度非对称卷积捕捉第十层的特征图的多尺度特征，通过不同膨胀率的空洞卷积扩大多尺度特征的群感受野，得到多尺度图像上下文信息F_M；

3）将第十层的特征图输入空间注意力透视网络，空间注意力透视网络对第十层的初始特征图进行四个方向的卷积得到四张特征图，对得到的特征图进行融合，得到空间全局上下文信息F_P；

4）将第二、三层的初始特征图与步骤2中的多尺度图像上下文信息F_M在语义嵌入融合网络中进行语义嵌入上采样，语义上采样后再进行语义嵌入融合得到语义嵌入特征图F_SE；

5）将步骤3）空间全局上下文信息F_P和步骤2）中的多尺度图像上下文信息F_M拼接后输入空洞卷积网络第一层，步骤4）得到的语义嵌入特征图F_SE输入空洞卷积网络第五层，通过后端空洞卷积网络输出得到预测密度图M；

6）根据预测密度图M与对应真值图计算人群密度估计损失值，利用人群密度估计损失值对所述多特征信息融合的人群密度估计网络进行训练得到多特征信息融合的人群密度估计模型。

2.根据权利要求1所述的一种多特征信息融合的人群密度估计方法，其特征在于，步骤2）中，所述多尺度非对称卷积采用、/>、/>三种不同卷积核尺寸，所述多尺度非对称卷积包括训练和部署两个阶段，其中训练阶段为将现有网络每一个/>卷积层替换成/>三个卷积层，所述部署阶段为融合三个卷积核再对初始特征图进行卷积。

3.根据权利要求1所述的一种多特征信息融合的人群密度估计方法，其特征在于，步骤2）中，所述不同膨胀率的空洞卷积包括rate=1、rate=3和rate=5的3×3扩张卷积。

4.根据权利要求1所述的一种多特征信息融合的人群密度估计方法，其特征在于，步骤3）中，所述四个方向的卷积依次为从左到右，从右到左，从上到下，从下到上的卷积。

5.根据权利要求1所述的一种多特征信息融合的人群密度估计方法，其特征在于，步骤4）中，所述语义嵌入融合算法如公式（3）所示：

，(3)

F_SE=，式中，l=[1,2,3]，/>函数功能为矩阵逐元素相乘操作，Uupsample(m_l)为对第l层的特征进行上采样。

6.根据权利要求1所述的一种多特征信息融合的人群密度估计方法，其特征在于，步骤5）中，所述后端空洞卷积网络为六层。

7.根据权利要求1所述的一种多特征信息融合的人群密度估计方法，其特征在于，步骤S1中，所述预处理为对训练数据集进行数据增强。

8.一种计算机设备，其特征在于，所述计算机设备包括计算机、服务器或者其他具有计算功能的终端设备，所述设备包括通过总线连接的处理器、存储器，所述存储器中储存程序，并且该程序被配制成由处理器执行，程序包括用于执行权利要求1-7中任一项中所述的多特征信息融合的人群密度估计方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序，所述程序被处理器执行，处理器执行所述计算机程序时，实现权利要求1-7中任一项中所述的多特征信息融合的人群密度估计方法。