CN114445765A

CN114445765A - 一种基于编解码结构的人群计数和密度估计方法

Info

Publication number: CN114445765A
Application number: CN202111619982.9A
Authority: CN
Inventors: 黄继风; 邹敏; 姜康; 黄子平; 陈海光; 林晓
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-05-06

Abstract

本发明涉及一种基于编解码结构的人群计数和密度估计方法，包括以下步骤：A、根据人群拥挤场景的监控视频获取人群图像；B、根据人群图像构建训练数据集；C、构建人群计数和密度估计模型；D、采用训练数据集对人群计数和密度估计模型进行训练；E、若模型训练的轮次达到设定的迭代值，则保存模型并执行步骤F，否则，返回步骤D；F、将待预测的人群图像输入训练好的人群计数和密度估计模型中，预测对应的人群数量和密度。与现有技术相比，本发明利用分类网络的多尺度特征提取人群不同尺度的特征信息，有效提升模型的性能；同时能够获得与原图像同等分辨率的预测密度图，有效的估计出区域的人群密度和人群总数量。

Description

一种基于编解码结构的人群计数和密度估计方法

技术领域

本发明涉及公共场所人群监控领域，尤其是涉及一种基于编解码结构的人群计数和密度估计方法。

背景技术

随着近年来旅游业的快速发展，很多公共场所都会存在人群拥挤现象，而过度的人群拥挤可能会发生人群踩踏事件，所以预防公共场所的人群过度拥挤是一项重大的研究工作。目前原始的手段是安排安保人员进行实时监控或是现场调度，或者是事故后调用监控视频进行分析，这种方案效率低下，人力和物力的成本都是非常大的，为了预防人群拥挤现象，进一步避免人群踩踏事件的发生，建立有效的人群计数和密度估计模型，能够帮助我们提前了解公共场所的人群密度，帮助监管部门提前做出预防措施。

在现有的人群计数方案中，主要是检测法和回归法，检测法主要是通过滑动窗口的方式检测行人身体或者身体的某个部位来统计其数量，但这类方法很难检测人群之间存在遮挡的情况；而回归法是通过找到人群图像和人群数量之间的一一映射关系，通过这组映射关系能够预测任意一幅人群图像的人群数量，这类只能进行计数，且易忽视人群的空间分布信息，难以定位到某个行人的具体位置。

随着近年来深度学习的广泛应用，深度学习也逐渐应用至人群计数领域中。这些方法大体可以分为两类：第一类是单列模型方案，其中以CSRNet等为代表的单列模型，虽然能够达到不错的计数效果，但是容易忽视人群的低维特征信息；第二类是特征融合方案，针对多列或者权重图的方式来对不同维度的特征图进行融合，其中以MCNN等为代表的计数模型，这类模型的参数量过大，且会造成参数冗余。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于编解码结构的人群计数和密度估计方法，用以通过视频准确监控人群并预防人群拥挤现象。

本发明的目的可以通过以下技术方案来实现：

一种基于编解码结构的人群计数和密度估计方法，该方法包括以下步骤：

A、根据人群拥挤场景的监控视频获取人群图像；

B、根据人群图像构建训练数据集；

C、构建人群计数和密度估计模型；

D、采用训练数据集对人群计数和密度估计模型进行训练；

E、若模型训练的轮次达到设定的迭代值，则保存模型并执行步骤F，否则，返回步骤D；

F、将待预测的人群图像输入训练好的人群计数和密度估计模型中，预测对应的人群数量和密度。

所述的步骤A具体包括以下步骤：

A1、根据监控设备获取人群拥挤场景的监控视频，并保存至服务器；

A2、将获取的监控视频按照设定的帧数间隔分解成多幅单帧的人群图像保存至服务器中。

所述的步骤B具体包括以下步骤：

B1、标记人群图像中的人头部，记录人头部在当前图像中的坐标，采用固定高斯核或自适应高斯核方法生成真实的人群密度图，作为人群计数和密度估计模型训练的目标对象；

B2、获取当前图像的分辨率，对图像进行裁剪，并且采用图片水平翻转、随机对比度以及随机亮度的方法扩充训练数据集。

所述的步骤B2中，对于拥挤场景采用自适应高斯核方法，其他场景采用固定高斯核方法，自适应高斯核方法的具体表达式为：

其中，K为当前人群图像中人头部的总个数，x_k表示图像中的第k个人头部坐标，

表示距离第k个人头部坐标x_k的4个相邻人头部的平均距离，β为常数，σ_k为高斯核参数，F(x)为生成的人群密度图，当采用固定高斯核方法时，高斯核参数σ_k则取值常数。

所述的步骤C中，人群计数和密度估计模型由主干网络、特征融合模块和解码器模块构成，所述的主干网络具体为改进分类型网络InceptionV3，所述的改进分类型网络InceptionV3具体是在原有InceptionV3架构基础上，删除了前五个卷积层中的两个最大池化层以及最底层的最大池化层和全连接层，保留五个inception块里所有的卷积层，所述的主干网络中从前五个卷积层引出第一个输出F₁并且分别从第一个、第三个和第五个Inception块引出不同维度的第二个输出F₂、第三个输出F₃和第四个输出F₄，则有：

F₁,F₂,F₃,F₄＝Backbone(X,θ_I)

其中，Backbone表示改进的InceptionV3主干网络，X表示输入的人群图像，θ_I表示主干网络的模型待训练参数。

所述的特征融合模块和解码器模块均设有三个，分别对应主干网络的前三个输出F₁,F₂,F₃，所述的第四个输出F₄通过一个软着陆模块降维映射后输入到第三个特征融合模块FFM₃中，则有：

F₄″＝Transition(F₄,θ_t)

其中，F″₄表示软着陆模块的输出，Transition表示软着陆模块，θ_t表示软着陆模块的模型待训练参数；

每个特征融合模块由卷积层和上采样层组成，用以保存低级的人群特征信息，其计算表达式为：

F_i′＝FFM_i(F_i,F″_i+1,θ_{ffm_i})

其中，F_i′为第i个特征融合模块FFM_i的输出，且i＝1,2,3，F_i为主干网络第i层的输出，且i＝1,2,3，当i＝1或2时，F″_i+1为第i+1个解码器模块的输出，当i＝3时，F″_i+1为软着陆模块的输出F₄″，θ_{ffm_i}表示第i个特征融合模块的模型待训练参数；

每个解码器模块由三个不同大小卷积核的卷积层组成，用以获取更精细的密度图，其计算表达式为：

F_i″＝FDM_i(F_i′,θ_{fdm_i})

其中，F_i″为第i个的解码器模块FDM_i的输出，且i＝1,2,3，θ_{fdm_i}为第i个解码器模块的模型待训练参数。

在第一个特征融合模块FFM₁的输出F₁″后，通过一个卷积层预测得到最终的人群密度图F，则有：

F＝Conv(F₁″,θ₀)

其中，Conv表示卷积层，θ₀为卷积层的模型待训练参数。

所述的步骤D中，对主干网络采用预训练好模型参数进行加载训练，对于除主干网络外的其他部分网络，采用训练数据集进行训练。

所述的步骤D中，训练人群计数和密度估计模型的总损失函数L_loss由人群欧几里得损失函数L(θ)和相对人群损失函数L_D(θ)组成，具体表达式为：

L_loss＝L(θ)+α*L_D(θ)

其中，θ表示参数模型，N表示训练集中图像的总数量，I(X_j,θ)表示模型预测的人数，X_j表示训练数据集中第j个原始输入图像，

表示训练集中第j个人群图片的人数，α为相对人群损失在总损失函数中所占的比。

所述的步骤F具体包括以下步骤：

F1、将待预测的人群图像输入到训练好的人群计数和密度估计模型中，得到预测的人群密度图；

F2、根据预测的人群密度图进行积分的得到人群数量。

与现有技术相比，本发明具有以下优点：

一、本发明对InceptionV3分类网络架构进行改进，将改进后的网络用于人群计数领域，利用改进后分类网络的多尺度特性，对人群特征进行特征提取能够有效提升模型的性能，进一步提升人群计数效率。

二、对于预测一幅人群图像，本发明通过获得与输入图像一样的分辨率的人群密度图，然后进行有效的区域密度估计，并通过积分即可简单快速的计算出图像的总人群数量。

三、在训练好一个模型之后，能够将预测好的模型应用于其他场景，即模型的泛化性能好，一定情况下可以避免不同场景的再次训练问题。

附图说明

图1为本发明中一种基于编解码结构的人群计数和密度估计方法的流程图。

图2为本发明实施例的改进的InceptionV3的网络结构框图。

图3为本发明实施例的软着陆模块结构框图。

图4为本发明构建的人群计数和密度估计模型的总体结构图。

具体实施方式

下面将结合附图和具体实施方式对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明提供一种基于编解码结构的人群计数和密度估计方法，该方法包括以下步骤：

A.根据监控摄像头获得公共场所的人群监控视频，并将其保存至服务器，具体包括以下步骤：

A1.根据监控设备获取人群拥挤场景的监控视频，按照.mp4格式保存至服务器；

A2.将获取的监控视频按照设定的帧数间隔分解成单帧图像保存至服务器中。

B.根据收集到的人群图像制作训练数据集，具体包括以下步骤：

B1.将收集到的人群图像中的人头部标记出来，记录人头部在当前图像中的坐标，并将该图像中所有的人头部坐标保存为.npy文件，然后读取.npy文件并采用固定高斯核和自适应高斯核方法制作真实的人群密度图，作为模型的目标对象(本例中，对于拥挤场景采用自适应高斯核方法，其他场景采用固定高斯核方法)。

B2.获取图像的分辨率，并对图像进行裁剪，每一幅人群图像裁剪出9个256×256大小的图像块，若图像原始分辨率小于256*256，则对原图像采用图片水平翻转、随机对比度以及随机亮度等方法扩充训练数据集。

在步骤B2中，自适应高斯核方法具体为公式(1)：

其中，K表示当前人群图像中人头部的总个数，x_k表示图像中的第k个人头部坐标，

表示距离第k个人头部坐标x_k的4个相邻人头部的平均距离，β为常数，取值为0.3，σ_k为高斯核参数，F(x)为生成的人群密度图，当采用固定高斯核方法时，高斯核参数σ_k则为常数。

C.构建人群计数和密度估计模型，该模型具体为结合特征融合与编解码的卷积神经网络模型，其主干网络采用改进的分类型网络InceptionV3进行自动编码，能够解决人群尺度不一的同时并捕获到不同维度的人群特征语义信息，后端采用特征融合模块与解码器模块联合实现对不同维度的人群特征图进行解码和融合，防止丢失低级的特征信息并获得更为精细的密度图，同时主干网络底层采用一个软着陆模块相连。

在步骤C中，原始的分类型网络InceptionV3由五种inception块和卷积层组成，其中，inception块由卷积层、平均池化层和最大池化层(Max-Pooling)组成，其中，卷积层用于提取特征数据的特征；平均池化层用于减少特征图大小，减少计算量和所需显存；最大池化层用于降采样并加强图像特征的不变形。

如图2和4所示，本发明采用改进后的分类型网络InceptionV3(以3*512*512的输入图像为例，括号内为当前的输出特征图大小)，是在原有InceptionV3架构的基础上，删掉了前五个卷积层中的两个最大池化层以及最后的最大池化层和全连接层，保留了inception块里所有的卷积层，从前五个卷积层和三个阶段的Inception块分别引出四个输出，分别输出四个不同维度的特征图，使改进后的模型能够获取不同维度的人群特征信息，具体为公式(2)：

F₁,F₂,F₃,F₄＝Backbone(X,θ_I) (2)

其中，F_i(i＝1,2,3,4)表示主干网络的输出，Backbone表示改进的InceptionV3主干网络，X表示输入的人群图像，θ_I表示主干网络的模型待训练参数。

特征融合模块由卷积层和上采样层组成，其可以对不同维度和大小的人群特征密度图进行特征融合工作，用以保存低级的人群特征信息，具体为公式(3)：

F_i′＝FFM_i(F_i,F″_i+1,θ_{ffm_i}) (3)

其中，F′_i(i＝1,2,3)表示第i个特征融合模块输出，FFM_i表示第i个特征融合模块，F_i表示主干网络第i层的输出，F″_i+1表示第i+1个软着陆模块或解码器模块的输出，θ_{ffm_i}表示第i个特征融合模块的模型待训练参数。

解码器模块由三个不同大小卷积核的卷积层组成(具体为Conv(1×1)-Conv(3×3)-Conv(1×1)，Conv代表卷积层，其后的数字代表卷积核的大小)，其可以有效的对高维的人群特征信息进行特征解码工作，用于获取更精细的密度图，具体为公式(4)：

F_i″＝FDM_i(F_i′,θ_{fdm_i}) (4)

其中，F_i″(i＝1,2,3)表示第i个解码器模块输出，FDM_i表示第i个解码器模块，F′_i表示第i个特征融合模块的输出，θ_{fdm_i}表示第i个解码器模块的模型待训练参数。

如图3所示，软着陆模块是由两个卷积层组成(详细为Conv(2048-512-1)-Conv(512-1024-3)，其中Conv表示卷积层，其后第一个数字代表输入通道数，第二个数字代表输出通道数，第三个数字代表卷积核大小)，用于对主干网络输出的高维特征图到后端网络的维度缓冲作用，将高维特征图映射到较低维的特征图中，具体为公式(5)：

F₄″＝Transition(F₄,θ_t) (5)

其中，F″₄表示软着陆模块的输出，Transition表示软着陆模块，θ_t表示软着陆模块的模型待训练参数。

将公式(2)(3)(4)(5)联合起来，可获得更为精细的密度图F″₁，具体为公式(6)：

根据将密度图F″₁置入一个卷积层(输入通道数为64，输出通道数为1，卷积核大小为1)中预测最终的人群密度图F，具体为公式(7)：

F＝Conv(F₁″,θ₀) (7)

其中，F表示模型预测最终的人群密度图，Conv表示卷积层，θ₀表示卷积层的模型待训练参数。

D.训练步骤C构建的模型，具体包括以下步骤：

D1.对主干网络采用预训练好的模型进行模型参数加载训练；

D2.对于其他部分网络，卷积层采用是均值为0，方差为0.01的随机高斯初始化，将步骤B获取的数据集结合步骤C构建的模型进行训练。

E.在训练过程中，计算模型的总损失函数，损失函数由人群欧几里得损失函数和相对人群损失函数组成，利用总损失函数反复对模型进行训练，直至模型训练的轮次达到指定的迭代值或评价指标达到期望值，则保存模型并执行步骤F，否则，返回步骤D；

人群欧几里得损失函数具体如公式(8)所示：

表示训练集中第j个人群图片的人数。

相对人群损失函数具体如公式(9)所示：

总损失函数具体如公式(10)所示：

L_loss＝L(θ)+α*L_D(θ) (10)

其中，α表示相对人群损失在总损失函数中所占的比，本例中α＝0.1。

评价指标具体为平均绝对误差(MAE)和平均均方根误差(MSE)，具体如公式(11)所示：

其中，N_test表示测试集中图像的总数量，

表示第j幅测试集图像的人群真实数量，C_j表示预测出的第j幅测试集图像的人群估计数量。

F.将待预测的人群图像输入训练好的模型中，预测对应的人群数量和人群密度，具体包括以下步骤：

F1.将待预测的人群图像输入至训练好的预测模型，预测出人群密度图。

F2.根据预测的人群密度图进行积分可计算出人群数量。

以上所述仅为本发明的具体实施方式，但它不用于限制本发明，在对于本领域的技术人员而言，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均因包含在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于编解码结构的人群计数和密度估计方法，其特征在于，该方法包括以下步骤：

A、根据人群拥挤场景的监控视频获取人群图像；

B、根据人群图像构建训练数据集；

C、构建人群计数和密度估计模型；

D、采用训练数据集对人群计数和密度估计模型进行训练；

2.根据权利要求1所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤A具体包括以下步骤：

3.根据权利要求1所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤B具体包括以下步骤：

4.根据权利要求3所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤B2中，对于拥挤场景采用自适应高斯核方法，其他场景采用固定高斯核方法，自适应高斯核方法的具体表达式为：

5.根据权利要求1所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤C中，人群计数和密度估计模型由主干网络、特征融合模块和解码器模块构成，所述的主干网络具体为改进分类型网络InceptionV3，所述的改进分类型网络InceptionV3具体是在原有InceptionV3架构基础上，删除了前五个卷积层中的两个最大池化层以及最底层的最大池化层和全连接层，保留五个inception块里所有的卷积层，所述的主干网络中从前五个卷积层引出第一个输出F₁并且分别从第一个、第三个和第五个Inception块引出不同维度的第二个输出F₂、第三个输出F₃和第四个输出F₄，则有：

F₁,F₂,F₃,F₄＝Backbone(X,θ_I)

6.根据权利要求5所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的特征融合模块和解码器模块均设有三个，分别对应主干网络的前三个输出F₁,F₂,F₃，所述的第四个输出F₄通过一个软着陆模块降维映射后输入到第三个特征融合模块FFM₃中，则有：

F₄″＝Transition(F₄,θ_t)

其中，F₄″表示软着陆模块的输出，Transition表示软着陆模块，θ_t表示软着陆模块的模型待训练参数；

F_i′＝FFM_i(F_i,F″_i+1,θ_{ffm_i})

F_i″＝FDM_i(F_i′,θ_{fdm_i})

7.根据权利要求6所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，在第一个特征融合模块FFM₁的输出F₁″后，通过一个卷积层预测得到最终的人群密度图F，则有：

F＝Conv(F₁″,θ₀)

其中，Conv表示卷积层，θ₀为卷积层的模型待训练参数。

8.根据权利要求1所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤D中，对主干网络采用预训练好模型参数进行加载训练，对于除主干网络外的其他部分网络，采用训练数据集进行训练。

9.根据权利要求8所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤D中，训练人群计数和密度估计模型的总损失函数L_loss由人群欧几里得损失函数L(θ)和相对人群损失函数L_D(θ)组成，具体表达式为：

L_loss＝L(θ)+α*L_D(θ)

10.根据权利要求1所述的一种基于编解码结构的人群计数和密度估计方法，其特征在于，所述的步骤F具体包括以下步骤：

F2、根据预测的人群密度图进行积分的得到人群数量。