CN113139489B

CN113139489B - 基于背景提取和多尺度融合网络的人群计数方法及系统

Info

Publication number: CN113139489B
Application number: CN202110481093.4A
Authority: CN
Inventors: 胡晓; 黄奕秋; 欧嘉敏; 杨佳信
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-09-05
Anticipated expiration: 2041-04-30
Also published as: CN113139489A

Abstract

本发明公开了基于背景提取和多尺度融合网络的人群计数方法，包括以下步骤：通过数据获取模块获取用于网络训练的视频数据集；构建基于背景提取和多尺度特征融合网络；对基于背景提取和多尺度特征融合网络进行训练，得到训练后的网络；通过训练后的网络对视频数据集进行测试，得到测试结果；根据测试结果对训练后网络进行评估，进而优化网络权重系数；将待测视频数据集输入优化后的网络进行人群计数，得到计数结果；本发明创建了一个用于人群计数的神经网络—基于背景提取和多尺度特征融合网络，实现了对密集人群的数量统计，能够自主计算中人流量的变化，改善了由于多尺度问题导致的巨大误差，减少了由于图像的多尺度变化对人群计数的影响。

Description

基于背景提取和多尺度融合网络的人群计数方法及系统

技术领域

本发明涉及计算机视觉技术的研究领域，特别涉及基于背景提取和多尺度融合网络的人群计数方法及系统。

背景技术

人群的大规模聚集成为不可避免的事情，但人群的大规模聚集往往会导致安全事故的发生。例如旅游行业中，随着旅游人数的增多，密集的客流量也会给景区带来巨大的压力。为了合理控制人流量避免造成巨大人员伤亡等问题，对这类场合进行人群密度检测是十分有必要的。现有监控手段中除去人工检测的方式，也有通过算法使得计算机自主实现人群数量计算。早期的的办法是使用一个滑动窗口检测器来检测场景中人群，通过直接检测的方法直接获得目标数量，所以当目标分布密集程度较小时可以获得良好的结果。但随着目标分布密度增大，由于目标间存在的遮挡问题，算法的准确性会大打折扣，不适合应用于于大规模人群拥挤的场景。基于图像纹理特征的人群计数算法则是通过提取图像特征实现人群计数功能。在人群密度较高的场景下，ROI(感兴趣区域)的提取困难，使得最后得到的估计结果误差较大，而基于图像纹理特征计算的人群数量更准确。在基于图像纹理特征的人群计数算法中，灰色共生矩阵是常用提取图像的纹理特征的方法。灰度共生矩阵是研究图像中两个像素灰度级联合分布的统计形式，能反映出图像灰度关于方向、变化幅度、相邻间隔的综合信息。灰度共生矩阵由于其信息量太大，一般不会直接使用，而是在其基础上计算与纹理特征密切相关的数字特征量，通常使用能量、对比度、反差、相关性等数字特征量,它们在简化计算量的基础上更加直观地描述图像纹理状况。然后利用图像的纹理特征进行人群密度的估计计数，对特定区域人数进行估算。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供基于背景提取和多尺度融合网络的人群计数方法及系统，通过一个包含具有不同尺寸感受野的卷积神经网络和一个特征注意力模块的CNN架构来自适应地提取多尺度人群特征，能够适应尺度变化的图像人群特征提取，计算大规模的人群数量。这种方法对于复杂场景和不同拥挤程度的人群分布都有很好的检测效果。

本发明的第一目的在于提供基于背景提取和多尺度融合网络的人群计数方法。

本发明的第二目的在于提供基于背景提取和多尺度融合网络的人群计数系统。

本发明的第一目的通过以下的技术方案实现：

基于背景提取和多尺度融合网络的人群计数方法，包括以下步骤：

通过数据获取模块获取用于网络训练的视频数据集；

构建基于背景提取和多尺度特征融合网络；

对基于背景提取和多尺度特征融合网络进行训练，得到训练后的网络；

通过训练后的网络对视频数据集进行测试，得到测试结果；

根据测试结果对训练后网络进行评估，得到评估结果，进而优化网络权重系数；

将待测视频数据集输入优化后的网络进行人群计数，得到计数结果。

进一步地，所述通过数据获取模块获取用于网络训练的视频数据集，具体为：在人流量密集的地段中设有若干摄像头，通过若干摄像头获取不同角度的人流量图像以及获取密集程度不同的人流量图像；对人流量图像中出现的人进行标注，生成标注文件；

采用7:3的比例将视频数据集随机分为训练集和测试集。

进一步地，所述标注文件中每个人体的像素点位置均用数值1表示，其余像素点位置均用0表示。

进一步地，所述基于背景提取和多尺度特征融合网络包括特征提取模块、人群区域识别模块，并且用结构性损失APLoss作为损失函数；所述基于背景提取和多尺度特征融合网络分为两条分支：第一条分支将图像经过特征提取后获取对应的特征图；第二条分支加入了人群区域识别模块CAM和多尺度特征融合模块ASPP用于帮助神经网络生成更高质量的密度图，实现人群计数功能。

进一步地，

所述特征提取模块，输入待估计人群数量的图像I∈R^H×W×3，采用VGG16-BN的前13层作为前端特征映射提取器，提取不仅包含不同层次语义信息的多尺度特征映射也有不同尺度的特征信息；采用UNet结构设计，使得最后输出的特征图能结合高级特征图和低级特征图的内容，得到更大的信息量；

所述人群区域识别模块CAM，在特征提取过程中加入人群区域识别模块CAM作为网络分支，使得人群和背景区域区分开，提高网络的准确性；人群区域识别模块CAM的结构是四层卷积核，输入通道分别是256，128，64以及1，其中卷积核的大小均为3x3，步幅大小均为1；在每两次卷积操作之间均有一次上采样过程，采样率为均2；具体的实现方法是在训练过程中将特征提取过程重点conv2-2输出的特征图像输入到人群区域识别模块CAM中，经过四层卷积后输出的特征图，通过提前设定的阈值，当密度图像素点的值小于1e-5的时候则将该像素点设置为0，定为背景；反正则设定为1，定为人群；当网络经过CAM模块便能实现对图像的人群区分；

多尺度特征融合模块ASPP，采用四个级联的空洞卷积，空洞率分别为6，12，18，24；神经网络通过多尺度特征融合模块ASPP结构来提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而编码阶段通过融合一个包含足量局部信息，边缘信息的低层特征图来补充细节信息，最后进行预测。

进一步地，所述结构性损失APLoss，在训练过程中需要将输入图像中的标注点通过高斯卷积生成密度图；标注点以原始图像大小相同的全0矩阵(np.zeros())表示，遍历标注文件中每一个位置坐标，将矩阵中和人对应的点置为1，最后调用高斯核函数生成密度图并保存成h5py格式的文件；标签矩阵可定义如公式1所示。

其中xi表示每个人标注点的位置，具有具有N个人头的标签可以表示为H(x)；这里的x表示为一个二维坐标；然后将标签矩阵与二维高斯核函数进行卷积即可生成密度图，如公式2所示，

F(x)＝H(x)*G(x) (2)

G(x)表示高斯二维卷积核；最后与模型预测得到的密度图进行计算得到相应的损失，进行密度回归估计，其过程如公式3所示，

其中表示为预测密度图，/>表示为标签密度图，L(θ)为欧氏几何距离损失。

进一步地，所述对基于背景提取和多尺度特征融合网络进行训练，得到训练后的网络，具体如下：

1)、利用几何何自适应高斯核来将估计训练图像中每个人头的大小并转换为密度图作为训练监督图；该密度图的积分求和即可得到图像中人群数目；

2)、将收集好的数据集经过预处理，使得图像大小尺寸固定为512x512后输入到神经网络中，利用步密度图作为监督图，以欧式距离作为损失函数进行训练；训练时通过左右翻转图像，增加数据量；

3)、保存训练好的模型；

4)、将低分辨率的视频数据集输入到网络中，重复3)4)步骤；

5)、用训练好的模型对测试视频数据集进行测试，用平均绝对误差MAE和均方误差MSE对网络进行评估。

进一步地，所述通过训练后的网络对视频数据集进行测试，得到测试结果，具体如下：

1)、将测试集视频按照30帧进行抽样，提取得到测试图像；

2)、对测试图像进行预处理，使图像大小尺寸固定为512×512；

3)、加载训练好的人群计数训练网络，将经过预处理的测试集图像输入到网络模型中进行处理，生成人群密度图；

4)、对生成的密度图进行二维积分，得到的结果取整数部分即为人群计数结果。其过程如公式(4)所示：

M^pr＝∫∫_D(x,y)dσ (4)

其中D表示密度图，M^pr为计数结果；

5)、平均绝对误差MAE和均方误差MSE对网络进行评估；具体公式如公式(5)、(6)所示：

其中表示第i张图像的实际人数，/>表示为第i张图像的预测人数。

进一步地，所述将待测视频数据集输入优化后的网络进行人群计数，得到计数结果，具体为利用公式(4)对密度图进行二维积分，得到计数结果。

本发明的第二目的通过以下技术方案实现：

基于背景提取和多尺度特征融合网络的人群计数系统，采用了多尺度融合模块ASPP、背景提取模块CAM对传统的人群计数算法进行改进，得到高精细度的计数效果；

所述基于背景提取和多尺度特征融合网络的人群计数系统包括：摄像头数据获取模块、数据导入模块、数据预处理模块、人群计数网络模块以及结果分析模块；

所述摄像头数据获取模块对指定区域进行拍摄，获取图像数据；

所述数据预处理模块接收通过数据导入模块导入的图像数据并进行处理；即将图像数据进行裁切和归一化转化为人群计数网络可处理的数据；

所述人群计数网络模块接收处理后的数据，采用VGG16-BN的前13层作为前端特征映射提取器，将Conv2-2提取的特征经过背景提取模块CAM进行数据处理之后，网络能将更多的注意力分配给人群聚集的地方；将Conv5-3提取的特征经过多尺度融合模块ASPP，得到多尺度信息；

所述结果分析模块将生成的特征图用Unet网络进行上采样融合的方法生成密度图并进行二维积分，得到图像中的人群总数后进行输出。

本发明与现有技术相比，具有如下优点和有益效果：

本发明利用深度学习，创建了一个用于人群计数的神经网络—基于背景提取和多尺度特征融合网络。这种方法实现了对密集人群的数量统计，能够自主计算中人流量的变化。同时本发明改善了以往神经网络在预测过程中由于多尺度问题导致的巨大误差，减少了由于图像的多尺度变化对人群计数的影响。同时对背景进行提取，使得神经网络能更加专注于人群区域进行工作，大幅度提高了神经网络的准确度使得计算结果更加准确。本发明主要使用图像处理技术和深度学习的技术，通过建立带有人群数量标枪的图像数据库，对基于背景提取和多尺度特征融合网络对数据库进行训练，可以获得视频中人群数量的预测结果。

附图说明

图1是本发明所述基于背景提取和多尺度特征融合网络的人群计数方法的流程图；

图2是本发明所述实施例1中基于背景提取和多尺度特征融合网络结构图；

图3是本发明所述实施例1中CAM模型结构图；

图4是本发明所述实施例1中ASPP模型结构图；

图5是本发明所述实施例1中模型训练流程图；

图6是本发明所述实施例1中模型测试流程图；

图7是本发明所示实施例2中基于背景提取和多尺度特征融合网络的人群计数系统结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

基于背景提取和多尺度特征融合网络的人群计数方法，如图1所示，包括以下步骤：

基于背景提取和多尺度特征融合网络的人群计数方法，包括以下步骤：

通过数据获取模块获取用于网络训练的视频数据集；

构建基于背景提取和多尺度特征融合网络；

通过训练后的网络对视频数据集进行测试，得到测试结果；

具体如下：

所述通过数据获取模块获取用于网络训练的视频数据集，具体为：在人流量密集的地段中设有若干摄像头，镜头可分别设置为4mm、8mm、12mm等常用的监控焦段，通过若干摄像头获取不同角度的人流量图像以及获取密集程度不同的人流量图像；对人流量图像中出现的人进行标注，生成标注文件；

采用7:3的比例将视频数据集随机分为训练集和测试集。

所述标注文件中每个人体的像素点位置均用数值1表示，其余像素点位置均用0表示，其中训练集在训练过程中将训练图像经过高斯卷积生成对应的密度图。

基于背景提取和多尺度特征融合网络结构如图2所示，所述基于背景提取和多尺度特征融合网络包括特征提取模块、人群区域识别模块，并且用结构性损失APLoss作为损失函数；所述基于背景提取和多尺度特征融合网络分为两条分支：第一条分支将图像经过特征提取后获取对应的特征图；第二条分支加入了人群区域识别模块CAM和多尺度特征融合模块ASPP用于帮助神经网络生成更高质量的密度图，实现人群计数功能。

进一步地，

特征提取模块：输入待估计人群数量的图像I∈R^H×W×3，采用VGG16-BN的前13层作为前端特征映射提取器，提取不仅包含不同层次语义信息的多尺度特征映射也有不同尺度的特征信息；采用UNet结构设计，使得最后输出的特征图能结合高级特征图和低级特征图的内容，得到更大的信息量；

人群区域识别模块CAM：由于人群图像包含不同的场景，准确的人群计数可能会受到复杂背景的阻碍。即使总体估计的人数接近地面真相，也可能是由于对人群区域的低估和对背景区域的错误识别造成的。在经过CAM模块进行数据处理之后，网络能将更多的注意力分配给人群聚集的地方。为了解决这个问题，在特征提取过程中加入人群区域识别模块CAM作为网络分支，使得人群和背景区域区分开，提高网络的准确性；人群区域识别模块CAM的结构是四层卷积核，输入通道分别是256，128，64以及1，其中卷积核的大小均为3x3，步幅大小均为1；在每两次卷积操作之间均有一次上采样过程，采样率为均2；具体的实现方法是在训练过程中将特征提取过程重点conv2-2输出的特征图像输入到人群区域识别模块CAM中，经过四层卷积后输出的特征图，通过提前设定的阈值，当密度图像素点的值小于1e-5的时候则将该像素点设置为0，定为背景；反正则设定为1，定为人群；当网络经过CAM模块便能实现对图像的人群区分；详细的CAM模型网络结构如图3所示.

多尺度特征融合模块ASPP，在人群计数问题中，多尺度问题往往会影响网络的最终性能。为了解决该问题，常用的方法是采用空洞卷积增加卷积核的感受野，但会导致上采样无法还原由于池化操作导致的细节信息损失，因此本申请中采用ASPP模块(AtrousSpatial Pyramid Pooling)来解决该问题；采用四个级联的空洞卷积，空洞率分别为6，12，18，24；神经网络通过多尺度特征融合模块ASPP结构来提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而编码阶段通过融合一个包含足量局部信息，边缘信息的低层特征图来补充细节信息，最后进行预测。其具体结构如图4所示。

进一步地，本发明采用结构性损失APLoss(Adaptive Pyramid Loss)。传统方法采用欧式距离作为损失函数。所述结构性损失APLoss，在训练过程中需要将输入图像中的标注点通过高斯卷积生成密度图；标注点以原始图像大小相同的全0矩阵(np.zeros())表示，遍历标注文件中每一个位置坐标，将矩阵中和人对应的点置为1，最后调用高斯核函数生成密度图并保存成h5py格式的文件；标签矩阵可定义如公式1所示。

F(x)＝H(x)*G(x) (2)

3)、保存训练好的模型；

4)、将低分辨率的视频数据集输入到网络中，重复3)4)步骤；具体过程如图5所示。

5)、用训练好的模型对测试视频数据集进行测试，用平均绝对误差MAE和均方误差MSE对网络进行评估。其过程如图6所示。

1)、将测试集视频按照30帧进行抽样，提取得到测试图像；

2)、对测试图像进行预处理，使图像大小尺寸固定为512×512；

M^pr＝∫∫_D(x,y)dσ (4)

其中D表示密度图，M^pr为计数结果；

本发明中，在大规模的人群数据集上进行训练得到的网络模型，在人群数量检测工作中可以取得很显著的效果，具有很好的鲁棒性和通用性；其次，该模型基于深度学习技术处理多尺度问题和背景提取功能是其他方法很难实现的。最后，该网络是端对端训练的，比起双流网络模型运行速度更快，在实时性方面有一点优势。因此，本发明在公共安全、医学、农业等多个领域都存在明显的应用价值。

实施例2：

基于背景提取和多尺度特征融合网络的人群计数系统，如图7所示，包括，包括摄像头数据获取模块、数据导入模块、数据预处理模块、人群计数网络模块以及结果分析模块。

首先摄像头数据获取模块对指定区域进行拍摄，获取图像数据。然后图像数据经过数据导入传送到数据预处理模块进行处理。然后将图像数据进行裁切和归一化转化为人群计数网络可处理的数据。然后将处理后的数据输入到人群计数网络中，然后将处理后的数据输入到人群计数网络中，采用VGG16-BN的前13层作为前端特征映射提取器，将Conv2-2提取的特征经过CAM模块进行数据处理之后，网络能将更多的注意力分配给人群聚集的地方。将Conv5-3提取的特征经过ASPP模块，得到多尺度信息。最后将生成的特征图用Unet网络进行上采样融合的方法生成密度图并进行二维积分，得到图像中的人群总数后进行输出。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于背景提取和多尺度融合网络的人群计数方法，其特征在于，包括以下步骤：

通过数据获取模块获取用于网络训练的视频数据集；

构建基于背景提取和多尺度特征融合网络；所述基于背景提取和多尺度特征融合网络包括特征提取模块、人群区域识别模块，并且用结构性损失APLoss作为损失函数；所述基于背景提取和多尺度特征融合网络分为两条分支：第一条分支将图像经过特征提取后获取对应的特征图；第二条分支加入了人群区域识别模块CAM和多尺度特征融合模块ASPP用于帮助神经网络生成更高质量的密度图，实现人群计数功能；

多尺度特征融合模块ASPP，采用四个级联的空洞卷积，空洞率分别为6，12，18，24；神经网络通过多尺度特征融合模块ASPP结构来提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而编码阶段通过融合一个包含足量局部信息，边缘信息的低层特征图来补充细节信息，最后进行预测；

通过训练后的网络对视频数据集进行测试，得到测试结果；

2.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法，其特征在于，所述通过数据获取模块获取用于网络训练的视频数据集，具体为：在人流量密集的地段中设有若干摄像头，通过若干摄像头获取不同角度的人流量图像以及获取密集程度不同的人流量图像；对人流量图像中出现的人进行标注，生成标注文件；

采用7:3的比例将视频数据集随机分为训练集和测试集。

3.根据权利要求2所述的基于背景提取和多尺度融合网络的人群计数方法，其特征在于，所述标注文件中每个人体的像素点位置均用数值1表示，其余像素点位置均用0表示。

4.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法，其特征在于，所述结构性损失APLoss，在训练过程中需要将输入图像中的标注点通过高斯卷积生成密度图；标注点以原始图像大小相同的全0矩阵np.zeros()表示，遍历标注文件中每一个位置坐标，将矩阵中和人对应的点置为1，最后调用高斯核函数生成密度图并保存成h5py格式的文件；标签矩阵定义如公式1所示：

其中xi表示每个人标注点的位置，具有N个人头的标签表示为H(x)；这里的x表示为一个二维坐标；然后将标签矩阵与二维高斯核函数进行卷积生成密度图，如公式2所示，

F(x)＝H(x)*G(x)(2)

5.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法，其特征在于，所述对基于背景提取和多尺度特征融合网络进行训练，得到训练后的网络，具体如下步骤：

1)、利用几何和自适应高斯核来将估计训练图像中每个人头的大小并转换为密度图作为训练监督图；该密度图的积分求和得到图像中人群数目；

3)、保存训练好的模型；

4)、将低分辨率的视频数据集输入到网络中，重复3)4)步骤；

6.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法，其特征在于，所述通过训练后的网络对视频数据集进行测试，得到测试结果，具体如下：1)、将测试集视频按照30帧进行抽样，提取得到测试图像；

2)、对测试图像进行预处理，使图像大小尺寸固定为512×512；

4)、对生成的密度图进行二维积分，得到的结果取整数部分即为人群计数结果；其过程如公式(4)所示：

M^pr＝∫∫_D(x,y)dσ (4)

其中D表示密度图，M^pr为计数结果；

7.根据权利要求6所述的基于背景提取和多尺度融合网络的人群计数方法，其特征在于，所述将待测视频数据集输入优化后的网络得到密度图；利用公式(4)对密度图进行积分，得到计数结果。

8.基于背景提取和多尺度融合网络的人群计数系统，应用于权利要求1-7中任一项所述基于背景提取和多尺度融合网络的人群计数方法，其特征在于，采用了多尺度融合模块ASPP、背景提取模块CAM对传统的人群计数算法进行改进，得到高精细度的计数效果；

所述数据预处理模块接收通过数据导入模块导入的图像数据并进行处理；即将图像数据进行裁切和归一化转化为人群计数网络处理的数据；