CN113139489B - 基于背景提取和多尺度融合网络的人群计数方法及系统 - Google Patents

基于背景提取和多尺度融合网络的人群计数方法及系统 Download PDF

Info

Publication number
CN113139489B
CN113139489B CN202110481093.4A CN202110481093A CN113139489B CN 113139489 B CN113139489 B CN 113139489B CN 202110481093 A CN202110481093 A CN 202110481093A CN 113139489 B CN113139489 B CN 113139489B
Authority
CN
China
Prior art keywords
network
crowd
image
module
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110481093.4A
Other languages
English (en)
Other versions
CN113139489A (zh
Inventor
胡晓
黄奕秋
欧嘉敏
杨佳信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202110481093.4A priority Critical patent/CN113139489B/zh
Publication of CN113139489A publication Critical patent/CN113139489A/zh
Application granted granted Critical
Publication of CN113139489B publication Critical patent/CN113139489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于背景提取和多尺度融合网络的人群计数方法,包括以下步骤:通过数据获取模块获取用于网络训练的视频数据集;构建基于背景提取和多尺度特征融合网络;对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络;通过训练后的网络对视频数据集进行测试,得到测试结果;根据测试结果对训练后网络进行评估,进而优化网络权重系数;将待测视频数据集输入优化后的网络进行人群计数,得到计数结果;本发明创建了一个用于人群计数的神经网络—基于背景提取和多尺度特征融合网络,实现了对密集人群的数量统计,能够自主计算中人流量的变化,改善了由于多尺度问题导致的巨大误差,减少了由于图像的多尺度变化对人群计数的影响。

Description

基于背景提取和多尺度融合网络的人群计数方法及系统
技术领域
本发明涉及计算机视觉技术的研究领域,特别涉及基于背景提取和多尺度融合网络的人群计数方法及系统。
背景技术
人群的大规模聚集成为不可避免的事情,但人群的大规模聚集往往会导致安全事故的发生。例如旅游行业中,随着旅游人数的增多,密集的客流量也会给景区带来巨大的压力。为了合理控制人流量避免造成巨大人员伤亡等问题,对这类场合进行人群密度检测是十分有必要的。现有监控手段中除去人工检测的方式,也有通过算法使得计算机自主实现人群数量计算。早期的的办法是使用一个滑动窗口检测器来检测场景中人群,通过直接检测的方法直接获得目标数量,所以当目标分布密集程度较小时可以获得良好的结果。但随着目标分布密度增大,由于目标间存在的遮挡问题,算法的准确性会大打折扣,不适合应用于于大规模人群拥挤的场景。基于图像纹理特征的人群计数算法则是通过提取图像特征实现人群计数功能。在人群密度较高的场景下,ROI(感兴趣区域)的提取困难,使得最后得到的估计结果误差较大,而基于图像纹理特征计算的人群数量更准确。在基于图像纹理特征的人群计数算法中,灰色共生矩阵是常用提取图像的纹理特征的方法。灰度共生矩阵是研究图像中两个像素灰度级联合分布的统计形式,能反映出图像灰度关于方向、变化幅度、相邻间隔的综合信息。灰度共生矩阵由于其信息量太大,一般不会直接使用,而是在其基础上计算与纹理特征密切相关的数字特征量,通常使用能量、对比度、反差、相关性等数字特征量,它们在简化计算量的基础上更加直观地描述图像纹理状况。然后利用图像的纹理特征进行人群密度的估计计数,对特定区域人数进行估算。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供基于背景提取和多尺度融合网络的人群计数方法及系统,通过一个包含具有不同尺寸感受野的卷积神经网络和一个特征注意力模块的CNN架构来自适应地提取多尺度人群特征,能够适应尺度变化的图像人群特征提取,计算大规模的人群数量。这种方法对于复杂场景和不同拥挤程度的人群分布都有很好的检测效果。
本发明的第一目的在于提供基于背景提取和多尺度融合网络的人群计数方法。
本发明的第二目的在于提供基于背景提取和多尺度融合网络的人群计数系统。
本发明的第一目的通过以下的技术方案实现:
基于背景提取和多尺度融合网络的人群计数方法,包括以下步骤:
通过数据获取模块获取用于网络训练的视频数据集;
构建基于背景提取和多尺度特征融合网络;
对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络;
通过训练后的网络对视频数据集进行测试,得到测试结果;
根据测试结果对训练后网络进行评估,得到评估结果,进而优化网络权重系数;
将待测视频数据集输入优化后的网络进行人群计数,得到计数结果。
进一步地,所述通过数据获取模块获取用于网络训练的视频数据集,具体为:在人流量密集的地段中设有若干摄像头,通过若干摄像头获取不同角度的人流量图像以及获取密集程度不同的人流量图像;对人流量图像中出现的人进行标注,生成标注文件;
采用7:3的比例将视频数据集随机分为训练集和测试集。
进一步地,所述标注文件中每个人体的像素点位置均用数值1表示,其余像素点位置均用0表示。
进一步地,所述基于背景提取和多尺度特征融合网络包括特征提取模块、人群区域识别模块,并且用结构性损失APLoss作为损失函数;所述基于背景提取和多尺度特征融合网络分为两条分支:第一条分支将图像经过特征提取后获取对应的特征图;第二条分支加入了人群区域识别模块CAM和多尺度特征融合模块ASPP用于帮助神经网络生成更高质量的密度图,实现人群计数功能。
进一步地,
所述特征提取模块,输入待估计人群数量的图像I∈RH×W×3,采用VGG16-BN的前13层作为前端特征映射提取器,提取不仅包含不同层次语义信息的多尺度特征映射也有不同尺度的特征信息;采用UNet结构设计,使得最后输出的特征图能结合高级特征图和低级特征图的内容,得到更大的信息量;
所述人群区域识别模块CAM,在特征提取过程中加入人群区域识别模块CAM作为网络分支,使得人群和背景区域区分开,提高网络的准确性;人群区域识别模块CAM的结构是四层卷积核,输入通道分别是256,128,64以及1,其中卷积核的大小均为3x3,步幅大小均为1;在每两次卷积操作之间均有一次上采样过程,采样率为均2;具体的实现方法是在训练过程中将特征提取过程重点conv2-2输出的特征图像输入到人群区域识别模块CAM中,经过四层卷积后输出的特征图,通过提前设定的阈值,当密度图像素点的值小于1e-5的时候则将该像素点设置为0,定为背景;反正则设定为1,定为人群;当网络经过CAM模块便能实现对图像的人群区分;
多尺度特征融合模块ASPP,采用四个级联的空洞卷积,空洞率分别为6,12,18,24;神经网络通过多尺度特征融合模块ASPP结构来提取不同尺度的空间信息,得到一个包含抽象化特征信息的输出,而编码阶段通过融合一个包含足量局部信息,边缘信息的低层特征图来补充细节信息,最后进行预测。
进一步地,所述结构性损失APLoss,在训练过程中需要将输入图像中的标注点通过高斯卷积生成密度图;标注点以原始图像大小相同的全0矩阵(np.zeros())表示,遍历标注文件中每一个位置坐标,将矩阵中和人对应的点置为1,最后调用高斯核函数生成密度图并保存成h5py格式的文件;标签矩阵可定义如公式1所示。
其中xi表示每个人标注点的位置,具有具有N个人头的标签可以表示为H(x);这里的x表示为一个二维坐标;然后将标签矩阵与二维高斯核函数进行卷积即可生成密度图,如公式2所示,
F(x)=H(x)*G(x) (2)
G(x)表示高斯二维卷积核;最后与模型预测得到的密度图进行计算得到相应的损失,进行密度回归估计,其过程如公式3所示,
其中表示为预测密度图,/>表示为标签密度图,L(θ)为欧氏几何距离损失。
进一步地,所述对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络,具体如下:
1)、利用几何何自适应高斯核来将估计训练图像中每个人头的大小并转换为密度图作为训练监督图;该密度图的积分求和即可得到图像中人群数目;
2)、将收集好的数据集经过预处理,使得图像大小尺寸固定为512x512后输入到神经网络中,利用步密度图作为监督图,以欧式距离作为损失函数进行训练;训练时通过左右翻转图像,增加数据量;
3)、保存训练好的模型;
4)、将低分辨率的视频数据集输入到网络中,重复3)4)步骤;
5)、用训练好的模型对测试视频数据集进行测试,用平均绝对误差MAE和均方误差MSE对网络进行评估。
进一步地,所述通过训练后的网络对视频数据集进行测试,得到测试结果,具体如下:
1)、将测试集视频按照30帧进行抽样,提取得到测试图像;
2)、对测试图像进行预处理,使图像大小尺寸固定为512×512;
3)、加载训练好的人群计数训练网络,将经过预处理的测试集图像输入到网络模型中进行处理,生成人群密度图;
4)、对生成的密度图进行二维积分,得到的结果取整数部分即为人群计数结果。其过程如公式(4)所示:
Mpr=∫∫D(x,y)dσ (4)
其中D表示密度图,Mpr为计数结果;
5)、平均绝对误差MAE和均方误差MSE对网络进行评估;具体公式如公式(5)、(6)所示:
其中表示第i张图像的实际人数,/>表示为第i张图像的预测人数。
进一步地,所述将待测视频数据集输入优化后的网络进行人群计数,得到计数结果,具体为利用公式(4)对密度图进行二维积分,得到计数结果。
本发明的第二目的通过以下技术方案实现:
基于背景提取和多尺度特征融合网络的人群计数系统,采用了多尺度融合模块ASPP、背景提取模块CAM对传统的人群计数算法进行改进,得到高精细度的计数效果;
所述基于背景提取和多尺度特征融合网络的人群计数系统包括:摄像头数据获取模块、数据导入模块、数据预处理模块、人群计数网络模块以及结果分析模块;
所述摄像头数据获取模块对指定区域进行拍摄,获取图像数据;
所述数据预处理模块接收通过数据导入模块导入的图像数据并进行处理;即将图像数据进行裁切和归一化转化为人群计数网络可处理的数据;
所述人群计数网络模块接收处理后的数据,采用VGG16-BN的前13层作为前端特征映射提取器,将Conv2-2提取的特征经过背景提取模块CAM进行数据处理之后,网络能将更多的注意力分配给人群聚集的地方;将Conv5-3提取的特征经过多尺度融合模块ASPP,得到多尺度信息;
所述结果分析模块将生成的特征图用Unet网络进行上采样融合的方法生成密度图并进行二维积分,得到图像中的人群总数后进行输出。
本发明与现有技术相比,具有如下优点和有益效果:
本发明利用深度学习,创建了一个用于人群计数的神经网络—基于背景提取和多尺度特征融合网络。这种方法实现了对密集人群的数量统计,能够自主计算中人流量的变化。同时本发明改善了以往神经网络在预测过程中由于多尺度问题导致的巨大误差,减少了由于图像的多尺度变化对人群计数的影响。同时对背景进行提取,使得神经网络能更加专注于人群区域进行工作,大幅度提高了神经网络的准确度使得计算结果更加准确。本发明主要使用图像处理技术和深度学习的技术,通过建立带有人群数量标枪的图像数据库,对基于背景提取和多尺度特征融合网络对数据库进行训练,可以获得视频中人群数量的预测结果。
附图说明
图1是本发明所述基于背景提取和多尺度特征融合网络的人群计数方法的流程图;
图2是本发明所述实施例1中基于背景提取和多尺度特征融合网络结构图;
图3是本发明所述实施例1中CAM模型结构图;
图4是本发明所述实施例1中ASPP模型结构图;
图5是本发明所述实施例1中模型训练流程图;
图6是本发明所述实施例1中模型测试流程图;
图7是本发明所示实施例2中基于背景提取和多尺度特征融合网络的人群计数系统结构框图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
基于背景提取和多尺度特征融合网络的人群计数方法,如图1所示,包括以下步骤:
基于背景提取和多尺度特征融合网络的人群计数方法,包括以下步骤:
通过数据获取模块获取用于网络训练的视频数据集;
构建基于背景提取和多尺度特征融合网络;
对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络;
通过训练后的网络对视频数据集进行测试,得到测试结果;
根据测试结果对训练后网络进行评估,得到评估结果,进而优化网络权重系数;
将待测视频数据集输入优化后的网络进行人群计数,得到计数结果。
具体如下:
所述通过数据获取模块获取用于网络训练的视频数据集,具体为:在人流量密集的地段中设有若干摄像头,镜头可分别设置为4mm、8mm、12mm等常用的监控焦段,通过若干摄像头获取不同角度的人流量图像以及获取密集程度不同的人流量图像;对人流量图像中出现的人进行标注,生成标注文件;
采用7:3的比例将视频数据集随机分为训练集和测试集。
所述标注文件中每个人体的像素点位置均用数值1表示,其余像素点位置均用0表示,其中训练集在训练过程中将训练图像经过高斯卷积生成对应的密度图。
基于背景提取和多尺度特征融合网络结构如图2所示,所述基于背景提取和多尺度特征融合网络包括特征提取模块、人群区域识别模块,并且用结构性损失APLoss作为损失函数;所述基于背景提取和多尺度特征融合网络分为两条分支:第一条分支将图像经过特征提取后获取对应的特征图;第二条分支加入了人群区域识别模块CAM和多尺度特征融合模块ASPP用于帮助神经网络生成更高质量的密度图,实现人群计数功能。
进一步地,
特征提取模块:输入待估计人群数量的图像I∈RH×W×3,采用VGG16-BN的前13层作为前端特征映射提取器,提取不仅包含不同层次语义信息的多尺度特征映射也有不同尺度的特征信息;采用UNet结构设计,使得最后输出的特征图能结合高级特征图和低级特征图的内容,得到更大的信息量;
人群区域识别模块CAM:由于人群图像包含不同的场景,准确的人群计数可能会受到复杂背景的阻碍。即使总体估计的人数接近地面真相,也可能是由于对人群区域的低估和对背景区域的错误识别造成的。在经过CAM模块进行数据处理之后,网络能将更多的注意力分配给人群聚集的地方。为了解决这个问题,在特征提取过程中加入人群区域识别模块CAM作为网络分支,使得人群和背景区域区分开,提高网络的准确性;人群区域识别模块CAM的结构是四层卷积核,输入通道分别是256,128,64以及1,其中卷积核的大小均为3x3,步幅大小均为1;在每两次卷积操作之间均有一次上采样过程,采样率为均2;具体的实现方法是在训练过程中将特征提取过程重点conv2-2输出的特征图像输入到人群区域识别模块CAM中,经过四层卷积后输出的特征图,通过提前设定的阈值,当密度图像素点的值小于1e-5的时候则将该像素点设置为0,定为背景;反正则设定为1,定为人群;当网络经过CAM模块便能实现对图像的人群区分;详细的CAM模型网络结构如图3所示.
多尺度特征融合模块ASPP,在人群计数问题中,多尺度问题往往会影响网络的最终性能。为了解决该问题,常用的方法是采用空洞卷积增加卷积核的感受野,但会导致上采样无法还原由于池化操作导致的细节信息损失,因此本申请中采用ASPP模块(AtrousSpatial Pyramid Pooling)来解决该问题;采用四个级联的空洞卷积,空洞率分别为6,12,18,24;神经网络通过多尺度特征融合模块ASPP结构来提取不同尺度的空间信息,得到一个包含抽象化特征信息的输出,而编码阶段通过融合一个包含足量局部信息,边缘信息的低层特征图来补充细节信息,最后进行预测。其具体结构如图4所示。
进一步地,本发明采用结构性损失APLoss(Adaptive Pyramid Loss)。传统方法采用欧式距离作为损失函数。所述结构性损失APLoss,在训练过程中需要将输入图像中的标注点通过高斯卷积生成密度图;标注点以原始图像大小相同的全0矩阵(np.zeros())表示,遍历标注文件中每一个位置坐标,将矩阵中和人对应的点置为1,最后调用高斯核函数生成密度图并保存成h5py格式的文件;标签矩阵可定义如公式1所示。
其中xi表示每个人标注点的位置,具有具有N个人头的标签可以表示为H(x);这里的x表示为一个二维坐标;然后将标签矩阵与二维高斯核函数进行卷积即可生成密度图,如公式2所示,
F(x)=H(x)*G(x) (2)
G(x)表示高斯二维卷积核;最后与模型预测得到的密度图进行计算得到相应的损失,进行密度回归估计,其过程如公式3所示,
其中表示为预测密度图,/>表示为标签密度图,L(θ)为欧氏几何距离损失。
进一步地,所述对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络,具体如下:
1)、利用几何何自适应高斯核来将估计训练图像中每个人头的大小并转换为密度图作为训练监督图;该密度图的积分求和即可得到图像中人群数目;
2)、将收集好的数据集经过预处理,使得图像大小尺寸固定为512x512后输入到神经网络中,利用步密度图作为监督图,以欧式距离作为损失函数进行训练;训练时通过左右翻转图像,增加数据量;
3)、保存训练好的模型;
4)、将低分辨率的视频数据集输入到网络中,重复3)4)步骤;具体过程如图5所示。
5)、用训练好的模型对测试视频数据集进行测试,用平均绝对误差MAE和均方误差MSE对网络进行评估。其过程如图6所示。
进一步地,所述通过训练后的网络对视频数据集进行测试,得到测试结果,具体如下:
1)、将测试集视频按照30帧进行抽样,提取得到测试图像;
2)、对测试图像进行预处理,使图像大小尺寸固定为512×512;
3)、加载训练好的人群计数训练网络,将经过预处理的测试集图像输入到网络模型中进行处理,生成人群密度图;
4)、对生成的密度图进行二维积分,得到的结果取整数部分即为人群计数结果。其过程如公式(4)所示:
Mpr=∫∫D(x,y)dσ (4)
其中D表示密度图,Mpr为计数结果;
5)、平均绝对误差MAE和均方误差MSE对网络进行评估;具体公式如公式(5)、(6)所示:
其中表示第i张图像的实际人数,/>表示为第i张图像的预测人数。
进一步地,所述将待测视频数据集输入优化后的网络进行人群计数,得到计数结果,具体为利用公式(4)对密度图进行二维积分,得到计数结果。
本发明中,在大规模的人群数据集上进行训练得到的网络模型,在人群数量检测工作中可以取得很显著的效果,具有很好的鲁棒性和通用性;其次,该模型基于深度学习技术处理多尺度问题和背景提取功能是其他方法很难实现的。最后,该网络是端对端训练的,比起双流网络模型运行速度更快,在实时性方面有一点优势。因此,本发明在公共安全、医学、农业等多个领域都存在明显的应用价值。
实施例2:
基于背景提取和多尺度特征融合网络的人群计数系统,如图7所示,包括,包括摄像头数据获取模块、数据导入模块、数据预处理模块、人群计数网络模块以及结果分析模块。
首先摄像头数据获取模块对指定区域进行拍摄,获取图像数据。然后图像数据经过数据导入传送到数据预处理模块进行处理。然后将图像数据进行裁切和归一化转化为人群计数网络可处理的数据。然后将处理后的数据输入到人群计数网络中,然后将处理后的数据输入到人群计数网络中,采用VGG16-BN的前13层作为前端特征映射提取器,将Conv2-2提取的特征经过CAM模块进行数据处理之后,网络能将更多的注意力分配给人群聚集的地方。将Conv5-3提取的特征经过ASPP模块,得到多尺度信息。最后将生成的特征图用Unet网络进行上采样融合的方法生成密度图并进行二维积分,得到图像中的人群总数后进行输出。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.基于背景提取和多尺度融合网络的人群计数方法,其特征在于,包括以下步骤:
通过数据获取模块获取用于网络训练的视频数据集;
构建基于背景提取和多尺度特征融合网络;所述基于背景提取和多尺度特征融合网络包括特征提取模块、人群区域识别模块,并且用结构性损失APLoss作为损失函数;所述基于背景提取和多尺度特征融合网络分为两条分支:第一条分支将图像经过特征提取后获取对应的特征图;第二条分支加入了人群区域识别模块CAM和多尺度特征融合模块ASPP用于帮助神经网络生成更高质量的密度图,实现人群计数功能;
所述特征提取模块,输入待估计人群数量的图像I∈RH×W×3,采用VGG16-BN的前13层作为前端特征映射提取器,提取不仅包含不同层次语义信息的多尺度特征映射也有不同尺度的特征信息;采用UNet结构设计,使得最后输出的特征图能结合高级特征图和低级特征图的内容,得到更大的信息量;
所述人群区域识别模块CAM,在特征提取过程中加入人群区域识别模块CAM作为网络分支,使得人群和背景区域区分开,提高网络的准确性;人群区域识别模块CAM的结构是四层卷积核,输入通道分别是256,128,64以及1,其中卷积核的大小均为3x3,步幅大小均为1;在每两次卷积操作之间均有一次上采样过程,采样率为均2;具体的实现方法是在训练过程中将特征提取过程重点conv2-2输出的特征图像输入到人群区域识别模块CAM中,经过四层卷积后输出的特征图,通过提前设定的阈值,当密度图像素点的值小于1e-5的时候则将该像素点设置为0,定为背景;反正则设定为1,定为人群;当网络经过CAM模块便能实现对图像的人群区分;
多尺度特征融合模块ASPP,采用四个级联的空洞卷积,空洞率分别为6,12,18,24;神经网络通过多尺度特征融合模块ASPP结构来提取不同尺度的空间信息,得到一个包含抽象化特征信息的输出,而编码阶段通过融合一个包含足量局部信息,边缘信息的低层特征图来补充细节信息,最后进行预测;
对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络;
通过训练后的网络对视频数据集进行测试,得到测试结果;
根据测试结果对训练后网络进行评估,得到评估结果,进而优化网络权重系数;
将待测视频数据集输入优化后的网络进行人群计数,得到计数结果。
2.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法,其特征在于,所述通过数据获取模块获取用于网络训练的视频数据集,具体为:在人流量密集的地段中设有若干摄像头,通过若干摄像头获取不同角度的人流量图像以及获取密集程度不同的人流量图像;对人流量图像中出现的人进行标注,生成标注文件;
采用7:3的比例将视频数据集随机分为训练集和测试集。
3.根据权利要求2所述的基于背景提取和多尺度融合网络的人群计数方法,其特征在于,所述标注文件中每个人体的像素点位置均用数值1表示,其余像素点位置均用0表示。
4.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法,其特征在于,所述结构性损失APLoss,在训练过程中需要将输入图像中的标注点通过高斯卷积生成密度图;标注点以原始图像大小相同的全0矩阵np.zeros()表示,遍历标注文件中每一个位置坐标,将矩阵中和人对应的点置为1,最后调用高斯核函数生成密度图并保存成h5py格式的文件;标签矩阵定义如公式1所示:
其中xi表示每个人标注点的位置,具有N个人头的标签表示为H(x);这里的x表示为一个二维坐标;然后将标签矩阵与二维高斯核函数进行卷积生成密度图,如公式2所示,
F(x)=H(x)*G(x)(2)
G(x)表示高斯二维卷积核;最后与模型预测得到的密度图进行计算得到相应的损失,进行密度回归估计,其过程如公式3所示,
其中表示为预测密度图,/>表示为标签密度图,L(θ)为欧氏几何距离损失。
5.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法,其特征在于,所述对基于背景提取和多尺度特征融合网络进行训练,得到训练后的网络,具体如下步骤:
1)、利用几何和自适应高斯核来将估计训练图像中每个人头的大小并转换为密度图作为训练监督图;该密度图的积分求和得到图像中人群数目;
2)、将收集好的数据集经过预处理,使得图像大小尺寸固定为512x512后输入到神经网络中,利用步密度图作为监督图,以欧式距离作为损失函数进行训练;训练时通过左右翻转图像,增加数据量;
3)、保存训练好的模型;
4)、将低分辨率的视频数据集输入到网络中,重复3)4)步骤;
5)、用训练好的模型对测试视频数据集进行测试,用平均绝对误差MAE和均方误差MSE对网络进行评估。
6.根据权利要求1所述的基于背景提取和多尺度融合网络的人群计数方法,其特征在于,所述通过训练后的网络对视频数据集进行测试,得到测试结果,具体如下:1)、将测试集视频按照30帧进行抽样,提取得到测试图像;
2)、对测试图像进行预处理,使图像大小尺寸固定为512×512;
3)、加载训练好的人群计数训练网络,将经过预处理的测试集图像输入到网络模型中进行处理,生成人群密度图;
4)、对生成的密度图进行二维积分,得到的结果取整数部分即为人群计数结果;其过程如公式(4)所示:
Mpr=∫∫D(x,y)dσ (4)
其中D表示密度图,Mpr为计数结果;
5)、平均绝对误差MAE和均方误差MSE对网络进行评估;具体公式如公式(5)、(6)所示:
其中表示第i张图像的实际人数,/>表示为第i张图像的预测人数。
7.根据权利要求6所述的基于背景提取和多尺度融合网络的人群计数方法,其特征在于,所述将待测视频数据集输入优化后的网络得到密度图;利用公式(4)对密度图进行积分,得到计数结果。
8.基于背景提取和多尺度融合网络的人群计数系统,应用于权利要求1-7中任一项所述基于背景提取和多尺度融合网络的人群计数方法,其特征在于,采用了多尺度融合模块ASPP、背景提取模块CAM对传统的人群计数算法进行改进,得到高精细度的计数效果;
所述基于背景提取和多尺度特征融合网络的人群计数系统包括:摄像头数据获取模块、数据导入模块、数据预处理模块、人群计数网络模块以及结果分析模块;
所述摄像头数据获取模块对指定区域进行拍摄,获取图像数据;
所述数据预处理模块接收通过数据导入模块导入的图像数据并进行处理;即将图像数据进行裁切和归一化转化为人群计数网络处理的数据;
所述人群计数网络模块接收处理后的数据,采用VGG16-BN的前13层作为前端特征映射提取器,将Conv2-2提取的特征经过背景提取模块CAM进行数据处理之后,网络能将更多的注意力分配给人群聚集的地方;将Conv5-3提取的特征经过多尺度融合模块ASPP,得到多尺度信息;
所述结果分析模块将生成的特征图用Unet网络进行上采样融合的方法生成密度图并进行二维积分,得到图像中的人群总数后进行输出。
CN202110481093.4A 2021-04-30 2021-04-30 基于背景提取和多尺度融合网络的人群计数方法及系统 Active CN113139489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110481093.4A CN113139489B (zh) 2021-04-30 2021-04-30 基于背景提取和多尺度融合网络的人群计数方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110481093.4A CN113139489B (zh) 2021-04-30 2021-04-30 基于背景提取和多尺度融合网络的人群计数方法及系统

Publications (2)

Publication Number Publication Date
CN113139489A CN113139489A (zh) 2021-07-20
CN113139489B true CN113139489B (zh) 2023-09-05

Family

ID=76816764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110481093.4A Active CN113139489B (zh) 2021-04-30 2021-04-30 基于背景提取和多尺度融合网络的人群计数方法及系统

Country Status (1)

Country Link
CN (1) CN113139489B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887489A (zh) * 2021-10-21 2022-01-04 西南交通大学 基于位置增强和多尺度融合网络的车厢内人群计数方法
CN113807334B (zh) * 2021-11-22 2022-02-18 成都航空职业技术学院 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN115082853A (zh) * 2022-06-14 2022-09-20 长三角信息智能创新研究院 多尺度感知的泛用型定位计数方法
CN116311083B (zh) * 2023-05-19 2023-09-05 华东交通大学 一种人群计数模型训练方法及系统
CN116805337B (zh) * 2023-08-25 2023-10-27 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法
CN118429781A (zh) * 2024-07-04 2024-08-02 深圳大学 基于点监督的多视角最优传输人群检测方法、系统及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN112597964A (zh) * 2020-12-30 2021-04-02 上海应用技术大学 分层多尺度人群计数的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN112597964A (zh) * 2020-12-30 2021-04-02 上海应用技术大学 分层多尺度人群计数的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多通道融合分组卷积神经网络的人群计数算法;严芳芳;吴秦;;小型微型计算机系统(10);第186-191页 *

Also Published As

Publication number Publication date
CN113139489A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN113139489B (zh) 基于背景提取和多尺度融合网络的人群计数方法及系统
CN110084156B (zh) 一种步态特征提取方法及基于步态特征的行人身份识别方法
CN108573276B (zh) 一种基于高分辨率遥感影像的变化检测方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN105243154A (zh) 基于显著点特征和稀疏自编码的遥感图像检索方法及系统
CN113762009B (zh) 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN112308087B (zh) 基于动态视觉传感器的一体化成像识别方法
CN112017192A (zh) 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN114299111B (zh) 一种基于半监督孪生网络的红外弱小目标跟踪方法
CN113313031B (zh) 一种基于深度学习的车道线检测和车辆横向定位方法
CN111832461A (zh) 一种基于视频流的非机动车骑行人员头盔佩戴检测方法
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN114298948A (zh) 基于PSPNet-RCNN的球机监控异常检测方法
CN112801037A (zh) 一种基于连续帧间差异的人脸篡改检测方法
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法
Song et al. Feature extraction and target recognition of moving image sequences
CN117392668A (zh) 一种麦田小麦赤霉病状态评估方法、系统及电子设备
CN117292324A (zh) 一种人群密度估计方法及系统
CN112632601B (zh) 面向地铁车厢场景的人群计数方法
CN113034543B (zh) 一种基于局部注意力机制的3D-ReID多目标追踪方法
CN114743257A (zh) 图像目标行为的检测识别方法
CN115100681A (zh) 一种衣着识别方法、系统、介质及设备
CN114627183A (zh) 一种激光点云3d目标检测方法
CN114140698A (zh) 一种基于FasterR-CNN的水系信息提取算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant