CN110210423B - 一种基于多层级回归的人群密度估计方法 - Google Patents
一种基于多层级回归的人群密度估计方法 Download PDFInfo
- Publication number
- CN110210423B CN110210423B CN201910488308.8A CN201910488308A CN110210423B CN 110210423 B CN110210423 B CN 110210423B CN 201910488308 A CN201910488308 A CN 201910488308A CN 110210423 B CN110210423 B CN 110210423B
- Authority
- CN
- China
- Prior art keywords
- density
- crowd
- area
- image
- areas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于多层级回归的人群密度估计方法,将人群图像划分为不同拥挤程度的人群区域及背景,对各个划分出的区域采用不同的密度回归器生成相应的密度图,并最终合并各个密度图生成整幅图像的密度图用于人数估计。本发明利用多层级回归处理不同拥挤程度的人群图像区域,有效解决了不同场景下人的外观、尺寸、面积等变化引起的人群密度估计准确率受限问题,提高了人群密度估计的准确率。
Description
技术领域
本发明属于计算机技术领域,涉及彩色人群图像的识别和分割,还涉及人群图像的密度图生成方法,具体为一种基于多层级回归的人群密度估计方法。
背景技术
人群密度估计是指将包含人群的原始图像映射为人群密度图,通过密度图来获得图像中的人数和人群的分布信息。由于密度图包含众多有利用价值的信息,在视频监控、人群分析等领域有重要的应用价值。
早期的人群密度估计方法主要通过手动提取原图像的特征信息,使用一些简单的映射函数将提取出的特征映射为密度图或直接映射为人数,这些方法主要包括基于检测的方法和基于回归的方法。基于检测的方法主要使用滑动窗口,直接对图像中的人进行识别和计数,在人群拥挤的场景中预测的准确率较低。基于回归的方法主要使用线性函数建立从图像特征到人数或密度图的映射关系,由于映射函数由人工建立,函数的形式较为简单,预测的准确率不高。
最近几年一些学者将卷积神经网络引入到人群密度估计中,取得了较好的效果。卷积神经网络可以通过后向传播算法自动寻找映射函数中最优的参数组合,解决了人工设定映射函数比较困难的问题。人群密度估计中一个关键的问题是随着人群拥挤程度的增加,单位面积上密度增大,人的尺寸缩小,人与人之间存在遮挡,人的外观逐渐变得不完整,虽然这时人被挡住了,但在统计时仍然要将其计算在内。现有的应对方案提出了使用多尺度结构的方法来应对人的尺寸变化的问题,但这些方法仍然缺乏应对拥挤度增加下人的外观变化的能力,而且单一的密度回归器也不能很好地适应单位面积上密度变化的问题。同时,也有一些应对人群密度变化的方法被提出,但这些方法又不能很好地解决人的尺寸变化和人的外观变化的问题,这一缺陷也体现在这些方法在拥挤场景中准确率严重下降。目前为止,同时解决上述问题的研究工作仍然是空白。
综上所述,早期的人群密度估计方法不仅操作比较复杂,且准确率较低,现有的基于卷积神经网络的人群密度估计方法不能很好地同时应对不同拥挤程度场景下人的外观的变化、人的尺寸变化和单位面积密度变化。
发明内容
本发明要解决的问题是:现有的人群密度估计方法对拥挤程度高的情况,统计人群密度时不能兼顾密度、尺寸、外观等诸多变化点,不能解决不同场景下人的外观、尺寸、面积等变化引起的人群密度估计准确率受限问题。
本发明的技术方案为:一种基于多层级回归的人群密度估计方法,将人群图像划分为不同拥挤程度的区域,即划分多层,对各划分出的区域采用对应的密度回归器生成相应的区域密度图,最终合并各区域密度图生成整幅图像的密度图用于人群密度估计。
进一步的,拥挤度划分前先预设划分层数,根据设定层数确定拥挤度划分依据,同时利用分层后的数据训练得到对应层级的密度回归器,再对待估计密度的人群图像进行多层级回归的密度估计。
作为优选方式,根据设定层数进行训练,得到拥挤程度的划分依据,利用分层后的数据训练得到对应层的密度回归器。
本发明包括以下步骤:
1)对于输入的人群图像,根据不同拥挤程度将其分层,划分为多个区域,并对各个区域生成掩膜;
2)分别使用每一个掩膜与源图像或中间特征图相乘,遮挡住人群图像中不属于该掩膜对应区域的区域,得到只包含特定拥挤程度区域的图像,称为保留区域,源图像即输入的人群图像,中间特征图为源图像的特征图;
3)对每个特定拥挤程度区域的图像,分别采用一个相应的密度回归器进行回归,生成对应该拥挤程度区域的区域密度图;
4)将所有区域密度图相融合,生成整幅人群图像的密度图;
5)将整幅图像的密度图进行统计,生成人数估计结果。
进一步的,步骤1)对输入人群图像进行划分时,先划分为两层,将图像划分为人群区域和背景区域,再对人群区域分层,按照不同的拥挤程度进一步划分为多个区域。
密度回归器的个数与划分层数相同,或舍弃对应背景区域的密度回归器,将背景区域的区域密度图默认为0。
步骤3)所述的区域密度图生成方法具体为:通过密度回归器将保留区域映射到区域密度图。
本发明的有益结果是:本发明提出了一种面向不同场景下人的外观、尺度、面积等变化引起人群密度估计准确率受限问题的解决方案。实现了对具有不同拥挤程度的区域划分,避免了密度回归器只能适应稀疏或密集的单一人群的缺陷,通过对人群的划分,可以全面提高各个拥挤度人群的人数预测的准确率,特别是同一人群图像中密度不均,部分区域集中拥挤的情况下,不会由于使用单一密度估计方案,而在某些稀疏或密集的人群场景中预测出误差较大的结果,因此本方法具有良好的鲁棒性和实用性。图3展示了由本发明所生成的密度图结果示例,图3中的三行分别为:(a)输入图像,(b)密度图的真实标注,(c)预测的密度图。明显可见,本发明可以生成准确的密度图结果。
附图说明
图1为本发明的实施流程。
图2为本发明的区域划分的掩膜示例。
图3为本发明的密度图预测结果示例。
具体实施方式
本发明解决现有技术的缺陷,研究发现现有技术未能充分利用不同拥挤程度人群的特点,本发明通过对稀疏和拥挤人群的划分,使得人群密度估计的准确率可以得到提高,提出一种基于多层级回归的人群密度估计方法,能够适应不同的人群场景,并能提高预测准确率。
本发明方法将人群图像划分为不同拥挤程度的区域,即划分多层,对各划分出的区域采用对应的密度回归器生成相应的区域密度图,最终合并各区域密度图生成整幅图像的密度图用于人群密度估计。其中,拥挤程度的划分可以人工设定,也可以不人工设定。优选方式为,先预设划分层数,根据设定层数确定拥挤度划分依据,划分依据可以根据设定层数进行训练得到,同时利用分层后的数据训练得到对应层级的密度回归器,再对待估计密度的人群图像进行多层级回归的密度估计。每一层的划分依据是通过训练得到,也可以看作是人为设定的,但实际上只是人工设了分几层,至于怎么划分的阈值是训练得到的,不属于人工设定。密度回归器对应层级训练,在训练数据上对于划分出来的层级分别训练生成一个密度回归器,在实际使用(也就是实际进行密度估计)的时候,划分出来的是第几层区域,就调用之前在第几层上训练得到的密度回归器,也就是按照某一个拥挤程度划分得到的区域,对应采用哪个密度回归器。
如图1所示,本发明具体包括以下步骤:
1)对于输入的人群图像,根据不同拥挤程度将其划分为多个区域,进行多层划分,并对各个区域生成掩膜,掩膜表示了特定拥挤程度对应的区域,这里采用掩膜的形式可参照文献[1]《ADCrowdNet:An Attention-injective Deformable Convolutional Networkfor Crowd Understanding.》(Ning Liu,Yongchao Long,Changqing Zou,Qun Niu,LiPan,and Hefeng Wu.2019.In IEEE Conference on Computer Vision and PatternRecognition.),分层时先将人群图像划分为两层,将人群图像划分为人群区域和背景区域,再对人群区域分层,按照不同的拥挤程度进一步划分为多个区域,除了这种分层方式,也可以直接将输入人群图像划分成不同拥挤度的区域,不影响后续密度估计。
1.1)对人群图像中的人群区域和背景区域进行划分;
1.2)从划分出的人群区域中进一步划分出拥挤程度较高的人群区域;
1.3)第二层及之后的每一层都对前一层划分出的人群区域进一步划分,得到其中拥挤程度相对较高的人群区域,直到没有可划分的更高拥挤程度的人群为止。
步骤1.2)1.3)中所述的拥挤程度的划分前面已经表述,可以根据设定的划分层数采用训练学习得到。
图2展示了对区域划分结果生成掩膜的示例,其中:(a)为两个输入人群图像,(b)-(d)中黑色表示第1层背景区域,(b)为第2层区域(人群)对应的掩膜,(c)第3层区域(人群)对应的掩膜,(d)第4层区域(人群)对应的掩膜。
2)分别使用每一个掩膜与源图像或中间特征图相乘,遮挡住人群图像中不属于该掩膜对应区域的区域,得到只包含特定拥挤程度区域的图像,称为保留区域,源图像即输入的人群图像,中间特征图为源图像的特征图。保留区域相当于对人群图像只考虑特定拥挤程度的区域,视其它部分不存在,掩膜是每个像素取值为0或1的图像,1表示这个像素符合当前的拥挤程度,0表示不符合:
2.1)中间特征图是对源图像采用某些方法,例如VGG19的前几层,抽取得到的特征图,本实施例使用VGG-16神经网络的前10层提取原图像的中间特征,得到中间特征图;
2.2)若执行2.1)则使用中间特征图与密度回归器对应的层划分人群得到的掩膜相乘,否则使用原输入图像与掩膜相乘,过滤掉人群以外的区域。
3)对每个特定拥挤程度的生成图像,分别采用一个相应的密度回归器进行回归,生成对应该拥挤程度的区域密度图:
3.1)将相乘后的图像或特征通过密度回归器映射到区域密度图,具体可参考文献[2]《CSRNet:Dilated convolutional neural networks for understanding the highlycongested scenes.》(Yuhong Li,Xiaofan Zhang,and Deming Chen.2018.In IEEEConference on Computer Vision and Pattern Recognition.1091–1100.)。
本发明理论上区域的个数、掩膜的个数、密度回归器的个数三者一一对应,即密度回归器的个数与划分层数相同,对于划分出背景区域的分层方式,也可以舍弃对应背景区域的密度回归器,将背景区域的区域密度图直接默认为0,来节省计算资源,提高效率。对于背景区域,我们认为其中不包含人,所以密度回归器生成的密度图应该是全0的,所以这个密度回归器没有意义,可以省略掉,但这只是理想情况,认为背景区域的划分是完全正确的,如果以背景区域可能会划错为前提,也就是可能会把一部分人群划分到背景区域,那么也就是允许在背景区域产生一定数量非0的密度图,这时候对应背景区域的密度回归器就不能舍弃了。
4)将所有区域密度图相融合,生成整幅图像的密度图;
4.1)将各个密度图相融合方法如下:
其中,H和W分别是密度图的高度和宽度,K是划分区域的个数,是第k个区域所对应密度图在坐标(i,j)处的像素值,pij是整幅图像密度图在坐标(i,j)处的像素值。
5)将整幅图像的密度图进行统计,生成人数估计结果。
5.1)根据密度图统计人数方法如下:
其中,c是估计的人数,H和W分别是密度图的高度和宽度,pij是整幅图像密度图在坐标(i,j)处的像素值。
本发明提供了一种从划分人群并分别对不同拥挤程度的人群回归的方法,实现了人群密度估计,能够适应稀疏和密集的人群场景,预测结果更为准确,克服了现有技术同时在稀疏和密集人群场景中预测不准确的限制。
Claims (6)
1.一种基于多层级回归的人群密度估计方法,其特征是将人群图像划分为不同拥挤程度的区域,即划分多层,对各划分出的区域采用对应的密度回归器生成相应的区域密度图,最终合并各区域密度图生成整幅图像的密度图用于人群密度估计,包括以下步骤:
1)对于输入的人群图像,根据不同拥挤程度将其分层,划分为多个区域,并对各个区域生成掩膜;
2)分别使用每一个掩膜与源图像或中间特征图相乘,遮挡住人群图像中不属于该掩膜对应区域的区域,得到只包含特定拥挤程度区域的图像,称为保留区域,源图像即输入的人群图像,中间特征图为源图像的特征图;
3)对每个特定拥挤程度区域的图像,分别采用一个相应的密度回归器进行回归,生成对应该拥挤程度区域的区域密度图;
4)将所有区域密度图相融合,生成整幅人群图像的密度图;
5)将整幅图像的密度图进行统计,生成人数估计结果。
2.根据权利要求1所述的一种基于多层级回归的人群密度估计方法,其特征是拥挤度划分前先预设划分层数,根据设定层数确定拥挤度划分依据,同时利用分层后的数据训练得到对应层级的密度回归器,再对待估计密度的人群图像进行多层级回归的密度估计。
3.根据权利要求2所述的一种基于多层级回归的人群密度估计方法,其特征是根据设定层数进行训练,得到拥挤程度的划分依据,利用分层后的数据训练得到对应层的密度回归器。
4.根据权利要求1所述的一种基于多层级回归的人群密度估计方法,其特征是步骤1)对输入人群图像进行划分时,先划分为两层,将图像划分为人群区域和背景区域,再对人群区域分层,按照不同的拥挤程度进一步划分为多个区域。
5.根据权利要求4所述的一种基于多层级回归的人群密度估计方法,其特征是密度回归器的个数与划分层数相同,或舍弃对应背景区域的密度回归器,将背景区域的区域密度图默认为0。
6.根据权利要求1所述的一种基于多层级回归的人群密度估计方法,其特征是步骤3)所述的区域密度图生成方法具体为:通过密度回归器将保留区域映射到区域密度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910488308.8A CN110210423B (zh) | 2019-06-05 | 2019-06-05 | 一种基于多层级回归的人群密度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910488308.8A CN110210423B (zh) | 2019-06-05 | 2019-06-05 | 一种基于多层级回归的人群密度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210423A CN110210423A (zh) | 2019-09-06 |
CN110210423B true CN110210423B (zh) | 2023-04-25 |
Family
ID=67791174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910488308.8A Active CN110210423B (zh) | 2019-06-05 | 2019-06-05 | 一种基于多层级回归的人群密度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210423B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001274B (zh) * | 2020-08-06 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 人群密度确定方法、装置、存储介质和处理器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2505501B (en) * | 2012-09-03 | 2020-09-09 | Vision Semantics Ltd | Crowd density estimation |
CN107229894B (zh) * | 2016-03-24 | 2020-09-22 | 上海宝信软件股份有限公司 | 基于计算机视觉分析技术的智能视频监控方法及系统 |
CN109344736B (zh) * | 2018-09-12 | 2021-07-09 | 苏州大学 | 一种基于联合学习的静态图像人群计数方法 |
-
2019
- 2019-06-05 CN CN201910488308.8A patent/CN110210423B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110210423A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Towards perceptual image dehazing by physics-based disentanglement and adversarial training | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN107123123B (zh) | 基于卷积神经网络的图像分割质量评价方法 | |
Wang et al. | Optimized color sampling for robust matting | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
US20150125074A1 (en) | Apparatus and method for extracting skin area to block harmful content image | |
CN106991686B (zh) | 一种基于超像素光流场的水平集轮廓跟踪方法 | |
CN104657980A (zh) | 一种改进的基于Meanshift的多通道图像分割算法 | |
CN109766828A (zh) | 一种车辆目标分割方法、装置及通信设备 | |
CN107944437B (zh) | 一种基于神经网络和积分图像的人脸定位方法 | |
CN111709397A (zh) | 一种基于多头自注意力机制的无人机变尺寸目标检测方法 | |
CN111462149A (zh) | 一种基于视觉显著性的实例人体解析方法 | |
Collins et al. | Hybrid stochastic/deterministic optimization for tracking sports players and pedestrians | |
Liao et al. | Unsupervised foggy scene understanding via self spatial-temporal label diffusion | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN110807409A (zh) | 人群密度检测模型训练方法和人群密度检测方法 | |
CN110853064A (zh) | 一种基于最小模糊散度的图像协同分割方法 | |
CN109003287A (zh) | 基于改进遗传算法的图像分割方法 | |
CN110910319A (zh) | 一种基于大气散射模型的手术视频实时去雾增强方法 | |
CN110210423B (zh) | 一种基于多层级回归的人群密度估计方法 | |
CN113160185A (zh) | 一种利用生成边界位置指导宫颈细胞分割的方法 | |
CN109886146A (zh) | 基于机器视觉检测的洪灾信息遥感智能采集方法及设备 | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
Wu et al. | Multimodal crowd counting with mutual attention transformers | |
de Silva et al. | RipViz: Finding Rip Currents by Learning Pathline Behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |