CN114758306B - 一种基于金字塔特征融合的人群密度估计方法 - Google Patents
一种基于金字塔特征融合的人群密度估计方法 Download PDFInfo
- Publication number
- CN114758306B CN114758306B CN202210676833.4A CN202210676833A CN114758306B CN 114758306 B CN114758306 B CN 114758306B CN 202210676833 A CN202210676833 A CN 202210676833A CN 114758306 B CN114758306 B CN 114758306B
- Authority
- CN
- China
- Prior art keywords
- features
- convolution
- scale
- feature fusion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于人群密度估计技术领域,涉及一种基于金字塔特征融合的人群密度估计方法,使用VGG‑16的前十三层作为主干网络,进行初步的特征提取,然后针对多尺度目标感知难得问题,设计了金字塔特征融合模块,采用不同空洞率的空洞卷积提取多尺度特征,并将多尺度特征进行自下而上和自上而下两阶段的特征融合,增强网络的尺度感知能力;同时,针对复杂背景被误判为目标的问题,设计通道注意力分支,提取全局注意力信息,监督多尺度特征的提取,最后使用卷积和激活函数的组合将多尺度特征回归为最终密度图,不仅可以用来进行无约束场景的人群密度估计,还可以用于原木、细胞等各项密集目标的密度估计。
Description
技术领域
本发明属于人群密度估计技术领域,涉及一种基于金字塔特征融合的人群密度估计方法。
背景技术
随着世界医疗技术日益进步,各国人口普遍呈增长趋势,同时,由于城市化进程不断推进,城市人口日益增多,在演出会场、旅游胜地、商业街、机场、火车站等公共场所日益频繁地出现大规模人群聚集,在人群密度过高的区域,极易发生各种安全事故,给安防工作带来了极大挑战,而人群密度估计可以实时监测场景内人群的聚集程度,及时发现高密度的人群并采取疏散措施。
早期的基于检测的人群密度估计方法多采用滑动窗口遍历图像,以统计图像中的人数。这些检测器多通过支持向量机、随机森林已经Boosting等方法训练得到,用来提取低层特征来监测行人,该类方法在人群稀疏的场景中表现良好,但在密集场景下,目标间的相互遮挡导致无法精确检测到行人,因此该类算法精度极低。
针对上述问题,基于回归的方法出现,该类方法通过将低级特征直接映射为人数,来实现密度估计,基于回归的方法通常包括两步,第一步为特征提取,提取纹理特征、边缘特征等低级特征;第二步为回归,即利用线性回归、岭回归、高斯函数和随机森林等回归模型,将特征映射为人数,此类方法有效地解决了遮挡问题,但无法获取图像中的人群分布情况。
为了准确预测密集人群的人数,同时保留人群分布信息,基于深度学习的方法采用预测密度图的思路,使用卷积神经网络对输入图像进行特征提取,回归成人群密度图,为解决尺度变化问题,现阶段的人群密度估计网络多采用多通道的网络结构,在不同感受野下提取多尺度特征,在精度上取得较大提升,但是该类方法大多采用独立的多个通道,其多尺度特征提取能力有限,还有的方法虽引入了通道间的特征融合,但其采用的无差别化特征融合会造成特征过度融合,各个通道的特征逐渐趋同,导致精度降低;除了使用多通道的网络结构提取多尺度特征以外,注意力机制的引入能有效抑制背景特征的干扰,过滤部分无效计数,从而提升整体精度。
由此可见,针对复杂背景下的高密度人群密度估计精度不高的技术问题,急需更有效的人群密度估计方法。
发明内容
本发明的目的在于克服现有技术的不足,设计提供一种基于金字塔特征融合的人群密度估计方法,用来解决多尺度目标感知困难的问题,可用于非受限实际场景的人群密度估计人去中,能够准确的实现密度估计。
为实现上述目的,本发明实现人群密度估计的具体过程为:
(1)数据集生成:对人群公开数据集的标注信息进行处理,使用高斯核模糊标注信息中的标注点,以形成训练所需的真实密度图,并采用裁剪和翻转的方式将数据集进行增广,以获取更多的训练数据图像;
(2)主干网络特征提取:将步骤(1)得到的图像输入到主干网络中进行卷积特征提取,获得初步特征;
(3)金字塔特征融合:根据步骤(2)得到的初步特征,使用金字塔特征融合模块进一步提取并输出多尺度特征;
(4)密度图回归:采用密度图回归器将步骤(3)输出的多尺度特征解码为人群密度图,实现人群密度的估计。
作为本发明的进一步技术方案,步骤(1)中模糊标注信息中的标注点时,对人群密度高的人群图像采用几何自适应高斯核,对人群密度低的人群图像采用标准差为15的高斯核。
作为本发明的进一步技术方案,步骤(2)所述主干网络使用VGG16前十三层作为特征提取网络,该主干网络由3×3卷积层和最大池化层组成,主干网络输出特征的尺寸为输入图像的1/8,在后期特征融合和密度图回归阶段中可有效减小计算量,提高模型处理速度。
作为本发明的进一步技术方案,步骤(3)所述金字塔特征融合模块在不同分支间引入跨分支的信息传递路径,灵活地聚合不同分支的多尺度特征,同时引入注意力分支,获取空间注意力信息,增强对人群区域的关注,具体包括如下步骤:
(31)给定输入特征图F,为获取不同感受野下的多尺度特征,金字塔特征融合模块使用空洞率分别为1、2、3、4的3×3空洞卷积处理输入特征,经不同空洞率空洞卷积提取的多尺度特征分别表示为F 1 、F 2 、F 3 、F 4 ;
(32)将空洞卷积提取的多尺度特征自下而上跨分支融合,先将F 1 与F 2 经concat操作串联在一起,使用3×3卷积操作将串联特征融合,并引入ReLU激活函数,将融合后特征图中的负值置为0,减小计算量;同时将正值进行线性变换,防止出现梯度消失和梯度饱和问题,加速网络收敛,融合后的特征表示为P 2 ;后续采用相同的融合策略,依次将P 2 与F 3 融合得到P 3 ,将P 3 与F 4 融合得到P 4 ,则聚合了其他分支特征信息的多尺度特征P 1 、P 2 、P 3 、P 4 具体表示为:
(33)将特征P 1 、P 2 、P 3 、P 4 进行自上而下的跨分支融合,使用多尺度空洞卷积,引入ReLU激活函数处理多尺度特征,得到输出特征M 1 、M 2 、M 3 、M 4 ,具体表示为:
式中式中DC i 为空洞率为i的3×3空洞卷积,然后将四个分支的输出特征串联,引入3×3卷积聚合不同分支特征,得到多尺度特征M;
作为本发明的进一步技术方案,步骤(4)所述密度图回归器使用四组卷积层和ReLU激活函数的组合,其中前三组卷积层采用3×3卷积层,最后一组采用1×1卷积层。
本发明使用VGG-16的前十三层作为主干网络,进行初步的特征提取,然后针对多尺度目标感知难得问题,设计了金字塔特征融合模块,采用不同空洞率的空洞卷积提取多尺度特征,并将多尺度特征进行自下而上和自上而下两阶段的特征融合,增强网络的尺度感知能力;同时,针对复杂背景被误判为目标的问题,设计通道注意力分支,提取全局注意力信息,监督多尺度特征的提取,最后使用卷积和激活函数的组合将多尺度特征回归为最终密度图。
本发明与现有技术相比,使用更精简的网络结构,聚合多尺度特征,获取更具尺度感知能力的网络模型,采用金字塔特征融合模块,在多个拥有不同感受野的独立分支基础上,进行自下而上和自上而下两阶段的特征传递,聚合不同分支的特征信息,从而增强网络的多尺度空间信息聚合能力;同时在金字塔特征融合模块中引入注意力分支,获取通道注意力,增强网络对人群区域的感知,抑制背景区域特征的激活,不仅可以用来进行无约束场景的人群密度估计,还可以用于原木、细胞等各项密集目标的密度估计,该方法在ShanghaiTech数据集上将平均绝对误差(MAE)降低到了59.3,在UCF_CC_50数据集上将MAE降低到了175.0。
附图说明
图1为本发明所述人群密度估计网络的结构框架示意图。
图2为本发明所述金字塔特征融合模块结构示意图。
图3为本发明所述密度图回归模块结构示意图。
图4为本发明所述人群密度估计的工作流程框图。
具体实施方式
下面结合附图并通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
实施例:
本实施例通过主干提取卷积特征,然后使用四个并行的分支进一步提取多尺度特征,同时引入注意力分支,将注意力集中于人群所在区域,最后多尺度特征经密度图回归器处理得到最终密度图,具体包括如下步骤:
(1)数据集生成:对人群公开数据集的标注信息进行处理,使用高斯核模糊标注信息中的标注点,以形成训练所需的真实密度图,其中,对人群密度高的人群图像,使用几何自适应高斯核,对人群密度低的人群图像,使用标准差为15的高斯核;然后采用裁剪和翻转的方式将数据集进行增广,以获取更多的训练数据图像;
(2)主干网络特征提取:先将图像输入到主干网络中进行卷积特征提取得到初步特征,其中主干网络使用VGG16前十三层作为特征提取网络,该主干网络仅由3*3卷积层和最大池化层组成,结构简单且特征提取能力强,由于主干网络中引入了三个最大池化层,因此主干网络输出特征的尺寸为输入图像的1/8,在后期特征融合和密度图回归阶段中可有效减小计算量,提高模型处理速度;
(3)金字塔特征融合:根据步骤(3)得到的初步特征,使用金字塔特征融合模块进一步提取多尺度特征,金字塔特征融合模块在不同分支间引入跨分支的信息传递路径,灵活地聚合不同分支的多尺度特征,同时引入注意力分支,获取空间注意力信息,增强对人群区域的关注,包括四个步骤,具体如下:
(31)给定输入特征图F,为获取不同感受野下的多尺度特征,金字塔特征融合模块使用空洞率分别为1、2、3、4的3×3空洞卷积处理输入特征,相比于普通的3×3、5×5、7×7和9×9的卷积层,金字塔特征融合模块采用的多尺度空洞卷积在保证感受野相同的前提下需要的参数更少,经空洞卷积提取的多尺度特征表示为F 1 、F 2 、F 3 、F 4 ;
(32)将空洞卷积提取的多尺度特征自下而上跨分支融合,首先将F 1 与F 2 经concat操作串联在一起,使用3×3卷积操作将串联特征融合,由于融合后的特征图中包含负值,均为无用信息,因此,本实施例引入ReLU激活函数,将负值置为0,减小计算量;同时,将正值进行线性变换,防止出现梯度消失和梯度饱和问题,加速网络收敛,融合后的特征表示为P 2 ,后续采用相同的融合策略,依次将P 2 与F 3 融合得到P 3 ,将P 3 与F 4 融合得到P 4 ,聚合了其他分支特征信息的多尺度特征P 1 、P 2 、P 3 、P 4 具体表示为:
(33)将特征P 1 、P 2 、P 3 、P 4 进行自上而下的跨分支融合,与步骤(32)不同的是步骤(33)使用了多尺度空洞卷积,在多局部感受野下感知其他分支的特征信息,从而保留更多的多尺度特征,并引入ReLU激活函数处理多尺度特征,得到输出特征M 1 、M 2 、M 3 、M 4 ,具体表示为:
式中DC i 为空洞率为i的3×3空洞卷积;然后将四个分支的输出特征串联,引入3×3卷积聚合不同分支特征,得到多尺度特征M;
(34)由于每个卷积核只有一个局部感受野,多尺度特征M缺少上下文信息,导致网
络灵敏度降低,针对这一问题,在金字塔特征融合模块引入注意力分支,利用全局平均池化
操作获取逐通道的注意力信息,其中为A的第c个通道的元素,具体表示为:
(4)密度图回归:在密度图回归阶段,密度图回归器使用四组卷积层和ReLU激活函数的组合,将步骤(34)的输出特征解码为人群密度图,密度图回归器的前三组卷积层使用3×3卷积层,最后一组使用1×1卷积层,卷积和ReLU激活函数的组合可以在卷积层进行线性变换之后引入非线性变换,增强网络的非线性表达能力。
需要注意的是,本文中未公开的算法和图像处理方法均采用本领域通用技术,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的,因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (4)
1.一种基于金字塔特征融合的人群密度估计方法,其特征在于,具体过程为:
(1)数据集生成:对人群公开数据集的标注信息进行处理,使用高斯核模糊标注信息中的标注点,以形成训练所需的真实密度图,并采用裁剪和翻转的方式将数据集进行增广,以获取更多的训练数据图像;
(2)主干网络特征提取:将步骤(1)得到的图像输入到主干网络中进行卷积特征提取,获得初步特征;
(3)金字塔特征融合:根据步骤(2)得到的初步特征,使用金字塔特征融合模块进一步提取并输出多尺度特征;其中金字塔特征融合模块在不同分支间引入跨分支的信息传递路径,灵活地聚合不同分支的多尺度特征,同时引入注意力分支,获取空间注意力信息,增强对人群区域的关注,具体包括如下步骤:
(31)给定输入特征图F,为获取不同感受野下的多尺度特征,金字塔特征融合模块使用空洞率分别为1、2、3、4的3×3空洞卷积处理输入特征,经不同空洞率空洞卷积提取的多尺度特征分别表示为F 1 、F 2 、F 3 、F 4 ;
(32)将空洞卷积提取的多尺度特征自下而上跨分支融合,先将F 1 与F 2 经concat操作串联在一起,使用3×3卷积操作将串联特征融合,并引入ReLU激活函数,将融合后特征图中的负值置为0,同时将正值进行线性变换,融合后的特征表示为P 2 ;后续采用相同的融合策略,依次将P 2 与F 3 融合得到P 3 ,将P 3 与F 4 融合得到P 4 ,则聚合了其他分支特征信息的多尺度特征P 1 、P 2 、P 3 、P 4 具体表示为:
(33)将特征P 1 、P 2 、P 3 、P 4 进行自上而下的跨分支融合,使用多尺度空洞卷积,引入ReLU激活函数处理多尺度特征,得到输出特征M 1 、M 2 、M 3 、M 4 ,具体表示为:
式中DC i 为空洞率为i的3×3空洞卷积,然后将四个分支的输出特征串联,引入3×3卷积聚合不同分支特征,得到多尺度特征M;
(4)密度图回归:采用密度图回归器将步骤(3)输出的多尺度特征解码为人群密度图,实现人群密度的估计。
2.根据权利要求1所述基于金字塔特征融合的人群密度估计方法,其特征在于,步骤(1)中模糊标注信息中的标注点时,对人群密度高的人群图像采用几何自适应高斯核,对人群密度低的人群图像采用标准差为15的高斯核。
3.根据权利要求2所述基于金字塔特征融合的人群密度估计方法,其特征在于,步骤(2)所述主干网络使用VGG16前十三层作为特征提取网络,该主干网络由3×3卷积层和最大池化层组成,主干网络输出特征的尺寸为输入图像的1/8。
4.根据权利要求3所述基于金字塔特征融合的人群密度估计方法,其特征在于,步骤(4)所述密度图回归器使用四组卷积层和ReLU激活函数的组合,其中前三组卷积层采用3×3卷积层,最后一组采用1×1卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210676833.4A CN114758306B (zh) | 2022-06-16 | 2022-06-16 | 一种基于金字塔特征融合的人群密度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210676833.4A CN114758306B (zh) | 2022-06-16 | 2022-06-16 | 一种基于金字塔特征融合的人群密度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114758306A CN114758306A (zh) | 2022-07-15 |
CN114758306B true CN114758306B (zh) | 2022-08-23 |
Family
ID=82336295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210676833.4A Active CN114758306B (zh) | 2022-06-16 | 2022-06-16 | 一种基于金字塔特征融合的人群密度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758306B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523449A (zh) * | 2020-04-22 | 2020-08-11 | 山东师范大学 | 基于金字塔注意力网络的人群计数方法及系统 |
CN111626184B (zh) * | 2020-05-25 | 2022-04-15 | 齐鲁工业大学 | 一种人群密度估计方法及系统 |
CN113887536B (zh) * | 2021-12-06 | 2022-03-04 | 松立控股集团股份有限公司 | 一种基于高层语义引导的多阶段高效人群密度估计方法 |
CN114494194A (zh) * | 2022-01-26 | 2022-05-13 | 武汉大学 | 复杂场景下的人群计数方法、装置、设备及可读存储介质 |
-
2022
- 2022-06-16 CN CN202210676833.4A patent/CN114758306B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011329A (zh) * | 2021-03-19 | 2021-06-22 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114758306A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543606B (zh) | 一种加入注意力机制的人脸识别方法 | |
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN113362223B (zh) | 基于注意力机制和双通道网络的图像超分辨率重建方法 | |
CN110263849B (zh) | 一种基于多尺度注意力机制的人群密度估计方法 | |
Du et al. | Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN110956094A (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN110427839A (zh) | 基于多层特征融合的视频目标检测方法 | |
CN110689482A (zh) | 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法 | |
CN110443173A (zh) | 一种基于帧间关系的视频实例分割方法及系统 | |
CN104376334B (zh) | 一种多尺度特征融合的行人比对方法 | |
CN103942812B (zh) | 基于混合高斯与边缘检测的运动目标检测方法 | |
CN103729620B (zh) | 一种基于多视角贝叶斯网络的多视角行人检测方法 | |
CN105138987A (zh) | 一种基于聚合通道特征和运动估计的车辆检测方法 | |
CN112990077A (zh) | 基于联合学习与光流估计的面部动作单元识别方法及装置 | |
CN107564018A (zh) | 一种利用改进迭代算法提取目标图像的方法 | |
CN111882581B (zh) | 一种深度特征关联的多目标跟踪方法 | |
Zhu et al. | Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN109859222A (zh) | 基于级联神经网络的边缘提取方法及系统 | |
CN114463340B (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN112906675B (zh) | 一种固定场景中的无监督人体关键点检测方法及系统 | |
CN114120148A (zh) | 一种遥感影像建筑物变化区域的检测方法 | |
CN111931551B (zh) | 一种基于轻量级级联网络的人脸检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |