CN112132023B - 基于多尺度上下文增强网络的人群计数方法 - Google Patents
基于多尺度上下文增强网络的人群计数方法 Download PDFInfo
- Publication number
- CN112132023B CN112132023B CN202011005334.XA CN202011005334A CN112132023B CN 112132023 B CN112132023 B CN 112132023B CN 202011005334 A CN202011005334 A CN 202011005334A CN 112132023 B CN112132023 B CN 112132023B
- Authority
- CN
- China
- Prior art keywords
- feature map
- features
- module
- scale
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000008447 perception Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007493 shaping process Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多尺度上下文增强网络的人群计数方法,包括:输入一张图片,首先经过特征提取后,获得浅层特征与深层特征,然后通过特征融合模块进行特征融合,并将融合到的特征送入多尺度感知模块,最后通过上下文增强模块对特征的空间与通道信息进行编码,获得具有人群分布特征的密度图。通过对密度图像素进行求和可以得到当前图片估计的人数。本发明提供一种基于多尺度上下文增强网络的人群计数方法,可以有效地应对人群计数中存在的多尺度问题,并且通过对特征图的空间与通道上下文信息进行建模,可以对复杂场景的人群进行更精确的计数与密度估计。该发明具有较高的鲁棒性,能向大型人群聚集场所的安全与规划方面提供准确的数据。
Description
技术领域
本发明涉及一种基于多尺度上下文增强网络的人群计数方法。
背景技术
人群计数的主要任务就是估计图像或者视频帧中人的数量与密度分布。精准的人群计数与密度估计可以帮助人们有效地避免因人群高度拥挤而引起踩踏与暴乱事件的发生。
近年来,得益于GPU计算能力的提升与大规模人群数据集的出现,深度学习方法在人群计数领域得到广泛应用,基于卷积神经网络的方法在复杂场景的人群计数任务中取得了显著进步。
但是,在现实场景中,人群计数任务与其他计算机视觉任务一样,都面临着诸多挑战,譬如人群分布不均,尺度视角的变化和相互之间的遮挡等问题,使得人群计数任务变得极具有挑战性。
发明内容
本发明的目的在于提供一种基于多尺度上下文增强网络的人群计数方法。
为解决上述问题,本发明提供一种基于多尺度上下文增强网络的人群计数方法,包括:
步骤一、输入一张图片经过特征提取获得浅层特征与深层特征;
步骤二、特征融合模块将深层特征与浅层特征通过特征融合模块进行特征融合得到融合特征图;
步骤三、将步骤二中得到的融合后特征图通过多尺度感知模块,提取多尺度信息,得到多尺度信息的特征图;
步骤四、通过上下文增强模块对所述多尺度信息的特征图中的空间与通道信息进行编码,获得具有人群分布特征的密度图;
步骤五、通过对所述密度图的像素进行求和得到当前图片估计的人数。
进一步的,在上述方法中,步骤二中的所述特征融合模块,首先将浅层特征通过四个并行的3×3的空洞卷积层,卷积操作的输入通道数为512,输出通道数为128,空洞率分别为1、2、3、4;
然后进行Concat连接将通道重新组合成512通道数的特征图,输出的融合特征图表示为函数式:
Xo=λ1Xl×U2(λ2Xh) (1)
上述式(1)中,Xl表示经过空洞金字塔后的浅层特征,Xo,Xh分别表示输出特征与深层特征,U2(·)表示两倍上采样,采用卷积核为1×1的卷积层来学习λ1,λ2参数。
进一步的,在上述方法中,步骤三中的所述多尺度感知模块,在步骤二获得融合特征图后,将融合特征图经过两个分支,一个分支有一个3×3卷积层,其有效感受野为3×3,另一个分支有两个3×3卷积层,其有效感受野为5×5;
每个分支都将所述融合特征图降低了1/2的通道数,然后将这两个分支进行得到的特征进行像素相加。
进一步的,在上述方法中,步骤四中所述的上下文增强模块,在步骤三获得多尺度信息的特征图后,将多尺度信息的特征图经过两个注意力模块,分别为位置注意力模块与通道注意注意力模块;其中,位置注意力模块对整个多尺度信息的特征图中的空间信息进行编码,以得到第一特征图,可以提取大范围的上下文信息,对头像位置进行优化;
通道注意力模块对多尺度信息的特征图的每个通道,用一个权重来表示该通道对于生成密度图的重要性,以得到第二特征图;
上下文增强模块然后将得到的第一和第二特征图进行Concat拼接,再通过卷积运算得到1通道预测的密度图。
进一步的,在上述方法中,所述位置注意力模块对于输入多尺度信息的特征图,首先经过一个1×1的卷积操作,然后通过整形与转置操作,再将经过softmax函数获得的位置注意力权重与输入的多尺度信息的特征图进行矩阵相乘,这个过程表示为函数式:
上述式(2)中,{Pi|i∈{1…N}}作为输入特征图,N是特征图中包含的位置个数。Pij表示第j个位置对第i个位置的影响;
在得到Pij后,经过两层1×1的卷积操作后与位置注意力的输入特征Fp进行相加操作;最终位置注意力的输出Pfinal表示为函数式:
其中,为提高注意力的泛化表达能力,在第一层卷积操作后加入了层归一化LN与ReLU激活函数,Wp1与Wp2分别表示在位置注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。
进一步的,在上述方法中,所述通道注意力模块通过全局平均池化后得到通道注意力权重,经过两层1×1的卷积操作后与原始特征图进行相加操作,最终通道注意力的输出Cfinal表示为函数式:
上述式(4)中,Xm由Xi经过全局平均池化后得到,Fc为通道注意力的输入特征图,Wc1与Wc2分别表示在通道注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。
与现有技术相比,本发明提供一种基于多尺度上下文增强网络的人群计数方法,可以有效地应对人群计数中存在的多尺度问题,并且通过对特征图的空间与通道上下文信息进行建模,可以对复杂场景的人群进行更精确的计数与密度估计。该发明具有较高的鲁棒性,能向大型人群聚集场所的安全与规划方面提供准确的数据。
附图说明
图1是本发明一实施例的基于多尺度上下文增强网络的人群计数方法的整体网络结构图;
图2本发明一实施例的特征融合模块结构图;
图3本发明一实施例的多尺度感知模块结构图;
图4本发明一实施例的上下文增强模块结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于多尺度上下文增强网络的人群计数方法,包括:
步骤一、输入一张图片经过特征提取获得浅层特征与深层特征;
步骤二、特征融合模块将深层特征与浅层特征通过特征融合模块进行特征融合得到融合特征图;
步骤三、将步骤二中得到的融合后特征图通过多尺度感知模块,提取多尺度信息,得到多尺度信息的特征图;
步骤四、通过上下文增强模块对所述多尺度信息的特征图中的空间与通道信息进行编码,获得具有人群分布特征的密度图;
步骤五、通过对所述密度图的像素进行求和得到当前图片估计的人数。
在此,本发明鉴于目前人群估计的现状以及人群估计方法中面临的诸多挑战,结合较为前沿的图像处理算法,提出了一种基于多尺度上下文增强网络的人群计数方法。
本发明公开了一种基于多尺度上下文增强网络的人群计数方法,用于估计图片中人群数量,可以有效地预防踩踏事件与暴乱事件的发生。该方法主要包括以下步骤:输入一张图片,首先经过特征提取后,获得浅层特征与深层特征,然后通过特征融合模块进行特征融合,并将融合到的特征送入多尺度感知模块,最后通过上下文增强模块对特征的空间与通道信息进行编码,获得具有人群分布特征的密度图。通过对密度图像素进行求和可以得到当前图片估计的人数。本发明提供一种基于多尺度上下文增强网络的人群计数方法,可以有效地应对人群计数中存在的多尺度问题,并且通过对特征图的空间与通道上下文信息进行建模,可以对复杂场景的人群进行更精确的计数与密度估计。该发明具有较高的鲁棒性,能向大型人群聚集场所的安全与规划方面提供准确的数据。
本发明的基于多尺度上下文增强网络的人群计数方法一实施例中,步骤二中的所述特征融合模块,首先将浅层特征通过四个并行的3×3的空洞卷积层,为了减少参数量,卷积操作的输入通道数为512,输出通道数为128,空洞率分别为1、2、3、4;
然后进行Concat连接将通道重新组合成512通道数的特征图,本发明采用像素相乘的方式来进行特征增强。其输出的融合特征图表示为函数式:
Xo=λ1Xl×U2(λ2Xh) (1)
上述式(1)中,Xl表示经过空洞金字塔后的浅层特征,Xo,Xh分别表示输出特征与深层特征,U2(·)表示两倍上采样,采用卷积核为1×1的卷积层来学习λ1,λ2参数。
在此,本发明使用VGG16网络的前13层,并将第10层输出作为浅层特征,将网络的第13层输出作为深层特征;为了使浅层特征获得更大的感受野,本发明采用一种空洞金字塔的结构来获得更大的感受野,其包含四个并行的3×3的空洞卷积层,为了减少参数量,卷积操作的输入通道数为512,输出通道数为128,空洞率分别为1、2、3、4;然后进行Concat连接将通道重新组合成512通道数的特征图。
本发明采用像素相乘的方式来进行特征增强。其输出的特征图可以表示为函数式:
Xo=λ1Xl×U2(λ2Xh) (1)
上述式中,Xl表示经过空洞金字塔后的浅层特征,Xo,Xh分别表示输出特征与深层特征,U2(·)表示两倍上采样,在本发明中采用卷积核为1×1的卷积层来学习λ1,λ2。
本发明的基于多尺度上下文增强网络的人群计数方法一实施例中,步骤三中的所述多尺度感知模块,在步骤二获得融合特征图后,将融合特征图经过两个分支,一个分支有一个3×3卷积层,其有效感受野为3×3,另一个分支有两个3×3卷积层,其有效感受野为5×5,这样可以筛选不同尺度的信息;
每个分支都将所述融合特征图降低了1/2的通道数,然后将这两个分支进行得到的特征进行像素相加。
在此,在本发明的多尺度感知模块中采用2个3×3的卷积层进行串联,其有限感受野是5×5,因此可以通过小尺度卷积核代替大尺度卷积层,并且感受野大小不变;每个多尺度感知模块可以降低1/2的特征图通道数,经过3个多尺度感知模块,其特征图通道数由512降到64。
本发明的基于多尺度上下文增强网络的人群计数方法一实施例中,步骤四中所述的上下文增强模块,在步骤三获得多尺度信息的特征图后,将多尺度信息的特征图经过两个注意力模块,分别对应位置注意力模块与通道注意注意力模块;其中,位置注意力模块对整个多尺度信息的特征图中的空间信息进行编码,以得到第一特征图,可以提取大范围的上下文信息,对头像位置进行优化;
通道注意力模块对多尺度信息的特征图的每个通道,用一个权重来表示该通道对于生成密度图的重要性,以得到第二特征图;
上下文增强模块然后将得到的第一和第二特征图进行Concat拼接,再通过卷积运算得到1通道预测的密度图。
本发明的基于多尺度上下文增强网络的人群计数方法一实施例中,所述位置注意力模块对于输入多尺度信息的特征图,首先经过一个1×1的卷积操作,然后通过整形与转置操作,再将经过softmax函数获得的位置注意力权重与输入的多尺度信息的特征图进行矩阵相乘,这个过程表示为函数式:
上述式(2)中,{Pi|i∈{1…N}}作为输入特征图,N是特征图中包含的位置个数。Pij表示第j个位置对第i个位置的影响;
在得到Pij后,经过两层1×1的卷积操作后与位置注意力的输入特征Fp进行相加操作;最终位置注意力的输出Pfinal表示为函数式:
其中,为提高注意力的泛化表达能力,在第一层卷积操作后加入了层归一化LN与ReLU激活函数,Wp1与Wp2分别表示在位置注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。
在此,在上下文增强模块的位置注意力中,首先输入的特征图经过一个1×1的卷积操作,然后通过整形与转置操作,再将经过softmax函数获得的位置注意力权重与输入特征图进行矩阵相乘,这个过程可表示为函数式:
上述式中,{Pi|i∈{1…N}}作为输入特征图,N是特征图中包含的位置个数。Pij表示第j个位置对第i个位置的影响。
在得到Pij后,经过两层1×1的卷积操作后与位置注意力的输入特征Fp进行相加操作。最终位置注意力的输出Pfinal可表示为函数式:
为提高注意力的泛化表达能力,在第一层卷积操作后加入了层归一化(LN)与ReLU激活函数,Wp1与Wp2分别表示在位置注意力分支上层归一化与ReLU激活函数层前后的两个卷积层的权重。
通道注意力通过全局平均池化后得到通道注意力权重,经过两层1×1的卷积操作后与原始特征图进行相加操作,增强图像全局上下文的获取的能力。最终通道注意力模块的输出Cfinal可表示为函数式:
上述式中,Xm可由Xi经过全局平均池化后得到,Fc为通道注意力的输入特征,Wc1与Wc2分别表示在通道注意力分支上层归一化与ReLU激活函数层前后的两个卷积层的权重。
本发明的基于多尺度上下文增强网络的人群计数方法一实施例中,所述通道注意力模块通过全局平均池化后得到通道注意力权重,经过两层1×1的卷积操作后与原始特征图进行相加操作,增强图像全局上下文的获取的能力,最终通道注意力的输出Cfinal表示为函数式:
上述式(4)中,Xm由Xi经过全局平均池化后得到,Fc为通道注意力的输入特征图,Wc1与Wc2分别表示在通道注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。
如图1所示为本发明整体网络结构图,本发明采用VGG16网络的前13层,并且将第13层输出的深层特征与第10层输出的浅层特征通过特征融合模块进行特征融合,得到原图像1/8尺寸与512通道数的特征图。本发明中的多尺度感知模块,可以对多尺度信息进行处理,并且将512通道数的特征图降到64通道。再通过上下文增强模块来对空间与通道信息分别进行有效编码,在增加少量计算的情况下,显著提高网络性能。然后生成1通道的密度图,最终经过8倍上采样得到原图像尺寸,对密度图的像素点进行求和可得到该张图片预测的人数。
如图2所示为本发明特征融合模块结构图。本发明使用VGG16网络的前13层,将网络的第10层输出作为浅层特征,将网络的第13层输出作为深层特征。并且为了使浅层特征获得更大的感受野,本发明采用一种空洞金字塔的结构来获得更大的感受野,其包含四个并行的3×3的空洞卷积层,为了减少参数量,卷积操作的输入通道数为512,输出通道数为128,空洞率分别为1、2、3、4;本发明采用像素相乘的方式来进行特征增强。其输出的特征图可以表示为函数式:
Xo=λ1Xl×U2(λ2Xh) (1)
上述式中,Xl表示经过空洞金字塔后的浅层特征,Xo,Xh分别表示输出特征与深层特征,U2(·)表示两倍上采样,本发明采用卷积核为1×1的卷积层来学习λ1,λ2。
如图3所示为本发明多尺度感知模块结构图。由于摄像机在拍摄图像时拍摄视角的不同,造成头像的大小不同,因此需要对多尺度信息进行有效的处理。本发明用2个3×3的卷积层进行堆叠,其有限感受野是5×5,因此可以通过小尺度卷积核代替大尺寸卷积层,并且感受野大小不变。每个多尺度感知模块可以降低1/2的特征图通道数,经过3层多尺度感知模块后,特征图通道数由512降到64。
如图4所示为本发明上下文增强模块结构图。本发明将从多尺度感知层得到的特征通过卷积层来降低特征图的通道数,这样可以减少计算量,送入到两个并行注意力中。然后将两种方式得到的特征图进行Concat拼接,再通过卷积运算得到1通道的预测密度图。
图像中的像素之间的是具有联系的,与给定像素相关的区域可能在该点附近,也可能与该像素点较远。位置注意力模块通过建立像素间的远程关系来将更广泛的上下文信息编码为局部特征,从而提高了局部特征的表示能力。对于输入特征图,首先经过一个1×1的卷积操作,然后通过整形与转置操作,再将经过softmax函数获得的位置注意力权重与输入特征图进行矩阵相乘,这个过程可以表示为函数式:
上述式中,{Pi|i∈{1…N}}作为输入特征图,N是特征图中包含的位置个数。Xij表示第j个位置对第x个位置的影响。
在得到Pij后,经过两层1×1的卷积操作后与位置注意力的输入特征Fp进行相加操作。最终位置注意力的输出Pfinal可表示为函数式:
为提高注意力的泛化表达能力,在第一层卷积操作后加入了层归一化(LN)与ReLU激活函数,Wp1与Wp2分别表示在位置注意力分支上的层归一化与ReLU激活函数层前后的两个卷积层的权重。
相比于位置注意力,通道注意力是对位置注意的简化,通过全局平均池化后得到位置注意力权重,然后与位置注意力同样经过两层1×1的卷积操作后与原始特征图进行相加操作,增强图像全局上下文的获取的能力。最终通道注意力的输出Cfinal可以表示为函数式:
上述式中,Xm可由Xi经过全局平均池化后得到,Fc为通道注意力的输入特征,Wc1与Wc2分别表示在通道注意力分支上的层归一化与ReLU激活函数层前后的两个卷积层的权重。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (1)
1.一种基于多尺度上下文增强网络的人群计数方法,其特征在于,包括:
步骤一、输入一张图片经过特征提取获得浅层特征与深层特征;
步骤二、特征融合模块将深层特征与浅层特征通过特征融合模块进行特征融合得到融合特征图;
步骤三、将步骤二中得到的融合后特征图通过多尺度感知模块,提取多尺度信息,得到多尺度信息的特征图;
步骤四、通过上下文增强模块对所述多尺度信息的特征图中的空间与通道信息进行编码,获得具有人群分布特征的密度图;
步骤五、通过对所述密度图的像素进行求和得到当前图片估计的人数;
步骤二中的所述特征融合模块,首先将浅层特征通过四个并行的3×3的空洞卷积层,卷积操作的输入通道数为512,输出通道数为128,空洞率分别为1、2、3、4;
然后进行Concat连接将通道重新组合成512通道数的特征图,输出的融合特征图表示为函数式:
Xo=λ1Xl×U2(λ2Xh) (1)
上述式(1)中,Xl表示经过空洞金字塔后的浅层特征,Xo,Xh分别表示输出特征与深层特征,U2(·)表示两倍上采样,采用卷积核为1×1的卷积层来学习λ1,λ2参数;
步骤三中的所述多尺度感知模块,在步骤二获得融合特征图后,将融合特征图经过两个分支,一个分支有一个3×3卷积层,其有效感受野为3×3,另一个分支有两个3×3卷积层,其有效感受野为5×5;
每个分支都将所述融合特征图降低了1/2的通道数,然后将这两个分支进行得到的特征进行像素相加;
步骤四中所述的上下文增强模块,在步骤三获得多尺度信息的特征图后,将多尺度信息的特征图经过两个注意力模块,分别为位置注意力模块与通道注意注意力模块;其中,位置注意力模块对整个多尺度信息的特征图中的空间信息进行编码,以得到第一特征图,可以提取大范围的上下文信息,对头像位置进行优化;
通道注意力模块对多尺度信息的特征图的每个通道,用一个权重来表示该通道对于生成密度图的重要性,以得到第二特征图;
上下文增强模块然后将得到的第一和第二特征图进行Concat拼接,再通过卷积运算得到1通道预测的密度图;
所述位置注意力模块对于输入多尺度信息的特征图,首先经过一个1×1的卷积操作,然后通过整形与转置操作,再将经过softmax函数获得的位置注意力权重与输入的多尺度信息的特征图进行矩阵相乘,这个过程表示为函数式:
上述式(2)中,{Pi|i∈{1···N}}作为输入特征图,N是特征图中包含的位置个数;Pij表示第j个位置对第i个位置的影响;
在得到Pij后,经过两层1×1的卷积操作后与位置注意力的输入特征Fp进行相加操作;最终位置注意力的输出Pfinal表示为函数式:
其中,为提高注意力的泛化表达能力,在第一层卷积操作后加入了层归一化LN与ReLU激活函数,Wp1与Wp2分别表示在位置注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重;
所述通道注意力模块通过全局平均池化后得到通道注意力权重,经过两层1×1的卷积操作后与原始特征图进行相加操作,最终通道注意力的输出Cfinal表示为函数式:
上述式(4)中,Xm由Xi经过全局平均池化后得到,Fc为通道注意力的输入特征图,Wc1与Wc2分别表示在通道注意力分支的层归一化与ReLU激活函数层前后的两个卷积层的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005334.XA CN112132023B (zh) | 2020-09-22 | 2020-09-22 | 基于多尺度上下文增强网络的人群计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011005334.XA CN112132023B (zh) | 2020-09-22 | 2020-09-22 | 基于多尺度上下文增强网络的人群计数方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112132023A CN112132023A (zh) | 2020-12-25 |
CN112132023B true CN112132023B (zh) | 2024-05-17 |
Family
ID=73841621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011005334.XA Active CN112132023B (zh) | 2020-09-22 | 2020-09-22 | 基于多尺度上下文增强网络的人群计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132023B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784685B (zh) * | 2020-12-28 | 2022-08-26 | 山东师范大学 | 基于多尺度引导注意力机制网络的人群计数方法及系统 |
CN112767316A (zh) * | 2020-12-31 | 2021-05-07 | 山东师范大学 | 一种基于多尺度交互式网络的人群计数方法及系统 |
CN112699848B (zh) * | 2021-01-15 | 2022-05-31 | 上海交通大学 | 一种针对图像的密集人群的计数方法及系统 |
CN112785636B (zh) * | 2021-02-18 | 2023-04-28 | 上海理工大学 | 一种多尺度增强式的单目深度估计方法 |
CN112966600B (zh) * | 2021-03-04 | 2024-04-16 | 上海应用技术大学 | 用于拥挤人群计数的自适应多尺度上下文聚合方法 |
CN113192009B (zh) * | 2021-04-09 | 2022-09-02 | 山东师范大学 | 一种基于全局上下文卷积网络的人群计数方法及系统 |
CN112801063B (zh) * | 2021-04-12 | 2021-07-20 | 广东众聚人工智能科技有限公司 | 神经网络系统和基于神经网络系统的图像人群计数方法 |
CN113283356B (zh) * | 2021-05-31 | 2024-04-05 | 上海应用技术大学 | 多级注意力尺度感知人群计数方法 |
CN113205078B (zh) * | 2021-05-31 | 2024-04-16 | 上海应用技术大学 | 基于多分支递进强化注意力人群计数方法 |
CN113553921B (zh) * | 2021-07-02 | 2022-06-10 | 兰州交通大学 | 一种基于卷积神经网络的地铁车厢拥挤度识别方法 |
CN113450366B (zh) * | 2021-07-16 | 2022-08-30 | 桂林电子科技大学 | 基于AdaptGAN的低照度语义分割方法 |
CN113538401B (zh) * | 2021-07-29 | 2022-04-05 | 燕山大学 | 一种复杂场景下结合跨模态信息的人群计数方法及系统 |
CN113538402B (zh) * | 2021-07-29 | 2022-06-07 | 燕山大学 | 一种基于密度估计的人群计数方法及系统 |
CN113807406B (zh) * | 2021-08-25 | 2023-05-23 | 西北大学 | 一种融合地理上下文的深度多尺度交通模式识别模型 |
CN113743422B (zh) * | 2021-09-07 | 2024-05-03 | 西安建筑科技大学 | 多特征信息融合的人群密度估计方法、设备及存储介质 |
CN113887489A (zh) * | 2021-10-21 | 2022-01-04 | 西南交通大学 | 基于位置增强和多尺度融合网络的车厢内人群计数方法 |
CN113869285B (zh) * | 2021-12-01 | 2022-03-04 | 四川博创汇前沿科技有限公司 | 一种人群密度估计装置、方法和存储介质 |
CN113963241B (zh) * | 2021-12-22 | 2022-03-08 | 苏州浪潮智能科技有限公司 | Fpga硬件架构及其数据处理方法、存储介质 |
CN116645516B (zh) * | 2023-05-09 | 2024-07-19 | 苏州大学 | 一种基于多感知特征融合的多类目标计数方法和系统 |
CN118675117A (zh) * | 2024-08-26 | 2024-09-20 | 南京信息工程大学 | 基于增强特征空间对齐融合网络的人群计数方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263849A (zh) * | 2019-06-19 | 2019-09-20 | 合肥工业大学 | 一种基于多尺度注意力机制的人群密度估计方法 |
EP3602398A1 (en) * | 2017-06-05 | 2020-02-05 | Siemens Aktiengesellschaft | Method and apparatus for analysing an image |
CN111429466A (zh) * | 2020-03-19 | 2020-07-17 | 北京航空航天大学 | 一种基于多尺度信息融合网络的空基人群计数与密度估计方法 |
CN111523449A (zh) * | 2020-04-22 | 2020-08-11 | 山东师范大学 | 基于金字塔注意力网络的人群计数方法及系统 |
WO2020169043A1 (zh) * | 2019-02-21 | 2020-08-27 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
-
2020
- 2020-09-22 CN CN202011005334.XA patent/CN112132023B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3602398A1 (en) * | 2017-06-05 | 2020-02-05 | Siemens Aktiengesellschaft | Method and apparatus for analysing an image |
WO2020169043A1 (zh) * | 2019-02-21 | 2020-08-27 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
CN110263849A (zh) * | 2019-06-19 | 2019-09-20 | 合肥工业大学 | 一种基于多尺度注意力机制的人群密度估计方法 |
CN111429466A (zh) * | 2020-03-19 | 2020-07-17 | 北京航空航天大学 | 一种基于多尺度信息融合网络的空基人群计数与密度估计方法 |
CN111523449A (zh) * | 2020-04-22 | 2020-08-11 | 山东师范大学 | 基于金字塔注意力网络的人群计数方法及系统 |
Non-Patent Citations (2)
Title |
---|
赵新宇 ; .U-GAnet多通道特征重构人群密度检测模型.电脑知识与技术.2019,(35),全文. * |
马骞 ; .基于通道域注意力机制的人群密度估计算法研究.电子设计工程.2020,(15),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112132023A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132023B (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
CN107154023B (zh) | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN111582483B (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
WO2021164234A1 (zh) | 图像处理方法以及图像处理装置 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN113344806A (zh) | 一种基于全局特征融合注意力网络的图像去雾方法与系统 | |
CN109872305B (zh) | 一种基于质量图生成网络的无参考立体图像质量评价方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN110570402B (zh) | 基于边界感知神经网络的双目显著物体检测方法 | |
CN112750201B (zh) | 三维重建方法及相关装置、设备 | |
CN110992414B (zh) | 一种基于卷积神经网络的室内单目场景深度估计的方法 | |
CN112446835B (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN116258757A (zh) | 一种基于多尺度交叉注意力的单目图像深度估计方法 | |
CN113033448B (zh) | 一种基于多尺度卷积和注意力的遥感影像去云残差神经网络系统、方法、设备及存储介质 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
WO2021057091A1 (zh) | 视点图像处理方法及相关设备 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN116403152A (zh) | 一种基于空间上下文学习网络的人群密度估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |