CN109993269A - 基于注意力机制的单张图像人群计数方法 - Google Patents
基于注意力机制的单张图像人群计数方法 Download PDFInfo
- Publication number
- CN109993269A CN109993269A CN201910189248.XA CN201910189248A CN109993269A CN 109993269 A CN109993269 A CN 109993269A CN 201910189248 A CN201910189248 A CN 201910189248A CN 109993269 A CN109993269 A CN 109993269A
- Authority
- CN
- China
- Prior art keywords
- feature
- filled
- image
- zero padding
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 10
- 238000013461 design Methods 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract description 8
- 238000009828 non-uniform distribution Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001062009 Indigofera Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06M—COUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
- G06M11/00—Counting of objects distributed at random, e.g. on a surface
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Abstract
本发明公开基于注意力机制的单张图像人群计数方法。所述方法包括对当前图像进行逐通道像素Z‑Score归一化;设计4+2+2网络提取图像纹理特征;设计编‑解码网络提取图像全局注意力特征;逐通道将纹理特征与全局注意力特征进行元素乘,生成融合特征;对融合特征进行1*1卷积运算生成人群密度图,对人群密度图进行积分获得计数结果。本方法设计的网络能够端到端地进行训练和测试,能够提高行人非均匀分布场景下的人群计数精度,在World Expo10数据集的5个测试场景中平均计数误差不大于3.28人。
Description
技术领域
本发明及人群密度估计与人群计数,更具体地,涉及一种基于注意力机制的单张图像人群计数方法。
背景技术
复杂场景下的人群密度估计和人群计数是人流监控,场景分析等许多需要高级认知能力场合的基础。随着世界人口的指数化增长和城市化进程的加快,运动会,集市,公共展览等活动更易聚集大批的人群。公共安全与人群数目密切相关,当大量行人聚集,人群密度过高时,容易引发恐慌和推挤,甚至导致踩踏、伤亡等事故。
人群计数指的是计算某个人群图像中行人的总个数,人群密度指的是把人群图像中的每个人分布到数个像素中,在人与人重叠的地方进行像素值的叠加。人群密度图不仅可以反应图像中的总人数,还可以反应人群的空间分布信息,是一种使用非常广泛的人群分析工具。目前研究人员主要使用卷积神经网络(Convolution Neural Network,CNN)来将人群图像转换为人群密度图。卷积神经网络可以学习人群图像与人群密度图之间的非线性表达,大大降低了行人相互遮挡对算法性能的影响,这使得人群计数可以取得一个比较准确的结果。
目前,制约模型计数精度与鲁棒性的因素有两个,一个是透视效应带来的行人尺寸差异性问题,另一个是场景中人群分布不均匀问题。为了解决这两个问题,本发明提出了基于注意力机制的单张图像人群计数方法,对于前一个问题,设计了4+2+2结构网络提取图像纹理特征,通过膨胀卷积扩大了模型的感知野,提高模型对大尺度行人的识别能力;对于后一个问题,设计了编-解码网络提取图像注意力特征,排除无关区域的干扰。在设计这两个网络过程中,涉及到以下现有技术:
现有技术1(Wang,C.,Zhang,H.,Yang,L.,Liu,S.,Cao,X.,2015.Deep peoplecounting in extremely dense crowds,in:Proceedings of the 23rd ACMinternational conference on Multimedia,ACM.pp.1299–1302.)提出使用卷积神经网络进行人群计数,通过对Alex网络的改进实现了高准确率的人群计数。此技术将Alex网络最后的输出神经元改为1,使其能够直接输出计数结果。现有技术2(Zhang,Y.,Zhou,D.,Chen,S.,Gao,S.,Ma,Y.,2016b.Single image crowd counting via multi-columnconvolutional neural network,in:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pp.589–597.)提出先使用多列的卷积神经网路将人群图像转换为人群密度图,再对人群密度图进行积分得到人群计数结果。此技术使用了具有不同大小感知野的三列卷积神经网络来分别提取大、中、小三个尺寸的行人信息,极大地提高了模型的精度。现有技术3(Sindagi,V.,Patel,V.,2017.Cnn-basedcascaded multi-task learning of high-level prior and density estimation forcrowd counting,in:Advanced Video and Signal Based Surveillance(AVSS),2017IEEEInternational Conference on,IEEE.)提出了一个串联卷积神经网络的架构,在对人群进行计数时,还根据图像中人数的多少把总体人群的密度等级分为了10级。此技术通过融合总体人群的密度等级这个全局的先验信息,增加人群计数的精度。此外,现有技术3还使用了反卷积(De-Convolution)生成了一个比其他方法更高分辨率的人群密度图。
数据集对于模型的训练、测试,区域人群数量、分布范围等统计信息的获取等具有重要的意义。目前,利用卷积神经网络进行人群密度估计和人群计数方面主要的评判标准是建立在2个公开数据集上的,分别为World Expo 10和Shanghai Tech。
World Expo 10数据集由上海复旦大学在2015年提出,主要是想解决多场景下人群计数(Cross-scene Crowd Count)的模型训练问题。他们在2010年上海世博会期间,收集并标记了1132张由108个不同的监视摄像头拍摄的连续图像。各个摄像头角度和高度均不一致保证了该数据集场景的多样性。该数据集包含了总共3980帧576*720的图像,总标记行人数达到199923人。该数据集被分为了两个部分,训练集为103个不同场景的1127个1分钟的短视频;测试集包括5个不同场景的5个1小时的长视频,每个视频中有120帧的标记数据,行人数量范围为1到220人。尽管将测试场景扩展到了5个,该数据集仍然不足以覆盖真实世界的绝大多数场景,也不适用于极端密集的人群计数。
Shanghai Tech数据集是上海科技大学在2016年提出的大规模人群计数数据集,包含了1198张图像,330165名有标注的行人,具有非常广泛的场景分布与密度分布。该数据集分为了两部分,第一部分Part A包含了从网上随机挑选的482张人群图像,其中300张为训练图像,182张为测试图像;第二部分Part B是上海市中心区域拍下的行人图像,包括了400张训练图像,316张测试图像。由于数据集在各个密度等级上并不是均匀分布的,用来估计的人群密度会偏低。但是总体而言,该数据集中场景的多样性、行人尺寸的多样性和透视造成的图像扭曲都让此数据集非常具有挑战性。
在这些数据集上,学者们提出了两个公认的评判标准:平均绝对误差(MeanAbsolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE):
其中,N是测试图像的张数,yi和y′i分别为第i张图像中实际拥有的行人数目和估计的行人数目。MAE表示对行人数目估计的精确程度,RMSE表示模型在测试数据上的鲁棒性。
发明内容
本发明的目的在于提出一种基于注意力机制的单张图像人群计数方法,旨在解决场景中透视效应带来的行人尺寸差异性问题和人群分布不均匀问题,更准确、更鲁棒地估计单张图像中的行人数目。
为了达到上述目的,本发明至少采用如下技术方案之一。
基于注意力机制的单张图像人群计数方法,主要包括以下步骤:
步骤一、对当前图像进行逐通道像素Z-Score归一化;
步骤二、通过4+2+2网络提取图像纹理特征;
步骤三、通过编-解码网络提取图像全局注意力特征;
步骤四、逐通道将纹理特征与全局注意力特征进行元素乘;
步骤五、通过1*1卷积计算生成人群密度图,对人群密度图进行积分获得人群计数结果。
进一步地,对图像进行逐通道像素Z-Score归一化的计算公式为:
X′i=(Xi-Uk)/Ek
其中,Xi代表当前图像像素值,X′i代表归一化后的图像像素值,Uk代表当前数据集所有图像当前通道像素值的均值,Ek代表当前数据集所有图像当前通道像素值的标准差。每张图像包括R(红)、G(绿)、B(蓝)三个通道。
进一步地,4+2+2网络包含4个卷积和2组膨胀卷积,4个卷积均为步长为1、补零填充为1的3*3滤波器,每组膨胀卷积包括1个步长为2、补零填充为2、膨胀系数为2的3*3滤波器和1个步长为2、补零填充为2、膨胀系数为3的3*3滤波器。这4个卷积输出的纹理特征的通道数依次置为16、32、32和64,每组膨胀卷积输出纹理特征的通道数依次置为64和64。
进一步地,编-解码网络由编码网络、解码网络和特征输出单元串联构成,其中,编码网络包括四个串联的编码单元,解码网络包括四个串联的解码单元。特征输出单元包含1个步长为1、补零填充为1的3*3卷积,该卷积输出图像特征的通道数置为1,该特征即为所需提取的图像全局注意力特征。
进一步地,编码网络的前三个编码单元分别为:2个步长为1、补零填充为1的3*3滤波器、1个下采样;2个步长为1、补零填充为1的3*3滤波器、1个下采样;3个步长为1、补零填充为1的3*3滤波器、1个下采样。这里的下采样为步长为2、补零填充为0的2*2最大值池化。第四个编码单元包含3个步长为1、补零填充为1的3*3滤波器。这四个编码单元输出的特征的通道数依次置为64、128、256和512,并记为:F1,F2,F3,F4;所涉三个下采样生成的位置向量的通道数依次为64、128和256,并记为:I1,I2,I3。
进一步地,解码网络中第一个解码单元包含1个步长为1、补零填充为1的3*3滤波器;后三个解码单元均包含:1个上采样、1个拼接和1个步长为2、补零填充为2的3*3反卷积。上采样为1个步长为2、补零填充为0的2*2最大值反池化,所述拼接指对输入的两个向量序列进行连接操作。四个解码单元输出特征通道数依次置为256、128、64和32,并记为:E1,E2,E3,E4。编码单元3、2、1所涉的下采样依次传递位置向量I3,I2,I1至解码单元2、3、4的上采样,编码单元3、2、1生成的特征向量F3,F2,F1分别传递至解码单元2、3、4的拼接操作。
进一步地,纹理特征和全局注意力特征的通道数分别为64和1,逐通道将纹理特征与有唯一通道数的全局注意力特征进行元素乘,依次输出,得到64个通道的融合特征。
进一步地,对融合特征进行步长为1、补零填充为0的1*1卷积,生成人群密度图,将此人群密度图上每个像素点的值相加,即可获得当前图像人群计数结果。
与现有技术相比,本发明能够有效提高行人非均匀分布场景下的人群计数精度,在Shanghai Tech Part A和World Expo10数据集五个测试场景上平均MAE和RMSE分别为3.28、4.3和22.1、23.5。
附图说明
图1为本发明实施例中基于注意力机制的单张图像人群计数方法的流程图;
图2a和2b为不同场景下逐通道Z-Score归一化前后的图像,其中左侧为原始图像,右侧为对应的归一化后的图像;
图3为4+2+2网络结构图;
图4为编-解码网络结构图;
图5a与5b为不同场景的人群图像与生成的全局注意力特征,其中左侧为原始图像,右侧为生成的全局注意力特征;
图6为逐通道元素乘示意图;
图7a与7b为不同场景的人群图像与生成的人群密度图,其中左侧为原始图像,右侧为生成的人群密度图与人群计数结果。
具体实施方式
提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解,但是这些被认为仅仅是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文描述的各种实施例进行各种改变和修改。另外,为了清楚和简明,可以省略对公知功能和结构的描述。
在下面的描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用使得能够清楚和一致地理解本公开。因此,本领域技术人员应该清楚,提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求及其等同物限定的本公开。
本实施例的基于注意力机制的单张图像人群计数方法,如图1所示,包括以下步骤:对当前图像进行逐通道像素Z-Score归一化;设计4+2+2网络提取图像纹理特征;设计编-解码网络提取图像全局注意力特征;逐通道将纹理特征与全局注意力特征进行元素乘;通过1*1卷积计算生成人群密度图,对人群密度图进行积分获得人群计数结果。
下面对各环节的具体实施方式进行介绍,其中涉及到的卷积、膨胀卷积和反卷积均为公认的使用滤波器来进行提取特征的运算。
步骤110:对当前图像进行逐通道像素Z-Score归一化。图像标准化是将数据通过去均值实现中心化的处理,根据凸优化理论与数据概率分布相关知识,使数据中心化符合某种数据分布规律,是数据预处理的常见方法之一。本发明使用的逐通道像素Z-Score归一化的计算公式为:
X′i=(Xi-Uk)/Ek
其中,Xi代表当前图像像素值,X′i代表归一化后的图像像素值,Uk代表当前数据集所有图像当前通道像素值的均值,Ek代表当前数据集所有图像当前通道像素值的标准差。每张输入的人群图像均包括R(红)、G(绿)、B(蓝)三个通道。图2a和2b为不同场景下经过本步骤处理后的图像示例,其中左侧为原始图像,右侧为对应的预处理后图像。
步骤120:设计4+2+2网络提取图像纹理特征。4+2+2网络具体结构如图3所示,包含4个卷积和2组膨胀卷积。4个卷积均包含1个步长为1、补零填充为1的3*3滤波器,每组膨胀卷积包括1个步长为2、补零填充为2、膨胀系数为2的3*3滤波器和1个步长为2、补零填充为2、膨胀系数为3的3*3滤波器。这4个卷积输出的纹理特征的通道数依次置为16、32、32和64,每组膨胀卷积输出纹理特征的通道数依次置为64和64。
经过多次串联的卷积操作后,4+2+2网络能够具有更大的感知野,识别处更大尺寸的行人,提取的纹理特征通道数为64。
步骤130:设计编-解码网络提取图像全局注意力特征。编-解码网络如图4所示,由编码网络、解码网络和特征输出单元串联构成。其中,编码网络包括四个串联的编码单元,解码网络包括四个串联的解码单元。特征输出单元为包含1个步长为1、补零填充为1的3*3滤波器的卷积,该卷积输出图像特征的通道数置为1,该特征即为所需提取的图像全局注意力特征。
编码网络的前三个编码单元分别为:2个步长为1、补零填充为1的3*3滤波器、1个下采样;2个步长为1、补零填充为1的3*3滤波器、1个下采样;3个步长为1、补零填充为1的3*3滤波器、1个下采样。这里的下采样为步长为2、补零填充为0的2*2最大值池化。第四个编码单元包含3个步长为1、补零填充为1的3*3滤波器。这四个编码单元输出的特征的通道数依次置为64、128、256和512,并记为:F1,F2,F3,F4;所涉三个下采样生成的位置向量的通道数依次为64、128和256,并记为:I1,I2,I3。
解码网络中第一个解码单元包含1个步长为1、补零填充为1的3*3滤波器;后三个解码单元均包含:1个上采样、1个拼接和1个步长为2、补零填充为2的3*3反卷积。上采样为1个步长为2、补零填充为0的2*2最大值反池化,所述“拼接”指对输入的两个向量序列进行连接操作。四个解码单元输出特征通道数依次置为256、128、64和32,并记为:E1,E2,E3,E4。编码单元3、2、1所涉的下采样依次传递位置向量I3,I2,I1至解码单元2、3、4的上采样,编码单元3、2、1生成的特征向量F3,F2,F1分别传递至解码单元2、3、4的拼接操作。
具体而言,第二个解码单元对特征向量E1进行步长为2、补零填充为0的2*2最大值反池化运算,使用位置矩阵I3;使用超连接方式拼接特征向量F3;对拼接后的特征向量进行步长为2、补零填充为2的3*3反卷积运算,生成128维的特征向量E2。
第二个单元对特征向量E2进行步长为2、补零填充为0的2*2最大值反池化运算,使用位置矩阵I2;使用超连接方式拼接特征向量F2;对拼接后的特征向量进行步长为2、补零填充为2的3*3反卷积运算,生成64维的特征向量E3。
第三个单元对特征向量E3进行步长为2、补零填充为0的2*2最大值反池化运算,使用位置矩阵I1;使用超连接方式拼接特征向量F1;对拼接后的特征向量进行步长为2、补零填充为2的3*3反卷积运算,生成32维的特征向量E4。
通过多个特征编码模块逐步地学习图像中的语义特征和抽象特征,多个特征提取模块逐步恢复特征张量的尺寸,融合底层网络的细节信息,能够得到注意力特征,排除无关区域的干扰,最终达到一个更准确的人群计数结果行。编-解码网络提取的全局注意力特征通道数为1,图5a与5b为不同场景的人群图像与生成的全局注意力特征示意。
步骤140:逐通道将纹理特征与全局注意力特征进行元素乘,生成融合特征。此步骤为注意力机制的核心操作,能够排除不可能存在行人区域的噪声干扰,提高行人非均匀分布场景下的计数准确性,示意图如图6所示。步骤120和步骤130输出的纹理特征和全局注意力特征的通道数分别为64和1,逐通道将纹理特征与有唯一通道数的全局注意力特征进行元素乘,依次输出,得到64个通道的融合特征。
步骤150:对64通道的融合特征进行步长为1、补零填充为0的1*1卷积,实现跨通道的特征交互和信息融合,生成人群密度图。
步骤160:由于最后的人群密度图是一个二维的矩阵,每个像素点上的值表示该点处的行人数量,将生成的人群密度图上每个像素点的值进行加和,即可得到当前图像人群计数的结果。与MCNN,FCN等人群计数领域的基准算法相比,使用本方生成的人群密度图分辨率更高,统计出的人群计数结果有更低误差,在人群分布不均匀的场景中效果尤佳。
Claims (8)
1.基于注意力机制的单张图像人群计数方法,其特征在于包括如下步骤:
(1)对当前图像进行逐通道像素Z-Score归一化;
(2)通过4+2+2网络提取图像纹理特征;通过编-解码网络提取图像全局注意力特征;
(3)将纹理特征逐通道与全局注意力特征进行元素乘;
(4)通过1*1卷积计算生成人群密度图,对人群密度图进行积分获得当前图像人群计数。
2.根据权利要求1所述的基于注意力机制的单张图像人群计数方法,其特征在于步骤(1)中对当前图像进行逐通道像素Z-Score归一化的公式为:X′i=(Xi-Uk)/Ek,其中,i代表输入图像中的一个像素,Xi代表当前图像像素值,X′i代表归一化后的图像像素值;k代表输入图像的一个通道,Uk代表当前数据集所有图像第k个通道像素值的均值,Ek代表当前数据集所有图像第k个通道像素值的标准差,k的取值为1~3,分别对应输入图像的三个通道。
3.根据权利要求1所述的基于注意力机制的单张图像人群计数方法,其特征在于步骤(2)所述4+2+2网络包含4个卷积和2组膨胀卷积,4个卷积均为步长为1、补零填充为1的3*3滤波器,每组膨胀卷积包括1个步长为2、补零填充为2、膨胀系数为2的3*3滤波器和1个步长为2、补零填充为2、膨胀系数为3的3*3滤波器;进一步的,4个卷积输出的纹理特征的通道数依次置为16、32、32和64;每组膨胀卷积输出纹理特征的通道数依次置为64和64。
4.根据权利要求1所述的基于注意力机制的单张图像人群计数方法,其特征在于步骤(2)所述编-解码网络由编码网络、解码网络和特征输出单元串联构成;进一步的,编码网络包括四个串联的编码单元,解码网络包括四个串联的解码单元,特征输出单元包含1个步长为1、补零填充为1的3*3卷积运算,该卷积运算输出的图像特征的通道数置为1,为所提取的图像全局注意力特征。
5.根据权利要求4所述的基于注意力机制的单张图像人群计数方法,其特征在于所述四个串联的编码单元中,前三个编码单元分别包含:2个步长为1、补零填充为1的3*3滤波器、1个下采样;2个步长为1、补零填充为1的3*3滤波器、1个下采样;3个步长为1、补零填充为1的3*3滤波器、1个下采样;进一步的,1个下采样即为1个步长为2、补零填充为0的2*2最大值池化;进一步的,第四个编码单元包含3个步长为1、补零填充为1的3*3滤波器;进一步的,四个编码单元输出的特征的通道数依次置为64、128、256和512,并记为:F1,F2,F3,F4;前三个编码单元中每个单元内的下采样生成的位置向量的通道数依次为64、128和256,并记为:I1,I2,I3。
6.根据权利要求4所述的基于注意力机制的单张图像人群计数方法,其特征在于所述四个串联的解码单元中,第一个解码单元包含1个步长为1、补零填充为1的3*3滤波器;后三个解码单元分别包含:1个上采样、1个拼接和1个步长为2、补零填充为2的3*3反卷积;进一步的,上采样即为1个步长为2、补零填充为0的2*2最大值反池化;进一步的,四个解码单元输出特征通道数依次置为256、128、64和32,并记为:E1,E2,E3,E4;进一步的,所述拼接指对输入的两个向量序列进行连接操作;进一步的,前三个编码单元中的下采样依次传递位置向量I3,I2,I1至第二至四个解码单的上采样,前三个编码单元生成的特征向量F3,F2,F1分别传递至第二至第四解码单元的“拼接”操作。
7.根据权利要求1所述的基于注意力机制的单张图像人群计数方法,其特征在于步骤(3)中,纹理特征和全局注意力特征的通道数分别为64和1,逐通道将纹理特征与有唯一通道数的全局注意力特征进行元素乘,输出64通道的融合特征。
8.根据权利要求1所述的基于注意力机制的单张图像人群计数方法,其特征在于步骤(4)中对当前64个通道的融合特征进行步长为1、补零填充为0的1*1卷积,生成人群密度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189248.XA CN109993269B (zh) | 2019-03-13 | 2019-03-13 | 基于注意力机制的单张图像人群计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910189248.XA CN109993269B (zh) | 2019-03-13 | 2019-03-13 | 基于注意力机制的单张图像人群计数方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109993269A true CN109993269A (zh) | 2019-07-09 |
CN109993269B CN109993269B (zh) | 2022-03-29 |
Family
ID=67129406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910189248.XA Expired - Fee Related CN109993269B (zh) | 2019-03-13 | 2019-03-13 | 基于注意力机制的单张图像人群计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993269B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610143A (zh) * | 2019-08-27 | 2019-12-24 | 汇纳科技股份有限公司 | 多任务联合训练的人群计数网络方法、系统、介质及终端 |
CN110705340A (zh) * | 2019-08-12 | 2020-01-17 | 广东石油化工学院 | 一种基于注意力神经网络场的人群计数方法 |
CN111027387A (zh) * | 2019-11-11 | 2020-04-17 | 北京百度网讯科技有限公司 | 人数评估及评估模型获取方法、装置及存储介质 |
CN111274900A (zh) * | 2020-01-15 | 2020-06-12 | 北京航空航天大学 | 一种基于底层特征提取的空基人群计数方法 |
CN111680648A (zh) * | 2020-06-12 | 2020-09-18 | 成都数之联科技有限公司 | 一种目标密度估计神经网络的训练方法 |
CN112232316A (zh) * | 2020-12-11 | 2021-01-15 | 科大讯飞(苏州)科技有限公司 | 人群聚集检测方法、装置、电子设备及存储介质 |
CN112766123A (zh) * | 2021-01-11 | 2021-05-07 | 山东师范大学 | 一种基于纵横交叉注意力网络的人群计数方法及系统 |
CN117809293A (zh) * | 2024-03-01 | 2024-04-02 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
CN117809293B (zh) * | 2024-03-01 | 2024-05-03 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
CN108734290A (zh) * | 2018-05-16 | 2018-11-02 | 湖北工业大学 | 一种基于注意力机制的卷积神经网络构建方法及应用 |
CN108960404A (zh) * | 2017-05-22 | 2018-12-07 | 浙江宇视科技有限公司 | 一种基于图像的人群计数方法及设备 |
CN109447008A (zh) * | 2018-11-02 | 2019-03-08 | 中山大学 | 基于注意力机制和可变形卷积神经网络的人群分析方法 |
-
2019
- 2019-03-13 CN CN201910189248.XA patent/CN109993269B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN108960404A (zh) * | 2017-05-22 | 2018-12-07 | 浙江宇视科技有限公司 | 一种基于图像的人群计数方法及设备 |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
CN108734290A (zh) * | 2018-05-16 | 2018-11-02 | 湖北工业大学 | 一种基于注意力机制的卷积神经网络构建方法及应用 |
CN109447008A (zh) * | 2018-11-02 | 2019-03-08 | 中山大学 | 基于注意力机制和可变形卷积神经网络的人群分析方法 |
Non-Patent Citations (3)
Title |
---|
ZE WANG,ZEHAO XIAO,KAI XIE: "In Defense of Single-column Networks for Crowd Counting", 《COMPUTER SCIENCE》 * |
ZHANG LU;ZHANG YU; PENG YALI: "Fast Single Image Super-Resolution Via Dilated Residual Networks", 《IEEE ACCESS》 * |
包灵: "基于深度学习的智能人数统计技术研究与系统设计", 《中国优秀硕士学位论文全文数据库.信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705340A (zh) * | 2019-08-12 | 2020-01-17 | 广东石油化工学院 | 一种基于注意力神经网络场的人群计数方法 |
CN110705340B (zh) * | 2019-08-12 | 2023-12-26 | 广东石油化工学院 | 一种基于注意力神经网络场的人群计数方法 |
CN110610143B (zh) * | 2019-08-27 | 2023-05-12 | 汇纳科技股份有限公司 | 多任务联合训练的人群计数网络方法、系统、介质及终端 |
CN110610143A (zh) * | 2019-08-27 | 2019-12-24 | 汇纳科技股份有限公司 | 多任务联合训练的人群计数网络方法、系统、介质及终端 |
CN111027387A (zh) * | 2019-11-11 | 2020-04-17 | 北京百度网讯科技有限公司 | 人数评估及评估模型获取方法、装置及存储介质 |
CN111027387B (zh) * | 2019-11-11 | 2023-09-26 | 北京百度网讯科技有限公司 | 人数评估及评估模型获取方法、装置及存储介质 |
CN111274900A (zh) * | 2020-01-15 | 2020-06-12 | 北京航空航天大学 | 一种基于底层特征提取的空基人群计数方法 |
CN111680648B (zh) * | 2020-06-12 | 2023-04-18 | 成都数之联科技股份有限公司 | 一种目标密度估计神经网络的训练方法 |
CN111680648A (zh) * | 2020-06-12 | 2020-09-18 | 成都数之联科技有限公司 | 一种目标密度估计神经网络的训练方法 |
CN112232316B (zh) * | 2020-12-11 | 2021-03-26 | 科大讯飞(苏州)科技有限公司 | 人群聚集检测方法、装置、电子设备及存储介质 |
CN112232316A (zh) * | 2020-12-11 | 2021-01-15 | 科大讯飞(苏州)科技有限公司 | 人群聚集检测方法、装置、电子设备及存储介质 |
CN112766123A (zh) * | 2021-01-11 | 2021-05-07 | 山东师范大学 | 一种基于纵横交叉注意力网络的人群计数方法及系统 |
CN117809293A (zh) * | 2024-03-01 | 2024-04-02 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
CN117809293B (zh) * | 2024-03-01 | 2024-05-03 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109993269B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993269A (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN109615582A (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN109828251A (zh) | 基于特征金字塔轻量卷积神经网络的雷达目标识别方法 | |
Peng et al. | Rgb-t crowd counting from drone: A benchmark and mmccn network | |
CN111783589B (zh) | 基于场景分类和多尺度特征融合的复杂场景人群计数方法 | |
CN109948593A (zh) | 基于结合全局密度特征的mcnn人群计数方法 | |
CN102034267A (zh) | 基于关注度的目标物三维重建方法 | |
Li et al. | Sign language recognition based on computer vision | |
CN112597985A (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112766123B (zh) | 一种基于纵横交叉注意力网络的人群计数方法及系统 | |
CN109753984A (zh) | 视频分类方法、装置和计算机可读存储介质 | |
CN110991317A (zh) | 一种基于多尺度透视感知型网络的人群计数方法 | |
CN110503014B (zh) | 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 | |
CN111047078A (zh) | 交通特征预测方法、系统及存储介质 | |
Su et al. | Semantic segmentation of high resolution remote sensing image based on batch-attention mechanism | |
CN110020658A (zh) | 一种基于多任务深度学习的显著目标检测方法 | |
Jiang et al. | Forest-CD: Forest change detection network based on VHR images | |
Pham | Semantic road segmentation using deep learning | |
Wang et al. | Satellite video scene classification using low-rank sparse representation two-stream networks | |
CN110991219B (zh) | 一种基于双路3d卷积网络的行为识别方法 | |
CN115953736A (zh) | 一种基于视频监控与深度神经网络的人群密度估计方法 | |
CN112541469B (zh) | 基于自适应分类的人群计数方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220329 |
|
CF01 | Termination of patent right due to non-payment of annual fee |