CN109558862A - 基于空间感知的注意力细化框架的人群计数方法及系统 - Google Patents

基于空间感知的注意力细化框架的人群计数方法及系统 Download PDF

Info

Publication number
CN109558862A
CN109558862A CN201811646126.0A CN201811646126A CN109558862A CN 109558862 A CN109558862 A CN 109558862A CN 201811646126 A CN201811646126 A CN 201811646126A CN 109558862 A CN109558862 A CN 109558862A
Authority
CN
China
Prior art keywords
density
refinement
spatial perception
local
crowd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811646126.0A
Other languages
English (en)
Other versions
CN109558862B (zh
Inventor
林倞
李冠彬
刘凌波
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wisdom Technology Guangzhou Co ltd
Original Assignee
Guangzhou Deep Domain Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Deep Domain Mdt Infotech Ltd filed Critical Guangzhou Deep Domain Mdt Infotech Ltd
Publication of CN109558862A publication Critical patent/CN109558862A/zh
Application granted granted Critical
Publication of CN109558862B publication Critical patent/CN109558862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于空间感知的注意力细化框架的人群计数方法及系统,该方法包括:利用卷积神经网络产生所有训练图像的特征图、初始人群密度图及密度等级信息;将上述信息输入至可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图,并结合长短期记忆模块为下一次迭代的动态定域更新策略;对密度等级信息进行编码生成密度等级图,整合局部密度图与密度等级图,分别作为每轮迭代的局部与全局信息,输入到局部细化网络;局部细化网络调整输入区域的密度分布,对其施以逆向空间回归映射,并以残差学习方式更新生成人群密度图;多次迭代式地进行前述训练过程,获得精细化后的人群密度图。

Description

基于空间感知的注意力细化框架的人群计数方法及系统
技术领域
本发明涉及基于深度学习的计算机视觉领域,特别是涉及一种基于空间感知的注意力细化框架的人群计数方法及系统。
背景技术
人群计数问题旨在对场景中人群的数量及区域密度进行分析。近年来,由于深度学习方法在计算机视觉领域大放异彩,在数据和算法的共同推动下,人群计数问题凭借其广泛的应用前景及学科探索性,吸引了越来越多研究者的关注。
早年的许多方法大多是基于行人检测的框架,通过先检测后计数的思想完成人群计数任务,这类方法一般通过分析行人外观轮廓与运动定式或是提取图像多个单元区域的纹理特征(如LBP,HoG等),结合分类器(如SVM,Adaboost等)或概率统计的方法实现人数统计。如F.Wang等人在2010年的研究工作“Robust and efficient fragments-basedtracking using mean shift(IJEC)”。然而,该类方法难以适用于人群稠密场景下的分析。
而近年来,许多研究人员逐步开始将深度学习技术运用到人群计数任务中,而基于深度学习的方法大大改善了严重遮挡和高聚集现象带来的问题。如Sam等人于2017年的研究工作“Switching Convolutional Neural Network for Crowd Counting(CVPR)”以及Sindagi等人于同年发表的研究工作“Generating High-Quality Crowd Density MapsUsing Contextual Pyramid CNNs(ICCV)”
现有的大多数深度模型的成功源于它们正确处理了不同图片中因不同尺度的行人带来的不利影响或是通过划分区域对局部人流密集度能进行有效建模。然而,这些方法无一例外的是通过暴力枚举不同感受野大小的卷积核用以处理整幅图像或多个区域,最后整合每个子网络的结果。然而,受限于硬件资源和计算资源,这些方法无法做到穷尽所有场景;最重要的是,这些方法在设计网络结构时完全忽视了因不同场景中相机视点的不同所造成的透视扭曲现象——透视扭曲带来的人群尺度的极大差异以及面内外的位姿变形是人群计数面临的最根本的挑战。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于空间感知的注意力细化框架的人群计数方法及系统,其通过反复审视自身提取的高层抽象特征和全局密度等级信息,自适应地对初始输入的人群密度图的局部区域做选择,然后以残差学习的方式对其进行反复细化。在每一次选择时,结构中的空间变换模块能自适应地根据场景的拥挤程度,对关注的区域进行透视纠正。
为达上述及其它目的,本发明提出一种基于空间感知的注意力细化框架的人群计数方法,包括如下步骤:
步骤S1,利用卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g;
步骤S2,将步骤S1产生的特征图初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
步骤S3,对密度等级信息g进行编码以生成密度等级图整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络;
步骤S4,利用局部细化网络重点调整输入区域的密度分布,对其施以步骤S2中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
步骤S5,多次迭代式地进行步骤S2-S4的训练过程,最终获得经过精细化后的人群密度图。
优选地,于步骤S5后,还包括如下步骤:
于每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样。
优选地,步骤S1进一步包括:
选择含有人群标注的数据集作为模型监督学习的训练数据;
利用多任务的多层柱卷积神经网络为所有训练样本产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。
优选地,于所述多任务的多层柱卷积神经网络中,包括三列层柱子网络,每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成,每一个子网络接收同一尺度的图像输入,输出具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层,一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g。
优选地,步骤S2进一步包括:
以步骤S1产生的特征图初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
以步骤S1产生的初始人群密度图M0,将其输入到一全连接层进行编码,结合一个长短期记忆模块,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,空间映射回归网络ST通过变换矩阵Ti进一步处理特征图从而获得经过矫正的局部密度分布图所述长短期记忆模块负责为下一次迭代的动态定域更新策略。
优选地,步骤S3进一步包括:
将全图密度等级信息g经过两个全连接层进行编码后,重塑为大小为W*H的密度等级图
将步骤S2生成的局部密度分布图与所述密度等级图沿通道维度连接,从而整合局部与全局信息;
将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络.
优选地,于步骤S4中,所述局部细化网络利用一对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以步骤S2中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
优选地,于步骤S5中,每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
为达到上述目的,本发明还提供一种基于空间感知的注意力细化框架的人群计数系统,包括:
全局特征嵌入单元,用于利用卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g;
空间感知定域单元,用于将全局特征嵌入单元产生的特征图初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
全局特征抽取单元,用于将所述图像的全图密度等级信息g进行整合,重塑密度等级图为后续的局部细化做准备;
局部细化单元,用于整合所述空间感知定域单元生成的局部密度图与全局特征抽取单元重塑的密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络,利用局部细化网络重点调整输入区域的密度分布,对其施以所述空间感知定域单元中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
迭代训练单元,用于多次迭代式地进行空间感知定域单元、全局特征抽取单元以及局部细化单元的训练过程,最终获得经过精细化后的人群密度图。
优选地,所述空间感知定域单元包括:
特征输入单元,用于将所述全局特征嵌入单元产生的特征图初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
密度图编码单元,用于将上游多任务多层柱卷积神经网络生成的高维特征深度编码为fi,并得到用于空间映射回归的变换矩阵Ti
动态定域单元,用于接收经深度编码后的特征fi及用于空间映射回归的变换矩阵Ti,动态地选取特定区域并进行自适应矫正,生成矫正后的局部密度图
与现有技术相比,本发明一种基于空间感知的注意力细化框架的人群计数及系统通过将目标图片及其作为监督信息的密度标注图输入后,训练多任务的多层柱卷积神经网络生成与之对应的高维特征图、初始的人群密度图以及全局的密度等级信息,然后输入至一个可迭代的空间感知细化模块,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图,同时长短期记忆模块负责为下一次迭代的动态定域更新策略,再将经矫正后的局部密度图与全图密度等级信息输入到下游的局部细化网络进而改善局部区域的密度分布,以生成新的人群密度图,通过反复迭代上述步骤得到最终细化后的人群密度图,本发明有效地融合了全局信息与局部信息,在迭代优化过程中可根据特征动态定域,并自适应地矫正该区域的尺度和面内外偏转,使得无需对密度的标注生成做特殊处理,最终的性能及效率超过了所有现有的人群计数方法。
附图说明
图1为本发明一种基于空间感知的注意力细化框架的人群计数方法的步骤流程图;
图2为本发明具体实施例中多任务的多层柱卷积神经网络的结构图;
图3为本发明具体实施例中局部细化网络结构图;
图4为本发明具体实施例中迭代式训练过程的示意图;
图5为本发明一种基于空间感知的注意力细化框架的人群计数系统的系统架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于空间感知的注意力细化框架的人群计数方法的步骤流程图。如图1所示,本发明一种基于空间感知的注意力细化框架的人群计数方法,包括如下步骤:
步骤S1,利用卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。
在本发明具体实施例中,于步骤S1中,采用多任务的多层柱卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。具体地,步骤S1进一步包括如下步骤:
步骤S100,选择含有图像密度标注的数据集作为模型监督学习的训练数据;
步骤S101,采用三个具有不同感受野的卷积神经网络,产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。
图2为本发明具体实施例中多任务的多层柱卷积神经网络GFM的结构图。在本发明具体实施例中,三个层柱的卷积神经网络的核各不相同,如图2所示,该多层柱卷积神经网络由三列层柱子网络构成,每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成,每一个子网络接收同一尺度的图像输入I后,GFM模块的三个层柱子网络会同时提取其特征,由于每列卷积核大小和通道数各不相同,每列的输出分别具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层(图中未示出)生成两路输出。一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g,前者采用按位的欧氏距离监督,后者采用交叉熵损失监督。在本发明具体实施例中,选取152层的残差网络作为密度等级的分类模型,上述过程的公式化表述如下:
g=GFM(I)
M0=Conv1×1(g)
其中,Conv1×1代表1×1的卷积操作,GFM代表多任务的多层柱卷积神经网络,I代表输入图像。
步骤S2,将步骤S1产生的特征图初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块RSAR,其中特征图通过空间回归映射网络ST,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图同时长短期记忆模块负责为下一次迭代的动态定域更新策略;
具体地,步骤S2进一步包括:
步骤S200,以步骤S1产生的特征图初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
步骤S201,以步骤S1产生的初始人群密度图M0,将其输入到一个全连接层进行编码,结合一个长短期记忆模块,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,空间映射回归网络ST通过变换矩阵Ti进一步处理特征图从而获得经过矫正的局部密度分布图
步骤S3,对密度等级信息g进行编码以生成密度等级图整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。
具体地,步骤S3进一步包括:
步骤S300,将全图密度等级信息g经过两个全连接层进行编码后,重塑为大小为W*H的密度等级图
步骤S301,将步骤S2生成的局部密度分布图与步骤300中的密度等级图沿通道维度连接,从而整合局部与全局信息。
步骤S302,将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。具体地说,将密度等级信息g连续输入到两个全连接层编码,前者的神经元个数为256,后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量,对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图(密度等级图),随后整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。
对于空间变换模块ST,参考Jaderberg等人的论文“Spatial TransformerNetworks”(Conference and Workshop on Neural Information Processing Systemspages 2921–2929,2015),该模块能够通过特定的输入将特征进行转换,使得网络在前向传播时变得可微。
该阶段主要是输入一张特征图,根据特征图生成一张关于空间映射的参数列表θ,该映射将直接作用于特征图本身。假设输入特征其中W、H、C分别为特征图的长度、高度及通道数,映射回归有以下计算公式可得到:
假设源图像U的每个像素的坐标为目标图像V的每个像素坐标为则可以这样理解目标图像V:目标图像V的每个像素实际上都是源图像U通过某种映射后落于规则网格G={Gi}内的,而若干个规则网格G构成了其中H′、W′分别为网格的高度与宽度。根据空间映射函数 的对应关系可以表达为下式:
其中,n、m分别为源图像和目标图像的维数,代表基于角度θ的仿射变换(Affine),Z表示源二维坐标转变为等价的齐次坐标形式所扩展的z轴坐标(一般取z=1),每个θ均由上式对应生成。
在计算得到后,每一个在中的源像素点可以根据设定的采样确定在目标图像V中每个像素点的值,对于该过程可以通过如下公式计算得:
其中,k(·)为采样核(如双线性插值、立方插值等可微分的插值方法),Φx和Φy分别为采样核k(·)的参数,为源图像位于坐标(n,m,c)的值,为目标图像位于(x,y,c)的值。
步骤S4,利用局部细化网络LRN重点调整输入区域的密度分布,对其施以步骤S2中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图。在本发明具体实施例中,局部细化网络LRN利用一个对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以步骤S2中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
上述空间映射回归变换矩阵的设置即意味着允许空间映射回归自适应地对输入的高维特征施行裁剪,平移,旋转和缩放。本发明采用第i次迭代时的隐藏状态hi并将其输入到一个全连接层,经过全连接层重新加权后的结果作为映射变换矩阵Ti的参数。最后根据映射变换矩阵Ti网络自动地从上一次迭代得到的密度图Mi-1中提取一个区域密度图ri,上述过程可简化表述为下式:
ri=ST(Mi-1,Ti)
其中ST代表空间映射回归变换,ri通过双线性插值的方式将Mi-1的大小调整到w×h。
图3为本发明具体实施例中局部细化网络结构图,具体地,局部细化网络LRN由三列全卷积神经网络构成,它以局部密度图与密度等级图的堆叠作为输入,然后计算经过空间感知模块动态选择的区域的密度残差,最后通过将逆变换后的密度残差图添加到上一次迭代得到的密度图Mi-1中,得到一个新的经过细化的人群密度分布图Mi,上述过程可用公式简述为下式概述:
Mi=Mi-1+IST(LRN(ri,cg),Ti -1)
其中,ri代表当前迭代时刻的特征区域,cg为上述的全局密度等级信息g经过编码、重塑操作后的全局上下文信息图,r为转换因子,其计算公式如上,θ依其下标分别对应上述的矩阵上标i表示θ取当前迭代时刻的数值,IST为迭代细化网络根据空间映射回归模块学习到的空间映射回归变换矩阵Ti的逆变换Ti -1,生成的动态区域的密度残差图。
步骤S5,多次迭代式地进行步骤S2-S4的训练过程,最终获得经过精细化后的人群密度图,其中每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
图4为本发明具体实施例中迭代式训练过程的示意图,具体地,交替地进行步骤S2、S3、S4,直到满足设定的停止条件时停止整个模型的训练。
较佳地,于步骤S5后,本发明之基于空间感知的注意力细化框架的人群计数方法还包括如下步骤:
在每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样,其权值由估计值与真实值的欧氏距离的平方成正比。
图5为本发明一种基于空间感知的注意力细化框架的人群计数系统的系统架构图。如图5所示,本发明一种基于空间感知的注意力细化框架的人群计数系统,包括:
全局特征嵌入单元501,用于利用卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。
在本发明具体实施例中,全局特征嵌入单元501采用多任务的多层柱卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。具体地,全局特征嵌入单元501进一步包括:
训练数据选择单元,用于选择含有图像密度标注的数据集作为模型监督学习的训练数据;
特征产生单元,用于采用三个具有不同感受野的卷积神经网络,产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。在本发明具体实施例中,三个层柱的卷积神经网络的核各不相同,每一个子网络接收同一尺度的图像输入,输出具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层,一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g,前者采用按位的欧氏距离监督,后者采用交叉熵损失监督。
空间感知定域单元502,用于将全局特征嵌入单元501产生的特征图初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块RSAR,其中特征图通过空间回归映射网络ST,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图同时长短期记忆模块负责为下一次迭代的动态定域更新策略;
具体地,空间感知定域单元502进一步包括:
特征输入单元5021,用于将全局特征嵌入单元501产生的特征图初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
密度图编码单元5022,用于将上游多任务多层柱卷积神经网络生成的高维特征深度编码为fi,以便用于后续的动态定域与策略更新。具体地,密度图编码单元5022以全局特征嵌入单元501产生的初始人群密度图M0,将其输入到一个全连接层进行编码,结合一个长短期记忆模块,该模块用于记录过往迭代更新中所有密度图的信息以及获得这些更新所施予的相关操作,其公式如下:
ci,hi=LSTM(ci,hi,FC512(Mi-1))
其中ci,hi是第i次迭代时的存储单元和隐藏状态,FC是维度为512维的全连接层,最后,ci,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,LSTM代表长短期记忆模块,长短期记忆模块用于记录过往迭代更新中所有密度图的信息以及获得这些更新所施予的相关操作。
动态定域单元5023,用于接收经深度编码后的特征fi及用于空间映射回归的变换矩阵Ti,动态地选取特定区域并进行自适应矫正,生成矫正后的局部密度图
全局特征抽取单元503,用于将所述图像的全图密度等级信息g进行整合,重塑密度等级图为后续的局部细化做准备。具体地,全局特征抽取单元503将密度等级信息g连续输入到两个全连接层编码,前者的神经元个数为256,后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量,对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图(即密度等级图)
局部细化单元504,用于整合空间感知定域单元502生成的局部密度图与全局特征抽取单元503重塑的密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN,利用局部细化网络LRN重点调整输入区域的密度分布,对其施以空间感知定域单元502中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图。具体地说,局部细化单元504将空间感知定域单元502生成的局部密度分布图与全局特征抽取单元503的密度等级图沿通道维度连接,从而整合局部与全局信息,然后将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。局部细化网络LRN由三列全卷积神经网络构成,它以局部密度图与密度等级图的堆叠作为输入,然后计算经过空间感知模块动态选择的区域的密度残差,最后通过将逆变换Ti -1后的密度残差图添加到上一次迭代得到的密度图Mi-1中,得到一个新的经过细化的人群密度分布图Mi
在本发明具体实施例中,将密度等级信息g连续输入到两个全连接层编码,前者的神经元个数为256,后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量,对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图(密度等级图),随后整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN,局部细化网络LRN利用一个对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以空间感知定域单元502中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
迭代训练单元505,用于多次迭代式地进行空间感知定域单元502、全局特征抽取单元503以及局部细化单元504的训练过程,最终获得经过精细化后的人群密度图,其中每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
较佳地,迭代训练单元504在每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样,其权值由估计值与真实值的欧氏距离的平方成正比。
综上所述,本发明一种基于空间感知的注意力细化框架的人群计数及系统通过将目标图片及其作为监督信息的密度标注图输入后,训练多任务的多层柱卷积神经网络生成与之对应的高维特征图、初始的人群密度图以及全局的密度等级信息,然后输入至一个可迭代的空间感知细化模块,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图,同时长短期记忆模块负责为下一次迭代的动态定域更新策略,再将经矫正后的局部密度图与全图密度等级信息输入到下游的局部细化网络进而改善局部区域的密度分布,以生成新的人群密度图,通过反复迭代上述步骤得到最终细化后的人群密度图,本发明有效地融合了全局信息与局部信息,在迭代优化过程中可根据特征动态定域,并自适应地矫正该区域的尺度和面内外偏转,使得无需对密度的标注生成做特殊处理,最终的性能及效率超过了所有现有的人群计数方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于空间感知的注意力细化框架的人群计数方法,包括如下步骤:
步骤S1,利用卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g;
步骤S2,将步骤S1产生的特征图初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
步骤S3,对密度等级信息g进行编码以生成密度等级图整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络;
步骤S4,利用局部细化网络重点调整输入区域的密度分布,对其施以步骤S2中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
步骤S5,多次迭代式地进行步骤S2-S4的训练过程,最终获得经过精细化后的人群密度图。
2.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,于步骤S5后,还包括如下步骤:
于每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样。
3.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,步骤S1进一步包括:
选择含有人群标注的数据集作为模型监督学习的训练数据;
利用多任务的多层柱卷积神经网络为所有训练样本产生所有训练图像的特征图初始人群密度图M0及密度等级信息g。
4.如权利要求2所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于:于所述多任务的多层柱卷积神经网络中,包括三列层柱子网络,每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成,每一个子网络接收同一尺度的图像输入,输出具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层,一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g。
5.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,步骤S2进一步包括:
以步骤S1产生的特征图初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
以步骤S1产生的初始人群密度图0,将其输入到一全连接层进行编码,结合一个长短期记忆模块,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,空间映射回归网络ST通过变换矩阵Ti进一步处理特征图从而获得经过矫正的局部密度分布图所述长短期记忆模块负责为下一次迭代的动态定域更新策略。
6.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,步骤S3进一步包括:
将全图密度等级信息g经过两个全连接层进行编码后,重塑为大小为W*H的密度等级图
将步骤S2生成的局部密度分布图与所述密度等级图沿通道维度连接,从而整合局部与全局信息;
将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络。
7.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,于步骤S4中,所述局部细化网络利用一对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以步骤S2中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
8.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于:于步骤S5中,每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
9.一种基于空间感知的注意力细化框架的人群计数系统,包括:
全局特征嵌入单元,用于利用卷积神经网络产生所有训练图像的特征图初始人群密度图M0及密度等级信息g;
空间感知定域单元,用于将全局特征嵌入单元产生的特征图初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
全局特征抽取单元,用于将所述图像的全图密度等级信息g进行整合,重塑密度等级图为后续的局部细化做准备;
局部细化单元,用于整合所述空间感知定域单元生成的局部密度图与全局特征抽取单元重塑的密度等级图分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络,利用局部细化网络重点调整输入区域的密度分布,对其施以所述空间感知定域单元中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
迭代训练单元,用于多次迭代式地进行空间感知定域单元、全局特征抽取单元以及局部细化单元的训练过程,最终获得经过精细化后的人群密度图。
10.如权利要求9所述的一种基于空间感知的注意力细化框架的人群计数系统,其特征在于,所述空间感知定域单元包括:
特征输入单元,用于将所述全局特征嵌入单元产生的特征图初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
密度图编码单元,用于将上游多任务多层柱卷积神经网络生成的高维特征深度编码为fi,并得到用于空间映射回归的变换矩阵Ti
动态定域单元,用于接收经深度编码后的特征fi及用于空间映射回归的变换矩阵Ti,动态地选取特定区域并进行自适应矫正,生成矫正后的局部密度图
CN201811646126.0A 2018-06-15 2018-12-29 基于空间感知的注意力细化框架的人群计数方法及系统 Active CN109558862B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018106214110 2018-06-15
CN201810621411 2018-06-15

Publications (2)

Publication Number Publication Date
CN109558862A true CN109558862A (zh) 2019-04-02
CN109558862B CN109558862B (zh) 2023-04-07

Family

ID=65872223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646126.0A Active CN109558862B (zh) 2018-06-15 2018-12-29 基于空间感知的注意力细化框架的人群计数方法及系统

Country Status (1)

Country Link
CN (1) CN109558862B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610143A (zh) * 2019-08-27 2019-12-24 汇纳科技股份有限公司 多任务联合训练的人群计数网络方法、系统、介质及终端
CN110705340A (zh) * 2019-08-12 2020-01-17 广东石油化工学院 一种基于注意力神经网络场的人群计数方法
CN110781845A (zh) * 2019-10-29 2020-02-11 北京迈格威科技有限公司 基于图像统计目标对象的方法、装置和电子系统
CN110874573A (zh) * 2019-10-30 2020-03-10 汇纳科技股份有限公司 基于残差运算的密度图产生方法、装置、电子终端及介质
CN111062274A (zh) * 2019-12-02 2020-04-24 汇纳科技股份有限公司 上下文感知嵌入的人群计数方法、系统、介质及电子设备
CN111325108A (zh) * 2020-01-22 2020-06-23 中能国际建筑投资集团有限公司 一种多任务网络模型及使用方法、装置、和存储介质
CN111611878A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于视频图像的人群计数和未来人流量预测的方法
CN111832414A (zh) * 2020-06-09 2020-10-27 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN112446275A (zh) * 2019-09-04 2021-03-05 株式会社东芝 物体数量推定装置、物体数量推定方法以及存储介质
CN113762009A (zh) * 2020-11-18 2021-12-07 四川大学 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN117409372A (zh) * 2023-12-13 2024-01-16 深圳须弥云图空间科技有限公司 一种基于全局与局部密度融合的密集人群计数方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326937A (zh) * 2016-08-31 2017-01-11 郑州金惠计算机系统工程有限公司 基于卷积神经网络的人群密度分布估计方法
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN107967451A (zh) * 2017-11-23 2018-04-27 常州大学 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326937A (zh) * 2016-08-31 2017-01-11 郑州金惠计算机系统工程有限公司 基于卷积神经网络的人群密度分布估计方法
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN107967451A (zh) * 2017-11-23 2018-04-27 常州大学 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FENG XIONG等: "Spatiotemporal Modeling for Crowd Counting in Videos", 《IEEE》 *
MAX JADERBERG等: "Spatial Transformer Networks", 《ARXIV》 *
SHANGHANG ZHANG等: "FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras", 《ARXIV》 *
YINGYING ZHANG等: "Single-Image Crowd Counting via Multi-Column Convolutional Neural Network", 《IEEE》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705340A (zh) * 2019-08-12 2020-01-17 广东石油化工学院 一种基于注意力神经网络场的人群计数方法
CN110705340B (zh) * 2019-08-12 2023-12-26 广东石油化工学院 一种基于注意力神经网络场的人群计数方法
CN110610143A (zh) * 2019-08-27 2019-12-24 汇纳科技股份有限公司 多任务联合训练的人群计数网络方法、系统、介质及终端
CN110610143B (zh) * 2019-08-27 2023-05-12 汇纳科技股份有限公司 多任务联合训练的人群计数网络方法、系统、介质及终端
CN112446275A (zh) * 2019-09-04 2021-03-05 株式会社东芝 物体数量推定装置、物体数量推定方法以及存储介质
CN110781845A (zh) * 2019-10-29 2020-02-11 北京迈格威科技有限公司 基于图像统计目标对象的方法、装置和电子系统
CN110781845B (zh) * 2019-10-29 2023-04-07 北京迈格威科技有限公司 基于图像统计目标对象的方法、装置和电子系统
CN110874573B (zh) * 2019-10-30 2022-05-13 汇纳科技股份有限公司 基于残差运算的密度图产生方法、装置、电子终端及介质
CN110874573A (zh) * 2019-10-30 2020-03-10 汇纳科技股份有限公司 基于残差运算的密度图产生方法、装置、电子终端及介质
CN111062274A (zh) * 2019-12-02 2020-04-24 汇纳科技股份有限公司 上下文感知嵌入的人群计数方法、系统、介质及电子设备
CN111062274B (zh) * 2019-12-02 2023-11-28 汇纳科技股份有限公司 上下文感知嵌入的人群计数方法、系统、介质及电子设备
CN111325108B (zh) * 2020-01-22 2023-05-26 中能国际高新科技研究院有限公司 一种多任务网络模型及使用方法、装置、和存储介质
CN111325108A (zh) * 2020-01-22 2020-06-23 中能国际建筑投资集团有限公司 一种多任务网络模型及使用方法、装置、和存储介质
CN111611878B (zh) * 2020-04-30 2022-07-22 杭州电子科技大学 一种基于视频图像的人群计数和未来人流量预测的方法
CN111611878A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于视频图像的人群计数和未来人流量预测的方法
CN111832414B (zh) * 2020-06-09 2021-05-14 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN111832414A (zh) * 2020-06-09 2020-10-27 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN113762009A (zh) * 2020-11-18 2021-12-07 四川大学 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN113762009B (zh) * 2020-11-18 2023-06-16 四川大学 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN117409372A (zh) * 2023-12-13 2024-01-16 深圳须弥云图空间科技有限公司 一种基于全局与局部密度融合的密集人群计数方法和装置

Also Published As

Publication number Publication date
CN109558862B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109558862A (zh) 基于空间感知的注意力细化框架的人群计数方法及系统
Tian et al. Cctrans: Simplifying and improving crowd counting with transformer
Bilinski et al. Dense decoder shortcut connections for single-pass semantic segmentation
CN107154023B (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN110414377B (zh) 一种基于尺度注意力网络的遥感图像场景分类方法
Zhang et al. End-to-end photo-sketch generation via fully convolutional representation learning
CN109711413A (zh) 基于深度学习的图像语义分割方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN107358576A (zh) 基于卷积神经网络的深度图超分辨率重建方法
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN111401207B (zh) 基于mars深度特征提取与增强的人体动作识别方法
CN108229432A (zh) 人脸标定方法及装置
CN114663685B (zh) 一种行人重识别模型训练的方法、装置和设备
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN110136162A (zh) 无人机视角遥感目标跟踪方法及装置
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
Bounsaythip et al. Genetic algorithms in image processing-a review
CN115222998A (zh) 一种图像分类方法
CN113095251B (zh) 一种人体姿态估计方法及系统
CN110210419A (zh) 高分辨率遥感图像的场景识别系统及模型生成方法
Fan et al. Hcpvf: Hierarchical cascaded point-voxel fusion for 3d object detection
CN114882493A (zh) 一种基于图像序列的三维手部姿态估计与识别方法
Xie et al. Multi-exposure motion estimation based on deep convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220325

Address after: 511455 No. 106, Fengze East Road, Nansha District, Guangzhou City, Guangdong Province (self compiled Building 1) x1301-b013290

Applicant after: Guangzhou wisdom Technology (Guangzhou) Co.,Ltd.

Address before: 511400 room 210-5, building 1, Chuangqi, No. 63, Chuangqi Road, Shilou Town, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU SHENYU INFORMATION TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant