CN109558862B - 基于空间感知的注意力细化框架的人群计数方法及系统 - Google Patents

基于空间感知的注意力细化框架的人群计数方法及系统 Download PDF

Info

Publication number
CN109558862B
CN109558862B CN201811646126.0A CN201811646126A CN109558862B CN 109558862 B CN109558862 B CN 109558862B CN 201811646126 A CN201811646126 A CN 201811646126A CN 109558862 B CN109558862 B CN 109558862B
Authority
CN
China
Prior art keywords
density
map
local
information
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811646126.0A
Other languages
English (en)
Other versions
CN109558862A (zh
Inventor
林倞
李冠彬
刘凌波
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wisdom Technology Guangzhou Co ltd
Original Assignee
Guangzhou Wisdom Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wisdom Technology Guangzhou Co ltd filed Critical Guangzhou Wisdom Technology Guangzhou Co ltd
Publication of CN109558862A publication Critical patent/CN109558862A/zh
Application granted granted Critical
Publication of CN109558862B publication Critical patent/CN109558862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于空间感知的注意力细化框架的人群计数方法及系统,该方法包括:利用卷积神经网络产生所有训练图像的特征图、初始人群密度图及密度等级信息;将上述信息输入至可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图,并结合长短期记忆模块为下一次迭代的动态定域更新策略;对密度等级信息进行编码生成密度等级图,整合局部密度图与密度等级图,分别作为每轮迭代的局部与全局信息,输入到局部细化网络;局部细化网络调整输入区域的密度分布,对其施以逆向空间回归映射,并以残差学习方式更新生成人群密度图;多次迭代式地进行前述训练过程,获得精细化后的人群密度图。

Description

基于空间感知的注意力细化框架的人群计数方法及系统
技术领域
本发明涉及基于深度学习的计算机视觉领域,特别是涉及一种基于空间感知的注意力细化框架的人群计数方法及系统。
背景技术
人群计数问题旨在对场景中人群的数量及区域密度进行分析。近年来,由于深度学习方法在计算机视觉领域大放异彩,在数据和算法的共同推动下,人群计数问题凭借其广泛的应用前景及学科探索性,吸引了越来越多研究者的关注。
早年的许多方法大多是基于行人检测的框架,通过先检测后计数的思想完成人群计数任务,这类方法一般通过分析行人外观轮廓与运动定式或是提取图像多个单元区域的纹理特征(如LBP,HoG等),结合分类器(如SVM,Adaboost等)或概率统计的方法实现人数统计。如F.Wang等人在2010年的研究工作“Robust and efficient fragments-basedtracking using mean shift(IJEC)”。然而,该类方法难以适用于人群稠密场景下的分析。
而近年来,许多研究人员逐步开始将深度学习技术运用到人群计数任务中,而基于深度学习的方法大大改善了严重遮挡和高聚集现象带来的问题。如Sam等人于2017年的研究工作“Switching Convolutional Neural Network for Crowd Counting(CVPR)”以及Sindagi等人于同年发表的研究工作“Generating High-Quality Crowd Density MapsUsing Contextual Pyramid CNNs(ICCV)”
现有的大多数深度模型的成功源于它们正确处理了不同图片中因不同尺度的行人带来的不利影响或是通过划分区域对局部人流密集度能进行有效建模。然而,这些方法无一例外的是通过暴力枚举不同感受野大小的卷积核用以处理整幅图像或多个区域,最后整合每个子网络的结果。然而,受限于硬件资源和计算资源,这些方法无法做到穷尽所有场景;最重要的是,这些方法在设计网络结构时完全忽视了因不同场景中相机视点的不同所造成的透视扭曲现象——透视扭曲带来的人群尺度的极大差异以及面内外的位姿变形是人群计数面临的最根本的挑战。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于空间感知的注意力细化框架的人群计数方法及系统,其通过反复审视自身提取的高层抽象特征和全局密度等级信息,自适应地对初始输入的人群密度图的局部区域做选择,然后以残差学习的方式对其进行反复细化。在每一次选择时,结构中的空间变换模块能自适应地根据场景的拥挤程度,对关注的区域进行透视纠正。
为达上述及其它目的,本发明提出一种基于空间感知的注意力细化框架的人群计数方法,包括如下步骤:
步骤S1,利用卷积神经网络产生所有训练图像的特征图
Figure BDA0001932093010000021
初始人群密度图M0及密度等级信息g;
步骤S2,将步骤S1产生的特征图
Figure BDA0001932093010000022
初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图
Figure BDA0001932093010000025
并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
步骤S3,对密度等级信息g进行编码以生成密度等级图
Figure BDA0001932093010000023
整合局部密度图
Figure BDA0001932093010000026
与密度等级图
Figure BDA0001932093010000024
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络;
步骤S4,利用局部细化网络重点调整输入区域的密度分布,对其施以步骤S2中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
步骤S5,多次迭代式地进行步骤S2-S4的训练过程,最终获得经过精细化后的人群密度图。
优选地,于步骤S5后,还包括如下步骤:
于每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样。
优选地,步骤S1进一步包括:
选择含有人群标注的数据集作为模型监督学习的训练数据;
利用多任务的多层柱卷积神经网络为所有训练样本产生所有训练图像的特征图
Figure BDA0001932093010000031
初始人群密度图M0及密度等级信息g。
优选地,于所述多任务的多层柱卷积神经网络中,包括三列层柱子网络,每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成,每一个子网络接收同一尺度的图像输入,输出具有不同感受野的高维特征
Figure BDA0001932093010000032
在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层,一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g。
优选地,步骤S2进一步包括:
以步骤S1产生的特征图
Figure BDA0001932093010000033
初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
以步骤S1产生的初始人群密度图M0,将其输入到一全连接层进行编码,结合一个长短期记忆模块,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,空间映射回归网络ST通过变换矩阵Ti进一步处理特征图
Figure BDA0001932093010000034
从而获得经过矫正的局部密度分布图
Figure BDA0001932093010000035
所述长短期记忆模块负责为下一次迭代的动态定域更新策略。
优选地,步骤S3进一步包括:
将全图密度等级信息g经过两个全连接层进行编码后,重塑为大小为W*H的密度等级图
Figure BDA0001932093010000041
将步骤S2生成的局部密度分布图
Figure BDA0001932093010000047
与所述密度等级图
Figure BDA0001932093010000042
沿通道维度连接,从而整合局部与全局信息;
将矫正后的局部密度图
Figure BDA0001932093010000048
与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络.
优选地,于步骤S4中,所述局部细化网络利用一对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以步骤S2中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
优选地,于步骤S5中,每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
为达到上述目的,本发明还提供一种基于空间感知的注意力细化框架的人群计数系统,包括:
全局特征嵌入单元,用于利用卷积神经网络产生所有训练图像的特征图
Figure BDA0001932093010000043
初始人群密度图M0及密度等级信息g;
空间感知定域单元,用于将全局特征嵌入单元产生的特征图
Figure BDA0001932093010000044
初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图
Figure BDA0001932093010000049
并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
全局特征抽取单元,用于将所述图像的全图密度等级信息g进行整合,重塑密度等级图
Figure BDA0001932093010000045
为后续的局部细化做准备;
局部细化单元,用于整合所述空间感知定域单元生成的局部密度图
Figure BDA00019320930100000410
与全局特征抽取单元重塑的密度等级图
Figure BDA0001932093010000046
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络,利用局部细化网络重点调整输入区域的密度分布,对其施以所述空间感知定域单元中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
迭代训练单元,用于多次迭代式地进行空间感知定域单元、全局特征抽取单元以及局部细化单元的训练过程,最终获得经过精细化后的人群密度图。
优选地,所述空间感知定域单元包括:
特征输入单元,用于将所述全局特征嵌入单元产生的特征图
Figure BDA0001932093010000052
初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
密度图编码单元,用于将上游多任务多层柱卷积神经网络生成的高维特征
Figure BDA0001932093010000051
深度编码为fi,并得到用于空间映射回归的变换矩阵Ti
动态定域单元,用于接收经深度编码后的特征fi及用于空间映射回归的变换矩阵Ti,动态地选取特定区域并进行自适应矫正,生成矫正后的局部密度图
Figure BDA0001932093010000053
与现有技术相比,本发明一种基于空间感知的注意力细化框架的人群计数及系统通过将目标图片及其作为监督信息的密度标注图输入后,训练多任务的多层柱卷积神经网络生成与之对应的高维特征图、初始的人群密度图以及全局的密度等级信息,然后输入至一个可迭代的空间感知细化模块,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图,同时长短期记忆模块负责为下一次迭代的动态定域更新策略,再将经矫正后的局部密度图与全图密度等级信息输入到下游的局部细化网络进而改善局部区域的密度分布,以生成新的人群密度图,通过反复迭代上述步骤得到最终细化后的人群密度图,本发明有效地融合了全局信息与局部信息,在迭代优化过程中可根据特征动态定域,并自适应地矫正该区域的尺度和面内外偏转,使得无需对密度的标注生成做特殊处理,最终的性能及效率超过了所有现有的人群计数方法。
附图说明
图1为本发明一种基于空间感知的注意力细化框架的人群计数方法的步骤流程图;
图2为本发明具体实施例中多任务的多层柱卷积神经网络的结构图;
图3为本发明具体实施例中局部细化网络结构图;
图4为本发明具体实施例中迭代式训练过程的示意图;
图5为本发明一种基于空间感知的注意力细化框架的人群计数系统的系统架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于空间感知的注意力细化框架的人群计数方法的步骤流程图。如图1所示,本发明一种基于空间感知的注意力细化框架的人群计数方法,包括如下步骤:
步骤S1,利用卷积神经网络产生所有训练图像的特征图
Figure BDA0001932093010000061
初始人群密度图M0及密度等级信息g。
在本发明具体实施例中,于步骤S1中,采用多任务的多层柱卷积神经网络产生所有训练图像的特征图
Figure BDA0001932093010000062
初始人群密度图M0及密度等级信息g。具体地,步骤S1进一步包括如下步骤:
步骤S100,选择含有图像密度标注的数据集作为模型监督学习的训练数据;
步骤S101,采用三个具有不同感受野的卷积神经网络,产生所有训练图像的特征图
Figure BDA0001932093010000063
初始人群密度图M0及密度等级信息g。
图2为本发明具体实施例中多任务的多层柱卷积神经网络GFM的结构图。在本发明具体实施例中,三个层柱的卷积神经网络的核各不相同,如图2所示,该多层柱卷积神经网络由三列层柱子网络构成,每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成,每一个子网络接收同一尺度的图像输入I后,GFM模块的三个层柱子网络会同时提取其特征,由于每列卷积核大小和通道数各不相同,每列的输出分别具有不同感受野的高维特征
Figure BDA0001932093010000073
在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层(图中未示出)生成两路输出。一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g,前者采用按位的欧氏距离监督,后者采用交叉熵损失监督。在本发明具体实施例中,选取152层的残差网络作为密度等级的分类模型,上述过程的公式化表述如下:
g=GFM(I)
M0=Conv1×1(g)
其中,Conv1×1代表1×1的卷积操作,GFM代表多任务的多层柱卷积神经网络,I代表输入图像。
步骤S2,将步骤S1产生的特征图
Figure BDA0001932093010000071
初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块RSAR,其中特征图通过空间回归映射网络ST,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图
Figure BDA0001932093010000074
同时长短期记忆模块负责为下一次迭代的动态定域更新策略;
具体地,步骤S2进一步包括:
步骤S200,以步骤S1产生的特征图
Figure BDA0001932093010000072
初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
步骤S201,以步骤S1产生的初始人群密度图M0,将其输入到一个全连接层进行编码,结合一个长短期记忆模块,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,空间映射回归网络ST通过变换矩阵Ti进一步处理特征图
Figure BDA0001932093010000081
从而获得经过矫正的局部密度分布图
Figure BDA00019320930100000812
步骤S3,对密度等级信息g进行编码以生成密度等级图
Figure BDA0001932093010000082
整合局部密度图
Figure BDA00019320930100000813
与密度等级图
Figure BDA0001932093010000083
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。
具体地,步骤S3进一步包括:
步骤S300,将全图密度等级信息g经过两个全连接层进行编码后,重塑为大小为W*H的密度等级图
Figure BDA0001932093010000084
步骤S301,将步骤S2生成的局部密度分布图
Figure BDA00019320930100000814
与步骤300中的密度等级图
Figure BDA0001932093010000085
沿通道维度连接,从而整合局部与全局信息。
步骤S302,将矫正后的局部密度图
Figure BDA00019320930100000815
与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。具体地说,将密度等级信息g连续输入到两个全连接层编码,前者的神经元个数为256,后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量,对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图
Figure BDA0001932093010000086
(密度等级图
Figure BDA0001932093010000087
),随后整合局部密度图
Figure BDA00019320930100000816
与密度等级图
Figure BDA0001932093010000088
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。
对于空间变换模块ST,参考Jaderberg等人的论文“Spatial TransformerNetworks”(Conference and Workshop on Neural Information Processing Systemspages 2921–2929,2015),该模块能够通过特定的输入将特征进行转换,使得网络在前向传播时变得可微。
该阶段主要是输入一张特征图,根据特征图生成一张关于空间映射的参数列表θ,该映射将直接作用于特征图本身。假设输入特征
Figure BDA0001932093010000089
其中W、H、C分别为特征图的长度、高度及通道数,映射回归
Figure BDA00019320930100000810
有以下计算公式可得到:
Figure BDA00019320930100000811
假设源图像U的每个像素的坐标为
Figure BDA0001932093010000091
目标图像V的每个像素坐标为
Figure BDA0001932093010000092
则可以这样理解目标图像V:目标图像V的每个像素
Figure BDA0001932093010000093
实际上都是源图像U通过某种映射后落于规则网格G={Gi}内的,而若干个规则网格G构成了
Figure BDA0001932093010000094
其中H′、W′分别为网格的高度与宽度。根据空间映射函数
Figure BDA0001932093010000095
Figure BDA0001932093010000096
Figure BDA0001932093010000097
的对应关系可以表达为下式:
Figure BDA0001932093010000098
其中,n、m分别为源图像和目标图像的维数,
Figure BDA0001932093010000099
代表基于角度θ的仿射变换(Affine),Z表示源二维坐标转变为等价的齐次坐标形式所扩展的z轴坐标(一般取z=1),每个θ均由上式
Figure BDA00019320930100000910
对应生成。
在计算得到
Figure BDA00019320930100000911
后,每一个在
Figure BDA00019320930100000912
中的源像素点
Figure BDA00019320930100000913
可以根据设定的采样确定在目标图像V中每个像素点的值,对于
Figure BDA00019320930100000914
该过程可以通过如下公式计算得:
Figure BDA00019320930100000915
其中,k(·)为采样核(如双线性插值、立方插值等可微分的插值方法),Φx和Φy分别为采样核k(·)的参数,
Figure BDA00019320930100000916
为源图像位于坐标(n,m,c)的值,
Figure BDA00019320930100000917
为目标图像位于(x,y,c)的值。
步骤S4,利用局部细化网络LRN重点调整输入区域的密度分布,对其施以步骤S2中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图。在本发明具体实施例中,局部细化网络LRN利用一个对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以步骤S2中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
上述空间映射回归变换矩阵的设置即意味着允许空间映射回归自适应地对输入的高维特征施行裁剪,平移,旋转和缩放。本发明采用第i次迭代时的隐藏状态hi并将其输入到一个全连接层,经过全连接层重新加权后的结果作为映射变换矩阵Ti的参数。最后根据映射变换矩阵Ti网络自动地从上一次迭代得到的密度图Mi-1中提取一个区域密度图ri,上述过程可简化表述为下式:
ri=ST(Mi-1,Ti)
其中ST代表空间映射回归变换,ri通过双线性插值的方式将Mi-1的大小调整到w×h。
图3为本发明具体实施例中局部细化网络结构图,具体地,局部细化网络LRN由三列全卷积神经网络构成,它以局部密度图
Figure BDA0001932093010000104
与密度等级图
Figure BDA0001932093010000105
的堆叠作为输入,然后计算经过空间感知模块动态选择的区域的密度残差,最后通过将逆变换后的密度残差图添加到上一次迭代得到的密度图Mi-1中,得到一个新的经过细化的人群密度分布图Mi,上述过程可用公式简述为下式概述:
Mi=Mi-1+IST(LRN(ri,cg),Ti -1)
Figure BDA0001932093010000101
Figure BDA0001932093010000102
其中,ri代表当前迭代时刻的特征区域,cg为上述的全局密度等级信息g经过编码、重塑操作后的全局上下文信息图,r为转换因子,其计算公式如上,θ依其下标分别对应上述的矩阵
Figure BDA0001932093010000103
上标i表示θ取当前迭代时刻的数值,IST为迭代细化网络根据空间映射回归模块学习到的空间映射回归变换矩阵Ti的逆变换Ti -1,生成的动态区域的密度残差图。
步骤S5,多次迭代式地进行步骤S2-S4的训练过程,最终获得经过精细化后的人群密度图,其中每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
图4为本发明具体实施例中迭代式训练过程的示意图,具体地,交替地进行步骤S2、S3、S4,直到满足设定的停止条件时停止整个模型的训练。
较佳地,于步骤S5后,本发明之基于空间感知的注意力细化框架的人群计数方法还包括如下步骤:
在每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样,其权值由估计值与真实值的欧氏距离的平方成正比。
图5为本发明一种基于空间感知的注意力细化框架的人群计数系统的系统架构图。如图5所示,本发明一种基于空间感知的注意力细化框架的人群计数系统,包括:
全局特征嵌入单元501,用于利用卷积神经网络产生所有训练图像的特征图
Figure BDA0001932093010000112
初始人群密度图M0及密度等级信息g。
在本发明具体实施例中,全局特征嵌入单元501采用多任务的多层柱卷积神经网络产生所有训练图像的特征图
Figure BDA0001932093010000111
初始人群密度图M0及密度等级信息g。具体地,全局特征嵌入单元501进一步包括:
训练数据选择单元,用于选择含有图像密度标注的数据集作为模型监督学习的训练数据;
特征产生单元,用于采用三个具有不同感受野的卷积神经网络,产生所有训练图像的特征图
Figure BDA0001932093010000113
初始人群密度图M0及密度等级信息g。在本发明具体实施例中,三个层柱的卷积神经网络的核各不相同,每一个子网络接收同一尺度的图像输入,输出具有不同感受野的高维特征
Figure BDA0001932093010000114
在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层,一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g,前者采用按位的欧氏距离监督,后者采用交叉熵损失监督。
空间感知定域单元502,用于将全局特征嵌入单元501产生的特征图
Figure BDA0001932093010000121
初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块RSAR,其中特征图通过空间回归映射网络ST,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图
Figure BDA0001932093010000122
同时长短期记忆模块负责为下一次迭代的动态定域更新策略;
具体地,空间感知定域单元502进一步包括:
特征输入单元5021,用于将全局特征嵌入单元501产生的特征图
Figure BDA0001932093010000123
初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块。
密度图编码单元5022,用于将上游多任务多层柱卷积神经网络生成的高维特征
Figure BDA0001932093010000124
深度编码为fi,以便用于后续的动态定域与策略更新。具体地,密度图编码单元5022以全局特征嵌入单元501产生的初始人群密度图M0,将其输入到一个全连接层进行编码,结合一个长短期记忆模块,该模块用于记录过往迭代更新中所有密度图的信息以及获得这些更新所施予的相关操作,其公式如下:
ci,hi=LSTM(ci,hi,FC512(Mi-1))
其中ci,hi是第i次迭代时的存储单元和隐藏状态,FC是维度为512维的全连接层,最后,ci,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,LSTM代表长短期记忆模块,长短期记忆模块用于记录过往迭代更新中所有密度图的信息以及获得这些更新所施予的相关操作。
动态定域单元5023,用于接收经深度编码后的特征fi及用于空间映射回归的变换矩阵Ti,动态地选取特定区域并进行自适应矫正,生成矫正后的局部密度图
Figure BDA0001932093010000125
全局特征抽取单元503,用于将所述图像的全图密度等级信息g进行整合,重塑密度等级图
Figure BDA0001932093010000126
为后续的局部细化做准备。具体地,全局特征抽取单元503将密度等级信息g连续输入到两个全连接层编码,前者的神经元个数为256,后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量,对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图
Figure BDA0001932093010000131
(即密度等级图
Figure BDA0001932093010000132
)
局部细化单元504,用于整合空间感知定域单元502生成的局部密度图
Figure BDA0001932093010000133
与全局特征抽取单元503重塑的密度等级图
Figure BDA0001932093010000134
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN,利用局部细化网络LRN重点调整输入区域的密度分布,对其施以空间感知定域单元502中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图。具体地说,局部细化单元504将空间感知定域单元502生成的局部密度分布图
Figure BDA0001932093010000135
与全局特征抽取单元503的密度等级图
Figure BDA0001932093010000136
沿通道维度连接,从而整合局部与全局信息,然后将矫正后的局部密度图
Figure BDA0001932093010000137
与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN。局部细化网络LRN由三列全卷积神经网络构成,它以局部密度图
Figure BDA0001932093010000138
与密度等级图
Figure BDA0001932093010000139
的堆叠作为输入,然后计算经过空间感知模块动态选择的区域的密度残差,最后通过将逆变换Ti -1后的密度残差图添加到上一次迭代得到的密度图Mi-1中,得到一个新的经过细化的人群密度分布图Mi
在本发明具体实施例中,将密度等级信息g连续输入到两个全连接层编码,前者的神经元个数为256,后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量,对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图
Figure BDA00019320930100001310
(密度等级图
Figure BDA00019320930100001311
),随后整合局部密度图
Figure BDA00019320930100001313
与密度等级图
Figure BDA00019320930100001312
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络LRN,局部细化网络LRN利用一个对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以空间感知定域单元502中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
迭代训练单元505,用于多次迭代式地进行空间感知定域单元502、全局特征抽取单元503以及局部细化单元504的训练过程,最终获得经过精细化后的人群密度图,其中每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
较佳地,迭代训练单元504在每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样,其权值由估计值与真实值的欧氏距离的平方成正比。
综上所述,本发明一种基于空间感知的注意力细化框架的人群计数及系统通过将目标图片及其作为监督信息的密度标注图输入后,训练多任务的多层柱卷积神经网络生成与之对应的高维特征图、初始的人群密度图以及全局的密度等级信息,然后输入至一个可迭代的空间感知细化模块,以空间感知的方式对人群密度图动态定域,并将该区域转化为合适的尺度和姿态,生成矫正后的局部密度图,同时长短期记忆模块负责为下一次迭代的动态定域更新策略,再将经矫正后的局部密度图与全图密度等级信息输入到下游的局部细化网络进而改善局部区域的密度分布,以生成新的人群密度图,通过反复迭代上述步骤得到最终细化后的人群密度图,本发明有效地融合了全局信息与局部信息,在迭代优化过程中可根据特征动态定域,并自适应地矫正该区域的尺度和面内外偏转,使得无需对密度的标注生成做特殊处理,最终的性能及效率超过了所有现有的人群计数方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (8)

1.一种基于空间感知的注意力细化框架的人群计数方法,包括如下步骤:
步骤S1,利用卷积神经网络产生所有训练图像的特征图
Figure FDA0004023450400000011
初始人群密度图M0及密度等级信息g;
步骤S2,将步骤S1产生的特征图
Figure FDA0004023450400000012
初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图
Figure FDA0004023450400000013
并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
步骤S3,对密度等级信息g进行编码以生成密度等级图
Figure FDA0004023450400000014
整合局部密度图
Figure FDA0004023450400000015
与密度等级图
Figure FDA0004023450400000016
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络;
步骤S4,利用局部细化网络重点调整输入区域的密度分布,对其施以步骤S2中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
步骤S5,多次迭代式地进行步骤S2-S4的训练过程,最终获得经过精细化后的人群密度图;
步骤S2进一步包括:
以步骤S1产生的特征图
Figure FDA0004023450400000017
初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块;
以步骤S1产生的初始人群密度图M0,将其输入到一全连接层进行编码,结合一个长短期记忆模块,再经过一个全连接层得到用于空间映射回归的变换矩阵Ti,空间映射回归网络ST通过变换矩阵Ti进一步处理特征图
Figure FDA0004023450400000018
从而获得经过矫正的局部密度分布图
Figure FDA0004023450400000019
所述长短期记忆模块负责为下一次迭代的动态定域更新策略。
2.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,于步骤S5后,还包括如下步骤:
于每个训练样本迭代完成后,根据最后密度图生成的优劣,对训练样本进行带权的重采样。
3.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,步骤S1进一步包括:
选择含有人群标注的数据集作为模型监督学习的训练数据;
利用多任务的多层柱卷积神经网络为所有训练样本产生所有训练图像的特征图
Figure FDA0004023450400000026
初始人群密度图M0及密度等级信息g。
4.如权利要求3所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于:于所述多任务的多层柱卷积神经网络中,包括三列层柱子网络,每列层柱子网络都由七个滤波核不同的、通道数不同的卷积层以及三个最大池化层连接堆叠而成,每一个子网络接收同一尺度的图像输入,输出具有不同感受野的高维特征
Figure FDA0004023450400000021
在对每一个子网络提取的特征在顶层进行特征连接后,分别再使用滤波核大小为1×1的卷积层,一路直接生成初始人群密度分布图M0,另一路输入softmax层产生密度等级信息图g。
5.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,步骤S3进一步包括:
将全图密度等级信息g经过两个全连接层进行编码后,重塑为大小为W*H的密度等级图
Figure FDA0004023450400000022
将步骤S2生成的局部密度分布图
Figure FDA0004023450400000023
与所述密度等级图
Figure FDA0004023450400000024
沿通道维度连接,从而整合局部与全局信息;
将矫正后的局部密度图
Figure FDA0004023450400000025
与全图密度等级信息g分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络。
6.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于,于步骤S4中,所述局部细化网络利用一对称的全卷积神经网络,将包含了局部信息与全局信息的特征进行进一步处理,再施以步骤S2中的逆向空间回归映射Ti -1,生成一个残差形式的模板,最后以像素层面的按位相加形式对上一轮迭代生成的密度图Mi-1进行修正。
7.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法,其特征在于:于步骤S5中,每一轮经迭代细化后的密度图Mi都将作为可迭代的空间感知细化模块的下一轮迭代的输入,根据长短期记忆模块的策略进一步进行细化。
8.一种基于空间感知的注意力细化框架的人群计数系统,包括:
全局特征嵌入单元,用于利用卷积神经网络产生所有训练图像的特征图
Figure FDA0004023450400000031
初始人群密度图M0及密度等级信息g;
空间感知定域单元,用于将全局特征嵌入单元产生的特征图
Figure FDA0004023450400000032
初始人群密度图M0及密度等级信息g输入至一个可迭代的空间感知细化模块,利用空间回归映射网络以空间感知的方式对人群密度图动态定域,生成矫正后的局部密度图
Figure FDA0004023450400000033
并结合长短期记忆模块负责为下一次迭代的动态定域更新策略;
全局特征抽取单元,用于将所述图像的全图密度等级信息g进行整合,重塑密度等级图
Figure FDA0004023450400000034
为后续的局部细化做准备;
局部细化单元,用于整合所述空间感知定域单元生成的局部密度图
Figure FDA0004023450400000035
与全局特征抽取单元重塑的密度等级图
Figure FDA0004023450400000036
分别作为每轮迭代的局部与全局信息,输入到下游的局部细化网络,利用局部细化网络重点调整输入区域的密度分布,对其施以所述空间感知定域单元中的逆向空间回归映射,最后以残差学习的方式更新生成人群密度图;
迭代训练单元,用于多次迭代式地进行空间感知定域单元、全局特征抽取单元以及局部细化单元的训练过程,最终获得经过精细化后的人群密度图;
所述空间感知定域单元包括:
特征输入单元,用于将所述全局特征嵌入单元产生的特征图
Figure FDA0004023450400000037
初始人群密度图M0及密度等级信息g,输入到下层的可迭代的空间感知细化模块;
密度图编码单元,用于将上游多任务多层柱卷积神经网络生成的高维特征
Figure FDA0004023450400000038
深度编码为fi,并得到用于空间映射回归的变换矩阵Ti
动态定域单元,用于接收经深度编码后的特征fi及用于空间映射回归的变换矩阵Ti,动态地选取特定区域并进行自适应矫正,生成矫正后的局部密度图
Figure FDA0004023450400000041
CN201811646126.0A 2018-06-15 2018-12-29 基于空间感知的注意力细化框架的人群计数方法及系统 Active CN109558862B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810621411 2018-06-15
CN2018106214110 2018-06-15

Publications (2)

Publication Number Publication Date
CN109558862A CN109558862A (zh) 2019-04-02
CN109558862B true CN109558862B (zh) 2023-04-07

Family

ID=65872223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646126.0A Active CN109558862B (zh) 2018-06-15 2018-12-29 基于空间感知的注意力细化框架的人群计数方法及系统

Country Status (1)

Country Link
CN (1) CN109558862B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705340B (zh) * 2019-08-12 2023-12-26 广东石油化工学院 一种基于注意力神经网络场的人群计数方法
CN110610143B (zh) * 2019-08-27 2023-05-12 汇纳科技股份有限公司 多任务联合训练的人群计数网络方法、系统、介质及终端
JP7118934B2 (ja) * 2019-09-04 2022-08-16 株式会社東芝 物体数推定装置、物体数推定方法、および物体数推定プログラム
CN110781845B (zh) * 2019-10-29 2023-04-07 北京迈格威科技有限公司 基于图像统计目标对象的方法、装置和电子系统
CN110874573B (zh) * 2019-10-30 2022-05-13 汇纳科技股份有限公司 基于残差运算的密度图产生方法、装置、电子终端及介质
CN111062274B (zh) * 2019-12-02 2023-11-28 汇纳科技股份有限公司 上下文感知嵌入的人群计数方法、系统、介质及电子设备
CN111325108B (zh) * 2020-01-22 2023-05-26 中能国际高新科技研究院有限公司 一种多任务网络模型及使用方法、装置、和存储介质
CN111611878B (zh) * 2020-04-30 2022-07-22 杭州电子科技大学 一种基于视频图像的人群计数和未来人流量预测的方法
CN111832414B (zh) * 2020-06-09 2021-05-14 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN113762009B (zh) * 2020-11-18 2023-06-16 四川大学 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN117409372A (zh) * 2023-12-13 2024-01-16 深圳须弥云图空间科技有限公司 一种基于全局与局部密度融合的密集人群计数方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326937A (zh) * 2016-08-31 2017-01-11 郑州金惠计算机系统工程有限公司 基于卷积神经网络的人群密度分布估计方法
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN107967451A (zh) * 2017-11-23 2018-04-27 常州大学 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326937A (zh) * 2016-08-31 2017-01-11 郑州金惠计算机系统工程有限公司 基于卷积神经网络的人群密度分布估计方法
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN107967451A (zh) * 2017-11-23 2018-04-27 常州大学 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras;Shanghang Zhang等;《arXiv》;20170801;第1-10页 *
Single-Image Crowd Counting via Multi-Column Convolutional Neural Network;Yingying Zhang等;《IEEE》;20161231;第589-597页 *
Spatial Transformer Networks;Max Jaderberg等;《arXiv》;20160204;第1-15页 *
Spatiotemporal Modeling for Crowd Counting in Videos;Feng Xiong等;《IEEE》;20171231;第5151-5159页 *

Also Published As

Publication number Publication date
CN109558862A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109558862B (zh) 基于空间感知的注意力细化框架的人群计数方法及系统
Ma et al. Multi-scale point-wise convolutional neural networks for 3D object segmentation from LiDAR point clouds in large-scale environments
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN112488210A (zh) 一种基于图卷积神经网络的三维点云自动分类方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN111401436A (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
JP7439153B2 (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
Li et al. Face sketch synthesis using regularized broad learning system
CN113283525A (zh) 一种基于深度学习的图像匹配方法
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
Le et al. A comprehensive review of recent deep learning techniques for human activity recognition
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
JP2024026745A (ja) 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用
CN112183450A (zh) 一种多目标跟踪方法
CN109658508B (zh) 一种多尺度细节融合的地形合成方法
CN113516693B (zh) 一种快速通用的图像配准方法
CN114550014A (zh) 道路分割方法及计算机装置
CN114240811A (zh) 一种基于多张图像生成新图像的方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN115620403A (zh) 活体检测方法、电子设备及存储介质
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN115272696A (zh) 一种基于自适应卷积和局部几何信息的点云语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220325

Address after: 511455 No. 106, Fengze East Road, Nansha District, Guangzhou City, Guangdong Province (self compiled Building 1) x1301-b013290

Applicant after: Guangzhou wisdom Technology (Guangzhou) Co.,Ltd.

Address before: 511400 room 210-5, building 1, Chuangqi, No. 63, Chuangqi Road, Shilou Town, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU SHENYU INFORMATION TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant