CN109558862A

CN109558862A - 基于空间感知的注意力细化框架的人群计数方法及系统

Info

Publication number: CN109558862A
Application number: CN201811646126.0A
Authority: CN
Inventors: 林倞; 李冠彬; 刘凌波; 王青
Original assignee: Guangzhou Deep Domain Mdt Infotech Ltd
Current assignee: Guangzhou Wisdom Technology Guangzhou Co ltd
Priority date: 2018-06-15
Filing date: 2018-12-29
Publication date: 2019-04-02
Anticipated expiration: 2038-12-29
Also published as: CN109558862B

Abstract

本发明公开了一种基于空间感知的注意力细化框架的人群计数方法及系统，该方法包括：利用卷积神经网络产生所有训练图像的特征图、初始人群密度图及密度等级信息；将上述信息输入至可迭代的空间感知细化模块，利用空间回归映射网络以空间感知的方式对人群密度图动态定域，生成矫正后的局部密度图，并结合长短期记忆模块为下一次迭代的动态定域更新策略；对密度等级信息进行编码生成密度等级图，整合局部密度图与密度等级图，分别作为每轮迭代的局部与全局信息，输入到局部细化网络；局部细化网络调整输入区域的密度分布，对其施以逆向空间回归映射，并以残差学习方式更新生成人群密度图；多次迭代式地进行前述训练过程，获得精细化后的人群密度图。

Description

基于空间感知的注意力细化框架的人群计数方法及系统

技术领域

本发明涉及基于深度学习的计算机视觉领域，特别是涉及一种基于空间感知的注意力细化框架的人群计数方法及系统。

背景技术

人群计数问题旨在对场景中人群的数量及区域密度进行分析。近年来，由于深度学习方法在计算机视觉领域大放异彩，在数据和算法的共同推动下，人群计数问题凭借其广泛的应用前景及学科探索性，吸引了越来越多研究者的关注。

早年的许多方法大多是基于行人检测的框架，通过先检测后计数的思想完成人群计数任务，这类方法一般通过分析行人外观轮廓与运动定式或是提取图像多个单元区域的纹理特征(如LBP，HoG等)，结合分类器(如SVM，Adaboost等)或概率统计的方法实现人数统计。如F.Wang等人在2010年的研究工作“Robust and efficient fragments-basedtracking using mean shift(IJEC)”。然而，该类方法难以适用于人群稠密场景下的分析。

而近年来，许多研究人员逐步开始将深度学习技术运用到人群计数任务中，而基于深度学习的方法大大改善了严重遮挡和高聚集现象带来的问题。如Sam等人于2017年的研究工作“Switching Convolutional Neural Network for Crowd Counting(CVPR)”以及Sindagi等人于同年发表的研究工作“Generating High-Quality Crowd Density MapsUsing Contextual Pyramid CNNs(ICCV)”

现有的大多数深度模型的成功源于它们正确处理了不同图片中因不同尺度的行人带来的不利影响或是通过划分区域对局部人流密集度能进行有效建模。然而，这些方法无一例外的是通过暴力枚举不同感受野大小的卷积核用以处理整幅图像或多个区域，最后整合每个子网络的结果。然而，受限于硬件资源和计算资源，这些方法无法做到穷尽所有场景；最重要的是，这些方法在设计网络结构时完全忽视了因不同场景中相机视点的不同所造成的透视扭曲现象——透视扭曲带来的人群尺度的极大差异以及面内外的位姿变形是人群计数面临的最根本的挑战。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于空间感知的注意力细化框架的人群计数方法及系统，其通过反复审视自身提取的高层抽象特征和全局密度等级信息，自适应地对初始输入的人群密度图的局部区域做选择，然后以残差学习的方式对其进行反复细化。在每一次选择时，结构中的空间变换模块能自适应地根据场景的拥挤程度，对关注的区域进行透视纠正。

为达上述及其它目的，本发明提出一种基于空间感知的注意力细化框架的人群计数方法，包括如下步骤：

步骤S1，利用卷积神经网络产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g；

步骤S2，将步骤S1产生的特征图初始人群密度图M₀及密度等级信息g输入至一个可迭代的空间感知细化模块，利用空间回归映射网络以空间感知的方式对人群密度图动态定域，生成矫正后的局部密度图并结合长短期记忆模块负责为下一次迭代的动态定域更新策略；

步骤S3，对密度等级信息g进行编码以生成密度等级图整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络；

步骤S4，利用局部细化网络重点调整输入区域的密度分布，对其施以步骤S2中的逆向空间回归映射，最后以残差学习的方式更新生成人群密度图；

步骤S5，多次迭代式地进行步骤S2-S4的训练过程，最终获得经过精细化后的人群密度图。

优选地，于步骤S5后，还包括如下步骤：

于每个训练样本迭代完成后，根据最后密度图生成的优劣，对训练样本进行带权的重采样。

优选地，步骤S1进一步包括：

选择含有人群标注的数据集作为模型监督学习的训练数据；

利用多任务的多层柱卷积神经网络为所有训练样本产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。

优选地，于所述多任务的多层柱卷积神经网络中，包括三列层柱子网络，每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成，每一个子网络接收同一尺度的图像输入，输出具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后，分别再使用滤波核大小为1×1的卷积层，一路直接生成初始人群密度分布图M₀，另一路输入softmax层产生密度等级信息图g。

优选地，步骤S2进一步包括：

以步骤S1产生的特征图初始人群密度图M₀及密度等级信息g，输入到下层的可迭代的空间感知细化模块。

以步骤S1产生的初始人群密度图M₀，将其输入到一全连接层进行编码，结合一个长短期记忆模块，再经过一个全连接层得到用于空间映射回归的变换矩阵T_i，空间映射回归网络ST通过变换矩阵T_i进一步处理特征图从而获得经过矫正的局部密度分布图所述长短期记忆模块负责为下一次迭代的动态定域更新策略。

优选地，步骤S3进一步包括：

将全图密度等级信息g经过两个全连接层进行编码后，重塑为大小为W*H的密度等级图

将步骤S2生成的局部密度分布图与所述密度等级图沿通道维度连接，从而整合局部与全局信息；

将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络.

优选地，于步骤S4中，所述局部细化网络利用一对称的全卷积神经网络，将包含了局部信息与全局信息的特征进行进一步处理，再施以步骤S2中的逆向空间回归映射T_i ^-1，生成一个残差形式的模板，最后以像素层面的按位相加形式对上一轮迭代生成的密度图M_i-1进行修正。

优选地，于步骤S5中，每一轮经迭代细化后的密度图M_i都将作为可迭代的空间感知细化模块的下一轮迭代的输入，根据长短期记忆模块的策略进一步进行细化。

为达到上述目的，本发明还提供一种基于空间感知的注意力细化框架的人群计数系统，包括：

全局特征嵌入单元，用于利用卷积神经网络产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g；

空间感知定域单元，用于将全局特征嵌入单元产生的特征图初始人群密度图M₀及密度等级信息g输入至一个可迭代的空间感知细化模块，利用空间回归映射网络以空间感知的方式对人群密度图动态定域，生成矫正后的局部密度图并结合长短期记忆模块负责为下一次迭代的动态定域更新策略；

全局特征抽取单元，用于将所述图像的全图密度等级信息g进行整合，重塑密度等级图为后续的局部细化做准备；

局部细化单元，用于整合所述空间感知定域单元生成的局部密度图与全局特征抽取单元重塑的密度等级图分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络，利用局部细化网络重点调整输入区域的密度分布，对其施以所述空间感知定域单元中的逆向空间回归映射，最后以残差学习的方式更新生成人群密度图；

迭代训练单元，用于多次迭代式地进行空间感知定域单元、全局特征抽取单元以及局部细化单元的训练过程，最终获得经过精细化后的人群密度图。

优选地，所述空间感知定域单元包括：

特征输入单元,用于将所述全局特征嵌入单元产生的特征图初始人群密度图M₀及密度等级信息g，输入到下层的可迭代的空间感知细化模块。

密度图编码单元，用于将上游多任务多层柱卷积神经网络生成的高维特征深度编码为f_i，并得到用于空间映射回归的变换矩阵T_i；

动态定域单元，用于接收经深度编码后的特征f_i及用于空间映射回归的变换矩阵T_i，动态地选取特定区域并进行自适应矫正，生成矫正后的局部密度图

与现有技术相比，本发明一种基于空间感知的注意力细化框架的人群计数及系统通过将目标图片及其作为监督信息的密度标注图输入后，训练多任务的多层柱卷积神经网络生成与之对应的高维特征图、初始的人群密度图以及全局的密度等级信息，然后输入至一个可迭代的空间感知细化模块，以空间感知的方式对人群密度图动态定域，并将该区域转化为合适的尺度和姿态，生成矫正后的局部密度图，同时长短期记忆模块负责为下一次迭代的动态定域更新策略，再将经矫正后的局部密度图与全图密度等级信息输入到下游的局部细化网络进而改善局部区域的密度分布，以生成新的人群密度图，通过反复迭代上述步骤得到最终细化后的人群密度图，本发明有效地融合了全局信息与局部信息，在迭代优化过程中可根据特征动态定域，并自适应地矫正该区域的尺度和面内外偏转，使得无需对密度的标注生成做特殊处理，最终的性能及效率超过了所有现有的人群计数方法。

附图说明

图1为本发明一种基于空间感知的注意力细化框架的人群计数方法的步骤流程图；

图2为本发明具体实施例中多任务的多层柱卷积神经网络的结构图；

图3为本发明具体实施例中局部细化网络结构图；

图4为本发明具体实施例中迭代式训练过程的示意图；

图5为本发明一种基于空间感知的注意力细化框架的人群计数系统的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于空间感知的注意力细化框架的人群计数方法的步骤流程图。如图1所示，本发明一种基于空间感知的注意力细化框架的人群计数方法，包括如下步骤：

步骤S1，利用卷积神经网络产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。

在本发明具体实施例中，于步骤S1中，采用多任务的多层柱卷积神经网络产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。具体地，步骤S1进一步包括如下步骤：

步骤S100，选择含有图像密度标注的数据集作为模型监督学习的训练数据；

步骤S101，采用三个具有不同感受野的卷积神经网络，产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。

图2为本发明具体实施例中多任务的多层柱卷积神经网络GFM的结构图。在本发明具体实施例中，三个层柱的卷积神经网络的核各不相同，如图2所示，该多层柱卷积神经网络由三列层柱子网络构成，每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成，每一个子网络接收同一尺度的图像输入I后，GFM模块的三个层柱子网络会同时提取其特征，由于每列卷积核大小和通道数各不相同，每列的输出分别具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后，分别再使用滤波核大小为1×1的卷积层(图中未示出)生成两路输出。一路直接生成初始人群密度分布图M₀，另一路输入softmax层产生密度等级信息图g，前者采用按位的欧氏距离监督，后者采用交叉熵损失监督。在本发明具体实施例中，选取152层的残差网络作为密度等级的分类模型，上述过程的公式化表述如下：

g＝GFM(I)

M₀＝Conv_1×1(g)

其中，Conv_1×1代表1×1的卷积操作，GFM代表多任务的多层柱卷积神经网络，I代表输入图像。

步骤S2，将步骤S1产生的特征图初始人群密度图M₀及密度等级信息g输入至一个可迭代的空间感知细化模块RSAR，其中特征图通过空间回归映射网络ST，以空间感知的方式对人群密度图动态定域，并将该区域转化为合适的尺度和姿态，生成矫正后的局部密度图同时长短期记忆模块负责为下一次迭代的动态定域更新策略；

具体地，步骤S2进一步包括：

步骤S200,以步骤S1产生的特征图初始人群密度图M₀及密度等级信息g，输入到下层的可迭代的空间感知细化模块。

步骤S201，以步骤S1产生的初始人群密度图M₀，将其输入到一个全连接层进行编码，结合一个长短期记忆模块，再经过一个全连接层得到用于空间映射回归的变换矩阵T_i，空间映射回归网络ST通过变换矩阵T_i进一步处理特征图从而获得经过矫正的局部密度分布图

步骤S3，对密度等级信息g进行编码以生成密度等级图整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络LRN。

具体地，步骤S3进一步包括：

步骤S300，将全图密度等级信息g经过两个全连接层进行编码后，重塑为大小为W*H的密度等级图

步骤S301，将步骤S2生成的局部密度分布图与步骤300中的密度等级图沿通道维度连接，从而整合局部与全局信息。

步骤S302，将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络LRN。具体地说，将密度等级信息g连续输入到两个全连接层编码，前者的神经元个数为256，后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量，对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图(密度等级图)，随后整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络LRN。

对于空间变换模块ST，参考Jaderberg等人的论文“Spatial TransformerNetworks”(Conference and Workshop on Neural Information Processing Systemspages 2921–2929,2015)，该模块能够通过特定的输入将特征进行转换，使得网络在前向传播时变得可微。

该阶段主要是输入一张特征图，根据特征图生成一张关于空间映射的参数列表θ，该映射将直接作用于特征图本身。假设输入特征其中W、H、C分别为特征图的长度、高度及通道数，映射回归有以下计算公式可得到：

假设源图像U的每个像素的坐标为目标图像V的每个像素坐标为则可以这样理解目标图像V：目标图像V的每个像素实际上都是源图像U通过某种映射后落于规则网格G＝{G_i}内的，而若干个规则网格G构成了其中H′、W′分别为网格的高度与宽度。根据空间映射函数和的对应关系可以表达为下式：

其中，n、m分别为源图像和目标图像的维数，代表基于角度θ的仿射变换(Affine)，Z表示源二维坐标转变为等价的齐次坐标形式所扩展的z轴坐标(一般取z＝1)，每个θ均由上式对应生成。

在计算得到后，每一个在中的源像素点可以根据设定的采样确定在目标图像V中每个像素点的值，对于该过程可以通过如下公式计算得：

其中，k(·)为采样核(如双线性插值、立方插值等可微分的插值方法)，Φ_x和Φ_y分别为采样核k(·)的参数，为源图像位于坐标(n,m,c)的值，为目标图像位于(x,y,c)的值。

步骤S4，利用局部细化网络LRN重点调整输入区域的密度分布，对其施以步骤S2中的逆向空间回归映射，最后以残差学习的方式更新生成人群密度图。在本发明具体实施例中，局部细化网络LRN利用一个对称的全卷积神经网络，将包含了局部信息与全局信息的特征进行进一步处理，再施以步骤S2中的逆向空间回归映射T_i ^-1，生成一个残差形式的模板，最后以像素层面的按位相加形式对上一轮迭代生成的密度图M_i-1进行修正。

上述空间映射回归变换矩阵的设置即意味着允许空间映射回归自适应地对输入的高维特征施行裁剪，平移，旋转和缩放。本发明采用第i次迭代时的隐藏状态h_i并将其输入到一个全连接层，经过全连接层重新加权后的结果作为映射变换矩阵T_i的参数。最后根据映射变换矩阵T_i网络自动地从上一次迭代得到的密度图M_i-1中提取一个区域密度图r_i,上述过程可简化表述为下式：

r_i＝ST(M_i-1,T_i)

其中ST代表空间映射回归变换，r_i通过双线性插值的方式将M_i-1的大小调整到w×h。

图3为本发明具体实施例中局部细化网络结构图，具体地，局部细化网络LRN由三列全卷积神经网络构成，它以局部密度图与密度等级图的堆叠作为输入，然后计算经过空间感知模块动态选择的区域的密度残差,最后通过将逆变换后的密度残差图添加到上一次迭代得到的密度图M_i-1中，得到一个新的经过细化的人群密度分布图M_i,上述过程可用公式简述为下式概述：

M_i＝M_i-1+IST(LRN(r_i,c_g),T_i ^-1)

其中，r_i代表当前迭代时刻的特征区域，c_g为上述的全局密度等级信息g经过编码、重塑操作后的全局上下文信息图，r为转换因子，其计算公式如上，θ依其下标分别对应上述的矩阵上标i表示θ取当前迭代时刻的数值，IST为迭代细化网络根据空间映射回归模块学习到的空间映射回归变换矩阵T_i的逆变换T_i ^-1，生成的动态区域的密度残差图。

步骤S5，多次迭代式地进行步骤S2-S4的训练过程，最终获得经过精细化后的人群密度图，其中每一轮经迭代细化后的密度图M_i都将作为可迭代的空间感知细化模块的下一轮迭代的输入，根据长短期记忆模块的策略进一步进行细化。

图4为本发明具体实施例中迭代式训练过程的示意图，具体地，交替地进行步骤S2、S3、S4，直到满足设定的停止条件时停止整个模型的训练。

较佳地，于步骤S5后，本发明之基于空间感知的注意力细化框架的人群计数方法还包括如下步骤：

在每个训练样本迭代完成后，根据最后密度图生成的优劣，对训练样本进行带权的重采样，其权值由估计值与真实值的欧氏距离的平方成正比。

图5为本发明一种基于空间感知的注意力细化框架的人群计数系统的系统架构图。如图5所示，本发明一种基于空间感知的注意力细化框架的人群计数系统，包括：

全局特征嵌入单元501，用于利用卷积神经网络产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。

在本发明具体实施例中，全局特征嵌入单元501采用多任务的多层柱卷积神经网络产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。具体地，全局特征嵌入单元501进一步包括：

训练数据选择单元，用于选择含有图像密度标注的数据集作为模型监督学习的训练数据；

特征产生单元，用于采用三个具有不同感受野的卷积神经网络，产生所有训练图像的特征图初始人群密度图M₀及密度等级信息g。在本发明具体实施例中，三个层柱的卷积神经网络的核各不相同，每一个子网络接收同一尺度的图像输入，输出具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后，分别再使用滤波核大小为1×1的卷积层，一路直接生成初始人群密度分布图M₀，另一路输入softmax层产生密度等级信息图g，前者采用按位的欧氏距离监督，后者采用交叉熵损失监督。

空间感知定域单元502，用于将全局特征嵌入单元501产生的特征图初始人群密度图M₀及密度等级信息g输入至一个可迭代的空间感知细化模块RSAR，其中特征图通过空间回归映射网络ST，以空间感知的方式对人群密度图动态定域，并将该区域转化为合适的尺度和姿态，生成矫正后的局部密度图同时长短期记忆模块负责为下一次迭代的动态定域更新策略；

具体地，空间感知定域单元502进一步包括：

特征输入单元5021,用于将全局特征嵌入单元501产生的特征图初始人群密度图M₀及密度等级信息g，输入到下层的可迭代的空间感知细化模块。

密度图编码单元5022，用于将上游多任务多层柱卷积神经网络生成的高维特征深度编码为f_i，以便用于后续的动态定域与策略更新。具体地，密度图编码单元5022以全局特征嵌入单元501产生的初始人群密度图M₀，将其输入到一个全连接层进行编码，结合一个长短期记忆模块，该模块用于记录过往迭代更新中所有密度图的信息以及获得这些更新所施予的相关操作，其公式如下：

c_i，h_i＝LSTM(c_i，h_i，FC₅₁₂(M_i-1))

其中c_i，h_i是第i次迭代时的存储单元和隐藏状态，FC是维度为512维的全连接层，最后，c_i，再经过一个全连接层得到用于空间映射回归的变换矩阵T_i，LSTM代表长短期记忆模块，长短期记忆模块用于记录过往迭代更新中所有密度图的信息以及获得这些更新所施予的相关操作。

动态定域单元5023，用于接收经深度编码后的特征f_i及用于空间映射回归的变换矩阵T_i，动态地选取特定区域并进行自适应矫正，生成矫正后的局部密度图

全局特征抽取单元503，用于将所述图像的全图密度等级信息g进行整合，重塑密度等级图为后续的局部细化做准备。具体地，全局特征抽取单元503将密度等级信息g连续输入到两个全连接层编码，前者的神经元个数为256，后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量，对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图(即密度等级图)

局部细化单元504，用于整合空间感知定域单元502生成的局部密度图与全局特征抽取单元503重塑的密度等级图分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络LRN，利用局部细化网络LRN重点调整输入区域的密度分布，对其施以空间感知定域单元502中的逆向空间回归映射，最后以残差学习的方式更新生成人群密度图。具体地说，局部细化单元504将空间感知定域单元502生成的局部密度分布图与全局特征抽取单元503的密度等级图沿通道维度连接，从而整合局部与全局信息，然后将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络LRN。局部细化网络LRN由三列全卷积神经网络构成，它以局部密度图与密度等级图的堆叠作为输入，然后计算经过空间感知模块动态选择的区域的密度残差，最后通过将逆变换T_i ^-1后的密度残差图添加到上一次迭代得到的密度图M_i-1中，得到一个新的经过细化的人群密度分布图M_i。

在本发明具体实施例中，将密度等级信息g连续输入到两个全连接层编码，前者的神经元个数为256，后者的神经元个数为w×h。当密度等级信息g通过两个全连接层处理后输出一个长度为w×h的向量，对其进行重塑操作使得其张成尺寸为w×h的新张量来构造全局上下文信息图(密度等级图)，随后整合局部密度图与密度等级图分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络LRN，局部细化网络LRN利用一个对称的全卷积神经网络，将包含了局部信息与全局信息的特征进行进一步处理，再施以空间感知定域单元502中的逆向空间回归映射T_i ^-1，生成一个残差形式的模板，最后以像素层面的按位相加形式对上一轮迭代生成的密度图M_i-1进行修正。

迭代训练单元505，用于多次迭代式地进行空间感知定域单元502、全局特征抽取单元503以及局部细化单元504的训练过程，最终获得经过精细化后的人群密度图，其中每一轮经迭代细化后的密度图M_i都将作为可迭代的空间感知细化模块的下一轮迭代的输入，根据长短期记忆模块的策略进一步进行细化。

较佳地，迭代训练单元504在每个训练样本迭代完成后，根据最后密度图生成的优劣，对训练样本进行带权的重采样，其权值由估计值与真实值的欧氏距离的平方成正比。

综上所述，本发明一种基于空间感知的注意力细化框架的人群计数及系统通过将目标图片及其作为监督信息的密度标注图输入后，训练多任务的多层柱卷积神经网络生成与之对应的高维特征图、初始的人群密度图以及全局的密度等级信息，然后输入至一个可迭代的空间感知细化模块，以空间感知的方式对人群密度图动态定域，并将该区域转化为合适的尺度和姿态，生成矫正后的局部密度图，同时长短期记忆模块负责为下一次迭代的动态定域更新策略，再将经矫正后的局部密度图与全图密度等级信息输入到下游的局部细化网络进而改善局部区域的密度分布，以生成新的人群密度图，通过反复迭代上述步骤得到最终细化后的人群密度图，本发明有效地融合了全局信息与局部信息，在迭代优化过程中可根据特征动态定域，并自适应地矫正该区域的尺度和面内外偏转，使得无需对密度的标注生成做特殊处理，最终的性能及效率超过了所有现有的人群计数方法。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于空间感知的注意力细化框架的人群计数方法，包括如下步骤：

2.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于，于步骤S5后，还包括如下步骤：

3.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于，步骤S1进一步包括：

选择含有人群标注的数据集作为模型监督学习的训练数据；

4.如权利要求2所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于：于所述多任务的多层柱卷积神经网络中，包括三列层柱子网络，每列层柱子网络由都由七个滤波核不同的、通道数不同的卷积层以及三个最大池层连接堆叠而成，每一个子网络接收同一尺度的图像输入，输出具有不同感受野的高维特征在对每一个子网络提取的特征在顶层进行特征连接后，分别再使用滤波核大小为1×1的卷积层，一路直接生成初始人群密度分布图M₀，另一路输入softmax层产生密度等级信息图g。

5.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于，步骤S2进一步包括：

以步骤S1产生的初始人群密度图₀，将其输入到一全连接层进行编码，结合一个长短期记忆模块，再经过一个全连接层得到用于空间映射回归的变换矩阵T_i，空间映射回归网络ST通过变换矩阵T_i进一步处理特征图从而获得经过矫正的局部密度分布图所述长短期记忆模块负责为下一次迭代的动态定域更新策略。

6.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于，步骤S3进一步包括：

将矫正后的局部密度图与全图密度等级信息g分别作为每轮迭代的局部与全局信息，输入到下游的局部细化网络。

7.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于，于步骤S4中，所述局部细化网络利用一对称的全卷积神经网络，将包含了局部信息与全局信息的特征进行进一步处理，再施以步骤S2中的逆向空间回归映射T_i ^-1，生成一个残差形式的模板，最后以像素层面的按位相加形式对上一轮迭代生成的密度图M_i-1进行修正。

8.如权利要求1所述的一种基于空间感知的注意力细化框架的人群计数方法，其特征在于：于步骤S5中，每一轮经迭代细化后的密度图M_i都将作为可迭代的空间感知细化模块的下一轮迭代的输入，根据长短期记忆模块的策略进一步进行细化。

9.一种基于空间感知的注意力细化框架的人群计数系统，包括：

10.如权利要求9所述的一种基于空间感知的注意力细化框架的人群计数系统，其特征在于，所述空间感知定域单元包括：