CN111062274B

CN111062274B - 上下文感知嵌入的人群计数方法、系统、介质及电子设备

Info

Publication number: CN111062274B
Application number: CN201911214305.1A
Authority: CN
Inventors: 袁德胜; 王作辉; 张宏俊; 王海涛; 姚磊; 杨进参; 游浩泉; 刘耀文; 吴贺丰
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2023-11-28
Anticipated expiration: 2039-12-02
Also published as: CN111062274A

Abstract

本发明提出一种上下文感知嵌入的人群计数方法、系统、介质及电子设备，其中，上下文感知嵌入网络主要用于提取图像的低层空间特征，把图像分割成超像素，融合图像分割成超像素的结果和低层空间特征的提取的结果，并能够提取特征的全局关联，以最后产生密度图。本发明采用的超像素网络，利用像素之间特征的相似性将像素分组，用少量超像素代替大量的像素来表示图片特征，大幅降低了复杂度。且本发明采用的上下文感知嵌入网络能够提取特征图上任意两点特征之间的全局关联，来增强特征的表达能力，在处理复杂多样的场景时，可以很好地处理拥挤场景中复杂的人群分布情况，避免一些误差，减少错误影响，以便更好统计人群总数。

Description

上下文感知嵌入的人群计数方法、系统、介质及电子设备

技术领域

本发明涉及图像处理领域，特别是涉及一种上下文感知嵌入的人群计数方法、系统、介质及电子设备。

背景技术

随着城市人口的日益增长，在地铁站，商场，各种节日集会中，超额聚集的人群带来潜在危险，极容易造成踩踏、骚乱等悲剧。近年来，人群计数和人群的密度分布估计成为安防领域的热门课题，同时人群计数的算法性能在与深度学习的结合下得到了很大的提升。因此，人群计数和人群密度估计有着重要研究价值。

人群计数的目的是找出特定场景中的人数，而人群密度分布估计需要获取空间密度信息和人数(密度图求和)。人群计数的难点在于，场景的变化跨度大，目标的尺度变化不尽相同，人和人、人和景物之间存在不同程度的遮挡等等。而且对高密度的人群图像来说，随着人群密度的提升，人群遮挡越来越严重。

近年来，众多使用深度学习的人群方法被提出。深度学习(Deep Learning，DL)根据图像块的内容信息来设计神经网络进行估算人群总数，无需对图片进行前景分割等预处理，无需人工设计和提取特征，可以输出不同大小的图像，网络可以实现端到端的训练，可以交替回归图像块的人群密度和人群总数来实现人数估计。

以下是一些常见的深度学习驱动的人群计数方法：

2016年提出的MCNN算法，提出了一种简单有效的多列卷积神经网络结构将图像映射到其人群密度图上。这类利用多个网络的模型具有较多的参数，计算量大，无法进行实时的人群计数预测。而且多阵列的网络并不能如所描述的一般，提取不同的人头特征。有很多低效的分支结构。

2017年提出的Switch-CNN同样使用了三个子网络和分类的思想，让不同密度等级的图像块通过相应的子网络，则所有图像块被更准确地预测，最终，所有图像块的准确预测构成了原图准确的人群估计。

实际场景中的人群，常常会出现传统人群计数问题难以解决的背景噪声，人与人之间的严重遮挡，人群密度分布不均的问题。现有技术很难针对具有较大背景噪声的人群进行人群计数和人群密度估计。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种上下文感知嵌入的人群计数方法、系统、介质及电子设备，用于解决现有技术中不能有效且准群的对人群密度进行估计的问题。

为实现上述目的及其他相关目的，本发明提供一种上下文感知嵌入的人群计数方法，包括：获取图像；提取关于所述图像的底层空间特征的初步特征图；将所述图像分割成超像素；将所述初步特征图和所述超像素进行融合；对所述融合结果进行全局关联；对所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图；将所述初步特征图和所述最终特征图进行合并以获得合并特征图；对所述合并特征图进行估计以获得关于所述图像的目标密度图。

在一些实施例中，将所述图像分割成超像素的步骤包括：步骤一：将所述图像从RGB颜色空间转换至LAB颜色空间；步骤二：设置超像素的采样步长S和数量K，且根据均匀分布的原则，分别对K个超像素对应的第一聚类中心进行初始化；其中，每个所述第一聚类中心以其周围2S×2S的空间为其搜索空间；步骤三：在所述初始化的第一聚类中心的(3×3)邻域内寻找梯度值最小的点作为第二聚类中心，以对所述第一聚类中心进行优化；步骤四：计算空间内的所有像素点与其所属搜索空间对应的第二聚类中心的距离；步骤五：计算一个超像素块内所有像素的质心，以该质心作为新的聚类中心；步骤六：重复所述步骤四和所述步骤五，直到所述新的聚类中心不再发生变化，且以该不再变化的新的聚类中心对应的图像分割结果作为最终的所述超像素；或所述步骤四和所述步骤五的重复次数达到预设的迭代次数阈值时，将达到预设的迭代次数阈值时对应的新的聚类中心对应的图像分割结果作为最终的所述超像素。

在一些实施例中，将所述初步特征图和所述超像素进行融合的步骤包括：令池化层根据最终的所述超像素对应的所述新的聚类中心，在所述初步特征图上进行平均池化；在重塑层将所述池化结果在空间上展开成一个长度为K的一维向量，以获得结果特征图。

在一些实施例中，对所述融合结果进行全局关联的步骤包括：将所述结果特征图经过卷积层降维，以获得三个相同的第一降维特征图、第二降维特征图以及第三降维特征图；将所述第一降维特征图和第二降维特征图对应的矩阵进行相乘，以获得关联强度矩阵；对所述关联强度矩阵进行归一化操作，以得到感知图；将所述感知图与所述第三降维特征图对应的矩阵相乘，且将该相乘结果与所述结果特征图对应的矩阵进行矩阵加法，以得到感知特征图。

在一些实施例中，对所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图的步骤包括：将一维的所述感知特征图转变为二维矩阵；结合所述将所述图像分割成超像素的分割结果，将所述二维矩阵转化为与所述初步特征图大小相同的最终特征图。

在一些实施例中，所述对所述合并特征图进行估计以获得关于所述图像的密度图的步骤包括：根据一个尺度为1×1的卷积层，将所述合并特征图进行降维；对降维后的所述合并特征图执行图像插值，将所述降维后的所述合并特征图的尺寸调整到与所述图像的尺寸相同，且尺寸与所述图像的尺寸相同的降维后的所述合并特征图为所述目标密度图。

在一些实施例中，根据一个尺度为1×1的卷积层，将所述合并特征图进行降维后，将所述降维结果输入Inception子网络或ResNet Block块网络。

在一些实施例中，所述将所述图像分割成超像素的步骤还包括：基于简单线性迭代聚类的算法生成进行超像素计算，以生成所述超像素。

为实现上述目的及其他相关目的，本发明还提供一种上下文感知嵌入的人群计数系统，包括：图像获取模块，用以获取图像；特征提取模块，用以提取关于所述图像的底层空间特征的初步特征图；超像素模块，用以将所述图像分割成超像素；嵌入模块，用以将所述特征提取模块提取的所述初步特征图和所述超像素模块获取的所述超像素进行融合；上下文感知计算模块，用以对所述嵌入模块的所述融合结果进行全局关联；反变换模块，用以对所述上下文感知计算模块获得的所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图；合并模块，用以将所述初步特征图和所述最终特征图进行合并以获得合并特征图；估计模块，用以对所述合并特征图进行估计以获得关于所述图像的目标密度图。

为实现上述目的及其他相关目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述上下文感知嵌入的人群计数方法。

为实现上述目的及其他相关目的，本发明还提供一种电子设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如上任一项所述上下文感知嵌入的人群计数方法。

如上所述，本发明提出一种上下文感知嵌入的人群计数方法、系统、介质及电子设备，其中，上下文感知嵌入网络主要用于提取图像的低层空间特征，把图像分割成超像素，融合图像分割成超像素的结果和低层空间特征的提取的结果，并能够提取特征的全局关联，以最后产生密度图。本发明采用的超像素网络，利用像素之间特征的相似性将像素分组，用少量超像素代替大量的像素来表示图片特征，大幅降低了复杂度。因此，它能够大幅减少计算量，提高整个网络的速度和效率，从而实时，迅速的将结果反馈给用户，能够很好地应对人群数量连续变化的情况。且本发明采用的上下文感知嵌入网络能够提取特征图上任意两点特征之间的全局关联，来增强特征的表达能力，在处理复杂多样的场景时，可以很好地处理拥挤场景中复杂的人群分布情况，避免一些误差，减少错误影响，以便更好统计人群总数。

附图说明

图1显示为本发明的上下文感知嵌入的人群计数方法在一具体实施例中的组成示意图。

图2显示为本发明一具体实施例中初步特征图和超像素融合过程示意图。

图3显示为本发明的上下文感知嵌入的人群计数系统在一具体实施例中的组成示意图。

图4显示为本发明的电子设备在一具体实施例中的组成示意图。

元件标号说明

1 上下文感知嵌入的人群计数系统

11 图像获取模块

12 特征提取模块

13 超像素模块

14 嵌入模块

15 上下文感知计算模块

16 反变换模块

17 合并模块

18 估计模块

S11～S18 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

人群计数方法广泛应用于各种各样的场合，需要面对复杂多样的场景，挑战来自于场景图像在光照、视角、尺度、遮挡、人群密度等各方面的差异，因此人群计数算法如何准确，高效的识别人群是人群计数的最大的难点。

本发明为了克服现有的人群计数的缺点，采用上下文感知嵌入网络来产生人群图像密度图，其中引入超像素分割来进行图像分割，很大程度上降低了图像后处理的复杂度。另外，本发明采用了上下文感知计算网络，其具有一种自注意力机制(Self-AttentionMechanism)，能抓取特征上下文之间的全局依赖关系，增强特征的表达能力。具体参阅以下描述。

请参阅图1，显示为本发明的上下文感知嵌入的人群计数方法在一具体实施例中的组成示意图。

所述上下文感知嵌入的人群计数方法S1包括：

S11：获取图像；

S12：提取关于所述图像的底层空间特征的初步特征图；具体的，对输入图像进行预处理，提取特征，把图像上的点划分为规则的且连续的区域。以VGG网络为模板，例如，获取的原始图像为(M×N×3)，输出的初步特征图为(m×n×C)。其中，该初步特征图的结构如以下的表1所示:

Conv-3-64-1
	Conv-3-64-1
Conv-3-64-1
	Max_Pooling
Conv-3-128-1
	Conv-3-128-1
Conv-3-128-1
	Max_Pooling
Conv-3-256-1
	Conv-3-256-1
Conv-3-256-1
	Max_Pooling
Conv-3-512-1
	Conv-3-512-1
Conv-3-512-1

表1

注：以Conv-3-256-1为例，Conv表示卷积核，3表示卷积核大小，256是通道数，1表示膨胀率。Max Pooling代表最大池化层，核大小设定为(2，2)，步长设定为2。

S13：将所述图像分割成超像素；

其中，超像素是指具有相似纹理，颜色，亮度等特征的像素构成的连续不规则像素集合。利用像素之间特征的相似性将像素聚类，因此可以用较多的超像素代替较多的原图像素来表示图片特征，既在很大程度上保留了图像原本的空间特征和信息丰富度，又减少了网络的参数量，大幅降低了上下文感知计算网络计算量。

其中，所述步骤将所述图像分割成超像素的步骤包括：

S131：将所述图像从RGB颜色空间转换至LAB颜色空间；

S132：设置超像素的采样步长S和数量K，且根据均匀分布的原则，分别对K个超像素对应的第一聚类中心进行初始化；其中，每个所述第一聚类中心以其周围2S×2S的空间为其搜索空间；

S133：在所述初始化的第一聚类中心的(3×3)邻域内寻找梯度值最小的点作为第二聚类中心，以对所述第一聚类中心进行优化；

S134：计算空间内的所有像素点与其所属搜索空间对应的第二聚类中心的距离；

S135：计算一个超像素块内所有像素的质心，以该质心作为新的聚类中心；

S136：重复所述步骤四和所述步骤五，直到所述新的聚类中心不再发生变化，且以该不再变化的新的聚类中心对应的图像分割结果作为最终的所述超像素；或所述步骤四和所述步骤五的重复次数达到预设的迭代次数阈值时，将达到预设的迭代次数阈值时对应的新的聚类中心对应的图像分割结果作为最终的所述超像素。

具体的，将原始输入图像(M×N)分割成K个不规则的，紧凑的超像素，对应的有K个聚类中心。因为在初始化时K个聚类中心在空间上均匀分布，所以超像素特征图在空间上可以标记为大小为H×W的二维矩阵(H×W＝K)，令超像素(i，j)对应第1个超像素，则i＝(1，2，...，H)，j＝(1，2，...，W)，1＝(1，2，...，K)l＝i×(j-1)+j。总之，超像素特征图是在空间上由K个超像素按照其聚类中心的顺序存储和表示的一维向量。

本实施例中，可采用SLIC(Simple Linear Iterative Clustering)，即线性迭代聚类算法来生成超像素。具体步骤如下：

①将输入图像从RGB颜色空间转换至LAB颜色空间；

②设置适当的超像素的采样步长S和数量K，利用均匀分布的思想，初始化聚类中心。输入图像大小为M×N，则分割后每块超像素平均有个像素，每个聚类中心以其周围2S×2S的空间为其搜索空间；

③优化聚类中心，为避免聚类中心落在目标边缘处的极端情况，在初始聚类中心(3×3)邻域内寻找梯度值最小的点作为新的聚类中心；

④对空间内的所有像素点，计算其与所属搜索空间对应的聚类中心的距离D′，计算方法为：

注：d_c表示颜色距离，1，a，b为LAB颜色空间的三个颜色通道；

d_s表示空间距离，x和y为像素点坐标；

D′表示总距离，N_s＝S，N_c为常数，N_c可以根据所需超像素特点调整；

⑤计算一个超像素块内所有像素的质心，以其作为新的聚类中心；

⑥重复④和⑤直到聚类中心不再变化或达到最大迭代次数。

S14：将所述初步特征图和所述超像素进行融合；

其中，将所述初步特征图和所述超像素进行融合的步骤包括：

S141：令池化层根据最终的所述超像素对应的所述新的聚类中心，在所述初步特征图上进行平均池化；

S142：在重塑层将所述池化结果在空间上展开成一个长度为K的一维向量，以获得结果特征图。

具体的，利用池化层和重塑层对所述初步特征图和所述超像素进行融合。其中，池化层根据关于超像素的聚类结果，在初步特征图(m×n×C)上进行平均池化，通道数保持不变，由超像素的(H×W)个聚类中心，得到一个空间上大小为H×W的结果，最后在重塑层将该结果在空间上展开成一个长度为K的一维向量，输出结果特征图(K×C)。具体的参阅图2，显示为本发明一具体实施例中初步特征图和超像素融合过程示意图。

S15：对所述融合结果进行全局关联；

其中，对所述融合结果进行全局关联的步骤包括：

S151：将所述结果特征图经过卷积层降维，以获得三个相同的第一降维特征图、第二降维特征图以及第三降维特征图；

S152：将所述第一降维特征图和第二降维特征图对应的矩阵进行相乘，以获得关联强度矩阵；

S153：对所述关联强度矩阵进行归一化操作，以得到感知图；

S154：将所述感知图与所述第三降维特征图对应的矩阵相乘，且将该相乘结果与所述结果特征图对应的矩阵进行矩阵加法，以得到感知特征图。

具体的，

1)所述结果特征图设为特征图A(K×C)，C是A的通道数。特征图A先经过卷积层降维，得到降维的特征，产生三个相同的特征图B(K×C′)，C(K×C′)和D(K×C′)。这个操作能够进一步提取特征并且降低运算量。

2)计算B和C的矩阵乘积获得关联强度矩阵(K×K)，这一步的目的是计算特征图A在空间上任意两点特征之间的关联强度矩阵。

3)对关联强度矩阵进行Softmax归一化操作，得到感知图S(K×K)。感知图S的作用在于，其中每一个空间点都有一个关联向量，其中与空间点特征越相似的点，其响应值越大。

4)对感知图S与特征图D(K×C′)计算矩阵乘法，再经过重塑，和特征图A(K×C)进行矩阵加法，得到感知特征图E(K×C)，感知特征图E的意义是把特征图A中各个位置的点，通过感知图S在空间中产生全局的关联，总的来说，感知特征图E由输入特征图A和特征图D以及感知图S得到。

S16：对所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图；

其中，对所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图的步骤包括：

S161：将一维的所述感知特征图转变为二维矩阵；

S162：结合所述将所述图像分割成超像素的分割结果，将所述二维矩阵转化为与所述初步特征图大小相同的最终特征图。

具体的，将特征在空间上重塑到二维，即将在空间上大小为K的一维向量的感知特征图E(K×C)转变成为H×W的二维矩阵，再根据将所述图像分割成超像素的分割结果，将该矩阵展开至大小(m×n)，其中每个像素上的值等于其所属超像素的值，最终输出的特征图维度为(m×n×C)。即该最终特征图与所述初步特征图的大小相同。

S17：将所述初步特征图和所述最终特征图进行合并以获得合并特征图；

具体的，将所述初步特征图和所述最终特征图按通道顺序拼接成一个最终的合并特征图，合并特征图的维度为(m×n×2C)。

S18：对所述合并特征图进行估计以获得关于所述图像的目标密度图。

所述对所述合并特征图进行估计以获得关于所述图像的密度图的步骤包括：

S181：根据一个尺度为1×1的卷积层，将所述合并特征图进行降维；

S182：对降维后的所述合并特征图执行图像插值，将所述降维后的所述合并特征图的尺寸调整到与所述图像的尺寸相同，且尺寸与所述图像的尺寸相同的降维后的所述合并特征图为所述目标密度图。

具体的，应用一个尺度为1×1的卷积层和一个图像插值层对所述合并特征图进行估计，即，先对合并后的特征图进行降维，把合并特征图(m×m×2C)变为(m×m×1)，再执行图像插值，把特征图的大小调整到原图像尺寸，即得到目标密度图(M×N×1)。

在具体应用中，在根据一个尺度为1×1的卷积层，将所述合并特征图进行降维后，将所述降维结果输入Inception子网络或ResNet Block块网络。即可以提供估计精度。

参阅图3，显示为本发明的上下文感知嵌入的人群计数系统在一具体实施例中的组成示意图。所述上下文感知嵌入的人群计数系统1包括：图像获取模块11、特征提取模块12、超像素模块13、嵌入模块14、上下文感知计算模块15、反变换模块16、合并模块17以及估计模块18。

所述图像获取模块11用以获取图像；

所述特征提取模块12用以提取关于所述图像的底层空间特征的初步特征图；其中，特征提取模块12对输入图像进行预处理，提取特征，把图像上的点划分为规则的，连续的区域。以VGG网络为模板，本模块输入原始图像(M×N×3)，输出初步特征图(m×n×C)。其中，初步特征图的结构参考下表所示：

所述超像素模块13用以将所述图像分割成超像素；

其中，超像素是指具有相似纹理，颜色，亮度等特征的像素构成的连续不规则像素集合。超像素模块利用像素之间特征的相似性将像素聚类，因此可以用较多的超像素代替较多的原图像素来表示图片特征，既在很大程度上保留了图像原本的空间特征和信息丰富度，又减少了网络的参数量，大幅降低了上下文感知计算网络计算量。

超像素模块13将原始输入图像(M×N)分割成K个不规则的，紧凑的超像素，对应的有K个聚类中心。因为在初始化时K个聚类中心在空间上均匀分布，所以超像素特征图在空间上可以标记为大小为H×W的二维矩阵(H×W＝K)，令超像素(i，j)对应第1个超像素，则i＝(1，2，...，H)，j＝(1，2，...，W)，l＝(1，2，...，K)l＝i×(j-1)+j。总之，超像素特征图是在空间上由K个超像素按照其聚类中心的顺序存储和表示的一维向量。

超像素模块13采用了SLIC(Simple Linear Iterative Clustering)，即线性迭代聚类算法来生成超像素。具体步骤如下：

1)将输入图像从RGB颜色空间转换至LAB颜色空间；

2)设置适当的超像素的采样步长S和数量K，利用均匀分布的思想，初始化聚类中心。输入图像大小为M×N，则分割后每块超像素平均有个像素，每个聚类中心以其周围2S×2S的空间为其搜索空间；

3)优化聚类中心，为避免聚类中心落在目标边缘处的极端情况，在初始聚类中心(3×3)邻域内寻找梯度值最小的点作为新的聚类中心；

4)对空间内的所有像素点，计算其与所属搜索空间对应的聚类中心的距离D′，计算方法为：

d_s表示空间距离，x和y为像素点坐标；

5)计算一个超像素块内所有像素的质心，以其作为新的聚类中心；

6)重复4)和5)直到聚类中心不再变化或达到最大迭代次数。

所述嵌入模块14用以将所述特征提取模块提取的所述初步特征图和所述超像素模块获取的所述超像素进行融合；

嵌入模块由池化层和重塑层组成。例如参阅图2所示。特征提取模块和超像素模块的输出特征一起输入嵌入模块，然后池化层根据超像素模块的聚类结果，在特征提取模块的特征图(m×n×C)上进行平均池化，通道数保持不变，由超像素的(H×W)个聚类中心，得到一个空间上大小为H×W的结果，最后在重塑层将该结果在空间上展开成一个长度为K的一维向量，输出结果特征图(K×C)。

所述上下文感知计算模块15用以对所述嵌入模块的所述融合结果进行全局关联；

其中，上下文感知计算模块旨在利用特征图在空间上任意两点特征之间的关联，来相互增强各自特征的表达。网络流程如下：

(1)输入嵌入模块的结果，设为特征图A(K×C)，C是A的通道数。特征图A先经过卷积层降维，得到降维的特征，产生三个相同的特征图B(K×C′)，C(K×C′)和D(K×C′)。这个操作能够进一步提取特征并且降低运算量。

(2)计算B和C的矩阵乘积获得关联强度矩阵(K×K)，这一步的目的是计算特征图A在空间上任意两点特征之间的关联强度矩阵。

(3)对关联强度矩阵进行Softmax归一化操作，得到感知图S(K×K)。感知图S的作用在于，其中每一个空间点都有一个关联向量，其中与空间点特征越相似的点，其响应值越大。

(4)对感知图S与特征图D(K×C′)计算矩阵乘法，再经过重塑，和特征图A(K×C)进行矩阵加法，得到感知特征图E(K×C)。感知特征图E的意义是把特征图A中各个位置的点，通过感知图S在空间中产生全局的关联。总的来说，感知特征图E由输入特征图A和特征图D以及感知图S得到。

所述反变换模块16用以对所述上下文感知计算模块15获得的所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图；

其中，上下文感知计算模块15输出特征(K×C)进入反变换模块。反变换模块的功能与嵌入模块相反，其将特征在空间上重塑到二维，即将在空间上大小为K的一维向量转变成为H×W的二维矩阵，再根据超像素模块的结果，将该矩阵展开至大小(m×n)，其中每个像素上的值等于其所属超像素的值，最终输出的特征图维度为(m×n×C)。

所述合并模块17用以将所述初步特征图和所述最终特征图进行合并以获得合并特征图；

其中，合并模块17将特征提取模块12的输出和反变换模块16的输出按通道顺序拼接成一个最终的特征图，特征图维度为(m×n×2C)。

所述估计模块18用以对所述合并特征图进行估计以获得关于所述图像的目标密度图。其中，估计模块18主要包括一个尺度为1×1的卷积层和一个图像插值层，其先对合并后的特征图进行降维，把合并模块17输出的特征(m×n×2C)变为(m×n×1)，再执行图像插值，把特征图的大小调整到原图像尺寸，得到目标密度图(M×N×1)。

在本发明一具体实施例中，提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述上下文感知嵌入的人群计数方法S1，其中，所述上下文感知嵌入的人群计数方法S1参阅图1及关于图1的相关描述。

参阅图4，显示为本发明的电子设备在一具体实施例中的组成示意图。所述电子设备2包括：处理器21及存储器22；所述电子设备2例如为台式电脑、平板电脑或智能手机等智能数据处理设备。

所述存储器22用于存储计算机程序，所述处理器21用于执行所述存储器22存储的计算机程序，以使所述电子设备2执行所述上下文感知嵌入的人群计数方法S1。其中，所述上下文感知嵌入的人群计数方法S1参阅图1及关于图1的相关描述。

其中，所述存储器22可包括高速随机存取存储器，并且还可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中，存储器22还可以包括远离一个或多个处理单元的存储单元，例如经由RF电路或外部端口以及通信网络访问的网络附加存储单元，其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等，或其适当组合。

所述处理器21为一种能够进行数值运算、逻辑运算及数据分析的设备，其包括但不限于：CPU、GPU、FPGA等。

综上所述，本发明提出一种上下文感知嵌入的人群计数方法、系统、介质及电子设备，其中，上下文感知嵌入网络主要用于提取图像的低层空间特征，把图像分割成超像素，融合图像分割成超像素的结果和低层空间特征的提取的结果，并能够提取特征的全局关联，以最后产生密度图。本发明采用的超像素网络，利用像素之间特征的相似性将像素分组，用少量超像素代替大量的像素来表示图片特征，大幅降低了复杂度。因此，它能够大幅减少计算量，提高整个网络的速度和效率，从而实时，迅速的将结果反馈给用户，能够很好地应对人群数量连续变化的情况。且本发明采用的上下文感知嵌入网络能够提取特征图上任意两点特征之间的全局关联，来增强特征的表达能力，在处理复杂多样的场景时，可以很好地处理拥挤场景中复杂的人群分布情况，避免一些误差，减少错误影响，以便更好统计人群总数。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种上下文感知嵌入的人群计数方法，其特征在于，包括：

获取图像；

提取关于所述图像的底层空间特征的初步特征图；

将所述图像分割成超像素；

将所述初步特征图和所述超像素进行融合；

对所述融合结果进行全局关联；

对所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图；

将所述初步特征图和所述最终特征图进行合并以获得合并特征图；

对所述合并特征图进行估计以获得关于所述图像的目标密度图；

将所述图像分割成超像素的步骤包括：

步骤一：将所述图像从RGB颜色空间转换至LAB颜色空间；

步骤二：设置超像素的采样步长S和数量K，且根据均匀分布的原则，分别对K个超像素对应的第一聚类中心进行初始化；其中，每个所述第一聚类中心以其周围2Sx2S的空间为其搜索空间；

步骤三：在所述初始化的第一聚类中心的(3x3)邻域内寻找梯度值最小的点作为第二聚类中心，以对所述第一聚类中心进行优化；

步骤四：计算空间内的所有像素点与其所属搜索空间对应的第二聚类中心的距离；

步骤五：计算一个超像素块内所有像素的质心，以该质心作为新的聚类中心；

步骤六：重复所述步骤四和所述步骤五，直到所述新的聚类中心不再发生变化，且以该不再变化的新的聚类中心对应的图像分割结果作为最终的所述超像素；或所述步骤四和所述步骤五的重复次数达到预设的迭代次数阈值时，将达到预设的迭代次数阈值时对应的新的聚类中心对应的图像分割结果作为最终的所述超像素；

将所述初步特征图和所述超像素进行融合的步骤包括：

令池化层根据最终的所述超像素对应的所述新的聚类中心，在所述初步特征图上进行平均池化；

在重塑层将所述池化结果在空间上展开成一个长度为K的一组向量，以获得结果特征图；

对所述融合结果进行全局关联的步骤包括：

将所述结果特征图经过卷积层降维，以获得三个相同的第一降维特征图、第二降维特征图以及第三降维特征图；

将所述第一降维特征图和第二降维特征图对应的矩阵进行相乘，以获得关联强度矩阵；

对所述关联强度矩阵进行归一化操作，以得到感知图；

将所述感知图与所述第三降维特征图对应的矩阵相乘，且将该相乘结果与所述结果特征图对应的矩阵进行矩阵加法，以得到感知特征图。

2.根据权利要求1所述的上下文感知嵌入的人群计数方法，其特征在于，对所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图的步骤包括：

将一维的所述感知特征图转变为二维矩阵；

结合所述将所述图像分割成超像素的分割结果，将所述二维矩阵转化为与所述初步特征图大小相同的最终特征图。

3.根据权利要求1所述的上下文感知嵌入的人群计数方法，其特征在于，所述对所述合并特征图进行估计以获得关于所述图像的密度图的步骤包括：

根据一个尺度为1x1的卷积层，将所述合并特征图进行降维；

对降维后的所述合并特征图执行图像插值，将所述降维后的所述合并特征图的尺寸调整到与所述图像的尺寸相同，且尺寸与所述图像的尺寸相同的降维后的所述合并特征图为所述目标密度图。

4.根据权利要求3所述的上下文感知嵌入的人群计数方法，其特征在于，根据一个尺度为1x1的卷积层，将所述合并特征图进行降维后，将所述降维结果输入Inception子网络或ResNet Block块网络。

5.一种上下文感知嵌入的人群计数系统，其特征在于，用于实现权利要求1至4中任一项所述的上下文感知嵌入的人群计数方法，所述上下文感知嵌入的人群计数系统包括：

图像获取模块，用以获取图像；

特征提取模块，用以提取关于所述图像的底层空间特征的初步特征图；

超像素模块，用以将所述图像分割成超像素；

嵌入模块，用以将所述特征提取模块提取的所述初步特征图和所述超像素模块获取的所述超像素进行融合；

上下文感知计算模块，用以对所述嵌入模块的所述融合结果进行全局关联；

反变换模块，用以对所述上下文感知计算模块获得的所述全局关联的结果进行展开，以获得与所述初步特征图的大小相同的最终特征图；

合并模块，用以将所述初步特征图和所述最终特征图进行合并以获得合并特征图；

估计模块，用以对所述合并特征图进行估计以获得关于所述图像的目标密度图。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4中任一项所述上下文感知嵌入的人群计数方法。

7.一种电子设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权利要求1至4中任一项所述上下文感知嵌入的人群计数方法。