CN111062274B - 上下文感知嵌入的人群计数方法、系统、介质及电子设备 - Google Patents
上下文感知嵌入的人群计数方法、系统、介质及电子设备 Download PDFInfo
- Publication number
- CN111062274B CN111062274B CN201911214305.1A CN201911214305A CN111062274B CN 111062274 B CN111062274 B CN 111062274B CN 201911214305 A CN201911214305 A CN 201911214305A CN 111062274 B CN111062274 B CN 111062274B
- Authority
- CN
- China
- Prior art keywords
- feature map
- image
- context
- super
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims description 37
- 230000009467 reduction Effects 0.000 claims description 31
- 230000008447 perception Effects 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000003709 image segmentation Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000009827 uniform distribution Methods 0.000 claims description 5
- 238000007634 remodeling Methods 0.000 claims description 4
- 229920000642 polymer Polymers 0.000 claims description 3
- 238000009826 distribution Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 4
- 108091006146 Channels Proteins 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000001788 irregular Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 229940050561 matrix product Drugs 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提出一种上下文感知嵌入的人群计数方法、系统、介质及电子设备,其中,上下文感知嵌入网络主要用于提取图像的低层空间特征,把图像分割成超像素,融合图像分割成超像素的结果和低层空间特征的提取的结果,并能够提取特征的全局关联,以最后产生密度图。本发明采用的超像素网络,利用像素之间特征的相似性将像素分组,用少量超像素代替大量的像素来表示图片特征,大幅降低了复杂度。且本发明采用的上下文感知嵌入网络能够提取特征图上任意两点特征之间的全局关联,来增强特征的表达能力,在处理复杂多样的场景时,可以很好地处理拥挤场景中复杂的人群分布情况,避免一些误差,减少错误影响,以便更好统计人群总数。
Description
技术领域
本发明涉及图像处理领域,特别是涉及一种上下文感知嵌入的人群计数方法、系统、介质及电子设备。
背景技术
随着城市人口的日益增长,在地铁站,商场,各种节日集会中,超额聚集的人群带来潜在危险,极容易造成踩踏、骚乱等悲剧。近年来,人群计数和人群的密度分布估计成为安防领域的热门课题,同时人群计数的算法性能在与深度学习的结合下得到了很大的提升。因此,人群计数和人群密度估计有着重要研究价值。
人群计数的目的是找出特定场景中的人数,而人群密度分布估计需要获取空间密度信息和人数(密度图求和)。人群计数的难点在于,场景的变化跨度大,目标的尺度变化不尽相同,人和人、人和景物之间存在不同程度的遮挡等等。而且对高密度的人群图像来说,随着人群密度的提升,人群遮挡越来越严重。
近年来,众多使用深度学习的人群方法被提出。深度学习(Deep Learning,DL)根据图像块的内容信息来设计神经网络进行估算人群总数,无需对图片进行前景分割等预处理,无需人工设计和提取特征,可以输出不同大小的图像,网络可以实现端到端的训练,可以交替回归图像块的人群密度和人群总数来实现人数估计。
以下是一些常见的深度学习驱动的人群计数方法:
2016年提出的MCNN算法,提出了一种简单有效的多列卷积神经网络结构将图像映射到其人群密度图上。这类利用多个网络的模型具有较多的参数,计算量大,无法进行实时的人群计数预测。而且多阵列的网络并不能如所描述的一般,提取不同的人头特征。有很多低效的分支结构。
2017年提出的Switch-CNN同样使用了三个子网络和分类的思想,让不同密度等级的图像块通过相应的子网络,则所有图像块被更准确地预测,最终,所有图像块的准确预测构成了原图准确的人群估计。
实际场景中的人群,常常会出现传统人群计数问题难以解决的背景噪声,人与人之间的严重遮挡,人群密度分布不均的问题。现有技术很难针对具有较大背景噪声的人群进行人群计数和人群密度估计。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种上下文感知嵌入的人群计数方法、系统、介质及电子设备,用于解决现有技术中不能有效且准群的对人群密度进行估计的问题。
为实现上述目的及其他相关目的,本发明提供一种上下文感知嵌入的人群计数方法,包括:获取图像;提取关于所述图像的底层空间特征的初步特征图;将所述图像分割成超像素;将所述初步特征图和所述超像素进行融合;对所述融合结果进行全局关联;对所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图;将所述初步特征图和所述最终特征图进行合并以获得合并特征图;对所述合并特征图进行估计以获得关于所述图像的目标密度图。
在一些实施例中,将所述图像分割成超像素的步骤包括:步骤一:将所述图像从RGB颜色空间转换至LAB颜色空间;步骤二:设置超像素的采样步长S和数量K,且根据均匀分布的原则,分别对K个超像素对应的第一聚类中心进行初始化;其中,每个所述第一聚类中心以其周围2S×2S的空间为其搜索空间;步骤三:在所述初始化的第一聚类中心的(3×3)邻域内寻找梯度值最小的点作为第二聚类中心,以对所述第一聚类中心进行优化;步骤四:计算空间内的所有像素点与其所属搜索空间对应的第二聚类中心的距离;步骤五:计算一个超像素块内所有像素的质心,以该质心作为新的聚类中心;步骤六:重复所述步骤四和所述步骤五,直到所述新的聚类中心不再发生变化,且以该不再变化的新的聚类中心对应的图像分割结果作为最终的所述超像素;或所述步骤四和所述步骤五的重复次数达到预设的迭代次数阈值时,将达到预设的迭代次数阈值时对应的新的聚类中心对应的图像分割结果作为最终的所述超像素。
在一些实施例中,将所述初步特征图和所述超像素进行融合的步骤包括:令池化层根据最终的所述超像素对应的所述新的聚类中心,在所述初步特征图上进行平均池化;在重塑层将所述池化结果在空间上展开成一个长度为K的一维向量,以获得结果特征图。
在一些实施例中,对所述融合结果进行全局关联的步骤包括:将所述结果特征图经过卷积层降维,以获得三个相同的第一降维特征图、第二降维特征图以及第三降维特征图;将所述第一降维特征图和第二降维特征图对应的矩阵进行相乘,以获得关联强度矩阵;对所述关联强度矩阵进行归一化操作,以得到感知图;将所述感知图与所述第三降维特征图对应的矩阵相乘,且将该相乘结果与所述结果特征图对应的矩阵进行矩阵加法,以得到感知特征图。
在一些实施例中,对所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图的步骤包括:将一维的所述感知特征图转变为二维矩阵;结合所述将所述图像分割成超像素的分割结果,将所述二维矩阵转化为与所述初步特征图大小相同的最终特征图。
在一些实施例中,所述对所述合并特征图进行估计以获得关于所述图像的密度图的步骤包括:根据一个尺度为1×1的卷积层,将所述合并特征图进行降维;对降维后的所述合并特征图执行图像插值,将所述降维后的所述合并特征图的尺寸调整到与所述图像的尺寸相同,且尺寸与所述图像的尺寸相同的降维后的所述合并特征图为所述目标密度图。
在一些实施例中,根据一个尺度为1×1的卷积层,将所述合并特征图进行降维后,将所述降维结果输入Inception子网络或ResNet Block块网络。
在一些实施例中,所述将所述图像分割成超像素的步骤还包括:基于简单线性迭代聚类的算法生成进行超像素计算,以生成所述超像素。
为实现上述目的及其他相关目的,本发明还提供一种上下文感知嵌入的人群计数系统,包括:图像获取模块,用以获取图像;特征提取模块,用以提取关于所述图像的底层空间特征的初步特征图;超像素模块,用以将所述图像分割成超像素;嵌入模块,用以将所述特征提取模块提取的所述初步特征图和所述超像素模块获取的所述超像素进行融合;上下文感知计算模块,用以对所述嵌入模块的所述融合结果进行全局关联;反变换模块,用以对所述上下文感知计算模块获得的所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图;合并模块,用以将所述初步特征图和所述最终特征图进行合并以获得合并特征图;估计模块,用以对所述合并特征图进行估计以获得关于所述图像的目标密度图。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述上下文感知嵌入的人群计数方法。
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上任一项所述上下文感知嵌入的人群计数方法。
如上所述,本发明提出一种上下文感知嵌入的人群计数方法、系统、介质及电子设备,其中,上下文感知嵌入网络主要用于提取图像的低层空间特征,把图像分割成超像素,融合图像分割成超像素的结果和低层空间特征的提取的结果,并能够提取特征的全局关联,以最后产生密度图。本发明采用的超像素网络,利用像素之间特征的相似性将像素分组,用少量超像素代替大量的像素来表示图片特征,大幅降低了复杂度。因此,它能够大幅减少计算量,提高整个网络的速度和效率,从而实时,迅速的将结果反馈给用户,能够很好地应对人群数量连续变化的情况。且本发明采用的上下文感知嵌入网络能够提取特征图上任意两点特征之间的全局关联,来增强特征的表达能力,在处理复杂多样的场景时,可以很好地处理拥挤场景中复杂的人群分布情况,避免一些误差,减少错误影响,以便更好统计人群总数。
附图说明
图1显示为本发明的上下文感知嵌入的人群计数方法在一具体实施例中的组成示意图。
图2显示为本发明一具体实施例中初步特征图和超像素融合过程示意图。
图3显示为本发明的上下文感知嵌入的人群计数系统在一具体实施例中的组成示意图。
图4显示为本发明的电子设备在一具体实施例中的组成示意图。
元件标号说明
1 上下文感知嵌入的人群计数系统
11 图像获取模块
12 特征提取模块
13 超像素模块
14 嵌入模块
15 上下文感知计算模块
16 反变换模块
17 合并模块
18 估计模块
S11~S18 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
人群计数方法广泛应用于各种各样的场合,需要面对复杂多样的场景,挑战来自于场景图像在光照、视角、尺度、遮挡、人群密度等各方面的差异,因此人群计数算法如何准确,高效的识别人群是人群计数的最大的难点。
本发明为了克服现有的人群计数的缺点,采用上下文感知嵌入网络来产生人群图像密度图,其中引入超像素分割来进行图像分割,很大程度上降低了图像后处理的复杂度。另外,本发明采用了上下文感知计算网络,其具有一种自注意力机制(Self-AttentionMechanism),能抓取特征上下文之间的全局依赖关系,增强特征的表达能力。具体参阅以下描述。
请参阅图1,显示为本发明的上下文感知嵌入的人群计数方法在一具体实施例中的组成示意图。
所述上下文感知嵌入的人群计数方法S1包括:
S11:获取图像;
S12:提取关于所述图像的底层空间特征的初步特征图;具体的,对输入图像进行预处理,提取特征,把图像上的点划分为规则的且连续的区域。以VGG网络为模板,例如,获取的原始图像为(M×N×3),输出的初步特征图为(m×n×C)。其中,该初步特征图的结构如以下的表1所示:
Conv-3-64-1 |
Conv-3-64-1 |
Conv-3-64-1 |
Max_Pooling |
Conv-3-128-1 |
Conv-3-128-1 |
Conv-3-128-1 |
Max_Pooling |
Conv-3-256-1 |
Conv-3-256-1 |
Conv-3-256-1 |
Max_Pooling |
Conv-3-512-1 |
Conv-3-512-1 |
Conv-3-512-1 |
表1
注:以Conv-3-256-1为例,Conv表示卷积核,3表示卷积核大小,256是通道数,1表示膨胀率。Max Pooling代表最大池化层,核大小设定为(2,2),步长设定为2。
S13:将所述图像分割成超像素;
其中,超像素是指具有相似纹理,颜色,亮度等特征的像素构成的连续不规则像素集合。利用像素之间特征的相似性将像素聚类,因此可以用较多的超像素代替较多的原图像素来表示图片特征,既在很大程度上保留了图像原本的空间特征和信息丰富度,又减少了网络的参数量,大幅降低了上下文感知计算网络计算量。
其中,所述步骤将所述图像分割成超像素的步骤包括:
S131:将所述图像从RGB颜色空间转换至LAB颜色空间;
S132:设置超像素的采样步长S和数量K,且根据均匀分布的原则,分别对K个超像素对应的第一聚类中心进行初始化;其中,每个所述第一聚类中心以其周围2S×2S的空间为其搜索空间;
S133:在所述初始化的第一聚类中心的(3×3)邻域内寻找梯度值最小的点作为第二聚类中心,以对所述第一聚类中心进行优化;
S134:计算空间内的所有像素点与其所属搜索空间对应的第二聚类中心的距离;
S135:计算一个超像素块内所有像素的质心,以该质心作为新的聚类中心;
S136:重复所述步骤四和所述步骤五,直到所述新的聚类中心不再发生变化,且以该不再变化的新的聚类中心对应的图像分割结果作为最终的所述超像素;或所述步骤四和所述步骤五的重复次数达到预设的迭代次数阈值时,将达到预设的迭代次数阈值时对应的新的聚类中心对应的图像分割结果作为最终的所述超像素。
具体的,将原始输入图像(M×N)分割成K个不规则的,紧凑的超像素,对应的有K个聚类中心。因为在初始化时K个聚类中心在空间上均匀分布,所以超像素特征图在空间上可以标记为大小为H×W的二维矩阵(H×W=K),令超像素(i,j)对应第1个超像素,则i=(1,2,...,H),j=(1,2,...,W),1=(1,2,...,K)l=i×(j-1)+j。总之,超像素特征图是在空间上由K个超像素按照其聚类中心的顺序存储和表示的一维向量。
本实施例中,可采用SLIC(Simple Linear Iterative Clustering),即线性迭代聚类算法来生成超像素。具体步骤如下:
①将输入图像从RGB颜色空间转换至LAB颜色空间;
②设置适当的超像素的采样步长S和数量K,利用均匀分布的思想,初始化聚类中心。输入图像大小为M×N,则分割后每块超像素平均有个像素,每个聚类中心以其周围2S×2S的空间为其搜索空间;
③优化聚类中心,为避免聚类中心落在目标边缘处的极端情况,在初始聚类中心(3×3)邻域内寻找梯度值最小的点作为新的聚类中心;
④对空间内的所有像素点,计算其与所属搜索空间对应的聚类中心的距离D′,计算方法为:
注:dc表示颜色距离,1,a,b为LAB颜色空间的三个颜色通道;
ds表示空间距离,x和y为像素点坐标;
D′表示总距离,Ns=S,Nc为常数,Nc可以根据所需超像素特点调整;
⑤计算一个超像素块内所有像素的质心,以其作为新的聚类中心;
⑥重复④和⑤直到聚类中心不再变化或达到最大迭代次数。
S14:将所述初步特征图和所述超像素进行融合;
其中,将所述初步特征图和所述超像素进行融合的步骤包括:
S141:令池化层根据最终的所述超像素对应的所述新的聚类中心,在所述初步特征图上进行平均池化;
S142:在重塑层将所述池化结果在空间上展开成一个长度为K的一维向量,以获得结果特征图。
具体的,利用池化层和重塑层对所述初步特征图和所述超像素进行融合。其中,池化层根据关于超像素的聚类结果,在初步特征图(m×n×C)上进行平均池化,通道数保持不变,由超像素的(H×W)个聚类中心,得到一个空间上大小为H×W的结果,最后在重塑层将该结果在空间上展开成一个长度为K的一维向量,输出结果特征图(K×C)。具体的参阅图2,显示为本发明一具体实施例中初步特征图和超像素融合过程示意图。
S15:对所述融合结果进行全局关联;
其中,对所述融合结果进行全局关联的步骤包括:
S151:将所述结果特征图经过卷积层降维,以获得三个相同的第一降维特征图、第二降维特征图以及第三降维特征图;
S152:将所述第一降维特征图和第二降维特征图对应的矩阵进行相乘,以获得关联强度矩阵;
S153:对所述关联强度矩阵进行归一化操作,以得到感知图;
S154:将所述感知图与所述第三降维特征图对应的矩阵相乘,且将该相乘结果与所述结果特征图对应的矩阵进行矩阵加法,以得到感知特征图。
具体的,
1)所述结果特征图设为特征图A(K×C),C是A的通道数。特征图A先经过卷积层降维,得到降维的特征,产生三个相同的特征图B(K×C′),C(K×C′)和D(K×C′)。这个操作能够进一步提取特征并且降低运算量。
2)计算B和C的矩阵乘积获得关联强度矩阵(K×K),这一步的目的是计算特征图A在空间上任意两点特征之间的关联强度矩阵。
3)对关联强度矩阵进行Softmax归一化操作,得到感知图S(K×K)。感知图S的作用在于,其中每一个空间点都有一个关联向量,其中与空间点特征越相似的点,其响应值越大。
4)对感知图S与特征图D(K×C′)计算矩阵乘法,再经过重塑,和特征图A(K×C)进行矩阵加法,得到感知特征图E(K×C),感知特征图E的意义是把特征图A中各个位置的点,通过感知图S在空间中产生全局的关联,总的来说,感知特征图E由输入特征图A和特征图D以及感知图S得到。
S16:对所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图;
其中,对所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图的步骤包括:
S161:将一维的所述感知特征图转变为二维矩阵;
S162:结合所述将所述图像分割成超像素的分割结果,将所述二维矩阵转化为与所述初步特征图大小相同的最终特征图。
具体的,将特征在空间上重塑到二维,即将在空间上大小为K的一维向量的感知特征图E(K×C)转变成为H×W的二维矩阵,再根据将所述图像分割成超像素的分割结果,将该矩阵展开至大小(m×n),其中每个像素上的值等于其所属超像素的值,最终输出的特征图维度为(m×n×C)。即该最终特征图与所述初步特征图的大小相同。
S17:将所述初步特征图和所述最终特征图进行合并以获得合并特征图;
具体的,将所述初步特征图和所述最终特征图按通道顺序拼接成一个最终的合并特征图,合并特征图的维度为(m×n×2C)。
S18:对所述合并特征图进行估计以获得关于所述图像的目标密度图。
所述对所述合并特征图进行估计以获得关于所述图像的密度图的步骤包括:
S181:根据一个尺度为1×1的卷积层,将所述合并特征图进行降维;
S182:对降维后的所述合并特征图执行图像插值,将所述降维后的所述合并特征图的尺寸调整到与所述图像的尺寸相同,且尺寸与所述图像的尺寸相同的降维后的所述合并特征图为所述目标密度图。
具体的,应用一个尺度为1×1的卷积层和一个图像插值层对所述合并特征图进行估计,即,先对合并后的特征图进行降维,把合并特征图(m×m×2C)变为(m×m×1),再执行图像插值,把特征图的大小调整到原图像尺寸,即得到目标密度图(M×N×1)。
在具体应用中,在根据一个尺度为1×1的卷积层,将所述合并特征图进行降维后,将所述降维结果输入Inception子网络或ResNet Block块网络。即可以提供估计精度。
参阅图3,显示为本发明的上下文感知嵌入的人群计数系统在一具体实施例中的组成示意图。所述上下文感知嵌入的人群计数系统1包括:图像获取模块11、特征提取模块12、超像素模块13、嵌入模块14、上下文感知计算模块15、反变换模块16、合并模块17以及估计模块18。
所述图像获取模块11用以获取图像;
所述特征提取模块12用以提取关于所述图像的底层空间特征的初步特征图;其中,特征提取模块12对输入图像进行预处理,提取特征,把图像上的点划分为规则的,连续的区域。以VGG网络为模板,本模块输入原始图像(M×N×3),输出初步特征图(m×n×C)。其中,初步特征图的结构参考下表所示:
注:以Conv-3-256-1为例,Conv表示卷积核,3表示卷积核大小,256是通道数,1表示膨胀率。Max Pooling代表最大池化层,核大小设定为(2,2),步长设定为2。
所述超像素模块13用以将所述图像分割成超像素;
其中,超像素是指具有相似纹理,颜色,亮度等特征的像素构成的连续不规则像素集合。超像素模块利用像素之间特征的相似性将像素聚类,因此可以用较多的超像素代替较多的原图像素来表示图片特征,既在很大程度上保留了图像原本的空间特征和信息丰富度,又减少了网络的参数量,大幅降低了上下文感知计算网络计算量。
超像素模块13将原始输入图像(M×N)分割成K个不规则的,紧凑的超像素,对应的有K个聚类中心。因为在初始化时K个聚类中心在空间上均匀分布,所以超像素特征图在空间上可以标记为大小为H×W的二维矩阵(H×W=K),令超像素(i,j)对应第1个超像素,则i=(1,2,...,H),j=(1,2,...,W),l=(1,2,...,K)l=i×(j-1)+j。总之,超像素特征图是在空间上由K个超像素按照其聚类中心的顺序存储和表示的一维向量。
超像素模块13采用了SLIC(Simple Linear Iterative Clustering),即线性迭代聚类算法来生成超像素。具体步骤如下:
1)将输入图像从RGB颜色空间转换至LAB颜色空间;
2)设置适当的超像素的采样步长S和数量K,利用均匀分布的思想,初始化聚类中心。输入图像大小为M×N,则分割后每块超像素平均有个像素,每个聚类中心以其周围2S×2S的空间为其搜索空间;
3)优化聚类中心,为避免聚类中心落在目标边缘处的极端情况,在初始聚类中心(3×3)邻域内寻找梯度值最小的点作为新的聚类中心;
4)对空间内的所有像素点,计算其与所属搜索空间对应的聚类中心的距离D′,计算方法为:
注:dc表示颜色距离,1,a,b为LAB颜色空间的三个颜色通道;
ds表示空间距离,x和y为像素点坐标;
D′表示总距离,Ns=S,Nc为常数,Nc可以根据所需超像素特点调整;
5)计算一个超像素块内所有像素的质心,以其作为新的聚类中心;
6)重复4)和5)直到聚类中心不再变化或达到最大迭代次数。
所述嵌入模块14用以将所述特征提取模块提取的所述初步特征图和所述超像素模块获取的所述超像素进行融合;
嵌入模块由池化层和重塑层组成。例如参阅图2所示。特征提取模块和超像素模块的输出特征一起输入嵌入模块,然后池化层根据超像素模块的聚类结果,在特征提取模块的特征图(m×n×C)上进行平均池化,通道数保持不变,由超像素的(H×W)个聚类中心,得到一个空间上大小为H×W的结果,最后在重塑层将该结果在空间上展开成一个长度为K的一维向量,输出结果特征图(K×C)。
所述上下文感知计算模块15用以对所述嵌入模块的所述融合结果进行全局关联;
其中,上下文感知计算模块旨在利用特征图在空间上任意两点特征之间的关联,来相互增强各自特征的表达。网络流程如下:
(1)输入嵌入模块的结果,设为特征图A(K×C),C是A的通道数。特征图A先经过卷积层降维,得到降维的特征,产生三个相同的特征图B(K×C′),C(K×C′)和D(K×C′)。这个操作能够进一步提取特征并且降低运算量。
(2)计算B和C的矩阵乘积获得关联强度矩阵(K×K),这一步的目的是计算特征图A在空间上任意两点特征之间的关联强度矩阵。
(3)对关联强度矩阵进行Softmax归一化操作,得到感知图S(K×K)。感知图S的作用在于,其中每一个空间点都有一个关联向量,其中与空间点特征越相似的点,其响应值越大。
(4)对感知图S与特征图D(K×C′)计算矩阵乘法,再经过重塑,和特征图A(K×C)进行矩阵加法,得到感知特征图E(K×C)。感知特征图E的意义是把特征图A中各个位置的点,通过感知图S在空间中产生全局的关联。总的来说,感知特征图E由输入特征图A和特征图D以及感知图S得到。
所述反变换模块16用以对所述上下文感知计算模块15获得的所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图;
其中,上下文感知计算模块15输出特征(K×C)进入反变换模块。反变换模块的功能与嵌入模块相反,其将特征在空间上重塑到二维,即将在空间上大小为K的一维向量转变成为H×W的二维矩阵,再根据超像素模块的结果,将该矩阵展开至大小(m×n),其中每个像素上的值等于其所属超像素的值,最终输出的特征图维度为(m×n×C)。
所述合并模块17用以将所述初步特征图和所述最终特征图进行合并以获得合并特征图;
其中,合并模块17将特征提取模块12的输出和反变换模块16的输出按通道顺序拼接成一个最终的特征图,特征图维度为(m×n×2C)。
所述估计模块18用以对所述合并特征图进行估计以获得关于所述图像的目标密度图。其中,估计模块18主要包括一个尺度为1×1的卷积层和一个图像插值层,其先对合并后的特征图进行降维,把合并模块17输出的特征(m×n×2C)变为(m×n×1),再执行图像插值,把特征图的大小调整到原图像尺寸,得到目标密度图(M×N×1)。
在本发明一具体实施例中,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述上下文感知嵌入的人群计数方法S1,其中,所述上下文感知嵌入的人群计数方法S1参阅图1及关于图1的相关描述。
参阅图4,显示为本发明的电子设备在一具体实施例中的组成示意图。所述电子设备2包括:处理器21及存储器22;所述电子设备2例如为台式电脑、平板电脑或智能手机等智能数据处理设备。
所述存储器22用于存储计算机程序,所述处理器21用于执行所述存储器22存储的计算机程序,以使所述电子设备2执行所述上下文感知嵌入的人群计数方法S1。其中,所述上下文感知嵌入的人群计数方法S1参阅图1及关于图1的相关描述。
其中,所述存储器22可包括高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中,存储器22还可以包括远离一个或多个处理单元的存储单元,例如经由RF电路或外部端口以及通信网络访问的网络附加存储单元,其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等,或其适当组合。
所述处理器21为一种能够进行数值运算、逻辑运算及数据分析的设备,其包括但不限于:CPU、GPU、FPGA等。
综上所述,本发明提出一种上下文感知嵌入的人群计数方法、系统、介质及电子设备,其中,上下文感知嵌入网络主要用于提取图像的低层空间特征,把图像分割成超像素,融合图像分割成超像素的结果和低层空间特征的提取的结果,并能够提取特征的全局关联,以最后产生密度图。本发明采用的超像素网络,利用像素之间特征的相似性将像素分组,用少量超像素代替大量的像素来表示图片特征,大幅降低了复杂度。因此,它能够大幅减少计算量,提高整个网络的速度和效率,从而实时,迅速的将结果反馈给用户,能够很好地应对人群数量连续变化的情况。且本发明采用的上下文感知嵌入网络能够提取特征图上任意两点特征之间的全局关联,来增强特征的表达能力,在处理复杂多样的场景时,可以很好地处理拥挤场景中复杂的人群分布情况,避免一些误差,减少错误影响,以便更好统计人群总数。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (7)
1.一种上下文感知嵌入的人群计数方法,其特征在于,包括:
获取图像;
提取关于所述图像的底层空间特征的初步特征图;
将所述图像分割成超像素;
将所述初步特征图和所述超像素进行融合;
对所述融合结果进行全局关联;
对所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图;
将所述初步特征图和所述最终特征图进行合并以获得合并特征图;
对所述合并特征图进行估计以获得关于所述图像的目标密度图;
将所述图像分割成超像素的步骤包括:
步骤一:将所述图像从RGB颜色空间转换至LAB颜色空间;
步骤二:设置超像素的采样步长S和数量K,且根据均匀分布的原则,分别对K个超像素对应的第一聚类中心进行初始化;其中,每个所述第一聚类中心以其周围2Sx2S的空间为其搜索空间;
步骤三:在所述初始化的第一聚类中心的(3x3)邻域内寻找梯度值最小的点作为第二聚类中心,以对所述第一聚类中心进行优化;
步骤四:计算空间内的所有像素点与其所属搜索空间对应的第二聚类中心的距离;
步骤五:计算一个超像素块内所有像素的质心,以该质心作为新的聚类中心;
步骤六:重复所述步骤四和所述步骤五,直到所述新的聚类中心不再发生变化,且以该不再变化的新的聚类中心对应的图像分割结果作为最终的所述超像素;或所述步骤四和所述步骤五的重复次数达到预设的迭代次数阈值时,将达到预设的迭代次数阈值时对应的新的聚类中心对应的图像分割结果作为最终的所述超像素;
将所述初步特征图和所述超像素进行融合的步骤包括:
令池化层根据最终的所述超像素对应的所述新的聚类中心,在所述初步特征图上进行平均池化;
在重塑层将所述池化结果在空间上展开成一个长度为K的一组向量,以获得结果特征图;
对所述融合结果进行全局关联的步骤包括:
将所述结果特征图经过卷积层降维,以获得三个相同的第一降维特征图、第二降维特征图以及第三降维特征图;
将所述第一降维特征图和第二降维特征图对应的矩阵进行相乘,以获得关联强度矩阵;
对所述关联强度矩阵进行归一化操作,以得到感知图;
将所述感知图与所述第三降维特征图对应的矩阵相乘,且将该相乘结果与所述结果特征图对应的矩阵进行矩阵加法,以得到感知特征图。
2.根据权利要求1所述的上下文感知嵌入的人群计数方法,其特征在于,对所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图的步骤包括:
将一维的所述感知特征图转变为二维矩阵;
结合所述将所述图像分割成超像素的分割结果,将所述二维矩阵转化为与所述初步特征图大小相同的最终特征图。
3.根据权利要求1所述的上下文感知嵌入的人群计数方法,其特征在于,所述对所述合并特征图进行估计以获得关于所述图像的密度图的步骤包括:
根据一个尺度为1x1的卷积层,将所述合并特征图进行降维;
对降维后的所述合并特征图执行图像插值,将所述降维后的所述合并特征图的尺寸调整到与所述图像的尺寸相同,且尺寸与所述图像的尺寸相同的降维后的所述合并特征图为所述目标密度图。
4.根据权利要求3所述的上下文感知嵌入的人群计数方法,其特征在于,根据一个尺度为1x1的卷积层,将所述合并特征图进行降维后,将所述降维结果输入Inception子网络或ResNet Block块网络。
5.一种上下文感知嵌入的人群计数系统,其特征在于,用于实现权利要求1至4中任一项所述的上下文感知嵌入的人群计数方法,所述上下文感知嵌入的人群计数系统包括:
图像获取模块,用以获取图像;
特征提取模块,用以提取关于所述图像的底层空间特征的初步特征图;
超像素模块,用以将所述图像分割成超像素;
嵌入模块,用以将所述特征提取模块提取的所述初步特征图和所述超像素模块获取的所述超像素进行融合;
上下文感知计算模块,用以对所述嵌入模块的所述融合结果进行全局关联;
反变换模块,用以对所述上下文感知计算模块获得的所述全局关联的结果进行展开,以获得与所述初步特征图的大小相同的最终特征图;
合并模块,用以将所述初步特征图和所述最终特征图进行合并以获得合并特征图;
估计模块,用以对所述合并特征图进行估计以获得关于所述图像的目标密度图。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4中任一项所述上下文感知嵌入的人群计数方法。
7.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至4中任一项所述上下文感知嵌入的人群计数方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911214305.1A CN111062274B (zh) | 2019-12-02 | 2019-12-02 | 上下文感知嵌入的人群计数方法、系统、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911214305.1A CN111062274B (zh) | 2019-12-02 | 2019-12-02 | 上下文感知嵌入的人群计数方法、系统、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062274A CN111062274A (zh) | 2020-04-24 |
CN111062274B true CN111062274B (zh) | 2023-11-28 |
Family
ID=70299288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911214305.1A Active CN111062274B (zh) | 2019-12-02 | 2019-12-02 | 上下文感知嵌入的人群计数方法、系统、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062274B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446328B (zh) * | 2020-11-27 | 2023-11-17 | 汇纳科技股份有限公司 | 单目深度的估计系统、方法、设备及计算机可读存储介质 |
CN114973305B (zh) * | 2021-12-30 | 2023-03-28 | 昆明理工大学 | 一种针对拥挤人群的精确人体解析方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104303539A (zh) * | 2012-04-12 | 2015-01-21 | 高通股份有限公司 | 经由上下文感知移动装置估计媒体观众的人口统计数据 |
WO2016064377A1 (en) * | 2014-10-20 | 2016-04-28 | King Abdullah University Of Science And Technology | System and method for crowd counting and tracking |
CN106778502A (zh) * | 2016-11-21 | 2017-05-31 | 华南理工大学 | 一种基于深度残差网络的人群计数方法 |
CN108038432A (zh) * | 2017-11-30 | 2018-05-15 | 中国人民解放军国防科技大学 | 一种基于光流计数的公交人流统计方法及系统 |
CN108492296A (zh) * | 2018-04-04 | 2018-09-04 | 扬州大学 | 基于超像素分割的小麦麦穗智能计数系统及方法 |
CN108596054A (zh) * | 2018-04-10 | 2018-09-28 | 上海工程技术大学 | 一种基于多尺度全卷积网络特征融合的人群计数方法 |
CN109558862A (zh) * | 2018-06-15 | 2019-04-02 | 广州深域信息科技有限公司 | 基于空间感知的注意力细化框架的人群计数方法及系统 |
CN109858461A (zh) * | 2019-02-21 | 2019-06-07 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
CN110276363A (zh) * | 2018-03-15 | 2019-09-24 | 北京大学深圳研究生院 | 一种基于密度图估计的鸟类小目标检测方法 |
CN110427889A (zh) * | 2019-08-05 | 2019-11-08 | 北京深醒科技有限公司 | 一种基于图片的人群计数方法 |
-
2019
- 2019-12-02 CN CN201911214305.1A patent/CN111062274B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104303539A (zh) * | 2012-04-12 | 2015-01-21 | 高通股份有限公司 | 经由上下文感知移动装置估计媒体观众的人口统计数据 |
WO2016064377A1 (en) * | 2014-10-20 | 2016-04-28 | King Abdullah University Of Science And Technology | System and method for crowd counting and tracking |
CN106778502A (zh) * | 2016-11-21 | 2017-05-31 | 华南理工大学 | 一种基于深度残差网络的人群计数方法 |
CN108038432A (zh) * | 2017-11-30 | 2018-05-15 | 中国人民解放军国防科技大学 | 一种基于光流计数的公交人流统计方法及系统 |
CN110276363A (zh) * | 2018-03-15 | 2019-09-24 | 北京大学深圳研究生院 | 一种基于密度图估计的鸟类小目标检测方法 |
CN108492296A (zh) * | 2018-04-04 | 2018-09-04 | 扬州大学 | 基于超像素分割的小麦麦穗智能计数系统及方法 |
CN108596054A (zh) * | 2018-04-10 | 2018-09-28 | 上海工程技术大学 | 一种基于多尺度全卷积网络特征融合的人群计数方法 |
CN109558862A (zh) * | 2018-06-15 | 2019-04-02 | 广州深域信息科技有限公司 | 基于空间感知的注意力细化框架的人群计数方法及系统 |
CN109858461A (zh) * | 2019-02-21 | 2019-06-07 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
CN110427889A (zh) * | 2019-08-05 | 2019-11-08 | 北京深醒科技有限公司 | 一种基于图片的人群计数方法 |
Non-Patent Citations (1)
Title |
---|
葛昭阳.基于目标检测和密度分布的复杂场景人群计数.《中国优秀硕士学位论文全文数据库信息科技辑》.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111062274A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A review of deep learning-based semantic segmentation for point cloud | |
Ban et al. | Superpixel segmentation using Gaussian mixture model | |
Liu et al. | Learning depth from single monocular images using deep convolutional neural fields | |
Li et al. | Depth and surface normal estimation from monocular images using regression on deep features and hierarchical crfs | |
Chen et al. | Image segmentation by MAP-ML estimations | |
Yuan et al. | Factorization-based texture segmentation | |
Liu et al. | Deep convolutional neural fields for depth estimation from a single image | |
Zhao et al. | FLIC: Fast linear iterative clustering with active search | |
CN107944428B (zh) | 一种基于超像素集的室内场景语义标注方法 | |
WO2019071976A1 (zh) | 基于区域增长和眼动模型的全景图像显著性检测方法 | |
CN105761238B (zh) | 一种通过灰度统计数据深度信息提取显著目标的方法 | |
Chen et al. | Face swapping: realistic image synthesis based on facial landmarks alignment | |
CN111062274B (zh) | 上下文感知嵌入的人群计数方法、系统、介质及电子设备 | |
Han | Improved SLIC imagine segmentation algorithm based on K-means | |
Liu et al. | An object tracking method based on Mean Shift algorithm with HSV color space and texture features | |
Li et al. | Superpixel segmentation based on spatially constrained subspace clustering | |
CN111062275A (zh) | 一种多层次监督的人群计数方法、装置、介质及电子设备 | |
Elashry et al. | Feature matching enhancement using the graph neural network (gnn-ransac) | |
Li et al. | Image semantic segmentation based on fully convolutional neural network and CRF | |
Yang et al. | Graph matching based on fast normalized cut and multiplicative update mapping | |
Liang et al. | Using particle swarm large-scale optimization to improve sampling-based image matting | |
Kalboussi et al. | A spatiotemporal model for video saliency detection | |
CN112884884A (zh) | 一种候选区域生成方法及系统 | |
Zhang et al. | Content-based superpixel segmentation and matching using its region feature descriptors | |
Ni et al. | Agglomerative oversegmentation using dual similarity and entropy rate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 201203 No. 6, Lane 55, Chuanhe Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Winner Technology Co.,Ltd. Address before: 201505 Room 216, 333 Tingfeng Highway, Tinglin Town, Jinshan District, Shanghai Applicant before: Winner Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |