CN107967451B - 一种对静止图像进行人群计数的方法 - Google Patents

一种对静止图像进行人群计数的方法 Download PDF

Info

Publication number
CN107967451B
CN107967451B CN201711179075.0A CN201711179075A CN107967451B CN 107967451 B CN107967451 B CN 107967451B CN 201711179075 A CN201711179075 A CN 201711179075A CN 107967451 B CN107967451 B CN 107967451B
Authority
CN
China
Prior art keywords
density map
density
crowd
image
gaussian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711179075.0A
Other languages
English (en)
Other versions
CN107967451A (zh
Inventor
杨彪
曹金梦
张御宇
崔国增
邹凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN201711179075.0A priority Critical patent/CN107967451B/zh
Publication of CN107967451A publication Critical patent/CN107967451A/zh
Application granted granted Critical
Publication of CN107967451B publication Critical patent/CN107967451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种对静止图像进行人群计数的方法,首先将逆高斯密度图与原始高斯密度图结合,组成组合密度图;然后对输入图像不重叠采样获得若干图像子块,并基于图像子块及其对应的真实组合密度图训练网络;以相同步幅对输入图像重叠采样,将MMCNN预测得到的每个图像子块的组合密度图叠加,重构完整人群图像的组合密度图,进而实现人群计数。此外,针对人群尺度差异问题,本发明通过一种分尺度损失函数衡量不同尺度网络学习到的特征。同时,本发明提出的网络以多任务的方式同时预测人群组合密度图、密度级别以及前景/背景分类,由此改善组合密度图的估计准确性,从而缓减人群密度不均问题。

Description

一种对静止图像进行人群计数的方法
技术领域
本发明属于智能监控领域,特别涉及一种对静止图像进行人群计数的方法。
背景技术
作为智能视频监控的重要组成部分,公共场所的人群计数有许多应用,包括人群控制,异常行为检测和行人行为分析。人群计数可用于检测在宗教活动或体育赛事中的潜在风险并防止过度拥挤。同时,人群计数可以扩展到其他领域,例如从微观图像计数细胞或细菌。
现有的人群计数方法通常分为三类,即通过检测计数、聚类计数和回归计数。通过检测计数法,根据检测场景中人的个数实现人群计数。然而,由于使用具有不同尺度的预训练检测器对图像空间进行彻底扫描,所以检测过程十分耗时。又因为人群中背景混乱,存在严重的遮挡导致计数结果不准确。而通过聚类计数法,假设人群由个体组成,每个个体具有独特而连贯的运动模式,可以通过聚类估计场景中行人的数量。但是可靠的运动模式只能从足够高帧率的视频中提取出来。同时,运动模式通常从密集光流中提取,这个过程相当耗时。与检测计数和聚类计数法不同,通过回归计数法旨在实现特定视觉特征和人群计数之间的直接映射,而无需检测或跟踪人群中的个体。这种方法花费时间较少且能有效处理如人群局部遮挡等问题。通过回归计数法涉及两个主要任务,即提取特征以及设计回归模型。在第一个任务中,可以从检测到的人群中手动提取前景区域,如形状、边缘和其他特征等。许多研究集中于手动提取特征。支持向量机(SVM)能够仅使用少量训练样本进行估计。其他如随机森林、神经网络和高斯回归方法等也被广泛用于预测人群数量。然而,回归计数法主要在稀疏人群的场景下效果较好,在极其密集的人群中,手动提取的特征几乎无法捕捉有效信息,也不能准确预测人群数量。
近期,很多研究专注于基于深度学习的人群计数。其中,大多数研究尝试通过密度估算人群,通过将输入人群图像映射到其相应的密度图,以密度图表示图像中每个像素的人数。与手动提取的特征不同,实验表明由诸如卷积神经网络(convolution neuralnetwork,CNN)等深层网络自动提取的特征在预测人群数量方面优于传统的手动提取的特征,其在处理人群严重遮挡,场景杂乱等问题上更有效。然而,基于深度学习的人群计数仍然存在诸如不均匀人群分布和尺度不一等挑战。基于上述问题,本发明提出了一种利用多尺度多任务卷积神经网络(multi-scale multi-task convolution neural network,MMCNN)进行人群计数的方法。
发明内容
本发明目的在于提出一种对静止图像人群计数的方法,此方法对人群遮挡、人群分布不均、尺度不一等问题具有很强的鲁棒性。
本发明的技术方案为:
一种对静止图像进行人群计数的方法,包括以下步骤:
1):由高斯密度图和逆高斯密度图计算组合密度图;
2):构建多尺度卷积神经网络解决人群尺度差异问题;
3):采取不同的采样策略对输入人群图像进行训练及预测;
4):通过多任务学习提高结果的准确性。
进一步,所述步骤1)具体包括:
1.1):计算高斯密度图
利用估计密度图进行人群计数,估计密度图由以行人头部位置为中心的高斯核累加得到,获得图像子块中行人头部的中心位置Ph后,生成的密度图为:
Figure GDA0002904660110000021
其中Di(p)是高斯密度图,Pi是第i个图像子块,Z是图像子块的真实人数,σh表示归一化二维高斯核Nh的方差,生成的密度图中某一位置的值越高表示该位置人群密度越大;
1.2):计算逆高斯密度图
将高斯密度图反转,获取逆高斯密度图
Figure GDA0002904660110000022
Figure GDA0002904660110000023
其中Di(p)[m,n]表示高斯密度图在[m,n]处的值,Th是用于区分高斯密度图边缘与背景的给定阈值;逆高斯密度图由图像子块的真实人数Z归一化,即
Figure GDA0002904660110000024
1.3):计算组合密度图
由高斯密度图及对应的逆高斯密度图,通过
Figure GDA0002904660110000025
计算组合密度图。
进一步,所述步骤2)具体为:
2.1):构建三个具有不同尺度信息的卷积神经网络CNN通道,包括原始通道、上采样通道及下采样通道,每个通道由四个不同大小局部感受野的卷积层组成;对具有较大感受野的CNN通道,使用较少数量的滤波器,以减小网络规模;
2.2):每个CNN通道前两层卷积之后连接步长为2的最大池化层,故不同通道第3层卷积的输入是原图大小的1/4;
2.3):采用去卷积操作,保证第4个卷积层输出的特征大小相同的同时弥补由于之前最大池化操作导致丢失的细节,去卷积运算次数取决于每个CNN通道第4个卷积层输出特征的大小。
进一步,所述步骤3)具体包括:
3.1):训练阶段:
将人群图像等分成若干图像子块,采用不重叠采样策略,利用图像子块和对应的真实标记,以多任务的方式训练网络;真实标记包括组合密度图、人群密度等级以及背景/前景分类;
3.2):测试阶段:
以相同步幅对输入图像重叠采样,按照多任务学习的方式估计每个图像子块的组合密度图、人群密度级别和背景/前景分类;将所有图像子块的组合密度图重构获得整张图像的密度图,对于重叠部分,将该处密度值除以重叠次数进行归一化;
3.3):训练、测试阶段均通过对整张人群图像的组合密度图进行积分,计算全局人群数量。
进一步,所述步骤4)具体包括:
4.1):计算组合密度图与真实值之间的损失Ldensity
将三个CNN通道第4个卷积层输出的特征通过Merge层合并,然后输入到第5层卷积,最后将第5层卷积的输出映射到组合密度图,计算组合密度图与真实值之间的损失Ldensity
Figure GDA0002904660110000031
其中N是训练样本数目,Θ是网络参数,Pi是第i小块,Fd(Pi,Θ)是Pi的估计密度图,
Figure GDA0002904660110000032
是Fd(Pi,Θ)的真实值;
4.2):计算人群密度等级与真实值之间的损失Llevel
通过一组级联卷积滤波器对第5层卷积的输出进行处理,其次使用高度为3的空间金字塔池SPP保证任意大小图像均可输入训练;采用4个全连接层,前3个全连接层后紧接着PReLU激活层,第4个全连接层之后连接sigmoid激活层,表示输入图像子块的人群密度等级。估计人群密度等级与其真实值之间的损失Llevel
Figure GDA0002904660110000041
其中M是密度级别个数,Fc(Pi,Θ)是估计的Pi密度级,
Figure GDA0002904660110000042
是真实值;
4.3):计算前景/背景分类与真实值之间的损失Lmask
将合并的特征映射到背景/前景分类,计算背景/前景分类与真实值之间的损失Lmask
Figure GDA0002904660110000043
其中Fm(Pi,Θ)是Pi背景/前景分类估计,
Figure GDA0002904660110000044
是真实值;
由尺度和背景/前景分类的相关性,分尺度损失PLmask定义如下:
Figure GDA0002904660110000045
其中N是训练样本数目,αj表示第j尺度的权重,Θj是j尺度下的CNN通道的参数,
Figure GDA0002904660110000046
是Pi的背景/前景分类估计;
4.4):确定联合损失函数Ltotal
多尺度多任务卷积神经网络损失函数最终定义为:Ltotal=λ1Ldensity2Llevel3PLmask,其中λ1、λ2、λ3是不同损失函数的权重。
本发明的有益效果:
1)考虑到传统高斯密度图的中心响应较强、边缘响应较弱,本发明通过逆高斯密度图增强边缘信息,再将高斯密度图和逆高斯密度图计算组合密度图,同时考虑行人位置和细节(边缘)信息,能较好模拟真实人群密度,由此估计人群数目。
2)由于距离摄像机不同的密集人群具有不同的尺度信息,本发明通过构建多尺度卷积神经网络,运用三个CNN通道对输入到网络的图像子块同时使用原始图像采样、下采样和上采样,从而解决人群尺度差异问题,有效提取人群特征。
3)本发明对输入图像采取不同采样方式进行训练及预测,提高模型泛化能力;训练阶段采用不重叠采样策略,避免由于样本相似性过大导致模型泛化能力差,测试阶段以相同步幅对输入图像重叠采样,估计每个图像子块的密度图。
4)考虑到不同人群分布问题,本发明联合估计密度图和人群密度等级分类,针对仍有一些背景被认为是人群的问题,本发明在执行多任务学习时进一步添加了背景/前景(BG/FG)分类,提高检测结果的准确性。
附图说明
图1是本发明对静止图像进行人群计数方法的系统流程图;
图2是本发明中提出的组合密度图与高斯密度图、逆高斯密度图的对比示意图,图2(a)是高斯密度图,图2(b)是逆高斯密度图,图2(c)是组合密度图;
图3是本发明中多尺度多任务卷积神经网络示意图;
图4是本发明中训练阶段示意图;
图5是本发明中预测阶段示意图。
具体实施方式
下面将结合附图对本发明作进一步的说明,但本发明的保护范围并不限于此。
图1给出了对静止图像进行人群计数方法的系统流程图:
本发明提出的人群计数方法,将人群图像分割成若干个图像子块,每个图像子块都使用上采样和下采样进行处理,以获得不同尺度的信息。然后通过构建多尺度CNN从所有尺度的图像子块中自动提取特征。这些特征以多任务学习方式估计密度图,人群密度等级和背景/前景分类。最后根据所有图像子块的组合密度图重新构建人群图像的组合密度图,并通过对整张人群图像的组合密度图的值求和并积分计算人群数量。
本发明的具体操作步骤:
1)生成训练组合密度图
①计算高斯密度图
在密集人群中,头部信息基本都能够被检测到,而身体部分信息常被忽略,因此本实施例主要根据头部信息进行人群计数。目前,通常利用估计密度图的方法进行人群计数,估计密度图由以头部位置为中心的高斯核累加得到。也就是说,获得图像子块中行人头部的中心位置Ph后,其生成的密度图为:
Figure GDA0002904660110000051
其中:Di(p)是高斯密度图,Pi是第i个图像子块,Z是图像子块的真实人数,Nh是归一化二维高斯核,σh表示Nh的方差,生成的密度图中某一位置的值越高表示该位置人群密度越大。
②计算逆高斯密度图
传统高斯密度图的中心响应较强,边缘响应较弱,其注重人群中头部的位置信息,而忽略边缘信息。为此,本实施例将原始高斯密度图反转,获取逆高斯密度图以增强边缘信息。逆高斯密度图
Figure GDA0002904660110000061
定义如下:
Figure GDA0002904660110000062
其中Di(p)[m,n]表示高斯密度图在[m,n]处的值,m、n分别表示高斯密度图的长和宽,Th是用于区分高斯密度图边缘与背景的给定阈值(边缘在高斯密度图中有弱响应,而背景没有响应),本实施例中,设置Th=max{Di(p)[m,n]}/25,逆高斯密度图由图像子块的真实人数Z归一化,即
Figure GDA0002904660110000063
③计算组合密度图
获得高斯密度图及对应的逆高斯密度图后,本实施例同时考虑行人位置和细节(边缘)信息,通过公式(3)计算组合密度图;由于高斯密度图和逆高斯密度图都已归一化,故组合密度图
Figure GDA0002904660110000064
无需尺寸归一化。
Figure GDA0002904660110000065
图2(a)、(b)、(c)给出了高斯密度图、逆高斯密度图以及本实施例提出的组合密度图的示意图。
2)构建多尺度卷积神经网络
目前,很多研究使用多个CNN通道处理不同尺度信息,但大多数只是采用金字塔下采样处理输入数据或特征,并将所有特征连接在一起;然而,在离摄像机很远的密集人群中,细节信息容易丢失,下采样可能导致神经网络无法提取人群的有效特征。因此,对于输入到MMCNN的图像子块,同时使用下采样和上采样提取不同尺度信息,最小化每个尺度的损失后合并。
本实施例提出的一种用于人群计数的MMCNN示意图如图3所示,MMCNN的左边部分包括上采样、原始图片采样和下采样三个CNN通道,每个通道有四个不同大小局部感受野的卷积层。在保持原始图像大小(宽为W,高为H)不变的基础上,通过上采样和下采样获得不同尺度信息。一般来说,具有较大感受野的滤波器对头部较大的密度图建模更有效。原始通道采用1个7×7卷积,3个5×5卷积提取有效特征,上采样通道处理的图像中人群头部较大,使用较大局部感受野卷积层提取特征(1个9×9卷积,3个7×7卷积),下采样通道则采用局部感受野较小的卷积层(1个5×5卷积,3个3×3卷积)。为降低计算复杂度,对于具有较大感受野的CNN通道,使用较少数量的滤波器。每个通道前4个卷积后都连接Dropout层、Parametric Rectified Linear Unit(PReLU)激活层和Local Response Normalization(LRN)层,且前两层卷积之后连接步长为2的最大池化层,故不同通道第3层卷积的输入(conv1_3,conv2_3和conv3_3)是原图大小的1/4。对于每个通道的第4个卷积层,采用去卷积运算进行上采样。去卷积运算次数取决于由第4个卷积层输出特征的大小。例如,在下采样通道采用3个去卷积层,将特征尺寸从
Figure GDA0002904660110000071
扩大到W×H。去卷积主要是为了保证要合并的特征大小相同(W×H),另一个重要的原因是弥补由于之前的池化操作导致丢失的细节。
3)训练及预测细节
图4所示为本发明中训练阶段示意图,将人群图像等分成若干图像子块,采用不重叠采样策略,避免由于样本相似性过大导致模型泛化能力差。利用图像子块和对应的真实标记(组合密度图、人群密度等级以及背景/前景分类),以多任务的方式训练网络。本实施例将人群图像分为16个图像子块(UCSD数据集的人群图像分为9个图像子块),对于每个图像子块,使用步骤1)提出的方法计算其组合密度图;同时,对于该图像子块,计算背景/前景分类和人群密度水平。本实施例中,只将人群中的头像作为前景,身体部分视为背景。利用图像子块和对应的真实标记(组合密度图、人群密度等级以及背景/前景分类),以多任务的方式训练网络。
图5所示为本发明中预测阶段示意图,以相同步幅对输入图像重叠采样,估计每个图像子块的密度图;将所有图像子块的组合密度图重构获得整张图像的密度图,重叠部分以该处值除以重叠次数进行归一化;以多任务学习方式同时预测密度图,人群密度级别和背景/前景分类。
通过对整张人群图像的组合密度图值进行积分,计算全局人群数量。值得注意的是,人群总数是一个小数,而不是整数。
4)运用多任务学习策略
除了步骤2)提及的尺度变化,不同人群分布是人群计数的另一个具有挑战性的问题,特别是基于估计密度图的方法。回归问题简单地减少输出特征和密度图之间的损失,很容易达到局部最优。许多研究试图通过联合优化多个相关的目标函数处理这个问题,本实施例联合估计密度图和人群密度等级分类,依据Fu等人[参见文献:Fu M,Xu P,Li X,etal.Fast crowd density estimation with convolutional neural networks[J].Engineering Applications of Artificial Intelligence,2015,43:81-88.]提出的方法,将人群分为6个密度等级:极高密度、高密度、中等密度、低密度、极低密度及没有人(考虑到图像子块中只有背景存在的情况,添加一类“没有人”)。尽管同时估计了两个目标,但仍然有一些背景被认为是人群。为解决这个问题,本实施例在执行多任务学习时进一步添加了背景/前景(BG/FG)分类,BG/FG分类与密度图类似,但只关注人群的位置信息,而密度图同时兼顾位置信息和强度信息;因此,可以使用较少的卷积滤波器估计BG/FG分类。
图3中MMCNN的右边部分描述了多任务策略,本实施例采用1×1卷积将合并的特征映射到BG/FG分类,估计BG/FG分类与其真实值之间的损失Lmask。对于其他任务,合并的特征首先输出到大小为3×3的第5层卷积(conv5),然后采用1×1卷积将conv5的输出映射到密度图,计算密度图与其真实值之间的损失Ldensity。对于分类任务,conv5的输出首先通过一组级联卷积滤波器进行处理。为了使用任意大小的图像进行训练,使用高度为3的空间金字塔池(SPP)消除包含全连接层的深层网络的固定尺寸约束。本实施例中采用4个全连接层(FC),即FC1(512个神经元)、FC2(256个神经元)、FC3(32个神经元)和FC4(6个神经元)。前3个FC层后紧接着PReLU激活层,FC4之后连接sigmoid激活层,表示输入图像子块的人群密度等级。估计人群密度等级与其真实值之间的损失Llevel
5)计算分尺度损失函数
本实施例提出的MMCNN以多任务学习的方式训练,将3个损失(Ldensity,Llevel和Lmask)最小化。MMCNN的主要目标是预测图像子块密度图,进一步估计人群图片中的人数;估计密度图与其真实值之间的损失Ldensity使用欧几里德损失来计算。定义如下:
Figure GDA0002904660110000081
其中N是训练样本数目,Θ是网络参数,Fd(Pi,Θ)是Pi的估计密度图,
Figure GDA0002904660110000082
是Fd(Pi,Θ)的真实值。
为了处理人群的不均匀分布,同时估计人群密度等级和背景/前景分类,估计密度等级与其真实值之间的损失Llevel使用交叉熵损失计算;Llevel定义如下:
Figure GDA0002904660110000083
其中M是密度级别个数,Fc(Pi,Θ)是估计的Pi密度级,
Figure GDA0002904660110000084
是真实值。
背景/前景分类用于防止网络将背景区域误认为人群,估计分类与真实值之间的损失Lmask,也使用欧氏距离计算,定义为:
Figure GDA0002904660110000091
其中Fm(Pi,Θ)是Pi背景/前景分类估计,
Figure GDA0002904660110000092
是真实值。
为了处理连续尺度变化,本实施例使用分尺度损失在多尺度CNN上改进,使得获得的特征更具区分性,提高计数准确率。考虑到尺度和背景/前景分类的相关性,分尺度损失PLmask定义如下:
Figure GDA0002904660110000093
其中αj表示第j尺度的权重,Θj是尺度j下的CNN通道的参数,
Figure GDA0002904660110000094
是Pi的估计背景/前景分类。
最终,MMCNN的损失函数定义为:
Ltotal=λ1Ldensity2Llevel3PLmask (8)
其中λ123是不同损失函数的权重,通过交叉验证设置λ1=1,λ2=0.1,λ3=0.001;为使Ltotal最小化,每个尺度学习到的特征易于鉴别,初始化αj时使其较大,然后逐渐减小其值。
以上所述对本发明进行了简单说明,并不受上述工作范围限值,只要采取本发明思路和工作方法进行简单修改运用到其他设备,或在不改变本发明主要构思原理下做出改进和润饰的等行为,均在本发明的保护范围之内。

Claims (4)

1.一种对静止图像进行人群计数的方法,其特征在于,包括以下步骤:
1):由高斯密度图和逆高斯密度图计算组合密度图;
1.1):计算高斯密度图
利用估计密度图进行人群计数,估计密度图由以行人头部位置为中心的高斯核累加得到,获得图像子块中行人头部的中心位置Ph后,生成的密度图为:
Figure FDA0002904660100000011
其中Di(p)是高斯密度图,Pi是第i个图像子块,Z是图像子块的真实人数,σh表示归一化二维高斯核Nh的方差,生成的密度图中某一位置的值越高表示该位置人群密度越大;
1.2):计算逆高斯密度图
将高斯密度图反转,获取逆高斯密度图
Figure FDA0002904660100000012
Figure FDA0002904660100000013
其中Di(p)[m,n]表示高斯密度图在[m,n]处的值,m、n分别表示高斯密度图的长和宽,Th是用于区分高斯密度图边缘与背景的给定阈值;逆高斯密度图由图像子块的真实人数Z归一化,即
Figure FDA0002904660100000014
1.3):计算组合密度图
由高斯密度图及对应的逆高斯密度图,通过
Figure FDA0002904660100000015
计算组合密度图;
2):构建多尺度卷积神经网络解决人群尺度差异问题;
3):采取不同的采样策略对输入人群图像进行训练及预测;
4):通过多任务学习提高结果的准确性。
2.根据权利要求1所述的一种对静止图像进行人群计数的方法,其特征在于,所述步骤2)具体为:
2.1):构建三个具有不同尺度信息的卷积神经网络CNN通道,包括原始通道、上采样通道及下采样通道,每个通道由四个不同大小局部感受野的卷积层组成;对具有较大感受野的CNN通道,使用较少数量的滤波器,以减小网络规模;
2.2):每个CNN通道前两层卷积之后连接步长为2的最大池化层,故不同通道第3层卷积的输入是原图大小的1/4;
2.3):采用去卷积操作,保证第4个卷积层输出的特征大小相同的同时弥补由于之前最大池化操作导致丢失的细节,去卷积运算次数取决于每个CNN通道第4个卷积层输出特征的大小。
3.根据权利要求1所述的一种对静止图像进行人群计数的方法,其特征在于,所述步骤3)具体包括:
3.1):训练阶段:
将人群图像等分成若干图像子块,采用不重叠采样策略,利用图像子块和对应的真实标记,以多任务的方式训练网络;真实标记包括组合密度图、人群密度等级以及背景/前景分类;
3.2):测试阶段:
以相同步幅对输入图像重叠采样,按照多任务学习的方式估计每个图像子块的组合密度图、人群密度级别和背景/前景分类;将所有图像子块的组合密度图重构获得整张图像的密度图,对于重叠部分,将该处密度值除以重叠次数进行归一化;
3.3):训练、测试阶段均通过对整张人群图像的组合密度图进行积分,计算全局人群数量。
4.根据权利要求2所述的一种对静止图像进行人群计数的方法,其特征在于,所述步骤4)具体包括:
4.1):计算组合密度图与真实值之间的损失Ldensity
将三个CNN通道第4个卷积层输出的特征通过Merge层合并,然后输入到第5层卷积,最后将第5层卷积的输出映射到组合密度图,计算组合密度图与真实值之间的损失Ldensity
Figure FDA0002904660100000021
其中N是训练样本数目,Θ是网络参数,Pi是第i小块,Fd(Pi,Θ)是Pi的估计密度图,
Figure FDA0002904660100000022
是Fd(Pi,Θ)的真实值;
4.2):计算人群密度等级与真实值之间的损失Llevel
通过一组级联卷积滤波器对第5层卷积的输出进行处理,其次使用高度为3的空间金字塔池SPP保证任意大小图像均可输入训练;采用4个全连接层,前3个全连接层后紧接着PReLU激活层,第4个全连接层之后连接sigmoid激活层,表示输入图像子块的人群密度等级;估计人群密度等级与其真实值之间的损失Llevel
Figure FDA0002904660100000031
其中M是密度级别个数,Fc(Pi,Θ)是估计的Pi密度级,
Figure FDA0002904660100000032
是真实值;
4.3):计算前景/背景分类与真实值之间的损失Lmask
将合并的特征映射到背景/前景分类,计算背景/前景分类与真实值之间的损失Lmask
Figure FDA0002904660100000033
其中Fm(Pi,Θ)是Pi背景/前景分类估计,
Figure FDA0002904660100000034
是真实值;
由尺度和背景/前景分类的相关性,分尺度损失PLmask定义如下:
Figure FDA0002904660100000035
其中N是训练样本数目,αj表示第j尺度的权重,Θj是j尺度下的CNN通道的参数,
Figure FDA0002904660100000036
是Pi的背景/前景分类估计;
4.4):确定联合损失函数Ltotal
多尺度多任务卷积神经网络损失函数最终定义为:Ltotal=λ1Ldensity2Llevel3PLmask,其中λ1、λ2、λ3是不同损失函数的权重。
CN201711179075.0A 2017-11-23 2017-11-23 一种对静止图像进行人群计数的方法 Active CN107967451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711179075.0A CN107967451B (zh) 2017-11-23 2017-11-23 一种对静止图像进行人群计数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711179075.0A CN107967451B (zh) 2017-11-23 2017-11-23 一种对静止图像进行人群计数的方法

Publications (2)

Publication Number Publication Date
CN107967451A CN107967451A (zh) 2018-04-27
CN107967451B true CN107967451B (zh) 2021-04-27

Family

ID=62000714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711179075.0A Active CN107967451B (zh) 2017-11-23 2017-11-23 一种对静止图像进行人群计数的方法

Country Status (1)

Country Link
CN (1) CN107967451B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108814585B (zh) * 2018-05-03 2021-05-28 深圳竹信科技有限公司 心电信号处理方法、装置和计算机可读存储介质
CN110443266B (zh) * 2018-05-04 2022-06-24 上海商汤智能科技有限公司 对象预测方法及装置、电子设备和存储介质
CN108764085B (zh) * 2018-05-17 2022-02-25 上海交通大学 基于生成对抗网络的人群计数方法
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN109035251B (zh) * 2018-06-06 2022-05-27 杭州电子科技大学 一种基于多尺度特征解码的图像轮廓检测方法
CN109558862B (zh) * 2018-06-15 2023-04-07 拓元(广州)智慧科技有限公司 基于空间感知的注意力细化框架的人群计数方法及系统
CN109166100A (zh) * 2018-07-24 2019-01-08 中南大学 基于卷积神经网络的多任务学习细胞计数方法
CN109241895B (zh) 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置
EP3627379A1 (en) * 2018-09-24 2020-03-25 Siemens Aktiengesellschaft Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium
CN110956057A (zh) * 2018-09-26 2020-04-03 杭州海康威视数字技术股份有限公司 一种人群态势分析方法、装置及电子设备
CN109271960B (zh) * 2018-10-08 2020-09-04 燕山大学 一种基于卷积神经网络的人数统计方法
CN109472291A (zh) * 2018-10-11 2019-03-15 浙江工业大学 一种基于dnn算法的人数统计分类方法
CN109543695B (zh) * 2018-10-26 2023-01-06 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN109447008B (zh) * 2018-11-02 2022-02-15 中山大学 基于注意力机制和可变形卷积神经网络的人群分析方法
CN109815867A (zh) * 2019-01-14 2019-05-28 东华大学 一种人群密度估计和人流量统计方法
CN111488964A (zh) * 2019-01-29 2020-08-04 北京市商汤科技开发有限公司 图像处理方法及装置、神经网络训练方法及装置
CN109948553B (zh) * 2019-03-20 2020-07-24 北京航空航天大学 一种多尺度密集人群计数方法
CN110119676B (zh) * 2019-03-28 2023-02-03 广东工业大学 一种基于神经网络的驾驶员疲劳检测方法
US11048948B2 (en) * 2019-06-10 2021-06-29 City University Of Hong Kong System and method for counting objects
CN110503666B (zh) * 2019-07-18 2021-11-23 上海交通大学 一种基于视频的密集人群计数方法与系统
CN110472593B (zh) * 2019-08-20 2021-02-09 重庆紫光华山智安科技有限公司 训练图像获取方法、模型训练方法及相关装置
CN110610143B (zh) * 2019-08-27 2023-05-12 汇纳科技股份有限公司 多任务联合训练的人群计数网络方法、系统、介质及终端
CN110569920B (zh) * 2019-09-17 2022-05-10 国家电网有限公司 一种多任务机器学习的预测方法
CN110598669A (zh) * 2019-09-20 2019-12-20 郑州大学 一种复杂场景中人群密度的检测方法和系统
CN110648322B (zh) * 2019-09-25 2023-08-15 杭州智团信息技术有限公司 一种子宫颈异常细胞检测方法及系统
CN110751226A (zh) * 2019-10-28 2020-02-04 苏州大学 人群计数模型的训练方法、装置和存储介质
CN110991252B (zh) * 2019-11-07 2023-07-21 郑州大学 一种不均衡场景中人群分布与计数的检测方法
CN111027389B (zh) * 2019-11-12 2023-06-30 通号通信信息集团有限公司 人群计数系统中基于可变形高斯核的训练数据生成方法
CN111507183B (zh) * 2020-03-11 2021-02-02 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN111652107A (zh) * 2020-05-28 2020-09-11 北京市商汤科技开发有限公司 对象计数方法及装置、电子设备和存储介质
CN111860162B (zh) * 2020-06-17 2023-10-31 上海交通大学 一种视频人群计数系统及方法
CN111783589B (zh) * 2020-06-23 2022-03-15 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN112633074B (zh) * 2020-11-30 2024-01-30 浙江华锐捷技术有限公司 行人信息的检测方法和装置、存储介质及电子设备
CN113989229A (zh) * 2021-10-28 2022-01-28 杭州图谱光电科技有限公司 一种基于随机森林和卷积神经网络的细胞计数方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105633946A (zh) * 2015-10-21 2016-06-01 长沙理工大学 一种提取高风电穿透母线日净有功功率随机模糊特征的建模新方法
CN105631858A (zh) * 2015-12-21 2016-06-01 北京大学深圳研究生院 基于样本块的图像目标计数方法
CN106778502A (zh) * 2016-11-21 2017-05-31 华南理工大学 一种基于深度残差网络的人群计数方法
CN106923856A (zh) * 2017-04-14 2017-07-07 郑州大学第附属医院 一种同时实现ct灌注与能谱肝脏扫描的影像处理方法
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195598B2 (en) * 2007-11-16 2012-06-05 Agilence, Inc. Method of and system for hierarchical human/crowd behavior detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105633946A (zh) * 2015-10-21 2016-06-01 长沙理工大学 一种提取高风电穿透母线日净有功功率随机模糊特征的建模新方法
CN105631858A (zh) * 2015-12-21 2016-06-01 北京大学深圳研究生院 基于样本块的图像目标计数方法
CN106778502A (zh) * 2016-11-21 2017-05-31 华南理工大学 一种基于深度残差网络的人群计数方法
CN106923856A (zh) * 2017-04-14 2017-07-07 郑州大学第附属医院 一种同时实现ct灌注与能谱肝脏扫描的影像处理方法
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Counting congested crowds under wild conditions with a multi-task Inception network";Biao Yang et.al.;《Communications in Information and Systems》;20170331;第17卷(第1期);第1-24页 *
"Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs";Vishwanath A. Sindagi and Vishal M. Patel;《arXiv》;20170802;第1-14页 *
"Single-Image Crowd Counting via Multi-Column Convolutional Neural Network";Yingying Zhang et.al.;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161231;第589-597页 *
"人群密度估计研究现状及发展趋势";姜源等;《ELECTRONINGS WORLD探索与观察》;20161231;第58-59页 *
"基于卷积神经网络人群计数的研究与实现";吴淑窈等;《学科探索》;20170930;第16-17页 *

Also Published As

Publication number Publication date
CN107967451A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
Ke et al. Multi-dimensional traffic congestion detection based on fusion of visual features and convolutional neural network
Raza et al. Appearance based pedestrians’ head pose and body orientation estimation using deep learning
Basalamah et al. Scale driven convolutional neural network model for people counting and localization in crowd scenes
Wang et al. Multi-scale dilated convolution of convolutional neural network for crowd counting
CN108615027B (zh) 一种基于长短期记忆-加权神经网络对视频人群计数的方法
Zhao et al. Crossing-line crowd counting with two-phase deep neural networks
Roshtkhari et al. An on-line, real-time learning method for detecting anomalies in videos using spatio-temporal compositions
Sharma et al. Performance analysis of moving object detection using BGS techniques in visual surveillance
Khan et al. SD-Net: Understanding overcrowded scenes in real-time via an efficient dilated convolutional neural network
Paolanti et al. Deep understanding of shopper behaviours and interactions using RGB-D vision
Yang et al. Counting challenging crowds robustly using a multi-column multi-task convolutional neural network
CN112329685A (zh) 一种融合型卷积神经网络人群异常行为检测的方法
Bour et al. Crowd behavior analysis from fixed and moving cameras
Sengar et al. Motion detection using block based bi-directional optical flow method
Singh et al. A deep learning based technique for anomaly detection in surveillance videos
Jeyabharathi et al. Vehicle Tracking and Speed Measurement system (VTSM) based on novel feature descriptor: Diagonal Hexadecimal Pattern (DHP)
Hu et al. Parallel spatial-temporal convolutional neural networks for anomaly detection and location in crowded scenes
Yang et al. Counting crowds using a scale-distribution-aware network and adaptive human-shaped kernel
Usmani et al. Particle swarm optimization with deep learning for human action recognition
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
Wu et al. Spatial-temporal graph network for video crowd counting
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
CN106056078A (zh) 一种基于多特征回归式集成学习的人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant