CN109344736B - 一种基于联合学习的静态图像人群计数方法 - Google Patents
一种基于联合学习的静态图像人群计数方法 Download PDFInfo
- Publication number
- CN109344736B CN109344736B CN201811060252.8A CN201811060252A CN109344736B CN 109344736 B CN109344736 B CN 109344736B CN 201811060252 A CN201811060252 A CN 201811060252A CN 109344736 B CN109344736 B CN 109344736B
- Authority
- CN
- China
- Prior art keywords
- training
- counting
- regressor
- image
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000003068 static effect Effects 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 43
- 230000004913 activation Effects 0.000 claims description 32
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012956 testing procedure Methods 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- 241000243251 Hydra Species 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- QRXWMOHMRWLFEY-UHFFFAOYSA-N isoniazide Chemical compound NNC(=O)C1=CC=NC=C1 QRXWMOHMRWLFEY-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于联合学习的静态图像人群计数方法,包括:预训练阶段:使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络,通过一个Softmax将图像块分类成三种类别,分别对应三个回归器;回归器训练阶段:将训练数据集的每一个图像块都分别输入三个回归器,同一个图像块都会得到不同的计数结果,将计数误差最小的回归器作为分类标签来标记该图像块,用三种类别的图像块分别对各自的回归器进行微调;分类器训练阶段:随机抽取样本并且保证每种类别的标签数量一致;联合训练阶段:对分类器和回归器不断迭代训练。本发明能够在人群密集场景中进行计数与密度估计,具有一定的尺度自适应性,提高了计数精度与模型泛化能力。
Description
技术领域
本发明涉及一种基于联合学习的静态图像人群计数方法。
背景技术
人群计数有着重要的社会意义和市场应用前景,充分利用人数统计信息可以为一些人群密集的商场、车站、广场等公共场所的安全预警提供有效的指导,还可以带来经济效益,例如提高服务质量、分析顾客行为、投放广告和优化资源配置等。此外,人群计数方法也可以扩展到其他领域,例如从显微图像中计算细胞或细菌数量,在野外动物保护区预估动物群体,以及估计交通枢纽和交通堵塞处的车辆数量等。
静态图像人群计数一般包含人群计数与密度估计两个任务。人群计数的目的是统计静态图像中的人数,而密度估计的目的是将人群图像映射到其对应的密度图中,密度图能够表现出图像中的人群分布特征。世界人口的持续增长和随之而来的城市化导致了体育活动、政治集会、公众游行等活动的增加,从而导致近年来人群聚集场景出现地更加频繁。在这样的人群场景中,出于安全问题而分析群体行为是十分必要的。人群计数就是人群分析任务中的一个基本模块,有着重要的研究与应用价值。
部分人群计数方法是利用视频序列中的帧间关系来捕捉人群进行计数,而多数人群计数方法是对静态图像进行特征提取来计数。随着人群计数的发展与深度学习的兴起,近年来学者们的研究重点是通过卷积神经网络预测出人群密度图从而利用密度图回归的方法进行静态图像人群计数。
静态图像人群计数的传统方法依赖于手工设计的特征描述子来提取低层特征。这些特征通过各种回归技术映射成计数或密度图。现有方法可大致分为三类:基于检测的方法、基于回归的方法和基于密度估计的方法。通过结合深度学习,基于密度回归的方法在这个任务中表现出更强的能力,结果优于传统方法。
静态图像人群计数的早期研究大多数都集中在基于检测的方法上,使用一个类似于移动窗口的检测器来检测人并计算他们的数量,这些方法需要训练好的分类器来从整个人体提取低层特征(如Harr wavelets、HOG、Edgelet、Shapelet),但是,由于大多数目标对象之间相互遮挡,它们在高度拥挤的场景中表现不佳。为了解决这一问题,研究者们将检测全身替换为检测特定的身体部位。随着卷积神经网络的兴起,研究者们开始将深度学习的方法应用于目标检测上,从而进行人群计数。
由于基于检测的方法不能适应高度拥挤的场景,研究者们试图使用基于回归的方法来学习从裁剪的图像块中提取出来的特征之间的关系,然后计算特定对象的数量,更多的特征,例如前景和纹理特征,被用来生成低层特征,通过类似的方法,Idrees提出了一个模型,使用傅里叶分析和SIFT提取特征进行基于兴趣点的计数。
当早期方法在处理遮挡和聚集问题取得成功时,大多数方法在回归全局数量时忽略了重要的空间信息。Lempitsky提出了一种解决该问题的方法,通过学习局部区域的特征与目标密度图之间的线性映射来加入空间信息。由于理想的线性映射很难获得,Pham使用随机森林来学习非线性映射。由于深度学习中的卷积神经网络在分类和识别任务中的成功,研究者们开始用基于卷积神经网络的方法来预测密度图。Walach和Wolf演示了一种选择采样和分层boosting的方法。Shang使用卷积神经网络尝试了一种端到端的回归方法,他放弃基于图像块的训练方法,将整个图像作为输入并且直接输出最终的人群数量。Boominathan纯粹地使用卷积神经网络和双列架构生成了密度图。Marsden探索了单列全卷积网络,而Sindagi提出了一个使用高层先验知识来提高密度预测性能的卷积神经网络。一个改进的结构是由Zhang提出来的,他使用一种基于多列的架构(MCNN)用于人群计数。类似的想法也出现在Onoro和Sastre的论文中,他们提出了一种规模感知、多列的计数模型,被称为“九头蛇”(Hydra)的卷积神经网络,用于目标密度估计。
目前,静态图像人群计数的研究难点在于如何在密集场景中进行人群计数与密度估计,密集场景是指超过2000人的人群场景。就这一挑战而言,主要存在三个问题:
1、计数精度。由于人群密集场景中存在的严重遮挡、角度变化、尺度变化、透视畸形、非均匀密度、标注困难等问题,对计数精度产生了影响。
2、尺度自适应性。人群场景图像中的人头尺度是不一致的,距离摄像头近的人头尺度偏大,而距离摄像头远的人头尺度偏小,这就要求使用的人群计数方法能够适应这种人头尺度的变化,具有一定的自适应性。
3、过拟合现象。将深度学习方法应用到人群计数任务中取得了巨大的成功,但深度学习对数据集的数据量有一定的要求,数据量不足会导致网络过拟合问题,使得模型的泛化能力较差。而由于人工标注的困难性,人群密集场景数据集存在数据量不足的情况,例如UCF_50_CC数据集只包含了50张图像。
发明内容
本发明解决的技术问题是提供一种基于联合学习的静态图像人群计数方法。
本发明的技术方案是:一种基于联合学习的静态图像人群计数方法,包括以下步骤:
2)预训练阶段:
1.1)使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络,其中修改的层参数设为0,分类器将1000维的全连接层改为3维的全连接层,通过一个Softmax将图像块分类成三种类别R1、R2和R3,分别对应三个回归器,回归器R1拥有一个9×9的初始感受野,主要用于捕捉场景中距离摄像头较近的人脸,回归器R2和回归器R3分别拥有7×7和5×5的初始感受野,主要捕捉场景中距离摄像头较远的人头,每个回归器都包括四个卷积层和两个基于索引的随机池化层,基于索引的随机池化方法包括首先根据池化域内激活值的大小对激活值从高到低排序,产生激活值的索引,然后根据公式(3)计算激活值的选择概率:
pr=α(1-α)r-1,r=1,...,n (3)
其中,α是一个超参数,取值为0.5,表示最大激活值的选择概率,r表示激活值的索引,n表示池化域的大小;
最后从选择概率的多项式分布中采样,得到第j个池化域要保留的激活值sj,表示为:
sj=ai,i~multinomial(p1,...,pn) (4)
其中,ai表示池化域j内索引为i的激活值,p1表示索引为1的激活值的选择概率,pn表示索引为n的激活值的选择概率。
1.2)使用训练数据集分别对三列回归器进行训练,损失函数为密度图误差,表示为:
2)回归器训练阶段:
2.1)将训练数据集的每一个图像块都分别输入三个回归器,同一个图像块都会得到不同的计数结果,将计数误差最小的回归器作为分类标签来标记该图像块,计数误差可通过公式(2)计算得到:
2.2)用三种类别(R1,R2,R3)的图像块分别对各自的回归器进行微调,微调时使用随机梯度下降法进行反向传播来优化计数误差,回归器Rk被训练直至验证精度达到一个稳定的状态;
3)分类器训练阶段:随机抽取样本并且保证每种类别的标签数量一致,也就是样本量相同;
4)联合训练阶段:对分类器和回归器进行交替训练,每次迭代分为三个步骤:
a.利用新的分类标签对分类器进行训练,得到新的分类器;
b.利用密度图误差对回归器进行训练,得到新的回归器;
c.新回归器产生新的分类标签,更新图像块的分类标签。
进一步的,本发明中所述方法还包括在预训练阶段之前,将数据集分为训练样本和测试样本,首先对训练样本进行切分,增加训练样本的数量,然后从原训练样本中随机抽取若干样本组成验证集,再利用几何自适应高斯核对训练样本图像块生成真值密度图。
进一步的,本发明中步骤4)还包括交替训练完成后,利用验证集进行测试,选择最佳网络参数。
进一步的,本发明中所述方法还包括步骤5)测试阶段,对训练完成的联合学习模型进行测试,主要包括:
5.1)首先以同样的切分方式对测试样本进行切分;
5.2)将测试样本图像块输入网络得到对应的预测密度图,测试时将基于索引的随机池化层替换为基于索引的加权池化层;
5.3)对预测密度图求和得到图像块预测人数;
5.4)将图像块预测人数相加得到测试样本预测人数;
5.5)通过公式(5)和公式(6)分别对应计算测试集平均绝对误差和均方误差:
本发明与现有技术相比具有以下优点:
1)本发明提出了一个基于残差网络和多列卷积神经网络的联合学习模型,能够适应不同人头尺度的人群图像,从而进一步提高了模型的计数精度。该模型对现有的一个多列卷积神经网络模型进行改进,原模型虽然拥有不同大小的滤波器对应不同尺度的人头,但其子网络通过简单的模型融合生成密度图,整个网络的尺度自适应性较差,对多尺度人群图像的鲁棒性不足。于是,本模型先使用残差网络对图像块进行分类,再利用不同的子网络对密度图进行回归。实验结果证明提出的模型相比较于原始模型具有一定的尺度自适应性,计数精度更高。
2)本发明提出了基于索引的随机池化方法,在选择激活值时具有更多的随机性,从而进一步抑制过拟合现象。卷积神经网络一般采用最大池化选择激活值,忽略了大量有效信息,容易导致网络的过拟合,而该方法对随机池化做出改进,对池化域内的激活值进行排序,根据索引进行随机池化,避免随机池化退化为最大池化。实验结果证明提出的池化方法有助于抑制网络过拟合问题,提高模型的泛化能力。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明方法的网络框架图(其中,C代表卷积层,M-P代表最大池化层,G-A-P代表全局平均池化层,FC代表全连接层,I-S-P代表基于索引的随机池化层)。
具体实施方式
实施例:
结合附图所示为本发明一种基于联合学习的静态图像人群计数方法的具体实施方式,如图1所示,整个网络框架包括一个分类器(残差网络)和三个回归器(多列卷积神经网络),分类器的目的是替图像块自动地选择最适合的回归器,三个回归器是用来预测人群密度图进而计算出人群数量。
本实施例的论证实验使用了两种数据集:UCF_CC_50和ShanghaiTech。UCF_CC_50数据集有50张人群场景图像,数据集的图像包含的人数有巨大的差异,一张图像中最少人数为94人,最多人数为1279人。极小的样本量和巨大的人数变化使得该数据集成为一个极具挑战性的数据集。ShanghaiTech数据集有1198张人群场景图像,该数据集分为PartA和PartB两个部分。PartA是从网络上收集的密集人群场景图像,PartB则是从上海的街道捕捉到的相对稀疏的人群场景图像。人群计数数据集的参数如表1所示。
表1
数据集 | 图像数量 | 分辨率 | 最小 | 平均 | 最大 | 总计数 |
UCF_CC_50 | 50 | - | 94 | 1279 | 4543 | 63,974 |
ShanghaiTechPartA | 482 | - | 33 | 501 | 3139 | 241,677 |
ShanghaiTechPartB | 716 | 768×1024 | 9 | 123 | 578 | 88,488 |
实验硬件环境:Ubuntu16.04,Corei5处理器,GTX750Ti显卡,内存16g。代码运行环境:python2.7,Theano。
(A)实验训练与测试步骤说明
以ShanghaiTechPartA数据集(300个训练样本,182个测试样本)为例,具体说明实验训练与测试步骤:
(a1)实验训练步骤
首先,将数据集分为训练样本和测试样本,对训练样本进行切分,用4行4列的网格分为16个图像子集,增加训练样本的数量,然后从原训练样本中随机抽取22个样本组成验证集,再利用几何自适应高斯核对训练样本图像块生成真值密度图。
接着,进行训练步骤:
1)预训练阶段:
1.1)使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络,其中修改的层参数设为0,这个分类器采用50层的残差网络,将1000维的全连接层改为3维的全连接层,通过一个Softmax将图像块分类成三种类别R1、R2和R3,分别对应三个回归器;
三个回归器拥有不同的感受野,能够捕捉不同尺度的人头,其中,回归器R1拥有一个9×9的初始感受野,可以捕捉场景中距离摄像头较近的人脸,回归器R2和回归器R3分别拥有7×7和5×5的初始感受野,主要捕捉场景中距离摄像头较远的人头,也就是一些团块,例如输入的图像块人群密度较大,人头尺度相对较小,分类器将会把该图像块分类为R3类别,送入R3回归器中,该回归器拥有较小感受野,容易捕捉团块,适合人群密度较高的图像块;
每个回归器都包括四个卷积层和两个基于索引的随机池化层,池化层采用的不是最大池化,而是基于索引的随机池化方法,最大池化总是取池化域内的最大激活值作为池化输出,忽略了大量有用信息,容易导致模型过拟合,再加上数据集本身数据量不足,增加了过拟合的风险,为了抑制这种过拟合,考虑采用随机池化方法,但随机池化也存在不足,不能控制选择概率,在某些情况下会导致最大激活值的选择概率接近或达到1,使得随机池化退化为最大池化,基于索引的随机池化方法首先会根据池化域内激活值的大小对激活值从高到低排序,产生激活值的索引,然后根据公式(3)计算激活值的选择概率:
pr=α(1-α)r-1,r=1,...,n (3)
其中,α是一个超参数,取值为0.5,表示最大激活值的选择概率,r表示激活值的索引,n表示池化域的大小;
最后从选择概率的多项式分布中采样,得到第j个池化域要保留的激活值sj,表示为:
sj=ai,i~multinomial(p1,...,pn) (4)
其中,ai表示池化域j内索引为i的激活值;
1.2)使用训练数据集分别对三列回归器进行训练,损失函数为密度图误差,表示为:
2)回归器训练阶段:
2.1)使用计数误差来衡量回归器的性能,将训练数据集的每一个图像块都分别输入三个回归器,同一个图像块都会得到不同的计数结果,将计数误差最小的回归器作为分类标签来标记该图像块,计数误差可通过公式(2)计算得到:
2.2)用三种类别(R1,R2,R3)的图像块分别对各自的回归器进行微调,微调时使用随机梯度下降法(SGD)进行反向传播来优化计数误差,回归器Rk被训练直至验证精度达到一个稳定的状态;
3)分类器训练阶段:使用ResNet-50作为分类器来将图像块分为三个类别,分类器的训练依赖于回归器训练阶段生成的图像块标签,每种类别的图像块的数量是非常不均衡的,为了缓解这种标签数量的差异性,我们随机抽取样本并且保证每种类别的标签数量一致,也就是样本量相同;
4)联合训练阶段:分类器的训练使得图像块能够自动选择最佳回归器,从而降低预测计数的误差,然而,分离图像块是一个复杂的学习过程,训练后的分类器效果并不理想,为了提高分类器的精确度,减少复杂任务带来的影响,我们采用对分类器和回归器交替训练的方式,迭代次数为30,每次迭代分为三个步骤:
a.利用新的分类标签对分类器进行训练,得到新的分类器;
b.利用密度图误差对回归器进行训练,得到新的回归器;
c.新回归器产生新的分类标签,更新图像块的分类标签。
在交替训练完成后,利用验证集进行测试,选择最佳网络参数。
(a2)实验测试步骤
5)测试阶段:对训练完成的联合学习模型进行测试,主要包括:
5.1)首先对数据集中的测试样本进行切分,用4行4列的网格分为16个图像子集;
5.2)将测试样本图像块输入网络得到对应的预测密度图,测试时将基于索引的随机池化层替换为基于索引的加权池化层;
5.3)对预测密度图求和得到图像块预测人数;
5.4)将图像块预测人数相加得到测试样本预测人数;
5.5)通过公式(5)和公式(6)分别对应计算测试集平均绝对误差和均方误差:
(B)定性分析
(b1)验证联合学习框架有效性
对引入残差网络的联合学习框架的有效性进行验证。该实验采用ShanghaiTech数据集中测试集的平均绝对误差MAE作为量化指标,采用4行4列的网格对样本进行切分,分为16个图像子集,联合学习框架中的回归器采用最大池化方法。实验结果如表2所示。
表2
框架 | Part A | Part B |
多列卷积神经网络(MCNN) | 110.2 | 26.4 |
联合学习网络(JTCNN) | 81.1 | 17.7 |
对比实验验证了采用残差网络和多列卷积神经网络的联合学习框架的计数精度高于单一的多列卷积神经网络。
(b2)验证图像分块有效性
对图像分块的有效性进行验证。该实验采用ShanghaiTech数据集中测试集的平均绝对误差MAE和图像块分类错误率Classification Error Rate作为量化指标,联合学习框架中的回归器采用最大池化方法。实验结果如表3所示。
表3
对比实验验证了图像分块有效性,分别采用2行2列、3行3列、4行4列、5行5列四种分块方式,实验证明用4行4列的网格将样本分为16个图像子集的方式最佳。
(b3)验证基于索引的随机池化方法有效性
对基于索引的随机池化方法的有效性进行验证。该实验采用ShanghaiTech数据集中测试集的平均绝对误差MAE和图像块分类错误率Classification Error Rate作为量化指标,采用4行4列的网格对样本进行切分,分为16个图像子集。实验结果如表4所示。
表4
对比实验验证了基于索引的随机池化方法的有效性,在联合学习框架的三列回归器中分别采用最大池化方法和基于索引的随机池化方法,实验证明基于索引的随机池化方法有效优化计数精度和图像块分类错误率。
(b4)本发明提出的方法实验结果对比
在UCF_CC_50数据集上,本发明方法与现有技术的对比,如表5所示:
表5
在ShanghaiTechPartA数据集上,本发明方法与现有技术的对比,如表6所示:
表6
在ShanghaiTechPartB数据集上,本发明方法与现有技术的对比,如表7所示:
表7
这种静态图像人群计数方法通过联合训练残差网络和多列卷积神经网络,并将最大池化层替换为基于索引的随机池化方法,提高网络的尺度自适应性,抑制数据量过少带来的过拟合现象,从而提高了网络计数精度。
当然上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于联合学习的静态图像人群计数方法,其特征在于,包括以下步骤:
1)预训练阶段:
1.1)使用50层残差网络在ImageNet2012分类数据集上训练得到参数初始化分类器网络,其中修改的层参数设为0,分类器将1000维的全连接层改为3维的全连接层,通过一个Softmax将图像块分类成三种类别R1、R2和R3,分别对应三个回归器,回归器R1拥有一个9×9的初始感受野,主要用于捕捉场景中距离摄像头较近的人脸,回归器R2和回归器R3分别拥有7×7和5×5的初始感受野,主要捕捉场景中距离摄像头较远的人头,每个回归器都包括四个卷积层和两个基于索引的随机池化层,基于索引的随机池化方法包括首先根据池化域内激活值的大小对激活值从高到低排序,产生激活值的索引,然后根据公式(3)计算激活值的选择概率:
pr=α(1-α)r-1,r=1,...,n (3)
其中,α是一个超参数,取值为0.5,表示最大激活值的选择概率,r表示激活值的索引,n表示池化域的大小;
最后从选择概率的多项式分布中采样,得到第j个池化域要保留的激活值sj,表示为:
sj=ai,i~multinomial(p1,...,pn) (4)
其中,ai表示池化域j内索引为i的激活值,p1表示索引为1的激活值的选择概率,pn表示索引为n的激活值的选择概率;
1.2)使用训练数据集分别对三列回归器进行训练,损失函数为密度图误差,表示为:
2)回归器训练阶段:
2.1)将训练数据集的每一个图像块都分别输入三个回归器,同一个图像块都会得到不同的计数结果,将计数误差最小的回归器作为分类标签来标记该图像块,计数误差可通过公式(2)计算得到:
2.2)用三种类别(R1,R2,R3)的图像块分别对各自的回归器进行微调,微调时使用随机梯度下降法进行反向传播来优化计数误差,回归器Rk被训练直至验证精度达到一个稳定的状态;
3)分类器训练阶段:随机抽取样本并且保证每种类别的标签数量一致,也就是样本量相同;
4)联合训练阶段:对分类器和回归器进行交替训练,每次迭代分为三个步骤:
a.利用新的分类标签对分类器进行训练,得到新的分类器;
b.利用密度图误差对回归器进行训练,得到新的回归器;
c.新回归器产生新的分类标签,更新图像块的分类标签。
2.根据权利要求1所述的一种基于联合学习的静态图像人群计数方法,其特征在于:所述方法还包括在预训练阶段之前,将数据集分为训练样本和测试样本,首先对训练样本进行切分,增加训练样本的数量,然后从原训练样本中随机抽取若干样本组成验证集,再利用几何自适应高斯核对训练样本图像块生成真值密度图。
3.根据权利要求2所述的一种基于联合学习的静态图像人群计数方法,其特征在于:步骤4)还包括交替训练完成后,利用验证集进行测试,选择最佳网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811060252.8A CN109344736B (zh) | 2018-09-12 | 2018-09-12 | 一种基于联合学习的静态图像人群计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811060252.8A CN109344736B (zh) | 2018-09-12 | 2018-09-12 | 一种基于联合学习的静态图像人群计数方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344736A CN109344736A (zh) | 2019-02-15 |
CN109344736B true CN109344736B (zh) | 2021-07-09 |
Family
ID=65305206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811060252.8A Active CN109344736B (zh) | 2018-09-12 | 2018-09-12 | 一种基于联合学习的静态图像人群计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344736B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109029989B (zh) * | 2018-09-28 | 2020-02-14 | 西北工业大学 | 一种基于红外热成像的齿轮箱故障诊断方法 |
CN109948553B (zh) * | 2019-03-20 | 2020-07-24 | 北京航空航天大学 | 一种多尺度密集人群计数方法 |
CN110059581A (zh) * | 2019-03-28 | 2019-07-26 | 常熟理工学院 | 基于场景深度信息的人群计数方法 |
CN110096979B (zh) * | 2019-04-19 | 2022-08-02 | 佳都科技集团股份有限公司 | 模型的构建方法、人群密度估计方法、装置、设备和介质 |
CN110210423B (zh) * | 2019-06-05 | 2023-04-25 | 南京大学 | 一种基于多层级回归的人群密度估计方法 |
CN110674350B (zh) * | 2019-09-23 | 2022-02-08 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
CN110728219B (zh) * | 2019-09-29 | 2023-09-26 | 天津大学 | 基于多列多尺度图卷积神经网络的3d人脸生成方法 |
CN110705499B (zh) * | 2019-10-12 | 2020-06-02 | 成都考拉悠然科技有限公司 | 一种基于迁移学习的人群计数方法 |
CN110909601B (zh) * | 2019-10-18 | 2022-12-09 | 武汉虹识技术有限公司 | 一种基于深度学习的美瞳识别方法及系统 |
CN110879982B (zh) * | 2019-11-15 | 2023-06-20 | 苏州大学 | 一种人群计数系统及方法 |
CN111062280B (zh) * | 2019-12-05 | 2022-04-26 | 华中科技大学 | 一种基于距离变换标签的密集群体计数及定位方法 |
CN111105422B (zh) * | 2019-12-10 | 2024-03-08 | 北京小蝇科技有限责任公司 | 一种网织红细胞分类计数模型构建方法及应用 |
CN111179253B (zh) * | 2019-12-30 | 2023-11-24 | 歌尔股份有限公司 | 一种产品缺陷检测方法、装置与系统 |
CN111460912B (zh) * | 2020-03-12 | 2022-10-28 | 南京理工大学 | 基于级联高分辨卷积神经网络的密集人群计数算法 |
CN111553279B (zh) * | 2020-04-28 | 2023-05-05 | 北京百度网讯科技有限公司 | 兴趣点的表征学习、识别方法、装置、设备及存储介质 |
CN111461071A (zh) * | 2020-04-30 | 2020-07-28 | 同济大学 | 一种基于深度学习算法的楼面活荷载统计方法及系统 |
CN112183627B (zh) * | 2020-09-28 | 2024-07-19 | 中星技术股份有限公司 | 生成预测密度图网络的方法和车辆年检标数量检测方法 |
CN112308028B (zh) * | 2020-11-25 | 2023-07-14 | 四川省农业科学院蚕业研究所 | 一种家蚕幼虫智能计数方法 |
CN113887806B (zh) * | 2021-05-09 | 2023-04-07 | 电子科技大学 | 长尾级联流行度预测模型、训练方法及预测方法 |
CN113240650A (zh) * | 2021-05-19 | 2021-08-10 | 中国农业大学 | 基于深度学习密度图回归的鱼苗计数系统及计数方法 |
CN113989229A (zh) * | 2021-10-28 | 2022-01-28 | 杭州图谱光电科技有限公司 | 一种基于随机森林和卷积神经网络的细胞计数方法 |
CN114972111B (zh) * | 2022-06-16 | 2023-01-10 | 慧之安信息技术股份有限公司 | 一种基于gan图像修复的密集人群计数方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040251067A1 (en) * | 2000-01-10 | 2004-12-16 | Government Of The U.S.A As Represented By The Adm. Of The U.S. Environmental Protection Agency | Hydraulic hybrid vehicle with integrated hydraulic drive module and four-wheel-drive, and method of operation thereof |
CN106779073A (zh) * | 2016-12-27 | 2017-05-31 | 西安石油大学 | 基于深度神经网络的媒体信息分类方法及装置 |
-
2018
- 2018-09-12 CN CN201811060252.8A patent/CN109344736B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040251067A1 (en) * | 2000-01-10 | 2004-12-16 | Government Of The U.S.A As Represented By The Adm. Of The U.S. Environmental Protection Agency | Hydraulic hybrid vehicle with integrated hydraulic drive module and four-wheel-drive, and method of operation thereof |
CN106779073A (zh) * | 2016-12-27 | 2017-05-31 | 西安石油大学 | 基于深度神经网络的媒体信息分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
改进Softmax分类器的深度卷积神经网络及其在人脸识别中的应用;冉鹏等;《上海大学学报》;20180630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109344736A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
CN106778595B (zh) | 基于高斯混合模型的人群中异常行为的检测方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
Thai et al. | Image classification using support vector machine and artificial neural network | |
CN107085716A (zh) | 基于多任务生成对抗网络的跨视角步态识别方法 | |
CN107688784A (zh) | 一种基于深层特征和浅层特征融合的字符识别方法及存储介质 | |
CN104992223A (zh) | 基于深度学习的密集人数估计方法 | |
CN102156871B (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN106096561A (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN104077613A (zh) | 一种基于级联多级卷积神经网络的人群密度估计方法 | |
CN104537647A (zh) | 一种目标检测方法及装置 | |
CN103984959A (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN106778687A (zh) | 基于局部评估和全局优化的注视点检测方法 | |
CN111723693A (zh) | 一种基于小样本学习的人群计数方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN104573742A (zh) | 医学图像分类方法和系统 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
Đukić et al. | A low-shot object counting network with iterative prototype adaptation | |
CN103440501A (zh) | 基于非参数空间判决隐狄利克雷模型的场景分类方法 | |
CN104699781B (zh) | 基于双层锚图散列的sar图像检索方法 | |
CN105631469A (zh) | 一种多层稀疏编码特征的鸟类图像识别方法 | |
Su et al. | Semantic segmentation of high resolution remote sensing image based on batch-attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |