CN110705344B - 一种基于深度学习的人群计数模型及其实现方法 - Google Patents

一种基于深度学习的人群计数模型及其实现方法 Download PDF

Info

Publication number
CN110705344B
CN110705344B CN201910772643.0A CN201910772643A CN110705344B CN 110705344 B CN110705344 B CN 110705344B CN 201910772643 A CN201910772643 A CN 201910772643A CN 110705344 B CN110705344 B CN 110705344B
Authority
CN
China
Prior art keywords
crowd
density map
image
sub
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910772643.0A
Other languages
English (en)
Other versions
CN110705344A (zh
Inventor
林倞
甄家杰
刘凌波
李冠彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910772643.0A priority Critical patent/CN110705344B/zh
Publication of CN110705344A publication Critical patent/CN110705344A/zh
Application granted granted Critical
Publication of CN110705344B publication Critical patent/CN110705344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的人群计数模型及其实现方法,所述方法包括:步骤S1,获取人群图像,对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图;步骤S2,将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用特征增强模块增强各个尺度的特征;步骤S3,将多个子网络产生的特征结合,生成估计的人群密度图;步骤S4,利用估计的人群密度图与真实的人群密度图计算损失,更新模型参数;步骤S5,利用不同人群图像多次迭代式地进行步骤S1‑S4的训练过程,直到符合停止的条件。

Description

一种基于深度学习的人群计数模型及其实现方法
技术领域
本发明涉及基于深度学习的计算机视觉技术领域,特别是涉及一种基于深度学习的人群计数模型及其实现方法。
背景技术
人群计数是计算机视觉中的一个重要研究课题,其目标是根据人群图像自动生成人群密度图并估计场景中的人数。最近,由于其广泛的实际应用,例如视频监控、交通管理和人群流量预测,这项任务在学术界和工业界都受到越来越多的关注。
传统的人群计数算法一般需要对图像进行复杂的预处理,并且需要人工设计和提取特征,在跨场景的情况下往往需要重新提取特征,适应性较差。近几年,卷积神经网络的成功运用为人群计数技术带来了重大突破,C.Zhang等人在2015年的研究工作“Cross-scene Crowd Counting via Deep Convolutional Neural Networks”(IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),June 2015)提出一个适用人群计数的卷积神经网络模型,其实现了端对端训练,无需进行前景分割以及人为地设计和提取特征,经过多层卷积之后得到高层特征,提高在跨场景人群计数的性能。然而,在不同的拥挤场景中,人群规模差异很大,同一图象中因距离摄像头距离不同人群的密度和分布也存在差异,该类方法无法捕捉如此巨大的规模变化。
为了解决人群规模变化的问题,一些研究工作的关注点放在了提取多个不同尺度的特征以减少规模变化的影响,例如Y.Zhang等人在2016年的研究工作“Single-ImageCrowd Counting via Multi-Column Convolutional Neural Network”(IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),June 2016)和X.Cao等人在2018年的研究工作“Scale Aggregation Network for Accurate and Efficient CrowdCounting”(Proceedings of the European Conference on Computer Vision(ECCV),2018),均通过提取多个不同尺度的特征以减少规模变化,然而,这些方法大多采用简单的策略来融合多个特征,不能很好地捕获不同尺度的特征之间的互补信息。人群在不同场景下的规模差异问题仍未得到完全解决。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于深度学习的人群计数模型及其实现方法,以解决现有技术在不同场景下的人群规模差异问题。
为达上述目的,本发明提出一种基于深度学习的人群计数模型,包括:
预处理单元,用于获取人群图像,对获取的人群图像进行预处理后输出至特征提取单元,并利用标注信息产生对应的人群密度图;
特征提取单元,用于将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用特征增强模块增强各个尺度的特征;
估计人群密度图生成单元,用于将多个子网络产生的特征结合,生成估计的人群密度图;
更新单元,用于使用所述估计人群密度图生成单元生成的估计的人群密度图与所述预处理单元生成的真实人群密度图计算损失,更新模型参数;
迭代训练单元,用于多次迭代式地对不同人群图像进行所述预处理单元、特征提取单元、估计人群密度图生成单元以及更新单元的训练过程,直到满足设定的停止条件时停止训练。
优选地,所述预处理单元进一步包括:
图像裁剪模块,用于对获取的人群图像随机裁剪成固定大小的图像;
人群密度图生成模块,用于利用标注的人头位置信息通过高斯核生成对应的人群密度图,将其作为标签图像。
优选地,所述人群密度图生成模块通过如下公式生成人群密度图:
Figure GDA0002303032180000031
其中,M代表所述人群图像中的人数,x代表图像中每个像素的位置,xi代表第i个人的标注位置,δ(x-xi)表示激活函数,
Figure GDA0002303032180000032
表示标准差为σi的高斯核,β为一常数,/>
Figure GDA0002303032180000033
代表第i个人的标注位置与其周边的m个人的标注位置的平均距离,/>
Figure GDA0002303032180000034
优选地,所述特征提取单元进一步包括:
子网络构建模块,用于构建多个并行的子网络,对输入的人群图像提取多个尺度的图像的特征;
特征增强模块,用于在子网络各个下采样层前结合不同尺度的特征,增强各个尺度的特征。
优选地,所述并行的子网络使用相同的网络结构并共享参数,由预训练的VGG-16模型的前十个卷积层组成,前十个卷积层分成四组,每一组卷积层之间都有一个下采样层,用于扩大感受野。
优选地,所述特征增强模块设置在每一组卷积层后下采样层前,基于条件随机场对各个子网络中相同大小的特征进行互补增强,。
优选地,所述特征增强模块基于条件随机场增强各个尺度的特征具体为根据如下公式:
Figure GDA0002303032180000035
式中fi为第i个子网络的原特征,
Figure GDA0002303032180000036
为迭代增强过程中的中间特征,/>
Figure GDA0002303032180000037
为第i个子网络增强后的特征,/>
Figure GDA0002303032180000038
为可学习的参数。
优选地,所述估计人群密度图生成单元采用自顶向下的方式所述特征提取单元产生的多个特征组,将不同感受野、不同尺度的特征结合生成估计的人群密度图。
优选地,所述更新单元利用所述估计人群密度图生成单元中生成的估计的人群密度图与预处理单元产生的真实人群密度图基于扩张卷积算法的多尺度结构相似性计算损失,并采用自适应矩估计优化算法更新模型参数。
为达到上述目的,本发明还提供一种基于深度学习的人群计数模型的实现方法,包括如下步骤:
步骤S1,获取人群图像,对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图;
步骤S2,将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用特征增强模块增强各个尺度的特征;
步骤S3,将多个子网络产生的特征结合,生成估计的人群密度图;
步骤S4,使用估计的人群密度图与真实的人群密度图计算损失,更新模型参数;
步骤S5,利用不同人群图像多次迭代式地进行步骤S1-S4的训练过程,直到符合停止的条件。
与现有技术相比,本发明一种基于深度学习的人群计数模型及其实现方法通过对人群图像进行预处理并利用标注信息产生对应的人群密度图,然后将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用条件随机场模型增强各个尺度的特征,将多层子网络产生的特征结合,生成估计的人群密度图,使用估计密度图与真实密度图计算损失,更新模型参数,多次迭代进行训练过程直到符合停止的条件,最后得到最终的人群计数模型,可有效地解决在不同场景下的人群规模差异问题。
附图说明
图1为本发明一种基于深度学习的人群计数模型的系统架构图;
图2为本发明具体实施例中包括三个并行的子网络的特征提取单元的结构图;
图3为本发明具体实施例中扩张多尺度结构相似性算法的示意图;
图4为本发明一种基于深度学习的人群计数模型的实现方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于深度学习的人群计数模型的系统架构图。如图1所示,本发明一种基于深度学习的人群计数模型,包括:
预处理单元101,用于获取人群图像,对获取的人群图像进行预处理后输出至特征提取单元102,并利用标注信息产生对应的人群密度图。
具体地,预处理单元101进一步包括
图像裁剪模块,用于对获取的人群图像随机裁剪成固定大小的图像,例如大小为224×224,所述人群图像可以是从训练数据集中获取的图像,也可以是通过摄像装置拍摄获得的人群图像,在本发明具体实施例中,预处理单元101从训练数据集中获取人群图像,图像裁剪模块对获得的人群图像随机裁剪成固定大小224×224,并输出至特征提取单元102。
人群密度图生成模块,用于利用标注的人头位置信息通过高斯核生成对应的人群密度图,作为标签图像。也就是说,对于人群图像中的人头位置信息进行标注,然后利用标注的人头位置信息通过高斯核生成对应的224*224分辨率的人群密度图,在本发明具体实施例中,人头位置信息可采用人工标注方式。
具体地说,本发明参考Y.Zhang等人的研究工作“Single-Image Crowd Countingvia Multi-Column Convolutional Neural Network”(IEEE Conference on ComputerVision and Pattern Recognition(CVPR),June 2016),对传统的基于高斯核的密度图进行改进,使用基于几何适应高斯核的人群密度图作为模型的标签图像。与人群总数相比,人群密度图给出了在给定图像中人群的空间分布,包含着更多信息,更有利于网络学习,而对密度图求和即可得到人群总数。通过高斯核生成对应的人群密度图具体可根据如下公式实现:
Figure GDA0002303032180000061
式中M代表人群图像中的人数,x代表图像中每个像素的位置,xi代表第i个人的标注位置,δ(x-xi)表示激活函数,当x与xi的距离大于设定的阈值时为0,小于等于设定的阈值时为1,
Figure GDA0002303032180000062
表示标准差为σi的高斯核,β为一常数,/>
Figure GDA0002303032180000063
代表第i个人的标注位置与其周边的m个人的标注位置的平均距离,即/>
Figure GDA0002303032180000064
特征提取单元102,用于将输入的224×224分辨率的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用条件随机场模型增强各个尺度的特征。
具体地,特征提取单元102具体用于:
子网络构建模块,用于构建多个并行的子网络,以提取多个尺度的图像的特征。在本发明具体实施例中,子网络构建模块构建三个并行的子网络,以提取三个尺度的图像的特征,各子网络使用相同的网络结构并共享参数,由VGG-16模型的前十个卷积层组成;
特征增强模块,用于在子网络各个下采样层前结合不同尺度的特征,基于条件随机场增强各个尺度的特征。
如图2所示,三个并行的子网络使用相同的网络结构并共享参数,由VGG-16模型的前十个卷积层组成,卷积层的初始化使用预训练VGG-16模型的参数。前十个卷积层分成四组,分别为卷积层1_2、卷积层2_2、卷积层3_3、卷积层4_3,其中卷积层i_j中的j表示层数。每一组卷积层之间都有一个下采样层,用于扩大感受野。
本发明嵌入了特征增强模块来对特征图进行微调,具体地,该特征增强模块基于条件随机场。在基于条件随机场的特征增强模块中,采用以下的能量公式:
Figure GDA0002303032180000071
其中,
Figure GDA0002303032180000072
代表原特征和增强后的特征的相似性,/>
Figure GDA0002303032180000073
代表两个增强后的特征之间的相关性,它们的定义如下所示:
Figure GDA0002303032180000074
Figure GDA0002303032180000075
通过平均场推断可得:
Figure GDA0002303032180000076
优选地,可使用迭代近似,得到最终的增强特征公式:
Figure GDA0002303032180000077
Figure GDA0002303032180000078
表示第i个特征在第t次迭代后的中间特征,/>
Figure GDA0002303032180000079
表示第i个增强后的特征,
Figure GDA00023030321800000710
表示在每次迭代中第j个中间特征的权重,是可学习的参数。
在一组卷积层后增加一个基于条件随机场的特征增强模块,对各个子网络中相同大小的特征进行互补增强,使得模型更充分地利用不同尺度下的特征,提高对人头尺度变化的鲁棒性。
估计人群密度图生成单元103,用于将多个子网络产生的特征结合,生成估计的人群密度图。具体地,通过自顶向下的方式,处理特征提取单元102产生的多个特征组,将不同感受野、不同尺度的特征结合生成估计的人群密度图。
如图2所示,在本发明具体实施例中,特征提取单元102共有四个特征增强模块,四组增强前的特征记为
Figure GDA0002303032180000081
其中/>
Figure GDA0002303032180000082
表示在第k个子网络的卷积层i_j之后的特征,同一组的特征具有相同的长和宽以及相同的通道数。
除了最顶层输出的密度图M4,每一个密度图Mi都是利用上一个输出的密度图Mi+1和第i个特征组生成。具体的生成策略如下:
首先对最顶层的输出
Figure GDA0002303032180000083
用一个1×1卷积层将其通道数降为128,然后通过一个3×3卷积层产生密度图M4
对于其余的密度图Mi的生成,将第i组的特征在通道维度级联,,用一个1×1卷积层将其通道数降为128,然后通过一个3×3卷积层产生中间密度图
Figure GDA0002303032180000084
最后通过如下公式:
Figure GDA0002303032180000085
生成密度图Mi。其中wi和wi+1为可学习的参数,Up()表示双线性插值运算。通过这种结合方式,充分利用不同尺度、不同感受野的特征,生成效果更好的人群密度图。
更新单元104,用于使用估计人群密度图生成单元103生成的估计的人群密度图与预处理单元生成的真实人群密度图计算损失,更新模型参数。具体地,使用估计人群密度图生成单元103中生成的估计的人群密度图与预处理单元101产生的真实人群密度图计算损失,并采用自适应矩估计优化算法更新模型参数。损失计算方法基于本发明提出的扩张多尺度结构相似性。
在本发明具体实施例中,所述损失计算方法基于本发明提出的扩张多尺度结构相似性。图3为本发明具体实施例中扩张多尺度结构相似性算法的结构图。对估计的人群密度图X0和真实的人群密度图Y0,分别通过扩张卷积算法,聚合多个不同感受野的信息,聚合使用5×5的高斯核,定义为w={w(o)|o∈O,O={(-2,-2),...,(2,2)}},其中o表示离核中心的偏移量。具体聚合的方式如下式所示:
Figure GDA0002303032180000091
其中ri+1为第i+1层的扩张率,用于控制感受野的大小,Yi+1(p)的计算方法也类似上述式子。
利用每一层的聚合信息,对每一层进行结构相似性的运算,先使用如下公式:
Figure GDA0002303032180000092
Figure GDA0002303032180000093
其中,
Figure GDA0002303032180000094
表示以位置p为中心的局部区域的加权平均值,即
Figure GDA0002303032180000095
计算方差和协方差,然后使用如下公式:
Figure GDA0002303032180000096
Figure GDA0002303032180000097
Figure GDA0002303032180000098
分别计算亮度对比因子Li、对比度因子Ci和结构对比因子Si,其中c1、c2和c3的作用是防止分母为0,Xi和Yi的结构相似性如下式所示:
SSIM(Xi,Yi)=Li·Ci·Si
最终,本发明提出的扩张多尺度结构相似性及损失函数定义如下:
Figure GDA0002303032180000099
Loss(X0,Y0)=1-DMS–SSIM(X0,Y0)
其中,DMS-SSIM(Dilated Multi Scale-Structural Similarity Index)表示扩张多尺度结构相似性,αi为第i层结构相似性的权重,其数值的定义参照Z.Wang等人的研究工作“Multiscale structural similarity for image quality assessment”(InAsilomar Conference on Signals,Systems and Computers,volume 2,pages 1398–1402.Ieee,2003)。
本发明通过扩张多尺度结构相似性计算损失,能促进网络捕获不同大小区域内的局部相关性,从而生成具有局部一致性的密度图。
迭代训练单元105,用于多次迭代式地进行预处理单元101、特征提取单元102、估计人群密度图生成单元103以及更新单元104的训练过程,直到满足设定的停止条件时停止训练。
图4为本发明一种基于深度学习的人群计数模型的实现方法的步骤流程图。如图4所示,本发明一种基于深度学习的人群计数模型的实现方法,包括如下步骤:
步骤S1,获取人群图像,对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图。
具体地,步骤S1进一步包括:
步骤S101,对人群图像随机裁剪成固定大小224×224。所述人群图像可以是从训练数据集中获取的图像,也可以是通过摄像装置拍摄获得的人群图像,在本发明具体实施例中,则从训练数据集中获取人群图像,对获得的人群图像随机裁剪成固定大小224×224;
步骤S102,利用标注的人头位置信息通过高斯核生成对应的人群密度图,作为标签图像。
本发明参考Y.Zhang等人的研究工作“Single-Image Crowd Counting viaMulti-Column Convolutional Neural Network”(IEEE Conference on Computer Visionand Pattern Recognition(CVPR),June 2016),对传统的基于高斯核的密度图进行改进,使用基于几何适应高斯核的人群密度图作为模型的标签图像。与人群总数相比,人群密度图给出了在给定图像中人群的空间分布,包含着更多信息,更有利于网络学习,而对密度图求和即可得到人群总数。通过高斯核生成对应的人群密度图的步骤具体为根据如下公式:
Figure GDA0002303032180000111
其中,M代表人群图像中的人数,x代表图像中每个像素的位置,xi代表第i个人的标注位置,
Figure GDA0002303032180000112
表示标准差为σi的高斯核,β为一常数,/>
Figure GDA0002303032180000113
代表第i个人的标注位置与其周边的m个人的标注位置的平均距离,即/>
Figure GDA0002303032180000114
步骤S2,将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用条件随机场模型增强各个尺度的特征。
具体地,步骤S2进一步包括:
步骤S201,构建多个并行的子网络,以提取多个尺度的图像的特征。在本发明具体实施例中,构建三个并行的子网络,以提取三个尺度的图像的特征;
步骤S202,在子网络各个下采样层前结合不同尺度的特征,利用条件随机场模型增强各个尺度的特征。
在本发明具体实施例中,如图2所示,构建三个并行的子网络,三个并行的子网络使用相同的网络结构并共享参数,由VGG-16模型的前十个卷积层组成,卷积层的初始化使用预训练VGG-16模型的参数。前十个卷积层分成四组,分别为卷积层1_2、卷积层2_2、卷积层3_3、卷积层4_3,其中卷积层i_j中的j表示层数。每一组卷积层之间都有一个下采样层,用于扩大感受野。
优选地,本发明还嵌入了一个特征增强模块来对特征图进行微调,具体地,该特征增强模块基于条件随机场。在基于条件随机场的特征增强模块中,采用以下的能量公式:
Figure GDA0002303032180000115
其中,
Figure GDA0002303032180000116
代表原特征和增强后的特征的相似性,/>
Figure GDA0002303032180000117
代表两个增强后的特征之间的相关性,它们的定义如下所示:
Figure GDA0002303032180000121
Figure GDA0002303032180000122
通过平均场推断可得:
Figure GDA0002303032180000123
优选地,可使用迭代近似,得到最终的增强特征公式:
Figure GDA0002303032180000124
在一组卷积层后增加一个基于条件随机场的特征增强模块,对各个子网络中相同大小的特征进行互补增强,使得模型更充分地利用不同尺度下的特征,提高对人头尺度变化的鲁棒性。
步骤S3,将多个子网络产生的特征结合,生成估计的人群密度图。具体地,通过自顶向下的方式,处理步骤S2产生的多个特征组,将不同感受野、不同尺度的特征结合生成估计的人群密度图。
在本发明具体实施例中,所述的特征结合方式具体描述如下:
如图2所示,在本发明具体实施例中,共使用四个特征增强模块,四组增强前的特征记为
Figure GDA0002303032180000125
其中/>
Figure GDA0002303032180000126
表示在第k个子网络的卷积层i_j之后的特征,同一组的特征具有相同的长和宽以及相同的通道数。
除了最顶层输出的密度图M4,每一个密度图Mi都是利用上一个输出的密度图Mi+1和第i个特征组生成。具体的生成策略如下:
首先对最顶层的输出
Figure GDA0002303032180000127
用一个1×1卷积层将其通道数降为128,然后通过一个3×3卷积层产生密度图M4。/>
对于其余的密度图Mi的生成,将第i组的特征在通道维度级联,,用一个1×1卷积层将其通道数降为128,然后通过一个3×3卷积层产生中间密度图
Figure GDA0002303032180000128
最后通过如下公式:
Figure GDA0002303032180000131
生成密度图Mi。其中wi和wi+1为可学习的参数,Up()表示双线性插值运算。通过这种结合方式,充分利用不同尺度、不同感受野的特征,生成效果更好的人群密度图。
步骤S4,使用估计的人群密度图与真实的人群密度图计算损失,更新模型参数。具体地,使用步骤S3中生成的估计的人群密度图与步骤S1产生的真实的人群密度图计算损失,并采用自适应矩估计优化算法更新模型参数。
在本发明具体实施例中,所述损失计算方法基于本发明提出的扩张多尺度结构相似性。图3为本发明具体实施例中扩张多尺度结构相似性算法的结构图。对估计的人群密度图X0和真实的人群密度图Y0,分别通过扩张卷积算法,聚合多个不同感受野的信息。聚合使用5×5的高斯核,定义为w={w(o)|o∈O,O={(-2,-2),...,(2,2)}},其中o表示离核中心的偏移量。具体聚合的方式如下式所示:
Figure GDA0002303032180000132
其中ri+1为第i+1层的扩张率,用于控制感受野的大小。Yi+1(p)的计算方法也类似上述式子。
利用每一层的聚合信息,对每一层进行结构相似性的运算,先使用如下式子:
Figure GDA0002303032180000133
Figure GDA0002303032180000134
计算方差和协方差。然后使用如下式子:
Figure GDA0002303032180000135
Figure GDA0002303032180000141
Figure GDA0002303032180000142
分别计算亮度对比因子Li、对比度因子Ci和结构对比因子Si。其中c1、c2和c3的作用是防止分母为0。Xi和Yi的结构相似性如下式所示:
SSIM(Xi,Yi)=Li·Ci·Si
最终,本发明提出的扩张多尺度结构相似性及损失函数定义如下:
Figure GDA0002303032180000143
Loss(X0,Y0)=1-DMS–SSIM(X0,Y0)
其中αi为第i层结构相似性的权重,其数值的定义参照Z.Wang等人的研究工作“Multiscale structural similarity for image quality assessment”(In AsilomarConference on Signals,Systems and Computers,volume 2,pages 1398–1402.Ieee,2003)。
本发明通过扩张多尺度结构相似性计算损失,能促进网络捕获不同大小区域内的局部相关性,从而生成具有局部一致性的密度图。
步骤S5,多次迭代式地进行步骤S1-S4的训练过程,直到符合停止的条件。具体地,交替进行步骤S1、S2、S3、S4,直到满足设定的停止条件时停止第一阶段的训练。
综上所述,本发明一种基于深度学习的人群计数模型及其实现方法通过对人群图像进行预处理并利用标注信息产生对应的人群密度图,然后将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用条件随机场模型增强各个尺度的特征,将多层子网络产生的特征结合,生成估计的人群密度图,使用估计密度图与真实密度图计算损失,更新模型参数,多次迭代进行训练过程直到符合停止的条件,最后得到最终的人群计数模型,可有效地解决在不同场景下的人群规模差异问题。本发明针对不同场景下人群规模存在差异的问题,利用多个子网络提取多个尺度的特征,通过基于条件随机场的增强模块相互改进多个尺度的特征,提高其对尺度变化的鲁棒性,最终的效果超过了所有现有的人群计数方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (5)

1.一种基于深度学习的人群计数模型,包括:
预处理单元,用于获取人群图像,对获取的人群图像进行预处理后输出至特征提取单元,并利用标注信息产生对应的人群密度图;
特征提取单元,用于将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用特征增强模块增强各个尺度的特征;
估计人群密度图生成单元,用于将多个子网络产生的特征结合,生成估计的人群密度图;
更新单元,用于根据所述估计人群密度图生成单元生成的估计的人群密度图与所述预处理单元生成的真实人群密度图计算损失,更新模型参数;
迭代训练单元,用于多次迭代式地对不同人群图像进行所述预处理单元、特征提取单元、估计人群密度图生成单元以及更新单元的训练过程,直到满足设定的停止条件时停止训练;
所述预处理单元进一步包括:
图像裁剪模块,用于对获取的人群图像随机裁剪成固定大小的图像;
人群密度图生成模块,用于利用标注的人头位置信息通过高斯核生成对应的人群密度图,将其作为标签图像;
所述人群密度图生成模块通过如下公式生成人群密度图:
Figure FDA0004010702350000011
其中,M代表所述人群图像中的人数,x代表图像中每个像素的位置,xi代表第i个人的标注位置,δ(x-xi)表示激活函数,
Figure FDA0004010702350000012
表示标准差为σi的高斯核,β为一常数,/>
Figure FDA0004010702350000013
代表第i个人的标注位置与其周边的m个人的标注位置的平均距离,/>
Figure FDA0004010702350000014
所述特征提取单元进一步包括:
子网络构建模块,用于构建多个并行的子网络,对输入的人群图像提取多个尺度的图像的特征;
特征增强模块,用于在子网络各个下采样层前结合不同尺度的特征,增强各个尺度的特征;
所述并行的子网络使用相同的网络结构并共享参数,由预训练的VGG-16模型的前十个卷积层组成,前十个卷积层分成四组,每一组卷积层之间都有一个下采样层,用于扩大感受野;
所述特征增强模块设置在每一组卷积层后下采样层前,基于条件随机场对各个子网络中相同大小的特征进行互补增强。
2.如权利要求1所述的一种基于深度学习的人群计数模型,其特征在于:所述特征增强模块基于条件随机场增强各个尺度的特征具体为根据如下公式:
Figure FDA0004010702350000021
/>
其中,fi为第i个子网络的原特征,
Figure FDA0004010702350000022
为迭代增强过程中的中间特征,/>
Figure FDA0004010702350000023
为第i个子网络增强后的特征,/>
Figure FDA0004010702350000024
为可学习的参数。
3.如权利要求1所述的一种基于深度学习的人群计数模型,其特征在于:所述估计人群密度图生成单元采用自顶向下的方式所述特征提取单元产生的多个特征组,将不同感受野、不同尺度的特征结合生成估计的人群密度图。
4.如权利要求1所述的一种基于深度学习的人群计数模型,其特征在于:所述更新单元利用所述估计人群密度图生成单元中生成的估计的人群密度图与预处理单元产生的真实人群密度图基于扩张卷积算法的多尺度结构相似性计算损失,并采用自适应矩估计优化算法更新模型参数。
5.一种权利要求1至4任一所述的基于深度学习的人群计数模型的实现方法,包括如下步骤:
步骤S1,获取人群图像,对获取的人群图像进行预处理并利用标注信息产生对应的人群密度图;
步骤S2,将输入的人群图像缩放成多个尺度版本,通过多个子网络提取各个尺度的特征,并利用特征增强模块增强各个尺度的特征;
步骤S3,将多个子网络产生的特征结合,生成估计的人群密度图;
步骤S4,根据估计的人群密度图与真实的人群密度图计算损失,更新模型参数;
步骤S5,利用不同人群图像多次迭代式地进行步骤S1-S4的训练过程,直到符合停止的条件。
CN201910772643.0A 2019-08-21 2019-08-21 一种基于深度学习的人群计数模型及其实现方法 Active CN110705344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910772643.0A CN110705344B (zh) 2019-08-21 2019-08-21 一种基于深度学习的人群计数模型及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910772643.0A CN110705344B (zh) 2019-08-21 2019-08-21 一种基于深度学习的人群计数模型及其实现方法

Publications (2)

Publication Number Publication Date
CN110705344A CN110705344A (zh) 2020-01-17
CN110705344B true CN110705344B (zh) 2023-03-28

Family

ID=69193408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910772643.0A Active CN110705344B (zh) 2019-08-21 2019-08-21 一种基于深度学习的人群计数模型及其实现方法

Country Status (1)

Country Link
CN (1) CN110705344B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488827A (zh) * 2020-04-10 2020-08-04 山东师范大学 一种基于多尺度特征信息的人群计数方法及系统
CN111488834B (zh) * 2020-04-13 2023-07-04 河南理工大学 一种基于多层级特征融合的人群计数方法
CN111626134B (zh) * 2020-04-28 2023-04-21 上海交通大学 一种基于隐密度分布的密集人群计数方法、系统及终端
CN112001278A (zh) * 2020-08-11 2020-11-27 中山大学 一种基于结构化知识蒸馏的人群计数模型及其方法
CN113192006A (zh) * 2021-04-06 2021-07-30 山东师范大学 一种基于双模态网络的人群计数方法及系统
CN113095273A (zh) * 2021-04-25 2021-07-09 哈尔滨理工大学 一种基于深度学习的人群计数方法
CN113343882A (zh) * 2021-06-21 2021-09-03 平安普惠企业管理有限公司 人群计数方法、装置、电子设备及存储介质
CN113591380B (zh) * 2021-07-28 2022-03-22 浙江大学 基于图高斯过程的交通流预测方法、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN109461157A (zh) * 2018-10-19 2019-03-12 苏州大学 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN109543695A (zh) * 2018-10-26 2019-03-29 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN109598220A (zh) * 2018-11-26 2019-04-09 山东大学 一种基于多元输入多尺度卷积的人数统计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912288B2 (en) * 2006-09-21 2011-03-22 Microsoft Corporation Object detection and recognition system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN109461157A (zh) * 2018-10-19 2019-03-12 苏州大学 基于多级特征融合及高斯条件随机场的图像语义分割方法
CN109543695A (zh) * 2018-10-26 2019-03-29 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN109598220A (zh) * 2018-11-26 2019-04-09 山东大学 一种基于多元输入多尺度卷积的人数统计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Single-Image Crowd Counting via Multi-Column Convolutional Neural Network;Yingying Zhang等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161212;正文全文 *

Also Published As

Publication number Publication date
CN110705344A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110705344B (zh) 一种基于深度学习的人群计数模型及其实现方法
CN109543695B (zh) 基于多尺度深度学习的泛密度人群计数方法
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN108615027B (zh) 一种基于长短期记忆-加权神经网络对视频人群计数的方法
CN111723645B (zh) 用于同相机内有监督场景的多相机高精度行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN107330390B (zh) 一种基于图像分析和深度学习的人数统计方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN106803055A (zh) 人脸识别方法和装置
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN112001278A (zh) 一种基于结构化知识蒸馏的人群计数模型及其方法
WO2021249114A1 (zh) 目标跟踪方法和目标跟踪装置
CN112529904A (zh) 图像语义分割方法、装置、计算机可读存储介质和芯片
CN112288776A (zh) 一种基于多时间步金字塔编解码器的目标跟踪方法
CN115861883A (zh) 一种多目标检测追踪方法
CN115393603A (zh) 一种动态环境下基于改进SuperPoint的视觉SLAM方法
CN112241959A (zh) 基于超像素的注意力机制生成语义分割方法
CN111753671A (zh) 一种现实场景的人群计数方法
Wang et al. Edge computing-enabled crowd density estimation based on lightweight convolutional neural network
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
George et al. Abnormal activity detection using shear transformed spatio-temporal regions at the surveillance network edge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant