CN109389044B - 基于卷积网络与多任务学习的多场景人群密度估计方法 - Google Patents

基于卷积网络与多任务学习的多场景人群密度估计方法 Download PDF

Info

Publication number
CN109389044B
CN109389044B CN201811051713.5A CN201811051713A CN109389044B CN 109389044 B CN109389044 B CN 109389044B CN 201811051713 A CN201811051713 A CN 201811051713A CN 109389044 B CN109389044 B CN 109389044B
Authority
CN
China
Prior art keywords
scene
regression
density map
density
crowd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811051713.5A
Other languages
English (en)
Other versions
CN109389044A (zh
Inventor
潘志松
唐斯琪
李云波
焦珊珊
黎维
刘祯
王彩玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201811051713.5A priority Critical patent/CN109389044B/zh
Publication of CN109389044A publication Critical patent/CN109389044A/zh
Application granted granted Critical
Publication of CN109389044B publication Critical patent/CN109389044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积网络与多任务学习的多场景人群密度估计系统及方法。包括人群密度图生成模块、跨摄像头多场景学习模块、各场景密度图校准模块。其中框架的第一部分为基于卷积神经网络的鲁棒密度图生成模块,卷积神经网络由三个深度融合子网络组成,每个深度融合子网络具有三路卷积核大小、数目不同的网络构成,因此可以有效把握密度估计问题的共性,对实际应用中在背景、光照、人群密度等方面数据分布差异较大的跨摄像头多场景监控视频帧进行较为鲁棒的密度图估计;框架的第二部分为基于多任务学习的各场景数据分布学习,学习到各个场景互不相同的人群分布特征;框架第三部分利用多任务学习学习到的各个场景人群分布特征对第一部分通用人群密度估计的结果进行校准微调。此系统在真实监控场景下,可以对多场景跨摄像头的人群进行高效准确地密度估计。

Description

基于卷积网络与多任务学习的多场景人群密度估计方法
技术领域
本发明涉及一种计算机视觉与智能监控技术,具体来说是一种基于卷积网络与多任务学习的多场景人群密度估计系统。
背景技术
近年来城市中高密度人群聚集的现象日益频繁,踩踏事件时有发生,严重威胁城市公共安全,因此在公共场合对人群进行管控、预警的技术日益成为智能监控与城市安防领域的研究重点。人群密度估计技术是指通过计算机视觉技术对人群的密度进行估计,从而对高密度人群进行预警与疏散,已成为人群管控中的重要技术。
目前有方案基于无监督学习的方法来做人数统计任务,例如基于自相似方法或是基于运动相似算法。此类方法的优点是简单便捷,普适性强,可以直接部署于各个背景、人群分布不同的场景,但由于其误差较大,难以达到实际应用所需要的准确度。
目前也有利用深度学习中卷积神经网络的方法进行有监督学习,从而训练能够回归人群密度的卷积网络的技术方案。此种方法准确性更高,但是缺点在于必须保证训练集于测试集的数据处于同一分布。然而在实际应用场景中,各个位置的摄像头由于背景不同,人群的集中分布区域、人群的密度会有较大差别,因此每当需要部署于一个摄像头对应的场景,往往需要采集并标注大量此摄像头对应场景的人群图片重新训练密度图回归网络,或是当采用模型微调的方式进行迁移,这两种机制都需要针对部署场景付出额外的数据采集标注与模型训练代价,在实际海量摄像头的部署应用过程中数据标注与模型训练的代价极大。
而多任务学习正是一种有效地对各个任务场景之间的共性和特性进行学习,从而有效提升每一场景的任务准确率,并提升数据利用效率,降低每个场景所需数据量的方法。
发明内容
1、发明目的。
本发明针对现有技术的不足,基于多任务学习与卷积神经网络,提供能够部署于实际海量监控摄像头中的人群密度估计系统及方法。
2、本发明所采用的技术方案。
本发明提出的基于卷积网络与多任务学习的多场景人群密度估计系统,包括:
粗密度估计模块,利用卷积神经网络对任意场景的人群监控视频帧进行密度图回归,得到粗略密度图;
多任务学习模块,利用多任务学习对各个摄像头所对应场景中的人群分布特点进行学习;
精细化模块,利用多任务学习模块中学习得到的各个摄像头对应场景的人群分布特点,对粗略密度图进行精细化。
在训练阶段,所述粗密度估计模块中需要对训练数据进行准备,卷积神经网络输入为监控视频帧,标注信息为图片中所有人人头的坐标位置(x,y),监督信号为根据人头坐标位置生成的人群密度图,
Figure GDA0003267574340000021
其中(xi,yi)为第i个人头目标的坐标位置,σ为高斯函数的参数,D为生成的真实密度图。
为了能够对各个场景的人群图片具有较好的鲁棒性,能够把握各个场景的人群分布共性。所述的粗密度估计模块中密度图回归网络具有三个深层融合节点,每个节点由三列具有不同大小、数目的卷积核子网络构成。
更进一步,所述的多任务学习模块中,将粗密度估计模块对各场景监控视频帧估计的密度图视为特征,为密度图到全局人数之间的回归建立线性模型并视为一个任务,将视频帧中的人数作为监督信号,利用鲁棒多任务学习同时学习各个场景中的回归任务,得到各场景的回归参数,此回归参数即为模型学习到的各个场景人群分布特点,对于全部N个场景中的第i个场景,其ni个训练数据可以表示为
Figure GDA0003267574340000022
第i个场景中从密度图到全局人数的线性回归模型视为第i个任务。
Figure GDA0003267574340000023
其中
Figure GDA0003267574340000024
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,wi代表第i个场景的从密度图到人数的回归系数,即为第i个场景的人群分布特征。
采用鲁棒的多任务学习方法,学习大多数相关场景中的普遍结构,同时对异常场景也能很好的捕捉其异常部分的特性;全部N个场景的回归矩阵W=[w1,…wm]∈Rd×N应当也能分解为两部分:低秩部分L=[l1,…lm]和稀疏部分S=[s1,…,sm],对以下模型进行求解:
Figure GDA0003267574340000031
其中
Figure GDA0003267574340000032
Figure GDA0003267574340000033
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,li和si代表第i个场景的从密度图到人数的回归系数中的低秩部分和稀疏部分;L和S分别为各个场景的低秩部分回归系数和稀疏部分回归系数组成的矩阵;
求解此式即可得到各个场景从粗略密度图到人数的回归系数wi,即为各个场景的人群分布特性,能够在二维上表征各个场景哪些区域容易出现人群,哪些区域出现人群的概率较低。
更进一步,所述的精细化模块中,针对每一场景,将多任务学习模块得到的各个场景回归参数作为校正参数,对粗密度估计模块得到的视频帧粗略密度图进行校准,得到此场景下准确密度图。
更进一步,所述的精细化模块,针对每一场景中的视频帧,将对应场景的精细化回归参数wi与其经过卷积网络得到的粗略密度图进行点积,得到更加精细准确的密度图。
一种基于卷积网络与多任务学习的多场景人群密度估计方法,按照如下步骤进行:
首先通过鲁棒卷积神经网络对任意场景人群密度回归的共性进行学习,对任意场景人群图片进行粗略密度估计;
其次通过多任务学习对各个场景中人群分布的特点进行学习;
最后在各个场景的人群图片中利用场景特点对粗略密度图进行校正与进一步的精细化处理,提高各个场景的密度估计准确性。
更进一步,步骤1、粗密度估计步骤:任意场景密度图回归步骤,利用一个统一的密度图回归模型对任意场景的视频帧进行粗略、总体的人群密度图回归。
粗密度估计步骤中需要对训练数据进行准备,首先需要根据标注的位置信息生成网络监督信号,标注信息为图片中所有人人头的坐标位置(x,y),监督信号为根据人头坐标位置生成的人群密度图,
Figure GDA0003267574340000041
其中(xi,yi)为坐标位置,σ为高斯函数的参数。
步骤2、多任务学习步骤,通过对各个场景中的从密度图到人数的回归模型进行联合学习,学习到各个场景的人群分布特点;
将粗密度估计步骤对各场景监控视频帧估计的密度图视为特征,为密度图到全局人数之间的回归建立线性模型并视为一个任务,将视频帧中的人数作为监督信号;
为各个场景从密度图到人数的回归模型建立任务:
Figure GDA0003267574340000042
其中
Figure GDA0003267574340000043
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,wi代表第i个场景的从密度图到人数的回归系数,即为第i个场景的人群分布特征;
采用鲁棒的多任务学习方法,学习大多数相关场景中的普遍结构,同时对异常场景也能很好的捕捉其异常部分的特性,全部N个场景的回归矩阵W=[w1,…wm]∈Rd×N应当也能分解为两部分:低秩部分L=[l1,…lm]和稀疏部分S=[s1,…,sm],对以下模型进行求解:
Figure GDA0003267574340000044
其中
Figure GDA0003267574340000045
Figure GDA0003267574340000046
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,li和si代表第i个场景的从密度图到人数的回归系数中的低秩部分和稀疏部分;L和S分别为各个场景的低秩部分回归系数和稀疏部分回归系数组成的矩阵;
求解此式即可得到各个场景从粗略密度图到人数的回归系数wi,即为各个场景的人群分布特性,能够在二维上表征各个场景哪些区域容易出现人群,哪些区域出现人群的概率较低;
步骤3、精细化步骤,密度图精细化步骤,针对每一场景中的视频帧,将对应场景的精细化回归参数wi与其经过卷积网络得到的粗略密度图进行点积,得到更加精细准确的密度图。
更进一步,所述的粗密度估计步骤中密度图回归网络具有三个深层融合节点,每个节点由三列具有不同大小、数目的卷积核子网络构成,因此能够对各个场景的人群图片具有较好的鲁棒性,能够把握各个场景的人群分布共性。
3、本发明所产生的技术效果。
(1)本发明提出了一种更加鲁棒的基于卷积神经网络的各个场景密度图回归网络结构,有助于把握任意摄像头对应场景的人群分布共性。
(2)本发明提出整体的多场景人群密度估计框架,在实际部署过程中,将对每一个摄像头逐个训练模型的机制转换为海量摄像头协同训练一个共同的密度图回归网络,减少需要训练的模型数量,也避免了模型迁移需要的额外模型训练成本;将每一场景对应的需要标注的监督图像从几千张降低为几十张,大幅提高了数据利用效率,降低数据标注成本。
(3)本发明提出通过多任务学习对不同摄像头对应场景的人群分布特性进行学习,各个场景人群密度估计的准确性能够达到甚至超过,对逐个场景训练单独的密度图回归网络的机制。
附图说明
图1卷积密度图回归网络模块数据准备、训练、测试流程示意图。
图2是任意场景鲁棒的卷积神经网络结构图。
图3多任务学习框架示意图。
图4整体框架训练阶段流程示意图。
图5整体框架实际部署阶段流程示意图。
具体实施方式
实施例1
下面结合附图对本发明作进一步详细说明。
参照附图1-附图3,以下结合附图对本发明作进一步描述:
实现本发明目的的技术解决方案为:首先通过鲁棒卷积神经网络对任意场景人群密度回归的共性进行学习,对任意场景人群图片进行粗略密度估计,其次通过多任务学习对各个场景中人群分布的特点进行学习,最后在各个场景的人群图片中利用场景特点对粗略密度图进行校正与进一步的精细化处理,提高各个场景的密度估计准确性。
实施例2
基于多任务学习与卷积神经网络的多场景人群密度估计方法,包括以下步骤:
(一)粗密度估计步骤:任意场景密度图回归步骤,利用一个统一的密度图回归模型对任意场景的视频帧进行粗略、总体的人群密度图回归。粗密度估计步骤的流程如图1所示。
粗密度估计步骤中需要对训练数据进行准备,首先需要根据标注的位置信息生成网络监督信号,标注信息为图片中所有人人头的坐标位置(x,y),监督信号为根据人头坐标位置生成的人群密度图,
Figure GDA0003267574340000061
其中(xi,yi)为坐标位置,σ为高斯函数的参数。
粗密度估计步骤的数据准备与训练测试整体流程如图1
其中,粗密度估计步骤中密度图回归网络具有三个深层融合节点,每个节点由三列具有不同大小、数目的卷积核子网络构成,因此能够对各个场景的人群图片具有较好的鲁棒性,能够把握各个场景的人群分布共性,详见图2。
(二)多任务学习步骤:多任务学习步骤,通过对各个场景中的从密度图到人数的回归模型进行联合学习,学习到各个场景的人群分布特点,如图3.
将粗密度估计步骤对各场景监控视频帧估计的密度图视为特征,为密度图到全局人数之间的回归建立线性模型并视为一个任务,将视频帧中的人数作为监督信号。
为各个场景从密度图到人数的回归模型建立任务。
Figure GDA0003267574340000062
其中
Figure GDA0003267574340000071
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,wi代表第i个场景的从密度图到人数的回归系数,即为第i个场景的人群分布特征。
采用鲁棒的多任务学习方法,学习大多数相关场景中的普遍结构,同时对异常场景也能很好的捕捉其异常部分的特性。全部N个场景的回归矩阵W=[w1,…wm]∈Rd×N应当也能分解为两部分:低秩部分L=[l1,…lm]和稀疏部分S=[s1,…,sm],对以下模型进行求解:
Figure GDA0003267574340000072
其中
Figure GDA0003267574340000073
Figure GDA0003267574340000074
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,li和si代表第i个场景的从密度图到人数的回归系数中的低秩部分和稀疏部分。L和S分别为各个场景的低秩部分回归系数和稀疏部分回归系数组成的矩阵。
求解此式即可得到各个场景从粗略密度图到人数的回归系数wi,即为各个场景的人群分布特性,能够在二维上表征各个场景哪些区域容易出现人群,哪些区域出现人群的概率较低。
(三)精细化步骤:密度图精细化步骤,针对每一场景中的视频帧,将对应场景的精细化回归参数wi与其经过卷积网络得到的粗略密度图进行点积,得到更加精细准确的密度图。
实施例3
基于多任务学习与卷积神经网络的多场景人群密度估计系统,包括以下步骤:
(一)粗密度估计步骤:任意场景密度图回归步骤,利用一个统一的密度图回归模型对任意场景的视频帧进行粗略、总体的人群密度图回归。粗密度估计步骤的流程如图1所示。
粗密度估计步骤中需要对训练数据进行准备,首先需要根据标注的位置信息生成网络监督信号,标注信息为图片中所有人人头的坐标位置(x,y),监督信号为根据人头坐标位置生成的人群密度图,
Figure GDA0003267574340000081
其中(xi,yi)为坐标位置,σ为高斯函数的参数。
粗密度估计步骤的数据准备与训练测试整体流程如图1
其中,粗密度估计步骤中密度图回归网络具有三个深层融合节点,每个节点由三列具有不同大小、数目的卷积核子网络构成,因此能够对各个场景的人群图片具有较好的鲁棒性,能够把握各个场景的人群分布共性,详见图2。
(二)多任务学习步骤:多任务学习步骤,通过对各个场景中的从密度图到人数的回归模型进行联合学习,学习到各个场景的人群分布特点,如图3.
将粗密度估计步骤对各场景监控视频帧估计的密度图视为特征,为密度图到全局人数之间的回归建立线性模型并视为一个任务,将视频帧中的人数作为监督信号。
为各个场景从密度图到人数的回归模型建立任务。
Figure GDA0003267574340000082
其中
Figure GDA0003267574340000083
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,wi代表第i个场景的从密度图到人数的回归系数,即为第i个场景的人群分布特征。
采用鲁棒的多任务学习方法,学习大多数相关场景中的普遍结构,同时对异常场景也能很好的捕捉其异常部分的特性。全部N个场景的回归矩阵W=[w1,…wm]∈Rd×N应当也能分解为两部分:低秩部分L=[l1,…lm]和稀疏部分S=[s1,…,sm].对以下模型进行求解:
Figure GDA0003267574340000084
其中
Figure GDA0003267574340000085
Figure GDA0003267574340000086
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,li和si代表第i个场景的从密度图到人数的回归系数中的低秩部分和稀疏部分。L和S分别为各个场景的低秩部分回归系数和稀疏部分回归系数组成的矩阵。
求解此式即可得到各个场景从粗略密度图到人数的回归系数wi,即为各个场景的人群分布特性,能够在二维上表征各个场景哪些区域容易出现人群,哪些区域出现人群的概率较低。
现有的大部分基于深度神经网络与多任务学习的方法都是通过在网络后方加入多个通道或子网支路,分别进行不同的任务,建立不同的损失函数,训练时将多个损失加权融合,从而实现在一个网络中进行多个任务,利用相关任务相互促进提高准确度,而本发明基于多场景人群密度估计这一人群密度估计算法实际部署时面对的问题,首先利用统一的深度网络对特征进行提取,其次对多个场景中从特征到人数的回归问题进行多任务学习,此时每个场景的人数回归被视为一个任务,通过多任务学习挖掘场景之前的区别与联系,从而得到适应于每个场景的人数回归参数。最后得到多场景人群密度估计的实际部署方案。
(三)精细化步骤:密度图精细化步骤,针对每一场景中的视频帧,将对应场景的精细化回归参数wi与其经过卷积网络得到的粗略密度图进行点积,得到更加精细准确的密度图。
下面根据系统的工作模式来阐述此系统的工作流程。
一、训练模式
训练模式的整体流程见图4。
(1)训练数据准备,通过每个人头的位置坐标通过叠加高斯核函数的形式进行扩散,得到真实的人群密度图。
(2)卷积神经网络步骤:用监控视频帧作为人群密度估计网络的输入,真实人群密度图作为监督信号训练整体人群密度估计网络,并用训练收敛的网络估计每张监控图片的人群密度。
(3)多任务步骤:将各个场景区分开,每个摄像头对应视频帧的估计密度图作为此任务特征,整体人数作为此任务监督信号,利用鲁棒多任务学习联合学习任务之间的差异。得到各个任务的回归参数。
二、部署模式
部署模式的整体流程详见图5。
(1)将视频帧送入整体的密度图估计网络,得到粗略的密度图。
(2)将粗略密度图与对应场景的多任务回归参数作点乘,进行校对,得到精细密度图。
(3)对精细密度图进行求和即可以得到视频帧中包含的人数。
综上所述,本发明通过整体密度图回归模块、基于多任务学习的各场景人群分布规律学习模块、密度图精细化模块实现了基于卷积神经网络和多任务学习的多场景人群密度估计系统。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:包括
粗密度估计模块,利用卷积神经网络对任意场景的人群监控视频帧进行密度图回归,得到粗略密度图;
多任务学习模块,利用多任务学习对各个摄像头所对应场景中的人群分布特点进行学习;
精细化模块,利用多任务学习模块中学习得到的各个摄像头对应场景的人群分布特点,对粗略密度图进行精细化;
多任务学习模块中,将粗密度估计模块对各场景监控视频帧估计的密度图视为特征,为密度图到全局人数之间的回归建立线性模型并视为一个任务,将视频帧中的人数作为监督信号,利用鲁棒多任务学习同时学习各个场景中的回归任务,得到各场景的回归参数,此回归参数即为模型学习到的各个场景人群分布特点,对于全部N个场景中的第i个场景,其ni个训练数据可以表示为
Figure FDA0003169164690000011
第i个场景中从密度图到全局人数的线性回归模型视为第i个任务,
Figure FDA0003169164690000012
其中
Figure FDA0003169164690000013
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,wi代表第i个场景的从密度图到人数的回归系数,即为第i个场景的人群分布特征。
2.根据权利要求1所述的基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:所述粗密度估计模块中在训练阶段,需要对训练数据进行准备,卷积神经网络输入为监控视频帧,标注信息为图片中所有人人头的坐标位置(x,y),监督信号为根据人头坐标位置生成的人群密度图,
Figure FDA0003169164690000014
其中(xi,yi)为第i个人头目标的坐标位置,σ为高斯函数的参数,D为生成的真实密度图。
3.根据权利要求1所述的基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:所述的粗密度估计模块中密度图回归网络具有三个深层融合节点,每个节点由三列具有不同大小、数目的卷积核子网络构成。
4.根据权利要求1所述的基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:所述的全部N个场景的回归矩阵W=[w1,…wm]∈Rd×N分解为两部分:低秩部分L=[l1,…,lm]和稀疏部分S=[s1,…,sm],对以下模型进行求解:
Figure FDA0003169164690000021
其中
Figure FDA0003169164690000022
Figure FDA0003169164690000023
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,li和si代表第i个场景的从密度图到人数的回归系数中的低秩部分和稀疏部分;L和S分别为各个场景的低秩部分回归系数和稀疏部分回归系数组成的矩阵;
求解此式即可得到各个场景从粗略密度图到人数的回归系数wi,即为各个场景的人群分布特性,能够在二维上表征各个场景哪些区域容易出现人群,哪些区域出现人群的概率较低。
5.根据权利要求1所述的基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:所述的精细化模块中,针对每一场景,将多任务学习模块得到的各个场景回归参数作为校正参数,对粗密度估计模块得到的视频帧粗略密度图进行校准,得到此场景下准确密度图。
6.根据权利要求5所述的基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:所述的精细化模块,针对每一场景中的视频帧,将对应场景的精细化回归参数wi与其经过卷积网络得到的粗略密度图进行点积,得到更加精细准确的密度图。
7.根据权利要求1所述的基于卷积网络与多任务学习的多场景人群密度估计系统,其特征在于:
粗密度估计模块:任意场景密度图回归步骤,利用一个统一的密度图回归模型对任意场景的视频帧进行粗略、总体的人群密度图回归;
粗密度估计步骤中需要对训练数据进行准备,首先需要根据标注的位置信息生成网络监督信号,标注信息为图片中所有人人头的坐标位置(x,y),监督信号为根据人头坐标位置生成的人群密度图,
Figure FDA0003169164690000031
其中(xi,yi)为坐标位置,σ为高斯函数的参数;
多任务学习模块,通过对各个场景中的从密度图到人数的回归模型进行联合学习,学习到各个场景的人群分布特点;
将粗密度估计步骤对各场景监控视频帧估计的密度图视为特征,为密度图到全局人数之间的回归建立线性模型并视为一个任务,将视频帧中的人数作为监督信号;
为各个场景从密度图到人数的回归模型建立任务:
Figure FDA0003169164690000032
其中
Figure FDA0003169164690000033
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,wi代表第i个场景的从密度图到人数的回归系数,即为第i个场景的人群分布特征;
采用鲁棒的多任务学习方法,学习大多数相关场景中的普遍结构,同时对异常场景也能很好的捕捉其异常部分的特性,全部N个场景的回归矩阵W=[w1,…wm]∈Rd×N应当也能分解为两部分:低秩部分L=[l1,…,lm]和稀疏部分S=[s1,…,sm],对以下模型进行求解:
Figure FDA0003169164690000034
其中
Figure FDA0003169164690000035
Figure FDA0003169164690000036
分别代表第i个场景中第j个视频帧对应的总人数和整体密度图回归网络得到的粗略密度图,li和si代表第i个场景的从密度图到人数的回归系数中的低秩部分和稀疏部分;L和S分别为各个场景的低秩部分回归系数和稀疏部分回归系数组成的矩阵;
求解此式即可得到各个场景从粗略密度图到人数的回归系数wi,即为各个场景的人群分布特性,能够在二维上表征各个场景哪些区域容易出现人群,哪些区域出现人群的概率较低;
步骤3、精细化步骤,密度图精细化步骤,针对每一场景中的视频帧,将对应场景的精细化回归参数wi与其经过卷积网络得到的粗略密度图进行点积,得到更加精细准确的密度图。
8.根据权利要求7所述的基于卷积网络与多任务学习的多场景人群密度估计方法,其特征在于:所述的粗密度估计步骤中密度图回归网络具有三个深层融合节点,每个节点由三列具有不同大小、数目的卷积核子网络构成,因此能够对各个场景的人群图片具有较好的鲁棒性,能够把握各个场景的人群分布共性。
CN201811051713.5A 2018-09-10 2018-09-10 基于卷积网络与多任务学习的多场景人群密度估计方法 Active CN109389044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811051713.5A CN109389044B (zh) 2018-09-10 2018-09-10 基于卷积网络与多任务学习的多场景人群密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811051713.5A CN109389044B (zh) 2018-09-10 2018-09-10 基于卷积网络与多任务学习的多场景人群密度估计方法

Publications (2)

Publication Number Publication Date
CN109389044A CN109389044A (zh) 2019-02-26
CN109389044B true CN109389044B (zh) 2021-11-23

Family

ID=65418659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811051713.5A Active CN109389044B (zh) 2018-09-10 2018-09-10 基于卷积网络与多任务学习的多场景人群密度估计方法

Country Status (1)

Country Link
CN (1) CN109389044B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096979B (zh) * 2019-04-19 2022-08-02 佳都科技集团股份有限公司 模型的构建方法、人群密度估计方法、装置、设备和介质
CN110543867B (zh) * 2019-09-09 2021-10-22 北京航空航天大学 一种多摄像头条件下的人群密度估测系统及方法
US11106904B2 (en) * 2019-11-20 2021-08-31 Omron Corporation Methods and systems for forecasting crowd dynamics
CN111710009B (zh) * 2020-05-29 2023-06-23 北京百度网讯科技有限公司 人流密度的生成方法、装置、电子设备以及存储介质
CN112164224A (zh) * 2020-09-29 2021-01-01 杭州锘崴信息科技有限公司 信息安全的交通信息处理系统、方法、设备及存储介质
US11348338B2 (en) * 2020-11-04 2022-05-31 Huawei Technologies Co., Ltd. Methods and systems for crowd motion summarization via tracklet based human localization
CN112396587B (zh) * 2020-11-20 2024-01-30 重庆大学 一种基于协同训练和密度图的公交车厢内拥挤度检测方法
CN113420720B (zh) * 2021-07-21 2024-01-09 中通服咨询设计研究院有限公司 一种高精度低延时大型室内场馆人群分布计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种多列特征图融合的深度人群计数算法";唐斯琪等;《郑州大学学报(理学版)》;20180630;第50卷(第2期);第489-491页 *
"基于多任务全卷积网络的人流监测系统";韦蕊等;《计算机与数字工程》;20180331;第46卷(第3期);第69-74页 *

Also Published As

Publication number Publication date
CN109389044A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN109389044B (zh) 基于卷积网络与多任务学习的多场景人群密度估计方法
Zhang et al. Multi-level fusion and attention-guided CNN for image dehazing
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
Wang et al. Learning from synthetic data for crowd counting in the wild
CN110108258B (zh) 一种单目视觉里程计定位方法
CN109145759B (zh) 车辆属性识别方法、装置、服务器及存储介质
WO2022000838A1 (zh) 基于马尔可夫随机场的远程塔台视频目标挂标牌方法
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
CN113159466B (zh) 一种短时光伏发电功率预测系统及方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
Lv et al. Remote sensing data augmentation through adversarial training
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
Liao et al. A deep ordinal distortion estimation approach for distortion rectification
Liu et al. Multi-attention DenseNet: A scattering medium imaging optimization framework for visual data pre-processing of autonomous driving systems
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN115188066A (zh) 基于协同注意力和多尺度融合的运动目标检测系统及方法
CN111260687A (zh) 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
CN113901931A (zh) 一种基于知识蒸馏模型的红外和可见光视频的行为识别方法
Chen et al. Robust face super-resolution via position relation model based on global face context
CN113361392B (zh) 无监督的基于相机和无线定位的多模态行人重识别方法
CN115601841A (zh) 一种联合外观纹理和运动骨架的人体异常行为检测方法
Sultana et al. Unsupervised deep context prediction for background foreground separation
Xiong et al. TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Pan Zhisong

Inventor after: Tang Siqi

Inventor after: Li Yunbo

Inventor after: Jiao Shanshan

Inventor after: Li Wei

Inventor after: Liu Zhen

Inventor after: Wang Cailing

Inventor before: Tang Siqi

Inventor before: Pan Zhisong

Inventor before: Li Yunbo

Inventor before: Jiao Shanshan

Inventor before: Li Wei

Inventor before: Liu Zhen

Inventor before: Wang Cailing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant