CN113111778B - 一种视频和无线融合的大规模人群分析方法 - Google Patents

一种视频和无线融合的大规模人群分析方法 Download PDF

Info

Publication number
CN113111778B
CN113111778B CN202110390587.1A CN202110390587A CN113111778B CN 113111778 B CN113111778 B CN 113111778B CN 202110390587 A CN202110390587 A CN 202110390587A CN 113111778 B CN113111778 B CN 113111778B
Authority
CN
China
Prior art keywords
data
video
modal
wifi
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110390587.1A
Other languages
English (en)
Other versions
CN113111778A (zh
Inventor
黄宝琦
郝利飞
贾冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University
Original Assignee
Inner Mongolia University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University filed Critical Inner Mongolia University
Priority to CN202110390587.1A priority Critical patent/CN113111778B/zh
Publication of CN113111778A publication Critical patent/CN113111778A/zh
Application granted granted Critical
Publication of CN113111778B publication Critical patent/CN113111778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频和无线融合的大规模人群分析方法,包括:获取视频和WiFi两种模态的原始数据;对两模态原始数据分别进行时空对准并得到两模态第一数据;对所述两模态第一数据进行特征提取得到两模态特征数据;对两模态特征数据进行特征融合并得到融合数据,对融合数据解码并输出人群统计结果;利用视频模态原始数据标注对所述WiFi模态原始数据进行标记;子模型及总体模型的训练。本发明针对视频数据创新地采用了结合注意力机制的CNN模型进行特征提取;利用兼顾时间单向和空间四向的2D‑RNN结构来建模二维输入特征数据,提高了人群分析精度;使用子模型预训练和单模态有限标注监督迁移的方法,解决大模型训练以及多模态标记数据获取成本过高的难题。同时,各子模型采用不同的有针对性的数据源进行预训练,整合后的模型通过微调进行优化。

Description

一种视频和无线融合的大规模人群分析方法
技术领域
本发明涉及计算机应用技术领域,更具体的说是涉及一种视频和无线融合的大规模人群分析方法。
背景技术
伴随着高速的经济发展和快速的城市化进程,我国大中城市的人口迅速增长,城市规模不断扩大,形成了大量的地铁站、高铁站、机场、剧院、体育场馆、商业综合体等人流密集的公共场所,导致在出行和旅游高峰期间频现人流如织的场景。由于大规模人群聚集而发生的危害性事件屡有发生,人群聚集风险愈发突出,已成为政府和社会广泛关注的城市公共安全重要问题之一。
近年来也出现了少量利用WiFi实现人群监控的方法。WiFi监控方法通过使用WiFi接入点(Access Point,AP)捕获行人携带移动设备发出的Probe请求帧,进而提取移动设备的MAC地址、接收信号强度(Received Signal Strength,RSS)等信息,从而实现人群的统计和分析。由于运用WiFi嗅探技术以无感的方式实时获取移动设备携带者的时空分布信息,因此可应用于人群监控、应急管理、交通规划、客流分析等城市规划管理、公共安全和商业智能领域,具有十分广阔的市场前景。
因此,如何提供一种人数统计、密度测量、个体识别、轨迹追踪的大规模人群分析方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种视频和无线融合的大规模人群分析方法。在深入理解两种模态数据特点和差异性的基础上,分别针对性地设计不同模态数据的时空对准方法,并采取不同的特征提取子模型实现多模态数据的特征提取。将经过各子网络处理后的多模态数据特征作为两个输入源,同时训练通过信息迁移层交叉相连的两个2D-RNN模型,自适应地抽取相关跨模态特征。各子模型采用不同的有针对性的数据源进行预训练,整合后的模型再通过微调进行优化。
为了实现上述目的,本发明采用如下技术方案:
一种视频和无线融合的大规模人群分析方法,其特征在于,包括:
步骤a:获取原始数据;所述原始数据包括视频模态原始数据和WiFi模态原始数据;
步骤b:对所述原始数据进行时空对准并得到两模态第一数据;
步骤c:对所述两模态第一数据进行特征提取得到两模态特征数据,所述两模态特征数据包括:高层抽象人群时空分布特征;
步骤d:对特征数据进行特征融合并输出融合数据,对融合数据解码并输出人群统计结果;
步骤e:对所述视频模态原始数据进行手工标记,利用视频模态原始数据的标记对WiFi模态原始数据进行监督迁移标记;
步骤f:基于步骤a~d建立整体模型,基于步骤e实现所述两模态原始数据的标注,进行模型的训练。
优选的,所述视频模态数据通过摄像头捕获,所述WiFi模态数据通过WiFi嗅探器捕获。
优选的,所述步骤b包括:对视频模态数据进行时空对准和对WiFi模态数据进行时空对准;
所述时空对准包括:时间对准和空间对准;所述时间对准:采用滑动时间窗口机制,将所述时间窗口内所述WiFi模态数据和所述视频模态数据分别对准;所述空间对准:将所述WiFi模态数据和所述视频模态数据的坐标空间统一映射到现实世界坐标系内。
优选的,所述视频模态数据进行时间对准包括:将视频流的时序结构图构建多视频数据间的拓扑关系,利用关键帧提取方法最大化保留时间窗口中的时间特定信息并大幅缩减数据量,得到视频模态时间对准数据;
所述视频模态数据进行空间对准包括:采取摄像头参数并通过公式将图像像素转换至世界坐标内,得到视频模态空间对准数据;
所述WiFi模态数据进行时间对准包括:对所述窗口内每一参考位置的RSS求取均值和方差,构建WiFi定位指纹库,得到WiFi模态时间对准数据;
所述WiFi模态数据进行空间对准包括:
步骤1:构建多信道指纹向量
Figure BDA0003016566460000031
即,将RSS向量扩展为c×m维多信道指纹向量,其中c为信道集数,m为AP数,形成多信道指纹库。
步骤2:构建多信道指纹偏置
Figure BDA0003016566460000032
并结合所述多信道指纹库,进行WiFi指纹定位后,得到WiFi模态空间对准数据;其中,Rij和δij分别为第j个参考位置处第i个AP-信道对的RSS均值和标准差,ri为移动设备第i个AP-信道对的RSS均值。
进一步,一种视频和无线融合的大规模人群分析方法,所述摄像头参数根据摄像头部署信息的外参旋转矩阵R和平移矩阵T确定内参数矩阵K,通过
Figure BDA0003016566460000033
Figure BDA0003016566460000034
进行映射转换。
优选的,所述步骤c中所述特征提取包括:视频模态特征提取和WiFi模态特征提取;
对所述视频模态特征提取:首先,提取视频模态时空对准数据并进行卷积变换得到特征信号;然后,建立注意力模块,并学习通道权重得到面向通道域的注意力;最后,根据不同所述注意力在所述视频模态数据中提取所述抽象特征;
对所述WiFi模态特征提取:首先,将WiFi模态时空对准数据输入初始密度图回归模块,使用具有固定带宽的高斯核方法计算高清密度图并输出;然后将所述高清密度图作为栈式自编码器的输入,使用非监督学习方法训练栈式自编码器,得到所述高层抽象人群分布特征。
进一步,一种视频和无线融合的大规模人群分析方法,所述通道模块还包括:步骤:挤压,将每个通道内所有的特征值相加再平均,进行全局平均池化,利用
Figure BDA0003016566460000041
其中,Fsq为挤压函数,H、W分别表示特征U的高和宽,uc(i,j)为第i列第j行的特征。
步骤:激励,学习两个权重W1和W2,得到一维的激励权重来激活每一层通道,利用
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
其中,Fex为激励函数,δ为ReLU函数,σ是sigmoid函数。
步骤:注意,不同通道乘以不同权重,利用
xc=Fscale(uc,sc)=uc·sc
其中,Fscale为注意函数,sc为激励函数计算出的每一通道权值。
所述高斯核方法为
Figure BDA0003016566460000042
优选的,所述特征信号设定有n个通道,所述通道分别对应不同关键帧数据。
优选的,所述步骤d,通过利用2D-RNN模型对所述高层抽象人群时空分布特征进行融合得到中间模态特征,然后利用LSTM解码器和全连接层对所述中间模态特征进行解码并输出人群统计信息;
所述步骤d包括:
步骤d1:所述视频模态数据和所述WiFi模态数据被分别单独分配一个所述2D-RNN模型进行处理,两个所述2D-RNN模型的隐藏层平面分别连接有向迁移层,并通过
Figure BDA0003016566460000043
Figure BDA0003016566460000044
计算视频模态融合特征,通过更换下标的公式计算WiFi模态融合特征;其中
Figure BDA0003016566460000051
为k时刻位于视频模态高层抽象特征(i,j)位置的特征向量,
Figure BDA0003016566460000052
Figure BDA0003016566460000053
分别为每个模态内部的隐藏层k时刻(i,j)位置的状态,各权重矩阵Uv、Wv、Sv、Tv和Vv分别负责对输入或隐藏层状态进行映射,bv和cv为偏置。
步骤d2:所述LSTM解码器将局部融合特征解码为局部子区域人数,所述局部子区域人数对子区域面积进行运算处理得到局部人群密度;
步骤d3:添加全连接层,全连接层对所述局部子区域人数积分得到全局人数,所述全局人数对场景区域进行运算处理得到全局人群密度。
优选的,所述步骤e中,所述视频模态数据采用人工或自动化方法进行标注;对所述视频模态数据和所述WiFi模态数据的各分层构架进行设计并对应;对所述WiFi模态数据使用监督迁移方法进行各分层的标注;
所述步骤e包括:
步骤e1:对所述高层抽象人群时空分布特征进行标注;
步骤e2:利用最小化标注误差的目标函数对标注后的所述高层抽象人群时空分布特征进行学习,对所述高层抽象人群分布特征提取网络对应层并利用欧式距离函数测量相似度。
进一步,一种视频和无线融合的大规模人群分析方法,利用
Figure BDA0003016566460000054
的优化目标学习Ψ。
优选的,所述步骤f包括:
步骤f1:子模型预训练:
基于两模态第一数据构建子模型,利用下式作为各子模型预训练的损失函数,
Figure BDA0003016566460000055
其中,δ为待确定的超参数,y为真实值,f(x)为子模型预测值。
步骤f2:整体模型微调训练:
利用下式作为整体模型训练的平均损失函数,实现整体模型的微调,
Figure BDA0003016566460000061
其中,yi,j为第i条数据对于第j个区域的人数真实值,
Figure BDA0003016566460000062
Figure BDA0003016566460000063
分别为第i条同步的视频和WiFi模态数据在LSTM解码器上对第j个区域的估计值。
优选的,所述子模型预训练包括:
训练1:对DNN定位模型训练;
训练2:对基于注意力机制CNN视频特征提取模型训练;
训练3:对SAE进行逐层无监督训练,对密度图特征进行提取。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种视频和无线融合的大规模人群分析方法;针对视频数据创新地采用了结合注意力机制的CNN模型,为解决WiFi嗅探数据的随机性问题,提出定位+密度图+SAE的组合方式处理;利用兼顾了时间单向和空间四向的2D-RNN结构来建模二维输入数据中的短期和长期上下文信息,最大限度地挖掘并利用了多模态数据的时空相关性,提高了人群分析精度;针对有标记数据量较少的实际问题,使用子模型预训练和单模态有限标注监督迁移的方法,解决大模型训练以及多模态标记数据获取成本过高的难题。各子模型采用不同的有针对性的数据源进行预训练,整合后的模型可通过微调进行优化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的视频和无线融合的大规模人群分析方法流程图;
图2附图为本发明提供的大范围智能监控应用场景;
图3附图为本发明提供的人群分析方法整流程说明图;
图4附图为本发明提供的DNN定位模型示意图;
图5附图为本发明提供的基于注意力的视频模态特征抽取CNN模型示意图;
图6附图为本发明提供的密度图特征提取SAE结构图;
图7附图为本发明提供的改进的2D-RNN融合模型结构示意图;
图8附图为本发明提供的LSTM解码器和全连接层输出人群信息结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种视频和无线融合的大规模人群分析方法,其特征在于,包括:
步骤a:获取原始数据;所述原始数据包括视频模态数据和WiFi模态数据;
步骤b:对所述原始数据进行时空对准并得到第一数据;
步骤c:对所述第一数据进行特征提取得到特征数据,所述特征数据包括:高层抽象人群时空分布特征;
步骤d:对特征数据进行特征融合并输出融合数据,对融合数据解码并输出人群统计结果;
步骤e:对所述原始输入视频模态进行手工标记,对原始输入WiFi模态数据进行监督迁移标记;
步骤f:基于步骤a~d建立整体模型,基于步骤e实现所述两模态原始数据的标注,进行模型的训练。
图1、2、3是根据一示例性实施例一示出的视频和无线融合的大规模人群分析方法流程图;大范围智能监控应用场景;人群分析方法整流程说明图。
步骤a:通过视频摄像头和WiFi嗅探器捕获的原始数据,所述原始数据包括视频模态数据和WiFi模态数据;其中已知的参数:时间窗口长度Δt、滑动步长sw,视频摄像头内参矩阵K、外参旋转矩阵R和平移矩阵T,高斯核带宽δ,视频摄像头个数C;
步骤b:对所述原始数据进行时空对准并得到第一数据;时间对准方面,采用滑动时间窗口机制囊括短时变化信息,设定窗口长度为Δt、滑动步长为sw,将窗口内两种模态数据分别对准;空间对准方面,将两模态数据自身的坐标空间统一映射到真实的世界坐标系内。
视频模态时空对准;
a.时间对准:使用视频流的时序结构图构建多摄像头视频数据间的拓扑关系,关键帧提取方法最大化保留时间窗口中的时间特定信息并大幅缩减数据量。将视频流的时序结构图VG定义为一个三元组(VC,E,W),VC是所有摄像头视频流的集合,E是VC中元素之间的关系集合,W是权值的集合;E中每个元素之间对应一条有向边eij=<vcvvcj>,它表示两个空间位置从左向右相邻的摄像头所捕获的视频流数据VCi∈VC,VCj∈VC(i≠j)之间的相对关系;W中的每个元素表示有向边eij所连接的两视频流关键帧之差。关键帧提取方法为,计算视频流帧集vci={fk}中所有相邻帧的相似度sim(fk,fk+1)并加入到相似度集合su中,将su中元素排序,并令相似度阈值ε为前某百分比(如10%)su中元素的最小值,最后将相似度大于ε的原始帧抛弃仅保留关键帧。Sim(·)函数用于计算两个相邻视频图像帧之间的相似性,包括两幅图像的颜色、形状和纹理等差异。
b.空间对准:根据视频摄像头的参数设定来确定内参矩阵K,根据摄像头部署信息确定外参旋转矩阵R和平移矩阵T,利用公式
Figure BDA0003016566460000081
Figure BDA0003016566460000082
对每一帧图像实现从图像坐标到世界坐标的转换;其中,u、v为图像的横纵像素坐标,Xc、Yc和Zc为摄像头坐标系中的三个方向的坐标,X、Y、Z为真实坐标空间三个方向的坐标。
WiFi模态时空对准;
a.时间对准:将时间窗口内的RSS对每个参考位置求取均值和方差,构建WiFi定位指纹库;
b.空间对准:使用基于DNN的信道自适应和容忍设备异构性的被动式WiFi指纹定位方法实现空间对准。采用公式RSS=[RSS11,RSS12,...,RSS1m,...,RSScm]的扩展方法,将传统RSS向量扩展为c×m维信道-信号向量,其中c为信道集数,m为AP数,形成多信道指纹库;采用公式
Figure BDA0003016566460000091
结合多信道指纹库求得最优偏置,信道-信号向量减去最优偏置消除设备异构性;使用如附图4所示的DNN定位模型推断设备位置得到定位结果(x,y)实现空间映射。
步骤c:对所述第一数据进行特征提取得到特征数据;多模态数据特征提取。分别使用基于注意力机制的CNN和密度图+SAE编码器提取两模态包含时空相关性的高层抽象特征。
采用的基于注意力机制的视频模态特征抽取CNN模型结构如附图5所示,输入视频模态的时空对准数据X,经过卷积变换Ftr,产生了特征信号U,U有C个通道,分别对应不同摄像头的关键帧图像,通过注意力模块学习每个通道的权重,产生面向通道域的注意力,最终根据不同注意力从原始视频模态数据中提取出与具体模态无关的抽象特征。其中,注意力模块进行以下操作:
1.
挤压:利用公式
Figure BDA0003016566460000092
把每个通道内所有的特征值相加再平均,进行全局平均池化;
激励:利用公式
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1Z))
学习两个权重W1和W2,得到一维的激励权重来激活每一层通道;
注意:利用公式
xc=Fscale(uc,sc)=uc·sc
实现放缩,令不同通道乘以不同权重,增强对关键通道的注意力。
2.基于密度图和SAE的WiFi模态特征提取。以上一步DNN定位结果作为密度图回归模块的输入,使用公式
Figure BDA0003016566460000101
的具有固定带宽的高斯核方法计算高清密度图,学习到从WiFi定位结果空间到密度图空间的映射关系。将输出的密度图作为如附图6所示SAE的输入,使用非监督学习方法训练SAE以提取与具体模态无关的高层抽象人群分布特征。
步骤d:对特征数据进行特征融合并输出融合数据;多模态数据特征融合及结果输出。采用改进的2D-RNN模型对上一步提取特征进行中间融合,后接LSTM解码器统计各子区域的局部人群信息,使用全连接层计算监控区域的总体人数和密度。
1.利用改进的2D-RNN模型进行特征融合。为每种模态分配一个单独的2D-RNN进行处理,利用附图7所示的有向迁移层连接两个2D-RNN的隐藏层平面,其中附图7仅展现出时间和空间单向的迁移层。对于视频模态特征,利用公式
Figure BDA0003016566460000102
Figure BDA0003016566460000103
计算融合特征,给定一个RNN中的二维方向(左上),则网络当前被处理的位置依赖于6个附近的空间状态,分别来自网络自身和WiFi特征模态各两个,加上该位置当前和前一时刻的两个状态。同理,可计算其他三个方向(右上、左下和右下)和WiFi模态所有方向的融合特征。
2.利用LSTM解码器和全连接层输出人群统计信息。如附图8所示,使用LSTM解码器将每个局部特征解码为局部子区域人数,除以子区域面积可得局部人群密度;在LSTM解码器后添加全连接层将局部人数积分为全局人数,除以场景面积获得场景的全局人群密度。至此,完成从数据输入到特征提取,再到特征融合和结果估计的整体流程。
步骤e:对所述原始视频模态数据进行手工标记;对WiFi模态无标注数据进行监督迁移。将视频模态的总分层标注表示为Ф,待学习WiFi模态的总分层标注表示为Ψ。利用公式
Figure BDA0003016566460000111
的优化目标学习Ψ,选取两模态特征提取网络对应层i*∈{1,...,nL},则WiFi模态的分层标注Ψnu(lu)与视频模态的分层标注Фi*(IL)相匹配,利用欧式距离函数f测量两种标注之间的相似度;两模态特征提取网络输出维度不同的情况下,采用线性或仿射转换函数t将特征Ψnu嵌入到与Фi*相同维度的空间中,最终实现将视频模态总标注Ф的第i*层迁移到WiFi模态总标注ΨΨ的第nu层。
步骤f:模型训练;模型的实际训练。使用公式
Figure BDA0003016566460000112
所示的有参的Huber函数作为基础损失函数,进行各子模型的预训练;使用公式
Figure BDA0003016566460000113
所示的整体模型平均损失函数,对模型进行整体训练实现微调。
1.各子模型的预训练
DNN定位子模型:利用WiFi指纹定位离线调查方法采集区域内RSS数据,构建多信道位置指纹库并生成大规模训练数据,对DNN子模型训练;
基于注意力机制CNN视频特征提取子模型:在该子模型后接全连接层进行回归,使用公开数据集充分训练该网络,移除全连接层后并入整体模型;
SAE密度图特征提取子模型:对SAE进行逐层无监督训练,合并后的SAE并入整体网络。
2.整体模型微调训练
待各子模型完成预训练后,组成完整的融合网络,用整体数据进行若干次训练,让每个子网络各层的权重参数同时得到改善,获取最佳的人群信息估计值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种视频和无线融合的大规模人群分析方法,其特征在于,包括:
步骤a:获取原始数据;所述原始数据包括视频模态原始数据和WiFi模态原始数据;
步骤b:对所述原始数据进行时空对准并得到两模态第一数据;
步骤c:对所述两模态第一数据进行特征提取得到两模态特征数据,所述两模态特征数据包括:高层抽象人群时空分布特征;
步骤d:对特征数据进行特征融合并输出融合数据,对融合数据解码并输出人群统计结果;包括:通过利用2D-RNN模型对所述高层抽象人群时空分布特征进行融合得到中间模态特征,然后利用LSTM解码器和全连接层对所述中间模态特征进行解码并输出人群统计信息;
所述步骤d具体包括:
步骤d1:所述视频模态原始数据和所述WiFi模态原始数据被分别单独分配一个所述2D-RNN模型进行处理,两个所述2D-RNN模型的隐藏层平面分别连接有向迁移层,并通过
Figure FDA0003779972920000011
Figure FDA0003779972920000012
计算视频模态融合特征,通过更换下标的公式计算WiFi模态融合特征;其中
Figure FDA0003779972920000013
为k时刻位于视频模态高层抽象特征(i,j)位置的特征向量,
Figure FDA0003779972920000014
Figure FDA0003779972920000015
分别为每个模态内部的隐藏层k时刻(i,j)位置的状态,各权重矩阵Uv、Wv、Sv、Tv和Vv分别负责对输入或隐藏层状态进行映射,bv和cv为偏置;
步骤d2:所述LSTM解码器将局部融合特征解码为局部子区域人数,所述局部子区域人数对子区域面积进行运算处理得到局部人群密度;
步骤d3:添加全连接层,全连接层对所述局部子区域人数积分得到全局人数,所述全局人数对场景区域进行运算处理得到全局人群密度;
步骤e:对所述视频模态原始数据进行手工标记,利用视频模态原始数据的标记对WiFi模态原始数据进行监督迁移标记;
步骤f:基于步骤a~d建立整体模型,基于步骤e实现所述两模态原始数据的标注,进行模型的训练。
2.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述视频模态数据通过摄像头捕获,所述WiFi模态数据通过WiFi嗅探器捕获。
3.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述步骤b包括:对视频模态数据进行时空对准和对WiFi模态数据进行时空对准;
所述时空对准包括:时间对准和空间对准;所述时间对准:采用滑动时间窗口机制,将所述时间窗口内所述WiFi模态数据和所述视频模态数据分别对准;所述空间对准:将所述WiFi模态数据和所述视频模态数据的坐标空间统一映射到现实世界坐标系内。
4.根据权利要求3所述的一种视频和无线融合的大规模人群分析方法,其特征在于,
所述视频模态数据进行时间对准包括:将视频流的时序结构图构建多视频数据间的拓扑关系,利用关键帧提取方法最大化保留时间窗口中的时间特定信息并大幅缩减数据量,得到视频模态时间对准数据;
所述视频模态数据进行空间对准包括:采取摄像头参数并通过公式将图像像素转换至世界坐标内,得到视频模态空间对准数据;
所述WiFi模态数据进行时间对准包括:对所述窗口内每一参考位置的RSS求取均值和方差,构建WiFi定位指纹库,得到WiFi模态时间对准数据;
所述WiFi模态数据进行空间对准包括:
步骤1:构建多信道指纹向量
Figure FDA0003779972920000021
即,将RSS向量扩展为c×m维多信道指纹向量,其中c为信道集数,m为AP数,形成多信道指纹库;
步骤2:构建多信道指纹偏置
Figure FDA0003779972920000022
并结合所述多信道指纹库,进行WiFi指纹定位后,得到WiFi模态空间对准数据;其中,Rij和δij分别为第j个参考位置处第i个AP-信道对的RSS均值和标准差,ri为移动设备第i个AP-信道对的RSS均值。
5.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述步骤c中所述特征提取包括:视频模态特征提取和WiFi模态特征提取;
对所述视频模态特征提取:首先,提取视频模态时空对准数据并进行卷积变换得到特征信号;然后,建立注意力模块,并学习通道权重得到面向通道域的注意力;最后,根据不同所述注意力在所述视频模态特征中提取所述高层抽象人群时空分布特征;
对所述WiFi模态特征提取:首先,将WiFi模态时空对准数据输入初始密度图回归模块,使用具有固定带宽的高斯核方法计算高清密度图并输出;然后将所述高清密度图作为栈式自编码器,即SAE模型的输入,使用非监督学习方法训练栈式自编码器,即SAE模型,得到所述高层抽象人群时空分布特征。
6.根据权利要求5所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述特征信号设定有n个通道,所述通道分别对应不同关键帧数据。
7.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述步骤e中,所述视频模态数据采用人工或自动化方法进行标注;对所述视频模态数据和所述WiFi模态数据的各分层构架进行设计并对应;对所述WiFi模态数据使用监督迁移方法进行各分层的标注;
所述步骤e包括:
步骤e1:对所述高层抽象人群时空分布特征进行标注;
步骤e2:利用最小化标注误差的目标函数对标注后的所述高层抽象人群时空分布特征进行学习,对所述高层抽象人群时空分布特征提取网络对应层并利用欧式距离函数测量相似度。
8.根据权利要求1所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述步骤f包括:
步骤f1:子模型预训练:
基于两模态第一数据构建子模型,利用下式作为各子模型预训练的损失函数,
Figure FDA0003779972920000041
其中,δ为待确定的超参数,y为真实值,f(x)为子模型预测值;
步骤f2:整体模型微调训练:
利用下式作为整体模型训练的平均损失函数,实现整体模型的微调,
Figure FDA0003779972920000042
其中,yi,j为第i条数据对于第j个区域的人数真实值,
Figure FDA0003779972920000043
Figure FDA0003779972920000044
分别为第i条同步的视频和WiFi模态数据在LSTM解码器上对第j个区域的估计值。
9.根据权利要求8所述的一种视频和无线融合的大规模人群分析方法,其特征在于,所述子模型预训练包括:
训练1:对DNN定位模型训练:利用WiFi指纹定位离线调查方法采集区域内RSS数据,构建多信道位置指纹库并生成大规模训练数据,对DNN定位模型训练;
训练2:对基于注意力机制的视频特征提取CNN模型进行训练;
训练3:以上一步DNN定位模型输出结果作为密度图回归模块的输入,将输出的密度图作为SAE模型的输入,对SAE模型进行逐层无监督训练,对密度图特征进行提取。
CN202110390587.1A 2021-04-12 2021-04-12 一种视频和无线融合的大规模人群分析方法 Active CN113111778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110390587.1A CN113111778B (zh) 2021-04-12 2021-04-12 一种视频和无线融合的大规模人群分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110390587.1A CN113111778B (zh) 2021-04-12 2021-04-12 一种视频和无线融合的大规模人群分析方法

Publications (2)

Publication Number Publication Date
CN113111778A CN113111778A (zh) 2021-07-13
CN113111778B true CN113111778B (zh) 2022-11-15

Family

ID=76716032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110390587.1A Active CN113111778B (zh) 2021-04-12 2021-04-12 一种视频和无线融合的大规模人群分析方法

Country Status (1)

Country Link
CN (1) CN113111778B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420720B (zh) * 2021-07-21 2024-01-09 中通服咨询设计研究院有限公司 一种高精度低延时大型室内场馆人群分布计算方法
CN116823572B (zh) * 2023-06-16 2023-12-19 中国联合网络通信有限公司深圳市分公司 人口流动数据的获取方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN112381024A (zh) * 2020-11-20 2021-02-19 华南理工大学 一种融合多模态的无监督行人再识别重排方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8531523B2 (en) * 2009-12-08 2013-09-10 Trueposition, Inc. Multi-sensor location and identification
CN107801203B (zh) * 2017-11-13 2020-11-17 深圳市戴升智能科技有限公司 基于多数据融合的人口密度及流动性的估算方法及其系统
CN110636466A (zh) * 2019-09-06 2019-12-31 联泰集群(北京)科技有限责任公司 一种机器学习下基于信道状态信息的WiFi室内定位系统
CN110856112B (zh) * 2019-11-14 2021-06-18 深圳先进技术研究院 一种群智感知的多源信息融合室内定位方法及系统
CN111898442B (zh) * 2020-06-29 2023-08-11 西北大学 一种基于多模态特征融合的人体动作识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN112381024A (zh) * 2020-11-20 2021-02-19 华南理工大学 一种融合多模态的无监督行人再识别重排方法

Also Published As

Publication number Publication date
CN113111778A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN101950426B (zh) 一种多摄像机场景下车辆接力跟踪方法
CN113111778B (zh) 一种视频和无线融合的大规模人群分析方法
CN102663429B (zh) 运动目标的运动模式分类和动作识别的方法
CN102799935B (zh) 一种基于视频分析技术的人流量统计方法
US20100231723A1 (en) Apparatus and method for inferencing topology of multiple cameras network by tracking movement
CN104680559B (zh) 基于运动行为模式的多视角室内行人跟踪方法
CN109325404A (zh) 一种公交场景下的人数统计方法
CN104517095B (zh) 一种基于深度图像的人头分割方法
CN105528794A (zh) 基于混合高斯模型与超像素分割的运动目标检测方法
Ullah et al. Multi-feature-based crowd video modeling for visual event detection
CN111310659A (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN108280844B (zh) 一种基于区域候选框跟踪的视频目标定位方法
CN106952286A (zh) 基于运动显著图和光流矢量分析的动态背景目标分割方法
CN114119803B (zh) 一种基于因果图谱的场景图像生成方法
CN114613013A (zh) 一种基于骨骼节点的端到端人类行为识别方法与模型
CN111178284A (zh) 基于地图数据的时空联合模型的行人重识别方法及系统
CN111680560A (zh) 一种基于时空特征的行人再识别方法
CN116109673A (zh) 一种基于行人姿态估计的多帧轨迹跟踪系统及其方法
CN113870129B (zh) 基于空间感知与时间差异学习的视频去雨方法
CN113361392B (zh) 无监督的基于相机和无线定位的多模态行人重识别方法
Verma et al. Intensifying security with smart video surveillance
CN115442744A (zh) 一种基于被动式WiFi感知的大规模人群计数方法
CN114783054A (zh) 一种基于无线和视频特征融合的步态识别方法
CN114372996A (zh) 一种面向室内场景的行人轨迹生成方法
CN113538904A (zh) 一种基于时空前序编解码预测器的交通事故识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant