CN111339908A - 基于多模态信息融合与决策优化的组群行为识别方法 - Google Patents

基于多模态信息融合与决策优化的组群行为识别方法 Download PDF

Info

Publication number
CN111339908A
CN111339908A CN202010111024.XA CN202010111024A CN111339908A CN 111339908 A CN111339908 A CN 111339908A CN 202010111024 A CN202010111024 A CN 202010111024A CN 111339908 A CN111339908 A CN 111339908A
Authority
CN
China
Prior art keywords
fusion
network
mmf
input
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010111024.XA
Other languages
English (en)
Other versions
CN111339908B (zh
Inventor
王传旭
胡小悦
闫春娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Litong Information Technology Co ltd
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202010111024.XA priority Critical patent/CN111339908B/zh
Publication of CN111339908A publication Critical patent/CN111339908A/zh
Application granted granted Critical
Publication of CN111339908B publication Critical patent/CN111339908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于多模态信息融合与决策优化的组群行为识别方法,首先针对待进行组群行为识别的视频,获取组群成员候选框序列,提取其对应的光流特征,并提取人体姿态分割特征作为第三重视觉线索;然后获取人体目标时空特征的双流模型并将其进行多模态信息融合(MMF);最后将经过MMF融合后得到的两条支路分别连接GRU,并采用基于自适应类别权重的多分类器融合方法进行决策优化,进而获得组群行为标签。本发明方案在特征融合时,设计MMF特征融合算法使得时空两路特征相辅相成,信息互为补充,最终获得更好的特征表示;在决策优化方面,设计基于自适应类别权重的多分类融合方法,对分类器取舍与各类别权重进行更加精确的计算,从而取得较高的识别精度。

Description

基于多模态信息融合与决策优化的组群行为识别方法
技术领域
本发明属于计算机视觉技术领域,具体的涉及一种基于多模态信息融合与决策优化的组群行为识别方法,以实现视频序列中的组群行为识别。
背景技术
近年来,视频中的人类行为识别在计算机视觉领域取得了举世瞩目的成就。人体行为识别在现实生活中也得到了广泛应用,如智能视频监控、异常事件检测、体育分析、理解社会行为等,这些应用都使得组群行为识别具有重要的科学实用性和巨大的经济价值。随着深度学习逐渐在计算机视觉领域取得了巨大成功,各类神经网络架构也逐渐被应用于基于视频的人类行为识别,并取得了显著成效。
申请公布号为【CN110188637A】的发明专利公开一种基于深度学习的行为识别技术方法;通过采用双流卷积神经网络和GRU网络相结合的方式搭建更深层次的时空双流CNN-GRU神经网络模型;提取视频的时间域和空间域特征;根据GRU网络能记忆信息的能力,提取时空特征序列的长时间序列化特征,利用softmax分类器进行视频的行为识别;提出新的基于相关熵的损失函数;借鉴人脑视觉神经注意力机制处理海量信息的方法,在时空双流CNN-GRU神经网络模型进行时空特征融合之前引入注意力机制,在一定程度上提高了识别率。
但是,在现有组群行为识别研究算法中,仍然存在以下缺陷:(1)在特征提取方面,仅考虑视频序列中人物的空间外观特征,没有考虑人物的光流运动特征;(2)采用双流输入提取特征时,仅将空间特征和光流运动特征进行简单的前期或后期融合;(3)在决策优化方面,仅采用加权平均的决策优化方法进行决策优化时,往往将不同特征所得到的分类结果同等看待,无法判别每种分类性能的好坏,因此很难对复杂问题进行有效分类。因此,现有技术对组群行为的识别所考虑的因素少,不够全面,容易产生误判,影响组群识别精度。
发明内容
本发明针对现有组群行为识别方法考虑的因素少、容易误判,影响识别精度的缺陷,提出一种基于多模态信息融合与决策优化的组群行为识别方法,能够取得更高的识别精度。
本发明是采用以下的技术方案实现的:一种基于多模态信息融合与决策优化的组群行为识别方法,包括以下步骤:
步骤A、针对待进行组群行为识别的视频,获取组群成员候选框序列,提取其对应的光流特征,并提取人体姿态分割特征作为第三重视觉线索;
步骤B、获取人体目标时空特征的双流模型并将其进行MMF融合;
步骤B1、根据步骤A中得到组群成员候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取,基于I3D网络分别对应的提取视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征;
步骤B2、将经过I3D网络提取的两组时空特征进行MMF融合,通过压缩和激励操作,利用多模态输入重新校准每条特征支路中的通道特征,将RGB空间外观特征支路和时间运动特征支路互为补充,同时使空间姿态特征支路和时间运动特征支路也互为补充,实现多模态特征融合;
步骤C、经过MMF融合后得到的两条支路分别连接GRU网络,基于GRU网络的时序模型捕获视频中组群成员的长期时序关系;
步骤D、最后基于自适应类别权重的多分类器决策优化,获得组群行为标签,完成组群行为识别。
进一步的,所述步骤B2中MMF融合采用以下原理:
(1)首先利用压缩操作,利用全局平均池化将每个支路的时空信息压缩到信道描述符中;
(2)然后通过级联不同信道描述符和全连接层操作,产生具有重新校准输入功能的激励信号EA和EB,用于控制每种模态中的通道特征;
(3)最后通过激励函数并在通道方向使用点乘操作,融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核,通过一种模态的特征重新校准另一模态的特征。
进一步的,所述RGB空间外观特征和时间运动特征进行MMF融合与空间姿态特征和时间运动特征进行MMF融合采用相同的原理,对于组群成员候选框序列与光流特征两种输入模态来说,RGB空间外观特征和时间运动特征MMF融合的过程如下:
(1)设
Figure BDA0002389994050000021
Figure BDA0002389994050000022
分别表示经过I3D网络提取的RGB空间外观特征和时间运动特征,其中,Ni和Mi表示空间维度和时间维度,C和C'表示空间网和时间网的通道方向特征;
(2)压缩操作:首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中:
Figure BDA0002389994050000023
Figure BDA0002389994050000024
(3)激励操作产生激励信号,重新校准输入;
EA∈RC和EB∈RC'具有重新校准输入的功能,A和B通过简单的门控机制:
Figure BDA0002389994050000031
Figure BDA0002389994050000032
其中,☉表示通道方向点乘操作,σ(.)表示sigmoid函数;
将MMF正则化权重设置为2×σ(EA),使得门控信号更接近于1,以限制门控信号对每条支路产生的影响;所述门控信号为两个输入的函数,且具有独立预测的能力,因为每种模态需要彼此不同地变化:
首先,通过从压缩信号中联合表示来实现预测:
Z=W[SA,SB]+b (5)
其次,通过两个独立的全连接层预测每种模态的激励信号:
EA=WAZ+bA (6)
EB=WBZ+bB (7)
其中,[.,.]表示级联操作;
Figure BDA0002389994050000033
表示权重;
Figure BDA0002389994050000034
bA∈RC,bB∈RC'表示全连接层的偏置。
进一步的,所述步骤D中,将RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路;输入样本经过该支路提取的特征记为y1;将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路,输入样本经过该支路提取的特征记为y2,则具体进行决策优化时,包括:
步骤D1、给定训练样本集,首先将输入样本特征y1和y2与训练样本集的特征集进行相似度比对,根据聚类相似程度分别得到对应y1和y2的替代样本精简子集;
步骤D2:然后将得到的y1和y2的替代样本精简子集特征分别输入各自的softmax分类器,依据这2个softmax的分类结果计算各自的混淆矩阵H1和混淆矩阵H2,假设一共有Q种组群行为类别,则有:
Figure BDA0002389994050000035
(2)分别分析计算第1个和第2个分类器的置信度λ1和λ2
Figure BDA0002389994050000036
(3)最后得到最终的组群行为类别,即输出结果M:
M=λ1H12H2 (14)
进而完成组群行为识别。
进一步的,所述步骤C1中,在GRU网络中引入两个门函数,分别为更新门和重置门,由于每个隐藏单元都有单独的重置门和更新门,因此每个隐藏单元将学会捕获不同时间范围内的依赖关系;
假定xt为GRU网络在t时刻的输入,重置门rj和更新门zj的公式表示为:
rj=σ([Wrx]j+[Urh<t-1>]j) (8)
zj=σ([Wzx]j+[Uzh<t-1〉]j) (9)
其中,σ表示sigmoid函数,[.]j表示向量的第j个元素,x和h<t-1>分别表示输入和上一时刻的隐藏状态,Wr,Ur,Wz和Uz表示学习到的权重矩阵;
实际激活建议单元
Figure BDA0002389994050000041
公式表示为:
Figure BDA0002389994050000042
Figure BDA0002389994050000043
其中,φ表示tanh函数;x表示输入,
Figure BDA0002389994050000044
表示隐藏层状态;☉表示数组元素依次相乘。
进一步的,所述步骤A具体采用以下方式实现:
(1)获取组群成员候选框序列:基于Faster R-CNN网络对视频序列中的组群成员进行定位与跟踪,形成被跟踪人物的边界框序列;
(2)光流特征提取:基于Flownet 2.0网络对视频中的组群成员提取相邻两帧的光流信息;
(3)人体姿态分割特征提取:基于Fast-Net人体部位分割网络提取视频中组群成员的身体姿势信息,作为空间特征的进一步补充。
与现有技术相比,本发明的优点和积极效果在于:
(1)在特征提取方面,本方案在获得组群成员候选框序列和光流特征的基础上,结合人体姿态分割特征作为第三重视觉线索,以期获得更具区分的特征;
(2)在进行时空特征融合方面,设计MMF特征融合算法,通过压缩和激励操作,利用多模态输入特征来重新校准每个CNN流中的通道特征,使得时空两路特征相辅相成,互为补充,从而实现每个多模态特征融合,最终会获得更好的特征表示,用于组群行为的判别;
(3)在决策优化方面,设计基于自适应类别权重的多分类融合方法,即结合经过I3D网络提取的RGB空间外观特征、时间运动特征及空间姿态特征,构建两路特征互补的行为识别通道,根据测试样本(输入样本)和训练样本的聚类相似程度来确定测试样本的替代样本精简集合,结合其在不同支路分类器性能优劣评价,实现各类别权重的计算,从而取得决策优化后的识别结果。
附图说明
图1为本发明实施例所述组群行为识别流程示意图;
图2为本发明实施例CAD数据集中某一帧的标注信息,包括候选框、单人行为和组群行为的标定;
图3为本发明实施例所述CAD数据集中某一帧人体目标候选框图像经Flownet 2.0网络提取的光流图像;
图4为本发明实施例所述的Fast-Net网络架构结构示意图;
图5为本发明实施例所述I3D网络模型结构示意图;
图6为本发明实施例利用I3D网络进行特征提取的整体网络架构图;
图7为本发明实施例所述MMF融合网络架构结构示意图;
图8为本发明实施例整体融合网络架构结构示意图;
图9为本发明实施例基于自适应类别权重的决策优化原理示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例。
本实施例提出一种基于多模态信息融合与决策优化的组群行为识别方法,如图1所示,包括以下步骤:
第一步:针对待进行组群行为识别的视频,获取组群成员候选框序列,提取其对应的光流特征,并提取人体姿态分割特征,具体的:
1、获取组群成员候选框序列
通过Faster R-CNN网络对视频序列中的组群成员进行定位与跟踪,形成被跟踪人物的边界框序列,完成对视频中组群成员的跟踪;
2、对视频中的组群成员提取相邻两帧的光流特征信息;
3、提取视频中组群成员的人体姿态分割特征作为第三重视觉线索;
第二步:获取人体目标时空特征的双流模型并将其进行MMF融合;
1、根据第一步中得到组群成员候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取,基于I3D网络分别对应的提取视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征;
2、将经过I3D网络提取的两组时空特征进行MMF融合,即将RGB空间外观特征支路和时间运动特征支路进行MMF融合,时间运动特征支路和空间姿态特征支路进行MMF融合;
第三步:经过MMF融合后得到的两条支路分别连接GRU网络单元,通过GRU网络的时序模型捕获视频中组群成员的长期时序关系;
第四步:最后基于自适应类别权重的多分类器决策优化,获得组群行为标签,完成组群行为识别
本方案的重点在于保证对待识别的视频特征提取的准确性;其中,在特征融合方面,提出了一种多模态特征融合方法,通过压缩和激励操作,利用多模态输入重新校准每条特征支路中的通道特征,将RGB空间外观特征支路和时间运动特征支路互为补充,同时希望空间姿态特征支路和时间运动特征支路也互为补充,实现多模态特征融合,从而更好地为最终组群行为判别做铺垫;另外,在决策优化方面,基于自适应类别权重的多分类融合方法,结合经过I3D网络提取的RGB空间外观特征,时间运动特征及空间姿态特征,根据输入样本和训练样本的聚类相似程度来确定测试样本的替代样本精简集合,结合其在不同支路分类器性能优劣评价,实现各类别权重的计算,从而取得决策优化后的识别结果。
下面结合具体的实施方式进行详细的介绍:
第一步:获取组群成员候选框序列,提取其对应的光流特征,并将提取到的人体姿态分割特征,具体的:
1、获取组群成员候选框序列
组群行为识别的关键是捕获更高层级的特征表示,实现组群行为识别。因此,在进行特征提取之前,必须对视频序列中的组群成员进行定位与跟踪,以获取组群成员候选框序列,具体可通过Faster R-CNN网络等成熟网络模型实现。
比如,目前公认的组群行为数据集包括Volleyball数据集和CAD数据集。对于CAD数据集来说,利用CAD数据集中已经提供的候选框(bounding box)人体目标标注信息,形成被跟踪人物的边界框序列,完成对视频中人物目标的跟踪,如图2所示,以CAD数据集中某一帧的标注信息为例,其中包括候选框、单人行为和组群行为的标定。而对于Volleyball数据集来说,由于Volleyball数据集中没有提供人体目标候选框的标注信息,因此,可通过Faster R-CNN网络对每一帧图像中的重点人物进行检测与定位,计算Faster R-CNN标注的候选框与输入序列的候选框之间的损失,并对这个损失进行训练,实现更加精准的定位,从而形成被跟踪人物的候选框序列,完成对视频中组群成员的跟踪。
2、提取光流特征
本实施例重点考虑多个输入的视频线索,在光流特征提取方面,比如可通过Flownet 2.0网络对视频中的组群成员提取相邻两帧的光流信息,经过Flownet 2.0网络提取的光流图像是和原图像大小相等的双通道图像。
以CAD数据集中的某一帧图像为例,光流数据可视化结果如图3所示,深浅表示运动的速度;由光流图可知图中人的手和脚的颜色偏深,说明脚和手的运动速度较快,即该人的脚在走路,手在前后摆动。
3、提取人体姿态分割特征
本实施例在获取组群成员候选框序列和光流特征的基础上,添加人体姿态分割特征作为第三重视觉线索,以期获得更具区分的特征。
在提取人体姿态分割特征方面,本实施例利用Fast-Net人体部位分割网络提取视频中组群成员的身体姿势信息,作为空间特征的进一步补充,该网络架构使用VGG网络初始化编码器部分,从编码器到解码器部分采用跳跃连接(Skip connections)方式,确保输出中的细节重建到原始输入分辨率,为最终的行为识别提供身体姿势信息。其体系结构如图4所示,其中,最左边为输入图像,经过卷积操作、池化操作和反卷积操作等,通过softmax层,最终输出人体身体姿态分割结果。
第二步、获取人体目标时空特征的双流模型并将其进行MMF融合;
1、根据第一步中得到组群成员候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取,基于I3D网络分别对应的提取视频序列中组群成员的空间外观特征、时间运动特征和空间姿态特征;
多重视觉线索在复杂的人类行为识别中起着越来越重要的作用。目前,多流架构大致可以分为两大类:一类是双流网络,即以RGB视频帧和光流图像作为2D网络两条分支的输入,利用空间特征和运动特征进行初步行为识别,然后通过简单地融合概率分数,行为识别准确性得到显著提升。另一类则是将RGB视频帧看作是3D输入,然后使用3D卷积网络进行处理,如典型的C3D网络。最初针对图像识别主要使用2D卷积,而对于视频分析问题,2D卷积不能很好的捕获时序上的信息,因此提出了C3D网络。虽然3D类方法的效率远远高于其他方法,在行为识别方面取得了不错的进展,但也存在以下两方面问题:一是3D卷积核的计算开销比较大;二是在效果上距离双流类方法有一定的距离。
本方案在传统双流网络和C3D网络的基础上,利用一种基于2D膨胀卷积的双流3D膨胀卷积网络(I3D),将卷积核由2D扩展为3D,从而可以从视频中无缝学习时空特征,并能够在行为识别领域取得不错的效果。I3D网络属于双流网络,一路空间网,其输入是组群成员候选框序列,其输出的特征称为RGB空间外观特征(人体姿态分割特征输入后作为空间特征的补充,经I3D输出后记为空间姿态特征);一路时间网,其输入是经过Flownet 2.0网络提取的光流特征,其输出的特征称为时序运动特征。
具体的,本实施例中,I3D网络使用Inception V1架构,输入为5帧连续的RGB视频帧(相隔10帧采样一次)以及相应的光流片段,在Inception-V1网络的最后一个平均池化层(5×7×7,分别对应于时间,x和y维度)之前,空间特征和运动特征先通过具有512个输出通道的3×3×3的3D卷积层,然后再通过3×3×3的3D最大池化层,最后通过全连接层,相较于原始C3D网络,I3D网络在所有卷积和全连接层之后进行批处理归一化操作,并在第一层池化层中,将时间跨度设置为2,减少了内存占用并允许更大的批处理,I3D网络模型如图5所示。
利用I3D网络进行特征提取的整体网络架构图如图6所示,组群成员候选框序列(Image)、光流特征(Optical)及人体姿态分割特征(Body Part Segmentation)都作为I3D网络的输入,并将这三条支路分别对应的记为RGB空间外观特征支路、时间运动特征支路和空间姿态特征支路。
组群成员候选框序列(Image)和人体姿态分割特征(Body Part Segmentation)属于空间特征,进入I3D的空间网中,光流特征(Optical)属于时序特征,进入I3D网络的时间网中;将组群成员候选框序列和其对应的光流图像分别输入到I3D的空间网和时间网中,得到RGB空间外观特征和时间运动特征;将带有候选框的人体姿态分割特征输入到I3D的空间网中,提取人体目标的辅助空间姿态特征作为空间特征进一步的补充,进而得到人体目标时空特征的双流模型。
2、将经过I3D网络提取的两组时空特征进行MMF融合
在已有的人类行为识别工作中,特征融合方法大致分为两类:一类是连接(串联)融合(concate),直接将两个特征进行级联。设两个输入特征x和y的维数分别为p和q,则输出特征z的维数表示为p+q;一类是并行策略(add),将这两个特征向量组合成复向量,对于输入特征x和y,则z=x+iy,其中,i为虚数单位。对于以上两类特征融合方法,其两条支路特征都是相互独立,互不干扰的,但在本方案中,则是将两条支路特征逐帧实现相辅相成、互为补充。
本实施例中,在特征融合方面创造性的提出一种多模态特征优化(MultimodalFusion,MMF)方法,通过压缩和激励操作,利用多模态输入重新校准每条特征支路中的通道特征。
对于RGB空间外观特征支路和时间运动特征支路进行MMF融合,以及时间运动特征支路和空间姿态特征支路进行MMF融合时,若某一条支路特征不理想,首先基于压缩操作利用全局平均池化将时空信息压缩到信道描述符中;然后通过激励操作,产生具有重新校准输入功能的激励信号EA和EB,用于控制每种模态中的通道特征;最后在通道方向使用点乘操作,融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核,即赋予较重要的特征更大的权重,赋予相对不重要的特征较小的权重,该路卷积核(权重)通过学习迭代调整,使得时空两路特征相辅相成,互为补充,即这种融合方式可允许通过一种模态的特征重新校准另一模态的特征。从而实现多模态特征融合,最终获得更好的特征表示,用于组群行为的判别。
所述的多模态的特征融合(MMF,Multimodal Fusion)方法,通过压缩和激励操作,利用多模态输入重新校准每条特征支路中的通道特征,其网络架构如图7所示,图8为整体融合网络架构图。
以组群成员候选框序列与光流特征两种输入模态为例,
Figure BDA0002389994050000091
Figure BDA0002389994050000092
分别表示经过I3D网络提取的空间特征和运动特征,其中,Ni和Mi表示空间维度和时间维度,C和C'表示空间网和时间网的通道方向(channel-wise)特征。MMF通过压缩操作从每个张量A和B中获得全局特征描述子,Z表示通过全连接层将两支路特征进行级联,激励信号EA和EB通过级联过程产生,最后激励信号用于控制每种模态中的通道特征。
(1)压缩操作:卷积层特征受局部接受域大小限制,无法利用该区域之外的上下文信息。因此,首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中:
Figure BDA0002389994050000093
Figure BDA0002389994050000094
(2)激励操作:该单元的功能是产生激励信号,EA∈RC和EB∈RC'具有重新校准输入的功能,A和B通过门控机制:
Figure BDA0002389994050000095
Figure BDA0002389994050000096
其中,☉表示通道方向(channel-wise)点乘操作,σ(.)表示sigmoid函数,这就允许抑制或激励每条支路中的不同卷积核。这里,MMF权重经正规化后,使得可以控制EA和EB保持接近零的程度。因此,将正则化权重设置为2×σ(EA),会使得门控信号更接近于1,这就限制了门控信号对每条支路产生的影响。
门控信号是两个输入的函数,且具有独立预测的能力,因为每种模态需要彼此不同地变化。首先,通过从压缩信号中联合表示来实现预测:
Z=W[SA,SB]+b (5)
其次,通过两个独立的全连接层预测每种模态的激励信号:
EA=WAZ+bA (6)
EB=WBZ+bB (7)
其中,[.,.]表示级联操作;
Figure BDA0002389994050000101
表示权重;
Figure BDA0002389994050000102
bA∈RC,bB∈RC'表示全连接层的偏置;并使用CZ=(C+C')/4来提高模型的泛化能力。
第三步:经过MMF融合的两条支路分别连接GRU网络单元,通过GRU网络的时序模型捕获视频中组群成员的长期时序关系;
对于给定场景中每个人的人体目标候选框,使用门控循环单元(Gated RecurrentUnit,GRU)模型来表示每个人在动作上的长期时序依赖关系,这些长时间信息是对空间特征及微观时序特征的补充,对性能提升至关重要。
本实施例基于GRU来捕获视频中人物的长期时序关系。将经过I3D网络提取的RGB空间外观特征和时间运动特征进行MMF融合,并将其经过I3D网络提取的时间运动特征和空间姿态特征也进行MMF融合后,两组时空特征经MMF融合后的特征中,其空间特征不具有时序关联性,而光流运动信息及3D卷积提取的时间信息都仅仅具有短期时序关系,由于视频序列中的组群行为相较于个人行为需要获得长期时序关系,因此,本实施例在经MMF融合后的两条支路后面,分别连接GRU单元,获得组群行为视频中的长时序上下文关系。
具体的,在GRU模型中引入两个门函数,分别为更新门和重置门。更新门用于控制前一时刻状态信息被带入到当前状态中的程度,它决定丢弃哪些信息以及添加哪些新信息,其值越大,说明前一时刻状态信息带入越多;重置门控制前一状态有多少信息被写入到当前候选集上,它决定忘记过去信息量的多少,其值越小,说明前一状态的信息被写入的越少。
假定xt为GRU网络在t时刻的输入,重置门rj和更新门zj的公式表示为:
rj=σ([Wrx]j+[Urh<t-1>]j) (8)
zj=σ([Wzx]j+[Uzh<t-1>]j) (9)
其中,σ表示sigmoid函数,[.]j表示向量的第j个元素,x和h<t-1>分别表示输入和上一时刻的隐藏状态,Wr,Ur,Wz和Uz表示学习到的权重矩阵。
实际激活建议单元
Figure BDA0002389994050000103
公式表示为:
Figure BDA0002389994050000104
Figure BDA0002389994050000105
其中,φ表示tanh函数;x表示输入,
Figure BDA0002389994050000106
表示隐藏层状态;☉表示数组元素依次相乘。在该公式中,当重置门关闭为0时,隐藏状态被迫忽略先前的隐藏状态,仅重置当前输入状态,这使得隐藏状态可以丢弃将来发现的任何不相关信息,从而允许更紧凑的表示。另一方面,更新门可以控制先前隐藏状态将有多少信息转移到当前隐藏状态。
由于每个隐藏单元都有单独的重置门和更新门,因此每个隐藏单元将学会捕获不同时间范围内的依赖关系。那些学会捕获短期依赖性的单元将倾向于具有经常激活的重置门,而那些捕获长期依赖性的单元将具有大多数处于激活状态的更新门。
本实施例结合I3D+MMF+GRU架构,在前端利用Flownet2.0网络提取光流微观运动信息,并通过3D卷积提取微观时序信息,作为后续LSTM网络的补充;在后端借助GRU提取宏观时序运动特征,相比较CNN+LSTM网络架构提取的时序特征更全面和细致。且采用I3D+MMF+GRU架构,前端采用三流输入,除RGB及光流特征外,还提取了视频中组群成员的人体姿态分割信息,作为空间特征的进一步补充,之后各支路特征之间进行MMF融合,使得各支路特征之间可以相辅相成,互为补充,因此,该I3D+MMF+GRU架构提取的时空特征更全面、更精准,可进一步提高组群行为识别准确率。
第四步、基于自适应类别权重的多分类器进行决策优化,获得组群行为标签,完成组群行为识别;
在进行决策优化时,具体通过基于自适应类别权重的多分类器决策优化算法,结合经过I3D网络提取的RGB空间外观特征,时间运动特征及空间姿态特征,具体原理为根据输入样本y(待识别数据或测试样本)和训练样本集的聚类相似程度来确定输入样本的替代样本精简集合,并结合其在不同支路分类器性能优劣评价,实现各类别权重的计算,从而取得决策优化后的行为识别结果。本实施例中,将第三步中RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路,输入样本y经过该支路提取的特征记为y1;将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路,输入样本y经过该支路提取的特征记为y2。
在进行决策优化时,具体包括步骤:
1、给定训练样本集,首先将输入样本特征y1和y2分别与训练样本集的特征集进行相似度比对,根据聚类相似程度分别得到对应y1和y2的替代样本特征精简子集;比如,可采用闵可夫斯基距离(Minkowski Distance)计算特征之间的相似度,在同一阈值下,可以得到与y1最相似的j1个带标签的训练样本特征子集J1,同理也可以得到与y2最相似的j2个带标签的训练样本特征子集J2。本实施例中,所采用的训练样本集可以以CAD数据集为基础,当然,也可以拍摄得到的实际的视频等数据作为训练样本集,具体可根据实际情况选择。
训练阶段的大致思路如下:
(1)首先,对训练样本集X进行候选框标注,提取其光流特征及姿态分割特征;
(2)其次,通过I3D网络提取两组时空特征,将提取的RGB视频帧特征及运动特征进行MMF融合,然后连接GRU单元,得到第一路特征;类似地,通过I3D网络提取的运动特征及姿态特征进行MMF融合,然后连接GRU单元,得到第二路特征。
(3)最后,把上述两路特征分别连接2个softmax分类器进行训练,得到最终的标签。
2、将y1和y2的替代样本精简子集(如上述的J1和J2)分别输入到各自的softmax分类器实现行为识别,再依据这2路softmax的分类结果计算各自的混淆矩阵H1和混淆矩阵H2,假设一共有Q种组群行为类别,则这2个分类器的混淆矩阵如下:
Figure BDA0002389994050000121
然后,分别分析计算第1个和第2个分类器的置信度λ1和λ2
Figure BDA0002389994050000122
最后得到最终的组群行为类别,即输出结果M:
M=λ1H12H2 (14)
在决策优化方面,结合经过I3D网络提取的RGB空间外观特征,时间运动特征及空间姿态特征,构建两路特征互补的行为识别通道;通过在两个支路确定测试样本的相似性特征精简集合,进而得到两个支路上的相应精简训练样本特征集合;再将这两个精简训练样本集合分别输入各自的softmax分类器得到两个混淆矩阵分类结果,通过计算其对角线上的分类得分计算它们的加权系数,最后,利用加权系数优化两个混淆矩阵得到最终的分类结果,从而取得较高的识别精度。
另外,为了进一步证明本发明方案的有效性,使用CAD数据集对本专利方法进行验证与分析,在训练整个模型时,采用分段训练来学习模型参数。本专利将I3D网络与GRU网络分别进行训练,每一部分的训练都是独立的。并将数据集按照3:1的比例进行划分,3/4的数据进行训练,1/4的数据进行测试与验证,得出各类的准确率以及平均识别精度(MPCA)。
本实施例中所采用的CAD数据集包含由低分辨率手持相机收集的44个视频片段,五类行为标签:Crossing,Waiting,Queuing,Walking,Talking;八种姿势标签(实验中未使用);五种组群行为标签:Crossing,Waiting,Queuing,Walking,Talking。根据大多数人在场景中所做的事情,场景被赋予小组行为的标签,以及每个人都有一个行为标签,每一帧图像都有一个场景行为标签。在CAD数据集中,由于“Walking”与“Crossing”类具有相似的视觉特征,因此我们将“Walking”和“Crossing”合并为“Moving”。因此,本专利CAD数据集中共有四类行为标签:Moving,Waiting,Queuing,Talking。
需要说明的是,在训练时和测试时有所不同,训练时按照常规思路得到最终的标签即可,而在测试时,正如方案具体实施方式所阐述的内容,在决策优化时,需要根据测试样本和训练样本的聚类相似程度来确定测试样本的替代样本精简集合,结合其在不同支路分类器性能优劣评价来实现各类别权重的计算,从而取得决策优化后的识别结果,这也是本发明所述决策优化核心内容体现之一。
通过实验将本发明方法与现有技术相比较,得到以下结果:
表1模型在CAD数据集上的平均识别准确率(%)以及与其他方法的比较
Figure BDA0002389994050000131
“Two-stage Hierarchical Model”利用双层LSTM网络分层模型,实现对组群行为的识别;“HANs+HCNs”是在“Two-stage Hierarchical Model”的基础上,对于部分/人级别特征提取上应用“分级注意网络”,该网络对于不同的人及其身体部位给与不同程度的关注度,并利用两层级LSTM网络对组群间的上下文关系进行建模,从而生成组群识别的高级特征表示,取得了不错的效果。但本专利的I3D+MMF+GRU模型在CAD上的识别率均高于上述两个方法,主要是因为本方案在捕获长期依赖的同时,更加注重多重视觉线索的输入,加入了人物的光流信息及姿态特征表示,通过MMF特征融合获得更好的特征表示,从而提高了识别的准确率。同时,本专利模型明显高于传统手工制作特征(hand-crafted feature)的方法,说明在进行视频中组群成员的特征提取和行为识别方面,本专利的I3D+MMF+GRU模型还是取得了不错的结果。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (6)

1.基于多模态信息融合与决策优化的组群行为识别方法,其特征在于,包括以下步骤:
步骤A、针对待进行组群行为识别的视频,获取组群成员的候选框序列,提取其对应的光流特征,并提取组群成员的人体姿态分割特征作为第三重视觉线索;
步骤B、获取组群成员人体目标时空特征的双流模型并将其进行MMF融合;
步骤B1、根据步骤A中得到的组群成员的候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取,基于I3D网络分别提取对应的视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征;
步骤B2、将经过I3D网络提取的两组时空特征进行MMF融合,通过压缩和激励操作,利用多模态输入重新校准每条特征支路中的通道特征,将RGB空间外观特征支路和时间运动特征支路互为补充,同时使空间姿态特征支路和时间运动特征支路也互为补充,实现多模态特征融合;
步骤C、经过MMF融合后得到的两条支路分别连接GRU网络,基于GRU网络的时序模型捕获视频中组群成员的长期时序关系;
步骤D、最后基于自适应类别权重的多分类器决策优化,获得组群行为标签,完成组群行为识别。
2.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤B2中,在进行MMF融合时采用以下方式实现:
(1)首先利用压缩操作,利用全局平均池化将每个支路的时空信息压缩到信道描述符中;
(2)然后通过级联不同信道描述符和全连接层操作,产生具有重新校准输入功能的激励信号EA和EB,用于控制每种模态中的通道特征;
(3)最后通过激励函数并在通道方向使用点乘操作,融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核,以通过一种模态的特征重新校准另一模态的特征。
3.根据权利要求2所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述RGB空间外观特征和时间运动特征进行MMF融合与空间姿态特征和时间运动特征进行MMF融合采用相同的原理,对于组群成员候选框序列与光流特征两种输入模态来说,RGB空间外观特征和时间运动特征MMF融合的过程如下:
(1)设
Figure FDA0002389994040000011
Figure FDA0002389994040000012
分别表示经过I3D网络提取的RGB空间外观特征和时间运动特征,其中,Ni和Mi表示空间维度和时间维度,C和C'表示空间网和时间网的通道方向特征;
(2)压缩操作:首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中;
(3)激励操作产生激励信号,重新校准输入;
激励信号EA∈RC和EB∈RC'具有重新校准输入的功能,A和B通过门控机制校准:
Figure FDA0002389994040000021
Figure FDA0002389994040000022
其中,☉表示通道方向点乘操作,σ(.)表示sigmoid函数;
所述门控信号为两个输入的函数,且具有独立预测的能力,因为每种模态需要彼此不同地变化:
首先,通过从压缩信号中联合表示来实现预测:
Z=W[SA,SB]+b (5)
其次,通过两个独立的全连接层预测每种模态的激励信号:
EA=WAZ+bA (6)
EB=WBZ+bB (7)
其中,[.,.]表示级联操作;
Figure FDA0002389994040000023
表示权重;
Figure FDA0002389994040000024
bA∈RC,bB∈RC'表示全连接层的偏置。
4.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤D中,将RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路;将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路,输入样本分别经过P1支路和P2支路,获得两路输入样本的特征,则具体进行决策优化时,包括:
步骤D1、给定训练样本集,首先根据两路输入样本的特征和训练样本集的特征集的聚类相似程度来确定输入样本的两个替代样本精简集合;
步骤D2:然后将上述得到的两个替代样本精简集合分别连接各自的softmax分类器,依据这2个softmax的分类结果,计算各自的混淆矩阵H1和混淆矩阵H2;设一共有Q种组群行为类别,则:
Figure FDA0002389994040000025
(2)分别分析计算2个分类器的置信度λ1和λ2
Figure FDA0002389994040000031
(3)最后得到最终的组群行为类别,即输出结果M:
M=λ1H12H2 (14)
进而完成组群行为识别。
5.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤C中,在GRU网络中引入两个门函数,分别为更新门和重置门,由于每个隐藏单元都有单独的重置门和更新门,因此每个隐藏单元将捕获不同时间范围内的依赖关系,进而可捕获视频中组群成员的长期时序关系;
假定xt为GRU网络在t时刻的输入,重置门rj和更新门zj分别表示为:
rj=σ([Wrx]j+[Urh<t-1>]j) (8)
zj=σ([Wzx]j+[Uzh<t-1>]j) (9)
其中,σ表示sigmoid函数,[.]j表示向量的第j个元素,x和h<t-1>分别表示输入和上一时刻的隐藏状态,Wr,Ur,Wz和Uz表示学习到的权重矩阵;
实际激活建议单元
Figure FDA0002389994040000032
公式表示为:
Figure FDA0002389994040000033
Figure FDA0002389994040000034
其中,φ表示tanh函数;x表示输入,
Figure FDA0002389994040000035
表示隐藏层状态;☉表示数组元素依次相乘。
6.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤A具体采用以下方式实现:
(1)获取组群成员候选框序列:基于Faster R-CNN网络对视频序列中的组群成员进行定位与跟踪,形成被跟踪人物的边界框序列;
(2)光流特征提取:基于Flownet 2.0网络对视频中的组群成员提取相邻两帧的光流信息;
(3)人体姿态分割特征提取:基于Fast-Net人体部位分割网络提取视频中组群成员的身体姿势信息,作为空间特征的进一步补充。
CN202010111024.XA 2020-02-24 2020-02-24 基于多模态信息融合与决策优化的组群行为识别方法 Active CN111339908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111024.XA CN111339908B (zh) 2020-02-24 2020-02-24 基于多模态信息融合与决策优化的组群行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111024.XA CN111339908B (zh) 2020-02-24 2020-02-24 基于多模态信息融合与决策优化的组群行为识别方法

Publications (2)

Publication Number Publication Date
CN111339908A true CN111339908A (zh) 2020-06-26
CN111339908B CN111339908B (zh) 2023-08-15

Family

ID=71181798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111024.XA Active CN111339908B (zh) 2020-02-24 2020-02-24 基于多模态信息融合与决策优化的组群行为识别方法

Country Status (1)

Country Link
CN (1) CN111339908B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767451A (zh) * 2021-02-01 2021-05-07 福州大学 一种基于双流卷积神经网络的人群分布预测方法及其系统
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113420697A (zh) * 2021-07-01 2021-09-21 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及系统
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN115695852A (zh) * 2022-12-30 2023-02-03 成都华栖云科技有限公司 一种基于多模态信息融合的视频镜头自动挑选组合方法
CN116189281A (zh) * 2022-12-13 2023-05-30 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US20190251366A1 (en) * 2017-01-06 2019-08-15 Sportlogiq Inc. Systems and Methods for Behaviour Understanding from Trajectories
CN110287870A (zh) * 2019-06-25 2019-09-27 大连大学 基于综合光流特征描述符及轨迹的人群异常行为检测方法
CN110532862A (zh) * 2019-07-19 2019-12-03 青岛科技大学 基于门控融合单元的特征融合组群识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US20190251366A1 (en) * 2017-01-06 2019-08-15 Sportlogiq Inc. Systems and Methods for Behaviour Understanding from Trajectories
CN110287870A (zh) * 2019-06-25 2019-09-27 大连大学 基于综合光流特征描述符及轨迹的人群异常行为检测方法
CN110532862A (zh) * 2019-07-19 2019-12-03 青岛科技大学 基于门控融合单元的特征融合组群识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI,H,ET AL: "Tracking Algorithm of Multiple Pedestrians Bsed on Particle Filters in Video Swquences", COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE, vol. 2016, pages 1 - 17 *
杨兴明;范楼苗;: "基于区域特征融合网络的群组行为识别", 模式识别与人工智能, vol. 32, no. 12, pages 1116 - 1121 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767451A (zh) * 2021-02-01 2021-05-07 福州大学 一种基于双流卷积神经网络的人群分布预测方法及其系统
CN112767451B (zh) * 2021-02-01 2022-09-06 福州大学 一种基于双流卷积神经网络的人群分布预测方法及其系统
CN113420697A (zh) * 2021-07-01 2021-09-21 中科人工智能创新技术研究院(青岛)有限公司 基于表观和形状特征的换装视频行人重识别方法及系统
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113609355B (zh) * 2021-07-15 2022-06-03 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN116189281A (zh) * 2022-12-13 2023-05-30 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及系统
CN116189281B (zh) * 2022-12-13 2024-04-02 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及系统
CN115695852A (zh) * 2022-12-30 2023-02-03 成都华栖云科技有限公司 一种基于多模态信息融合的视频镜头自动挑选组合方法
CN115695852B (zh) * 2022-12-30 2023-03-28 成都华栖云科技有限公司 一种基于多模态信息融合的视频镜头自动挑选组合方法

Also Published As

Publication number Publication date
CN111339908B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN111339908B (zh) 基于多模态信息融合与决策优化的组群行为识别方法
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
Dai et al. Human action recognition using two-stream attention based LSTM networks
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
Wang et al. Depth pooling based large-scale 3-d action recognition with convolutional neural networks
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
Molchanov et al. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network
CN110503053B (zh) 基于循环卷积神经网络的人体动作识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110569773B (zh) 基于时空显著性行为注意力的双流网络行为识别方法
Li et al. Effective person re-identification by self-attention model guided feature learning
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
Kulhare et al. Key frame extraction for salient activity recognition
Manttari et al. Interpreting video features: A comparison of 3D convolutional networks and convolutional LSTM networks
Wei et al. P3D-CTN: Pseudo-3D convolutional tube network for spatio-temporal action detection in videos
Tang et al. Selective spatiotemporal features learning for dynamic gesture recognition
Lu et al. Light cascaded convolutional neural networks for accurate player detection
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN112115849A (zh) 基于多粒度视频信息和注意力机制的视频场景识别方法
Algamdi et al. Learning temporal information from spatial information using CapsNets for human action recognition
Wang et al. Temporal spiking recurrent neural network for action recognition
CN110516540B (zh) 基于多流架构与长短时记忆网络的组群行为识别方法
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
Song et al. A review of object detectors in deep learning
Martin et al. 3D attention mechanism for fine-grained classification of table tennis strokes using a Twin Spatio-Temporal Convolutional Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240325

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen Litong Information Technology Co.,Ltd.

Country or region after: China

Address before: 266000 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Country or region before: China