CN111709410A - 一种强动态视频的行为识别方法 - Google Patents

一种强动态视频的行为识别方法 Download PDF

Info

Publication number
CN111709410A
CN111709410A CN202010840934.1A CN202010840934A CN111709410A CN 111709410 A CN111709410 A CN 111709410A CN 202010840934 A CN202010840934 A CN 202010840934A CN 111709410 A CN111709410 A CN 111709410A
Authority
CN
China
Prior art keywords
optical flow
rgb
branches
video
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010840934.1A
Other languages
English (en)
Other versions
CN111709410B (zh
Inventor
陈海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Original Assignee
DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeepBlue AI Chips Research Institute Jiangsu Co Ltd filed Critical DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Priority to CN202010840934.1A priority Critical patent/CN111709410B/zh
Publication of CN111709410A publication Critical patent/CN111709410A/zh
Application granted granted Critical
Publication of CN111709410B publication Critical patent/CN111709410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种强动态视频的行为识别方法,包括如下步骤:根据数据集上的数据分布特征,将传统双流模型中的光流分支作为教导模型,辅助训练RGB分支;RGB分支输入源视频全局的RGB图像帧,光流分支输入源视频全局的光流图像帧,其中光流图像帧由RGB图像帧通过光流计算得到;进行RGB分支和光流分支联合推断,实现视频中行为的识别。本发明中,分别以不同配置训练RGB分支及光流分支,相对于传统的双流算法,配置动态识别,可适应性强。本发明通过强化光流特征学习,考虑了强动态行为视频的性质,多阶段传递光流信息,获取充分的运动特征,提高了识别准确度。

Description

一种强动态视频的行为识别方法
技术领域
本发明涉及人工智能,视觉智能算法领域,更具体地涉及一种强动态视频的行为识别方法。
背景技术
在自主驾驶领域,驾驶决策的重要前提在于对路面情况的准确识别。在以安全为首要标准中,行人的行为识别尤其关键,相关的识别算法准确率将直接影响到车辆的行驶安全。同时,在真实驾驶环境中,行人动作的反馈是即时变化的,这要求行为识别的算法能提供实时性的判断。
现有技术中,主要存在两种主流的行为识别方式,分别为采用3D的双流卷积网络和运动增强迁移网络。
一、膨胀3D双流卷积网络模型,基于2维卷积网络,将深度图像分类卷积网络的卷积核和池化核扩展到3维,利用已相当准确的图像分类模型结构甚至参数来学习视频中的时空特征。整个模型对应RGB图像支和光流分支,分别对视频的RGB图像帧和光流图像帧进行独立训练,得到两个对应的预测概率,并通过平均得到最终的行为类别,整体准确率较高。
二、运动增强迁移网络,在模型训练阶段,首先由传统的光流法提取光流图像,并通过常规网络提取表示运动信息的光流特征信息,然后通过冻结权重和蒸馏的方式传递给表示图像信息的表观特征,即通过训练,输入RGB图像帧得到同时体现表观信息和运动信息的特征,最后将该特征通过分类器得到最终的行为类别;在模型推断阶段,直接输入视频的RGB图像帧,获得行为类别,计算轻量,减缓时延。
人类的行为动作是多样的,包括人体自身动作,如鼓掌等;人与人互动动作, 如握手等;人与物互动动作,如打球等。不同类型的动作需要有相对应的主次特征去识别,且符合应用的实际需求。当前的技术方案依然存在以下不足:
1、膨胀3D双流卷积网络的RGB分支与光流分支的性能差异明显,仅平均两个分支的预测概率作为最终概率判断,准确率低。
2、膨胀3D双流卷积网络的两个分支单独训练,缺少表观信息与运动信息之间的必然联系。
3、运动增强迁移网络在训练阶段,在网络的倒数第二层进行光流特征蒸馏传递,只利用高度抽象的特征易忽略源视频的大多数动态信息。
发明内容
1、本发明的目的
本发明结合3D双流算法和迁移学习算法,提出一种强动态视频的行为识别方法;首先根据特定数据集上的数据分布特征,将传统双流模型中的光流分支作为教导模型,辅助训练RGB分支,然后进行双分支联合推断,实现视频中行为的识别。
2、本发明所采用的技术方案
本发明提出了一种强动态视频的行为识别方法,包括以下步骤:
根据数据集上的数据分布特征,将传统双流模型中的光流分支作为教导模型,辅助训练RGB分支;RGB分支输入源视频全局的RGB图像帧,光流分支输入源视频全局的光流图像帧,其中光流图像帧由RGB图像帧通过光流计算得到;然后进行RGB分支和光流分支联合推断,实现视频中行为的识别;
所述辅助训练RGB分支具体包括光流分支训练、光流特征传递、RGB训练;
所述光流分支训练包括:
提取光流图像利用全变分1范式算法对源视频的RGB图像帧进行计算,从相邻两帧中分别得到水平方向和竖直方向的光流图;
对预训练好的光流图像分类模型,按照膨胀3D的运算操作进行3维卷积和池化拓展;把对应的水平方向和竖直方向的光流图输入光流图像分类模型进行训练,采用交叉熵作为损失函数获得训练好的光流分支;
所述损失函数,具体为:
Figure 930364DEST_PATH_IMAGE001
所述损失函数包括三项,第一项代表第一条传递线路的部分,L1是这个阶段RGB特征和 光流特征差异的2范数,
Figure 223811DEST_PATH_IMAGE002
是L1对应权重;第二项代表第二条传递线路部分,L2是这阶段两 个特征差异的2范数,
Figure 543803DEST_PATH_IMAGE003
是L2对应权重;第三项L3是最终分类的交叉熵,
Figure 128368DEST_PATH_IMAGE004
是L3对应权重;
Figure 686257DEST_PATH_IMAGE005
为第一条
Figure 698076DEST_PATH_IMAGE006
信息;
Figure 865883DEST_PATH_IMAGE007
为第一条光流信息;
Figure 628040DEST_PATH_IMAGE008
为第二条
Figure 604218DEST_PATH_IMAGE006
信息,
Figure 629680DEST_PATH_IMAGE009
为第二条光流信息。
更进一步,所述根据数据集上的数据分布特征具体为:
定义行为类别,搜索源视频并采集数据,分类保存;
确定视频关键行为区间;
确定帧率、图像位置和图像分辨率,对修剪后的视频提取图像帧并保存。
更进一步,以不同配置训练所述RGB分支及光流分支:
首先训练光流分支,并固定光流分支权重,得到训练好的光流分支;
然后将同一视频通过光流分支得到的中间层特征,即光流特征,通过蒸馏计算的方式,加入RGB分支的中间层特征拼接,得到增加了维度的中间层特征,再按照正常路径训练;
通过对加权损失函数进行梯度下降,多轮优化训练参数,得到训练好的RGB分支;
通过全连接层整合光流分支和RGB分支得到最后输出。
更进一步,所述光流特征传递包括:
固定已训练好的光流分支权重参数;
建立光流分支与RGB分支的桥接,实现光流特征信息的传递;包含两条桥接线路,第一条桥接线路在3D卷积层过程中的传递,桥接线路根据具体视频集的实验结果中选择;第二条桥接线路位于网络最后一个池化层前。
更进一步,所述RGB训练包括:
选择预训练的RGB图像分类模型,按照膨胀3D的运算操作进行3维卷积和池化拓展,输入RGB图像帧;
连接光流分支,选用全连接分类器计算RGB分支及光流分支的特征,输出分类概率;
构造损失函数,由三部分组成,分别为第一个传递线路的2范数、第二个传递线路的2范数和最终分类的交叉熵。
更进一步,还包括推断阶段,将RGB图像和光流图像分别输入已训练好的RGB分支和光流分支,得到行为分类。
3、本发明所采用的有益效果
(1)本发明的RGB分支输入源视频全局的RGB图像帧,光流分支输入源视频全局的光流图像帧,其中光流图像帧由RGB图像帧通过光流计算得到;通过上述步骤提高视频动作识别的准确率;
(2)本发明中,分别以不同配置训练RGB分支及光流分支,相对于传统的双流算法,配置动态识别,可适应性强;
(3)本发明通过强化光流特征学习,考虑了强动态行为视频的性质,多阶段传递光流信息,获取充分的运动特征,提高了识别准确度;
(4)本发明利用迁移学习的思想,通过蒸馏计算的方式将视频的表观信息和运动信息相关联,减少传统双流模型由于独立训练产生的系统误差;
(5)本发明通过全连接层自主学习两个分支的权重,符合视频特征,减少由于主观定义造成的人为误差;
(6)本发明通过将光流特征与图像特征的范数以及分类交叉熵线性组合构成损失函数,增加了模型的准确度。
附图说明
图1为光流分支训练获得交叉损失熵的流程图;
图2为行为识别网络拓扑图。
具体实施方式
下面结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实例作进一步地详细描述。
本发明结合3D双流算法和迁移学习算法,提出一种针对强动态视频的行为识别方法,即光流传递增强双流模型。该模型首先根据特定数据集上的数据分布特征,将传统双流模型中的光流分支作为教导模型,辅助训练RGB分支,然后进行双分支联合推断,实现视频中行为的识别。
1.数据预处理
本发明识别目标是强动态视频,即选择的视频为行为运动频繁或幅度大的视频。
首先定义行为类别,搜索源视频并采集数据,分类保存;
确定视频关键行为区间;
确定帧率、图像位置和图像分辨率,对修剪后的视频提取图像帧并保存。
2.训练阶段
包括光流分支训练、光流特征传递、RGB训练。
2.1光流分支训练
提取光流图像具体为:利用全变分1范式算法对源视频的RGB图像帧进行计算,从相邻两帧中分别得到水平方向和竖直方向的光流图像帧。
对预训练好的光流图像分类模型,按照膨胀3D的运算操作进行3维卷积和池化拓展。把相对应的水平光流图和竖直光流图输入模型进行训练,采用交叉熵作为损失函数获得训练好的光流分支,如图1所示。
2.2光流特征传递
1、固定已训练好的光流分支权重参数。
2、建立光流分支与RGB分支的桥接,实现光流特征信息的传递。参考图2, 其中包 含两条桥接线路,第一条桥接线路在3D卷积层过程中的传递,桥接线路根据具体视频集的 实验结果从a至i的9条线路中选择,表示为
Figure 81521DEST_PATH_IMAGE010
Figure 912949DEST_PATH_IMAGE011
传递;第二 条桥接线路位于网络最后一个池化层前,表示为
Figure 805950DEST_PATH_IMAGE012
Figure 810770DEST_PATH_IMAGE013
传 递。
2.3 RGB训练
1、选择预训练的RGB图像分类模型,按照膨胀3D的运算操作进行3维卷积和池化拓展,输入RGB图像帧。
2、连接光流分支,选用全连接分类器计算RGB分支及光流分支的特征,输出分类概率。
3、构造损失函数,由三部分组成,分别为第一个传递线路的2范数、第二个传递线路的2范数和最终分类的交叉熵。
Figure 422011DEST_PATH_IMAGE014
这里设计的损失函数包括三项,第一项代表第一条传递线路的部分,L1是这个阶段RGB 特征和光流特征差异的2范数,
Figure 932496DEST_PATH_IMAGE002
是L1对应权重;第二项代表第二条传递线路部分,L2是这 阶段两个特征差异的2范数,
Figure 647380DEST_PATH_IMAGE003
是L2对应权重;第三项L3是最终分类的交叉熵,
Figure 719372DEST_PATH_IMAGE004
是L3对 应权重;
Figure 378761DEST_PATH_IMAGE005
为第一条
Figure 646931DEST_PATH_IMAGE006
信息;
Figure 576841DEST_PATH_IMAGE007
为第一条光流信息;
Figure 787112DEST_PATH_IMAGE008
为第二条
Figure 169683DEST_PATH_IMAGE006
信息,
Figure 241544DEST_PATH_IMAGE009
为第二条光流信息。
3.推断阶段
在推断阶段,无需进行光流特征的传递,将RGB图像和光流图像分别输入已训练好的RGB分支和光流分支,得到行为分类。
本发明提出的一种强动态行为视频的行为识别方法;
1、利用迁移学习思想,将训练好的光流模型特征按照蒸馏计算方式传递给图像支模型;
2、在膨胀3D的双流结构中利用全连接层分类器自主学习图像分支和光流分支的权重;
3、损失函数由多阶段的光流特征与图像特征差异,以及分类交叉损失熵加权组合得到。
实施例
本发明在视频数据集HMDB-51和UCF-101 分割1上进行测试。其中HMDB-51是包含51类动作数据,UCF-101是包含101类动作的数据,训练集和测试集的数量如表1所示,测试结果如表2所示。
表1测试数据集详情
Figure 790075DEST_PATH_IMAGE015
表2测试结果详情
Figure 407132DEST_PATH_IMAGE016
相较于现有技术借助传统双流算法提高虚拟现实的评价标准本发明通过改进传统的双流算法提高视频动作识别的准确率。
本发明,RGB分支输入源视频全局的RGB图像帧,光流分支输入源视频全局的光流图像帧,其中光流图像帧由RGB图像帧通过光流计算得到。现有技术中,一般通过对VR视频的左右视图求差分视频,一个分支输入差分视频局部的RGB图像区域,另一个分支输入差分视频全局的光流图像帧。
本发明中,分别以不同配置训练RGB分支及光流分支:
a.首先训练光流分支,并固定光流分支权重,得到训练好的光流分支;
b.然后将同一视频通过光流分支得到的中间层特征,即光流特征,通过蒸馏计算的方式,加入RGB分支的中间层特征拼接,得到增加了维度的中间层特征,再按照正常路径训练;
c.通过对加权损失函数进行梯度下降,多轮优化训练参数,得到训练好的RGB分支;
d.通过全连接层整合光流分支和RGB分支得到最后输出。
现有技术一般通过相同的配置训练两个卷积网络分支,并通过简单平均得到最后输出结果。

Claims (6)

1.一种强动态视频的行为识别方法,其特征在于:包括如下步骤,根据数据集上的数据分布特征,将传统双流模型中的光流分支作为教导模型,辅助训练RGB分支;RGB分支输入源视频全局的RGB图像帧,光流分支输入源视频全局的光流图像帧,其中光流图像帧由RGB图像帧通过光流计算得到;然后进行RGB分支和光流分支联合推断,实现视频中行为的识别;
所述辅助训练RGB分支具体包括光流分支训练、光流特征传递、RGB训练;
所述光流分支训练包括:
提取光流图像利用全变分1范式算法对源视频的RGB图像帧进行计算,从相邻两帧中分别得到水平方向和竖直方向的光流图;
对预训练好的光流图像分类模型,按照膨胀3D的运算操作进行3维卷积和池化拓展;把对应的水平方向和竖直方向的光流图输入光流图像分类模型进行训练,采用交叉熵作为损失函数获得训练好的光流分支;
所述损失函数,具体为:
Figure 805965DEST_PATH_IMAGE001
所述损失函数包括三项,第一项代表第一条传递线路的部分,L1是这个阶段RGB特征和 光流特征差异的2范数,
Figure 884517DEST_PATH_IMAGE002
是L1对应权重;第二项代表第二条传递线路部分,L2是这阶段两 个特征差异的2范数,
Figure 426356DEST_PATH_IMAGE003
是L2对应权重;第三项L3是最终分类的交叉熵,
Figure 800837DEST_PATH_IMAGE004
是L3对应权重;
Figure 208554DEST_PATH_IMAGE005
为第一条
Figure 795524DEST_PATH_IMAGE006
信息;
Figure 503455DEST_PATH_IMAGE007
为第一条光流信息;
Figure 953896DEST_PATH_IMAGE008
为第二条
Figure 193117DEST_PATH_IMAGE006
信息,
Figure 234977DEST_PATH_IMAGE009
为第二条光流信息。
2.根据权利要求1所述的强动态视频的行为识别方法,其特征在于:所述根据数据集上的数据分布特征具体为:
定义行为类别,搜索源视频并采集数据,分类保存;
确定视频关键行为区间;
确定帧率、图像位置和图像分辨率,对修剪后的视频提取图像帧并保存。
3.根据权利要求1所述的强动态视频的行为识别方法,其特征在于:以不同配置训练所述RGB分支及光流分支:
首先训练光流分支,并固定光流分支权重,得到训练好的光流分支;
然后将同一视频通过光流分支得到的中间层特征,即光流特征,通过蒸馏计算的方式,加入RGB分支的中间层特征拼接,得到增加了维度的中间层特征,再按照正常路径训练;
通过对加权损失函数进行梯度下降,多轮优化训练参数,得到训练好的RGB分支;
通过全连接层整合光流分支和RGB分支得到最后输出。
4.根据权利要求1所述的强动态视频的行为识别方法,其特征在于:所述光流特征传递包括:
固定已训练好的光流分支权重参数;
建立光流分支与RGB分支的桥接,实现光流特征信息的传递;包含两条桥接线路,第一条桥接线路在3D卷积层过程中的传递,桥接线路根据具体视频集的实验结果中选择;第二条桥接线路位于网络最后一个池化层前。
5.根据权利要求1所述的强动态视频的行为识别方法,其特征在于:所述RGB训练包括:
选择预训练的RGB图像分类模型,按照膨胀3D的运算操作进行3维卷积和池化拓展,输入RGB图像帧;
连接光流分支,选用全连接分类器计算RGB分支及光流分支的特征,输出分类概率;
构造损失函数,由三部分组成,分别为第一个传递线路的2范数、第二个传递线路的2范数和最终分类的交叉熵。
6.根据权利要求1所述的强动态视频的行为识别方法,其特征在于:还包括推断阶段,将RGB图像和光流图像分别输入已训练好的RGB分支和光流分支,得到行为分类。
CN202010840934.1A 2020-08-20 2020-08-20 一种强动态视频的行为识别方法 Active CN111709410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840934.1A CN111709410B (zh) 2020-08-20 2020-08-20 一种强动态视频的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840934.1A CN111709410B (zh) 2020-08-20 2020-08-20 一种强动态视频的行为识别方法

Publications (2)

Publication Number Publication Date
CN111709410A true CN111709410A (zh) 2020-09-25
CN111709410B CN111709410B (zh) 2020-12-01

Family

ID=72547343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840934.1A Active CN111709410B (zh) 2020-08-20 2020-08-20 一种强动态视频的行为识别方法

Country Status (1)

Country Link
CN (1) CN111709410B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422870A (zh) * 2020-11-12 2021-02-26 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN113435262A (zh) * 2021-06-08 2021-09-24 上海电机学院 基于双流膨胀3d卷积网络的异常行为识别方法和预警系统
CN113903133A (zh) * 2021-09-30 2022-01-07 中国工商银行股份有限公司 网点安全防护方法、装置及系统
CN113920660A (zh) * 2021-09-30 2022-01-11 中国工商银行股份有限公司 适用于安全存储设备的安全监控方法及系统
CN113920665A (zh) * 2021-09-30 2022-01-11 中国工商银行股份有限公司 包含安防设备的安防管理方法及系统
WO2022121543A1 (zh) * 2020-12-09 2022-06-16 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN114821760A (zh) * 2021-01-27 2022-07-29 四川大学 一种基于双流时空自动编码机的人体异常行为检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN109376677A (zh) * 2018-11-02 2019-02-22 深圳龙岗智能视听研究院 一种基于外形-运动双流信息融合的视频行为检测方法
CN110263666A (zh) * 2019-05-29 2019-09-20 西安交通大学 一种基于非对称多流的动作检测方法
WO2020088763A1 (en) * 2018-10-31 2020-05-07 Huawei Technologies Co., Ltd. Device and method for recognizing activity in videos
KR102123388B1 (ko) * 2018-05-04 2020-06-16 연세대학교 산학협력단 행동 인식을 위한 투 스트림 네트워크의 클래스 스코어 학습 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
KR102123388B1 (ko) * 2018-05-04 2020-06-16 연세대학교 산학협력단 행동 인식을 위한 투 스트림 네트워크의 클래스 스코어 학습 방법 및 장치
WO2020088763A1 (en) * 2018-10-31 2020-05-07 Huawei Technologies Co., Ltd. Device and method for recognizing activity in videos
CN109376677A (zh) * 2018-11-02 2019-02-22 深圳龙岗智能视听研究院 一种基于外形-运动双流信息融合的视频行为检测方法
CN110263666A (zh) * 2019-05-29 2019-09-20 西安交通大学 一种基于非对称多流的动作检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONG CAO 等: "Bypass Enhancement RGB Stream Model for Pedestrian Action Recognition of Autonomous Vehicles", 《HTTPS://ARXIV.ORG/ABS/1908.05674?CONTEXT=CS.CV》 *
宋立飞 等: "多尺度输入3D卷积融合双流模型的行为识别方法", 《计算机辅助设计与图形学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422870A (zh) * 2020-11-12 2021-02-26 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
CN112422870B (zh) * 2020-11-12 2021-09-17 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
WO2022121543A1 (zh) * 2020-12-09 2022-06-16 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN114821760A (zh) * 2021-01-27 2022-07-29 四川大学 一种基于双流时空自动编码机的人体异常行为检测方法
CN114821760B (zh) * 2021-01-27 2023-10-27 四川大学 一种基于双流时空自动编码机的人体异常行为检测方法
CN113435262A (zh) * 2021-06-08 2021-09-24 上海电机学院 基于双流膨胀3d卷积网络的异常行为识别方法和预警系统
CN113903133A (zh) * 2021-09-30 2022-01-07 中国工商银行股份有限公司 网点安全防护方法、装置及系统
CN113920660A (zh) * 2021-09-30 2022-01-11 中国工商银行股份有限公司 适用于安全存储设备的安全监控方法及系统
CN113920665A (zh) * 2021-09-30 2022-01-11 中国工商银行股份有限公司 包含安防设备的安防管理方法及系统

Also Published As

Publication number Publication date
CN111709410B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN111709410B (zh) 一种强动态视频的行为识别方法
CN111127557B (zh) 一种基于深度学习的视觉slam前端位姿估计方法
CN111462282B (zh) 一种场景图生成方法
CN109325952B (zh) 基于深度学习的时尚服装图像分割方法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN110717927A (zh) 基于深度学习和视惯融合的室内机器人运动估计方法
US11074438B2 (en) Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN111709289A (zh) 一种用于提高人体解析效果的多任务深度学习模型
CN116823885A (zh) 一种基于金字塔池化注意力机制的端到端单目标跟踪方法
CN116543283B (zh) 一种考虑模态不确定性的多模态目标检测方法
CN106650814B (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN110532868B (zh) 一种预测自由空间语义边界的方法
CN115294176B (zh) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN116958057A (zh) 一种策略引导的视觉回环检测的方法
CN116824433A (zh) 基于自监督神经网络的视觉-惯导-雷达融合自定位方法
CN114882328A (zh) 一种联合可见光图像和红外图像的目标检测方法
CN114463844A (zh) 一种基于自注意力双流网络的跌倒检测方法
Zhao et al. SAU-Net: Monocular Depth Estimation Combining Multi-Scale Features and Attention Mechanisms
CN111259859A (zh) 一种基于联合变量图片生成的行人重识别方法
CN112446253B (zh) 一种骨架行为识别方法及装置
CN117409483B (zh) 基于自适应联合时空图卷积的虚拟现实交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220628

Address after: 250000 13th floor, Hanyu Golden Valley artificial intelligence building, Jingshi Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan City, Shandong Province

Patentee after: Shenlan Artificial Intelligence Application Research Institute (Shandong) Co.,Ltd.

Address before: 213000 No.103, building 4, Chuangyan port, Changzhou science and Education City, No.18, middle Changwu Road, Wujin District, Changzhou City, Jiangsu Province

Patentee before: SHENLAN ARTIFICIAL INTELLIGENCE CHIP RESEARCH INSTITUTE (JIANGSU) Co.,Ltd.