CN112464835A - 一种基于时序增强模块的视频人体行为识别方法 - Google Patents

一种基于时序增强模块的视频人体行为识别方法 Download PDF

Info

Publication number
CN112464835A
CN112464835A CN202011391904.3A CN202011391904A CN112464835A CN 112464835 A CN112464835 A CN 112464835A CN 202011391904 A CN202011391904 A CN 202011391904A CN 112464835 A CN112464835 A CN 112464835A
Authority
CN
China
Prior art keywords
time sequence
video
convolution
size
stride
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011391904.3A
Other languages
English (en)
Inventor
明少锋
蔡强
高翠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202011391904.3A priority Critical patent/CN112464835A/zh
Publication of CN112464835A publication Critical patent/CN112464835A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Abstract

本发明公开了一种基于时序增强模块的人体行为识别方法,目的是提高人体行为识别的准确度。所述方法包括三个方面:(1)针对输入的视频片段进行稀疏采样,以及对提取到的特征进行保留时序信息的池化下采样;(2)构建时序增强模块,对时空特征进行提取激活,同时对时序信息进行增强和交互处理;(3)构建分类器得到行为识别结果。本发明在模型训练的过程中进行时序信息增强和交互处理,增强了视频帧之间的时序信息,为模型的训练提供了丰富的语义信息,增强了模型的鲁棒性和健壮性,由此可以提高人体行为识别的准确度。

Description

一种基于时序增强模块的视频人体行为识别方法
技术领域
本发明涉及计算机视觉领域,特别地涉及视频人体行为识别领域,具体是设计一种基于时序增强模块的视频人体行为识别方法。
背景技术
当前,社会处于一个大数据与云计算并行的时代,随着抖音、快手、火山小视频等视频社交软件的出现,互联网上的信息不再局限于文字和图像,视频信息也层出不穷。挖掘视频信息中的联系、对视频信息进行有效的监控,是当代社会一个不可避免的问题。
视频人体行为识别的目的是使用计算机对视频序列进行分析,自动识别出视频中的人体做了何种行为动作。其按照提取时空特征的方式可以分为双流网络和3D卷积网络。当前,视频人体行为识别技术在深度学习的背景下,取得了快速的发展。但是,在智能监控、人机交互、虚拟现实以及视频理解等领域对视频人体行为识别的应用,还存在很多的挑战。因此,本发明提出了一种基于时序增强模块的视频人体行为识别方法。
相较于图像来说,视频的一个关键元素是时序信息,人们普遍认为图像内容在视频相邻帧之间变化缓慢,尤其是在高级语义上。因此,视频相邻帧中物体的位置和外观在时间上应该是一致的,即人体姿态在视频相邻帧中不应该随着时间发生剧烈的变化,然而人体行为动作种类的划分十分依赖于人体特征在时序信息上的表达。由此可见,直接将未经处理的视频片段直接用于人体行为识别网络进行分类识别得不到较好的识别效果。所以要做好视频人体行为识别就要充分利用视频中包含的时序信息。
目前,视频人体行为识别主要的技术主要有以下几类:
(1)基于双流网络的人体行为识别方法。双流网络分为时间流卷积神经网络和空间流卷积神经网络两个分支,且两个分支具有相似的网络结构。时间流卷积神经网络先对视频序列中相邻两帧计算光流图像,再对多帧堆叠的光流图像提取时序信息,空间流卷积神经网络则对视频RGB图像提取空间特征。最后将两个网络分别得到的得分进行融合,从而得到最终的分类结果。虽然基于双流网络架构方法的准确率高,但提取时序信息过程复杂,并且分开训练两个网络,耗费计算资源,难以达到实时性的要求。
(2)基于传统3D卷积网络的人体行为识别方法。传统3D卷积网络使用正方体卷积核提取时空特征,对特征进行池化下采样;由于视频相邻帧包含时序信息和空间信息的比例不同,这种方法对时序信息和空间信息进行了等比例的采样,容易导致关键的时序信息丢失,从而降低了人体行为识别的准确率。
基于以上分析可得,当前视频人体行为识别遇到的问题是不能简单有效地提取和利用视频序列中的时序信息。而时序增强模块是一种基于深度学习的模板方法,通过利用不同的卷积核分别对时间、空间、特征维度和通道特征做相应的卷积特征提取,同时时序模块在对时空特征进行网络训练时,只在空间维度上进行特征池化下采样,在时间维度上不进行特征池化下采样,进而可以保留关键的时序信息;最后将各个通道上的时序信息进行交互,进一步增强时序信息的表达。由以上描述可得,时序增强模块提取时空特征的过程相对简单,不仅可以降低计算资源消耗,而且还可以有效地保留时序信息,提升时序信息在时空特征里的权重比例。
针对上述问题,构建一个能充分利用视频中时序信息的端到端网络,是解决视频人体行为识别问题的关键。由时序增强模块的特征提取过程可以发现,基于时序增强模块的方法在时序特征提取和保留方面有很大的优势。此外,我们还会在运用时序增强模块进行时序特征增强之前,通过对视频片段进行关键帧的稀疏采样预处理,以降低视频中冗余信息带来的计算量。根据现有了解,还没有任何机构或组织构建一个可以增强时序信息的表达以及对特征进行近邻通道交互的时序增强模块来提取时空特征,并将其传入一个端到端网络中进行训练。
发明内容
针对现有视频人体行为识别技术不能充分利用视频中时序信息的缺陷,本发明提出了一种基于时序增强模块的视频人体行为识别方法,算法中利用不同的卷积核分别对时间、空间、特征维度和通道特征做相应的卷积,接着将其卷积核组合成时序增强模块来进行时空特征提取,同时在网络训练过程中不对时间维度进行特征下采样,从而更好地利用视频中的时序信息进行人体行为识别。
本发明的技术方案如下:
一种基于时序信息的视频人体行为识别方法,包括以下步骤:
步骤(1)本发明使用了佛罗里达大学发布的人体行为动作基准数据集UCF-101作为实验用的数据集,该数据集包含了101种行为动作和13320个视频片段。
步骤(2)对长度为T帧的视频片段进行时间步幅为t的稀疏采样,设置T∶t的比例为8∶1,得到视频序列frames。
步骤(3)构建保留时序信息的池化层Pool1,接着在frames上滑动一个以T×S2为卷积核的卷积网络得到时空特征features_1,并将features_1输入到池化层Pool1中,得到时空特征features_2。
步骤(4)采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block。Temporal_Block包含5层卷积层,分别为时间卷积层、空间卷积层、维度调整卷积层、跳跃连接卷积层和通道交互卷积层。将步骤(3)中的features_2输入到16组Temporal_Block中进行特征提取激活,同时对时序信息进行增强处理,以及不对时序信息进行特征下采样,得到富含时序信息的时空特征features_3。
步骤(5)对步骤(4)中时空特征features_3进行平均池化采样以及dropout处理,得到特征features_4。
步骤(6)将features_4输入到一个长度为N维的全连接层,得到行为预测结果,其中N为需要识别的行为动作种类个数。
本发明与现有的技术相比优点在于:通过上述步骤,基于时序增强模块的人体行为识别方法在端到端网络的训练过程中增强了时序信息的表达,同时保留了时序信息的真实性,为人体行为识别提供了丰富的语义信息,有利于模型对人体行为动作进行准确的分类;而且时序增强模块的方法相较于双流网络中的光流图像提取简单,速度快且可操作性强;相较于传统3D卷积网络保留了更多关键帧的时序信息,保证了视频人体行为分类的准确性。
附图说明
图1是本发明方法流程图;
图2是本发明提到保留时序特征的池化示意图;
图3是本发明提到的时序增强模块结构图;
图4是本发明提到的通道特征交互示意图;
图5是本发明的网络架构图;
具体实施方式
下面结合附图和具体实施方式对本发明进行描述。
如图1所示,本发明是一种基于时序增强模块的视频人体行为识别算法,通过构建时序增强模块对视频帧进行时空特征提取,并在端到端网络的训练过程中对时序特征信息进行了增强和交互处理,提高了视频中时序信息的利用率;同时相对于现有的视频人体行为识别技术来说,也降低了模型的复杂度。
实施例1:
(1)本发明使用了佛罗里达大学在2012年发布的UCF-101动作识别基准数据集,UCF-101数据集有101个动作类别,共13320个视频,在动作方面具有最大的多样性,并且在摄像机运动、物体外观及姿势、物体比例、杂乱的背景和照明条件等方面存在很大差异,可以进行广泛的研究。同时,该数据集按照8∶1∶1的比例进行划分训练集、验证集和测试集,其中训练集有10656段视频,验证集有1332段视频,测试集有1332段视频。本发明中的方法不仅适用于对该数据集包含的101种行为动作的识别分类,也可以扩展到其他类别的视频人体行为动作识别,例如人与人交互或人与物交互等行为动作。
(2)由(1)中的数据集,可得视频片段,将长度为T帧的视频片段以时间步幅t进行稀疏采样得到视频帧序列;其中T表示输入视频片段总帧数,t表示沿着时间轴方向,每间隔t帧视频图像进行采样一次。对于视频帧之间的采样比例T∶t,取值过小,会导致计算资源耗费过大;取值过大,又会导致丢失某些关键帧的时序信息;因此,采样比例T∶t的设定还要根据具体的实验进行具体分析。通过实验,本发明设置T∶t的值为8∶1。在本发明中采用计算机机器学习库pytorch中的torch.io._read_video_from_memory()进行稀疏采样,得到该视频帧序列表示为frames。
(3)对时空特征进行预处理。在本发明中采用卷积层和池化层作为特征采样网络feature_net,具体是在frames上滑动一个卷积核尺寸为1×72的卷积网络来提取时空特征信息,再将提取到的时空特征进行空间维度上的特征池化下采样,对时间维度上的特征进行保留处理,得到特征feature_2。特征池化过程如图2所示,图2中左侧柱体为提取到的时空特征,右侧为经过池化后保留时序信息的时空特征,对比池化前后的特征可以发现,该池化方法有效地保留了时序特征信息,可以帮助模型更好地预测行为动作的种类。feature_net的网络结构如表1所示。
表1是本发明涉及到的feature_net网络结构信息表
Figure BSA0000226598690000051
(4)对时空特征进行时序信息增强处理。在本发明中采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block,每个Temporal_Block中包含5层卷积层,共16组Temporal_Block。Temporal_Block的结构如图3所示,用{T×S2,C}代表卷积核,其中T是卷积核在时间维度上的滑动尺寸,S是卷积核在空间维度上的滑动尺寸,C是输出的通道维数,BN是批处理层,RELU是激活函数;在Temporal_Block中,时间卷积层、空间卷积层、维度调整卷积层、跳跃连接卷积层和通道交互卷积层的卷积核尺寸分别为{3×12,64}、{1×32,64}、{1×12,256}、{1×12,256}、{1×12,256}。时间卷积层在时空特征上滑动一个{3×12,64}的卷积核,步长为{1×22},即在时间维度上滑动的范围为3,滑动步长为1,可以频繁地提取时间特征,而在空间维度上滑动的范围为1,滑动步长为2,这样有利于减少空间上的冗余信息;空间卷积层的卷积核尺寸为{1×32,64},滑动步长依然为{1×22},则对空间特征进行提取激活时,可以保留特征的时序信息;维度调整卷积层则是使用{1×12,256}卷积核对特征进行升维处理,将64维调整为256维,有利于将特征传到后续的Temporal_Block结构中进行训练,增强了特征的传播;同时跳跃连接卷积层使用{1×12,256}卷积核来进行残差连接,借助模型的反向传播机制修正网络参数,对模型进行调优操作;通道交互卷积层使通道特征通过1×1×1卷积与其近邻k个通道特征进行卷积交互,对于通道特征的交互范围k,取值过小,会导致特征间的联系信息减弱;取值过大,又会导致冗余信息过多,因此,交互范围k值还需要根据具体的实验进行具体分析。通过实验,本发明设置k的值为5,交互卷积层的交互示意图如图4所示。图4中左侧的柱体f1是没有进行通道交互的时空特征,中间的圆形代表一个通道特征,图4呈现的是每5个通道特征用1×1×1卷积生成一个交互后的通道特征的过程,通道交互后的时空特征如图4中右侧的柱体f2所示。
最后将步骤(2)中的feature_2传入16组Temporal_Block中进行特征提取激活,得到特征feature_3;在Temporal_Network网络训练过程中,增强了视频帧之间的时序信息,为模型的训练提供了丰富的语义信息,同时也增强了模型的鲁棒性和健壮性。16组Temporal_Network网络结构信息如表2所示。
表2是本发明涉及到的16组Temporal_Block网络结构信息表
Figure BSA0000226598690000061
Figure BSA0000226598690000071
(5)对feature_3进行尺寸为{4×72}的平均池化,进一步去除冗余信息的干扰,降低计算量,以及对feature_3进行dropout处理,得到特征feature_4;其中dropout的值设为0.5,防止模型过拟合,增强模型的健壮性。
(6)采取全连接层来构建行为识别分类器,全连接层输出长度为N维,其中N是行为识别的种类个数,将feature_4输入全连接层,得到行为识别预测结果。
本发明整体的网络架构如图4所示,图中的时序增强模块即为本发明的创新,首先从视频片段中进行稀疏采样获取视频序列,接着对视频序列进行特征提取和池化,减少冗余信息的干扰;然后将提取到的特征传入到时序增强模块中进行特征提取和时序信息增强与交互处理;接着将特征再次进行池化处理,减少计算量;最后将特征输入到全连接层得到行为识别结果。和基于双流网络的人体行为识别方法相比,该框架不用预先提取光流图像,特征提取过程相对简单;与基于传统3D网络的人体行为识别方法相比,该框架在网络训练过程中,增强了视频帧之间的时序信息,为模型训练提供了丰富的语义信息,增强了模型的鲁棒性和健壮性。
应当理解的是,对本领域的普通技术人员来说,可以根据上述说明加以改进或变换,而所有的这些改进和变换都应该属于本发明所附权利要求的保护范围。

Claims (4)

1.一种基于时序增强模块的视频人体行为识别方法,其特征在于,包括以下步骤:
步骤(1)本发明使用了佛罗里达大学发布的人体行为动作基准数据集UCF-101作为实验用的数据集,该数据集包含了101种行为动作和13320个视频片段。
步骤(2)对长度为T帧的视频片段进行时间步幅为t的稀疏采样,设置T∶t的比例为8∶1,得到视频序列frames。
步骤(3)构建保留时序信息的池化层Pool1,接着在frames上滑动一个以T×S2为卷积核的卷积网络得到时空特征features_1,并将features_1输入到池化层Pool1中,得到时空特征features_2。
步骤(4)采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block。Temporal_Block包含5层卷积层,分别为时间卷积层、空间卷积层、维度调整卷积层、跳跃连接卷积层和通道交互卷积层。将步骤(3)中的features_2输入到16组Temporal_Block中进行特征提取激活,同时对时序信息进行增强处理,以及不对时序信息进行特征下采样,得到富含时序信息的时空特征features_3。
步骤(5)对步骤(4)中时空特征features_3进行平均池化采样以及dropout处理,得到特征features_4。
步骤(6)将features_4输入到一个长度为N维的全连接层,得到行为预测结果,其中N为需要识别的行为动作种类个数。
2.根据权利要求1所述的一种基于时序增强模块的视频人体行为识别方法,其特征在于:所述步骤(2)中,设置视频稀疏采样参数T∶t的比例为8∶1,得到的视频序列既保留了目标的运动信息,同时也在一定程度上减少网络的计算量。
3.根据权利要求1所述的一种基于时序模块的视频人体行为识别方法,其特征在于:所述步骤(3)中,保留时序信息的池化层Pool1的构造如下,池化层的尺寸和步长分别表示为{T_size,S_size2},{T_stride,S_stride2},其中T_size,S_size分别代表池化层在时间维度和空间维度上的采样范围,T_stride,S_stride分别代表在时间维度和空间维度上的窗口滑动步幅;Pool1采用最大池化,设置{T_size,S_size2}和{T_stride,S_stride2}分别为{1,S_size2},{1,S_stride2},表示在时间维度上不进行池化下采样,有利于保留帧与帧之间的时序信息。
4.根据权利要求1所述的一种基于时序增强模块的视频人体行为识别方法,其特征在于:所述步骤(4)中,时序增强模块Temporal_Block的具体构造如下:对于尺寸为{T,S2}的卷积核,其中T、S分别代表卷积核在时间维度上的尺寸和在空间维度上的尺寸;卷积核的步长表示为{T_stride_1,S_stride_12},其中T_stride_1、S_stride_1分别代表卷积核在时间维度和空间维度上滑动窗口的步幅。在Temporal_Block中,时间卷积层的卷积尺寸设置为{3×12},步幅设置为{1,S_stride_12},有利于密集地提取相邻帧的时序信息;空间卷积层的卷积尺寸设置为{1×32},步幅设置为{1,S_stride_12},有利于在进行空间特征提取时保留时序信息;维度调整卷积层的卷积尺寸设置为{1×12},步幅设置为{1,12},借助1×1×1卷积核可以保留信息的特性,将特征维度个数C1调整为C2,有利传入下一个Temporal_Block中进行训练,增强特征的传播;跳跃连接卷积层的卷积尺寸设置为{1×12},步幅设置为{1,12},借助模型的残差连接机制修正网络参数,对模型进行调优操作;通道交互卷积层的卷积尺寸设置为{1×12},步幅设置为{1,12},通道交互卷积层将通道特征与其近邻k个通道特征进行1×1×1卷积交互,每一个特征yi对应的权重wi
Figure FSA0000226598680000021
其中,σ是激活函数,k是其近邻通道的个数,
Figure FSA0000226598680000022
代表yi的k个近邻通道特征的集合,αj为一个{1×12}卷积核。
CN202011391904.3A 2020-12-03 2020-12-03 一种基于时序增强模块的视频人体行为识别方法 Pending CN112464835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391904.3A CN112464835A (zh) 2020-12-03 2020-12-03 一种基于时序增强模块的视频人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391904.3A CN112464835A (zh) 2020-12-03 2020-12-03 一种基于时序增强模块的视频人体行为识别方法

Publications (1)

Publication Number Publication Date
CN112464835A true CN112464835A (zh) 2021-03-09

Family

ID=74805586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391904.3A Pending CN112464835A (zh) 2020-12-03 2020-12-03 一种基于时序增强模块的视频人体行为识别方法

Country Status (1)

Country Link
CN (1) CN112464835A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361417A (zh) * 2021-06-09 2021-09-07 陕西理工大学 一种基于可变时序的人体行为识别方法
CN114037930A (zh) * 2021-10-18 2022-02-11 苏州大学 基于时空增强网络的视频动作识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
US20200057935A1 (en) * 2017-03-23 2020-02-20 Peking University Shenzhen Graduate School Video action detection method based on convolutional neural network
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200057935A1 (en) * 2017-03-23 2020-02-20 Peking University Shenzhen Graduate School Video action detection method based on convolutional neural network
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111709304A (zh) * 2020-05-21 2020-09-25 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
解怀奇;乐红兵;: "基于通道注意力机制的视频人体行为识别", 电子技术与软件工程, no. 04 *
陈颖;来兴雪;周志全;秦晓宏;池亚平;: "基于3D双流卷积神经网络和GRU网络的人体行为识别", 计算机应用与软件, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361417A (zh) * 2021-06-09 2021-09-07 陕西理工大学 一种基于可变时序的人体行为识别方法
CN113361417B (zh) * 2021-06-09 2023-10-31 陕西理工大学 一种基于可变时序的人体行为识别方法
CN114037930A (zh) * 2021-10-18 2022-02-11 苏州大学 基于时空增强网络的视频动作识别方法
WO2023065759A1 (zh) * 2021-10-18 2023-04-27 苏州大学 基于时空增强网络的视频动作识别方法

Similar Documents

Publication Publication Date Title
Herath et al. Going deeper into action recognition: A survey
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110458085B (zh) 基于注意力增强三维时空表征学习的视频行为识别方法
Liu et al. Learning human pose models from synthesized data for robust RGB-D action recognition
Seow et al. A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities
CN114037930B (zh) 基于时空增强网络的视频动作识别方法
CN107784316A (zh) 一种图像识别方法、装置、系统和计算设备
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN112464835A (zh) 一种基于时序增强模块的视频人体行为识别方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN112016406A (zh) 一种基于全卷积网络的视频关键帧提取方法
Kandeel et al. Facial expression recognition using a simplified convolutional neural network model
CN115797835A (zh) 一种基于异构Transformer的无监督视频目标分割算法
Liu et al. Lightweight ViT model for micro-expression recognition enhanced by transfer learning
Singh et al. Action recognition in dark videos using spatio-temporal features and bidirectional encoder representations from transformers
Xie et al. Facial expression recognition through multi-level features extraction and fusion
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
Gong et al. Human interaction recognition based on deep learning and HMM
Uddin et al. Dynamic facial expression understanding using deep spatiotemporal LDSP on spark
Hao et al. Facial expression recognition based on regional adaptive correlation
Laith et al. Effectiveness of new algorithms for facial recognition based on deep neural networks
Xie et al. Robust facial expression recognition with transformer block enhancement module
Lee et al. Computer vision self-supervised learning methods on time series
Zhu et al. Lite-3DCNN combined with attention mechanism for complex human movement recognition
Sousa e Santos et al. Human action recognition based on a spatio-temporal video autoencoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination