CN114037930B - 基于时空增强网络的视频动作识别方法 - Google Patents

基于时空增强网络的视频动作识别方法 Download PDF

Info

Publication number
CN114037930B
CN114037930B CN202111209904.1A CN202111209904A CN114037930B CN 114037930 B CN114037930 B CN 114037930B CN 202111209904 A CN202111209904 A CN 202111209904A CN 114037930 B CN114037930 B CN 114037930B
Authority
CN
China
Prior art keywords
time
space
video
classification
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111209904.1A
Other languages
English (en)
Other versions
CN114037930A (zh
Inventor
黄鹤
余佳诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202111209904.1A priority Critical patent/CN114037930B/zh
Publication of CN114037930A publication Critical patent/CN114037930A/zh
Application granted granted Critical
Publication of CN114037930B publication Critical patent/CN114037930B/zh
Priority to PCT/CN2022/108524 priority patent/WO2023065759A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空增强网络的视频动作识别方法,包括:S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;S2.将S1获取到的视频帧图像序列进行预处理;S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。本发明的有益效果:通过在空间网络中嵌入时空增强模块,本发明提出的基于深度学习的视频行为识别系统可以得到较高的分类准确率。

Description

基于时空增强网络的视频动作识别方法
技术领域
本发明涉及涉及深度学习和图像处理领域,具体涉及一种基于时空增强网络的视频动作识别方法。
背景技术
随着互联网技术和大数据科学的快速发展,人们通过网络可获取的视频数量呈爆发式增长。如何从视频图像中提取有效信息已成为备受关注的问题。从视频中提取信息需要能够快速理解视频的内容,并根据一定规则对这些内容进行解释。显然,随着视频数量的急速增长,通过人工方式对视频进行理解和分析已经难以适应当前的需求。从而,需要采用智能自动化的方式完成相应的任务。作为视频理解的一个基本问题,视频图像中行为的识别在实际工程领域有着非常广泛的应用,如视频审核、手势识别和安防监控等。近年来,深度学习理论的研究取得了很大的进展,被成功用于图像处理等问题。因此,研究基于深度学习的视频动作识别具有非常重要的理论价值和应用前景。
在已有的研究中,人们通常采用3D卷积神经网络或者2D卷积神经网络处理视频图像中的动作识别问题。其中,基于2D卷积神经网络的动作识别方法一般采用双流架构,基本思路是:针对视频中的不同帧图像,分别利用输入的光流和RGB帧的空间流信息实现动作行为的时间和空间建模,并将时间流和空间流信息进行充分融合,最后输入到合适的分类器进行处理,得到动作识别结果。与传统单流结构的卷积神经网络相比,由于光流信息的利用,双流结构的卷积神经网络在视频动作识别方面的性能得到了明显的提升。但是,这种性能提升是以昂贵的光流计算成本为代价的。此外,基于双流结构的视频方法的另一个不足是通常采用2D卷积神经网络提取时间流信息,因此对长时间信息的建模能力不足。而在3D卷积神经网络模型中,提出了3D卷积核以有效提取视频图像中的时空信息。引入3D卷积核的好处是,随着结构的不断加深,感受野的不断增大,3D卷积神经网络更加有利于从视频图像中提取丰富的时间信息。另一方面,3D卷积神经网络也能够直接从输入的RGB图像中获取空间信息,从而避免了计算代价昂贵的光流提取过程。但是,由于3D卷积核的引入,基于3D卷积神经网络的动作识别方法仍然存在计算成本高、运算速度慢的不足。最近,已有一些研究将3D卷积神经网络和双流结构进行结合来提高行为识别的准确率。同样地,正如上述分析,这两者结合的计算成本显然是非常昂贵的,因此在实际中难以被广泛采用。与此同时,也有一些学者在研究新的时间流信息处理方法,探讨如何与2D卷积神经网络进行结合,实现对时空信息的有效提取。这样,不仅能充分发挥2D卷积神经网络轻量高效的特性,而且避免了对预训练好的2D卷积神经网络做过大的改动。然而,这种方法往往可移植性较差。因此,进一步探索时间流信息处理方法与2D卷积神经网络的集成是值得深入研究的。
传统技术存在以下技术问题:
1.基于双流网络的深度卷积神经网络模型对视频图像的长时间建模能力不足,影响动作行为识别的效果。另一方面,在双流结构中,光流提取的时间和空间成本都相对较高,不利于在实际中的应用;
2.基于3D卷积神经网络的视频行为识别方法计算成本高、运行速度慢;
3.2D卷积神经网络难以充分表示视频图像中运动信息的空间和时间特征的关联性,导致识别准确率不太理想。
发明内容
本发明要解决的技术问题是提供一种基于时空增强网络的视频动作识别方法,以MobileNetV2为基础,提出了一种时空增强网络模型(STEN)解决视频图像的动作识别问题,引入时空关联信息的注意力机制,解决2D卷积神经网络无法有效提取时空信息,识别准确率低的问题;设计了一种时空增强模块实现视频图像中运动信息的空间特征的有效表示;基于时空增强模块的视频行为识别的深度卷积神经网络模型参数量和计算量都相对较小,运行速度快;采用端到端的系统架构,易于实现。
为了解决上述技术问题,本发明提供了一种基于时空增强网络的视频动作识别方法,包括:
S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;
S2.将S1获取到的视频帧图像序列进行预处理;
S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;
S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。
在其中一个实施例中,步骤S3的具体流程为:
S3-1.采用的基础网络为MobileNet V2,它包含17个Bottleneck,将设计的时空增强模块嵌入在其第3,5,6,8,9,10,12,13,15,16个Bottleneck中得到时空增强网络模型;
S3-2.为了保证时空增强网络模型长期时间建模的能力,在时空增强模块之前级联了一个核大小为3的1D卷积;
S3-3.时空增强模块是通过残差块的形式实现的,其残差函数为xn+1=xn+A(xn,Wn),其中A(xn,Wn)是时空增强部分,其大致步骤为:将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分。
在其中一个实施例中,在步骤S3-1中使用的MobileNet V2结构为:首先使用一个3×3的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图;然后将得到的特征图依次通过17个Bottleneck和一个1×1的卷积得到大小为[NT,1280,7,7]的特征图;最后将得到的特征图经过平均池化再馈送到全连接层得到NT×CLS的特征,其中,CLS代表视频行为的分类数。
在其中一个实施例中,其中步骤S3-2的具体流程为:
将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N×H×W,C,T];
用核大小为3的1D卷积提取时间信息;
采用变形和移位将通过卷积后的特征的维度还原为[NT,C,H,W]。
在其中一个实施例中,在上述步骤中采用的是通道分离的1D卷积,且其前八分之一的通道被初始化为(0,0,1),八分之一至八分之二的通道被初始化为(1,0,0),剩下四分之三的通道被初始化为(0,1,0)。
在其中一个实施例中,在步骤S3-3中,时空增强模块是嵌入在采用了残差形式的Bottleneck的第一个卷积操作前面的,该模块由两部分并联构成:第一部分为原输入;第二部分为时空增强;时空增强模块的具体过程为:假定输入特征X的维度为[NT,C,H,W],其中,N为批量大小即视频数量,T为每个视频抽样的帧数其代表的是时间维度,C为通道数量,H和W分别为长和宽,NT=N×T;将其通过1×1的卷积得到维度为[NT,C/r,H,W]的特征Xr,这一步的目是减低计算量,将Xr分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后再通过1×1的卷积将其通道数恢复为C,之后经过sigmoid激活并与原输入相乘从而激活输入特征具有丰富时间信息的部分;上述时空增强的过程描述为A(xn,Wn);最后,通过xn+1=xn+A(xn,Wn)得到时空增强模块的输出。
在其中一个实施例中,步骤S4中用softmax对从S3获得的维度为NT×CLS的特征进行归一化操作,softmax定义为:
Figure BDA0003308469570000051
之后通过变形将处理后的特征维度变为[N,T,CLS],沿着其时间维求平均后再将得到的特征变形为[N,CLS],此时得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类。
基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
1.通过在空间网络中嵌入时空增强模块,本发明提出的基于深度学习的视频动作识别系统可以得到较高的分类准确率。2.时空增强模块让网络更关注于含有丰富时间信息的区域,因此具有较好的时空信息提取效率。3.采用MobileNetV2为基础模型大大减少了模型的运算复杂度和运算时间。4.模型仅以RGB帧图像为输入,也没有采用辅助网络,因此结构简单,参数量少。
附图说明
图1展示了本发明基于时空增强网络的视频动作识别方法中Bottleneck的结构示意图
图2展示了本发明基于时空增强网络的视频动作识别方法中提出的STEM模块的结构示意图。
图3展示了本发明基于时空增强网络的视频动作识别方法中基础模型MobileNetV2的Bottleneck结构之一。
图4展示了本发明基于时空增强网络的视频动作识别方法中基础模型MobileNetV2的Bottleneck结构之二。
图5展示了本发明基于时空增强网络的视频动作识别方法中基础模型MobileNetV2的Bottleneck结构之三。
图6展示了本发明基于时空增强网络的视频动作识别方法在Jester数据集上的训练和测试曲线。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提出的基于深度学习的视频动作识别系统构建了一种时空增强网络,通过在MobileNet V2中嵌入时空增强模块的方式实现对时空信息的有效提取。时空增强模块能根据运动信息空间关联性的强弱实现对其空间层面的增强。由于将时空增强模块嵌入到了MobileNet V2中,因此我们的模型具备轻量高效的特点,并且得益于我们设计的时空增强模块,模型也具备相当的时空信息提取能力。表1展示了模型的整体结构,其中t为MobileNet V2中的扩展参数,c为每个操作后的通道数,n为每个操作重复次数,s为操作中相关卷积的步长。
表1
Figure BDA0003308469570000071
图1展示了我们将时空增强模块嵌入到Bottleneck(InvertedResidual)中的结果,图2展示了提出的时空增强模块。该模型用于解决视频动作识别的具体流程为:
S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列,这样做一方面可以对视频图像的长时间变化趋势进行建模,另一方面可以增强模型的鲁棒性;
S2.将S1获取到的视频帧图像序列进行预处理,使其变为维度为[NT,3,224,224]的张量,其中,NT=N×T,N是视频数量,T是从每个视频采样的图像帧数,本专利以N=1,T=8做说明;
S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征;
S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。
其中步骤S3的具体流程为:
S3-1.采用的基础网络为MobileNet V2,它包含17个Bottleneck,我们将设计的时空增强模块嵌入在其第3,5,6,8,9,10,12,13,15,16个Bottleneck中得到时空增强网络模型;
S3-2.为了保证时空增强网络模型长期时间建模的能力,我们在时空增强模块之前级联了一个核大小为3的1D卷积。
S3-3.时空增强模块是通过残差块的形式实现的,这样可以保留背景信息,其残差函数为xn+1=xn+A(xn,Wn),其中A(xn,Wn)是时空增强部分,其大致步骤为:将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分。
在步骤S3-1中使用的MobileNet V2结构为:首先使用一个3×3的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图;然后将得到的特征图依次通过17个Bottleneck和一个1×1的卷积得到大小为[NT,1280,7,7]的特征图;最后将得到的特征图经过平均池化再馈送到全连接层得到NT×CLS的特征,其中CLS代表视频行为的分类数。MobileNet V2的Bottleneck的构成有三种形式,分别如图3、图4、图5所示,本专利修改的是其采用了残差形式的部分(图5)。
在步骤S3-2中,我们的设计分以下几步:
1.将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N×H×W,C,T];
2.用核大小为3的1D卷积提取时间信息;
3.采用变形和移位将通过卷积后的特征的维度还原为[NT,C,H,W]。
在上述步骤中采用的是通道分离的1D卷积,且其前八分之一的通道被初始化为(0,0,1),八分之一至八分之二的通道被初始化为(1,0,0),剩下四分之三的通道被初始化为(0,1,0)。采用通道分离的卷积可以使时间信息的提取过程更存粹,上述初始化操作是为了更有效地利用预训练的网络,从而提高模型收敛效率和准确率。
在步骤S3-3中,时空增强模块是嵌入在采用了残差形式的Bottleneck的第一个卷积操作前面的,该模块由两部分并联构成:第一部分为原输入;第二部分为时空增强。时空增强模块的具体过程为:假定输入特征X的维度为[NT,C,H,W],其中,N为批量大小(即视频数量),T为每个视频抽样的帧数(代表的是时间维度),C为通道数量,H和W分别为长和宽,NT=N×T。将其通过1×1的卷积得到维度为[NT,C/r,H,W]的特征Xr,这一步的目是减低计算量,将Xr分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后再通过1×1的卷积将其通道数恢复为C,之后经过sigmoid激活并与原输入相乘从而激活输入特征具有丰富时间信息的部分。上述时空增强的过程可以描述为A(xn,Wn)。最后,通过xn+1=xn+A(xn,Wn)得到时空增强模块的输出,这样的残差形式可以在实现对短期运动信息增强的同时保留背景信息。
步骤S4中用softmax对从S3获得的维度为NT×CLS的特征进行归一化操作,softmax定义为:
Figure BDA0003308469570000091
之后通过变形将处理后的特征维度变为[N,T,CLS],沿着其时间维求平均后再将得到的特征变形为[N,CLS],此时得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类。
本发明的一个具体应用场景如下:
整个视频行为识别系统需要先在标注好的数据集上进行训练才可以用于实际测试和使用。具体的训练步骤为:
1、提取视频帧图像
将一个彩色视频划分为T个等长的时间段并从每个时间段中随机采样一帧,这样就获得了具有T帧的输入图像序列。
2、数据增强
对得到的帧图像序列进行数据增强(增广),这一操作以有限的数据产生了等价于更多数据的价值,因为其能有效防止过拟合的作用,在深度学习领域应用广泛。数据增强的具体过程为:
(1)角裁剪(corner cropping),从图片的边角或中心提取区域,来避免默认关注图片的中心;
(2)尺度抖动(scale jittering),这一步骤可分为以下几步进行:
将输入大小固定为256×340;
从{256,224,192,168}中随机选择裁剪区域的宽度和高度。
将这些裁剪区域的大小调整为224×224。
事实上,上述步骤不光包括了尺度抖动,还包括了宽高比抖动;
(3)随机水平翻转,随机地将某些数据集中属于同一视频的图像通过中心轴左右翻转。
将经过上述一系列操作后的图像帧序列输入网络。
3、训练过程
本发明使用的损失函数为交叉熵损失函数,优化算法为SGD优化算法,这两种算法是分类问题中的经典算法。图6为模型在Jester数据集上的训练和测试曲线。表2为模型的识别准确率。
表2
模型 准确率(%)
时空增强网络模型 95.232
本发明的关键构思如下:
1.构建的时空增强模块具有很强的移植性,可以很方便地嵌入到不同基础模型的不同位置中。
2.时空增强模块让网络更关注于含有丰富时间信息的空间区域,增强了模型的表示能力。
3.模型仅以RGB帧图像为输入,也没有采用辅助网络,并且是端到端的结构,因此结构简单,参数量少。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (7)

1.一种基于时空增强网络的视频动作识别方法,其特征在于,包括:
S1.将视频划分为T个等长的时间段并从每个时间段中随机采样一帧,获得具有T帧图像的输入序列;
S2.将S1获取到的视频帧图像序列进行预处理;
S3.以S2得到的张量作为输入并将其输入到时空增强网络模型中,经过模型处理后得到提取的时空特征:
S3-1.采用的基础网络为MobileNet V2,它包含17个Bottleneck,将设计的时空增强模块嵌入在其第3,5,6,8,9,10,12,13,15,16个Bottleneck中得到时空增强网络模型;
S3-2.为了保证时空增强网络模型长期时间建模的能力,在时空增强模块之前级联了一个核大小为3的1D卷积:
将输入特征通过变形和移位操作使其维度由[NT,C,H,W]变为[N×H×W,C,T];
用核大小为3的1D卷积提取时间信息;
采用变形和移位将通过卷积后的特征的维度还原为[NT,C,H,W];
S3-3.时空增强模块是通过残差块的形式实现的,其残差函数为xn+1=xn+A(xn,Wn),其中A(xn,Wn)是时空增强部分,其步骤为:将输入特征分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后与原输入相乘从而激活输入特征具有丰富运动信息的部分:
时空增强模块是嵌入在采用了残差形式的Bottleneck的第一个卷积操作前面的,该模块由两部分并联构成:第一部分为原输入;第二部分为时空增强;时空增强模块的具体过程为:假定输入特征X的维度为[NT,C,H,W],其中,N为批量大小即视频数量,T为每个视频抽样的帧数,代表的是时间维度,C为通道数量,H和W分别为长和宽,NT=N×T;将其通过1×1的卷积得到维度为[NT,C/r,H,W]的特征Xr,这一步的目是减低计算量,将Xr分别沿长度维和宽度维做空间平均并分别用softmax激活,再做矩阵乘法得到空间关联图谱,将此图谱通过时间卷积后再通过1×1的卷积将其通道数恢复为C,之后经过sigmoid激活并与原输入相乘从而激活输入特征具有丰富时间信息的部分;上述时空增强的过程描述为A(xn,Wn);最后,通过
xn+1=xn+A(xn,Wn)得到时空增强模块的输出;
S4.用softmax激活并归一化S3得到的时空特征并沿着时间维度对归一化后的时空特征求平均,最后通过变形得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类结果。
2.如权利要求1所述的基于时空增强网络的视频动作识别方法,其特征在于,在步骤S3-1中使用的MobileNet V2结构为:首先使用一个3×3的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,32,112,112]的特征图;然后将得到的特征图依次通过17个Bottleneck和一个1×1的卷积得到大小为[NT,1280,7,7]的特征图;最后将得到的特征图经过平均池化再馈送到全连接层得到NT×CLS的特征,其中,CLS代表视频行为的分类数。
3.如权利要求1所述的基于时空增强网络的视频动作识别方法,其特征在于,在上述步骤中采用的是通道分离的1D卷积,且其前八分之一的通道被初始化为(0,0,1),八分之一至八分之二的通道被初始化为(1,0,0),剩下四分之三的通道被初始化为(0,1,0)。
4.如权利要求1所述的基于时空增强网络的视频动作识别方法,其特征在于,步骤S4中用softmax对从S3获得的维度为NT×CLS的特征进行归一化操作,softmax定义为:
Figure FDA0003642941330000021
之后通过变形将处理后的特征维度变为[N,T,CLS],沿着其时间维求平均后再将得到的特征变形为[N,CLS],此时得到的就是各个视频中行为的分类分数,再取最高分所属分类作为分类类别即可得到所求分类。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到4任一项所述的方法。
CN202111209904.1A 2021-10-18 2021-10-18 基于时空增强网络的视频动作识别方法 Active CN114037930B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111209904.1A CN114037930B (zh) 2021-10-18 2021-10-18 基于时空增强网络的视频动作识别方法
PCT/CN2022/108524 WO2023065759A1 (zh) 2021-10-18 2022-07-28 基于时空增强网络的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111209904.1A CN114037930B (zh) 2021-10-18 2021-10-18 基于时空增强网络的视频动作识别方法

Publications (2)

Publication Number Publication Date
CN114037930A CN114037930A (zh) 2022-02-11
CN114037930B true CN114037930B (zh) 2022-07-12

Family

ID=80135127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111209904.1A Active CN114037930B (zh) 2021-10-18 2021-10-18 基于时空增强网络的视频动作识别方法

Country Status (2)

Country Link
CN (1) CN114037930B (zh)
WO (1) WO2023065759A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037930B (zh) * 2021-10-18 2022-07-12 苏州大学 基于时空增强网络的视频动作识别方法
CN114821547A (zh) * 2022-03-29 2022-07-29 苏州大学 基于时空选通网络的驾驶行为识别方法及系统
CN114648722B (zh) * 2022-04-07 2023-07-18 杭州电子科技大学 一种基于视频多路径时空特征网络的动作识别方法
CN117292209B (zh) * 2023-11-27 2024-04-05 之江实验室 基于时空增强三维注意力重参数化的视频分类方法及装置
CN117876939B (zh) * 2024-03-11 2024-05-24 南京信息工程大学 一种基于时空特征增强的实时时空行为检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583334A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空关联神经网络的动作识别方法及其系统
CN110032926A (zh) * 2019-02-22 2019-07-19 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备
CN110765967A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN111339845A (zh) * 2020-02-13 2020-06-26 福州大学 自动区分并增强时空特征的图卷积神经网络的人体动作识别方法
CN111402170A (zh) * 2020-03-23 2020-07-10 Oppo广东移动通信有限公司 图像增强方法、装置、终端及计算机可读存储介质
WO2020191272A1 (en) * 2019-03-21 2020-09-24 Tencent America LLC Method and apparatus for video coding
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768069B2 (en) * 2011-02-24 2014-07-01 Sony Corporation Image enhancement apparatus and method
CN109784150B (zh) * 2018-12-06 2023-08-01 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN109726683B (zh) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法
CN109977904A (zh) * 2019-04-04 2019-07-05 成都信息工程大学 一种基于深度学习的轻量型的人体动作识别方法
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
KR102641117B1 (ko) * 2019-08-26 2024-02-27 삼성전자주식회사 영상을 증강하는 방법 및 장치
CN110647817B (zh) * 2019-08-27 2022-04-05 江南大学 基于MobileNet V3的实时人脸检测方法
CN111091045B (zh) * 2019-10-25 2022-08-23 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111104961A (zh) * 2019-10-31 2020-05-05 太原理工大学 基于改进的MobileNet网络对乳腺癌进行分类的方法
CN111709304B (zh) * 2020-05-21 2023-05-05 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法
CN112070677B (zh) * 2020-09-18 2024-04-02 中国科学技术大学 基于时间切片的视频时空超分辨率增强方法
CN112464835A (zh) * 2020-12-03 2021-03-09 北京工商大学 一种基于时序增强模块的视频人体行为识别方法
CN112699786B (zh) * 2020-12-29 2022-03-29 华南理工大学 一种基于空间增强模块的视频行为识别方法及系统
CN114037930B (zh) * 2021-10-18 2022-07-12 苏州大学 基于时空增强网络的视频动作识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583334A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空关联神经网络的动作识别方法及其系统
CN110032926A (zh) * 2019-02-22 2019-07-19 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备
WO2020191272A1 (en) * 2019-03-21 2020-09-24 Tencent America LLC Method and apparatus for video coding
CN110765967A (zh) * 2019-10-30 2020-02-07 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN111339845A (zh) * 2020-02-13 2020-06-26 福州大学 自动区分并增强时空特征的图卷积神经网络的人体动作识别方法
CN111402170A (zh) * 2020-03-23 2020-07-10 Oppo广东移动通信有限公司 图像增强方法、装置、终端及计算机可读存储介质
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法

Also Published As

Publication number Publication date
CN114037930A (zh) 2022-02-11
WO2023065759A1 (zh) 2023-04-27

Similar Documents

Publication Publication Date Title
CN114037930B (zh) 基于时空增强网络的视频动作识别方法
Ma et al. Au r-cnn: Encoding expert prior knowledge into r-cnn for action unit detection
CN110245665B (zh) 基于注意力机制的图像语义分割方法
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
US20220004744A1 (en) Human posture detection method and apparatus, device and storage medium
CN107203787B (zh) 一种无监督正则化矩阵分解特征选择方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
Xie et al. Attention adjacency matrix based graph convolutional networks for skeleton-based action recognition
CN111526434B (zh) 基于转换器的视频摘要方法
CN114897742B (zh) 一种纹理和结构特征两次融合的图像修复方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN112434608A (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Esmaeilzehi et al. Compnet: A new scheme for single image super resolution based on deep convolutional neural network
Wang et al. Global gated mixture of second-order pooling for improving deep convolutional neural networks
Al-Amaren et al. RHN: A residual holistic neural network for edge detection
Tan et al. DC programming for solving a sparse modeling problem of video key frame extraction
Wang et al. Global contextual guided residual attention network for salient object detection
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
CN112464835A (zh) 一种基于时序增强模块的视频人体行为识别方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
Wei et al. A survey of facial expression recognition based on deep learning
CN113627368B (zh) 基于深度学习的视频行为识别方法
An et al. Squeeze-and-excitation on spatial and temporal deep feature space for action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant