CN113343786B - 基于深度学习的轻量化视频动作识别方法及系统 - Google Patents

基于深度学习的轻量化视频动作识别方法及系统 Download PDF

Info

Publication number
CN113343786B
CN113343786B CN202110549551.3A CN202110549551A CN113343786B CN 113343786 B CN113343786 B CN 113343786B CN 202110549551 A CN202110549551 A CN 202110549551A CN 113343786 B CN113343786 B CN 113343786B
Authority
CN
China
Prior art keywords
mdm
convolution
video
time
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110549551.3A
Other languages
English (en)
Other versions
CN113343786A (zh
Inventor
王中元
陈建宇
曾康利
黄宝金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110549551.3A priority Critical patent/CN113343786B/zh
Publication of CN113343786A publication Critical patent/CN113343786A/zh
Application granted granted Critical
Publication of CN113343786B publication Critical patent/CN113343786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的轻量化视频动作识别方法及系统,提出了一个多维度模块(MDM)来进行动作识别。MDM使用多个不同维度的2D卷积核来重构3D卷积核,这些模块兼具高效率和识别准确性。具体而言,MDM首先从三个正交维度上对视频立方体执行2D卷积,以协同的方式学习视频中动作主体的外观和运动特征。其次,沿通道维度对三个2D卷积进行分组操作,旨在进一步减少参数计算量。最后,对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作,有效获得视频中长程和短程的时序信息。与3D CNN的计算量相比,本发明方法的效率更高,在保证识别性能的基础上满足了轻量化需求。

Description

基于深度学习的轻量化视频动作识别方法及系统
技术领域
本发明属于视频识别技术领域,涉及一种针对视频的人体动作识别网络、方法及系统,具体涉及一种基于深度学习的轻量化视频动作识别网络、方法及系统。
背景技术
深度学习推动了视频动作识别的进展。深度学习通过在大量视频数据集上进行训练获得了远超传统识别方法的效果。然而,考虑到设备的功耗、存储成本等因素,基于视频的人体动作分析与识别应用又对实时性、速度有着很高的要求。因此,对人体行为分析识别模型进行轻量化设计具有重要意义。
目前视频动作识别的主流方法大致分为三类:
(1)双流方法:扩展2D CNN来处理视频识别任务是最直接的方法。 Simonyan等人提出了一种two-stream模型来识别视频中的人体动作,该模型由空间流和光流组成,这二者在动作识别上是信息互补的。空间流用于提取视频的 RGB特征,光流旨在捕捉视频堆叠帧之间的光流特征。最后采用后期融合模式对双流结果进行融合。然而一些研究指出了双流网络中后期融合的缺点,并探索了不同的融合策略。Feichtenhofer等人指出,时空特征仅通过后期融合进行整合,并不能真正学习到视频内部的时空交互信息。为了减轻这种限制,他们提出了具有跨流残差连接的时空乘数网络,以确保更有效地学习到视频中的时空交互信息。特别是,在残差网络中实现了乘法运动门控函数,重构了双流结构从而保证模型在整个学习过程中能够实现时空特征的有效交互。
(2)3D CNN方法:3D CNN利用3D卷积操作和3D池化操作,从堆叠的视频块中协同学习时空信息。有研究表明3D卷积是学习视频时空激活的一种较好的方法,Tran等人提出了一种基于VGG的深度模型,从帧序列中学习时空特征。Carira等人在Inception模块中提出将二维卷积扩展到三维卷积。然而,3D CNN存在昂贵的计算成本和大量的内存需求等弊端。因此,许多研究者通过分解时空卷积来减少模型参数的计算量。Qiu等人提出了P3D,包括三种不同的空间和时间卷积的组合方法。R(2+1)D和S3D-G也使用空间2D卷积和时间1D卷积来捕捉动作识别的时空特征。
(3)时空建模方法:视频动作识别中最新的研究趋势聚焦于设计轻量化的高性能网络结构。现有研究结果表明,只有非底层卷积层才能提取出明显的运动信号。Sun等人采用1D时间卷积和2D空间卷积组合方式进行动作识别。Xie 等人证明了可分离的3D CNN在2DCNN的顶部可以更有效的学习时空信息。同时,静态场景和主体的单帧空间特征也可以为动作识别提供线索。例如,MiCT 采取一种双流架构,用于组合3D卷积和2D卷积来进行动作识别。时空映射模型通过联合分析视频的所有帧来捕捉帧的时间演化从而学习视频中的时空信息。受分组卷积范式的启发,GST在分离的信道群上,使用2D卷积和3D卷积并行建模空间和时空交互信息,因而可以在减少网络参数的同时提升模型的识别准确率。CSN通过群组卷积分离信道交互和时空交互来进行动作识别。TSM通过对时间维度上的特征进行位移操作来学习连续帧之间的时空交互关系,这种无参数的方法实现了3D CNN的等效性能。
现有的这些视频动作识别模型大多为(2+1)D模型或2D+3D并行模型,虽然这些方法都取得了一定的效果,但它们在学习过程中实际上都是将时空信息分割成两个独立的部分分别提取,并未实现真正意义上的时空信息交互。
发明内容
为了解决上述技术问题,本发明使用深度学习中分离式卷积和分组卷积以及时间偏移思想,提出了一种基于深度学习的轻量化视频动作识别网络、方法及系统。本发明在满足识别准确率的同时,最大化的减少了模型的复杂度,满足了当前动作识别模型对于轻量化的需求。
本发明的识别网络所采用的技术方案是:一种基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D 卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的 MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A 和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个 MDM模块。
本发明的方法所采用的技术方案是:一种基于深度学习的轻量化视频动作识别方法,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列(RGB帧);
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
本发明的系统所采用的技术方案是:一种基于深度学习的轻量化视频动作识别系统,包括以下模块:
模块1,用于对输入视频进行预处理操作,获得相应类别的视频帧序列(RGB 帧);
模块2,用于将处理后的视频输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
模块3,用于将模块2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
与现有的检测方法相比,本发明具有以下的优点与积极效果:
(1)本发明提出了一种轻量级的特征提取模块MDM,将其集成到现有的2D CNN中,能够实现更高效和更准确的视频动作识别。
(2)本发明提出的MDM具有三个不同维度的卷积分支,其中包含一个空间卷积分支和两个时空协作卷积分支,这种组合方案能够促进网络协同地提取视频中的时空特征,保证在学习过程中实现时空信息的真正交互。
附图说明
图1:本发明实施例的基于深度学习的轻量化视频动作识别框架图。
图2:本发明实施例的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3 ×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、 W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A 和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络。具体而言,Inception-V3网络包含11个Block_module,每个 Block_module模块具有不同的分支结构及通道数。本专利是在Inception-V3网络的每个Block模块中的1×1卷积之后插入MDM模块(注:1×1卷积在该Block 中是单独分支,通过消融实验证实在该分支插入MDM模块后效果最佳),在Inception-V3网络中共插入10个MDM模块(注:Block2_module3和Block2_module4结构维度相同,因此仅在Block2_module4中插入MDM模块)。如附图1所示,MDM模块是从三个不同的维度来对视频信息进行特征提取 (MDM-A\MDM-B\MDM-C)。因此,将MDM插入到Inception-V3网络的各个 Block_module中形成新的Inception-V3网络,该网络将会在其各module中提取到来自视频中三个不同维度的特征,这种方式可以确保更充分的学习到视频中的时空交互信息。
本实施例使用标准的交叉熵损失函数和SGD优化函数对基于深度学习的轻量化视频动作识别网络进行训练。
基于上述网络,本发明提出了一个多维度模块(MDM)来进行动作识别。 MDM使用多个不同维度的2D卷积核来重构3D卷积核,这些模块兼具高效率和识别准确性。具体而言,MDM首先从三个正交维度上对视频立方体执行2D 卷积,以协同的方式学习视频中动作主体的外观和运动特征。其次,沿通道维度对三个2D卷积进行分组操作,旨在进一步减少参数计算量。最后,对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作,有效获得视频中长程和短程的时序信息。
请见图2,本发明提供的一种基于深度学习的轻量化视频动作识别方法,包括以下步骤:
步骤1:对输入视频进行预处理操作;
本实施例中,步骤1的具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中。
步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229×229 大小;
步骤1.3:对步骤1.2裁剪后的视频帧图像进行数据增广处理;具体方式为随机组合以下操作:随机水平翻转、随机仿射变换等,从而实现扩增数据的效果;
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
本实施例中为了进一步减少参数的计算量,对不同维度的2D卷积分支沿通道维度进行分组,将输出通道Output_channel设置为2,即分为两组。因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1, WC2],其中C表示时空协同卷积(MDM-A、MDM-C),S表示空间卷积(MDM-B)。
为了进一步获取短程视频中帧与帧之间的互补信息,在分组的基础上,对两个分组后时空协同卷积采用时间偏移操作。具体而言,就是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移(Forward time shift)和逆向时间偏移(Backwardtime shift)。然后,对时间偏移后的分组特征沿通道维度进行拼接(Concat)。
其中时空协同卷积分支MDM-A和MDM-C中执行的是:
Figure GDA0003533979700000061
Figure GDA0003533979700000062
HC1=Shift_lw(FC1)+X1+FC1 (3)
HC2=Shift_rw(FC2)+X2+FC2 (4)
空间卷积分支MDM-B中执行的是:
Figure GDA0003533979700000063
Figure GDA0003533979700000064
HS1=X1+FS1 (7)
HS2=X2+FS2 (8)
其中,X=[X1,X2]表示输入特征(X1和X2分别表示分组后的特征),WC=[WC1, WC2]表示时空协同卷积(WC1和WC2分别表示对输入分组特征的时空卷积操作), WS=[WS1,WS2]表示空间卷积(WS1和WS2分别表示对输入分组特征的空间卷积操作);
Figure GDA0003533979700000065
表示卷积操作,⊙指阿达玛乘积操作,激活函数为tanh,shift_lw表示正向时移,shift_rw表示逆向时移;最终结果定义为HC=[HC1,HC2](时空协同卷积)和HS=[HS1,HS2](空间卷积)。
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
为了实现轻量化需求,本实施例采用在ImageNet上预训练后的Inception-V3 作为基层架构(Backbone),将所提出的MDM嵌入到Inception-V3中的每一层。将预处理处理后的视频帧输入到改进后的Inception-V3中进行特征提取操作。最后将基于深度学习的轻量化视频动作识别网络得到的结果与给定标签进行匹配,得到最后的分类结果。
本发明对给定视频数据进行预处理和数据增广,将提出的MDM嵌入到 Inception-V3网络中进行特征提取,确保协同式的学习视频中的时空信息。本发明方法在实现轻量化模型设计的基础上确保了模型的识别准确性,提高了模型在人体动作识别过程中的综合性能。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于深度学习的轻量化视频动作识别方法,其特征在于,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列;
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
所述基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个MDM模块;
使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练;
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
2.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中;
步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229×229大小;
步骤1.3:对步骤1.2裁剪后的视频帧图像进行数据增广处理,具体方式为随机组合以下操作:随机水平翻转、随机裁剪、随机仿射变换;从而实现扩增数据的效果。
3.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤2中所述将得到的特征图执行时间偏移操作,是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移和逆向时间偏移;然后对时间偏移后的分组特征沿通道维度进行拼接。
4.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤2中所述将得到的特征图执行时间偏移操作,其中时空协同卷积分支MDM-A和MDM-C中执行的是:
Figure FDA0003533979690000021
Figure FDA0003533979690000022
HC1=Shift_lw(FC1)+X1+FC1 (3)
HC2=Shift_rw(FC2)+X2+FC2 (4)
空间卷积分支MDM-B中执行的是:
Figure FDA0003533979690000023
Figure FDA0003533979690000024
HS1=X1+FS1 (7)
HS2=X2+FS2 (8)
其中,X=[X1,X2]表示输入特征,X1和X2分别表示分组后的特征;WC=[WC1,WC2]表示时空协同卷积,WC1和WC2分别表示对输入分组特征的时空卷积操作;WS=[WS1,WS2]表示空间卷积,WS1和WS2分别表示对输入分组特征的空间卷积操作;
Figure FDA0003533979690000031
表示卷积操作,⊙指阿达玛乘积操作,激活函数为tanh,shift_lw表示正向时移,shift_rw表示逆向时移;最终结果定义为HC=[HC1,HC2]和HS=[HS1,HS2]。
5.根据权利要求1-4任意一项所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤3中,将基于深度学习的轻量化视频动作识别网络得到的结果与给定标签进行匹配,得出最后的分类结果。
6.一种基于深度学习的轻量化视频动作识别系统,其特征在于,包括以下模块:
模块1,用于对输入视频进行预处理操作,获得相应类别的视频帧序列;
模块2,用于将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
所述基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个MDM模块;
使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练;
模块3,用于将模块2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
CN202110549551.3A 2021-05-20 2021-05-20 基于深度学习的轻量化视频动作识别方法及系统 Active CN113343786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110549551.3A CN113343786B (zh) 2021-05-20 2021-05-20 基于深度学习的轻量化视频动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110549551.3A CN113343786B (zh) 2021-05-20 2021-05-20 基于深度学习的轻量化视频动作识别方法及系统

Publications (2)

Publication Number Publication Date
CN113343786A CN113343786A (zh) 2021-09-03
CN113343786B true CN113343786B (zh) 2022-05-17

Family

ID=77469975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110549551.3A Active CN113343786B (zh) 2021-05-20 2021-05-20 基于深度学习的轻量化视频动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN113343786B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220170B (zh) * 2021-12-16 2024-08-06 重庆大学 一种基于时空和运动信息融合的人体行为识别方法
CN114155480A (zh) * 2022-02-10 2022-03-08 北京智视数策科技发展有限公司 一种低俗动作识别方法
CN118212593B (zh) * 2024-05-21 2024-08-02 武汉纺织大学 一种基于轻量化网络的学生课堂关注度识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN110991219A (zh) * 2019-10-11 2020-04-10 东南大学 一种基于双路3d卷积网络的行为识别方法
CN111079594A (zh) * 2019-12-04 2020-04-28 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN111666823A (zh) * 2020-05-14 2020-09-15 武汉大学 基于个体步行运动时空规律协同辨识的行人重识别方法
CN111985343A (zh) * 2020-07-23 2020-11-24 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法
US10984245B1 (en) * 2018-06-11 2021-04-20 Facebook, Inc. Convolutional neural network based on groupwise convolution for efficient video analysis

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
US10984245B1 (en) * 2018-06-11 2021-04-20 Facebook, Inc. Convolutional neural network based on groupwise convolution for efficient video analysis
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110991219A (zh) * 2019-10-11 2020-04-10 东南大学 一种基于双路3d卷积网络的行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111079594A (zh) * 2019-12-04 2020-04-28 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN111666823A (zh) * 2020-05-14 2020-09-15 武汉大学 基于个体步行运动时空规律协同辨识的行人重识别方法
CN111985343A (zh) * 2020-07-23 2020-11-24 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法

Also Published As

Publication number Publication date
CN113343786A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113343786B (zh) 基于深度学习的轻量化视频动作识别方法及系统
Gao et al. Unified information fusion network for multi-modal RGB-D and RGB-T salient object detection
CN109886225B (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN112653899B (zh) 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
CN113920581B (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN110909658A (zh) 一种基于双流卷积网络的视频中人体行为识别方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN110852295B (zh) 一种基于多任务监督学习的视频行为识别方法
CN112348033B (zh) 一种协同显著性目标检测方法
CN113326748B (zh) 一种采用多维相关注意力模型的神经网络行为识别方法
CN112446348B (zh) 一种基于特征谱流的行为识别方法
CN110351548B (zh) 一种深度学习及视差图加权指导的立体图像质量评价方法
WO2022183805A1 (zh) 视频分类方法、装置及设备
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN113505719A (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN116129051A (zh) 一种基于图和注意力交织的三维人体姿态估计方法及系统
CN114495271A (zh) 一种基于深度ConvLSTM与双流融合网络的人体行为识别方法
Abuowaida et al. Improved deep learning architecture for depth estimation from single image
CN117197663A (zh) 基于长距离依赖机制的多层融合图片分类方法及系统
Liu et al. Gfnet: A lightweight group frame network for efficient human action recognition
CN116957057A (zh) 基于多视图信息交互的光场图像超分辨率网络生成方法
CN116246109A (zh) 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用
CN116524180A (zh) 基于轻量级主干结构的戏曲舞台场景分割方法
CN111881794B (zh) 一种视频行为识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant