CN113343786B - 基于深度学习的轻量化视频动作识别方法及系统 - Google Patents
基于深度学习的轻量化视频动作识别方法及系统 Download PDFInfo
- Publication number
- CN113343786B CN113343786B CN202110549551.3A CN202110549551A CN113343786B CN 113343786 B CN113343786 B CN 113343786B CN 202110549551 A CN202110549551 A CN 202110549551A CN 113343786 B CN113343786 B CN 113343786B
- Authority
- CN
- China
- Prior art keywords
- mdm
- convolution
- video
- deep learning
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 45
- 238000013135 deep learning Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims 6
- 238000013508 migration Methods 0.000 claims 6
- 230000011218 segmentation Effects 0.000 claims 1
- HOWHQWFXSLOJEF-MGZLOUMQSA-N systemin Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(O)=O)C(=O)OC(=O)[C@@H]1CCCN1C(=O)[C@H]1N(C(=O)[C@H](CC(O)=O)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CO)NC(=O)[C@H]2N(CCC2)C(=O)[C@H]2N(CCC2)C(=O)[C@H](CCCCN)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](C)N)C(C)C)CCC1 HOWHQWFXSLOJEF-MGZLOUMQSA-N 0.000 claims 1
- 108010050014 systemin Proteins 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 2
- 108091006146 Channels Proteins 0.000 description 13
- 230000003993 interaction Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的轻量化视频动作识别方法及系统,提出了一个多维度模块(MDM)来进行动作识别。MDM使用多个不同维度的2D卷积核来重构3D卷积核,这些模块兼具高效率和识别准确性。具体而言,MDM首先从三个正交维度上对视频立方体执行2D卷积,以协同的方式学习视频中动作主体的外观和运动特征。其次,沿通道维度对三个2D卷积进行分组操作,旨在进一步减少参数计算量。最后,对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作,有效获得视频中长程和短程的时序信息。与3D CNN的计算量相比,本发明方法的效率更高,在保证识别性能的基础上满足了轻量化需求。
Description
技术领域
本发明属于视频识别技术领域,涉及一种针对视频的人体动作识别网络、方法及系统,具体涉及一种基于深度学习的轻量化视频动作识别网络、方法及系统。
背景技术
深度学习推动了视频动作识别的进展。深度学习通过在大量视频数据集上进行训练获得了远超传统识别方法的效果。然而,考虑到设备的功耗、存储成本等因素,基于视频的人体动作分析与识别应用又对实时性、速度有着很高的要求。因此,对人体行为分析识别模型进行轻量化设计具有重要意义。
目前视频动作识别的主流方法大致分为三类:
(1)双流方法:扩展2D CNN来处理视频识别任务是最直接的方法。 Simonyan等人提出了一种two-stream模型来识别视频中的人体动作,该模型由空间流和光流组成,这二者在动作识别上是信息互补的。空间流用于提取视频的 RGB特征,光流旨在捕捉视频堆叠帧之间的光流特征。最后采用后期融合模式对双流结果进行融合。然而一些研究指出了双流网络中后期融合的缺点,并探索了不同的融合策略。Feichtenhofer等人指出,时空特征仅通过后期融合进行整合,并不能真正学习到视频内部的时空交互信息。为了减轻这种限制,他们提出了具有跨流残差连接的时空乘数网络,以确保更有效地学习到视频中的时空交互信息。特别是,在残差网络中实现了乘法运动门控函数,重构了双流结构从而保证模型在整个学习过程中能够实现时空特征的有效交互。
(2)3D CNN方法:3D CNN利用3D卷积操作和3D池化操作,从堆叠的视频块中协同学习时空信息。有研究表明3D卷积是学习视频时空激活的一种较好的方法,Tran等人提出了一种基于VGG的深度模型,从帧序列中学习时空特征。Carira等人在Inception模块中提出将二维卷积扩展到三维卷积。然而,3D CNN存在昂贵的计算成本和大量的内存需求等弊端。因此,许多研究者通过分解时空卷积来减少模型参数的计算量。Qiu等人提出了P3D,包括三种不同的空间和时间卷积的组合方法。R(2+1)D和S3D-G也使用空间2D卷积和时间1D卷积来捕捉动作识别的时空特征。
(3)时空建模方法:视频动作识别中最新的研究趋势聚焦于设计轻量化的高性能网络结构。现有研究结果表明,只有非底层卷积层才能提取出明显的运动信号。Sun等人采用1D时间卷积和2D空间卷积组合方式进行动作识别。Xie 等人证明了可分离的3D CNN在2DCNN的顶部可以更有效的学习时空信息。同时,静态场景和主体的单帧空间特征也可以为动作识别提供线索。例如,MiCT 采取一种双流架构,用于组合3D卷积和2D卷积来进行动作识别。时空映射模型通过联合分析视频的所有帧来捕捉帧的时间演化从而学习视频中的时空信息。受分组卷积范式的启发,GST在分离的信道群上,使用2D卷积和3D卷积并行建模空间和时空交互信息,因而可以在减少网络参数的同时提升模型的识别准确率。CSN通过群组卷积分离信道交互和时空交互来进行动作识别。TSM通过对时间维度上的特征进行位移操作来学习连续帧之间的时空交互关系,这种无参数的方法实现了3D CNN的等效性能。
现有的这些视频动作识别模型大多为(2+1)D模型或2D+3D并行模型,虽然这些方法都取得了一定的效果,但它们在学习过程中实际上都是将时空信息分割成两个独立的部分分别提取,并未实现真正意义上的时空信息交互。
发明内容
为了解决上述技术问题,本发明使用深度学习中分离式卷积和分组卷积以及时间偏移思想,提出了一种基于深度学习的轻量化视频动作识别网络、方法及系统。本发明在满足识别准确率的同时,最大化的减少了模型的复杂度,满足了当前动作识别模型对于轻量化的需求。
本发明的识别网络所采用的技术方案是:一种基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D 卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的 MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A 和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个 MDM模块。
本发明的方法所采用的技术方案是:一种基于深度学习的轻量化视频动作识别方法,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列(RGB帧);
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
本发明的系统所采用的技术方案是:一种基于深度学习的轻量化视频动作识别系统,包括以下模块:
模块1,用于对输入视频进行预处理操作,获得相应类别的视频帧序列(RGB 帧);
模块2,用于将处理后的视频输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
模块3,用于将模块2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
与现有的检测方法相比,本发明具有以下的优点与积极效果:
(1)本发明提出了一种轻量级的特征提取模块MDM,将其集成到现有的2D CNN中,能够实现更高效和更准确的视频动作识别。
(2)本发明提出的MDM具有三个不同维度的卷积分支,其中包含一个空间卷积分支和两个时空协作卷积分支,这种组合方案能够促进网络协同地提取视频中的时空特征,保证在学习过程中实现时空信息的真正交互。
附图说明
图1:本发明实施例的基于深度学习的轻量化视频动作识别框架图。
图2:本发明实施例的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3 ×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、 W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A 和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络。具体而言,Inception-V3网络包含11个Block_module,每个 Block_module模块具有不同的分支结构及通道数。本专利是在Inception-V3网络的每个Block模块中的1×1卷积之后插入MDM模块(注:1×1卷积在该Block 中是单独分支,通过消融实验证实在该分支插入MDM模块后效果最佳),在Inception-V3网络中共插入10个MDM模块(注:Block2_module3和Block2_module4结构维度相同,因此仅在Block2_module4中插入MDM模块)。如附图1所示,MDM模块是从三个不同的维度来对视频信息进行特征提取 (MDM-A\MDM-B\MDM-C)。因此,将MDM插入到Inception-V3网络的各个 Block_module中形成新的Inception-V3网络,该网络将会在其各module中提取到来自视频中三个不同维度的特征,这种方式可以确保更充分的学习到视频中的时空交互信息。
本实施例使用标准的交叉熵损失函数和SGD优化函数对基于深度学习的轻量化视频动作识别网络进行训练。
基于上述网络,本发明提出了一个多维度模块(MDM)来进行动作识别。 MDM使用多个不同维度的2D卷积核来重构3D卷积核,这些模块兼具高效率和识别准确性。具体而言,MDM首先从三个正交维度上对视频立方体执行2D 卷积,以协同的方式学习视频中动作主体的外观和运动特征。其次,沿通道维度对三个2D卷积进行分组操作,旨在进一步减少参数计算量。最后,对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作,有效获得视频中长程和短程的时序信息。
请见图2,本发明提供的一种基于深度学习的轻量化视频动作识别方法,包括以下步骤:
步骤1:对输入视频进行预处理操作;
本实施例中,步骤1的具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中。
步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229×229 大小;
步骤1.3:对步骤1.2裁剪后的视频帧图像进行数据增广处理;具体方式为随机组合以下操作:随机水平翻转、随机仿射变换等,从而实现扩增数据的效果;
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征(视频帧)沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
本实施例中为了进一步减少参数的计算量,对不同维度的2D卷积分支沿通道维度进行分组,将输出通道Output_channel设置为2,即分为两组。因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1, WC2],其中C表示时空协同卷积(MDM-A、MDM-C),S表示空间卷积(MDM-B)。
为了进一步获取短程视频中帧与帧之间的互补信息,在分组的基础上,对两个分组后时空协同卷积采用时间偏移操作。具体而言,就是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移(Forward time shift)和逆向时间偏移(Backwardtime shift)。然后,对时间偏移后的分组特征沿通道维度进行拼接(Concat)。
其中时空协同卷积分支MDM-A和MDM-C中执行的是:
HC1=Shift_lw(FC1)+X1+FC1 (3)
HC2=Shift_rw(FC2)+X2+FC2 (4)
空间卷积分支MDM-B中执行的是:
HS1=X1+FS1 (7)
HS2=X2+FS2 (8)
其中,X=[X1,X2]表示输入特征(X1和X2分别表示分组后的特征),WC=[WC1, WC2]表示时空协同卷积(WC1和WC2分别表示对输入分组特征的时空卷积操作), WS=[WS1,WS2]表示空间卷积(WS1和WS2分别表示对输入分组特征的空间卷积操作);表示卷积操作,⊙指阿达玛乘积操作,激活函数为tanh,shift_lw表示正向时移,shift_rw表示逆向时移;最终结果定义为HC=[HC1,HC2](时空协同卷积)和HS=[HS1,HS2](空间卷积)。
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
为了实现轻量化需求,本实施例采用在ImageNet上预训练后的Inception-V3 作为基层架构(Backbone),将所提出的MDM嵌入到Inception-V3中的每一层。将预处理处理后的视频帧输入到改进后的Inception-V3中进行特征提取操作。最后将基于深度学习的轻量化视频动作识别网络得到的结果与给定标签进行匹配,得到最后的分类结果。
本发明对给定视频数据进行预处理和数据增广,将提出的MDM嵌入到 Inception-V3网络中进行特征提取,确保协同式的学习视频中的时空信息。本发明方法在实现轻量化模型设计的基础上确保了模型的识别准确性,提高了模型在人体动作识别过程中的综合性能。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于深度学习的轻量化视频动作识别方法,其特征在于,包括以下步骤:
步骤1:对输入视频进行预处理操作,获得相应类别的视频帧序列;
步骤2:将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
所述基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个MDM模块;
使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练;
步骤3:将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
2.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:对视频进行切分操作,将视频片段切割为单帧放到指定文件夹中;
步骤1.2:对步骤1.1中处理后的单帧图像进行裁剪,指定尺寸为229×229大小;
步骤1.3:对步骤1.2裁剪后的视频帧图像进行数据增广处理,具体方式为随机组合以下操作:随机水平翻转、随机裁剪、随机仿射变换;从而实现扩增数据的效果。
3.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤2中所述将得到的特征图执行时间偏移操作,是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移和逆向时间偏移;然后对时间偏移后的分组特征沿通道维度进行拼接。
4.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤2中所述将得到的特征图执行时间偏移操作,其中时空协同卷积分支MDM-A和MDM-C中执行的是:
HC1=Shift_lw(FC1)+X1+FC1 (3)
HC2=Shift_rw(FC2)+X2+FC2 (4)
空间卷积分支MDM-B中执行的是:
HS1=X1+FS1 (7)
HS2=X2+FS2 (8)
5.根据权利要求1-4任意一项所述的基于深度学习的轻量化视频动作识别方法,其特征在于:步骤3中,将基于深度学习的轻量化视频动作识别网络得到的结果与给定标签进行匹配,得出最后的分类结果。
6.一种基于深度学习的轻量化视频动作识别系统,其特征在于,包括以下模块:
模块1,用于对输入视频进行预处理操作,获得相应类别的视频帧序列;
模块2,用于将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中,首先将输入特征视频帧沿通道维度分为两组,即X=[X1,X2],然后将该特征输入不同卷积中得到特征图,最后将得到的特征图执行时间偏移操作;
所述基于深度学习的轻量化视频动作识别网络,采用分离式卷积从三个不同维度(t,h,w)重构3D卷积,即将3D卷积沿三个维度分解为三个不同的2D卷积分支,从而构造出三种不同维度的MDM模块,包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w),及一个空间卷积模块分支MDM-B(h,w);其中h和w分别表示视频帧的高度和宽度,t表示时间维度;MDM-A维度为3×3×1、MDM-B维度为1×3×3,MDM-C维度为3×1×3,因此三个2D卷积的权重分别为W1×3×3、W3×3×1、W3×1×3,视频帧输入到不同的卷积层内将得到不同的特征图;
对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组,因此三个不同维度的权重分别为:W3×3×1=[WC1,WC2]、W1×3×3=[WS1,WS2]、W3×1×3=[WC1,WC2],其中C表示时空协同卷积MDM-A和MDM-C,S表示空间卷积MDM-B;然后对两个时空协同卷积分支进行时间偏移,从而能获得短程视频中帧与帧之间的时序互补信息;
将MDM嵌入Inception-V3中的每一层,获得基于深度学习的轻量化视频动作识别网络;
所述Inception-V3网络包含11个Block_module,每个Block_module具有不同的分支结构及通道数;在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块,因Block2_module3和Block2_module4结构维度相同,故仅在Block2_module4中插入MDM模块,共计在Inception-V3网络插入10个MDM模块;
使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练;
模块3,用于将模块2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作,从而得到对应的动作分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110549551.3A CN113343786B (zh) | 2021-05-20 | 2021-05-20 | 基于深度学习的轻量化视频动作识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110549551.3A CN113343786B (zh) | 2021-05-20 | 2021-05-20 | 基于深度学习的轻量化视频动作识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343786A CN113343786A (zh) | 2021-09-03 |
CN113343786B true CN113343786B (zh) | 2022-05-17 |
Family
ID=77469975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110549551.3A Active CN113343786B (zh) | 2021-05-20 | 2021-05-20 | 基于深度学习的轻量化视频动作识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343786B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220170B (zh) * | 2021-12-16 | 2024-08-06 | 重庆大学 | 一种基于时空和运动信息融合的人体行为识别方法 |
CN114155480A (zh) * | 2022-02-10 | 2022-03-08 | 北京智视数策科技发展有限公司 | 一种低俗动作识别方法 |
CN114973096A (zh) * | 2022-06-10 | 2022-08-30 | 京东科技控股股份有限公司 | 视频识别方法及其装置 |
CN118212593B (zh) * | 2024-05-21 | 2024-08-02 | 武汉纺织大学 | 一种基于轻量化网络的学生课堂关注度识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN110991219A (zh) * | 2019-10-11 | 2020-04-10 | 东南大学 | 一种基于双路3d卷积网络的行为识别方法 |
CN111079594A (zh) * | 2019-12-04 | 2020-04-28 | 成都考拉悠然科技有限公司 | 一种基于双流协同网络的视频动作分类识别方法 |
CN111666823A (zh) * | 2020-05-14 | 2020-09-15 | 武汉大学 | 基于个体步行运动时空规律协同辨识的行人重识别方法 |
CN111985343A (zh) * | 2020-07-23 | 2020-11-24 | 深圳大学 | 一种行为识别深度网络模型的构建方法及行为识别方法 |
US10984245B1 (en) * | 2018-06-11 | 2021-04-20 | Facebook, Inc. | Convolutional neural network based on groupwise convolution for efficient video analysis |
-
2021
- 2021-05-20 CN CN202110549551.3A patent/CN113343786B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
US10984245B1 (en) * | 2018-06-11 | 2021-04-20 | Facebook, Inc. | Convolutional neural network based on groupwise convolution for efficient video analysis |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN110991219A (zh) * | 2019-10-11 | 2020-04-10 | 东南大学 | 一种基于双路3d卷积网络的行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111079594A (zh) * | 2019-12-04 | 2020-04-28 | 成都考拉悠然科技有限公司 | 一种基于双流协同网络的视频动作分类识别方法 |
CN111666823A (zh) * | 2020-05-14 | 2020-09-15 | 武汉大学 | 基于个体步行运动时空规律协同辨识的行人重识别方法 |
CN111985343A (zh) * | 2020-07-23 | 2020-11-24 | 深圳大学 | 一种行为识别深度网络模型的构建方法及行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113343786A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343786B (zh) | 基于深度学习的轻量化视频动作识别方法及系统 | |
CN112653899B (zh) | 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法 | |
CN113920581B (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN110059598A (zh) | 基于姿态关节点的长时程快慢网络融合的行为识别方法 | |
Hara et al. | Towards good practice for action recognition with spatiotemporal 3d convolutions | |
Liu et al. | BFMNet: Bilateral feature fusion network with multi-scale context aggregation for real-time semantic segmentation | |
CN110852295B (zh) | 一种基于多任务监督学习的视频行为识别方法 | |
CN112446348B (zh) | 一种基于特征谱流的行为识别方法 | |
CN115601282A (zh) | 基于多判别器生成对抗网络的红外与可见光图像融合方法 | |
CN113326748B (zh) | 一种采用多维相关注意力模型的神经网络行为识别方法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
Wang et al. | Image super-resolution via lightweight attention-directed feature aggregation network | |
CN116665307A (zh) | 结合注意力的多级时空特征融合行为识别方法和系统 | |
Lou et al. | AR-C3D: Action recognition accelerator for human-computer interaction on FPGA | |
CN117409359B (zh) | 一种动态多尺度注意力网络的火灾检测方法 | |
CN111275076B (zh) | 基于特征选择和特征融合的图像显著性检测方法 | |
CN118552420A (zh) | 基于三支路gan结合小波变换的红外与可见光图像融合方法 | |
CN112464835A (zh) | 一种基于时序增强模块的视频人体行为识别方法 | |
CN114582002B (zh) | 一种结合注意力模块与二阶池化机制的人脸表情识别方法 | |
CN117275040A (zh) | 一种基于决策网络和细化特征的高效人体姿态估计方法 | |
CN113627367B (zh) | 一种基于多维信息聚合的立体视频显著性检测方法 | |
CN115690916A (zh) | 一种基于混合模型的轻量级视频行为识别方法 | |
CN113052112B (zh) | 基于混合神经网络的手势动作识别互动系统及方法 | |
Li et al. | Action recognition using convolutional neural networks with joint supervision | |
CN113361417B (zh) | 一种基于可变时序的人体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |