CN113343786B

CN113343786B - 基于深度学习的轻量化视频动作识别方法及系统

Info

Publication number: CN113343786B
Application number: CN202110549551.3A
Authority: CN
Inventors: 王中元; 陈建宇; 曾康利; 黄宝金
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2022-05-17
Anticipated expiration: 2041-05-20
Also published as: CN113343786A

Abstract

本发明公开了一种基于深度学习的轻量化视频动作识别方法及系统，提出了一个多维度模块（MDM）来进行动作识别。MDM使用多个不同维度的2D卷积核来重构3D卷积核，这些模块兼具高效率和识别准确性。具体而言，MDM首先从三个正交维度上对视频立方体执行2D卷积，以协同的方式学习视频中动作主体的外观和运动特征。其次，沿通道维度对三个2D卷积进行分组操作，旨在进一步减少参数计算量。最后，对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作，有效获得视频中长程和短程的时序信息。与3D CNN的计算量相比，本发明方法的效率更高，在保证识别性能的基础上满足了轻量化需求。

Description

基于深度学习的轻量化视频动作识别方法及系统

技术领域

本发明属于视频识别技术领域，涉及一种针对视频的人体动作识别网络、方法及系统，具体涉及一种基于深度学习的轻量化视频动作识别网络、方法及系统。

背景技术

深度学习推动了视频动作识别的进展。深度学习通过在大量视频数据集上进行训练获得了远超传统识别方法的效果。然而，考虑到设备的功耗、存储成本等因素，基于视频的人体动作分析与识别应用又对实时性、速度有着很高的要求。因此，对人体行为分析识别模型进行轻量化设计具有重要意义。

目前视频动作识别的主流方法大致分为三类：

(1)双流方法：扩展2D CNN来处理视频识别任务是最直接的方法。 Simonyan等人提出了一种two-stream模型来识别视频中的人体动作，该模型由空间流和光流组成，这二者在动作识别上是信息互补的。空间流用于提取视频的 RGB特征，光流旨在捕捉视频堆叠帧之间的光流特征。最后采用后期融合模式对双流结果进行融合。然而一些研究指出了双流网络中后期融合的缺点，并探索了不同的融合策略。Feichtenhofer等人指出，时空特征仅通过后期融合进行整合，并不能真正学习到视频内部的时空交互信息。为了减轻这种限制，他们提出了具有跨流残差连接的时空乘数网络，以确保更有效地学习到视频中的时空交互信息。特别是，在残差网络中实现了乘法运动门控函数，重构了双流结构从而保证模型在整个学习过程中能够实现时空特征的有效交互。

(2)3D CNN方法：3D CNN利用3D卷积操作和3D池化操作，从堆叠的视频块中协同学习时空信息。有研究表明3D卷积是学习视频时空激活的一种较好的方法，Tran等人提出了一种基于VGG的深度模型，从帧序列中学习时空特征。Carira等人在Inception模块中提出将二维卷积扩展到三维卷积。然而，3D CNN存在昂贵的计算成本和大量的内存需求等弊端。因此，许多研究者通过分解时空卷积来减少模型参数的计算量。Qiu等人提出了P3D，包括三种不同的空间和时间卷积的组合方法。R(2+1)D和S3D-G也使用空间2D卷积和时间1D卷积来捕捉动作识别的时空特征。

(3)时空建模方法：视频动作识别中最新的研究趋势聚焦于设计轻量化的高性能网络结构。现有研究结果表明，只有非底层卷积层才能提取出明显的运动信号。Sun等人采用1D时间卷积和2D空间卷积组合方式进行动作识别。Xie 等人证明了可分离的3D CNN在2DCNN的顶部可以更有效的学习时空信息。同时，静态场景和主体的单帧空间特征也可以为动作识别提供线索。例如，MiCT 采取一种双流架构，用于组合3D卷积和2D卷积来进行动作识别。时空映射模型通过联合分析视频的所有帧来捕捉帧的时间演化从而学习视频中的时空信息。受分组卷积范式的启发，GST在分离的信道群上，使用2D卷积和3D卷积并行建模空间和时空交互信息，因而可以在减少网络参数的同时提升模型的识别准确率。CSN通过群组卷积分离信道交互和时空交互来进行动作识别。TSM通过对时间维度上的特征进行位移操作来学习连续帧之间的时空交互关系，这种无参数的方法实现了3D CNN的等效性能。

现有的这些视频动作识别模型大多为(2+1)D模型或2D+3D并行模型，虽然这些方法都取得了一定的效果，但它们在学习过程中实际上都是将时空信息分割成两个独立的部分分别提取，并未实现真正意义上的时空信息交互。

发明内容

为了解决上述技术问题，本发明使用深度学习中分离式卷积和分组卷积以及时间偏移思想，提出了一种基于深度学习的轻量化视频动作识别网络、方法及系统。本发明在满足识别准确率的同时，最大化的减少了模型的复杂度，满足了当前动作识别模型对于轻量化的需求。

本发明的识别网络所采用的技术方案是：一种基于深度学习的轻量化视频动作识别网络，采用分离式卷积从三个不同维度(t,h,w)重构3D卷积，即将3D 卷积沿三个维度分解为三个不同的2D卷积分支，从而构造出三种不同维度的 MDM模块，包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w)，及一个空间卷积模块分支MDM-B(h,w)；其中h和w分别表示视频帧的高度和宽度，t表示时间维度；MDM-A维度为3×3×1、MDM-B维度为1×3×3，MDM-C维度为3×1×3，因此三个2D卷积的权重分别为W_1×3×3、W_3×3×1、W_3×1×3，视频帧输入到不同的卷积层内将得到不同的特征图；

对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组，因此三个不同维度的权重分别为：W_3×3×1＝[W_C1，W_C2]、W_1×3×3＝[W_S1，W_S2]、W_3×1×3＝[W_C1，W_C2]，其中C表示时空协同卷积MDM-A 和MDM-C，S表示空间卷积MDM-B；然后对两个时空协同卷积分支进行时间偏移，从而能获得短程视频中帧与帧之间的时序互补信息；

将MDM嵌入Inception-V3中的每一层，获得基于深度学习的轻量化视频动作识别网络；

所述Inception-V3网络包含11个Block_module，每个Block_module具有不同的分支结构及通道数；在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块，因Block2_module3和Block2_module4结构维度相同，故仅在Block2_module4中插入MDM模块，共计在Inception-V3网络插入10个 MDM模块。

本发明的方法所采用的技术方案是：一种基于深度学习的轻量化视频动作识别方法，包括以下步骤：

步骤1：对输入视频进行预处理操作，获得相应类别的视频帧序列(RGB帧)；

步骤2：将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中，首先将输入特征(视频帧)沿通道维度分为两组，即X＝[X₁,X₂],然后将该特征输入不同卷积中得到特征图，最后将得到的特征图执行时间偏移操作；

步骤3：将步骤2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作，从而得到对应的动作分类结果。

本发明的系统所采用的技术方案是：一种基于深度学习的轻量化视频动作识别系统，包括以下模块：

模块1，用于对输入视频进行预处理操作，获得相应类别的视频帧序列(RGB 帧)；

模块2，用于将处理后的视频输入基于深度学习的轻量化视频动作识别网络中，首先将输入特征(视频帧)沿通道维度分为两组，即X＝[X₁,X₂],然后将该特征输入不同卷积中得到特征图，最后将得到的特征图执行时间偏移操作；

模块3，用于将模块2处理后的视频继续在基于深度学习的轻量化视频动作识别网络中执行后续操作，从而得到对应的动作分类结果。

与现有的检测方法相比，本发明具有以下的优点与积极效果：

(1)本发明提出了一种轻量级的特征提取模块MDM，将其集成到现有的2D CNN中，能够实现更高效和更准确的视频动作识别。

(2)本发明提出的MDM具有三个不同维度的卷积分支，其中包含一个空间卷积分支和两个时空协作卷积分支，这种组合方案能够促进网络协同地提取视频中的时空特征，保证在学习过程中实现时空信息的真正交互。

附图说明

图1：本发明实施例的基于深度学习的轻量化视频动作识别框架图。

图2：本发明实施例的方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于深度学习的轻量化视频动作识别网络，采用分离式卷积从三个不同维度(t,h,w)重构3D卷积，即将3D卷积沿三个维度分解为三个不同的2D卷积分支，从而构造出三种不同维度的MDM模块，包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w)，及一个空间卷积模块分支MDM-B(h,w)；其中h和w分别表示视频帧的高度和宽度，t表示时间维度；MDM-A维度为3×3×1、MDM-B维度为1×3×3，MDM-C维度为3 ×1×3，因此三个2D卷积的权重分别为W_1×3×3、W_3×3×1、W_3×1×3，视频帧输入到不同的卷积层内将得到不同的特征图；

对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组，因此三个不同维度的权重分别为：W_3×3×1＝[W_C1，W_C2]、 W_1×3×3＝[W_S1，W_S2]、W_3×1×3＝[W_C1，W_C2]，其中C表示时空协同卷积MDM-A 和MDM-C，S表示空间卷积MDM-B；然后对两个时空协同卷积分支进行时间偏移，从而能获得短程视频中帧与帧之间的时序互补信息；

将MDM嵌入Inception-V3中的每一层，获得基于深度学习的轻量化视频动作识别网络。具体而言，Inception-V3网络包含11个Block_module，每个 Block_module模块具有不同的分支结构及通道数。本专利是在Inception-V3网络的每个Block模块中的1×1卷积之后插入MDM模块(注：1×1卷积在该Block 中是单独分支，通过消融实验证实在该分支插入MDM模块后效果最佳)，在Inception-V3网络中共插入10个MDM模块(注：Block2_module3和Block2_module4结构维度相同，因此仅在Block2_module4中插入MDM模块)。如附图1所示，MDM模块是从三个不同的维度来对视频信息进行特征提取 (MDM-A\MDM-B\MDM-C)。因此，将MDM插入到Inception-V3网络的各个 Block_module中形成新的Inception-V3网络，该网络将会在其各module中提取到来自视频中三个不同维度的特征，这种方式可以确保更充分的学习到视频中的时空交互信息。

本实施例使用标准的交叉熵损失函数和SGD优化函数对基于深度学习的轻量化视频动作识别网络进行训练。

基于上述网络，本发明提出了一个多维度模块(MDM)来进行动作识别。 MDM使用多个不同维度的2D卷积核来重构3D卷积核，这些模块兼具高效率和识别准确性。具体而言，MDM首先从三个正交维度上对视频立方体执行2D 卷积，以协同的方式学习视频中动作主体的外观和运动特征。其次，沿通道维度对三个2D卷积进行分组操作，旨在进一步减少参数计算量。最后，对两个包含时空维度的协同卷积沿时间维度执行时间偏移操作，有效获得视频中长程和短程的时序信息。

请见图2，本发明提供的一种基于深度学习的轻量化视频动作识别方法，包括以下步骤：

步骤1：对输入视频进行预处理操作；

本实施例中，步骤1的具体实现包括以下子步骤：

步骤1.1：对视频进行切分操作，将视频片段切割为单帧放到指定文件夹中。

步骤1.2：对步骤1.1中处理后的单帧图像进行裁剪，指定尺寸为229×229 大小；

步骤1.3：对步骤1.2裁剪后的视频帧图像进行数据增广处理；具体方式为随机组合以下操作：随机水平翻转、随机仿射变换等，从而实现扩增数据的效果；

本实施例中为了进一步减少参数的计算量，对不同维度的2D卷积分支沿通道维度进行分组，将输出通道Output_channel设置为2，即分为两组。因此三个不同维度的权重分别为：W_3×3×1＝[W_C1，W_C2]、W_1×3×3＝[W_S1，W_S2]、W_3×1×3＝[W_C1， W_C2]，其中C表示时空协同卷积(MDM-A、MDM-C)，S表示空间卷积(MDM-B)。

为了进一步获取短程视频中帧与帧之间的互补信息，在分组的基础上，对两个分组后时空协同卷积采用时间偏移操作。具体而言，就是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移(Forward time shift)和逆向时间偏移(Backwardtime shift)。然后，对时间偏移后的分组特征沿通道维度进行拼接(Concat)。

其中时空协同卷积分支MDM-A和MDM-C中执行的是：

H_C1＝Shift_lw(F_C1)+X₁+F_C1 (3)

H_C2＝Shift_rw(F_C2)+X₂+F_C2 (4)

空间卷积分支MDM-B中执行的是：

H_S1＝X₁+F_S1 (7)

H_S2＝X₂+F_S2 (8)

其中，X＝[X₁,X₂]表示输入特征(X₁和X₂分别表示分组后的特征)，W_C＝[W_C1, W_C2]表示时空协同卷积(W_C1和W_C2分别表示对输入分组特征的时空卷积操作)， W_S＝[W_S1,W_S2]表示空间卷积(W_S1和W_S2分别表示对输入分组特征的空间卷积操作)；

表示卷积操作,⊙指阿达玛乘积操作，激活函数为tanh，shift_lw表示正向时移，shift_rw表示逆向时移；最终结果定义为H_C＝[H_C1,H_C2](时空协同卷积)和H_S＝[H_S1,H_S2](空间卷积)。

为了实现轻量化需求，本实施例采用在ImageNet上预训练后的Inception-V3 作为基层架构(Backbone)，将所提出的MDM嵌入到Inception-V3中的每一层。将预处理处理后的视频帧输入到改进后的Inception-V3中进行特征提取操作。最后将基于深度学习的轻量化视频动作识别网络得到的结果与给定标签进行匹配，得到最后的分类结果。

本发明对给定视频数据进行预处理和数据增广，将提出的MDM嵌入到 Inception-V3网络中进行特征提取，确保协同式的学习视频中的时空信息。本发明方法在实现轻量化模型设计的基础上确保了模型的识别准确性，提高了模型在人体动作识别过程中的综合性能。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的轻量化视频动作识别方法，其特征在于，包括以下步骤：

步骤1：对输入视频进行预处理操作，获得相应类别的视频帧序列；

步骤2：将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中，首先将输入视频帧沿通道维度分为两组，即X＝[X₁,X₂],然后将该特征输入不同卷积中得到特征图，最后将得到的特征图执行时间偏移操作；

所述基于深度学习的轻量化视频动作识别网络，采用分离式卷积从三个不同维度(t,h,w)重构3D卷积，即将3D卷积沿三个维度分解为三个不同的2D卷积分支，从而构造出三种不同维度的MDM模块，包括两个时空协同卷积模块分支MDM-A(t,h)和MDM-C(t,w)，及一个空间卷积模块分支MDM-B(h,w)；其中h和w分别表示视频帧的高度和宽度，t表示时间维度；MDM-A维度为3×3×1、MDM-B维度为1×3×3，MDM-C维度为3×1×3，因此三个2D卷积的权重分别为W_1×3×3、W_3×3×1、W_3×1×3，视频帧输入到不同的卷积层内将得到不同的特征图；

对基于深度学习的轻量化视频动作识别网络中三种不同维度的MDM模块沿通道维度分为两组，因此三个不同维度的权重分别为：W_3×3×1＝[W_C1，W_C2]、W_1×3×3＝[W_S1，W_S2]、W_3×1×3＝[W_C1，W_C2]，其中C表示时空协同卷积MDM-A和MDM-C，S表示空间卷积MDM-B；然后对两个时空协同卷积分支进行时间偏移，从而能获得短程视频中帧与帧之间的时序互补信息；

所述Inception-V3网络包含11个Block_module，每个Block_module具有不同的分支结构及通道数；在Inception-V3网络的每个Block_module中的1×1卷积之后插入MDM模块，因Block2_module3和Block2_module4结构维度相同，故仅在Block2_module4中插入MDM模块，共计在Inception-V3网络插入10个MDM模块；

使用标准的交叉熵损失函数和SGD优化函数对所述基于深度学习的轻量化视频动作识别网络进行训练；

2.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：对视频进行切分操作，将视频片段切割为单帧放到指定文件夹中；

步骤1.2：对步骤1.1中处理后的单帧图像进行裁剪，指定尺寸为229×229大小；

步骤1.3：对步骤1.2裁剪后的视频帧图像进行数据增广处理，具体方式为随机组合以下操作：随机水平翻转、随机裁剪、随机仿射变换；从而实现扩增数据的效果。

3.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法，其特征在于：步骤2中所述将得到的特征图执行时间偏移操作，是将时空协同卷积输出的两个分组特征沿时间维度分别进行正向时间偏移和逆向时间偏移；然后对时间偏移后的分组特征沿通道维度进行拼接。

4.根据权利要求1所述的基于深度学习的轻量化视频动作识别方法，其特征在于：步骤2中所述将得到的特征图执行时间偏移操作，其中时空协同卷积分支MDM-A和MDM-C中执行的是：

H_C1＝Shift_lw(F_C1)+X₁+F_C1 (3)

H_C2＝Shift_rw(F_C2)+X₂+F_C2 (4)

空间卷积分支MDM-B中执行的是：

H_S1＝X₁+F_S1 (7)

H_S2＝X₂+F_S2 (8)

其中，X＝[X₁,X₂]表示输入特征，X₁和X₂分别表示分组后的特征；W_C＝[W_C1,W_C2]表示时空协同卷积，W_C1和W_C2分别表示对输入分组特征的时空卷积操作；W_S＝[W_S1,W_S2]表示空间卷积，W_S1和W_S2分别表示对输入分组特征的空间卷积操作；

表示卷积操作,⊙指阿达玛乘积操作，激活函数为tanh，shift_lw表示正向时移，shift_rw表示逆向时移；最终结果定义为H_C＝[H_C1,H_C2]和H_S＝[H_S1,H_S2]。

5.根据权利要求1-4任意一项所述的基于深度学习的轻量化视频动作识别方法，其特征在于：步骤3中，将基于深度学习的轻量化视频动作识别网络得到的结果与给定标签进行匹配，得出最后的分类结果。

6.一种基于深度学习的轻量化视频动作识别系统，其特征在于，包括以下模块：

模块1，用于对输入视频进行预处理操作，获得相应类别的视频帧序列；

模块2，用于将处理后的视频帧序列输入基于深度学习的轻量化视频动作识别网络中，首先将输入特征视频帧沿通道维度分为两组，即X＝[X₁,X₂],然后将该特征输入不同卷积中得到特征图，最后将得到的特征图执行时间偏移操作；