CN112597856A

CN112597856A - 一种基于部分解耦条件下通道分配的动作识别方法及系统

Info

Publication number: CN112597856A
Application number: CN202011484595.4A
Authority: CN
Inventors: 郑慧诚; 程凤雯; 张伟; 刘泽华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-02
Anticipated expiration: 2040-12-16
Also published as: CN112597856B

Abstract

本发明公开了一种基于部分解耦条件下通道分配的动作识别方法及系统，该方法包括：获取视频信息并对视频信息进行处理，抽取视频帧图像；将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果；所述预设的卷积神经网络包括残差层、两个R(2+1)块、Decoupled‑3D模块、池化层和全连接层。该系统包括：视频帧抽取模块和识别模块。本发明通过Decoupled‑3D模块分配空间和时间上的通道维度信息来平衡模型的表达能力。本发明作为一种基于部分解耦条件下通道分配的动作识别方法及系统，可广泛应用于模型改进领域。

Description

一种基于部分解耦条件下通道分配的动作识别方法及系统

技术领域

本发明属于模型改进领域，尤其涉及一种基于部分解耦条件下通道分配的动作识别方法及系统。

背景技术

当前主流的视频动作识别方法包括融合表观和光流等动态特征的双流网络、3DCNN及其分解的方法和基于循环神经网络的方法。双流网络一般包括两个分支，一个分支利用RGB图像提取动作的表观特征，另一个分支利用光流或者相邻帧间的动态信息来提取时间特征；3DCNN则是将2D卷积网络进行扩展，使得卷积核可以同时在时间和空间上进行特征提取，分解方法则是将原始3D卷积分解为2D空间卷积和1D时间卷积；循环神经网络因为其在文本和语音分析中对时间序列建模的优秀表现也被应用到动作识别领域中，主要是利用LSTM、GRU等来实现。但是当前一些主流的分解工作并没有考虑卷积核时空表达能力的均衡问题。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于部分解耦条件下通道分配的动作识别的动作识别方法，通过分配空间和时间上的通道维度信息来平衡模型的表达能力。

本发明所采用的第一技术方案是：一种基于部分解耦条件下通道分配的动作识别方法，包括以下步骤：

获取视频信息并对视频信息进行处理，抽取视频帧图像；

将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果；

所述预设的卷积神经网络包括残差层、两个R(2+1)块、Decoupled-3D模块、池化层和全连接层。

进一步，所述获取视频信息并对视频信息进行处理，抽取视频帧图像这一步骤，其具体包括：

获取视频并将视频按某一帧率裁剪成画面帧，选取连续的画面帧图像；

将选取的画面帧图像按预设规则裁剪尺寸，得到视频帧图像。

进一步，所述Decoupled-3D模块基于通道分解的部分解耦时空滤波器设计形成，所述Decoupled-3D模块包括利用通道分解形成的空间卷积层和时间卷积层。

进一步，所述将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果这一步骤，其具体包括：

将视频帧图像输入到预设的卷积神经网络；

依次经过残差层、两个R(2+1)D块和Decoupled-3D模块对视频帧图像的数据进行卷积操作，经过池化层进行下采样，最后基于全连接层对特征进行分类，得到识别结果。

具体地，经过这几个层得到的是时空分辨率逐渐减小的特征图。

进一步，经过Decoupled-3D模块对视频帧图像的数据进行卷积操作具体为数据进入Decoupled-3D模块后依次进行空间卷积、归一化、激活、时间卷积、归一化、激活操作，输出特征图。

本发明所采用的第二技术方案是：一种基于部分解耦条件下通道分配的动作识别系统，包括以下模块：

视频帧抽取模块，用于获取视频信息并对视频信息进行处理，抽取视频帧图像；

识别模块，用于将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果。

本发明方法及系统的有益效果是：本发明提出了Decoupled-3D结构，将Decoupled-3D结构应用到卷积神经网络，基于Decoupled-3D结构进行解耦和通道分解，另外，在部分解耦的条件下，Decoupled-3D模块利用通道分解来平衡模型的时空表达能力。

附图说明

图1是本发明具体实施例预设的卷积神经网络的结构示意图；

图2是本发明具体实施例部分解耦示意图；

图3是本发明具体实施例一种基于部分解耦条件下通道分配的动作识别方法的步骤流程图；

图4是本发明具体实施例一种基于部分解耦条件下通道分配的动作识别系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图3，本发明提供了一种基于部分解耦条件下通道分配的动作识别方法，该方法包括以下步骤：

S1、获取视频信息并对视频信息进行处理，抽取视频帧图像；

S2、将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果；

具体地，由于卷积核之间的相互耦合会导致冗余表达，因此在卷积分解过程中对3D卷积核进行解耦。分解后的伪三维卷积核一般由空间二维卷积滤波器和时间一维卷积滤波器组成，如R(2+1)D块。对于3D卷积分解后的时间卷积部分，我们对卷积层中的耦合度进行定义，表示为：

其中m代表共享参数的卷积核个数，C_o代表总的卷积核个数。

图2为3D卷积分解过程中的部分解耦示意图，输入特征先后进行空间卷积与时间卷积，C_i代表输入通道数，C_m代表空间卷积层输出特征的通道数，一个虚线框即为一个耦合组。

进一步作为本方法的优选实施例，所述获取视频信息并对视频信息进行处理，抽取视频帧图像这一步骤，其具体包括：

所述R(2+1)D块是构成残差层的基础单元，一个R(2+1)D块称为一个block。

进一步作为本发明的优选实施例，所述Decoupled-3D模块基于通道分解的部分解耦时空滤波器设计形成，所述Decoupled-3D模块包括利用通道分解形成的空间卷积层和时间卷积层。

具体地，本发明将3D卷积核在部分解耦的条件下分解为空间和时间核，并将其命名为Decoupled-3D卷积核。本发明考虑3D卷积核

的分解形式，其大小为h×w×t，输入通道数为C_i，并将其分解过程定义为：

其中*表示卷积操作，

表示空间卷积核，

表示时间卷积核，S表示空间维度，T表示时间维度，C_s代表了空间维度上的通道参数复杂度，C_t代表了时间维度上的通道参数复杂度，对于单个分解卷积核，C_i＝C_s×C_t。

与以前将3D卷积核简单分解为时空卷积核的工作不同，本发明探讨了通道信息在时空维度上的分配与建模。当通道参数复杂度在空间和时间维度上扩展时，我们利用分组卷积来进行通道划分，实现通道维度信息的分配。

进一步作为本发明优选实施例，所述将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果这一步骤，其具体包括；

将视频帧图像输入到预设的卷积神经网络；

进一步作为本发明优选实施例，经过Decoupled-3D模块对视频帧图像的数据进行卷积操作具体为数据进入Decoupled-3D模块后依次进行空间卷积、归一化、激活、时间卷积、归一化、激活操作，输出特征图。

具体地，本发明用基于通道分解的部分解耦时空滤波器设计形成Decoupled-3D模块。

所述Decoupled-3D模块的设计步骤包括部分解耦和通道分配，上文已经对部分解耦步骤进行了说明，另外，卷积在部分解耦条件下进行通道分配的情况分析如下：

(1)一般情况下的时空滤波器，对于具有C_i个输入通道和大小为h×w×t核的3D卷积层，其参数量为C_ihwtC_o，基于部分解耦的通道分解时空卷积层的参数量表达式可写成如下形式

其中M为空间卷积核的个数，通过调整M可以使本发明的卷积层参数量与3D卷积层参数量保持一致，方便在同等条件下进行对比，调整公式为：

下文对分解时的特殊情况进行说明时，也会对空间卷积核的数量M进行计算。

特殊情况下的时空滤波器，对于单个时空分解卷积核，在进行通道分配时，会出现通道参数复杂度全在空间维度展开、通道参数复杂度全在时间维度展开的情况。扩展至卷积层，在部分解耦的情况下，一个时间卷积核会对应处理部分空间卷积核的输出特征，通道参数复杂度在空间的分配包含全在空间与全在时间两种极限情况。

当通道参数复杂度全在空间维度展开时，对于每个输入通道，都由不共享参数的大小为h×w而通道数为C_i的空间卷积核来进行对应的卷积操作，M个空间滤波器会对应产生具有C_m个通道的特征图，在部分解耦的情况下，时间卷积层将空间卷积层的输出特征图划分为

个耦合组，然后在每个组内执行卷积运算，这种情况下空间卷积核的个数为

当通道参数复杂度全在时间维度展开时，空间卷积核是在每个输入通道上共享参数的单通道卷积核

而时间卷积核包含m×C_i个1D分量

由于通道维度信息都是在时间维度上建模的，所以空间卷积是逐通道卷积，参数在所有输入通道上都是共享的，1D分量

在时间维度上对所有通道信息进行建模。这种情况下空间卷积核的个数为：

通道维度信息的分配在上述两个范围内选取，通过调整分组卷积的组数g来实现通道信息在不同维度的分配，且在调整过程中可以观察到时空参数均衡的情况，此时

空间卷积核个数

如图4所示，一种基于部分解耦条件下通道分配的动作识别系统，包括以下模块：

进一步作为本系统优选实施例，所述视频帧抽取模块还包括：

画面帧裁剪子模块，用于获取视频并将视频按某一帧率裁剪成画面帧，选取连续的画面帧图像；

尺寸裁剪子模块，用于将选取的画面帧图像按预设规则裁剪尺寸，得到视频帧图像。

上述系统实施例中的内容均适用于本方法实施例中，本方法实施例所具体实现的功能与上述系统实施例相同，并且达到的有益效果与上述系统实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于部分解耦条件下通道分配的动作识别方法，其特征在于，包括以下步骤：

获取视频信息并对视频信息进行处理，抽取视频帧图像；

2.根据权利要求1所述一种基于部分解耦条件下通道分配的动作识别方法，其特征在于，所述获取视频信息并对视频信息进行处理，抽取视频帧图像这一步骤，其具体包括：

3.根据权利要求2所述一种基于部分解耦条件下通道分配的动作识别方法，其特征在于，所述Decoupled-3D模块基于通道分解的部分解耦时空滤波器设计形成，所述Decoupled-3D模块包括部分解耦条件下利用通道分解形成的空间卷积层和时间卷积层。

4.根据权利要求3所述一种基于部分解耦条件下通道分配的动作识别方法，其特征在于，所述将视频帧图像输入到预设的卷积神经网络进行动作识别，得到识别结果这一步骤，其具体包括：

将视频帧图像输入到预设的卷积神经网络；

5.根据权利要求4所述一种基于部分解耦条件下通道分配的动作识别方法，其特征在于，经过Decoupled-3D模块对视频帧图像的数据进行卷积操作具体为数据进入Decoupled-3D模块后依次进行空间卷积、归一化、激活、时间卷积、归一化、激活操作，输出特征图。

6.一种基于部分解耦条件下通道分配的动作识别系统，其特征在于，包括以下模块：