CN110046568B

CN110046568B - 一种基于时间感知结构的视频动作识别方法

Info

Publication number: CN110046568B
Application number: CN201910291081.8A
Authority: CN
Inventors: 郑慧诚; 张伟; 程凤雯
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2022-12-06
Anticipated expiration: 2039-04-11
Also published as: CN110046568A

Abstract

本发明涉及一种基于时间感知结构的视频动作识别方法，本发明基于全分组三维卷积的时间感知结构设计，使用少量参数对多尺度的时间信息进行了建模，是一种十分高效的时间建模结构。并且本发明设置了监听流网络，增加了模型收敛的速度，在时间感知结构的基础上，能够进一步提高模型的识别准确率，降低了对预训练数据集的依赖，针对特定小规模问题可以快速实现部署；并且对不同时间尺度的行为具有鲁棒性。

Description

一种基于时间感知结构的视频动作识别方法

技术领域

本发明涉及视频识别领域，更具体的，涉及一种基于时间感知结构的视频动作识别方法。

背景技术

近些年，随着城市监控摄像头的数量不断增长，以及手持拍摄设备的大量普及，使得视频数据呈现出爆炸式的增长。视频作为一种信息载体，急需有效的自动化的视频理解技术。传统采用人工的方式来对视频中的内容进行识别和理解，不仅费时费力，效率低下，且无法保证准确性和及时性。因此，实现智能化的动作识别系统具有重要的现实意义。

动作识别的方法可以分为基于RGB-D(红绿蓝-深度)视频的方法和基于RGB视频的方法两大类。基于RGB-D的方法多用于室内小型环境中，具有成本高、探测距离短、探测范围小、设备体积大等缺点。然而基于视频的动作识别方法具有对设备要求低、成本低、探测距离远、范围大等优点，如果现有城市监控系统进行自动化改造，只需在后台加装数据处理系统，方便快捷。

基于RGB视频的动作识别方法又可以分为基于手工设计的方法和基于深度学习的方法两大类。基于手工设计的方法使用专家设计的特征描述子进行特征够建，然后使用传统的分类器进行分类，这类方法在非受限环境下的表现显著低于基于深度学习的方法，一个重要的原因在于这些特征是由人手工设计和构造的，缺乏对特定应用数据的适应能力。

根据对视频中时间维度信息的建模方法，可以将基于深度学习的方法分为三类：基于三维卷积的方法、结合循环神经网络的方法以及使用光流的方法。使用光流的方法需要首先使用传统光流计算方法获得光流，不仅耗时，而且整个模型无法端到端地训练。结合循环神经网络的方法在模型训练阶段占用的显存大，对设备要求高，使得应用成本高昂。而基于三维卷积的方法，模型的参数量和计算量相对与二维卷积都呈现出指数式增长，使得模型难以在实际场景中进行应用。

此外，现有深度学习方法一般没有考虑视频内动作发生的时间长短问题，对不同尺度的动作鲁棒性较差；对于数据量较小的问题，现有深度学习方法一般需要在庞大的数据量去对模型做预训练才能取得令人满意的结果，这进一步限制了这些模型的易用性。

发明内容

为了解决现有技术中时间建模结构参数量大、整体模型对预训练依赖程度高、对不同时间尺度的行为鲁棒性差的不足，本发明提供了一种基于时间感知结构的视频动作识别方法。

为实现以上发明目的，采用的技术方案是：

一种基于时间感知结构的视频动作识别方法，包括以下步骤：

步骤S1：对原始视频数据进行稀疏采样，等间隔地对视频抽取n帧,对视频帧经过数据增广处理后作为第一二维卷积神经网络的输入帧数据；

步骤S2：利用第一二维卷积神经网络对原始视频的各个输入帧数据分别进行处理，得到对背景、尺度和光照的变化具有鲁棒性的深度特征，并形成特征图t；

步骤S3：将第二二维卷积神经网络进行训练，将训练好的第二二维卷积神经网络作为监听流网络，将第一二维卷积网络中的一部分卷积层输出的深度特征经过压缩后作为监听流网络的输入信息；

步骤S4：利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模，得到各个卷积分支含有时间维度的特征图t₁；

步骤S5：使用时间维度的最大化池化操作去除特征图t₁时间维度上的冗余性信息，再使用第三二维卷积网络进一步对特征图t₁中的时空特征进行提取，得到最终的视频描述向量；

步骤S6：将最终的视频描述向量经过全连接层之后输出各个类别的概率对数值；

步骤S7：将监听流网络的输入信息输入到训练好的监听流网络进行特征提取，得到特征图t₂，使用全局池化将特征图t₂压缩成一个特征向量，经过全连接层之后输出各个类别的概率对数值；

步骤S8：对最终的视频描述向量输出的各个类别的概率对数值以及监听流网络输出的各个类别的概率对数值进行归一化处理，获得最终各个动作类别的概率，概率最大动作类别的即为网络识别的最终结果。

优选的，所述的第一二维卷积网络、第二二维卷积网络、第三二维卷积网络的第l层的第c个通道

对应的卷积公式为：

其中，C_l-1是第l-1层的通道数量，h代表一个通道，

代表第l层第c个通道对应的卷积核的对应于第l-1层第i个通道的卷积权值,f(·)为激活函数,b为通道对应的偏置。

优选的，所述的多尺度时间感知结构包含多个不同时间尺度的卷积分支，每个卷积分支都使用全分组三维卷积的形式，将全分组三维卷积定义为输入通道数、输出通道数、分组数都相等的三维卷积，对于分支α上的全分组三维卷积，使用如下公式表示：

其中，

代表分支α上第j个输出特征图的第c个通道，M_jc代表与

相关的输入特征图的集合，t_ic表示输入的第i个特征图的第c个通道，

表示时间卷积分支α上对应于第i个输入特征图的第c个通道的卷积权值，

代表时间卷积分支α上第j个输出特征图的的第c个通道对应的偏置，*代表卷积，f(·)代表激活函数。

优选的，利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模的过程采用了全分组三维卷积来解耦了不同通道的时间维度，全分组三维卷积的参数量为k_h×k_w×k_t×c_i，即对应卷积核空间高×空间宽×时间长×输入通道数量。

优选的，步骤S8的具体过程如下：得到最终的视频描述向量和监听流网络对动作类别预测的概率对数值之后，对两个流的对指值取平均，然后输入到softmax分类器中计算最终的各个行为类别的概率，公式如下：

其中，p_n为最终预测为第n类的概率，z_n为第n类对应的平均对数值，e为自然对数的底。

与现有技术相比，本发明的有益效果是：

本发明基于多尺度时间感知结构设计，使用少量参数对多尺度的时间信息进行了建模，是一种十分高效的时间建模结构，将多尺度时间感知结构结合进一般深度网络中，能够一定程度地提高一般深度网络的识别率。并且本发明设置了监听流网络，通过监听流网络与结合时间感知结构的一般网络结合，增加了训练时网络整体收敛的速度，能够将包含时间感知结构的一般网络的识别结果进一步提高。

附图说明

图1为本发明的流程示意图。

图2为实施例2的主干网络结构。

图3为以ResNet18为主干，不同结构的作用在UCF101上的识别结果。

图4为在UCF101上从随机初始化开始训练得到的结果对比。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，一种基于时间感知结构的视频动作识别方法，包括以下步骤：

对应的卷积公式为：

其中，C_l-1是第l-1层的通道数量，h代表一个通道，

其中，

代表分支α上第j个输出特征图的第c个通道，M_jc代表与

实施例2

如图1、图2所示，本实施例中以UCF101数据集为例，UCF101中视频各帧的尺寸为240×320。首先对要输入的视频稀疏采样5帧，然后使用随机裁剪的方法对每个采样帧裁剪出224×224大小的输入图像。在本发明中，将时间感知结构嵌入到图2中的i-d-3层与i-e-1层之间。

(1)视频帧的二维卷积特征提取

对于每一个裁剪好的输入帧，使用图2主干网络的i-a-1到i-d-3去提取对应的深度特征t_i∈R^28×28×512，在处理不同帧的过程中，使用同一套卷积网络参数，即不同时间段的特征提取过程共享参数。

(2)多尺度时空特征的提取

使用具有时间尺度3和5的两个分支组成时间感知结构，在两个卷积分支中，设置空间卷积核为1，使得结构能够更加特定化地建模时间信息。时间尺度为3的全分组三维卷积的参数量为1×1×3×512＝1536个参数，时间尺度为5全分组三维卷积的参数量为1×1×5×512＝2560个参数。两个卷积分支分别输入尺寸为28×28×512×5的特征图，然后使用时间维度上的最大化池化来将信息压缩为28×28×512。

在每一个处理分支处理完之后，都会接入一个特定的特征提取网络，即图2中的i-e-1到i-f-2部分，以进一步对时空特征进行提取。需要注意的是，由于此时两个分支产生的信息侧重于不同时间尺度的信息，所以这两个处理网络并不共享参数。

最终，每个尺度的时空信息都对应一个1024维的特征向量，使用两个全连接层将这两个向量转换成101个类别对应的概率对数值。

(3)监听流网络信息处理

首先，监听流网络整体也采用图2中的主干网络。监听流网络的输入信息来自于步骤(1)处理时在i-a-1到i-a-4的四个卷积层产生的特征输出。例如主干网络i-a-2卷积层输出的特征图尺寸为112×112×64，首先使用通道数为16的瓶颈结构压缩特征尺寸到112×112×16，然后再将所有5个时间段的特征串联起来得到112×112×80维度的特征。同时，对于监听流网络i-a-1的224×224×32维度的输出特征，也使用瓶颈结构将之压缩为112×112×16，连同主流得到的112×112×80维度的信息，一起串联起来形成112×112×96维度的特征作为监听流网络i-a-2层的输入。

经过前四层与主流相关的处理后，生成56×56×128维度的输出，然后由监听流网络的i-b-1到i-f-2层进行特征提取，最终得到一个1024维度的监听流网络特征向量，然后再使用全连接层将这个1024维度的向量转变成101个类别的概率对数值。

(4)根据主流和监听流网络的结果进行预测

对通过步骤(2)和步骤(3)得到的三个概率对数值求平均，然后使用softmax分类器进行归一化处理，得到的输出即为各个类别最终的预测概率。

B.训练与测试

如果是在训练模式下，则通过对上述步骤(4)得到的概率与类标之间的交叉熵损失，反向求导得到各个变量的梯度进行更新学习。

如果是在测试模式下，则上述步骤(4)输出的概率即为最终的预测概率。

实施例3

如图3、图4所示，本实施例中为体现本发明的有益效果，在UCF101数据集上做了充分的对比实验和消除实验。

在UCF101中一共有13320条视频，包括了人机交互、人体运动、演奏乐器等活动。UCF101包含大量的背景干扰、拍摄角度多变、尺度和光照变化大，是一个具有挑战性的数据集。在测试的过程中，为了能够与其他方法进行公平地对比，使用UCF101的第一种分组方法，即9537条视频用于训练，3783条视频用于测试，相互之间没有重叠。

首先，验证时间感知结构以及监听流网络的有效性。

为了能够更加清晰、客观地展示本发明结构的优点，我们首先以ResNet18[He2016]为主干，对结构的贡献进行对比，如图3所示。

图3中的ResNet18-平均池化指的是使用平均池化操作来替代时间感知结构，将ResNet18-平均池化作为基本对比线。从图3中可以得出结论：只把平均池化操作换成时间感知结构，即可获得5.1％的提升，当结合使用时间感知结构和监听流网络时，能够进一步的将结果再提升1.8％，从而验证了时间感知结构的有效性以及加入监听流网络对最终识别率的积极作用。

在图2中，输出特征图的尺寸是按照“宽×高×通道数”来表示的，结构一栏的矩阵中有多少个元素就意味着有几个普通的二维卷积分支，其结果会在通道维度串联起来作为输出。如果有瓶颈结构的话，会在最右边栏矩阵的相应位置展示出该分支的瓶颈使用了多少通道。

本发明与业界前沿的网络对比结果如图4所示，需要注意的是，表中的结果均是随机初始化开始训练的模型，即未使用任何预训练数据。

当从随机初始化开始训练时，本发明可以在UCF101数据集上取得明显的优势，即本发明不需要进行预训练就能在较小的数据集上取得较高的识别率，从而降低了模型对小规模问题的应用成本。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于时间感知结构的视频动作识别方法，其特征在于，包括以下步骤：

步骤S8：对最终的视频描述向量输出的各个类别的概率对数值以及监听流网络输出的各个类别的概率对数值进行归一化处理，获得最终各个动作类别的概率，概率最大动作类别的即为网络识别的最终结果；

所述的第一二维卷积网络、第二二维卷积网络、第三二维卷积网络的第l层的第c个通道

对应的卷积公式为：

其中，C_l-1是第l-1层的通道数量，h代表一个通道，

代表第l层第c个通道对应的卷积核的对应于第l-1层第i个通道的卷积权值,f(·)为激活函数,b为通道对应的偏置；

所述的多尺度时间感知结构包含多个不同时间尺度的卷积分支，每个卷积分支都使用全分组三维卷积的形式，将全分组三维卷积定义为输入通道数、输出通道数、分组数都相等的三维卷积，对于分支α上的全分组三维卷积，使用如下公式表示：

其中，

代表分支α上第j个输出特征图的第c个通道，M_jc代表与

代表时间卷积分支α上第j个输出特征图的第c个通道对应的偏置，*代表卷积，f(·)代表激活函数；

利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模的过程采用了全分组三维卷积来解耦了不同通道的时间维度，全分组三维卷积的参数量为k_h×k_w×k_t×c_i，即对应卷积核空间高×空间宽×时间长×输入通道数量。

2.根据权利要求1所述的一种基于时间感知结构的视频动作识别方法，其特征在于，步骤S8的具体过程如下：得到最终的视频描述向量和监听流网络对动作类别预测的概率对数值之后，对两个流的对指值取平均，然后输入到softmax分类器中计算最终的各个行为类别的概率，公式如下：