CN111325149A

CN111325149A - 一种基于投票的时序关联模型的视频动作识别方法

Info

Publication number: CN111325149A
Application number: CN202010105280.8A
Authority: CN
Inventors: 胡建国; 王金鹏; 蔡佳辉; 林佳玲; 陈嘉敏
Original assignee: Guangzhou Intelligent City Development Institute; National Sun Yat Sen University
Current assignee: Guangzhou Intelligent City Development Institute; National Sun Yat Sen University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-23
Anticipated expiration: 2040-02-20
Also published as: CN111325149B

Abstract

本发明涉及计算机视觉领域，公开了一种基于投票的时序关联模型的视频动作识别方法，其包括步骤：S1、对卷积特征图进行空间池化；S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩；S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算；S4、经过时序池化，将空间池化后的卷积特征图降维为特征向量；S5、将三路分支的预测结果分别相加，作为最后的分类结果。本发明的方法在对特征图进行特征提取时，可以捕获时间信息，而且在训练过程中能够快速收敛，同时能够在网络的任意深度集成，在较高的提升了模型表征能力的基础上，还很好地控制了计算开销和模型复杂度。

Description

一种基于投票的时序关联模型的视频动作识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于投票的时序关联模型的视频动作识别方法。

背景技术

近年来，基于视频的动作识别领域在卷积神经网络的浪潮中取得了长足的发展，视频分类从手工设计的方法转向深度学习方法。这些方法可以归纳为两类:基于2D CNN和基于3D CNN的方法。基于2DCNN的方法主要基于稀疏时间采样策略进行视频级别的表示。具体来说，这些方法对视频序列进行均匀采样，独立地对单帧图像进行操作，然后平均这些帧级别预测来学习时间信息。作为一种从二维图像到三维视频域的自然演化，基于3D的CNN方法采用三维时空卷积来捕捉时空信息并提供最佳结果。

动作识别与普通的图像分类的主要区别在于有额外的时序信息并且需要时序建模。已有的方法利用CNN，通过动作的帧级别分类来学习深度外观特征。与图像不同，动作可以表示为时空对象，并通过时空中的定向滤波捕获，处理相似的空间和时间维度。虽然已有很多工作已经尝试了不同的方法对时序进行建模，取得了一定的进展，但时间建模仍然没有得到充分的研究并是一项挑战性的工作。

基于2D和3D CNN的方法都是使用视频级标签训练的，它们都倾向于关注最具鉴别力的部分，而不是通用的表征。因此，这些方法在时间相关性较强的样本上的性能较差，这些样本的主要特点是:与其他类样本的外观相似，但与同一类样本的空间信息差异较大。一个与时间相关的样本显示在图中。

在日常生活中，大多数动作，如“游泳”或“吃东西”，通常是同质的运动，具有连贯的形式并且有高度场景依赖性，所以这些行为通常可以从几帧甚至一帧里区分出来。相比之下，“骑在自行车上捡东西”和“在游泳池里散步”等是非常不同的行为，但在现实生活中却无处不在，这些动作很容易造成歧义，只能主要依靠运动模式来区分并且需要同时结合很多帧同时的信息。现有的方法往往侧重于外观信息，容易被与时间相关的样本混淆。随着数据集类数的增加，问题变得越来越严重，尤其是与时序相关的数据集，其计算效率显著降低。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于投票的时序关联模型的视频动作识别方法，其在较高地提升了模型表征能力的基础上，还很好地控制了计算开销和模型复杂度。

一种基于投票的时序关联模型的视频动作识别方法，其包括以下步骤：

S1、对卷积特征图进行空间池化；

S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩；

S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算；

S4、经过时序池化，将空间池化后的卷积特征图降维为特征向量；

S5、将三路分支的预测结果分别相加，作为最后的分类结果。

优选地，在上述的基于投票的时序关联模型的视频动作识别方法中，其特征在于，在所述步骤S1中，卷积特征图的形状表示为：C′*T*H*W，其中，C′、T、H、W分别表示特征通道的数量、时间维度、高度、宽度，在将卷积特征图输入到空间池中进行池化操作后，获得特征维度为C′*T的特征图。

优选地，在上述的基于投票的时序关联模型的视频动作识别方法中，在使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩后，获得特征维度为C*T的特征图，其中C表示类的数量，参数量为C′*C。

优选地，在上述的基于投票的时序关联模型的视频动作识别方法中，在所述步骤S3中，所述的时域卷积层的三路分支沿着时间维度，空洞率线性增加，卷积核大小线性减小。

优选地，在上述的基于投票的时序关联模型的视频动作识别方法中，在所述步骤S3中，所述的时域卷积层的三路分支中的第一个分支的空洞率为1，卷积核大小为5，第二个分支的空洞率为3，卷积核大小为3，第三个分支的空洞率为5，卷积核大小为1。

优选地，在上述的基于投票的时序关联模型的视频动作识别方法中，所述的时域卷积层的三路分支沿着时间维度逐步缩小采样步长，以对应更细粒度的时间信息。

优选地，在上述的基于投票的时序关联模型的视频动作识别方法中，所述的时域卷积层的三路分支中的一分支以最低的扩张步幅捕捉慢动作，另一分支以最高的帧率捕捉快动作。

本发明的有益效果：本发明的方法基于轻量级的投票时序关联模型，在对特征图进行特征提取时，可以捕获时间信息，而且在训练过程中能够快速收敛，同时能够在网络的任意深度集成，参数可以忽略不计，计算开销小，大大提高了计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明的实施例提出的一种基于投票的时序关联模型的视频动作识别方法，其包括以下步骤：

S1、对卷积特征图进行空间池化；

具体地，在所述步骤S1中，卷积特征图的形状表示为：C′*T*H*W，其中，C′、T、H、W分别表示特征通道的数量、时间维度、高度、宽度。为降低计算成本和空间信息的影响，将卷积特征图输入到空间池中进行池化操作后，获得特征维度为C′*T的特征图。为进一步提高计算效率，模拟通道之间的相关性，在对卷积特征图进行空间池化后，使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩。通道压缩后，获得特征维度为C*T的特征图，其中C表示类的数量，参数量为C′*C。

具体地，在步骤S3中，时域卷积层的三路分支沿着时间维度，空洞率线性增加，卷积核大小线性减小。作为一种具体的实施例，所述的时域卷积层的三路分支中的第一个分支的空洞率为1，卷积核大小为5，第二个分支的空洞率为3，卷积核大小为3，第三个分支的空洞率为5，卷积核大小为1。为对应更细粒度的时间信息，该时域卷积层的三路分支沿着时间维度逐步缩小采样步长。时域卷积层的三路分支中的一分支以最低的扩张步幅捕捉慢动作，另一分支以最高的帧率捕捉快动作，然后分别对这些分支进行1维时间池化操作，进一步扩大视觉感受野，提高推理能力。每个分支都可以被看作是一个独立的投票者，最后，为了组合丰富的时间信息，输出向量由这些分支一起投票决定。最终在经过softmax层之后，输出是表示分类结果的C维softmax向量。

综上所述，本发明的方法基于轻量级的投票时序关联模型，在对特征图进行特征提取时，可以捕获时间信息，而且在训练过程中能够快速收敛，同时能够在网络的任意深度集成，在较高的提升了模型表征能力的基础上，很好地控制了计算开销和模型复杂度，大大提高了计算效率。

以上对本发明实施例所提供的一种基于投票的时序关联模型的视频动作识别方法进行了详细介绍，具体实时方式中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于投票的时序关联模型的视频动作识别方法，其特征在于，包括以下步骤：

S1、对卷积特征图进行空间池化；

2.根据权利要求1所述的基于投票的时序关联模型的视频动作识别方法，其特征在于，在所述步骤S1中，卷积特征图的形状表示为：C′*T*H*W，其中，C′、T、H、W分别表示特征通道的数量、时间维度、高度、宽度，在将卷积特征图输入到空间池中进行池化操作后，获得特征维度为C′*T的特征图。

3.根据权利要求2所述的基于投票的时序关联模型的视频动作识别方法，其特征在于，在使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩后，获得特征维度为C*T的特征图，其中C表示类的数量，参数量为C′*C。

4.根据权利要求1所述的基于投票的时序关联模型的视频动作识别方法，其特征在于，在所述步骤S3中，所述的时域卷积层的三路分支沿着时间维度，空洞率线性增加，卷积核大小线性减小。

5.根据权利要求4所述的基于投票的时序关联模型的视频动作识别方法，其特征在于，在所述步骤S3中，所述的时域卷积层的三路分支中的第一个分支的空洞率为1，卷积核大小为5，第二个分支的空洞率为3，卷积核大小为3，第三个分支的空洞率为5，卷积核大小为1。

6.根据权利要求4所述的基于投票的时序关联模型的视频动作识别方法，其特征在于，所述的时域卷积层的三路分支沿着时间维度逐步缩小采样步长，以对应更细粒度的时间信息。

7.根据权利要求6所述的基于投票的时序关联模型的视频动作识别方法，其特征在于，所述的时域卷积层的三路分支中的一分支以最低的扩张步幅捕捉慢动作，另一分支以最高的帧率捕捉快动作。