CN110765854A

CN110765854A - 一种视频动作识别方法

Info

Publication number: CN110765854A
Application number: CN201910861249.4A
Authority: CN
Inventors: 尚振宏; 杨亚光
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-02-07
Anticipated expiration: 2039-09-12
Also published as: CN110765854B

Abstract

本发明涉及一种视频动作识别方法，该视频中的动作识别方法包括以下步骤：构建超图片段，将连续N帧图像构建为一张超图得到由T张超图构成的一个片段；局部全局时空建模，使用目标检测模型提取超图中的目标对象作为局部信息和全局信息，采用2D卷积对这些局部信息进行局部和全局时空关系建模，分别命名为模型a（局部）和模型b（全局）；局部全局感知聚合，对模型a和模型b引入分层注意力机制来找出动作执行的主体目标；动作识别判别器，对视频局部信息的片段级预测，对视频全局信息进行视频级预测，然后对这两种模式的预测融合产生最终的预测结果。本发明具有高度智能化，识别准确的优点。

Description

一种视频动作识别方法

技术领域

本发明属于计算机视觉动作识别技术领域，特别涉及一种视频中的动作识别方法。

背景技术

录像设备的普及，视频类软件与日俱增，网络速度的提升等因素，造成了大量的视频在网上传播并且呈指数级增加。这些视频信息种类繁多，数量巨大，远远超出了人类手工处理的能力。因此，发明适合于视频推荐、人类行为分析、视频监控等多种应用的视频中的动作识别方法是十分必要的。在视频动作识别中，有两个重要且互补的方面:表象和动态。识别系统的性能在很大程度上取决于它能否从视频中提取和利用相关信息。然而，由于一些复杂性，如尺度变化、视角变化和相机运动，提取这些信息存在一定难度。近年来，深度卷积神经网络对图像中的目标，场景和其他复杂对象的识别上取得了很大的成功。展示了深度卷积神经网络具有强大的建模能力，证明了其能够在大规模监督数据集的帮助下从原始视觉数据中学习到目标的可识别表示。然而，主流卷积神经网络框架通常注重表象和短期运动，缺乏纳入长期时间结构的能力。也有部分研究者针对这个问题提出了一些方法，但这些方法主要依赖于具有预定义采样间隔的密集时间采样，当应用于较长的视频序列时，这种方法会产生过多的计算开销，限制了在现实中的应用，并且对于超过最大序列长度的视频，会有丢失重要信息的风险。其次，在实践中，训练深度神经网络需要大量的训练样本才能达到最优性能。但是，由于数据收集和注释的困难，公开可用的动作识别数据集(如：UCF101、HMDB51) 在大小和多样性上仍然有限。因此，非常深的神经网络在图像分类方面取得了显著的成功，但也面临着过度拟合的风险。本发明提出的方法流程能够利用有限训练样本学习到高效准确的深度卷积神经网络模型，并且对长时间的视频片段有较高较快的动作识别能力。

发明内容

本发明的目的是为了克服现有技术和动作识别方法的不足，提出了一种视频中的动作识别方法。

本发明的目的是通过以下技术方案来实现的：一种视频中的动作识别方法，其特征在于：所述的动作识别方法包括以下步骤：

步骤1)：构建超图片段，对于给定的视频V，超图片段的构建通过对K个时间段进行采样，每个时间段由N个连续的RGB帧组成，而不是单个帧。这N 帧叠加在通道维数中形成一个超图像，所以每张超图的输入是一个张量大小为 T×3N×H×W，由超图组成的超图片段定义为T。动作识别函数如下：

VL(T)＝VL(T₁,T₂,…,T_K) (3)

式(1)中VL是引入注意力机制的感知聚合函数，用来计算每个超图片段 T的类别得分和全部超图片段得分。

是段共识函数，通过融合每个超图片段的

得分和所有超图片段的VL(T)的得分产生段共识。

代表参数为W的二维卷积函数。

步骤2)局部时空建模，使用ImageNet数据集上预训练的目标检测模型提取超图中的目标对象作为局部信息，采用2D卷积对这些局部信息进行局部时空关系建模，命名为模型a；

步骤3)全局时空建模，采用2D卷积对超图片段进行全局时空关系建模，命名为模型b；

局部时空建模和全局时空建模为同样的网络结构，均由时间卷积网络和空间卷积网络构成，这两种网络都是基于BN-Inception网络框架上搭建的。其中时间卷积网络输入超图片段的RGB特征，空间卷积网络输入超图片段的光流特征。局部时空网络根据输入视频信息动态调整自身权重参数，从而使网络结构提取出最佳视频动作语义信息。本发明采用基于梯度优化的方法动态调整网络参数。具体公式如下：

式(4)中

表示损失函数，y表示输入视频。

步骤4)局部全局感知聚合，通过设计了两个可学习的VLAD模型来学习局部时空模型处理后的局部超图序列和全局时空模型处理后的全局超图序列的时空相关性。即是将超图的局部目标区域特征和超图的全局特征集合成可以判别的 VLAD表示。这里的VLAD是一种融入了注意力机制的特征编码方法。利用卷积门控递归单元C-GRU对信息上下文的短期记忆的特点从而使模型能够重点关注视频中的主体运动目标细节，实现注意力机制。VLAD具体编码形式如下：

式(5)中

表示局部VLAD编码，式(6)中

表示全局VLAD编码，其中a_N和a_K表示卷积门控递归单元C-GRU的当前状态，

表示当前超图的局部特征表示，表示超图片段的全局特征表示，c_k表示局部特征和全局特征上一次的特征映射

*表示元素级相乘，⊙表示卷积计算，U_a表示2D卷积核，r_K/N表示局部目标区域或全局区域。

步骤5)动作识别判别器，对不同类别片段找出的动作执行主体目标的得分采用段共识函数进行融合产生段共识，从而实现对视频局部信息的片段级 (snippet)预测，利用得分函数对视频全局信息进行视频级预测，然后对这两种模式的预测融合产生最终的预测结果。

本发明与现有技术相比，具有的有益效果是：本发明将N个连续的视频帧叠加成一个具有3N个信道的超图，超图不仅包含由单个帧表示的空间外观信息，而且还包含这些连续视频帧之间的时间依赖性，为了对其中的时空关系进行联合建模，节省模型权值和计算成本，本发明利用二维卷积(其输入通道大小为3N) 对由T个超图组成的超图片段(snippet)进行卷积。本发明对长时间的视频建模，结合了稀疏时间采样策略来保证对整段视频的表示学习更加高效和有效。不同于现存方法仅仅利用全局信息，本发明利用超图的局部和全局信息，通过感知聚合来学习局部超图序列和全局超图序列的时空相关性，从而能够更好的利用视频信息来识别出准确的视频动作。本发明具有高度智能化，适用范围广，识别准确的优点。

附图说明

图1是本发明一种视频中的动作识别方法的模式流程图。

具体实施方式

下面结合附图对本发明做进一步的说明。

实施例

如图1所示，一种视频中的动作识别方法，所述的视频中的动作识别方法包括以下步骤：

步骤1)：构建超图片段，对于给定的视频V，超图片段的构建通过对K个时间段进行采样，每个时间段由N个连续的RGB帧组成，而不是单个帧。这N 帧叠加在通道维数中形成一个超图像，所以每张超图的输入是一个张量大小为T×3N×H×W，由超图组成的超图片段定义为T。动作识别函数如下：

VL(T)＝VL(T₁,T₂,…,T_K) (10)

是段共识函数，通过融合每个超图片段的

得分和所有超图片段的VL(T)的得分产生段共识。

代表参数为W的二维卷积函数。

式(4)中

表示损失函数，y表示输入视频。

式(5)中

表示局部VLAD编码，式(6)中

表示当前超图的局部特征表示，

表示超图片段的全局特征表示，c_k表示局部特征和全局特征上一次的特征映射

本发明将N个连续的视频帧叠加成一个具有3N个信道的超图，超图不仅包含由单个帧表示的空间外观信息，而且还包含这些连续视频帧之间的时间依赖性，为了对其中的时空关系进行联合建模，节省模型权值和计算成本，本发明利用二维卷积(其输入通道大小为3N)对由T个超图组成的超图片段(snippet)进行卷积。本发明对长时间的视频建模，结合了稀疏时间采样策略来保证对整段视频的表示学习更加高效和有效。不同于现存方法仅仅利用全局信息，本发明利用超图的局部和全局信息，通过感知聚合来学习局部超图序列和全局超图序列的时空相关性，从而能够更好的利用视频信息来识别出准确的视频动作。本发明具有高度智能化，适用范围广，识别准确的优点。

仿真实验

主要的仿真参数为：使用Kinetics400数据集训练视频动作识别判别器，该数据集包含400个动作类别，每个类别视频数量不少于400个，视频总量246535 个。在视频检索国际权威评测TRECVID比赛数据集上验证本发明一种视频中的动作识别方法的视频动作分类效果。本发明从TRECVID数据集中的440000个视频中按照hold_baby，hold_money，crying，drinking，kissing，laughing， holding_paper，hold_hands，smoking，hold_glass，eating，hugging， go_up_down_stairs，holding_cloth，holding_phone15个类随机抽选出各100 个动作视频并计算各类别的均值平均精度MAP(精度取值范围为0到1，0代表全错，1代表全对)。仿真实验结果显示本发明一种视频中的动作识别方法，能够较为准确地识别视频中的动作类别。

附表一：

各种行为识别结果。

上述仿真实验用来解释本发明，从而使本发明的目的、技术方案和优点更加清楚，而不是对本发明的限制，在本发明的精神和权利要求的保护范围内，任何对本发明所作的修改和改变，都将落入本发明的保护范围内。

Claims

1.一种视频中的动作识别方法，其特征在于：所述的视频中的动作识别方法包括以下步骤：

步骤1)：构建超图片段，将输入的一个视频分为K段(segment)，从对应的各段(segment)中随机采样连续帧并将连续N帧图像构建为一张超图得到由T张超图构成的一个片段(snippet)；

步骤4)局部全局感知聚合，对模型a和模型b引入分层注意力机制来区分不同目标对象的贡献，从而找出动作执行的主体目标；

步骤5)动作识别判别器，对不同类别片段找出的动作执行主体目标的得分采用段共识函数进行融合产生段共识，从而实现对视频局部信息的片段级(snippet)预测，利用得分函数对视频全局信息进行视频级预测，然后对这两种模式的预测融合产生最终的预测结果。

2.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：所述的动作识别方法包括以下硬件设备：

操作系统，Linux version 4.4.0-148-generic(buildd@lgw01-amd64-031)(gccversion 5.4.0 20160609(Ubuntu 5.4.0-6ubuntu1～16.04.10)；

处理器，NVIDIA GTX1080 Ti 12GB；

数据线，数据线为四芯网线加两芯电源线的网络综合线，数据线连接摄像头和处理器；

存储器，存储器支持SCIS与SAS接口，大小2T，转速5400转每秒，存储器连接处理器。

3.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：对于给定的视频V，超图片段的构建通过对K个时间段进行采样，每个时间段由N个连续的RGB帧组成，而不是单个帧。这N帧叠加在通道维数中形成一个超图像，所以每张超图的输入是一个张量大小为T×3N×H×W，由超图组成的超图片段定义为T。动作识别函数如下：

VL(T)＝VL(T₁,T₂,…,T_K) (3)

式(1)中VL是引入注意力机制的感知聚合函数，用来计算每个超图片段T的类别得分和全部超图片段得分。是段共识函数，通过融合每个超图片段的

得分和所有超图片段的VL(T)的得分产生段共识。

代表参数为W的二维卷积函数。

4.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：所述的局部时空建模和全局时空建模为同样的网络结构，均由时间卷积网络和空间卷积网络构成，这两种网络都是基于BN-Inception网络框架上搭建的。其中时间卷积网络输入超图片段的RGB特征，空间卷积网络输入超图片段的光流特征。局部时空网络根据输入视频信息动态调整自身权重参数，从而使网络结构提取出最佳视频动作语义信息。本发明采用基于梯度优化的方法动态调整网络参数。具体公式如下：

式(4)中

表示损失函数，y表示输入视频。

5.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：所述的感知聚合通过设计了两个可学习的VLAD模型来学习局部时空模型处理后的局部超图序列和全局时空模型处理后的全局超图序列的时空相关性。即是将超图的局部目标区域特征和超图的全局特征集合成可以判别的VLAD表示。这里的VLAD是一种融入了注意力机制的特征编码方法。利用卷积门控递归单元C-GRU对信息上下文的短期记忆的特点从而使模型能够重点关注视频中的主体运动目标细节，实现注意力机制。VLAD具体编码形式如下：

式(5)中

表示局部VLAD编码，式(6)中

表示当前超图的局部特征表示，

表示超图片段的全局特征表示，c_k表示局部特征和全局特征上一次的特征映射*表示元素级相乘，⊙表示卷积计算，U_a表示2D卷积核，r_K/N表示局部目标区域或全局区域。

6.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：所述的动作识别判别器是一种使用VLAD编码后的视频特征表示在基于ResNet50骨架网络上训练出的视频动作分类器。对于输入目标视频，该动作识别判别器输出视频所述动作类别。

7.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：训练动作识别判别器的数据集每种类别不少于200个视频，每个视频时长大于10秒。视频格式为MP4，AVI，WMV，MKV等常见格式。

8.根据权利要求1所述的一种视频中的动作识别方法，其特征在于：该动作识别方法识别动作类别的种类由训练数据集类别数决定。