CN110796058A

CN110796058A - 一种基于关键帧提取和层次性表述的视频行为识别方法

Info

Publication number: CN110796058A
Application number: CN201911011339.0A
Authority: CN
Inventors: 李楠楠; 张世雄; 赵翼飞; 李若尘; 李革; 安欣赏; 张伟民
Original assignee: Shenzhen Longgang Intelligent Audiovisual Research Institute
Current assignee: Shenzhen Longgang Intelligent Audiovisual Research Institute
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-14

Abstract

一种基于关键帧提取和层次性表述的视频行为识别方法，包括：步骤1)用循环神经网络滑动过整段视频，提取关键帧特征；步骤2)将关键帧特征送入时域卷积神经网络，提取整段视频的表述特征；以及步骤3)进行视频行为分类。该方法通过对原始视频进行中层次特征帧抽取和高层次运动信息抽象的方式来获得整段视频的完整表述，在此基础上设计行为分类器实现从端(视频输入)到端(行为类别输出)视频行为分类。该方法能够实现对于长视频和结构化分布的视频的完整表述；能够满足现实场景下某些对实时运算要求较高的应用需求。

Description

一种基于关键帧提取和层次性表述的视频行为识别方法

技术领域

本发明涉及视频行为分析技术领域，具体涉及到一种基于关键帧提取和层次性表述的视频行为识别方法。

背景技术

随着自媒体时代的到来，互联网上每天都有用户上传海量的视频。以YouTube为例，每分钟全球用户上传的视频量约为500小时。这里面有大量的视频内容是不健康的，比如：犯罪、色情等。用人工检索的方式对这些海量的数据进行查看和监管是一项耗时费力的工作。近年来，一些专家学者尝试使用计算机视觉的方法对视频内容进行自动地识别，且取得了一些不错的进展。总体来看，这些方法多是依赖光流特征来刻画运动信息，并且使用随机抽样地方式来处理较长的视频。这样做会带来两个明显的缺陷：1.光流计算需要大量的运算资源，而且一般都是预先离线处理，这样限制了算法在现实场景下的实时运行；2.对较长的视频进行随机抽取可能会漏掉一些关键的信息，而且在很多情况下视频内容是结构化分布的，仅对随机抽取到的某一段内容进行分析无法得到可靠的分类预测。例如：跳高和跳远两项体育运动，两者的前半段都是助跑，如果随机抽取的内容只包含前半段信息是无法区分两者的。

发明内容

本发明的目的是提供一种基于关键帧提取和层次性表述的视频行为识别方法，通过对原始视频进行中层次特征帧抽取和高层次运动信息抽象的方式来获得整段视频的完整表述，在此基础上设计行为分类器实现从端(视频输入)到端(行为类别输出)视频行为分类。该方法能够实现对于长视频和结构化分布的视频的完整表述；能够满足现实场景下某些对实时运算要求较高的应用需求。

本发明的技术方案：

根据本发明的一个方面，提供了一种基于关键帧提取和层次性表述的视频行为识别方法，包括：步骤1)用循环神经网络滑动过整段视频，提取关键帧特征；步骤2)将关键帧特征送入时域卷积神经网络，提取整段视频的表述特征；以及步骤3)进行视频行为分类。

优选地，在上述视频行为识别方法中，步骤1)包括通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征；在单个视频结构单元中，输入图像通过卷积神经网络抽取深度表述特征，然后输入到循环神经网络进行关键帧判定。

优选地，在上述视频行为识别方法中，循环神经网络包含图片特征提取层、隐状态层和判定输出模块，在单个视频结构单元中，输入图像经过图片特征提取层提取深度表述特征，记为F_p；将F_p进行时序信息关联和处理，经过隐状态层11运算，输出中间隐特征H_p；将H_p输入到关键帧检测网络层，得到关键帧检测结果，即该帧是否为关键帧的判定P_k。

优选地，在上述视频行为识别方法中，在步骤2)中，将从步骤1)提取的关键帧特征输入到时域卷积神经网络中，进行时间域卷积运算提取整段视频的表述特征F_v，其中，时间域卷积过程可以表述为下式(1)：

其中，

为视频表述特征F_v第j个通道的输出，f_i为时间卷积第i个通道的输入，共有m个输入通道，为第i个卷积核。

优选地，在上述视频行为识别方法中，在步骤3)中，将步骤2)所得的整段视频的表述特征送入到行为分类层进行运算，最后输出行为类别预测结果，其中，行为分类层包括2个512*512的全连接层。

根据本发明的另一方面，还提供了一种基于关键帧提取和层次性表述的视频行为识别设备，包括中层关键帧提取模块和高层视频表述模块，其中，中层关键帧提取模块，用于从整段视频提取关键帧特征；以及高层视频表述模块，用于将关键帧特征送入时域卷积神经网络，提取整段视频的表述特征。

优选地，在上述视频行为识别设备中，中层关键帧提取模块用于，通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征；在单个视频结构单元中，输入图像通过卷积神经网络抽取深度表述特征，然后输入到循环神经网络进行关键帧判定。

优选地，在上述视频行为识别设备中，循环神经网络包括图片特征提取层、隐状态层和判定输出模块，在单个视频结构单元中，输入图像经过图片特征提取层提取深度表述特征，记为F_p；将F_p进行时序信息关联和处理，经过隐状态层11运算，输出中间隐特征H_p；将H_p输入到关键帧检测网络层，得到关键帧检测结果，即该帧是否为关键帧的判定P_k

优选地，在上述视频行为识别设备中，高层视频表述模块，用于将提取的关键帧特征输入到时域卷积神经网络中，进行时间域卷积运算提取整段视频的表述特征F_v，其中，时间域卷积过程可以表述为下式(1)：

其中，

为视频表述特征F_v第j个通道的输出，f_i为时间卷积第i个通道的输入，共有m个输入通道，

为第i个卷积核。

优选地，在上述视频行为识别设备中，还包括行为分类层，用于进行视频行为分类。

与现有技术相比，本发明的有益效果是：

本发明方法，在对视频中存在的行为事件进行检测时，采用了一种层次性结构信息提取的模式。相比于传统的基于光流和随机采样的行为事件检测方法，能够实现对于长视频和结构化分布的视频的完整表述；同时，由于采用关键帧提取和连续时域特征卷积的方法，避免了光流运算带来的巨大计算开销，能够满足现实场景下某些对实时运算要求较高的应用需求。

附图说明

下面结合附图，通过实施例子对本发明进一步说明如下：

图1为本发明的基于关键帧提取和层次性表述的视频行为识别方法的流程图；

图2为本发明方法采用的视频行为识别模型的网络结构图；

图3为本发明方法采用的循环神经网络滑动检测图；

图4为本发明方法采用的循环神经网络的结构图。

具体实施方式

本发明的基于关键帧提取和层次性表述的视频行为识别方法，采用深度学习模型构建两级特征提取模块来对整段视频进行表征，即，中层关键帧提取模块和高层视频表述模块，分别负责视频片段关键帧分析和整段视频特征表述。其中，中层关键帧提取模块由单向循环神经网络构成，用来提取不同视频片段的关键帧；高层视频表述模块由时域卷积神经网络构成，用来对整段视频进行特征编码。在此特征表述基础上完成视频行为识别任务。这种层次性表述的方法能够对整段视频进行完整的表征，特别是针对持续时间较长且行为是由若干动作片段构成的视频，层次性分析的方法可以有效地表述行为的分层结构特性。

相比于以往的基于光流分析和随机抽样技术的视频行为分析方法，本发明提出的技术方案具有下述特性：1.层次性分析的方法符合视频行为的结构化分层特性，能够对长视频提取完整的行为表征；2.通过对连续关键帧的特征进行描述来表征动作行为，相比于光流方法，极大地节省了计算资源，有利于算法在现实场景下的实时运行。

本发明方法的原理是：1.)通过对视频进行层次性结构建模来挖掘视频中行为事件的结构化信息：中层次信息对应着行为事件的结构单元，高层次信息对应着行为事件的整体表述；2.)通过关键帧提取来挖掘视频行为的中层次信息，对连续关键帧特征进行时间域卷积来表征整段视频的行为特性。

本发明提出的基于关键帧提取和层次性表述的视频行为识别方法包括三个部分：使用一个固定时间步长的循环神经网络滑动过整段视频，提取指定时间间隔内的视频关键帧；把连续关键帧的深度特征送入一个卷积神经网络，该卷积神经网络在时间域上进行卷积运算，得到整段视频的抽象表述；设计行为分类器(行为分类层)对视频行为进行分类。从一段视频输入到行为分类结果输出包括以下若干步骤：

1.)用循环神经网络滑动过整段视频，提取关键帧特征；

2.)将关键帧特征送入时域卷积神经网络，提取整段视频的表述特征；

3.)进行视频行为分类。

本发明提出的方法与现有的方法相比有两点主要的改进：1.)本发明的方法是基于层次性分析的技术框架，相比于传统的基于单次随机抽样的学习方法，此方法对持续时间较长且层次结构性明显的视频，具有更加合理的视频表述能力，能更加完整地表征一个行为事件；2.)本发明提出的模型是通过对连续关键帧特征的处理来提取行为运动信息的，相比于传统的光流计算的方法，只考虑RGB图像信息，节省了计算资源，有利于把算法模型应用于需要实时处理的环境下。

图1为本发明的基于关键帧提取和层次性表述的视频行为识别方法的流程图。本发明通过一种层次化分析的方法对输入视频进行分层描述来提取长视频完整的行为表征图，图2为本发明方法采用的视频行为识别模型的网络结构图，具体包括中层关键帧提取模块和高层视频表述模块，其中，中层关键帧提取模块，用于用循环神经网络滑动过整段视频，提取关键帧特征，即用于从行为事件的结构单元(例如连续20帧图像)中提取关键帧；以及高层视频表述模块，用于将关键帧特征送入时域卷积神经网络，提取整段视频的表述特征，具体地用于对连续关键帧信息进行建模来对行为事件进行整体性表述。

结合图1和图2，对本发明的基于关键帧提取和层次性表述的视频行为识别方法的整体操作流程分述如下：

S1:用循环神经网络滑动过整段视频，提取关键帧特征。从行为事件的结构单元(例如连续20帧图像)中提取关键帧特征，具体地，通过循环神经网络在视频中滑动来抽取视频结构单元的关键帧；在单个视频结构单元中，输入图像通过卷积神经网络抽取深度表述特征，然后输入到循环神经网络进行关键帧判定。给定一段视频，经过处理得到输入视频帧1。选择一种循环神经网络2，例如：GRU(Cho,Kyunghyun；van Merrienboer,Bart；Gulcehre,Caglar；Bahdanau,Dzmitry；Bougares,Fethi；Schwenk,Holger；Bengio,Yoshua(2014)."Learning Phrase Representations using RNN Encoder-Decoder forStatistical Machine Translation".arXiv:1406.1078)，设定其处理的时间步长为N，例如，N＝20。利用循环神经网络2在视频中滑动处理，提取每个视频结构单元的关键帧4。关键帧包含了描述运动所需要的动态信息，相比于传统的光流计算来描述运动动态信息，关键帧提取节省了巨大的计算开销，有利于算法在实时运算要求较高的场合运行。循环神经网络2的结构图如图4所示，包含图片特征提取层12、隐状态层11和判定输出模块。输入图像经过图片特征提取层12，例如卷积神经网络VGG(Simonyan K.and Zisserman A.2014.VeryDeep Convolutional Networks for Large Scale Image Recognition.ArXiv(2014).https://doi.org/arXiv:1409.1556)，提取深度表述特征，记为F_p。连续N帧视频图片特征F_p输入到循环神经网络2中进行时序信息关联和处理，经过隐状态层11运算，输出中间隐特征H_p。H_p输入到关键帧检测网络层9，得到关键帧检测结果10，即该帧是否为关键帧的判定P_k。关键帧检测网络层9可以选择为全连接网络，例如，2层512*512的全连接层。循环神经网络2在视频中以滑动窗口的方式进行运算，前后窗口之间的重叠关系如图3所示。具体的说，即为若在前段窗口中，关键帧被检测为第k帧，则后段滑动窗口的开始位置为前段窗口的第k+1帧。例如，在图3中，第一段滑动窗口的关键帧被检测为第N-1帧，则后段滑动窗口的开始位置(循环神经网络开始时间步)6和前段滑动窗口的结束位置(循环神经网络结束时间步)5重合，同为第N帧。若第k帧被检测为关键帧，则其在循环神经网络中对应时间步的中间隐特征F_k，记为此关键帧特征；

S2:将关键帧特征送入时域卷积神经网络，提取整段视频的表述特征。通过时域卷积神经网络3对连续关键帧信息进行建模来对行为事件进行整体性表述，具体地，用1D时域卷积神经网络3对提取的所有视频结构单元的关键帧特征进行处理来得到整段视频的表征。使用关键帧提取和时域卷积神经网络进行建模可以完整地表述整段视频的层次性结构，有利于视频行为分类。其中，关键帧对应于视频中层次信息，时域卷积神经网络输出对应于视频高层次信息。

循环神经网络2在整段视频滑动处理完毕后，将得到若干关键帧特征F_k，F_k输入到时域卷积神经网络3中，进行时间域卷积运算提取整段视频的表述特征F_v。时间域卷积过程可以表述为下式(1)：

其中，

为第i个卷积核；

S3:进行视频行为分类。具体地，视频表述特征F_v送入到行为分类层7进行运算，最后输出行为类别预测结果8。行为分类层由两个全连接层构成，例如，2个512*512的全连接层。

以上即为本发明提出的一种基于关键帧提取和层次性表述的视频行为识别方法的具体实施方案。此实施案例是在HMDB-51(H.Kuehne,H.Jhuang,E.Garrote,T.Poggio,andT.Serre.HMDB:A Large Video Database for Human Motion Recognition.ICCV,2011.)数据集上进行了验证，并用分类准确率对实验结果进行了评估，在Top-1(即把分类得分最高的一类作为预测结果)准确率的情况下，本发明提出的方法达到了目前先进的检测水平。

相比于传统的基于单个循环神经网络的视频行为识别方法，本发明提出的方法对于持续时间长、动作复杂多样的视频具有更好的表述能力，如表1所示。

表1本发明方法与传统的基于单个循环神经网络的视频行为识别方的准确率对比

方法	准确率
		ActionVLAD<sup>[1]</sup>	66.9％
TSN(BN-Inception)<sup>[2]</sup>	68.5％
		ST-ResNet<sup>[3]</sup>	66.4％
本发明	67.6％

对比参考文献：

[1]Girdhar,R.,Ramanan,D.,Gupta,A.,Sivic,J.,Russell,B.:Actionvlad:Learning spatio-temporal aggregation for action classification.In:CVPR(2017)

[2]Wang,L.,Xiong,Y.,Wang,Z.,Qiao,Y.,Lin,D.,Tang,X.,Gool,L.V.:Temporalsegment networks:Towards good practices for deep action recognition.In:ECCV(2016)

[3]Feichtenhofer,C.,Pinz,A.,Wildes,R.:Spatiotemporal residualnetworks for video action recognition.In:NIPS(2016)

Claims

1.一种基于关键帧提取和层次性表述的视频行为识别方法，其特征在于，包括：

步骤1)用循环神经网络滑动过整段视频，提取关键帧特征；

步骤2)将所述关键帧特征送入时域卷积神经网络，提取整段视频的表述特征；以及

步骤3)进行视频行为分类。

2.根据权利要求1所述的视频行为识别方法，其特征在于，所述步骤1)包括通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征；在单个视频结构单元中，输入图像通过卷积神经网络抽取深度表述特征，然后输入到循环神经网络进行关键帧判定。

3.根据权利要求1所述的视频行为识别方法，其特征在于，所述循环神经网络包含图片特征提取层、隐状态层和判定输出模块，在单个视频结构单元中，所述输入图像经过所述图片特征提取层提取深度表述特征，记为F_p；将F_p进行时序信息关联和处理，经过隐状态层11运算，输出中间隐特征H_p；将H_p输入到关键帧检测网络层，得到关键帧检测结果，即该帧是否为关键帧的判定P_k。

4.根据权利要求1所述的视频行为识别方法，其特征在于，在所述步骤2)中，将从步骤1)提取的所述关键帧特征输入到所述时域卷积神经网络中，进行时间域卷积运算提取整段视频的表述特征F_v，其中，时间域卷积过程可以表述为下式(1)：

其中，

为第i个卷积核。

5.根据权利要求1所述的视频行为识别方法，其特征在于，在所述步骤3)中，将所述步骤2)所得的所述整段视频的所述表述特征送入到行为分类层进行运算，最后输出行为类别预测结果，其中，所述行为分类层包括2个512*512的全连接层。

6.一种基于关键帧提取和层次性表述的视频行为识别设备，其特征在于，包括中层关键帧提取模块和高层视频表述模块，其中，

中层关键帧提取模块，用于从整段视频提取关键帧特征；以及

高层视频表述模块，用于将所述关键帧特征送入时域卷积神经网络，提取整段视频的表述特征。

7.根据权利要求1所述的视频行为识别设备，其特征在于，所述中层关键帧提取模块用于，通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征；在单个视频结构单元中，输入图像通过卷积神经网络抽取深度表述特征，然后输入到循环神经网络进行关键帧判定。

8.根据权利要求7所述的视频行为识别设备，其特征在于，所述循环神经网络包括图片特征提取层、隐状态层和判定输出模块，在单个视频结构单元中，所述输入图像经过所述图片特征提取层提取深度表述特征，记为F_p；将F_p进行时序信息关联和处理，经过隐状态层11运算，输出中间隐特征H_p；将H_p输入到关键帧检测网络层，得到关键帧检测结果，即该帧是否为关键帧的判定P_k。

9.根据权利要求1所述的视频行为识别设备，其特征在于，高层视频表述模块，用于将提取的所述关键帧特征输入到所述时域卷积神经网络中，进行时间域卷积运算提取整段视频的表述特征F_v，其中，时间域卷积过程可以表述为下式(1)：

其中，

为第i个卷积核。

10.根据权利要求1所述的视频行为识别设备，其特征在于，还包括行为分类层，用于进行视频行为分类。