CN106650674A

CN106650674A - 一种基于混合池化策略的深度卷积特征的动作识别方法

Info

Publication number: CN106650674A
Application number: CN201611229368.0A
Authority: CN
Inventors: 胡海峰; 肖翔
Original assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Current assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2017-05-10
Anticipated expiration: 2036-12-27
Also published as: CN106650674B

Abstract

本发明公开一种基于混合池化策略的深度卷积特征的动作识别方法，包括：1)对输入视频每一帧采用空间流深度网络模型，得到每帧的表观特征；对视频中每连续10帧采用时间流深度网络模型，提取视频的运动特征；2）对空间流和时间流深度网络的最后一层卷积层输出的深度卷积图采用时间滤波器池化方法得到对应的特征表示，采用主成分分析方法进行降维得到第一描述子特征；对空间流和时间流深度网络的最后一层卷积层输出的深度卷积图采用时空金字塔池化方法得到对应的特征表示，用主成分分析方法进行降维得到第二描述子特征；3）将步骤2)得到的第一、二描述子特征级联起来，形成输入视频的特征描述子，并采用线性支持向量机进行特征分类，得到识别准确率。

Description

一种基于混合池化策略的深度卷积特征的动作识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于混合池化策略的深度卷积特征的动作识别方法。

背景技术

科技的发展使得摄像设备得到了普及，数量巨大的视频数据也随之产生。同时，针对视频的应用也应运而生：智能视频监控、视频数据分类、高级人机交互等。在这些应用中，针对人的动作进行理解是最核心的关注点，也是人们研究的核心内容。

由于人体动作识别有很大的潜在价值，所以此课题作为一个研究热点已经持续了至少十年时间，很多种方法都被提出，例如：基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中，基于CNN的方法研究的人数最多，这种方法能够取得目前最好的结果。然而，大多数深层CNN网络都将单张卷积图看成一个整体来用，而卷积图中的局部信息往往被忽略，所以，我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。

基于卷积神经网络的方法的主要思想是：首先，对视频采用多层的卷积层、池化层和全连接层，提取视频的描述子特征；接下来将这些特征放入分类器中进行分类，以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别，包括空间流和时间流网络，空间流用于提取视频帧的表观特征，时间流用于提取视频连续帧的运动特征，将二者进行融合，以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合，学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果，但是现存的基于深度网络的研究通常将单张深度特征图作为一个整体来使用而忽略了深度特征中的局部信息，而这种线索对于提高基于深度网络的识别准确率是有帮助的。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于混合池化策略的深度卷积特征的动作识别方法。该方法将视频数据集的视频作为输入，进行视频特征提取和识别，最后输出视频的分类结果，该方法具有简单易实现，识别效果好的特点。

为了达到上述目的，本发明采用的技术方案是：

一种基于混合池化策略的深度卷积特征的动作识别方法，包括以下步骤：

(1)输入待识别的视频，对输入视频的每一帧，利用空间流深度网络模型得到每帧的表观特征；同时对输入视频的每连续10帧，利用时间流深度网络模型得到运动特征。其中空间流深度网络和时间流深度网络模型均包括5个卷积层，3个池化层，以及3个全连接层；

(2)对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时间滤波器池化方法得到对应的特征表示，采用不同长度间隔的时间序列，以获取视频的全局和局部运动，并采用主成分分析方法对特征进行降维，得到第一描述子特征；

同时，对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时空金字塔池化方法得到对应的特征表示，采用4层的时空金字塔结构来获取深度特征图中的局部信息，并对于目标和几何变形具有鲁棒性；同样的也采用主成分分析进行特征降维，得到第二描述子特征；

(4)对步骤(2)提取的第一、二描述子特征级联起来，形成该视频最终的向量表示；采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果，在UCF50人体行为数据集上实现了90.8％的准确率。

本发明基于深度卷积神经网络方法，并且通过探索深度特征图中的局部信息和运动信息，提出了一种新的基于混合池化策略的深度卷积特征，它能够有效地获取特征图在不同尺度下的局部信息和运动信息，显著提高了动作识别的准确率。

优选的，步骤(1)中，空间流和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个深度卷积图，形成更具抽象的图像特征。

优选的，步骤(2)中，选取空间流网络和时间流网络的最后一层卷积层输出的卷积图来进行时间滤波器池化的操作，具体是对特征图采用4种不同时间间隔的滤波器(1,4,8,16)来分析深度特征在时间域的运动，其中时间间隔1对应的是整个视频范围内的时间运动也即全局运动，而时间间隔16对应的是最大尺度下的局部时间运动。对于每个不同的时间间隔，深度特征在整个视频时间范围内都会被分割成多个时间片，对每个时间片内的特征我们同时采用最大池化和求和池化方法获取该时间片内最具代表性的特征，并将这两种池化结果串联起来表示在该时间片内的运动。然后对整个时间滤波器池化后得到的视频特征进行PCA降维。

优选的，步骤(2)中，选取空间流网络和时间流网络的最后一层卷积层输出的多通道卷积图来进行时空金字塔池化的操作，具体是对卷积图采用4层时空金字塔结构(1×1×1,2×2×2,3×3×3,4×4×4)，其中第一层(1×1×1)对应的是整个时间和空间范围内的特征图，而第4层(4×4×4)对应的是最大尺度下的局部时空特征块。因此通过时空金字塔结构得到特征图位于不同时空尺度下的局部块。对每个局部时空块采用最大池化方法，计算时空块中的最大值作为该局部块的特征表示。由于每个通道上的特征图提取了不同的图像/视频信息，故将所有通道上的特征图中同一时空位置的局部块的特征串联起来，形成该局部时空块的多通道特征描述子。最后将视频内所有时空块特征级联起来，形成视频的特征表示。然后对整个时空金字塔池化后得到的视频特征进行PCA降维。

优选的，步骤(3)中，将视频的深度特征通过时间滤波器池化和时空金字塔池化后的两种特征串联起来，得到视频最终的特征表示。采用支持向量机SVM对特征进行分类，得到该视频的动作类别标签。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提出了一种新的描述子特征来充分获取不同尺度下的运动信息和局部信息，提升了识别效果。

2、本发明对不同通道下的卷积图的相同区域做池化连接，可以得到该区域的不同方面的信息，比如边缘或者纹理。

附图说明

图1为本发明的总体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

附图给出了本发明的操作过程，如图所示，一种基于混合池化策略的深度卷积特征的动作识别方法，包括以下步骤：

(2)对空间流网络模型和时间流网络模型得到的最后一层卷积层输出的深度卷积图采用时间滤波器池化方法得到对应的特征表示，采用不同长度间隔的时间序列，以获取视频的全局和局部运动，并采用主成分分析方法对特征进行降维；

(3)对空间流网络模型和时间流网络模型得到的最后一层卷积层输出的深度卷积图采用时空金字塔池化方法得到对应的特征表示，采用4层的时空金字塔结构来获取深度特征图中的局部信息，并对于目标和几何变形具有鲁棒性；同样的也采用主成分分析进行特征降维；

(4)对步骤(2)和(3)提取的描述子特征级联起来，形成该视频最终的向量表示；采用支持向量机(SVM)进行特征分类，最终输出分类结果，预测视频的动作类别标签，并在UCF50人体行为数据集上实现了90.8％的准确率。

进一步地，步骤(1)中的具体过程如下：空间流和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个深度卷积图，形成更具抽象的图像特征。

步骤(2)中的具体过程如下：选取空间流网络和时间流网络的最后一层卷积层输出的卷积图来进行时间滤波器池化的操作，对特征图采用4种不同时间间隔的滤波器(1,4,8,16)来分析深度特征在时间域的运动，其中时间间隔1对应的是整个视频范围内的时间运动也即全局运动，而时间间隔16对应的是最大尺度下的局部时间运动。对于每个不同的时间间隔，深度特征在整个视频时间范围内都会被分割成多个时间片，对每个时间片内的特征我们同时采用最大池化和求和池化方法获取该时间片内最具代表性的特征，并将这两种池化结果串联起来表示在该时间片内的运动。然后对整个时间滤波器池化后得到的视频特征进行PCA降维。

步骤(3)中的具体过程如下：选取空间流网络和时间流网络的最后一层卷积层输出的多通道卷积图来进行时空金字塔池化的操作，对卷积图采用4层时空金字塔结构(1×1×1,2×2×2,3×3×3,4×4×4)，其中第一层(1×1×1)对应的是整个时间和空间范围内的特征图，而第4层(4×4×4)对应的是最大尺度下的局部时空特征块。因此通过时空金字塔结构得到特征图位于不同时空尺度下的局部块。对每个局部时空块采用最大池化方法，计算时空块中的最大值作为该局部块的特征表示。由于每个通道上的特征图提取了不同的图像/视频信息，故将所有通道上的特征图中同一时空位置的局部块的特征串联起来，形成该局部时空块的多通道特征描述子。最后将视频内所有时空块特征级联起来，形成视频的特征表示。然后对整个时空金字塔池化后得到的视频特征进行PCA降维。

步骤(4)中的具体过程如下：将视频的深度特征通过时间滤波器池化和时空金字塔池化后的两种特征串联起来，得到视频最终的特征表示。采用支持向量机SVM对特征进行分类，得到该视频的动作类别标签。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于混合池化策略的深度卷积特征的动作识别方法，其特征在于，包括以下步骤：

(1)输入待识别的视频，对输入视频的每一帧，利用空间流深度网络模型得到每帧的表观特征；同时对输入视频的每连续M帧，利用时间流深度网络模型得到运动特征；其中空间流深度网络模型和时间流深度网络模型均包括5个卷积层，3个池化层，以及3个全连接层；

(4)对步骤(2)提取的第一、二描述子特征级联起来，形成该视频最终的向量表示；采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果。

2.根据权利要求1所述的基于混合池化策略的深度卷积特征的动作识别方法，其特征在于，所述步骤(1)中，空间流和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个深度卷积图，形成更具抽象的图像特征。

3.根据权利要求1所述的基于混合池化策略的深度卷积特征的动作识别方法，其特征在于，所述步骤(2)中，选取空间流深度网络和时间流深度网络的最后一层卷积层输出的卷积图来进行时间滤波器池化的操作，具体是对特征图采用4种不同时间间隔的滤波器(1,4,8,16)来分析深度特征在时间域的运动，其中时间间隔1对应的是整个视频范围内的时间运动也即全局运动，而时间间隔16对应的是最大尺度下的局部时间运动；对于每个不同的时间间隔，深度特征在整个视频时间范围内都会被分割成多个时间片，对每个时间片内的特征我们同时采用最大池化和求和池化方法获取该时间片内最具代表性的特征，并将这两种池化结果串联起来表示在该时间片内的运动；然后对整个时间滤波器池化后得到的视频特征进行PCA降维。

4.根据权利要求1所述的基于混合池化策略的深度卷积特征的动作识别方法，其特征在于，所述步骤(2)中，选取空间流深度网络和时间流深度网络的最后一层卷积层输出的多通道卷积图来进行时空金字塔池化的操作，具体是对卷积图采用4层时空金字塔结构(1×1×1,2×2×2,3×3×3,4×4×4)，其中第一层(1×1×1)对应的是整个时间和空间范围内的特征图，而第4层(4×4×4)对应的是最大尺度下的局部时空特征块；因此通过时空金字塔结构得到特征图位于不同时空尺度下的局部块；对每个局部时空块采用最大池化方法，计算时空块中的最大值作为该局部块的特征表示；由于每个通道上的特征图提取了不同的图像/视频信息，故将所有通道上的特征图中同一时空位置的局部块的特征串联起来，形成该局部时空块的多通道特征描述子；最后将视频内所有时空块特征级联起来，形成视频的特征表示；然后对整个时空金字塔池化后得到的视频特征进行PCA降维。

5.根据权利要求1所述的基于混合池化策略的深度卷积特征的动作识别方法，其特征在于，所述步骤(3)中，将视频的深度特征通过时间滤波器池化和时空金字塔池化后的两种特征串联起来，得到视频最终的特征表示，采用支持向量机SVM对特征进行分类，得到该视频的动作类别标签。