CN106845329A

CN106845329A - 一种基于深度卷积特征多通道金字塔池化的动作识别方法

Info

Publication number: CN106845329A
Application number: CN201610997834.3A
Authority: CN
Inventors: 胡海峰; 肖翔; 李昊曦
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2017-06-13

Abstract

本发明公开一种基于深度卷积特征多通道金字塔池化的动作识别方法，包括：1)对输入视频每一帧采用空间流深度网络模型，得到每帧的表观特征；对视频中每连续M帧采用时间流深度网络模型，提取视频的运动特征；2）对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构，得到的每个局部块用最大池化方法计算该块的最大值表达，获取特征图在不同尺度下的局部信息；3）将深度特征图中在相同时空位置的多通道局部块的表达连接起来，形成视频的特征描述子；4）采用增强型局部级联描述子向量方法进行特征表示，得到视频的中层表示；4）采用线性支持向量机进行特征分类，得到识别准确率。

Description

一种基于深度卷积特征多通道金字塔池化的动作识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于深度卷积特征多通道金字塔池化的动作识别方法。

背景技术

科技的发展使得摄像设备得到了普及，数量巨大的视频数据也随之产生。同时，针对视频的应用也应运而生：智能视频监控、视频数据分类、高级人机交互等。在这些应用中，针对人的动作进行理解是最核心的关注点，也是人们研究的核心内容。

由于人体动作识别有很大的潜在价值，所以此课题作为一个研究热点已经持续了至少十年时间，很多种方法都被提出，例如：基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中，基于CNN的方法研究的人数最多，这种方法能够取得目前最好的结果。然而，大多数深层CNN网络都将单张卷积图看成一个整体来用，而卷积图中的局部信息往往被忽略，所以，我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。

基于卷积神经网络的方法的主要思想是：首先，对视频采用多层的卷积层、池化层和全连接层，提取视频的描述子特征；接下来将这些特征放入分类器中进行分类，以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别，包括空间流和时间流网络，空间流用于提取视频帧的表观特征，时间流用于提取视频连续帧的运动特征，将二者进行融合，以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合，学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果，但是现存的基于深度网络的研究通常将单张深度特征图作为一个整体来使用而忽略了深度特征中的局部信息，而这种线索对于提高基于深度网络的识别准确率是有帮助的。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于深度卷积特征多通道金字塔池化的动作识别方法。该方法将视频数据集的视频作为输入，进行视频特征提取和识别，最后输出视频的分类结果，该方法具有简单易实现，识别效果好的特点。

为了达到上述目的，本发明采用的技术方案是：

一种基于深度卷积特征多通道金字塔池化的动作识别方法，包括以下步骤：

(1)输入待识别的视频，采用two-stream深度网络模型得到多通道深度卷积图；其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。

具体是：对输入视频的每一帧采用空间流网络，得到帧的表观特征；对输入视频的每连续M帧，利用时间流网络模型得到运动特征；其中空间流网络和时间流网络模型均包含5个卷积层，3个池化层，以及3个全连接层；

(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构，得到的每个局部块用最大池化方法计算该块的最大值表达，获取特征图在不同尺度下的局部信息；

(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来，形成视频的特征描述子；

(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模，形成该视频最终的向量表示；

(5)采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果，该方法在YouTube人体行为数据集上实现了93.1％的准确率。

本发明基于深度卷积神经网络方法，并且通过探索深度特征图中的局部信息，提出了一种新的深度特征多通道金字塔池化描述子，它能够有效地获取特征图在不同尺度下的局部信息，并且结合了局部级联描述子向量，显著提高了动作识别的准确率。

优选的，步骤(1)中，空间流和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个通道的深度特征图，获取更具抽象的图像特征表达。

优选的，步骤(2)中，选取空间流深度网络模型的第5层卷积层的输出特征图以及时间流深度网络模型的第4层卷积层的输出特征图来进行空间金字塔的操作，对多通道深度特征图采用4层金字塔结构，其中4层金字塔结构为(1×1,2×2,3×3,4×4)，其中第一层(1×1)对应的是整个多通道深度特征图，第4层(4×4)对应的是多通道深度特征图最大尺度下的局部块，因此通过金字塔结构得到多通道深度特征图位于不同尺度下的局部块，对每个局部块采用最大池化方法，计算块中最大值作为该局部块的特征表示。

优选的，步骤(3)中，由于每个通道上的特征图包含的是不同图像信息，故将所有通道上的特征图中同一空间位置的块的特征串联起来，形成该块的多通道特征描述子。

优选的，步骤(4)中，描述子特征表示为{x₁,...x_i,...x_d}，d表示局部块的描述子特征的维数，对描述子特征{x₁,...x_i,...x_d}，假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c₁,...c_j,...c_k)，采用局部级联描述子向量方法(VLAD)对特征进行特征建模，具体过程如下：

(5-1)描述子特征的每一维x_i赋给码本(codebook)中离该描述子特征最近的聚类中心c_j，然后得到量化后的索引：NN(x_i)＝argmin_j||x_i-c_j||

(5-2)将所有离聚类中心c_j最近的描述子特征，计算这些描述子特征和中心c_j的差的累积和，获得子向量：

(5-3)将各子向量u^j连接起来，得到k×d维的向量表示u＝[u¹...u^k]；

(5-4)对向量u先采用“power-law”归一化处理，即：

v_j＝|v_j|^α×sign(v_j),j＝1...k×d,α＝0.2

随后用2范数归一化(L2-normalized)，最终得到该描述子特征的VLAD表示。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提出了一种新的描述子特征来充分获取不同尺度下的深度信息。

2、本发明对不同通道下的卷积图的相同区域做池化连接，可以得到该区域的不同方面的信息，比如边缘或者纹理。

3、本发明将局部级联描述子结合深度特征进行识别，提升了识别效果。

附图说明

图1为本发明的总体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

附图给出了本发明的操作过程，如1图所示，一种基于深度卷积特征多通道金字塔池化的动作识别方法，包括以下步骤：

具体是：对输入视频的每一帧采用空间流网络，得到帧的表观特征；对输入视频的每连续M帧，利用时间流网络模型得到运动特征。其中空间流网络和时间流网络模型均包含5个卷积层，3个池化层，以及3个全连接层；

(5)采用支持向量机(SVM)进行特征分类，最终输出动作视频的识别准确率。

步骤(1)中的具体过程如下：空间流和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个通道的深度特征图，获取更具抽象的图像特征表达。

步骤(2)中的具体过程如下：选取空间流网络第5层卷积层的输出特征图以及时间流网络第4层卷积层的输出特征图来进行空间金字塔的操作，对特征图采用4层金字塔结构(1×1,2×2,3×3,4×4)，其中第一层(1×1)对应的是整个特征图，而第4层(4×4)对应的是最大尺度下的局部块。因此通过金字塔结构得到特征图位于不同尺度下的局部块。对每个局部块采用最大池化方法，计算块中最大值作为该局部块的特征表示。

步骤(3)中的具体过程如下：由于每个通道上的特征图包含的是不同图像信息，故将所有通道上的特征图中同一空间位置的块的特征串联起来，形成该块的多通道特征描述子。

步骤(4)中的具体过程如下：描述子特征表示为{x₁,...x_i,...x_d}，d表示局部块的描述子特征的维数，对描述子特征{x₁,...x_i,...x_d}，假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c₁,...c_j,...c_k)，采用局部级联描述子向量方法(VLAD)对特征进行特征建模，具体过程如下：

(5-4)对向量u先采用“power-law”归一化处理，即：

v_j＝|v_j|^α×sign(v_j),j＝1...k×d,α＝0.2

Claims

1.一种基于深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，包括以下步骤：

(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构，得到的每个局部块用最大池化方法计算该局部块的最大值表达，获取特征图在不同尺度下的局部信息；

(5)采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果。

2.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，所述步骤(1)中，空间流网络模型和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个通道的深度特征图，获取更具抽象的图像特征表达。

3.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，所述步骤(2)中，选取空间流网络模型的第5层卷积层的输出特征图以及时间流网络模型的第4层卷积层的输出卷积图来进行空间金字塔的操作，对多通道卷积图采用4层金字塔结构，其中4层金字塔结构为(1×1,2×2,3×3,4×4)，其中第一层(1×1)对应的是整个多通道特征图，第4层(4×4)对应的是多通道特征图最大尺度下的局部块，因此通过金字塔结构得到多通道特征图位于不同尺度下的局部块，对每个局部块采用最大池化方法，计算块中最大值作为该局部块的特征表示。

4.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，所述步骤(3)中，由于每个通道上的特征图包含的是不同图像信息，故将所有通道上的特征图中同一空间位置的局部块的特征串联起来，形成该块的多通道特征描述子。

5.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法，其特征在于，所述步骤(4)中，描述子特征表示为{x₁,...x_i,...x_d}，d表示局部块的描述子特征的维数，对描述子特征{x₁,...x_i,...x_d}，假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c₁,...c_j,...c_k)，采用局部级联描述子向量方法(VLAD)对特征进行特征建模，具体过程如下：

(5-1)描述子特征的每一维x_i赋给码本(codebook)中离该描述子特征最近的聚类中心c_j，然后得到量化后的索引：NN(x_i)＝arg min_j||x_i-c_j||，

(5-2)确定所有离聚类中心c_j最近的描述子特征，计算这些描述子特征和中心c_j的差的累积和，获得子向量：

u^{j} = \underset{i : N N (x_{i}) = j}{Σ} x_{i} - c_{j}

(5-4)对向量u先采用“power-law”归一化处理，即：

v_j＝|v_j|^α×sign(v_j),j＝1...k×d,α＝0.2