CN108416795B

CN108416795B - 基于排序池化融合空间特征的视频动作识别方法

Info

Publication number: CN108416795B
Application number: CN201810177015.3A
Authority: CN
Inventors: 项欣光; 赵恒颖
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-03-04
Filing date: 2018-03-04
Publication date: 2022-03-18
Anticipated expiration: 2038-03-04
Also published as: CN108416795A

Abstract

本发明提供了一种基于排序池化融合空间特征的视频动作识别方法，包括：采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集；对每个视频每帧图像的二维空间进行多尺度分割，构建二维空间金字塔模型；对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列；对每个子空间内的有序基本特征向量序列单独进行smooth操作；对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法，学习得到属于该子空间的模型参数；将金字塔模型中所有子空间得到的模型参数进行串联，得到的特征向量作为视频最终特征向量；通过使用分类器对该视频特征向量进行分类，识别出该视频的动作类别。

Description

基于排序池化融合空间特征的视频动作识别方法

技术领域

本发明涉及一种视频识别技术，特别是一种基于排序池化融合空间特征的视频动作识别方法。

背景技术

当今视频动作识别技术已经广泛应用于多媒体内容分析、人机交互、智能实时监控等领域中，该技术可以通过对视频进行特征提取生成特征向量，用分类器对特征向量进行分类的方法来实现。传统的视频动作识别方法中通常将视频三维时空域作为一个整体来捕捉视频动态变化特征，这种做法存在片面性，会导致丢失大量属于二维图像空间域或一维时序域特有的变化特性，因此，视频动作识别技术需要对视频时间、空间结构分开处理以便更加全面地捕捉视频动态变化中的时空特征信息，本文提出了一种基于排序池化融合空间特征的视频动作识别方法。

发明内容

本发明提供一种基于排序池化融合空间特征的视频动作识别方法，该方法通过使用分类器对时空特征提取方法所得到的视频特征向量进行分类的视频动作识别。

实现本发明目的的技术方案为：一种基于排序池化融合空间特征的视频动作识别方法，其特征在于，包括以下步骤：

步骤1，采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集；

步骤2，对每个视频每帧图像的二维空间进行多尺度分割，构建二维空间金字塔模型；

步骤3，对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列；

步骤4，对每个子空间内的有序基本特征向量序列单独进行smooth操作；

步骤5，对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法，学习得到属于该子空间的模型参数；

步骤6，将金字塔模型中所有子空间得到的模型参数进行串联，得到的特征向量作为视频最终特征向量；

步骤7，通过使用分类器对该视频特征向量进行分类，识别出该视频的动作类别。

本发明将二维图像空间特征融入排序池化算法中，既继承了排序池化算法可以捕捉丰富的视频时序变化特征的优点，又弥补了其缺乏二维图像空间结构特征的缺点，不仅能够捕捉视频整体运动信息，还能更详细地捕捉到视频一维时序域、二维图像空间域的各自维度特有特征信息，补充视频特征描述子更丰富的动作动态变化信息，使得视频最终的特征向量包含更多属于该视频自身的动态变化特征，拥有更高的描述性能，进而提高视频动作的识别精确度。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1是视频帧序列每帧图像二维空间多尺度分割示意图。

图2是本发明基于排序池化融合空间特征的视频动作识别方法流程图。

具体实施方式

结合图2，一种基于排序池化融合空间特征的视频动作识别方法，包括以下步骤：

步骤1中的视频局部特征描述子算法可以使用方向梯度直方图或光流直方图算法。

步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型，对图像的二维空间结构进行多尺度分割，金字塔的第一层是对每帧图像不作任何分割，即每帧图像的第一层尺度是一个完整的图像，金字塔的第二层是对每帧图像分别对横轴和纵轴做二等分，即把每帧图像的二维空间分成四等分，分割示意图如图1所示。

步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照每个基本特征向量所属的帧图像的时间顺序排列，获得有序的基本特征向量序列，用

表示，其中s表示金字塔的层号，n表示每层中子空间的序号，

表示第t帧图像的第s层第n个子空间中的基本特征向量，X_(s,n)表示该视频所有帧在第s层第n个子空间中的有序特征向量序列。

步骤4单独地对步骤三所得到的每个子空间的有序基本特征向量序列

进行smooth操作，该smooth操作采用的是时变均值向量法对每个子空间的基本特征序列X_(s,n)进行预处理，令V_(s,n)表示预处理过后金字塔第s层中第n个子空间内的新特征向量序列，令

表示该子空间内新特征向量序列中的第t帧新特征向量，则

其中第t帧新特征向量

的计算方式如公式：

其中

是表示金子塔第s层第n个子空间内的从第一帧到第t帧图像的所有基本视觉特征向量序列的平均值，计算方式见公式：

步骤5以子空间为单位，单独对每个子空间的经smooth操作后有序的特征向量序列

运用排序池化算法，学习得到属于该子空间的模型参数w_(s,n)，我们用每帧的新特征向量序列的偏序关系

来表示每帧的新特征向量随着时序变化的内在联系，通过学习排序范式来对顺序约束条件

建立数学模型，因为特征序列的顺序是已知的，即

表示第t帧的特征向量在第t+1帧特征向量之前，所以所构建的数学模型的学习过程是有监督的，对于输入样本我们将特征序列中所有的特征向量两两组合

其中表示时间的帧序号t_i在t_j之前，定义正例样本为

样本标签设为1，则反例样本为

样本标签设为-1。然后，我们就可以通过SVM的学习算法学习凸优化问题：

ξ_ij≥0

当目标函数达到最优时，学习到的函数参数w_(s,n)可以作为该子空间内的视频序列新的特征描述符。

步骤6中将步骤五所得到的该视频金字塔模型中所有子空间的模型参数w_(s,n)串联，得到的特征向量W作为该视频最终特征向量。

步骤7中使用的分类器是支持向量机，支持向量机本身是一个二分类分类器，本发明中通过使用one-against-rest方法实现了多分类的功能，获得每个视频的动作类别。