CN104036287B

CN104036287B - 一种基于人类运动显著轨迹的视频分类方法

Info

Publication number: CN104036287B
Application number: CN201410208197.8A
Authority: CN
Inventors: 王瀚漓; 易云
Original assignee: Tongji University
Current assignee: Deep Blue Technology Shanghai Co Ltd
Priority date: 2014-05-16
Filing date: 2014-05-16
Publication date: 2017-05-24
Anticipated expiration: 2034-05-16
Also published as: CN104036287A

Abstract

本发明涉及一种基于人类运动显著轨迹的视频分类方法，包括以下步骤：将视频集M划分成训练集M_t和测试集M_v，使用SIFT和稠密光流技术在多尺度空间上跟踪每一个视频中人类运动信息，获得每一个视频的运动显著轨迹；分别提取每个轨迹的特征描述向量；使用PCA方法消除特征描述向量中的冗余信息，对每一类特征描述向量进行降维；利用高斯混合模型对训练集M_t中的特征描述向量进行聚类，再使用Fisher Vector方法生成视频集M中每一个视频的Fisher向量；在训练集M_t上，构建线性SVM分类模型；在测试集M_v上，使用该线性SVM分类模型对测试集中的视频进行分类。与现有技术相比，本发明具有鲁棒性好、计算效率高等优点。

Description

一种基于人类运动显著轨迹的视频分类方法

技术领域

本发明涉及一种视频识别方法，尤其是涉及一种基于人类运动显著轨迹的视频分类方法。

背景技术

随着多媒体技术与计算机网络的广泛应用，使得网络上出现大量视频数据。为了能够有效的管理这些视频文件，为用户提供更好的体验服务，自动识别视频中的人类行为变的越来越重要。

基于轨迹的技术能够有效地捕获视频中的运动信息，并且具有非常高的视频特征表示能力，所以该技术在一些视频数据集上取得了比较好的实验结果。目前，该技术还存在以下问题：

第一，视频中人类的行为可能会被背景运动或者摄像机运动混淆。尤其是摄像机的运动将干扰实际的人类运动信息。

第二，为了获得更高的识别准确率，某些研究人员采用提高轨迹采样密度的方法。但是，在跟踪运动轨迹时，高采样密度将消耗更多的CPU资源、提高算法的计算复杂度。

第三，在现实生活中，由于人类行为类别内部存在很大的差异，对视频进行人类行为识别的准确率不高。

SIFT(Scale Invariant Feature Transform，尺度不变特征转换)技术是用于图像处理领域的一种描述子，在尺度空间寻找极值点，提取位置、尺度、旋转不变量，可在图像中检测出关键点。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鲁棒性好、计算效率高的基于人类运动显著轨迹的视频分类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于人类运动显著轨迹的视频分类方法，包括以下步骤：

步骤1：将视频集M划分成训练集M_t和测试集M_v，使用SIFT和稠密光流技术在多尺度空间上跟踪每一个视频中人类运动信息，获得每一个视频的运动显著轨迹；

步骤2：分别提取每个轨迹的特征描述向量，所述的特征描述向量包括梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量；

步骤3：使用PCA方法消除特征描述向量中的冗余信息，对每一类特征描述向量进行降维；

步骤4：利用高斯混合模型对训练集M_t中的特征描述向量进行聚类，再使用FisherVector生成视频集M中每一个视频的Fisher向量；

步骤5：在训练集M_t上，使用其中所有视频的Fisher向量做为线性SVM的输入，构建线性SVM分类模型，输出训练好的线性SVM分类模型；

步骤6：在测试集M_v上，使用步骤5获得的线性SVM分类模型对测试集中的视频进行分类。

步骤1中，所述的使用SIFT和稠密光流技术在多尺度空间上跟踪每一个视频中人类运动信息，获得每一个视频的运动显著轨迹具体为：

1a)循环提取视频中的每一帧图像，以为缩放因子构建尺度空间，设某一尺度空间上当前帧图像为I_k，前一帧图像为I_k-1；

1b)使用SIFT技术检测每一帧图像的显著点P＝{P_i,i＝1,···,m}，m为显著点总数；

1c)使用随机抽样一致算法估计摄像机的运动变化矩阵H，设某点的原始坐标为R＝(x,y,1)^T，则消除摄像机运动后的坐标为Q＝H·R，通过该方法，重新计算当前视频帧I'_k，消除摄像机的运动信息，x、y分别为点R的横坐标和纵坐标；

1d)使用Gunnar Farneback的稠密光流算法，在某一尺度空间上，根据I_k-1与I'_k计算稠密光流矩阵，该计算过程通过OPENCV中的calcOpticalFlowFarneback函数实现；

1e)在某一尺度空间上，计算前一帧I_k-1中点P_k-1在当前帧I_k中的位置其中W为稠密光流矩阵；

1f)在多尺度空间上，通过稠密光流跟踪每一个显著点，形成运动显著轨迹。

所述的步骤2具体为：

2a)以每一个显著点P为中心，默认在灰度图像矩阵的32×32像素区域内，计算该区域的梯度直方图向量，其维度为32；

2b)以每一个显著点P为中心，默认在稠密光流矩阵的32×32像素区域内，计算该区域的光流直方图向量，其维度为36；

2c)计算当前帧稠密光流矩阵x分量的梯度M_x和y分量的梯度M_y，以每一个显著点P为中心，默认在矩阵M_x和M_y的32×32像素区域内，分别计算上述区域的x分量运动边界直方图和y分量运动边界直方图向量，其维度均为32；

2d)以a帧为轨迹长度，每b帧求均值后，其中，a＝3b，分别将上述向量对应连接起来，得到轨迹的特征描述向量；

2e)用有符号平方根L1归一化方法对上述特征向量进行归一化操作。

所述的步骤4具体为：

4a)设X＝{x_t,t＝1...T}是某一个视频的上述某一类维数为D的特征描述向量集合，设u_λ是一个高斯混合模型：设λ＝(w_i,μ_i,Σ_i,i＝1...K)为该高斯混合模型的参数，其中，K表示高斯分量的数目，w_i表示第i个高斯分量u_i的权重，μ_i表示u_i的均值，∑_i表示u_i的协方差矩阵，则x_t属于某一聚类i的概率：

4b)对于每一个高斯分量，计算其均值μ_i和标准差σ_i的梯度向量：

其中，T表示特征向量数；

4c)向量和向量在每一个高斯分量上进行串联，得到视频的Fisher向量该向量的维度是2×D×K。

与现有技术相比，本发明具有以下优点：

第一，本发明首次提出在多尺度空间上使用Scale Invariant FeatureTransform(SIFT)特征点和稠密光流形成显著轨迹，该方法能够有效的跟踪人类运动信息，鲁棒性好；

第二，本发明使用摄像机运动估计技术消除由于摄像机运动导致的干扰因素，实现提取鲁棒的轨迹运动信息，该方法能够消除摄像机运动对人类行为识别产生的干扰；

第三，本发明的识别准确率优于在Hollywood2、YouTube、Olympic Sports、UCF50、HMDB51视频数据集上的主流算法，并且具有较高的计算效率。

附图说明

图1为本发明的原理框架示意图；

图2为本发明训练线性SVM模型流程图；

图3为本发明在测试集视频中人类行为识别流程图；

图4为某视频的鲁棒轨迹示意图，其中，(4a)是HMDB51数据集中某视频在某一时刻前后2帧重叠示意图，(4b)是该时刻消除摄像机运动前的光流示意图，(4c)是该时刻消除摄像机运动后的光流示意图，(4d)是该时刻的运动轨迹示意图；

图5为计算复杂度比较示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1-图3所示，一种基于人类运动显著轨迹的视频分类方法，包括以下步骤：

步骤1：将视频集M划分成训练集M_t和测试集M_v，使用鲁棒的SIFT和稠密光流技术在多尺度空间上跟踪每一个视频中人类运动信息，获得每一个视频的运动显著轨迹，具体为：

1c)使用随机抽样一致算法(Random Sample Consensus，RANSAC)估计摄像机的运动变化矩阵H，设某点的原始坐标为R＝(x,y,1)^T，则消除摄像机运动后的坐标为Q＝H·R，通过该方法，重新计算当前视频帧I'_k，消除摄像机的运动信息，x、y分别为点R的横坐标和纵坐标；

1f)在多尺度空间上，通过稠密光流跟踪每一个显著点，形成鲁棒的运动显著轨迹。图4中的(4a)-(4d)是对鲁棒轨迹的形象展示。

步骤2：分别提取每个轨迹的特征描述向量，所述的特征描述向量包括梯度直方图(Histogram of Gradient，HOG)向量、光流直方图(Histogram of Optical Flow，HOF)向量、x分量运动边界直方图(Motion Boundary Histogram，MBH_x)向量和y分量运动边界直方图(MBH_y)向量。

2a)以每一个显著点P为中心，默认在灰度图像矩阵的32×32像素区域内，计算该区域的梯度直方图向量，其维度为32(即：2×2×8)；

2b)以每一个显著点P为中心，默认在稠密光流矩阵的32×32像素区域内，计算该区域的光流直方图向量，其维度为36(即：2×2×9)；

将32×32像素区域划分成2×2的子区域，每个子区域中的点按方向进行投票。对于每个子区域，将360°划分为8个箱子(即：每个箱子占45°)，并增加一个额外的0方向箱子，则每个区域有9个箱子。所以光流直方图向量的维度为36(即：2×2×9)；

2c)计算当前帧稠密光流矩阵x分量的梯度M_x和y分量的梯度M_y，以每一个显著点P为中心，默认在矩阵M_x和M_y的32×32像素区域内，分别计算上述区域的x分量运动边界直方图和y分量运动边界直方图向量，其维度均为32(即：2×2×8)；

2d)以a帧为轨迹长度，每b帧求均值，其中，a＝3b，默认a＝15，b＝5，然后分别将上述向量对应连接起来，得到轨迹的特征描述向量，则轨迹的HOG、HOF、MBH_x和MBH_y的维度分别为96、108、96、96；

2e)用有符号平方根L1归一化(signed square root and L1normalization)方法对上述特征向量进行归一化操作。

步骤3：使用PCA(Principal Component Analysis)方法消除特征描述向量中的冗余信息，对每一类特征描述向量V进行降维，得到64维特征向量V₆₄。

步骤4：利用高斯混合模型对训练集M_t中的特征描述向量进行聚类，再使用FisherVector生成视频集M中每一个视频的Fisher向量。

分别对轨迹的HOG、HOF、MBH_x、MBH_y特征向量进行聚类，再用每类特征(即：HOG、HOF、MBH_x、MBH_y)的一个Fisher向量表示某一个视频。对于不同类别的特征向量，该表示过程相同。具体表示过程如下：

其中，T表示特征向量数；

步骤5：在训练集M_t上，使用其中所有视频的Fisher向量做为线性SVM的输入，构建线性SVM分类模型,输出训练好的线性SVM分类模型。

步骤6：在测试集M_v上，使用步骤5获得的线性SVM训练分类模型对测试集中的视频进行分类，识别每个视频中的人类行为。

为了验证本发明的性能，设计了以下两组实验。

实验一：显著轨迹与Dense轨迹的计算复杂度比较。

实验选取Hollywood2数据集中的700个视频做为实验数据，在一台I3 3.4GHZ CPU和8G内存的PC上进行本实验。在该实验中，设置显著轨迹和Dense轨迹的轨迹参数相同，并且都为单线程应用程序。实验分别统计显著轨迹与Dense轨迹提取上述700个视频的时间。通过公式(1)计算显著轨迹相对Dense轨迹的计算速度提升比例。

其中，N是视频数，表示Dense轨迹方法处理N个视频花费的时间，表示显著轨迹方法处理N个视频花费的时间。

上述两个方法的时间比较如图5所示。从结果中可知，在上述条件下，本发明的计算复杂度低于Dense轨迹方法。

实验二：识别准确率比较。

在五个公开视频数据集(即：Hollywood2、YouTube、Olympic Sports、UCF50、HMDB51)上，按照相应数据集的实验规定进行训练和测试。在Hollywood2和Olympic Sports数据集上，实验输出测试集的mean average precision(mAP)值，在其他三个数据集上，实验输出测试集的average accuracy值。在上述五个数据集上，本发明的实验结果分别是：67.5％、90.2％、91.8％、92.1％和58.3％。实验结果证明本发明优于目前公布的主流算法，具有较高的识别率。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于人类运动显著轨迹的视频分类方法，其特征在于，包括以下步骤：

步骤6：在测试集M_v上，使用步骤5获得的线性SVM分类模型对测试集中的视频进行分类；

2.根据权利要求1所述的一种基于人类运动显著轨迹的视频分类方法，其特征在于，所述的步骤2具体为：

3.根据权利要求2所述的一种基于人类运动显著轨迹的视频分类方法，其特征在于，所述的步骤4具体为：

γ_{t} (i) = \frac{w_{i} u_{i} (x_{t})}{Σ_{j = 1}^{K} w_{j} u_{j} (x_{t})}

G_{μ, i}^{X} = \frac{1}{T \sqrt{w_{i}}} Σ_{t = 1}^{T} γ_{t} (i) (\frac{x_{t} - μ_{i}}{σ_{i}})

G_{σ, i}^{X} = \frac{1}{T \sqrt{2 w_{i}}} Σ_{t = 1}^{T} γ_{t} (i) [\frac{{(x_{t} - μ_{i})}^{2}}{σ_{i}^{2}} - 1]

其中，T表示特征向量数；