CN105488519A

CN105488519A - 一种基于视频尺度信息的视频分类方法

Info

Publication number: CN105488519A
Application number: CN201510780201.2A
Authority: CN
Inventors: 王瀚漓; 张博文
Original assignee: Tongji University
Current assignee: Deep Blue Technology Shanghai Co Ltd
Priority date: 2015-11-13
Filing date: 2015-11-13
Publication date: 2016-04-13
Anticipated expiration: 2035-11-13
Also published as: CN105488519B

Abstract

本发明涉及一种基于视频尺度信息的视频分类方法，包括步骤：1)将视频数据集划分为训练数据和测试数据，提取每个视频的特征点以及特征点的轨迹，并得到视频的空间尺度以及时间尺度；2)使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量；3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半；4)生成视频数据集中每一个视频的费舍尔向量；5)训练得到线性支持向量机分类模型；6)使用线性支持向量机分类模型对测试数据中的视频进行分类。与现有技术相比，本发明具有鲁棒性好，准确度更高等优点。

Description

一种基于视频尺度信息的视频分类方法

技术领域

本发明涉及视频处理领域，尤其是涉及一种基于视频尺度信息的视频分类方法。

背景技术

随着科技的发展，越来越多的带有摄像功能的电子设备进入大众的家庭中，人们常常使用手机或者数码摄像机将身边有趣的人或事及时记录下来，上传到在网络中的视频分享网站或者直接发送给亲朋好友互相分享。视频分享网站每天都有数以万计的视频上传，因此自动化的管理就显得较为重要，其中基于视频特征向量的特征编码算法是其中较为重要的技术。

基于视频特征向量的特征编码算法将特征向量与聚类中心的信息量如权重、均值、方差等，有效地编码进视频描述向量中，从而在主流的人体动作检测数据集中表现出了不错的结果。目前，该技术还存在以下问题：

第一，只考虑了与特征向量与聚类中心的关系，而没有考虑特征向量在视频中所处的位置信息以及尺度信息。

第二，虽然现有算法识别率较高，但是由于缺少位置信息及尺度信息，未能在有限的维度中发挥系统的识别能力。

基于尺度信息的特征编码算法是将空间尺度信息和时间尺度信息编码进高斯混合模型中，从而得到具有尺度信息的费舍尔向量。这种算法能够更好的在有限维度中提升系统的识别准确率。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种新的，鲁棒性好，准确度更高的基于视频尺度信息的视频分类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于视频尺度信息的特征编码方法，包括步骤：

1)将视频数据集划分为训练数据和测试数据，提取每个视频的特征点以及特征点的轨迹，并得到视频的空间尺度以及时间尺度；

2)使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量；

3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半；

4)利用基于尺度空间的高斯混合模型对训练数据中的特征描述向量进行聚类，再生成视频数据集中每一个视频的费舍尔向量；

5)使用训练数据中得到的费舍尔向量，训练得到线性支持向量机分类模型；

6)使用线性支持向量机分类模型对测试数据中的视频进行分类。

所述步骤1)中特征点以及特征点的轨迹的提取过程具体包括步骤：

11)提取视频中的每一帧，以为缩放因子构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为I_current，前一帧I_current-1，其中，所述空间金字塔的层数即为尺度空间的个数；

12)提取出每一帧中的特征点；

13)对于任一尺度空间，计算光流矩阵；

14)在对应尺度空间上，计算从前一帧计算得到的特征点在当前帧中的位移之后的位置：

x_current(x,y)＝x_current-1(x,y)+W

其中：x_current(x,y)为特征点在当前帧中的位置，x_current-1(x,y)为特征点在前一帧中的位置，W为光流矩阵；

15)在对应尺度空间上，通过稠密光流在15帧的时间范围内追踪特征点的位置，以此形成运动轨迹，并将该尺度空间在空间金字塔中的层序定义空间尺度σ，特征点在15帧的时间范围内运动的轨迹长度定义为时间尺度τ。

所述步骤11)具体为：提取视频中的每一帧，以为缩放因子，将视频中每一帧的长宽按照的倍数的比例进行大小缩放，得到相同长宽比，但大小不同的一组图片，这组图片构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为I_current，前一帧I_current-1。

所述步骤2)具体包括步骤：

21)以每一个特征点为中心，在灰度图像矩阵的32×32×15像素区域内，计算该区域的梯度直方图向量，其维度为96维；

22)在稠密光流矩阵的32×32×15像素区域内，计算该区域的光流直方图向量，其维度为108维；

23)使用Sobel算子计算光流矩阵x分量的梯度M_x和y分量的梯度M_y，以每一个特征点为中心，在矩阵M_x和M_y的32×32×15像素区域内，分别计算上述区域的x分量运动边界直方图和y分量运动边界直方图向量，其维度分别为96维；

24)以每一个特征点为中心，在连续15帧的范围内，将这个特征点的x方向和y方向的位移连接起来，得到轨迹的特征描述向量，其维度为30维；

25)用有符号平方根L1归一化方法对上述特征描述向量进行归一化操作。

所述步骤4)具体包括步骤：

41)构建高斯混合模型：

其中：p(y_t,s_t)为高斯混合模型，π_i为第i个针对特征描述向量的高斯分量的权重，K为针对特征描述向量的高斯分量的数目，y_t为第t个特征点对应的特征描述向量，μ_i为的均值，Σ_i为的协方差矩阵，λ_ji为的高斯分量的第j个针对尺度信息的高斯分量的权重，s_t为第t个特征点对应的尺度信息，δ_ji为的均值，Z_ji为的协方差矩阵，N(·)为高斯密度函数；

42)对每一个高斯分量，计算其费舍尔向量值；

其中：FV₁,FV₂,FV₃,FV₄,FV₅,FV₆为费舍尔向量值，q_i(t)为基于特征描述向量和的后验概率，r_ji(t)为基于尺度信息和的后验概率，diag(·)为向量的对角阵表达式；

43)将向量FV₁,FV₂,FV₃,FV₄,FV₅,FV₆在每一个高斯分量上进行串联，得到该视频的费舍尔向量，该向量的维度是2D+1+J(2T+1))K，其中T为尺度信息的维度。

所述基于特征描述向量和的后验概率具体为：

所述基于尺度信息和的后验概率具体为：

。

与现有技术相比，本发明具有以下优点：

1)本方法通过修改高斯混合模型，使之能将尺度信息编码进高斯混合模型中，并通过计算费舍尔向量，将时空尺度信息编码进视频的描述向量中，与传统方法相比，此方法有更好的鲁棒性；

2)本发明的识别准确率优于在Hollywood2、HMDB51视频数据集上的主流算法，并且具有较高的计算效率。

附图说明

图1为本发明的主要步骤流程示意图；

图2为使用本方法进行训练以及测试的结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种基于视频尺度信息的视频分类方法，如图1所示，包括步骤：

1)将视频数据集划分为训练数据和测试数据，提取每个视频的特征点以及特征点的轨迹，并得到视频的空间尺度以及时间尺度，其中特征点以及特征点的轨迹的提取过程具体包括步骤：

11)提取视频中的每一帧，以为缩放因子构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为I_current，前一帧I_current-1，其中，空间金字塔的层数即为尺度空间的个数，具体为：提取视频中的每一帧，以为缩放因子，将视频中每一帧的长宽按照的倍数的比例进行大小缩放，得到相同长宽比，但大小不同的一组图片，这组图片构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为I_current，前一帧I_current-1；

12)提取出每一帧中的特征点；

13)对于任一尺度空间，计算光流矩阵；

x_current(x,y)＝x_current-1(x,y)+W

15)在对应尺度空间上，通过稠密光流在15帧的时间范围内追踪特征点的位置，以此形成运动轨迹，并将该尺度空间在空间金字塔中的层序定义空间尺度σ，特征点在15帧的时间范围内运动的轨迹长度定义为时间尺度τ，首先，轨迹(光流)的意思是，一个特征点在连续15帧中运动的位置，把这些位置记录下来即为轨迹，所以一条轨迹将对应15个特征点(每帧之中有一个特征点对应)，计算轨迹的时候，是根据第一个特征点的某个空间尺度进行计算的。所以对于某一条轨迹的空间尺度是一定的。而时间尺度的定义为一条轨迹在15帧之内运动的像素点的距离。所以对于一条轨迹来说，时间尺度也是一定的。

2)使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量，具体包括步骤：

4)利用基于尺度空间的高斯混合模型对训练数据中的特征描述向量进行聚类，再生成视频数据集中每一个视频的费舍尔向量，具体包括步骤：

41)构建高斯混合模型：

其中：p(y_t,s_t)为高斯混合模型，π_i为第i个针对特征描述向量的高斯分量的权重，K为针对特征描述向量的高斯分量的数目，y_t为第t个特征点对应的特征描述向量，μ_i为的均值，Σ_i为的协方差矩阵，λ_ji为的高斯分量的第j个针对尺度信息的高斯分量的权重，s_t为第t个特征点对应的尺度信息，δ_ji为的均值，Z_ji为的协方差矩阵，N(·)为高斯密度函数：

42)对每一个高斯分量，计算其费舍尔向量值；

基于特征描述向量和的后验概率具体为：

其中：l为针对特征向量的高斯混合模型的序号，j为针对尺度信息的高斯混合模型的序号；

基于尺度信息和的后验概率具体为：

为了验证本申请方法的性能，设计了以下实验。

如图2所示，在两个公开数据集上(Hollywood2、HMDB51)使用本方法进行训练以及测试，其中使用稠密采样提取特征点，使用Farneback算法跟踪特征点形成光流，使用Traj、HoG、HoF、MBH四个描述算法进行特征描述。使用基于尺度信息的高斯混合模型进行聚类，聚类维度设置为256，使用基于尺度信息的费舍尔向量生成视频描述向量。在Hollywood2和HMDB51上分别获得66.53％以及60.56％。

Claims

1.一种基于视频尺度信息的视频分类方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤1)中特征点以及特征点的轨迹的提取过程具体包括步骤：

12)提取出每一帧中的特征点；

13)对于任一尺度空间，计算光流矩阵；

x_current(x,y)＝x_current-1(x,y)+W

3.根据权利要求2所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤11)具体为：提取视频中的每一帧，以为缩放因子，将视频中每一帧的长宽按照的倍数的比例进行大小缩放，得到相同长宽比，但大小不同的一组图片，这组图片构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为I_current，前一帧I_current-1。

4.根据权利要求2所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤2)具体包括步骤：

5.根据权利要求4所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤4)具体包括步骤：

41)构建高斯混合模型：

p (y_{t}, s_{t}) = Σ_{i = 1}^{K} π_{i} N (y_{t}; μ_{i}, Σ_{i}) Σ_{j = 1}^{J} λ_{j i} N (s_{t}, δ_{j i}, Z_{j i})

42)对每一个高斯分量，计算其费舍尔向量值；

\{\begin{matrix} {FV}_{1} = q_{i} (t) - π_{i} \\ {FV}_{2} = q_{i} (t) Σ_{i}^{- 1} (y_{t} - μ_{i}) \\ {FV}_{3} = q_{i} (t) \frac{Σ_{i} - d i a g ({(y_{t} - μ_{i})}^{2})}{2} \\ {FV}_{4} = q_{i} (t) (r_{j i} (t) - λ_{j i}) \\ {FV}_{5} = q_{i} (t) r_{j i} (t) Z_{j i}^{- 1} (s_{t} - δ_{j i}) \\ {FV}_{6} = q_{i} (t) r_{j i} (t) \frac{Z_{j i} - d i a g ({(s_{t} - δ_{j i})}^{2})}{2} \end{matrix}

6.根据权利要求5所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述基于特征描述向量和的后验概率具体为：

q_{i} (t) = \frac{π_{i} N (y_{t}; μ_{i}, Σ_{i}) Σ_{j = 1}^{J} λ_{j i} N (s_{t}, δ_{j i}, Z_{j i})}{Σ_{l = 1}^{K} π_{l} N (y_{t}; μ_{l}, Σ_{1}) Σ_{j = 1}^{J} λ_{j i} N (s_{t}, δ_{j l}, Z_{j l})}

所述基于尺度信息和的后验概率具体为：

r_{j i} (t) = \frac{λ_{j i} N (s_{t}; δ_{j i}, Z_{j i})}{Σ_{l = 1}^{J} λ_{l j} N (s_{t}; δ_{l j}, Z_{l j})} .