CN112801142B

CN112801142B - 一种基于张量自回归滑动平均模型的视频分类方法

Info

Publication number: CN112801142B
Application number: CN202110028634.8A
Authority: CN
Inventors: 王少帆; 邬玉洁; 孔德慧; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2024-05-28
Anticipated expiration: 2041-01-08
Also published as: CN112801142A

Abstract

本发明涉及一类基于张量自回归滑动平均模型的视频分类方法，用于解决传统的视频数据处理方法不能充分利用视频数据中潜在的结构信息，造成视频数据内部的时域信息丢失，同时数据向量化造成的维度灾难等问题。首先，将视频序列表示为张量型数据，同时引入经典的时间序列表示方法‑自回归滑动平均模型。然后，应用张量分解得到观测矩阵和潜在的低维度的核张量的转移矩阵，该核张量是原始视频序列张量的一种有意义的、独一无二的表示。将观测矩阵和转移矩阵构建视频序列张量所对应的视觉矩阵序列，其可以映射为流形中的一个点。在对视频进行分类时，可以通过度量每个视频数据的视觉矩阵序列在流形中的相似性距离，进而对视频序列进行分类。

Description

一种基于张量自回归滑动平均模型的视频分类方法

技术领域

本发明适用于计算机视觉领域中的视频分类技术。

背景技术

随着数码设备的大量普及与发展，现代社会的信息量正以飞快的速度增长。视频作为重要的信息载体，越来越多地出现在人们的日常生活中。在这种环境下，如何对视频快速、准确地分类变得尤为重要。

传统的特征学习方法，在鲁棒的分类和识别问题中扮演了一个重要的角色，但是基于特征学习的方法并不能将视频数据中潜在的结构信息充分利用以及可能造成视频数据内部的时域信息丢失，同时还破坏了视频序列在时域上的连续性，造成维度灾难。

基于多线性方法对视频数据的分类都是各项同性的，同时的对视频数据的空域维度和时域维度进行处理。由于视频序列也是时间序列，视频序列中在时间维度上的每一帧都是连续的，这种基于多线性的方法破坏了视频序列中时间维度上的固有连续性最终会导致动作识别率的下降。

考虑到视频数据具有高阶特性，张量在表征视频数据时具有天然的优势。而张量计算也已经成功地应用于人脸识别、视觉跟踪和动作分类等领域，因此越来越多的人开始采用张量分解的方法来研究视频序列分类问题。基于此本文提出了基于张量的自回归滑动平均(Tensorial AutoRegressive Moving Average,Tensorial-ARMA)模型。我们将视频看作一个三阶张量，利用张量分解将视频按阶展开，分析其特征信息。张量同时分析视频序列的相关性和图像帧内各个部分间的相关性，从空间和时间维度上同时进行分解，减少模型冗余的同时提高了分类准确率。而且视频序列也是时间序列，作为经典的时间序列表示方法自回归滑动平均(ARMA)模型理论的方法在状态预测和系统识别领域里被广为使用，将自回归滑动平均模型引入到视频序列的时间域中，沿着视频序列的时间维度去编码相邻核张量时间切片之间的时域相关性。这种方式能够在最大程度上保持视频序列在时间维度上的时域相关性和依赖性。

发明内容

为了解决传统的视频数据处理方法不能充分利用视频数据中潜在的结构信息，造成视频数据内部的时域信息丢失，同时数据向量化造成的维度灾难等问题，本发明提出了一种基于张量自回归滑动平均模型的视频分类方法。本发明考虑到视频数据本身是一个三阶张量，利用张量分解将视频数据按阶展开，分析其特征信息，并将自回归滑动平均模型引入到视频序列的时间域中，沿着视频序列的时间维度去编码相邻核张量时间切片之间的时域相关性。最后将模型特征参数信息映射到流形空间进行度量分类。

本发明首先，将视频序列表示为张量型数据，同时引入经典的时间序列表示方法-自回归滑动平均模型。然后，应用张量分解得到观测矩阵和潜在的低维度的核张量的转移矩阵，该核张量是原始视频序列张量的一种有意义的、独一无二的表示。将观测矩阵和转移矩阵构建视频序列张量所对应的视觉矩阵序列，其可以映射为流形中的一个点。在对视频进行分类时，可以通过度量每个视频数据的视觉矩阵序列在流形中的相似性距离，进而对视频序列进行分类。具体方案如下：

本文提出高阶张量分析及其在视频序列分类中的应用，并指出一些可能的研究问题。发明的流程如图4，主要步骤如下：

步骤一：对待分类的原始视频数据进行张量表示，得到每段视频的视频序列张量；

步骤二：将每个视频序列张量编码成一个自回归滑动平均模型，进而求解得到模型中的参数，即核张量观测矩阵/>转移矩阵/>

步骤三：根据步骤二得到的模型参数，将每个待分类的原始视频数据表示为乘积格拉斯曼流形点，并在乘积格拉斯曼流形上对所有原始视频数据进行距离度量：

步骤四：利用步骤三得到的距离进行视频分类。

有益效果：我们在公开视频数据库中的实验结果证明，与传统的视频分类方法比较，我们提出的方法能够获得较高的分类正确率，是一种有效的基于张量自回归滑动平均模型的视频分类方法。

附图说明

图1步态能量图像的张量表示

图2UCSD交通数据集的张量表示

图3三阶张量的展开形式

图4：基于张量自回归滑动平均模型方法流程图

具体实施方式

第一种情况：视频数据经过特征提取处理后转变为特征视频帧序列，我们可以直接将提取后的特征视频帧序列看作是一个三阶张量。张量的三个维度分别表示特征图像的宽度l₁、高度l₂和视频帧序列个数Z。

比如，步态数据集预处理

步态能量图(Gait Engery Image,GEI)是步态检测中最非常常用的特征，能很好的表现步态的速度，形态等特征。在CASIA的Dataset-B步态数据集中，由124名个体(93名男性和31名女性)组成，从11个角度(0°～180°)捕捉每个受试者的步态，每个视频都由一个步态能量图像表示，我们直接将每个个体的11个角度步态能量图像看作一个三阶张量，图1举例说明了用三阶张量表示步态视频帧的方式。

第二种情况：视频数据未经过处理，引入一个基于视频帧块的视频表示方法。首先对原始视频提取视频帧，将每个视频帧平均地分成大小相等的视频帧块，然后对每个视频帧的视频帧块采用GIST算子进行特征提取形成特征矩阵，最后按照原始视频的时间顺序将特征矩阵排列构建成视频序列张量。

比如，交通数据集预处理

UCSD交通数据集中包含254个公路交通视频序列。根据每个序列中的交通拥挤程度被标记为三个类。总共有44个重交通序列，45个中等交通量和165个轻交通量。我们采用基于视频帧块的视频表示方法，对UCSD交通数据集进行预处理。图2举例说明了用张量表示UCSD交通数据集视频的方式。

以下首先对张量进行基本介绍

(1)张量的定义

从代数角度来说，张量可看作是一些向量、纯量和矩阵之间的线性关系的多线性函数；从几何角度来说，张量是不随参照系的坐标变换而变化的几何量；从张量角度来说，标量是零阶张量，矢量是一阶张量，矩阵是二阶张量。首先介绍张量的一些基本知识包括：张量的模乘、张量的展开。

①张量的模乘

n阶张量与矩阵/>的n阶模乘可以写成/>的形式，其中，

②张量的展开

为了便于计算处理，我们在运算时通常将张量按阶展开成矩阵形式。张量的展开就是将张量中的元素重新按顺序排列成矩阵的过程。

张量展开的定义是：设n阶张量张量/>可以通过张量展开转化为一系列的矩阵,分别用/>表示。其中/>图3给出了三阶张量的展开形式。张量展开图中的行代表张量的单独一阶，图片的列代表张量的另外两阶。

自回归滑动平均模型建模过程如下：

为了能够更好的保存在相邻视频张量时间切片中的时域相关性和平滑性，我们引入自回归滑动平均(ARMA)模型。对于一个给定的视频序列张量，每个视频序列张量显然不是一个稳定分布的独立实现，因为很可能在序列中存在一个空间联结关系。因此，一个潜在的假设是独立同分布，视频序列张量可以看作是一个ARMA模型的输出。对于n阶视频张量序列N表示视频序列总数目。都可以构建自回归滑动平均模型：

其中，是n阶核张量，/>是满足列正交约束的观测矩阵，/>是满足列正交约束的转移矩阵，m表示观测矩阵和转移矩阵的个数，且满足m＝n。

接下来我们对张量自回归滑动平均模型(1)的参数进行求解。我们将模型转化成需要优化目标函数：

算法1.1基于张量的自回归滑动平均模型

输入：N个n阶视频张量

输出：核张量观测矩阵/>转移矩阵/>

1、随机初始观测矩阵满足/>转移矩阵满足/>

2、循环求解D₁,D₂,D₃,…,D_m，直到循环收敛：

结束循环；

3、核张量

4、循环求解E₁,E₂,E₃,…,E_m，直到循环收敛：

结束循环。

其中，SVD表示对矩阵做奇异值分解的函数，U称为左奇异矩阵，Σ称为奇异值,V称为右奇异矩阵，我们的算法只用到了左奇异矩阵U，a₍₁₎,a₍₂₎,...,a_(n)表示张量的模n展开，L₁,L₂,...,Ln表示核张量的大小。

经证明，将张量维度推广到更高阶，算法具有可行性。因此，每个视频张量数据可以编码成一个自回归滑动平均模型。

(1)每个视频数据表示为乘积格拉斯曼流形点的具体步骤如下：

模型参数(D_m,E_m),m＝12n并不处于线性空间中。为了确保过程收敛，约束转移矩阵E₁,E₂,2,E_m为正交矩阵，使其最大特征值位于单位圆上，观测矩阵D₁,D₂,2,D_m也是正交矩阵。因此观测矩阵位于Stiefel流形上。针对我们的视频数据，相应的视频序列就能表示为视觉矩阵序列。即对于给定每一个视频序列张量所对应的视觉矩阵序列可以表示为：

因此单个视觉矩阵都可以表示为流形上的一个点。我们为解决视觉矩阵序列的分类问题，在单个视觉矩阵上进行流形表示的基础上，采用乘积流形实现多个视觉矩阵的共享和互补，从而改进视频流形特征的表示能力。

假设每个视觉矩阵序列有K列视觉矩阵，即当采用格拉斯曼流形表示时，可以将每列视觉矩阵记为G(p₁,d),2,G(p_K,d)，其中p₁,2,p_K表示格拉斯曼流行正交子空间的位数，d表示数据的维度。为了将一个视频序列的多个流形表示为一个整体，一种自然的方式即为乘积流形，即通过多个格拉斯曼流形的乘积表示这种复杂数据，记为：

此时，每个采样形式的格拉斯曼流形点可以组合形成一个乘积流形空间的抽象点，记为[X]＝{X¹,2,X^K}。因此张量的自回归滑动平均模型参数可以表示为乘积格拉斯曼流形上一个点。

(2)基于乘积格拉斯曼流形上的视频数据距离度量

上文解释了视频数据的张量自回归滑动平均模型参数是一个乘积格拉斯曼流形。如下介绍基于乘积格拉斯曼流形的相似性度量算法，并对所有视频数据的视觉矩阵序列用公式(9)进行相似性度量。

对于格拉斯曼流形的正交矩阵，可以采用将数据点映射到对称矩阵空间实现上述映射，即对于格拉斯曼流形点采用下面的映射形式：

其中Sym(d)表示的d×d维对称矩阵空间，这种映射是一种微分同胚映射，则此映射及逆映射均光滑可微。在该映射下，格拉斯曼流形上的嵌入距离可以表示为：

对于乘积格拉斯曼流形的距离度量，利用各个格拉斯曼流形的距离加权形式定义乘积流形的距离，即：

其中，w_k表示权系数，X、Y表示不同视频数据的乘积格拉斯曼流形点，表示子流形/>上的距离度量。在具体实验中，w_k它可以由数据驱动的方式或根据先验知识来确定。在本文中，我们令所有w_k＝1。由式(7)，我们得到乘积格拉斯曼流形上距离度量：

步骤四：利用步骤三得到的距离进行视频分类

通过步骤三得到每个视频序列张量所对应的视觉矩阵序列，并基于乘积格拉斯曼流形理论，证明了每个视觉矩阵序列都可以表示为乘积格拉斯曼流形上的一个点。在进行视频分类时，采用步骤三中的公式(9)来构建有效的相似性度量，即计算每一个待分类视频样本的视觉矩阵序列到全体已知样本的视觉矩阵序列的距离，再运用经典的分类算法(支持向量机分类器、最近邻分类器等)进行视频序列的分类。本实施例我们采用最近邻分类器进行分类。

实验一：基于步态的性别识别

本实验的目的：CASIA的Dataset-B步态数据集中包含了124个不同身份的行人的步态能量图像，包括31位女性和93位男性。将数据集分为两类：男性步态和女性步态。

表1展示了与其他实验方法的比较结果。

表1：实验结果对比

实验二：交通拥堵视频

本实验的目的：UCSD交通数据集中包含254个不同天气条件(如多云、下雨、晴天)下不同模式(如轻、重)的公路交通视频序列。将根据数据集每个序列中的交通拥挤程度，对数据集分为三类：重交通(慢或停行驶速度)，中等交通(减速)，轻交通(正常速度)。表2展示了与其他实验方法的比较结果。

表2：实验结果对比。

Claims

1.一种基于张量自回归滑动平均模型的视频分类方法，其特征在于包括以下步骤：

步骤二：将每个视频序列张量编码成一个自回归滑动平均模型，进而求解得到模型中的参数，即核张量观测矩阵/>转移矩阵

步骤三：根据步骤二得到的模型参数，将每个待分类的原始视频数据表示为乘积格拉斯曼流形点，并在乘积格拉斯曼流形上计算每个待分类的原始视频数据到其他所有待分类的原始视频数据的距离：

步骤四：利用步骤三得到的距离进行视频分类；

步骤二所述的自回归滑动平均模型建模过程如下：

将视频序列张量看作是一个ARMA模型的输出，对于n阶视频张量序列N表示视频序列总数目，构建自回归滑动平均模型：

其中，是n阶核张量，/>是满足列正交约束的观测矩阵，/>是满足列正交约束的转移矩阵，m表示观测矩阵和转移矩阵的个数，且满足m＝n；

将模型转化成需要优化的目标函数：

步骤二所述的自回归滑动平均模型参数求解过程如下：

输入：N个n阶视频张量

输出：核张量观测矩阵/>转移矩阵

(1)、随机初始观测矩阵满足/>随机初始转移矩阵满足/>

(2)、循环求解D₁,D₂,D₃,…,D_m，直到循环收敛：

结束循环；

(3)、计算核张量

(4)、循环求解E₁,E₂,E₃,…,E_m，直到循环收敛：

结束循环；

其中，SVD表示对矩阵做奇异值分解的函数，U称为左奇异矩阵，Σ称为奇异值,V称为右奇异矩阵，计算过程只用到了左奇异矩阵U，a₍₁₎,a₍₂₎,...,a_(n)表示张量的模n展开，L₁,L₂,...,Ln表示核张量的大小。

2.根据权利要求1所述的一种基于张量自回归滑动平均模型的视频分类方法，其特征在于：步骤一所述的张量表示包括两种情况，即：

第一种情况：原始视频数据经过特征提取处理后转变为特征视频帧序列，直接将提取后的特征视频帧序列看作是一个三阶张量，张量的三个维度分别表示特征图像的宽度l₁、高度l₂和视频帧序列个数Z；

第二种情况：原始视频数据未经过处理，引入一个基于视频帧块的视频表示方法，具体为：首先对原始视频提取视频帧，将每个视频帧平均地分成大小相等的视频帧块，然后对每个视频帧的视频帧块采用GIST算子进行特征提取，每个视频帧形成一个特征矩阵，特征矩阵中的列向量对应视频帧块的特征；最后按照原始视频的时间顺序将所有特征矩阵排列构建成视频序列张量。

3.根据权利要求1所述的一种基于张量自回归滑动平均模型的视频分类方法，其特征在于：步骤三所述的每个视频数据表示为乘积格拉斯曼流形点的具体步骤如下：

首先，根据得到的模型参数(D_m,E_m),m＝12n，将每一个视频序列张量表示为对应的视觉矩阵序列，具体如下：

每个视觉矩阵序列有K列视觉矩阵，即

然后，将每个视觉矩阵表示为流形上的一个点，采用格拉斯曼流形表示时，将每列视觉矩阵记为G(p₁,d),2,G(p_K,d)，其中p₁,2,p_K表示格拉斯曼流行正交子空间的位数，d表示数据的维度，

接下来，将每个视频数据表示为多个格拉斯曼流形的乘积表示，记为：

最后，对于每一个视频数据，将每个采样形式的格拉斯曼流形点组合形成一个乘积流形空间的抽象点，即视频数据的乘积格拉斯曼流形点，记为[X]＝{X¹,2,X^K}。

4.根据权利要求3所述的一种基于张量自回归滑动平均模型的视频分类方法，其特征在于：步骤三所述的视频数据距离度量计算公式具体如下：

其中，X，Y表示不同待分类视频数据的乘积格拉斯曼流形点。