CN106529435B

CN106529435B - 基于张量量化的动作识别方法

Info

Publication number: CN106529435B
Application number: CN201610938569.1A
Authority: CN
Inventors: 苏育挺; 徐传忠; 张静
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2019-10-15
Anticipated expiration: 2036-10-24
Also published as: CN106529435A

Abstract

一种基于张量量化的动作识别方法：将原始的视频序列表征为一个三阶视频序列张量A；对视频序列张量A进行Tucker‑2分解获得空域维度减少的核张量：将视频序列张量A，表示成一个低阶的核张量G，找到两个映射矩阵U⁽¹⁾和U⁽²⁾，将最初的视频序列张量A展开为用Tucker‑2分解的视频序列张量A，核张量G也就是所要求的新张量，最小化目标函数，求解出所要寻找的维度减少的核张量G和映射矩阵U⁽¹⁾和U⁽²⁾；应用张量量化技术将空域维度减少的核张量编码到统一的长度；动态学习以上的步骤更新结果直到算法收敛结果达到最优。本发明能够将视频序列处理为统一的长度，通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。

Description

基于张量量化的动作识别方法

技术领域

本发明涉及一种动作识别方法。特别是涉及一种基于张量量化技术的动作识别方法.

背景技术

随着可以获得的视频数量的急剧增加，基于内容的视频分析已经在视频检索、动作识别、视频摘要等领域引起了极大的关注。与其他人体部位相比较，由于手势其手和手指具有很高的灵巧度，因此它是最有效的和通用的与外界交互的方式。作为人类动作语义分析中的重要组成部分，手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。

手势识别的目的可以看做是对视频序列进行分类。在最近几年，出现了一些有关于手势识别的工作，但是对于现实的应用领域设计一个强有力的手势识别算法仍然是一个极具挑战性的问题，尤其是对于那些非常复杂的动作。为了去更好的解决这个问题，多重线性代数作为分析多维数据类型(张量)的一个强有力的工具已经应用到了手势识别问题当中。既然人体动作随时间的变化可以表示为一个视频帧序列，那么张量就可以很自然的将动作序列表征为一个三阶张量的形式。基于张量分解的技术，已经提出了许多的手势识别算法；他们都是通过将视频序列转化为张量的形式而不是传统的向量或者矩阵的形式去测量视频序列之间的相似度。将视频转换为向量或矩阵的形式不仅会造成视频中所包含的原始数据信息丢失，而且还会破坏视频帧与帧之间的相关性。同时原始视频序列中会伴有各种各样的噪声，传统的将其转换为向量或矩阵的方式并不能够去除冗余。因此本发明提出了用张量去建模视频序列，并且用张量分解技术对建模后的张量视频序列进行处理。

两种非常值得注意的张量分解方式为CP分解和Tucker分解。这两种分解方式的主要不同点在于CP分解是将一个张量分解为许多的一秩张量之和的形式，Tucker是主成分分析的一种高阶的形式。然而在这些基于张量分解去对视频进行分类的方法中，存在一个基本的然而却被忽视的问题：所有的视频序列在时间维度上都需要有统一的视频序列长度。当前用一个确定时间轴长度去标准化视频序列的最普遍的方式是从视频序列中挑选中间的一些帧去建立一个新的视频序列，使这些视频序列的的长度统一。然而这种操作方式会导致以下的不足之处：1)新构建的视频序列不能够全面的表征手势；2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧。

发明内容

本发明所要解决的技术问题是，提供一种能够将视频序列处理为统一的长度－时空域迭代张量的基于张量量化的动作识别方法。

本发明所采用的技术方案是：一种基于张量量化的动作识别方法，包括如下步骤：

1)将原始的视频序列表征为一个三阶视频序列张量

其中I₁，I₂和K分别表示为一个视频序列的宽度、高度和时间轴的长度；

2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量，包括：

将视频序列张量

表示成一个低阶的核张量

J₁<I₁，J₂<I₂，

找到两个映射矩阵

和

将最初的视频序列张量A展开为用Tucker-2分解的视频序列张量A＝G×₁U⁽¹⁾×₂U⁽²⁾+ε，G是核张量也就是所要求的新张量，ε是误差，最小化以下的目标函数，求解出所要寻找的维度减少的核张量G和映射矩阵U⁽¹⁾和U⁽²⁾：

3)应用张量量化技术将空域维度减少的核张量编码到统一的长度；

4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。

步骤2)具体包括：

(1)输入最初的视频序列张量

和新的视频序列核张量G在空域上的维度J₁和J₂，需满足J₁<I₁，J₂<I₂；

(2)将视频序列张量Α按时间维度展开为时间切片的形式，计算出所有的时间切片的平均矩阵

式中，K为视频序列张量的时间维度，也就是视频序列张量时间切片的个数，A_i表示第i个时间切片；

(3)求解平均矩阵第一阶和第二阶的协方差矩阵C₁和C₂，求解方式如下：

是

转置矩阵；

(4)将得到的两个协方差矩阵C₁和C₂进行特征值分解得到对应的映射矩阵U⁽¹⁾和U⁽²⁾：

λ₁，λ₂是分解后所得到的特征值，LM'是固定的参数用来选择分解的最大维度，经过特征值分解得到的映射矩阵U⁽¹⁾和U⁽²⁾分别包含了协方差矩阵的J₁和J₂维主要信息，去除了不重要的信息。

(5)将视频序列张量A结合得到的映射矩阵U⁽¹⁾和U⁽²⁾进行Tucker-2分解得到维数减少的核张量：

式中，

J₁<I₁，J₂<I₂。

步骤3)包括：

将任意长度K的核张量G都编码为一个统一的长度为

的新的视频序列张量

同时满足

对于一个给定的核张量G产生一个大小为

的码书；

假设核张量G被分割为w个子张量

其中i＝1,2,…,w，式中g_i是第i个子张量，l是码字的长度；

在张量量化中一个码字用来表示一些相似的子张量，一个张量量化器Q就是一个从欧几里得空间的子张量到一个有限集的映射：

H是一个含有长度为

的码书叫做码字，与一个含有长度为

的码字的张量量化器相联系，最初的空间被分割成长度为

个子空间

该式中

为了得到最主要的子张量去建立码书，引入了两个限制条件：最近邻条件和重心条件，首先用一个随机的码书进行初始化，然后根据最近邻条件找到最佳的分割空间

最后依据重心条件循环的更新码书，其中，

最近邻条件

对于一个给定的码书，最佳的分割应满足：

该式中d(·)是欧几里得测度；

重心条件

对一个给定的分割区域

其中

最佳的重构码字意味着h_i＝Cent(C_i)，式中Cent(·)定义为：

除此之外，我们也引入了平均扭曲度去测量重构的码字的质量，平均扭曲度定义如下：

步骤4)包括：

动态的循环迭代步骤2)和步骤3)直到算法收敛，每循环迭代一次会更新一次映射矩阵U₁、映射矩阵U₂和新的视频序列张量

经过动态的循环迭代过程，最终得到的新的视频序列张量

是在空域上对最初的视频序列张量A进行了空间降维去噪处理获得的，在时域上进行降维后仍然可以体现最初的视频序列张量A的时序信息同时保留了新的视频序列张量

在时域上的连续性；在得到新的视频序列张量

后，采用积流行的方法对最初的视频序列张量A进行分类，是每一个张量在积流行中映射为一个点，计算每两个点的测地线距离来对最初的视频序列张量A进行分类。

本发明的基于张量量化的动作识别方法，能够将视频序列处理为统一的长度，通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本发明的方法降低手势识别的难度，提高了手势识别的准确性，为后续的视频序列分类提供了良好的条件，提升视频序列分类的准确率。

附图说明

图1是本发明基于张量量化的动作识别方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的基于张量量化的动作识别方法做出详细说明。

如图1所示，本发明的基于张量量化的动作识别方法，包括如下步骤：

1)将原始的视频序列表征为一个三阶视频序列张量

其中I₁，I₂和K分别表示为一个视频序列的宽度、高度和时间轴的长度；相对于传统的将视频中的每一帧提取特征然后用这些特征去进行识别分类的方法相比，将一个视频序列整体构建为一个三阶张量的形式可以保留视频中的全部信息不造成信息的丢失，而且张量及张量分解技术当今已非常成熟，也为后续的算法设计奠定了良好的基础。

2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量，在对三阶视频序列张量A进行Tucker-2过程中我们要得到一个经过提炼的新张量，该张量在空域上的方差最大，同时在空域上对原始的视频序列张量进行了降维去噪处理消除了大部分的冗余信息。包括：

将视频序列张量表示成一个低阶的核张量