CN106503659B

CN106503659B - 基于稀疏编码张量分解的动作识别方法

Info

Publication number: CN106503659B
Application number: CN201610933077.3A
Authority: CN
Inventors: 苏育挺; 徐传忠; 张静
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2019-10-15
Anticipated expiration: 2036-10-24
Also published as: CN106503659A

Abstract

一种基于稀疏编码张量分解的动作识别方法：将原始的视频序列表征为一个三阶的视频序列张量T表示视频序列长度，I₁×I₂表示视频帧的大小；对三阶的视频序列张量进行Tucker分解获得空域维度减少的核张量；将视频序列张量缩放到相同的尺度；动态学习上述过程更新结果直到算法收敛结果达到最优。本发明的基于稀疏编码张量分解的动作识别方法，能够将视频序列处理为统一的长度——稀疏编码张量分解技术。在这个过程中通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本发明的方法降低了手势识别的难度，提高了手势识别的准确性，为后续的视频序列分类提供了良好的条件，提升视频序列分类的准确率。

Description

基于稀疏编码张量分解的动作识别方法

技术领域

本发明涉及一种动作识别方法。特别是涉及一种基于稀疏编码张量分解的动作识别方法，

背景技术

随着可以获得的视频数量的急剧增加，基于内容的视频分析已经在视频检索、动作识别、视频摘要等领域引起了极大的关注。与其他人体部位相比较，由于手势其手和手指具有很高的灵巧度,因此它是最有效的和通用的与外界交互的方式。作为人类动作语义分析中的重要组成部分，手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。

手势识别的目的可以看作是对视频序列进行分类。在最近几年，出现了一些有关于手势识别的工作，但是对于现实的应用领域设计一个强有力的手势识别算法仍然是一个极具挑战性的问题，尤其是对于那些非常复杂的动作。为了去更好的解决这个问题，多重线性代数作为分析多维数据类型(张量)的一个强有力的的工具已经应用到了手势识别问题当中。既然人体动作随时间的变化可以表示为一个视频帧序列，那么张量就可以很自然的将动作序列表征为一个三阶张量的形式。基于张量分解的技术，已经提出了许多的手势识别算法；他们都是通过将视频序列转化为张量的形式而不是传统的向量或者矩阵的形式去测量视频序列之间的相似度。将视频转换为向量或矩阵的形式不仅会造成视频中所包含的原始数据信息丢失，而且还会破坏视频帧与帧之间的相关性。同时原始视频序列中会伴有各种各样的噪声，传统的将其转换为向量或矩阵的方式并不能够去除冗余。因此本发明提出了用张量去建模视频序列，并且用张量分解技术对建模后的张量视频序列进行处理。

两种非常值得注意的张量分解方式为CP分解和Tucker分解。这两种分解方式的主要不同点在于CP分解是将一个张量分解为许多的一秩张量之和的形式，Tucker是主成分分析的一种高阶的形式。然而在这些基于张量分解去对视频进行分类的方法中，存在一个基本的然而却被忽视的问题：所有的视频序列在时间维度上都需要有统一的视频序列长度。当前用一个确定时间轴长度去标准化视频序列的最普遍的方式是从视频序列中挑选中间的一些帧去建立一个新的视频序列，使这些视频序列的长度统一。然而这种操作方式会导致以下的不足之处：1)新构建的视频序列不能够全面的表征手势；2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧。

发明内容

本发明所要解决的技术问题是，提供一种能够提高手势识别的准确率并且便于后续视频序列分类的基于稀疏编码张量分解的动作识别方法。

本发明所采用的技术方案是：一种基于稀疏编码张量分解的动作识别方法，包括如下步骤：

1)将原始的视频序列表征为一个三阶的视频序列张量

T表示视频序列长度，I₁×I₂表示视频帧的大小；

2)对三阶的视频序列张量

进行Tucker分解获得空域维度减少的核张量；

3)将视频序列张量缩放到相同的尺度；

4)动态学习步骤2)和步骤3)更新结果直到算法收敛结果达到最优。

步骤2)是将最初的视频序列张量

表示成一个低阶的视频序列张量

其中J₁<I₁，J₂<I₂，在这个变换过程找到三个映射矩阵

和视频序列张量

表示如下形式：

其中，F＝Α×₁U₁×₂U₂，则视频序列张量C简写为：

C＝F×₃U₃ (2)。

步骤3)包括：

(1)构建目标函数

为了将视频缩放到相同的尺度，对映射矩阵U₃采用关键帧选择(类似于特征选择)的措施：采用稀疏编码的方法从F中选取最优的K帧构成词典，其中K<T，在此基础上用有限的基重构原始的视频序列，对F按照时间域展开得到令张量展开矩阵

设定目标函数如下：

其中，定义词典

为从F中选取的K帧向量构成的基，定义

表示去掉GS矩阵的全零列后构成的矩阵，λ，β为惩罚因子。同时可得：

其中矩阵L可以通过初始化词典B＝{b₁,…,b_k…,b_K}得到。

目标函数转换如下形式：

假定存在线性函数G＝f(B)，即满足G＝BU₃，则映射矩阵U₃＝B⁺G，其中B⁺为B的伪逆；

(2)求解目标函数

先应用词典学习的方法寻找最佳的关键帧构成词典B进而得到映射矩阵U₃，再用交替迭代的方法得出映射矩阵U₁和U₂，最终得出等长的视频序列；具体包括

(a)寻找最佳的关键帧构成词典B

首先从张量展开矩阵

中随机选择K列，组成初始化的词典B＝{b₁,…,b_k…,b_K}，并得到对角矩阵S和矩阵L，将原始的目标函数转化为求解如下目标函数：

定义其中1≤k≤K，通过如下函数寻找使得误差最小的列

从词典B中去掉该列得到

令其中1≤i≤T-K，选择一个向量

替换掉b_p，使

满足如下条件：

更新、计算对角矩阵S和视频序列张量C，并重该(a)步直至收敛，利用映射矩阵U₃＝B⁺G得到映射矩阵U₃；

(b)求解映射矩阵U₁和映射矩阵U₂

首先给定视频序列张量Α，随机初始化映射矩阵U₁和映射矩阵U₂，根据下式：

F＝Α×₁U₁×₂U₂ (9)

对F展开得到矩阵

利用视频序列张量C的算法求解映射矩阵U₃，应用交替下降法以及特征值分解法将映射矩阵U₁及映射矩阵U₃作为已知求解映射矩阵U₂，将映射矩阵U₂及映射矩阵U₃作为已知求解映射矩阵U₁，重该(b)步直至收敛。

步骤4)包括：

动态的循环迭代步骤2)和步骤3)直到算法收敛，每循环迭代一次算法会更新一次映射矩阵U₁，U₂，U₃和等长的视频序列张量C，最终所得的等长视频序列张量C是在空域上对原始的视频进行了空间降维去噪处理，在时域上进行降维后仍然可以体现原始视频的时序信息同时保留了等长视频序列张量C在时域上的连续性；

在得到等长的视频序列张量C后，采用积流行的方法对视频序列张量C进行分类，每个张量在积流行中映射为一个点，然后在积流行中计算每两个点的测地线距离，来对张量视频序列C进行分类。

本发明的基于稀疏编码张量分解的动作识别方法，能够将视频序列处理为统一的长度——稀疏编码张量分解技术。在这个过程中通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本发明的方法降低了手势识别的难度，提高了手势识别的准确性，为后续的视频序列分类提供了良好的条件，提升视频序列分类的准确率。

附图说明

图1是基于稀疏编码张量分解技术的动作识别方法流程图。

具体实施方式

下面结合实施例和附图对本发明的基于稀疏编码张量分解的动作识别方法做出详细说明。

基于稀疏编码张量分解的动作识别方法，其特征在于，包括如下步骤：

1)将原始的视频序列表征为一个三阶的视频序列张量

T表示视频序列长度，I₁×I₂表示视频帧的大小；相对于传统的将视频中的每一帧提取特征然后用这些特征去进行识别分类的方法相比，将一个视频序列整体构建为一个三阶张量的形式可以保留视频中的全部信息不造成信息的丢失，而且张量及张量分解技术当今已非常成熟，也为后续的算法设计奠定了良好的基础。

2)对三阶的视频序列张量

进行Tucker分解获得空域维度减少的核张量；

是将最初的视频序列张量

表示成一个低阶的视频序列张量

其中J₁<I₁，J₂<I₂，在这个变换过程找到三个映射矩阵

和

视频序列张量

表示如下形式：

其中，F＝Α×₁U₁×₂U₂，则视频序列张量C简写为：

C＝F×₃U₃ (2)。

3)将视频序列张量缩放到相同的尺度；包括：

(1)构建目标函数

为了将视频缩放到相同的尺度，对映射矩阵U₃采用关键帧选择(类似于特征选择)的措施：采用稀疏编码的方法从F中选取最优的K帧构成词典，其中K<T，在此基础上用有限的基重构原始的视频序列，对F按照时间域展开得到

令张量展开矩阵

设定目标函数如下：

其中，定义词典为从F中选取的K帧向量构成的基，定义表示去掉GS矩阵的全零列后构成的矩阵，λ，β为惩罚因子。同时可得：

其中矩阵L可以通过初始化词典B＝{b₁,…,b_k…,b_K}得到

目标函数转换如下形式：

假定存在线性函数G＝f(B)，即满足G＝BU₃，则映射矩阵U₃＝B+G，其中B⁺为B的伪逆；

(2)求解目标函数

(a)寻找最佳的关键帧构成词典B

首先从张量展开矩阵

中随机选择K列，组成初始化的词典B＝{b₁,…,b_k…,b_K},并得到对角矩阵S和矩阵L，将原始的目标函数转化为求解如下目标函数：

定义

其中1≤k≤K，通过如下函数寻找使得误差最小的列

从词典B中去掉该列得到

令

其中1≤i≤T-K，选择一个向量替换掉b_p，使

满足如下条件：

(b)求解映射矩阵U₁和映射矩阵U₂

F＝Α×₁U₁×₂U₂ (9)

对F展开得到矩阵

4)动态学习步骤2)和步骤3)更新结果直到算法收敛结果达到最优，包括：

动态的循环迭代步骤2)和步骤3)直到算法收敛，每循环迭代一次算法会更新一次映射矩阵U₁，U₂，U₃和等长的视频序列张量C，经过这种动态的循环迭代过程，最终所得的等长视频序列张量C是在空域上对原始的视频进行了空间降维去噪处理，在时域上进行降维后仍然可以体现原始视频的时序信息同时保留了等长视频序列张量C在时域上的连续性。

在得到等长的视频序列张量C后，采用积流行的方法(Y.M.Lui,J.R.Beveridge,and M.Kirby,“Action classification on product manifolds,”In Proceedings ofthe International Conference on Computer Vision and Pattern Recognition,2010,pp.833–839.)对等长视频序列张量C进行分类，每个张量在积流行中映射为一个点，然后在积流行中计算每两个点的测地线距离，来对等长视频序列张量C进行分类。