CN106529435B - 基于张量量化的动作识别方法 - Google Patents
基于张量量化的动作识别方法 Download PDFInfo
- Publication number
- CN106529435B CN106529435B CN201610938569.1A CN201610938569A CN106529435B CN 106529435 B CN106529435 B CN 106529435B CN 201610938569 A CN201610938569 A CN 201610938569A CN 106529435 B CN106529435 B CN 106529435B
- Authority
- CN
- China
- Prior art keywords
- tensor
- video sequence
- core
- length
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于张量量化的动作识别方法:将原始的视频序列表征为一个三阶视频序列张量A;对视频序列张量A进行Tucker‑2分解获得空域维度减少的核张量:将视频序列张量A,表示成一个低阶的核张量G,找到两个映射矩阵U(1)和U(2),将最初的视频序列张量A展开为用Tucker‑2分解的视频序列张量A,核张量G也就是所要求的新张量,最小化目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2);应用张量量化技术将空域维度减少的核张量编码到统一的长度;动态学习以上的步骤更新结果直到算法收敛结果达到最优。本发明能够将视频序列处理为统一的长度,通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。
Description
技术领域
本发明涉及一种动作识别方法。特别是涉及一种基于张量量化技术的动作识别方法.
背景技术
随着可以获得的视频数量的急剧增加,基于内容的视频分析已经在视频检索、动作识别、视频摘要等领域引起了极大的关注。与其他人体部位相比较,由于手势其手和手指具有很高的灵巧度,因此它是最有效的和通用的与外界交互的方式。作为人类动作语义分析中的重要组成部分,手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。
手势识别的目的可以看做是对视频序列进行分类。在最近几年,出现了一些有关于手势识别的工作,但是对于现实的应用领域设计一个强有力的手势识别算法仍然是一个极具挑战性的问题,尤其是对于那些非常复杂的动作。为了去更好的解决这个问题,多重线性代数作为分析多维数据类型(张量)的一个强有力的工具已经应用到了手势识别问题当中。既然人体动作随时间的变化可以表示为一个视频帧序列,那么张量就可以很自然的将动作序列表征为一个三阶张量的形式。基于张量分解的技术,已经提出了许多的手势识别算法;他们都是通过将视频序列转化为张量的形式而不是传统的向量或者矩阵的形式去测量视频序列之间的相似度。将视频转换为向量或矩阵的形式不仅会造成视频中所包含的原始数据信息丢失,而且还会破坏视频帧与帧之间的相关性。同时原始视频序列中会伴有各种各样的噪声,传统的将其转换为向量或矩阵的方式并不能够去除冗余。因此本发明提出了用张量去建模视频序列,并且用张量分解技术对建模后的张量视频序列进行处理。
两种非常值得注意的张量分解方式为CP分解和Tucker分解。这两种分解方式的主要不同点在于CP分解是将一个张量分解为许多的一秩张量之和的形式,Tucker是主成分分析的一种高阶的形式。然而在这些基于张量分解去对视频进行分类的方法中,存在一个基本的然而却被忽视的问题:所有的视频序列在时间维度上都需要有统一的视频序列长度。当前用一个确定时间轴长度去标准化视频序列的最普遍的方式是从视频序列中挑选中间的一些帧去建立一个新的视频序列,使这些视频序列的的长度统一。然而这种操作方式会导致以下的不足之处:1)新构建的视频序列不能够全面的表征手势;2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧。
发明内容
本发明所要解决的技术问题是,提供一种能够将视频序列处理为统一的长度-时空域迭代张量的基于张量量化的动作识别方法。
本发明所采用的技术方案是:一种基于张量量化的动作识别方法,包括如下步骤:
2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量,包括:
找到两个映射矩阵和将最初的视频序列张量A展开为用Tucker-2分解的视频序列张量A=G×1U(1)×2U(2)+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2):
3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;
4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。
步骤2)具体包括:
(2)将视频序列张量Α按时间维度展开为时间切片的形式,计算出所有的时间切片的平均矩阵
式中,K为视频序列张量的时间维度,也就是视频序列张量时间切片的个数,Ai表示第i个时间切片;
(3)求解平均矩阵第一阶和第二阶的协方差矩阵C1和C2,求解方式如下:
(4)将得到的两个协方差矩阵C1和C2进行特征值分解得到对应的映射矩阵U(1)和U(2):
λ1,λ2是分解后所得到的特征值,LM'是固定的参数用来选择分解的最大维度,经过特征值分解得到的映射矩阵U(1)和U(2)分别包含了协方差矩阵的J1和J2维主要信息,去除了不重要的信息。
(5)将视频序列张量A结合得到的映射矩阵U(1)和U(2)进行Tucker-2分解得到维数减少的核张量:
步骤3)包括:
在张量量化中一个码字用来表示一些相似的子张量,一个张量量化器Q就是一个从欧几里得空间的子张量到一个有限集的映射:H是一个含有长度为的码书叫做码字,与一个含有长度为的码字的张量量化器相联系,最初的空间被分割成长度为个子空间该式中
最近邻条件
对于一个给定的码书,最佳的分割应满足:
该式中d(·)是欧几里得测度;
重心条件
除此之外,我们也引入了平均扭曲度去测量重构的码字的质量,平均扭曲度定义如下:
步骤4)包括:
动态的循环迭代步骤2)和步骤3)直到算法收敛,每循环迭代一次会更新一次映射矩阵U1、映射矩阵U2和新的视频序列张量经过动态的循环迭代过程,最终得到的新的视频序列张量是在空域上对最初的视频序列张量A进行了空间降维去噪处理获得的,在时域上进行降维后仍然可以体现最初的视频序列张量A的时序信息同时保留了新的视频序列张量在时域上的连续性;在得到新的视频序列张量后,采用积流行的方法对最初的视频序列张量A进行分类,是每一个张量在积流行中映射为一个点,计算每两个点的测地线距离来对最初的视频序列张量A进行分类。
本发明的基于张量量化的动作识别方法,能够将视频序列处理为统一的长度,通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本发明的方法降低手势识别的难度,提高了手势识别的准确性,为后续的视频序列分类提供了良好的条件,提升视频序列分类的准确率。
附图说明
图1是本发明基于张量量化的动作识别方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的基于张量量化的动作识别方法做出详细说明。
如图1所示,本发明的基于张量量化的动作识别方法,包括如下步骤:
1)将原始的视频序列表征为一个三阶视频序列张量其中I1,I2和K分别表示为一个视频序列的宽度、高度和时间轴的长度;相对于传统的将视频中的每一帧提取特征然后用这些特征去进行识别分类的方法相比,将一个视频序列整体构建为一个三阶张量的形式可以保留视频中的全部信息不造成信息的丢失,而且张量及张量分解技术当今已非常成熟,也为后续的算法设计奠定了良好的基础。
2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量,在对三阶视频序列张量A进行Tucker-2过程中我们要得到一个经过提炼的新张量,该张量在空域上的方差最大,同时在空域上对原始的视频序列张量进行了降维去噪处理消除了大部分的冗余信息。包括:
找到两个映射矩阵和将最初的视频序列张量A展开为用Tucker-2分解的视频序列张量A=G×1U(1)×2U(2)+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2):
具体包括:
式中,K为视频序列张量的时间维度,也就是视频序列张量时间切片的个数,Ai表示第i个时间切片;
(3)求解平均矩阵第一阶和第二阶的协方差矩阵C1和C2,求解方式如下:
(4)将得到的两个协方差矩阵C1和C2进行特征值分解得到对应的映射矩阵U(1)和U(2):
λ1,λ2是分解后所得到的特征值,LM'是固定的参数用来选择分解的最大维度。经过特征值分解得到的映射矩阵U(1)和U(2)分别包含了协方差矩阵的J1和J2维主要信息,去除了不重要的信息。
(5)将视频序列张量A结合得到的映射矩阵U(1)和U(2)进行Tucker-2分解得到维数减少的核张量:
3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;包括:
在张量量化中一个码字用来表示一些相似的子张量,一个张量量化器Q就是一个从欧几里得空间的子张量到一个有限集的映射:H是一个含有长度为的码书叫做码字,与一个含有长度为的码字的张量量化器相联系,最初的空间被分割成个子空间该式中
最近邻条件
对于一个给定的码书,最佳的分割应满足:
该式中d(·)是欧几里得测度;
重心条件
除此之外,我们也引入了平均扭曲度去测量重构的码字的质量,平均扭曲度定义如下:
4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。
4.根据权利要求1所述的基于张量量化的动作识别方法,其特征在于,步骤4)包括:
Claims (3)
1.一种基于张量量化的动作识别方法,其特征在于,包括如下步骤:
2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量,包括:
找到两个映射矩阵和将最初的视频序列张量A展开为用Tucker-2分解的视频序列张量A=G×1U(1)×2U(2)+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2):
3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;包括:
假设核张量G被分割为w个子张量{gi|i=1,2,…,w},其中gi是第i个子张量,l是码字的长度;
在张量量化中一个码字用来表示一些相似的子张量,一个张量量化器Q就是一个从欧几里得空间的子张量到一个有限集的映射:Q:H是一个含有长度为的码书叫做码字,与一个含有长度为的码字的张量量化器相联系,最初的空间被分割成长度为个子空间该式中
最近邻条件
该式中d(·)是欧几里得测度;
重心条件
除此之外,我们也引入了平均扭曲度去测量重构的码字的质量,平均扭曲度定义如下:
4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。
2.根据权利要求1所述的基于张量量化的动作识别方法,其特征在于,步骤2)具体包括:
式中,K为视频序列张量的时间轴的长度,也就是视频序列张量时间切片的个数,Ai表示第i个时间切片;
(3)求解平均矩阵第一阶和第二阶的协方差矩阵C1和C2,求解方式如下:
(4)将得到的两个协方差矩阵C1和C2进行特征值分解得到对应的映射矩阵U(1)和U(2):
λ1,λ2是分解后所得到的特征值,LM'是固定的参数用来选择分解的最大维度,经过特征值分解得到的映射矩阵U(1)和U(2)分别包含了协方差矩阵的J1和J2维主要信息,去除了不重要的信息;
(5)将视频序列张量A结合得到的映射矩阵U(1)和U(2)进行Tucker-2分解得到维数减少的核张量:
式中,J1<I1,J2<I2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610938569.1A CN106529435B (zh) | 2016-10-24 | 2016-10-24 | 基于张量量化的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610938569.1A CN106529435B (zh) | 2016-10-24 | 2016-10-24 | 基于张量量化的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106529435A CN106529435A (zh) | 2017-03-22 |
CN106529435B true CN106529435B (zh) | 2019-10-15 |
Family
ID=58292575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610938569.1A Expired - Fee Related CN106529435B (zh) | 2016-10-24 | 2016-10-24 | 基于张量量化的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106529435B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875957B (zh) * | 2017-05-11 | 2019-07-12 | 北京异构智能科技有限公司 | 原生张量处理器及使用原生张量处理器的系统 |
CN107247575A (zh) * | 2017-06-06 | 2017-10-13 | 上海德衡数据科技有限公司 | 一种多路数据浮点处理器原型 |
CN107247576A (zh) * | 2017-06-06 | 2017-10-13 | 上海德衡数据科技有限公司 | 一种多路数据分块浮点量化处理架构 |
CN108280466B (zh) * | 2018-01-12 | 2021-10-29 | 西安电子科技大学 | 基于加权核范数最小化的极化sar特征分类方法 |
CN112257857B (zh) * | 2019-07-22 | 2024-06-04 | 中科寒武纪科技股份有限公司 | 张量处理方法及相关产品 |
CN112396028A (zh) * | 2020-11-26 | 2021-02-23 | 中山大学 | 一种基于局部边际最大化的动作识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299241A (zh) * | 2008-01-14 | 2008-11-05 | 浙江大学 | 基于张量表示的多模态视频语义概念检测方法 |
CN103218617A (zh) * | 2013-05-13 | 2013-07-24 | 山东大学 | 一种多线性大间距的特征提取方法 |
CN105956603A (zh) * | 2016-04-15 | 2016-09-21 | 天津大学 | 一种基于张量时域关联模型的视频序列分类方法 |
-
2016
- 2016-10-24 CN CN201610938569.1A patent/CN106529435B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299241A (zh) * | 2008-01-14 | 2008-11-05 | 浙江大学 | 基于张量表示的多模态视频语义概念检测方法 |
CN103218617A (zh) * | 2013-05-13 | 2013-07-24 | 山东大学 | 一种多线性大间距的特征提取方法 |
CN105956603A (zh) * | 2016-04-15 | 2016-09-21 | 天津大学 | 一种基于张量时域关联模型的视频序列分类方法 |
Non-Patent Citations (2)
Title |
---|
A spatial-temporal iterative tensor decomposition technique for action and gesture recognition;Yuting Su 等;《Multimedia Tools and Applications》;20151216;第76卷(第8期);10635-10652 * |
基于张量表示的多维信息处理方法研究;郭炜炜;《中国博士学位论文全文数据库》;20151115(第11期);I138-26 * |
Also Published As
Publication number | Publication date |
---|---|
CN106529435A (zh) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529435B (zh) | 基于张量量化的动作识别方法 | |
Cheng et al. | An analysis of generative adversarial networks and variants for image synthesis on MNIST dataset | |
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN107229757B (zh) | 基于深度学习和哈希编码的视频检索方法 | |
Johnstone et al. | On consistency and sparsity for principal components analysis in high dimensions | |
Liu et al. | A system for analyzing and indexing human-motion databases | |
CN106503659B (zh) | 基于稀疏编码张量分解的动作识别方法 | |
CN107507253B (zh) | 基于高阶张量近似的多属性体数据压缩方法 | |
CN110113607B (zh) | 一种基于局部与非局部约束的压缩感知视频重建方法 | |
JP5051746B2 (ja) | 特徴抽出装置及び方法並びにプログラム | |
CN107730482A (zh) | 一种基于区域能量和方差的稀疏融合算法 | |
Giveki et al. | A new content based image retrieval model based on wavelet transform | |
CN106960420B (zh) | 一种分段迭代匹配追踪算法的图像重构方法 | |
CN108573241B (zh) | 一种基于融合特征的视频行为识别方法 | |
Niu et al. | Machine learning-based framework for saliency detection in distorted images | |
CN106803105B (zh) | 一种基于稀疏表示字典学习的图像分类方法 | |
CN106599903A (zh) | 基于相关性的加权最小二乘字典学习的信号重构方法 | |
Xie et al. | Learning cycle-consistent cooperative networks via alternating MCMC teaching for unsupervised cross-domain translation | |
EP3655862B1 (en) | Multiscale quantization for fast similarity search | |
Lalos et al. | Adaptive compression of animated meshes by exploiting orthogonal iterations | |
JP2006065863A (ja) | 画像マッチングのための適応可能な色情報 | |
Farsi et al. | Combining Hadamard matrix, discrete wavelet transform and DCT features based on PCA and KNN for image retrieval | |
CN107169423B (zh) | 一种视频人物运动类型识别方法 | |
Bouche et al. | Nonlinear functional output regression: A dictionary approach | |
CN114663802B (zh) | 基于特征时空约束的监控视频跨模态视频迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191015 Termination date: 20211024 |
|
CF01 | Termination of patent right due to non-payment of annual fee |