CN106503659B - 基于稀疏编码张量分解的动作识别方法 - Google Patents
基于稀疏编码张量分解的动作识别方法 Download PDFInfo
- Publication number
- CN106503659B CN106503659B CN201610933077.3A CN201610933077A CN106503659B CN 106503659 B CN106503659 B CN 106503659B CN 201610933077 A CN201610933077 A CN 201610933077A CN 106503659 B CN106503659 B CN 106503659B
- Authority
- CN
- China
- Prior art keywords
- video sequence
- tensor
- matrix
- mapping matrix
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种基于稀疏编码张量分解的动作识别方法:将原始的视频序列表征为一个三阶的视频序列张量T表示视频序列长度,I1×I2表示视频帧的大小;对三阶的视频序列张量进行Tucker分解获得空域维度减少的核张量;将视频序列张量缩放到相同的尺度;动态学习上述过程更新结果直到算法收敛结果达到最优。本发明的基于稀疏编码张量分解的动作识别方法,能够将视频序列处理为统一的长度——稀疏编码张量分解技术。在这个过程中通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本发明的方法降低了手势识别的难度,提高了手势识别的准确性,为后续的视频序列分类提供了良好的条件,提升视频序列分类的准确率。
Description
技术领域
本发明涉及一种动作识别方法。特别是涉及一种基于稀疏编码张量分解的动作识别方法,
背景技术
随着可以获得的视频数量的急剧增加,基于内容的视频分析已经在视频检索、动作识别、视频摘要等领域引起了极大的关注。与其他人体部位相比较,由于手势其手和手指具有很高的灵巧度,因此它是最有效的和通用的与外界交互的方式。作为人类动作语义分析中的重要组成部分,手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。
手势识别的目的可以看作是对视频序列进行分类。在最近几年,出现了一些有关于手势识别的工作,但是对于现实的应用领域设计一个强有力的手势识别算法仍然是一个极具挑战性的问题,尤其是对于那些非常复杂的动作。为了去更好的解决这个问题,多重线性代数作为分析多维数据类型(张量)的一个强有力的的工具已经应用到了手势识别问题当中。既然人体动作随时间的变化可以表示为一个视频帧序列,那么张量就可以很自然的将动作序列表征为一个三阶张量的形式。基于张量分解的技术,已经提出了许多的手势识别算法;他们都是通过将视频序列转化为张量的形式而不是传统的向量或者矩阵的形式去测量视频序列之间的相似度。将视频转换为向量或矩阵的形式不仅会造成视频中所包含的原始数据信息丢失,而且还会破坏视频帧与帧之间的相关性。同时原始视频序列中会伴有各种各样的噪声,传统的将其转换为向量或矩阵的方式并不能够去除冗余。因此本发明提出了用张量去建模视频序列,并且用张量分解技术对建模后的张量视频序列进行处理。
两种非常值得注意的张量分解方式为CP分解和Tucker分解。这两种分解方式的主要不同点在于CP分解是将一个张量分解为许多的一秩张量之和的形式,Tucker是主成分分析的一种高阶的形式。然而在这些基于张量分解去对视频进行分类的方法中,存在一个基本的然而却被忽视的问题:所有的视频序列在时间维度上都需要有统一的视频序列长度。当前用一个确定时间轴长度去标准化视频序列的最普遍的方式是从视频序列中挑选中间的一些帧去建立一个新的视频序列,使这些视频序列的长度统一。然而这种操作方式会导致以下的不足之处:1)新构建的视频序列不能够全面的表征手势;2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧。
发明内容
本发明所要解决的技术问题是,提供一种能够提高手势识别的准确率并且便于后续视频序列分类的基于稀疏编码张量分解的动作识别方法。
本发明所采用的技术方案是:一种基于稀疏编码张量分解的动作识别方法,包括如下步骤:
3)将视频序列张量缩放到相同的尺度;
4)动态学习步骤2)和步骤3)更新结果直到算法收敛结果达到最优。
其中,F=Α×1U1×2U2,则视频序列张量C简写为:
C=F×3U3 (2)。
步骤3)包括:
(1)构建目标函数
为了将视频缩放到相同的尺度,对映射矩阵U3采用关键帧选择(类似于特征选择)的措施:采用稀疏编码的方法从F中选取最优的K帧构成词典,其中K<T,在此基础上用有限的基重构原始的视频序列,对F按照时间域展开得到令张量展开矩阵设定目标函数如下:
其中矩阵L可以通过初始化词典B={b1,…,bk…,bK}得到。
目标函数转换如下形式:
假定存在线性函数G=f(B),即满足G=BU3,则映射矩阵U3=B+G,其中B+为B的伪逆;
(2)求解目标函数
先应用词典学习的方法寻找最佳的关键帧构成词典B进而得到映射矩阵U3,再用交替迭代的方法得出映射矩阵U1和U2,最终得出等长的视频序列;具体包括
(a)寻找最佳的关键帧构成词典B
定义其中1≤k≤K,通过如下函数寻找使得误差最小的列
更新、计算对角矩阵S和视频序列张量C,并重该(a)步直至收敛,利用映射矩阵U3=B+G得到映射矩阵U3;
(b)求解映射矩阵U1和映射矩阵U2
首先给定视频序列张量Α,随机初始化映射矩阵U1和映射矩阵U2,根据下式:
F=Α×1U1×2U2 (9)
对F展开得到矩阵利用视频序列张量C的算法求解映射矩阵U3,应用交替下降法以及特征值分解法将映射矩阵U1及映射矩阵U3作为已知求解映射矩阵U2,将映射矩阵U2及映射矩阵U3作为已知求解映射矩阵U1,重该(b)步直至收敛。
步骤4)包括:
动态的循环迭代步骤2)和步骤3)直到算法收敛,每循环迭代一次算法会更新一次映射矩阵U1,U2,U3和等长的视频序列张量C,最终所得的等长视频序列张量C是在空域上对原始的视频进行了空间降维去噪处理,在时域上进行降维后仍然可以体现原始视频的时序信息同时保留了等长视频序列张量C在时域上的连续性;
在得到等长的视频序列张量C后,采用积流行的方法对视频序列张量C进行分类,每个张量在积流行中映射为一个点,然后在积流行中计算每两个点的测地线距离,来对张量视频序列C进行分类。
本发明的基于稀疏编码张量分解的动作识别方法,能够将视频序列处理为统一的长度——稀疏编码张量分解技术。在这个过程中通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本发明的方法降低了手势识别的难度,提高了手势识别的准确性,为后续的视频序列分类提供了良好的条件,提升视频序列分类的准确率。
附图说明
图1是基于稀疏编码张量分解技术的动作识别方法流程图。
具体实施方式
下面结合实施例和附图对本发明的基于稀疏编码张量分解的动作识别方法做出详细说明。
基于稀疏编码张量分解的动作识别方法,其特征在于,包括如下步骤:
1)将原始的视频序列表征为一个三阶的视频序列张量T表示视频序列长度,I1×I2表示视频帧的大小;相对于传统的将视频中的每一帧提取特征然后用这些特征去进行识别分类的方法相比,将一个视频序列整体构建为一个三阶张量的形式可以保留视频中的全部信息不造成信息的丢失,而且张量及张量分解技术当今已非常成熟,也为后续的算法设计奠定了良好的基础。
其中,F=Α×1U1×2U2,则视频序列张量C简写为:
C=F×3U3 (2)。
3)将视频序列张量缩放到相同的尺度;包括:
(1)构建目标函数
为了将视频缩放到相同的尺度,对映射矩阵U3采用关键帧选择(类似于特征选择)的措施:采用稀疏编码的方法从F中选取最优的K帧构成词典,其中K<T,在此基础上用有限的基重构原始的视频序列,对F按照时间域展开得到令张量展开矩阵设定目标函数如下:
其中,定义词典为从F中选取的K帧向量构成的基,定义表示去掉GS矩阵的全零列后构成的矩阵,λ,β为惩罚因子。同时可得:
其中矩阵L可以通过初始化词典B={b1,…,bk…,bK}得到
目标函数转换如下形式:
假定存在线性函数G=f(B),即满足G=BU3,则映射矩阵U3=B+G,其中B+为B的伪逆;
(2)求解目标函数
先应用词典学习的方法寻找最佳的关键帧构成词典B进而得到映射矩阵U3,再用交替迭代的方法得出映射矩阵U1和U2,最终得出等长的视频序列;具体包括
(a)寻找最佳的关键帧构成词典B
更新、计算对角矩阵S和视频序列张量C,并重该(a)步直至收敛,利用映射矩阵U3=B+G得到映射矩阵U3;
(b)求解映射矩阵U1和映射矩阵U2
首先给定视频序列张量Α,随机初始化映射矩阵U1和映射矩阵U2,根据下式:
F=Α×1U1×2U2 (9)
对F展开得到矩阵利用视频序列张量C的算法求解映射矩阵U3,应用交替下降法以及特征值分解法将映射矩阵U1及映射矩阵U3作为已知求解映射矩阵U2,将映射矩阵U2及映射矩阵U3作为已知求解映射矩阵U1,重该(b)步直至收敛。
4)动态学习步骤2)和步骤3)更新结果直到算法收敛结果达到最优,包括:
动态的循环迭代步骤2)和步骤3)直到算法收敛,每循环迭代一次算法会更新一次映射矩阵U1,U2,U3和等长的视频序列张量C,经过这种动态的循环迭代过程,最终所得的等长视频序列张量C是在空域上对原始的视频进行了空间降维去噪处理,在时域上进行降维后仍然可以体现原始视频的时序信息同时保留了等长视频序列张量C在时域上的连续性。
在得到等长的视频序列张量C后,采用积流行的方法(Y.M.Lui,J.R.Beveridge,and M.Kirby,“Action classification on product manifolds,”In Proceedings ofthe International Conference on Computer Vision and Pattern Recognition,2010,pp.833–839.)对等长视频序列张量C进行分类,每个张量在积流行中映射为一个点,然后在积流行中计算每两个点的测地线距离,来对等长视频序列张量C进行分类。
Claims (3)
1.一种基于稀疏编码张量分解的动作识别方法,其特征在于,包括如下步骤:
3)将视频序列张量缩放到相同的尺度;包括:
(1)构建目标函数
为了将视频缩放到相同的尺度,对映射矩阵U3采用关键帧选择的措施:采用稀疏编码的方法从F中选取最优的K帧构成词典,其中K<T,在此基础上用有限的基重构原始的视频序列,对F按照时间域展开得到令张量展开矩阵设定目标函数如下:
其中矩阵L通过初始化词典B={b1,…,bk…,bK}得到;
目标函数转换如下形式:
假定存在线性函数G=f(B),即满足G=BU3,则映射矩阵U3=B+G,其中B+为B的伪逆;
(2)求解目标函数
先应用词典学习的方法寻找最佳的关键帧构成词典B进而得到映射矩阵U3,再用交替迭代的方法得出映射矩阵U1和U2,最终得出等长的视频序列;具体包括
(a)寻找最佳的关键帧构成词典B
定义其中1≤k≤K,通过如下函数寻找使得误差最小的列
更新、计算对角矩阵S和视频序列张量C,并重迭代(a)步直至收敛,利用映射矩阵U3=B+G得到映射矩阵U3;
(b)求解映射矩阵U1和映射矩阵U2
首先给定视频序列张量Α,随机初始化映射矩阵U1和映射矩阵U2,根据下式:
F=Α×1U1×2U2 (9)
对F展开得到矩阵利用视频序列张量C的算法求解映射矩阵U3,应用交替下降法以及特征值分解法将映射矩阵U1及映射矩阵U3作为已知求解映射矩阵U2,将映射矩阵U2及映射矩阵U3作为已知求解映射矩阵U1,重该迭代(b)步直至收敛;
4)动态学习步骤2)和步骤3)更新结果直到算法收敛结果达到最优。
3.根据权利要求1所述的基于稀疏编码张量分解技术的动作识别方法,其特征在于,步骤4)包括:
动态的循环迭代步骤2)和步骤3)直到算法收敛,每循环迭代一次算法会更新一次映射矩阵U1,U2,U3和等长的视频序列张量C,最终所得的等长视频序列张量C是在空域上对原始的视频进行了空间降维去噪处理,在时域上进行降维后仍然可以体现原始视频的时序信息同时保留了等长视频序列张量C在时域上的连续性;
在得到等长的视频序列张量C后,采用积流行的方法对视频序列张量C进行分类,每个张量在积流行中映射为一个点,然后在积流形中计算每两个点的测地线距离,来对张量视频序列C进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610933077.3A CN106503659B (zh) | 2016-10-24 | 2016-10-24 | 基于稀疏编码张量分解的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610933077.3A CN106503659B (zh) | 2016-10-24 | 2016-10-24 | 基于稀疏编码张量分解的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106503659A CN106503659A (zh) | 2017-03-15 |
CN106503659B true CN106503659B (zh) | 2019-10-15 |
Family
ID=58319794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610933077.3A Expired - Fee Related CN106503659B (zh) | 2016-10-24 | 2016-10-24 | 基于稀疏编码张量分解的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503659B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247575A (zh) * | 2017-06-06 | 2017-10-13 | 上海德衡数据科技有限公司 | 一种多路数据浮点处理器原型 |
CN107247576A (zh) * | 2017-06-06 | 2017-10-13 | 上海德衡数据科技有限公司 | 一种多路数据分块浮点量化处理架构 |
CN107766839B (zh) * | 2017-11-09 | 2020-01-14 | 清华大学 | 基于3d卷积神经网络的动作识别方法和装置 |
CN108875532A (zh) * | 2018-01-25 | 2018-11-23 | 南京理工大学 | 一种基于稀疏编码和长度后验概率的视频动作检测方法 |
CN111242200B (zh) * | 2020-01-07 | 2022-11-18 | 大连理工大学 | 一种针对图像识别的最小二乘支持三阶张量机建模方法 |
CN112801142B (zh) * | 2021-01-08 | 2024-05-28 | 北京工业大学 | 一种基于张量自回归滑动平均模型的视频分类方法 |
CN114302150B (zh) * | 2021-12-30 | 2024-02-27 | 北京超维景生物科技有限公司 | 视频编码方法及装置、视频解码方法及装置、电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331450A (zh) * | 2014-10-29 | 2015-02-04 | 聂秀山 | 基于多模式特征和张量分解的视频拷贝检测方法 |
CN105956603A (zh) * | 2016-04-15 | 2016-09-21 | 天津大学 | 一种基于张量时域关联模型的视频序列分类方法 |
-
2016
- 2016-10-24 CN CN201610933077.3A patent/CN106503659B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331450A (zh) * | 2014-10-29 | 2015-02-04 | 聂秀山 | 基于多模式特征和张量分解的视频拷贝检测方法 |
CN105956603A (zh) * | 2016-04-15 | 2016-09-21 | 天津大学 | 一种基于张量时域关联模型的视频序列分类方法 |
Non-Patent Citations (2)
Title |
---|
A spatial-temporal iterative tensor decomposition technique for action and gesture recognition;Yuting Su 等;《Multimedia Tools and Applications》;20151216;第76卷(第8期);第10635-10652页 * |
基于张量表示的多维信息处理方法研究;郭炜炜;《中国博士学位论文全文数据库》;20151115(第11期);第I138-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106503659A (zh) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503659B (zh) | 基于稀疏编码张量分解的动作识别方法 | |
Cheng et al. | An analysis of generative adversarial networks and variants for image synthesis on MNIST dataset | |
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN107229757B (zh) | 基于深度学习和哈希编码的视频检索方法 | |
Wang et al. | IK-SVD: dictionary learning for spatial big data via incremental atom update | |
Jia et al. | Low-rank tensor subspace learning for RGB-D action recognition | |
CN107067367A (zh) | 一种图像超分辨重建处理方法 | |
Feng et al. | Mining spatial-temporal patterns and structural sparsity for human motion data denoising | |
CN106529435B (zh) | 基于张量量化的动作识别方法 | |
Qi et al. | TenSR: Multi-dimensional tensor sparse representation | |
Fang et al. | Flexible affinity matrix learning for unsupervised and semisupervised classification | |
Fu et al. | FERLrTc: 2D+ 3D facial expression recognition via low-rank tensor completion | |
CN105844635A (zh) | 一种基于结构字典的稀疏表示深度图像重建算法 | |
Yu et al. | Unsupervised image segmentation via Stacked Denoising Auto-encoder and hierarchical patch indexing | |
Li et al. | Efficient background modeling based on sparse representation and outlier iterative removal | |
CN110705636A (zh) | 一种基于多样本字典学习和局部约束编码的图像分类方法 | |
CN112101243A (zh) | 一种基于关键姿势和dtw的人体动作识别方法 | |
Hong et al. | Unsupervised learning of compositional sparse code for natural image representation | |
Ye et al. | Multi-manifold clustering: A graph-constrained deep nonparametric method | |
Qi et al. | Two dimensional synthesis sparse model | |
Xu | [Retracted] Fast Modelling Algorithm for Realistic Three‐Dimensional Human Face for Film and Television Animation | |
CN106485212B (zh) | 一种针对非等长视频手势识别的张量分解方法 | |
Yashas et al. | Hand gesture recognition: a survey | |
Qiu et al. | Learning transformations for classification forests | |
CN110543845A (zh) | 一种三维人脸的人脸级联回归模型训练方法及重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191015 Termination date: 20211024 |
|
CF01 | Termination of patent right due to non-payment of annual fee |