CN104463242A

CN104463242A - 基于特征变换和词典学习的多特征动作识别方法

Info

Publication number: CN104463242A
Application number: CN201410632838.2A
Authority: CN
Inventors: 张桦; 高赞; 张燕; 汪日伟; 徐光平; 薛彦兵
Original assignee: Tianjin University of Technology
Current assignee: Beijing Azuaba Technology Co.,Ltd.
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2015-03-25
Anticipated expiration: 2034-11-12
Also published as: CN104463242B

Abstract

本发明公开了一种基于特征变换和词典学习的多特征动作识别方法，实现了对基于多特征动作识别的不同特征内在关系的挖掘。具体包含以下步骤：(1)视频预处理，(2)不同特征提取，(3)码书构建和基于“词袋”方法的特征归一化，(4)基于特征变换和词典学习的模型构建，(5)基于多特征重建和特征变换的动作识别模型构建，(6)基于稀疏表征的动作识别。本发明的优点是通过对特征变换和词典同时进行学习，充分挖掘不同特征的内在关联特性，实现人体动作的高效识别。

Description

基于特征变换和词典学习的多特征动作识别方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于特征变换和词典学习的多特征动作识别方法，用于挖掘不同特征的内在的关联性，在人体动作识别领域，验证了特征变换和词典学习的有效性。

背景技术

基于视觉的人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研究热点，并因其在智能监控、便捷的人机交互、数字娱乐等领域的潜在应用受到学术界和工业界的密切关注。早期的很多研究提出了许多不同的算法，它们大体可以分为两类：1)特征层，有许多研究者提出了很多不同的人体动作检测和描述方法，例如，运动历史直方图、运动能量图像、STIP特征、MoSIFT、DSTIP、3D-SIFT和GIST等不同特征；2)分类器层，同样，有许多研究者针对动作本身所具有的特性，设计了许多不同的分类器，例如，支持向量机、稀疏化分类器、条件随机场、隐马尔科夫随机场和深度神经网络等。然而，由于早期的人体动作识别大多是在可人为控制的特定实验环境下进行，即通过固定或控制光照、视角、距离和被关注对象位置等外因来简化问题，从而提高动作识别的准确率。但是，随着应用的不断推广，在可控环境下的现有研究成果往往无法适应于实际的多样化需求。当前的真实应用系统往往存在严重的遮挡、视角变化和被关注对象位置变化等多种外因带来的影响，因此，通过单视角或单特征无法准确的描述对应的动作，因此，研究者常常通过多摄像头监控系统的搭建和多特征的提取来提高人体动作识别的性能。因此，挖掘人体动作的视觉特性，融合多视角或多特征信息，成为当前研究热点。

在计算机视觉和模式识别相关研究领域中，特征融合一直是最活跃的研究领域之一。由于不同特征能够从不同方面更为全面的表征对应的动作，它们之间存在一定的互补特性。研究者们常常通过前期融合或后期融合对这些特征进行融合，虽然能够在一定程度上提高识别性能，但是该提高非常有限，无法充分挖掘不同特征之间的内在关联特性，且维数的增加也使得识别更为困难。

发明内容

本发明的目的是解决针对基于多特征的动作识别中，常用方法无法充分挖掘不同特征的内在关联性的问题，提供一种高效的基于特征变换和词典学习的多特征动作识别方法，用于充分地挖掘多特征的内在关联，并在人体动作识别中进行了验证。

本发明提供的基于特征变换和词典学习的多特征动作识别方法，用于挖掘多特征的内在的关联性，从而为高效的人体动作识别提供帮助，该方法具体包含以下步骤：

第1、视频预处理

由于从设备中采集的深度数据包括许多噪声、空洞，所以需要使用平滑和修补算法过滤噪声和修补空洞；对于经过上述处理的数据，由于含有复杂的背景，这些背景会对后续的处理造成干扰，所以需要根据距离信息先将人体和背景进行分割，并尽可能的保留人体；

第2、不同特征提取

针对不同动作的深度图像序列，分别提取GIST特征和DSTIP时空兴趣点特征，并保存对应的结果；

第3、码书构建和特征的归一化

由于不同视频中所提取的DSTIP时空兴趣点数目不一样，为了能够进行归一化，首先，采用K-means方法训练对应的码书，其次，采用“词袋”方法对这些时空兴趣点进行归一化，并保存对应的结果，同时，对GIST特征采用L2方法对其进行归一化，作为对应动作的最后特征；

第4、特征变换和词典学习正则项制定及模型构建

在第3步处理后的特征基础上，为了挖掘不同特征的内在关系，因此，为不同特征同时学习词典对，且不同特征的稀疏表征系数之间满足矩阵变换关系，同时，使得矩阵系数尽可能的小，因此，构建模型如下：

J_{< D_{i}, D_{j}, W >} = \arg \min_{< D_{i}, D_{j}, W >} \{\begin{matrix} | | F_{i} - D_{i} X {| |}_{2}^{2} + {| | F_{j} - D_{j} Y | |}_{2}^{2} \\ + λ_{1} {| | X | |}_{1} + λ_{2} {| | Y | |}_{1} \\ + λ_{3} {| | X - W * Y | |}_{2}^{2} + λ_{4} {| | W | |}_{2}^{2} \end{matrix}\} - - - (1)

其中，D_i和D_j分别表示对应特征i和特征j的词典，F_i和F_j分别表示训练集中对应特征i和特征j的矩阵，X表示F_i使用词典D_i对其进行重建时，对应的重建系数矩阵，而Y表示F_j使用词典D_j对其进行重建时，对应的重建系数矩阵；W表示特征变换矩阵，表示使用两种不同特征对样本进行重建时，不同的重建系数矩阵不一定要完全相同，但是必须满足Y---X＝W*Y，这样不同特征之间的关系通过变换矩阵进行刻画；

第5、基于多特征重建和特征变换的动作识别模型构建

在第4步获得的特征变换矩阵W和词典D_i和D_j的基础上，利用词典对对测试样本进行表征，计算对应的表征系数，同时，要求表征系数之间尽可能的满足特征变换矩阵，这样，获得的表征系数具有较好的区分性，其具体的模型如下：

< \hat{x}, \hat{y} > = \arg \min_{< x, y >} \{\begin{matrix} {| | f_{i} - D_{i} x | |}_{2}^{2} + {| | f_{i} - D_{i} y | |}_{2}^{2} + λ_{1} {| | x | |}_{1} \\ + λ_{2} {| | y | |}_{1} + λ_{3} {| | x - W * y | |}_{2}^{2} + λ_{4} {| | W | |}_{2}^{2} \end{matrix}\} - - - (2)

其中，D_i和D_j分别表示对应特征i和特征j的词典，f_i和f_j分别表示测试样本对应的特征i和特征j，x表示f_i使用词典D_i对其进行重建时，对应的重建系数，而y表示f_j使用词典D_j对其进行重建时，对应的重建系数；W表示特征变换矩阵，表示使用两种不同特征对样本进行重建时，不同的重建系数应该尽可能的满足y---y＝x*W；

第6、基于稀疏表征的动作识别

根据第5步获得的特征表征系数，采用不同类的表征系数分别重建测试样本，计算对应的残差。当采用某类表征系数重建样本残差最小时，该测试样本的类别即判断为对应的类。

本发明的优点和有益效果；

1)充分分析人体动作的特性，提取不同特征对其进行描述，且分析特征之间的关联特性，2)根据分析结果，设计特征变换和词典学习正则项，构建对应的目标函数，充分挖掘它们内在的关联特性。

附图说明

图1为本发明的流程图。

图2为“打拳”动作对应的(a)深度图，(b)传统的运动历史直方图，(c)深度差值运动历史直方图。

图3为不同动作下提取的DSTIP时空兴趣点示意图。

图4为基于“词袋”方法对时空兴趣点的投影和归一化流程。

图5为不同特征在数据集IXMAS上对应的性能。

图6为不同特征通过前期融合后在数据集IXMAS上对应的性能，GIST_DSTIP表示GIST特征和DSTIP特征串联在一块，其它含义类似。

图7为不同特征通过本发明中基于特征变换和词典学习方法在数据集IXMAS上对应的性能。

图8为本发明与其它算法在数据集IXMAS上性能的比较，其中图8中对应的文献如下所示

[1]Lu Xia and J.K.Aggarwal,Spatio-Temporal Depth Cuboid Similarity Feature forActivity Recognition Using Depth Camera,24th IEEE Conference on Computer Vision andPattern Recognition(CVPR),Portland,Oregon,June 2013.

[2]Jiang Wang,Zicheng Liu,Ying Wu,Jusong Yuan,Mining actionlet ensemble for actionrecognition with depth cameras,in CPRR 2012,pp.1290–1297.

[3]Omar Oreifej and Zicheng Liu,HON4D:Histogram of Oriented 4D Normals forActivity Recognition from Depth Sequences,,CVPR 2013,Portland,Oregon,June 2013.

[4]X.Yang,and Y.Tian.EigenJoints-based Action Recognition Using-Bayes-Nearest-Neighbor[C].IEEE Workshop on CVPR.2012,page(s):14-19.

[5]Antonio W.Vieira,Erickson R,Nascimento and Gabriel L.Oliveira,et al.STOP:space-time occupancy patterns for 3D action recognition from depth map sequences.InProceeding of 17th Iberoamerican Congress on Pattern Recognition 2012,252-259.

[6]W.Li,Z.Zhang,and Z.Liu.Action recognition based on a bag of 3D points.In HumanCommunicative Behavior Analysis Workshop(in conjunction with CVPR),2010.2,5,6.

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1

如图1所示，为本发明的一种基于协同表示和判别准则的多视角联合动作词典学习方法的操作流程图，该方法的操作步骤包括：

步骤10视频预处理

由于从设备中采集的深度数据包括许多噪声、空洞，所以使用中值滤波对其进行平滑和去噪，同时，当某个或某些像素点出现空洞时，使用其周围的8个像素的中值进行替代，从而修补对应的空洞。对于经过上述处理的数据，由于含有复杂的背景，这些背景会对后续的处理造成干扰，所以需要根据距离信息先将人体和背景进行分割，并尽可能的保留人体。在具体实现中，当在深度图像中遇到空洞时，采用其周边像素的中值替代空洞的值，而人体与背景的分割，则根据距离信息进行处理。具体为：统计所有像素的距离分布，找出其最大值和最小值，当某个像素的值大于最大值的百分之八十时，则认为该像素是背景信息；如果某个像素值小于2倍的最小值，则认为是前景干扰因素；这样，其它情况则认为是人体信息。具体定义如下所示：

D (i, j) = \{\begin{matrix} 0 & if D (i, j) > Thresl or D (i, j) < Thres 2 \\ D (i, j) & else \end{matrix}

其中D(i,j)代表深度图像中像素(i,j)的深度值，Thres1,Thred2代表两个不同的阈值，且Thres1>Thred2，在IXMAX数据集的具体实施例中，根据实验统计，距离的最大值和最小值分别为：Max＝3.25,Min＝0.5，则Thres1＝2.6，Thred2＝1。

步骤20不同特征提取

由于相同动作之间存在较大的差异性，仅使用单一特征无法充分地对其进行描述，因此，本发明中提取了两种具有互补特性的特征(GIST和DSTIP)，它们提取的过程分别为：

针对不同动作的深度视频序列，GIST提取过程为：

1)针对每个非零像素，计算N帧中该像素位置的最大值和最小值，获得对应的最大值和最小值图像，将这两幅图像做差，并取绝对值，获得对应的正视图下的目标运动历史变化过程，其效果图如图2(c)所示，具体定义如下所示：

I_max(i,j)＝max{Depth(i,j,t):Depth(i,j,t)≠0,t∈[1...N]} (4)

I_min(i,j)＝min{Depth(i,j,t):Depth(i,j,t)≠0,t∈[1...N]} (5)

I_diff＝I_max-I_min (6)

其中Depth(i,j,t)表示帧t在像素位置(i,j)的深度值，I_max代表N帧中每个非零像素位置的最大值，I_min代表N帧中每个非零像素位置的最小值，I_diff代表N帧的深度差值运动历史图像。

2)在运动历史图像的基础上，采用4个尺度和8个方向的Gist描述子对其进行描述，获得对应512维的特征，Gist特征的具体方法见：Oliva A；Torralba A Modeling the Shape ofthe Scene:A Holistic Representation of the Spatial Envelope,International Journal of ComputerVision,42(3):145-175,2001.

针对不同动作的深度视频序列，DSTIP的提取过程为：该特征提取过程与STIP提取过程非常类似，STIP特征主要应用于RGB视频，而DSTIP特征则主要应用于深度视频序列，该特征的具体提取过程参见如下参考文献，其提取结果见图3。Lu Xia and J.K.Aggarwal,Spatio-Temporal Depth Cuboid Similarity Feature for Activity Recognition UsingDepth Camera,24th IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Portland,Oregon,June 2013.

步骤30码书构建和基于“词袋”的特征归一化

在步骤20中已经为不同动作提取了DSTIP时空兴趣点，在步骤20的基础上，采用K-Means方法，为所有动作构建码字大小为1000的共有码书，然后，针对每个动作视频下所提取的时空兴趣点，采用“词袋”方法，分别将这些时空兴趣点特征投影到共有码书上，并采用各自动作的兴趣点数目进行归一化，实现对其动作的描述，其提取结果如图4所示，具体方法见Jun Yang,Yu-Gang Jiang,Alexander G.Hauptmann etc,Evaluatingbag-of-visual-words representations in scene classification[C],International MultimediaConference,MM'07,2007,197-206.

步骤40基于特征变换和词典学习的模型构建

虽然目前已经提出了许多不同的人体动作特征，然而，在实际生活中，由于遮挡、光照、视角变化等因素，造成使用单一特征无法完整的描述对应动作，因此，已有研究者尝试使用多特征对动作进行描述，并融合这些不同的特征，在多特征融合中，他们通常使用前期融合或后期融合，虽然这些融合方法也具有一定的效果，但是它们无法深层次的挖掘不同特征之间的内在关系。因此，为了解决该问题，拟通过特征变换和词典学习模型的构建，挖掘不同特征之间的内在关联特性。其具体定义为：

J_{< D_{i}, D_{j}, W >} = \arg \min_{< D_{i}, D_{j}, W >} \{\begin{matrix} | | F_{i} - D_{i} X {| |}_{2}^{2} + {| | F_{j} - D_{j} Y | |}_{2}^{2} \\ + λ_{1} {| | X | |}_{1} + λ_{2} {| | Y | |}_{1} \\ + λ_{3} {| | X - W * Y | |}_{2}^{2} + λ_{4} {| | W | |}_{2}^{2} \end{matrix}\} - - - (7)

其中，D_i和D_j分别表示对应特征i和特征j的词典，F_i和F_j分别表示训练集中对应特征i和特征j的矩阵，X表示F_i使用词典D_i对其进行重建时，对应的重建系数矩阵，而Y表示F_j使用词典D_j对其进行重建时，对应的重建系数矩阵。W表示特征变换矩阵，表示使用两种不同特征对样本进行重建时，不同的重建系数矩阵不一定要完全相同，但是必须满足Y---X＝W*Y，这样不同特征之间的关系通过变换矩阵进行刻画。目标函数中前两项表示使用词典D_i和D_j分别对其F_i和F_j进行重建时，对应的重建误差，而表示特征变换保真项，反映不同特征的重建系数之间映射的残差，而表示重建系数和映射矩阵的稀疏性，λ_i(i＝1～4)是标量常数，用于控制其对应项的贡献程度，而||*||₁和||*||₂分别表示1和2范数。

在构建完目标函数后，需要求解该目标函数，学习得到对应不同特征的词典和特征之间的映射矩阵，然而，该目标函数对(D_i,D_j,W)不是联合凸函数，不具有凸性，但是当(D_i,D_j)或W中某个变量固定时，该目标函数变为凸函数，因此，通过坐标下降法对该目标函数进行求解迭代，从而获得对应不同特征的词典以及特征变换矩阵。具体方法见：

[1]Jenatton,R.,Obozinski,G.,Bach,F.:Structured sparse principal component analysis.In:AISTATS,pp.366–373(2010)；

[2]B.Efron,T.Hastie,I.Johnstone,and R.Tibshirani.Least angle regression.The Annals ofstatistics,32(2):407–499,2004.4；

需要特别指出之处是，在该目标函数中，不同特征的词典以及它们重建系数之间的映射矩阵共同进行学习，这样，不仅能最大程度上重建对应的样本，同时，还考虑了它们重建系数的关联型，充分挖掘不同特征的内在关联。在具体实现中λ_i(i＝1～4)的取值范围为[1,0.5,0.1,0.05,0.01,0.005,0.001,0.0005,0.0001]；

步骤50基于多特征重建和特征变换的动作识别模型构建

在步骤40的基础上，首先对测试样本分别提取GIST和DSTIP特征，同时，使用步骤40中已获得的词典对测试样本进行重建，获得对应的重建系数，用于动作识别。在重建系数的获取过程中，拟构建基于多特征重建和特征变换的动作识别模型，具体定义为：

< \hat{x}, \hat{y} > = \arg \min_{< x, y >} \{\begin{matrix} {| | f_{i} - D_{i} x | |}_{2}^{2} + {| | f_{i} - D_{i} y | |}_{2}^{2} + λ_{1} {| | x | |}_{1} \\ + λ_{2} {| | y | |}_{1} + λ_{3} {| | x - W * y | |}_{2}^{2} + λ_{4} {| | W | |}_{2}^{2} \end{matrix}\} - - - (8)

其中，D_i和D_j分别表示对应特征i和特征j的词典，f_i和f_j分别表示测试样本对应的特征i和特征j，x表示f_i使用词典D_i对其进行重建时，对应的重建系数，而y表示f_j使用词典D_j对其进行重建时，对应的重建系数。W表示特征变换矩阵，表示使用两种不同特征对样本进行重建时，不同的重建系数应该尽可能的满足y---y＝x*W。其它参数含义与公式(5)中参数含义一样。同样，该目标函数对x或y是凸的，基于坐标下降法对其进行求解，获得对应的重建系数。在具体实现中λ_i(i＝1～4)的取值范围为[1,0.5,0.1,0.05,0.01,0.005,0.001,0.0005,0.0001]；

步骤60基于稀疏表征的动作识别方法

在重建系数的基础上，将重建系数和词典，根据动作类别进行分类，仅保留某个动作的词典和重建系数，并对样本进行重建，计算每个动作的重建误差。假设某个数据集有N个类别动作，则分别将步骤40所学习的词典和步骤50中学习到的重建系数，根据动作类别进行划分，即

D_{i} = {D_{i}^{q}}_{q = 1}^{N}, D_{j} = {D_{j}^{q}}_{q = 1}^{N}, x = {x^{q}}_{q = 1}^{N}

和当重建误差最小时，对应的动作类别即为待测样本的类别，具体定义为：

error (q) = {| | f_{i} - D_{i}^{q} {\hat{x}}^{q} | |}_{2}^{2} / {| | {\hat{x}}^{q} | |}_{2}^{2} + {| | f_{i} - D_{j}^{q} {\hat{y}}^{q} | |}_{2}^{2} / {| | {\hat{y}}^{q} | |}_{2}^{2} - - - (9)

其中q为动作类别，f_i和f_j分别表示测试样本对应的特征i和特征j，和分别表示特征i和特征j对应动作q的最优化重建系数，表示对应动作q和特征i词典，表示对应动作q和特征j词典，同理，具体方法可以参考：J.Wright,A.Yang,A.Ganesh,S.Sastry,and Y.Ma.Robust face recognition via sparse representation.IEEE Trans.on PatternAnalysis and Machine Intelligence,2009。

通过对(7)式的最优求解，不仅能够在多特征空间中自动地寻找最优的基，从而有利于解决由于视角变化、遮挡、距离远近和关注目标本身位置变化等造成单一特征无法完整描述带来的干扰，而且充分挖掘不同特征之间的内在关联。而通过(8)和(9)式的求解，求出对应的重建稀疏系数，并对其进行识别。

为了验证本发明的有效性，在公开的动作数据集IXMAX上进行了评测，除了GIST和DSTIP特征之外，还有Gabor和7-Hu矩特征，不同特征的性能如图5所示，而不同特征的前期融合性能如图6所示，采用本发明中的特征融合方法的性能如图7所示，最后，本发明的性能与其它算法性能的比较如图8所示。从这些图可以看出，本发明提出的基于特征变换和词典学习的动作识别方法具有较好的性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于特征变换和词典学习的多特征动作识别方法，用于挖掘不同特征的内在关联特性，以实现高效率的动作识别，其特征在于该方法具体包含以下步骤：