CN104463242B - 基于特征变换和词典学习的多特征动作识别方法 - Google Patents

基于特征变换和词典学习的多特征动作识别方法 Download PDF

Info

Publication number
CN104463242B
CN104463242B CN201410632838.2A CN201410632838A CN104463242B CN 104463242 B CN104463242 B CN 104463242B CN 201410632838 A CN201410632838 A CN 201410632838A CN 104463242 B CN104463242 B CN 104463242B
Authority
CN
China
Prior art keywords
msub
mrow
dictionary
msubsup
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410632838.2A
Other languages
English (en)
Other versions
CN104463242A (zh
Inventor
张桦
高赞
张燕
汪日伟
徐光平
薛彦兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Azuaba Technology Co.,Ltd.
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN201410632838.2A priority Critical patent/CN104463242B/zh
Publication of CN104463242A publication Critical patent/CN104463242A/zh
Application granted granted Critical
Publication of CN104463242B publication Critical patent/CN104463242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征变换和词典学习的多特征动作识别方法,实现了对基于多特征动作识别的不同特征内在关系的挖掘。具体包含以下步骤:(1)视频预处理,(2)不同特征提取,(3)码书构建和基于“词袋”方法的特征归一化,(4)基于特征变换和词典学习的模型构建,(5)基于多特征重建和特征变换的动作识别模型构建,(6)基于稀疏表征的动作识别。本发明的优点是通过对特征变换和词典同时进行学习,充分挖掘不同特征的内在关联特性,实现人体动作的高效识别。

Description

基于特征变换和词典学习的多特征动作识别方法
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及一种基于特征变换和词典学习的多特征动作识别方法,用于挖掘不同特征的内在的关联性,在人体动作识别领域,验证了特征变换和词典学习的有效性。
背景技术
基于视觉的人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研究热点,并因其在智能监控、便捷的人机交互、数字娱乐等领域的潜在应用受到学术界和工业界的密切关注。早期的很多研究提出了许多不同的算法,它们大体可以分为两类:1)特征层,有许多研究者提出了很多不同的人体动作检测和描述方法,例如,运动历史直方图、运动能量图像、STIP特征、MoSIFT、DSTIP、3D-SIFT和GIST等不同特征;2)分类器层,同样,有许多研究者针对动作本身所具有的特性,设计了许多不同的分类器,例如,支持向量机、稀疏化分类器、条件随机场、隐马尔科夫随机场和深度神经网络等。然而,由于早期的人体动作识别大多是在可人为控制的特定实验环境下进行,即通过固定或控制光照、视角、距离和被关注对象位置等外因来简化问题,从而提高动作识别的准确率。但是,随着应用的不断推广,在可控环境下的现有研究成果往往无法适应于实际的多样化需求。当前的真实应用系统往往存在严重的遮挡、视角变化和被关注对象位置变化等多种外因带来的影响,因此,通过单视角或单特征无法准确的描述对应的动作,因此,研究者常常通过多摄像头监控系统的搭建和多特征的提取来提高人体动作识别的性能。因此,挖掘人体动作的视觉特性,融合多视角或多特征信息,成为当前研究热点。
在计算机视觉和模式识别相关研究领域中,特征融合一直是最活跃的研究领域之一。由于不同特征能够从不同方面更为全面的表征对应的动作,它们之间存在一定的互补特性。研究者们常常通过前期融合或后期融合对这些特征进行融合,虽然能够在一定程度上提高识别性能,但是该提高非常有限,无法充分挖掘不同特征之间的内在关联特性,且维数的增加也使得识别更为困难。
发明内容
本发明的目的是解决针对基于多特征的动作识别中,常用方法无法充分挖掘不同特征的内在关联性的问题,提供一种高效的基于特征变换和词典学习的多特征动作识别方法,用于充分地挖掘多特征的内在关联,并在人体动作识别中进行了验证。
本发明提供的基于特征变换和词典学习的多特征动作识别方法,用于挖掘多特征的内在的关联性,从而为高效的人体动作识别提供帮助,该方法具体包含以下步骤:
第1、视频预处理
由于从设备中采集的深度数据包括许多噪声、空洞,所以需要使用平滑和修补算法过滤噪声和修补空洞;对于经过上述处理的数据,由于含有复杂的背景,这些背景会对后续的处理造成干扰,所以需要根据距离信息先将人体和背景进行分割,并尽可能的保留人体;
第2、不同特征提取
针对不同动作的深度图像序列,分别提取GIST特征和DSTIP时空兴趣点特征,并保存对应的结果;
第3、码书构建和特征的归一化
由于不同视频中所提取的DSTIP时空兴趣点数目不一样,为了能够进行归一化,首先,采用K-means方法训练对应的码书,其次,采用“词袋”方法对这些时空兴趣点进行归一化,并保存对应的结果,同时,对GIST特征采用L2方法对其进行归一化,作为对应动作的最后特征;
第4、特征变换和词典学习正则项制定及模型构建
在第3步处理后的特征基础上,为了挖掘不同特征的内在关系,因此,为不同特征同时学习词典对,且不同特征的稀疏表征系数之间满足矩阵变换关系,同时,使得矩阵系数尽可能的小,因此,构建模型如下:
其中,λi,i=1~4是标量常数,用于控制对应项的贡献程度,Di和Dj分别表示对应特征i和特征j的词典,Fi和Fj分别表示训练集中对应特征i和特征j的矩阵,X表示Fi使用词典Di对其进行重建时,对应的重建系数矩阵,而Y表示Fj使用词典Dj对其进行重建时,对应的重建系数矩阵;W表示特征变换矩阵,表示使用两种不同特征对样本进行重建时,不同的重建系数矩阵不一定要完全相同,但是必须满足Y---X=W*Y,这样不同特征之间的关系通过变换矩阵进行刻画;
第5、基于多特征重建和特征变换的动作识别模型构建
在第4步获得的特征变换矩阵W和词典Di和Dj的基础上,利用词典对对测试样本进行表征,计算对应的表征系数,同时,要求表征系数之间尽可能的满足特征变换矩阵,这样,获得的表征系数具有较好的区分性,其具体的模型如下:
其中,λi,i=1~4是标量常数,用于控制对应项的贡献程度,Di和Dj分别表示对应特征i和特征j的词典,fi和fj分别表示测试样本对应的特征i和特征j,x表示fi使用词典Di对其进行重建时,对应的重建系数,而y表示fj使用词典Dj对其进行重建时,对应的重建系数;W表示特征变换矩阵,表示使用两种不同特征对样本进行重建时,不同的重建系数应该尽可能的满足y---y=x*W;
第6、基于稀疏表征的动作识别
根据第5步获得的特征表征系数,采用不同类的表征系数分别重建测试样本,计算对应的残差。当采用某类表征系数重建样本残差最小时,该测试样本的类别即判断为对应的类。
本发明的优点和有益效果;
1)充分分析人体动作的特性,提取不同特征对其进行描述,且分析特征之间的关联特性,2)根据分析结果,设计特征变换和词典学习正则项,构建对应的目标函数,充分挖掘它们内在的关联特性。
附图说明
图1为本发明的流程图。
图2为“打拳”动作对应的(a)深度图,(b)传统的运动历史直方图,(c)深度差值运动历史直方图。
图3为不同动作下提取的DSTIP时空兴趣点示意图。
图4为基于“词袋”方法对时空兴趣点的投影和归一化流程。
图5为不同特征在数据集IXMAS上对应的性能。
图6为不同特征通过前期融合后在数据集IXMAS上对应的性能,GIST_DSTIP表示GIST特征和DSTIP特征串联在一块,其它含义类似。
图7为不同特征通过本发明中基于特征变换和词典学习方法在数据集IXMAS上对应的性能。
图8为本发明与其它算法在数据集IXMAS上性能的比较,其中图8中对应的文献如下所示
[1]Lu Xia and J.K.Aggarwal,Spatio-Temporal Depth Cuboid SimilarityFeature for Activity Recognition Using Depth Camera,24th IEEE Conference onComputer Vision and Pattern Recognition(CVPR),Portland,Oregon,June2013.
[2]Jiang Wang,Zicheng Liu,Ying Wu,Jusong Yuan,Mining actionletensemble for action recognition with depth cameras,in CPRR 2012,pp.1290–1297.
[3]Omar Oreifej and Zicheng Liu,HON4D:Histogram of Oriented 4DNormals for Activity Recognition from Depth Sequences,,CVPR 2013,Portland,Oregon,June 2013.
[4]X.Yang,and Y.Tian.EigenJoints-based Action Recognition Using-Bayes-Nearest-Neighbor[C].IEEE Workshop on CVPR.2012,page(s):14-19.
[5]Antonio W.Vieira,Erickson R,Nascimento and Gabriel L.Oliveira,etal.STOP:space-time occupancy patterns for 3D action recognition from depthmap sequences.In Proceeding of 17th Iberoamerican Congress on PatternRecognition 2012,252-259.
[6]W.Li,Z.Zhang,and Z.Liu.Action recognition based on a bag of 3Dpoints.In Human Communicative Behavior Analysis Workshop(in conjunction withCVPR),2010.2,5,6.
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例1
如图1所示,为本发明的一种基于协同表示和判别准则的多视角联合动作词典学习方法的操作流程图,该方法的操作步骤包括:
步骤10视频预处理
由于从设备中采集的深度数据包括许多噪声、空洞,所以使用中值滤波对其进行平滑和去噪,同时,当某个或某些像素点出现空洞时,使用其周围的8个像素的中值进行替代,从而修补对应的空洞。对于经过上述处理的数据,由于含有复杂的背景,这些背景会对后续的处理造成干扰,所以需要根据距离信息先将人体和背景进行分割,并尽可能的保留人体。在具体实现中,当在深度图像中遇到空洞时,采用其周边像素的中值替代空洞的值,而人体与背景的分割,则根据距离信息进行处理。具体为:统计所有像素的距离分布,找出其最大值和最小值,当某个像素的值大于最大值的百分之八十时,则认为该像素是背景信息;如果某个像素值小于2倍的最小值,则认为是前景干扰因素;这样,其它情况则认为是人体信息。具体定义如下所示:
其中D(i,j)代表深度图像中像素(i,j)的深度值,Thres1,Thred2代表两个不同的阈值,且Thres1>Thred2,在IXMAX数据集的具体实施例中,根据实验统计,距离的最大值和最小值分别为:Max=3.25,Min=0.5,则Thres1=2.6,Thred2=1。
步骤20不同特征提取
由于相同动作之间存在较大的差异性,仅使用单一特征无法充分地对其进行描述,因此,本发明中提取了两种具有互补特性的特征(GIST和DSTIP),它们提取的过程分别为:
针对不同动作的深度视频序列,GIST提取过程为:
1)针对每个非零像素,计算N帧中该像素位置的最大值和最小值,获得对应的最大值和最小值图像,将这两幅图像做差,并取绝对值,获得对应的正视图下的目标运动历史变化过程,其效果图如图2(c)所示,具体定义如下所示:
Imax(i,j)=max{Depth(i,j,t):Depth(i,j,t)≠0,t∈[1...N]} (4)
Imin(i,j)=min{Depth(i,j,t):Depth(i,j,t)≠0,t∈[1...N]} (5)
Idiff=Imax-Imin (6)
其中Depth(i,j,t)表示帧t在像素位置(i,j)的深度值,Imax代表N帧中每个非零像素位置的最大值,Imin代表N帧中每个非零像素位置的最小值,Idiff代表N帧的深度差值运动历史图像。
2)在运动历史图像的基础上,采用4个尺度和8个方向的Gist描述子对其进行描述,获得对应512维的特征,Gist特征的具体方法见:OlivaA;Torralba A Modeling theShape of the Scene:A Holistic Representation of the Spatial Envelope,International Journal of Computer Vision,42(3):145-175,2001.
针对不同动作的深度视频序列,DSTIP的提取过程为:该特征提取过程与STIP提取过程非常类似,STIP特征主要应用于RGB视频,而DSTIP特征则主要应用于深度视频序列,该特征的具体提取过程参见如下参考文献,其提取结果见图3。Lu Xia and J.K.Aggarwal,Spatio-Temporal Depth Cuboid Similarity Feature for Activity RecognitionUsing Depth Camera,24th IEEE Conference on Computer Vision and PatternRecognition(CVPR),Portland,Oregon,June2013.
步骤30码书构建和基于“词袋”的特征归一化
在步骤20中已经为不同动作提取了DSTIP时空兴趣点,在步骤20的基础上,采用K-Means方法,为所有动作构建码字大小为1000的共有码书,然后,针对每个动作视频下所提取的时空兴趣点,采用“词袋”方法,分别将这些时空兴趣点特征投影到共有码书上,并采用各自动作的兴趣点数目进行归一化,实现对其动作的描述,其提取结果如图4所示,具体方法见Jun Yang,Yu-Gang Jiang,Alexander G.Hauptmann etc,Evaluating bag-of-visual-words representations in scene classification[C],InternationalMultimedia Conference,MM'07,2007,197-206.
步骤40基于特征变换和词典学习的模型构建
虽然目前已经提出了许多不同的人体动作特征,然而,在实际生活中,由于遮挡、光照、视角变化等因素,造成使用单一特征无法完整的描述对应动作,因此,已有研究者尝试使用多特征对动作进行描述,并融合这些不同的特征,在多特征融合中,他们通常使用前期融合或后期融合,虽然这些融合方法也具有一定的效果,但是它们无法深层次的挖掘不同特征之间的内在关系。因此,为了解决该问题,拟通过特征变换和词典学习模型的构建,挖掘不同特征之间的内在关联特性。其具体定义为:
其中,λi,i=1~4是标量常数,用于控制对应项的贡献程度,Di和Dj分别表示对应特征i和特征j的词典,Fi和Fj分别表示训练集中对应特征i和特征j的矩阵,X表示Fi使用词典Di对其进行重建时,对应的重建系数矩阵,而Y表示Fj使用词典Dj对其进行重建时,对应的重建系数矩阵。W表示特征变换矩阵,表示使用两种不同特征对样本进行重建时,不同的重建系数矩阵不一定要完全相同,但是必须满足Y---X=W*Y,这样不同特征之间的关系通过变换矩阵进行刻画。目标函数中前两项表示使用词典Di和Dj分别对其Fi和Fj进行重建时,对应的重建误差,而表示特征变换保真项,反映不同特征的重建系数之间映射的残差,而表示重建系数和映射矩阵的稀疏性,λi(i=1~4)是标量常数,用于控制其对应项的贡献程度,而||*||1和||*||2分别表示1和2范数。
在构建完目标函数后,需要求解该目标函数,学习得到对应不同特征的词典和特征之间的映射矩阵,然而,该目标函数对(Di,Dj,W)不是联合凸函数,不具有凸性,但是当(Di,Dj)或W中某个变量固定时,该目标函数变为凸函数,因此,通过坐标下降法对该目标函数进行求解迭代,从而获得对应不同特征的词典以及特征变换矩阵。具体方法见:[1]Jenatton,R.,Obozinski,G.,Bach,F.:Structured sparse principal componentanalysis.In:AISTATS,pp.366–373(2010);
[2]B.Efron,T.Hastie,I.Johnstone,and R.Tibshirani.Least angleregression.The Annals of statistics,32(2):407–499,2004.4;
需要特别指出之处是,在该目标函数中,不同特征的词典以及它们重建系数之间的映射矩阵共同进行学习,这样,不仅能最大程度上重建对应的样本,同时,还考虑了它们重建系数的关联型,充分挖掘不同特征的内在关联。在具体实现中λi(i=1~4)的取值范围为[1,0.5,0.1,0.05,0.01,0.005,0.001,0.0005,0.0001];
步骤50基于多特征重建和特征变换的动作识别模型构建
在步骤40的基础上,首先对测试样本分别提取GIST和DSTIP特征,同时,使用步骤40中已获得的词典对测试样本进行重建,获得对应的重建系数,用于动作识别。在重建系数的获取过程中,拟构建基于多特征重建和特征变换的动作识别模型,具体定义为:
其中,λi,i=1~4是标量常数,用于控制对应项的贡献程度,Di和Dj分别表示对应特征i和特征j的词典,fi和fj分别表示测试样本对应的特征i和特征j,x表示fi使用词典Di对其进行重建时,对应的重建系数,而y表示fj使用词典Dj对其进行重建时,对应的重建系数。W表示特征变换矩阵,表示使用两种不同特征对样本进行重建时,不同的重建系数应该尽可能的满足y---y=x*W。其它参数含义与公式(7)中参数含义一样。同样,该目标函数对x或y是凸的,基于坐标下降法对其进行求解,获得对应的重建系数。在具体实现中λi(i=1~4)的取值范围为[1,0.5,0.1,0.05,0.01,0.005,0.001,0.0005,0.0001];
步骤60基于稀疏表征的动作识别方法
在重建系数的基础上,将重建系数和词典,根据动作类别进行分类,仅保留某个动作的词典和重建系数,并对样本进行重建,计算每个动作的重建误差。假设某个数据集有N个类别动作,则分别将步骤40所学习的词典和步骤50中学习到的重建系数,根据动作类别进行划分,即当重建误差最小时,对应的动作类别即为待测样本的类别,具体定义为:
其中q为动作类别,fi和fj分别表示测试样本对应的特征i和特征j,分别表示特征i和特征j对应动作q的最优化重建系数,表示对应动作q和特征i词典,表示对应动作q和特征j词典,同理,具体方法可以参考:J.Wright,A.Yang,A.Ganesh,S.Sastry,and Y.Ma.Robust face recognition via sparse representation.IEEE Trans.onPattern Analysis and Machine Intelligence,2009。
通过对(7)式的最优求解,不仅能够在多特征空间中自动地寻找最优的基,从而有利于解决由于视角变化、遮挡、距离远近和关注目标本身位置变化等造成单一特征无法完整描述带来的干扰,而且充分挖掘不同特征之间的内在关联。而通过(8)和(9)式的求解,求出对应的重建稀疏系数,并对其进行识别。
为了验证本发明的有效性,在公开的动作数据集IXMAX上进行了评测,除了GIST和DSTIP特征之外,还有Gabor和7-Hu矩特征,不同特征的性能如图5所示,而不同特征的前期融合性能如图6所示,采用本发明中的特征融合方法的性能如图7所示,最后,本发明的性能与其它算法性能的比较如图8所示。从这些图可以看出,本发明提出的基于特征变换和词典学习的动作识别方法具有较好的性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于特征变换和词典学习的多特征动作识别方法,用于挖掘不同特征的内在关联特性,以实现高效率的动作识别,其特征在于该方法具体包含以下步骤:
第1、视频预处理
由于从设备中采集的深度数据包括许多噪声、空洞,所以需要使用平滑和修补算法过滤噪声和修补空洞;对于经过上述处理的数据,由于含有复杂的背景,这些背景会对后续的处理造成干扰,所以需要根据距离信息先将人体和背景进行分割,并尽可能的保留人体;
第2、不同特征提取
针对不同动作的深度图像序列,分别提取GIST特征和DSTIP时空兴趣点特征,并保存对应的结果;
第3、码书构建和特征的归一化
由于不同视频中所提取的DSTIP时空兴趣点数目不一样,为了能够进行归一化,首先,采用K-means方法训练对应的码书,其次,采用“词袋”方法对这些时空兴趣点进行归一化,并保存对应的结果,同时,对GIST特征采用L1方法对其进行归一化,作为对应动作的最后特征;
第4、特征变换和词典学习正则项制定及模型构建
在第3步处理后的特征基础上,为了挖掘不同特征的内在关系,因此,为不同特征同时学习词典对,且不同特征的稀疏表征系数之间满足矩阵变换关系,同时,使得矩阵系数尽可能的小,因此,构建模型如下:
<mrow> <msub> <mi>J</mi> <mrow> <mo>&lt;</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>W</mi> <mo>&gt;</mo> </mrow> </msub> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mo>&lt;</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>W</mi> <mo>&gt;</mo> </mrow> </munder> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mi>Y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>X</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>Y</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>3</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>X</mi> <mo>-</mo> <mi>W</mi> <mo>*</mo> <mi>Y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>4</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,λi,i=1~4是标量常数,用于控制对应项的贡献程度,Di和Dj分别表示对应特征i和特征j的词典,Fi和Fj分别表示训练集中对应特征i和特征j的矩阵,X表示Fi使用词典Di对其进行重建时,对应的重建系数矩阵,而Y表示Fj使用词典Dj对其进行重建时,对应的重建系数矩阵;W表示特征变换矩阵,表示使用两种不同特征对样本进行重建时,不同的重建系数矩阵不一定要完全相同,但是必须满足Y---X=W*Y,这样不同特征之间的关系通过变换矩阵进行刻画;
第5、基于多特征重建和特征变换的动作识别模型构建
在第4步获得的特征变换矩阵W和词典Di和Dj的基础上,利用词典对对测试样本进行表征,计算对应的表征系数,同时,要求表征系数之间尽可能的满足特征变换矩阵,这样,获得的表征系数具有较好的区分性,其具体的模型如下:
<mrow> <mo>&lt;</mo> <mover> <mi>x</mi> <mo>^</mo> </mover> <mo>,</mo> <mover> <mi>y</mi> <mo>^</mo> </mover> <mo>&gt;</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>&lt;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&gt;</mo> </mrow> </munder> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mi>x</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mi>y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>y</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>3</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <mi>W</mi> <mo>*</mo> <mi>y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&amp;lambda;</mi> <mn>4</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,λi,i=1~4是标量常数,用于控制对应项的贡献程度,Di和Dj分别表示对应特征i和特征j的词典,fi和fj分别表示测试样本对应的特征i和特征j,x表示fi使用词典Di对其进行重建时,对应的重建系数,而y表示fj使用词典Dj对其进行重建时,对应的重建系数;W表示特征变换矩阵,表示使用两种不同特征对样本进行重建时,不同的重建系数应该尽可能的满足y---y=x*W;
第6、基于稀疏表征的动作识别
根据第5步获得的特征表征系数,采用不同类的表征系数分别重建测试样本,计算对应的残差;当采用某类表征系数重建样本残差最小时,该测试样本的类别即判断为对应的类。
CN201410632838.2A 2014-11-12 2014-11-12 基于特征变换和词典学习的多特征动作识别方法 Active CN104463242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410632838.2A CN104463242B (zh) 2014-11-12 2014-11-12 基于特征变换和词典学习的多特征动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410632838.2A CN104463242B (zh) 2014-11-12 2014-11-12 基于特征变换和词典学习的多特征动作识别方法

Publications (2)

Publication Number Publication Date
CN104463242A CN104463242A (zh) 2015-03-25
CN104463242B true CN104463242B (zh) 2017-10-13

Family

ID=52909256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410632838.2A Active CN104463242B (zh) 2014-11-12 2014-11-12 基于特征变换和词典学习的多特征动作识别方法

Country Status (1)

Country Link
CN (1) CN104463242B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933417B (zh) * 2015-06-26 2019-03-15 苏州大学 一种基于稀疏时空特征的行为识别方法
CN106056551A (zh) * 2016-05-27 2016-10-26 西华大学 基于局部相似样例学习的稀疏去噪方法
CN109558781B (zh) * 2018-08-02 2021-07-02 北京市商汤科技开发有限公司 一种多视角视频识别方法及装置、设备和存储介质
CN109635776A (zh) * 2018-12-23 2019-04-16 广东腾晟信息科技有限公司 通过程序识别人体动作的方法
CN109902565B (zh) * 2019-01-21 2020-05-05 深圳市烨嘉为技术有限公司 多特征融合的人体行为识别方法
CN110458037B (zh) * 2019-07-19 2021-09-10 天津理工大学 基于多视角间共性特性挖掘的多任务动作识别方法
CN114880527B (zh) * 2022-06-09 2023-03-24 哈尔滨工业大学(威海) 一种基于多预测任务的多模态知识图谱表示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757960A (en) * 1994-09-30 1998-05-26 Murdock; Michael Chase Method and system for extracting features from handwritten text
CN101894276A (zh) * 2010-06-01 2010-11-24 中国科学院计算技术研究所 人体动作识别的训练方法和识别方法
CN103824063A (zh) * 2014-03-06 2014-05-28 西安电子科技大学 基于稀疏表示的动态手势识别方法
CN104063684A (zh) * 2014-06-17 2014-09-24 南京信息工程大学 基于跨域字典学习的人体动作识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757960A (en) * 1994-09-30 1998-05-26 Murdock; Michael Chase Method and system for extracting features from handwritten text
CN101894276A (zh) * 2010-06-01 2010-11-24 中国科学院计算技术研究所 人体动作识别的训练方法和识别方法
CN103824063A (zh) * 2014-03-06 2014-05-28 西安电子科技大学 基于稀疏表示的动态手势识别方法
CN104063684A (zh) * 2014-06-17 2014-09-24 南京信息工程大学 基于跨域字典学习的人体动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于空间约束多特征联合稀疏编码的遥感图像标注方法研究";郑歆慰等;《电子与信息学报》;20140831(第8期);第1891-1898页 *
"基于视频的人体动作识别方法研究";刘吉庆;《中国优秀硕士学位论文全文数据库信息科技辑》;20131115(第11期);第I138-650页 *

Also Published As

Publication number Publication date
CN104463242A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104463242B (zh) 基于特征变换和词典学习的多特征动作识别方法
Rao et al. Selfie video based continuous Indian sign language recognition system
Thai et al. Image classification using support vector machine and artificial neural network
Paris et al. A topological approach to hierarchical segmentation using mean shift
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN103810503A (zh) 一种基于深度学习的自然图像中显著区域的检测方法
CN110082821A (zh) 一种无标签框微地震信号检测方法及装置
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN110334607B (zh) 一种视频人体交互行为识别方法及系统
CN107437246A (zh) 一种基于端到端全卷积神经网络的共同显著性检测方法
CN111062329B (zh) 基于增广网络的无监督行人重识别方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN103646256A (zh) 一种基于图像特征稀疏重构的图像分类方法
CN107423747A (zh) 一种基于深度卷积网络的显著性目标检测方法
CN110096961A (zh) 一种超像素级别的室内场景语义标注方法
CN109711411B (zh) 一种基于胶囊神经元的图像分割识别方法
CN106682628A (zh) 一种基于多层深度特征信息的人脸属性分类方法
CN107818299A (zh) 基于融合hog特征和深度信念网络的人脸识别算法
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN108734200A (zh) 基于bing特征的人体目标视觉检测方法和装置
CN104268592A (zh) 基于协同表示和判别准则的多视角联合动作词典学习方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210615

Address after: 102200 4th floor, building 4, 19 Huangping Road, Changping District, Beijing

Patentee after: Beijing Azuaba Technology Co.,Ltd.

Address before: 300384 main campus of Tianjin University of Technology, 391 Bingshui West Road, Xiqing, Tianjin.

Patentee before: TIANJIN University OF TECHNOLOGY