CN105809119A - 一种基于稀疏低秩结构多任务学习的行为识别方法 - Google Patents

一种基于稀疏低秩结构多任务学习的行为识别方法 Download PDF

Info

Publication number
CN105809119A
CN105809119A CN201610120767.7A CN201610120767A CN105809119A CN 105809119 A CN105809119 A CN 105809119A CN 201610120767 A CN201610120767 A CN 201610120767A CN 105809119 A CN105809119 A CN 105809119A
Authority
CN
China
Prior art keywords
rho
psi
task
low
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610120767.7A
Other languages
English (en)
Inventor
赵津浩
吴玉想
赵冲
王其聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201610120767.7A priority Critical patent/CN105809119A/zh
Publication of CN105809119A publication Critical patent/CN105809119A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于稀疏低秩结构多任务学习的行为识别方法,涉及视频图像处理。1)构建基于稀疏低秩结构的多任务行为识别优化问题;2)用交替方向法处理步骤1)构建的稀疏低秩不光滑凸优化问题;3)用线性交替方向法减少辅助变量的引用并简化步骤2)产生的子问题的运算;4)利用自适应惩罚进一步加快算法的收敛。采用稀疏低秩结构多任务学习的行为识别算法得到非光滑凸优化问题。利用计算机视觉的方法对视频序列中的图像进行自动分析,实现对摄像机拍摄的动态场景中人体行为的检测和识别,分析和判断目标的行为是属于哪一种人体常规行为。不仅获取学习任务之间的相关性,也能选取具有较强判别力的特征子空间,且对噪声样本有鲁棒性。

Description

一种基于稀疏低秩结构多任务学习的行为识别方法
技术领域
本发明涉及视频图像处理,尤其是涉及一种基于稀疏低秩结构多任务学习的行为识别方法。
背景技术
由于行为识别广泛和显著的应用,从视频中识别人的行为是计算机视觉和模式识别的重要问题。在安全敏感的环境下,如医院、银行、机场和停车场等场所,为了公共安全和个人隐私,智能视频监控非常重要。早期行为识别方法主要集中在跟踪中的动作捕捉和分析[1]
最近,在行为表示方面,有大量的研究工作[2][3]已经被提出使得行为表示更具有判别力,如空间-时间模式的模板[4]、2-D形状匹配[5]、光流模式[6]、基于轨迹的表示[7]和时空兴趣点[8]。其中,基于时空兴趣点结合词袋模型的方法已经表现很好的性能。由于这些方法不依赖于一些预处理技术,如背景建模或身体部分跟踪,它们不仅对视角,噪声,背景变化具有鲁棒性,而且对于图像的大小和光照的变化也具有鲁棒性。然而,这些方法的一个限制是它不能捕捉时空兴趣点之间的空间和时间关系。一些其它的方法,从该框架衍生,利用空间和时间的上下文作为另一种类型的信息用于描述兴趣点,实现更好的性能。例如,Ryoo等人[9]提出一个所谓的“特征×特征×关系”直方图来捕捉成对兴趣点之间的外观和关系的信息。
以上的行为识别方法是直接的从低层图像特征映射到对象标签,从而对行为进行识别。然而,丰富的视觉特征几乎很难被一个对象标签描述,因此这些方法的识别效果往往是不尽人意的。一些方法已被提出来通过使用中间语义特征来表示目标类别[10][11],但是这种中间特征没有明确的语义信息,因此需要更好定义额外的概念来描述目标类别的相关性质。
为了克服上述的缺点,近几年,属性学习[12][13]的快速发展一定程度上解决了上述行为识别率低的问题。视觉属性是被人们定义在图像中可观察到的性质(例如相信手臂摆动的标签对于识别行为是有用的)。在许多问题中,它们可以被看作是一种有价值的高层语义信息,并且引入到预测模型中。视觉属性在一些应用中是有价值的,例如,通过属性描述一般图像或不熟悉目标[14],作为中间特征辅助场景识别[15]等。现有的基于属性识别方法假设属性的主要作用集中在学习其属性语义信息,并且使用该语义信息融入到目标判别模型中。简单的说,把原来从低层图像特征映射到对象标签分为两步骤:低层图像特征映射到属性标签和属性标签映射到对象标签。因此属性的预测结果被看作为“中层”特性,用于搭建低层图像特征和高层对象类之间的关系。由上面分析,发现属性学习和目标分类是分开的。尽管属性影响对象的预测,但是当学习目标分类器时,属性标签的训练数据没有直接引入新的信息。
探索怎么样才能同时进行视觉属性学习和行为对象学习来提高泛化能力。由于这些视觉属性被行为类别所共享,很多行为类别之间的区别主要是通过这些属性区分的。因此属性学习与行为学习存在内在的关系。然而多任务学习是一种有效的方式利用其内在的关系。把属性学习作为行为学习的额外任务,并且把复杂的单任务行为识别问题转化为多任务行为识别问题。采用基于多任务行为识别方法能够很好的解决这些问题。上述的多任务学习方法通过属性任务来提高行为任务的准确率,表现出了良好的效果。
多任务学习在许多领域受到广泛关注,如机器学习、数据挖掘、计算机视觉、生物信息学[16][17]。多任务学习的目的是通过学习多个相关任务来提高分类器的泛化性能。这可以通过学习任务的同时,利用它们的内在相关性达到此目标。当每个任务只有有限的训练数据时,这种方法特别有效。
近年来,把矩阵的秩作为特定约束条件的优化问题在很多领域上出现,包括机器学习,自动控制和图像压缩。例如,协同过滤中给定一个部分填充的评分矩阵,其目标是预测缺少的矩阵元素。因为通常认为只有几个因素对个人评分造成影响,因此通过低秩矩阵近似评分矩阵是自然的。然而,由于秩函数的性质,矩阵秩最小化问题是NP难问题。秩函数的常用凸松弛是迹范数[18],该迹范数定义为矩阵奇异值的总和。一些最近的研究表明低秩解可以通过在某些条件下最小化迹范数来求解[19]。在实践中,迹规范已经表明能够获取低秩的解,并且它已被广泛应用在许多场景中。矩阵的完成问题[20]被转化为迹范数最小化问题。对于二维数据如图像,矩阵分类的构想[21]是采用权重矩阵,在数据上通过迹规范对其进行正则化。它表明这样的构想相比于传统的方法能够提高性能。
根据低秩矩阵能够很好的挖掘子空间结构信息来获取任务之间的相关性,G.Obozinski等人[22]提出迹规范正则化用于多任务学习。虽然基于低秩的多任务学习方法得到广泛的应用,但是使用迹范数正则化的一个限制是求出来的模型参数一般是稠密的。然而,在许多实际的行为识别问题中,预测函数的潜在结构可能是稀疏低秩的。当每一个任务的训练数据有限,并且样本的特征维度是高维时,发现许多特征不具有较高的判别能力。然而稠密的模型参数使得不具有较高判别能力的特征具有较高的判别能力,这些特征可能会影响多任务学习的泛化能力。最近,已经有大量的文献表明,基于稀疏约束对于高判别能力的特征选取是有效的,并且对噪声样本具有鲁棒性。具有高判别能力的特征对应的稀疏系数比较大,低判别能力的特征对应的稀疏系数比较小,可能接近0。因此把l1范数约束贴加到多任务学习中来解决具有噪声和高维特征的任务学习问题。综上所述,稀疏项对数据噪声有很好的鲁棒性,并且在特征维度远大于训练样本数的情况下,能够挑选具有良好判别力的特征。低秩能够挖掘子空间结构的信息获取任务之间的相关性。这个动机促使把迹范数和l1范数结合起来作为一个复合正规化项,用于得到稀疏低秩的结构。因此提出了基于稀疏低秩结构的多任务行为识别方法。
由于迹范数和l1范数非光滑的,该多任务行为识别方法是不光滑凸优化问题。半定规划问题求解涉及到迹范数和l1范数优化问题时,其计算量上是非常费时的,不适用于大数据集上。因此,采用先进的优化技术自适应惩罚线性交替方向法[23]求解该优化问题。该方法没有必要引入辅助变量和逆矩阵。矩阵之间的乘积通过使用SVD表示技术来减少其计算量。针对上述优化问题,首先引进一个辅助变量使得目标函数可分离,并且把该优化问题转化为增强拉格朗日函数。不断通过最小化目标函数来计算参数的最优解,直到收敛。
综上所述,提出采用基于稀疏低秩结构的多任务行为识别方法学习底层特征的相关性,在行为识别数据集上,实验结果表明的方法要优于其它基准方法。
参考文献
[1]J.K.AggarwalandQ.Cai,Humanmotionanalysis:Areview[C].in:Proc.IEEEWorkshoponNonrigidandArticulatedMotion,1997,pp:90–102.
[2]L.Liu,L.Shao,andP.Rockett,BoostedKey-FrameSelectionandCorrelatedPyramidalMotion-FeatureRepresentationforHumanActionRecognition[J].PatternRecognition,2013,46(7),pp:1810–1818.
[3]L.Shao,L.Ji,Y.Liu,andJ.Zhang,HumanActionSegmentationandRecognitionviaMotionandShapeAnalysis[J].PatternRecognition.Lett,2012,33(4),pp:438–445.
[4]A.YilmazandM.Shah,Actionssketch:Anovelactionrepresentation[C].in:Proc.IEEEInt.Conf.Comput.VisionandPatternRecognit.,2005,pp:984–989.
[5]Z.Lin,Z.Jiang,andL.S.Davis,Recognizingactionsbyshape-motionprototypetrees[C].in:Proc.IEEEInt.Conf.Comput.Vision,2009,pp:444–451.
[6]A.Efros,A.Berg,G.Mori,andJ.Malik,Recognizingactionatadistance[C].in:Proc.IEEEInt.Conf.Comput.Vision,2003,pp:726–733.
[7]M.RaptisandS.Soatto,Trackletdescriptorsforactionmodelingandvideoanalysis[C].in:Proc.Eur.Conf.Comput.Vision,2010,pp:577–590.
[8]J.Liu,Y.Yang,andM.Shah,Learningsemanticvisualvocabulariesusingdiffusiondistance[C].in:Proc.IEEEInt.Conf.Comput.VisionandPatternRecognit.,2009,pp:461–468.
[9]M.S.RyooandJ.K.Aggarwal,Spatio-temporalrelationshipmatch:Videostructurecomparisonforrecognitionofcomplexhumanactivities[C].in:Proc.IEEEInt.Conf.Comput.Vision,2009,pp:1593–1600.
[10]J.Fowler,Compressive-ProjectionPrincipalComponentAnalysis[J].IEEETrans.ImageProcess,2009,18(10),pp:223–2242.
[11]A.FathiandG.Mori,Actionrecognitionbylearningmid-levelmotionfeatures[C].in:Proc.IEEEInt.Conf.Comput.VisionandPatternRecognit.,2008,pp:1–8.
[12]S.J.Hwang,F.Sha,andK.Grauman,SharingFeaturesbetweenObjectsandTheirAttributes[C].inProc.IEEEInt.Conf.Comput.VisionandPatternRecognit,2011,pp:1761–1768.
[13]D.ParikhandK.Grauman,Relativeattributes[C].in:Proc.IEEEInt.Conf.Comput.Vision,2011,pp:503–510.
[14]D.A.Vaquero,R.S.Feris,D.Tran,L.Brown,A.Hampapur,andM.Turk,Attribute-basedpeopolesearchinsurveillanceenvironments[C].in:Proc.IEEEWorkshopApplicat.ofComput.Vision,2009,pp:1–8.
[15]Y.WangandG.Mori,ADiscriminativeLatentModelofObjectClassesandAttributes[C].inProc.Eur.Conf.onComput.Vision,2010,pp:155–168.
[16]A.Argyriou,T.Evgeniou,andM.Pontil,ConvexMulti-TaskFeatureLearning[J].MachineLearning,2008,73(3),pp:243-272.
[17]B.Heisele,T.Serre,M.Pontil,T.Vetter,andT.Poggio,Categorizationbylearningandcombiningobjectparts[C].in:NIPS,2001,pp:1239-1245.
[18]Fazel,M,Hindi,H.,&Boyd,S.P,Arankminimizationheuristicwithapplicationtominimumordersystemapproximation[C].in:ProceedingsoftheAmericanControlConference,2001,pp:4734-4739.
[19]Recht,B.,Xu,W.,&Hassibi,B,Necessaryandsufficientcondtionsforsuccessofthenuclearnormheuristicforrankminimization[C].in:Proceedingsofthe47thIEEEConferenceonDecisionandControl,2008,pp:3065-3070.
[20]Weimer,M.,Karatzoglou,A.,&Smola,A,Improvingmaximummarginmatrixfactorization[J].MachineLearning,2008,72(3),pp:263-276.
[21]Tomioka,R.,&Aihara,K,Classifyingmatriceswithaspectralregularization[C].in:ProceedingsoftheInternationalConferenceonMachineLearning,2007,pp:895-902.
[22]G.Obozinski,B.Taskar,andM.I.Jordan,Jointcovariateselectionandjointsubspaceselectionformultipleclassificationproblems[J].StatisticsandComputing,2010,20(2),pp:231-252.
[23]RenX,LinZ,Linearizedalternatingdirectionmethodwithadaptivepenaltyandwarmstartsforfastsolvingtransforminvariantlow-ranktextures[J].Internationaljournalofcomputervision,2013,104(1),pp:1-14.
发明内容
本发明的目的是提供在行为识别中既能获取学习任务之间的相关性,同时也能选取具有较强判别力的特征子空间,并且对噪声样本具有鲁棒性的一种基于稀疏低秩结构多任务学习的行为识别方法。
本发明包括如下步骤:
1)构建基于稀疏低秩结构的多任务行为识别优化问题;
2)用交替方向法处理步骤1)构建的稀疏低秩不光滑凸优化问题;
3)用线性交替方向法减少辅助变量的引用并简化步骤2)产生的子问题的运算;
4)利用自适应惩罚进一步加快算法的收敛。
在步骤1)中,所述构建基于稀疏低秩结构的多任务行为识别优化问题的具体方法可为:
(1)在行为识别方法中,把通过摄像机捕捉记录下的目标对象分类问题作为主任务,并把属性分类问题作为辅助任务;
为了学习主任务,把n定义为目标类别的数量,xi∈Rd定义为训练数据集中的第i个底层特征向量和{yij|j=1,2,…,n}定义为一个二值指标,表示底层特征向量xi是否属于第j类;
假设主任务和辅助任务在同样的底层特征向量下进行学习,为了学习m个辅助任务,定义{yi(n+k)|k=1,2,…,m}为一个二值指标,表示底层特征向量xi是否属于第j属性类。总任务数量为T=n+m,每一个学习任务对应着一个预测函数fl和训练数据集 { ( x 1 , y 1 l ) , ... , ( x p , y p l ) } ⋐ R d × { 0 , 1 } ( l = 1 , ... , T ) , 专注于线性预测 f l ( x ) = w l T x , 其中wl是第l个任务的权重向量;
(2)根据步骤(1)中所述,基于稀疏低秩结构的多任务行为识别方法可以被构建为如下的凸优化问题,
min W L ( W ) + λ 1 | | W | | * + λ 2 | | W | | 1
其中是常用的最小二乘损失函数,||W||*为矩阵W的迹范数,即是低秩项,通过计算矩阵W奇异值的总和得到,||W||1是l1范数,为稀疏项,通过∑ij|wi,j|计算得到,λ1和λ2为非负权衡参数,分别控制着矩阵W的低秩性和稀疏性。
在步骤2)中,所述用交替方向法处理步骤1)构建的稀疏低秩不光滑凸优化问题的具体方法可为:
(1)利用交替方向法处理上述凸优化问题,它结合了双上升方法的可分解性与乘子快速收敛的特点。通过增加两个辅助变量Ψ1和Ψ2,把凸优化问题转化为:
min W , Ψ 1 , Ψ 2 L ( W ) + λ 1 | | Ψ 1 | | * + λ 2 | | Ψ 2 | | 1
s.t.W=Ψ1,W=Ψ2
上式的增广拉格朗日函数可以表示为:
其中Γ1和Γ2是拉格朗日乘子,〈·,·〉是内积,ρ是惩罚参数。通常的增广拉格朗日乘子方法是同时关于WΨ1和Ψ2最小化式子。
(2)交替方向法把最小化式子分解为分别关于WΨ1和Ψ2的子问题,包含以下迭代,
Γ k + 1 1 = Γ k 1 + ρ ( W k + 1 - Ψ k + 1 1 ) - - - ( 3 )
Γ k + 1 2 = Γ k 2 + ρ ( W k + 1 - Ψ k + 1 2 ) - - - ( 4 )
其中Wk表示ADM在第k次迭代上的中间解,ρ为预先给定的常数。
在步骤3)中,所述用线性交替方向法减少辅助变量的引用并简化步骤2)产生的子问题的运算的具体方法如下:
(1)为了避免引入辅助变量和有效求解1)中用交替方向法把最小化式子分解为分别关于WΨ1和Ψ2的子问题所得到的子问题(1)和(2),利用线性化问题作用于子问题(1)和(2),为了加快算法收敛速度,提出了一种自适应规则来更新惩罚参数,其步骤如下:
更新W,等式(1)的最优解Wk+1可以通过如下得到:
W k + 1 = arg min W ( L ( W ) + ρ 2 | | W - Ψ k 1 + Γ k 1 / ρ | | F 2 + ρ 2 | | W - Ψ k 2 + Γ k 2 / ρ | | F 2 )
最优解Wk+1可以通过求解一个线性方程组。
更新Ψ,等式(2)的最优解可以通过如下得到:
Ψ k + 1 1 = arg min Ψ 1 ( λ 1 | | Ψ 1 | | * + ρ 2 | | W k + 1 - Ψ 1 + Γ k 1 / ρ | | F 2 ) - - - ( 5 )
Ψ k + 1 2 = arg min Ψ 2 ( λ 2 | | Ψ 2 | | * + ρ 2 | | W k + 1 - Ψ 2 + Γ k 2 / ρ | | F 2 ) - - - ( 6 )
更新的拉格朗日乘子仍然如式(3)和(4)。
(2)可以验证上述优化问题(5)有一个解析解,假设秩 的奇异值分解,其中Ur和Vr包含r个正交列,Σr=diag{(σ12,…σr)}。然后,最优解计算如下为:
Ψ k + 1 1 = U r Σ ^ r V r T , Σ ^ r = d i a g { ( σ i - λ 1 ρ k ) + }
其中,若x>0,(x)+=x,否则,(x)+=0。
可以验证上述优化问题(6)有一个解析解,让δ,w,和θ是Wk+1在相同坐标上的元素,最优解δ通过如下计算:
&delta; = w + 1 &rho; k ( &theta; - &lambda; 2 ) w + 1 &rho; k &theta; > 1 &rho; k &lambda; 2 0 - 1 &rho; k &lambda; 2 &le; w + 1 &rho; k &theta; &le; 1 &rho; k &lambda; 2 w + 1 &rho; k ( &theta; + &lambda; 2 ) w + 1 &rho; k &theta; < - 1 &rho; k &lambda; 2
在步骤4)中,所述利用自适应惩罚进一步加快算法收敛的方法步骤如下:
用自适应规则来更新惩罚参数,来进一步加快算法的收敛性,惩罚参数ρ自适应更新策略如下:
ρk+1=min(ρmax,σρk)
其中ρmax是{ρk}的上界。σ的值定义如下,
其中,σ0≥0是一个常数。
本发明采用稀疏低秩结构多任务学习的行为识别算法得到非光滑凸优化问题。利用计算机视觉的方法对视频序列中的图像进行自动分析,实现对摄像机拍摄的动态场景中人体行为的检测和识别,并在此基础上分析和判断目标的行为是属于哪一种人体常规行为(如挥手、走路、慢跑、跳远等等)。稀疏低秩结构处理是行为识别中较新颖的方法。稀疏低秩结构多任务学习的行为识别方法,其中包含了损失函数项,迹范数项和l1范数项,首先引进一个辅助变量使得目标函数可分离,并且把该优化问题转化为增强拉格朗日函数。不断通过最小化目标函数来计算参数的最优解,直到收敛。其不仅获取学习任务之间的相关性,同时也能选取具有较强判别力的特征子空间,并且对噪声样本具有鲁棒性。
附图说明
图1是KTH数据集部分样本,不同的行代表不同行为。
图2是AR数据集部分样本,不同的行代表不同行为,左代表室外环境,右代表室内环境。
图3是在KTH数据集中,不同百分比训练集下,不同多任务学习方法的行为识别准确率的比较。
图4是在AR数据集中,不同百分比训练集下,不同多任务学习方法的行为识别准确率的比较。
图5是在KTH数据集上,本发明在训练集为30%时的混淆矩阵。
图6是在AR数据集上,本发明在训练集为30%时的混淆矩阵。
图7是在KTH数据集上,不同百分比训练集下,Trace&Sparse和Trace&Sparse&NA方法的行为识别率结果比较。
图8是在AR数据集上,不同百分比训练集下,Trace&Sparse和Trace&Sparse&NA方法的行为识别率结果比较。
图9是在KTH数据集中,不同百分比训练集下,人为定义属性-类矩阵对应的方法与任意属性-类矩阵对应的方法之间的性能比较。Trace&SparsewithA代表Trace&Sparse采用任意属性-类矩阵。
图10是在AR数据集中,不同百分比训练集下,人为定义属性-类矩阵对应的方法与任意属性-类矩阵对应的方法之间的性能比较。Trace&SparsewithA代表Trace&Sparse采用任意属性-类矩阵。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
首先描述实验所需的行为数据集及其对应的属性,以及需要对比的基准算法。第二,在这些数据集上,通过与其它基准算法的比较,验证本发明的有效性。第三,在这些数据集上,讨论属性任务对行为任务识别率的影响。第四,在上述算法中,讨论任意的属性-类矩阵对行为识别结果的影响。
步骤1,考虑两个行为识别数据集:具有属性的KTH人体行为数据集和的行为识别数据集(AR)。KTH数据集是一个标准的基准人体行为识别数据集。它包含五个行为类(拳击、拍手、挥手、跑、步行),每一个行为类是在4个场景下25个人使用民用摄像机拍摄得到的,拥有499视频片段。把该视频片段转化为对应的行为图像,并且选取其中的一部分作为本实验的数据集,图1展示了其中的一部分样本。AR数据集是由自己人工采集的,这些数据分别在室外和室内环境下获取。该数据集包含3113张图像,5个行为识别类(拳击、拍手、挥手、跑步、步行),如图1展示了其中的一部分样本。定义的34个属性中选取其中的7个有代表的行为属性作为KTH和AR数据集的属性,包含胸级手臂运动,手臂交替前进等属性。每一张图片拥有自己的类别标签和属性标签。对原始不同分辨率的AR数据集进行下采样得到分辨率为64×128的行为图像,而KTH数据集图像分辨率为160×120。由于HOG特征能够很好提取人体不同行为的轮廓,采用HOG特征提取行为图像的底层特征,使得KTH图像和AR图像特征分别达到1200和1536维。图2是AR数据集部分样本,不同的行代表不同行为,左代表室外环境,右代表室内环境。
步骤2,首先要评估本发明方法和基准方法的行为识别准确率。这些方法中的属性任务和目标任务都使用相同的底层特征。采用二交叉验证方法。即将数据集划分为两个部分:训练集和测试集。在训练集上进行训练,而测试集将被用来测试行为识别准确率。对于每一次不同的划分,在服务器上运行10次实验,平均10次实验的结果作为实验的最终结果。设置训练集的百分比为10%到50%,间隔增量为10%。做了一系列的实验在这两个数据集上(KTH和AR)。实验结果图3和4所示。
步骤3,图5和6表示本方法在训练集为30%的KTH和AR数据集上的混淆矩阵,其中发现跑步和步行容易被误判。在KTH和AR测试集中,由于其相似的属性和图像外观,跑步的样本有4.5%和11.5%被错误识别为步行。在AR数据集上,同时可能有一部分原因是由于用摄像机所获取的跑步和步行数据集时,人的行为动作不到位造成的。
步骤4,接下来,研究属性任务对目标任务的影响。即额外信息的加入是否会提高目标任务的性能。列举属性任务的加入对Trace&Sparse方法性能的影响。即Trace&Sparse方法在两个数据集上进行比较,假设对应为Trace&Sparse,Trace&Sparsewithnoattribute(Trace&Sparse&NA)方法。在本实验中,Trace&Sparse&NA方法在目标任务训练集上学习,没有引入属性任务,在对应的目标任务测试集上测试。Trace&Sparse方法在Trace&Sparse&NA方法的基础上,引入属性任务,即Trace&Sparse在目标任务和属性任务训练集上学习,其测试集与Trace&Sparse&NA方法的测试集相同。在KTH和AR数据集上进行一系列的实验,实验结果如图7和8所示。
在图7和8的实验结果中可以发现,Trace&Sparse方法的性能优于Trace&Sparse&NA方法。由于Trace&Sparse引入相关属性任务,使其既能学习目标任务信息又能学习到额外属性任务的信息。在图7和8中,训练样本有限时,发现引入相关属性任务对目标任务是有作用的,也验证了结合属性任务和目标任务的多任务学习是特别可取的。根据上述分析,得出在属性任务与目标任务相关的前提下,引入的信息量越大,其泛化能力越强。
步骤5,然后研究属性-类矩阵对行为识别准确率的影响。任意的属性-类矩阵和人为定义属性-类矩阵对于行为识别率的提升是否具有类似的效果,即是否任意的属性-类矩阵都能达到良好的性能。为了分析这个,选取一组随机值(0或1)分配到属性-类矩阵作为任意属性-类矩阵。为了说明上述的问题,列举了三类方法进行比较,第一类为基于人为定义属性-类矩阵的Trace&Sparse方法。第二类为基于任意属性-类矩阵的Trace&SparsewithA方法。第三类为不具有属性任务的Trace&Sparse&NA方法。Trace&SparsewithA方法代表Trace&Sparse方法采用任意属性-类矩阵。在KTH和AR数据集上,设置训练集的百分比为10%到50%,间隔增量为10%。在KTH和AR数据集上进行一系列的实验,实验结果如图9和10所示。
在图9和10的实验结果中,采用任意属性-类矩阵的Trace&SparsewithA方法相比于采用人为定义属性-类矩阵的Trace&Sparse方法,其识别准确率下降了。发现Trace&SparsewithA方法比Trace&Sparse&NA方法的性能还要差。即任意属性-类矩阵不仅不会提高行为识别率,反而会使得识别率下降。这体现了人为定义属性-类矩阵对本方法起到了重要作用。
总之,稀疏低秩结构的多任务行为识别方法的提高是合理的。行为识别数据集通常具有类内差异,这就需要一个更强大的分类策略以充分发掘有用的信息。由于本发明在多任务学习的框架下引进了属性信息,同时学习属性与目标之间的底层特征信息。因此,本发明使行为识别精度显著改善。
本发明采用稀疏低秩结构的多任务行为识别方法进行行为识别。利用计算机视觉的方法对视频序列中的图像进行自动分析,实现对摄像机拍摄的动态场景中人体行为的检测和识别,并在此基础上分析和判断目标的行为是属于哪一种人体常规行为(如挥手、走路、慢跑、跳远等等)。多任务行为识别方法是行为识别中比较实用的方法。稀疏项对数据噪声有很好的鲁棒性,并且在特征维度远大于训练样本数的情况下,能够挑选具有良好判别力的特征。低秩能够挖掘子空间结构的信息获取任务之间的相关性。把基于低秩的迹范数和基于稀疏的l1范数结合起来作为一个复合正规化项,用于得到稀疏低秩的结构。采用自适应惩罚线性交替方向法解决稀疏低秩的不光滑凸优化问题,引进一个辅助变量使得目标函数可分离,并且把该稀疏低秩优化问题转化为增强拉格朗日函数。不断通过最小化目标函数来计算参数的最优解,直到收敛。本发明重点研究了在摄像头固定或非固定的情况下对目标的行为进行检测的方法,在背景变化比较简单的情况下,本发明提出了一种基于稀疏低秩结构的多任务行为识别方法,并有选择性的对阈值进行选取,提高了算法的性能。

Claims (5)

1.一种基于稀疏低秩结构多任务学习的行为识别方法,其特征在于包括如下步骤:
1)构建基于稀疏低秩结构的多任务行为识别优化问题;
2)用交替方向法处理步骤1)构建的稀疏低秩不光滑凸优化问题;
3)用线性交替方向法减少辅助变量的引用并简化步骤2)产生的子问题的运算;
4)利用自适应惩罚进一步加快算法的收敛。
2.如权利要求1所述一种基于稀疏低秩结构多任务学习的行为识别方法,其特征在于在步骤1)中,所述构建基于稀疏低秩结构的多任务行为识别优化问题的具体方法为:
(1)在行为识别方法中,把通过摄像机捕捉记录下的目标对象分类问题作为主任务,并把属性分类问题作为辅助任务;
为了学习主任务,把n定义为目标类别的数量,xi∈Rd定义为训练数据集中的第i个底层特征向量和{yij|j=1,2,…,n}定义为一个二值指标,表示底层特征向量xi是否属于第j类;
假设主任务和辅助任务在同样的底层特征向量下进行学习,为了学习m个辅助任务,定义{yi(n+k)|k=1,2,…,m}为一个二值指标,表示底层特征向量xi是否属于第j属性类,总任务数量为T=n+m,每一个学习任务对应着一个预测函数fl和训练数据集专注于线性预测其中wl是第l个任务的权重向量;
(2)根据步骤(1)中所述,基于稀疏低秩结构的多任务行为识别方法可以被构建为如下的凸优化问题,
m i n W L ( W ) + &lambda; 1 | | W | | * + &lambda; 2 | | W | | 1
其中是常用的最小二乘损失函数,||W||*为矩阵W的迹范数,即是低秩项,通过计算矩阵W奇异值的总和得到,||W||1是l1范数,为稀疏项,通过∑ij|wi,j|计算得到,λ1和λ2为非负权衡参数,分别控制着矩阵W的低秩性和稀疏性。
3.如权利要求1所述一种基于稀疏低秩结构多任务学习的行为识别方法,其特征在于在步骤2)中,所述用交替方向法处理步骤1)构建的稀疏低秩不光滑凸优化问题的具体方法为:
(1)利用交替方向法处理上述凸优化问题,它结合了双上升方法的可分解性与乘子快速收敛的特点,通过增加两个辅助变量ψ1和ψ2,把凸优化问题转化为:
m i n W , &Psi; 1 , &Psi; 2 L ( W ) + &lambda; 1 | | &Psi; 1 | | * + &lambda; 2 | | &Psi; 2 | | 1
s.t.W=ψ1,W=ψ2
上式的增广拉格朗日函数可以表示为:
其中Γ1和Γ2是拉格朗日乘子,〈·,·〉是内积,ρ是惩罚参数,通常的增广拉格朗日乘子方法是同时关于WΨ1和Ψ2最小化式子;
(2)交替方向法把最小化式子分解为分别关于WΨ1和Ψ2的子问题,包含以下迭代,
&Gamma; k + 1 1 = &Gamma; k 1 + &rho; ( W k + 1 - &Psi; k + 1 1 ) - - - ( 3 )
&Gamma; k + 1 2 = &Gamma; k 2 + &rho; ( W k + 1 - &Psi; k + 1 2 ) - - - ( 4 )
其中Wk表示ADM在第k次迭代上的中间解,ρ为预先给定的常数。
4.如权利要求1所述一种基于稀疏低秩结构多任务学习的行为识别方法,其特征在于在步骤3)中,所述用线性交替方向法减少辅助变量的引用并简化步骤2)产生的子问题的运算的具体方法如下:
(1)为了避免引入辅助变量和有效求解1)中用交替方向法把最小化式子分解为分别关于WΨ1和Ψ2的子问题所得到的子问题(1)和(2),利用线性化问题作用于子问题(1)和(2),为了加快算法收敛速度,提出了一种自适应规则来更新惩罚参数,其步骤如下:
更新W,等式(1)的最优解Wk+1可以通过如下得到:
W k + 1 = argmin W ( L ( W ) + &rho; 2 | | W - &Psi; k 1 + &Gamma; k 1 / &rho; | | F 2 + &rho; 2 | | W - &Psi; k 2 + &Gamma; k 2 / &rho; | | F 2 )
最优解Wk+1可以通过求解一个线性方程组;
更新Ψ,等式(2)的最优解可以通过如下得到:
&Psi; k + 1 1 = argmin &Psi; 1 ( &lambda; 1 | | &Psi; 1 | | * + &rho; 2 | | W k + 1 - &Psi; 1 + &Gamma; k 1 / &rho; | | F 2 ) - - - ( 5 )
&Psi; k + 1 2 = arg min &Psi; 2 ( &lambda; 2 | | &Psi; 2 | | * + &rho; 2 | | W k + 1 - &Psi; 2 + &Gamma; k 2 / &rho; | | F 2 ) - - - ( 6 )
更新的拉格朗日乘子仍然如式(3)和(4);
(2)可以验证上述优化问题(5)有一个解析解,假设秩的奇异值分解,其中Ur和Vr包含r个正交列,Σr=diag{{σ12,…σr)},然后,最优解计算如下为:
&Psi; k + 1 1 = U r &Sigma; ^ r V r T , &Sigma; ^ r = d i a g { ( &sigma; i - &lambda; 1 &rho; k ) + }
其中,若x>0,则(x)+=x,否则,(x)+=0;
可以验证上述优化问题(6)有一个解析解,让δ,w,和θ是Wk+1在相同坐标上的元素,最优解δ通过如下计算:
&delta; = { w + 1 &rho; k ( &theta; - &lambda; 2 ) w + 1 &rho; k &theta; > 1 &rho; k &lambda; 2 0 - 1 &rho; k &lambda; 2 &le; w + 1 &rho; k &theta; &le; 1 &rho; k &lambda; 2 w + 1 &rho; k ( &theta; + &lambda; 2 ) w + 1 &rho; k &theta; < - 1 &rho; k &lambda; 2 .
5.如权利要求1所述一种基于稀疏低秩结构多任务学习的行为识别方法,其特征在于在步骤4)中,所述利用自适应惩罚进一步加快算法收敛的方法步骤如下:
用自适应规则来更新惩罚参数,来进一步加快算法的收敛性,惩罚参数ρ自适应更新策略如下:
ρk+1=min(ρmax,σρk)
其中ρmax是{ρk}的上界,σ的值定义如下,
其中,σ0≥0是一个常数。
CN201610120767.7A 2016-03-03 2016-03-03 一种基于稀疏低秩结构多任务学习的行为识别方法 Pending CN105809119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610120767.7A CN105809119A (zh) 2016-03-03 2016-03-03 一种基于稀疏低秩结构多任务学习的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610120767.7A CN105809119A (zh) 2016-03-03 2016-03-03 一种基于稀疏低秩结构多任务学习的行为识别方法

Publications (1)

Publication Number Publication Date
CN105809119A true CN105809119A (zh) 2016-07-27

Family

ID=56465978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610120767.7A Pending CN105809119A (zh) 2016-03-03 2016-03-03 一种基于稀疏低秩结构多任务学习的行为识别方法

Country Status (1)

Country Link
CN (1) CN105809119A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404471A (zh) * 2017-04-05 2017-11-28 青海民族大学 一种基于admm算法网络流量异常检测方法
CN107545276A (zh) * 2017-08-01 2018-01-05 天津大学 联合低秩表示和稀疏回归的多视角学习方法
CN107590167A (zh) * 2017-01-18 2018-01-16 南京邮电大学 一种基于归纳型矩阵补全的大规模社交图像自动标注算法
CN108399316A (zh) * 2018-03-02 2018-08-14 南京邮电大学 药物设计中配体分子特征筛选装置和筛选方法
CN108846343A (zh) * 2018-06-05 2018-11-20 北京邮电大学 基于三维视频的多任务协同分析方法
CN113033626A (zh) * 2021-03-02 2021-06-25 西北工业大学 基于多任务协同学习的图像分类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590167A (zh) * 2017-01-18 2018-01-16 南京邮电大学 一种基于归纳型矩阵补全的大规模社交图像自动标注算法
CN107404471A (zh) * 2017-04-05 2017-11-28 青海民族大学 一种基于admm算法网络流量异常检测方法
CN107545276A (zh) * 2017-08-01 2018-01-05 天津大学 联合低秩表示和稀疏回归的多视角学习方法
CN107545276B (zh) * 2017-08-01 2021-02-05 天津大学 联合低秩表示和稀疏回归的多视角学习方法
CN108399316A (zh) * 2018-03-02 2018-08-14 南京邮电大学 药物设计中配体分子特征筛选装置和筛选方法
CN108846343A (zh) * 2018-06-05 2018-11-20 北京邮电大学 基于三维视频的多任务协同分析方法
CN113033626A (zh) * 2021-03-02 2021-06-25 西北工业大学 基于多任务协同学习的图像分类方法
CN113033626B (zh) * 2021-03-02 2022-04-26 西北工业大学 基于多任务协同学习的图像分类方法

Similar Documents

Publication Publication Date Title
Zheng et al. Improving visual reasoning through semantic representation
Cheng et al. Pest identification via deep residual learning in complex background
CN105809119A (zh) 一种基于稀疏低秩结构多任务学习的行为识别方法
Liu et al. Ssd: Single shot multibox detector
CN105469034B (zh) 基于加权式鉴别性稀疏约束非负矩阵分解的人脸识别方法
CN111488804A (zh) 基于深度学习的劳保用品佩戴情况检测和身份识别的方法
CN105488456B (zh) 基于自适应阈值调整拒识子空间学习的人脸检测方法
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN113259331B (zh) 一种基于增量学习的未知异常流量在线检测方法及系统
CN111401132B (zh) 监控场景下高层语义指导的行人属性识别方法
CN104318219A (zh) 基于局部特征及全局特征结合的人脸识别方法
CN103617413B (zh) 一种在图像中识别物体的方法
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN111860434A (zh) 机器人视觉隐私行为识别与保护方法
CN104778699B (zh) 一种自适应对象特征的跟踪方法
CN103268607A (zh) 一种弱监督条件下的共同对象检测方法
Yao et al. R²IPoints: Pursuing Rotation-Insensitive Point Representation for Aerial Object Detection
Yue et al. Safety helmet wearing status detection based on improved boosted random ferns
Alsanad et al. Real-time fuel truck detection algorithm based on deep convolutional neural network
Panigrahi et al. MS-ML-SNYOLOv3: A robust lightweight modification of SqueezeNet based YOLOv3 for pedestrian detection
Roslan et al. Deep learning for tree crown detection in tropical forest
Du An anomaly detection method using deep convolution neural network for vision image of robot
Xu et al. Crowd density estimation based on improved Harris & OPTICS Algorithm
Zhu et al. Data augmentation and few-shot change detection in forest remote sensing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160727