CN110458037B - 基于多视角间共性特性挖掘的多任务动作识别方法 - Google Patents
基于多视角间共性特性挖掘的多任务动作识别方法 Download PDFInfo
- Publication number
- CN110458037B CN110458037B CN201910653316.3A CN201910653316A CN110458037B CN 110458037 B CN110458037 B CN 110458037B CN 201910653316 A CN201910653316 A CN 201910653316A CN 110458037 B CN110458037 B CN 110458037B
- Authority
- CN
- China
- Prior art keywords
- task
- matrix
- action
- tasks
- views
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005065 mining Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 230000000007 visual effect Effects 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000009472 formulation Methods 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000033001 locomotion Effects 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 239000004576 sand Substances 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 238000011160 research Methods 0.000 description 6
- 101150079344 ACT4 gene Proteins 0.000 description 5
- 101100056774 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ARP3 gene Proteins 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 101100049727 Arabidopsis thaliana WOX9 gene Proteins 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 101150059016 TFIP11 gene Proteins 0.000 description 1
- 102100032856 Tuftelin-interacting protein 11 Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多视角间共性特性挖掘的多任务动作识别方法,实现了对基于多视角动作识别的不同视角间内在共性和特性的挖掘。具体包含以下步骤:(1)视频预处理及特征提取和融合,(2)数据的构建及视角间相似度矩阵的构建,(3)多视角间共性特性挖掘的多任务学习正则项制定及模型构建,(4)基于视角间共性特性挖掘的多任务动作识别模型构建,(5)基于特征投影的多任务动作识别。本发明的优点是通过将视角看作任务,充分挖掘任务(视角)间内在的共有特征和特有特征,使得从一个任务学习到的信息被其余任务所利用,实现人体动作的高效识别。
Description
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及一种基于多视角间共性特性挖掘的多任务动作识别方法,将视角看作任务,用于挖掘不同视角间潜在的共性和特性关联,在人体动作识别领域,验证了视角共性特性学习以及线性多任务学习的有效性。
背景技术
人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研究热点,并因其在智能监控、便捷的人机交互等领域的广泛应用受到学术界和工业界的密切关注。近些年来,许多人体动作识别方法也被广泛的讨论,早期的很多研究提出了许多不同的算法,它们大体可以分为两类:1)特征层,早期的研究通常认为获得一个好的人体动作特征再表示是有效的提高人体动作识别性能的关键,因此,许多人体动作描述方法被提出,例如,运动历史直方图、运动能量图像、STIP特征、MoSIFT、DSTIP、3D-SIFT和GIST等不同特征;2)分类器层,早期有许多研究者针对动作本身所具有的特性,设计出了许多不同的分类器,例如,支持向量机,条件随机场,稀疏化分类器和深度神经网络等。尽管许多令人满意的动作描述符和分类器被相继提出,由于在当前真实系统应用中往往存在严重的遮挡、被关注对象位置变化、视角变化等多种外因带来的影响,单视角动作识别仍然是一个具有挑战性的研究课题。因此,近些年来,多视角人体动作识别方法被广泛的提出,在多视角问题中,通过从多个视角观察人体动作,可以有效的解决单视角自遮挡问题,且每个视角将会提供其余视角没有的互补信息,因此,来自于多个视角的信息可以用于更加准确的描述人体动作,从而提高人体动作识别的准确率。
在计算机视觉和模式识别相关研究领域中,多任务学习一直是最活跃的研究领域之一。在许多真实世界的应用中,往往会包括一些相关联的分类、回归、聚类任务,一个简单的解决这些任务的方法就是忽略任务之间的相关性,利用单任务学习方法独立的解决每一个任务,而多任务学习方法则是通过提取和利用相关任务间共享的信息来共同的学习一组任务,从而有效的提高单个任务的预测性能。现如今,虽然多任务学习已经被应用在了众多领域,但是将多任务学习应用在多视角人体动作识别方面的研究还很少,其次,大多数多任务动作识别问题都只考虑了任务间的相关性,并没有对多任务间的共有特征以及单个任务的特有特征同时进行学习,且也未能考虑到任务间的依赖性以及不同任务间动作的相似性,无法充分挖掘任务间的内在关联特性,从而不能为高效的人体动作识别提供帮助。
发明内容
本发明目的是解决基于多视角的多任务动作识别中,常用方法无法充分挖掘并利用不同视角间内在共性和特性的问题,提供一种高效的基于多视角间共性特性挖掘的多任务动作识别方法,用于充分地挖掘多视角的内在关联,并在人体动作识别中进行了验证。
本发明提供的基于多视角间共性特性挖掘的多任务动作识别方法,用于将视角看作任务,充分挖掘多视角间内在的共性和特性关联,从而为高效的人体动作识别提供帮助。该方法具体包含以下步骤:
第1步、视频预处理及特征提取和融合
第1.1步、由于从设备中采集的深度数据包括许多空洞,所以需要使用修补算法修补空洞,且连续的数据需要手动的标记单个动作的开始点和结束点来分割数据,消除了不相关的插入帧后,这样,就可以获得完整的动作实例;
第1.2步、由于彩色数据提供的是动作的视觉外观信息,而深度数据提供的是结构信息,因此共同使用两种异质的模态将会更加有益于数据信息的提取,因此,针对完整的彩色图像序列,提取HOG-HOF时序特征,而针对深度图像序列,则提取相对编码特征,并对这两种特征进行融合,最后,使用该融合特征对该动作进行表征;
第2步、数据的构建和视角间相似度矩阵的构建
第2.1步、定义和概念
考虑一组用以描述动作的R个相关视角,将每个视角看作一个任务,每一个任务都是一个具有C个动作类别的多类别分类问题,对于每一个任务t=1,2,...,R,给定一个训练集其中,Nt表示第t个任务的总样本数,是一个表示第t个任务中第n个动作样本的d维特征向量,是指示第t个任务中第n个动作样本的类别成员的标签,对于每一个任务t,定义一个特征矩阵xt∈IRNt×d,以及标签矩阵yt定义如下:
连接所有R个任务的特征矩阵xt和标签矩阵yt得到特征矩阵X=[x1′,...,xR′]′,X∈IRN×d和标签矩阵Y=[y1′,...yR′]′,Y∈IRN×CR,其中表示R个任务的总样本数;以上各式中,x1′表示矩阵x1的转置,[x1′,...,xR′]′表示矩阵[x1′,...,xR′]的转置,其它含义类似。
第2.2步、视角间相似度
由于从相邻视角间观察到的动作的相似度要高于相隔较远的视角间动作的相似度,且为了保证从一个任务中学习到的知识能被其余任务所利用,因此,通过指定一个矩阵来定义一个模拟不同视角即任务间动作相似度的图形结构即相似度矩阵,其具体的定义公式如下:
其中
其中,v、w和h指代的是视角即任务,c指代的是第c个动作类别,p、q分别表示的是在第v和第w个视角即任务中属于第c个动作类别的样本数。表示的是第v个任务中属于第c个动作类别的第i个动作样本的特征向量,表示的是第w个任务中属于第c个动作类别的第j个动作样本的特征向量,γvw∈IR1×C是一个向量,表示的是第v和第w个视角间各个动作的相似度,其中越大的值代表不同视角即任务间指定动作拥有越大的相似度,γvw(1,c)表示的是第v和第w个视角间第c个动作类别之间的相似度;
第3、多视角间共性特性挖掘的多任务学习正则项制定及模型构建
为了充分挖掘视角间的内在关系以及每个视角间的共性和特性,将权重矩阵分解为两项之和的形式,即C和S,矩阵C模拟任务即视角之间的共同特征,矩阵S模拟各个任务即视角的特有特征,因此,构建模型如下:
其中,λc、λs和λ是标量常数,用于控制其对应项的贡献程度,Y表示训练集标签,X表示训练集提取完特征的矩阵,矩阵C=[c1′,...cR′]′∈IRd×CR是通过学习任务(视角)间的共有特征得到的变换矩阵,矩阵S=[s1′,...sR′]′∈IRd×CR是通过学习各个任务(视角)的特有特征得到的变换矩阵,M是从第2.2步中得到的视角间相似度矩阵;
第4、基于视角间共性特性挖掘的多任务动作识别模型构建
在第3步获得的变换矩阵C和S的基础上,对单个任务训练和测试样本进行表征,其具体的模型如下:
其中,表示的是第t个任务即视角的原始训练样本,表示的是第t个任务的原始训练样本经由变换矩阵(ct+st)投影到C维输出空间后的训练样本,表示的是第t个任务即视角的原始测试样本,表示的是第t个任务的原始测试样本经由变换矩阵(ct+st)投影到C维输出空间后的测试样本,ct和st分别表示的第t个任务即视角的变换矩阵,C表示动作类别数;
第5、基于特征投影的多任务动作识别
根据将第4步中获得的通过变换矩阵投影表征后位于同一空间的每个任务测试、训练样本共同送进k最近邻分类算法,并设置合适的参数k,进行分类,将最后得到的结果判断为该测试样本对应的动作类别。
本发明的优点和有益效果:
1)充分挖掘了多视角间的共有特征,以及每个视角所拥有的特有特征,将视角看作任务,使得从一个任务学习到的信息可以被其余任务所使用;
2)设计学习任务间共有特征和特有特征的正则项,构建对应的目标函数,充分挖掘任务(视角)间内在的共性和特性。
附图说明
图1为本发明的流程图。
图2为5组随机抽样产生的训练集和测试集通过本发明中基于多视角间共性和特征挖掘的多任务学习方法在数据集ACT42上不同视角对应的性能,其中,Sampling_1表示的第一组随机抽样,其它含义类似。
图3为本发明与其它算法在数据集ACT42上每个视角上的性能和平均性能的比较,其中图3中对应的文献如下所示:
[1]Y.Yan,E.Ricci,R.Subramanian,G.Liu,and N.Sebe,“Multitask lineardiscriminant analysis for view invariant action recognition,”IEEE Trans.ImageProcess.,vol.23,no.12,pp.5599–5611,Dec.2014.
[2]I.N.Junejo,E.Dexter,I.Laptev,and P.Perez,“View-independent actionrecognition from temporal self-similarities,”IEEE Trans.PatternAnal.Mach.Intell.,vol.33,no.1,pp.172–185,Jan.2011.
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例1:
如图1所示,为本发明的一种基于多视角间共性特性挖掘的多任务动作识别方法的操作流程图,该方法的操作步骤包括:
步骤10视频预处理及特征提取和融合
由于从设备中采集的深度数据包括许多空洞,当多台设备同时工作在同一片区域时,由于彼此的相互影响,空洞影响将被放大,为了减少空洞的影响,首先分别为来自于多个视角的深度图片做清理背景的操作,其次,对于每一个原始深度帧,当某个或某些像素点出现空洞时,使用其相邻帧中同一坐标位置处的深度值进行替代,从而修补对应的空洞。且连续的数据需要手动的标记单个动作的开始和结束点来分割数据,消除了不相关的插入帧后,这样,就可以获得完整的动作实例;
由于彩色数据提供的是动作的视觉外观信息,而深度数据提供的是数据的结构信息,因此融合两种异质的模态将会更加有益于数据信息的提取以及复杂动作的表达。本发明中为深度图像序列和彩色图像序列分别提取相对编码特征和HOG-HOF时序特征,它们的提取过程分别为:
针对不同动作的深度数据信息,相对编码特征的提取过程为:将一个动作实例的深度数据看作一个由深度值组成的时空体,在此时空体中可以提取出3×3×3大小的原子长方体,并选择一个参考点作为该原子长方体的中心,为了方便于动作的再表示,可以选择时空体的角点作为参考点。在此原子长方体上,参考点与其余26个点分别进行比较,并对它们间的差异进行编码,生成一个26维的相对编码特征向量,编码具体定义如下所示:
其中,pr代表参考点,pi代表原子长方体中的其他点,i=1,...,26,D(pr)表示参考点pr的深度值,D(pi)表示点pi的深度值,γ表示比较阈值,然后按顺序依次组合原子长方体上的26个编码以形成相对编码特征向量。通过利用顺序编码来描述深度长方体的结构,相对编码特征可以正确的表示动作内的时空约束。由于在编码的过程中,保存了邻居信息,且点与点之间进行了定性的比较,因此,相对编码特征对于视角的变化也有一定的鲁棒性。
针对不同动作的彩色数据信息,HOG-HOF特征的提取过程为:HOG-HOF特征是将HOG特征和HOF特征结合所组成的特征,方向梯度直方图(HOG)描述符是通过图像中像素点强度梯度或边缘方向分布来对目标的外形、运动进行表征的一种特征描述符。光流直方图(HOF)描述符是通过计算空间运动物体表面上像素点运动产生的瞬时速度场来描述目标运动状态的一种特征描述符。HOG-HOF描述符是将梯度方向直方图和光流直方图结合起来共同表征人体动作的一种描述符,首先检测时空兴趣点并提取以兴趣点为中心的时空立方体,然后在每个时空立方体的空间维度上计算梯度方向直方图(HOG),在时间维度上计算光流直方图(HOF),将HOG和HOF描述符连接起来进行归一化形成局部时空特征描述符,最后将所有时空立方体的特征描述子连接起来形成最终的HOG-HOF特征描述符。该特征的具体提取过程参见如下参考文献:Wang,H.,Ullah,M.M.,Klaser,A.,Laptev,I.,Schmid,C.:Evaluation of local spatio-temporal features for action recognition.In:BMVC2009.(2009);
由于彩色数据提供的是动作的视觉外观信息,而深度数据提供的是数据的结构信息,因此融合两种异质的模态将会更加有益于数据信息的提取以及复杂动作的表达。在现存的方法中,结合不同的特征向量到一个统一的向量被证明是一种有效的融合异质模态的方法,因此本发明中采用SFR方法去融合来自于异质来源的特征,实现对动作的最终描述。方法具体过程如下:在为深度图像提取完相对编码特征后,为了保留相对编码特征的特性,使用k-medoids聚类方法为所有动作构建码字大小为1000的共有码书,在为彩色图像提取完HOG-HOF特征后,使用k-means聚类方法为所有动作构建码字大小为1000的共有码书。然后,采用“词袋”方法,为不同动作的不同特征生成视觉词袋模型(BoVW)直方图向量,并将它们连接在一起后进行归一化,实现对其动作的描述,具体方法见:Lazebnik,S.,Schmid,C.,Ponce,J.:Beyond bags of features:Spatial pyramid matching for recognizingnatural scene categories.In:CVPR 2006.Volume 2.,IEEE(2006)2169–2178;
步骤20数据的构建和视角间相似度矩阵的构建
首先,考虑一组用以描述动作的R个相关视角,将每个视角看作一个任务,每一个任务都是一个具有C个动作类别的多类别分类问题,对于每一个任务t=1,2,...,R,给定一个训练集其中,Nt表示第t个任务的总样本数,是一个表示第t个任务中第n个动作样本的d维特征向量,是指示第t任务中第n个动作样本的类别成员的标签,对于每一个任务t,定义一个特征矩阵xt∈IRNt×d,以及标签矩阵yt定义如下:
连接所有R个任务的特征矩阵xt和标签矩阵yt得到总特征矩阵X=[x1′,...,xR′]′,X∈IRN×d和标签矩阵Y=[y1′,...yR′]′,Y∈IRN×CR,其中表示R个任务的总样本数;以上各式中,x1′表示矩阵x1的转置,[x1′,...,xR′]′表示矩阵[x1′,...,xR′]的转置,其它含义类似。
由于从相邻视角间观察到的同一动作的相似度要高于相隔较远的视角间同一动作的相似度,且为了保证从一个任务中学习到的知识能被其余任务所利用,从多个任务中学习到的变换矩阵ct能更加的一致,因此,通过指定一个矩阵来定义一个模拟不同视角即任务间相似度的图形结构,其具体的定义公式如下:
其中
其中,v、w和h指代的是视角即任务,c指代的是第c个动作类别,p、q分别表示的是在第v和第w个任务中属于第c个动作类别的总样本数。表示的是第v个任务中属于第c个动作类别的第i个动作样本的特征向量,表示的是第w个任务中属于第c个动作类别的第j个动作样本的特征向量,γvw∈IR1×C是一个向量,具体计算的是不同视角间相同动作之间的相似度程度,其中越大的值代表不同视角即任务间指定动作拥有越大的相似度,其中,γvw(1,c)表示的是第v和第w个视角间第c个动作类别之间的相似度。||*||2表示2范数,(*)-1表示求逆。
步骤30基于视角间共性特性挖掘的多任务学习正则项制定及模型构建
虽然目前已经提出了许多不同的人体动作识别算法,然而,在实际生活中,由于单视角数据往往会受到光照、阴影、遮挡和环境等因素的干扰,单视角动作识别算法往往不能保证动作识别算法的鲁棒性且干扰因素还会影响到最终的识别准确率,而联合多个视角的信息,挖掘多个视角间的潜在关联,研究多视角人体动作识别成为了现如今的趋势,然而,现如今大多数多视角动作识别算法在融合多视角信息时,都只考虑到了多视角数据间的一致性或者增强了视角间的不一致性,并没有充分挖掘多视角间的潜在关联,挖掘视角间的共性和特性。因此,为了解决该问题,拟通过引入多任务学习方法,将每个视角的动作识别问题看作一个任务,通过引入正则项充分挖掘多视角间的共性和特性以及学习视角间的相似度来提升单个任务即每个视角人体动作识别的准确度。其具体定义为:
其中,λc、λs和λ是标量常数,用于控制其对应项的贡献程度,Y表示多个任务的训练集标签,X表示多个任务的训练集提取完特征的矩阵,矩阵C=[c1′,...cR′]′∈IRd×CR是通过学习任务即视角间的共有特征得到的变换矩阵,矩阵S=[s1′,...sR′]′∈IRd×CR是通过学习各个任务即视角的特有特征得到的变换矩阵,M是从步骤20中得到的视角间相似度矩阵。
目标函数中第一项表示损失项函数,目的是最小化在每一个任务(视角)上的训练误差,而表示反映任务间关联的正则化项,λc、λs和λ是标量常数,用于控制其对应项的贡献程度,而||*||F、||*||*、||*||2和||*||1分别表示F范数、核范数、2范数和1范数。
在构建完目标函数后,需要求解该目标函数,学习得到R个任务的变换矩阵C和S,然而,该目标函数对(C,S)不是联合凸函数,不具有凸性,但是当C或S中某个变量固定时,该目标函数变为凸函数,因此,通过一种快速迭代阈值收缩算法对该目标函数进行迭代求解,从而获得最终的变换矩阵C和S。具体方法见:A.Beck andM.Teboulle,“A fast iterativeshrinkage-thresholding algorithm for linear inverse problems,”SIAMJ.Imag.Sci.,vol.2,no.1,pp.183–202,2009;
需要特别指出之处是,在该目标函数中,来自于所有视角的训练样本均被使用,根据多任务学习的理论,所有相关的任务均要被一起学习,这样才可以提高每一个任务的性能,即通过学习任务即视角间共有特征从而学习到的特征变换矩阵C和通过学习单个任务即视角的特有特征从而学习到的特征变换矩阵S都需要多任务即视角间共同进行学习,即共同进行求解,这样,才能充分挖掘视角间的共有特征和特有特征,从而全面的学习到视角间的信息,才能有效的提高多视角人体动作识别问题的性能。在具体实现中,λc、λs和λ的取值范围为[0.5,0.1,0.05,0.01,0.005,0.001,0.0005,0.0001,0.00005,0.00001];
步骤40基于视角间共性特性挖掘的多任务动作识别模型构建
在步骤30的基础上,首先对测试样本提取特征,同时,使用步骤30中已获得的各个任务的变换矩阵对训练样本和测试样本进行重建,获得对应的新的特征表示,用于动作识别。具体定义为:
其中,表示的是第t个任务(视角)的原始训练样本,表示的是第t个任务的原始训练样本经由变换矩阵(ct+st)投影到C维输出空间后的训练样本,表示的是第t个任务(视角)的原始测试样本,表示的是第t个任务的原始测试样本经由变换矩阵(ct+st)投影到C维输出空间后的测试样本,ct和st分别表示的第t个任务(视角)的变换矩阵,C表示动作类别数。
步骤50基于特征投影的多任务动作识别
根据第4步中获得的投影之后位于同一C维空间的训练样本和测试样本将训练样本和测试样本共同送进k最近邻分类算法,并设置合适的参数k,通过计算在同一空间中,训练集的某个样本跟测试集中所有样本之间的距离,从而选取跟它距离最近的k个样本,这k个样本中大多数样本属于哪一类,则此测试样本的动作类别就为哪一个类别。在ACT42数据集的具体实施例中,根据实验统计,选取k=5。
通过对公式(4)的最优求解,不仅能够寻求到每个任务最优的变换矩阵ct和st,从而有利于解决由于视角变化、遮挡、距离远近和关注目标本身位置变化等造成的单一视角无法完整描述动作带来的干扰,而且充分挖掘了多视角间的共有特征和特有特征,从而提升了每个任务的性能。而通过对公式(5)的计算,可以得到投影到C维空间之后的测试样本,从而对其进行识别。
为了验证本发明的有效性,在公开的数据集ACT42上进行了评测,人体动作数据集ACT42有4个视角即4个任务,共包含24个人做的14个动作,在本发明中,为每个视角下的每个人所作的某一动作随机选取2个样本,共包含2648个样本,在每个视角下均选取其中8个人的所有样本作为训练集,其余16个人的所有样本作为测试集。通过5次随机采样,产生5组训练集和测试集,并在每组训练测试集上进行了多任务动作识别学习,其得到的结果如图2所示。最后,本发明中5组实验的平均性能与其他算法性能的比较如图3所示,从这些图中可以看出,本发明提出的基于多视角间共性特性挖掘的多任务动作识别算法具有较好的性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于多视角间共性特性挖掘的多任务动作识别方法,用于充分挖掘多视角间的内在共性和特性关联,以实现高效率的动作识别,其特征在于该方法具体包含以下步骤:
第1步、视频预处理及特征提取和融合
第1.1步、由于从设备中采集的深度数据包括许多空洞,所以需要使用修补算法修补空洞,且连续的数据需要手动的标记单个动作的开始点与结束点来分割数据,消除了不相关的插入帧后,这样,就可以获得完整的动作实例;
第1.2步、针对完整的彩色图像序列,提取HOG-HOF时序特征,而针对深度图像序列,则提取相对编码特征,并对这两种特征进行融合,最后,使用该融合特征对该动作进行表征;
第2步、数据的构建和视角间相似度矩阵的构建
第2.1步、定义和概念
考虑一组用以描述动作的R个相关视角,将每个视角看作一个任务,每一个任务都是一个具有C个动作类别的多类别分类问题,对于每一个任务t=1,2,...,R,给定一个训练集其中,Nt表示第t个任务的总样本数,是一个表示第t个任务中第n个动作样本的d维特征向量,是指示第t个任务中第n个动作样本的类别成员的标签,对于每一个任务t,定义一个特征矩阵xt∈IRNt×d,以及标签矩阵yt定义如下:
连接所有R个任务的特征矩阵xt和标签矩阵yt得到特征矩阵X=[x1′,...,xR′]′,X∈IRN ×d和标签矩阵Y=[y1′,...yR′]′,Y∈IRN×CR,其中表示R个任务的总样本数;以上各式中,x1′表示矩阵x1的转置,[x1′,...,xR′]′表示矩阵[x1′,...,xR′]的转置,其它含义类似;
第2.2步、视角间相似度
由于从相邻视角间观察到动作的相似度要高于相隔较远的视角间动作的相似度,且为了保证从一个任务中学习到的知识能被其余任务所利用,因此,通过指定一个矩阵来定义一个模拟不同视角即任务间动作相似度的图形结构即相似度矩阵,其具体的定义公式如下:
其中
其中,v、w和h指代的是视角即任务,c指代的是第c个动作类别,p、q分别表示的是在第v和第w个视角即任务中属于第c个动作类别的样本数;表示的是第v个任务中属于第c个动作类别的第i个动作样本的特征向量,表示的是第w个任务中属于第c个动作类别的第j个动作样本的特征向量,γvw∈IR1×C是一个向量,表示的是第v和第w个视角间各个动作的相似度,其中越大的值代表不同视角即任务间指定动作拥有越大的相似度,其中,γvw(1,c)表示的是第v和第w个视角间第c个动作类别之间的相似度;
第3步、多视角间共性特性挖掘的多任务学习正则项制定及模型构建
为了充分挖掘视角间的内在关系以及每个视角间的共性和特性,将权重矩阵分解为两项之和的形式,即C和S,矩阵C模拟任务即视角之间的共同特征,矩阵S模拟各个任务即视角的特有特征,因此,构建模型如下:
其中,λc、λs和λ是标量常数,用于控制其对应项的贡献程度,Y表示训练集标签,X表示训练集提取完特征的矩阵,矩阵C=[c1′,...cR′]′∈IRd×CR是通过学习任务即视角间的共有特征得到的变换矩阵,矩阵S=[s1′,...sR′]′∈IRd×CR是通过学习各个任务即视角的特有特征得到的变换矩阵,M是从第2.2步中得到的视角间相似度矩阵;
第4步、基于视角间共性特性挖掘的多任务动作识别模型构建
在第3步获得的变换矩阵C和S的基础上,对单个任务的训练和测试样本进行表征,其具体的模型如下:
其中,表示的是第t个任务即视角的原始训练样本,表示的是第t个任务的原始训练样本经由变换矩阵(ct+st)投影到C维输出空间后的训练样本,表示的是第t个任务即视角的原始测试样本,表示的是第t个任务的原始测试样本经由变换矩阵(ct+st)投影到C维输出空间后的测试样本,ct和st分别表示第t个任务即视角的变换矩阵,C表示动作类别数;
第5、基于特征投影的多任务动作识别
根据将第4步中获得的通过变换矩阵投影表征后位于同一空间的每个任务测试、训练样本共同送进k最近邻分类算法,并设置合适的参数k,进行分类,将最后得到的结果判断为该测试样本对应的动作类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910653316.3A CN110458037B (zh) | 2019-07-19 | 2019-07-19 | 基于多视角间共性特性挖掘的多任务动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910653316.3A CN110458037B (zh) | 2019-07-19 | 2019-07-19 | 基于多视角间共性特性挖掘的多任务动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458037A CN110458037A (zh) | 2019-11-15 |
CN110458037B true CN110458037B (zh) | 2021-09-10 |
Family
ID=68481446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910653316.3A Active CN110458037B (zh) | 2019-07-19 | 2019-07-19 | 基于多视角间共性特性挖掘的多任务动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458037B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690192B (zh) * | 2024-02-02 | 2024-04-26 | 天度(厦门)科技股份有限公司 | 多视图实例-语义共识挖掘的异常行为识别方法和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945375A (zh) * | 2012-11-20 | 2013-02-27 | 天津理工大学 | 多约束下的多视角监控视频行为检测和识别方法 |
CN104268592A (zh) * | 2014-09-22 | 2015-01-07 | 天津理工大学 | 基于协同表示和判别准则的多视角联合动作词典学习方法 |
CN104268586A (zh) * | 2014-10-17 | 2015-01-07 | 北京邮电大学 | 一种多视角动作识别方法 |
CN104463242A (zh) * | 2014-11-12 | 2015-03-25 | 天津理工大学 | 基于特征变换和词典学习的多特征动作识别方法 |
CN106295564A (zh) * | 2016-08-11 | 2017-01-04 | 南京理工大学 | 一种邻域高斯结构和视频特征融合的动作识别方法 |
CN106971145A (zh) * | 2017-03-03 | 2017-07-21 | 广东工业大学 | 一种基于极限学习机的多视角动作识别方法及装置 |
CN109977787A (zh) * | 2019-03-01 | 2019-07-05 | 北京工业大学 | 一种多视角的人体行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8755569B2 (en) * | 2009-05-29 | 2014-06-17 | University Of Central Florida Research Foundation, Inc. | Methods for recognizing pose and action of articulated objects with collection of planes in motion |
-
2019
- 2019-07-19 CN CN201910653316.3A patent/CN110458037B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945375A (zh) * | 2012-11-20 | 2013-02-27 | 天津理工大学 | 多约束下的多视角监控视频行为检测和识别方法 |
CN104268592A (zh) * | 2014-09-22 | 2015-01-07 | 天津理工大学 | 基于协同表示和判别准则的多视角联合动作词典学习方法 |
CN104268586A (zh) * | 2014-10-17 | 2015-01-07 | 北京邮电大学 | 一种多视角动作识别方法 |
CN104463242A (zh) * | 2014-11-12 | 2015-03-25 | 天津理工大学 | 基于特征变换和词典学习的多特征动作识别方法 |
CN106295564A (zh) * | 2016-08-11 | 2017-01-04 | 南京理工大学 | 一种邻域高斯结构和视频特征融合的动作识别方法 |
CN106971145A (zh) * | 2017-03-03 | 2017-07-21 | 广东工业大学 | 一种基于极限学习机的多视角动作识别方法及装置 |
CN109977787A (zh) * | 2019-03-01 | 2019-07-05 | 北京工业大学 | 一种多视角的人体行为识别方法 |
Non-Patent Citations (4)
Title |
---|
Adaptive Fusion and Category-Level Dictionary Learning Model for Multiview Human Action Recognition;Zan Gao 等;《IEEE Internet of Things Journal》;20190417;第20125–20148页 * |
Evaluation of regularized multi-task leaning algorithms for single/multi-view human action recognition;Z. Gao等;《Multimedia Tools and Applications》;20170216;第9280-9293页 * |
Single/multi-view human action recognition via regularized multi-task learning;An-AnLiu 等;《Neurocomputing》;20150305;第151卷;第544-553页 * |
基于多模态潜在关联挖掘的动作识别算法研究及应用;李苏华;《中国优秀硕士学位论文全文数据库信息科技辑》;20181115;第2018年卷(第11期);I138-464 * |
Also Published As
Publication number | Publication date |
---|---|
CN110458037A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Trnovszky et al. | Animal recognition system based on convolutional neural network | |
Wang et al. | Local spectral graph convolution for point set feature learning | |
Luo et al. | Label efficient learning of transferable representations acrosss domains and tasks | |
Wang et al. | Designing deep networks for surface normal estimation | |
Yan et al. | Multitask linear discriminant analysis for view invariant action recognition | |
Liu et al. | Cross-view action recognition via view knowledge transfer | |
Mancini et al. | Learning deep NBNN representations for robust place categorization | |
Endres et al. | Unsupervised discovery of object classes from range data using latent Dirichlet allocation. | |
Gao et al. | Integrated learning of saliency, complex features, and object detectors from cluttered scenes | |
Chen et al. | TriViews: A general framework to use 3D depth data effectively for action recognition | |
Caglayan et al. | Exploiting multi-layer features using a CNN-RNN approach for RGB-D object recognition | |
Hu et al. | RGB-D semantic segmentation: a review | |
Li et al. | Deep representation of facial geometric and photometric attributes for automatic 3d facial expression recognition | |
Chen et al. | Silhouette-based object phenotype recognition using 3D shape priors | |
Cai et al. | Dspm: Dynamic structure preserving map for action recognition | |
Zhang et al. | Pose-robust feature learning for facial expression recognition | |
De Bem et al. | Deep fully-connected part-based models for human pose estimation | |
Parthasarathy et al. | Self-supervised video pretraining yields robust and more human-aligned visual representations | |
Pahde et al. | Low-shot learning from imaginary 3d model | |
Demirkus et al. | Multi-layer temporal graphical model for head pose estimation in real-world videos | |
CN110458037B (zh) | 基于多视角间共性特性挖掘的多任务动作识别方法 | |
Zhang et al. | Inpaint2learn: A self-supervised framework for affordance learning | |
Goodwin et al. | You only look at one: Category-level object representations for pose estimation from a single example | |
CN104537124A (zh) | 多视图度量学习方法 | |
Zhu et al. | Correspondence-free dictionary learning for cross-view action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |