CN104376308B - 一种基于多任务学习的人体动作识别方法 - Google Patents
一种基于多任务学习的人体动作识别方法 Download PDFInfo
- Publication number
- CN104376308B CN104376308B CN201410681461.XA CN201410681461A CN104376308B CN 104376308 B CN104376308 B CN 104376308B CN 201410681461 A CN201410681461 A CN 201410681461A CN 104376308 B CN104376308 B CN 104376308B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- task
- learning
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 45
- 230000033001 locomotion Effects 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000012360 testing method Methods 0.000 claims abstract description 66
- 230000009471 action Effects 0.000 claims abstract description 62
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 12
- 238000002474 experimental method Methods 0.000 abstract description 11
- 238000010801 machine learning Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000006698 induction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多任务学习的人体动作识别方法,所述方法包括以下步骤:从视频序列中提取时空兴趣点;分别提取两个视角下训练集和测试集的“词袋”特征;使用多任务学习方法进行人体动作识别。本发明将多任务学习思想运用到人体动作识别过程中,充分利用了人体各个动作之间的关联特性,通过对多个人体动作进行同时分析和识别,提高了人体动作识别的效率和准确度;并且通过实验也最终验证了本方法的可行性,满足了实际应用中的需要。
Description
技术领域
本发明涉及人体动作识别领域,尤其涉及一种基于多任务学习的人体动作识别方法。
背景技术
随着计算机视觉技术的迅速发展,人体动作识别也逐渐成为广大科研工作者的研究重点。人们通过摄像机拍摄和记录人体动作,然后再对记录的数据进行分析,实现动作的识别。人体动作识别具有广泛的应用,包括在国防、军事上的应用和在一些民用场合(如超市、停车场、银行等)的应用。
目前常用的人体动作识别分类方法主要包括以下几种:
(1)动态时间规整,这种方法可以描述不同时间长度或速度的两段视频序列之间的相似性,通过寻找到不同动作之间的运动快慢速度进行动作识别。该方法过程简单、鲁棒性好,但是它的运算量非常大,并且对端点的检测有很强的依赖性;
(2)隐马尔科夫模型,是目前最常用的模式识别的方法之一,它是一种时序建模的方法,能够有效地对人体动作的时空特性进行建模。该方法可以更好地学习和处理分割连续数据,通过状态之间的转化来描述动作的变化,但是这种方法是建立在时间序列的自学习方法基础上的,具有很大的局限性;
(3)模板匹配法,这种方法可以为每个视频序列建立包含其运动特性的特征模板,然后对模板进行匹配实现动作分类。该方法考虑到了动作之间的关联性,但是它对视频中的噪声以及动作之间的时间间隔非常敏感,从而限制了它的应用范围;
(4)词袋特征+支持向量机,这种方法可以通过描述人体动作的局部时空显著特性,实现对人体动作的识别。尽管该方法在人体动作识别方向已经取得了一些成绩,但是该方法忽略了动作之间的关联性以及时空上下文特征,所以人体动作识别方法仍需要完善和改进。
发明内容
本发明提供了一种基于多任务学习的人体动作识别方法,本发明提高了人体动作识别的准确率,满足了实际应用中的需要,详见下文描述:
一种基于多任务学习的人体动作识别方法,所述方法包括以下步骤:
从视频序列中提取时空兴趣点;
分别提取两个视角下训练集和测试集的“词袋”特征;
使用多任务学习方法进行人体动作识别。
所述使用多任务学习方法进行人体动作识别的步骤具体为:
建立任务的训练数据及其标号、测试数据及其标号;
使用任务的训练数据及其标号训练模型;
使用训练模型对任务的测试数据进行预测。
所述使用多任务学习方法进行人体动作识别的步骤还包括:
使用最大值和查准率-查全率曲线两种判别方法对预测数据进行判别,计算识别准确率。
所述使用任务的训练数据及其标号训练模型具体为:
根据公式得到训练模型其中Wt为第t个任务对应的训练模型,而且满足||Wt||0≤ω,ω为稀疏参数;X1为多任务学习的训练数据;Y1为X1的对应标号;为对Wt取转置;||·||F为取二范数。
所述使用训练模型对任务的测试数据进行预测的步骤具体为:
根据公式使用训练模型W对测试数据X2进行预测,得到的预测数据X的每一行为测试集中对应样本的预测数据;
测试数据的第i个原始样本经过预测后得到第i个预测数据表示为:
X(i,:)=(xi,1,xi,2,…,xi,23)
那么所有的预测数据即为其中xi,1为第i个预测数据的第1维,xi,2为第i个预测数据的第2维数据,以此类推。
本发明提供的技术方案的有益效果是:本发明将多任务学习思想运用到人体动作识别过程中,充分利用了人体各个动作之间的关联特性,通过对多个人体动作进行同时分析和识别,提高了人体动作识别的效率和准确度;并且通过实验也最终验证了本方法的可行性,满足了实际应用中的需要。
附图说明
图1为正面视角的示意图;
图2为侧面视角的示意图;
图3为单一的任务学习的示意图;
图4为多任务学习的示意图;
图5为查准率-查全率曲线的示意图;
图6为一种基于多任务学习的人体动作识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
国际机器学习界的权威T.M.Mitchell认为,机器学习就是对一类特殊计算机算法的研究,这类算法可以从以往的经验中不断学习,从而提升其在处理特定“任务”时的性能[1]。多任务学习早期的研究工作源于对机器学习中的一个重要问题,即“归纳偏置”问题的研究。机器学习的过程可以看作是对与问题相关的经验数据进行分析,从中归纳出反映问题本质的模型的过程。归纳偏置的作用就是用于指导学习算法如何在模型空间中进行搜索,搜索所得模型的性能优劣将直接受到归纳偏置的影响。不同的学习算法(如决策树,神经网络,支持向量机等)具有不同的归纳偏置,人们在解决实际问题时需要人工地确定采用何种学习算法,实际上也就是主观地选择了不同的归纳偏置策略。多任务学习的过程就是将归纳偏置的确定过程也通过学习过程来自动地完成,即利用相关任务中所包含的有用信息,为所关注任务的学习提供更强的归纳偏置。由于多任务学习在提高学习系统能力方面具有显著的能力,该课题已成为目前国际机器学习界的一个研究热点。
1997年,R.Caruana对多任务学习的相关问题进行了初步的分析,并发表《MachineLearning》,标志着多任务学习这一机器学习概念的正式提出[2]。传统的机器学习技术主要针对单任务学习(single-task learning)问题,训练集中的所有样本均反映了单个任务的信息。如T.Evgeniou等人[3]基于早期在多任务学习方面的工作,提出了一种多任务学习的正则化框架,并且基于针对向量输出函数的核方法将多任务学习的正则化问题转为传统的单任务学习问题求解。除了上述基于正则化与层次贝叶斯模型的方法,还出现一些基于Logistic回归[4]、径向基函数网络[5]、支持向量机[6]以及独立成分分析[7]等技术的多任务学习方法。此外,研究者们还对多任务学习范式下的属性选择问题进行了研究,此时学习系统的目标是为多个任务寻找一个共享的输入属性空间,从而基于转化后的表示空间进行学习以得到泛化能力更强的预测模型。目前,多任务学习技术已在模式识别、辅助医疗诊断、数据挖掘、软件设计、语音处理等多个领域中得到了成功应用。
实际中,人类在学习如何完成一项任务时,往往都需要对一些与该任务相关的任务进行学习并从中汲取经验,从而起到举一反三与融会贯通的作用。人类的学习过程如此,计算机在解决实际问题时的情形也十分相似。在实际应用中,由于受到时间、人物、环境等多种因素的制约,人们往往只能获得与某个任务相关的有限甚至少量样本。因此,当计算机进行动作识别时,尤其是在遇到训练样本不充分的情况下,使用多任务学习算法有助于发现人体动作之间的共性以及个性特征,提高人体动作识别的准确率。
101:从视频序列中提取时空兴趣点;
参见图1和图2,本方法使用的测试数据库即3M dataset(全称为multi-view,multi-modality and multi-action dataset,即多视角多模态多动作数据库),是由天津大学数字多媒体实验室录制的。此数据库中共有23个动作,其中多人动作12个,单人动作11个,每个动作都是由20组人(每组1-2人)做1-2遍。此数据库的所有动作均是在正面和侧面两个视角下同时录制的,共包括1784段视频,其中每个视角下有892段视频。此数据库中的每段视频只包含一个动作,其中多人动作分别是1:同向走、2:相向走、3:原地等待、4:交谈、5:拥抱、6:握手、7:击掌、8:鞠躬、9:拳击、10:踢足球、11:传篮球、12:抬箱子;单人动作分别是:13:投篮、14:拍篮球、15:转呼啦圈、16:发网球、17:扣网球、18:打电话、19:喝水、20:用手机拍照、21:扫地、22:擦桌子、23:弹吉他。
本数据库所有的视频均是在均匀的背景下采集的,采集帧速率是20fps/s,空间分辨率是640×480。分别对正面和侧面两个视角下的视频进行相同的处理,分别将两个视角下的所有视频分成训练集和测试集,其中每个视角下的训练集包括524段视频,测试集包括368段视频。
本方法使用Laptev等人提出的时空兴趣点的提取方法[8],即提取3M dataset中每个视频的时空兴趣点,每个时空兴趣点都是用162维的行向量来描述。因为对正面和侧面两个视角下的视频进行的处理是相同的,下面以正面视角为例进行介绍。
对于3M dataset的正面视角,其训练集包括524段视频,如果用V1,t表示训练集V1中的第t个视频,那么训练集中的所有视频可以表示为其测试集包括368段视频,如果用V2,t表示测试集V2中的第t个视频,那么测试集中的所有视频可以表示为如果设从训练集中的视频V1,t中提取到的时空兴趣点的个数为N1,t,那么从训练集的所有视频中提取到的所有时空兴趣点的个数如果设从测试集中的视频V2,t中提取到的时空兴趣点的个数为N2,t,那么从测试集的所有视频中提取到的所有时空兴趣点的个数
102:分别提取两个视角下训练集和测试集的“词袋”特征;
正面视角下训练集和测试集的“词袋”特征的提取方法与侧面视角下训练集和测试集的“词袋”特征的提取方法相同,下面以正面视角为例进行说明。
1、首先,学习词典:对从正面视角下训练集视频中提出的时空兴趣点进行聚类,从而得到词典。
本方法采用的聚类算法是K-means[9]算法,使用K-means算法对从正面视角下训练集视频中提出的N1个时空兴趣点进行聚类后,可将训练集中的时空兴趣点划分成K类,并且得到K个聚类中心,这K个聚类中心组成的K×162矩阵即为词典CK×162。矩阵中的每一行为一个聚类中心,根据步骤101可知,每个聚类中心为一个162维的行向量,那么第k个聚类中心可以表示为Ck=(b1,k,b2,k,…,b162,k),其中1≤k≤K,b1,k为第k个行向量的第1维数据,b2,k为第k个行向量的第2维数据,以此类推。K个聚类中心的集合表示为本方法实验中采用的K=2000。
2、其次,提取训练集的“词袋”特征[10]:对于训练集中的某一段视频V1,t,用表示从V1,t中提取的第n个时空兴趣点(共N1,t个),那么该段视频的所有时空兴趣点的集合为分别计算每个时空兴趣点与K个聚类中心之间的欧氏距离。
例如:为一个162维的行向量,所以可以表示为其中为从V1,t中提取的第n个时空兴趣点的第1维数据,为从V1,t中提取的第n个时空兴趣点的第2维数据,以此类推。如果与第m(1≤m≤K)个聚类中心Cm的欧氏距离最小,就把归为第m类,具体公式表示为
其中,表示与第k(1≤k≤K)个聚类中心Ck之间的欧氏距离;argmin1≤k≤KLk为当Lk(1≤k≤K)取最小值时,k的取值。
然后统计每类中时空兴趣点的个数,可以得到一个数量直方图(1×K的矩阵),此数量直方图即为视频V1,t的“词袋”特征。训练集的“词袋”特征是训练集中所有视频的“词袋”特征的集合,即为一个524×K的矩阵。训练集“词袋”特征的每一行,即为训练集中某个视频的时空兴趣点的数量直方图,此视频对应的动作的标号即为该行的特征标号label(1≤label≤23),从而可以得到训练集的特征标号。训练集的特征标号即为一个524×1的列矩阵。
3、最后,提取测试集的“词袋”特征。对于测试集中的某一段视频V2,t,用表示从V2,t中提取的第n个时空兴趣点(共N2,t个),那么该段视频的所有时空兴趣点的集合为分别计算每个特征点与K个聚类中心之间的欧氏距离。
例如:如果与第k(1≤k≤K)个聚类中心Ck的欧氏距离最小,就把归为第k类。然后统计每类中时空兴趣点的个数,从而可以得到一个数量直方图,此数量直方图即为视频V2,t的“词袋”特征。测试集的“词袋”特征是测试集中所有视频的“词袋”特征的集合,即为一个368×K的矩阵。测试集“词袋”特征的每一行,即为测试集中某个视频的时空兴趣点的数量直方图,此视频对应的动作的标号即为该行的特征标号label(1≤label≤23),从而可以得到测试集的特征标号。测试集的特征标号即为一个368×1的列矩阵。
103:使用多任务学习方法进行人体动作识别。
目前,现有的分类器大部分都是单独对某一个动作进行识别,如果把每个动作的识别看成一个任务的话,这种分类方法称为单一的任务学习。在单一的任务学习过程中,每个任务被认为是独立进行的,忽略了动作之间的关联性。因此,希望加入动作之间的关联信息,对多个动作同时进行分类识别,即多任务学习。在多任务学习过程中,多个相关任务同时进行学习,实现多任务之间的信息共享,间接增加参加任务的样本个数,提高预测的性能。因此,多任务学习对提高动作识别的准确率非常有益,尤其是在数据库的训练样本很少的状况下。图3和图4所示为单一的任务学习和多任务学习的主要差异,单一的任务学习是把每个任务看成是独立的个体进行单独学习,而多任务学习是利用多个任务之间的相关性进行同时学习。
1、建立任务的训练数据及其标号、测试数据及其标号;
因为3M dataset里共包含23个动作,所以本方法需要建立23个任务。对于第t(1≤t≤23)个任务,如果训练集“词袋”特征的标号label等于t,那此标号对应的样本为正样本(标记为1);如果训练集“词袋”特征的标号label不等于t,那此标号对应的样本为负样本(标记为0)。步骤102中得到的训练集“词袋”特征也就是第t个任务对应的训练特征,本方法称为训练子特征,用X1,t表示;训练子特征对应的标号称为训练子特征标号,用Y1,t表示。
因为X1,t为第t个任务的训练子特征,Y1,t为第t个任务的训练子特征标号,那么所有23个任务的训练子特征的集合即为多任务学习的训练数据,用表示,所有23个任务的训练子特征标号的集合即为多任务学习的训练数据的标号,用表示。
同理,如果测试集“词袋”特征的标号label等于t,那此标号对应的样本为正样本(标记为1);如果测试集“词袋”特征的标号label不等于t,那此标号对应的样本为负样本(标记为0)。步骤102中得到的测试集“词袋”特征也就是第t个任务对应的测试特征,本方法称为测试子特征,用X2,t表示;测试子特征对应的标号称为测试子特征标号,用Y2,t表示。
因为X2,t为第t个任务的测试子特征,Y2,t为第t个任务的测试子特征标号,那么所有23个任务的测试子特征的集合即为多任务学习的测试数据,用表示,所有23个任务的测试子特征标号的集合即为多任务学习的测试数据的标号,用表示。
2、使用任务的训练数据及其标号训练模型;
本方法参照J.Zhou等人[11]提出的基于最小二乘损失的集群多任务学习算法(简称为Least_CMTL)进行模型的训练。
根据公式得到训练模型其中Wt为第t个任务对应的训练模型,而且满足||Wt||0≤ω(ω为稀疏参数,可根据经验及需求设定);X1为多任务学习的训练数据;Y1为X1的对应标号;为对Wt取转置;||·||F为取二范数。
3、使用训练模型对任务的测试数据进行预测;
根据公式使用训练模型W对测试数据X2进行预测,得到的预测数据X为一个368×23的矩阵,X的每一行为测试集中对应样本的预测数据。若把测试数据的第i(1≤i≤368)个原始样本经过预测后得到第i个预测数据表示为:
X(i,;)=(xi,1,xi,2,…,xi,23)
那么所有的预测数据即为其中xi,1为第i个预测数据的第1维,xi,2为第i个预测数据的第2维数据,以此类推。
4、使用最大值和Precision-Recall curve(查准率-查全率曲线)两种判别方法对预测数据进行判别,计算识别准确率。
1)最大值判别方法:
若第i(1≤i≤368)个原始测试样本的预测数据X(i,:)=(xi,1,xi,2,…,xi,23)满足公式j=argmax1≤i≤368X(i,:)=argmax1≤i≤368(xi,1,xi,2,…,xi,23),那么就规定第i(1≤i≤368)个原始测试样本的预测标号为j(1≤j≤23)。同理,可得到所有测试样本的预测标号P。对比测试集“词袋”特征的标号label和预测标号Predict_label,计算准确率。
2)查准率-查全率曲线方法:
将预测数据变形为:
那么任意列向量X(:,t)=(x1,t;x2,t;…;x368,t)为测试集中每个样本判别为动作t的预测值,其中x1,t为第1个样本判别为动作t的预测值,xi,2为第2个样本判别为动作t的预测值,以此类推。根据经验设置动作t的分类阈值Tt,当X(:,t)中第i个值xi,t满足xi,t>Tt(1≤i≤368,1≤t≤23)时,则将此样本判别为动作t(标记为1);反之,则不将此样本判别为动作t(标记为0)。
通过调整分类阈值Tt,获取不同的查全率和查准率,从而可以得到动作t对应的查准率-查全率曲线(图5所示:纵坐标为查准率,横坐标为查全率)。通常随着分类阈值从大到小变化,查准率减小,查全率增加。为了使测试准确率达到最好,查准率-查全率曲线应越靠近坐标(1,1)的位置越好。因此,实验中,不断调整分类阈值直至分类阈值查准率-查全率曲线最靠近坐标(1,1)的位置,那么即为需要的动作t的判别阈值,对应得到的判别标号即为所有测试样本判别为动作t的判别标号Pt。同理,可得到所有动作的判别标号
最后,通过对比所有任务的测试数据的标号和所有动作的判别标号计算准确率。
下面通过具体的几组实验来验证本方法的可行性,详见下文描述:
第一组实验:通过上述步骤101-103即可对正面视角下人体动作进行识别;
第二组实验:将步骤101-103中使用的所有正面视角下的视频对应替换为侧面视角下的视频,再进行步骤101-103中的相关操作,即可对侧面视角下人体动作进行识别;
第三组实验:将正面视角下多任务学习的训练数据X1和侧面视角下多任务学习的训练数据X1进行级联得到双视角下的训练数据X1;将正面视角下多任务学习的测试数据X2和侧面视角下多任务学习的测试数据X2进行级联得到双视角下的测试数据X2;双视角下训练数据和测试数据对应的标号和正面视角/侧面视角下对应的标号完全相同,分别表示为Y1和Y2。然后使用双视角下的测试数据和训练数据进行步骤103的相关操作,即可对双视角下人体动作进行识别。
选取现有技术中比较成熟的最大值判别方法和查准率-查全率曲线方法进行验证,通过上述步骤101-103对人体动作进行识别,得到的验证后的结果如表1所示:
表1
第四组实验:根据经典的“词袋特征+支持向量机”[12]的方法,分别使用以上三组实验中对应的训练数据(正面视角下的X1/侧面视角下的X1/双视角下的X1)和测试数据(正面视角下的X2/侧面视角下的X2/双视角下的X2)进行动作识别,,得到的验证后的结果如表2所示:
表2
通过上述实验可以看出本方法的识别性能,验证了本方法的可行性,可以满足实际应用中的需要。
参考文献
[1]Mitchell T M.Machine learning.New York:McGraw-Hill,1997.
[2]Caruana R.Multitask learning.Machine Learning,1997,28(1):41-75.
[3]Caruana R.Multitask learning.PhD thesis,School of ComputerScience,Carnegie Mellon University,1997.
[4]LapedrizaMasip D,Vitrià J.A hierarchical approach for multi-tasklogistic regression.In:MartíJ,BenedíJ M,A M,Serrat J,eds.LectureNotes in Computer Science 4478,Berlin:Springer,2007,258-265.
[5]Liao X,Carin L.Radial basis function network for multi-tasklearning.In:Weiss Y,B,Platt J,eds.Advances in Neural InformationProcessing Systems 18,Cambridge,MA:MIT Press,2006,795-802.
[6]Kato T,Kashima H,Sugiyama M,Asai K.Multi-task learning via conicprogramming.In:Platt J C,Koller D,Singer Y,Roweis S,eds.Advances in NeuralInformation Processing Systems 20,Cambridge,MA:MIT Press,2008.
[7]Zhang J,Ghahramani Z,Yang Y.Learning multiple related tasks usinglatent independent component analysis.In:Weiss Y,B,Platt J,eds.Advances in Neural Information Processing Systems 18,Cambridge,MA:MITPress,2006,1585-1592.
[8]I.Laptev.On Space-Time Interest Point.International Journal ofComputer Vision,2005.
[9]J.MacQueen,L.M.LeCam and J.Neyman.Some Methods of classificationand Analysis of Multivariate Observations.In Proc.5th Berkeley Symposium onMathematical Statistics and Probability,1967.
[10]L.Fei-Fei and P.Perona.A Bayesian hierarchical model for learningnatural scene categories.In Proc.CVPR,2005.
[11]J.Zhou,J.Chen and J.Ye.MALSAR:Multi-Task Learning via StructuralRegularization.Arizona State University,2012.
[12]I.Laptev,M.Marszalek,C.Schmid,and B.Rozenfeld.Learning realistichuman actions from movies.In CVPR’08,2008.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于多任务学习的人体动作识别方法,所述方法包括以下步骤:
从视频序列中提取时空兴趣点;
分别提取两个视角下训练集和测试集的“词袋”特征;
使用多任务学习方法进行人体动作识别;
所述使用多任务学习方法进行人体动作识别的步骤具体为:
建立任务的训练数据及其标号、测试数据及其标号;
使用任务的训练数据及其标号训练模型;
使用训练模型对任务的测试数据进行预测;
其中,所述使用任务的训练数据及其标号训练模型具体为:
根据公式得到训练模型其中Wt为第t个任务对应的训练模型,而且满足||Wt||0≤ω,ω为稀疏参数;X1为多任务学习的训练数据;Y1为X1的对应标号;为对Wt取转置;||·||F为取二范数。
2.根据权利要求1所述的一种基于多任务学习的人体动作识别方法,其特征在于,所述使用多任务学习方法进行人体动作识别的步骤还包括:
使用最大值和查准率-查全率曲线两种判别方法对预测数据进行判别,计算识别准确率。
3.根据权利要求1所述的一种基于多任务学习的人体动作识别方法,其特征在于,所述使用训练模型对任务的测试数据进行预测的步骤具体为:
根据公式使用训练模型W对测试数据X2进行预测,得到的预测数据X的每一行为测试集中对应样本的预测数据;其中,测试数据X2用表示;
测试数据的第i个原始样本经过预测后得到第i个预测数据表示为:
X(i,:)=(xi,1,xi,2,...xi,23)
那么所有的预测数据即为其中xi,1为第i个预测数据的第1维,xi,2为第i个预测数据的第2维数据,以此类推。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410681461.XA CN104376308B (zh) | 2014-11-24 | 2014-11-24 | 一种基于多任务学习的人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410681461.XA CN104376308B (zh) | 2014-11-24 | 2014-11-24 | 一种基于多任务学习的人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104376308A CN104376308A (zh) | 2015-02-25 |
CN104376308B true CN104376308B (zh) | 2017-08-08 |
Family
ID=52555206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410681461.XA Active CN104376308B (zh) | 2014-11-24 | 2014-11-24 | 一种基于多任务学习的人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376308B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046211B (zh) * | 2015-07-02 | 2018-06-19 | 中国人民解放军国防科学技术大学 | 一种人体动作识别中时空兴趣点特征编码方法 |
CN108566255A (zh) * | 2018-03-20 | 2018-09-21 | 西安电子科技大学 | 基于多任务学习的时间相关mimo系统信道预测方法 |
CN109063743B (zh) * | 2018-07-06 | 2021-11-05 | 云南大学 | 基于半监督多任务学习的医疗数据分类模型的构建方法 |
CN109446927B (zh) * | 2018-10-11 | 2021-11-23 | 西安电子科技大学 | 基于先验知识的双人交互行为识别方法 |
CN112364689A (zh) * | 2020-10-09 | 2021-02-12 | 天津大学 | 基于cnn与雷达图像的人体动作与身份多任务识别方法 |
CN115019349B (zh) * | 2022-08-09 | 2022-11-04 | 中科视语(北京)科技有限公司 | 图像分析方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
CN104021381A (zh) * | 2014-06-19 | 2014-09-03 | 天津大学 | 一种基于多层级特征的人体动作识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639042B2 (en) * | 2010-06-22 | 2014-01-28 | Microsoft Corporation | Hierarchical filtered motion field for action recognition |
-
2014
- 2014-11-24 CN CN201410681461.XA patent/CN104376308B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
CN104021381A (zh) * | 2014-06-19 | 2014-09-03 | 天津大学 | 一种基于多层级特征的人体动作识别方法 |
Non-Patent Citations (2)
Title |
---|
《Partwise bag-of-words-based multi-task learning for human action recognition》;An-An Liu 等;《ELECTRONICS LETTERS》;20130620;第49卷(第13期);第803-805页 * |
《基于3D DAISY描述符的动作识别》;邓超;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20120815(第08期);第I138-922页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104376308A (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Chen et al. | Once for all: a two-flow convolutional neural network for visual tracking | |
Maqsood et al. | Anomaly recognition from surveillance videos using 3D convolution neural network | |
CN104376308B (zh) | 一种基于多任务学习的人体动作识别方法 | |
Zheng et al. | Aware progressive clustering for unsupervised vehicle re-identification | |
CN103745240A (zh) | 一种基于Haar分类器和ORB特征的人脸检索方法及系统 | |
Gao et al. | PSGCNet: A pyramidal scale and global context guided network for dense object counting in remote-sensing images | |
Putro et al. | High performance and efficient real-time face detector on central processing unit based on convolutional neural network | |
Zhang et al. | Large-scale aerial image categorization using a multitask topological codebook | |
K. Wickrama Arachchilage et al. | Deep-learned faces: a survey | |
Mahmoodi et al. | Violence detection in videos using interest frame extraction and 3D convolutional neural network | |
Zhang et al. | Efficient person search via expert-guided knowledge distillation | |
Symeonidis et al. | Neural attention-driven non-maximum suppression for person detection | |
Jiao et al. | SAN: Selective alignment network for cross-domain pedestrian detection | |
Yan et al. | R-SSD: Refined single shot multibox detector for pedestrian detection | |
Wang et al. | Multiple pedestrian tracking with graph attention map on urban road scene | |
Li et al. | Deep attention network for person re-identification with multi-loss | |
Huang et al. | Pedestrian detection using RetinaNet with multi-branch structure and double pooling attention mechanism | |
Khan et al. | Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2 | |
Pouthier et al. | Active speaker detection as a multi-objective optimization with uncertainty-based multimodal fusion | |
Hu et al. | Action recognition using multiple pooling strategies of CNN features | |
Najibi et al. | Towards the success rate of one: Real-time unconstrained salient object detection | |
Shen et al. | Real-time human detection based on gentle MILBoost with variable granularity HOG-CSLBP | |
Ma et al. | Bottleneck feature extraction-based deep neural network model for facial emotion recognition | |
Yi et al. | Single online visual object tracking with enhanced tracking and detection learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |