CN104021381B - 一种基于多层级特征的人体动作识别方法 - Google Patents
一种基于多层级特征的人体动作识别方法 Download PDFInfo
- Publication number
- CN104021381B CN104021381B CN201410279492.2A CN201410279492A CN104021381B CN 104021381 B CN104021381 B CN 104021381B CN 201410279492 A CN201410279492 A CN 201410279492A CN 104021381 B CN104021381 B CN 104021381B
- Authority
- CN
- China
- Prior art keywords
- human
- action
- bag
- label
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种基于多层级特征的人体动作识别方法,包括:提取原始视频中每一帧图像的时空兴趣点;按照人体骨架位置将得到的时空兴趣点进行归类,获取人体区域;根据得到的人体区域,建立多个层级;同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类,获取相应词典;使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征;对得到的3个层级的词袋特征分别进行融合处理,使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。本方法能够更加有效地表征局部特征,并通过试验验证,本方法提升了动作识别的准确率。
Description
技术领域
本发明涉及计算机视觉、人体动作识别领域,尤其涉及一种基于多层级特征的人体动作识别方法。
背景技术
人体动作识别是计算机视觉和机器学习领域中非常重要的一个研究课题,因为其在智能视频监控、人机交互等领域中有着广泛的应用。近年来,随着多视角摄像机以及深度摄像机的普及,利用多模态信息来进行人体动作识别已经越来越流行。然而,由于人体外形的多样性、光照变化、遮挡等因素的干扰,人体动作识别仍然是一项具有挑战性的工作。
传统的动作识别方法使用整个人体的特征来获取全局信息,然而在一些情况下,多层级特征能够更加有效地表征局部特征。当人体受到遮挡时,基于整个人体特征的识别方法很容易产生误判,而基于多层级的特征则能够利用局部信息来进行动作识别,可以提升动作识别的准确率。
发明内容
本发明提供了一种基于多层级特征的人体动作识别方法,本发明能够显著的提高动作识别的准确率,详见下文描述:
一种基于多层级特征的人体动作识别方法,所述方法包括以下步骤:
提取原始视频中每一帧图像的时空兴趣点;
按照人体骨架位置将得到的时空兴趣点进行归类,获取人体区域;
根据得到的人体区域,建立多个层级;同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类,获取相应词典;
使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征;
对得到的3个层级的词袋特征分别进行融合处理,使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。
所述根据得到的人体区域,建立多个层级的步骤具体为:
1)底层:包括头肩、胳膊、膝部以及脚部四个区域,每一个区域包括相应位置的所有特征点;
2)中层:包含头肩和胳膊组成的上部区域,以及膝部和脚部组成的下部区域,每一个区域包括相应位置的特征点;
3)高层:包含提取到的全部特征点。
所述对得到的3个层级的词袋特征分别进行融合处理,使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别的步骤具体为:
1)将高层对应的人体区域训练集的特征序列及其真实的标号输入到分类器中进行学习,产生第一模型;将测试集的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第一动作标号;通过对比第一动作标号和测试集词袋特征真实的标号来判定动作识别是否正确;
2)将中层对应的两个人体区域中每个视频所对应的词袋特征进行前期融合;将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习,产生第二模型;将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第二动作标号;通过对比第二动作标号和测试集词袋特征真实的标号来判定动作识别是否正确;
3)将底层对应的四个人体区域中每个视频所对应的词袋特征进行前期融合;将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习,产生第三模型;将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第三动作标号;通过对比第三动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。
本发明提供的技术方案的有益效果是:本方法通过提取原始视频中每一帧图像的时空兴趣点,按照人体骨架位置进行归类并建立多个层级。通过聚类算法对训练集的各层级中每个人体区域所包含的时空兴趣点进行聚类,获取相应词典。使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征,并进行融合处理。使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。本方法能够更加有效地表征局部特征,提升动作识别的准确率。
附图说明
图1为一种基于多层级特征的人体动作识别方法的流程图;
图2为人体20个骨架点的示意图;
图3为天津大学数据集动作图例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了提高动作识别的准确率,本发明实施例提供了一种基于多层级特征的人体动作识别方法,参见图1,详见下文描述:
101:提取原始视频中每一帧图像的时空兴趣点;
对于给定的任意人体动作数据集,可以划分为训练集和测试集。不失一般性的,本发明实例使用Laptev[1]等人提出的时空兴趣点方法来提取特征。时空兴趣点是在沿着时间分布的图像序列中,对特定时间、特定地点发生的事件的响应。Laptev将二维局部兴趣点检测方法扩展至三维时空域,使用Harris3D检测子[2]从视频中检测出时空兴趣点,并在视频中每帧图像的每个时空兴趣点处提取HOG(梯度方向直方图)和HOF(光流方向直方图)特征,分别为72维和90维,将二者串联形成162维特征向量。具体实现时,本发明实施例对特征维数不做限制。同时,可以得到每个时空兴趣点的位置坐标(xj,yj)。
102:按照人体骨架位置将步骤101中得到的时空兴趣点进行归类;
获取原始视频中每一帧的人体20个骨架点所对应的位置坐标(xzi,yzi),其中i=1,2,…,20。本发明使用Kinect深度摄像机直接获取人体骨架点所对应的位置坐标。具体实现时,本发明实例对获取骨架点方式不做限制。如图2所示。
根据不同的实验需要,可将人体划分为不同区域。不失一般性的,本发明实例分别将(xz3,yz3)、(xz10,yz10)、(xz6,yz6)、(xz18,yz18)、(xz14,yz14)、(xz19,yz19)、(xz15,yz15)作为人体头肩、左胳膊、右胳膊、左膝、右膝、左脚以及右脚等7个部分的参考中心点,分别记为(a1,b1)、(a2,b2)、(a3,b3)、(a4,b4)、(a5,b5)、(a6,b6)、(a7,b7)。
计算步骤101中所得到的每个时空兴趣点(xj,yj)与上述7个部分的参考中心点之间的欧式距离Li,即
1)上述欧式距离Li最小时所对应的人体区域即为该时空兴趣点所在的区域,即
时空兴趣点的部位区域标号为n;arg表示参数,n即为能使目标函数Li取得最小值时的变量值。
2)通过以上步骤,可以将步骤101中得到的所有时空兴趣点归类为头肩、左胳膊、右胳膊、左膝、右膝、左脚以及右脚等7个区域,分别标号为n=1,2,3,4,5,6,7。
103:根据步骤102得到的人体区域,建立多个层级;同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类,获取相应词典;
根据步骤102得到的人体7个部分,可以建立多个层级。不失一般性的,本发明实例分别建立以下3个层级。具体实现时,本发明实施例对层级划分方法及数目不做限制。
1)底层(Low Level,LL):这一层精细表征了人体的各个部分,包括头肩、胳膊(左胳膊和右胳膊)、膝部(左膝和右膝)以及脚部(左脚和右脚)四个区域,每一个区域包括相应位置的所有特征点,分别命名为LL-AUS1,LL-AUS2,LL-AUS3,LL-AUS4。
2)中层(Middle Level,ML):这一层较为粗略的表征了人体的各个部分,包含上部(头肩+胳膊)和下部(膝部+脚部)两个区域,每一个区域包括相应位置的特征点,分别命名为ML-AUS1,ML-AUS2。
3)高层(High Level,HL):这一层关注人体的全局特征,包含提取到的全部特征点,命名为HL-AUS。
本发明实施例使用训练集来构建词典。对训练集中上述3个层级中7个人体区域(LL-AUS1,LL-AUS2,LL-AUS3,LL-AUS4、ML-AUS1,ML-AUS2、HL-AUS)所包含的时空兴趣点分别进行聚类,获得聚类中心。不失一般性的,本实验中使用K-means[3]聚类算法,得到K×162维的词典。在本实验中设置聚类中心K=100,具体实现时,本发明实施例对聚类方法及聚类中心维数不做限制。最终,7个人体区域分别构建7个词典。
104:使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征;
使用词袋模型[4]分别对训练集和测试集的7个人体区域(LL-AUS1,LL-AUS2,LL-AUS3,LL-AUS4、ML-AUS1,ML-AUS2、HL-AUS)进行处理,分别提取训练集和测试集的7个人体区域的词袋特征。
对于每个区域,分别将训练集和测试集的每个视频中该区域的所有时空兴趣点以及该区域所对应的词典输入到词袋模型。将每段视频中连续的T1帧作为一个时空动作单元(Spatial Temporal Action Unit,ST-AU),代表着人体某一部分在一段时间内的特征。相邻两个时空动作单元的重叠帧数为T1/2帧。其中T1的具体数值可以根据实际情况来设定,在本实验中设置T1=30。具体实现时,可根据具体数据集情况进行确定,本发明实施例对此不做限制。
每个视频的所有时空动作单元就组成了一个长为N的时空动作单元序列(ST-AUS),作为词袋模型输出的词袋特征。对于任意人体动作数据集,设训练集共有P个视频,则第k个视频所对应的词袋特征为fk=100×N,为一个样本,样本标号为这一视频对应动作的标号,P个样本标号组成训练集词袋特征真实的标号。
同理,对于任意人体动作数据集,测试集共有Q个视频,第k个视频所对应的词袋特征为fk=100×N,为一个样本,样本标号为这一视频对应动作的标号,Q个样本标号组成测试集词袋特征真实的标号。
105:对104步骤中得到的3个层级的词袋特征分别进行融合处理,使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。
为验证基于多层级特征的人体动作识别方法的有效性,对104步骤中得到的3个层级的词袋特征分别进行融合处理。不失一般性的,使用文献[5]中提出的特征级融合方法,对各个层级内的所有区域中每个视频所对应的词袋特征进行前期融合,即将各词袋特征直接进行串联。
本发明实例共进行以下3组实验:
1)将高层(HL)对应的人体区域(HL-AUS)训练集的特征序列及其真实的标号输入到分类器中进行学习,产生第一模型。
将测试集的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第一动作标号。通过对比分类器模型输出的第一动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。
2)将中层(ML)对应的二个人体区域(ML-AUS1,ML-AUS2)中每个视频所对应的词袋特征进行前期融合。
将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习,产生第二模型。将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第二动作标号。通过对比分类器模型输出的第二动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。
3)将底层(LL)对应的四个人体区域(LL-AUS1,LL-AUS2,LL-AUS3,LL-AUS4)中每个视频所对应的词袋特征进行前期融合。
将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习,产生第三模型。将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第三动作标号。通过对比分类器模型输出的第三动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。
不失一般性的,本发明实施例使用隐条件随机场[6](Hidden ConditionalRandom Fields,HCRF)作为分类器对人体动作进行学习和判断,参数设置如下:隐状态数h=4,窗口数w=0。
下面以一个实验来验证本发明实施例提供的一种基于多层级特征的人体动作识别方法的可行性,选择天津大学数据集来验证本方法,详见下文描述:
天津大学数据集上包含RGB图像序列及骨架信息,由20个人在亮暗两个环境中录制完成,共发布了20个动作,分别为(a)走路,(b)慢跑,(c)跑步,(d)拳击,(e)挥手,(f)击掌,(g)弯腰,(h)手臂抬起向上跳,(i)向前跳跃,(j)向上跳跃,(k)跨步,(l)单手挥舞,(m)画“X”,(n)画对勾,(o)画圆,(p)向前踢,(q)侧踢,(r)侧面拳击,(s)向前弯腰,(t),坐下。数据集共800个视频,选取前10个人的动作作为训练集,共400段视频,用于模型学习;选取后10人的动作作为测试集,共400段视频,用于模型判断。
实验结果如下表所示:
人体区域 | 准确率 |
高层(HL) | 80.5 |
中层(ML) | 84.7 |
底层(LL) | 85.2 |
由上表可知,在仅使用全局特征(HL)的情况下,平均识别准确率为80.5%。在相同实验参数设置下,使用中层特征(ML)、底层特征(LL)后得到的平均识别准确率分别为84.7%和85.2%,相较全局特征有了明显提升。
实验结果证明,本方法提出的基于多层级特征的动作识别方法能够提升人体动作识别的准确率。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
参考文献
[1]Laptev and T.Lindeberg,Space-time interest points,in ICCV’03,(2003):432–439.
[2]Harris C and Stephens M.A combined corner and edge detector.Alveyvision conference.(1988):15–50.
[3]J.MacQueen,L.M.LeCam and J.Neyman.Some Methods of classificationand Analysis of Multivariate Observations.In Proc.5th Berkeley Symposium onMathematical Statistics and Probability,1967.
[4]L.Fei-Fei and P.Perona.A Bayesian hierarchical model for learningnatural scene categories.In Proc.CVPR,2005.
[5]Wu,Lizhong,Sharon L.Oviatt,and Philip R.Cohen.Multimodalintegration-a statistical view.Multimedia,IEEE Transactions on1.4(1999):334-341.
[6]Quattoni,Ariadna,et al.Hidden-state conditional random fields.IEEETransactions o nPattern Analysis and Machine Intelligence29.10(2007):1848-1852.
Claims (2)
1.一种基于多层级特征的人体动作识别方法,其特征在于,所述方法包括以下步骤:
提取原始视频中每一帧图像的时空兴趣点;
按照人体骨架位置将得到的时空兴趣点进行归类,获取人体区域;
根据得到的人体区域,建立3个层级;同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类,获取相应词典;
使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征;
对得到的3个层级的词袋特征分别进行融合处理,使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别;
其中,所述根据得到的人体区域,建立3个层级的步骤具体为:
1)底层:包括头肩、胳膊、膝部以及脚部四个区域,每一个区域包括相应位置的所有特征点;
2)中层:包含头肩和胳膊组成的上部区域,以及膝部和脚部组成的下部区域,每一个区域包括相应位置的特征点;
3)高层:包含提取到的全部特征点。
2.根据权利要求1所述的一种基于多层级特征的人体动作识别方法,其特征在于,所述对得到的3个层级的词袋特征分别进行融合处理,使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别的步骤具体为:
1)将高层对应的人体区域训练集的特征序列及其真实的标号输入到分类器中进行学习,产生第一模型;将测试集的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第一动作标号;通过对比第一动作标号和测试集词袋特征真实的标号来判定动作识别是否正确;
2)将中层对应的两个人体区域中每个视频所对应的词袋特征进行前期融合;将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习,产生第二模型;将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第二动作标号;通过对比第二动作标号和测试集词袋特征真实的标号来判定动作识别是否正确;
3)将底层对应的四个人体区域中每个视频所对应的词袋特征进行前期融合;将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习,产生第三模型;将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断,输出测试所得的第三动作标号;通过对比第三动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410279492.2A CN104021381B (zh) | 2014-06-19 | 2014-06-19 | 一种基于多层级特征的人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410279492.2A CN104021381B (zh) | 2014-06-19 | 2014-06-19 | 一种基于多层级特征的人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021381A CN104021381A (zh) | 2014-09-03 |
CN104021381B true CN104021381B (zh) | 2017-02-15 |
Family
ID=51438126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410279492.2A Active CN104021381B (zh) | 2014-06-19 | 2014-06-19 | 一种基于多层级特征的人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104021381B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408461B (zh) * | 2014-11-05 | 2018-03-16 | 浙江工业大学 | 一种基于滑动窗口局部匹配窗口的动作识别方法 |
CN104376308B (zh) * | 2014-11-24 | 2017-08-08 | 天津大学 | 一种基于多任务学习的人体动作识别方法 |
CN105373810B (zh) * | 2015-11-12 | 2020-01-17 | 清华大学 | 一种用于建立动作识别模型的方法及系统 |
CN105893967B (zh) * | 2016-04-01 | 2020-04-10 | 深圳市感动智能科技有限公司 | 基于时序保留性时空特征的人体行为分类检测方法及系统 |
CN106845375A (zh) * | 2017-01-06 | 2017-06-13 | 天津大学 | 一种基于层级化特征学习的动作识别方法 |
CN107292245B (zh) * | 2017-06-02 | 2018-04-10 | 同济大学 | 一种高分遥感影像上的港口检测方法 |
CN108509880A (zh) * | 2018-03-21 | 2018-09-07 | 南京邮电大学 | 一种视频人物行为语义识别方法 |
CN109101901B (zh) * | 2018-07-23 | 2020-10-27 | 北京旷视科技有限公司 | 人体动作识别及其神经网络生成方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101968846A (zh) * | 2010-07-27 | 2011-02-09 | 上海摩比源软件技术有限公司 | 一种人脸跟踪方法 |
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639042B2 (en) * | 2010-06-22 | 2014-01-28 | Microsoft Corporation | Hierarchical filtered motion field for action recognition |
-
2014
- 2014-06-19 CN CN201410279492.2A patent/CN104021381B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101968846A (zh) * | 2010-07-27 | 2011-02-09 | 上海摩比源软件技术有限公司 | 一种人脸跟踪方法 |
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
Non-Patent Citations (3)
Title |
---|
"Discriminative Hierarchical Part-based Models for Human Parsing and Action Rcogniton";Yang Wang 等;《Journal of Machine Learning Research》;20121012;第3节第1、4段,图2 * |
"On the Effect of Human Body Parts in Large Scale Human Behaviour Recognition";O. V. Ramana Murthy 等;《DICTA》;20131231;第1-8页 * |
"基于视觉的人体动作识别综述";胡琼 等;《计算机学报》;20131231;第36卷(第12期);第2512-2524页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104021381A (zh) | 2014-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104021381B (zh) | 一种基于多层级特征的人体动作识别方法 | |
Ouyang et al. | DeepID-Net: Object detection with deformable part based convolutional neural networks | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
KR102462572B1 (ko) | 기계 학습에 의해 객체 분류기를 훈련시키는 시스템 및 방법 | |
CN106709568B (zh) | 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法 | |
Song et al. | Learning effective RGB-D representations for scene recognition | |
CN106096542B (zh) | 基于距离预测信息的图像视频场景识别方法 | |
CN106874826A (zh) | 人脸关键点跟踪方法和装置 | |
Thành et al. | An evaluation of pose estimation in video of traditional martial arts presentation | |
CN103605986A (zh) | 一种基于局部特征的人体动作识别方法 | |
CN110807434A (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
Chen et al. | TriViews: A general framework to use 3D depth data effectively for action recognition | |
Le et al. | DeepSafeDrive: A grammar-aware driver parsing approach to Driver Behavioral Situational Awareness (DB-SAW) | |
Liao et al. | A two-stage method for hand-raising gesture recognition in classroom | |
Dai et al. | Tan: Temporal aggregation network for dense multi-label action recognition | |
Li et al. | Multi-scale residual network model combined with Global Average Pooling for action recognition | |
Hao et al. | Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm | |
Avola et al. | Machine learning for video event recognition | |
Han et al. | Feature fusion and adversary occlusion networks for object detection | |
Li et al. | Research on hybrid information recognition algorithm and quality of golf swing | |
Yang et al. | Video Analysis and System Construction of Basketball Game by Lightweight Deep Learning under the Internet of Things | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
Li et al. | An gaussian-mixture hidden markov models for action recognition based on key frame | |
Lv et al. | An image rendering-based identification method for apples with different growth forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |