CN104021381B

CN104021381B - 一种基于多层级特征的人体动作识别方法

Info

Publication number: CN104021381B
Application number: CN201410279492.2A
Authority: CN
Inventors: 苏育挺; 刘安安; 马莉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2017-02-15
Anticipated expiration: 2034-06-19
Also published as: CN104021381A

Abstract

本发明公开了一种基于多层级特征的人体动作识别方法，包括：提取原始视频中每一帧图像的时空兴趣点；按照人体骨架位置将得到的时空兴趣点进行归类，获取人体区域；根据得到的人体区域，建立多个层级；同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类，获取相应词典；使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征；对得到的3个层级的词袋特征分别进行融合处理，使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。本方法能够更加有效地表征局部特征，并通过试验验证，本方法提升了动作识别的准确率。

Description

一种基于多层级特征的人体动作识别方法

技术领域

本发明涉及计算机视觉、人体动作识别领域，尤其涉及一种基于多层级特征的人体动作识别方法。

背景技术

人体动作识别是计算机视觉和机器学习领域中非常重要的一个研究课题，因为其在智能视频监控、人机交互等领域中有着广泛的应用。近年来，随着多视角摄像机以及深度摄像机的普及，利用多模态信息来进行人体动作识别已经越来越流行。然而，由于人体外形的多样性、光照变化、遮挡等因素的干扰，人体动作识别仍然是一项具有挑战性的工作。

传统的动作识别方法使用整个人体的特征来获取全局信息，然而在一些情况下，多层级特征能够更加有效地表征局部特征。当人体受到遮挡时，基于整个人体特征的识别方法很容易产生误判，而基于多层级的特征则能够利用局部信息来进行动作识别，可以提升动作识别的准确率。

发明内容

本发明提供了一种基于多层级特征的人体动作识别方法，本发明能够显著的提高动作识别的准确率，详见下文描述：

一种基于多层级特征的人体动作识别方法，所述方法包括以下步骤：

提取原始视频中每一帧图像的时空兴趣点；

按照人体骨架位置将得到的时空兴趣点进行归类，获取人体区域；

根据得到的人体区域，建立多个层级；同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类，获取相应词典；

使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征；

对得到的3个层级的词袋特征分别进行融合处理，使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。

所述根据得到的人体区域，建立多个层级的步骤具体为：

1)底层：包括头肩、胳膊、膝部以及脚部四个区域，每一个区域包括相应位置的所有特征点；

2)中层：包含头肩和胳膊组成的上部区域，以及膝部和脚部组成的下部区域，每一个区域包括相应位置的特征点；

3)高层：包含提取到的全部特征点。

所述对得到的3个层级的词袋特征分别进行融合处理，使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别的步骤具体为：

1)将高层对应的人体区域训练集的特征序列及其真实的标号输入到分类器中进行学习，产生第一模型；将测试集的特征序列及其真实的标号输入到分类器中进行判断，输出测试所得的第一动作标号；通过对比第一动作标号和测试集词袋特征真实的标号来判定动作识别是否正确；

2)将中层对应的两个人体区域中每个视频所对应的词袋特征进行前期融合；将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习，产生第二模型；将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断，输出测试所得的第二动作标号；通过对比第二动作标号和测试集词袋特征真实的标号来判定动作识别是否正确；

3)将底层对应的四个人体区域中每个视频所对应的词袋特征进行前期融合；将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习，产生第三模型；将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断，输出测试所得的第三动作标号；通过对比第三动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。

本发明提供的技术方案的有益效果是：本方法通过提取原始视频中每一帧图像的时空兴趣点，按照人体骨架位置进行归类并建立多个层级。通过聚类算法对训练集的各层级中每个人体区域所包含的时空兴趣点进行聚类，获取相应词典。使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征，并进行融合处理。使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。本方法能够更加有效地表征局部特征，提升动作识别的准确率。

附图说明

图1为一种基于多层级特征的人体动作识别方法的流程图；

图2为人体20个骨架点的示意图；

图3为天津大学数据集动作图例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了提高动作识别的准确率，本发明实施例提供了一种基于多层级特征的人体动作识别方法，参见图1，详见下文描述：

101：提取原始视频中每一帧图像的时空兴趣点；

对于给定的任意人体动作数据集，可以划分为训练集和测试集。不失一般性的，本发明实例使用Laptev^[1]等人提出的时空兴趣点方法来提取特征。时空兴趣点是在沿着时间分布的图像序列中，对特定时间、特定地点发生的事件的响应。Laptev将二维局部兴趣点检测方法扩展至三维时空域，使用Harris3D检测子^[2]从视频中检测出时空兴趣点，并在视频中每帧图像的每个时空兴趣点处提取HOG(梯度方向直方图)和HOF(光流方向直方图)特征，分别为72维和90维，将二者串联形成162维特征向量。具体实现时，本发明实施例对特征维数不做限制。同时，可以得到每个时空兴趣点的位置坐标(x_j,y_j)。

102：按照人体骨架位置将步骤101中得到的时空兴趣点进行归类；

获取原始视频中每一帧的人体20个骨架点所对应的位置坐标(x_zi,y_zi)，其中i＝1,2,…,20。本发明使用Kinect深度摄像机直接获取人体骨架点所对应的位置坐标。具体实现时，本发明实例对获取骨架点方式不做限制。如图2所示。

根据不同的实验需要，可将人体划分为不同区域。不失一般性的，本发明实例分别将(x_z3,y_z3)、(x_z10,y_z10)、(x_z6,y_z6)、(x_z18,y_z18)、(x_z14,y_z14)、(x_z19,y_z19)、(x_z15,y_z15)作为人体头肩、左胳膊、右胳膊、左膝、右膝、左脚以及右脚等7个部分的参考中心点，分别记为(a₁,b₁)、(a₂,b₂)、(a₃,b₃)、(a₄,b₄)、(a₅,b₅)、(a₆，b₆)、(a₇,b₇)。

计算步骤101中所得到的每个时空兴趣点(x_j,y_j)与上述7个部分的参考中心点之间的欧式距离L_i，即

1)上述欧式距离L_i最小时所对应的人体区域即为该时空兴趣点所在的区域，即

时空兴趣点的部位区域标号为n；arg表示参数，n即为能使目标函数L_i取得最小值时的变量值。

2)通过以上步骤，可以将步骤101中得到的所有时空兴趣点归类为头肩、左胳膊、右胳膊、左膝、右膝、左脚以及右脚等7个区域，分别标号为n＝1,2,3,4,5,6,7。

103：根据步骤102得到的人体区域，建立多个层级；同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类，获取相应词典；

根据步骤102得到的人体7个部分，可以建立多个层级。不失一般性的，本发明实例分别建立以下3个层级。具体实现时，本发明实施例对层级划分方法及数目不做限制。

1)底层(Low Level,LL)：这一层精细表征了人体的各个部分，包括头肩、胳膊(左胳膊和右胳膊)、膝部(左膝和右膝)以及脚部(左脚和右脚)四个区域，每一个区域包括相应位置的所有特征点，分别命名为LL-AUS1，LL-AUS2，LL-AUS3，LL-AUS4。

2)中层(Middle Level,ML)：这一层较为粗略的表征了人体的各个部分，包含上部(头肩+胳膊)和下部(膝部+脚部)两个区域，每一个区域包括相应位置的特征点，分别命名为ML-AUS1，ML-AUS2。

3)高层(High Level,HL)：这一层关注人体的全局特征，包含提取到的全部特征点，命名为HL-AUS。

本发明实施例使用训练集来构建词典。对训练集中上述3个层级中7个人体区域(LL-AUS1，LL-AUS2，LL-AUS3，LL-AUS4、ML-AUS1，ML-AUS2、HL-AUS)所包含的时空兴趣点分别进行聚类，获得聚类中心。不失一般性的，本实验中使用K-means^[3]聚类算法，得到K×162维的词典。在本实验中设置聚类中心K＝100，具体实现时，本发明实施例对聚类方法及聚类中心维数不做限制。最终，7个人体区域分别构建7个词典。

104：使用词袋模型分别提取训练集和测试集的每个人体区域的词袋特征；

使用词袋模型^[4]分别对训练集和测试集的7个人体区域(LL-AUS1，LL-AUS2，LL-AUS3，LL-AUS4、ML-AUS1，ML-AUS2、HL-AUS)进行处理，分别提取训练集和测试集的7个人体区域的词袋特征。

对于每个区域，分别将训练集和测试集的每个视频中该区域的所有时空兴趣点以及该区域所对应的词典输入到词袋模型。将每段视频中连续的T1帧作为一个时空动作单元(Spatial Temporal Action Unit,ST-AU)，代表着人体某一部分在一段时间内的特征。相邻两个时空动作单元的重叠帧数为T₁/2帧。其中T₁的具体数值可以根据实际情况来设定，在本实验中设置T₁＝30。具体实现时，可根据具体数据集情况进行确定，本发明实施例对此不做限制。

每个视频的所有时空动作单元就组成了一个长为N的时空动作单元序列(ST-AUS)，作为词袋模型输出的词袋特征。对于任意人体动作数据集，设训练集共有P个视频，则第k个视频所对应的词袋特征为f_k＝100×N，为一个样本，样本标号为这一视频对应动作的标号，P个样本标号组成训练集词袋特征真实的标号。

同理，对于任意人体动作数据集，测试集共有Q个视频，第k个视频所对应的词袋特征为f_k＝100×N，为一个样本，样本标号为这一视频对应动作的标号，Q个样本标号组成测试集词袋特征真实的标号。

105：对104步骤中得到的3个层级的词袋特征分别进行融合处理，使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别。

为验证基于多层级特征的人体动作识别方法的有效性，对104步骤中得到的3个层级的词袋特征分别进行融合处理。不失一般性的，使用文献[5]中提出的特征级融合方法，对各个层级内的所有区域中每个视频所对应的词袋特征进行前期融合，即将各词袋特征直接进行串联。

本发明实例共进行以下3组实验：

1)将高层(HL)对应的人体区域(HL-AUS)训练集的特征序列及其真实的标号输入到分类器中进行学习，产生第一模型。

将测试集的特征序列及其真实的标号输入到分类器中进行判断，输出测试所得的第一动作标号。通过对比分类器模型输出的第一动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。

2)将中层(ML)对应的二个人体区域(ML-AUS1，ML-AUS2)中每个视频所对应的词袋特征进行前期融合。

将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习，产生第二模型。将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断，输出测试所得的第二动作标号。通过对比分类器模型输出的第二动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。

3)将底层(LL)对应的四个人体区域(LL-AUS1，LL-AUS2，LL-AUS3，LL-AUS4)中每个视频所对应的词袋特征进行前期融合。

将训练集融合后的特征序列及其真实的标号输入到分类器中进行学习，产生第三模型。将测试集融合后的特征序列及其真实的标号输入到分类器中进行判断，输出测试所得的第三动作标号。通过对比分类器模型输出的第三动作标号和测试集词袋特征真实的标号来判定动作识别是否正确。

不失一般性的，本发明实施例使用隐条件随机场[6](Hidden ConditionalRandom Fields,HCRF)作为分类器对人体动作进行学习和判断，参数设置如下：隐状态数h＝4，窗口数w＝0。

下面以一个实验来验证本发明实施例提供的一种基于多层级特征的人体动作识别方法的可行性，选择天津大学数据集来验证本方法，详见下文描述：

天津大学数据集上包含RGB图像序列及骨架信息，由20个人在亮暗两个环境中录制完成，共发布了20个动作，分别为(a)走路，(b)慢跑，(c)跑步，(d)拳击，(e)挥手，(f)击掌，(g)弯腰，(h)手臂抬起向上跳，(i)向前跳跃，(j)向上跳跃，(k)跨步，(l)单手挥舞，(m)画“X”，(n)画对勾，(o)画圆，(p)向前踢，(q)侧踢，(r)侧面拳击，(s)向前弯腰，(t)，坐下。数据集共800个视频，选取前10个人的动作作为训练集，共400段视频，用于模型学习；选取后10人的动作作为测试集，共400段视频，用于模型判断。

实验结果如下表所示：

人体区域	准确率
		高层(HL)	80.5
中层(ML)	84.7
		底层(LL)	85.2

由上表可知，在仅使用全局特征(HL)的情况下，平均识别准确率为80.5％。在相同实验参数设置下，使用中层特征(ML)、底层特征(LL)后得到的平均识别准确率分别为84.7％和85.2％，相较全局特征有了明显提升。

实验结果证明，本方法提出的基于多层级特征的动作识别方法能够提升人体动作识别的准确率。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献

[1]Laptev and T.Lindeberg,Space-time interest points,in ICCV’03,(2003):432–439.

[2]Harris C and Stephens M.A combined corner and edge detector.Alveyvision conference.(1988):15–50.

[3]J.MacQueen,L.M.LeCam and J.Neyman.Some Methods of classificationand Analysis of Multivariate Observations.In Proc.5th Berkeley Symposium onMathematical Statistics and Probability,1967.

[4]L.Fei-Fei and P.Perona.A Bayesian hierarchical model for learningnatural scene categories.In Proc.CVPR,2005.

[5]Wu,Lizhong,Sharon L.Oviatt,and Philip R.Cohen.Multimodalintegration-a statistical view.Multimedia,IEEE Transactions on1.4(1999):334-341.

[6]Quattoni,Ariadna,et al.Hidden-state conditional random fields.IEEETransactions o nPattern Analysis and Machine Intelligence29.10(2007):1848-1852.

Claims

1.一种基于多层级特征的人体动作识别方法，其特征在于，所述方法包括以下步骤：

提取原始视频中每一帧图像的时空兴趣点；

根据得到的人体区域，建立3个层级；同时通过聚类算法对训练集中上述层级中每个人体区域所包含的时空兴趣点进行聚类，获取相应词典；

对得到的3个层级的词袋特征分别进行融合处理，使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别；

其中，所述根据得到的人体区域，建立3个层级的步骤具体为：

3)高层：包含提取到的全部特征点。

2.根据权利要求1所述的一种基于多层级特征的人体动作识别方法，其特征在于，所述对得到的3个层级的词袋特征分别进行融合处理，使用隐条件随机场模型对人体动作进行学习和判断来进行动作识别的步骤具体为：