CN109101864A

CN109101864A - 基于关键帧和随机森林回归的人体上半身动作识别方法

Info

Publication number: CN109101864A
Application number: CN201810346649.7A
Authority: CN
Inventors: 白宝兴; 李波; 韩成; 杨帆; 张超; 胡汉平; 权巍; 赵璘; 白烨
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-12-28

Abstract

本发明涉及一种基于关键帧和随机森林回归的人体上半身动作识别方法，其特征在于：利用OptiTrack及其配套软件OptiTrack和Kinect v2同时得到人体上半身关键关节坐标；利用随机森林回归的方法学习从Kinect得到的关键帧和从OptiTrack得到的关键帧之间特征值差异的回归函数，最终实现两个功能：（1）输入从Kinect得到的帧，由随机森林预测特征值差异，然后修正骨架；（2）输入从Kinect得到的帧，通过随机森林预测姿势标记来判断动作。弥补现有基于Kinect的上半身动作识别方法的不足，解决只能识别简单动作且识别正确率不高的问题。

Description

基于关键帧和随机森林回归的人体上半身动作识别方法

技术领域

本发明涉及一种基于关键帧和随机森林回归的人体上半身动作识别方法，属于计算机模式识别技术领域。

背景技术

虽然近年来人们基于Kinect人体骨架的人体动作识别方面进行了一系列研究，核心技术就是通过Kinect捕获人体运动姿势，然后进行人体动作识别和分析。但仍然有识别准确率不高、鲁棒性弱、扩展性不强等缺点。当骨骼的关节点被遮挡时，Kinect骨骼识别方面并不是完全的精确。相对于人体下半身，上半身姿势和动作所能表达的信息更丰富，但是，基于Kinect的人体上半身动作的识别方法很少，其中多数方法是在无关节遮挡的情况下来识别，有的方法在关节遮挡的情况下进行识别，但识别的动作较少且识别率不高。因此，需要一种在上半身关节被遮挡的情况下还能识别动作的方法。

人体全身动作(或姿势)的识别方法很多，有的研究者基于深度图像进行人体姿势识别的研究[1-4]；

[1]Xia,L.；Chen,C.C.and Aggarwal,J.K.“Human detection using depthinformation by Kinect”.//in IEEE Computer Society Conference on ComputerVision and Pattern Recognition Workshops,Colorado Springs,CO,USA,2011,pp.15-22.

[2]Shotton,J.；Sharp,T.；Kipman,A.；Fitzgibbon,A.；Finocchio,M.；Blake,A.；Cook,M.and Moore,R.“Real-time human pose recognition in parts from singledepth images”.//Communications of the ACM,56,1(2013),pp.116-124.

[3]Wang,W.J.；Chang,J.W.；Haung,S.F.and Wang,R.J.“Human posturerecognition based on images captured by the Kinect sensor”.//InternationalJournal of Advanced Robotic Systems,13,2(2016),pp.54-69.

[4]Liu T,Song Y,Gu Y,et al.Human Action Recognition Based on DepthImages from Microsoft Kinect[C]//Intelligent Systems.IEEE,2014:200-204.

有的研究者组合利用深度图像和骨骼信息进行人体姿势识别[5,6]；

[5]Xiao Z,Fu M,Yi Y,et al.3D Human Postures Recognition Using Kinect[C]//International Conference on Intelligent Human-Machine Systems andCybernetics.IEEE Computer Society,2012:344-347.

[6]Schwarz,L.A.；Mkhitaryan,A.；Mateus,D.and Navab,N.“Human skeletontracking from depth data using geodesic distances and optical flow”.//Imageand Vision Computing,30,3(2012),pp.217-226.

有的研究者利用骨骼数据进行人体动作(或姿势)识别的研究[7-15]；

[7]Le,T.L.and Nguyen,M.Q."Human posture recognition using humanskeleton provided by Kinect".//in International Conference on Computing,Management and Telecommunications,Ho Chi Minh City,Vietnam,2013,pp.340-345.

[8]Pisharady,P.K.and Saerbeck,M.“Kinect based body posture detectionand recognition system”.//in Proc.SPIE 8768,International Conference onGraphic and Image Processing(ICGIP 2012),87687F(14March 2013),Singapore City,Singapore,2012,pp.87687F-5.

[9]Patsadu,O.；Nukoolkit,C.and Watanapa,B.“Human gesture recognitionusing Kinect camera”.//in Computer Science and Software Engineering(JCSSE),Bangkok,Thailand,2012,pp.28-32.

[10]Ofli F,Chaudhry R,Kurillo G,et al.Sequence of the mostinformative joints(SMIJ):A new representation for human skeletal actionrecognition[J].Journal of Visual Communication&Image Representation,2014,25(1):24-38.

[11]Seidenari L,Varano V,Berretti S,et al.Recognizing Actions fromDepth Cameras as Weakly Aligned Multi-part Bag-of-Poses[C]//IEEE Conferenceon Computer Vision and Pattern Recognition Workshops.IEEE Computer Society,2013:479-485.

[12]Devanne M,Wannous H,Berretti S,et al.3-D Human Action Recognitionby Shape Analysis of Motion Trajectories on Riemannian Manifold[J].IEEETransactions on Cybernetics,2015,45(7):1340-1352.

[13]Batabyal T,Chattopadhyay T,Mukherjee D P.Action recognition usingjoint coordinates of 3D skeleton data[C]//IEEE International Conference onImage Processing.IEEE,2015:4107-4111.

[14]Du Y,Fu Y,Wang L.Representation Learning of Temporal Dynamics forSkeleton-Based Action Recognition[J].IEEE Trans Image Process,2016,25(7):3010-3022.

[15]Mahasseni B,Todorovic S.Regularizing Long Short Term Memory with3D Human-Skeleton Sequences for Action Recognition[C]//Computer Vision andPattern Recognition.IEEE,2016:3054-3062.

其中文献[10]根据一系列最具信息量的关节来识别动作。在文献[12]中，骨架序列在一个维度空间中被表示为轨迹，这些轨迹被解释为一个黎曼流形，在此基础上利用K最近邻(KNN)分类并识别动作；文献[13]抽取一组稀疏的主动关节坐标，然后把坐标映射到低维度的线性流形，利用支持向量机(SVM)分类器识别动作。文献[14]根据四肢和主干之间的相对运动，根据端到端层次的循环神经网络(RNN)来进行动作识别。文献[15]利用骨骼序列并通过深度卷积神经网络(DCNN)在视频中进行动作识别。虽然这些文献的某些方法[4,10-15]也可用于人体上半身动作识别，但这些方法识别动作比较简单，多数是无肢体遮挡的情况下来识别动作或姿势，如果有肢体遮挡，则识别率不高。为此，提出了一种基于关键帧和随机森林回归的人体上半身动过识别方法，解决上半身关节被遮挡时动作不能正确识别，且识别正确率不高的问题。

发明内容

为弥补现有基于Kinect的上半身动作识别方法的不足，解决只能识别简单动作且识别正确率不高的问题，本发明的目的在于提供一种基于关键帧和随机森林回归的人体上半身动作识别方法，其利用OptiTrack及其配套软件(下文简称OptiTrack)和Kinect v2同时得到人体上半身关键关节坐标；利用随机森林回归的方法学习从Kinect得到的关键帧和从OptiTrack得到的关键帧之间特征值差异的回归函数，最终实现两个功能：(1)输入从Kinect得到的帧，由随机森林预测特征值差异，然后修正骨架；(2)输入从Kinect得到的帧，通过随机森林预测姿势标记来判断动作。

本发明的技术方案是这样实现的：一种基于关键帧和随机森林回归的人体上半身动作识别方法，其特征在于具体实现步骤如下：

步骤1、利用Optitrack和Kinect v2取得人体上半身关节坐标,使用OptiTrack全身动作捕捉系统的12个FLEX:V100R2镜头，利用OptiTrack得到上半身关节坐标，分别计算关节点坐标，并转换到Kinect v2的骨骼坐标系；OptiTrack采样频率设置为90FPS；Kinectv2同时采集人体上半身关节坐标；

步骤2、提取特征值，指的是提取更精确的OptiTrack得到的人体上半身关节坐标。上半身的动作主要姿势由Wrist、Elbow、Spine_shoulder、Spine_mid、Head决定，特征点仅考虑7个节点；选择Spine_mid为中心节点，选择Spine_mid到Spine_shoulder的向量作为中心向量，Spine_mid到各节点的向量作为一类特征值，用L_j示，向量的长度D_j用于相对归一化，中心向量与其他向量的夹角作为另一类的特征值，用θ_k表示；

步骤3、特征向量的相对归一化，设置标准帧，即AP聚类获得一组关键帧的第一个帧，用非0的常规归一化最大值，对各帧的节点距离归一化，再用相对归一化以标准帧为基准，量化以后各帧与标准帧的相对变化；

步骤4、AP聚类算法获得关键帧，采用AP聚类算法自动进行聚类，将每帧图像作为AP聚类算法中的一个数据点，将每帧图像中的特征向量和特征角度作为这个数据点的度量信息，包括6个向量特征值，5个向量之间的夹角特征值；根据特征向量的大小和特征向量之间的角度差作为度量的准则；阻尼系数设为0.5，并且设置50次迭代后聚类中心不变，或迭代次数超过既定的次数5000次，则算法结束，将相近的帧归为一类；

通过AP聚类算法的提取方式，无论动作快慢，关键帧帧数不变，从OptiTrack取得的一个关键帧表示为FO，一个动作的关键帧序列用fo表示，由m个FO组成：fo＝(FO₁,FO₂,...,FO_m)；另一部分是从Kinect v2取得的一个关键帧表示为FK，一个动作的帧序列用fk表示，由m个FK组成：fo＝(FK₁,FK₂,...,FK_m)；FK的帧数要除以3；提取的所有关键帧(包括从OptiTrack取得的关键帧和从Kinect v2取得的关键帧)作为随机森林离线训练的样本源，对其中每个关键帧做标记，用τ表示，每个标记由动作代码和本动作关键帧的顺序号组成，如动作A的第3个关键帧，标记表示为A003；

步骤5、设置随机森林回归模型,用随机的方式组合多棵决策树形成随机森林，采用的决策树视为一个弱回归器，是独立生长的二叉树,全部训练样本集T中，利用Bootstrap方法重采样技术(放回抽样)，随机抽取K个子样本生成子样本集T_tk，形成K个决策树组成的随机森林；在每个T_tk进行训练时，再随机选取若干个属性值进行节点变量分裂，随机抽取的特征个数为U为特征总数；最终形成一个多元非线性回归组合；训练结束后，输入测试样本，对各个回归树进行测试，最终预测结果就是全部回归树输出值的平均值；

训练样本集分为训练样本和测试样本，其中训练样本来源包括两部分，一部分是FO，另一部分是FK，二者共同组成集合F，由n组fo和fk组成本发明设置两个随机森林回归模型，第一个随机森林回归模型A(以下称为RFRA)预测每张FK和FO的差异，然后根据差异修复FK的姿势；第二个随机森林回归模型B(以下称为RFRB)预测FK对应的姿势标记，测试样本为若干组fk；

步骤6、使用RFRA做姿势修正；每个动作的一组FO以第一个FO的向量L_j-1st和特征值θ_k-1st为模板，每个FK的向量L_j'和特征值θ_k'与相对应的FO的向量L_j和特征值θ_k的差异分别为是和对于一个帧有两组特征值差异组成Δ；对于一个动作的m帧图像则有一组差异，表示为δ＝(Δ₁,...,Δ_m)；

每个训练样本是一对FK和Δ，训练集记为TA＝{FK_i,Δ_i}，利用RFRA预测样本的Δ，继而根据Δ估计出正确的姿势；本发明随机森林中的采用的是二叉树，每个分裂节点有相应的阈值，由阈值决定每个特征值样本分裂到左子树还是右子树，预测值由叶子节点存储,利用贪心决策树训练算法，将训练集TA＝{FK_i,Δ_i}递归分为左子集TAL和右子集TAR学习，根据最佳分裂策略和标准树分裂函数判断每棵树是否继续分裂；

输入一个测试样本FK，特征值由树CART_k的根节点开始，递归的分到左子树或右子树，最后达到树CART_k的叶子节点，此时，树CART_k的预测值可以得到，为Δ_k，最后整个森林所有树的输出求平均得到最终的预测值；

将预测值拆分为特征值差异，并与FK中特征值做和，每帧图修正后的骨架表示为FC＝FK+F(FK)，其中F(FK)表示的是RFRA输出的特征值差异的预测结果，根据特征值差异对骨架进行修复；

步骤7、利用RFCB做动作的判断。RFCB同步骤6中的RFCA建模和学习过程是一致的，只是训练集中的Δ改为步骤4中AP聚类后的关键帧标记τ，即TB＝{FK_k,τ_k}，标记预测输出也为整个森林所有树的输出求平均得到最终的预测值。如此，每个关键帧标记都被预测，如果一个动作的若干个FK有65％以上被预测为某个动作的关键帧标记τ，则判定该动作的具体类别。

本发明的积极效果是可以修复Kinect对遮挡关节的错误估计，并且判断Kinect采集的人体上半身动作；本发明改进了目前Kinect v2在人体上半身关节遮挡的情况下，对被遮挡关节的错误判断，提高了人体上半身动作的正确识别效果。

附图说明

图1是本发明选用的特征点、特征向量。

图2是AP聚类算法自动聚类得出的关键帧的示意图。

图3是本发明采用的随机森林回归模型，本发明采用的两个模型除了每个CART输出类型不同和最终输出公式不同以外，其他均相同。其中T是全部训练样本集，T_tk是子样本集，CART_k为决策树，FK为输入帧，Δ_k为每棵树的输出值，F(FK)为最终预测结果，虚线以上为训练阶段，虚线以下为预测阶段。

具体实施方式

下面结合附图和实施例对本发明进一步说明，附图是示意性质的图，不对本发明有任何限制。

对本发明的实施例进行详细描述。

步骤1、利用Optitrack和Kinect v2取得人体上半身关节坐标。使用OptiTrack全身动作捕捉系统的12个FLEX:V100R2镜头，按照标准的OptiTrack系统的12个镜头和人体标记点的布置方式布置；采集人体上半身标记点的位置，分别计算关节点坐标，并转换为Kinect v2的骨骼坐标系；OptiTrack采样频率设置为90FPS。Kinect v2同时采集人体上半身关节坐标。

步骤2、提取特征值。指的是提取更精确的OptiTrack得到的人体上半身关节坐标，然后以此为基础提取特征值。

图1示出了根据本发明一个实施例的特征点和特征向量。特征点分别为Wrist_left、Wrist_right、Elbow_left、Elbow_right、Spine_shoulder、Spine_mid、Head；选择Spine_mid为中心节点，选择Spine_mid到Spine_shoulder的向量作为中心特征向量，Spine_mid到各节点的向量作为其他特征向量，总更6个特征向量是本发明所采用的第1类特征值，用L_j表示，具体特征向量和特征点的关系，见表1左半部分是特征向量和关节点之间的关系，中心关节点是Spine_mid，Spine_mid与到关节点的向量为特征向量。表1右半部分是特征夹角和关节点之间的关系，Spine_mid到Head的向量为中心向量，中心向量与其他特征向量之间的夹角为特征夹角。

表1特征值

向量	关节点	夹角	关节点
				L<sub>0</sub>	Spine_shoulder	θ<sub>1</sub>	Wrist_right
L<sub>1</sub>	Wrist_right	θ<sub>2</sub>	Elbow_right
				L<sub>2</sub>	Elbow_right	θ<sub>3</sub>	Wrist_left
L<sub>3</sub>	Wrist_left	θ<sub>4</sub>	Elbow_left
				L<sub>4</sub>	Elbow_left	θ<sub>5</sub>	Head
L<sub>5</sub>	Head

向量的长度如下：

D_j用于相对归一化。中心向量与其他向量的夹角，作为第2类的特征值，总共5个特征夹角，见表1右侧。特征夹角用θ_k表示，式子如下：

步骤3、特征向量的相对归一化。设置常规归一化，式子如下：

设置常规归一化最大值如下：

然后，进行相对归一化的设置和计算，设置标准帧，即AP聚类获得关键帧的第一个帧，与式(3)、(4)对各帧的节点距离归一化，而式(5)表示的相对归一化以标准帧为基准，量化了以后各帧与标准帧的相对变化。

其中，D_*-1st表示第1帧中的相应向量。

步骤4、AP聚类算法获得关键帧。采用AP聚类算法自动进行聚类，将每帧图像视为AP聚类算法中的一个数据点，将每帧图像中的特征向量和特征角度作为这个数据点的坐标(6个向量特征值，5个向量的角度特征值，维度为11)，根据特征向量的大小和特征向量之间的角度差作为度量的准则；阻尼系数设为0.5，并且设置50次迭代后聚类中心不变，或迭代次数超过既定的次数5000次，则算法结束，将相近的帧归为一类。

图2示出了根据AP聚类算法自动对一个动作序列的90帧骨骼图片提取出的关键帧，其中每帧图片的6个特征向量和5个特征夹角作为聚类度量的准则，AP聚类后，在90帧中提取了6个关键帧。

通过AP聚类算法的提取方式，无论动作快慢，关键帧帧数不变。从OptiTrack取得的一个关键帧，本发明称之为FO，一个动作的关键帧序列用fo表示，由m个FO组成：fo＝(FO₁,FO₂,...,FO_m)；另一部分是从Kinect v2取得的关键帧，以下该类型的一个关键帧称之为FK，一个动作的关键帧序列用fk表示，由m个FK组成：fo＝(FK₁,FK₂,...,FK_m)。FK的帧数要除以3。提取的所有关键帧作为随机森林离线训练的样本源，对其中每个关键帧做标记，用τ表示，每个标记由动作代码和本动作关键帧的顺序号组成，如动作A的第3个关键帧，标记表示为A003。

步骤5、设置随机森林回归模型。用随机的方式组合多棵决策树形成随机森林，本发明采用的决策树视为一个弱回归器，是独立生长的二叉树。

图3示出了本发明采用的随机森林回归模型，在全部训练样本集T中，利用Bootstrap方法重采样技术(放回抽样)，随机抽取K个子样本生成子样本集T_tk，形成K个决策树组成的随机森林；在每个T_tk进行训练时，再随机选取若干个属性值进行节点变量分裂，随机抽取的特征个数为U为特征总数；最终形成一个多元非线性回归组合。训练结束后，输入测试样本，对各个回归树进行测试，最终预测结果就是全部回归树输出值的平均，表示如下：

训练样本集分为训练样本和测试样本，本发明训练样本来源包括两部分，一部分是FO，另一部分是FK，二者共同组成集合F，由n组fo和fk组成本发明设置两个随机森林回归模型，第一个随机森林回归模型A(以下称为RFRA)预测每张FK和FO的差异，然后根据差异修复FK的姿势；第二个随机森林回归模型B(以下称为RFRB)预测FK对应的姿势标记，测试样本为若干组fk。

步骤6、使用RFRA做姿势修正。每个动作的一组FO以第一个FO的向量L_j-1st和特征值θ_k-1st为模板，每个FK的向量L_j'和特征值θ_k'与相对应的FO的向量L_j和特征值θ_k的差异分别如下：

对于一个帧有两组特征值差异，特征向量的差异和特征角度的差异将两组特征值组成Δ；对于一个动作的m帧图像则有一组差异，表示为δ＝(Δ₁,...,Δ_m)。

每个训练样本是一对FK和Δ，训练集记为TA＝{FK_i,Δ_i}，利用RFRA预测样本的Δ，继而根据Δ估计出正确的姿势。本发明随机森林中的采用的是二叉树，每个分裂节点有相应的阈值，由阈值决定每个特征值样本分裂到左子树还是右子树，预测值由叶子节点存储。利用贪心决策树训练算法，将训练集TA＝{FK_i,Δ_i}递归分为左子集TAL和右子集TAR学习，根据最佳分裂策略和标准树分裂函数判断每棵树是否继续分裂。最佳分类策略如下，

其中，θ是分裂参数的集合，e(TA_p(θ))是集合不确定度的函数。

标准树分裂函数为差的均方根：

此式(10)被选为式(9)的不确定度的函数e(TA_p(θ))。

输入一个测试样本FK，特征值由树CART_k的根节点开始，递归的分到左子树或右子树，最后达到树CART_k的叶子节点，此时，树CART_k的预测值可以得到，为Δ_k，最后整个森林所有树的输出求平均得到最终的预测值，见式(6)。

将预测值拆分为特征值差异，并与FK中特征值做和，每帧图修正后的骨架表示为FC＝FK+F(FK)，其中F(FK)表示的是RFRA输出的特征值差异的预测结果，根据特征值差异对骨架进行修复。

步骤7、利用RFCB做动作的判断。RFCB同步骤6中的RFCA建模和学习过程是一致的，只是训练集中的Δ改为步骤4中AP聚类后的关键帧标记τ，即TB＝{FK_k,τ_k}，标记预测输出也为整个森林所有树的输出求平均得到最终的预测值，类似式(6)，τ的预测值公式如下，

如此，每个关键帧标记都被预测，如果一个动作的若干个FK有65％以上被预测为某个动作的关键帧标记τ，则判定该动作的具体类别。

利用以上步骤，可以修复Kinect对遮挡关节的错误估计，并且判断Kinect采集的人体上半身动作。本发明改进了目前Kinect v2在人体上半身关节遮挡的情况下，对被遮挡关节的错误判断，提高了人体上半身动作的正确识别效果。

虽然结合附图描述了本发明的具体实施步骤和方式，但是本领域技术研究人员可以在不脱离本发明的精神和范围的情况下做出更改与变型，这样的更改与变型均落入由所附权利要求的限定范围之内。

Claims

1.一种基于关键帧和随机森林回归的人体上半身动作识别方法，其特征在于具体实现步骤如下：

步骤1、利用Optitrack和Kinect v2取得人体上半身关节坐标,使用OptiTrack全身动作捕捉系统的12个FLEX:V100R2镜头，利用OptiTrack得到上半身关节坐标，分别计算关节点坐标，并转换到Kinect v2的骨骼坐标系；OptiTrack采样频率设置为90FPS；Kinect v2同时采集人体上半身关节坐标；