CN111339888A

CN111339888A - 基于关节点运动图的双人交互行为识别方法

Info

Publication number: CN111339888A
Application number: CN202010103739.0A
Authority: CN
Inventors: 姬晓飞; 李晨宇; 张旭; 王艳辉; 李俊鹏
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-26
Anticipated expiration: 2040-02-20
Also published as: CN111339888B

Abstract

本发明属于计算机视觉技术领域，涉及一种基于关节点运动图的双人交互行为识别方法，可用于视频中双人交互行为的识别。分别使用在xoy平面、xoz平面、yoz平面重新构建的关节点三维信息分别进行关节点的图像化表示，进而分别使用深度学习网络对其进行进一步的特征提取与动作分类，最后将三个平面得到的识别概率进行决策级融合得到最终的识别结果。通过实验结果可知该方法可以有效提高双人交互行为识别的准确率。

Description

基于关节点运动图的双人交互行为识别方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于关节点运动图的双人交互行为识别方法，可用于视频中双人交互行为的识别。

背景技术

近几年，随着深度传感器(如微软Kinect)的快速发展，大大降低了人体运动过程中关节点数据的获取成本，同时也提高了全身各关节点数据的跟踪精度。目前基于关节点数据的双人交互识别因其特征简单清晰等优点获得了越来越多国内外研究者的关注，对于此项研究已经获得初步进展。基于关节点数据的双人交互识别方法主要分为：基于特征提取的识别方法和基于深度学习的识别方法，其中基于特征提取的识别方法是研究人员通过关节点数据提取特征，以获得人体各关节点的相关性来进行双人交互行为识别；基于深度学习的识别方法是研究人员将提取到的特征送入深度学习网络中进一步提取深层次的特征然后进行双人交互行为识别。

基于特征提取的识别方法：现有技术文献K.Yun,J.Honorio,D. Chattopadhyay,T.L.Berg,D.Samaras,Two-person interaction detection using body-pose featuresand multiple instance learning[C].In Proceedings of CVPR Workshops,IEEE,Providence,RI,USA.2012:28-35，直接从关节点数据中提取特征，以获得人体各关节点的相关性。采用几何特征提取方法并设计多种相关的距离特征来进行双人交互行为识别。此方法对于复杂行为识别的准确率不高。现有技术文献Huynh-The T,Banos O,Le B V,etal.PAM-based flexible generative topic model for 3D interactive activityrecognition[C].International Conference on Advanced Technologies forCommunications.IEEE,2015:117-122利用当前帧所有关节对的距离，当前帧关节与前一帧关节之间的距离以及当前帧各关节点与中心点之间的距离来描述身体姿态，但这种描述缺乏时间信息，导致识别率不高。总的来说，基于特征提取的识别方法，对于类似于推搡和拳打这样的相似动作区分效果不理想，识别的准确率很难进一步提高。

基于深度学习的识别方法：文献Zhu W,Lan C,Xing J,et al.Co-OccurrenceFeature Learning for Skeleton Based Action Recognition Using Regularized DeepLSTM Networks[C].AAAI.2016,2(5)，提出了一种深层LSTM网络来学习关节点数据的共生特征，通过追踪人体关节点轨迹来识别人体动作类别。但是直接将关节点数据作为LSTM的输入信息，特征抗干扰性差导致识别结果不高。文献 Song S,Lan C,Xing J,etal.Spatio-Temporal Attention-Based LSTM Networks for 3D Action Recognitionand Detection.[J].IEEE Transactions on Image Processing, 2018,PP(99):1-1.直接采用关节点数据，利用空间和时间的注意力模型，结合具有长短周期(LSTM)记忆的递归神经网络，得到识别模型，能够选择性地将不同帧的信息给予不同的关注度，同时对单帧以内的不同关节点赋予不同的权值，并相应地制定联合训练策略。其中LSTM虽构建了良好的时间建模，却很难用于高级特征的学习。总的来说，基于深度学习的识别方法，相对于传统的双人交互识别方法而言，识别率有了很大提升，但是对于基于关节点数据的识别方法中，将关节点直接送入深度网络进行学习，识别率有限。例如文献Song S,Lan C, Xing J,et al.Spatio-Temporal Attention-Based LSTM Networks for 3D Action Recognitionand Detection.[J].IEEE Transactions on Image Processing,2018, PP(99):1-1.记载。

发明内容

为了解决目前研究将关节点信息送入CNN网络之前进行编码过程中，没有很好的考虑关节点的空间位置信息和时序关系，因此丢失了大量有用信息的问题。本发明提出了一种新的关节点信息的编码方式，即关节点运动图，同时对人体骨架关节点的时间和空间信息进行表示，充分利用关节点序列中的时空关系。

本发明的目的可以通过以下技术方案实现：

基于关节点运动图的双人交互行为识别方法，关节点运动图构建步骤为：分别使用在xoy平面、xoz平面、yoz平面重新构建的关节点三维信息分别进行关节点的图像化表示，进而分别使用深度学习网络对其进行进一步的特征提取与动作分类，最后将三个平面得到的识别概率进行决策级融合得到最终的识别结果。

进一步地，具体包括如下步骤：

步骤1：获取人体运动关节点数据；

步骤2：将步骤1中获取的关节点数据分别在xoy平面，xoz平面，yoz平面重新进行三维信息的构建；

步骤3：将步骤2中分别在xoy平面，xoz平面，yoz平面重新构建的关节点三维信息,分别映射到RGB色彩空间得到图像化特征来进行初步特征提取；

步骤4：将步骤3中关节点特征图像分别进行深层次特征提取与表示；

步骤5：将步骤4中关节点特征图像分别进行识别并转化为每类动作识别概率；

步骤6：将步骤5中三个平面得到识别概率进行决策级融合得到最终的识别结果。

进一步地，所述步骤1中使用深度相机Kinect v2提取人体中的关节点信息。

进一步地，所述步骤2其中xoy平面三维信息的构建是将三维信息中的x， y保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息z；xoz平面三维信息的构建是将三维信息中的x，z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息y；yoz平面三维信息的构建是将三维信息中的y，z 保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息x。

进一步地，步骤3中关节点三维信息的图像化表示，是使用转换函数对xoy， xoz，yoz这三个平面重新构建的关节点三维信息分别进行归一化处理后，再将三个平面每个点的三维坐标分别映射为RGB彩色空间R,G,B的通道值。

进一步地，步骤4分别采用VGG19卷积网络对xoy，xoz，yoz这三个平面的关节点图像进行深层次特征提取与表示。

进一步地，步骤5将三个坐标平面得到的特征向量分别采用Softmax分类器转化为每类动作识别概率。

进一步地，步骤6中决策级融合方式为xoy平面识别结果概率加权为50％， xoz平面识别结果概率加权为30％，yoz平面识别结果概率加权为20％。

本发明的有益效果：

本发明所提取的关节点运动图的构建过程既考虑了三个坐标平面关节点的位置关系，又包含了关节点的时间信息和对应的深度信息，编码形式极大了弥补了目前关节点编码方式关键信息丢失的问题。通过实验结果可知该方法可以有效提高双人交互行为识别的准确率。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1是本发明中基于关节点运动图的双人交互行为识别算法整体框架；

图2是本发明中xoy平面关节点序列转化为运动图；

图3是本发明中VGG19网络结构图；

图4是SBU Kinect交互数据集示例图；

图5是本发明在SBU Kinect交互数据集识别结果混淆矩阵。

具体实施方式

本发明提供一种基于关节点运动图的双人交互行为识别方法，包括以下步骤：

步骤1：获取人体运动关节点数据；使用深度相机(Kinect v2)提取人体中的关节点信息，即通过25个关节点来表示人体，其中关节点三维坐标用(x,y,z) 表示，人体运动即可通过关节点坐标信息得到。

步骤2：将步骤1中获取的关节点数据分别在xoy平面，xoz平面，yoz平面重新进行三维信息的构建；将步骤1中获取的关节点数据分别在xoy平面， xoz平面，yoz平面重新进行三维信息的构建，构建三个投影平面的关节点运动图特征。其中xoy平面三维信息的构建是将三维信息中的x，y保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息z；xoz平面三维信息的构建是将三维信息中的x，z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息y；yoz平面三维信息的构建是将三维信息中的y，z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息x。

步骤3：将步骤2分别在xoy平面，xoz平面，yoz平面重新构建的关节点三维信息,分别映射到RGB色彩空间得到图像化特征来进行初步特征提取；关节点三维信息的图像化表示，是使用转换函数对xoy，xoz，yoz这三个平面重新构建的关节点三维信息分别进行归一化处理后，再将三个平面每个点的三维坐标分别映射为RGB彩色空间R,G,B的通道值。

步骤4：将步骤3中关节点特征图像分别进行深层次特征提取与表示；分别采用VGG19卷积网络对xoy，xoz，yoz这三个平面的关节点图像进行深层次特征提取与表示。分别将一个大小为224*224的图像送入VGG网络中，经第一个卷积段的卷积过程，输出为112*112*64，然后送入第一个最大池化层，经过特征过滤再送入第二个卷积段，卷积后的特征维数为56*56*128，接着再送入下一个池化层，经过卷积与池化过程的不断交替，最后输出的特征维数大小为4096。

步骤5：将步骤4中关节点特征图像分别进行识别并转化为每类动作识别概率；将三个坐标平面得到的特征向量分别采用Softmax分类器转化为每类动作识别概率。假设共有K＝8个动作类别，对于给定的特征v，其属于类别i的概率 pi计算为：

其中wi表示第i个分类器的权重。

步骤6：将步骤5中三个平面得到识别概率进行决策级融合得到最终的识别结果；分别将关节点运动图在xoy，xoz，yoz平面的识别概率进行决策级融合得到最终的识别结果。决策级融合方式为xoy平面识别结果概率加权为50％，xoz 平面识别结果概率加权为30％，yoz平面识别结果概率加权为20％。

下面结合附图对本发明作进一步描述，便于更加清楚地说明本发明的技术方案，但不能将它们理解为对本发明保护范围的限定。

实施例1

为了能保证方法的性能与效率，本实施例利用在大型图像数据集中预训练的VGG19网络提取个体动作特征，实现人体动作姿态特征的建模，如图3所示为VGG19网络结构。

本实例中，为证明提出方法的有效性，采用国际标准的SBU Kinect数据库进行验证。SBU Kinect数据库共包含282个骨架序列，该数据库具有八种交互动作类型，包括：靠近、离开、推搡、踢、打、交换物品、拥抱和握手，数据采集均采用相同的试验环境，七名参与者进行采集数据，组成了21对互动，该数据集每帧的每个人均有15个关节点的3维坐标表示，在训练期间，将随机剪裁增加数据的多样性。

步骤1：获取人体运动关节点数据；

本实施例通过深度相机(Kinect v2)提取人体中的关节点，将每个人转化成 25个关节点。根据Kinect深度相机获得的关节点坐标用(x,y,z)表示，其中深度相机处于原点位置，x轴正半轴在深度相机的视角上向左延伸，y轴正半轴向上延伸，z轴的正半轴与相机的感应方向一致。

关节点数据分别在xoy平面三维信息构建方式为：关节点三维数据中x，y 表示位置信息，z表示深度信息。将关节点序列转化为运动图时，将三维信息中的x，y保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息z。关节点数据分别在xoz平面三维信息构建方式为：关节点三维数据中x，z表示位置信息，y表示深度信息。将关节点序列转化为运动图时，将三维信息中的x， z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息y。关节点数据分别在yoz平面三维信息构建方式为：关节点三维数据中y，z表示位置信息， x表示深度信息。将关节点序列转化为运动图时，将三维信息中的y,z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息x。

步骤3：将步骤2中分别在xoy平面，xoz平面，yoz平面重新构建的关节点三维信息,分别映射到RGB色彩空间得到图像化特征来进行初步特征提取；使用转换函数对新构建的关节点三维信息进行归一化处理，将每个点的三维坐标映射为RGB彩色空间R,G,B通道值。

具体为，给定一组关节点序列[F₁,F,₂...F_N],其中(x_i,y_i,z_i)表示每一帧中关节点的坐标，其中{F_N}∈S,n∈[1,N]。将原始关节点序列中的三维信息重新定义，把包含时间信息的三维立体序列转化为二维的平面信息，然后对二维信息做转换映射到RGB色彩空间。定义F₁(·)为xoy平面重新构建的关节点图像特征转换函数，如下：

(n′,i′,z′)＝F(n,i,z)

其中(n′,i′,z′)是归一化空间中的三维关节坐标值，max{l}和min{l}是对应的坐标值中的最大值和最小值。为了完整保留关节序列之间的时空信息，我们将整个骨架序列中离散的关节点绘制在一幅图像中。

定义F₂(·)为xoz平面重新构建的关节点图像特征转换函数，如下：

(n′,i′,y′)＝F(n,i,y)

其中(n′,i′,y′)是归一化空间中的三维关节坐标值，max{l}和min{l}是对应的坐标值中的最大值和最小值。为了完整保留关节序列之间的时空信息，我们将整个骨架序列中离散的关节点绘制在一幅图像中。

定义F₃(·)为yoz平面重新构建的关节点图像特征转换函数，如下：

(n′,i′,x′)＝F(n,i,x)

其中(n′,i′,x′)是归一化空间中的三维关节坐标值，max{l}和min{l}是对应的坐标值中的最大值和最小值。为了完整保留关节序列之间的时空信息，我们将整个骨架序列中离散的关节点绘制在一幅图像中。

选择VGGNet中层数为19的网络作为关节点运动图的卷积神经网络模型。 VGG是牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind 公司一起研发的深度卷积神经网络，该网络泛化性能很好，成功地构筑了16～19 层深的卷积神经网络。

本文分别将xoy平面、xoz平面、yoz平面的关节点特征图像，分别送入 VGG19网络中，得到关节点数据深层次的特征。即分别将一个大小为224*224 的图像送入VGG19网络中，经第一个卷积段的卷积过程，输出为112*112*64，得到的是一个高度更高、长宽更小的“图片”，压缩了图片中包含的有用信息，然后送入第一个最大池化层，经过特征过滤再送入第二个卷积段，卷积后的特征维数为56*56*128，接着再送入下一个池化层，经过卷积与池化过程的不断交替，最后输出的特征维数大小为4096。如图2所示为本发明中xoy平面关节点序列转化为运动图。

步骤5：将关节点数据特征的识别过程转化为每类动作的概率；

本实例中，分别采用Softmax分类器将xoy平面、xoz平面、yoz平面的特征向量转化为每类动作的概率。假设共有K＝8个动作类别，对于给定的特征v，其属于类别i的概率pi计算为：

wi表示第i个分类器的权重。

分别将关节点运动图在xoy，xoz，yoz平面的识别概率进行决策级融合得到最终的识别结果。决策级融合方式为xoy平面识别结果概率加权为50％，xoz 平面识别结果概率加权为30％，yoz平面识别结果概率加权为20％。其属于类别 i的最终概率p计算为：

P＝P₁*50％+P₂*30％+P₃*20％

P表示最终识别概率；P₁表示关节点运动图在xoy平面的识别概率；P₂表示关节点运动图在xoz平面的识别概率；P₃表示关节点运动图在yoz平面的识别概率，如图4所示，本发明采用国际标准的SBU Kinect数据库进行验证。将数据库中的80％的关节点序列用作训练神经网络模型，其余的20％的关节点序列用于测试训练好的神经网络模型，进行100次迭代训练。当训练次数达到20次时，识别结果接近90％，随着训练次数不断增至100次，网络模型的识别结果不断趋于稳定，得到最终的识别结果93.7％。图5为识别率的混淆矩阵,混淆矩阵的主对角线代表正确的识别率。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于关节点运动图的双人交互行为识别方法，其特征在于，关节点运动图构建步骤为：分别使用在xoy平面、xoz平面、yoz平面重新构建的关节点三维信息分别进行关节点的图像化表示，进而分别使用深度学习网络对其进行进一步的特征提取与动作分类，最后将三个平面得到的识别概率进行决策级融合得到最终的识别结果。

2.根据权利要求1所述的基于关节点运动图的双人交互行为识别方法，其特征在于，具体包括如下步骤：

步骤1：获取人体运动关节点数据；

3.根据权利要求2所述的基于关节点运动图的双人交互行为识别方法，其特征在于：所述步骤1中使用深度相机Kinect v2提取人体中的关节点信息。

4.根据权利要求2所述的基于关节点运动图的双人交互行为识别方法，其特征在于：所述步骤2其中xoy平面三维信息的构建是将三维信息中的x，y保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息z；xoz平面三维信息的构建是将三维信息中的x，z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息y；yoz平面三维信息的构建是将三维信息中的y，z保留作为图像中的坐标信息，在坐标点的位置重新定义一组新的三维信息，包括关节点序列中对应的帧号n、单人中的关节点序号i和深度信息x。

5.根据权利要求2所述的基于关节点运动图的双人交互行为识别方法，其特征在于：步骤3中关节点三维信息的图像化表示，是使用转换函数对xoy，xoz，yoz这三个平面重新构建的关节点三维信息分别进行归一化处理后，再将三个平面每个点的三维坐标分别映射为RGB彩色空间R,G,B的通道值。

6.根据权利要求2所述的基于关节点运动图的双人交互行为识别方法，其特征在于：步骤4分别采用VGG19卷积网络对xoy，xoz，yoz这三个平面的关节点图像进行深层次特征提取与表示。

7.根据权利要求2所述的基于关节点运动图的双人交互行为识别方法，其特征在于：步骤5将三个坐标平面得到的特征向量分别采用Softmax分类器转化为每类动作识别概率。

8.根据权利要求2所述的基于关节点运动图的双人交互行为识别方法，其特征在于：步骤6中决策级融合方式为xoy平面识别结果概率加权为50％，xoz平面识别结果概率加权为30％，yoz平面识别结果概率加权为20％。