CN105912991A

CN105912991A - 基于3d点云与关键骨骼节点的行为识别

Info

Publication number: CN105912991A
Application number: CN201610206296.1A
Authority: CN
Inventors: 张汗灵
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2016-08-31
Anticipated expiration: 2036-04-05
Also published as: CN105912991B

Abstract

本发明涉及一种基于3D点云与关键骨骼节点的行为识别系统。具体来说：从深度图中提取3D点云序列，然后将3D点云序列均匀分割成N个互不重叠的时空单元，计算每个时空单元的局部位置模型(LPP)，计算局部位置模型统计偏差描述子(SDLPP)。此外，利用节点运动量算法从3D骨骼节点中提取关键骨骼节点子集，计算关键骨骼节点的3D节点位置特征以及在对应深度图中的局部占用模型(LOP)。最后，级联上述三种异构特征，利用随机确定森林挖掘可区分性特征，进行分类，识别行为。本发明提取了人体行为的3D局部几何特征和动态时间特征，对涉及人与物体交互的复杂人体行为识别率高，适宜用于复杂的人体行为识别。

Description

基于3D点云与关键骨骼节点的行为识别

技术领域

本发明属人工智能、模式识别领域，具体涉及基于3D点云以及关键骨骼节点的行为识别。

背景技术

人体行为识别主要是指对被观测人的动作类型、行为模式进行分析和识别，并使用自然语言等方式对其加以描述。一些研究人员依据行为的复杂程度，将人体行为分为四个层次：姿态、个体行为、交互行为、群体行为。目前大部分的研究仍主要集中于前两个层次，而针对后两个层次的研究报道相对较少。人体行为识别技术具有广泛的应用前景和非常可观的经济价值，涉及的应用领域主要包括：视频监控、医疗诊断和监护、运动分析、智能人机交互、虚拟现实等。

已有的行为识别的方法主要是基于传统的RGB相机，例如：局部时空特征、时空量、密集轨迹等。这些方法存在以下三方面缺陷：第一，对光照、相机角度、背景变化以及部分阻塞较敏感；第二，忽略了行为本身所固有的几何与拓扑结构；第三，在实时处理和高精度的识别上难以权衡。

近来，随着智能化时代的飞速发展，人机交互领域的行为识别变得越来越重要。深度传感器(RGBD相机)的诞生开启了行为识别的新方向。深度传感器可以采集深度和RGB信息，深度图相比传统的彩色图提供了额外的运动和轮廓信息，并且对光照、背景、纹理变化不敏感。例如：从4D时空量中提取表面法向量直方图(HON4D)识别人体行为；在整个深度序列中，累加两个相邻投影图的绝对偏差，计算深度运动图(DMM)识别人体行为。但是，利用深度图提取特征的方法大多和RGB相似，对相机角度、行为者速度变化敏感，并且对涉及人与物体相互作用的复杂行为识别率不高。随着RGBD相机以及相关的SDK的产生，我们可以从深度图中准确的提取3D骨骼节点位置。3D骨骼结构提供了人的拓扑结构，利用人体骨骼模型在时间上的连续变化可以描述人的行为在时间上连续的进化。

基于深度图和3D骨骼结构的行为识别方法各有其优势，并且可以相互互补。因此，在本发明中，结合深度图和3D骨骼的固有特性，形成了基于深度图-3D骨骼的混合模型，利用深度图提取3D点云、骨骼节点提取关键骨骼节点，实现基于3D点云与感兴趣骨骼节点的行为识别体系。

发明内容

本发明是基于3D点云与感兴趣骨骼节点的行为识别方法。本方法采用如下技术方案具体实现：从深度图中提取3D点云序列，然后将3D点云序列均匀分割成N个互不重叠的时空单元，计算每个时空单元的局部位置模型(LPP)，进一步计算每两个相邻单元的LPP在时间方向上的偏差，形成局部位置模型统计偏差描述子(SDLPP)。此外，利用节点运动量算法从3D骨骼节点中提取关键骨骼节点子集，计算关键骨骼节点的3D节点位置特征以及在对应深度图中的局部占用模型(LOP)。最后，级联上述三种异质特征，利用随机确定森林挖掘可区分性特征，进行分类，识别行为。

本发明提供的是人体行为识别的方法，从深度图中提取局部位置模型统计偏差描述子(SDLPP)，避免了光照、背景、纹理变化的影响，同时又描述了行为的3D局部几何属性以及动态时间信息；同时，结合关键骨骼节点子集，提取3D节点位置特征，考虑到了人体的拓扑结构，描述了行为本身固有的特征；此外，进一步计算深度局部占用模型，描述行为的局部占用情况，使得在不计算任何有关物体信息的情况下，提高了人与物体相互作用的交互行为识别准确率。

上述基于3D点云以及关键骨骼节点的行为识别方法具体步骤如下：

(1)提取局部位置模型统计偏差描述子(SDLPP)。将3D点云序列P＝{P₁,P₂,…,P_t,…,P_n}均匀划分成N＝(n_x×n_y×n_t)个时空单元，每个单元的大小为(S_x,S_y,S_t)。例如，初始输入视频的大小为(240×320×54)，划分成(24×32×18)个时空单元，每个单元的大小为(10×10×3)。对于每个时空单元，我们先计算局部位置模型，级联每一帧落入此单元的像素点的位置，然后分别沿X、Y方向进行均值归一化，得到一个(1×1×3)的特征向量描述此时空单元的平均深度占用情况；接下来，将每个单元的特征向量按时间顺序串联，沿T方向再一次均值归一化，得到视频的全局描述子F_xyt，特征的维数为(N×3)；最后，计算两个相邻时空单元的F_xyt偏差，运用归一化函数得到最后的局部位置模型的统计偏差描述子(SDLPP)。

(2)利用节点运动量算法计算关键节点子集。首先，提取人体的3D骨骼模型，包含有20个骨骼节点，对于每个骨骼节点j，找到它在整个视频序列中的最大位置(min(x_j),min(y_j))、最小位置(max(x_j),max(y_j))；然后，计算节点最小位置到最大位置的变化量得到节点的运动量L_x＝max(x_j)-min(x_j)，L_y＝max(y_j)-min(y_j)；接下来，计算节点在整个视频的运动量的中心位置最后，得到每个节点的中心位置相对于躯干节点位置的欧几里得距离，串联每个节点的欧式距离形成偏差向量，排序选取前10个节点作为我们的关键节点子集。

(3)基于关键节点的3D节点位置特征以及深度局部占用模型(LOP)。首先，将3D骨骼节点位置归一化，使得对于人体绝对位置、初始方向、大小不变，对于每个关键骨骼节点i，提取节点i相对于其他所有节点的距离作为相对节点位置特征J_i。将骨骼节点i在对应深度图的局部区域划分成(N_x×N_y×N_t)个单元，每个单元的大小为(S_x×S_y×S_t)，在每个单元中，计算当前帧落入单元的像素点个数；然后利用sigmoid函数归一化，得到局部特征O_xyz。最后，利用傅里叶时间金字塔编码3D节点位置特征J_i与深度局部占用模型O_xyz，分别取10个低频傅里叶系数作为最后的特征描述子。

本发明的优点在于：(1)新的局部位置模型统计偏差描述子(SDLPP)描述了行为的3D局部几何属性以及动态时间变化信息。(2)节点运动量算法提取关键骨骼节点，计算深度和骨骼特征，移除了不相关的信息，同时特征描述子更具有表达力，更直观。(3)深度和骨骼三种异质特征的融合，使得我们在不计算任何物体信息的情况下，大大提高了人与物体相互作用的行为识别准确率。

附图说明

图1为MSR Action 3D数据集中的10个行为骨骼运动图

图2是采样的人体骨骼模型，提取的关键骨骼节点用黑点表示

图3为从深度图中采样的3D点云图

图4中a是MSR-Action 3D的混淆矩阵；b是MSR Daily Activity 3D的混淆矩阵；c是MSR Action Pairs3D的混淆矩阵

具体实施方式

下面结合实施例对本发明做进一步说明：

实施例1

MSR-Action 3D数据集上的行为识别。MSR-Action 3D数据集包含20个行为，分别是：高臂挥、横臂挥、锤击、用手抓、向前拳击、高抛、画X、画勾、画圆圈、手拍、双手挥、一边拳击、弯曲、向前踢、侧踢、慢跑、网球挥拍、网球发球、打高尔夫球、捡起以及扔，每个行为由10个人做2到3次。这个数据库采集的行为主体处于固定的位置，并且大部分行为主要涉及行为主体上部分躯体的运动。首先，我们直接从深度序列中提取3D点云序列，将3D点云序列分别沿X、Y、T方向均分分割成不重叠的(24×32×18)和(24×32×12)个时空单元；然后利用交叉验证测试我们的方法，即五个行为主体用于训练，剩下的五个用于测试，穷尽252次。表1是我们方法产生的结果与其他现有方法的比较，由表1可知，我们的方法取得了90.67±7.8％的平均精度，高于HOPC的平均精度86.49±2.28％。

实施例2

MSR Daily Activity 3D数据集上的行为识别。该数据集包含16个行为，由10个行为主体，每个行为主体执行行为2次，一次站立，一次坐着，总共有320个行为视频。16个行为分别是：喝、吃、看书、打电话、写字、坐着、使用笔记本、真空清洁、笑、扔纸、玩游戏、躺在沙发上、走路、弹吉他、站立、坐下。实验设置同上，这个数据库极具挑战性，不仅包含类内变化，还涉及人与物体的交互行为。表2是不同方法在这个数据库上识别率的比较，由表可知，我们的方法取得了98.1％的准确率，平均准确率达到了94.0±5.68％，这是一个极好的实验结果。

实施例3

MSR Action Pairs 3D数据集上的行为识别。该数据集是一个行为对的数据集，包含12个行为，6组行为对，分别是：拿起一个盒子、放下一个盒子，提一个箱子、放置一个箱子，推一把椅子、拉一把椅子，戴一顶帽子、脱下帽子，背一个背包、脱下一个背包，贴海报、扯一个海报。在这个数据库中，每组行为对之间有相似的运动以及形状线索，但是他们时间的关联是相反的。实验设置同上，表3是所有现有流行方法在这个数据库上的比较，我们的方法取得了97.2％的识别率。

表1：已有方法在MSR Action 3D数据集上的性能。Mean±STD是从252次循环中计算得到。

5/5一栏意味着{1,3,5,7,9}的行为主体用于训练，其余的用于测试。

表2：MSR Daily Activity识别率的比较。Mean±STD是从252次循环中计算得到。5/5一栏意味着{1,3,5,7,9}的行为主体用于训练，其余的用于测试。

表3：MSR Action Pairs 3D识别率的比较。Mean±STD是从252次循环中计算得到。5/5一栏意味着{1,3,5,7,9}的行为主体用于训练，其余的用于测试。

Claims

1.本发明的发明目的是提供一种基于3D点云以及关键骨骼节点的行为识别方法，其特征在于，包括如下步骤：

(一)基于3D点云的局部位置占用模型统计偏差(SDLPP)特征提取：

(1)从深度图序列中提取3D点云序列；

(2)将3D点云序列均匀分割成N个互不重叠的时空单元；

(3)计算每个时空单元的局部位置模型(LPP)；

(4)计算每两个相邻单元的LPP在时间方向上的偏差，提取SDLPP描述子；

(二)基于关键骨骼节点的3D节点位置特征与深度局部占用特征：

(1)利用节点运动量算法从3D骨骼节点中提取关键骨骼节点子集；

(2)计算关键骨骼节点的3D节点位置特征；

(3)计算关键骨骼节点在对应深度图中的局部占用模型(LOP)；

(三)随机确定森林分类器：

利用步骤(一)、(二)所述方法提取SDLPP、3D节点位置、LOP特征，级联三种异质特征，采用随机确定森林挖掘可区分性特征，分类行为。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明通过3D点云序列与关键骨骼节点子集的结合，从深度和骨骼通道分别提取异质特征，利用随机确定森林融合三种异质特征，对RGBD数据库进行行为分类，达到了很高的行为识别率。

2.根据权利要求1所述的基于3D点云序列与关键骨骼节点子集的行为识别方法，其特征在于：在步骤(一)中，

局部位置占用模型统计偏差(SDLPP)描述子的提取过程为：

从深度序列中提取3D点云序列，将3D点云序列P＝{P₁,P₂,…,P_t,…,P_n}均匀划分成N＝(n_x×n_y×n_t)个互不重叠的时空单元，每个单元的大小为(S_x,S_y,S_t)。例如，初始输入视频的大小为(240×320×54)，划分成(24×32×18)个时空单元，每个单元的大小为(10×10×3)。

对于每个时空单元φ_i，我们先计算局部位置模型(LPP)，级联每一帧落入此单元的像素点的位置坐标，然后分别沿X、Y方向进行均值归一化，得到一个(1×1×3)的特征向量描述此时空单元的平均深度占用情况；接下来，将每个单元的特征向量按时间顺序串联，沿T方向再一次归一化，得到视频的全局描述子F_xyt：

F_xyt＝δ(q₁∪q₂∪......q_N)

q_N表示落入时空单元的像素点位置，δ(·)是沿X、Y以及T方向的立方均值归一化。

最后，计算两个相邻时空单元φ_i与φ_i+1的F_xyt偏差，运用归一化函数得到最后的局部位置模型的统计偏差描述子G_i，特征的维数是(N×3)：

G_i＝Θ(F_xyt(i)-F_xyt(i+1))

Θ(·)是归一化函数

3.根据权利要求1所述的基于3D点云序列与关键骨骼节点子集的行为识别方法，其特征在于：在步骤(二)中，

关键骨骼节点子集提取的过程为：

人体的3D骨骼模型包含有20个骨骼节点，对于每个骨骼节点j，找到它在整个视频序列中的最大位置坐标(min(x_j),min(y_j))、最小位置坐标(max(x_j),max(y_j))；然后，计算节点极值坐标位置的变化量得到节点的运动量L_x＝max(x_j)-min(x_j)，L_y＝max(y_j)-min(y_j)；接下来，计算节点运动量的中心位置坐标最后，得到每个节点的中心位置相对于躯干节点位置的欧几里得距离diff_j：

torso(0,0)表示躯干节点位置，是欧几里得距离计算公式。串联每个节点的欧式距离形成偏差向量Jomov(i)，排序之后选择前10个节点作为我们的关键节点子集。

Jomov(i)＝diff₁∪diff₂∪......∪diff₂₀ i＝1......M 。

4.根据权利要求1所述的基于3D点云序列与关键骨骼节点子集的行为识别方法，其特征在于：在步骤(二)中，

3D节点位置、LOP特征的计算过程为：

将3D骨骼节点位置归一化，使得对于人体绝对位置、初始方向、大小不变，对于每个关键骨骼节点i，提取节点i相对于其他所有节点的距离作为相对节点位置特征J_i。将骨骼节点i在对应深度图中局部区域划分成(N_x×N_y×N_t)个单元，每个单元的大小为(S_x×S_y×S_t)，在每个单元中，计算当前帧落入单元的像素点个数；然后利用sigmoid函数归一化，得到局部特征O_xyz。最后，利用傅里叶时间金字塔编码3D节点位置特征J_i以及深度局部占用模型O_xyz，分别取10个低频傅里叶系数作为最后的特征描述子。

5.根据权利要求1所述的基于3D点云序列与关键骨骼节点子集的行为识别方法，其特征在于：在步骤(三)中，

利用随机确定森林分类行为的过程为：

(1)对MSR Action3D、MSR Daily Activity、MSR Action Pairs数据库中的深度序列，利用(一)所述方法，提取多尺度的局部位置占用统计偏差描述子；

(2)利用(二)所述方法，提取关键骨骼节点子集，进一步计算3D节点位置特征，深度局部占用模型；

(3)级联多尺度的SDLPP、3D节点位置特征以及深度局部占用模型。采用随机确定森林挖掘最富有信息的特征子集，对行为视频分类。