CN108491754A

CN108491754A - 一种基于骨骼特征的动态表示和匹配的人体行为识别方法

Info

Publication number: CN108491754A
Application number: CN201810106594.2A
Authority: CN
Inventors: 李琦铭; 李俊; 崇米娜
Original assignee: Quanzhou Institute of Equipment Manufacturing
Current assignee: Quanzhou Institute of Equipment Manufacturing
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-09-04
Anticipated expiration: 2038-02-02
Also published as: CN108491754B

Abstract

本发明一种基于骨骼特征的动态表示和匹配的人体行为识别方法，对每个分段中的不同数量的关键姿态进行提取，用于动态地表示不同行为的视频序列，利用k近邻搜索算法进行关键姿态提取，能提取出鲁棒性和区分性更强的关键姿态序列，在识别匹配过程中，利用形状上下文信息进行关键姿态的动态匹配，以解决对应行为分段中的关键姿态数量不一致的问题，同时，形状上下文信息也能提供在行为识别过程中更丰富的关键姿态之间的信息量。

Description

一种基于骨骼特征的动态表示和匹配的人体行为识别方法

技术领域

本发明涉及一种基于骨骼特征的动态表示和匹配的人体行为识别方法。

背景技术

Kinect等设备提取的RGB-D图像的人体骨骼特征信息能够很好地刻画人体关节点在三维坐标中的位置和方向信息。但是由于不同人体行为类别以及同一行为在不同个体的差异性，使得传统基于RGB-D图像的骨骼特征的关键姿态表示方法存在一些局限性。

现有方案是把聚类算法得到的固定数量的聚类中心用于表示不同长度的行为视频分段，其存在一定的问题：若分段中提取的关键姿态数量大，会造成长度较小的视频序列计算复杂度提高；而反之，会造成长度较大的视频序列的信息损失。单纯的根据分段长度设定提取的关键姿态数量，不能保证提取的关键姿态序列的鲁棒性。首先，这种运用聚类方法得到的固定数量的聚类中心表示视频序列的关键姿态的做法，不能针对视频序列长度得到动态数量的关键姿态；其次，由于人体存在形变及遮挡等特性，图像骨骼特征序列中存在一些噪声和失效的特征，而利用这些特征得到的聚类中心用于表示行为序列，会使行为识别方法的分类性能降低。

发明目的

本发明的目的在于提出一种基于骨骼特征的动态表示和匹配的人体行为识别方法，是对每个分段中的不同数量的关键姿态进行提取，用于动态地表示不同行为的视频序列，更具有普遍性和鲁棒性，同时，提出利用形状上下文信息的动态时间规整方法对具有不同数量的关键姿态的行为分段进行动态匹配，可提高RGB-D图像中人体行为识别的准确率,可应用于基于Kinect等深度传感器的电子娱乐、虚拟现实等人机交互相关的新兴产业。

本发明一种基于骨骼特征的动态表示和匹配的人体行为识别方法，包括如下步骤：

步骤1、训练过程

(1)在人体行为视频序列中，将每一帧的人体骨骼中关节点的三维坐标作为骨骼特征序列的训练样本，数据库中训练样本所属的类别为已知，对骨骼的三维坐标进行预处理后提取骨骼特征信息，根据骨骼特征信息的势能变化，将视频序列中的人体行为分为运动变化较小的静态行为序列，以及运动变化较大的动态行为序列，将视频序列分成姿态变化不一样的多个分段；

(2)对上述每个分段提取一定数量的关键姿态，在一定数量的连续分段中随机提取关键姿态，使得每个训练样本在每个分段中得到不同数量的关键姿态来构成骨骼特征的关键姿态序列，利用k近邻分类器提取出鲁棒和区分性更强的骨骼特征的关键姿态序列，并把提取出来的关键姿态序列与同一分段中的关键姿态进行合并，得到最终表示连续视频分段的人体行为特征的关键姿态序列，使每个分段中的关键姿态的数量根据自身长短变化特性进行改变；

步骤2、识别过程

针对骨骼特征序列识别样本，首先，将人体行为视频序列分成姿态变化不一样的静态行为分段和动态行为分段；其次，利用与训练过程相同的关键姿态序列的提取方法用于表示识别样本；最后，将识别样本的行为序列分成具有固定长度分段的测试子序列与训练样本进行匹配，同时对静态行为分段和动态行为分段运用不同的匹配方法，结合静态行为分段和动态行为分段匹配的结果，得到匹配度最高的对应训练样本的类别作为该测试子序列的类别。

所述根据骨骼特征信息的势能变化，将视频序列中的人体行为分为运动变化较小的静态行为序列，以及运动变化较大的动态行为序列，将视频序列分成姿态变化不一样的多个分段，具体步骤如下：

对人体行为视频序列中骨骼的三维坐标提取的骨骼特征信息生成每一帧的特征向量，假设F_i表示人体行为视频序列的第i帧的特征向量，那么势能E_p(i)可由当前帧与第一帧的特征向量F₁的欧氏距离得到：E_p(i)＝||F_i-F₁||² (1)；

然后用相邻帧的势能变化E_d(i)作为骨骼特征的势能变化大小：

E_d(i)＝E_p(i)-E_p(i-1) (2)；

设定势能变化阈值，把小于这一势能变化阈值的视频序列作为运动变化较小的静态行为分段，反之则为动态行为分段，将所有势能变化大小小于所述势能变化阈值的置为零。

上述步骤1训练过程的步骤(2)，具体包括如下步骤：

(1)假设F_r＝{F_r1,F_r1,...,F_rm}是由m个随机选择的关键姿态r组成的序列，r指的是随机选择的关键姿态,表示第j次选取的序列，为了寻找中所有关键姿态的k近邻，为其构造一个训练集，训练集中包含与属于同一行为的视频帧特征向量，以及其它行为序列中随机选择的视频帧特征向量，那么，在训练集中得到其k近邻的得票的置信度分数为：

其中，kⁱ是在训练集中得到的k近邻的个数，是k近邻中与属于同一行为的近邻的个数，在所有随机提取的关键姿态序列中，选择置信度分数位于前N个关键姿态序列用于表示这一行为视频序列，从统计学的角度出发，当j和k的个数足够大的，可以提取出鲁棒性及区分性能高的行为视频序列；

(2)利用K均值聚类方法从已得到的人体行为视频序列中位于该分段内的关键姿态中提取固定数量的关键姿态用于表示静态行为分段，则所有位于相同静态行为分段中的关键姿态都利用K均值聚类得到固定数量的关键姿态用于表示该分段；而所有位于动态行为分段中的关键姿态序列直接提取用于表示该分段，针对姿态变化较大的分段可以用较多数量的关键姿态表示，反之姿态变化较小的分段用较小数量的关键姿态表示。

上述步骤2的识别过程具体包括如下步骤：

(1)由于静态行为分段中是由固定数量的聚类中心表示，那么，识别样本中的测试子序列与训练样本中的静态行为分段距离可由公式(4)衡量：

其中，n_s表示识别样本的测试子序列第l个分段中聚类得到的关键姿态的个数，由于静态行为分段和动态行为分段是交替出现的，假设第一个出现的是静态行为分段，表示识别样本的测试子序列第l个分段中第i个关键姿态，表示训练样本对应的第l个分段中距离最近的关键姿态；

(2)在动态行为分段的匹配过程中，识别样本和训练样本的动态行为分段都由多个不同长度的关键姿态序列表示，利用形状信息动态时间规整shapeDTW方法进行动态匹配，人体行为序列的运动轨迹可形象地表示为具有形状上下文信息的曲线，对单个关键姿态的上下文信息构造其局部的形状特征，采用前后关键姿态的特征信息与当前关键姿态的特征信息拼接作为形状信息动态时间规整shapeDTW方法中当前关键姿态的形状上下文信息，具体的匹配过程包括如下步骤：

假设两个关键姿态序列为：

X＝{x₁,x₂,...x_m}

Y＝{y₁,y₂,...y_n} (5)

其中，序列X中含有m个关键姿态，序列Y中含有n个关键姿态，且每个关键姿态x_i和y_i都是多维的骨骼特征向量，两个关键姿态之间的距离为：

其中，和分别表示关键姿态x_i和y_i的形状上下文信息，i＝1,2,...m,j＝1,2,...n，然后，通过迭代计算两个关键姿态序列的shapeDTW距离D_shape(m,n),其中每个迭代步骤得到的距离为：D(i,j)＝d_ij+min{D(i-1),D(i,j-1),D(i-1,j-1)} (7)

然后，根据关键姿态序列的shapeDTW距离的计算方法，得到识别样本和和训练样本的子序列对应第l个动态行为分段的距离：

其中，n_m表示识别样本的测试子序列第l个动态分段中得到的关键姿态序列的个数,表示测试子序列第l个动态分段中第i个关键姿态序列，表示训练样本对应的第l个动态分段中距离最近的关键姿态序列；

(3)利用测试子序列的静态行为分段及动态行为分段的距离之和得到最终的匹配结果，将与识别样本测试子序列距离最小的训练样本的类别作为其类别。

本发明提出一种针对每个行为分段中的不同数量的关键姿态进行提取方法，对每个分段中的不同数量的关键姿态进行提取，用于动态地表示不同行为的视频序列，这样做可使关键姿态的提取方法更具有普遍性和鲁棒性。本发明利用k近邻搜索算法进行关键姿态提取，能提取出鲁棒性和区分性更强的关键姿态序列。在识别匹配过程中，本发明利用形状上下文信息进行关键姿态的动态匹配，以解决对应行为分段中的关键姿态数量不一致的问题。同时，形状上下文信息也能提供在行为识别过程中更丰富的关键姿态之间的信息量。

附图说明

图1为本发明基于骨骼特征的动态表示和匹配的人体行为识别方法总体流程图；

图2为本发明关键姿态数量的分段示意图；

图3为本发明人体行为序列的运动轨迹匹配示意图；

图4为本发明关键姿态序列的动态表示示意图。

以下结合具体实施例和附图对本发明做进一步详述。

具体实施方式

如图1所示，本发明一种基于骨骼特征的动态表示和匹配的人体行为识别方法，主要分为训练和识别两个过程，包括如下步骤：

步骤1、训练过程

(1)在人体行为视频序列中，将每一帧的人体骨骼中关节点的三维坐标作为骨骼特征序列的训练样本，数据库中训练样本所属的类别为已知，然后，对骨骼的三维坐标进行预处理(即平滑处理)，并提取骨骼特征信息(Normalized Relative Orientation,NRO)，根据骨骼特征信息的势能变化，将视频序列中的人体行为分为运动变化较小的静态行为序列，以及运动变化较大的动态行为序列，将视频序列分成姿态变化不一样的多个分段，从而对静态和动态行为进行区分处理，具体步骤如下：

对人体行为视频序列中的骨骼的三维坐标进行预处理并提取骨骼特征信息生成每一帧的特征向量，假设F_i表示人体行为视频序列的第i帧的特征向量，那么势能E_p(i)可由当前帧与第一帧的特征向量F₁的欧氏距离得到：E_p(i)＝||F_i-F₁||² (1)；

E_d(i)＝E_p(i)-E_p(i-1) (2)

设定势能变化阈值，把小于这一势能变化阈值的视频序列作为运动变化较小的静态行为分段，反之则为动态行为分段，如图2所示，将所有势能变化大小小于所述势能变化阈值的置为零；

(2)在得到人体行为视频序列的分段后，对每个分段提取一定数量的关键姿态，不同于其它在一个分段中提取固定数量的关键姿态的提取方法，本发明在一定数量的连续分段中多次随机提取关键姿态，这样可以使得每个训练样本在每个分段中得到不同数量的关键姿态，构成骨骼特征的关键姿态序列，由于这些姿态序列存在的随机性，并不是所有的这些姿态序列都能很好的表示其所在的连续视频分段，需要对其进行筛选，利用k近邻(k-Nearest Neighbours，kNN)分类器提取出鲁棒和区分性更强的骨骼特征的关键姿态序列，并把提取出来的关键姿态序列与同一分段中的关键姿态进行合并，得到最终表示连续视频分段的人体行为特征的关键姿态序列，这样做可使每个分段中的关键姿态的数量根据自身长短变化特性进行改变，包括如下步骤：

(2)在上一步中已经得到了前N置信度分数的关键姿态序列用于表示人体行为视频序列，然而，一个视频序列是分成静态和动态行为的分段，需要对不同分段进行动态的表示，由于静态行为分段中的人体行为姿态变化小，不需要使用和动态行为分段中相同数量的关键姿态；所以，本发明利用K均值聚类方法从已得到的人体行为视频序列中位于该分段内的关键姿态中提取固定数量的关键姿态用于表示静态行为分段；如图4所示，所有位于相同静态行为分段中的关键姿态运用K均值聚类得到固定数量的关键姿态用于表示该分段；而所有位于动态行为分段中的关键姿态序列直接提取用于表示该分段，这样便得到了用于表示动态行为分段的不同数量的关键姿态序列，针对姿态变化较大的分段可以用较多数量的关键姿态表示，反之姿态变化较小的分段用较小数量的关键姿态表示；

步骤2、识别过程

针对骨骼特征序列识别样本，首先，将人体行为视频序列分成姿态变化不一样的静态行为分段和动态行为分段；其次，利用与训练过程相同的关键姿态序列的提取方法用于表示识别样本；最后，将识别样本的行为序列分成具有固定长度分段的测试子序列与训练样本进行匹配，同时对静态行为分段和动态行为分段运用不同的匹配方法，结合静态行为分段和动态行为分段匹配的结果，得到匹配度最高的对应训练样本的类别作为该测试子序列的类别；具体包括如下步骤：

(2)而在动态行为分段的匹配过程中，由于识别样本和训练样本的动态行为分段都由多个不同长度的关键姿态序列表示，因此需要解决不同长度的关键姿态序列的动态匹配问题；为了解决这一问题，目前常采用的是动态时间规整(Dynamic Time Warping,DTW)方法，然而，DTW虽然可得到全局最优解，但是没有考虑局部特征的上下文信息，即关键姿态之间的空间信息，形状信息动态时间规整(shape Dynamic Time Warping,shapeDTW)是一种结合全局和局部上下文信息的动态匹配方法，在DTW中两个序列的匹配只利用了当前特征向量的自身信息进行匹配，而shapeDTW提取的是当前特征向量的局部形状上下文信息进行匹配，如图3所示，人体行为序列的运动轨迹可形象地表示为具有形状上下文信息的曲线；对单个关键姿态的上下文信息构造其局部的形状特征，采用前后关键姿态的特征信息与当前关键姿态的特征信息拼接作为shapeDTW方法中当前关键姿态的形状上下文信息，具体的匹配过程包括如下步骤：

假设两个关键姿态序列为：

X＝{x₁,x₂,...x_m}

Y＝{y₁,y₂,...y_n} (5)

然后，根据关键姿态序列的shapeDTW距离的计算方法，得到识别样本和和训练样本的子序列对应第l＝2,4,...,个动态行为分段的距离：

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于骨骼特征的动态表示和匹配的人体行为识别方法，其特征在于包括如下步骤：

步骤1、训练过程

步骤2、识别过程

2.根据权利要求1所述的一种基于骨骼特征的动态表示和匹配的人体行为识别方法，其特征在于：所述根据骨骼特征信息的势能变化，将视频序列中的人体行为分为运动变化较小的静态行为序列，以及运动变化较大的动态行为序列，将视频序列分成姿态变化不一样的多个分段，具体步骤如下：

E_d(i)＝E_p(i)-E_p(i-1) (2)；

3.根据权利要求1所述的一种基于骨骼特征的动态表示和匹配的人体行为识别方法，其特征在于：上述步骤1训练过程的步骤(2)，具体包括如下步骤：

4.根据权利要求1所述的一种基于骨骼特征的动态表示和匹配的人体行为识别方法，其特征在于上述步骤2的识别过程具体包括如下步骤：

假设两个关键姿态序列为：

X＝{x₁,x₂,...x_m}

Y＝{y₁,y₂,...y_n} (5)