CN109086706B

CN109086706B - 应用于人机协作中的基于分割人体模型的动作识别方法

Info

Publication number: CN109086706B
Application number: CN201810820941.8A
Authority: CN
Inventors: 黄攀峰; 张博文; 刘正雄; 董刚奇; 孟中杰; 张夷斋; 张帆
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2021-06-15
Anticipated expiration: 2038-07-24
Also published as: CN109086706A

Abstract

本发明涉及一种应用于人机协作中的基于分割人体模型的动作识别方法，使用微软Kinect V2传感器采集人体骨骼信息，得到关节节点坐标；经预处理后将骨骼节点序列从四维映射至三维，存储为点云序列的形式；将人体模型分割为上肢、下肢和躯干三部分，分别提取特征向量和关节点相对位置的布尔值特征矩阵，利用布尔值特征矩阵分别提取关键帧，利用特征向量及动态时间规整算法(DTW算法)分别进行模板匹配；最后将三部分的识别结果组合起来，得到对人体整体动作的分类。本发明不仅能达到识别人体整体动作的目的，还能得到对人体上肢、躯干和下肢的动作描述，可以更加详细和精确的识别人体动作与行为，以帮助人机协作下的机器人进行后续的任务规划。

Description

应用于人机协作中的基于分割人体模型的动作识别方法

技术领域

本发明属于人机交互领域，涉及一种应用于人机协作中的基于分割人体模型的动作识别方法。

背景技术

随着机器人技术的发展，机器人的应用场景越来越广，与其他领域产生了越来越多的交叉和融合，同时就产生了许多需要人与机器人进行协同作业的场景。机器人与人进行协同作业既能解放人的劳动力，在某些时候也可以帮助人规避高风险的操作任务。人机协作是未来智能机器人未来的发展方向之一。

人机协作强调了人的主导作用，应当使机器人在保证安全的前提下尽可能准确的理解人的意图，并根据自身的工作状态和人的工作状态及意图进行下一步任务。因此，在人机协作场景中，需要对人体信息进行检测和识别，以帮助机器人进行下一步任务规划。这些信息包括人体动作信息、位置信息、手势信息、语音信息等等。其中，人体动作信息直接包含了人的工作状态，是人机协作中必须获取的信息之一。

但是，人体动作具有复杂度高、信息量大、不同用户的同种动作可能有差异、不同种动作之间可能具有重复姿势、可能具有无意义动作等等特点，这导致人体动作的识别难度较大，是一个涉及计算机视觉、模式识别、人工智能等多个领域的交叉课题。按照需要的信息类型进行区分，人体动作识别主要有基于RGB图像，基于深度图像和基于骨骼信息等方法。微软Kinect V2传感器可以采集RGB图像、深度图像和追踪人体骨骼关节点数据，因此被广泛用于动作识别领域。

参考文献：田国会，尹建芹，韩旭，等.一种基于关节点信息的人体行为识别新方法[J].机器人，2014，36(3)：285-292.

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种应用于人机协作中的基于分割人体模型的动作识别方法。

技术方案

一种应用于人机协作中的基于分割人体模型的动作识别方法，其特征在于步骤如下：

步骤1、对待识别动作序列和动作模板进行预处理：

1、将实时分割完成的Kinect V2传感器的动作序列数据采用点云文件格式存储，存储过程为：关节数据共有N帧，用一个25*N的点云C来存储关节数据，将第k帧中的第i关节点视为三维空间中的一个点

该点在点云中表示为C[25*k+i]，该点在第k+1帧中对应的点

在点云中表示为C[25*(k+1)+i]，其中l＝0.3m为定义的帧间距离；

2、提取点云文件格式存储的动作序列数据，进行坐标转换：缩放、旋转和平移

平移过程为：采用HipCenter作为参考点，将其他关节点的坐标减去参考点的坐标作为平移后的关节点的坐标；

缩放过程为：选取平移后的两组特定关节的坐标，ShoulderLeft、ElbowLeft和ShoulderRight、ElbowRight，并使用多帧关节数据计算其平均欧拉距离d_actual，针对两个关节间距，定义标准距离d_standard，计算得缩放因子：

在每帧中，将其他关节点的(x,y,z)坐标均乘以缩放因子；

旋转过程为：平移前关节坐标为(x,y,z)，平移后关节坐标为(x',y',z')，有：

x'＝xcosθ+zsinθ

y'＝y

z'＝-xsinθ+zcosθ

其中：角度θ为每帧中的HipLeft和HipRight两关节连线绕原点旋转至与Kinect摄像机坐标系的X轴平行需要转过的角度；

步骤2、对人体模型进行分割和特征提取：

将人体模型分割为上肢、躯干和下肢，其中：

上肢包含：ElbowRight为B点，WristRight为C点，ElbowLeft为E点，WristLeft为F点；

躯干包含：HipCenter为O点，Spine为G点，ShoulderCenter为S点，Head为H点，ShoulderRight为A点，ShoulderLeft为D点，HipLeft为P点，HipRight为Q点；

下肢包含：KneeRight为K点，AnkleRight为N点，KneeLeft为L点，AnkleLeft为M点；

对三部分进行特征提取如下：

使用关节相对向量作为第一特征：

上肢：

躯干：

下肢：

使用关节相对位置的布尔值矩阵作为第二特征

上肢：

将上表中三四行合并为一行，得到一个判断上肢关节点在Z方向上的大致运动、由布尔值构成的3*2的矩阵；

在Y方向上：

同理，将上表中三四行合并为一行，得到一个判断上肢关节点在Z方向上的大致运动、由布尔值构成的3*2的矩阵；

在X方向上：

将上表中三四行合并为一行，得到一个判断上肢关节点在X方向上的大致运动、由布尔值构成的3*2的矩阵；

将三个维度的特征矩阵按ZYX横向排列，可以得到一个3*6的特征矩阵，其元素均由布尔值构成，使用该矩阵可以较为准确的得到上肢的运动状态。

躯干：

在Z方向上：

得到一个由布尔值构成的1*3的行向量，大致描述躯干在Z方向上的运动；

在Y方向上：

得到一个由布尔值构成的1*3的行向量，大致描述躯干在Y方向上的运动；

在X方向上：

得到一个由布尔值构成的1*3的行向量，大致描述躯干在X方向上的运动；

将三个维度的特征矩阵按ZYX上下排列，得到一个3*3的特征矩阵，其元素均由布尔值构成，使用该矩阵可以较为准确的得到躯干的运动状态

下肢：

在Z方向：

将上表中三四行合并为一行，得到一个由布尔值构成的3*2的矩阵，使用该矩阵判断下肢关节点在Z方向上的大致运动；

在Y方向：

得到一个1*2的行向量，加入一个元素1保持格式的一致性，得到一个1*3的行向量，将其转置得到一个3*1的特征列向量；

在X方向：

将上表中三四行合并为一行，得到一个判断下肢关节点在X方向上的大致运动、由布尔值构成的3*2的矩阵；

将三个维度的特征矩阵按ZYX横向排列，得到一个3*5的特征矩阵，其元素均由布尔值构成，使用该矩阵得到下肢的运动状态；

步骤3、提取关键帧：使用第二特征分别对上肢、躯干、下肢提取关键帧

以第N帧的特征矩阵

与第N-1帧的特征矩阵

进行比较，当特征矩阵变化值

大于σ时，将该帧作为关键帧，否则该帧不作为关键帧；

其中：

M∈C^i×j

将所提取的关键帧组成待识别动作；

步骤4、进行匹配：

采用DTW算法对待识别动作与动作模板的三个部分进行匹配，得到上肢、躯干、下肢的动作类型。

有益效果

本发明提出的一种应用于人机协作中的基于分割人体模型的动作识别方法，使用微软Kinect V2传感器采集人体骨骼信息，得到关节节点坐标；经预处理后将骨骼节点序列从四维映射至三维，存储为点云序列的形式；将人体模型分割为上肢、下肢和躯干三部分，分别提取特征向量和关节点相对位置的布尔值特征矩阵，利用布尔值特征矩阵分别提取关键帧，利用特征向量及动态时间规整算法(DTW算法)分别进行模板匹配；最后将三部分的识别结果组合起来，得到对人体整体动作的分类。本发明不仅能达到识别人体整体动作的目的，还能得到对人体上肢、躯干和下肢的动作描述，可以更加详细和精确的识别人体动作与行为，以帮助人机协作下的机器人进行后续的任务规划。

附图说明

图1：Kinect摄像机坐标系方向与骨骼节点，其中1—16关节点分别为：HipCenter、Spine、ShoulderCenter、Head、ShoulderRight、ElbowRight、WristRight、ShoulderLeft、ElbowLeft、WristLeft、HipRight、KneeRight、AnkleRight、HipLeft、KneeLeft、AnkleLeft、其中HipCenter视为参考点。

图2：将骨骼关节点绕Y轴旋转，使HipLeft和HipRight两关节连线在XZ平面的投影与X轴平行

图3：对于人体模型的分割方法

图4：基于布尔值特征矩阵的关键帧提取算法

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明使用基于骨骼信息的人体动作识别方法，使用KinectV2传感器采集用户骨骼数据，Kinect V2传感器可以追踪每个用户多达25个骨骼节点，本发明选取其中16个骨骼节点用于动作识别，分别为：

HipCenter、Spine、ShoulderCenter、Head、ShoulderRight、ElbowRight、WristRight、ShoulderLeft、ElbowLeft、WristLeft、HipRight、KneeRight、AnkleRight、HipLeft、KneeLeft、AnkleLeft、其中HipCenter视为参考点。

使用微软Kinect V2传感器采集人体骨骼信息，得到关节节点坐标；经预处理后将骨骼节点序列从四维映射至三维，存储为点云序列的形式；将人体模型分割为上肢、下肢和躯干三部分，分别提取特征向量和关节点相对位置的布尔值特征矩阵，利用布尔值特征矩阵分别提取关键帧，利用特征向量及动态时间规整算法(DTW算法)分别进行模板匹配；最后将三部分的识别结果组合起来，得到对人体整体动作的分类。本发明不仅能达到识别人体整体动作的目的，还能得到对人体上肢、躯干和下肢的动作描述，可以更加详细和精确的识别人体动作与行为，以帮助人机协作下的机器人进行后续的任务规划。

具体包括步骤如下：

1、对待识别动作序列和动作模板进行预处理，包括平移、缩放和旋转，并将关节数据映射至三维，存储为点云形式；

2、对人体模型进行分割和特征提取，将人体模型分割为上肢、躯干和下肢；分别选取关键运动关节点向量作为第一特征，关键运动关节点之间的位置关系(布尔值)作为第二特征；针对动作模板和待识别序列分别提取人体模型三个部分的第一特征和第二特征。

3、使用第二特征针分别对上肢、躯干、下肢提取关键帧。

4、根据第一特征，使用改进DTW算法对动作序列和动作模板针对三个部分进行匹配，得到上肢、躯干、下肢的动作类型。

5、对每个动作模板的三部分动作进行分类，将上步得到的三个部分的动作类型与模板进行对照，得到整个动作的类型，完成动作识别。

具体实施方式

第一步：将待识别动作序列和动作模板关节点数据映射至三维，存储为点云形式，并进行预处理，包括平移、缩放和旋转；

KinectV2传感器追踪骨骼数据约为30frame/second，因此可以将帧作为骨骼节点的时间单位。

使用Kinect V2传感器提取的关节数据每秒即包含30帧数据，而每帧又包含25个关节点的坐标信息，为了方便快捷的存储、传输和读取动作序列中的关节信息，本发明创新型的使用点云(PCD文件格式)来存储动作序列。

点云即大量点的集合，是近年来应用与三维重建等方面出现的一种数据的存储结构，具有很多种文件格式，本发明取在开源点云库PCL中定义的PCD格式三维有序点云存储数据。

从Kinect传感器中直接得到的人体骨骼数据是整段的，没有针对动作进行划分，在人机协作中，需要对人体动作进行实时识别，因此需要对当前获取的动作序列进行实时分割，由于已有相应方法发表，本发明不再讨论，默认针对已经分割好的动作序列，即每个待识别动作序列包含一个动作，每个动作模板也包含一个动作。

若关节数据共有N帧，即可用一个25*N的点云C来存储关节数据，将第k帧中的第i关节点视为三维空间中的一个点

该点在点云中表示为C[25*k+i]，该点在第k+1帧中对应的点

在点云中表示为C[25*(k+1)+i]，其中l＝0.3m为本发明定义的帧间距离。因此对一组采集到的关节数据，我们使用点云格式存储，由于本发明使用了16个关节点用于动作识别，使用一个大小为16*N的点云来存储，可以方便的对数据进行读取、传输和存储，且点云中的点具有明确的物理意义。

在Kinect V2传感器采集到的原始骨骼数据中，关节点坐标是相对于Kinect摄像机坐标系的。HipCenter或Spine关节点处于人体重心位置，适合作为每帧中其他关节点的参考点(原点)，其他关节点的坐标可以相对参考点来定义。即每帧中将所有骨骼关节点平移，使HipCenter或Spine平移到参考坐标系原点。本发明采用HipCenter作为参考点，对于一些没有HipCenter关节点的公开数据库，(例如UCFKinect Dataset)，在使用时可以使用Spine点作为原点。

由于不同的人身高不同，骨骼长度也不同，会造成不同的人在做完全相同的动作时关节坐标、关节角度的差异，因此在识别人体动作时骨骼长度应当缩放至一个标准距离，且缩放前后关节角度应当不变，即姿势不变；为了达到这个目标，可选取两组特定关节，ShoulderLeft、ElbowLeft和ShoulderRight、ElbowRight，并使用多帧关节数据计算其平均欧拉距离d_actual，针对两个关节间距，定义标准距离d_standard，因此可以计算得缩放因子：

在每帧中，将其他关节点的(x,y,z)坐标均乘以缩放因子即可。

每帧中人体对摄像机都有一个不同的朝向，有可能导致不同的识别结果，因此，在经过平移处理后，计算出每帧中的HipLeft和HipRight两关节连线绕原点旋转至与Kinect摄像机坐标系的X轴平行需要转过的角度θ，然后将所有关节绕Y轴旋转该角度，即使左右Hip关节连线在XZ平面上的投影与X轴平行，如图2。假设平移前关节坐标为(x,y,z)，平移后关节坐标为(x',y',z')，有：

x'＝xcosθ+zsinθ

y'＝y

z'＝-xsinθ+zcosθ

至此，对原始骨骼关节数据进行了平移、缩放和旋转操作。

第二步：分别对动作模板和待识别动作进行特征提取。对人体模型进行分割和特征提取，将人体模型分割为上肢、躯干和下肢；分别选取关键运动关节点向量作为第一特征，关键运动关节点之间的位置关系(布尔值)作为第二特征；针对动作模板和待识别动作进行特征提取。

如图4，将人体模型分割为躯干，上肢和下肢。人的不同动作中，有些部分其实是重复的，例如，在单纯站立，挥手，击掌等动作中，躯干和下肢的动作是基本一致的，只有上肢动作不同，因此，在分析更加复杂的动作，将人的整体运动拆分成三部分研究，对三个部分的动作进行分别识别，再对动作组合进行分析和识别，这样不仅能更加精细的判断人体运动，而且由于分割后的模型特征相对较少，而且减少了整个运动的类别，有助于提高整体动作的识别正确率。

在特征提取时，依据上述分割方式，分别对三部分进行特征提取如下：

第一特征：使用关节相对向量作为第一特征

上肢：

躯干：

下肢：

第二特征：使用关节相对位置的布尔值序列作为第二特征

定义一个阈值，当两关节在某个方向上的坐标差异超过该阈值时，其对应的布尔值置1，这样，就可以使用一个布尔值特征矩阵来描述关节之间的相对位置关系。

上肢：

将上表中三四行合并为一行，可以将得到一个由布尔值构成的3*2的矩阵，使用该矩阵可以判断上肢关节点在Z方向上的大致运动。

在Y方向上：

同理，将上表中三四行合并为一行，可以将得到一个由布尔值构成的3*2的矩阵，使用该矩阵可以判断上肢关节点在Z方向上的大致运动。

在X方向上：

同理，将上表中三四行合并为一行，可以将得到一个由布尔值构成的3*2的矩阵，使用该矩阵可以判断上肢关节点在X方向上的大致运动。

躯干：

在Z方向上：

如上表，可以得到一个由布尔值构成的1*3的行向量，可以大致描述躯干在Z方向上的运动。

在Y方向上：

如上表，可以得到一个由布尔值构成的1*3的行向量，可以大致描述躯干在Y方向上的运动。

在X方向上：

如上表，可以得到一个由布尔值构成的1*3的行向量，可以大致描述躯干在X方向上的运动。

将三个维度的特征矩阵按ZYX上下排列，可以得到一个3*3的特征矩阵，其元素均由布尔值构成，使用该矩阵可以较为准确的得到躯干的运动状态。

下肢：

在Z方向：

将上表中三四行合并为一行，可以将得到一个由布尔值构成的3*2的矩阵，使用该矩阵可以判断下肢关节点在Z方向上的大致运动。

在Y方向：

可以得到一个1*2的行向量，为了保持格式的一致性，再加入一个元素1，得到一个1*3的行向量，将其转置得到一个3*1的特征列向量。

在X方向：

同理，将上表中三四行合并为一行，可以将得到一个由布尔值构成的3*2的矩阵，使用该矩阵可以判断下肢关节点在X方向上的大致运动。

将三个维度的特征矩阵按ZYX横向排列，可以得到一个3*5的特征矩阵，其元素均由布尔值构成，使用该矩阵可以较为准确的得到下肢的运动状态。

第三步：使用第二特征分别对上肢、躯干、下肢提取关键帧。

在得到布尔值特征矩阵之后，针对第N帧的特征矩阵

与第N-1帧的特征矩阵

进行比较，当特征矩阵完全相同时，说明当前帧与上一帧的关节相对位置没有发生变化。当特征矩阵变化时，变化的布尔值越多，说明当前帧与上一帧的关节相对位置变化越大。因此，我们定义一个整数阈值σ，当特征矩阵变化值

大于σ时，将该帧作为关键帧，否则该帧不作为关键帧，其中：M∈Cⁱ ^×j

由于人体动作中上肢、躯干和下肢的动作往往变化程度不一致，因此对三个部分分别提取的关键帧也不一致，即侧重点不同，其分别用于匹配三部分的动作。

提取关键帧算法使用流程图表示如下：

第四步：根据第一特征，使用DTW算法对待识别动作和动作模板针对三个部分进行匹配，得到上肢、躯干、下肢的动作类型。

动态时间规整算法(Dynamic Time Warping，DTW)常被用于衡量两个离散时间序列的相似度，可以很容易的实现不同长度模板间的匹配。田国会等[1]提出使用DTW算来来进行待识别动作与动作模板之间的匹配。

选取动作模板R＝{R(1),R(2),…,R(M)}，待识别动作为T＝{T(1),T(2),…,T(N)}，其中R(M)和T(N)为内部特征矢量，两者维数相同。定义d[T(n),R(m)]为计算特征矢量T(n)和R(m)所得到的距离量；

相似度计算公式可选取如下：

D_i[T(n),R(m)]为由T(1)和R(1)开始计算，共经过i个节点对，直至T(n)和R(m)的累计距离值，即：

1≤n_j≤N,1≤m_j≤M

其中d[T(n_j),R(m_j)]表示即D[T(n_i),R(m_i)]为计算一条连接若干特征矢量节点对的累计距离值。

DTW算法的功能即找到一条最优路径，使得通过该路径计算得到的D[T(N),R(M)]在所有路径中最小，有如下迭代过程：

D_i[T(n_i),R(m_i)]＝d[T(n),R(m)]+D_i-1[T(n),R(m)]其中：

D_i-1[T(n),R(m)＝min(D_i-1[T(n-1),R(m)],D_i-1[T(n),R(m-1)],D_i-1[T(n-1),R(m-1)])

第五步：对每个动作模板的三部分动作进行分类，将上步得到的三个部分的动作类型与模板进行对照，得到整个动作的类型，完成动作识别。

由于本发明将人体分割为上肢、躯干和下肢三部分进行处理，所以基本动作模板也是按照上肢、躯干和下肢三部分的动作进行分类的，每类动作模板都有其相应动作种类，而一般数据库的动作分类是按照身体的整体动作来分类的，因此首先需要对动作模板进行人工分析，将动作模板中人体上肢、躯干和下肢的动作进行分类。

然后，在上述1-4步完成后，上肢、躯干和下肢的动作分别进行关键帧选取和动作匹配后，得到相应的动作分类；最后，将得到的动作类型与动作模板的三种动作类型进行搜索匹配，即可得到相应的全身动作类型，如果没有对应的匹配类型，则说明动作模板中没有对应动作类型，至此即可完成动作识别的整个过程。

Claims

1.一种应用于人机协作中的基于分割人体模型的动作识别方法，其特征在于步骤如下：

步骤1、对待识别动作序列和动作模板进行预处理：

该点在点云中表示为C[25*k+i]，该点在第k+1帧中对应的点

在点云中表示为C[25*(k+1)+i]，其中l＝0.3m为定义的帧间距离；

在每帧中，将其他关节点的(x,y,z)坐标均乘以缩放因子；

x'＝xcosθ+zsinθ

y'＝y

z'＝-xsinθ+zcosθ

步骤2、对人体模型进行分割和特征提取：

将人体模型分割为上肢、躯干和下肢，其中：

对三部分进行特征提取如下：

使用关节相对向量作为第一特征：

上肢：

躯干：

下肢：

使用关节相对位置的布尔值矩阵作为第二特征

上肢：

在Y方向上：

在X方向上：

将三个维度的特征矩阵按ZYX横向排列，可以得到一个3*6的特征矩阵，其元素均由布尔值构成，使用该矩阵可以较为准确的得到上肢的运动状态；

躯干：

在Z方向上：

在Y方向上：

在X方向上：

下肢：

在Z方向：

在Y方向：

在X方向：

以第N帧的特征矩阵

与第N-1帧的特征矩阵

进行比较，当特征矩阵变化值

大于σ时，将该帧作为关键帧，否则该帧不作为关键帧；

其中：

M∈C^i×j

将所提取的关键帧组成待识别动作；

步骤4、进行匹配：

采用DTW算法对待识别动作与动作模板的三个部分进行匹配，得到上肢、躯干、下肢的动作类型；

步骤5、与模板进行对照：

对每个动作模板的三部分动作进行分类，将步骤4得到的三个部分的动作类型与模板进行对照，得到整个动作的类型，完成动作识别。