CN111259749A

CN111259749A - 一种基于双向lstm的复杂环境下实时人体姿势识别方法

Info

Publication number: CN111259749A
Application number: CN202010024952.2A
Authority: CN
Inventors: 周意乔; 徐昱琳
Original assignee: Beijing Transpacific Technology Development Ltd
Current assignee: Beijing Transpacific Technology Development Ltd; University of Shanghai for Science and Technology
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-09

Abstract

本发明公开了一种基于双向LSTM的复杂环境下实时人体姿势识别方法。利用OpenPose作为人体姿态估计模块，获取人体的二维关节点数据。根据数据缺失情况，判断人体是否处于遮挡状态。对于非遮挡情况，构建基于双向LSTM的分类器，将初始的二维关节点信息送入分类器获取非遮挡情况的人体姿势；对于遮挡状态，利用深度摄像机内参进行三维映射，构建躯干向量和关节角度，使用主成分分析对上述高维特征进行处理后送入分类器获取遮挡情况的人体姿势。本发明方法实现了在复杂环境下对人体姿势的准确识别。

Description

一种基于双向LSTM的复杂环境下实时人体姿势识别方法

技术领域

本发明属于人机交互技术领域，更为具体地讲，涉及一种基于双向LSTM的复杂环境下实时人体姿势识别方法。

背景技术

机器人技术的应用从传统的工业领域逐渐拓展到医疗、服务等与人交互频繁的场景，因为上述场景对安全性及可靠性有极高要求，各种基于机器人与人之间的感知、识别等人机交互技术得到了长足发展。人们需要机器人能够迅速理解人类传递的各种信息，并根据不同信息特征做出更加自然的决策与反馈。

人体姿势一方面是表示人类状态最为直观的方式，另一方面也因为其特征明显易于观察而成为人机交互中重要的研究方向。但传统的姿势技术大多依靠一些可穿戴设备，或者静电信号等特殊信息，并以机器人为核心进行编程控制。这样的方法受到成本、计算能力、环境因素等影响导致效果大打折扣，进而使得其在应用层面上受限。且大多数结构过于复杂，很难集成到服务机器人的架构中。

以Kinect为代表的视觉传感器摆脱了可戴式设备不方便的问题，同时与静电信号相比，特征的获取更为直接且清晰。但另一方面，视觉获取的特征会因为周围环境的变化产生极大的干扰，明显地影响姿势识别的精度。

因此，需要采用更为精确、方便系统获取人体信息，同时也找到更为准确的分类架构对获取的特征进行识别分类。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于双向LSTM的复杂环境下实时人体姿势识别方法，可以实现在复杂环境下对人体姿势的准确识别。

为达到上述发明目的，本发明的构思是：

本发明利用OpenPose作为人体姿态估计模块，获取人体的二维关节点数据。根据数据缺失情况，判断人体是否处于遮挡状态。对于非遮挡情况，构建基于双向LSTM的分类器，将初始的二维关节点信息送入分类器获取非遮挡情况的人体姿势；对于遮挡状态，利用深度摄像机内参进行三维映射，构建躯干向量和关节角度，使用主成分分析对上述高维特征进行处理后送入分类器获取遮挡情况的人体姿势。实现了在复杂环境下的人体姿势识别。

根据上述构思，本发明采用如下技术方案：

一种基于双向LSTM的复杂环境下实时人体姿势识别方法，包括以下步骤：

步骤1：获取人体的二维关键点坐标P＝(p₀,p₁,…,p_l)，其中l为关键点的数量，p_i＝(u_i,v_i)，u_i,v_i分别是点i在x,y方向上的分量；

步骤2：构建基于双向LSTM的分类器；

步骤3：根据步骤1中获取的二维关键点缺失情况，判断当前是否处于遮挡情况；

步骤4：当处于非遮挡情况时，根据步骤1中获取的二维坐标P得到切割边界框后二维坐标

上标代表分割后的结果；

步骤5：当处于遮挡情况时，对二维坐标P进行高维数据处理；

步骤6：将步骤5中处理的特征向量送入步骤2中构建的分类器中得到遮挡情况下的人体姿势。

所述步骤1的具体步骤如下：

步骤1.1：使用视觉传感器获取视频流中的每一帧二维图像；

步骤1.2：将图像送入迁移学习后的OpenPose模块，得到人体关键点的二维坐标P。

所述步骤2的具体步骤如下：

步骤2.1：构建双向LSTM层；

步骤2.2：构建全连接层FL1与FL2；两者之间加入批量归一化层。

所述步骤4的具体步骤如下：

步骤4.1：根据P点生成边界框B，长与宽分别为B_w，B_h：

步骤4.2：根据边界框的结构，对原始特征向量进行处理，处理后每个关节点为

其中

步骤4.3：将点P^*作为特征向量送入步骤2构建的分类器中得到非遮挡情况下的人体姿势。

所述步骤5的具体步骤如下：

步骤5.1：标定彩色图像的内参，获取内参矩阵R：

其中f代表相机的焦距，f_x,f_y对应相机在u,v方向的尺度因子，c对应相机主点所在的位置，c_x,c_y代表c在u,v方向的映射；

步骤5.2：标定彩色摄像头与红外摄像头之间的外参，将彩色图像和与之对应的深度图像配准；深度图中的深度集为D：

D＝(d_1,1,…,d_i,j)

其中i∈(1,…,w)，j∈(1,…,h)，w,h分别代表彩色图像在x,y方向的分辨率；

步骤5.3：得到三维坐标点p_i：

p_i＝(x_i,y_i,z_i)

其中，x_i与y_i由得到的z_i与R的参数计算得出：

步骤5.4：根据三维坐标点构建躯干向量与角度特征；

将人体关节点人为划分为5个区域，分别标记为躯干、右臂、左臂、右腿、左腿；构成特征向量v：

v＝(v_b,v_ra,v_la,v_rl,v_ll)

下标代表了不同身体区域的缩写。以躯干向量v_b为例：

v_b＝(v_0,1,v_1,8,v_0,15,v_15,17,v_0,16,v_16,18)

对应的下标决定了组成该向量的关节的索引点以及向量的方向，以v_0,1为例：

v_b＝(v_0,1,v_1,8,v_0,15,v_15,17,v_0,16,v_16,18)

同时获取各区域空间平面的夹角，等同于各平面法向量夹角；例如躯干平面与右臂平面的夹角，需要得到这两平面的法向量；位于躯干平面的向量v_0,8,v_0,17，法向量为nv_b，类似的位于右臂平面的向量v_2,3,v_3,4，法向量为nv_ra：

其中

为v_0,8,v_0,17之间的夹角；

设定两平面法向量夹角为θ：

设定平面内夹角为α，其下标代表了组成该角度向量所需关键点的索引；如α₁₂₃代表了该夹角为向量v_1,2与v_2,3的夹角；

步骤5.5：使用主成分分析的方法对数据进行降维处理；

计算得到经处理后生成的数据矩阵的协方差矩阵X＝{x₁,x₂,…x_n}，其中x_i为第i维数据。

引入其散度矩阵S：

其中

表示所有x_i的均值：

对于X中的每一个特征向量减去这一均值得到崭新的数据集X_new，计算其协方差矩阵C：

其中

为X_new的转置；

对C进行SVD分解求得其特征值与特征向量：

C＝U·Λ·V

其中，矩阵U是由CC^T的特征值与特征向量单位化后得到，对C^TC进行同样操作得到矩阵V，对于上述两个矩阵的特征值求平方根，得到矩阵Λ；

选取特征值中最大的k个特征向量作为行向量组成新的特征矩阵P，最终将X_new转换到

得到降维后的特征向量：

与现有技术相比，本发明方法具有以下有益效果：

1.本发明使用以双向LSTM网络为基础的分类网络进行人体姿势的识别，取得了较传统机器学习以及神经网络的方法更高的准确率。

2.本发明在遮挡情况下对原始特征进行了高维数据处理，使得处理后数据送入分类器后在遮挡情况下取得了较传统机器学习方法更高的准确率。

附图说明

图1是本发明基于双向LSTM的复杂环境下实时人体姿势识别方法流程图。

图2获取的人体骨架信息示意图。

图3是对数据进行训练的流程图。

图4是本文分类器架构图。

图5是高维数据处理示意图。

图6是人体姿势识别的对比图。

具体实施方式

下面结合附图对本发明的具体实施例进行详细的描述。

本实施利用OpenPose框架获取人体的二维关键点信息，具体展示可见图4。本实施例中，所有的数据传输都依靠ROS操作系统，通过Kinect发布的Topic获取当前的RGB图像以及深度图像，并将获取的二维关键点信息通过服务的方式发出供其他模块调用。

如图1所示，一种基于双向LSTM的复杂环境下实时人体姿势识别方法，包括以下步骤：

步骤1：获取人体的二维关键点坐标P＝(p₀,p₁,…,p_l)，其中l为关键点的数量，p_i＝(u_i,v_i)；

步骤1.1：使用Kinect视觉传感器获取视频流中的每一帧二维图像；

步骤1.2：将图像送入迁移学习后的OpenPose模块，得到人体关键点的二维坐标P，如图2所示。

步骤2：构建基于双向LSTM的分类器，如图3所示；

步骤2.1：构建双向LSTM层，一方面增加了特征的时域属性，另一方面利用其遗忘门的结构特性防止了长时序特征训练过程中出现的梯度消失问题；

步骤2.2：构建全连接层FL1与FL2。前者包含了256个节点，后者包含了128个节点，两者之间加入批量归一化层来解决反向传播时底层神经网络的梯度消失问题；

步骤4.1：根据P点生成边界框B，长与宽分别为B_w，B_h：

其中

步骤4.3：将点P^*作为特征向量送入步骤2构建的分类器中得到非遮挡情况下的人体姿势，分类对比图见图6所示。

步骤5：当处于遮挡情况时，对P进行高维数据处理，增加其应对因遮挡而出现原始特征缺失的能力；

步骤5.1：标定彩色图像的内参，获取内参矩阵R：

D＝(d_1,1,…,d_i,j)

步骤5.3：得到三维坐标点p_i：

p_i＝(x_i,y_i,z_i)

其中，x_i与y_i由得到的z_i与R的参数计算得出：

步骤5.4：根据三维坐标点构建躯干向量与角度特征；如图5所示。

v＝(v_b,v_ra,v_la,v_rl,v_ll)

以躯干向量v_b为例：

v_b＝(v_0,1,v_1,8,v_0,15,v_15,17,v_0,16,v_16,18)

对应的下标决定了组成该向量的关节点以及向量的方向，以v_a,b为例：

v_a,b＝p_b-p_a＝(x_b-x_a,y_b-y_a,z_b-z_a)

其中a,b∈(1,…,N)，N代表了人体关节点的数目；

设定两平面法向量夹角为θ：

步骤5.5：使用主成分分析的方法对数据进行降维处理；

计算得到经处理后生成的数据矩阵的协方差矩阵X＝{x₁,x₁,…x_n}，引入其散度矩阵S：

其中

表示所有x_i的均值：

对C进行SVD分解求得其特征值与特征向量：

C＝U·Λ·V

得到降维后的特征向量：

Claims

1.一种基于双向LSTM的复杂环境下实时人体姿势识别方法，其特征在于，包括以下步骤：

步骤1：获取人体的二维关键点坐标P＝(p₀,p₁,…,p_l)，其中l为关键点的数量，p_i＝(u_i,v_i)，其中，u_i,v_i分别是点i在x,y方向上的分量；

步骤2：构建基于双向LSTM的分类器；

上标代表分割后的结果；

2.根据权利要求1所述的基于双向LSTM的复杂环境下实时人体姿势识别方法，其特征在于，所述步骤1的具体步骤如下：

步骤1.1：使用视觉传感器获取视频流中的每一帧二维图像；

3.根据权利要求1所述的基于双向LSTM的复杂环境下实时人体姿势识别方法，其特征在于，所述步骤2的具体步骤如下：

步骤2.1：构建双向LSTM层；

4.根据权利要求1所述的基于双向LSTM的复杂环境下实时人体姿势识别方法，其特征在于，所述步骤4的具体步骤如下：

步骤4.1：根据P点生成边界框B，长与宽分别为B_w，B_h：

其中

5.根据权利要求1所述的基于双向LSTM的复杂环境下实时人体姿势识别方法，其特征在于，所述步骤5的具体步骤如下：

步骤5.1：标定彩色图像的内参，获取内参矩阵R：

D＝(d_1,1,…,d_i,j)

步骤5.3：得到三维坐标点p_i：

p_i＝(x_i,y_i,z_i)

其中，x_i与y_i由得到的z_i与R的参数计算得出：

步骤5.4：根据三维坐标点构建躯干向量与角度特征；

v＝(v_b,v_ra,v_la,v_rl,v_ll)

下标代表了不同身体区域的缩写；以躯干向量v_b为例：

v_b＝(v_0,1,v_1,8,v_0,15,v_15,17,v_0,16,v_16,18)

对应的下标决定了组成该向量的关节点的索引以及向量的方向，以v_0,1为例：

v_0,1＝p₁-p₀＝(x₁-x₀,y₁-y₀,z₁-z₀)

其中

为v_0,8,v_0,17之间的夹角；

设定两平面法向量夹角为θ：

步骤5.5：使用主成分分析的方法对数据进行降维处理；

计算得到经处理后生成的数据矩阵的协方差矩阵X＝{x₁,x₂,…x_n}，其中x_i为第i维数据；引入其散度矩阵S：

其中

表示所有x_i的均值：

其中

为X_new的转置；

对C进行SVD分解求得其特征值与特征向量：

C＝U·Λ·V

得到降维后的特征向量：