CN112131928A

CN112131928A - 一种rgb-d图像特征融合的人体姿态实时估计方法

Info

Publication number: CN112131928A
Application number: CN202010771908.8A
Authority: CN
Inventors: 杨旭升; 王茜姿; 贾晓凌; 张文安
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-25
Anticipated expiration: 2040-08-04
Also published as: CN112131928B

Abstract

一种RGB‑D图像特征融合的人体姿态实时估计方法，该方法采用基于事件触发的方法以得到深度和彩色图像的人体姿态融合估计。本发明通过融合彩色和深度图像特征，有效地减少了对手持工具的误识别，提高了对光照变化的鲁棒性；同时，针对人体关节点运动建模困难的问题，利用BP神经网络进行人体关节点运动建模，降低了各关节点运动模型的不确定性，有效地提高了人体姿态估计的精确度和鲁棒性。

Description

一种RGB-D图像特征融合的人体姿态实时估计方法

技术领域

本发明属于人体姿态估计领域，尤其是一种RGB-D图像特征融合的人体姿态实时估计方法。

背景技术

人体姿态估计在人机交互、视频监视、辅助驾驶、医疗运动分析以及游戏体育等领域有着广泛的应用，尤其是在人机交互领域，人体姿态估计作为人体动作行为识别的基础，对机器人能否可以识别人类的行为动作，以及完成动作模仿或做出响应动作发挥至关重要的作用。

近年来，随着深度学习的崛起，基于彩色图像的人体姿态估计技术的研发已经从传统的目标跟踪方法转向基于深度学习的目标跟踪方法。利用卷积神经网络(CNN)方法可有效地从彩色图像中提取出2D人体姿态信息，而不需要事先建立人体运动模型以及特征表征。然而，由于单目相机具有一些固有的缺陷，如易受光照影响、缺少空间立体信息等，使得现有的方法很难从彩色图像中重建出3D人体姿态，且对环境的光照提出了较高的要求。随着深度传感器技术的发展，为人体姿态估计这一领域的发展提供了新的动力。深度传感器与单目视觉传感器之间具有良好的互补性，使用深度信息可便捷地实现背景分离，再利用随机森林等方法将各个关节进行分类，即可有效、快速地估计出3D人体姿态。然而，由于深度图像缺少纹理、色彩等图像特征，导致该方法可能将手持工具误识别为人体的一部分。目前，还没有技术能够鲁棒、实时地融合深度和彩色图像特征信息解决复杂作业场景下的人体姿态估计问题。

发明内容

为了克服基于深度图像的人体姿态估计方法存在的手持工具误识别以及基于彩色图像的人体姿态估计方法易受光照变化影响、鲁棒性差的缺点，本发明提供一种RGB-D图像特征融合的人体姿态实时估计方法；同时，利用BP神经网络进行人体关节点运动建模，降低了各关节点运动模型的不确定性，有效地提高了人体姿态估计的精确度和鲁棒性。

本发明解决其技术问题所采用的技术方案是：

一种RGB-D图像特征融合的人体姿态实时估计方法，所述方法包括以下步骤：

步骤1)获取人体姿态信息样本作为训练集，构建神经网络模型，以采样t-1时刻的人体关节点i的位置y_i,t-1作为网络的输入，t时刻的人体关节点i的位置y_i,t作为网络的期望输出，对神经网络进行训练，得到各关节点运动学模型的函数f_i(·)；

步骤2)建立人体各关节点在深度视觉传感器坐标系下的运动学模型，确定过程噪声w_i,k-1的协方差Q_i,k，以及建立基于彩色图像和深度图像的人体姿态量测模型，分别确定量测噪声

和

的协方差

和

步骤3)确定人体各关节点的初始状态值及其协方差

P_i,0|0；

步骤4)根据建立的运动学模型，计算各关节点的f_i(·)的雅克比矩阵以及状态预测值

及其协方差P_i,k|k-1；

步骤5)基于深度图像读取人体各关节点位置的量测值

若不满足触发条件，计算各关节点的卡尔曼滤波增益K_i,k，并计算得到状态估计值

及其协方差P_i,k|k，直接执行步骤4)进入k+1时刻的人体姿态估计；

步骤6)否则，等待直至获取基于彩色图像的人体各关节点位置的量测值

并进行量测更新，继而执行步骤4)进入k+1时刻的人体姿态估计；

执行步骤1)–6)，实现RGB-D图像特征融合的人体姿态实时估计。

进一步，在所述步骤1)中，所述的t＝1,2,3,...为采样离散时间序列；所述的i＝1,2，3，…,n，表示人体各关节点的序列，包括头部、肩部中心、左肩、右肩、左肘部、右肘部、左手腕、右手腕、左髋、右髋、左膝、右膝、左脚踝和右脚踝，n为人体姿态估计所需关节点的数目，共14个。

在所述步骤1)中，所述的神经网络为BP神经网络，采用反向传播算法的随机梯度下降进行神经网络训练。

在所述步骤2)中，所述的

为基于彩色图像的人体关节点i的量测噪声协方差；

为基于深度图像的人体关节点i的量测噪声协方差。

在所述步骤3)中，所述的人体各关节点的初始状态值为关节点i在深度传感器坐标系下x，y，z轴上的值，所述的

P_i,0|0为人体关节点i的初始位置信息及其协方差。

在所述步骤5)中，所述的事件触发需满足的条件为：

δ为事件触发的检测阈值。

在所述步骤6)中，获取基于彩色图像的人体各关节点位置的量测值的采样时间长于深度图像。

本发明的有益效果主要表现在：提供一种RGB-D图像特征融合的人体姿态实时估计方法。针对基于彩色图像的人体姿态估计检测周期长、实时性差、易受光照环境影响的问题，以及针对基于深度图像的人体姿态估计存在的误识别问题，采用基于事件触发的方法以得到深度和彩色图像的人体姿态融合估计，有效地减少了对手持工具的误识别，提高了对光照变化的鲁棒性；同时，针对人体关节点运动建模困难的问题，利用BP神经网络进行人体关节点运动建模，降低了各关节点运动模型的不确定性，有效地提高了人体姿态估计的精确度和鲁棒性。

附图说明

图1是用于描述人体姿态的骨骼关节点示意图，其中，0表示头部，1表示肩部中心，2表示左肩，3表示左肘部，4表示左手腕，5表示右肩，6表示右肘部，7表示右手腕，8表示左髋，9表示左膝，10表示左脚踝，11表示右髋，12表示右膝，13表示右脚踝。

图2是的人体姿态估计流程图。

图3是的人体姿态估计时序图。

具体实施方式

下面结合附图对本发明做进一步描述。

参照图1、图2和图3，一种RGB-D图像特征融合的人体姿态实时估计方法，所述方法包括以下步骤：

和

的协方差

和

步骤3)确定人体各关节点的初始状态值及其协方差

P_i,0|0；

及其协方差P_i,k|k-1；

步骤5)基于深度图像读取人体各关节点位置的量测值

如图1的人体骨骼关节点示意图所示，从彩色图像和深度图像获取的人体骨骼的14个关节点，包括头部、肩部中心、左肩、右肩、左肘部、右肘部、左手腕、右手腕、左髋、右髋、左膝、右膝、左脚踝和右脚踝。

人体姿态估计的流程图如图2所示。

以采样t-1时刻的人体关节点位置y_i,t-1作为网络的输入u_i,t，t时刻的人体关节点位置作为网络的期望输出y_i,t，通过对人体各关节点位置的样本进行神经网络训练，获取各关节点运动学模型的函数f_i(·)：

其中，i＝1,2,…,n为人体关节点的序号；t＝1,2…为采样的离散时间序列；

为采样t-1时刻关节点i的状态信息，

分别表示关节点i在深度传感器坐标系下x，y，z轴上的值，为神经网络的输入；

为神经网络输出的关节点i的状态信息，

分别表示关节点i在深度传感器坐标系下x，y，z轴上的值；f_i(u_it,W_i,b_i)为训练好的神经网络函数；

为第l层的激活函数；W_i ^(l)和b_i ^(l)为第l层的权重；神经网络共L层。

建立人体关节点的运动学模型和基于彩色图像和深度图像的量测模型如下：

x_i,k＝f_i(x_i,k-1)+w_i,k-1 (2)

其中，k＝1,2,…为离散时间序列；

为关节点i的状态信息，

分别表示关节点i在深度传感器坐标系下x，y，z轴上的值；f_i(·)为关节点i从k-1到k时刻的状态转移函数,为神经网络训练后各关节点运动学模型的函数；w_i,k-1是均值为0且协方差为Q_i,k的高斯白噪声。

为关节点i从彩色图像中获取的量测信息，

分别表示关节点i转换到深度传感器坐标系下的x，y，z轴上的值；

为关节点i从深度图像中获取的量测信息，

分别表示关节点i在深度传感器坐标系下x，y，z轴上的值；

和

分别是均值为0且协方差为

和

的高斯白噪声。

采用融合彩色和深度图像特征的人体姿态实时估计方法。首先，确定人体关节点的初始状态值及其协方差

P_i,0|0；其次，根据公式(5)-(7)计算各关节点的f_i(·)的雅克比矩阵，状态预测值

及其协方差P_i,k|k-1；

P_i,k|k-1＝ΦP_i,k-1|k-1Φ^T+Q_i,k (7)

然后，读取基于深度图像的人体各关节点位置的量测值

并根据公式(8)进行事件触发检测

其中，δ为事件触发的检测阈值。若公式(8)不成立，根据(9)-(11)，计算深度图像下各关节点的卡尔曼滤波增益

状态估计值

及其协方差P_i,k|k，并跳至步骤4)，进行下一时刻的人体姿态估计

当公式(8)成立时，等待直至读取基于彩色图像的人体各关节点位置的量测值

根据公式(12)-(14)计算各关节点的卡尔曼滤波增益

状态估计值

及其协方差P_i,k|k：

执行上述步骤，实现RGB-D图像特征融合的人体姿态实时估计。

Claims

1.一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：所述方法包括以下步骤：

和

的协方差

和

步骤3)确定人体各关节点的初始状态值及其协方差

P_i,0|0；

及其协方差P_i,k|k-1；

步骤5)基于深度图像读取人体各关节点位置的量测值

2.如权利要求1所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：在所述步骤1)中，所述的t＝1,2,…为采样离散时间序列；所述的i＝1,2,…,n，表示人体各关节点的序列，包括头部、肩部中心、左肩、右肩、左肘部、右肘部、左手腕、右手腕、左髋、右髋、左膝、右膝、左脚踝和右脚踝，n为人体姿态估计所需关节点的数目，共14个。

3.如权利要求1或2所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：在所述步骤1)中，所述的神经网络为BP神经网络，采用反向传播算法的随机梯度下降进行神经网络训练。

4.如权利要求1或2所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：在所述步骤2)中，所述的

为基于彩色图像的人体关节点i的量测噪声协方差；

为基于深度图像的人体关节点i的量测噪声协方差。

5.如权利要求1或2所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：在所述步骤3)中，所述的人体各关节点的初始状态值为关节点i在深度传感器坐标系下x，y，z轴上的值，所述的

P_i,0|0为人体关节点i的初始位置信息及其协方差。

6.如权利要求1或2所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：在所述步骤5)中，所述的事件触发需满足的条件为：

δ为事件触发的检测阈值。

7.如权利要求1或2所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：在所述步骤6)中，获取基于彩色图像的人体各关节点位置的量测值的采样时间长于深度图像。

8.如权利要求1或2所述的一种RGB-D图像特征融合的人体姿态实时估计方法，其特征在于：所述步骤1)中，以采样t-1时刻的人体关节点位置y_i,t-1作为网络的输入u_i,t，t时刻的人体关节点位置作为网络的期望输出y_i,t，通过对人体各关节点位置的样本进行神经网络训练，获取各关节点运动学模型的函数f_i(·)：