CN114663982A

CN114663982A - 一种基于多特征融合的人手轨迹预测与意图识别方法

Info

Publication number: CN114663982A
Application number: CN202210425154.XA
Authority: CN
Inventors: 李智勇; 甘毅辉; 陈文锐
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-06-24

Abstract

本发明公开了一种基于多特征融合的人手轨迹预测与意图识别方法，包括获取人的脸部和肩部关键点数据；获取手掌轨迹数据；将人的脸部和肩部关键点数据输入支持向量机，得到人脸朝向模态信息；将手掌轨迹数据序列输入到SG滤波器，消除轨迹数据波动，得到平滑的轨迹数据；将两种模态信息进行平行融合，得到多模态融合信息；输入到LSTM网络中，输出手掌的预测轨迹。本发明利用部分人脸部关键点提取人脸朝向特征，进一步将人脸朝向特征与人手臂轨迹数据融合，预测人手臂在空间中的移动轨迹和人手臂最终到达位置，高效准确的预测到了移动轨迹。

Description

一种基于多特征融合的人手轨迹预测与意图识别方法

技术领域

本发明属于视觉识别领域，具体涉及一种基于多特征融合的人手轨迹预测与意图识别方法。

背景技术

由于人的行为具有非线性、随机性以及外界和内部刺激的多样性，很难对人的运动进行准确的预测；然而，对于流水线上的工人来说，他们的运动行为主要是由任务目标和零件布局驱动的，利用这些上下文信息可以很好地进行预测。但是工作环境可能相对复杂，或者安装零件和工具的分布可能比较杂乱无序，只靠识别、预测人手位置轨迹往往是不够的。例如在安装场景中，工人为了拾取距离较远的零件通常会挺起身子或者站立起来，手臂的起始位置也相对比较高，手部行程也比较远；同样的，工人为了拾取距离较近的零件则只需要抬手抓取；这两类零件的抓取行为(动作和行程)完全不同，仅用手臂位置进行轨迹预测将导致效率的不稳定。

发明内容

本发明的目的在于提供一种基于多特征融合的人手轨迹预测与意图识别方法，该方法预测轨迹高效准确。

本发明提供的这种基于多特征融合的人手轨迹预测与意图识别方法，包括如下步骤：

S1.获取人的脸部和肩部关键点数据；获取手掌轨迹数据；

S2.将人的脸部和肩部关键点数据输入支持向量机，得到人脸朝向模态信息；将手掌轨迹数据序列输入到SG滤波器，消除轨迹数据波动，得到平滑的轨迹数据；

S3.将两种模态信息进行平行融合，得到多模态融合信息；

S4.输入到LSTM网络中，输出手掌的预测轨迹。

所述的步骤S1，包括利用相机采集包含人脸部关键点的图片信息；利用openpose算法识别出关键点在图片中的像素位置，关键点包括肩中P1、左眼P2 和右眼P3；用(Pi_pix-x,Pi_pix-y)表示关键点在图片像素中的位置，其中，i＝1时表示肩中在图片像素中的位置；i＝2表示左眼在图片像素中的位置；i＝3表示右眼在图片像素中的位置；从相机的深度通道信息中读取该像素点的深度值 Pi_dep，i＝1,2,3；

使用aruco标识码定位技术，将aruco标识码粘贴在人的手掌上，相机采样频率为一秒钟十次，具体包括：

当手掌进入设定起始线范围内，开始存储手掌位置，同时识别并存储关键点在图片像素中的位置(Pi_pix-x,Pi_pix-y)和像素点的深度值Pi_dep；相机进行K次采样，存储K个不同的手掌三维位置数据(t₁,...,t_k,...,t_K)，t_k表示第k个手掌三维位置数据，记为T＝(t₁,...,t_k,...,t_K)，T为K个不同的手掌三维位置数据集合：

其中，x_k表示第k个手掌三维位置数据在图片像素中的位置的横坐标；y_k表示第k个手掌三维位置数据在图片像素中的位置的纵坐标；z_k表示第k个手掌三维位置数据的像素点的深度值。

所述的步骤S2，包括：将像素位置的二维数据和深度以为数据合并为一个三维异构空间O，该三维异构空间的x轴在数值上等于关键点在图片像素中的位置的横坐标Pi_pix-x，三维异构空间的y轴在数值上等于关键点在图片像素中的位置的纵坐标Pi_pix-y，三维异构空间的z轴在数值上等于Pi_dep，从而将肩中P1映射到三维异构空间O得到肩中映射点O₁，将左眼P2映射到三维异构空间O得到左眼映射点O₂，右眼P3映射到三维异构空间O得到右眼映射点O₃；因此，关键点的坐标O_i为，O_i＝(Pi_pix-x,Pi_pix-y,Pi_dep)，进一步，得到三点组成平面的法向量V，将人脸朝向划分为由远、中、近三类构成的分类空间，记为： C＝(c_θ,c_β,c_γ)，其中，C表示分类空间集合；c_θ表示远分类空间；c_β表示中分类空间；c_γ表示近分类空间；再将法向量V输入到训练好的支持向量机SVM中，得到法向量V和分类空间集合C之间的映射关系：C＝SVM(V)，分类空间中数值最大的类别为人脸朝向分类模态信息S，S＝argmax(C)，argmax(·)表示选取集合C中最大值元素的操作；

将X输入到SG滤波器进行消抖去噪处理，得到去噪的轨迹数据 T'＝(t'₁,...,t'_k,...,t'_K)；t'_k表示去噪后第k个手掌三维位置数据，K表示不同的手掌三维位置数据的总数。

所述的步骤S3，包括将两种模态信息平行融合，具体为将轨迹数据中每一个坐标与人脸朝向分类模态信息S进行连接，形成多模态信息M；

其中，t'_k表示去噪后第k个手掌三维位置数据，K表示不同的手掌三维位置数据的总数；x'_k表示去噪后第k个手掌三维位置数据在图片像素中的位置的横坐标；y'_k表示去噪后第k个手掌三维位置数据在图片像素中的位置的纵坐标； z'_k表示去噪后第k个手掌三维位置数据的像素点的深度值。

所述的步骤S4，包括建立LSTM网络，LSTM网络的隐藏层数为2，隐藏层单元数为16；将多模态信息M输入到LSTM网络中，LSTM网络输出为M'：

其中，N表示未来手掌的设定位置坐标总数；m_n表示未来手掌的第n个位置坐标，设置观察序列百分比α：α＝30/(30+N)*100％；通过调整LSTM网络输出M'的N值，调整观察序列百分比α的大小；从而得到不同的预测人手轨迹的LSTM网络，并对人手移动轨迹进行预测。

本发明提供的这种基于多特征融合的人手轨迹预测与意图识别方法，利用部分人脸部关键点提取人脸朝向特征，进一步将人脸朝向特征与人手臂轨迹数据融合，预测人手臂在空间中的移动轨迹和人手臂最终到达位置，高效准确的预测到了移动轨迹。

附图说明

图1为本发明方法的流程示意图。

图2为本发明方法的关键点位置示意图。

图3为本发明方法的手掌轨迹示意图。

图4为本发明方法的LSTM网络结构示意图。

图5为本发明实施例模型训练的损失示意图。

具体实施方式

如图1为本发明方法的流程示意图：本发明提供的这种基于多特征融合的人手轨迹预测与意图识别方法，包括如下步骤：

S1.获取人的脸部和肩部关键点数据；获取手掌轨迹数据；

S2.将人的脸部和肩部关键点数据输入支持向量机(SVM)，得到人脸朝向模态信息；将手掌轨迹数据序列输入到Savitzky-Golay滤波器(SG滤波器)，消除轨迹数据波动，得到平滑的轨迹数据；

S3.将两种模态信息进行平行融合，得到多模态融合信息；

S4.输入到LSTM(Long Short-Term Memory,长短期记忆)网络中，输出手掌的预测轨迹。

如图2为本发明方法的关键点位置示意图。所述的步骤S1，包括利用IntelRealSenseD415型深度相机采集包含人脸部关键点的图片信息；进一步利用 openpose算法识别出关键点在图片中的像素位置，关键点包括肩中P1、左眼P2 和右眼P3；如图2所示，用(Pi_pix-x,Pi_pix-y)表示关键点在图片像素中的位置，其中，i＝1时表示肩中在图片像素中的位置；i＝2表示左眼在图片像素中的位置； i＝3表示右眼在图片像素中的位置；再从相机的深度通道信息中读取该像素点的深度值，记为Pi_dep，i＝1,2,3；

在收集手掌轨迹方面，使用aruco标识码定位技术，将aruco标识码粘贴在人的手掌上，相机采样频率为一秒钟十次，具体包括：

如图3为本发明方法的手掌轨迹示意图。当手掌进入如图3所示的起始线范围内，开始存储手掌位置，同时识别并存储关键点在图片像素中的位置 (Pi_pix-x,Pi_pix-y)和像素点的深度值Pi_dep；相机按照一秒钟十次的采样频率进行K 次采样，在本实施例中为30次采样，存储K个不同的手掌三维位置数据 (t₁,...,t_k,...,t_K)，t_k表示第k个手掌三维位置数据，记为T＝(t₁,...,t_k,...,t_K)，T为 K个不同的手掌三维位置数据集合：

将X输入到SG滤波器进行消抖去噪处理，SG滤波器可以采用python的scipy库构建，得到去噪的轨迹数据T'＝(t'₁,...,t'_k,...,t'_K)；t'_k表示去噪后第k个手掌三维位置数据，K表示不同的手掌三维位置数据的总数。

如图4为本发明方法的LSTM网络结构示意图。所述的步骤S4，包括建立 LSTM网络，LSTM网络为一种特殊的循环神经网络，它的提出主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。LSTM网络结构如图4所示， LSTM网络的隐藏层数为2，隐藏层单元数为16；将多模态信息M输入到LSTM 网络中，LSTM网络输出为M'：

其中，N表示未来手掌的设定位置坐标总数；m_n表示未来手掌的第n个位置坐标，设置输入行数和输入输出总行数的比值为观察序列百分比α：α＝30/(30+N)*100％；实验中可以通过调整LSTM网络输出为M'的N值，调整A的大小；从而得到不同的预测人手轨迹的LSTM网络，并对人手移动轨迹进行预测。

在本实施例中，初始学习率0.01，使用StepLR进行动态调整学习率，调整率为0.8，跨步为40，应用Adam优化算法不断更新网络的权重，损失函数为MSELoss，最大训练迭代次数为1000。本发明分别对α＝50％，62.5％，75％， 87.5％四种情况进行了实验。如图5为本发明实施例模型训练的损失示意图。可以看到模型均稳定收敛，且随着α值的提高，模型收敛效果越好。

本发明利用RNN网络(Recurrent Neural Network，循环神经网络)作为对比，采用三种指标来测试模型效果：ADE为预测轨迹到真实轨迹n个点之间的平均距离差；FDE为预测轨迹终点与真实值之间的距离；FDE2D为预测出来的轨迹终点与真实值线段投影到装配平面上的距离；

表1

表1为本发明实施例模型测试结果。可以看出，本发明的LSTM网络的ADE 指标要普遍优于现有RNN网络；从可观察动作序列占比50％中提高了 32.2％，到可观察动作序列占比87.5％中提高了7.2％；随着可观察序列的增加，两种模型的效果之间的差距在缩小，这也从侧面反映出，只要可观察动作序列足够多，对于未来轨迹的预测结果就更加贴近真实值。

Claims

1.一种基于多特征融合的人手轨迹预测与意图识别方法，其特征在于包括如下步骤：

S1.获取人的脸部和肩部关键点数据；获取手掌轨迹数据；

S3.将两种模态信息进行平行融合，得到多模态融合信息；

S4.输入到LSTM网络中，输出手掌的预测轨迹。

2.根据权利要求1所述的基于多特征融合的人手轨迹预测与意图识别方法，其特征在于所述的步骤S1，包括利用相机采集包含人脸部关键点的图片信息；利用openpose算法识别出关键点在图片中的像素位置，关键点包括肩中P1、左眼P2和右眼P3；用(Pi_pix-x,Pi_pix-y)表示关键点在图片像素中的位置，其中，i＝1时表示肩中在图片像素中的位置；i＝2表示左眼在图片像素中的位置；i＝3表示右眼在图片像素中的位置；从相机的深度通道信息中读取该像素点的深度值Pi_dep，i＝1,2,3；

3.根据权利要求2所述的基于多特征融合的人手轨迹预测与意图识别方法，其特征在于所述的步骤S2，包括：将像素位置的二维数据和深度以为数据合并为一个三维异构空间O，该三维异构空间的x轴在数值上等于关键点在图片像素中的位置的横坐标Pi_pix-x，三维异构空间的y轴在数值上等于关键点在图片像素中的位置的纵坐标Pi_pix-y，三维异构空间的z轴在数值上等于Pi_dep，从而将肩中P1映射到三维异构空间O得到肩中映射点O₁，将左眼P2映射到三维异构空间O得到左眼映射点O₂，右眼P3映射到三维异构空间O得到右眼映射点O₃；因此，关键点的坐标O_i为，O_i＝(Pi_pix-x,Pi_pix-y,Pi_dep)，进一步，得到三点组成平面的法向量V，将人脸朝向划分为由远、中、近三类构成的分类空间，记为：C＝(c_θ,c_β,c_γ)，其中，C表示分类空间集合；c_θ表示远分类空间；c_β表示中分类空间；c_γ表示近分类空间；再将法向量V输入到训练好的支持向量机SVM中，得到法向量V和分类空间集合C之间的映射关系：C＝SVM(V)，分类空间中数值最大的类别为人脸朝向分类模态信息S，S＝argmax(C)，argmax(·)表示选取集合C中最大值元素的操作；

将X输入到SG滤波器进行消抖去噪处理，得到去噪的轨迹数据T'＝(t'₁,...,t'_k,...,t'_K)；t'_k表示去噪后第k个手掌三维位置数据，K表示不同的手掌三维位置数据的总数。

4.根据权利要求3所述的基于多特征融合的人手轨迹预测与意图识别方法，其特征在于所述的步骤S3，包括将两种模态信息平行融合，具体为将轨迹数据中每一个坐标与人脸朝向分类模态信息S进行连接，形成多模态信息M；

其中，t'_k表示去噪后第k个手掌三维位置数据，K表示不同的手掌三维位置数据的总数；x'_k表示去噪后第k个手掌三维位置数据在图片像素中的位置的横坐标；y'_k表示去噪后第k个手掌三维位置数据在图片像素中的位置的纵坐标；z'_k表示去噪后第k个手掌三维位置数据的像素点的深度值。

5.根据权利要求4所述的基于多特征融合的人手轨迹预测与意图识别方法，其特征在于所述的步骤S4，包括建立LSTM网络，LSTM网络的隐藏层数为2，隐藏层单元数为16；将多模态信息M输入到LSTM网络中，LSTM网络输出为M'：