CN114663982A - 一种基于多特征融合的人手轨迹预测与意图识别方法 - Google Patents
一种基于多特征融合的人手轨迹预测与意图识别方法 Download PDFInfo
- Publication number
- CN114663982A CN114663982A CN202210425154.XA CN202210425154A CN114663982A CN 114663982 A CN114663982 A CN 114663982A CN 202210425154 A CN202210425154 A CN 202210425154A CN 114663982 A CN114663982 A CN 114663982A
- Authority
- CN
- China
- Prior art keywords
- palm
- data
- dimensional
- representing
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多特征融合的人手轨迹预测与意图识别方法,包括获取人的脸部和肩部关键点数据;获取手掌轨迹数据;将人的脸部和肩部关键点数据输入支持向量机,得到人脸朝向模态信息;将手掌轨迹数据序列输入到SG滤波器,消除轨迹数据波动,得到平滑的轨迹数据;将两种模态信息进行平行融合,得到多模态融合信息;输入到LSTM网络中,输出手掌的预测轨迹。本发明利用部分人脸部关键点提取人脸朝向特征,进一步将人脸朝向特征与人手臂轨迹数据融合,预测人手臂在空间中的移动轨迹和人手臂最终到达位置,高效准确的预测到了移动轨迹。
Description
技术领域
本发明属于视觉识别领域,具体涉及一种基于多特征融合的人手轨迹预测与意图识别方法。
背景技术
由于人的行为具有非线性、随机性以及外界和内部刺激的多样性,很难对人的运动进行准确的预测;然而,对于流水线上的工人来说,他们的运动行为主要是由任务目标和零件布局驱动的,利用这些上下文信息可以很好地进行预测。但是工作环境可能相对复杂,或者安装零件和工具的分布可能比较杂乱无序,只靠识别、预测人手位置轨迹往往是不够的。例如在安装场景中,工人为了拾取距离较远的零件通常会挺起身子或者站立起来,手臂的起始位置也相对比较高,手部行程也比较远;同样的,工人为了拾取距离较近的零件则只需要抬手抓取;这两类零件的抓取行为(动作和行程)完全不同,仅用手臂位置进行轨迹预测将导致效率的不稳定。
发明内容
本发明的目的在于提供一种基于多特征融合的人手轨迹预测与意图识别方法,该方法预测轨迹高效准确。
本发明提供的这种基于多特征融合的人手轨迹预测与意图识别方法,包括如下步骤:
S1.获取人的脸部和肩部关键点数据;获取手掌轨迹数据;
S2.将人的脸部和肩部关键点数据输入支持向量机,得到人脸朝向模态信息;将手掌轨迹数据序列输入到SG滤波器,消除轨迹数据波动,得到平滑的轨迹数据;
S3.将两种模态信息进行平行融合,得到多模态融合信息;
S4.输入到LSTM网络中,输出手掌的预测轨迹。
所述的步骤S1,包括利用相机采集包含人脸部关键点的图片信息;利用openpose算法识别出关键点在图片中的像素位置,关键点包括肩中P1、左眼P2 和右眼P3;用(Pipix-x,Pipix-y)表示关键点在图片像素中的位置,其中,i=1时表示肩中在图片像素中的位置;i=2表示左眼在图片像素中的位置;i=3表示右眼在图片像素中的位置;从相机的深度通道信息中读取该像素点的深度值 Pidep,i=1,2,3;
使用aruco标识码定位技术,将aruco标识码粘贴在人的手掌上,相机采样频率为一秒钟十次,具体包括:
当手掌进入设定起始线范围内,开始存储手掌位置,同时识别并存储关键点在图片像素中的位置(Pipix-x,Pipix-y)和像素点的深度值Pidep;相机进行K次采样,存储K个不同的手掌三维位置数据(t1,...,tk,...,tK),tk表示第k个手掌三维位置数据,记为T=(t1,...,tk,...,tK),T为K个不同的手掌三维位置数据集合:
其中,xk表示第k个手掌三维位置数据在图片像素中的位置的横坐标;yk表示第k个手掌三维位置数据在图片像素中的位置的纵坐标;zk表示第k个手掌三维位置数据的像素点的深度值。
所述的步骤S2,包括:将像素位置的二维数据和深度以为数据合并为一个三维异构空间O,该三维异构空间的x轴在数值上等于关键点在图片像素中的位置的横坐标Pipix-x,三维异构空间的y轴在数值上等于关键点在图片像素中的位置的纵坐标Pipix-y,三维异构空间的z轴在数值上等于Pidep,从而将肩中P1映射到三维异构空间O得到肩中映射点O1,将左眼P2映射到三维异构空间O得到左眼映射点O2,右眼P3映射到三维异构空间O得到右眼映射点O3;因此,关键点的坐标Oi为,Oi=(Pipix-x,Pipix-y,Pidep),进一步,得到三点组成平面的法向量V,将人脸朝向划分为由远、中、近三类构成的分类空间,记为: C=(cθ,cβ,cγ),其中,C表示分类空间集合;cθ表示远分类空间;cβ表示中分类空间;cγ表示近分类空间;再将法向量V输入到训练好的支持向量机SVM中,得到法向量V和分类空间集合C之间的映射关系:C=SVM(V),分类空间中数值最大的类别为人脸朝向分类模态信息S,S=argmax(C),argmax(·)表示选取集合C中最大值元素的操作;
将X输入到SG滤波器进行消抖去噪处理,得到去噪的轨迹数据 T'=(t'1,...,t'k,...,t'K);t'k表示去噪后第k个手掌三维位置数据,K表示不同的手掌三维位置数据的总数。
所述的步骤S3,包括将两种模态信息平行融合,具体为将轨迹数据中每一个坐标与人脸朝向分类模态信息S进行连接,形成多模态信息M;
其中,t'k表示去噪后第k个手掌三维位置数据,K表示不同的手掌三维位置数据的总数;x'k表示去噪后第k个手掌三维位置数据在图片像素中的位置的横坐标;y'k表示去噪后第k个手掌三维位置数据在图片像素中的位置的纵坐标; z'k表示去噪后第k个手掌三维位置数据的像素点的深度值。
所述的步骤S4,包括建立LSTM网络,LSTM网络的隐藏层数为2,隐藏层单元数为16;将多模态信息M输入到LSTM网络中,LSTM网络输出为M':
其中,N表示未来手掌的设定位置坐标总数;mn表示未来手掌的第n个位置坐标,设置观察序列百分比α:α=30/(30+N)*100%;通过调整LSTM网络输出M'的N值,调整观察序列百分比α的大小;从而得到不同的预测人手轨迹的LSTM网络,并对人手移动轨迹进行预测。
本发明提供的这种基于多特征融合的人手轨迹预测与意图识别方法,利用部分人脸部关键点提取人脸朝向特征,进一步将人脸朝向特征与人手臂轨迹数据融合,预测人手臂在空间中的移动轨迹和人手臂最终到达位置,高效准确的预测到了移动轨迹。
附图说明
图1为本发明方法的流程示意图。
图2为本发明方法的关键点位置示意图。
图3为本发明方法的手掌轨迹示意图。
图4为本发明方法的LSTM网络结构示意图。
图5为本发明实施例模型训练的损失示意图。
具体实施方式
如图1为本发明方法的流程示意图:本发明提供的这种基于多特征融合的人手轨迹预测与意图识别方法,包括如下步骤:
S1.获取人的脸部和肩部关键点数据;获取手掌轨迹数据;
S2.将人的脸部和肩部关键点数据输入支持向量机(SVM),得到人脸朝向模态信息;将手掌轨迹数据序列输入到Savitzky-Golay滤波器(SG滤波器),消除轨迹数据波动,得到平滑的轨迹数据;
S3.将两种模态信息进行平行融合,得到多模态融合信息;
S4.输入到LSTM(Long Short-Term Memory,长短期记忆)网络中,输出手掌的预测轨迹。
如图2为本发明方法的关键点位置示意图。所述的步骤S1,包括利用IntelRealSenseD415型深度相机采集包含人脸部关键点的图片信息;进一步利用 openpose算法识别出关键点在图片中的像素位置,关键点包括肩中P1、左眼P2 和右眼P3;如图2所示,用(Pipix-x,Pipix-y)表示关键点在图片像素中的位置,其中,i=1时表示肩中在图片像素中的位置;i=2表示左眼在图片像素中的位置; i=3表示右眼在图片像素中的位置;再从相机的深度通道信息中读取该像素点的深度值,记为Pidep,i=1,2,3;
在收集手掌轨迹方面,使用aruco标识码定位技术,将aruco标识码粘贴在人的手掌上,相机采样频率为一秒钟十次,具体包括:
如图3为本发明方法的手掌轨迹示意图。当手掌进入如图3所示的起始线范围内,开始存储手掌位置,同时识别并存储关键点在图片像素中的位置 (Pipix-x,Pipix-y)和像素点的深度值Pidep;相机按照一秒钟十次的采样频率进行K 次采样,在本实施例中为30次采样,存储K个不同的手掌三维位置数据 (t1,...,tk,...,tK),tk表示第k个手掌三维位置数据,记为T=(t1,...,tk,...,tK),T为 K个不同的手掌三维位置数据集合:
其中,xk表示第k个手掌三维位置数据在图片像素中的位置的横坐标;yk表示第k个手掌三维位置数据在图片像素中的位置的纵坐标;zk表示第k个手掌三维位置数据的像素点的深度值。
所述的步骤S2,包括:将像素位置的二维数据和深度以为数据合并为一个三维异构空间O,该三维异构空间的x轴在数值上等于关键点在图片像素中的位置的横坐标Pipix-x,三维异构空间的y轴在数值上等于关键点在图片像素中的位置的纵坐标Pipix-y,三维异构空间的z轴在数值上等于Pidep,从而将肩中P1映射到三维异构空间O得到肩中映射点O1,将左眼P2映射到三维异构空间O得到左眼映射点O2,右眼P3映射到三维异构空间O得到右眼映射点O3;因此,关键点的坐标Oi为,Oi=(Pipix-x,Pipix-y,Pidep),进一步,得到三点组成平面的法向量V,将人脸朝向划分为由远、中、近三类构成的分类空间,记为: C=(cθ,cβ,cγ),其中,C表示分类空间集合;cθ表示远分类空间;cβ表示中分类空间;cγ表示近分类空间;再将法向量V输入到训练好的支持向量机SVM中,得到法向量V和分类空间集合C之间的映射关系:C=SVM(V),分类空间中数值最大的类别为人脸朝向分类模态信息S,S=argmax(C),argmax(·)表示选取集合C中最大值元素的操作;
将X输入到SG滤波器进行消抖去噪处理,SG滤波器可以采用python的scipy库构建,得到去噪的轨迹数据T'=(t'1,...,t'k,...,t'K);t'k表示去噪后第k个手掌三维位置数据,K表示不同的手掌三维位置数据的总数。
所述的步骤S3,包括将两种模态信息平行融合,具体为将轨迹数据中每一个坐标与人脸朝向分类模态信息S进行连接,形成多模态信息M;
其中,t'k表示去噪后第k个手掌三维位置数据,K表示不同的手掌三维位置数据的总数;x'k表示去噪后第k个手掌三维位置数据在图片像素中的位置的横坐标;y'k表示去噪后第k个手掌三维位置数据在图片像素中的位置的纵坐标; z'k表示去噪后第k个手掌三维位置数据的像素点的深度值。
如图4为本发明方法的LSTM网络结构示意图。所述的步骤S4,包括建立 LSTM网络,LSTM网络为一种特殊的循环神经网络,它的提出主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。LSTM网络结构如图4所示, LSTM网络的隐藏层数为2,隐藏层单元数为16;将多模态信息M输入到LSTM 网络中,LSTM网络输出为M':
其中,N表示未来手掌的设定位置坐标总数;mn表示未来手掌的第n个位置坐标,设置输入行数和输入输出总行数的比值为观察序列百分比α:α=30/(30+N)*100%;实验中可以通过调整LSTM网络输出为M'的N值,调整A的大小;从而得到不同的预测人手轨迹的LSTM网络,并对人手移动轨迹进行预测。
在本实施例中,初始学习率0.01,使用StepLR进行动态调整学习率,调整率为0.8,跨步为40,应用Adam优化算法不断更新网络的权重,损失函数为MSELoss,最大训练迭代次数为1000。本发明分别对α=50%,62.5%,75%, 87.5%四种情况进行了实验。如图5为本发明实施例模型训练的损失示意图。可以看到模型均稳定收敛,且随着α值的提高,模型收敛效果越好。
本发明利用RNN网络(Recurrent Neural Network,循环神经网络)作为对比,采用三种指标来测试模型效果:ADE为预测轨迹到真实轨迹n个点之间的平均距离差;FDE为预测轨迹终点与真实值之间的距离;FDE2D为预测出来的轨迹终点与真实值线段投影到装配平面上的距离;
表1
表1为本发明实施例模型测试结果。可以看出,本发明的LSTM网络的ADE 指标要普遍优于现有RNN网络;从可观察动作序列占比50%中提高了 32.2%,到可观察动作序列占比87.5%中提高了7.2%;随着可观察序列的增加,两种模型的效果之间的差距在缩小,这也从侧面反映出,只要可观察动作序列足够多,对于未来轨迹的预测结果就更加贴近真实值。
Claims (5)
1.一种基于多特征融合的人手轨迹预测与意图识别方法,其特征在于包括如下步骤:
S1.获取人的脸部和肩部关键点数据;获取手掌轨迹数据;
S2.将人的脸部和肩部关键点数据输入支持向量机,得到人脸朝向模态信息;将手掌轨迹数据序列输入到SG滤波器,消除轨迹数据波动,得到平滑的轨迹数据;
S3.将两种模态信息进行平行融合,得到多模态融合信息;
S4.输入到LSTM网络中,输出手掌的预测轨迹。
2.根据权利要求1所述的基于多特征融合的人手轨迹预测与意图识别方法,其特征在于所述的步骤S1,包括利用相机采集包含人脸部关键点的图片信息;利用openpose算法识别出关键点在图片中的像素位置,关键点包括肩中P1、左眼P2和右眼P3;用(Pipix-x,Pipix-y)表示关键点在图片像素中的位置,其中,i=1时表示肩中在图片像素中的位置;i=2表示左眼在图片像素中的位置;i=3表示右眼在图片像素中的位置;从相机的深度通道信息中读取该像素点的深度值Pidep,i=1,2,3;
使用aruco标识码定位技术,将aruco标识码粘贴在人的手掌上,相机采样频率为一秒钟十次,具体包括:
当手掌进入设定起始线范围内,开始存储手掌位置,同时识别并存储关键点在图片像素中的位置(Pipix-x,Pipix-y)和像素点的深度值Pidep;相机进行K次采样,存储K个不同的手掌三维位置数据(t1,...,tk,...,tK),tk表示第k个手掌三维位置数据,记为T=(t1,...,tk,...,tK),T为K个不同的手掌三维位置数据集合:
其中,xk表示第k个手掌三维位置数据在图片像素中的位置的横坐标;yk表示第k个手掌三维位置数据在图片像素中的位置的纵坐标;zk表示第k个手掌三维位置数据的像素点的深度值。
3.根据权利要求2所述的基于多特征融合的人手轨迹预测与意图识别方法,其特征在于所述的步骤S2,包括:将像素位置的二维数据和深度以为数据合并为一个三维异构空间O,该三维异构空间的x轴在数值上等于关键点在图片像素中的位置的横坐标Pipix-x,三维异构空间的y轴在数值上等于关键点在图片像素中的位置的纵坐标Pipix-y,三维异构空间的z轴在数值上等于Pidep,从而将肩中P1映射到三维异构空间O得到肩中映射点O1,将左眼P2映射到三维异构空间O得到左眼映射点O2,右眼P3映射到三维异构空间O得到右眼映射点O3;因此,关键点的坐标Oi为,Oi=(Pipix-x,Pipix-y,Pidep),进一步,得到三点组成平面的法向量V,将人脸朝向划分为由远、中、近三类构成的分类空间,记为:C=(cθ,cβ,cγ),其中,C表示分类空间集合;cθ表示远分类空间;cβ表示中分类空间;cγ表示近分类空间;再将法向量V输入到训练好的支持向量机SVM中,得到法向量V和分类空间集合C之间的映射关系:C=SVM(V),分类空间中数值最大的类别为人脸朝向分类模态信息S,S=argmax(C),argmax(·)表示选取集合C中最大值元素的操作;
将X输入到SG滤波器进行消抖去噪处理,得到去噪的轨迹数据T'=(t'1,...,t'k,...,t'K);t'k表示去噪后第k个手掌三维位置数据,K表示不同的手掌三维位置数据的总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210425154.XA CN114663982A (zh) | 2022-04-21 | 2022-04-21 | 一种基于多特征融合的人手轨迹预测与意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210425154.XA CN114663982A (zh) | 2022-04-21 | 2022-04-21 | 一种基于多特征融合的人手轨迹预测与意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114663982A true CN114663982A (zh) | 2022-06-24 |
Family
ID=82036551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210425154.XA Pending CN114663982A (zh) | 2022-04-21 | 2022-04-21 | 一种基于多特征融合的人手轨迹预测与意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663982A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116300966A (zh) * | 2023-05-05 | 2023-06-23 | 北京科技大学 | 一种人机协作搬运的协作机器人控制方法 |
-
2022
- 2022-04-21 CN CN202210425154.XA patent/CN114663982A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116300966A (zh) * | 2023-05-05 | 2023-06-23 | 北京科技大学 | 一种人机协作搬运的协作机器人控制方法 |
CN116300966B (zh) * | 2023-05-05 | 2023-08-15 | 北京科技大学 | 一种人机协作搬运的协作机器人控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11325252B2 (en) | Action prediction networks for robotic grasping | |
Materzynska et al. | The jester dataset: A large-scale video dataset of human gestures | |
Ibraheem et al. | Survey on various gesture recognition technologies and techniques | |
Molchanov et al. | Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network | |
CN110785268B (zh) | 用于语义机器人抓取的机器学习方法和装置 | |
CN110826453B (zh) | 一种通过提取人体关节点坐标的行为识别方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
Liu et al. | Using unsupervised deep learning technique for monocular visual odometry | |
Gupta et al. | Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural networks | |
CN111199556A (zh) | 基于摄像头的室内行人检测和跟踪方法 | |
Suresh et al. | Sign language recognition system using deep neural network | |
CN109886356A (zh) | 一种基于三分支神经网络的目标追踪方法 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
CN115223239B (zh) | 一种手势识别方法、系统、计算机设备以及可读存储介质 | |
CN111709268A (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN114663982A (zh) | 一种基于多特征融合的人手轨迹预测与意图识别方法 | |
Khan et al. | 3D hand gestures segmentation and optimized classification using deep learning | |
Huu et al. | Proposing recognition algorithms for hand gestures based on machine learning model | |
El-Sawah et al. | A framework for 3D hand tracking and gesture recognition using elements of genetic programming | |
Ikram et al. | Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture | |
Zamora-Mora et al. | Real-time hand detection using convolutional neural networks for costa rican sign language recognition | |
Artemov et al. | Subsystem for simple dynamic gesture recognition using 3DCNNLSTM | |
Gadhiya et al. | Analysis of deep learning based pose estimation techniques for locating landmarks on human body parts | |
Faujdar et al. | Human Pose Estimation using Artificial Intelligence with Virtual Gym Tracker | |
Permana et al. | Hand movement identification using single-stream spatial convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |