CN108491752A - 一种基于手部分割卷积网络的手部姿态估计方法 - Google Patents
一种基于手部分割卷积网络的手部姿态估计方法 Download PDFInfo
- Publication number
- CN108491752A CN108491752A CN201810037633.8A CN201810037633A CN108491752A CN 108491752 A CN108491752 A CN 108491752A CN 201810037633 A CN201810037633 A CN 201810037633A CN 108491752 A CN108491752 A CN 108491752A
- Authority
- CN
- China
- Prior art keywords
- hand
- depth image
- depth
- segmentation
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于手部分割卷积网络的手部姿态估计方法,利用从深度图像中捕获的手部点云数据,恢复出对应手部的姿态。其步骤包括:(1)基于深度点云动态投影的手部区域提取算法,重新投影出一张只包含手部的深度图像;(2)手部分割网络的训练与预测,利用步骤(1)得到的只包含手部的深度图像训练手部分割网络,逐像素的输出其对应的手部区域归属信息;(3)基于手部拓扑约束的物理约束优化,根据步骤(2)的分割结果,生成对应的手部拓扑约束,并集合手部关节旋转约束,刚体碰撞约束和时序信息约束,对手部姿态进行基于物理约束的优化,得到最终手部姿态。本发明能够从输入的包含手部的深度图像中恢复出对应的手部姿态。
Description
技术领域
本发明属于计算机虚拟现实领域,具体地说,一种基于手部分割卷积网络的手部姿态估计方法。
背景技术
随着深度传感器的普及和人机交互领域的需求,近年来基于深度数据的手部姿态估计的研究正在兴起。与传统基于RGB图像的手部姿态估计相比,深度数据提供了手部的三维信息,极大地提高了手部姿态估计的鲁棒性和准确性。
基于深度传感器数据流的手部姿态估计方法的步骤一般分为:首先使用对输入的包含手部区域的深度图像进行预处理,提取手部ROI,然后将其作为预先训练好的分类器的输入,预测出对应的手部姿态,最后将预测出的结果结合手的其他先验信息使用局部优化以获得最终的手部姿态。
相比单独使用这两种方法,本发明将两类方法的优势结合起来,提出了一种能够实时,鲁棒,准确的手部姿态估计方法。
因此,本发明针对基于深度图像的手部姿态估计的工作极具研究意义和应用前景。
发明内容
本发明的技术解决问题:克服现有技术的一些局限性,提供一种基于手部分割卷积网络的手部姿态估计方法,有效的在获取传感器传入的包含手部的深度图像之后,得到对应深度数据中的手部姿态。
本发明的技术解决方案:以包含手部的深度图像为输入,基于分割网络的手部区域预测,利用基于物理约束的姿态优化方程,从而估计手部姿态。其特征在于如下步骤:
(1)基于深度点云动态投影的手部区域提取算法的步骤,重新投影出一张只包含手部的深度图像;
(2)手部分割网络的训练与预测的步骤,利用步骤(1)得到的只包含手部的深度图像训练手部分割网络,逐像素的输出其对应的手部区域归属信息;
(3)基于手部拓扑约束的物理约束优化的步骤,根据步骤(2)的分割结果,生成对应的手部拓扑约束,并集合手部关节旋转约束,刚体碰撞约束和时序信息约束,对手部姿态进行基于物理约束的优化,得到最终手部姿态。
进一步地,上述基于手部分割卷积网络的手部姿态估计方法中,所述步骤(1)基于深度点云动态投影的手部区域提取算法的步骤包括:首先,从原始输入的深度图像中提取只包含手部的深度点云,计算出这些点云的中心位置;其次,将这些点云移动到原始输入的深度图像中心所在的位置,然后将点云沿着照相机位置与原始输入的深度图像中心位置的朝向移动,使得点云更加靠近摄像机位置;最后,在原来的摄像机位置使用新的投影参数将这些点云重新投影到一个新的尺寸的图像平面,得到新的只包含手部的深度图像。
进一步地,上述基于手部分割卷积网络的手部姿态估计方法中,所述步骤(2)中,手部分割网络的训练与预测的步骤包括:利用所述步骤(1)得到的只包含手部的深度图像训练手部分割网络,其中在对手部分割网络进行训练时,采用基于点云旋转变换的数据增强方法,首先将输入的只包含手部的深度图像转化为对应的深度点云数据,然后将深度点云沿着XY方向旋转,旋转区间在-15°到15°之间,其中每隔5°重新投影生成的深度图以及对应的标签图,最终使用这些新生成的图像加入网络的训练中。
进一步地,上述基于手部分割卷积网络的手部姿态估计方法中,所述步骤(3)中,基于手部拓扑约束的物理约束优化的步骤包括:首先,深度图像中的每个像素在分割网络预测之后被标明了其对应的手部区域归属信息,然后相邻的像素之间使用一种基于归属度的区域生长算法计算出每个区域的中心位置;随后,使用这些中心位置附近的若干个像素及其手部区域归属信息加入物理约束优化方程,并集合手部关节旋转限制,刚体碰撞约束,时序信息约束迭代计算姿态;最后,优化方程产生的残差缩小到一定距离时停止迭代。
本发明的优点在于:
1、本发明所提出的手部点云动态重投影算法,能够将只包含手部的点云重新投影到一个指定大小的平面上,提高了新图像中手部区域所占的比例。
2、本发明所设计的手部区域分割网络,相比于传统的方法能够更好的预测出输入数据中各个点的手部区域归属信息。
附图说明
图1为本发明方法的数据流程图;
图2为本发明方法的深度点云动态投影算法示意图;
图3为本发明方法的分割网络结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明方法的主要流程图如图1所示,包含手部的深度图像为输入的情况下,具体步骤如下:
(1)基于深度点云动态投影的手部区域提取算法
此步骤为本发明的关键步骤,本发明中深度点云动态投影算法,与传统的图像ROI截取不同,能够在不改变截取区域的拓扑关系的情况下提高手在输入图像中的面积比例,而且为后续的手部区域分割网络提供有效的输入。首先是从原始输入的深度图像(原始图像)中提取只包含手部的深度点云,计算手部点云的中心位置M。然后将所有的点云的位置坐标乘以平移矩阵T1,即将其平移到原始图像的中心位置,再沿着摄像机与原始图像中心连线的方向移动k cm,使得点云更加靠近摄像机位置,其中k的值根据最终需要的图像输出尺寸具体设置,T1,T2分别为了点云移动到制定位置时的平移矩阵。最后,在原来的摄像机位置使用新的投影参数将点云数据进行重新投影到一个新的尺寸的图像平面,得到新的只包含手部的深度图像。
总体来说,我们的方法将原始图像转为深度点云,然后将点云平移,最后重新投影。其中原始图像转化为深度点云的数学方式为:
公式(1)中,f为原始的相机焦距,(u0,v0)为原始图像的中心位置,u,v为原始图像中的图像坐标,px,y为点云3D位置中的x,y值,d为原始图像中对应在u,v的值。
最后在重新投影时的数学公式如下:
(u,v)new=camprojnew(px,y,z*T1*T2) (2)
公式(2),T1表示将点云移动到视野中心的平移矩阵,T2表示将点云更加靠近摄像机的平移矩阵。px,y,z表示原始图像转为的点云。最后使用一组新的相机参数将平移后点云进行投影。
新的投影公式camprojnew如公式(3):
(u,v)new=Px,y/Pz*fnew+(u0,v0)new, (3)
其中,Px,y和Pz表示平移过后的深度点云中的点的x,y值和z值,fnew在这里是新的相机的焦距,(u0,v0)new在这里是新的投影平面的中心位置。
(2)手部区域分割网络
为了提高姿态估计方法的鲁棒性,需要为姿态优化方程提供一个可靠的初始化,本发明使用手部分割网络对输入的数据进行逐像素分类,输出每个像素对应的手部区域归属信息(如标签信息)。如采用图3所示的分割网络。首先利用大量有标注的深度数据对如图2所示的网络进行训练,在训练的过程中,我们使用了一种基于点云旋转的数据增强方法,首先将输入的只包含手部的深度图像转化为对应的深度点云数据,然后将深度点云沿着XY方向旋转(对应的标签位置也随之旋转相同的角度)。由于随机旋转的角度过大可能会导致原始图像的边缘噪声在投影时破坏新图像中的手的结构,这里我们设置旋转角度区间为-15°到15°,其中每隔5°重新投影生成的深度图以及对应的标签图,最终使用这些新生成的图像加入网络的训练中。网络在充分训练后,能够对于输入的包含手部的图像进行逐像素分类。输出各个像素对应的手部区域归属信息。
(3)基于手部拓扑约束的物理约束的优化
步骤为:首先,深度图像中的每个像素在分割网络预测之后被标明了其对应的手部区域归属信息,然后相邻的像素之间使用一种基于归属度的区域生长算法计算出每个区域的中心位置;随后,使用这些中心位置附近的若干个像素及其对应的手部区域归属信息(如标签信息)加入物理约束优化方程,并结合手部关节旋转限制,刚体碰撞约束,时序信息约束迭代计算姿态;最后,优化方程产生的残差缩小到一定距离时停止迭代。
基于手部拓扑约束的数学公式如下:
E=arg max(‖p-pb‖) (4)
其中p为输入的深度点云,pb为p对应的最靠近的部件表面的点,E为目标方程的残差值。
基于手部关节旋转约束的数学公式如下:
θ=middle(θl,θh) (5)
其中θ为当前估计的关节角度,θl,θh分别为该关节旋转角度的最小值和最大值。middle代表将θ的值限定在一个范围之内。
时序信息约束表示我们的方程使用前一帧的结果作为方程的初始值。刚体碰撞约束属于基于物理仿真的基本内容,这里是指关节之间不会碰撞。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅为本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应该视为本发明的保护范围。
Claims (4)
1.一种基于手部分割卷积网络的手部姿态估计方法,其输入为包含手部的深度图像,其特征在于:包括以下步骤:
(1)基于深度点云动态投影的手部区域提取算法的步骤,重新投影出一张只包含手部的深度图像;
(2)手部分割网络的训练与预测的步骤,利用步骤(1)得到的只包含手部的深度图像训练手部分割网络,逐像素的输出其对应的手部区域归属信息;
(3)基于手部拓扑约束的物理约束优化的步骤,根据步骤(2)的分割结果,生成对应的手部拓扑约束,并集合手部关节旋转约束,刚体碰撞约束和时序信息约束,对手部姿态进行基于物理约束的优化,得到最终手部姿态。
2.根据权利要求1所述的一种基于手部分割卷积网络的手部姿态估计方法,其特征在于:所述步骤(1)基于深度点云动态投影的手部区域提取算法的步骤包括:首先,从原始输入的深度图像中提取只包含手部的深度点云,计算出这些点云的中心位置;其次,将这些点云移动到原始输入的深度图像中心所在的位置,然后将点云沿着照相机位置与原始输入的深度图像中心位置的朝向移动,使得点云更加靠近摄像机位置;最后,在原来的摄像机位置使用新的投影参数将这些点云重新投影到一个新的尺寸的图像平面,得到新的只包含手部的深度图像。
3.根据权利要求1所述的一种基于手部分割卷积网络的手部姿态估计方法,其特征在于:所述步骤(2)中,手部分割网络的训练与预测的步骤包括:利用所述步骤(1)得到的只包含手部的深度图像训练手部分割网络,其中在对手部分割网络进行训练时,采用基于点云旋转变换的数据增强方法,首先将输入的只包含手部的深度图像转化为对应的深度点云数据,然后将深度点云沿着XY方向旋转,旋转区间在-15°到15°之间,其中每隔5°重新投影生成的深度图以及对应的标签图,最终使用这些新生成的图像加入网络的训练中。
4.根据权利要求1所述的一种基于手部分割卷积网络的手部姿态估计方法,其特征在于:所述步骤(3)中,基于手部拓扑约束的物理约束优化的步骤包括:首先,深度图像中的每个像素在分割网络预测之后被标明了其对应的手部区域归属信息,然后相邻的像素之间使用一种基于归属度的区域生长算法计算出每个区域的中心位置;随后,使用这些中心位置附近的若干个像素及其对应的手部区域归属信息加入物理约束优化方程,并集合手部关节旋转限制,刚体碰撞约束,时序信息约束迭代计算姿态;最后,优化方程产生的残差缩小到一定距离时停止迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810037633.8A CN108491752A (zh) | 2018-01-16 | 2018-01-16 | 一种基于手部分割卷积网络的手部姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810037633.8A CN108491752A (zh) | 2018-01-16 | 2018-01-16 | 一种基于手部分割卷积网络的手部姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108491752A true CN108491752A (zh) | 2018-09-04 |
Family
ID=63344167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810037633.8A Pending CN108491752A (zh) | 2018-01-16 | 2018-01-16 | 一种基于手部分割卷积网络的手部姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491752A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135340A (zh) * | 2019-05-15 | 2019-08-16 | 中国科学技术大学 | 基于点云的3d手部姿态估计方法 |
CN111582058A (zh) * | 2020-04-20 | 2020-08-25 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种使用对抗式3d分层网络进行手部姿态估计的方法及系统 |
CN113158774A (zh) * | 2021-03-05 | 2021-07-23 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186716A1 (en) * | 2011-09-11 | 2015-07-02 | Apple Inc. | Learning-based estimation of hand and finger pose |
CN105069413A (zh) * | 2015-07-27 | 2015-11-18 | 电子科技大学 | 一种基于深度卷积神经网络的人体姿势识别方法 |
CN105389539A (zh) * | 2015-10-15 | 2016-03-09 | 电子科技大学 | 一种基于深度数据的三维手势姿态估计方法及系统 |
CN106846403A (zh) * | 2017-01-04 | 2017-06-13 | 北京未动科技有限公司 | 一种三维空间中手部定位的方法、装置及智能设备 |
CN107066935A (zh) * | 2017-01-25 | 2017-08-18 | 网易(杭州)网络有限公司 | 基于深度学习的手部姿态估计方法及装置 |
-
2018
- 2018-01-16 CN CN201810037633.8A patent/CN108491752A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186716A1 (en) * | 2011-09-11 | 2015-07-02 | Apple Inc. | Learning-based estimation of hand and finger pose |
CN105069413A (zh) * | 2015-07-27 | 2015-11-18 | 电子科技大学 | 一种基于深度卷积神经网络的人体姿势识别方法 |
CN105389539A (zh) * | 2015-10-15 | 2016-03-09 | 电子科技大学 | 一种基于深度数据的三维手势姿态估计方法及系统 |
CN106846403A (zh) * | 2017-01-04 | 2017-06-13 | 北京未动科技有限公司 | 一种三维空间中手部定位的方法、装置及智能设备 |
CN107066935A (zh) * | 2017-01-25 | 2017-08-18 | 网易(杭州)网络有限公司 | 基于深度学习的手部姿态估计方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135340A (zh) * | 2019-05-15 | 2019-08-16 | 中国科学技术大学 | 基于点云的3d手部姿态估计方法 |
CN111582058A (zh) * | 2020-04-20 | 2020-08-25 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种使用对抗式3d分层网络进行手部姿态估计的方法及系统 |
CN113158774A (zh) * | 2021-03-05 | 2021-07-23 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
CN113158774B (zh) * | 2021-03-05 | 2023-12-29 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109544636B (zh) | 一种融合特征点法和直接法的快速单目视觉里程计导航定位方法 | |
CN103325112B (zh) | 动态场景中运动目标快速检测方法 | |
CN106055091B (zh) | 一种基于深度信息和校正方式的手部姿态估计方法 | |
Mueggler et al. | Continuous-time trajectory estimation for event-based vision sensors | |
CN106780592A (zh) | 基于相机运动和图像明暗的Kinect深度重建算法 | |
US20200334842A1 (en) | Methods, devices and computer program products for global bundle adjustment of 3d images | |
CN107843251B (zh) | 移动机器人的位姿估计方法 | |
CN110443205A (zh) | 一种手部图像分割方法及装置 | |
CN103607554A (zh) | 一种基于全自动人脸无缝合成的视频合成方法 | |
CN110503688A (zh) | 一种用于深度相机的位姿估计方法 | |
CN103106688A (zh) | 基于双层配准方法的室内三维场景重建方法 | |
CN104036546A (zh) | 一种基于自适应形变模型的任意视角人脸三维重构方法 | |
WO2023273093A1 (zh) | 一种人体三维模型获取方法、装置、智能终端及存储介质 | |
Liao et al. | Model-free distortion rectification framework bridged by distortion distribution map | |
CN105279769B (zh) | 一种联合多特征的层次粒子滤波跟踪方法 | |
CN105046649A (zh) | 一种去除运动视频中运动物体的全景图拼接方法 | |
CN109087323A (zh) | 一种基于精细cad模型的图像车辆三维姿态估计方法 | |
CN107944437B (zh) | 一种基于神经网络和积分图像的人脸定位方法 | |
CN108491752A (zh) | 一种基于手部分割卷积网络的手部姿态估计方法 | |
JP5068732B2 (ja) | 3次元形状生成装置 | |
CN113312973B (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN112001859A (zh) | 一种人脸图像的修复方法及系统 | |
CN110443883A (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN111160291A (zh) | 基于深度信息与cnn的人眼检测方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180904 |