CN110751097B - 一种半监督的三维点云手势关键点检测方法 - Google Patents
一种半监督的三维点云手势关键点检测方法 Download PDFInfo
- Publication number
- CN110751097B CN110751097B CN201911003098.5A CN201911003098A CN110751097B CN 110751097 B CN110751097 B CN 110751097B CN 201911003098 A CN201911003098 A CN 201911003098A CN 110751097 B CN110751097 B CN 110751097B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- dimensional
- point
- gesture
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Abstract
本发明属于计算机视觉领域下的模式识别领域,更具体地,涉及一种半监督的三维点云手势关键点检测方法,采用这种方法可以利用未标注的数据获得准确的三维关键点信息;本发明提出了基于TOF模组生成三维点云进行手势关键点识别的方法,三维点云相对二维图像对于复杂场景和光线条件较差的环境,识别精度有较大的提升;本发明优化了点云数据的处理方式,先对手部点云进行平滑再采样,比采样后再平滑精度更高。
Description
技术领域
本发明属于计算机视觉领域下的模式识别领域,更具体地,涉及一种半监督的三维点云手势关键点检测方法。
背景技术
近些年来,随着计算机技术的发展伴随着5G时代的到来,便捷的人机交互是未来社会发展的主流,手势识别可以应用于多个领域,例如AR,VR,车载系统,智能家居、工业检测等。从数据来源的角度,手势识别技术可以分为基于数据手套,基于视觉等方法。最初的手势识别主要使用各种与手直接接触的可穿戴式设备进行数据采集。通过内含许多传感器的数据手套,可以十分精确地获取手势识别所需的各种信息,此外其反应速度、识别准确度、稳定性也相对较高。但是该类设备会对手的灵活性有一定限制,会对手部动作的自然性产生影响。
基于视觉的手势识别技术主要可以分为基于二维数据的手势识别与基于三维数据的手势识别。早期的手势识别是基于二维彩色图像的识别技术,就是指通过普通摄像头拍出场景后,得到二维的静态图像,然后再通过计算机图形算法进行图像中内容的识别。随着摄像头和传感器技术的发展,近年来出现的各种深度摄像机,如kinect、TOF、RealSense等,可以捕捉到物体的深度信息,可以更好地识别多场景的物体。
目前基于三维信息的手势识别方法主要有:
1)RGB信息与深度信息结合:根据肤色在YCrCb空间进行大致的手部区域划分,然后在深度图像上结合最大类间方差法和阈值分割,从背景中分离出手部。最后综合RGB图像与深度图像的分割结果,得到准确的手部划分。该种方式比较直观、适应性强、运算速度快。但实际应用中,考虑到光线及身体其他部位颜色的影响,这些因素都将直接影响手势区域的提取。
2)基于三维手部模型:获取深度图像进行前期预处理合成手部的3D模型,然后改变模型的参数,直到模型和真实人体映射出同样的视觉图像,然后分析手势姿态,结合特定动作的特征进行预定手势的识别。其优点在于手势建模识别精度比较高,避免了基于表观特征识别时因遮挡造成的错误识别。但是虽然3D建模技术已经相当成熟,但模型较为复杂,不能快速地渲染响应。
3)基于深度信息的分类器模型:一般先根据深度图像进行手势分割;然后选取大量的正负样本,利用相应的分类器进行特征训练,得到特征库,根据特征库进行待定手势的识别。而以上识别过程往往需要大量的训练样本,导致工作量巨大,并且对于特定场景,现有的已标注样本不一定适用。
发明内容
本发明为克服上述现有技术中的缺陷,提供一种半监督的三维点云手势关键点检测方法,利用少量已标注数据即可达到较好的识别精度和运算速度。
为解决上述技术问题,本发明采用的技术方案是:一种半监督的三维点云手势关键点检测方法,包括以下步骤:
S1.构建RGB-D手势数据集:
S11.由TOF模组拍摄手势训练集,分别获得2D图片和1:1对应的深度图;
S12.设计二维图像的手部关键点检测网络进行训练;
S13.基于以上模型在2D图片上进行手部关键点的识别;
S14.将2D图像上的关键点对应到深度图,获得关键点的手势关键点深度坐标;
S2.数据预处理:
S21.将深度图的手部区域转为三维世界坐标;
S22.通过重采样对手部三维点云进行平滑,通过对周围数据点进行高阶多项式插值来重建表面缺失的部分;
S23.对平滑后的手部点云进行随机采样,最后获得1024个点;
S24.根据当前点云求出点云的法线;
S25.对点云进行归一化处理;
S3.搭建点云检测网络,输入大小为Nx6的点云数据集,N为训练样本点云的大小,此处为1024,网络输出为21个关键点的三维坐标P;
S4.手势关键点识别与分类;首先,基于距离阈值去除部分背景,然后,以三维点云输入网络,经过网络计算准确得到手部21个关键点的三维手势关键点坐标。
进一步的,所述的S22步骤中通过重采样对手部三维点云进行平滑具体包括:
S221.基于K-D树对点云中每个点计算K邻近邻域;
S222.在局部区域上建立拟合函数;
S223.确定权函数;
S224.输出拟合后的结果。
进一步的,求点云的法线采用主成分分析的方法,找到最小特征值对应的方向,即为所求的法线方向,具体包括:
S241.基于K-D树对点云中每个点计算K邻近邻域;
S242.计算PCA的协方差矩阵S=∑(Ni–C)×(Ni–C),其中Ni为邻域点,C为中心点;对S求解特征值和特征向量,然后取最小的特征值对应的特征向量作为该点对应的法线;
S243.检查法线的朝向是否一致指向视点,如果不是则反向。
进一步的,所述的S3步骤具体包括:
S31.将输入点云X进行随机的旋转R和平移T,得到变换后的点云X',以及对应的旋转参数(R,T);
S32.将点云X和X’同时输入网络中得到了21个关键点P和P’;
S33.根据奇异值分解(SVD)可以根据P和P’预测出一组旋转参数(R,T’);
S34.对于有标签的训练数据,网络的损失函数为两组旋转参数的欧式距离与预测关键点P与真实值的欧氏距离之和;对于无标签数据,网络的损失函数为两组旋转参数的欧式距离。
在本发明中,提出了一种半监督的三维手势关键点检测方法,采用这种方法可以利用未标注的数据获得准确的三维关键点信息;本发明提出了基于TOF模组生成三维点云进行手势关键点识别的方法,三维点云相对二维图像对于复杂场景和光线条件较差的环境,识别精度有较大的提升;本发明优化了点云数据的处理方式,先对手部点云进行平滑再采样,比采样后再平滑精度更高。
与现有技术相比,有益效果是:本发明提供的一种半监督的三维点云手势关键点检测方法,使用的基于半监督的训练方法,只需少量标注数据即可获得准确的关键点信息;同时基于优化后的点云识别网络,识别速度大大提升,并且相比其他方法,更简单、普适,提高了算法的实用性。
附图说明
图1是本发明整体方法流程图。
图2是本发明半监督的三维手势关键点识别模型训练流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1所示,本发明提供半监督的三维点云手势关键点检测方法,包括以下步骤:
步骤1.构建RGB-D手势数据集:
S11.搭建二维手部关键点检测模型;
S12.基于二维手势图像数据集进行手部关键点检测模型训练;
S13.基于以上模型在TOF模组拍摄的当前帧RGB图像上进行手部关键点的识别;
S14.将当前帧RGB图像上的关键点对应到对应帧的深度图,获得手势关键点的深度坐标;
步骤2.数据预处理:
S21.将深度图的手部区域转为三维世界坐标;
S22.通过重采样对手部三维点云进行平滑:基于K-D树对点云中每个点计算K邻近邻域,在局部区域上建立拟合函数,确定权函数,输出拟合后的结果;
S23.对平滑后的手部点云进行随机采样,最后获得1024个点;
S24.根据当前点云求出点云的法线:基于K-D树对点云中每个点计算K邻近邻域,计算PCA的协方差矩阵S=∑(Ni–C)×(Ni–C),其中Ni为邻域点,C为中心点;对S求解特征值和特征向量,然后取最小的特征值对应的特征向量作为该点对应的法线;检查法线的朝向是否一致指向视点,如果不是则反向;
S25.对点云进行归一化处理;
步骤3.搭建点云检测网络,输入大小为Nx6的点云数据集,N为训练集样本大小,输出为21x3的关键点坐标;
S31.将输入点云X进行随机的旋转R和平移T,得到变换后的点云X',以及对应的旋转参数(R,T);
S32.将点云X和X’同时输入网络中得到了21个关键点P和P’。
S33.根据奇异值分解(SVD)可以根据P和P’预测出一组旋转参数(R,T’);
S34.对于有标签的训练数据,网络的损失函数为两组旋转参数的欧式距离与预测关键点P与真实值的欧氏距离之和;对于无标签数据,网络的损失函数为两组旋转参数的欧式距离。
步骤4.测试过程:
S41.基于TOF模组获取当前帧的深度图;
S42.根据距离阈值去除部分背景;
S43.对点云做平滑操作;
S44.将平滑后的点云进行降采样,获得1024个点;
S45.对当前点云中的每个点求对应的法线方向;
S46.对点云进行归一化;
S47.将归一化后的点云输入网络,输入尺寸为1024x6,经过网络计算准确得到手部21个关键点的三维坐标。
步骤5.基于TOF模组获取下一帧的深度图,重复步骤S42~S47。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (3)
1.一种半监督的三维点云手势关键点检测方法,其特征在于,包括以下步骤:
S1.构建RGB-D手势数据集;
S11.由TOF模组拍摄手势训练集,分别获得2D图片和1:1对应的深度图;
S12.设计二维图像的手部关键点检测网络进行训练;
S13.基于检测网络在2D图片上进行手部关键点的识别;
S14.将2D图像上的关键点对应到深度图,获得关键点的手势关键点深度坐标;
S2.数据预处理;
S21.将深度图的手部区域转为三维世界坐标;
S22.通过重采样对手部三维点云进行平滑,通过对周围数据点进行高阶多项式插值来重建表面缺失的部分;
S23.对平滑后的手部点云进行随机采样,最后获得1024个点;
S24.根据当前点云求出点云的法线;求点云的法线采用主成分分析的方法,找到最小特征值对应的方向,即为所求的法线方向,具体包括:
S241.基于K-D树对点云中每个点计算K邻近邻域;
S242.计算PCA的协方差矩阵S=∑(Ni–C)×(Ni–C),其中Ni为邻域点,C为中心点;对S求解特征值和特征向量,然后取最小的特征值对应的特征向量作为该点对应的法线;
S243.检查法线的朝向是否一致指向视点,如果不是则反向;
S25.对点云进行归一化处理;
S3.搭建点云检测网络,输入大小为Nx6的点云数据集,N为训练样本点云的大小,此处为1024,网络输出为21个关键点的三维坐标P;
S4.手势关键点识别与分类;首先,基于距离阈值去除部分背景,然后,以三维点云输入网络,经过网络计算准确得到手部21个关键点的三维手势关键点坐标。
2.根据权利要求1所述的半监督的三维点云手势关键点检测方法,其特征在于,所述的S22步骤中通过重采样对手部三维点云进行平滑具体包括:
S221.基于K-D树对点云中每个点计算K邻近邻域;
S222.在局部区域上建立拟合函数;
S223.确定权函数;
S224.输出拟合后的结果。
3.根据权利要求1所述的半监督的三维点云手势关键点检测方法,其特征在于,所述的S3步骤具体包括:
S31.将输入点云X进行随机的旋转R和平移T,得到变换后的点云X',以及对应的旋转参数(R,T);
S32.将点云X和X’同时输入网络中得到了21个关键点P和P’;
S33.根据奇异值分解(SVD)可以根据P和P’预测出一组旋转参数(R,T’);
S34.对于有标签的训练数据,网络的损失函数为两组旋转参数的欧式距离与预测关键点P与真实值的欧氏距离之和;对于无标签数据,网络的损失函数为两组旋转参数的欧式距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003098.5A CN110751097B (zh) | 2019-10-22 | 2019-10-22 | 一种半监督的三维点云手势关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003098.5A CN110751097B (zh) | 2019-10-22 | 2019-10-22 | 一种半监督的三维点云手势关键点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110751097A CN110751097A (zh) | 2020-02-04 |
CN110751097B true CN110751097B (zh) | 2023-05-02 |
Family
ID=69279186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003098.5A Active CN110751097B (zh) | 2019-10-22 | 2019-10-22 | 一种半监督的三维点云手势关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751097B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523422B (zh) * | 2020-04-15 | 2023-10-10 | 北京华捷艾米科技有限公司 | 一种关键点检测模型训练方法、关键点检测方法和装置 |
CN112418089A (zh) * | 2020-11-23 | 2021-02-26 | 森思泰克河北科技有限公司 | 一种手势识别方法、装置及终端 |
CN113065458A (zh) * | 2021-03-29 | 2021-07-02 | 新疆爱华盈通信息技术有限公司 | 基于手势识别的投票方法与系统、电子设备 |
CN113312973B (zh) * | 2021-04-25 | 2023-06-02 | 北京信息科技大学 | 一种手势识别关键点特征提取方法及系统 |
CN115471561A (zh) * | 2022-11-14 | 2022-12-13 | 科大讯飞股份有限公司 | 对象关键点定位方法、清洁机器人控制方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830902A (zh) * | 2018-04-19 | 2018-11-16 | 江南大学 | 一种基于点云处理的散乱工件识别与定位方法 |
CN109858524A (zh) * | 2019-01-04 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 手势识别方法、装置、电子设备及存储介质 |
-
2019
- 2019-10-22 CN CN201911003098.5A patent/CN110751097B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830902A (zh) * | 2018-04-19 | 2018-11-16 | 江南大学 | 一种基于点云处理的散乱工件识别与定位方法 |
CN109858524A (zh) * | 2019-01-04 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 手势识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
多重空间特征融合的手势识别;高喆;《小型微型计算机系统》;第37卷(第7期);第1-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110751097A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
Hasan et al. | RETRACTED ARTICLE: Static hand gesture recognition using neural networks | |
Cohen et al. | Inference of human postures by classification of 3D human body shape | |
EP2680228B1 (en) | Improvements in or relating to three dimensional close interactions. | |
Park et al. | Articulated pose estimation with tiny synthetic videos | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
Bhuyan et al. | Hand pose recognition using geometric features | |
Hernández-Vela et al. | BoVDW: Bag-of-Visual-and-Depth-Words for gesture recognition | |
CN113393503B (zh) | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 | |
CN111062328A (zh) | 一种图像处理方法、装置及智能机器人 | |
CN112613123A (zh) | 一种飞机管路ar三维注册方法及装置 | |
Alksasbeh et al. | Smart hand gestures recognition using K-NN based algorithm for video annotation purposes | |
Amrutha et al. | Human Body Pose Estimation and Applications | |
Darujati et al. | Facial motion capture with 3D active appearance models | |
CN108564043B (zh) | 一种基于时空分布图的人体行为识别方法 | |
Kanaujia et al. | Part segmentation of visual hull for 3d human pose estimation | |
CN113689365B (zh) | 一种基于Azure Kinect的目标跟踪定位方法 | |
CN106056599B (zh) | 一种基于物体深度数据的物体识别算法及装置 | |
Karbasi et al. | Real-time hand detection by depth images: A survey | |
CN113724329A (zh) | 融合平面与立体信息的目标姿态估计方法、系统和介质 | |
Ding et al. | Combining adaptive hierarchical depth motion maps with skeletal joints for human action recognition | |
CN113139946A (zh) | 一种基于视觉的衬衫污渍定位设备 | |
Le | Automatic 3D Hand Pose Estimation Based on YOLOv7 and HandFoldingNet from Egocentric Videos | |
Zhang et al. | Dynamic Semantics SLAM Based on Improved Mask R-CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |