CN109214282A - 一种基于神经网络的三维手势关键点检测方法和系统 - Google Patents
一种基于神经网络的三维手势关键点检测方法和系统 Download PDFInfo
- Publication number
- CN109214282A CN109214282A CN201810860857.9A CN201810860857A CN109214282A CN 109214282 A CN109214282 A CN 109214282A CN 201810860857 A CN201810860857 A CN 201810860857A CN 109214282 A CN109214282 A CN 109214282A
- Authority
- CN
- China
- Prior art keywords
- gesture
- network model
- dimension
- key point
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 14
- 238000013480 data collection Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 41
- 210000005036 nerve Anatomy 0.000 claims description 32
- 238000003709 image segmentation Methods 0.000 claims description 22
- 238000012952 Resampling Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 101150021123 msrA gene Proteins 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007634 remodeling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract description 4
- 238000013507 mapping Methods 0.000 abstract 1
- 238000005070 sampling Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经网络的三维手势关键点检测方法,包括以下步骤:获取包含手势区域信息与手势二维、三维关键点位置信息的手势数据集;训练手势分割网络,该网络以包含手势的RGB图像为输入,可以检测出RGB图像中的手势区域;对手势分割网络检测出的手势区域进行截取、上采样或下采样;训练二维手势关键点检测网络,该网络可以检测出手势区域图像中的多个二维手势关键点;将三维手势关键点的绝对坐标转换为相对坐标;训练二维到三维的手势关键点映射网络,该网络可以将多个二维手势关键点映射到三维空间中,形成三维手势关键点。本发明能够快速有效的从包含手势的RGB图像中准确检测出三维手势关键点。
Description
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于神经网络的三维手势关键点检测方法和系统。
背景技术
三维手势关键点检测技术是三维计算机视觉研究领域的重要内容之一,为动态手势识别、手势姿态预测、动作异常检测、虚拟现实等各种图像处理技术提供了重要基础;其主要任务是输入包含手势的图像,经过该技术处理后,输出给定图像中的三维手势关键点坐标,其中手势关键点包含各手指指尖与关节点;在三维手势关键点检测过程中,手势形状具有随机性,手势姿态灵活多变,各个手指可能互有遮挡,且目标手势的背景图像复杂多变,这为快速准确的实现三维手势关键点检测带来了困难。
目前主流的三维手势关键点检测方法都是基于深度摄像头,常见的深度摄像头有2009年微软首次提出的Kinect,它可以捕获用户在三维空间中的动作,也可以进行人脸识别;另外还有2013年Leap公司首次发布的Leap Motion,与Kinect识别用户全身的运动姿态不同,Leap Motion更注重于对手势姿态的三维识别,用户可以通过手势在PC上执行浏览网页、翻阅图片等操作。
虽然现有基于深度摄像头方法能够通过硬件设备计算出目标物体与当前摄像头的距离,并直接获取图像的深度信息,但此类方法仍具有测量范围小、硬件成本偏高、不适用于大规模应用场景的缺点。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于神经网络的三维手势关键点检测方法和系统,其目的在于,利用三维手势姿态估计网络,直接从包含手势的单帧RGB图像中估算出三维手势关键点的位置坐标,从而解决现有动态手势识别方法中存在的测量范围小、硬件成本偏高、不适用于大规模应用场景的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于神经网络的三维手势关键点检测方法,包括以下步骤:
(1)获取手势数据集;
(2)提取步骤(1)中获取的手势数据集中的一幅图像,并将该图像输入训练好的第一神经网络模型中,以得到手势热图;
(3)利用图像分割算法从步骤(2)中得到的手势热图中提取手势区域坐标,并从步骤(2)中提取的图像中分割出与提取的该手势区域坐标对应的手势区域,对该手势区域进行重采样;
(4)将步骤(3)重采样后的手势区域输入训练好的第二神经网络模型中,以得到对应于多个二维手势关键点的空域位置置信图;
(5)将步骤(4)中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标;
(6)将步骤(5)得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中,以得到对应的三维手势关键点的空域位置坐标。
优选地,第一神经网络模型包括多个卷积层集合、以及多个池化层,单个池化层连接在两个相邻的卷积层集合之间,卷积层集合的数量是2到7个,池化层的数量是1到6个,第一神经网络模型的损失函数是图像中每个像素点在第一神经网络模型中的类别预测与该像素点在手势数据集中的真实类别之间的交叉熵。
优选地,图像分割算法是基于阈值的图像分割算法、基于边缘的图像分割算法、基于聚类分析的图像分割算法、或基于小波变换的图像分割算法,重采样方法是最邻近法、双线性插值法、或双三次插值法。
优选地,第二神经网络模型包括多个卷积层集合、以及多个池化层,单个池化层连接在两个相邻的卷积层集合之间,卷积层集合的数量是2到7个,池化层的数量是1到6个,第二神经网络模型的损失函数定义为预测的手势关键点位置与真实的手势关键点位置的L2范数。
优选地,步骤(5)具体为:首先,对二维相对坐标进行归一化处理,以得到归一化后的二维坐标
其中s为步骤(2)中提取的图像中食指第一指节的长度,Wi=(Xi,Yi),Wi表示手势关键点的二维绝对坐标,且i=[1,n],n为步骤(4)中得到的手势关键点的数量;
随后,根据归一化后的二维坐标得到对应的相对坐标具体采用以下公式:
其中表示步骤(2)中提取的图像中掌心的二维归一化坐标。
优选地,第三神经网络模型是由两路构成,每一路均包括一个卷积层集合、一个重塑层、多个丢弃层、以及多个全连接层,两路最终的输出结果就是三维手势关键点的空域位置坐标,多个全连接层彼此顺次连接,重塑层连接在最后一个卷积层与第一个全连接层之间,任意两个相邻的全连接层通过丢弃层连接,第三神经网络模型中第一路的损失函数定义为预测的手势关键点的三维坐标和真实的手势关键点的坐标的L2范数,第三神经网络模型中第二路的损失函数也定义为预测的视点的三维坐标和真实的视点的三维坐标的L2范数。
优选地,池化层所使用的池化方法是平均池化法或者最大池化法,池化层的核大小为a*a,步长为b,其中a的取值是2到10之间的自然数,b为1到7之间的自然数。
优选地,卷积层集合包括有多个顺序相连的卷积层,卷积层的数量是2个到6个,卷积层均采用激活函数进行数据的激活处理,采用的激活函数可以是Sigmoid、Tanh、ReLU、或Leaky-ReLU。
优选地,神经网络模型中的权重初始化方法包括常量初始化、高斯分布初始化、Positive_unitbal初始化、均匀分布初始化、xavier初始化、msra初始化、以及双线性初始化等,神经网络模型采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。
按照本发明的另一方面,提供了一种基于神经网络的三维手势关键点检测系统,包括:
第一模块,用于获取手势数据集;
第二模块,用于提取第一模块中获取的手势数据集中的一幅图像,并将该图像输入训练好的第一神经网络模型中,以得到手势热图;
第三模块,用于利用图像分割算法从第二模块中得到的手势热图中提取手势区域坐标,并从第二模块中提取的图像中分割出与提取的该手势区域坐标对应的手势区域,对该手势区域进行重采样;
第四模块,用于将第三模块重采样后的手势区域输入训练好的第二神经网络模型中,以得到对应于多个二维手势关键点的空域位置置信图;
第五模块,用于将第四模块中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标;
第六模块,用于将第五模块得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中,以得到对应的三维手势关键点的空域位置坐标。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(6),利用神经网络的非线性表达能力,将步骤(4)中得到的二维手势关键点映射到三维空间中形成了三维手势关键点,避免了深度摄像头的使用,降低了三维手势关键点检测方法的硬件成本,提高了该检测方法的应用范围,解决现有方法中存在的硬件成本偏高、不适用于大规模应用场景的技术问题。
(2)本发明由于采用了步骤(2),在三个神经网络模型构成的三维手势姿态估计网络的训练样本中包含了大量的不同距离下采集的样本图像,增强了三维手势姿态估计网络对不同距离的图像分割的鲁棒性与准确性,提高了整个三维手势关键点检测方法的测量范围,因此能够解决现有方法中存在的测量范围小的技术问题。
(3)本发明由于采用了步骤(4)和步骤(5),在分割的手势区域图像中检测出了二维手势关键点,并将三维关键点的绝对坐标转换为相对坐标,降低了模型复杂度低,提高了系统的稳定性。
附图说明
图1是本发明基于神经网络的三维手势关键点检测方法的流程示意图;
图2是本发明方法的步骤(1)中获取的手势数据集的图像中多个手势关键点的位置示意图;
图3(A)、(B)和(C)分别是本发明方法的步骤(1)中获取的手势数据集对应的手势RGB图、深度图、以及掩模图;
图4是本发明方法的步骤(2)中从步骤(1)中获取的手势数据集中提取的一幅示例性图像;
图5是本发明方法的步骤(2)处理后得到的手势热图;
图6是本发明方法的步骤(3)处理后得到的手势区域的示意图;
图7是本发明方法的步骤(4)处理后得到的21个二维手势关键点的空域位置置信图;
图8是本发明方法的步骤(4)处理后得到的21个三维手势关键点的空域位置坐标;
图9是本发明的第一、第二和第三神经网络模型构成的三维手势关键点检测网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明基于神经网络的三维手势关键点检测方法包括以下步骤:
(1)获取手势数据集;
具体而言,手势数据集包括手势区域信息、手势二维关键点位置信息、以及手势三维关键点位置信息。
常用的手势数据集有具有手工关键点注释的手势(Hands with Manual KeypointAnnotations)、德克斯特对象(Dexter Object)、手势姿态数据集(Rendered Hand PoseDataset,简称RHD)、立体手势跟踪基准(Stereo hand pose tracking benchmark,简称STB)等;
以RHD数据集为例,该数据集是使用仿真软件合成的,数据集中包含了20个角色,每个角色在不同背景环境和光照条件下执行39个不同动作;该数据集提供了41258张图像作为训练集,包含了16个角色与31个动作,还提供了2728张图像作为测试集,包含了4个角色与8个动作;数据集中的每张图像都是分辨率为320*320,并自带21个手势关键点的完整标注信息,21个手势关键点的位置如图2所示,另外该数据集还带有对应的手势RGB图、深度图、掩模图,如图3所示。
(2)提取步骤(1)中获取的手势数据集中的一幅图像(如图4所示),并将该图像输入训练好的第一神经网络模型中,以得到手势热图(如图5所示);
具体而言,本发明中的第一神经网络模型包括多个卷积层(ConvolutionalLayer)集合、以及多个池化层(Pooling Layer),单个池化层连接在两个相邻的卷积层集合之间,由此可见,池化层的总数等于卷积层集合的总数减1。在本发明中,卷积层集合的数量是2到7个,对应的池化层的数量就是1到6个。
该第一神经网络模型的损失函数定义为图像中每个像素点在第一神经网络模型中的类别预测与该像素点在手势数据集中的真实类别之间的交叉熵(Softmax cross-entropy)。
本发明中池化层所使用的池化方法可以是平均池化法或者最大池化法。
在本发明中,池化层的核大小为a*a,其中a的取值是2到10之间的自然数,优选值为4,步长为b,其中b为1到7之间的自然数,优选值为1。
每个卷积层集合都包括有多个顺序相连的卷积层,在本发明中,卷积层的数量是2个到6个。
所有卷积层均采用激活函数进行数据的激活处理,采用的激活函数可以是Sigmoid、Tanh、ReLU、Leaky-ReLU等。
第一神经网络模型中的权重初始化方法有常量初始化(Constant)、高斯分布初始化(Gaussian)、Positive_unitbal初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)等。
优选地,采用的激活函数为ReLU,采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。
(3)利用图像分割算法从步骤(2)中得到的手势热图中提取手势区域坐标,并从步骤(2)中提取的图像中分割出与提取的该手势区域坐标对应的手势区域,对该手势区域进行重采样;
具体而言,本步骤中使用的图像分割算法是基于阈值的图像分割算法、基于边缘的图像分割算法、基于聚类分析的图像分割算法、基于小波变换的图像分割算法等,其中优选采用的是基于阈值的图像分割算法。
本步骤中重采样的目的,是使得步骤(2)中提取的所有图像对应的所有手势区域均保持统一的尺寸,该尺寸的范围在24*24至1920*1920之间,优选的尺寸大小为256*256,如图6所示。
本发明中采用的重采样方法有最邻近法(Nearest Neighbor Resampling)、双线性插值法(Bilinear Resampling)、双三次插值法(Bicubic Resampling)等,其中优选采用双线性插值法。
(4)将步骤(3)重采样后的手势区域输入训练好的第二神经网络模型中,以得到对应于多个二维手势关键点的空域位置置信图(如图7所示);
具体而言,本发明中的第二神经网络模型包括多个卷积层集合、以及多个池化层,单个池化层连接在两个相邻的卷积层集合之间,由此可见,池化层的总数等于卷积层集合的总数减1。在本发明中,卷积层集合的数量是2到7个,对应的池化层的数量就是1到6个。
该第二神经网络模型的损失函数定义为预测的手势关键点位置与真实的手势关键点位置的L2范数。
本发明中池化层所使用的池化方法可以是平均池化法或者最大池化法。
在本发明中,池化层的核大小为a*a,其中a的取值是2到10之间的自然数,优选值为4,步长为b,其中b为1到7之间的自然数,优选值为1。
每个卷积层集合都包括有多个顺序相连的卷积层,在本发明中,卷积层的数量是2个到6个。
所有卷积层均采用激活函数进行数据的激活处理,采用的激活函数可以是Sigmoid、Tanh、ReLU、Leaky-ReLU等。
第二神经网络模型中的权重初始化方法有常量初始化(Constant)、高斯分布初始化(Gaussian)、Positive_unitbal初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)等。
优选地,采用的激活函数为ReLU,采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。
第二神经网络模型可以在步骤(3)重采样后的手势区域中检测出21个二维手势关键点的位置坐标,该神经网络输入为重采样后的手势区域,输出为21个二维手势关键点的空域位置置信图,如图7所示。
(5)将步骤(4)中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标;
具体而言,考虑到不同个体的手指差异性,为了更好的训练接下来步骤(6)中所使用的第三神经网络模型,在进行三维手势关键点检测前,需要对所有二维坐标进行归一化处理。假设21个手势关键点的二维绝对坐标表示为Wi=(xi,yi),其中i=1,2,…,21。
本步骤具体实现方式是:
首先,对该二维相对坐标进行归一化处理,归一化后得到的二维坐标如以下公式所示。
其中s为步骤(2)中提取的图像中食指第一指节的长度。
随后,根据得到的归一化后的二维坐标得到对应的相对坐标具体采用以下公式:
其中表示步骤(2)中提取的图像中掌心的二维归一化坐标。
本步骤获取相对坐标的目的,是为了保持手势姿态的平移不变性。
(6)将步骤(5)得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中,以得到对应的三维手势关键点的空域位置坐标(如图8所示);
具体而言,本发明中的第三神经网络模型是由两路构成,每一路均包括一个卷积层集合、一个重塑层(Reshape layer)、多个丢弃层(Dropout layer)、以及多个全连接层(Full connection layer),两路最终的输出结果就是三维手势关键点的空域位置坐标。
第三神经网络模型中第一路的损失函数定义为预测的手势关键点的三维坐标和真实的手势关键点的坐标的L2范数,第三神经网络模型中第二路的损失函数也定义为预测的视点的三维坐标和真实的视点的三维坐标的L2范数。
卷积层集合包括有多个顺序相连的卷积层,在本发明中,卷积层的数量是2个到6个。
多个全连接层彼此顺次连接,重塑层连接在最后一个卷积层与第一个全连接层之间,任意两个相邻的全连接层通过丢弃层连接。
所有卷积层均采用激活函数进行数据的激活处理,采用的激活函数可以是Sigmoid、Tanh、ReLU、Leaky-ReLU等。
第三神经网络模型中的权重初始化方法有常量初始化(Constant)、高斯分布初始化(Gaussian)、Positive_unitbal初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)等。
优选地,采用的激活函数为ReLU,采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。
例如,第三神经网络模型可以将21个二维手势关键点映射到三维空间中,形成三维手势关键点;该神经网络输入为21个二维手势关键点空域位置置信图,输出为21个三维手势关键点的空域位置坐标,如图8所示。
总而言之,本发明首先借助第一神经网络模型从包含手势的RGB图像中分割出手势区域,再利用第二神经网络模型从手势区域中检测出21个二维手势关键点,最后利用第三神经网络模型将二维手势关键点映射到三维空间中,形成三维手势关键点;本发明的第一、第二和第三神经网络模型构成的三维手势关键点检测方法具有良好的鲁棒性与准确性,且硬件成本偏低,具有广阔的应用空间。
实验结果
本发明的硬件环境包括帧率30、分辨率640*480的普通USB摄像头,以及CPU为Intel至强E5-2650v4、内存为128GB、GPU为NVIDIA Titan X 12GB的深度学习服务器。软件环境主要包括64位的Ubuntu16.04操作系统以及OpenCV。
在RHD数据集中,测试第一神经网络模型对第二神经网络模型的影响。下表1为第二神经网络模型的测试数据表。第二神经网络模型的输入是重采样后的手势区域,输出是21个手势关键点位置置信图。
表1
表1中GT表示输入的手势区域是人工分割的,而Net表示输入的RGB手势图是第一神经网络模型分割的。从表中可以看出,采用Net代替GT会使第二神经网络模型的AUC(AreaUnder Curve,即ROC曲线下方的面积)指标减小,中点估计位置误差(Median EstimatedPosition Error)和平均估计位置误差(Mean Estimated Position Error)指标增加。其中,AUC表示ROC曲线下的面积,是一个概率值,可以理解为被测算法对随机获取的一对正负样本,将正样本排在负样本前面的概率。该值越大,分类效果越好。在此表中,反映的是预测关节点位置与实际位置相隔的平均像素点个数。
为了体现在线手势关节点检测的实验效果,将此系统的在线手势关节点检测演示视频上传至优酷,网址如下:
http://v.youku.com/v_show/id_XMzYyNjE0NDUxMg==.html?spm=a2hzp.8244740.0.0
视频中演示的手势姿态在不断的变化,而系统任然可以实时检测出21个手势关节点的具体位置。
本发明在RHD、STB两个数据集下测试第一、第二和第三神经网络模型构成的三维手势姿态估计网络(如图9所示)的性能,即输入为步骤(2)中提取的图像,输出为21个手势关键点的3D坐标,得到的数据如下表2所示。
表2
表2中估计位置误差的单位为mm(毫米),RHD数据库的图片为软件合成的,而STB不是,从中可以看出第一、第二和第三神经网络模型构成的三维手势姿态估计网络在真实图片上的性能优于在合成图片上的。这也更符合实际需求。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于神经网络的三维手势关键点检测方法,其特征在于,包括以下步骤:
(1)获取手势数据集;
(2)提取步骤(1)中获取的手势数据集中的一幅图像,并将该图像输入训练好的第一神经网络模型中,以得到手势热图;
(3)利用图像分割算法从步骤(2)中得到的手势热图中提取手势区域坐标,并从步骤(2)中提取的图像中分割出与提取的该手势区域坐标对应的手势区域,对该手势区域进行重采样;
(4)将步骤(3)重采样后的手势区域输入训练好的第二神经网络模型中,以得到对应于多个二维手势关键点的空域位置置信图;
(5)将步骤(4)中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标;
(6)将步骤(5)得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中,以得到对应的三维手势关键点的空域位置坐标。
2.根据权利要求1所述的三维手势关键点检测方法,其特征在于,
第一神经网络模型包括多个卷积层集合、以及多个池化层,单个池化层连接在两个相邻的卷积层集合之间;
卷积层集合的数量是2到7个;
池化层的数量是1到6个;
第一神经网络模型的损失函数是图像中每个像素点在第一神经网络模型中的类别预测与该像素点在手势数据集中的真实类别之间的交叉熵。
3.根据权利要求1所述的三维手势关键点检测方法,其特征在于,
图像分割算法是基于阈值的图像分割算法、基于边缘的图像分割算法、基于聚类分析的图像分割算法、或基于小波变换的图像分割算法;
重采样方法是最邻近法、双线性插值法、或双三次插值法。
4.根据权利要求1所述的三维手势关键点检测方法,其特征在于,
第二神经网络模型包括多个卷积层集合、以及多个池化层,单个池化层连接在两个相邻的卷积层集合之间;
卷积层集合的数量是2到7个;
池化层的数量是1到6个;
第二神经网络模型的损失函数定义为预测的手势关键点位置与真实的手势关键点位置的L2范数。
5.根据权利要求1所述的三维手势关键点检测方法,其特征在于,步骤(5)具体为:
首先,对二维相对坐标进行归一化处理,以得到归一化后的二维坐标Wi norm:
其中s为步骤(2)中提取的图像中食指第一指节的长度,Wi=(Xi,Yi),Wi表示手势关键点的二维绝对坐标,且i=[1,n],n为步骤(4)中得到的手势关键点的数量。
随后,根据归一化后的二维坐标得到对应的相对坐标Wi rel,具体采用以下公式:
其中表示步骤(2)中提取的图像中掌心的二维归一化坐标。
6.根据权利要求1所述的三维手势关键点检测方法,其特征在于,
第三神经网络模型是由两路构成,每一路均包括一个卷积层集合、一个重塑层、多个丢弃层、以及多个全连接层,两路最终的输出结果就是三维手势关键点的空域位置坐标;
多个全连接层彼此顺次连接,重塑层连接在最后一个卷积层与第一个全连接层之间,任意两个相邻的全连接层通过丢弃层连接;
第三神经网络模型中第一路的损失函数定义为预测的手势关键点的三维坐标和真实的手势关键点的坐标的L2范数,第三神经网络模型中第二路的损失函数也定义为预测的视点的三维坐标和真实的视点的三维坐标的L2范数。
7.根据权利要求1至6中任意一项所述的三维手势关键点检测方法,其特征在于,
池化层所使用的池化方法是平均池化法或者最大池化法;
池化层的核大小为a*a,步长为b,其中a的取值是2到10之间的自然数,b为1到7之间的自然数。
8.根据权利要求1至6中任意一项所述的三维手势关键点检测方法,其特征在于,
卷积层集合包括有多个顺序相连的卷积层,卷积层的数量是2个到6个;
卷积层均采用激活函数进行数据的激活处理,采用的激活函数可以是Sigmoid、Tanh、ReLU、或Leaky-ReLU。
9.根据权利要求1至8中任意一项所述的三维手势关键点检测方法,其特征在于,
神经网络模型中的权重初始化方法包括常量初始化、高斯分布初始化、Positive_unitbal初始化、均匀分布初始化、xavier初始化、msra初始化、以及双线性初始化等;
神经网络模型采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。
10.一种基于神经网络的三维手势关键点检测系统,其特征在于,包括:
第一模块,用于获取手势数据集;
第二模块,用于提取第一模块中获取的手势数据集中的一幅图像,并将该图像输入训练好的第一神经网络模型中,以得到手势热图;
第三模块,用于利用图像分割算法从第二模块中得到的手势热图中提取手势区域坐标,并从第二模块中提取的图像中分割出与提取的该手势区域坐标对应的手势区域,对该手势区域进行重采样;
第四模块,用于将第三模块重采样后的手势区域输入训练好的第二神经网络模型中,以得到对应于多个二维手势关键点的空域位置置信图;
第五模块,用于将第四模块中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标;
第六模块,用于将第五模块得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中,以得到对应的三维手势关键点的空域位置坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810860857.9A CN109214282B (zh) | 2018-08-01 | 2018-08-01 | 一种基于神经网络的三维手势关键点检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810860857.9A CN109214282B (zh) | 2018-08-01 | 2018-08-01 | 一种基于神经网络的三维手势关键点检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109214282A true CN109214282A (zh) | 2019-01-15 |
CN109214282B CN109214282B (zh) | 2019-04-26 |
Family
ID=64988381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810860857.9A Expired - Fee Related CN109214282B (zh) | 2018-08-01 | 2018-08-01 | 一种基于神经网络的三维手势关键点检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214282B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886341A (zh) * | 2019-02-25 | 2019-06-14 | 厦门美图之家科技有限公司 | 一种训练生成人脸检测模型的方法 |
CN109903268A (zh) * | 2019-01-24 | 2019-06-18 | 刘星宇 | 确定脊柱图像集的异常类型的方法及计算设备 |
CN110147767A (zh) * | 2019-05-22 | 2019-08-20 | 深圳市凌云视迅科技有限责任公司 | 基于二维图像的三维手势姿态预测方法 |
CN110348359A (zh) * | 2019-07-04 | 2019-10-18 | 北京航空航天大学 | 手部姿态追踪的方法、装置及系统 |
CN110378253A (zh) * | 2019-07-01 | 2019-10-25 | 浙江大学 | 一种基于轻量化神经网络的实时关键点检测方法 |
CN110443154A (zh) * | 2019-07-15 | 2019-11-12 | 北京达佳互联信息技术有限公司 | 关键点的三维坐标定位方法、装置、电子设备和存储介质 |
CN110889858A (zh) * | 2019-12-03 | 2020-03-17 | 中国太平洋保险(集团)股份有限公司 | 一种基于点回归的汽车部件分割方法及装置 |
CN110991319A (zh) * | 2019-11-29 | 2020-04-10 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN111079570A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111291718A (zh) * | 2020-02-28 | 2020-06-16 | 上海商汤智能科技有限公司 | 行为预测方法及装置、步态识别方法及装置 |
CN111368668A (zh) * | 2020-02-25 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 三维手部识别方法、装置、电子设备及存储介质 |
CN111462234A (zh) * | 2020-03-27 | 2020-07-28 | 北京华捷艾米科技有限公司 | 一种位置确定方法及装置 |
CN111709269A (zh) * | 2020-04-24 | 2020-09-25 | 中国科学院软件研究所 | 一种深度图像中基于二维关节信息的人手分割方法和装置 |
CN111815754A (zh) * | 2019-04-12 | 2020-10-23 | Oppo广东移动通信有限公司 | 一种三维信息确定方法、三维信息确定装置及终端设备 |
CN112115894A (zh) * | 2020-09-24 | 2020-12-22 | 北京达佳互联信息技术有限公司 | 手部关键点检测模型的训练方法、装置及电子设备 |
CN112215112A (zh) * | 2020-09-30 | 2021-01-12 | 幻境虚拟现实(广州)智能科技研究院有限公司 | 一种可用于手部动作识别的神经网络模型的生成方法和系统 |
CN112509123A (zh) * | 2020-12-09 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、电子设备及存储介质 |
CN112699837A (zh) * | 2021-01-13 | 2021-04-23 | 新大陆数字技术股份有限公司 | 一种基于深度学习的手势识别方法及设备 |
CN112836594A (zh) * | 2021-01-15 | 2021-05-25 | 西北大学 | 一种基于神经网络的三维手部姿态估计方法 |
CN113033256A (zh) * | 2019-12-24 | 2021-06-25 | 武汉Tcl集团工业研究院有限公司 | 一种指尖检测模型的训练方法和设备 |
CN113238650A (zh) * | 2021-04-15 | 2021-08-10 | 青岛小鸟看看科技有限公司 | 手势识别和控制的方法、装置及虚拟现实设备 |
CN113691940A (zh) * | 2021-08-13 | 2021-11-23 | 天津大学 | 一种基于csi图像的增量式智能室内定位方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009114591A1 (en) * | 2008-03-11 | 2009-09-17 | Smithkline Beecham Corporation | Method and apparatus for screening drugs for predictors of quantitatively measured events |
US20110182469A1 (en) * | 2010-01-28 | 2011-07-28 | Nec Laboratories America, Inc. | 3d convolutional neural networks for automatic human action recognition |
US20160174902A1 (en) * | 2013-10-17 | 2016-06-23 | Siemens Aktiengesellschaft | Method and System for Anatomical Object Detection Using Marginal Space Deep Neural Networks |
US20170206405A1 (en) * | 2016-01-14 | 2017-07-20 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
CN107622253A (zh) * | 2017-09-30 | 2018-01-23 | 天津帕比特科技有限公司 | 一种基于神经网络识别设备类型的图像识别方法 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN107808150A (zh) * | 2017-11-20 | 2018-03-16 | 珠海习悦信息技术有限公司 | 人体视频动作识别方法、装置、存储介质及处理器 |
CN108197580A (zh) * | 2018-01-09 | 2018-06-22 | 吉林大学 | 一种基于3d卷积神经网络的手势识别方法 |
CN108230292A (zh) * | 2017-04-11 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
-
2018
- 2018-08-01 CN CN201810860857.9A patent/CN109214282B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009114591A1 (en) * | 2008-03-11 | 2009-09-17 | Smithkline Beecham Corporation | Method and apparatus for screening drugs for predictors of quantitatively measured events |
US20110182469A1 (en) * | 2010-01-28 | 2011-07-28 | Nec Laboratories America, Inc. | 3d convolutional neural networks for automatic human action recognition |
US20160174902A1 (en) * | 2013-10-17 | 2016-06-23 | Siemens Aktiengesellschaft | Method and System for Anatomical Object Detection Using Marginal Space Deep Neural Networks |
US20170206405A1 (en) * | 2016-01-14 | 2017-07-20 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
CN108230292A (zh) * | 2017-04-11 | 2018-06-29 | 北京市商汤科技开发有限公司 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
CN107622253A (zh) * | 2017-09-30 | 2018-01-23 | 天津帕比特科技有限公司 | 一种基于神经网络识别设备类型的图像识别方法 |
CN107767419A (zh) * | 2017-11-07 | 2018-03-06 | 广州深域信息科技有限公司 | 一种人体骨骼关键点检测方法及装置 |
CN107808150A (zh) * | 2017-11-20 | 2018-03-16 | 珠海习悦信息技术有限公司 | 人体视频动作识别方法、装置、存储介质及处理器 |
CN108197580A (zh) * | 2018-01-09 | 2018-06-22 | 吉林大学 | 一种基于3d卷积神经网络的手势识别方法 |
Non-Patent Citations (2)
Title |
---|
AMIT KUMAR, ET AL.: "KEPLER: Key point and pose estimation of Unconstrained Faces by Learning Efficient H-CNN Regressors", 《2017 IEEE 12TH INTERNATIONAL CONFERENCE ON AUTOMATIC FACE & GESTURE RECOGNITION》 * |
DONG-JIE LI, ET AL.: "Gesture Recognition Based on BP Neural Network Improved by Chaotic Genetic Algorithm", 《INTERNATIONAL JOURNAL OF AUTOMATION AND COMPUTING》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903268A (zh) * | 2019-01-24 | 2019-06-18 | 刘星宇 | 确定脊柱图像集的异常类型的方法及计算设备 |
CN109886341A (zh) * | 2019-02-25 | 2019-06-14 | 厦门美图之家科技有限公司 | 一种训练生成人脸检测模型的方法 |
CN111815754B (zh) * | 2019-04-12 | 2023-05-30 | Oppo广东移动通信有限公司 | 一种三维信息确定方法、三维信息确定装置及终端设备 |
CN111815754A (zh) * | 2019-04-12 | 2020-10-23 | Oppo广东移动通信有限公司 | 一种三维信息确定方法、三维信息确定装置及终端设备 |
CN110147767A (zh) * | 2019-05-22 | 2019-08-20 | 深圳市凌云视迅科技有限责任公司 | 基于二维图像的三维手势姿态预测方法 |
CN110147767B (zh) * | 2019-05-22 | 2023-07-18 | 深圳市凌云视迅科技有限责任公司 | 基于二维图像的三维手势姿态预测方法 |
CN110378253A (zh) * | 2019-07-01 | 2019-10-25 | 浙江大学 | 一种基于轻量化神经网络的实时关键点检测方法 |
CN110348359B (zh) * | 2019-07-04 | 2022-01-04 | 北京航空航天大学 | 手部姿态追踪的方法、装置及系统 |
CN110348359A (zh) * | 2019-07-04 | 2019-10-18 | 北京航空航天大学 | 手部姿态追踪的方法、装置及系统 |
CN110443154A (zh) * | 2019-07-15 | 2019-11-12 | 北京达佳互联信息技术有限公司 | 关键点的三维坐标定位方法、装置、电子设备和存储介质 |
CN110443154B (zh) * | 2019-07-15 | 2022-06-03 | 北京达佳互联信息技术有限公司 | 关键点的三维坐标定位方法、装置、电子设备和存储介质 |
CN111079570A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN111079570B (zh) * | 2019-11-29 | 2024-01-26 | 北京奇艺世纪科技有限公司 | 一种人体关键点识别方法、装置及电子设备 |
CN110991319A (zh) * | 2019-11-29 | 2020-04-10 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN110991319B (zh) * | 2019-11-29 | 2021-10-19 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
WO2021103648A1 (zh) * | 2019-11-29 | 2021-06-03 | 百果园技术(新加坡)有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN110889858A (zh) * | 2019-12-03 | 2020-03-17 | 中国太平洋保险(集团)股份有限公司 | 一种基于点回归的汽车部件分割方法及装置 |
CN113033256B (zh) * | 2019-12-24 | 2024-06-11 | 武汉Tcl集团工业研究院有限公司 | 一种指尖检测模型的训练方法和设备 |
CN113033256A (zh) * | 2019-12-24 | 2021-06-25 | 武汉Tcl集团工业研究院有限公司 | 一种指尖检测模型的训练方法和设备 |
CN111368668A (zh) * | 2020-02-25 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 三维手部识别方法、装置、电子设备及存储介质 |
CN111291718B (zh) * | 2020-02-28 | 2022-06-03 | 上海商汤智能科技有限公司 | 行为预测方法及装置、步态识别方法及装置 |
CN111291718A (zh) * | 2020-02-28 | 2020-06-16 | 上海商汤智能科技有限公司 | 行为预测方法及装置、步态识别方法及装置 |
CN111462234A (zh) * | 2020-03-27 | 2020-07-28 | 北京华捷艾米科技有限公司 | 一种位置确定方法及装置 |
CN111709269A (zh) * | 2020-04-24 | 2020-09-25 | 中国科学院软件研究所 | 一种深度图像中基于二维关节信息的人手分割方法和装置 |
CN111709269B (zh) * | 2020-04-24 | 2022-11-15 | 中国科学院软件研究所 | 一种深度图像中基于二维关节信息的人手分割方法和装置 |
CN112115894A (zh) * | 2020-09-24 | 2020-12-22 | 北京达佳互联信息技术有限公司 | 手部关键点检测模型的训练方法、装置及电子设备 |
CN112115894B (zh) * | 2020-09-24 | 2023-08-25 | 北京达佳互联信息技术有限公司 | 手部关键点检测模型的训练方法、装置及电子设备 |
CN112215112A (zh) * | 2020-09-30 | 2021-01-12 | 幻境虚拟现实(广州)智能科技研究院有限公司 | 一种可用于手部动作识别的神经网络模型的生成方法和系统 |
CN112509123A (zh) * | 2020-12-09 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、电子设备及存储介质 |
CN112699837A (zh) * | 2021-01-13 | 2021-04-23 | 新大陆数字技术股份有限公司 | 一种基于深度学习的手势识别方法及设备 |
CN112836594A (zh) * | 2021-01-15 | 2021-05-25 | 西北大学 | 一种基于神经网络的三维手部姿态估计方法 |
CN112836594B (zh) * | 2021-01-15 | 2023-08-08 | 西北大学 | 一种基于神经网络的三维手部姿态估计方法 |
CN113238650B (zh) * | 2021-04-15 | 2023-04-07 | 青岛小鸟看看科技有限公司 | 手势识别和控制的方法、装置及虚拟现实设备 |
US11947729B2 (en) | 2021-04-15 | 2024-04-02 | Qingdao Pico Technology Co., Ltd. | Gesture recognition method and device, gesture control method and device and virtual reality apparatus |
CN113238650A (zh) * | 2021-04-15 | 2021-08-10 | 青岛小鸟看看科技有限公司 | 手势识别和控制的方法、装置及虚拟现实设备 |
CN113691940B (zh) * | 2021-08-13 | 2022-09-27 | 天津大学 | 一种基于csi图像的增量式智能室内定位方法 |
CN113691940A (zh) * | 2021-08-13 | 2021-11-23 | 天津大学 | 一种基于csi图像的增量式智能室内定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109214282B (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214282B (zh) | 一种基于神经网络的三维手势关键点检测方法和系统 | |
Cheng et al. | Jointly network: a network based on CNN and RBM for gesture recognition | |
Zhang et al. | Perceiving 3d human-object spatial arrangements from a single image in the wild | |
WO2021103648A1 (zh) | 手部关键点检测方法、手势识别方法及相关装置 | |
CN105389539B (zh) | 一种基于深度数据的三维手势姿态估计方法及系统 | |
CN108509848B (zh) | 三维物体的实时检测方法及系统 | |
CN103839277B (zh) | 一种户外大范围自然场景的移动增强现实注册方法 | |
CN100407798C (zh) | 三维几何建模系统和方法 | |
Tian et al. | Gesture recognition based on multilevel multimodal feature fusion | |
CN108921926A (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
Hernandez et al. | Accurate 3D face reconstruction via prior constrained structure from motion | |
CN111951381B (zh) | 一种基于单张人脸图片的三维人脸重建系统 | |
Chen et al. | Learning a deep network with spherical part model for 3D hand pose estimation | |
CN110503686A (zh) | 基于深度学习的物体位姿估计方法及电子设备 | |
CN106780713A (zh) | 一种基于单幅照片的三维人脸建模方法及系统 | |
CN111709268B (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN111951384A (zh) | 一种基于单张人脸图片的三维人脸重建方法和系统 | |
CN111583408B (zh) | 基于手绘草图的人体三维建模系统 | |
Bhattacharjee et al. | A survey on sketch based content creation: from the desktop to virtual and augmented reality | |
CN107194984A (zh) | 移动端实时高精度三维建模方法 | |
CN110751097A (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN108537887A (zh) | 基于3d打印的草图与模型库三维视图匹配方法 | |
Huang et al. | Network algorithm real-time depth image 3D human recognition for augmented reality | |
Feng et al. | [Retracted] Research and Application of Multifeature Gesture Recognition in Human‐Computer Interaction Based on Virtual Reality Technology | |
Cai et al. | 3D face reconstruction and dense alignment with a new generated dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190426 |