CN109214282B

CN109214282B - 一种基于神经网络的三维手势关键点检测方法和系统

Info

Publication number: CN109214282B
Application number: CN201810860857.9A
Authority: CN
Inventors: 侯建华; 麻建; 项俊; 张国帅
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-04-26
Anticipated expiration: 2038-08-01
Also published as: CN109214282A

Abstract

本发明公开了一种基于神经网络的三维手势关键点检测方法，包括以下步骤：获取包含手势区域信息与手势二维、三维关键点位置信息的手势数据集；训练手势分割网络，该网络以包含手势的RGB图像为输入，可以检测出RGB图像中的手势区域；对手势分割网络检测出的手势区域进行截取、上采样或下采样；训练二维手势关键点检测网络，该网络可以检测出手势区域图像中的多个二维手势关键点；将三维手势关键点的绝对坐标转换为相对坐标；训练二维到三维的手势关键点映射网络，该网络可以将多个二维手势关键点映射到三维空间中，形成三维手势关键点。本发明能够快速有效的从包含手势的RGB图像中准确检测出三维手势关键点。

Description

一种基于神经网络的三维手势关键点检测方法和系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于神经网络的三维手势关键点检测方法和系统。

背景技术

三维手势关键点检测技术是三维计算机视觉研究领域的重要内容之一，为动态手势识别、手势姿态预测、动作异常检测、虚拟现实等各种图像处理技术提供了重要基础；其主要任务是输入包含手势的图像，经过该技术处理后，输出给定图像中的三维手势关键点坐标，其中手势关键点包含各手指指尖与关节点；在三维手势关键点检测过程中，手势形状具有随机性，手势姿态灵活多变，各个手指可能互有遮挡，且目标手势的背景图像复杂多变，这为快速准确的实现三维手势关键点检测带来了困难。

目前主流的三维手势关键点检测方法都是基于深度摄像头，常见的深度摄像头有2009年微软首次提出的Kinect，它可以捕获用户在三维空间中的动作，也可以进行人脸识别；另外还有2013年Leap公司首次发布的Leap Motion，与Kinect识别用户全身的运动姿态不同，Leap Motion更注重于对手势姿态的三维识别，用户可以通过手势在PC上执行浏览网页、翻阅图片等操作。

虽然现有基于深度摄像头方法能够通过硬件设备计算出目标物体与当前摄像头的距离，并直接获取图像的深度信息，但此类方法仍具有测量范围小、硬件成本偏高、不适用于大规模应用场景的缺点。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于神经网络的三维手势关键点检测方法和系统，其目的在于，利用三维手势姿态估计网络，直接从包含手势的单帧RGB图像中估算出三维手势关键点的位置坐标，从而解决现有动态手势识别方法中存在的测量范围小、硬件成本偏高、不适用于大规模应用场景的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于神经网络的三维手势关键点检测方法，包括以下步骤：

(1)获取手势数据集；

(2)提取步骤(1)中获取的手势数据集中的一幅图像，并将该图像输入训练好的第一神经网络模型中，以得到手势热图；

(3)利用图像分割算法从步骤(2)中得到的手势热图中提取手势区域坐标，并从步骤(2)中提取的图像中分割出与提取的该手势区域坐标对应的手势区域，对该手势区域进行重采样；

(4)将步骤(3)重采样后的手势区域输入训练好的第二神经网络模型中，以得到对应于多个二维手势关键点的空域位置置信图；

(5)将步骤(4)中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标；

(6)将步骤(5)得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中，以得到对应的三维手势关键点的空域位置坐标。

优选地，第一神经网络模型包括多个卷积层集合、以及多个池化层，单个池化层连接在两个相邻的卷积层集合之间，卷积层集合的数量是2到7个，池化层的数量是1到6个，第一神经网络模型的损失函数是图像中每个像素点在第一神经网络模型中的类别预测与该像素点在手势数据集中的真实类别之间的交叉熵。

优选地，图像分割算法是基于阈值的图像分割算法、基于边缘的图像分割算法、基于聚类分析的图像分割算法、或基于小波变换的图像分割算法，重采样方法是最邻近法、双线性插值法、或双三次插值法。

优选地，第二神经网络模型包括多个卷积层集合、以及多个池化层，单个池化层连接在两个相邻的卷积层集合之间，卷积层集合的数量是2到7个，池化层的数量是1到6个，第二神经网络模型的损失函数定义为预测的手势关键点位置与真实的手势关键点位置的L2范数。

优选地，步骤(5)具体为：首先，对二维相对坐标进行归一化处理，以得到归一化后的二维坐标

其中s为步骤(2)中提取的图像中食指第一指节的长度，Wi＝(Xi，Yi)，Wi表示手势关键点的二维绝对坐标，且i＝[1，n]，n为步骤(4)中得到的手势关键点的数量；

随后，根据归一化后的二维坐标得到对应的相对坐标具体采用以下公式：

其中表示步骤(2)中提取的图像中掌心的二维归一化坐标。

优选地，第三神经网络模型是由两路构成，每一路均包括一个卷积层集合、一个重塑层、多个丢弃层、以及多个全连接层，两路最终的输出结果就是三维手势关键点的空域位置坐标，多个全连接层彼此顺次连接，重塑层连接在最后一个卷积层与第一个全连接层之间，任意两个相邻的全连接层通过丢弃层连接，第三神经网络模型中第一路的损失函数定义为预测的手势关键点的三维坐标和真实的手势关键点的坐标的L2范数，第三神经网络模型中第二路的损失函数也定义为预测的视点的三维坐标和真实的视点的三维坐标的L2范数。

优选地，池化层所使用的池化方法是平均池化法或者最大池化法，池化层的核大小为a*a，步长为b，其中a的取值是2到10之间的自然数，b为1到7之间的自然数。

优选地，卷积层集合包括有多个顺序相连的卷积层，卷积层的数量是2个到6个，卷积层均采用激活函数进行数据的激活处理，采用的激活函数可以是Sigmoid、Tanh、ReLU、或Leaky-ReLU。

优选地，神经网络模型中的权重初始化方法包括常量初始化、高斯分布初始化、Positive_unitbal初始化、均匀分布初始化、xavier初始化、msra初始化、以及双线性初始化等，神经网络模型采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。

按照本发明的另一方面，提供了一种基于神经网络的三维手势关键点检测系统，包括：

第一模块，用于获取手势数据集；

第二模块，用于提取第一模块中获取的手势数据集中的一幅图像，并将该图像输入训练好的第一神经网络模型中，以得到手势热图；

第三模块，用于利用图像分割算法从第二模块中得到的手势热图中提取手势区域坐标，并从第二模块中提取的图像中分割出与提取的该手势区域坐标对应的手势区域，对该手势区域进行重采样；

第四模块，用于将第三模块重采样后的手势区域输入训练好的第二神经网络模型中，以得到对应于多个二维手势关键点的空域位置置信图；

第五模块，用于将第四模块中得到的每个空域位置置信图中二维手势关键点的绝对坐标转换为相对坐标；

第六模块，用于将第五模块得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中，以得到对应的三维手势关键点的空域位置坐标。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明由于采用了步骤(6)，利用神经网络的非线性表达能力，将步骤(4)中得到的二维手势关键点映射到三维空间中形成了三维手势关键点，避免了深度摄像头的使用，降低了三维手势关键点检测方法的硬件成本，提高了该检测方法的应用范围，解决现有方法中存在的硬件成本偏高、不适用于大规模应用场景的技术问题。

(2)本发明由于采用了步骤(2)，在三个神经网络模型构成的三维手势姿态估计网络的训练样本中包含了大量的不同距离下采集的样本图像，增强了三维手势姿态估计网络对不同距离的图像分割的鲁棒性与准确性，提高了整个三维手势关键点检测方法的测量范围，因此能够解决现有方法中存在的测量范围小的技术问题。

(3)本发明由于采用了步骤(4)和步骤(5)，在分割的手势区域图像中检测出了二维手势关键点，并将三维关键点的绝对坐标转换为相对坐标，降低了模型复杂度低，提高了系统的稳定性。

附图说明

图1是本发明基于神经网络的三维手势关键点检测方法的流程示意图；

图2是本发明方法的步骤(1)中获取的手势数据集的图像中多个手势关键点的位置示意图；

图3(A)、(B)和(C)分别是本发明方法的步骤(1)中获取的手势数据集对应的手势RGB图、深度图、以及掩模图；

图4是本发明方法的步骤(2)中从步骤(1)中获取的手势数据集中提取的一幅示例性图像；

图5是本发明方法的步骤(2)处理后得到的手势热图；

图6是本发明方法的步骤(3)处理后得到的手势区域的示意图；

图7是本发明方法的步骤(4)处理后得到的21个二维手势关键点的空域位置置信图；

图8是本发明方法的步骤(4)处理后得到的21个三维手势关键点的空域位置坐标；

图9是本发明的第一、第二和第三神经网络模型构成的三维手势关键点检测网络的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明基于神经网络的三维手势关键点检测方法包括以下步骤：

(1)获取手势数据集；

具体而言，手势数据集包括手势区域信息、手势二维关键点位置信息、以及手势三维关键点位置信息。

常用的手势数据集有具有手工关键点注释的手势(Hands with Manual KeypointAnnotations)、德克斯特对象(Dexter Object)、手势姿态数据集(Rendered Hand PoseDataset，简称RHD)、立体手势跟踪基准(Stereo hand pose tracking benchmark，简称STB)等；

以RHD数据集为例，该数据集是使用仿真软件合成的，数据集中包含了20个角色，每个角色在不同背景环境和光照条件下执行39个不同动作；该数据集提供了41258张图像作为训练集，包含了16个角色与31个动作，还提供了2728张图像作为测试集，包含了4个角色与8个动作；数据集中的每张图像都是分辨率为320*320，并自带21个手势关键点的完整标注信息，21个手势关键点的位置如图2所示，另外该数据集还带有对应的手势RGB图、深度图、掩模图，如图3所示。

(2)提取步骤(1)中获取的手势数据集中的一幅图像(如图4所示)，并将该图像输入训练好的第一神经网络模型中，以得到手势热图(如图5所示)；

具体而言，本发明中的第一神经网络模型包括多个卷积层(ConvolutionalLayer)集合、以及多个池化层(Pooling Layer)，单个池化层连接在两个相邻的卷积层集合之间，由此可见，池化层的总数等于卷积层集合的总数减1。在本发明中，卷积层集合的数量是2到7个，对应的池化层的数量就是1到6个。

该第一神经网络模型的损失函数定义为图像中每个像素点在第一神经网络模型中的类别预测与该像素点在手势数据集中的真实类别之间的交叉熵(Softmax cross-entropy)。

本发明中池化层所使用的池化方法可以是平均池化法或者最大池化法。

在本发明中，池化层的核大小为a*a，其中a的取值是2到10之间的自然数，优选值为4，步长为b，其中b为1到7之间的自然数，优选值为1。

每个卷积层集合都包括有多个顺序相连的卷积层，在本发明中，卷积层的数量是2个到6个。

所有卷积层均采用激活函数进行数据的激活处理，采用的激活函数可以是Sigmoid、Tanh、ReLU、Leaky-ReLU等。

第一神经网络模型中的权重初始化方法有常量初始化(Constant)、高斯分布初始化(Gaussian)、Positive_unitbal初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)等。

优选地，采用的激活函数为ReLU，采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。

具体而言，本步骤中使用的图像分割算法是基于阈值的图像分割算法、基于边缘的图像分割算法、基于聚类分析的图像分割算法、基于小波变换的图像分割算法等，其中优选采用的是基于阈值的图像分割算法。

本步骤中重采样的目的，是使得步骤(2)中提取的所有图像对应的所有手势区域均保持统一的尺寸，该尺寸的范围在24*24至1920*1920之间，优选的尺寸大小为256*256，如图6所示。

本发明中采用的重采样方法有最邻近法(Nearest Neighbor Resampling)、双线性插值法(Bilinear Resampling)、双三次插值法(Bicubic Resampling)等，其中优选采用双线性插值法。

(4)将步骤(3)重采样后的手势区域输入训练好的第二神经网络模型中，以得到对应于多个二维手势关键点的空域位置置信图(如图7所示)；

具体而言，本发明中的第二神经网络模型包括多个卷积层集合、以及多个池化层，单个池化层连接在两个相邻的卷积层集合之间，由此可见，池化层的总数等于卷积层集合的总数减1。在本发明中，卷积层集合的数量是2到7个，对应的池化层的数量就是1到6个。

该第二神经网络模型的损失函数定义为预测的手势关键点位置与真实的手势关键点位置的L2范数。

第二神经网络模型中的权重初始化方法有常量初始化(Constant)、高斯分布初始化(Gaussian)、Positive_unitbal初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)等。

第二神经网络模型可以在步骤(3)重采样后的手势区域中检测出21个二维手势关键点的位置坐标，该神经网络输入为重采样后的手势区域，输出为21个二维手势关键点的空域位置置信图，如图7所示。

具体而言，考虑到不同个体的手指差异性，为了更好的训练接下来步骤(6)中所使用的第三神经网络模型，在进行三维手势关键点检测前，需要对所有二维坐标进行归一化处理。假设21个手势关键点的二维绝对坐标表示为Wi＝(xi，yi)，其中i＝1，2，…，21。

本步骤具体实现方式是：

首先，对该二维相对坐标进行归一化处理，归一化后得到的二维坐标如以下公式所示。

其中s为步骤(2)中提取的图像中食指第一指节的长度。

随后，根据得到的归一化后的二维坐标得到对应的相对坐标具体采用以下公式：

其中表示步骤(2)中提取的图像中掌心的二维归一化坐标。

本步骤获取相对坐标的目的，是为了保持手势姿态的平移不变性。

(6)将步骤(5)得到的每个空域位置置信图中二维手势关键点的相对坐标输入训练好的第三神经网络模型中，以得到对应的三维手势关键点的空域位置坐标(如图8所示)；

具体而言，本发明中的第三神经网络模型是由两路构成，每一路均包括一个卷积层集合、一个重塑层(Reshape layer)、多个丢弃层(Dropout layer)、以及多个全连接层(Full connection layer)，两路最终的输出结果就是三维手势关键点的空域位置坐标。

第三神经网络模型中第一路的损失函数定义为预测的手势关键点的三维坐标和真实的手势关键点的坐标的L2范数，第三神经网络模型中第二路的损失函数也定义为预测的视点的三维坐标和真实的视点的三维坐标的L2范数。

卷积层集合包括有多个顺序相连的卷积层，在本发明中，卷积层的数量是2个到6个。

多个全连接层彼此顺次连接，重塑层连接在最后一个卷积层与第一个全连接层之间，任意两个相邻的全连接层通过丢弃层连接。

第三神经网络模型中的权重初始化方法有常量初始化(Constant)、高斯分布初始化(Gaussian)、Positive_unitbal初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)等。

例如，第三神经网络模型可以将21个二维手势关键点映射到三维空间中，形成三维手势关键点；该神经网络输入为21个二维手势关键点空域位置置信图，输出为21个三维手势关键点的空域位置坐标，如图8所示。

总而言之，本发明首先借助第一神经网络模型从包含手势的RGB图像中分割出手势区域，再利用第二神经网络模型从手势区域中检测出21个二维手势关键点，最后利用第三神经网络模型将二维手势关键点映射到三维空间中，形成三维手势关键点；本发明的第一、第二和第三神经网络模型构成的三维手势关键点检测方法具有良好的鲁棒性与准确性，且硬件成本偏低，具有广阔的应用空间。

实验结果

本发明的硬件环境包括帧率30、分辨率640*480的普通USB摄像头，以及CPU为Intel至强E5-2650v4、内存为128GB、GPU为NVIDIA Titan X 12GB的深度学习服务器。软件环境主要包括64位的Ubuntu16.04操作系统以及OpenCV。

在RHD数据集中，测试第一神经网络模型对第二神经网络模型的影响。下表1为第二神经网络模型的测试数据表。第二神经网络模型的输入是重采样后的手势区域，输出是21个手势关键点位置置信图。

表1

表1中GT表示输入的手势区域是人工分割的，而Net表示输入的RGB手势图是第一神经网络模型分割的。从表中可以看出，采用Net代替GT会使第二神经网络模型的AUC(AreaUnder Curve，即ROC曲线下方的面积)指标减小，中点估计位置误差(Median EstimatedPosition Error)和平均估计位置误差(Mean Estimated Position Error)指标增加。其中，AUC表示ROC曲线下的面积，是一个概率值，可以理解为被测算法对随机获取的一对正负样本，将正样本排在负样本前面的概率。该值越大，分类效果越好。在此表中，反映的是预测关节点位置与实际位置相隔的平均像素点个数。

为了体现在线手势关节点检测的实验效果，将此系统的在线手势关节点检测演示视频上传至优酷，网址如下：

http://v.youku.com/v_show/id_XMzYyNjE0NDUxMg＝＝.html？spm＝a2hzp.8244740.0.0

视频中演示的手势姿态在不断的变化，而系统任然可以实时检测出21个手势关节点的具体位置。

本发明在RHD、STB两个数据集下测试第一、第二和第三神经网络模型构成的三维手势姿态估计网络(如图9所示)的性能，即输入为步骤(2)中提取的图像，输出为21个手势关键点的3D坐标，得到的数据如下表2所示。

表2

表2中估计位置误差的单位为mm(毫米)，RHD数据库的图片为软件合成的，而STB不是，从中可以看出第一、第二和第三神经网络模型构成的三维手势姿态估计网络在真实图片上的性能优于在合成图片上的。这也更符合实际需求。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的三维手势关键点检测方法，其特征在于，包括以下步骤：

(1)获取手势数据集；

2.根据权利要求1所述的三维手势关键点检测方法，其特征在于，

第一神经网络模型包括多个卷积层集合、以及至少一个池化层，单个池化层连接在两个相邻的卷积层集合之间；

卷积层集合的数量是2到7个；

池化层的数量是1到6个；

第一神经网络模型的损失函数是图像中每个像素点在第一神经网络模型中的类别预测与该像素点在手势数据集中的真实类别之间的交叉熵。

3.根据权利要求1所述的三维手势关键点检测方法，其特征在于，

图像分割算法是基于阈值的图像分割算法、基于边缘的图像分割算法、基于聚类分析的图像分割算法、或基于小波变换的图像分割算法；

重采样方法是最邻近法、双线性插值法、或双三次插值法。

4.根据权利要求1所述的三维手势关键点检测方法，其特征在于，

第二神经网络模型包括多个卷积层集合、以及至少一个池化层，单个池化层连接在两个相邻的卷积层集合之间；

卷积层集合的数量是2到7个；

池化层的数量是1到6个；

第二神经网络模型的损失函数定义为预测的手势关键点位置与真实的手势关键点位置的L2范数。

5.根据权利要求1所述的三维手势关键点检测方法，其特征在于，步骤(5)具体为：

首先，对二维绝对坐标进行归一化处理，以得到归一化后的二维坐标W_i ^norm：

其中s为步骤(2)中提取的图像中食指第一指节的长度，W_i＝(X_i，Y_i)，W_i表示手势关键点的二维绝对坐标，且i＝[1，n]，n为步骤(4)中得到的手势关键点的数量；

随后，根据归一化后的二维坐标得到对应的相对坐标W_i ^rel，具体采用以下公式：

其中表示步骤(2)中提取的图像中掌心的二维归一化坐标。

6.根据权利要求1所述的三维手势关键点检测方法，其特征在于，

第三神经网络模型是由两路构成，每一路均包括一个卷积层集合、一个重塑层、多个丢弃层、以及多个全连接层，两路最终的输出结果就是三维手势关键点的空域位置坐标；

多个全连接层彼此顺次连接，重塑层连接在最后一个卷积层与第一个全连接层之间，任意两个相邻的全连接层通过丢弃层连接；

7.根据权利要求1至6中任意一项所述的三维手势关键点检测方法，其特征在于，

池化层所使用的池化方法是平均池化法或者最大池化法；

池化层的核大小为a*a，步长为b，其中a的取值是2到10之间的自然数，b为1到7之间的自然数。

8.根据权利要求1至6中任意一项所述的三维手势关键点检测方法，其特征在于，

卷积层集合包括有多个顺序相连的卷积层，卷积层的数量是2个到6个；

卷积层均采用激活函数进行数据的激活处理，采用的激活函数可以是Sigmoid、Tanh、ReLU、或Leaky-ReLU。

9.根据权利要求1至6中任意一项所述的三维手势关键点检测方法，其特征在于，

神经网络模型中的权重初始化方法包括常量初始化、高斯分布初始化、Positive_unitball初始化、均匀分布初始化、xavier初始化、msra初始化、以及双线性初始化；

神经网络模型采用的权重初始化方式为均值为0、方差为1的高斯分布初始化方式。

10.一种基于神经网络的三维手势关键点检测系统，其特征在于，包括：

第一模块，用于获取手势数据集；