CN107423698B

CN107423698B - 一种基于并联卷积神经网络的手势估计方法

Info

Publication number: CN107423698B
Application number: CN201710575403.2A
Authority: CN
Inventors: 胡友民; 胡中旭; 吴波; 刘颉; 肖玲; 王诗杰; 李雪莲; 武敏健
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2019-11-22
Anticipated expiration: 2037-07-14
Also published as: CN107423698A

Abstract

本发明属于自动识别技术领域，并公开了一种基于并联卷积神经网络的手势估计方法，包括以下步骤：S1、采用RGB‑D相机获得彩色图像和深度图像；S2、根据预先训练得到的手部分类模块，在彩色图像上识别出手部所在的位置；S3、根据手部在彩色图像上对应的位置，找到其在深度图像上对应的位置，然后将手部深度图分离出来；S4、将分离出的深度图转化为灰度图，然后将灰度图输入并联卷积神经网络手势估计模块进行识别，从而获得能够表示手部姿态的多个关节点坐标；S5、输出手势结果。本发明提供了一种端到端的手势估计网络架构，降低了算法的复杂度，并联结构极大提高了网络收敛速度，极大节省了训练时间，提高了效率。

Description

一种基于并联卷积神经网络的手势估计方法

技术领域

本发明属于自动识别技术领域，更具体地，涉及一种手势估计方法。

背景技术

手势估计应用于诸多领域，如手语识别，人机交互，以及增强现实等，其目的在于通过图像的方式估计出手部若干个关节点坐标。与一般的手势识别不同，手势估计是估计手部若干个关节点的坐标，而不是简单的对手势进行分类，因此技术上难度更高。随着消费级深度相机的兴起，如Kinect等，引发了新一轮的基于深度传感器的研究热潮。但是对于手势估计仍然存在众多挑战，主要有以下几个原因：1.由于手部关节拥有多个自由度，因此手势姿态属于高维空间；2.手指之间相似性较高，且比较灵活容易相互遮挡；3.在手势追踪过程中由于移动速度较快容易产生噪声。

对于手势估计一种比较常用的做法是利用手部的3D模型去拟合输入的深度图像。然而这种方法比较复杂，一般需要多个假设。同时它也需要设计评估深度图与3d模型匹配程度的准则，然而建立该准则并不是简单的任务。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种并联卷积神经网络的手势估计方法，能提高手势估计的精确度。

为实现上述目的，按照本发明，提供了一种基于并联卷积神经网络的手势估计方法，其特征在于，包括以下步骤：

S1、图像获取：采用RGB-D相机获得彩色图像和深度图像；

S2、图像分割：根据预先训练得到的手部分类模块，在彩色图像上识别出手部所在的位置；

S3、手部深度图获取：根据手部在彩色图像上对应的位置，找到其在深度图像上对应的位置，然后将手部深度图分离出来；

S4、手势估计：将分离出的深度图转化为灰度图，然后将灰度图输入并联卷积神经网络手势估计模块进行识别，从而获得能够表示手部姿态的多个关节点坐标；

S5、结果输出：输出手势结果。

优选地，步骤S2中，利用训练得到的手部分类模块的识别手部位置的过程具体如下：

1)、构建图像金字塔，从而获得多幅彩色图像，然后获取各彩色图像的梯度信息；

2)、固定选取框以固定步长分别扫描每幅彩色图像，每经过一处，计算统计当前框内的HOG特征；

3)、将得到的HOG特征输入训练好的手部分类模块中进行扫描识别，保存识别的手部特征；

4)、扫描识别完成后，得到一组选取框的坐标值，采用最大化抑制合并重叠的选取框，最终得到含有手部的扫描框，从而完成图像分割。

优选地，步骤S2中，手部分类模块通过以下步骤训练获得：

1)、收集含有手部的图片，且手部占图片的面积大约80％以上，然后再收集若干背景图片；

2)、计算收集到图片的HOG特征，然后含有手部的为正例，背景图为反例；

3)、采用支持向量机进行训练，求最优化的权重和偏置，最终得到训练好的手部分类模块。

优选地，步骤S4中，手势估计模块通过下述步骤获得：

1)、收集含有标注的手部深度图，采用了公开数据集，该公开数据集含有选定的标注好的手部深度图；

2)、采用数据增强的方式，扩充训练集；

3)、设计并联的深度卷积神经网络结构：该网络结构由深层网络和浅层网络并联形成，深层网络决定了网络的精确度，浅层网络决定网络的收敛速度；

4)、网络的目标函数J如式(1)，训练目标是求解最优的网络权重值w，以使目标函数J的值最小；

其中x_i为训练样本,y_i为训练样本对应的标签值，N为训练样本的个数，λ为惩罚系数，f(x_i)是训练样本x_i对应的网络预测值，w是网络权重，||w||₂为权重w的L2范数；

5)、网络训练算法采用随机梯度下降，将训练集分为多个小集合，每次随机无放回的抽取一个小集合的样本将其送入网络，求解目标函数得到的误差，然后利用反向传播算法将误差回传到每一层，再通过梯度下降算法更新权重，这样重复多次可将全部样本抽取一遍，称之为一个周期，最终训练多个周期；

6)、将最终训练得到的网络权重保存起来，即可得到训练好的手势估计模块。

优选地，步骤3)中网络结构的输出层采用的输出函数为：

其中，x为输入量，L为阈值常数，α和β分别为函数系数并且两者取值范围均为0到1，而且均随着训练过程而衰减。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1)本发明提供了一种端到端的手势估计网络架构，降低了算法的复杂度，并联结构极大提高了网络收敛速度，极大节省了训练时间，提高了效率；

2)提高网络精确度，知道网络越深越关注局部特征，越浅越关注整体特征，因此采用并联结构，同时利用了输入图像的整体特征和局部特征，从而提高网络精确度；

3)提高网络泛化性和鲁棒性，通过采用数据增强的方式，扩充了数据集，提高了网络泛化能力，注意到现有的深度传感器得到的深度图往往含有噪声和信息缺失，利用数据增强的方式给训练集添加空洞和噪声，提高了网络的鲁棒性。

附图说明

图1是本发明的基于并联卷积神经网络的手势估计方法流程图；

图2是数据增强示意图；

图3是本发明设计的并联卷积神经网络的结构图；

图4是本发明设计的激活函数；

图5是本发明的实施效果；

图6是14个关节点位置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

参照图1～图6，一种基于并联卷积神经网络的手势估计方法，包括以下步骤：

1)图像获取：通过RGB-D相机获取包含人手的彩色图和深度图；

2)图像分割：采用一个固定的选取框以固定步长扫描彩色图像金字塔，每经过一处计算当前框内的HOG特征，然后将该特征输入训练好的手部分类模块，得出是否包含人手，如果是则记录当前选取框的坐标，扫描完成后，统计确定的选取框，并将有重叠的进行合并。最终得到一个或几个含有手部的选取框。

3)手部深度图获取：在对应的深度图上选取上述含有手部的扫描框，并且加以固定深度，形成包围盒，该包围盒可以正确获取手部的深度信息；

4)手势估计：得到手部的深度信息后，将其转化为灰度图，并且归一化为固定大小128x128，输入训练好的基于并联卷积神经网络的手势估计模块中，然后得到14个手部关节点的三维坐标；

5)输出结果：利用得到的14个手部关节点坐标，即可恢复出手势的姿态。需要说明的是，本方法不仅限于输出该14个关节点，如需希望输出其他不同的关节点，只需按照权利要求4所述的方法重新训练手势估计模块即可。

进一步的，图像分割的具体过程分为

2.1)构建图像金字塔并计算图片的梯度信息；

2.2)固定选取框以固定步长扫描图像金字塔，即以固定大小的选取框分别扫描不同尺寸的彩色图像，每经过一处，计算统计当前框内的HOG特征；

2.3)将得到的HOG特征输入训练好的手部分类模块中，判断当前框内是否含有手部，如果是，则保存当前选取框的坐标；

2.4)扫描完成后，得到一组选取框的坐标值，采用最大化抑制合并重叠的选取框，最终得到若干个选取框。

所述步骤2.1中计算图片的梯度是这样计算的:

图像中像素点(x,y)的梯度为：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

式中x,y分别表示像素点水平方向和垂直方向上的坐标值，G_x(x,y)和G_y(x,y)分别表示输入图像中像素点(x,y)处的水平方向和垂直方向上的梯度，H(x,y)表示(x,y)处的像素值。

则像素点(x,y)处的梯度幅值和梯度方向分别为：

式中G(x,y)表示梯度幅值，α(x,y)表示梯度方向。

进一步的，手部分类模块的制作过程为：

1)收集含有手部的图片，且手部占图片的面积大约80％以上，然后再收集若干背景图片；

2)计算收集到图片的HOG特征，然后含有手部的为正例，背景图为反例；

3)采用支持向量机(SVM)进行训练，求最优化的权重和偏置，最终得到训练好的手部分类模块。

进一步的手势估计模块是制作过程为：

1)收集含有标注的手部深度图，采用了公开数据集NYU，该数据集含有7万余张标注好的手部深度图；

2)手势估计属于高维空间，因此需要大量数据，采用数据增强的方式，如图2所示，扩充了训练集，将数据集扩充了30倍；

3)设计了一种并联的深度卷积神经网络结构，该结构如图3所示，其是方法的核心，该网络由深层网络和浅层网络并联形成，深层网络决定了网络的精确度，浅层网络决定网络的收敛速度，同时也会提高网络的精确度，该网络有几个特点：1.端到端的网络，直接输入手部深度图即可得到14个关节点坐标；2.没有传统的采样层，而是通过加大卷积核的步长来实现下采样，这样使下采样也可学习；3.网络为浅层和深层并联，这样可以同时利用局部信息和整体信息；4.输出层采用自己设计的输出函数。

4)网络的目标函数为下式，训练目标是求解最优的网络权重值w，以使目标函数J的值最小，为了提高泛化能力，采用了正则化技术和Dropout技术；

其中x_i为训练样本,y_i为训练样本对应的标签值，N为训练样本的个数，λ为惩罚系数，f(x_i)是训练样本x_i对应的网络预测值，w是网络权重，||w||₂为权重w的L2范数。

5)网络训练算法采用随机梯度下降，将训练集分为一个个小集合(batch)，每个集合大小为128，每次随机无放回的抽取一个batch的样本将其送入网络，求解目标函数得到的误差，然后利用反向传播算法将误差回传到每一层，再通过梯度下降算法更新权重，这样重复16000次可将全部样本抽取一遍，称之为一个周期，最终训练10个周期，共计约4天时间。

6)将最终训练得到的网络权重保存起来，即可得到训练好的手势估计模块。

进一步，设计的输出函数为：

其中x为输入量，L指阈值常数，α和β分别为函数系数，取值范围为0到1，而且均随着训练过程而衰减。如图4所示。

本发明不是局限于分类识别几种不同的手势，而是直接根据手部图像实时估计出当前的手势姿态，精度在公开数据集上达到了世界一流的水准，估计效果如图6所示，关键点坐标平均误差为6.9个像素，识别时间通过GPU加速可以达到30帧每秒。

本发明提供了一种算法框架以及深度神经网络配置，该网络配置可以在目前有限的计算条件下达到最优的精度，其它使用者可以采用该配置训练自己的手势估计器，并且可以修改最终输出关节点的个数，得到关节点坐标后，使用者可以根据自身需要使用这些信息。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于并联卷积神经网络的手势估计方法，其特征在于，包括以下步骤：

S1、图像获取：采用RGB-D相机获得彩色图像和深度图像；

S4、手势估计：将分离出的深度图转化为灰度图，然后将灰度图输入并联卷积神经网络手势估计模块进行识别，从而获得能够表示手部姿态的多个关节点坐标，其中，手势估计模块通过下述步骤获得：

2)、采用数据增强的方式，扩充训练集；

其中，x_i为训练样本,y_i为训练样本对应的标签值，N为训练样本的个数，λ为惩罚系数，f(x_i)是训练样本x_i对应的网络预测值，w是网络权重，||w||₂为权重w的L2范数；

6)、将最终训练得到的网络权重保存起来，即可得到训练好的手势估计模块；

S5、结果输出：输出手势结果。

2.根据权利要求1所述的一种基于并联卷积神经网络的手势估计方法，其特征在于，步骤S2中，利用训练得到的手部分类模块的识别手部位置的过程具体如下：

3.根据权利要求1所述的一种基于并联卷积神经网络的手势估计方法，其特征在于，步骤S2中，手部分类模块通过以下步骤训练获得：

4.根据权利要求1所述的一种基于并联卷积神经网络的手势估计方法，其特征在于，步骤3)中网络结构的输出层采用的输出函数为：