CN110046558A

CN110046558A - 一种用于机器人控制的手势识别方法

Info

Publication number: CN110046558A
Application number: CN201910241791.XA
Authority: CN
Inventors: 李冰; 郑钦文; 王亚洲; 张�林; 刘勇; 董乾; 王刚; 赵霞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-07-23

Abstract

本发明公开了一种用于机器人控制的手势识别方法，包括：获取当前控制者图像中身体的RGB信息、深度信息和骨骼信息；采用阈值分割方法得出左右手坐标位置，获取控制者左手待识别手势的RGB图和深度图，预处理后输入到CNN网络，提取左手待识别手势的RGB和深度特征向量且合并后输入第一SVM分类器识别，输出左手待识别手势标签；判断当前是否需要开启动态识别线程，若判断为否，则返回采集当前控制者图像；否则采集右手手势视频流，输入到循环3DCNN网络和第二SVM分类器识别，输出得到右手手势对应标签；转换成控制指令，并通过PID算法实时控制机器人的移动。本发明使用静态和动态手势相结合的方式，在运算量较大的同时具有很高的准确率，减小系统的资源占用。

Description

一种用于机器人控制的手势识别方法

技术领域

本发明涉及一种用于机器人控制的手势识别方法，属于人机智能交互的技术领域。

背景技术

手势是人类交换信息的一种基本方式，所以人们通过自然手势进行人机交互是当今火热的发展方向。同时，非接触式的人机交互能在安全性和舒适性方面带来更加良好的体验，计算机视觉系统是进行人机交互最有效的途径之一。手势识别在人机交互、手语识别、虚拟现实等领域有着广泛的应用，在人机交互方面通过手势识别控制轮式机器人移动的方式有着广泛的应用前景。然而由于客观条件的差异，例如光照、人种、拍摄条件、硬件设施设备的差别等诸多因素的影响，通过手势进行实时、有效的人机交互仍然具有很大的挑战。目前的研究工作中，手势识别的方式分为静态手势识别和动态手势识别。

其中静态手势识别是对单个不随时间变化的手势进行识别，传统的识别方法大致可以分为人工选取特征法和传统机器学习法。这些方法大都通过生成手势的特征，然后使用分类器例如LDA，SVM，KNN等方法对手势进行识别。优点是运算速度快，实时性强，缺点是人工设计特征的难度较大。基于深度卷积神经网络的识别可以自动生成特征，跳过了难度较大的特征工程，近年来有逐渐取代传统方法的趋势。

对于动态手势的实时识别在目前仍然具有较大的挑战。首先，这些系统需要连续接收未经处理的视频流数据，这些数据需要在很短的时间内对其进行分类识别才能保证系统的实时性。之前的很多相关研究工作是将手势的分割和手势识别分开进行。通常使用两个分类器，一个分类器被用于检测当前是否为有效手势，另一个分类器用于识别当前手势标签，这两个分类器通常分开进行训练，然后同时作用于一个连续输入的视频流。这么做有两个原因，1.为了补偿手势随着时间的连续变化2.减少由非有效手势带来的噪音。虽然可以做到很高的精度，但是这样做同时带来了一些缺点，例如手势的识别需要做出完整的手势增加了系统延时，另一方面这两部分的对于识别结果的影响都很大，任何一部分的识别效果不好都会对识别精度产生不利影响。

发明内容

本发明所要解决的技术问题在于，解决动态手势识别延时过高、系统负荷较大的问题，提供一种用于机器人控制的手势识别方法，通过多模型融合，轻、重负荷切换的方式，在降低系统整体延时的同时减小了系统资源消耗，提升交互体验。

本发明具体采用以下技术方案解决上述技术问题：

一种用于机器人控制的手势识别方法，包括以下步骤：

步骤1、使用Kinect传感器采集当前控制者图像，获取得到当前控制者图像中身体的RGB信息、深度信息和骨骼信息；

步骤2、根据当前控制者图像中身体的骨骼信息采用阈值分割方法得出左右手的坐标位置，并据此获取控制者左手待识别手势的RGB图和深度图，且进行分别预处理；

步骤3、将当前控制者左手待识别手势的RGB图和深度图分别输入到训练完成的CNN网络，提取得到左手待识别手势的RGB特征向量和深度特征向量且将两者合并后输入第一SVM分类器进行分类识别，由第一SVM分类器输出对应的左手待识别手势标签；

步骤4、根据所得左手待识别手势标签判断当前是否需要开启动态识别线程，若判断为否，则返回步骤1重新采集当前控制者图像；若判断为是，则进入步骤5；

步骤5、根据当前控制者右手的坐标位置采集右手手势视频流，将其分割为设定数量帧为一个基本单位后以时序顺序输入到训练完成的循环3DCNN网络，提取获得RGB和深度的时空特征且将两者合并后输入第二SVM分类器进行分类识别，由第二SVM分类器输出得到右手手势对应标签；

步骤6、根据当前控制者右手手势对应标签转换成的控制指令，通过PID算法实时控制机器人的移动。

进一步地，作为本发明的一种优选技术方案：所述步骤2中预处理包括尺度变换和二值化处理。

进一步地，作为本发明的一种优选技术方案：所述步骤3中SVM分类器输出对应的左手待识别手势标签为一个0或1的二值量。

进一步地，作为本发明的一种优选技术方案：所述步骤5中循环3DCNN网络包括一个双层LSTM神经网络。

进一步地，作为本发明的一种优选技术方案：所述步骤5中将右手手势视频流分割为15帧为一个基本单位。

本发明采用上述技术方案，能产生如下技术效果：

1、本发明的用于机器人控制的手势识别方法，采用静态手势和动态手势相结合的控制方式，关于左手的静态识别，采用深度数据和RGB数据相融合的方式，相比传统上使用单通道数据具有更高的准确率。在动态识别方面，本发明使用循环3DCNN的网络结构，用3DCNN提取特征向量，上层用LSTM提取长期时空特征，融合了这两种优秀的网络结构，在运算量较大的同时具有很高的准确率，相比于传统的先将训练视频分割，再识别的方式，该方法具有更小的延时，使得用户体验更好。用户可以根据实际情况调整3DCNN的网络大小，使网络能够适应客观环境。

2、本发明可用于轮式机器人的控制，通过左右手的配合达到降低系统负荷的目的。因为循环3DCNN对计算资源的消耗巨大，同时也需要耗费很大的内存空间。出于实用性考虑，本发明通过预先识别左手的手势，决定系统的工作状态，在需要的时候进行高负荷运转，其余时间处于低负荷待命状态。相比于直接使用循环3DCNN进行识别，减小了系统的资源占用，降低了功耗。在该模型中，用户可以根据实际情况调整循环3DCNN网络的大小，达到系统负载可控的目的。

附图说明

图1为本发明用于机器人控制的手势识别方法的原理示意图。

图2为本发明左手静态手势识别原理示意图。

图3为本发明右手动态手势识别原理示意图。

图4为本发明中循环3DCNN的网络架构示意图。

图5a和图5b分别为本发明实施例中左手静态的两种手势示意图。

图6为本发明实施例中右手动态手势示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明设计了一种用于机器人控制的手势识别方法，该方法可运用于机器人上，本实施例将方法实施于轮式机器人上，该方法具体包括以下步骤：

步骤1、使用Kinect传感器获取当前视觉信息。

首先，用户通过PC端的OpenNI接口，使用Kinect传感器采集当前控制者图像，获取得到当前控制者图像中身体的RGB信息、深度信息和骨骼信息；该OpenNI是一个多语言跨平台的框架，提供一组基于传感器设备的API。

步骤2、分割左右手手势和数据预处理。

根据步骤1得到的当前控制者图像中身体的骨骼信息，采用阈值分割方法得出左右手的坐标位置，并据此获取控制者左手待识别手势图，包括左右手待识别手势的RGB图和深度图，且进行分别预处理；

在截取到左手的手势图后，将左手待识别手势的RGB图和深度图分别进行尺度变换和二值化处理，保留原图轮廓，并调整为适合CNN网络的输入数据，调整为可以直接输入到CNN网络的格式。

步骤3、通过两个卷积神经网络CNN和一个分类器SVM组合分类器识别左手手势。将控制者左手待识别手势的RGB图和深度图分别输入到训练完成的CNN网络，提取得到左手待识别手势的RGB和深度特征向量且将两者合并后输入第一SVM分类器进行分类识别，由第一SVM分类器输出对应的左手待识别手势标签。该分类器用于检测左手的静态手势信息，具有识别速度快，系统占用资源少的特点。该过程具体为：

步骤3.1、数据集录入，分别录入左手静态手势的RGB数据、深度数据和手势标签，样本量最好控制在3万以上，样本为两种手势，手势标签为0或1的一个二值量。

步骤3.2、搭建第一SVM分类器，该分类器的设计如图2所示，网络结构中CNN的结构和输出数据的维度可根据实际情况定制，可以基于经典网络结构，例如VGG16、VGG19等，也可自行搭建。

步骤3.3、训练第一SVM分类器，根据步骤3.1采集到的RGB、深度数据和步骤3.2搭建的第一SVM分类器对该分类器进行训练。第一SVM分类器训练时，输入为RGB图和深度图，输出为手势标签，该系统中有两种标签：0和1，PC端根据该标签决定是否开启右手的识别线程。

步骤3.4、训练完成后，在实际识别过程中，RGB数据和深度数据输入到步骤3.3中训练完成的CNN+SVM分类器识别手势的标签，输出标签为一个单维度的二值数据：0或1，分别对应着是否开启动态识别线程，即输出为0则代表关闭动态识别线程，输出为1代表开启动态识别线程。

步骤4、根据所得左手待识别手势标签判断当前是否需要开启动态识别线程，若判断为否，即第一SVM分类器输出的左手手势标签为0，则返回步骤1重新采集当前控制者图像，然后进行左手静态手势的识别，由于该静态手势识别的网络结构较小，占用内存更小，此时系统处于低负荷运行状态。若判断为是，即第一SVM分类器输出的左手手势标签为1，则系统进入大负荷状态，进入执行步骤5进行右手动态手势识别，于此同时左手识别部分的线程需要保持运行，如果某一时刻左手的输出手势标签变为否，则表明不需要开启动态识别线程，控制动态识别线程立即终止，系统重新回到小负荷状态。

步骤5、此时开启动态识别线程：根据当前控制者的右手的坐标位置，采用Kinect传感器连续采集右手手势视频流，将其分割为设定数量帧为一个基本单位，本实施例设定为15帧为一个基本单位将数据读入内存，以时序顺序输入到训练完成的两个循环3DCNN网络，提取获得RGB和深度的时空特征且合并后输入第二SVM分类器进行分类识别，由第二SVM分类器输出得到右手手势对应标签。

其中，对于每个循环3DCNN网络的训练过程为：训练循环3DCNN+SVM分类器，用于动态手势识别，首先录入数据集，数据集样本为两个连续的动态手势视频流，分别是RGB视频和深度视频，然后将视频以15帧为一个基本单位进行分割，最终分割成多个视频片段，样本标签在每个视频片段的标记手势结果，右手手势对应标签可对应不同的控制指令。

所述第二SVM分类器进行分类识别得到右手手势对应标签，其过程如下：

步骤5.1、右手识别过程如图3所示，通过将提取的RGB和深度的时空特征采用融合的方式，通过第二SVM分类器进行识别，由于是动态手势识别，所以系统会采集一段视频流进入内存，对内存的消耗很大，另外网络参数相对来说较多，所以CPU的负荷也会相对较大。

步骤5.2、本方法采用的循环3DCNN的网络结构如图4所示。为了进行动态手势识别，对于连续输入的视频流，系统将采集连续的15帧数据，提取到两个3DCNN网络中所需的视频的RGB特征向量和深度特征向量。此3DCNN架构可使用C3D network的变种，最后可以添加一层全连接层以改变输出特征向量的维度。将采集到的RGB特征向量和深度特征向量作为双层LSTM神经网络的输入，用以提取长期时空特征，LSTM的输出层添加softmax分类器，用户可以根据需要识别手势种类的数量定义输出向量的大小。手势识别的准确率和手势种类数量的大小呈负相关。先通过3DCNN提取RGB和深度特征向量，再利用LSTM的记忆特性，提取长期时空特征，充分的利用了数据在时间上的特性，同时具有较好的实时性。

步骤5.3、用户可以自定义3DCNN网络结构的大小，更轻量级的网络结构可以带来更小的资源消耗和更差的准确率，反之亦然。每15帧做一次识别，可以保证识别的延时在可接受范围内。然后将双层LSTM神经网络输出的长期时空特征输入第二SVM分类器进行识别，输出当前控制者右手手势对应标签。

步骤6、PC端将当前控制者右手手势对应标签通过串口输出到下位机，使用串口作为通信媒介实现轮式机器人的实时控制，即下位机将其转换成控制指令并通过PID算法实时控制轮式机器人的移动，执行对应指令以实现手势的物理交互。本发明采用的手势识别方法在保证正确率的情况下实时性更好，同时系统可以在轻、重负荷两种状态间自如切换，降低了系统资源的占用。

本实施例，给出左手静态手势下不同手势标签的示意图，如图5a所示，为左手做出展开的手势后由第一SVM分类器输出该左手待识别手势标签为0，表示需要返回步骤1重新采集当前控制者图像；如图5b所示，为左手做出拳头手势后由第一SVM分类器输出该左手待识别手势标签为1，表明需要进行右手动态手势识别。

本实施例，给出右手动态手势下视频流的不同手势标签的示意图。动态手势识别如图6所示，共规定了5种手势类型，第二SVM分类器进行分类识别得到5种右手手势对应标签，由5种手势标签对应轮式机器人的5种控制指令，具体如下述表1所示。下位机根据该5种控制指令，通过PID算法实时控制轮式机器人的移动即可。

表1轮式机器人动作控制对应表

轮式机器人动作控制	手势类型
		前进	"gesture3"
后退	"gesture4"
		原地左转	"gesture1"
原地右转	"gesture2"
		停止	"gesture5"

综上，本发明提出的用于机器人控制的手势识别方法，在识别方面合适的选取分类器结构，在保证准确率的同时保持着良好的实时性，提升人机交互体验。另一方面，考虑到系统资源的占用问题，使用静态手势和动态手势相结合的方式，在不需要识别的时候减小系统的资源占用。通过本方法实现的手势识别系统可以应用于人机自然交互、机械操控、体感游戏等诸多领域，在轮式机器人控制领域有着广泛的应用前景。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种用于机器人控制的手势识别方法，其特征在于，包括以下步骤：

步骤1、使用Kinect传感器采集当前控制者图像，提取当前控制者图像中身体的RGB信息、深度信息和骨骼信息；

步骤5、根据当前控制者右手的坐标位置采集右手手势视频流，将其分割为设定数量帧为一个基本单位后以时序顺序输入到训练完成的循环3DCNN网络，提取获得RGB和深度的时空特征向量且将两者合并后输入第二SVM分类器进行分类识别，由第二SVM分类器输出得到右手手势对应标签；

2.根据权利要求1所述用于机器人控制的手势识别方法，其特征在于：所述步骤2中预处理包括尺度变换和二值化处理。

3.根据权利要求1所述用于机器人控制的手势识别方法，其特征在于：所述步骤3中SVM分类器输出对应的左手待识别手势标签为一个0或1的二值量。

4.根据权利要求1所述用于机器人控制的手势识别方法，其特征在于：所述步骤5中循环3DCNN网络包括一个双层LSTM神经网络。

5.根据权利要求1所述用于机器人控制的手势识别方法，其特征在于：所述步骤5中将右手手势视频流分割为15帧为一个基本单位。