CN109359538B

CN109359538B - 卷积神经网络的训练方法、手势识别方法、装置及设备

Info

Publication number: CN109359538B
Application number: CN201811079808.8A
Authority: CN
Inventors: 杜翠凤; 周冠宇; 温云龙; 杨旭; 周善明; 张添翔; 叶绍恩; 梁晓文
Original assignee: Guangzhou Jiesai Communication Planning And Design Institute Co ltd; GCI Science and Technology Co Ltd
Current assignee: Guangzhou Jiesai Communication Planning And Design Institute Co ltd; GCI Science and Technology Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2020-07-28
Anticipated expiration: 2038-09-14
Also published as: CN109359538A

Abstract

本发明公开了一种卷积神经网络的训练方法，首先获取待训练手势图像；根据Mask R‑CNN目标检测对手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标；对每一关键点，根据关键点的可视性进行相应标识，以得到标识后的特征信息，其中，特征信息包括关键点坐标和相应的可视性标志；对每一手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像；对每一特征点分布图像，根据特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；根据所述特征点分布图像与相应的手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络，简化了处理的复杂度，提高了处理效率。

Description

卷积神经网络的训练方法、手势识别方法、装置及设备

技术领域

本发明涉及信息处理技术领域，尤其涉及一种卷积神经网络的训练方法、手势识别方法及装置。

背景技术

当前，人机交互技术已经从以计算机为中心逐步转移到以用户为中心，是多种通道、多种媒体的交互技术。手势是一种自然、直观、易于学习的人机交互手段。从传统的鼠标、键盘输入到现在的红外、无线等，转为以人手直接作为计算机的输入设备，人机间的通讯将不再需要中间的媒体，用户可以简单地定义一种适当的手势来对周围的机器进行控制。这使得人机交互变得更加的方便、丰富。目前，较为活跃的人机交互主要包括语音识别、人脸识别、体态识别、手势识别、虚拟现实、增强现实等等。基于人手交互的产品越累越多，比如基于摄像头的手写汉字系统、基于手势交互的PPT控制系统、基于人手交互的增强现实系统等已经在日常生活中流传开来，以人为中心的人机交互技术正经历一个井喷式的发展阶段。

手势识别目的是通过数学算法来识别人类手势。手势可以源自任何身体运动或状态，但通常源自面部或手。本领域中的当前焦点包括来自面部和手势识别的情感识别。用户可以使用简单的手势来控制或与设备交互，而无需触碰到设备。手势识别可以被视为计算机理解人体语言的方式，从而在机器和人之间搭建比原始文本用户界面或甚至GUI(图形用户界面)更丰富的桥梁。手势识别使人们能够与机器(HMI)进行通信，并且无需任何机械设备即可自然交互。使用手势识别的概念，可以将手指指向计算机屏幕，使得光标相应地移动。

发明人在实施本发明实施例时，发明人发现现有技术中，手势是人手或者手和手臂结合所产生的各种姿势和动作，在高维观测空间中要对手势进行识别跟踪，则要处理的手势特征信息很多，在初期进行手势识别训练或后期进行手势识别时，往往会因为手势特征的信息数据太多，导致处理的复杂度高，处理效率不高。

发明内容

有鉴于此，本发明实施例提供一种卷积神经网络的训练方法、手势识别方法及装置，能降低手势识别处理的复杂度，提高处理效率。

第一方面，本发明实施例提供了一种卷积神经网络的训练方法，包括如下步骤：

获取待训练手势图像；

根据Mask R-CNN目标检测对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标；

对每一所述关键点，根据所述关键点的可视性进行相应标识，以得到标识后的特征信息，其中，所述特征信息包括所述关键点坐标和相应的可视性标志；

对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像；

对每一所述特征点分布图像，根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；

根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络。

在第一方面的第一种可能实现方式中，所述根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络包括：

将所述特征点分布图像输入所述初始卷积神经网络，通过所述初始卷积神经网络中的分类器进行手势识别，输出识别结果；

根据所述识别结果及相应的所述手势指令标签，利用反向传播算法调整所述初始卷积神经网络的参数，以获取训练完成的卷积神经网络。

在第一方面的第二种可能实现方式中，所述获取待训练手势图像包括：

获取训练样本；

对所述训练样本进行图像预处理，以得到待训练手势图像，其中，所述待训练手势图像为二值化图像。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，所述对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像包括：

对每一所述手势图像，基于流行学习算法中的局部保留映射对所述标识后的特征信息进行降维，获取降维后特征点分布图像。

结合第一方面的第二种可能实现方式，在第一方面的第四种可能实现方式中，所述根据Mask R-CNN目标检测分割对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标包括：

对所述手势图像进行轮廓提取，以获取所述手势图像中的手势候选区域；

采用包围盒对所述手势候选区域进行手势包围，以获取手势预测区域；

根据Mask R-CNN目标检测分割对所述手势预测区域进行关键点检测，以获取所述手势图像中各个手势对应的关键点坐标。

第二方面，提供了一种基于卷积神经网络的手势识别方法，包括：

获取训练完成的卷积神经网络；其中，所述训练完成的卷积神经网络根据特征点分布图像与相应的手势指令标签，对初始卷积神经网络进行卷积神经网络训练；其中，所述手势指令标签为根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签，其中，所述特征点分布图像为基于流形学习算法对待训练手势图像中标识后的特征信息进行降维得到的，其中，所述特征信息包括基于Mask R-CNN目标检测对所述待训练手势图像进行分割得到的关键点坐标，和对所述关键点坐标进行可视性标识后的可视性标志；

获取经过降维后的预测手势图像；

根据所述训练完成的卷积神经网络，对所述预测手势图像进行识别，得到相应的手势识别指令。

第三方面，本发明实施例还提供了一种卷积神经网络的训练装置，包括：

手势获取模块，用于获取待训练手势图像；

坐标获取模块，用于根据Mask R-CNN目标检测对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标；

特征信息获取模块，用于对每一所述关键点，根据所述关键点的可视性进行相应标识，以得到标识后的特征信息，其中，所述特征信息包括所述关键点坐标和相应的可视性标志；

降维模块，用于对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像；

标签获取模块，用于对每一所述特征点分布图像，根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；

训练模块，用于根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络。

第四方面，本发明实施例还提供了一种基于卷积神经网络的手势识别装置，包括：

网络获取模块，用于获取训练完成的卷积神经网络；其中，所述训练完成的卷积神经网络根据特征点分布图像与相应的手势指令标签，对初始卷积神经网络进行卷积神经网络训练；其中，所述手势指令标签为根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签，其中，所述特征点分布图像为基于流形学习算法对待训练手势图像中标识后的特征信息进行降维得到的，其中，所述特征信息包括基于Mask R-CNN目标检测对所述待训练手势图像进行分割得到的关键点坐标，和对所述关键点坐标进行可视性标识后的可视性标志；

图像获取模块，用于获取经过降维后的预测手势图像；

识别模块，用于根据所述训练完成的卷积神经网络，对所述预测手势图像进行识别，得到相应的手势识别指令。

第五方面，本发明实施例还提供了一种卷积神经网络的训练设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的卷积神经网络的训练方法。

第六方面，本发明实施例还提供了一种基于卷积神经网络的手势识别设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于卷积神经网络的手势识别方法。

实施本发明实施例具有如下有益效果：

首先获取待训练手势图像；根据Mask R-CNN目标检测对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标；通过所述MaskR-CNN目标检测，可以实现对多个手势的跟踪，即使手势相互交叉、遮挡等情况下准确地完成跟踪和标记，以获取得到各个手势对应的关键点坐标，对每一所述关键点，根据所述关键点的可视性进行相应标识，以得到标识后的特征信息，其中，所述特征信息包括所述关键点坐标和相应的可视性标志；对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像；流形学习算法能够很健壮地识别和恢复很多手势的姿态和视点，手势经过降维后获得到的起着主导作用的独立的特征变量，对每一所述特征点分布图像，根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络，减少了输入训练网络的数据，简化了处理的复杂度，提高了处理效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例一提供的卷积神经网络的训练方法的流程示意图；

图2是本发明实施二提供的一种基于卷积神经网络的手势识别方法流程示意图；

图3是本发明实施例三提供的一种卷积神经网络的训练装置结构示意图；

图4是本发明实施例提供的一种基于卷积神经网络的手势识别装置结构示意图；

图5是本发明实施例提供的一种卷积神经网络的训练设备结构示意图；

图6是本发明实施例提供的一种基于卷积神经网络的手势识别设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见图1，本发明实施例一提供的卷积神经网络的训练方法的流程示意图；

一种卷积神经网络的训练方法，包括：

S11、获取待训练手势图像；

S12、根据Mask R-CNN目标检测对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标；

S13、对每一所述关键点，根据所述关键点的可视性进行相应标识，以得到标识后的特征信息，其中，所述特征信息包括所述关键点坐标和相应的可视性标志；

S14、对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像；

S15、对每一所述特征点分布图像，根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；

S16、根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络。

进一步的，所述获取待训练手势图像包括：

获取训练样本；

在本发明实施例中，选择一些基本手势动作姿态来构建训练库，训练库中的图片为基本动作姿态的三维模型在任意视角下投影得到，由训练库中获取训练样本，可以是通过摄像头获取视频流得到的训练样本，也可以是由共享的手势训练库中获取训练样本。

在本发明实施例中，所述图像预处理包括：色彩平衡、平滑处理、肤色提取及形态学处理；其中，所述色彩平衡就是通过对色彩进行适当地调整，使其达某个想要的效果，色彩平衡可以根据个人需要进行色偏矫正、色彩饱和度的调和、色彩三元素的分布情况的调节等；其中，平滑处理包括因为噪声的干扰而降低了质量，为了提高识别准确率，需要对图像进行平滑去噪处理；其中，肤色提取是为了从得到的帧中提取出手势区域，以便对图像进行二值化处理，然后进行相应的处理，以便图像能足够理想进行手势特征提取。

进一步的，所述根据Mask R-CNN目标检测分割对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标包括：

根据Mask R-CNN目标检测对所述手势预测区域进行关键点检测，以获取所述手势图像中各个手势对应的关键点坐标。

在本实施例中，将在得到的二值化图像进行轮廓提取，轮廓通常是指亮度在不同区域有着明显变化的边界，轮廓通常包括了大量的信息，它是对物体形状的一种全局描述，大多数物体只要人眼能看到轮廓就能猜出它属于什么物体，而对于人手跟踪识别，并没有必要精确到手内部某一个关节或者某个指纹等，只给出轮廓信息就可以判断出对应的手势，使用轮廓处理可以大大降低计算的代价。

需要说明的是，所述Mask R-CNN目标检测概念如下：对于每一个候选区域FasterR-CNN有两个输出，一个是类别标签，另一个是矩形框坐标信息。MaskR-CNN目标检测就是在Faster R-CNN基础上，加了第三个分支用于输出objectmask即分割出物体。Mask R-CNN目标检测是采用了两个步骤，第一个步骤就是提取候选区域，在第二个步骤中平行于预测类别和坐标信息，在输出类别和框偏移的同时对于每个候选区域，所述Mask R-CNN输出一个二值mask，用mask做关键点检测，其中，所述mask是为每个实例生成一个高质量的分割掩码。

在本发明实施例中，第一步骤，需要给手势候选区域的包围盒，则向对所述手势图像进行轮廓提取，以获取所述手势图像中的手势候选区域，在经过轮廓提取后的图像，不光有手势的轮廓，还有一些不需要的轮廓的干扰，需要从整个图像中找出手势的轮廓，通过计算各个轮廓的面积，寻找面积最大的轮廓作为手势的待选区域，以得到手势图像中的手势候选区域，然后基于包围盒可以实现对所述手势图像中多个手势候选区域进行跟踪，实现多目标跟踪，采用包围盒对所述手势候选区域进行手势包围，以获取手势预测区域；其中，包围盒为一个简单的体空间，且包围着多个较为复杂的物体，通过包围盒可以对手势包围得更加紧凑。第二个步骤，在输出类别和框偏移的同时对于每个候选区域，所述Mask R-CNN输出一个二值mask，然后用mask做关键点检测，将关键点的位置建模为一个单独的one-hotmask，并采用Mask R-CNN预测K个mask，每个K个关键点类型(例如，左肘，右肘)都有一个mask。进而实现了根据Mask R-CNN目标检测对所述手势预测区域进行关键点检测，以获取所述手势图像中各个手势对应的关键点坐标。

步骤S13、对每一所述关键点，根据所述关键点的可视性进行相应标识，以得到标识后的特征信息，其中，所述特征信息包括所述关键点坐标和相应的可视性标志，具体为：在步骤S12中我们获取得到了各个关键点的坐标，根据所述关键点在所述手势图像中是否可视，因为手势会存在遮挡的情况，被遮挡的手势关键点是不可视的，如果可视就是1，非可视就是2，示例性的，例如第一个关键点，其特征信息为(35，78，1)则标识所述第一个关键点的坐标为(35，78)，且其是可视的，则标为1。

进一步的，所述对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像包括：

需要说明的是，流形学习算法是假设数据在高维空间的分布位于某一更低维的流形上，基于这个假设来进行数据的分析。对于降维，要保证降维之后的数据同样满足与高维空间流形有关的几何约束关系。流形学习的核心内容是：高维观测空间中的点只由少数几个独立的特征进行共同作用形成一个流形，因此，倘若能高效准确地开展高维观测空间所形成的流形，就有可能从中找出那几个起着主导作用的独立的特征变量，从而达到对数据进行降维的效果，简化处理的复杂度，使得高维空间明朗化、简洁化。如果待测数据集是一个高维空间上的低维流形，即在低维空间上具有潜在的形状，那么流形学习的目的就是为了寻找待测数据集在高维空间中映射到低维空间后的结构，继而达到降维的目的，以便简化处理。

需要说明的是，局部保留映射(LPP)算法是对拉普拉斯特征映射LE(LaplacianEigenmaps)线性逼近的无监督局部降维算法，局部保留映射算法是一种线性流形算法，该算法旨在降低维数的同时，力求维护样本数据集的几何特性和局部结构，该算法不仅仅定义在训练数据集上，而是定义在整个样本空间上。

具体的，假设输入的数据集为X＝{x_i∈R^d,i＝1,2,...,N},即上述的关键点坐标及是否可视点的，并且根据对应的向量空间设定不同的向量嵌入空间为：Y＝{y_i∈R^e,i＝1,2,...,N}；其中，e是嵌入空间的维度，LPP算法的目的在于求目标函数的最小值：

其中，F(i,j)看成相似度且F(i,j)＝F(j,i)，其权重的选择参照拉普拉斯特征映射，令：y^T＝W^Tx，通常，我们假设数据集中点和他们的领域内的点依赖或者接近某个线性流形。以上几个公式可以简化成如下公式：

为了使目标函数最小的转移量W引出了最大化特征值问题：XLX^TW＝λXDX^TW，其中，D是由F的列之和组成的对焦矩阵，而L＝D-F是拉普拉斯矩阵，并且矩阵XLX^T和XDX^T都是对称半正定的。

对步骤S14、对每一所述特征点分布图像，根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；

在本发明实施例中，通过LPP算法降维后，得到的所述待训练手势图像的特征点分布图像，根据所述特征点分布图像中特征点的组合，获取相应的手势指标签，所述手势指令标签是人工根据手势进行标注的，标注的手势指令包括前进、暂停、后退或举起等。

在本发明实施例中，通过采用线性降维算法LPP，能得到一个对应的低维线性嵌入空间。假设有M个动作，每个动作由一连串连续的手势组成，通过训练得到M个多视角的动作流形(嵌入空间)，我们分别记其为MS1，对应的转移矩阵为W1，这样一连串的手势就可以通过一些基本的嵌入空间来重建出来，如：G1到G10为一个动作分割出来的几张图片，这些手势图片对应了三个动作流形空间，G1到G3属于流形MS1，G4到G8属于MS2，G9、G10同时属于流形MS3和MS4。

优选地，所述根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络包括：

在本发明实施例中，一个动作中的每一个图片都可能同时属于多个流形，为此我们计算它到底最可能属于哪个流形。例如，将所述特征点分布图像输入所述初始卷积神经网络，通过所述初始卷积神经网络中的分类器进行手势识别，输入了所述特征点分布图像有8个点组合，我们的初始卷积网络有四个分类器，一个分类器代表一种手势，每一个分类器都会对某些点敏感。如第一种分类器对前6个点敏感，根据第一个分类器地8个点的权重分配(0.8，1，1，1，1，1，0，0),而第一个手势点(1，1，1，1，1，0，0，0)可以计算第一个手势点的得分是4.8，对于4.8分判断第一个手势点符合第一种分类的概率为0.8。同理，其他分类器都是这样计算概率，然后再比对哪一种手势的概率最高，以最高概率作为最后手势判别的最终结果。

实施本实施例具有如下有益效果：

采用mask R-CNN中的detectron提取手部和手臂特征点，特征点能够在遮挡或者是光照不充分的情况下实现关键点的提取和预测，然后再用流形学习(LPP算法)实现高纬度到低维度点的转换，可以降低模型的复杂度；再用深度神经网络在LPP算法学习好的特征基础上形成指令的映射，并通过反向传播算法调整所述初始卷积神经网络的参数，以获取训练完成的卷积神经网络。LPP的高维度向低维度的向量映射，以向量来表示不同手势低维关键点的组合，大大降低了关键节点提取的时间以及关键点特征的复杂度，这样用流形学习做出来的特征就很简单、而且还能够有效表示原有的高维度特征。detectron提取手部和手臂特征点以及LPP算法的高维度向低维度的映射是一种无监督的过程，能够很好的反映事物的不同特征，这种特征其实在一定程度上为深度神经网络的参数学习提供了一个良好的基础，因为无监督学习后的向量特征，以此降维后的特征作为初始的特征放进深度神经网络中，能够大大降低神经网络的计算复杂度。采用LPP算法加深度神经网络进行手势识别，因为LPP的无监督方法能够学习了不同手势之间的特征，而且极大简化特征的维数，能够降低了神经网络训练参数的复杂度，神经网络仅仅在这些特征基础上在隐含层对参数进行微调便能快速形成了识别结果；基于LPP学习好的特征+标识好的人机交互指令，深度神经网络能够有效学习人机交换中各种指令的手势特征，并根据不同指令的手势特征进行手势的识别。

实施例二

参见图2，本发明实施二提供的一种基于卷积神经网络的手势识别方法流程示意图，包括：

S21、获取训练完成的卷积神经网络；其中，所述训练完成的卷积神经网络根据特征点分布图像与相应的手势指令标签，对初始卷积神经网络进行卷积神经网络训练；其中，所述手势指令标签为根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签，其中，所述特征点分布图像为基于流形学习算法对待训练手势图像中标识后的特征信息进行降维得到的，其中，所述特征信息包括基于Mask R-CNN目标检测对所述待训练手势图像进行分割得到的关键点坐标，和对所述关键点坐标进行可视性标识后的可视性标志；

S22、获取经过降维后的预测手势图像；

S23、根据所述训练完成的卷积神经网络，对所述预测手势图像进行识别，得到相应的手势识别指令。

在本实施例中，预测的手势图像先进行降维，基于LPP算法降维后获取LPP学习好的特征，将所述降维后的预测手势图像输入至所述训练好的卷积神经网络中，所述卷积神经网络进行手势识别之后输出手势识别指令。

实施本实施例具有如下有益效果：

所述训练完成的卷积神经网络中，mask RCNN中的detectron提取手部和手臂特征点，特征点能够在遮挡或者是光照不充分的情况下实现keypoints的提取和预测，然后再用流形学习(LPP算法)实现高纬度到低维度点的转换，可以降低模型的复杂度；再用深度神经网络在学习好的特征基础上形成指令的映射。

实施例三

参见图3，本发明实施例三提供的一种卷积神经网络的训练装置结构示意图；

一种卷积神经网络的训练装置，包括：

手势获取模块31，用于获取待训练手势图像；

坐标获取模块32，用于根据Mask R-CNN目标检测对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标；

特征信息获取模块33，用于对每一所述关键点，根据所述关键点的可视性进行相应标识，以得到标识后的特征信息，其中，所述特征信息包括所述关键点坐标和相应的可视性标志；

降维模块34，用于对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像；

标签获取模块35，用于对每一所述特征点分布图像，根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签；

训练模块36，用于根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络。

优选地，所述训练模块36包括：

优选地，所述手势获取模块31包括：

获取训练样本；

优选地，所述降维模块34包括：

优选地，所述坐标获取模块32包括：

实施本实施例具有如下有益效果：

实施例四

参见图4，本发明实施例提供的一种基于卷积神经网络的手势识别装置结构示意图。

一种基于卷积神经网络的手势识别装置，包括：

网络获取模块41，用于获取训练完成的卷积神经网络；其中，所述训练完成的卷积神经网络根据特征点分布图像与相应的手势指令标签，对初始卷积神经网络进行卷积神经网络训练；其中，所述手势指令标签为根据所述特征点分布图像中相应特征点的组合，获取手势语义标注后的手势指令标签，其中，所述特征点分布图像为基于流形学习算法对待训练手势图像中标识后的特征信息进行降维得到的，其中，所述特征信息包括基于Mask R-CNN目标检测对所述待训练手势图像进行分割得到的关键点坐标，和对所述关键点坐标进行可视性标识后的可视性标志；

图像获取模块42，用于获取经过降维后的预测手势图像；

识别模块43，用于根据所述训练完成的卷积神经网络，对所述预测手势图像进行识别，得到相应的手势识别指令。

实施本实施例具有如下有益效果：

实施例五

参见图5，本发明实施例提供的一种卷积神经网络的训练设备结构示意图。用于执行本发明实施例提供的卷积神经网络的训练方法，如图5所示，该卷积神经网络的训练设备包括：至少一个处理器11，例如CPU，至少一个网络接口14或者其他用户接口13，存储器15，至少一个通信总线12，通信总线12用于实现这些组件之间的连接通信。其中，用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器，也可能还包括非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。

在一些实施方式中，存储器15存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统151，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

程序152。

具体地，处理器11用于调用存储器15中存储的程序152，执行上述实施例一所述的卷积神经网络的训练方法。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述卷积神经网络的训练方法的控制中心，利用各种接口和线路连接整个所述卷积神经网络的训练方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现卷积神经网络的训练的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述卷积神经网络的训练集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

实施例六

参见图6，本发明实施例提供的一种基于卷积神经网络的手势识别设备结构示意图。用于执行本发明实施例提供的基于卷积神经网络的手势识别方法，如图6所示，该基于卷积神经网络的手势识别设备包括：至少一个处理器11，例如CPU，至少一个网络接口14或者其他用户接口13，存储器15，至少一个通信总线12，通信总线12用于实现这些组件之间的连接通信。其中，用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器，也可能还包括非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。

程序152。

具体地，处理器11用于调用存储器15中存储的程序152，执行上述实施例二所述的基于卷积神经网络的手势识别方法。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于卷积神经网络的手势识别方法的控制中心，利用各种接口和线路连接整个所述基于卷积神经网络的手势识别方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现基于卷积神经网络的手势识别的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于卷积神经网络的手势识别集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，在某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。其次，本领域技术人员也应知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模拟一定是本发明所必须的。

Claims

1.一种卷积神经网络的训练方法，其特征在于，包括：

获取待训练手势图像；

2.根据权利要求1所述的卷积神经网络的训练方法，其特征在于，所述根据所述特征点分布图像与相应的所述手势指令标签，对初始卷积神经网络进行卷积神经网络训练，获取训练完成的卷积神经网络包括：

3.根据权利要求1所述的卷积神经网络的训练方法，其特征在于，所述获取待训练手势图像包括：

获取训练样本；

4.根据权利要求3所述的卷积神经网络的训练方法，其特征在于，所述对每一所述手势图像，基于流形学习算法对所述标识后的特征信息进行降维，获取降维后特征点分布图像包括：

5.根据权利要求3所述的卷积神经网络的训练方法，其特征在于，所述根据Mask R-CNN目标检测对所述手势图像进行分割提取，以获取所述手势图像中各个手势对应的关键点坐标包括：

6.一种基于卷积神经网络的手势识别方法，其特征在于，包括：

获取经过降维后的预测手势图像；

7.一种基于卷积神经网络的训练装置，其特征在于，包括：

手势获取模块，用于获取待训练手势图像；

8.一种基于卷积神经网络的手势识别装置，其特征在于，包括：

图像获取模块，用于获取经过降维后的预测手势图像；

9.一种卷积神经网络的训练设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述卷积神经网络的训练方法。

10.一种基于卷积神经网络的手势识别设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求6所述基于卷积神经网络的手势识别方法。