CN111401261B

CN111401261B - 基于gan-cnn框架的机器人手势识别方法

Info

Publication number: CN111401261B
Application number: CN202010192589.5A
Authority: CN
Inventors: 司海飞; 胡兴柳; 史震; 方挺
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2022-06-10
Anticipated expiration: 2040-03-18
Also published as: CN111401261A

Abstract

基于GAN‑CNN框架的机器人手势识别方法，高清摄像机预先采集不同手势样本图片，而后通过WIFI传送至机器人数据处理系统；数据处理系统利用生成对抗网络对步骤1中不同的手势样本图片进行扩展；对上步骤获得的扩展手势图片制作相应的标签，然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络中，从而完成CNN分类识别模型的预训练；高清摄像机实时采集不同手势样本图片，而后通过WIFI传送至机器人数据处理系统；数据处理系统利用预训练好的CNN模型对上步骤中所采集的照片进行分类识别，并将相关的识别信息通过WIFI上传至MYSQL数据库进行存储；机器人根据CNN识别结果执行相应的动作，至此，整个闭环过程结束。本发明解决小样本条件下机器人手势识别的难题。

Description

基于GAN-CNN框架的机器人手势识别方法

技术领域

本发明涉及机器人手势识别领域，特别是涉及基于GAN-CNN框架的机器人手势识别方法。

背景技术

随着人工智能和虚拟现实技术的不断发展，人机交互系统已经成为当前的研究热点。现今，作为一种新兴的人机交互方式，手势识别得到了很多研究者的重视，并产生了一系列有效的成果，且在诸如智能机器人、智能驾驶等设备中得到了广泛的应用。手势识别，简单的来说就是让机器在视觉或传感器采集系统的辅助下来理解人类所想要表达的思想，即通过无接触的方式完成交互过程，从而通过机器人完成相应的动作，在真正意义上实现智能化。

对于不同手势的识别分类，其核心即是图像的分类识别。近年来发展的深度学习模型凭借其强大的表征能力和自适应学习能力被广泛应用于计算机视觉、自然语言处理和人脸识别等领域。此类的模型如深度信念网络(DBN)、循环神经网络(RNN)、堆栈降噪自编码(SDAE)、卷积神经网络(CNN)、长短时记忆网络(LSTM)。其中的CNN是仿造生物的视知觉机制构建的，是一种具有深度结构的前馈神经网络，在图像分类识别中具有很好的效果，但如何以CNN为核心构建一个分类识别模型，并且支持模型的更新优化是当前亟待解决的问题。

国内涉及CNN方法在手势识别中应用的专利有“一种面向水下设备的手势识别方法”(201910858330.7)，利用卷积神经网络实现对手势图像的识别，解决现有方法中存在的实现过程繁琐、实时性差、且识别率低的问题。国家发明专利“基于毫米波雷达和卷积神经网络的微动手势识别方法”(201911054117.7)，该专利针对毫米波雷达特征图像设计卷积神经网络，而后调用分类模型以实现多种手势的分类识别。以上两个国家发明专利都涉及CNN在手势识别中的应用，但是都存在训练样本量不够充足，而导致CNN模型可能会出现过拟合现象，从而降低了模型的泛化性。

发明内容

为解决上述问题，本发明在GAN，CNN，MYSQL数据库的基础上，提出了基于GAN-CNN框架的机器人手势识别方法，首先利用GAN对有限的手势照片进行扩展以解决小样本条件下模型以过拟合的问题，而后利用具有强大的非线性表达能力的CNN对不同的手势图片进行分类识别。另外，充分利用了MYSQL数据库的存储优势，能够实现对现有模型的更新优化，从而大大的提高了模型的识别精度和泛化性。为达此目的，本发明提供基于GAN-CNN框架的机器人手势识别方法，具体步骤如下，其特征在于：

步骤1，高清摄像机预先采集不同手势样本图片，而后通过WIFI传送至机器人数据处理系统；

步骤2，数据处理系统利用生成对抗网络GAN对步骤1中不同的手势样本图片进行扩展；

步骤2中GAN网络模型训练的步骤为：

步骤2.1，固定生成器G，训练鉴别器D；

步骤2.2，固定鉴别器D，训练生成器G；

步骤2.3，重复步骤2.1和步骤2.2，直至整个网络达到纳什平衡或者迭代次数达到设定的最大值，整个对抗过程的目标函数表示为：

式中，p_data(x)表示真实样本x的分布概率，p_z(z)表示生成器G的输入噪声变量z的分布概率z的分布概率，D(x)表示D鉴别x来源于真实样本的概率，D(G(z))表示D鉴别z来源于虚假样本的概率；

步骤3，对步骤2获得的扩展手势图片制作相应的标签，然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络CNN中，从而完成CNN分类识别模型的预训练；

步骤3中CNN网络模型训练的步骤为：

步骤3.1，将扩展得到的手势图片及其对应的标签输入到CNN中，其中卷积层滤波处理表达为：

式中，

为n层卷积上第l个卷积核的输出，σ(·)为非线性激活函数，使用RULE函数，

为n层第l个卷积核的权重系数，

为n-1层第m个特征输出，

是偏置项；

步骤3.2，将卷积层处理后的图片输入至下一个处理层，该处理层为池化层，池化方式为Max pooling；

步骤3.3，依次对图片进行类似于步骤3.1和步骤3.2的卷积池化处理；

步骤3.4，将步骤3.3中获得图片以Flatten的方式进行展开，然后连接全连接层1和全连接层2；

步骤3.5，利用Softmax逻辑回归实现对多层提取后的特征向量的识别与分类，其中Softmax回归的输出定义如下：

式中，K为类别数，θ^j，1≤j≤K为分类层参数；

步骤3.6，在交叉熵损失函数下，利用随机梯度下降SGD算法对CNN网络参数进行更新优化；

步骤3.7，重复步骤3.1-3.6，直至交叉熵损失函数收敛或网络迭代次数达到设定的阈值，模型训练完成；

步骤4，高清摄像机实时采集不同手势样本图片，而后通过WIFI传送至机器人数据处理系统；

步骤5，数据处理系统利用预训练好的CNN模型对步骤4中所采集的照片进行分类识别，并将相关的识别信息通过WIFI上传至MYSQL数据库进行存储；

步骤6，机器人根据CNN识别结果执行相应的动作，至此，整个闭环过程结束。

进一步，步骤5中将相关的识别信息通过WIFI上传至MYSQL数据库进行存储具体为：

将实时采集的照片和相应的判断结果发送至MYSQL数据库，当已有的模型判断出错时，则将判断出错的图片数据制作相应的标签，而后对已有的模型进行重新训练，其中训练过程与步骤3.1-3.7保持一致，从而提高模型的分类识别的精度和泛化性。

本发明基于GAN-CNN框架的机器人手势识别方法，有益效果：本发明的技术效果在于：

1.本发明利用GAN实现对有限的手势样本图片的扩展，能够很好的解决深度学习模型在小样本条件下容易过拟合的问题；

2.本发明充分的利用了CNN强大的非线性表达能力，在GAN生成扩展的图片样本的基础上，能很好的捕捉到不同手势图片之间的分布特征，从而精确的实现了机器人对不同手势的识别；

3.本发明利用MYSQL数据库存储数据的优势，可以很好的实现对GAN-CNN模型的更新优化，一方面增强了模型的识别精度，另一方面也提高了模型的泛化性。

附图说明

图1为本发明的流程图；

图2为本发明采用的GAN模型对抗训练示意图；

图3为本发明采用的CNN模型网络结构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出了基于GAN-CNN框架的机器人手势识别方法，旨在实现机器人对人类不同手势精确的识别判断，同时实现模型的更新优化。

图1为本发明的流程图。下面结合流程图对本发明的步骤作详细介绍。

步骤2，数据处理系统利用生成对抗网络(GAN)对步骤1中不同的手势样本图片进行扩展；

步骤2中GAN网络模型训练的步骤为：

步骤2.1，固定生成器G，训练鉴别器D；

步骤2.2，固定鉴别器D，训练生成器G；

步骤2.3，重复步骤2.1和步骤2.2，直至整个网络达到纳什平衡或者迭代次数达到设定的最大值，整个对抗过程的目标函数可以表示为：

式中，p_data(x)表示真实样本x的分布概率，p_z(z)表示生成器G的输入噪声变量z的分布概率z的分布概率，D(x)表示D鉴别x来源于真实样本的概率，D(G(z))表示D鉴别z来源于虚假样本的概率。

步骤3，对步骤2获得的扩展手势图片制作相应的标签，然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络(CNN)中，从而完成CNN分类识别模型的预训练；

步骤3中CNN网络模型训练的步骤为：

步骤3.1，将扩展得到的手势图片及其对应的标签输入到CNN中，其中卷积层滤波处理可以表达为：

式中，

为n层卷积上第l个卷积核的输出，σ(·)为非线性激活函数，本发明选用RULE函数，

为n层第l个卷积核的权重系数，

为n-1层第m个特征输出，

是偏置项。

步骤3.2，将卷积层处理后的图片输入至下一个处理层，即：池化层，本发明的池化方式选用Max pooling；

式中，K为类别数，θ^j(1≤j≤K)为分类层参数。

步骤3.6，在交叉熵损失函数下，利用随机梯度下降(SGD)算法对CNN网络参数进行更新优化；

步骤3.7，重复以上步骤，直至交叉熵损失函数收敛或网络迭代次数达到设定的阈值，此时认为模型训练完成。

步骤5中将相关的识别信息通过WIFI上传至MYSQL数据库进行存储可具体描述为：

图2为本发明采用的GAN模型对抗训练示意图。可以看出，生成器G和鉴别器D在整个过程中进行对抗博弈，当两者达到纳什平衡的时候，可以认为模型训练结束，也即通过生成器G可以生成与真实手势图片分布一致的虚假样本，从而实现对有限手势图片的扩展。

图3为本发明采用的CNN模型网络结构图。可以看出，本发明中的CNN由三层卷积层和三层池化层构成，在卷积层和池化层对特征提取结束后对获得的数据进行Flatten展开，而后利用两层全连接层实现对所提特征的降维，最后结合Softmax层实现对样本的分类。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.基于GAN-CNN框架的机器人手势识别方法，具体步骤如下，其特征在于：

步骤2中GAN网络模型训练的步骤为：

步骤2.1，固定生成器G，训练鉴别器D；

步骤2.2，固定鉴别器D，训练生成器G；

式中，p_data(x)表示真实样本x的分布概率，p_z(z)表示生成器G的输入噪声变量z的分布概率，D(x)表示D鉴别x来源于真实样本的概率，D(G(z))表示D鉴别z来源于虚假样本的概率；

步骤3中CNN网络模型训练的步骤为：

式中，

为n层第l个卷积核的权重系数，

为n-1层第m个特征输出，

是偏置项；

式中，K为类别数，θ^j，1≤j≤K为分类层参数；

2.根据权利要求1所述的基于GAN-CNN框架的机器人手势识别方法，其特征在于：步骤5中将相关的识别信息通过WIFI上传至MYSQL数据库进行存储具体为：

将实时采集的照片和相应的判断结果发送至MYSQL数据库，当已有的模型判断出错时，则将判断出错的图片数据制作相应的标签，而后对已有的模型进行重新训练，其中训练过程与步骤3.1-3.7保持一致。