CN111401261B - 基于gan-cnn框架的机器人手势识别方法 - Google Patents
基于gan-cnn框架的机器人手势识别方法 Download PDFInfo
- Publication number
- CN111401261B CN111401261B CN202010192589.5A CN202010192589A CN111401261B CN 111401261 B CN111401261 B CN 111401261B CN 202010192589 A CN202010192589 A CN 202010192589A CN 111401261 B CN111401261 B CN 111401261B
- Authority
- CN
- China
- Prior art keywords
- pictures
- cnn
- gesture
- robot
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
基于GAN‑CNN框架的机器人手势识别方法,高清摄像机预先采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;数据处理系统利用生成对抗网络对步骤1中不同的手势样本图片进行扩展;对上步骤获得的扩展手势图片制作相应的标签,然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络中,从而完成CNN分类识别模型的预训练;高清摄像机实时采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;数据处理系统利用预训练好的CNN模型对上步骤中所采集的照片进行分类识别,并将相关的识别信息通过WIFI上传至MYSQL数据库进行存储;机器人根据CNN识别结果执行相应的动作,至此,整个闭环过程结束。本发明解决小样本条件下机器人手势识别的难题。
Description
技术领域
本发明涉及机器人手势识别领域,特别是涉及基于GAN-CNN框架的机器人手势识别方法。
背景技术
随着人工智能和虚拟现实技术的不断发展,人机交互系统已经成为当前的研究热点。现今,作为一种新兴的人机交互方式,手势识别得到了很多研究者的重视,并产生了一系列有效的成果,且在诸如智能机器人、智能驾驶等设备中得到了广泛的应用。手势识别,简单的来说就是让机器在视觉或传感器采集系统的辅助下来理解人类所想要表达的思想,即通过无接触的方式完成交互过程,从而通过机器人完成相应的动作,在真正意义上实现智能化。
对于不同手势的识别分类,其核心即是图像的分类识别。近年来发展的深度学习模型凭借其强大的表征能力和自适应学习能力被广泛应用于计算机视觉、自然语言处理和人脸识别等领域。此类的模型如深度信念网络(DBN)、循环神经网络(RNN)、堆栈降噪自编码(SDAE)、卷积神经网络(CNN)、长短时记忆网络(LSTM)。其中的CNN是仿造生物的视知觉机制构建的,是一种具有深度结构的前馈神经网络,在图像分类识别中具有很好的效果,但如何以CNN为核心构建一个分类识别模型,并且支持模型的更新优化是当前亟待解决的问题。
国内涉及CNN方法在手势识别中应用的专利有“一种面向水下设备的手势识别方法”(201910858330.7),利用卷积神经网络实现对手势图像的识别,解决现有方法中存在的实现过程繁琐、实时性差、且识别率低的问题。国家发明专利“基于毫米波雷达和卷积神经网络的微动手势识别方法”(201911054117.7),该专利针对毫米波雷达特征图像设计卷积神经网络,而后调用分类模型以实现多种手势的分类识别。以上两个国家发明专利都涉及CNN在手势识别中的应用,但是都存在训练样本量不够充足,而导致CNN模型可能会出现过拟合现象,从而降低了模型的泛化性。
发明内容
为解决上述问题,本发明在GAN,CNN,MYSQL数据库的基础上,提出了基于GAN-CNN框架的机器人手势识别方法,首先利用GAN对有限的手势照片进行扩展以解决小样本条件下模型以过拟合的问题,而后利用具有强大的非线性表达能力的CNN对不同的手势图片进行分类识别。另外,充分利用了MYSQL数据库的存储优势,能够实现对现有模型的更新优化,从而大大的提高了模型的识别精度和泛化性。为达此目的,本发明提供基于GAN-CNN框架的机器人手势识别方法,具体步骤如下,其特征在于:
步骤1,高清摄像机预先采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;
步骤2,数据处理系统利用生成对抗网络GAN对步骤1中不同的手势样本图片进行扩展;
步骤2中GAN网络模型训练的步骤为:
步骤2.1,固定生成器G,训练鉴别器D;
步骤2.2,固定鉴别器D,训练生成器G;
步骤2.3,重复步骤2.1和步骤2.2,直至整个网络达到纳什平衡或者迭代次数达到设定的最大值,整个对抗过程的目标函数表示为:
式中,pdata(x)表示真实样本x的分布概率,pz(z)表示生成器G的输入噪声变量z的分布概率z的分布概率,D(x)表示D鉴别x来源于真实样本的概率,D(G(z))表示D鉴别z来源于虚假样本的概率;
步骤3,对步骤2获得的扩展手势图片制作相应的标签,然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络CNN中,从而完成CNN分类识别模型的预训练;
步骤3中CNN网络模型训练的步骤为:
步骤3.1,将扩展得到的手势图片及其对应的标签输入到CNN中,其中卷积层滤波处理表达为:
步骤3.2,将卷积层处理后的图片输入至下一个处理层,该处理层为池化层,池化方式为Max pooling;
步骤3.3,依次对图片进行类似于步骤3.1和步骤3.2的卷积池化处理;
步骤3.4,将步骤3.3中获得图片以Flatten的方式进行展开,然后连接全连接层1和全连接层2;
步骤3.5,利用Softmax逻辑回归实现对多层提取后的特征向量的识别与分类,其中Softmax回归的输出定义如下:
式中,K为类别数,θj,1≤j≤K为分类层参数;
步骤3.6,在交叉熵损失函数下,利用随机梯度下降SGD算法对CNN网络参数进行更新优化;
步骤3.7,重复步骤3.1-3.6,直至交叉熵损失函数收敛或网络迭代次数达到设定的阈值,模型训练完成;
步骤4,高清摄像机实时采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;
步骤5,数据处理系统利用预训练好的CNN模型对步骤4中所采集的照片进行分类识别,并将相关的识别信息通过WIFI上传至MYSQL数据库进行存储;
步骤6,机器人根据CNN识别结果执行相应的动作,至此,整个闭环过程结束。
进一步,步骤5中将相关的识别信息通过WIFI上传至MYSQL数据库进行存储具体为:
将实时采集的照片和相应的判断结果发送至MYSQL数据库,当已有的模型判断出错时,则将判断出错的图片数据制作相应的标签,而后对已有的模型进行重新训练,其中训练过程与步骤3.1-3.7保持一致,从而提高模型的分类识别的精度和泛化性。
本发明基于GAN-CNN框架的机器人手势识别方法,有益效果:本发明的技术效果在于:
1.本发明利用GAN实现对有限的手势样本图片的扩展,能够很好的解决深度学习模型在小样本条件下容易过拟合的问题;
2.本发明充分的利用了CNN强大的非线性表达能力,在GAN生成扩展的图片样本的基础上,能很好的捕捉到不同手势图片之间的分布特征,从而精确的实现了机器人对不同手势的识别;
3.本发明利用MYSQL数据库存储数据的优势,可以很好的实现对GAN-CNN模型的更新优化,一方面增强了模型的识别精度,另一方面也提高了模型的泛化性。
附图说明
图1为本发明的流程图;
图2为本发明采用的GAN模型对抗训练示意图;
图3为本发明采用的CNN模型网络结构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出了基于GAN-CNN框架的机器人手势识别方法,旨在实现机器人对人类不同手势精确的识别判断,同时实现模型的更新优化。
图1为本发明的流程图。下面结合流程图对本发明的步骤作详细介绍。
步骤1,高清摄像机预先采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;
步骤2,数据处理系统利用生成对抗网络(GAN)对步骤1中不同的手势样本图片进行扩展;
步骤2中GAN网络模型训练的步骤为:
步骤2.1,固定生成器G,训练鉴别器D;
步骤2.2,固定鉴别器D,训练生成器G;
步骤2.3,重复步骤2.1和步骤2.2,直至整个网络达到纳什平衡或者迭代次数达到设定的最大值,整个对抗过程的目标函数可以表示为:
式中,pdata(x)表示真实样本x的分布概率,pz(z)表示生成器G的输入噪声变量z的分布概率z的分布概率,D(x)表示D鉴别x来源于真实样本的概率,D(G(z))表示D鉴别z来源于虚假样本的概率。
步骤3,对步骤2获得的扩展手势图片制作相应的标签,然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络(CNN)中,从而完成CNN分类识别模型的预训练;
步骤3中CNN网络模型训练的步骤为:
步骤3.1,将扩展得到的手势图片及其对应的标签输入到CNN中,其中卷积层滤波处理可以表达为:
步骤3.2,将卷积层处理后的图片输入至下一个处理层,即:池化层,本发明的池化方式选用Max pooling;
步骤3.3,依次对图片进行类似于步骤3.1和步骤3.2的卷积池化处理;
步骤3.4,将步骤3.3中获得图片以Flatten的方式进行展开,然后连接全连接层1和全连接层2;
步骤3.5,利用Softmax逻辑回归实现对多层提取后的特征向量的识别与分类,其中Softmax回归的输出定义如下:
式中,K为类别数,θj(1≤j≤K)为分类层参数。
步骤3.6,在交叉熵损失函数下,利用随机梯度下降(SGD)算法对CNN网络参数进行更新优化;
步骤3.7,重复以上步骤,直至交叉熵损失函数收敛或网络迭代次数达到设定的阈值,此时认为模型训练完成。
步骤4,高清摄像机实时采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;
步骤5,数据处理系统利用预训练好的CNN模型对步骤4中所采集的照片进行分类识别,并将相关的识别信息通过WIFI上传至MYSQL数据库进行存储;
步骤5中将相关的识别信息通过WIFI上传至MYSQL数据库进行存储可具体描述为:
将实时采集的照片和相应的判断结果发送至MYSQL数据库,当已有的模型判断出错时,则将判断出错的图片数据制作相应的标签,而后对已有的模型进行重新训练,其中训练过程与步骤3.1-3.7保持一致,从而提高模型的分类识别的精度和泛化性。
步骤6,机器人根据CNN识别结果执行相应的动作,至此,整个闭环过程结束。
图2为本发明采用的GAN模型对抗训练示意图。可以看出,生成器G和鉴别器D在整个过程中进行对抗博弈,当两者达到纳什平衡的时候,可以认为模型训练结束,也即通过生成器G可以生成与真实手势图片分布一致的虚假样本,从而实现对有限手势图片的扩展。
图3为本发明采用的CNN模型网络结构图。可以看出,本发明中的CNN由三层卷积层和三层池化层构成,在卷积层和池化层对特征提取结束后对获得的数据进行Flatten展开,而后利用两层全连接层实现对所提特征的降维,最后结合Softmax层实现对样本的分类。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (2)
1.基于GAN-CNN框架的机器人手势识别方法,具体步骤如下,其特征在于:
步骤1,高清摄像机预先采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;
步骤2,数据处理系统利用生成对抗网络GAN对步骤1中不同的手势样本图片进行扩展;
步骤2中GAN网络模型训练的步骤为:
步骤2.1,固定生成器G,训练鉴别器D;
步骤2.2,固定鉴别器D,训练生成器G;
步骤2.3,重复步骤2.1和步骤2.2,直至整个网络达到纳什平衡或者迭代次数达到设定的最大值,整个对抗过程的目标函数表示为:
式中,pdata(x)表示真实样本x的分布概率,pz(z)表示生成器G的输入噪声变量z的分布概率,D(x)表示D鉴别x来源于真实样本的概率,D(G(z))表示D鉴别z来源于虚假样本的概率;
步骤3,对步骤2获得的扩展手势图片制作相应的标签,然后将扩展得到的手势图片及其对应的标签输入到卷积神经网络CNN中,从而完成CNN分类识别模型的预训练;
步骤3中CNN网络模型训练的步骤为:
步骤3.1,将扩展得到的手势图片及其对应的标签输入到CNN中,其中卷积层滤波处理表达为:
步骤3.2,将卷积层处理后的图片输入至下一个处理层,该处理层为池化层,池化方式为Max pooling;
步骤3.3,依次对图片进行类似于步骤3.1和步骤3.2的卷积池化处理;
步骤3.4,将步骤3.3中获得图片以Flatten的方式进行展开,然后连接全连接层1和全连接层2;
步骤3.5,利用Softmax逻辑回归实现对多层提取后的特征向量的识别与分类,其中Softmax回归的输出定义如下:
式中,K为类别数,θj,1≤j≤K为分类层参数;
步骤3.6,在交叉熵损失函数下,利用随机梯度下降SGD算法对CNN网络参数进行更新优化;
步骤3.7,重复步骤3.1-3.6,直至交叉熵损失函数收敛或网络迭代次数达到设定的阈值,模型训练完成;
步骤4,高清摄像机实时采集不同手势样本图片,而后通过WIFI传送至机器人数据处理系统;
步骤5,数据处理系统利用预训练好的CNN模型对步骤4中所采集的照片进行分类识别,并将相关的识别信息通过WIFI上传至MYSQL数据库进行存储;
步骤6,机器人根据CNN识别结果执行相应的动作,至此,整个闭环过程结束。
2.根据权利要求1所述的基于GAN-CNN框架的机器人手势识别方法,其特征在于:步骤5中将相关的识别信息通过WIFI上传至MYSQL数据库进行存储具体为:
将实时采集的照片和相应的判断结果发送至MYSQL数据库,当已有的模型判断出错时,则将判断出错的图片数据制作相应的标签,而后对已有的模型进行重新训练,其中训练过程与步骤3.1-3.7保持一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192589.5A CN111401261B (zh) | 2020-03-18 | 2020-03-18 | 基于gan-cnn框架的机器人手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192589.5A CN111401261B (zh) | 2020-03-18 | 2020-03-18 | 基于gan-cnn框架的机器人手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401261A CN111401261A (zh) | 2020-07-10 |
CN111401261B true CN111401261B (zh) | 2022-06-10 |
Family
ID=71432608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192589.5A Active CN111401261B (zh) | 2020-03-18 | 2020-03-18 | 基于gan-cnn框架的机器人手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401261B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580611A (zh) * | 2021-02-21 | 2021-03-30 | 江苏铨铨信息科技有限公司 | 一种基于igan-cnn模型的空气污染评估方法 |
CN116736340A (zh) * | 2023-04-11 | 2023-09-12 | 中山大学·深圳 | 一种欺骗信号检测方法、装置、计算机设备及存储介质 |
CN117892637B (zh) * | 2024-03-13 | 2024-06-07 | 中国电子科技集团公司第十五研究所 | 一种基于联合网络模型的靶板击穿厚度预测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729854A (zh) * | 2017-10-25 | 2018-02-23 | 南京阿凡达机器人科技有限公司 | 一种机器人的手势识别方法、系统及机器人 |
CN108334814A (zh) * | 2018-01-11 | 2018-07-27 | 浙江工业大学 | 一种基于卷积神经网络结合用户习惯性行为分析的ar系统手势识别方法 |
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
CN109815920A (zh) * | 2019-01-29 | 2019-05-28 | 南京信息工程大学 | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726248B2 (en) * | 2018-02-01 | 2020-07-28 | Ford Global Technologies, Llc | Validating gesture recognition capabilities of automated systems |
-
2020
- 2020-03-18 CN CN202010192589.5A patent/CN111401261B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
CN107729854A (zh) * | 2017-10-25 | 2018-02-23 | 南京阿凡达机器人科技有限公司 | 一种机器人的手势识别方法、系统及机器人 |
CN108334814A (zh) * | 2018-01-11 | 2018-07-27 | 浙江工业大学 | 一种基于卷积神经网络结合用户习惯性行为分析的ar系统手势识别方法 |
CN109815920A (zh) * | 2019-01-29 | 2019-05-28 | 南京信息工程大学 | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111401261A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401261B (zh) | 基于gan-cnn框架的机器人手势识别方法 | |
Qolomany et al. | Parameters optimization of deep learning models using particle swarm optimization | |
CN111310672A (zh) | 基于时序多模型融合建模的视频情感识别方法、装置及介质 | |
CN109443382A (zh) | 基于特征提取与降维神经网络的视觉slam闭环检测方法 | |
CN112801040B (zh) | 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统 | |
CN109325440B (zh) | 人体动作识别方法及系统 | |
CN106651915B (zh) | 基于卷积神经网络的多尺度表达的目标跟踪方法 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
Kollias et al. | On line emotion detection using retrainable deep neural networks | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Yu et al. | Human action recognition using deep learning methods | |
Zeng et al. | CNN model design of gesture recognition based on tensorflow framework | |
CN108171318A (zh) | 一种基于模拟退火—高斯函数的卷积神经网络集成方法 | |
CN113391607A (zh) | 一种基于深度学习的水电站闸门控制方法及系统 | |
CN113158861B (zh) | 一种基于原型对比学习的运动分析方法 | |
CN111582396A (zh) | 一种基于改进卷积神经网络的故障诊断方法 | |
CN111582395A (zh) | 一种基于卷积神经网络的产品质量分类系统 | |
CN110096976A (zh) | 基于稀疏迁移网络的人体行为微多普勒分类方法 | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Shariff et al. | Artificial (or) fake human face generator using generative adversarial network (GAN) machine learning model | |
CN111950373B (zh) | 一种基于光流输入的迁移学习用于微表情识别的方法 | |
Jahagirdar et al. | Comparison of feed forward and cascade forward neural networks for human action recognition | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN110363074A (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |