CN111860238A - 一种基于卷积神经网络的动态手势识别方法及系统 - Google Patents
一种基于卷积神经网络的动态手势识别方法及系统 Download PDFInfo
- Publication number
- CN111860238A CN111860238A CN202010646082.2A CN202010646082A CN111860238A CN 111860238 A CN111860238 A CN 111860238A CN 202010646082 A CN202010646082 A CN 202010646082A CN 111860238 A CN111860238 A CN 111860238A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural network
- dynamic gesture
- gesture recognition
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的动态手势识别方法及系统,包括:首先选用VIVA数据集,使用光流法对视频的关键帧提取和统计,然后进行样本数据扩增,增扩后样本数量变为原来的六倍,减少了训练网络过程中的过拟合;为提高训练效率,提高识别准确率,本发明构建了基于卷积神经网络的动态手势识别模型,并提出多模态联合训练方法和多向3D训练方法进行网络训练;最后利用训练好的样本模型进行动态手势识别。
Description
技术领域:
本发明涉及计算机视觉和模式识别技术领域,具体涉及一种基于卷积神经网络的动态手势识别方法及系统。
背景技术:
人机交互技术在计算机领域一直以来都是重点研究内容。目前,基于手势识别的人机交互技术广泛应用于各种智能终端中,比如虚拟现实(VR)、增强现实(AR)、智能驾驶系统中以及网络在线教育中。
手势识别的关键技术在于手势动作的跟踪以及手势动作的识别。目前手势识别主要有两种方式,分别是基于数据手套的手势识别和基于视觉的手势识别。基于数据手套的手势识别需要用户必须佩戴智能手套,通过分析、跟踪标记人手的位置以及其运动轨迹来识别动态手势;基于视觉的手势识别通过摄像头来获取静态手势图像或者动态手势视频,然后通过分类算法处理完成手势的分类。
基于数据手套的手势识别方法成本高,穿戴繁琐,价格昂贵,影响了用户在使用手势进行交互时的自然性与舒适性;基于视觉的手势识别方法,对光线的要求较高,而且容易受到背景肤色和类肤色的影响,不能感知动态手势之间连续的变化,识别率低。
为此,提出了一种基于卷积神经网络的动态手势识别方法,该方案在3D卷积神经网络的基础上提出了两种数据扩增的方法、关键帧提取算法、多模态联合训练以及多向3D卷积神经网络的特征提取方法。在VIVA数据集上达到了较高的识别准确率。
发明内容:
本发明所要解决的技术问题是现有的动态手势识别方法的识别率不高的问题。为了解决上述问题,本发明所使用的技术方案是提供一种基于卷积神经网络的动态手势识别方法,包括以下步骤:
1、扩增VIVA数据集
2、构建3D卷积神经网络模型
3、进行卷积神经网络的训练
4、进行手势识别测试
优选的,所述步骤1中扩增数据集,使用VIVA数据集,通过视频时域剪裁和视频镜像翻转的方法增扩数据集,样本数据包含RGB模态和Depth模态,图像分辨率为115×250。手势包括手和手指动作;使用光流法对视频进行关键帧提取。具体采用Horn-Schunck算法计算视频光流。
优选的,所述步骤2中,构建3D卷积神经网络模型,整个网络由4个卷积层、4个池化层、4个BN层外加2个全连接层构成。该网络的结构分成3个子网络部分:从上方提取特征(Top-Net)的网络,从左方提取特征(Left-Net)和从正前方提取特征(Front-Net),通过串联融合的方法对三个方向提取的特征进行特征融合。
优选的,所述步骤3中进行卷积神经网络的训练,首先利用Xavier方法对卷积神经网络的权重和偏置进行初始化,使得权重和偏置服从的均匀分布,ni和no分别为该层输入和输出神经元个数。mini_batch的尺寸为32,网络的最大迭代次数为8850,最初学习率设置为0.01。经过3000次迭代后变为0.001,经过5000次迭代后变成0.0001,经过6000次迭代后变成0.00001。然后使用带动量的小批量随机梯度下降算法来优化3D卷积神经网络。
附图说明:
图1是本发明中基于卷积神经网络的搭建训练方法流程图;
图2是本发明中所使用的3D卷积神经网络的结构图示意图;
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,对本发明进一步详细说明。
步骤S1:使用VIVA数据集,经过数据增扩生成训练样本数据集,样本数据包含RGB模态和Depth模态,图像分辨率为115×250。手势包括手和手指动作;
步骤S2:设计基于3D卷积神经网络的动态手势识别模型;
步骤S3:利用训练集对手势进行训练;
步骤S4:进行动态手势识别测试
本发明的有益效果:
本发明提供的基于卷积神经网络的动态手势识别方法及系统,具有以下突出的优点:
(1)直接将动态手势视频数据通过卷积神经网络测试,提高了动态手势识别的效率。
(2)本发明,可以消除背景肤色和类肤色的干扰,鲁棒性强。
(3)在网络模型中通过多模态联合训练的方式训练网络,提高了模型训练的效率。
(4)对训练样本集中的每段视频进行时预剪裁和视频镜像翻转的方式进行数据扩增,增加了样本量的同时,减少了采集的工作量。
(5)选用多向3D卷积神经网络模型,对前方,左方,上方进行时空特征提取,并在得分层运用串联融合的方式极大提高了动态手势识别的准确率。
本发明并不局限于上述最佳实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
Claims (4)
1.一种基于卷积神经网络的动态手势识别方法及系统,包括以下几个步骤.
A、使用VIVA数据集,该数据集含有19个动态手势类别,包含RGB和Depth两个模态;
B、设计基于卷积神经网络的3D动态手势模型;
C、使用串联融合的方式对3D卷积神经网络在三个方向提取出来的特征进行特征融合;
D、运用训练好的卷积神经网络模型进行动态手势的识别测试。
2.根据权利要求1所述的方法,其特征在于,使用视频时域剪裁和视频镜像翻转的方法对样本进行扩充,与原始样本一起组成训练样本集。
3.根据权利要求1所述的方法,其特征在于,3D卷积神经网络结构,整个网络由4个卷积层、4个池化层、4个BN层外加2个全连接层构成。该网络的结构分成3个子网络部分:从上方提取特征(Top-Net)的网络,从左方提取特征(Left-Net)和从正前方提取特征(Front-Net)。将三个方向提出的特征进行特征融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010646082.2A CN111860238A (zh) | 2020-07-07 | 2020-07-07 | 一种基于卷积神经网络的动态手势识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010646082.2A CN111860238A (zh) | 2020-07-07 | 2020-07-07 | 一种基于卷积神经网络的动态手势识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111860238A true CN111860238A (zh) | 2020-10-30 |
Family
ID=73152928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010646082.2A Pending CN111860238A (zh) | 2020-07-07 | 2020-07-07 | 一种基于卷积神经网络的动态手势识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860238A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
-
2020
- 2020-07-07 CN CN202010646082.2A patent/CN111860238A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
李杰: "基于深度卷积神经网络的动态手势识别", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Adversarial learning for constrained image splicing detection and localization based on atrous convolution | |
Meng et al. | Sample fusion network: An end-to-end data augmentation network for skeleton-based human action recognition | |
CN108363973B (zh) | 一种无约束的3d表情迁移方法 | |
Li et al. | LPSNet: a novel log path signature feature based hand gesture recognition framework | |
CN111783620A (zh) | 表情识别方法、装置、设备及存储介质 | |
CN110399518A (zh) | 一种基于图卷积的视觉问答增强方法 | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
Zhou et al. | A lightweight hand gesture recognition in complex backgrounds | |
Li et al. | LBAN-IL: A novel method of high discriminative representation for facial expression recognition | |
CN112836597A (zh) | 基于级联并行卷积神经网络的多手姿态关键点估计方法 | |
CN107066979A (zh) | 一种基于深度信息和多维度卷积神经网络的人体动作识别方法 | |
CN113221663A (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
Dar et al. | Efficient-SwishNet based system for facial emotion recognition | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Cambuim et al. | An efficient static gesture recognizer embedded system based on ELM pattern recognition algorithm | |
Narayan et al. | SBI-DHGR: Skeleton-based intelligent dynamic hand gestures recognition | |
Wang et al. | Micro-expression recognition with attention mechanism and region enhancement | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN112069916A (zh) | 人脸美丽预测方法、装置、系统及可读存储介质 | |
Liu et al. | Sketch to portrait generation with generative adversarial networks and edge constraint | |
CN111860238A (zh) | 一种基于卷积神经网络的动态手势识别方法及系统 | |
CN112967317B (zh) | 一种动态环境下基于卷积神经网络架构的视觉里程计方法 | |
CN114550047A (zh) | 一种行为速率引导的视频行为识别方法 | |
Kousalya et al. | Prediction of Best Optimizer for Facial Expression Detection using Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201030 |