CN109657634A - 一种基于深度卷积神经网络的3d手势识别方法及系统 - Google Patents

一种基于深度卷积神经网络的3d手势识别方法及系统 Download PDF

Info

Publication number
CN109657634A
CN109657634A CN201811605203.8A CN201811605203A CN109657634A CN 109657634 A CN109657634 A CN 109657634A CN 201811605203 A CN201811605203 A CN 201811605203A CN 109657634 A CN109657634 A CN 109657634A
Authority
CN
China
Prior art keywords
network
gesture
data set
training
depth convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811605203.8A
Other languages
English (en)
Inventor
陈分雄
胡凯
黄华文
王典洪
蒋伟
熊鹏涛
叶佳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201811605203.8A priority Critical patent/CN109657634A/zh
Publication of CN109657634A publication Critical patent/CN109657634A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Abstract

本发明提供了一种基于深度卷积神经网络的3D手势识别方法及系统,其方法包括:首先利用第一个深度卷积神经网络对大量包含手部的彩色图像进行预分割提取手动作的部分;其次利用第二个深度卷积神经网络对提取的手部进行手部关节节点检测;然后利用双流深度卷积网络对检测到的关节节点进行手势的3D重建;最后构建一个包含3个全连接层的softmax网络对3D重建的手势进行识别。本发明的有益效果是:本发明所提出的技术方案能有效提高手势识别的精度;从应用范围看,该方法对象是单目相机采集的RGB图像,所需设备简单廉价,应用的场景更广。

Description

一种基于深度卷积神经网络的3D手势识别方法及系统
技术领域
本发明涉及深度学习领域,尤其涉及一种基于深度卷积神经网络的3D手势识别方法及系统。
背景技术
人类对客观世界的感知有70%由视觉获取,使用计算机代替人类对世界进行感知、语义分析和理解是计算机视觉的最终目标。手势作为人类最自然的交流方式之一,具有极强的信息表达与传递功能。而用手操作行为本身就是人与外界相互作用的主要方式。手势识别问题主要来源于新型人机相互技术的需求,是新型人机交互技术中不可或缺的重要组成部分,有着广泛的应用前景。将手势识别应用在智能家居领域,人们可以用手势来控制家电设备,用手势换台、播放音乐、玩虚拟游戏等。在医疗领域中,手势交互接口可以帮助医生在非接触条件下控制显示屏上超声或核磁共振图像中感兴趣区域的放大缩小,这对要求无菌条件的手术非常有利。尽管近几年国内外都在手势识别和姿态估计上取得了重要进展,绝大部分的方法都采用了深度相机采集的深度图像,但其应用场景和设备的要求限制了手势识别的应用范围,因此对单目摄像头采集的RGB图像进行手势、姿态识别的研究仍具有很大的挑战性。
传统的手势检测基于二维彩色图像信息,根据肤色特征或者人手纹理特征来检测手势。这种基于光学图像的手势检测存在以下问题:不能与手部等肤色相近的人体部分重叠,容易受到光照变化影响以及难以实现复杂背景下的有效分割;在大数据时代,传统图像方法难以应对海量的数据,过多的依赖于手工特征或者直观且简单的特征。
深度学习的多层非线性神经网络模型具有的强大学习能力,在2006年Hinton 解决了传统神经网络容易局部收敛的问题。深度学习结合大数据后,能从这些数据中自主的学习深层特征,使得特征能够从本质上表达类似人视觉系统对动作的高级抽象,这为手势估计的研究提供了新思路。卷积神经网络(convolutional neural network,CNN)是深度学习下的一种框架,在图像分类,目标跟踪检测等各种应用中都表现出色,已成为当前图像处理领域的研究热点。
发明内容
为了解决上述问题,本发明提供了一种基于深度卷积神经网络的3D手势识别方法及系统,一种基于深度卷积神经网络的3D手势识别方法,主要包括以下步骤:
S101:从现有开源数据集中获取第一样本数据集;并建立3D手势识别网络;所述样本数据分为第一训练数据集和第一测试数据集;所述3D手势识别网络包括:3D手势重建网络和softmax网络;
S102:利用渲染合成的方法扩充所述第一训练数据集和第一测试数据集,得到扩充后的第一训练样本集和扩充后的第一测试数据集;
S103:利用扩充后的第一训练数据集对所述3D手势重建网络进行训练,得到训练后的3D手势重建网络;
S104:利用扩充后的第一测试数据集对训练后的3D手势重建网络进行测试,得到测试通过率x;
S105:判断条件x>y是否成立。若是,则到步骤S106;若否,则返回步骤 S102;其中y大于0,为通过率阈值,根据经验值设定;
S106:从现有开源数据集中获取第二样本数据;所述第二样本数据包括:第二训练数据集和第二测试数据集;
S107:利用渲染合成的方法扩充所述第二训练数据集和第二测试数据集,得到扩充后的第二训练样本集和扩充后的第二测试数据集;
S108:利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练,得到训练后的3D手势识别网络;其中,3D手势识别网络中的3D手势重建网络为训练后的3D手势重建网络;
S109:利用扩充后的第二测试数据集对所述3D手势识别网络进行测试,得到测试通过率x1;
S110:判断条件x1>y1是否成立。若是,则到步骤S110;否则,返回步骤 S107;
S111:将真实的3D手势图片数据所述训练后的3D手势识别网络,输出真实的手势识别结果。
进一步地,步骤S101中,所述第一样本数据集采用公开数据集立体手姿势跟踪基准Stereo Hand Pose Tracking Benchmark;所述第一测试数据集采用公开的德语手语数据集RWTH German Finger spelling Database。
进一步地,步骤S101中,所述3D手势重建网络包括顺次连接的第一深度卷积神经网络、第二深度卷积神经网络和双流深度卷积网络;利用第一深度卷积神经网络定位手动作的部分,并将其进行预分割提取手动作的部分;将提取的手动作的部分作为第二深度卷积神经网络的输入,检测手部关键特征点,输出三个检测得分图;对检测得分图进行双流深度卷积网络训练,上路预测节点的位置信息Wc,下路估计相对于实际图片的空间变换关系R,将两路结果融合得到最终的3D节点特征Wrel;利用双流深度卷积网络对检测到的关节节点进行手势的 3D重建,得到重建的3D手势。
进一步地,所述检测得分图中,通过检测w个手关节节点,以更少量的特征点来代替整个手部,进一步减少手部的冗余信息,提高网络训练的精度;其中, w大于0,取值根据选用的第一样本数据集种类确定。
进一步地,步骤S103中,利用扩充后的第一训练数据集对所述3D手势重建网络进行训练时,采用监督学习的方法,通过两个深度卷积网络利用2D检测输入和3D的标签来提取节点的位置信息和空间变换关系,然后再融合两路结果重建3D手势,能有效的适应不同的场景;其中,训练第一深度卷积神经网络时,采用标准的softmax交叉熵损失作为约束。
进一步地,步骤S106中,所述第二样本数据集采用公开的德语手语数据集 RWTHGerman Finger spelling Database。
进一步地,所述softmax网络包括:多个连续的全连接层,步骤S108中,利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练时,利用训练后的3D手势重建网络对第二训练数据集中的样本的3D手势进行重建,并通过所述softmax网络中连续的全连接层组合所述重建的3D手势中的3D节点特征,再使用softmax分类器对所述组合3D节点特征进行分类,输出分类结果。
进一步地,第一深度卷积神经网络、第二深度卷积神经网络、双流深度卷积网络和softmax网络的任何一个均可以独立进行网络训练,使网络易于控制,随后将所有网络级联而成一个完整的架构统一训练,能有效的避免网络陷于局部收敛。
进一步地,一种基于深度卷积神经网络的3D手势识别系统,其特征在于:包括以下模块:
第一数据模块,用于从现有开源数据集中获取第一样本数据集;并建立3D 手势识别网络;所述样本数据分为第一训练数据集和第一测试数据集;所述3D 手势识别网络包括:3D手势重建网络和softmax网络;
第一扩充模块,利用渲染合成的方法扩充所述第一训练数据集和第一测试数据集,得到扩充后的第一训练样本集和扩充后的第一测试数据集;
第一训练模块,用于利用扩充后的第一训练数据集对所述3D手势重建网络进行训练,得到训练后的3D手势重建网络;
第一测试模块,用于利用扩充后的第一测试数据集对训练后的3D手势重建网络进行测试,得到测试通过率x;
第一判断模块,用于判断条件x>y是否成立。若是,则进入下一步;若否,则返回第一扩充模块;其中y大于0,为通过率阈值,根据经验值设定;
第二数据模块,用于从现有开源数据集中获取第二样本数据;所述第二样本数据包括:第二训练数据集和第二测试数据集;
第二扩充模块,利用渲染合成的方法扩充所述第二训练数据集和第二测试数据集,得到扩充后的第二训练样本集和扩充后的第二测试数据集;
第二训练模块,用于利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练,得到训练后的3D手势识别网络;其中,3D手势识别网络中的 3D手势重建网络为训练后的3D手势重建网络;
第二测试模块,用于利用扩充后的第二测试数据集对所述3D手势识别网络进行测试,得到测试通过率x1;
第二判断模块,用于判断条件x1>y1是否成立。若是,则进入下一步;否则,返回第二扩充模块;
识别模块,用于将真实的3D手势图片数据所述训练后的3D手势识别网络,输出真实的手势识别结果。
本发明提供的技术方案带来的有益效果是:本发明所提出的技术方案能有效提高手势识别的精度;从应用范围看,该方法对象是单目相机采集的RGB图像,所需设备简单廉价,应用的场景更广。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于深度卷积神经网络的3D手势识别方法的流程图;
图2是本发明实施例实验中完成手势3D重建的深度卷积神经网络框架;
图3是本发明实施例中实验中完成手势识别的深度卷积神经网络框架;
图4是本发明实施例中实验中采用的手部关节节点表示方法;
图5是本发明实施例中实验中使用的开源数据集立体手姿势跟踪基准;
图6是本发明实施例中渲染合成数据集的样本示例;
图7是本发明实施例中手部分割网络示意图;
图8是本发明实施例中手部关节特征点检测网络;
图9是本发明实施例中手部3D重建网络的结构示意;
图10是本发明实施例中手部分割网络loss变化图;
图11是本发明实施例中手部关节特征点检测网络loss变化图;
图12是本发明实施例中手部3D重建网络loss变化图;
图13是本发明实施例中手语数据集RWTH示例;
图14是本发明实施例中手部分割网络分割效果;
图15是本发明实施例中3D重建效果图;
图16是本发明实施例中一种基于深度卷积神经网络的3D手势识别系统的模块组成示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于深度卷积神经网络的3D手势识别方法及系统。
请参考图1,图1是本发明实施例中一种基于深度卷积神经网络的3D手势识别方法的流程图,具体包括如下步骤:
S101:从现有开源数据集中获取第一样本数据集;并建立3D手势识别网络;所述样本数据分为第一训练数据集和第一测试数据集;所述3D手势识别网络包括:3D手势重建网络和softmax网络;
S102:利用渲染合成的方法扩充所述第一训练数据集和第一测试数据集,得到扩充后的第一训练样本集和扩充后的第一测试数据集;
S103:利用扩充后的第一训练数据集对所述3D手势重建网络进行训练,得到训练后的3D手势重建网络;
S104:利用扩充后的第一测试数据集对训练后的3D手势重建网络进行测试,得到测试通过率x;
S105:判断条件x>y是否成立。若是,则到步骤S106;若否,则返回步骤 S102;其中y大于0,为通过率阈值,根据经验值设定;
S106:从现有开源数据集中获取第二样本数据;所述第二样本数据包括:第二训练数据集和第二测试数据集;
S107:利用渲染合成的方法扩充所述第二训练数据集和第二测试数据集,得到扩充后的第二训练样本集和扩充后的第二测试数据集;
S108:利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练,得到训练后的3D手势识别网络;其中,3D手势识别网络中的3D手势重建网络为训练后的3D手势重建网络;
S109:利用扩充后的第二测试数据集对所述3D手势识别网络进行测试,得到测试通过率x1;
S110:判断条件x1>y1是否成立。若是,则到步骤S110;否则,返回步骤 S107;
S111:将真实的3D手势图片数据所述训练后的3D手势识别网络,输出真实的手势识别结果。
步骤S101中,所述第一样本数据集采用公开数据集立体手姿势跟踪基准 StereoHand Pose Tracking Benchmark;所述第一测试数据集采用公开的德语手语数据集RWTHGerman Finger spelling Database。
步骤S101中,所述3D手势重建网络包括顺次连接的第一深度卷积神经网络、第二深度卷积神经网络和双流深度卷积网络;利用第一深度卷积神经网络定位手动作的部分,并将其进行预分割提取手动作的部分;将提取的手动作的部分作为第二深度卷积神经网络的输入,检测手部关键特征点,输出三个检测得分图;对检测得分图进行双流深度卷积网络训练,上路预测节点的位置信息Wc,下路估计相对于实际图片的空间变换关系R,将两路结果融合得到最终的3D节点特征Wrel;利用双流深度卷积网络对检测到的关节节点进行手势的3D重建,得到重建的3D手势。
所述检测得分图中,通过检测w个手关节节点,以更少量的特征点来代替整个手部,进一步减少手部的冗余信息,提高网络训练的精度;其中,w大于0,取值根据选用的第一样本数据集种类确定。
进一步地,步骤S103中,利用扩充后的第一训练数据集对所述3D手势重建网络进行训练时,采用监督学习的方法,通过两个深度卷积网络利用2D检测输入和3D的标签来提取节点的位置信息和空间变换关系,然后再融合两路结果重建3D手势,能有效的适应不同的场景;其中,训练第一深度卷积神经网络时,采用标准的softmax交叉熵损失作为约束。
步骤S106中,所述第二样本数据集采用公开的德语手语数据集RWTH GermanFinger spelling Database。
所述softmax网络包括:多个连续的全连接层,步骤S108中,利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练时,利用训练后的3D 手势重建网络对第二训练数据集中的样本的3D手势进行重建,并通过所述 softmax网络中连续的全连接层组合所述重建的3D手势中的3D节点特征,再使用softmax分类器对所述组合3D节点特征进行分类,输出分类结果。
第一深度卷积神经网络、第二深度卷积神经网络、双流深度卷积网络和 softmax网络的任何一个均可以独立进行网络训练,使网络易于控制,随后将所有网络级联而成一个完整的架构统一训练,能有效的避免网络陷于局部收敛。
为对本发明实施例进行充分说明,以下将本发明所提出的技术方案分为两大过程进行再次详细解释说明:
过程一:3D手势重建
首先针对大量样本,使用深度卷积神经网络定位并分割出手势图像;接着对裁剪得到的手部检测其关节特征点,输出有效特征点得分图。通过关节特征点表示代替完整手部有效减少网络计算量;再利用得分图预测关节特征点的位置信息 Wc和相对原图的空间变换关系R,根据Wrel=Wc·RT融合两路信息重建3D手势,有效增加了网络对手势的区分能力,增强模型对多种场景的适应性。
过程二:3D手势识别
构建softmax手势分类器,对3D特征进行分类。
手势3D重建的网络架构如图2所示,手势3D重建后识别的网络架构如图 3所示。
图2所示的深度卷积神经网络的构建主要由以下两部分完成:
第一部分为3D重建数据集的准备:
数据集1:采用公开数据集立体手姿势跟踪基准Stereo Hand Pose TrackingBenchmark,这里简称S数据集,其手部关节节点标注方式及样本示意图和立体手姿势跟踪基准分别如图4和图5所示。
数据集2:通过开源软件Blender将来自Mixamo的3D人物模型和来自Flickr 的城市、风景背景图像渲染合成,近似自然图像以扩充当前数据集,这里简称为R 数据集,其样本形式如图6所示。
第二部分为3D重建部分:
模块1:使用多个连续卷积模块、池化层分割手部特征,采用双线性上采样将裁剪的分割图恢复至原图大小,如图7及表1所示;该网络的训练采用标准的 softmax交叉熵损失作为约束。
表1 手部分割网络具体组成结构
操作 卷积核大小 维度 操作 卷积核大小 维度
图片输入 - 256×256×3
1 Conv+ReLU 3×3 256×256×64 11 Maxpool 4×4 32×32×256
2 Conv+ReLU 3×3 256×256×64 12 Conv+ReLU 3×3 32×32×512
3 Maxpool 4×4 128×128×64 13 Conv+ReLU 3×3 32×32×512
4 Conv+ReLU 3×3 128×128×128 14 Conv+ReLU 3×3 32×32×512
5 Conv+ReLU 3×3 128×128×128 15 Conv+ReLU 3×3 32×32×512
6 Maxpool 4×4 64×64×128 16 Conv+ReLU 3×3 32×32×512
7 Conv+ReLU 3×3 64×64×256 17 Conv 1×1 32×32×2
8 Conv+ReLU 3×3 64×64×256 18 双线性上采样 - 256×256×2
9 Conv+ReLU 3×3 64×64×256 19 最大输出判别 - 256×256×1
10 Conv+ReLU 3×3 64×64×256 手部分割掩码 - 256×256×1
模块2:对分割而来的手部图进行来连续卷积和池化,检测、提取手部关节特征点,输出特征点得分图c={c1(u,v),…,cj(u,v)},并由层17、层24和层31 组成预测得分图作为下一模块输入,如图8及表2所示。该网络采用L2损失作为约束。
表2 手部关节特征点检测网络的具体组成结构
操作 卷积核大小 维度 操作 卷积核大小 维度
图片输入 - 256×256×3
1 Conv+ReLU 3×3 256×256×64 16 Conv+ReLU 3×3 32×32×512
2 Conv+ReLU 3×3 256×256×64 17 Conv 1×1 32×32×21
3 Maxpool 4×4 128×128×64 18 Concat(16,17) - 32×32×533
4 Conv+ReLU 3×3 128×128×128 19 Conv+ReLU 7×7 32×32×128
5 Conv+ReLU 3×3 128×128×128 20 Conv+ReLU 7×7 32×32×128
6 Maxpool 4×4 64×64×128 21 Conv+ReLU 7×7 32×32×128
7 Conv+ReLU 3×3 64×64×256 22 Conv+ReLU 7×7 32×32×128
8 Conv+ReLU 3×3 64×64×256 23 Conv+ReLU 7×7 32×32×128
9 Conv+ReLU 3×3 64×64×256 24 Conv 1×1 32×32×21
10 Conv+ReLU 3×3 64×64×256 25 Concat(16,17,24) - 32×32×554
11 Maxpool 4×4 32×32×256 26 Conv+ReLU 7×7 32×32×128
12 Conv+ReLU 3×3 32×32×512 27 Conv+ReLU 7×7 32×32×128
13 Conv+ReLU 3×3 32×32×512 28 Conv+ReLU 7×7 32×32×128
14 Conv+ReLU 3×3 32×32×512 29 Conv+ReLU 7×7 32×32×128
15 Conv+ReLU 3×3 32×32×512 30 Conv+ReLU 7×7 32×32×128
31 Conv 1×1 32×32×21
模块3:由两路子任务组成,网络示意如图9:上路预测节点的位置信息;下路估计相对于实际图片的空间变换关系。两个任务采用相似的网络框架,基于左右手的对称性,会对右手进行翻转(数据集默认对象都是左手)。表3给出了网络的具体组成,其中P=3代表上路网络的结果,P=63代表下路网络的结果,然后将两路预测结果进行融合得到最终的视点估计下的全3D坐标手势估计。
表3 手部3D重建网络的具体组成结构
过程一中各网络模型在训练过程中的loss值变化情况如图10、11、12所示。
图3所示的架构由三部分组成:
第一部分为识别数据集的准备,采用公开的德语手语数据集RWTH German Fingerspelling Database,包含35个手势:A-Z,SCH,1-5,其示例如图 13所示。
第二部分为过程一学习好的网络;第三部分为softmax分类器,由三个全连接层构成,用以融合特征,其网络结构见表4。
表4 识别网络的具体组成结构
操作 维度
输入3D特征W<sup>rel</sup> 63
1 FC+ReLU+Drop 512
2 FC+ReLU+Drop 512
3 全连接FC 35
以下通过实验做进一步解释说明:
实验1:手部分割实验,效果如图14所示。
实验2:手部3D重建实验,效果如图15所示,与其他方法的对比如表5所示。
表5 与其他方法在关节特征点的平均中值端点误差上的对比
Direct Bottleneck Local NN Ours
R-train 20.2<sub>9.2%</sub> 21.1<sub>14%</sub> 35.1<sub>90%</sub> 0.0<sub>-100%</sub> 18.5
R-val 20.9<sub>11.2%</sub> 21.9<sub>16%</sub> 39.1<sub>108%</sub> 26.9<sub>43%</sub> 18.5
表5是在给定有噪的2D姿势真值的情况下,针对不同3D重建方法的每个关节特征点的平均中值端点误差的比较。中值误差以mm表示,下标给出其他方法相对所提方法的相对性能。从表中可以看出,所提出的3D重建方法相对于其他方法有较大的提升。
实验3:使用RWTH德语数据集的非动态手势子集进行测试,并与Dreuw 等人的结果比较,如表6所示。
表6 在RWTH非动态手势子集上与其他方法的对比
方法 错误率
Dreuw 35.7%
在子集上的Dreuw 36.56%
Ours 3D 33.2%
从表6看出,本发明所提出的方法相对与Dreuw方法在识别精度上有一定的提升。
综上所述,本发明提出了一种基于深度卷积神经网络的3D手势识别方法,该方法首先扩充了用于3D重建网络训练的数据集,避免网络过拟合;随后构建CNN网络模型,针对大量不同场景下的样本进行分割提取手部目标;再使用检测到的关节特征点来表示2D手部动作,加快网络计算速度;然后融合两路卷积网络分别提取的位置信息和相对空间变换关系得到最终的手部3D关节特征点;最后通过全连接层组合3D特征进行分类。在分割、检测、重建及识别的过程中,其每个网络模块可独立或联合训练,网络易于控制,能有效的避免网络陷于局部收敛。
如图16所示,为本发明实施例中一种基于深度卷积神经网络的3D手势识别系统的模块组成示意图,其特征在于:包括顺次连接的第一数据模块11、第一扩充模块12、第一训练模块13、第一测试模块14、第一判断模块15、第二数据模块16、第二扩充模块17、第二训练模块18、第二测试模块19、第二判断模块110、识别模块111;
第一数据模块11,用于从现有开源数据集中获取第一样本数据集;并建立 3D手势识别网络;所述样本数据分为第一训练数据集和第一测试数据集;所述 3D手势识别网络包括:3D手势重建网络和softmax网络;
第一扩充模块12,用于利用渲染合成的方法扩充所述第一训练数据集和第一测试数据集,得到扩充后的第一训练样本集和扩充后的第一测试数据集;
第一训练模块13,用于利用扩充后的第一训练数据集对所述3D手势重建网络进行训练,得到训练后的3D手势重建网络;
第一测试模块14,用于利用扩充后的第一测试数据集对训练后的3D手势重建网络进行测试,得到测试通过率x;
第一判断模块15,用于判断条件x>y是否成立。若是,则进入下一步;若否,则返回第一扩充模块;其中y大于0,为通过率阈值,根据经验值设定;
第二数据模块16,用于从现有开源数据集中获取第二样本数据;所述第二样本数据包括:第二训练数据集和第二测试数据集;
第二扩充模块17,用于利用渲染合成的方法扩充所述第二训练数据集和第二测试数据集,得到扩充后的第二训练样本集和扩充后的第二测试数据集;
第二训练模块18,用于利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练,得到训练后的3D手势识别网络;其中,3D手势识别网络中的3D手势重建网络为训练后的3D手势重建网络;
第二测试模块19,用于利用扩充后的第二测试数据集对所述3D手势识别网络进行测试,得到测试通过率x1;
第二判断模块110,用于判断条件x1>y1是否成立。若是,则进入下一步;否则,返回第二扩充模块;
识别模块111,用于将真实的3D手势图片数据所述训练后的3D手势识别网络,输出真实的手势识别结果。
本发明的有益效果是:本发明所提出的技术方案能有效提高手势识别的精度;从应用范围看,该方法对象是单目相机采集的RGB图像,所需设备简单廉价,应用的场景更广。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度卷积神经网络的3D手势识别方法,其特征在于:包括以下步骤:
S101:从现有开源数据集中获取第一样本数据集;并建立3D手势识别网络;所述样本数据分为第一训练数据集和第一测试数据集;所述3D手势识别网络包括:3D手势重建网络和softmax网络;
S102:利用渲染合成的方法扩充所述第一训练数据集和第一测试数据集,得到扩充后的第一训练样本集和扩充后的第一测试数据集;
S103:利用扩充后的第一训练数据集对所述3D手势重建网络进行训练,得到训练后的3D手势重建网络;
S104:利用扩充后的第一测试数据集对训练后的3D手势重建网络进行测试,得到测试通过率x;
S105:判断条件x>y是否成立。若是,则到步骤S106;若否,则返回步骤S102;其中y大于0,为通过率阈值,根据经验值设定;
S106:从现有开源数据集中获取第二样本数据;所述第二样本数据包括:第二训练数据集和第二测试数据集;
S107:利用渲染合成的方法扩充所述第二训练数据集和第二测试数据集,得到扩充后的第二训练样本集和扩充后的第二测试数据集;
S108:利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练,得到训练后的3D手势识别网络;其中,3D手势识别网络中的3D手势重建网络为训练后的3D手势重建网络;
S109:利用扩充后的第二测试数据集对所述3D手势识别网络进行测试,得到测试通过率x1;
S110:判断条件x1>y1是否成立。若是,则到步骤S110;否则,返回步骤S107;
S111:将真实的3D手势图片数据所述训练后的3D手势识别网络,输出真实的手势识别结果。
2.如权利要求1所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:步骤S101中,所述第一样本数据集采用公开数据集立体手姿势跟踪基准Stereo Hand PoseTracking Benchmark;所述第一测试数据集采用公开的德语手语数据集RWTH GermanFinger spelling Database。
3.如权利要求1所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:步骤S101中,所述3D手势重建网络包括顺次连接的第一深度卷积神经网络、第二深度卷积神经网络和双流深度卷积网络;利用第一深度卷积神经网络定位手动作的部分,并将其进行预分割提取手动作的部分;将提取的手动作的部分作为第二深度卷积神经网络的输入,检测手部关键特征点,输出三个检测得分图;对检测得分图进行双流深度卷积网络训练,上路预测节点的位置信息Wc,下路估计相对于实际图片的空间变换关系R,将两路结果融合得到最终的3D节点特征Wrel;利用双流深度卷积网络对检测到的关节节点进行手势的3D重建,得到重建的3D手势。
4.如权利要求3所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:所述检测得分图中,通过检测w个手关节节点,以更少量的特征点来代替整个手部,进一步减少手部的冗余信息,提高网络训练的精度;其中,w大于0,取值根据选用的第一样本数据集种类确定。
5.如权利要求1所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:步骤S103中,利用扩充后的第一训练数据集对所述3D手势重建网络进行训练时,采用监督学习的方法,通过两个深度卷积网络利用2D检测输入和3D的标签来提取节点的位置信息和空间变换关系,然后再融合两路结果重建3D手势,能有效的适应不同的场景;其中,训练第一深度卷积神经网络时,采用标准的softmax交叉熵损失作为约束。
6.如权利要求1所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:步骤S106中,所述第二样本数据集采用公开的德语手语数据集RWTH German Fingerspelling Database。
7.如权利要求1所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:所述softmax网络包括:多个连续的全连接层,步骤S108中,利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练时,利用训练后的3D手势重建网络对第二训练数据集中的样本的3D手势进行重建,并通过所述softmax网络中连续的全连接层组合所述重建的3D手势中的3D节点特征,再使用softmax分类器对所述组合3D节点特征进行分类,输出分类结果。
8.如权利要求1所述的一种基于深度卷积神经网络的3D手势识别方法,其特征在于:第一深度卷积神经网络、第二深度卷积神经网络、双流深度卷积网络和softmax网络的任何一个均可以独立进行网络训练,使网络易于控制,随后将所有网络级联而成一个完整的架构统一训练,能有效的避免网络陷于局部收敛。
9.一种基于深度卷积神经网络的3D手势识别系统,其特征在于:包括以下模块:
第一数据模块,用于从现有开源数据集中获取第一样本数据集;并建立3D手势识别网络;所述样本数据分为第一训练数据集和第一测试数据集;所述3D手势识别网络包括:3D手势重建网络和softmax网络;
第一扩充模块,利用渲染合成的方法扩充所述第一训练数据集和第一测试数据集,得到扩充后的第一训练样本集和扩充后的第一测试数据集;
第一训练模块,用于利用扩充后的第一训练数据集对所述3D手势重建网络进行训练,得到训练后的3D手势重建网络;
第一测试模块,用于利用扩充后的第一测试数据集对训练后的3D手势重建网络进行测试,得到测试通过率x;
第一判断模块,用于判断条件x>y是否成立。若是,则进入下一步;若否,则返回第一扩充模块;其中y大于0,为通过率阈值,根据经验值设定;
第二数据模块,用于从现有开源数据集中获取第二样本数据;所述第二样本数据包括:第二训练数据集和第二测试数据集;
第二扩充模块,利用渲染合成的方法扩充所述第二训练数据集和第二测试数据集,得到扩充后的第二训练样本集和扩充后的第二测试数据集;
第二训练模块,用于利用扩充后的第二训练数据集对所述3D手势识别网络进行再次训练,得到训练后的3D手势识别网络;其中,3D手势识别网络中的3D手势重建网络为训练后的3D手势重建网络;
第二测试模块,用于利用扩充后的第二测试数据集对所述3D手势识别网络进行测试,得到测试通过率x1;
第二判断模块,用于判断条件x1>y1是否成立。若是,则进入下一步;否则,返回第二扩充模块;
识别模块,用于将真实的3D手势图片数据所述训练后的3D手势识别网络,输出真实的手势识别结果。
CN201811605203.8A 2018-12-26 2018-12-26 一种基于深度卷积神经网络的3d手势识别方法及系统 Pending CN109657634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811605203.8A CN109657634A (zh) 2018-12-26 2018-12-26 一种基于深度卷积神经网络的3d手势识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811605203.8A CN109657634A (zh) 2018-12-26 2018-12-26 一种基于深度卷积神经网络的3d手势识别方法及系统

Publications (1)

Publication Number Publication Date
CN109657634A true CN109657634A (zh) 2019-04-19

Family

ID=66116817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811605203.8A Pending CN109657634A (zh) 2018-12-26 2018-12-26 一种基于深度卷积神经网络的3d手势识别方法及系统

Country Status (1)

Country Link
CN (1) CN109657634A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197156A (zh) * 2019-05-30 2019-09-03 清华大学 基于深度学习的单图像的人手动作与形状重建方法及装置
CN110333783A (zh) * 2019-07-10 2019-10-15 中国科学技术大学 一种用于鲁棒肌电控制的无关手势处理方法及系统
CN110555383A (zh) * 2019-07-31 2019-12-10 中国地质大学(武汉) 一种基于卷积神经网络和3d估计的手势识别方法
CN110659565A (zh) * 2019-08-15 2020-01-07 电子科技大学 一种基于带孔卷积的3d多人人体姿态估计方法
CN113296604A (zh) * 2021-05-24 2021-08-24 北京航空航天大学 一种基于卷积神经网络的真3d手势交互方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256504A (zh) * 2018-02-11 2018-07-06 苏州笛卡测试技术有限公司 一种基于深度学习的三维动态手势识别方法
CN108304806A (zh) * 2018-02-02 2018-07-20 华南理工大学 一种基于对数路径积分特征和卷积神经网络的手势识别方法
KR20180106480A (ko) * 2017-03-20 2018-10-01 전자부품연구원 2d 이미지를 이용한 고해상도 3d 뎁스 이미지 생성 장치 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180106480A (ko) * 2017-03-20 2018-10-01 전자부품연구원 2d 이미지를 이용한 고해상도 3d 뎁스 이미지 생성 장치 및 그 방법
CN108304806A (zh) * 2018-02-02 2018-07-20 华南理工大学 一种基于对数路径积分特征和卷积神经网络的手势识别方法
CN108256504A (zh) * 2018-02-11 2018-07-06 苏州笛卡测试技术有限公司 一种基于深度学习的三维动态手势识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN ZIMMERMANN ET AL: "《Learning to Estimate 3D Hand Pose from Single RGB Images》", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197156A (zh) * 2019-05-30 2019-09-03 清华大学 基于深度学习的单图像的人手动作与形状重建方法及装置
CN110197156B (zh) * 2019-05-30 2021-08-17 清华大学 基于深度学习的单图像的人手动作与形状重建方法及装置
CN110333783A (zh) * 2019-07-10 2019-10-15 中国科学技术大学 一种用于鲁棒肌电控制的无关手势处理方法及系统
CN110555383A (zh) * 2019-07-31 2019-12-10 中国地质大学(武汉) 一种基于卷积神经网络和3d估计的手势识别方法
CN110659565A (zh) * 2019-08-15 2020-01-07 电子科技大学 一种基于带孔卷积的3d多人人体姿态估计方法
CN110659565B (zh) * 2019-08-15 2021-12-03 电子科技大学 一种基于带孔卷积的3d多人人体姿态估计方法
CN113296604A (zh) * 2021-05-24 2021-08-24 北京航空航天大学 一种基于卷积神经网络的真3d手势交互方法
CN113296604B (zh) * 2021-05-24 2022-07-08 北京航空航天大学 一种基于卷积神经网络的真3d手势交互方法

Similar Documents

Publication Publication Date Title
CN110837778B (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
CN111339903B (zh) 一种多人人体姿态估计方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN109657634A (zh) 一种基于深度卷积神经网络的3d手势识别方法及系统
Yang et al. Layered object models for image segmentation
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
Yang et al. Extraction of 2d motion trajectories and its application to hand gesture recognition
CN103530619B (zh) 基于rgb-d数据构成的少量训练样本的手势识别方法
CN106709568A (zh) 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN111967379B (zh) 一种基于rgb视频和骨架序列的人体行为识别方法
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN107784291A (zh) 基于红外视频的目标检测跟踪方法和装置
CN109086706A (zh) 应用于人机协作中的基于分割人体模型的动作识别方法
CN106815855A (zh) 基于产生式和判别式结合的人体运动跟踪方法
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN109670401B (zh) 一种基于骨骼运动图的动作识别方法
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN104268592A (zh) 基于协同表示和判别准则的多视角联合动作词典学习方法
CN106056627A (zh) 一种基于局部鉴别性稀疏表示的鲁棒目标跟踪方法
CN111680560A (zh) 一种基于时空特征的行人再识别方法
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
Li et al. Deep-learning-based 3D reconstruction: a review and applications
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN112651294A (zh) 基于多尺度融合的遮挡人体姿势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190419