CN108932500B - 一种基于深度神经网络的动态手势识别方法及系统 - Google Patents

一种基于深度神经网络的动态手势识别方法及系统 Download PDF

Info

Publication number
CN108932500B
CN108932500B CN201810745350.9A CN201810745350A CN108932500B CN 108932500 B CN108932500 B CN 108932500B CN 201810745350 A CN201810745350 A CN 201810745350A CN 108932500 B CN108932500 B CN 108932500B
Authority
CN
China
Prior art keywords
gesture
network
sample
dynamic
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810745350.9A
Other languages
English (en)
Other versions
CN108932500A (zh
Inventor
肖定坤
万磊
詹羽荣
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Intelligent Equipment Research Institute Co Ltd
Original Assignee
Guangzhou Intelligent Equipment Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Intelligent Equipment Research Institute Co Ltd filed Critical Guangzhou Intelligent Equipment Research Institute Co Ltd
Priority to CN201810745350.9A priority Critical patent/CN108932500B/zh
Publication of CN108932500A publication Critical patent/CN108932500A/zh
Application granted granted Critical
Publication of CN108932500B publication Critical patent/CN108932500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度神经网络的动态手势识别方法及系统,包括:采集不同手势含义的动态手势视频片段生成训练样本数据集,样本数据包含RGB图像和深度信息;设计基于深度神经网络的动态手势识别网络模型,并利用训练样本对模型进行训练;利用训练好的动态手势识别模型进行动态手势测试与识别;动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,其中前后帧关联网络用于对每一个手势含义的样本经过特征提取网络得到的特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量。本发明,在网络模型中引入了双向LSTM模型来理解连续手势姿态之间的相关性,极大提高了动态手势的识别率。

Description

一种基于深度神经网络的动态手势识别方法及系统
技术领域
本发明涉及计算机视觉和模式识别技术领域,具体涉及一种基于深度神经网络的动态手势识别方法及系统。
背景技术
随着人机交互技术的快速发展,以人手姿态作为人机交互直接输入手段的手势识别技术日益成熟。这种利用计算机来识别、判断手势含义的手势识别技术在智能家居、智能穿戴以及增强现实等领域都有大量的应用。
手势识别的关键技术在于手势动作跟踪以及手势动作识别。目前,主要有两种方式:一种是基于普通摄像头获取静态图片的手势识别,该方法利用传统的模式识别方法对静态图片中的手势进行人工特征提取,然后再利用分类器对其进行分类;另外一种是基于智能手套设备的手势识别,此方法要求用户必须带上特别的手套设备,通过分析、跟踪以及标记用户人手的空间位置和运动轨迹信息来到达识别手势。
基于普通摄像头获取静态图片的手势识别方法,它的检测效果依赖于环境光线,容易受背景以及肤色的影响,并且没有考虑连续手势姿态之间的相关性,故不能感知动态手势的持续变化,识别率较低;另外一种基于智能手套设备的手势识别方法,虽然识别率较高但需购买昂贵的智能传感器设备,实用性低。
为此,中国发明专利CN107423698A公开了一种基于并联卷积神经网络的手势估计方法,包括:S1、采用RGB-D相机获得彩色图像和深度图像;S2、根据预先训练得到的手部分类模块,在彩色图像上识别出手部所在的位置;S3、根据手部在彩色图像上对应的位置,找到其在深度图像上对应的位置,然后将手部深度图分离出来;S4、将分离出的深度图转化为灰度图,然后将灰度图输入并联卷积神经网络手势估计模块进行识别,从而获得能够表示手部姿态的多个关节点坐标;S5、输出手势结果。该方案提供了一种端到端的手势估计网络架构,降低了算法的复杂度,并联结构极大提高了网络收敛速度,极大节省了训练时间,提高了效率。但是,该方案没有涉及连续手势姿态之间的相关性,不能准确地感知动态手势的持续变化,从而造成动态手势的识别率不高。
有鉴于此,需要对现有的动态手势识别方法做出改进,以提高动态手势的识别率。
发明内容
本发明所要解决的技术问题是现有的动态手势识别方法识别率不高的问题。
为了解决上述技术问题,本发明所采用的技术方案是提供一种基于深度神经网络的动态手势识别方法,包括以下步骤:
采集C种不同手势含义的动态手势视频片段的样本数据,经过数据扩充处理后生成训练样本数据集,其中样本数据为RGB-D格式,包含RGB图像和对应的深度信息,C为正整数;
设计基于深度神经网络的动态手势识别网络模型;
利用训练样本对所述动态手势识别网络模型进行训练;
获得训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别;
所述动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:所述特征提取网络用于提取不同手势含义的样本特征,获得每一个手势含义的样本特征向量;所述前后帧关联网络用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;所述分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别。
在上述方法中,采集C种不同手势含义的样本数据的方法如下:
利用3D深度相机采集C种不同含义的动态手势视频片段,并对每段动态手势视频片段等间隔采样n帧RGB图像和对应的深度信息图像形成样本xi={xi1,xi2,...,xik,...,xin},其中xik为样本xi中的第k帧数据,并且是一个大小为640×320×4的RGB-D格式的四通道数据;
将样本xi组成样本集X={x1,x2,...,xm,...,xN},并用Y={y1,y2,...,ym,...,yN}来记录样本集X中每一个样本xm的手势类别标号,其中ym是一个C维的One-Hot编码向量。
在上述方法中,对样本集进行数据扩充,与原始样本集一起组成扩充后的训练样本集,数据扩充的方法包括但不限于平移、翻转、加噪、形变。
在上述方法中,
平移操作的方法如下:
将样本xi中的每一帧RGB-D数据中的每个通道上任意一个像素点的坐标(x,y)沿x轴平移tx个单位,沿y轴平移ty个单位,得到(x′,y′),其中x′=x+tx,y′=y+ty,tx与ty分别是随机取区间[-0.1×width,0.1×width]和[-0.1×height,0.1×height]中间的任一整数,width为xi中的每一帧图像的宽度,height为xi中的每一帧图像的长度;
翻转操作的方法如下:
将样本xi中的每一帧RGB-D数据中的每个通道同时进行水平翻转或者上下翻转;
加噪操作的方法如下:
将样本xi中的每一帧RGB-D数据中,每个通道上任意一个像素点s(x,y)加上一个随机噪声σ得到s′(x,y),其中(x,y)为像素点s的坐标,s′(x,y)=s(x,y)+σ,σ服从均值为0、方差为0.1的高斯分布;
形变操作的方法如下:
随机采取样本xi图像中9个控制点,并随机对控制点生成拖拽轨迹,利用移动最小二乘法驱动图像,完成图像的局部改变;
假设p为原图像中的控制点集合,q为拖拽后的控制点集合,利用移动最小二乘法为原图像上的每个像素点v构成相应的仿射变换函数f(v),通过仿射变换函数f(v)对原图像的像素点v进行重映射,得到形变图像,其中:
式中,矩阵M为转换矩阵;权重α为调节形变效果参数。
在上述方法中,所述特征提取网络由4层卷积层组成,所述前后帧关联网络由2层LSTM层组成,所述分类识别网络由3层全连接层组成。
在上述方法中,设计所述特征提取网络的方法如下:
利用4层卷积神经网络对一个手势含义的样本xi中的n帧数据进行特征提取,将4层卷积层神经网络输出的特征图拉成一个列向量形成n个特征向量,n为正整数,各层卷积层的计算公式如下:
式中,l表示第l层卷积层,j=1,2,3,…,Cl,Cl表示第l层输出的特征图个数,表示第l层输出的第j个特征图,Max_Pooling(x)表示最大池化操作,f(x)表示激活函数,Cl-1表示第l-1层输出的特征图个数,表示第l-1层输出的第i个特征图,表示卷积操作,表示特征图与特征图相连的卷积核,表示特征图的偏置参数。
在上述方法中,设计所述前后帧关联网络的方法如下:
利用2层LSTM长短时记忆网络,对所述的n个特征向量进行前后时间帧的关联映射,输出n个具有前后帧关联信息的特征向量;
将n个具有前后帧关联信息的特征向量,合并成一个融合特征向量V;
其中,每层LSTM的计算公式如下:
式中,xt表示LSTM单元的第t帧输入向量,ht表示xt经过LSTM单元的输出特征向量,ft,it,ot,ct分别表示遗忘门、输入门、输出门以及记忆单元,Wk,bk(k=f,i,o,c)表示LSTM单元的权值和偏置参数;σ(x)表示sigmoid激活函数,tanh(x)表示tanh激活函数。
在上述方法中,设计所述分类识别网络的方法如下:
利用3层全连接网络,对所述的融合特征向量V进行分类识别,把最后一层全连接层输出的C个神经元值经过softmax函数输出,得到手势视频样本xi的手势含义属于第t类的概率值p(vt);
其中,每个全连接层的计算公式如下:
式中,表示第l-1层全连接层输出的第i个神经元值,表示第l层全连接层输出的第j个神经元值;表示相连接的权值参数,表示的偏置参数;f(g)表示激活函数,Dl-1表示第l-1层全连接层输出的神经元个数,Dl表示第l层全连接层输出的神经元个数;
第t类概率值p(vt)的计算公式如下:
式中,vt表示最后一层全连接层输出的第t个神经元值,p(vt)表示第t类的概率值。
在上述方法中,训练基于深度神经网络的动态手势识别网络模型的方法如下:
定义Ei为动态手势识别网络对训练样本xi的输出损失代价;
运用批量随机梯度下降法与反向传播算法,对基于深度神经网络的动态手势识别网络进行迭代训练,直到模型的损失代价Ei下降到一个固定精度停止训练,保存训练后的网络模型得到基于深度神经网络的动态手势识别网络模型;
其中,
式中,yik表示样本xi对应的类别向量yi的第k个值,p(vk)表示样本xi的手势含义属于第k类的概率值,log(x)表示对数函数。
本发明还提供了一种基于深度神经网络的动态手势识别系统,包括:
训练样本集,通过采集装置采集C种不同手势含义的动态手势视频片段的样本数据,经过数据扩充处理后生成训练样本数据集,其中样本数据为RGB-D格式,包含RGB图像和对应的深度信息,C为正整数;
基于深度神经网络的动态手势识别网络模型,由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:所述特征提取网络用于提取不同手势含义的样本特征,获得每一个手势含义的样本特征向量;所述前后帧关联网络用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;所述分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别;
训练装置,利用训练样本集对所述动态手势识别网络模型进行训练;
识别装置,利用训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别。
与现有技术相比,本发明提供的方案,动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,在前后帧关联网络中引入双向LSTM模型来理解连续手势姿态之间的相关性,考虑了前后帧的信息,极大提高了动态手势的识别率。
附图说明
图1为本发明中基于深度神经网络的动态手势识别网络模型的搭建训练方法流程图;
图2为本发明中基于深度神经网络的动态手势识别网络模型的框架示意图。
具体实施方式
本发明提供了一种基于深度神经网络的动态手势识别方法及系统,引入了双向LSTM模型来理解连续手势姿态之间的相关性,考虑了前后帧的信息,极大提高了动态手势的识别率。下面结合说明书附图和具体实施方式对本发明做出详细说明。
本发明的实现原理是:
基于深度神经网络的动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:特征提取网络用于提取不同手势含义的视频输入样本的特征,获得每一个手势含义的视频输入样本的特征向量;前后帧关联网络用于对每一个手势含义的视频输入样本的特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出视频输入样本对应的手势类别。
通过前后帧关联网络中双向LSTM模型来理解连续手势姿态之间的相关性,考虑了前后帧的信息,极大提高了动态手势的识别率。
本发明提供的基于深度神经网络的动态手势识别方法,基础是设计基于深度神经网络的动态手势识别网络模型,并利用训练样本进行训练,基于深度神经网络的动态手势识别方法的实现主要包括以下步骤:
采集C种不同手势含义的动态手势视频片段的样本数据,经过数据扩充处理后生成训练样本数据集,其中训练样本为RGB-D格式,包含RGB图像和对应的深度信息,C为正整数;
设计基于深度神经网络的动态手势识别网络模型;
利用训练样本对所述动态手势识别网络模型进行训练;
利用训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别;
所述动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:所述特征提取网络用于提取不同手势含义的视频输入样本的特征,获得每一个手势含义的样本特征向量;所述前后帧关联网络用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;所述分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别。
为了对本发明的技术方案和实现方式做出更清楚地解释和说明,以下介绍实现本发明技术方案的几个优选的具体实施例。显然,以下所描述的具体实施例仅为本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施例1。
如图1所示,本发明提供的基于深度神经网络的动态手势识别方法,包括以下步骤:
步骤10:获取动态手势数据样本,该步骤包括:
步骤11:利用3D深度相机采集C种不同含义的动态手势视频片段,每种手势至少采集50段不同的视频片段。
对每段动态手势视频片段等间隔采样n帧RGB图像和对应的深度信息图像形成样本xi={xi1,xi2,...,xik,...,xin},其中xik为样本xi中的第k帧数据,并且是一个大小为640×320×4的RGB-D格式的四通道数据,C为正整数;
步骤12:对采集到的所有视频片段进行手势动作的信息标注,每段视频对应唯一的手势动作标签,作为训练样本数据集。
其中,样本xi组成样本集X={x1,x2,...,xm,...,xN},并用Y={y1,y2,...,ym,...,yN}来记录样本集X中每一个样本xm的手势类别标号,ym是一个C维的One-Hot编码向量。
为了方便训练和测试,可以将上述标注好的视频片段中的三分之二作为训练样本数据集,剩下的三分之一作为测试样本数据集。
步骤20:设计基于深度神经网络的动态手势识别网络。
如图2所示,动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:特征提取网络由4层卷积层组成,用于提取不同手势含义的样本特征,获得每一个手势含义的样本特征向量;前后帧关联网络由2层LSTM层(Long Short-TermMemory,长短时记忆)组成,用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;分类识别网络由3层全连接层组成,用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别。
步骤30:训练基于深度神经网络的动态手势识别网络模型。
将步骤20中的特征提取网络、前后帧关联网络以及分类识别网络进行前后级联,构成一个端到端的动态手势识别网络,然后通过批量随机梯度下降法,用扩充后的训练样本数据集对该网络模型进行训练,直到收敛获得基于深度神经网络的动态手势识别网络模型,并保存训练好的网络模型。
步骤40:动态手势的测试。
用训练好的基于深度神经网络的动态手势识别网络模型对测试样本数据集进行检测,得到各个视频段所对应的手势类别。
可以根据测试结果,对基于深度神经网络的动态手势识别网络模型进行再次训练,以提高识别效果。
步骤50:动态手势的识别。
利用训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别。
具体实施例2。
对于神经网络模型的训练,样本数量对于训练结果具有重要的意义,为了减少样本采集的工作量,本发明提出了对训练样本数据集中的每段视频进行随机平移、翻转、加噪以及形变等方法进行扩充,并将扩充后的训练样本与原始训练样本组成最终的训练样本数据集,形成训练样本库。
对训练样本数据集中的每一个样本xi进行平移操作的方法如下:
将样本xi中的每一帧RGB-D数据中的每个通道上任意一个像素点的坐标(x,y)沿x轴平移tx个单位,沿y轴平移ty个单位,得到(x′,y′),其中x′=x+tx,y′=y+ty,tx与ty分别是随机取区间[-0.1×width,0.1×width]和[-0.1×height,0.1×height]中间的任一整数,width为xi中的每一帧图像的宽度,height为xi中的每一帧图像的长度。
对训练样本数据集中的每一个样本xi进行翻转操作的方法如下:
将样本xi中的每一帧RGB-D数据中的每个通道同时进行水平翻转或者上下翻转。
对训练样本数据集中的每一个样本xi进行加噪操作的方法如下:
将样本xi中的每一帧RGB-D数据中,每个通道上任意一个像素点s(x,y)加上一个随机噪声σ得到s′(x,y),其中(x,y)为像素点s的坐标,s′(x,y)=s(x,y)+σ,σ服从均值为0,方差为0.1的高斯分布。
对训练样本数据集中的每一个样本xi进行形变操作的方法如下:
随机采取样本xi图像中9个控制点,并随机对控制点生成拖拽轨迹,利用移动最小二乘法驱动图像,完成图像的局部改变,从而在图像内容不变的情况下完成图像的变形。
假设p为原图像中的控制点集合,q为拖拽后的控制点集合,利用移动最小二乘法为原图像上的每个像素点v构成相应的仿射变换函数f(v),其中:
式中,矩阵M为转换矩阵;权重α为调节形变效果参数。通过这个仿射变换函数f(v)对原图像的像素点v进行重映射,可得到最终的形变图像。
具体实施例3。
本具体实施例3是对具体实施例中设计基于深度神经网络的动态手势识别网络模型的进一步细化,具体步骤包括:
步骤21:设计所述特征提取网络的方法如下:
利用4层卷积神经网络对一个手势含义的视频输入样本xi中n帧(n为正整数)大小为640×320×4的RGB-D格式的四通道数据进行特征提取,第一层到第四层卷积层的卷积核分别设置为32、64、128、256。
然后,每一层卷积层中,卷积核窗口大小设为3×3,窗口滑动步长设为2;最大池化窗口设为2×2,窗口滑动步长设为2;最终输出n个大小为2×1×256的特征。
将最终输出的n个2×1×256特征拉成一个列向量形成n个大小为512特征向量。
各层卷积层的计算公式如下:
式中,l表示第l层卷积层,j=1,2,3,…,Cl,Cl表示第l层输出的特征图个数,表示第l层输出的第j个特征图,Max_Pooling(x)表示最大池化操作,f(x)表示激活函数,Cl-1表示第l-1层输出的特征图个数,表示第l-1层输出的第i个特征图,表示卷积操作,表示特征图与特征图相连的卷积核,表示特征图的偏置参数。
步骤22:设计所述前后帧关联网络的方法如下:
利用2层LSTM长短时记忆网络,对上述n个特征向量进行前后时间帧的关联映射,输出n个具有前后帧关联信息的特征向量;
将n个具有前后帧关联信息的特征向量,合并成一个融合特征向量V;
其中,每层LSTM的计算公式如下:
式中,xt表示LSTM单元的第t帧输入向量,ht表示xt经过LSTM单元的输出特征向量,ft,it,ot,ct分别表示遗忘门、输入门、输出门以及记忆单元,Wk,bk(k=f,i,o,c)表示LSTM单元的权值和偏置参数;σ(x)表示sigmoid激活函数,tanh(x)表示tanh激活函数。
步骤23:设计所述分类识别网络的方法如下:
利用3层全连接网络,对上述的融合特征向量V进行分类识别。第一层到第三层全连接层的神经元个数分别设置为1024、1024、C,其中C为正整数。把最后一层全连接层输出的C个神经元值经过softmax函数输出,得到手势视频输入样本xi的手势含义属于第t类的概率值p(vt);
其中,每个全连接层的计算公式如下:
式中,表示第l-1层全连接层输出的第i个神经元值,表示第l层全连接层输出的第j个神经元值;表示相连接的权值参数,表示的偏置参数;f(g)表示激活函数,Dl-1表示第l-1层全连接层输出的神经元个数,Dl表示第l层全连接层输出的神经元个数;
第t类概率值p(vt)的计算公式如下:
式中,vt表示最后一层全连接层输出的第t个神经元值,p(vt)表示第t类的概率值。
具体实施例4。
本具体实施例4是对具体实施例1中训练基于深度神经网络的动态手势识别网络模型的进一步细化,包括以下步骤:
定义Ei为动态手势识别网络对训练样本xi的输出损失代价;
运用批量随机梯度下降法与反向传播算法,对基于深度神经网络的动态手势识别网络进行迭代训练,直到模型的损失代价Ei下降到一个固定精度停止训练,保存训练后的网络模型得到基于深度神经网络的动态手势识别网络模型;
其中,
式中,yik表示样本xi对应的类别向量yi的第k个值,p(vk)表示样本xi的手势类别属于第k类的概率值,log(x)表示对数函数。
在上述方法的基础上,本发明还提供了一种基于深度神经网络的动态手势识别系统,包括:
训练样本数据集,通过采集装置采集C种不同手势含义的动态手势视频片段的样本数据,经过数据扩充处理后生成训练样本数据集,其中样本数据为RGB-D格式,包含RGB图像和对应的深度信息,C为正整数;
基于深度神经网络的动态手势识别网络模型,由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:所述特征提取网络用于提取不同手势含义的样本特征,获得每一个手势含义的样本特征向量;所述前后帧关联网络用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;所述分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别;
训练装置,利用训练样本集对所述动态手势识别网络模型进行训练;
识别装置,利用训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别。
本发明提供的基于深度神经网络的动态手势识别方法及系统,具有以下突出的优点:
(1)直接将动态手势视频数据进行端到端的预测,提高了动态手势识别的效率。
(2)利用RGB-D信息,对环境光线与肤色问题有较好的鲁棒性,能够在复杂背景下进行动态手势的识别。
(3)在网络模型中引入双向LSTM模型,来理解连续手势姿态之间的相关性,考虑了前后帧的信息,极大提高了动态手势的识别率。
(4)对训练样本集中的每段视频进行随机平移、翻转、加噪以及形变等方法进行扩充,增加了样本量的同时,减少了采集的工作量。
本发明并不局限于上述最佳实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (10)

1.一种基于深度神经网络的动态手势识别方法,包括以下步骤:
采集C种不同手势含义的动态手势视频片段的样本数据,经过数据扩充处理后生成训练样本数据集,其中样本数据为RGB-D格式,包含RGB图像和对应的深度信息,C为正整数;
设计基于深度神经网络的动态手势识别网络模型;
利用训练样本对所述动态手势识别网络模型进行训练;
利用训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别;
其特征在于:
所述动态手势识别网络模型由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:所述特征提取网络对一个手势含义的视频输入样本的RGB-D格式的四通道数据进行特征提取,获得每一个手势含义的样本特征向量,每一层卷积层中,卷积核窗口大小设为3×3;所述前后帧关联网络用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;所述分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别。
2.根据权利要求1所述的方法,其特征在于,采集C种不同手势含义的样本数据的方法如下:
利用3D深度相机采集C种不同含义的动态手势视频片段,并对每段动态手势视频片段等间隔采样n帧RGB图像和对应的深度信息图像形成样本xi={xi1,xi2,...,xik,...,xin},其中xik为样本xi中的第k帧数据,并且是一个大小为640×320×4的RGB-D格式的四通道数据;
将样本xi组成样本集X={x1,x2,...,xm,...,xN},并用Y={y1,y2,...,ym,...,yN}来记录样本集X中每一个样本xm的手势类别标号,其中ym是一个C维的One-Hot编码向量。
3.根据权利要求1所述的方法,其特征在于,对样本集进行数据扩充,与原始样本集一起组成扩充后的训练样本集,数据扩充的方法包括但不限于平移、翻转、加噪、形变。
4.根据权利要求3所述的方法,其特征在于,
平移操作的方法如下:
将样本xi中的每一帧RGB-D数据中的每个通道上任意一个像素点的坐标(x,y)沿x轴平移tx个单位,沿y轴平移ty个单位,得到(x′,y′),其中x′=x+tx,y′=y+ty,tx与ty分别是随机取区间[-0.1×width,0.1×width]和[-0.1×height,0.1×height]中间的任一整数,width为xi中的每一帧图像的宽度,height为xi中的每一帧图像的长度;
翻转操作的方法如下:
将样本xi中的每一帧RGB-D数据中的每个通道同时进行水平翻转或者上下翻转;
加噪操作的方法如下:
将训练样本xi中的每一帧RGB-D数据中,每个通道上任意一个像素点s(x,y)加上一个随机噪声σ得到s′(x,y),其中(x,y)为像素点s的坐标,s′(x,y)=s(x,y)+σ,σ服从均值为0、方差为0.1的高斯分布;
形变操作的方法如下:
随机采取训练样本xi图像中9个控制点,并随机对控制点生成拖拽轨迹,利用移动最小二乘法驱动图像,完成图像的局部改变;
假设p为原图像中的控制点集合,q为拖拽后的控制点集合,利用移动最小二乘法为原图像上的每个像素点v构成相应的仿射变换函数f(v),通过仿射变换函数f(v)对原图像的像素点v进行重映射,得到形变图像,其中:
式中,矩阵M为转换矩阵;权重α为调节形变效果参数。
5.根据权利要求1所述的方法,其特征在于,所述特征提取网络由4层卷积层组成,所述前后帧关联网络由2层LSTM层组成,所述分类识别网络由3层全连接层组成。
6.根据权利要求5所述的方法,其特征在于,设计所述特征提取网络的方法如下:
利用4层卷积神经网络对一个手势含义的视频输入样本xi中的n帧数据进行特征提取,将4层卷积层神经网络输出的特征图拉成一个列向量形成n个特征向量,n为正整数,各层卷积层的计算公式如下:
式中,l表示第l层卷积层,j=1,2,3,…,Cl,Cl表示第l层输出的特征图个数,表示第l层输出的第j个特征图,Max_Pooling(x)表示最大池化操作,f(x)表示激活函数,Cl-1表示第l-1层输出的特征图个数,表示第l-1层输出的第i个特征图,表示卷积操作,表示特征图与特征图相连的卷积核,表示特征图的偏置参数。
7.根据权利要求6所述的方法,其特征在于,设计所述前后帧关联网络的方法如下:
利用2层LSTM长短时记忆网络,对所述的n个特征向量进行前后时间帧的关联映射,输出n个具有前后帧关联信息的特征向量;
将n个具有前后帧关联信息的特征向量,合并成一个融合特征向量V;
其中,每层LSTM的计算公式如下:
式中,xt表示LSTM单元的第t帧输入向量,ht表示xt经过LSTM单元的输出特征向量,ft,it,ot,ct分别表示遗忘门、输入门、输出门以及记忆单元,Wk,bk(k=f,i,o,c)表示LSTM单元的权值和偏置参数;σ(x)表示sigmoid激活函数,tanh(x)表示tanh激活函数。
8.根据权利要求5所述的方法,其特征在于,设计所述分类识别网络的方法如下:
利用3层全连接网络,对所述的融合特征向量V进行分类识别,把最后一层全连接层输出的C个神经元值经过softmax函数输出,得到手势视频输入样本xi的手势含义属于第t类的概率值p(vt);
其中,每个全连接层的计算公式如下:
式中,表示第l-1层全连接层输出的第i个神经元值,表示第l层全连接层输出的第j个神经元值;表示相连接的权值参数,表示的偏置参数;表示激活函数,Dl-1表示第l-1层全连接层输出的神经元个数,Dl表示第l层全连接层输出的神经元个数;
第t类概率值的计算公式如下:
式中,vt表示最后一层全连接层输出的第t个神经元值,p(vt)表示第t类的概率值。
9.根据权利要求1所述的方法,其特征在于,训练基于深度神经网络的动态手势识别网络模型的方法如下:
定义Ei为动态手势识别网络对训练样本xi的输出损失代价;
运用批量随机梯度下降法与反向传播算法,对基于深度神经网络的动态手势识别网络进行迭代训练,直到模型的损失代价Ei下降到一个固定精度停止训练,保存训练后的网络模型得到基于深度神经网络的动态手势识别网络模型;
其中,
式中,yik表示样本xi对应的类别向量yi的第k个值,p(vk)表示样本xi的手势含义属于第k类的概率值,log(x)表示对数函数。
10.一种基于深度神经网络的动态手势识别系统,其特征在于,包括:
训练样本集,通过采集装置采集C种不同手势含义的动态手势视频片段的样本数据,经过数据扩充处理后生成训练样本数据集,其中样本数据为RGB-D格式,包含RGB图像和对应的深度信息,C为正整数;
基于深度神经网络的动态手势识别网络模型,由特征提取网络、前后帧关联网络以及分类识别网络构成,其中:所述特征提取网络对一个手势含义的视频输入样本的RGB-D格式的四通道数据进行特征提取,获得每一个手势含义的样本特征向量,每一层卷积层中,卷积核窗口大小设为3×3;所述前后帧关联网络用于对每一个手势含义的样本特征向量进行前后时间帧的关联映射,并将其合并为每一个手势含义的融合特征向量;所述分类识别网络用于对每一个手势含义的融合特征向量进行分类识别,输出样本对应的手势类别;
训练装置,利用训练样本集对所述动态手势识别网络模型进行训练;
识别装置,利用训练好的基于深度神经网络的动态手势识别模型,对采集到的动态手势进行识别。
CN201810745350.9A 2018-07-09 2018-07-09 一种基于深度神经网络的动态手势识别方法及系统 Active CN108932500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810745350.9A CN108932500B (zh) 2018-07-09 2018-07-09 一种基于深度神经网络的动态手势识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810745350.9A CN108932500B (zh) 2018-07-09 2018-07-09 一种基于深度神经网络的动态手势识别方法及系统

Publications (2)

Publication Number Publication Date
CN108932500A CN108932500A (zh) 2018-12-04
CN108932500B true CN108932500B (zh) 2019-08-06

Family

ID=64447591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810745350.9A Active CN108932500B (zh) 2018-07-09 2018-07-09 一种基于深度神经网络的动态手势识别方法及系统

Country Status (1)

Country Link
CN (1) CN108932500B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559332B (zh) * 2018-10-31 2021-06-18 浙江工业大学 一种结合双向LSTM和Itracker的视线跟踪方法
CN109635750A (zh) * 2018-12-14 2019-04-16 广西师范大学 一种复杂背景下的复合卷积神经网络手势图像识别方法
CN111353597B (zh) * 2018-12-24 2023-12-05 杭州海康威视数字技术股份有限公司 一种目标检测神经网络训练方法和装置
CN109782906A (zh) * 2018-12-28 2019-05-21 深圳云天励飞技术有限公司 一种广告机的手势识别方法、交互方法、装置和电子设备
CN109858380A (zh) * 2019-01-04 2019-06-07 广州大学 可扩展手势识别方法、装置、系统、手势识别终端和介质
CN109685037B (zh) * 2019-01-08 2021-03-05 北京汉王智远科技有限公司 一种实时动作识别方法、装置及电子设备
CN109961005B (zh) * 2019-01-28 2021-08-31 山东大学 一种基于二维卷积网络的动态手势识别方法及系统
CN109886164B (zh) * 2019-01-30 2022-11-04 济南大学 一种异常手势的识别与处理方法
CN109919057B (zh) * 2019-02-26 2020-11-03 北京理工大学 一种基于高效卷积神经网络的多模态融合手势识别方法
CN109977777B (zh) * 2019-02-26 2022-08-30 南京邮电大学 基于新型RF-Net模型的手势识别方法
CN109857908B (zh) * 2019-03-04 2021-04-09 北京字节跳动网络技术有限公司 用于匹配视频的方法和装置
CN109919107B (zh) * 2019-03-11 2023-03-24 青岛科技大学 一种基于深度学习的交警手势识别方法及无人车
CN110046558A (zh) * 2019-03-28 2019-07-23 东南大学 一种用于机器人控制的手势识别方法
CN110412470B (zh) * 2019-04-22 2021-09-21 上海博强微电子有限公司 电动汽车动力电池soc估计方法
CN110163130B (zh) * 2019-05-08 2021-05-28 清华大学 一种用于手势识别的特征预对齐的随机森林分类系统及方法
CN111914595B (zh) * 2019-05-09 2022-11-15 中国科学院软件研究所 一种基于彩色图像的人手三维姿态估计方法和装置
CN110309761A (zh) * 2019-06-26 2019-10-08 深圳市微纳集成电路与系统应用研究院 基于具有门限循环单元的三维卷积神经网络的连续性手势识别方法
CN110502981A (zh) * 2019-07-11 2019-11-26 武汉科技大学 一种基于彩色信息和深度信息融合的手势识别方法
CN110619286A (zh) * 2019-08-29 2019-12-27 深圳市城市交通规划设计研究中心有限公司 一种车辆开关门动作识别方法、系统及存储介质
CN110619288A (zh) * 2019-08-30 2019-12-27 武汉科技大学 一种手势识别方法、控制装置及可读存储介质
CN110865704B (zh) * 2019-10-21 2021-04-27 浙江大学 一种用于360°悬浮光场三维显示系统的手势交互装置和方法
CN111158467A (zh) * 2019-12-12 2020-05-15 青岛小鸟看看科技有限公司 一种手势交互方法和终端
CN111273779B (zh) * 2020-02-20 2023-09-19 沈阳航空航天大学 基于自适应空间监督的动态手势识别方法
CN111291713B (zh) * 2020-02-27 2023-05-16 山东大学 一种基于骨架的手势识别方法及系统
CN111444771B (zh) * 2020-02-27 2022-06-21 浙江大学 一种基于循环神经网络的手势前置实时识别方法
CN111382699A (zh) * 2020-03-09 2020-07-07 金陵科技学院 基于粒子群优化lstm算法的动态手势识别方法
CN111444488A (zh) * 2020-03-16 2020-07-24 安徽清新互联信息科技有限公司 一种基于动态手势的身份认证方法
CN111722717B (zh) * 2020-06-18 2024-03-15 歌尔科技有限公司 手势识别方法、装置及计算机可读存储介质
CN111950341B (zh) * 2020-06-19 2022-09-27 南京邮电大学 一种基于机器视觉的实时手势识别方法及手势识别系统
CN111860238A (zh) * 2020-07-07 2020-10-30 哈尔滨理工大学 一种基于卷积神经网络的动态手势识别方法及系统
CN112084846A (zh) * 2020-07-30 2020-12-15 崔恒鑫 一种无障碍手语交流系统
CN112082475B (zh) * 2020-08-25 2022-05-24 中国科学院空天信息创新研究院 活立木的种类识别方法与材积测量方法
CN111986188A (zh) * 2020-08-27 2020-11-24 深圳市智源空间创新科技有限公司 基于Resnet与LSTM的胶囊机器人排水管网缺陷识别方法
CN112329593A (zh) * 2020-11-03 2021-02-05 北京中科深智科技有限公司 一种基于风格化的手势生成方法及生成系统
CN112487981A (zh) * 2020-11-30 2021-03-12 哈尔滨工程大学 基于双路分割的ma-yolo动态手势快速识别方法
CN112446342B (zh) * 2020-12-07 2022-06-24 北京邮电大学 关键帧识别模型训练方法、识别方法及装置
CN112733609B (zh) * 2020-12-14 2023-08-18 中山大学 一种基于离散小波变换的领域自适应Wi-Fi手势识别方法
CN112633220B (zh) * 2020-12-30 2024-01-09 浙江工商大学 一种基于双向序列化建模的人体姿态估计方法
CN112818936B (zh) * 2021-03-02 2022-12-09 成都视海芯图微电子有限公司 一种连续手势的快速识别分类方法及系统
CN113191408A (zh) * 2021-04-20 2021-07-30 西安理工大学 一种基于双流神经网络的手势识别方法
CN113011395B (zh) * 2021-04-26 2023-09-01 深圳市优必选科技股份有限公司 一种单阶段动态位姿识别方法、装置和终端设备
CN113191288A (zh) * 2021-05-09 2021-07-30 刘明 用于手语交流的人工智能云平台系统及智能药盒
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
CN114119607B (zh) * 2022-01-20 2022-05-13 广州易道智慧信息科技有限公司 基于深度神经网络的酒瓶缺陷样本生成方法及系统
CN114973408B (zh) * 2022-05-10 2024-02-23 西安交通大学 一种动态手势识别方法及装置
CN116974369A (zh) * 2023-06-21 2023-10-31 广东工业大学 术中医学影像操作方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732243A (zh) * 2015-04-09 2015-06-24 西安电子科技大学 基于cnn的sar目标识别方法
WO2017164478A1 (ko) * 2016-03-25 2017-09-28 한국과학기술원 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
CN107219924A (zh) * 2017-05-27 2017-09-29 华南理工大学 一种基于惯性传感器的空中手势识别方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279936B (zh) * 2013-06-21 2016-04-27 重庆大学 基于画像的人脸伪照片自动合成及修正方法
CN103824253B (zh) * 2014-02-19 2017-01-18 中山大学 一种基于图像局部精确变形的人物五官变形方法
CN107590497A (zh) * 2017-09-20 2018-01-16 重庆邮电大学 基于深度卷积神经网络的脱机手写汉字识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732243A (zh) * 2015-04-09 2015-06-24 西安电子科技大学 基于cnn的sar目标识别方法
WO2017164478A1 (ko) * 2016-03-25 2017-09-28 한국과학기술원 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
CN107219924A (zh) * 2017-05-27 2017-09-29 华南理工大学 一种基于惯性传感器的空中手势识别方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法

Also Published As

Publication number Publication date
CN108932500A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108932500B (zh) 一种基于深度神经网络的动态手势识别方法及系统
CN108345869B (zh) 基于深度图像和虚拟数据的驾驶人姿态识别方法
CN107168527B (zh) 基于区域卷积神经网络的第一视角手势识别与交互方法
CN105205449B (zh) 基于深度学习的手语识别方法
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107341452A (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN107330453A (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN108090403A (zh) 一种基于3d卷积神经网络的人脸动态识别方法及系统
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN108021889A (zh) 一种基于姿态外形和运动信息的双通道红外行为识别方法
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN111563452A (zh) 一种基于实例分割的多人体姿态检测及状态判别方法
CN110032932B (zh) 一种基于视频处理和决策树设定阈值的人体姿态识别方法
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN106529494A (zh) 一种基于多摄像头机型的人脸识别方法
CN106228109A (zh) 一种基于骨骼运动轨迹的动作识别方法
CN110378208A (zh) 一种基于深度残差网络的行为识别方法
CN112528891A (zh) 一种基于骨架信息的双向lstm-cnn的视频行为识别方法
CN110378234A (zh) 基于TensorFlow构建的卷积神经网络热像人脸识别方法及系统
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN112487981A (zh) 基于双路分割的ma-yolo动态手势快速识别方法
CN109508686A (zh) 一种基于层次化特征子空间学习的人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant