CN114882493A - 一种基于图像序列的三维手部姿态估计与识别方法 - Google Patents
一种基于图像序列的三维手部姿态估计与识别方法 Download PDFInfo
- Publication number
- CN114882493A CN114882493A CN202110089991.5A CN202110089991A CN114882493A CN 114882493 A CN114882493 A CN 114882493A CN 202110089991 A CN202110089991 A CN 202110089991A CN 114882493 A CN114882493 A CN 114882493A
- Authority
- CN
- China
- Prior art keywords
- hand
- dimensional
- sequence
- joint
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 20
- 210000002478 hand joint Anatomy 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005316 response function Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000001373 regressive effect Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 3
- 230000036544 posture Effects 0.000 description 22
- 230000003993 interaction Effects 0.000 description 7
- 239000010410 layer Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002411 hand bone Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000002346 layers by function Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种三维手部姿态估计与识别方法,该方法包括:获取相机拍摄的深度图像序列,使用神经网络分别提取图像和时间特征,然后拼接图像特征与二维关节预测特征,利用邻接矩阵表示的手部结构图,不断校正关节点坐标信息,推断被遮挡的关节点的位置信息;将回归得到的手部三维关节坐标信息进行处理,得到手部的骨架图,引入时空注意力机制模型,训练图网络实现手势的动作识别分类;最后将这两部分的研究内容进行整合,结合实际需求,搭建了基于图像序列的三维手部姿态估计与识别系统。本发明提高了手部姿态估计的准确度,基本能够达到实时性。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及三维手部姿态估计与识别方法。
背景技术
随着计算机视觉技术的发展,人与数字媒体的交互不再拘泥于鼠标、键盘等操控方式,手势也成为了重要的交互方式。手势交互可以分为手部姿态估计和手势识别两个部分,他们都拥有广阔的应用场景。
目前的手部姿态估计技术主要分为两类,一类是基于可穿戴设备的手部姿态估计技术,一类是基于计算机视觉的手部姿态估计技术。由于可穿戴设备较为昂贵且笨重,导致用户体验不佳,因此,基于计算机视觉的手部姿态估计技术更具有应用前景,也更加受到研究人员的关注。目前常用的基于计算机视觉的手部姿态估计任务大多采用深度学习的方式,以人手的图像作为输入,学习图像特征以及从图像到手部姿态的映射关系。虽然基于单帧图像的深度学习方法在手部姿态估计领域取得了巨大的发展,然而由于单帧图像缺少时序信息,并且手部本身存在自遮挡、高自由度、结构复杂等固有特点,所以手部姿态估计技术在抗遮挡性与泛化性上非常具有挑战性。
动态手势识别由于其广泛的应用潜力,也引起了越来越多的关注,可以应用于人机交互领域,给用户提供更加自然、直观的交互方式。然而,开发高精度的手势识别系统仍然具有挑战性,因为不同用户执行同一手势的多种可能方式导致了较高的类内方差,从而造成识别上的困难。早期的动态手势识别研究主要以R(Red,红)G(Green,绿)B(Blue,蓝)相机捕获的二维视频作为输入,不可避免地造成了价值意义较高的三维空间信息的丢失,而且视频中含有大量的不相关信息,导致基于视频的模型不容易学习到有用的信息,并带来遮挡和光变等额外挑战。由于手部骨骼可以清晰地描述手部的运动状态,对类内多样性有较强的鲁棒性,所以近年来,基于骨架的手势识别成为一个活跃的研究领域。但是基于骨架的手势识别高度依赖于获取的手部关节点的精度,对自遮挡和视点变化很敏感。
发明内容
针对上述手部姿态估计和手势识别存在的问题,本发明在输入上使用多帧的连续图像序列代替单帧图像,引入卷积神经网络和循环神经网络网络,表征顺序数据的输出与先前获取的信息之间的关系,缓解由噪声或帧缺失引起的大预测误差的问题。引入图网络模型进行关系结构推理,对关节点未知信息进行推断,提升三维手部姿态估计的准确度、抗遮挡性。由于手骨架也包含了丰富的手部结构信息,对变化的光照条件和遮挡情况更有鲁棒性。所以本文采用基于回归姿态序列的手势识别方法,通过前一章提出的手部姿态估计方法得到一系列具有三维坐标信息的手关节序列对手势进行识别。
本发明的出发点为这样一个客观事实:人们在进行需要估计手部姿态的交互行为时,由于可穿戴设备较为昂贵且笨重,所以倾向于用相机来捕获图像进行姿态估计,比如虚拟体感游戏,如果能够使用图像代替目前常用的数据手套、手柄作为数据输入来源,就可以使用户摆脱硬件的束缚,给用户提供更加真实的人造虚拟环境,实现沉浸式的交互体验。在一些需要触摸屏控制的设备上,使用手势交互更加的自然、便捷,比如高级驾驶辅助系统,驾驶员使用手势与系统交互来改变车内各种参数,控制汽车内部的各个功能,从而将更多的注意力放在马路上,可以在一定程度上提高驾驶的安全性,减少交通事故的发生概率。智能家居使用手势控制取代传统的按键或者触摸屏控制,可以使用户感到更加便捷和自然。
本发明与现有技术相比的优点在于:第一,本发明输入连续的多帧图像序列,通过学习图像特征和相邻帧之间的时序特征,充分利用相邻帧间的相关信息以及手工模型的可解释性,捕获了更多的时空特征,使得二维关节预测更加准确。第二,本发明利用图结构来模拟手部姿态,同时使用二维和三维的损失函数,对网络的不同阶段进行约束,使得网络可以更好的学习,从而更准确地完成完整的三维手部姿态估计,并在遮挡场景下也能取得较好的结果,保证回归的实时性。第三,本发明将回归得到的手部三维关节坐标信息视为完整骨架,引入时空注意力机制模型,利用时空信息学习手部关节点和边的特征,设计图网络来学习动态图中的边权值,提高了手势识别的准确率。第四,本发明提出的方法在多个数据集上进行了实验,取得了较为准确的实体链接效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统模块设计图;
图2是本发明的三维手部姿态估计与识别方法的一些实施例的流程图;
图3是本发明的三维手部姿态估计框架图;
图4是本发明的动态手势识别流程图。
具体实施方式
下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
下面将结合附图,对本发明的实施例进行描述。
如图1所示,是本发明的系统实现模块设计图,包括数据输入模块、交互界面模块、核心功能模块和数据输出模块。
数据输入模块包括从深度相机实时读取手部图像序列,以及对回归的关节序列进行处理;交互界面模块主要设计了系统与用户间的交互界面及响应函数;核心功能模块包含手部区域提取、二维关节预测、三维手部姿态估计和基于回归序列的动态手势识别四个部分,定义了这四个部分的实现过程;数据输出模块绘制系统接收到输入图像后在核心功能层求解的中间结果和最终结果。
具体的,手部图像序列采集模块主要负责实时获取深度摄像机捕获的深度图像,并对图像进行处理和转化,使得能够调用预训练好的模型实现实时回归。本模块使用实感三维相机(例如,Intel Realsense300)作为输入设备,可以实时获取摄像机摄取的视频流,将每一帧的深度图像提取出来。
继续参考图2,示出了根据本发明的三维手部姿态估计与识别方法的一些实施例的流程200。该三维手部姿态估计与识别方法,包括以下步骤:
步骤201,获取深度图像序列,对深度图像序列进行预处理。
在一些实施例中,三维手部姿态估计与识别方法的执行主体可以通过各种方式获取深度图像序列。其中,获取手部深度图像时,人手位于目标用户的胸部前方,人手可以包含右手。可以通过固定摄像机角度来采集手部深度图像。可以通过灰度化、几何变换和图像增强对深度图像序列进行预处理。
步骤202,从深度图像序列中的每个深度图像中提取手部区域,得到手部区域集合。
在一些实施例中,三维手部姿态估计与识别方法的执行主体可以从深度图像序列中的每个深度图像中提取手部区域,得到手部区域集合。如图3所示的三维手部姿态估计框架图中。手部区域提取模块在深度图像中检测提取手部区域,定义手是与相机之间的距离满足预定阈值的物体。其中,预定阈值可以是10厘米。基于深度阈值分割深度图像中的手部图像,设阈值为S,根据深度d获取深度值在[d-S,d+S]范围内的像素,确定深度图像中的手部图像的质心,从深度图像中提取以手部图像的质心为中心的固定大小的立方体,将深度值归一化为[-1,1]。采用双线性调整大小,深度值比该立方体的背面更远的点被定义为深度不可用的点,深度值赋为1。最后确定边界并投影到三维空间。边界可以是深度阈值的边界。
在一些实施例的一些可选的实现方式中,提取手部区域,可以包括以下步骤:
第一步,定义手是与相机之间的距离满足预定阈值的物体。基于深度阈值分割深度图像中手部图像。其中,设阈值为S,根据深度d获取深度值在[d-S,d+S]范围内的像素。预定阈值可以是10厘米。
第二步,确定深度图像中手部图像的质心,输出质心的横坐标、纵坐标和竖坐标,从深度图像中提取以手部图像的质心为中心的固定大小的立方体,将提取的立方体大小调整为96×96的深度值块。通过手部区域提取模块确定手部图像的质心,输出质心的横坐标、纵坐标和竖坐标。以及提取以手部图像的质心为中心的固定大小的立方体,将提取的立方体大小调整为96×96的深度值块。
第三步,对深度值进行归一化处理,以及确定深度阈值的边界并进行三维投影,得到手部区域。
作为示例,将深度值归一化为[-1,1]。采用双线性调整大小,深度值比该立方体的背面更远的点被定义为深度不可用的点,深度值赋为1,最后计算边界并投影到三维空间。深度不可用的点可以是深度图像上背景信息中的点。
步骤203,训练神经网络以提取时序特征集合与图像特征集合,基于神经网络,生成二维关节坐标信息集合和二维关节预测特征集合。
在一些实施例中,三维手部姿态估计与识别方法的执行主体可以训练神经网络以提取时序特征集合与图像特征集合,基于神经网络,生成二维关节坐标信息集合和二维关节预测特征集合。如图3所示的三维手部姿态估计框架图中。二维关节预测模块主要为预测二维关节坐标,使用CNN(Convolutional Neural Networks,卷积神经网络)提取每帧的图像特征,CNN的网络结构由五个卷积层和一个全连接层组成,输入为深度图像序列,输出为关节对应的二维信息。卷积核大小为5×5,步长为2,后接ConvRNN(ConvolutionalRecurrent Neural Network,卷积循环神经网络)模块,隐藏层的不同时刻的不同特征映射。特征映射公式如下:
其中,t表示时刻的序号。i表示序号。j表示输出特征映射的序号。h表示输出。表示在t时刻隐藏层的第j个特征映射的输出。f()表示激活函数。v和u表示卷积核。vij和uij表示用于第i个输入特征映射和第j个输出特征映射之间的连接的卷积核。M和N表示输入的特征映射组。b表示偏置。bj表示第j个特征图的偏置。x表示输入。xt表示t时刻的输入。ht-1表示t-1时刻隐藏层的输出。
前馈全部采用卷积形式,为2Dloss(二维损失值)添加时序约束,最后将获取到的图像的抽象特征映射重构为一维向量,然后将其输入RNN(Recurrent Neural Network,循环神经网络)模块,得到二维关节坐标信息。其中,ConvRNN模块是由卷积神经网络和循环神经网络相结合的模块。
在一些实施例的一些可选的实现方式中,训练神经网络以提取时序特征集合与图像特征集合,基于神经网络,生成二维关节坐标信息集合和二维关节预测特征集合,可以包括以下步骤:
第一步,使用卷积神经网络提取每帧的图像特征,提出了将卷积神经网络和循环神经网络相结合的模块,利用相结合的模块进行特征提取,采用带泄露修正线性单元作为激活函数,使输出数据在负轴上保持一定的梯度,使神经元保持可更新性。其中,带泄露修正线性单元可以是神经网络中的激活函数(例如,Leaky ReLU激活函数)。负轴可以是平面直角坐标系中原点左边的横轴。
第二步,将获取到的图像的抽象特征映射重构为一维向量,然后将一维向量输入循环神经网络模块,生成二维关节坐标信息集合和二维关节预测特征集合。
步骤204,拼接图像特征集合与二维关节预测特征集合,利用邻接矩阵表示的手部结构图,设计训练图网络以校正关节坐标信息,确定被遮挡的关节的位置信息,完成三维手部姿态估计,得到手部三维关节序列信息。
在一些实施例中,三维手部姿态估计与识别方法的执行主体可以拼接图像特征集合与二维关节预测特征集合,利用邻接矩阵表示的手部结构图,设计训练图网络以校正关节坐标信息,确定被遮挡的关节的位置信息,完成三维手部姿态估计,得到手部三维关节序列信息。如图3所示的三维手部姿态估计框架图中。三维手部姿态估计模块主要是在前述网络进行手部二维关节点预测的基础上,利用预测得到的二维关节信息、特征以及手骨架结构信息来推断手部关节点的深度信息及并校正手部姿态坐标。将图像特征与每个关节点预测的x轴(横轴)、y轴(纵轴)特征进行拼接,将横轴特征、纵轴特征与用邻接矩阵表示的手部结构图输入到网络进行特征学习,使用图卷积神经网络进行关系结构推理。
在一些实施例的一些可选的实现方式中,拼接图像特征集合与二维关节预测特征集合,利用邻接矩阵表示的手部结构图,设计训练图网络以校正关节坐标信息,确定被遮挡的关节的位置信息,完成三维手部姿态估计,可以包括以下步骤:
第一步,利用得到的二维关节坐标信息在每一帧上构建手部关节点的手部结构图。其中,可以通过神经网络模型在每一帧上构建手部关节点的手部结构图。
第二步,将传统的卷积迁移到手部结构图上,把拉普拉斯算子的特征函数变为手部结构图对应的拉普拉斯矩阵的特征向量。
计算过程为每一个关节点将自身的特征信息经过变换之后发送给邻域节点,对关节点的特征信息进行抽取变换。然后每个关节点将邻域节点的特征信息聚合起来,对关节点的局部结构信息进行融合。最后对融合后的局部结构信息应用非线性变换,增加模型的表达能力。
卷积计算公式定义如下:
其中,σ()表示激活函数。y表示输出的特征向量。α表示预设参数集合。i表示序号。αi表示预设参数集合中的第i个预设参数。J表示卷积核的感受野大小。L表示拉普拉斯矩阵。Li表示第i阶拉普拉斯矩阵。x表示输入的手部结构图。
第三步,添加长范围依赖模块,学习手部结构图中节点之间的全局和长范围内的依赖关系,通过计算节点之间的响应函数为所有位置特征的加权和来设置特征更新机制,完成三维手部姿态估计,获取长范围依赖关系的操作公式如下:
其中,x表示输入信号。k表示手部结构图中要计算响应函数的节点。j表示手部结构图中的其它节点。g()表示一元函数。T表示矩阵的转置。Wx表示权值矩阵。J表示卷积核的感受野大小。m表示时间节点。表示k节点m时刻的输入信号。表示k节点m+1时刻的输入信号。表示k节点m时刻的输入信号的转置。
步骤205,对回归得到的手部三维关节序列信息进行处理,得到手部的骨架图序列。
在一些实施例中,三维手部姿态估计与识别方法的执行主体可以对回归得到的手部三维关节序列信息进行处理,得到手部的骨架图序列。如图4所示的动态手势识别流程图中。关节序列处理模块主要是将回归得到的三维手部姿态信息序列进行保存与处理。将三维手部姿态估计网络对手部深度图像实时回归得到的手部三维关节序列信息以二维数组形式写入到文件中,直至相机停止拍摄。其中,二维数组中的第一维可以是手势序列的帧数t,共t行,二维数组中的第二维可以是回归的手部姿态参数,共14×3列,将每段序列抽帧为16帧并保存到列表中。
在一些实施例的一些可选的实现方式中,对回归得到的手部三维关节序列信息进行处理,得到手部的骨架图序列,可以包括以下步骤:
第一步,将实时回归得到的手部三维关节序列信息以二维数组形式写入到文件中,直至相机停止拍摄。其中,二维数组中的第一维为这段手势序列的帧数,二维数组中的第二维是回归的手部姿态参数。可以通过编程的方法将二维数组写入文件。
第二步,对手势序列抽取预定数目帧然后归一化,保存到列表中。其中,预定数目帧可以是16帧。归一化可以是图像归一化。
步骤206,引入时空注意力机制模型,基于骨架图序列实现手势的动作识别分类。
在一些实施例中,三维手部姿态估计与识别方法的执行主体可以引入时空注意力机制模型,基于骨架图序列实现手势的动作识别分类。其中,时空注意力机制模型可以是神经网络(例如,卷积神经网络)模型。基于骨架图序列实现手势的动作识别分类可以是将骨架图序列输入至时空注意力机制模型实现手势的动作识别分类。
在一些实施例的一些可选的实现方式中,引入时空注意力机制模型,基于骨架图序列实现手势的动作识别分类,可以包括以下步骤:
第一步,对于一个预设帧的视频,从每一帧中提取预定数目个手部关节点来表示手部骨架,得到手部骨架图序列。其中,预设帧可以是16帧。预定数目个可以是14个。该手部骨架图序列构造全连通骨架图。全连通骨架图的节点表示手关节点,全连通骨架图的边包含连接不同关节点的骨架边以及连接同一关节点的时间边。
如图4所示的动态手势识别流程图中。构造手骨架序列图模块主要是从视频每一帧中提取14个手部关节点来表示手部骨架,由该手骨架序列构造全连通骨架图G=(V,E)。其中,V表示全连通骨架图的节点。E表示全连通骨架图的边。全连通骨架图的节点表示手关节点,全连通骨架图的边包含连接不同关节点的骨架边以及连接同一关节点的时间边。
作为示例,令V={vti|t=1,...T,i=1,...N}表示节点集合,包含了一个骨架序列的所有关节点,其中每一帧包含14个关节点。T表示时间总数。N表示节点总数。图上定义了两种类型的边,空间边ES=v(t,i)→v(t,j)(i≠j)和时间边EF=v(t,i)→v(k,i)(t≠k)。其中,v表示节点。t,k表示时间。i和j表示序号。v(t,i)表示第t时刻第i节点。v(t,j)表示第t时刻第j节点。v(k,i)表示第k时刻第i节点。
第二步,如图4所示的动态手势识别流程图中。时空注意力模型搭建和手势分类模块主要是从手骨架图中提取空间和时间信息,对手势进行识别分类。将节点特征输入到空间注意模型进行来编码并更新空间信息,将所有节点的信息聚合为查询特征,计算节点的查询向量和键值向量之间的缩放点积,将结果归一化,缩放点积的公式如下:
其中,t表示时间。i和j表示不同的节点。d表示缩放点积。p表示空间注意点的序号。dp表示在第p个空间注意点时的缩放点积。是节点(t,i)和节点(t,j)的缩放点积。K表示键值向量。Q表示查询向量。Kp表示在第p个空间注意点时的键值向量。Qp表示在第p个空间注意点时的查询向量。表示节点(t,i)的键值向量和节点(t,j)查询向量内积运算。dim是键值向量、查询向量和值向量的维数。w表示权值。wp表示在第p个空间注意点的权值。是节点(t,i)和节点(t,j)之间的权值。N表示节点总个数。n表示序号。exp()表示指数函数。
将更新后的节点特征反馈到时间注意模型来进一步学习时间信息,对手骨架输入序列所携带的时空信息进行编码。
具体的,是节点(t,i)和节点(t,j)的缩放点积。表示节点(t,i)的键值向量和节点(t,j)查询向量内积运算。dim是键值向量、查询向量和值向量的维数。是节点(t,i)和节点(t,j)之间的权值,将所有时间边的权值设置为0,以阻止信息在时间域内传递。更新后的节点特征反馈到时间注意模型来进一步学习时间信息,将上述多头注意机制应用于时间域。对手骨架输入序列所携带的时空信息进行编码。给定骨架图中(t,i)节点的输入特征,第p个空间注意点。首先利用三个全连通层将输入特征分别映射到键值向量、查询向量和值向量中。时间注意力机制将空间注意力模型的结点输出特征作为输入,并将上述机制应用于时间域,对于手部骨架序列包含的时空信息进行编码。最终将这些节点特征平均池化为一个向量输入分类器进行手势识别。
第三步,构造权值函数,在卷积的每一层添加一个可学习的掩码,先确定各个关节点之间的缩放点积矩阵。然后进行时空掩膜操作,根据学习到的空间边中的空间的权值来分析每个节点对邻域节点的影响力。根据学习到的时间边中的时间的权值,使模型集中于时间域。最后实现手势的动作识别分类。其中,确定各个关节点之间的缩放点积矩阵可以通过以下公式得到:
可以通过以下公式进行时空掩膜操作,得到空间边中的空间的权值和时间边中的时间的权值:
其中,表示权值矩阵。S表示空间边。T表示时间边。m表示矩阵。表示空间边的权值矩阵。表示时间边的权值矩阵。W表示缩放点积矩阵。Sm表示空间掩码矩阵。Tm表示时间掩码矩阵。⊙表示矩阵的点乘。Softmax()表示激活函数。inf表示预设权值。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种三维手部姿态估计与识别方法,包括:
(1)获取深度图像序列,对深度图像序列进行预处理;
(2)从深度图像序列中的每个深度图像中提取手部区域,得到手部区域集合;
(3)训练神经网络以提取时序特征集合与图像特征集合,基于神经网络,生成二维关节坐标信息集合和二维关节预测特征集合;
(4)拼接图像特征集合与二维关节预测特征集合,利用邻接矩阵表示的手部结构图,设计训练图网络以校正关节坐标信息,确定被遮挡的关节的位置信息,完成三维手部姿态估计,得到手部三维关节序列信息;
(5)对回归得到的手部三维关节序列信息进行处理,得到手部的骨架图序列;
(6)引入时空注意力机制模型,基于骨架图序列实现手势的动作识别分类。
2.根据权利要求1所述的方法,其中,所述获取深度图像序列,包括:
采集手部深度图像,得到深度图像序列,其中,人手位于目标用户的胸部前方,人手包含右手。
3.根据权利要求2所述的方法,其中,所述从深度图像序列中的每个深度图像中提取手部区域,得到手部区域集合,包括:
(3.1)定义手是与相机之间的距离满足预定阈值的物体,基于深度阈值分割深度图像中的手部图像,设阈值为S,根据深度d获取深度值在[d-S,d+S]范围内的像素;
(3.2)确定深度图像中的手部图像的质心,输出质心的横坐标、纵坐标和竖坐标,从深度图像中提取以手部图像的质心为中心的固定大小的立方体,将提取的立方体大小调整为96×96的深度值块;
(3.3)对深度值进行归一化处理,以及确定深度阈值的边界并进行三维投影,提取手部区域,得到手部区域集合。
4.根据权利要求3所述的方法,其中,所述训练神经网络以提取时序特征集合与图像特征集合,基于神经网络,生成二维关节坐标信息集合和二维关节预测特征集合,包括:
使用卷积神经网络提取每帧的图像特征,提出了将卷积神经网络和循环神经网络相结合的模块,利用相结合的模块进行特征提取,采用带泄露修正线性单元作为激活函数,使输出数据在负轴上保持一定的梯度,使神经元保持可更新性;
将获取到的图像的抽象特征映射重构为一维向量,然后将一维向量输入循环神经网络模块,生成二维关节坐标信息集合和二维关节预测特征集合。
5.根据权利要求4所述的方法,其中,所述拼接图像特征集合与二维关节预测特征集合,利用邻接矩阵表示的手部结构图,设计训练图网络以校正关节坐标信息,确定被遮挡的关节的位置信息,完成三维手部姿态估计,包括:
(5.1)利用得到的二维关节坐标信息在每一帧上构建手部关节点的手部结构图;
(5.2)将传统的卷积迁移到手部结构图上,把拉普拉斯算子的特征函数变为手部结构图对应的拉普拉斯矩阵的特征向量;
卷积计算公式定义如下:
其中,σ()表示激活函数,y表示输出的特征向量,α表示预设参数集合,i表示序号,αi表示预设参数集合中的第i个预设参数,J表示卷积核的感受野大小,L表示拉普拉斯矩阵,Li表示第i阶拉普拉斯矩阵,x表示输入的手部结构图;
(5.3)添加长范围依赖模块,学习手部结构图中节点之间的全局和长范围内的依赖关系,通过计算节点之间的响应函数为所有位置特征的加权和来设置特征更新机制,完成三维手部姿态估计,获取长范围依赖关系的操作公式如下:
6.根据权利要求5所述的方法,其中,所述对回归得到的手部三维关节序列信息进行处理,得到手部的骨架图序列,包括:
将实时回归得到的手部三维关节序列信息以二维数组形式写入到文件中,直至相机停止拍摄,其中,二维数组中的第一维为手势序列的帧数,二维数组中的第二维是回归的手部姿态参数;
对手势序列抽取预定数目帧,然后进行归一化处理,以及将手势序列保存到列表中,得到手部的骨架图序列。
7.根据权利要求6所述的方法,其中,所述引入时空注意力机制模型,基于骨架图序列实现手势的动作识别分类,包括:
(7.1)对于一个预设帧的视频,从每一帧中提取预定数目个手部关节点来表示手部骨架,得到手部骨架图序列,其中,该手部骨架图序列用于构造全连通骨架图,全连通骨架图的节点表示手关节点,全连通骨架图的边包含连接不同关节点的骨架边以及连接同一关节点的时间边;
(7.2)将节点特征输入到空间注意模型进行编码并更新空间信息,完成节点特征的更新,将所有节点的信息聚合为查询特征,计算节点的查询向量和键值向量之间的缩放点积,将结果归一化,缩放点积的公式如下:
其中,t表示时间,i和j表示不同的节点,d表示缩放点积,p表示空间注意点的序号,dp表示在第p个空间注意点时的缩放点积,是节点(t,i)和节点(t,j)的缩放点积,K表示键值向量,Q表示查询向量,Kp表示在第p个空间注意点时的键值向量,Qp表示在第p个空间注意点时的查询向量,表示节点(t,i)的键值向量和节点(t,j)查询向量内积运算,dim是键值向量、查询向量和值向量的维数,W表示权值,Wp表示在第p个空间注意点时的权值,是节点(t,i)和节点(t,j)之间的权值,N表示节点总个数,n表示序号,exp()表示指数函数;
将更新后的节点特征反馈到时间注意模型来进一步学习时间信息,对手骨架输入序列所携带的时空信息进行编码;
(7.3)构造权值函数,在卷积的每一层添加一个可学习的掩码,先计算各个关节点之间的缩放点积矩阵,然后进行时空掩膜操作,根据学习到的空间边中的空间的权值来分析每个节点对邻域节点的影响力,根据学习到的时间边中的时间的权值,使模型集中于时间域,最后实现手势的动作识别分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110089991.5A CN114882493A (zh) | 2021-01-22 | 2021-01-22 | 一种基于图像序列的三维手部姿态估计与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110089991.5A CN114882493A (zh) | 2021-01-22 | 2021-01-22 | 一种基于图像序列的三维手部姿态估计与识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882493A true CN114882493A (zh) | 2022-08-09 |
Family
ID=82667432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110089991.5A Pending CN114882493A (zh) | 2021-01-22 | 2021-01-22 | 一种基于图像序列的三维手部姿态估计与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882493A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953839A (zh) * | 2022-12-26 | 2023-04-11 | 广州紫为云科技有限公司 | 一种基于循环架构与坐标系回归的实时2d手势估计方法 |
CN116631011A (zh) * | 2023-07-24 | 2023-08-22 | 荣耀终端有限公司 | 手部姿态估计方法及电子设备 |
CN118196910A (zh) * | 2024-05-17 | 2024-06-14 | 江西求是高等研究院 | 一种手势交互方法、系统、计算机及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170068849A1 (en) * | 2015-09-03 | 2017-03-09 | Korea Institute Of Science And Technology | Apparatus and method of hand gesture recognition based on depth image |
CN110555383A (zh) * | 2019-07-31 | 2019-12-10 | 中国地质大学(武汉) | 一种基于卷积神经网络和3d估计的手势识别方法 |
-
2021
- 2021-01-22 CN CN202110089991.5A patent/CN114882493A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170068849A1 (en) * | 2015-09-03 | 2017-03-09 | Korea Institute Of Science And Technology | Apparatus and method of hand gesture recognition based on depth image |
CN110555383A (zh) * | 2019-07-31 | 2019-12-10 | 中国地质大学(武汉) | 一种基于卷积神经网络和3d估计的手势识别方法 |
Non-Patent Citations (3)
Title |
---|
JAMEEL MALIK等: "HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 5 August 2020 (2020-08-05) * |
梁晓辉: "手部姿态估计方法综述", 山西大学学报(自然科学版), vol. 45, no. 3, 25 May 2022 (2022-05-25) * |
车云龙等: "基于深度图像的手部姿态估计综述", 计算机辅助设计与图形学学报, vol. 33, no. 11, 30 November 2021 (2021-11-30) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953839A (zh) * | 2022-12-26 | 2023-04-11 | 广州紫为云科技有限公司 | 一种基于循环架构与坐标系回归的实时2d手势估计方法 |
CN115953839B (zh) * | 2022-12-26 | 2024-04-12 | 广州紫为云科技有限公司 | 一种基于循环架构与关键点回归的实时2d手势估计方法 |
CN116631011A (zh) * | 2023-07-24 | 2023-08-22 | 荣耀终端有限公司 | 手部姿态估计方法及电子设备 |
CN116631011B (zh) * | 2023-07-24 | 2023-10-20 | 荣耀终端有限公司 | 手部姿态估计方法及电子设备 |
CN118196910A (zh) * | 2024-05-17 | 2024-06-14 | 江西求是高等研究院 | 一种手势交互方法、系统、计算机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Pose guided structured region ensemble network for cascaded hand pose estimation | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
Sun et al. | Lattice long short-term memory for human action recognition | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
CN114882493A (zh) | 一种基于图像序列的三维手部姿态估计与识别方法 | |
CN113449573A (zh) | 一种动态手势识别方法及设备 | |
Avola et al. | 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition | |
CN111401207B (zh) | 基于mars深度特征提取与增强的人体动作识别方法 | |
CN111161306A (zh) | 一种基于运动注意力的视频目标分割方法 | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN116012950A (zh) | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 | |
CN114821764A (zh) | 一种基于kcf追踪检测的手势图像识别方法及系统 | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
CN114036969A (zh) | 一种多视角情况下的3d人体动作识别算法 | |
Zhang | 2D Computer Vision | |
Fu et al. | Purifying real images with an attention-guided style transfer network for gaze estimation | |
Wang et al. | SABV-Depth: A biologically inspired deep learning network for monocular depth estimation | |
Wu et al. | An unsupervised real-time framework of human pose tracking from range image sequences | |
Dong et al. | An improved deep neural network method for an athlete's human motion posture recognition | |
Sun et al. | A three-dimensional human motion pose recognition algorithm based on graph convolutional networks | |
Kwolek et al. | Swarm intelligence based searching schemes for articulated 3D body motion tracking | |
CN115810219A (zh) | 一种基于rgb摄像头的三维手势追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |