CN111709323B - 一种基于李群和长短时记忆网络的手势识别方法 - Google Patents
一种基于李群和长短时记忆网络的手势识别方法 Download PDFInfo
- Publication number
- CN111709323B CN111709323B CN202010471688.7A CN202010471688A CN111709323B CN 111709323 B CN111709323 B CN 111709323B CN 202010471688 A CN202010471688 A CN 202010471688A CN 111709323 B CN111709323 B CN 111709323B
- Authority
- CN
- China
- Prior art keywords
- bone
- data
- gesture
- skeleton
- hand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000015654 memory Effects 0.000 title claims abstract description 22
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 74
- 238000003062 neural network model Methods 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 23
- 210000002411 hand bone Anatomy 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 210000002478 hand joint Anatomy 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 235000021018 plums Nutrition 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000009471 action Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000003811 finger Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于李群和长短时记忆网络的手势识别方法,主要步骤为:1)提取手部骨骼图像;2)对手部骨骼图像进行预处理;3)利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系,并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t);4)训练LSTM神经网络模型;5)获取待检测手势骨骼图像,并提取待检测手势骨骼图像的李代数数据s'(t);将李代数数据s'(t)输入到训练后的LSTM神经网络模型中,实现手势识别。本发明的识别方法充分利用深度学习的优势,适应人体运动学特征,提高了识别的准确率。
Description
技术领域
本发明涉及计算机模式识别和人机交互领域,具体为一种基于李群和长短时记忆网络的手势识别方法。
背景技术
随着科技的高速发展,越来越多的智能设备进入社会生活中,人们希望这些设备能更方便操控,并像人类一样对用户指令做出正确的反应,从而实现真正的智能,故更自然的人机交互方式成为目前的迫切需求。
近年,由于计算机视觉、虚拟现实以及智能穿戴设备等技术发展火热,与之密切相关的手势识别技术的研究也逐渐变得热门。手势识别是通过相关算法对人类手势进行识别分类的一个议题,通过识别出的手势类别让用户通过简单的手势动作来控制设备或与设备交互。目前手势识别的方法主要分为两大类,即基于智能穿戴设备和基于计算机视觉两个方面。在智能穿戴设备方面,主要采用包含多种传感器的智能手套、智能手环等设备来进行数据采集;而在计算机视觉方面,主要采用各种摄像头来采集数据。最后利用深度学习等方法来对数据进行识别分类。在基于计算机视觉的识别方法中,由于人体肤色差异以及识别环境的影响,使得识别有很大的局限性。
发明内容
本发明的目的是提供一种基于李群和长短时记忆网络的手势识别方法,主要包括以下步骤:
1)获取动态手势骨骼视频,并逐帧提取手部骨骼图像。获取动态手势骨骼视频的装置为摄像头。
2)对手部骨骼图像进行预处理,主要步骤为:
2.1)对不同动态手势视频提取的手部骨骼图像数量进行统一,确保不同动态手势视频的手部骨骼图像数量一致。
2.2)对手部骨骼图像归一化,确保所有手部骨骼图像中手部骨骼尺寸一致。
3)提取手部骨骼图像的骨骼关节点数据,,并打上分类标签。利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系,并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t),主要步骤如下:
3.1)提取手部骨骼图像的手部骨骼数据集S=(V,E)。其中V={v1,v2,…vN}为手部关节点数据集,N为关节点数,E={e1,e2,…eM}表示关节点间的刚性骨骼数据集。M为骨骼数。
3.2)提取关节点间的刚性骨骼数据集的相邻骨骼对(en,em),在t时刻对骨骼en进行旋转平移,令骨骼en和骨骼em重合,并对骨骼em进行旋转平移,令骨骼em和骨骼en重合。n初始值为1。
骨骼en和骨骼em的三维刚性变换关系如下:
式中,Rm,n(t)表示骨骼en到骨骼em的旋转矩阵。表示骨骼en到骨骼em的平移向量。
骨骼em和骨骼en的三维刚性变换关系如下:
式中,Rn,m(t)表示骨骼em到骨骼en的旋转矩阵。表示骨骼en到骨骼em的平移向量。
3.3)令n=n+1,并重复步骤3.2),直至对所有骨骼均进行三维刚体变换,并建立变换后的李群数据集S(t),即:
S(t)=(P1,2(t),P2,1(t),...,PM-1,M(t),PM,M-1(t))∈SE(3)×...×SE(3)。 (3)
式中,M为骨骼数,SE(3)×...×SE(3)表示李群空间曲线。
3.4)利用对数映射将李群数据集S(t)变换为李代数数据s(t),即:
s(t)=[vec(log(P1,2(t))),vec(log(P2,1(t))),...,
vec(log(PM-1,M(t))),vec(log(PM,M-1(t)))]。 (4)
∈SE(3)×...×SE(3)
其中,vec(·)表示向量,log(·)表示对数映射。
4)建立LSTM神经网络模型,并利用李代数数据s(t)训练LSTM神经网络模型。
所述LSTM神经网络模型包括输入层、隐藏和输出层。其中,隐藏层包括输入门、遗忘门和输出门。
隐藏层的遗忘控制单元ft、输入控制单元it、输入元记忆控制单元Ct、输出控制单元Ot和输出元ht分别如下所示:
ft=σ(Wf·[ht-1,xt]+bf)。 (5)
it=σ(Wi·[ht-1,xt]+bi)。 (6)
ot=σ(W0·[ht-1,xt]+bo)。 (9)
ht=ot*tanhCt。 (10)
式中,tanh(·)为双曲正切函数。损失函数σ(·)为sigmoid函数。Wf、Wi、WC、Wo分别表示遗忘门、输入门、记忆控制单元和输出门的权重矩阵。bf、bi、bC、bo分别表示遗忘门、输入门、记忆控制单元和输出门的偏移向量。xt表示t时刻隐藏层的输入,ht表示t时刻隐藏层输出,ht-1表示t-1时刻隐藏层输出。
利用李代数数据s(t)训练LSTM神经网络模型的方法为:将李代数数据s(t)输入到LSTM神经网络模型中,利用反向传播算法更新遗忘门的权重矩阵Wf与偏移向量bf、输入门的权重矩阵Wi与偏移向量bi、记忆控制单元的权重矩阵WC与偏移向量bC、输出门的权重矩阵Wo与偏移向量bo。
5)获取待检测手势骨骼图像,并提取待检测手势骨骼图像的李代数数据s'(t)。将李代数数据s'(t)输入到训练后的LSTM神经网络模型中,实现手势识别。
随着深度摄像头行业的发展,如Kinect、RealSense、Leap Motion等深度摄像头的出现,在很大程度上改变了手势数据的提取方式。深度摄像头除能提取彩色图像外,还能提取深度图像以及人体骨骼数据,且深度信息能有效克服光照等环境因素干扰,故深度摄像头能更高效便捷地采集手势动作信息。此外,近年来基于骨骼信息的手势识别迅速发展,根据人体手部动作的流形特点提取出骨骼间的几何关系,能更好地对手势的运动特征进行描述。同时,由于深度学习中各神经网络的发展,其在图像识别等领域体现了巨大优势,包括降低识别复杂度、增强识别精度等。
值得说明的是,本发明通过英特尔深度摄像头RealSense获取手部骨骼关节点坐标信息,提取李群特征,将动态手势中骨骼间的刚体变换关系用基于流形的李群结构来表示,再通过对数映射将李群几何数据转换为方便计算的李代数数据;手势识别,将李群与LSTM结合提取动态手势的时序特征,利用李群特征训练LSTM,用训练好的网络对手势数据进行分类,从而实现手势识别。
本发明的技术效果是毋庸置疑的,本发明具有以下效果:
1)本发明参考人体运动特征,采用基于流形的李群结构表示手势动作的空间特征,再采用循环神经网络的变体LSTM来学习手势动作的时序特征,得到了优异的手势识别效果。本发明的识别方法充分利用深度学习的优势,适应人体运动学特征,提高了识别的准确率。
2)本发明能在一定程度上克服传统技术中环境因素的干扰,且借助基于流形的李群特征来克服手势动作的空间复杂性和欧式空间中几何关系的不足;同时,利用循环神经网络的变体LSTM来处理长序列数据,解决了长序列数据训练过程中的梯度消失和梯度爆炸问题。
3)本发明利用手部骨骼数据对手势动作进行描述,克服了手工提取特征的缺陷。通过RealSense深度摄像头提取手部关节点信息,在一定程度上克服了外界环境因素的干扰,如光照变化、体型差异、肤色差异等因素。面对不同环境差异,骨骼关节信息中的特征对手势动作的描述更加准确有效。本发明采用李群来表示手势动作,考虑到了人体动作的非线性性质,用李群来表示手势动作特征更符合运动学。
4)本发明利用流形空间中的李群结构来描述手势特征,能更好地完善传统欧式空间中特征缺失以及动作复杂的问题,更利于手势识别。
5)本发明采用长短时记忆网络来对手势数据进行分类,LSTM是循环神经网络的一个优秀变种模型,继承了循环神经网络的记忆单元,同时也解决了梯度反传过程由于逐步缩减而产生的梯度消失问题。并且LSTM非常适合用于处理与时间序列高度相关的问题,而手势动作在时间序列上有很强的关联性,故用LSTM能更真实地学习动作序列之间的关系,从而提高识别准确率。
附图说明
图1为本发明所述方法的整体流程结构图;
图2为本发明所采用的RealSense采集到的手部骨骼示意图;
图3为本发明所采用的骨骼刚体变换示意图;
图4为本发明所采用的李群和李代数的关系图;
图5为本发明所采用的LSTM隐藏层结构示意图;
图6为本发明所采用的LSTM网络结构图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1至图6,一种基于李群(Lie Group)和长短时记忆网络(LSTM)的手势识别方法,主要包括以下步骤:
1)获取动态手势骨骼视频,并逐帧提取手部骨骼图像。获取动态手势骨骼视频的装置为英特尔深度摄像头RealSense。
2)对手部骨骼图像进行预处理,主要步骤为:
2.1)对不同动态手势视频提取的手部骨骼图像数量进行统一,确保不同动态手势视频的手部骨骼图像数量一致。
2.2)对手部骨骼图像归一化,确保所有手部骨骼图像中手部骨骼尺寸一致。
3)提取手部骨骼图像的骨骼关节点数据,并打上分类标签。手势根据动作分类,主要包括左挥(整个手部向左挥动)、右挥(整个手部向右挥动)、张开(五指自然张开)、缩小(握拳)、放大(拇指与食指向外伸展)等。
利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系,并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t),主要步骤如下:
3.1)提取手部骨骼图像的手部骨骼数据集S=(V,E)。其中V={v1,v2,…vN}为手部关节点数据集,N为关节点数,E={e1,e2,…eM}表示关节点间的刚性骨骼数据集。M为骨骼数。
3.2)提取关节点间的刚性骨骼数据集的相邻骨骼对(en,em),在t时刻对骨骼en进行旋转平移,令骨骼en和骨骼em重合,并对骨骼em进行旋转平移,令骨骼em和骨骼en重合。n初始值为1。
刚体变换过程为一段骨骼先绕旋转轴以一定角度进行旋转,再平移使得其与另一段骨骼重合。,因此,骨骼en和骨骼em的三维刚性变换关系如下:
式中,Rm,n(t)表示骨骼en到骨骼em的旋转矩阵。表示骨骼en到骨骼em的平移向量。SE(3)表示特殊欧氏群;李群与李代数基础三维旋转矩阵构成特殊正交群SO(3),而其变换矩阵构成了特殊欧氏群SE(3)(3维欧氏变换矩阵)。
骨骼em和骨骼en的三维刚性变换关系如下:
式中,Rn,m(t)表示骨骼em到骨骼en的旋转矩阵。表示骨骼en到骨骼em的平移向量。
3.3)令n=n+1,并重复步骤3.2),直至对所有骨骼均进行三维刚体变换,并建立变换后的李群数据集S(t),即:
S(t)=(P1,2(t),P2,1(t),...,PM-1,M(t),PM,M-1(t))∈SE(3)×...×SE(3)。 (3)
式中,M为骨骼数,SE(3)×...×SE(3)表示李群空间曲线。
3.4)利用对数映射将李群数据集S(t)变换为李代数数据s(t),即:
s(t)=[vec(log(P1,2(t))),vec(log(P2,1(t))),...,
vec(log(PM-1,M(t))),vec(log(PM,M-1(t)))]。 (4)
∈SE(3)×...×SE(3)
其中,vec(·)表示向量,log(·)表示对数映射。
李代数对应李群的正切空间,它描述了李群的局部导数。
4)建立LSTM神经网络模型,将李群与LSTM结合提取动态手势的时序特征,即利用李代数数据s(t)训练LSTM神经网络模型。
所述LSTM神经网络模型包括输入层、隐藏和输出层。其中,隐藏层包括输入门、遗忘门和输出门。
数据通过LSTM网络进行前向传播,,隐藏层的遗忘控制单元ft、输入控制单元it、输入元记忆控制单元Ct、输出控制单元Ot和输出元ht分别如下所示:
ft=σ(Wf·[ht-1,xt]+bf)。 (5)
it=σ(Wi·[ht-1,xt]+bi)。 (6)
ot=σ(W0·[ht-1,xt]+bo)。 (9)
ht=ot*tanhCt。 (10)
式中,tanh(·)为双曲正切函数。损失函数σ(·)为sigmoid函数。Wf、Wi、WC、Wo分别表示遗忘门、输入门、记忆控制单元和输出门的权重矩阵。bf、bi、bC、bo分别表示遗忘门、输入门、记忆控制单元和输出门的偏移向量。xt表示t时刻隐藏层的输入,ht表示t时刻隐藏层输出,ht-1表示t-1时刻隐藏层输出。
利用李代数数据s(t)训练LSTM神经网络模型的方法为:将李代数数据s(t)输入到LSTM神经网络模型中,利用反向传播算法自动更新遗忘门的权重矩阵Wf与偏移向量bf、输入门的权重矩阵Wi与偏移向量bi、记忆控制单元的权重矩阵WC与偏移向量bC、输出门的权重矩阵Wo与偏移向量bo。
5)获取待检测手势骨骼图像,并提取待检测手势骨骼图像的李代数数据s'(t)。将李代数数据s'(t)输入到训练后的LSTM神经网络模型中,实现手势识别。
实施例2:
一种验证基于李群(Lie Group)和长短时记忆网络(LSTM)的手势识别方法的实验,主要包括以下步骤:
1)数据获取,利用英特尔深度摄像头RealSense提取手部骨骼关节点信息,获取手势动作信息,并对数据进行预处理;
通过RealSense采集事务手部骨骼包含21个关节点,20段骨骼,如图2所示。采集5种手势动作,包括左挥、右挥、放大、缩小、张开,每种手势动作由10位实验人员各重复20次。
2)数据预处理是将各数据规模进行删减,保证数据大小一致,再对数据进行归一化处理,保证不同样本中骨骼尺寸等的一致。按照下列公式对所有数据归一化到0-1之间:
其中,表示归一化后的数据,xi表示原数据,min(x)表示数据的最小值,max(x)表示数据的最大值。
3)提取李群特征,通过骨骼关节点数据将动态手势中骨骼间的刚体变换的三维几何关系用基于流形的李群结构来表示,即将手势动作用李群流形上的曲线表示,再通过对数映射将李群数据转换为对应的李代数数据;
李群和李代数的关系如图4所示,将表示在李群空间的曲线通过对数映射变换到李代数空间。
4)手势识别,将李群与LSTM结合提取动态手势的时序特征,利用李群特征训练LSTM,用训练好的网络对手势数据进行分类,从而实现手势识别。
5)搭建神经网络,如图6所示,将预处理后的数据放入LSTM网络中训练,并通过训练好后的网络来对手势动作进行识别。其中LSTM网络利用Keras中的函数库搭建,包括三个LSTM层和一个全连接层,三个LSTM层中记忆单元数分别为32、16、10,使用sigmoid函数进行激活。全连接层单元数为5。
Claims (6)
1.一种基于李群和长短时记忆网络的手势识别方法,其特征在于,包括以下步骤:
1)获取动态手势骨骼视频,并逐帧提取手部骨骼图像;
2)对手部骨骼图像进行预处理;
3)提取手部骨骼图像的骨骼关节点数据,并打上分类标签;利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系,并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t);
4)建立LSTM神经网络模型,并利用李代数数据s(t)训练LSTM神经网络模型;
5)获取待检测手势骨骼图像,并提取待检测手势骨骼图像的李代数数据s'(t);将李代数数据s'(t)输入到训练后的LSTM神经网络模型中,实现手势识别;
利用李群特征数据表示动态手势中骨骼间刚体变换的三维几何关系的步骤如下:
3.1)提取手部骨骼图像的手部骨骼数据集S=(V,E);其中V={v1,v2,…vN}为手部关节点数据集,N为关节点数,E={e1,e2,…eM}表示关节点间的刚性骨骼数据集;M为骨骼数;
3.2)提取关节点间的刚性骨骼数据集的相邻骨骼对(en,em),在t时刻对骨骼en进行旋转平移,令骨骼en和骨骼em重合,并对骨骼em进行旋转平移,令骨骼em和骨骼en重合;n初始值为1;
骨骼en和骨骼em的三维刚性变换关系如下:
式中,Rm,n(t)表示骨骼en到骨骼em的旋转矩阵;表示骨骼en到骨骼em的平移向量;SE(A)表示特殊欧氏群;
骨骼em和骨骼en的三维刚性变换关系如下:
式中,Rn,m(t)表示骨骼em到骨骼en的旋转矩阵;表示骨骼en到骨骼em的平移向量;
3.3)令n=n+1,并重复步骤3.2),直至对所有骨骼均进行三维刚体变换,并建立变换后的李群数据集S(t),即:
S(t)=(P1,2(t),P2,1(t),...,PM-1,M(t),PM,M-1(t))∈SE(A)×...×SE(A); (3)
式中,M为骨骼数,SE(A)×...×SE(A)表示李群空间曲线;
3.4)利用对数映射将李群数据集S(t)变换为李代数数据s(t),即:
其中,vec(.)表示向量,log(.)表示对数映射;A为维数。
2.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法,其特征在于,获取动态手势骨骼视频的装置为摄像头。
3.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法,其特征在于,对手部骨骼图像进行预处理的步骤为:
1)对不同动态手势视频提取的手部骨骼图像数量进行统一,确保不同动态手势视频的手部骨骼图像数量一致;
2)对手部骨骼图像归一化,确保所有手部骨骼图像中手部骨骼尺寸一致。
4.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法,其特征在于,A=3。
5.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法,其特征在于,所述LSTM神经网络模型包括输入层、隐藏和输出层;其中,隐藏层包括输入门、遗忘门和输出门;
隐藏层的遗忘控制单元ft、输入控制单元it、输入元记忆控制单元Ct、输出控制单元Ot和输出元ht分别如下所示:
ft=σ(Wf·[ht-1,xt]+bf); (5)
it=σ(Wi·[ht-1,xt]+bi); (6)
ot=σ(W0·[ht-1,xt]+bo); (9)
ht=ot*tanhCt; (10)
式中,tanh(.)为双曲正切函数;损失函数σ(·)为sigmoid函数;Wf、Wi、WC、Wo分别表示遗忘门、输入门、记忆控制单元和输出门的权重矩阵;bf、bi、bC、bo分别表示遗忘门、输入门、记忆控制单元和输出门的偏移向量;xt表示t时刻隐藏层的输入,ht表示t时刻隐藏层输出,ht-1表示t-1时刻隐藏层输出。
6.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法,其特征在于,利用李代数数据s(t)训练LSTM神经网络模型的方法为:将李代数数据s(t)输入到LSTM神经网络模型中,利用反向传播算法更新遗忘门的权重矩阵Wf与偏移向量bf、输入门的权重矩阵Wi与偏移向量bi、记忆控制单元的权重矩阵WC与偏移向量bC、输出门的权重矩阵Wo与偏移向量bo。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471688.7A CN111709323B (zh) | 2020-05-29 | 2020-05-29 | 一种基于李群和长短时记忆网络的手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471688.7A CN111709323B (zh) | 2020-05-29 | 2020-05-29 | 一种基于李群和长短时记忆网络的手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709323A CN111709323A (zh) | 2020-09-25 |
CN111709323B true CN111709323B (zh) | 2024-02-02 |
Family
ID=72538806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010471688.7A Active CN111709323B (zh) | 2020-05-29 | 2020-05-29 | 一种基于李群和长短时记忆网络的手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709323B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507940B (zh) * | 2020-12-17 | 2023-08-25 | 华南理工大学 | 一种基于差分指导表示学习网络的骨骼动作识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229920A (zh) * | 2017-06-08 | 2017-10-03 | 重庆大学 | 基于整合深度典型时间规整及相关修正的行为识别方法 |
CN109614899A (zh) * | 2018-11-29 | 2019-04-12 | 重庆邮电大学 | 一种基于李群特征和卷积神经网络的人体动作识别方法 |
CN109979161A (zh) * | 2019-03-08 | 2019-07-05 | 河海大学常州校区 | 一种基于卷积循环神经网络的人体跌倒检测方法 |
CN110197195A (zh) * | 2019-04-15 | 2019-09-03 | 深圳大学 | 一种新型面向行为识别的深层网络系统及方法 |
CN110321361A (zh) * | 2019-06-15 | 2019-10-11 | 河南大学 | 基于改进的lstm神经网络模型的试题推荐判定方法 |
CN115046545A (zh) * | 2022-03-29 | 2022-09-13 | 哈尔滨工程大学 | 一种深度网络与滤波结合的定位方法 |
-
2020
- 2020-05-29 CN CN202010471688.7A patent/CN111709323B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229920A (zh) * | 2017-06-08 | 2017-10-03 | 重庆大学 | 基于整合深度典型时间规整及相关修正的行为识别方法 |
CN109614899A (zh) * | 2018-11-29 | 2019-04-12 | 重庆邮电大学 | 一种基于李群特征和卷积神经网络的人体动作识别方法 |
CN109979161A (zh) * | 2019-03-08 | 2019-07-05 | 河海大学常州校区 | 一种基于卷积循环神经网络的人体跌倒检测方法 |
CN110197195A (zh) * | 2019-04-15 | 2019-09-03 | 深圳大学 | 一种新型面向行为识别的深层网络系统及方法 |
CN110321361A (zh) * | 2019-06-15 | 2019-10-11 | 河南大学 | 基于改进的lstm神经网络模型的试题推荐判定方法 |
CN115046545A (zh) * | 2022-03-29 | 2022-09-13 | 哈尔滨工程大学 | 一种深度网络与滤波结合的定位方法 |
Non-Patent Citations (5)
Title |
---|
Action Recognition from 3D Skeleton Sequences using Deep Networks on Lie Group Features;Rhif, M等;2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR);第3427-3432页 * |
Action Recognition Scheme Based on Skeleton Representation With DS-LSTM Network;Xinghao jiang等;IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY;第30卷(第7期);第2129-2140页 * |
RGB-D行为识别研究进展及展望;胡建芳;王熊辉;郑伟诗;赖剑煌;;自动化学报(第05期);第3-14页 * |
Skeleton-based Action Recognition with Lie Group and Deep Neural Networks;Li, YS等;2019 IEEE 4TH INTERNATIONAL CONFERENCE ON SIGNAL AND IMAGE PROCESSING (ICSIP 2019);第26-30页 * |
Towards Natural and Accurate Future Motion Prediction of Humans and Animals;Liu, ZG等;2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019);第9996-10004页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111709323A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Munib et al. | American sign language (ASL) recognition based on Hough transform and neural networks | |
Ibraheem et al. | Survey on various gesture recognition technologies and techniques | |
Sahoo et al. | Sign language recognition: State of the art | |
WO2020182121A1 (zh) | 表情识别方法及相关装置 | |
CN109086706B (zh) | 应用于人机协作中的基于分割人体模型的动作识别方法 | |
Elforaici et al. | Posture recognition using an RGB-D camera: exploring 3D body modeling and deep learning approaches | |
Houshmand et al. | Facial expression recognition under partial occlusion from virtual reality headsets based on transfer learning | |
Verma et al. | Gesture recognition using kinect for sign language translation | |
CN113496507A (zh) | 一种人体三维模型重建方法 | |
CN111222486B (zh) | 手部姿态识别模型的训练方法、装置、设备及存储介质 | |
CN109086754A (zh) | 一种基于深度学习的人体姿态识别方法 | |
Angona et al. | Automated Bangla sign language translation system for alphabets by means of MobileNet | |
Fang et al. | Dynamic gesture recognition using inertial sensors-based data gloves | |
Hosoe et al. | Recognition of JSL finger spelling using convolutional neural networks | |
Luqman | An efficient two-stream network for isolated sign language recognition using accumulative video motion | |
Al-Obodi et al. | A Saudi Sign Language recognition system based on convolutional neural networks | |
Khatun et al. | A systematic review on the chronological development of bangla sign language recognition systems | |
Adhikari et al. | A Novel Machine Learning-Based Hand Gesture Recognition Using HCI on IoT Assisted Cloud Platform. | |
Rizwan et al. | Automated Facial Expression Recognition and Age Estimation Using Deep Learning. | |
Liu et al. | Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model | |
CN111709323B (zh) | 一种基于李群和长短时记忆网络的手势识别方法 | |
Narayan et al. | SBI-DHGR: Skeleton-based intelligent dynamic hand gestures recognition | |
Nayakwadi et al. | Natural hand gestures recognition system for intelligent hci: A survey | |
Dubey et al. | Hand Gesture Movement Recognition System Using Convolution Neural Network Algorithm | |
Dawod | Hand Gesture Recognition Based Sign Language Interpretation in Real-Time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |