CN111709323B

CN111709323B - 一种基于李群和长短时记忆网络的手势识别方法

Info

Publication number: CN111709323B
Application number: CN202010471688.7A
Authority: CN
Inventors: 刘礼; 李昕; 廖军
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2024-02-02
Anticipated expiration: 2040-05-29
Also published as: CN111709323A

Abstract

本发明提供一种基于李群和长短时记忆网络的手势识别方法，主要步骤为：1)提取手部骨骼图像；2)对手部骨骼图像进行预处理；3)利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系，并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t)；4)训练LSTM神经网络模型；5)获取待检测手势骨骼图像，并提取待检测手势骨骼图像的李代数数据s'(t)；将李代数数据s'(t)输入到训练后的LSTM神经网络模型中，实现手势识别。本发明的识别方法充分利用深度学习的优势，适应人体运动学特征，提高了识别的准确率。

Description

一种基于李群和长短时记忆网络的手势识别方法

技术领域

本发明涉及计算机模式识别和人机交互领域，具体为一种基于李群和长短时记忆网络的手势识别方法。

背景技术

随着科技的高速发展，越来越多的智能设备进入社会生活中，人们希望这些设备能更方便操控，并像人类一样对用户指令做出正确的反应，从而实现真正的智能，故更自然的人机交互方式成为目前的迫切需求。

近年，由于计算机视觉、虚拟现实以及智能穿戴设备等技术发展火热，与之密切相关的手势识别技术的研究也逐渐变得热门。手势识别是通过相关算法对人类手势进行识别分类的一个议题，通过识别出的手势类别让用户通过简单的手势动作来控制设备或与设备交互。目前手势识别的方法主要分为两大类，即基于智能穿戴设备和基于计算机视觉两个方面。在智能穿戴设备方面，主要采用包含多种传感器的智能手套、智能手环等设备来进行数据采集；而在计算机视觉方面，主要采用各种摄像头来采集数据。最后利用深度学习等方法来对数据进行识别分类。在基于计算机视觉的识别方法中，由于人体肤色差异以及识别环境的影响，使得识别有很大的局限性。

发明内容

本发明的目的是提供一种基于李群和长短时记忆网络的手势识别方法，主要包括以下步骤：

1)获取动态手势骨骼视频，并逐帧提取手部骨骼图像。获取动态手势骨骼视频的装置为摄像头。

2)对手部骨骼图像进行预处理，主要步骤为：

2.1)对不同动态手势视频提取的手部骨骼图像数量进行统一，确保不同动态手势视频的手部骨骼图像数量一致。

2.2)对手部骨骼图像归一化，确保所有手部骨骼图像中手部骨骼尺寸一致。

3)提取手部骨骼图像的骨骼关节点数据，，并打上分类标签。利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系，并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t)，主要步骤如下：

3.1)提取手部骨骼图像的手部骨骼数据集S＝(V，E)。其中V＝{v₁，v₂，…v_N}为手部关节点数据集，N为关节点数，E＝{e₁，e₂，…e_M}表示关节点间的刚性骨骼数据集。M为骨骼数。

3.2)提取关节点间的刚性骨骼数据集的相邻骨骼对(e_n，e_m)，在t时刻对骨骼e_n进行旋转平移，令骨骼e_n和骨骼e_m重合，并对骨骼e_m进行旋转平移，令骨骼e_m和骨骼e_n重合。n初始值为1。

骨骼e_n和骨骼e_m的三维刚性变换关系如下：

式中，R_m,n(t)表示骨骼e_n到骨骼e_m的旋转矩阵。表示骨骼e_n到骨骼e_m的平移向量。

骨骼e_m和骨骼e_n的三维刚性变换关系如下：

式中，R_n,m(t)表示骨骼e_m到骨骼e_n的旋转矩阵。表示骨骼e_n到骨骼e_m的平移向量。

3.3)令n＝n+1，并重复步骤3.2)，直至对所有骨骼均进行三维刚体变换，并建立变换后的李群数据集S(t)，即：

S(t)＝(P_1,2(t),P_2,1(t),...,P_M-1,M(t),P_M,M-1(t))∈SE(3)×...×SE(3)。 (3)

式中，M为骨骼数，SE(3)×...×SE(3)表示李群空间曲线。

3.4)利用对数映射将李群数据集S(t)变换为李代数数据s(t)，即：

s(t)＝[vec(log(P_1,2(t))),vec(log(P_2,1(t))),...,

vec(log(P_M-1,M(t))),vec(log(P_M,M-1(t)))]。 (4)

∈SE(3)×...×SE(3)

其中，vec(·)表示向量，log(·)表示对数映射。

4)建立LSTM神经网络模型，并利用李代数数据s(t)训练LSTM神经网络模型。

所述LSTM神经网络模型包括输入层、隐藏和输出层。其中，隐藏层包括输入门、遗忘门和输出门。

隐藏层的遗忘控制单元f_t、输入控制单元i_t、输入元记忆控制单元C_t、输出控制单元O_t和输出元h_t分别如下所示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)。 (5)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)。 (6)

o_t＝σ(W₀·[h_t-1,x_t]+b_o)。 (9)

h_t＝o_t*tanhC_t。 (10)

式中，tanh(·)为双曲正切函数。损失函数σ(·)为sigmoid函数。W_f、W_i、W_C、W_o分别表示遗忘门、输入门、记忆控制单元和输出门的权重矩阵。b_f、b_i、b_C、b_o分别表示遗忘门、输入门、记忆控制单元和输出门的偏移向量。x_t表示t时刻隐藏层的输入，h_t表示t时刻隐藏层输出，h_t-1表示t-1时刻隐藏层输出。

利用李代数数据s(t)训练LSTM神经网络模型的方法为：将李代数数据s(t)输入到LSTM神经网络模型中，利用反向传播算法更新遗忘门的权重矩阵W_f与偏移向量b_f、输入门的权重矩阵W_i与偏移向量b_i、记忆控制单元的权重矩阵W_C与偏移向量b_C、输出门的权重矩阵W_o与偏移向量b_o。

5)获取待检测手势骨骼图像，并提取待检测手势骨骼图像的李代数数据s'(t)。将李代数数据s'(t)输入到训练后的LSTM神经网络模型中，实现手势识别。

随着深度摄像头行业的发展，如Kinect、RealSense、Leap Motion等深度摄像头的出现，在很大程度上改变了手势数据的提取方式。深度摄像头除能提取彩色图像外，还能提取深度图像以及人体骨骼数据，且深度信息能有效克服光照等环境因素干扰，故深度摄像头能更高效便捷地采集手势动作信息。此外，近年来基于骨骼信息的手势识别迅速发展，根据人体手部动作的流形特点提取出骨骼间的几何关系，能更好地对手势的运动特征进行描述。同时，由于深度学习中各神经网络的发展，其在图像识别等领域体现了巨大优势，包括降低识别复杂度、增强识别精度等。

值得说明的是，本发明通过英特尔深度摄像头RealSense获取手部骨骼关节点坐标信息，提取李群特征，将动态手势中骨骼间的刚体变换关系用基于流形的李群结构来表示，再通过对数映射将李群几何数据转换为方便计算的李代数数据；手势识别，将李群与LSTM结合提取动态手势的时序特征，利用李群特征训练LSTM，用训练好的网络对手势数据进行分类，从而实现手势识别。

本发明的技术效果是毋庸置疑的，本发明具有以下效果：

1)本发明参考人体运动特征，采用基于流形的李群结构表示手势动作的空间特征，再采用循环神经网络的变体LSTM来学习手势动作的时序特征，得到了优异的手势识别效果。本发明的识别方法充分利用深度学习的优势，适应人体运动学特征，提高了识别的准确率。

2)本发明能在一定程度上克服传统技术中环境因素的干扰，且借助基于流形的李群特征来克服手势动作的空间复杂性和欧式空间中几何关系的不足；同时，利用循环神经网络的变体LSTM来处理长序列数据，解决了长序列数据训练过程中的梯度消失和梯度爆炸问题。

3)本发明利用手部骨骼数据对手势动作进行描述，克服了手工提取特征的缺陷。通过RealSense深度摄像头提取手部关节点信息，在一定程度上克服了外界环境因素的干扰，如光照变化、体型差异、肤色差异等因素。面对不同环境差异，骨骼关节信息中的特征对手势动作的描述更加准确有效。本发明采用李群来表示手势动作，考虑到了人体动作的非线性性质，用李群来表示手势动作特征更符合运动学。

4)本发明利用流形空间中的李群结构来描述手势特征，能更好地完善传统欧式空间中特征缺失以及动作复杂的问题，更利于手势识别。

5)本发明采用长短时记忆网络来对手势数据进行分类，LSTM是循环神经网络的一个优秀变种模型，继承了循环神经网络的记忆单元，同时也解决了梯度反传过程由于逐步缩减而产生的梯度消失问题。并且LSTM非常适合用于处理与时间序列高度相关的问题，而手势动作在时间序列上有很强的关联性，故用LSTM能更真实地学习动作序列之间的关系，从而提高识别准确率。

附图说明

图1为本发明所述方法的整体流程结构图；

图2为本发明所采用的RealSense采集到的手部骨骼示意图；

图3为本发明所采用的骨骼刚体变换示意图；

图4为本发明所采用的李群和李代数的关系图；

图5为本发明所采用的LSTM隐藏层结构示意图；

图6为本发明所采用的LSTM网络结构图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图6，一种基于李群(Lie Group)和长短时记忆网络(LSTM)的手势识别方法，主要包括以下步骤：

1)获取动态手势骨骼视频，并逐帧提取手部骨骼图像。获取动态手势骨骼视频的装置为英特尔深度摄像头RealSense。

2)对手部骨骼图像进行预处理，主要步骤为：

3)提取手部骨骼图像的骨骼关节点数据，并打上分类标签。手势根据动作分类，主要包括左挥(整个手部向左挥动)、右挥(整个手部向右挥动)、张开(五指自然张开)、缩小(握拳)、放大(拇指与食指向外伸展)等。

利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系，并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t)，主要步骤如下：

刚体变换过程为一段骨骼先绕旋转轴以一定角度进行旋转，再平移使得其与另一段骨骼重合。，因此，骨骼e_n和骨骼e_m的三维刚性变换关系如下：

式中，R_m,n(t)表示骨骼e_n到骨骼e_m的旋转矩阵。表示骨骼e_n到骨骼e_m的平移向量。SE(3)表示特殊欧氏群；李群与李代数基础三维旋转矩阵构成特殊正交群SO(3)，而其变换矩阵构成了特殊欧氏群SE(3)(3维欧氏变换矩阵)。

骨骼e_m和骨骼e_n的三维刚性变换关系如下：

S(t)＝(P_1,2(t),P_2,1(t),...,P_M-1,M(t),P_M,M-1(t))∈SE(3)×...×SE(3)。 (3)

式中，M为骨骼数，SE(3)×...×SE(3)表示李群空间曲线。

s(t)＝[vec(log(P_1,2(t))),vec(log(P_2,1(t))),...,

vec(log(P_M-1,M(t))),vec(log(P_M,M-1(t)))]。 (4)

∈SE(3)×...×SE(3)

其中，vec(·)表示向量，log(·)表示对数映射。

李代数对应李群的正切空间，它描述了李群的局部导数。

4)建立LSTM神经网络模型，将李群与LSTM结合提取动态手势的时序特征，即利用李代数数据s(t)训练LSTM神经网络模型。

数据通过LSTM网络进行前向传播，，隐藏层的遗忘控制单元f_t、输入控制单元i_t、输入元记忆控制单元C_t、输出控制单元O_t和输出元h_t分别如下所示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)。 (5)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)。 (6)

o_t＝σ(W₀·[h_t-1,x_t]+b_o)。 (9)

h_t＝o_t*tanhC_t。 (10)

利用李代数数据s(t)训练LSTM神经网络模型的方法为：将李代数数据s(t)输入到LSTM神经网络模型中，利用反向传播算法自动更新遗忘门的权重矩阵W_f与偏移向量b_f、输入门的权重矩阵W_i与偏移向量b_i、记忆控制单元的权重矩阵W_C与偏移向量b_C、输出门的权重矩阵W_o与偏移向量b_o。

实施例2：

一种验证基于李群(Lie Group)和长短时记忆网络(LSTM)的手势识别方法的实验，主要包括以下步骤：

1)数据获取，利用英特尔深度摄像头RealSense提取手部骨骼关节点信息，获取手势动作信息，并对数据进行预处理；

通过RealSense采集事务手部骨骼包含21个关节点，20段骨骼，如图2所示。采集5种手势动作，包括左挥、右挥、放大、缩小、张开，每种手势动作由10位实验人员各重复20次。

2)数据预处理是将各数据规模进行删减，保证数据大小一致，再对数据进行归一化处理，保证不同样本中骨骼尺寸等的一致。按照下列公式对所有数据归一化到0-1之间：

其中，表示归一化后的数据，x_i表示原数据，min(x)表示数据的最小值，max(x)表示数据的最大值。

3)提取李群特征，通过骨骼关节点数据将动态手势中骨骼间的刚体变换的三维几何关系用基于流形的李群结构来表示，即将手势动作用李群流形上的曲线表示，再通过对数映射将李群数据转换为对应的李代数数据；

李群和李代数的关系如图4所示，将表示在李群空间的曲线通过对数映射变换到李代数空间。

4)手势识别，将李群与LSTM结合提取动态手势的时序特征，利用李群特征训练LSTM，用训练好的网络对手势数据进行分类，从而实现手势识别。

5)搭建神经网络，如图6所示，将预处理后的数据放入LSTM网络中训练，并通过训练好后的网络来对手势动作进行识别。其中LSTM网络利用Keras中的函数库搭建，包括三个LSTM层和一个全连接层，三个LSTM层中记忆单元数分别为32、16、10，使用sigmoid函数进行激活。全连接层单元数为5。

Claims

1.一种基于李群和长短时记忆网络的手势识别方法，其特征在于，包括以下步骤：

1)获取动态手势骨骼视频，并逐帧提取手部骨骼图像；

2)对手部骨骼图像进行预处理；

3)提取手部骨骼图像的骨骼关节点数据，并打上分类标签；利用李群数据集S(t)表示动态手势中骨骼间刚体变换的三维几何关系，并通过对数映射将李群数据集S(t)转换为对应的李代数数据s(t)；

4)建立LSTM神经网络模型，并利用李代数数据s(t)训练LSTM神经网络模型；

5)获取待检测手势骨骼图像，并提取待检测手势骨骼图像的李代数数据s'(t)；将李代数数据s'(t)输入到训练后的LSTM神经网络模型中，实现手势识别；

利用李群特征数据表示动态手势中骨骼间刚体变换的三维几何关系的步骤如下：

3.1)提取手部骨骼图像的手部骨骼数据集S＝(V，E)；其中V＝{v₁，v₂，…v_N}为手部关节点数据集，N为关节点数，E＝{e₁，e₂，…e_M}表示关节点间的刚性骨骼数据集；M为骨骼数；

3.2)提取关节点间的刚性骨骼数据集的相邻骨骼对(e_n，e_m)，在t时刻对骨骼e_n进行旋转平移，令骨骼e_n和骨骼e_m重合，并对骨骼e_m进行旋转平移，令骨骼e_m和骨骼e_n重合；n初始值为1；

骨骼e_n和骨骼e_m的三维刚性变换关系如下：

式中，R_m,n(t)表示骨骼e_n到骨骼e_m的旋转矩阵；表示骨骼e_n到骨骼e_m的平移向量；SE(A)表示特殊欧氏群；

骨骼e_m和骨骼e_n的三维刚性变换关系如下：

式中，R_n,m(t)表示骨骼e_m到骨骼e_n的旋转矩阵；表示骨骼e_n到骨骼e_m的平移向量；

S(t)＝(P_1,2(t),P_2,1(t),...,P_M-1,M(t),P_M,M-1(t))∈SE(A)×...×SE(A)； (3)

式中，M为骨骼数，SE(A)×...×SE(A)表示李群空间曲线；

其中，vec(.)表示向量，log(.)表示对数映射；A为维数。

2.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法，其特征在于，获取动态手势骨骼视频的装置为摄像头。

3.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法，其特征在于，对手部骨骼图像进行预处理的步骤为：

1)对不同动态手势视频提取的手部骨骼图像数量进行统一，确保不同动态手势视频的手部骨骼图像数量一致；

2)对手部骨骼图像归一化，确保所有手部骨骼图像中手部骨骼尺寸一致。

4.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法，其特征在于，A＝3。

5.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法，其特征在于，所述LSTM神经网络模型包括输入层、隐藏和输出层；其中，隐藏层包括输入门、遗忘门和输出门；

f_t＝σ(W_f·[h_t-1,x_t]+b_f)； (5)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)； (6)

o_t＝σ(W₀·[h_t-1,x_t]+b_o)； (9)

h_t＝o_t*tanhC_t； (10)

式中，tanh(.)为双曲正切函数；损失函数σ(·)为sigmoid函数；W_f、W_i、W_C、W_o分别表示遗忘门、输入门、记忆控制单元和输出门的权重矩阵；b_f、b_i、b_C、b_o分别表示遗忘门、输入门、记忆控制单元和输出门的偏移向量；x_t表示t时刻隐藏层的输入，h_t表示t时刻隐藏层输出，h_t-1表示t-1时刻隐藏层输出。

6.根据权利要求1所述的一种基于李群和长短时记忆网络的手势识别方法，其特征在于，利用李代数数据s(t)训练LSTM神经网络模型的方法为：将李代数数据s(t)输入到LSTM神经网络模型中，利用反向传播算法更新遗忘门的权重矩阵W_f与偏移向量b_f、输入门的权重矩阵W_i与偏移向量b_i、记忆控制单元的权重矩阵W_C与偏移向量b_C、输出门的权重矩阵W_o与偏移向量b_o。