CN112329525A

CN112329525A - 一种基于时空图卷积神经网络的手势识别方法和装置

Info

Publication number: CN112329525A
Application number: CN202011031929.2A
Authority: CN
Inventors: 邓小明; 张维; 程坚; 林泽一; 马翠霞; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-02-05

Abstract

本发明公开了一种基于时空图卷积神经网络的手势识别方法和装置。所述方法包括：获取人手关节序列；基于人手关节序列建立人手骨架时空图；构建人手骨架时空图上的时间注意力和空间注意力机制；构建时间金字塔池化层，提取多尺度的时间特征；使用人手关节和人手运动两种类型的输入数据设计双分支网络，获取人手关节之间的关联性，可以提取人手关节序列具有强鉴别力的特征，进行特征融合和手势识别。本发明具有精度高和实时性的优点，可满足专业的或者大众化的应用需求。

Description

一种基于时空图卷积神经网络的手势识别方法和装置

技术领域

本发明属于计算机视觉、手势识别、人机交互领域，具体涉及到一种基于时空图卷积神经网络的手势识别方法和装置，适用于人体整体或局部(如人体、人手、人脸等)、动物、机器人等对象。

背景技术

手势识别是计算机视觉和人机交互领域的热点问题，在虚拟现实，智能控制和终端设备上具有广泛的应用。手势识别任务主要是从一段手势动作视频中识别出动作者具体在做哪种手势。手势识别分为基于RGB视频的手势识别方法和基于人手姿态的手势识别方法。相比于基于RGB视频的手势识别方法，基于人手姿态的手势识别方法使用人手关节位置作为输入，这类方法能够更好的关注到手部的位置与运动信息，并且容易剔除背景信息的影响，是一种具有较大发展潜力的方法，可得到更准确的手势识别结果，计算效率更高。基于人手姿态的手势识别方法中，如何提取人手姿态序列中的有鉴别力的时间与空间特征是关键难点。基于手部姿态的手势识别方法主要分为以下三个阶段：首先，利用人工标注方法或手部姿态检测方法获取手部的姿态信息；然后，利用传统特征提取方法或深度学习特征提取方法提取手部姿态的特征；最后，将特征输入到分类器中进行手势分类。

基于手部姿态的手势识别方法也分为基于传统机器学习方法和基于深度学习的方法。

基于传统机器学习的方法通常利用Fisher Vector(FV)或者直方图的方法构造出手部姿态的特征，然后利用GMM或者CRF等方法提取出时序特征，最后输入到SVM等分类器中进行手势分类。Smedt等人使用三个向量来表示手部的运动方向信息，旋转信息和手部的形状信息，并利用FV和GMMs方法来编码这些特征，最后输入到SVM进行训练和分类。Zhao等人提出了一种基于骨架的动态手势识别方法。该方法提取了四种手部形状特征和一种手部方向特征，并将其输入线性SVM分类器进行识别。相比于深度学习方法，传统机器学习方法需要手动构造特征，这种特征往往没有深度学习自动提取的特征好，从而最后分类的效果也不如深度学习的方法好。

基于深度学习的方法主要可以分为三种：基于长短时记忆网络(LSTM)架构、基于卷积神经网络(CNN)架构和基于图卷积神经网络(GCN)架构的方法。基于长短时记忆网络(LSTM)架构的识别方法通常将人手姿态信息输入到LSTM网络中直接进行分类。这种方法较为简单，但是准确率不高。基于CNN架构的方法将人体姿态通过一定的编码方式编码成图片或者矩阵的形式，利用现有的CNN网络架构进行特征提取并进行识别。基于GCN的方法首先将人体姿态建立时空图，然后利用图卷积神经网络提取时空特征。相比于基于CNN架构的方法，这种方法可以减小参数量，是目前手势识别和动作识别的主流方法。基于图卷积神经网络(GCN)架构的方法是最近兴起的方法，通常将人手姿态信息输入到一个使用固定图的图卷积神经网络中进行分类，分类准确性依然不高。

发明内容

为了解决上述问题，本发明提供了一种基于时空图卷积神经网络的手势识别方法和装置。本发明不仅关注手势识别中的时间信息，还关注空间上下文信息(空间上下文信息在手势识别中是十分关键的)，而且对不同时刻、不同关节对于手势识别效果的重要性进行区分。因此本发明基于人手关节序列建立人手骨架时空图，设计时间注意力和空间注意力机制，时间注意力机制刻画人手骨架序列在时间维度上的关联性，空间注意力机制建立每个时间的动态图结构，获取人手关节之间的关联性，通过具有时间注意力和空间注意力机制的时空图卷积神经网络可以提取人手关节序列中具有强鉴别力的时间空间特征。

本发明提供一种基于时空图卷积神经网络的手势识别方法，所述方法包括以下步骤：获取人手关节序列；基于人手关节序列建立人手骨架时空图；构建人手骨架时空图上的时间注意力和空间注意力机制；构建时间金字塔池化层；使用以人手关节和人手运动两种类型的输入数据的双分支网络，进行特征融合和手势识别。

本发明提供一种基于时空图卷积神经网络的手势识别装置，所述装置包括：获取人手关节序列模块，用于确定手部关节点坐标；基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块，用于获取手部姿态序列中有强鉴别力的空间时间特征；时间金字塔池化模块，用于整合不同时间长度和不同速度的手部姿态序列；以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。

本发明的技术方案为：

一种基于时空图卷积神经网络的手势识别方法，包括以下步骤：

1)从手势姿态数据中获取姿态流和位移流；其中所述位移流为手势姿态数据中不同帧之间的关节偏移量；获取姿态流的方法为：从手势姿态数据中提取T帧数据作为人手关节序列，对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标，得到点集V和特征集F；点集V＝{v_i,j|i＝1,2,…T,j＝1,2,…,N}，其中v_i,j表示第i帧的第j个关节点；特征集F＝{f_i,j|i＝1,2,…T,j＝1,2,…,N}，其中f_i,j表示节点v_i,j的特征；特征集F为姿态流；

2)基于点集V和特征集F生成人手骨架时空图，该人手骨架时空图包括空间图和时间图；其中，根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系，生成该帧的关节点连接图作为空间图，令

表示空间图的邻接矩阵，

表示归一化的邻接矩阵，

表示空间图的度矩阵；将近邻帧之间同一关节点进行连接所得图作为时间图，令

表示时间图的邻接矩阵，

表示归一化的邻接矩阵，

表示时间图的度矩阵；

3)基于该人手骨架时空图建立时空图注意力网络，包括空间图注意力网络和时间图注意力网络；然后将该特征集F输入该空间图注意力网络，得到姿态流的空间特征，然后将所得空间特征输入该时间图注意力网络，得到包含时空信息的特征并将其输入时间金字塔池化层进行计算，得到多尺度时空特征H1；将所述位移流输入该空间图注意力网络，得到位移流的空间特征，然后将所得空间特征输入该时间图注意力网络，得到包含时空信息的特征并将其输入时间金字塔池化层进行计算，得到多尺度时空特征H2；

4)将得到多尺度时空特征H1、H2分别输入一全连接网络，然后将两全连接网络的输出进行拼接后输入Softmax，进行手势识别预测。

进一步的，空间图注意力网络的公式为

其中，

和

分别是第l层空间图注意力网络的输入特征和输出特征，σ(·)表示ReLU激活函数，

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数，

是利用训练数据对空间图注意力网络训练得到的矩阵，

是空间注意力矩阵。

进一步的，得到空间注意力矩阵

的方法为：将大小为

的特征

输入到两个卷积核大小为“1*1”的卷积层进行卷积计算，并将一卷积结果变换成大小为B×N×C^sT的矩阵、将另一卷积结果转换成大小为B×C^sT×N的矩阵，B表示关节点序列的个数，C_in表示输入的通道数，C^s是“1*1”卷积层的输出通道数；然后将变换后的两矩阵相乘得到大小为B×N×N的矩阵并对其进行softmax操作，得到空间注意力矩阵

进一步的，时间图注意力网络的公式为

其中，

和

分别是第l层时间图注意力网络的输入特征和输出特征，

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数，

其中，

是利用训练数据对时间图注意力网络训练得到的矩阵，

是时间注意力矩阵。

进一步的，得到时间注意力矩阵

的方法为：将大小为

的特征

输入到两个卷积核大小为“1*1”的卷积层进行卷积计算，将一卷积结果转换成大小为B×T×C^tN的矩阵、将另一卷积结果转换成大小为B×C^tN×T的矩阵，C^t是“1*1”卷积层的输出通道数，B表示关节点序列的个数，C_in表示输入的通道数；然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作，得到时间注意力矩阵

进一步的，所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层，大小为B×C_in×N×T的特征F^(l)分别输入第一卷积层、第二卷积层进行卷积计算，将第一卷积层的卷积结果转换成大小为B×T×C^tN的矩阵、将第二卷积层的卷积结果转换成大小为B×C^tN×T的矩阵，C^t是“1*1”卷积层的输出通道数，B表示关节点序列的个数，C_in表示输入的通道数；然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作，得到时间注意力矩阵

然后根据

计算得到A^t，将A^t与特征F^(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层，然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为

的特征a，将特征F^(l)进行卷积计算得到大小为

的特征b，然后将特征a、特征b相加后进行激活输出。

一种基于时空图卷积神经网络的手势识别装置，其特征在于，包括：

手部姿态获取模块，用于从手势姿态数据中获取姿态流和位移流；其中所述位移流为手势姿态数据中不同帧之间的关节偏移量；获取姿态流的方法为：从手势姿态数据中提取T帧数据作为人手关节序列，对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标，得到点集V和特征集F；点集V＝{v_i,j|i＝1,2,…T,j＝1,2,…,N}，其中v_i,j表示第i帧的第j个关节点；特征集F＝{f_i,j|i＝1,2,…T,j＝1,2,…,N}，其中f_i,j表示节点v_i,j的特征；特征集F为姿态流；

时间注意力和空间注意力模块，用于基于点集V和特征集F生成人手骨架时空图，该人手骨架时空图包括空间图和时间图；其中，根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系，生成该帧的关节点连接图作为空间图，令

表示空间图的邻接矩阵，

表示归一化的邻接矩阵，

表示时间图的邻接矩阵，

表示归一化的邻接矩阵，

表示时间图的度矩阵；然后该特征集F输入该空间图注意力网络，得到姿态流的空间特征，然后将所得空间特征输入该时间图注意力网络，得到包含时空信息的特征；将所述位移流输入该空间图注意力网络，得到位移流的空间特征，然后将所得空间特征输入该时间图注意力网络，得到包含时空信息的特征；

时间金字塔池化模块，用于对包含时空信息的特征进行计算，得到多尺度时空特征；

手势识别模块，用于根据该多尺度时空特征进行手势识别。

本发明的优点和有益效果是：

本发明主要解决的问题是如何同时提取人手姿态序列中的时间信息与空间信息。本发明提出了一种基于时空图卷积神经网络的手势识别方法。基于时空图卷积神经网络，设计了时间注意力和空间注意力模块，本发明可以提取人手姿态序列中具有强鉴别力的时间空间特征，提高手势识别精度。本发明使用时间金字塔池化层来提取手势的多尺度时间特征。本发明还以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别网络,通过融合人手关节序列和人手运动两种类型数据的时空特征后，可以进一步提高手势识别精度。经过实际使用验证，本发明具有精度高和实时性的优点，可满足专业的或者大众化的应用需求。

附图说明

图1是本发明的整体架构图。

图2是本发明的空间图注意力层的示意图。

图3是本发明的时间图注意力层的示意图。

图4是本发明的在时间维度上有降维功能的时间图注意力层的示意图。

图5是本发明的时间金字塔池化层的示意图。

图6是单个输入分支的手势识别网络架构图。

图7是人手骨架时空图。

具体实施方式

图1概述了本发明的方法。本发明运用姿态流和位移流作为基于骨架的手势识别中的双流。本发明使用每个帧中的原始关节坐标(即特征集F)作为姿态流的输入，使用不同帧之间的关节偏移量作为位移流的输入。在每个流中，首先基于人手姿态序列初始化人手骨架时空图，然后利用时空图注意力网络(STA-GCN)提取时空特征。为了更好的提取多尺度时间特征，我们使用时间金字塔池化层(TPP)。最后将该特征输入到全连接层以及用于手势动作预测的softmax层。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

步骤1：初始化人手骨架时空图

给定一个具有T帧的人手关节序列，每帧都标注有N个手部关节的三维坐标(如图7中人手，即人手解剖学意义下的关节)。用点集V定义一个人手骨架时空图的顶点，V＝{v_i,j|i＝1,2,…T,j＝1,2,…,N}，其中v_i,j表示第i帧的第j个关节点。特征集F＝{f_i,j|i＝1,2,…T,j＝1,2,…,N}，其中f_i,j表示节点v_i,j的特征，即节点v_i,j的三维坐标。人手骨架时空图由空间图和时间图构成。

空间图只在同一帧的不同节点之间具有连接。当手部骨架图的第j₁个关节点和第j₂个关节点有连接或j₁＝j₂时，骨架图中的节点

和节点

之间才有连接。因为空间图的每一帧之间都没有连接，所以空间图可以看成T个独立的图，且每个独立的图都具有相同的拓扑关系，故可以选择其中的一个独立的图表示空间图，令

表示空间图的邻接矩阵，大小为N×N，

表示归一化的邻接矩阵，其中

表示空间图的度矩阵。

时间图只在不同帧的相同节点之间具有连接。假设i₁和i₂表示帧的编号，当|i₁-i₂|<K时，即当i₁和i₂为K近邻帧时(一般而言，K>＝1即可，本发明中K＝4)，骨架图中的节点

和节点

之间才有连接。因为时间图的每个关节点之间都没有连接，所以时间图可以看成N个独立的图，且每个独立的图都具有相同的拓扑关系，故可以选择其中的一个独立的图表示时间图，令

表示时间图的邻接矩阵，大小为T×T，

表示归一化的邻接矩阵，其中

表示时间图的度矩阵。

步骤2：建立人手骨架时空图上的时间注意力和空间注意力模块。

初始化时空图后，本发明采用多层时空图注意力网络提取时空特征。时空图注意力网络分为空间图注意力网络和时间图注意力网络，空间图注意力网络和时间图注意力网络分别能够从特征F中提取出空间特征和时间特征。

空间图注意力网络如图2所示，网络的输入是手部骨架的序列，网络每次处理B(batch size)个骨架序列，每个骨架序列的长度是T(即包含T帧连续的骨架)，每帧骨架都包含N个关节点，每个关节点都有一个C维向量表示(第一层STA-GCN的C是3，即三维坐标，其它层的C都是自己设定的，我们设置第二到第十层的C分别为：64、64、64、64、128、128、128、256、256)。假设第l层空间图注意力网络的输入是一个大小为

的特征

输出是一个大小为

的特征

其中，B表示batch size(即关节点序列的个数)，

表示每个关节点的输入特征维度，

表示每个关节点的输出特征维度，N表示关节点数量，T表示关节点序列的长度。第l层空间图注意力网络的公式如下：

其中，σ(·)表示ReLU激活函数，

是大小为

的权重矩阵。

其中，

是步骤1所述的空间图的归一化矩阵，

是一个可学习的矩阵(骨架序列作为训练数据进行训练学习得到)，其初始值为随机值，

是空间注意力矩阵。

的计算方式如图2所示，将

输入到两个不同的“1*1”的卷积层，它们分别具有参数

和参数

(这两个参数是可学习的，初始值为随机值)，将这两个卷积层的结果

和

(大小为B×C^s×N×T)分别变换成大小为B×N×C^sT和大小为B×C^sT×N的矩阵(C^s是“1*1”卷积层的输出通道数)，然后将这两个特征相乘得到大小为B×N×N的矩阵，将这个矩阵进行softmax操作即可得到空间注意力矩阵

时间图注意力网络如图3所示，假设第l层时间图注意力网络的输入是一个大小为

的特征

输出是一个大小为

的特征

其中，B表示batch size，

表示每个关节点的输入特征维度，

表示每个关节点的输出特征维度，N表示关节点数量，T表示关节点序列的长度。时间图注意力网络的公式如下：

其中，

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数。

其中，

是步骤1所述的时间图的归一化矩阵，

是一个可学习的矩阵，其初始值为随机值，

是时间注意力矩阵。

的计算方式如图2所示，将

输入到两个不同的“1*1”的卷积层，它们分别具有参数

和参数

和

分别转换成大小为B×T×C^tN和大小为B×C^tN×T的矩阵(C^t是“1*1”卷积层的输出通道数)，然后将这两个特征相乘得到大小为B×T×T的矩阵，将这个矩阵进行softmax操作即可得到时间注意力矩阵

为了减少网络的参数数量，本发明使用了如图4所示的在时间维度上具有降维功能的时间图注意力网络。该网络在时间图注意力的基础上进行改进，加入了一个最大池化层和卷积使该网络在时间维度上具有降维功能。设网络的输入是大小为B×C_in×N×T的特征，图4中批量归一化的输出为大小为B×C_out×N×T的特征。该特征输入最大池化层后输出了大小为

的特征，在时间维度上减少了一半，同时残差连接也使用了一个卷积将大小为B×C_in×N×T的输入特征转换成了大小为

的特征，使其能够和最大池化层的输出相加。因为该网络具有能将时间维度上的特征数量减少一半的特性，所以它能够提高计算效率。具体而言，所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层，大小为B×C_in×N×T的特征F^(l)分别输入第一卷积层、第二卷积层进行卷积计算，将第一卷积层的卷积结果转换成大小为B×T×C^tN的矩阵、将第二卷积层的卷积结果转换成大小为B×C^tN×T的矩阵，C^t是“1*1”卷积层的输出通道数，B表示batchsize，C_in表示输入的通道数；然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作，得到时间注意力矩阵

然后根据

的特征a，将特征F^(l)进行卷积计算得到大小为

的特征b，然后将特征a、特征b相加后进行激活输出。

模块3：时间金字塔池化层。

在基于骨架的动态手势识别中，一个关键问题是如何有效提取人手姿态序列的时间维度特征。受到空间金字塔池化层(SPPNet)启发，我们提出了时间金字塔池化层用于基于手部姿态的动态手势识别。图5给出了我们的时间金字塔池化层。将时间金字塔池化层接到最后一层STA-GCN的后面，可以提取人手关节序列的多尺度时间维度特征，从而提高手势识别性能。

模块4：手势识别网络

图6给出了单个输入分支的手势识别网络架构图。首先初始化人手骨架时空图；当收到手势姿态数据后，将手部关节点的三维坐标作为特征集F；然后将该特征集F一次性输入到10层时空图注意力网络(STA-GCN)进行计算，得到包含时空信息的特征；将其输入时间金字塔池化层进行计算，得到多尺度时空特征；然后使用全连接网络和Softmax对多尺度时空特征进行手势识别。

此外，我们还设计了以人手关节序列和人手运动两种类型数据作为输入的双分支网络(如图1)，通过融合人手关节序列和人手运动两种类型数据的时空特征后，可以进一步提高手势识别精度。

本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现，比如：

在一个实施例中，提供一种基于人手姿态的手势识别装置，其包括：

手部姿态获取模块，该模块使用摄像机(包含并不限于彩色相机，深度相机，Lidar，运动捕捉设备等)、数据手套或其它类型的传感器获取手部姿态序列；

基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块，用于获取手部姿态序列中有强鉴别力的空间时间特征；

时间金字塔池化模块，用于提取人手多尺度时间特征；

以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。

另外，该装置还可包括：

数据预处理模块，用于对输入的人手姿态序列数据进行预处理，通过对输入数据的归一化和数据增强处理，使得手势分类更加精确；

网络构建与训练模块，负责构建和训练的手势识别网络。

在另一个实施例中，提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

在另一个实施例中，提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的步骤。

以上以人手为例对本发明做了说明，容易理解的是，本发明也适用于人体整体或局部(如人手、人脸)、动物、机器人等对象。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于时空图卷积神经网络的手势识别方法，包括以下步骤：

1)从手势姿态数据中获取姿态流和位移流；其中所述位移流为手势姿态数据中不同帧之间的关节偏移量；获取姿态流的方法为：从手势姿态数据中提取T帧数据作为人手关节序列，对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标，得到点集V和特征集F；点集V＝{v_i，j|i＝1，2，...T，j＝1，2，...，N}，其中v_i，j表示第i帧的第j个关节点；特征集F＝{f_i，j|i＝1，2，...T，j＝1，2，...，N}，其中f_i，j表示节点v_i，j的特征；特征集F为姿态流；

表示空间图的邻接矩阵，

表示归一化的邻接矩阵，

表示时间图的邻接矩阵，

表示归一化的邻接矩阵，

表示时间图的度矩阵；

2.根据权利要求1所述的方法，其特征在于，空间图注意力网络的公式为

其中，

和

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数，

是利用训练数据对空间图注意力网络训练得到的矩阵，

是空间注意力矩阵。

3.根据权利要求2所述的方法，其特征在于，得到空间注意力矩阵

的方法为：将大小为

的特征

4.根据权利要求1所述的方法，其特征在于，时间图注意力网络的公式为

其中，

和

分别是第l层时间图注意力网络的输入特征和输出特征，

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数，

其中，

是利用训练数据对时间图注意力网络训练得到的矩阵，

是时间注意力矩阵。

5.根据权利要求4所述的方法，其特征在于，得到时间注意力矩阵

的方法为：将大小为

的特征

6.根据权利要求4所述的方法，其特征在于，所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层，大小为B×C_in×N×T的特征F^(l)分别输入第一卷积层、第二卷积层进行卷积计算，将第一卷积层的卷积结果转换成大小为B×T×C^tN的矩阵、将第二卷积层的卷积结果转换成大小为B×C^tN×T的矩阵，C^t是“1*1”卷积层的输出通道数，B表示关节点序列的个数，C_in表示输入的通道数；然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作，得到时间注意力矩阵

然后根据

的特征a，将特征F^(l)进行卷积计算得到大小为

的特征b，然后将特征a、特征b相加后进行激活输出。

7.一种基于时空图卷积神经网络的手势识别装置，其特征在于，包括：

手部姿态获取模块，用于从手势姿态数据中获取姿态流和位移流；其中所述位移流为手势姿态数据中不同帧之间的关节偏移量；获取姿态流的方法为：从手势姿态数据中提取T帧数据作为人手关节序列，对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标，得到点集V和特征集F；点集V＝{v_i，j|i＝1，2，...T，j＝1，2，...，N}，其中v_i，j表示第i帧的第j个关节点；特征集F＝{f_i，j|i＝1，2，...T，j＝1，2，...，N}，其中f_i，j表示节点v_i，j的特征；特征集F为姿态流；

表示空间图的邻接矩阵，

表示归一化的邻接矩阵，

表示时间图的邻接矩阵，

表示归一化的邻接矩阵，

手势识别模块，用于根据该多尺度时空特征进行手势识别。

8.根据权利要求7所述的手势识别装置，其特征在于，空间图注意力网络的公式为

其中，

和

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数，

是利用训练数据对空间图注意力网络训练得到的矩阵，

是空间注意力矩阵。

9.根据权利要求7所述的手势识别装置，其特征在于，时间图注意力网络的公式为

其中，

和

分别是第l层时间图注意力网络的输入特征和输出特征，

是大小为

的权重矩阵，

和

分别代表输入通道数和输出通道数，

其中，

是利用训练数据对时间图注意力网络训练得到的矩阵，

是时间注意力矩阵。

10.根据权利要求9所述的手势识别装置，其特征在于，所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层，大小为B×C_in×N×T的特征

分别输入第一卷积层、第二卷积层进行卷积计算，将第一卷积层的卷积结果转换成大小为B×T×C^tN的矩阵、将第二卷积层的卷积结果转换成大小为B×C^tN×T的矩阵，C^t是“1*1”卷积层的输出通道数，B表示关节点序列的个数，C_in表示输入的通道数；然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作，得到时间注意力矩阵

然后根据

的特征a，将特征F^(l)进行卷积计算得到大小为

的特征b，然后将特征a、特征b相加后进行激活输出。