CN112329525A - 一种基于时空图卷积神经网络的手势识别方法和装置 - Google Patents
一种基于时空图卷积神经网络的手势识别方法和装置 Download PDFInfo
- Publication number
- CN112329525A CN112329525A CN202011031929.2A CN202011031929A CN112329525A CN 112329525 A CN112329525 A CN 112329525A CN 202011031929 A CN202011031929 A CN 202011031929A CN 112329525 A CN112329525 A CN 112329525A
- Authority
- CN
- China
- Prior art keywords
- time
- matrix
- convolution
- space
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 19
- 210000002478 hand joint Anatomy 0.000 claims abstract description 39
- 238000011176 pooling Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 106
- 230000002123 temporal effect Effects 0.000 claims description 23
- 238000006073 displacement reaction Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 101150064138 MAP1 gene Proteins 0.000 claims description 3
- 101150077939 mapA gene Proteins 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 abstract description 12
- 230000007246 mechanism Effects 0.000 abstract description 6
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空图卷积神经网络的手势识别方法和装置。所述方法包括:获取人手关节序列;基于人手关节序列建立人手骨架时空图;构建人手骨架时空图上的时间注意力和空间注意力机制;构建时间金字塔池化层,提取多尺度的时间特征;使用人手关节和人手运动两种类型的输入数据设计双分支网络,获取人手关节之间的关联性,可以提取人手关节序列具有强鉴别力的特征,进行特征融合和手势识别。本发明具有精度高和实时性的优点,可满足专业的或者大众化的应用需求。
Description
技术领域
本发明属于计算机视觉、手势识别、人机交互领域,具体涉及到一种基于时空图卷积神经网络的手势识别方法和装置,适用于人体整体或局部(如人体、人手、人脸等)、动物、机器人等对象。
背景技术
手势识别是计算机视觉和人机交互领域的热点问题,在虚拟现实,智能控制和终端设备上具有广泛的应用。手势识别任务主要是从一段手势动作视频中识别出动作者具体在做哪种手势。手势识别分为基于RGB视频的手势识别方法和基于人手姿态的手势识别方法。相比于基于RGB视频的手势识别方法,基于人手姿态的手势识别方法使用人手关节位置作为输入,这类方法能够更好的关注到手部的位置与运动信息,并且容易剔除背景信息的影响,是一种具有较大发展潜力的方法,可得到更准确的手势识别结果,计算效率更高。基于人手姿态的手势识别方法中,如何提取人手姿态序列中的有鉴别力的时间与空间特征是关键难点。基于手部姿态的手势识别方法主要分为以下三个阶段:首先,利用人工标注方法或手部姿态检测方法获取手部的姿态信息;然后,利用传统特征提取方法或深度学习特征提取方法提取手部姿态的特征;最后,将特征输入到分类器中进行手势分类。
基于手部姿态的手势识别方法也分为基于传统机器学习方法和基于深度学习的方法。
基于传统机器学习的方法通常利用Fisher Vector(FV)或者直方图的方法构造出手部姿态的特征,然后利用GMM或者CRF等方法提取出时序特征,最后输入到SVM等分类器中进行手势分类。Smedt等人使用三个向量来表示手部的运动方向信息,旋转信息和手部的形状信息,并利用FV和GMMs方法来编码这些特征,最后输入到SVM进行训练和分类。Zhao等人提出了一种基于骨架的动态手势识别方法。该方法提取了四种手部形状特征和一种手部方向特征,并将其输入线性SVM分类器进行识别。相比于深度学习方法,传统机器学习方法需要手动构造特征,这种特征往往没有深度学习自动提取的特征好,从而最后分类的效果也不如深度学习的方法好。
基于深度学习的方法主要可以分为三种:基于长短时记忆网络(LSTM)架构、基于卷积神经网络(CNN)架构和基于图卷积神经网络(GCN)架构的方法。基于长短时记忆网络(LSTM)架构的识别方法通常将人手姿态信息输入到LSTM网络中直接进行分类。这种方法较为简单,但是准确率不高。基于CNN架构的方法将人体姿态通过一定的编码方式编码成图片或者矩阵的形式,利用现有的CNN网络架构进行特征提取并进行识别。基于GCN的方法首先将人体姿态建立时空图,然后利用图卷积神经网络提取时空特征。相比于基于CNN架构的方法,这种方法可以减小参数量,是目前手势识别和动作识别的主流方法。基于图卷积神经网络(GCN)架构的方法是最近兴起的方法,通常将人手姿态信息输入到一个使用固定图的图卷积神经网络中进行分类,分类准确性依然不高。
发明内容
为了解决上述问题,本发明提供了一种基于时空图卷积神经网络的手势识别方法和装置。本发明不仅关注手势识别中的时间信息,还关注空间上下文信息(空间上下文信息在手势识别中是十分关键的),而且对不同时刻、不同关节对于手势识别效果的重要性进行区分。因此本发明基于人手关节序列建立人手骨架时空图,设计时间注意力和空间注意力机制,时间注意力机制刻画人手骨架序列在时间维度上的关联性,空间注意力机制建立每个时间的动态图结构,获取人手关节之间的关联性,通过具有时间注意力和空间注意力机制的时空图卷积神经网络可以提取人手关节序列中具有强鉴别力的时间空间特征。
本发明提供一种基于时空图卷积神经网络的手势识别方法,所述方法包括以下步骤:获取人手关节序列;基于人手关节序列建立人手骨架时空图;构建人手骨架时空图上的时间注意力和空间注意力机制;构建时间金字塔池化层;使用以人手关节和人手运动两种类型的输入数据的双分支网络,进行特征融合和手势识别。
本发明提供一种基于时空图卷积神经网络的手势识别装置,所述装置包括:获取人手关节序列模块,用于确定手部关节点坐标;基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块,用于获取手部姿态序列中有强鉴别力的空间时间特征;时间金字塔池化模块,用于整合不同时间长度和不同速度的手部姿态序列;以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。
本发明的技术方案为:
一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:
1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,…T,j=1,2,…,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,…T,j=1,2,…,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;
3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;
4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。
进一步的,空间图注意力网络的公式为其中,和分别是第l层空间图注意力网络的输入特征和输出特征,σ(·)表示ReLU激活函数,是大小为的权重矩阵,和分别代表输入通道数和输出通道数, 是利用训练数据对空间图注意力网络训练得到的矩阵,是空间注意力矩阵。
进一步的,得到空间注意力矩阵的方法为:将大小为的特征输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,并将一卷积结果变换成大小为B×N×CsT的矩阵、将另一卷积结果转换成大小为B×CsT×N的矩阵,B表示关节点序列的个数,Cin表示输入的通道数,Cs是“1*1”卷积层的输出通道数;然后将变换后的两矩阵相乘得到大小为B×N×N的矩阵并对其进行softmax操作,得到空间注意力矩阵
进一步的,时间图注意力网络的公式为其中,和分别是第l层时间图注意力网络的输入特征和输出特征,是大小为的权重矩阵,和分别代表输入通道数和输出通道数,其中,是利用训练数据对时间图注意力网络训练得到的矩阵,是时间注意力矩阵。
进一步的,得到时间注意力矩阵的方法为:将大小为的特征输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,将一卷积结果转换成大小为B×T×CtN的矩阵、将另一卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
进一步的,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征F(l)分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵然后根据计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为的特征a,将特征F(l)进行卷积计算得到大小为的特征b,然后将特征a、特征b相加后进行激活输出。
一种基于时空图卷积神经网络的手势识别装置,其特征在于,包括:
手部姿态获取模块,用于从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,…T,j=1,2,…,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,…T,j=1,2,…,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
时间注意力和空间注意力模块,用于基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;然后该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;
时间金字塔池化模块,用于对包含时空信息的特征进行计算,得到多尺度时空特征;
手势识别模块,用于根据该多尺度时空特征进行手势识别。
本发明的优点和有益效果是:
本发明主要解决的问题是如何同时提取人手姿态序列中的时间信息与空间信息。本发明提出了一种基于时空图卷积神经网络的手势识别方法。基于时空图卷积神经网络,设计了时间注意力和空间注意力模块,本发明可以提取人手姿态序列中具有强鉴别力的时间空间特征,提高手势识别精度。本发明使用时间金字塔池化层来提取手势的多尺度时间特征。本发明还以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别网络,通过融合人手关节序列和人手运动两种类型数据的时空特征后,可以进一步提高手势识别精度。经过实际使用验证,本发明具有精度高和实时性的优点,可满足专业的或者大众化的应用需求。
附图说明
图1是本发明的整体架构图。
图2是本发明的空间图注意力层的示意图。
图3是本发明的时间图注意力层的示意图。
图4是本发明的在时间维度上有降维功能的时间图注意力层的示意图。
图5是本发明的时间金字塔池化层的示意图。
图6是单个输入分支的手势识别网络架构图。
图7是人手骨架时空图。
具体实施方式
图1概述了本发明的方法。本发明运用姿态流和位移流作为基于骨架的手势识别中的双流。本发明使用每个帧中的原始关节坐标(即特征集F)作为姿态流的输入,使用不同帧之间的关节偏移量作为位移流的输入。在每个流中,首先基于人手姿态序列初始化人手骨架时空图,然后利用时空图注意力网络(STA-GCN)提取时空特征。为了更好的提取多尺度时间特征,我们使用时间金字塔池化层(TPP)。最后将该特征输入到全连接层以及用于手势动作预测的softmax层。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
步骤1:初始化人手骨架时空图
给定一个具有T帧的人手关节序列,每帧都标注有N个手部关节的三维坐标(如图7中人手,即人手解剖学意义下的关节)。用点集V定义一个人手骨架时空图的顶点,V={vi,j|i=1,2,…T,j=1,2,…,N},其中vi,j表示第i帧的第j个关节点。特征集F={fi,j|i=1,2,…T,j=1,2,…,N},其中fi,j表示节点vi,j的特征,即节点vi,j的三维坐标。人手骨架时空图由空间图和时间图构成。
空间图只在同一帧的不同节点之间具有连接。当手部骨架图的第j1个关节点和第j2个关节点有连接或j1=j2时,骨架图中的节点和节点之间才有连接。因为空间图的每一帧之间都没有连接,所以空间图可以看成T个独立的图,且每个独立的图都具有相同的拓扑关系,故可以选择其中的一个独立的图表示空间图,令表示空间图的邻接矩阵,大小为N×N,表示归一化的邻接矩阵,其中表示空间图的度矩阵。
时间图只在不同帧的相同节点之间具有连接。假设i1和i2表示帧的编号,当|i1-i2|<K时,即当i1和i2为K近邻帧时(一般而言,K>=1即可,本发明中K=4),骨架图中的节点和节点之间才有连接。因为时间图的每个关节点之间都没有连接,所以时间图可以看成N个独立的图,且每个独立的图都具有相同的拓扑关系,故可以选择其中的一个独立的图表示时间图,令表示时间图的邻接矩阵,大小为T×T,表示归一化的邻接矩阵,其中表示时间图的度矩阵。
步骤2:建立人手骨架时空图上的时间注意力和空间注意力模块。
初始化时空图后,本发明采用多层时空图注意力网络提取时空特征。时空图注意力网络分为空间图注意力网络和时间图注意力网络,空间图注意力网络和时间图注意力网络分别能够从特征F中提取出空间特征和时间特征。
空间图注意力网络如图2所示,网络的输入是手部骨架的序列,网络每次处理B(batch size)个骨架序列,每个骨架序列的长度是T(即包含T帧连续的骨架),每帧骨架都包含N个关节点,每个关节点都有一个C维向量表示(第一层STA-GCN的C是3,即三维坐标,其它层的C都是自己设定的,我们设置第二到第十层的C分别为:64、64、64、64、128、128、128、256、256)。假设第l层空间图注意力网络的输入是一个大小为的特征输出是一个大小为的特征其中,B表示batch size(即关节点序列的个数),表示每个关节点的输入特征维度,表示每个关节点的输出特征维度,N表示关节点数量,T表示关节点序列的长度。第l层空间图注意力网络的公式如下:
其中,σ(·)表示ReLU激活函数,是大小为的权重矩阵。 其中,是步骤1所述的空间图的归一化矩阵,是一个可学习的矩阵(骨架序列作为训练数据进行训练学习得到),其初始值为随机值,是空间注意力矩阵。的计算方式如图2所示,将输入到两个不同的“1*1”的卷积层,它们分别具有参数和参数(这两个参数是可学习的,初始值为随机值),将这两个卷积层的结果和(大小为B×Cs×N×T)分别变换成大小为B×N×CsT和大小为B×CsT×N的矩阵(Cs是“1*1”卷积层的输出通道数),然后将这两个特征相乘得到大小为B×N×N的矩阵,将这个矩阵进行softmax操作即可得到空间注意力矩阵
时间图注意力网络如图3所示,假设第l层时间图注意力网络的输入是一个大小为的特征输出是一个大小为的特征其中,B表示batch size,表示每个关节点的输入特征维度,表示每个关节点的输出特征维度,N表示关节点数量,T表示关节点序列的长度。时间图注意力网络的公式如下:
其中,是大小为的权重矩阵,和分别代表输入通道数和输出通道数。其中,是步骤1所述的时间图的归一化矩阵,是一个可学习的矩阵,其初始值为随机值,是时间注意力矩阵。的计算方式如图2所示,将输入到两个不同的“1*1”的卷积层,它们分别具有参数和参数(这两个参数是可学习的,初始值为随机值),将这两个卷积层的结果和分别转换成大小为B×T×CtN和大小为B×CtN×T的矩阵(Ct是“1*1”卷积层的输出通道数),然后将这两个特征相乘得到大小为B×T×T的矩阵,将这个矩阵进行softmax操作即可得到时间注意力矩阵
为了减少网络的参数数量,本发明使用了如图4所示的在时间维度上具有降维功能的时间图注意力网络。该网络在时间图注意力的基础上进行改进,加入了一个最大池化层和卷积使该网络在时间维度上具有降维功能。设网络的输入是大小为B×Cin×N×T的特征,图4中批量归一化的输出为大小为B×Cout×N×T的特征。该特征输入最大池化层后输出了大小为的特征,在时间维度上减少了一半,同时残差连接也使用了一个卷积将大小为B×Cin×N×T的输入特征转换成了大小为的特征,使其能够和最大池化层的输出相加。因为该网络具有能将时间维度上的特征数量减少一半的特性,所以它能够提高计算效率。具体而言,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征F(l)分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示batchsize,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵然后根据计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为的特征a,将特征F(l)进行卷积计算得到大小为的特征b,然后将特征a、特征b相加后进行激活输出。
模块3:时间金字塔池化层。
在基于骨架的动态手势识别中,一个关键问题是如何有效提取人手姿态序列的时间维度特征。受到空间金字塔池化层(SPPNet)启发,我们提出了时间金字塔池化层用于基于手部姿态的动态手势识别。图5给出了我们的时间金字塔池化层。将时间金字塔池化层接到最后一层STA-GCN的后面,可以提取人手关节序列的多尺度时间维度特征,从而提高手势识别性能。
模块4:手势识别网络
图6给出了单个输入分支的手势识别网络架构图。首先初始化人手骨架时空图;当收到手势姿态数据后,将手部关节点的三维坐标作为特征集F;然后将该特征集F一次性输入到10层时空图注意力网络(STA-GCN)进行计算,得到包含时空信息的特征;将其输入时间金字塔池化层进行计算,得到多尺度时空特征;然后使用全连接网络和Softmax对多尺度时空特征进行手势识别。
此外,我们还设计了以人手关节序列和人手运动两种类型数据作为输入的双分支网络(如图1),通过融合人手关节序列和人手运动两种类型数据的时空特征后,可以进一步提高手势识别精度。
本发明的方案可以通过软件的方式实现,也可以通过硬件的方式来实现,比如:
在一个实施例中,提供一种基于人手姿态的手势识别装置,其包括:
手部姿态获取模块,该模块使用摄像机(包含并不限于彩色相机,深度相机,Lidar,运动捕捉设备等)、数据手套或其它类型的传感器获取手部姿态序列;
基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块,用于获取手部姿态序列中有强鉴别力的空间时间特征;
时间金字塔池化模块,用于提取人手多尺度时间特征;
以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。
另外,该装置还可包括:
数据预处理模块,用于对输入的人手姿态序列数据进行预处理,通过对输入数据的归一化和数据增强处理,使得手势分类更加精确;
网络构建与训练模块,负责构建和训练的手势识别网络。
在另一个实施例中,提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
在另一个实施例中,提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的步骤。
以上以人手为例对本发明做了说明,容易理解的是,本发明也适用于人体整体或局部(如人手、人脸)、动物、机器人等对象。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:
1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,...T,j=1,2,...,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,...T,j=1,2,...,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;
3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;
4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。
6.根据权利要求4所述的方法,其特征在于,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征F(l)分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵然后根据计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为的特征a,将特征F(l)进行卷积计算得到大小为的特征b,然后将特征a、特征b相加后进行激活输出。
7.一种基于时空图卷积神经网络的手势识别装置,其特征在于,包括:
手部姿态获取模块,用于从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,...T,j=1,2,...,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,...T,j=1,2,...,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
时间注意力和空间注意力模块,用于基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令表示空间图的邻接矩阵,表示归一化的邻接矩阵,表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令表示时间图的邻接矩阵,表示归一化的邻接矩阵,表示时间图的度矩阵;然后该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;
时间金字塔池化模块,用于对包含时空信息的特征进行计算,得到多尺度时空特征;
手势识别模块,用于根据该多尺度时空特征进行手势识别。
10.根据权利要求9所述的手势识别装置,其特征在于,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵然后根据计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为的特征a,将特征F(l)进行卷积计算得到大小为 的特征b,然后将特征a、特征b相加后进行激活输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011031929.2A CN112329525A (zh) | 2020-09-27 | 2020-09-27 | 一种基于时空图卷积神经网络的手势识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011031929.2A CN112329525A (zh) | 2020-09-27 | 2020-09-27 | 一种基于时空图卷积神经网络的手势识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329525A true CN112329525A (zh) | 2021-02-05 |
Family
ID=74303392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011031929.2A Pending CN112329525A (zh) | 2020-09-27 | 2020-09-27 | 一种基于时空图卷积神经网络的手势识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329525A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818942A (zh) * | 2021-03-05 | 2021-05-18 | 清华大学 | 一种车辆行驶过程中行人动作识别方法和系统 |
CN112990116A (zh) * | 2021-04-21 | 2021-06-18 | 四川翼飞视科技有限公司 | 基于多注意力机制融合的行为识别装置、方法和存储介质 |
CN113052030A (zh) * | 2021-03-11 | 2021-06-29 | 北京工业大学 | 一种基于单张rgb图像的双流多尺度手部姿态估计方法 |
CN113229828A (zh) * | 2021-04-26 | 2021-08-10 | 山东师范大学 | 一种运动想象脑电信号分类方法及系统 |
CN113378641A (zh) * | 2021-05-12 | 2021-09-10 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN113537164A (zh) * | 2021-09-15 | 2021-10-22 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN113627401A (zh) * | 2021-10-12 | 2021-11-09 | 四川大学 | 融合双注意力机制的特征金字塔网络的肌电手势识别方法 |
CN114895275A (zh) * | 2022-05-20 | 2022-08-12 | 中国人民解放军国防科技大学 | 基于高效多维注意力神经网络的雷达微动手势识别方法 |
WO2022227768A1 (zh) * | 2021-04-28 | 2022-11-03 | 北京百度网讯科技有限公司 | 动态手势识别方法、装置、设备以及存储介质 |
CN117994820A (zh) * | 2024-04-07 | 2024-05-07 | 福建师范大学 | 基于时频数据融合的分层图卷积手势识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390305A (zh) * | 2019-07-25 | 2019-10-29 | 广东工业大学 | 基于图卷积神经网络的手势识别的方法及装置 |
-
2020
- 2020-09-27 CN CN202011031929.2A patent/CN112329525A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390305A (zh) * | 2019-07-25 | 2019-10-29 | 广东工业大学 | 基于图卷积神经网络的手势识别的方法及装置 |
Non-Patent Citations (1)
Title |
---|
WEI ZHANG等: "STA-GCN: two-stream graph convolutional network with spatial–temporal attention for hand gesture recognition", 《SPRINGER-VERLAG GMBH GERMANY, PART OF SPRINGER NATURE 2020》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818942A (zh) * | 2021-03-05 | 2021-05-18 | 清华大学 | 一种车辆行驶过程中行人动作识别方法和系统 |
CN113052030A (zh) * | 2021-03-11 | 2021-06-29 | 北京工业大学 | 一种基于单张rgb图像的双流多尺度手部姿态估计方法 |
CN113052030B (zh) * | 2021-03-11 | 2024-09-24 | 北京工业大学 | 一种基于单张rgb图像的双流多尺度手部姿态估计方法 |
CN112990116A (zh) * | 2021-04-21 | 2021-06-18 | 四川翼飞视科技有限公司 | 基于多注意力机制融合的行为识别装置、方法和存储介质 |
CN113229828A (zh) * | 2021-04-26 | 2021-08-10 | 山东师范大学 | 一种运动想象脑电信号分类方法及系统 |
WO2022227768A1 (zh) * | 2021-04-28 | 2022-11-03 | 北京百度网讯科技有限公司 | 动态手势识别方法、装置、设备以及存储介质 |
CN113378641B (zh) * | 2021-05-12 | 2024-04-09 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN113378641A (zh) * | 2021-05-12 | 2021-09-10 | 北京工业大学 | 基于深度神经网络和注意力机制的手势识别方法 |
CN113537164B (zh) * | 2021-09-15 | 2021-12-07 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN113537164A (zh) * | 2021-09-15 | 2021-10-22 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN113627401A (zh) * | 2021-10-12 | 2021-11-09 | 四川大学 | 融合双注意力机制的特征金字塔网络的肌电手势识别方法 |
CN114895275A (zh) * | 2022-05-20 | 2022-08-12 | 中国人民解放军国防科技大学 | 基于高效多维注意力神经网络的雷达微动手势识别方法 |
CN117994820A (zh) * | 2024-04-07 | 2024-05-07 | 福建师范大学 | 基于时频数据融合的分层图卷积手势识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
Sun et al. | Deep spatial-temporal feature fusion for facial expression recognition in static images | |
Baradel et al. | Human action recognition: Pose-based attention draws focus to hands | |
Liu et al. | Multi-view hierarchical bidirectional recurrent neural network for depth video sequence based action recognition | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
Yang et al. | PGCN-TCA: Pseudo graph convolutional network with temporal and channel-wise attention for skeleton-based action recognition | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
Abdul et al. | Intelligent real-time Arabic sign language classification using attention-based inception and BiLSTM | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
CN108363973B (zh) | 一种无约束的3d表情迁移方法 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
Liu et al. | Action recognition based on 3d skeleton and rgb frame fusion | |
Liu et al. | Driver pose estimation using recurrent lightweight network and virtual data augmented transfer learning | |
Jia et al. | Two-stream temporal convolutional networks for skeleton-based human action recognition | |
Fang et al. | Dynamic gesture recognition using inertial sensors-based data gloves | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
CN114241515A (zh) | 一种基于时空上下文特征感知的三维人体姿态估计方法 | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
Afifi et al. | Object depth estimation from a single image using fully convolutional neural network | |
CN114724185A (zh) | 一种轻量型的多人姿态跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210205 |
|
WD01 | Invention patent application deemed withdrawn after publication |