CN112329525A - 一种基于时空图卷积神经网络的手势识别方法和装置 - Google Patents

一种基于时空图卷积神经网络的手势识别方法和装置 Download PDF

Info

Publication number
CN112329525A
CN112329525A CN202011031929.2A CN202011031929A CN112329525A CN 112329525 A CN112329525 A CN 112329525A CN 202011031929 A CN202011031929 A CN 202011031929A CN 112329525 A CN112329525 A CN 112329525A
Authority
CN
China
Prior art keywords
time
matrix
convolution
space
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011031929.2A
Other languages
English (en)
Inventor
邓小明
张维
程坚
林泽一
马翠霞
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202011031929.2A priority Critical patent/CN112329525A/zh
Publication of CN112329525A publication Critical patent/CN112329525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空图卷积神经网络的手势识别方法和装置。所述方法包括:获取人手关节序列;基于人手关节序列建立人手骨架时空图;构建人手骨架时空图上的时间注意力和空间注意力机制;构建时间金字塔池化层,提取多尺度的时间特征;使用人手关节和人手运动两种类型的输入数据设计双分支网络,获取人手关节之间的关联性,可以提取人手关节序列具有强鉴别力的特征,进行特征融合和手势识别。本发明具有精度高和实时性的优点,可满足专业的或者大众化的应用需求。

Description

一种基于时空图卷积神经网络的手势识别方法和装置
技术领域
本发明属于计算机视觉、手势识别、人机交互领域,具体涉及到一种基于时空图卷积神经网络的手势识别方法和装置,适用于人体整体或局部(如人体、人手、人脸等)、动物、机器人等对象。
背景技术
手势识别是计算机视觉和人机交互领域的热点问题,在虚拟现实,智能控制和终端设备上具有广泛的应用。手势识别任务主要是从一段手势动作视频中识别出动作者具体在做哪种手势。手势识别分为基于RGB视频的手势识别方法和基于人手姿态的手势识别方法。相比于基于RGB视频的手势识别方法,基于人手姿态的手势识别方法使用人手关节位置作为输入,这类方法能够更好的关注到手部的位置与运动信息,并且容易剔除背景信息的影响,是一种具有较大发展潜力的方法,可得到更准确的手势识别结果,计算效率更高。基于人手姿态的手势识别方法中,如何提取人手姿态序列中的有鉴别力的时间与空间特征是关键难点。基于手部姿态的手势识别方法主要分为以下三个阶段:首先,利用人工标注方法或手部姿态检测方法获取手部的姿态信息;然后,利用传统特征提取方法或深度学习特征提取方法提取手部姿态的特征;最后,将特征输入到分类器中进行手势分类。
基于手部姿态的手势识别方法也分为基于传统机器学习方法和基于深度学习的方法。
基于传统机器学习的方法通常利用Fisher Vector(FV)或者直方图的方法构造出手部姿态的特征,然后利用GMM或者CRF等方法提取出时序特征,最后输入到SVM等分类器中进行手势分类。Smedt等人使用三个向量来表示手部的运动方向信息,旋转信息和手部的形状信息,并利用FV和GMMs方法来编码这些特征,最后输入到SVM进行训练和分类。Zhao等人提出了一种基于骨架的动态手势识别方法。该方法提取了四种手部形状特征和一种手部方向特征,并将其输入线性SVM分类器进行识别。相比于深度学习方法,传统机器学习方法需要手动构造特征,这种特征往往没有深度学习自动提取的特征好,从而最后分类的效果也不如深度学习的方法好。
基于深度学习的方法主要可以分为三种:基于长短时记忆网络(LSTM)架构、基于卷积神经网络(CNN)架构和基于图卷积神经网络(GCN)架构的方法。基于长短时记忆网络(LSTM)架构的识别方法通常将人手姿态信息输入到LSTM网络中直接进行分类。这种方法较为简单,但是准确率不高。基于CNN架构的方法将人体姿态通过一定的编码方式编码成图片或者矩阵的形式,利用现有的CNN网络架构进行特征提取并进行识别。基于GCN的方法首先将人体姿态建立时空图,然后利用图卷积神经网络提取时空特征。相比于基于CNN架构的方法,这种方法可以减小参数量,是目前手势识别和动作识别的主流方法。基于图卷积神经网络(GCN)架构的方法是最近兴起的方法,通常将人手姿态信息输入到一个使用固定图的图卷积神经网络中进行分类,分类准确性依然不高。
发明内容
为了解决上述问题,本发明提供了一种基于时空图卷积神经网络的手势识别方法和装置。本发明不仅关注手势识别中的时间信息,还关注空间上下文信息(空间上下文信息在手势识别中是十分关键的),而且对不同时刻、不同关节对于手势识别效果的重要性进行区分。因此本发明基于人手关节序列建立人手骨架时空图,设计时间注意力和空间注意力机制,时间注意力机制刻画人手骨架序列在时间维度上的关联性,空间注意力机制建立每个时间的动态图结构,获取人手关节之间的关联性,通过具有时间注意力和空间注意力机制的时空图卷积神经网络可以提取人手关节序列中具有强鉴别力的时间空间特征。
本发明提供一种基于时空图卷积神经网络的手势识别方法,所述方法包括以下步骤:获取人手关节序列;基于人手关节序列建立人手骨架时空图;构建人手骨架时空图上的时间注意力和空间注意力机制;构建时间金字塔池化层;使用以人手关节和人手运动两种类型的输入数据的双分支网络,进行特征融合和手势识别。
本发明提供一种基于时空图卷积神经网络的手势识别装置,所述装置包括:获取人手关节序列模块,用于确定手部关节点坐标;基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块,用于获取手部姿态序列中有强鉴别力的空间时间特征;时间金字塔池化模块,用于整合不同时间长度和不同速度的手部姿态序列;以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。
本发明的技术方案为:
一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:
1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,…T,j=1,2,…,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,…T,j=1,2,…,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令
Figure BDA0002703951450000031
表示空间图的邻接矩阵,
Figure BDA0002703951450000032
表示归一化的邻接矩阵,
Figure BDA0002703951450000033
表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令
Figure BDA0002703951450000034
表示时间图的邻接矩阵,
Figure BDA0002703951450000035
表示归一化的邻接矩阵,
Figure BDA0002703951450000036
表示时间图的度矩阵;
3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;
4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。
进一步的,空间图注意力网络的公式为
Figure BDA0002703951450000037
其中,
Figure BDA0002703951450000038
Figure BDA0002703951450000039
分别是第l层空间图注意力网络的输入特征和输出特征,σ(·)表示ReLU激活函数,
Figure BDA00027039514500000310
是大小为
Figure BDA00027039514500000311
的权重矩阵,
Figure BDA00027039514500000312
Figure BDA00027039514500000313
分别代表输入通道数和输出通道数,
Figure BDA00027039514500000314
Figure BDA00027039514500000315
Figure BDA00027039514500000316
是利用训练数据对空间图注意力网络训练得到的矩阵,
Figure BDA00027039514500000317
是空间注意力矩阵。
进一步的,得到空间注意力矩阵
Figure BDA00027039514500000318
的方法为:将大小为
Figure BDA00027039514500000319
的特征
Figure BDA00027039514500000320
输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,并将一卷积结果变换成大小为B×N×CsT的矩阵、将另一卷积结果转换成大小为B×CsT×N的矩阵,B表示关节点序列的个数,Cin表示输入的通道数,Cs是“1*1”卷积层的输出通道数;然后将变换后的两矩阵相乘得到大小为B×N×N的矩阵并对其进行softmax操作,得到空间注意力矩阵
Figure BDA00027039514500000321
进一步的,时间图注意力网络的公式为
Figure BDA00027039514500000322
其中,
Figure BDA00027039514500000323
Figure BDA00027039514500000324
分别是第l层时间图注意力网络的输入特征和输出特征,
Figure BDA00027039514500000325
是大小为
Figure BDA00027039514500000326
的权重矩阵,
Figure BDA00027039514500000327
Figure BDA00027039514500000328
分别代表输入通道数和输出通道数,
Figure BDA00027039514500000329
其中,
Figure BDA00027039514500000330
是利用训练数据对时间图注意力网络训练得到的矩阵,
Figure BDA0002703951450000041
是时间注意力矩阵。
进一步的,得到时间注意力矩阵
Figure BDA0002703951450000042
的方法为:将大小为
Figure BDA0002703951450000043
的特征
Figure BDA0002703951450000044
输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,将一卷积结果转换成大小为B×T×CtN的矩阵、将另一卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
Figure BDA0002703951450000045
进一步的,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征F(l)分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
Figure BDA0002703951450000046
然后根据
Figure BDA0002703951450000047
计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为
Figure BDA0002703951450000048
的特征a,将特征F(l)进行卷积计算得到大小为
Figure BDA0002703951450000049
的特征b,然后将特征a、特征b相加后进行激活输出。
一种基于时空图卷积神经网络的手势识别装置,其特征在于,包括:
手部姿态获取模块,用于从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,…T,j=1,2,…,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,…T,j=1,2,…,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
时间注意力和空间注意力模块,用于基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令
Figure BDA00027039514500000410
表示空间图的邻接矩阵,
Figure BDA00027039514500000411
表示归一化的邻接矩阵,
Figure BDA00027039514500000412
表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令
Figure BDA00027039514500000413
表示时间图的邻接矩阵,
Figure BDA00027039514500000414
表示归一化的邻接矩阵,
Figure BDA0002703951450000051
表示时间图的度矩阵;然后该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;
时间金字塔池化模块,用于对包含时空信息的特征进行计算,得到多尺度时空特征;
手势识别模块,用于根据该多尺度时空特征进行手势识别。
本发明的优点和有益效果是:
本发明主要解决的问题是如何同时提取人手姿态序列中的时间信息与空间信息。本发明提出了一种基于时空图卷积神经网络的手势识别方法。基于时空图卷积神经网络,设计了时间注意力和空间注意力模块,本发明可以提取人手姿态序列中具有强鉴别力的时间空间特征,提高手势识别精度。本发明使用时间金字塔池化层来提取手势的多尺度时间特征。本发明还以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别网络,通过融合人手关节序列和人手运动两种类型数据的时空特征后,可以进一步提高手势识别精度。经过实际使用验证,本发明具有精度高和实时性的优点,可满足专业的或者大众化的应用需求。
附图说明
图1是本发明的整体架构图。
图2是本发明的空间图注意力层的示意图。
图3是本发明的时间图注意力层的示意图。
图4是本发明的在时间维度上有降维功能的时间图注意力层的示意图。
图5是本发明的时间金字塔池化层的示意图。
图6是单个输入分支的手势识别网络架构图。
图7是人手骨架时空图。
具体实施方式
图1概述了本发明的方法。本发明运用姿态流和位移流作为基于骨架的手势识别中的双流。本发明使用每个帧中的原始关节坐标(即特征集F)作为姿态流的输入,使用不同帧之间的关节偏移量作为位移流的输入。在每个流中,首先基于人手姿态序列初始化人手骨架时空图,然后利用时空图注意力网络(STA-GCN)提取时空特征。为了更好的提取多尺度时间特征,我们使用时间金字塔池化层(TPP)。最后将该特征输入到全连接层以及用于手势动作预测的softmax层。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
步骤1:初始化人手骨架时空图
给定一个具有T帧的人手关节序列,每帧都标注有N个手部关节的三维坐标(如图7中人手,即人手解剖学意义下的关节)。用点集V定义一个人手骨架时空图的顶点,V={vi,j|i=1,2,…T,j=1,2,…,N},其中vi,j表示第i帧的第j个关节点。特征集F={fi,j|i=1,2,…T,j=1,2,…,N},其中fi,j表示节点vi,j的特征,即节点vi,j的三维坐标。人手骨架时空图由空间图和时间图构成。
空间图只在同一帧的不同节点之间具有连接。当手部骨架图的第j1个关节点和第j2个关节点有连接或j1=j2时,骨架图中的节点
Figure BDA0002703951450000061
和节点
Figure BDA0002703951450000062
之间才有连接。因为空间图的每一帧之间都没有连接,所以空间图可以看成T个独立的图,且每个独立的图都具有相同的拓扑关系,故可以选择其中的一个独立的图表示空间图,令
Figure BDA0002703951450000063
表示空间图的邻接矩阵,大小为N×N,
Figure BDA0002703951450000064
表示归一化的邻接矩阵,其中
Figure BDA0002703951450000065
表示空间图的度矩阵。
时间图只在不同帧的相同节点之间具有连接。假设i1和i2表示帧的编号,当|i1-i2|<K时,即当i1和i2为K近邻帧时(一般而言,K>=1即可,本发明中K=4),骨架图中的节点
Figure BDA0002703951450000066
和节点
Figure BDA0002703951450000067
之间才有连接。因为时间图的每个关节点之间都没有连接,所以时间图可以看成N个独立的图,且每个独立的图都具有相同的拓扑关系,故可以选择其中的一个独立的图表示时间图,令
Figure BDA0002703951450000068
表示时间图的邻接矩阵,大小为T×T,
Figure BDA0002703951450000069
表示归一化的邻接矩阵,其中
Figure BDA00027039514500000610
表示时间图的度矩阵。
步骤2:建立人手骨架时空图上的时间注意力和空间注意力模块。
初始化时空图后,本发明采用多层时空图注意力网络提取时空特征。时空图注意力网络分为空间图注意力网络和时间图注意力网络,空间图注意力网络和时间图注意力网络分别能够从特征F中提取出空间特征和时间特征。
空间图注意力网络如图2所示,网络的输入是手部骨架的序列,网络每次处理B(batch size)个骨架序列,每个骨架序列的长度是T(即包含T帧连续的骨架),每帧骨架都包含N个关节点,每个关节点都有一个C维向量表示(第一层STA-GCN的C是3,即三维坐标,其它层的C都是自己设定的,我们设置第二到第十层的C分别为:64、64、64、64、128、128、128、256、256)。假设第l层空间图注意力网络的输入是一个大小为
Figure BDA0002703951450000071
的特征
Figure BDA0002703951450000072
输出是一个大小为
Figure BDA0002703951450000073
的特征
Figure BDA0002703951450000074
其中,B表示batch size(即关节点序列的个数),
Figure BDA0002703951450000075
表示每个关节点的输入特征维度,
Figure BDA0002703951450000076
表示每个关节点的输出特征维度,N表示关节点数量,T表示关节点序列的长度。第l层空间图注意力网络的公式如下:
Figure BDA0002703951450000077
其中,σ(·)表示ReLU激活函数,
Figure BDA0002703951450000078
是大小为
Figure BDA0002703951450000079
的权重矩阵。
Figure BDA00027039514500000710
Figure BDA00027039514500000711
其中,
Figure BDA00027039514500000712
是步骤1所述的空间图的归一化矩阵,
Figure BDA00027039514500000713
是一个可学习的矩阵(骨架序列作为训练数据进行训练学习得到),其初始值为随机值,
Figure BDA00027039514500000714
是空间注意力矩阵。
Figure BDA00027039514500000715
的计算方式如图2所示,将
Figure BDA00027039514500000716
输入到两个不同的“1*1”的卷积层,它们分别具有参数
Figure BDA00027039514500000717
和参数
Figure BDA00027039514500000718
(这两个参数是可学习的,初始值为随机值),将这两个卷积层的结果
Figure BDA00027039514500000719
Figure BDA00027039514500000720
(大小为B×Cs×N×T)分别变换成大小为B×N×CsT和大小为B×CsT×N的矩阵(Cs是“1*1”卷积层的输出通道数),然后将这两个特征相乘得到大小为B×N×N的矩阵,将这个矩阵进行softmax操作即可得到空间注意力矩阵
Figure BDA00027039514500000721
时间图注意力网络如图3所示,假设第l层时间图注意力网络的输入是一个大小为
Figure BDA00027039514500000722
的特征
Figure BDA00027039514500000723
输出是一个大小为
Figure BDA00027039514500000724
的特征
Figure BDA00027039514500000725
其中,B表示batch size,
Figure BDA00027039514500000726
表示每个关节点的输入特征维度,
Figure BDA00027039514500000727
表示每个关节点的输出特征维度,N表示关节点数量,T表示关节点序列的长度。时间图注意力网络的公式如下:
Figure BDA00027039514500000728
其中,
Figure BDA00027039514500000729
是大小为
Figure BDA00027039514500000730
的权重矩阵,
Figure BDA00027039514500000731
Figure BDA00027039514500000732
分别代表输入通道数和输出通道数。
Figure BDA00027039514500000733
其中,
Figure BDA00027039514500000734
是步骤1所述的时间图的归一化矩阵,
Figure BDA00027039514500000735
是一个可学习的矩阵,其初始值为随机值,
Figure BDA00027039514500000736
是时间注意力矩阵。
Figure BDA00027039514500000737
的计算方式如图2所示,将
Figure BDA00027039514500000738
输入到两个不同的“1*1”的卷积层,它们分别具有参数
Figure BDA00027039514500000739
和参数
Figure BDA00027039514500000740
(这两个参数是可学习的,初始值为随机值),将这两个卷积层的结果
Figure BDA00027039514500000741
Figure BDA00027039514500000742
分别转换成大小为B×T×CtN和大小为B×CtN×T的矩阵(Ct是“1*1”卷积层的输出通道数),然后将这两个特征相乘得到大小为B×T×T的矩阵,将这个矩阵进行softmax操作即可得到时间注意力矩阵
Figure BDA0002703951450000081
为了减少网络的参数数量,本发明使用了如图4所示的在时间维度上具有降维功能的时间图注意力网络。该网络在时间图注意力的基础上进行改进,加入了一个最大池化层和卷积使该网络在时间维度上具有降维功能。设网络的输入是大小为B×Cin×N×T的特征,图4中批量归一化的输出为大小为B×Cout×N×T的特征。该特征输入最大池化层后输出了大小为
Figure BDA0002703951450000082
的特征,在时间维度上减少了一半,同时残差连接也使用了一个卷积将大小为B×Cin×N×T的输入特征转换成了大小为
Figure BDA0002703951450000083
的特征,使其能够和最大池化层的输出相加。因为该网络具有能将时间维度上的特征数量减少一半的特性,所以它能够提高计算效率。具体而言,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征F(l)分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示batchsize,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
Figure BDA0002703951450000084
然后根据
Figure BDA0002703951450000085
计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为
Figure BDA0002703951450000086
的特征a,将特征F(l)进行卷积计算得到大小为
Figure BDA0002703951450000087
的特征b,然后将特征a、特征b相加后进行激活输出。
模块3:时间金字塔池化层。
在基于骨架的动态手势识别中,一个关键问题是如何有效提取人手姿态序列的时间维度特征。受到空间金字塔池化层(SPPNet)启发,我们提出了时间金字塔池化层用于基于手部姿态的动态手势识别。图5给出了我们的时间金字塔池化层。将时间金字塔池化层接到最后一层STA-GCN的后面,可以提取人手关节序列的多尺度时间维度特征,从而提高手势识别性能。
模块4:手势识别网络
图6给出了单个输入分支的手势识别网络架构图。首先初始化人手骨架时空图;当收到手势姿态数据后,将手部关节点的三维坐标作为特征集F;然后将该特征集F一次性输入到10层时空图注意力网络(STA-GCN)进行计算,得到包含时空信息的特征;将其输入时间金字塔池化层进行计算,得到多尺度时空特征;然后使用全连接网络和Softmax对多尺度时空特征进行手势识别。
此外,我们还设计了以人手关节序列和人手运动两种类型数据作为输入的双分支网络(如图1),通过融合人手关节序列和人手运动两种类型数据的时空特征后,可以进一步提高手势识别精度。
本发明的方案可以通过软件的方式实现,也可以通过硬件的方式来实现,比如:
在一个实施例中,提供一种基于人手姿态的手势识别装置,其包括:
手部姿态获取模块,该模块使用摄像机(包含并不限于彩色相机,深度相机,Lidar,运动捕捉设备等)、数据手套或其它类型的传感器获取手部姿态序列;
基于人手关节序列建立人手骨架时空图上的时间注意力和空间注意力模块,用于获取手部姿态序列中有强鉴别力的空间时间特征;
时间金字塔池化模块,用于提取人手多尺度时间特征;
以人手关节序列和人手运动两种类型数据作为输入的双分支手势识别模块。
另外,该装置还可包括:
数据预处理模块,用于对输入的人手姿态序列数据进行预处理,通过对输入数据的归一化和数据增强处理,使得手势分类更加精确;
网络构建与训练模块,负责构建和训练的手势识别网络。
在另一个实施例中,提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
在另一个实施例中,提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的步骤。
以上以人手为例对本发明做了说明,容易理解的是,本发明也适用于人体整体或局部(如人手、人脸)、动物、机器人等对象。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于时空图卷积神经网络的手势识别方法,包括以下步骤:
1)从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,...T,j=1,2,...,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,...T,j=1,2,...,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
2)基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令
Figure FDA0002703951440000011
表示空间图的邻接矩阵,
Figure FDA0002703951440000012
表示归一化的邻接矩阵,
Figure FDA0002703951440000013
表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令
Figure FDA0002703951440000014
表示时间图的邻接矩阵,
Figure FDA0002703951440000015
表示归一化的邻接矩阵,
Figure FDA0002703951440000016
表示时间图的度矩阵;
3)基于该人手骨架时空图建立时空图注意力网络,包括空间图注意力网络和时间图注意力网络;然后将该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H1;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征并将其输入时间金字塔池化层进行计算,得到多尺度时空特征H2;
4)将得到多尺度时空特征H1、H2分别输入一全连接网络,然后将两全连接网络的输出进行拼接后输入Softmax,进行手势识别预测。
2.根据权利要求1所述的方法,其特征在于,空间图注意力网络的公式为
Figure FDA0002703951440000017
其中,
Figure FDA0002703951440000018
Figure FDA0002703951440000019
分别是第l层空间图注意力网络的输入特征和输出特征,σ(·)表示ReLU激活函数,
Figure FDA00027039514400000110
是大小为
Figure FDA00027039514400000111
的权重矩阵,
Figure FDA00027039514400000112
Figure FDA00027039514400000113
分别代表输入通道数和输出通道数,
Figure FDA00027039514400000114
Figure FDA00027039514400000115
是利用训练数据对空间图注意力网络训练得到的矩阵,
Figure FDA00027039514400000116
是空间注意力矩阵。
3.根据权利要求2所述的方法,其特征在于,得到空间注意力矩阵
Figure FDA00027039514400000117
的方法为:将大小为
Figure FDA00027039514400000118
的特征
Figure FDA00027039514400000119
输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,并将一卷积结果变换成大小为B×N×CsT的矩阵、将另一卷积结果转换成大小为B×CsT×N的矩阵,B表示关节点序列的个数,Cin表示输入的通道数,Cs是“1*1”卷积层的输出通道数;然后将变换后的两矩阵相乘得到大小为B×N×N的矩阵并对其进行softmax操作,得到空间注意力矩阵
Figure FDA0002703951440000021
4.根据权利要求1所述的方法,其特征在于,时间图注意力网络的公式为
Figure FDA0002703951440000022
Figure FDA0002703951440000023
其中,
Figure FDA0002703951440000024
Figure FDA0002703951440000025
分别是第l层时间图注意力网络的输入特征和输出特征,
Figure FDA0002703951440000026
是大小为
Figure FDA0002703951440000027
的权重矩阵,
Figure FDA0002703951440000028
Figure FDA0002703951440000029
分别代表输入通道数和输出通道数,
Figure FDA00027039514400000210
其中,
Figure FDA00027039514400000211
是利用训练数据对时间图注意力网络训练得到的矩阵,
Figure FDA00027039514400000212
是时间注意力矩阵。
5.根据权利要求4所述的方法,其特征在于,得到时间注意力矩阵
Figure FDA00027039514400000213
的方法为:将大小为
Figure FDA00027039514400000214
的特征
Figure FDA00027039514400000215
输入到两个卷积核大小为“1*1”的卷积层进行卷积计算,将一卷积结果转换成大小为B×T×CtN的矩阵、将另一卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
Figure FDA00027039514400000216
6.根据权利要求4所述的方法,其特征在于,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征F(l)分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
Figure FDA00027039514400000217
然后根据
Figure FDA00027039514400000218
计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为
Figure FDA00027039514400000219
的特征a,将特征F(l)进行卷积计算得到大小为
Figure FDA00027039514400000220
的特征b,然后将特征a、特征b相加后进行激活输出。
7.一种基于时空图卷积神经网络的手势识别装置,其特征在于,包括:
手部姿态获取模块,用于从手势姿态数据中获取姿态流和位移流;其中所述位移流为手势姿态数据中不同帧之间的关节偏移量;获取姿态流的方法为:从手势姿态数据中提取T帧数据作为人手关节序列,对该人手关节序列中的每帧数据识别N个手部关节并标注每一关节点的三维坐标,得到点集V和特征集F;点集V={vi,j|i=1,2,...T,j=1,2,...,N},其中vi,j表示第i帧的第j个关节点;特征集F={fi,j|i=1,2,...T,j=1,2,...,N},其中fi,j表示节点vi,j的特征;特征集F为姿态流;
时间注意力和空间注意力模块,用于基于点集V和特征集F生成人手骨架时空图,该人手骨架时空图包括空间图和时间图;其中,根据所选帧的手部骨架图确定该帧中各关节点之间的连接关系,生成该帧的关节点连接图作为空间图,令
Figure FDA0002703951440000031
表示空间图的邻接矩阵,
Figure FDA0002703951440000032
表示归一化的邻接矩阵,
Figure FDA0002703951440000033
表示空间图的度矩阵;将近邻帧之间同一关节点进行连接所得图作为时间图,令
Figure FDA0002703951440000034
表示时间图的邻接矩阵,
Figure FDA0002703951440000035
表示归一化的邻接矩阵,
Figure FDA0002703951440000036
表示时间图的度矩阵;然后该特征集F输入该空间图注意力网络,得到姿态流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;将所述位移流输入该空间图注意力网络,得到位移流的空间特征,然后将所得空间特征输入该时间图注意力网络,得到包含时空信息的特征;
时间金字塔池化模块,用于对包含时空信息的特征进行计算,得到多尺度时空特征;
手势识别模块,用于根据该多尺度时空特征进行手势识别。
8.根据权利要求7所述的手势识别装置,其特征在于,空间图注意力网络的公式为
Figure FDA0002703951440000037
其中,
Figure FDA0002703951440000038
Figure FDA0002703951440000039
分别是第l层空间图注意力网络的输入特征和输出特征,σ(·)表示ReLU激活函数,
Figure FDA00027039514400000310
是大小为
Figure FDA00027039514400000311
Figure FDA00027039514400000328
的权重矩阵,
Figure FDA00027039514400000313
Figure FDA00027039514400000314
分别代表输入通道数和输出通道数,
Figure FDA00027039514400000315
Figure FDA00027039514400000316
是利用训练数据对空间图注意力网络训练得到的矩阵,
Figure FDA00027039514400000317
是空间注意力矩阵。
9.根据权利要求7所述的手势识别装置,其特征在于,时间图注意力网络的公式为
Figure FDA00027039514400000318
其中,
Figure FDA00027039514400000319
Figure FDA00027039514400000320
分别是第l层时间图注意力网络的输入特征和输出特征,
Figure FDA00027039514400000321
是大小为
Figure FDA00027039514400000322
的权重矩阵,
Figure FDA00027039514400000323
Figure FDA00027039514400000324
分别代表输入通道数和输出通道数,
Figure FDA00027039514400000325
其中,
Figure FDA00027039514400000326
是利用训练数据对时间图注意力网络训练得到的矩阵,
Figure FDA00027039514400000327
是时间注意力矩阵。
10.根据权利要求9所述的手势识别装置,其特征在于,所述时间图注意力网络包括两个卷积核大小为“1*1”的第一卷积层、第二卷积层,大小为B×Cin×N×T的特征
Figure FDA0002703951440000041
分别输入第一卷积层、第二卷积层进行卷积计算,将第一卷积层的卷积结果转换成大小为B×T×CtN的矩阵、将第二卷积层的卷积结果转换成大小为B×CtN×T的矩阵,Ct是“1*1”卷积层的输出通道数,B表示关节点序列的个数,Cin表示输入的通道数;然后将转换后的两矩阵相乘得到大小为B×T×T的矩阵并对其进行softmax操作,得到时间注意力矩阵
Figure FDA0002703951440000042
然后根据
Figure FDA0002703951440000043
计算得到At,将At与特征F(l)相乘所得结果输入卷积核大小为“1*1”的第三卷积层,然后将该第三卷积层的卷积结果依次进行批量归一化、最大池化层后得到大小为
Figure FDA0002703951440000044
的特征a,将特征F(l)进行卷积计算得到大小为
Figure FDA0002703951440000045
Figure FDA0002703951440000046
的特征b,然后将特征a、特征b相加后进行激活输出。
CN202011031929.2A 2020-09-27 2020-09-27 一种基于时空图卷积神经网络的手势识别方法和装置 Pending CN112329525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011031929.2A CN112329525A (zh) 2020-09-27 2020-09-27 一种基于时空图卷积神经网络的手势识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011031929.2A CN112329525A (zh) 2020-09-27 2020-09-27 一种基于时空图卷积神经网络的手势识别方法和装置

Publications (1)

Publication Number Publication Date
CN112329525A true CN112329525A (zh) 2021-02-05

Family

ID=74303392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011031929.2A Pending CN112329525A (zh) 2020-09-27 2020-09-27 一种基于时空图卷积神经网络的手势识别方法和装置

Country Status (1)

Country Link
CN (1) CN112329525A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818942A (zh) * 2021-03-05 2021-05-18 清华大学 一种车辆行驶过程中行人动作识别方法和系统
CN112990116A (zh) * 2021-04-21 2021-06-18 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质
CN113052030A (zh) * 2021-03-11 2021-06-29 北京工业大学 一种基于单张rgb图像的双流多尺度手部姿态估计方法
CN113229828A (zh) * 2021-04-26 2021-08-10 山东师范大学 一种运动想象脑电信号分类方法及系统
CN113378641A (zh) * 2021-05-12 2021-09-10 北京工业大学 基于深度神经网络和注意力机制的手势识别方法
CN113537164A (zh) * 2021-09-15 2021-10-22 江西科技学院 一种实时的动作时序定位方法
CN113627401A (zh) * 2021-10-12 2021-11-09 四川大学 融合双注意力机制的特征金字塔网络的肌电手势识别方法
CN114895275A (zh) * 2022-05-20 2022-08-12 中国人民解放军国防科技大学 基于高效多维注意力神经网络的雷达微动手势识别方法
WO2022227768A1 (zh) * 2021-04-28 2022-11-03 北京百度网讯科技有限公司 动态手势识别方法、装置、设备以及存储介质
CN117994820A (zh) * 2024-04-07 2024-05-07 福建师范大学 基于时频数据融合的分层图卷积手势识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390305A (zh) * 2019-07-25 2019-10-29 广东工业大学 基于图卷积神经网络的手势识别的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390305A (zh) * 2019-07-25 2019-10-29 广东工业大学 基于图卷积神经网络的手势识别的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI ZHANG等: "STA-GCN: two-stream graph convolutional network with spatial–temporal attention for hand gesture recognition", 《SPRINGER-VERLAG GMBH GERMANY, PART OF SPRINGER NATURE 2020》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818942A (zh) * 2021-03-05 2021-05-18 清华大学 一种车辆行驶过程中行人动作识别方法和系统
CN113052030A (zh) * 2021-03-11 2021-06-29 北京工业大学 一种基于单张rgb图像的双流多尺度手部姿态估计方法
CN113052030B (zh) * 2021-03-11 2024-09-24 北京工业大学 一种基于单张rgb图像的双流多尺度手部姿态估计方法
CN112990116A (zh) * 2021-04-21 2021-06-18 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质
CN113229828A (zh) * 2021-04-26 2021-08-10 山东师范大学 一种运动想象脑电信号分类方法及系统
WO2022227768A1 (zh) * 2021-04-28 2022-11-03 北京百度网讯科技有限公司 动态手势识别方法、装置、设备以及存储介质
CN113378641B (zh) * 2021-05-12 2024-04-09 北京工业大学 基于深度神经网络和注意力机制的手势识别方法
CN113378641A (zh) * 2021-05-12 2021-09-10 北京工业大学 基于深度神经网络和注意力机制的手势识别方法
CN113537164B (zh) * 2021-09-15 2021-12-07 江西科技学院 一种实时的动作时序定位方法
CN113537164A (zh) * 2021-09-15 2021-10-22 江西科技学院 一种实时的动作时序定位方法
CN113627401A (zh) * 2021-10-12 2021-11-09 四川大学 融合双注意力机制的特征金字塔网络的肌电手势识别方法
CN114895275A (zh) * 2022-05-20 2022-08-12 中国人民解放军国防科技大学 基于高效多维注意力神经网络的雷达微动手势识别方法
CN117994820A (zh) * 2024-04-07 2024-05-07 福建师范大学 基于时频数据融合的分层图卷积手势识别方法及装置

Similar Documents

Publication Publication Date Title
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
Sun et al. Deep spatial-temporal feature fusion for facial expression recognition in static images
Baradel et al. Human action recognition: Pose-based attention draws focus to hands
Liu et al. Multi-view hierarchical bidirectional recurrent neural network for depth video sequence based action recognition
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
Yang et al. PGCN-TCA: Pseudo graph convolutional network with temporal and channel-wise attention for skeleton-based action recognition
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
Abdul et al. Intelligent real-time Arabic sign language classification using attention-based inception and BiLSTM
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN108363973B (zh) 一种无约束的3d表情迁移方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN111062326B (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
Liu et al. Action recognition based on 3d skeleton and rgb frame fusion
Liu et al. Driver pose estimation using recurrent lightweight network and virtual data augmented transfer learning
Jia et al. Two-stream temporal convolutional networks for skeleton-based human action recognition
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN114241515A (zh) 一种基于时空上下文特征感知的三维人体姿态估计方法
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
Afifi et al. Object depth estimation from a single image using fully convolutional neural network
CN114724185A (zh) 一种轻量型的多人姿态跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210205

WD01 Invention patent application deemed withdrawn after publication