CN114937285B

CN114937285B - 动态手势识别方法、装置、设备及存储介质

Info

Publication number: CN114937285B
Application number: CN202210572857.5A
Authority: CN
Inventors: 赵东东; 阎石; 李弘历; 周兴文; 李艺昌
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-04-07
Anticipated expiration: 2042-05-25
Also published as: CN114937285A

Abstract

本发明公开了一种动态手势识别方法、装置、设备及存储介质，方法包括：获取待处理动态手势的初始数据集和指尖相对位置信息；对初始数据集的初始骨架序列进行预处理得到目标骨架序列；将目标骨架序列输入预设的动态手势识别模型；基于自注意力模块的自注意力机制对目标骨架序列进行手势特征提取得到骨架时空特征；基于自注意力模块的自注意力机制对指尖相对位置信息进行自注意力处理得到指尖特征；将骨架时空特征和指尖特征进行融合得到目标特征张量；对目标特征张量进行分类头层处理得到目标分类分数；获取目标分类分数中最高分类分数对应的手势标签得到手势分类结果。本发明保证手势识别实时性的同时提高了动态手势识别的准确性和精确性。

Description

动态手势识别方法、装置、设备及存储介质

技术领域

本发明涉及姿态识别的技术领域，尤其是涉及一种动态手势识别方法、装置、设备及存储介质。

背景技术

人机交互逐渐融入我们的生活中，且人机交互技术涉及静态和动态手势识别、人脸识别、语音识别和文本识别等其他模式识别方法。其中，动态手势识别成为模式识别及人机交互领域的一个热门研究方向。相关技术中，对于动态手势识别主要有两种，一种是基于图像识别的方法，另一种则是基于骨架识别的方法。针对图像识别的方法，由于二维RGB图像所表达的手部特征较为有限，且受到环境因素影响从而影响动态手势识别的效果。而骨架识别虽然可以解决环境因素影响的问题，但是识别细微手势仍存在不足，因此，如何对细微手势动作识别成为亟待解决的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出了一种动态手势识别方法、装置、设备及存储介质，能够对细微手势进行识别，以提高动态手势识别的精确性。

第一方面，本发明的一个实施例提供了一种动态手势识别方法，方法包括：

获取待处理动态手势的初始数据集和指尖相对位置信息；其中，所述初始数据集包括手势动作的初始骨架序列；

对所述初始数据集的初始骨架序列进行预处理，得到目标骨架序列；

将所述目标骨架序列输入预设的动态手势识别模型；其中，所述动态手势识别模型包括：自注意力模块；

基于所述自注意力模块的自注意力机制对所述目标骨架序列进行手势特征提取，得到骨架时空特征；

基于所述自注意力模块的自注意力机制对所述指尖相对位置信息进行自注意力处理，得到指尖特征；

将所述骨架时空特征和所述指尖特征进行融合，得到目标特征张量；

对所述目标特征张量进行分类头层处理，得到目标分类分数；

获取所述目标分类分数中最高分类分数对应的手势标签，得到手势分类结果。

本发明实施例的动态手势识别方法至少具有如下有益效果：通过采用自注意力模块的自注意力机制对目标骨架序列和指尖相对位置信息进行自注意力处理得到骨架时空特征和指尖特征，解决了现有动态手势识别网络对动态手势的时空信息挖掘利用不充分的问题以及对细微手势动作建模不足的问题，在保证手势识别实时性的同时提高了动态手势识别的准确性和精确性。

根据本发明的另一些实施例的动态手势识别方法，所述对所述初始数据集的初始骨架序列进行预处理，得到目标骨架序列，包括：

对所述初始数据集的所述初始骨架序列进行采样处理，以得到骨架有效序列；其中，所述骨架有效序列的帧数大于60帧；

将所述骨架有效序列进行数据增强处理，得到所述目标骨架序列。

根据本发明的另一些实施例的动态手势识别方法，所述自注意力模块包括：空间Transformer模块和时间Transformer模块；所述时空特征包括：运动轨迹张量；所述基于所述自注意力模块的自注意力机制对所述目标骨架序列进行手势特征提取，得到骨架时空特征，包括：

基于所述空间Transformer模块的所述自注意力机制对所述目标骨架序列进行自注意力处理，得到骨架空间特征；

基于所述时间Transformer模块的所述自注意力机制对所述骨架空间特征进行自注意力处理，得到手势关系沿时间维度的运动轨迹张量。

根据本发明的另一些实施例的动态手势识别方法，所述空间Transformer模块包括：线性投影层、多个空间Transformer块、第一池化层，所述基于所述空间Transformer模块的所述自注意力机制对所述目标骨架序列进行自注意力处理，得到所述骨架空间特征，包括：

基于所述线性投影层对所述目标骨架序列进行投影映射，得到骨架嵌入信息；

将预设的空间位置信息嵌入所述骨架嵌入信息，得到第一初始张量；

基于所述多个空间Transformer块对所述第一初始张量进行自注意力处理，得到空间张量；

基于所述第一池化层对所述空间张量进行池化处理，得到所述骨架空间特征。

根据本发明的另一些实施例的动态手势识别方法，所述时间Transformer模块包括：多个时间Transformer块、第二池化层；所述基于所述时间Transformer模块的所述自注意力机制对所述骨架空间特征进行自注意力处理，得到手势关系沿时间维度的运动轨迹张量，包括：

将预设的时间位置信息嵌入所述骨架空间特征，得到初始骨架空间特征；

基于所述多个时间Transformer块对所述初始骨架空间特征进行自注意力处理，得到时间张量；

基于所述第二池化层对所述时间张量进行池化处理，得到运动轨迹张量。

根据本发明的另一些实施例的动态手势识别方法，所述指尖特征为指尖张量，所述将所述骨架时空特征和所述指尖特征进行融合，得到目标特征张量，包括：

将所述运动轨迹张量和所述指尖张量进行融合，得到所述目标特征张量。

根据本发明的另一些实施例的动态手势识别方法，在将所述目标骨架序列输入预设的动态手势识别模型之前，所述方法还包括：

对神经网络模型进行训练，得到动态手势识别模型，具体包括：

获取训练数据集和测试数据集；

根据所述训练数据集对所述神经网络模型进行训练，得到初始分类分数；

根据所述初始分类分数使用预设的交叉熵损失函数计算所述神经网络模型的损失函数值；

根据所述损失函数值，根据预设的反向传播算法对所述神经网络模型的参数权重进行更新和优化，得到动态手势识别模型；

对所述动态手势识别模型进行迭代训练，直到所述损失函数值达到最小，得到优化的动态手势识别模型；

根据所述测试数据集对所述动态手势识别模型进行校验与优化，以得到最终的动态手势识别模型。

第二方面，本发明的一个实施例提供了动态手势识别装置，所述装置包括：

获取模块，用于获取待处理动态手势的初始数据集和指尖相对位置信息；其中，所述初始数据集包括手势动作的初始骨架序列；

预处理模块，用于对所述初始数据集的初始骨架序列进行预处理，得到目标骨架序列；

输入模块，用于将所述目标骨架序列输入预设的动态手势识别模型；其中，所述动态手势识别模型包括：自注意力模块；

所述自注意力模块，用于基于自注意力机制对所述目标骨架序列进行手势特征提取，得到骨架时空特征；

所述自注意力模块，还用于基于自注意力机制对所述指尖相对位置信息进行自注意力处理，得到指尖特征；

融合模块，用于将所述骨架时空特征和所述指尖特征进行融合，得到目标特征张量；

分数计算模块，用于对所述目标特征张量进行分类头层处理，得到目标分类分数；

分类模块，用于获取所述目标分类分数中最高分类分数对应的手势标签，得到手势分类结果。

本发明实施例的动态手势识别装置至少具有如下有益效果：通过采用自注意力模块的自注意力机制对目标骨架序列和指尖相对位置信息进行自注意力处理得到骨架时空特征和指尖特征，解决了现有动态手势识别网络对动态手势的时空信息挖掘利用不充分的问题以及对细微手势动作建模不足的问题，在保证手势识别实时性的同时提高了动态手势识别的准确性和精确性。

第三方面，本发明的一个实施例提供了电子设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的方法。

第四方面，本发明的一个实施例提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述的方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明实施例中动态手势识别方法的一具体实施例流程示意图；

图2是图1中步骤S200的一具体实施例流程示意图；

图3是图1中步骤S400的一具体实施例流程示意图；

图4是图3中步骤S410的一具体实施例流程示意图；

图5是本发明实施例中动态手势识别方法的一具体实施中空间Transformer块的结构示意图；

图6是本发明实施例中动态手势识别方法的一具体实施中时间Transformer块的结构示意图；

图7是图3中步骤S420的一具体实施例流程示意图；

图8是本发明实施例中动态手势识别方法的另一具体实施例流程示意图；

图9是本发明实施例中动态手势识别装置的一具体实施例模块框图；

图10是本发明实施例中电子设备的一具体实施例模块框图。

具体实施方式

以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

在本发明的描述中，如果涉及到方位描述，例如“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。如果某一特征被称为“设置”、“固定”、“连接”、“安装”在另一个特征，它可以直接设置、固定、连接在另一个特征上，也可以间接地设置、固定、连接、安装在另一个特征上。

在本发明实施例的描述中，如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“大于”、“小于”、“超过”，均应理解为不包括本数，如果涉及到“以上”、“以下”、“以内”，均应理解为包括本数。如果涉及到“第一”、“第二”，应当理解为用于区分技术特征，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

人机交互逐渐融入大众生活中，因此人机交互的研究也变得更加热门。人机交互的主要目的是允许用户通过一些简单的操作来自由地控制设备，与设备进行交流。人机交互技术涉及静态、动态手势识别、人脸识别、语音识别和文本识别等其他模式识别方法。在所有肢体语言中，手势具有最自然、直观、灵活等优点，成为人们最青睐的人机交互方式。因此，动态手势识别也成为了模式识别及人机交互领域的一个热门研究方向。同时，动态手势识别被应用于多个领域中，例如虚拟游戏控制、手语识别翻译、机器人控制、生物医学等，因此动态手势识别的研究具有很高的学术和应用价值，它能在多个领域发挥重要作用，提高人们的生活、学习和工作质量。

相关技术中，基于视觉的动态手势识别根据输入方式主要有两种，一种是基于图像的方法和基于骨架的方法。基于图像的方法以RGB或RGB-D图像作为输入，依靠图像级特征进行识别。随着手势使用场景的复杂化，二维RGB图像所表达的手部特征较为有限，并且不同的光照条件、背景、角度和遮挡等环境因素都会对最终的识别结果产生较大的影响。而基于骨架的方法，则通过一系列具有二维或三维坐标的手关节来进行预测。由于骨架序列具有高语义信息和小数据的特征，并且其识别过程不受不同光照条件、背景和遮挡等因素的影响，因此基于骨架的方法具有很好的鲁棒性和更高的识别准确率。但是基于骨架的方法对于细微手势动作建模不足，因此仍存在动态手势的时空信息挖掘不充分以及对细微手势动作建模不足的问题。

基于此，本申请公开了一种动态手势识别方法、装置、设备及存储介质，能够引入指尖相对位置信息与时空特征相融合，优化了细微手势识别，从而提高手势识别精度。

参照图1，示出了本发明实施例中动态手势识别方法的流程示意图。本发明实施例公开了动态手势识别方法，其具体包括步骤S100、步骤S200、步骤S300、步骤S400、步骤S500、步骤S600、步骤S700和步骤S800。需要说明的是，本申请包括但不限于步骤S100至步骤S800。

步骤S100：获取待处理动态手势的初始数据集和指尖相对位置信息；其中，初始数据集包括手势动作的初始骨架序列。

需要说明的是，根据预设时间间隔周期采集动态手势的数据以得到初始数据集。为了提高手势识别的精度，同时获取指尖相对位置信息，指尖相对位置信息根据同一帧内其它四个指尖位置相对拇指指尖位置的相对位置向量确定。其中，所采集的动态手势的数据主要采集手势动作的骨架数据，以根据骨架数据的变化生成初始骨架序列，也即随着时间的骨架变化状态。

步骤S200：对初始数据集的初始骨架序列进行预处理，得到目标骨架序列。

需要说明的是，由于初始数据集中的初始骨架序列并不能全部使用，因此需要对初始骨架序列进行预处理，也即将不满足预设数据要求的骨架数据从初始骨架序列中剔除，并将满足预设数据要求的骨架数据进行缩放、平移或加入噪声扰动等预处理操作后得到目标骨架序列。

步骤S300：将目标骨架序列输入预设的动态手势识别模型；其中，动态手势识别模型包括：自注意力模块。

需要说明的是，根据预设的动态手势识别模型对目标骨架序列进行特征识别前，需要构建动态手势识别模型。在本实施例中，动态手势识别模型为时空Transformer网络模型，时空Transformer网络模型对输入的目标骨架序列进行动态手势的时空特征提取。时空特征则表示随着时间变化骨架的运动轨迹变化。其中，动态手势识别模型包括：自注意力模块，且自注意力模块基于自注意力机制对数据进行处理，其中，自注意力模块的自注意力机制可以提高模型训练的速度，因此，基于自注意力机制对目标骨架序列进行特征提取也可以提高特征提取的效率。

步骤S400：基于自注意力模块的自注意力机制对目标骨架序列进行手势特征提取，得到骨架时空特征。

需要说明的是，通过自注意力模块的自注意力机制对目标骨架序列进行特征提取，采用了自注意力机制来挖掘输入和输出之间关系，也即挖掘骨架序列和时空特征之间的关系，进而获取骨架的轨迹变化，无需采用递归结构，使得模型能够并行化训练，从而减少动态手势识别模型的训练时间。

具体地，基于自注意力模块的自注意力机制先将目标骨架序列提取每一帧序列中手势关节的内在空间关系，然后再根据时间整合手势关节沿时间维度的运动轨迹信息，也即得到骨架时空特征。其中，骨架时空特征以张量形式表示，所以骨架时空特征为骨架特征张量。

步骤S500：基于自注意力模块的自注意力机制对指尖相对位置信息进行自注意力处理，得到指尖特征。

需要说明的是，为了提高手势识别的精确性，通过对指尖相对位置信息进行自注意力处理，也即对指尖相对位置进行特征提取得到指尖特征，且指尖特征的时间变化与骨架时空特征相对应，因此可以通过指尖特征进一步分析动态手势的类型。

步骤S600：将骨架时空特征和指尖特征进行融合，得到目标特征张量。

需要说明的是，将骨架时空特征和指尖特征进行融合，也即将动态手势的关节节点特征和指尖特征进行融合，得到目标特征张量。因此，根据目标特征张量判断出动态手势的手势分类结果更加精确。

步骤S700：对目标特征张量进行分类头层处理，得到目标分类分数。

需要说明的是，目标特征张量由多个动作对应的特征向量构成。得到目标特征张量后，将目标特征张量输入分类头层，并通过分类头层对目标特征张量进行分类头层处理，以得到每一个动作对应的分数向量。

步骤S800：获取目标分类分数中最高分类分数对应的手势标签，得到手势分类结果。

需要说明的是，目标分类分数由一个批量的手势动作对应的分数向量构成，且每个手势动作的分数向量由对应分类手势的预测分数值组成。因此获取目标分类分数中每个手势动作对应分数向量的最大预测分数值对应的手势标签即可确定手势分类结果，也即确定对应的手势类型。

例如，若批量大小为32，则输出目标分类分数是一个(32，14/18)维度的张量，那么每一个动作为14/28维的分数向量，若第六个维度值最大，那么得到的手势分类结果为第六类手势，也即该手势动作被分类为第六类手势。其中，在本实施例中，手势分类结果包括以下任意一种：Grab、Tap、Expand、Pinch、Rotation CW、Rotation CCW、Swipe Right、SwipeLeft、Swipe Up、Swipe Down、Swipe X、Swipe+、Swipe V、Shake。

综上所述，通过采集初始骨架序列以得到初始数据集，然后将初始数据集进行预处理得到目标骨架序列，然后将目标骨架序列输入预设的动态手势识别模型的自注意力模块，基于自注意力模块对目标骨架序列进行手势特征提取，以得到骨架时空特征，也即得到随着时间变化的骨架轨迹信息。然后通过基于自注意力模块的自注意力机制对指尖相对位置信息进行特征提取得到指尖特征。其中，由于指尖特征为随着时间的指尖变化特征，所以通过将指尖特征、骨架时空特征进行融合得到目标特征张量，且目标特征张量为随着时间的骨架特征、指尖特征的轨迹变化。再通过分类头层对目标特征张量进行分类处理，得到目标分类分数，从目标分类分数中确定最高分类分数对应的手势标签以确定手势分类结果。因此通过目标分类分数可确定每一个动作对应的分类分数，则可以根据目标分类分数确定手势类型，也即得到每一个动作对应的手势类型。因此，通过骨架和指尖特征分析手势类型，既能够减少环境对手势识别的影响以提高手势识别的准确性，又能够提高手势识别的精度。

在本申请的一些实施例中，请参照图2，步骤S200可以包括但不限于步骤S210和步骤S220。

步骤S210：对初始数据集的初始骨架序列进行采样处理，以得到骨架有效序列；其中，骨架有效序列的帧数大于60帧。

需要说明的是，需要对动态手势的手势动作骨架帧序列均匀采样得到初始骨架序列，然后将初始骨架数据存入初始数据集。其中，所采集的初始骨架序列对应的手势动作的骨架序列不少于60帧，则可以针对一个手势动作对应的初始骨架序列可更加准确地分析手势类型。

步骤S220：将骨架有效序列进行数据增强处理，得到目标骨架序列。

需要说明的是，对初始骨架序列中的有效帧序列截取得到骨架有效序列，然后对骨架有效序列进行增强处理。其中，对骨架有效序列进行增强处理主要是对骨架有效序列的三维关节数据进行缩放、平移或者噪声扰动等操作，从而得到目标骨架序列，以根据目标骨架序列进行手势类型分析更加准确。

在本申请的一些实施例中，自注意力模块包括：空间Transformer模块和时间Transformer模块；时空特征包括：运动轨迹张量。

需要说明的是，在对目标骨架序列进行处理时，需要先构建自注意力模块，为了更加准确地分析手势所以需要提取手势的时空特征，因此需要构建空间Transformer模块和时间Transformer模块。其中，时间Transformer模块或空间Transformer模块使用自注意力机制挖掘输入和输出之间的关系，进而获得了相关的全局信息。由于输入自注意力模块的目标骨架序列为张量，则通过自注意力模块进行分析得到的骨架时空特征也为运动轨迹张量。得到运动轨迹张量后，通过分类头层对运动轨迹张量进行处理得到目标分类分数，通过目标分类分数以确定每一个动作手势对应的手势类型的分数向量，则可以根据目标分类分数中每个分数向量的预测手势类型的分数值，即可确定该动作手势对应的手势类型。

其中，步骤S400可以包括但不限于步骤S410和步骤S420。

步骤S410：基于空间Transformer模块的自注意力机制对目标骨架序列进行自注意力处理，得到骨架空间特征。

需要说明的是，根据空间Transformer模块的自注意力机制对目标骨架序列进行自注意力处理得到骨架空间特征，以通过空间Transformer模块的自注意力机制提取每一帧序列中手势关节的内在空间关系，以得到骨架空间特征。

步骤S420：基于时间Transformer模块的自注意力机制对骨架空间特征进行自注意力处理，得到手势关系沿时间维度的运动轨迹张量。

需要说明的是，得到骨架空间特征后，将骨架空间特征输入时间Transformer模块，通过时间Transformer模块的自注意力机制对骨架空间特征来整合手势关节沿时间维度的运动轨迹信息，也即得到运动轨迹张量。因此，通过空间Transformer模块和时间Transformer模块构建的时空Transformer网络模型能够捕获和利用动态手势全局的时空信息，得到运动轨迹张量，也即随着时间的动态手势变化。通过对运动轨迹张量进行分类头层处理后得到目标分类分数，目标分类分数包括多个分数向量，每一个分数向量对应一个动作手势的向量，所以通过分数向量的最大预测分数即可知道这个动作手势对应的手势类型。

在本申请的一些实施例中，空间Transformer模块包括：线性投影层、多个空间Transformer块、第一池化层。

需要说明的是，为了提取动态手势的时空特征以得到运动轨迹张量，需要构建空间Transformer模块和时间Transformer模块。其中，空间Transformer模块包括：线性投影层、多个空间Transformer块和第一池化层。线性投影层连接多个空间Transformer块，多个空间Transformer块另一端连接第一池化层。其中，空间Transformer块包括：多头自注意力块、多层感知机块、两个层归一层和两个残差结构。每一个多头自注意力块和多层感知机块之前连接一个层归一化层，且每一个多头自注意力块和多层感知机块之后与残差结构连接。

其中，请参照图4，步骤S410可以包括但不限于步骤S411、步骤S412、步骤S413和步骤S414。

步骤S411：基于线性投影层对目标骨架序列进行投影映射处理，得到骨架嵌入信息。

需要说明的是，将目标骨架序列输入至线性投影层后，线性投影层对目标骨架序列进行投影映射处理以得到骨架嵌入信息。其中，将目标骨架序列进行投影到任意维度，记为C。因此，通过线性投影层将目标骨架序列映射为骨架嵌入信息进行输出。

步骤S412：将预设的空间位置信息嵌入骨架嵌入信息，得到第一初始张量。

需要说明的是，目标骨架序列经过线性投影层得到骨架嵌入信息，然后将预设空间位置信息嵌入骨架嵌入信息得到第一初始张量。

步骤S413：基于多个空间Transformer块对第一初始张量进行自注意力处理，得到空间张量。

需要说明的是，空间Transformer块设置L个，且根据用户自定义设置，则通过L个空间Transformer块对第一初始张量进行自注意力处理得到空间张量。

请参照图5可知，空间Transformer块包括：多头自注意力块、多层感知机块、两个层归一层和两个残差结构，每一个多头自注意力块和多层感知机块之前连接一个层归一化层，且每一个多头自注意力块和多层感知机块之后与残差结构连接。

步骤S414：基于第一池化层对空间张量进行池化处理，得到骨架空间特征。

需要说明的是，经过多个空间Transformer块后得到空间张量，空间张量输入第一池化层，且第一池化层为全局平均池化层。以通过第一池化层对空间张量进行池化处理得到骨架空间特征，因此通过空间Transformer模块提取每一帧序列中手势关节的内在空间关系得到骨架空间特征，从而提高手势骨架识别准确率。

具体地，多头自注意力块中的自注意力机制思路为：首先将输入张量同时映射为queries，keys和values，计算queries和keys之间的点积后再使用Softmax分类器得到自注意力权重，即特征序列中各个元素的概率值，最后将注意力权重作为系数计算values的加权和得到输出结果。

例如，空间多头自注意力块计算过程中，对于第1层多头自注意力块中的目标骨架序列的第t帧、第p个手势关节，其对应的query、key和value向量，由第1-1层模块的输出表示

通过线性投影得到：

式中，LN()表示LayerNorm，注意力头数a∈{1,...,A}，每个注意力头数的维度设置为D_h＝D/A。自注意力权重通过点积计算，空间自注意力权重

的计算过程如下：

其中，SM()为Softmax分类器，N为关节总数。在空间自注意力情况下，只使用与query来自同一帧的keys进行了N+1次query-key计算，使得计算量显著减少。

第1层最后的注意力编码

首先利用每个注意力头的自注意力权重计算values向量的加权和：

然后将所有的注意力头连接并投影，可以得到：

得到多头自注意力块的输出后通过残差结构连接LayerNorm层与多层感知机块组成空间Transformer块。通过将骨架嵌入信息通过L个空间Transformer块后得到空间张量，然后将空间张量输入第一池化层进行池化处理得到骨架空间特征。因此，目标骨架序列通过空间Transformer模块的自注意力机制能够提取每一帧序列中手势关节的内在空间关系，得到骨架空间特征。

在本申请的一些实施例中，请参照图6，时间Transformer模块包括：多个时间Transformer块、第二池化层。当骨架空间特征输出后，将预设的时间位置信息嵌入骨架空间特征，然后将嵌入时间位置信息的骨架空间特征输入多个时间Transformer块，然后时间Transformer块输出的时间张量进入第二池化层。其中，时间Transformer块包括：多头自注意力块、多层感知机块、两个层归一化层和两个残差结构，在每个多头自注意力块和多层感知机块之前连接一个层归一化层，并在每个多头自注意力块和多层感知机块之后与残差结构连接。

其中，请参照图7，步骤S420可以包括但不限于步骤S421、步骤S422和步骤S423。

步骤S421：将预设的时间位置信息嵌入骨架空间特征，得到初始骨架空间特征。

需要说明的是，将预设的时间位置信息嵌入骨架空间特征，得到带有时间位置信息的初始骨架空间特征。

步骤S422：基于多个时间Transformer块对初始骨架空间特征进行自注意力处理，得到时间张量。

需要说明的是，空间Transformer模块输出骨架空间特征后，将时间位置信息嵌入骨架空间特征以得到初始骨架空间特征，并将初始骨架空间特征输入多个时间Transformer块，通过多个时间Transformer块对初始骨架空间特征进行自注意力处理得到时间张量。

其中，时间Transformer块包括：层归一化层、多头自注意力块、多层感知机块。其中，层归一化层为LayerNorm，分别在两个LayerNorm之前添加残差结构连接至多头自注意力块和多层感知机块。

步骤S423：基于第二池化层对时间张量进行池化处理，得到运动轨迹张量。

需要说明的是，时间Transformer块输出时间张量至第二池化层，第二池化层对时间张量进行池化处理得到运动轨迹张量。

其中，时间Transformer模块基于自注意力机制对骨架空间特征进行自注意力处理的具体过程请参照上述的空间Transformer模块对目标骨架序列的处理过程，此处不再赘述。

在本申请的一些实施例中，指尖特征为指尖张量，步骤S600可以包括但不限于步骤：将运动轨迹张量和指尖张量进行融合，得到目标特征张量。

需要说明的是，指尖张量包括多个手势动作的特征向量，且特征向量包含手势动作的时空特征信息，所以通过将运动轨迹张量和指尖张量进行融合，即可得到目标特征张量。

其中，步骤S700通过将目标特征张量进行分类头层处理得到目标分类分数，且目标分类分数由一个批量的手势动作对应的分数向量构成，所以通过获取一个手势动作对应的分数向量，并根据分数向量中预测手势类型的分数值，获取分数向量中最大预测分数值对应的手势类型以确定手势分类结果。其中，分数向量中的手势类型由手势标签进行标注，因此通过获取目标分类分数中每个分数向量的最大预测分数值对应的手势标签，即可得到手势分类结果。

具体地，由于分数向量由对应动态手势的骨架序列得到，所以根据分数向量得到手势动作对应的手势标签以得到手势分类结果，即可根据手势分类结果可知整个动态过程对应的手势类型。其中，手势类型包括以下任意一种Grab、Tap、Expand、Pinch、RotationCW、Rotation CCW、Swipe Right、Swipe Left、Swipe Up、Swipe Down、Swipe X、Swipe+、Swipe V、Shake。例如，若批量大小为32，得到目标分类分数，且每个动作就是14/28维的分数向量，其中最大预测分数值对应的手势标签为该动作对应的手势类型。如果第六个维度的预测分数值最大，那么模型输出就是将这个动作分类为第六类手势。

在本申请的一些实施例中，在执行步骤S810之前，动态手势识别方法还包括：对神经网络模型进行训练，得到动态手势识别模型。

需要说明的是，构建动态手势识别模型之前，通过对神经网络模型进行训练得到动态手势识别模型，从而提高动态手势识别模型识别手势类型的准确性。

其中，请参照图8，对神经网络模型进行训练，得到动态手势识别模型，具体包括但不限于步骤S810、步骤S820、步骤S830、步骤S840、步骤S850和步骤S860。

步骤S810：获取训练数据集和测试数据集。

需要说明的是，采集已经公开的动态手势数据集，根据预设数据比例将动态手势数据集划分为训练数据集和测试数据集。其中，预设数据比例为7：3。

步骤S820：根据训练数据集对神经网络模型进行训练，得到初始分类分数。

需要说明的是，通过训练数据集对神经网络模型进行训练得到初始分析分数，且初始分类分数由一个批量大小的手势动作对应的分数向量构成。

步骤S830：根据初始分类分数使用预设的交叉熵损失函数计算神经网络模型的损失函数值。

需要说明的是，得到初始分类分数后，根据使用预设的交叉熵损失函数对神经网络模型进行损失函数值计算，即可根据损失函数值确定神经网络模型的损失函数值。

步骤S840：根据损失函数值，根据预设的反向传播算法对神经网络模型的参数权重进行更新和优化，得到动态手势识别模型。

步骤S850：对动态手势识别模型进行迭代训练，直到损失函数值达到最小，得到优化的动态手势识别模型；

需要说明的是，执行步骤S850之前，重复执行步骤S810至步骤S840，以对动态手势识别模型进行迭代训练，直到损失函数值达到最小，以得到优化的动态手势识别模型。

步骤S860：根据测试数据集对动态手势识别模型进行校验与优化，以得到最终的动态手势识别模型。

需要说明的是，利用测试数据集对迭代训练后的动态手势识别模型进行识别准确率验证，直到识别准确率达到最优为止，获得训练好的动态手势识别模型。

另外，请参照图9，本申请的另一个实施例公开了一种动态手势识别装置，装置包括：获取模块901，用于获取待处理动态手势的初始数据集和指尖相对位置信息；其中，初始数据集包括手势动作的初始骨架序列；预处理模块902，用于对初始数据集的初始骨架序列进行预处理，得到目标骨架序列；输入模块903，用于将目标骨架序列输入预设的动态手势识别模型；其中，动态手势识别模型包括：自注意力模块904；自注意力模块，用于基于自注意力机制对目标骨架序列进行手势特征提取，得到骨架时空特征；自注意力模块905，还用于基于自注意力机制对指尖相对位置信息进行自注意力处理，得到指尖特征；融合模块，用于将骨架时空特征和指尖特征进行融合，得到目标特征张量；分数计算模块906，用于对目标特征张量进行分类头层处理，得到目标分类分数；分类模块907，用于获取目标分类分数中最高分类分数对应的手势标签，得到手势分类结果。

本公开实施例的动态手势识别装置用于执行上述实施例中图1至图8的动态手势识别方法，其具体处理过程与上述实施例中的动态手势识别方法相同，此处不再一一赘述。

本公开实施例的动态手势识别方法，通过采用自注意力模块的自注意力机制对目标骨架序列和指尖相对位置信息进行自注意力处理得到骨架时空特征和指尖特征，解决了现有动态手势识别网络对动态手势的时空信息挖掘利用不充分的问题以及对细微手势动作建模不足的问题，在保证手势识别实时性的同时提高了动态手势识别的准确性和精确性。

另外，本申请的另一个实施例公开了电子设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述的动态手势识别方法。该电子设备可以为包括手机、平板电脑、台式电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图10，图10示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器101，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器102，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器102可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器102中，并由处理器101来调用执行本公开实施例的图像处理方法；

输入/输出接口103，用于实现信息输入及输出；

通信接口104，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线105，在设备的各个组件(例如处理器101、存储器102、输入/输出接口103和通信接口104)之间传输信息；

其中处理器101、存储器102、输入/输出接口103和通信接口104通过总线105实现彼此之间在设备内部的通信连接。

本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述图像处理方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1至图8中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种动态手势识别方法，其特征在于，方法包括：

获取待处理动态手势的初始数据集和指尖相对位置信息；其中，所述初始数据集包括手势动作的初始骨架序列；所述指尖相对位置信息根据同一帧内其它四个指尖位置相对拇指指尖位置的相对位置向量确定；

基于所述自注意力模块的自注意力机制对所述指尖相对位置信息进行特征提取，得到指尖特征；

2.根据权利要求1所述的动态手势识别方法，其特征在于，所述对所述初始数据集的初始骨架序列进行预处理，得到目标骨架序列，包括：

3.根据权利要求1所述的动态手势识别方法，其特征在于，所述自注意力模块包括：空间Transformer模块和时间Transformer模块；所述时空特征包括：运动轨迹张量；所述基于所述自注意力模块的自注意力机制对所述目标骨架序列进行手势特征提取，得到骨架时空特征，包括：

4.根据权利要求3所述的动态手势识别方法，其特征在于，所述空间Transformer模块包括：线性投影层、多个空间Transformer块、第一池化层，所述基于所述空间Transformer模块的所述自注意力机制对所述目标骨架序列进行自注意力处理，得到所述骨架空间特征，包括：

基于所述线性投影层对所述目标骨架序列进行投影映射处理，得到骨架嵌入信息；

5.根据权利要求3所述的动态手势识别方法，其特征在于，所述时间Transformer模块包括：多个时间Transformer块、第二池化层；所述基于所述时间Transformer模块的所述自注意力机制对所述骨架空间特征进行自注意力处理，得到手势关系沿时间维度的运动轨迹张量，包括：

6.根据权利要求5所述的动态手势识别方法，其特征在于，所述指尖特征为指尖张量，所述将所述骨架时空特征和所述指尖特征进行融合，得到目标特征张量，包括：

7.根据权利要求1至6任一项所述的动态手势识别方法，其特征在于，在将所述目标骨架序列输入预设的动态手势识别模型之前，所述方法还包括：

获取训练数据集和测试数据集；

8.一种动态手势识别装置，其特征在于，所述装置包括：

获取模块，用于获取待处理动态手势的初始数据集和指尖相对位置信息；其中，所述初始数据集包括手势动作的初始骨架序列；所述指尖相对位置信息根据同一帧内其它四个指尖位置相对拇指指尖位置的相对位置向量确定；

所述自注意力模块，还用于基于自注意力机制对所述指尖相对位置信息进行特征提取，得到指尖特征；

9.一种电子设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的方法。