CN114973408B

CN114973408B - 一种动态手势识别方法及装置

Info

Publication number: CN114973408B
Application number: CN202210507278.2A
Authority: CN
Inventors: 葛晨阳; 屈渝立; 魏颢; 符亚东; 周艳辉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-02-23
Anticipated expiration: 2042-05-10
Also published as: CN114973408A

Abstract

一种动态手势识别方法及装置，包括：手势视频采集模块、动态手势检测模块和动态手势识别模块；手势视频采集模块，用于手势动作视频数据的采集和生成，并将所生成的手势动作视频数据发送给动态手势检测模块和动态手势识别模块；动态手势检测模块，用于对所生成的手势动作视频数据进行动态手势检测；动态手势识别模块，用于在接到动态手势检测模块发来的要求进行动态手势识别的通知后进行动态手势识别。该方法及装置可对设定的多种动态手势进行实时识别，具备延时短、识别准确率高的特点，适用于可见光、红外、RGB‑Depth或IR‑Depth视频流中的动态手势检测和识别，可广泛用于智能车、智能家居、机器人等领域的自然交互。

Description

一种动态手势识别方法及装置

技术领域

本公开属于计算机视觉和模式识别技术领域，具体涉及一种动态手势识别方法及装置。

背景技术

手势作为人们与生俱来的一种自然交互方式，是人与人、人与机器、甚至是类人智能机器与机器之间沟通交流的重要桥梁，在许多领域都存在迫切需求，如聋哑人交流、智能家居、机器人、医疗国防等。如何获得高精度、高准确率的手势识别已成为手势交互研究的关键。

汽车作为承载生活必需的移动空间装置，当前正掀起一场传统汽车被智能车取代的变革，其中车内的创新功能与交互体验有可能成为智能车凸显其产品差异化和创新性的重要标志。对于智能车内的交互，手势能够最大限度地减少认知和视觉沟通成本，将与语音、人脸、动作等识别技术相结合用于车内自然交互，使智能车不仅成为人们日常生活代步工具，还能成为一种全新的移动式智能家居、智能办公场所。当前手势识别技术在智能车中大规模普及应用还存在一些挑战。比如存在动态手势识别率不够高，只能识别一些特定手势动作，存在难以准确识别动态手势，环境和汽车颠簸影响识别准确性、多乘员的手势识别、远距离手势识别等难题。

发明内容

鉴于此，本公开提供了一种动态手势识别装置，包括：手势视频采集模块、动态手势检测模块和动态手势识别模块；其中，

所述手势视频采集模块，用于手势动作视频数据的采集和生成，并将所生成的手势动作视频数据发送给动态手势检测模块和动态手势识别模块；

所述动态手势检测模块，用于对所生成的手势动作视频数据进行动态手势检测，包括视频缓存模块1、手势检测模块1、手势骨骼关键点提取模块1、手势关键点偏移判别模块；

所述动态手势识别模块，用于在接到动态手势检测模块发来的要求进行动态手势识别的通知后进行动态手势识别，包括视频缓存模块2、手势检测模块2、手势骨骼关键点提取模块2、动态手势分类模块；

所述视频缓存模块1，用于对所述手势视频采集模块生成的手势动作视频数据进行缓存，缓存N帧手势图像序列，其中N为整数且N＞1，所缓存的手势图像序列采用先进先出的方式进行更新；

所述手势检测模块1，用于对所述视频缓存模块1缓存的N帧手势图像序列的首帧和尾帧采用预训练好的手势检测深度学习网络进行手势检测；如首尾帧都检测到手势，则框出手势图像区域进入后续的手势骨骼关键点提取处理；否则返回视频缓存模块1，读取更新后的N帧手势图像序列，重新进行手势检测；

所述手势骨骼关键点提取模块1，对N帧手势图像序列首帧和尾帧中框出的手势图像区域，采用预训练好的手势骨骼关键点深度学习网络进行手势骨骼提取，得到对应的2组手势关键点及其坐标；

所述手势关键点偏移判别模块，对所得到的2组手势关键点是否发生偏移进行判别，如偏移量大于等于设定的阈值，则认为手势有偏移，认为当前N帧手势图像序列中包含的手势动作属于动态手势，并通知到动态手势识别模块进行处理；如偏移量小于设定的阈值，则认为手势无偏移，认为当前N帧手势图像序列中包含的手势动作属于静态手势，则返回视频缓存模块1，读取更新后的N帧手势图像序列，重新进行手势检测、手势骨骼关键点提取及手势关键点偏移判别处理；

所述视频缓存模块2，用于对所述手势视频采集模块生成的手势动作视频数据进行缓存，缓存M帧(M为整数，M＞N)手势图像序列，所缓存的手势图像序列可以是连续帧或间隔采集的图像帧，并采用先进先出的方式，不断更新手势图像序列的图像内容；

所述手势检测模块2，对所述视频缓存模块2缓存的M帧手势图像序列采用预训练好的手势检测深度学习网络进行手势检测；对M帧手势图像序列的每一帧或部分关键帧进行手势检测，如检测到手势则框出手势图像区域，并进行手势骨骼关键点提取处理，如没有检测到手势则继续下一帧手势图像或下一关键帧进行手势检测；

所述手势骨骼关键点提取模块2，对所述的手势检测模块2框出的手势图像区域，采用预训练好的手势骨骼关键点深度学习网络进行手势骨骼提取，得到M帧手势图像序列中手势对应的K组手势关键点及其坐标，其中K为整数，K＜＝M；

所述动态手势分类模块，对所生成的K组手势关键点及其坐标，采用预训练好的动态手势分类网络进行分类识别，如高于已设定的一种手势分类阈值，则认为当前M帧手势图像序列中包含的手势动作符合对应类的动态手势，并输出分类识别结果；如低于所有已设定的手势分类阈值，则认为当前M帧手势图像序列中包含的手势动作不属于所有已设定类的动态手势。

本公开还提供了一种动态手势识别方法，包括如下步骤：

S100：手势视频采集模块进行手势动作视频数据的采集和生成，并将所生成的手势动作视频数据发送给动态手势检测模块和动态手势识别模块；

S200：动态手势检测模块对所生成的手势动作视频数据进行动态手势检测，包括如下具体步骤：

S210：视频缓存模块1对所述手势视频采集模块生成的手势动作视频数据进行缓存，缓存N帧手势图像序列，其中N为整数且N＞1，所缓存的手势图像序列采用先进先出的方式进行更新；

S220：手势检测模块1对所述视频缓存模块1缓存的N帧手势图像序列的首帧和尾帧采用预训练好的手势检测深度学习网络进行手势检测；如首尾帧都检测到手势，则框出手势图像区域进入后续的手势骨骼关键点提取处理；否则返回视频缓存模块1，读取更新后的N帧手势图像序列，重新进行手势检测；

S230：手势骨骼关键点提取模块1对N帧手势图像序列首帧和尾帧中框出的手势图像区域，采用预训练好的手势骨骼关键点深度学习网络进行手势骨骼提取，得到对应的2组手势关键点及其坐标；

S240：手势关键点偏移判别模块对所得到的2组手势关键点是否发生偏移进行判别，如偏移量大于等于设定的阈值，则认为手势有偏移，认为当前N帧手势图像序列中包含的手势动作属于动态手势，并通知到动态手势识别模块进行处理；如偏移量小于设定的阈值，则认为手势无偏移，认为当前N帧手势图像序列中包含的手势动作属于静态手势，则返回视频缓存模块1，读取更新后的N帧手势图像序列，重新进行手势检测、手势骨骼关键点提取及手势关键点偏移判别处理；

S300：动态手势识别模块接到动态手势检测模块发来的要求进行动态手势识别的通知后进行动态手势识别，包括如下具体步骤：

S310：所述视频缓存模块2对所述手势视频采集模块生成的手势动作视频数据进行缓存，缓存M帧(M为整数，M＞N)手势图像序列，所缓存的手势图像序列可以是连续帧或间隔采集的图像帧，并采用先进先出的方式，不断更新手势图像序列的图像内容；

S320：手势检测模块2对所述视频缓存模块2缓存的M帧手势图像序列采用预训练好的手势检测深度学习网络进行手势检测；对M帧手势图像序列的每一帧或部分关键帧进行手势检测，如检测到手势则框出手势图像区域，并进行手势骨骼关键点提取处理，如没有检测到手势则继续下一帧手势图像或下一关键帧进行手势检测；

S330：手势骨骼关键点提取模块2对所述的手势检测模块2框出的手势图像区域，采用预训练好的手势骨骼关键点深度学习网络进行手势骨骼提取，得到M帧手势图像序列中手势对应的K组手势关键点及其坐标，其中K为整数，K＜＝M；

S340：动态手势分类模块对所生成的K组手势关键点及其坐标，采用预训练好的动态手势分类网络进行分类识别，如高于已设定的一种手势分类阈值，则认为当前M帧手势图像序列中包含的手势动作符合对应类的动态手势，并输出分类识别结果；如低于所有已设定的手势分类阈值，则认为当前M帧手势图像序列中包含的手势动作不属于所有已设定类的动态手势。

通过上述技术方案，通过手势视频采集模块、动态手势检测模块，动态手势识别模块三个模块，其关键模块适合采用轻量级深度学习网络实现，从而达到对设定的多种动态手势进行实时识别，具备延时短、识别准确率高的特点。该方法及装置不仅适用于可见光RGB视频流，也适用于红外IR视频流、RGB-Depth视频流或IR-Depth视频流中的动态手势检测和识别，可广泛用于智能车、智能家居、机器人等领域的自然交互。

附图说明

图1是本公开一个实施例中所提供的一种动态手势识别方法及装置示意图；

图2是本公开一个实施例中所提供的一种手势检测深度学习网络结构示意图；

图3是本公开一个实施例中所提供的一种手势骨骼关键点深度学习网络结构示意图；

图4是本公开一个实施例中所提供的一种动态手势分类网络结构示意图。

具体实施方式

下面结合附图1至图4对本发明进行进一步的详细说明。

在一个实施例中，参见图1，其公开了一种动态手势识别装置，包括：手势视频采集模块、动态手势检测模块和动态手势识别模块；其中，

就该实施例而言，所缓存的手势图像序列可以是连续帧或间隔采集的图像帧，并采用先进先出的方式，不断更新手势图像序列的图像内容。所述手势骨骼关键点提取模块1得到对应的2组手势关键点(21D，每组21点)及其坐标。所述手势骨骼关键点提取模块2得到M帧手势图像序列中手势对应的K组(K为整数，K＜＝M)手势关键点(21D，每组21点)及其坐标。手势检测模块2中的所述手势检测深度学习网络同所述手势检测模块1中的手势检测深度学习网络。手势骨骼关键点提取模块2中的手势骨骼关键点深度学习网络同所述手势骨骼关键点提取模块1中的手势骨骼关键点深度学习网络。

所述手势关键点偏移判别模块，对上述模块得到的2组手势关键点求取欧氏距离，用于判别是否发生偏移，如欧氏距离值(即偏移量)大于等于设定的阈值，则认为手势有偏移，认为当前N帧手势图像序列中包含的手势动作属于动态手势，并通知到动态手势识别模块进行处理。其中，所述的偏移判断主要基于两帧手势对应的各个关键点的空间位置变化来进行判断，具体实施方案是计算21个关键点对的欧式距离的平均值作为偏移量，偏移阈值的选取取决于具体应用场景对手势识别系统的敏感性要求。可以取原视频图像帧尺寸的十五分之一作为阈值，如果所取两帧的偏移距离(以像素为单位)超过了原始视频尺寸的1/15，则认为手部发生了移动。

在另一个实施例中，所述的手势视频采集模块输出的视频流包括RGB视频流、IR视频流、RGB-Depth视频流和IR-Depth视频流。

就该实施例而言，其视频采集装置可以是可见光RGB摄像头、红外IR摄像头或RGBD深度相机(结构光深度相机、ToF深度相机)，输出的视频流可以是RGB视频流、IR视频流、RGB-Depth视频流或IR-Depth视频流。

在另一个实施例中，所述手势检测深度学习网络包括特征提取模块、特征融合模块、坐标回归模块和置信度回归模块组成，其中，所述特征提取模块主要由卷积层、批量标准化层、激活函数组成；所述特征融合模块将下一层的特征图通过上采样操作和上一层特征图进行尺寸对齐，然后进行逐元素的加法融合特征；所述坐标回归模块将包含了大量抽象语义信息的高维特征进行进一步的映射，回归得到具体的目标框位置坐标和置信度。

就该实施例而言，所述的手势检测深度学习网络，如图2所示，主要包括特征提取模块、特征融合模块、坐标回归模块和置信度回归模块组成。输入图像为手势图像序列的首、尾帧，手势图像的特征提取模块主要由卷积层、批量标准化层、激活函数组成的卷积特征提取模块堆叠而成，通过控制堆叠的层数(N层，N为整数)以及一些算子轻量化的操作(深度可分离卷积替代普通卷积)来严格控制网络的参数量和计算量。特征融合模块是为了提升网络对不同尺度目标的检出能力而采用，具体实施为抽取三个阶段的特征图来进行特征融合，将下一层的特征图通过上采样操作和上一层特征图进行尺寸对齐，然后进行逐元素的加法融合特征，也即为标准的特征金字塔操作。坐标回归模块负责将包含了大量抽象语义信息的高维特征进行进一步的映射，回归得到具体的目标框位置坐标和置信度，这里的置信度即为该目标属于前景/背景的概率，如果仅需要检测单只手，直接取最大置信度的框进行输出即可，如果检测多只手，则使用非极大值抑制算法进行求取。

在另一个实施例中，所述手势骨骼关键点深度学习网络包括特征提取模块、上采样模块和热图回归模块；其中，所述特征提取模块由卷积层、批量标准化层、激活层组成；所述上采样模块由转置卷积层、批量标准化层、激活层组成，主要是用于恢复特征的分辨率，将高维度的特征图映射为热力图；所述热图回归模块捕捉空间位置特征，将特征解码为具体的坐标位置。

就该实施例而言，所述的手势骨骼关键点深度学习网络，如图3所示，主要包括特征提取模块、上采样模块和热图回归模块组成。特征提取模块同与所述的手势检测深度学习网络中采用的特征提取模块相同，也主要由卷积层、批量标准化层、激活层组成的图像特征提取模块堆叠而成。上采样模块由转置卷积层、批量标准化层、激活层组成，主要是用于恢复特征的分辨率，将高维度的特征图映射为热力图，以实现手势骨骼关键点的精确定位。热图回归模块主要负责捕捉空间位置特征，将特征解码为具体的坐标位置，网络最后一层会输出总共21张热图，每一张热图的最大值的位置即可作为对应关键点的位置。

在另一个实施例中，所述动态手势分类网络包括特征提取模块和归一化指数函数；其中，所述特征提取模块包括全连接层、批量标准化层和非线性激活层；所述动态手势分类网络的输入为K组关键点位置的序列，输出为C维特征，表示手势分别属于C个类别的概率；所述归一化指数函数将概率归一化到[0，1]之间。

就该实施例而言，所述的动态手势分类网络，如图4所示，主要包括特征提取模块、归一化指数函数组成。特征提取模块主要由全连接层、批量标准化层、非线性激活层模块堆叠而成。动态手势分类网络的输入为K组关键点位置的序列，输出为C维(C代表类别数)特征，表示手势分别属于C个类别的概率，同时为了方便将最大输出概率和设定的阈值比对，需要利用指数归一化函数将概率归一化到[0，1]之间。

在另一个实施例中，一种动态手势识别方法，包括如下步骤：

就该实施例而言，所述手势视频采集模块采集的视频流可以包括或不包括手势动作在内。通过手势检测模块1对所述视频缓存模块1缓存的N帧手势图像序列的首帧和尾帧(或N帧中选取2个关键帧)采用预训练好的手势检测深度学习网络进行手势检测，并框出手势图像区域。手势骨骼关键点提取模块1对N帧手势图像序列首帧、尾帧(或2个关键帧)中框出的手势图像区域，采用预训练好的手势骨骼关键点深度学习网络进行手势骨骼提取，得到对应的2组手势关键点(21D，每组21点)及其坐标。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种动态手势识别装置，包括：手势视频采集模块、动态手势检测模块和动态手势识别模块；其中，

2.根据权利要求1所述的装置，优选的，所述的手势视频采集模块输出的视频流包括RGB视频流、IR视频流、RGB-Depth视频流和IR-Depth视频流。

3.根据权利要求1所述的装置，所述手势检测深度学习网络包括特征提取模块、特征融合模块、坐标回归模块和置信度回归模块组成，其中，所述特征提取模块主要由卷积层、批量标准化层、激活函数组成；所述特征融合模块将下一层的特征图通过上采样操作和上一层特征图进行尺寸对齐，然后进行逐元素的加法融合特征；所述坐标回归模块将包含了大量抽象语义信息的高维特征进行进一步的映射，回归得到具体的目标框位置坐标和置信度。

4.根据权利要求1所述的装置，所述手势骨骼关键点深度学习网络包括特征提取模块、上采样模块和热图回归模块；其中，所述特征提取模块由卷积层、批量标准化层、激活层组成；所述上采样模块由转置卷积层、批量标准化层、激活层组成，主要是用于恢复特征的分辨率，将高维度的特征图映射为热力图；所述热图回归模块捕捉空间位置特征，将特征解码为具体的坐标位置。

5.根据权利要求1所述的装置，所述动态手势分类网络包括特征提取模块和归一化指数函数；其中，所述特征提取模块包括全连接层、批量标准化层和非线性激活层；所述动态手势分类网络的输入为K组关键点位置的序列，输出为C维特征，表示手势分别属于C个类别的概率；所述归一化指数函数将概率归一化到[0，1]之间。

6.一种动态手势识别方法，包括如下步骤：

S240：手势关键点偏移判别模块对所得到的2组手势关键点是否发生偏移进行判别，如偏移量大于等于设定的阈值，则认为手势有偏移，认为当前N帧手势图像序列中包含的手势动作属于动态手势，并通知到动态手势识别模块进行处理；如偏移量小于设定的阈值，则认为手势无偏移，认为当前N帧手势图像序列中包含的手势动作属于静态手势，则返回视频缓存模块1，读取更新后的N帧手势图像序列，重新进行手势检测、手势骨骼关键点提取及手势关键点偏移判别处理；S300：动态手势识别模块接到动态手势检测模块发来的要求进行动态手势识别的通知后进行动态手势识别，包括如下具体步骤：

7.根据权利要求6所述的方法，所述手势视频采集模块输出的视频流包括RGB视频流、IR视频流、RGB-Depth视频流和IR-Depth视频流。

8.根据权利要求6所述的方法，所述手势检测深度学习网络包括特征提取模块、特征融合模块、坐标回归模块和置信度回归模块组成，其中，所述特征提取模块主要由卷积层、批量标准化层、激活函数组成；所述特征融合模块将下一层的特征图通过上采样操作和上一层特征图进行尺寸对齐，然后进行逐元素的加法融合特征；所述坐标回归模块将包含了大量抽象语义信息的高维特征进行进一步的映射，回归得到具体的目标框位置坐标和置信度。

9.根据权利要求6所述的方法，所述手势骨骼关键点深度学习网络包括特征提取模块、上采样模块和热图回归模块；其中，所述特征提取模块由卷积层、批量标准化层、激活层组成；所述上采样模块由转置卷积层、批量标准化层、激活层组成，主要是用于恢复特征的分辨率，将高维度的特征图映射为热力图；所述热图回归模块捕捉空间位置特征，将特征解码为具体的坐标位置。

10.根据权利要求6所述的方法，所述动态手势分类网络包括特征提取模块和归一化指数函数；其中，所述特征提取模块包括全连接层、批量标准化层和非线性激活层；所述动态手势分类网络的输入为K组关键点位置的序列，输出为C维特征，表示手势分别属于C个类别的概率；所述归一化指数函数将概率归一化到[0，1]之间。