CN116092178A

CN116092178A - 一种面向移动端的手势识别和跟踪方法及系统

Info

Publication number: CN116092178A
Application number: CN202211488944.9A
Authority: CN
Inventors: 陈睿明; 曹邹颖; 范思远; 高耕; 顾枢衡; 李明泽; 荣逸鹏; 杨飞; 张子腾; 周浩然; 宋沫飞; 耿新
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-05-09

Abstract

本发明公开了一种面向移动端的手势识别和跟踪方法及系统，包括：手部图像检测模块至少包括YOLOv5的手部检测模型，将原始图像输入手部检测模型进行处理，输出包括检测框、左手置信度、右手置信度及是否有手的置信度的手部图像检测结果；手势估计模块至少包括手势估计模型，手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层，将手部图像检测模块处理后的手部图片输入手势估计模块，输出21个手势关键点估计结果；三维转换模块利用两视图几何，将手势估计模块输出的2D关键点转为3D，使用Levenberg‑Marquardt算法、相机内外参数以及惯性测量单元参数，生成三维关键点坐标，实现手势的识别和跟踪。

Description

一种面向移动端的手势识别和跟踪方法及系统

技术领域

本发明属于图像处理技术领域，涉及一种手势跟踪及估计的方法，主要涉及了一种面向移动端的手势识别和跟踪方法及系统。

背景技术

目前，VR等设备快速发展，对手势交互有着越来越强烈的需求。设备需要根据用户的手势，准确判断其采取的一系列行动，并作出各种丰富的响应。

然而，现有的手势估计方法往往采用较大的模型，无法部署在资源较少的移动端设备上；当前轻量化的模型往往存在精确度较低，三维预测结果不准确的问题。这些原因，制约着移动端设备上手势估计方法的应用。例如，VR眼镜作为移动端设备的其中一种，要求模型尽可能小，运算速度尽可能快，同时，稳定性、准确率都需要达到较高的水平。

发明内容

本发明正是针对现有手势估计方法无法成功部署在移动端设备的问题，提供一种面向移动端的手势识别和跟踪方法及系统，包括手部图像检测模块、手势估计模块及三维转换模块，手部图像检测模块至少包括手部检测模型，所述手部检测模型为YOLOv5，将原始图像输入手部检测模型进行处理，输出手部图像检测结果，所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度；手势估计模块，至少包括手势估计模型，手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层，将手部图像检测模块处理后的手部图片输入手势估计模块，输出21个手势关键点估计结果；三维转换模块利用两视图几何，将手势估计模块输出的2D关键点转为3D，使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数，生成三维关键点坐标，实现手势的识别和跟踪。本案方法和系统在保证手势准确率的同时，也满足了可部署到移动端要求的问题。

为了实现上述目的，本发明采取的技术方案是：一种面向移动端的手势识别和跟踪系统，包括手部图像检测模块、手势估计模块及三维转换模块，

所述手部图像检测模块，至少包括手部检测模型，所述手部检测模型为YOLOv5，将原始图像输入手部检测模型进行处理，输出手部图像检测结果，所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度；

所述手势估计模块，至少包括手势估计模型，手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层，将手部图像检测模块处理后的手部图片输入手势估计模块，输出21个手势关键点估计结果；

所述三维转换模块，利用两视图几何，将手势估计模块输出的2D关键点转为3D，使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数，生成三维关键点坐标，实现手势的识别和跟踪。

为了实现上述目的，本发明还采取的技术方案是：一种面向移动端的手势识别和跟踪方法，包括以下步骤：

S1，手部图像检测：将原始图像输入手部检测模型进行处理，输出手部图像检测结果，所述手部检测模型为YOLOv5，其手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度；

S2,手部图像预处理：对经过步骤S1检测到的手部图像进行预处理，所属预处理至少包括对检测框裁剪图片、缩放大小并进行图像填充；

S3，关键点估计：将经过步骤S2预处理后的手部图片输入手势估计模型进行处理，输出21个手势关键点；所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNetV2 0.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层；

S4，坐标转换：将数据增强后的裁剪框作为原裁剪框，模型输入大小作为目标裁剪框，进行仿射变换，从而得到相应的变换矩阵及其逆矩阵，利用逆变换矩阵，模型预测的关键点坐标转换为完整图像对应的关键点坐标；

S5，结果输出：经过步骤S4的坐标转换，得到左右视图两张完整图像对应的2维关键点坐标，使用Levenberg-Marquardt算法，添加相机内外参数以及惯性测量单元参数，生成3维关键点坐标，得到手势识别和跟踪系统的最终结果；所述Levenberg-Marquardt算法的目标函数为：3维关键点的重投影误差、3维关键点与上一帧3维估计结果的误差以及3维关键点关节长度与标准手势的关节长度的误差。

作为本发明的一种改进，所述步骤S1中的原始图像通过双目鱼眼相机获取，为多帧视频；获取图像时，若第一帧检测到手部的图像，则将此图像直接输入手部检测模型，间隔数帧，再次将图像输入手部检测模型，以此循环，在间隔的数帧中，使用上一帧的检测框。

作为本发明的一种改进，所述步骤S3中，手势估计模型输出结果为21个关键点对应的二维热图，使用soft-argmax算法获取最高点的位置作为关键点的二维坐标。

作为本发明的另一种改进，所述步骤S3的手势估计模型中，将训练数据进行增广，使用均方误差MSE损失函数进行训练模型，所用的MSE函数为：

其中，y为预测的热图结果；

为热图标签值；joint为关键点数量；n为每一批训练的数量；i为输入数据的下标；j为输入数据中相应关键点的下标；

为每张图片每个关键点预测热图与标签热图的均方误差；所述数据增广方法包括但不限于随机镂空、旋转、缩放、平移和颜色增强。

作为本发明的另一种改进，所述步骤S3手势估计模型的输入图片为裁剪后的右手图片，若图片中手部为左手，则对图片进行翻转。

作为本发明的又一种改进，所述步骤S3手势估计模型中使用知识蒸馏和半监督学习策略，通过知识蒸馏，教师模型的知识尽可能迁移到学生模型上，利用教师模型，生成未标注数据的伪标签，补充数据集，训练学生模型。

作为本发明的更进一步改进，所述步骤S5中还包括手势运动的关节角度约束。

与现有技术相比，本发明具有的有益效果：提供了一种面向移动端的手势识别和跟踪方法和系统，间隔一定数量帧进行检测，以期在一定时间内处理更多数据；利用随机镂空数据增广、损失函数等方法进行训练，提高准确率、稳定性；利用轻量化组件、量化模型来实现在移动端上的成功部署；利用优化算法最小化重投影误差生成3D关键点坐标，保证射影不变性，并添加时间、运动学约束；利用知识蒸馏算法来进一步提高模型的性能；利用半监督学习来补充数据集，降低标注成本，教师模型生成伪标签来辅助学生模型的训练。

附图说明

图1是本发明一种面向移动端的手势识别和跟踪系统各模块的工作流程图；

图2是本发明一种面向移动端的手势识别和跟踪方法的步骤流程图；

图3是本发明手势关键点的标注示意图；

图4是本发明手势关键点预测结果示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

一种面向移动端的手势识别和跟踪系统，包括手部图像检测模块、手势估计模块及三维转换模块，如图1所示，手部图像检测模块至少包括手部检测模型，手部检测模型为YOLOv5，将原始图像输入手部检测模型进行处理，输出手部图像检测结果，所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度；

将手部图像检测模块处理后的手部图片输入手势估计模块，手势估计模块中至少包括手势估计模型，手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层，输出二维空间下21个手势关键点估计结果；

利用两视图几何，通过三维转换模块将手势估计模块输出的2D关键点转为3D，使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数优化结果，生成三维关键点坐标，实现手势的识别和跟踪。

终端设备将目标图像输入手部图像检测模块进行处理，输出检测框，将裁剪后的图片输入手势估计模块，得到关键点坐标，再根据左右视图得到3D空间下的关键点坐标，并使用优化算法优化，施加时间、运动学等约束，通过三维转换模块，实现手势的识别和跟踪，保证手势准确率的同时，满足部署到移动端要求的问题。

实施例2

一种面向移动端的手势识别和跟踪方法，如图2所示，包括以下步骤：

S1，手部图像检测：将原始图像输入手部检测模型进行处理，输出手部图像检测结果。

原始图像由鱼眼相机获取，可以为终端设备在当前时刻获取到的图像，该原始图像为实时获取的外界视频图像，且包含有多帧视频图像。其中，可以理解的是，一个当前视频图像可能包含多个原始图像。

手部检测模型采用YOLOv5网络，并且在所用手势数据集下进行微调，输出包括检测框、是否为右手、是否为左手、是否有手。在检测确定检测框时，使用非极大值抑制算法找到最合适的检测框作为最终结果。

S2,手部图像预处理：对经过步骤S1检测到的手部图像进行预处理，根据手部检测框裁剪图片，并缩放到指定大小，并进行图像填充。

S3，关键点估计：将经过步骤S2预处理后的手部图片输入手势估计模型进行处理，输出21个手势关键点；

上述手部检测模型以及手势估计模型，前者可用于对原始图像输出手部检测结果，后者可用于输出估计的关键点热力图。其中，上述手部检测结果为手部矩形检测框、左手置信度、右手置信度以及是否有手的置信度，上述关键点热力图为2维热力图。具体的，检测框为矩形左上角坐标、长度以及宽度。热力图的长度以及宽度都为32像素。

所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层；具体的，第一个反卷积层输入通道数为1024，3个反卷积层的输出通道数分别是256，256，256，内核大小为4，步长为2，填充为1。卷积层输入通道数为256，输出通道数为21，内核大小为1，步长为1，填充为0。

手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块，用来提取特征，在CPU上推理速度较快；姿态网络部分为3个反卷积层与1个内核大小为1的卷积层。模型输入图片为裁剪后的右手图片。若图片中手部为左手，图片进行翻转。模型输出结果为21个关键点对应的2维热图，使用soft-argmax算法获取最高点的位置作为关键点的2维坐标。

此外，手势估计模型还采用数据增广、损失函数提高模型的稳定性以及准确性，具体为：

将训练数据通过随机镂空、旋转、缩放、平移、颜色增强等各种方法进行增广，并将数据集扩大10倍，使用均方误差MSE损失函数进行训练模型。所用的MSE函数为：

其中，y为预测的热图结果；

为每张图片每个关键点预测热图与标签热图的均方误差。

将相应的标签值根据裁剪的结果转换为对应的标签值，并以sigma为1.0将各个关键点坐标分别转换为高斯热图，同时添加高斯噪音，用于训练模型。。

手势估计模型还使用知识蒸馏、半监督学习策略来提高手势估计模型的性能，教师模型使用较大的手势估计模型，学生模型为特征提取部分采用ShuffleNet V2的手势估计模型。通过知识蒸馏，教师模型的知识尽可能迁移到学生模型上。同时，利用教师模型强大的性能，生成未标注数据的伪标签，补充数据集，更好地训练学生模型，并降低标注的成本。

所述模型需尽可能轻量化，采用轻量化组件、量化模型等方法使得模型尽可能达到移动端平台的要求。通过采用ShuffleNet等轻量化网络作为模型的特征提取部分，模型的特征提取能力保证较高的水平同时具有较快的速度。量化部分则将模型转为int8类型，并通过后训练量化和量化感知训练来保证量化后模型的性能接近原始模型。

S4，坐标转换：将数据增强后的裁剪框作为原裁剪框，模型输入大小作为目标裁剪框，进行仿射变换，从而得到相应的变换矩阵及其逆矩阵；利用逆变换矩阵，模型预测的关键点坐标转换为完整图像对应的关键点坐标；

S5，结果输出：经过步骤S4的坐标转换，得到左右视图两张完整图像对应的2维关键点坐标。该步骤使用Levenberg-Marquardt算法，添加相机内外参数以及惯性测量单元参数，采用3维关键点的重投影误差、3维关键点与上一帧3维估计结果的误差以及3维关键点关节长度与标准手势的关节长度的误差共同作为Levenberg-Marquardt算法的目标函数，从而优化生成3维关键点坐标，得到手势识别和跟踪系统的最终结果。

左右视图为左右相机得到的图像。通过左右相机的内参外参以及惯性测量单元的相应参数，使用Levenberg-Marquardt优化算法以及三角测量方法来得到3维空间下的关键点坐标。目标函数使用3维估计点的重投影误差、上一帧估计结果的时间误差以标准关节长度误差来实现。同时添加了手势运动的关节角度约束，并处理了鱼眼畸变问题，最后生成所需的3维关键点坐标，实现手势的识别和跟踪。

实施例3

一种面向移动端的手势识别和跟踪方法，包括如下步骤：

首先，双目鱼眼相机作为终端设备来获取帧图像。若当前帧图像满足手势检测条件，则终端设备将当前帧图像作为输入进行处理。帧图像长宽分别为640像素和400像素的灰度图。

间隔数帧调用手部检测模型检测手部。对于间隔的未检测帧图像，则使用上一帧的检测框结果。可以理解的是，通过间隔合理的帧数调用检测模型，可以在确保准确率的同时，尽可能提高整个系统的速度。

然后，获取到检测框信息后，将检测框扩大为正方形并裁剪。裁剪后的图片缩放到边长为128像素的图片，插值方法使用cv2.INTER_LINEAR。裁剪后的图片作为手势估计模型的输入。

手势估计模型得到裁剪后图像对应的输出，利用增强后检测框转换为边长为128像素正方形的逆矩阵，将得到的输出重新转换到完整图像中对应的输出。其中，裁剪图像仅为包含右手的图像，若图像中手部为左手，图像进行翻转。

执行两次模型推理过程得到左右相机对应的2维手势关键点坐标。利用射影不变的三角测量方法以及Levenberg-Marquardt优化算法，得到3维空间下的该手势关键点坐标，同时保证得到的结果满足时间一致性以及手势的运动学规律。

其中，模型的轻量化流程如下：

得到裁剪后的图片作为数据集进行训练，该数据集仅为右手数据集。将训练集进行随机镂空、平移、旋转、缩放、颜色增强等数据增强，同时将该数据集扩大10倍，并且打乱。

知识蒸馏是一种模型压缩技术，一般使用教师-学生框架，可以尽可能将教师的知识迁移给学生。知识蒸馏将准确度较高的大模型作为教师，轻量化模型作为学生，使得模型在具有较高准确度的结果同时，拥有足够的速度、较小的模型规模。同时，使用更强大的教师网络为未标记图像生成较准确的伪标签，补充数据集，辅助训练学生网络至收敛。测试阶段，评价指标采用关键点的平均绝对偏差。

选择准确度最高的模型。此模型进行后训练量化以及量化感知训练，使其量化为int8类型，加快推理速度。

图3为步骤S3中2维结果各关键点的示意图。图中标注了21个手势关键点，0为手掌关键点，1-4为大拇指上4个关键点，5-8为食指上4个关键点，9-12为中指上4个关键点，13-16为无名指上4个关键点，17-20为小指上4个关键点。裁剪后的图片输入手势估计模型，会得到各个关键点对应的热力图。热力图反应了目标的位置。图4为步骤S3中得到的2维裁剪图像预测结果的可视化图。该图准确预测出了手势的21个关键点。

综上，本发明方法将原始图像输入手部检测模型进行处理，输出包括检测框、左手置信度、右手置信度及是否有手的置信度的手部图像检测结果；手势估计模块至少包括手势估计模型，手势估计模型网络的特征提取部分为轻量化网络ShuffleNetV20.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层，将手部图像检测模块处理后的手部图片输入手势估计模块，输出21个手势关键点估计结果；三维转换模块利用两视图几何，将手势估计模块输出的2D关键点转为3D，使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数，生成三维关键点坐标，实现手势的识别和跟踪，在保证手势准确率的同时，也满足了可部署到移动端要求的问题。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向移动端的手势识别和跟踪系统，包括手部图像检测模块、手势估计模块及三维转换模块，

2.一种面向移动端的手势识别和跟踪方法，其特征在于，包括以下步骤：

S3，关键点估计：将经过步骤S2预处理后的手部图片输入手势估计模型进行处理，输出21个手势关键点；所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V20.5x模块，姿态网络部分为3个反卷积层与1个内核大小为1的卷积层；

3.如权利要求2所述的一种面向移动端的手势识别和跟踪方法，其特征在于：所述步骤S1中的原始图像通过双目鱼眼相机获取，为多帧视频；获取图像时，若第一帧检测到手部的图像，则将此图像直接输入手部检测模型，间隔数帧，再次将图像输入手部检测模型，以此循环，在间隔的数帧中，使用上一帧的检测框。

4.如权利要求3所述的一种面向移动端的手势识别和跟踪方法，其特征在于：所述步骤S3中，手势估计模型输出结果为21个关键点对应的二维热图，使用soft-argmax算法获取最高点的位置作为关键点的二维坐标。

5.如权利要求3所述的一种面向移动端的手势识别和跟踪方法，其特征在于：所述步骤S3的手势估计模型中，将训练数据进行增广，使用均方误差MSE损失函数进行训练模型，所用的MSE函数为：

其中，y为预测的热图结果；

6.如权利要求4或5所述的一种面向移动端的手势识别和跟踪方法，其特征在于：所述步骤S3手势估计模型的输入图片为裁剪后的右手图片，若图片中手部为左手，则对图片进行翻转。

7.如权利要求6所述的一种面向移动端的手势识别和跟踪方法，其特征在于：所述步骤S3手势估计模型中使用知识蒸馏和半监督学习策略，通过知识蒸馏，教师模型的知识尽可能迁移到学生模型上，利用教师模型，生成未标注数据的伪标签，补充数据集，训练学生模型。

8.如权利要求7所述的一种面向移动端的手势识别和跟踪方法，其特征在于：所述步骤S5中还包括手势运动的关节角度约束。