CN113792651B

CN113792651B - 一种融合手势识别和指尖定位的手势交互方法、设备及介质

Info

Publication number: CN113792651B
Application number: CN202111070817.2A
Authority: CN
Inventors: 梁英男; 刘光禄; 李文锋; 张守龙
Original assignee: GRG Banking Equipment Co Ltd
Current assignee: GRG Banking Equipment Co Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2024-04-05
Anticipated expiration: 2041-09-13
Also published as: CN113792651A

Abstract

本发明公开了一种融合手势识别和指尖定位的手势交互方法、设备及存储介质，其交互方法包括获取视频信息，对视频信息进行手部检测以获得手部位置以及手势类别；对视频信息进行预处理后获得手部图像，利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置，并对手指概率以及手指位置进行优化以获得手势的指尖位置；根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。本发明可统一对不同手势类别的手指指尖进行定位，避免不同的手势采用不同的指尖定位模型，减少模型数量，提高模型的速度，同时提高指尖定位的精度。

Description

一种融合手势识别和指尖定位的手势交互方法、设备及介质

技术领域

本发明涉及计算机图形处理领域，尤其涉及一种融合手势识别和指尖定位的手势交互方法、设备及存储介质。

背景技术

目前，手势交互是将手势信息转化为用户指令的一种交互方式,主要是利用计算机视觉和计算机图形学等技术对人的肢体语言进行识别，随着虚拟现实技术(VirtualReality，VR)和增强现实技术(Augmenting Reality，AR)的兴起,尤其是智能眼镜等头戴式设备的出现，急需新的手势交互方法来帮助设备理解人的交互需要。

而现有的手势交互方法，但只能检测单指指尖的情况，当使用多个手指进行空中交互的时候，比如抓取、放大缩小等手势时，这种方法需要针对不同的手势类别采用不同的模型进行指尖定位，因为可见的手指数量不同，因此需要采用不同的模型进行检测，使用多个模型比较复杂，且速度较慢。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种融合手势识别和指尖定位的手势交互方法，可统一对不同手势类别的手指指尖进行定位，同时提高指尖定位的精度。

本发明的目的之二在于提供一种电子设备。

本发明的目的之三在于提供一种存储介质。

本发明的目的之一采用如下技术方案实现：

一种融合手势识别和指尖定位的手势交互方法，包括：

获取视频信息，对视频信息进行手部检测以获得手部位置以及手势类别；

对视频信息进行预处理后获得手部图像，利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置，并对手指概率以及手指位置进行优化以获得手势的指尖位置；

根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。

进一步地，利用二进制序列输出手部位置以及手势类别；其中，每个手指所对应的二进制序列为，指尖位置序列为，二进制指尖序列和对应的位置相乘，则输出为；若坐标为则认为手指隐藏并忽略。

进一步地，利用全卷积网络对手指概率进行预测的方法为：

将手部图像输入MobileNetV3网络后经过至少两个FC层以对手指概率进行特征提取以完成手指概率的预测。

进一步地，利用全卷积网络对手指位置进行预测的方法为：

将手部图像输入MobileNetV3网络后经过至少三个上采样转置卷积进行特征抽取以完成手指位置的预测。

进一步地，对手指概率进行优化的方法为：

使用二值交叉熵损失函数优化输出概率以获得概率损失函数；其中N为概率输出的长度，M为一次输入的图片张数，表示样本预测为N类的概率，是样本标签，是模型预测样本标签。

进一步地，对手指位置进行优化的方法为：

采用均方误差损失函数对手指位置进行优化以获得位置损失函数；其中，表示手指是否可见，是0和1组成的序列，若为0则不对该手指进行计算，,表示手指的坐标序列，是样本坐标，是模型预测样本坐标。

进一步地，获得手势的指尖位置的方法为：

将概率损失函数以及位置损失函数进行叠加以获得总损失函数；

使用总损失函数对当前手势类别进行指尖定位。

进一步地，对视频信息进行预处理的方法为：

根据手部位置对视频信息进行剪切矫正以获得剪切后的手部图像。

本发明的目的之二采用如下技术方案实现：

一种电子设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的融合手势识别和指尖定位的手势交互方法。

本发明的目的之三采用如下技术方案实现：

一种存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述的融合手势识别和指尖定位的手势交互方法。

相比现有技术，本发明的有益效果在于：

将手势类别和指尖定位进行融合，使用单一的全卷积网络对不同手势进行指尖定位，避免针对不同手势类别采用不同的指尖检测，减少了模型的数量，提高模型的速度；并在卷积网络后添加多个采样转置卷积，可提高指尖定位的精度。

附图说明

图1为本发明融合手势识别和指尖定位的手势交互方法的流程框图；

图2为本发明特征识别的流程框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

本实施例提供一种融合手势识别和指尖定位的手势交互方法，可将手势类别和指尖定位两个子任务进行统一，避免针对不同手势类别采用不同的指尖检测，减少了模型的数量，提高模型的速度。

如图1所示，本实施例的手势交互的方法具体包括如下步骤：

步骤S1：获取视频信息，对视频信息进行手部检测以获得手部位置以及手势类别。

本实施例通过摄像设备拍摄获得视频信息后，将视频信息导入预设的手部检测模型中，手部检测模型输出手部位置及其手势类别。其手部检测模型可以通过手部关键点的方式进行手部位置以及手势识别检测，即使用标注有人手关键点的数据集训练神经网络，使用多个不同视角的摄像头拍摄人手的图像导入神经网络中以检测关键点，将这些关键点根据摄像机的位姿构建三角，得到关键点的3D位置，再将计算得到的3D点位置重投影到每一幅不同视角的2D图像，再使用这些2D图像和关键点标注训练检测模型网络，经过几次迭代，即可以得到较为精确的手部关键点检测模型。而该手部检测模块的构建方法在现有技术中已经公开，在此不做详细说明。

本实施例中将视频图像导入上述手部检测模块中获得手部关键点，从而即可获得图像中的手部位置以及手势类别。

本实施例为了让手势类别和指尖定位进行融合，将手势类别和指尖定位两个子任务进行统一，即通过二进制序列方式来表示每个手指的输出，具体为：手势类别则是不同数量可见手指的组合，一只手手指数目是固定为N(N＝5)，可在特定手势中手指的数量i(i∈1,2,3,...,N)是可变的，指尖坐标的数量对应为2i，而手部检测模型中卷积神经网络的输出数量必须是固定的。为了解决这个矛盾，本实施例采用长度为N的二进制序列(p₁,p₂,p₃,...,p_N)表示每个手指的输出，对于可见的手指给出较高的置信度，对于隐藏的手指给出较低的置信度，由于手指可见和隐藏的概率相同，取阈值为0.5，大于阈值输出为1，表示手指可见，反则为0表示手指隐藏。因此，对应的指尖位置序列为((x₁,y₁),(x₂,y₂),(x₃,y₃),...,(x_N,y_N))，二进制指尖序列和对应的位置相乘，则输出为(p₁×(x₁,y₁),p₂×(x₂,y₂),p₃×(x₃,y₃),...,p_N×(x_N,y_N))，若坐标为(0，0)则认为手指隐藏并忽略。

步骤S2：对视频信息进行预处理后获得手部图像，利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置，并对手指概率以及手指位置进行优化以获得手势的指尖位置。

本实施例在确定手部位置以及手势类别后，根据手部位置对视频信息进行剪切处理以获得手部位置所对应的手部图像，在视频剪切过程中，还需要对图像进行图片矫正，例如对图片中存在的变形或倾斜等问题进行矫正，以进一步提高图像中指尖识别准确度。

如图2所示，本实施例的采用对剪切后的手部图像使用轻量级的卷积神经网络MobileNetV3网络进行特征提取以获得手指概率和手指位置，其中手指概率的预测方法为：在MobileNetV3网络的输出端添加至少两个FC层(Fully Connected layer，全连接层)，利用FC层对经过多次卷积后高度抽象化的特征进行整合并进行归一化处理后输出一个概率，将该概率作为手指概率，以完成手指概率的预测。

而手指位置的预测方法为在在MobileNetV3网络的输出端添加至少三个上采样转置卷积，手部图像经过MobileNetV3网络后在经过至少三个上采样转置卷积可获得手部图像中还原度更高的指尖位置和语义信息，即手指位置预测分支添加至少三个上采样转置卷积进行特征抽取，可提高指尖定位的精度。

在对手指概率和手指位置进行预测后，还需对手指概率以及手指位置进行优化，具体为：由于手指概率为0或1，因此使用二值交叉熵损失函数L₁优化输出概率，损失函数L₁为

其中，N为概率输出的长度，M为一次输入的图片张数，Ρ＝[p₁,p₂,p₃,...p_N]表示样本预测为N类的概率，是样本标签，而是则模型预测样本标签。

本实施例中手指位置采用均方误差(MSE)损失函数进行优化；如L₂所示，1^finger表示手指是否可见，是0和1组成的序列，若为0则不对该手指进行计算，X＝[x₁,x₂,...x_N,y₁,y₂,...y_N],表示手指的坐标序列，是样本坐标，/>是模型预测样本坐标。

而总的损失函数L为概率损失函数L₁和位置损失函数L₂之和，即L＝L₁+L₂，使用该总的损失函数来表现预测与实际数据的差距程度，从而获得准确的指尖位置。

本实施例将手势类别和指尖定位两个子任务进行统一，避免针对不同手势类别采用不同的指尖定位模型的技术问题，减少了模型的数量，提高模型的速度；同时在主干网络后添加多个上采样转置卷积，提高了指尖定位的精度。

步骤S3：根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。

本实施例在获得准确的手部位置、手势类别以及指尖位置等手部姿态信息后，将手势信息转化为用户指令对系统进行控制，从而实现手势交互的功能。

实施例二

本实施例提供一种电子设备，包括存储器、处理器以及存储在存储器中的程序，所述程序被配置成由处理器执行，处理器执行所述程序时实现实施例一所述的融合手势识别和指尖定位的手势交互方法。

另外，本发明还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述的融合手势识别和指尖定位的手势交互方法。本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本实施例中的设备及存储介质与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施例中的系统的结构及实施过程，为了说明书的简洁，在此就不再赘述。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种融合手势识别和指尖定位的手势交互方法，其特征在于，包括：获取视频信息，对视频信息进行手部检测以获得手部位置以及手势类别；利用二进制序列输出手部位置以及手势类别；其中，每个手指所对应的二进制序列为(p1,p2,p3,...,pN)，指尖位置序列为((x1,y1),(x2,y2),(x3,y3),...,(xN,yN))，二进制指尖序列和对应的位置相乘，则输出为(p1×(x1,y1),p2×(x2,y2),p3×(x3,y3),...,pN×(xN,yN))；若坐标为(0，0)则认为手指隐藏并忽略；

对视频信息进行预处理后获得手部图像，利用全卷积网络对手部图像进行特征提取以输出手指概率以及手指位置，并对手指概率以及手指位置进行优化以获得手势的指尖位置；其中，使用二值交叉熵损失函数对手指概率进行优化，采用均方误差损失函数对手指位置进行优化；根据手部位置、手势类别以及指尖位置生成对应的交互指令并将其发送至指定终端以执行对应交互操作。

2.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法，其特征在于，利用全卷积网络对手指概率进行预测的方法为：将手部图像输入MobileNetV3网络后经过至少两个FC层以对手指概率进行特征提取以完成手指概率的预测。

3.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法，其特征在于，利用全卷积网络对手指位置进行预测的方法为：将手部图像输入MobileNetV3网络后经过至少三个上采样转置卷积进行特征抽取以完成手指位置的预测。

4.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法，其特征在于，对手指概率进行优化的方法为：使用二值交叉熵损失函数优化输出概率以获得概率损失函数

其中N为概率输出的长度，M为一次输入的图片张数，Ρ＝

[p1,p2,p3,...pN]表示样本预测为N类的概率，P是样本标签，是模型预测样本标签。

5.根据权利要求4所述的融合手势识别和指尖定位的手势交互方法，其特征在于，对手指位置进行优化的方法为：采用均方误差损失函数对手指位置进行优化以获得位置损失函数

其中，1^finger表示手指是否可见，是0和1组成的序列，若为0则不对该手指进行计算，X＝[x₁,x₂,....x_N,y₁,y₂,...y_N]，表示手指的坐标序列，X是样本坐标，是模型预测样本坐标。

6.根据权利要求5所述的融合手势识别和指尖定位的手势交互方法，其特征在于，获得手势的指尖位置的方法为：将概率损失函数以及位置损失函数进行叠加以获得总损失函数L＝L1+L2；

使用总损失函数对当前手势类别进行指尖定位。

7.根据权利要求1所述的融合手势识别和指尖定位的手势交互方法，其特征在于，对视频信息进行预处理的方法为：根据手部位置对视频信息进行剪切矫正以获得剪切后的手部图像。

8.一种电子设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1～7任一所述的融合手势识别和指尖定位的手势交互方法。

9.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现权利要求1～7任一所述的融合手势识别和指尖定位的手势交互方法。