CN118196910B

CN118196910B - 一种手势交互方法、系统、计算机及存储介质

Info

Publication number: CN118196910B
Application number: CN202410612633.1A
Authority: CN
Inventors: 刘晨
Original assignee: Jiangxi Qiushi Higher Research Institute
Current assignee: Jiangxi Qiushi Higher Research Institute
Priority date: 2024-05-17
Filing date: 2024-05-17
Publication date: 2024-07-26
Anticipated expiration: 2044-05-17
Also published as: CN118196910A

Abstract

本发明提供一种手势交互方法、系统、计算机及存储介质，方法包括：获取相互对应的拍摄图像及深度图像，以确定手部区域图像；对手部区域图像进行降维重构，以获取包括若干个通道的二维特征图；构建包括卷积层的手部姿态识别模型，将二维特征图作为卷积层的输入值，以自二维特征图的若干个通道中确定核心通道；于卷积层中对核心通道进行卷积操作，以通过手部姿态识别模型输出手部关节坐标图，根据手部关节坐标图完成手势交互。通过对手部区域图像进行降维重构，仅对核心通道进行卷积操作，显著减少内存访问频率，减少了推理时间，进而提高了手部姿态的识别速度，提升了交互体验。

Description

一种手势交互方法、系统、计算机及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种手势交互方法、系统、计算机及存储介质。

背景技术

人机交互系统通过研究人与计算机之间的互动交流，在最大程度上为人们完成信息管理、服务和处理等功能。从最初的基于传统的硬件设备的交互，比如鼠标、键盘，到现如今的基于计算机视觉的人机交互系统，人机交互的发展非常迅速。

基于计算机视觉的人机交互系统，较为有代表性的产品有AR眼镜，通过AR眼镜上设置的摄像机，可根据佩戴者的视线移动而进行图像拍摄，通过对图像进行手部位置检测及手部姿态识别，在提取手部特征后，将其与静态手势进行比对，即可根据手势来实现对应指令的执行。

现有手部姿态识别多使用深度学习模型通过深度卷积操作来提取图像特征用于预测手部姿态，即将拍摄到的手部图像直接于卷积层内进行卷积运算，以获取手部特征，但卷积操作的维度过高会造成内存访问过于频繁，导致手部姿态的识别速度降低，影响了交互体验。

发明内容

本申请实施例提供了一种手势交互方法、系统、计算机及存储介质，以解决现有技术中在进行手部特征提取时，直接对手部图像进行卷积运算，其卷积操作维度过高，导致手部姿态的识别速度降低，影响交互体验的技术问题。

第一方面，本申请实施例提供了一种手势交互方法，包括以下步骤：

获取相互对应的拍摄图像及深度图像，通过所述拍摄图像及所述深度图像于所述拍摄图像上确定手部区域图像；

对所述手部区域图像进行降维重构，以获取包括若干个通道的二维特征图；

构建包括卷积层的手部姿态识别模型，将所述二维特征图作为所述卷积层的输入值，以对所述二维特征图进行奇异值分解，并获取中间对角矩阵；

将所述中间对角矩阵中的奇异值进行大小排序，以形成奇异值序列，于所述奇异值序列中从大到小方向的1/4处确定第一阈值，并于所述奇异值序列中从小到大方向的1/4处确定第二阈值，通过所述第一阈值及所述第二阈值确定奇异差值，并基于所述第一阈值及所述奇异差值获取奇异值阈值；

将所述中间对角矩阵中的奇异值分别与所述奇异值阈值进行比对，以确定若干个核心奇异值，将所述核心奇异值的坐标作为核心通道坐标，以自若干个通道中确定核心通道；

于所述卷积层中对所述核心通道进行卷积操作，以通过所述手部姿态识别模型输出手部关节坐标图，根据所述手部关节坐标图完成手势交互。

进一步地，所述通过所述拍摄图像及所述深度图像于所述拍摄图像上确定手部区域图像的步骤包括：

通过所述拍摄图像中像素点的像素值，对所述深度图像进行一次分隔，以自所述深度图像中获取第一子图像；

通过所述第一子图像中像素点的深度值，自所述第一子图像中确定第二子图像；

基于所述第二子图像，于所述拍摄图像中划定手部区域，以获取手部区域图像。

进一步地，所述手势交互包括交互指令获取及交互比对展示。

进一步地，当所述手势交互为交互指令获取时候，所述根据所述手部关节坐标图完成手势交互的步骤包括：

预设与所述手部关节坐标图对应的第一纹理贴图，将所述手部关节坐标图与所述第一纹理贴图组合为第一手部模型；

将所述第一手部模型与若干个与不同的交互指令对应的库存手势模型进行匹配，以确定交互指令。

进一步地，当所述手势交互为交互比对展示时，所述根据所述手部关节坐标图完成手势交互的步骤包括：

预设与所述手部关节坐标图对应的第二纹理贴图，将所述手部关节坐标图与所述第二纹理贴图组合为第二手部模型；

将所述第二手部模型与若干个操作手势模型之间进行相似度比对，以自若干个操作手势模型中确定比对手势模型；

投影所述第二手部模型与所述比对手势模型，以完成交互比对展示。

第二方面，本申请实施例提供了一种手势交互系统，应用于如上述技术方案中的手势交互方法，所述系统包括：

获取模块，用于获取相互对应的拍摄图像及深度图像，通过所述拍摄图像及所述深度图像于所述拍摄图像上确定手部区域图像；

预处理模块，用于对所述手部区域图像进行降维重构，以获取包括若干个通道的二维特征图；

提取模块，用于构建包括卷积层的手部姿态识别模型，将所述二维特征图作为所述卷积层的输入值，以对所述二维特征图进行奇异值分解，并获取中间对角矩阵；

分析模块，用于将所述中间对角矩阵中的奇异值进行大小排序，以形成奇异值序列，于所述奇异值序列中从大到小方向的1/4处确定第一阈值，并于所述奇异值序列中从小到大方向的1/4处确定第二阈值，通过所述第一阈值及所述第二阈值确定奇异差值，并基于所述第一阈值及所述奇异差值获取奇异值阈值；

比对模块，用于将所述中间对角矩阵中的奇异值分别与所述奇异值阈值进行比对，以确定若干个核心奇异值，将所述核心奇异值的坐标作为核心通道坐标，以自若干个通道中确定核心通道；

执行模块，用于于所述卷积层中对所述核心通道进行卷积操作，以通过所述手部姿态识别模型输出手部关节坐标图，根据所述手部关节坐标图完成手势交互。

第三方面，本申请实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的手势交互方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的手势交互方法。

相比于现有技术，本发明的有益效果在于：通过自所述拍摄图像中确定所述手部区域图像，可过滤所述拍摄图像中与手部姿态无关的背景信息，一定程度的降低后续对图像处理的复杂度，提升手部姿态识别的效率，在所述手部姿态识别模型中进行所述手部关节坐标图的获取时，通过对所述手部区域图像进行降维重构，仅对所述核心通道进行卷积操作，显著减少内存访问频率，减少了推理时间，进而提高了手部姿态的识别速度，提升了交互体验，且根据所述二维特征图进行所述核心通道的确定，实现了针对不同的所述手部区域图像自适应的确定卷积操作的部分，提高了适用性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

图1为本发明第一实施例中手势交互方法的流程图；

图2为本发明第一实施例中手势交互方中对手部区域图像进行降维重构及奇异值分解的示意图；

图3为本发明第二实施例中手势交互系统的结构框图；

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

请参阅图1，本发明第一实施例提供的手势交互方法，在本实施例中，所述手势交互方法应用于AR眼镜，所述AR眼镜包括设置于镜架上的微型摄像头及微型投影器，所述手势交互方法包括以下步骤：

步骤S10：获取相互对应的拍摄图像及深度图像，通过所述拍摄图像及所述深度图像于所述拍摄图像上确定手部区域图像；

可以理解地，通过设置于镜架上的所述微型摄像头进行所述拍摄图像及所述深度图像的获取，所述拍摄图像与所述深度图像相对应。具体地，所述步骤S10包括：

S110：通过所述拍摄图像中像素点的像素值，对所述深度图像进行一次分隔，以自所述深度图像中获取第一子图像；

将所述拍摄图像中像素点的像素值转换为HSV颜色值，基于所述HSV颜色值确定所述拍摄图像中的背景区域，以自所述拍摄图像中确定背景像素点，于所述深度图像中剔除与所述背景像素点对应的像素点，以获取所述第一子图像。

S120：通过所述第一子图像中像素点的深度值，自所述第一子图像中确定第二子图像；

以所述第一子图像的中心点为基准点，沿长宽方向均缩减50%，以获取示意图像，提取所述示意图像中像素点的深度值，剔除深度值为0的像素点后，获取若干个示意像素点，计算若干个所述示意像素点的平均值，以获取深度均值，通过手部的边缘与手部的中心之间的最大距离及最小距离，基于所述深度均值、所述最大距离及所述最小距离获取深度范围，将若干个所述示意像素点的深度值与所述深度范围进行比对，以保留在所述深度范围内的所述示意像素点，进而获取所述第二子图像。

S130：基于所述第二子图像，于所述拍摄图像中划定手部区域，以获取手部区域图像；

于所述拍摄图像中，将与所述第二子图像中的像素点位置对应的区域选定为手部区域。

步骤S20：对所述手部区域图像进行降维重构，以获取包括若干个通道的二维特征图；

请参阅图2，所述手部区域图像的维度为：高度（H）*宽度（W）*通道数（C），在对所述手部区域图像进行降维重构后，所述二维特征图的维度为：C*（HW）。

步骤S30：构建包括卷积层的手部姿态识别模型，将所述二维特征图作为所述卷积层的输入值，以对所述二维特征图进行奇异值分解，以获取中间对角矩阵；

在实际应用中，大部分数据对应的矩阵都不是方阵，其可能是有很多0的稀疏矩阵，存储量大且浪费空间，通过进行奇异值分解，可将较复杂的矩阵用更小、更简单的3个子矩阵的相乘表示，用这3个小矩阵来描述大矩阵重要的特性。在本实施例中，对所述二维特征图进行奇异值分解后，可获取左奇异矩阵、右奇异矩阵及中间对角矩阵。

步骤S40：将所述中间对角矩阵中的奇异值进行大小排序，以形成奇异值序列，于所述奇异值序列中从大到小方向的1/4处确定第一阈值，并于所述奇异值序列中从小到大方向的1/4处确定第二阈值，通过所述第一阈值及所述第二阈值确定奇异差值，并基于所述第一阈值及所述奇异差值获取奇异值阈值；

所述中间对角矩阵中包括了多个所述奇异值，通过不同的所述奇异值，自适应的确定所述奇异值阈值，具体地，所述奇异值阈值=所述第一阈值+所述奇异差值。

步骤S50：将所述中间对角矩阵中的奇异值分别与所述奇异值阈值进行比对，以确定若干个核心奇异值，将所述核心奇异值的坐标作为核心通道坐标，以自若干个通道中确定核心通道；

在完成所述奇异值阈值的获取后，将大于所述奇异值阈值的所述奇异值确定为所述核心奇异值。

步骤S60：于所述卷积层中对所述核心通道进行卷积操作，以通过所述手部姿态识别模型输出手部关节坐标图，根据所述手部关节坐标图完成手势交互。

需要说明的是，所述手部姿态识别模型还包括特征融合层，当所述卷积层对所述核心通道完成卷积操作后，通过所述特征融合层，将所述卷积层的输出值融合为所述手部关节坐标图。

在本实施例中，所述手势交互包括交互指令获取及交互比对展示，所述交互指令获取指根据所述手部关节坐标图，确定手部姿态，进而确定其指代的操作指令，以AR游戏为例，通过OK的手部姿态，判断当前指令为确认指令；所述交互比对展示指根据所述手部关节坐标图，明确当前手部姿态，并将当前手部姿态与标准姿态进行同步展示，以校正手部姿态，以工人操作培训为例，通过采集工人的手部操作姿态，实时展示手部操作姿态及与手部操作姿态对应的标准操作姿态，可视化的实时纠正工人的不规范操作，提高培训效果。当所述手势交互为交互指令获取时，所述步骤S60包括：

S610：预设与所述手部关节坐标图对应的第一纹理贴图，将所述手部关节坐标图与所述第一纹理贴图组合为第一手部模型；

对所述手部关节坐标图进行所述第一纹理贴图的覆盖，可展示手部整体结构图，方便与标准手部图进行比对操作。

S620：将所述第一手部模型与若干个与不同的交互指令对应的库存手势模型进行匹配，以确定执行交互指令。

在本实施例中，若干个所述库存手势模型均储存于库存组内，当于所述库存组内提取到与所述第一手部模型相同的所述库存手势模型时，将与其对应的所述交互指令确定为所述执行交互指令，并执行相应操作。

当所述手势交互为交互比对展示时，所述步骤S60包括：

S601：预设与所述手部关节坐标图对应的第二纹理贴图，将所述手部关节坐标图与所述第二纹理贴图组合为第二手部模型；

此步骤与步骤S610一致，此处不再进行赘述。

S602：将所述第二手部模型与若干个操作手势模型之间进行相似度比对，以自若干个操作手势模型中确定比对手势模型；

若干个所述操作手势模型均存储于操作库中，当获取到所述第二手部模型后，将所述第二手部模型分别与不同的所述操作手势模型进行相似度比对，将相似度最高的所述操作手势模型选定为所述比对手势模型。

S603：投影所述第二手部模型与所述比对手势模型，以完成交互比对展示

在本实施例中，通过所述微型投影器投影所述第二手部模型及所述比对手势模型，将其实时展示给用户进行观看。

通过自所述拍摄图像中确定所述手部区域图像，可过滤所述拍摄图像中与手部姿态无关的背景信息，一定程度的降低后续对图像处理的复杂度，提升手部姿态识别的效率，在所述手部姿态识别模型中进行所述手部关节坐标图的获取时，通过对所述手部区域图像进行降维重构，仅对所述核心通道进行卷积操作，显著减少内存访问频率，减少了推理时间，进而提高了手部姿态的识别速度，提升了交互体验，且根据所述二维特征图进行所述核心通道的确定，实现了针对不同的所述手部区域图像自适应的确定卷积操作的部分，提高了适用性。

请参阅图3，本发明第二实施例提供了一种手势交互系统，该系统应用于如上述实施例中的所述手势交互方法，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

所述系统包括：

获取模块10，用于获取相互对应的拍摄图像及深度图像，通过所述拍摄图像及所述深度图像于所述拍摄图像上确定手部区域图像；

所述获取模块10包括：

第一单元，用于通过所述拍摄图像中像素点的像素值，对所述深度图像进行一次分隔，以自所述深度图像中获取第一子图像；

第二单元，用于通过所述第一子图像中像素点的深度值，自所述第一子图像中确定第二子图像；

第三单元，用于基于所述第二子图像，于所述拍摄图像中划定手部区域，以获取手部区域图像；

预处理模块20，用于对所述手部区域图像进行降维重构，以获取包括若干个通道的二维特征图；

提取模块30，用于构建包括卷积层的手部姿态识别模型，将所述二维特征图作为所述卷积层的输入值，以对所述二维特征图进行奇异值分解，并获取中间对角矩阵；

分析模块40，用于将所述中间对角矩阵中的奇异值进行大小排序，以形成奇异值序列，于所述奇异值序列中从大到小方向的1/4处确定第一阈值，并于所述奇异值序列中从小到大方向的1/4处确定第二阈值，通过所述第一阈值及所述第二阈值确定奇异差值，并基于所述第一阈值及所述奇异差值获取奇异值阈值；

比对模块50，用于将所述中间对角矩阵中的奇异值分别与所述奇异值阈值进行比对，以确定若干个核心奇异值，将所述核心奇异值的坐标作为核心通道坐标，以自若干个通道中确定核心通道；

执行模块60，用于于所述卷积层中对所述核心通道进行卷积操作，以通过所述手部姿态识别模型输出手部关节坐标图，根据所述手部关节坐标图完成手势交互。

所述执行模块60包括：

第四单元，用于当所述手势交互为交互指令获取时，预设与所述手部关节坐标图对应的第一纹理贴图，将所述手部关节坐标图与所述第一纹理贴图组合为第一手部模型；将所述第一手部模型与若干个与不同的交互指令对应的库存手势模型进行匹配，以确定执行交互指令；

第五单元，用于当所述手势交互为交互比对展示时，预设与所述手部关节坐标图对应的第二纹理贴图，将所述手部关节坐标图与所述第二纹理贴图组合为第二手部模型；将所述第二手部模型与若干个操作手势模型之间进行相似度比对，以自若干个操作手势模型中确定比对手势模型；投影所述第二手部模型与所述比对手势模型，以完成交互比对展示。

本发明还提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述技术方案中所述的手势交互方法。

本发明还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述技术方案中所述的手势交互方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手势交互方法，其特征在于，包括以下步骤：

所述通过所述拍摄图像及所述深度图像于所述拍摄图像上确定手部区域图像的步骤包括：

基于所述第二子图像，于所述拍摄图像中划定手部区域，以获取手部区域图像；

2.根据权利要求1所述的手势交互方法，其特征在于，所述手势交互包括交互指令获取及交互比对展示。

3.根据权利要求2所述的手势交互方法，其特征在于，当所述手势交互为交互指令获取时候，所述根据所述手部关节坐标图完成手势交互的步骤包括：

将所述第一手部模型与若干个与不同的交互指令对应的库存手势模型进行匹配，以确定执行交互指令。

4.根据权利要求2所述的手势交互方法，其特征在于，当所述手势交互为交互比对展示时，所述根据所述手部关节坐标图完成手势交互的步骤包括：

5.一种手势交互系统，应用于如权利要求1~4任一项所述的手势交互方法，其特征在于，所述系统包括：

6.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的手势交互方法。

7.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4中任一项所述的手势交互方法。