CN117193517A

CN117193517A - 一种手势远程控制的系统及方法

Info

Publication number: CN117193517A
Application number: CN202310491986.6A
Authority: CN
Inventors: 于涛; 于珅悦; 牛增辉; 冯志明
Original assignee: Beijing Tianxiang Ruiyi Technology Co ltd
Current assignee: Beijing Tianxiang Ruiyi Technology Co ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-12-08

Abstract

本申请属于数据处理领域，具体为一种用于手势远程控制的系统及方法，该系统包括：动作采集模块，用于采集用户的动作视频数据，并根据所述动作视频数据获取包括用户手势的动作口令；动作传输模块，用于将所述动作口令传输给所述动作表现模块；动作表现模块，将所述动作口令进行解析，以表现出相应的控制结果。采用本申请所提供的一种手势远程控制的系统及方法，利用计算机视觉技术和建模技术，仅需要摄像头捕捉，可识别出任意手部姿态、手指动作等，该种方式不受硬件和环境限制，且能够识别的手势种类更多，满足不同手势的复杂性，适用范围更广。

Description

一种手势远程控制的系统及方法

技术领域

本申请属于数据处理技术领域，具体涉及一种手势远程控制的系统及方法。

背景技术

通过人的手势来出发相应的控制指令，是目前较为通用的一种做法。

现有的手势控制，有的是通过红外接收器和红外发射器来实现的，如在专利ZL202120474184.0中，其公开了一种梯手势控制面板，过色彩控制单元能使红外线能够较佳地穿透玻璃面板，并且使人眼基本不能直接观测到红外发射器和红外接收器，从而在保证玻璃面板完整的情况下，还能使得识别模块中的红外发射器和红外接收器具有较佳灵敏度。

也有的是通过测距传感器来实现，如在专利202120366096.9中，手势控制模块用于识别预设距离阈值内的手势动作；所述测距传感器分别嵌入设置在所述桌面的上表面和下表面。通过设置测距传感器检测手势离桌面的距离，并将该距离发送至微控制器，当距离在预设的距离阈值内时，微控制器发出信号至手势控制模块，由手势控制模块对桌子的升降进行控制，避免了在使用时的误操作。

上述两种对手势的识别，均依赖于传感器本身的限制，所识别的手势姿态有限，容易受到硬件自身和外部环境的限制，对于一些种类繁多或复杂的动作不能有效进行识别。

发明内容

本申请的目的在于提供一种能够识别出任意手部姿态、手指动作等，且不受硬件和环境限制的手势远程控制的系统及方法。

本申请的第一方面，提供了一种手势远程控制的系统，该系统包括：

动作采集模块，用于采集用户的动作视频数据，并根据所述动作视频数据获取用户手势的动作口令；

动作传输模块，用于将所述动作口令传输给所述动作表现模块；

动作表现模块，将所述动作口令进行解析，以表现出相应的控制结果。

进一步地，所述动作采集模块包括：

视频数据采集单元，通过摄像机采集用户的动作视频数据并按照帧传输给事先训练完毕的姿态估计模型；

姿态估计模型，根据接收的动作图片预测出用户手部的骨骼关键点的空间位置信息；

口令识别单元，将所述空间位置信息传输给训练好的模式识别模型，获得用户手势的动作口令。

进一步地，所述动作表现模块包括：

解析单元，用于对所述动作指令进行解析并转换成相应的字符串；

显示单元，将当前游戏接收器所需的输入操作，替换成字符串形式的指令，最后表现为游戏接收器对应的控制结果。

进一步地，根据接收的动作图片预测出用户手部的骨骼关键点的空间位置信息包括：使用mediapipe模型框架，将获取的动作图片输入到该模型框架，当图像里检测到人手后，识别手的骨骼关键点，返回各个骨骼关键点在图像里的坐标值。

进一步地，将所述空间位置信息传输给训练好的模式识别模型，获得用户手势的动作口令包括：根据姿态估计模型返回的坐标值，提取手指的关键特征，将所述关键特征输入到分类模型，输出对应的手势名称。

进一步地，所述的关键特征包括：手指弯曲角度，手指尖间的距离。

进一步地，所述分类模型为基于决策树的分类模型。

本申请的另一方面，提供了一种手势远程控制的方法，该方法包括：

采集用户的动作视频数据，并根据所述动作视频数据获取用户手势的动作口令；

接收所述动作口令，并对所述动作口令进行解析和适配，以表现出相应的控制结果。

采用本申请所提供的一种手势远程控制的系统及方法，利用计算机视觉技术和建模技术，仅需要摄像头捕捉，可识别出任意手部姿态、手指动作等，该种方式不受硬件和环境限制，且能够识别的手势种类更多，满足不同手势的复杂性，适用范围更广。

附图说明

图1为本实施例中的用于手势远程控制的系统的结构示意图。

图2为本实施例中的手势远程控制的方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想。

本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

参照图1～图2所示，本申请的实施例一提供了一种手势远程控制的系统，该系统包括：动作采集模块、动作传输模块和动作表现模块。

其中，动作采集模块，用于采集用户的动作视频数据，并根据所述动作视频数据获取用户手势的动作口令；

具体的，本实施例中，动作采集模块包括：视频数据采集单元、姿态估计模型和口令识别单元。

其中，视频数据采集单元，通过摄像机采集用户的动作视频数据并按照帧传输给事先训练完毕的姿态估计模型；本实施中，采集用户动作的摄像机应当为三维深度相机，以便清洗捕捉到用户的手部动作姿态，一个更优选的实施方式为，将摄像机为至少两个，比如两至三个，以便于从不同的角度来获取用户的动作图像，使得后续对用户动作的解析更准确。

由于事先已经建立了姿态估计模型，采集到的动作图片输入到姿态估计模型中，模型便能抓取到用户的手部部位，且输出手部关键特征点的坐标信息。具体的，根据接收的动作图片预测出用户手部的骨骼关键点的空间位置信息包括：使用mediapipe模型框架，将获取的动作图片输入到该模型框架，当图像里检测到人手后，识别手的骨骼关键点，返回各个骨骼关键点在图像里的坐标值。当然，不限于本实施例所列举的mediapipe模型，还可以采用诸如OpenPose、AlphaPose、DensePose等模型来进行预测。

由于是通过摄像头获取手部的动作视频，通过计算机视觉技术能够识别更多不同的动作手势和不同复杂度的手势，通过建立的姿态估计模型，能够对手部不同部位的骨骼关键点进行坐标计算，相比传统的采用传感器获取特征的模式，本申请能够获取和识别更多不同且更复杂的手势动作。

其中，将所述空间位置信息传输给训练好的模式识别模型，获得用户手势的动作口令包括：根据姿态估计模型返回的坐标值，提取手指的关键特征，将所述关键特征输入到分类模型，输出的分类结果即对应的手势名称。所述的关键特征包括：手指弯曲角度，手指指尖间的距离等。选用的分类模型可以为基于决策树的分类模型，或者采用随机森林算法模型、GBDT模型、逻辑回归模型等。

通过建立模式识别模型，并对模型不断的进行迭代训练，理论上能够识别各种复杂度的手势指令。

动作传输模块，用于将所述动作口令传输给所述动作表现模块；具体为采用有线或无线的方式将该动作口令传输给动作表现模块，该动作表现模块可以作为游戏接收器的接收端口。

具体的，所述动作表现模块包括：

显示单元，将当前游戏接收器所需的输入操作，替换成字符串形式的指令，最后表现为游戏接收器对应的控制结果，该控制结果可以是射击、击打、左移、旋转、蹲下、跳跃等不同的表现形式。

示例性的，在UE游戏引擎中，控制游戏人物走动一般使用鼠标或键盘按键，通过本发明的方法，采用摄像头识别到的玩家手势动作，传递到UE引擎中替代键盘输入，实现”指哪打哪”的游戏效果，更具有游戏体验性。

实施例二

与上述实施例一中的方法相对应的，参照图2所示，本发明的另一实施例，提供了一种手势远程控制的方法，该方法包括：

本申请实施例中的方法应用于上述实施例中的系统，并且具有相同的技术效果，未详尽之处，请参照上一实施例，在此不再赘述。

实施例三

本发明的实施例三，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述运动中目标的三维坐标与位移测量的方法的步骤。此处手势远程控制的方法的步骤可以是上述各个实施例的手势远程控制的方法中的步骤：采集用户的动作视频数据，并根据所述动作视频数据获取用户手势的动作口令；接收所述动作口令，并对所述动作口令进行解析和适配，以表现出相应的控制结果。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统，本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手势远程控制的系统，其特征在于，所述系统包括：

动作采集模块，用于采集用户的动作视频数据，并根据所述动作视频数据获取包括用户手势的动作口令；

2.根据权利要求1所述的手势远程控制的系统，其特征在于：所述动作采集模块包括：

3.根据权利要求2所述的手势远程控制的系统，其特征在于，所述动作表现模块包括：

4.根据权利要求2所述的手势远程控制的系统，其特征在于，根据接收的动作图片预测出用户手部的骨骼关键点的空间位置信息包括：使用mediapipe模型框架，将获取的动作图片输入到该模型框架，当图像里检测到人手后，识别手的骨骼关键点，返回各个骨骼关键点在图像里的坐标值。

5.根据权利要求4所述的手势远程控制的系统，其特征在于，将所述空间位置信息传输给训练好的模式识别模型，获得用户手势的动作口令包括：根据姿态估计模型返回的坐标值，提取手指的关键特征，将所述关键特征输入到分类模型，输出对应的手势名称。

6.根据权利要求5所述的手势远程控制的系统，其特征在于，所述的关键特征包括：手指弯曲角度，手指尖间的距离。

7.根据权利要求2所述的手势远程控制的系统，其特征在于，所述分类模型为基于决策树的分类模型。

8.根据权利要求2所述的手势远程控制的系统，其特征在于，采集用户的动作视频数据的所述摄像机为至少两个。

9.一种手势远程控制的方法，其特征在于，所述方法包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求9中所述的方法的步骤。