CN116246335A

CN116246335A - 追踪扩展现实的输入手势的方法和使用其的系统

Info

Publication number: CN116246335A
Application number: CN202210949650.5A
Authority: CN
Inventors: 黄雅博; 林建良
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2021-12-07
Filing date: 2022-08-09
Publication date: 2023-06-09
Also published as: TWI811048B; US20230177862A1; TW202324068A

Abstract

本发明提供一种追踪扩展现实的输入手势的系统和方法，其中方法包含：获得图像；检测图像中的手持装置和手部；响应于检测到手部的第一限界框和手持装置的第二限界框，从图像检测手部的至少一个关节；根据至少一个关节执行第一限界框和第二限界框的数据融合以获得输入手势；以及通过输出装置输出对应于输入手势的命令。

Description

追踪扩展现实的输入手势的方法和使用其的系统

技术领域

本公开涉及一种追踪输入手势的方法和使用所述方法的系统，且特别来说，涉及一种追踪扩展现实(extended reality；XR)的输入手势的方法和使用所述方法的系统。

背景技术

随着技术改进，扩展现实(例如，扩增现实(augmented reality；AR)、虚拟现实(virtual reality；VR)或混合现实(mixed reality；MR))头戴式装置变得越来越流行。为了与用户进行交互，头戴式装置可为用户产生虚拟场景且在虚拟场景中显示虚拟对象(例如，虚拟按钮)。用户可通过按压或牵引虚拟对象来操作头戴式装置。然而，以上提到的操作方法对于用户并不简单且可使用户筋疲力尽。

发明内容

本公开涉及一种追踪扩展现实的输入手势的方法和使用所述方法的系统。

本公开涉及一种追踪扩展现实的输入手势的系统，其中系统包含输出装置、图像捕获装置以及处理器。图像捕获装置获得图像。处理器耦合到输出装置和图像捕获装置，其中处理器配置成：检测图像中的手持装置和手部；响应于检测到手部的第一限界框和手持装置的第二限界框，从图像检测手部的至少一个关节；根据至少一个关节执行第一限界框和第二限界框的数据融合以获得输入手势；以及通过输出装置输出对应于输入手势的命令。

在一个实施例中，处理器进一步配置成：响应于第一限界框与第二限界框重叠而从图像检测手部的至少一个关节。

在一个实施例中，处理器进一步配置成：响应于至少一个关节的数目大于阈值，根据第一限界框的第一权重执行数据融合；且响应于至少一个关节的数目小于或等于阈值，根据第一限界框的第二权重执行数据融合，其中第二权重小于第一权重。

在一个实施例中，处理器进一步配置成：响应于未检测到第一限界框，根据第二限界框获得输入手势；且响应于未检测到第二限界框，根据第一限界框获得输入手势。

在一个实施例中，系统进一步包含手持装置，其中手持装置包含触摸屏。

在一个实施例中，处理器进一步配置成：根据由触摸屏显示的定位标记来检测手持装置。

在一个实施例中，手持装置以通信方式连接到处理器，且处理器进一步配置成：从手持装置接收信号；且执行第一限界框、第二限界框以及信号的数据融合以获得输入手势。

在一个实施例中，信号对应于由手持装置的触摸屏接收到的用户输入。

在一个实施例中，手持装置进一步包含惯性测量单元，其中信号对应于由惯性测量单元产生的数据。

在一个实施例中，输出装置包含显示器，其中显示器根据命令输出扩展现实场景。

在一个实施例中，输出装置包含以通信方式连接到手持装置的收发器，其中过程进一步配置成：通过收发器将命令输出到手持装置。

本公开涉及一种追踪扩展现实的输入手势的方法，包含：获得图像；检测图像中的手持装置和手部；响应于检测到手部的第一限界框和手持装置的第二限界框，从图像检测手部的至少一个关节；根据至少一个关节执行第一限界框和第二限界框的数据融合以获得输入手势；以及通过输出装置输出对应于输入手势的命令。

基于以上描述，本公开通过利用手持装置与用户的手部之间的关系来识别用于与扩展现实进行交互的输入手势。因此，输入手势的追踪精确度可显著提高。

为了可更好地理解前述内容，如下详细描述附有图式的数个实施例。

附图说明

包含随附图式以提供对本公开的进一步理解，且随附图式并入本说明书中且构成本说明书的一部分。图式示出本公开的示范性实施例，且与实施方式一起用来解释本公开的原理。

图1示出根据本发明的实施例的追踪扩展现实的输入手势的系统的示意图。

图2A和图2B示出根据本发明的实施例的由手持装置和用户的手部呈现的输入手势的示意图。

图3A和图3B示出根据本发明的实施例的手持装置的触摸屏的示意图。

图4示出根据本发明的实施例的通过使用具有惯性测量单元的手持装置与扩展现实进行交互的示意图。

图5示出根据本发明的实施例的追踪扩展现实的输入手势的方法的流程图。

附图标号说明

10：系统；

20、30：限界框；

100：头戴式装置；

110、210：处理器；

120、220：存储介质；

130：图像捕获装置；

140：输出装置；

141、230：收发器；

142：显示器；

200：手持装置；

240：触摸屏；

241：定位标记/触摸区域；

242：按钮；

250：惯性测量单元；

300：手部；

310：关节；

600：扩展现实场景；

610：光标；

S501、S502、S503、S504、S505：步骤。

具体实施方式

图1示出根据本发明的实施例的追踪扩展现实的输入手势的系统10的示意图，其中输入手势可用于与基于扩展现实技术产生的虚拟场景进行交互。系统10可包含头戴式装置100。在一个实施例中，系统10可进一步包含可以通信方式连接到头戴式装置100的手持装置200。

头戴式装置100可由用户穿戴以探索扩展现实场景。头戴式装置100可包含处理器110、存储介质120、图像捕获装置130以及输出装置140。

处理器110为例如中央处理单元(central processing unit；CPU)或其它可编程通用或专用微控制单元(Micro Control Unit；MCU)、微处理器、数字信号处理器(digitalsignal processor；DSP)、可编程控制器、专用集成电路(Application SpecificIntegrated Circuit；ASIC)、图形处理单元(Graphics Processing Unit；GPU)、算术逻辑单元(Arithmetic Logic Unit；ALU)、复杂可编程逻辑装置(Complex Programmable LogicDevice；CPLD)、场可编程门阵列(Field Programmable Gate Array；FPGA)或其它类似装置，或上述装置的组合。处理器110可耦合到存储介质120、图像捕获装置130以及输出装置140。

存储介质120可以是例如任何类型的固定或可移动随机存取存储器(randomaccess memory；RAM)、只读存储器(read-only memory；ROM)、快闪存储器、硬盘驱动器(hard disk drive；HDD)、固态驱动器(solid state drive；SSD)或类似元件，或其组合，配置成记录可由处理器110执行的多个模块或各种应用。

图像捕获装置130可为用于捕获图像的相机或摄影装置。图像捕获装置130可包含图像传感器，如互补金属氧化物半导体(complementary metal oxide semiconductor；CMOS)传感器或电荷耦合装置(charge coupled device；CCD)传感器。

输出装置140可包含但不限于收发器141和显示器142。收发器141可配置成传输或接收有线信号/无线信号。收发器141还可执行以下操作，如低噪声放大、阻抗匹配、混频、上变频或下变频、滤波、放大等。头戴式装置100可通过收发器141与手持装置200通信。

显示器142可包含但不限于液晶显示器(liquid-crystal display；LCD)显示器或有机发光二极管(organic light-emitting diode；OLED)显示器。显示器142可将图像光束提供到用户的眼睛以在用户的视网膜上形成图像，使得用户可看见由头戴式装置100产生的虚拟场景。

手持装置200可包含但不限于智能手机或控制杆。手持装置200可包含处理器210、存储介质220、收发器230以及触摸屏240。在一个实施例中，手持装置200可进一步包含惯性测量单元(inertial measurement unit；IMU)250。

处理器210是例如CPU，或其它可编程通用或专用MCU、微处理器、DSP、可编程控制器、ASIC、GPU、ALU、CPLD、FPGA或其它类似装置，或以上装置的组合。处理器210可耦合到存储介质220、收发器230、触摸屏240以及IMU 250。

存储介质220可为例如任何类型的固定或可移动RAM、ROM、快闪存储器、HDD、SSD或类似元件，或其组合，配置成记录可由处理器210执行的多个模块或各种应用。

收发器230可配置成传输或接收有线信号/无线信号。收发器230还可执行以下操作，如低噪声放大、阻抗匹配、混频、上变频或下变频、滤波、放大等。手持装置200可通过收发器230与头戴式装置100通信。

触摸屏240可包含但不限于电容性触摸屏或电阻性触摸屏。IMU 250可包含但不限于加速计、陀螺仪或磁力计。

图像捕获装置130可获得图像。处理器110可检测所获得图像以确定手持装置200或用户的手部(例如，如图2A或图2B中所绘示的手部300)是否在图像中。具体来说，处理器110可基于例如对象检测算法来检测图像，以便确定对象是否在图像中。如果对象在图像中，那么对象检测算法可产生对象的限界框。处理器110可对限界框执行图像识别算法以识别限界框中的对象。

图2A和图2B示出根据本发明的实施例的由手持装置200和用户的手部300呈现的输入手势的示意图。如果手持装置200或手部300在由图像捕获装置130捕获的图像中，那么处理器110可在图像上产生手持装置200的限界框20或在图像上产生手部300的限界框30。

在一个实施例中，定位标记241可由手持装置200的触摸屏240显示。处理器110可根据定位标记241来定位和检测手持装置200和/或试图操作手持装置200的手部300。

响应于在图像上检测到限界框20和限界框30，处理器110可从图像检测手部300的一或多个关节310。处理器110可基于手部追踪算法检测关节310。

在一个实施例中，如果限界框20与限界框30彼此重叠，那么处理器110可从图像检测手部300的关节310。如果限界框20与限界框30彼此重叠，那么处理器110可确定获得由手持装置200和手部300呈现的输入手势。然而，如果限界框20与限界框30彼此不重叠，那么处理器110可根据限界框20和限界框30中的一者确定获得输入手势。即，可能存在处理器110将使用手持装置200和手部300中的仅一者来获得输入手势。举例来说，如果从图像检测到手持装置140的限界框20但从图像未检测到手部300的限界框30，那么处理器110可仅根据手持装置140确定获得输入手势。如果从图像检测到手部300的限界框30但从图像未检测到手持装置200的限界框20，那么处理器110可仅根据手部300确定获得输入手势。

处理器110可根据所检测的关节310执行限界框20和限界框30的数据融合以获得或识别输入手势，其中输入手势可与手部300的六自由度(six degrees of freedom；6DOF)姿势相关联。可动态地调整用于执行数据融合的限界框20的权重或限界框30的权重。在一些情况下，限界框20的权重可大于限界框30的权重。即，数据融合的结果受手持装置200的影响将超过受手部300的影响。在一些情况下，限界框30的权重可大于限界框20的权重。即，数据融合的结果受手部300的影响将超过受手持装置200的影响。

在一个实施例中，处理器110可响应于关节310的数目大于阈值(例如，3)而根据限界框30的第一权重来执行限界框20和限界框30的数据融合，且处理器110可响应于关节310的数目小于或等于阈值(例如，3)而根据限界框30的第二权重来执行限界框20和限界框30的数据融合，其中第二权重小于第一权重。换句话说，如果由处理器110所检测的关节310的数目大于阈值，那么用于执行数据融合的限界框30的权重可由于图像清晰地显示手部300而增加。因此，用于执行数据融合的限界框20的权重可减小。另一方面，如果由处理器110所检测的关节310的数目小于或等于阈值，那么用于执行数据融合的限界框30的权重可由于手部300的大部分区域可由手持装置200覆盖(如图2B中所绘示)而减小。因此，用于执行数据融合的限界框20的权重可增加。

在一个实施例中，处理器110可通过收发器141从手持装置200接收信号。处理器110可执行限界框20、限界框30以及信号的数据融合以获得或识别输入手势。

在一个实施例中，来自手持装置200的信号可对应于由手持装置200的触摸屏240接收的用户输入。图3A和图3B示出根据本发明的实施例的手持装置200的触摸屏240的示意图。触摸屏240可提供用于获得用户输入的用户界面，其中用户界面可包含用于接收拖拽操作或滑动操作的触摸区域241或用于接收单击操作的一或多个按钮242。用户界面可如图3A中所绘示以纵向模式呈现或可如图3B中所绘示以横向模式呈现。

在一个实施例中，来自手持装置200的信号可对应于由IMU 250产生的数据。举例来说，来自手持装置200的信号可包含手持装置200的加速度信息。因此，由处理器110获得的输入手势可受由IMU 250产生的数据影响。

在执行限界框20和限界框30的数据融合之后，处理器110可根据数据融合的结果来获得或识别输入手势。因此，处理器110可根据输入手势来操作头戴式装置100。处理器110可通过输出装置140输出对应于输入手势的命令。

在一个实施例中，处理器110可将对应于输入手势的命令传输到收发器141。收发器141可将所接收命令输出到外部电子装置，如手持装置200。即，头戴式装置100可将对应于输入手势的信息反馈到手持装置200。

在一个实施例中，处理器110可将对应于输入手势的命令传输到显示器142。显示器142可根据所接收命令输出扩展现实场景。举例来说，假设由处理器110获得的输入手势与由IMU 250产生的数据相关联。那么处理器110可将对应于输入手势的命令传输到显示器200，其中命令可在由显示器142显示的扩展现实场景600中移动光标610，如图4中所绘示。

图5示出根据本发明的实施例的追踪扩展现实的输入手势的方法的流程图，其中方法可由如图1中所绘示的系统10实施。在步骤S501中，获得图像。在步骤S502中，检测图像中的手持装置和手部。在步骤S503中，响应于检测到手部的第一限界框和手持装置的第二限界框，从图像检测手部的至少一个关节。在步骤S504中，根据至少一个关节执行第一限界框和第二限界框的数据融合以获得输入手势。在步骤S505中，通过输出装置输出对应于输入手势的命令。

总的来说，本发明的系统可根据限界框的数据融合识别由手持装置和用户的手势呈现的输入手势。用户可以较小物理力与扩展现实进行交互。可基于手持装置与用户的手部之间的相对位置来调节用于计算数据融合的结果的权重，使得可获得输入手势的最精确识别结果。输入手势还可与由手持装置的惯性测量单元产生的数据相关联。基于以上描述，本公开提供用于用户与扩展现实进行交互的便利方式。

Claims

1.一种追踪扩展现实的输入手势的系统，其特征在于，包括：

输出装置；

图像捕获装置，获得图像；以及

处理器，耦合到所述输出装置和所述图像捕获装置，其中所述处理器配置成：

检测所述图像中的手持装置和手部；

响应于检测到所述手部的第一限界框和所述手持装置的第二限界框，从所述图像检测所述手部的至少一个关节；

根据所述至少一个关节执行所述第一限界框和所述第二限界框的数据融合以获得所述输入手势；以及

通过所述输出装置输出对应于所述输入手势的命令。

2.根据权利要求1所述的追踪扩展现实的输入手势的系统，其中所述处理器进一步配置成：

响应于所述第一限界框与所述第二限界框重叠而从所述图像检测所述手部的所述至少一个关节。

3.根据权利要求1所述的追踪扩展现实的输入手势的系统，其中所述处理器进一步配置成：

响应于所述至少一个关节的数目大于阈值，根据所述第一限界框的第一权重执行所述数据融合；且

响应于所述至少一个关节的所述数目小于或等于所述阈值，根据所述第一限界框的第二权重执行所述数据融合，其中所述第二权重小于所述第一权重。

4.根据权利要求1所述的追踪扩展现实的输入手势的系统，其中所述处理器进一步配置成：

响应于未检测到所述第一限界框，根据所述第二限界框获得所述输入手势；且

响应于未检测到所述第二限界框，根据所述第一限界框获得所述输入手势。

5.根据权利要求1所述的追踪扩展现实的输入手势的系统，进一步包括：

所述手持装置，包括触摸屏。

6.根据权利要求5所述的追踪扩展现实的输入手势的系统，其中所述处理器进一步配置成：

根据由所述触摸屏显示的定位标记检测所述手持装置。

7.根据权利要求5所述的追踪扩展现实的输入手势的系统，其中所述手持装置以通信方式连接到所述处理器，且所述处理器进一步配置成：

从所述手持装置接收信号；且

执行所述第一限界框、所述第二限界框以及所述信号的所述数据融合以获得所述输入手势。

8.根据权利要求7所述的追踪扩展现实的输入手势的系统，其中所述信号对应于由所述手持装置的所述触摸屏接收到的用户输入。

9.根据权利要求7所述的追踪扩展现实的输入手势的系统，其中所述手持装置进一步包括：

惯性测量单元，其中所述信号对应于由所述惯性测量单元产生的数据。

10.根据权利要求1所述的追踪扩展现实的输入手势的系统，其中所述输出装置包括显示器，其中所述显示器根据所述命令输出扩展现实场景。

11.根据权利要求1所述的追踪扩展现实的输入手势的系统，其中所述输出装置包括以通信方式连接到所述手持装置的收发器，其中过程进一步配置成：

通过所述收发器将所述命令输出到所述手持装置。

12.一种追踪扩展现实的输入手势的方法，其特征在于，包括：

获得图像；

检测所述图像中的手持装置和手部；

通过输出装置输出对应于所述输入手势的命令。