CN113010018B

CN113010018B - 交互控制方法、终端设备及存储介质

Info

Publication number: CN113010018B
Application number: CN202110422743.8A
Authority: CN
Inventors: 邱绪东
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-09-20
Anticipated expiration: 2041-04-20
Also published as: CN113010018A; US20240221326A1; WO2022222510A1

Abstract

本发明公开了一种交互控制方法，包括以下步骤：获取所述摄像装置采集的图像数据；根据所述图像数据确定当前场景及控制手势；在所述当前场景为所述终端设备对应的控制场景时，执行所述控制手势对应的控制指令。本发明还公开了一种终端设备及计算机可读存储介质，达成了提高终端设备的控制输入检测的准确性的效果。

Description

交互控制方法、终端设备及存储介质

技术领域

本发明涉及手势控制技术领域，尤其涉及交互控制方法、终端设备及计算机可读存储介质。

背景技术

增强现实(Augmented Reality)技术是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将AR设备生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。

在相关技术中，AR设备最常见的控制方案即为手势控制，即用户可以通过手势与AR设备进行人机交互，从而控制AR设备的显示内容。但是在通过手势控制AR设备时，由于AR设备会执行采集到的所有手势对应的控制指令，这样导致在一些应用场景中，经常出现误识别的现象。例如，当用户在使用AR设备时，同时使用如手机、平板电脑等的其它电子设备，会导致AR设备将用户控制上述其它电子设备的手势，误检为用户对AR设备的控制手势。

这样导致相关技术中的AR设备输入检测方案，存在AR设备控制输入检测不准确的缺陷。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种交互控制方法、终端设备及计算机可读存储介质，旨在达成提高终端设备的控制输入检测的准确性的效果。

为实现上述目的，本发明提供一种交互控制方法，所述交互控制方法包括以下步骤：

获取所述摄像装置采集的图像数据；

根据所述图像数据确定当前场景及控制手势；

在所述当前场景为所述终端设备对应的控制场景时，执行所述控制手势对应的控制指令。

可选地，所述根据所述图像数据确定当前场景及控制手势的步骤之后，还包括：

在所述当前场景为所述控制场景之外的其它场景时，所述终端设备忽略所述控制手势，或者执行以下至少一项：

显示提示界面，其中，所述提示界面用于设置所述控制手势的类型；

输出提示所述控制手势的类型的提示信息。

可选地，所述根据所述图像数据确定当前场景及控制手势的步骤包括：

识别所述图像数据中是否包含电子设备；

根据识别结果确定所述当前场景是否为所述控制场景；以及

根据所述图像数据确定所述控制手势。

可选地，所述交互控制方法还包括：

在所述图像数据中包含所述电子设备时，确定所述图像数据中手部与所述电子设备是否重叠；

在所述手部与所述电子设备重叠时，所述当前场景定义为所述控制场景之外的其它场景。

可选地，所述识别所述图像数据中是否包含电子设备的步骤包括：

获取所述图像数据中每一像素点对应的亮度值；

获取所述亮度值满足预设条件的显示区域对应的轮廓；

在所述轮廓为规则图形时，判定所述图像数据中包含所述电子设备。

可选地，所述终端设备为增强现实设备，所述执行所述控制手势对应的控制指令的步骤包括：

采集所述图像数据对应的姿态信息和手部信息；

根据所述姿态信息和所述手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息；

获取所述图像数据中的虚拟物体在参考坐标系下的位姿信息；

基于所述手部在参考坐标系下的三维点云信息和所述虚拟物体在参考坐标系下的位姿信息对所述手部和所述虚拟物体进行渲染，以执行所述控制手势对应的控制指令。

可选地，所述采集所述图像数据对应的姿态信息和手部信息的步骤包括：

采集所述图像数据的RGB图像、深度图像以及IMU数据；

对所述RGB图像、深度图像和IMU数据进行处理以获取所述图像数据对应的姿态信息和手部信息。

可选地，所述终端设备为智能耳机，所述执行所述控制手势对应的控制指令的步骤包括：

获取所述控制手势对应的手部轮廓；

获取所述手部轮廓关联的控制指令，并执行所述控制指令。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互控制程序，所述交互控制程序被所述处理器执行时实现如上所述的交互控制方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有交互控制程序，所述交互控制程序被处理器执行时实现如上所述的交互控制方法的步骤。

本发明实施例提出的一种交互控制方法、终端设备及计算机可读存储介质，先获取所述摄像装置采集的图像数据，然后根据所述图像数据确定当前场景及控制手势，并在所述当前场景为所述终端设备对应的控制场景时，执行所述控制手势对应的控制指令。由于终端设备可以根据采集到的图像数据确定当前场景，并且，仅在当前场景为自身对应的控制场景时，才响应控制手势，执行相应控制指令。这样避免非控制场景下，终端设备误响应现象的发生，达成了提高AR等可以通过手势控制的终端设备的控制输入检测的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明交互控制方法的一实施例的流程示意图；

图3为本发明实施例涉及的电子设备与手的一种位置关系示意图；

图4为本发明实施例涉及的电子设备与手的另一种位置关系示意图；

图5本发明交互控制方法的另一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

随着科技的发展，许多的设备都设置有手势控制功能。以AR设备为例，AR设备最常见的控制方案即为手势控制，即用户可以通过手势与AR设备进行人机交互，从而控制AR设备的显示内容。但是在通过手势控制AR设备时，由于AR设备会执行采集到的所有手势对应的控制指令，这样导致在一些应用场景中，经常出现误识别的现象。

例如，用户可以通过手势控制AR设备显示画面中虚拟物体的显示。其中，具体可以通过手势控制虚拟物体的显示位置和显示内容等。在一具体应用场景中，在一些AR设备中，当接收到预设手势时，可以在AR画面中，在桌面或者其它物体上，显示一Win10操控界面，检测到对该虚拟Win10操控界面的点击操作时，基于该点击操作更新AR画面中该虚拟Win10界面对应的显示内容。以达到在AR画面中显示虚拟触摸屏的操作。但是，当用户在使用AR设备时，同时使用如手机、平板电脑等的其它电子设备，会导致AR设备将用户控制上述其它电子设备的手势，误检为用户对AR设备的控制手势。

当然，在一些其它设备的手势控制场景中，也容易将用户开关灯，使用电子产品等的动作，误检为对其的控制动作，在此不再枚举。

为解决上述缺陷，本发明实施例提出一种交互控制方法，其主要解决方案包括：

获取所述摄像装置采集的图像数据；

根据所述图像数据确定当前场景及控制手势；

由于终端设备可以根据采集到的图像数据确定当前场景，并且，仅在当前场景为自身对应的控制场景时，才响应控制手势，执行相应控制指令。这样避免非控制场景下，终端设备误响应现象的发生。达成了提高AR等可以通过手势控制的终端设备的控制输入检测的准确性。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、鼠标等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及交互控制程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的交互控制程序，并执行以下操作：

获取所述摄像装置采集的图像数据；

根据所述图像数据确定当前场景及控制手势；

进一步地，处理器1001可以调用存储器1005中存储的交互控制程序，还执行以下操作：

输出提示所述控制手势的类型的提示信息。

识别所述图像数据中是否包含电子设备；

根据识别结果确定所述当前场景是否为所述控制场景；以及

根据所述图像数据确定所述控制手势。

获取所述图像数据中每一像素点对应的亮度值；

获取所述亮度值满足预设条件的显示区域对应的轮廓；

采集所述图像数据对应的姿态信息和手部信息；

基于所述手部在参考坐标系下的三维点云信息和所述虚拟物体在参考坐标系下的位姿信息对所述手部和虚拟物体进行渲染，以执行所述控制手势对应的控制指令。

采集所述图像数据的RGB图像、深度图像以及IMU数据；

获取所述控制手势对应的手部轮廓；

获取所述手部轮廓关联的控制指令，并执行所述控制指令。

参照图2，在本发明交互控制方法的一实施例中，所述交互控制方法包括以下步骤：

步骤S10、获取所述摄像装置采集的图像数据；

步骤S20、根据所述图像数据确定当前场景及控制手势；

步骤S30、在所述当前场景为所述终端设备对应的控制场景时，执行所述控制手势对应的控制指令。

例如，用户可以通过手势控制AR设备显示画面中虚拟物体的显示。其中，具体可以通过手势控制虚拟物体的显示位置和显示内容等。在一具体应用场景中，在一些AR设备中，当接收到预设手势时，可以在AR画面中，在桌面或者其它物体上，显示一Win10操控界面，检测到对该虚拟Win10操控界面的点击操作时，基于该点击操作更新AR画面中与该虚拟Win10界面对应的显示内容。以达到在AR画面中显示虚拟触摸屏的操作。但是，当用户在使用AR设备时，同时使用如手机、平板电脑等的其它电子设备，会导致AR设备将用户控制上述其它电子设备的手势，误检为用户对AR设备的控制手势。

在本实施例中，为解决上述缺陷，提出一种交互控制方法，旨在达成提高手势控制方案的控制输入检测的准确性的目的。

在一种可选实施方案中，执行所述交互控制方法的主体为终端设备，所述终端设备可以是AR眼镜、智能家电或者智能手机等可以通过手势控制的电子设备。所述终端设备至少包括一图像采集单元。其中，所述图像采集单元包括摄像装置，通过所述摄像装置可以采集包括用户手部的图像数据，从而使得可以基于所述图像数据采集到用户的控制手势。

在本实施方案中，可以先获取所述摄像装置采集的图像数据。可以理解的是，当摄像装置拍摄的为视频时，可以将视频的每一帧画面，作为一组图像数据，当该摄像装置拍摄的为图片时，则每一张图片作为一组图像数据。

进一步地，当获取到所述图像数据后，可以基于所述图像数据确定当前场景。

示例1、在AR控制情景中，为避免将用户操作其它电子设备的动作，误识别为为控制手势。在获取到所述图像数据后，可以识别所述图像数据中是否包含电子设备，进而根据识别结果确定所述当前场景是否为所述控制场景。其中，在所述图像数据中未包含所述电子设备时，所述当前场景定义为所述控制场景；在所述图像数据中包含所述电子设备时，所述当前场景定义为所述控制场景之外的其它场景。

具体地，在示例1中，当采集到所述图像数据后，可以获取所述图像数据中每一像素点对应的亮度值。可以理解的是，在该场景中，当用户操作其它电子设备时，所述电子设备的显示屏会处于点亮状态。而点亮状态的显示屏在图像数据中，对应的亮度值会区别于其它物体在图像数据中的亮度值。即在所述图像数据中存在电子设备时，该图像数据中会包括一轮廓规则的高亮区域。因此，可以获取所述亮度值满足预设条件的显示区域对应的轮廓，在所述轮廓为规则图形时，判定所述图像数据中包含所述电子设备。

需要说明的是，上述预设条件即可以设置为亮度值大于预设阈值。其中，所述预设阈值可以根据经验值设定。或者，在其它的可选实施方案中，还可以将所述预设条件设置为亮度值满足光源亮度特征。其原理在于，图像数据对应的光数据中，电子设备的显示屏为光源，因此其对应的像素点的亮度值满足光源亮度特征，而其它物体一般为反射光，则不满足光源亮度特征。

示例2，作为一种可选实施方案，在上述示例1的基础上。若直接在所述图像数据中包含所述电子设备时，即将当前场景定义为所述控制场景之外的其它场景。则场景判断的可靠性较低。为提高场景判断的准确性，可以在所述图像数据中包含所述电子设备时，先确定所述图像数据中手部与所述电子设备是否重叠。参照图3，在所述手部与所述电子设备重叠时，所述当前场景定义为所述控制场景之外的其它场景。否则，参照图4，在所述手部未与所述电子设备重叠时将当前场景定义为控制场景。这样提高了场景判断的准确性。

示例3，在一应用场景中，所述终端设备设置为智能电视。当获取到所述图像数据后，可以通过图像识别算法，识别所述图像数据中的用户的手部是否与目标物体重合。其中，所述目标物体可以设置为灯的开关、遥控器和/或电子设备等。进而在所述手部与目标物体重合时，将当前场景定义为其它场景。否则定义为控制场景。使得设备可以识别当前场景为控制场景，还是控制场景之外的用户的日常生活场景。例如，关灯、使用遥控器或者电子设备等。从而避免设备将生活场景下的手势识别为控制手势。

进一步地，可以根据所述图像数据确定所述控制手势，并在所述当前场景为所述对应的控制场景时，执行所述控制手势对应的控制指令。

示例性地，终端设备设置为AR设备时，可以在确定控制手势并执行所述控制手势对应的控制指令时，先采集所述图像数据对应的姿态信息和手部信息，然后根据所述姿态信息和所述手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息，并获取所述图像数据中的虚拟物体在参考坐标系下的位姿信息，进而基于所述手部在参考坐标系下的三维点云信息和所述虚拟物体在参考坐标系下的位姿信息对所述手部和虚拟物体进行渲染，以执行所述控制手势对应的控制指令。

其中，在所述采集所述图像数据对应的姿态信息和手部信息时，可以先采集所述图像数据的RGB图像、深度图像以及IMU(Inertial measurement unit，惯性测量单元)数据，然后对所述RGB图像、深度图像和IMU数据进行处理以获取所述图像数据对应的姿态信息和手部信息。

可以理解的是，在本示例中，可以将视频数据的每一帧画面作为一所述图像数据。以下，将所述图像数据描述为当前帧。可以先采集当前帧的RGB图像、深度图像，以及对应的IMU数据，然后将所述RGB图像和IMU数据作为预设的SLAM模型的输出参数，通过所述SLAM模型获取当前帧的姿态信息，并对所述RGB图像、深度图像进行识别以获取手部信息，其中，所述手部信息包括：手部轮廓信息、手部深度信息。进而获取虚拟物体在参考坐标系下的位姿信息，并基于参考坐标系下的所述手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对所述手部和虚拟物体进行渲染，以获取所述手部与所述虚拟物体之间的遮挡关系。

此外，在另一示例中，所述终端设备可以设置为智能耳机，所述智能耳机在根据所述图像数据确定控制手势，并执行所述控制手势对应的控制指令时，可以直接获取所述控制手势对应的手部轮廓，获取所述手部轮廓关联的控制指令，并执行所述控制指令。例如，所述控制指令可以设置为增大音量、减小音量和/或上/下一曲等。

可选地，在一些实施方案中，可以在确定所述当前场景为所述控制场景之外的其它场景时，所述终端设备直接忽略所述控制手势。

在本实施例公开的技术方案中，先获取所述摄像装置采集的图像数据，然后根据所述图像数据确定当前场景及控制手势，并在所述当前场景为所述终端设备对应的控制场景时，执行所述控制手势对应的控制指令。由于终端设备可以根据采集到的图像数据确定当前场景，并且，仅在当前场景为自身对应的控制场景时，才响应控制手势，执行相应控制指令。这样避免非控制场景下，终端设备误响应现象的发生。达成了提高AR等可以通过手势控制的终端设备的控制输入检测的准确性。

可选地，参照图5，基于上述实施例，在本发明交互控制方法的另一实施例中，所述步骤S20之后，还包括：

步骤S40、在所述当前场景为所述控制场景之外的其它场景时，显示提示界面和/或输出提示所述控制手势的类型的提示信息。

在本实施例中，在终端设备将当前场景判定为控制场景之外的其它场景时。可以显示一提示界面。其中，所述提示界面中，手势类型选择按钮。使得用户可以在该提示界面中，选择当前采集到的图像数据对应的控制手势的类型。具体的，所述类型可以包括合法控制手势，和非法控制手势。当用户选定该图像数据对应的控制手势的类型为合法控制手势，可以控制终端设备执行所述控制手势对应的控制指令。当用户选定该控制手势的类型为非法控制手势时，直接忽略该控制手势，或者显示所述控制手势被判定为非控制手势的提示信息。

或者，在终端设备将当前场景判定为控制场景之外的其它场景时，直接忽略该控制手势，并输出提示所述控制手势的类型的提示信息，以提示用户终端设备不会响应该控制手势。

在本实施例公开的技术方案中，在所述当前场景为所述控制场景之外的其它场景时，显示提示界面和/或输出提示所述控制手势的类型的提示信息。这样达成了在进一步提高终端设备的控制输入检测的准确性的同时，避免场景识别错误时，用户误以为终端设备发送故障，而反复控制，或者认为终端设备控制不灵敏的现象发生。

此外，本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互控制程序，所述交互控制程序被所述处理器执行时实现如上各个实施例所述的交互控制方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有交互控制程序，所述交互控制程序被处理器执行时实现如上各个实施例所述的交互控制方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种交互控制方法，应用于终端设备，其特征在于，所述终端设备包括摄像装置，所述交互控制方法包括以下步骤：

获取所述摄像装置采集的图像数据；

根据所述图像数据确定当前场景及控制手势，所述当前场景包括定义为所述终端设备对应的控制场景以及定义为所述控制场景之外的其他场景的其中一种，所述确定当前场景的方式包括在所述图像数据中不包含除所述终端设备之外的电子设备时，确定所述当前场景为定义为所述终端设备对应的控制场景；

在所述当前场景为所述终端设备对应的控制场景时，执行所述控制手势对应的控制指令，所述控制场景为用于控制所述终端设备执行对应的控制指令的场景。

2.如权利要求1所述的交互控制方法，其特征在于，所述根据所述图像数据确定当前场景及控制手势的步骤之后，还包括：

输出提示所述控制手势的类型的提示信息。

3.如权利要求1所述的交互控制方法，其特征在于，所述根据所述图像数据确定当前场景及控制手势的步骤包括：

识别所述图像数据中是否包含电子设备；

根据识别结果确定所述当前场景是否为所述控制场景；以及

根据所述图像数据确定所述控制手势。

4.如权利要求3所述的交互控制方法，其特征在于，所述交互控制方法还包括：

5.如权利要求3所述的交互控制方法，其特征在于，所述识别所述图像数据中是否包含电子设备的步骤包括：

获取所述图像数据中每一像素点对应的亮度值；

获取所述亮度值满足预设条件的显示区域对应的轮廓；

6.如权利要求1所述的交互控制方法，其特征在于，所述终端设备为增强现实设备，所述执行所述控制手势对应的控制指令的步骤包括：

采集所述图像数据对应的姿态信息和手部信息；

7.如权利要求6所述的交互控制方法，其特征在于，所述采集所述图像数据对应的姿态信息和手部信息的步骤包括：

采集所述图像数据的RGB图像、深度图像以及IMU数据；

8.如权利要求1所述的交互控制方法，其特征在于，所述终端设备为智能耳机，所述执行所述控制手势对应的控制指令的步骤包括：

获取所述控制手势对应的手部轮廓；

获取所述手部轮廓关联的控制指令，并执行所述控制指令。

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互控制程序，所述交互控制程序被所述处理器执行时实现如权利要求1至8任一项所述的交互控制方法的步骤。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有交互控制程序，所述交互控制程序被处理器执行时实现如权利要求1至8中任一项所述的交互控制方法的步骤。