CN111950521A

CN111950521A - 一种增强现实交互的方法、装置、电子设备及存储介质

Info

Publication number: CN111950521A
Application number: CN202010877457.6A
Authority: CN
Inventors: 陈志钊; 符修源
Original assignee: Shenzhen TetrasAI Technology Co Ltd
Current assignee: Shenzhen TetrasAI Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-11-17

Abstract

本公开提供了一种增强现实交互的方法、装置、电子设备及存储介质，其中，该方法包括：获取目标场景的真实场景图像，以及与目标场景对应的三维场景地图；对获取的真实场景图像进行手部检测，确定真实场景图像中手部的图像位姿信息和手部对应的手势类别信息；基于手部的图像位姿信息和三维场景地图，确定手部在世界坐标系下的位姿信息；根据手部在世界坐标系下的位姿信息和三维场景地图，确定手部需要控制的目标物体，并基于手部对应的手势类别信息对需要控制的目标物体执行控制操作。本公开通过图像处理实现了在三维空间内手部对需要控制的物体的自动控制，无需借助第三方工具，操作更加方便。

Description

一种增强现实交互的方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机应用技术领域，具体而言，涉及一种增强现实交互的方法、装置、电子设备及存储介质。

背景技术

增强现实(Augmented Reality，AR)技术作为一种根据实时计算的摄像机影像的位置及角度，在影像上叠加相应的图像、视频、三维(3-Dimensional，3D)模型以实现虚拟世界与现实世界融合的技术，面向用户提供了一种新的交互体验。

目前，在利用虚拟技术进行人机交互时，可以通过操作输入设备，如鼠标、键盘、触摸屏等对AR对象进行操控。

然而，上述交互方式需要用户手持第三方工具(即输入设备)进行操作，操作较为不便。

发明内容

本公开实施例至少提供一种增强现实交互的方案，其通过图像处理实现了三维空间内手部对需要控制的物体的自动控制，无需借助第三方工具，操作更加方便。

主要包括以下几个方面：

第一方面，本公开实施例提供了一种增强现实交互的方法，所述方法包括：

获取目标场景的真实场景图像，以及与所述目标场景对应的三维场景地图；

对获取的所述真实场景图像进行手部检测，确定所述真实场景图像中手部的图像位姿信息和所述手部对应的手势类别信息；

基于所述手部的图像位姿信息和所述三维场景地图，确定所述手部在世界坐标系下的位姿信息；

根据所述手部在世界坐标系下的位姿信息和所述三维场景地图，确定所述手部需要控制的目标物体，并基于所述手部对应的手势类别信息对所述需要控制的目标物体执行控制操作。

采用上述增强现实交互的方法，通过对获取的真实场景图像的分析，可以确定真实场景图像中的手部在三维场景地图所在世界坐标系下的位姿信息，基于这一位姿信息可以对三维空间内的真实物体、虚拟物体等目标物体进行手部控制，也即，本公开采用手部无接触方式实现了对三维空间内物体的自动控制，解决了使用第三方工具进行控制所带来的操作不便的问题。

在一种可能的实施方式中，基于所述手部的图像位姿信息和所述三维场景地图，确定所述手部在世界坐标系下的位姿信息，包括：

基于所述真实场景图像所在图像坐标系与所述三维场景地图所在世界坐标系之间的转换关系，将所述真实场景图像中所述手部的图像位姿信息转换为所述手部在所述世界坐标系下的位姿信息。

在一种可能的实施方式中，对获取的所述真实场景图像进行手部检测，确定所述真实场景图像中手部的图像位姿信息，包括：

利用预先训练好的手部检测模型，从获取的所述真实场景图像中检测出所述手部的图像位姿信息。

在一种可能的实施方式中，根据所述手部在世界坐标系下的位姿信息和所述三维场景地图，确定所述手部需要控制的目标物体，包括：

对获取的所述真实场景图像进行物体检测，确定所述真实场景图像中的至少一个真实物体；

基于所述三维场景地图，确定检测出的每个所述真实物体在世界坐标系下的位姿信息；

针对每个所述真实物体，在基于该真实物体在世界坐标系下的位姿信息与所述手部在世界坐标系下的位姿信息，确定所述手部与该真实物体之间的相对位姿满足预设条件的情况下，将该真实物体确定为所述手部需要控制的目标物体。

本公开实施例中，手部需要控制的目标物体可以是真实场景图像中的真实物体，且该真实物体可以是在三维空间内与手部呈现的相对位姿满足预设条件的，从而实现对该真实物体的精确控制。

在一种可能的实施方式中，基于所述三维场景地图，确定检测出的每个所述真实物体在世界坐标系下的位姿信息，包括：

基于检测出的每个所述真实物体在所述真实场景图像中的图像信息，在所述三维场景地图中确定与该真实物体匹配的三维模型，将该三维模型在所述三维场景地图中的位姿信息，确定为该真实物体在世界坐标系下的位姿信息。

基于所述真实场景图像以及所述三维场景地图，确定拍摄设备在世界坐标系下的位姿信息；

基于检测出的每个所述真实物体在所述真实场景图像对应的图像坐标系下的位姿信息，以及相机坐标系和图像坐标系之间的转换关系，确定每个所述真实物体在相机坐标系下的位姿信息；

基于所述拍摄设备在世界坐标系下的位姿信息，以及每个所述真实物体在相机坐标系下的位姿信息，确定每个所述真实物体在世界坐标系下的位姿信息。

基于所述三维场景地图，确定至少一个目标虚拟物体在世界坐标系下的位姿信息；

在基于所述目标虚拟物体在世界坐标系下的位姿信息与所述手部在世界坐标系下的位姿信息，确定所述手部与所述虚拟物体之间的相对位姿信息满足预设条件的情况下，将所述目标虚拟物体确定为所述手部需要控制的目标物体。

本公开实施例中，需要控制的目标物体可以是目标虚拟物体，且该目标虚拟物体在三维空间内与手部呈现的相对位姿满足预设条件，从而实现对虚拟物体的精确控制。

在一种可能的实施方式中，所述位姿信息包括位置信息以及姿态信息；所述预设条件包括以下条件中的一种或多种：

所确定的所述手部与所述目标物体之间的相对距离小于预设距离；

确定的所述手部与朝向所述目标物体方向之间的相对夹角小于预设夹角。

在一种可能的实施方式中，基于所述手部对应的手势类别信息对所述需要控制的目标物体执行控制操作，包括：

基于各种手势类别信息与各个控制操作方式之间的对应关系，确定与所述手部所对应的手势类别信息对应的目标控制操作方式；

基于确定的所述目标控制操作方式对所述需要控制的目标物体执行控制操作。

这里，可以通过不同的手势类别来实现不同的控制操作，丰富了控制操作的类型。

第二方面，本公开实施例还提供了一种增强现实交互的装置，所述装置包括：

获取模块，用于获取目标场景的真实场景图像，以及与所述目标场景对应的三维场景地图；

检测模块，用于对获取的所述真实场景图像进行手部检测，确定所述真实场景图像中手部的图像位姿信息和所述手部对应的手势类别信息；

确定模块，用于基于所述手部的图像位姿信息和所述三维场景地图，确定所述手部在世界坐标系下的位姿信息；

控制模块，用于根据所述手部在世界坐标系下的位姿信息和所述三维场景地图，确定所述手部需要控制的目标物体，并基于所述手部对应的手势类别信息对所述需要控制的目标物体执行控制操作。

第三方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一项所述的增强现实交互的方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被电子设备运行时，所述电子设备执行如第一方面及其各种实施方式任一项所述的增强现实交互的方法的步骤。

关于上述增强现实交互的装置、电子设备、及计算机可读存储介质的效果描述参见上述增强现实交互的方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例一所提供的一种增强现实交互的方法的流程图；

图2(a)示出了本公开实施例一所提供的增强现实交互的方法的应用示意图；

图2(b)示出了本公开实施例一所提供的增强现实交互的方法的应用示意图；

图3示出了本公开实施例二所提供的一种增强现实交互的装置的示意图；

图4示出了本公开实施例三所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，目前，在利用虚拟技术进行人机交互时，可以通过操作输入设备，如鼠标、键盘、触摸屏等对增强现实进行操控。然而，上述交互方式需要用户手持第三方工具(即输入设备)，这为用户带来了不便。

基于上述研究，本公开至少提供一种增强现实交互的方案，其通过图像处理实现了在三维空间内手部对需要控制的物体的自动控制，无需借助第三方工具，操作更加方便。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种增强现实交互的方法进行详细介绍，本公开实施例所提供的增强现实交互的方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，比如可以是与(Augmented Reality，AR)设备连接的服务器，AR设备比如可以包括AR眼镜、平板电脑、智能手机、智能穿戴式设备等具有显示功能和数据处理能力的设备，AR设备可以通过应用程序连接服务器。在一些可能的实现方式中，该增强现实交互的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为服务器为例对本公开实施例提供的增强现实交互的方法加以说明。

实施例一

参见图1所示，为本公开实施例提供的增强现实交互的方法的流程图，方法包括步骤S101～S104，其中：

S101、获取目标场景的真实场景图像，以及与目标场景对应的三维场景地图；

S102、对获取的真实场景图像进行手部检测，确定真实场景图像中手部的图像位姿信息和手部对应的手势类别信息；

S103、基于手部的图像位姿信息和三维场景地图，确定手部在世界坐标系下的位姿信息；

S104、根据手部在世界坐标系下的位姿信息和三维场景地图，确定手部需要控制的目标物体，并基于手部对应的手势类别信息对需要控制的目标物体执行控制操作。

这里，为了便于理解本公开实施例提供的增强现实交互的方法，现首先对该增强现实交互的方法的应用场景进行详细说明。本公开实施例提供的增强现实交互的方法可以应用于智能家居、智能交通等需要针对三维空间内的真实物体或虚拟物体进行控制的相关领域中。相关技术中，多依赖于鼠标、键盘、触摸屏等第三方工具实现物体控制。然而，考虑到用户在进行AR体验的过程中，往往需要穿戴有AR设备，在穿戴AR设备的过程中，还要使用第三方工具进行上述接触式的控制，将极大的影响用户的AR体验。

正是为了解决这一问题，本公开实施例才提供了增强现实交互的方法，该方法采用的是手部无接触式方式，其通过图像处理实现了三维空间内手部对需要控制的物体的自动控制，无需借助第三方工具，操作更加方便。

其中，上述目标场景的真实场景图像可以是利用AR设备所拍摄的图像，该图像在AR设备所呈现的增强图像中可以是被直接叠加的。有关目标场景的三维场景地图，则可以是基于目标场景内所对应的各物体的三维点云数据呈现的，每个三维点云数据可以带有对应物体的相关信息，如属性信息、位置信息等。在具体应用中，可以按照如下步骤构建三维场景地图：

步骤一、获取多张真实场景图像样本；

步骤二、基于多张真实场景图像样本，构建表征目标场景的初始三维场景模型；

步骤三、将构建的初始三维场景模型上的标定特征点与目标场景对应的标定特征点进行对齐，生成三维场景地图。

本公开实施中，可以预先通过对一个目标场景，比如一个室内环境机型多角度拍摄，得到该目标场景对应的大量真实场景图像样本。这样，基于多张真实场景图像样本，可以生成目标场景对应的初始三维场景模型。

这里，首先可以从获取的每张真实场景图像样本中提取多个特征点，然后基于提取的多个特征点，以及预存的与目标场景匹配的三维样本图，生成初始三维场景模型；其中，三维样本图为预存储的表征目标场景形貌特征的三维图。

具体地，针对每张真实场景图像样本提取的特征点可以为能够表征该张真实场景图像样本关键信息的点，比如针对包含家电(如空调设备)的真实场景图像样本，这里的特征点可以表示空调设备轮廓信息的特征点。

这里预存的与目标场景的三维样本图可以包括提前设置好的能够表征该目标场景形貌特征、且带有尺寸标注的三维图，比如可以是表征该目标场景形貌特征的计算机辅助设计(Computer Aided Design，CAD)三维图。

针对该目标场景，当提取的特征点足够多时，特征点构成的特征点云，可以构成表征该目标场景的三维模型。这里将特征点云与带有尺度标注的且能够表征该目标场景形貌特征的三维图对齐后，即得到该目标场景对应的初始三维场景模型。

考虑到生成的初始三维模型可能会存在失真现象，因而可以通过目标场景中的标定特征点和初始三维场景模型上的标定特征点来完成对齐过程，从而可以得到准确度较高的三维场景模型。

本公开实施例中，首先可以在目标场景对应的初始三维场景模型中提取用于表征目标场景多个空间位置点的标定特征点，而后确定标定特征点在目标场景对应的真实二维地图中的真实坐标数据，并基于每个标定特征点对应的真实坐标数据，调整初始三维场景模型中各个特征点的坐标数据。

这里，可以选择一些表征物体边缘的特征点作为标定特征点，基于标定特征点对应的真实坐标数据以及该标定特征点在初始三维场景模型中的坐标数据，确定坐标数据调整量，然后基于该坐标数据调整量对初始三维模型中各个特征点的坐标数据进行修正，即可以得到准确度较高的三维场景地图。

本公开实施例中，通过对真实场景图像的手部检测一方面可以确定真实场景图像中手部的图像位姿信息，另一方面可以确定手部对应的手势类别信息。基于图像位姿信息以及上述三维场景地图可以确定手部在三维场景地图所在世界坐标系下的位姿信息，这样，在确定该位姿信息下所需要控制的目标物体之后，即可以基于确定的手势类别信息对需要控制的目标物体进行手部控制。

有关手部的图像位姿信息可以通过目标检测方法来确定，还可以通过模型训练方法来确定。这里，考虑到模型训练方法可以挖掘出更为丰富的图像特征，因而，可以采用预先训练好的手部检测模型，从获取的真实场景图像中检测出手部的图像位姿信息。一种可行的实施方式中，有关手部检测模型的训练可以是预先对训练样本图像进行手部标注，而后基于标注好的图像进行训练。同理，有关手部对应的手势类别信息也可以是预先标注的，从而可以利用训练好的手部检测模型实现手势类别信息的确定。

需要说明的是，考虑到各个手指及手指之间的形态多变，因而在进行手势类别确定的过程中，可以是针对手部关节关键点的检测，将检测得到的关节关键点组合起来可以确定对应的手势类别。

本公开实施例中，可以基于真实场景图像所在图像坐标系与三维场景地图所在世界坐标系之间的转换关系，可以将真实场景图像中手部的图像位姿信息转换为手部在世界坐标系下的位姿信息，也即，利用两个坐标系之间的转换关系，即可以实现对应位姿信息的确定。

在确定手部在世界坐标系下的位姿信息的情况下，可以基于这一位姿信息以及三维空间内的相关物体的位姿信息之间的相对位姿关系，确定需要控制的目标物体，并能够基于上述确定的手势类别信息对该需要控制的目标物体执行控制操作。

需要说明的是，这里的目标物体可以是三维空间内真实存在的真实物体，还可以是为了提升AR体验在三维空间内新增的虚拟物体。在具体应用中，该目标物体可以是一个，还可以为多个，在目标物体为多个的情况下，可以控制多个目标物体执行同步的动作，还可以分别控制多个目标物体执行对应的动作，本公开实施例对此不做具体的限制。

为了便于理解上述增强现实交互的方法，这里，可以以智能家居为例，结合图2(a)和图2(b)做进一步的描述。

如图2(a)所示，在确定AR设备所拍摄的真实场景图像中包括空调和电视机这两个真实物体，且包括具有一定手势状态的手部的情况下，利用上述增强现实交互的方法中的交互方案，可以基于手部对应的手势类别信息对这些需要控制的目标物体执行控制操作，如图2(a)所示，在握拳手势下，可以控制空调设备打开等。

除此之外，本公开实施例可以基于与目标场景对应的三维场景地图，确定需要添加的目标虚拟物体在世界坐标系下的位姿信息，例如，可以在确定可添加的目标虚拟物体为音箱，且该音箱放置于桌面上的情况下，如图2(b)所示为增强图像呈现效果图，这里，可以利用上述交互方案实现手部对音箱的相关控制。

本公开实施例提供的增强现实交互的方法在基于手部对应的手势类别信息执行控制操作之前，可以确定需要控制的目标物体。本公开实施例中的目标物体可以是真实物体还可以是虚拟物体。接下来可以通过如下两个方面分别进行描述。

第一方面：本公开实施例可以按照如下步骤确定手部需要控制的目标物体：

步骤一、对获取的真实场景图像进行物体检测，确定真实场景图像中的至少一个真实物体；

步骤二、基于三维场景地图，确定检测出的每个真实物体在世界坐标系下的位姿信息；

步骤三、针对每个真实物体，在基于该真实物体在世界坐标系下的位姿信息与手部在世界坐标系下的位姿信息，确定手部与该真实物体之间的相对位姿满足预设条件的情况下，将该真实物体确定为手部需要控制的目标物体。

这里，在确定出真实场景图像中的一个或多个真实物体的情况下，可以首先基于三维场景地图，确定每个真实物体在世界坐标系下的位姿信息，这样，真实物体与手部之间的相对位姿即可以基于上述真实物体在世界坐标系下的位姿信息与手部在世界坐标系下的位姿信息之间的相对位姿信息来确定，若一个真实物体与手部之间的相对位姿满足预设条件，可以将该真实物体确定为手部需要控制的目标物体。

这里的预设条件可以是所确定的手部与目标物体之间的相对距离小于预设距离，也可以是确定的手部与朝向目标物体的方向之间的相对夹角小于预设夹角，也即，本公开实施例可以在手部与目标物体之间的相对距离足够近(如在距离空调的1米距离范围内)，和/或相对夹角足够小(如在偏离空调正面的15度夹角范围内)的情况下对相关物体进行控制。

本公开实施例中，为了确定真实物体在世界坐标系下的位姿信息，可以基于模型匹配的方式也可以基于坐标系之间的转换方式来具体实现。

其一、本公开实施例可以基于模型匹配来确定真实物体在世界坐标系下的位姿信息。

本公开实施例中，首先可以根据检测出的每个真实物体在真实场景图像中的图像信息，确定在三维场景地图中与这一真实物体匹配的三维模型，例如，在确定空调这一真实物体的情况下，可以基于该空调所在图像区域在真实场景图像中的位置范围，在三维场景地图中确定这一位置范围相匹配的三维模型(即空调模型)，该三维模型在三维场景地图中的位姿信息，即可作为真实物体在世界坐标系下的位姿信息。

其二、本公开实施例可以基于坐标系转换来确定真实物体在世界坐标系下的位姿信息，具体可以通过如下步骤来实现：

步骤一、基于真实场景图像以及三维场景地图，确定拍摄设备在世界坐标系下的位姿信息；

步骤二、基于检测出的每个真实物体在真实场景图像对应的图像坐标系下的位姿信息，以及相机坐标系和图像坐标系之间的转换关系，确定每个真实物体在相机坐标系下的位姿信息；

步骤三、基于拍摄设备在世界坐标系下的位姿信息，以及每个真实物体在相机坐标系下的位姿信息，确定每个真实物体在世界坐标系下的位姿信息。

这里，首先可以确定基于拍摄设备与拍摄的真实场景图像之间的对应关系，以及真实场景图像和三维场景地图，确定拍摄设备在世界坐标系下的位姿信息，这样，基于相机坐标系和图像坐标系之间的转换关系，可以将真实物体在真实场景图像对应的图像坐标系下的位姿信息转换为真实物体在相机坐标系下的位姿信息，之后，基于世界坐标系与相机坐标系之间的转换关系、拍摄设备在世界坐标系下的位姿信息，以及真实物体在相机坐标系下的位姿信息，即可以确定真实物体在世界坐标系下的位姿信息。

第二方面：本公开实施例可以按照如下步骤确定手部需要控制的目标物体：

步骤一、基于三维场景地图，确定至少一个目标虚拟物体在世界坐标系下的位姿信息；

步骤二、在基于目标虚拟物体在世界坐标系下的位姿信息与手部在世界坐标系下的位姿信息，确定手部与虚拟物体之间的相对位姿信息满足预设条件的情况下，将目标虚拟物体确定为手部需要控制的目标物体。

这里，首先可以基于三维场景地图，确定目标虚拟物体在世界坐标系下的位姿信息，这样，目标虚拟物体与手部之间的相对位姿即可以基于上述目标虚拟物体在世界坐标系下的位姿信息与手部在世界坐标系下的位姿信息之间的相对位姿信息来确定，若一个目标虚拟物体与手部之间的相对位姿满足预设条件，可以将该目标虚拟物体确定为手部需要控制的目标物体。

同理，这里可以通过相对距离和相对夹角来限定预设条件，有关描述参见上述相关内容，在此不再赘述。

本公开实施例中，在确定需要控制的目标物体的情况下，可以基于检测得到的手部对应的手势类别信息对目标物体执行控制操作，具体可以通过如下步骤来实现：

步骤一、基于各种手势类别信息与各个控制操作方式之间的对应关系，确定与手部所对应的手势类别信息对应的目标控制操作方式；

步骤二、基于确定的目标控制操作方式对需要控制的目标物体执行控制操作。

这里，不同的手势类别信息所对应的控制操作方式也不同，这里的手势类别信息表征的可以是开启或关闭目标物体的指向型手势类别，例如，可以在手势为1的情况下，控制空调设备开启工作，还可以是表征设备参数调整的交互型手势类别，例如，可以通过空间滑动操作实现对空调设备的温度调整。除此之外，本公开实施例还可以采用可以针对不同的目标物体设置不同的手势类别信息，进而基于相应的控制操作方式执行相应的控制操作，在此不不做赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与增强现实交互的方法对应的增强现实交互的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述增强现实交互的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例二

参照图3所示，为本公开实施例提供的一种增强现实交互的装置的示意图，装置包括：获取模块301、检测模块302、确定模块303和控制模块304；其中，

获取模块301，用于获取目标场景的真实场景图像，以及与目标场景对应的三维场景地图；

检测模块302，用于对获取的真实场景图像进行手部检测，确定真实场景图像中手部的图像位姿信息和手部对应的手势类别信息；

确定模块303，用于基于手部的图像位姿信息和三维场景地图，确定手部在世界坐标系下的位姿信息；

控制模块304，用于根据手部在世界坐标系下的位姿信息和三维场景地图，确定手部需要控制的目标物体，并基于手部对应的手势类别信息对需要控制的目标物体执行控制操作。

采用上述增强现实交互的装置，通过对获取的真实场景图像的分析，可以确定真实场景图像中的手部在三维场景地图所在世界坐标系下的位姿信息，基于这一位姿信息可以对三维空间内的真实物体、虚拟物体等目标物体进行手部控制，也即，本公开采用手部无接触方式实现了对三维空间的物体的自动控制，解决了使用第三方工具进行控制所带来的操作不便的问题。

在一种可能的实施方式中，确定模块303，用于按照以下步骤基于手部的图像位姿信息和三维场景地图，确定手部在世界坐标系下的位姿信息：

基于真实场景图像所在图像坐标系与三维场景地图所在世界坐标系之间的转换关系，将真实场景图像中手部的图像位姿信息转换为手部在世界坐标系下的位姿信息。

在一种可能的实施方式中，检测模块302，用于按照以下步骤对获取的真实场景图像进行手部检测，确定真实场景图像中手部的图像位姿信息：

利用预先训练好的手部检测模型，从获取的真实场景图像中检测出手部的图像位姿信息。

在一种可能的实施方式中，控制模块304，用于按照以下步骤根据手部在世界坐标系下的位姿信息和三维场景地图，确定手部需要控制的目标物体：

对获取的真实场景图像进行物体检测，确定真实场景图像中的至少一个真实物体；

基于三维场景地图，确定检测出的每个真实物体在世界坐标系下的位姿信息；

针对每个真实物体，在基于该真实物体在世界坐标系下的位姿信息与手部在世界坐标系下的位姿信息，确定手部与该真实物体之间的相对位姿满足预设条件的情况下，将该真实物体确定为手部需要控制的目标物体。

在一种可能的实施方式中，控制模块304，用于按照以下步骤基于三维场景地图，确定检测出的每个真实物体在世界坐标系下的位姿信息：

基于检测出的每个真实物体在真实场景图像中的图像信息，在三维场景地图中确定与该真实物体匹配的三维模型，将该三维模型在三维场景地图中的位姿信息，确定为该真实物体在世界坐标系下的位姿信息。

基于真实场景图像以及三维场景地图，确定拍摄设备在世界坐标系下的位姿信息；

基于检测出的每个真实物体在真实场景图像对应的图像坐标系下的位姿信息，以及相机坐标系和图像坐标系之间的转换关系，确定每个真实物体在相机坐标系下的位姿信息；

基于拍摄设备在世界坐标系下的位姿信息，以及每个真实物体在相机坐标系下的位姿信息，确定每个真实物体在世界坐标系下的位姿信息。

基于三维场景地图，确定至少一个目标虚拟物体在世界坐标系下的位姿信息；

在基于目标虚拟物体在世界坐标系下的位姿信息与手部在世界坐标系下的位姿信息，确定手部与虚拟物体之间的相对位姿信息满足预设条件的情况下，将目标虚拟物体确定为手部需要控制的目标物体。

在一种可能的实施方式中，位姿信息包括位置信息以及姿态信息；预设条件包括以下条件中的一种或多种：

所确定的手部与目标物体之间的相对距离小于预设距离；

确定的手部与朝向目标物体方向之间的相对夹角小于预设夹角。

在一种可能的实施方式中，控制模块304，用于按照以下步骤基于手部对应的手势类别信息对需要控制的目标物体执行控制操作：

基于各种手势类别信息与各个控制操作方式之间的对应关系，确定与手部所对应的手势类别信息对应的目标控制操作方式；

基于确定的目标控制操作方式对需要控制的目标物体执行控制操作。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例三

本公开实施例还提供了一种电子设备，如图4所示，为本公开实施例提供的电子设备结构示意图，包括：处理器401、存储器402、和总线403。存储器402存储有处理器401可执行的机器可读指令(比如，图3中的增强现实交互的装置中获取模块301、检测模块302、确定模块303、控制模块304对应的执行指令等)，当电子设备运行时，处理器401与存储器402之间通过总线403通信，机器可读指令被处理器401执行时执行如下处理：

获取目标场景的真实场景图像，以及与目标场景对应的三维场景地图；

对获取的真实场景图像进行手部检测，确定真实场景图像中手部的图像位姿信息和手部对应的手势类别信息；

基于手部的图像位姿信息和三维场景地图，确定手部在世界坐标系下的位姿信息；

根据手部在世界坐标系下的位姿信息和三维场景地图，确定手部需要控制的目标物体，并基于手部对应的手势类别信息对需要控制的目标物体执行控制操作。

在一种可能的实施方式中，上述处理器401执行的指令中，基于手部的图像位姿信息和三维场景地图，确定手部在世界坐标系下的位姿信息，包括：

在一种可能的实施方式中，上述处理器401执行的指令中，对获取的真实场景图像进行手部检测，确定真实场景图像中手部的图像位姿信息，包括：

在一种可能的实施方式中，上述处理器401执行的指令中，根据手部在世界坐标系下的位姿信息和三维场景地图，确定手部需要控制的目标物体，包括：

在一种可能的实施方式中，上述处理器401执行的指令中，基于三维场景地图，确定检测出的每个真实物体在世界坐标系下的位姿信息，包括：

所确定的手部与目标物体之间的相对距离小于预设距离；

在一种可能的实施方式中，上述处理器401执行的指令中，基于手部对应的手势类别信息对需要控制的目标物体执行控制操作，包括：

上述指令的具体执行过程可以参考本公开实施例中所述的增强现实交互的方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例一中所述的增强现实交互的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例一所提供的增强现实交互的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例一中所述的增强现实交互的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种增强现实交互的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述手部的图像位姿信息和所述三维场景地图，确定所述手部在世界坐标系下的位姿信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，对获取的所述真实场景图像进行手部检测，确定所述真实场景图像中手部的图像位姿信息，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，根据所述手部在世界坐标系下的位姿信息和所述三维场景地图，确定所述手部需要控制的目标物体，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述三维场景地图，确定检测出的每个所述真实物体在世界坐标系下的位姿信息，包括：

6.根据权利要求4所述的方法，其特征在于，基于所述三维场景地图，确定检测出的每个所述真实物体在世界坐标系下的位姿信息，包括：

7.根据权利要求1-3任一所述的方法，其特征在于，根据所述手部在世界坐标系下的位姿信息和所述三维场景地图，确定所述手部需要控制的目标物体，包括：

8.根据权利要求4-7任一所述的方法，其特征在于，所述位姿信息包括位置信息以及姿态信息；所述预设条件包括以下条件中的一种或多种：

9.根据权利要求1-8任一所述的方法，其特征在于，基于所述手部对应的手势类别信息对所述需要控制的目标物体执行控制操作，包括：

10.一种增强现实交互的装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的增强现实交互的方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被电子设备运行时，所述电子设备执行如权利要求1至9任一项所述的增强现实交互的方法的步骤。