CN111949111B

CN111949111B - 交互控制方法、装置、电子设备及存储介质

Info

Publication number: CN111949111B
Application number: CN201910399073.5A
Authority: CN
Inventors: 卓世杰
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2022-04-26
Anticipated expiration: 2039-05-14
Also published as: CN111949111A; EP3971685A4; US20220066545A1; WO2020228643A1; EP3971685A1

Abstract

本公开提供了一种交互控制方法、装置、电子设备及计算机可读存储介质，涉及计算机技术领域，所述交互控制方法包括：获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标；根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互。本公开能够准确得到预设部位的关键点在虚拟世界的三维坐标，进而控制预设部位的关键点与虚拟物体精准地进行交互。

Description

交互控制方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种交互控制方法、交互控制装置、电子设备以及计算机可读存储介质。

背景技术

在增强现实中，用户与虚拟物体之间实现精准交互尤为重要。相关技术中，先对环境进行重建形成虚拟世界，然后在虚拟世界中放置任意的虚拟物体。为了与放置的虚拟物体产生交互，需要通过利用相机采集到的彩色图像进行手部跟踪，获取手部的位置信息，再与虚拟物体进行例如拿起、放置、旋转等交互。

在上述方式中，手部跟踪获取到的手部的位置信息，只是在屏幕空间上的二维坐标。在与虚拟物体进行交互时，还需要将二维坐标估计成虚拟世界中的三维坐标，从而与虚拟物体的三维坐标进行空间上的计算。但是将二维坐标估计成三维坐标的步骤可能会存在比较大的误差，使得估计的三维坐标并不准确，从而导致不能精准交互。另外，估计三维坐标的过程可能导致操作效率较低，影响交互体验。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种交互控制方法、装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的无法实现精准交互的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种交互控制方法，包括：获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标；根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互。

在本公开的一种示例性实施例中，获取预设部位的关键点的屏幕空间坐标包括：获取单目相机采集的包含所述预设部位的第一图像；对所述第一图像进行关键点检测，以得到所述预设部位的关键点的所述屏幕空间坐标。

在本公开的一种示例性实施例中，对所述第一图像进行关键点检测，以得到所述预设部位的关键点的所述屏幕空间坐标包括：通过训练好的卷积神经网络模型对所述第一图像进行处理，得到所述预设部位的关键点；对所述预设部位的关键点进行回归处理，得到所述预设部位的关键点的位置信息并将所述位置信息作为所述屏幕空间坐标。

在本公开的一种示例性实施例中，所述拍摄设备包括深度相机，获取所述预设部位的关键点相对于拍摄设备的真实距离包括：获取所述深度相机采集的包含所述预设部位的第二图像；对所述第一图像与所述第二图像进行对齐操作；将所述屏幕空间坐标在对齐后的第二图像上进行取值，以得到所述预设部位的关键点到所述深度相机的所述真实距离。

在本公开的一种示例性实施例中，将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标包括：根据所述真实距离与所述屏幕空间坐标得到所述预设部位的关键点的投影空间的三维坐标；根据所述拍摄设备的视场角确定投影矩阵；基于所述投影矩阵将所述投影空间的三维坐标转换为所述虚拟世界中的三维坐标。

在本公开的一种示例性实施例中，根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互包括：获取与所述虚拟物体进行交互的预设部位的关键点的所述虚拟世界中的三维坐标；计算所述三维坐标与所述虚拟物体的坐标之间的距离；若所述距离满足预设距离，则触发所述预设部位的关键点与所述虚拟物体进行交互。

在本公开的一种示例性实施例中，触发所述预设部位的关键点与所述虚拟物体进行交互包括：识别所述预设部位的关键点的当前动作；将所述当前动作与多个预设动作进行匹配，并根据匹配结果响应所述当前动作与所述虚拟物体进行交互；其中，所述多个预设动作与交互操作一一对应。

根据本公开的一个方面，提供一种交互控制装置，包括：参数获取模块，用于获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；三维坐标计算模块，用于将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标；交互执行模块，用于根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的交互控制方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的交互控制方法。

本示例性实施例提供的交互控制方法、装置、电子设备及计算机可读存储介质中，一方面，结合预设部位的关键点的屏幕空间坐标和到拍摄设备的真实距离，得到预设部位的关键点在虚拟世界中的三维坐标，避免了对三维坐标进行估计的步骤，且减少了估计步骤导致的误差，提高了准确性，能够得到准确的三维坐标，并基于该三维坐标实现精准交互。另一方面，由于能够结合屏幕空间坐标和真实距离得到预设部位的关键点的三维坐标，不需要对坐标进行估计，提高了计算效率，能够快速得到预设部位的关键点在虚拟世界中准确的三维坐标。再一方面，根据三维坐标确定的预设部位的关键点与虚拟世界中虚拟物体之间的空间关系，能够通过空间关系精准地控制预设部位的关键点与虚拟物体进行交互，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中交互控制方法的示意图。

图2示意性示出本公开示例性实施例中确定屏幕空间坐标的流程图。

图3示意性示出本公开示例性实施例中手部关键点的示意图。

图4示意性示出本公开示例性实施例中确定真实距离的流程图。

图5示意性示出本公开示例性实施例中计算虚拟世界中三维坐标的流程图。

图6示意性示出本公开示例性实施例中控制预设部位的关键点与虚拟物体进行交互的流程图。

图7示意性示出本公开示例性实施例中触发预设部位的关键点与虚拟物体进行交互的具体流程图。

图8示意性示出本公开示例性实施例中预设部位的关键点与虚拟物体进行交互的整体流程图。

图9示意性示出本公开示例性实施例中交互控制装置的框图。

图10示意性示出本公开示例性实施例中的电子设备的示意图。

图11示意性示出本公开示例性实施例中的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为了解决相关技术中，估计手部在虚拟世界中的三维坐标而导致的影响交互过程的问题，本示例性实施例中，提供了一种交互控制方法，该交互控制方法可以应用于增强现实领域中的任何场景，例如基于增强现实的游戏、教育、生活等多个应用场景。接下来，参考图1所示，对本示例性实施例中的交互控制方法进行详细说明。

在步骤S110中，获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离。

本示例性实施例中，预设部位可以为能够与虚拟世界(虚拟空间)中的虚拟物体进行交互的任意部位，例如包括但不限于用户的手部或者是头部等等，本示例性实施例中以预设部位为用户的手部为例进行说明，且此处的手部指的是用户与虚拟物体进行交互的一个手或者是两个手。

屏幕空间坐标指的是在屏幕上显示的位于图像空间中的二维坐标(X坐标和Y坐标)，屏幕空间坐标不受物体在空间位置的影响，只受到物体本身和视口的影响。具体可以通过对手部进行关键点检测而得到手部的关键点的屏幕空间坐标。手部关键点检测是在手指上确定关节以及在包含手部的图像中确定指尖的过程。关键点是对一个固定区域的抽象描述，其不仅代表一个点信息或位置，还代表上下文与周围邻域的组合关系。

图2中示出了得到屏幕空间坐标的具体流程图。参考图2中所示，获取预设部位的关键点的屏幕空间坐标的步骤可包括步骤S210至步骤S230，其中：

在步骤S210中，获取单目相机采集的包含所述预设部位的第一图像。

本步骤中，单目相机是以二维的形式反映三维的世界，此处的单目相机可以设置在手机或者是设置在相机等用于采集图像的拍摄设备上。第一图像指的是单目相机拍摄的彩色图像。具体地，单目相机可从任意一个角度以及任意距离采集包含手部的彩色图像，此处对角度和距离不作特殊限定，只要能够清楚地展示手部即可。

在步骤S220中，对所述第一图像进行关键点检测，以得到所述预设部位的关键点的所述屏幕空间坐标。

本步骤中，可基于步骤S210中得到的彩色图像，对预设部位进行关键点检测。对预设部位进行关键点检测得到屏幕空间坐标的具体过程可以包括步骤S230和步骤S240，其中：

在步骤S230中，通过训练好的卷积神经网络模型对所述第一图像进行处理，得到所述预设部位的关键点。

本步骤中，首先可对卷积神经网络模型进行训练，以得到训练好的模型。可使用少量标注的含有某个手部关键点的数据来训练卷积神经网络模型。具体地，可使用多个不同视角的拍摄设备来拍摄手部，用上述卷积神经网络模型初步检测关键点，将这些关键点根据拍摄设备的位姿构建三角得到关键点的三维位置，再将计算得到的三维位置重投影到每一幅不同视角的二维图像，使用这些二维图像和关键点标注训练卷积神经网络模型，经过多次迭代，即可得到较为精确的手部关键点检测模型，即训练好的卷积神经网络模型。进一步地，可将步骤S210中采集的包含手部的彩色图像输入至训练好的卷积神经网络模型，通过训练好的卷积神经网络模型来准确检测手部关键点。

在步骤S240中，对所述预设部位的关键点进行回归处理，得到所述预设部位的关键点的位置信息并将所述位置信息作为所述屏幕空间坐标。

本步骤中，在检测到手部关键点之后，可对这些手部关键点进行回归处理。回归处理指的是以概率的形式定量描述变量之间的关系。进行回归处理时的模型可以为线性回归模型或者是逻辑回归模型等等，只要能够实现该功能即可。具体地，可将手部关键点输入回归模型中，以得到该手部关键点的位置信息，其中，每个手部关键点对应的输出即是该手部关键点在图像空间中的X坐标和Y坐标。图像空间中的图像坐标系以图像平面的中心为坐标原点，X轴和Y轴分别平行于图像平面的两条垂直边，用(X，Y)表示其坐标值。

图3中示出了手部关键点的示意图，参考图3中所示，针对包含手部的彩色图像，可生成手部的21个关键点(序号0至序号20的关键点)。

除此之外，本示例性实施例中还可以获取预设部位的关键点相对于拍摄设备的真实距离。真实距离指的就是预设部位的关键点距离拍摄设备的真实物理距离，例如1米、2米等等。

图4中示出了获取预设部位的关键点相对于拍摄设备的真实距离的示意图。参考图4中所示，主要包括步骤S410至步骤S430，其中：

在步骤S410中，获取所述深度相机采集的包含所述预设部位的第二图像。

本步骤中，拍摄设备指的是用于拍摄包含手部的第二图像的深度相机，第二图像为由深度相机拍摄的深度图像。深度相机包括但不限于TOF(Time of Flight，飞行时间)相机，也可以为其他用于测量深度的相机，例如红外距离传感器相机、结构光相机以及激光结构相机中的任意一种，本示例性实施例中以TOF相机为例进行说明。

TOF相机可由镜头、光源、光学部件、传感器、控制电路以及处理电路等几部单元组成。TOF相机采用的是主动光探测方式，其主要目的是利用入射光信号与反射光信号的变化来进行距离测量。具体地，TOF模组获取手部的第二图像的原理包括：通过对目标场景发射连续的近红外脉冲，然后用传感器接收由手部反射回的光脉冲。通过比较发射光脉冲与经过手部反射的光脉冲的相位差，可以推算得到光脉冲之间的传输延迟进而得到手部相对于发射器的距离，最终得到一幅手部的深度图像。通过深度相机获取手部的第二图像，能够避免在终端外借助其他传感器测量深度信息而导致的增加成本以及操作不便的问题。

需要说明的是，步骤S410中深度相机采集的第二图像和步骤S210中单目相机采集的第一图像是同时采集的，以保证采集的彩色图像和深度图像之间满足一一对应的关系。

在步骤S420中，对所述第一图像与所述第二图像进行对齐操作。

本步骤中，由于第二图像与第一图像是同时采集的，两种图像之间存在一一对应关系，且分别是现实空间中同一个点在两个图像上的不同表示形式。由于彩色图像的分辨率大于深度图像的分辨率，且彩色图像和深度图像存在尺寸上的不同，因此需要对彩色图像和深度图像进行对齐操作，以提高图像结合的准确性。对齐操作指的是使得彩色图像和深度图像的尺寸相同的操作。对齐操作例如可以为：直接对彩色图像或深度图像进行缩放，或者是对深度图像进行后处理以扩大其分辨率，当然也可以包括其他对齐方式，此处不作特殊限定。

在步骤S430中，将所述屏幕空间坐标在对齐后的第二图像上进行取值，以得到所述预设部位的关键点到所述深度相机的所述真实距离。

本步骤中，在将彩色图像和深度图像对齐后，可将图2中得到的屏幕空间坐标(X坐标和Y坐标)直接在对齐后的深度图像上进行取值，以得到手部关键点到深度相机之间的实际物理距离。通过将屏幕空间坐标和深度图像进行结合的方式，能够准确得到手部关键点离深度相机的真实物理距离。

继续参考图1所示，在步骤S120中，将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标。

本示例性实施例中，虚拟世界指的是对环境进行重建而形成的用于放置虚拟物体以及用于交互的虚拟的世界。由于步骤S110中得到的坐标是手部关键点在投影空间中的坐标，为了得到手部关键点在虚拟世界中的坐标，可对其在投影空间中的坐标进行转换。

图5中示意性示出了计算虚拟世界中的三维坐标的具体过程，参考图5所示，主要包括步骤S510至步骤S530，其中：

在步骤S510中，根据所述真实距离与所述屏幕空间坐标得到所述预设部位的关键点的投影空间的三维坐标。

本步骤中，屏幕空间坐标指的是预设部位的关键点在投影空间的二维坐标，同时可将预设部位的关键点到深度相机的真实距离作为预设部位的关键点在投影空间的Z轴坐标，以将真实物理距离和屏幕空间坐标进行结合，得到预设部位的关键点在投影空间中的三维坐标(X，Y，Z)。举例而言，由彩色图像1得到的手部关键点1在投影空间的屏幕空间坐标为(1，2)，由深度图像2得到的手部关键点1离深度相机的真实物理距离为0.5，则可以认为手部关键点1在投影空间中的三维坐标为(1，2，0.5)。

在步骤S520中，根据所述拍摄设备的视场角确定投影矩阵。

本步骤中，视场角指的是镜头所能覆盖的范围，即以被测目标(手部)的物象可通过镜头的最大范围的两条边构成的夹角，且视场角越大视野就越大。具体地，可采用平行光源进行视场角的测量，也可以采用亮度计测量拍摄设备的亮度分布从而得到视场角，还可以采用分光光度计进行视场角的测量。

在得到视场角之后，可根据视场角确定对应的投影矩阵，以将投影空间的三维坐标转换到虚拟世界的坐标系下。投影矩阵用于将每个点的坐标映射到二维的屏幕上，且投影矩阵不会因为场景里模型的位置变化或观察者的移动而变化，只需要一次初始化即可。每个拍摄设备可对应一个或多个投影矩阵，投影矩阵是关于近平面距离、远平面距离、视场角FOV、显示宽高比相关的一个四维向量。投影矩阵可直接从应用取得，也可利用应用启动后渲染得到的多个关键帧自适应训练获得。

继续参考图5所示，在步骤S530中，基于所述投影矩阵将所述投影空间的三维坐标转换为所述虚拟世界中的三维坐标。

本步骤中，在得到投影矩阵之后，可根据投影矩阵对预设部位的关键点在投影空间中的三维坐标进行转化，以得到预设部位的关键点在虚拟世界中的三维坐标。需要说明的是，虚拟世界中的三维坐标对应的坐标系与放置的虚拟物体属于同一个坐标系。

本示例性实施例中，通过屏幕空间坐标与预设部位的关键点相对于拍摄设备的真实距离进行结合，能够避免对预设部位的关键点进行估计的过程，避免了对三维坐标进行估计的步骤以及导致的误差，提高了准确性，能够得到准确的三维坐标；与此同时，提高了计算效率，能够快速得到准确的三维坐标。

继续参考图1所示，在步骤S130中，根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互。

本示例性实施例中，空间关系指的是预设部位的关键点与虚拟物体之间是否接触或者是预设部位的关键点与虚拟物体之间的位置关系，具体可以用二者之间的距离来表示。进一步地，可根据预设部位的关键点与虚拟物体之间的空间关系来控制预设部位的关键点与虚拟物体进行交互，以实现用户和增强现实场景中虚拟物体的精准交互过程。

图6中示意性示出了控制预设部位的关键点和虚拟物体进行交互的流程图，参考图6中所示，具体包括步骤S610至步骤S630，其中：

在步骤S610中，获取与所述虚拟物体进行交互的预设部位的关键点的虚拟世界中的三维坐标。

本步骤中，与虚拟物体进行交互的预设部位的关键点可以为图3中示出的任意一个关键点，例如食指的指尖或者是拇指的尾部等等，此处以食指的指尖为例进行说明。若与虚拟物体进行交互的是食指的指尖，则根据预设部位的关键点与图3中所示的对应关系，确定食指的指尖对应序号为8的关键点。进一步地，可根据步骤S110和步骤S120中的过程获取序号为8的关键点在虚拟世界中的三维坐标。

在步骤S620中，计算所述虚拟世界中的三维坐标与所述虚拟物体的坐标之间的距离。

本步骤中，虚拟物体的坐标指的是虚拟世界中虚拟物体的中心点的坐标，或者是虚拟物体的碰撞盒。在得到预设部位的关键点在虚拟世界中的三维坐标，以及虚拟物体的中心点的坐标后，可根据距离计算公式来计算二者之间的距离。此处的距离包括但不限于欧式距离、余弦距离等等。距离计算公式可以为公式(1)所示：

在步骤S630中，若所述距离满足预设距离时，触发所述预设部位的关键点与所述虚拟物体之间进行交互。

本步骤中，预设距离指的是事先设置的用于触发交互的一个阈值，为了有效触发交互，预设距离可以为一个较小的数值，比如5厘米或者是10厘米等等。本示例性实施例中，可将步骤S620中得到的手部关键点的虚拟世界中的三维坐标与虚拟物体的坐标之间的距离与预设距离进行比较，从而根据比较结果来确定是否触发交互。具体地，若距离小于或者等于预设距离，则触发预设部位的关键点与虚拟物体进行交互；若距离大于预设距离，则不会触发预设部位的关键点与虚拟物体进行交互。举例而言，若进行的是食指点击虚拟物体的操作，首先根据关键点的序号，取序号为8的关键点在虚拟世界中的三维坐标(X，Y，Z)；接下来计算序号为8的关键点的坐标与虚拟物体的中心点的欧氏距离；进一步地当欧式距离小于预设距离(5厘米)时触发该点击操作。

图7示意性示出触发预设部位的关键点与虚拟物体进行交互的流程图，参考图7中所示，具体包括步骤S710和步骤S720，其中：

在步骤S710中，识别所述预设部位的关键点的当前动作。

本步骤中，首先可确定预设部位的关键点的当前动作属于哪种动作，例如属于点击、下压、翻转等动作中的哪一种。具体可根据预设部位的关键点的特征以及预设部位的关键点的运动轨迹等等来确定和识别预设部位等的关键点的动作，此处不做详细描述。

在步骤S720中，将所述当前动作与多个预设动作进行匹配，并根据匹配结果响应所述动作与所述虚拟物体进行交互；其中，所述多个预设动作与交互操作一一对应。

本步骤中，多个预设动作指的是事先存储在数据库中的标准动作或者是参考动作，包括但不限于点击、推、拨动、下压、翻转等等。交互操作指的是每个预设动作对应的预设部位的关键点与虚拟物体之间的交互。例如，点击对应选择操作、推对应关闭、拨动对应左右滚动、下压对应于确认、翻转对应于返回等等。需要说明的是，预设动作与交互操作之间的一一对应关系可根据实际需求进行调整，此处不做特殊限定。

进一步地，可将识别到的手部关键点的当前动作与数据库中存储的多个预设动作进行匹配。具体地，可计算二者之间的相似度，并在相似度大于预设的阈值时，将相似度最高的确定为匹配成功的预设动作，以提高准确性。再进一步地，可根据匹配结果来响应当前动作进行交互。具体地，可将匹配成功的预设动作对应的交互操作确定为步骤S710中的当前动作对应的交互操作，以根据当前动作实现与虚拟物体进行交互的过程。举例而言，若确定的当前动作为食指点击虚拟物体的操作，则可对应执行选择操作。

图8中示出了增强现实中用户与虚拟物体交互的整体流程图，参考图8中所示，主要包括以下步骤：

在步骤S801中，获取单目相机采集的彩色图像。

在步骤S802中，进行手部关键点检测，得到屏幕空间坐标。

在步骤S803中，获取深度相机采集的深度图像，具体可从深度图像中得到真实距离。

在步骤S804中，将屏幕空间坐标和深度信息进行结合，其中深度信息指的是手部关键点离深度相机的真实距离。

在步骤S805中，得到手部关键点在虚拟世界中的三维坐标。

在步骤S806中，计算手部关键点与虚拟物体的空间关系，以根据空间关系进行交互。

图8中提供的方法，结合预设部位的关键点的屏幕空间坐标和到拍摄设备的真实距离，得到预设部位的关键点在虚拟世界中的三维坐标，避免了对三维坐标进行估计的步骤以及导致的误差，提高了准确性，能够得到准确的三维坐标，进而基于该三维坐标实现精准交互。由于能够结合屏幕空间坐标和真实距离得到预设部位的关键点的三维坐标，避免了估计坐标的过程，提高了计算效率，能够快速得到准确的三维坐标。根据三维坐标确定的预设部位的关键点与虚拟世界中虚拟物体之间的空间关系，能够精准地控制预设部位的关键点与虚拟物体进行交互，提高用户体验。

本示例性实施例中，还提供了一种交互控制装置，参考图9所示，该装置900可以包括：

参数获取模块901，用于获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；

三维坐标计算模块902，用于将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标；

交互执行模块903，用于根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互。

在本公开的一种示例性实施例中，参数获取模块包括：第一图像获取模块，用于获取单目相机采集的包含所述预设部位的第一图像；屏幕空间坐标确定模块，用于对所述第一图像进行关键点检测，以得到所述预设部位的关键点的所述屏幕空间坐标。

在本公开的一种示例性实施例中，屏幕空间坐标确定模块包括：关键点检测模块，用于通过训练好的卷积神经网络模型对所述第一图像进行处理，得到所述预设部位的关键点；坐标确定模块，用于对所述预设部位的关键点进行回归处理，得到所述预设部位的关键点的位置信息并将所述位置信息作为所述屏幕空间坐标。

在本公开的一种示例性实施例中，所述拍摄设备包括深度相机，参数获取模块包括：第二获取模块，用于获取所述深度相机采集的包含所述预设部位的第二图像；图像对齐模块，用于对所述第一图像与所述第二图像进行对齐操作；真实距离获取模块，用于将所述屏幕空间坐标在对齐后的第二图像上进行取值，以得到所述预设部位的关键点到所述深度相机的所述真实距离。

在本公开的一种示例性实施例中，三维坐标计算模块包括：参考坐标获取模块，用于根据所述真实距离与所述屏幕空间坐标得到所述预设部位的关键点的投影空间的三维坐标；矩阵计算模块，用于根据所述拍摄设备的视场角确定投影矩阵；坐标转换模块，用于基于所述投影矩阵将所述投影空间的三维坐标转换为所述虚拟世界中的三维坐标。

在本公开的一种示例性实施例中，交互执行模块包括：三维坐标获取模块，用于获取与所述虚拟物体进行交互的预设部位的关键点的所述虚拟世界中的三维坐标；距离计算模块，用于计算所述三维坐标与所述虚拟物体的坐标之间的距离；交互判断模块，用于若所述距离满足预设距离，则触发所述预设部位的关键点与所述虚拟物体进行交互。

在本公开的一种示例性实施例中，交互判断模块包括：动作识别模块，用于识别所述预设部位的关键点的当前动作；交互触发模块，用于将所述当前动作与多个预设动作进行匹配，并根据匹配结果响应所述当前动作与所述虚拟物体进行交互；其中，所述多个预设动作与交互操作一一对应。

需要说明的是，上述交互控制装置中各模块的具体细节已经在对应的方法中进行了详细阐述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本发明的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1010可以执行如图1中所示的步骤：在步骤S110中，获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；在步骤S120中，将所述真实距离与所述屏幕空间坐标进行结合，确定所述预设部位的关键点的虚拟世界中的三维坐标；在步骤S130中，根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

显示单元1040可以为具有显示功能的显示器，以通过该显示器展示由处理单元1010执行本示例性实施例中的方法而得到的处理结果。显示器包括但不限于液晶显示器或者是其它显示器。

电子设备1000也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图11所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种交互控制方法，其特征在于，包括：

获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；

将所述真实距离与所述屏幕空间坐标进行结合确定预设部位的关键点在投影空间中的三维坐标，并对投影空间中的三维坐标进行转换确定所述预设部位的关键点的虚拟世界中的三维坐标；

根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互；

其中，将所述真实距离与所述屏幕空间坐标进行结合确定预设部位的关键点在投影空间中的三维坐标，并对投影空间中的三维坐标进行转换确定所述预设部位的关键点的虚拟世界中的三维坐标，包括：

根据所述真实距离与所述屏幕空间坐标，得到所述预设部位的关键点的投影空间的三维坐标；

根据所述拍摄设备的视场角确定投影矩阵；

基于所述投影矩阵将所述投影空间的三维坐标转换为所述虚拟世界中的三维坐标。

2.根据权利要求1所述的交互控制方法，其特征在于，获取预设部位的关键点的屏幕空间坐标包括：

获取单目相机采集的包含所述预设部位的第一图像；

对所述第一图像进行关键点检测，以得到所述预设部位的关键点的所述屏幕空间坐标。

3.根据权利要求2所述的交互控制方法，其特征在于，对所述第一图像进行关键点检测，以得到所述预设部位的关键点的所述屏幕空间坐标包括：

通过训练好的卷积神经网络模型对所述第一图像进行处理，得到所述预设部位的关键点；

对所述预设部位的关键点进行回归处理，得到所述预设部位的关键点的位置信息并将所述位置信息作为所述屏幕空间坐标。

4.根据权利要求2所述的交互控制方法，其特征在于，所述拍摄设备包括深度相机，获取所述预设部位的关键点相对于拍摄设备的真实距离包括：

获取所述深度相机采集的包含所述预设部位的第二图像；

对所述第一图像与所述第二图像进行对齐操作；

将所述屏幕空间坐标在对齐后的第二图像上进行取值，以得到所述预设部位的关键点到所述深度相机的所述真实距离。

5.根据权利要求1所述的交互控制方法，其特征在于，根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互包括：

获取与所述虚拟物体进行交互的预设部位的关键点的所述虚拟世界中的三维坐标；

计算所述三维坐标与所述虚拟物体的坐标之间的距离；

若所述距离满足预设距离，则触发所述预设部位的关键点与所述虚拟物体进行交互。

6.根据权利要求5所述的交互控制方法，其特征在于，触发所述预设部位的关键点与所述虚拟物体进行交互包括：

识别所述预设部位的关键点的当前动作；

将所述当前动作与多个预设动作进行匹配，并根据匹配结果响应所述当前动作与所述虚拟物体进行交互；其中，所述多个预设动作与交互操作一一对应。

7.一种交互控制装置，其特征在于，包括：

参数获取模块，用于获取预设部位的关键点的屏幕空间坐标，并获取所述预设部位的关键点相对于拍摄设备的真实距离；

三维坐标计算模块，用于将所述真实距离与所述屏幕空间坐标进行结合确定预设部位的关键点在投影空间中的三维坐标，并对投影空间中的三维坐标进行转换确定所述预设部位的关键点的虚拟世界中的三维坐标；

交互执行模块，用于根据所述三维坐标确定所述预设部位的关键点与所述虚拟世界中虚拟物体的空间关系，并基于所述空间关系控制所述预设部位的关键点与所述虚拟物体进行交互；

根据所述拍摄设备的视场角确定投影矩阵；

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任意一项所述的交互控制方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任意一项所述的交互控制方法。