CN114690900A

CN114690900A - 一种虚拟场景中的输入识别方法、设备及存储介质

Info

Publication number: CN114690900A
Application number: CN202210261992.8A
Authority: CN
Inventors: 潘仲光; 魏铂秦
Original assignee: Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Current assignee: Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-07-01
Anticipated expiration: 2042-03-16
Also published as: WO2023173668A1; CN114690900B

Abstract

本申请实施例提供一种虚拟场景中的输入识别方法、设备及存储介质。在该输入识别方法中，可基于识别到的手部关键点的位置，利用双目定位算法计算指尖坐标，并将指尖坐标与虚拟场景中的至少一个虚拟输入界面进行对比，若指尖位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。通过这种方式，可通过双目定位算法对用户指尖位置进行计算，用户无需与现实世界的控制器或者特殊的传感器设备进行交互，进一步提升了虚拟场景的沉浸感和真实感。

Description

一种虚拟场景中的输入识别方法、设备及存储介质

技术领域

本申请实施例涉及虚拟现实或增强现实技术领域，尤其涉及一种虚拟场景中的输入识别方法、设备及存储介质。

背景技术

随着虚拟现实、增强现实和混合现实等相关技术的高速发展，头戴式智能设备不断推陈出新且使用体验逐渐提高，如头戴式虚拟现实眼镜、头戴式混合现实眼镜等智能眼镜。

在现有技术中，可利用智能眼镜来生成全息键盘、全息屏幕等虚拟界面，并通过控制器或者特殊的传感器设备来确定用户是否与虚拟界面进行了交互，这使得用户可在虚拟世界中使用键盘和屏幕。

但是，在这种方式中，用户仍需与现实世界的控制器或者特殊的传感器设备进行交互，从而，使得用户的沉浸感和真实感较差。因此，一种解决方案亟待被提出。

发明内容

本申请实施例提供一种虚拟场景中的输入识别方法、设备及存储介质，用以使用户无需借助额外的硬件即可执行输入操作，进而降低了硬件成本。

本申请实施例提供一种虚拟场景中的输入识别方法，应用于智能设备，包括：从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点；基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标；将所述指尖坐标与所述虚拟场景中的至少一个虚拟输入界面进行对比；若所述指尖位置与所述至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定所述用户通过所述目标虚拟输入界面执行输入操作。

进一步可选地，从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点，包括：针对所述双目图像中的任一单目图像，通过目标检测算法，从所述单目图像中，检测出手部区域；从所述单目图像中，分割出所述手部区域对应的前景图像；利用预设的手部关键点识别模型，对所述前景图像进行识别，得到所述单目图像中的手部关键点。

进一步可选地，基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标，包括：针对所述用户的任一手指，判断识别到的所述手部关键点是否包含所述手指的指尖关节点；若所述手部关键点包括所述手指的指尖关节点，则根据所述指尖关节点在所述双目图像中的位置，采用双目定位算法计算所述手指的指尖关节点在所述虚拟场景中的位置，作为所述手指的指尖坐标。

进一步可选地，所述方法还包括：若所述手部关键点不包括所述手指的指尖关节点，则根据所述手指上的可见关键点在所述双目图像中的位置以及执行输入操作时的手指节关联特征，计算所述手指的弯曲角度；根据所述手指的弯曲角度以及所述手指上的可见关键点在所述双目图像中的位置，计算所述手指的指尖坐标。

进一步可选地，所述手指包括：靠近手掌的第一指节、与所述第一指节连接的第二指节以及与所述第二指节连接的指尖节；根据所述手指上的可见关键点在所述双目图像中的位置以及执行输入操作时的手指节关联特征，计算所述手指的弯曲角度，包括：确定所述手指的所述第一指节、所述第二指节以及所述指尖节各自的实际长度；通过识别到的所述手部关键点的坐标，计算所述第一指节、所述第二指节以及所述指尖节各自的观测长度；若所述第二指节和/或所述指尖节的观测长度小于对应的实际长度，则确定所述手指的弯曲角度小于90度，且根据所述第二指节的观测长度以及实际长度和/或根据所述指尖节的观测长度以及实际长度，计算所述手指的弯曲角度；若所述第二指节和/或所述指尖节的观测长度为0，则确定所述手指的弯曲角度为90度。

进一步可选地，根据所述手指的弯曲角度以及所述手指上的可见关键点在所述双目图像中的位置，计算所述手指的指尖坐标，包括：若所述手指的弯曲角度小于90度，则根据所述第二指节的起始关节点的位置、所述手指的弯曲角度、所述第二指节的实际长度以及所述指尖节的实际长度，计算所述手指的指尖坐标；若所述手指的弯曲角度为90度，则根据所述第二指节的起始关节点的位置以及所述第一指节向所述至少一个虚拟输入界面移动的距离，计算所述指尖位置。

进一步可选地，若所述指尖位置与所述至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定所述用户通过所述目标虚拟输入界面执行输入操作，包括：若所述指尖位置位于所述目标虚拟输入界面上，则确定所述用户正在触摸所述目标虚拟输入界面；和/或，若所述指尖位置位于所述目标虚拟输入界面的远离用户的一侧且与所述目标虚拟输入界面之间的距离大于预设的距离阈值，则确定所述用户正在点击所述目标虚拟输入界面。

进一步可选地，所述智能设备上安装有红外线传感器；所述方法还包括：利用所述红外线传感器采集所述红外线传感器与所述手部关键点的距离值；通过所述距离值，对计算得到的所述用户的指尖位置进行位置修正。

本申请实施例还提供一种终端设备，包括：存储器以及处理器；所述存储器用于：存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令，以用于：执行虚拟场景中的输入识别方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器实现虚拟场景中的输入识别方法中的步骤。

本申请实施例提供的一种虚拟场景中的输入识别方法、设备及存储介质中，可基于识别到的手部关键点的位置，利用双目定位算法计算指尖坐标，并将指尖坐标与虚拟场景中的至少一个虚拟输入界面进行对比，若指尖位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。通过这种方式，可通过双目定位算法对用户指尖位置进行计算，用户无需与现实世界的控制器或者特殊的传感器设备进行交互，进一步提升了虚拟场景的沉浸感和真实感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一示例性实施例提供的输入识别方法的流程示意图；

图2为本申请一示例性实施例提供的手部关键点的示意图；

图3为本申请一示例性实施例提供的目标检测的示意图；

图4为本申请一示例性实施例提供的前景图像分割的示意图；

图5为本申请一示例性实施例提供的双目定位算法的示意图；

图6为本申请一示例性实施例提供的双目定位算法的成像原理图；

图7为本申请一示例性实施例提供的手指节的示意图；

图8为本申请一示例性实施例提供的手部关键点位置计算的示意图；

图9为本申请一示例性实施例提供的虚拟输入界面的示意图；

图10为本申请一示例性实施例提供的双目摄像头视差的示意图；

图11为本申请一示例性实施例提供的终端设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，可利用智能眼镜来生成全息键盘、全息屏幕等虚拟界面，并通过控制器或者特殊的传感器设备来确定用户是否与虚拟界面进行了交互，这使得用户可在虚拟世界中使用键盘和屏幕。但是，在这种方式中，用户仍需与现实世界的控制器或者特殊的传感器设备进行交互，从而，使得用户的沉浸感和真实感大打折扣。

针对上述技术问题，在本申请一些实施例中，提供了一种解决方案，以下将结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的一种虚拟场景中的输入识别方法的流程示意图，如图1所示，该方法包括：

步骤11、从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点。

步骤12、基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标。

步骤13、将指尖坐标与虚拟场景中的至少一个虚拟输入界面进行对比。

步骤14、若指尖位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。

本实施例可由智能设备执行，该智能设备可实现为可穿戴设备，比如VR(VirtualReality，虚拟现实)眼镜、MR(Mixed Reality，混合现实)眼镜、VR头戴显示设备((Head-Mounted Display)，HMD)等等，本实施例不做限制。以VR眼镜为例，VR眼镜在展示虚拟场景时，可在虚拟场景中，生成至少一个虚拟输入界面，例如可包括：虚拟键盘和/或虚拟屏幕等至少一个虚拟输入界面。用户可在虚拟场景中与这些虚拟输入界面进行交互。

在本实施例中，智能设备可获取双目摄像头拍摄手部得到的双目图像。其中，该双目摄像头可安装于智能设备上，或者可安装于其他能够拍摄到双手的位置处，本实施例不做限制。该双目摄像头包括：两个单目摄像头。双目图像包括：两个单目图像。

智能设备可从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点。该手部关键点的示意图如图2所示，可以包括用户的各个指关节、指尖或手上的任何位置。

在识别用户的手部关键点后，可基于双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标。其中，双目定位算法，也叫双目视觉算法，是一种模拟人类视觉原理并使用计算机被动感知距离的算法，主要原理为：从两个点观察一个物体，获取在不同视角下的图像，通过图像之间像素的匹配关系以及三角测量原理，从而对物体的位置进行计算。

计算得到指尖位置后，可将指尖坐标与虚拟场景中的至少一个虚拟输入界面进行对比。若指尖位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。其中，用户执行的输入操作至少包括：点击、长按或触摸等。

在本实施例中，智能设备可基于识别到的手部关键点的位置，利用双目定位算法计算指尖坐标，并将指尖坐标与虚拟场景中的至少一个虚拟输入界面进行对比，若指尖位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。通过这种方式，可通过双目定位算法对用户指尖位置进行计算，用户无需与现实世界的控制器或者特殊的传感器设备进行交互，进一步提升了虚拟场景的沉浸感和真实感。

除此之外，基于本实施例，可借助智能设备上或者环境中现有的双目摄像头拍摄手部图像，使用户无需借助额外的硬件即可执行输入操作，进而降低了硬件成本。

在一些可选的实施例中，前述实施例记载的“从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点”的操作，可基于以下步骤实现：

如图3所示，针对双目图像中的任一单目图像，智能设备可通过目标检测算法(Object Detection)，从单目图像中，检测出手部区域。其中，该目标检测算法可基于R-CNN(Region-Convolutional Neural Network，区域卷积神经网络)实现。

以下将对目标检测算法进行进一步说明。

对于一张图片，该算法可根据图片生成大约2000个候选区域，然后将每个候选区域更改为固定大小，并将更改之后的候选区域发送至CNN(Convolutional NeuralNetworks，卷积神经网络)模型中，进而通过该模型可得到每个候选区域对应的特征向量。然后，可将特征向量发送至包含了多个类别的分类器中，以预测候选区域中的图像的属于每个类的概率值。比如，分类器预测出候选区域1-10共十个候选区域中的图像属于手部区域的概率为95％，属于脸部的概率为20％，进而可检测出候选区域1-10为手部区域。通过这种方式，智能设备可对任一单目图像中的手部区域进行较为准确的检测。

在实际场景下，用户在使用智能设备与虚拟场景进行交互时，用户的手通常是距离用户最近的物体，故，任一摄像头拍摄的单目图像中的前景图像通常为用户的手部区域。基于此，智能设备可从单目图像中，分割出手部区域对应的前景图像，如图4所示。通过这种实施方式，智能设备可将手部区域分割出来，降低其他区域对后续识别造成的干扰，进而可针对性的对手部区域进行识别，从而提升了识别效率。

基于上述步骤，如图2所示，智能设备可利用预设的手部关键点识别模型，对前景图像进行识别，得到单目图像中的手部关键点。需要说明的是，该手部关键点识别模型可预先进行模型训练，比如，将一张手部图像输入到模型中，得到手部关键点的模型识别结果，并根据该模型识别结果与预期结果之间的误差，对模型的参数进行进一步调整，并使用经过参数调整后的模型再次进行手部关键点的识别。通过这种不断迭代的方式，使手部关键点识别模型可对手部区域对应的前景图像进行较为准确地识别，以得到单目图像中的手部关键点。

需要说明的是，在实际场景中，用户执行输入操作时，其指尖可能会被手部其他部位遮挡，导致双目摄像头无法拍摄到用户的指尖，进而导致识别到的手部关键点中缺少指尖关节点。其中，指尖关节点如图2中的4、8、12、16和20所示。反之，若双目摄像头中的任一摄像头可拍摄到用户的指尖，则识别到的手部关键点可包括指尖关节点。

可选地，经过前述实施例记载的识别用户手部关键点的过程后，基于双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标，可基于以下步骤实现：

步骤S1、针对用户的任一手指，判断识别到的手部关键点是否包含手指的指尖关节点。

步骤S2、若手部关键点包括手指的指尖关节点，则根据指尖关节点在双目图像中的位置，采用双目定位算法计算手指的指尖关节点在虚拟场景中的位置，作为手指的指尖坐标。

以下将结合图5和图6对双目定位算法进行详细说明。

图5中的左边和右边两个四边形分别表示左边和右边两个摄像机的相机平面，P点表示目标物体(用户手指的指尖关节点)，P1和P2分别为P点在两个相机平面上的投影，世界空间中一点P(X，Y，Z)在左右两个摄像机的成像面上的像点分别为P1(ul，vl)和P2(ur，vr)。这两个像点是世界空间(世界坐标系)中同一个对象点P的像，称为“共轭点”。两个共轭像点分别作它们与各自相机的光心Ol和Or的连线，即投影线PlOl和P2Or，它们的交点即为世界空间(世界坐标系)中的对象点P(X，Y，Z)。

具体而言，图6为简单的平视双目立体成像原理图，两个摄像机的投影中心的连线的距离，即基线距为T。摄像机坐标系的原点在摄像机镜头的光心处，坐标系如图6所示，摄像机的成像平面在镜头的光心后，将左右成像平面绘制在镜头的光心前f处，这个虚拟的图像平面坐标系O1uv的u轴和v轴与和摄像机坐标系的x轴和y轴方向一致，这样可以简化计算过程。左右图像坐标系的原点在摄像机光轴与平面的焦点O1和O2，点P在左图像和右图像中相应的坐标分别为xl(u1，v1)和xr(u2，v2)。假设两个摄像机的图像在同一个平面上，则点P图像坐标的Y坐标相同，即v1＝v2，由三角几何关系得到：

上述的(x，y，z)为点P在左摄像机坐标系中的坐标，T为基线距，f为两个摄像机的焦距，(u1，v1)和(u1，v2)分别为点P在左图像和右图像中的坐标。

视差定义为某一点在两幅图像中相应点的位置差d：

由此可以计算出点P在左摄像机坐标系中的坐标为：

基于上述过程，若能找到指尖关节点在左右两个摄像机成像平面上的相应点(即指尖关节点在双目图像中的位置)，并通过摄像机标定获得摄像机的内外参数，即可基于上述公式确定指尖关节点在世界坐标系中的三维坐标。

可选地，智能设备生成的虚拟场景的坐标系和世界坐标系中的三维坐标之间可预设有对应关系，进而根据该对应关系，将上述得到的指尖关节点的三维坐标转换到虚拟场景的坐标系中，从而得到指尖关节点在虚拟场景中的位置，并作为手指的指尖坐标。

通过上述实施方式，在指尖关节点未被遮挡时，智能设备可通过双目定位算法较为准确的计算出用户手指的指尖坐标。

需要说明的是，如图7所示，手指包括：靠近手掌的第一指节、与第一指节连接的第二指节以及与第二指节连接的指尖节。人类手指的各个手指节在弯曲时会存在一定的弯曲规律，比如，大部分人通常不能在第二指节和第一指节不动的情况下弯曲指尖节，再比如，当指尖节逐渐向下弯曲20°时，第二指节通常会随着指尖节的弯曲而弯曲一定的角度。之所以出现上述弯曲规律，是因为人类手指的各个手指节之间存在关联，即手指节关联特征。

基于上述内容，在一些可选的实施例中，若用户的指尖关节点被遮挡时，基于双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标，还可基于以下步骤实现：

步骤S3、若手部关键点不包括手指的指尖关节点，则根据手指上的可见关键点在双目图像中的位置以及执行输入操作时的手指节关联特征，计算手指的弯曲角度。

步骤S4、根据手指的弯曲角度以及手指上的可见关键点在双目图像中的位置，计算手指的指尖坐标。

通过这种实施方式，在手指的指尖节被遮挡时，仍可通过可见关键点和手指节关联特征，对手指的指尖坐标进行计算。

在步骤S3中，可见关键点指的是双目图像中能够检测出的关键点。比如，用户的小拇指呈一定角度弯曲，使得小拇指的指尖节被手掌遮挡住，那么用户小拇指的指尖关节点不会被识别出来，即小拇指的指尖关节点为不可见关键点。除了该指尖关节点之外的其他手部关键点被成功识别，即其他手部关键点为可见关键点。其中，手指的弯曲角度包括一个或者多个手指节各自的弯曲角度。

在一些可选的实施例中，上述步骤S3可基于以下实施方式实现：

确定手指的第一指节、第二指节以及指尖节各自的实际长度，并通过识别到的手部关键点的坐标，计算第一指节、第二指节以及指尖节各自的观测长度。

其中，如图8所示，观测长度指的是从双目摄像头的角度观测到的手指长度，该观测长度通过手部关键点计算得到的各个指节的长度，即是相对于摄像机的投影长度。比如，识别到指第一指节对应的两个手部关键点为R1和R2，则可根据这两个手部关键点的坐标计算第一指节的观测长度。

可选地，若第二指节的观测长度小于第二指节对应的实际长度，或者指尖节的观测长度小于指尖节对应的实际长度，或者第二指节以及指尖节的观测长度均小于各自对应的实际长度，则确定手指的弯曲角度小于90度。在这种情况下，可根据第二指节的观测长度以及实际长度，计算手指的弯曲角度；或者，可根据指尖节的观测长度以及实际长度，计算手指的弯曲角度；或者，可根据第二指节的观测长度、第二指节的实际长度、指尖节的观测长度以及指尖节实际长度，计算手指的弯曲角度。

以下将结合图8，针对如何根据观测长度和实际长度计算弯曲角度进行示例性说明。

图8示意了手指弯曲后的指节状态以及手指节对应的关键点R1、R2和R3，其中，第一指节为R1R2，第二指节为R2R5，指尖节为R5R6。如图8所示，在R1、R2和R3组成的三角形中，已知R2R3(观测长度)和R1R2(实际长度)，可求得第一指节的弯曲角度a。同理，在R4、R2和R5组成的三角形中，已知R2R5(实际长度)和R2R4(观测长度)，可求得第二指节的弯曲角度b。同理，可求得第三指节的弯曲角度c。

可选地，若第二指节和/或指尖节的观测长度为0，则可认为双目摄像头观测不第二指节和/或指尖节，此时根据手指弯曲特性，可假设手指的弯曲角度为90度。

可选地，基于上述弯曲角度的计算过程，前述实施例记载的“根据手指的弯曲角度以及手指上的可见关键点在双目图像中的位置，计算手指的指尖坐标”可通过以下实施方式实现：

实施方式一、若手指的弯曲角度小于90度，则可根据第二指节的起始关节点的位置、手指的弯曲角度、第二指节的实际长度以及指尖节的实际长度，计算手指的指尖坐标。

如图8所示，第二指节的起始关节点为R2，R2能够被观测到，则可采用双目定位算法计算R2的位置。已知R2的位置、第二指节的实际长度和第二指节的弯曲角度b，即可求得指尖节的起始关节点R5的位置。进而，通过R5的位置、指尖节的弯曲角度c和指尖节的实际长度，可计算得到指尖位置R6。

实施方式二、若手指的弯曲角度为90度，则根据第二指节的起始关节点的位置以及第一指节向至少一个虚拟输入界面移动的距离，计算指尖位置。

需要说明的是，当手指的弯曲角度为90度时，用户的指尖可随第一指节进行相同的移动，比如，第一指节向下移动了3cm，则指尖也随之向下移动了3cm。基于此，在已知第二指节的起始关节点的位置和第一指节向至少一个虚拟输入界面移动的距离的情况下计算指尖位置，可将指尖位置计算问题转换为在已知起始点位置、起始点的移动方向以及移动的距离的情况下计算终点位置的几何问题，此处不再赘述。

在一些可选的实施例中，计算得到指尖位置后，可将指尖位置与虚拟场景中的至少一个虚拟输入界面进行对比，并根据对比结果判断用户是否执行输入操作。以下将以至少一个虚拟输入界面中的任一目标虚拟输入界面为例进行说明。

实施方式一、若指尖位置位于目标虚拟输入界面上，则确定用户正在触摸目标虚拟输入界面。

实施方式二、若指尖位置位于目标虚拟输入界面的远离用户的一侧且与目标虚拟输入界面之间的距离大于预设的距离阈值，则确定用户正在点击目标虚拟输入界面。其中，距离阈值可预设为1cm、2cm、5cm等等，本实施例不做限制。

以上两种实施方式可单独执行，也可组合执行，本实施例不做限制。

可选地，智能设备可安装有红外线传感器。智能设备在计算得到用户的指尖位置后，可利用红外线传感器采集红外线传感器与手部关键点的距离值。进而通过该距离值，对计算得到的用户的指尖位置进行位置修正。

通过这种位置修正的方式，可缩小计算得到的指尖位置与指尖实际位置之间的误差，从而，进一步提升识别用户输入操作的识别精度。

以下将结合图9、图10以及实际应用场景对上述输入识别方法进行进一步说明。

如图9所示，VR眼镜(智能设备)生成的虚拟屏幕和虚拟键盘为虚拟的立体平面，且该平面可作为跨越界限(即虚拟输入界面)。用户可将虚拟平面和虚拟键盘的位置调整到适合自己的位置，并可通过点击或推拉的操作按钮与虚拟平面和虚拟键盘进行交互。当用户的指尖穿过跨越界限，即确定用户在进行点击。当用户的指尖位于该跨越界线上，即确定用户在进行触摸。

为了判断用户指尖是否穿过了跨越界线，需要对用户的指尖位置进行计算。该计算过程可利用VR眼镜外侧的至少两个摄像头，以下将就摄像头数量为两个的情况进行说明。

需要说明的是，由于用户在与VR眼镜进行交互时，距离摄像头最近的通常为用户的手。假设用户的两只手是最靠近摄像头的物体，且摄像头和手之间没有障碍物。除此之外，如图10所示，由于双目摄像头的设定，两个单目摄像头拍摄到的不同视角下的单目图像之间存在视差，VR眼镜可通过两张单目图像之间像素的匹配关系以及三角测量原理，对物体的位置进行计算。

当用户的指尖未被手部其他部位所遮挡时，VR眼镜可通过双目定位算法直接对用户的指尖位置进行计算，进而确定用户的指尖位置是在屏幕、键盘或其他虚拟输入界面上。

通常，人的每根手指上有三条线(以下简称三节线)，三节线可将手指分成三部分，即靠近手掌的第一指节、与第一指节连接的第二指节以及与第二指节连接的指尖节。除此之外，用户的各个指节之间存在弯曲相关性(手指节关联特征)。

基于此，若用户的指尖被手部其他部位所遮挡，则终端设备可确定用户的第一指节、第二指节和指尖节的实际长度，该实际长度可预先根据手部的三节线进行测量。在实际场景下，用户的手背和第一指节通常可见，VR眼镜可根据弯曲相关性、第一指节的观测长度以及实际长度，衍生计算第二指节和指尖节的位置，从而计算得到指尖坐标。

举例说明，如果只能看到第一指节，完全看不到第二指节和指尖节，那么可假设用户的手指呈90°弯曲，这就意味着手指的第一指节向下移动的距离等于指尖节向下移动的距离，基于此，可计算得到指尖位置。

计算得到指尖位置后，可将指尖位置与屏幕、键盘以及其他虚拟输入界面的位置进行对比。当指尖跨越了虚拟输入界面且未超过预设的触摸深度，则可确定用户在进行点击操作；当指尖位于虚拟输入界面上，则确定用户在进行触摸操作；当指尖跨越了虚拟输入界面且超过了预设的触摸深度，则可确定用户在进行取消操作。

可选地，VR眼镜上可安装有红外线传感器。该红外线传感器可通过TOF(Time offlight，飞行时间)方法，来获取红外线传感器与指尖位置的距离，从而对指尖位置进行进一步修正，以减小计算得到的指尖位置与指尖的实际位置之间的误差。

图11是本申请一示例性实施例提供的终端设备的结构示意图，如图11所示，该终端设备包括：存储器1101以及处理器1102。

存储器1101，用于存储计算机程序，并可被配置为存储其它各种数据以支持在终端设备上的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

其中，存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器1102，与存储器1101耦合，用于执行存储器1101中的计算机程序，以用于：从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点；基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标；将所述指尖坐标与所述虚拟场景中的至少一个虚拟输入界面进行对比；若所述指尖位置与所述至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定所述用户通过所述目标虚拟输入界面执行输入操作。

进一步可选地，处理器1102在从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点时，具体用于：针对所述双目图像中的任一单目图像，通过目标检测算法，从所述单目图像中，检测出手部区域；从所述单目图像中，分割出所述手部区域对应的前景图像；利用预设的手部关键点识别模型，对所述前景图像进行识别，得到所述单目图像中的手部关键点。

进一步可选地，处理器1102在基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标时，具体用于：针对所述用户的任一手指，判断识别到的所述手部关键点是否包含所述手指的指尖关节点；若所述手部关键点包括所述手指的指尖关节点，则根据所述指尖关节点在所述双目图像中的位置，采用双目定位算法计算所述手指的指尖关节点在所述虚拟场景中的位置，作为所述手指的指尖坐标。

进一步可选地，处理器1102还用于：若所述手部关键点不包括所述手指的指尖关节点，则根据所述手指上的可见关键点在所述双目图像中的位置以及执行输入操作时的手指节关联特征，计算所述手指的弯曲角度；根据所述手指的弯曲角度以及所述手指上的可见关键点在所述双目图像中的位置，计算所述手指的指尖坐标。

进一步可选地，所述手指包括：靠近手掌的第一指节、与所述第一指节连接的第二指节以及与所述第二指节连接的指尖节；处理器1102在根据所述手指上的可见关键点在所述双目图像中的位置以及执行输入操作时的手指节关联特征，计算所述手指的弯曲角度时，具体用于：确定所述手指的所述第一指节、所述第二指节以及所述指尖节各自的实际长度；通过识别到的所述手部关键点的坐标，计算所述第一指节、所述第二指节以及所述指尖节各自的观测长度；若所述第二指节和/或所述指尖节的观测长度小于对应的实际长度，则确定所述手指的弯曲角度小于90度，且根据所述第二指节的观测长度以及实际长度和/或根据所述指尖节的观测长度以及实际长度，计算所述手指的弯曲角度；若所述第二指节和/或所述指尖节的观测长度为0，则确定所述手指的弯曲角度为90度。

进一步可选地，处理器1102在根据所述手指的弯曲角度以及所述手指上的可见关键点在所述双目图像中的位置，计算所述手指的指尖坐标时，具体用于：若所述手指的弯曲角度小于90度，则根据所述第二指节的起始关节点的位置、所述手指的弯曲角度、所述第二指节的实际长度以及所述指尖节的实际长度，计算所述手指的指尖坐标；若所述手指的弯曲角度为90度，则根据所述第二指节的起始关节点的位置以及所述第一指节向所述至少一个虚拟输入界面移动的距离，计算所述指尖位置。

进一步可选地，处理器1102在若所述指尖位置与所述至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定所述用户通过所述目标虚拟输入界面执行输入操作时,具体用于：若所述指尖位置位于所述目标虚拟输入界面上，则确定所述用户正在触摸所述目标虚拟输入界面；和/或，若所述指尖位置位于所述目标虚拟输入界面的远离用户的一侧且与所述目标虚拟输入界面之间的距离大于预设的距离阈值，则确定所述用户正在点击所述目标虚拟输入界面。

进一步可选地，所述智能设备上安装有红外线传感器。处理器1102还用于：利用所述红外线传感器采集所述红外线传感器与所述手部关键点的距离值；通过所述距离值，对计算得到的所述用户的指尖位置进行位置修正。

上述图11中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述图11中的显示器1103包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上图11中的音频组件1104，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

进一步，如图11所示，该电子设备还包括：通信组件1105、电源组件1106等其它组件。图11中仅示意性给出部分组件，并不意味着电子设备只包括图11所示组件。

上述图11中的通信组件1105被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

其中，电源组件1106，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本实施例中，终端设备可基于识别到的手部关键点的位置，利用双目定位算法计算指尖坐标，并将指尖坐标与虚拟场景中的至少一个虚拟输入界面进行对比，若指尖位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。通过这种方式，可通过双目定位算法对用户指尖位置进行计算，用户无需与现实世界的控制器或者特殊的传感器设备进行交互，进一步提升了虚拟场景的沉浸感和真实感。通过这种方式，可通过双目定位算法对用户指尖位置进行计算，用户无需与现实世界的控制器或者特殊的传感器设备进行交互，进一步提升了虚拟场景的沉浸感和真实感。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由终端设备执行的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种虚拟场景中的输入识别方法，应用于智能设备，其特征在于，包括：

从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点；

基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标；

将所述指尖坐标与所述虚拟场景中的至少一个虚拟输入界面进行对比；

若所述指尖位置与所述至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定所述用户通过所述目标虚拟输入界面执行输入操作。

2.根据权利要求1所述的方法，其特征在于，从双目摄像头拍摄手部得到的双目图像中，识别用户的手部关键点，包括：

针对所述双目图像中的任一单目图像，通过目标检测算法，从所述单目图像中，检测出手部区域；

从所述单目图像中，分割出所述手部区域对应的前景图像；

利用预设的手部关键点识别模型，对所述前景图像进行识别，得到所述单目图像中的手部关键点。

3.根据权利要求1所述的方法，其特征在于，基于所述双目图像中的手部关键点的位置，利用双目定位算法计算指尖坐标，包括：

针对所述用户的任一手指，判断识别到的所述手部关键点是否包含所述手指的指尖关节点；

若所述手部关键点包括所述手指的指尖关节点，则根据所述指尖关节点在所述双目图像中的位置，采用双目定位算法计算所述手指的指尖关节点在所述虚拟场景中的位置，作为所述手指的指尖坐标。

4.根据权利要求3所述的方法，其特征在于，还包括：

若所述手部关键点不包括所述手指的指尖关节点，则根据所述手指上的可见关键点在所述双目图像中的位置以及执行输入操作时的手指节关联特征，计算所述手指的弯曲角度；

根据所述手指的弯曲角度以及所述手指上的可见关键点在所述双目图像中的位置，计算所述手指的指尖坐标。

5.根据权利要求4所述的方法，其特征在于，所述手指包括：靠近手掌的第一指节、与所述第一指节连接的第二指节以及与所述第二指节连接的指尖节；

根据所述手指上的可见关键点在所述双目图像中的位置以及执行输入操作时的手指节关联特征，计算所述手指的弯曲角度，包括：

确定所述手指的所述第一指节、所述第二指节以及所述指尖节各自的实际长度；

通过识别到的所述手部关键点的坐标，计算所述第一指节、所述第二指节以及所述指尖节各自的观测长度；

若所述第二指节和/或所述指尖节的观测长度小于对应的实际长度，则确定所述手指的弯曲角度小于90度，且根据所述第二指节的观测长度以及实际长度和/或根据所述指尖节的观测长度以及实际长度，计算所述手指的弯曲角度；

若所述第二指节和/或所述指尖节的观测长度为0，则确定所述手指的弯曲角度为90度。

6.根据权利要求5所述的方法，其特征在于，根据所述手指的弯曲角度以及所述手指上的可见关键点在所述双目图像中的位置，计算所述手指的指尖坐标，包括：

若所述手指的弯曲角度小于90度，则根据所述第二指节的起始关节点的位置、所述手指的弯曲角度、所述第二指节的实际长度以及所述指尖节的实际长度，计算所述手指的指尖坐标；

若所述手指的弯曲角度为90度，则根据所述第二指节的起始关节点的位置以及所述第一指节向所述至少一个虚拟输入界面移动的距离，计算所述指尖位置。

7.根据权利要求1所述的方法，其特征在于，若所述指尖位置与所述至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定所述用户通过所述目标虚拟输入界面执行输入操作，包括：

若所述指尖位置位于所述目标虚拟输入界面上，则确定所述用户正在触摸所述目标虚拟输入界面；和/或，

若所述指尖位置位于所述目标虚拟输入界面的远离用户的一侧且与所述目标虚拟输入界面之间的距离大于预设的距离阈值，则确定所述用户正在点击所述目标虚拟输入界面。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述智能设备上安装有红外线传感器；所述方法还包括：

利用所述红外线传感器采集所述红外线传感器与所述手部关键点的距离值；

通过所述距离值，对计算得到的所述用户的指尖位置进行位置修正。

9.一种终端设备，其特征在于，包括：存储器以及处理器；

其中，所述存储器用于：存储一条或多条计算机指令；

所述处理器用于执行所述一条或多条计算机指令，以用于：执行权利要求1-8任一项所述的方法中的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，当计算机程序被处理器执行时，致使处理器实现权利要求1-8任一项所述方法中的步骤。