CN113282168A

CN113282168A - 头戴式显示设备的信息输入方法、装置及头戴式显示设备

Info

Publication number: CN113282168A
Application number: CN202110502329.8A
Authority: CN
Inventors: 吴涛
Original assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Current assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-08-20
Also published as: WO2022237268A1

Abstract

本申请公开了一种头戴式显示设备的信息输入方法、装置及头戴式显示设备。头戴式显示设备的显示界面中展示有至少一个虚拟键盘，该方法包括：实时获取手势图像；利用手势识别模型对手势图像进行识别，得到手势识别结果；判断手势识别结果是否满足预设输入条件；若手势识别结果满足预设输入条件，则根据手势动作在手势图像中的位置信息，确定手势动作触发的虚拟键盘中的虚拟按键，以作为头戴式显示设备的输入。本申请的头戴式显示设备的信息输入方法可以大大降低用户为了提供用户输入而持有外部控制设备的需要，从而提高了用户的虚拟办公效率，并且提高了各种不便于手持外部控制设备的用户的可访问性，提高了用户的虚拟办公体验。

Description

头戴式显示设备的信息输入方法、装置及头戴式显示设备

技术领域

本申请涉及头戴式显示设备技术领域，具体涉及一种头戴式显示设备的信息输入方法、装置及头戴式显示设备。

背景技术

随着科技的进步，市场需求的多元化发展，虚拟现实设备等头戴式显示设备正变得越来越普遍，并应用在许多领域，如电脑游戏，健康和安全，工业和教育培训等领域。例如混合虚拟现实系统正在被整合到移动通讯设备、游戏机、个人电脑、电影院、主题公园、大学实验室、学生教室以及医院锻炼健身室等生活中的各个角落。

一般而言，现有的头戴式显示设备中涉及到的技术主要包括虚拟现实(VirtualReality，简称VR)、增强现实(Augmented Reality，简称AR)、混合现实(Mixed Reality，简称MR)，以及它们的某种组合和/或衍生组合等，其实现原理是在将显示内容呈现给用户之前以某种方式进行调整，以给用户提供更好的沉浸式体验。

以VR头戴式显示设备为例，通过模拟用户的双眼位置，在VR头戴式显示设备上按照人的双眼位置固定两个彩色或者黑白的视频相机，可以实时捕捉外部真实物理三维环境，然后把两个彩色或者黑白的视频相机捕捉的图像，实时通过计算机的立体视觉和图像渲染技术处理，最后通过VR头戴式显示设备呈现给用户，用户可通过VR头戴式显示设备实时查看外部真实的物理三维环境，该功能称之为虚拟现实的透视功能。

在虚拟现实系统的透视功能中，通过进一步在视频相机捕捉的外部真实物理三维环境图像上，实时渲染和叠加一些虚拟交互的场景元素，称之为混合虚拟现实系统。在混合虚拟现实系统中，最为典型的一个应用场景之一就是虚拟办公，在虚拟办公场景下，应用最多的就是用户可以通过虚拟交互呈现多个虚拟屏幕，模拟真实物理环境中的多个屏幕显示器，和虚拟屏幕最为常用的交互设备为虚拟键盘，目前好多厂商通过一个外部控制设备来操作虚拟键盘上的按键。

然而该方法存在如下问题：1)通过外部控制设备控制虚拟键盘，键盘输入效率比较低，进而影响虚拟办公效率和用户体验；2)如果用户需要手持外部控制设备，这可能会降低各种不便于手持外部控制设备的用户的可访问性，进而导致用户的虚拟办公体验较差。

发明内容

有鉴于此，本申请的主要目的在于提供了一种头戴式显示设备的信息输入方法、装置及头戴式显示设备，用于解决头戴式显示设备的信息输入效率不高，用户的虚拟办公体验较差的技术问题。

依据本申请的第一方面，提供了一种头戴式显示设备的信息输入方法，所述头戴式显示设备的显示界面中展示有至少一个虚拟键盘，所述方法包括：

实时获取手势图像；

利用手势识别模型对所述手势图像进行识别，得到手势识别结果，其中所述手势识别结果包括手势动作及所述手势动作在手势图像中的位置信息；

判断所述手势识别结果是否满足预设输入条件；

若所述手势识别结果满足预设输入条件，则根据所述手势动作在手势图像中的位置信息，确定所述手势动作触发的所述虚拟键盘中的虚拟按键，以作为所述头戴式显示设备的输入。

依据本申请的第二方面，提供了一种头戴式显示设备的信息输入装置，包括：

手势图像获取单元，用于实时获取手势图像；

手势图像识别单元，用于利用手势识别模型对所述手势图像进行识别，得到手势识别结果，其中所述手势识别结果包括手势动作及所述手势动作在手势图像中的位置信息；

手势识别结果判断单元，用于判断所述手势识别结果是否满足预设输入条件；

信息输入单元，用于若所述手势识别结果满足预设输入条件，则根据所述手势动作在手势图像中的位置信息，确定所述手势动作触发的所述虚拟键盘中的虚拟按键，以作为所述头戴式显示设备的输入。

依据本申请的第三方面，提供了一种头戴式显示设备，包括：处理器，存储计算机可执行指令的存储器，

所述可执行指令在被所述处理器执行时，实现前述头戴式显示设备的信息输入方法。

依据本申请的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现前述的头戴式显示设备的信息输入方法。

本申请的有益效果是：本申请实施例的头戴式显示设备可以事先在透视功能下展示有一个虚拟键盘，以作为后续获取用户输入的基础，在进行头戴式显示设备的信息输入时，可以先实时获取用户的手势图像，然后利用事先训练好的手势识别模型对手势图像进行识别，得到手势识别结果，并在手势识别结果满足预设输入条件时，根据手势动作在手势图像中的位置信息，触发对虚拟键盘中的虚拟按键的选择操作，从而实现了对头戴式显示设备的信息输入。本申请实施例基于用户做出一定的手势动作时的自触觉反馈，能够向用户指示何时进行了虚拟按键的选择；此外，通过识别手势动作在手势图像中的位置信息，可以有效地确定接收哪个输入字符作为用户的输入。本申请实施例可以大大降低用户为了提供用户输入而持有外部控制设备的需要，从而提高了用户的虚拟办公效率，并且提高了各种不便于手持外部控制设备的用户的可访问性，提高了用户的虚拟办公体验。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请一个实施例的头戴式显示设备的信息输入方法的流程图；

图2为本申请一个实施例的头戴式显示设备的信息输入装置的框图；

图3为本申请一个实施例中头戴式显示设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。

图1示出了根据本申请一个实施例的头戴式显示设备的信息输入方法的流程示意图，参见图1，本申请实施例的头戴式显示设备的显示界面中展示有至少一个虚拟键盘，该方法包括如下步骤S110至步骤S140：

步骤S110，实时获取手势图像。

本申请实施例的头戴式显示设备的信息输入方法主要应用于混合虚拟现实场景下，因此这里的头戴式显示设备可以是各种能够实现MR技术的设备，例如可以是MR眼镜、MR头盔等，因此无论采用何种形式的头戴式显示设备，均能够适用本申请实施例的头戴式显示设备的信息输入方法。

本申请实施例的头戴式显示设备可以事先在透视功能下展示有一个虚拟键盘，以作为后续获取用户输入的基础。在与头戴式显示设备进行交互时，可以实时采集用户的手势图像，这里的手势图像可以理解为是包含用户手部动作的图像，利用头戴式显示设备内置的手势追踪相机可对用户的手部动作进行实时追踪，进而可以实时采集到用户的手势图像。

步骤S120，利用手势识别模型对手势图像进行识别，得到手势识别结果，其中手势识别结果包括手势动作及手势动作在手势图像中的位置信息。

在采集到手势图像后，本申请实施例可以利用预先训练好的手势识别模型对实时采集的手势图像进行识别，这里的手势识别模型可以理解为是对事先定义好的手势动作进行识别的模型，用以对实时采集到的手势图像中包含的手势动作进行识别，进而得到手势识别结果，具体可以包括识别到的手势动作的数量及手势动作在手势图像中的位置信息。

步骤S130，判断手势识别结果是否满足预设输入条件。

步骤S140，若手势识别结果满足预设输入条件，则根据手势动作在手势图像中的位置信息，确定手势动作触发的虚拟键盘中的虚拟按键，以作为头戴式显示设备的输入。

在得到手势识别结果后，需要判断手势识别结果是否满足预设输入条件，这里的预设输入条件可以根据实际需求事先定义好，例如可以设置用户手势动作满足何种条件时才会认为触发了虚拟按键的输入操作。

如果判断出当前的手势识别结果满足预设输入条件，则可以进一步根据手势动作在手势图像中的位置信息，确定该手势动作触发了虚拟键盘中的哪一个或几个虚拟按键，进而可以将该虚拟按键对应的输入字符作为头戴式显示设备的输入。

本申请实施例的头戴式显示设备的信息输入方法可以大大降低用户为了提供用户输入而持有外部控制设备的需要，从而提高了用户的虚拟办公效率，并且提高了各种不便于手持外部控制设备的用户的可访问性，提高了用户的虚拟办公体验。

在本申请的一个实施例中，头戴式显示设备包括手势追踪相机，手势追踪相机为深度相机、双目红外相机或者双目彩色相机中的任意一种。

本申请实施例的头戴式显示设备可以采用深度相机、双目红外相机或者双目彩色相机中的任意一种手势追踪相机来实时采集手势图像，如果采用深度相机可以直接得到手势动作的三维空间信息，如果采用双目红外相机或者双目彩色相机，则可以直接得到手势动作的二维位置信息，通过立体视觉技术也可以进一步转换成三维空间信息。

为了保证手势识别过程的追踪稳定性和追踪精度，本申请实施例对相机的配置规格有一些基础要求：1)FOV(Field of View，视场角)：100°及以上；2)分辨率：最小640*480；3)拍摄帧率：最小30Hz；4)最小追踪距离：10cm～100cm。当然，具体如何配置相机参数，本领域技术人员可根据实际需求灵活设置，在此不作具体限定。

在本申请的一个实施例中，手势图像为多帧连续的手势图像，利用手势识别模型对手势图像进行识别，得到手势识别结果包括：利用预先训练好的手势识别模型对多帧连续的手势图像逐帧进行识别，对应每帧手势图像得到一个当前帧的手势动作；对每个当前帧的手势动作，判断当前帧的手势动作是否满足预设动作，若满足预设动作，则直接输出当前帧的手势动作在当前帧的手势图像中的位置信息，若不满足预设动作，则不输出当前帧的手势动作在当前帧的手势图像中的位置信息。

本申请实施例的手势图像为连续采集到的多帧手势图像，对于当前帧的手势图像来说，在利用手势识别模型进行识别时，可以识别得到当前帧的手势动作，然后判断当前帧的手势动作是否满足预设动作，如果满足，那么可以直接输出当前帧的手势动作在当前帧的手势图像中的具体位置信息；如果不满足，则可以不用输出当前帧的手势动作在当前帧的手势图像中的位置信息。

上述预设动作的具体形式，本领域技术人员可根据实际需求灵活设置，在此不作具体限定。

在本申请的一个实施例中，判断手势识别结果是否满足预设输入条件包括：根据满足预设动作的手势动作在手势图像中的位置信息，确定满足预设动作的手势动作的持续帧数；若持续帧数满足预设帧数，则确定手势识别结果满足预设输入条件；若持续帧数不满足预设帧数，则确定手势识别结果不满足预设输入条件。

为了提高信息输入的准确性，避免用户的误操作，本申请实施例在识别到当前的手势动作满足预设动作后，还可以进一步利用手势追踪相机对该手势动作进行追踪，确定该手势动作是否能够保持预设帧数，这里具体帧数的大小可根据实际情况灵活设置，在此不作具体限定。

如果通过实时追踪确定该手势动作的持续帧数达到了预设帧数的要求，则可以确定手势识别结果满足预设输入条件，说明用户此时想要触发与虚拟键盘的交互操作，如果通过实时追踪确定该手势动作的持续帧数不满足预设帧数的要求，则确定手势识别结果不满足预设输入条件，说明可能出现了用户误操作的情况或者用户暂时不需要进行与虚拟键盘的交互操作了。

在本申请的一个实施例中，预设动作为单手的拇指与食指的挤压捏合动作，满足预设动作的手势动作在手势图像中的位置信息为单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息，根据手势动作在手势图像中的位置信息，确定手势动作触发的虚拟键盘中的虚拟按键包括：将单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息换算到相机坐标系下，得到接触点在相机坐标系下的三维空间信息；将接触点在相机坐标系下的三维空间信息转换到虚拟键盘所在的世界坐标系下；根据接触点在世界坐标系下的位置信息，确定接触点触发的虚拟键盘中的虚拟按键。

本申请实施例设计的预设动作可以是单手的拇指与食指的挤压捏合动作，该手势动作易于实现，简化了用户的输入操作，降低了用户的学习成本，进而提高了用户的信息输入效率。

如果当前识别到的手势动作为单手的拇指与食指的挤压捏合动作，那么手势识别模型会进一步输出该手势动作在手势图像中的位置信息，具体可以是指单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息。

由于本申请实施例的头戴式显示设备所显示的虚拟键盘是位于6DoF(六自由度)的世界坐标系下的，因此为了能够确定用户的手势动作所触发的是哪个或哪些虚拟按键，这里存在图像坐标系-相机坐标系-世界坐标系之间的位置信息变换的需要。

具体地，可以先将单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息换算到相机坐标系下，进而可以得到该接触点在相机坐标系下的三维空间信息，然后再将该接触点在相机坐标系下的三维空间信息转换到虚拟键盘所在的世界坐标系下，最后根据该接触点在世界坐标系下的位置信息，将该接触点在世界坐标系下的位置信息映射到世界坐标系下的虚拟键盘上，进而可以确定出该接触点所触发的虚拟键盘上的虚拟按键。

当然，这里需要说明的是，上述单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息主要是针对采用的手势追踪相机为双目红外相机或者双目彩色相机的情况，而如果采用的手势追踪相机是深度相机，那么此时得到的是单手的拇指与食指挤压捏合的接触点在相机坐标系下的位置信息，因此可以直接将该相机坐标系下的位置信息转换到世界坐标系下即可。

在本申请的一个实施例中，为了提高滑动操作的准确性，在对手势动作的三维空间信息映射到虚拟键盘上之前，还可以通过手势动作的三维空间信息进行基于滑动窗口的平滑滤波处理，从而提高位置信息在三维空间下的抖动精度误差的稳定性，减少由于图像数据噪声或者模型识别误差导致的位置信息的抖动误差。

在本申请的一个实施例中，虚拟键盘包括多个虚拟按键，各个虚拟按键分别对应设置有三维空间区域，根据接触点在世界坐标系下的位置信息，确定接触点触发的虚拟键盘中的虚拟按键包括：检测接触点在世界坐标系下的位置信息是否处在某个三维空间区域中；若是，则根据接触点在世界坐标系下的位置信息所处的三维空间区域，确定手势动作触发的虚拟按键。

本申请实施例的虚拟键盘可以按照物理键盘的按键构造进行1:1的还原设计，因此可以包括多个虚拟按键，每一个虚拟按键都设置有一个与之对应的三维空间区域，以提高虚拟键盘输入的稳定性和输入效率。当用户的单手的拇指与食指挤压捏合的接触点在世界坐标系下的位置信息进入到任意一个或几个虚拟按键所在的三维空间区域内时，则认为用户选中了该虚拟按键，头戴式显示设备接收该虚拟按键作为用户输入，这里的用户输入主要指事先分配给该虚拟键的输入字符。

按照上述实施例的方式，可以基于用户的手势动作依次完成虚拟按键的输入，从而实现与头戴式显示设备的虚拟内容的交互，该方式操作简单，用户的学习成本低，且不需要外部控制设备的支撑，大大提高了交互效率。

在本申请的一个实施例中，手势识别模型为单手的拇指和食指的挤压捏合手势识别模型，手势识别模型通过如下方式训练得到：获取待训练手势图像，其中待训练手势图像中包括至少一只手的拇指和食指的挤压捏合手势；将待训练手势图像输入手势识别模型进行识别，得到待训练手势图像的手势识别结果，其中待训练手势图像的手势识别结果包括待训练手势图像中的挤压捏合手势的个数，以及单手的拇指与食指挤压捏合的接触点在手势图像上的位置信息；将待训练手势图像的手势识别结果与待训练手势图像中已标记的手势识别信息进行比较，得到训练损失值；根据训练损失值对手势识别模型的参数进行更新，得到预先训练好的手势识别模型。

本申请实施例的手势识别模型可以基于卷积神经网络训练得到，通过离线网络模型训练，训练出适合左右手的挤压捏合手势识别模型，为了兼容模型在头戴式显示设备上的识别效率，结合用户场景的使用特点，本申请实施例设计的单手的拇指和食指的挤压捏合手势识别模型最大支持识别一个左手的挤压捏合手势动作的信息和一个右手的挤压捏合手势动作的信息。

具体地，通过本申请实施例的头戴式显示设备内置的手势追踪相机采集180个以上的用户的手势动作行为案例，得到共计330万张以上的手势图像，并对手势图像进行手势动作信息的标注，以此作为训练样本，然后将训练样本输入手势识别模型，输出当前手势图像中的挤压捏合手势的个数，并输出挤压捏合手势的接触点在图像坐标系下的位置信息。之后根据手势识别模型输出的手势识别结果和之前已标注的手势动作信息计算训练损失值，并根据训练损失值对手势识别模型进行更新，以此得到预先训练好的手势识别模型。

与前述头戴式显示设备的信息输入方法同属于一个技术构思，本申请实施例还提供了一种头戴式显示设备的信息输入装置。图2示出了本申请一个实施例的头戴式显示设备的信息输入装置的框图，参见图2，头戴式显示设备的显示界面中展示有至少一个虚拟键盘，头戴式显示设备的信息输入装置200包括：手势图像获取单元210、手势图像识别单元220、手势识别结果判断单元230和信息输入单元240。其中，

手势图像获取单元210，用于实时获取手势图像；

手势图像识别单元220，用于利用手势识别模型对手势图像进行识别，得到手势识别结果，其中手势识别结果包括手势动作及手势动作在手势图像中的位置信息；

手势识别结果判断单元230，用于判断手势识别结果是否满足预设输入条件；

信息输入单元240，用于若手势识别结果满足预设输入条件，则根据手势动作在手势图像中的位置信息，确定手势动作触发的虚拟键盘中的虚拟按键，以作为头戴式显示设备的输入。

在本申请的一个实施例中，手势图像为多帧连续的手势图像，手势图像识别单元220具体用于：利用预先训练好的手势识别模型对多帧连续的手势图像逐帧进行识别，对应每帧手势图像得到一个当前帧的手势动作；对每个当前帧的手势动作，判断当前帧的手势动作是否满足预设动作，若满足预设动作，则直接输出当前帧的手势动作在当前帧的手势图像中的位置信息，若不满足预设动作，则不输出当前帧的手势动作在当前帧的手势图像中的位置信息。

在本申请的一个实施例中，手势识别结果判断单元230具体用于：根据满足预设动作的手势动作在手势图像中的位置信息，确定满足预设动作的手势动作的持续帧数；若持续帧数满足预设帧数，则确定手势识别结果满足预设输入条件；若持续帧数不满足预设帧数，则确定手势识别结果不满足预设输入条件。

在本申请的一个实施例中，预设动作为单手的拇指与食指的挤压捏合动作，满足预设动作的手势动作在手势图像中的位置信息为单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息，信息输入单元240具体用于：将单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息换算到相机坐标系下，得到接触点在相机坐标系下的三维空间信息；将接触点在相机坐标系下的三维空间信息转换到虚拟键盘所在的世界坐标系下；根据接触点在世界坐标系下的位置信息，确定接触点触发的虚拟键盘中的虚拟按键。

在本申请的一个实施例中，虚拟键盘包括多个虚拟按键，各个虚拟按键分别对应设置有三维空间区域，信息输入单元240具体用于：检测接触点在世界坐标系下的位置信息是否处在某个三维空间区域中；若是，则根据接触点在世界坐标系下的位置信息所处的三维空间区域，确定手势动作触发的虚拟按键。

需要说明的是：

图3示意了头戴式显示设备的结构示意图。请参考图3，在硬件层面，该头戴式显示设备包括存储器和处理器，可选地还包括接口模块、通信模块等。存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器等。当然，该头戴式显示设备还可能包括其他业务所需要的硬件。

处理器、接口模块、通信模块和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放计算机可执行指令。存储器通过内部总线向处理器提供计算机可执行指令。

处理器，执行存储器所存放的计算机可执行指令，并具体用于实现以下操作：

实时获取手势图像；

利用手势识别模型对手势图像进行识别，得到手势识别结果，其中手势识别结果包括手势动作及手势动作在手势图像中的位置信息；

判断手势识别结果是否满足预设输入条件；

若手势识别结果满足预设输入条件，则根据手势动作在手势图像中的位置信息，确定手势动作触发的虚拟键盘中的虚拟按键，以作为头戴式显示设备的输入。

上述如本申请图2所示实施例揭示的头戴式显示设备的信息输入装置执行的功能可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该头戴式显示设备还可执行图1中头戴式显示设备的信息输入方法执行的步骤，并实现头戴式显示设备的信息输入方法在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序当被处理器执行时，实现前述的头戴式显示设备的信息输入方法，并具体用于执行：

实时获取手势图像；

判断手势识别结果是否满足预设输入条件；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其特征在于包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种头戴式显示设备的信息输入方法，其特征在于，所述头戴式显示设备的显示界面中展示有至少一个虚拟键盘，所述方法包括：

实时获取手势图像；

判断所述手势识别结果是否满足预设输入条件；

2.根据权利要求1所述的方法，其特征在于，所述手势图像为多帧连续的手势图像，所述利用手势识别模型对所述手势图像进行识别，得到手势识别结果包括：

利用预先训练好的手势识别模型对多帧连续的手势图像逐帧进行识别，对应每帧手势图像得到一个当前帧的手势动作；

对每个当前帧的手势动作，判断当前帧的手势动作是否满足预设动作，若满足所述预设动作，则直接输出当前帧的手势动作在当前帧的手势图像中的位置信息，若不满足所述预设动作，则不输出当前帧的手势动作在当前帧的手势图像中的位置信息。

3.根据权利要求2所述的方法，其特征在于，所述判断所述手势识别结果是否满足预设输入条件包括：

根据满足所述预设动作的手势动作在手势图像中的位置信息，确定满足所述预设动作的手势动作的持续帧数；

若所述持续帧数满足预设帧数，则确定所述手势识别结果满足所述预设输入条件；

若所述持续帧数不满足所述预设帧数，则确定所述手势识别结果不满足所述预设输入条件。

4.根据权利要求3所述的方法，其特征在于，所述预设动作为单手的拇指与食指的挤压捏合动作，所述满足所述预设动作的手势动作在手势图像中的位置信息为单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息，所述根据所述手势动作在手势图像中的位置信息，确定所述手势动作触发的所述虚拟键盘中的虚拟按键包括：

将单手的拇指与食指挤压捏合的接触点在图像坐标系下的位置信息换算到相机坐标系下，得到所述接触点在所述相机坐标系下的三维空间信息；

将所述接触点在所述相机坐标系下的三维空间信息转换到所述虚拟键盘所在的世界坐标系下；

根据所述接触点在世界坐标系下的位置信息，确定所述接触点触发的所述虚拟键盘中的虚拟按键。

5.根据权利要求4所述的方法，其特征在于，所述虚拟键盘包括多个虚拟按键，各个虚拟按键分别对应设置有三维空间区域，所述根据所述接触点在世界坐标系下的位置信息，确定所述接触点触发的所述虚拟键盘中的虚拟按键包括：

检测所述接触点在世界坐标系下的位置信息是否处在某个三维空间区域中；

若是，则根据所述接触点在世界坐标系下的位置信息所处的三维空间区域，确定所述手势动作触发的虚拟按键。

6.根据权利要求1所述的方法，其特征在于，所述手势识别模型为单手的拇指和食指的挤压捏合手势识别模型，所述手势识别模型通过如下方式训练得到：

获取待训练手势图像，其中所述待训练手势图像中包括至少一只手的拇指和食指的挤压捏合手势；

将所述待训练手势图像输入手势识别模型进行识别，得到待训练手势图像的手势识别结果，其中所述待训练手势图像的手势识别结果包括所述待训练手势图像中的挤压捏合手势的个数，以及单手的拇指与食指挤压捏合的接触点在手势图像上的位置信息；

将所述待训练手势图像的手势识别结果与所述待训练手势图像中已标记的手势识别信息进行比较，得到训练损失值；

根据所述训练损失值对所述手势识别模型的参数进行更新，得到预先训练好的手势识别模型。

7.一种头戴式显示设备的信息输入装置，其特征在于，所述头戴式显示设备的显示界面中展示有至少一个虚拟键盘，所述装置包括：

手势图像获取单元，用于实时获取手势图像；

8.根据权利要求7所述的装置，其特征在于，所述手势图像为多帧连续的手势图像，所述手势图像识别单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述手势识别结果判断单元具体用于：

10.一种头戴式显示设备，其特征在于，包括：处理器，存储计算机可执行指令的存储器，

所述可执行指令在被所述处理器执行时，实现所述权利要求1至6之任一所述头戴式显示设备的信息输入方法。