CN110347323A

CN110347323A - 基于手部姿势来转录增强现实键盘输入

Info

Publication number: CN110347323A
Application number: CN201910216664.4A
Authority: CN
Inventors: 马克·A·理查森; 罗伯特·Y·王
Original assignee: Oculus VR Inc
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-04-04
Filing date: 2019-03-21
Publication date: 2019-10-18
Also published as: US20190310688A1; US10719173B2

Abstract

本公开涉及基于手部姿势来转录增强现实键盘输入。转录引擎基于使用者在打字时执行的手部姿势序列来转录从增强现实键盘接收到的输入。手部姿势发生器分析使用者打字的视频以生成手部姿势序列。转录引擎实现一组转录模型，以基于手部姿势序列生成一系列键击。该系列中的每个键击可对应于手部姿势序列中的一个或多个手部姿势。转录引擎监测使用者的行为并根据使用者的关注水平在转录模型之间进行选择。当使用者以专注的方式打字时，转录引擎可选择第一转录模型，当使用者以较不专注的会话方式打字时，则选择第二转录模型。

Description

基于手部姿势来转录增强现实键盘输入

技术领域

各种实施方式大体上涉及虚拟现实和增强现实，并且更具体地，涉及基于手部姿势来转录增强现实键盘输入以提高打字准确度。

背景技术

物理键盘包括使用者在打字时按下的许多键。当物理键盘的使用者按下特定键时，该键可以直接转录为对应的文本字符。物理键盘的键提供动觉反馈，根据该动态反馈，使用者在打字时可以变得关注。基于该动觉反馈，使用者可以高精度地键入字符串。

触摸屏上显示的图形键盘包括使用者在打字时敲击的图形键。当图形键盘的使用者敲击特定图形键时，触摸屏产生的触摸事件可以直接转录为对应的文本字符。图形键盘的键不单独提供动觉反馈。因此，使用者不能基于各个键的物理感觉而变得关注键盘，并且必须仅依赖于触摸触摸屏的感觉。因此，使用者可能无法以高精度打字。为了解决这个问题，一些触摸屏装置实现了校正算法，以改善触摸事件至文本字符的转录。

投射到模拟环境中的虚拟键盘和增强现实键盘不包括任何类型的物理键或物理表面。因此，这些类型的键盘不能提供动觉反馈，根据该动觉反馈，使用者可以在打字时变得关注。因此，在虚拟键盘或增强现实键盘上打字可能是非常不准确的。此外，上面结合图形键盘提到的校正算法不适用于虚拟键盘和增强现实键盘，因为这样的键盘不产生触摸事件。

如前所述，本领域需要一种更有效的解决方案来转录从虚拟键盘和/或增强现实键盘接收到的输入。

发明内容

各种实施方式包括计算机实现的方法，包括：识别相对于增强现实键盘执行的一组手势，分析该组手势以生成手部姿势序列，选择在手部姿势序列上训练的第一转录模型，每个手部姿势序列对应于不同的文本序列，并且基于第一转录模型将手部姿势的序列转录成第一文本序列。

所公开的技术的至少一个优点在于增强现实键盘的使用者可以在不依赖于动觉反馈的情况下准确地打字以在打字期间保持关注。因此，与不便于有效通信的传统的不太精确的解决方案相比，增强现实键盘的使用者可以更有效地进行通信。由于这些原因，与以低精度转录输入的现有解决方案相比，所公开的技术代表了技术进步。

附图说明

因此，可以详细地理解各种实施方式的上述特征的方式、可以通过参考各种实施方式来获得上面简要概述的本发明构思的更具体的描述，其中一些实施方式在附图中示出。然而，需指出，附图仅示出了本发明构思的典型实施方式，并因此不应被视为以任何方式限制范围，并且存在其他同等有效的实施方式。

图1示出了被配置为实现各种实施方式的一个或多个方面的系统；

图2为根据各种实施方式的用于转录增强现实键盘输入的方法步骤的流程图；

图3示出了根据各种实施方式如何训练图1的第一转录模型；

图4为根据各种实施方式的用于基于键击事件训练转录模型的方法步骤的流程图；

图5示出了根据各种实施方式如何训练图1的第二转录模型；

图6为根据各种实施方式的用于基于触摸事件训练转录模型的方法步骤的流程图；以及

图7示出了根据各种实施方式的包括在图1的系统中的计算装置。

具体实施方式

在以下描述中，阐述了许多具体细节以提供对各种实施方式的更透彻的理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节中的一者或多者的情况下实施本发明构思。

如上所述，虚拟键盘不提供任何动觉反馈。缺乏这种反馈阻止了虚拟键盘的使用者变得关注键盘，因此限制了使用者可以打字的准确度。因此，虚拟键盘输入通常不能以高精度转录成文本。

为了解决这些问题，各种实施方式包括转录引擎，该转录引擎被配置为基于使用者在打字时执行的手部姿势序列来转录增强现实键盘输入。手部姿势发生器分析使用者打字的视频以生成手部姿势的序列。转录引擎实现一组转录模型，以基于手部姿势的序列生成一系列键击。该系列中的每个键击可以对应于手部姿势序列中的一个或多个手部姿势。转录引擎还被配置为监测使用者的行为并例如基于使用者的关注水平根据所述行为在转录模型之间进行选择。当使用者以专注的方式打字时，转录引擎可以选择第一转录模型，然后当使用者以较不专注的会话方式打字时，选择第二转录模型。

本文描述的技术的至少一个优点在于增强现实键盘的使用者可以准确地打字而不依赖于动觉反馈以在打字期间保持关注。因此，与以低精度转录输入的现有解决方案相比，所公开的技术代表了技术进步。

系统总览

图1示出了被配置为实现各种实施方式的一个或多个方面的系统。如图所示，系统100包括联接在一起的头戴式装置110、控制台120和成像装置130。

头戴式装置110为被配置为由使用者140佩戴的可穿戴装置。在一个实施方式中，头戴式装置110佩戴在使用者140的头部上。头戴式装置110包括显示器112、光学组件114、眼睛跟踪系统116和头部跟踪系统118。在一些实施方式中，头戴式装置110还可包括成像装置130。头戴式装置110被配置为将使用者140沉浸在包括虚拟场景150的虚拟现实(VR)和/或增强现实(AR)环境中。在这样做时，头戴式装置110使显示器112向使用者140发出表示虚拟场景150的光。光学组件114可以对发射的光执行各种光学调整。包括在虚拟场景中并以这种方式显示给使用者140的元素可以在本公开中被描述为“虚拟”。

虚拟场景150包括增强现实键盘152和其他虚拟元素，诸如虚拟元素154和156。增强现实键盘152可以为任何虚拟装置，包括虚拟键盘、虚拟平板计算机或物理输入装置的另一虚拟化表示，例如但不限于此。使用者140通过使用手142执行打字动作来与增强现实键盘152交互。这些打字动作通常对应于使用者140执行以表达文本序列的键击。成像装置130捕获描绘这些打字动作的视频数据，并将视频数据发送到控制台120。

控制台120为配置成管理头戴式装置110的操作的计算装置。控制台120可以代表头戴式装置110生成虚拟场景150并呈现该虚拟场景。控制台120包括手部姿势分类器122和转录引擎124。手部姿势分类器122包括被训练成处理人手图像并将这些图像分类为对应于特定手部姿势的神经网络。手部姿势分类器122分析由成像装置130捕获的视频数据，并且然后生成表示在打字期间使用者140的手142的配置的手部姿势序列。

转录引擎124实现一组转录模型126以将手部姿势序列转录成键击事件序列。那些键击事件可以对应于使用者140打算通过打字动作或使用者140可以执行的其他手势来表达的文本序列。每个转录模型126包括神经网络，该神经网络被配置为将手部姿势的不同子序列分类为对应于特定键击事件。给定转录模型126可以包括递归神经网络、序列神经网络或被配置为处理在滑动时间窗口内发生的输入的任何其他形式的神经网络。转录引擎124被配置为根据使用者140的行为在转录模型126之间进行选择。

特别地，当使用者140高度专注于在增强现实键盘152上打字时，转录引擎124可以实施转录模型126(0)以将手部姿势转录成键击，并且最终转录成文本。另选地，当使用者140不太专注于在增强现实键盘152上打字时，转录引擎124可以实施转录模型126(1)以将手部姿势转录成键击，并且转录成对应的文本。在一个实施方式中，转录引擎124可以基于所确定的与使用者140相关联的关注度来组合转录模型126(0)和126(1)，以便执行转录。使用不同的训练过程来训练转录模型126(0)和126(1)，该训练过程分别在下面结合图3至图4和图5至图6更详细地描述。

转录引擎124可以基于各种标准确定使用者140参与在增强现实键盘152上打字的程度。例如但不限于，转录引擎124可以通过眼睛跟踪系统116确定使用者140在视觉上专注在增强现实键盘152上。转录引擎124还可以通过头部跟踪系统118确定使用者140面向下以朝向增强现实键盘152。转录引擎124也可以分析与使用者140相关联的其他行为，包括使用者140打字的速度等。

根据上述技术，转录引擎124被配置为将使用者140关于增强现实键盘152提供的输入转录成键击序列。那些键击可以对应于通常在传统键盘上出现的字符。因此，使用者140可以以与物理键盘或图形键盘交互的类似方式与增强现实键盘152交互。因为转录引擎124基于使用者行为实施特定于情景的转录模型126，所以与传统方法相比，转录引擎124可以更精确地确定使用者140打算键入的特定字符。

图2为根据各种实施方式的用于转录增强现实键盘输入的方法步骤的流程图。尽管结合图1的系统描述了方法步骤，但是本领域技术人员将理解，任何系统可以被配置为以任何顺序执行所述方法步骤。

如图所示，方法200开始于步骤202，其中成像装置130记录在使用者140利用增强现实键盘152执行打字动作和/或其他手势时的使用者140的视频。增强现实键盘152为物理输入装置(诸如键盘或移动装置等)的虚拟化表示。使用者140可以在诸如桌子的静态表面上执行打字动作。另选地，使用者140可以在移动时动态地执行打字动作，而不需要静态表面。本领域技术人员将理解，打字运动仅表示使用者140可以执行以便表达语言的手势的一个示例，并且其他手势也可以被转录为文本。在步骤204，手部姿势分类器122处理由成像装置130捕获的视频以生成手部姿势序列。序列中的每个手部姿势表示在执行打字动作时使用者140的手142的位置和配置。给定的手部姿势也可以与时间戳相关联。

在步骤206，头戴式装置110捕获与使用者140的注意力相关的行为数据。行为数据可以指示，例如但不限于，与使用者140的眼睛相关联的注视方向或聚焦点，与使用者140的头部相关联的头部取向，使用者140执行打字动作的速度，使用者140的面部表情，或使用者140在虚拟场景150内执行的动作，以及其他可识别的行为。

在步骤208，转录引擎124量化使用者140关注于执行打字动作的程度。例如但不限于，转录引擎124可以计算与使用者140的眼睛相关联的聚焦点与虚拟场景150内的增强现实键盘152的位置之间的距离。较短的距离可以指示对执行打字动作的更高程度的关注。在另一示例中，转录引擎124可以计算使用者140执行打字动作的速度。较低的速度可以指示对执行打字动作的更高程度的关注。

在步骤210，转录引擎124确定聚焦程度是否超过阈值。返回到上面提到的第一示例，转录引擎124可以确定聚焦点和增强现实键盘152的位置之间的距离小于阈值。返回到上述第二示例，转录引擎124可以确定计算出的打字速度小于使用者140打字的平均速度。如果转录引擎124确定聚焦点程度超过阈值，则该方法前进至步骤212。在步骤212，转录引擎124使用转录模型126(0)将手部姿势序列转录成第一键击序列。否则，如果转录引擎124确定聚焦点程度未超过阈值，则该方法前进至步骤214。在步骤214，转录引擎124使用转录模型126(1)将手部姿势序列转录成第二键击序列。然后，方法200可以返回到步骤200并以上述方式重复。

如上面结合图1所述，可以根据不同的训练过程训练转录模型126。下面结合图3至图6更详细地描述那些训练过程。

转录模型训练

图3示出了根据各种实施方式如何训练图1的第一转录模型。如图所示，建模引擎300联接到成像装置310。成像装置310被配置为当测试使用者320在触摸屏装置330上打字时记录与测试使用者320相关联的视频。触摸屏装置330向测试使用者320显示图形键盘。当使用者320在图形键盘上打字时，成像装置310可以具体地记录与使用者320的手322相关联的视频。

手部姿势分类器122处理所记录的视频数据以生成手部姿势的序列304。序列304包括示例性手部姿势P0、P1、P6、P3、P7、P12和P9。并行地，触摸屏装置330输出触摸事件的序列332和键击事件的序列334。序列332包括示例性触摸事件T0和T1。每个触摸事件可以指示测试使用者320在特定时间触摸了触摸屏装置330。序列334包括示例性键击事件K0和K1。每个键击事件可以指示测试使用者320在特定时间敲击由触摸屏装置330显示的图形键盘上的特定键。序列304、332和334可以在时间上对齐，至少在某种程度上在时间上对齐。

建模引擎300包括训练模块302，其被配置为使用序列304、332和334。基于这些序列，训练模块302训练转录模型126(0)。在训练期间，训练模块302可以调整与转录模型126(0)相关联的一组权重值，以便使转录模型126(0)将手部姿势的子序列306映射到特定触摸事件和/或映射到特定键击事件。例如，训练模块302可以训练转录模型126(0)以将子序列306(0)映射到触摸事件T0和/或映射到键击事件K0。类似地，训练模块302可以训练转录模型126以将子序列306(1)映射到触摸事件T1和/或映射到键击事件K1。训练模块302可以对训练转录模型126(0)实施梯度下降解决方案，以及训练神经网络的其他解决方案。

通过上述训练过程，训练模块302基于当向测试使用者320呈现图形键盘时采集到的训练数据来训练转录模型126(0)。这种特定的训练设置可能类似于使用者将注意力专注在打字上的情况。因此，转录模型126(0)通常用于在使用者展示出表明对打字具有较高注意力的行为时执行输入转录。

图4为根据各种实施方式的用于基于键击事件训练转录模型的方法步骤的流程图。尽管结合图1至图3的系统描述了方法步骤，但是本领域技术人员将理解，任何系统可以被配置为以任何顺序执行所述方法步骤。

如图所示，方法400开始于步骤402，其中成像装置310记录在测试使用者320在触摸屏装置330上打字时的测试使用者320的视频。触摸屏装置330向测试使用者320显示图形键盘。所记录的视频描绘了在打字期间测试使用者320的手322。在步骤404，手部姿势分类器122处理视频以生成手部姿势的序列304。手部姿势分类器122可以实现被训练以将人手的图像分类为占据特定手部姿势的神经网络。

在步骤406，触摸屏装置330记录在测试使用者320在由触摸屏装置330显示的图形键盘上打字时的触摸事件的序列332。序列332中的给定触摸事件指示触摸屏330的表面在特定时间被触摸。在步骤408，触摸屏装置330记录在测试使用者320在由触摸屏330显示的图形键盘上打字时的键击事件的序列。序列334中的给定键击事件指示在特定时间触摸了图形键盘的特定键。

在步骤410，训练模块302生成训练数据，该训练数据包括手部姿势的序列304、触摸事件的序列332和键击事件的序列334。在这样做时，训练模块302可以将序列304标记为输入数据，并将序列332和334标记为应当基于序列304预测的目标数据。在步骤412，训练模块302使用在步骤410处生成的训练数据训练转录模型126(0)以基于手部姿势序列预测触摸事件和键击事件。训练模块302可以训练转录模型126(0)，直到转录模型126能够基于手部姿势的子序列可靠地预测触摸事件和键击事件。

通过上述解决方案，训练模块302训练转录模型126(0)以将增强现实键盘输入转录成对应于文本的键击。如下面结合图5至图6更详细地描述的，训练模块302可以使用替代训练过程训练转录模型126(1)。

图5示出了根据各种实施方式如何训练图1的第二转录模型。如图所示，类似于上面结合图4至图5描述的训练过程，成像装置310记录在测试使用者320在触摸屏装置330上打字时的与测试使用者320相关联的视频。然而，触摸屏装置330不显示测试使用者320的图形键盘。

利用所示的训练过程，训练模块302向测试使用者320输出字符的测试序列500。每个字符通常对应于一个或多个键击。测试序列500包括分别对应于键击K5、K3、K9和K0的示例性字符C5、C3、C9和C0。训练模块302向测试使用者320输出测试序列500。例如但不限于，训练模块302可以使显示器502以图形方式显示测试序列500，以及其他可能性。测试使用者320被指示使用触摸屏装置330键入测试序列500。响应于测试序列500，测试使用者320尝试执行与测试序列500中包括的字符相对应的键击。缺少物理键盘或图形键盘，测试使用者320可以基于肌肉记忆和/或基于敲击触摸屏装置330的感觉来执行这些键击。当测试使用者320以这种方式打字时，成像装置310记录测试使用者320的视频并将该视频发送到手部姿势分类器122。

手部姿势分类器122处理所记录的视频数据以生成手部姿势的序列510。序列510包括示例性手部姿势P2、P8、P3、P0、P10、P2和P7。并行地，触摸屏装置330基于由测试使用者320执行的键击输出触摸事件的序列520，包括示例性触摸事件T0、T1和T2。然而，触摸屏装置330不像先前的训练过程那样输出键击事件。

作为替代，训练模块302按顺序解析触摸事件的序列520，并且对于每个触摸事件，将触摸事件映射到包括在测试输入500中的相同索引位置的字符。例如但不限于，训练模块302可以将序列520中的第零触摸事件映射到测试序列500中的第零字符，将序列520中的第一触摸事件映射到测试序列500中的第一字符，等等。然后，对于以这种方式映射的每个字符，训练模块302将对应的键击事件包括到键击事件的序列530中。在这样做时，训练模块302可以用与对应的触摸事件相关联的时间戳来标记键击以生成键击事件。例如，训练模块302可以将触摸事件T0映射到字符C5，然后将键击K5作为键击事件包括在序列530中。训练模块302可以包括序列530中的键击事件，其至少在某种程度上与序列520中包括的对应触摸事件在时间上对齐。

基于这些序列，训练模块302训练转录模型126(1)。在训练期间，训练模块302可以调整与转录模型126(1)相关联的一组权重值，以便使转录模型126(1)将手部姿势的子序列映射到特定触摸事件和/或映射到特定键击事件。训练模块302通常实施与上文结合转录模型126(1)所述类似的训练过程以训练转录模型126(0)。

通过使用上面讨论的训练过程训练转录模型126(1)，训练模块302转录模型126(1)在使用者看不到键盘时转录使用者输入并且提供很少或不提供动觉反馈。这种特定的训练设置可以类似于使用者以对话方式打字并且没有将较高的注意力专注在执行准确键击的情况。因此，当使用者展示出与随意和较少专注的打字相关联的行为时，转录模型126(1)可用于执行输入转录。

图6为根据各种实施方式的用于基于触摸事件训练转录模型的方法步骤的流程图。尽管结合图1至图5的系统描述了方法步骤，但是本领域技术人员将理解，任何系统可以被配置为以任何顺序执行所述方法步骤。

如图所示，方法600开始于步骤602，其中训练模块302使测试序列500输出到测试使用者320。训练模块302可以例如但不限于播放表示测试序列500的音频。测试使用者320被指示使用触摸屏装置330键入对应于测试序列500的字符。

在步骤604，成像装置310记录在测试使用者320使用触摸屏装置330打字时的测试使用者320的视频。触摸屏装置330不显示图形键盘，并且不需要记录特定的键击。在步骤606，手部姿势分类器122处理所记录的视频以生成手部姿势的序列510。在步骤608，触摸屏装置330记录在测试使用者320使用触摸屏装置330打字时的触摸事件的序列520。序列520中的给定触摸事件指示触摸屏330的表面在特定时间被触摸。

在步骤610，训练模块302将序列520中的每个触摸事件映射到键击事件，以生成至少部分地与序列520对齐的键击事件的序列530。训练模块502可以通过识别包括在具有与给定触摸事件相同的索引位置的测试输入500中的字符并且然后确定与该字符对应的键击，将包括在序列520中的给定触摸事件映射到特定键击。然后，训练模块502生成要包括在序列530中的对应键击事件。

在步骤612，训练模块302生成训练数据，该训练数据包括手部姿势的序列510、触摸事件的序列520和键击事件的序列530。训练模块302可以将序列510标记为输入数据，并将序列520和530标记为应当基于序列510预测的目标数据。在步骤614，训练模块302使用在步骤612处生成的训练数据训练转录模型126(1)以基于手部姿势序列预测触摸事件和键击事件。训练模块302可以迭代地训练转录模型126(1)，直到满足一些收敛标准。

一般地参考图1至图6，本领域技术人员将理解，任何技术上可行的计算机硬件和/或软件形式可以被配置为执行到目前为止所讨论的任何技术。以下结合图7更详细地描述示例性计算装置。

图7示出了根据各种实施方式的包括在图1的系统中的计算装置。如图所示，计算装置700包括处理器710、输入/输出(I/O)装置720和存储器730。存储器730包括软件应用732和数据存储装置734。处理器710可以包括被配置为处理数据和执行软件应用的任何硬件。I/O装置720包括被配置为接收输入的装置、被配置为提供输出的装置以及被配置为接收输入和提供输出的装置。存储器730可以由任何技术上可行的存储介质实现。软件应用732包括程序代码，该程序代码在由处理器710执行时执行本文描述的任何功能。软件应用732可以访问存储在数据存储装置734中的数据。本领域技术人员将理解，提供计算装置700仅用于示例性目的，并不意味着限制本实施方式的范围。

总之，转录引擎基于使用者在打字时执行的手部姿势序列来转录增强现实键盘输入。手部姿势发生器分析使用者打字的视频以生成手部姿势的序列。转录引擎实现一组转录模型，以基于手部姿势的序列生成一系列键击。该系列中的每个键击可以对应于手部姿势序列中的一个或多个手部姿势。转录引擎监测使用者的行为并根据使用者的关注水平在转录模型之间进行选择。当使用者以专注的方式打字时，转录引擎可以选择第一转录模型，然后当使用者以较不专注的会话方式打字时，选择第二转录模型。

本文描述的技术的至少一个优点在于增强现实键盘的使用者可以准确地打字而不依赖于动觉反馈以在打字期间保持关注。因此，与不便于有效通信的传统的不太精确的解决方案相比，增强现实键盘的使用者可以更有效地进行通信。由于这些原因，与以低精度转录输入的现有解决方案相比，所公开的技术代表了技术进步。

在任何权利要求中所述的任何权利要求元素和/或本申请中描述的任何元素的任何和所有组合都以任何方式落入本实施方式和保护的预期范围内。

1.一种计算机实现的方法，包括：识别对于增强现实键盘执行的一组手势；分析该组手势以生成手部姿势序列；选择在分别对应于不同的文本序列的手部姿势序列上训练的第一转录模型；并且基于第一转录模型将手部姿势序列转录成第一文本序列。

2.根据条款1所述的计算机实现的方法，还包括生成包括描绘该组手势的视频的第一数据。

3.根据条款1和2中任一项所述的计算机实现的方法，其中，所述增强现实键盘包括在虚拟环境中。

4.根据条款1、2和3中任一项所述的计算机实现的方法，还包括基于第一训练数据训练第一转录模型，所述第一训练数据基于当使用者在显示图形键盘的表面上打字时执行的第一组手势而生成。

5.根据条款1、2、3和4中任一项所述的计算机实现的方法，还包括通过捕获对应于与所述图形键盘相关联的按键事件序列的触摸事件序列来生成第一训练数据。

6.根据条款1、2、3、4和5中任一项所述的计算机实现的方法，还包括基于第一训练数据训练第一转录模型，所述第一训练数据基于当使用者在不显示图形键盘的表面上打字时执行的第一组手势而生成。

7.根据条款1、2、3、4、5和6中任一项所述的计算机实现的方法，还包括：通过在使用者在表面上打字时捕获触摸事件序列、并且基于触摸事件序列和测试序列生成按键事件序列，来生成第一训练数据。

8.根据条款1、2、3、4、5、6和7中任一项所述的计算机实现的方法，还包括：生成包括在按键事件序列中的第一按键事件，所述第一按键事件对应于包括在触摸事件序列中的第一触摸事件和包括在测试序列中的第一字符。

9.根据条款1、2、3、4、5、6、7和8中任一项所述的计算机实现的方法，还包括：确定执行该组手势的关注程度；并且基于关注程度从多个转录模型中选择第一转录模型。

10.根据条款1、2、3、4、5、6、7、8和9中任一项所述的计算机实现的方法，还包括：生成指示使用者在执行该组手势时面向的方向的第一数据，其中，确定关注程度包括将使用者面向的方向与增强现实键盘所在的方向进行比较。

11.根据条款1、2、3、4、5、6、7、8、9和10中任一项所述的计算机实现的方法，还包括：生成指示使用者在执行该组手势时注视的方向的第一数据，其中，确定关注程度包括将使用者的注视方向与增强现实键盘所在的方向进行比较。

12.根据条款1、2、3、4、5、6、7、8、9、10和11中任一项所述的计算机实现的方法，还包括：生成指示与该组手势的执行相关联的打字速度的第一数据，其中，确定关注程度包括将使用者的打字速度与平均打字速度进行比较。

13.根据条款1、2、3、4、5、6、7、8、9、10、11和12中任一项所述的计算机实现的方法，其中，选择第一转录模型包括确定关注程度超过阈值，从而指示使用者专心于执行该组手势。

14.根据条款1、2、3、4、5、6、7、8、9、10、11、12和13中任一项所述的计算机实现的方法，其中，根据第一训练过程训练第一转录模型，并且还包括：生成与对增强现实键盘执行的第二组手势相对应的第二手部姿势序列；确定执行第二组手势时的关注水平；并且响应于所确定的关注水平，使用第二转录模型将第二手部姿势序列转录成第二文本序列，其中，第二转录模型根据第二训练过程进行训练。

15.根据条款1、2、3、4、5、6、7、8、9、10、11、12、13和14中任一项所述的计算机实现的方法，其中，所述关注水平较执行第一组手势时的先前关注水平有增加。

16.一种计算机系统，包括：存储指令的存储器；以及执行指令以执行以下步骤的处理器：识别对于增强现实键盘执行的一组手势，分析该组手势以生成手部姿势序列，选择在均对应于不同的文本序列的手部姿势序列上训练的第一转录模型，并基于第一转录模型将手部姿势序列转录成第一文本序列。

17.根据条款16所述的计算机系统，其中，所述处理器执行指令以：确定执行该组手势的关注程度；并基于所述关注程度从多个转录模型中选择第一转录模型。

18.根据条款16和17中任一项所述的计算机系统，其中，所述处理器执行指令以：生成与对于增强现实键盘执行的第二组手势相对应的第二手部姿势序列；确定执行第二组手势时的关注水平；并且响应于所确定的关注水平，使用第二转录模型将第二手部姿势序列转录成第二文本序列，其中，第二转录模型根据第二训练过程进行训练。

19.一种存储指令的非暂时性计算机可读介质，所述指令在由处理器执行时使处理器：识别对于增强现实键盘执行的一组手势；分析该组手势以生成手部姿势序列；选择在分别对应于不同的文本序列的手部姿势序列上训练的第一转录模型；并基于第一转录模型将手部姿势序列转录成第一文本序列。

20.根据条款19所述的非暂时性计算机可读介质，其中，所述指令还使得所述处理器：确定执行该组手势时的关注程度；并基于所述关注程度从多个转录模型中选择第一转录模型。

已经出于说明的目的给出了对各种实施方式的描述，但是并不旨在穷举或限制于所公开的实施方式。在不脱离所描述的实施方式的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。

本实施方式的各方面可以实施为系统、方法或计算机程序产品。因此，本公开的各方面可以采用完全硬件实施方式、完全软件实施方式(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施方式的形式，所述软件和硬件方面通常都可以在本文中称为“模块”或“系统”。此外，本公开的各方面可以采用在一种或多种计算机可读介质中实施的计算机程序产品的形式，该计算机可读介质具有包含在其上的计算机可读程序代码。

可以使用一种或多种计算机可读介质的任何组合。计算机可读介质可以为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以为例如但不限于电子、磁、光、电磁、红外或半导体系统、装置或器件，或者前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下介质：具有一条或多条导线的电连接，便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或任何上述的适当组合。在本文献的上下文中，计算机可读存储介质可以为任何有形介质，其可以包含或存储程序以供指令执行系统、装置或设备使用或与其结合使用。

以上参考根据本公开实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器。当通过计算机的处理器或其他可编程数据处理装置执行时，所述指令使得能够实现在流程图和/或框图框中指定的功能/动作。这些处理器可以为但不限于通用处理器、专用处理器、特定应用处理器或现场可编程门阵列。

附图中的流程图和框图示出了根据本公开的各种实施方式的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这方面，流程图或框图中的每个框可以表示代码的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。还需指出，在一些替代实施方式中，框中提到的功能可以不按图中所示的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还需指出，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行特定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

虽然前述内容针对本公开的实施方式，但是可以在不脱离本公开的基本范围的情况下设计本公开的其他和进一步的实施方式，并且本公开的范围由所附权利要求确定。

Claims

1.一种计算机实现的方法，包括：

识别对增强现实键盘执行的一组手势；

分析所述一组手势以生成手部姿势序列；

选择在分别对应于不同的文本序列的手部姿势序列上训练的第一转录模型；以及

基于所述第一转录模型将手部姿势序列转录成第一文本序列。

2.根据权利要求1所述的计算机实现的方法，还包括：生成包括描绘所述一组手势的视频的第一数据。

3.根据权利要求1所述的计算机实现的方法，其中，所述增强现实键盘包括在虚拟环境中。

4.根据权利要求1所述的计算机实现的方法，还包括：基于第一训练数据训练所述第一转录模型，所述第一训练数据基于当使用者在显示图形键盘的表面上打字时执行的第一组手势而生成。

5.根据权利要求4所述的计算机实现的方法，还包括：通过捕获对应于与所述图形键盘相关联的按键事件序列的触摸事件序列来生成所述第一训练数据。

6.根据权利要求1所述的计算机实现的方法，还包括：基于第一训练数据训练所述第一转录模型，所述第一训练数据基于当使用者在不显示图形键盘的表面上打字时执行的第一组手势而生成。

7.根据权利要求6所述的计算机实现的方法，还包括：通过捕获当使用者在所述表面上打字时的触摸事件序列、并且基于所述触摸事件序列和测试序列生成按键事件序列，来生成所述第一训练数据。

8.根据权利要求7所述的计算机实现的方法，还包括：生成包括在所述按键事件序列中的第一按键事件，所述第一按键事件对应于包括在所述触摸事件序列中的第一触摸事件和包括在所述测试序列中的第一字符。

9.根据权利要求1所述的计算机实现的方法，还包括：

确定执行所述一组手势时的关注程度；以及

基于所述关注程度从多个转录模型中选择所述第一转录模型。

10.根据权利要求9所述的计算机实现的方法，还包括：生成指示使用者在执行所述一组手势时面向的方向的第一数据，其中，确定所述关注程度包括将所述使用者面向的方向与所述增强现实键盘所在的方向进行比较。

11.根据权利要求9所述的计算机实现的方法，还包括：生成指示使用者在执行所述一组手势时注视的方向的第一数据，其中，确定所述关注程度包括将所述使用者的注视方向与所述增强现实键盘所在的方向进行比较。

12.根据权利要求9所述的计算机实现的方法，还包括：生成指示与执行所述一组手势相关联的打字速度的第一数据，其中，确定所述关注程度包括将所述使用者的打字速度与平均打字速度进行比较。

13.根据权利要求9所述的计算机实现的方法，其中，选择所述第一转录模型包括确定所述关注程度超过阈值，从而指示使用者专心于执行所述一组手势。

14.根据权利要求1所述的计算机实现的方法，其中，根据第一训练过程训练所述第一转录模型，并且所述方法还包括：

生成与对所述增强现实键盘执行的第二组手势相对应的第二手部姿势序列；

确定执行所述第二组手势时的关注水平；以及

响应于所确定的关注水平，使用第二转录模型将所述第二手部姿势序列转录成第二文本序列，其中，所述第二转录模型根据第二训练过程进行训练。

15.根据权利要求14所述的计算机实现的方法，其中，所述关注水平从执行所述一组手势时的先前关注水平增加。

16.一种计算机系统，包括：

存储器，存储指令；以及

处理器，执行所述指令以：

识别对增强现实键盘执行的一组手势，

分析所述一组手势以生成手部姿势序列，

选择在分别对应于不同的文本序列的手部姿势序列上训练的第一转录模型，以及

17.根据权利要求16所述的计算机系统，其中，所述处理器执行所述指令以：

确定执行所述一组手势时的关注程度；以及

18.根据权利要求16所述的计算机系统，其中，所述处理器执行指令以：

确定执行所述第二组手势时的关注水平；以及

19.一种非暂时性计算机可读介质，存储指令，所述指令在由处理器执行时使所述处理器：

识别对增强现实键盘执行的一组手势；

分析所述一组手势以生成手部姿势序列；

20.根据权利要求19所述的非暂时性计算机可读介质，其中，所述指令还使所述处理器：

确定执行所述一组手势时的关注程度；以及