CN117931334A

CN117931334A - 用于粗略和精细选择键盘用户界面的系统和方法

Info

Publication number: CN117931334A
Application number: CN202311397404.4A
Authority: CN
Inventors: 郭嘉婧; N·田; 周正宇; W·马; N·费弗尔; M·戈梅利
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-10-25
Filing date: 2023-10-25
Publication date: 2024-04-26
Also published as: DE102023129464A1; US20240134516A1

Abstract

一种包括用户界面的系统，所述系统包括：与显示器和输入接口通信的处理器，所述处理器被编程为：在所述显示器上输出包括键盘布局的所述用户界面，其中，所述键盘布局包括至少一个含有字符集合的键盘；响应于来自所述输入接口的第一输入，输出与所述键盘布局的字符的第一子集相关联的所述键盘布局的第一部分，其中，所述第一子集不包括所有字符；响应于来自所述输入接口的第二输入，选择字符的第二子集，其中，字符的所述第二子集来自并且包括比字符的所述第一子集少的字符，并且所述第二子集包括两个或更多个字符；而且基于对所述第二子集的选择，在与所述用户界面相关联的文本字段上输出字符。

Description

用于粗略和精细选择键盘用户界面的系统和方法

技术领域

本公开涉及一种界面布局，其包括用于增强现实(AR)或虚拟现实(VR)环境的键盘布局。

背景技术

随着AR和VR技术逐渐应用于工作和社交互动，文本输入成为越来越重要的特征。在最先进的AR或VR设备(例如HoloLens)中，用户通常需要执行捏合手势来选择空中键盘上的字符。这种设计有缺点。首先，在没有物理键盘的情况下，这种交互的文本输入速度很慢。其次，打字的准确性受到传感器的有限精度的影响，例如手部跟踪。另一缺点可能是手可能被其他任务占用而无法用于文本输入。

为了解决上述问题，已经提出了涉及多种技术和设备的文本输入方法。例如，免提打字可以跟踪用户的眼睛运动和眨眼。在另一实施例中，设备中的惯性测量单元(IMU)可以跟踪用户的头部运动。外部设备包括帮助用户进行指向和选择的光线投射控制器，或者包括带有触摸屏的移动设备，用户可以在该触摸屏处进行滑动和选择。

上述方法大多侧重于交互，但是键盘大多是标准的QWERTY键盘。其他一些解决方案改变了键盘布局或交互方式。HIBEY可以将26个字母和特殊字符按字母顺序排列在水平线上。用户可以通过抓取想要的字母来选择单词。在一个示例中，“PinchType”可以将键盘分为三组，并且让用户通过拇指和指尖捏合来选择。

发明内容

第一实施例公开了一种包括用户界面的系统，该系统包括与显示器和输入接口通信的处理器，该处理器被编程为：在显示器上输出包括键盘布局的用户界面，其中该键盘布局包括至少一个含有字符集合的键盘；响应于来自输入接口的第一输入，输出与键盘布局的字符的第一子集相关联的键盘布局的第一部分，其中第一子集不包括所有字符；响应于来自输入接口的第二输入，选择字符的第二子集，其中字符的第二子集来自并且包括比字符的第一子集少的字符，并且第二子集包括两个或更多个字符；而且基于对第二子集的选择，在与用户界面相关联的文本字段上输出字符。

第二实施例公开了一种虚拟现实设备，该虚拟现实设备包括被配置为输出用户界面的显示器、输入接口、与显示器和输入接口通信的处理器，该处理器被编程为：在显示器上输出包括键盘布局的用户界面，其中该键盘布局包括至少一个含有字符集合的键盘；响应于来自输入接口的第一输入，在显示器处突出显示与键盘布局的字符的第一子集相关联的键盘布局的第一部分，其中第一子集不包括所有字符输入；响应于来自输入接口的第二输入，突出显示字符的第二子集，其中字符的第二子集包括比字符的第一子集少的字符，并且第二子集包括来自第一子集的两个到四个之间的剩余字符；而且选择并在显示器处输出字符的第二子集。

第三实施例公开了一种用户界面，该用户界面包括：文本字段部分；建议字段部分，其中建议字段部分被配置为响应于与用户界面相关联的上下文信息来显示预测的单词；键盘布局，其中键盘布局包括至少一个含有字符集合的键盘，该字符集合被配置为响应于从输入接口接收输入而在文本字段部分处显示，其中该用户界面被配置为：响应于来自第一输入接口的第一输入，输出与键盘布局的字符的第一子集相关联的键盘布局的第一部分，并且遮蔽该字符集合中的剩余字符，其中第一子集不包括所有字符；响应于来自第二输入接口的第二输入，从第一部分选择并突出显示字符的第二子集，并且在文本字段部分处输出一个或多个预测的单词，其中字符的第二子集来自第一子集，但是并不包括第一子集的所有字符。

附图说明

图1示出了根据本公开的示例实施例的头戴式显示设备形式的计算设备。

图2示出了界面的示例键盘布局。

图3A示出了利用粗略区域选择来选择第一子集。

图3B示出了利用精细区域选择来选择第二子集。

图4示出了使用中的虚拟界面的示例。

图5公开了用于单词建议的界面。

图6示出了界面上的单词建议的实施例。

图7A示出了显示麦克风图标和具有空文本字段的虚拟键盘的用户界面的实施例。

图7B示出了显示麦克风图标和具有输入语句的虚拟键盘的用户界面的实施例。

图7C示出了显示建议的单词和利用建议的单词对语句的潜在编辑的用户界面的实施例。

图7D示出了包括弹出界面的用户界面的实施例。

具体实施方式

本文描述了本公开的实施例。然而，应当理解，所公开的实施例仅仅是示例，并且其他实施例可以采取各种替选形式。附图不一定按比例绘制；一些特征可以被放大或最小化以显示特定组件的细节。因此，本文所公开的具体结构和功能细节不应被解释为限制性的，而仅作为教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域技术人员将理解的，参考任一附图示出和描述的各种特征可以与一幅或多幅其他附图中示出的特征组合以产生未明确示出或描述的实施例。所示出的特征的组合提供了典型应用的代表性实施例。然而，对于特定应用或实现方式可能需要与本公开的教导一致的特征的各种组合和修改。

以上两个方向的思路，涉及多个传感器或设备，以及设计新的键盘输入方式，可以结合起来。下面的系统提出了“粗-n-精(Coarse-n-Fine)”布局，这是一种新的键盘输入方法，其需要两步选择，并且可以与多个输入传感器数据(例如眼动跟踪和控制器)一起使用。

本公开包括粗略键盘和精细键盘(例如，有时称为“粗-n-精(Coarse-n-Fine)键盘”)的实施例，其中，当存在有限的输入传感器精度和有限的交互时，用户执行两步选择。键盘可以基于传统键盘(例如QWERTY键盘)被分为“粗略(coarse)”区域和“精细(fine)”区域。在本公开中描述的一个非限制性示例中，用户可以首先选择包括QWERTY键盘上的三列字母的“粗略”区域。接下来，用户可以选择想要输入的字母的“精细”列。对于选择过程，系统可以提出用于字符和/或单词选择的多种交互方法，例如眼动跟踪、设备上IMU(on-device IMU)、移动设备、控制器和/或移动设备上的控制器等等的组合。基于用户输入的字母选择，算法可以建议一个或多个单词作为建议来输出。建议的单词可以从词汇表、语言模型或上下文信息生成。粗-n-精(Coarse-n-Fine)键盘需要有限的选项数量，可以处理输入传感器数据的有限精度，并且具有与其他混合现实键盘相当的性能。因此，粗-n-精键盘可能是一种新颖的文本输入方法，其允许用户在交互程度有限的情况下输入单词和语句。本发明包括两部分。

图1示出了根据本公开的一个实施例的头戴式显示设备10形式的计算设备10，其被构想为解决上述问题。如图所示，计算设备10包括处理器12、易失性存储设备14、非易失性存储设备16、相机18、显示器20、主动深度相机21。处理器12被配置为使用易失性存储设备14的部分执行存储在非易失性存储设备16中的软件程序，以执行本文所述的各种功能。在一个示例中，处理器12、易失性存储设备14和非易失性存储设备16可以被包括在头戴式显示设备10中所包含的片上系统配置中。应当理解，计算设备10还可以采用其他类型的移动计算设备的形式，诸如，例如智能电话设备，平板电脑设备，笔记本电脑，用于自主车辆、机器人、无人机或者其他类型的自主设备的机器视觉处理单元，等等。在本文描述的系统中，计算设备10形式的设备可以被用作第一显示设备和/或第二显示设备。因此，该设备可以包括虚拟现实设备、增强现实设备或其任何组合。该设备还可以包括虚拟键盘。

显示器20被配置为至少部分透视，并且包括被配置为向用户的每只眼睛显示不同图像的右显示区域20A和左显示区域20B。该显示器可以是虚拟现实或增强现实显示器。通过控制这些右显示区域20A和左显示区域20B上显示的图像，全息图50可以以在用户的眼睛看来位于物理环境9内距用户一定距离的方式被显示。如本文所使用的，全息图是通过在相应的左近眼显示器和右近眼显示器上显示左图像和右图像而形成的图像，该图像由于位于距用户一定距离处的立体效果而出现。通常，全息图通过虚拟锚点56来锚定到物理环境的地图，这些虚拟锚点根据它们的坐标被放置在地图内。这些锚点是世界锁定的，并且全息图被配置为被显示在相对于锚点计算的位置。这些锚点可以被放置在任何位置，但通常放置在存在可通过机器视觉技术来识别的特征的位置处。通常，全息图定位在距离这些锚点的预定距离内，例如在一个特定示例中定位在3米内。

在图1所示的配置中，在计算设备10上提供多个相机18，并且这些相机被配置为采集计算设备10的周围物理环境的图像。在一个实施例中，提供四个相机18，但是相机18的精确数量可以改变。在一些配置中，来自相机18的原始图像可以通过透视校正拼接在一起以形成物理环境的360度视图。通常，相机18是可见光相机。可以使用被动立体深度估计技术来比较来自两个或更多个相机18的图像，以提供深度估计。

除了可见光相机18之外，还可以提供深度相机21，其使用主动非可见光照明器23和非可见光传感器22来以定相或门控方式发射光并利用飞行时间技术估计深度，或者来以结构化图案发光并利用结构化光技术估计深度。

计算设备10通常还包括六自由度惯性运动单元19，其包括加速度计、陀螺仪以及可能的磁力计，其被配置为测量该计算设备在六个自由度上的位置，即x、y、z、俯仰、横滚和偏航。

由可见光相机18、深度相机21和惯性运动单元19采集的数据可以用于在物理环境9内执行同时定位和建图(SLAM)，从而产生包括重建表面网格的物理环境地图，并在物理环境9的地图内定位计算设备10。在六个自由度上计算计算设备10的位置，这对于在至少部分透明显示器20上显示世界锁定的全息图50是重要的。在没有计算设备10的位置和方向的准确识别的情况下，显示在显示器20上的全息图50可能看起来相对于物理环境轻微移动或振动，而此时它们应该保持在原位，处于世界锁定位置。该数据还可用于在计算设备10开启时重新定位该计算设备，该过程涉及：确定该计算设备在物理环境的地图内的位置，以及将适当的数据从非易失性存储器加载到易失性存储器以显示位于物理环境内的全息图50。

IMU 19测量计算设备10在六个自由度上的位置和方向，并且还测量加速度和旋转速度。这些值可以被记录为姿态图以帮助跟踪显示设备10。相应地，即使在几乎没有视觉提示来实现视觉跟踪的情况下，例如在照明不良的区域或无纹理的环境中，加速度计和陀螺仪也仍然可以在没有视觉跟踪的情况下实现显示设备10的空间跟踪。显示设备10中的其他组件可以包括但不限于扬声器、麦克风、重力传感器、Wi-Fi传感器、温度传感器、触摸传感器、生物识别传感器、其他图像传感器、眼睛注视检测系统、能量存储组件(例如电池)、通信设施，等等。

在一个示例中，该系统可以利用眼睛传感器、头部方向传感器或其他类型的传感器和系统来聚焦于视觉跟踪、眼睛震颤、聚散度、眼睑闭合或眼睛的聚焦位置。眼睛传感器可以包括能够感测至少一只眼睛的垂直和水平运动的相机。可能存在感测俯仰和偏航的头部方向传感器。该系统可以利用傅里叶变换来生成垂直增益信号和水平增益信号。

该系统可以包括用于检测用户脑电波状态的脑电波传感器和用于感测用户心率的心率传感器。脑电波传感器可以被实现为带子，以便与用户的头部接触，或者可以作为单独组件被包括在耳机或其他类型的设备中。心率传感器可以被实现为附接到用户身体的带子，以便检查用户的心率，或者可以被实现为附接到胸部的传统电极。脑电波传感器400和心率传感器500计算用户当前的脑电波状态和心率，使得控制器可以根据用户的当前脑电波状态或心率来确定脑电波感应的顺序和再现音频的速度。并且将该信息提供给控制单元200。

该系统可以包括眼动跟踪系统。头戴式显示设备(HMD)可以从至少一个相机收集原始眼睛运动数据。该系统和该方法可以利用该数据来确定乘员眼睛的位置。该系统和该方法可以确定眼睛位置以确定乘员的视线。

因此，该系统包括多种模式，用作连接到该系统的输入接口。输入接口可以允许用户控制某些视觉界面或图形用户界面。例如，输入接口可以包括按钮、控制器、操纵杆、鼠标或用户移动。在一个示例中，向左点头可以向左移动光标，或者向右点头可以向右移动光标。IMU 19可以被用于测量各种运动。

图2示出了界面的示例键盘布局。如图2所示，该系统可以将QWERTY键盘分为3个部分，左侧部分203；中间部分205；和右侧部分207，这三个部分可以是供用户在粗略选择中进行交互的大区域。这三个粗略区域可以被依次划分为附加的三个部分，例如左侧-中间-右侧子部分。然而，可以使用任何字符组和任何子部分。在一个示例中，用于英语的一种这样的粗略-n-精细分组是让粗略组成为键盘上从左到右的三个精细组的集合({qaz,wsx,edc}组203、{rfv,tgb,yhn}组205、{ujm,ik,olp}组207)，并且让QWERTY键盘的每一列成为其自己的精细组，例如(qaz,wsx,edc,rfv,tgb,yhn,ujm,ik,olp)。因此，每个组可以包括列的子集。

用户可以通过首先选择单词的字母所属的粗略组然后选择该字母所属的精细组来输入该字母。例如，如果用户想要输入“h”，则选择粗略组，则精细组是右侧的。因此，在本公开的实施例中，用户可以针对每个字母输入做出两种选择。

因为每个精细组都可以与粗略组相关联，所以选择粗略组缩小了精细组的选择空间。因此，精细组可以是与粗略组子集相关联的子集。对于示例分组，单独选择每个精细组可能需要九个选项(例如，诸如T9键盘)，而选择一个粗略组和一个精细组需要六个选项：在一个实施例中，三个用于选择粗略组，并且另外三个用于在所选择的粗略组内选择精细组。当交互程度有限时，例如当物理控制器上的空间有限时，这可能是有利的。粗略部分之间的间距以及键盘的尺寸(距用户的距离)也可以由用户来调整以适应他们的偏好。因此，布局211是替选的键盘布局的实施例。

在一个实施例中，用户可以使用单个设备来执行字母选择。在另一实施例中，用户还可以使用诸如控制器、按钮、操纵杆和触控板那样的多个设备来进行选择。

图3A公开了对粗略区域的选择。例如，用户可以注视中间粗略区域。HMD上的眼动跟踪检测这样的选择并且然后对区域305进行突出显示。HMD上的眼动跟踪可以检测这样的选择并且对该区域进行突出显示。突出显示可以包括改变颜色、样式、尺寸(例如，增加尺寸/减小尺寸)、斜体、粗体或任何其他项目。可以利用阴影来最小化键盘的不相关部分，也可以利用其他样式。这些可以包括改变颜色、样式、尺寸(例如，增大尺寸/减小尺寸)、阴影、斜体、粗体或任何其他项目。

图3B公开了响应于用户输入的界面的示例。例如，如果用户随后将头部向右倾斜，则可以执行精细选择。如图所示，字母“o”、“p”和“l”可以被突出显示以供选择。相反，字母“u”“i”“j”“k”和“m”可以被淡化。在另一示例中，用户可以首先注视中间粗略区域。然后用户可以向右倾斜头部以执行精细选择，如图所示。在一个实施例中，如果HMD不具有眼动跟踪，则可以仅由移动设备来进行粗略和精细选择。以操纵杆为例，用户可以先点击键盘的中部以选择中间的粗略区域，并且然后用户可以向右推动以执行精细选择。

“精细”选择的最终选择可以是一组三个或两个字符，但可以是任意数量的字符(例如，四个字符或五个字符)。在一个示例中，“粗略”选择可以意味着在三个区域(例如，左侧区域、中间区域和右侧区域)之间的选择。接下来，一旦选择了粗略选择的区域，就可以继续进行“精细”选择以选择所选区域中的行。每个区域内可以有三行。例如，“e,d,c”是左侧区域的右行。请注意，在右侧区域，三行可以分别是“u,j,m”、“i,k”和“o,l,p”。

该系统将会相应地在屏幕上的单词列表部分列出可能的单词(可以根据语言模型来选择可能的单词)。在大多数情况下，用户可以在单词列表中看到建议/预测的单词(例如，他/她想要输入的单词)，并选择该单词。例如，如果用户想要输入“we”，则用户可能只需要选择“w,s,x”和“e,d,c”行，界面就可以在待选择的建议部分中输出“we”一词。因此，该系统可以基于对一组字符(例如，不是单个字符)的选择来预测单词。例如，这可能包括一组两个或三个字符。

在另一示例中，在用户无法在单词列表中找到想要的单词的情况下，用户可以切换到三步输入方法，该三步输入方法在上述步骤2之后使用额外的步骤来选择字符，即明确告知该系统在一行中选择哪个字符。

图4示出了使用中的虚拟界面的示例。虚拟界面可以包括文本字段403。用户还可以通过多个设备进行选择。例如，用户首先注视中间的粗略区域，然后向右滑动该中间的粗略区域以执行精细选择(图3)。精细选择409可以包括键盘的字符的有限子集，诸如如图4所示的8个字符。此外，该界面可以包括单词建议字段405。如下文进一步讨论的，单词建议405(例如，“OK”、“pie”、“pi”、“lie”、“oil”)可以基于之前在文本字段中的输入、例如下图中的“invented for”。

输入接口可以包括移动设备，该移动设备包括但不限于控制器、操纵杆、按钮、环、眼动跟踪传感器、运动传感器、生理传感器、神经传感器和触控板。表1是多设备交互的组合。手势和头部姿势也可以在粗略-n-精细(Coarse-n-Fine)键盘中使用。表1如下所示：

类型	粗略选择	精细选择
			单个设备	HMD上的眼动跟踪	HMD上的IMU
多个设备	HMD上的眼动跟踪	移动设备上的IMU
			多个设备	HMD上的眼动跟踪	移动设备上的信号
单个设备	移动设备上的信号	移动设备上的信号
			无设备	HMD上的眼动跟踪	手势/头部姿势

表1是一个示例，而任何模式都可以用于第一粗略选择，并且任何模式可以用于任何精细选择。例如，可以利用远程控制设备来进行粗略选择和精细选择。此外，针对任一选择或针对两种选择可以使用相同或不同的模式。

图5公开了用于单词建议的用户界面的实施例。该界面可以包括文本字段501、建议字段503和键盘界面505。用户试图输入的单词可能是不明确的，因为每个精细组包含多个字母。用户可能需要执行单词级别选择。该系统可以在打字界面上提出单词建议组件。该系统可以将单词建议组件放置在文本输入字段和键盘之间。该系统还可以划分相同的三个粗略部分，这些粗略部分可以在打字时通过相同的粗略选择交互方法来触发。还可以使用第二精细选择，但是代替左侧-中间-右侧精细选择，单词选择可以通过上下精细选择来进行，以将单词选择与字符3元语法(3-gram)选择区分开。当然，可以使用任意数量的精细选择。

图6示出了界面上的单词建议的实施例。这样的示例可以包括可用来提供单词建议的多种方法。该系统可以包括虚拟界面600。该界面可以包括文本字段601，其中字母和单词在被用作输入/输出之前被呈现。在一个示例中，可以基于先前的输入来建议预测的单词603。该系统可以利用语言模型(LM)，该语言模型是估计给定文本上下文的单词的概率分布的模型。例如，在用户输入一个或多个单词之后，可以使用语言模型来估计单词作为下一个单词出现的概率。

最简单的LM之一可能是n元语法(n-gram)模型。n元语法是n个单词的序列。例如，双元语法可以是两个单词的单词序列，例如“请翻动”、“翻动您的”或“您的作业”，而三元语法可以是三个单词的单词序列，例如“请翻动您的”或“翻动您的作业”。在文本语料库(或类似模型)上进行训练之后，n元语法模型可以在给定前n-1个单词的情况下预测下一个单词的概率。可以应用更高级的语言模型，例如基于预先训练的神经网络的模型，以基于较长的单词历史(例如，基于所有先前的单词)生成下一个单词的更好的概率估计。

在一项公开内容中，利用某些语言模型，该系统可以在给定现有输入和字符的情况下预测下一个单词。如图6所示，在用户键入“is”并选择左侧区域/区域607之后，该系统可以建议单词“a”、“as”、“at”的列表，因为它们很可能是下一个单词。因此，简单地选择一个单词可以减少键入单词的步骤。该系统还可以基于上下文信息来提供建议，例如一天中的时间、通讯录、电子邮件、文本消息、聊天历史、浏览器历史等。例如，如果用户想要回复消息并键入“我在会议室303。”，设备可以检测用户的位置并在用户键入“会议室”后提示“303”。

图7A公开了显示麦克风图标和具有空文本字段的虚拟键盘的用户界面的实施例。对于这三个步骤中的每一个步骤，可以提供多种方法供用户选择。在第一步骤中，允许用户输入文本语句并在虚拟/增强现实设备上显示所输入的语句的任何方法(例如，基于虚拟键盘的文本输入、基于语音的输入、基于手指/手部运动的输入)都可以作为一种支持的语句输入方法被包含在该系统中供用户选择。在这样的实现方式中，可以提供基于虚拟键盘的输入方法和基于语音的输入方法。基于虚拟键盘的输入方法可以以多种方式来实现。在这样的实施例中，该系统可以利用“粗略”和“精细”虚拟键盘来进行文本输入。对于基于语音的输入方法，用户可以通过简单地说出一个或多个文本语句来输入该/这些语句。语音信号可以由与虚拟/增强现实设备相关联的麦克风来收集，并且然后由本地或基于云的自动语音识别(Automatic Speech Recognition，ASR)引擎来处理。然后，所识别出的一个或多个文本语句(例如，ASR结果)将在虚拟/增强现实设备的显示界面上被显示(被显示给用户)。用户可以通过多种方式来选择基于虚拟键盘的输入方法或者基于语音的输入方法。在一个实现方式中，在虚拟/增强现实设备的显示器上的虚拟键盘上方显示麦克风图标，如图1所示，并且可以通过眼睛注视来进行方法选择。用户可以通过观看麦克风图标来选择基于语音的输入方法，或者通过观看所显示的虚拟键盘区域来选择基于虚拟键盘的输入方法。在其他实现方式中，也可以使用手势、按钮选择等来在这两种方法之间进行选择。

图7A可以包括文本字段701，该文本字段显示通过键盘703或诸如麦克风/语音输入之类的另一模式所输入的给定文本。该系统可以显示麦克风图标和虚拟键盘，以供用户基于虚拟键盘输入方法或者通过眼睛注视来选择语音。例如，该文本字段可以从利用键盘703的输入接收字符或语句，该键盘可以通过多个输入接口(例如触摸屏、移动设备、眼睛注视、虚拟键盘、控制器/操纵杆)来被控制。在另一实施例中，文本字段701可以利用来自麦克风的语音识别输入并且利用VR引擎来接收输入。

图7B公开了显示麦克风图标和具有输入语句的虚拟键盘的用户界面的实施例。该界面可以包括文本字段701，该文本字段显示通过键盘703或诸如麦克风/语音输入之类的另一模式所输入的给定文本。然而，与图7A中为空相反，该系统可以在文本字段701中包含文本或字符704。因此，下一步骤可以是用户经由第一模式来输入文本704，该第一模式可以包括任何类型的接口(例如，语音、声音、虚拟键盘、操纵杆、眼睛注视等)。在第二步骤中，所输入的一个或多个语句704显示在虚拟/增强现实设备的显示器上，用户可以通过多种可能的方式或模式来选择所要编辑的单词(例如，编辑单词705)，并且所选择的单词705可以在显示器上被突出显示以供稍后进一步处理。在一个实现方式中，用户可以利用眼睛注视来捕捉用户可能对编辑哪个语句或单词感兴趣。如果用户观看一个语句的时间段长于阈值时间段(例如，阈值A)，则该系统可以切换到编辑模式。阈值时间可以是任何时间段，例如一秒、两秒、三秒等。用户正在看的语句将被用块来强调(如图7B所示)，并且该语句中间的单词将被自动突出显示705。然后，用户可以使用左/右手势或按压手持式设备(例如控制器/操纵杆)或虚拟输入接口上的左/右按钮来将突出显示的区域切换到焦点语句中左/右的单词。用户可以连续地左/右移动突出显示的区域，直到所要编辑的目标单词被突出显示为止。

当单词被突出显示的时间长于阈值时间(例如阈值时间B)时，该单词可以被视为所选择的所要编辑的单词。因此，该系统可以允许进一步的步骤来编辑该单词(例如，选择建议的单词或手动输入单词)并且允许另一步骤，该另一步骤允许进行这样的编辑。在一个示例中，一旦进行对该单词的编辑，所编辑的单词就可以保持突出显示，并且用户可以使用左/右手势/按钮来移动到所要编辑的下一个单词。如果在比第三阈值或超时(例如时间阈值C)更长的时间段内没有检测到手势或按钮按压，则认为编辑任务完成。在另一实现方式中，该系统可以直接利用用户的眼睛注视，以通过简单地观看单词达长于第四阈值(例如阈值D)的时间段来选择/突出显示所要编辑的每个单词。

图7C公开了显示所建议的单词和利用所建议的单词来编辑语句的用户界面的实施例。在单个单词编辑期间，该系统可以继续启用编辑功能以供用户使用。一旦确定了所要编辑的单词(例如，突出显示的单词)，该系统(可选地)就可以首先生成替选的高概率单词的列表，这些单词在特定语言模型(例如，n元语法(n-gram)语言模型、BERT、GPT2等等)的帮助下基于语句上下文以及其他可用知识(例如，如果语句是通过语音输入的，则是语音特征)来被计算/排序，并且该列表显示在虚拟/增强现实设备的显示器的区域，如图7D所示。如果用户在替选项的列表中看到所期望的单词，则该用户可以直接选择该单词作为所要编辑的单词的编辑结果。可以通过多种可能的方式来选择列表中的所期望的单词。在一个示例中，一旦用户观看替选项的列表的区域，列表中的第一个单词(例如，基于语句上下文具有最高概率的单词)就可以被突出显示。然后，用户可以使用手势或按钮以与上面参考图7B所描述的类似的方式将突出显示移动到所期望的单词。如果替选项的列表中的单词被突出显示的时间段长于阈值时间(例如，阈值时间E)，则突出显示的单词将被视为编辑结果并且被选择。因此，这可以通过任何模式(例如，眼睛注视、操纵杆等)针对阈值时间段来被选择。然后，该系统可以相应地用编辑结果来更新文本语句，并且可以认为完成了对所关注的单词的校正/编辑。请注意，在此过程期间，每当用户将他/她的视线移动到替选项的列表的区域之外时，突出显示可以被隐藏，并且稍后一旦用户回看该区域，就可以重新激活突出显示。

图7D公开了包括弹出界面的用户界面的实施例。弹出窗口709可以包括要求记住校正/建议的单词的选项。用户可以通过第一界面710接受该选项或者通过第二界面711拒绝该选项。因此，如图7C所示，如果用户选择“是(YES)”710选项，则该系统可以添加单词“Jiajing”。如果用户选择“否(NO)”711选项，则该系统不会记住它。然后，该系统可以将所添加的单词(例如，“Jiajing”713)与来自用户的麦克风输入的相关联的声音进行协调。因此，交互式弹出窗口可以在附加学习机制中使用。当进行目标单词的编辑时，可以显示该窗口，并且用户可以收集用户的反馈，以便于从用户的编辑中学习，用于持续改进系统。

在这样的示例中，如果在特定系统实现方式中没有提供替选项或所建议的单词的列表，则所提出的解决方案进行到允许手动输入的另一步骤，从而向用户提供多种方法以供选择，以便输入一个或多个单词作为编辑结果。允许用户输入一个或多个文本单词并且用一个或多个所输入的单词来替换所要编辑的目标单词(例如突出显示的单词)的任何方法(例如，基于虚拟键盘的文本输入、基于语音的输入、基于手指/手部运动的输入)都可以作为一种支持的输入方法被包含在该系统中供用户选择。在一个示例中，类似于图7A所显示的设计，该系统可以支持基于粗略-n-精细虚拟键盘的输入方法和基于语音的输入方法——图7C的步骤，以让用户输入一个或多个新单词来替换文本语句中的所要编辑的目标单词。尽管在该示例中，由于该系统已经进入编辑模式(例如，所要编辑的单词已经被突出显示)，所以用户可能不需要观看麦克风图标来选择基于语音的输入方法。如果(1)从麦克风检测到用户的语音并且(2)用户没有进行基于虚拟键盘的输入，则该系统可以自动选择语音模式。用户可以通过观看在虚拟/增强现实设备的显示器上显示的虚拟键盘区域来选择基于虚拟键盘的输入方法，并且使用虚拟键盘来输入一个或多个单词。因此，如果提供了替选项或所建议的单词但是该列表不包括用户想要的词，则用户可以继续使用任何模式来编辑所选择的单词。因此，在一个实施例中，在用户选择所要编辑的单词之后，在大多数情况下(如果不总是这样的话)，该系统将生成供用户选择的替选单词的列表。用户可能会也可能不会在所建议的单词的列表中看到所期望的单词。如果所期望的单词在列表中，则用户可以直接选择所建议的这个单词。否则，如果列表不包括所期望的单词，则用户使用优选的模式(虚拟键盘、语音、任何模式等)来输入所期望的单词以进行编辑。

本公开还允许替选实施例来支持用于选择所建议的单词的附加学习机制。在这样的实施例中，在用户的通过附加的HMI(即，人机交互)设计的帮助下，学习机制可以试图避免相同系统错误的重复发生(例如，ASR引擎对于基于语音的文本输入来说错误地将一个名称识别为另一个名称)。这种学习机制可以用各种机器学习算法来实现。在这样的实施例中，该系统可以利用基于每个所编辑的单词的类型的学习策略，(1)考虑可用的环境知识(例如，用户通讯录中的联系人姓名、电子邮件、文本消息、聊天历史和/或浏览器历史、一天中的时间、一周中的哪一天、月份等)以及(2)在必要时从附加的HMI设计中收集用户的确认。当对输入语句的编辑完成时，该系统可以首先采用命名实体识别器(Named EntityRecognizer，NER)来检测语句的编辑区域中的不同类型的名称。例如，在通过语音识别(例如通过基于语音的输入方法)获得的输入语句“send charging a message(向charging发送消息)”(如图7C所示)中，用户将语音识别错误“charging”编辑为正确的名称“Jiajing”，然后，NER可以将“Jiajing”识别为人名。请注意，NER可以被设计/训练来检测对目标应用程序重要的通用名称(例如，人名、城市名称)和/或特定于任务的名称(例如，机器代码)。然后，一旦检测到名称，该系统就可以检查所检测到的名称是否与环境知识一致(例如，人名是否包括在用户的联系人列表中)。如果这为真，则该系统可以确定这样的名称是重要的。否则，该系统可以弹出一个小的交互窗口(如图7C所示)来询问用户是否应该记住这样的名称。如果用户回答“是(yes)”，则该名称也将被视为重要。最后，对于每个被认为重要的名称(例如“Jiajing”)，该系统可以借助其所检测到的名称类型(例如人名)继续更新该系统中的相关模型(例如各种输入方法中所涉及的语言模型)，以提高将来在第一步骤(例如输入文本语句)中可以正确输入名称的几率(例如提高通过语音输入方法可以直接识别出“Jiajing”的几率)。所要更新的模型可以存储在本地或远程存储在云中或以混合方式存储，而更新方法可以直接修改模型参数(例如，在n元语法(n-gram)语言模型中为“Jiajing”分配与“Jessica”相同的概率)或者利用后处理过程来修改模型输出(例如，在给定适当的上下文的情况下直接将“charging”更改为“jiajing”)。

通过在每个步骤中给出的所有输入模式的选择，用户可以被允许根据使用场景自由地为每个步骤选择所期望的方法，使得系统可用性和文本输入效率的最大化成为可能。每种模式(例如输入接口)都有其自身的优点和缺点。例如，基于语音的输入方法一般来说是高效的，但它可能无法在高度嘈杂的环境中工作，它可能无法识别不常见的名称/术语，并且可能不适合在公共场所输入机密消息。同时，基于虚拟键盘的输入方法可能效率相对较低，但它可以很好地处理机密消息的输入以及不常见的名称和术语的输入。由于可以自由选择各种输入模式，因此用户可以在真实应用场景中根据每一步骤的需要来选择合适/适当的输入/编辑方法。例如，当不关心隐私并且环境噪音低时，用户可以选择使用语音输入(例如，选择麦克风来通过语音输入语句)。在发生语音识别错误(例如，未能识别像“Jiajing”这样的不常见的名称)的情况下，用户可以通过使用虚拟键盘或任何其他输入模式键入正确的单词来编辑错误的单词。在另一种情况下，当隐私是一个问题时，用户可以选择使用虚拟键盘来输入语句。在用户想要校正或更改所输入的语句中的单词的情况下，用户可以通过简单地说出所期望的单词来编辑该单词，特别是在该单词对隐私不敏感的情况下。请注意，通过使用虚拟/增强现实设备，环境场景可能会不时发生变化。下面的公开内容使得用户能够在特定使用情况下总是选择合适的输入和编辑方法的组合，以满足用户的需要并且使文本输入效率最大化。

虽然上文描述了示例性实施例，但是并不意味着这些实施例描述了权利要求书所涵盖的所有可能的形式。说明书中使用的词语是描述性的词语而不是限制性的，并且应当理解，在不脱离本公开的精神和保护范围的情况下可以做出各种改变。如前所述，各种实施例的特征可以被组合以形成本发明的可能未明确描述或示出的其它实施例。虽然各种实施例可能已被描述为就一个或多个所期望的特性而言提供优点或者优于其他实施例或现有技术实现方式，但本领域技术人员认识到，可以对一个或多个特征或特性进行折衷，以实现所期望的整体系统属性，这取决于具体的应用和实现方式。这些属性可以包括但不限于成本、强度、耐久性、生命周期成本、适销性、外观、包装、尺寸、适用性、重量、可制造性、组装简易性等。因此，尽管一些实施例被描述为就一个或多个特性而言不如其他实施例或现有技术实现方式那么理想，但是这些实施例并没有超出本公开的保护范围并且对于特定应用来说可能是理想的。

Claims

1.一种包括用户界面的系统，所述系统包括：

与显示器和输入接口通信的处理器，所述处理器被编程为：

在所述显示器上输出包括键盘布局的所述用户界面，其中，所述键盘布局包括至少一个含有字符集合的键盘；

响应于来自所述输入接口的第一输入，输出与所述键盘布局的字符的第一子集相关联的所述键盘布局的第一部分，其中，所述第一子集不包括所有字符；

响应于来自所述输入接口的第二输入，选择字符的第二子集，其中，字符的所述第二子集来自并且包括比字符的所述第一子集少的字符，并且所述第二子集包括两个或更多个字符；而且

基于对所述第二子集的选择，在与所述用户界面相关联的文本字段上输出字符。

2.根据权利要求1所述的系统，其中，所述第一部分突出显示字符的所述第一子集并且遮蔽所述键盘的所有其他字符。

3.根据权利要求1所述的系统，其中，所述第一输入和所述第二输入来自不同类型的输入接口。

4.根据权利要求1所述的系统，其中，所述处理器还被编程为：响应于来自所述输入接口的第三输入，从字符的所述第二子集中选择并输出所选择的单个字符。

5.根据权利要求1所述的系统，其中，所述输入接口包括眼睛注视传感器、运动传感器、生理传感器、生物识别传感器、神经传感器、脑电波监测传感器或控制器。

6.根据权利要求1所述的系统，其中，字符的所述第二子集包括三个或四个字符。

7.根据权利要求1所述的系统，其中，所述键盘布局的所述第一部分是三组字符中的一组的分组，其中，所述三组中的每一组均与不同字符的子集相关联。

8.根据权利要求1所述的系统，其中，所述字符包括字母、数字、符号或单词。

9.根据权利要求1所述的系统，其中，来自所述输入接口的所述第一输入与所述用户界面的用户的眼动跟踪相关联，并且来自所述输入接口的所述第二输入与手持式控制器相关联。

10.根据权利要求1所述的系统，其中，字符的所述第二子集与字符的所述第一子集部分重叠。

11.根据权利要求1所述的系统，其中，所述用户界面包括文本字段部分和建议字段部分，其中，所述建议字段部分被配置为：响应于与所述用户界面相关联的上下文信息，输出预测的单词。

12.根据权利要求11所述的系统，其中，在所述文本字段上输出第三选择。

13.一种虚拟现实设备，所述虚拟现实设备包括：

显示器，被配置为输出用户界面，

输入接口，

与所述显示器和所述输入接口通信的处理器，所述处理器被编程为：

响应于来自所述输入接口的第一输入，在所述显示器处突出显示与所述键盘布局的字符的第一子集相关联的所述键盘布局的第一部分，其中，所述第一子集不包括所有字符输入；

响应于来自所述输入接口的第二输入，突出显示字符的第二子集，其中，字符的所述第二子集包括来自所述第一子集的两个到四个之间的剩余字符；而且

选择并在所述显示器处输出字符的所述第二子集的字符之一。

14.根据权利要求13所述的虚拟现实设备，响应于来自所述输入接口的第三选择，选择并在所述显示器处输出来自字符的所述第二子集中的所选择的单个字符。

15.根据权利要求13所述的虚拟现实设备，其中，在所述显示器处输出包括：在与所述用户界面相关联的文本字段处输出。

16.一种用户界面，所述用户界面包括：

文本字段部分；

建议字段部分，其中，所述建议字段部分被配置为响应于与所述用户界面相关联的上下文信息来显示预测的单词；

键盘布局，其中，所述键盘布局包括至少一个含有字符集合的键盘，所述字符集合被配置为响应于从输入接口接收输入而在所述文本字段部分处显示，

其中，所述用户界面被配置为：

响应于来自第一输入接口的第一输入，输出与所述键盘布局的字符的第一子集相关联的所述键盘布局的第一部分，并且遮蔽来自所述字符集合中的剩余字符，其中，所述第一子集不包括所有字符；

响应于来自第二输入接口的第二输入，从所述第一部分选择并突出显示字符的第二子集，并且在所述文本字段部分处输出一个或多个预测的单词，其中，字符的所述第二子集来自所述第一子集，但是并不包括所述第一子集的所有字符。

17.根据权利要求16所述的用户界面，其中，所述第一输入接口、所述第二输入接口和第三输入接口都是相同的接口。

18.根据权利要求16所述的用户界面，其中，所述键盘布局的所述第一部分包括不超过9个字符。

19.根据权利要求16所述的用户界面，其中，所述第一输入接口、所述第二输入接口和第三输入接口都是不同的接口。

20.根据权利要求16所述的虚拟现实设备，其中，所述接口还被配置为：响应于来自第三输入接口的第三选择，i)在所述建议字段部分处选择所预测的单词或者ii)输出来自字符的所述第二子集中的所选择的字符。