CN107209552A

CN107209552A - 基于凝视的文本输入系统和方法

Info

Publication number: CN107209552A
Application number: CN201580059287.8A
Authority: CN
Inventors: P·O·克里斯滕松; K·韦尔塔宁; M·米耶尔德
Original assignee: Toby Joint-Stock Co
Current assignee: Hear Technology Co.,Ltd.
Priority date: 2014-09-02
Filing date: 2015-09-02
Publication date: 2017-09-26
Anticipated expiration: 2035-09-02
Also published as: ES2788872T3; CA2970035C; CA2970035A1; US10551915B2; EP3189398B1; EP3189398A1; US20190073026A1; WO2016036862A1; CN107209552B; US10082864B2; US20160062458A1

Abstract

根据本发明，公开了一种用于使用来自用户的凝视输入来向计算设备中录入文本的方法。该方法可以包括使得显示设备显示多个文字的视觉表示。方法还可以包括接收标识用户的凝视在视觉表示上的移动的凝视信息。方法还可以包括记录在用户的凝视在视觉表示上的移动期间发生的一个或多个观察事件的观察序列。方法此外可以包括向解码器模块提供观察序列。解码器模块可以从观察序列确定表示用户的意图文本的估计的至少一个词语。

Description

基于凝视的文本输入系统和方法

对相关申请的交叉引用

本申请要求享有2014年9月2日提交的题为“GAZE BASED TEXT INPUT SYSTEMS ANDMETHODS”的临时美国专利申请号62/044,817的优先权，该美国专利申请的整个公开内容由此通过引用出于全部目的而被并入，如同在本文中完整阐述一样。

背景技术

本发明一般地涉及用于基于凝视的文本输入的系统和方法，并且特别地，涉及用于利用凝视来基于指示选择文字的期望的用户的凝视而提供文本输入的系统和方法。

向计算设备提供文本输入对于高效的人类计算机交互是关键的要求。传统上，文本输入通过键盘的方式来提供，或者在使用触摸屏的计算设备的情况下可以使用屏幕上键盘。这些方案全部要求由用户在设备上进行物理接触。

在一些实例中合期望的是一种提供用于向计算设备输入文本的部件，据此与设备或其它输入部件的物理接触不是必需的。这可以用于其中用户不掌握他或她的手的控制或者其中用户不能够在他们正在使用其手部以用于另一目的时接触设备的示例。一种可能的解决方案是使用语音识别软件，该软件允许用户可听地传送其输入。

关于该方案的问题包括，其可能过于缓慢而不是方便的，可能要求在其使用之前的语音识别算法的广泛训练，或者可能不可用于还具有语音障碍直至并且包括哑音（muteness）的用户，这阻碍这样的软件正常工作或者作为无论什么选项。因此，语音识别软件可能不提供向计算设备提供文本输入的有用和/或可靠的方法。

虽然使用基于凝视的文本输入的基本方法是可用的，但是它们可能遭受缓慢或不准确性。本发明的实施例可以提供对前述问题中的至少一些的解决方案。

发明内容

在一个实施例中，提供了一种用于使用来自用户的凝视输入来向计算设备中录入文本的方法。该方法可以包括使得显示设备显示多个文字的视觉表示。方法还可以包括接收标识用户的凝视在视觉表示上的移动的凝视信息。方法还可以包括记录在用户的凝视在视觉表示上的移动期间发生的一个或多个观察事件的观察序列。方法此外可以包括向解码器模块提供观察序列。解码器模块可以从观察序列确定表示用户的意图文本的估计的至少一个词语。

在另一实施例中，提供了一种用于使用来自用户的凝视输入来向计算设备中录入文本的系统。该系统可以包括眼睛追踪设备、显示设备和计算设备。计算设备可以配置成至少使得显示设备显示多个文字的视觉表示。计算设备还可以配置成接收标识用户的凝视在视觉表示上的移动的凝视信息。计算设备还可以配置成记录在用户的凝视在视觉表示上的移动期间发生的一个或多个观察事件的观察序列。计算设备此外可以配置成向解码器模块提供观察序列。解码器模块可以从观察序列确定表示用户的意图文本的估计的至少一个词语。

在另一实施例中，提供了一种具有存储在其上的指令的非暂时性机器可读介质，所述指令用于使用来自用户的凝视输入来向计算设备中录入文本。指令可以由一个或多个处理器可执行以用于使得显示设备显示多个文字的视觉表示。指令还可以可执行以用于接收标识用户的凝视在视觉表示上的移动的凝视信息。指令还可以可执行以用于记录在用户的凝视在视觉表示上的移动期间发生的一个或多个观察事件的观察序列。指令此外可以可执行以用于向解码器模块提供观察序列。解码器模块可以从观察序列确定表示用户的意图文本的估计的至少一个词语。

附图说明

结合随附各图来描述本发明：

图1是其中可以实现本发明的系统和方法的一个环境的表示；

图2是用于经由通过用户的凝视输入而向计算设备中录入文本的本发明的各种实施例的一个显示屏；

图3是用于校正经由图2的显示屏录入的文本的本发明的各种实施例的另一显示屏；

图4是用于经由通过用户的凝视输入而向计算设备中录入本文的本发明的一个方法的流程图；

图5是用于确定是否提供用于校正之前所录入的文本的显示屏的本发明的一个方法的流程图；

图6是用于校正之前录入的文本的本发明的一个方法的流程图；

图7是能够被使用在本发明的装置或系统的至少某个部分中或者实现本发明的方法的至少某个部分的示例性计算机系统的框图；

图8是用于经由通过用户的多个类型的凝视输入（使得该类型指示不同的输入重要性水平）而向计算设备中录入本文的本发明的一个方法的流程图；以及

图9是用于确定之前录入的文本是否应当被添加到语言模型以增加附加录入的文本的精确性的本发明的一个方法的流程图。

在随附各图中，类似的组件和/或特征可以具有相同的数字参考标签。另外，相同类型的各种组件可以通过在参考标签之后跟随在类似组件和/或特征之中做出区分的字母来区分。如果仅第一数字参考标签使用在说明书中，则描述适用于具有相同的第一数字参考标签的类似组件和/或特征中的任何一个，而与字母后缀无关。

具体实施方式

随后的描述仅提供示例性实施例，并且不意图限制本公开的范围、适用性或配置。而是，示例性实施例的随后描述将为本领域技术人员提供用于实现一个或多个示例性实施例的能够实现的（enabling）描述。要理解的是，可以在元件的功能和布置中做出各种改变而不脱离如在随附权利要求中阐述的本发明的精神和范围。

例如，关于一个实施例讨论的任何细节可以或可以不存在于该实施例的所有设想到的版本中。同样地，关于一个实施例讨论的任何细节可以或可以不存在于本文所讨论的其它实施例的所有设想到的版本中。最后，关于本文中的实施例的任何细节的讨论的缺失应当是这样的细节可以或可以不存在于本文所讨论的任何实施例的任何版本中的隐含认识。

在以下描述中给出具体细节以提供实施例的透彻理解。然而，将由本领域普通技术人员理解到的是，实施例可以在没有这些具体细节的情况下实践。例如，本发明中的电路、系统、网络、过程和其它元件可以被示出为采用框图形式的组件，以便不以非必要的细节使实施例模糊。在其它实例中，可以在没有非必要的细节的情况下示出公知的电路、过程、算法、结构和技术，以便避免使实施例模糊。

而且，要指出的是，各个实施例可以被描述为过程，该过程被描绘为流程图、流图、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程，但是操作中的许多可以并行或同时执行。此外，操作的次序可以重新布置。过程可以在其操作完成时终止，但是可以具有图中未讨论或包括的附加的步骤。另外，并非任何特定描述的过程中的全部操作都可能发生在所有实施例中。过程可以对应于方法、函数、进程、子例程、子程序等。当过程对应于函数时，其终止对应于函数向调用函数或主函数的返回。

术语“机器可读介质”包括但不限于，暂时性和非暂时性、便携式或固定存储设备、光学存储设备、无线信道和能够存储、包含或承载（多个）指令和/或数据的各种其它介质。代码段或机器可执行指令可以表示进程、函数、子程序、程序、例程、子例程、模块、软件包、类或指令、数据结构或程序陈述的任何组合。代码段可以通过传递和/或接收信息、数据、变元、参数或存储器内容来耦合到另一代码段或硬件电路。信息、变元、参数、数据等可以经由任何合适的手段来传递、转发或传输，该手段包括存储器共享、消息传递、令牌传递、网络传输等。

另外，本发明的实施例可以至少部分地手动或自动实现。手动或自动实现可以通过机器、硬件、软件、固件、中间件、微代码、硬件描述语音或其任何组合的使用来执行或至少被辅助。当实现在软件、固件、中间件或微代码中时，执行必要任务的程序代码或代码段可以存储在机器可读介质中。（多个）处理器可以执行必要的任务。

现在转向图1，示出一个系统100，系统100可以实现本发明的实施例。系统100可以包括计算设备110、显示设备120、传统输入设备130（键盘130a和鼠标130b）和眼睛追踪设备140。

虽然在该实施例中被示出为台式计算机，但是计算设备110在其它实施例中可以是任何类型的计算设备。仅仅作为示例，计算设备110可以是膝上型计算机、笔记本计算机、平板计算机、个人数据助理、移动设备、移动电话、智能手表或其它可穿戴电子器件等。在一些实施例中，系统100的各种其它组件可以与计算设备110集成。例如，平板计算机可以具有集成的显示设备120，以及键盘130a的触摸屏版本。

显示设备120可以能够如由计算设备110所引导的那样显示信息。如以上所讨论的，显示设备120可以与计算设备110集成或者与其分离。眼睛追踪设备140可以是任何形式的已知眼睛追踪设备，其允许用户的凝视方向的确定。眼睛追踪设备140可以利用计算设备110以用于处理信息以确定用户的凝视方向，或者眼睛追踪设备140可以直接执行所有的处理。

合适的眼睛追踪设备140的一个示例是基于红外的设备，其中朝向用户的一只或两只眼睛发射红外光，并且图像传感器捕获包括红外光的反射的用户的一只或两只眼睛的图像。这些图像的处理可以从红外光的一个或多个反射的位置和取向确定用户的凝视方向。这将被本领域技术人员所轻易地理解。眼睛追踪设备140可以配置成追踪用户相对于显示设备120的凝视方向。

现在转向图2，在本发明的一个实施例中，计算设备110可以使得显示设备120向用户显示文本录入接口200。接口200可以包括文字在显示器上的表示，例如屏幕上键盘210、输入终止区域220和消息窗口230。宽泛地说，本发明的系统和方法可以通过允许用户以用户希望拼写一个或多个词语的次序凝视显示在屏幕上键盘210上的文字处或其附近来起作用。在该示例中，用户已最近在按键处以使得之前已经录入了“这是测试。”的模式进行凝视，并且已较新地录入了“How are you”。最近录入的文本可以按照任何数目的方式来符号化（可能地通过高亮），并且在此被示出为虚线框240。

为了终止一个或多个词语（以下要理解的是包括数字、标点和任何其它文本输入）的输入，用户然后可以凝视在终止区域220处，从而命令计算设备110用户希望终止文本输入（至少暂时地）。以下将详细描述作为用于终止输入的手段的对用户凝视在终止区域220处的另外的可替换方案。当用户凝视在文字处时，或者在用户已经凝视在终止区域220处之后，由用户拼写的一个或多个词语可以显示在消息窗口230中。

接口200还可以包括设置图标240、语音识别输入图标250、退格图标260、可替换字符图标270、确认图标280和用户的当前凝视点的可视化290。每一个图标可以通过用户的凝视在其上的持续而被激活以导致某种效果。设置图标240可以使得设置接口被呈现以允许用户调节本发明的实施例的操作。语音识别输入图标250可以允许用户激活语音识别软件包以用于文本的输入。退格图标260可以允许用户删除最后录入的文字或词语。可替换字符图标270可以允许用户改变由屏幕上键盘210显示的字符。确认图标280可以允许用户确认最近录入的词语（经由虚线框240高亮）的确如用户意图被录入的那样。用户的当前凝视点的可视化290，虽然在此被示出为虚线X，但是可以取决于实施例而以其它方式呈现，并且可以或可以不总是被显示，这可能取决于用户的凝视在接口200的特定点或区域停留了多久。

在图3中示出本发明的各种实施例的第二接口300。错误校正接口300可以通过用户的凝视指向消息窗口230中的一个或多个词语来激活。一旦计算设备110确定检测到这样的凝视事件，接口300可以被显示以允许用户校正由用户误录入的或被计算设备110误解释的文本录入。

接口300可以包括一个或多个词语310，其在该位置处或者围绕其中用户在接口200的消息窗口230中凝视它们的位置。“+”标记320可以显示在词语310之间以便为用户提供凝视以向计算设备110指示他们希望在该位置处录入附加词语的地方。在一个或多个词语310下方，可以显示潜在更换词语330，如由计算设备110智能推测的，使得用户可以经由他们的凝视来选择它们以更换原始词语310。删除图标340（符号化为“X”或其它符号）可以允许用户删除给定词语310。

还可以提供取消图标350，使得用户可以利用其凝视取消任何校正的输入并且返回到接口200。接受图标360可以允许用户接受所作出的所有改变并且返回到接口200。

现在转向图4-6，将讨论采用系统100和接口200、300的发明的示例性方法400、500、600。当显示接口200时，方法400，在块410处，可以接收如由计算设备110和眼睛追踪设备140提供的与用户的凝视相关联的连续凝视数据。在块420处，凝视点可以可视化为图2中的凝视点290。在块430处，一个或多个“按键”（屏幕上键盘210上的文字或符号）可以被可视化以向用户指示计算设备110确定用户的凝视位于该位置处。

在块440处，监视用户在显示设备120上的凝视位置以得到观察事件的发生。观察事件在计算设备110（和/或眼睛追踪设备140，这将在以下提到计算设备110时被假定）确定用户的凝视已经注视在屏幕上键盘210上的字符上或附近时发生。观察事件可以基于以下特性中的任何一个或多个而发生：用户的凝视在一个或多个字符上或附近的注视；注视区的近似、注视的x、y坐标；注视的持续时间；注视的大小；基于像素或标准或度量距离等的测量的另一坐标系统；其它特性；以上的任何组合。

在块450处，记录观察事件并且将观察事件以串行方式与之前记录的观察事件组合，每一个所存储的事件可能包括与观察事件相关联的以上或更多特性中的任何一个。只要在块460处没有检测到终止事件，该过程就将重复，使得连续地记录所检测到的观察事件，直到发生结束观察序列的终止事件。

终止事件在块460处基于取决于实施例的任何一个或多个可能的事件而发生。一些示例，不作为限制，包括：在预定时间段内用户的凝视在终止区域220内的检测；用户隐含地通过超时（用户的凝视已经在固定量的时间内保持静止在显示器上的任何地方）来终止；用户通过看向显示器外部来转移目光；用户眨眼，单次眨眼或两次或更多次眨眼；用户做出诸如微笑或其它情感信号之类的面部姿势；用户对具体凝视姿势（例如凝视移动的组合）发音（articulate）以用于导致终止的预定/预定义的目的；计算设备110例如通过借由在已经接收到每一个凝视观察之后连续地计算该事件的概率（即做出终止已经发生的可能性的确定）而确定用户的凝视发音已经终止来推断终止；诸如键盘、鼠标、触摸屏等之类的触觉输入设备的激活；由用户做出的口头或其它声音；手部姿势、头部姿势或利用其它身体部分或物体的姿势；经由脑电图检测到的脑部信号等。

当块460处的终止时，方法400继续到块470，其中解码模块/算法从观察序列推测字符串（短语、句子等）。如以下将讨论的，解码模块可以使用数个方法来推测字符串，包括令牌传递解码器。当确定一个或多个推测后，在块480处可以在消息窗口230中显示一个或多个相关字符串。在具有反映用户所意图的字符串的合理几率的两个推测的情况下，两个字符串可以被显示以供用户选择（通过凝视注视或其它输入机制）。

然后可以按照方法400接收附加的凝视文本输入，但是在块510处，当再次接收到凝视数据并且在块520、530（类似于块420、430）处可视化时，在块540处等待所显示的字符串指示用户的期望字符串的确认。这可以通过用户将其凝视注视在确认图标280上而发生。在该情况下，方法返回到块410以等待另外的文本录入或文本录入接口的终止。然而，如果用户将其凝视注视在消息窗口230中的特定词语、文字或其它符号处，在块550处然后显示错误校正接口300。

在错误校正接口300中，显示由用户在接口200中注视在的字符或其它符号连同来自字符串的周围词语。解码模块可以推测为意图作为通过用户的正确输入的其它可能的词语、字符或符号的其它词语可以显示在所显示的原始推测的词语、字符或符号下方。跟随块610处的凝视数据的接收，在块620、630（类似于块420、430）处可视化，在块640处等待注视事件。用户可以在预定时段内注视在任何词语选项上以便选择最希望的词语。在块650处，这样的词语/字符/符号在事件发生时改变。如果用户希望删除词语、字符或符号，用户注视在与希望删除的词语、字符或符号相关联（在其下方）的删除图标340上。如果用户希望插入新的词语，用户注视在插入图标44上。词语可以由用户使用“+”标记320来添加。用户的凝视在“+”标记320上的注视可以导致与被提供用于文本录入的接口200相同或类似的接口。可替换地或同时，可替换输入设备，诸如鼠标、键盘等，可以用于录入或校正词语（每当在本文中描述添加和/或校正时）。这些校正可以继续发生，直到不同类型的注视事件发生在块660处。

在块660处，等待用户的凝视在取消图标350或接受图标360上的注视。如果这样的注视不发生，则方法600重复直到用户已经做出用户希望做出的所有校正。如果取消图标350上的注视发生，则方法返回到块410而没有字符串的校正。如果接受图标360上的注视发生，则方法返回到块410，其中由用户对字符串做出的校正完成并且显示在消息窗口230中。

现在聚焦在解码器模块上，这样的模块是将包括至少一个观察事件的观察序列视为输入的软件程序。解码器输出一系列文本（其最通常形成句子等），该文本表示用户所意图的文本系列的估计。

在本发明的一个实施例中，解码器被实现为令牌传递解码器，据此令牌包括三个信息项：目前为止累积的日志空间中的概率（log-prob）、词语和字符语言模型的上下文，以及令牌在观察序列中的位置。这样的令牌传递解码器对于本领域技术人员将是熟悉的，并且其关于本发明的实施例的操作现在将同样变得明显。关于令牌传递解码器的另外的信息可以在Young, S., Russel, N.H和Thornton的J.H.S. 1989，“Passing: A SimpleConceptual Model for Connected Speech Recognition Systems”，技术报告，剑桥大学工程系中找到，该文献通过引用出于全部目的而被并入，如同在本文中完整阐述一样。

每一个令牌表示推测：可能是用户的意图文本的文字序列。当令牌已经看到观察序列中的所有观察时终止令牌。解码器将经由终止的令牌集合来输出推测集合。最可能的推测对应于最可能对应于用户的意图文本的文字序列。

为了计算概率，可以使用两个模型，第一个是键盘模型，其在给定推测文字的情况下计算观察的可能性。键盘模型向每一个按键上指派一个或若干分布，例如二维高斯分布、非参数分布、高斯过程。键盘模型分布用于在给定观察中的X和Y位置的情况下计算可能性。当前实现的系统向每一个按键上指派二维高斯分布。

可替换的系统设计（当前未实现）可以使用决策规则、决策树、随机预报的变型、支持向量机或另一机器学习技术来估计可能性。

可能的第二模型是字符和文字语言模型。字符语言模型在给定当前推测中的在先文字（如由令牌在搜索中所追踪的）的情况下计算推测的文字的先验概率。词语语言模型用于计算给定的推测词语的先验概率。

解码器利用解码算法来在沿推测的形成的每一个步骤处传播令牌。为了约束搜索以维持可管理的大小，当两个或更多令牌已经到达相同（可能地试探性的）结论时可以合并冗余的令牌。可以由解码模块实现的另一可能技术被称为射束裁剪，其在令牌推测不足够高以证明保持它是合法的时使用可配置的射束宽度来约束搜索。

由解码算法使用的令牌传播规则可以包括：

[A]（代替）给定当前观察：使用键盘模型计算针对每一个按键的该观察的可能性；旧的令牌创建针对键盘上的每一个按键的新令牌；针对新令牌的概率是在给定具体按键+字符语言模型概率（通过缩放因子缩放）+目前为止由旧令牌累积的log-prob的情况下观察的log-prob；并且可选地，如果新令牌正在生成词语分离物（例如空格键字符），则此外基于词语语言模型添加log-prob。如果文字序列没有通过词语语言模型的词汇进行建模，则使用未知词语模型评价文字序列。

[B]（删除）给定当前观察：忽略观察并且令牌传播到观察序列中的下一观察并且累积固定log-prob处罚。

[C]（插入）给定当前观察：向键盘上的所有可能按键传播令牌；针对新令牌的概率为：目前为止由旧令牌累积的log-prob+基于字符语言模型的新log-prob（通过缩放因子缩放）+取决于我们是否正在插入与之前相同的键盘按键而不同的附加的log-prob处罚；可选地，如果新令牌正在生成词语分离物（例如空格键字符），则附加地基于词语语言模型添加log-prob。如果文字序列没有通过词语语言模型的词汇进行建模，则使用未知词语模型评价文字序列。

[D]（裁剪）在代替、插入和删除情况之后，在传播令牌之前，应用如下的射束裁剪：对于观察序列中的每一个观察索引，系统存储目前为止针对该观察索引由任何令牌所生成的最佳log-prob；如果其所生成的log-prob与曾由令牌针对该观察索引所生成的最佳log-prob之间的差异在可配置的阈值（即射束宽度）内，则仅将新令牌传播到新的观察索引。阈值是速度-精确性的折衷。

[E]（终止）检查所有未经裁剪的令牌以查看它们是否在最后的观察索引处。如果它们是：根据对句子结尾符号建模的字符语言模型提取令牌的现有log-prob添加log-prob（通过缩放因子缩放）；可选地，基于词语语言模型添加log-prob。如果文字序列没有通过词语语言模型的词汇建模，则使用未知词语模型评价文字序列。

[F]（合并）合并具有相同语言模型上下文的令牌。

解码算法的输出是通过具有最高概率的终止令牌的推测建模的文字序列。可替换的解码策略也可以适合于本发明，诸如：

[1]基于字符串的匹配：向缓冲器添加经由凝视标识的所有文字（例如通过注视在它们上）。应用包括有效词语的基于字符串的规则，移除不可能形成有效词语的任何文字。其余文字因而表示包括一个或多个词语的用户的意图文本。

[2]空间轨迹匹配：通过将其映射在所显示的键盘上来将词语定义为空间轨迹。将所有注视或其它基于凝视的度量一起连接到横跨一个或多个词语的空间轨迹中。通过执行空间轨迹比较与将横跨潜在的许多词语的空间轨迹分段成定义单个词语的空间轨迹的方法的组合来计算匹配。另外的信息可以在Kristensson, P.O.和Zhai, S. 2004的“SHARK2:A Large Vocabulary Shorthand Writing System for Pen-Based Computers”，用户接口软件和技术ACM研讨会第17届年会（UIST 2004）的会议记录，ACM Press: 43-52中找到，该文献通过引用出于全部目的而被并入，如同在本文中完整阐述一样。

在本发明的一些实施例中，以下方面也可以呈现以下改进：当令牌可能已经形成词语时，可以咨询基于词语的语言模型以便确定可能的词语正确的概率；并且可选地，系统可以生成表示已经被之前的令牌探索过的空间的格点。可以对格点重新打分，据此可以基于语言模型重新计算之前的令牌位置。

系统还可以生成词语混淆网络（WCN）。这可以基于N最佳搜索来估计，或者如果格点可用的话，从格点创建。WCN是有利的，因为它们更容易然后与格点一起工作，并且对于错误校正用户接口特别有用。参见Hakkani-Tür, D., Béchet, F., Riccardi, G.和Tur, G.的“Beyond ASR 1-best: Using Word Confusion Networks in Spoken LanguageUnderstanding”，计算机语音和语言期刊20, 4 (2006), 495-514；Ogata, J.和Goto, M.的“Speech Repair: Quick Error Correction Just by Using Selection Operationfor Speech Input Interfaces.”，Proc. ICSLP 2005，ISCA (2005)，133-136；Vertanen,K.和Kristensson，P.O. 2009，“Parakeet: A Continuous Speech Recognition Systemfor Mobile Touch-Screen Devices”，智能用户接口第14届ACM国际会议（IUI2009）的会议记录，ACM Press: 237-246。所有前述参考文献通过引用出于全部目的而被并入，如同在本文中完整阐述一样。

作为对二维高斯分布（作为用于注视位置的模型）的可替换方案，可以使用高斯过程（GP），参见Rasmussen, CE.和Williams，C.K.I. 2006，“Gaussian Processes forMachine Learning”，MIT Press，该文献通过引用出于全部目的而被并入，如同在本文中完整阐述一样。GP具有学习去到按键上的分布形状的更好能力，这将导致更精确的可能性估计。

解码器可以对注视的持续时间建模以改进精确性。持续时间可以使用阶跃函数来建模，其中设定阈值以下的注视持续时间通过线性函数进行处罚。可替换地，持续时间可以通过诸如逻辑函数之类的低参数函数来建模，该低参数函数可以使用仅两个变量来参数化。可替换地，持续时间可以使用参数分布（诸如泊松）或非参数分布来建模。

系统还可以包括自适应学习功能，据此解码算法的结果被存储和使用在学习算法中以对各个用户适配语言模型。以下关于图9来描述一个这样的实施例的示例。可选地，如果系统使用高斯过程以用于键盘模型，则参数可以使用与以上概述的类似的策略从离线和在线数据二者学习。用于学习协方差函数的参数的算法方案可以在例如Rasmussen, C. E.和Williams, C. K. I.的“Gaussian Processes for Machine Learning”，MIT Press，2006中找到。附加的参考文献：Weir, D., Rogers, S., Murray-Smith, R.,和Löchtefeld, M.“A User-Specific Machine Learning Approach for Improving TouchAccuracy on Mobile Devices”，Proc. UIST ’12. 465–476。所有前述参考文献通过引用出于全部目的而被并入，如同在本文中完整阐述一样。

作为示例而非限制，图7是描绘了用于实现本文所讨论的一些实施例的示例计算设备702的框图。计算设备702可以包括处理器704，其通信耦合到存储器706并且执行计算机可执行程序指令和/或访问存储在存储器706中的信息。处理器704可以包括微处理器、专用集成电路（“ASIC”）、状态机或其它处理设备。处理器704可以包括数个（包括一个）计算机处理设备中的任何一个。这样的处理器可以包括存储指令的计算机可读介质或可以与其通信，所述指令在由处理器704执行时，使得处理器执行本文所描述的步骤。

计算设备702还可以包括总线708。总线708可以通信耦合计算系统702的一个或多个组件。计算设备702还可以包括和/或通信耦合到数个外部或内部设备，诸如输入或输出设备。例如，计算设备702被示出有输入/输出（“I/O”）接口710、显示设备712、（多个）输入设备714和（多个）输出设备715。

显示设备712的非限制性示例包括与计算设备702集成的屏幕、在计算系统外部并且与其耦合的监视器等。输入设备714的非限制性示例包括凝视检测设备、触摸屏、触摸垫、外部鼠标设备、麦克风和/或本文提到的其它设备等。输出设备715的非限制性示例是音频扬声器。在一些实施例中，显示设备712、（多个）输入设备714和（多个）输出设备715可以是分离的设备。在其它实施例中，显示设备712和（多个）输出设备714中的至少一些可以集成在相同的设备中。例如，显示设备712可以是屏幕，并且输入设备714可以是提供用于显示设备的眼睛追踪和/或触摸屏功能的一个或多个组件，诸如用于发射光的发射器和/或用于对用户的（多只）眼睛和/或触摸区域成像的相机等。屏幕、输入设备组件和任何输出设备组件可以集成在相同的外壳中或在其它集成配置中。

计算设备702可以修改、访问或以其它方式使用电子内容。电子内容可以驻留在任何合适的非暂时性计算机可读介质中并且在任何合适的处理器上执行。在一个实施例中，电子内容可以驻留在计算系统702处的存储器706中。在另一实施例中，电子内容可以由计算系统702经由数据网络从远程内容提供方访问。

存储器706可以包括任何合适的非暂时性计算机可读介质。计算机可读介质可以包括但不限于，电子、光学、磁性或其它存储设备，该设备能够为处理器提供计算机可读指令或其它程序代码。其它示例包括但不限于，软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、ASIC、经配置的处理器、光学储存、磁带或其它磁性储存，或计算机处理器可以从其读取指令的任何其它介质。指令可以包括由编译器和/或解释器从以任何合适的计算机编程语言编写的代码生成的处理器特定指令，所述计算机编程语言包括例如C、C++、C#、VisualBasic、Java、Python、Perl、JavaScript和ActionScript。

存储在存储器706中的图形模块716可以将处理器704配置成准备电子内容以用于在图形接口中再现和/或在图形接口中再现电子内容。在一些实施例中，图形模块716可以是由处理器704执行的独立应用。在其它实施例中，图形模块716可以是软件模块，其包括在由处理器704执行的分离应用中或者可由其访问，处理器704配置成修改、访问或以其它方式使用电子内容。

锁定文字键入和手动参与

在本发明的可替换实施例中，解码模块可以基于不同类型的观察事件的发生而创建和选择不同的推测。如之前所描述的，观察事件可以基于不同的特性而发生，该特性包括，例如而没有限制，用户的凝视在一个或多个字符上或附近的注视，和/或注视的持续时间。其它特性也可以用于区分观察事件，如以下所描述的。第一类型的观察事件，诸如短注视持续时间，可以指示用户意图选择字符的中等可能性；第二类型的事件，诸如长注视持续时间，可以指示用户意图选择字符的强可能性。事件的类型可以如所需要的那样由用户用于向用户输入较高或较低重要性的文本，诸如输入复杂的口令与写入非正式的电子邮件。利用所指示的高重要性录入的字符可以称为“锁定”或“锁定文字”。

在另外的实施例中，使用锁定文字录入的字符串然后可以被呈现以用于错误校正（诸如通过以上描述的校正方法）。用户然后可以使用校正方法调节所录入的字符串。已经使用至少一个锁定文字录入和/或使用错误校正方法调节的字符串可以称为由用户“手动参与”。经手动参与的字符串然后可以由系统接收为对语言模型的添加（即可能被再次使用的词语），从而允许用户个性化由解码器模块使用的词汇。在另外的实施例中，系统可以可选地基于用户交互而确定与字符串的手动参与的测量。这样的交互包括在录入字符串的同时指示的锁定文字的数目和/或比例，以及已经使用错误校正接口编辑的字符的数目和/或比例。测量可以包括基于交互确定的置信度值，并且置信度值可以具有可配置的阈值。在再另外的实施例中，语言模型可以使用置信度值来确定语言模型是否或多经常应当适配于用户所录入文本，即如果用户频繁地校正系统选择的推测，系统可以适配和选择更类似于用户所录入的文本的推测。较高的置信度值可以导致较强的适配，从而允许系统合并对用户重要的词语。增加语言模型的词汇允许解码器模块基于所添加的词语而创建将来的推测，从而造成更精确的推测。

现在转向图8，将讨论本发明的可替换实施例的示例性方法800。与方法400相当地，方法800可以在块810处接收连续凝视数据。凝视点可以在块820处可视化，并且一个或多个屏幕上键盘按键可以在块830处可视化。当用户与设备交互时，在块840处监视凝视点以得到观察事件的发生和所使用的观察事件的类型二者。当发生观察事件时，以串行方式记录事件和类型序列。第一类型的观察事件——例如，在特定字符上大约200毫秒的注视时间——的发生之后在850处跟随有第一观察事件和事件类型二者的序列中的记录。第二类型的观察事件——例如，在特定字符上大约1000毫秒的注视时间——的发生之后在块860处跟随有第二观察事件和事件类型的序列记录。在此描述的示例事件类型仅用于说明，并且可以使用其它类型的事件而不脱离发明实施例，包括组合事件。例如，第二事件可以通过用户在任何量的时间内注视在字符上并且在注视期间说出词语“锁定”来指示。

每一个特定观察事件和类型的记录和组合可以针对任何数目的事件而发生。方法步骤将从块810重复，使得所检测到的观察事件及其相应类型在块850或860处被连续记录，直到发生终止事件。在块870处检查终止事件发生；如果发生一个终止事件，方法进行到块880；否则，方法返回到块810。

在870处的终止事件之后，方法可以在块880处应用解码模块/算法以从观察和类型序列推测字符串。在该实施例中，解码器模块可以使用每一个所记录的观察事件的类型的附加信息来推测字符串。如以上所描述的，推测表示可能是用户的意图文本的文字序列。解码器模块将输出推测的集合，并且每一个推测被指派对应于用户的意图文本的概率，使得所指派的概率至少部分地基于用于录入每一个字符的观察事件的类型。利用第二类型的观察事件录入的字符被解码器解释为锁定文字，并且解码器指派用户录入意图字符的高概率。在一些实施例中，锁定文字被指派100%的概率（即解码器假定用户肯定录入了意图字符）；在其它实施例中，所指派的概率小于100%。当确定一个或多个推测后，可以在块890处在消息窗口230中显示一个或多个相关字符串。

在字符串的显示之后，实施例允许用户使用确认接口（诸如接口200）来确认所录入的字符串。如果用户将其凝视注视在消息窗口中的特定符号，则显示错误校正接口，诸如接口300。实施例然后允许用户使用任何适当的方法校正所显示的字符串。

自适应学习功能的示例性方法在图9中描绘。在经校正的字符串的取消或确认之后，实施例可以可选地还包括自适应学习功能，据此将经校正的解码算法的结果存储和使用在学习算法中以对各个用户适配语言模型。如果字符串被校正，并且经校正的字符串对语言模型是未知的，并且字符串由用户手动参与，则向模型添加词语。否则，不添加词语，并且系统等待另外的凝视输入。

在块910处开始，方法确定是否确认字符串的任何校正；如果没有，方法结束。如果是这样，方法在块920处进一步确定是否经校正的词语或其它字符串对解码算法所使用的语言模型是未知的；如果不是，方法结束。如果经校正的字符串是未知的，则方法在块930处进一步确定是否未知的字符串已经由用户手动参与，即字符串已经使用至少一个锁定文字来录入和/或已经校正了至少一个错误。如果没有发生手动参与，方法结束。如果已经参与了未知字符串，方法然后在块940处向语言模型添加作为已知词汇词语的字符串，并且方法然后结束。在方法900在任何点处结束之后，实施例返回到用于接收凝视输入的方法，诸如图8的方法800。

在某些实施例（在图9中未描绘）中，方法可以基于用户交互（诸如在录入字符串的同时指示的锁定文字的数目和/或比例，以及已经校正的字符的数目和/或比例）而确定手动参与的测量。测量可以包括置信度值，诸如在0至100的任意量级上，并且置信度值可以基于交互而确定。作为示例，并且不作为限制，利用50%的字符锁定录入并且还被校正两次的字符串可以具有比利用20%的字符锁定录入并且没有校正的字符串更高的所确定的置信度值。所确定的测量还可以基于其它因素，诸如字符串之前是否被录入或校正。所确定的测量可能需要满足针对要添加到语言模型的词语的某个阈值，并且该阈值可以具有可由用户配置的默认值。

在某些另外的实施例（同样在图9中未描绘）中，方法可以使用置信度值来确定语言模型是否或多经常应当对用户录入的文本适配。确定可以单独基于置信度值或基于置信度值与其它因素的组合而做出。较高的置信度值可以导致较强的适配。例如，并且不作为限制，如果用户校正由解码器模块选择的超过30%的推测，并且每一个经校正的推测的所确定的置信度值相对高，实施例可以适配和选择更类似于用户所录入的文本的推测。

现在已经出于清楚性和理解的目的详细描述了本发明。然而，将领会到，可以在随附权利要求的范围内实践某些改变和修改。

Claims

1.一种用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中所述方法包括：

使得显示设备显示多个文字的视觉表示；

接收标识用户的凝视在视觉表示上的移动的凝视信息；

记录在用户的凝视在视觉表示上的移动期间发生的一个或多个观察事件的观察序列；

向解码器模块提供观察序列；并且

其中解码器模块从观察序列确定表示用户的意图文本的估计的至少一个词语。

2.权利要求1的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中观察事件包括用户的凝视已经注视在文字上或文字附近的确定。

3.权利要求2的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中观察事件与以下各项中的一个或多个相关联：

注视在显示设备上的X、Y坐标；

注视的持续时间；

注视的大小；或者

最靠近注视的文字。

4.权利要求1的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中方法还包括：

接收指示终止事件的凝视信息；

在发生终止事件时，使得显示设备显示意图文本的估计；

接收指示对意图文本的估计的校正的凝视信息。

5.权利要求4的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中终止事件是来自包括以下各项的组的选择：

在第一预定时间段内用户的凝视在显示设备的预定区域中的检测；

在第二预定时间段内用户的凝视保持静止的检测；

用户的凝视不位于显示设备上的检测；

用户的一次或多次眨眼的检测；

用户的预定面部姿势的检测；

用户的预定凝视姿势的确定；以及

基于观察序列的某个部分的已经满足或超过用户希望导致终止事件的特定概率的自动确定。

6.权利要求4的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中校正是来自包括以下各项的组的选择：

意图文本的估计中的词语的删除；

意图文本的估计中的词语的校正；以及

意图文本的估计中的工作的添加。

7.权利要求1的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中解码器模块包括一个或多个算法，所述算法包括令牌传递解码器。

8.权利要求7的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中令牌传递解码器采用键盘模型来在给定推测的文字的情况下计算观察的可能性。

9.权利要求7的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中令牌传递解码器采用词语语言模型来在给定当前推测中的之前文字的情况下计算推测的文字的可能性。

10.权利要求1的用于使用来自用户的凝视输入来向计算设备中录入文本的方法，其中解码器模块包括自适应学习功能，解码模块的结果通过所述功能被解码模块分析以对各个用户适配解码模块。

11.一种用于使用来自用户的凝视输入来向计算设备中录入文本的系统，其中所述系统包括：

眼睛追踪设备；

显示设备；以及

计算设备，计算设备配置成至少：

使得显示设备显示多个文字的视觉表示；

接收标识用户的凝视在视觉表示上的移动的凝视信息；

向解码器模块提供观察序列；并且

12.权利要求11的用于使用来自用户的凝视输入来向计算设备中录入文本的系统，其中观察事件包括用户的凝视已经注视在文字上或文字附近的确定。

13.权利要求11的用于使用来自用户的凝视输入来向计算设备中录入文本的系统，其中计算设备还配置成至少：

接收指示终止事件的凝视信息；

在发生终止事件时，使得显示设备显示意图文本的估计；

接收指示对意图文本的估计的校正的凝视信息。

14.权利要求11的用于使用来自用户的凝视输入来向计算设备中录入文本的系统，其中解码器模块包括一个或多个算法，所述算法包括令牌传递解码器。

15.权利要求11的用于使用来自用户的凝视输入来向计算设备中录入文本的系统，其中解码器模块包括自适应学习功能，解码模块的结果通过所述功能被解码模块分析以对各个用户适配解码模块。

16.一种具有存储在其上的指令的非暂时性机器可读介质，所述指令用于使用来自用户的凝视输入来向计算设备中录入文本，所述指令由一个或多个处理器可执行以用于至少：

使得显示设备显示多个文字的视觉表示；

接收标识用户的凝视在视觉表示上的移动的凝视信息；

向解码器模块提供观察序列；并且

17.权利要求16的非暂时性机器可读介质，其中观察事件包括用户的凝视已经注视在文字上或文字附近的确定。

18.权利要求16的非暂时性机器可读介质，其中计算设备还配置成至少：

接收指示终止事件的凝视信息；

在发生终止事件时，使得显示设备显示意图文本的估计；

接收指示对意图文本的估计的校正的凝视信息。

19.权利要求16的非暂时性机器可读介质，其中解码器模块包括一个或多个算法，所述算法包括令牌传递解码器。

20.权利要求16的非暂时性机器可读介质，其中解码器模块包括自适应学习功能，解码模块的结果通过所述功能被解码模块分析以对各个用户适配解码模块。