CN106462231A

CN106462231A - 计算机实现的视线交互方法和装置

Info

Publication number: CN106462231A
Application number: CN201580019367.0A
Authority: CN
Inventors: 丹·维茨内尔·汉森; 迪亚科·马尔丹贝吉
Original assignee: Itu Business Development Corp
Current assignee: Itu Business Development Corp
Priority date: 2014-03-17
Filing date: 2015-03-16
Publication date: 2017-02-22
Also published as: US20170123491A1; WO2015140106A1; EP3120221A1

Abstract

一种基于一个人的视线和手势经由与用户界面的交互来进行通信的计算机实现方法，包括：计算那个人的视线的估计，包括计算那个人通过其观察在他前面的场景的显示器上的注视点；借助于场景照相机，捕捉在那个人的头的前面(并且至少部分地在显示器上可见)的场景的第一图像，并计算与那个人的视线重合的对象的位置；借助于场景照相机，捕捉在那个人的头的前面的场景的至少一个其它图像，并且监视视线是否停留在所识别对象上；以及在视线停留在识别对象上的同时：首先，在显示器面上在邻近于注视点的区域中显示用户界面元素，其具有空间扩张；以及其次，在显示器的移动期间等待并检测注视点与所显示用户界面元素的空间扩张重合的事件。可通过传送消息来处理该事件。

Description

计算机实现的视线交互方法和装置

技术领域

眼球跟踪是即将变成被集成在各种类型的消费产品(诸如类似于智能电话或平板电脑的移动设备，或者诸如可穿戴计算设备之类的移动设备，包括头戴式显示器HMD的WCD)中的技术的演进技术。可用更一般的术语将此类设备表示为移动设备。

背景技术

US2013/0135204公开了一种用于使用眼球跟踪信息将头戴式显示器的屏幕解锁的方法。HMD或WCD可在用户的一定时段的不活动之后处于锁定操作模式。用户可尝试将屏幕解锁。计算系统可在计算系统的显示屏上生成活动对象的显示。借助于视线估计，HMD或WCD可确定出与用户的眼球移动相关联的路径跟与显示器上的移动对象相关联的路径基本上匹配，并且切换成处于解锁操作模式，包括将屏幕解锁。

US2013/0106674公开了一种被配置成被人穿戴并跟踪那个人的眼球的视线轴的头戴式显示器，其中，HMD可基于用户正在看哪里来改变所显示的虚拟图像的跟踪速率。凝视HMD视场的中心可允许所显示的虚拟图像的细微移动，而凝视HMD视场的边缘附近可给出较粗的移动。从而，那个人可以例如在凝视HMD视场的边缘附近时以较快速度滚动。HMD可被配置成通过观察那个人的瞳孔的移动来估计那个人的视线。

US2013/0246967公开了一种用于可穿戴计算设备(WCD)以提供与其图形用户界面的头部跟踪用户交互的方法。该方法包括接收表示了WCD从第一位置至第二位置的移动的移动数据。响应于移动数据，该方法控制WCD，使得菜单项在视图区中变得可见。此外，当菜单项在视图区中变得可见时，该方法使用移动数据来选择菜单项并保持选定菜单项在视图区中完全可观看。移动数据可表示一个人的头或眼球移动。该移动数据可被传感器(诸如加速度计、陀螺仪、指南针或其它输入设备)记录以检测触发移动，诸如WCD的向上移动或倾斜。从而，公开了一种用于选择菜单项的方法。

这些现有技术文献示出了一个人可以用来与可穿戴计算设备的用户界面相交互的不同方式。然而，这些文献未能公开用于一个人发起与那个人在现实或物理世界中偶遇并通过他或她的可穿戴计算设备或在该计算设备上看到的远程对象的通信的直观方式。

一般地，遍及本申请，术语‘人’用来指定使用或穿戴配置有计算机的移动设备或单元的人类，所述计算机被配置和/或编程为执行根据下述实施例中的一个或多个的计算机实现方法。作为术语‘人’的替换，使用术语‘用户’。

发明内容

提供了一种对人的视线进行响应的计算机实现方法，包括：计算那个人的视线的估计，包括计算那个人通过其观察场景的屏幕上的注视点；使用那个人的视线的估计以及关于对象的标识和相对于视线的位置的信息来识别那个人正在看着的对象(如果有的话)；检测指示出那个人想要与对象相交互的事件；在屏幕的移动期间验证视线注视在对象上；以及然后检测注视点与预定义显示用户界面元素的空间扩张(spatial expanse)重合的事件；以及处理该事件，包括执行动作。

因此，在与用户界面的交互期间，那个人经由例如可穿戴计算设备的所谓的透视或非透视显示器或者头戴式显示器而看着对象，并且当那个人想要与对象相交互时，他/她观察出邻近于对象或者至少邻近于估计出的注视点而显示用户界面元素。本方法可例如通过检测那个人的视线已停留在对象上或者那个人已给出口头或手势命令、按下按钮等的事件而检测到那个人想要与对象相交互。

在某些实施例中，通过记录人前面的场景的图像并执行图像处理以识别预定义对象来生成或获取关于对象的标识的信息。

在某些实施例中，对象标识的生成或获取包括通过例如用GPS接收机或其它位置确定方法来确定那个人的位置而确定对象的位置、以及对象与那个人之间的相对位置；以及查询包括与位置信息一起存储的预定义对象的数据库以获取关于在该预定位置处或附近的对象的信息。这样，可相组合地使用图形信息和位置信息来从数据库获取对象的标识。对象与那个人之间的相对位置是根据估计出的视线确定的。可作为立体角、方向和/或通过估计到对象的距离来确定该相对位置。

在某些实施例中，通过记录在那个人的前面的场景并执行图像处理以识别相对于视线而言在一定位置处或该位置附近的预定义对象来生成或获取关于对象的标识的信息；其中，所述位置是与视线重合的位置。

用户界面元素可能已被显示或者在其自检测到那个人想要与对象相交互时起被显示。用户界面元素的直观表示可由显示器给定，或者以物理方式印刷或者另外地在显示器的表面上发生。然后，那个人移动显示器以在显示器上带来用户界面元素来与他/她的视线停留在其上面的对象重合。此移动将触发可以被处理的事件例如以发布一个动作来借助于场景照相机自动地取得及存储对象的图片和/或传送用以控制对象的消息和/或发送用于从对象接收信息的请求。可经由如在本领域中已知的有线和/或无线数据网络来传送该消息。因此，提供了非常直观的手势交互方法。

所述对象是现实世界中的对象。其可以是包括自然存在的对象的实际3D物理物理对象、绘画或印刷品，其可以是显示在远程定位显示器上的对象，或者其可以是在2D或3D介质中或上面呈现的虚拟对象。

场景照相机可记录表示在那个人的头的前面的场景的图像信号。场景照相机可指向前向方向，使得其视场至少部分地与那个人的视场重合或重叠，例如使得场景照相机和经由显示器提供给那个人的视图具有基本上相同的视场。当场景照相机被安装在WCD上或与WCD集成时，可以确保场景照相机的视场在那个人穿戴WCD时完全或部分地覆盖或者至少跟随她的视场。

来自场景照相机的图像可被处理以识别那个人正在看着的对象。标识可指代一类对象或特定对象。

显示器可以是透视显示器或非透视显示器，并且其可具有平坦或平面或弯曲的面，或者显示器可具有平坦或平面或弯曲的面区段的组合。在显示器是非透视显示器且系统具有场景照相机的情况下，场景照相机可被耦合到显示器以允许那个人经由场景照相机和显示器来观看或观察场景。从那个人的观点(即其与用户界面相交互的方式)出发，他看着现实世界中的对象(例如数据网络操作灯)，并且那个人保持看着该对象。在他(她)看着对象的同时，在显示器的区域中向他/她显示用户界面元素，使得其不妨碍那个人在对象上的视线。此外，在看着对象的同时，那个人例如通过将他/她的头略微转动来转动显示器，使得跟随显示器(且相对于显示器坐标系被固定)的用户界面元素移动至与用户界面元素重合。从而，那个人的视线与用户界面元素的空间扩张和对象两者重合。这可引起触发预定义消息经由数据网络到数据网络操纵灯的传送的事件。该消息由激活经由数据网络被启用且如用户界面所指示的灯的功能所组成。例如，该灯可具有将其从开状态切换至关状态且反之亦然的功能。用户界面元素可具有特定形状、图标和/或文本标签以指示此类切换功能或指示任何其它相关功能。

所述计算机实现方法可以由设备执行，该设备诸如可穿戴计算设备(WCD)，其例如被成形为配置有被布置成观看在穿戴设备的人前面的场景的场景照相机的眼镜或眼镜框、例如使用被布置成观看人的眼球中的一个或两个的眼球照相机的眼球跟踪器、被布置成使得用户可在穿戴设备时对其进行观看的显示器、计算机单元和用于传送预定义消息的计算机界面。在US 2013/0246967中结合其图1至4描述了此类设备。下面将进一步描述用于实现本方法的替换手段。

可以用具有一个或多个传感器的眼球跟踪器来估计那个人的视线以获得表示眼球的移动的数据，例如借助于对从眼球反射的可见光和/或红外光敏感的照相机。眼球跟踪器可包括被编程为处理来自传感器的图像信号并计算用户的视线的表示的计算设备。用户的视线的表示可包括例如在预定义虚拟平面中以矢量形式或者作为点(按照惯例表示注视点)给出的方向。虚拟平面可与预定义显示器平面重合，该预定义显示器平面进而与显示器的面重合。

显示用户界面元素可用不同的手段来执行，例如通过将用户界面配置为具有发光二极管的不透明显示器(所谓的非透视HMD)或者作为半透明、例如液晶显示器、作为投影仪在其上面在前向方向上投射光束的半透明屏幕(所谓的透明HMD)或者作为在向后方向上向用户的眼球上投射光束的投影仪。

用户界面元素是图形元素，并且可选自包括以下各项的组：按钮，例如所谓的单选按钮、页面标签、滑块、虚拟键盘或其它类型的图形用户界面元素。该用户界面元素可在透视显示器上被显示为半透明元素，使得那个人可以同时地看到对象和图形元素两者。

本计算机方法检测到在视线停留在对象上的同时注视点与用户界面元素的空间扩张重合。

计算机实现方法可连续地验证视线是否注视在对象上。这可以通过计算视线与表示对象位置的预定义点之间的距离。可以各种方式来定义对象的位置，例如用预定义显示器平面中的一个或多个坐标点；这可涉及到计算坐标变换，其表示从场景照相机的位置和取向到预定义显示器平面的几何变换。落在对象的位置的定义内的所述至少一个点可以是落在表示对象的位置和扩张的几何图形(例如包含对象的投影例如作为所谓的边界框的图)内的点。

确定视线是否停留在位于第一和第二图像中的对象上可通过监视注视点是否在第一图像和另一图像两者中与对象的位置重合来执行。可应用停留的第一时间定义来判定在显示用户界面之前视线是否停留在对象上。应用停留的第二时间定义来判定在用户界面被显示之后(例如在那个人转动他/她的头的同时)视线是否停留在对象上，其可包括附加的时间间隔以确保那个人故意地想要激活用户界面元素。

可以用不同的方式来确定监视那个人的视线是否停留在对象上，例如通过用场景照相机来记录图像的序列，并且在持续的基础上确定对象的位置是否与视线的估计重合。从检测到对象的位置与视线重合的第一时间开始运行的预定时间间隔可充当用于判定视线的最近估计是否与对象的位置重合的准则。

在不脱离要求保护的发明的情况下，可以各种方式体现通过执行动作来处理事件的步骤。执行动作可包括传送预定义消息。该通信可经由预定义协议(例如允许经由电力线和/或无线电链路来远程地控制家用设备和器具的家庭自动化协议)发生。可用一个或多个数据分组来传送该预定义消息。

还可用控制信号、命令、函数调用或过程调用、请求等来表示消息。该消息意图对被配置成作为对象的一部分或者以预定义方式与对象对接的远程系统进行响应和/或发起与该远程系统的通信。

在具有场景照相机的实施例中，场景照相机可记录一系列的静止图像或来自图像序列的图像，诸如视频序列中的图像。某些图像来自其中那个人的视线指向对象的情况，并且其它图像来自当那个人的视线仍指向对象时、但其中那个人略微转动他/她的头且其中视线与用户界面元素重合的稍后的时间点。

可以以不同的方式执行识别对象的步骤。在某些实施例中，通过执行图像处理以计算与视线重合的对象的特征且然后从数据库检索与计算特征匹配的对象标识符来识别对象。数据库可被本地地或远程地存储。在其它实施例中，对象识别是基于3D模型，其中，在3D模型空间中表示对象的位置。视线被变换成3D视点位置，并且检查3D模型以揭示与3D视点位置重合或在其附近的一个或多个对象(如果有的话)的标识。3D模型空间可被存储在本地或远程数据库中。可通过使用来自位置传感器和/或取向传感器(诸如加速度计和/或陀螺仪，例如3轴加速度计和3轴陀螺仪)、诸如GPS系统之类的定位技术等的信号来计算通常表示为相对于场景照相机或WCD或HMD而言的视线矢量的视线到3D视点位置的变换。此类技术在本领域中是已知的。

从而，可以与由人通过使他/她的视线瞄准对象而选定的特定对象相交互。

发起对象识别可包括与对象识别系统通信，该对象识别系统具有数据库，其包括预定义对象的表示。

计算对象位置和/或对象识别应是足够快的以允许有直观的用户体验，其中，在小于一秒或小于几秒(例如小于2.5秒、3秒或5秒)内执行对象定位和/或对象识别。

对象识别是用以将图像或图像的视频序列或其任何表示与一组预定义对象相比较以出于识别与一个或多个图像中的对象最佳地匹配的匹配出或最佳匹配出的预定义对象(如果有的话)的目的的计算机实现技术。对象识别可包括在空间上、在时间上或另外以几何方式将对象与其它对象隔离以可能地识别图像或图像序列中的多个对象。对象识别可由WCD或HMD执行，或者其可由例如可经由无线网络访问的远程定位计算机执行。在后一种情况下，第二图像信号或其压缩和/或编码版本被发射到远程定位计算机，其然后发射包括对象标识符的数据作为响应。对象标识符可包括识别一类相似对象的代码或识别特定对象或对象的元数据描述的唯一代码。可以共享方式执行对象识别，使得WCD或HMD执行对象识别任务的一个部分，并且远程计算机执行另一部分。例如，WCD或HMD可如上所述地将对象隔离，确定其位置，并且将关于各自的被隔离对象的信息发射到远程计算机以用于更详细的识别。确定对象的位置可包括确定在图像信号中包围对象的几何形状或坐标集；此类几何形状可遵循图像信号中的对象的形状或作为所谓的边界框将其包围。几何形状的空间扩张充当用于确定注视点是否与对象重合或被锁定在对象上的准则。

在某些实施例中，计算机实现方法包括：在显示器上在邻近于注视点的区域中显示用户界面元素；以及延迟预定义用户界面元素的显示直至检测到预定义事件为止。

由此防止显示元素的非故意弹出。此外，可以防止由于用户短暂地且偶然地看着对象而引起的消息的非故意传达。

该事件可以是任何可检测事件，其指示那个人想要与对象相交互，例如那个人的视线已停留在对象上达预定义时间段，那个人已给出口头命令和/或手势命令或者按钮被按下。也可以有其它解决方案。

并且，与监视视线是否停留在(被锁定在)对象上相组合的延迟充当确认步骤，由此那个人故意地确认动作。

延迟从大约在视线停留在位于第一和第二图像中的对象上的同时检测到注视点与用户界面元素的空间扩张重合的事件时的时间点开始运行。

预定最小时间段为例如约600ms、800ms、1秒、1.2秒、2秒或另一时间段。

可在检测到来自场景照相机的图像是基本上类似的、即场景照相机被保持在基本上静止位置时调节用户界面元素的显示。从而，用户界面元素可被布置在真正邻近于注视点的区域中，并且因此要求故意的后续手势，移动场景照相机，以激活用户界面元素。

在某些实施例中，计算机实现方法包括：自识别到那个人正在看着的对象时刻起进入交互状态；在处于交互状态的同时检测那个人的视线是否离开对象；以及在其肯定的情况下，退出交互状态以防止执行动作。

从而，如果户已示出了用户界面元素，则将用户界面元素从用户界面擦去，并且放弃将或可能发出控制信号的眼球移动。如果尚未示出用户界面元素，则其将不会被示出。此放弃可由那个人故意地将目光从对象移开以避免发出控制信号而引起。并且，这种解决方案使得可以避免在那个人的视线或多或少地随机地从一个对象漂移到另一对象时发出控制信号。

本方法可在由被附着到显示器或其表面的物理项目来在视觉上表示用户界面元素时起作用。

在某些实施例中，忽视或滤出目光移开的短时段。短时段的示例可小于1秒、0.5秒或0.2秒，或者可在一定采样速率下由采样数目定义。这可克服视线估计中的噪声的问题，其中，视线在瞬间地不同于更稳定的视线。

在某些实施例中，计算机实现方法包括：在显示器上在邻近于注视点的位置上显示多个用户界面元素，其具有各自的空间扩张；其中，用户界面元素被与相应消息链接；确定注视点与多个用户界面元素之中的哪个(如果有的话)重合；以及选择与确定出的用户界面元素链接的动作。

从而，那个人可使用她的头部姿势或显示器移动来激活多个可用动作之中的所选一个或多个。这大大地增强了可能使用情况场景。

在编程领域中，例如经由引起事件并定义如何对事件进行响应的技术将用户界面链接到相应消息是众所周知的。

在某些实施例中，计算机实现方法包括：根据注视点的位置与用户界面平面的边界之间的距离在用户界面平面上布置一个或多个用户界面元素的位置和/或尺寸。

从而，可以更高效地利用显示有效面积。在其中注视点位于比到右侧边界更接近于用户界面平面的左侧边界得多的位置处的情况下，一个或多个用户界面可被高效地布置，其中的至少大多数被布置在注视点的右侧。同样地，可在垂直方向上同样地应用针对水平布置的此原理，然而，服从用户界面平面的尺寸和外形因数。

在某些实施例中，计算机实现方法包括：估计移动对象的主方向或路径；以及在显示器上在其至少一个区段内布置一个或多个用户界面元素的位置，以便防止与在主方向上或沿着路径移动的对象的非故意碰撞。

从而，指示出多个方向(例如垂直和水平)之中的主方向(例如水平)。区段然后可以是用户界面平面的上部或下部。因此，当估计对象将在水平方向上移动时，所述至少一个用户界面元素然后位于水平线以上或以下。同样地，如果对象向上移动，则用户界面元素可位于显示器的右侧和/或左侧区段中。

主方向的检测可被跟踪场景图像中的对象的场景照相机和对象跟踪器或者通过分析视线和/或头部移动而检测到。

当如上所述地根据注视点的位置与用户界面平面之间的边界来布置用户界面平面上的一个或多个用户界面元素的位置和/或尺寸时，可以简单地降低注视点与用户界面元素重合的风险，因为那个人正在用其视线跟随对象移动。因此，尽管对象移动，但其要求那个人的头部的故意移动以发出控制信号。

在某些实施例中，将多个用户界面元素布置在多个区段中，每个区段在所指示的一个主方向上从用户界面平面界定。

在某些实施例中，计算机实现方法包括：向被配置成与已识别对象通信的远程站发射消息和/或将消息直接地发射到与已识别对象一起安装的通信单元。

还提供了一种设备，该设备包括显示器、眼球跟踪器、处理器和存储器，该存储器存储程序代码装置，其适合于当所述程序代码装置在计算设备上被执行时致使计算设备执行所述方法的步骤。

还提供了一种包括程序代码装置的计算机程序产品，所述程序代码装置适合于当所述程序代码装置在数据处理系统上被执行时致使数据处理系统执行上文所阐述的方法的步骤。

计算机程序产品可包括在其上面存储程序代码装置的计算机可读介质。计算机可读介质可以是半导体集成电路，诸如RAM或ROM类型的存储器、诸如CD或DVD之类的光学介质或任何其它类型的计算机可读介质。

还提供了在载波中体现并表示指令序列的计算机数据信号，该指令序列在被处理器执行时致使处理器执行上文所阐述的方法的步骤。

还提供了一种配置有屏幕并将对人的视线进行响应的移动设备，诸如头戴式计算设备，包括：眼球跟踪器，其被配置成计算那个人的视线的估计，包括计算那个人通过其观察场景的屏幕上的注视点；处理器，其被配置成使用那个人的视线的估计和关于对象的标识和相对于视线的位置的信息来识别那个人正在看着的对象，如果有的话；以及处理器，其被配置成：检测指示那个人想要与对象相交互的事件；在屏幕的移动期间验证视线正在并保持被注视在对象上；以及然后，检测到注视点与屏幕上的预定义用户界面的空间扩张重合的事件，并且处理该事件，包括执行动作。

在某些实施例中，所述移动设备被配置成在屏幕上在邻近于注视点的区域中显示用户界面元素；以及延迟预定义用户界面元素的显示直至检测到预定义事件为止。

在某些实施例中，所述移动设备被配置成：自识别到那个人注视的对象时刻起进入交互状态；以及在处于交互状态的同时检测那个人的视线是否离开对象；以及在其肯定的情况下，退出交互状态以防止执行动作。

在某些实施例中，所述移动设备被配置成：在屏幕上在邻近于注视点的位置上显示多个用户界面元素，其具有各自的空间扩张；其中，用户界面元素被与相应动作链接；确定注视点与多个用户界面元素之中的哪个(如果有的话)重合；以及选择与确定出的用户界面元素链接的动作。

在某些实施例中，所述移动设备被配置成：根据注视点的位置与用户界面平面的边界之间的距离在屏幕上布置一个或多个用户界面元素的位置和/或尺寸。

在某些实施例中，所述移动设备被配置成：估计移动对象的主方向或路径；以及在显示器上在其至少一个区段内布置一个或多个用户界面元素的位置，以便防止与在主方向上或沿着路径移动的对象的非故意碰撞。

在某些实施例中，所述移动设备被配置成：向被配置成与已识别对象通信的远程站发射消息和/或将消息直接地发射到与已识别对象一起安装的通信单元。

附图说明

下面是参考附图的更详细地描述，在所述附图中：

图1示出了由一个人穿戴的可穿戴计算设备的侧视图；

图2在第一种情况下示出了表示由计算机实现方法接收或显示的信息的帧；

图3在第二种情况下示出了表示由计算机实现方法接收或显示的信息的帧；

图4示出了用于被配置成执行所述方法的计算机系统的框图；

图5示出了用于计算机实现方法的流程图；

图6示出了被配置成执行所述方法的计算机系统的平板电脑配置；以及

图7示出了被布置成防止与移动对象的非故意碰撞的用户界面元素。

具体实施方式

图1示出了由一个人穿戴的可穿戴计算设备的侧视图。可穿戴计算设备包括透视类型的显示器104、眼球跟踪器102、也表示为前视照相机的场景照相机107以及用于承载设备的侧杆或镜腿110。

那个人的视线105被用从那个人的眼球中的一个延伸到被示为电灯的感兴趣对象101的虚线示出。灯以简单的形式图示出在那个人的前面的场景。一般地，场景是那个人和/或场景照相机观看的在那个人前面的东西。

可由眼球跟踪器102来估计那个人的视线并以例如表示为视线矢量的矢量形式来表示。视线矢量在注视点(point-of-regard)106中与显示器103交叉。由于显示器103是透视显示器，所以那个人直接地通过显示器看到灯。

场景照相机107捕捉场景的图像以及从而的在那个人的头部前面的灯。场景照相机将图像输出到处理器113，其处理图像并识别被注视的对象。系统计算场景图像内部的视点的位置。可以直接地由视线跟踪器或者间接地通过在HMD中具有视点(gaze point)以及在HMD与场景图像之间的关系(映射函数)来获得场景图像中的视点。因此，在HMD中执行视线估计，并且在场景图像中找到相应点。估计HMD或场景图像内部的视点可要求校准程序。

当且如果识别到被注视对象时，则处理器113监视视线是否在由场景照相机107捕捉一个图像或多个其它图像时也停留在所识别对象上，即视线是否停留在所识别对象上达预定义的第一时间段。在其替换事件中，处理器113在显示器103上在邻近于注视点106的区域中以空间扩张(spatial expanse)显示用户界面元素104。用线的扩张范围来举例说明空间扩张，但在实施例中，用户界面元素104是在2D或3D空间中定义的扩张。

然后，处理器113在人的头部的移动期间且从而在那个人通过其注视灯101的显示器103的移动期间等待并检测注视点与所显示的用户界面元素104的空间扩张重合的事件。在此侧视图中，在注视点106以上示出了用户界面元素104。因此，要求那个人将他/她的头向下转动以故意地使得用户界面元素104与注视点106重合。

在某些实施例中，处理器113确定视线是否在用户界面的空间扩张和视线重合的同时停留在所识别对象上达到预定义第二时间段。

此预定义第二时间段充当用户故意地期望与感兴趣对象101通信的确认。在肯定的情况下，通过发布动作来处理事件，所述动作例如包括经由通信单元112向远程系统115传送消息。通信可经由天线114和116以无线方式进行。通信可以各种方式进行，例如借助于无线网络，例如经由所谓的WiFi网络或经由蓝牙连接。

处理器113连续地检查视线是否保持固定在对象上(甚至在移动头部的同时)。当用户移动他的视线、即将目光移开一段时间时，整个过程奖终止，并且用户界面元素将被隐藏。因此，其中用户无意地将目光移开例如达小于200—500毫秒(例如100毫秒)的快速眼球移动可被忽视，使得经由用户界面的交互不会被无意地中断。

远程系统115通过有线和/或无线连接与感兴趣对象通信。还可将远程系统115与灯集成，在这种情况下，诸如灯之类的对象常常被表示为网络使能设备。网络使能设备可包括灯或其它家用器具，诸如电冰箱、自动门、自动售货机等。

系统还可被配置成例如借助于场景照相机107来拍摄照片(记录图像)，或者触发和/或执行其它操作，诸如检索数据和或发送数据，例如以便发送消息。该系统不限于激活远程设备或与远程设备通信。

可穿戴计算设备108被示为与眼镜框集成，但是可同样地视线为与头戴、帽子或头盔和/或护目镜集成。

图2在第一种情况下示出了表示由计算机实现方法接收或显示的信息的帧。帧201示出了由眼球跟踪器或确切地说其照相机捕捉的图像。图像可能已被裁剪以拣选出那个人的眼球周围的相关区域。图像示出了一个人的眼窝204、他/她的虹膜203和瞳孔202。基于校准步骤，眼球跟踪器被配置成计算那个人的视线的估计，例如以视线矢量的形式，该视线矢量可指示相对于预定义方向而言的视线方向，例如眼球跟踪器的照相机的方向或者垂直于可穿戴设备108的显示器103的区域的矢量。

帧205描绘了显示器上的注视点206的位置。显示器可不显示此注视点，因为用户可能不需要此信息。

帧207示出了感兴趣对象209，其举例来说被示为灯。该灯可以是那个人直接地通过透视显示器或者经由场景照相机与非透视显示器的组合而可观看的。方框208被示为所谓的边界框，并且其表示感兴趣对象209的位置。可用许多坐标或者一个或多个几何图形来表示感兴趣对象的位置。可由处理器113来估计该位置，并且该估计可涉及到对象定位和/或对象识别技术。

帧210示出了感兴趣对象209、方框208、注视点206以及第一用户界面元素211和第二用户界面元素212。如那个人看到的显示器103的内容可以是感兴趣对象209(灯)和用户界面元素211和212。用户界面元素211和212分别地具有示出向上和向下指箭头的标签或图标。

在顶视图214中也示出了该情况，其中，灯209被示为在那个人穿戴可穿戴计算设备的同时径直地在那个人的头111的前面。

图3在第二种情况下示出了表示由计算机实现方法接收或显示的信息的帧。可以将该帧与图2的帧相比较。如从顶视图214可以看到的，那个人已将他/她的头略微向左转动，同时他/她的视线继续停留在感兴趣对象209上。

眼球跟踪器可因此检测到具有虹膜203和通孔202的眼球中的至少一个已在眼窝204中向右移动。可以如帧205中所示地更新注视点的位置，其中显示注视点在该帧中向右移动。

在帧207中，相应地显示感兴趣对象在显示器中看起来在那个人最右侧或右侧。

如帧210中所示，注视点206与感兴趣对象209和第二用户界面元素212重合。此事件被检测到，并且与在用户界面元素上示出的图标(向下指箭头)相一致地，向感兴趣对象传送消息以使光变暗淡。

在某些实施例中，感兴趣对象例如通过使光变暗淡来对此消息进行响应，直至本方法检测到那个人将目光移开的第二事件并传送另一消息以指示出那个人将目光移开时达到的水平处停止光暗淡为止。

可经由每个提供离散值的一系列用户界面元素或者用单个用户界面元素来控制光强度的逐渐增加或减小，其中，通过检测注视点在用户界面元素的扩张内位于何处或距离边界或中心多远来获得逐渐控制。

在本示例中，物理对象被示出为灯，但是该对象可以是另一类型的，并促使用户界面显示除用于控制光的暗淡之外的其它控制机构。在某些实施例中，系统识别对象并确定哪些控制机构可用于已识别对象和哪些控制机构可用于向用户显示。

如本领域中已知的，可以有以图形方式表示用户界面元素或多个用户界面元素的其它方式。因此，经由示例来描述视线重合方法。通过检测以下各项之间的交叉或重合并对其进行响应：首先是估计出的视点与感兴趣对象，并且其次是估计出的视点与用户界面元素，可以与他/她的视线相组合地使用一个人的头部移动来与计算机系统或计算机控制设备相交互。

图4示出了用于被配置成执行所述方法的计算机系统的框图。示出了在透视HMD上实现视线重合方法时涉及到的组件。主要组件是眼球跟踪器400，显示器401中的视线估计器、透视显示器402以及对象位置估计器403。对象位置估计器403可包括不同的组件。用参考标号404、405和406指定的组件是实施例的三个替换配置。

提出的方法当其在其它实施例中实现时可涉及到不同的硬件和软件组件。

眼球跟踪器400通常包括用于捕捉眼球图像的一个或两个红外照相机(其可以是单眼的或双眼的)以及用于提供用于确定视线的几何参考点的红外光源。由眼球跟踪器从眼球图像获得的信息被用于估计HMD的二维平面中的视点，并还用于确定用户在场景(环境)中注视哪个对象。

由于用户在与对象相交互的同时没有注视HMD，所以实际视点在对象上而不在显示器上。然而，在本申请中，将显示器上的视点称为视轴与显示器之间的交叉点。在组件401中执行估计HMD的显示平面上的视点。组件402是可以在其上面显示用户界面及其它信息的HMD。组件403被配置成识别和认知被注视对象。此组件可以用不同的方式来实现。在图4中示出了用于实现此组件403的组件404、405和406的三个不同常规配置。下面描述这三个示例性配置：

组件404利用记录用户的前视图(即在用户的脸朝向的方向上)的场景照相机407(类似于照相机107)。视线估计单元408估计场景图像内部的视点。单元408的输出在对象识别单元409中被使用，该对象识别单元409处理场景图像并识别图像中的被注视对象。存在用于图像中的对象识别的许多不同方法。

组件405示出了其中不需要场景照相机的另一配置。组件410估计3D坐标系中的注视点。这需要用于眼球跟踪器的不同设置；一个示例性设置使用了双眼眼球跟踪器，其具有多个光源以及传感器以便在3D空间中测量用户的头的位置和取向。眼球跟踪单元提供足够的信息以允许相对于头部估计3D注视点。然后，可以通过知道头部位置和取向而相对于世界坐标系来获得3D注视点。此类系统还需要关于环境中的场景和对象的实际位置的更多信息。通过知道环境中的对象和注视点的3D坐标，组件411可以识别被注视对象。

另一组件406使用不同的眼球跟踪设置并将用户的视线估计为相对于头部的3D矢量。具有用户头部的位置和取向(由传感器测量)，可以在3D空间412中估计视线矢量。单元413找到视线矢量与环境中的对象的交叉点，并识别与视线交叉的对象。这还需要关于环境的几何结构和世界座标的中的对象的位置的更多知识。

图5示出了用于使用透视HMD实施例来与对象相交互的计算机实现方法的流程图。

本方法借助于步骤501和505来获得输入数据。步骤501接收与场景相关联的信息作为到识别被注视对象(即那个人正在注视的对象)的过程的输入。与场景相关联的信息(场景关联信息)对于其每个实施例(例如，结合图4描述的实施例)而言可以是不同的。例如，在组件404中，场景关联信息是由场景照相机捕捉的前视图图像。然而，在包括组件405和406的实施例中，该信息包括关于环境的几何结构和对象的位置的信息。

步骤505提供与那个人的视线相关联的信息。该信息可来自诸如眼球跟踪器、位置传感器和/或加速度计之类的源。

本方法在步骤502中在接收到与场景和用户视线相关联的信息之后尝试识别并认知环境中的被注视对象。可选步骤是一旦已经识别了被注视对象、就在HMD上显示某些相关信息(例如，示出被注视对象的名称和标识)。

步骤503例如通过使用那个人的视线的停留时间来检查那个人是否正在看着已识别对象；在其肯定的情况下，本方法前进至步骤504，并且在其否定情况下(NO)，本方法返回至步骤502。

步骤504检查已识别对象是否是那个人可以与之相交互的类型；在其否定的情况下(NO)，本方法返回至步骤502；并且在其肯定的情况下(YES)，本方法继续至步骤506。从步骤505继续，步骤507估计HMD的界面平面上的视点。

在步骤506中，本方法在显示器上在紧挨着HMD平面上的注视点的位置处显示用户界面(UI)元素的直观表示。UI元素的位置将相对于HMD坐标系保持固定，即使当HMD相对于对象移动时也是如此。在显示用户界面之后，那个人通过以使期望图标(UI元素)朝着视场中的对象移动为目的而在步骤510中移动他/她的头来移动HMD。在移动他/她的头并且因此的UI元素(在步骤510)中的同时，本方法在步骤511中检查HMD中的视点是否处于UI元素的空间扩张内，并且在肯定的情况下，发布在步骤512中执行的动作。

当在显示器上示出了UI元素(由步骤506)时，步骤309检查那个人是否仍在看着对象。在用户将目光移开且视点不再在对象上的任何时间，在步骤511中发起(通过显示UI元素)的过程将被终止，并且用户界面将消失，将不再在HMD上显示。这是由检查用户是否仍在看着对象的步骤509和在用户将目光移开的情况下将UI元素隐藏的步骤508执行。在执行动作之后或者在其执行期间，UI元素将消失，并且系统等待直到用户的视线已离开步骤513和514的已识别对象为止。

提出的技术可以被用于与非透视HMD的交互。在本实施例中，将在覆盖用户的视场(FOV)的HMD上显示虚拟环境。还示出了另一信息层，例如虚拟现实视频，诸如图形用户界面(菜单或按钮)或某些其它信息。在本实施例中，视线重合技术提供了借助于用户界面与虚拟对象进行的不用手交互方法。与透视HMD相比，用户可以与在HMD(虚拟空间中的101)中显示的虚拟环境中的对象相交互。在头戴式虚拟现实系统的此类实施例中，位置传感器和/或加速度计被用于测量头部取向和/或移动以便随着那个人移动或转动他/她的头而将虚拟对象移入或移出那个人的视场，从而用相对于现实世界坐标系的固定坐标系来为那个人提供虚拟视觉的感觉。

因此，当那个人看着对象并移动他/她的头时，显示器上的视点也将移动。然而，当实现视线重合法时，在被注视对象周围弹出的UI元素在头部移动的同时并未随着对象一起移动，并且其相对于HMD框架被固定。

图6示出了被配置成所述方法的计算机系统的平板电脑配置。视线重合法还可以被用于与在具有显示器606的移动设备612(诸如移动电话或平板计算机)上显示的增强现实进行的交互。由移动设备612的背面照相机600捕捉的环境图像在显示器606上显示。当以灯泡607为例的感兴趣对象被系统识别时，控制按钮608(‘开’)和609(‘关’)将在对象周围显示，并且其在图像中的位置保持固定(不随着对象一起移动)。作为通过触摸屏幕来选择按钮的替代，用户可以保持看着图像中的对象，并且使设备612移动，使得期望的按钮与对象607重合。在本实施例中，可以将眼球跟踪器603安装在显示器上或用户的头部上。需要估计只在显示平面内部的视点。一般地用参考标号602来指定用户的眼球。

用参考标号604和610来指代用户的左手和右手。箭头605和箭头611指示出用户可以将设备612分别地在左侧方向或右侧方向上移动，以使控制按钮608或609移动至与对象607重合。

图7示出了当对象正在移动时如何布置用户界面元素。一般地，用参考标号708来指定用户的眼球，并且用709来指定估计出的视线或视线矢量。

提出的用于通过透明用户界面显示器705与对象相交互的方法可以被用于与并非静止的对象相交互。然而，这些情况要求用于UI元素701和707的不同数据。例如，对象702具有相对于例如HMD形式的用户界面显示器705而言如箭头703和704所示沿着所示y轴向上或向下的垂直移动。对象702在当其在透明界面显示器705上并通过透明界面显示器705显现时被指定为706。

如从图7将出现的，在视线被固定在对象上且UI显示器被固定时的对象的垂直移动(y轴)并不导致所述方法执行动作。这是因为UI元素被水平地布置(沿着所示x轴)，并且显示器上的视点只有当用户将显示器水平地移动时才到达UI元素。在这种情况下，系统需要能够检测并测量对象的移动以及识别它。这可以由计算机视觉技术在场景图像上(在系统利用场景照相机以便识别对象的情况下)或者用其它手段来完成。然而，这种技术在对象非常快速地移动或者移动遵循复杂路径时可能不适用。这涉及到当用户看着比每秒15度更快地移动的对象时发生的扫视的眼球移动。

在其中感兴趣对象是实物且具有用于接收动作或消息的通信接口的实施例中，可能存在用于向对象发送动作命令的不同方式。此通信可以是有线的或无线的。可经由例如WiFi或蓝牙或红外通信设备来建立无线通信。

取决于对象的类型和动作命令，系统可以在执行动作之后为用户提供不同类型的视觉和听觉反馈。在某些情况下，可以在交互(例如将灯开启或关掉)之后或者当调整音乐播放器的音量之后直接地看到或听到对象的状态变化。该系统还可以在其需要时为用户提供附加信息作为反馈。例如，系统可以发出声响或者在显示器上显示消息，或者创建用于批准动作命令或指示成功选择的可感知振动。

对象识别—在计算机视觉中—是找到图像或视频序列中的给定对象的任务。甚至当对象从视图中被部分地遮挡时也可以识别对象。用于对象识别的常规类别的技术包括基于外观的方法，例如使用边缘匹配、划分并占领搜索、灰阶匹配、梯度匹配、感受域响应和大型模型库的直方图；基于特征的方法，例如使用解释树、假设和测试、姿势一致性、标度不变特征变换；或用于对象识别的其它类别的技术，例如无监督学习。

可从以下群组中选择用于传送消息的协议：SmartLabs公司的INSTEON；DASH7，用于无线传感器联网；Enocean；HomePlug；KNX(标准)，用于智能大楼；ONE-NET；通用电力线总线(UPB)；X10；Z-Wave；和/或ZigBee。协议可以是家庭自动化协议或例如用于工业机器或用于医疗设备和装置的另一类型的协议。协议可包括协议协商机制。

Claims

1.一种对人的视线进行响应的计算机实现方法，包括：

—对那个人的视线的估计进行计算，包括计算那个人通过其观察场景的屏幕上的注视点；

—使用那个人的视线的估计以及与对象的标识和相对于视线的位置有关的信息来识别那个人正在看着的对象，如果有的话；

—检测指示出那个人想要与对象相交互的事件；在屏幕的移动期间验证视线注视在对象上；以及随后检测注视点与预定义显示用户界面元素的空间扩张重合的事件；以及

—处理事件，包括执行动作。

2.根据权利要求1所述的计算机实现方法，包括：

—在显示器上在邻近于注视点的区域中显示用户界面元素；以及

—延迟预定义用户界面元素的显示直至检测到预定义事件为止。

3.根据权利要求1或2所述的计算机实现方法，包括：

—自识别到那个人正看着的对象时刻起进入交互状态；

—在处于交互状态的同时检测那个人的视线是否离开对象；以及

—在其肯定的情况中，退出交互状态以防止执行动作。

4.根据权利要求1所述的计算机实现方法，包括：

—在显示器上在邻近于注视点的位置上显示具有各自空间扩张的多个用户界面元素；其中，用户界面元素被与相应消息链接；

—确定注视点与多个用户界面元素之中的哪个重合，如果有的话；以及

—选择与确定出的用户界面元素链接的动作。

5.根据权利要求1所述的计算机实现方法，包括：

根据注视点的位置与用户界面平面的边界之间的距离在用户界面平面上布置一个或多个用户界面元素的位置和/或尺寸。

6.根据权利要求1所述的计算机实现方法，包括：

—估计移动对象的主方向或路径；

—在显示器上在其至少一个区段内布置一个或多个用户界面元素的位置，以防止与在主方向上或沿着路径移动的对象的非故意碰撞。

7.根据权利要求1所述的计算机实现方法，包括：

—向被配置成与已识别对象通信的远程站发射消息和/或将消息直接地发射到与已识别对象一起安装的通信单元。

8.一种包括程序代码装置的计算机程序产品，当所述程序代码装置在数据处理系统上被执行时所述程序代码装置适合于致使数据处理系统执行根据权利要求1至7中的任一项所述的方法的步骤。

9.一种在载波中体现并表示指令序列的计算机数据信号，当被处理器执行时该指令序列致使处理器执行根据权利要求1至7中的任一项所述的方法的步骤。

10.一种配置有屏幕并将对人的视线进行响应的移动设备，诸如头戴式计算设备，包括：

—眼球跟踪器，其被配置成对那个人的视线的估计进行计算，包括计算那个人通过其观察场景的屏幕上的注视点；

—处理器，其被配置成使用那个人的视线的估计以及与对象的标识和相对于视线的位置有关的信息来识别那个人正在看着的对象，如果有的话；以及

—处理器，其被配置成：检测那个人想要与对象相交互的事件；在屏幕的移动期间验证视线正在并保持注视在对象上；以及随后检测注视点与屏幕上的预定义用户界面元素的空间扩张重合的事件，并且处理该事件，包括执行动作。

11.根据权利要求10所述的移动设备，其被配置成：

—在屏幕上在邻近于注视点的区域中显示用户界面元素；以及

12.根据权利要求10或11所述的移动设备，其被配置成：

—自识别到那个人正在看着的对象时起进入交互状态；

—在处于交互状态的同时检测那个人的视线是否离开对象；以及在其肯定的情况下中，退出交互状态以防止执行动作。

13.根据权利要求10至12中的任一项所述的移动设备，其被配置成：

—在屏幕上在邻近于注视点的位置上显示具有各自空间扩张的多个用户界面元素；其中，用户界面元素与相应动作链接；

—选择与确定出的用户界面元素链接的动作。

14.根据权利要求10至13中的任一项所述的移动设备，其被配置成：

根据注视点的位置与用户界面平面的边界之间的距离在屏幕上布置一个或多个用户界面元素的位置和/或尺寸。

15.根据权利要求10至14中的任一项所述的移动设备，其被配置成：

—估计移动对象的主方向或路径；以及

16.根据权利要求10至14中的任一项所述的移动设备，其被配置成：