CN114935974A

CN114935974A - 用于确定注视关注目标的对物体映射的多线迹注视

Info

Publication number: CN114935974A
Application number: CN202210496700.9A
Authority: CN
Inventors: 弗雷德里克·林德
Original assignee: Tobii AB
Current assignee: Tobii AB
Priority date: 2018-03-30
Filing date: 2019-03-29
Publication date: 2022-08-23
Also published as: EP3547084A3; US20220130107A1; ES2915835T3; EP4033334A1; CN110320997B; EP3547084A2; US11688128B2; CN110320997A; EP3547084B1

Abstract

本申请公开了一种用于在三维(“3D”)场景中确定用户注视的关注目标的方法。所述方法包含确定用户对3D场景的第一注视方向，其中所述3D场景包含多个部件。所述方法还包含在3D场景中执行多个第一线迹，其中该多个第一线迹中的每一个线迹接近所述第一注视方向。所述方法还包含为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值。所述方法可附加地包含将与所述多个第一线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件识别为所述用户的关注目标。

Description

用于确定注视关注目标的对物体映射的多线迹注视

本申请是申请日为2019年3月29日、国家申请号为201910251739.2、发明名称为“用于确定注视关注目标的对物体映射的多线迹注视”的发明专利申请的分案申请。

技术领域

本发明的实施例涉及在用户观察3D场景时跟踪用户的注视，以及具体地涉及如何确定用户的注视是否朝向在3D场景中的兴趣区域的方向。

相关申请的交叉引用

本申请是于2016年6月2日提交的美国专利申请No.15/171,548的部分继续申请，美国专利申请No.15/171,548要求于2015年6月3日提交的英国专利申请No.1509622.5的权益，这两件申请的全文如在本文中完整阐述的那样出于所有目的通过引用结合在此。

背景技术

探测眼睛和其注视方向是众所周知的，这可以通过(例如)以下步骤来完成：使用红外照射来照亮区域，眼睛在该区域中被寻找；捕捉该区域的图像；以及探测在该图像中的明亮点，所述图像中的明亮点来自眼睛的瞳孔和角膜。这个方法利用摄影者所知的亮眼(bright-eye)或“红眼(red-eye)”效应，其中，光进入眼睛，并且光被反射通过瞳孔或光被吸收并且重新发射通过瞳孔，使得瞳孔比眼睛的其他部分和脸显得更亮。分开的、更小的明亮点(也称为闪光点)由角膜产生。瞳孔和角膜闪光点的相对位置可以被用于确定眼睛的注视方向。更多的细节在美国专利No.6,152,563中给出，其全文内容如在本文中完整阐述的那样出于所有目的通过引用结合在此。

可选择或补充的，可以使用相似的技术，其中，红外线照明器与图像传感器间隔开，因此被图像传感器捕捉到的图像具有不明亮瞳孔，这也被称为“暗瞳孔”效应。

这种注视跟踪技术可以在(例如)邻近显示器的远程注视跟踪器中实施，或在可穿戴设备(例如，一副眼镜、虚拟现实头戴装置、增强现实头戴装置、头盔或类似物)中实施。

这样的注视跟踪技术可以用于确定用户是否看着屏幕上的特定物体或区(这些物体或区在本文件中总体称为“区域”)。例如，这可以作为游戏的一部分。这允许用户通过看着屏幕上的图像而与屏幕上的图像交互(看着图像的行为具有预定结果)，或通过将看着图像与另一控制的结合(例如，用户的注视朝向图像的同时，用户按压键盘上的键或鼠标)来与屏幕上的图像交互。

典型地，屏幕上的图像可以包括注视-可交互区域以及非注视-可交互的区域。

用于确定用户的注视是否朝向图像中的注视-可交互区域的先前方法趋向于基于需要开发者指定“交互遮掩(interaction mask)”以表明可交互元素在屏幕中的位置。在一定限制条件中这些方法可以工作得很好。那些限制条件包含静态的“摄影机”(即，视点，从该视点确定在屏幕上的图像)的使用，以及维持少数量的作为遮挡体(occluder)的可移动物体(需要被标记为注视-可交互的元素，但该元素仅用于传输视觉选择信息的目的，而它们本身不是“可交互的”)。并且，这样的系统典型地依赖注视-可交互物体在视觉场景中时可见的。

此外，测验(poll)或以其他方式从虚拟摄影机投射线以确定场景中与其相交的物体在先前是可能的。然而由于注视跟踪技术中100％精确度的固有缺乏，更优选的是，测验场景中的区以考虑(account)用户的经确定的注视位置中的错误或偏差。事实上，这需要搜索从视觉摄影机投射的圆锥体形状的内部。这是处理密集的和低效率的解决方案。

然而，在3D中(例如，在许多计算机游戏或在虚拟现实头戴装置中，摄影机可以旋转通过场景，并且典型地存在定义场景的大量几何形状，该大量几何形状可以作为遮挡体)，先前的方法是不太成功的。即使没有遮挡体，3D情况是有问题的。创造必要的遮掩来应对3D环境以及从不同的视点观察到的物体(不论它们是交互体或遮挡体)的不同的位置变得非常复杂。

这是因为，例如，3D游戏中的演员(能够以主动的方式与游戏者交互的游戏实体)的数量典型地比在2D应用中的多很多。实际上，这意味着在场景中的每个物体需要被认为是潜在的遮挡体。相反的，实际上是注视-可交互的物体(例如，其他人物的部分，其中，人物是可以被AI或者游戏者控制的演员)可能构成每个场景的仅仅5-10％。结果，需要十倍或者更多倍的带宽用于遮挡体，而不是用于注视-可交互物体。这对于实施来说是低效率的，并且对游戏开发者来说是难以实施的。

此外，游戏场景中的一些实体，例如，世界几何形状(world geometry)(房子、山等)，不自然地暴露渲染界限或物理界限，这意味着需要将这些网格投射在屏幕上，以为它们创造交互体遮挡体。这在计算方面可以是代价很高的。此外，这个世界几何形状中的一些是非常笨重的(山等)，所以为了以有意义的方式投射它们(以获得合适的遮挡体)，在执行任何投射前，首先采用网格分割算法是必要的。这变得不切实际。

最后，在一些情景中，期望知道用户的注视是否朝着在监视器或屏幕上显示的图像中未被视觉渲染的物体或范围。例如，物体或范围可能是不可见的、或可能不再在显示在屏幕上的图像的边界中。

因此，存在如何在3D场景中有效率地实施注视跟踪的问题。本发明的目标在于至少部分地克服这个问题。

发明内容

在一个实施例中，提供一种用于在三维(“3D”)场景中确定用户注视的关注目标(或焦点目标，focus target)的方法。所述方法可以包含确定用户对3D场景的第一注视方向，其中所述3D场景包含多个部件(构成元素,components)。所述方法也可以包含在3D场景中执行多个第一线迹，其中多个第一线迹中的每一个线迹接近所述第一注视方向。所述方法也可以包含为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值。所述方法可以附加地包含将与所述多个第一线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件识别为所述用户的关注目标。所述方法此外可以包含确定用户对3D场景的第二注视方向。所述方法可以还包含在3D场景中执行多个第二线迹，其中多个第二线迹中的每一个线迹接近所述第二注视方向。所述方法也可以包含为与所述多个第二线迹中的至少一个线迹相交并且与所述多个第一线迹中的至少一个线迹不相交的每个部件确定置信度值。所述方法还可以包含，如果与所述多个第二线迹中的至少一个线迹相交的所有部件的最高置信度值比与所述多个第一线迹中的至少一个线迹相交的所有部件的最高置信度值至少高出阈值量，则将用户的关注目标改变为与所述多个第二线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件。

在另一个实施例中，提供一种用于在3D场景中确定用户注视的关注目标的系统。所述系统可以包含显示设备、眼睛跟踪设备和处理设备。所述显示设备用于将3D场景呈现给用户，其中所述3D场景包括多个部件。所述眼睛跟踪设备用于确定用户对所述3D场景的注视方向。所述处理设备被配置成执行方法。所述方法可以包含从所述眼睛跟踪设备接收数据，所述数据识别用户对所述3D场景的第一注视方向。所述方法也可以包含在所述3D场景中执行多个第一线迹，其中所述多个第一线迹中的每一个线迹接近所述第一注视方向。所述方法还可以包含为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值。所述方法附加地可以包含将与所述多个第一线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件识别为所述用户的关注目标。此外，所述方法可以包含从所述眼睛跟踪设备接收数据，所述数据识别用户对所述3D场景的第二注视方向。所述方法还可以包含在所述3D场景中执行多个第二线迹，其中所述多个第二线迹中的每一个线迹接近所述第二注视方向。所述方法也可以包含为与所述多个第二线迹中的至少一个线迹相交并且与所述多个第一线迹中的至少一个线迹不相交的每个部件确定置信度值。所述方法还可以包含，如果与所述多个第二线迹中的至少一个线迹相交的所有部件的最高置信度值比与所述多个第一线迹中的至少一个线迹相交的所有部件的最高置信度值至少高出阈值量，将用户的关注目标改变为与所述多个第二线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件。

在另一个实施例中，提供一种非暂态机器可读介质，所述非暂态机器可读介质具有存储在其上的、用于在3D场景中确定用户注视的关注目标的指令。所述指令可由一个或多个处理器执行以执行方法。所述方法可以包含接收数据，所述数据识别用户对所述3D场景的第一注视方向。所述方法也可以包含在所述3D场景中执行多个第一线迹，其中所述多个第一线迹中的每一个线迹接近所述第一注视方向。所述方法还可以包含为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值。所述方法可以附加地包含将与所述多个第一线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件识别为所述用户的关注目标。此外，所述方法可以包含接收数据，所述数据识别用户对所述3D场景的第二注视方向。所述方法还可以包含在所述3D场景中执行多个第二线迹，其中所述多个第二线迹中的每一个线迹接近所述第二注视方向。所述方法也可以包含为与所述多个第二线迹中的至少一个线迹相交并且与所述多个第一线迹中的至少一个线迹不相交的每个部件确定置信度值。所述方法还可以包含，如果与所述多个第二线迹中的至少一个线迹相交的所有部件的最高置信度值比与所述多个第一线迹中的至少一个线迹相交的所有部件的最高置信度值至少高出阈值量，则将用户的关注目标改变为与所述多个第二线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件。

附图说明

参考示例性实施例和附图来描述本发明，其中：

图1是用于解释3D场景如何被渲染为2D图像的示意图；

图2是示出分开的视觉摄影机和注视-探测摄影机的使用的示意图；

图3是示出分开的视觉摄影机和注视-探测摄影机的不同使用的示意图；

图4是示出分开的视觉摄影机和注视-探测摄影机的另一使用的示意图；

图5是用于实施注视探测的系统的示意图；

图6是本发明的用于确定用户对3D场景的注视的关注目标的一个方法的框图；

图7是图6的方法的执行的说明性的示例；以及

图8-10是有关图6的方法的执行的附加说明。

具体实施方式

本发明涉及相对于3D场景的注视跟踪。术语“注视跟踪”在本文中用于指探测和/或监视眼睛的位置和/或眼睛的注视方向的任意系统。本领域技术人员将知晓到并理解这样的系统。

还需要注意的是，本描述也涉及“注视-可交互”物体(或对象)或区域。这个短语旨于指示系统可以探测的用户注视所朝向的物体。这可以导致或也可以不导致用于用户的显性(overt)的“交互”。例如，当系统探测到用户的注视正朝向注视-可交互物体时，用户可以看不见迹象。然而，物体已被随意看着的事实已被探测，并且可以被系统以非显性的方式使用(例如，用于统计学分析)。因此，术语“注视-可交互”不应被解释为需要与用户进行显性的交互。

图1提供3D场景的示例。这样的场景可以是(例如)在计算机游戏中的或为虚拟现实头戴装置创造的虚拟的3D场景10。场景10包含3D物体1。这样的物体1可以在场景10中随着时间移动。事实上，物体1也可以从场景10中移出，并且其他物体1也可以移入该场景。当在监视器或计算机屏幕上观察这样的3D场景时，监视器或屏幕呈现2D图像，所述2D图像代表从空间的特定位置通过视口2在3D场景上的看到的视图。视口2界定图像，所述图像通过相对于3D场景10位于抽象位置的摄影机或眼睛看到。摄影机位置和视口2的结合设定视野4。图1也示出视截头锥体3，视截头锥体3是在视口2中示出的3D场景10的范围(即，延伸至3D场景10的最后面的部分)。

图1的示意图也适用于(例如)在虚拟现实头戴装置中使用的立体图像。在那样的情况下，用户的每个眼睛呈现为对场景有稍微不同的视口，用户的大脑由此随后感知单个3D图像。在这个情况下，每个图像通常以非直线方式变形以补偿透镜特性。然而，其本质理念与上文参考图1针对呈现到用户的每个眼睛的每个图像而讨论的是相同的。

3D物体1可以是由多边形构造的、抽象、无限、复杂的3D形状。通过视口2看到的图像是当从摄影机的位置看时3D物体1在视口2的平面上的2D投影，如上文所述的。然而，2D视口2图像显示在其上的屏幕是由离散的元素或像素的阵列组成的。因此，3D物体1的投影必须通过在每一个屏幕像素位置上采样被投射的图像而被点阵化(栅格化)在显示网格上，以产生将作为视觉场景(即，通过视口2观察到的场景)呈现的图像。像素值作为2D“位图(bitmap)”被储存在存储区或缓存器中，该2D“位图”与屏幕或视口2对应于相同维度。

要注意的是,术语“位图”具有一些可能的含义。在本发明的上下文中，以及如在计算机图形领域中为常见的，“位图”用于指空间地映射的像素阵列的概念，其也可以被认为是“像素图(pixmap)”。术语位图不旨于就所存储的信息的位深度(bit depth)进行任何限制。在本发明中，所存储的信息的位深度是可变化的。

本发明使用具体存储有关在3D场景10中的注视-可交互区域的信息的位图。该位图可以与视觉位图结合，或者可以完全地分开。根据本发明，这样的位图的使用是生成“交互遮掩”的动态的和有效率的方式，否则开发者不得不手动地在3D场景中进行指定。因为遮掩的发展被认为是“屏幕空间”问题而不是3D场景问题，因此部分地实现了效率。也就是说，相比于像从前那样将指定遮掩的问题作为由开发者指定为在3D世界中被解决的问题，本发明的出发点是意识到注视跟踪是相对于2D窗口或视口(典型地，但不是必然地，屏幕)执行的。因此，“遮掩”能够基于2D窗口而创造，而不是在3D世界中创造。

当考虑注视跟踪时，不是所有3D物体1将是注视-可交互的。因此，根据本发明，可能的是通过只考虑注视-可交互的那些区域来简化用于注视跟踪的3D场景10。这可以用于生成单独的位图，所述单独的位图可以存储到缓存器以与注视探测系统一起使用。这可以在之后以更多细节讨论。

用于注视探测的位图将对应于由用户在屏幕上以预定方式观察到的视觉场景。例如，它们可以代表通过相同的视口从相同的摄影机位置观察到的相同3D场景10(但尽管如此，存储不同信息，因为注视探测位图将只考虑注视-可交互物体的性质，如下所讨论的)。然而，那样的关系不是唯一可能的。

例如，用于注视探测位图和视觉场景的摄影机可以是同地存在的(coincident)，但是显示至用户的视觉场景可能不完整。这样的原因的一个示例可以是用户正在在电视机上使用“图中图(picture-in-picture)”模式。因此，可能的是使用注视探测位图来跟踪当物体经过显示着不同、覆盖的图像的屏幕范围时，用户的注视是否跟踪该物体的位置。在另一个变化中，相同的物体可以在3D场景10的视觉和注视交互渲染中以不同形式出现。例如，在注视交互渲染中，物体1可以具有增加的尺寸，以使得当用户的注视指向该物体1时，用户的注视更易于注意到那个物体1。其他不同的可能性在之后讨论。

在一些场景中，用于注视-可交互位图的视口可以不同于视觉场景视口。例如，如果期望跟踪用户的注视是否持续朝向移出视截头锥体3的物体，则可以是这样的情况。在那样的情况下，用于注视-可交互位图的摄影机可以与用于视觉场景视口的摄影机位于相同的抽象位置，但是注视可交互视口的尺寸可能更大。这在图2中示出。需要注意的是，虽然图2-4示出3D概念，但为简单起见，它们以2D平面视图呈现。

在图2中，3D注视-可交互物体1被视觉摄影机20和注视探测摄影机30两者从相同的位置观察。然而，相对应的注视探测摄影机具有更大的视场，从而引起与较小视觉场景视口2相比更大的注视探测视口5(请注意：为了清楚的目的，特征2和5在图2中被示出为稍稍分开，但为了本讨论的目的，其被认为其是同地存在的(coincident))。此外，摄影机之间可能具有光学参数上的其他不同，该光学参数例如为焦深、分辨率以及包括桶形失真、枕形失真等等的变形等。其结果是，在视觉摄影机20中只看见正方形3D物体1，而三角形3D物体1通过注视探测视口5对注视探测摄影机部分可见。这样，确定用户的注视朝向三角形物体1是可能的，即使它在视觉视口2中不可见。

图3描绘了可选择的可能性，其中，视觉场景摄影机20和相应的注视跟踪摄影机30的位置是不一致的。例如，这可能是考虑到(相比于用户的眼睛)屏幕的位置和方向之间的偏移。在这个情况下，如图3所示，不仅不同的注视-可交互物体1通过不同视口2，5可见(注视探测视点5示出三角形物体和正方形物体1两者，然而视觉视口2仅示出正方形物体1)，而且视口2、5也将示出从不同角度查看正方形物体1时它的不同投影。

如上文提到的，在另一个场景中，不是场景中的所有物体都可以是注视-可交互的。这在图4中示出。在图4中，只有正方形物体1是注视-可交互的，并且因此仅是物体1被渲染至注视探测摄影机30的视口5。然而，正方形物体和三角形物体1两者都被渲染至对应视觉视口2。

应该注意的是，在图4的场景中，正方形物体1被渲染至注视探测视口5，即使正方形物体2由于三角形物体1的位置在正方形物体1和视口2之间而在视觉场景中可能不可见(或者至少部分被挡住)。非注视-可交互物体在注视交互位图的创造中被有效地忽略了。

在操作中，在图4的场景中，视觉场景和对应的注视-可交互场景可以(例如)完全独立渲染。可选择地，在单个虚拟场景10中的物体可以被提供以特性，以将物体识别为在视觉场景或注视探测场景中的一个或另一个中被渲染或不被渲染的物体。

替换地，虽然没有在图中示出，在场景中存在实际上仅仅是注视-可交互的并且在视觉场景中不是明显的元素。例如，物体可以在视觉场景中变得不可见，但可以保持为注视-可交互的(即，以使得用户能够通过推断其先前的移动来尝试跟踪其进展)。可选择地，3D场景可以包含扇区、区和范围，其是注视-可交互的，但是其不对应于特定的视觉物体。例如，在游戏中的场景可以包含“危险的”范围，如果用户的注视朝向该范围，其将触发响应。

本描述的上述部分已经讨论了视觉摄影机和注视交互摄影机20，30可以互相对应的不同的方式。以下部分以更多细节讨论如何产生和使用注视交互位图。

图5示出系统40的示意图，在该系统中可以实施注视探测。系统40包含屏幕或监视器41，以及注视探测器42。屏幕可以是常见的或不常见的形式，包括虚拟屏幕(例如，视网膜投影器或车辆中的头戴显示器)。注视探测器42和屏幕41两者连接到计算机43。在现代计算机43中，对于并行计算，图像处理单元(GPU)45常常是中央处理单元(CPU)44的10-100倍之快。因此，使用GPU45来实施本发明是优选的。然而，本发明可以使用任何合适的处理器(例如，CPU44)来实施。

计算机还包括存储器46，其包含缓存器，注视探测位图47可以存储在该缓存器中。如上文所提到的，缓存器优选地是可变位深度的。缓存器至少包含足够的位深度，以编码场景10中呈现的每个注视-可交互区域1(如上文所提到的，术语“区域”用于包含3D物体与3D空间的范围两者)的一个性质表示。在注视交互摄影机和视觉代表摄影机30、20为同地的并且具有相同尺寸的视口5、2的的情况下，缓存器可以结合视觉缓存器被实施。具体地，如果视觉缓存器以RGBA格式实施，那么在阿尔法(alpha)通道中具有不被使用的位是常见的。在本发明的一些实施方式中，那些空闲的位可以被用于存储与感兴趣的区域1有关的信息。

无论如何，无论使用什么特定的格式，缓存器用于存储位图47，所述位图47代表从注视交互摄影机30到3D场景上的视口5。注视-可交互区域1投射到其上的位图47的像素用于存储注视-可交互区域1的性质。

存储在位图47的性质可以是唯一的识别符(ID)，其识别特定的注视-可交互区域。然而，这并不总是如此。例如，在场景10中具有“危险的”区域的想法之前已经讨论过了。在那个情况下，与识别用户注视已经朝向“危险”区的(任何)一个区相反，不需要区分各个“危险”范围。在那个情况下，存储在位图中的信息可以简单地表示该范围具有“危险的”性质，而没有任何唯一的ID。

位图47中的像素可以被用于存储有关感兴趣的区域的多于一个性质的信息。例如，与唯一的ID结合(或取代唯一的ID)，可以期望储存有关注视交互的其他信息。

这样的注视交互信息可以是与物体1关联的元数据，例如，该元数据指示物体1的相对视觉重要性。该信息可以用于辅助算法，以在两个注视-可交互物体1位置相互靠近的情况下，探测用户是否看着特定的物体：如果确定用户正在看着两个物体中的哪个是困难的，可以假设用户看着视觉上最“重要的”物体。

可以储存在位图47中的其他有用的注视交互信息也可以包括关于物体1的运动的信息，例如，其速度和/或加速度。该信息也可以与启发法相关，所述启发法衡量用户注视朝向特定的区中的任意特定物体的可能性(例如，更快移动的物体更可能吸引用户注意)。用于这样的衡量的任何其他变量也可以(或者可选择地)存储在位图47中。

除视觉场景信息外，创造注视交互位图47增加计算需求。在本发明中，节省计算代价的一个方法是(如果需要的话)例如相比于视觉场景降低取样注视交互位图47的大小(即，为其使用更少的像素)。另一个可选的方式是指定视觉场景的潜在为注视-可交互的部分(例如，以忽略菜单栏或其他恒定不变的视觉项，这可能意味着场景的一些区域永远不会是视觉可交互的)。这将降低计算负荷(但是在降低采样的情况下以降低精确度为代价)。

如从上述讨论中显而易见的，渲染至注视交互位图47的唯一项是识别为注视-可交互区域1的物体和区。这样的物体和区在3D场景10的编程/设计中预定义。

此外，存储在位图47中的信息可以包含在创造场景10时关于注视-可交互区域1定义的相关特性。在一些情况下，期望在位图的相同像素中存储有关多个物体的信息(即，如果多个注视-可交互物体彼此前后对齐)，并且在那样的情况下，可以储存相关联的索引，以(例如)表明相对于视口物体的接近顺序。

此外，在基于3D场景10的投影而渲染位图47时，可以使用任何可利用的深度缓存器和/或模板缓存器数据。这样，可能的是有效地提供更有效率的、并且已集成并且支持的、替代之前的方法的替代方法，以处理遮挡和世界几何拆分/投射，否则其会变得麻烦。以与将场景投射至视口的相同方式，通过考虑2D环境中的“交互遮掩”，这个目标是可能的，并且因此在遮掩的创造(即，位图47)中利用现有的图形渲染能力。一旦位图47被创造并且被储存，其可以与任何眼睛跟踪硬件42结合使用，以确定用户的注视是否朝向注视-可交互区域1。例如，这可以通过相对于显示在屏幕41上的视觉场景来监视用户的眼睛来做到，但也可以通过相对于用于注视交互位图47的视口5或甚至完全单独的视口而监视用户的眼睛来做到。只要知道不同的视口之间的关系，从每个视口的相应的场景10可以相互关联并且可以作出有关用户的注视方向的确定。

一旦用户的注视方向被确定，通过参考存储在位图47中的性质信息，注视交互位图47可以被用于确定注视是否朝向注视-可交互区域1。有关用户的注视所朝向的注视-可交互区域1的性质的任何信息可以随后被用于确定用户正在看着特定区域1的结果。

如上所讨论的，通过有效地渲染注视交互场景，本发明允许有效率地确定用户是否正在看着3D场景中的注视-可交互物体。可以使用有关注视-可交互场景的信息(例如，结合视觉场景)来确定用户注视方向的结果。

图6示出了本发明的用于识别在三维(“3D”)场景中用户注视的关注目标的方法600的框图。图7示出了用户的模拟3D视点示意图700，用户对3D场景的注视由眼睛跟踪装置确定。用户的视点705观察显示经渲染的3D场景715的2D显示器710。在这个示例中，3D场景715包含两个物体720A、720B。物体720A、720B被渲染为形状725A、725B。图8示出了直接从用户的视点705观察的显示器710。

在框605中，3D场景715在显示器710上显示至用户。显示器710可以是例如为虚拟现实头戴装置的可穿戴设备，或例如为电视、监视器或投影设备的传统显示器。场景可以包含在3D空间中渲染的一些物体，以使得使场景进行显示的系统能够分别识别它们，并且为每个物体指定/保持不同的性质。

在框610中，如本文所讨论的那样，用户对3D场景的注视方向使用眼睛跟踪设备来探测。期望确定用户最可能注视3D场景中的什么物体，用户的最可能注视是由于3D场景中的物体可以相对于用户移动(即，物体可以移动，或用户的位置/视角可以移动)，物体可以彼此紧邻，和/或(全部或部分地)由其他物体或物品所掩盖。因此，方法的剩余部分继续，以确定由用户注视的物体。第一探测注视方向805在图8中示出。

在框615处，处理设备在3D场景中靠近用户的视点的地方执行多个线迹。线迹可以大致描述为投射在3D场景中的想象线，用以确定用户可能观察到什么物体或物体的什么部分。因此，线迹可以与在场景的直接的前景中的大的物体相交，但紧跟在该场景中的该大的物体的后面的并被该大的物体遮挡的小的物体不与线迹相交。

四个示例线迹810在图8中示出。事实上，可以使用任意数量的线迹。线迹的位置可如所示出的那样在不同的扇区815中分布，该线迹距注视方向805的距离以高斯方式(Gaaussian manner)设置(即，线迹更有可能距注视方向805更近而不是更远)。虽然只示出四个扇区815，但是可以使用任意数量的扇区。相似的，线迹810分布在其中的近似圆815的尺寸可以改变。

在框620处，确定线迹810与什么物体相交。在这个示例中，物体720A被相交(如线迹810之一与2D呈现725A的相交所示)。这个物体被加入可能是用户的关注目标的候选物体的列表中。

在框625处，为在列表中的每个候选物体确定置信度值(confidence value)。置信度值可以比最小值更大，或是相交的线迹的数目(这里为1)相对于所投射的线迹总数(这里为4)的函数。

在框630处，由于这是对场景的第一探测注视方向805(和第一组线迹)，具有最高置信度值的候选物体被选为关注目标。因此，物体720A(2D呈现725A)被选为关注目标。这符合预期，因为第一注视方向805最接近物体720A。

在框635处，在候选物体列表中每个物体的置信度值衰减第一值。因此，与物体720A有关的置信度值衰减第一值。列表中的没有与上一轮注视方向探测/线迹中的线迹相交的任何物体可以衰减第二值，所述第二值大于所述第一值。

随后重复所述方法，其中所渲染的3D场景又一次被显示，并伴随场景的被调整的物体的取向和/或位置的任意改变。在本文所讨论的示例中，取向和/或位置不改变，因为这对理解本发明的实施例不是必要的。

图9示出了第二探测注视方向905和相应的线迹910。在这一轮的探测和线迹中，一个线迹已碰到物体720A，并且另一个线迹已碰到物体720B。因此，物体720B被加入到候选物体列表，并且如上文所描述的那样计算相关置信度值。物体720A也继续列表中，并且相关置信度值被计算。由于物体720B的置信度值没有超出作为之前所确定的关注目标的物体720A的置信度值至少阈值量，所以确定的关注目标继续为物体720A。

然而，再一次地，候选物体列表上的所有物体的置信度值衰减一定值。如对本领域的技术人员将是显而易见的，衰减候选物体的置信度值协助将候选物体(一旦候选物体没有在所述方法的一个或多个轮的执行期间被线迹碰到)从列表中移除。最小的可能置信度值也确保候选物体不会立即通过衰减而从候选物体列表中移除。此外，本领域的技术人员也将认识到潜在的需求，所述潜在的需求要求任何潜在的新的关注目标的置信度值超出之前识别的关注目标至少阈值量，以防止迟滞现象(hysteres)(即，由于置信度值的不显著的变化/差异，反复地在物体之间改变关注目标)。

图10示出了注视检测1005和线迹1010的第三轮。重复上述过程，由于碰到物体720B的线迹1010的增加的数量，连同物体720A的置信度值的衰减一起，物体720B的置信度值超出物体720A的置信度值至少阈值量，从而选择新的关注目标(物体720B)。

在一些实施例中，如果仍然在候选物体列表上的物体没有被新一轮的线迹碰到并且因此看起来像是“错过”，则会在最后的已知位置处和/或最后的已知位置附近制作一个或多个线迹，该最后的已知位置为线迹上次与“错过”的物体相交的位置。因为被选择的线迹位置的随意性，可能的是：当物体实际上仍在那里的时候，或者被另一物体或其他项至少部分地掩盖，该物体可能被错过。

Claims

1.一种用于在三维(“3D”)场景中确定用户注视的关注目标的方法，其中所述方法包括：

确定用户对3D场景的第一注视方向，其中所述3D场景包含多个部件；

在所述3D场景中执行多个第一线迹，其中所述多个第一线迹中的每一个线迹接近所述第一注视方向，并且其中所述多个第一线迹包括至少两个线迹，其中所述至少两个线迹中的每一个线迹与所述第一注视方向呈不同的角距离；

为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值；以及

将与所述多个第一线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件识别为所述用户的关注目标。

2.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中所述方法还包括：

确定所述用户对所述3D场景的第二注视方向；

在所述3D场景中执行多个第二线迹，其中所述多个第二线迹中的每一个线迹接近所述第二注视方向；

为与所述多个第二线迹中的至少一个线迹相交并且与所述多个第一线迹中的至少一个线迹不相交的每个部件确定置信度值；

如果与所述多个第二线迹中的至少一个线迹相交的所有部件的最高置信度值比与所述多个第一线迹中的至少一个线迹相交的所有部件的最高置信度值至少高出阈值量，则将所述用户的关注目标改变为与所述多个第二线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件。

3.根据权利要求2所述的用于在3D场景中确定用户注视的关注目标的方法，其中所述方法还包括：

随着时间衰减与所述多个第一线迹中的至少一个线迹和所述多个第二线迹中的至少一个线迹相交的每个部件的置信度值。

4.根据权利要求2所述的用于在3D场景中确定用户注视的关注目标的方法，其中所述方法还包括：

随着时间以第一速率衰减与所述多个第一线迹中的至少一个线迹和所述多个第二线迹中的至少一个线迹相交的每个部件的置信度值；以及

随着时间以第二速率衰减与所述多个第一线迹中的至少一个线迹相交、但与所述多个第二线迹中的至少一个线迹不相交的每个部件的置信度值，其中所述第二速率比所述第一速率大。

5.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中：

所述3D场景被渲染在至少一个二维显示器上。

6.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中所述多个第一线迹中的每一个线迹接近所述第一注视方向包括：

所述多个第一线迹中的每一个线迹角接近所述第一注视方向。

7.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中：

所述至少两个线迹中的每一个线迹的所述角距离比预定最大角距离小。

8.根据权利要求7所述的用于在3D场景中确定用户注视的关注目标的方法，其中：

所述第一注视方向与所述至少两个线迹中的任意一个线迹的角距离是随机的。

9.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中所述多个第一线迹包括：

至少两个线迹，其中所述至少两个线迹中的每一个线迹与所述第一注视方向呈不同的角方向。

10.根据权利要求9所述的用于在3D场景中确定用户注视的关注目标的方法，其中：

所述至少两个线迹中的每一个线迹在以所述第一注视方向为中心的圆的不同扇区中。

11.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中：

如果所述多个第二线迹中没有一个线迹与和所述多个第一线迹中的至少一个线迹相交的特定部件相交：

确定所述特定部件的先前位置；并且

在所述先前位置的方向上执行至少一个线迹。

12.根据权利要求11所述的用于在3D场景中确定用户注视的关注目标的方法，其中朝所述先前位置执行至少一个线迹包括：

执行多个第三线迹，所述多个第三线迹角接近所述先前位置的方向。

13.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值包括：

对所述置信度值指定预定最小值；或者

所述置信度值是以下各项的函数：

所述多个线迹中与所述部件相交的线迹的数量；和

所述多个线迹中线迹的总数。

14.根据权利要求1所述的用于在3D场景中确定用户注视的关注目标的方法，其中为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值包括：

对所述置信度值指定预定最小值；或者

所述置信度值是以下各项的函数：

所述多个线迹中与所述部件相交的线迹的数量；

所述多个线迹中线迹的总数；和

所述部件的经指定的或经确定的性质。

15.一种用于在3D场景中确定用户注视的关注目标的系统，所述系统包括：

显示设备，所述显示设备用于将3D场景呈现给用户，其中所述3D场景包括多个部件；

眼睛跟踪设备，所述眼睛跟踪设备用于确定用户对所述3D场景的注视方向；以及

处理设备，所述处理设备被配置成至少：

从所述眼睛跟踪设备接收识别用户对所述3D场景的第一注视方向的数据；

16.根据权利要求15所述的用于在3D场景中确定用户注视的关注目标的系统，其中所述处理设备还被配置为至少：

从所述眼睛跟踪设备接收识别所述用户对所述3D场景的第二注视方向的数据；

为与所述多个第二线迹中的至少一个线迹相交并且与所述多个第一线迹中的至少一个线迹不相交的每个部件确定置信度值；以及

如果与所述多个第二线迹中的至少一个线迹相交的所有部件的最高置信度值比与所述多个第一线迹中的至少一个线迹相交的所有部件的最高置信度值至少高出阈值量，则将用户的关注目标改变为与所述多个第二线迹中的至少一个线迹相交的所有部件中具有最高置信度值的部件。

17.根据权利要求16所述的用于在3D场景中确定用户注视的关注目标的系统，其中所述处理设备还被配置为至少：

18.一种非暂态机器可读介质，所述非暂态机器可读介质具有存储在其上的、用于在3D场景中确定用户注视的关注目标的指令，其中所述指令可由一个或多个处理器执行，以至少：

接收识别用户对所述3D场景的第一注视方向的数据；

在所述3D场景中执行多个第一线迹，其中所述多个第一线迹中的每一个线迹接近所述第一注视方向；

为与所述多个第一线迹中的至少一个线迹相交的每个部件确定置信度值，其中所述多个第一线迹包括至少两个线迹，其中所述至少两个线迹中的每一个线迹与所述第一注视方向呈不同的角距离；以及

19.根据权利要求18所述的非暂态机器可读介质，所述非暂态机器可读介质具有存储在其上的、用于在3D场景中确定用户注视的关注目标的指令，其中所述指令可进一步由所述一个或多个处理器执行，以至少：

接收识别用户对所述3D场景的第二注视方向的数据；

如果与所述多个第二线迹中的至少一个线迹相交的所有部件的最高置信度值比与所述多个第一线迹中的至少一个线迹相交的所有部件的最高置信度值至少高出阈值量，则将用户的关注目标改变为与所述多个第二线迹中的至少一个相交的所有部件中具有最高置信度值的部件。