CN107920734B

CN107920734B - 视线检测方法和装置

Info

Publication number: CN107920734B
Application number: CN201680044591.XA
Authority: CN
Inventors: F·琳达; M·哥斯达伍森; A·凡斯琼姆; A·艾德林
Original assignee: Tobii AB
Current assignee: Tobii AB
Priority date: 2015-06-03
Filing date: 2016-06-02
Publication date: 2020-10-02
Anticipated expiration: 2036-06-02
Also published as: US20160357255A1; US10579142B2; CN107920734A; WO2016193394A1; EP3302228A1; GB201509622D0; KR20180033138A; US20190155383A1; US11709545B2; US10216268B2; GB2539009A; US20200285311A1; CN112215220A

Abstract

一种用于确定用户的视线是否指向3D场景中的感兴趣区的方向的方法包括：提供包含感兴趣区的3D场景；将属性与该感兴趣区相关联；创建表示该感兴趣区在3D场景的投影视图中的定位的位图，该感兴趣区所投影到的该位图的每个像素存储该感兴趣区的属性；检测用户的视线的方向；使用该位图来确定检测到的用户的视线是否指向该感兴趣区的方向。

Description

视线检测方法和装置

本发明涉及当用户正在观察3D场景时跟踪用户的视线，并且具体涉及如何确定用户的视线是否指向3D场景中的感兴趣区的方向。

已知检测眼睛及其视线方向，这例如可以通过以下方式来完成：使用红外辐射照亮寻找(seek)眼睛的区域；捕获该区域的图像；以及检测该图像中的从眼睛的瞳孔和角膜得到的明亮点。该方法利用了摄影师已知的明亮的眼睛或“红眼”效应，其中光线进入眼睛并被反射或者通过瞳孔而被吸收并重新发射，使得瞳孔看起来比脸部和眼睛的其余部分亮。一个单独的、较小的明亮点(也称为闪光点(glint))是由角膜创建的。瞳孔和角膜闪光点的相对位置可以用来确定眼睛的视线方向。更多细节在US 6,152,563中给出。

可替代地或互补地，可以使用类似的技术，其中红外照明器与图像传感器间隔开，因此由图像传感器捕获的图像具有不明亮的瞳孔，也被称为“暗瞳孔”效应。

该视线跟踪技术可以在例如位于显示器附近的远程视线跟踪器中实现，或者在诸如一副眼镜、虚拟现实耳机、增强现实耳机、头盔之类的可穿戴设备中实现。

这种视线跟踪技术可以用来确定用户是否正在看着屏幕上的特定物体或分区(area)(这些物体或分区在本文档中一般称为“区”)。例如，这可以作为游戏的一部分。这允许用户通过看着屏幕上的图像(看着图像的行为具有预定结果)来与这些图像进行交互，或者通过看着图像和另一个控制的组合(例如，用户按下键盘或鼠标上的键，同时其视线指向该图像)来与图像进行交互。

通常，屏幕上的图像可能包含视线可交互区以及不是视线可交互的区。

用于确定用户的视线是否指向图像中的视线可交互区的先前方法倾向于基于开发者需要指定“交互掩模(mask)”来指示可交互元素在屏幕上的定位。这些可以在某些约束下运作良好。这些约束包括使用静态“相机”(即，用来确定屏幕上的图像的视点)，以及维持少量作为“遮挡物(occluder)”的可移动物体(需要被标记为视线可交互的元素，但仅是为了传输视觉剔除信息的目的，而不是本身为“可交互”)。而且，这样的系统通常依赖于在视觉场景中可见的视线可交互物体。

此外，先前已经可以从虚拟相机轮流检测(poll)或以其他方式投影线以确定场景内与它相交的物体。然而，由于视线跟踪技术内在缺乏100％的准确性，因此优选地轮流检测场景的分区以考虑用户确定的视线定位的误差或偏移。实际上，这需要在从虚拟相机投影的锥形内进行搜索。这是处理密集且低效的解决方案。

然而，在3D(其中相机可以在场景中旋转，诸如在许多计算机游戏中或在虚拟现实耳机中，并且通常存在可以用作遮挡物的限定场景的大量几何体)中，先前的方法不是如此成功。即使没有遮挡物，3D情况也是有问题的。创建必需的掩模来应对3D环境和物体(不管它们是交互物还是遮挡物)从不同视点看去的变化的定位变得非常复杂。

这是因为，例如，3D游戏中的演员(actor)(可以以主动方式与玩家交互的游戏实体)的数量通常比在2D应用中高得多。这实际上意味着场景中的每个物体都需要被视为潜在的遮挡物。相比之下，实际上意图视线可交互的物体，诸如部分其他角色(character)(角色是可以被AI或玩家拥有的演员)，可能包含少至每个场景的5-10％。结果，与视线可交互物体相比，遮挡物需要10倍或更多的带宽。这对于实现而言是低效的，并且对于游戏开发者来说实施起来麻烦。

另外，游戏场景中的某些实体(诸如世界几何体(房屋、山等))本身不暴露呈现边界(renderbound)或物理边界，这意味着需要将这些网格投影到屏幕来为它们创建交互物遮挡物。这在计算上可以是极其昂贵的。另外，该世界几何体中的某一个是极其笨重的(山等)，所以为了以有意义的方式投影它们(以获得适当的遮挡物)，在执行任何投影之前首先使用网格划分算法将变得必需。这变得不切实际。

最后，在某些情形下可能希望知道用户的视线是否指向在监视器或屏幕上显示的图像中未被可视地呈现的物体或区域。例如，物体或区域可能是不可见的，或者可能不再处于屏幕上显示的图像的边界内。

因此，存在如何在3D情形下有效地实现视线跟踪的问题。本发明旨在至少部分地克服该问题。

根据本发明，提供了一种用于确定用户的视线是否指向3D场景中的感兴趣区的方向的方法，该方法包括：提供包含感兴趣区的3D场景；将属性与该感兴趣区相关联；创建表示该感兴趣区在3D场景的投影视图中的定位的位图，该感兴趣区所投影到的位图的每个像素存储该感兴趣区的属性；检测用户的视线的方向；使用位图来确定检测到的用户的视线是否指向该感兴趣区的方向。

该方法有效地允许以位图的形式动态且高效地生成“交互物掩模”。这样，游戏开发者的负担被减轻，并且视线交互可以更容易地并入3D情形。

检测步骤可以包括检测用户的视线相对于位图或3D场景的另一投影的方向。

该方法还可以包括为用户提供对应于3D场景的视觉表示；并且检测步骤可以包括检测用户的视线在该视觉表示内的方向。

位图的视口(viewport)和视觉表示的视口可以相对于3D场景处于相同位置。可替代地，位图的视口和视觉表示的视口可以相对于3D场景不处于相同位置。可替代地，视觉表示的视口可以属于与3D场景相对应的第二场景。

感兴趣区或感兴趣区的部分在视觉表示内可能不可见。感兴趣区或感兴趣区的部分因为被隐藏在一个或多个其他物体后面而在视觉表示内可能不可见。

该方法还可以包括确定用户的视线指向在视觉表示内不可见的感兴趣区或感兴趣区的部分。

可以存在多个感兴趣区。不同的感兴趣区可以与不同的属性相关联。创建步骤可以包括创建具有包含感兴趣区的多个属性的像素的位图，并且创建步骤还可以包括向像素中的属性分配用来指示感兴趣区在场景内的相对深度的索引(index)。属性可以是以下各项之一：感兴趣区的标识符，关于感兴趣区的运动的信息，或者关于感兴趣区的视觉重要性的信息。该方法还可以包括将多个属性与该感兴趣区或每个感兴趣区相关联。

3D场景可以是模拟的3D场景。

可以使用对应于3D场景的深度缓冲和/或模板缓冲数据来创建位图。

根据本发明的另一方面，提供了一种用于确定用户的视线是否指向3D场景中的感兴趣区的方向的装置，该装置包括：缓冲器，其被配置为存储表示感兴趣区在3D场景的投影视图中的定位的位图，该感兴趣区所投影到的位图的每个像素存储该感兴趣区的属性；检测器，用于检测用户的视线的方向；处理器，用于使用位图来确定检测器所检测到的视线是否指向感兴趣区的方向。

下面参照示例性实施例和附图来描述本发明，在附图中：

图1是用于说明如何将3D场景呈现为2D图像的图；

图2是示出分开的视觉和视线检测相机的用途的图；

图3是示出分开的视觉和视线检测相机的另一用途的图；

图4是示出分开的视觉和视线检测相机的又一用途的图；并且

图5是用于实现视线检测的系统的图。

本发明涉及关于3D场景的视线跟踪。术语视线跟踪在本文中用来指代检测和/或监视眼睛的定位和/或眼睛视线的方向的任何系统。本领域的技术人员将会知道并理解这样的系统。

还注意到，描述也提及“视线可交互的”物体或区。该短语意图指示这样的物体：系统可以检测到用户的视线正在指向该物体。这可能会或可能不会引起用户的显性“交互”。例如，当系统检测到用户的视线正在指向视线可交互的物体时，用户可能看不到迹象(sign)。然而，物体已被看着的事实已经被检测到并且可能被系统以非显性的方式使用(例如用于统计分析)。因此，术语“视线可交互的”不应被解释为需要与用户进行显性交互。

图1提供了3D场景的示例。这样的场景可以是虚拟3D场景10(诸如在计算机游戏中或为虚拟现实耳机而创建)。场景10包含3D物体1。这样的物体1可以随着时间而在场景10内移动。事实上，物体1也可以移动出场景10，并且其他物体1可以移动到场景中。当在监视器或计算机屏幕上观看这样的3D场景时，监视器或屏幕呈送2D图像，该2D图像表示3D场景上的从空间中的特定定位通过视口2的视图。视口2界定相对于3D场景10位于理论(notional)位置的相机或眼睛所将看到的图像。相机位置和视口2的组合设定视场4。图1还示出了视截头锥体(frustum)3，其是在视口2中示出的3D场景10的区域(即，延伸到3D场景10的最后面部分)。

图1例如也适用于诸如在虚拟现实耳机中使用的立体图像。在这种情况下，用户的每只眼睛被呈送以到场景上的稍微不同的视口，用户的大脑然后从该视口感知单个3D图像。在这种情况下，每个图像通常以非线性方式变形以补偿透镜特性。然而，对于呈送给用户的每只眼睛的每个图像，基本概念与参考图1讨论的相同。

3D物体1可以是理论上无限复杂的3D形状，由多边形构造。如上面所讨论的，经由视口2观看的图像是如从相机位置看到的3D物体1到视口2的平面上的2D投影。然而，显示2D视口2图像的屏幕由离散元件或像素的阵列组成。因此，3D物体1的投影必须通过在每个屏幕像素定位处对投影图像进行采样而被点阵化(rasterize)到显示栅格上，以产生将作为视觉场景(即，通过视口2观察的场景)被呈送的图像。像素值被存储在存储器分区或缓冲区中，作为对应于与屏幕或视口2相同尺寸的2D“位图”。

注意，术语“位图”具有数个可能的含义。在本发明的上下文中，并且如在计算机图形学领域中常见的那样，其被用来指代空间映射的像素阵列的概念，其也可以被称为“像素图(pixmap)”。术语位图并非意图传达在存储的信息的位深度方面的任何限制。在本发明中，存储的信息的位深度可以是可变的。

本发明利用专门存储关于3D场景10中的视线可交互区的信息的位图。该位图可以与视觉位图组合，或者可以是完全分离的。根据本发明的这种位图的使用实际上是生成“交互掩模”的动态且高效的方式，否则开发人员将不得不在3D场景中手动指定该“交互掩模”。效率被部分地实现，因为掩模的形成被认为是“屏幕空间”问题，而不是3D场景问题。也就是说，本发明的出发点是要认识到视线跟踪是针对2D窗口或视口(通常是但不一定是屏幕)来执行的，而不是与过去一样将指定掩模的问题作为在由开发者指定的3D世界中解决的问题来处理。因此，可以基于该2D窗口来创建“掩模”，而不是在3D世界中创建“掩模”。

当考虑视线跟踪时，不是所有的3D物体1都将会是视线可交互的。因此，根据本发明，可以通过仅考虑视线可交互的那些区来简化用于视线跟踪的3D场景10。这可以用来生成一个单独的位图，该位图可以被存储到缓冲器以便与视线检测系统一起使用。这稍后被更详细地讨论。

用于视线检测的位图将以预定方式对应于由用户在屏幕上观察到的视觉场景。例如，它们可以表示从相同的相机位置通过相同的视口观察到的相同的3D场景10(但是仍然存储不同的信息，因为视线检测位图将仅关注视线可交互物体的属性，如下面所讨论的)。但是，这种关系不是唯一的可能性。

例如，用于视线检测位图和视觉场景的相机可能是一致的，但是向用户显示的视觉场景可能不完整。其一个示例可以是因为用户正在使用电视上的“画中画”模式。这样，可以使用视线检测位图来跟随在物体穿过示出另一重叠的图像的屏幕区域时用户的视线是否正在跟踪物体的位置。在另一个变体中，相同的物体可以以不同的形式出现在3D场景10的视觉和视线交互呈现中。例如，物体1在视线交互呈现中可以具有增加的尺寸，以使得用户的视线较容易表现为指向该物体1。下面讨论其他不同的可能性。

在一些情形中，用于视线交互位图的视口可能与视觉场景视口不同。例如，如果期望跟踪用户的视线是否继续指向移动出视截头锥体3的物体，则可能是这种情况。在这种情况下，视线交互位图的相机可以位于与视觉场景视口的相机相同的理论位置，但是视线交互视口的大小可能较大。这在图2中示出。注意，虽然图2-4示出了3D概念，但是为了简单起见，它们被呈送为2D平面视图。

在图2中，通过视觉相机20和视线检测相机30从相同的定位观看3D视线可交互物体1。然而，对应的视线检测相机具有较宽的视场，导致与较小的视觉场景视口2相比更大的视线检测视口5(注意，特征2和5为了清楚起见在图2中被示出为稍微分开，但是为了本讨论的目的被认为是重合(coincident)的)。另外，在相机之间可能存在光学参数的其他差异，诸如包括桶形(barrelling)、枕形(pincushion)等的失真、焦点深度和分辨率等。结果，在视觉相机20中仅看到方形3D物体1，而三角形3D物体1通过视线检测视口5对于视线检测相机是部分可见的。因此，可以确定用户的视线将指向三角形物体1，即使其在视觉视口2内不可见。

图3描绘了替代的可能性，其中视觉场景相机20和对应的视线跟踪相机30的定位不重合。这例如可以考虑与用户的眼睛相比的屏幕的位置和方向之间的偏移。在这种情况下，如图3所示，不仅不同的视线可交互物体1将经由不同的视口2、5而可见(视线检测视口5示出三角形和方形物体1两者，而视觉视口2仅示出方形物体1)，而且由于方形物体1正在从不同的角度被观看，视口2、5将示出方形物体1的不同投影。

在另一种情形中，如上所述，并非场景中的所有物体都可以是视线可交互的。这在图4中示出。在图4中，只有方形物体1是视线可交互的，因此这是呈现给视线检测相机30的视口5的唯一物体1。然而，方形和三角形物体1两者被呈现给对应的视觉视口2。

应当注意的是，在图4的情形中，即使方形物体1由于三角形物体1位于方形物体1和视口2之间而在视觉场景中可能不可见(或被至少部分阻挡)，方形物体1也被呈现给视线检测视口5。在视线交互位图的创建中，非视线可交互物体被有效地忽略。

实际上，在图4的情形中，视觉和对应的视线可交互场景例如可以被完全独立地呈现。可替代地，单个虚拟场景10内的物体可以被提供以属性，以将它们标识为在视觉或视线检测场景中的一个或另一个中呈现或不呈现的物体。

事实上，虽然未在附图中示出，但是在场景中可能存在实际上只是视线可交互的并且在视觉场景中不明显的元素。例如，物体可能在视觉场景内变得不可见，但是可以保持视线可交互(即，使得用户可以尝试通过外推(extrapolating)其先前的运动来跟踪其进展)。可替代地，3D场景可能包含视线可交互的但是不与特定视觉物体相对应的扇区、分区或区域。例如，游戏中的场景可能包含“危险的”区域，其在用户的视线指向它的情况下将触发响应。

本描述的前述章节已经讨论了视觉和视线交互相机20、30可以彼此对应的各种方式。以下章节较详细地讨论了如何产生和使用视线交互位图。

图5示出了其中可以实现视线检测的系统40的示意视图。系统40包括屏幕或监视器41和视线检测器42。屏幕可以采取常规或非常规的形式，包括诸如视网膜投影仪之类的虚拟屏幕或车辆中的抬头显示器。视线检测器42和屏幕41两者连接到计算机43。在现代计算机43中，对于可并行化的计算，图形处理单元(GPU)45常常是中央处理单元(CPU)44的速度的10-100倍。因此，优选的是使用GPU45来实现本发明。然而，可以使用诸如CPU 44之类的任何合适的处理器来实现本发明。

该计算机还包括存储器46，存储器46包含其中可以存储视线检测位图47的缓冲器。如上所述，缓冲器优选地具有可变的位深度。该缓冲器包含至少足够的位深度来对表示场景10中存在的每个视线可交互区1的一个属性进行编码(其中，如上所述，术语“区”用来包括3D物体以及3D空间的区域)。在视线交互和视觉表示相机30、20位于相同位置并且具有相同大小的视口5、2的上下文下，可以结合视觉缓冲器来实现缓冲器。特别地，如果视觉缓冲器是以RGBA格式实现的，那么通常在阿尔法(alpha)通道中存在未使用的位。在本发明的一些实现中，这些空闲位可以用来存储与感兴趣的区1有关的信息。

在任何情况下，无论使用什么特定格式，缓冲器都用来存储来自视线交互相机30的表示到3D场景上的视口5的位图47。视线可交互区1所投影到的位图47的像素用来存储视线可交互区1的属性。

存储在位图47中的属性可以是唯一的标识符(ID)，从而标识特定的视线可交互区。但是，情况将不会总是如此。例如，先前已经讨论了在场景10中具有“危险”区的想法。在这种情况下，与识别用户的视线已经指向“危险”分区中的(任何)一个相反，可能不需要在各个“危险”区域之间进行区分。在这种情况下，存储在位图中的信息可以简单地表示该区域具有“危险”属性而没有任何唯一ID。

位图47的像素可以用来存储关于感兴趣区的多于一个属性的信息。例如，结合(或代替)唯一ID，可能希望存储与视线交互有关的其他信息。

这样的视线交互信息可以是与物体1相关联的元数据，从而例如指示物体1的相对视觉重要性。该信息可以用来辅助用于在两个视线可交互物体1的位置彼此靠近的情况下检测用户是否正在看着特定物体的算法：如果难以确定用户正在看着两个物体中的哪一个，则可以假定用户正在看着视觉上最“重要”的物体。

可以存储在位图47中的其他有用的视线交互信息也可以包括关于物体1的运动的信息，诸如其速度和/或加速度。该信息可能与对用户的视线指向特定分区中的任何特定物体的似然性进行加权(例如，较快移动的物体更可能吸引用户的注意力)的启发法(heuristics)有关。用于这种加权的任何其他变量也可以(或者替代地)存储在位图47中。

除了视觉场景信息之外还创建视线交互位图47增加了计算需求。本发明中的一种节省计算花费的方式(如果需要)是例如与视觉场景相比将视线交互位图47的大小进行下采样(即，为其使用较少的像素)。另一种选择将是指定可能是视线可交互的视觉场景的子部分(例如，忽略菜单栏或其他不变的视觉项目，这可能意味着场景的某些分区将永远不会是视觉上可交互的)。这将减少计算负荷(但是在下采样的情况下以保真度降低为代价)。

如根据前述讨论将清楚的，呈现给视线交互位图47的仅有项目是被标识为视线可交互区1的物体和分区。这样的物体和分区在3D场景10的编程/设计期间被预先定义。

另外，存储在位图47中的信息可以包括如在创建场景10时结合视线可交互区1定义的任何相关属性。在一些情况下，可能希望将关于多个物体的信息存储在位图的同一像素中(即，如果多个视线可交互物体在彼此后面对齐)，并且在这种情况下，也可以存储相关联的索引，以便例如指示物体相对于视口的接近度的顺序。

另外，在基于3D场景10的投影来呈现位图47时，可以使用任何可用的深度缓冲和/或模板缓冲数据。因此，可以有效地提供对于处理遮挡物和世界几何体分割/投影的先前方法(其否则可以变得麻烦)的较高效的且已经被集成和支持的替代。通过以与场景到视口的投影相同的方式考虑2D上下文下的“交互掩模”，并且因此在创建掩模(即，位图47)时充分利用现有图形呈现能力，可以实现该方法。一旦位图47已经被创建和存储，它可以与任何眼睛跟踪硬件42结合使用以确定用户的视线是否指向视线可交互区1。例如，这可以通过针对在屏幕41上显示的视觉场景来监视用户的眼睛来完成，但是也可以通过针对视线交互位图47的视口5或甚至整个单独的视口来监视用户的眼睛来完成。只要已知各个视口之间的关系，就可以将来自每个视口的对应场景10相关联，并且可以做出关于用户视线的方向的确定。

一旦用户视线的方向被确定，视线交互位图47就可以用来通过参考存储在位图47中的属性信息来确定视线是否指向视线可交互区1。与用户的视线所指向的视线可交互区1的属性有关的任何信息然后可以用来确定用户看着特定区1的结果。

如上面所讨论的，通过有效地呈现视线交互场景，本发明允许高效地确定用户是否正在看着3D场景中的视线可交互物体。与视线可交互场景有关的信息可以例如与视觉场景结合使用，以确定用户视线的方向的结果。

Claims

1.一种用于确定用户的视线是否指向虚拟3D场景中的感兴趣区的方向的方法，所述方法包括：

提供包含感兴趣区的虚拟3D场景；

将属性与所述感兴趣区相关联；

创建表示所述感兴趣区在所述虚拟3D场景的投影视图中的定位的位图，所述感兴趣区所投影到的所述位图的每个像素存储所述感兴趣区的所述属性；

检测所述用户的视线的方向；

使用所述位图来确定检测到的所述用户的视线是否指向所述感兴趣区的方向，

其中，所述位图是使用与所述虚拟3D场景相对应的深度缓冲数据和/或模板缓冲数据而创建的。

2.根据权利要求1所述的方法，还包括：

其中，检测步骤包括检测所述用户的视线相对于所述位图或所述虚拟3D场景的另一个投影的方向。

3.根据权利要求2所述的方法，还包括：

为所述用户提供对应于所述虚拟3D场景的视觉表示；并且

其中，检测步骤包括检测所述用户的视线在所述视觉表示内的方向。

4.根据权利要求3所述的方法，其中，所述位图的视口和所述视觉表示的视口相对于所述虚拟3D场景处于相同位置。

5.根据权利要求3所述的方法，其中，所述位图的视口和所述视觉表示的视口相对于所述虚拟3D场景不在相同位置。

6.根据权利要求3所述的方法，其中，所述视觉表示的视口属于与所述虚拟3D场景相对应的第二场景。

7.根据权利要求3所述的方法，其中，所述感兴趣区或所述感兴趣区的一部分在所述视觉表示内不可见。

8.根据权利要求7所述的方法，其中，所述感兴趣区或所述感兴趣区的所述一部分因为被隐藏在一个或多个其他对象后面而在所述视觉表示内不可见。

9.根据权利要求7所述的方法，还包括确定所述用户的视线指向在所述视觉表示内不可见的所述感兴趣区或所述感兴趣区的所述一部分。

10.根据权利要求1所述的方法，其中，存在多个感兴趣区。

11.根据权利要求10所述的方法，其中，不同的感兴趣区与不同的属性相关联。

12.根据权利要求10所述的方法，其中，创建步骤包括创建具有包含感兴趣区的多个属性的像素的位图，并且创建步骤还包括向像素中的属性分配用来指示所述感兴趣区在场景内的相对深度的索引。

13.根据权利要求1所述的方法，其中，所述属性是以下各项之一：所述感兴趣区的标识符，关于所述感兴趣区的运动的信息，或者关于所述感兴趣区的视觉重要性的信息。

14.根据权利要求1所述的方法，还包括将多个属性与感兴趣区或每个感兴趣区相关联。

15.根据权利要求1所述的方法，其中，所述虚拟3D场景是模拟的3D场景。

16.根据权利要求1所述的方法，其中，所述位图还经历非线性变形，

其中，所述方法进一步包括当检测到所述用户的视线指向所述感兴趣区的方向时，启动交互。

17.一种用于确定用户的视线是否指向虚拟3D场景中的感兴趣区的方向的装置，所述装置包括：

缓冲器，其被配置为存储表示感兴趣区在虚拟3D场景的投影视图中的定位的位图，所述感兴趣区所投影到的所述位图的每个像素存储所述感兴趣区的属性；

检测器，用于检测所述用户的视线的方向；

处理器，用于使用所述位图来确定所述检测器所检测到的视线是否指向所述感兴趣区的方向，