CN117730298A

CN117730298A - 使用eog坐标的屏幕交互

Info

Publication number: CN117730298A
Application number: CN202280050993.6A
Authority: CN
Inventors: A·范内尔立; E·D·吉特曼; N·C·斯维德洛; A·布兰德梅耶; M·S·乔伊纳; S·戴勒; P·A·C·克拉姆
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-07-21
Filing date: 2022-07-21
Publication date: 2024-03-19

Abstract

一种方法包括从布置在用户耳朵附近的一组电极获取一组电压信号；基于该组电压信号，确定自我中心坐标中的EOG注视矢量；使用用户佩戴的传感器设备，确定显示坐标中的用户头部姿态；组合EOG注视矢量和头部姿态以获得显示坐标中的注视矢量；以及通过计算该注视矢量和在显示坐标中具有已知位置的成像表面的交点来确定注视点。

Description

使用EOG坐标的屏幕交互

相关申请的交叉引用

本申请要求以下优先权申请的优先权:2021年7月21日提交的美国临时申请第63/224,062号和2021年8月11日提交的欧洲专利申请第21190807.4号，这两个申请的全部内容均通过引用结合于此。

技术领域

本发明涉及使用眼电描记法(EOG)的眼睛跟踪。特别地，本发明涉及使用这种眼睛跟踪来确定显示屏上的注视点。

背景技术

在许多情况下，眼睛跟踪可被用于理解用户的注意力集中在哪里。具体而言，眼睛跟踪可以改善用户对外围设备的控制。

最常见的眼睛跟踪方法是获取用户眼睛的视频图像。基于数值分析或深度学习，可以使用适当的图像处理和算法来确定用户的注视方向。这种基于视频的眼睛跟踪的缺点是必须将相机对准用户的面部，或者安装在头部，这极大地限制了可能的应用。

最近，引入了基于视频的眼睛跟踪的替代方法，包括眼电描记法(EOG)。眼电描记法(EOG)是对眼球的角膜-视网膜偶极子的电偶极子电势(角膜和视网膜之间的电荷差异)的测量。当眼睛在眼眶中移动时，偶极子旋转。该电势可以使用放置在眼眶附近的一组电极来测量，并且可以用于估计眼睛的位置。在目前的技术EOG的精确度估计约为0.5度，预期未来会有所提高。

与基于视频的眼睛跟踪相比，基于EOG的眼睛跟踪具有若干优点:

-硬件成本降低，因为不需要相机光学系统或视频处理

-更灵活的设计，因为不需要为相机提供到眼睛的视线

-在困难的照明条件下具有更高的鲁棒性/准确性

-处理和存储需求降低，实现功耗降低，这对于便携式/可穿戴设备尤为重要

-不需要相机指向用户和相关的隐私问题

随着最近对视角的眼电描记测定(本文称为基于EOG的眼睛跟踪)的改进，这种眼睛跟踪的大量应用已经变得可行。

然而，与更传统的基于相机的眼睛跟踪相比，基于EOG的眼睛跟踪的挑战在于EOG检测相对于用户的头部(称为自我中心坐标系)发生。

对于许多应用，例如增强现实(AR)和虚拟现实(VR)应用，自我中心不是问题。相反，以自我为中心的眼睛跟踪非常适合这种应用。然而，自我中心性迄今为止阻止了基于EOG的眼睛跟踪在许多成像应用中的成功应用。

发明内容

本发明的一个目的是克服或减轻上述挑战，并在各种成像应用中实现基于EOG的眼睛跟踪。

根据本发明的第一方面，该目的和其他目的通过一种方法来实现，该方法包括:从布置在用户耳朵附近的一组电极获取一组电压信号；基于该组电压信号，确定自我中心坐标中的EOG注视矢量；使用用户佩戴的传感器设备，确定显示坐标中的用户头部姿态；组合EOG注视矢量和头部姿态以获得显示坐标中的注视矢量；以及通过计算该注视矢量和在显示坐标中具有已知位置的成像表面的交点来确定注视点。

如本领域技术人员将理解的，自我中心坐标描述了相对于用户位置(姿态)的位置，例如相对于用户头部的位置。类似地，显示坐标描述了相对于显示设备(的某个部分)的位置。显示设备的成像表面的位置在显示坐标中是已知的。

该方法优选地包括校准传感器设备以获得传感器设备在显示坐标中的位置。这种校准可以在确定头部姿态之前执行，也可以在操作期间执行，以重新校准系统。头戴式传感器的校准用于使其在显示坐标中的位置已知。在一般情况下，校准可以是在六个自由度中，而在更受限的应用中，更少的自由度可能就足够了。在一些实施例中，显示坐标仅具有两个自由度(例如，x和y)。在一些实施例中，校准不包括使用或测量头部运动自由度的旋转元素。例如，在观看距离相对于显示器宽度较远的应用中，观看者不太可能转动头部来看到显示图像表面的不同部分(即，仅通过眼睛转动来注视不同的显示区域)。在这些情况下，显示器具有相对较小的视野(FOV)，这种观看的一个例子是在一臂距离处观看智能手机。

应指出，校准可以相对于成像表面本身进行(例如，包括如下所述的与显示器的交互)，或者相对于显示设备(例如投影仪设备)的某个其他部分进行。

头戴式传感器被配置成监控头部的相对运动。在初始校准之后，头戴式传感器因此能够提供显示坐标中的头部姿态。头戴式传感器可以包括加速度计、陀螺仪和磁力计中的一者或数者。在这种情况下有用的一种类型的传感器是惯性测量单元(IMU)。

通过组合EOG注视矢量和头部姿态，可以获得显示坐标中的注视矢量。在此之后，注视点可以被确定为注视矢量和成像表面的交点(如上所述，其也在显示屏坐标中表示)。例如，需要从显示器上的物理单位(例如mm)到像素位置的转换步骤。

在一些实施例中，通过使头戴式传感器与相对于显示系统(并因此相对于成像表面)固定布置的第二传感器设备同步来实现头戴式传感器的校准。该实施例对于非固定显示屏，例如智能电话等特别有用，该非固定显示屏通常配备有方位传感器设备，例如IMU。

在一些实施例中，通过确定用户和成像表面之间的距离来获得空间校准。这种方法可能对通常不配备IMU的固定显示器(例如电视机)更有用。在一些实施例中，使用安装在显示系统附近或内部的合适传感器(例如，具有IR收发器的遥控器；显示器上的LIDAR(激光雷达)传感器，例如在智能手机上变得常见)。

在一些实施例中，校准包括在成像表面上显示图形元素，以及接收确认用户正在查看该图形元素的用户输入。这种校准的好处不仅在于确定头戴式传感器在显示坐标中的位置，还在于提供包括EOG注视矢量计算的整个过程的校准。

在一些实施例中，该方法还包括离线校准，以便处理在EOG注视矢量检测过程中可能发生的任何漂移。在一些实施例中，这种离线校准包括用户注视点随时间的统计分析，例如，考虑成像表面的尺寸、随时间的预期感兴趣区域等。

第一方面的方法使得能够修改视听数据呈现系统中的音频数据和/或视觉数据。该修改在观看和收听诸如电视、投影仪显示系统或移动手持设备的系统的视听呈现时提供了改进的用户体验。这种改进的用户体验的例子被总结如下。

成像表面上注视点的基于EOG的确定可以例如通过如下操作被用于图像的基于深度的渲染：将注视深度确定为图像中与注视点相关联的深度，并且对于图像中的每个像素，将相对深度计算为像素深度和注视深度之间的差，并且根据相对深度的函数来模糊像素。模糊后，图像在成像表面上进行深度渲染。可以进行这种模糊来模拟由于眼睛的光学特性而在3D场景中出现的自然景深。

作为另一个例子，当基于深度的图像渲染与3D音频场相结合时，注视点和注视深度可以用于识别与当前兴趣点相关联的至少一个音频对象，以允许增强这样识别的音频对象。可以根据注视点来确定当前兴趣点。

在又一示例中，可以使用如上所述的方法随时间来监控成像表面上的注视点。基于该监测的结果，确定平均注视位置和注视半径，由此将注视半径与半径阈值进行比较，如果注视半径小于半径阈值，则缩放成像表面上的图像数据。这种过程改善了用户的观看体验，例如在诸如移动设备上的小成像表面上呈现高空间分辨率(例如，4K或8K)数据的情境中。为了在平均注视位置不在成像表面的中心的情况下也提供这种改进的用户观看体验，确定平均注视位置和成像表面的一个或多个边缘之间的最小距离可能是有利的。然后将最小距离与距离阈值进行比较，并且根据最小距离小于距离阈值的确定，应用图像数据的偏移以增加最小距离。换句话说，这种过程对图像数据进行转换，确保在成像表面边缘的平均注视位置放大物体不会使物体看不见。

根据本发明的第二方面，该目的和其他目的可通过如下系统来实现，该系统包括:一组电极，其被布置在用户的耳朵附近并且被配置为获取一组电压信号；EOG处理单元，用于基于该组电压信号确定自我中心坐标中的EOG注视矢量；用户佩戴的传感器设备，用于确定用户在显示坐标中的头部姿态；处理单元，被配置为组合EOG注视矢量和头部姿态以获得显示坐标中的注视矢量，以及通过计算注视矢量和在显示坐标中具有已知位置的成像表面的交点来确定注视点。

根据本发明的第三方面，该目的和其他目的通过存储计算机程序代码的非暂时性计算机可读介质来实现，该计算机程序代码被配置为当在计算机处理器上执行时，执行根据本发明第一方面的方法的步骤。

附图说明

将参照附图更详细地描述本发明，附图示出了本发明的当前优选实施例。

图1示意性地示出了根据本发明实施例的基于EOG的注视点确定系统。

图2示出了根据本发明实施例的基于EOG的注视点确定方法的流程图。

图3示出了根据本发明实施例的用于处理基于深度的图像数据和相关音频数据的过程。

图4示出了根据本发明实施例的图像数据的缩放和平移的过程。

具体实施方式

图1示出了根据本发明实施例的基于EOG的注视点检测系统的基本元件。该系统相对于具有成像表面1的显示设备来实现。在所示情况下，显示设备是便携式设备2，例如智能电话，但是该系统可以在具有专用成像表面的任何显示设备中实现。例如，显示设备可以是固定的显示屏，例如电视机。显示设备也可以是投影显示系统，包括图像形成单元(投影仪)和距图像形成单元一定距离的成像表面(投影屏幕)。在一些实施例中，显示设备的成像表面被集成到眼镜组件(例如，隐形眼镜或眼镜镜片15)中。

该系统包括一组EOG电极3，其被布置在用户8的皮肤上或附近，优选地靠近耳朵，以及EOG处理单元4，其连接到电极3并被配置成确定自我中心坐标中的、即相对于用户头部的注视矢量。注视矢量可以具有两个自由度(2DOF)，即水平和竖直视角，被称为方位角(左眼和右眼方向变化)和高程(elevation)(竖直)。在简单的应用中，只需要一个自由度(例如水平视角)。在一些实施例中，EOG处理单元4进一步配置为部分基于旋转来确定注视矢量，所述旋转是可能在近距离观看时发生的称为转向(vergence)的扭转眼睛移动(例如，诸如在针织中使用的)。

该系统还包括能够确定头部相对位置(头部姿态)的头戴式传感器单元5，例如惯性测量单元(IMU)。传感器单元5以六个自由度(6DOF)确定其所附着的物体的相对运动，这包括俯仰、偏航和横摇的三个角度测量以及x、y和z距离上的三个平移测量。偏航角对应于方位角(用于声音相对于听者的空间位置的术语)，而俯仰对应于高程(不与音频频率混淆)。EOG处理单元4和IMU 5可以集成在同一物理单元中，例如布置在耳机9、耳塞、头戴式耳机、眼镜等中。

电极3通常是被配置成将人体中的离子电流转换成电流的换能器，并且示例包括生物电势传感器、生物电势电极和其他感测设备。电极3也可以与EOG处理单元4和IMU 5集成在同一物理单元中。特别地，电极可以集成在耳上式或入耳式耳机中。此外，可以使用被称为“电子皮肤”的技术来提供电极，电子皮肤是像粘性绷带那样固定在皮肤上的柔软、柔韧的材料。

在所示示例中，该系统还包括第二传感器单元，例如第二IMU 6，其布置在便携式显示设备2中，并连接到中央处理单元7。CPU 7还连接到显示设备2的显示电路(未示出)。

EOG处理单元4和IMU 5两者都连接到CPU 7，优选地通过无线连接，例如蓝牙等来实现。

图2示出了由CPU 7执行的将EOG注视矢量转换成成像表面1上的点的各种计算。这些计算可以分解成三个坐标系，分别标为自我中心坐标系、相对世界坐标系和显示坐标系。在这里，相对意味着绝对物理距离，但绝对位置未知。

首先，在块10中，确定描述相对世界坐标系相对于显示坐标系的相对位置的几何关系。在理想情况下，这种关系是完整的X、Y、Z位置描述，涵盖了对成像表面的偏离角度观看的情况。作为替代地，这种关系是简化的位置描述，例如简单地包含距离，而忽略了偏离角度观看方面。下面将讨论提供这种校准的各种方法。

在块11中，EOG处理单元4提供以自我为中心的2DOF坐标中的注视矢量，并且在块12中，传感器单元5提供相对世界坐标中的头部姿态。

在块13中，EOG注视矢量与头部姿态以及相对世界坐标和显示坐标之间的几何关系相结合，以获得显示坐标中的6DOF注视矢量。通常使用四元数计算，这些可以首先在自我为中心系统中组合，然后转换到相对坐标和显示坐标，反之亦然。

既然成像表面1的位置和注视矢量都是在公共坐标系(显示坐标)中导出的，则在块14中计算注视矢量和成像表面的交点。该计算可以使用标准3D几何图形来进行。交叉点是注视点，它可以转换成X-Y位置，用物理单位表示，和/或转换成像素位置单位。然后，通常以像素位置表示的观看者注视点可以在各种与显示相关的应用(包括下文所描述的那些)中用作关键输入项。

块10中的校准可被以各种方式确定。在一些实施例中，显示系统(例如，便携式设备2)包括第二相对位置传感器单元6，例如第二IMU。由于传感器5和6仅描述了差异变化，因此校准涉及两个传感器之间的同步操作。这可以通过指示观看者将头戴式IMU 5靠近显示器IMU 6、然后返回观看位置来实现。

对于一些显示系统，如电视，显示器IMU 8将在电视上距离观众一定距离，但对于移动显示器，它通常位于手持距离。

对于一些显示系统，例如投影系统，显示器IMU 8可以在投影仪上，而不靠近成像表面1。然而，只要成像表面1的位置在显示坐标中保持已知，显示器IMU 8位于何处都无关紧要。

目前，大多数电视没有IMU，在这种情况下，可以采用更有限的校准，简单地检测用户到成像表面中心的距离，并忽略角度方面。

在一个实施例中，可以使用遥控器来确定距离。编码模式交换从遥控器发送到电视，通过使用内部电视系统时钟周期评估行进时间来确定行进距离。在这种情况下，也可以忽略(手持)遥控器和头部之间的距离。典型地，这个距离相对于成像表面具有相当小的分量。

在手持电话连接到系统的情况下，有若干选项来找到从观看者到成像表面的距离。例如，可以从观看位置获取电视的图片。在知晓了手机相机的焦距和像素尺寸、以及电视的屏幕尺寸(通过型号#)的情况下，就可以从被拍摄图像中的电视尺寸计算出电视与手机的距离。

确定到成像表面的距离的其他技术包括在TV上设置IR发射器并且在头戴式传感器5上设置相应的传感器，以及涉及有源电磁线圈的无线定位技术。

更精细的校准包括用户通过某种类型的输入设备与显示系统的交互。输入设备可以是用户佩戴的设备，例如耳机、连接到用户佩戴的设备或与用户佩戴的设备通信的一些其他输入设备、或者显示系统的输入设备。输入设备可以包括触摸接口、物理按钮、语音接口或基于在上述设备中任一者上感测闪烁(以特定方式)的输入。

在一个示例中，用户具有指向遥控器(可以控制屏幕上可见光标的遥控器；有时被称为魔棒)。在进行EOG注视点检测之前，用户被提示佩戴包含头戴式传感器和EOG换能器的设备(例如，耳机、耳塞、眼镜实现)。当头戴式设备和显示系统开启时，用户被提示将光标指向他们在屏幕上注视的地方。这可通过间接方式完成，例如在光标位置有文本图标询问些什么，诸如“如果你能阅读到我，请点击”。这是管用的，因为注视点(视网膜中央凹位置)总是对应于正在阅读的单词的位置，而即使仅在视网膜中央凹之外几度，阅读文本也是非常困难的。因此，与光标文本的位置相结合的点击动作指示了注视点，并且可以根据该基本信息来校准剩余的计算。可以测试屏幕上的多个点(如四个角和中心)，以获得最佳校准，但有些应用可选择少至一个阅读位置。

应指出，所描述的交互式校准对于投影仪显示系统同样有用。

这种交互式校准(有时称为“离线”校准)不仅将确定头戴式传感器5在显示坐标中的位置，还将校准EOG检测过程。

基于EOG的注视检测所面临的挑战在于它容易漂移(例如，检测误差随时间变化)。在共同未决的申请EP 20153054.0中公开了用于应对这种挑战的一些方法，该申请通过引用结合于此。除了用于避免漂移问题的这些方法之外，一些类型的“在线”校准，即在系统使用期间的校准，将是期望的。在线校准的另一个原因是与平移运动检测相关联的漂移。典型地，用户佩戴的传感器5将基于某种加速度传感器。用于获得位置的加速度的二重积分将受到噪声和漂移的影响，这可能需要在线校准。

这种在线校准可以基于注视点随时间的统计分析和预期用户观看模式的知识。例如，对于具有字幕的内容，对应于字幕阅读的观看模式可被用于统计校准。例如，期望注视点直方图的模态值与文本块的中心对齐，因此如果从该位置测量到一致的偏移，则可以认为这是由于漂移导致的，并被校正。对于可以定义的任何离散的感兴趣区域(ROI),也是如此。成像区域也可以这样使用。通过知道成像区域的大小和形状，可以通过简单地假设用户将他的视线保持在成像区域内来执行校准。

具有被模拟调节模糊的基于深度的渲染

对于可以显示深度信息的显示器(例子包括立体3D(S3D)和自动立体3D(AS3D))，模拟眼睛的景深(基于焦距)是重要的。在常规的3D成像中，无论深度如何(忽略基于相机的景深效果)，无论观看者关注何处，整个图像都是对焦的。然而，在自然视觉中，眼睛的调节距离与关注点(fixation point)相匹配。结果是，对应于关注点的深度被感知为清晰，而更近和更远的深度是失焦的，其中失焦程度取决于与调节距离的距离(以屈光度为单位)。因此，为了更自然和逼真(并且可能更舒适)的3D显示，对调节模糊的效果进行模拟是重要的，调节模糊是随着与调节距离的距离增加而增大的模糊。为了实现这一点，需要知道图像中眼睛的关注点，通常情况下并非如此。然而，通过文中讨论的EOG技术，可以确定注视点，然后该注视点可以被应用于基于深度的渲染，例如在S3D和AS3D显示中。

图3中示出了基于深度的图像渲染过程的示例。该过程接收包括深度信息(也称为3D图像表示)的图像数据31和显示坐标中的注视点32作为输入。

图像数据可以是一组体素I(x，y，z)，或者可以是常常与图像的深度图组合的2D图像对(L和R视图)，或者可以是与深度图组合的2D图像。在深度成像中，x通常是水平方向(L-R)，y是竖直方向，z是从观看者到被成像物体的距离。可以使用上文参考图1和2讨论的过程来确定注视点。

在块33中，(在显示坐标中的)注视点用于计算相应的注视图像位置x_G，y_G和注视深度z_G，即在该图像位置的图像深度。这可以经由输入深度平面、经由体素索引z或者经由来自L-R立体对的计算来实现)。

然后，在块34中，对于图像计算局部空间模糊函数。该函数可以是作为特定像素位置处的相对深度Δz的函数而变化的点扩散函数(PSF)。相对深度Δz被定义为注视深度z_G和特定像素中的深度z之间的深度差。在一个例子中，PSF在所有像素位置具有相同的形状，但是宽度被分别放大和缩小以产生或多或少的模糊。代替PSF，可以应用更先进方法来确定模糊量。在一个实施例中，使用眼睛光学的人类视觉系统(HVS)模型。

接下来，在块35中，位置变化模糊函数被应用于每个2D像素位置，从而根据相对深度对输入图像进行滤波。如果输入是L-R对，则两个图像都被滤波。对于单个2D加上深度图的输入，该单个2D图像被滤波。

不管基于输入格式的技术的细节如何，结果都是具有基于观看者的注视点的被模拟调节模糊的深度渲染图像36。该图像然后在块37中被渲染为3D显示的细节，例如，对于由L-R图像对组成的S3D显示，或者使用多个视图的AS3D显示。

基于深度的图像和音频渲染

在一些应用中，基于深度的图像与3D音频声场(例如，Dolby Atmos)相结合。在这种应用中，注视点可用于识别观看者视线中的一个或几个对象，注视深度(例如，注视点的深度)用于评估被关注深度位置。图3中还示出了这种基于深度的音频呈现的过程的示例，这里结合了上述基于深度的图像。

具有空间音频对象的音频数据41与在块33中确定的注视图像位置xG、yG和注视深度z_G一起被接收，每个空间音频对象包括音频信号和用于空间渲染的元数据。在块42中，基于注视图像位置和注视深度来识别与当前兴趣点相关联的至少一个音频对象。

在块43中，音频数据41被处理，以便分离或强调所识别的音频对象(表示正被注视的音频对象)。例如，可以增加当前兴趣点附近的音频对象，以解决对话混乱的“鸡尾酒会效应”。根据内容创建者的意图或观看者和收听者的偏好，也可以应用其他种类的调整，包括响度和频率分布修改。最后，在步骤44中，渲染经处理的音频数据。

应指出，尽管这里描述的音频对象处理是结合被模拟调节模糊来说明的，但是基于注视点的音频对象处理也可以独自实现。

依赖注视点的缩放和平移

当在一系列设备上查看内容时，更高空间分辨率的格式(4K，尤其是8K)会带来问题。以8K为例，最佳观看距离是0.8画面高度，这对应于大于80度的FOV。这通常需要非常大的显示器。如果在手机上观看同样的内容，FOV可以低至15度。这意味着图像中的所有对象在视网膜上成比例地更小，因此更难看到对象的所有特征。一个简单的例子是，针对8K显示器渲染的脸部上的面部表情在手机上观看时可能无法识别。

这个问题的解决方案是放大感兴趣的对象(或感兴趣的区域，ROI)。这种缩放需要缩放因子和平移(图像偏移)。由于大多数缩放功能从图像的中心开始操作，因此在ROI已经位于图像中心的特殊情况下，不需要偏移。但是，如果物体不在图像的中心，基于中心的缩放可能使感兴趣的物体处于离开图像的边缘，甚至完全离开屏幕。不管物体位置如何，当需要实时执行调整时(例如对于视频而言)，进行这样的调整是困难的。该问题的历史版本包括“平移和扫描”，用于将较宽屏幕电影格式(16:9纵横比)内容转换为以前的窄屏幕电视格式(4:3)。平移指的是在将胶片扫描成视频格式之前的水平偏移。这种解决方案通常由操作员执行，并且通常不包括缩放选项。通过分析图像内容而自动工作的更先进的技术在没有人工监督的情况下还没有得到广泛使用。存在包括分析图像内容或元数据的缩放和偏移的较新的自动算法，但是这些算法不能利用观看者的兴趣。例如，ROI元数据可能存在，但它是由内容制作者定义的。通常，观看者的兴趣可能会偏离制作者的预测ROI。此外，现有技术通常不考虑在当今生态系统中的宽范围显示器(从>80度的电影院到<5度的智能手表)上的大范围FOV变化(因此，图像对象大小的变化)。

这里讨论的基于EOG的注视点确定可以用于提供改进的、观看者确定的缩放和平移。这种过程的一个例子如图4所示。

在该过程中，如上所述确定的当前注视点51由注视点监控块52接收。在块53中，使用预定持续时间t_win的移动(滑动)时间窗口来确定平均注视位置μ_x，μ_y。此外，确定平均注视位置的方差度量，例如标准偏差σ。这种方差度量在这里被称为平均注视位置的“注视半径”，它表示观看者的聚焦程度。

小的注视半径表示观看者聚焦在渲染图像的一小部分上(例如，由于8K宽屏内容在手机上显示)。由于人的视觉空间带宽和灵敏度随着远离注视点而迅速下降，所以呈现在显示器其余部分上的图像部分通常被浪费了，并且放大观看者一直关注的图像可能是合适的。另一方面，如果注视半径相对较大，这意味着观看者正在扫描图像的许多部分，这些部分对观看者来说可能同样重要。在这种情况下，放大图像可能不合适。

在块54中，将注视半径与第一阈值rth进行比较，该第一阈值rth表示视觉注意力的隐式模型，大于视网膜中央凹(～5度)但小于视网膜中央凹周(～18度)。如果所确定的注视半径小于阈值，则在块55中确定缩放因子。在块56中，可以对缩放因子进行时间低通滤波，以实现通常平滑且非显而易见的变化(可能在具有直接基于眼睛的用户界面的特殊情况应用中除外)。然后，在块57中，在块59中渲染图像数据58之前，将缩放因子应用于图像数据58。图像数据58可以是2D视频图像，但是图4中的过程也可以应用于3D图像数据。

使用通常的手段来完成渲染，例如包括其他格式转换、颜色和色调显示映射等。

如果在块54中确定注视半径大于阈值rth，则缩放因子可以维持在其当前值，因为观看是连续的过程。

图4中的过程还包括空间偏移的调整。在块61中，确定距离d_edge，min，其等于平均注视位置和图像的任何一个边缘中的最小者。在块62中，将该距离与第二阈值d_threshold进行比较。如果到边缘的距离小于阈值，则认为观看者的兴趣点过于靠近图像的边缘，并且在块63中计算偏移(在x和y上),以使兴趣点更靠近所显示图像的中心。可以在块64中对偏移进行时间低通滤波，以确保内容的平滑、不分散注意力和细微的变化。然后，在块59中渲染图像数据58之前，在块57中应用偏移以及缩放因子。

如果在块62中确定到边缘的距离大于阈值，则该偏移被保持，如在先前帧中一样。

偏移至少有两个目的。一个是确保由所应用的缩放因子实现的缩放不会将感兴趣的区域(平均注视位置周围的区域)推到图像表面之外。第二是限制图像边界的可见性，以便使得更好地沉浸在内容中。

图4示出了两种类型的图像元数据。

首先，由内容制作者/提供者确定的ROI元数据65可能指示与观看者的兴趣不匹配的图像区域。在(通过ROI元数据传达的)制作者意图被认为比观看者的即时兴趣更重要的情况下，覆盖(override)选项66可以替换偏移和缩放因子，或者将元数据65提供的偏移和缩放因子与根据上述EOG过程确定的那些相混合。

其次，在块53中，场景切换(cut)元数据67可用于重置平均注视位置的计算。这是因为在场景切换时，随着观看者朝向场景，并且可能朝向图像的新的、小的局部区域，会出现较大的眼睛运动。表述“场景切换”主要指场景中的实际变化，与“相机切换”相反，后者通常涉及同一场景的不同视点，例如来回的角色交换。

图4中的过程没有示出缩小。缩小可以通过将注视半径与另一个半径阈值进行比较来实现。如果注视半径大于该阈值，则通过减小缩放因子(假设缩放因子大于1)来缩小图像。应指出，缩小(减小缩放因子)不需要任何空间偏移，因为在缩小期间所有内容都将被推向中心。所有其他步骤将类似于上文所述那些步骤。

缩小的特殊情况是场景切换元数据67的重置。在场景切换时，将缩放因子返回到全图像视图(缩放因子＝1)可能是合适的，从而实现瞬时缩小。

一般性概述

如本文所用，除非另有说明，使用序数形容词“第一”、“第二”、“第三”等描述一个共同的对象，仅仅表示引用相似对象的不同实例，并不意味着如此描述的对象必须在时间上、空间上、排序上或以任何其他方式处于给定的顺序。

在下面的权利要求和这里的描述中，术语“包括”或“其包括”中的任何一个都是开放的术语，意味着至少包括随后的元件/特征，但不排除其他元件/特征。因此，当在权利要求中使用时，术语“包括”不应被解释为限于其后列出的装置或元件或步骤。例如，表述“包括A和B的装置”的范围不应限于仅由元件A和B组成的装置。这里使用的术语“包含”或“其包含”中的任何一个也是开放式术语，也意味着至少包括该术语后面的元件/特征，但不排除其他元件/特征。因此，“包含”与“包括”同义并且指的是“包括”。

如这里所使用的，术语“示例性的”是在提供例子的意义上使用的，与指示品质相反。也就是说，“示例性实施例”是作为示例提供的实施例，而不是必须是具有示例性品质的实施例。

应当理解，在本发明的示例性实施例的上述描述中，出于简化公开内容和帮助理解一个或多个各种发明方面的目的，本发明的各种特征有时被组合在单个实施例、附图或其描述中。然而，这种公开方法不应被解释为反映了要求保护的发明需要比每个权利要求中明确记载的特征更多的特征的意图。相反，如以下权利要求所反映的，创造性方面少于单个前述公开实施例的所有特征。因此，具体实施方式部分之后的权利要求由此明确地结合到该具体实施方式部分中，每个权利要求独自作为本发明的单独实施例。

此外，尽管本文描述的一些实施例包括其他实施例中包括的一些但不包括其他特征，但是如本领域技术人员将理解的，不同实施例的特征的组合预期在本发明的范围内，并且形成不同的实施例。例如，在以下权利要求中，任何要求保护的实施例可被以任何组合使用。

此外，一些实施例在这里被描述为可以由计算机系统的处理器或者由执行该功能的其他装置实现的方法或者方法的元素的组合。因此，具有用于执行这种方法或方法元素的必要指令的处理器形成了用于执行该方法或方法元素的装置。此外，这里描述的装置实施例的元件是用于执行出于实现本发明的目的而由该元件执行的功能的手段的示例。

在本文提供的描述中，阐述了许多具体细节。然而，应当理解，本发明的实施例可以在没有这些具体细节的情况下实施。在其他情况下，没有详细示出公知的方法、结构和技术，以免模糊对本说明书的理解。

因此，尽管已经描述了本发明的具体实施例，但是本领域技术人员将认识到，在不脱离本发明的精神的情况下，可以对其进行其他和进一步的修改，并且意图要求所有这些改变和修改都落入本发明的范围内。例如，上面给出的任何式子仅仅是可以使用的程序的代表。功能可以被添加到框图或者被从框图中删除，并且操作可以在功能块之间互换。可以在本发明范围内描述的方法中添加或删除步骤。

从以下列举的示例实施例(EEE)中可以理解本发明的各个方面:

EEE1.一种方法，包括:

从布置在用户耳朵附近的一组电极获取一组电压信号；

基于该组电压信号，确定自我中心坐标中的EOG注视矢量；

使用用户佩戴的传感器设备，确定显示坐标中的用户头部姿态；

组合EOG注视矢量和头部姿态以获得显示坐标中的注视矢量；以及

通过计算该注视矢量和在显示坐标中具有已知位置的成像表面的交点来确定注视点。

EEE2.根据EEE 1的方法，进一步包括:

校准传感器设备以获得传感器设备在显示坐标中的位置。

EEE3.根据EEE 2的方法，其中校准包括:

在成像表面上显示图形元素，以及

接收确认用户正在观看成像表面上对应于图形元素的位置的用户输入。

EEE4.根据EEE 2的方法，其中用户佩戴的传感器设备与第二传感器设备同步，第二传感器设备相对于包括成像表面的显示系统的至少一部分固定布置。

EEE5.根据EEE 2的方法，其中校准包括确定用户和成像表面之间的距离。

EEE6.根据EEE 5的方法，其中使用显示系统中的一个或数个传感器来确定距离。

EEE7.根据前述EEE中任一项的方法，还包括在线统计校准，包括对注视点随时间的统计分析，以及预期用户观看模式的知晓。

EEE8.根据前述EEE中任一项的方法，其中所述自我中心坐标仅包括一个自由度。

EEE9.根据前述EEE中任一项所述的方法，其中显示坐标仅包括两个自由度。

EEE10.根据前述EEE中任一项的方法，其中显示坐标包括六个自由度。

EEE11.一种用于处理用于在成像表面上显示的包括深度信息的图像数据的方法，该方法包括:

使用根据前述EEE中任一项的方法确定成像表面上的注视点，

至少部分基于与注视点相关联的深度信息来确定注视深度，

计算与图像数据的第一部分相关联的相对深度，作为与图像数据的第一部分相关联的深度信息和注视深度之间的差，以及

通过根据与图像数据的第一部分相关联的相对深度的函数修改与图像数据的第一部分相关联的像素数据来生成修改的图像数据。

EEE12.根据EEE 11的方法，其中修改像素数据包括改变像素数据的色调、亮度、伽马和对比度中的一者或多者。

EEE13.根据EEE 11的方法，其中修改像素数据包括改变像素数据的锐度、模糊或空间滤波中的一者或多者。

EEE14.一种用于处理与用于在成像表面上显示的包括深度信息的图像数据相关联的音频对象的方法，包括:

使用根据EEE 1-10之一的方法确定成像表面上的注视点，

至少部分基于与注视点相关联的深度信息来确定注视深度，

至少部分地基于注视点和注视深度，识别与当前兴趣点相关联的至少一个音频对象，以及

修改音频对象，使得所识别的音频对象与其他音频对象不同地被修改。

EEE15.根据EEE 13的方法，其中修改所识别的音频对象包括改变所识别的音频对象的音量、响度和频率分布之一。

EEE16.根据EEE 13或14的方法，其中根据注视点确定当前兴趣点。

EEE17.一种用于处理用于在成像表面上显示的图像数据的方法，包括:

随时间监控使用根据EEE 1-10之一的方法确定的成像表面上的注视点，

确定平均注视位置和注视半径，

将注视半径与半径阈值进行比较，

根据注视半径小于半径阈值的确定，应用图像数据的缩放。

EEE18.根据EEE 17的方法，还包括在应用于图像数据之前对缩放进行低通滤波。

EEE19.根据EEE 17或18所述的方法，进一步包括

确定平均注视位置和成像表面的一个或多个边缘之间的最小距离，

将最小距离与距离阈值进行比较，以及

根据最小距离小于距离阈值的确定，应用偏离图像数据的偏移以增加该最小距离。

EEE20.根据EEE 19的方法，还包括在应用于图像数据之前对偏移进行低通滤波。

EEE21.根据EEE 17的方法，其中注视半径基于平均注视位置周围的标准偏差。

EEE22.根据EEE 17所述的方法，其中所述平均注视位置和注视半径是基于预定时间窗口期间的注视点变化被确定的。

EEE23.一种系统，包括:

一组电极，其被布置在用户的耳朵附近，并且被配置为获取一组电压信号，

EOG处理单元，用于基于该组电压信号确定自我中心坐标中的EOG注视矢量，

用户佩戴的传感器设备，用于确定用户在显示坐标中的头部姿态，

处理单元，被配置为:

组合EOG注视矢量和头部姿态以获得显示坐标中的注视矢量，以及

通过计算注视矢量和在显示坐标中具有已知位置的成像表面的交点来确定注视点。

EEE24.一种非暂时性计算机可读介质，存储有计算机程序代码，该计算机程序代码被配置成当在计算机处理器上执行时实施根据EEE 1-22之一的步骤。

Claims

1.一种方法，包括:

从布置在用户(8)耳朵附近的一组电极(3)获取一组电压信号；

基于该组电压信号，确定(11)自我中心坐标中的EOG注视矢量；

使用用户佩戴的传感器设备(5)，确定(12)显示坐标中的用户头部姿态；

组合(13)EOG注视矢量和头部姿态以获得显示坐标中的注视矢量；以及

通过计算该注视矢量和在显示坐标中具有已知位置的成像表面(1)的交点来确定(14)注视点。

2.根据权利要求1所述的方法，进一步包括:

校准(10)传感器设备以获得传感器设备在显示坐标中的位置。

3.根据权利要求2所述的方法，其中校准包括:

在成像表面上显示图形元素，以及

4.根据权利要求2所述的方法，其中，用户佩戴的传感器设备与相对于包括成像表面(1)的显示系统的至少一部分固定布置的第二传感器设备(7)同步。

5.根据权利要求2所述的方法，其中校准包括确定用户(8)与成像表面(1)之间的距离，可选地使用显示系统中的一个或几个传感器。

6.根据前述权利要求中任一项所述的方法，还包括在线统计校准，包括对注视点随时间的统计分析，以及预期用户观看模式的知晓。

7.一种用于处理用于在成像表面上显示的包括深度信息的图像数据的方法，该方法包括:

使用根据前述权利要求中任一项所述的方法确定(13)成像表面上的注视点，

至少部分基于与注视点相关联的深度信息来确定(33)注视深度，

计算与图像数据的第一部分相关联的相对深度，作为与图像数据的第一部分相关联的深度信息与该注视深度之间的差，以及

通过根据与图像数据的第一部分相关联的相对深度的函数修改与图像数据的第一部分相关联的像素数据来生成(35)修改的图像数据。

8.根据权利要求7所述的方法，其中修改像素数据包括改变像素数据的色调、亮度、伽马、对比度、锐度、模糊或空间滤波中的一个或多个。

9.一种用于处理音频对象的方法，该音频对象与用于在成像表面上显示的包括深度信息的图像数据相关联，该方法包括:

使用根据权利要求1-6中任一项所述的方法来确定(13)成像表面上的注视点，

至少部分地基于注视点和注视深度，识别(42)与当前兴趣点相关联的至少一个音频对象，以及

修改(43)音频对象，使得所识别的音频对象与其他音频对象不同地被修改。

10.根据权利要求9所述的方法，其中修改所识别的音频对象包括改变所识别的音频对象的音量、响度和频率分布之一。

11.一种用于处理用于成像表面上显示的图像数据的方法，包括:

随时间监控使用根据权利要求1-6中任一项所述的方法确定的成像表面上的注视点，

确定(53)平均注视位置和注视半径，

将注视半径与半径阈值进行比较(54),

根据确定注视半径小于半径阈值，应用(57)图像数据的缩放。

12.根据权利要求11所述的方法，还包括

确定(61)平均注视位置和成像表面的一个或多个边缘之间的最小距离，

将最小距离与距离阈值进行比较(62),以及

根据确定最小距离小于距离阈值，应用(57)图像数据的偏移以增加最小距离。

13.根据权利要求11或12所述的方法，还包括在应用于图像数据之前对偏移和/或缩放进行低通滤波(56；64)。

14.一种系统，包括:

一组电极(3)，其被布置在用户的耳朵附近，并且被配置为获取一组电压信号，

EOG处理单元(4)，用于基于该组电压信号确定自我中心坐标中的EOG注视矢量，

用户佩戴的传感器设备(5)，用于确定用户在显示坐标中的头部姿态，

处理单元(6)，被配置为:

15.一种存储计算机程序代码的非暂时性计算机可读介质，所述计算机程序代码被配置成当在计算机处理器上执行时执行根据权利要求1-13中任一项所述的步骤。