CN117882032A

CN117882032A - 用于执行眼动追踪的系统和方法

Info

Publication number: CN117882032A
Application number: CN202280056592.1A
Authority: CN
Inventors: 芭芭拉·德·萨尔沃; 刘新桥; 赛义德·沙基布·萨瓦尔
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2021-08-18
Filing date: 2022-08-17
Publication date: 2024-04-12

Abstract

所公开的计算机实现的方法可以包括：(i)有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及(ii)以大体上大于第一频率的第二频率运行眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位。还公开了各种其它方法、系统和计算机可读介质。

Description

用于执行眼动追踪的系统和方法

背景技术

现代增强现实头戴式设备(headset)/虚拟现实头戴式设备中的眼动追踪系统可能会消耗大量功率。例如，用于眼动追踪的一些端到端机器学习解决方案消耗百分之几毫瓦的功率。功耗的三个主要来源包括传感器采集、所采集的像素的传输以及通过相应的机器学习管线(pipeline)来处理所采集的像素。遗憾的是，这一过程中存在很大的冗余性，因为所采集和所处理的像素中的大部分像素对眼动追踪没有贡献。此外，眼睛区域相对于摄像头的位置变化可能会终止与眼动追踪管线的机器学习部件的联系。

发明内容

根据本公开的第一方面，提供了一种眼动追踪头戴式设备，该眼动追踪头戴式设备包括：物理处理器；以及至少一个物理存储器，该至少一个物理存储器存储可执行指令，所述可执行指令在被该物理处理器执行时使该物理处理器：有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及以大体上大于第一频率的第二频率运行该眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位；其中：第一阶段对标识与人眼对应的裁剪位置的信息进行更新；并且第二阶段以大体上大于第一频率的第二频率、使用先前从以第一频率运行的第一阶段更新的裁剪位置来执行裁剪过程。

在一些实施例中，所述可执行指令还使该物理处理器：检测对预示要妨碍该眼动追踪系统处理管线的性能的边角情况的指示。

在一些实施例中，对该边角情况的指示包括：运动；或第二阶段的输出的质量测量结果降到阈值以下。

在一些实施例中，对该边角情况的指示包括运动。

在一些实施例中，该眼动追踪头戴式设备还包括：惯性测量单元，该惯性测量单元被配置为检测运动。

在一些实施例中，该惯性测量单元被配置为检测满足预定阈值的运动量。

在一些实施例中，所述可执行指令还使该物理处理器：响应于检测到运动，通过为额外帧激活第一阶段来偏离第一频率，使得检测该感兴趣区域的准确性得到提高。

在一些实施例中，所述可执行指令还使该物理处理器：响应于检测到运动，从对该感兴趣区域进行下采样的下采样过程偏离到对包括感兴趣区域的整个帧进行下采样的下采样过程。

在一些实施例中，对该边角情况的指示包括：第二阶段的输出的质量测量结果降到阈值以下。

在一些实施例中，所述可执行指令还使该物理处理器：响应于检测到第二阶段的输出的质量测量结果降到阈值以下，从对该感兴趣区域进行下采样的下采样过程偏离到对包括该感兴趣区域的整个帧进行下采样的下采样过程。

在一些实施例中，所述可执行指令还使该物理处理器：执行兼或(inclusive OR)运算，该兼或运算响应于检测到运动或检测到第二阶段的输出的质量测量结果降到阈值以下，触发从对该感兴趣区域进行下采样的下采样过程到对包括该感兴趣区域的整个帧进行下采样的下采样过程的偏离。

在一些实施例中，所述可执行指令还使该物理处理器：检测对边角情况的指示，对边角情况的指示是由除了摄像头传感器之外的传感器检测的。

在一些实施例中，该眼动追踪系统处理管线被配置为作为虚拟现实头戴式设备/增强现实头戴式设备的一部分来运行。

在一些实施例中，所述可执行指令还使该物理处理器：有条件地以第一频率运行该眼动追踪系统处理管线的、检测该感兴趣区域的第一阶段，使得实现了功耗与无条件地运行第一阶段相比大幅度降低。

在一些实施例中，所述可执行指令还使该物理处理器：有条件地以第一频率运行该眼动追踪系统处理管线的、检测该感兴趣区域的第一阶段，使得与以第二频率运行第一阶段相比，功耗从数百毫瓦降低到个位数毫瓦。

在一些实施例中，所述可执行指令还使该物理处理器：以第一频率运行该眼动追踪系统处理管线的、检测该感兴趣区域的第一阶段，使得与以第二频率运行第一阶段相比，时延得到改善。

在一些实施例中，所述可执行指令还使该物理处理器：基于从数据分析收集到的启发式方法静态地选择第一频率。

在一些实施例中，所述可执行指令还使该物理处理器：执行机器学习算法，以预测凝视方位。

根据本公开的第二方面，提供了一种方法，该方法包括：有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及以大体上大于第一频率的第二频率运行该眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的该感兴趣区域来预测凝视方位；其中：第一阶段对标识与人眼对应的裁剪位置的信息进行更新；并且第二阶段以大幅度大于第一频率的第二频率、使用先前从以第一频率运行的第一阶段更新的裁剪位置来执行裁剪过程。

根据本公开的第三方面，提供了一种非暂态计算机可读介质，该非暂态计算机可读介质包括一个或多个计算机可执行指令，该一个或多个计算机可执行指令在被计算设备的至少一个处理器执行时使该计算设备：有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及以大体上大于第一频率的第二频率运行该眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的该感兴趣区域来预测凝视方位；其中：第一阶段对表示与人眼对应的裁剪位置的信息进行更新；并且第二阶段以大体上大于第一频率的第二频率、使用先前从以第一频率运行的第一阶段更新的裁剪位置来执行裁剪过程。

附图说明

图1是用于执行眼动追踪的示例方法。

图2是用于执行眼动追踪的示例系统。

图3是用于分两个阶段执行眼动追踪的示例工作流的示意图。

图4是用于有条件地执行眼动追踪的第一阶段的示例工作流的示意图。

图5是用于基于检测到的运动而有条件地对感兴趣区域进行下采样的示例工作流的示意图。

图6是用于基于检测到的凝视预测质量和检测到的运动而有条件地对感兴趣区域进行下采样的示例工作流的示意图。

图7是可以与本公开的各实施例结合使用的示例增强现实眼镜的图示。

图8是可以与本公开的各实施例结合使用的示例虚拟现实头戴式设备的图示。

图9是结合有能够追踪用户的单眼或双眼的眼动追踪子系统的示例系统的图示。

图10是图9中所示出的眼动追踪子系统的各个方面的更详细图示。

具体实施方式

现代增强现实头戴式设备/虚拟现实头戴式设备中的眼动追踪系统可能会消耗大量功率。例如，用于眼动追踪的一些端到端机器学习解决方案消耗百分之几毫瓦的功率。功耗的三个主要来源包括传感器采集、所采集的像素的传输以及通过相应的机器学习管线来处理所采集的像素。遗憾的是，这一过程中存在很大的冗余性，因为所采集和所处理的像素中的大部分像素对眼动追踪没有贡献。此外，眼睛区域相对于摄像头的位置变化可能会终止与眼动追踪管线的机器学习部件的联系。为了解决这些问题，可以使用如图3所示的两阶段管线，其中，在第一阶段将识别感兴趣区域，然后在第二阶段仅将该感兴趣区域用于最终凝视预测。用于降低复杂性的另一种附加方法可以涉及通过对输入像素进行下采样或降采样来使用较低分辨率的输入。下采样或降采样过程可以在传感器采集像素期间或之后执行。然而，感兴趣区域检测阶段本身可能会消耗更高数量级的功率并且带来显著的时延。

本公开总体上涉及对增强现实头戴式设备/虚拟现实头戴式设备的背景下的眼动追踪系统的改进，并且尤其涉及依赖机器学习来预测用户的凝视方向的眼动追踪系统。所公开的技术可以通过显著降低功耗来改进相关系统。例如，所公开的技术可以将眼动追踪系统的功耗从数百毫瓦的功率降低到个位数毫瓦。所公开的技术还可以在预测凝视方位或凝视方向方面降低时延并且提高准确性。

一般而言，所公开的技术可以通过降低执行眼动追踪系统处理管线的第一阶段的频率来实现上述益处。该第一阶段可以识别感兴趣区域。因此，可以以比第二阶段的频率显著低的频率来检测感兴趣区域，该第二阶段进行凝视方位的最终预测。然而，由于某些边角情况(corner case)(例如，由用户奔跑或跳跃引起的运动等)，并不总能在眼动追踪性能不恶化的情况下使用较低的频率。因此，本申请公开了：可以有条件地应用较低频率，使得如果检测到边角情况，则可以为额外的帧有条件地激活第一阶段，以提高检测感兴趣区域的准确性。因此，较低的频率可以构成默认频率或常规频率，该默认频率或常规频率在检测到边角情况时会有例外。类似地，与对整个所采集的帧进行下采样不同，仅对感兴趣区域进行下采样可以构成默认过程或常规过程，该默认过程或常规过程在检测到边角情况时会有例外。例如，如果检测到运动或检测到低质量凝视预测，则可以有条件地激活第一阶段和/或可以对整个帧进行下采样，如以下更详细地论述的。

下面将参考图1至图6提供对用于执行眼动追踪的系统和方法的详细描述。图1是用于执行眼动追踪的示例性计算机实现的方法100的流程图。图1中所示的各步骤可以由任何合适的计算机可执行代码和/或计算系统来执行，该计算系统包括图2中所示的系统200(该系统可以进一步包括第一频率识别器222、第二频率识别器224、物理处理器230和存储器140)。在一个示例中，图1中所示的每个步骤可以表示一种算法，该算法的结构包括多个子步骤和/或由多个子步骤来表示，下文将更详细地提供这些子步骤的示例。

如图1所示，在步骤110处，本文所描述的多个系统中的一个或多个系统可以有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域。例如，在步骤110处，运行第一阶段模块104(作为模块102的一部分)可以有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域。

运行第一阶段模块104可以以各种方式来执行步骤110。一般而言，运行第一阶段模块104可以通过将眼动追踪系统处理管线的第一阶段的频率设置为低于第二阶段的第二频率来执行步骤110，其中，在该第一阶段期间检测感兴趣区域，在该第二阶段期间实际预测凝视方位。例如，第一频率可以大体上低于第二频率，或者可以比第二频率低一个数量级。在一些示例中，第一频率是基于从数据分析收集到的启发式方法而静态地选择的。

因此，在给定的时间段(例如，一分钟)内，可以比检测感兴趣区域更频繁地预测凝视方位。因此，如果在更新感兴趣区域之前再次激活凝视方位预测，则第二阶段可以简单地复用先前检测到的感兴趣区域。因此，该应用的技术可以依赖于这样的设计构想：其中，在头戴式设备的正常使用期间，感兴趣区域保持大致相同，并且感兴趣区域可能仅在边角情况(例如，用户例如通过跳跃或奔跑而显著运动的情况)期间显著改变或偏离。

短语“有条件地运行”可以指这样的事实：第一频率不是通用地或排他性地应用的，而是作为默认频率来应用的。换言之，第一频率不是盲目地或自动地执行的，而是在以某个间隔(例如，第二频率)检查第一频率是否应当偏离之后才执行的(如以下结合图3至图6所详细论述的)。因此，运行第一阶段模块104可以基于检测到对预示要妨碍眼动追踪系统处理管线的性能的边角情况的指示，智能地偏离默认频率。类似地，术语“边角情况”可以指这样的情况或场景：其中，需要更高的执行第一阶段的频率，或者先前检测到的感兴趣区域可能变得不那么可靠并且更有可能已经改变(例如，在用户正在奔跑或跳跃的场景中)。检测到对边角情况的指示可以包括检测到运动和/或检测到第二阶段的输出的质量测量结果降到阈值以下。

在一些示例中，可以由除了摄像头传感器之外的传感器来执行对边角情况的指示的检测。这种传感器的说明性示例可以包括惯性测量单元。附加地或替代地，可以使用任何其它合适的传感器，例如加速度计或陀螺仪等。

图3示出了用于示例两阶段眼动追踪系统处理管线的工作流300。如这幅图所示，可以通用地或总是以与凝视估计器对凝视方向进行预测(即，第二阶段)相同的频率来检测感兴趣区域(即，第一阶段)。具体地，摄像头传感器可以首先检测传感器原始输入302(例如，512×512像素)，然后在步骤304处，执行下采样过程，以生成经下采样的输入306。出于眼动追踪的目的，在传感器原始输入302不必要地或过于详细的情况下，下采样可以通过消除冗余来降低复杂性。

在生成经下采样的输入306之后，经下采样的输入306可以同时或顺序地沿着工作流300前进，在步骤308处，这时使用裁剪过程314来裁剪经下采样的输入306，并且在步骤309处，这时可以执行感兴趣区域检测过程310，以检测相应的感兴趣区域。值得注意的是，工作流300对应于这样的系统：该系统通常以与以下进一步论述的后续凝视估计过程相同的频率来执行感兴趣区域检测过程310。在步骤312处，可以使用执行感兴趣区域检测过程310的结果，来对用于执行裁剪过程314的裁剪位置(例如，眼球在传感器原始输入302的整个帧内的预测位置和/或所预测的感兴趣区域)进行更新。在步骤316处，执行裁剪过程314的结果可以产生经下采样和裁剪的输入318(例如，64×64像素)。随后，在步骤320处，经下采样和裁剪的输入318可以被转发到凝视估计器322，该凝视估计器可以估计眼球(例如，图3中的传感器原始输入302内所描绘的眼球)的相应凝视的方位或其它描述，该相应凝视的方位或其它描述可以作为步骤324处产生的结果。这可以与工作流300关于眼动追踪的最终输出相对应。

相比之下，图4示出了用于这种两阶段眼动追踪系统处理管线的更新后版本的工作流400。在该版本中，在感兴趣区域检测过程310之前插入了开关402。该开关可以选择性地接通或断开，以中断到感兴趣区域检测过程的对应路径，从而大体上以比凝视估计器部件更低的帧率或更低的频率来运行感兴趣区域检测部件。如上所述，开关或更低频率的使用可以取决于这样的设计构想：在头戴式设备的正常使用期间，感兴趣区域倾向于保持相同或相似。在另外的示例中，这种传感器实际上可以输出运动的定量测量结果。因此，检测运动可以包括检测这种运动的定量测量结果满足阈值运动量，使得足够低或小的运动量不一定触发运行感兴趣区域检测过程的频率方面的偏离。

一般而言，运行第一阶段模块104可以响应于检测到诸如运动的边角情况，通过为额外帧激活第一阶段(例如，聚焦于感兴趣区域检测过程310)来偏离第一频率，使得检测感兴趣区域的准确性得到提高。附加地或替代地，运行第一阶段模块104还可以响应于检测到边角情况，可选地从对感兴趣区域进行下采样的下采样过程(例如，对仅可预测地包含眼球图片而不是摄像头传感器输入的整个帧进行下采样)偏离到对包括感兴趣区域的整个帧进行下采样的下采样过程(例如，在不进行聚焦于眼球本身的任何裁剪的情况下对整个帧进行下采样)。

图5示出了用于偏离到对包括感兴趣区域的整个帧进行下采样的下采样过程的工作流500。如这幅图进一步所示，如果在步骤508处已由惯性测量单元检测到了头部运动或其它类似传感器数据(例如，非摄像头传感器数据)，则可以根据步骤304的更新后版本和经下采样的输入306(例如，128×128像素，与传感器原始输入302的经下采样但未经裁剪的版本相对应)来对整个帧执行下采样。相比之下，如果在步骤508处没有检测到这种运动，则可以根据步骤502对感兴趣区域本身而不是整个帧执行下采样，这可以生成经下采样和裁剪的输入504，该经下采样和裁剪的输入在步骤506处和随后的步骤536处被转发到凝视估计器322(当在步骤508处选择了该工作流路径时)。与上文一致，图5还示出了步骤530，通过该步骤可以将来自步骤508的二进制指示转发到对应于传感器原始输入302的步骤，从而确定是应当对传感器原始输入302进行下采样(例如，在未检测到头部运动的情况下)，还是不应当对传感器原始输入302进行下采样(例如，在检测到头部运动的情况下)。还可以在步骤528处转发来自步骤508的二进制指示，以确定应当遵循两个工作流路径(对应于步骤502和步骤304)中的哪一个工作流路径。如图5所进一步示出的，还可以在步骤536处将来自步骤508的二进制指示转发到凝视估计器322。类似地，在步骤532处，感兴趣区域检测过程310的结果可以指示感兴趣区域的更新后的位置，并且指示该更新后的位置的信息可以被转发到对应于传感器原始输入302的步骤，从而有助于在稍后从传感器原始输入302提取感兴趣区域时和/或在对相应数据执行下采样操作时提高准确性。

在另外的示例中，对边角情况的指示包括第二阶段的输出的质量测量结果降到阈值以下。图6示出了用于帮助进一步说明该实施例的工作流600。如这幅图进一步所示，在眼动追踪系统处理管线的第二阶段结束时，可能已经对凝视方向进行了预测，并且可能测量了该预测的质量。例如，在步骤604处，可以将预测质量的数值测量结果与阈值进行比较，以得出好预测或差预测的二进制结论。如果预测质量被确定为差，则这可以构成对边角情况的另一指示，使得可以对整个帧执行下采样，而不是对感兴趣区域执行下采样。此外，在这幅图的示例中，可以执行或(OR)运算602，该或运算响应于检测到运动或检测到第二阶段的输出的质量测量结果降到阈值以下，触发从对感兴趣区域进行下采样的下采样过程到对包括感兴趣区域的整个帧进行下采样的下采样过程的偏离。

返回图1，在步骤120处，本文所描述的多个系统中的一个或多个系统可以以大于第一频率的第二频率运行眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位。例如，在步骤120处，运行第二阶段模块106可以以大于第一频率的第二频率运行眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位。

运行第二阶段模块106可以以各种方式来执行步骤120。一般而言，运行第二阶段模块106可以通过简单地以比感兴趣区域检测部件更高的帧率运行凝视估计器(见图4)来执行步骤120。与感兴趣区域检测部件的第一频率不同，在一些示例中，凝视估计器的第二频率可以大体上保持无条件或随时间保持相同。

示例实施例

示例1：一种眼动追踪头戴式设备装置可以包括物理处理器和至少一个物理存储器，该至少一个物理存储器存储可执行指令，所述可执行指令在被该物理处理器执行时使该物理处理器：(i)有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及(ii)以大体上大于第一频率的第二频率运行该眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位。

示例2：根据示例1所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：检测对预示要妨碍该眼动追踪系统处理管线的性能的边角情况的指示。

示例3：根据示例1和2中任一示例所述的眼动追踪头戴式设备装置，其中，对该边角情况的指示包括运动或第二阶段的输出的质量测量结果降到阈值以下。

示例4：根据示例1至3中任一示例所述的眼动追踪头戴式设备装置，其中，对该边角情况的指示包括运动。

示例5：根据示例1至4中任一示例所述的眼动追踪头戴式设备装置，还包括惯性测量单元，该惯性测量单元被配置为检测运动。

示例6：根据示例1至5中任一示例所述的眼动追踪头戴式设备装置，其中，该惯性测量单元被配置为检测满足预定阈值的运动量。

示例7：根据示例1至6中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：响应于检测到运动，通过为额外帧激活第一阶段来偏离第一频率，使得检测感兴趣区域的准确性得到提高。

示例8：根据示例1至7中任一示例所述的眼动追踪头戴式设备装置，所述可执行指令还使该物理处理器：响应于检测到运动，从对感兴趣区域进行下采样的下采样过程偏离到对包括感兴趣区域的整个帧进行下采样的下采样过程。

示例9：根据示例1至8中任一示例所述的眼动追踪头戴式设备装置，其中，对该边角情况的指示包括：第二阶段的输出的质量测量结果降到阈值以下。

示例10：根据示例1至9中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：响应于检测到第二阶段的输出的质量测量结果降到阈值以下，从对感兴趣区域进行下采样的下采样过程偏离到对包括感兴趣区域的整个帧进行下采样的下采样过程。

示例11：根据示例1至10中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：执行兼或(OR)运算，该兼或运算响应于检测到运动或检测到第二阶段的输出的质量测量结果降到阈值以下，触发从对感兴趣区域进行下采样的下采样过程到对包括感兴趣区域的整个帧进行下采样的下采样过程的偏离。

示例12：根据示例1至11中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：检测对边角情况的指示，对边角情况的指示是由除了摄像头传感器之外的传感器检测的。

示例13：根据示例1至12中任一示例所述的眼动追踪头戴式设备装置，其中，该眼动追踪系统处理管线被配置为作为虚拟现实头戴式设备/增强现实头戴式设备的一部分来运行。

示例14：根据示例1至13中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：有条件地以第一频率运行该眼动追踪系统处理管线的、检测感兴趣区域的第一阶段，使得实现了功耗与无条件地运行第一阶段相比大幅度降低。

示例15：根据示例1至14中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：有条件地以第一频率运行该眼动追踪系统处理管线的、检测感兴趣区域的第一阶段，使得与以第二频率运行第一阶段相比，功耗从数百毫瓦降低到个位数毫瓦。

示例16：根据示例1至15中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：以第一频率运行该眼动追踪系统处理管线的、检测感兴趣区域的第一阶段，使得与以第二频率运行第一阶段相比，时延得到改善。

示例17：根据示例1至16中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：基于从数据分析收集到的启发式方法静态地选择第一频率。

示例18：根据示例1至17中任一示例所述的眼动追踪头戴式设备装置，其中，所述可执行指令还使该物理处理器：执行机器学习算法，以预测凝视方位。

示例19：一种计算机实现的方法可以包括：有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及以大体上大于第一频率的第二频率运行该眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位。

示例20：一种非暂态计算机可读介质可以包括一个或多个计算机可执行指令，该一个或多个计算机可执行指令在被计算设备的至少一个处理器执行时使该计算设备：有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，该第一阶段检测感兴趣区域；以及以大体上大于第一频率的第二频率运行该眼动追踪系统处理管线的第二阶段，该第二阶段至少部分地基于检测到的感兴趣区域来预测凝视方位。

本公开的各实施例可以包括各种类型的人工现实系统或结合各种类型的人工现实系统来实现。人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式，该人工现实例如可以包括虚拟现实、增强现实、混合现实(mixed reality)、混合现实(hybridreality)、或它们的某种组合和/或衍生物。人工现实内容可以包括完全的计算机生成的内容、或与所采集的(例如，真实世界的)内容相结合的计算机生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或它们的某种组合，以上中的任何一者可以在单个通道或多个通道中呈现(例如，为观看者带来三维(three-dimensional，3D)效果的立体视频)。另外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或它们的某种组合相关联，这些应用、产品、附件、服务或它们的某种组合例如用于在人工现实中创建内容、和/或以其它方式用于人工现实中(例如，在人工现实中执行活动)。

人工现实系统可以以各种不同的外形要素和配置来实现。一些人工现实系统可以被设计成在没有近眼显示器(Near-Eye Display，NED)的情况下工作。其它人工现实系统可以包括NED，该NED还提供对真实世界的可见性(例如，图7中的增强现实系统700)或者使用户在视觉上沉浸于人工现实中(例如，诸如图8中的虚拟现实系统800)。虽然一些人工现实设备可以是独立的系统，但是其它人工现实设备可以与外部设备通信和/或与外部设备协调，以向用户提供人工现实体验。这种外部设备的示例包括手持式控制器、移动设备、台式计算机、由用户佩戴的设备、由一个或多个其他用户佩戴的设备、和/或任何其它合适的外部系统。

转到图7，增强现实系统700可以包括具有框架710的眼镜设备702，该框架被配置为将左显示设备715(A)和右显示设备715(B)保持在用户双眼的前方。显示设备715(A)和715(B)可以一起或独立地动作，以向用户呈现图像或系列图像。虽然增强现实系统700包括两个显示器，但是本公开的各实施例可以在具有单个NED或多于两个NED的增强现实系统中实现。

在一些实施例中，增强现实系统700可以包括一个或多个传感器，例如传感器740。传感器740可以响应于增强现实系统700的运动而生成测量信号，并且可以大体上位于框架710的任何部分上。传感器740可以表示多种不同感测机构中的一个或多个感测机构，例如位置传感器、惯性测量单元(Inertial Measurement Unit，IMU)、深度摄像头组件、结构光发射器和/或检测器、或它们的任意组合。在一些实施例中，增强现实系统700可以包括或可以不包括传感器740，或者可以包括多于一个的传感器。在传感器740包括IMU的实施例中，该IMU可以基于来自传感器740的测量信号来生成校准数据。传感器740的示例可以包括但不限于：加速度计、陀螺仪、磁力计、检测运动的其它合适类型的传感器、用于IMU的误差校正的传感器、或它们的某种组合。

在一些示例中，增强现实系统700还可以包括传声器阵列，该传声器阵列具有多个声学换能器720(A)至720(J)，该多个声学换能器被统称为声学换能器720。声学换能器720可以表示检测由声波引起的气压变化的换能器。每个声学换能器720可以被配置为检测声音并且将检测到的声音转换成电子格式(例如，模拟格式或数字格式)。图7中的传声器阵列可以包括例如十个声学换能器：声学换能器720(A)和720(B)，这些声学换能器可以被设计为放置在用户的相应耳朵内；声学换能器720(C)、720(D)、720(E)、720(F)、720(G)和720(H)，这些声学换能器可以被定位在框架710上的各个位置处；和/或声学换能器720(I)和720(J)，这些声学换能器可以被定位在对应的颈带705上。

在一些实施例中，声学换能器720(A)至720(J)中的一个或多个声学换能器可以用作输出换能器(例如，扬声器)。例如，声学换能器720(A)和/或720(B)可以是耳塞式耳机、或任何其它合适类型的头戴式耳机或扬声器。

传声器阵列中的各声学换能器720的配置可以改变。虽然增强现实系统700在图7中被显示为具有十个声学换能器720，但声学换能器720的数量可以多于十个或少于十个。在一些实施例中，使用更多数量的声学换能器720可以增加收集到的音频信息的量和/或提高音频信息的灵敏度和准确度。相比之下，使用更少数量的声学换能器720可以降低相关联的控制器750处理收集到的音频信息所需的计算能力。另外，传声器阵列中的各声学换能器720的位置可以改变。例如，声学换能器720的位置可以包括用户身上的限定位置、框架710上的限定坐标、与每个声学换能器720相关联的方位、或它们的某种组合。

声学换能器720(A)和720(B)可以被定位在用户耳朵的不同部位上，例如耳廓(pinna)后面、耳屏后面、和/或耳廓(auricle)或耳窝内。或者，除了耳道内的声学换能器720之外，还可以在耳朵上或耳朵周围存在附加的声学换能器720。将声学换能器720定位在用户的耳道附近可以使传声器阵列能够收集关于声音如何到达耳道的信息。通过将多个声学换能器720中的至少两个声学换能器定位在用户头部的两侧(例如，作为双耳传声器)，增强现实设备700可以模拟双耳听觉并且采集用户头部周围的3D立体声场。在一些实施例中，声学换能器720(A)和720(B)可以经由有线连接730连接到增强现实系统700，而在其它实施例中，声学转换器720(A)和720(B)可以经由无线连接(例如，蓝牙连接)连接到增强现实系统700。在另外一些实施例中，声学换能器720(A)和720(B)可以完全不与增强现实系统700结合使用。

框架710上的多个声学换能器720可以以各种不同的方式定位，这些不同的方式包括沿着眼镜腿的长度、跨过鼻梁架、在显示设备715(A)和715(B)的上方或下方、或它们的某种组合。多个声学换能器720还可以被定向为使得传声器阵列能够检测正佩戴着增强现实系统700的用户周围的宽方向范围内的声音。在一些实施例中，可以在增强现实系统700的制造期间执行优化过程，以确定各个声学换能器720在传声器阵列中的相对定位。

在一些示例中，增强现实系统700可以包括或连接到外部设备(例如，配对设备)，例如颈带705。颈带705概括地表示任何类型或形式的配对设备。因此，以下对颈带705的论述也可以应用于各种其它配对设备，例如充电盒、智能手表、智能手机、腕带、其它可穿戴设备、手持式控制器、平板计算机、膝上型计算机、其它外部计算设备等。

如图所示，颈带705可以经由一个或多个连接器耦接到眼镜设备702。这些连接器可以是有线的或无线的，并且可以包括电子部件和/或非电子部件(例如，结构部件)。在一些情况下，眼镜设备702和颈带705可以在它们之间没有任何有线连接或无线连接的情况下独立地运行。虽然图7示出了眼镜设备702的部件和颈带705的部件位于眼镜设备702上的示例位置和颈带705上的示例位置，但是这些部件可以位于眼镜设备702和/或颈带705上的其它位置和/或以不同的方式分布在该眼镜设备和/或该颈带上。在一些实施例中，眼镜设备702的部件和颈带705的部件可以位于一个或多个附加的外围设备上，该一个或多个附加的外围设备与眼镜设备702、颈带705、或它们的某种组合配对。

将外部设备(例如，颈带705)与增强现实眼镜设备配对可以使眼镜设备能够实现一副眼镜的外形要素，同时仍然为扩展后的能力提供足够的电池电量和计算能力。增强现实系统700的电池电量、计算资源、和/或附加特征中的一些或全部可以由配对设备来提供，或者在配对设备与眼镜设备之间共享，从而总体上降低眼镜设备的重量、热量分布和外形要素，同时仍然保持所期望的功能。例如，由于与用户在其头部上承受的重量负荷相比，用户可以在其肩部上承受更重的重量负荷，因此颈带705可以允许将原本会被包括在眼镜设备上的部件包括在颈带705中。颈带705还可以具有较大的表面积，通过该较大的表面积，热量扩散和散发到周围环境。因此，与独立式眼镜设备上可能原本可行的电池容量和计算能力相比，颈带705可以允许更大的电池容量和更强的计算能力。由于颈带705中携载的重量可以比眼镜设备702中携载的重量对用户的侵害小，因此，与用户忍受佩戴重的独立式眼镜设备相比，用户可以忍受更长时间佩戴较轻的眼镜设备且携带或佩戴配对设备，从而使用户能够将人工现实环境更充分地融入到其日常活动中。

颈带705可以与眼镜设备702通信耦接，和/或通信耦接至多个其它设备。这些其它设备可以向增强现实系统700提供某些功能(例如，追踪、定位、深度图构建(depthmapping)、处理、存储等)。在图7的实施例中，颈带705可以包括两个声学换能器(例如，720(I)和720(J))，这两个声学换能器是传声器阵列的一部分(或者潜在地形成它们自己的传声器子阵列)。颈带705还可以包括控制器725和电源735。

颈带705的声学换能器720(I)和720(J)可以被配置为检测声音并且将检测到的声音转换成电子格式(模拟或数字)。在图7的实施例中，声学换能器720(I)和720(J)可以被定位在颈带705上，从而增加了颈带的声学换能器720(I)和720(J)与被定位在眼镜设备702上的其它声学换能器720之间的距离。在一些情况下，增加传声器阵列的多个声学换能器720之间的距离可以提高经由该传声器阵列执行的波束成形的准确性。例如，如果声学换能器720(C)和720(D)检测到声音，且声学换能器720(C)与720(D)之间的距离大于例如声学换能器720(D)与720(E)之间的距离，则所确定的检测到的声音的源位置可以比当该声音被声学换能器720(D)和720(E)检测到时更准确。

颈带705的控制器725可以对由颈带705和/或增强现实系统700上的传感器生成的信息进行处理。例如，控制器725可以对来自传声器阵列的、描述该传声器阵列检测到的声音的信息进行处理。对于每个检测到的声音，控制器725可以执行波达方向(Direction-of-Arrival，DOA)估计，以估计检测到的声音从哪个方向到达传声器阵列。当传声器阵列检测到声音时，控制器725可以用该信息填充音频数据集。在增强现实系统700包括惯性测量单元的实施例中，控制器725可以计算来自位于眼镜设备702上的IMU的所有惯性计算和空间计算。连接器可以在增强现实系统700与颈带705之间、以及在增强现实系统700与控制器725之间传送信息。该信息可以是光学数据形式、电子数据形式、无线数据形式、或任何其它可传输的数据形式。将对由增强现实系统700所生成的信息进行的处理移动至颈带705可以减小眼镜设备702的重量和热量，使得该眼镜设备对用户而言更舒适。

颈带705中的电源735可以向眼镜设备702和/或颈带705供电。电源735可以包括但不限于：锂离子电池、锂-聚合物电池、一次锂电池、碱性电池、或任何其它形式的电力存储器。在一些情况下，电源735可以是有线电源。将电源735包括在颈带705上而不是包括在眼镜设备702上可以有助于更好地分散由电源735产生的重量和热量。

如所提到的，一些人工现实系统可以使用虚拟体验来大体上代替用户对真实世界的多个感官感知中的一个或多个感官感知，而不是将人工现实与真实现实混合。这种类型的系统的一个示例是大部分或完全覆盖用户的视场的头戴式显示系统，例如图8中的虚拟现实系统800。虚拟现实系统800可以包括前部刚性体802和被成形为适合围绕用户头部的带804。虚拟现实系统800还可以包括输出音频换能器806(A)和806(B)。此外，虽然图8中未示出，但是前部刚性体802可以包括一个或多个电子元件，该一个或多个电子元件包括一个或多个电子显示器、一个或多个惯性测量单元(IMU)、一个或多个追踪发射器或检测器、和/或用于创建人工现实体验的任何其它合适的设备或系统。

人工现实系统可以包括各种类型的视觉反馈机制。例如，增强现实系统700中的显示设备和/或虚拟现实系统800中的显示设备可以包括：一个或多个液晶显示器(LiquidCrystal Display，LCD)、一个或多个发光二极管(Light Emitting Diode，LED)显示器、一个或多个微型LED显示器、一个或多个有机LED(Organic LED，OLED)显示器、一个或多个数字光投影(Digital Light Project，DLP)微型显示器、一个或多个硅基液晶(LiquidCrystal on Silicon，LCoS)微型显示器、和/或任何其它合适类型的显示屏。这些人工现实系统可以包括用于两只眼睛的单个显示屏，或者可以为每只眼睛提供一个显示屏，这可以为变焦调整或为校正用户的屈光不正而提供额外的灵活性。这些人工现实系统中的一些人工现实系统还可以包括多个光学子系统，这些光学子系统具有一个或多个透镜(例如，传统的凹透镜或凸透镜、菲涅耳透镜、可调节的液体透镜等)，用户可以透过该一个或多个透镜观看显示屏。这些光学子系统可以用于各种目的，包括准直(例如，使对象显现在比其物理距离更远的距离处)、放大(例如，使对象显现得比其实际尺寸更大)、和/或传递(例如，传递到观看者的眼睛)光。这些光学子系统可以用于直视型架构(non-pupil-formingarchitecture)(例如，直接对光进行准直但会产生所谓的枕形失真(pincushiondistortion)的单透镜配置)和/或非直视型架构(pupil-forming architecture)(例如，为了消除枕形失真而产生所谓的桶形失真的多透镜配置)。

除了使用显示屏之外，或代替使用显示屏，本文所描述的多个人工现实系统中的一些人工现实系统可以包括一个或多个投影系统。例如，增强现实系统700中的显示设备和/或虚拟现实系统800中的显示设备可以包括微型LED投影仪，微型LED投影仪(例如，使用波导)将光投射到显示设备中，显示设备例如为允许环境光通过的透明组合透镜。显示设备可以将所投射的光折射朝向用户的瞳孔，并且可以使用户能够同时观看人工现实内容和真实世界这两者。显示设备可以使用各种不同光学部件中的任何光学部件来实现该目的，这些不同光学部件包括波导部件(例如，全息元件、平面元件、衍射元件、偏振元件、和/或反射波导元件)、光操纵表面和元件(例如，衍射元件和光栅、反射元件和光栅、以及折射元件和光栅)、耦合元件等。人工现实系统还可以配置有任何其它合适类型或形式的图像投影系统，例如用于虚拟视网膜显示器的视网膜投影仪。

本文所描述的人工现实系统还可以包括各种类型的计算机视觉部件和子系统。例如，增强现实系统700和/或虚拟现实系统800可以包括一个或多个光学传感器，例如二维(two-dimensional，2D)摄像头或3D摄像头、结构光发射器和检测器、飞行时间深度传感器、单光束测距仪或扫描激光测距仪、3D激光雷达(LiDAR)传感器、和/或任何其它合适类型或形式的光学传感器。人工现实系统可以对来自这些传感器中的一个或多个传感器的数据进行处理，以识别用户的位置、绘制真实世界的地图、向用户提供与真实世界周围环境有关的背景、和/或执行各种其它功能。

本文所描述的人工现实系统还可以包括一个或多个输入和/或输出音频换能器。输出音频换能器可以包括音圈扬声器、带式扬声器、静电式扬声器、压电式扬声器、骨传导换能器、软骨传导换能器、耳屏振动换能器、和/或任何其它合适类型或形式的音频换能器。类似地，输入音频换能器可以包括电容式传声器、动态传声器、带式传声器、和/或任何其它类型或形式的输入换能器。在一些实施例中，对于音频输入和音频输出这两者，可以使用单个换能器。

在一些实施例中，本文所描述的人工现实系统还可以包括能触知的(即，触觉)反馈系统，触觉反馈系统可以结合到头饰、手套、服装(body suit)、手持式控制器、环境设备(例如，椅子、地板垫等)、和/或任何其它类型的设备或系统中。触觉反馈系统可以提供各种类型的皮肤反馈，包括振动、力、牵拉、质地和/或温度。触觉反馈系统还可以提供各种类型的动觉反馈，例如运动和顺应性。可以使用电机、压电式致动器、流体系统、和/或各种其它类型的反馈机构来实现触觉反馈。触觉反馈系统可以独立于其它人工现实设备实现、在其它人工现实设备内实现、和/或结合其它人工现实设备来实现。

通过提供触觉感知、听觉内容和/或视觉内容，人工现实系统可以创建完整的虚拟体验或增强用户在各种背景和环境中的真实世界体验。例如，人工现实系统可以辅助或扩展用户在特定环境中的感知、记忆或认知。一些系统可以增强用户与真实世界中的其他人的交互，或者可以实现与虚拟世界中的其他人的更沉浸式的交互。人工现实系统还可以用于教育目的(例如，用于学校、医院、政府机构、军事机构、商业企业等中的教学或训练)、娱乐目的(例如，用于玩视频游戏、听音乐、观看视频内容等)、和/或用于可接入性目的(例如，用作助听器、视觉辅助器等)。本文所公开的各实施例可以在这些背景和环境中的一个或多个背景和环境中、和/或在其它背景和环境中实现或增强用户的人工现实体验。

在一些实施例中，本文所描述的系统还可以包括被设计为识别和追踪用户的一只眼睛或双眼的各种特性(例如，用户的凝视方向)的眼动追踪子系统。在一些示例中，短语“眼动追踪”可以指通过其测量、检测、感测、确定、和/或监测眼睛的位置、方位、和/或运动的过程。所公开的系统可以以各种不同的方式来测量眼睛的位置、方位、和/或运动，这些方式包括通过使用各种基于光学的眼动追踪技术、基于超声波的眼动追踪技术等。眼动追踪子系统可以以多种不同的方式进行配置，并且可以包括各种不同的眼动追踪硬件部件或其它计算机视觉部件。例如，眼动追踪子系统可以包括各种不同的光学传感器，例如，二维(2D)摄像头或3D摄像头、飞行时间深度传感器、单光束测距仪或扫描激光测距仪、3D LiDAR传感器、和/或任何其它合适类型或形式的光学传感器。在该示例中，处理子系统可以处理来自这些传感器中的一个或多个传感器的数据，以测量、检测、确定、和/或以其它方式监测用户的一只眼睛或双眼的位置、方位和/或运动。

图9是结合了能够追踪用户的一只眼睛或双眼的眼动追踪子系统的示例性系统900的图示。如图9中所描绘的，系统900可以包括光源902、光学子系统904、眼动追踪子系统906和/或控制子系统908。在一些示例中，光源902可以生成图像的光(例如，以呈现给观看者的眼睛901)。光源902可以表示各种合适的设备中的任何设备。例如，光源902可以包括二维投影仪(例如，LCoS显示器)、扫描源(例如，扫描激光器)或其它设备(例如，LCD、LED显示器、OLED显示器、有源矩阵OLED(Active-Matrix OLED，AMOLED)显示器、透明OLED(Transparent OLED，TOLED)显示器、波导、或能够生成光以用于向观看者呈现图像的某种其它显示器)。在一些示例中，图像可以表示虚拟图像，该虚拟图像可以指根据来自空间点的光线的表观发散形成的光学图像，而不是指根据光线的实际发散形成的图像。

在一些实施例中，光学子系统904可以接收由光源902生成的光，并且基于接收到的光生成包括图像的会聚光920。在一些示例中，光学子系统904可以包括可能与致动器和/或其它设备组合的任何数量的透镜(例如，菲涅耳透镜、凸透镜、凹透镜)、光圈、滤光器、反射镜、棱镜、和/或其它光学部件。特别地，致动器和/或其它设备可以平移和/或旋转多个光学部件中的一个或多个光学部件，以改变会聚光920的一个或多个方面。此外，各种机械联接件可以用于以任何合适的组合保持各光学部件的相对间隔和/或方位。

在一个实施例中，眼动追踪子系统906可以生成指示观看者的眼睛901的凝视角度的追踪信息。在该实施例中，控制子系统908可以至少部分地基于该追踪信息来控制光学子系统904的各方面(例如，会聚光920的入射角)。另外，在一些示例中，控制子系统908可以存储和利用历史追踪信息(例如，在给定持续时间(例如，前一秒或前一秒的几分之一)内的追踪信息的历史)，以预测眼睛901的凝视角度(例如，眼睛901的视轴与解剖轴之间的角度)。在一些实施例中，眼动追踪子系统906可以检测从眼睛901的某个部分(例如，角膜、虹膜或瞳孔等)发出的辐射，以确定眼睛901的当前凝视角度。在其它示例中，眼动追踪子系统906可以采用波前传感器，以追踪瞳孔的当前位置。

可以使用任何数量的技术来追踪眼睛901。一些技术可以涉及用红外光照射眼睛901，并且用被调谐为对红外光敏感的至少一个光学传感器来测量反射。可以分析关于红外光如何从眼睛901反射的信息，以确定一个或多个眼睛特征(例如，角膜、瞳孔、虹膜、和/或视网膜血管)的一个或多个位置、一个或多个方位和/或一个或多个运动。

在一些示例中，由眼动追踪子系统906的传感器采集的辐射可以被数字化(即，转换成电子信号)。此外，传感器可以将该电子信号的数字表示发送到一个或多个处理器(例如，与包括眼动追踪子系统906的设备相关联的处理器)。眼动追踪子系统906可以包括处于各种不同配置的各种传感器中的任何传感器。例如，眼动追踪子系统906可以包括对红外辐射作出反应的红外探测器。红外探测器可以是热探测器、光子探测器、和/或任何其它合适类型的探测器。热探测器可以包括对入射的红外辐射的热效应作出反应的探测器。

在一些示例中，一个或多个处理器可以处理由眼动追踪子系统906的一个或多个传感器生成的数字表示，以追踪眼睛901的运动。在另一示例中，这些处理器可以通过执行由存储在非暂态存储器上的计算机可执行指令表示的算法来追踪眼睛901的运动。在一些示例中，片上逻辑(例如，专用集成电路或ASIC)可以用于执行此类算法的至少一部分。如所指出的，眼动追踪子系统906可以被编程为使用一个或多个传感器的输出来追踪眼睛901的运动。在一些实施例中，眼动追踪子系统906可以分析由传感器生成的数字表示，以从反射的变化中提取眼睛转动信息。在一个实施例中，眼动追踪子系统906可以使用角膜反射或闪烁(也称为浦肯野(Purkinje)图像)和/或眼睛的瞳孔922的中心作为随时间追踪的特征。

在一些实施例中，眼动追踪子系统906可以使用眼睛的瞳孔922的中心和红外或近红外的非准直光来产生角膜反射。在这些实施例中，眼动追踪子系统906可以使用眼睛的瞳孔922的中心与角膜反射之间的矢量来计算眼睛901的凝视方向。在一些实施例中，所公开的系统可以在追踪用户眼睛之前对个人(使用例如监督技术或非监督技术)执行校准过程。例如，校准过程可以包括引导用户观看显示在显示器上的一个或多个点，同时眼动追踪系统记录对应于与每个点相关联的每个凝视位置的值。

在一些实施例中，眼动追踪子系统906可以使用两种类型的红外和/或近红外(也称为有源光)眼动追踪技术：亮瞳眼动追踪和暗瞳眼动追踪，这可以基于照明源相对于所使用的光学元件的位置来区分。如果照明与光路同轴，则眼睛901可以作为回射器，因为光从视网膜反射回来，从而产生类似于摄影中的红眼效应的亮瞳效应。如果照明源与光路偏移，则眼睛的瞳孔922可能看起来较暗，因为来自视网膜的回射被引导远离传感器。在一些实施例中，亮瞳追踪可以产生更大的虹膜/瞳孔对比度，以允许在虹膜色素沉积的情况下进行稳健的眼动追踪，并且可以具有减少干扰(例如，由睫毛和其它模糊特征造成的干扰)的特点。亮瞳追踪也可以允许在从完全黑暗到非常明亮的环境的照明条件下进行追踪。

在一些实施例中，控制子系统908可以控制光源902和/或光学子系统904，以减少可能由眼睛901造成的或受该眼睛影响的图像的光学像差(例如，色差和/或单色像差)。在一些示例中，如以上所提及的，控制子系统908可以使用来自眼动追踪子系统906的追踪信息，以执行这种控制。例如，在控制光源902时，控制子系统908可以(例如，通过图像渲染的方式)改变由光源902生成的光，以修改(例如，预失真)图像，从而减少由眼睛901造成的图像的像差。

所公开的系统可以追踪瞳孔的(例如，由于瞳孔放大和/或缩小的)位置和相对大小这两者。在一些示例中，用于检测和/或追踪瞳孔的眼动追踪设备和部件(例如，传感器和/或源)对于不同类型的眼睛可以是不同的(或不同地校准的)。例如，对于不同颜色和/或不同瞳孔类型、和/或尺寸等的眼睛，传感器的频率范围可以是不同的(或单独校准的)。因此，可能需要针对每个单独的用户和/或眼睛来校准本文所描述的各种眼动追踪部件(例如，红外源和/或传感器)。

所公开的系统可以追踪具有眼科矫正(例如，由用户佩戴的隐形眼镜提供的矫正)和不具有眼科矫正这两者的眼睛。在一些实施例中，眼科矫正元件(例如，可调节透镜)可以直接结合到本文所描述的人工现实系统中。在一些示例中，用户眼睛的颜色可能需要修改相应的眼动追踪算法。例如，眼动追踪算法可能需要至少部分地基于例如棕色眼睛与蓝色眼睛之间的不同颜色对比度来进行修改。

图10是图9中所示出的眼动追踪子系统的各个方面的更详细的图示。如这幅图所示，眼动追踪子系统1000可以包括至少一个源1004和至少一个传感器1006。源1004概括地表示能够发射辐射的任何类型或形式的元件。在一个示例中，源1004可以生成可见辐射、红外辐射、和/或近红外辐射。在一些示例中，源1004可以朝向用户的眼睛1002辐射电磁谱的非准直的红外部分和/或近红外部分。源1004可以利用各种采样率和速度。例如，所公开的系统可以使用具有较高采样率的源，以采集用户的眼睛1002的注视性眼动、和/或正确地测量用户的眼睛1002的扫视动态。如以上所提到的，可以使用任何类型或形式的眼动追踪技术(包括基于光学的眼动追踪技术、基于超声波的眼动追踪技术等)来追踪用户的眼睛1002。

传感器1006概括地表示能够检测辐射(例如，从用户的眼睛1002反射的辐射)的任何类型或形式的元件。传感器1006的示例包括但不限于，电荷耦合器件(Charge CoupledDevice，CCD)、光电二极管阵列、和/或基于互补型金属氧化物半导体(ComplementaryMetal-Oxide-Semiconductor，CMOS)的传感器设备等。在一个示例中，传感器1006可以表示具有预定参数的传感器，这些参数包括但不限于动态分辨率范围、线性度、和/或专门为眼动追踪选择和/或设计的其它特性。

如以上所详述的，眼动追踪子系统1000可以生成一个或多个闪烁。如以上所详述的，闪烁1003可以表示来自用户眼睛结构的辐射(例如，来自红外源(例如，源1004)的红外辐射)的反射。在各种实施例中，可以使用由(位于人工现实设备内或位于人工现实设备外部的)处理器执行的眼动追踪算法来追踪闪烁1003和/或用户的瞳孔。例如，人工现实设备可以包括处理器和/或存储设备，以在本地执行眼动追踪，和/或包括收发器，以发送和接收在外部设备(例如，移动电话、云服务器、或其它计算设备)上执行眼动追踪所需的数据。

图10示出了由眼动追踪子系统(例如，眼动追踪子系统1000)采集的示例图像1005。在该示例中，图像1005可以包括用户的瞳孔1008和该用户的瞳孔附近的闪烁1010这两者。在一些示例中，可以使用基于人工智能的算法(例如，基于计算机视觉的算法)来识别瞳孔1008和/或闪烁1010。在一个实施例中，图像1005可以表示可以被连续分析以追踪用户的眼睛1002的一系列帧中的单个帧。此外，可以在一段时间内追踪瞳孔1008和/或闪烁1010，以确定用户的凝视。

在一个示例中，眼动追踪子系统1000可以被配置为识别和测量用户的瞳距(Inter-Pupillary Distance，IPD)。在一些实施例中，眼动追踪子系统1000可以在用户正佩戴人工现实系统时测量和/或计算用户的IPD。在这些实施例中，眼动追踪子系统1000可以检测用户眼睛的位置，并且可以使用该信息来计算用户的IPD。

如所提到的，本文所公开的眼动追踪系统或眼动追踪子系统可以以各种方式追踪用户的眼睛位置和/或眼动。在一个示例中，一个或多个光源和/或光学传感器可以采集用户眼睛的图像。然后，眼动追踪子系统可以使用所采集的信息来确定用户的每只眼睛的瞳距、眼间距离、和/或3D位置(例如，用于失真调整目的)，包括每只眼睛的扭转和转动(即，滚动、俯仰和偏转)的大小和/或每只眼睛的凝视方向。在一个示例中，红外光可以由眼动追踪子系统发射并且从每只眼睛反射。反射光可以由光学传感器接收或检测，并且进行分析以从由每只眼睛反射的红外光的变化中提取眼睛转动数据。

眼动追踪子系统可以使用各种不同方法中的任何一种方法来追踪用户的眼睛。例如，光源(例如，红外发光二极管)可以将点图案发射到用户的每只眼睛上。然后，眼动追踪子系统可以(例如，经由耦接到人工现实系统的光学传感器)检测并且分析来自用户的每只眼睛的点图案的反射，以识别用户的每个瞳孔的位置。因此，眼动追踪子系统可以追踪每只眼睛的多达六个自由度(即，3D位置、翻滚、俯仰和偏转)，并且可以将来自用户的双眼的追踪量的至少一个子集组合起来，以估计凝视点(即，用户正在看的虚拟场景中的3D位置或位置)和/或IPD。

在一些情况下，当用户的眼睛移动以在不同方向上观看时，用户的瞳孔与显示器之间的距离可以改变。当观看方向改变时，瞳孔与显示器之间的变化距离可以被称为“瞳孔游移”，并且当瞳孔与显示器之间的距离改变时，由于光聚焦在不同的位置，所以可能导致用户感觉到的失真。因此，测量相对于显示器的不同眼睛位置和瞳距处的失真并且为不同位置和距离生成失真校正，可以允许通过追踪用户眼睛的3D位置并且应用与用户眼睛中的每只眼睛在给定时间点的3D位置相对应的失真校正，来减轻由瞳孔游移引起的失真。因此，知道用户眼睛中的每只眼睛的3D位置可以允许通过对每个3D眼睛位置应用失真校正来减轻由眼睛的瞳孔与显示器之间的距离变化造成的失真。此外，如以上所提到的，知道用户眼睛中的每只眼睛的位置还可以使眼动追踪子系统能够对用户的IPD进行自动调整。

在一些实施例中，显示子系统可以包括各种附加子系统，这些附加子系统可以与本文所描述的眼动追踪子系统相结合地工作。例如，显示子系统可以包括变焦子系统、场景渲染模块、和/或辐辏处理(vergence-processing)模块。变焦子系统可以使左显示元件和右显示元件改变显示设备的焦距。在一个实施例中，变焦子系统可以通过移动显示器、光学器件或这两者来物理地改变显示器与光学器件之间的距离，通过该光学器件可以观看显示器。另外，两个透镜相对于彼此移动或平移也可以用于改变显示器的焦距。因此，变焦子系统可以包括致动器或电机，该致动器或电机移动显示器和/或光学器件以改变它们之间的距离。该变焦子系统可以与显示子系统分开、或集成到该显示子系统中。该变焦子系统还可以集成到本文所描述的其致动子系统和/或眼动追踪子系统中、或与该致动子系统和/或该眼动追踪子系统分开。

在一个示例中，显示子系统可以包括辐辏处理模块，该辐辏处理模块被配置为基于由眼动追踪子系统确定的凝视点和/或凝视线的估计交叉点来确定用户的凝视的辐辏深度。辐辏可以指双眼同时沿相反方向移动或转动以维持单个双眼视觉，这可以由人眼自然地和自动地执行。因此，用户双眼趋近的位置是用户正在看的位置，并且通常也是用户双眼聚焦的位置。例如，辐辏处理模块可以对凝视线进行三角测量，以估计距用户的、与凝视线的交叉点相关联的距离或深度。然后，与凝视线的交叉点相关联的深度可以用作调节距离的近似值，该调节距离可以识别用户双眼指向的位置与用户的距离。因此，辐辏距离可以允许确定用户双眼应当聚焦的位置、以及用户双眼聚焦位置距用户双眼的深度，从而提供用于对虚拟场景进行渲染调整的信息(例如，对象或焦平面)。

辐辏处理模块可以与本文所描述的眼动追踪子系统协作，以对显示子系统进行调整，从而考虑到用户的辐辏深度。当用户聚焦在远处的事物时，用户瞳孔可能比当用户聚焦在近处的事物时稍微分开得远一些。眼动追踪子系统可以获取关于用户的辐辏或聚焦深度的信息，并且可以在用户的眼睛聚焦或趋近近处的事物时将显示子系统调整为靠得更近，并且在用户的眼睛聚焦或趋近远处的事物时将显示子系统调整为离得更远。

例如，由上述眼动追踪子系统生成的眼动追踪信息还可以用于修改如何呈现不同的计算机生成的图像的各个方面。例如，显示子系统可以被配置为基于由眼动追踪子系统生成的信息来修改如何呈现计算机生成的图像的至少一个方面。例如，可以基于用户的眼动来修改计算机生成的图像，使得如果用户向上看，则计算机生成的图像可以在屏幕上向上移动。类似地，如果用户向一侧看或向下看，则计算机生成的图像可以在屏幕上向一侧移动或向下移动。如果用户的眼睛是闭上的，则可以暂停计算机生成的图像或从显示器移除该计算机生成的图像，并且一旦用户的眼睛再次睁开就恢复该计算机生成的图像。

上述眼动追踪子系统可以以各种方式结合到本文所描述的各种人工现实系统中的一个或多个人工现实系统中。例如，系统900和/或眼动追踪子系统1000的各种部件中的一个或多个部件可以结合到图7中的增强现实系统700中和/或图8中的虚拟现实系统800中，以使这些系统能够执行各种眼动追踪任务(包括本文所描述的多个眼动追踪操作中的一个或多个眼动追踪操作)。

本文所描述和/或所示出的过程参数和步骤顺序仅以示例的方式给出，并且可以根据需要进行改变。例如，虽然本文所示出和/或所描述的多个步骤可能是以特定顺序示出或论述的，但是这些步骤不一定需要以所示出或所论述的顺序来执行。本文所描述和/或所示出的各种示例性方法还可以省略本文所描述或所示出的多个步骤中的一个或多个步骤，或者可以包括除了所公开的那些步骤之外的附加步骤。

如上所详述的，本文所描述和/或所示出的计算设备和系统广泛地表示能够执行计算机可读指令(例如，包含在本文所描述的各模块中的那些指令)的、任何类型或形式的计算设备或系统。在这些一个或多个计算设备的最基本的配置中，这些一个或多个计算设备可以各自包括至少一个存储设备和至少一个物理处理器。

在一些示例中，术语“存储设备”概括地指能够存储数据和/或计算机可读指令的任何类型或形式的易失性或非易失性的存储设备或存储介质。在一个示例中，存储设备可以存储、加载和/或维护本文所描述的多个模块中的一个或多个模块。存储设备的示例包括但不限于，随机存取存储器(Random Access Memory，RAM)、只读存储器(Read OnlyMemory，ROM)、闪存、硬盘驱动器(Hard Disk Drive，HDD)、固态驱动器(Solid-StateDrive，SSD)、光盘驱动器、高速缓冲存储器、以上中的一者或多者的变型或组合、或任何其它合适的存储存储器。

在一些示例中，术语“物理处理器”概括地指能够解译和/或执行计算机可读指令的任何类型或形式的、由硬件实现的处理单元。在一个示例中，物理处理器可以访问和/或修改存储在上述存储设备中的一个或多个模块。物理处理器的示例包括但不限于，微处理器、微控制器、中央处理单元(Central Processing Unit，CPU)、实现软核处理器的现场可编程门阵列(Field-Programmable Gate Array，FPGA)、专用集成电路(Application-Specific Integrated Circuit，ASIC)、以上中的一者或多者中的部分、以上中的一者或多者的变型或组合、或任何其它合适的物理处理器。

尽管被示出为单独的元件，但是本文所描述和/或所示出的多个模块可以表示单个模块或应用的部分。另外，在某些实施例中，这些模块中的一个或多个模块可以表示以下一个或多个软件应用或程序：该一个或多个软件应用或程序在被计算设备执行时可以使该计算设备执行一个或多个任务。例如，本文所描述和/或所示出的多个模块中的一个或多个模块可以表示存储在本文所描述和/或所示出的多个计算设备或系统中的一者或多者上并且被配置为在该多个计算设备或系统中的一者或多者上运行的模块。这些模块中的一个或多个模块还可以表示被配置为执行一个或多个任务的一个或多个专用计算机的全部或部分。

另外，本文所描述的多个模块中的一个或多个模块可以将数据、物理设备和/或物理设备的表示从一种形式转换为另一种形式。附加地或替代地，本文所记载的多个模块中的一个或多个模块可以通过在物理计算设备上执行、在该计算设备上存储数据、和/或以其它方式与该计算设备交互，来将该计算设备的处理器、易失性存储器、非易失性存储器和/或任何其它部分从一种形式转换成另一种形式。

在一些实施例中，术语“计算机可读介质”概括地指能够存储或携载计算机可读指令的任何形式的设备、载体或介质。计算机可读介质的示例包括但不限于，传输型介质和非暂态型介质，该传输型介质例如为载波，该非暂态型介质例如为磁存储介质(例如，硬盘驱动器、磁带驱动器和软盘)、光存储介质(例如，光盘(Compact Disk，CD)、数字视频盘(Digital Video Disk，DVD)和蓝光光盘(BLU-RAY disk))、电子存储介质(例如，固态驱动器和闪存介质)、以及其它分发系统。

已经提供了前面的描述来使本领域其他技术人员能够最优地利用本文所公开的示例性实施例的各个方面。该示例性描述并不旨在是详尽的，或被限制为所公开的任何精确形式。在不脱离本公开的范围的情况下，许多修改和变型是可能的。本文所公开的各实施例在所有方面都应被认为是说明性的，而不是限制性的。在确定本公开的范围时，应当参考所附的任何权利要求及其等同物。

除非另有说明，否则如本说明书和/或权利要求书中所使用的术语“连接到”和“耦接到”(及它们的派生词)将被解释为允许直接连接和间接连接(即，经由其它元件或部件)这两者。另外，如本说明书和/或权利要求书中所使用的术语“一”或“一个”将被解释为意指“……中的至少一个”。最后，为了便于使用，如本说明书和/或权利要求书中所使用的术语“包含”和“具有”(及它们的派生词)与词语“包括”可互换，并且具有与词语“包括”相同的含义。

Claims

1.一种眼动追踪头戴式设备，包括：

物理处理器；以及

至少一个物理存储器，所述至少一个物理存储器存储有可执行指令，所述可执行指令在被所述物理处理器执行时使所述物理处理器：

有条件地以第一频率运行眼动追踪系统处理管线的第一阶段，所述第一阶段检测感兴趣区域；以及

以大体上大于所述第一频率的第二频率运行所述眼动追踪系统处理管线的第二阶段，所述第二阶段至少部分地基于检测到的所述感兴趣区域来预测凝视方位；

其中：

所述第一阶段对标识与人眼对应的裁剪位置的信息进行更新；并且

所述第二阶段以大体上大于所述第一频率的所述第二频率、使用先前从以所述第一频率运行的所述第一阶段更新的所述裁剪位置来执行裁剪过程。

2.根据权利要求1所述的眼动追踪头戴式设备，其中，所述可执行指令还使所述物理处理器：检测对预示要妨碍所述眼动追踪系统处理管线的性能的边角情况的指示。

3.根据权利要求2所述的眼动追踪头戴式设备，其中，对所述边角情况的所述指示包括：

运动；或

所述第二阶段的输出的质量测量结果降到阈值以下。

4.根据权利要求3所述的眼动追踪头戴式设备，其中，对所述边角情况的所述指示包括运动。

5.根据权利要求4所述的眼动追踪头戴式设备，还包括：惯性测量单元，所述惯性测量单元被配置为检测运动。

6.根据权利要求5所述的眼动追踪头戴式设备，其中，所述惯性测量单元被配置为检测满足预定阈值的运动量。

7.根据权利要求4至6中任一项所述的眼动追踪头戴式设备，其中，所述可执行指令还使所述物理处理器：响应于检测到运动，通过为额外帧激活所述第一阶段来偏离所述第一频率，使得检测所述感兴趣区域的准确性得到提高；和/或优选地，其中，所述可执行指令还使所述物理处理器：响应于检测到运动，从对所述感兴趣区域进行下采样的下采样过程偏离到对包括所述感兴趣区域的整个帧进行下采样的下采样过程。

8.根据权利要求3至7中任一项所述的眼动追踪头戴式设备，其中，对所述边角情况的所述指示包括：所述第二阶段的输出的所述质量测量结果降到所述阈值以下；和/或优选地，其中，所述可执行指令还使所述物理处理器：响应于检测到所述第二阶段的输出的所述质量测量结果降到所述阈值以下，从对所述感兴趣区域进行下采样的下采样过程偏离到对包括所述感兴趣区域的整个帧进行下采样的下采样过程。

9.根据权利要求3至8中任一项所述的眼动追踪头戴式设备，其中，所述可执行指令还使所述物理处理器：执行兼或运算，所述兼或运算响应于检测到运动或检测到所述第二阶段的输出的质量测量结果降到所述阈值以下，触发从对所述感兴趣区域进行下采样的下采样过程到对包括所述感兴趣区域的整个帧进行下采样的下采样过程的偏离；和/或优选地，其中，所述可执行指令还使所述物理处理器：检测对所述边角情况的所述指示，对所述边角情况的所述指示是由除了摄像头传感器之外的传感器检测的。

10.根据前述权利要求中任一项所述的眼动追踪头戴式设备，其中，所述眼动追踪系统处理管线被配置为作为虚拟现实头戴式设备/增强现实头戴式设备的一部分来运行。

11.根据前述权利要求中任一项所述的眼动追踪头戴式设备，其中，所述可执行指令还使所述物理处理器：有条件地以所述第一频率运行所述眼动追踪系统处理管线的、检测所述感兴趣区域的所述第一阶段，使得实现了功耗与无条件地运行所述第一阶段相比大幅度降低；和/或优选地，其中，所述可执行指令还使所述物理处理器：有条件地以所述第一频率运行所述眼动追踪系统处理管线的、检测所述感兴趣区域的所述第一阶段，使得与以所述第二频率运行所述第一阶段相比，所述功耗从数百毫瓦降低到个位数毫瓦。

12.根据前述权利要求中任一项所述的眼动追踪头戴式设备，其中，所述可执行指令还使所述物理处理器：以所述第一频率运行所述眼动追踪系统处理管线的、检测所述感兴趣区域的所述第一阶段，使得与以所述第二频率运行所述第一阶段相比，时延得到改善。

13.根据前述权利要求中任一项所述的眼动追踪头戴式设备，其中，所述可执行指令还使所述物理处理器：基于从数据分析收集到的启发式方法静态地选择所述第一频率；和/或优选地，其中，所述可执行指令还使所述物理处理器：执行机器学习算法，以预测所述凝视方位。

14.一种方法，包括：

其中：

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质包括一个或多个计算机可执行指令，所述一个或多个计算机可执行指令在被计算设备的至少一个处理器执行时使所述计算设备：

其中：