CN113227942A

CN113227942A - Ar/vr环境中用户注意力的音频指示器

Info

Publication number: CN113227942A
Application number: CN201980086562.3A
Authority: CN
Inventors: 塞巴斯蒂安·什图克; 哈维尔·圣阿古斯丁洛佩斯; 安德斯·博·佩德森
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-12-27
Filing date: 2019-12-23
Publication date: 2021-08-06
Also published as: KR20210107710A; JP2022516221A; WO2020139801A1; US20200209957A1; US10990171B2

Abstract

提供了一种在增强现实/虚拟现实(AR/VR)系统中向用户通知来自另一用户的注意力的方法。该方法包括在第一电子显示器上向AR/VR系统的第一用户显示第一图像，并且一旦检测到第一用户凝视AR/VR系统的第二用户或第一图像中的第二用户的化身，就通过改变从第一用户到第二用户的音频通信信道的参数来向第二用户通知第一用户的凝视，以便使第一用户更易被第二用户听到。

Description

AR/VR环境中用户注意力的音频指示器

技术领域

本公开涉及视觉显示器和显示系统，且尤其涉及可穿戴显示器和用于可穿戴显示器的方法。

背景

可穿戴显示器可用于向用户呈现虚拟图像，或者用动态信息、数据或虚拟对象来增强真实世界的图像。虚拟现实(VR)或增强现实(AR)场景可以是三维的，以增强体验并使虚拟对象与用户观察到的真实对象相匹配。可以实时跟踪用户在空间中的眼睛定位(position)和凝视方向和/或定向(orientation)，并且可以根据用户的头部定向和凝视方向来动态地调整显示的场景，以提供沉浸在模拟或增强的环境中的更好体验。

可穿戴显示器可用于模拟或增强用户之间的社交互动。例如，在虚拟会议应用中，由虚拟会议房间中的化身表示的用户可以通过互相交谈、向一群用户呈现信息等来彼此交互。社交聚会事件的AR/VR模拟的一个缺点是，用户可能会因AR/VR环境而感到孤立或迷失方向，从而使用户之间的社交联系不那么直接。

概述

本文公开的方法和系统可用于使用户能够吸引AR/VR环境中其他用户的注意力。AR/VR系统可以包括控制器和由不同的用户穿戴的多个可穿戴显示器。这些可穿戴显示器可以各自包括视觉显示模块、眼睛跟踪系统和音频系统，该视觉显示模块用于向用户显示VR图像和/或用AR图像和标志来增强观察到的外部世界，该眼睛跟踪系统用于实时地确定诸如用户的凝视方向、聚散度(vergence)、眼睛扩张(eye dilation)等的参数，该音频系统用于与其他用户的音频通信。控制器可以包括远程或分布式计算系统以及将控制器连接到可穿戴显示器的通信网络，使得可穿戴显示器与控制器通信地耦合。本文使用的术语AR/VR包括AR系统、VR系统及其任意组合，包括混合现实(MR)系统。AR/VR系统的示例将在下面进一步给出。

特定用户的可穿戴显示器可以显示表示系统的其他用户的图像。该方法使AR/VR系统的用户能够注意到该系统的另一个用户何时在看着他们。屏幕上表示的用户可以位于很远的地方，并且对于穿戴特定可穿戴显示器的用户不可见，并且可以由化身来表示。在一些AR实施例中，用户可以通过他们的AR头戴式装置(headset)直接查看其他用户。

根据本公开，提供了一种增强现实/虚拟现实(AR/VR)系统的可穿戴显示器中的方法。该方法包括使用可穿戴显示器向AR/VR系统的第二用户发出音频，其中该音频源自AR/VR系统的第一用户，并且具有从第一用户到第二用户的音频通信信道的参数，其中该参数从第一值改变为第二值，以便使第一用户更易被第二用户听到。当例如通过执行指令以处理第一用户的眼睛跟踪数据的处理器已经检测到第一用户指向第二用户或者第二用户的化身的凝视时，参数被改变，所述第二用户的化身在显示给第一用户的图像中。

当处理器执行指令以确定第一用户的眼睛已经看着第二用户或第二用户的化身达至少预定义的时间间隔时，参数可以从第一值改变为第二值。

当已经检测到第一用户在第二用户处的凝视方向时，参数可以从第一值改变为第二值。在这种情况下，当已经检测到第一用户在第二用户处的凝视聚散度或第一用户的瞳孔扩张中的至少一个时，参数可以从第一值改变为第二值。

在第一用户的凝视之前，该参数可以具有第一值。

当处理器以规则的时间间隔确定了第一用户的凝视方向或凝视聚散度中的至少一个时，参数可以从第一值改变为第二值。

当凝视已经被撤回达至少预定义的时间间隔时，参数可以被改变回第一值。

根据本公开，提供了一种其上存储有指令的非暂时性存储器，当由一个或更多个处理器执行时，所述指令使所述一个或更多个处理器使用可穿戴显示器向AR/VR系统的第二用户发出音频，其中所述音频源自AR/VR系统的第一用户，并且具有从第一用户到第二用户的音频通信信道的参数，其中所述参数从第一值改变为第二值，以便使第一用户更易被第二用户听到。当例如通过执行指令以处理第一用户的眼睛跟踪数据的处理器已经检测到第一用户指向第二用户或者第二用户的化身的凝视时，参数被改变，所述第二用户的化身在显示给第一用户的图像中。

在第一用户的凝视之前，该参数可以具有第一值。

根据本公开，还提供了一种AR/VR系统，包括：第一可穿戴显示器，其包括眼睛跟踪系统、用于向第一用户显示第一图像的第一电子显示器和麦克风；第二可穿戴显示器，其包括用于向第二用户显示第二图像的第二电子显示器和扬声器；以及控制器，其通信地耦合到第一可穿戴显示器和第二可穿戴显示器。控制器被配置为建立从AR/VR系统的第一用户到第二用户的音频通信信道，并向第一可穿戴显示器提供用于显示第一图像的数据。控制器包括注意力监视器，该注意力监视器被配置为从第一可穿戴显示器接收与第一用户的眼睛检测和跟踪相关的数据，并识别第一用户指向第二用户或第一图像中的第二用户的化身的凝视。控制器被配置为一旦检测到凝视，就将音频通信信道的参数从第一值改变为第二值，以便使第一用户更易被第二用户听到。

注意力监视器可以被配置为确定第一用户的眼睛看着第二用户或第一图像中的第二用户的化身达至少预定义的时间间隔。

注意力监视器可以被配置为确定第一用户的凝视方向。在这种情况下，注意力监视器可以被配置为确定第一用户的凝视聚散度或瞳孔扩张中的至少一个。

该参数可以包括峰值音频频率、音频通信信道的频谱宽度或响度中的至少一个。

注意力监视器可以被配置为随着时间的推移监视第一用户的凝视，并且当凝视已经被撤回达至少预定义的时间间隔时，将参数改变回第一值。

附图简述

现在将结合附图描述示例性实施例，其中：

图1是根据本公开的AR/VR系统的框图；

图2是图1的AR/VR系统中的方法的流程图；

图3是示出图1的音频通信信道的频谱响应函数的图；

图4是用于图1的AR/VR系统的注意力监视器的示例性方法的流程图；

图5A是眼镜形状因子的近眼增强现实(AR)/虚拟现实(VR)可穿戴显示器实施例的等距视图；

图5B是图5A的AR/VR可穿戴显示器的侧视横截面图；

图6A是本公开的头戴式显示器头戴式装置的等距视图；

图6B是包括图6A的头戴式装置的虚拟现实系统的框图；

图7是眼睛凝视屏幕的示意图；

图8是根据实施例的图1的AR/VR系统的示例网络环境的框图；以及

图9是用于实现本公开的方法的计算机系统的框图。

详细描述

虽然结合各种实施例和示例描述了本教导，但是意图并不是本教导被限制到这样的实施例。相反，如本领域技术人员将理解的，本教导包括各种替代物和等同物。本文中叙述本公开的原理、方面和实施例以及其特定示例的所有陈述旨在包括其结构和功能等同物。另外，意图是这样的等同物包括当前已知的等同物以及将来开发的等同物两者，即，执行相同功能的所开发的任何要素，而不考虑结构。

如在本文所使用的，除非明确规定，否则术语“第一”、“第二”等并不意欲暗示顺序次序，而是更确切地意欲将一个要素与另一个要素区分开。类似地，除非明确规定，否则方法步骤的顺序次序并不暗示它们执行的顺序次序。术语“多个”在本文中用于表示“两个或更多个”，并且词语“包含(include)”与词语“包括(comprise)”的含义相同。

参考图1，AR/VR系统100允许两个或更多个用户(例如用户Ann(111)和Bob(112))的交互。系统100包括控制器152，控制器152经由网络与两个或更多个可穿戴显示器128(Ann的可穿戴显示器)和126(Bob的可穿戴显示器)连接。每个可穿戴显示器126、128包括电子显示器和音频系统，即Ann的可穿戴显示器128包括电子显示器121和音频系统191，以及Bob的可穿戴显示器126包括电子显示器122和音频系统192。音频系统191、192可以各自包括扬声器193或麦克风194中的至少一个。图像和声音是使用从控制器152接收到的数据来传送的。控制器152还建立从Ann到Bob的第一音频通信信道171，以及从Bob到Ann的第二音频通信信道172。第一音频通信信道171和第二音频通信信道172可以是Ann和Bob之间的双向通信信道的一部分，和/或是Ann、Bob和其他用户(如果有的话)之间的多向通信信道的一部分。此外，控制器152可以生成其他声音，例如配乐、背景音乐、自动通知等。

由Ann的可穿戴显示器128生成的图像可以包括由广角相机捕获的图像，或者可以包括完全由VR生成的图像。VR生成的图像可以表示多个用户，并且特别地，可以包括表示Bob的图像136。在本文，表示Bob的图像136被称为Bob的化身136。Bob的化身136可以是静止图像或动态图像、图标、图形表示、动画图像等。在一些AR实施例中，Ann可以通过AR头戴式装置直接看着Bob，该AR头戴式装置透射外部光使得能够直接观看外部世界，同时用计算机生成的图形和其他计算机生成的图像来增强真实视图。在这样的实施例中，Bob的真实世界视图可以用提示、标志等来增强。这同样适用于Ann和任何其他用户以及向彼此表示其他用户的图像(即其他用户的化身131、132和136)。在一些AR实施例中，可以有虚拟化身和真人被放置在同一场景中。此外，用户可以通过电话拨入，并通过放置表示拨入用户的化身而被放置在场景中。

图2是根据本公开的用于呈现音频提示的方法的流程图。该方法包括建立(225)从AR/VR系统的第一用户到第二用户的音频通信信道，以及在第一电子显示器上向AR/VR系统的第一用户显示(230)第一图像。在图1所示的例子中，第一用户111是Ann，第一电子显示器是她的电子显示器121，以及图像136表示Bob。

进一步参考图1，AR/VR系统100的第一可穿戴显示器128包括眼睛跟踪系统142，其收集关于第一用户的眼睛的数据，并将获得的数据提供给注意力监视器161(在图1中示出为161A和161B)。优选地，第二可穿戴显示器126也包括眼睛跟踪系统，从而也可以将Bob的凝视通知给Ann。

注意力监视器161是一个功能块，包括可穿戴显示器(例如Ann的可穿戴显示器128)内的一个或更多个本地部分161B以及控制器152内的中央部分161A。一些功能可以由用户位置处的本地部分161B或者由中央位置处的中央部分161A来实现。注意力监视器161可以用存储在计算机可读存储介质中并由硬件处理器执行的指令来实现。

注意力监视器161将由眼睛跟踪系统142获得的信息和与当前显示在电子显示器121上的图像相关的信息同步，以识别Ann是看着Bob(例如在AR应用中直接看着Bob，或者在VR应用中看着Bob的化身136)。在图1中，线170指示当Ann看着Bob的化身136时Ann的凝视的具体方向。

在这个例子中，Ann看着Bob的化身136。Ann可以将她的注意力转移到表示另一个用户的图像132。注意力监视器161可以基于用于形成提供给电子显示器121的图像的初始信息来区分图像136和132。注意力监视器161具有标识电子显示器121的哪个部分被特定用户的图像所占据的信息。对于AR应用，每个AR头戴式装置可以配备有位置传感器或位置指示器，使得AR/VR系统100能够实时地确定每个用户在3D空间中的位置。该信息与各种用户在3D空间中的凝视方向和/或聚散度一起，使AR/VR系统100能够为每个用户实时地确定哪个或哪些其他用户可能正在看着该特定用户。例如，如果Bob在真实世界位置A，而Ann碰巧在3D空间中看着相同的真实世界位置A，则AR/VR系统100可以确定Ann正看着Bob。

出于识别AR/VR系统100的一个用户指向另一个用户的凝视的持续时间的目的，注意力监视器161可以计算Ann凝视Bob或Bob的化身136的持续时间。凝视持续时间可被定义为在预定义的时间间隔期间，对特定图像(例如Bob的化身136)或特定人或AR应用中的3D空间位置的不间断、连续的凝视。凝视检测条件可以被配置为观看特定图像达至少预定义的时间间隔T1。当满足凝视检测条件时，检测到凝视的出现。

因此，图2的方法还包括检测(235)凝视，例如第一用户(在本例中为Ann)朝向第二用户(Bob)或在第一电子显示器121上显示给第一用户(Ann)的第一图像中的第二用户的化身(Bob的化身136)的凝视，其由线170表示。检测235可以包括通过眼睛跟踪单元(例如眼睛跟踪系统142)来跟踪第一用户的眼睛移动。检测可以包括凝视持续时间长于预定义的阈值时间量的条件。检测还可以考虑一些眼睛特征，例如第一用户的瞳孔扩张。扩张的瞳孔可以指示注意力高度集中。当注意力监视器161确定一个用户注意另一个用户达至少预定的阈值时间量时，可以通知该另一个用户。例如，当监视器161检测到从Ann朝向与Bob相关的图像136的凝视170时，控制器152可以通知Bob。

该方法还包括通知240。通知240可以包括改变从第一用户111(Ann)到第二用户112(Bob)的第一音频通信信道171的参数，以便使第一用户111更易被第二用户112听到。参数从第一默认值(例如对所有用户通用的值)改变为第二不同的值。该参数可以包括例如音频信号水平，即当Ann和Bob说话时Ann的声音的响度。就此而言，这可以通过更容易引起Bob或任何其他用户的注意来促进AR/VR系统100的各个用户之间的社交互动。

基于凝视检测235，可以修改使第一用户的声音更易被第二用户听到或注意到的任何参数。例如，该参数可以与音频通信信道的频谱形状相关。参考图3并进一步参考图1，第一通信信道171(图1)具有默认的频谱响应函数300(图3)，该默认的频谱响应函数300可以是对于AR/VR系统100的所有用户公共的。默认的频谱响应函数300可以由第一峰值音频频率302和第一频谱宽度304表征。一旦检测到235第一用户111对第二用户112的凝视，控制器152就改变第一通信信道171以具有修改的频谱响应函数310，该修改的频谱响应函数310由第二更高的峰值音频频率312和第二更窄的频谱宽度314表征。例如，当第一用户111凝视第二用户112达预定的时间量时，修改的频谱响应函数310使声音听起来更尖锐，并且因此更容易被第二用户112注意到。

在一些实施例中，可以应用频移技术来实时地改变用户声音的音调(pitch)，实时地改变用户喉咙的建模的声学参数以使其听起来不同，等等。第一用户的语音的某些频率可以被阻止，和/或背景声音可以被减少以强调第一用户的声音。此外，在一些实施例中，可以采用主动(电子)外部噪声抑制/噪声消除，并且当看着特定用户时，可以打开或提高噪声消除以获得更大的效果。控制器152还可以被配置为抑制位于用户旁边的人的声音，尤其是如果这些人正在彼此交谈而不是与用户交谈。

通知还可以可选地包括添加到在Bob的显示器122上显示给Bob的Ann的图像的视觉信息，例如标志、视觉提示、文本、符号和/或对Ann的化身131的一些修改(例如颜色、对比度、亮度、轮廓(outline)等)。视觉提示可以表示由Bob的AR头戴式装置提供的人工图像或特征。优选地，视觉提示是预先定义的并且容易被注意到，然而视觉提示可以合理地保持不明显(subtle)。视觉提示的目的是响应于识别到的第一用户在第二用户处或朝向第二用户的凝视，促进将第二用户的注意力吸引到第一用户。

该方法可以实时执行。当用户的眼睛在屏幕的不同区域之间移动时，AR/VR系统100可以以规则的时间间隔接收更新的眼睛跟踪信息，并且显示系统可以基于更新的眼睛跟踪信息计算注视点(point of regard)(即凝视点)，该注视点是用户正在看着的屏幕中的点。优选地，由凝视方向和凝视聚散度表示的注视点以预定义的规则的时间间隔被识别。如上所述，只要可靠地检测到第一用户的凝视，即如果凝视已经发生了预定的时间量，就通知第二用户。然后，系统继续监视第一用户111的凝视。凝视撤回条件可以被配置为继续看着第二用户达小于预定义的时间间隔T2。两个时间间隔T1(凝视阈值时间的检测)和T2(凝视的撤回)可以相等，T1＝T2，然而不是必须相等。注意力监视器161还可以被配置为检测用户自然的眼睛和/或头部移动，以便将目光接触的持续时间限制为舒适的持续时间。换句话说，第一用户可能会短暂地看着地板，从一边到另一边转动他们的头，等等。注意力监视器161可以被配置为允许在“短暂撤回时间”T3内的这种移动，而不改变第一用户和第二用户之间的音频通信信道的参数。然而，当满足凝视撤回条件时，第一音频通信信道171的参数被改变回原始(第一)值。

最终，第一用户111可以将他们的注意力返回到第二用户112。当满足凝视检测条件时，第一音频通信信道171的参数可以再次改变为第二值，或者可以改变为不同的第三值，所述第三值被选择为例如使第一用户的声音对于被看着的用户来说更易被注意到。在本文，音频参数的第二值或第三值指示注意力，而第一(默认)值可以指示缺乏注意力。

从第二用户Bob(112)的角度来看，该方法包括使用Bob的可穿戴显示器来发出引起Bob注意的音频。该音频源自Ann，并且具有从Ann(第一用户111)到Bob(第二用户112)的音频通信信道171的参数。如上面所解释的，参数从第一值改变为第二值，以便使Ann(第一用户111)更易被Bob(第二用户112)听到。当Ann的指向Bob或在Ann的电子显示器121上显示给Ann的图像中的Bob的化身136的凝视已经被执行指令以处理Ann的眼睛跟踪数据的处理器检测到时，这种情况发生。当处理器执行指令以确定第一用户111(Ann)的眼睛已经看着第二用户112(Bob)或第二用户的化身136达至少预定义的时间间隔时，参数可以从第一值改变为第二值。在一些实施例中，当第一用户在第二用户111处的凝视方向、聚散度、瞳孔扩张等已经被检测到时，可以发生音频参数的改变。第一用户的凝视方向或凝视聚散度中的至少一个可以由处理器以规则的时间间隔确定，并且可以在凝视已经被撤回时被改变回第一值。

在一些实施例中，面部识别可用于确定场景中人的存在，以及用于基于年龄和性别预测该人的声音音调。对于VR应用，可以为每个用户提供音频简档，并且可以基于音频简档来应用频谱滤波，以优化语音可检测性。此外，在一些应用中，每个用户的听觉频率响应可以通过例如使用用户自己的头戴式装置执行听觉测试来确定。如本文所解释的，当向用户提供音频信号以增强用户的语音可检测性和/或突出正看着该特定用户的其他用户的音频通信信道时，可以考虑所测量的听觉频率响应。

图4是注意力监视器161采用的用于检测第一用户111朝向第二用户112的凝视的存在或不存在的示例性方法400的流程图。最初(402)凝视状态为否。启动间隔计时器(404)，并检测注视点(406)。如果注视点在第二人的图像内(408)，则使观看计时器递增(410)。如果不在，并且如果间隔计时器小于T1(412)，则过程返回到检测注视点(406)。如果否，则确定凝视状态(414)。如果没有凝视并且观看计时器小于X*T1(416)，则该过程重启间隔计时器(404)。如果观看计时器大于X*T1(418)，则凝视状态为是(420)，并且通知第二用户凝视改变(422)。如果凝视持续并且观看计时器大于Y*T1，则该过程也重启间隔计时器(404)。如果观看计时器小于Y*T1，则凝视状态为否(424)，并且通知第二用户凝视改变(422)。可以随着时间的推移而连续监视用户的凝视。在本文，X和Y是大于1的工艺参数。可以以类似的方式考虑第一用户111朝向第一电子显示器121上表示的其他用户的可能的凝视。当然，可以采用其他方法，特别是可以使用滑动时间窗口来确定凝视的存在或不存在。

第一用户111和第二用户112可以是人，以便他们的凝视可以被眼睛跟踪设备捕获。然而，被通知得到第一用户的注意的第二用户112也可以是机器、计算机或机器人。

参考图5A和图5B，近眼AR/VR显示器500是可穿戴显示器126、128的实施例。如所示，近眼AR/VR显示器500的主体或框架502具有一副眼镜的形状因子。显示器504包括显示组件506(图5B)，显示组件506向视窗(eyebox)510提供图像光508，视窗510即可以向用户的眼睛512呈现高质量图像的几何区域。显示组件506可以包括用于每只眼睛的单独的近眼AR/VR显示模块，或者用于两只眼睛的一个AR/VR显示模块。

显示组件506的电子显示器可以包括例如但不限于液晶显示器(LCD)、有机发光显示器(OLED)、无机发光显示器(ILED)、有源矩阵有机发光二极管(AMOLED)显示器、透明有机发光二极管(TOLED)显示器、投影仪或其组合。可以提供波导结构来将显示器产生的图像传送到用户的眼睛。在AR应用中，透明或半透明的波导结构可以在显示组件506上延伸。波导可以包括选择性反射器和衍射光栅。波导还可以包括光瞳复制波导部分。

近眼AR/VR显示器500还可以包括眼睛跟踪系统514，用于实时确定用户眼睛512的凝视方向和/或聚散角(vergence angle)。根据视角和眼睛位置，所确定的凝视方向和凝视聚散角也可以用于视觉伪像的实时补偿。此外，所确定的聚散度和凝视角度可用于与用户的交互、突出显示对象、将对象带到前景、动态创建附加对象或指示物(pointer)等。近眼相干AR/VR显示器500还包括音频系统520。音频系统520可以包括小型扬声器或耳机(headphone)和/或麦克风。

转到图6A，HMD 600是为了更大程度地沉浸到AR/VR环境内而包围用户的面部的AR/VR可穿戴显示系统的例子。HMD 600的功能是用计算机生成的图像来增强物理、真实世界环境的视图，和/或生成完全虚拟的3D图像。HMD 600包括前主体602和带604。前主体602被配置为以可靠和舒适的方式放置在用户的眼睛前面，以及带604可以被拉伸以将前主体602固定在用户的头上。显示系统680可以布置在前主体602中，用于向用户呈现AR/VR图像。前主体602的侧面606可以是不透明的或透明的。

在一些实施例中，前主体602包括定位器608、用于跟踪HMD 600的加速度的惯性测量单元(IMU)610以及用于跟踪HMD 600的位置的位置传感器612。IMU 610是基于从一个或更多个位置传感器612接收的测量信号来生成指示HMD 600的位置的数据的电子设备，位置传感器612响应于HMD 600的运动而生成一个或更多个测量信号。位置传感器612的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU 610的误差校正的一类传感器或者其某种组合。位置传感器612可以位于IMU 610的外部、IMU 610的内部或者这两种位置的某种组合。

定位器608由虚拟现实系统的外部成像设备跟踪，使得虚拟现实系统可以跟踪整个HMD 600的位置和定向。为了HMD 600的位置和定向的改进的跟踪准确度，可以将由IMU610和位置传感器612产生的信息与通过跟踪定位器608获得的位置和定向进行比较。当用户在3D空间中移动和转动时，准确的位置和定向对于向用户呈现适当的虚拟场景是重要的。

HMD 600还可以包括深度相机组件(DCA)611，其捕获描述围绕HMD 600的部分或全部的局部区域的深度信息的数据。为此，DCA 611可以包括激光雷达(LIDAR)或类似设备。可以将深度信息与来自IMU 610的信息进行比较，以便更准确地确定HMD 600在3D空间中的位置和定向。

HMD 600还可以包括眼睛跟踪系统614，用于实时地确定用户眼睛的定向和位置。眼睛跟踪系统614可以包括照射双眼的红外照明器阵列、用于分离红外光和可见光的热镜(hot mirror)、以及通过来自照明器的反射(亮斑(glint))获得双眼图像的眼睛跟踪相机。通过相对于眼睛瞳孔的位置比较亮斑的位置，可以确定眼睛的位置和定向。所获得的眼睛的位置和定向还允许HMD 600确定用户的凝视方向，并相应地调整由显示系统680生成的图像。在一个实施例中，确定聚散度，即用户的眼睛凝视的会聚角度(convergence angle)。根据视角和眼睛位置，所确定的凝视方向和凝视聚散角也可以用于视觉伪像的实时补偿。此外，所确定的聚散度和凝视角度可用于与用户的交互、突出显示对象、将对象带到前景、创建附加对象或指示物等。可以提供音频系统644，其包括例如内置在前体602中的一组小扬声器和/或麦克风。

参考图6B，AR/VR系统650包括图6A的HMD 600、外部控制台690和输入/输出(I/O)接口615，外部控制台690存储各种AR/VR应用、设置和校准程序、3D视频等，输入/输出(I/O)接口615用于操作控制台690和/或与AR/VR环境交互。HMD 600可以用物理电缆“拴(tether)”到控制台690上，或者经由诸如

Wi-Fi等的无线通信链路连接到控制台690。可以有多个HMD 600，每个HMD 600具有相关联的I/O接口615，其中每个HMD 600和I/O接口615与控制台690通信。在替代配置中，不同的和/或附加的部件可以被包括在AR/VR系统650中。另外，在一些实施例中，结合图6A和图6B所示的一个或更多个部件描述的功能可以以不同于结合图6A和图6B描述的方式的方式分布在部件中。例如，控制台615的一些或全部功能可以由HMD 600提供，反之亦然。HMD 600可以设置有能够实现这样的功能的处理模块。

如上面参考图6A所述，HMD 600可以包括用于跟踪眼睛位置和定向，确定凝视角度和会聚角度等的眼睛跟踪系统614(图6B)、用于确定HMD600在3D空间中的位置和定向的IMU610、用于捕获外部环境的DCA 611、用于独立确定HMD 600的位置的位置传感器612、以及用于向用户显示AR/VR内容的显示系统680。显示系统680包括(图6B)电子显示器625，例如但不限于液晶显示器(LCD)、有机发光显示器(OLED)、无机发光显示器(ILED)、有源矩阵有机发光二极管(AMOLED)显示器、透明有机发光二极管(TOLED)显示器、投影仪或其组合。显示系统680还包括光学块630，其功能是将电子显示器625产生的图像传送给用户的眼睛。显示系统680还可以包括变焦模块635，变焦模块635可以是光学块630的一部分。变焦模块635的功能是调节光学块630的焦点，以例如补偿视觉辐辏调节冲突(vergence-accommodationconflict)、校正特定用户的视觉缺陷、抵消光学块630的像差等。

I/O接口615是允许用户发送动作请求并从控制台690接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束图像或视频数据的捕获的指令，或者是在应用内执行特定动作的指令。I/O接口615可以包括一个或更多个输入设备，例如键盘、鼠标、游戏控制器或用于接收动作请求并将动作请求传送到控制台690的任何其他合适的设备。由I/O接口615接收的动作请求被传送到控制台690，控制台690执行对应于动作请求的动作。在一些实施例中，I/O接口615包括IMU，其捕获指示相对于I/O接口615的初始位置的I/O接口615的估计位置的校准数据。在一些实施例中，I/O接口615可以根据从控制台690接收的指令来向用户提供触觉反馈。例如，当动作请求被接收到时，或者当控制台690向I/O接口615传送指令——所述指令使I/O接口615在控制台690执行动作时生成触觉反馈——时，触觉反馈可以被提供。

控制台690可以向HMD 600提供内容，以根据从IMU 610、DCA 611、眼睛跟踪系统614和I/O接口615中的一个或更多个接收的信息进行处理。在图6B所示的示例中，控制台690包括应用储存器655、跟踪模块660和VR引擎665。控制台690的一些实施例可以具有不同于结合图6B描述的模块或部件的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图6A和图6B描述的方式分布在控制台690的部件当中。

应用储存器655可存储用于由控制台690执行的一个或更多个应用。应用是一组指令，该组指令当由处理器执行时生成用于显现给用户的内容。由应用生成的内容可以响应于经由HMD 600或I/O接口615的移动而从用户接收的输入。应用的例子包括：游戏应用、演示和会议应用、视频回放应用或其他合适的应用。

跟踪模块660可以使用一个或更多个校准参数来校准AR/VR系统650，并且可以调整一个或更多个校准参数以减少HMD 600或I/O接口615的位置确定中的误差。由跟踪模块660执行的校准还考虑了从HMD 600中的IMU 610和/或被包括在I/O接口615中的IMU(如果有的话)接收的信息。另外，如果HMD 600的跟踪丢失，则跟踪模块660可以重新校准AR/VR系统650的部分或全部。

跟踪模块660可以跟踪HMD 600或I/O接口615、IMU 610或其某种组合的移动。例如，跟踪模块660可以基于来自HMD 600的信息来确定HMD 600的参考点在局部区域的映射中的位置。跟踪模块660还可以分别使用指示来自IMU 610的HMD 600的位置的数据或者使用指示来自被包括在I/O接口615中的IMU的I/O接口615的位置的数据，来确定HMD 600的参考点或者I/O接口615的参考点的位置。另外，在一些实施例中，跟踪模块660可以使用来自IMU 610的指示HMD 600的位置的数据部分以及来自DCA 611的局部区域的表示来预测HMD600的未来定位。跟踪模块660向VR引擎665提供HMD 600或I/O接口615的估计的或预测的未来位置。

VR引擎665可基于从HMD 600接收的信息来生成围绕HMD 600的部分或全部的区域(“局部区域”)的3D映射。在一些实施例中，VR引擎665基于从DCA 611接收的与在计算深度时使用的技术相关的信息来确定用于局部区域的3D映射的深度信息。在各种实施例中，VR引擎665可以使用深度信息来更新局部区域的模型，并部分地基于已更新的模型来生成内容。

VR引擎665在AR/VR系统650内执行应用，并从跟踪模块660接收HMD 600的位置信息、加速度信息、速度信息、所预测的未来位置或其某种组合。基于接收到的信息，VR引擎665确定要提供给HMD 600用于呈现给用户的内容。例如，如果接收到的信息指示用户已经向左看，则VR引擎665为HMD 600生成反映(mirror)用户在虚拟环境中或在用附加内容增强局部区域的环境中的移动的内容。另外，VR引擎665响应于从I/O接口615接收的动作请求来执行在控制台690上执行的应用内的动作，并且向用户提供动作被执行的反馈。所提供的反馈可以是经由HMD 600的视觉或听觉反馈或者经由I/O接口615的触觉反馈。

在一些实施例中，基于从眼睛跟踪系统614接收的眼睛跟踪信息(例如，用户眼睛的定向)，VR引擎665确定提供给HMD 600用于在电子显示器625上呈现给用户的内容的分辨率。VR引擎665可以向HMD 600提供内容，该内容在电子显示器625上在用户凝视的中央凹区(foveal region)中具有最大像素分辨率。VR引擎665可以在电子显示器625的其他区域中提供较低的像素分辨率，从而减少AR/VR系统650的功耗并节省控制台690的计算资源，而不会损害用户的视觉体验。在一些实施例中，VR引擎665可以进一步使用眼睛跟踪信息来调整对象在电子显示器625上的显示位置，以防止视觉辐辏调节冲突和/或抵消光学失真和像差。

图7示出了用户的眼睛702在由凝视向量706指示的方向上凝视屏幕704，该凝视向量706对应于图1的凝视向量170。图7还示出了屏幕上的中央凹区708。注意力监视器模块161(图1)确定表示眼睛正在看的方向的凝视向量。在一些实施例中，注意力监视器模块161基于与眼睛相关联的多个眼睛特征来确定凝视向量，该多个眼睛特征包括眼球中心(图7中的A)、角膜中心(C)、瞳孔(E)以及角膜中心和瞳孔中心之间的距离(h)。在一个实施例中，眼睛跟踪系统142估计这些眼睛特征，并将这些估计作为眼睛跟踪信息的一部分发送给注意力监视器模块161。在另一个实施例中，模块161从眼睛跟踪系统142接收眼睛的角度定向，并通过基于角度旋转对眼睛模型应用旋转来生成这些眼睛特征。在其他实施例中，注意力监视器模块161从眼睛跟踪系统142接收眼睛的中央凹轴，并使用中央凹轴的方向作为凝视向量306。在确定凝视向量706之后，模块161通过计算凝视向量706和屏幕704之间的交点来确定注视点714。在其他实施例中，注视点714通过其他方式来计算。

在另一个实施例中，为用户的两只眼睛分别确定两个凝视向量，并且可穿戴显示器128基于两个凝视向量的会聚来确定用户的聚焦深度。在该实施例中，可穿戴显示器128确定聚焦深度与场景中对象的深度值之间的深度差(在下文中称为深度差)，以便确定第一用户是将她的眼睛集中在特定对象或用户上，还是仅仅让眼睛休息而不注意屏幕。

图8提供了AR/VR系统100的示例，在该示例中可以实现本公开的方法。AR/VR系统100包括网络855、包括控制器152的一个或更多个服务器850以及由设备820和821示出的多个用户设备(例如可穿戴显示器128或126)。服务器850向用户设备提供数据，用于显示图像、传达用户声音、监视用户活动以及向用户通知其他用户对她的注意力。网络855提供服务器850与用户设备820和821之间的通信手段。网络855可以是互联网、诸如移动设备运营商网络之类的无线或有线网络、或者可以用于服务器与客户端之间的通信的任何其他网络。用户设备820和821可以是HMD，并且每个用户设备可以包括任何合适的计算设备，例如台式计算机或移动设备，例如移动电话、蜂窝电话、智能电话、个人数字助理、笔记本计算机、平板计算机、膝上型计算机、相机、摄像机或手持游戏控制台。

图9示出了示例计算机系统900。在特定实施例中，一个或更多个计算机系统900执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在特定实施例中，一个或更多个计算机系统900提供本文描述或示出的功能。在特定实施例中，在一个或更多个计算机系统900上运行的软件执行本文描述或示出的一个或更多个方法的一个或更多个步骤，或者提供本文描述或示出的功能。特定实施例包括一个或更多个计算机系统900的一个或更多个部分。

本公开设想了任何合适数量的计算机系统900。本公开设想了采取任何合适的物理形式的计算机系统900。作为示例而不是作为限制，计算机系统900可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(诸如例如，模块上计算机(COM)或模块上系统(SOM))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网状网、移动电话、个人数字助理(PDA)、服务器、平板计算机系统、或者这些中的两个或更多个的组合。在适当的情况下，计算机系统900可以包括一个或更多个计算机系统900；可以是整体式的或分布式的；跨越多个位置；跨越多台机器；跨越多个数据中心；或者驻留在云中，云可以包括在一个或更多个网络中的一个或更多个云部件。在适当的情况下，一个或更多个计算机系统900可以在没有实质性空间或时间限制的情况下执行本文描述或示出的一个或更多个方法的一个或更多个步骤。作为示例而不是作为限制，一个或更多个计算机系统900可以实时地或以批处理模式来执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在适当的情况下，一个或更多个计算机系统900可以在不同的时间或在不同的位置处执行本文描述或示出的一个或更多个方法的一个或更多个步骤。

在特定实施例中，计算机系统900包括处理器902、非暂态存储器904、存储装置906、输入/输出(I/O)接口908、通信接口910和总线912。尽管本公开描述并示出了具有在特定布置中的特定数量的特定部件的特定计算机系统，但是本公开设想了具有在任何合适布置中的任何合适数量的任何合适部件的任何合适的计算机系统。

在特定实施例中，处理器902包括用于执行指令(例如构成计算机程序的那些指令)的硬件。作为示例而不是作为限制，为了执行指令，处理器902可以从内部寄存器、内部高速缓存、非暂态存储器904或存储装置906中检索(或取回)指令；将这些指令解码并执行它们；以及然后将一个或更多个结果写到内部寄存器、内部高速缓存、非暂态存储器904或存储装置906。在特定实施例中，处理器902可以包括用于数据、指令或地址的一个或更多个内部高速缓存。尽管本公开描述并示出了特定的处理器，但是本公开设想了任何合适的处理器。

在特定实施例中，非暂态存储器904包括主存储器，其用于存储供处理器902执行的指令或供处理器902操作的数据。作为示例而不是作为限制，计算机系统900可以将指令从存储装置906或另一个源(诸如例如，另一个计算机系统900)加载到存储器904。处理器902然后可以将指令从存储器904加载到内部寄存器或内部高速缓存。为了执行指令，处理器902可以从内部寄存器或内部高速缓存中检索指令并将它们解码。在指令的执行期间或之后，处理器902可以将一个或更多个结果(其可以是中间结果或最终结果)写到内部寄存器或内部高速缓存。处理器902然后可以将这些结果中的一个或更多个写到非暂态存储器904。

在特定实施例中，处理器902仅执行在一个或更多个内部寄存器或内部高速缓存中或在存储器904(而不是存储装置906或其他地方)中的指令，并且仅对在一个或更多个内部寄存器或内部高速缓存中或在存储器904(而不是存储装置906或其他地方)中的数据进行操作。一个或更多个存储器总线(其可以各自包括地址总线和数据总线)可以将处理器02耦合到存储器904。如下所述，总线912可以包括一个或更多个存储器总线。在特定实施例中，一个或更多个存储器管理单元(MMU)驻留在处理器902和存储器904之间，并且便于由处理器902请求的对存储器904的访问。尽管本公开描述并示出了特定的存储器，但是本公开设想了任何合适的存储器。

在特定实施例中，存储装置906包括用于数据或指令的大容量存储装置。在适当的情况下，存储装置906可以包括可移动或不可移动(即固定)介质。在适当的情况下，存储装置906可以在计算机系统900的内部或外部。在特定实施例中，存储装置906是非易失性固态存储器。在适当的情况下，存储装置906可以包括一个或更多个存储装置906。尽管本公开描述并示出了特定的存储装置，但是本公开设想了任何合适的存储装置。

在特定实施例中，I/O接口908包括为在计算机系统900和一个或更多个I/O设备之间的通信提供一个或更多个接口的硬件、软件或两者。在适当的情况下，计算机系统900可以包括这些I/O设备中的一个或更多个。这些I/O设备中的一个或更多个可以实现在人和计算机系统900之间的通信。作为示例而不是作为限制，I/O设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态相机、触笔、平板计算机、触摸屏、跟踪球、摄像机、另一个合适的I/O设备、或这些设备中的两个或更多个的组合。I/O设备可以包括一个或更多个传感器。本公开设想了任何合适的I/O设备以及用于它们的任何合适的I/O接口908。在适当的情况下，I/O接口908可以包括使处理器902能够驱动这些I/O设备中的一个或更多个的一个或更多个设备或软件驱动器。在适当的情况下，I/O接口908可以包括一个或更多个I/O接口908。尽管本公开描述并示出了特定的I/O接口，但是本公开设想了任何合适的I/O接口。

在特定实施例中，通信接口910包括提供用于在计算机系统900和一个或更多个其他计算机系统900或一个或更多个网络之间的通信(例如，基于包(packet-based)的通信)的一个或更多个接口的硬件、软件或两者。作为示例而不是作为限制，通信接口910可以包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(NIC)或网络适配器，或者用于与无线网络(例如Wi-Fi网络)进行通信的无线NIC(WNIC)或无线适配器。本公开设想了任何合适的网络和用于它的任何合适的通信接口910。尽管本公开描述并示出了特定的通信接口，但是本公开设想了任何合适的通信接口。

在特定实施例中，总线912包括将计算机系统900的部件耦合到彼此的硬件、软件或两者。尽管本公开描述并示出了特定总线，但是本公开设想了任何合适的总线或互连。

在本文，对计算机可读存储介质的引用包括一个或更多个具有结构的非暂时性、有形的计算机可读存储介质。作为示例而非限制，在适当的情况下，计算机可读存储介质可以包括基于半导体的或其他集成电路(IC)(例如，现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘、HDD、混合硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光驱动器、软盘、软盘驱动器(FDD)、磁带、全息存储介质、固态驱动器(SSD)、RAM驱动器，安全数字卡、安全数字驱动器或另一种合适的计算机可读存储介质或这些中的两种或更多种的组合。在本文，对计算机可读存储介质的引用不包括根据35U.S.C.§101没有资格获得专利保护的任何介质。在本文，鉴于暂时形式的信号传输根据35U.S.C.§101是没有资格获得专利保护的，对计算机可读存储介质的引用不包括暂时形式的信号传输(例如传播电信号或电磁信号本身)。在适当的情况下，计算机可读非暂时性存储介质可以是易失性的、非易失性的或者易失性和非易失性的组合。

本公开设想了实现任何合适的存储的一个或更多个计算机可读存储介质。在特定实施例中，在适当的情况下，计算机可读存储介质实现处理器902的一个或更多个部分(例如，一个或更多个内部寄存器或高速缓存)、存储器904的一个或更多个部分、存储装置906的一个或更多个部分或这些的组合。在特定实施例中，计算机可读存储介质实现RAM或ROM。在特定实施例中，计算机可读存储介质实现易失性或持久性的存储器。在特定实施例中，一个或更多个计算机可读存储介质体现软件。在本文，在适当的情况下，对软件的引用可以包括一个或更多个应用、字节码(bytecode)、一个或更多个计算机程序、一个或更多个可执行文件、一个或更多个指令、逻辑、机器代码、一个或更多个脚本或源代码，反之亦然。在特定实施例中，软件包括一个或更多个应用编程接口(API)。本公开设想了以任何合适的编程语言或编程语言的组合编写或以其他方式表达的任何合适的软件。在特定实施例中，软件被表达为源代码或目标代码。

本公开在范围上不受本文描述的特定实施例限制。实际上，除了在本文描述的那些实施例和修改之外，其他各种实施例和修改根据前面的描述和附图对于本领域中的普通技术人员将明显。因此，这样的其他实施例和修改被规定为落在本公开的范围内。此外，尽管在本文在特定实现的上下文中在特定环境中为了特定的目的描述了本公开，但是本领域中的普通技术人员将认识到它的有用性不限于此，以及本公开可以有益地在任何数量的环境中为了任何数量的目的而实现。因此，应该考虑如本文描述的本公开的全部广度和精神来解释所阐述的权利要求。

Claims

1.一种在AR/VR系统的可穿戴显示器中的方法，所述方法包括：

使用所述可穿戴显示器向所述AR/VR系统的第二用户发出音频，其中所述音频源自所述AR/VR系统的第一用户，并且具有从所述第一用户到所述第二用户的音频通信信道的参数，其中所述参数从第一值改变为第二值，以便使所述第一用户更易被所述第二用户听到；

其中，通过执行指令以处理所述第一用户的眼睛跟踪数据的处理器已经检测到所述第一用户指向所述第二用户或者所述第二用户的化身的凝视，所述第二用户的化身在显示给所述第一用户的图像中。

2.根据权利要求1所述的方法，其中，当所述处理器执行指令以确定所述第一用户的眼睛已经看着所述第二用户或所述第二用户的化身达至少预定义的时间间隔时，所述参数从所述第一值改变为所述第二值。

3.根据权利要求1所述的方法，其中，当已经检测到所述第一用户在所述第二用户处的凝视方向时，所述参数从所述第一值改变为所述第二值；并且，可选地，

其中，当已经检测到所述第一用户在所述第二用户处的凝视聚散度或所述第一用户的瞳孔扩张中的至少一个时，所述参数从所述第一值改变为所述第二值。

4.根据权利要求1所述的方法，其中，在所述第一用户的所述凝视之前，所述参数具有所述第一值。

5.根据权利要求1所述的方法，其中，当所述处理器以规则的时间间隔确定了所述第一用户的凝视方向或凝视聚散度中的至少一个时，所述参数从所述第一值改变为所述第二值；和/或：

其中，当所述凝视已经被撤回达至少预定义的时间间隔时，所述参数被改变回所述第一值。

6.一种非暂时性存储器，其上存储有指令，所述指令在被一个或更多个处理器执行时，使所述一个或更多个处理器使用可穿戴显示器向AR/VR系统的第二用户发出音频，其中，所述音频源自所述AR/VR系统的第一用户，并且具有从所述第一用户到所述第二用户的音频通信信道的参数，其中，所述参数从第一值改变为第二值，以便使所述第一用户更易被所述第二用户听到，

7.根据权利要求6所述的非暂时性存储器，其中，当所述处理器执行指令以确定所述第一用户的眼睛已经看着所述第二用户或所述第二用户的化身达至少预定义的时间间隔时，所述参数从所述第一值改变为所述第二值。

8.根据权利要求6所述的非暂时性存储器，其中，当已经检测到所述第一用户在所述第二用户处的凝视方向时，所述参数从所述第一值改变为所述第二值；并且，可选地，

9.根据权利要求6所述的非暂时性存储器，其中，在所述第一用户的所述凝视之前，所述参数具有所述第一值。

10.根据权利要求6所述的非暂时性存储器，其中，当所述一个或更多个处理器以规则的时间间隔确定了所述第一用户的凝视方向或凝视聚散度中的至少一个时，所述参数从所述第一值改变为所述第二值；和/或

11.一种AR/VR系统，包括：

第一可穿戴显示器，其包括眼睛跟踪系统、用于向第一用户显示第一图像的第一电子显示器和麦克风；

第二可穿戴显示器，其包括用于向第二用户显示第二图像的第二电子显示器和扬声器；和

控制器，其通信地耦合到所述第一可穿戴显示器和所述第二可穿戴显示器，并且被配置为建立从所述AR/VR系统的所述第一用户到所述第二用户的音频通信信道，并且向所述第一可穿戴显示器提供用于显示所述第一图像的数据，所述控制器包括注意力监视器，所述注意力监视器被配置为从所述第一可穿戴显示器接收与所述第一用户的眼睛跟踪相关的数据，并识别所述第一用户指向所述第二用户或所述第一图像中的所述第二用户的化身的凝视，所述控制器被配置为一旦检测到所述凝视，就将所述音频通信信道的参数从第一值改变为第二值，以便使所述第一用户更易被所述第二用户听到。

12.根据权利要求11所述的AR/VR系统，其中，所述注意力监视器被配置为确定所述第一用户的眼睛看着所述第二用户或所述第一图像中的所述第二用户的化身达至少预定义的时间间隔。

13.根据权利要求11所述的AR/VR系统，其中，所述注意力监视器被配置为确定所述第一用户的凝视方向；并且，可选地，

其中，所述注意力监视器被配置为确定所述第一用户的凝视聚散度或瞳孔扩张中的至少一个。

14.根据权利要求11所述的AR/VR系统，其中，所述参数包括峰值音频频率、所述音频通信信道的频谱宽度或响度中的至少一个。

15.根据权利要求11所述的AR/VR系统，其中，所述注意力监视器被配置为随着时间的推移监视所述第一用户的所述凝视，并且当所述凝视已经被撤回达至少预定义的时间间隔时，将所述参数改变回所述第一值。