CN109313911A

CN109313911A - 沉浸式显示设备上的自动音频衰减

Info

Publication number: CN109313911A
Application number: CN201780034195.3A
Authority: CN
Inventors: J·科勒; D·吴
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-06-02
Filing date: 2017-05-24
Publication date: 2019-02-05
Anticipated expiration: 2037-05-24
Also published as: US10089071B2; WO2017210035A1; EP3465680B1; US20170351485A1; EP3465680A1; CN109313911B

Abstract

本文公开的示例涉及控制沉浸式显示设备上的音量。一个示例提供了一种近眼显示设备，包括传感器子系统、逻辑子系统和存储指令的存储子系统，这样的指令由逻辑子系统可执行以从传感器子系统接收图像传感器数据，呈现包括视觉分量和听觉分量的内容，在呈现内容时，经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者，以及响应于检测到语音可能正指向佩戴者，衰减听觉分量的方面。

Description

沉浸式显示设备上的自动音频衰减

背景技术

显示设备，诸如近眼显示设备，可以被配置为连同音频信息一起向用户呈现虚拟影响和其他内容，以提供沉浸式虚拟或增强现实体验。

发明内容

公开了涉及自动衰减沉浸式显示设备上的音量的示例。一个示例提供了近眼显示设备，包括传感器子系统、逻辑子系统和存储指令的存储子系统，这样的指令由逻辑子系统可执行以从传感器子系统接收图像传感器数据，呈现包括视觉分量和听觉分量的内容，在呈现内容时，经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者，以及响应于检测到语音可能正指向佩戴者，衰减听觉分量的方面。

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容无意标识所要求保护的主题的关键特征或必要特征，也无意用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实施方式。

附图说明

图1示出了用于示例近眼显示设备的示例使用场景。

图2示出了用于多个近眼显示设备的示例使用场景。

图3A和图3B示出了自动衰减经由近眼显示设备呈现的音频内容的音量的示例方法。

图4示出了示例近眼显示系统的框图。

图5示出了示例计算系统的框图。

具体实施方式

如上所述，近眼显示设备，诸如头戴式虚拟现实或增强现实显示设备，可以向用户呈现沉浸式音频/视觉体验。这样的体验可以用于媒体呈现、游戏、工作/生产以及用于许多其他计算交互。图1示出了示例使用场景100，其中示例性近眼显示设备102由正在玩沉浸式混合现实游戏的用户104所佩戴。如图所示，用户104通过透视显示系统查看与真实世界背景的视图混合的虚拟内容105。

在这种沉浸式设置中，有时当其他人(诸如，人106)试图与用户104交互时，用户104可能不会注意到。解决这样的问题的一种方法可能是经由近眼显示设备上的麦克风来检测环境声音，并响应于检测到的环境声音来自动减小音频内容的音量。然而，这种方法可能导致在不适当的时间衰减音频呈现。例如，在图1中，从人108和人110之间的对话中检测到不是指向用户104的话音，但是在被设备102检测到时仍然可以导致音频内容的音量减小。因此，在依赖于不考虑检测到的环境音频源的环境音频检测的情况下，近眼显示设备102不能够将检测到的实际指向用户104的语音与不指向用户104的语音进行区分，并且可能随后在可能不适当或不期望的时候减少呈现的音频内容的音量。

因此，所公开的示例涉及经由图像传感器数据来确定来自另一个人的语音是否可能指向可穿戴显示设备的用户，以及当作出这样的确定时，衰减近眼显示设备上的音频呈现的方面。例如，传感器数据可用于确定人是否接近该用户、人是否正面向用户、检测到的语音是否源自于与检测到的人相同的方向、和/或语音中的词是否指示语音指向该用户。然后，这些因素的存在或不存在可以被使用来帮助确定是否衰减沉浸式近眼体验的音频分量。这可以帮助减少在沉浸式体验的呈现中发生不期望的或不必要的中断。

可以以各种方式来使用图像传感器数据确定人是否可能正将语音指向近眼显示设备的用户。例如，图像传感器数据可以用于确定一个或多个其他人相对于用户的定位(例如，位置和/或定向)，因为这样的信息可以指示该人是否正在对用户讲话。作为更具体的示例，近眼显示设备102可以利用深度图像数据来检测人106在用户104的阈值距离内，例如，通过骨架拟合和/或基于深度神经网络、语义角色标记和/或其他合适算法的其他机器学习技术。然后，在检测到人106在阈值距离内时，近眼显示设备可以获取二维图像数据并且应用面部检测算法来确定人106正直接面对用户104。合适的面部检测算法的示例可以包括，但不限于，使用特征脸方法的主成分分析、线性判别分析、使用Fisherface算法的弹性束图匹配、隐马尔可夫模型、多线性子空间学习和动态链接匹配。确定一个人正面向用户可以指示该人正在对该用户讲话的较高可能性，同时确定一个人没有面对用户可以指示该人正在对该用户讲话的可能性较低并且可能反而是在与别人讲话。

此外，近眼显示设备102可将姿势识别算法应用于深度数据，以识别人106的移动(例如，嘴部移动、手臂移动、手/手指移动等)，其指示可能尝试与用户104的交互。合适的手势识别算法的示例包括但不限于，基于3D模型的算法、基于骨架的算法和基于外观的模型。使用这样的信息，近眼显示设备102然后可以确定人106可能正在对用户104讲话，并且作为响应，衰减在近眼显示设备102上呈现的音频内容，从而使用户104意识到要关注人106。这些具体示例无意是限制性的，因为图像数据可以以其他方式被用于检测人将语音指向近眼显示用户的可能性。例如，可以使用二维图像数据或深度图像数据来进行这样的确定。

可以使用任何合适的图像传感器或图像传感器的组合。示例包括但不限于：深度图像传感器(例如，飞行时间(time-of-flight)、一个或多个结构光照相机和/或立体照相机布置)和二维图像传感器(例如，RGB和/或灰度传感器)。这样的一个或多个图像传感器可以被配置为获取可见光、红外和/或一个或多个其他合适波长范围内的图像。

在一些示例中，图像数据可以与音频数据相结合以用于确定人可能正将语音指向近眼显示设备用户。例如，近眼显示设备首先可以检测经由被配置为检测环境声音的一个或多个麦克风进行讲话的人。在检测到人讲话时，近眼显示设备然后可以获取并分析图像数据，以确定该语音是否可能源自于站在观看者附近和/或面对观看者的人。

这样的音频数据可以被用于提供附加信息。例如，在近眼显示设备包括定向麦克风阵列(例如，该设备包括位于近眼显示设备上的不同位置处的多个麦克风)的情况下，可以确定接收语音的方向，并且该方向可以与在图像数据中检测到的人的位置进行比较，以确定检测到的语音是否可能源自该人。此外，在一些示例中，话音识别可以与面部标识结合地应用(例如，通过将话音和/或面部数据与存储在远程服务处的用户简档中的话音和/或面部信息进行匹配)，来确定讲话者的身份是否与检测到的面部的身份相匹配。另外，可以应用语音识别来标识可以提供如下的指示的词：讲话的人可能将语音指向近眼显示用户。例如，在标识到的被讲出的词中识别出用户的姓名，这可以指示语音可能正指向用户104。

如上所述，二维图像数据可以响应于某些触发而被选择性地获取，而不是由近眼显示设备102连续地获取。作为一个示例，近眼显示设备102可以被配置为响应于从环境麦克风的输入检测到的语音/语音信息，开始获取二维图像数据。作为另一示例，近眼显示设备102可以最初从(多个)机载深度图像传感器获取深度图像数据流以检测人的可能的存在，然后获取二维图像数据来进一步确定人正在对用户104交谈。与连续获取二维图像的系统相比，响应于这样的触发而选择性地激活二维图像数据的获取和/或面部检测可以有助于减少近眼显示设备102的散热和功耗。

此外，在一些示例中，近眼显示设备可以被配置为在检测到来自扬声器系统(诸如建筑物中的紧急扬声器系统)的语音时衰减声音。这样的语音例如可以通过与捕获扬声器的图像的图像数据相组合的定向音频数据来被标识。

在其他示例中，近眼显示设备可以能够基于从其他人在使用的其他设备接收到的数据来检测语音可能正指向佩戴者。作为一个非限制性示例，图2示出了多用户场景200，其中分别佩戴近眼显示设备208、210和212的用户202、204和206正在参与共享的侵入式增强和/或虚拟现实体验。近眼显示设备208、210和212中的每一个包括一个或多个定位传感器，这样的定位传感器被配置为获取与设备的定位相关的传感器数据。这样的定位传感器的示例包括但不限于：加速计、陀螺传感器和全球定位系统(GPS)传感器。在一些示例中，设备可以直接将定位传感器数据传送到其他设备(例如，经由蓝牙或其他合适的协议)，以允许每个近眼显示设备相对于其他近眼显示设备的位置和定向被确定。此外，设备可以经由网络216将定位传感器数据发送到与每个近眼显示设备通信的服务器214，使得服务器214可以将定位传感器数据从每个设备分发或以其他方式提供给其他设备。在任一示例中，近眼显示设备可以利用从其他近眼显示设备接收到的定位传感器数据来确定佩戴其他设备之一的人可能正将语音指向到设备的用户。例如，用户202佩戴的近眼显示设备208可以从用户204佩戴的近眼显示设备210(直接地或经由诸如服务器214的中间设备)接收传感器数据，用户204试图对用户202讲话。作为响应，近眼显示设备208可以确定近眼显示设备210相对于近眼显示设备208的位置和定向，指示用户204在距用户202的阈值距离内和/或面向用户202。这样的信息然后可以被单独使用，或者与其他传感器数据(例如，指示用户204当前是否在讲话的音频数据)相结合地被使用，以确定用户204是否可能正在对用户202讲话。

响应于确定用户204可能正在对用户202讲话，近眼显示设备208可以衰减在近眼显示设备208上呈现的音频内容的方面。近眼显示设备可以衰减由设备呈现的内容的听觉分量的任何合适方面。作为示例，近眼显示设备可以被配置为在整个频率上全局地将听觉分量的音量减小到预定义的减小的音量，或者减小到适当地低于检测到的语音和/或环境声音音量的音量。

作为另一示例，在听觉分量包括多声道音频内容的情况下，近眼显示设备可选择性地衰减一个或多个所选声道的音量，同时保持其他声道的音量，或以不同的方式减小其他声道音量。例如，近眼显示设备可以通过减少正在呈现的背景音乐的音量或关闭正在呈现的背景音乐来衰减听觉分量，同时保持其他虚拟声音的当前音量水平。作为另一示例，近眼显示设备可以与第二频率或频率范围相比，不同地衰减第一频率或频率范围处的音量。在任何上述示例中，近眼显示设备还可以以除音量减小之外的其他方式衰减音频，诸如经由噪声消除。为了减少衰减对用户体验的影响，近眼显示设备可以被配置为通过逐渐衰退音量来减小音量，而不是突然切断音量。此外，在一些示例中，近眼显示设备可以完全停止音频内容的呈现，而不是在衰减期间继续音频播放。另外，在近眼显示设备正呈现虚拟现实体验的情况下，该设备可以被配置为按需求暂停体验并提供经由面向外的图像传感器获取的真实世界视图的视频馈送，使得佩戴者设备可以查看可能正在讲话的人。

图3A和图3B示出了描绘用于在近眼显示设备上呈现内容的示例方法300的流程图。方法300包括：在302处，接收来自近眼显示设备的传感器子系统的传感器数据。如上所述，作为示例，接收传感器数据可以包括：在304处从一个或多个图像传感器接收图像传感器数据，在306处从麦克风阵列接收定向音频数据，在308处从一个或多个深度传感器接收深度图像数据流，和/或在310处从另一个人使用的另一设备接收传感器数据。

方法300还包括：在312处呈现包括视觉分量和听觉分量的内容，并且包括在314处在呈现内容时，经由传感器数据来检测语音可能正指向近眼显示设备的佩戴者。在一些示例中，如316所示，这样的检测可以经由图像传感器数据来执行，并且可以利用多种图像数据分析方法。例如，近眼显示设备可以使用深度图像数据来：在318处检测人在距佩戴者的阈值距离内，和/或在320处检测人朝向佩戴者，和/或检测可能指示人正在对佩戴者讲话的可能性的姿势。作为另一示例，近眼显示设备可以使用二维图像数据来检测人正朝向佩戴者，诸如通过应用面部检测算法来进行检测，面部检测算法可以指示人正在对佩戴者讲话的可能性。

此外，如上所述，近眼显示设备可以被配置为在获取用于诸如面部识别等分析的二维图像数据之前，经由来自第一传感器的数据首先检测人的可能的存在。这可以有助于节省功率并降低近眼显示设备的热输出。由此，检测语音可能正指向佩戴者可以进一步包括：在322处经由从深度传感器接收到的深度图像数据流来检测人的可能的存在，并且然后作为响应，通过面向外的图像传感器来获取二维图像数据，以用于过程318-320的分析。

检测语音可能正指向佩戴者还可以包括：在324处，经由定向音频数据来检测人可能正在对佩戴者讲话，例如检测到的语音来自朝向佩戴者的方向。在一些示例中，声音和/或语音识别技术可以用于讲话的人并且检测某些感兴趣的词(例如用户的姓名)，这样的词可以指示语音可能正指向佩戴者。检测还可以包括：在326处，经由从正在被人使用的另一设备接收到的传感器数据，检测人可能正在对佩戴者讲话。来自外部设备的传感器数据可以被利用，例如在多个显示设备正由多个用户使用的场景中，诸如在如上关于图2所描绘的多用户沉浸式体验中。应当理解，近眼显示设备可以采用上述过程中的任何一个或多个，和/或可以使用任何其他合适的传感器数据。

继续图3B，方法300包括：在328处，响应于检测到语音可能正指向佩戴者，衰减在近眼显示设备上呈现的内容的听觉分量的方面。衰减音频例如可以包括如330所示的，减小听觉分量的音量。减少听觉分量的音量可以包括：减少全局音量；如332所示的，与多声道音频内容的第二声道子集相比，不同地减少多声道音频内容的第一声道子集的音量；如334所示的，与第二频率相比，不同地减小第一频率的音量；或者以任何其他合适的方式减小音量。在一些示例中，如336所示，可以通过逐渐衰退来减小音量。此外，音量可以减小到预定水平，减小到适当低于检测到的语音的音量，或者可以被完全衰减。作为又一示例，近眼显示设备可以被配置为在338处暂停正在呈现的内容。

在一些示例中，可以将逻辑应用于接收到的传感器数据，以确定以何种方式衰减听觉分量的方面。例如，当近眼显示设备检测到人可能正在对佩戴者讲话时，音频可以初始地被减小音量，然后当检测到佩戴者正在响应讲话时，音频可以被完全暂停。

另外，在近眼显示设备向佩戴者呈现虚拟现实体验以使得真实世界背景世界对用户不可见的情况下，方法300还可以包括：在340处，除衰减听觉分量的方面之外，提供真实世界视图的视频馈送。这可以帮助佩戴者更好地将他/她的注意力引导到讲话的人。

然后，方法300包括：在342处，确定可能指向佩戴者的语音可能已经停止，并且作为响应，恢复听觉分量的被衰减的方面。例如，可以将全局音量或特定于声道的音量增加到衰减之前使用的水平，可以将各种频率的音量调节到衰减前水平，可以恢复被暂停的播放，和/或可以执行任何其他恢复动作。在一些示例中，近眼显示设备可以在确定语音已经停止之后等待预定量的时间，然后恢复音频分量的方面。这可以提供一个缓冲时段，在这个时段中听觉分量保持被衰减，以考虑语音/对话中的暂停。

图4示出了示例性近眼显示系统400的框图。近眼显示设备202、204和206各自表示近眼显示系统400的示例实现。显示系统400包括一个或多个透镜402，这样的透镜402形成显示子系统404的一部分，使得图像可以经由透镜402被显示(例如，通过到透镜402上的投影，结合到透镜402中的(多个)波导系统，和/或以任何其他合适的方式)。显示子系统404可以包括背光和微显示器，诸如液晶显示器(LCD)或硅基液晶(LCOS)显示器，结合一个或多个发光二极管(LED)，激光二极管和/或其他光源。在其他示例中，显示子系统404可以利用量子点显示技术，有源矩阵有机LED(OLED)技术和/或任何其他合适的显示技术。

显示系统400还包括传感器子系统406，该传感器子系统406包括：一个或多个面向外的图像传感器408，这样的图像传感器408被配置为获取真实世界环境的图像，诸如检测除显示系统的佩戴者之外的人的存在；以及一个或多个麦克风410，这样的麦克风410被配置为检测声音，诸如可能指向佩戴者的语音。面向外的图像传感器408可以包括(多个)深度传感器和/或(多个)二维图像传感器(例如，RGB图像传感器)。近眼显示系统400可以经由显示子系统404显示完全虚拟的场景，可以使用来自面向外的图像传感器的数据、经由取景器模式显示基于视频的增强现实图像，或者可以经由透视显示子系统来显示增强现实图像。

传感器子系统406还可以包括注视检测子系统412，该注视检测子系统412被配置为检测用户的注视方向，作为用于计算设备动作的用户输入。注视检测子系统412可以被配置为以任何合适的方式确定用户的每个眼睛的注视方向。例如，在所描述的实施例中，注视检测子系统412包括：一个或多个闪烁源414，诸如是被配置为使得闪烁的光从用户的每个眼球反射的红外光源；以及一个或多个图像传感器416，诸如面向内的传感器，被配置为捕获用户的每个眼球的图像。从经由图像传感器416收集的图像数据确定出来自用户眼球的闪烁的变化和/或用户瞳孔的位置可以被用于确定注视方向。注视检测子系统412可以具有任何合适数目和布置的光源和图像传感器。在其他示例中，注视检测子系统412可以被省略。

如上所述，显示系统400还可以包括另外的传感器。例如，显示系统400可以包括(多个)非成像传感器418，这样的非成像传感器418的示例可以包括但不限于：加速度计、陀螺传感器、全球定位系统(GPS)传感器和惯性测量单元(IMU)。这样的(多个)传感器可以有助于确定显示设备在环境中的定位、位置和/或定向，这可以用于有助于确定正被其他人使用的其他显示设备相对于显示系统400的定位、位置和/或定向，例如当有助于检测何时人可能正在对显示系统400的佩戴者讲话。

运动传感器以及(多个)麦克风410和注视检测子系统412也可以用作用户输入设备，使得用户可以通过眼睛、颈部和/或头的姿势以及通过口头命令来与显示系统400交互。应当理解，图4所示的传感器仅是为了示例的目的而被示出，而无意以任何方式进行限制，因为任何其他合适的传感器和/或传感器的组合均可以被使用。

显示系统400还包括一个或多个扬声器420，例如用于向用户提供音频输出以进行用户交互。显示系统400还包括控制器422，控制器422具有逻辑子系统424和存储子系统426，这些子系统与传感器、注视检测子系统412、显示子系统404和/或其他组件通信。存储子系统426包括存储在其上的指令，这样的指令由逻辑子系统424可执行以例如执行与如本文所公开的对所呈现内容的音频分量进行衰减相关的各种任务。逻辑子系统424包括被配置为执行指令的一个或多个物理设备。通信子系统428可以被配置为将显示系统400与一个或多个其他计算设备通信耦合。逻辑子系统424、存储子系统426和通信子系统428将在下面关于图5更详细地描述。

出于示例的目的描述了近眼显示系统400，因此该系统并不意味着限制。应当理解，在不脱离本公开的范围的情况下，除了显示出的那些设备之外，近眼显示系统400可以包括附加的和/或备选的传感器、照相机、麦克风、输入设备、输出设备等。近眼显示系统400可以被实现为虚拟现实显示系统或增强现实系统。另外，在不脱离本公开的范围的情况下，显示设备及其各种传感器和子组件的物理配置可以采用各种不同的形式。此外，应当理解，本文描述的方法和过程可以被实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。这样的计算机程序产品可以在近眼显示系统400或其他合适的显示系统上本地可执行，或者可以在与近眼显示系统400通信的计算系统上可远程执行。

图5示意性示出了可以实施上述方法和过程中的一个或多个的计算系统500的非限制性示例。计算系统500以简化形式被示出。计算系统500可以采用以下设备的形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其他计算设备。其他计算设备包括但不限于以上描述的可穿戴设备和/或服务器设备。

计算系统500包括逻辑子系统502和存储子系统504。计算系统500可以可选地包括显示子系统506、输入子系统508、通信子系统510和/或图5中未示出的其他组件。

逻辑子系统502包括被配置为执行指令的一个或多个物理设备。例如，逻辑子系统502可以被配置为执行作为一个或多个应用程序、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。这样的指令可以被实现以执行任务、实现数据类型、转换一个或多个组件的状态、获得技术效果、或以其他方式达到期望的结果。

逻辑子系统502可以包括被配置为执行软件指令的一个或多个处理器。附加地或备选地，逻辑子系统502可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑子系统。逻辑子系统502的处理器可以是单核或多核的，并且在处理器上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑子系统502的各个组件可选地可以被分布在两个或更多单独的设备中，这些设备可以远程被定位和/或配置用于协同处理。逻辑子系统502的各方面可以由配置在云计算配置中的远程可访问的联网计算设备虚拟化和执行。

存储子系统504包括一个或多个物理设备，这样的物理设备被配置为保存由逻辑子系统502可执行的指令，以实现本文描述的方法和过程。当实现这样的方法和过程时，存储子系统504的状态可以被变换，例如以保存不同的数据。

存储子系统504可以包括可移动和/或内置设备。存储子系统504可以包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)，半导体存储器(例如，RAM，EPROM，EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)，等等。存储子系统504可以包括易失性、非易失性、动态、静态、读/写、只读、随机访问、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。

应当理解，存储子系统504包括一个或多个物理设备。然而，本文描述的指令的各方面备选地可以由通信介质(例如，电磁信号、光信号等)传播，这样的通信介质不会被物理设备保持一段有限持续时间。

逻辑子系统502和存储子系统504的方面可以一起集成到一个或多个硬件逻辑组件中。这样的硬件逻辑组件例如可以包括现场可编程门阵列(FPGA)、程序专用电路和应用专用集成电路(PASIC/ASIC)、程序专用标准产品和应用专用标准产品(PSSP/ASSP)、片上芯片(SOC)和复杂可编程逻辑器件(CPLD)。

当被包括时，显示子系统506可以用于呈现由存储子系统504保存的数据的视觉表示。这样的视觉表示可以采取被呈现用于沉浸式虚拟或增强现实体验的虚拟对象和图像的形式。由于本文描述的方法和过程改变由存储子系统保持的数据，并因此改变存储子系统的状态，所以显示子系统506的状态同样可以被转换以在视觉上表示底层数据的变化。显示子系统506可以包括利用几乎任何类型的技术的一个或多个显示设备。这样的显示设备可以与共享封装中的逻辑子系统502和/或存储子系统504组合，或者这种显示设备可以是外围显示设备。

当被包括时，输入子系统508可以包括一个或多个用户输入设备或者与一个或多个用户输入设备对接，这样的用户输入设备例如是键盘、鼠标、触摸屏或游戏控制器。在一些实施例中，输入子系统可以包括选定的自然用户输入(NUI)元件部分或者与选定的自然用户输入(NUI)元件部分对接。这样的元件部分可以是集成的或外围的，并且输入动作的转换和/或处理可以在板上或板外处理。示例NUI元件部分可以包括用于语音和/或语音识别的麦克风；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场感应元件部分。

通信子系统510可以被配置为将计算系统500与一个或多个其他计算设备通信耦合。通信子系统510可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统510可以被配置用于经由无线电话网络、或者有线或无线局域网、或者广域网络进行通信。在一些实施例中，通信子系统510可以允许计算系统500经由诸如因特网之类的网络向其他设备发送消息和/或从其他设备接收消息。

另一示例提供了一种近眼显示设备，包括：传感器子系统，包括一个或多个图像传感器；逻辑子系统；以及存储子系统，存储指令，指令由逻辑子系统可执行以：从传感器子系统接收图像传感器数据，呈现内容，内容包括视觉分量和听觉分量，在呈现内容时，经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者，响应于检测到语音可能正指向佩戴者，衰减听觉分量的方面。指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者：经由图像传感器数据，基于检测人的脸部来检测人可能正对佩戴者讲话。传感器子系统可附加地或备选地包括麦克风阵列，并且指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者：经由从麦克风阵列接收到的定向音频数据来检测人可能正在对佩戴者讲话。指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者：经由从正在被人使用的另一设备接收到的传感器数据来检测人可能正在对佩戴者讲话。指令可以附加地或备选地可执行以通过检测以下一项或多项来检测人可能正在对佩戴者讲话、从而检测语音可能正指向佩戴者：人在距佩戴者的阈值距离内，以及人正朝向佩戴者。指令可以附加地或备选地可执行以通过减小听觉分量的音量来衰减听觉分量的方面。听觉分量可以附加地或备选地包括多声道音频内容，并且指令可以附加地或备选地可执行以：与多声道音频内容的第二声道子集相比，不同地减少多声道音频内容的第一声道子集的音量。指令可以附加地或备选地可执行以通过暂停正在被呈现的内容来衰减听觉分量的方面。指令可以附加地或备选地可执行以：确定可能正指向佩戴者的语音可能已经停止，并且作为响应，恢复听觉分量的方面。可执行以接收传感器数据的指令可以附加地或备选地包括可执行以从一个或多个深度图像传感器接收深度图像数据流的指令，并且指令可以附加地或备选地可执行以：经由深度图像数据流来检测人的可能的存在，并且作为响应，利用面向外的二维相机获取二维图像数据，并且经由二维图像数据检测人可能正在对佩戴者讲话。近眼显示设备可以附加地或备选地包括虚拟现实显示设备，并且指令可以附加地或备选地可执行以：在检测到语音可能正指向佩戴者时，提供现实世界视图的视频馈送。

另一示例提供了一种在头戴式近眼显示设备上的方法，头戴式近眼显示设备包括传感器子系统和一个或多个图像传感器，该方法包括：从传感器子系统接收图像传感器数据，在近眼显示设备上呈现内容，内容包括可视分量和听觉分量，当在近眼显示设备上呈现内容时，经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者，并且响应于检测到语音可能正指向近眼显示设备的佩戴者，衰减听觉分量的方面。检测语音可能正指向佩戴者可以附加地或备选地包括：经由图像传感器数据，基于检测人的脸部来检测人可能正在对佩戴者讲话。检测语音可能正指向佩戴者可以附加地或备选地包括：经由从传感器子系统的麦克风阵列接收到的定向音频数据，来检测人可能正在对佩戴者讲话。检测语音可能正指向佩戴者可以附加地或备选地包括：经由从正在被人使用的另一设备接收到的传感器数据，来检测人可能正在对佩戴者讲话。减弱听觉分量的方面可以附加地或备选地包括减小听觉分量的音量。

又一示例提供了一种近眼显示设备，包括：传感器子系统，包括一个或多个图像传感器；逻辑子系统；存储子系统，存储指令，指令由逻辑子系统可执行以：从传感器子系统接收图像传感器数据，呈现内容，内容包括视觉分量和听觉分量，在呈现内容时，经由图像传感器数据检测语音可能正指向近眼显示设备的佩戴者，并且响应于检测到语音可能正指向佩戴者，衰减听觉分量的方面。听觉分量可以附加地或备选地包括多声道音频内容，并且可执行以减少听觉分量的音量的指令可以附加地或备选地包括：可执行以与多声道音频内容的第二声道子集相比不同地减少多声道音频内容的第一声道子集的音量的指令。指令可以附加地或备选地可执行以通过以下来检测语音可能正指向佩戴者：经由图像传感器数据，基于检测人的脸部来检测人可能正在对佩戴者讲话。指令可以附加地或备选地可执行以通过检测以下一项或多项来检测人可能正在对佩戴者讲话、从而检测语音可能正指向佩戴者：人在距佩戴者的阈值距离内，以及人正朝向佩戴者。

应当理解，本文描述的配置和/或方法本质上是示例性的，并且这些具体实施例或示例不应被视为具有限制意义，因为许多变型是可能的。本文描述的特定例程或方法可以表示任何数目的处理策略中的一个或多个。如此，所示出和/或描述的各种动作可以以所示和/或描述的顺序、以其他顺序、并行或省略来执行。同样，可以改变上述过程的顺序。

本公开的主题包括本文公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖和非显而易见的组合和子组合、以及其任何和所有等同物。

Claims

1.一种近眼显示设备，包括：

传感器子系统，包括一个或多个图像传感器；

逻辑子系统；以及

存储子系统，存储指令，所述指令由所述逻辑子系统可执行以：

从所述传感器子系统接收图像传感器数据，

呈现内容，所述内容包括视觉分量和听觉分量，

在呈现所述内容时，经由所述图像传感器数据来检测语音可能正指向所述近眼显示设备的佩戴者，以及

响应于检测到语音可能正指向所述佩戴者，衰减所述听觉分量的方面。

2.根据权利要求1所述的近眼显示设备，其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括：可执行以经由所述图像传感器数据、基于检测人的脸部来检测所述人可能正在对所述佩戴者讲话的指令。

3.根据权利要求1所述的近眼显示设备，其中所述传感器子系统包括麦克风阵列，并且其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括：可执行以经由从所述麦克风阵列接收到的定向音频数据来检测人可能正在对所述佩戴者讲话的指令。

4.根据权利要求1所述的近眼显示设备，其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括：可执行以经由从正在被人使用的另一设备接收到的传感器数据来检测所述人可能正在对所述佩戴者讲话的指令。

5.根据权利要求1所述的近眼显示设备，其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括可执行以通过检测以下一项或多项来检测人可能正在对所述佩戴者讲话的指令：所述人在距所述佩戴者的阈值距离内，以及所述人正朝向所述佩戴者。

6.根据权利要求1所述的近眼显示设备，其中可执行以衰减所述听觉分量的方面的所述指令包括：可执行以减小所述听觉分量的音量的指令。

7.根据权利要求1所述的近眼显示设备，其中所述听觉分量包括多声道音频内容，并且其中可执行以衰减所述听觉分量的方面的所述指令包括：可执行以与所述多声道音频内容的第二声道子集相比不同地减少所述多声道音频内容的第一声道子集的音量的指令。

8.根据权利要求1所述的近眼显示设备，其中可执行以衰减所述听觉分量的方面的所述指令包括：可执行以暂停正在被呈现的所述内容的指令。

9.根据权利要求1所述的近眼显示设备，其中所述指令还可执行以：确定可能正指向所述佩戴者的所述语音可能已经停止，并且作为响应，恢复所述听觉分量的所述方面。

10.根据权利要求1所述的近眼显示设备，其中可执行以接收传感器数据的所述指令包括可执行以从一个或多个深度图像传感器接收深度图像数据流的指令，并且其中所述指令还可执行以：经由所述深度图像数据流检测人的可能的存在，并且作为响应，利用面向外的二维相机获取二维图像数据，并且经由所述二维图像数据检测所述人可能正在对所述佩戴者讲话。

11.根据权利要求1所述的近眼显示设备，其中所述近眼显示设备包括虚拟现实显示设备，并且其中所述指令还可执行以：在检测到所述语音可能正指向所述佩戴者时，提供现实世界视图的视频馈送。

12.一种在头戴式近眼显示设备上的方法，所述头戴式近眼显示设备包括传感器子系统和一个或多个图像传感器，所述方法包括：

从所述传感器子系统接收图像传感器数据；

在所述近眼显示设备上呈现内容，所述内容包括可视分量和听觉分量；

当在所述近眼显示设备上呈现所述内容时，经由所述图像传感器数据检测语音可能正指向所述近眼显示设备的佩戴者；以及

响应于检测到语音可能正指向所述近眼显示设备的所述佩戴者，衰减所述听觉分量的方面。

13.根据权利要求12所述的方法，其中检测语音可能正指向所述佩戴者包括：经由所述图像传感器数据，基于检测人的脸部来检测所述人可能正在对所述佩戴者讲话。

14.根据权利要求12所述的方法，其中检测所述语音可能正指向所述佩戴者包括：经由从所述传感器子系统的麦克风阵列接收到的定向音频数据，来检测人可能正在对所述佩戴者讲话。

15.根据权利要求12所述的方法，其中检测所述语音可能正指向所述佩戴者包括：经由从正在被人使用的另一设备接收到的传感器数据，来检测所述人可能正在对所述佩戴者讲话。