CN117413537A

CN117413537A - 使用个人音频设备的增强音频

Info

Publication number: CN117413537A
Application number: CN202280039791.1A
Authority: CN
Inventors: C·T·尤班克; R·J·小古格列蒙
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-06-07
Filing date: 2022-06-03
Publication date: 2024-01-16
Also published as: WO2022260938A1

Abstract

一种头戴式设备可确定播放设备正在输出音频内容。该头戴式设备的麦克风可感测由播放设备输出的音频内容。可将空间滤波器应用于附加音频内容的一个或多个音频通道，从而对由该播放设备输出的音频内容进行补充。所得到的空间化音频可以通过扬声器播放给佩戴该头戴式设备的用户。

Description

使用个人音频设备的增强音频

交叉引用

本申请要求于2021年6月7日提交的美国临时申请63/197,709号的权益，该临时申请全文以引用方式并入本文。

技术领域

本公开的一个方面涉及通过呈现与用户正在使用的音频内容相关的附加音频层来增强用户的音频体验。

背景技术

可以在收听环境中向用户播放音频内容。例如，用户可以在电视机或其他播放设备上观看电影或其他视听作品。在一些情况下，媒体流设备可以向电视提供内容。

人类可以通过分析其两只耳朵处的声音来估计声音的位置。这被称为双耳听力，并且人类听觉系统可以使用声音在我们身体周围衍射并反射离开以及与我们的耳廓进行交互的方式来估计声音的方向。这些空间提示可以使用空间滤波器来人工生成。

可以利用空间滤波器渲染音频以用于播放，使得音频被感知为具有空间质量，例如源自收听者上方、下方或一侧的位置。当应用于音频内容时，空间滤波器可以将空间提示人工地赋予到音频中，该空间提示类似于由我们的人体工程学和耳廓自然引起的衍射、延迟和反射。

发明内容

当用户通过播放设备(例如，电视机、计算机、平板电脑、移动电话、投影仪等)观看视听内容时，附加的音频和/或视频内容可以被叠加在通过播放设备播放的内容上，以增强用户的体验。附加音频内容可以与播放内容同步。附加音频内容也可以基于播放内容来空间化和音量校正。因此，可将附加音频内容呈现给用户，使得它与播放设备所输出的内容融为一体。

头戴式设备诸如头戴式耳机、智能眼镜、平视显示器(HUD)、虚拟现实(VR)显示器或其他头戴式音频处理设备可包括固定到用户耳朵上方或侧面的位置的扬声器。一些头戴式设备(诸如，具有耳外扬声器、开放式耳机或具备透传性的头戴式耳机的可佩戴设备)仍允许用户环境中的其他声音传播到用户的耳朵并被听到。此类头戴式设备可以播放附加音频内容，诸如对话、仿真描述(factoid)、音乐或其他音频内容，以增强用户对这些内容的体验。头戴式设备可以基于满足的一个或多个条件来输出该增强的音频。

例如，系统可以以自动化方式识别用户正在观看视频播放设备上的内容，识别用户正在观看的内容，和/或识别附加音频内容是否对该内容可用。系统可呈现允许用户选择加入音频增强的示能表示(例如，视觉或音频提示)或自动地向用户呈现音频增强。可以通过头戴式设备的扬声器在空间上向用户渲染音频增强，以使得增强的音频与用户的音频体验融为一体或增强用户的音频体验。

在一些方面，方法可由计算设备(例如，头戴式设备)来执行。可以获得由用户佩戴的头戴式设备的麦克风产生的麦克风信号。可以确定播放设备正在输出音频内容。音频可以涉及诸如电影、音乐视频、连续剧、图形用户界面之类的视觉作品，或者诸如歌曲、播客、故事或其他音频内容之类的纯音频作品。可以处理该麦克风信号以确定由播放设备播放的音频内容是否存在于麦克风信号中。如果是，则这可指示用户在同一房间中或者在相对于播放设备的某个阈值距离内，以便用户可能正在观看和/或收听该播放设备。可以获得与正在由该播放设备播放的内容相关的附加音频内容。可将一个或多个滤波器应用于表示附加音频内容的一个或多个音频通道，从而产生用于驱动头戴式设备的扬声器的空间化音频。

通过这种方式，播放设备可提供与通过该播放设备播放的内容相结合的附加音频。该附加音频可以以与现有播放音频融为一体的方式进行空间化(例如，通过将增强音频虚拟地定位在该播放设备的位置处)，或提供改进的音频体验(例如，通过提供环绕声)。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1示出了根据一些方面的用于通过头戴式设备的扬声器呈现附加音频的方法。

图2示出了根据一些方面的用于通过头戴式设备的扬声器呈现附加音频的系统。

图3示出了根据一些方面的用于使用相机通过头戴式设备的扬声器呈现附加音频的系统。

图4示出了根据一些方面的头戴式设备。

图5示出了根据一些方面的包含用于通过头戴式设备的扬声器呈现附加音频的条件的流程图。

图6示出了根据一些方面的音频处理系统。

具体实施方式

现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其他方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、算法、结构和技术，以免模糊对该描述的理解。

人们可在不使用电子设备的情况下感测物理环境或世界或者与物理环境或世界交互。物理特征诸如物理对象或表面可包括在物理环境内。例如，物理环境可对应于具有物理建筑物、道路和车辆的物理城市。人们可通过各种手段诸如嗅觉、视觉、味觉、听觉和触觉直接感知物理环境或与物理环境交互。这可与扩展现实(XR)环境相反，该XR环境可以是指人们可使用电子设备感测或交互的部分或完全模拟的环境。XR环境可包括虚拟现实(VR)内容、混合现实(MR)内容、增强现实(AR)内容等。使用XR系统，可跟踪人的物理运动或其表示的一部分，并且作为响应，可以符合至少一个自然定律的方式改变XR环境中的虚拟对象的属性。例如，XR系统可检测用户的头部移动，并且以模拟声音和视图将如何在物理环境中改变的方式调整呈现给用户的听觉和图形内容。在其他示例中，XR系统可检测呈现XR环境的电子设备(例如，膝上型计算机、平板电脑、移动电话等)的移动。因此，XR系统可以模拟声音和视图将如何在物理环境中改变的方式来调整呈现给用户的听觉和图形内容。在一些实例中，其他输入诸如身体运动的表示(例如，语音命令)可使XR系统调整图形内容的属性。

众多类型的电子系统可允许用户感测XR环境或与XR环境交互。不完全示例列表包括放置在用户的眼睛上的具有集成显示能力的镜片(例如，隐形眼镜)、抬头显示器(HUD)、基于投影的系统、可头戴式系统、具有集成显示技术的窗户或挡风玻璃、头戴式耳机/听筒、具有或不具有触觉反馈的输入系统(例如，手持式或可佩戴控制器)、智能电话、平板电脑、台式/膝上型计算机和扬声器阵列。头戴式系统可包括不透明显示器和一个或多个扬声器。其他头戴式系统可被配置为接收不透明外部显示器，诸如，智能电话的不透明外部显示器。头戴式系统可使用一个或多个图像传感器来捕获物理环境的图像/视频，或者使用一个或多个麦克风来捕获物理环境的音频。一些头戴式系统可包括透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可通过介质诸如全息介质、光学波导、光学组合器、光学反射器、其他类似技术或它们的组合将表示图像的光引导到用户的眼睛。可使用各种显示技术，诸如硅上液晶、LED、uLED、OLED、激光扫描光源、数字光投影或它们的组合。在一些示例中，透明或半透明显示器可被选择性地控制而变得不透明。基于投影的系统可利用将图像投影到用户的视网膜上的视网膜投影技术，或者可将虚拟内容投影到物理环境中，诸如投影到物理表面上或者作为全息图。

图1示出了根据一些方面的用于通过头戴式设备的扬声器(例如，耳外扬声器)呈现附加音频的方法。方法50可以用所描述的各个方面执行。该方法可以由硬件(例如，电路、专用逻辑部件、可编程逻辑部件、处理器、处理设备、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如，在处理设备上运行/执行的指令)、固件(例如，微码)或它们的组合来执行，其可被称为处理逻辑部件。尽管在方法中描述了特定功能框(“框”)，但是此类框是示例。也就是说，各方面非常适合于执行方法中所述的各种其它框或所述框的变化。应当理解，方法中的框可以以不同于呈现的顺序执行，并且并非方法中的所有框都可以执行。

在框51处，该方法包括获得由用户佩戴的头戴式设备的麦克风产生的麦克风信号。在一些方面，头戴式设备可包括产生多个麦克风信号的多个麦克风。

在框52处，该方法包括确定播放设备是否正在输出音频内容。例如，可以向播放设备或单独的媒体设备查询播放设备正在输出什么内容(如果有的话)。计算机视觉可用于检测播放设备(例如，识别图像中的电视或其他播放设备)和/或检测正在播放设备的显示器上播放的内容(例如，电影)。麦克风信号可以被处理以检测声音，以便确定播放设备正在输出音频内容。

在框53处，该方法包括确定麦克风信号是否包括由播放设备输出的音频内容。可以对麦克风信号求和或求平均值以获得麦克风信号，或者可以从多个麦克风信号中选择一个麦克风信号。在一些方面，获得多个麦克风的每个麦克风信号并且分别对每个麦克风信号进行处理以确定这些麦克风信号中的任一者是否包括由播放设备输出的音频内容。通过这种方式，该方法可确定用户是否能够听到该内容，这可作为用户正在观看或收听由播放设备播放的内容的指示。这也可以指示用户是否位于与播放设备相同的房间或收听环境中。

在框54处，该方法包括将一个或多个滤波器应用于一个或多个音频通道，从而产生用于驱动头戴式设备的扬声器的空间化音频。该一个或多个音频通道可以表示以与播放设备的音频和/或视觉输出同步的方式作为附加音频层而播放的附加音频内容。同步可以指时间对准。

人类可以通过分析其两只耳朵处的声音来估计声音的位置。这被称为双耳听力，并且人类听觉系统可以使用声音在我们身体周围衍射并反射离开以及与我们的耳廓进行交互的方式来估计声音的方向。可通过将空间滤波器诸如头部相关脉冲响应(HRIR)或头部相关传递函数(HRTF)应用于音频信号来人工地生成这些空间提示。

这些滤波器可以将空间提示人工地赋予到音频中，该空间提示类似于由我们的人体工程学和耳廓自然引起的衍射、延迟和反射。空间滤波的音频可以由空间音频再现系统产生，并且通过耳机输出。通过这种方式，可渲染音频以用于播放，使得音频被感知为具有空间质量，例如源自收听者上方、下方或一侧的位置。

在一些方面，将一个或多个滤波器应用于一个或多个音频通道，使得空间化音频具有虚拟位置，该虚拟位置被头戴式设备的佩戴者感知为源自播放设备的位置。通过这种方式，附加音频与用户的体验融为一体。例如，如果用户正在播放设备(例如，电视)上观看电影，则附加内容可被空间化并通过扬声器播放，使得用户将该附加内容感知为源自电视。

在一些方面，将一个或多个滤波器应用于一个或多个音频通道，使得空间化音频具有多个虚拟位置，该多个虚拟位置被头戴式设备的佩戴者感知为围绕头戴式设备的佩戴者具有多个固定虚拟位置。例如，附加音频内容可被空间化以具有对应于环绕声扬声器位置的虚拟位置，诸如5.1扬声器布局(具有中置、前左、前右、后左和后右扬声器)或7.1扬声器布局(具有中置、低音炮、前左、前右、后左、后右、侧左和侧右)。

可以基于所跟踪的用户的头部位置来调整空间滤波器。头戴式设备的一个或多个传感器(例如，相机、加速度计、陀螺仪、惯性测量单元(IMU)或它们的组合)可依据球坐标(例如，翻滚、俯仰和偏航)和/或三维空间中的坐标(例如，在X、Y和Z平面上)来提供头部位置。可以用三个或六个自由度来确定所跟踪的头部位置。可以基于所跟踪的头部位置以补偿所跟踪的用户头部位置的方式来确定和更新空间滤波器。

例如，基于用户的头部位置，选择具有用于不同频带的增益和相移的滤波器，从而将空间提示赋予音频通道。这些音频通道可通过扬声器播放以产生被头戴式设备的佩戴者感知为源自播放设备的位置的声音。如果用户将他的头部转向右侧，则可以基于头部跟踪位置来更新滤波器，以保持声音的相同虚拟位置，例如锚定在播放设备的位置处。

在一些方面，响应于确定麦克风信号包括音频内容，将一个或多个滤波器应用于一个或多个音频通道。因此，该方法验证用户是否能够听到内容，这可以指示用户正在使用来自播放设备的内容。

在一些方面，响应于确定麦克风信号包括音频内容，该方法可基于惯性测量单元(IMU)或由相机产生的一个或多个图像来确定头戴式设备的佩戴者朝向播放设备。响应于确定头戴式设备的佩戴者朝向播放设备，可将一个或多个滤波器应用于一个或多个音频通道。因此，系统可首先验证用户是否能够听到播放设备，然后可确认用户是否正面向播放设备。

在一些方面，可响应于确定播放设备的一个或多个扬声器被阻挡、不正确地定位或不正确地输出音频内容而将一个或多个滤波器应用于一个或多个音频通道。这可基于感测到的音频、对象检测(例如，使用计算机视觉)或它们的组合来确定。在一些情况下，播放设备可能不支持音频内容的所有音频通道。响应于播放设备未输出这些不支持的音频通道，可将音频内容的所有音频通道或仅不支持的音频通道包括在一个或多个音频通道中，使得在空间化音频的播放中，音频内容的音频通道在收听区域中具有一个或多个对应的虚拟位置。例如，如果播放设备仅具有左扬声器和右扬声器，并且流式传输到播放设备的音频内容为7.1环绕声，则播放设备不支持的全部或部分音频通道(例如，中置、左环绕、右环绕、左后环绕、右后环绕)可在用户房间中的虚拟环绕声位置中进行空间化。音频内容的音频通道可通过对应于预定义环绕声位置(诸如，针对5.1、7.1等规定的位置)的虚拟位置来播放。

在一些方面，响应于确定麦克风信号包括由播放设备输出的音频内容，该方法可确定一个或多个音频通道是否可用于播放该音频内容。响应于存在一个或多个音频通道，可将一个或多个滤波器应用于一个或多个音频通道，从而产生用于驱动头戴式设备的扬声器的空间化音频。例如，如果增强内容可用于“电影”，则该方法可以获得该内容并将其呈现给用户。否则，用户可以在没有增强的情况下观看“电影”。

图2示出了根据一些方面的用于通过头戴式设备的扬声器呈现附加音频的系统。头戴式设备70包括一个或多个麦克风72和一个或多个扬声器76，诸如耳外扬声器、处于开放式配置中的扬声器、处于封闭式配置中具有透传性的扬声器等。头戴式设备可以是或包括头戴式耳机、智能眼镜、平视显示器(HUD)、虚拟现实(VR)显示器、或附接到用户头部的其他音频处理设备。

麦克风72可以产生感测用户环境中的声音的麦克风信号。在一些方面，麦克风72可包括一个或多个麦克风，其各自产生相应麦克风信号。头戴式设备可以确定播放设备78是否正在输出音频和/或视觉内容。例如，头戴式设备可以查询本地网络80以发现存在于该本地网络上的一个或多个播放设备，诸如播放设备78。本地网络可包括无线或有线路由器、交换机或硬件和软件的其他组合，其允许计算设备(诸如头戴式设备和播放设备)通过一个或多个协议(诸如TCP/IP、Wi-Fi等)彼此通信。头戴式设备可以查询播放设备和/或网络，以确定播放设备正在播放的内容(如果有的话)。在一些方面，该查询可通过网络协议来执行，联网设备被配置为经由该网络协议进行通信。如果播放设备正在输出可具有音频和/或视觉分量的内容82，则头戴式设备70可以获得可包括一个或多个音频通道的附加内容84。在一些示例中，此附加内容可与内容82相同或为该内容的子集。例如，如果内容82包括通常包含对话的环绕声格式的中置通道，则头戴式设备可下载该中置通道并且通过扬声器76将其播放给用户以强化该对话。在其他示例中，此附加内容可不同于内容82但作为该内容的补充。例如，附加内容可以包括附加音效、附加语言的对话、呈现仿真描述的附加对话，和/或附加声源，诸如从头顶飞行的直升机或落在用户身后的别针等。

可以将空间滤波器73应用于附加内容的一个或多个通道(例如，通过卷积)，并且可以通过扬声器输出结果。这样，附加内容可在一个或多个虚拟位置处被播放给用户，从而与播放设备的输出融为一体或作为其补充。设备的扬声器76可固定到用户耳朵上方或一侧的位置。扬声器不阻挡用户环境中的其他声音传播到用户的耳朵。因此，用户可以听到来自播放设备的内容以及通过扬声器播放的附加内容。

在一些方面，播放设备78可包括显示器，诸如LCD显示器、LED显示器或其他显示技术。播放设备可以具有与该播放设备集成在一起的扬声器，诸如与显示器一起容纳在共用外壳中的扬声器。附加地或另选地，播放设备可以具有位于该播放设备外部的一个或多个扬声器。

图3示出了根据一些方面的用于使用相机通过头戴式设备的扬声器呈现附加音频的系统。该附图包括其他附图中所示的一些方面。媒体播放器92可以将内容提供给播放设备。该内容可以在播放时被流式传输到播放设备，或者由播放设备作为整体下载。头戴式设备可与媒体播放器和/或播放设备通信以确定播放设备是否正在输出音频内容，并且如果是，则确定该音频内容是什么。媒体播放器可以被集成为播放设备的一部分，或者被容纳在单独的设备中。媒体播放器可以向网络上的不同播放设备分发音频内容、视觉内容或视听内容并对其进行管理，这些不同播放设备可包括头戴式设备。

头戴式设备可以从播放设备或媒体设备获得信息，该信息标识该播放设备正在输出的音频内容。例如，头戴式设备可以轮询或查询播放设备或媒体设备以获得该信息，或者在注册表中“注册”以获得该信息。例如，头戴式设备可以将其网络地址或ID添加到播放设备或媒体设备的注册表中，使得当播放设备播放内容时，播放设备或媒体设备向头戴式设备通知播放设备正在播放内容以及其他信息，诸如内容是什么、时间戳信息、和/或播放的音频格式是什么(例如，5.1、7.2、立体声、基于对象、ATMOS等)。

由头戴式设备获得的附加内容也可以被全部下载或流式传输。在一些方面，可通过网络从远程服务器获得附加内容。在其他方面，可从媒体播放器或播放设备获得附加内容。

头戴式设备可以基于惯性测量单元(IMU)94和/或由相机90产生的一个或多个图像来确定头戴式设备的佩戴者是否朝向或面向播放设备。如其他部分中所述，可将一种或多种头部跟踪算法应用于IMU和/或图像以确定用户的头部位置。此外，可以使用计算机视觉来检测图像中的播放设备，其示出播放设备相对于头戴式设备的位置以及用户的头部是否面向播放设备。在一些示例中，计算机视觉可用于识别正在播放设备上播放的内容以及该内容的位置/时间戳(例如，进入“电影”的3652秒)。可以将所检测到的内容和该内容内的位置/时间戳与从播放设备接收到的播放信息(例如，内容的同一性和该内容内的位置/时间戳)进行比较以确认对该播放设备的识别。

在一些方面，响应于确定播放设备正在播放内容和/或麦克风信号包含播放设备所播放的内容，可以确定用户相对于播放设备的头部位置。响应于确定用户的头部朝向或面向播放设备，可将一个或多个空间滤波器应用于一个或多个音频通道，并且可通过扬声器输出结果。通过这种方式，如果播放设备正在与用户不同的房间中播放内容，则可以不向用户输出附加内容。类似地，如果用户转身离开播放设备，则附加内容可能不播放。然而，如果用户在播放设备的收听区域中(例如，用户可以听到收听设备)，并且正面向播放设备，则附加内容可以通过头戴式设备的扬声器播放，以增强用户体验。

图4示出了根据一些方面的头戴式设备100。该示例中所包括的任一方面可包括在所描述的其他方面中。如所讨论的，头戴式设备可以获得附加内容102，该附加内容可包括由头戴式设备向用户输出的音频和/或视觉内容。该附加内容可以与由播放设备输出的内容同步，使得该内容作为整体被用户体验。

例如，时钟105可例如通过网络被播放设备和头戴式设备访问。基于该时钟以及有关播放设备所播放内容的定时的信息，头戴式设备可以将附加内容的播放同步，使得附加内容大体上跟随播放设备输出的内容一同出现。然而，播放设备与用户之间的距离和/或播放设备及其扬声器的音频处理流水线中的延迟可能引起延迟。

头戴式设备可使用网络音频时钟方案来使其播放时钟与播放设备同步。头戴式设备可使用一个或多个麦克风信号以及网络音频时钟105来在块104处确定声学信号从播放设备到头戴式设备的“飞行时间”。该飞行时间可用于确定相对于时钟105的微调偏移(例如，x毫秒)。然后可以在块106处应用该偏移，以补偿飞行时间并且减少音频伪像，诸如当头戴式设备开始播放音频时的相位调整。时钟105可包括可由网络上的设备用于同步的网络时间协议(NTP)。

播放设备可以提供其何时开始播放内容的时间戳，或者相对于共用时钟正在播放内容的哪一帧。通过确定由播放设备提供的音频内容的时间戳与在麦克风信号中拾取相同音频内容的时间之间的差值，头戴式设备可以将空间化音频与存在于麦克风信号中的音频内容同步。该差值可以表示飞行时间，并且用作将附加内容与用户所听到内容的同步进行微调的偏移量。

在一些方面，头戴式设备可基于由播放设备输出或由麦克风感测到的音频内容的响度来确定扬声器的输出的响度。头戴式设备可以计算用于附加内容的适当播放增益。该增益可以被确定为使得附加内容的输出与播放设备正在播放的内容相匹配。该增益可有助于补偿播放设备、播放设备的扬声器系统的音频电平以及从播放设备到用户的损耗。头戴式设备的麦克风可以感测播放设备的输出，并且使用由播放设备输出并且由麦克风感测到的内容的响度作为基线来确定增益值。响度补偿器可以增加或减小附加内容的每个通道的增益，以使其比播放的输出响度略高或略低，但变化不太大(例如，小于差值的10％或5％)，以便附加内容与播放设备输出的内容融为一体。如果感测到的内容的响度增加(例如，用户增加音量，或者移动得更靠近播放设备)，则附加音频的响度可以自动增加。类似地，如果感测到的内容的响度减小(例如，用户调低音量，或者移动得离播放设备更远)，则附加音频的响度可以自动减小。然而，在一些方面，如果播放设备的输出低于阈值响度，这可能指示播放设备的扬声器被阻挡或以其他方式未按其应有操作进行。作为备用方案，头戴式设备可将预定响度应用于附加内容，以解决这种缺陷。

音频播放器106可以向空间音频引擎110提供内容102的一个或多个通道。可基于精细同步计算器在时间上对这些通道进行偏移，从而补偿飞行时间，如所描述的。此外，如所描述的，可以基于由头戴式设备的一个或多个麦克风所感测到的内容的感测响度来确定一个或多个通道的响度。空间音频引擎可将空间滤波器应用于一个或多个通道中的每一者，以将空间提示给予一个或多个通道。

在空间音频引擎块110处，可以基于在头部跟踪器块112处确定的用户的头部位置来确定和更新空间滤波器。如所讨论的，头戴式设备的相机可以采集视觉信息。类似地，可包括加速度计和/或陀螺仪的IMU可以确定头部位置。在块112处，可将一种或多种头部跟踪算法(例如，视觉惯性里程计(VIO)、同时定位与地图构建(SLAM)和/或其他头部跟踪算法)应用于相机信息和IMU数据以确定用户的头部位置。基于头部位置，可以选择一组空间滤波器以通过头戴式设备的扬声器在相应的虚拟位置处在空间上渲染一个或多个通道中的每一者。

头戴式设备可以向头戴式设备的显示器114呈现示能表示。例如，可以向显示器呈现用户界面元素形式的提示，询问用户是否希望开启附加音频特征。此类示能表示可允许用户根据具体情况选择加入或选择退出音频增强。另选地，头戴式设备可以自动地向用户呈现附加音频。在一些方面，示能表示可包括来自头戴式设备上的扬声器的音频提示。

在一些情况下，可被称为增强的附加内容的播放可以自动开始，诸如如果用户先前已向设备指示他们具有听力障碍并且始终希望呈现增强的对话。此类设置可以相对于头戴式设备进行本地管理和/或特定于用户(例如，用户配置文件)。头戴式设备可以从头戴式设备的用户接收指示通过扬声器播放空间化音频的输入(例如，通过触摸屏输入、按钮、语音命令、键盘、鼠标或其他输入设备)。

可将头戴式设备的各方面应用于在理解视听作品(诸如，电影、连续剧、新闻等)中的对话方面存在困难的听力障碍用户。由于对话通常存储在音频内容的中置音频通道中，因此头戴式设备可下载中置通道(或被识别为包含对话的任何通道)并且仅以较高音量输出该通道以供听力障碍用户使用。在这种情况下，同一房间中的其他用户仍然可以利用标准对话以标准音量听到由播放设备输出的视听内容。

如所讨论的，用户可以具有作为播放设备的一部分被包括的环绕声系统。环绕声系统通常需要并且假设用户已将每个环绕声扬声器放置在相对于用户的特定位置处。有时，用户可能坐在非最佳位置或扬声器可能未被正确地放置。头戴式设备可以基于处理一个或多个麦克风和/或使用计算机视觉处理相机图像以检测用户环境中的扬声器位置来检测这一点。如果扬声器未被正确地放置，用户正坐在非最佳位置，和/或扬声器之一未被正确地操作，则头戴式设备可以获得一个或多个环绕声通道并且在空间上输出这些环绕声通道。播放设备或向播放设备提供内容的媒体设备可以以减少的方式输出音频，诸如通过以立体声播放(仅具有左通道和右通道)。

头戴式设备可以从与音频内容相关联的附加音频内容池中获得附加音频内容。可以基于语言来获得音频内容。例如，如果播放设备正在输出“电影”，则头戴式设备可以选择是否希望获得“电影”的中文、意大利语、韩语、西班牙语、英语等版本的对话。附加音频内容的语言可以不同于播放设备输出的音频内容的语言。

在一些方面，音频内容可由播放设备输出而不含对话，并且多个头戴式设备中的每一者可分别选择相应的一个或多个音频通道以呈现给相应的用户。例如，一组用户可以通过播放设备观看电影。如果拥有头戴式设备的第一用户讲意大利语，但内容以西班牙语显示，则第一用户的头戴式设备可以下载该电影的对应对话音频(意大利语)并且通过扬声器对其进行播放。如果一些或所有其他用户也拥有头戴式设备，则播放设备、管理该播放设备的媒体播放器可以选择不播放任何对话。相反，所有对话可以由每个头戴式设备以每个用户选择的语言来输出。

图5示出了根据一些方面的包含用于通过头戴式设备的扬声器呈现附加音频的条件的流程图。这些条件可由在不同方面描述的头戴式设备和/或作为图1中描述的方法50的一部分来检查。

在框121，头戴式设备可确定播放设备是否正在播放音频内容。这可通过查询网络、分析麦克风信号或来自相机的一个或多个图像来执行，如其他部分中所描述。例如，与头戴式设备位于共用网络上的媒体播放器和/或播放设备可以向头戴式设备指示该播放设备当前正在播放“电影”。如果播放设备正在播放内容，则头戴式设备可以前进至框122。

在框122，头戴式设备可确定是否存在可用于正由播放设备输出的音频内容的附加音频。如果附加音频内容可用，则头戴式设备可以下载附加音频内容和/或向用户提供示能表示以让他们选择加入或选择退出附加音频。如所讨论的，头戴式设备可以参考设置来自动地确定是否向用户呈现附加音频。应当理解，增强的音频内容可能并非对所有内容都可用。例如，音频增强可能对“电影”是可用的，但对晚间新闻不可用。

在框123，头戴式设备可以任选地确定用户是否正在使用由播放设备输出的内容。例如，头戴式设备可以利用音频搜索引擎执行音频查找以确定麦克风信号中的声音是否与播放设备正在播放的内容(如在框121处确定的)匹配。在一些方面，如果内容是麦克风信号中所拾取的，则头戴式设备可前进至框124。

在一些方面，在框123处，头戴式设备可另选地或响应于确定麦克风信号包括音频内容而基于惯性测量单元(IMU)和/或由相机产生的一个或多个图像确定头戴式设备或头戴式设备的佩戴者朝向或面向播放设备。因此，头戴式设备可以检查用户是否可以听到播放设备的输出，然后检查用户是否正面向播放设备，以确定用户实际上正在使用播放设备的内容。

在一些方面，在框123处，头戴式设备可使用其相机来确定由播放设备呈现的视觉内容也与在框121处所识别的音频内容相关联。这可通过视觉搜索引擎使用由头戴式相机拍摄的一个或多个图像来执行，该一个或多个图像包括播放设备上所显示的内容。例如，在框121，头戴式设备发现播放设备正在播放“电影”。头戴式设备可使用由其相机捕获的一个或多个图像作为对网络上的视觉搜索引擎的输入来执行视觉搜索。搜索引擎可以处理该图像并检测该图像是否与“电影”匹配。基于用户头部相对于显示“电影”的播放设备的位置，头戴式设备可以确定用户正面对的播放设备确实正在播放在框121处识别的相同内容。因此，头戴式设备可以假设用户正在使用该内容，并且前进至框124以获得并播放附加音频内容作为对“电影”的增强。

一些播放设备具有“静音”或“静默”模式。这样，头戴式设备可确定播放设备的模式(例如，通过网络轮询或查询)，并且如果播放设备被静音，则头戴式设备可依赖于相机图像来确定由头戴式设备感测到的播放设备是否正在播放在框121处识别的内容。在一些方面，如果播放设备处于静默或静音模式，则使用由播放设备呈现并且由头戴式设备的相机感测到的视觉内容来确定是否将一个或多个滤波器应用于一个或多个音频通道(例如，通过视觉搜索引擎)。否则，使用麦克风信号来确定是否将空间音频呈现给用户(例如，通过音频搜索引擎)。

针对音频处理所述的各方面可作为XR体验的一部分来执行。XR可以包括所有真实和虚拟组合环境(例如，增强现实、虚拟现实、混合现实等)以及由计算机技术和可穿戴设备生成的人机交互。由头戴式设备播放的附加音频可以与视觉体验相关联，并且音频中的收听空间和声源可以对应于在XR中呈现的空间和对象。在一些方面，附加音频可以与可呈现于头戴式设备的平视显示器上的图像、图形、符号、动画及其他视觉对象相关联。这些视觉对象可以作为视觉叠加呈现给播放设备。头戴式设备的显示器可以是透明玻璃。

例如，头戴式设备可以呈现包括与显示在播放设备上的内容同步的文本和/或图像的“仿真描述”，以提供有关该内容中的当前对象或主题的有趣事实。在一些方面，可基于用户的头部位置在空间上渲染附加视觉内容。例如，如果用户倾斜她的头部或改变就座位置，则可以更新诸如头像之类的图形对象的视图以从不同角度显示该头像。

图6示出了根据一些方面的音频处理系统150的示例。音频处理系统可以是计算设备，诸如例如台式计算机、平板电脑、智能电话、膝上型计算机、智能扬声器、媒体播放器、头戴式耳机、头戴式显示器(HMD)、智能眼镜、用于汽车或其他车辆的信息娱乐系统、或用于呈现扩展现实(XR)的电子设备。系统可以被配置为执行本公开中描述的方法和过程。

尽管示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件，但该例证仅是可存在于音频处理系统中的部件的类型的特定具体实施的一个示例。该示例并不旨在表示使这些部件互连的任何特定架构或方式，因为此类细节与本文所述的各方面并无密切关系。还应理解，还可使用具有比所示的更少或更多的部件的其他类型的音频处理系统。因此，本文所述的过程不限于与所示硬件和软件一起使用。

音频处理系统150包括用于将系统的各种部件互连的一条或多条总线162。如本领域中所公知地，一个或多个处理器152耦接到总线162。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器151可包括使用本领域已知的技术耦接到总线的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。传感器/头部跟踪单元158可以包括IMU和/或一个或多个相机(例如，RGB相机、RGBD相机、深度相机等)或本文描述的其它传感器。音频处理系统还可以包括显示器160(例如，HMD或触摸屏显示器)。

存储器151可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器，或磁性光驱或磁性存储器，或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面，处理器152检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所述的操作。

尽管未示出，但音频硬件可耦接到一条或多条总线162，以便接收待由扬声器156处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风154(例如，麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的)，在必要时将其数字化，并且将该信号传送到总线162。

通信模块164可与远程设备和网络通信。例如，通信模块164可通过已知的技术诸如Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如，云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如，接收和发送数据)的有线或无线发射器和接收器。

应当理解，本文所公开的方面可利用远离系统的存储器，诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的，总线162可通过各种网桥、控制器和/或适配器彼此连接。在一个方面，一个或多个网络设备可耦接到总线162。一个或多个网络设备可为有线网络设备(例如，以太网)或无线网络设备(例如，WI-FI、蓝牙)。在一些方面，所述的各个方面(例如，模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。

本文所述的各个方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“模块”、“处理器”、“单元”、“渲染器”、“系统”、“设备”、“滤波器”、“混响器”、“块”、“跟踪器”、“引擎”、“补偿器”、“计算器”和“部件”表示被配置为执行一个或多个过程或功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。因此，如本领域的技术人员所理解的，可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法，而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。这些操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

虽然已经在附图中描述和示出了某些方面，但是应当理解，这些方面仅仅是对本发明的说明而非限制，并且本发明不限于所示出和所描述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于……的装置”或“用于……的步骤”。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

Claims

1.一种方法，所述方法包括：

获得由头戴式设备的麦克风产生的麦克风信号；

确定播放设备正在输出音频内容；

确定所述麦克风信号包括由所述播放设备输出的所述音频内容；以及

基于所述播放设备的位置将一个或多个滤波器应用于一个或多个音频通道，从而产生用于驱动所述头戴式设备的扬声器的空间化音频。

2.根据权利要求1所述的方法，其中将所述一个或多个滤波器应用于所述一个或多个音频通道向所述空间化音频提供虚拟位置，所述虚拟位置看起来源自所述播放设备的所述位置。

3.根据权利要求1-2中任一项所述的方法，其中所述一个或多个滤波器被应用于所述一个或多个音频通道，使得所述空间化音频具有多个虚拟位置，所述多个虚拟位置看起来具有围绕所述头戴式设备的佩戴者的多个固定位置。

4.根据权利要求1-3中任一项所述的方法，其中确定所述播放设备正在输出音频内容包括从所述播放设备或单独的媒体设备获得信息，所述信息识别由所述播放设备输出的所述音频内容。

5.根据权利要求1-4中任一项所述的方法，其中响应于确定所述麦克风信号包括所述音频内容，所述一个或多个滤波器被应用于所述一个或多个音频通道。

6.根据权利要求1-5中任一项所述的方法，还包括：响应于确定所述麦克风信号包括所述音频内容，基于惯性测量单元(IMU)或由相机产生的一个或多个图像来确定所述头戴式设备朝向所述播放设备，其中响应于确定所述头戴式设备朝向所述播放设备，所述一个或多个滤波器被应用于所述一个或多个音频通道。

7.根据权利要求1-6中任一项所述的方法，其中响应于确定所述播放设备的一个或多个扬声器被阻挡、不正确地定位或者不正确地输出所述音频内容，所述一个或多个滤波器被应用于所述一个或多个音频通道。

8.根据权利要求1-7中任一项所述的方法，还包括基于所述内容从所述播放设备到所述头戴式设备的飞行时间，将所述空间化音频与存在于所述麦克风信号中的所述音频内容进行同步。

9.根据权利要求1-8中任一项所述的方法，还包括向所述头戴式设备的显示器呈现提示，以及接收指示通过所述扬声器播放所述空间化音频的输入。

10.根据权利要求1-9中任一项所述的方法，还包括基于由所述播放设备输出或由所述麦克风感测到的所述音频内容的响度来调整所述扬声器的输出的响度。

11.根据权利要求1-10中任一项所述的方法，还包括基于被跟踪的头部位置来调整所述一个或多个滤波器，以补偿用户的所述被跟踪的头部位置，所述被跟踪的头部位置基于所述头戴式设备的一个或多个传感器来确定。

12.根据权利要求1-11中任一项所述的方法，还包括：响应于确定所述麦克风信号包括由所述播放设备输出的所述音频内容，确定所述一个或多个音频通道是否可用于播放所述音频内容，其中响应于所述一个或多个音频通道存在，所述一个或多个滤波器被应用于所述一个或多个音频通道，从而产生用于驱动所述头戴式设备的扬声器的空间化音频。

13.根据权利要求1-12中任一项所述的方法，其中所述一个或多个音频通道包括与所述音频内容的语言不同的语言。

14.根据权利要求1-13中任一项所述的方法，其中所述音频内容由所述播放设备输出而不含对话，并且多个头戴式设备中的每个头戴式设备单独地选择相应的一个或多个音频通道以呈现给相应用户。

15.根据权利要求1-14中任一项所述的方法，其中使用所述头戴式设备的相机来确定由所述播放设备呈现的视觉内容与所述音频内容相关联，并且响应于所述视觉内容与所述音频内容相关联，所述一个或多个滤波器被应用于所述一个或多个音频通道，从而产生用于驱动所述头戴式设备的所述扬声器的所述空间化音频。

16.根据权利要求1-15中任一项所述的方法，其中如果所述播放设备处于静默或静音模式，则使用由所述播放设备呈现的视觉内容来确定是否将所述一个或多个滤波器应用于所述一个或多个音频通道，否则使用所述麦克风信号来确定是否向用户呈现所述空间音频。

17.根据权利要求1-16中任一项所述的方法，其中所述一个或多个音频通道包括对话，并且当用于驱动所述头戴式设备的所述扬声器时，所述对话的响度在所述空间音频中被增加。

18.根据权利要求1-17中任一项所述的方法，其中响应于所述播放设备未输出所述音频内容的不支持的通道，将所述不支持的通道包括在所述一个或多个音频通道中，使得在播放所述空间化音频时，所述不支持的音频通道在收听区域中具有一个或多个对应的虚拟位置。

19.一种头戴式设备，所述头戴式设备具有：

一个或多个麦克风，所述一个或多个麦克风产生一个或多个麦克风信号；扬声器；以及处理器，所述处理器被配置为执行以下操作：

确定播放设备正在输出音频内容；

确定所述一个或多个麦克风信号包括由所述播放设备输出的所述音频内容；以及

将一个或多个滤波器应用于一个或多个音频通道，从而产生用于驱动所述头戴式设备的所述扬声器的空间化音频。

20.根据权利要求19所述的头戴式设备，其中所述一个或多个滤波器被应用于所述一个或多个音频通道，使得所述空间化音频具有虚拟位置，所述虚拟位置被所述头戴式设备的佩戴者感知为源自所述播放设备的位置。

21.根据权利要求19-20中任一项所述的头戴式设备，其中所述一个或多个滤波器被应用于所述一个或多个音频通道，使得所述空间化音频具有多个虚拟位置，所述多个虚拟位置被所述头戴式设备的佩戴者感知为具有围绕所述头戴式设备的佩戴者的多个固定位置。

22.根据权利要求19-21中任一项所述的头戴式设备，其中确定所述播放设备正在输出音频内容包括从所述播放设备或单独的媒体设备获得信息，所述信息识别由所述播放设备输出的所述音频内容。

23.根据权利要求19-22中任一项所述的头戴式设备，其中响应于确定所述一个或多个麦克风信号包括所述音频内容，所述一个或多个滤波器被应用于所述一个或多个音频通道。

24.根据权利要求19-23中任一项的所述头戴式设备，其中所述处理器被进一步配置为执行以下操作：响应于确定所述一个或多个麦克风信号包括所述音频内容，基于惯性测量单元(IMU)或由相机产生的一个或多个图像来确定所述头戴式设备的佩戴者朝向所述播放设备，其中响应于确定所述头戴式设备的所述佩戴者朝向所述播放设备，所述一个或多个滤波器被应用于所述一个或多个音频通道。

25.根据权利要求19-24中任一项所述的头戴式设备，其中响应于确定所述播放设备的一个或多个扬声器被阻挡、不正确地定位或者不正确地输出所述音频内容，所述一个或多个滤波器被应用于所述一个或多个音频通道。

26.根据权利要求19-25中任一项所述的头戴式设备，其中所述处理器被进一步配置为执行以下操作：基于所述内容从所述播放设备到所述头戴式设备的飞行时间，将所述空间化音频与存在于所述一个或多个麦克风信号中的所述音频内容进行同步。

27.根据权利要求19-26中任一项所述的头戴式设备，其中所述处理器被进一步配置为执行以下操作：向所述头戴式设备的显示器呈现提示，以及从所述头戴式设备的用户接收指示通过所述扬声器播放所述空间化音频的输入。

28.根据权利要求19-27中任一项所述的头戴式设备，其中所述处理器被进一步配置为执行以下操作：基于由所述播放设备输出或由所述一个或多个麦克风感测到的所述音频内容的响度来调整所述扬声器的输出的响度。

29.根据权利要求19-28中任一项所述的头戴式设备，其中所述处理器被进一步配置为执行以下操作：基于被跟踪的头部位置来调整所述一个或多个滤波器，以补偿用户的所述被跟踪的头部位置，所述被跟踪的头部位置基于所述头戴式设备的一个或多个传感器来确定。

30.根据权利要求19-29中任一项所述的头戴式设备，其中所述处理器被进一步配置为执行以下操作：响应于确定所述一个或多个麦克风信号包括由所述播放设备输出的所述音频内容，确定所述一个或多个音频通道是否可用于播放所述音频内容，其中响应于所述一个或多个音频通道存在，所述一个或多个滤波器被应用于所述一个或多个音频通道，从而产生用于驱动所述头戴式设备的扬声器的空间化音频。

31.根据权利要求19-30中任一项所述的头戴式设备，其中所述一个或多个音频通道包括与所述音频内容的语言不同的语言。

32.根据权利要求19-31中任一项所述的头戴式设备，其中所述音频内容由所述播放设备输出而不含对话，并且多个头戴式设备中的每个头戴式设备单独地选择相应的一个或多个音频通道以呈现给相应用户。

33.根据权利要求19-32中任一项所述的头戴式设备，其中使用所述头戴式设备的相机来确定由所述播放设备呈现的视觉内容与所述音频内容相关联，并且响应于所述视觉内容与所述音频内容相关联，所述一个或多个滤波器被应用于所述一个或多个音频通道，从而产生用于驱动所述头戴式设备的所述扬声器的所述空间化音频。

34.根据权利要求19-33中任一项所述的头戴式设备，其中如果所述播放设备处于静默或静音模式，则使用由所述播放设备呈现的视觉内容来确定是否将所述一个或多个滤波器应用于所述一个或多个音频通道，否则使用所述麦克风信号来确定是否向用户呈现所述空间音频。

35.根据权利要求19-34中任一项所述的头戴式设备，其中所述一个或多个音频通道包括对话，并且当用于驱动所述头戴式设备的所述扬声器时，所述对话的响度在所述空间音频中被增加。

36.根据权利要求19-35中任一项所述的头戴式设备，其中响应于所述播放设备未输出所述音频内容的不支持的通道，将所述不支持的通道包括在所述一个或多个音频通道中，使得在播放所述空间化音频时，所述不支持的音频通道在收听区域中具有一个或多个对应的虚拟位置。

37.一种计算机可读介质，所述计算机可读介质具有指令，所述指令当由处理器执行时引起下述操作的执行：

获得由头戴式设备的麦克风产生的麦克风信号；

确定播放设备正在输出音频内容；

将一个或多个滤波器应用于一个或多个音频通道，从而产生用于驱动所述头戴式设备的扬声器的空间化音频。

38.根据权利要求37所述的计算机可读介质，其中所述一个或多个滤波器被应用于所述一个或多个音频通道，使得所述空间化音频具有虚拟位置，所述虚拟位置被所述头戴式设备的佩戴者感知为源自所述播放设备的位置。

39.根据权利要求37-38中任一项所述的计算机可读介质，其中所述一个或多个滤波器被应用于所述一个或多个音频通道，使得所述空间化音频具有多个虚拟位置，所述多个虚拟位置被所述头戴式设备的佩戴者感知为围绕所述头戴式设备的佩戴者具有多个固定位置。

40.根据权利要求37-39中任一项所述的计算机可读介质，其中确定所述播放设备正在输出音频内容包括从所述播放设备或单独的媒体设备获得信息，所述信息识别由所述播放设备输出的所述音频内容。

41.根据权利要求37-40中任一项所述的计算机可读介质，其中响应于确定所述麦克风信号包括所述音频内容，所述一个或多个滤波器被应用于所述一个或多个音频通道。

42.根据权利要求37-41中任一项所述的计算机可读介质，其中所述指令进一步引起所述处理器执行下述操作：响应于确定所述麦克风信号包括所述音频内容，基于惯性测量单元(IMU)或由相机产生的一个或多个图像来确定所述头戴式设备的佩戴者朝向所述播放设备，其中响应于确定所述头戴式设备的所述佩戴者朝向所述播放设备，所述一个或多个滤波器被应用于所述一个或多个音频通道。

43.根据权利要求37-42中任一项所述的计算机可读介质，其中响应于确定所述播放设备的一个或多个扬声器被阻挡、不正确地定位或者不正确地输出所述音频内容，所述一个或多个滤波器被应用于所述一个或多个音频通道。

44.根据权利要求37-43中任一项所述的计算机可读介质，其中所述指令进一步引起所述处理器执行下述操作：基于所述内容从所述播放设备到所述头戴式设备的飞行时间，将所述空间化音频与存在于所述麦克风信号中的所述音频内容进行同步。

45.根据权利要求37-44中任一项所述的计算机可读介质，其中所述指令进一步引起所述处理器执行下述操作：向所述头戴式设备的显示器呈现提示，以及从所述头戴式设备的用户接收指示通过所述扬声器播放所述空间化音频的输入。

46.根据权利要求37-45中任一项所述的计算机可读介质，其中所述指令进一步引起所述处理器执行下述操作：基于由所述播放设备输出或由所述麦克风感测到的所述音频内容的响度来调整所述扬声器的输出的响度。

47.根据权利要求37-46中任一项所述的计算机可读介质，其中所述指令进一步引起所述处理器执行下述操作：基于被跟踪的头部位置来调整所述一个或多个滤波器，以补偿用户的所述被跟踪的头部位置，所述被跟踪的头部位置基于所述头戴式设备的一个或多个传感器来确定。

48.根据权利要求37-47中任一项所述的计算机可读介质，其中所述指令进一步引起所述处理器执行下述操作：响应于确定所述麦克风信号包括由所述播放设备输出的所述音频内容，确定所述一个或多个音频通道是否可用于播放所述音频内容，其中响应于所述一个或多个音频通道存在，所述一个或多个滤波器被应用于所述一个或多个音频通道，从而产生用于驱动所述头戴式设备的扬声器的空间化音频。

49.根据权利要求37-48中任一项所述的计算机可读介质，其中所述一个或多个音频通道包括与所述音频内容的语言不同的语言。

50.根据权利要求37-49中任一项所述的计算机可读介质，其中所述音频内容由所述播放设备输出而不含对话，并且多个头戴式设备中的每个头戴式设备单独地选择相应的一个或多个音频通道以呈现给相应用户。

51.根据权利要求37-50中任一项所述的计算机可读介质，其中使用所述头戴式设备的相机来确定由所述播放设备呈现的视觉内容与所述音频内容相关联，并且响应于所述视觉内容与所述音频内容相关联，所述一个或多个滤波器被应用于所述一个或多个音频通道，从而产生用于驱动所述头戴式设备的所述扬声器的所述空间化音频。

52.根据权利要求37-51中任一项所述的计算机可读介质，其中如果所述播放设备处于静默或静音模式，则使用由所述播放设备呈现的视觉内容来确定是否将所述一个或多个滤波器应用于所述一个或多个音频通道，否则使用所述麦克风信号来确定是否向用户呈现所述空间音频。

53.根据权利要求37-52中任一项所述的计算机可读介质，其中所述一个或多个音频通道包括对话，并且当用于驱动所述头戴式设备的所述扬声器时，所述对话的响度在所述空间音频中被增加。

54.根据权利要求37-53中任一项所述的计算机可读介质，其中响应于所述播放设备未输出所述音频内容的不支持的通道，将所述不支持的通道包括在所述一个或多个音频通道中，使得在播放所述空间化音频时，所述不支持的音频通道在收听区域中具有一个或多个对应的虚拟位置。