CN117750270A

CN117750270A - 音频的空间共混

Info

Publication number: CN117750270A
Application number: CN202311219840.2A
Authority: CN
Inventors: S·梅辛格·朗; S·A·沃德尔; S·德利凯瑞斯·马尼亚斯; J·D·阿特金斯
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2022-09-21
Filing date: 2023-09-20
Publication date: 2024-03-22

Abstract

本发明涉及“音频的空间共混。”音频处理系统可获得要呈现给显示器的视觉对象的尺寸。该音频处理系统可至少基于该视觉对象的该尺寸确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置。可通过双耳音频在每个虚拟放置处空间地渲染该多个虚拟扬声器中的每个虚拟扬声器，以用于通过头戴式扬声器回放。还描述了其他方面并要求对其他方面进行保护。

Description

音频的空间共混

本非临时性专利申请要求2022年9月21日提交的美国临时申请号63/376,524的较早申请日期的权益。

技术领域

本公开的一个方面涉及音频处理，具体地，涉及根据视觉对象的呈现的音频的空间呈现。

背景技术

声音或声能可作为声波(例如，振动)通过传输介质，诸如气体、液体或固体传播。麦克风可感测环境中的声能。每个麦克风可包括换能器，该换能器将传输介质中的振动转换成可以是模拟或数字的电子信号。可被称为麦克风信号的电子信号表征并捕获存在于环境中的声音。

音频作品可包括声场的记录，其包括一定时间长度内的一个或多个麦克风信号。还可通过合成一个或多个声音来建立音频信号，以电子地生成(例如，没有麦克风捕获)音频作品。音频作品可与视觉对象诸如图形、视频、计算机应用程序，或其他视觉对象相关联。

处理设备诸如计算机、智能电话、平板计算机或可穿戴设备可运行向用户播放音频的应用程序。例如，计算机可启动应用程序诸如电影播放器、音乐播放器、会议应用程序、电话呼叫、警报、游戏、用户界面、网络浏览器，或其他应用程序。该应用程序可使得音频通过扬声器输出给用户，同时向用户显示与该音频相关联的一个或多个视觉对象。

发明内容

技术正在为用户提供越来越多的沉浸式体验。此类沉浸式体验可包括视觉感觉和音频感觉(诸如空间化音频和/或3D视觉分量)的沉浸。视觉显示的对象可与声音相关联并且与声音同时呈现。声音可通过环绕声扬声器(例如，5.1、6.1、7.1等)呈现。然而，在沉浸式体验中，用户或系统可具有增加的关于如何视觉地呈现对象的控制(例如，视觉对象将被定位于何处或者视觉对象将被呈现得多大)。因此，以与沉浸式环境中的视觉对象共存并且向用户提供可能与视觉对象的视觉状态有关的音频反馈提示的方式来呈现音频可能是有益的。

另外，存在多种音频格式，诸如5.1、6.1、7.1、立体声、基于对象的音频或其他音频格式。因此，在允许沉浸式音频格式的动态改变的情况下，以一致且不可知的方式将现有音频格式转换为沉浸式音频格式可能是有益的。

在一个方面，计算机实现的方法包括：获得视觉对象(例如，要呈现给显示器)的视觉特性诸如尺寸；至少基于该视觉对象的尺寸确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置；以及通过包括左音频声道和右音频声道的双耳音频在相应的虚拟放置处空间地渲染该多个虚拟扬声器中的每个虚拟扬声器，以用于通过头戴式扬声器回放。

在一些示例中，该方法包括：响应于视觉对象的尺寸变得更小而将多个虚拟扬声器移动得更靠近在一起；以及响应于视觉对象的尺寸变得更大而将多个虚拟扬声器移动分开。

在一些示例中，该方法可在一种或多种第一模式下进行操作。在一些示例中，在第一模式下，多个虚拟扬声器的虚拟中心声道相对于视觉对象在显示器上的位置取向。在一些示例中，在第一模式下，多个虚拟扬声器中的每个虚拟扬声器的虚拟放置可被约束于围绕收听位置或用户位置的球体。在一些示例中，该一种或多种第一模式中的每一者定义多个虚拟扬声器的唯一放置。

在该一种或多种第一模式中的第一种第一模式下，多个虚拟扬声器可分布在围绕收听位置(例如，用户)的球体上，具有多个虚拟扬声器之间的对应于视觉对象的第一尺寸的第一间距。在该一种或多种第一模式中的第二种第一模式下，多个虚拟扬声器可分布在球体上，具有多个虚拟扬声器之间的对应于视觉对象的较小第二尺寸的第二间距，其中该第二间距小于该第一间距。

在一些示例中，响应于用户头部的移动，使多个虚拟扬声器在球体上旋转以维持该多个虚拟扬声器在视觉对象处的方向。可基于对用户位置的跟踪更新收听位置。

在一些示例中，在第二模式下，多个虚拟扬声器中的每个虚拟扬声器被放置在视觉对象处。在第二模式下，多个虚拟扬声器的虚拟放置可不被约束于围绕收听位置的球体，而在第一模式下，多个虚拟扬声器的虚拟放置可被约束于球体。在一些示例中，响应于视觉对象的尺寸小于阈值而(从一种或多种第一模式中的任一者)进入第二模式。附加地或另选地，响应于选择和移动在沉浸式环境内的视觉对象的请求(例如，用户输入)，可(从一种或多种第一模式中的任一者)进入第二模式。

在一些示例中，(例如，从一种或多种第一模式中的任一者)转变到第二模式包括将多个虚拟扬声器从围绕收听位置的球体上的间隔位置到被放置在视觉对象处的移动动画化。类似地，转变出第二模式(例如，进入一种或多种第一模式中的任一者)可包括将多个虚拟扬声器从被放置在视觉对象处到被放置在被约束于围绕收听位置的球体的间隔位置处的移动动画化。转变到第二模式或转变出第二模式可包括保留多个虚拟扬声器的总声能。

在一些示例中，该方法包括获得具有基础音频格式的一个或多个音频声道并且基于与该一个或多个音频声道中的每个音频声道相关联的位置将该一个或多个音频声道中的每个音频声道分布到多个虚拟扬声器。基本音频格式的示例可包括多声道扬声器布局(例如，5.1、6.1、7.1)、单声道音频声道、立体声、球谐函数(例如，高保真度立体声响复制(Ambisonics))或基于对象的音频。可使用矢量基幅度平移(VBAP)将基础音频格式的一个或多个音频声道映射到多个虚拟扬声器。在一些示例中，该方法可包括在多个虚拟扬声器之间进行内插以将基础音频格式的一个或多个音频声道中的每个音频声道分布到多个虚拟扬声器。

在本公开的又一方面，用于连同视觉对象的音频一起呈现视觉对象的方法如下进行。首先，处理器根据第一视觉特性(例如，原始尺寸)在显示器上呈现视觉对象。同时(或甚至同时)，处理器根据第一音频特性呈现视觉对象的音频。在一个实例中，第一音频特性是渲染算法中两个或更多个虚拟扬声器的原始布置，其中这些虚拟扬声器之间具有原始间距。接下来，处理器接收用户输入以选择视觉对象(例如，抓取视觉对象)。作为响应，并且在维持用户输入的情况下，处理器将音频的呈现改变为根据第二音频特性，并且处理器将视觉对象的呈现改变为根据第二视觉特性。在一个实例中，第二视觉特性是视觉对象的较小尺寸或视觉对象的移动。关于第二音频特性，其可以是虚拟扬声器的不同布置，诸如其间的间距小于原始间距的布置。接下来，响应于用户输入不再被维持(例如，用户取消选择或取消抓取视觉对象，这也可发信号通知视觉对象停止移动)，处理器将音频的呈现改变回第一音频特性，同时(或甚至同时)将视觉对象的呈现改变回第一视觉特性(例如，视觉对象恢复其原始尺寸)。

在先前的段落中的方法的一个实例中，当根据第一视觉特性呈现视觉对象时，根据虚拟扬声器围绕收听位置分布的第一音频特性呈现空间音频。然后，当根据第二视觉特性呈现视觉对象时，根据虚拟扬声器位于视觉对象处的第二音频特性呈现空间音频。在一个实例中，虚拟扬声器布置折叠为位于视觉对象的虚拟位置处的单个源。在另一实例中，当根据第一音频特性和第二音频特性两者呈现空间音频时，虚拟扬声器保持分布在同一球体(例如，其中心在收听位置处的球体)上，不同的是，虚拟扬声器之间的间距改变(例如，第一音频特性中的间距大于第二音频特性中的间距)。

现在，如果用户输入将视觉对象移动到新位置，则当将呈现改变回第一音频特性时，处理器相对于该视觉对象的新位置呈现空间音频(根据如围绕收听位置分布的虚拟扬声器的布置)。换句话讲，视觉对象的声音将被空间化以被感知为来自视觉对象在其新位置处的方向。

以上概述不包括本公开的所有方面的详尽列表。可预期的是，本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1示出了根据一些方面的用于利用虚拟扬声器来提供沉浸式音频和视觉体验的音频处理设备的示例。

图2示出了根据一些方面的在多种模式下利用虚拟扬声器来提供沉浸式音频和视觉体验的示例。

图3示出了根据一些方面的利用虚拟扬声器和内容不可知方法提供沉浸式音频和视觉体验的示例。

图4示出了根据一些方面的利用虚拟扬声器和位置跟踪来提供沉浸式音频和视觉体验的示例。

图5示出了根据一些方面的利用虚拟扬声器来提供沉浸式音频和视觉体验的示例性方法。

图6示出了根据一些方面的音频处理系统的示例。

具体实施方式

人类可以通过分析其两只耳朵处的声音来估计声音的位置。这被称为双耳听力，并且人类听觉系统可以使用声音在我们身体周围衍射并反射离开以及与我们的耳廓进行交互的方式来估计声音的方向。可通过将空间滤波器诸如头部相关传递函数(HRTF)或头部相关脉冲响应(HRIR)应用于音频信号来人工地生成这些空间提示。在频域中应用HRTF，并且在时域中应用HRIR。

空间滤波器可以将空间提示人工地赋予到音频中，该空间提示类似于由我们的人体工程学和耳廓自然引起的衍射、延迟和反射。空间滤波的音频(其可被称为双耳音频)可由空间音频再现系统(渲染器)产生，并且通过耳机输出。可渲染空间音频以用于回放，使得音频被感知为具有空间特质。例如，空间音频可再现原始声音场景(例如，在捕获设备前方的讲话者和在捕获设备上方的鸟)的质量。在其他示例中，空间音频可再现虚构声音场景，其具有由音频内容创建者创作的空间质量。音频内容创建者可指定空间信息，诸如与虚构声音场景中的声源相关联的方向、距离或位置，并且渲染器可根据该空间信息渲染声源。

空间音频可对应于一起形成视听作品的视觉分量。视听作品可与应用程序、用户界面、电影、现场演出、体育赛事、游戏、会议呼叫或其他视听体验相关联。在一些示例中，视听作品可被集成到扩展现实(XR)环境中。

空间音频再现可包括使场景中的声源空间化。该场景可以是三维表示，其可包括每个声源的位置。在沉浸式环境中，用户可能够在虚拟环境周围移动并且在场景中进行交互。

操作系统可管理设备的各个方面，诸如哪些应用程序是活动的、哪些应用程序是呈现给用户的，以及如何将该应用程序的音频呈现给用户。该操作系统可在传统2D环境中或在3D环境(例如，XR环境)中呈现应用程序。可向每个应用程序呈现示出特定于该应用程序的内容的视图(例如，应用程序窗口)。

如所描述的，维持沉浸式体验的视觉对象与沉浸式体验的音频分量之间的关联可能是有益的。在一些方面，在XR环境中或在传统环境(具有固定2D显示器)中，操作系统可将视觉对象(例如，应用程序)的行为或呈现与向用户播放声音的虚拟扬声器的布置配对。

例如，系统或计算机实现的方法可充当操作系统、服务或基于视觉对象的尺寸和/或其他元数据围绕用户布置虚拟扬声器的其他计算机实现的方法。视觉对象可以是显示特定于应用程序的视觉内容(例如，电影播放器、音乐播放器、游戏、用户界面、web浏览器等)的应用程序窗口。该视觉对象的音频可通过围绕用户放置的虚拟扬声器来播放。这些虚拟扬声器可通过双耳渲染器生成，并且可通过包括左音频声道和右音频声道的双耳音频回放。双耳音频可通过耳机组输出。

在一些示例中，可在不同模式下管理虚拟扬声器。例如，一种或多种第一模式可指定围绕用户的每个虚拟扬声器的放置。该一种或多种第一模式可对应于视觉对象的不同声场或声场尺寸。例如，视觉对象的大呈现可对应于彼此间隔较远的虚拟扬声器的第一布置。视觉对象的中呈现可对应于虚拟扬声器的第二布置，其使得扬声器中的一些扬声器被间隔开或集群得更靠近在一起。

另外，在第二模式下，这些虚拟扬声器中的每个虚拟扬声器可在视觉对象上和/或以这些虚拟扬声器之间的最小间距渲染。该模式可对应于视觉对象的小声场和小呈现。系统可基于视觉对象的尺寸和/或用户输入在第一模式中的任一者之间和/或在第一模式和第二模式中的任一者之间转变。在转变期间，系统可动画化虚拟扬声器的移动，从而提供视觉对象的声场和呈现正在改变的附加用户反馈。另外，在没有动画化的情况下，当虚拟扬声器“跳跃”时，模式之间的转变可能会使收听者感到迷惑。

在一些示例中，可将视觉对象呈现给传统的固定2D显示器、移动显示器或头戴式显示器(HMD)。在一些示例中，显示器可包括立体显示器(例如，3D显示器)，其通过用于双眼视觉的立体视觉而向观看者传达深度感知。

图1示出了根据一些方面的用于利用虚拟扬声器来提供沉浸式音频和视觉体验的音频处理设备102的示例。音频处理设备102可包括被配置为执行本公开中所描述的操作和方法的处理逻辑106。也可被称为处理设备的处理逻辑106可包括硬件(例如，电路、专用逻辑、可编程逻辑、处理器、中央处理单元(CPU)、片上系统(SoC)、机器可读存储器等)、软件(例如，由处理逻辑存储或执行的机器可读指令)或其组合。处理逻辑106可执行本文所描述的各种操作或框。

在虚拟扬声器管理框136处，处理逻辑106可获得要呈现给显示器108的视觉对象110的尺寸124。尺寸124可包括视觉对象110的长度、高度、形状、面积和/或体积。例如，视觉对象可采取在显示器108上呈现的应用程序窗口(例如，矩形窗口)的形式。处理逻辑106还可获得关于视觉对象110的其他信息122，诸如视觉对象在显示器108中或在虚拟环境中的位置、视觉对象的状态(例如，视觉对象是否是活动的、正在移动等)、与视觉对象110相关联的音频声道的基本音频格式，和/或与视觉对象有关的其他信息。

处理逻辑106可至少基于视觉对象110的尺寸124确定多个虚拟扬声器120中的每个虚拟扬声器的虚拟放置138。虚拟放置138可以是指可能在虚拟空间中的位置(例如，方向或位置)。虚拟放置可被确定为虚拟空间中的相对位置(例如，相对于用户118)或绝对位置。

在一些示例中，处理逻辑106可响应于视觉对象110的尺寸124小而将多个虚拟扬声器120放置得更靠近在一起，以及/或者响应于视觉对象110的尺寸124变得更大而将多个虚拟扬声器120放置得相距更远。视觉对象110的尺寸124可响应于请求(例如，用户输入126)或自动地(例如，由其他条件触发)改变。

另外，即使在初始放置之后，处理逻辑106也可动态地移动虚拟扬声器120。例如，多个虚拟扬声器120可响应于视觉对象110的尺寸124变得更小而移动得更靠近在一起，以及/或者响应于视觉对象110的尺寸124变得更大而移动得相距更远。

处理逻辑106可通过双耳音频128在每个虚拟放置处空间地渲染多个虚拟扬声器120中的每个虚拟扬声器。双耳音频128可包括左音频声道和右音频声道，以用于通过头戴式扬声器112、114回放。头戴式扬声器112、114可包括左扬声器114和右扬声器112，它们可以是耳外扬声器或者可被穿戴在用户118的耳朵上、耳朵上方或耳朵中。如所描述的，双耳音频128可被空间化(具有空间提示)，使得在用头戴式扬声器112、114听时，虚拟扬声器120中的每个虚拟扬声器听起来像来自相应虚拟放置的独立扬声器。头戴式扬声器112、114可集成到音频回放设备104，诸如耳机组、耳塞、头戴式显示器或其他音频回放设备104。在一些示例中，任何音频处理设备102、显示器108或音频回放设备104可彼此集成或为单独设备。

视觉对象110可与具有基本音频格式132的一个或多个音频声道相关联。基本音频格式132的示例可包括多声道扬声器布局(例如，5.1、6.1、7.1)、单声道音频声道、立体声、球谐函数或基于对象的音频。例如，视觉对象110可包括具有一个或多个基于对象的音频声道的视频游戏，每个音频声道对应于该视频游戏中的声源。在另一示例中，视觉对象110可包括电影，该电影包括被格式化为5.1环绕声的扬声器声道。

处理逻辑106可获得具有基本音频格式132的音频声道，并且在映射算法框或映射器134处，基于与一个或多个音频声道中的每个音频声道相关联的位置将这些音频声道中的每个音频声道分布到多个虚拟扬声器120。映射器134可将来自这些音频声道(例如，M个音频声道)中的每个音频声道的音频重新分布到N个虚拟扬声器120。例如，如果音频声道包括左后扬声器声道，则可根据i)左后扬声器声道的指定位置与ii)虚拟扬声器120中的每个虚拟扬声器的放置之间的接近度将该声道分布到多个虚拟扬声器120中的一个或多个虚拟扬声器。

在一些示例中，可使用矢量基幅度平移(VBAP)将基础音频格式132的一个或多个音频声道映射到多个虚拟扬声器。另外，一旦那些音频声道被映射到虚拟扬声器120，则可在虚拟扬声器的放置改变时以低开销调整映射。例如，处理逻辑可在多个虚拟扬声器之间进行内插以将基础音频格式的一个或多个音频声道中的每个音频声道分布到多个虚拟扬声器。这将在其他部分中进一步描述。

在一些示例中，在映射器134处，处理逻辑可将一个或多个音频声道中的每个音频声道渲染为多个虚拟扬声器中的对应的一个虚拟扬声器。可基于与一个或多个音频声道中的每个音频声道相关联的位置确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置。与该声道相关联的位置(诸如环绕声格式中的扬声器位置或基于对象的音频格式中的声源)可相对于视觉对象110被映射到球体(围绕收听位置)，其中方向与该音频声道的位置匹配。例如，右中心扬声器的音频声道可被映射到在球体上的位置，该位置相对于视觉对象在球体上的视觉对象的右中心。类似地，基于对象的音频中的飞机的音频声道可具有描述了飞机在头顶正上方的位置元数据。该位置可相对于视觉对象110被映射到球体的顶部位置。可使用矢量基幅度平移(VBAP)将一个或多个音频声道映射到多个虚拟扬声器中的每个虚拟扬声器的虚拟放置。处理逻辑可在控制点之间(例如，在球体表面上)进行内插以将一个或多个音频声道中的每个音频声道放置在相应虚拟放置处。因此，一个或多个音频声道中的每个音频声道可在一对一的基础上对应于这些虚拟扬声器中的每个虚拟扬声器，并且被渲染为该多个虚拟扬声器中的对应的一个虚拟扬声器。

在渲染器框130处，处理逻辑可在相应虚拟放置138处空间地渲染虚拟扬声器120中的每个虚拟扬声器。例如，处理逻辑可将HRTF或HRIR应用于N个虚拟扬声器120以鉴于用户位置将这些虚拟扬声器空间化于预期虚拟放置处。另外，渲染器框130可根据用户位置空间地渲染那些虚拟扬声器。例如，一个或多个传感器116可跟踪用户118的位置。传感器116可包括惯性测量单元(IMU)、加速度计、陀螺仪、相机或其他传感器。渲染器框130可应用一个或多个定位算法以确定用户118的位置(例如，定位、位置或方向)。尽管被示为集成到音频回放设备104，但是传感器116可集成到其他设备(诸如音频处理设备102、显示器108)中的任一者，或者分布在它们之中。

在一些示例中，处理逻辑106可渲染虚拟扬声器120以补偿用户位置(或用户位置的改变)，以维持虚拟空间中的虚拟扬声器中的每个虚拟扬声器的固定位置。在没有此类补偿的情况下，虚拟扬声器将看起来锚定到用户并随用户行进，而不是锚定到物理空间和虚拟空间。

虚拟扬声器的放置138可被预定义并存储在处理逻辑106可访问的设置中。处理逻辑106可基于信息122和/或尺寸124确定要操作哪种模式，然后相应地渲染虚拟扬声器的N个声道。在一些示例中，确定多个虚拟扬声器120中的每个虚拟扬声器的虚拟放置包括根据确定视觉对象110的尺寸满足第一标准，在一种或多种第一模式下进行操作。在一些示例中，确定多个虚拟扬声器120中的每个虚拟扬声器的虚拟放置包括根据确定视觉对象110的尺寸满足第二标准，在一种或多种第二模式下进行操作。第一和第二标准可包括视觉对象110的不同尺寸阈值，或者可在信息122中定义的其他字段。

视觉对象110的尺寸可满足第一标准(例如，第一模式可以是活动的)。处理逻辑106可获得视觉对象110的已更新尺寸，并且根据确定已更新尺寸满足第二标准(例如，尺寸标准)，处理逻辑106可通过将多个虚拟扬声器从其相应虚拟放置(例如，在球体上)到视觉对象110的移动动画化来转变到第二模式。

类似地，视觉对象110的尺寸可满足第二标准(例如，第二模式可以是活动的)。处理逻辑106可获得视觉对象110的已更新尺寸。根据确定视觉对象110的已更新尺寸满足第一标准，处理逻辑106可通过将多个扬声器从视觉对象110到相应虚拟放置(例如，分布在球体上)的移动动画化来转变到一种或多种第一模式。

在虚拟扬声器管理框136处，处理逻辑106可基于信息122(例如，信息122的某些字段是否满足第一或第二标准)确定操作模式。每种操作模式可定义虚拟扬声器120的唯一放置以及其他参数，诸如混响、每个声道的直达混响声能比(DRR)、每个虚拟扬声器的延迟(例如，指定这些虚拟扬声器中的一个虚拟扬声器的延迟)、总低频增益和其他行为。每种模式可表示基于信息122或尺寸124或两者应用的不同设定组。

在一些示例中，虚拟扬声器管理框136可包括大模式、中模式和小模式。大模式和中模式可被称为一种或多种第一模式。小模式可被称为第二模式。在其他部分中进一步描述各种模式，诸如参考图2、图3、图4或图5。

图2示出了根据一些方面的在多种模式下利用虚拟扬声器来提供沉浸式音频和视觉体验的示例。沉浸式视听系统200可根据各种音频模式诸如第一模式208、另一第一模式210和第二模式212操作。系统200可基于视觉对象204的尺寸、关于视觉对象204的其他信息(例如，122)和/或用户输入在模式之间无缝地转变。系统200可包括被配置为执行所描述的操作的处理逻辑。

系统200可包括多个扬声器218和216，它们可分别穿戴在用户206的每只耳朵附近、每只耳朵上、每只耳朵中或每只耳朵上方。耳上扬声器还可包括骨传导扬声器或固定在用户头部上靠近用户耳朵的扬声器。系统200可包括可在其上呈现视觉对象204的显示器(未示出)。该显示器可以是固定显示器、手持移动设备上的显示器或头戴式显示器。该显示器可包括3D显示器(例如，立体显示器)。

视觉对象204可以是计算机呈现的2D或3D图像或动画。该视觉对象可包括应用程序的视觉表示(例如，应用程序窗口)。系统200可获得与如何将视觉对象204呈现给显示器有关的该视觉对象的尺寸和/或其他信息。

系统200可至少基于视觉对象204的尺寸确定多个虚拟扬声器214a、214b、214c、214e和214d中的每个虚拟扬声器的虚拟放置。系统可通过双耳音频在每个虚拟放置处空间地渲染多个虚拟扬声器(214a-214e)中的每个虚拟扬声器。可用双耳音频来驱动扬声器216和218以向用户206输出多个虚拟扬声器(214a-214e)，使得这些虚拟扬声器(214a-214e)各自看起来来自于它们相应的虚拟放置。

系统200可在多种模式下进行操作，该多种模式可被称为一种或多种第一模式(例如，第一模式208和第一模式210)以及第二模式212。

在第一模式下，多个虚拟扬声器214a-214e中的每个虚拟扬声器的虚拟放置可被约束于围绕用户206的球体202。在一些示例中，多个虚拟扬声器214a-214e中的各个和每个虚拟扬声器可被放置在球体202的表面上。用户206可位于球体的中心。

在一种或多种第一模式下，虚拟扬声器214a-214e之间的间距可基于视觉对象204的尺寸确定。例如，在该一种或多种第一模式中的第一种第一模式(例如，第一模式210)下，多个虚拟扬声器214a-214e可分布在围绕用户206的球体202上，具有多个虚拟扬声器214a-214e之间的第一间距(例如，S1、S2和S3)。该间距可对应于视觉对象204的第一尺寸(例如，大)。

在该一种或多种第一模式中的第二种第一模式(例如，第一模式208)下，多个虚拟扬声器214a-214e可分布在球体202上，具有多个虚拟扬声器214a-214e之间的对应于视觉对象204的较小第二尺寸的第二间距(例如，S1'、S2'和S3')。第二间距(S1'、S2'和S3')可小于第一间距(S1、S2和S3)。应当理解，随着这些虚拟扬声器中的一些虚拟扬声器之间的间距更靠近在一起，其他虚拟扬声器可能变得被放置得相距更远。因此，间距可以是指最靠近的虚拟扬声器的集群。随着集群中那些虚拟扬声器的间距增加，已集群的虚拟扬声器变得分散在整个球体202上。在另一示例中，距离S3和S3'可在虚拟扬声器214a与214e之间，和/或在虚拟扬声器214c与214d之间。随着距离S1、S2和S3减小，虚拟扬声器变得在视觉对象204前方或在该视觉对象处集群在一起(例如，以单个集群)(例如，第二模式212)。

在一些示例中，该一种或多种第一模式中的每一者(例如，208、210)定义多个虚拟扬声器214a-214e的唯一放置。在也可被称为小模式的第二模式212下，多个虚拟扬声器214a-214e中的每个虚拟扬声器可如图所示放置在视觉对象204处。在第二模式212下，虚拟扬声器214a-214e可直接放置在视觉对象204上或放置在使得其各自可独立辨别的最小距离处。另外，在第二模式212下，多个虚拟扬声器214a-214e的虚拟放置可不被约束于围绕用户206的球体202，而是它们可被放置在球体202之外以向用户206提供关于不同操作模式和视觉对象204的状态的进一步反馈。

在一些示例中，响应于视觉对象204的尺寸小于阈值而(从一种或多种第一模式诸如208、210中的任一者)进入第二模式212。附加地或另选地，可响应于用户输入而(从一种或多种第一模式中的任一者)进入第二模式212。

例如，用户206可通过虚拟地“抓取”视觉对象204并将该视觉对象放置在显示器上的不同位置或虚拟环境中，来在沉浸式环境内虚拟地移动视觉对象204。当视觉对象204处于该抓取或转变状态时，系统200可在第二模式212下进行操作。当用户将视觉对象204释放或放置在不同位置中时，则系统可转变到这些第一模式(例如，208、210)中的一者并在该第一模式下进行操作。因此，系统200可响应于用户行为向用户提供音频和视觉反馈以提供响应式用户界面。

系统200可在系统在模式之间转变时将虚拟扬声器214a-214e的移动动画化。例如，从一种或多种第一模式208或210中的任一者转变到第二模式212可包括将多个虚拟扬声器214a-214e从其在围绕用户206的球体202上的相应间隔位置到被集群在一起(放置在视觉对象204处)的移动动画化。因此，用户可听到扬声器从间隔开的位置(在第一模式208或210下)行进到集群在一起的位置(在第二模式212下)以提供系统正在改变模式的附加用户反馈。类似地，转变出第二模式212进入一种或多种第一模式(例如，208、210)中的任一者可包括将多个虚拟扬声器从放置在视觉对象处(如第二模式212中所示)到被放置在被约束于围绕用户206的球体202的间隔位置处(如一种或多种第一模式208、210中所示)的移动动画化。

另外，在一些示例中，系统200可保留多个虚拟扬声器在不同模式之间的总声能，以提供一致的体验。另选地，系统可根据可能特定于模式中的每一者的增益值，修改虚拟扬声器214a-214e中的一些或全部虚拟扬声器的增益。

应当理解，尽管展示为具有214a-214e的布置，但虚拟扬声器214a-214e的数量和它们的放置可取决于各种条件诸如系统资源、设定、艺术选择或其他条件而变化。虚拟扬声器的数量一旦建立就可保持不变，与在一种或多种第一模式与第二模式之间的转变无关。因此，可向用户206提供模式之间的其他方面一致的体验，不同的是，虚拟扬声器214a-214e可在视觉对象204较大时变得更具包裹感，并且在视觉对象204较小时包裹感减弱。另外，系统200可包括具有多于所示的三种模式(例如，两种或更多种第一模式)或少于所示的三种模式的多种模式。在一些示例中，虚拟扬声器214a-214e中的每个虚拟扬声器可对应于环绕声扬声器格式的声道，如在其他部分中所描述的。

如所描述的，系统可获得可具有基本音频格式的一个或多个音频声道304，并且基于与该一个或多个音频声道304中的每个音频声道相关联的位置将该一个或多个音频声道304中的每个音频声道分布到多个虚拟扬声器。

例如，视觉对象302可以是呈现包括环绕声扬声器格式(例如，5.1)的视听内容的应用程序。音频声道304可表示环绕声扬声器格式的左前声道。系统可获得与该左前声道相关联的预定义位置(例如，可以是相对于收听者的优选方向或位置)。

在另一示例中，音频声道304可表示具有基于对象的音频格式的声源(例如，鸟)。基本音频格式可包括描述了声源位置的元数据，该声源位置可随时间改变也可不随时间改变。

与基本音频的格式无关，声道的位置可表达为方向、距离、相对位置和/或绝对位置。在一些示例中，位置可被定义为相对于坐标原点的球面坐标(例如，方位角、仰角和/或距离)。在另一示例中，位置可被定义为X、Y、Z坐标。可以各种方式表达并且可根据需要表达与音频声道304相关联的位置。

在一些示例中，具有基于对象的音频格式的一个或多个音频声道304中的各个和每个音频声道可被映射到多个虚拟扬声器。音频声道304中的声音可通过内插而分布到多个虚拟扬声器中的一个或多个虚拟扬声器。

例如，音频声道304可基于其相关联的位置被放置在球体上。音频声道304可通过内插被映射到虚拟扬声器306、308和310。在一些示例中，系统可使用虚拟扬声器306、308和310的放置作为球体上的点，这些点在球体上形成多边形(例如，三角形T1)。响应于音频声道304被放置在球体上多边形边界内，音频声道304可分布到那些虚拟扬声器306、308和310，而不是其他虚拟扬声器。该分布可以是基于距离的。例如，基于更靠近虚拟扬声器308，音频声道304可能对虚拟扬声器308的贡献大于对虚拟扬声器310或虚拟扬声器306的贡献。一个或多个音频声道304中的每个音频声道可取决于它们的相应位置而类似地映射到相同虚拟扬声器或不同虚拟扬声器。

在一些示例中，系统可使用矢量基幅度平移(VBAP)将一个或多个音频声道304映射到虚拟扬声器。系统可在球体的表面上定义多个控制点以在球体的表面上形成多边形(例如，三角形T1)。在一些方面，这些点中的一些点可对应于虚拟扬声器的放置。例如，三角形T1可通过连接其上放置了虚拟扬声器306、308和310中的每一者的三个点而形成。

响应于模式的改变或用户移动或视觉对象302的位置的尺寸的改变，系统可将点的位置扭曲到球体上的新位置，但仍具有保留多边形的布置的约束。例如，球体的表面可被扭曲以改变虚拟扬声器306、308和/或310的位置，从而形成具有与T1不同的形状的经改变的多边形T1'。新三角形T1'内部的每个点可几何地映射到T1中的点。因此，可通过移动虚拟扬声器306、308和/或310中的一个或多个虚拟扬声器来获得声道304在三角形T1'中的新位置。音频声道304可基于T1'中的已更新位置相应地分布到那些虚拟扬声器。

在一些方面，系统可管理球体上的一组控制点。例如，虚拟扬声器306、308和310中的每个虚拟扬声器可表示球体上的控制点，而不是虚拟扬声器。系统可将一个或多个音频声道304中的每个音频声道渲染为多个虚拟扬声器中的一个虚拟扬声器，而不是在虚拟扬声器之间分布声道。多个虚拟扬声器中的每个虚拟扬声器的虚拟放置可对应于与一个或多个音频声道中的每个音频声道相关联的位置。例如，环绕声格式中的扬声器位置或基于对象的音频格式中的声源可相对于视觉对象302被映射到球体上，其中球体上的位置匹配或最佳地复制该音频声道的位置。

一个或多个音频声道中的每个音频声道可在一对一的基础上对应于这些虚拟扬声器中的相应虚拟扬声器。例如，如果被表示为基于对象的音频的声音场景具有四个活动声源(例如，音频声道)，则系统可渲染具有匹配该声音场景中的那些声源的位置的虚拟放置的四个虚拟扬声器。类似地，如果基本音频格式包括7.1环绕声，则7.1的音频声道中的每个音频声道可被渲染为具有匹配如由7.1环绕声扬声器格式定义的预期或理想位置的虚拟放置的虚拟扬声器。中心声道可锚定到视觉对象302，如所描述的。

可使用矢量基幅度平移(VBAP)将一个或多个音频声道映射到多个虚拟扬声器中的每个虚拟扬声器的虚拟放置。系统可在控制点之间(例如，在虚拟扬声器306、308、310之间)进行内插以将一个或多个音频声道304中的每个音频声道放置在其相应虚拟放置处。系统可通过将这些控制点(作为虚拟扬声器306、308、310)中的一个或多个控制点从其位置T1移动到其位置T1'来调整虚拟扬声器的放置并且/或者将虚拟扬声器动画化以便移动音频声道304。

以此方式，系统可通过简单地扭曲球体的表面(例如，移动球体上的一个或多个预定义点)来共同获得一个或多个音频声道304和多个虚拟扬声器在球体上的已更新位置。作为副产物，系统可维持虚拟扬声器之间的完整性和位置关系以及一个或多个音频声道304在虚拟扬声器内的分布。

可将视觉对象呈现给固定或移动显示器，该固定或移动显示器锚定在物理环境中或锚定到XR环境中的虚拟位置。

如其他部分中所描述的，系统可产生包含多个虚拟扬声器406、408、410、412和414的双耳音频。这些多个虚拟扬声器可放置在球体418上。另外，这些虚拟扬声器可根据视觉对象402的尺寸放置(例如，间隔开)。一个或多个传感器可跟踪用户404的位置。这可包括从内向外跟踪(例如，通过头戴设备上的传感器)或从外向内跟踪(例如，通过放置在用户的物理环境中的传感器)或它们的组合。系统可将一个或多个头部跟踪算法应用于传感器数据(例如，来自IMU和/或相机图像)以跟踪用户头部的位置。用户头部可物理地和/或相对于视觉对象402移动。

响应于用户404(例如，用户头部)的移动或视觉对象402的位置的改变或两者，虚拟扬声器在球体418上的放置可维持它们相对于彼此的位置并且通过渲染虚拟扬声器以维持其相对于视觉对象402的虚拟放置来补偿用户移动。可通过旋转扬声器来维持虚拟扬声器相对于视觉对象的空间关系。例如，中心虚拟扬声器406的放置可维持为相对于用户404的位置在视觉对象402上方或取向于该视觉对象处。在一些示例中，在更新其相对于用户的位置的情况下，可旋转球体418以补偿用户相对于视觉对象402的位置，从而同时维持虚拟扬声器406、408、410、412和414的相应位置。可旋转球体上的虚拟扬声器，使得中心虚拟扬声器406的虚拟放置维持在用户404与视觉对象402之间。

在没有补偿的情况下，虚拟扬声器406、408、410、412和414将看起来相对于用户头部位置保持锚定，这可能在用户移动时或在视觉对象402的位置相对于用户改变时提供不现实的或令人迷惑的体验。

图5示出了根据一些方面的利用虚拟扬声器来提供沉浸式音频和视觉体验的示例性方法500。该方法可以用所描述的各个方面执行。该方法可由捕获设备、音频处理设备或它们组合的处理逻辑执行。处理逻辑可包括硬件(例如，电路、专用逻辑、可编程逻辑、处理器、处理设备、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如，在处理设备上运行/执行的指令)、固件(例如，微码)或它们的组合。

尽管在方法中描述了特定功能框(“框”)，但是此类框是示例。也就是说，各方面非常适合于执行方法中所述的各种其它框或所述框的变化。应当理解，方法中的框可以以不同于呈现的顺序执行，并且并非方法中的所有框都可以执行。

在框502处，处理逻辑可获得视觉对象(例如，要呈现给显示器)的尺寸。在一些示例中，处理逻辑还可负责以期望的位置和尺寸渲染视觉对象，并且因此可访问其渲染视觉对象的尺寸。在其他示例中，处理逻辑可获得视觉对象的尺寸或其他信息，其可以是可电子访问的(例如，存储在计算机可读存储器中)。视觉对象可包括应用程序的视觉表示(例如，电影播放器、音乐播放器、浏览器、视频游戏等的窗口)。在一些方面，处理逻辑可获得视觉对象的状态(其可包括视觉对象是否与“小”、“中”或“大”声场相关联)或关于将如何呈现视觉对象的其他信息。

在框504处，处理逻辑可至少基于视觉对象的尺寸确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置。例如，处理逻辑可针对第一虚拟扬声器确定在位置“A”处的第一虚拟放置。处理逻辑可针对第二虚拟扬声器确定在位置“B”处的第二虚拟放置。这些虚拟放置中的每个虚拟放置可具有各种位置。可根据操作模式共同地布置这些虚拟放置。例如，如果尺寸落在第一范围内，则可根据第一模式放置多个虚拟扬声器。如果尺寸落在第二范围内，则可根据第二模式放置多个虚拟扬声器等。在一些方面，基于视觉对象的状态，处理逻辑可确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置。例如，可为每个声场分配预定义的放置。

在框506处，处理逻辑可通过双耳音频在相应虚拟放置处空间地渲染多个虚拟扬声器中的每个虚拟扬声器，以用于通过头戴式扬声器回放。例如，处理逻辑可在虚拟放置(例如，位置“A”)处渲染第一虚拟扬声器，并且在第二虚拟放置(例如，位置“B”)处渲染第二虚拟扬声器等。空间渲染可赋予空间提示，这些空间提示在被收听者听到时给出多个虚拟扬声器中的每个虚拟扬声器的空间质量。虚拟扬声器的数量以及虚拟扬声器的放置可变化。可鉴于视觉对象的位置和/或用户的位置在其期望的虚拟放置处渲染多个虚拟扬声器，如所描述的。

图6示出了根据一些方面的音频处理系统600的示例。在一些示例中，音频处理系统600可对应于音频处理设备、显示器和/或回放设备，如本文所描述的。该音频处理系统可以是计算设备，诸如台式计算机、平板计算机、智能电话、膝上型计算机、智能扬声器、媒体播放器、家用电器、耳机组、头戴式显示器(HMD)、智能眼镜、用于汽车或其他车辆的信息娱乐系统，或其他计算设备。音频处理系统600可被配置为执行本公开中所描述的方法和过程。

尽管示出了可被结合到耳机、扬声器系统、麦克风阵列和娱乐系统中的音频处理系统的各种部件，但该例证仅是可存在于音频处理系统中的部件的类型的特定具体实施的一个示例。该示例并不旨在表示使这些部件互连的任何特定架构或方式，因为此类细节与本文所述的各方面并无密切关系。还应当理解，还可使用具有比所示的更少或更多的部件的其他类型的音频处理系统。因此，本文所述的过程不限于与所示硬件和软件一起使用。

音频处理系统可包括用于将系统的各种部件互连的一条或多条总线616。如本领域已知地，一个或多个处理器602耦接到总线。一个或多个处理器可以是微处理器或专用处理器、片上系统(SOC)、中央处理单元、图形处理单元、通过专用集成电路(ASIC)创建的处理器或它们的组合。存储器608可包括使用本领域已知的技术耦接到总线的只读存储器(ROM)、易失性存储器和非易失性存储器或它们的组合。传感器614可包括IMU和/或一个或多个相机(例如，RGB相机、RGBD相机、深度相机等)或本文所描述的其他传感器。音频处理系统还可包括显示器612(例如，HMD或触摸屏显示器)。

存储器608可连接到总线并且可包括DRAM、硬盘驱动器或闪存存储器，或磁性光驱或磁性存储器，或光驱或者是甚至在系统断电之后仍维护数据的其他类型的存储器系统。在一个方面，处理器602检索存储在机器可读存储介质(存储器)中的计算机程序指令并执行这些指令以执行本文所描述的操作。

尽管未示出，但是音频硬件可耦接到一条或多条总线，以便接收待由扬声器606处理并输出的音频信号。音频硬件可包括数模转换器和/或模数转换器。音频硬件还可包括音频放大器和滤波器。音频硬件还可与麦克风604(例如，麦克风阵列)连接以接收音频信号(无论是模拟的还是数字的)，在适当时将其数字化，并且将这些信号传送到总线。

通信模块610可通过有线或无线接口与远程设备和网络通信。例如，通信模块可通过已知的技术诸如TCP/IP、以太网、Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术进行通信。通信模块可包括可与联网设备诸如服务器(例如，云端)和/或其他设备诸如远程扬声器和远程麦克风通信(例如，接收和发送数据)的有线或无线发射器和接收器。

应当理解，本文所公开的方面可利用远离系统的存储器，诸如通过网络接口诸如调制解调器或以太网接口耦接到音频处理系统的网络存储设备。如本领域所熟知的，总线可通过各种网桥、控制器和/或适配器彼此连接。在一个方面，一个或多个网络设备可以耦接到总线。网络设备可以是有线网络设备(例如，以太网)或无线网络设备(例如，Wi-Fi、蓝牙)。在一些方面，所述的各个方面(例如，模拟、分析、估计、建模、对象检测等)可由与捕获设备通信的联网服务器执行。

本文所述的各个方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(例如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中实施这些技术。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路和软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“逻辑”、“处理器”、“管理器”、“系统”、“渲染器”、“系统”、“设备”、“映射器”、“框”可表示被配置为执行一个或多个过程或功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。因此，如本领域的技术人员所理解的，可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域的技术人员所用的方法，而这些方法也能最有效地将这些技术人员的工作实质传达给该领域的其他技术人员。算法在此是指并且被设想为是指导致期望结果的操作的自相一致的序列。这些操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理框进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可以在任何组合硬件设备和软件部件中实现。

在一些方面，本公开可包括语言例如“[元素A]和[元素B]中的至少一者”。该语言可以是指这些元素中的一者或多者。例如，“A和B中的至少一者”可以是指“A”、“B”、或“A和B”。具体地讲，“A和B中的至少一者”可以是指“A中至少一者和B中至少一者”或者“至少A或B任一者”。在一些方面，本公开可包括语言例如“[元素A]、[元素B]、和/或[元素C]”。该语言可以是指这些元素中任一者或其任何组合。例如，“A、B和/或C”可以是指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。

虽然已描述并且在附图中示出了某些方面，但应当理解，此类方面仅是举例说明而不是限制性的，并且本公开并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其他修改。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

众所周知，使用个人可识别信息应遵循被认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以便使无意或未经授权的访问或使用的风险最小化，并且应向用户明确说明授权使用的性质。

现在可根据以上描述和附图做出以下说明。

19.其中存储有指令的非暂态机器可读介质，所述指令当由处理设备执行时，使得所述处理设备：

获得要呈现给显示器的视觉对象的状态；

至少基于所述视觉对象的所述状态确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置；并且

通过包括左音频声道和右音频声道的双耳音频在每个虚拟放置处空间地渲染所述多个虚拟扬声器中的每个虚拟扬声器，以用于通过多个扬声器回放。

20.根据说明19所述的非暂态机器可读介质，还包括：响应于所述视觉对象的尺寸变得更小而将所述多个虚拟扬声器移动得更靠近在一起；以及响应于所述视觉对象的所述尺寸变得更大而将所述多个虚拟扬声器移动分开。

21.根据说明19-20中任一项所述的非暂态机器可读介质，其中，在第一模式下，所述多个虚拟扬声器的虚拟中心声道相对于所述视觉对象的位置取向。

22.根据说明19-20中任一项所述的非暂态机器可读介质，其中，在第一模式下，所述多个虚拟扬声器的虚拟放置被约束于围绕用户位置的球体。

23.根据说明22所述的非暂态机器可读介质，其中，在所述第一模式下，响应于用户头部的移动，使所述多个虚拟扬声器在所述球体上旋转以维持相对于所述视觉对象的空间关系。

24.根据说明19-23中任一项所述的非暂态机器可读介质，其中至少基于所述视觉对象的所述状态确定多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置包括：

根据所述视觉对象的所述状态满足第一标准的确定，在一种或多种第一模式下进行操作，其中所述多个虚拟扬声器分布在围绕收听位置的球体上，具有所述多个虚拟扬声器之间的对应于所述视觉对象的第一尺寸的第一间距，并且其中所述多个虚拟扬声器分布在所述球体上，具有所述多个虚拟扬声器之间的对应于所述视觉对象的较小第二尺寸的第二间距，其中所述第二间距小于所述第一间距。

25.根据说明24所述的非暂态机器可读介质，其中所述一种或多种第一模式中的每一者定义所述多个虚拟扬声器的唯一放置。

26.根据说明24所述的非暂态机器可读介质，其中至少基于所述视觉对象的所述状态确定多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置包括：

根据所述视觉对象的所述状态满足第二标准的确定，在第二模式下进行操作，在所述第二模式下，所述多个虚拟扬声器中的每个虚拟扬声器被放置在所述视觉对象处。

27.根据说明26所述的非暂态机器可读介质，其中在所述第二模式下，所述多个虚拟扬声器的所述虚拟放置不被约束于围绕收听位置的球体，并且在第一模式下，所述多个虚拟扬声器的所述虚拟放置被约束于所述球体。

28.根据说明26-27中任一项所述的非暂态机器可读介质，其中所述第二标准包括小于阈值的所述视觉对象的尺寸。

29.根据说明26-28中任一项所述的非暂态机器可读介质，其中响应于移动所述视觉对象的请求满足所述第二标准。

30.根据说明26所述的非暂态机器可读介质，其中所述视觉对象的所述状态满足所述第一标准，并且所述指令使得所述处理设备：

获得所述视觉对象的已更新尺寸；并且

根据所述视觉对象的所述已更新尺寸满足第二标准的确定，通过将所述多个虚拟扬声器从其在所述球体上的相应虚拟放置到所述视觉对象的移动动画化来转变到第二模式。

31.根据说明19所述的非暂态机器可读介质，其中所述指令使得所述处理设备：

获得所述视觉对象的已更新尺寸；并且

根据所述视觉对象的所述已更新尺寸满足第一标准的确定，通过将所述多个虚拟扬声器从所述视觉对象到分布在球体上的相应虚拟放置的移动动画化来转变到一种或多种第一模式。

32.根据说明31所述的非暂态机器可读介质，其中转变到所述一种或多种第一模式包括保留所述多个虚拟扬声器的总声能。

33.根据说明32所述的非暂态机器可读介质，其中所述指令使得所述处理设备：获得具有基本音频格式的一个或多个音频声道；并且

将所述一个或多个音频声道中的每个音频声道渲染为所述多个虚拟扬声器中的对应的一个虚拟扬声器，其中所述多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置基于与所述一个或多个音频声道中的每个音频声道相关联的位置确定。

34.根据说明33所述的非暂态机器可读介质，其中使用矢量基幅度平移(VBAP)将所述一个或多个音频声道映射到所述多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置。

35.根据说明33所述的非暂态机器可读介质，其中所述基础音频格式包括以下中的至少一者：多声道扬声器布局、单声道音频声道、立体声、球谐函数或基于对象的音频。

36.根据说明33所述的非暂态机器可读介质，其中所述指令使得所述处理设备在控制点之间进行内插以将所述一个或多个音频声道中的每个音频声道放置在虚拟放置处作为所述多个虚拟扬声器。

37.一种音频系统，包括多个扬声器、显示器和处理器，所述处理器被配置为：

获得要呈现给所述显示器的应用程序的视觉表示的尺寸；

至少基于所述应用程序的所述视觉表示的所述尺寸确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置；以及

通过包括左音频声道和右音频声道的双耳音频在每个虚拟放置处空间地渲染所述多个虚拟扬声器中的每个虚拟扬声器，以用于通过所述多个扬声器回放。

38.根据说明37所述的音频系统，还包括：响应于所述视觉对象的所述尺寸变得更小而将所述多个虚拟扬声器移动得更靠近在一起；

以及响应于所述视觉对象的所述尺寸变得更大而将所述多个虚拟扬声器移动分开。

39.根据说明37-38中任一项所述的音频系统，其中，在第一模式下，所述多个虚拟扬声器的虚拟中心声道相对于所述视觉对象的位置取向。

40.根据说明37-39中任一项所述的音频系统，其中，在第一模式下，所述多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置被约束于围绕用户位置的球体。

41.根据说明38-40中任一项所述的音频系统，其中，在所述第一模式下，响应于用户头部的移动，使所述多个虚拟扬声器在所述球体上旋转以维持相对于所述视觉对象的空间关系。

42.根据说明37-41中任一项所述的音频系统，其中至少基于所述视觉对象的所述尺寸确定多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置包括：

根据所述视觉对象的所述尺寸满足第一标准的确定，在一种或多种第一模式下进行操作，其中所述多个虚拟扬声器分布在围绕收听位置的球体上，具有所述多个虚拟扬声器之间的对应于所述视觉对象的第一尺寸的第一间距，并且其中所述多个虚拟扬声器分布在所述球体上，具有所述多个虚拟扬声器之间的对应于所述视觉对象的较小第二尺寸的第二间距，其中所述第二间距小于所述第一间距。

43.根据说明42所述的音频系统，其中所述一种或多种第一模式中的每一者定义所述多个虚拟扬声器的唯一放置。

44.根据说明38-43中任一项所述的音频系统，其中至少基于所述视觉对象的所述尺寸确定多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置包括：

根据所述视觉对象的所述尺寸满足第二标准的确定，在第二模式下进行操作，在所述第二模式下，所述多个虚拟扬声器中的每个虚拟扬声器被放置在所述视觉对象处。

45.根据说明44所述的音频系统，其中在所述第二模式下，所述多个虚拟扬声器的所述虚拟放置不被约束于围绕收听位置的球体，并且在第一模式下，所述多个虚拟扬声器的所述虚拟放置被约束于所述球体。

46.根据说明44-45中任一项所述的音频系统，其中所述第二标准包括小于阈值的所述视觉对象的所述尺寸。

47.根据说明44-46中任一项所述的音频系统，其中响应于移动所述视觉对象的请求满足所述第二标准。

48.根据说明44-47中任一项所述的音频系统，其中所述视觉对象的所述尺寸满足所述第一标准，并且其中所述方法还包括：

获得所述视觉对象的已更新尺寸；以及

根据所述视觉对象的所述已更新尺寸满足所述第二标准的确定，通过将所述多个虚拟扬声器从其在所述球体上的相应虚拟放置到所述视觉对象的移动动画化来转变到第二模式。

49.根据说明44-47中任一项所述的音频系统，其中所述视觉对象的所述尺寸满足所述第二标准，并且其中所述方法还包括：

获得所述视觉对象的已更新尺寸；以及

根据所述视觉对象的所述已更新尺寸满足所述第一标准的确定，通过将所述多个虚拟扬声器从所述视觉对象到分布在所述球体上的相应虚拟放置的移动动画化来转变到所述一种或多种第一模式。

50.根据说明48-49中任一项所述的音频系统，其中转变到所述第二模式或转变到所述一种或多种第一模式包括保留所述多个虚拟扬声器的总声能。

51.根据说明37-50中任一项所述的音频系统，还包括：获得具有基本音频格式的一个或多个音频声道；并且将所述一个或多个音频声道中的每个音频声道渲染为所述多个虚拟扬声器中的对应的一个虚拟扬声器，其中所述多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置基于与所述一个或多个音频声道中的每个音频声道相关联的位置确定。

52.根据说明37-51中任一项所述的音频系统，其中使用矢量基幅度平移(VBAP)将所述一个或多个音频声道映射到所述多个虚拟扬声器中的每个虚拟扬声器的所述虚拟放置。

53.根据说明37-52中任一项所述的音频系统，其中所述基础音频格式包括以下中的至少一者：多声道扬声器布局、单声道音频声道、立体声、球谐函数或基于对象的音频。

54.根据说明37-53中任一项所述的音频系统，还包括在控制点之间进行内插以将所述一个或多个音频声道中的每个音频声道放置在虚拟放置处作为所述多个虚拟扬声器。

55.一种用于连同视觉对象的音频一起呈现所述视觉对象的方法，所述方法包括：

根据第一视觉特性在显示器上呈现视觉对象，同时根据第一音频特性呈现所述视觉对象的音频；

接收选择所述视觉对象的用户输入，并且作为响应，在维持所述用户输入的情况下，将所述音频的呈现改变为根据第二音频特性并且将所述视觉对象的呈现改变为根据第二视觉特性；以及响应于所述用户输入不再被维持，将所述音频的呈现改变为根据所述第一音频特性，并且将所述视觉对象的呈现改变为根据所述第一视觉特性。

56.根据说明55所述的方法，其中所述第一音频特性包括其间具有第一间距的多个虚拟扬声器，并且所述第二音频特性包括其间具有第二间距的多个虚拟扬声器，其中所述第二间距小于所述第一间距。

57.根据说明55所述的方法，其中所述用户输入是移动所述视觉对象。

58.根据说明57所述的方法，其中所述第一视觉特性包括第一尺寸，并且所述第二视觉特性包括小于所述第一尺寸的第二尺寸。

59.根据说明55所述的方法，其中呈现所述视觉对象的音频包括使用多个虚拟扬声器来呈现所述视觉对象的空间音频，

当根据所述第一视觉特性呈现所述视觉对象时，根据所述多个虚拟扬声器围绕收听位置分布的所述第一音频特性呈现所述空间音频，以及

当根据所述第二视觉特性呈现所述视觉对象时，根据所述多个虚拟扬声器位于所述视觉对象处的第二音频特性呈现所述空间音频。

60.根据说明59所述的方法，其中所述用户输入是将所述视觉对象移动到新位置。

61.根据说明60所述的方法，其中将所述音频的呈现改变为根据所述第一音频特性包括

根据相对于所述视觉对象的所述新位置围绕所述收听位置分布的所述多个虚拟扬声器呈现所述空间音频。

62.根据说明59所述的方法，其中所述多个虚拟扬声器分布在围绕所述收听位置的球体上，i)在所述第一音频特性中所述多个虚拟扬声器之间具有第一间距，并且ii)在所述第二音频特性中所述多个虚拟扬声器之间具有第二间距，所述第二间距小于所述第一间距。

63.其中存储有指令的非暂态机器可读介质，所述指令当由处理设备执行时，使得所述处理设备执行根据说明55-62中任一项所述的方法。

64.一种音频系统，包括多个扬声器、显示器和处理器，所述处理器被配置为执行根据说明55-62中任一项所述的用于通过所述多个扬声器和所述显示器连同视觉对象的音频一起呈现所述视觉对象的方法。

Claims

1.一种计算机实现的方法，包括：

获得视觉对象的尺寸；

至少基于所述视觉对象的所述尺寸确定多个虚拟扬声器中的每个虚拟扬声器的相应虚拟放置，其中所述多个虚拟扬声器分布在围绕收听位置的球体上，

根据所述视觉对象的所述尺寸满足第一标准的确定，在多种第一模式中的一种第一模式下进行操作，其中所述多个虚拟扬声器分布在所述球体上，具有其间的对应于所述视觉对象的第一尺寸的第一间距，以及

根据所述视觉对象的所述尺寸满足第二标准的确定，在所述多种第一模式中的另一第一模式下进行操作，其中所述多个虚拟扬声器分布在所述球体上，具有其间的对应于小于所述视觉对象的所述第一尺寸的所述视觉对象的第二尺寸的第二间距，所述第二间距小于所述第一间距；以及

通过包括左音频声道和右音频声道的双耳音频在所述相应虚拟放置处空间地渲染所述多个虚拟扬声器中的每个虚拟扬声器，以用于通过头戴式扬声器回放。

2.根据权利要求1所述的方法，还包括：响应于所述视觉对象的所述尺寸变得更小而将所述多个虚拟扬声器移动得更靠近在一起；以及

响应于所述视觉对象的所述尺寸变得更大而将所述多个虚拟扬声器移动分开。

3.根据权利要求1所述的方法，其中，在所述多种第一模式中的一种第一模式下，所述多个虚拟扬声器的虚拟中心声道相对于所述视觉对象的位置取向。

4.根据权利要求1所述的方法，其中所述多个虚拟扬声器中的每个虚拟扬声器的所述相应虚拟放置被约束于围绕用户位置的球体。

5.根据权利要求4所述的方法，其中，在所述多种第一模式中的一种或多种模式下，响应于用户头部的移动，使所述多个虚拟扬声器在所述球体上旋转以维持相对于所述视觉对象的空间关系。

6.根据权利要求1所述的方法，还包括：

获得所述视觉对象的已更新尺寸；以及

7.根据权利要求6所述的方法，其中所述多种第一模式中的每一者定义所述多个虚拟扬声器的唯一放置。

8.根据权利要求6所述的方法，其中至少基于所述视觉对象的所述尺寸确定多个虚拟扬声器中的每个虚拟扬声器的所述相应虚拟放置包括：

根据所述视觉对象的所述已更新尺寸满足所述第二标准的所述确定，在所述第二模式下进行操作，在所述第二模式下，所述多个虚拟扬声器中的每个虚拟扬声器被放置在所述视觉对象处。

9.根据权利要求8所述的方法，其中在所述第二模式下，所述多个虚拟扬声器的所述虚拟放置不被约束于围绕收听位置的球体，并且在所述多种第一模式下，所述多个虚拟扬声器的所述虚拟放置被约束于所述球体。

10.根据权利要求8所述的方法，其中所述第二标准包括小于阈值的所述视觉对象的所述尺寸。

11.根据权利要求8所述的方法，其中响应于移动所述视觉对象的请求满足所述第二标准。

12.根据权利要求8所述的方法，其中所述视觉对象的所述尺寸满足所述第一标准，并且其中所述方法还包括：

获得所述视觉对象的已更新尺寸；以及

13.根据权利要求8所述的方法，其中所述视觉对象的所述已更新尺寸满足所述第二标准，所述方法还包括：

获得所述视觉对象的另一更新尺寸；以及

根据所述视觉对象的所述另一已更新尺寸满足所述第一标准的确定，通过将所述多个虚拟扬声器从所述视觉对象到分布在所述球体上的相应虚拟放置的移动动画化来转变到所述多种第一模式中的另一种第一模式。

14.根据权利要求13所述的方法，其中转变到所述第二模式或转变到所述多种第一模式中的一种或多种第一模式包括保留所述多个虚拟扬声器的总声能。

15.根据权利要求1所述的方法，还包括：获得具有基本音频格式的一个或多个音频声道；并且将所述一个或多个音频声道中的每个音频声道渲染为所述多个虚拟扬声器中的对应的一个虚拟扬声器，其中所述多个虚拟扬声器中的每个虚拟扬声器的所述相应虚拟放置基于与所述一个或多个音频声道中的每个音频声道相关联的位置确定。

16.根据权利要求15所述的方法，其中使用矢量基幅度平移(VBAP)将所述一个或多个音频声道映射到所述多个虚拟扬声器中的每个虚拟扬声器的所述相应虚拟放置。

17.根据权利要求15所述的方法，还包括在控制点之间进行内插以将所述一个或多个音频声道中的每个音频声道放置在虚拟放置处作为所述多个虚拟扬声器。

18.根据权利要求15所述的方法，其中所述基础音频格式包括以下中的至少一者：多声道扬声器布局、单声道音频声道、立体声、球谐函数或基于对象的音频。

19.一种其中存储有指令的非暂态机器可读介质，所述指令当由处理设备执行时，使得所述处理设备：

获得要呈现给显示器的视觉对象的状态；

至少基于所述视觉对象的所述状态确定多个虚拟扬声器中的每个虚拟扬声器的虚拟放置，其中所述多个虚拟扬声器分布在围绕收听位置的球体上，

根据所述视觉对象的所述状态满足第一标准的确定，在多种第一模式中的一种第一模式下进行操作，其中所述多个虚拟扬声器分布在所述球体上，具有其间的对应于所述视觉对象的第一尺寸的第一间距，并且

根据所述视觉对象的所述状态满足第二标准的确定，在所述多种第一模式中的另一第一模式下进行操作，其中所述多个虚拟扬声器分布在所述球体上，具有其间的对应于小于所述第一尺寸的所述视觉对象的第二尺寸的第二间距；并且

20.根据权利要求19所述的非暂态机器可读介质，其中存储有进一步的指令，所述进一步的指令使得所述处理设备：响应于所述视觉对象的尺寸变得更小而将所述多个虚拟扬声器移动得更靠近在一起；以及响应于所述视觉对象的所述尺寸变得更大而将所述多个虚拟扬声器移动分开。