CN111052770B

CN111052770B - 空间音频下混频的方法及系统

Info

Publication number: CN111052770B
Application number: CN201880057194.5A
Authority: CN
Inventors: C·T·尤班克; M·S·康诺利; S·E·平托
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-09-29
Filing date: 2018-09-26
Publication date: 2021-12-03
Anticipated expiration: 2038-09-26
Also published as: CN111052770A; US11540081B2; US11832086B2; US20220038841A1; US20230144903A1; US11128977B2; US20200221248A1; WO2019067620A1

Abstract

空间音频对象中的音频数据信道与一个或多个所记录声音的方向和位置中的一者或多者相关联，这些信道将被再现为空间声音。可视化空间声音对象表示空间声音的快照/缩略图。为了(通过体验快照或缩略图)预览空间声音，用户操纵可视化空间声音对象的取向，并且渲染这些信道的加权下混频，以供作为空间预览声音输出，例如，将单个输出音频信号提供给空间音频渲染器；在预览声音中，被取向为朝向用户的一个或多个信道受到的突显超过被取向为背离用户的信道受到的突显。也描述了其他方面并要求对其他方面进行保护。

Description

空间音频下混频的方法及系统

本非临时专利申请要求2017年9月29日提交的美国临时专利申请62/566,228的较早提交日期的权益。

技术领域

该技术领域整体涉及用于音频处理的计算机化数据处理系统和方法，并且具体地，涉及空间音频处理。

背景技术

在增强现实(AR)、虚拟现实(VR)和混合现实(MR)应用(由本文所使用的术语“模拟现实”或SR所涵盖)中产生三维(3D)声音效果通常被用来增强媒体内容。被设计为产生3D声音的空间音频格式的示例包括MPEG-H(运动图像专家组)3D音频标准、HOA(高阶高保真度立体声响复制)空间音频技术和DOLBY ATMOS环绕声技术。

例如，声音设计者通过操纵空间音频对象中包含的声音来增添3D声音效果，从而增强SR应用中的场景，其中声音是能够受到虚拟定位以供空间音频系统在SR应用程序创建的虚拟3D空间的任何位置回放的环境声音和/或离散声音。

发明内容

本文所述的空间音频下混频的实施方案使增强现实/虚拟现实/混合现实(SR)应用程序开发者以及由SR应用程序创建的SR体验中的收听者能够通过音频数据预览声音，其中该音频数据中对声音进行了编码并且该音频数据能够被创作到SR应用程序中。在一个实施方案中，其中记录或编码了声音的音频数据被存储为保留一个或多个所记录声音的空间特征的空间音频对象。在一个实施方案中，空间音频对象包含表示一个或多个所记录声音的多个音频数据信道，每个信道与所记录声音的来源的方向和位置(距离)中的任何一者或多者相关联。需注意，可存在与给定方向或位置相关联的两个或更多个此类信道，例如多信道麦克风拾音器。在其他实施方案中，空间音频对象包含声场的高保真度立体声响复制格式(球谐格式)表示的多个信道，其中，在该情况下，每个信道与相应的空间分布相关联，例如，B格式WXYZ信道。为了随后启用听觉预览，对音频信道进行空间音频下混频操作。

在一个实施方案中，空间音频下混频包括生成可视化空间声音对象(或者更一般地，呈现空间音频对象的可视化)以表示或使得用户能够体验多个音频数据信道的听觉快照，以及在用户界面(例如，图形用户界面)中呈现该可视化空间声音对象。例如，可视化空间声音对象可以是虚拟球体(例如，拓扑球体、立方体、气泡、多面体)或者其他二维或三维虚拟对象，其能够表示从空间内的共享位置沿多个方向发出的多个声音信道。更一般地，这些信道中的每者可基于该信道的相应方向或位置与该视觉表示的一部分相关联。

在一个实施方案中，图形用户界面被配置为使其用户能够操纵可视化空间声音对象和收听位置之间的相对取向(例如，在转动可视化空间声音对象时保持收听位置固定，或者在不转动声音对象的情况下移动收听位置)。预览过程包括基于可视化空间声音对象相对于收听位置(例如，用户所在位置)的取向对多个音频数据信道中的每个信道进行加权。在一个实例中，预览过程是将加权信道中的每者取向为与相应加权信道的初始取向相对的方向，并且对重新取向的加权信道进行下混频。在视觉上朝向预先确定的对象(诸如表示用户位置的预先确定的对象)取向(例如，面向用户的观察位置或者观察取向)的信道可比背离预先确定的对象取向(例如，背离用户或观察位置)的信道受到更高的加权。加权信道被下混频成一个或多个虚拟扬声器驱动信号，并且这些信号将被空间音频处理器转换以驱动两个或更多个真实扬声器(例如，左右耳机对)，其中该真实扬声器呈现下混频加权信道的声音，作为空间音频对象的听觉预览。通过这种方式，可视化空间声音对象充当空间音频对象中的所记录声音的快照或缩略图的容器。

可通过对可视化空间声音对象进行取向直至该对象的图形部分(表示所关注的特定声音)直接面向用户或者在用户的方向上，来按照一次一个的方式浏览或预览所记录的声音。在一些情况下，响应于可视化空间声音对象被取向为使得两个或更多个部分(对应于该两个或更多个声音)的部分直接面向用户，可同时预览两个或更多个声音作为混合或混频。该对象可包含真实世界环境的不同环境声音，例如，一个或多个信道可以是在特定海滩上记录的声音(例如，单麦克风信道记录、多信道记录)，另一信道可以是在高山森林中记录的声音，而另一信道可以是在城市中记录的声音。该对象还可包含作为虚拟3D环境的合成声音的信道。

预览过程继续进行，其中对象的音频信道被根据面向用户的图形部分进行加权，然后相应地被下混频成驱动一个或多个声音输出换能器(例如，听筒扬声器、外放扬声器)的一个或多个音频信号，用户通过该换能器听到预览声音(而不是也包含在该对象中的任何其他声音)。

在一个实施方案中，生成可视化空间声音对象以表示多个音频数据信道的快照包括将多个音频数据信道中的每个信道分配到空间内的共享位置，并且将每个所分配的信道取向为从共享位置朝外发射(虚拟声音)。例如，每个所分配的信道被取向为使用所分配的信道从共享位置朝外发射虚拟声音(该发射所遵循的方向与所分配的信道中占主导的所记录声音所源自的方向相反)，从而形成音频数据的虚拟球体。针对每个经取向的信道向可视化空间声音对象添加相应图像，其中，相应图像是经取向的信道中占主导的所记录声音的来源的图像。这导致形成记录在音频数据中的声音的虚拟球体(或其他多维虚拟表示)，其中，每个所分配的信道被取向为沿所分配的信道中占主导的所记录声音所源自的方向相反的方向进行发射。

在一个实施方案中，生成可视化空间声音对象包括针对可视化空间声音对象的经取向的信道中的每者向可视化空间声音对象添加图像。该图像可以是静止图像，或者它可以是视频序列的部分，并且可以针对经取向的信道中的每者被添加至可视化声音对象。该图像可以是经取向的信道中占主导的所记录声音的来源的图像，或者是与所记录声音相关联的场景的来源的图像，诸如代表森林声音的树、代表城市声音的汽车、代表海滩声音的海浪、瀑布水流冲落的视频、海浪拍打海滩的视频、树木在风中摇动的视频等等。添加图像使得该图像被显示在可视化空间声音对象的表面的一部分上，该部分对应于与该部分相关联的经取向的信道的朝外方向。这些图像可覆盖虚拟球体的表面，就像可从太空看到的地球上的大陆一样；它们充当预览声音的视觉辅助。然而，在一些实施方案中，可以在没有图像作为视觉辅助的情况下对声音进行预览。

在一个实施方案中，呈现可视化空间声音对象是在用户界面中执行的，该用户界面被配置为使得用户能够操纵(例如，在触摸屏上使用手指，通过鼠标输入在屏幕上移动光标或者通过讲出语音命令)可视化空间声音对象的取向。可视化空间声音对象的图像可以(例如)在2D或3D显示模式下被显示到平面显示屏上。用户界面可被配置为使所显示的可视化空间声音对象根据所接收的用户输入并且实时地围绕不同的轴旋转，或者更一般地，相对于用户对可视化空间声音对象进行取向，使得可视化空间声音对象的不同部分对用户可见。在一个实施方案中，可视化空间声音对象的对用户可见的部分包括被添加到该对象并与经取向的信道中的一者或多者相关联的图像。因此，可以一次使一个部分面向或指向用户，使得当该对象的取向改变时，按照一次一个的方式预览该对象中包含的声音。

在一个实施方案中，基于可视化空间声音对象的取向对多个音频数据信道中的每个信道进行加权被连续地执行(重复地，并且基于当前取向进行实时更新)。这可基于可视化空间声音对象的哪些部分(因而哪些与该部分相关联的信道)被取向为朝向用户以及哪些部分被取向为背离用户。因此，这些声音可共享公共位置，这些声音的虚拟来源将分别从该公共位置向外发出声音。可通过将可视化空间声音对象取向为朝向感兴趣的声音来浏览并预览声音的快照或缩略图，感兴趣的声音是诸如真实世界环境的环境声音中的特定声音(如海滩声音、高山森林声音或城市声音)，或者虚拟3D环境的合成声音中的特定声音。

在一个实施方案中，在SR环境中预览声音取决于如何在空间音频/空间声音回放系统中模拟由该空间音频对象表示的声音，该回放系统包括使用双耳渲染(例如，通过希望通过耳机预览声音的用户佩戴的耳机)的单收听者回放系统、扬声器或者耳机和扬声器的组合。空间音频下混频还可支持各种各样的声音来源和音频编码(用于再现声音，从而在声音回放系统中模拟空间音频)。

空间音频对象包含对声音进行编码的音频数据，音频数据包括以下各项中的任何一者或多者：i)对个体声音的单耳记录，ii)对声音环境的多信道记录，包括使用麦克风阵列生成的记录、多个声音来源的所记录混频(包括使用一个或多个麦克风记录的多个离散声音的混频)或者保留所记录声音的空间特征的记录中的任一者，以及iii)用于产生一个或多个声音的合成音频数据，或iv)采用高保真度立体声响复制格式的记录。

声音被编码(以供用户预览)的音频数据可基于与声音的捕获方式相关联的特征，该特征包括以下各项中的一者或多者：i)声音的位置，包括声音的离散位置或者使用前述高阶高保真度立体声响复制(HOA)格式编码的位置，ii)声音的每音频数据信道的至少一个方向性，该方向性表示用于输送该声音的方向性的宽度、形状或数学函数中的任一者，iii)声音的取向，其包括每音频数据信道的取向，iv)声音的初始声压水平(SPL)，包括捕获SPL时所处的距离，v)声音的大小或形状，其被表达为声音的体积大小或形状(例如，多边形网格)，以及vi)声音的回放速率，包括所有音频数据信道的全局回放速率。

在一个实施方案中，与声音在音频数据中如何被编码相关联的多个特征包括对用于捕获声音的任何一个或多个记录系统的描述，包括对用于记录声音的麦克风阵列的描述。

本文所述的方法可由具有声音输出能力的数据处理系统来执行，该声音输出能力就是所说的根据本文描述的空间音频下混频技术在SR环境中预览声音。数据处理系统可以是服务器计算机、台式计算机或其他数据处理系统，其中，一个或多个处理器(在本文中统称为“处理器”)执行存储在一个或多个非暂态机器可读介质中的使得该系统执行本文所述的一种或多种方法的计算机程序或指令。

以上概述不包括本公开的所有实施方案的详尽列表。所有系统和方法可根据以上概述的各个方面和实施方案以及以下具体实施方式中所公开的那些的所有合适的组合来实践。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1是示出了根据本文描述的一个或多个实施方案的SR环境中的空间声音使用的概览的框图。

图2、图3A、图3B和图3C是示出了根据本文描述的一个或多个实施方案的空间声音预览示例的框图。

图4是示出了根据本文描述的一个或多个实施方案的用于在SR环境中预览声音的空间声音下混频过程的框图。

具体实施方式

将参考以下论述的细节来描述各种实施方案或方面，并且附图将对各种实施方案进行例示。以下说明书和附图为例示性的，并且不应被理解为限制性的。描述了许多具体细节，以提供对各个实施方案的全面理解。然而，在某些实例中，熟知的或常规的细节并未被描述，以便提供对实施方案的简明论述。

在本说明书中提到的“一个实施方案”或“实施方案”是指结合该实施方案所述的特定特征、结构或特性可被包括在至少一个实施方案中。在本说明书中的各个位置出现短语“在一个实施方案中”不一定都是指同一个实施方案。在随后的附图中所描绘的过程由包括硬件(例如，电路、专用逻辑部件等等)、软件或这两者的组合的处理逻辑部件来执行。虽然下文按照某些顺序操作来描述该过程，但应当理解，所描述的某些操作可以不同的顺序执行。此外，某些操作也可并行执行而非按顺序执行。

物理环境

物理环境是指无需电子系统帮助个体就能够感觉和/或个体能够交互的世界。物理环境(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理环境相互作用和/或感觉物理环境，诸如通过触摸、视觉、嗅觉、听觉和味觉。

模拟现实

相比之下，模拟现实(SR)环境是指经由电子系统个体能够感觉和/或个体能够交互的完全或部分由计算机创建的环境。在SR中，监测个体移动的子集，并且响应于该子集，以符合一个或多个物理定律的方式更改SR环境中的一个或多个虚拟对象的一个或多个属性。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理环境中会如何改变的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR环境中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感觉SR对象。例如，个体可与创建多维(例如，三维)或空间听觉环境和/或实现听觉透明性的听觉对象进行交互和/或感知。多维或空间的听觉环境为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明选择性地结合来自物理环境的声音。在一些SR环境中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

虚拟现实

SR的一个示例是虚拟现实(VR)。VR环境是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟环境。VR环境包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的环境内模拟个体动作的子集和/或通过对个体或其在计算机创建的环境内的存在的模拟，来与VR环境中的虚拟对象进行交互和/或感知VR环境中的虚拟对象。

混合现实

SR的另一个示例是混合现实(MR)。MR环境是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理环境的感觉输入或其表示集成的模拟环境。在现实谱系上，混合现实环境介于一端的VR环境和另一端的完全物理环境之间并且不包括这些环境。

在一些MR环境中，计算机创建的感官输入可以适应于来自物理环境的感官输入的变化。另外，用于呈现MR环境的一些电子系统可以监测相对于物理环境的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理环境的物理元素或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

增强现实

混合现实的一个示例是增强现实(AR)。AR环境是指至少一个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体利用系统经由物理环境的图像或视频间接地查看物理环境，并且观察叠加在物理环境之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理环境的图像，并且使用那些图像在不透明显示器上呈现AR环境时，所显示的图像被称为视频透传。另选地，用于显示AR环境的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理环境。该系统可在透明或半透明显示器上显示虚拟对象，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理环境中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。

增强现实环境也可指其中物理环境的表示被计算机创建的感官信息改变的模拟环境。例如，物理环境的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于图像传感器捕获的视点的特定视点。再如，物理环境的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

增强虚拟

混合现实的另一个示例是增强虚拟(AV)。AV环境是指计算机创建环境或虚拟环境并入来自物理环境的至少一个感官输入的模拟环境。来自物理环境的感官输入可为物理环境的至少一个特征的表示。例如，虚拟对象可呈现由成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理环境中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

硬件

许多电子系统使得个体能够与各种SR环境进行交互和/或感知各种SR环境。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计成接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理环境的图像/视频和/或捕获物理环境的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，代表图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理环境中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

图1示出了在SR环境中当声音正在被最终用户体验(体验106)或者正在被(例如)开发者预览(预览108)时如何对声音进行记录(记录102)和回放(回放104)的概览。例如，在记录102中，麦克风阵列可用于从不同方向捕获声音，其中，所示出的是六个麦克风在从中心原点引出的六个基本方向1、2、3、4、5和6内捕获环境声音的示例。为了举例说明，此处的示例具有在一侧从方向4捕获或记录的来自瀑布的声音，以及在相对的一侧从方向2捕获的来自森林的声音。在回放104期间，再现这些声音，以复制它们的初始方向性，例如，瀑布处于13a处，森林处于11a处，并且瀑布和森林的混合处于12a、10a处。其他此类声音“信道”未示出，但可在回放104中生成或添加，从而(例如)通过添加反射、混响等来增强瀑布的原始记录。在声音的SR体验106期间，现在将声音引向特定的预定义对象(例如，代表收听者位置)，以模拟听者将如何感知记录102的实际声场。在所示的示例中，收听者佩戴耳机并且位于中心原点处，并且瀑布声是从收听者右侧13b传向收听者的(或者源自于收听者右侧13b)，并且森林声音源自于左侧11b，并且森林声音和瀑布声音的混合从处于左侧11b和右侧13b之间的或者较之升高的其他方向(例如，前部12b、后部10b)传向收听者。在该示例中，体验106由空间音频系统执行，该空间音频系统通过由实际收听者(例如，最终用户)佩戴的耳机对声音进行双耳渲染，使得收听者以适当的定位和沉浸式特性听到最初记录的声音(给收听者留下“身临其境”的印象，例如，在记录102的中心原点上面向麦克风3或在麦克风3的方向上)。

为了辅助作为SR应用程序的开发者或作者的用户，空间声音预览过程(预览108)可由计算机执行，该过程使得用户除了能够在SR环境中对声音进行体验106之外还能够有效地预览声音。这在本文中也被称为预览混频声音14，例如单个音频信号，其通过空间音频下混频过程被生成为在记录102期间捕获的所有声音的加权组合。该加权组合可如下文所详述，通过使得用户能够操纵在记录102期间捕获的声音的可视化表示，而受到用户控制。

例如，参考图2，空间声音预览108中的过程可开始于访问提供给预览混频器204的空间声音可视化对象206，该预览混频器进行操作以提供预览混频声音14，该预览混频声音是在记录102期间捕获的(并且被包含在对象206中的)所有声音的加权组合。空间声音可视化对象206可被作为3D图形对象呈现(显示)给用户，该3D图形对象具有分别具有(对象206中的)可用声音的图像的两个或更多个“面”或部分。示例包括球体、多面体或拓扑球体。该界面允许用户对(空间声音可视化对象206的)3D图形对象进行操纵或重新取向，使得一些声音(其相应的面或部分“面向”收听者)受到比其他声音更高的加权。这作为音频设计应用程序210中的创作工具的一部分尤其有用，这使得开发者(例如，场景设计者)能够为视听媒体编写场景，包括预览和选择声音来源。但空间声音预览108也可用于SR环境212中，以给最终用户这样的印象：用户握持在其手中的多面图形对象正在控制各种声音的回放；这些声音中的每者与图形对象的相应面相关联，例如，如图1所示，收听者208已经转动了该图形对象，使得瀑布的图像“面向”收听者208，并且这触发了包含在对象206中的瀑布声音的回放(并且该瀑布声音之后将被收听者208听到)。

参考图3A-图3C，这些是预览108的三个不同实例的例示，其中，收听者208将预览声音界面302分别配置为三个不同状态。根据来自收听者208的(例如，经由触摸屏手指滚动或经由鼠标移动输入的)指令，空间声音可视化对象206在每个状态下具有不同取向。在图3A的情况下，收听者208已指示预览声音界面302将3D固态图形对象取向为使得特定声音的图像(这里为森林)被取向为直接朝向图3A中的用户208。类似地，当瀑布的图像如图3B中那样被取向为直接朝向用户208时，预览声音界面302通过仅再现瀑布声音(通过将分配给对象206中的所有其他声音的权重减小到最小)来作出响应。最后，当瀑布和森林两者如图3C中那样均被取向为朝向用户208(或者3D图形对象的紧邻瀑布和森林图像的以及介于瀑布和森林图像之间的部分被取向为直接朝向收听者208)，那么预览声音界面302通过再现瀑布声音和森林声音这两者来作出响应，例如，对它们进行相等的并且高于对象206中的所有其他声音的加权。在每个示例中，预览声音混频器204根据哪一场景(例如，森林、瀑布或两者)因被取向为朝向收听者208而占据主导有差别地生成预览声音。

图4进一步详细地示出了空间声音预览过程。在一个实施方案中，从空间音频库402检索所创作的空间音频对象404，诸如结合图1-图3A-图3C描述的合并森林/瀑布环境声音。空间声音预览用户界面406响应于(例如，来自用户)对所创作的空间音频对象404中表示的声音进行预览的请求来生成(操作408)可视化空间声音对象206，诸如虚拟球体(例如，球体、气泡、立方体、多面体等)。在图4的示例中，对象206是具有中心原点的虚拟球体，由不同三角形表示的所有空间声音将从该中心原点发出。换句话讲，每个三角形可表示具有向外的指向并放置在相同位置(虚拟球体的中心原点)上的扬声器(声音输出换能器)。

在一个实施方案中，一旦用户根据需要操纵了可视化空间声音对象206，空间声音预览用户界面406就生成虚拟收听者/用户位置410和相对于收听者/用户的可视化空间声音对象取向412，并且将该信息发送到预览矩阵混频器416。在一个实施方案中，空间声音预览用户界面406基于虚拟收听者/用户位置410和相对于收听者/用户的可视化空间声音对象取向412生成加权来源声音信道1……N 414。

在一个实施方案中，在接收到收听者/用户位置410、取向412和加权信道信息(加权来源声音信道414)时，预览矩阵混频器416通过加权来源声音信道1……N的加权下混频来生成单个混频声音信道。该单个混频声音信道被传输至空间音频渲染引擎418，以供通过声音系统为用户再现，继而对混频声音进行预览420。在一个实施方案中，用户能够在处于SR环境中的同时对混频声音进行预览，诸如通过预览SR环境的一部分(例如，SR环境内的虚拟房间)，该混频声音被作为该房间的环境声音的气泡呈现给用户，其中该气泡是可视化空间声音对象206。例如，这允许SR收听者对虚拟房间内部进行“窥探”，从而在不进入该房间的情况下预览从该房间发出的声音。然而，一旦SR收听者进入该房间，对声音的预览就会变成包绕收听者的声音，就像在SR环境中通常发生的那样，例如，如图1中所示的体验106，其中收听位置现在是“处于中心”，并且预览声音根据其在SR应用程序中的所分配位置被复现为空间音频。

返回图4和该预览过程，在一个实施方案中，加权来源声音信道1……N 414受到加权，使得取向为朝向或指向用户/SR收听者的信道在混频声音预览420中声音最大。

本文所述的系统和方法可在各种不同的数据处理系统和设备中实现，所述数据处理系统和设备包括通用计算机系统、专用计算机系统或者通用计算机系统和专用计算机系统的混合。可使用本文所述的方法中的任一种方法的示例性数据处理系统包括服务器系统、台式计算机、膝上型计算机、嵌入式电子设备或消费电子设备。

通过本描述将显而易见的是，本发明的各方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(诸如DRAM或闪存存储器))中包含的指令序列而可在数据处理系统中实施这些技术。在各种实施方案中，可将硬连线的电路与软件指令结合使用来实施本发明。能够执行预览108中的上述过程的示例性数据处理系统包括膝上型计算机、台式计算机和平板电脑；这些可以有权访问空间音频库402，例如，该空间音频库可以远程存储在云存储器中。

在上述说明书中，已描述特定示例性实施方案。显而易见的是，可在不脱离以下权利要求所给出的更广泛的实质和范围的情况下对那些实施方案作出各种修改。相应地，说明书和附图被视为是例示性意义而不是限定性意义。

Claims

1.一种用于处理空间音频的计算机实现的方法，所述方法包括：

接收被编码为保留一个或多个所记录声音的空间特征的空间音频对象，其中，所述空间音频对象包括表示所述一个或多个所记录声音的多个音频数据信道，每个信道与方向和位置中的任何一者或多者相关联；

呈现所述空间音频对象的视觉表示，其中，所述多个音频数据信道中的每者基于其相应的方向或位置与所述视觉表示的一部分相关联；

基于所述视觉表示的取向对所述多个音频数据信道中的每个信道进行加权，其中，与所述视觉表示的被取向为朝向预先确定对象的一部分相关联的信道受到的加权高于与所述视觉表示的被取向为背离所述预先确定对象的一部分相关联的信道受到的加权；

对加权音频数据信道进行下混频；以及

基于下混频加权信道呈现声音。

2.根据权利要求1所述的计算机实现的方法，其中呈现所述视觉表示包括：

显示与所述视觉表示的给定部分相对应的图像，所述图像表示由所述多个音频数据信道中的一个或多个信道表示的占主导的所记录声音，所述一个或多个信道与所述视觉表示的所述给定部分相关联。

3.根据前述权利要求中任一项所述的计算机实现的方法，其中，对所述加权音频数据信道进行下混频包括将所述加权音频数据信道中的每者取向为与相应加权音频数据信道的初始取向不同的方向，并且对经取向的加权音频数据信道进行下混频。

4.根据权利要求1或2所述的计算机实现的方法，其中，基于所述下混频加权信道来呈现声音会将所述声音模拟为源自对应于所述视觉表示的位置。

5.根据权利要求1或2所述的计算机实现的方法，还包括：

接收用户输入，所述用户输入用以相对于所述用户来重新取向所述视觉表示，使得所述视觉表示的不同部分对所述用户可见。

6.根据权利要求5所述的计算机实现的方法，其中，所述视觉表示的对所述用户可见的所述不同部分包括表示由与所述视觉表示的所述不同部分相关联的信道表示的占主导的所记录声音的图像。

7.根据权利要求1或2所述的计算机实现的方法，其中，基于所述视觉表示的所述取向对所述多个音频数据信道中的每个信道进行加权是基于所述视觉表示的更新取向重复执行的。

8.根据权利要求1或2所述的计算机实现的方法，其中，呈现所述视觉表示包括显示表面具有多个图像的属于球体或多面体中的一者的球体，其中，每个图像是所述视觉表示的不同部分并且表示由与所述不同部分相关联的所述多个音频数据信道中的一个或多个信道表示的不同的占主导的所记录声音。

9.根据权利要求1或2所述的计算机实现的方法，其中所述预先确定的对象是用户或者表示用户位置。

10.一种空间音频处理计算机系统，所述系统包括：

处理器和存储有指令的存储器，所述指令在由所述处理器执行时：

接收被编码为保留多个所记录声音的空间特征的空间音频对象，其中所述空间音频对象包括表示所述所记录声音的多个音频数据信道，每个信道与方向、位置或空间分布中的任何一者或多者相关联；

呈现所述空间音频对象的视觉表示，其中，所述所记录声音中的每者基于所述声音的相应方向或位置与所述视觉表示的一部分相关联；

基于所述视觉表示的取向对所述多个音频数据信道中的每个信道进行加权，从而对与所述视觉表示的被取向为朝向预先确定对象的一部分相关联的声音进行突显，所述突显超过与所述视觉表示的被取向为背离所述预先确定对象的一部分相关联的另一声音所受到的突显；

对加权音频数据信道进行下混频；以及

基于下混频加权信道呈现声音。

11.根据权利要求10所述的系统，其中所述存储器存储有指令，所述指令在由所述处理器执行时通过下述操作呈现所述视觉表示：

显示与所述视觉表示的所述部分中的一个部分相对应的图像，所述图像表示由所述多个音频数据信道中的一个或多个信道表示的占主导的所记录声音，所述一个或多个信道与所述视觉表示的所述部分中的所述一个部分相关联。

12.根据权利要求10或11所述的系统，其中，基于所述下混频加权信道来呈现声音会将所述声音模拟为源自对应于所述视觉表示的位置。

13.根据权利要求10或11所述的系统，其中所述存储器存储有指令，所述指令在由所述处理器执行时

14.根据权利要求13所述的系统，其中，所述视觉表示的对所述用户可见的所述不同部分包括表示由与所述视觉表示的所述不同部分相关联的信道表示的占主导的所记录声音的图像。

15.根据权利要求10或11所述的系统，其中，呈现所述视觉表示包括显示表面具有多个图像的属于球体或多面体中的一者的球体，其中，每个图像是所述视觉表示的不同部分并且表示由与所述不同部分相关联的所述多个音频数据信道中的一个或多个信道表示的不同的占主导的所记录声音。

16.根据权利要求10或11所述的系统，其中所述预先确定的对象是用户或者表示用户位置。