CN111108760A

CN111108760A - 用于空间音频的文件格式

Info

Publication number: CN111108760A
Application number: CN201880057198.3A
Authority: CN
Inventors: M·S·康诺利; C·T·尤班克; S·E·平托; T·霍尔曼
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-09-29
Filing date: 2018-09-25
Publication date: 2020-05-05
Anticipated expiration: 2038-09-25
Also published as: US20220167107A1; US20200288258A1; US11272308B2; WO2019067469A1; CN111108760B; CN114047902A

Abstract

包含根据用于空间音频的文件格式进行格式化的音频资源的音频资源库包括使得模拟现实(SR)应用程序开发者能够创作在SR应用程序中使用的声音的资源元数据。音频资源被格式化为包括音频数据和资源元数据，其中音频数据对能够被创作到SR应用程序中的声音进行了编码，资源元数据不仅描述声音是如何被编码的，而且还描述SR环境中的收听者对声音有怎样的体验。SR开发者平台被配置为使得开发者能够使用存储在音频库中的音频资源为SR对象创作声音，包括编辑资源元数据以包括变换参数，该变换参数支持资源元数据在SR环境中的动态变换，从而改变SR收听者对所创作声音的体验。还描述了其他实施方案并要求对其进行保护。

Description

用于空间音频的文件格式

本非临时专利申请要求2017年9月29日提交的美国临时专利申请62/566,094的较早提交日期的权益。

技术领域

技术领域整体涉及用于音频处理的计算机化数据处理系统和方法，并且具体地，涉及模拟现实环境中的空间音频处理。

背景技术

在增强现实(AR)、虚拟现实(VR)和混合现实(MR)应用(在本公开中它们全部由模拟现实(SR)一词涵盖)中产生三维(3D)声音效果是具有挑战性的，因为现有音频格式最初被设计用于在具有固定扬声器位置和静态收听者的物理环境中(诸如在电影院中)产生3D声音。被设计为产生3D声音的空间音频格式的示例包括MPEG-H(运动图像专家组)3D音频标准、HOA(高阶高保真度立体声响复制)空间音频技术和DOLBY ATMOS环绕声技术。

在SR环境中产生3D声音效果的一种替代方案是操纵音频对象中包含的各个离散声音，这些离散声音可以虚拟地位于3D环境中的任何位置上。使用现有空间音频格式和对象为SR应用程序创作音频是困难的，因为没有统一的方式来访问各种声音来源并将其结合到动态SR环境中。

发明内容

如本文所述的用于空间音频的文件格式的实施方案使得增强SR应用程序开发者能够创作在SR应用程序中使用的声音，其中，对能够被创作到SR应用程序中的声音进行编码的音频数据被作为包括资源元数据的音频资源予以存储，该资源元数据不仅描述声音如何被编码，还描述具有空间音频渲染能力的SR环境中的收听者对声音有怎样的体验。

SR开发者可在开发期间检索音频资源，预览在回放期间收听者将对声音有怎样的体验，将音频资源附加到与在SR环境中体验声音相关联的SR对象上，以及编辑资源元数据，直至达到影响收听者对声音有怎样的体验的预期3D声音效果。

在一个实施方案中，音频资源被创建并存储在音频资源库中，可从该音频资源库检索音频资源以便将其创作到SR应用程序中。应用程序的创作可以包含将音频资源附加到与在SR环境中体验声音相关联的SR对象上。

在一个实施方案中，收听者在SR环境中对声音有怎样的体验取决于如何在包括声音回放系统中模拟3D声音(也称为空间声音)，声音回放系统包括使用双耳渲染(例如，通过耳机)、针对仅基于扬声器的回放系统的渲染或者针对合并耳机-扬声器系统的渲染的声音系统。本文所述的用于空间音频的文件格式的实施方案支持各种各样的声音来源和音频编码，这些编码用于再现声音，从而在包括使用双耳渲染的单收听者回放系统在内的声音回放系统中模拟空间声音。

根据用于空间音频的文件格式的实施方案，音频资源存储在音频库中，其中音频资源包含音频数据，音频数据对音频数据表示的声音进行编码，包括以下各项中的任何一者或多者：对个体声音的单耳记录；对声音环境的多信道记录，包括使用麦克风阵列产生的记录、多个声音来源的所记录混频(包括使用一个或多个麦克风记录的多个离散声音的混频)或者保留所记录声音的空间特征的记录中的任一者；以及用于产生一个或多个声音的合成音频数据。

为了适应表示不同类型的声音来源(从其捕获声音)的音频数据，根据用于空间音频的文件格式的实施方案的存储在音频库中的音频资源包括描述将如何对音频数据(其编码了由收听者体验的声音)进行解码的资源元数据，该资源元数据包括用于该音频资源的全局元数据和用于该音频资源的任何一个或多个信道的信道元数据。

根据用于空间音频的文件格式的实施方案，资源元数据描述如何基于与声音如何被捕获或声音如何被创建(例如，非采用麦克风记录的合成声音)相关联的多个特征对音频数据(其编码了由收听者体验的声音)解码，该一个或多个特征包括以下各项中的任何一者或多者：声音的位置(包括声音的离散位置或者使用前述高阶高保真度立体声响复制(HOA)格式编码的位置)、声音是否具有方向性(例如，声音的每音频数据信道的指定方向性)、表示用于输送声音的方向特征的形状或数学函数中的任一者的方向性(如果指定的话)、声音的取向(包括每音频数据信道的取向)、声音的初始声压水平(SPL)(包括捕获SPL时所处的距离)、被表达为多边形网格(可以具有3D空间体积)或体积大小或形状的声音的大小或形状，以及声音的回放速率(包括用于所有音频数据信道的全局回放速率)。就方向特征而言，形状包括但不限于球体、半球或锥体，并且数学函数包括但不限于单位球面或心形线极坐标响应。

在一个实施方案中，与声音在音频数据中如何被编码相关联的多个特征包括对用于捕获声音的任何一个或多个记录系统(包括麦克风阵列)的描述。

由于创作用于SR环境的声音往往需要改变声音以适应与在SR环境内体验声音相关联的非静态收听者或非静态SR对象，用于空间音频的文件格式的实施方案允许SR应用程序开发者编辑附加至SR对象的音频资源的资源元数据，以接受多个变换参数中的任何一者或多者，该多个变换参数实现该资源元数据在SR应用程序中的动态变换，以改变收听者在SR环境中对声音的体验。

根据用于空间音频的文件格式的实施方案，实现资源元数据的动态变换的多个变换参数包括关系参数，该关系参数基于收听者与音频资源所附加至的SR对象之间的关系动态地变换收听者在SR环境中对声音的体验，该关系包括收听者相对于SR对象的位置和取向中的任一者，其影响收听者在SR环境中对声音的体验。

根据用于空间音频的文件格式的实施方案，变换参数通过在对音频数据解码以供收听者体验之前动态地变换资源元数据，而改变收听者在SR环境中对声音的体验。例如，在SR环境中确定的收听者与SR对象之间的关系用于设定关系变换参数，该关系变换参数用于在对音频数据解码之前动态地变换资源元数据，这继而将动态地改变收听者在SR环境中对声音的体验。

根据用于空间音频的文件格式的实施方案，响应于来自SR开发者的请求或者作为在SR环境中使用音频资源的结果，存储在音频库中的音频资源被编辑以添加元数据，该元数据描述音频资源在SR环境中如何被使用，包括标识音频资源所附加至的SR对象。通过这种方式，音频资源在任何一个或多个SR应用程序中的使用的历史记录被保留在音频库中，这可用于供开发者了解该音频资源的声音先前被用在何处。

本文所述的各种系统、装置和方法可由一个或多个数据处理系统执行，以根据用于空间音频的文件格式的实施方案创建和使用用于在SR环境中创作声音的音频库。该音频库可通过网络共享。在一些情况下，该音频库可以是可通过协作软件访问的数据库。

本文所述的方法和系统可通过数据处理系统诸如服务器计算机、台式计算机和其他数据处理系统以及其他消费电子设备来实现。本文所述的方法和系统还可由执行存储在一个或多个非暂态机器可读介质中的可执行的计算机程序指令的一个或多个数据处理系统来实现，该程序指令在被执行时使一个或多个数据处理系统执行本文所述的一个或多个方法。因此，本文所述的实施方案可包括方法、数据处理系统和非暂态机器可读介质。

以上概述不包括本公开的所有实施方案的详尽列表。所有系统和方法可根据以上概述的各个方面和实施方案以及以下具体实施方式中所公开的那些的所有合适的组合来实践。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1是示出了根据本文所述的一个或多个实施方案的用于为SR环境创作声音的音频资源库的概览的框图。

图2是示出了根据本文所述的一个或多个实施方案的用于为SR环境创作声音的音频资源库的进一步细节的框图。

图3是示出了根据本文所述的一个或多个实施方案的用于为SR环境创作声音的音频资源库的进一步细节的框图。

图4是示出了根据本文所述的一个或多个实施方案的用于为SR环境创作声音的音频资源库的进一步细节的框图。

图5是根据本文所述的一个或多个实施方案的音频资源的声音处理的示例性采集、创作和体验的图示。

具体实施方式

将参考以下论述的细节来描述各种实施方案和方面，并且附图将对各种实施方案进行说明。以下说明书和附图为例示性的，并且不应被理解为限制性的。描述了许多具体细节，以提供对各个实施方案的全面理解。然而，在某些实例中，熟知的或常规的细节并未被描述，以便提供对实施方案的简明论述。

在本说明书中提到的“一个实施方案”或“实施方案”是指结合该实施方案所述的特定特征、结构或特性可被包括在至少一个实施方案中。在本说明书中的各个位置出现短语“在一个实施方案中”不一定都是指同一个实施方案。在随后的附图中所描绘的过程由包括硬件(例如，电路、专用逻辑部件等等)、软件或这两者的组合的处理逻辑部件来执行。虽然下文按照某些顺序操作来描述该过程，但应当理解，所描述的某些操作可以不同的顺序执行。此外，某些操作也可并行执行而非按顺序执行。

物理环境

物理环境是指无需电子系统帮助个体就能够感觉和/或个体能够交互的世界。物理环境(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理环境相互作用和/或感觉物理环境，诸如通过触摸、视觉、嗅觉、听觉和味觉。

模拟现实

相比之下，模拟现实(SR)环境是指经由电子系统个体能够感觉和/或个体能够交互的完全或部分由计算机创建的环境。在SR中，监测个体移动的子集，并且响应于该子集，以符合一个或多个物理定律的方式更改SR环境中的一个或多个虚拟对象的一个或多个属性。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理环境中会如何改变的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR环境中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感觉SR对象。例如，个体可与创建多维(例如，三维)或空间听觉环境和/或实现听觉透明性的听觉对象进行交互和/或感知。多维或空间的听觉环境为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明选择性地结合来自物理环境的声音。在一些SR环境中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

虚拟现实

SR的一个示例是虚拟现实(VR)。VR环境是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟环境。VR环境包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的环境内模拟个体动作的子集和/或通过对个体或其在计算机创建的环境内的存在的模拟，来与VR环境中的虚拟对象进行交互和/或感知VR环境中的虚拟对象。

混合现实

SR的另一个示例是混合现实(MR)。MR环境是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理环境的感觉输入或其表示集成的模拟环境。在现实谱系上，混合现实环境介于一端的VR环境和另一端的完全物理环境之间并且不包括这些环境。

在一些MR环境中，计算机创建的感官输入可以适应于来自物理环境的感官输入的变化。另外，用于呈现MR环境的一些电子系统可以监测相对于物理环境的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理环境的物理元素或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

增强现实

混合现实的一个示例是增强现实(AR)。AR环境是指至少一个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体利用系统经由物理环境的图像或视频间接地查看物理环境，并且观察叠加在物理环境之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理环境的图像，并且使用那些图像在不透明显示器上呈现AR环境时，所显示的图像被称为视频透传。另选地，用于显示AR环境的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理环境。该系统可在透明或半透明显示器上显示虚拟对象，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理环境中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。

增强现实环境也可指其中物理环境的表示被计算机创建的感官信息改变的模拟环境。例如，物理环境的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于图像传感器捕获的视点的特定视点。再如，物理环境的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

增强虚拟

混合现实的另一个示例是增强虚拟(AV)。AV环境是指计算机创建环境或虚拟环境并入来自物理环境的至少一个感官输入的模拟环境。来自物理环境的感官输入可为物理环境的至少一个特征的表示。例如，虚拟对象可呈现由成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理环境中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

硬件

许多电子系统使得个体能够与各种SR环境进行交互和/或感知各种SR环境。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计成接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理环境的图像/视频和/或捕获物理环境的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，代表图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理环境中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

图1示出了用于创作声音114供在SR环境120中体验的音频资源库106的概览100。采集音频过程104接受各种各样的原始音频数据102以创建和记录用于存储在音频资源库106中的音频资源108。音频库接口112促进音频资源108的创建，包括一些资源元数据110的创建(在采集时)，这些资源元数据不仅描述声音在音频资源中是如何被编码的(例如，原始音频数据102是如何被记录或生成的)，还描述音频资源将如何被渲染，从而为SR环境中的收听者提供预期体验。在一些情况下，可能存在一些在采集时已存在的资源元数据110，并且此类预先存在的资源元数据110可被导入到音频资源108中。

在一个实施方案中，SR开发者平台116被配置为从音频库106检索音频资源108并且使用音频资源过程114来执行创作，该音频资源过程使得SR开发者能够将音频资源导出到SR应用程序118以供在SR环境120中体验。在一个实施方案中，创作音频过程114修改资源元数据110，并且使用经修改的资源元数据110在回放期间对音频资源进行解码，以供在SR环境120中体验。给定音频资源108的资源元数据110也可在此类回放期间被动态地变换，如下文进一步所述。

图2进一步详细示出了根据本文所述的用于空间音频的文件格式的实施方案的图1的采集音频过程104。采集音频过程104可具有创建音频资源过程204和创建资源元数据过程206。音频资源108是在创建音频资源过程204中由原始音频数据102创建的，原始音频数据102可包括保留声音的空间特征的任何记录，诸如HOA编码声音、个体声音(诸如单耳记录202a)、多信道声音(诸如麦克风阵列记录202b)、多个混频声音来源(诸如离散声音202c的5.1混频)以及合成音频202d。创建音频过程204可将原始音频数据102重新封装或重新编码成不同的格式。在过程206中，采集音频过程104创建资源元数据(或导入预先存在的元数据)，该资源元数据描述声音在音频资源中是如何被编码的(例如，原始音频数据102是如何被记录或生成的)以及音频资源是如何被解码以渲染到声音回放系统的。

在一个实施方案中，所创建的资源元数据包括全局资源元数据，该全局资源元数据在资源级上描述资源是如何被解码以渲染到声音回放系统的。在一个实施方案中，所创建的资源元数据包括资源信道元数据，该资源信道元数据在每信道的基础上描述针对音频资源中包含的多信道音频数据资源是如何被解码以渲染到声音回放系统的。所创建的资源元数据可包括资源的其他特征，这些特征描述原始音频是如何被记录或生成的以及资源是如何被解码以进行渲染的，包括位置、方向性和取向、声压水平(包括捕获声压水平时所处的距离)、被表达为3D空间体积或体积大小的声音的大小以及回放速率(包括表示声音的所有音频数据信道的全局回放速率)。在一个实施方案中，采集音频过程104结束于将音频资源108(包括相关联的资源元数据110)作为库项目存储在音频资源库106中。

图3进一步详细示出了根据本文所述的用于空间音频的文件格式的实施方案的图1中介绍的创作音频过程114的示例。在根据用于空间音频的文件格式的实施方案的被配置为使用音频库106来创作声音的SR开发者平台中，预览声音过程302检索音频资源108并且使得SR开发者能够使用资源元数据110来预览SR收听者对由音频资源108产生的声音将有怎样的体验。创作音频资源过程304帮助根据需要对音频资源108的内容进行编辑，诸如通过将数字滤波器应用到由解码后的音频数据产生的声音，然后将滤波后的声音(从而包括滤波器的结果)重新编码到音频资源108中，或者通过修改资源元数据来描述过滤器从而能够在之后的时间应用这些滤波器。创作音频资源过程114还帮助直接编辑资源元数据，包括追加额外的元数据，按比例放大元数据，改变资源元数据中描述的声音的位置，等等。

在根据用于空间音频的文件格式的实施方案的被配置为使用音频库106来创作声音的SR开发者平台中，附加过程306可被配置为将所创作/编辑的音频资源(在本文中被称为附加音频资源312)附加到SR应用程序中的SR对象310。额外的创作音频资源过程308可被配置为进一步编辑附加资源312的音频资源元数据110，以添加将实现音频资源元数据110的“动态”变换的一个或多个变换参数。例如，变换参数可在AR/VR环境中的后续回放期间变换或改变资源元数据110，其中，该AR/VR环境是在AR/VR应用程序的操作或执行期间创建的。如下文参考图4中的体验/回放声音处理所述，变换参数将基于相对于SR收听者的虚拟位置和/或取向对(音频资源108所附加至的)SR对象的虚拟位置和/或取向的确定(连同在SR应用程序的操作期间创建的SR环境中所做的其他确定)促进音频资源元数据110的动态变换。

图4进一步详细示出了根据本文所述的用于空间音频的文件格式的实施方案的在图1中介绍的体验/回放声音过程120。如先前参考图3所述，SR应用程序118包括包含在附加音频资源(其包含资源元数据和在额外的创作音频资源过程308期间添加的任何变换参数)中的(为SR对象310创作的)声音。

在一个实施方案中，当在SR环境120中启动404了SR应用程序并且激活406了具有附加音频资源312的SR对象310中的一个时，过程408被触发，以确定对于被激活的SR对象310而言附加音频资源312(如果有的话)的元数据中的动态变换参数的设置。在过程410中，由SR应用程序118创建的SR环境120在回放之前或回放期间使用所确定的设置动态地变换附加音频资源312的元数据中的元素。例如，可基于相对于SR收听者的虚拟位置和/或取向的SR对象310的虚拟位置和/或取向，来确定表示SR环境中的SR对象310和SR收听者之间的关系的变换参数的设置。在资源312中可以被披露为可变换(能够通过动态变换参数受到变换)的元数据中的元素的示例包括(但不限于)：资源312中的音频信号的音频水平，作为声音功率水平或声压水平(可以在具体条件下对其进行测量)；音频信号的均衡(滤波或频谱整形)；以及音频信号的距离补偿，其用以实现由于大气传输或其他传输损耗引起的响应。更一般地，可在资源312中被披露为可变换的元素可以从低水平音频数字信号处理(DSP)控制到高水平“色彩”控制(资源312将其转化成低水平音频DSP控制)。

一旦确定了附加音频资源312的元数据的任何动态变换参数的设置，体验/回放声音过程120就通过使用音频资源312的现在经过了动态变换的元数据对声音解码来创建SR体验412，从而改变SR收听者对声音的体验。在一个实施方案中，用于确定变换参数设置以及变换SR对象310的附加音频资源312的元数据的过程408、410在SR应用程序的执行期间被重复执行，从而为SR收听者提供由SR应用程序的SR开发者所创作的SR体验。

图5是根据本文所述的一个或多个实施方案的音频资源的声音处理的示例性采集、创作和体验的图示。如图所示，在采集音频过程104期间被编码在音频资源108a中的音频信号502与元数据“a,b,c”相关联。在创作音频过程114期间，元数据a,b,c被借助于参数T参数化成元数据“x’,y’,z’”，从而得到经编辑的音频资源108b(其中，音频信号502可在元数据被更改或变换时保持不变，以用于创建SR体验120)。为了创建SR体验120，通过将参数T设定为在SR环境120中确定的设置S，音频资源108b的参数化元数据“x’,y’,z’”被动态变换成元数据“x,y,z”，其中，设置S是(例如)音频资源108b所附加至的SR对象的相对于SR体验的创建所针对的SR收听者的位置/取向。元数据中的能够被变换的元素的其他示例包括上文给出的那些，其中，一般而言可在资源312中被披露为可变换的元素可以从低水平音频DSP控制到高水平“色彩”控制(资源312将其转化成低水平音频DSP控制)。使用经变换的元数据“x,y,z”，SR环境120为SR收听者创建音频资源108c的体验。

在一个实施方案中，从SR应用程序接收编辑音频资源以添加元数据的请求，该元数据描述音频资源在SR应用程序中如何被使用，例如，标识音频资源所附加至的SR对象；根据所接收的请求来编辑音频资源，以产生经编辑的音频资源；并且将经编辑的音频资源发布到音频库，例如，作为新音频资源。

根据另一个实施方案，当应用程序使用来自其库的特定声音资源时，除了将新资源发布到库中，了解该资源曾被用在何处或者曾如何被使用也是有用的。例如，当新资源被创建时，将其发布到库是有用的并且可以如上文所述执行。如果SR应用程序再次使用该资源，那么了解该资源曾被用在何处是有用的；在该情况下，可能没有必要针对该第二情况再次发布该资源。相反，在该情况下，该过程可如下操作：从SR应用程序接收编辑音频资源以添加元数据的请求，该元数据描述音频资源在SR应用程序中如何被使用(例如，用在何处)，包括(例如)标识音频资源所附加至的SR对象；之后根据所接收到的请求来编辑音频资源的元数据；并且将经编辑的元数据(未必是整个资源)发布到音频库。

本文所述的系统和方法可在各种不同的数据处理系统和设备中实现，所述数据处理系统和设备包括通用计算机系统、专用计算机系统或者通用计算机系统和专用计算机系统的混合。可使用本文所述的方法中的任一种方法的示例性数据处理系统包括服务器系统、台式计算机、膝上型计算机、嵌入式电子设备或消费电子设备。

通过本描述将显而易见的是，本发明的各方面可至少部分地在软件中体现。也就是说，可通过数据处理系统的处理器执行存储介质(诸如非暂态机器可读存储介质(例如DRAM或闪存存储器))中包含的指令序列而在数据处理系统中实现这些技术。此外，应当理解，在描述移动设备或手持设备的情况下，这种描述涵盖移动设备(例如膝上型电脑设备、平板设备)、手持设备(例如智能电话)以及适合用于可穿戴电子设备中的嵌入式系统。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望提请注意，他们并不意欲让所附权利要求书中的任一个或权利要求要素援引35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于……的装置”或“用于……的步骤”。

在上述说明书中，已描述特定示例性实施方案。显而易见的是，可在不脱离以下权利要求所给出的更广泛的实质和范围的情况下对那些实施方案作出各种修改。相应地，说明书和附图被视为是例示性意义而不是限定性意义。

Claims

1.一种用于创建在模拟现实(SR)应用程序中使用的声音的音频资源库的计算机实现的方法，所述方法包括：

接收在其内编码了声音的音频数据；

接收描述所述声音如何被编码的元数据；

创建包含资源元数据和所述音频数据的音频资源，所述资源元数据包括i)所接收的元数据和ii)描述所述声音将如何通过SR应用程序被渲染成空间音频的元数据；以及

将所述音频资源存储在音频资源库中。

2.根据权利要求1所述的计算机实现的方法，其中，如何渲染所述声音包括如何在声音回放系统中模拟空间声音。

3.根据前述权利要求中任一项所述的计算机实现的方法，还包括编辑所述资源元数据以包括实现所述资源元数据在所述SR应用程序中的动态变换的一个或多个参数，其中，所述动态变换将在所述声音的回放或体验期间通过应用所述一个或多个参数来执行，以改变所述音频资源通过所述SR应用程序被渲染的方式。

4.根据权利要求3所述的计算机实现的方法，其中，所述一个或多个参数包括关系参数，所述关系参数用于基于由所述SR应用程序提供的SR环境中的收听者与所述音频资源所附加至的SR对象之间的关系来动态地变换所述音频资源将通过所述SR应用程序被渲染的方式，所述关系包括所述收听者相对于所述SR对象的位置和取向中的任一者，所述位置和取向影响所述音频资源在所述SR应用程序中的渲染。

5.根据权利要求4所述的计算机实现的方法，其中，在所述SR环境中确定的所述收听者与所述SR对象之间的所述关系用于设定所述关系参数，所述关系参数用于动态地变换所述音频资源在所述SR应用程序中的渲染方式。

6.根据前述权利要求中任一项所述的计算机实现的方法，其中，在其内编码了所述声音的所述音频数据包括以下各项中的任何一者或多者：

对个体声音的单耳记录；

对声音环境的多信道记录，包括使用麦克风阵列产生的记录、多个声音来源的所记录混频(包括多个离散声音的混频)以及保留所记录声音的空间特征的记录中的任一者；和

用于产生一个或多个声音的合成音频数据。

7.根据前述权利要求中任一项所述的方法，其中，包含在所述音频资源中的所述资源元数据包括：

用于所述音频资源的全局元数据；和

用于所述音频资源的任何一个或多个信道的信道元数据。

8.根据前述权利要求中任一项所述的方法，其中，描述所述声音如何被编码的元数据描述与所述声音如何被捕获相关联的一个或多个特征，并且其中，描述如何渲染所述音频资源的所述元数据包括以下各项中的任何一者或多者：

所述声音的位置，包括离散位置或使用高阶高保真度立体声响复制(HOA)格式编码的位置；

所述声音的每音频数据信道的至少一个方向特征；

所述声音的取向，包括每音频数据信道的取向；

所述声音的初始声压水平(SPL)或者另选的声音功率水平，包括捕获所述SPL或所述声音功率水平时所处的距离；

所述声音的大小或形状，所述声音的所述大小或所述形状通过多边形网格或体积大小表达；和

所述声音的回放速率，包括用于所有音频数据信道的全局回放速率，

其中，所述资源元数据还包括用于在渲染所述音频资源以供所述收听者体验之前变换所述资源元数据的变换参数，所述变换参数包括表示由所述SR应用程序提供的SR环境中的所述收听者与所述音频资源所附加至的SR对象之间的关系的关系参数。

9.根据权利要求8所述的方法，其中，与所述声音如何被编码相关联的所述一个或多个特征包括对用于捕获所述声音的记录系统的描述，包括对麦克风阵列的描述。

10.根据前述权利要求中任一项所述的方法，还包括：

编辑所述音频资源以添加元数据，所述元数据描述所述音频资源在所述SR应用程序中如何被使用，包括标识所述音频资源所附加至的SR对象。

11.一种用于为模拟现实(SR)环境创作声音的计算机实现的方法，所述方法包括：

检索存储在音频库中的音频资源，其中，所述音频资源包含音频数据和资源元数据，所述音频数据根据资源元数据或者如资源元数据中所指定在其内对声音进行编码，所述资源元数据进一步描述所述音频资源在SR应用程序中将如何被渲染；以及

将所检索到的音频资源创作到所述SR应用程序中，所述创作包括

根据所述资源元数据预览所述音频资源在所述SR应用程序中将如何被渲染；

编辑所述音频资源，以实现所述资源元数据在所述SR应用程序中的动态变换，从而更改所述音频资源在所述SR应用程序中的渲染方式，以及

将经编辑的音频资源附加到所述SR应用程序中的SR对象。

12.根据权利要求11所述的计算机实现的方法，其中，所述音频资源在所述SR应用程序中如何被渲染包括如何在声音回放系统中使用双耳渲染模拟空间声音。

13.根据前述权利要求中任一项所述的计算机实现的方法，其中，编辑所述音频资源以实现所述资源元数据在所述SR应用程序中的动态变换包括将一个或多个变换参数添加到所述资源元数据，所述一个或多个变换参数包括关系参数，所述关系参数用于基于由所述SR应用程序提供的SR环境中的收听者与SR对象之间的关系动态地变换所述音频资源被渲染的方式，其中，所述音频资源附加至所述SR对象，所述关系包括在所述SR环境中确定的所述收听者相对于所述SR对象的位置和取向中的任一者。

14.根据前述权利要求中任一项所述的计算机实现的方法，其中，编辑所述音频资源以实现所述资源元数据在所述SR应用程序中的动态变换包括添加用于针对由所述SR应用程序提供的所述SR环境对渲染所述视频资源的方式进行动态变换的参数，其中所述动态变换基于所述SR应用程序中的另一SR对象的特征，其中所述音频资源附加至所述SR对象，所述SR对象的所述特征包括所述另一对象的位置、所述另一对象的取向、所述另一对象的速度或者所述应用程序中定义的其他方面中的任一者。

15.根据前述权利要求中任一项所述的计算机实现的方法，还包括将经编辑的音频数据和资源元数据存储在从中检索所述音频资源的所述音频库中。

16.根据前述权利要求中任一项所述的计算机实现的方法，其中，所述音频数据包括以下各项中的任何一者或多者：

对个体声音的单耳记录；

用于产生一个或多个声音的合成音频数据。

17.根据前述权利要求中任一项所述的计算机实现的方法，其中，包含在所述音频资源中的所述资源元数据包括：

用于所述音频资源的全局元数据；和

用于所述音频资源的任何一个或多个信道的信道元数据。

18.根据前述权利要求中任一项所述的计算机实现的方法，其中，描述所述声音如何被编码的元数据描述与所述声音如何被捕获相关联的一个或多个特征，并且其中，描述如何渲染所述音频资源的所述元数据包括以下各项中的一者或多者：

所述声音的每音频数据信道的至少一个方向特征，所述方向特征表示用于输送所述声音的方向性的形状和数学函数中的任一者，所述形状包括球体、半球或锥体中的任一者，所述数学函数包括单位球面或心形线极坐标响应或者定义任意方向性的查找表中的任一者；

所述声音的取向，包括每音频数据信道的取向；

所述声音的大小或形状，所述声音的所述大小或形状被表达为多边形网格或体积大小；和

其中，所述资源元数据还包括用于在渲染所述音频资源之前变换所述资源元数据的变换参数，所述变换参数包括表示由所述SR应用程序提供的SR环境中的收听者与所述音频资源所附加至的SR对象之间的关系的关系参数。

19.根据权利要求18所述的计算机实现的方法，其中，与所述声音在所述音频数据中如何被编码相关联的所述一个或多个特征包括对用于捕获所述声音的一个或多个记录系统的描述，所述记录系统包括麦克风阵列。

20.根据前述权利要求中任一项所述的计算机实现的方法，还包括：

编辑检索到的音频资源以添加元数据，所述元数据描述所述音频资源在所述SR应用程序中如何被使用，包括标识所述音频资源所附加至的SR对象，以产生经编辑的音频资源；以及

将所述经编辑的音频资源发布到所述音频库。

21.一种用于在模拟现实(SR)环境中处理声音的计算机实现的方法，所述方法包括：

根据SR应用程序来配置SR环境，所述SR应用程序具有音频资源所附加至的SR对象，其中，所述音频资源包含音频数据和资源元数据，所述音频数据根据所述资源元数据在其内对声音进行编码，所述资源元数据具有用于描述所述音频资源如何被渲染的一个或多个变换参数；

接收播放在所述音频资源中编码的所述声音的请求；

确定收听者与所述音频资源所附加至的所述SR对象之间的关系，包括所述收听者相对于由所述SR应用程序提供的所述SR环境中的所述SR对象的位置和取向中的任何一者或多者，其中，所述位置和取向影响所述音频资源在所述SR应用程序中将如何被渲染；

利用所确定的所述收听者和所述SR对象之间的关系来设定所述资源元数据的所述一个或多个变换参数中的一个，其中，设定所述变换参数会动态地变换所述资源元数据，以改变所述音频资源将如何通过所述SR应用程序被渲染；以及

根据所述SR应用程序并根据经变换的资源元数据将所述音频资源渲染到声音回放系统。

22.根据权利要求21所述的方法，还包括：

从所述SR应用程序接收编辑所述音频资源以添加元数据的请求，所述元数据描述所述音频资源在所述SR应用程序中如何被使用，包括标识所述音频资源所附加至的所述SR对象；

根据所接收的请求来编辑所述音频资源以产生经编辑的音频资源；以及

将经编辑的音频资源发布到所述音频库。

23.根据前述权利要求中任一项所述的方法，还包括：

根据所接收的请求来编辑所述音频资源的元数据；以及

将经编辑的元数据发布到所述音频库。