CN111133411B

CN111133411B - 空间音频上混

Info

Publication number: CN111133411B
Application number: CN201880056913.1A
Authority: CN
Inventors: S·E·平托; C·T·尤班克; M·S·康诺利
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-09-29
Filing date: 2018-09-28
Publication date: 2023-07-14
Anticipated expiration: 2038-09-28
Also published as: WO2019067904A1; CN111133411A; US11102601B2; US20200288259A1

Abstract

空间音频上混使得能够将空间声音混合在比使用常规上混所可能的更细粒度的每个通道水平上。空间床是表示完整的声场描述的多通道音频内容，例如，声音的虚拟球体，例如围绕模拟现实环境中的模拟现实收听者的声音的虚拟球体。通过组合此类空间床的至少两个空间床的区段来生成新空间床。还描述了其他实施方案并要求对其进行保护。

Description

空间音频上混

本非临时专利申请要求2017年9月29日提交的美国临时申请62/566,239的较早申请日期的权益。

技术领域

技术领域整体涉及用于音频处理的计算机化数据处理系统和方法，并且具体地讲涉及空间音频处理。

背景技术

在增强现实(AR)应用程序、虚拟现实(VR)应用程序和混合现实(MR)应用程序中产生三维(3D)声音效果通常用于增强媒体内容，在本公开中的所有应用程序均被术语模拟现实(SR)应用程序所涵盖。设计为产生3D声音的空间音频格式的示例包括MPEG-H(运动图像专家组)3D音频标准、HOA(高阶高保真度立体声响复制)空间音频技术和DOLBY ATMOS环绕声技术。例如，声音设计者通过操纵空间音频对象中包含的声音来添加3D声音效果以增强SR应用程序中的场景，其中声音是通过空间音频处理可实际上位于SR应用程序所创建的虚拟3D空间中的任何位置的环境声和/或离散声。

发明内容

此处描述了空间音频上混的实施方案，这些实施方案使得SR应用程序开发者能够一起定制混音成来自不同输入音频对象的单个新(输出)音频对象声音，其中每个输入音频对象可包含不同场景的声音。除了其他优点之外，空间音频上混技术使得能够将空间声音混合在比使用常规上混所可能的更细粒度的每个通道水平上。

在一个实施方案中，音频对象包含编码声音的音频数据，能够该编码声音的音频数据构成SR应用程序。在一个实施方案中，将编码声音的音频数据存储为保留录制声音的空间特性的空间音频对象，该空间音频对象具有多个音频数据信道，每个音频数据信道可与录制声音的方向和位置中的任何一者或多者相关联。在一个实施方案中，音频数据中编码的声音是已均匀投影到空间床上(例如，均匀投影到虚拟声源(虚拟扬声器)的均匀间隔的网格阵列上)的任何录制声音，包括非空间单声道录制。在一个实施方案中，空间音频对象中的多个音频数据信道包括此类空间床。空间床是表示完整的声场描述(围绕中心收听位置的球体的4π球面度)的多通道音频内容，也被称为球形虚拟声源阵列或声音的虚拟球体，该完整的声场描述可围绕SR环境中的SR收听者。

在一个实施方案中，一种用于创建空间音频对象的不同部分的定制混音的计算机实现的方法可包括以下操作。获取多个输入空间音频对象，例如，作为空间音频库的一部分。例如通过用户界面并从声音设计者接收对第一输入对象的选择(作为多个输入空间音频对象中的一个输入空间音频对象)。也对定制混音可视化的第一部分的选择(例如，图形对象诸如球体)例如经由用户界面和声音设计者来接收，要在该第一部分处渲染选择的第一输入对象的声音。也以相同的方式接收对第二输入对象的选择(作为多个输入空间音频对象中的另一个输入空间音频对象)。此外，也(例如，以相同的方式经由用户界面)接收对定制混音可视化的第二部分的选择，要在该第二部分处渲染选择的第二输入对象的声音。然后，场景组合器过程基于选择来生成(例如，更新)新空间音频对象。

新空间音频对象可包括球形虚拟声源阵列(虚拟球体)，该虚拟声源限定围绕新空间音频对象的收听位置(例如，在定制混音球体的中心处)的声场。在另一个实施方案中，虚拟球体限定向外(而不是向内)辐射的声场。新对象的虚拟球体可具有与每个输入对象相同的虚拟声源网格。这样，构成选择的第一输入对象的通道的选择的部分可“绘画”或成为新对象的虚拟球体的对应部分，并且类似地用于选择的第二输入对象的选择的部分。这两个部分可以或可以不根据新对象的产生其相应声音的虚拟声源重叠。

在一个实施方案中，将输入空间音频对象的选择的部分(区段)添加到定制混音，该定制混音可由可视化球状体的表示输入空间音频对象(空间床)的一部分(并非全部)来表示。选择的部分可以是直接面向声音设计者的部分(如用户界面所示)。当添加到新空间音频对象中时，可相对于输入空间音频对象的其他部分的声音强调与该部分相关联的声音。所强调的部分可响应于声音设计者重新定向表示输入对象(当将要选择要添加到定制混音的部分时)的球状体而自动变化。

该过程还可将新空间音频对象(新空间床)视觉化为单独的新球状体，例如，在SR环境中，从而从声音设计者的角度显示新球状体的表面，该声音设计者可位于新球状体内部，例如位于新球状体的中心处或其外部。这可在SR环境中呈现为声音设计者用手持式刷子或喷雾设备从新球状体的壁的内部(或外部)伸出和绘画的虚拟手，其中要渲染(输入空间音频对象的)的选择的声音。

在一个实施方案中，可视化新球状体的由声音设计者选择的部分(用于从特定输入对象接收声音)可为不规则球形形状，或者其可为球楔的外表面(例如，如从球状体内部或从球状体外部“绘画”)，或者其可为球形扇形的外表面。

在一个实施方案中，输入对象的结合到定制混音中的部分可根据表示输入对象的可视化球状体的立体角度来限定。

在一个实施方案中，新空间床分别包含多个输入空间床中的至少两个输入空间床的至少两个部分，该至少两个部分并排定位在新球状体的表面上。在另一个实施方案中，例如通过对两个部分的对应(重合)虚拟源求和来将这两个部分重叠。在另一个实施方案中，声音设计者可指定将特定声音效果应用于输入对象的一个或两个部分。声音效果可被设计为改变收听者对声场的感知，并且可如例如减小虚拟球体的选择的部分的音量(例如，标量增益)一样简单，或者其可更复杂并且可包括应用于虚拟球体的选择的部分的任何类型的音色效果，例如频谱整形，诸如低通滤波、动态范围控制、混响等。

本文所述的各种系统、装置和方法可由一个或多个数据处理系统执行以创建用于SR环境中的新空间音频对象。

本文所述的方法和系统可通过数据处理系统诸如服务器计算机、台式计算机和其他数据处理系统以及其他消费电子设备来实现。本文所述的方法和系统还可由执行存储在一个或多个非暂态机器可读介质中的可执行的计算机程序指令的一个或多个数据处理系统来实现，该程序指令在被执行时使一个或多个数据处理系统执行本文所述的一个或多个方法。因此，本文所述的实施方案可包括方法、数据处理系统和非暂态机器可读介质。

以上概述不包括本公开的所有实施方案的详尽列表。所有系统和方法可根据以上概述的各个方面和实施方案以及以下具体实施方式中所公开的那些的所有合适的组合来实践。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1是示出根据本文所述的一个或多个实施方案的空间声音上混的概览的框图。

图2示出了表示(可视化)其中具有来自三个输入对象的部分的新空间音频对象的定制混音球体的示例。

图3示出了新空间音频对象的另一个示例的定制混音球体的顶视图，突出显示被选择用于接收声音效果的目标部分。

图4示出了在空间声音上混过程中由图形用户界面呈现的示例性显示屏。

图5是示出根据本文所述的一个或多个实施方案的空间声音上混器过程的框图。

具体实施方式

将参考细节来描述各种实施方案或方面，并且附图将对各种实施方案进行说明。以下说明书和附图为例示性的，并且不应被理解为限制性的。描述了许多具体细节，以提供对各个实施方案的全面理解。然而，在某些实例中，熟知的或常规的细节并未被描述，以便提供对实施方案的简明论述。

在本说明书中提到的“一个实施方案”或“实施方案”是指结合该实施方案所述的特定特征、结构或特性可被包括在至少一个实施方案中。在本说明书中的各个位置出现短语“在一个实施方案中”不一定都是指同一个实施方案。在随后的附图中所描绘的过程由包括硬件(例如，电路、专用逻辑部件等等)、软件或这两者的组合的处理逻辑部件来执行。虽然下文按照某些顺序操作来描述该过程，但应当理解，所描述的某些操作可以不同的顺序执行。此外，某些操作也可并行执行而非按顺序执行。

物理环境

物理环境是指无需电子系统帮助个体就能够感觉和/或个体能够交互的世界。物理环境(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理环境相互作用和/或感觉物理环境，诸如通过触摸、视觉、嗅觉、听觉和味觉。

模拟现实

相比之下，模拟现实(SR)环境是指经由电子系统个体能够感觉和/或个体能够交互的完全或部分由计算机创建的环境。在SR中，监测个体移动的子集，并且响应于此，以符合一个或多个物理定律的方式使SR环境中的一个或多个虚拟对象的一个或多个属性变化。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理环境中会如何变化的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR环境中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感觉SR对象。例如，个体可与创建多维(例如，三维)或空间听觉环境和/或实现听觉透明性的听觉对象进行交互和/或感知。多维或空间的听觉环境为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明选择性地结合来自物理环境的声音。在一些SR环境中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

虚拟现实

SR的一个示例是虚拟现实(VR)。VR环境是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟环境。VR环境包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的环境内模拟个体动作的子集和/或通过对个体或其在计算机创建的环境内的存在的模拟，来与VR环境中的虚拟对象进行交互和/或感知VR环境中的虚拟对象。

混合现实

SR的另一个示例是混合现实(MR)。MR环境是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理环境的感觉输入或其表示集成的模拟环境。在现实谱系上，混合现实环境介于一端的VR环境和另一端的完全物理环境之间并且不包括这些环境。

在一些MR环境中，计算机创建的感官输入可以适应于来自物理环境的感官输入的变化。另外，用于呈现MR环境的一些电子系统可以监测相对于物理环境的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理环境的物理元素或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

增强现实

混合现实的一个示例是增强现实(AR)。AR环境是指至少一个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体利用系统经由物理环境的图像或视频间接地查看物理环境，并且观察叠加在物理环境之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理环境的图像，并且使用那些图像在不透明显示器上呈现AR环境时，所显示的图像被称为视频透传。另选地，用于显示AR环境的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理环境。该系统可在透明或半透明显示器上显示虚拟对象，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理环境中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。

增强现实环境也可指其中物理环境的表示被计算机创建的感官信息改变的模拟环境。例如，物理环境的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于图像传感器捕获的视点的特定视点。再如，物理环境的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

增强虚拟

混合现实的另一个示例是增强虚拟(AV)。AV环境是指计算机创建环境或虚拟环境并入来自物理环境的至少一个感官输入的模拟环境。来自物理环境的感官输入可为物理环境的至少一个特征的表示。例如，虚拟对象可呈现由成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理环境中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

硬件

许多电子系统使得个体能够与各种SR环境进行交互和/或感知各种SR环境。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计为接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理环境的图像/视频和/或捕获物理环境的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，代表图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理环境中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

图1示出了用于根据声音设计者的希望来产生构成的空间声音的定制混音(作为新空间音频对象108)的空间声音混合过程的概览。此处的目标是将可用到定制混音的各种空间音频录制102的不同部分“上混”，其中声音设计者可以(例如使用刷子或喷雾罐)将给定录制102的所需部分简单地“绘画”到定制混音球体的表面的所需部分上。需注意，术语定制混音球体是指新空间音频对象108的可视化，该可视化更一般地涵盖拓扑球体、球状体或任何多面体，该多面体将新空间音频对象108的性质描绘为限定虚拟声源阵列，该虚拟声源围绕大体中心收听位置。

该过程可以可存储在音频库中的一组可用空间声音录制102开始。如图1的示例中所示，可存在山中的位置的六通道麦克风录制102a、在海滩上的多通道音频录制102b和在拥挤的城市中进行的球形谐波编码版本(例如，HOA格式诸如具有通道WXYZ的B格式)的声场录制102c。这些示例性录制中的每个录制均可相对于可被视为收听位置(对于每个录制)的中心原点101进行。需注意，合成的声音可被添加到给定录制102的通道。

然后，每个声音录制102a、102b、102c…中的音频数据被采样器103采样到在球栅上的多个(N个)虚拟声源或扬声器上或将音频数据投影到其上。这可以是球体上N个均匀间隔的虚拟源的虚拟扬声器阵列。将多通道录制(例如，球形谐波编码版本)投影到N个虚拟源的限定的球栅上被设计为保留包含在每个初始录制102中的空间线索。在许多情况下，N将大于给定录制102中的通道的数量，并且在此类情况下，采样器103可被称为上采样器或上混器。结果为对于声音录制102a、102b…中的每个声音录制的相应空间音频对象105a、105b…，每个声音录制可具有相同空间音频格式，从而使用N个虚拟源的相同球栅(但当然，如投影所计算的，在整个虚拟源具有不同音频信号增益)。空间音频对象在本文中也被称为多通道内容的空间床。

在一个实施方案中，例如作为SR应用程序开发平台的一部分，将输入空间音频对象105中的每个输入空间音频对象的可视化生成为球状体，该球状体的外皮可具有不同阴影或外皮。例如，每个球状体的外皮可显示代表其录制声音场景(例如，用于高山场景的树木、用于海滩场景的海浪、和用于城市场景的在繁忙的人行道上的人)的图像(例如，视频的静止画面或动画序列)。

每个输入空间音频对象105可包括作为虚拟声源的N元素球栅阵列的多通道音频内容。每个输入对象105和新空间音频对象108的虚拟声源可位于相同N元素球栅阵列上，并且可围绕可位于N元素球栅的中心处的公共收听位置。场景组合器208可执行被称为组合效果矩阵104的矩阵算术过程，该矩阵算术过程可组合三组虚拟源，在这种情况下，由用户(例如，声音设计者)通过用户界面106选择的三个输入音频对象105a-105c的三组虚拟源。这三个根据分别通过用户界面106从用户接收的三个喷涂绘画控制命令来进行组合。然后，组合效果矩阵104过程可产生三组虚拟源的(三个输入对象105的虚拟源)的总和作为新空间音频对象108的一部分。在该示例中，包含高山声音场景、海滩场景和城市场景的空间音频对象105a、105b、105c要由场景组合器208混合成新空间音频对象108，该新空间音频对象可向声音设计者视觉化为定制混音球体(球状体)。使定制混音球体的将具有如用户所选择的声音的部分成阴影或示出，以示出如图所示的高山图像、海滩图像和城市图像。在该特定示例中，用户已选择为远扇形选择高山声音、为垂直延伸的球形帽选择城市声音、并且为城市声音和高山声音之间的下方扇形选择海滩声音。

然后，可由空间音频渲染器110渲染包含此类构成的空间声音的新空间音频对象108(由于由组合效果矩阵104过程“上混”若干输入音频对象)，以用于输出作为通过特定扬声器系统109的空间声音。渲染可以是对于通过扬声器系统109的空间声音输出的双耳渲染，该扬声器系统具有由声音设计者佩戴的耳机，或者其可以是通过头戴式耳机的双耳渲染和在房间中的一个或多个扬声器的存在下的组合。佩戴头戴式耳机的用户可由渲染器分配到收听位置，该收听位置可位于新空间音频对象108的球形虚拟扬声器阵列的中心处。双耳渲染器可使用头部跟踪作为SR环境的一部分，该SR环境显示在定制混音球体的表面上表示的不同声音场景的可视化，就像声音设计者位于定制混音球体的内部一样。这样，在声音设计者旋转其跨越方位的头部时，使通过头戴式耳机的用户听到的声音输出变化，以反映用户现在正直接面对特定声音场景的新声学条件，而其他声音场景位于声音设计者头部的正前方的一侧或后方。

图2示出了场景组合器208已接收到对第三输入对象(即，包含海滩声音的对象102b)的选择和对定制混音球体的第三部分的选择的示例，要在该第三部分处渲染选择的第三输入对象的声音。在这种情况下，第三部分位于(定制混音球体的)左前上象限的最左侧边缘处，即到在定制混音球体的中心处(由用户轮廓符号)示出的收听位置113的左侧。需注意，第三部分如何与已用输入对象102a(高山声音)“绘画”的第一部分重叠。因此，在这种情况下生成新空间音频对象108包括将输入对象102b的海滩声音与要在定制混音球体的第三部分(该第三部分与第一部分的一些重叠)处渲染的输入对象102a的高山声音组合。当然，还存在已用输入对象102c(城市声音)绘画的第二部分，即，右半球。

现在转向图3，该图示出了向下俯视定制混音球体(表示新空间音频对象108)的顶视图，其中收听位置113位于中心处，球体的上半部用高山声音绘画，下半部用城市声音绘画。还考虑，存在已在城市声音部分的左象限中绘画的嗓音声音(由一个小的面部符号表示)。如果声音设计者希望该嗓音声音为更可识别的(在收听位置113处)，则他们可如图所示在嗓音声音的位置周围绘画(或“发出闪光”)城市声音部分的子集，并将其指定为要将特定声音效果应用于其的目标部分，该目标部分期望使嗓音声音更突出。更一般地，在此类情况下，场景组合器208接收变化声音命令，以使定制混音球体的目标部分的声音变化。作为响应，可通过(根据变化声音命令)限定可应用于从任何输入空间音频对象获得的声音的滤波或增益来生成新空间音频对象108，要在(例如，如变化声音命令中所指定的)目标部分处渲染该声音。滤波可例如为低通滤波，其被指定为仅应用于背景或环境声音，此处为城市声音(而不是嗓音声音)，从而衰减虚拟声源阵列的目标部分的高频分量。更一般地，变化声音命令可如例如减小给定虚拟球体的选择的部分的音量(例如，标量增益)一样简单，或者其可更复杂并且可包括应用于虚拟球体的选择的部分的任何类型的音色效果，例如频谱整形，诸如低通滤波、动态范围控制、混响等。

图4示出了由用户界面106在计算机系统的显示屏上向声音设计者可视化的内容的示例。左列窗格包含可用输入音频对象105a-105c的可视化，并且这些可视化可由用户(例如，经由光标控制)选择，并且可被拖动并放置到声场的邻近右侧的画布上。通过将城市声音(表示输入对象105c)的可视化拖动到中间的大正方形部分中、以及将高山声音(表示输入对象105a)的可视化拖动邻近左侧、以及将海滩声音(表示输入对象105c)的可视化拖动邻近右侧，如图所示，已经画出了表示定制混音球体(参见图1)的内表面的该画布。根据图4所示的绘画生成的所得新空间音频对象108可由声音设计者听到(例如，通过由声音设计者佩戴的头戴式耳机进行双耳渲染)，就像声音设计者在声音的虚拟球体(如图1中所示的定制混音球体所表示的)中心处的收听位置113处(参见图3)一样。

图5示出了通过计算机系统用于空间声音上混的操作的过程流程图。空间音频库具有存储在其中的多种声音录制102a、102b…，这些声音录制已在其中捕获各种类型的环境(例如，海滩声音环境、高山声音环境和城市声音环境)的环境声音、以及例如语音的单声道录制。这些可能来自第三方。空间床采样过程314可由计算机系统执行，以将选择的声音录制102采样到虚拟声源的球形均匀网格上，从而生成输入空间床(例如，声音的虚拟球体)。过程306生成每个空间床的可视化，例如，作为球状体(球体)，该球状体(球体)具有与声音录制102相关联的图像以及可由声音设计者从中选择虚拟球体的区段或部分的可选择表面。

可以是图形用户界面的用户界面106用于使得声音设计者能够输入用于空间床合成器308的命令。这些命令向合成器308发出信号以选择输入空间床(空间床选择器304)。例如，输入空间床(或输入空间音频对象105—参见图1)的选择的部分可被复制并绘画到新空间床的一个或多个区段上(操作308)。这可导致从若干输入空间床选择声音，然后根据声音设计者经由用户界面106所进行的选择将该声音结合成单个空间音频对象108(例如，城市声音、海滩声音和语音声音)。

在已将至少两个空间床采样到均匀网格并且因此可用作空间音频对象105之后，空间床合成器308生成(操作306)可经由空间床组合器界面(例如，界面106)呈现给用户的每个空间床的可视化，诸如具有可选择表面的球体的可视化，用户(例如声音设计者)可从该可选择表面选择声音的虚拟球体或用于组成新空间床的空间床的区段。例如，空间床选择器304可被配置为复制空间床的选择的区段。

在一个实施方案中，正创建的新空间床也作为定制混音球体呈现给用户，输入空间床的选择的区段可使用空间床合成器308作为可视化复制到该定制混音球体上。例如，空间床合成器308使得用户能够“绘画”从一个可视化空间床选择和复制到新可视化空间床的一个或多个区段的声音。一旦已将可视化空间床的所有所需区段复制到新可视化空间床，因此就可生成新组合空间音频对象108。

在一个实施方案中，效果操作312使得声音设计者能够设定每个通道水平(增益调节)或每个通道传输功能(滤波)，该通道水平或通道传输功能要应用于给定输入空间床，已选择结合成新空间音频对象108。这允许创建新空间音频对象108，其中将任何一个或多个所需声音效果应用于其组成(输入空间床)。这样，空间音频上混使得能够以每个通道水平的粒度进行输入空间音频对象的每个通道混合以形成新空间音频对象，以获得比常规声音混合可能的更大的灵活性。

在一个实施方案中，空间床合成器308被进一步配置为使得声音设计者能够添加在已被采样到均匀网格上的录制102中可用的语音声音元素(嗓音声音)(以创建空间床或嗓音声音的输入空间音频对象)。类似于其他输入空间对象，可将嗓音声音对象添加或绘画到定制混音球体的一个或多个选择的部分上(表示新空间音频对象108)。最终结果是构成的空间音频对象210，其适于由例如双耳渲染引擎214或其他空间音频渲染器渲染以输出3D声音。

本文所述的系统和方法可在多种不同数据处理系统和设备中实现，诸如服务器系统、台式计算机、膝上型计算机、嵌入式电子设备或消费电子设备。通过本描述将显而易见的是，本发明的各方面可至少部分地在软件中体现。也就是说，响应于其一个或多个处理器(通常此处是指“处理器”)执行存储介质(诸如非暂态机器可读存储介质(例如DRAM或闪存存储器))中包含的指令序列而可在数据处理系统中实施这些技术。在各种实施方案中，可将硬连线的电路与软件指令结合使用来实施本发明。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由数据处理系统执行的指令的任何特定源。此外，应当理解，在描述移动设备或手持设备的情况下，这种描述涵盖移动设备(例如膝上型电脑设备、平板设备)、手持设备(例如智能电话)以及适合用于可穿戴电子设备中的嵌入式系统。

在上述说明书中，已描述特定示例性实施方案。显而易见的是，可在不脱离以下权利要求所给出的更广泛的实质和范围的情况下对那些实施方案作出各种修改。相应地，说明书和附图被视为是例示性意义而不是限定性意义。

Claims

1.一种用于创建不同空间音频对象的定制混音的计算机实现的方法，所述方法包括由计算机执行的如下操作：

接收对第一输入空间音频对象和所述第一输入空间音频对象的第一部分的选择；

接收对定制混音可视化的第一部分的选择，要在所述第一部分处渲染所述第一输入空间音频对象的声音；

接收对第二输入空间音频对象的选择；

接收对所述定制混音可视化的第二部分的选择，要在所述第二部分处渲染所述第二输入空间音频对象的声音；并且

生成表示虚拟声源阵列的新空间音频对象，所述虚拟声源限定所述新空间音频对象的声场，其中：

所述第一输入空间音频对象表示虚拟声源的第一阵列，虚拟声源的所述第一阵列i)定义所述第一输入空间音频对象的声场，并且ii)具有与所述新空间音频对象的所述虚拟声源阵列相同的虚拟声源栅，

所述第一输入空间音频对象的所述第一部分包括所述第一阵列的所选择的部分，并且

所述第一阵列的所述所选择的部分成为所述新空间音频对象的所述虚拟声源阵列的对应部分。

2.根据权利要求1所述的计算机实现的方法，其中所述定制混音可视化为球状体，并且其中所述虚拟声源阵列为球形虚拟声源阵列。

3.根据权利要求2所述的计算机实现的方法，其中所选择的所述第一部分具有不规则球形形状。

4.根据权利要求2所述的计算机实现的方法，其中所选择的所述第一部分为球楔的外表面。

5.根据权利要求2所述的计算机实现的方法，其中所选择的所述第一部分为球形扇形的外表面。

6.根据权利要求1至5中任一项所述的计算机实现的方法，还包括接收对第三输入空间音频对象的选择；以及

接收对所述定制混音可视化的第三部分的选择，要在所述第三部分处渲染所述第三输入对象的声音，其中所述第三部分与所述第一部分重叠，并且其中生成所述新空间音频对象包括将所述第三输入对象的声音与所述第一输入对象的要在所述定制混音可视化的所述第三部分处渲染的声音组合。

7.根据权利要求1至5中任一项所述的计算机实现的方法，还包括接收变化声音命令以使所述定制混音可视化的目标部分的声音变化，其中生成所述新空间音频对象包括根据所述变化声音命令限定要应用于任何输入对象的所述声音的滤波或增益，要在所述目标部分处渲染所述声音。

8.根据权利要求1至5中任一项所述的计算机实现的方法，还包括：

将多通道音频录制上采样到虚拟声源的所述第一阵列上，虚拟声源的所述第一阵列是均匀间隔的球栅，以生成所述第一输入空间音频对象。

9.根据权利要求1至5中任一项所述的计算机实现的方法，还包括通过扬声器系统将所述新空间音频对象渲染用于输出作为空间声音。

10.根据权利要求1至5中任一项所述的计算机实现的方法，还包括通过耳机将所述新空间音频对象双耳渲染用于输出作为空间声音。

11.根据权利要求1至5中任一项所述的计算机实现的方法，还包括将所述第一输入空间音频对象和所述第二输入空间音频对象中的每一者的可视化生成为球状体，所述球状体的外皮具有代表在所述输入空间音频对象中捕获的录制声音场景的图像。

12.根据权利要求1至5中任一项所述的计算机实现的方法，其中所述第一输入空间音频对象和所述第二输入空间音频对象中的每一者包括已投影到虚拟声源的N元素球栅阵列上的多通道音频内容，所述虚拟声源限定围绕所述第一输入空间音频对象和的所述第二输入空间音频对象中的所述每一者的中心收听位置的声场，所述新空间音频对象包括虚拟声源的N元素球栅阵列，并且生成所述新空间音频对象包括执行对所述第一输入音频对象和所述第二输入音频对象中的所述虚拟声源的矩阵和。

13.一种用于创建不同空间音频对象的定制混音的计算机系统，所述计算机系统包括

处理器和存储器，所述存储器具有存储在其中的指令，所述指令将所述处理器配置为：

接收对第一输入空间音频对象的选择；

接收对第二输入空间音频对象的选择；

14.根据权利要求13所述的计算机系统，其中所述定制混音可视化为球状体，并且其中所述虚拟声源阵列为球形虚拟声源阵列。

15.根据权利要求14所述的计算机系统，其中所选择的所述第一部分具有不规则球形形状。

16.根据权利要求13至15中任一项所述的计算机系统，其中所述存储器具有存储在其中的另外的指令，所述指令在由所述处理器执行时：

接收对第三输入空间音频对象的选择；以及

17.根据权利要求13至15中任一项所述的计算机系统，其中所述存储器具有存储在其中的另外的指令，所述指令在由所述处理器执行时：

接收变化声音命令以使所述定制混音可视化的目标部分的声音变化，其中生成所述新空间音频对象包括根据所述变化声音命令限定要应用于输入对象的所述声音的滤波或增益，要在所述目标部分处渲染所述声音。

18.根据权利要求13至15中任一项所述的计算机系统，其中所述存储器具有存储在其中的另外的指令，所述指令在由所述处理器执行时将多通道音频录制上采样到虚拟声源的所述第一阵列上，虚拟声源的所述第一阵列是均匀间隔的球栅，以生成所述第一输入空间音频对象。

19.根据权利要求13至15中任一项所述的计算机系统，其中所述存储器具有存储在其中的另外的指令，所述指令在由所述处理器执行时通过扬声器系统将所述新空间音频对象渲染用于输出作为空间声音。

20.根据权利要求13至15中任一项所述的计算机系统，其中所述存储器具有存储在其中的另外的指令，所述指令在由所述处理器执行时执行通过耳机将所述新空间音频对象双耳渲染用于输出作为空间声音。

21.根据权利要求13至15中任一项所述的计算机系统，其中所述存储器具有存储在其中的另外的指令，所述指令在由所述处理器执行时将所述第一输入空间音频对象和所述第二输入空间音频对象中的每一者的可视化生成为球状体，所述球状体的外皮具有代表在所述输入空间音频对象中捕获的录制声音场景的图像。

22.根据权利要求13至15中任一项所述的计算机系统，其中所述第一输入空间音频对象和所述第二输入空间音频对象中的每一者包括已投影到虚拟声源的N元素球栅阵列上的多通道音频内容，所述虚拟声源限定围绕所述第一输入空间音频对象和的所述第二输入空间音频对象中的所述每一者的中心收听位置的声场，所述新空间音频对象包括虚拟声源的N元素球栅阵列，并且生成所述新空间音频对象包括执行对所述第一输入音频对象和所述第二输入音频对象中的所述虚拟声源的矩阵和。