CN110797037A

CN110797037A - 用于处理音频数据的方法和装置、介质及设备

Info

Publication number: CN110797037A
Application number: CN201911130633.3A
Authority: CN
Inventors: D·J·布瑞巴特; 芦烈; N·R·清格斯; A·玛蒂奥斯索尔
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-07-31
Filing date: 2014-07-24
Publication date: 2020-02-14
Anticipated expiration: 2034-07-24
Also published as: US20170223476A1; WO2015017235A1; HK1229945A1; RU2646344C2; US10003907B2; EP3028273B1; JP2022136263A; JP2024105657A; JP2025066764A; KR101681529B1; JP2016530803A; US20250142285A1; KR20160021892A; CN105431900A; KR20230007563A; KR102327504B1; RU2016106913A; JP6388939B2; US20180295464A1; KR102484214B1

Abstract

本公开涉及用于处理音频数据的方法和装置、介质及设备。弥漫性或空间上的大音频对象可被识别以进行特殊处理。去相关过程可以对对应于大音频对象的音频信号执行，以产生去相关的大音频对象音频信号。这些去相关的大音频对象音频信号可以与对象位置关联，对象位置可以是固定的或随时间变化的位置。例如，去相关的大音频对象音频信号可以被渲染到虚拟或实际扬声器位置。这种渲染过程的输出可以被输入到场景简化过程。去相关、关联和/或场景简化过程可以在编码音频数据的过程之前执行。

Description

用于处理音频数据的方法和装置、介质及设备

本申请是申请号为201480043090.0、申请日为2014年7月24日、发明名称为“空间上的弥散性或大音频对象的处理”的发明专利申请的分案申请。

对相关申请的交叉引用

本申请要求于2013年7月31日提交的西班牙专利申请No.P201331193和2013年10月2日提交的美国临时申请No.61/885,805的优先权，每个申请的全部内容都通过引用被结合于此。

技术领域

本公开内容涉及处理音频数据。更具体而言，本公开内容涉及处理对应于弥漫性(diffuse)或空间上的大音频对象的音频数据。

背景技术

自1927年在电影中引入声音开始，用来捕获运动画面声轨的艺术意图并且再现这种内容的技术一直稳步发展。在20世纪70年代，杜比(Dolby)推出了利用3个屏幕通道和一个单环绕声道编码和分布混合的成本有效手段。在20世纪90年代，杜比利用5.1通道格式将数字声音带到电影院，该5.1通道格式提供分立的左、中、右屏幕通道，左和右环绕声阵列以及用于低频效果的低音炮通道。在2010年推出的杜比环绕7.1通过将现有的左和右环绕通道分为四个“区”，增加了环绕通道的数量。

电影院和家庭影院音频重放系统正变得越来越多功能和复杂。家庭影院音频重放系统包括越来越多数量的扬声器。随着通道数量增加并且喇叭布局从平面二维(2D)阵列变迁到包括仰角(elevation)的三维(3D)阵列，在重放环境中再现声音正成为更加复杂的过程。改进的音频处理方法将是期望的。

发明内容

提供了用于处理弥漫性或空间上的大音频对象的改进方法。如本文所使用的，术语“音频对象”指音频信号(本文也称为“音频对象信号”)和无需参照任何特定的重放环境就可被创建或“创作”的关联的元数据。关联的元数据可以包括音频对象位置数据、音频对象增益数据、音频对象尺寸数据、音频对象轨迹数据，等等。如本文所使用的，术语“渲染”指将音频对象变换成用于特定重放环境的扬声器馈送信号的过程。渲染过程可以至少部分地根据关联的元数据并根据重放环境数据来执行。重放环境数据可以包括重放环境中扬声器数量的指示和重放环境内每个扬声器的位置的指示。

空间上的大音频对象不是要被感知为点声源，而是应当被感知为覆盖大的空间区域。在一些情况下，大音频对象应当被感知为围绕听者。这种音频效果可能无法仅仅通过平移(panning)来实现，而是可能需要另外的处理。为了创建令人信服的空间对象尺寸，或空间弥漫性，重放环境中显著比例的扬声器信号应当相互独立，或至少不相关(例如，就一阶交叉相关或协方差而言是独立的)。足够复杂的渲染系统，诸如用于剧院的渲染系统，可以能够提供这种去相关。但是，不太复杂的渲染系统，诸如要用于家庭影院系统的那些，可能不能够提供足够的去相关。

本文所描述的一些实施方式可以涉及识别弥漫性或空间上的大音频对象以进行特殊处理。去相关过程可以对对应于大音频对象的音频信号执行，以产生去相关的大音频对象音频信号。这些去相关的大音频对象音频信号可以与对象位置关联，对象位置可以是静止的或随时间变化的位置。关联过程可以独立于实际重放扬声器配置。例如，去相关的大音频对象音频信号可以被渲染到虚拟扬声器位置。在一些实施方式中，这种渲染过程的输出可以被输入到场景简化过程。

因此，本公开内容的至少一些方面可以在可以涉及接收包括音频对象的音频数据的方法中实现。音频对象可以包括音频对象信号和关联的元数据。元数据可以至少包括音频对象尺寸数据。

该方法可以涉及，基于音频对象尺寸数据，确定音频对象尺寸大于阈值尺寸的大音频对象并且对大音频对象的音频信号执行去相关过程，以产生去相关的大音频对象音频信号。该方法可以涉及将去相关的大音频对象音频信号与对象位置关联。关联过程可以独立于实际重放扬声器配置。实际重放扬声器配置可以最终被用来向重放环境的扬声器渲染去相关的大音频对象音频信号。

该方法可以涉及接收用于大音频对象的去相关元数据。去相关过程可以至少部分地根据该去相关元数据来执行。该方法可以涉及编码从关联过程输出的音频数据。在一些实施方式中，编码过程可以不涉及编码用于大音频对象的去相关元数据。

对象位置可以包括对应于接收的音频对象的至少一些音频对象位置数据的位置。至少一些对象位置可以是固定的。但是，在一些实施方式中，至少一些对象位置可以随时间变化。

关联过程可以涉及根据虚拟扬声器位置渲染去相关的大音频对象音频信号。在一些例子中，接收过程可以涉及接收对应于扬声器位置的一个或多个音频床(bed)信号。该方法可以涉及混合接收的音频床信号或接收的音频对象信号当中至少一些与去相关的大音频对象音频信号。该方法可以涉及输出去相关的大音频对象音频信号，作为另外的音频床信号或音频对象信号。

该方法可以涉及向去相关的大音频对象音频信号应用电平调节过程。在一些实施方式中，大音频对象元数据可以包括音频对象位置元数据并且电平调节过程可以至少部分地依赖于大音频对象的音频对象尺寸元数据和音频对象位置元数据。

该方法可以涉及在执行去相关过程之后衰减或删除大音频对象的音频信号。但是，在一些实施方式中，该方法可以涉及在执行去相关过程之后保留对应于大音频对象的点源贡献的音频信号。

大音频对象元数据可以包括音频对象位置元数据。在一些这样的实施方式中，该方法可以涉及计算来自由大音频对象位置数据和大音频对象尺寸数据定义的音频对象面积或体积内的虚拟源的贡献。该方法还可以涉及至少部分地基于计算的贡献为多个输出通道当中每一个确定音频对象增益值的集合。该方法可以涉及混合去相关的大音频对象音频信号与用于在空间上与该大音频对象分开的距离为阈值量的音频对象的音频信号。

在一些实施方式中，该方法可以涉及在去相关过程之后执行音频对象群集过程。在一些这样的实施方式中，音频对象群集过程可以在关联过程之后执行。

该方法可以涉及评估音频数据，以确定内容类型。在一些这样的实施方式中，去相关过程可以根据内容类型被有选择地执行。例如，要执行的去相关的量可以依赖于内容类型。去相关过程可以涉及延迟、全通滤波器、伪随机滤波器和/或混响(reverberation)算法。

在本文中公开的方法可以经由硬件、固件、存储在一个或多个非暂态介质中的软件和/或其组合来实现。例如，本公开内容的至少一些方面可以在包括接口系统和逻辑系统的装置中实现。接口系统可以包括用户接口和/或网络接口。在一些实施方式中，该装置可以包括存储器系统。接口系统可以包括逻辑系统与存储器系统之间的至少一个接口。

逻辑系统可以包括至少一个处理器，诸如通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件，和/或其组合。

在一些实施方式中，逻辑系统可以能够经由接口系统接收包括音频对象的音频数据。音频对象可以包括音频对象信号和关联的元数据。在一些实施方式中，元数据至少包括音频对象尺寸数据。逻辑系统可以能够基于音频对象尺寸数据确定音频对象尺寸大于阈值尺寸的大音频对象并且对大音频对象的音频信号执行去相关过程，以产生去相关的大音频对象音频信号。逻辑系统可以能够将去相关的大音频对象音频信号与对象位置关联。

关联过程可以独立于实际重放扬声器配置。例如，关联过程可以涉及根据虚拟扬声器位置渲染去相关的大音频对象音频信号。实际重放扬声器配置可以最终被用来向重放环境的扬声器渲染去相关的大音频对象音频信号。

逻辑系统可以能够经由接口系统接收用于大音频对象的去相关元数据。去相关过程可以至少部分地根据该去相关元数据来执行。

逻辑系统可以能够编码从关联过程输出的音频数据。在一些实施方式中，编码过程可以不涉及编码用于大音频对象的去相关元数据。

至少一些对象位置可以是固定的。但是，至少一些对象位置可以随时间变化。大音频对象元数据可以包括音频对象位置元数据。对象位置可以包括对应于接收的音频对象的至少一些音频对象位置元数据的位置。

接收过程可以涉及接收对应于扬声器位置的一个或多个音频床信号。逻辑系统可以能够混合接收的音频床信号或接收的音频对象信号当中至少一些与去相关的大音频对象音频信号。逻辑系统可以能够输出去相关的大音频对象音频信号，作为另外的音频床信号或音频对象信号。

逻辑系统可以能够对去相关的大音频对象音频信号应用电平调节过程。电平调节过程可以至少部分地依赖于大音频对象的音频对象尺寸元数据和音频对象位置元数据。

逻辑系统可以能够在执行去相关过程之后衰减或删除大音频对象的音频信号。但是，该装置可以能够在执行去相关过程之后保留对应于大音频对象的点源贡献的音频信号。

逻辑系统可以能够计算来自由大音频对象位置数据和大音频对象尺寸数据定义的音频对象面积或体积内的虚拟源的贡献。逻辑系统可以能够至少部分地基于计算出的贡献为多个输出通道当中每一个确定音频对象增益值的集合。逻辑系统可以能够混合去相关的大音频对象音频信号与用于在空间上与大音频对象分开的距离为阈值量的音频对象的音频信号。

逻辑系统可以能够在去相关过程之后执行音频对象群集过程。在一些实施方式中，音频对象群集过程可以在关联过程之后执行。

逻辑系统可以能够评估音频数据，以确定内容类型。去相关过程可以根据内容类型被有选择地执行。例如，要执行的去相关的量依赖于内容类型。去相关过程可以涉及延迟、全通滤波器、伪随机滤波器和/或混响算法。

本说明书中所描述的主题的一个或多个实施方式的细节在附图和以下描述中阐述。其它特征、方面和优点将从描述、附图和权利要求变得明了。应当注意的是，以下附图的相对尺寸可能不是按比例绘制的。

附图说明

图1示出了具有杜比环绕5.1配置的重放环境的例子。

图2示出了具有杜比环绕7.1配置的重放环境的例子。

图3A和3B示出了包括高度扬声器配置的家庭影院重放环境的两个例子。

图4A示出了描绘虚拟重放环境中的仰角变化的扬声器区的图形用户界面(GUI)的例子。

图4B示出了另一重放环境的例子。

图5是提供用于空间上的大音频对象的音频处理的例子的流程图。

图6A-6F是示出能够处理大音频对象的音频处理装置的组件的例子的框图。

图7是示出能够执行群集过程的系统的例子的框图。

图8是示出能够在自适应音频处理系统中群集对象和/或床的系统的例子的框图。

图9是提供在用于大音频对象的去相关过程之后进行群集过程的例子的框图。

图10A示出了相对于重放环境的虚拟源位置的例子。

图10B示出了相对于重放环境的虚拟源位置的替代性例子。

图11是提供音频处理装置的组件的例子的框图。

相同的附图标记和符号在各个附图中指示相同的要素。

具体实施方式

下面的描述针对用于描述本公开内容的一些创新方面的目的的某些实施方式，以及可以实现这些创新方面的情境的例子。但是，本文的教导可以按各种不同的方式应用。例如，虽然各种实施方式是就特定的重放环境进行描述的，但本文的教导广泛适用于其它已知的重放环境，以及可能将来被推出的重放环境。而且，所描述的实施方式可以至少部分地在各种设备和系统中被实现为硬件、软件、固件、基于云的系统，等等。因此，本公开内容的教导并不旨在限于附图中示出和/或在本文描述的实施方式，而是具有广泛的适用性。

图1示出了具有杜比环绕5.1配置的重放环境的例子。在这个例子中，重放环境是电影院重放环境。杜比环绕5.1是在20世纪90年代开发的，但这种配置仍然在家庭和电影院重放环境中被广泛部署。在电影院重放环境中，投影仪105可以被配置为将视频图像，例如电影的视频图像，投影到屏幕150上。音频数据可以与视频图像同步并且由声音处理器110处理。功率放大器115可以将扬声器馈送信号提供到重放环境100的扬声器。

杜比环绕5.1配置包括用于左环绕阵列122的左环绕通道120和用于右环绕阵列127的右环绕通道125。杜比环绕5.1配置还包括用于左扬声器阵列132的左通道130、用于中央扬声器阵列137的中央通道135、以及用于右扬声器阵列142的右通道140。在电影院环境中，这些通道可以分别被称为左屏幕通道、中央屏幕通道和右屏幕通道。独立的低频效果(LFE)通道144为低音炮145提供。

在2010年，杜比通过推出杜比环绕7.1提供了对数字影院声音的增强。图2示出了具有杜比环绕7.1配置的重放环境的例子。数字投影仪205可以被配置为接收数字视频数据并在屏幕150上投影视频图像。音频数据可以由声音处理器210处理。功率放大器215可以向重放环境200的扬声器提供扬声器馈送信号。

就像杜比环绕5.1，杜比环绕7.1配置包括用于左扬声器阵列132的左通道130、用于中央扬声器阵列137的中央通道135、用于右扬声器阵列142的右通道140以及用于低音炮145的LFE通道144。杜比环绕7.1配置包括左侧环绕(Lss)阵列220和右侧环绕(Rss)阵列225，其每一个可以由单个通道来驱动。

但是，杜比环绕7.1通过将杜比环绕5.1的左和右环绕通道分割为四个区来增加环绕通道的数量：除左侧环绕阵列220和右侧环绕阵列225之外，还包括用于左后环绕(Lrs)扬声器224和右后环绕(Rrs)扬声器226的单独通道。增加重放环境200中环绕区的数量可以显著改善声音的定位。

在努力创造更加身临其境的环境的过程当中，一些重放环境可以被配置为具有由数量增加的通道驱动的数量增加的扬声器。而且，一些重放环境可以包括以各种仰角部署的扬声器，其中一些可以是被配置为从重放环境的就座区域上方的区域产生声音的“高度扬声器”。

图3A和3B示出了包括高度扬声器配置的家庭影院重放环境的两个例子。在这些例子中，重放环境300a和300b包括杜比环绕5.1配置的主要特征，包括左环绕扬声器322、右环绕扬声器327、左扬声器332、右扬声器342、中央扬声器337和低音炮145。但是，重放环境300包括杜比环绕5.1配置对高度扬声器的扩展，其可以被称为杜比环绕5.1.2配置。

图3A示出了家庭影院重放环境的具有安装在天花板360上的高度扬声器的重放环境的例子。在这个例子中，重放环境300a包括位于左顶部中间(Ltm)位置的高度扬声器352和位于右顶部中间(Rtm)位置的高度扬声器357。在图3B所示的例子中，左扬声器332和右扬声器342是被配置为反射来自天花板360的声音的杜比仰角扬声器。如果被正确地配置，则所反射的声音可以被听者365察觉到，就好像声源是源自天花板360的。但是，扬声器的数量和配置仅仅是作为例子提供的。一些目前的家庭影院实施方式提供了多达34个扬声器位置，并且预期的家庭影院实施方式可以允许更多的扬声器位置。

因此，现代趋势是不仅包括更多扬声器和更多通道，而且还包括处于不同高度的扬声器。随着通道数量增加以及扬声器布局从2D变迁到3D，定位和渲染声音的任务变得越来越困难。

因此，杜比已经为3D音频声音系统开发出增加功能性和/或降低创作复杂性的各种工具，包括但不限于用户接口。一些这样的工具可以被用来创建音频对象和/或用于音频对象的元数据。

图4A示出了描绘虚拟重放环境中的仰角变化的扬声器区的图形用户界面(GUI)的例子。GUI 400可以，例如，根据来自逻辑系统的指令、根据从用户输入设备接收的信号等显示在显示设备上。一些这样的设备将在下面参照图11来描述。

如本文参照诸如虚拟重放环境404的虚拟重放环境所使用的，术语“扬声器区”一般是指可以或可以不与实际重放环境的扬声器具有一一对应关系的逻辑构造。例如，“扬声器区位置”可以或可以不对应于电影院重放环境的特定扬声器位置。反而，术语“扬声器区位置”一般可以指虚拟重放环境的区。在一些实施方式中，虚拟重放环境的扬声器区可以对应于虚拟扬声器，例如，经由虚拟化技术的使用，诸如利用双通道立体声耳机的集合实时地创建虚拟环绕声环境的DolbyHeadphone^TM(有时被称为Mobile Surround^TM)。在GUI 400中，在第一仰角有七个扬声器区402a并且在第二仰角有两个扬声器区402b，使得在虚拟重放环境404中共有九个扬声器区。在这个例子中，扬声器区1-3在虚拟重放环境404的前部区域405中。前部区域405可以，例如，对应于电影院重放环境中屏幕150所在的区域，对应于家里电视屏幕所在的区域，等等。

这里，扬声器区4一般对应于虚拟重放环境404的左区域410中的扬声器并且扬声器区5对应于右区域415中的扬声器。扬声器区6对应于虚拟重放环境404的左后方区域412并且扬声器区7对应于右后方区域414。扬声器区8对应于上部区域420a中的扬声器并且扬声器区9对应于上部区域420b(其可以是虚拟的天花板区域)中的扬声器。因此，在图4A中示出的扬声器区1-9的位置可以或可以不对应于实际重放环境的扬声器位置。而且，其它实施方式可以包括更多或更少的扬声器区和/或仰角。

在本文描述的各种实施方式中，诸如GUI 400的用户接口可以被用作创作工具和/或渲染工具的一部分。在一些实施方式中，创作工具和/或渲染工具可以经由存储在一个或多个非暂态介质上的软件来实现。创作工具和/或渲染工具可以(至少部分地)由硬件，固件(诸如以下参照图11描述的逻辑系统和其它设备)等实现。在一些创作实施方式中，关联的创作工具可以被用来创建用于关联的音频数据的元数据。元数据可以，例如，包括指示三维空间中音频对象的位置和/或轨迹的数据、扬声器区约束数据，等等。元数据可以关于虚拟重放环境404的扬声器区402，而不是关于实际重放环境的特定扬声器布局，来创建。渲染工具可以接收音频数据和关联的元数据，并且可以计算用于重放环境的音频增益和扬声器馈送信号。这种音频增益和扬声器馈送信号可以根据振幅平移过程来计算，这会产生声音来自重放环境中的位置P的感觉。例如，扬声器馈送信号可以根据下式被提供给重放环境的扬声器1至N：

x_i(t)＝g_ix(t),i＝1,...N (式1)。

在式1中，x_i(t)代表要被施加到扬声器i的扬声器馈送信号，g_i代表对应通道的增益因子，x(t)代表音频信号，t代表时间。增益因子可以，例如，根据通过引用并入本文的“V.Pulkki，Compensating Displacement of Amplitude-Panned Virtual Sources(AudioEngineering Society(AES)International Conference on Virtual,Synthetic andEntertainment Audio)”的第2部分第3-4页中所描述的振幅平移方法来确定。在一些实施方式中，增益可以是依赖频率的。在一些实施方式中，时间延迟可以通过用x(t-Δt)替换x(t)来引入。

在一些渲染实施方式中，参照扬声器区402创建的音频再现数据可以被映射到大范围的重放环境的扬声器位置，所述重放环境可以是杜比环绕5.1配置、杜比环绕7.1配置、Hamasaki 22.2配置或其它配置。例如，参照图2，渲染工具可以将用于扬声器区4和5的音频再现数据映射到具有杜比环绕7.1配置的重放环境的左侧环绕阵列220和右侧环绕阵列225。用于扬声器区1、2和3的音频再现数据可以分别被映射到左屏幕通道230、右屏幕通道240和中央屏幕通道235。用于扬声器区6和7的音频再现数据可以被映射到左后方环绕扬声器224和右后方环绕扬声器226。

图4B示出了另一重放环境的例子。在一些实施方式中，渲染工具可以将用于扬声器区域1、2和3的音频再现数据映射到重放环境450的对应屏幕扬声器455。渲染工具可以将用于扬声器区4和5的音频再现数据映射到左侧环绕阵列460和右侧环绕阵列465并且可以将用于扬声器区8和9的音频再现数据映射到左顶置(overhead)扬声器470a和右顶置扬声器470b。用于扬声器区6和7的音频再现数据可以被映射到左后方环绕扬声器480a和右后方环绕扬声器480b。

在一些创作实施方式中，创作工具可以被用来创建用于音频对象的元数据。元数据可以指示对象的3D位置、渲染约束、内容类型(例如，对话、效果，等等)和/或其它信息。依赖于实施方式，元数据可以包括其它类型的数据，诸如宽度数据、增益数据、轨迹数据，等等。一些音频对象可以是静态的，而另一些可以移动。

音频对象根据其关联的元数据被渲染，元数据一般包括指示在给定的时间点在三维空间中音频对象的位置的位置元数据。当音频对象在重放环境中被监视或重放时，音频对象利用重放环境中存在的扬声器根据位置元数据被渲染，而不是像对于传统的基于通道的系统(诸如杜比5.1和杜比7.1)那样被输出到预定的物理通道。

除了位置元数据，其它类型的元数据也可能是产生预期的音频效果所需的。例如，在一些实施方式中，与音频对象关联的元数据可以指示音频对象尺寸，其也可以被称为“宽度”。尺寸元数据可以被用来指示被音频对象占用的空间面积或体积。空间上的大音频对象应当被感知为覆盖大的空间区域，而不仅仅是作为具有仅由音频对象位置元数据定义的位置的点声源。在一些情况下，例如，大音频对象应当被感知为占用重放环境的显著部分，有可能甚至围绕听者。

人类听觉系统对于到达两耳的信号的相关性或相干性的变化是非常敏感的，并且，如果规格化(normalize)后的相关性小于值+1，就将这种相关性映射成感知到的对象尺寸属性。因此，为了创建令人信服的空间对象尺寸，或空间弥漫性，在重放环境中显著比例的扬声器信号应当相互独立，或者至少是不相关的(例如，就一阶交叉相关或协方差而言是独立的)。令人满意的去相关过程通常相当复杂，通常涉及时变滤波器。

电影院声轨可以包括数百个对象，每个对象都具有其关联的位置元数据/尺寸元数据和其它可能的空间元数据。而且，电影院声音系统可以包括可被单独控制的数百个喇叭，以提供音频对象位置和尺寸的令人满意的感知。因此，在电影院中，数百个对象可以由数百个喇叭再现，并且对象到扬声器信号的映射由非常大的平移系数的矩阵组成。当对象的数量由M给出并且喇叭的数量由N给出时，这个矩阵具有多达M*N个元素。这暗含了用于弥漫性或大尺寸对象的再现的含义。为了创建令人信服的空间对象尺寸，或空间弥漫性，N个喇叭信号中的相当比例的喇叭信号应当是相互独立的，或者至少是不相关的。这一般涉及使用许多(至多N个)独立的去相关过程，从而对渲染过程造成显著的处理负荷。而且，去相关的量可以对每个对象不同，这进一步使渲染过程复杂化。足够复杂的渲染系统，例如用于商业剧院的渲染系统，可以能够提供这种去相关。

但是，不太复杂的渲染系统，诸如用于家庭影院系统的那些，可能不能够提供足够的去相关。一些这样的渲染系统根本不能提供去相关。简单到足以在家庭影院系统上被执行的去相关程序会引入假象(artifact)。例如，如果低复杂度的去相关过程之后是下混过程，则可能引入梳状滤波器(comb-filter)假象。

另一个潜在的问题是，在一些应用中，基于对象的音频以向后兼容的混合的形式(诸如Dolby Digital或Dolby Digital Plus)被发送，利用用于从向后兼容的混合检索一个或多个对象的另外的信息进行增强。向后兼容的混合通常不包括去相关的效果。在一些这样的系统中，对象的重构可以仅在向后兼容的混合利用简单的平移过程创建的时候可靠地工作。在这种过程中使用去相关器会伤害音频对象重构过程，有时会很严重。在过去，这意味着可以选择不在向后兼容的混合中应用去相关，由此使该混合的艺术意图劣化，或者接受对象重构过程中的劣化。

为了解决这些潜在的问题，本文描述的一些实施方式涉及识别弥漫性或空间上的大音频对象以进行特殊处理。这种方法和设备可以特别适于要在家庭影院中渲染的音频数据。但是，这些方法和设备并不限于家庭影院的用途，而是具有广泛的适用性。

由于它们空间上弥漫性的本质，具有大尺寸的对象不被感知为具有紧凑而简洁的位置的点源。因此，多个扬声器被用来再现这种空间上弥漫性对象。但是，重放环境中被用来再现大音频对象的扬声器的确切位置没有被用来再现紧凑、小尺寸音频对象的扬声器的位置那么关键。因此，没有关于被用来最终向重放环境的实际扬声器渲染去相关的大音频对象信号的实际重放扬声器配置的先验知识，大音频对象的高品质再现也是可能的。因此，用于大音频对象的去相关过程可以在渲染音频数据用于为听者在重放环境(例如，家庭影院系统)中再现的过程之前、在“上游”执行。在一些例子中，用于大音频对象的去相关过程在编码用于发送到这种重放环境的音频数据之前执行。

这种实施方式不要求重放环境的渲染器能够进行高复杂性的去相关，由此允许渲染过程可以相对更简单、更高效和更便宜。可向后兼容的下混可以包括去相关的效果，以维持最佳可能的艺术意图，而无需为了渲染侧的去相关而重构对象。高质量的去相关器可以在最终渲染过程的上游应用于大音频对象，例如，在录音室中的创作或后期制作过程中。这种去相关器关于下混和/或其它下游音频处理可以是健壮的。

图5是提供用于空间上的大音频对象的音频处理的例子的流程图。就像对于本文所述的其它方法那样，方法500的操作不必按所指示的顺序执行。而且，这些方法可以包括比所示和/或描述的更多或更少的方框。这些方法可以至少部分地由逻辑系统，诸如在图11中示出并在下文描述的逻辑系统1110执行。这种逻辑系统可以是音频处理系统的组件。作为替代，或者另外地，这种方法可以经由其上存储有软件的非暂态介质来实现。软件可以包括用于控制一个或多个设备至少部分地执行本文所述的方法的指令。

在这个例子中，方法500始于方框505，该方框涉及接收包括音频对象的音频数据。音频数据可以由音频处理系统接收。在这个例子中，音频对象包括音频对象信号和关联的元数据。在这里，关联的元数据包括音频对象尺寸数据。关联的元数据还可以包括指示三维空间中音频对象的位置的音频对象位置数据、去相关元数据、音频对象增益信息，等等。音频数据还可以包括对应于扬声器位置的一个或多个音频床信号。

在这种实施方式中，方框510涉及，基于音频对象尺寸数据，确定音频对象尺寸大于阈值尺寸的大音频对象。例如，方框510可以涉及确定数值音频对象尺寸值是否超过预定的水平。数值音频对象尺寸值可以，例如，对应于由音频对象占用的重放环境的部分。作为替代，或者另外地，方框510可以涉及确定是否另一种类型的指示，诸如标记、去相关元数据等，指示音频对象具有大于阈值尺寸的音频对象尺寸。虽然方法500的很多讨论涉及处理单个大音频对象，但是应当认识到，相同(或类似)的过程可以应用到多个大音频对象。

在这个例子中，方框515涉及对大音频对象的音频信号执行去相关过程，从而产生去相关的大音频对象音频信号。在一些实施方式中，去相关过程可以至少部分地根据接收的去相关元数据来执行。去相关过程可以涉及延迟、全通滤波器、伪随机滤波器和/或混响算法。

在这里，在方框520中，去相关的大音频对象音频信号与对象位置关联。在这个例子中，关联过程独立于可被用来最终向重放环境的实际重放扬声器渲染去相关的大音频对象音频信号的实际重放扬声器配置。但是，在一些替代的实施方式中，对象位置可以与实际重放扬声器位置对应。例如，根据一些这样的替代的实施方式，对象位置可以与常用重放扬声器配置的重放扬声器位置对应。如果音频床信号在方框505中被接收，则对象位置可以与对应于至少一些音频床信号的重放扬声器位置对应。作为替代，或者另外地，对象位置可以是对应于接收的音频对象的至少一些音频对象位置数据的位置。因此，至少一些对象位置可以是静止的，而至少一些对象位置可以随时间变化。在一些实施方式中，方框520可以涉及混合去相关的大音频对象音频信号与用于在空间上与该大音频对象分开阈值距离的音频对象的音频信号。

在一些实施方式中，方框520可以涉及根据虚拟扬声器位置渲染去相关的大音频对象音频信号。一些这样的实施方式可以涉及计算来自由大音频对象位置数据和大音频对象尺寸数据定义的音频对象面积或体积内的虚拟源的贡献。这种实施方式可以涉及至少部分地基于计算出的贡献为多个输出通道当中每一个确定音频对象增益值的集合。一些例子在下面描述。

一些实施方式可以涉及编码从关联过程输出的音频数据。根据一些这样的实施方式，编码过程涉及编码音频对象信号和关联的元数据。在一些实施方式中，编码过程包括数据压缩过程。数据压缩过程可以是无损或有损的。在一些实施方式中，数据压缩过程涉及量化过程。根据一些例子，编码过程不涉及编码用于大音频对象的去相关元数据。

一些实施方式涉及执行音频对象群集过程，在本文也被称为“场景简化”过程。例如，音频对象群集过程可以是方框520的一部分。对于涉及编码的实施方式，编码过程可以涉及编码从音频对象群集过程输出的音频数据。在一些这样的实施方式中，音频对象群集过程可以在去相关过程之后执行。对应于方法500的方框的过程的更多例子，包括场景简化过程，在下面提供。

图6A-6F是示出如本文所述的能够处理大音频对象的音频处理系统的组件的例子的框图。这些组件可以，例如，对应于音频处理系统的逻辑系统的模块，其可以经由硬件、固件、存储在一个或多个非暂态介质中的软件或者其组合来实现。逻辑系统可以包括一个或多个处理器，诸如通用单芯片或多芯片处理器。逻辑系统可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件和/或其组合。

在图6A中，音频处理系统600能够检测大音频对象，诸如大音频对象605。检测过程可以基本上类似于参照图5的方框510描述的过程之一。在这个例子中，大音频对象605的音频信号由去相关系统610去相关，以产生去相关的大音频对象信号611。去相关系统610可以至少部分地根据接收的用于大音频对象605的去相关元数据执行去相关过程。去相关过程可以涉及延迟、全通滤波器、伪随机滤波器或混响算法当中一个或多个。

音频处理系统600还能够接收其它音频信号，在这个例子中是其它音频对象和/或床615。在这里，其它音频对象是具有低于用于将音频对象特征化为大音频对象的阈值尺寸的尺寸的音频对象。

在这个例子中，音频处理系统600能够关联去相关的大音频对象音频信号611与其它对象位置。对象位置可以是固定的或者可以随时间变化。关联过程可以类似于以上参照图5的方框520描述的过程当中一个或多个。

关联过程可以涉及混合过程。混合过程可以至少部分地基于大音频对象位置与另一对象位置之间的距离。在图6A中所示的实施方式中，音频处理系统600能够混合对应于音频对象和/或床615的至少一些音频信号与去相关的大音频对象信号611。例如，音频处理系统600可以能够混合去相关的大音频对象音频信号611与用于在空间上与该大音频对象分开阈值量的距离的其它音频对象的音频信号。

在一些实施方式中，关联过程可以涉及渲染过程。例如，关联过程可以涉及根据虚拟扬声器位置渲染去相关的大音频对象音频信号。一些例子在下面描述。在渲染过程之后，可能不需要保留对应于由去相关系统610接收的大音频对象的音频信号。因此，音频处理系统600可以被配置为在由去相关系统610执行去相关过程之后衰减或删除大音频对象605的音频信号。作为替代，音频处理系统600可以被配置为在执行去相关过程之后保留大音频对象605的音频信号的至少一部分(例如，对应于大音频对象605的点源贡献的音频信号)。

在这个例子中，音频处理系统600包括能够编码音频数据的编码器620。在这里，编码器620被配置为用于在关联过程之后编码音频数据。在这种实施方式中，编码器620能够对音频数据应用数据压缩过程。编码的音频数据622可以被存储和/或发送到其它音频处理系统，用于下游处理、重放，等等。

在图6B所示的实施方式中，音频处理系统600能够进行电平调节。在这个例子中，电平调节系统612被配置为调节去相关系统610的输出的电平。电平调节过程可以依赖于原始内容中的音频对象的元数据。在这个例子中，电平调节过程至少部分地依赖于大音频对象605的音频对象尺寸元数据和音频对象位置元数据。这种电平调节可以被用来优化去相关器输出对于其它音频对象(诸如音频对象和/或床615)的分配。可以选择将去相关器输出混合到空间上远离的其它对象信号，以便提高所产生的渲染的空间弥漫性。

作为替代，或者另外地，可以使用电平调节过程来确保对应于去相关的大音频对象605的声音只由来自某个方向的喇叭再现。这可以通过仅将去相关器输出添加到期望的方向或位置附近的对象来实现。在这种实施方式中，大音频对象605的位置元数据被含入电平调节过程中，以便保存关于所感知的声音所来自的方向的信息。这种实施方式可能对于中等尺寸的对象，例如对于被认为大、但是没有大到其尺寸包括整个再现/重放环境的音频对象，是适当的。

在图6C所示的实施方式中，音频处理系统600能够在去相关过程期间创建另外的对象或床通道。这种功能可能是期望的，例如，如果其它的音频对象和/或床615不是合适的或最佳的话。例如，在一些实施方式中，去相关的大音频对象信号611可以对应于虚拟扬声器位置。如果其它音频对象和/或床615不对应于足够靠近期望的虚拟扬声器位置的位置，则去相关的大音频对象信号611可以对应于新的虚拟扬声器位置。

在这个例子中，大音频对象605首先由去相关系统610处理。随后，对应于去相关的大音频对象信号611的另外对象或床通道被提供给编码器620。在这个例子中，去相关的大音频对象信号611在被发送到编码器620之前进行电平调节。去相关的大音频对象信号611可以是床通道信号和/或音频对象信号，后者可以对应于静止或移动对象。

在一些实施方式中，输出到编码器620的音频信号还可以包括原始大音频对象信号当中至少一些。如以上所指出的，音频处理系统600可以能够在执行去相关处理之后保留对应于大音频对象的点源贡献的音频信号。这可能是有益的，例如，因为不同的信号可以以不同的程度彼此相关。因此，通过对应于大音频对象605的原始音频信号的至少一部分(例如，点源贡献)并且分开渲染其会是有帮助的。在这种实施方式中，使对应于大音频对象605的去相关的信号与原始信号拉平(level)会是有利的。

一个这样的例子在图6D中示出。在这个例子中，原始大音频对象信号613当中至少一些进行由电平调节系统612a进行的第一拉平过程并且去相关的大音频对象信号611进行由电平调节系统612b进行的拉平过程。在这里，电平调节系统612a和电平调节系统612b将输出音频信号提供给编码器620。在这个例子中，电平调节系统612b的输出还与其它音频对象和/或床615混合。

在一些实施方式中，音频处理系统600可以能够评估输入音频数据，以确定(或至少估计)内容类型。去相关过程可以至少部分地基于内容类型。在一些实施方式中，去相关过程可以根据内容类型被有选择地执行。例如，要对输入音频数据执行的去相关的量可以至少部分地依赖于内容类型来执行。例如，一般将希望减少用于话音的去相关的量。

一个例子在图6E中示出。在这个例子中，媒体智能系统625能够评估音频信号并估计内容类型。例如，媒体智能系统625可以能够评估对应于大音频对象605的音频信号并估计内容类型是话音、音乐、声音效果，等等，在图6E所示的例子中，媒体智能系统625能够发送控制信号627，以便根据内容类型的估计来控制去相关的量或对象的尺寸处理。

例如，如果媒体智能系统625估计大音频对象605的音频信号对应于话音，则媒体智能系统625可以发送指示用于这些信号的去相关的量应当减少或者这些信号不应该被去相关的控制信号627。可以使用自动确定信号是话音信号的似然性的各种方法。根据一种实施例，媒体智能系统625可以包括能够至少部分地基于在中央通道中的音频信息生成话音似然性值的话音似然性估计器。一些例子由Robinson和Vinton在“Automated Speech/Other Discrimination for Loudness Monitoring”(Audio Engineering Society,Preprint number 6437 of Convention 118,May 2005)中描述。

在一些实施方式中，控制信号627可以指示电平调节的量和/或可以指示用于混合去相关的大音频对象信号611与用于音频对象和/或床615的音频信号的参数。

作为替代，或者另外地，用于大音频对象的去相关的量可以基于“词干(stems)”，“标志”或内容类型的其它明确指示。内容类型的这种明确指示可以，例如，由内容创建者创建(例如，在后期制作过程期间)并且作为元数据与对应的音频信号一起被发送。在一些实施方式中，这种元数据可以是人类可读的。例如，实际上，人类可读的词干或标志可以明确地指示“这是对话”、“这是特殊效果”、“这是音乐”，等等。

一些实施方式可以涉及组合在某个方面，例如就空间位置、空间尺寸或内容类型而言，相似的对象的群集过程。群集的一些例子在下面参照图7和8来描述。在图6F所示的例子中，对象和/或床615a被输入到群集过程630。更少量的对象和/或床615b从群集过程630输出。对应于对象和/或床615b的音频数据与拉平的去相关的大音频对象信号611混合。在一些替代的实施方式中，群集过程可以跟在去相关过程之后。一个例子在下面参照图9来描述。这种实施方式可以，例如，防止对话被混入具有不期望的元数据的群集，诸如不在中央扬声器附近的位置，或者大群集尺寸。

通过对象群集的场景简化

为了便于下面的描述，术语“群集”和“分组”或“组合”可互换使用，以描述对象和/或床(通道)的组合，以减少要在自适应音频重放系统中传输和渲染的自适应音频内容的单元中数据的量；并且术语“减少”可以被用来指通过对象和床的这种群集执行自适应音频的场景简化的动作。术语“群集”、“分组”或“组合”贯穿本描述都不限于对象或床通道到单个群集的严格唯一分配，相反，对象或床通道可以利用权重或增益向量在多于一个输出床或群集上分布，其中权重或增益向量确定对象或床信号对输出群集或输出床信号的相对贡献。

在一个实施例中，自适应音频系统包括至少一个被配置为通过由通道床和对象的组合创建的空间场景的对象群集和感官透明简化来减少面向对象的音频内容的带宽的组件。由(一个或多个)组件执行的对象群集过程使用关于对象的某个信息，可以包括空间位置、对象内容类型、时间属性、对象尺寸等，以通过将类似的对象分组到代替原始对象的对象群集中来减小空间场景的复杂性。

用于标准音频编码以基于原始复杂床和音轨来分布和渲染引人注目的用户体验的另外音频处理一般被称为场景简化和/或对象群集。这种处理的主要目的是通过群集或分组技术来减小空间场景，其中群集或分组技术减少要被递送到再现设备的个别音频元素(床和对象)的数量，但是仍然保留足够多的空间信息，使得在原始创作的与渲染后的输出之间感觉到的差异被最小化。

场景简化过程可以利用关于对象的信息，诸如空间位置、时间属性、内容类型，尺寸和/或其它适当的特性，促进在减少的带宽通道或编码系统中对象加床内容的渲染，以便将对象动态群集到减少的数量。这个过程可以通过执行以下群集操作当中一个或多个来减少对象的数量：(1)将对象群集到对象；(2)群集对象与床；及(3)将对象和/或床群集到对象。此外，对象可以在两个或更多个群集上分布。该过程可以使用关于对象的时间信息来控制对象的群集和去群集。

在一些实施方式中，对象群集用单个等效的波形和元数据集合代替组分对象的各个波形和元数据元素，使得用于N个对象的数据被用于单个对象的数据代替，因此基本上将对象数据从N压缩至1。作为替代，或者另外地，对象或床通道可以在多于一个群集上分布(例如，利用振幅平移技术)，从而将对象数据从N减少至M，其中M<N。群集过程可以使用基于由于被群集对象的位置、响度或其它特性变化造成的失真的误差度量，以确定群集压缩与被群集对象的声音降级之间的权衡。在一些实施例中，群集过程可以同步执行。作为替代地，或者另外地，群集过程可以是事件驱动的，诸如通过使用听觉场景分析(ASA)和/或事件边界检测，以通过群集控制对象简化。

在一些实施例中，该过程可以利用端点渲染算法和/或设备的知识来控制群集。以这种方式，重放设备的某些特性或属性可以被用来通知群集过程。例如，不同的群集方案可以被用于扬声器相对耳机或其它音频驱动器，或者不同的群集方案可以被用于无损相对有损编码，等等。

图7是示出能够执行群集过程的系统的例子的框图。如图7中所示，系统700包括处理输入音频信号以产生处于减小的带宽的输出音频信号的编码器704和解码器706阶段。在一些实施方式中，部分720和部分730可以处于不同的位置。例如，部分720可以对应于后期制作创作系统并且部分730可以对应于重放环境，诸如家庭影院系统。在图7所示的例子中，输入信号的部分709通过已知的压缩技术被处理，以产生压缩的音频位流705。压缩的音频位流705可以被解码器阶段706解码，以产生输出707的至少一部分。这种已知的压缩技术可以涉及分析输入音频内容709、量化音频数据，然后对音频数据本身执行压缩技术，诸如掩蔽等。压缩技术可以是有损的或无损的，并且可以在可以允许用户选择压缩的带宽，诸如192kbps、256kbps、512kbps等，的系统中实现。

在自适应音频系统中，输入音频的至少一部分包括包含音频对象的输入信号701，音频对象又包括音频对象信号和关联的元数据。元数据定义关联的音频内容的某些特性，诸如对象空间位置、对象尺寸、内容类型、响度等。任何实际数量的音频对象(例如，数百个对象)可以通过该系统被处理，以供重放。为了促进众多对象在各种重放系统和传输介质中的准确重放，系统700包括通过将原始对象组合成较少量的对象组将对象数量减少至更小更好管理的对象数量的群集过程或组件702。

因此，群集过程从各个输入对象701的原始集合构建对象的组，以产生较小数量的输出组703。群集过程702基本上处理对象的元数据以及音频数据本身，以产生减少数量的对象组。元数据可以被分析，以确定在任何时间点哪些对象最适于与其它对象组合，并且用于组合对象的对应音频波形可以被一起求和，以产生替代或组合对象。在这个例子中，组合对象组随后被输入到编码器704，编码器704被配置为生成包含音频和元数据的位流705，用于发送到解码器706。

一般而言，结合对象群集过程702的自适应音频系统包括从原始空间音频格式生成元数据的组件。系统700包括被配置为处理既包含常规基于通道的音频元素又包含音频对象编码元素的一个或多个位流的音频处理系统的一部分。包含音频对象编码元素的扩展层可以被添加到基于通道的音频编解码器位流或添加到音频对象位流。因此，在这个例子中，位流705包括要由渲染器处理的扩展层，供现有的扬声器和驱动器设计或者利用可个别寻址驱动器和驱动器定义的下一代扬声器使用。

来自空间音频处理器的空间音频内容可以包括音频对象、通道和位置元数据。当对象被渲染时，它可以根据位置元数据和重放扬声器的位置被分配给一个或多个扬声器。另外元数据，诸如尺寸元数据，可以与对象关联，以更改重放位置或以其它方式限制要被用于重放的扬声器。元数据可以响应于工程师的混合输入而在音频工作站中生成，以提供控制空间参数(例如，位置、尺寸、速度、强度、音色，等等)的渲染线索并指定收听环境中哪些(一个或多个)驱动器或(一个或多个)扬声器在展示期间播放各自的声音。元数据可以与工作站中相应的音频数据关联，用于由空间音频处理器包装和运输。

图8是示出能够在自适应音频处理系统中群集对象和/或床的系统的例子的框图。在图8所示的例子中，能够执行场景简化任务的对象处理组件806读入任意数量的输入音频文件和元数据。输入音频文件包括输入对象802和关联的对象元数据，并且可以包括床804和关联的床元数据。因此，这种输入文件/元数据对应于“床”或“对象”轨道。

在这个例子中，对象处理组件806能够组合媒体智能/内容分类、空间失真分析和对象选择/群集信息，以创建更小数量的输出对象和床轨道。特别地，对象可以被群集在一起，以创建新的等效对象或对象群集808，具有关联的对象/群集元数据。对象也可以被选择用于下混到床中。这在图8中示为下混对象810的输出被输入渲染器816，用于与床812组合，以形成输出床对象和关联的元数据820。输出床配置820(例如，杜比5.1配置)不一定需要匹配输入床配置，例如其可能是用于Atmos电影院的9.1。在这个例子中，通过组合来自输入轨道的元数据，生成用于输出轨道的新元数据，并且通过组合来自输入轨道的音频，生成用于输出轨道的新音频数据。

在这种实施方式中，对象处理组件806能够使用某些处理配置信息822。这种处理配置信息822可以包括输出对象的数量、帧大小和某些媒体智能设置。媒体智能可以涉及确定对象的(或与之关联的)参数或特性，诸如内容类型(即，对话/音乐/效果/等等)、区域(段/类别)、预处理结果、听觉场景分析结果，以及其它类似的信息。例如，对象处理组件806可以能够确定哪些音频信号对应于话音、音乐和/或特殊效果声音。在一些实施方式中，对象处理组件806能够通过分析音频信号来确定至少一些这种特性。作为替代，或者另外地，对象处理组件806可以能够根据关联的元数据，诸如标志、标签等，确定至少一些这种特性。

在备选实施例中，音频生成可以通过保持对所有原始轨道以及简化元数据(例如，哪些对象属于哪个群集、哪些对象要被渲染到床，等等)的参引用而被推迟。这种信息可以，例如，对于在工作室与编码房之间分配场景简化过程的功能，或其它类似的场景，是有用的。

图9是提供在用于大音频对象的去相关过程之后进行群集过程的例子的框图。音频处理系统600的方框可以经由硬件、固件、存储在非暂态介质中的软件等的任意适当组合来实现。例如，音频处理系统600的方框可以经由逻辑系统和/或其它元素，诸如以下参照图11所描述的那些，来实现。

在这种实施方式中，音频处理系统600接收包括音频对象O₁至O_M的音频数据。在这里，音频对象包括音频对象信号和关联的元数据，包括至少音频对象尺寸元数据。关联的元数据还可以包括音频对象位置元数据。在这个例子中，大对象检测模块905能够至少部分地基于音频对象尺寸元数据来确定其尺寸大于阈值尺寸的大音频对象605。大对象检测模块905可以，例如，如以上参照图5的方框510所描述的那样运行。

在这种实施方式中，模块910能够对大音频对象605的音频信号执行去相关过程，以产生去相关的大音频对象音频信号611。在这个例子中，模块910还能够向虚拟扬声器位置渲染大音频对象605的音频信号。因此，在这个例子中，由模块910输出的去相关的大音频对象音频信号611与虚拟扬声器位置对应。现在将参照图10A和10B来描述渲染音频对象信号的一些例子。

图10A示出了相对于重放环境的虚拟源位置的例子。重放环境可以是实际重放环境或虚拟重放环境。虚拟源位置1005和扬声器位置1025仅仅是例子。但是，在这个例子中，重放环境是虚拟重放环境并且扬声器位置1025对应于虚拟扬声器位置。

在一些实施方式中，虚拟源位置1005可以在所有方向都被均匀地隔开。在图10A所示的例子中，虚拟源位置1005沿x、y和z轴被均匀地隔开。虚拟源位置1005可以构成为N_x乘N_y乘N_z虚拟源位置1005的矩形网格。在一些实施方式中，N的值可以在5至100的范围内。N的值可以至少部分地依赖于重放环境中的(或者预期要在重放环境中的)扬声器的数量：可以期望在每个扬声器位置之间包括两个或更多个虚拟源位置1005。

但是，在替代的实施方式中，虚拟源位置1005可以不同地隔开。例如，在一些实施方式中，虚拟源位置1005可以具有沿x和y轴的第一均匀间隔以及沿z轴的第二均匀间隔。在其它实施方式中，虚拟源位置1005可以非均匀地隔开。

在这个例子中，音频对象体积1020a对应于音频对象的尺寸。音频对象1010可以根据被音频对象体积1020a包围的虚拟源位置1005来渲染。在图10A所示的例子中，音频对象体积1020a占用重放环境1000a的部分，但不是全部。较大的音频对象会占用重放环境1000a的大部分(或全部)。在一些例子中，如果音频对象1010对应于点源，则音频对象1010可以具有尺寸零并且音频对象体积1020a可以被设置为零。

根据一些这样的实施方式，通过指示在音频对象尺寸大于或等于尺寸阈值时去相关应当开启并且如果音频对象尺寸低于尺寸阈值则去相关应当关闭，创作工具可以链接音频对象尺寸与去相关(例如，经由包括在关联的元数据中的去相关标记)。在一些实施方式中，去相关可以根据关于尺寸阈值和/或其它输入值的用户输入被控制(例如，增加、减小或禁用)。

在这个例子中，虚拟源位置1005在虚拟源体积1002中定义。在一些实施方式中，虚拟源体积可以与音频对象可在其中移动的体积对应。在图10A所示的例子中，重放环境1000a和虚拟源体积1002a共同延伸，使得每个虚拟源位置1005对应于重放环境1000a中的一个位置。但是，在替代的实施方式中，重放环境1000a和虚拟源体积1002可以不共同延伸。

例如，至少一些虚拟源位置1005可以对应于重放环境外面的位置。图10B示出了相对于重放环境的虚拟源位置的备选例子。在这个例子中，虚拟源体积1002b在重放环境1000b外面延伸。音频对象体积1020b中的一些虚拟源位置1005位于重放环境1000b中并且位于音频对象体积1020b中的其它虚拟源位置1005位于重放环境1000b外面。

在其它实施方式中，虚拟源位置1005可以具有沿x和y轴的第一均匀间隔以及沿z轴的第二均匀间隔。虚拟源位置1005可以构成为N_x乘N_y乘M_z虚拟源位置1005的矩形网格。例如，在一些实施方式中，沿z轴可以比沿x或y轴有更少的虚拟源位置1005。在一些这样的实施方式中，N的值可以在10至100的范围内，而M的值可以在5至10的范围内。

一些实施方式涉及为音频对象体积1020中的每个虚拟源位置1005计算增益值。在一些实施方式中，用于重放环境(可以是实际重放环境或虚拟重放环境)的多个输出通道当中每个通道的增益值将为音频对象体积1020中的每个虚拟源位置1005计算。在一些实施方式中，增益值可以通过应用基于向量的振幅平移(“VBAP”)算法、按对平移算法或类似的算法来计算，以便为位于音频目标体积1020中每个虚拟源位置1005的点源计算增益值。在其它实施方式中，可以应用可分离的算法，以便为位于音频目标体积1020中每个虚拟源位置1005的点源计算增益值。如本文所使用的，“可分离的”(separate)算法是给定扬声器的增益可以被表达为多个因素(例如，三个因素)的乘积的算法，其中每个因素仅依赖于虚拟源位置1005的坐标之一。例子包括在各种现有的混合控制台平移器中实现的算法，包括但不限于在由AMS Neve提供的数字电影控制台中实现的ProToolTM软件和平移器。

再次回到图9，在这个例子中，音频处理系统600还接收床通道B₁至B_N，以及低频效果(LFE)通道。音频对象和床通道根据场景简化或“群集”过程被处理，例如，如以上参照图7和8所描述的。但是，在这个例子中，LFE通道未被输入到群集过程，而是被传递到编码器620。

在这种实施方式中，床通道B₁至B_N被模块915变换为静态音频对象917。除大对象检测模块905已经确定不是大音频对象的音频对象之外，模块920还接收静态音频对象917。在这里，模块920还接收去相关的大音频对象信号611，在这个例子中，它们对应于虚拟扬声器位置。

在这种实施方式中，模块920能够将静态对象91、接收的音频对象和去相关的大音频对象信号611渲染到群集C₁至C_P。一般而言，模块920将输出比接收的音频对象的数量更少数量的群集。在这种实施方式中，模块920能够关联去相关的大音频对象信号611与适当的群集的位置，例如，如以上参照图5的方框520所描述的。

在这个例子中，群集C₁至C_P以及LFE通道的音频数据被编码器620编码并发送到重放环境925。在一些实施方式中，重放环境925可以包括家庭影院系统。音频处理系统930能够接收和解码编码的音频数据，以及根据重放环境925的实际重放扬声器的实际重放扬声器配置，例如，扬声器位置、扬声器能力(例如，低音再现能力)等，来渲染解码的音频数据。

图11是提供音频处理装置的组件的例子的框图。在这个例子中，音频处理系统1100包括接口系统1105。接口系统1105可以包括网络接口，诸如无线网络接口。作为替代，或者另外地，接口系统1105可以包括通用串行总线(USB)接口或另一个这样的接口。

音频处理系统1100包括逻辑系统1110。逻辑系统1110可以包括处理器，诸如通用单芯片或多芯片处理器。逻辑系统1110可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑，或分立硬件组件，或其组合。逻辑系统1110可以被配置为控制音频处理系统1100的其它部件。虽然在图11中没有示出音频处理系统1100的组件之间的接口，但是逻辑系统1110可以被配置为具有用于与其它组件通信的接口。其它组件适当地可以或可以不被配置为用于彼此通信。

逻辑系统1110可以被配置为执行音频处理功能，包括但不限于本文所描述类型的功能。在一些这样的实施方式中，逻辑系统1110可以被配置为(至少部分地)根据存储在一个或多个非暂态介质上的软件来操作。非暂态介质可以包括与逻辑系统1110关联的存储器，诸如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂态介质可以包括存储器系统1115的存储器。存储器系统1115可以包括一个或多个合适类型的非暂态存储介质，诸如闪存存储器、硬盘驱动器，等等。

依赖于音频处理系统1100的表现形式，显示系统1130可以包括一个或多个合适类型的显示器。例如，显示系统1130可以包括液晶显示器、等离子体显示器、双稳态显示器，等等。

用户输入系统1135可以包括被配置为从用户接受输入的一个或多个设备。在一些实施方式中，用户输入系统1135可以包括覆盖显示系统1130的显示器的触摸屏。用户输入系统1135可以包括鼠标、轨迹球、姿势检测系统、操纵杆、在显示系统1130上呈现的一个或多个GUI和/或菜单、按钮、键盘、开关，等等。在一些实施方式中，用户输入系统1135可以包括麦克风1125：用户可以经由麦克风1125为音频处理系统1100提供语音命令。逻辑系统可以被配置为用于话音识别和用于根据这种语音命令控制音频处理系统1100的至少一些操作。在一些实施方式中，用户输入系统1135可以被认为是用户接口并且因此作为接口系统1105的一部分。

电源系统1140可以包括一个或多个合适的能量储存设备，诸如镍-镉电池或锂离子电池。电源系统1140可以被配置为从电源插座接收电力。

对本公开内容中所描述的实现的各种修改对本领域普通技术人员会是容易明了的。在不背离本公开内容的精神或范围的情况下，本文中定义的一般原理可以应用于其它实施方式。因此，不是要将权利要求限定到本文中所示的实施方式，而是要将权利要求解释为符合与本文中公开的本公开内容、原理和新颖特征一致的最广泛范围。

Claims

1.一种方法，包括：

在音频渲染系统的编码器组件的输入接口中接收包括音频对象的音频数据，音频对象包括音频对象信号和关联的元数据，所述关联的元数据至少包括音频对象尺寸数据；

通过大对象检测组件基于所述音频对象尺寸数据确定音频对象尺寸大于阈值尺寸的大音频对象，其中大音频对象在空间上弥散并且需要多个扬声器来再现大音频对象；

在耦合到所述输入接口的去相关器组件中对大音频对象的音频信号执行去相关过程，以产生去相关的大音频对象音频信号，所述去相关的大音频对象音频信号依赖于所定义的大音频对象的位置、以及其它信息，其中所述去相关的大音频对象音频信号彼此相互独立，并且所述去相关过程包括通过调整各音频信号的相应音频增益来调整各音频信号的电平以生成与所述多个扬声器中的每一扬声器的扬声器馈送相对应的去相关的大音频对象音频信号，并且进一步其中，所述多个扬声器覆盖大的空间区域，

其中，所述去相关的大音频对象音频信号与其它音频对象的至少一个音频信号混合，该其它音频对象与所述大音频对象在空间上分开的距离为第二阈值量。

2.如权利要求1所述的方法，还包括接收用于大音频对象的去相关元数据，其中所述去相关元数据包括音频对象尺寸大于阈值尺寸的指示符。

3.如权利要求1所述的方法，其中大音频对象具有多个对象位置，并且所述多个对象位置中的至少一些为以下中的一者：固定位置或随时间变化的位置。

4.如权利要求1所述的方法，其中所述去相关过程在渲染音频数据用于在包括家庭影院系统的重放环境中再现的过程之前在上游执行。

5.如权利要求1所述的方法，其中所述去相关过程包括以下中的一者：延迟过程，全通滤波过程，伪随机滤波过程，以及混响过程。

6.如权利要求1所述的方法，其中所述多个扬声器具有多个扬声器位置，其中所述多个扬声器位置包括定义了布置到一个或多个扬声器区中的虚拟扬声器位置的扬声器区。

7.如权利要求1所述的方法，其中音频数据包括对应于原始扬声器位置的一个或多个音频床信号，所述方法进一步包括输出去相关的大音频对象音频信号，作为用于通过所述多个扬声器重放的音频对象信号或另外的音频床信号。

8.如权利要求1所述的方法，其中，各音频信号的相应音频增益包括根据振幅平移方法被确定的增益因子。

9.如权利要求6所述的方法，还包括使用渲染工具来将扬声器馈送分别映射到所述一个或多个扬声器区。

10.如权利要求1所述的方法，还包括在执行去相关过程之后衰减或删除大音频对象的音频信号。

11.如权利要求1所述的方法，还包括在执行去相关过程之后保留对应于大音频对象的点源贡献的音频信号。

12.如权利要求1所述的方法，其中大音频对象包括如下元数据，该元数据包括音频对象位置元数据，该方法还包括：

计算来自由大音频对象的大音频对象位置数据和大音频对象尺寸数据定义的音频对象面积或体积内的虚拟源的贡献；以及

至少部分地基于计算的贡献为多个输出通道中的每一个确定音频对象增益值的集合。

13.如权利要求1所述的方法，还包括在去相关过程之后执行音频对象群集过程。

14.如权利要求1所述的方法，还包括评估音频数据以确定内容类型，其中去相关过程根据内容类型被有选择地执行。

15.如权利要求14所述的方法，其中要执行的去相关的量依赖于内容类型。

16.如权利要求1所述的方法，其中去相关过程涉及复杂、时变滤波算法。

17.如权利要求1所述的方法，其中大音频对象包括如下元数据，该元数据包括音频对象位置元数据，并且该方法还包括将去相关的大音频对象音频信号与用于在空间上与大音频对象分开的距离为阈值量的音频对象的音频信号混合。

18.一种包括音频渲染系统的装置，所述装置包括：

所述音频渲染系统的输入接口，用于接收包括音频对象的音频数据，音频对象包括音频对象信号和关联的元数据，所述关联的元数据至少包括音频对象尺寸数据；

处理组件，用于基于所述音频对象尺寸数据确定音频对象尺寸大于阈值尺寸的大音频对象，其中大音频对象在空间上弥散并且需要多个扬声器来再现大音频对象；以及

耦合到所述输入接口的去相关器组件，用于对大音频对象的音频信号执行去相关过程，以产生去相关的大音频对象音频信号，所述去相关的大音频对象音频信号依赖于所定义的大音频对象的位置、以及其它信息，其中所述去相关的大音频对象音频信号彼此相互独立，并且所述去相关过程包括通过调整各音频信号的相应音频增益来调整各音频信号的电平以生成与所述多个扬声器中的每一扬声器的扬声器馈送相对应的去相关的大音频对象音频信号，并且进一步其中，所述多个扬声器覆盖大的空间区域，

19.一种非暂态介质，在所述非暂态介质上存储有程序指令，所述程序指令在由音频渲染系统中的处理组件执行时使得音频渲染系统执行以下操作：

20.如权利要求18所述的装置，还包括接收用于大音频对象的去相关元数据的所述输入接口，其中所述去相关元数据包括音频对象尺寸大于阈值尺寸的指示符。

21.如权利要求18所述的装置，其中大音频对象具有多个对象位置，并且所述多个对象位置中的至少一些为以下中的一者：固定位置或随时间变化的位置。

22.如权利要求18所述的装置，其中所述去相关过程在渲染音频数据用于在包括家庭影院系统的重放环境中再现的过程之前在上游执行。

23.如权利要求18所述的装置，其中所述去相关过程包括以下中的一者：延迟过程，全通滤波过程，伪随机滤波过程，以及混响过程。

24.如权利要求18所述的装置，其中所述多个扬声器具有多个扬声器位置，其中所述多个扬声器位置包括定义了布置到一个或多个扬声器区中的虚拟扬声器位置的扬声器区。

25.如权利要求18所述的装置，其中音频数据包括对应于原始扬声器位置的一个或多个音频床信号，所述装置进一步包括所述音频渲染系统输出去相关的大音频对象音频信号，作为用于通过所述多个扬声器重放的音频对象信号或另外的音频床信号。

26.如权利要求18所述的装置，其中，各音频信号的相应音频增益包括根据振幅平移装置被确定的增益因子。

27.如权利要求24所述的装置，还包括渲染工具，被配置为将扬声器馈送分别映射到所述一个或多个扬声器区。

28.如权利要求18所述的装置，还包括在执行去相关过程之后衰减或删除大音频对象的音频信号的所述音频渲染系统。

29.如权利要求18所述的装置，还包括在执行去相关过程之后保留对应于大音频对象的点源贡献的音频信号的所述音频渲染系统。

30.如权利要求18所述的装置，其中大音频对象包括如下元数据，该元数据包括音频对象位置元数据，该装置还包括：

计算来自由大音频对象的大音频对象位置数据和大音频对象尺寸数据定义的音频对象面积或体积内的虚拟源的贡献的所述音频渲染系统；以及

至少部分地基于计算的贡献为多个输出通道中的每一个确定音频对象增益值的集合的所述音频渲染系统。

31.如权利要求18所述的装置，还包括在去相关过程之后执行音频对象群集过程的所述音频渲染系统。

32.如权利要求18所述的装置，还包括评估音频数据以确定内容类型的所述音频渲染系统，其中去相关过程根据内容类型被有选择地执行。

33.如权利要求32所述的装置，其中要执行的去相关的量依赖于内容类型。

34.如权利要求18所述的装置，其中去相关过程涉及复杂、时变滤波算法。

35.如权利要求18所述的装置，其中大音频对象包括如下元数据，该元数据包括音频对象位置元数据，并且该装置还包括将去相关的大音频对象音频信号与用于在空间上与大音频对象分开的距离为阈值量的音频对象的音频信号混合的所述音频渲染系统。