CN104885151B

CN104885151B - 用于基于感知准则呈现基于对象的音频内容的对象群集

Info

Publication number: CN104885151B
Application number: CN201380066933.4A
Authority: CN
Inventors: B·G·克罗克特; A·J·希菲尔德; N·R·茨恩高斯; R·威尔森; D·J·布瑞巴特; 芦烈; 陈联武
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-12-21
Filing date: 2013-11-25
Publication date: 2017-12-22
Anticipated expiration: 2033-11-25
Also published as: EP2936485A1; CN104885151A; EP2936485B1; JP6012884B2; JP2016509249A; US20150332680A1; WO2014099285A1; US9805725B2

Abstract

实施例针对呈现基于对象的音频的方法，该方法包括：确定具有对象音频数据和相关的元数据的对象的初始空间位置；确定对象的感知重要性；和基于确定的对象的感知重要性将音频对象分组为数个群集，使得通过将对象从初始空间位置移动到群集中的第二空间位置导致的空间误差对于具有相对高的感知重要性的对象被最小化。感知重要性至少部分地基于对象的部分响度和对象的内容语义。

Description

用于基于感知准则呈现基于对象的音频内容的对象群集

(相关申请的交叉引用)

本申请要求在2012年12月21日提交的美国临时专利申请No.61/745401和2013年8月12日提交的美国临时申请No.61/865072的优选权，通过引用将它们的全部内容并入此。

技术领域

一个或更多个实施例总体上涉及音频信号处理，并且具体涉及基于感知准则将音频对象进行群集来压缩基于对象的音频数据，以便通过各种回放系统高效地编码和/或呈现。

背景技术

基于对象的音频的出现明显增加音频数据的量和在高端回放系统内呈现该数据的复杂性。例如，电影院音轨可包含与屏幕上的图像、对话、噪声和从屏幕上的不同位置发出并且与背景音乐和环境效果组合以产生总体听觉体验的声音效果对应的许多不同的声音要素。准确的回放要求以关于声音源位置、强度、移动和深度尽可能接近地与屏幕所示对应的方式再现声音。与向收听环境中的各单个扬声器发送扬声器馈送的形式的音频内容的常规的基于通道(channel)的音频系统相比，基于对象的音频具有明显的改善，因此关于特定音频对象的空间回放相对受限。

数字电影院的引入和三维(“3D”)内容的开发创建了声音的新标准，诸如合并音频的多个通道以允许内容创建者具有更大的创建性并允许听众具有更加包围和逼真的听觉体验。作为用于分布空间音频的手段，进行扩展以超越常规的扬声器馈送和基于通道的音频是十分关键的，并且，基于模型的音频描述已存在明显关注，该音频描述允许收听者选择希望的回放配置，音频针对他们选择的配置被特别呈现。声音的空间呈现利用音频对象，这些音频对象是具有表观源位置(例如，3D位置)、表观源宽度和其它参数的相关参数源描述的音频信号。其它进展包括已开发的下一代空间音频(也称为“自适应音频”)格式，该格式包括音频对象和常规的基于通道的扬声器馈送(床)的混合连同音频对象的位置元数据。

在一些声轨中，可能存在包含音频的若干(例如，7个、9个或11个)床通道(bedchannel)。另外，基于创作系统的能力，可存在几十甚至几百个单独的音频对象，这些音频对象在呈现过程中被组合以创建空间分散和浸入式音频体验。在一些分布和传送系统中，可存在足够大的可用带宽，以在很少或者没有音频压缩的情况下传送所有的音频床和对象。但是，在一些情况下，诸如蓝光盘、广播(电缆、卫星和陆地)、移动(3G和4G)和over-the-top(OTT或因特网)分布，对于可用于数字传送在创作时创建的所有床和对象信息的带宽存在明显的限制。虽然音频编码方法(有损或无损)可被应用于音频以减少需要的带宽，但音频编码可能不足以减少传送音频所需要的带宽，特别是在诸如移动3G和4G网络的非常受限的网络上。

已开发了一些现有方法，以通过群集处理(clustering)来将输入对象和床的数量减少到较小的输出对象集合。基本上，具有类似的空间或呈现性质的对象被组合成单个或更少的新合并对象。合并处理包括组合音频信号(例如，通过加法)和参数源描述(例如，通过平均)。在这些以前的方法中向集群(cluster)分配对象基于空间接近度。即，具有类似的参数位置数据的对象组合成一个集群，同时分别确保各对象有较小的空间误差。只要内容中的所有感知相关对象的空间位置在具有合理的小误差的情况下允许这种群集，该处理就一般是有效的。但是，在非常复杂的内容中，对于具有分散空间分布的同时活动的许多对象，当只容忍适度的空间误差时，精确地模型化这种内容所需要的输出集群的数量可能变得十分大。作为替代，如果输出集群的数量诸如由于带宽或者复杂度约束而受到限制，那么由于受约束的群集处理和明显的空间误差，那么复杂内容会以劣化的空间质量被再现。因此，在这种情况下，仅使用接近度以定义集群往往得到次最佳的结果。在这种情况下，与仅考虑对象的空间位置相对地是，应考虑对象自身的重要性，以优化群集处理的感知质量。

已开发了其它方案，以改善群集处理。一个这种方案是去除诸如由于掩蔽或者由于对象沉默而在感知上无关的对象的拣出处理(culling process)。虽然该处理有助于改进群集处理，但是，如果在感知上相关的对象的数量比可用输出集群大，那么它不提供改进的群集结果。

在背景技术部分中讨论的主题不应仅由于在背景技术部分中被提到而被假定为现有技术。类似地，在背景技术部分中提到的或者与背景技术部分的主题相关的问题不应被假定为以前在现有技术中被认识到。背景技术部分中的主题仅代表不同的方案，这些方案本身也可以是发明。

发明内容

一些实施例针对通过以下处理压缩用于在回放系统中呈现的基于对象的音频数据的方法：识别要在回放系统中呈现的第一数量的音频对象，这里，各音频对象包含音频数据和相关的元数据；对于各音频对象限定在相关的元数据内编码的某些参数的误差阈值；并且基于误差阈值将第一数量的音频对象中的音频对象分组为数量更少的音频对象，使得通过回放系统发送的音频对象的数据量减少。

一些实施例进一步针对通过以下处理呈现基于对象的音频：以限定的时间间隔识别数个对象中的各对象的空间位置；并且基于对象对之间的最大距离和/或由基于对象相关的某些其它特性的分组导致的畸变误差将对象中的至少一些分组成一个或更多个时间变化集群。

一些实施例针对通过以下处理压缩用于在回放系统中呈现的基于对象的音频数据的方法：确定音频场景中的对象的感知重要性，其中，对象包含对象音频数据和相关的元数据；和基于确定的对象的感知重要性将某些音频对象组合成音频对象的集群，其中，集群的数量比音频场景中的对象的原始数量少。在该方法中，感知重要性可以是从各自对象的响度值和内容类型中的至少一个导出的值，并且，内容类型是对话、音乐、声音效果、环境和噪声中的至少一个。

在该方法的实施例中，内容类型由接收音频对象的输入音频信号的音频分类过程确定，并且，响度由基于输入音频信号的临界频带中的激励水平的计算的感知模型获得，该方法还包括：在音频对象的第一对象周围限定集群的质心(centroid)；和集合音频对象的所有激励。响度值至少部分地依赖于各自对象与其它对象的空间接近度，并且，空间接近度至少部分地由各自对象的相关元数据的位置元数据值限定。组合的操作可导致与各被群集的对象相关的某些空间误差。在实施例中，该方法还包含将对象进行群集以使得对于相对高感知重要性的对象最小化空间误差。在实施例中，确定的对象的感知重要性依赖于音频场景中的对象的相对空间位置，并且，组合步骤还包括：确定数个质心，各质心包含用于分组多个音频对象的集群的中心，质心位置依赖于一个或更多个音频对象相对于其它音频对象的感知重要性；和通过在集群间分布对象信号来将对象分组成一个或更多个集群。群集还包括将对象与最近的邻居分组；或者通过使用平移方法(panning method)在一个或更多个集群上分布对象。

组合音频对象的操作可包括：将体现同一集群内的构成对象的音频数据的波形组合在一起以形成具有构成对象的合成波形的替代对象；以及将同一集群内的构成对象的元数据组合在一起以形成构成对象的元数据的替代集。

一些实施例进一步针对通过以下处理呈现基于对象的音频的方法：限定数个质心，各质心包含用于分组多个音频对象的集群的中心；确定多个音频对象中各对象相对于其它对象的第一空间位置；确定多个音频对象的各音频对象的相对重要性，所述相对重要性依赖对象的相对空间位置；确定数个质心，各质心包含用于分组多个音频对象的集群的中心，质心位置依赖于一个或更多个音频对象的相对重要性；以及通过在集群间分布对象信号将对象分组成一个或更多个集群。方法还可包括确定多个音频对象的各音频对象的部分响度和多个音频对象的各音频对象的内容类型和相关内容类型重要性。在实施例中，各音频对象的部分响度和内容类型被组合以确定各自音频对象的相对重要性。对象被群集为使得空间误差对于具有相对高的感知重要性的对象被最小化，其中，空间误差可由在对象与其它对象被群集时将对象从第一感知源位置移动到第二感知源位置而导致。

对于实现上述的压缩方法或呈现方法的实施例的系统或器件和计算机可读介质，描述一些其它实施例。

可在包含基于包含新扬声器和通道配置的自适应音频系统的增强用户体验、分布方法和更新的内容创建工具的音频格式和系统以及可通过一套先进内容创建工具实现的新空间描述格式中，实现这里描述的方法和系统。在这种系统中，音频系统(一般包含通道和对象)连同描述内容创建者或混音师的意图的元数据一起被传送，该元数据包含音频流的希望位置。位置可表达为命名的通道(来自预定的通道配置内)或者三维(3D)空间位置信息。

通过引用并入

在本说明书中提到的各公开、专利和/或专利申请的全部内容通过引用被加入这里，如同每个单独的公开和/或专利申请被具体和单独地指示为通过引用被并入。

附图说明

在以下的附图中，使用类似的附图标记以表示类似的要素。虽然以下的附图示出各种例子，但一个或更多个实现不限于在附图中示出的例子。

图1示出根据实施例的用于产生自适应音频混合的基于通道和基于对象的数据的组合。

图2A是根据实施例的与用于呈现自适应音频内容的编解码器电路相结合的群集处理的框图。

图2B示出根据实施例的自适应音频处理系统中对于对象和床进行群集。

图2C示出根据实施例的总体自适应音频呈现系统中对自适应音频数据进行群集。

图3A示出根据实施例的用于创建组合对象的两个对象的音频信号和元数据的组合。

图3B是示出根据实施例的用于群集处理的示例性元数据定义和组合方法的表格。

图4是根据实施例的群集处理所使用的群集方案的框图。

图5A和图5B示出根据实施例的在周期性时间间隔中将对象分组成集群的过程。

图6A、图6B和图6C示出根据实施例的关于限定的对象边界和误差阈值将对象分组成集群的过程。

图7是示出根据实施例的对于对象和床进行群集的方法的流程图。

图8示出根据实施例的除了位置接近度以外还基于感知重要性将对象和床通道群集成集群的系统。

图9示出根据实施例的用于将音频对象群集到输出集群中的流程图的成分。

图10是根据实施例的音频分类组件的功能图。

图11是示出根据实施例的基于内容类型的感知因素和响度处理音频对象的总体方法的流程图。

图12是示出根据实施例的计算集群质心并且向选择的质心分配对象的处理的流程图。

图13A和图13B示出根据实施例的基于某些感知准则将对象分组成集群的过程。

图14是示出根据实施例的对于对象和床进行群集的方法的流程图。

图15示出根据实施例的基于终端设备能力呈现群集对象数据的过程。

具体实施方式

对于基于对象的音频数据的基于对象群集的压缩方案来描述系统和方法。群集方案的实施例利用用于向群集分配对象的对象的感知重要性，并且在基于位置和接近度的群集方法上进行扩展。基于感知的群集系统用从各对象的音频信号导致的感知关联来增强基于接近度的群集，以在约束的条件下(诸如当感知相关对象的数量大于输出集群的数量时)导出改善的对象向群集的分配。

在音频处理系统的实施例中，部分地通过对象的空间接近度以及还通过某些感知准则控制对象组合或群集处理。一般地，群集对象导致一定的误差量，原因是，不是所有的输入对象在与其它对象群集时都可保持空间保真度，在大量的对象被分散地分布的应用中尤其如此。在使群集处理的空间/感知误差最小化方面，具有相对高的感知重要性的对象受到偏好。对象重要性可基于诸如作为考虑了场景中的其它对象的掩蔽效果的对象的感知响应的部分响度和内容语义或类型(例如，对话、音乐、效果等)的因素。

这里描述的一个或更多个实施例的各个方面可在包含执行软件指令的一个或更多个计算机或处理器件的混合、呈现和回放系统中的处理源音频信息的音频或音频-视频(AV)系统中实现。描述的实施例中的任一个可被单独使用或者在任意组合中与另一个一起使用。虽然可能在说明书的一个或更多个地方中讨论或间接提到的现有技术的各种缺陷促成了各种实施例，但实施例未必针对这些缺陷中的任一个。换句话说，不同的实施例可针对与说明书中可能讨论的缺陷不同的缺陷。一些实施例可能仅部分地针对在说明书中可能讨论的一些缺陷或者仅针对一个缺陷，并且，一些实施例可能不针对这些缺陷中的任一个。

对于本说明，以下的术语具有相关的含义：术语“通道”或“床”指的是音频信号加元数据，其中，位置被编码为通道标识符，例如，左前或右上环绕；“基于通道的音频”是对于通过具有相关标称位置(例如5.1、7.1等)的预定一组扬声器区域的回放被格式化的音频；术语“对象”或“基于对象的音频”指的是具有诸如表观源位置(例如，3D坐标)、表观源宽度等的参数源描述的一个或更多个音频通道；“自适应音频”指的是通过使用音频流加元数据基于回放环境呈现音频信号的基于通道和/或基于对象的音频信号加元数据，在该音频流加元数据中位置被编码为空间中的3D位置；“呈现”指的是对于用作扬声器馈送的电信号的转换。

在实施例中，使用对象群集的场景简化处理实现为可称为“空间音频系统”或“自适应音频系统”的被配置为与声音格式和处理系统一起工作的音频系统的一部分。这种系统基于音频格式和呈现技术，以允许增强的听众浸入、更大的艺术控制和系统灵活性和可缩放性。总体自适应音频系统一般包括被配置为产生包含常规的基于通道的音频要素和音频对象编码要素两者的一个或更多个位流的音频编码、分布和解码系统。与单独采取的基于通道的方法或基于对象的方法相比，这种组合方法提供更大的编码效率和呈现灵活性。在于2012年6月27日提交的发明名称为“System and Method for Adaptive Audio SignalGeneration,Coding and Rendering”的未决国际专利申请No.PCT/US2012/044388中描述了可与本实施例结合使用的自适应音频系统的例子，该国际申请通过引用被并入这里。自适应音频系统和相关的音频格式的示例性例子是Atmos^TM平台。这种系统合并有可实现为9.1环绕声系统的高度(上/下)尺寸或类似的环绕声配置。

音频对象可被视为可在接听环境中被感知为从一个或多个特定的物理位置发出的声音要素的个体或集合。这种对象可以是静态的(即，静止)或者动态的(即，移动)。音频对象可由除了其他功能外还在给定的时刻限定声音的位置的元数据控制。当对象被回放时，它们通过使用存在的扬声器根据位置元数据被呈现，而未必被输出到预定义的物理通道。对话中的轨道可以是音频对象，并且，标准平移数据与位置元数据类似。这样，放在屏幕上的内容可有效地以与基于通道的内容相同的方式平移，但是，如果希望的话，环绕声中的内容可被呈现给单个扬声器。虽然使用音频对象提供了对离散效果的控制，但声轨的其它方面可在基于通道的环境中更有效地工作。例如，许多环境效果或回响实际上受益于馈送到扬声器的阵列而不是单个驱动器。虽然这些可被视为具有足以填充阵列的宽度的对象，但是保持一些基于通道的功能是有益的。

除了音频对象以外，自适应音频系统被配置为还支持“床”，这里，床是有效地基于通道的子混合或主干。根据内容创建者的意图，这些可被传输以单独地或者组合成单个床来进行最终的回放(呈现)。可在诸如5.1、7.1和9.1的不同的基于通道的配置以及包含头顶扬声器的阵列中创建这些床。图1示出根据实施例的用于产生自适应音频混合的基于通道和基于对象的数据的组合。如处理100所示，基于通道的数据102可与音频对象数据104组合以产生自适应音频混合108，该基于通道的数据102例如可以为以脉冲代码调制(PCM)数据的形式被提供的5.1或7.1环绕声音数据。通过组合原始的基于通道的数据的要素与规定与音频对象的位置有关的某些参数的相关元数据，产生音频对象数据104。如图1概念性示出的那样，创作工具提供同时创建包含扬声器通道组和对象通道的组合的音频节目的能力。例如，音频节目可包含任选地被组织成组(或轨道，例如，立体声或5.1轨道)的一个或更多个扬声器通道、一个或更多个扬声器通道的描述性元数据、一个或更多个对象通道和一个或更多个对象通道的描述性元数据。

自适应音频系统作为用于分布空间音频的手段扩展以超越扬声器馈送，并且使用先进的基于模型的音频描述以定制满足个体需求和系统约束的回放配置，使得音频可特别地针对各单独配置被呈现。音频信号的空间效果对于向接听者提供浸入式体验是关键的。要从观看屏幕或房间的特定区域发出的声音应通过位于相同的相对位置上的扬声器被播放。因此，基于模型的描述中的声音事件的主要音频元数据是位置，但是，也可描述诸如尺寸、取向、速度和声音分散的其它参数。

如上所述，自适应音频内容可包含若干床通道102以及许多单独音频对象104，它们在呈现的过程中被组合以创建空间分散和浸入式音频体验。在具有大量的处理带宽的电影院环境中，实际上任何数量的床和对象可在电影院中被准确地创建并且呈现。但是，由于电影或其它的复杂音频内容是对于家庭或个人收听环境中的分布和再现而被产生的，因此，这种装置和媒体的相对有限的处理带宽阻止了该内容的最佳呈现或回放。例如，用于消费级和专业级应用的典型的传送媒体包含蓝光盘、广播(电缆、卫星和陆地)、移动(3G和4G)和over-the-top(OTT)或因特网分布。这些媒体通道可对可用以数字传送自适应音频内容的所有床和对象信息的带宽施加明显的限制。实施例针对如下机制，该机制压缩复杂的自适应音频内容，使得它可通过可能具有足够大的可用的带宽的传送系统被分布以另外呈现所有音频床和对象数据。

对于当前的单音、立体声和多通道音频内容，上述的传输方法和网络的带宽约束使得音频编码一般需要减小匹配分布方法的可用带宽所需要的带宽。当前的电影院系统能够对典型的7.1电影院格式以10Mbps量级的带宽提供未压缩的音频数据。与该容量相比，各种其它的传输方法和回放系统的可用带宽明显较少。例如，基于盘的带宽为约几百dbps～几十Mbps，广播带宽为约几百kbps～几十kbps；OTT因特网带宽为约几百kbps～几Mbps；移动(3G/4G)仅为几百kbps～几十kbps。由于自适应音频包含作为该格式的一部分的附加的音频本质，即，除了通道床102以外，包含对象104，因此，对于传送带宽的已经明显的约束进一步恶化超过正常的基于通道的音频格式，并且，除了音频编码工具以外，需要另外减少带宽，以有利于在带宽减小的传送和回放系统中精确再现。

通过对象群集的场景简化

在实施例中，自适应音频系统提供了通过对象群集以及由通道床和对象的组合创建的空间场景的感知透明的简化来减少基于对象的音频内容的带宽的部件。由部件执行的对象群集处理使用关于对象的某些信息，包括空间位置、内容类型、时间属性、对象宽度和响度，以通过将类似的对象分组成替代原始对象的对象集群来减少空间场景的复杂性。

用于基于原始复杂床和音频轨道来分布和呈现引人注目的用户体验的标准音频编码的附加音频处理一般被称为场景简化和/或对象群集。该处理的目的是通过群集或分组技术来减少空间场景，该群集或分组技术减少要被传输到再现装置的单个音频要素(床和对象)的数量，但仍保持足够的空间信息使得原始创作内容与呈现输出之间的所感知的差异被最小化。

通过使用关于对象的信息(包含空间位置、时间属性、内容类型、宽度和其它适当的特性)以将对象群集到更少的数量，场景简化处理有助于带宽减少的通道或编码系统中的对象加床内容的呈现。该处理可通过执行以下的群集处理减少对象的数量：(1)将对象群集到对象；(2)群集对象与床；和(3)将对象和床群集到对象。另外，对象可分布于两个或更多个集群上。处理还使用关于对象的某些时间和/或感知信息，以控制对象的群集和去群集(declustering)。对象集群用单个等同波形和元数据集替代构成对象的各个波形和元数据要素，使得用于N个对象的数据被用于单个对象的数据替代，由此将对象数据明显从N压缩到1。如上所述，作为替代方案，或者附加地，对象或床通道可分布于多于一个的集群上(例如，使用振幅平移技术)，从而将对象数据从N压缩到M，使得M<N。群集处理利用基于由于被群集的对象的位置、响度或其它特性的变化导致的畸变的误差度量，以确定群集压缩与被群集的对象的声音劣化之间的最佳折衷。群集处理可被同步执行，或者它可以被事件驱动，诸如通过使用听觉场景分析(ASA)和事件边界检测，以控制通过群集的对象简化。在一些实施例中，处理可利用终端呈现算法和设备的知识来控制群集。以这种方式，回放装置的某些特性或性能可被用于通知群集处理。例如，对于扬声器对比耳机或其它的音频驱动器可利用不同的群集方案，或者对于无损编码对比有损编码可利用不同的群集方案，等等。

对于以下的描述，术语“群集”和“分组”或“组合”可被交换使用，以描述组合对象和/或床(通道)以减少用于在自适应音频回放系统中进行传送和呈现的自适应音频内容的单位的数据量；术语“压缩”或“减少”可被用于表示通过对象和床的这种群集执行自适应音频的场景简化的操作。在本说明书中，术语“群集”、“分组”或“组合”不限于严格唯一地仅向单个群集分配对象或床通道，而是，可通过使用确定对象或床信号对于输出群集或输出床信号的相对贡献的权重或增益矢量将对象或床通道分布于多于一个的输出床或群集上。

图2A是根据实施例的与用于呈现自适应音频内容的编解码器电路结合执行群集处理的群集部件的框图。如图200所示，电路200包含处理输入音频信号以产生带宽减小的输出音频信号的编码器204和解码器206级。例如，如图2A所示，输入信号的一部分209可通过已知的压缩技术被处理以产生压缩音频位流205，该压缩音频流205通过解码器级206被解码以产生输出207的至少一部分。这种已知的压缩技术包括分析输入音频内容209、量化音频数据、然后对音频数据本身执行诸如掩蔽等的压缩技术。压缩技术可以是有损的或者无损的，并且在可允许用户选择诸如192kbps、256kbps和512kbps等的压缩带宽的系统中被实现。

在自适应音频系统中，输入音频的至少一部分包括包含由音频和元数据构成的对象的输入信号201。元数据限定了相关音频内容的某些特性，诸如对象空间位置、内容类型和响度等。任何实际数量(例如，几百个对象)的音频对象可通过系统被处理以便回放。为了有利于在各种各样的回放系统和传送媒体上准确地回放这些对象，系统200包括群集处理或部件202，其通过将原始对象组合成较少数量的对象组来将对象的数量减少到数量更少的、更可管理的群集。群集处理由此构建对象的组以从单独输入对象201的原始集产生数量更少的输出组203。群集处理202基本上处理对象的元数据以及音频数据自身以产生更少的对象组。元数据被分析，以确定任何时间点的哪些对象更适合与其它的对象组合，然后将组合的对象的相应音频波形加在一起以产生替代或组合对象。组合对象组然后被输入到编码器204，该编码器204产生包含用于传送到解码器206的音频和元数据的位流205。

一般地，结合有对象群集处理202的自适应音频系统包含从原始空间音频格式产生元数据的部件。编解码器电路200包含被配置为处理包含常规的基于通道的音频要素和音频对象编码要素的一个或更多个位流的音频呈现系统的一部分。包含音频对象编码要素的扩展层被添加到基于通道的音频编解码器位流或音频对象位流中的任一个。该方法启用位流205，其包含通过与现有扬声器和驱动器设计或利用可单独寻址驱动器和驱动器定义的下一代扬声器一起使用的呈现器被处理的扩展层。来自空间音频处理器的空间音频内容包含音频对象、通道和位置元数据。当对象被呈现时，它根据位置元数据和回放扬声器的位置被分配给一个或更多个扬声器。另外的元数据可与对象相关，以修改回放位置或者以另外的方式限制要用于回放的扬声器。元数据可响应工程师的混合输入在音频工作站中产生，以提供控制位置参数(例如，位置、速度、强度、音色等)并且规定接听环境中的哪些驱动器或扬声器在表演时播放相应声音的呈现线索。元数据与工作站中的相应音频数据相关联以便通过空间音频处理器被封装和传送。

图2B示出根据实施例的自适应音频处理系统中的对于对象和床进行群集。如图250所示，对象处理部件256执行任意数量的输入音频文件和元数据中的某些场景简化任务读取。输入音频文件包含输入对象252和相关的对象元数据、以及床254和相关的床元数据。该输入文件/元数据由此与“床”或“对象”轨道对应。对象处理部件256组合媒体智能/内容分类、空间畸变分析和对象选择/群集，以创建更少数量的输出对象和床轨道。特别地，对象可被群集在一起以通过相关的对象/群集元数据创建新的等同的对象或对象集群258。对象也可被选择为用于“下混合”到床中。这被示为下混合对象260的输出被输入呈现器266，以与床262组合268，以形成输出床对象和相关的元数据270。输出床配置270(例如，典型的家用5.1)并不必需匹配输入床配置，该输入床配置可例如为用于Atmos^TM电影院的9.1。通过组合来自输入轨道的元数据对于输出轨道产生新的元数据。还通过组合来自输入轨道的音频对于输出轨道产生新的音频。

对象处理部件256利用某些处理配置信息272。在实施例中，这些包括输出对象的数量、帧尺寸和某些媒体智能设定。媒体智能(media intelligence)可包含与对象相关的若干参数或特性，诸如内容类型(即，对话/音乐/效果/等)、区域(段/分类)、预处理结果、听觉场景分析结果和其它的类似的信息。

在替代性实施例中，可通过保持参照所有原始轨道以及简化元数据(例如，哪些对象属于哪个群集，哪些对象要呈现给床等)来推迟音频产生。这可用于在工作室与编码室或其它类似的情形之间分布简化处理。

图2C示出根据实施例的总体自适应音频呈现系统中对自适应音频数据进行群集。总体处理系统220包含三个主要级：即后期制作221、传送(传输/流传输)223和回放系统225(家庭/剧院/工作室)。如图2C所示，可在这些级中的一个或任一个中，执行通过将原始数量的对象组合到数量减少的对象或对象集群来简化音频内容的动态群集处理。

在后期制作级221中，可以是基于电影院和/或家庭的自适应音频内容的输入音频数据222可被输入到元数据产生处理224。该处理产生了用于对象的空间元数据，包含：位置、宽度、去相关和呈现模式信息，并且还产生包含内容类型、对象边界和相对重要性(能量/响度)的内容元数据。群集处理226然后被应用于输入数据以通过基于对象的空间接近度、时间接近度或其它的特性将某些对象组合在一起将总体输入对象减少到数量更少的对象。群集处理226可以是当在系统中处理输入数据时作为恒定或周期性处理来执行群集的动态群集处理，并且，它可利用规定了诸如群集的目标数量、对象/群集的重要性权重和过滤效果等的某些约束的用户输入228。后期制作级也可包含提供诸如混合、去相关和限制器等的群集的某些处理的群集下混合步骤。后期制作级可包含允许音频工程师监视或接听群集处理的结果并且如果结果不足够则修改输入数据222或用户输入228的呈现/监视选项232。

传送级223一般包含执行原始数据到编解码器的接口连接的部件234以及将音频数据封装成适当的输出格式以用于通过使用适当的编解码器(例如，TrueHD、Dolby、Digital+等)传输或流动数字数据的部件236。在传送级223中，另一动态群集处理238也可被应用于在后期制作级221中制作的对象。

回放系统225接收传送的数字音频数据并且执行用于通过适当的设备(例如，放大器加扬声器)回放的最终呈现步骤242。在该级中，可通过使用某些用户输入244和回放系统(计算机)能力245信息施加附加的动态群集处理240，以进一步将对象分组成为集群。

在实施例中，在传送级或回放级中执行的群集处理240和238可以是受限制的群集处理，因为在形成的群集的数量和/或用于执行群集的信息的量和类型方面，与后期制作群集处理226相比，对象群集的量可受到限制。

图3A示出根据实施例的用于创建组合对象的两个对象的音频信号和元数据的组合。如图300所示，第一对象包含对于各限定时间段(例如，20毫秒)被示出为波形302以及元数据312的音频信号。因此，例如，如果波形302为60毫秒音频片段，那么存在用于第一对象的三个不同的元数据实例，表示为MD1、MD2和MD3。对于同一时间间隔，第二对象包含音频波形304和三个不同的对应的元数据实例，表示为MDa、MDb和MDc。群集处理202包含两个对象，以创建包含波形306和相关的元数据316的组合的对象。在实施例中，通过将波形相加来组合原始第一和第二波形302和304，以创建组合波形306。作为替代方案，可根据系统实现通过其它的波形组合方法来组合波形。第一和第二对象的各时间段的元数据也可被组合以产生表示为MD1a、MD2b和MD3c的组合元数据316。根据限定的算法或组合函数执行元数据的组合，并且，该组合可根据系统实现改变。可通过各种不同的方式组合不同类型的元数据。

图3B是表示根据实施例的用于群集处理的示例性元数据定义和组合方法的表格。如表350的列352所示，元数据定义包含元数据类型，诸如对象位置、对象宽度、音频内容类型、响度、呈现模式、控制信号以及其它可能的元数据类型。元数据定义包含定义与各元数据类型相关的某些值的要素。在表350的列354中列出各元数据类型的示例性的元数据要素。当在群集处理202中将两个或更多个对象组合在一起时，它们的各元数据要素通过限定的组合方案被组合。在表350的列356中列出各元数据类型的示例性的组合方案。如图3B所示，两个或更多个对象的位置和宽度可分别通过加权平均被组合，以导出组合对象的位置和宽度。关于位置，可以使用包围被群集的(构成)对象的质心的几何中心以代表替代对象的位置。元数据的组合可使用权重以确定构成对象的元数据的(相对)贡献。这种权重可从一个或更多个对象和/或床通道的(部分)响度导出。

可通过将构成对象的响度进行平均或相加来导出组合对象的响度。在实施例中，信号的响度度量代表信号的感知能量，它是基于频率被加权的能量的度量。响度因此是与收听者的声音感知对应的谱加权能量。在替代性实施例中，作为响度的替代，或者连同响度一起，处理可使用信号的纯能量(RMS能量)或一些其它的信号能量度量，作为确定对象的重要性的因素。在又一替代性实施例中，从被群集的对象的部分响度数据导出组合对象的响度，其中，根据心理声学原理，部分响度代表在完整的一组对象和床的情境中对象的(相对)响度。因此，如表350所示，响度元数据类型可体现为绝对响度、部分响度或者组合的响度元数据定义。对象的部分响度(或相对重要性)可作为重要性度量，或者在呈现系统不具有足够的分别呈现所有对象的能力的情况下作为用于选择性地呈现对象的手段，被用于群集。

其它的元数据类型可需要其它的组合方法。例如，某些元数据不能通过逻辑或算术运算被组合，因此，必须进行选择。例如，在作为任一个模式或另一模式的呈现模式的情况下，主导对象的呈现模式被分配为组合对象的呈现模式。根据应用和元数据特性，可以选择或组合其它类型的元数据，诸如控制信号等。

关于内容类型，音频一般分成多个定义的内容类型中的一种，诸如对话、音乐、环境声和特定效果等。对象可在其持续期内改变内容类型，但是在任何特定的时间点，它一般仅是一种类型的内容。内容类型由此表达为对象在任何时间点是特定类型的内容的概率。因此，例如，恒定对话对象会表达为百分之百概率的对话对象，而从对话变换成音乐的对象可表达百分之五十的对话/百分之五十的音乐。群集具有不同内容类型的对象可通过如下处理来进行：对于对象各自对于每一内容类型的概率求平均、选择最主导对象的内容类型概率或者内容类型度量的一些其它的逻辑组合，执行。内容类型也可表达为n维矢量(这里，n是不同内容类型的总数，例如，在对话/音乐/环境声/效果的情况下，为4)。可然后通过执行适当的矢量运算导出群集对象的内容类型。如表350所示，内容类型元数据可体现为组合的内容类型元数据定义，这里，内容类型的组合反映了组合的概率分布(例如，音乐、语音等的概率的矢量)。

关于音频的分类，在实施例中，为了确定对象的特征在多大程度上匹配特定类的特征，处理在时间-帧的基础上操作以分析信号、识别信号的特征和比较所识别的特征与已知类的特征。基于特征在多大程度上匹配特定的类，分类器可识别对象属于特定类的概率。例如，如果在时间t＝T对象的特征非常好地匹配对话特征，那么对象会以高的概率被归类为对话。如果在时间t＝T+N对象的特征非常好地匹配音乐特征，那么对象会以高的概率被归类为音乐。最后，如果在时间t＝T+2N对象的特征不特别好地匹配对话或音乐，那么对象会归类为50％音乐和50％对话。

图3B中的元数据定义的列表是要解释某些示例性元数据定义，并且，许多其它的元数据要素也是可能的，诸如驱动器定义(数量、特性、位置、投影角)、包含房间和扬声器信息的校准信息和任何其它适当的元数据。

在实施例中，并且，参照图2A，群集处理202被设置在与编解码器的编码器204和解码器206级分开的部件或电路中。编解码器204可被配置为处理用于通过使用已知的压缩技术压缩的原始音频数据209和包含音频加元数据定义的自适应音频数据201。一般地，群集处理实现为在编码器级204之前将对象群集到组中以及在解码器级206之后呈现被群集的对象的前编码器和后解码器处理。作为替代方案，群集处理202可作为集成部件被包含作为编码器204级的一部分。

图4是根据实施例的图2的群集处理所使用的群集方案的框图。如图400所示，第一群集方案402关注将单独的对象与其它的对象进行群集，以形成可通过更少的信息被传送的对象的一个或更多个集群。这种减少可为描述多个对象的更少音频或更少元数据的形式。对象的群集的一个例子是将空间有关的对象进行分组，即，组合位于类似的空间位置中的对象，其中，空间位置的“类似性”由基于由于构成对象偏移到由替代集群定义的位置而导致的畸变的最大误差阈值限定。

第二群集方案404确定什么时候适于组合可在空间上与代表固定空间位置的通道床不同的音频对象。这种类型的群集的例子是：什么时候不存在足够的可用以传送可原本代表为在三维空间中横穿的对象的带宽而将对象混合到其在一般代表通道床的水平面上的投影中。这允许将一个或更多个对象动态混合到静态通道中，由此减少需要传送的对象的数量。

第三群集方案406使用某些已知的系统特性的先验知识。例如，可以使用回放系统中的终端呈现算法和/或再现设备的知识以控制群集处理。例如，典型的家庭剧院配置依赖于位于固定位置的物理扬声器。这些系统还可依赖于补偿房间中的一些扬声器的不存在的扬声器虚拟化算法，并且使用算法以向接听者提供存在于房间内的虚拟扬声器。如果诸如扬声器的空间差异和虚拟化算法的精度的信息是已知的，那么可能能够发送更少的对象，原因是扬声器配置和虚拟化算法只能向接听者提供有限的感知体验。在这种情况下，发送全床加对象表现可能浪费带宽，因此，一定程度的群集会是合适的。也可在该群集方案中使用其它类型的已知的信息，诸如用于控制群集的对象或多个对象的内容类型或者用于控制群集的对象或多个对象的宽度。对于本实施例，编解码器电路200可被配置为基于回放装置适应性调整输出音频信号207。该特征允许用户或其它处理限定分组群集203的数量以及压缩音频211的压缩比。由于一些不同的传送媒体和回放装置可具有明显不同的带宽容量，因此，用于标准压缩算法以及对象群集两者的灵活压缩方案可能是有利的。例如，如果输入包含例如为100个的第一数量的原始对象，那么群集处理可被配置为产生用于蓝光系统的20个组合组203或用于蜂窝电话回放的10个对象，等等。群集处理202可被递归应用，以产生数量递减的群集组230，使得可对不同的回放应用提供不同的输出信号207组。

第四群集方案408包含使用时间信息来控制对象的动态群集和去群集。在一个实施例中，以规则的间隔或时间段执行群集处理(例如，每10毫秒一次)。作为替代方案，可以使用其它的时间事件，包含诸如听觉场景分析(ASA)和听觉事件边界检测的技术，以分析和处理音频内容以基于各个对象的持续期确定最佳群集配置。

应当注意，图400所示的方案可作为独立操作或者与一个或更多个其它的方案组合地被群集处理202执行。它们也可相对于其它的方案以任何次序执行，并且对于群集处理的执行不需要特定的次序。

对于群集基于空间位置402的情况，原始对象被分组成空间质心被动态构建的群集。质心的位置变为组的新位置。组的音频信号是用于属于该组的各对象的所有原始音频信号的下混合。各群集可被视为近似其原始内容但共享与原始输入对象相同的核心属性/数据结构的新对象。作为结果，可通过对象呈现器直接处理各对象群集。

在实施例中，群集处理动态地将原始数量的音频对象和/或床通道分组成为目标数量的新的等价对象和床通道。在最实际的应用中，目标数量明显比原始数量少，例如，100个原始输入轨道被组合成20或更少的组合组。这些方案应用于床和对象通道两者都可用作群集处理的输入和/或输出的情况。支持对象和床轨道两者的第一方案是要将输入床轨道作为在空间中具有固定的预定位置的对象进行处理。这允许系统将包含例如对象和床的场景简化为仅目标数量的对象轨道。但是，作为群集处理的一部分，也可能希望保留一定数量的输出床轨道。可然后作为预处理，直接向床轨道呈现较不重要的对象，而最重要的对象可进一步群集到更少目标数量的等价对象轨道。如果得到的群集中的一些具有高畸变，那么它们也可作为后处理被呈现给床，原因是这可导致原始内容的更好近似。由于误差/畸变是时间变化函数，因此可在时间变化的基础上进行这种决定。

在实施例中，群集处理包含分析每个单独输入轨道(对象或床)201的音频内容以及附加的元数据(例如，对象的空间位置)，以导出使给出的误差度量最小的等价数量的输出对象/床轨道。在基本的实现中，误差度量基于由于偏移被群集的对象而导致的空间畸变，并且可进一步通过各对象随时间的重要性的度量被加权。对象的重要性可涵盖对象的其它特性，诸如响度、内容类型和其它相关的因素。作为替代方案，这些其它的因素可形成可与空间误差度量组合的单独的误差度量。

误差计算

群集处理基本上代表减少通过系统传送的数据量的一种有损压缩方案，但是，由于原始对象组合成数量更少的被呈现对象，因此固有地引入一定量的内容劣化。如上所述，由于对象群集导致的劣化通过误差度量被量化。一般地，原始对象至相对少的组合组的减少越大并且/者原始对象至组合组中的空间塌缩量越大，则误差越大。在实施例中，在式(1)中表达在群集处理中使用的误差度量：

E(s，c)[t]＝Importance_s[t]＊dist(s，c)[t] (1)

如上所述，对象可分布于多于一个的集群上而不是与其它的对象集合成单个集群。当具有指数s的对象信号x(s)[t]分布于多于个一个的群集c上时，使用振幅增益g(s,c)[t]的代表性的集群音频信号y(s)[t]在式2中表示：

y(c)[t]＝sum_sg(s，c)[t]＊x(s)[t] (2)

如式3所示，各集群c的误差度量E(s,c)[t]可以是通过作为振幅增益g(s,c)[t]的函数的权重的在式1中表达的项的加权组合：

E(s，c)[t]＝sum_s(f(g(s，c)[t])＊Importance_s[t]*dist(s，c)[t]) (3)

在实施例中，群集处理通过宽度或广度参数支持对象。宽度用于不被呈现为点状源而是呈现为具有表观空间广度的声音的对象。随着宽度参数增加，呈现的声音变得更加空间扩散，因此，其特定的位置变得更不相关。因此，在群集畸变度量中包含宽度是有利的，使得随着宽度增加它偏爱更大的位置误差。如式4所示，误差式E(s,c)可由此被修正以包括宽度度量。

E(s，c)[t]＝Importance_s[t]＊(α＊(1-Width_s[t])＊dist(s，c)[t]+(1-α)＊Width_s[t]) (4)

在以上的式1和3中，重要性因子s是对象的相对重要性，c是集群的质心，dist(s,c)是对象与集群的质心之间的欧几里得三维距离。如[t]项所示，所有这三个量是时间变化的。也可引入加权项α以控制对象的尺寸对比位置的相对权重。

重要性函数importance_s[t]可以是基于信号的度量(诸如，具有较高的各对象相对于混合的剩余部分有多显著的水平度量的信号的响度)的组合。例如，对各对输入对象计算的谱类似性度量可进一步加权响度度量，使得类似的信号趋于分组在一起。对于作为例子的电影院内容，可能也希望给予屏幕上对象更大的重要性，在这种情况下，重要性可进一步由方向点积项(其是前中心对象的最大值并且随着对象离开屏幕而消失)被加权。

当构建集群时，重要性函数在相对长的时间窗口(例如，0.5秒)上被时间平滑化，以确保群集是时间一致的。在这种情况下，包含对象开始和停止时间的预测和先验知识可提高群集的精度。相反，可通过使用更高的重要性函数速率估计以更高的速率(10～40毫秒)适应性调整群集质心的等价空间位置。重要性度量(例如，使用瞬时检测器)的突然改变或增加可暂时缩短相对长的时间窗口，或者关于该长的时间窗口重置任何分析状态。

如上所述，也可在误差度量中包含诸如内容类型的其它信息作为附加的重要性加权项。例如，在电影音轨中，对话可被视为比音乐和声音效果重要。因此，优选通过增加相应对象的相对重要性在一个或几个仅对话的集群中分离对话。各对象的相对重要性也由用户提供或人工调整。类似地，如果用户希望，则仅原始对象的特定子集可被群集或简化，而其它将作为单独呈现的对象被保留。也可通过使用媒体智能技术自动产生内容类型信息，以分类音频内容。

误差度量E(s,c)可以是基于组合的元数据要素的若干误差成分的组合。因此，距离以外的其它信息可在群集误差中起作用。例如，基于诸如对话、音乐和效果等对象类型，类似的对象可群集在一起而不是分开的对象。组合不兼容的不同类型的对象可导致输出声音畸变或劣化。误差也可由于用于群集对象中的一个或更多个的呈现模式不适当或者劣于最优呈现模式而被引入。类似地，对于被群集的对象，特定对象的某些控制信号可被忽略或折衷。由此可限定代表当对象被群集时组合的各元数据要素的误差之和的总误差项。在式5中表示总误差的示例性表达：

E_overalIt]＝∑E_MDn (5)

在式5中，MDn代表对于合并在集群中的各对象被组合的N个元数据要素的特定元数据要素，EMDn代表与组合该元数据值与集群中的其它对象的对应元数据值相关联的误差。误差值可对于被平均化的元数据值(例如，位置/响度)可表达为百分比值，或者对于被选择为一个值或另一个的元数据值(例如，呈现模式)被表达为二进制0％或100％值，或者表达为任何其它的适当的误差度量。对于图3B所示的元数据要素，可在式6中表达总误差。

E_overalIt]＝E_spatial+E_loudness+E_rendering+E_contrll (6)

可以使用空间误差以外的不同的误差成分作为用于对象的群集和去群集的准则。例如，可以使用响度以控制群集行为。特定的响度是基于心理声学原理的响度的感知度量。通过测量不同对象的特定响度，对象的感知响度可指导其是否被群集。例如，响的对象如果其空间轨道被修改则可能对接听者更明显，而对于较安静的对象则一般是相反情况。因此，除了空间误差以外，可以使用特定的响度作为加权因子来控制对象的群集。另一例子是对象类型，其中，如果对象的空间组织被修改，则一些类型的对象可更易被察觉。例如，人对语音信号非常敏感，并且，这些类型的对象可能需要以与诸如空间感知较不敏锐的类似噪声或环境声效果的其它对象不同的方式被处理。因此，除了用于控制对象的群集的空间误差以外，可以使用对象类型(诸如语音、效果、环境声等)作为加权因子。

群集处理202由此基于对象的某些特性和限定的不能被超过的误差量将对象组合成集群。如图3A所示，群集处理202动态地重新计算对象组203以恒定地以不同或周期性的时间间隔构建对象组以在时间的基础上优化对象分组。替代性或组合的对象组包含代表构成对象的元数据的组合的新元数据集和代表构成对象音频信号之和的音频信号。图3A所示的例子示出通过对于特定的时间点组合原始对象302和304来导出组合对象306的情况。在晚些的时间，根据由群集处理执行的动态处理，可通过组合一个或更多个其它或不同的原始对象导出组合的对象。

在一个实施例中，群集处理以规则的周期性间隔(诸如每10毫秒一次，或者任何其它适当的时间周期)分析对象并且执行群集。图5A～5B示出根据实施例的在周期性时间间隔中将对象分组成群集的处理。如示出特定时间点的对象的位置或定位的图500所示。如图5A所示，各种对象可在任何一个时间点存在于不同的位置，并且，对象可具有不同的宽度，这里，对象O₃被示为具有比其它的对象大的宽度。群集处理分析对象以形成相对于限定的最大误差阈值在空间上足够接近的对象的组。在由误差阈值502限定的距离内相互分开的对象适于群集在一起，由此，对象O₁～O₃可在对象集群A内群集在一起，并且，对象O₄和O₅可在不同的对象集群B内群集在一起。基于某个时间(例如，T＝0毫秒)的对象的相对位置形成这些集群。在下一时间周期中，对象可能在元数据特性中的一个或更多个的方面被移动或改变，在这种情况下，对象集群可被重新限定。各对象集群用不同的波形和元数据集替代构成对象。因此，对象集群A包含代替对象O₁～O₃中的每一个的单独波形和元数据被呈现的波形和元数据集。

图5B示出下一时间周期(例如，T＝10毫秒)的对象的不同的群集。在示图550的例子中，对象O₅离开对象O₄并接近另一对象即对象O₆。在这种情况下，对象集群B现在包含对象O₅～O₆，并且，对象O₄变得被去群集并且呈现为单独的对象。其它的因素也可导致对象被去群集或者改变集群。例如，对象的宽度或响度(或其它参数)变得足够大或与其邻居足够不同，使得它不应再与它们群集。因此，如图5B所示，对象O₃可变得足够宽，使得它从对象集群A去群集并且也被单独呈现。应当注意，出于视觉组织和讨论的原因，图5A～5B中的横轴不代表时间，而被用作空间分布多个对象的尺寸。示图的整个顶部代表所有对象的时间t的时刻或快照以及它们如何被群集。

作为如图5A～5B所示的那样在每个时间周期执行群集的替代，群集处理可基于与对象相关的触发条件或事件来将对象进行群集。一个这种触发条件是各对象的开始和停止时间。图6A～6C示出根据实施例的关于限定的对象边界和误差阈值将对象分组成群集的处理。作为阈值步骤，各对象必须在特定的时间周期内被限定。可以使用各种不同的方法以在时间上限定对象。在一个实施例中，可以使用对象开始/停止时间信息以限定群集处理的对象。该方法利用限定音频对象的开始点和停止点的明确的基于时间的边界信息。作为替代方案，可以使用听觉场景分析技术以识别在时间上限定对象的事件边界。在美国专利7711123中描述了这种技术，该专利通过引用并入这里并且被附加为Exhibit B。所检测的听觉场景事件边界是感知相关的时刻，在该时刻，音频中存在可用于提供“感知掩蔽”的音频的感知变化，该变化可针对不被接听者听到的音频做出。

图6A～6C示出根据实施例的使用听觉场景分析和音频事件检测或其它类似的方法来控制使用群集处理的音频对象的群集。这些附图的例子概括了使用所检测的听觉事件以限定群集并且基于限定的误差阈值从对象群集中去除音频对象。图6A是示出在特定时间(t)的空间误差的图中的对象集群的创建。两个音频对象集群指示为集群A和集群B，对象群集A由四个音频对象O₁～O₄构成且对象群集B由三个音频对象O₅～O₇构成。图600的纵轴表示空间误差，它是空间对象与被群集的对象的其余部分的不相似程度的度量，并且可被用于从群集去除对象。在图600中还示出各单独对象O₁～O₇的所检测的听觉事件边界604。由于各对象代表音频波形，因此对于对象能够在任何给定的时刻具有所检测的听觉事件边界604。如图600所示，在时间＝t，对象O₁和O₆在它们的音频信号中的每一个中具有所检测的听觉事件边界。应当注意，出于视觉组织和讨论的原因，6A～6C中的横轴不代表时间，而被用作空间分布多个对象的尺寸。示图的整个顶部代表所有对象的时间t的快照或时刻以及它们如何被群集。

如图6A所示，空间误差阈值602。该值代表为了从群集去除对象而必须超过的误差量。即，如果对象与潜在群集中的其它对象分开超过该误差阈值602的量，那么对象不包含于该群集中。因此，对于图6A的例子，各单独对象均不具有超过由阈值602表示的空间误差阈值的空间误差，因此不应出现去群集。

图6B示出在作为t之后一定时间量的时间＝t+N的图6A的群集例子，这里，对象中的每一个的空间误差对于对象O₁～O₃和O₅～O₇稍微改变。在本例子中，对象O₄具有超过预定的空间误差阈值622的空间误差。应当注意，在时间＝t+N，对于对象O₂和O₄检测到听觉事件边界，这表示在时间＝t+N由对象O₄的波形中的事件边界创建的感知掩蔽允许从群集去除该对象。注意，对象O₄可能已在t<时间<t+N之间超过空间误差阈值，但是，由于没有检测到听觉事件因此对象保持于对象群集A中。在这种情况下，群集处理将导致从群集去除(或者去群集)对象O₄。如图6C所示，从对象群集A去除对象O₄得到时间＝t+N+1的新对象群集组织。此时，对象O₄可作为被呈现的单个对象驻留，或者，如果合适的群集可用，它可集成到另一对象群集中。

在自适应音频系统中，某些对象可被定义为固定对象，诸如与特定扬声器馈送相关的通道床。在实施例中，群集处理应对床加动态对象交互，使得当对象在与被群集的对象(例如，它是偏远对象)组合时创建太多的误差时，作为替代它与床混合。图7是示出根据实施例的将对象和床进行群集的方法的流程图。在图7所示的方法700中，假定床被定义为固定位置对象。在操作702中，如果对象高于用于与其它对象进行群集的误差阈值，偏远对象然后与一个或更多个适当的床进行群集(混合)。在操作704中，在群集之后，床通道然后被标注对象信息。在操作706中，处理然后向更多的通道呈现音频，并且将额外的通道作为对象进行群集，并且在操作708中，对下混合或智能下混合执行动态范围管理以避免伪像/去相关和相位畸变等。在操作710中，处理执行两段式拣选/群集处理。在实施例中，这包括使N个最显著的对象保持分开，并且对剩余的对象进行群集。因此，在操作712中，处理仅将较不显著的对象群集到组或固定床。固定床可被添加到移动对象或被群集的对象，这可更适于特定的终端装置，诸如耳机虚拟化。对象宽度可被用作多少以及哪些群集被群集在一起以及在群集之后它们将在哪里被空间呈现的特性。

在实施例中，基于对象信号的显著性是混合的平均谱与各对象的谱之间的差值，并且，显著性元数据要素可被添加到对象/群集。相对响度是由各对象对于最终的混合贡献的能量/响度的百分比。也可向对象/群集添加相对响度元数据要素。处理可然后通过显著性分类以拣选被掩蔽的源和/或保留最重要的源。可通过进一步衰减低重要性/低显著性的源来简化群集。

群集处理一般被用作音频编码之前的数据率降低的手段。在实施例中，基于终端设备呈现能力在解码过程中使用对象群集/分组。可与使用这里描述的群集处理的呈现系统结合使用各种不同的终端设备，诸如来自全电影院回放环境、家庭剧院系统、游戏系统和个人便携式器件和耳机系统的任一个。因此，在进行呈现之前，可在诸如蓝光播放器的设备中解码对象和床的同时利用相同的群集技术，以便不超过呈现器的能力。一般地，对象和床音频格式的呈现需要作为各对象的空间信息的函数向与呈现器相关的一些通道集呈现各对象。该呈现的计算成本随对象的数量缩放，因此，任何呈现器件可具有它可呈现的对象的最大数量，该数量是其计算能力的函数。诸如AVR的高端呈现器可包含可同时呈现大量的对象的先进处理器。由于更有限的处理器，诸如单机家庭剧院(HTIB)或条状音箱的较便宜设备可能能够呈现更少的对象。因此，对于呈现器来说，向解码器传送它可接收的对象和床的最大数量是有利的。如果该数量比包含于被解码的音频中的对象和床的数量少，那么解码可在向呈现器传送之前应用对象和床的群集，以使总数减小到传送的最大值。可在诸如包含内部蓝光播放器的HTIB的单个器件内的单独的解码和呈现软件部件之间，或者在诸如独立的蓝光播放器与AVR之间的两个单独的器件之间在诸如HDMI的通信链路上，进行该能力的传送。通过列举重要性的次序、信令群集的(相对)重要性或者规定哪些群集应依次组合以减少应呈现的群集的总数，与对象和群集相关的元数据可指示或提供关于通过呈现器最佳地减少群集的数量的信息。在后面参照图15描述这一点。

在一些实施例中，可在没有除各对象固有信息以外的附加信息的情况下在解码器级206中执行群集处理。但是，该群集的计算成本可等于或大于尝试节省的呈现成本。计算效率更高的实施例包括在计算资源可能更大的编码侧204上计算层级群集方案，和发送元数据连同被编码的位流，该位流指示解码器如何将对象和床群集成逐渐小的数量。例如，元数据可陈述：首先合并对象2与对象10。其次，合并得到的对象与对象5，等等。

在实施例中，对象可具有与它们相关的一个或更多个时间变化标注，以表示包含于对象轨道中的音频的某些特性。如上所述，对象可被归类为几个预估内容类型中的一个，诸如对话、音乐、效果、背景等，并且，这些类型可被用于帮助引导群集。同时，这些类别在呈现处理中也是有用的。例如，对话增强算法可仅应用于标注为对话的对象。但是，当对象被群集时，群集可包含具有不同的标注的对象。为了标注群集，可以使用几种技术。可例如通过选择具有最大能量的对象的标注，选择群集的单个标注。该选择也可以是时间变化的，这里，在群集的持续期中的以规则时间间隔选择单个标注，并且，在各特定的间隔，从在该特定间隔内的具有最大能量的对象选择标注。在一些情况下，单个标注可能不够，并且可产生新的组合的标注。例如，在规则的间隔，在该间隔期间有助于群集的所有对象的标注可与群集相关。作为替代方案，权重可与这些有贡献的标注中的每一个相关。例如，权重可被设定为等于属于该特定类型的总能量的百分比：例如，50％对话、30音乐和20％效果。这些标注可然后以更灵活的方式被呈现器使用。例如，可以仅向包含至少50％对话的被群集的对象轨道施加对话增强算法。

一旦组合不同的对象的群集被限定，就必须对各群集产生等价的音频数据。在实施例中，如图3A所示，组合的音频数据只是群集中的各原始对象的原始音频内容的和。但是，该简单的技术可导致数字剪切。为了减少这种可能性，可以使用几种不同的技术。例如，如果群集器支持浮动音频数据，那么高动态范围信息可被存储且被转送到群集器以用于后面的处理级。如果只有有限的动态范围可用，那么希望限制得到的信号或使其衰减一定量，该量可以是固定的或者动态的。在后一种情况下，衰减系数将作为动态增益被带到对象数据中。在一些情况下，构成信号的直接相加可导致梳过滤伪像。可在相加之前通过施加去相关过滤或类似的处理减少这种问题。另一减轻由于下混合导致的音色变化的方法是在相加之前使用对象信号的相位对准。另一解决梳过滤或音色变化的方法是，响应相加信号的谱和单独对象信号的谱，通过向相加的音频信号施加频率相关权重来重新增强振幅或功率互补相加。

当产生下混合时，处理还可减少群集的位深以增加数据的压缩。可通过噪声整形或类似的处理执行这一点。位深减少产生位数比构成对象少的群集。例如，一个或更多个24位对象可组成为表示为16或20位的群集。可根据群集重要性或能量或其它因素对不同的群集和对象使用不同的位减少方案。另外，当产生下混合时，得到的下混合信号可具有超出可由具有固定位数的数字表现表示的可接受范围的采样值。在这种情况下，下混合信号可通过使用峰值限制器被限制，或者(暂时)衰减一定量以防止采样值离开范围。施加的衰减量可包含于群集元数据中，使得它可在呈现、编码或其它随后的处理中被取消(或逆转)。

在实施例中，群集处理可使用指针机构，由此，元数据包含存储于数据库或其它存储器中的特定音频波形的指针。通过由组合的元数据要素指向适当的波形来执行对象的群集。可在产生音频内容的预计算的数据库、从编码器和解码器级传送音频波形并然后通过使用被群集的对象的特定音频波形的指针在解码器级中构建群集的存档系统中实现这种系统。可在有利于不同终端设备的基于对象的音频的封装的系统中使用这种类型的机构。

群集处理也可被调整，以允许在终端客户机装置上进行重新群集。一般地，替代性群集替代原始对象，但是，对于本实施例，群集处理还发送与各对象相关的误差信息，以允许客户机确定对象是单独呈现的对象还是被群集的对象。如果误差值为0，那么可以推导不存在群集，但是，如果误差值等于一定量，那么可以推导，对象是一些群集的结果。客户机上的呈现决定然后基于误差量。一般地，群集处理是作为离线处理运行的。作为替代方案，它可在创建内容时作为实时处理运行。对于本实施例，群集组件可实现为可作为内容创建和/或呈现系统的一部分被提供的工具或应用。

基于感知的群集

在一个实施例中，群集方法被配置为在约束条件(例如，由于大的对象数量和/或它们的空间稀疏分布，输入对象在不违背空间误差规则的情况下不能被群集)下组合对象和/或床通道。在这样的条件下，群集处理不仅受空间接近度(从元数据导出)控制，而且受从对应的音频信号导出的感知规则增强。更具体而言，在最小化空间误差方面，具有高(被感知到的)内容重要性的对象将比具有低重要性的对象更受偏好。量化重要性的示例包括但不局限于部分响度和语义(内容)。

图8示出了根据实施例的除了空间接近度之外还基于感知重要性将对象和床通道群集为集群的系统。如图8所示，系统360包括预处理单元366，感知重要性组件376和群集组件384。通道床和/或对象364连同相关的元数据362一起被输入预处理单元366，并且被处理以确定它们的相对感知重要性，然后与其它床/对象一起被群集以产生对象的输出床和/或集群(可由单独的对象或单独的对象集构成)392，以及这些集群的相关的元数据390。在示例性的实施例或实现中，输入可由11.1床通道以及128或更多个音频对象构成，并且输出可包含一组床和集群，其包含总共约11～15个信号以及每个集群的相关的元数据，但是实施例并不因此受限。元数据可包含规定对象位置、大小、区域掩蔽、去相关器标注、快照标注等。

预处理单元366可包括各个功能组件，诸如元数据处理器368、对象去相关单元370、离线处理单元372、信号分割单元374以及其它组件。诸如元数据输出更新率396的外部数据可被提供给预处理器366。感知重要性组件376包括质心初始化组件378、部分响度组件380、媒体智能单元382以及其它组件。诸如输出床和对象配置数据398的外部数据可被提供给感知重要性组件376。群集组件384包括信号合并386和元数据合并388组件，它们形成被群集的床/对象，以产生经组合的床/通道和对象的元数据390和集群392。

关于部分响度，对象的感知响度通常在其它对象的情境中减小。例如，对象可(部分地)被场景中存在的其它对象和/或床通道掩蔽。在一个实施例中，在空间误差最小化方面，具有高的部分响度的对象与具有低的部分响度的对象相比受到偏好。因此，相对不受掩蔽(即，感知上更响亮)的对象不太可能被群集，而相对受掩蔽的对象更可能被群集。此处理优选地包括掩蔽的空间方面，例如如果被掩蔽的对象和掩蔽的对象具有不同的空间性质，则解除掩蔽。换句话说，某一受关注对象的基于响度的重要性在该对象在空间上与其它对象分开时比其它对象紧邻受关注对象时高。

在一个实施例中，对象的部分响度包括通过空间未掩蔽现象被扩展的特定响度。双耳道掩蔽解除被引入以表示基于两个对象之间的空间距离的掩蔽量，如下式所提供的。

N’_k(b)＝(A+∑E_m(b))^α+(A+∑E_m(b)(1-f(k，m)))^α

在上式中，第一个加法是对于所有m执行的，并且第二个加法是对于所有m≠k执行的。项E_m(b)代表对象m的激励，项A反映了绝对听力阈值，并且项(1-f(k，m))代表掩蔽解除。关于此式的其它细节在下文被提供。

关于内容语义或音频类型，与背景音乐、环境声、音效或其它类型的内容相比，对话常常被认为是更重要的(或者更受重视)。对象的重要性因此依赖于其(信号)内容，并且与重要对象相比，相对不重要的对象更有可能被群集。

对象的感知重要性可通过组合对象的感知响度和内容重要性而被导出。例如，在一个实施例中，内容重要性可基于对话置信度分数被导出，并且可基于此导出的内容重要性来估计增益值(以dB计)。然后，可通过估计的响度来修正对象的响度或激励，其中该估计的响度表示对象的最终感知重要性。

图9示出了根据一个实施例的使用感知重要性的对象群集处理的功能组件。如图900中所示，输入音频对象902通过群集处理904被组合成输出集群910。群集处理904至少部分地基于重要性度量908来将对象902群集，重要性度量908是从对象信号以及可选的它们的参数对象描述被生成的。这些对象信号和参数对象描述被输入估计重要性函数906，该函数生成被群集处理904使用的重要性度量908。输出集群910构成与原始输入对象配置相比更加紧凑的表示(例如，较少数量的音频通道)，从而允许存储和传送需求降低；并且使得用于尤其在具有受限的处理能力和/或电池操作的消费者领域的器件上再现内容的计算和存储需求降低。

在一个实施例中，估计重要性906和群集904处理随时间执行。对于此实施例，输入对象900的音频信号被分割成经受某些分析组件处理的各个帧。这样的分割可应用于时域波形，但是也可使用过滤器组，或者应用于任何其它的变换域。估计重要性函数906对于输入音频对象902的包括内容类型和部分响度的一个或更多个特性进行操作。

图11是示出根据实施例的基于内容类型和响度的感知因素来处理音频对象的总体方法的流程图。方法1100的总体操作包括估计输入对象的内容类型(1102)，然后估计基于内容的对象的重要性(1104)。对象的部分响度如框1106中所示那样被计算。依赖于系统配置，部分响度可与内容分类并行地被计算，甚至可在内容分类之前或之后被计算。响度测量和内容分析可然后被组合(1108)以得出基于响度和内容的总体重要性。这可通过用对象由于内容而被感知重要的可能性修正所计算的对象的响度来实现。一旦组合对象重要性被确定，则根据某些群集处理，对象可与其它对象被群集或者不被群集。为了防止基于响度进行不适当的对象的群集和不群集，可基于内容重要性使用平滑化操作来平滑化该响度(1110)。关于响度平滑化，基于对象的相对重要性选择时间常数。对于重要对象，缓慢平滑的大时间常数可被选择，使得重要对象可始终被选择为集群质心。还可基于内容重要性使用自适应时间常数。然后，使用对象的经平滑化的响度和内容重要性以形成合适的输出集群(1112)。在方法600中被示出的各主要处理的各方面在下文被更详细地描述。应指出，依赖于系统约束和应用要求，例如，在感知重要性可能仅基于内容类型或部分响度之一的或者不需要响度平滑化的基本系统中，如果必要的话，处理1100的某些操作可被省略。

关于估计对象内容类型(1102)，内容类型(例如，对话、音乐和声音效果)提供了指示音频对象的重要性的关键信息。例如，对话在电影中通常是最重要的组成，因为其传达了故事，并且正确回放典型地需要不允许对话随其它移动音频对象而四处移动。图9的估计重要性函数906包括音频分类组件，其自动估计音频对象的内容类型以确定音频对象是对话，还是对象的重要或不重要类型的一些其它类型。

图10是根据实施例的音频分类组件的功能图。如示图1000中所示，输入音频信号1002在特征提取模块中被处理，该模块提取表示输入音频信号的时间、谱和/或空间性质的特征。表示每个目标音频类型的统计性质的一组预先训练的模型1006还被提供。对于图10的示例，模型包括对话、音乐、声音效果和噪声，但是其它模型也是可能，并且各种机器学习技术可被用于模型训练。模型信息1006和提取的特征1004被输入模型比较模块1008。此模块1008比较输入音频信号的特征与每个目标音频类型的模型，计算每个目标音频类型的置信度分数，并且估计最佳匹配的音频类型。每个目标音频类型的置信度分数被进一步估计，其代表要被识别的音频对象和目标音频类型之间的概率或匹配水平，其值在0到1(或者任何其它合适范围)中。置信度分数可根据不同的机器学习方法被计算，例如，后验概率可直接被用作用于高斯混合模型(GMM)的置信度分数，并且s型拟合(sigmoid fitting)可用于近似支持向量机(SVM)和AdaBoost的置信度分数。其它类似的机器学习方法也可被使用。模型比较模块1008的输出1010包括输入音频信号1002的音频类型以及它们的相关置信度分数。

关于估计基于内容的音频对象重要性，对于面向对话的应用，假定如上所述对话是音频中的最重要的组成，基于内容的音频对象重要性仅基于对话置信度分数被计算。在其它应用中，依赖于内容的优选类型，可使用不同的内容类型置信度分数。在一个实施例中，如在下式中提供的，利用s型函数(sigmoid function)。

在上式中，I_k是对象k的估计的基于内容的重要性，p_k是对应的所估计的对象k由语音/对话构成的概率，并且A和B是两个参数。

为了对于对话概率分数小于阈值c的那些对象、进一步将基于内容的重要性设定为始终接近0，上式可被如下地修改：

在实施例中，常数c可取值c＝0.1，并且两个参数A和B可以是常数，或者基于概率分数p_k被自适应地调节。

关于计算对象部分响度，一种在复杂听觉场景中计算一个对象的部分响度的方法是基于临界频带(b)中的激励水平E(b)的。受关注的某一对象的激励水平E_obj(b)和所有其余(掩蔽)对象的激励E_noise(b)导致频带b中的特定响度N’(b)，如下式所给出的。

N′(b)＝C[(GE_obj+GE_noise+A)^α-A^α]-C[(GE_noise+A)^α-A^α]，

其中，G、C、A和α是模型参数。随后，通过在临界频带上对特定响度N’(b)求和获得部分响度N，如下。

N＝∑_bN′(b)

当听觉场景由具有激励水平E_k(b)的K个对象构成(k＝1，…，K)时，并且为了表述简单，模型参数G和C被假定等于+1，对象k的特定响度N_k’(b)由下式给出：

N′_k(b)＝(A+∑_mE_m(b))^α-(-E_k(b)+A+∑_mE_m(b))^α

上式中的第一项表示听觉场景的整体激励，加上反映绝对听觉阈值的激励A。第二项反映了除了所关注的对象k之外的整体激励，因此第二项可被理解为应用于对象k的“掩蔽”项。此式子没有应对双耳道掩蔽解除。如果所关注对象k不同于另一对象m，则掩蔽解除可通过减少上文的掩蔽项而被并入，如下式给出：

N′_k(b)＝(A+∑_mE_m(b))^α-(-E_k(b)+A+∑_mE_m(b)(1-f(k，m)))^α，

在上式中，f(k，m)是如下这样的函数：如果对象k和对象m具有相同位置则等于0，并且随着对象k和m之间的空间距离增加，具有增加到+1的值。换句话说，函数f(k，m)代表作为对象k和m的参数位置中的距离的函数的未掩蔽量。作为替代，(k，m)的最大值可被限制为稍小于+1的值，诸如0.995，以反映空间分隔开的对象的空间未掩蔽量。

所限定的集群质心可应对(account for)响度的计算。通常，质心是代表集群的中心的在属性空间中的位置，并且属性是对应于测量的一组值(例如，响度、内容类型等)。如果对象被群集，并且如果目标是导出提供可能最佳的音频质量的受约束的一组集群以及相关的参数位置，则各个对象的部分响度仅具有有限的关联性。在一个实施例中，更具代表性的度量是由特定集群位置(或者质心)应对的部分响度，该部分响度集合了该位置附近的所有激励。类似于上述情况，集群质心c应对的部分响度可被表达如下：

N′_c(b)＝(A+∑_mE_m(b))^α-(A+∑_mE_m(b)(1-f(m，c)))^α

在此情境中，输出床通道(例如，应由回放系统中的特定扬声器再现的输出通道)可被看做具有固定位置的质心，对应于目标扬声器的位置。类似的，输入床信号可被看做具有与对应再现扬声器的位置对应的位置的对象。因此，在床通道位置固定的约束下，对象和床通道可经受正好相同的分析。

在一个实施例中，响度和内容分析数据被组合以导出组合的对象重要性值，如图11的框1108中所示。此基于部分响度和内容分析的组合值可通过用对象在感知上重要的概率修正对象的响度和/或激励来获得。例如，对象k的激励可被如下地修正：

E’_k(b)＝E_k(b)g(I_k)

在上式中，I_k是对象k的基于内容的对象重要性，E_k’(b)是经修正的激励水平，并且g(·)是将内容重要性映射到激励水平修正中的函数。在一个实施例中，g(·)是将内容重要性解释为以db计的增益的指数函数。

g(I_k)＝10^GI _k

其中，G是基于内容的对象重要性的另一增益，其可被调节以获得最佳性能。

在另一实施例中，g(·)是如下的线性函数：

g(I_k)＝1+G·I_k

上述式子仅仅是可能的实施例的示例。替代的方法可被应用于响度而不是激励，并且可包括除了简单乘积之外的信息组合方式。

还如图11所示，实施例还包括基于内容重要性平滑化响度的方法(1110)。响度在帧上被部分地平滑化，以避免其它位置的快速变化。平滑化处理的时间常数可基于内容重要性被自适应地调整。这样，对于更重要的对象是，时间常数可更大(缓慢平滑)，从而更重要的对象可在帧上始终被选择为集群质心。这也改进了对于对话的质心选择的稳定性，因为对话常常改变其中在停顿时响度可能低的所说的词和短语，从而导致其它对象被选择为质心。这样导致最终选择的质心在对话和其它对象之间切换，造成可能的不稳定。

在一个实施例中，时间常数与基于内容的对象重要性正相关，如下：

τ＝τ₀+I_k.τ₁

在上式中，τ是所顾忌的重要性相关的时间常数，并且τ₀和τ₁是参数。此外，类似于基于内容重要性的激励/响度水平修正，自适应时间常数方案也可应用于响度或激励。

如上所述，音频对象的部分响度相对于所限定的集群质心被计算。在一个实施例中，集群质心计算被执行为使得当集群的总数被约束时，集群质心的导致质心的最大部分响度的子集被选择。图12是示出根据实施例的计算集群质心并将对象分配给所选择的质心的处理的流程图。处理1200示出了基于对象响度值导出受限的质心集合的实施例。该处理通过限定该受限集合中的质心的最大数量(1201)开始。这约束了音频对象的群集，使得不违反诸如空间误差的有些准则。对于每个音频对象，该处理计算假定质心在该对象的位置处的响度(1202)。然后，该处理选择导致最大响度的质心(1204)，该响度可选地对于内容类型被修正，并且去除所选择的质心导致的所有激励(1206)。此处理被重复进行，直到获得块1201中定义的最大数量的质心(如在判定块1208中所确定的)。

在可选择实施例中，响度处理可涉及对空间域中所有可能的位置的采样执行响度分析，然后在所有位置选择局部极大值。在另一可选择实施例中，Hochbaum质心选择通过响度被增强。Hochbaum质心选择是基于彼此具有最大距离的一组位置的选择的。此处理可通过将响度与距离度量相乘或相加以选择质心而被增强。

如图12所示，一旦已经处理了最大数量的质心，则音频对象被分配给合适的所选择的质心(1210)。在此方法中，当选择了集群质心的合适子集时，通过将对象添加到与其最近的相邻质心，或者例如通过三角测量、使用向量分解或者用于最小化对象的空间误差的任何其它手段将对象混合到质心的集合或子集中，可将对象分配给质心。

图13A和13B示出了根据实施例的基于某些感知准则将对象分组成集群。图1300示出了被表示为X/Y空间坐标系的二维对象空间中的不同对象的位置。对象的相对大小代表它们的相对感知重要性，从而较大的对象(例如1306)的重要性高于较小的对象(例如1308)。在一个实施例中，感知重要性是基于各相应对象的相对部分响度值和内容类型的。群集处理分析对象以形成容忍更大空间误差的集群(对象分组)，其中空间误差可关于最大误差阈值1302被定义。基于合适的准则(诸如误差阈值)，对象可被以任何数量的布置被群集。

图13B示出了对于特定的一组群集准则的图13A的对象的可能的群集。图1350示出了将图1300中的一些对象群集成四个分离的集群，被指示为集群A～D。对于图13B所示的示例，集群A代表容忍更大空间误差的低重要性对象的组合，集群C和D代表基于它们应被分别呈现的具有足够高的重要性的源的集群，并且集群B代表低重要性对象可与高重要性对象分组的情况。图13B的配置预期仅代表对于图13A的对象的可能的群集方案的一个示例，并且可选择许多不同的群集布置。

在一个实施例中，群集处理选择用于将对象群集的X/Y平面中的n个质心，其中n是集群的数量。该处理选择对应于最高重要性的或者最大响度的n个质心。剩余的对象然后根据(1)最接近的相邻对象或者(2)通过平移技术被呈现到集群质心中来被群集。因此，通过将被群集对象的对象信号添加到最近的质心或者将音频信号混合到集群的子集中来将音频对象分配给集群。所选择的集群的数量可以是动态的，并且通过使得集群中的空间误差最小的混合增益被确定。集群元数据由驻留在集群中的对象的加权平均构成。权重可基于感知响度以及对象位置、大小、区域、排除掩蔽和其它对象特性。通常，对象的群集主要依赖于对象重要性，并且一个或更多个对象可分布于多个输出集群上。即，对象可被添加到一个集群(被唯一地群集)，或者可分布于多于一个的集群上(非唯一地群集)。

如图13A和13B所示，群集处理动态地将原始数量音频对象和/或床通道分组成目标数量的新的等同对象和床通道。在最实际的应用中，目标数量通常低于原始数量，例如，100个原始输入轨道被组合成20个或更少的组合组。这些方案应用于床和对象通道两者可用作群集处理的输入和/或输出的情况。支持对象和床轨道两者的第一方案是将输入的床通道作为在空间中具有固定的预定义位置的对象来进行处理。这允许系统将包含例如对象和床两者的场景简化为仅目标数量的对象轨道。但是，还希望地是作为群集处理的一部分保留一定数量的输出床轨道。然后，作为预处理，较不重要的对象可被直接呈现给床轨道，而最重要的对象可被进一步群集为较少目标数量的等同对象轨道。如果得到的集群中的一些具有高畸变，它们还可作为后期处理被呈现到床，这样可导致原始内容的更好近似。此判定可在时间变化的基础上做出，因为误差/畸变是时间变化函数。

在一个实施例中，群集处理涉及分析各单独的输入轨道(对象或床)的音频内容以及附加的元数据(例如，对象的空间位置)，以导出最小化给定的误差度量的等同数量的输出对象/床轨道。在基本实现中，误差度量1302由于被群集的对象偏移而是基于空间畸变的，并且可用各对象随时间的重要性的度量而被加权。对象的重要性可包封该对象的其它特性，诸如响度、内容类型、和其它相关因素。作为替代，这些其它因素可形成可与空间误差度量相组合的单独的误差度量。

对象和通道处理

在自适应音频系统中，某些对象可被定义为固定对象，例如与特定扬声器馈送相关联的通道床。在一个实施例中，群集处理导致床加动态对象交互，从而当对象在与被群集的对象(例如，其是偏远(outlying)对象)分组时产生过大的误差时，作为替代该对象混合到床中。图14示出了根据实施例的用于对音频对象和通道床进行群集的处理流的组件。图14中所示的方法1400假定床被定义为固定位置对象。然后，如果偏远对象高于用于与其它对象群集的误差阈值，则偏远对象与一个或更多个合适的床被群集(混合)(1402)。然后，床通道在群集之后被标注该对象信息(1404)。然后，该处理呈现音频至更多的通道，并且将额外的通道群集为对象(1406)，并且对下混或智能下混执行动态范围管理以避免伪像和/或去相关、相位畸变等(1408)。处理执行两段式拣选/群集处理(1410)。在一个实施例中，这涉及分别保持N个最显著的对象，并且将剩余的对象进行群集。因此，该处理仅将较不显著的对象群集为组或固定床(1412)。固定床可被添加到移动对象或群集对象，这可更适合于特定终端设备，诸如耳机虚拟化。对象宽度可被用作多少以及那些对象被群集在一起的特性以及它们在群集之后将被空间呈现的特性。

回放系统

如上文所述描述的，各种不同的终端设备可与采用文中所描述的群集处理的呈现系统相结合地使用，并且这样的器件可具有可能影响群集处理的某些能力。图15示出了根据实施例的基于终端设备的能力来呈现被群集的对象数据。如图1500中所示，蓝光盘解码器1502产生用于通过条式音箱、家庭影院系统、个人回放设备或者其他处理受限的回放系统1504呈现的包括被群集的床和对象的简化的音频场景内容。终端设备的特性和能力作为呈现器能力信息1508被传送回解码器级1502，从而对象的群集可优选地基于所使用的特定终端设备而被执行。

采用群集处理的各方面的自适应音频系统可包括回放系统，其被配置为呈现和回放通过一个或多个捕获、预处理、创作和编码组件而生成的音频内容。自适应音频预处理器可包括通过输入音频的分析来自动生成合适元数据的源分离和内容类型检测功能。例如，位置元数据可从多通道记录通过通道对之间的关联输入的相对水平的分析被导出。诸如语音或音乐的内容类型的检测可例如通过特征提取和分类被实现。某些创作工具允许通过优化声音工程师的创作意图的输入和代码化来创作音频节目，这允许工程师创作最终的混音，该混音被优化用于在实际上任何回放环境中回放。这可通过使用与原始音频内容相关且通过原始音频内容被编码的音频对象和位置数据来实现。为了在观众席周围准确地放置声音，声音工程师需要基于回放环境的实际约束和特征来控制声音将最终如何呈现。自适应音频系统通过允许声音工程师使用音频对象和位置数据改变音频内容如何被设计和混合来提供此控制。一旦自适应音频内容已在合适的编解码设备中被创作和编码，则其在回放系统的各种组件中被解码和呈现。

通常，回放系统可以是任何专业级或消费者级的音频系统，其可包括家庭影院(例如，A/V接收器、条式音箱、和蓝光)、E-媒体(诸如PC、平板电脑、包括耳机回放的移动电话)、广播(例如，TV和机顶盒)、音乐、游戏、现场声音、用户生成的内容等。自适应音频内容为所有的终端设备的观众提供了增强的沉浸感、为音频内容创作者提供了扩展的艺术控制、提供了用于改进的呈现的改进的内容相关(描述性)元数据、为消费者级回放系统提供了扩展的灵活性和缩放性、提供了音质保留和匹配、以及提供了基于用户位置和交互动态呈现内容的机会。系统包括若干组件，包括用于内容创建者的新工具、用于分布和回放、家庭内动态混合和呈现(适合于不同的消费者级配置)、附加的扬声器位置和设计的更新的和新的包装和编码工具。

文中描述的音频环境的各方面代表了通过合适扬声器和回放设备的音频或音频/视觉内容的回放，并且可代表在其中收听者体验了被捕获的内容的回放的任何环境，诸如影院、演奏厅、露天影院、家庭或房间、听音室、汽车、游戏控制台、耳机或耳塞系统、公共地址(PA)系统或者任何其它回放环境。包括基于对象的音频和基于通道的音频的空间音频内容可与任何有关的内容(相关的音频、视频、图形等)相结合地使用，或者其可构成孤立的音频内容。回放环境可以是从耳机或近场监视器到小的或大的房间、汽车、露天竞技场、演奏厅等的任何合适的收听环境。

文中描述的系统的各方面可在用于处理数字或数字化音频文件的合适的基于计算机的声音处理网络环境中实现。自适应音频系统的各部分可包括一个或多个网络，包括任何希望数量的单独的机器，包括用于缓冲和路由在计算机之间传送的数据的一个或多个路由器(未示出)。这样的网络可在各种不同的网络协议上被构建，并且可以是因特网、广域网(WAN)、局域网(LAN)或者它们的任何组合。在网络包括因特网的实施例中，一个或多个机器可被配置为通过网络浏览器程序来访问因特网。

组件、块、处理或其它功能组成中的一个或多个可通过计算机程序实现，该计算机程序控制系统的基于处理器的计算设备的执行。应指出，文中公开的各种功能可使用硬件、固件的任何数量的组合被描述，和/或在它们的行为、寄存器传递、逻辑组件和/或其它特性方面，被描述为各种机器可读或计算机可读媒介中体现的数据和/或指令。在其中可体现这样的格式化的数据和/或指令的计算机可读媒介包括但不限于各种形式的物理(非暂态)、非易失性存储介质，诸如光学、磁或半导体存储介质。

除非上下文清楚要求，否则在描述和权利要求书的中，词语“包括”、“包含”等应被在包含性的意义上、而不是排他性或者穷举性的意义上来解释，即以“包括、但不局限于”的意义来解释。使用单数或复数的词语还可分别包括复数或单数。另外，词语“其中”、“下文”、“以上”、“以下”和类似词语指的是本申请整体，而不是本申请的任何特定部分。当对于两个或更多个项目的列表使用词语“或”时，该词语涵盖该词语的以下解释的全部：该列表的项目的任一个、该列表中的项目的全部以及该列表中的项目的任何组合。

尽管已经作为示例并且在具体实施例的情况下描述了一个或多个实现，但是应理解，一个或多个实现不限于公开的实施例。相反，如本领域技术人员应明了，其将覆盖各种变型和类似布置。因此，所附权利要求的范围应被给予最宽泛的解释以涵盖所有这样的变型和类似布置。

Claims

1.一种压缩基于对象的音频数据的方法，包括：

确定对象在音频场景中的感知重要性，其中，对象包含对象音频数据和相关的元数据；和

基于确定的音频对象的感知重要性将某些音频对象组合成音频对象的集群，其中，集群的数量比音频场景中的音频对象的原始数量少，并且其中，所述将某些音频对象组合成集群包括选择与具有最高感知重要性的音频对象对应的集群的质心，并且通过平移技术将其余音频对象中的至少一个分布于所述集群中的多于一个的集群上。

2.根据权利要求1的方法，其中，感知重要性是从音频对象的对象音频数据导出的。

3.根据权利要求1或权利要求2的方法，其中，感知重要性是从相应音频对象的响度值和内容类型中的至少一个导出的值，并且，内容类型选自由对话、音乐、声音效果、环境声和噪声构成的组。

4.根据权利要求1或权利要求2的方法，其中，确定的音频对象的感知重要性依赖于音频对象在音频场景中的相对空间位置，并且，组合步骤包含：

确定数个质心，各质心包含用于将多个音频对象分组的集群的中心，质心位置依赖于一个或更多个音频对象相对于其它音频对象的感知重要性；和

通过在集群间分布音频对象信号，将音频对象分组成一个或更多个集群。

5.根据权利要求1或权利要求2的方法，其中，集群元数据由具有高感知重要性的一个或更多个音频对象确定。

6.根据权利要求3的方法，其中，内容类型由音频分类过程确定，并且其中，响度值由感知模型获得。

7.根据权利要求6的方法，其中，感知模型基于输入音频信号的临界频带中的激励水平的计算，并且，所述方法还包括：

在音频对象中的第一音频对象周围限定集群的质心；和

集合音频对象的所有激励。

8.根据权利要求3的方法，其中，响度值至少部分地依赖于相应音频对象与其它音频对象的空间接近度。

9.根据权利要求8的方法，其中，空间接近度至少部分地由相应音频对象的相关元数据的位置元数据值限定。

10.根据权利要求1或权利要求2的方法，其中，组合导致与各被群集的音频对象相关的某些空间误差，并且所述方法还包含将音频对象进行群集以使得对于具有相对高感知重要性的音频对象最小化空间误差。

11.根据权利要求7的方法，还包括基于由分组的音频对象的相对感知重要性导出的时间常数将激励水平、响度或从中导出的性质平滑化。

12.一种处理基于对象的音频的方法，包括：

确定多个音频对象中各音频对象相对于其它音频对象的第一空间位置；

通过至少确定多个音频对象中的各音频对象的部分响度来确定多个音频对象中的各音频对象的相对重要性，所述相对重要性依赖于音频对象的相对空间位置，其中音频对象的部分响度至少部分地基于一个或更多个其它音频对象的掩蔽效果；

确定数个质心，各质心包含用于将多个音频对象分组的群集的中心，质心位置依赖于一个或更多个音频对象的相对重要性；和

通过在集群间分布音频对象信号将音频对象分组。

13.根据权利要求12的方法，还包括确定多个音频对象中的各音频对象的内容类型和相关的内容类型重要性。

14.根据权利要求13的方法，还包括组合各音频对象的部分响度和内容类型以确定相应音频对象的相对重要性。

15.根据权利要求13或权利要求14的方法，其中，内容类型选自由对话、音乐、声音效果、环境声和噪声构成的组。

16.根据权利要求12-14中任一项的方法，其中，通过基于输入音频信号的临界频带中的激励水平的计算的感知模型获得部分响度，并且其中，所述方法还包括：

在音频对象中的第一音频对象周围限定集群的质心；和

集合音频对象的所有激励。

17.根据权利要求12-14中任一项的方法，其中，将音频对象分组导致与各被群集的音频对象相关的某些空间误差，并且其中，所述方法还包含将音频对象分组为使得对于具有相对高感知重要性的音频对象最小化空间误差。

18.根据权利要求17的方法，还包括以下处理中的一个：选择具有最高感知重要性的音频对象作为包含具有最高感知重要性的音频对象的集群的集群质心，或者选择具有最大响度的音频对象作为包含具有最大响度的音频对象的集群的集群质心。

19.根据权利要求12-14中任一项的方法，其中，将音频对象分组包含：

将体现同一集群内的构成音频对象的音频数据的波形组合在一起以形成具有构成音频对象的组合波形的替代音频对象；和

将同一集群内的构成音频对象的元数据组合在一起以形成构成音频对象的元数据的替代集。

20.一种用于压缩基于对象的音频数据的装置，包括：

用于确定对象在音频场景中的感知重要性的部件，其中，对象包含对象音频数据和相关的元数据；和

用于基于确定的音频对象的感知重要性将某些音频对象组合成音频对象的集群的部件，其中，集群的数量比音频场景中的音频对象的原始数量少，并且其中，所述将某些音频对象组合成集群包括选择与具有最高感知重要性的音频对象对应的集群的质心，并且通过平移技术将其余音频对象中的至少一个分布于所述集群中的多于一个的集群上。

21.根据权利要求20的装置，其中，感知重要性是从音频对象的对象音频数据导出的。

22.根据权利要求20或权利要求21的装置，其中，感知重要性是从相应音频对象的响度值和内容类型中的至少一个导出的值，并且，内容类型选自由对话、音乐、声音效果、环境声和噪声构成的组。

23.根据权利要求20或权利要求21的装置，其中，确定的音频对象的感知重要性依赖于音频对象在音频场景中的相对空间位置，并且，步骤包含：

24.根据权利要求20或权利要求21的装置，其中，集群元数据由具有高感知重要性的一个或更多个音频对象确定。

25.根据权利要求22的装置，其中，内容类型由音频分类过程确定，并且其中，响度值由感知模型获得。

26.根据权利要求25的装置，其中，感知模型基于输入音频信号的临界频带中的激励水平的计算，并且，所述装置还包括：

用于在音频对象中的第一音频对象周围限定集群的质心的部件；和

用于集合音频对象的所有激励的部件。

27.根据权利要求22的装置，其中，响度值至少部分地依赖于相应音频对象与其它音频对象的空间接近度。

28.根据权利要求27的装置，其中，空间接近度至少部分地由相应音频对象的相关元数据的位置元数据值限定。

29.根据权利要求20或权利要求21的装置，其中，组合导致与各被群集的音频对象相关的某些空间误差，并且所述装置还包含用于将音频对象进行群集以使得对于具有相对高感知重要性的音频对象最小化空间误差的部件。

30.根据权利要求26的装置，还包括用于基于由分组的音频对象的相对感知重要性导出的时间常数将激励水平、响度或从中导出的性质平滑化的部件。

31.一种用于处理基于对象的音频的装置，包括：

用于确定多个音频对象中各音频对象相对于其它音频对象的第一空间位置的部件；

用于通过至少确定多个音频对象中的各音频对象的部分响度来确定多个音频对象中的各音频对象的相对重要性的部件，所述相对重要性依赖于音频对象的相对空间位置，其中音频对象的部分响度至少部分地基于一个或更多个其它音频对象的掩蔽效果；

用于确定数个质心的部件，各质心包含用于将多个音频对象分组的群集的中心，质心位置依赖于一个或更多个音频对象的相对重要性；和

用于通过在集群间分布音频对象信号将音频对象分组的部件。

32.根据权利要求31的装置，还包括用于确定多个音频对象中的各音频对象的内容类型和相关的内容类型重要性的部件。

33.根据权利要求32的装置，还包括用于组合各音频对象的部分响度和内容类型以确定相应音频对象的相对重要性的部件。

34.根据权利要求32或权利要求33的装置，其中，内容类型选自由对话、音乐、声音效果、环境声和噪声构成的组。

35.根据权利要求31-33中任一项的装置，其中，通过基于输入音频信号的临界频带中的激励水平的计算的感知模型获得部分响度，并且其中，所述装置还包括：

用于集合音频对象的所有激励的部件。

36.根据权利要求31-33中任一项的装置，其中，将音频对象分组导致与各被群集的音频对象相关的某些空间误差，并且其中，所述装置还包含用于将音频对象分组为使得对于具有相对高感知重要性的音频对象最小化空间误差的部件。

37.根据权利要求36的装置，还包括以下部件中的一个：用于选择具有最高感知重要性的音频对象作为包含具有最高感知重要性的音频对象的集群的集群质心的部件，或者用于选择具有最大响度的音频对象作为包含具有最大响度的音频对象的集群的集群质心的部件。

38.根据权利要求31-33中任一项的装置，其中，将音频对象分组包含：