CN104882145B

CN104882145B - 使用音频对象的时间变化的音频对象聚类

Info

Publication number: CN104882145B
Application number: CN201410078314.3A
Authority: CN
Inventors: 陈连武; 芦烈; J·布里巴特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2019-10-29
Anticipated expiration: 2034-02-28
Also published as: US20160358618A1; WO2015130617A1; HK1214397A1; CN104882145A; EP3111676A1; EP3111676B1; US9830922B2

Abstract

本发明的实施例涉及使用音频对象的时间变化的音频对象聚类。提供一种用于在音频对象聚类中使用音频对象的时间变化的方法。该方法包括：获取与所述音频对象相关联的音轨的至少一个片段，所述至少一个片段包含所述音频对象；基于所述音频对象的至少一个属性，估计所述音频对象在所述至少一个片段的持续时间上的变化；以及至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献。还公开了相应的系统和计算机程序产品。

Description

使用音频对象的时间变化的音频对象聚类

技术领域

本发明总体上涉及音频对象聚类，更具体地，涉及用于在音频对象聚类中使用音频对象的时间变化的方法和系统。

背景技术

传统上，音频内容以基于声道(channel based)的格式被创建和存储。在此使用的术语“音频声道”或“声道”是指通常具有预定义物理位置的音频内容。例如，立体声、环绕5.1、环绕7.1等都是用于音频内容的基于声道的格式。近来，很多传统的多声道系统已经被扩展为支持一种新型格式，这种格式包括声道和音频对象二者。在此使用的术语“音频对象”或简称“对象”是指在声场中存在特定持续时间的个体音频元素。一个音频对象可以是动态的也可以是静态的。例如，音频对象可以是人、动物或者能够充当声源的任何其他元素。音频对象和声道可以被分开发送，继而由重现系统动态使用以便基于回放设备的配置来自适应地重建创作意图。作为示例，在称为“自适应音频内容”(adaptive audiocontent)的格式中，可以存在一个或多个音频对象以及一个或多个“静态环境声”(audiobed)，静态环境声是将以预定义的、固定的位置进行重现的声道。

通过创建更具沉浸感的声场以及精准地控制离散的音频对象(无需考虑回放设备的特定配置)，基于对象的音频内容相对于传统基于声道的音频内容而言代表着显著的进步。例如，在电影的音轨中可以包含多个不同声音元素，以对应于屏幕上画面、对话、噪声和音效，这些音效从画面上的不同位置发出，并且与背景音乐和环境音效结合以创建整体的听觉体验。

然而，基于对象的音频内容中的大量音频信号(静态环境声和音频对象)给音频内容的编码和分发带来了新的挑战。将会理解，在很多情况下，诸如在经由蓝光光碟、广播(蓝线、卫星和陆地广播)、移动网络、互联网机顶盒(OTT)或者因特网的分发中，用于传输和处理所有静态环境声、音频对象和相关信息的带宽和／或其他资源可能是有限的。尽管可以使用音频编码和压缩技术来减小待处理信息的量，但是这些技术在某些情况下是不适用的，特别是对于复杂的场景以及带宽非常有限的网络(诸如，移动网络)。而且，音频编码／压缩技术只能够通过考虑单声道或者声道配对内的冗余来降低比特率。对于基于对象的音频内容，很多空间冗余并未被纳入考虑，诸如音频对象之间的空间位置重叠和空间掩蔽效应(mask effect)。

为了利用空间冗余性来进一步降低资源需求，已经提供向音频对象应用聚类(clustering)过程，使得得到的每个类能够代表一个或多个音频对象。通常，一个类可以包含／合并彼此足够接近的多个音频对象(静态环境声可以作为具有预定义位置的音频对象而被处理)。一般而言，在音频对象聚类中，需要考虑若干基本的标准。例如，应当准确地表征和建模原始内容的空间特性，以便保持总体空间感。另外，在聚类过程中应当避免听觉瑕疵或者对后续处理的任何问题／挑战。然而，在空间对象聚类的已知尝试中，聚类通常是在每个帧的基础上执行的。例如，聚类中心(centroid)是针对每个帧而独立确定的，没有考虑音频对象随时间的变化。因此，聚类过程的帧间稳定性相对较低，这很可能在呈现音频对象类时引起听觉瑕疵。

有鉴于此，本领域中需要一种支持更加稳定的音频对象聚类的技术方案。

发明内容

为了解决上述问题，本发明提出一种用于音频对象聚类的方法和系统。

在一个方面，本发明的实施例提供一种用于在音频对象聚类中使用音频对象的时间变化的方法。所述方法包括：获取与所述音频对象相关联的音轨的至少一个片段，所述至少一个片段包含所述音频对象；基于所述音频对象的至少一个属性，估计所述音频对象在所述至少一个片段的持续时间上的变化；以及至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献。在方面的实施例还包括对应的计算机程序产品。

在另一方面，本发明的实施例提供一种用于在音频对象聚类中使用音频对象的时间变化的系统。所述系统包括：片段获取单元，被配置为获取与所述音频对象相关联的音轨的至少一个片段，所述至少一个片段包含所述音频对象；变化估计单元，被配置为基于所述音频对象的至少一个属性，估计所述音频对象在所述至少一个片段的持续时间上的变化；以及惩罚单元，被配置为至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献。

通过下文描述将会理解，根据本发明的实施例，音频对象的时间变化可以被估计并且在对音频对象进行聚类时被纳入考虑。例如，通过主要依赖于那些具有较小时间变化的音频对象来确定聚类中心，能够有效地改善帧之间的对象向类的分配稳定性。也即，可以以一种更加稳定和一致的方式选择聚类中心。由此，可以在处理后的音频信号中避免听觉上的瑕疵。

附图说明

通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：

图1示出了已知的音频对象聚类过程中的不稳定问题的示意图；

图2示出了根据本发明的示例实施例的用于在音频对象聚类中使用音频对象的时间变化的方法的流程图；

图3示出了根据本发明的示例实施例的用于在音频对象聚类中使用音频对象的时间变化的系统的框图；以及

图4示出了适于实现本发明的示例实施例的计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

如上所述，在已知的音频对象聚类方案中，对象向类的分配有时是不稳定的。在此所说的稳定的分配是指：音频对象(至少对于那些静态的对象而言)被一致地分配给具有相同位置的聚类中心。对于具有固定位置的音频对象，对象向类的分配通常是由所选择的聚类中心的位置确定的。如果中心的位置相对稳定，则对象向类的分配也将会比较稳定。相反，如果聚类中心频繁地或者快速地从一个位置向另一个位置移动甚至跳跃，则帧之间的对象向类的分配稳定性很可能降低，由此引入一些听觉上的瑕疵。

图1示出了在已知的音频聚类过程中的不稳定性的一个示例。在所示的示例中，将使用两个类来表示空间100中的三个音频对象101、102和103，其中音频对象101在空间100的左前方，音频对象102在空间的右前方，并且音频对象103在空间100的前方中部。在这种情况下，每个音频对象与重要性(importance)的值相关联，其指明各音频对象在音频内容中的感知重要性。假设音频对象101和103的重要性值分别是1和1.5，音频对象102的重要性值在0.5到1.3之间变化。基于感知标准，音频对象103将总是被选作一个中心，另一中心则在音频对象101与102之间切换。这样，音频对象101将在以位置(0，0，0)和(0.5，0，0)为中心的类之间切换。由此，音频对象101的感知位置将在空间100的左前部和中前部之间跳跃，这将在处理后的音频信号中引起听觉上的瑕疵。

为了稳定对象向类的分配，根据本发明的示例实施例，在确定聚类中心时将估计各音频对象的时间变化。根据本发明的示例实施例，时间变化可以基于音频对象的一个或多个相关属性来估计。继而，例如，与那些具有较大时间变化的音频对象相比，在帧之间的时间变化较小的音频对象可以被赋予被选为聚类中心的更高概率。通过惩罚时间变化，根据本发明的示例实施例，可以以更加稳定和一致的方式来选择聚类中心。相应地，对象向类的分配以及帧间的稳定性都会得到改善。

现在参考图2，其示出了根据本发明的示例实施例的用于在音频对象聚类中使用音频对象的时间变化的方法200的流程图。

如图所示，在步骤S201，获得与音频对象相关联的音轨(audio track)的至少一个片段(segment)，使得获得的片段包含所处理的音频对象。如已知的，一个音轨可以包含一个或多个音频对象。为了准确地估计每个音频对象的时间变化，在某些示例实施例中，可以将音轨分为多个片段，每个片段由一个或多个帧(frame)组成。在理想情况中，所得的每个片段包含一个单独的音频对象，但这不是必须的。

在某些示例实施例中，可以基于音频对象的特征的一致性来对音轨进行分段。在这些实施例中，假设：在多数情况下，一个完整音频对象的特征(例如，频谱)是一致的，而不同音频对象的特征彼此不同。相应地，可以应用基于特征一致性的分段来将音轨划分为不同的片段，使得每个片段包含一个单独的音频对象。作为示例，在某些示例实施例中，可以在音轨内选择一个或多个时间戳。对于每个时间戳t，通过比较特征在该时间戳t之前和之后两个时间窗中的值，来衡量给定特征的一致性。如果测量的特征一致性低于预定阈值，则在该时间戳处检测到潜在的边界。用于衡量两个时间窗之间的特征一致性的度量可以包括但不限于：相对熵(Kullback Leibler Divergence，KLD)、贝叶斯信息准则(BayesianInformation Criterion)以及诸如欧拉距离、余弦距离、马氏距离等多个简单的度量。

附加地或备选地，在某些示例实施例中，可以基于音频对象的一个或多个感知属性(perceptual property)来实现对音轨的分段。在此使用的术语“感知属性”是指能够表明音频对象的感知水平的属性。感知属性的示例可以包括但不限于：音频对象的响度(l0udness)、能量、感知重要性，等等。在此使用的术语“感知重要性”被用来衡量音频对象在呈现音频内容时对于声学感知的重要程度。例如，在某些实施例中，用于量化音频对象的感知重要性的度量可以包括但不限于局部响度和／或语义(音频类型)。局部响度是在考虑音频场景中的其他音频对象的空间掩蔽效应的情况下感知到的响度度量。语义可以被用于指示音频对象的音频内容类型(诸如，对话、音乐等)。感知重要性也可以通过其他任何适当的方式确定。例如，它可由用户指定和／或在与音频内容相关联的元数据中被预定义。

仅出于说明之目的，下面将描述响度以作为感知属性的示例。在包含音频对象的音轨中，已经注意到：音频对象通常是稀疏的。换言之，在两个音频对象之间通常存在间隙／静默。因此，在某些示例实施例中，可以检测静默，继而基于检测到的静默将音轨划分为片段。为此，可以计算音轨中的每个帧的响度。继而对于每个帧，所计算的响度与一个阈值进行比较以做出静默或非静默的决策。在某些示例实施例中，可以对获得的静默／非静默结果应用平滑过程。例如，如果一个非静默帧的先前帧和后续帧都是静默的，则可以将该非静默帧平滑为静默帧。接下来，可以将连续的非静默帧分组到一起，以形成包含相应音频对象的一个或多个片段。

备选地或附加地，可以基于一个或多个预定义的时间窗对音轨进行分段。一个预定义的时间窗具有特定的长度(例如，1秒)。基于预定义时间窗的分段可以提供粗略的结果，例如，一个长音频对象可能被分割为多个片段，或者获得的片段可能包含不同的音频对象，但这仍然能够为时间变化估计提供某些有价值的信息。另一个益处在于，这只需要应用较短的前向(l00k-ahead)窗口，而不必引入任何其他的计算。

应当注意，上面所描述的示例实施例仅仅出于说明目的，并非限制本发明的范围。根据本发明的示例实施例，可以利用各种分段技术将音轨划分为包含相应音频对象的片段，不论这些技术是目前已知的还是将来开发的。而且，取决于不同的应用和需求，这些分段方法可以任意组合使用。此外，在某些备选实施例中，包含音频对象的片段可以由终端用户来提供或指定，无需依赖于自动的分段过程。

方法200继而进行到步骤S202，在此基于音频对象的至少一个属性，估计该音频对象在所获得的音频片段的持续时间上的变化。

根据本发明的示例实施例，可以使用音频对象的各种属性来估计该时间变化。例如，在某些示例实施例中，可以基于音频对象的一个或多个感知属性来估计时间变化。如上所述，感知属性可以包括响度、能量、感知重要性或者能够指示音频对象的感知水平的任何其他属性。根据本发明的示例实施例，可以通过估计音频对象的感知属性在相关联片段的持续时间上的间断性或不连续性(discontinuity)，来估计该音频对象的时间变化。

作为示例，在某些实施例中，可以估计音频对象的响度的间断性，它指示响度在随时间的变化程度。如已知的，响度可以充当重要的标准来衡量感知重要性，而感知重要性是聚类中心选择的基础。具有较大响度间断性的音频对象可能会导致聚类中心的切换。换言之，此时，选择的中心可能从一个位置跳转到另一个位置，这可能降低对象向类的分配稳定性。应当注意，在本发明的上下文中，响度包括全带(full-band)响度，也包括局部响度(其将音频对象之间的掩蔽效应纳入考虑)。

可以使用一个或多个可测量的度量来表征音频对象的响度的间断性。例如，在某些实施例中，可以计算响度的动态范围。响度的动态范围指示响度在片段的持续时间内的最大值与最小值之间的改变幅度。在某些实施例中，响度的动态范围可以如下计算：

其中i_max和i_min分别表示响度在音频片段的持续时间内的最大值和最小值。

附加地或备选地，在某些示例实施例中，响度的间断性估计可以包括估计感知属性在片段持续时间上的跃迁频率(transition frequency)。跃迁频率(表示为f)指示响度值在单位时间(例如，1秒)内从峰到谷或者从谷到峰的跃迁的次数。在某些示例实施例中，可以将响度大于i_max-α*(i_max-i_min)的帧视为峰，而将响度低于i_min+α*(i_max-i_min)的帧视为谷，其中α表示一个预定义的参数，其在某些实施例中可被设置为α=0.1。假设T表示在单位时间内响度在峰谷之间的跃迁次数，跃迁频率f(其值在0到1之间)可以通过一个双曲函数(sigmoid function)如下计算：

其中a_f和b_f表示双曲函数的预定义参数。

根据本发明的示例性实施例，诸如动态范围和跃迁频率之类的度量可以单独使用，也可以结合使用。例如，在某些实施例中，响度的动态范围r和跃迁频率f的值可被直接用作对响度间断性的估计值。备选地，在某些实施例中，这些度量可以相互结合。例如，可以如下这样基于动态范围r和跃迁频率f来计算音频对象的响度间断性：

d=F_d(r，f)

其中F_d表示关于动态范围r和跃迁频率f的单调递增函数。作为另一示例，在某些实施例中，响度间断性可以简单地计算为动态范围r和跃迁频率f的乘积：

Fd(r，f)=r*f

应当注意，除动态范围和跃迁频率之外或者作为替代，可以估计其他度量来表征响度的间断性。例如，在某些实施例中，可以估计响度在片段持续时间上的高阶统计量(例如标准差)。而且，应当注意，上文描述的对间断性的估计同样适用于音频对象的任何其他感知属性，诸如能量和感知重要性。

根据本发明的示例性实施例，对音频对象的时间变化的估计还可以包括：估计音频对象在相关联音频片段的持续时间上的空间速度。将会理解，空间速度可以指示音频对象在空间中的移动速率，其中音频对象的移动可以是连续的移动，也可以是不连续的跃变。一般而言，从帧间稳定性的角度考虑，在音频对象聚类中选择具有较低空间速度的那些音频对象作为聚类中心将是有益的。

特别地，已知的是：在基于对象的音频内容中，一个音频对象在每个时间戳的空间位置可在元数据中被描述。因此，在某些实施例中，可以基于元数据描述的空间信息来计算音频对象的空间速度。例如，假设[p₁，p₂,…p_N]分别是音频对象在时间戳[t₁，t₂，…t_N]处的空间位置。音频对象的空间速度可以计算如下：

其中N表示音频片段内的时间戳的数目。在某些示例实施例中，可以使用双曲函数将空间速度的值规则化为在[0，1]之间变化的值，例如：

其中a_v和b_v表示双曲函数的预定义参数。

根据本发明的示例性实施例，时间变化的不同类型的度量诸如感知属性的间断性和空间速度之类的可以独立地被用于控制音频对象聚类。备选地，在某些其他实施例中，不同的时间变化度量可以结合，以表示音频对象在相关联片段的持续时间内的总体变化。在某些示例实施例中，音频对象的总体时间变化可以是不同变化度量的线性加权和：

其中K表示时间变化度量的类型数目，V_k表示第k个变化度量，α_k表示对应的权重。特别地，作为示例，音频对象的感知属性间断性d和空间速度v可以通过以下方式结合：

V_all=α₁*d+α₂*v

在某些实施例中，权重α₁和α₂均可设置为0.5。其他任何适当的值也是可行的。

继续参考图2，在步骤S203，至少部分地基于在步骤S202获得时间变化来调整音频对象聚类过程，从而对音频对象做出“惩罚”。更具体地，根据本发明的示例实施例，估计出的时间变化可被用来调整相关联的音频对象对于聚类过程中的聚类中心确定的贡献。

例如，可以使用估计出的时间变化来调整音频对象被在音频对象聚类中被选择为聚类中心的概率。在某些示例实施例中，可以使用“硬惩罚”，这意味着具有较大时间变化的音频对象被选择为聚类中心的可能将被直接排除。在这样的实施例中，将步骤S202处估计的变化与预定义的变化阈值进行比较。如果确定估计的变化大于该变化阈值，则将相关联音频对象排除在聚类中心的选择之外。换言之，该音频对象被选择为聚类中心的概率被直接设置为零。

在某些示例实施例中，除了估计出的音频对象的时间变化之外，在硬惩罚中还可以将一个或多个其他约束纳入考虑。例如，在某些实施例中，一个约束可以是：所考虑的音频对象的预定义邻域内的至少一个音频对象，未从音频对象聚类的中心选择中被排除。换言之，仅当给定的音频对象附近的至少一个音频对象仍有资格参选聚类中心时，该给定的音频对象才可被排除。以此方式，可以避免在绘制被排除的音频对象时产生较大的空间误差。在某些示例实施例中，邻域或者“可容忍”最大距离可以事先定义。

备选地或附加地，在某些示例实施例中，可以在硬惩罚中使用的另一约束可以是：如果给定的音频对象在音频片段的前一帧中未被选择作为聚类中心，则可以将该给定音频对象从聚类中心选择中排除。这对应于聚类中心选择而言是有益的，因为如果将在先前帧中被选作聚类中心的音频对象直接排除，则对象向类的分配可能是不稳定的。

根据本发明的示例实施例，在音频对象的硬惩罚中还可以考虑很多其他的约束或者因素。而且，在硬惩罚中使用的各种阈值例如可以动态地调整。另外，还可以进一步基于场景的复杂性来执行硬惩罚，这将在下文详述。

不同于硬惩罚，在步骤S203，在某些示例实施例中，也可以应用“软惩罚"。更具体地，已知的是：各个音频对象的感知重要性对于聚类中心的选择而言是有影响的。也即，音频对象对于聚类中心的确定所做出的贡献可以至少部分地基于该音频对象的感知重要性来确定。如上所述，感知重要性可以由各种度量确定，包括但不限于局部响度、语义、用户输入，等等。由此，在某些示例实施例中，软惩罚可以这样来执行：基于在步骤S202处估计的音频对象的时间变化，来修改音频对象的感知重要性。

为了计算修改的感知重要性，在某些示例实施例中，可以将一个增益应用于音频对象的原始感知重要性，该增益是基于估计的时间变化来确定的。例如，可以将增益与原始感知重要性相乘。一般而言，增益随着时间变化提高而降低(即，较高的惩罚)。在某些示例实施例中，增益(表示为g)可以被计算为：

g=F_g(V)

其中V表示音频对象的估计出的时间变化，F_g表示关于V的单调递减函数。在某些实施例中，函数F_g可以定义如下：

其中P₀表示一个预定义参数，其指示针对时间变化的惩罚程度。将会理解，在这些实施例中，当惩罚程度P₀非常小时，不论时间变化如何，计算出的增益都将逼近1。这意味着时间变化对重要性估计的影响非常小。相反，当惩罚程度较大时，修改后的感知重要性与时间变化的值将具有较高的相关。

除调整音频对象在聚类中心选择中的概率之外或者作为替代，还可以通过其他方式惩罚时间变化，例如调整音频对象对聚类过程中的聚类中心更新的贡献。例如，音频可以通过K均值聚类等算法被聚类，此时不存在一个显式的过程将音频对象选择为聚类中心，或者聚类中心并不固定于音频对象的位置。在这种情况下，估计的时间变化仍然能够通过调整相关联音频对象对聚类中心更新的贡献，来控制聚类过程。作为示例，软惩罚可以与聚类过程相结合。最初，可以通过各种方式确定一个或多个聚类中心，例如通过随机选择、相隔最远标准，等等。接下来，每个音频对象被分配到与最接近的中心相关联的类中。继而，可以基于分配到类中的音频对象的加权平均来更新每个聚类中心，其中每个音频对象的权重是其感知重要性。该过程可以重复直到收敛。如上所述，在某些示例实施例中，估计出的时间变化可被用来调整音频对象的感知重要性。这样，对于每个音频对象而言，在确定该音频对象对于聚类中心更新的贡献时，其时间变化被纳入考虑。

应当理解，上文针对聚类中心选择而描述的所有特征同样适用于聚类中心的更新。例如，在某些实施例中，也可以使用硬惩罚，从而将变化大于预定义阈值的音频对象排除在聚类中心的更新之外。而且，一个或多个约束可以与时间变化结合使用。例如，一个约束可以是：仅当具有高时间变化的音频对象的预定邻域内的至少一个音频对象没有从聚类中心的确定(例如，聚类中心的更新)中被排除时，可以将该具有高时间变化的音频对象排除。另一个示例约束可以是：如果具有高时间变化的音频对象在片段的先前帧中已经从聚类中心的确定(例如，聚类中心的更新)中被排除，则可以排除该音频对象。

根据本发明的示例实施例，除了估计出的音频对象的时间变化之外，在步骤S203处惩罚对象变化时还可以考虑其他因素。例如，在某些实施例中，可以将与音频对象相关联的场景的复杂性纳入考虑范畴。更具体地，已经发现：对于具有低场景复杂性的某些音频内容，选择具有高时间变化的音频对象可能并不会造成不稳定的问题。在这种情况下，基于变化的惩罚却可能增加音频对象聚类的空间误差。例如，对于具有5个输入音频对象和5个输出类的音频内容而言，无需对音频对象的时间变化进行惩罚，因为可以在无需额外处理的情况下解决问题。作为另一示例，如果有2个类用于5个音频对象，其中1个音频对象是移动的而其他4个音频对象固定在相同／相近的位置，则无需惩罚移动的音频对象，因为可以将该移动音频对象归为一类而将另外4个音频对象分组到另一个类中。

为了避免对时间变化的不必要的惩罚，在某些示例实施例中，可以确定场景的复杂性，这例如是根据场景中的音频对象的数目、输出类的数目、音频对象在场景中的分布情况、音频对象的移动情况和／或任何其他有关的因素。继而，在步骤S203，对音频对象的惩罚不仅可以基于估计的时间变化，还可以基于场景复杂性。换言之，音频对象对于聚类中心的确定的贡献可以基于估计出的音频对象的时间变化以及确定的场景复杂性来调整。

一般地，根据本发明的示例实施例，可以向场景复杂性相对较高的音频内容应用时间变化惩罚(此时聚类中心不稳定将造成问题)，而不向那些场景复杂性较低的音频内容应用。换言之，场景复杂性被用作指示，指明当聚类中心不稳定时引入潜在问题的概率。特别地，基于场景复杂性的惩罚可以与硬惩罚、软惩罚或其结合一并使用。

如上所述，在硬惩罚中，一个或多个约束可以与估计出的时间变化相结合。在某些示例实施例中，在决定是否将给定的音频对象排除在聚类中心的确定之外时，可以添加与场景复杂性有关的约束。例如，一个这样的约束可以是：音频内容的场景复杂性应当大于预定义阈值。换言之，仅当音频对象与高复杂性的场景相关联时，才启动该音频对象从聚类中心确定的排除。

场景复杂性也可以与音频对象的软惩罚相关联。在某些示例实施例中，在对音频对象的软惩罚中，用于修改所估计感知重要性的惩罚程度可以与场景复杂性相关。例如，表示为P(SC)的惩罚程度可以定义为关于场景复杂性SrC的单调递增函数，例如：

P(SC)=P₀*SC

其中P₀表示预定义参数，其指示用于时间变化的惩罚程度。由此，在这些实施例中，用于调整音频对象的原始感知重要性的增益g可以被调整为：

图3示出了根据本发明的示例实施例的用于在音频对象聚类中使用音频对象的时间变化的系统300的框图。如图所示，系统300包括：片段获取单元301，被配置为获取与所述音频对象相关联的音轨的至少一个片段，所述至少一个片段包含所述音频对象；变化估计单元302，被配置为基于所述音频对象的至少一个属性，估计所述音频对象在所述至少一个片段的持续时间上的变化；以及惩罚单元303，被配置为至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献。

在某些示例实施例中，所述片段获取单元301可以包括分段单元(未示出)，其被配置为基于以下至少一个对所述音轨进行分段：所述音频对象的特征的一致性；所述音频对象的感知属性，所述感知属性指示所述音频对象的感知水平；以及预定义的时间窗。

在某些示例实施例中，所述音频对象的所述至少一个属性包括所述音频对象的感知属性，所述感知属性指示所述音频对象的感知水平。在这些实施例中，所述变化估计单元302可以包括间断性估计单元(未示出)，其被配置为估计所述感知属性在所述至少一个片段的所述持续时间上的间断性。特别地，在某些示例性实施例中，所述间断性估计单元可被配置为估计以下至少一个：所述感知属性在所述持续时间上的动态范围；所述感知属性在所述持续时间上的跃迁频率；以及所述感知属性在所述持续时间上的高阶统计量。

在某些示例实施例中，所述音频对象的所述感知属性包括以下至少一个：所述音频对象的响度；所述音频对象的能量；以及所述音频对象的感知重要性。

备选地或附加地，在某些示例实施例中，变化估计单元302可以包括速度估计单元(未示出)，其被配置为估计所述音频对象在所述至少一个片段的所述持续时间上的空间速度。

在某些示例实施例中，所述惩罚单元303可被配置为：至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中被选择作为所述聚类中心的概率；或者至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对所述聚类中心的更新的贡献。

在某些示例实施例中，系统300可以进一步包括比较单元(未示出)，被配置为将估计的所述变化与预定义变化阈值进行比较。在这些实施例中，所述惩罚单元303可以包括硬惩罚单元(未示出)，其被配置为至少部分地基于所述比较单元做出的估计的所述变化大于所述预定义变化阈值这一确定，在所述音频对象聚类中从所述聚类中心的所述确定中排除所述音频对象。在某些示例实施例中，对所述音频对象的所述排除还基于一组约束，所述一组约束包括以下至少一个：如果所述音频对象的预定义邻域内的至少一个音频对象未从所述聚类中心的所述确定中被排除，则所述音频对象可被排除；以及如果所述音频对象在所述至少一个片段的先前帧中已经从所述聚类中心的所述确定中被排除，则所述音频对象可被排除。

在某些示例实施例中，所述音频对象的所述贡献至少部分地基于对所述音频对象的感知重要性的估计而确定。在这些实施例中，所述惩罚单元303可以包括软惩罚单元(未示出)，被配置为基于估计的所述变化来修改所述音频对象的所述感知重要性。

在某些示例实施例中，系统300还可以包括：场景复杂性确定单元(未示出)，被配置为确定与所述音频对象相关联的场景的复杂性。在这些实施例中，所述惩罚单元303可被配置为基于所述音频对象的估计的所述变化以及确定的所述场景的所述复杂性，来调整所述音频对象的所述贡献。特别地，在某些示例实施例中，所述场景复杂性确定单元可被配置为基于以下至少一个来确定所述场景的所述复杂性：所述场景中的音频对象的数目；输出类的数目；以及所述场景中的音频对象的分类。

应当注意，为清晰起见，在图3中没有示出系统300的某些可选单元。然而应当理解，上文参考图2所描述的特征均适用于系统300。而且，系统300中的各单元可以是硬件模块，也可以是软件模块。例如，在某些实施例中，系统300可以部分或者全部地利用软件和／或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统300可以部分或者全部地基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

下面参考图4，其示出了适于用来实现本发明实施例的计算机系统400的示意性框图。如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储单元408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中，还存储有设备400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入／输出(I／O)接口405也连接至总线404。

以下部件连接至I／O接口405：包括键盘、鼠标等的输入单元406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元407；包括硬盘等的存储单元408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元409。通信单元409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I／O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储单元408。

特别地，根据本发明的实施例，上文参考图2描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法200的程序代码。在这样的实施例中，该计算机程序可以通过通信单元409从网络上被下载和安装，和／或从可拆卸介质411被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和／或计算机程序代码的操作生成的操作，和／或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和／或框图中规定的功能／操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

由此，本发明可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。

EEE1.一种处理基于对象的音频数据的方法，包括：基于对象音频数据和相关联的元数据确定一个或多个音频对象的时间变化；以及通过惩罚确定的时间变化将音频对象结合到音频类中，以稳定音频对象聚类中的对象向类的分配。

EEE2.根据EEE1所述的方法，其中所述音频对象轨道被分割为片段f对象。

EEE3.根据EEE2所述的方法，其中所述分段包括以下之一：预定义窗口分段；基于响度的分段；以及基于特征一致性的分段。

EEE4.根据EEE1所述的方法，其中所述时间变化基于以下至少一个：响度的间断性，以及空间速度。

EEE5.根据EEE4所述的方法，其中所述时间变化还基于能量的间断性或者感知重要性的间断性，感知重要性包括局部响度和音频类型中的至少一个。

EEE6.根据EEE4所述的方法，其中响度的间断性基于响度动态范围和响度跃迁频率来计算。

EEE7.根据EEE4所述的方法，其中空间速度基于对象的元数据而被估计。

EEE8.根据EEE1所述的方法，其中惩罚时间变化包括将对象排除在聚类中心选择之外，或者修改重要性估计。

EEE9.根据EEE8所述的方法，其中具有大时间变化的对象通过结合以下约束中的至少一个而被排除：被排除对象附近的至少一个保留对象；在先前帧中被选作聚类中心的对象不可排除。

EEE10.根据EEE8所述的方法，其中修改的对象重要性随时间变化的递增而单调递减。

EEE11.根据EEE1或者EEE8所述的方法，其中对时间变化的惩罚由将要聚类的音频内容的场景复杂性控制。

EEE12.根据EEE1所述的方法，其中惩罚确定的时间变化包括基于确定的时间变化，调整相关联的音频对象在音频对象聚类中对于聚类中心更新的贡献。

EEE13.一种处理基于对象的音频数据的系统，包括被配置为执行根据EEE1-12任一项所述的方法的相应步骤的单元。

EEE14.一种处理基于对象的音频数据的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上，并且包括机器可执行指令，所述指令在被执行时使得所述机器执行根据EEE1-12任一项所述的方法的步骤。

将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种用于在音频对象聚类中使用音频对象的时间变化的方法，所述方法包括：

确定多个音频对象簇的多个质心，其中所述多个音频对象簇包括多个音频对象，其中确定所述多个质心包括：针对所述多个音频对象中的每个音频对象：

获取与所述音频对象相关联的音轨的至少一个片段，所述至少一个片段包含所述音频对象；

基于所述音频对象的至少一个属性，估计所述音频对象在所述至少一个片段的持续时间上的变化；以及

至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献，

其中：

所述音频对象的所述贡献至少部分地基于对所述音频对象的感知重要性的估计而确定，并且调整所述贡献包括将增益应用于所述音频对象的所述感知重要性，所述增益随着所估计的变化增加而降低；和/或

调整所述音频对象的所述贡献包括：至少部分地基于所估计的变化大于预定义变化阈值的这一确定，在所述音频对象聚类中从所述质心的所述确定中排除所述音频对象；以及

根据所述多个质心中的最接近的质心，将所述多个音频对象中的每个音频对象分配到所述多个音频对象簇的一个音频对象簇。

2.根据权利要求1所述的方法，其中获取所述音轨的所述至少一个片段包括基于以下至少一个对所述音轨进行分段：

所述音频对象的特征的一致性；

所述音频对象的感知属性，所述感知属性指示所述音频对象的感知水平；以及

预定义的时间窗。

3.根据权利要求1或者2所述的方法，其中所述音频对象的所述至少一个属性包括所述音频对象的感知属性，所述感知属性指示所述音频对象的感知水平，并且其中估计所述音频对象的所述变化包括：

估计所述感知属性在所述至少一个片段的所述持续时间上的间断性。

4.根据权利要求3所述的方法，其中估计所述感知属性的所述间断性包括估计以下至少一个：

所述感知属性在所述持续时间上的动态范围；

所述感知属性在所述持续时间上的跃迁频率；以及

所述感知属性在所述持续时间上的高阶统计量。

5.根据权利要求2到4任一项所述的方法，其中所述音频对象的所述感知属性包括以下至少一个：

所述音频对象的响度；

所述音频对象的能量；以及

所述音频对象的感知重要性。

6.根据权利要求1到5任一项所述的方法，其中估计所述音频对象的所述变化包括：

估计所述音频对象在所述至少一个片段的所述持续时间上的空间速度。

7.根据权利要求1到6任一项所述的方法，其中调整所述音频对象的所述贡献包括：

至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中被选择作为所述聚类中心的概率；或者

至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对所述聚类中心的更新的贡献。

8.根据权利要求1所述的方法，其中对所述音频对象的所述排除还基于一组约束，所述一组约束包括以下至少一个：

如果所述音频对象的预定义邻域内的至少一个音频对象未从所述聚类中心的所述确定中被排除，则排除所述音频对象；以及

如果所述音频对象在所述至少一个片段的先前帧中已经从所述聚类中心的所述确定中被排除，则排除所述音频对象。

9.根据权利要求1到8任一项所述的方法，还包括：

确定与所述音频对象相关联的场景的复杂性，

其中所述音频对象的所述贡献基于所述音频对象的估计的所述变化以及确定的所述场景的所述复杂性而被调整。

10.根据权利要求9所述的方法，其中所述场景的所述复杂性基于以下至少一个来确定：

所述场景中的音频对象的数目；

输出类的数目；以及

所述场景中的音频对象的分类。

11.一种用于在音频对象聚类中使用音频对象的时间变化的系统，所述系统包括：

确定单元，被配置为确定多个音频对象簇的多个质心，其中所述多个音频对象簇包括多个音频对象，其中确定所述多个质心包括：针对所述多个音频对象中的每个音频对象：

片段获取单元，被配置为获取与所述多个音频对象中的每个音频对象相关联的音轨的至少一个片段，所述至少一个片段包含所述音频对象；

变化估计单元，被配置为基于所述音频对象的至少一个属性，估计所述音频对象在所述至少一个片段的持续时间上的变化；以及

惩罚单元，被配置为至少部分地基于估计的所述变化，调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献，

其中：

所述系统还包括比较单元，被配置为将所估计的所述变化与预定义变化阈值进行比较，并且所述惩罚单元包括软惩罚单元，被配置为将增益应用于所述音频对象的所述感知重要性，所述增益随着所估计的变化增加而降低；和/或

所述音频对象的所述贡献至少部分地基于对所述音频对象的感知重要性的估计而确定，并且所述惩罚单元包括硬惩罚单元，被配置为至少部分地基于所述比较单元做出的所估计的所述变化大于所述预定义变化阈值这一确定，在所述音频对象聚类中从所述聚类中心的所述确定中排除所述音频对象；以及

分配单元，被配置为根据所述多个质心中的最接近的质心，将所述多个音频对象中的每个音频对象分配到所述多个音频对象簇的一个音频对象簇。

12.根据权利要求11所述的系统，其中所述片段获取单元包括分段单元，所述分段单元被配置为基于以下至少一个对所述音轨进行分段：

所述音频对象的特征的一致性；

预定义的时间窗。

13.根据权利要求11或者12所述的系统，其中所述音频对象的所述至少一个属性包括所述音频对象的感知属性，所述感知属性指示所述音频对象的感知水平，并且其中所述变化估计单元包括：

间断性估计单元，被配置为估计所述感知属性在所述至少一个片段的所述持续时间上的间断性。

14.根据权利要求13所述的系统，其中所述间断性估计单元被配置为估计以下至少一个：

所述感知属性在所述持续时间上的动态范围；

所述感知属性在所述持续时间上的跃迁频率；以及

所述感知属性在所述持续时间上的高阶统计量。

15.根据权利要求12到14任一项所述的系统，其中所述音频对象的所述感知属性包括以下至少一个：

所述音频对象的响度；

所述音频对象的能量；以及

所述音频对象的感知重要性。

16.根据权利要求11到15任一项所述的系统，其中所述变化估计单元包括：

速度估计单元，被配置为估计所述音频对象在所述至少一个片段的所述持续时间上的空间速度。

17.根据权利要求11到16任一项所述的系统，其中所述惩罚单元被配置为：

18.根据权利要求17所述的系统，其中对所述音频对象的所述排除还基于一组约束，所述一组约束包括以下至少一个：

19.根据权利要求11到18任一项所述的系统，还包括：

场景复杂性确定单元，被配置为确定与所述音频对象相关联的场景的复杂性，

其中所述惩罚单元被配置为基于所述音频对象的估计的所述变化以及确定的所述场景的所述复杂性，来调整所述音频对象的所述贡献。

20.根据权利要求19所述的系统，其中所述场景复杂性确定单元被配置为基于以下至少一个来确定所述场景的所述复杂性：

所述场景中的音频对象的数目；

输出类的数目；以及

所述场景中的音频对象的分类。

21.一种用于在音频对象聚类中使用音频对象的时间变化的计算机程序产品，所述计算机程序产品被有形地包含在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使所述机器执行根据权利要求1到10任一项所述的方法的步骤。