CN105336335A

CN105336335A - 利用子带对象概率估计的音频对象提取

Info

Publication number: CN105336335A
Application number: CN201410372867.XA
Authority: CN
Inventors: 陈连武; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-07-25
Filing date: 2014-07-25
Publication date: 2016-02-17
Anticipated expiration: 2034-07-25
Also published as: US10638246B2; EP3172731B1; HK1221062A1; CN105336335B; US20180103333A1; US9820077B2; EP3172731A1; WO2016014815A1; US20170215019A1

Abstract

本发明的实施例涉及音频对象提取。公开了一种用于从音频内容中提取音频对象的方法。该方法包括为所述音频内容的帧中的子带音频信号确定子带对象概率，所述子带对象概率指示所述子带音频信号包含音频对象的概率。该方法进一步包括基于确定的子带对象概率，将所述子带音频信号分割为音频对象部分和残余音频部分。还公开了相应的系统和计算机程序产品。

Description

利用子带对象概率估计的音频对象提取

技术领域

本发明总体上涉及音频内容处理，更具体地，涉及用于利用子带对象概率估计的音频对象提取的方法和系统。

背景技术

传统上，音频内容以基于声道(channelbased)的格式被创建和存储。在此使用的术语“音频声道”或“声道”是只通常具有预定义物理位置的音频内容。例如，立体声、环绕5.1、环绕7.1等都是用于音频内容的基于声道的格式。近来，随着多媒体工业的发展，三维(3D)音频内容在影院和家庭中都变得越来越流行。为了创建更具沉浸感的声场以及准确地控制离散的音频元素而无需受制于特定的回放扬声器配置，很多传统的播放系统需要被扩展为支持一种新型音频格式，这种格式包括音频声道和音频对象(audioobject)二者。

在此使用的术语“音频对象”是指在声场中存在特定持续时间的个体音频元素。一个音频对象可以是动态的也可以是静态的。例如，音频对象可以是在声场中充当声源的人、动物或者任何其他物体。可选地，音频对象还可以具有关联的元数据，例如用于描述对象的位置、速度、大小等方面的信息。音频对象的使用使得音频内容具有很高的沉浸感的听觉体验，并且允许混音师等操作者方便地控制和调整音频对象。在传输期间，音频对象和声道可以被分开发送，继而由重现系统动态使用，以基于回放扬声器的配置来自适应地重建创作意图(artisticintention)。作为示例，在称为“自适应音频内容”(adaptiveaudiocontent)的格式中，可以存在一个或多个音频对象以及一个或多个“静态环境声”(audiobed)。在此使用的术语“静态环境声”或简称“环境声”是指将在预定义的固定位置被回放的声音的音频声道。

一般而言，基于对象的音频内容以明显不同于基于声道的传统音频内容的方式被生成。尽管基于对象的新型格式允许在音频对象的辅助下创建更具沉浸感的听觉体验，但是在影音产业中(例如在声音的创建、分发和使用的产业链中)占据主导地位的仍然是基于声道的音频格式，特别是最后混音的音频格式。因此，对于传统基于声道的音频内容，为了能够为终端用户提供音频对象所提供的类似沉浸体验，需要从传统的基于声道的内容中提取音频对象。

发明内容

为了解决上述问题，本发明提出一种用于从音频内容中提取音频对象的方法和系统。

在一个方面，本发明的实施例提供一种用于从音频内容中提取音频对象的方法。该方法包括为所述音频内容的帧中的子带音频信号确定子带对象概率，所述子带对象概率指示所述子带音频信号包含音频对象的概率。该方法进一步包括基于确定的子带对象概率，将所述子带音频信号分割为音频对象部分和残余音频部分。这方面的实施例还包括相应的计算机程序产品。

在另一方面，本发明的实施例提供一种用于从音频内容中提取音频对象的系统。该系统包括概率确定单元，被配置成为所述音频内容的帧中的子带音频信号确定子带对象概率，所述子带对象概率指示所述子带音频信号包含音频对象的概率。该系统进一步包括音频分割单元，被配置成基于确定的子带对象概率，将所述子带音频信号分割为音频对象部分和残余音频部分。

通过下文描述将会理解，根据本发明的实施例，子带音频信号可以被软划分成音频对象部分和残余音频部分。通过这种方式，由所划分的音频对象部分和残余音频部分重新生成的音频内容中的不稳定性能够被更好地抑制。本发明的实施例所带来的其他益处将通过下文描述而清楚。

附图说明

通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：

图1示出了根据本发明的一个示例实施例的用于从音频内容中音频对象提取的方法的流程图；

图2示出了根据本发明的一个示例实施例的用于音频对象提取的框图；

图3示出了根据本发明的一个示例实施例的用于子带对象概率确定的框图；

图4示意性示出了根据本发明的一个示例实施例的子带的空间位置；

图5示出了根据本发明的另一个示例实施例的用于音频对象提取的方法的流程图；

图6示出了根据本发明的另一个示例实施例的用于音频对象提取的框图；

图7示出了根据本发明的一个示例实施例的用于自适应音频内容生成的系统的框图；

图8示出了根据本发明的一个示例实施例的用于音频对象提取的系统的架构；以及

图9示出了适于实现本发明的示例实施例的计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

如上所述，期望从音频内容中提取音频对象。已开发的基于声道分组的方法通常对多声道的预混内容和分支良好工作，预混内容和分支通常在一个声道中仅包含一个音频对象。在此使用的术语“预混内容”是指一种基于声道的内容，它尚未与其他预混内容混合以形成分支。术语“分支”是指基于声道的音频内容，其尚未与其他分支混音以形成最终的混音。这类内容的示例包括对话分支、声效分支、音乐分支，等等。对于这些类型的音频内容而言，很少发生音频对象在声道内重叠的情况。基于声道分组的方法适于用在重创作(reauthoring)或内容生成的使用情况，其中预混内容和分支是可用的，并且混音师能够进一步操纵音频对象，诸如编辑、删除或合并音频对象，或者修改它们的位置、音轨(trajectory)或其他元数据。然而，上述方法不是专门被设计用于这样的情况(并且对此可能无法良好工作)，在该情况中更多复杂的多声道最终混音(final-mix)被考虑，并且通过对象提取，从2D被自动上混音(up-mix)到3D，以创造3D音频体验。此外，在多声道最终混音中，多个源通常被混合在一个声道中。因此，被自动提取的对象可以包含多于一个的真实音频对象，其可能进一步使得它的位置确定不正确。如果应用源分离算法来分离被混合的源，例如，从音频内容中提取单独的音频对象，所提取的音频对象可能具有听得见的人为噪音(artifact)，造成不稳定的问题。

为了解决上述以及其他潜在的问题，本发明的实施例提供了一种用于以软方式来提取音频对象的方法和系统。分析音频的每个帧的每个子带(即，每个频时分片)，并且将其软分配成音频对象部分和静态环境音(残余音频)部分。相较于硬判决的方案，其中一个频时分片在当前帧中被提取为音频对象而在下一帧中被提取为残余音频，或则反之亦然，造成在该转换点处听得见的切换人为噪音，本发明的软判决方案能够最小化切换人为噪音。

首先参考图1，其示出了根据本发明的一个示例实施例的用于从音频内容中提取音频对象的方法100的流程图。输入音频内容可以具有基于多个声道的格式或者基于单个声道的格式。例如，输入音频内容可以遵循立体声、环绕5.1、环绕7.1等格式。在某些实施例中，音频内容可以被表示为频域信号。备选地，音频内容可以作为时域信号而被输入。例如，在时域音频信号被输入的某些实施例中，可能需要执行某些预先处理以获得对应的频率信号。

在步骤S101，为音频内容的帧中的子带音频信号确定子带对象概率。子带对象概率指示子带音频信号包含音频对象的概率。

一个帧是音频内容的处理单元，并且一个帧的持续时间可以是变化的并且可以取决于音频处理系统的配置。在一些实施例中，使用诸如共轭正交镜像滤波器组(CQMF)、快速傅里叶变换(FFT)等时频转换，来将音频内容的帧被转换成多个滤波频带信号。对于一个帧，它的全频率范围可以被划分成多个频率子带，每个频率子带占有预定义的频率范围。例如，对于具有从0Hz到24kHz的频率范围的帧，一个子带可以占有400Hz的频率。在本发明的实施例中，多个子带可以具有相同长度或不同长度的频率范围。本发明的实施例在此方面不受限制。

将全频带划分成多个频率子带是基于这样的观察的，当不同音频对象在声道内重叠时，由于所熟知的大多数音频信号的稀疏特性，这些不同音频对象不可能在所有子带中重叠，并且因此每次假设每个子带包含一个主要源是更合理的。因此，能够对子带音频信号执行以下音频对象提取处理。

对于传统格式的音频内容，诸如最终混音的多声道音频，将每个子带音频信号直接提取为音频对象可能会引入一些听得到的人为噪音，特别是在一些“不好”的情况中，例如，当子带仅包含一个主要源的稀疏性假设不被满足的情况；或者当从创作的角度来看一些子带不适于被提取为音频对象的情况；或者一些子带在被提取为对象之后难以被渲染器(render)渲染到特定位置的情况。在一些情况下，稀疏性假设可能不被满足，因为多个源(来自不同空间位置的环境音和/或对象)可能在不同子带中以不同比例被混合在一起。一个示例情况是两个不同的对象，一个在左声道而另一个在右声道，被混合在一个子带中。在这种情况下，如果子带被提取为音频对象，两个不同的对象将被处理为一个对象并且被渲染到中央声道，这将引入听得见的人为噪音。

因此，为了从输入音频内容中提取子带对象而不引入听得见的人为噪音，在本发明的实施例中提出了子带对象概率来指示子带是否适合于被提取为音频对象。更具体地，子带对象概率是为了避免在以上讨论的“不好”的情况下取在子带中提音频对象。因此，在该步骤中分析每个子带音频信号并且确定子带对象概率。基于确定的子带对象概率，子带音频信号将以软方式被分配为音频对象部分和残余音频部分。

对于每种“不好”情况的对象提取，可能有一个或多个因素/线索与之相关联。例如，当两个不同对象存在于一个子带中时，该子带的声道相关性将变低。因此，在本发明的一些实施例中，在子带对象概率确定时，若干因素，例如子带的空间位置、声道相关性、平移规则和/或子带的频率范围，可以被单独地或结合地考虑，这在以下将被更详细地描述。

在S102，基于确定的子带对象概率，将子带音频信号分割为音频对象部分和残余音频部分。在该步骤中，子带音频信号可以不被确切地确定为音频对象或静态环境音，而是可以基于子带对象概率以软方式被分割为音频对象部分和残余音频/静态环境音部分。在本发明的实施例中，一个音频对象部分可以不确切地包含一个所谓的音频对象，诸如人声、动物声或雷声，而是包含可以被视为音频对象的子带音频信号的一部分。在一些实施例中，在自适应音频内容处理中，音频对象部分然后可以被渲染以估计空间位置，而残余音频对象然后可以被渲染成环境音声道。

软的音频对象提取的优势之一在于避免了音频对象渲染和由硬判决引起的基于声道的渲染之间的切换人为噪声(artifact)以及音频不稳定性。例如，利用硬判决方案，如果一个子带在当前帧被提取为音频对象，而在下一帧被提取为静态环境音，或者反之，那么在该变换点处切换人为噪声可能是可听见的。然而，利用本发明的软判决方案，子带的一部分被提取为对象，而子带的另一部分被保留在静态环境音中，切换人为噪声可以被最小化。

在图1所示的处理中，一个子带音频信号被软分割为音频对象部分和残余音频部分。输入音频内容的一个帧在频域中可以被划分成多个子带音频信号。针对多个子带音频信号中的每个音频信号，如图1所示的处理可以被执行以软分割该子带音频信号。在一些实施例中，对于具有多个帧的音频内容，每个帧可以在频域中被划分，并且每个被划分的子带可以被软分割。应当注意到，在一些其他实施例中，不是输入音频内容的所有帧、或者不是所有被划分的多个子带均以如上所讨论的软方式被处理。本发明的实施例在此方面不受限制。

参照图2，示出了根据本发明的一个示例实施例的用于音频对象提取的框图。在图2中，子带划分框201可以被配置为将输入音频内容的帧划分成多个子带音频信号。可以在子带对象概率确定框202中利用来自框201的输出的子带音频信号，执行如关于方法100的步骤S101所讨论的子带对象概率的确定。可以在音频对象/残余音频分割框203中利用框201和202的输出，执行如关于方法100的步骤S102所讨论的音频对象部分和残余音频部分的分割。框203的输出是可以被用作静态环境音的残余音频部分、和音频对象部分，在一些实施例中，残余音频部分和音频对象部分两者均可以在后续处理中被用来生成自适应音频内容。

图2的子带对象概率确定框202将在以下参照图3进行讨论。如以上所提及的，在本发明的一些实施例中，在子带对象概率确定时可以考虑若干因素，例如子带的空间位置、声道相关性、平移规则和/或子带的频率范围。在一些示例中，上述因素中仅一个因素被考虑。在一些其他示例中，上述因素中的两个或更多因素被结合地包括。在其中某个因素在子带对象概率确定中不被考虑时，图3中示出的对应框在一些实施例中可以被省略。注意到，在确定子带对象概率时，其他因素也可以被考虑，并且本发明的范围在此方面不受限制。

关于对子带对象概率具有影响的因素，根据本发明的实施例，在方法100的步骤S101中，针对子带音频信号的子带对象概率的确定可以包括基于以下各项中的至少一项来确定子带对象概率：基于子带音频信号的空间位置而确定的第一概率；在音频内容具有基于多个声道的格式时，基于子带音频信号的多个声道之间的相关性而确定的第二概率；基于音频混合中的至少一个平移规则而确定的第三概率；以及基于子带音频信号的频率范围而确定的第四概率。

第一概率、第二概率、第三概率和第四概率的确定将在以下分别讨论。

基于空间位置的第一概率

如所知道的，在音频处理时为了增强空间感知，音频对象通常被混音师渲染到不同空间位置中。因此，在传统的基于声道的音频内容给中，空间不同的音频对象通常以不同能量部分被平移(pan)到不同声道集合中。

当音频对象被平移到多个声道时，存在音频对象的子带将具有跨多个声道的相同能量分布以及相同的所确定的空间位置。对应地，如果若干子带处于相同或相近的位置，可能有很大的概率是这些子带属于同一对象。相反，如果子带稀疏地分布，它们的子带对象概率可能是低的，因为这些子带有可能是不同对象或环境音的混合。

例如，图4示出了子带的空间位置分布的两种不同情况，其中具有数字i的圆点表示第i个子带，x和y指示2D空间位置。图4(a)示出了雨天的环境音的子带空间位置。在这种情况下，由于雨声是不具有方向的环境音，子带稀疏地分布。如果这些子带被提取为音频对象，可以感知到不稳定的人为噪声。图4(b)示出了雷声的子带空间位置。在这种情况下，所有子带紧密位于同一位置，并且通过将这些子带提取为对象并且将它们渲染到所确定的位置，可以创建更沉浸的收听体验。

有鉴于此，子带音频信号的空间位置可以被用作确定子带对象概率的因素，并且基于空间位置的第一概率可以被确定。在本发明的一些实施例中，为了计算基于子带音频信号的空间位置而确定的第一概率，可以执行以下步骤：获得多个子带音频信号的空间位置；根据获得的多个子带音频信号的空间位置，确定在子带音频信号的空间位置附近的子带密度；以及基于子带密度确定针对子带音频信号的第一概率。如以上所讨论的，第一概率与子带密度概率可以是正相关。也就是说，子带密度越高，第一概率越大。第一概率处于0到1的范围。

可以有许多方法来获得多个子带音频信号的空间位置，例如，基于能量加权的方法或者基于响度加权的方法。在一些实施例中，由人类用户提供的线索或信息可以被用于确定多个子带音频信号的空间位置。本发明的范围在此方面不受限制。在一个实施例中，使用基于能量加权的方法来确定空间位置可以作为一个示例在以下被给出：

p_{i} = \frac{Σ_{m = 1}^{M} (e_{im} * P_{m})}{Σ_{m = 1}^{M} e_{im}} - - - (1)

其中p_i表示在处理帧中的第i个子带的空间位置；e_im表示第i个子带的第m个声道的能量；P_m表示在播放空间的第m个声道的预定义空间位置；并且M表示声道的数量。

通常，对应的声道的扬声器被部署在播放空间、诸如TV室或电影院中的预定义位置。在一个实施例中，P_m可以是第m个声道的扬声器的位置。如果输入音频噪声具有基于单个声道的格式，P_m可以是单个声道的位置。在其中声道的部署不是清楚地知道的情况下，P_m可以是的第m个声道的预定义的位置。

如以上所讨论的，如果附近有许多子带，子带的子带对象概率可以是高的，并且如果是空间稀疏的，子带的子带对象概率可以是低的。由此可知，第一概率与子带密度可以是正相关的，并且可以被计算为子带密度的单调增长函数。在一个实施例中，Sigmoid函数可以被用于表示第一概率和子带密度之间的关系，并且第一概率可以被如下地计算：

{prob}_{1} (i) = \frac{1}{1 + e^{a_{D} * D_{i} + b_{D}}} - - - (2)

其中prob₁(i)表示第i个子带的第一概率；表示指数函数；D_i表示第i个子带的空间位置附近的子带密度；并且a_D和b_D表示用于将子带密度映射到第一概率的Sigmoid函数的参数。通常，a_D是负数，那么第一概率prob₁(i)可以随着子带密度D_i变高而变大。在一些实施例中，a_D和b_D可以是预定的并且对于不同大小的子带密度分别维持相同的数值。在一些其他实施例中，a_D和b_D可以分别是子带密度的函数。例如，对于不同大小范围的子带密度，a_D和b_D可以具有不同的数值。

应当注意到，有许多其他的方式来基于子带密度确定第一概率，只要第一概率与子带密度是正相关即可。本发明的范围在此方面不受限制。例如，第一概率和子带密度可以满足线性关系。作为另一个示例，当确定第一概率时，不同范围的子带密度可以对应于具有不同斜率的线性函数。也就是说，第一概率和子带密度之间的关系可以被表示为折线，带有若干具有不同斜率的分段。在任何情况下，第一概率处于0到1的范围。

在这里各种方法可以被用于估计子带密度，包括但不限于基于直方图的方法、核(kernel)密度确定法和数据范围聚类技术。本发明的范围在此方面不受限制。在一个实施例中，核密度确定法作为一个示例在以下被描述用于估计子带密度D_i：

D_{i} = Σ_{j = 1}^{N} k (p_{i}, p_{j}) - - - (3)

其中N表示子带的数量；p_i和p_j表示第i个子带和第j个子带的空间位置；并且k(p_i，p_j)表示核函数，其在第i个子带和第j个子带处于同一位置时等于1。k(p_i，p_j)的值随着第i个子带和第j个子带之间的空间距离增长而减少到0。换句话说，函数k(p_i，p_j)表示将密度分布表示为第i个子带和第j个子带之间的空间距离的函数。

基于声道相关性的第二概率

为了确定频时分片(子带音频信号)是否适合于被提取为音频对象并且被渲染到特定位置，可以使用的另一个因素是声道相关性。在这种情况下，输入音频内容可以具有基于多个声道的格式。对于每个多声道的频时分片，如果它包含一个主要对象，多个声道之间的相关值可能是高的。相反，如果它包含大量的环境音或者包含多于一个对象，相关值可能是低的。由于所提取的子带对象将进一步被向下混音(downmixing)成用于基于对象的渲染的单一音频对象(monoaudioobject)，声道之间的低相关性对于向下混音师而言可能会导致很大的跳帧，并且显然，在向下混音之后，可能会感知到音质改变。因此，不同声道之间的相关性可以被用作估计子带对象概率的因素，并且基于声道相关性的第二概率可以被确定。

在本发明的一些实施例中，在音频内容具有基于多个声道的格式时，为了计算基于子带音频信号的多个声道之间的相关性而确定的第二概率，可以执行以下步骤：针对子带音频信号，确定多个声道中的每两个声道之间的相关度；基于确定的相关度来获得子带音频信号的多个声道之间的总相关度；以及基于总相关度来确定针对子带音频信号的第二概率。如以上所讨论的，第二概率可以与总相关度正相关。也就是说，总相关度越高，第二概率越大。第二概率处于0到1的范围。

可以有许多方式用于估计多个声道之间的相关度，例如，基于能量加权的声道相关性的方法、基于响度加权的声道相关性的方法、或者基于频谱相似性的方法。本发明的范围在此方面不受限制。在一个实施例中，使用基于能量加权的方法的相关性确定在以下作为示例被给出：

C_{i} = \frac{Σ_{n = 1}^{M} Σ_{m = 1}^{M} \sqrt{e_{in}} * \sqrt{e_{im}} * corr (\overset{&RightArrow;}{x_{in}}, \overset{&RightArrow;}{x_{im}})}{Σ_{n = 1}^{M} Σ_{m = 1}^{M} \sqrt{e_{in}} * \sqrt{e_{im}}} - - - (4)

其中C_i表示多个声道之间的总相关度；表示在处理帧中的第i个子带的第n个声道的时间序列音频信号；表示在处理帧中的第i个子带的第m个声道的时间序列音频信号；M表示声道的数量；e_in表示第i个子带的第n个声道的能量；e_im表示第i个子带的第m个声道的能量；并且表示第i个子带的两个声道、第n个声道和第m个声道之间的相关度。的值可以被确定为两个时间序列音频信号和之间的相关性/相似度。

如以上所讨论的，基于声道相关性的第二概率可以与总相关度正相关。在一个实施例中，类似于基于位置分布的概率，Sigmoid函数可以被用于表示第二概率和总相关度之间的关系，并且第二概率可以如下地计算：

{prob}_{2} (i) = \frac{1}{1 + e^{a_{c} * C_{i} + b_{c}}} - - - (5)

其中prob₂(i)表示第i个子带的第二概率；表示指数函数；C_i表示第i个子带音频信号的总相关度；并且a_c和b_c表示Sigmoid函数的参数，用于将总相关度映射到第二概率。通常，a_c是负数，并且然后第二概率prob₂(i)随着总相关度C_i变得更高而可以更高。在一些实施例中，a_c和b_c可以是预定的并且对于不同的相关度都分别维持相同的数值。在一些其他实施例中，a_c和b_c可以分别是相关度的函数。例如，对于不同范围的相关度，a_c和b_c可以具有不同的数值。

应当注意到，有许多其他方法来基于总相关度确定第二概率，只要第二概率与总相关度是正相关即可。本发明的范围在此方面不受限制。例如，第二概率和总相关度可以满足线性关系。作为另一个示例，当确定第二概率时，不同的总相关度可以对应于具有不同斜率的线性函数。也就是说，第二概率与总相关度之间的关系可以被表示为折线，带有若干具有不同斜率的分段。在任何情况下，第二概率处于0到1的范围。

基于平移规则的第三概率

尽管所提取的音频对象可以通过在自适应音频内容生成时用确定的位置来渲染音频对象，从而增强听觉体验，这有时候可能未被内容创造师，诸如混音师的创作意图，这对于将所生成的自适应音频内容公布给消费者而言是很大的挑战。例如，混音师可能将对象以相同能量平移(pan)到左声道和右声道，以创建广阔的中央声像，将此声音信号直接提取为对象并且渲染到中央声道可能会使得声音不如混音师所期望的那么广阔。因此，在音频对象提取期间，可以将内容创造师的创作意图考虑在内，以避免不期望的意图妨碍。

混音师通常以特定的平移规则来平移音频对象/源，以实现他们的创作意图。因此，为了在音频对象提取期间保留内容创造师的创作意图，明白哪种类型的子带是以特殊创作意图(并且以特定平移规则)而被创建的，这是合理的。对于具有特殊平移规则的子带，不期望将它们提取为对象。

在本发明的一些示例实施例中，可以在对象提取期间考虑原始音频混合中的以下平移规则：

·具有非典型能量分布的子带音频信号。在这里，“非典型”能量分布是不同于用传统平移方法生成的分布。例如，在传统平移方法中，对象可能通常被平移到邻近的声道中。例如，假设在房间的前部中央存在一个对象，传统平移方法通常将这个对象平移在中央声道中；同时，如果发生了对象以相同能量被平移到左声道和右声道的情况，这是传统平移方法不可能做的，那么这可以指示存在需要被保留的一些特殊创作意图，并且对应的音频信号不可以被提取为音频对象，以便保留特殊创作意图。

·位于中央声道或者接近中央声道的子带音频信号。混音师通常将一些中央的声音、像对话之类的平移到中央声道。在这种情况下，可能更适合于将该声音保留在中央声道并且将其提取为静态环境音，因为将它提取为对象可能会在音频内容重建时导致一些偏差或者与中央声道偏移。

应当注意到，除了以上两种平移规则之外，可以有其他平移规则应当在音频对象提取期间被考虑在内。本发明的范围在此方面不受限制。

在本发明的一些实施例中，为了计算基于音频混合中的至少一个平移规则而被确定的第三概率，可以执行以下步骤：确定子带音频信号与音频混合中的至少一个平移规则中的每个平移规则的关联度，每个平移规则指示子带音频信号不适于作为音频对象的情况；以及基于确定的关联度来确定针对子带音频信号的第三概率。如以上所讨论的，平移规则通常可以指示如下的情况：子带音频信号不可以被提取为音频对象以便于避免破会音频混合中的特殊创作意图。因此，第三概率可以和与平移规则的总关联度负相关。也就是说，与平移规则的总关联度越高，第三概率越小。第三概率处于0到1的范围。

假设有K个平移规则，每个规则指示从创作意图保留的角度而言子带音频信号可能不适于被提取为对象的情况。在一个实施例中，针对每个子带的基于平移规则的第三概率可以如下地被确定：

{prob}_{3} (i) = Π_{k = 1}^{K} (1 - q_{k} (i)) - - - (6)

其中prob₃(i)表示第i个子带的第三概率；并且q_k(i)表示第i个子带于第k个平移规则相关联的程度。因此，如果该子带不与任何特定平移规则相关联，第三概率可以是高的，并且如果该子带与一个特定平移规则相关联，第三概率可以是低的。在一些实施例中，如果第i个子带与第k个平移规则完全相关联，q_k(i)是1，而如果不是，则是q_k(i)是0。在其他实施例中，与第k个平移规则的关联度可以被确定，并且它的值可以从0到1变化。

在一些其他实施例中，至少一个平移规则可以包括以下各项中的至少一项：基于非典型能量分布的规则和基于与中央声道的邻近度的规则。基于非典型能量分布的规则和基于与中央声道的邻近度的规则可以分别对应于以上讨论的两种平移规则。与这两个规则中的任一个规则相关联的子带可以被认为是不期望被提取为对象。

在一些实施例中，与基于非典型的能量分布规则的关联度的确定可以包括：根据子带音频信号的实际能量分布与子带音频信号的估计的典型能量分布之间的第一距离来确定与基于非典型能量分布的规则的关联度。在一个示例实施例中，与基于非典型的能量分布规则的关联度可以被表示为概率，并且可以如下地被定义：

q_{1} (i) = \frac{1}{1 + e^{a_{e} * d (\overset{&RightArrow;}{e_{i}}, \hat{\overset{&RightArrow;}{e_{i}}}) + b_{e}}} - - - (7)

其中q₁(i)表示第i个子带与基于非典型的能量分布规则相关联的概率；表示第i个子带的实际能量分布；表示利用传统平移方法的第i个子带的估计的典型能量分布；表示这两个能量分布之间的距离，其指示了第i个子带的实际能量分布是否是非典型的；并且a_e和b_e表示Sigmoid函数的参数，用于将距离映射到概率q₁(i)。

第i个子带的实际能量分布可以由已知的方法来测量。为了确定第i个子带的估计的典型能量分布可以基于实际能量分布来确定第i个子带的空间位置p_i。例如，如果该能量被相同地分布在左声道和右声道，那么空间位置p_i可以是左声道和右声道之间的中心。假设使用传统平移方法，第i个子带可能以估计的典型能量分布被平移到空间位置p_i附近的声道。以这种方式可以确定典型能量分布

这两个能量分布的距离越高，该子带具有非典型能量分布的概率越大，这意味着子带有更小的可能性被提取为音频对象，以便保留特殊创作意图。从这点来看，参数a_e通常是负数。在一些实施例中，a_e和b_e可以是预定的并且对于不同的能量分布(实际能量分布或确定的典型能量分布)分别维持相同的数值。在一些其他实施例中，a_e和b_e可以分别是能量分布(实际能量分布或确定的典型能量分布)或者距离的函数。例如，对于不同的能量分布或者不同的a_e和b_e可以具有不同的数值。

应当注意到，除了以上的Sigmoid函数之外，有许多其他方式来确定基于与非典型能量分布的规则的关联度，只要该关联度与实际能量分布和估计的典型能量分布之间的距离负相关即可。本发明的范围在此方面不受限制。

在一些实施例中，与基于与中央声道的邻近度的规则的关联度的确定可以包括：根据子带音频信号的空间位置与中央声道的空间位置之间的第二距离来确定与基于与中央声道的邻近度的规则的关联度。在示例实施例中，与基于与中央声道的邻近度的规则的关联度可以被表示为概率并且可以被如下地定义：

q_{2} (i) = \frac{1}{1 + e^{a_{p} * d (p_{c} \cdot p_{i}) + b_{p}}} - - - (8)

其中q₂(i)表示第i个子带与基于与中央声道的邻近度的规则相关联的概率；p_c表示中央声道的空间位置，其可以是预定义的；p_i表示第i个子带的空间位置，其可以基于公式(1)来确定；d(p_c，p_i)表示中央声道和第i个子带的位置之间的距离；并且a_p和b_p表示用于将距离d(p_c，p_i)映射到概率q₂(i)的Sigmoid函数的参数。

d(p_c，p_i)距离越小，第i个子带与基于与中央声道的邻近度的规则相关联的概率越大，这意味着该子带有更小的概率被提取为音频对象，以便保留特殊创作意图。从这点来看，参数a_p通常是正数。在一些实施例中，a_p和b_p可以是预定的并且对于不同的空间位置(中央声道位置或者第i个子带的位置)分别维持相同的数值。在一些其他实施例中，a_p和b_p可以分别是空间位置(中央声道位置或者第i个子带的位置)或者距离d(p_c，p_i)的函数。例如，对于不同的空间位置或者不同的距离d(p_c，p_i)，a_p和b_p可以具有不同的数值。

应当注意到，除了以上的Sigmoid函数之外，有许多其他方式来确定基于与中央声道的邻近度的规则的关联度，只要该关联度与实际能量分布和估计的典型能量分布之间的距离负相关即可。本发明的范围在此方面不受限制。

基于频率范围的第四概率

由于所提取的音频对象可以被重现并且进而由具有对应的渲染器的各种设备来播放，在对象提取期间考虑渲染器的性能限制将是有利的。例如，在用各种渲染器渲染具有比200Hz更低的频率的子带时，可能有一些能量累积。为了避免引入累积的能量，在音频对象提取期间，可能倾向于将低频带维持在静态环境音/残余音频部分中。因此，子带的频率范围可以用作估计子带对象概率的一个因素，并且可以确定基于频率范围的第四概率。

在本发明的一些实施例中，为了计算基于频率范围的第四概率，可以执行以下步骤：确定子带音频信号的频率范围中的中心频率；以及基于中心频率确定针对子带音频信号的第四概率。如以上所讨论的，第四概率与中心频率的值正相关。也就是说，中心频率越低，第四概率越低。第四概率处于0到1的范围。应当注意到，除了中心频率之外，在子带的频率范围中的任何其他概率也可以被用于估计第四概率，诸如低边界、高边界或者在频率范围的1/3或1/4处的频率，或者子带的频率范围内的任何其他频率。在一个示例中，第四概率可以如下地被确定：

{prob}_{4} (i) = \frac{1}{1 + e^{a_{f} * f_{i} + b_{f}}} - - - (9)

其中prob₄(i)表示第i个子带的第四概率；并且f_i表示第i个子带的频率范围内的频率，其可以是中心频率、低边界或高边界。例如，如果第i个子带具有200Hz到600Hz的频率范围，f_i可以是500HZ、200Hz或者600Hz。a_f和b_f表示用于将第i个子带的频率f_i映射到第四概率的Sigmoid函数的参数。通常a_f是负数，并且那么随着频率f_i越高，第四概率prob₄(i)可以越大。在一些实施例中，a_f和b_f可以是预定的并且对于频率f_i的不同数值可以分别维持相同的值。在一些其他实施例中，a_f和b_f可以分别是频率f_i的函数。例如，对于频率f_i的不同数值，a_f和b_f可以具有不同的数值。

应当注意的是，可以有许多其他方式来确定基于频率范围的第四概率，只要第四概率与第i个子带的频率范围内的某个频率值正相关即可。本发明的范围在此方面不受限制。

在以上的讨论中，描述了基于四个因素的四个概率。子带对象概率可以基于第一概率、第二概率、第三概率和第四概率中的一个或多个概率来确定。

在本发明的一些实施例中，为了避免在音频对象提取过程中引入人工噪声和防止音频不稳定性，可以仅在所有单独的因素均高的情况下组合的子带对象概率才是高的，并且只要一个单独的因素是低，组合的子带对象概率就可以变低。在一个实施例中，子带对象概率可以是不同因素的组合，如下：

{prob}_{sub - band} (i) = Π_{k = 1}^{K} {prob}_{k} {(i)}^{α_{k}} - - - (10)

其中prob_sub-band(i)表示第i个子带的子带对象概率；K表示在子带对象概率确定时要考虑的因素的数量。例如，K可以是4，并且所有以上提及的四个因素被考虑在内。在另一个示例中，K可以是3，并且所有以上提及的四个因素中的三个因素被考虑。在又一个示例中，K可以是1，并且所有以上提及的四个因素之一被考虑。表示基于第i个子带的第k个因素的概率；并且α_k表示对应于第k个因素的权重系数，用于指示第k个因素的“预定义”的重要性。α_k可以在0到1的范围内。在本发明的实施例中，α_k可以跨多个子带均相同，或者可以对于不同的子带是不同的。

应当注意到，在子带对象概率确定时，除了以上所讨论的四个因素之外或者取代以上所讨论的四个因素，可以考虑其他因素。例如，由人类用户提供的一些关于音频内容中的音频对象的线索或者信息可以在子带对象概率确定时被考虑。本发明的范围在此方面不受限制。

在方法100中，在步骤S102确定子带对象概率之后，在步骤S103，子带音频信号可以被分割为音频对象部分和残余音频部分，这也对应于图2中的音频对象/残余音频分割框203。音频分割将在以下被详细描述。

在本发明的一些实施例中，基于确定的子带对象概率将子带音频信号分割为音频对象部分和残余音频部分可以包括：基于子带对象概率来确定子带音频对象的对象增益；以及根据确定的对象增益，将子带音频信号分割为音频对象部分和残余音频部分。在一个示例中，每个子带可以如下地被分割为音频对象部分和残余音频部分：

x_obj(i)＝x(i)*g(i)

x_res(i)＝x(i)*(1-g(i))(11)

其中x(i)表示第i个子带的输入音频内容，其可以是时域序列或频域序列；g(i)表示第i个子带的对象增益；并且x_obj(i)和x_res(i)分别表示第i个子带的音频对象部分和残余音频部分。

在本发明的一个实施例中，基于子带对象概率来确定子带音频对象的对象增益包括：将子带对象概率确定为子带音频信号的对象增益。也就是说，子带对象概率可以被直接用作对象增益，其可以如下被表示：

g(i)＝prob_sub-band(i)(12)

尽管直接使用子带对象概率的软分割可以避免在音频对象提取期间的一些不稳定性或者切换人为噪声，音频对象提取的稳定性可以被进一步提高，因为在确定的子带对象概率中可能仍有一些噪声。在一些实施例中，针对对象增益的时间平滑和/或频谱平滑可以被给出，以用于提高所提取的对象的稳定性。

时间平滑

在本发明的一些实施例中，可以利用时间相关的平滑因数来平滑子带音频信号的对象增益。可以随着时间对每个子带单独执行时间平滑，其可以被如下地表示：

{\tilde{g}}_{t} (i) = α_{t} (i) * {\tilde{g}}_{t - 1} (i) + (1 - α_{t} (i)) * g_{t} (i) - - - (13)

其中g_t(i)表示处理帧t中的第i个子带的对象增益，其可以是所确定的第i个子带的子带对象概率；α_t(i)表示时间相关的平滑因数；并且和表示处理帧t和帧t-1中的第i个子带的经平滑的对象增益。

由于音频对象可能随着时间在每个子带中频繁地出现或者小时，特别是在复杂的最终混音内容中，时间相关的平滑因数可以对象地改变，以避免在两个不同类型的内容之间平滑，例如，在两个不同的对象或者在对象和环境音之间平滑。

因此，在本发明的一些实施例中，时间相关的因数可以与子带音频信号中的音频对象随着时间的出现和消失相关联。在进一步的实施例中，在音频对象出现或消息的时候，可以使用小的时间相关因数，其指示对象增益可以很大地取决于当前的处理帧。可以通过子带转换检测来确定对象出现/消失的信息，例如，通过已知的对应于音频对象的出现的起始概率(onsetprobability)和对应于音频对象的消失的结束概率(offsetprobability)。假设帧t中的第i个子带转换概率是TP_t(i)，在一个实施例中，针对该频时分片的时间相关平滑因数α_t(i)可以如下地确定：

α_t(i)＝TP_t(i)*α_fast+(1-TP_t(i))*α_slow(14)

其中α_fast表示具有较小值的快速平滑时间常数(平滑因数)，而α_slow表示具有较大值的缓慢平滑时间常数(平滑因数)，也就是说，α_fast小于α_slow。因此，根据公式(14)，当转换概率TP_t(i)较大时，意味着在处理帧t中存在转换点(音频对象出现或消失)，那么平滑因数可以较小，而对象增益可以很大地取决于当前帧t，以避免跨两个不同类型的内容的平滑。在一些实施例中，如果存在音频对象出现或消失，那么转换概率可以是1，并且如果没有音频对象出现或消失，那么转换概率可以是0。转换概率TP_t(i)还可以是0和1之间的连续值。

可以有许多其他方法能够被用于平滑对象增益。例如，用于平滑对象增益的平滑因数可以跨输入音频内容的多个帧或所有帧是相同的。本发明的范围在此方面不受限制。

频谱平滑

在本发明的一些实施例中，子带的对象增益可以在频率窗口中被平滑。在这些实施例中，预定义的平滑窗口可以被应用到多个子带中，以获得频谱平滑的增益值：

\tilde{g} (i) = Σ_{l = - L}^{L} w_{l} * g (i + l) - - - (15)

其中表示子带i的对象增益；g(i+l)表示子带(i+l)的增益，其可以是子带(i+l)的确定的子带对象概率；w_l表示对应于l的频率窗口的系数，其可以具有0到1之间的值；并且2L+1表示频率窗口的长度，其可以是预定的。

对于一些类型的音频内容，诸如最终混音音频，在不同的频谱区域中可能有多个源(不同的对象和环境音)，基于固定的预定窗口进行平滑可能导致在相邻频谱区域中的两个不同的源之间进行平滑。因此，在本发明的一些实施例中，可以利用一些频谱分段结果来避免跨两个源的频谱边界进行平滑，并且频率窗口的长度可以与子带的频谱分段的低边界和高边界相关联。在一个实施例中，如果频谱分段的低边界大于预定的频率窗口的低边界，那么可以使用频谱分段的低边界而不是预定的频率窗口的低边界；而如果频谱分段的高边界小于预定的频谱窗口的高边界，那么可以使用频谱分段的高边界而不是预定的频率窗口的高边界。

在一个示例中，可以利用具有子带的频谱分段的低边界和高边界的频率窗口来确定平滑的对象增益，并且以上公式(15)可以被修改为如下：

\tilde{g} (i) = \frac{Σ_{l = \max (- L, {BL}_{i} - i)}^{\min (L, {BH}_{i} - i)} w_{l} * g (i + l)}{Σ_{l = \max (- L, {BL}_{i} - i)}^{\min (L, {BH}_{i} - i)} w_{l}} - - - (16)

其中BL_i表示子带i的频谱分段的低边界；并且BH_i表示子带i的频谱分段的高边界。可以基于频时分片(子带)的频谱分段的对象增益和/或频谱相似性来确定频谱分段的边界。

在子带划分时，为了避免具有不同频率范围的不同对象被包含在同一子带中，以及避免单独的对象不可以被正确地提取，子带的频率分辨率可以较高，也就是说，子带具有短的频率范围。如以上提及的，基于子带对象概率划分的音频对象部分和残余音频部分可以在自适应音频内容生成或者其他另外的音频处理中被渲染。高的频率分辨率可能导致大量的提取的音频对象部分，这可能造成对这样的内容的处理和分配的新挑战。因此，在本发明的实施例中，音频对象部分的数量可以通过一些分组/聚类方法来进一步减小。

现在参照图5，其示出了根据本发明的另一个示例实施例的用于音频对象提取的方法500的流程图。

在步骤S501，在频域中将音频内容的帧划分成多个子带音频信号。如以上所提及的，考虑到音频内容中的音频对象的稀疏性特征，可以对该音频内容的帧的子带执行软划分。所划分的子带的数量和每个子带的频率范围在本发明中不受限制。

在步骤S502，为多个子带音频信号中的每个子带音频信号确定子带对象概率。该步骤类似于方法100的步骤S101，其已经讨论了子带对象概率的确定。因此，为了简明的目的，在这里省略了该步骤的详细描述。

在步骤S503，基于各自的子带对象概率，将多个子带音频信号中的每个子带音频信号被分割为音频对象部分和残余音频部分。该步骤类似于方法100的步骤S102，其已经讨论了子带的分割。因此，为了简明的目的，在这里省略了该步骤的详细描述。

方法500行进至步骤S504，并且在该步骤中，多个子带音频信号的音频对象部分可以被聚类。聚类后的音频对象部分的数量小于多个子带音频信号的所分割的音频对象部分的数量。

因此，图2的音频对象提取的框图可以被修改为图6所示的框图，其中增加了音频对象部分聚类框204。框204的输入是来自框203的所分割的音频对象部分，并且在聚类之后，框204可以输出数量减少的音频对象部分。

各种分组或聚类技术可以被应用来将大数量的分割的音频对象部分聚类成小数量的音频对象部分。在一些实施例中，多个子带音频信号的音频对象部分的聚类可以基于以下各项中的至少一项：临界频带、多个子带音频信号的音频对象部分的空间位置、以及感知准则。

基于临界频带的聚类

根据心理声学的听觉掩蔽(auditorymasking)现象，当在同一个临界频带内出现较高强度的第二信号时，对于人类而言，难以感知原本的声音信号。因此，可以基于临界频带来将多个子带的音频信号部分分组在一起而不引起明显的听觉问题。ERB(等效矩形带宽，EquivalentRectangularBandwidth)频带可以用于分组音频对象部分。ERB频带可以被表示为：

ERB(f)＝24.7*(4.37*f+1)(17)

其中f表示以kHz为单位的ERB频带的中心频率并且ERB(f)表示以Hz为单位的ERB频带的带宽。

在一个实施例中，可以基于子带的中心频率(或者低边界、或者高边界)，将不同子带的音频对象部分分组到ERB频带中。

在不同的实施例中，ERB频带的数量可以被预先设置，例如，设置为20，这意味着在聚类之后，处理帧的多个子带的音频对象部分可以被聚类成预设数量的ERB频带。

基于空间位置的聚类

子带对象聚类的备选方法是基于空间位置，因为具有相同或相近空间位置的子带音频对象部分可能属于同一个对象。同时，在由各种渲染器利用获得的空间位置来渲染所提取的音频对象部分时，可能明显的是，具有相同位置的子带的组的渲染可能类似于具有该相同位置的单个子带的渲染。示例的基于空间位置的分级聚类方法在以下描述。

·步骤1：初始地将处理帧的多个子带的每个音频对象部分看作单独的聚类。

·步骤2：计算每隔一个聚类(或者每隔两个)之间的空间距离。

·步骤3：如果聚类的数量大于目标数量，基于两个聚类的空间位置，将具有最小距离(或者具有小于阈值的距离)的两个聚类合并成一个新的聚类，并且计算合并后的聚类的空间位置，然后回到步骤2。如果聚类的数量等于目标数量，聚类过程可以结束。在其他实施例中，也可以使用不同的停止准则。例如，当两个聚类之间的最小距离大于阈值时，将停止聚类过程。

应当注意到，除了以上描述的方法之外，还可以有许多其他方式来聚类音频对象部分，并且本发明的范围在此方面不受限制。

基于感知准则的聚类

当聚类的总数量受到限制时，如果音频对象是稀疏地分布的话，仅仅基于空间位置来聚类子带音频对象部分可能引入一些人为噪声。因此，在一些实施例中，基于感知准则的聚类可以用于分组子带音频对象部分。感知准则可以涉及音频信号的感知因素，诸如部分响度(partialloudness)、内容语义或者类型等。一般来说，对子带对象进行聚类导致一定量的误差，因为并非所有子带对象在与其他对象进行聚类时可以保持空间保真度，特别是在大量音频对象被稀疏地分布的应用中。具有相对高的感知重要性的对象在最小化伴随聚类过程的空间/感知误差方面将受到青睐。对象的重要性可以基于诸如局部响度(其是考虑场景中其他对象之间的掩蔽效应的对象的感知响度)以及内容语义或类型(例如对白、音乐、效果等)之类的感知准则。通常，在分组过程期间，在最小化空间误差的方面，高的(感知)重要性的对象可以优于具有低的重要性的对象，并且可以更加可能被聚类在一起。对于低重要性的对象，它们可以被渲染到附近的高重要性对象的组中并且/或者被渲染到环境音中。

因此，在本发明的一些实施例中，可以首先确定处理帧的多个音频对象部分中的每个音频对象部分的感知重要性，并且然后基于以感知准则测量的感知重要性，可以聚类这些音频对象部分。音频对象部分的感知重要性可以通过组合音频对象部分的感知响度(部分响度)和内容重要性来确定。例如，在一个实施例中，内容重要性可以基于对白的置信度分数来获得，并且增益值(以dB为单位)可以基于该获得的内容重要性来估计。音频对象部分的响度或激励可以然后通过确定的响度来修改，并且修改后的响度表示音频对象部分的最终感知重要性。

分割后的(或者聚类后的)音频对象部分和残余音频(静态环境音)部分然后可以被用在自使用内容生成系统中，其中输入音频内容的音频对象部分和残余音频(静态环境音)部分可以被转换成自适应音频内容(包括环境音以及具有元数据的对象)，用以创建3D音频体验。示例的系统700的架构在图7中被示出。

系统700的定向/分散分离框10可以用于将输入音频内容首先分离成定向信号和分散信号，其中该定向分量可能主要包含具有方向的音频对象，而分散分量可能主要包含没有芳香的环境音。

音频对象提取框11可以执行以上所讨论的根据本发明的实施例的音频对象提取过程。在这个框中，可以从定向信号中提取出音频对象部分和残余音频部分。基于以上的一些实施例，这里的音频对象部分可以是音频对象部分的组，并且组的数量可以取决于系统700的要求。

静态环境音框12可以用于将分散信号以及音频对象提取的残余音频部分组合在一起，以生成静态环境音。为了增强沉浸感体验，向上混音技术可以被应用到该框，以创建一些头顶(overhead)环境音声道。

向下混音和元数据确定框13可以用于将音频对象部分向下混音到具有确定的元数据的单一音频对象。元数据可以包括用于更好地渲染音频对象内容的信息，如音频对象的空间位置、速度、大小等。元数据可以通过一些已知的技术从音频内容得到。

应当注意到，一些附加的组件可以被添加到系统700，并且图7中示出的系统700的一个或多个框可以是可选的。本发明的范围在此方面不受限制。

系统700的生成的自适应音频内容(包括静态环境音和具有元数据的单一音频对象)可以由各种类型的渲染器渲染。这可以增强在不同收听环境中的音频体验，在这些环境中，静态环境音可以被渲染到预定义的位置，而音频对象可以基于确定的元数据来渲染。渲染后的音频内容然后可以由各种类型的扬声器来播放，诸如音箱、头戴式耳机或者入耳式耳机等。

自适应音频内容生成及其播放仅是本发明中生成的音频对象部分和残余音频部分的一些示例使用情况，并且可以有许多其他使用情况。本发明的范围在此方面不受限制。

图8示出了根据本发明的一个示例实施例的用于音频对象提取的系统800的架构。如所示出的，系统800包括概率确定单元801，被配置成为音频内容的帧中的子带音频信号确定子带对象概率，子带对象概率指示子带音频信号包含音频对象的概率。系统800进一步包括音频分割单元802，被配置成基于确定的子带对象概率，将子带音频信号分割为音频对象部分和残余音频部分。

在一些实施例中，系统800可以进一步包括频带划分单元，被配置成在频域中将音频内容的帧划分成多个子带音频信号。对于多个子带音频信号，可以确定相应的子带对象概率，并且其中基于相应的子带对象概率，将多个子带音频信号中的每个子带音频信号可以被分割为音频对象部分和残余音频部分。

在一些实施例中，可以基于以下各项中的至少一项来为子带音频信号确定子带对象概率：基于子带音频信号的空间位置而确定的第一概率；在音频内容具有基于多个声道的格式时，基于子带音频信号的多个声道之间的相关性而确定的第二概率；基于音频混合中的至少一个平移规则而确定的第三概率；以及基于子带音频信号的频率范围而确定的第四概率。

在一些实施例中，第一概率的确定可以包括：获得多个子带音频信号的空间位置；根据获得的多个子带音频信号的空间位置，确定在子带音频信号的空间位置附近的子带密度；以及基于子带密度确定针对子带音频信号的第一概率，其中第一概率与子带密度正相关。

在一些实施例中，第二概率的确定可以包括：针对子带音频信号，确定多个声道中的每两个声道之间的相关度；基于确定的相关度来获得子带音频信号的多个声道之间的总相关度；以及基于总相关度来确定针对子带音频信号的第二概率，其中第二概率与总相关概率正相关。

在一些实施例中，第三概率的确定可以包括：确定子带音频信号与音频混合中的至少一个平移规则中的每个平移规则的关联度，每个平移规则指示子带音频信号不适于作为音频对象的情况；以及基于确定的关联度来确定针对子带音频信号的第三概率，其中第三概率与关联度负相关。

在一些实施例中，至少一个平移规则可以包括以下各项中的至少一项：基于非典型能量分布的规则和基于与中央声道的邻近度的规则。在一个实施例中，与基于非典型的能量分布规则的关联度的确定可以包括：根据子带音频信号的实际能量分布与子带音频信号的估计的典型能量分布之间的第一距离来确定与基于非典型能量分布的规则的关联度。在另一个实施例中，与基于与中央声道的邻近度的规则的关联度的确定可以包括：根据子带音频信号的空间位置与中央声道的空间位置之间的第二距离来确定与基于与中央声道的邻近度的规则的关联度。

在一些实施例中，第四概率的确定可以包括：确定子带音频信号的频率范围中的中心频率；以及基于中心频率确定针对子带音频信号的第四概率，其中第四概率与中心频率的值正相关。

在一些实施例中，音频分割单元802可以包括：对象增益确定单元，被配置成基于子带对象概率来确定子带音频对象的对象增益。音频分割单元802进一步被配置成根据确定的对象增益，将子带音频信号分割为音频对象部分和残余音频部分。

在一些实施例中，对象增益确定单元可以进一步被配置成将子带对象概率确定为子带音频信号的对象增益。系统800可以进一步包括以下各项中的至少一项：时间平滑单元，被配置成利用时间相关的平滑因数来平滑子带音频信号的对象增益；以及频谱平滑单元，被配置成在频率窗口内平滑针对子带音频信号的对象增益。在一个实施例中，时间相关的平滑因数与音频对象随着时间在子带音频信号中的出现和消失相关联。在另一个实施例中，频率窗口的长度是预定的、或者与子带音频信号的频谱分段的低边界和高边界相关联。

在一些实施例中，系统800可以进一步包括聚类单元，被配置成聚类多个子带音频信号的音频对象部分，聚类后的音频对象部分的数量小于多个子带音频信号的音频对象部分的数量。在一个实施例中，聚类多个子带音频信号的音频对象部分可以基于以下各项中的至少一项：临界频带、多个子带音频信号的音频对象部分的空间位置、以及感知准则。

为清晰起见，在图8中没有示出系统800的某些可选部件。然而，应当理解，上文参考图1-图7所描述的各个特征同样适用于系统800。而且，系统800中的各部件可以是硬件模块，也可以是软件单元模块。例如，在某些实施例中，系统800可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统800可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

下面参考图9，其示出了适于用来实现本发明实施例的计算机系统900的示意性框图。如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。如所需要的，在RAM903中，还存储有CPU901执行各种过程等的数据。CPU901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明的实施例，上文参考图1-图7描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法100和/或500的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

由此，本发明可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。

EEE1.一种从多声道音频提取子带对象的方法，包括：

确定子带对象概率；

基于确定的概率，将子带软分配为对象或环境音/残余音频；以

及

将单独的子带对象分组成若干组。

EEE2.根据EEE1所述的方法，其中子带对象概率是基于以下各项中的至少一项来确定的：位置分布、声道相关性、平移规则和中心频率。

EEE3.根据EEE2所述的方法，其中子带对象概率与子带分布的空间密度正相关，也就是说，子带分布的空间密度越高，子带对象概率越大。

EEE4.根据EEE3所述的方法，其中子带空间位置是基于预定义的声道位置的能量权重来确定的。

EEE5.根据EEE2所述的方法，其中子带对象概率与能量权重的声道相关性正相关，也就是说，声道相关性越高，子带对象概率越大。

EEE6.根据EEE2所述的方法，其中如果子带与特定平移规则之一相关联，则该子带将被维持为残余音频。

EEE7.根据EEE6所述的方法，其中特定平移规则包括以下各项中的至少一项：

具有非典型能量分布的子带；以及

位于中央声道的子带。

EEE8.根据EEE2所述的方法，其中子带对象概率与子带中心频率正相关，也就是说，子带中心频率越低，子带对象概率越小。

EEE9.根据EEE1所述的方法，其中子带对象概率被用作用于将子带分割成对象和残余音频。

EEE10.根据EEE9所述的方法，其中时间平滑和频谱平滑被用于平滑子带对象增益。

EEE11.根据EEE10所述的方法，其中时间转换检测被用来计算用于时间平滑的自适应时间常数。

EEE12.根据EEE10所述的方法，其中频谱分段被用来计算用于频谱平滑的自适应平滑窗口。

EEE13.根据EEE1所述的方法，其中子带对象分组方法包括以下各项中的至少一项：

基于临界频带的分组；

基于空间位置的分组；以及

基于感知准则的分组。

将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种用于从音频内容中提取音频对象的方法，包括：

为所述音频内容的帧中的子带音频信号确定子带对象概率，所述子带对象概率指示所述子带音频信号包含音频对象的概率；以及

基于确定的子带对象概率，将所述子带音频信号分割为音频对象部分和残余音频部分。

2.根据权利要求1所述的方法，进一步包括：

在频域中将所述音频内容的帧划分成多个子带音频信号，

其中，对于所述多个子带音频信号，确定相应的子带对象概率，并且其中基于相应的子带对象概率，将多个子带音频信号中的每个子带音频信号被分割为音频对象部分和残余音频部分。

3.根据权利要求1或2所述的方法，其中基于以下各项中的至少一项来为所述子带音频信号确定所述子带对象概率：

基于所述子带音频信号的空间位置而确定的第一概率；

在所述音频内容具有基于多个声道的格式时，基于所述子带音频信号的多个声道之间的相关性而确定的第二概率；

基于音频混合中的至少一个平移规则而确定的第三概率；以及

基于所述子带音频信号的频率范围而确定的第四概率。

4.根据权利要求3所述的方法，其中所述第一概率的确定包括：

获得所述多个子带音频信号的空间位置；

根据获得的所述多个子带音频信号的空间位置，确定在所述子带音频信号的所述空间位置附近的子带密度；以及

基于所述子带密度确定针对所述子带音频信号的所述第一概率，

其中所述第一概率与所述子带密度正相关。

5.根据权利要求3所述的方法，其中所述第二概率的确定包括：

针对所述子带音频信号，确定所述多个声道中的每两个声道之间的相关度；

基于确定的相关度来获得所述子带音频信号的所述多个声道之间的总相关度；以及

基于所述总相关度来确定针对所述子带音频信号的所述第二概率，

其中所述第二概率与所述总相关概率正相关。

6.根据权利要求3所述的方法，其中所述第三概率的确定包括：

确定所述子带音频信号与音频混合中的至少一个平移规则中的每个平移规则的关联度，每个平移规则指示子带音频信号不适于作为音频对象的情况；以及

基于确定的关联度来确定针对所述子带音频信号的所述第三概率，

其中所述第三概率与所述关联度负相关。

7.根据权利要求6所述的方法，其中所述至少一个平移规则包括以下各项中的至少一项：基于非典型能量分布的规则和基于与中央声道的邻近度的规则；

其中与基于非典型的能量分布规则的关联度的确定包括：根据所述子带音频信号的实际能量分布与所述子带音频信号的估计的典型能量分布之间的第一距离来确定与基于非典型能量分布的规则的所述关联度；并且

其中与基于与中央声道的邻近度的规则的关联度的确定包括：根据所述子带音频信号的空间位置与所述中央声道的空间位置之间的第二距离来确定与基于与中央声道的邻近度的规则的所述关联度。

8.根据权利要求3所述的方法，其中所述第四概率的确定包括：

确定所述子带音频信号的频率范围中的中心频率；以及

基于所述中心频率确定针对所述子带音频信号的所述第四概率，

其中所述第四概率与所述中心频率的值正相关。

9.根据权利要求1-8中任一项所述的方法，其中基于确定的子带对象概率将所述子带音频信号分割为所述音频对象部分和所述残余音频部分包括：

基于所述子带对象概率来确定所述子带音频对象的对象增益；以及

根据确定的对象增益，将所述子带音频信号分割为所述音频对象部分和所述残余音频部分。

10.根据权利要求9所述的方法，其中基于所述子带对象概率来确定所述子带音频对象的对象增益包括：将所述子带对象概率确定为所述子带音频信号的所述对象增益；

其中所述方法进一步包括以下各项中的至少一项：

利用时间相关的平滑因数来平滑所述子带音频信号的所述对象增益；以及

在频率窗口内平滑针对所述子带音频信号的所述对象增益。

11.根据权利要求10所述的方法，其中所述时间相关的平滑因数与音频对象随着时间在所述子带音频信号中的出现和消失相关联；并且

其中所述频率窗口的长度是预定的、或者与所述子带音频信号的频谱分段的低边界和高边界相关联。

12.根据权利要求2所述的方法，进一步包括：

聚类所述多个子带音频信号的音频对象部分。

13.根据权利要求12所述的方法，其中聚类所述多个子带音频信号的音频对象部分基于以下各项中的至少一项：临界频带、所述多个子带音频信号的音频对象部分的空间位置、以及感知准则。

14.一种用于从音频内容中提取音频对象的系统，包括：

概率确定单元，被配置成为所述音频内容的帧中的子带音频信号确定子带对象概率，所述子带对象概率指示所述子带音频信号包含音频对象的概率；以及

音频分割单元，被配置成基于确定的子带对象概率，将所述子带音频信号分割为音频对象部分和残余音频部分。

15.根据权利要求14所述的系统，进一步包括：

频带划分单元，被配置成在频域中将所述音频内容的帧划分成多个子带音频信号，

16.根据权利要求14或15所述的系统，其中基于以下各项中的至少一项来为所述子带音频信号确定所述子带对象概率：

基于所述子带音频信号的空间位置而确定的第一概率；

基于所述子带音频信号的频率范围而确定的第四概率。

17.根据权利要求16所述的系统，其中所述第一概率的确定包括：

获得所述多个子带音频信号的空间位置；

其中所述第一概率与所述子带密度正相关。

18.根据权利要求16所述的系统，其中所述第二概率的确定包括：

其中所述第二概率与所述总相关概率正相关。

19.根据权利要求16所述的系统，其中所述第三概率的确定包括：

其中所述第三概率与所述关联度负相关。

20.根据权利要求19所述的系统，其中所述至少一个平移规则包括以下各项中的至少一项：基于非典型能量分布的规则和基于与中央声道的邻近度的规则；

21.根据权利要求16所述的系统，其中所述第四概率的确定包括：

确定所述子带音频信号的频率范围中的中心频率；以及

其中所述第四概率与所述中心频率的值正相关。

22.根据权利要求14-21中任一项所述的系统，其中所述音频分割单元包括：

对象增益确定单元，被配置成基于所述子带对象概率来确定所述子带音频对象的对象增益，

其中所述音频分割单元进一步被配置成根据确定的对象增益，将所述子带音频信号分割为所述音频对象部分和所述残余音频部分。

23.根据权利要求22所述的系统，其中所述对象增益确定单元进一步被配置成将所述子带对象概率确定为所述子带音频信号的所述对象增益；

其中所述系统进一步包括以下各项中的至少一项：

时间平滑单元，被配置成利用时间相关的平滑因数来平滑所述子带音频信号的所述对象增益；以及

频谱平滑单元，被配置成在频率窗口内平滑针对所述子带音频信号的所述对象增益。

24.根据权利要求23所述的系统，其中所述时间相关的平滑因数与音频对象随着时间在所述子带音频信号中的出现和消失相关联；并且

25.根据权利要求15所述的系统，进一步包括：

聚类单元，被配置成聚类所述多个子带音频信号的音频对象部分。

26.根据权利要求25所述的系统，其中聚类所述多个子带音频信号的音频对象部分基于以下各项中的至少一项：临界频带、所述多个子带音频信号的音频对象部分的空间位置、以及感知准则。

27.一种计算机程序产品，包括被有形地包括在机器可读介质上的计算机程序，所述计算机程序包含程序代码，用于执行根据权利要求1至13中任一项所述的方法。