CN106297820A

CN106297820A - 具有基于迭代加权的源方向确定的音频源分离

Info

Publication number: CN106297820A
Application number: CN201510247108.5A
Authority: CN
Inventors: 芦烈; 胡明清
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2017-01-04
Also published as: EP3295456A1; EP3550565A1; EP3295456B1; US10930299B2; WO2016183367A1; EP3550565B1; US20180144759A1

Abstract

本文中公开的示例实施例涉及利用基于迭代加权的成分分析确定的源方向的音频源分离。公开了一种分离音频内容中的音频源的方法。该音频内容包括多个声道。该方法包括从音频内容的多个时频块中获得多个数据样本。该方法还包括在多次迭代中分析数据样本以生成多个成分，其中这些成分中的每个成分指示具有数据样本的方差的方向，并且其中在多次迭代的每次迭代中，利用权值来加权数据样本中的每个数据样本，权值基于多个成分中所选择的成分。该方法进一步包括基于所选择的成分来确定音频内容的源方向，以供从音频内容中分离音频源。还公开了相应的分离音频内容中的音频源的系统和计算机程序产品。

Description

具有基于迭代加权的源方向确定的音频源分离

技术领域

本文中公开的实施例总体上涉及音频内容处理，并且更具体地，涉及用于利用基于迭代加权的成分分析确定的源方向来分离音频源的方法和系统。

背景技术

具有多声道格式的音频内容(诸如立体声、环绕5.1、环绕7.1等)是通过在工作室混合不同的音频信号来创建、或者通过在实际环境中同步地录制声学信号来生成。混合音频信号或内容可以包括若干不同的音频源。音频源分离是用于标识个体音频源和元数据的一种任务，元数据诸如音频源的方向、速度、尺寸等。如本文中所使用的，术语“音频源”或“源”指的是在音频内容中存在一定时间期间的个体音频元素。例如，音频源可以是人、动物或声场中的任何其他声源。所标识的音频源和元数据可以适于在许多随后的音频处理任务中使用。音频处理任务的一些示例可以包括空间音频编码、重混音/重创作、3D声音分析和合成、和/或出于各种目的(例如，自动语音识别)的信号增强/噪声抑制。因此，通过成功的音频源分离可以实现提升的广泛用途和更好的性能。

混合音频内容通常被建模为以各个系数被平移(pan)到多个声道的一个或多个音频源的混合。音频源的平移系数可以表示该源在混合音频内容跨越的空间中的平移方向(也被称为源方向)。在分离音频源(混合音频内容已知)以便标识其中的音频源的任务期间，首先可以估计源方向以及源方向的数目(其等于要被分离的音频源的数目)。

在常规的解决方案中，源方向的数目通过经验来预先配置，并且通过基于源方向的预定数目的随机初始化和迭代更新来估计相应的音频源。然而，如果源方向是随机地初始化，这需要大量的工作、诸如迭代更新，以便获得源方向的合理值。此外，由于源方向的确定受制于源方向的预定数目，该数目可能不同于在混合音频内容中实际包含的音频源的数目，因此在常规的解决方案中获得较低的音频源分离的性能。

发明内容

一般地，本文中公开的示例实施例提出了一种分离音频内容中的音频源的方法和系统。

在一个方面，本文中公开的示例实施例提供了一种分离音频内容中的音频源的方法。该音频内容包括多个声道。该方法包括从音频内容的多个时频块中获得多个数据样本。该方法还包括在多次迭代中分析数据样本以生成多个成分，其中这些成分中的每个成分指示具有数据样本的方差的方向，并且其中在多次迭代的每次迭代中，利用权值来加权数据样本中的每个数据样本，该权值基于多个成分中所选择的成分。该方法进一步包括基于所选择的成分来确定音频内容的源方向，以供从音频内容中分离音频源。这方面的实施例还包括相应的计算机程序产品。

在另一个方面，本文中公开的示例实施例提供了一种分离音频内容中的音频源的系统。该音频内容包括多个声道。该系统包括数据样本获取单元，被配置为从音频内容的多个时频块中获得多个数据样本。该系统还包括成分分析单元，被配置为在多次迭代中分析数据样本以生成多个成分，其中这些成分中的每个成分指示具有数据样本的方差的方向，并且其中在多次迭代的每次迭代中，利用权值来加权数据样本中的每个数据样本，该权值基于多个成分中所选择的成分。该系统进一步包括源方向确定单元，被配置为基于所选择的成分来确定音频内容的源方向，以供从音频内容中分离音频源。

通过下文描述将会理解，根据本文中公开的示例实施例，对从输入音频内容获得的数据样本执行迭代加权的成分分析，并且在每次迭代中更新用于数据样本的权值。由成分分析生成的成分之一在多次迭代之后可以被移动至实际的源方向。这个成分的方向因此可以被确定为源方向。迭代加权的成分分析可以有效地检测出输入的音频内容中的主要源方向并且适于任何的多维音频内容。本文中公开的示例实施例所带来的其他益处将通过下文描述而清楚。

附图说明

通过参考附图阅读下文的详细描述，本文中公开的示例实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本文中公开的若干实施例，其中：

图1示出了根据本文中公开的一个示例实施例的立体声音频信号的散布图的示意图；

图2示出了根据本文中公开的一个示例实施例的分离音频内容中的音频源的方法的流程图；

图3示出了根据本文中公开的另一个示例实施例的立体声音频信号的散布图的示意图；

图4示出了根据本文中公开的一个示例实施例的用于确定音频内容的源方向的过程的流程图；

图5示出了根据本文中公开的一个示例实施例的用于确定音频内容的多个源方向的过程的流程图；

图6示出了根据本文中公开的一个示例实施例的源方向与数据样本的方向之间的相关度的分布的示意图；

图7示出了根据本文中公开的一个示例实施例的用于从多个检测的源方向中确定确认源方向的过程的流程图；

图8示出了根据本文中公开的一个示例实施例的分离音频内容中的音频源的系统的框图；以及

图9示出了适于实现本文中公开的示例实施例的示例计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本文中所公开的示例实施例的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本文中所公开的示例实施例，而并非以任何方式限制本文中所公开的主题的范围。

如以上所提及的，期望从音频内容中确定源方向以便对该音频内容执行源分离。所确定的源方向的数量也可以在源分离中被利用。

通常源分离问题可以由如下混合模型来表示：

x_{i} (t) = Σ_{j = 0}^{N} a_{ij} s_{j} (t) + b_{i} (t), i = 1,2, . . ., M - - - (1)

其中x_i(t)表示在时间帧t处的混合音频内容的声道i中观察到的音频信号，s_j(t)表示未知的源信号j，a_ij表示从源信号s_j(t)到混合音频信号x_i(t)的平移系数，b_i(t)表示不具有明确方向的非相关分量，诸如噪声和环境音，N表示底层源信号的数目，并且M表示在音频内容中观察到的信号的数目并且通常对应于音频内容中的声道的数量。N大于或等于1，并且M大于或等于2。

以向量格式来写的话，公式(1)变为：

X(t)＝A·S(t)+b(t) (2)

其中X(t)表示在时间帧t处的具有M个观察信号的混合音频内容，S(t)表示在音频内容中混合的N个未知的源信号，并且A表示包含平移系数的M乘N的平移矩阵。矩阵A中的每一列，例如[a_1j,a_2j,...,a_Mj]^T，指的是源信号s_j(t)在由观察到的信号所跨越的空间中的源方向。

根据上述混合模型，为了音频内容中分离音频源，可以首先构建平移矩阵A。也就是说，可以估计矩阵A中的一个或多个源方向以及源方向的数目M。

源方向估计通常基于稀疏性假设，其假设存在足够多的音频内容的如下时频块：在这些时频块中仅存在一个活跃的或主导的音频源。这个假设在大多数情况下可以被满足。因此，仅具有一个主导源的这些时频块可以被用于表示该音频源的源方向(或者平移方向)，因为不会有太多噪声干扰该方向估计。如果从跨越多个声道的每个时频块获得多维的数据样本，并且所有数据样本被描绘在多维空间中，其中每个维度表示一个观察到的信号(例如，一个声道)，在主导的源方向周围将被分配有一定数量的数据样本。通过分析这个散布图，可以确定出主导的源方向以及主导的源的数目。

图1描绘了包含两个稀疏源的立体声音频信号的示例散布图。该音频信号被划分成帧，并且计算每个帧的幅度谱以通过例如共轭正交镜像滤波器组(CQMF)来获得多个数据样本。在这个情况中，每个数据样本是二维的，表示在特定频率带和特定帧处信号x₁(左声道)和信号x₂(右声道)的幅度。注意到，在图1中，每个数据样本的幅度被归一化到0至1的范围中。可以清楚地看出，存在两个主导的源方向，在图1中由d1和d2标示。

期望从多维空间中确定主导的源方向。一种简单的方法是搜索多维空间以在该空间中找到与主导的音频源相对应的可能的方向。然而，这个方法可能仅对于立体声信号有用，因为在一些情况下其搜索空间较小。例如，在图1中，源方向可以被表示为与水平轴的角度，其可以是0到π/2的范围(在散布图中使用原始频谱而不是幅度谱的情况下，角度可以从到π)。因此，把这个范围划分为若干间隙(例如，100个)将实现主导的源方向估计的高分辨度。换而言之，最多仅需要搜索100个方向就可以找到主导的源方向。然而，对于包括更高数目的声道的音频信号(例如，5.1环绕信号、7.1环绕信号等)，搜索空间将显著地增加至10⁸和10¹²，这对于搜索方法而言是非常具有挑战的。

本文中公开的示例实施例提出了一种适于从具有任何数目的声道的音频信号中有效地估计出主导的源方向的解决方案，声道的数目包括但不限于立体声、5.1环绕信号、7.1环绕信号等。基于估计的源方向和所估计的源方向的数目，可以基于以上讨论的混合模型来从音频内容中分离音频源。

现在参照图2，其描绘了根据本文中公开的一个示例实施例的分离音频内容中的音频源的方法200的流程图。

在步骤201，从音频内容的多个时频块中获得多个数据样本。

要被处理的音频内容具有基于多个声道的格式。例如，音频内容可以遵循立体声、环绕5.1、环绕7.1等。音频内容包括来自相应声道的多个单声道信号。在一些实施例中，音频内容可以被表示为频域信号。备选地，音频内容可以被输入为时域信号。在输入是时域音频信号的这些实施例中，可能需要执行一些预处理以获得对应的频域信号。

在本文中公开的实施例的源方向估计基于稀疏性假设。就此而言，音频内容可以被处理以获得音频内容的时频块中的数据样本。在一些实施例中，当输入的多声道音频内容具有时域表示时，可以使用时频变换将音频内容划分成多个块，时频变换诸如共轭正交镜像滤波器组(CQMF)、快速傅里叶变换(FFT)等。在一些实施例中，每个块通常包括多个样本(例如，64个样本、128个样本、256个样本等)。此外，音频内容的全频率范围可以被划分成多个频率子带(例如，77)，每个频率子带占据预定义的频率范围。因此，可以在多个频率子带和多个采样时序中获得一定数目的数据样本。每个数据样本可以表示在音频内容的每个时频块上的音频信号。在本文中公开的一些实施例中，每个数据样本是多维的，表示在特定频率带和特定帧处该音频信号的相应声道的幅度。数据样本可以被描绘在多维空间中，每个维度对应于音频内容的一个声道。

注意到，可以使用当前存在的或未来开发的任何音频采样方法来从音频内容中获得多个数据样本。本文中公开的主题的范围在此方面不受限制。

在步骤202，在多次迭代中分析数据样本以生成多个成分。

根据本文中公开的实施例，对获得的数据样本执行成分分析以在统计上估计源方向。

在本文中公开的一个示例实施例中，采用主成分分析(principalcomponent analysis，PCA)法，以通过方差或协方差分析来提取多维数据样本集合的多个主成分。第一主成分表示该集合的最高方差的方向，而第二主成分表示第二高的方差的方向，其与第一主成分是正交的。这可以被自然地扩展至获得相应数目的主成分，这些主成分一起跨越覆盖所期望的方差量的成分空间。PCA可以被认为是将M维椭圆体拟合至M维数据样本的集合，其中该椭圆体的每个轴表示一个主成分。如果该椭圆体的轴较小，那么沿着该轴的方差较小。如果该椭圆体的轴较大，那么沿着该轴的方差也较大。

成分分析被用于以统计方式来分析音频内容的数据样本，以便标识出于具有对应的方差的方向。所生成的多个成分可以在方差或协方差的方面中被用于表示数据样本。在一个实施例中，成分的数量可以对应于音频内容的声道的数量。

在一些实施例中，PCA分析通常包括两个步骤。首先，可以计算数据样本的协方差矩阵。协方差矩阵在一个示例中可以被表示为：

C = (X - \overset{&OverBar;}{X}) {(X - \overset{&OverBar;}{X})}^{T} - - - (3)

其中C表示协方差矩阵，X表示由所有数据样本形成的矩阵，并且表示所有数据样本的均值。矩阵X可以被写为X＝[x₁,x₂,...,x_M]^T，其中M表示输入音频内容的声道数目(也对应于在音频内容中观察到的信号的数目)。矩阵X的每一行，例如x_j，是K维的向量，其中K是从音频内容的观察信号x_j获得的数目样本的数目。因此，矩阵X是M乘K的矩阵。在一些实施例中，可以从公式(3)中省略均值矩阵，并且协方差矩阵可以被简单地表示为C＝XX^T。

在PCA分析的第二步骤，可以确定所计算的协方差矩阵的特征向量和特征值，以获得主成分。特征向量V＝[v₁,v₂,...,v_M]可以被解释为主成分的方向，并且特征值可以Λ＝[λ₁,λ₂,...,λ_M]指示相应方向的强度(也对应于方差)，其中λ₁≥λ₂K≥λ_M。通常v₁和λ₁分别表示第一主成分的方向和该方向的强度(或方差)，并且v₂和λ₂分别表示第二主成分的方向和该方向的强度(或方差)，以此类推。一个成分的强度或方差的幅度可以与对应的特征值成正比。

一般而言，对输入音频内容的原始数据样本直接应用PCA并不适于源方向估计。仍然采用图1中的立体声信号的数据样本为例。通过对数据样本应用PCA，如图3所示，第一主成分的方向PCA1最可能位于方向d1和d2之间的某个位置。这是因为根据PCA分析，第一主成分应当指示所有数据样本的最强强度。第二主成分的方向PCA2与第一主成分正交，其也不是所期望的源方向。

鉴于以上，本文中提出了一种迭代加权的成分分析，而不是对数据样本直接地应用成分分析。利用迭代加权的成分分析，在多次迭代之后，从多个生成的主成分中选择的成分(通常是第一主成分)可以逐步地收敛至一个主导的源方向。

根据本文中公开的实施例，在多次迭代的每次迭代中，利用权值来加权数据样本中的每个数据样本。该权值(在下文中被称为调整权值)基于在每次迭代中生成的所选择的成分来确定，并且被用于调整该数据样本的幅度(或强度)。在一些实施例中，在每轮迭代中，接近于所选择的成分的数据样本用较高的权值来进行加权，而其他数据样本用较小的权值来加权。也就是说，被应用到每个数据样本的调整权值可以指示该数据样本的方向与第一主成分的方向的邻近度(也被称为相关度)。在下一轮迭代中，对经加权的数据样本执行成分分析，并且第一主成分可以移动至一个不同的方向，该方向可能更接近实际的源方向。

参照图3，期望将一个主成分的方向(例如，PCA1)移动至一个主导音频源的方向(例如，d1)。根据本文中所提出的解决方案，可以首先将较高的权值应用至与PCA1接近的数据样本，并且较小的权值可以被应用至其他数据样本。然后，在下一轮迭代中，对经加权的数据样本重新应用PCA分析。在这个示例中，重新生成的主成分的方向PCA1可以朝向方向d1旋转。在若干轮的迭代之后，PCA1可以收敛至d1，因而可以获得源方向。

在执行PCA的一些实施例中，所选择的成分可以是第一主成分，其指示在每次迭代中具有数据样本的最大方差的方向。通常如果在第一次迭代中选择第一主成分，由于加权过程，在随后的迭代中这个成分也可以是指示具有最大强度(方差)的方向的成分。在一些其他实施例中，还可以从生成的多个成分中选择其他成分用作权值确定的基础。使用具有较高方差的成分、诸如第一主成分，在一些使用情况中可以减少收敛的时间。

注意到在成分分析之后生成的成分的强度通常以降序顺序排列。例如，表示成分的强度的特征值以降序顺序被排列为Λ＝[λ₁,λ₂,...,λ_M]，其中λ₁≥λ₂K≥λ_M。所选择的成分可以是与特征值序列中的相同顺序的强度相对应的成分，尽管该成分的方向和强度的值在每次迭代后会改变。例如，在PCA分析的多次迭代中的每次迭代，总是选择第一主成分(具有特征值λ₁)用作更新调整权值的基础。

迭代加权的PCA的过程和权值的确定将在以下详细描述。

应当注意的是，本文中公开的示例实施例不旨在于限制如何执行成分分析，可以使用许多其他方法来生成能够良好地表示数据样本的多个成分。

在许多情况中，由于在成分(例如，所选择的成分)的左侧/右侧处的数据不对称性，迭代重加权过程通常可以使得重新生成的成分在若干次迭代之后逐步地收敛至一个实际的主导源方向。在所选择的成分两侧的数据样本严格对称的情况中，在对数据样本进行加权之后所选择的成分可能维持不变。在这种情况下，在一些实施例中，可以在多次迭代的一次迭代中向所选择的成分增加预定的偏移值，以便使得该成分保持朝向实际的源方向移动。将认识到，偏移值可以被设置为任何随机的较小增量，以便打破数据样本的对称性。

参考回图2，方法200然后行进至步骤203。在步骤203，基于所选择的成分来确定音频内容的源方向，以供从音频内容中分离音频源。

如关于步骤202所讨论的，在多次迭代之后，所选择的成分的方向可以逐步地收敛至音频内容中的主导的音频源的实际方向。相较于在第一次迭代中生成的所选择的成分的方向，该方向对于音频源分离而言是更可靠的，因为在若干轮PCA分析之后(数据样本在每次迭代中被加权)该方向变得越来越接近实际源方向。因此，在一些实施例中，音频内容的一个源方向被确定为由所选择的成分指示的方向。在一些实施例中，所选择的成分的幅度(或强度)也可以被确定为源方向的幅度(或强度)。

所确定的源方向可以被用于构建平移矩阵A，以便根据公式(1)和(2)中表示的混合模型来提取音频源。注意到，当根据以上讨论的迭代加权过程获得一个源方向时，在平移矩阵中包含的其他源方向可以通过其他方法来估计或者可以被初始化为随机值。在这种情况下，源方向的数目可以被预先确定。本文中公开的主题的范围在此方面不受限制。

在本文中公开的一些进一步的实施例中，以上讨论的迭代加权过程可以被迭代地执行以获得用于音频源分离的多个源方向。在每次迭代中，沿着先前获得的源方向的数据样本可以被掩蔽或者抑制，以便减少它们对下一个源方向的估计的影响。对多个源方向的确定将在以下被详细描述。

所提出的迭代加权的方向估计可以不仅适于立体声信号，而且也适于包括更高数目的声道的信号，诸如5.1环绕信号、7.1环绕信号等。对包括不同数目的声道的音频信号进行方向估计的差别在于PCA分析被应用到具有不同维度数目的协方差矩阵，这引起较小计算开销增加。例如，对于具有左声道和右声道的立体声信号，PCA被应用到对应的2乘2的协方差矩阵。而对于具有6个声道的5.1环绕信号，差别在于PCA被应用至对应的6乘6的协方差矩阵(如果在一些实际实施方式中低频增强(LEF)声道被丢弃，则是5乘5的协方差矩阵)。

图4描绘了根据本文中公开的一个示例实施例的用于确定音频内容的源方向的过程400的流程图。具体地，用于确定源方向的过程400基于如上所讨论的迭代加权方法200。过程400可以被认为是方法200中的步骤202和203的一个具体实施方式。

如所示出的，过程400开始于步骤401，其中利用调整权值来加权每个数据样本。在过程400的每次迭代中，要被加权的数据样本是从输入的音频内容获得的数据样本。在第一次迭代中，由于并未执行成分分析，并且尚未生成成分，在一个实施例中，所有数据样本的调整权值可以被初始地设置为1。

在本文中讨论的一些进一步的实施例中，每个数据样本的调整权值可以基于该数据样本的强度(在一些示例中是幅度或响度)而被初始化。这是因为具有更高强度的数据样本的方向更易区分，而接近多维空间中的坐标系的圆点的数据样本更易于受到噪声干扰并且对于方向估计而言可能不可靠。在一些实施例中，每个数据样本的调整权值可以与该数据样本的强度正相关。也就是说，数据样本的强度越高，调整权值越大。在一个示例中，数据样本p的调整权值可以被如下地初始化：

w_{p} = c {| p |}^{α_{1}} - - - (4)

其中w_p表示数据样本p的调整权值，|p|表示数据样本p的强度，α₁表示标度因数(scaling factor)，并且c表示用于避免或减少异常数据样本的影响的归一化系数。标度因数通常小于1。注意到，存在许多其他方法来基于数据样本的强度而初始化调整权值，并且本文中公开的主题的范围在此方面不受限制。

在过程400的第一次迭代中，可以利用相应的初始化的调整权值来加权原始的数据样本。在后续的迭代中，可以利用相应的更新后的调整权值来加权原始的数据样本，这将在以下被描述。

在步骤402，在每次迭代中分析经加权的数据样本以生成多个成分。

在一个实施例中，可以对经加权的数据样本应用PCA分析法以生成多个主成分。在一个示例中，在PCA分析期间计算的协方差矩阵可以被表示为如下：

C = (X - \overset{&OverBar;}{X}) {WW}^{T} {(X - \overset{&OverBar;}{X})}^{T} - - - (5)

其中W表示所有数据样本的调整权值矩阵，包含为相应数据样本确定的权值。

如以上所提及的，一个成分指示具有经加权的数据样本的方差的方向。在PCA分析之后生成的第一主成分指示具有经加权的数据样本的最大方差的方向，并且每个主成分彼此正交。

在步骤403，确定是否达到收敛条件。如果达到收敛条件(步骤403处的“是”)，迭代过程400行进至步骤405。如果未达到收敛条件(步骤403处的“否”)，过程400行进至步骤404。

在本文中公开的一些实施例中，收敛条件基于所生成的多个成分与经加权的数据样本的相关度。在这些实施例中，可以确定生成的多个成分中的每个成分与经加权的数据样本之间的相关度，并且将基于其来更新调整权值的所选择的成分的相关度与其他成分的相关度进行比较。在给定成分的强度和经加权的数据样本均归一化的情况中，相关度可以基于由该成分所指示的方向与经加权的数据样本的相应方向之间的差异角度来确定。较小的差异角度意味着数据样本接近给定成分，并且该数据样本与该给定成分之间的相关度较高。也就是说，该相关度与差异角度成反比。在一个示例中，给定成分与所有数据样本的相关度可以被计算为该给定成分与各个数据样本之间的差异角度的余弦值之和。对于所生成的多个成分中的每个成分，均可以计算对应的相关度。

当所选择的成分的相关度与其他成分的相关度之间存在较大差异(例如，大于阈值)，这意味着原始数据样本已经被适当地加权以使得所选择的成分被旋转至接近实际的主导源方向。在这种情况下，迭代过程400收敛。

在本文中公开的一些实施例中，如果在当前迭代中生成的多个成分相较于在先前迭代中生成的成分而言基本上维持不变，则确定迭代过程400可能收敛。

在本文中公开的一些其他实施例中，收敛条件可以基于预定数目的迭代，例如3、5、10等。如果执行了预定数目的迭代，则收敛条件满足并且过程400行进至步骤405。

注意到，迭代过程400可以基于任何其他收敛条件而收敛，并且本文中公开的主题的范围在此方面不受限制。

如果在步骤403达到收敛条件，过程400行进至步骤405，其中基于所选择的成分来确定音频内容的源方向。该步骤对应于方法200中的步骤203，为了简洁性在此省略描述。在步骤405之后，过程400结束。

如果迭代过程400在步骤403未收敛，过程400行进至步骤404。在步骤404，基于在当前迭代中在步骤402处生成的多个成分中所选择的成分，更新每个数据样本的调整权值。

在一个示例中，当对数据样本执行PCA分析时，所选择的成分可以是第一主成分。在其他示例中，所选择的成分可以是所生成的成分中的任何成分。

在下一次迭代的步骤401处的加权中使用经更新的调整权值。在本文中公开的一些实施例中，可以基于每个数据样本的方向与由所选择的成分指示的方向之间的相关度，确定用于该数据样本的调整权值。如以上所提及的，相关度可以基于两个方向之间的差异角度来确定。较大的相关度可以指示该数据样本接近所选择的成分，并且因而可以对该数据样本应用较高的调整权值。换而言之，调整权值与该相关度正相关。

在一个实施例中，可以利用指数函数来计算数据样本的调整权值，其可以被表示为如下：

w_{p}^{(i + 1)} = e^{- α_{2} {(1 - \frac{| p \cdot v^{(i)} |}{| p | | v^{(i)} |})}^{2}} - - - (6)

其中表示在第(i+1)次迭代中数据样本p的调整权值，并且i大于或等于1。v⁽ⁱ⁾表示在第i次迭代中生成的所选择的成分，例如，当执行PCA分析时是第一主成分。表示数据样本p与所选择的成分v⁽ⁱ⁾之间的相关度，其中|p·v⁽ⁱ⁾|表示该样本与该成分的内积。当示数据样本p和所选择的成分v⁽ⁱ⁾均被归一化时，|p·v⁽ⁱ⁾|表示该数据样本与该选择的成分之间的差异角度的余弦值。在公式(6)中，α₂表示标度因数，其通常是正的。

将理解的是，公式(6)被给出用于解释说明，并且存在许多其他方法来基于相关度确定调整权值，只要调整权值与相关度是正相关即可。

在一些进一步的实施例中，可以基于每个数据样本的强度，在每次迭代中进一步更新该数据样本的调整权值。也就是说，用于每个数据样本的调整权值可以不仅仅如在步骤401处所讨论的那样基于强度被初始化，还可以在步骤404处基于该强度进行更新。在一个示例中，调整权值可以被更新为基于相关度计算的权值与基于强度计算的权值的组合。

将理解的是，在过程400的多次迭代中的任一次迭代，给定数据样本的调整权值可以基于它与所选择的成分的相关度、它的强度或者前述的组合来确定。本文中公开的主题的范围在此方面不受限制。

注意到，在每次迭代中，经更新的调整权值在步骤401处被应用至输入音频内容的原始数据样本。通过迭代地更新相应数据样本的调整权值，接近于所选择的成分的数据样本可以用较高的调整权值进行加权，并且其他数据样本可以用较低的调整权值来进行加权。因此，所选择的成分可以被旋转至数据样本之中的实际源方向。

根据过程400，可以基于所选择的成分从数据样本中确定一个源方向。以图3为例。假设第一主成分是被用作更新调整权值的基础的所选择的成分。基于经迭代地加权的数据样本，第一主成分的方向PCA1朝向方向d1移动。在迭代过程400收敛之后，第一主成分的方向PCA1可以被认为是输入音频内容的一个源方向。

在许多使用情况中，音频内容中可能包含多于一个的音频源，并且期望估计所有音频源的源方向以用于后续源分离。在一些实施例中，过程400可以被迭代地执行多次以便在各个迭代中获得源方向。

在本文中公开的一些实施例中，在下一轮的源方向估计之前，可以利用权值(下文中被称为掩蔽权值)来掩蔽或抑制在先前获得的源方向周围的每个数据样本，以便减少它们对下一轮源方向的估计的影响，否则可能估计出相同或相似的源方向。原因在于根据音频信号的稀疏性假设，时频块中的每个数据样本通常属于一个主导的音频源(其对应于一个源方向)。如果一个数据样本被确定为与一个源方向相关，那么它可能不与其他源方向相关并且因此可以不用于估计其他源方向。

在本文中公开的一些实施例中，可以基于每个数据样本与先前获得的源方向之间的相关度，确定该数据样本的掩蔽权值。在一个实施例中，掩蔽权值可以与该相关度负相关。就此而言，相关度越高，掩蔽权值将被设置为越小的值。如此，对应的数据样本可以被抑制或掩蔽，并且在下一轮的源方向估计中可以从剩余数据样本中估计出另一个源方向。

仍然以图3作为示例。假设在第一轮的迭代加权源方向估计之后，第一主方向PCA1的方向收敛至方向d1，并且被认为是输入音频内容的源方向。为了估计另一个源方向，沿着方向d1的数据样本可以被抑制或者有时被完全地掩蔽。然后，在下一轮的源方向估计中，通过对剩余的数据样本重新应用如以上所讨论的迭代加权的成分分析(例如，PCA分析)，重新生成的第一主成分的方向可能将方向d2指示为音频内容的第二源方向。

图5描绘了根据本文中公开的一个示例实施例的用于确定音频内容的多个源方向的过程500的流程图。过程500可以是迭代过程，在每次迭代中可以估计出一个源方向。

如所示出的，过程500开始于步骤501，其中利用掩蔽权值来加权数据样本中的每个数据样本。在过程500的每次迭代中，在该步骤中要被加权的数据样本是从输入的音频内容获得的数据样本。在第一次迭代中，由于先前并未获得源方向，在一个实施例中，每个数据样本的掩蔽权值可以被初始地设置为1。也就是说，从音频内容获得的所有数据样本未被掩蔽或抑制。在后续的迭代中，每个数据样本的掩蔽权值将被更新，这将在以下被描述。经更新的掩蔽权值将在后续迭代中被用于对从音频内容获得的数据样本进行加权。

在步骤502，执行迭代加权过程以基于经加权的数据样本来确定源方向。

迭代加权过程可以是如参照图4描述的用于确定音频内容的源方向的过程400。注意的是，在迭代加权过程的加权步骤中，例如在步骤401中，调整权值被应用至由掩蔽权值加权后的数据样本。

在执行迭代加权过程之后，例如，在过程400结束之后，可以基于由相应掩蔽权值加权后的数据样本确定源方向。

过程500行进至步骤503，其中确定是否达到收敛条件。如果达到收敛条件(步骤503处的“是”)，迭代过程500结束。如果未达到收敛条件(步骤503处的“否”)，过程500行进至步骤504。

在本文中公开的一些实施例中，迭代条件可以基于在步骤501的加权之后的剩余数据样本的强度(或方差)。如果用于下一轮的方向估计的剩余数据样本的强度之和较小(例如，小于阈值)，那么迭代过程500收敛。

在本文中公开的一些实施例中，收敛条件可以基于针对数据样本确定的掩蔽权值。如果所有或大多数掩蔽权值较小(例如，小于阈值)，那么迭代过程500收敛。

在本文中公开的一些其他实施例中，收敛条件可以基于预定数目的迭代，例如3、5、10等。在一些情况下，音频源的数目可以被预先配置。由于音频源的数目对应于平移矩阵中的源方向的数目，在这些情况下，过程500中的迭代数目可以被设置为预先配置的音频源的数目，在每次迭代中获得一个源方向。当执行了预先配置的数目的迭代，收敛条件满足并且过程500结束。

注意到，迭代过程500可以基于任何其他收敛条件而收敛，并且本文中公开的主题的范围在此方面不受限制。

如果在步骤503达到收敛条件，过程500结束并且获得多个源方向用于在输入音频内容中的后续源分离。

如果在步骤503未达到收敛条件，过程500行进至步骤504。在步骤504，基于在步骤502获得的源方向来更新每个数据样本的掩蔽权值。经更新的掩蔽权值被用于在下一次迭代中在步骤501处的加权。

在本文中公开的一些实施例中，可以基于每个数据样本的方向与所获得的源方向之间的相关度来更新该数据样本的掩蔽权值。数据样本的方向与源方向之间的相关度可以以如以上关于数据样本的方向与成分指示的方向之间的相关度所讨论的那样类似的方式来进行估计。

在一个实施例中，该相关度可以基于数据样本的方向与源方向之间的差异角度。例如，数据样本p与源方向d之间的相关度可以被表示为其中|p·d|表示该样本与源方向的内积。当数据样本p与源方向d的幅度均被归一化时，|p·d|表示数据样本与源方向之间的差异角度的余弦值。

在本文中公开的一些实施例中，如果给定的数据样本与所获得的源方向之间的相关度较高，这意味着该数据样本可能属于该源方向中的音频源，因此对应的掩蔽权值可以被设置为从0到1中的较低值，以便使得这个数据样本从下一轮源方向估计中被掩蔽。否则，掩蔽权值可以被确定为从0到1中的较高值。

在本文中公开的一些实施例中，可以基于针对每个数据样本的相关度与预定阈值的差异来确定该数据样本的掩蔽权值。

在一个实施例中，基于该相关度与该阈值的比较结果，掩蔽权值可以被设置为二元值，例如可以被设置为0或1。在这个实施例中，当基于计算的相关度确定出数据样本位于在当前迭代中获得的源方向周围，可以利用掩蔽权值0来完全掩蔽这个数据样本。否则，通过应用掩蔽权值1来将数据样本维持用于下一次迭代。二元值的掩蔽权值可以被如下地确定：

w_{p}^{mask} = \{\begin{matrix} 0 & r &GreaterEqual; r_{0} \\ 1 & r < r_{0} \end{matrix} - - - (7)

其中表示数据样本p的掩蔽权值；r表示数据样本p的方向与所获得的源方向d之间的相关度，其在一个示例中可以被确定为并且r₀表示针对相关度的预定阈值。

根据公式(7)，如果给定的数据样本的相关度高于或等于该阈值，这意味着这个数据样本与已经确定的源方向高度相关，那么可以对该数据样本应用掩蔽权值0以便完全掩蔽该样本。如果给定的数据样本的相关度低于该阈值，那么可以通过应用掩蔽权值1来将这个数据样本维持不变。

在另一个实施例中，掩蔽权值可以被设置为范围从0到1的连续值。在一个示例中，可以通过相关度的S型函数(sigmoid函数)来确定连续的掩蔽权值，其可以被表示为如下：

w_{p}^{mask} = \frac{1}{1 + e^{β (r - r_{0})}} - - - (8)

其中表示数据样本p的掩蔽权值；r表示数据样本p的方向与所获得的源方向d之间的相关度，其在一个示例中可以被确定为r₀表示针对相关度的预定阈值；并且因数β定义了S型函数的形状，其通常可以是正的。

根据公式(8)中的S型函数，可以看出，如果给定的数据样本的相关度高于或等于该阈值，那么对应的掩蔽权值可以被计算为例如从0到1中较低值。在这种情况下，数据样本被严重地掩蔽。如果给定的数据样本的相关度低于该阈值，那么对应的掩蔽权值可以被计算为例如从0到1中较高的值。在这种情况下，数据样本被轻微地掩蔽。

应当注意的是，存在除了S型函数之外的许多其他函数用于设置连续的掩蔽权值，并且本文中公开的主题的范围在此方面不受限制。例如，基于相关度的线性函数可以被用于将数据样本的掩蔽权值设置为从0到1中的连续值。

从以上可以看出，当确定所有数据样本的掩蔽权值时，阈值r₀可以被设置为这样的值，该值使得沿着先前确定的音频源的方向上的数据样本可以被完全地掩蔽，而来自其他音频源的数据样本不被抑制。在一个示例中，基于对先前获得的源方向与相应的数据样本的方向之间的相关度的分析，阈值r₀可以被设置为固定值。

在本文中公开的一些实施例中，可以基于先前确定的源方向与各个数据样本的方向之间的相关度的分布来确定阈值r₀。

图6描绘了根据本文中公开的一个示例实施例的源方向与数据样本的方向之间的相关度的分布的示意图。在图6中所考虑的数据样本可以是在图1和图3中描绘的那些。如所看出的，图6中示出的曲线(a)中存在两个不同的波峰61和62，分别对应于两个音频源。接近于相关度r＝1的波峰61表示沿着已经检测到的源方向d1的数据样本，并且另一个波峰62表示尚未被检测的源方向d2中的另一个源。将理解的是，如果音频内容中包含多于两个的音频源，则该分布中将存在多于两个的波峰。

在本文中公开的一些实施例中，可以通过相关度分布中最右侧的两个波峰(一个对应于已检测的源方向，并且另一个对应于最靠近所检测的这个源方向的源方向)来确定阈值r₀。例如，阈值r₀可以被设置为两个波峰的相关度之间的随机值。将理解的是，可以通过该分布中的其他不同波峰来确定该阈值，并且本文中公开的主题的范围在此方面不受限制。

在本文中公开的一些其他实施例中，由具有最高相关度的两个波峰(例如，接近于r＝1的这些波峰)中的每个波峰可以被拟合为高斯模型，分别由w₁G(x|μ₁,σ₁)和w₂G(x|μ₂,σ₂)表示。μ_i和σ_i是这两个高斯模型的均值和标准差，并且w₁和w₂是对应的先验知识(直观地是两个波峰的高度)。在一个实施例中，基于贝叶斯(Bayesian)理论，r₀可以被选择为给出最小误差率的点。例如，可以通过以下公式解出r₀：

w₁G(x|μ₁,σ₁)＝w₂G(x|μ₂,σ₂) (9)

在一个示例中，r₀可以被计算为0.91。如图6所示，曲线(b)描绘了用于确定二元值的掩蔽权值的函数。在这个示例中，当数据样本的相关度与先前获得的源方向之间的相关度大于或等于阈值0.91时，掩蔽权值被设置为0。否则，掩蔽阈值被设置为1。图6中示出的曲线(c)描绘了用于确定连续的掩蔽权值的函数。在这个示例中，掩蔽权值在从0到1的范围中是连续的。当相关度大于或等于阈值0.91时，掩蔽权值被设置为相对高的值。否则，掩蔽阈值可以被设置为较低的值。

以上描述了对掩蔽权值的确定。将理解的是，在过程500中要被执行的多次迭代中的每次迭代，可以将数据样本的掩蔽权值可以基于公式(7)被更新为二元制、或者可以基于公式(8)被更新为连续值。本文中公开的主题的范围在此方面不受限制。

注意到，在过程500的每次迭代中，经更新的掩蔽权值在步骤501处被应用至输入音频内容的原始数据样本。在过程500的每次迭代中，在步骤502获得一个源方向。当过程500收敛时，可以从音频内容中检测出多个源方向。

在本文中公开的一些实施例中，可以基于多个检测到的源方向以及源方向的数量来执行音频源分离。检测到的源方向的数量可以指示要被分离的音频源的数量。

基于公式(1)和(2)中示出的混合模型，检测到的源方向可以被用于构建平移矩阵A，每个源方向对应于该矩阵中的一列。源方向可以是M维向量，其中M表示在输入音频内容中观察到的单声道信号的数量。假设从音频内容中检测出N个源方向。平移矩阵A然后可以被构建为M乘N的平移矩阵。利用构建的平移矩阵A，可以通过许多方法来合理地估计出未知的源信号S(t)。

在一个示例实施例中，可以通过直接地对平移矩阵A求逆来估计源信号S(t)，例如根据S(t)＝A^-1X(t)。在这个实施例中，通过音频内容的直达和环境分解，已经移除了非相关分量。

在另一个示例实施例中，如果平移矩阵A是不可逆的或者如果音频内容X(t)仍然包含一些噪声/环境分量，可以通过最小化||X(t)-AS(t)||²来估计源信号S(t)。

在又一个示例实施例中，平移矩阵A可以被用于初始化用于音频源分离的频谱参数或空间参数，并且可以通过例如非负矩阵分解(NMF)来重新改进平移矩阵A以及估计音频源信号。

将理解的是，检测到的源方向以及源方向的数量可以被用于协助输入音频内容的音频源分离。基于检测到的源方向，可以采用当前已知的或未来开发的任何方法用于音频源分离。本文中公开的主题的范围在此方面不受限制。

在多个检测到的源方向之中，一些源方向可能对应于同一个音频源，尽管采用了以上描述的掩蔽权值来避免这个问题。在本文中公开的一些实施例中，指向同一个音频源的冗余源方向可以被丢弃。

如果比较对应于同一个源的方向的角度的话，它们可能仍然具有一些差别。这在复杂的实际音频信号中是可能发生的。例如，当一个源正在移动(这意味着这个源的源方向不是静止的)时、或者当该源受到噪声或其他信号的严重干扰时(这意味着沿着实际源方向的数据样本的包络较大)，针对同一个源可能检测出两个或多个方向。通过分析这些方向之间的相关度或者角度而将它们进行合并可能并不有效，因为相关度或角度的阈值难以调谐。在一些情况下，相比针对同一个源检测到的多个方向，一些个体音频源可能彼此更加靠近。

在本文中公开的一些进一步实施例中，应用了音频内容的增量式预先下混音(pre-demixing)来修剪获得的源方向，以便丢弃冗余源方向。音频内容的预先下混音涉及从音频内容中分离音频源，这与以上描述的那些类似。在这些实施例中，除了丢弃的源方向之外的所获得的源方向可以被确认用于随后处理中的实际源分离。

具体地，由于在音频内容中可能总是存在至少一个音频源，首先可以从检测到的源方向中选择至少一个源方向作为确认源方向。确认源方向可以不被丢弃并且可以用于实际的源分离。将通过音频内容的预先下混音，执行若干次迭代来检测其余的源方向中的任一源方向是冗余源方向或者是确认源方向。

在本文中公开的一些实施例中，对于除了确认源方向之外的其余源方向中的一个给定的源方向，基于确认源方向和该给定源方向来预先下混音音频内容，以便从音频内容中分离音频源。这里的音频源分离基于由确认源方向和给定源方向构建的平移矩阵，这类似于以上讨论的音频源分离的处理。在通过预先下混音来分离音频源之后，可以确定所分离的音频源之间的相似度，用以评估在给定源方向被用于音频源分离时是否获得重复的音频源。如果确定引入了重复的音频源，那么该给定源方向可能是冗余源方向并且因而可以被丢弃。否则，给定源方向可以被确定为是确认源方向。对于检测到的源方向中的任一其他源方向，可以迭代地执行相同的过程。

在一个实施例中，如果检测到的源方向在先前的迭代中被确定为是确认源方向，这个确认源方向可以连同先前确定的确认源方向一起用于下一次迭代中的音频内容的预先下混音。也就是说，可以存在一个确认方向池，该确认方向池被初始化为具有从多个检测到的源方向中选择出的一个源方向。被验证为是确认源方向的任何源方向可以被添加到这个池中。否则，该源方向可以被丢弃。在所有检测的源方向被验证之后，维持在确认方向池中的源方向可以被用于音频内容的后续源分离。

图7描绘了根据本文中公开的一个示例实施例的用于从多个检测的源方向中确定确认源方向的过程700的流程图。

如所示出的，过程700开始于步骤701，其中将确认方向池初始化为具有从检测到的源方向中选择出的源方向。

在一个示例实施例中，可以随机地选择初始化的源方向。在另一个示例实施例中，可以基于检测到的源方向的强度来选择初始化的源方向。例如，可以选择在检测到的源方向中具有最高强度的源方向。在又一个示例实施例中，可以选择具有与数据样本之间的最高相关度的源方向。本文中公开的主题的范围在此方面不受限制。

在步骤702，从剩余源方向中选择候选源方向。剩余源方向是除了被包含在确认方向池中的源方向以及被丢弃的源方向之外的检测到的源方向。

在一个示例实施例中，可以从剩余源方向中随机地选择候选源方向。在另一个示例实施例中，可以将剩余源方向中与最高强度对应的源方向选择作为候选源方向。在又一个示例实施例中，可以从剩余源方向中选择具有与数据样本之间的最高相关度的源方向作为候选源方向。本文中公开的主题的范围在此方面不受限制。

在步骤703，基于确认方向池中的源方向和候选源方向来预先下混音音频内容，以从音频内容中分离音频源。确认源方向以及候选源方向被用于构建平移矩阵，以供音频内容的预先下混音。如以上所描述的，可以基于构建的平移矩阵来执行源分离。

在步骤704，确定候选源方向是否是冗余源方向。这个步骤的确定基于步骤703的预先下混音结果。

在一个实施例中，可以确定分离的音频源之间的相似度，并且将该相似度用于评估在候选源方向被添加到平移矩阵中用于源分离时是否获得相同的音频源。如果分离的源之间的相似度高于阈值，或者比在过程700的先前迭代中确定的相似度高得多，这意味着相同的音频源被引入并且因此该候选源方向是冗余源方向。

可以采用任何当前存在的或未来开发的方法用于确定音频源信号的相似度，并且本文中公开的主题的范围在此方面不受限制。例如，可以估计分离的音频源之间的频谱相似度。

附加地或备选地，为了判断候选源方向是否被确认为能够用于源分离，可以确定在预先下混音之后获得的分离的音频源的能量。如果这些能量中的一个或一些能量是异常的，候选源方向可能是冗余源方向。否则，候选源方向可以被添加至确认方向池。

附加地或备选地，当候选源方向被添加到平移矩阵中时，如果平移矩阵的逆矩阵、例如矩阵A^-1在音频内容的预先下混音期间变成病态(ill-conditioned)，候选源方向可能是冗余源方向。逆矩阵的病态可能使得分离的源方向的能量或者逆平移矩阵的条目值变为异常。就此而言，候选源方向可能不被确定为是用于候选音频源分离的确认源方向。

如果候选源方向被确定为冗余源方向(步骤704处的“是”)，过程700行进至步骤706。在步骤706，丢弃候选源方向。过程700然后继续行进至步骤707。

如果候选源方向不被确定为冗余源方向(步骤704处的“否”)，过程700行进至步骤705。在步骤705，将候选源方向添加到确认方向池中，作为确认源方向。过程700然后继续行进至步骤707。

在步骤707，确定所有检测的源方向是否被验证。如果所有检测的源方向中的每个源方向被确定为确认源方向或被丢弃，则过程700结束。否则，过程700返回步骤702，直至所有检测的源方向被验证。

在过程700被执行之后，包含在确认方向池中源方向可以被用于音频内容的音频源分离。要被分离的音频源的数量可以由此基于确认源方向的数量来确定。

图8描绘了根据本文中公开的一个示例实施例的分离音频内容中的音频源的系统800的框图。该音频内容包括多个声道。系统800包括数据样本获取单元801，被配置为从音频内容的多个时频块中获得多个数据样本。系统800还包括成分分析单元802，被配置为在多次迭代中分析数据样本以生成多个成分，其中这些成分中的每个成分指示具有数据样本的方差的方向，并且其中在多次迭代的每次迭代中，利用权值来加权数据样本中的每个数据样本，该权值基于多个成分中所选择的成分。系统800进一步包括源方向确定单元803，被配置为基于所选择的成分来确定音频内容的源方向，以供从音频内容中分离音频源。

在本文中公开的一些实施例中，在多次迭代的每次迭代中，所选择的成分可以指示具有数据样本的最高方差的方向。

在本文中公开的一些实施例中，成分分析单元802可以被配置为，针对多次迭代中的每次迭代：对数据样本中的每个数据样本进行加权；分析经加权的数据样本以生成多个成分；以及基于多个成分中的所选择的成分，确定在下一次迭代的加权中用于数据样本中的每个数据样本的权值。

在本文中公开的一些实施例中，成分分析单元802可以被配置为基于数据样本中的每个数据样本的方向与由所选择的成分指示的方向之间的相关度，确定用于该数据样本的权值。该权值与相关度正相关。

在本文中公开的一些实施例中，成分分析单元802可以被配置为基于数据样本中的每个数据样本的强度，确定用于该数据样本的权值。该权值与强度正相关。

在本文中公开的一些实施例中，系统800可以进一步包括成分调整单元，被配置为在多次迭代的一次迭代中将所选择的成分调整预定的偏移值。

在本文中公开的一些实施例中，上述权值是第一权值并且上述多次迭代是第一多次迭代。在这些实施例中，系统800可以进一步包括迭代执行单元，被配置为在第二多次迭代中执行第一多次迭代和确定以获得用于从音频内容中分离音频源的多个源方向。在第二多次迭代的每次迭代中，利用第二权值来加权数据样本中的每个数据样本，第二权值基于获得的源方向而被确定。

在本文中公开的一些实施例中，迭代执行单元可以被配置为针对第二多次迭代中的每次迭代：利用第二权值对数据样本中的每个数据样本进行加权；基于经加权的数据样本来执行第一多次迭代和确定，以获得源方向；以及基于源方向，确定在第二多次迭代的下一次迭代的加权中用于数据样本中的每个数据样本的第二权值。

在本文中公开的一些实施例中，迭代执行单元可以被配置为：基于数据样本中的每个数据样本的方向和源方向的相关度与预定阈值之间的差异，确定用于该数据样本的第二权值。第二权值与相关度负相关。

在本文中公开的一些实施例中，该阈值可以基于数据样本的方向与源方向之间的相关度的分布而被确定。

在本文中公开的一些实施例中，系统800可以进一步包括源方向修剪单元，被配置为通过基于所获得的源方向预先下混音音频内容来修剪所获得的源方向，以丢弃冗余源方向。

在本文中公开的一些实施例中，源方向修剪单元可以被配置为从源方向中选择源方向作为确认源方向；以及针对剩余的源方向中的给定源方向：基于确认源方向和给定源方向来预先下混音音频内容，以从音频内容中分离音频源，确定所分离的音频源之间的相似度，基于相似度确定给定源方向是冗余源方向或者是确认源方向，以及响应于确定给定源方向是冗余源方向而丢弃给定源方向。

为清晰起见，在图8中没有描绘出系统800的某些另外的部件。然而，应当理解，上文参考图2和4-7所描述的各个特征同样适用于系统800。而且，系统800中的各部件可以是硬件模块，也可以是软件单元模块等等。例如，在某些示例实施例中，系统800可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统800可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本文中公开的主题的范围在此方面不受限制。

图9描绘了适于用来实现本文中所公开的示例实施例的示例计算机系统900的示意性框图。如所描绘的，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。如所需要的，在RAM 903中，还存储有CPU 901执行各种过程等需要的数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本文中所公开的示例实施例，上文参考图2、4、5、和7描述的方法或过程可以被实现为计算机软件程序。例如，本文中所公开的示例实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法200或过程400、500或700所描述的过程的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。

一般而言，本文中所公开的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本文中所公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或前述的某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本文中所公开的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例将包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式压缩盘只读存储器(CD-ROM)、光存储设备、磁存储设备，或前述的任意合适的组合。

用于实现本文中所公开的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以被分布在被特定编程的设备，这些设备通常在本文中可以被称为“模块”。这些模块的软件分组部分可以以任何具体计算机语言来编写并且可以是单片集成代码库的一部分，或者可以被开发成多个离散代码部分，诸如通常以面向对象的计算机语言来开发。此外，模块可以跨多个计算机平台、服务器、终端、移动设备等来分布。给定的模块甚至可以被实施为使得所描述的功能由单个处理器和/或计算机硬件平台来执行。

如本申请中所使用的，术语“电路装置”指的是以下的所有：(a)仅硬件电路实现方式(诸如仅模拟电路装置和/或仅数字电路装置的实现方式)以及(b)与电路和软件(和/或固件)的组合，诸如(如果可用的话)：(i)与处理器的组合或(ii)处理器/软件(包括数字信号处理器)、软件和存储器的部分，这些部分一起工作以使得装置(诸如移动电话或服务器)执行各种功能，以及(c)电路，诸如微处理器或微处理器的一部分，其需要软件或固件用于操作，即使软件或固件不是物理存在的。此外，本领域技术人员已知的是，通信媒介通常体现计算机可读指令、数据结构、程序模块或模块化数据信号中的其他数据，该数据信号诸如载波或其他传输机制，并且通信媒介包括任何信息传送媒介。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务和并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制本文中公开的主题或权利要求的范围，而应解释为对可以针对特定实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对本文中所公开的前述示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本文中所公开的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本文中所公开的这些实施例的技术领域的技术人员将会想到此处阐明的其他实施例。

由此，本主题可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本文中公开的主题的某些方面的某些结构、特征和功能。

EEE 1.一种估计多声道音频内容中的源方向和源数目的方法，包括：

·在多次迭代中对音频内容的数据样本应用迭代加权的PCA分析，以便检测第一源方向；

·对数据样本应用相应的掩蔽权值并且在多次迭代中对经加权的数据样本应用迭代加权的PCA分析，以便检测更多的源方向；以及

·预先下混音音频内容以修剪检测到的源方向并且据此估计源数目。

EEE 2.根据EEE 1的方法，迭代加权的PCA分析包括以下步骤：

·步骤1：在多维空间中表示数据样本，并且对数据样本应用PCA分析或加权的PCA分析以找到第一主成分的方向；

·步骤2：更新每个数据样本的权值，并且利用相应的经更新的权值来对数据样本进行加权；

·步骤3：对经加权的数据样本重新应用PCA分析以找对对应的主成分；以及

·步骤4：多次重复执行步骤2和3直至达到收敛。

EEE 3.根据EEE 2的方法，每个数据样本的权值正相关于该数据样本与在先前迭代中检测到的第一主成分之间的相关度。

EEE 4.根据EEE 2或3的方法，每个数据样本的权值另外地基于该数据样本的幅度或能量。

EEE 5.根据EEE 2的方法，以随机的较小增量向量来调整检测到的主成分。

EEE 6.根据EEE 1的方法，每个数据样本的掩蔽权值负相关于该数据样本与检测到的源方向之间的相关度，并且基于根据该源方向与这些数据样本之间的相关度的统计分布计算得到的阈值来确定掩蔽权值。

EEE 7.根据EEE 6的方法，基于将相关度分布中最接近于相关度r＝1的(例如，在最右侧的)两个峰值，通过将两个峰值中的每个峰值拟合为具有峰值的高度作为先验知识的高斯模型并且针对最小误差率来求解公式(9)，来确定该阈值。

EEE 8.根据EEE 1的方法，修剪检测到的源方向包括：

·步骤a：用检测到的源方向中最显著的源方向(例如，基于它们的强度)来初始化确认方向池；

·步骤b：在剩余的源方向中选择候选源方向(通常是其中最显著的源方向)并且将所选择的源方向添加到确认方向池；

·步骤c：通过使用确认方向池中的源方向来对音频内容执行预先下混音操作，以便从音频内容中提取出相应的音频源；

·步骤d：验证提取出的音频源是否是相同的或者它们的能量是否是异常的；

·步骤e：如果步骤d处为是，则从确认方向池中移除候选源方向；否则，将候选源方向维持在确认方向池中；以及

·步骤f：重复步骤b至e，直至所有检测到的源方向被验证。

将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种分离音频内容中的音频源的方法，所述音频内容包括多个声道，所述方法包括：

从所述音频内容的多个时频块中获得多个数据样本；

在多次迭代中分析所述数据样本以生成多个成分，其中所述成分中的每个成分指示具有所述数据样本的方差的方向，并且其中在所述多次迭代的每次迭代中，利用权值来加权所述数据样本中的每个数据样本，所述权值基于所述多个成分中所选择的成分；以及

基于所选择的成分来确定所述音频内容的源方向，以供从所述音频内容中分离音频源。

2.根据权利要求1所述的方法，其中在所述多次迭代的每次迭代中，所选择的成分是指示具有所述数据样本的最高方差的方向的成分。

3.根据权利要求1或2所述的方法，其中在多次迭代中分析所述数据样本以生成多个成分包括：

针对所述多次迭代中的每次迭代：

对所述数据样本中的每个数据样本进行加权；

分析经加权的数据样本以生成多个成分；以及

基于所述多个成分中的所选择的成分，确定在下一次迭代的所述加权中用于所述数据样本中的每个数据样本的权值。

4.根据权利要求3所述的方法，其中确定用于所述数据样本中的每个数据样本的权值包括：

基于所述数据样本中的每个数据样本的方向与由所选择的成分指示的方向之间的相关度，确定用于所述数据样本的权值，

其中所述权值与所述相关度正相关。

5.根据权利要求3所述的方法，其中确定用于所述数据样本中的每个数据样本的权值包括：

基于所述数据样本中的每个数据样本的强度，确定用于所述数据样本的权值，

其中所述权值与所述强度正相关。

6.根据权利要求1或2所述的方法，进一步包括：

在所述多次迭代的一次迭代中将所选择的成分调整预定的偏移值。

7.根据权利要求1或2所述的方法，其中所述权值是第一权值并且所述多次迭代是第一多次迭代，并且其中所述方法进一步包括：

在第二多次迭代中执行所述第一多次迭代和所述确定以获得用于从所述音频内容中分离音频源的多个源方向，

其中在所述第二多次迭代的每次迭代中，利用第二权值来加权所述数据样本中的每个数据样本，所述第二权值基于获得的源方向而被确定。

8.根据权利要求7所述的方法，其中在第二多次迭代中执行所述第一多次迭代和所述确定包括：

针对所述第二多次迭代中的每次迭代：

利用所述第二权值对所述数据样本中的每个数据样本进行加权；

基于经加权的数据样本来执行所述第一多次迭代和所述确定，以获得源方向；以及

基于所述源方向，确定在所述第二多次迭代的下一次迭代的所述加权中用于所述数据样本中的每个数据样本的所述第二权值。

9.根据权利要求8所述的方法，其中确定用于所述数据样本中的每个数据样本的所述第二权值包括：

基于所述数据样本中的每个数据样本的方向和所述源方向的相关度与预定阈值之间的差异，确定用于所述数据样本的所述第二权值，

其中所述第二权值与所述相关度负相关。

10.根据权利要求9所述的方法，其中所述阈值基于所述数据样本的方向与所述源方向之间的相关度的分布而被确定。

11.根据权利要求7所述的方法，进一步包括：

通过基于所获得的源方向预先下混音所述音频内容来修剪所获得的源方向，以丢弃冗余源方向。

12.根据权利要求11所述的方法，其中修剪所获得的源方向包括：

从所述源方向中选择源方向作为确认源方向；以及

针对剩余的源方向中的给定源方向：

基于所述确认源方向和所述给定源方向来预先下混音所述音频内容，以从所述音频内容中分离音频源，

确定所分离的音频源之间的相似度，

基于所述相似度确定所述给定源方向是冗余源方向或者是确认源方向，以及

响应于确定所述给定源方向是冗余源方向而丢弃所述给定源方向。

13.一种分离音频内容中的音频源的系统，所述音频内容包括多个声道，所述系统包括：

数据样本获取单元，被配置为从所述音频内容的多个时频块中获得多个数据样本；

成分分析单元，被配置为在多次迭代中分析所述数据样本以生成多个成分，其中所述成分中的每个成分指示具有所述数据样本的方差的方向，并且其中在所述多次迭代的每次迭代中，利用权值来加权所述数据样本中的每个数据样本，所述权值基于所述多个成分中所选择的成分；以及

源方向确定单元，被配置为基于所选择的成分来确定所述音频内容的源方向，以供从所述音频内容中分离音频源。

14.根据权利要求13所述的系统，其中在所述多次迭代的每次迭代中，所选择的成分指示具有所述数据样本的最高方差的方向。

15.根据权利要求13或14所述的系统，其中所述成分分析单元被配置为：

针对所述多次迭代中的每次迭代：

对所述数据样本中的每个数据样本进行加权；

分析经加权的数据样本以生成多个成分；以及

16.根据权利要求15所述的系统，其中所述成分分析单元被配置为基于所述数据样本中的每个数据样本的方向与由所选择的成分指示的方向之间的相关度，确定用于所述数据样本的权值，

其中所述权值与所述相关度正相关。

17.根据权利要求15所述的系统，其中所述成分分析单元被配置为基于所述数据样本中的每个数据样本的强度，确定用于所述数据样本的权值，

其中所述权值与所述强度正相关。

18.根据权利要求13或14所述的系统，进一步包括：

成分调整单元，被配置为在所述多次迭代的一次迭代中将所选择的成分调整预定的偏移值。

19.根据权利要求13或14所述的系统，其中所述权值是第一权值并且所述多次迭代是第一多次迭代，并且其中所述系统进一步包括：

迭代执行单元，被配置为在第二多次迭代中执行所述第一多次迭代和所述确定以获得用于从所述音频内容中分离音频源的多个源方向，

20.根据权利要求19所述的系统，其中所述迭代执行单元被配置为：

针对所述第二多次迭代中的每次迭代：

21.根据权利要求20所述的系统，其中所述迭代执行单元被配置为：基于所述数据样本中的每个数据样本的方向和所述源方向的相关度与预定阈值之间的差异，确定用于所述数据样本的所述第二权值，

其中所述第二权值与所述相关度负相关。

22.根据权利要求21所述的系统，其中所述阈值基于所述数据样本的方向与所述源方向之间的相关度的分布而被确定。

23.根据权利要求19所述的系统，进一步包括：

源方向修剪单元，被配置为通过基于所获得的源方向预先下混音所述音频内容来修剪所获得的源方向，以丢弃冗余源方向。

24.根据权利要求23所述的系统，其中所述源方向修剪单元被配置为：

从所述源方向中选择源方向作为确认源方向；以及

针对剩余的源方向中的给定源方向：

确定所分离的音频源之间的相似度，

25.一种分离音频内容中的音频源的计算机程序产品，所述计算机程序产品包括被有形地体现在机器可读介质上的计算机程序，所述计算机程序包含程序代码，所述程序代码用于执行根据权利要求1至12中任一项所述的方法。