CN105989852A

CN105989852A - 分离音频源

Info

Publication number: CN105989852A
Application number: CN201510085195.9A
Authority: CN
Inventors: 王珺
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-02-16
Filing date: 2015-02-16
Publication date: 2016-10-05
Also published as: US20180240470A1; JP6668366B2; EP3259755B1; US10176826B2; WO2016133785A1; CN107251138A; CN107251138B; JP2018508823A; EP3259755A1

Abstract

本文公开的示例实施例涉及音频内容中的源分离。公开了一种用于从音频内容分离源的方法，该音频内容是基于多个声道的多声道格式。该方法包括对音频内容在多个声道的每个声道上执行成分分析以生成多个成分，多个成分中的每个成分包括在全频带上的多个时频块，利用多个成分中的至少一个时频块生成至少一个支配源，并且基于支配源通过估计空间参数和频谱参数将源从音频内容分离。还公开了相应的系统和计算机程序产品。

Description

分离音频源

技术领域

本文公开的示例实施例通常涉及音频内容处理，更具体地，涉及用于从多声道格式的音频内容分离源的方法和系统。

背景技术

传统上，多声道格式(例如5.1、7.1等)的音频内容通过在工作室中混合不同音频信号而创建，或者通过在真实环境中同时记录声信号而生成。混合的音频信号或内容可以包括若干个不同的源。源分离是识别每个源的信息以便于例如通过单声道信号以及包括空间信息、频谱信息等的元数据重建音频内容的任务。

当使用一个或多个麦克风录制听觉场景时，有利的是取决于声音源的信息被分离，使得其适于被用于各种后续音频处理任务。一些示例可以包括用于各种目的(例如，自动语音识别)的空间音频编码、重混/重构、3D声音分析以及合成、信号增强/噪声抑制。因此，可以通过成功的源分离实现改进的通用性和更好的性能。当没有包含在采集过程中的源的先验信息可用时(例如，录制设备的属性、空间的声特性等)，分离过程可以被称为盲源分离(BSS)。

常规地，用于诸如高斯混合模型(GMM)和非负矩阵分解(NMF)之类的源分离的一些统计模型已经被广泛地应用以便于实现源分离。然而，这些算法(例如，GMM或NMF模型)仅收敛到目标函数的驻点。相应地，这些算法对于参数初始化在以下方面敏感：(1)最终结果强烈取决于参数初始化；(2)汇聚速度取决于参数初始化而明显变化；以及(3)算法不能识别实际数量的源信号，所以它们通常需要注入源数量、频谱库等先验信息。在常规的系统中，原始的源信息被用于指导(oracle)初始化，其对于多数真实世界的应用而言并不实际，因为这种信息通常并不可用。而且，在一些应用中，可能需要训练数据。然而，由于从训练数据中学习的源模型趋于在真实情形中较差地执行，这增大了实际中的困难。这是由于模型与在混音中的源的实际属性之间通常存在不匹配。

有鉴于此，本领域需要用于从音频内容分离源但不需要获知任何先验信息的方案。

发明内容

为了解决前述和其它潜在的问题，本文公开的示例实施例提出了用于从音频内容分离源的方法和系统。

在一个方面，本文公开的示例实施例提供了一种用于从音频内容分离源的方法，该音频内容是基于多个声道的多声道格式。该方法包括对音频内容在多个声道中的每个声道上执行成分(component)分析以生成多个成分。多个成分中的每个成分包括在全频带上的多个时频块(tile)，利用多个成分中的至少一个时频块生成至少一个支配源，并且基于支配源通过估计空间参数和频谱参数将源从音频内容分离。关于该方面的实施例进一步包括相应的计算机程序产品。

在另一个方面，本文公开的示例实施例提供了一种用于从音频内容分离源的系统，该音频内容是基于多个声道的多声道格式。该系统包括成分分析单元，其被配置为对音频内容在多个声道中的每个声道上执行成分分析以生成多个成分。多个成分中的每个成分包括在全频带上的多个时频块，源生成单元，其被配置为利用多个成分中的至少一个时频块生成至少一个支配源，以及源分离单元，其被配置为基于支配源通过估计空间参数和频谱参数将源从音频内容分离。

通过下面的描述，将理解的是依据本文公开的示例实施例，可以从音频源中被分离出一个或多个支配源。从音频内容分离的源是有利的，因为这种分离并不需要源或音频内容的先验信息(例如，分离纯粹基于盲源分离)。具有诸如空间信息之类的元数据的重建的源可以被任何回放系统精确地播放，而不论换能器的数目(例如，立体声系统、5.1、7.1系统等)。此外，具有元数据的重建的源易于在后处理阶段被操纵及改进，并且作为结果，在几乎所有的声学系统(甚至是耳机)中音频内容的表现可以被适配为准确的，因而也是身临其境的。本文公开的示例实施例所实现的其它优点将通过以下描述而变得显而易见。

附图说明

通过参照附图的以下详细描述，本文公开的示例实施例的上述和其它目的、特征和优点将变得更容易理解。在附图中，本文公开的示例实施例将以示例以及非限制性的方式进行说明，其中：

图1图示了根据示例实施例的用于从音频内容分离源的方法的流程图；

图2图示了根据示例实施例的在整个成分上的时频块的聚类的示例；

图3图示了根据另一示例实施例的用于从音频内容分离源的方法的流程图；

图4图示了根据示例实施例的用于在空间中表示源的GUI的示图；

图5图示了根据示例实施例的用于从音频内容分离源的系统；以及

图6图示了适于实施本文公开的示例实施例的示例计算机系统的框图。

在全部附图中，相同或相应的附图标记指代相同或相应的部分。

具体实施方式

现在将参照附图中所示的各种示例实施例对本文公开的示例实施例的原理进行说明。应当理解，这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实施本文公开的示例实施例，而不意在以任何方式对范围进行限制。

本文公开的示例实施例假设作为输入的音频内容是例如为5.1、7.1或立体声等多声道格式的。换言之，针对音频内容提供至少两个声道。多声道音频内容可以被处理为具有诸如源的空间信息之类的元数据的多个单声道音频内容。与从原始音频内容分离源的需要诸如源的数量、频谱信息之类的先验信息的常规方式不同，本文公开的示例实施例旨在实现不具有任何先验信息的源分离，例如，盲源分离(BSS)。在空间音频采集的情况下的盲源分离由以下组成：将多声道混音信号分解成源信号并表示关于源的空间位置和混音参数的信息。

为了实现盲源分离，本文公开的示例实施例提出了用于从音频内容分离源的方法和系统。音频内容包括多声道格式的源。实施例将会在以下给出。

本文公开的示例实施例包括具有I个声道输入的音频内容，并且音频内容可以被表达为x_i(t),i＝1,…,I,t＝1,…T。音频可以在其短时傅里叶变换(STFT)域被处理，使得X_f,n＝[x_1,fn,…,x_I,fn]^T，其中f＝1,…,F是频段(frequency bin)指数，并且n＝1,…,N是时间帧指数。音频内容的混音模型可以被表示为以下的矩阵形式：

X_fn＝C_fns_fn+b_fn (1)

其中s_fn＝[s_1,fn,…,s_j,fn,…,s_J,fn]^T表示指示J个源的STFT的频谱参数，C_fn＝[c_ij,fn]_ij表示可以是取决于频率的和时变的空间参数，并且b_fn＝[b_1,fn,…,b_I,fn]^T表示附加的噪声。

等式(1)解释了音频内容可以被诸如频谱参数和空间参数之类的参数以及一些噪声描述。

首先参照图1，其示出了根据本发明的示例实施例的用于从音频内容分离源的方法100的流程图。

在本文公开的一个示例实施例中，在步骤S101，在音频内容上执行成分分析。应当留意的是，可以使用若干个成分分析方法来执行步骤S101，仅通过示例的方式，这种方法可以包括但不限于主成分分析(PCA)、独立成分分析(ICA)、B格式分析等。

在本文公开的一个示例实施例中，PCA方法被采用，其在以下被详细说明。主成分分析(PCA)使得原始坐标系能够被旋转，使得新的坐标系的轴线指向数据的差异度最高的方向。新变量的轴线被称为主成分并且被差异度排序：第一成分表示数据的差异度最高的方向，而第二成分的方向表示与第一成分正交的剩余差异度最高。这可以自然地被延伸而获得所需数量的成分，其一起跨越覆盖期待数量的差异度的成分空间。因为成分描述相对于原始坐标系的特定方向，每个成分多少都取决于每个原始变量：每个成分都是所有原始变量的线性组合。PCA使用正交变换来将多声道音频内容或可能关联的变量的信号转换为线性不相关联的信号的一组值作为主成分。

然而，应当注意的是，本文公开的示例实施例并不旨在限制如何执行成分分析，许多如以上所列的其它方法也可以被用来生成良好区分变量的多个成分。例如，通过假设子成分是非高斯信号并且它们彼此之间统计上独立，独立成分分析可以被用来将信号分离为附加的子成分。在该假设下，由多种方式执行ICA来估计C_fn的逆值(G_fn)并且随后通过s_fn＝G_fnX_fn获得独立成分。

对于通常的成分分析，输入音频内容具有I个声道，并且假设最主要的成分包含最多J个最支配的源，其被稀疏地分布在整个F频谱或频段(例如，在每个频段中仅存在一个源)。根据本文公开的示例实施例，在每声道中的每个时频(TF)块的模型可以被定义为环境信号、J个最支配的源中的一个(或没有)以及剩余较不支配的源之和，其中依照源的空间感知位置C_fn对源进行加权。

图2图示了根据示例实施例的在整个成分上的时频块的聚类的示例。图2的水平轴线表示离散示出的时间帧，并且垂直轴线表示频率指数。对于一个声道的每个时间帧，在步骤S101执行成分分析之后生成一些成分。例如，在图2中，示出了包括三个成分的时间帧210(n-1)，并且每个成分包括若干TF块，每个TF块表示频率范围。相似地，在时间帧210(n-1)的右边示出了包括三个成分的时间帧220(n)。

回到由图1图示的流程图，在步骤S102，在每个成分中利用TF块中的一些TF块生成多个支配源。一些步骤可以被用来执行步骤S102。在本文公开的一个示例实施例中，步骤S102的第一子步骤可以包括计算特征值和特征向量。

为了生成支配源，可能需要用于成分分析特征向量。基于以上描述的PCA模型，对于每个频带f＝1,…,F，例如通过计算多个声道之间的关联来计算相对于音频内容的协方差矩阵。产生的I*I协方差矩阵可以被合适的时间常数平滑化。随后执行特征向量分解以获得特征值λ_1,fn>λ_2,fn>…>λ_I,fn。在得到特征值之后，特征向量v_1,fn,v_2,fn,…,v_I,fn可以基于特征值分解被生成(在该说明书中，每个特征向量被标示为I维行向量)，其中第一特征向量v_1,fn涉及最支配的源。

特征向量表示在相应的成分中TF块的空间信息(例如，方向)。因此，具有特征向量足够接近(例如，在距离或角度方面的预定义阈值以内)的TF块可以被假设为属于相同的源。那些具有相近方向的TF块可以被聚类以用于对每个源构建频谱库。首先，特征向量的旋转模糊性(ambiguity)可以通过将每个特征向量的第一项赋予正值被移除，例如v_k(1)∈R⁺。随后，可以应用聚类和合并过程。聚类过程可以估计J个簇，并且合并过程可以合并彼此足够接近的多个簇为一个簇(这可以通过簇的质心之间的距离或角度测量，使得差异小于预确定的阈值为“足够接近”)，使得簇的数量，特别是支配源的数目，在合并过程之后将会是最多J个。此外，在每个簇中的TF块可以被用来构建每个相应的源的频谱库。在特定实施例中，可以应用K平均聚类方法以便于产生每个源的更准确的空间估计。在源构建之后，源的数目可以被确定，并且这些源可以被视为支配源。

现在聚类过程的具体阐述将在以下参考如图2所示的示例而给出。出于简易的目的，仅在图2中示出三个成分以及两个(潜在的)源。在通过例如使用PCA方法旋转坐标系之后，第一成分v_1,fn的TF块的特征向量可以被分析及聚类为两个群组，其中白色TF块属于源1，并且黑色TF块属于源2。为了估计第一成分，可以获得从TF块的特征向量到初始簇中心(例如，作为参考方向)的差异(距离或角度)，其中初始簇中心可以在旋转的坐标系中被指派有预定义值。随后，应用诸如K平均之类的迭代精细化方法以将F个TF块分割为J个簇，在其中每个观察属于具有最接近的平均值的簇。每个群组的簇质心可以在处理第一成分之后获得。

第二成分的聚类可以随后使用针对第一成分估计的质心被执行。一些约束可以被设定为使得在相同频段中的不同成分的块始终属于不同的源。这还可以被它们的余弦距离反映，因为它们如在PCA方法中定义的是彼此正交的。

而且，可以将一些过程应用以减弱环境噪声。首先，如果块以高于某阈值的差异从所有的质心偏离，可以将该块排除，因为这表示该块可能属于背景噪声，如在图2中以点线框标记的那些块。第二，聚类可以仅在最支配的成分(例如，最高的2或3个成分)上被执行，或在环境和直达分离之后在加权的支配成分上被执行。通过执行环境和直达分离，加权增益可以被估计为混音信号中的方向比率。该过程的细节被描述在申请号为201410357288.8、名称为“分解音频信号”的中国专利申请中，通过引用其整体被并入本文。在下文中，加权增益被表示为g_i,fn，其表示属于直达信号而不是环境信号的第i个成分的TF块的部分。

在本文公开的示例实施例中，为了在时间上跟踪每个支配源，如图2所示，在之前的帧(例如，在图2中的时间帧(n-1))估计的质心可以被计算为用于现在的帧(例如，在图2中的时间帧(n))中的TF块的聚类的初始质心。在本文公开的一个示例实施例中，之前的帧的移动平均可以被计算为用于现在的帧的初始质心。

在一个示例实施例中，加权的K平均聚类方法可以被用来获得对于每个支配源的更加准确的簇质心估计。更多的权重可以被指派给具有更高能量的TF块以用于估计质心。同时，更多的权重可以被指派给具有更高部分(以g_k,fn反映)属于源的TF块。因此，加权的K平均中的加权增益g_k,fnw_k,fn可以被确定为g_k,fn和归一化的特征值的乘积，如：

g_{k, fn} w_{k, fn} = g_{k, fn} \log (2 * \frac{λ_{k, fn}}{\min_{f} (λ_{k, fn})}) - - - (2)

在支配源在步骤S102被生成之后，在步骤S103，空间参数和频谱参数在步骤S103基于支配源被估计以用于源分离。

当执行如上所述的聚类过程时，特征向量的质心可以被估计。每个源j可以被指派有具有特征向量{v_k,fn}_j或加权的特征向量{g_k,fn·v_k,fn}_j的一簇TF块。每个簇是总块集合的非平凡的分割。因此，每个源的频谱参数的STFT可以被重建为块的总和，如：

{\tilde{s}}_{j, fn} = {g_{k, fn} \cdot v_{k, fn}}_{j} \cdot X_{fn} - - - (3)

每个源的空间元数据可以通过使用其特征向量的相应的质心被估计，其被表示为再归一化可以通过赋予的弗罗贝尼乌斯范数(Frobenius norm)而被应用，并相应地缩放该归一化步骤可以被用来排除琐碎的缩放不确定性(trivial scale indeterminacy)。作为结果空间参数C可以被估计为：

C = [{{\overset{&OverBar;}{v}}_{n}^{H}}_{j}] - - - (4)

图3图示了根据本发明的另一示例实施例的用于从音频内容分离源的方法的流程图。步骤S301至S303可以对应于参考图1在以上描述的步骤S101至S103，因而对于步骤S101至S103具体的阐述将不被重复。虽然一旦获得空间参数和频谱参数源就可以被分离并且音频内容可以被重建，存在一些附加的方法被用来对这些参数进行精细化。

在步骤S304，频谱参数和空间参数可以使用一些统计方法被精细化，这些统计方法诸如高斯混合模型(GMM)和非负矩阵分解(NMF)以便于实现盲源分离(BSS)的更佳结果。

在GMM方法中，每个源可以首先被表示为由有限集合的特征频谱形状驱动的随机变量的实现，例如本地功率频谱密度(PSD)。每个本地PSD描述了一些特定的声音场景。在GMM形式体系下，针对第j个音频源的模型Λ_j可以由对应于κ个本地PSD 的κ个状态组成。由于建模针对每个源执行，出于简化的目的，指数j将在下文中被省略。

在一个示例实施例中，第j个源的STFT可以被视为具有零均值和对焦协方差矩阵的随机高斯复向量。GMM通常被描述在Simon Arberet、Alexey Ozerov、Remi Gribonaval、Frederic Bimbot于2009年ICA发表的“Blind Spectral-GMM Estimation for UnderdeterminedInstantaneous Audio Source Separation”中，通过引用其整体被并入本文。

GMM随后可以被参数化为Λ＝{u_k,Σ_k}_k，其中u_k≥0是满足∑_ku_k＝1的每个高斯密度的权重。总共，第j个源的STFT的GMM可能性分布函数可以被写为：

P (s_{n} | Λ) = \underset{k}{Σ} u_{k} N (s_{n}; 0, Σ_{k}) - - - (5)

其中P表示可能性分布函数(PDF)，N(s；μ，Σ)表示具有平均向量μ和对焦协方差矩阵Σ的复高斯随机向量s的PDF，因而

N (s_{n}; 0, Σ_{k}) =

Π_{f} \frac{1}{{πσ}_{k, f}^{2}} \exp (- \frac{{| s_{fn} |}^{2}}{σ_{k, f}^{2}}) .

对于每个源j的GMM参数Λ_j通常使用一组训练数据被各自学会。在该特定实施例中，使用了从等式(3)中的混音估计的GMM参数基于优化最大可能性(ML)准则被学会：

Λ = \arg \underset{Λ}{m} axP ({\tilde{s}}_{j, fn}, Λ) - - - (6)

在一个示例实施例中，ML准则的优化可以利用期望最大化(EM)算法而获得。

因此，源的频谱GMM可以由获得。源分离可以利用自适应维纳滤波而执行：

s_{j, fn} = \underset{K}{Σ} γ_{K, n} G_{K, f} x_{i, fn} - - - (7)

其中K表示混音状态：作为所有源状态k_j∈{1,2,…,κ}的组合，并且γ_K,n表示在帧n的状态可能性，满足∑_Kγ_K,n＝1和：

γ_{K, n} = P (K | x_{i, fn}; A, Λ) &Proportional; u_{k} \underset{f}{Π} N (x_{i, fn}; 0, A \cdot Σ_{K, f} \cdot A^{H}) - - - (8)

Σ_{K, f} = diag {[{σ_{k_{j}, f}^{2}}]}_{j = 1}^{J} - - - (9)

因此维纳滤波G_K,f可以由下式给出：

G_K,f＝Σ_K,fA^H(AΣ_K,fA^H)^-1 (10)

其中A是混音矩阵并且其已经被在等式(4)中得出的C初始化。

在等式(7)中，计算所有K混音状态作为所有源状态的组合具有复杂度o(κ^J)。为了减小复杂度为与源数量O(κ·J)呈线性，每个源在时间n的最可能状态可以被下式估计：

{\tilde{k}}_{j} = \underset{{\tilde{k}}_{j}}{\arg \max} P (k | {\tilde{s}}_{j, fn}, Λ) - - - (11)

其中表示由等式(3)计算的基于PCA的源估计。因此，混音状态可以被简化为而不是所有可能状态的组合。

在本文公开的一个示例实施例中，在NMF方法中，利用NMF模型{W_j,H_j}源j的功率谱图可以被建模，使得|S_j|²≈W_jH_j。该基于NMF的模型可以很好地适用于复调，因为其基本上将源取为具有典型的频谱特征的基本分量之和。

期望最大化(EM)算法可以被应用以迭代地估计源参数{W_j,H_j}和混音参数A_fn。在常规方法中，这些参数利用随机数据被初始化，据称该算法可以非常缓慢并且其依赖于初始值收敛到本地最大值。

在一个示例实施例中，用于EM估计的参数利用在以下步骤中预学会的源来被计算。

初始化步骤：

1.基于等式(3)中重建的每个源的频谱参数的STFT计算源的协方差矩阵：

{\hat{R}}_{SS, fn} = {\tilde{s}}_{fn} {\tilde{s}}_{fn}^{H} - - - (12)

2.通过的对角元素确定源的功率谱图：

{\hat{Σ}}_{s, fn} = diag ({\hat{R}}_{SS, fn}) - - - (13)

3.基于NMF模型，

{\hat{Σ}}_{s_{j}, fn} \overset{Δ}{=} diag ([W_{j, fk} H_{j, kn}]),

初始化每个源j的NMF模型的非负矩阵：

W_{j} = W_{j} \frac{{(W_{j} H_{j})}^{- 2} {\hat{Σ}}_{s_{j}} * H_{j}^{H}}{{(W_{j} H_{j})}^{- 1} * H_{j}^{H}} - - - (14)

H_{j} = H_{j} \frac{W_{j}^{H} * {\hat{Σ}}_{s_{j}} {(W_{j} H_{j})}^{- 2}}{W_{j}^{H} * {(W_{j} H_{j})}^{- 1}} - - - (15)

4.经由等式(4)通过C初始化混音矩阵A_fn。

5.通过使得∑_i|A_ij,fn|²＝1归一化混音和能谱参数A_fn、{W_j,H_j}，并相应地缩放{W_j,H_j}。该步骤排除了琐碎的缩放不确定性。

6.随后去迭代EM估计，其中以下描述了一个迭代过程。

预期(一个步骤)：

1.精细化源的功率能谱

{\hat{Σ}}_{s_{j}, fn} = diag ([W_{j, fk} H_{j, kn}]) .

2.根据以下估计逆混音矩阵G_f,n：

{\hat{G}}_{f, n} = \{\begin{matrix} {\hat{Σ}}_{s, fn} A_{fn}^{H} {(A_{fn} {\hat{Σ}}_{s, fn} A_{fn}^{H} + Σ_{b, f})}^{- 1}, & (J &GreaterEqual; I) & (16) \\ {(A_{fn}^{H} Σ_{b, f}^{- 1} A_{fn} + {\hat{Σ}}_{s, fn}^{- 1})}^{- 1} A_{fn}^{H} Σ_{b, fn}^{- 1}, & (J < I) & (17) \end{matrix}

要注意的是，在欠定条件(J≥I)下可以应用等式(16)，并且在超定条件(J<I)下可以应用等式(17)，因为估计的协方差矩阵在J<I时可能不是可逆的。

3.根据以下计算音频源的协方差矩阵以及互协方差矩阵

{\hat{R}}_{S, fn} = {\hat{G}}_{f, n} (R_{X, fn} - Λ_{b, f}) {\hat{G}}_{f, n}^{H} - - - (18)

{\hat{R}}_{XS, fn} = X_{f, n} {\hat{s}}_{f, n}^{H} \approx R_{X, fn} {\hat{G}}_{f, n}^{H} - - - (19)

4.经由等式(13)更新源的功率能谱最大化(一个步骤)：

1.根据以下更新混音参数A_fn：

A_{fn} = {\hat{R}}_{XS, fn} {\hat{R}}_{S, fn}^{- 1} - - - (20)

2.经由等式(14)和(15)更新能谱参数。

3.通过使得∑_i|A_ij,fn|²＝1再归一化参数A_fn、{W_j,H_j}，并且相

应地缩放{W_j,H_j}。该步骤排除了琐碎的缩放不确定性。

与为混音参数和频谱参数随机地指派所选值的常规EM迭代过程相比，本文公开的示例实施例为以上所述的混音参数和频谱参数中的至少一个计算初始值，通过EM迭代过程对这些参数进行精细化从而在速度和准确度方面改进了性能。本文公开的示例实施例允许统计方法来避免较宽类的音频内容(例如，音乐、电影声效等)的缺乏典型训练数据的问题。其还允许专门化源模型为给定混音中的给定源的特定属性(例如，在电影中采用的特殊声效或特定乐器或乐器的组合)。本文公开的示例实施例也不被目标数据中的诸如麦克风类型、空间声学特性、声道失真等特定特性所影响。而且，可以实现更快的收敛速度，并且计算复杂度可以被控制。

在通过如以上所述的诸如GMM和NMF之类的方法对空间参数和频谱参数进行精细化，音频内容的源可以基于空间参数和频谱参数在图3中所示的步骤S305经由维纳滤波被重建。所重建的(支配)源以及它们以A反映的相应的位置一起将会被用于用户辅助源提取，如以下所述。

在步骤S306，所重建的源可以通过图形用户界面(GUI)被表示。换言之，所重建的源和它们相应的位置(以A反映)可以通过GUI向用户显示。示例GUI可以在图4中被示出，其中用户能够观察到(支配)源的空间位置，通过点击它们而收听它们的声音，选择意在被提取的一个或多个目标源，并且标记开始和结束时间。例如，如图4所示，3D空间可以被多个扬声器的位置所限定。然而，应当理解的是，诸如7.1.4环绕系统之类的一些系统能够构建3D空间，而诸如5.1环绕系统之类的一些其它系统仅能够构建2D空间。对于后者的情况，可以通过GUI在3D空间的底面显示音频源，这表示没有关于高度的信息被提供。

参照图4，重建的源401在另一重建的源402的左边被示出，并且用户可以点击重建的源401和402中的任意一个来收听它以进一步处理音频内容。如图4所示，重建的源401和402中的每一个被仿真为具有由若干具有不同深度的圆表示的空间位置。较深的圆(即着色较重的圆)可以表示源的较高的强度，其可以被理解为更接近源的空间位置。另一方面，较浅的圆(即着色较轻的圆)可以表示源的较低的强度，其可以被理解为远离源的空间位置。图4仅示出了源分离的仿真的示例时刻，并且重建的源的分布可以随时间而变化。附加地，空间信息可以被不同的颜色所显示。例如，较低频率的源可以被指派为蓝色色调，而较高频率的源可以被指派为红色色调。

通过GUI的源选择的输出结果作为“预期源快照”可以被参考，其包括以下关于预期源的信息中的至少一个：(1)频谱结构，(2)空间位置，以及(3)激活时间(源的开始及停止时间)。作为结果，源分离方法可以应用有明确的结构/位置/时间限制。预期源在精细化过程期间被加强。这可以是在收敛性能和速度方面比起使用混乱初始化的标准NMF/GMM方法而言的显著增强。

具有本文公开的示例实施例中包含的GUI，其允许按需求提取特定源，意味着预期源和它们相应的位置可以通过GUI被表示，使得用户能够在进一步的分离和精细化迭代被应用之前通过它们的声音和/或位置选择预期源。

具有以上所述的新颖BSS框架，在混音音频中的潜在的源可以通过使用本发明中说明的成分分析被学会。因为关于潜在源的信息基于每个簇被估计，空间和频谱信息可以被获得，因为对于诸如GMM和NMF方法之类的统计模型而言不需要训练数据或先验信息。换言之，本发明比起需要训练数据的常规BSS方法而言是有利的，因为其利用全盲方法而不需要预先训练参数并且因而不需要训练数据。

图5图示了根据本发明的示例实施例的用于从音频内容分离源的系统500。如图所示，系统500包括成分分析单元501，被配置为对所述音频内容在所述多个声道的每个声道上执行成分分析以生成多个成分，所述多个成分中的每个成分包括在全频带上的时频块；成分分析单元501从输入接收多声道格式的音频内容。系统500还包括源生成单元502，其被配置为利用多个成分中的至少一个时间频率片生成至少一个支配源，以及源分离单元503，其被配置为基于支配源通过估计空间参数和频谱参数将源从音频内容分离。

在一些示例实施例中，源生成单元502可以包括聚类单元，其被配置为将多个方向聚类为至少一个群组，每个群组包括多个时频块，该多个方向从多个成分中产生；以及跟踪单元，其被配置为通过在时间上跟踪群组生成支配源。在本文公开的示例实施例中，聚类单元可以被配置为将所有的成分中与初始值的差异在预定义的聚类阈值以内的方向聚类为群组。进一步在本文公开的示例实施例中，聚类单元可以包括质心估计单元，其被配置为基于所述多个时频块的直达性和所述多个时频块的能量级之一以及所述初始值估计所述群组的质心。在本文公开的一些示例实施例中，跟踪单元可以包括至少以下中的一个：前质心指派单元，其被配置为将前一时间帧的估计的质心指派为现在的时间帧的初始值；以及移动平均质心指派单元，其被配置为将之前的时间帧中估计的移动平均质心指派为用于现在的时间帧的初始值。

在一些其它示例实施例中，源分离单元503可以包括质心估计单元，其被配置为估计支配源的方向的质心；空间源分离单元，其被配置为基于质心在多个成分中的每个成分内估计时频块的空间参数；以及频谱源分离单元，其被配置为基于质心在多个成分中的每个成分内估计时频块的频谱参数。在本文公开的一些示例实施例中，源分离单元503可以包括：高斯混合模型参数计算单元，其被配置为基于频谱参数计算高斯混合模型参数；以及状态估计单元，其被配置为根据高丝混合模型参数、空间参数以及频谱参数在每个时间帧估计每个源的最可能状态。而且，源分离单元503可以包括：初始化单元，其被配置为执行混音参数和能谱参数的初始化过程；以及参数更新单元，其被配置为通过EM迭代过程更新能谱参数和混音参数。在本文公开的又一些示例实施例中，初始化单元可以包括至少是以下中的一个：混音参数初始化单元，其被配置为基于空间参数初始化混音参数；以及能谱参数计算单元，其被配置为基于频谱参数计算能谱参数。

在一些示例实施例中，该系统可以包括源重建单元，其被配置为基于支配源的频谱参数和空间参数重建音频内容的源；以及源表示单元，其被配置为通过图形用户界面表示所重建的源。

为了清楚起见，系统500的一些可选部件在图5中并未示出。然而应当理解的是，如上述参照图1至4所描述的特征均适用于系统500。此外，系统500的部件可以是硬件模块或软件单元模块。例如，在一些实施例中，系统500可以部分地或完全地以软件/或固件实现，例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地，系统500可以部分地或完全地基于硬件实现，例如作为集成电路(IC)、应用专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围并不局限于该方面。

图6示出了适于实施本文公开的示例实施例的示例计算机系统600的框图。如图所示，计算机系统600包括中央处理单元(CPU)601，其能够根据存储在只读存储器(ROM)602中的程序或从存储区608加载到随机存取存储器(RAM)603的程序而执行各种处理。在RAM 603中，当CPU 601执行各种处理等等时，还根据所需存储有所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此相连。输入/输出(I/O)接口605也连接到总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网之类的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等，根据需要安装在驱动器610上，使得从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本文公开的示例实施例，上文参考图1至图4描述的过程可以被实现为计算机软件程序。例如，本文公开的示例实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序包含用于执行方法100和/或300的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

一般而言，本文公开的各种示例实施例可以在硬件或专用电路、软件、逻辑、或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本文公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其它图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本文公开的示例实施例包括计算机程序产品，其包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为执行上文描述方法的程序代码。

在本公开的上下文中，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存储存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于执行本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其它可编程的数据处理装置的处理器，使得程序代码在被计算机或其它可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上或在一个或多个远程计算机或服务器之间分布而执行。

另外，尽管操作以特定顺序被描绘，但这并不应该被理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理可能是有利的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例火灾任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及这些实施例的技术领域的技术人员将会想到此处阐明的其它示例实施例。

相应地，本文公开的示例实施例可以被体现为本文描述的任意形式。例如，以下列举的示例实施例(EEE)描述了本发明的一些方面的一些结构、特征和功能。

EEE 1.一种用于从混音信号分离源的方法，混音信号由多个声道(至少两个不同的声道)组成，包括：

·获得一组彼此弱关联/不关联(或弱依赖/不依赖)的成分，该组成分基于多个音频信号而生成；

·通过利用成分的时频块的子组的空间一致性，利用成分的这些时频块的子组构建一组最支配的方向源；

·基于构建的最支配的方向源估计源参数，其中源参数包括空间参数(混音矩阵)以及源频谱参数，专门化源在目标混音中的统计特征，使得这些参数导致包括至少录制和编码可变性的可变性；

·初始化用于源分离迭代的源模型，以加速收敛速度，从而保持迭代由于任何混乱的初始值收敛到本地最大值，和/或强制特定的收敛目标。

EEE 2.根据EEE 1的方法，其中确定该组最支配的方向源包括：

·估计该组成分的TF块的空间参数；

·将具有空间参数的TF块聚类，合并非常接近的簇；

·沿时间跟踪每个簇；

·再归一化空间参数和频谱参数，并用簇构建最支配的方向源。

EEE 3.根据EEE 2的方法，其中在呢个成分中估计TF块的空间参数包括至少以下中的一个：

·计算多个音频信号的协方差矩阵的特征值分解(对于基于PCA的方法)，并指派每个PCA成分的TF块的特征向量作为它们的空间参数，并排除旋转不确定性；

·估计逆混音参数(对于基于ICA的方法)为每个ICA成分的空间参数，并排除旋转不确定性。

EEE 4.根据EEE 2的方法，其中将具有空间参数的TF块聚类包括：

·对于最支配的成分，计算TF块与它们的空间参数的距离，聚类块并估计簇质心；

·执行以下步骤一些迭代：对于较不支配的成分，聚类块与之前估计的质心，并且可以增加限制使得不同成分的TF块始终属于不同的簇。

EEE 5.根据EEE 4的方法，其中迭代被至少以下中的一个执行：

·最支配的成分；

·加权的成分应用有直达和环境分离产生的增益。

EEE 6.根据EEE 2的方法，其中聚类具有空间参数的TF块进一步包括：

·使用加权的K平均聚类方法，其中加权因子由TF块的能量和直达和环境分离产生的方向增益估计共同确定。

EEE 7.根据EEE 2的方法，其中沿时间跟踪每个簇包括至少以下中的一个：

·采用在前一帧估计的质心作为现在聚类的初始质心；

·采用在之前的帧估计的质心的移动平均作为现在聚类的初始质心。

EEE 8.根据EEE 1的方法，其中利用成分的时频块的子组构建该组最支配的方向源包括：

·为每个源指派沿着它们(加权的)空间参数的TF块的一个簇，这是所有块的非琐碎分割；

·估计源的空间参数为其相应的簇质心；

·通过应用其相应的空间参数到多个音频信号的能谱而恢复源能谱。

根据EEE 1的方法，其中基于构建的最支配的方向源估计源参数包括以下中的至少一个：

·基于优化最大可能性(ML)准则，使用恢复的源能谱以计算GMM参数；

·糊涂呀优化另一ML准则，在每个时间帧处估计每个源的最可能状态以通过减少可能的GMM状态的数目而加速计算。

EEE 10.根据EEE 1的方法，其中基于构建的最支配的方向源估计源参数包括以下中的至少一个：

·对于预期步骤的第一迭代，使用恢复的源能谱计算协方差矩阵，因而源的功率谱图包括矩阵的对角元素；

·刀御天元最大化步骤的第一迭代，使用NMF建模源的功率谱图，初始化每个源的非负矩阵，并且实用加权的特征向量初始化混音矩阵；

·归一化源参数以排除缩放不确定性；

·对于基于NMF的BSS利用以上初始化的模型参数继续下一EM迭代。

EEE 11.根据EEE 1的方法，其中为源分离迭代初始化源模型以强制特定的收敛目标包括以下中的至少一个：

·通过图形用户界面(GUI)表示每个源的重建的声音和位置(由混音参数反映)；

·在用户选择一个活多个目标源和/或标记它们的激活时间之后通过GUI创建预期源快照；

·应用获知的源分离迭代以基于预期源快照进一步精细化具有有明确的结构/位置/时间限制的至少一个的目标源。

应该理解的是，本文公开的示例实施例并不限于所公开的具体实施例，并且修改和其他实施例旨在被包括在所附权利要求的范围之内。尽管本文使用了特定术语，它们被用于通用的和描述性的意义而不是用于限制的目的。

Claims

1.一种从音频内容分离源的方法，所述音频内容是基于多个声道的多声道格式，所述方法包括：

对所述音频内容在所述多个声道的每个声道上执行成分分析以生成多个成分，所述多个成分中的每个成分包括在全频带上的时频块；

利用所述多个成分中的至少一个所述时频块生成至少一个支配源；以及

通过基于所述支配源估计空间参数和频谱参数，从所述音频内容分离所述源。

2.根据权利要求1所述的方法，其中生成至少一个支配源包括：

将多个方向聚类为至少一个群组，每个群组包括多个时频块，所述多个方向从所述多个成分中生成；以及

通过在时间上跟踪所述群组生成所述支配源。

3.根据权利要求2所述的方法，其中将所述方向聚类为至少一个群组包括：

将所有的所述成分中与初始值的差异在预定义的聚类阈值以内的所述方向聚类为所述群组。

4.根据权利要求3所述的方法，其中将所述方向聚类为至少一个群组包括：

基于所述多个时频块的直达性和所述多个时频块的能量级中的至少一个以及所述初始值估计所述群组的质心。

5.根据权利要求4所述的方法，其中通过在时间上跟踪所述群组生成所述支配源包括以下项中的至少一项：

将前一时间帧的估计的质心指派作为现在时间帧的所述初始值；以及

将之前的时间帧中估计的移动平均质心指派作为现在时间帧的所述初始值。

6.根据权利要求1所述的方法，其中通过估计空间参数和频谱参数从所述音频内容分离所述源包括：

针对所述支配源估计所述方向的质心；

基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述空间参数；以及

基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述频谱参数。

7.根据权利要求6所述的方法，其中通过估计空间参数和频谱参数从所述音频内容分离所述源进一步包括：

基于所述频谱参数计算高斯混合模型参数；以及

基于所述高斯模型参数、所述空间参数以及所述频谱参数在每个时间帧针对所述源中的每个源估计最可能状态。

8.根据权利要求6所述的方法，其中通过估计空间参数和频谱参数从所述音频内容分离所述源进一步包括：

执行混音参数和能谱参数的初始化过程；以及

通过EM迭代过程更新所述能谱参数和所述混音参数。

9.根据权利要求8所述的方法，其中执行所述初始化过程包括以下项中的至少一项：

基于所述空间参数初始化混音参数；以及

基于所述频谱参数计算能谱参数。

10.根据权利要求1所述的系统，其中所述方法进一步包括：

基于所述支配源的所述频谱参数和所述空间参数重建所述音频内容的源；以及

通过图形用户界面表示所重建的源。

11.一种从音频内容分离源的系统，所述音频内容是基于多个声道的多声道格式，所述系统包括：

成分分析单元，被配置为对所述音频内容在所述多个声道的每个声道上执行成分分析以生成多个成分，所述多个成分中的每个成分包括在全频带上的时频块；

源生成单元，被配置为利用所述多个成分中的至少一个所述时频块生成至少一个支配源；以及

源分离单元，被配置为通过基于所述支配源估计空间参数和频谱参数，从所述音频内容分离所述源。

12.根据权利要求11所述的系统，其中所述源生成单元包括：

聚类单元，被配置为将多个方向聚类为至少一个群组，每个群组包括多个时频块，所述多个方向从所述多个成分中生成；以及

跟踪单元，被配置为通过在时间上跟踪所述群组生成所述支配源。

13.根据权利要求12所述的系统，其中所述聚类单元被配置为将所有的所述成分中与初始值的差异在预定义的聚类阈值以内的所述方向聚类为所述群组。

14.根据权利要求13所述的系统，其中所述聚类单元进一步包括：

质心估计单元，被配置为基于所述多个时频块的直达性和所述多个时频块的能量级中的至少一个以及所述初始值估计所述群组的质心。

15.根据权利要求14所述的系统，其中所述跟踪单元包括以下项中的至少一项：

前质心指派单元，被配置为将前一时间帧的估计的质心指派作为现在时间帧的所述初始值；以及

移动平均质心指派单元，被配置为将之前的时间帧中估计的移动平均质心指派作为现在时间帧的所述初始值。

16.根据权利要求11所述的系统，其中所述源分离单元包括：

质心估计单元，被配置为针对所述支配源估计所述方向的质心；

空间源分离单元，被配置为基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述空间参数；以及

频谱源分离单元，被配置为基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述频谱参数。

17.根据权利要求16所述的系统，其中所述源分离单元进一步包括：

高斯混合模型参数计算单元，被配置为基于所述频谱参数计算高斯混合模型参数；以及

状态估计单元，被配置为基于所述高斯模型参数、所述空间参数以及所述频谱参数在每个时间帧针对所述源中的每个源估计最可能状态。

18.根据权利要求16所述的系统，其中所述源分离单元进一步包括：

初始化单元，被配置为执行混音参数和能谱参数的初始化过程；以及

参数更新单元，被配置为通过EM迭代过程更新所述能谱参数和所述混音参数。

19.根据权利要求18所述的系统，其中所述初始化单元包括以下项中的至少一项：

混音参数初始化单元，被配置为基于所述空间参数初始化混音参数；以及

能谱参数计算单元，被配置为基于所述频谱参数计算能谱参数。

20.根据权利要求11所述的系统，其中所述系统进一步包括：

源重建单元，被配置为基于所述支配源的所述频谱参数和所述空间参数重建所述音频内容的源；以及

源表示单元，被配置为通过图形用户界面表示所重建的源。

21.一种用于从音频内容分离源的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使得机器执行根据权利要求1至10中任一项所述的方法的步骤。