CN109074811A

CN109074811A - 音频源分离

Info

Publication number: CN109074811A
Application number: CN201780028007.6A
Authority: CN
Inventors: 王珺; 芦烈; 宾清原
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-04-08
Filing date: 2017-04-06
Publication date: 2018-12-21
Anticipated expiration: 2037-04-06
Also published as: WO2017176968A1; CN109074811B

Abstract

本文献描述一种用于从音频信道(302)提取音频源(301)的方法(100)。所述方法(100)包含基于来自源矩阵的混合矩阵并基于所述音频源(301)的幂矩阵更新(102)维纳滤波器矩阵。此外，所述方法(100)包含基于所述经更新维纳滤波器矩阵并基于所述音频信道(302)的自协方差矩阵来更新(103)所述音频信道(302)及所述音频源(301)的互协方差矩阵及所述音频信道(301)的自协方差矩阵。另外，所述方法(100)包含基于所述音频信道(302)及所述音频源(301)的所述经更新互协方差矩阵及/或基于所述音频源(301)的所述经更新自协方差矩阵来更新(104)所述混合矩阵及所述幂矩阵。

Description

音频源分离

技术领域

本文献涉及一或多个音频源与多信道音频信号的分离。

背景技术

音频信号的混合，特别是例如立体声，5.1或7.1音频信号的多信道音频信号，通常通过在演播室中混合不同的音频源来创建，或通过在真实环境中同时记录声学信号来产生。多信道音频信号的不同音频信道可被描述为多个音频源的不同总和。源分离的任务是识别导致不同音频信道的混合参数，并且可能反转混合参数以获得基础音频源的估计。

当没有关于多信道音频信号中涉及的音频源的先验信息可用时，源分离的过程可被称为盲源分离(BSS)。在空间音频捕获的情况下，BSS包含以下步骤：将多信道音频信号分解成不同的源信号，并提供关于音频源的起始位置与一或多个接收麦克风之间的混合参数、空间位置及/或声学信道响应的信息。

盲源分离及/或知情源分离的问题在各种不同的应用领域中是相关的，例如具有多个麦克风的语音增强，多信道通信中的串扰消除，多径信道识别及均衡，传感器阵列中的到达方向(DOA)估计，对用于音频及被动声纳的波束形成麦克风的改进，电影音频向上混合及重新创作，音乐重新创作，转录及/或基于对象的编码。

实时在线处理针对许多上述应用通常是重要的，例如用于通信及用于重新创作的应用等。因此，所属领域需要一种用于实时分离音频源的解决方案，这提出关于针对源分离系统的低系统延迟及低分析延迟的要求。低系统延迟要求系统支持循序实时处理(剪辑入/剪辑出)，而不需要大量的先行数据。低分析延迟要求算法的复杂性足够低以允许在给定实际计算资源的情况下进行实时处理。

本文献解决提供针对源分离的实时方法的技术问题。应注意，本文献中描述的方法适用于盲源分离，以及半监督或监督源分离，其中关于源及/或关于噪声的信息是可用的。

发明内容

根据方面，描述一种用于从I个音频信道提取J个音频源的方法，其中I，J>1。音频信道可例如由麦克风捕获，或可对应于多信道音频信号的信道。音频信道包含多个剪辑，每一剪辑包含N个帧，其中N>1。换句话说，音频信道可被细分为剪辑，其中每一剪辑包含多个帧。音频信道的帧通常对应于音频信号的摘录(例如，对应于20ms的摘录)，并且通常包含样本序列。

I个音频信道可表示为频域中的信道矩阵，并且J个音频源可表示为频域中的源矩阵。特定来说，可使用时域到频域变换(例如短期傅立叶变换)将音频信道从时域变换为频域。

所述方法包含(针对当前剪辑的帧n，针对至少一个频率仓f，并且针对当前迭代)基于混合矩阵并且基于J个音频源的幂矩阵更新维纳滤波器矩阵，所述混合矩阵适于提供来自源矩阵的信道矩阵的估计，所述J个音频源的幂矩阵指示J个音频源的频谱幂。特定来说，所述方法可针对确定针对当前剪辑的所有帧n以及针对所有频率仓f或针对频域的所有频带的维纳滤波器矩阵。针对每一帧n及针对每一频率仓f或频带意味着针对每一时间-频率块，可使用具有多个迭代的迭代过程来确定维纳滤波器矩阵，借此迭代地细化维纳滤波器矩阵的精度。

维纳滤波器矩阵适于提供来自信道矩阵的源矩阵的估计。特定来说，可将针对当前剪辑的帧n及针对频率仓f的源矩阵S_fn的估计确定为S_fn＝Ω_fnX_fn，其中Ω_fn是针对当前剪辑的帧n及针对频率仓f的维纳滤波器矩阵，且其中X_fn是针对当前剪辑的帧n及针对频率仓f的信道矩阵。因此，在用于确定针对帧n及针对频率仓f的维纳滤波器矩阵的迭代过程之后，可使用维纳滤波器矩阵来估计源矩阵。此外，使用逆变换，源矩阵可从频域变换到时域以提供J个源信号，特别是提供J个源信号的帧。

此外，所述方法包含，作为迭代过程的部分，基于经更新维纳滤波器矩阵并基于I个音频信道的自协方差矩阵，更新I个音频信道及J个音频源的互协方差矩阵并更新J个音频源的自协方差矩阵。针对当前剪辑的帧n的I个音频信道的自协方差矩阵可从当前剪辑的帧及从一或多个先前剪辑的帧及从一或多个未来剪辑的帧来确定。为此目的，可提供包含针对音频信道的历史缓冲器及先行缓冲器的缓冲器。可限制未来剪辑的数目(例如，限于一个未来剪辑)，借此限制源分离方法的处理延迟。

另外，所述方法包含基于I个音频信道及J个音频源的经更新互协方差矩阵及/或基于J个音频源的经更新自协方差矩阵来更新混合矩阵及幂矩阵。

可重复或迭代更新步骤以确定维纳滤波器矩阵，直到达到最大迭代次数或直到已经满足关于混合矩阵的收敛准则。作为此迭代过程的结果，可确定精确维纳滤波器矩阵，借此提供不同音频源之间的精确分离。

频域可细分为F个频率仓。另一方面，F个频率仓可分组或绑定到个频带，其中可在频带、频率仓上执行处理，或以部分在频带上及部分在频率仓上的混合方式执行处理。通过实例的方式，可针对F个频率仓中的每一者确定维纳滤波器矩阵，借此提供精确源分离。另一方面，可仅针对个频带确定I个音频信道的自协方差矩阵及/或J个音频源的幂矩阵，借此降低源分离方法的计算复杂度。

因而，维纳滤波器矩阵的频率分辨率可高于用于提取J个音频源的迭代方法内使用的一或多个其它矩阵的频率分辨率。通过这样做，可提供精确度与计算复杂度之间的改进折衷。在特定实例中，可使用频率仓f的分辨率处的混合矩阵并且仅使用频带的降低的分辨率处的J个音频源的幂矩阵来更新维纳滤波器矩阵用于频率仓f的分辨率。为此目的，可使用下文提及的更新公式

此外，可基于经更新维纳滤波器矩阵并基于I个音频信道的自协方差矩阵来更新I个音频信道及J个音频源的互协方差矩阵及J个音频源的自协方差矩阵可仅以频带的降低分辨率执行更新。出于此目的，维纳滤波器矩阵Ω_fn的频率分辨率可从频率仓f的相对高频率分辨率减小到频带的降低频率分辨率(例如，通过平均化属于一个频带的频率仓的对应维纳滤波器矩阵系数)。可使用下文提及的公式来执行更新。

此外，可基于I个音频信道及J个音频源的经更新互协方差矩阵及/或基于J个音频源的经更新自协方差矩阵来更新混合矩阵A_fn及幂矩阵

可基于包括噪声幂项的噪声幂矩阵来更新维纳滤波器矩阵，其中噪声幂项可随着迭代次数的增加而减小。换句话说，可在维纳滤波器矩阵内插入人工噪声，并且可在迭代过程期间逐渐减少人工噪声。作为结果，所确定的维纳滤波器矩阵的质量可增加。

针对当前剪辑的帧n及位于频带内的频率仓f，可基于或使用以下公式来更新维纳滤波器矩阵

其中Ω_fn是经更新维纳滤波器矩阵，其中是J个音频源的幂矩阵，其中A_fn是混合矩阵，且其中Σ_B是噪声幂矩阵(其可包括上文提及的噪声幂项)。上文提及的公式可特别用于情况I＜J。替代地，可基于或使用来更新维纳滤波器矩阵，特别是针对I≥J的情况。

可通过应用关于J个音频源的正交约束来更新维纳滤波器矩阵。通过实例的方式，可迭代地更新维纳滤波器矩阵以降低J个音频源的自协方差矩阵的非对角项的幂，以便使所估计的音频源相对于彼此更正交。特定来说，可使用梯度迭代地更新维纳滤波器矩阵(特别地，通过迭代地减小梯度)

其中是针对频带及针对帧n的维纳滤波器矩阵，其中是I个音频信道的自协方差矩阵，其中[ ]_D是包含在括号内的矩阵的对角矩阵，其中所有非对角条目被设置为零，并且其中∈是小的实数(例如，10^-12)。通过考虑并施加音频源彼此去相关的事实，可进一步改进源分离的质量。

I个音频信道及J个音频源的互协方差矩阵可基于或使用来更新，其中是针对频带及针对帧n的I个音频信道及J个音频源的经更新互协方差矩阵，其中是(经更新)维纳滤波器矩阵，且其中是I个音频信道的自协方差矩阵。以类似的方式，J个音频源的自协方差矩阵可基于来更新，其中是针对频带及针对帧n的J个音频源的经更新自协方差矩阵。

更新混合矩阵可包含基于针对帧n及针对频域的不同频率仓f或频带的J个音频源的自协方差矩阵来确定J个音频源的与频率无关的自协方差矩阵此外，更新混合矩阵可包含基于针对帧n及针对频域的不同频率仓f或频带的I个音频信道及J个音频源的互协方差矩阵来确定针对帧n的I个音频信道及J个音频源的与频率无关的互协方差矩阵然后，可基于或使用以与频率无关的方式确定针对帧n的混合矩阵A_n。

所述方法可包括基于I个音频信道的自协方差矩阵来确定频率相关的加权项e_fn。然后可基于频率相关的加权项e_fn确定与频率无关的自协方差矩阵及与频率无关的互协方差矩阵特别是以便更加重视音频源的相对较响亮的频率分量。通过这样做，可提高源分离的质量。

更新幂矩阵可包含基于或使用来针对频率仓f及针对帧n来确定针对第j个音频源的经更新幂矩阵项(∑_s)_jj,fn，其中是针对帧n及针对包含频率仓f的频带的J个音频源的自协方差矩阵。

此外，更新幂矩阵可包含使用幂矩阵的非负矩阵分解来确定针对J个音频源的频谱特征W及时间特征H。可基于针对第j个音频源的经更新幂矩阵项(∑_s)_jj,fn来确定针对第j个音频源的频谱特征W及时间特征H。可基于(∑_s)_jj,fn＝∑_kW_j,fkH_j,kn来确定针对第j个音频源的另一经更新幂矩阵项(∑_s)_jj,fn，其中k是特征的数目或指数。然后可使用针对J个音频源的另外经更新幂矩阵项来更新幂矩阵。幂矩阵的分解可用于对幂矩阵施加一或多个约束(特别是关于频谱置换)，借此进一步提高源分离方法的质量。

所述方法可包含使用针对紧接在当前剪辑之前的剪辑的帧(特别是最后一帧)确定的混合矩阵来初始化混合矩阵(在用于确定维纳滤波器矩阵的迭代过程的开始处)。此外，所述方法可包含基于针对当前剪辑的帧n的I个音频信道的自协方差矩阵并且基于针对紧接在当前剪辑之前的剪辑的帧(特别是最后一帧)确定的维纳滤波器矩阵来初始化幂矩阵。通过使用用于初始化针对当前剪辑的帧的迭代过程的针对先前剪辑所获得的结果，可提高迭代方法的收敛速度及质量。

根据另一方面，描述一种用于从I个音频信道提取J个音频源的系统，其中I，J>1，其中音频信道包含多个剪辑，每一剪辑包括N个帧，其中N>1。I个音频信道可表示为频域中的信道矩阵，并且J个音频源可表示为频域中的源矩阵。针对当前剪辑的帧n，针对至少一个频率仓f，以及针对当前迭代，所述系统适于基于混合矩阵并且基于J个音频源的幂矩阵更新维纳滤波器矩阵，所述混合矩阵适于提供来自源矩阵的信道矩阵的估计，所述J个音频源的幂矩阵指示J个音频源的频谱幂。维纳滤波器矩阵适于提供来自信道矩阵的源矩阵的估计。此外，所述系统适于更新I个音频信道及J个音频源的互协方差矩阵并更新J个音频源的自协方差矩阵，其基于经更新维纳滤波器矩阵并基于I个音频信道的自协方差矩阵。另外，所述系统适于基于I个音频信道及J个音频源的经更新互协方差矩阵及/或基于J个音频源的经更新自协方差矩阵来更新混合矩阵及幂矩阵。

根据另一方面，描述一种软件程序。所述软件程序可适于在处理器上执行，并且当在处理器上实行时，用于执行本文献中概述的方法步骤。

根据另一方面，描述一种存储媒体。所述存储媒体可包含软件程序，所述软件程序适于在处理器上执行并且当在处理器上实行时执行本文献中概述的方法步骤。

根据另一方面，描述一种计算机程序产品。所述计算机程序可包含用于在计算机上执行时执行本文献中概述的方法步骤的可执行指令。

应注意，可单独或与此文献中揭示的其它方法及系统组合使用包含如本专利申请案中概述的其优选实施例的方法及系统。此外，可任意组合本专利申请案中概述的方法及系统的所有方面。特定来说，权利要求书的特征可以任意方式彼此组合。

附图说明

下文参考附图以示范性方式解释本发明，其中

图1展示用于执行源分离的实例方法的流程图；

图2说明用于处理音频数据的特定剪辑的帧的数据；及

图3展示具有多个音频源及多信道信号的多个音频信道的实例场景。

具体实施方式

如上文概述，本文献针对音频源与多信道音频信号的分离，特别是针对实时应用。

图3说明针对源分离的实例场景。特定来说，图3说明多个音频源301，其位于声学环境内的不同位置。此外，多个音频信道302由声学环境内的不同位置处的麦克风捕获。源分离的目的是从多信道音频信号的音频信道302导出音频源301。

所述文献使用表1中描述的命名法。

表1

此外，本文献使用以下符号：

·协方差矩阵可表示为R_XX、R_SS、R_XS等，并且通过对协方差矩阵的所有非对角项进行归零而获得的对应矩阵可表示为Σ_X、Σ_S等。

·运算符‖·‖可用于表示针对向量的L2范数及针对矩阵的弗罗贝尼乌斯(Frobenius)范数。在这两种情况下，运算符通常存在于所有条目的平方和的平方根。

·表达式A.B可表示两个矩阵A及B的逐元素乘积。此外，表达式可表示逐元素相除，并且表达式B^-1可表示矩阵求逆。

·如果B是实值矩阵，那么表达式B^H可表示B的转置，并且如果B是复值矩阵，那么表达式B^H可表示B的共轭转置。

I信道多信道音频信号包含I个不同音频信道302，其各自是J个音频源301的卷积混合加环境及噪声，

其中x_i(t)是第i个时域音频信道302，其中i＝1，...，I且t＝1，...，T。s_j(t)是第j个音频源301，其中j＝1，...，J，并且假设音频源301彼此不相关；b_i(t)是环境信号及噪声之和(为简单起见，其可统称为噪声)，其中环境及噪声信号与音频源301不相关；a_ij(τ)是混合参数，可认为是路径长度为L的滤波器的有限脉冲响应。

如果STFT(短期傅立叶变换)帧大小ω_len远大于滤波器路径长度L，那么可在频域中近似线性循环卷积混合模型，如

X_fn＝A_fnS_fn+B_fn (2)

其中X_fn及B_fn是I×1矩阵，A_fn是I×J矩阵，并且S_fn是J×1矩阵，分别是音频信道302、噪声、混合参数及音频源301的STFT。X_fn可被称为信道矩阵，S_fn可被称为源矩阵，且A_fn可被称为混合矩阵。

卷积混合模型的特例是瞬时混合类型，其中滤波器路径长度L＝1，使得：

在频域中，混合参数A是与频率无关的，意味着等式(3)等同于A_fn＝A_n；且真实。在不失一般性及可扩展性的情况下，将在下文描述瞬时混合类型。

图1展示用于从I信道多信道音频信号的音频信道x_i(t)确定J个音频源s_j(t)的实例方法100的流程图。在第一步骤101中，初始化源参数。特定来说，可选择针对混合参数A_ij,fn的初始值。此外，可估计指示针对不同频带f及针对帧剪辑的不同帧n的J个音频源的频谱幂的频谱幂矩阵(Σ_S)_jj,fn。

初始值可用于初始化用于更新参数的迭代方案，直到参数收敛或直到达到允许的最大迭代次数ITR。维纳滤波器S_fn＝Ω_fnX_fn可用于从音频信道302确定音频源301，其中Ω_fn是维纳滤波器参数或非混合参数(包括在维纳滤波器矩阵内)。可使用混合参数A_ij,fn及频谱幂矩阵(Σ_S)_jj,fn的值来计算或更新特定迭代内的维纳滤波器参数Ω_fn，其已经在先前迭代内确定(步骤102)。经更新维纳滤波器参数Ω_fn可用于更新103音频源301的自协方差矩阵R_SS以及音频源及音频信道的互协方差矩阵R_XS。经更新协方差矩阵可用于更新混合参数A_ij,fn及谱幂矩阵(Σ_S)_jj,fn(步骤104)。如果满足收敛准则(步骤105)，那么可使用经收敛维纳滤波器Ω_fn来重建音频源(步骤106)。如果不满足收敛准则(步骤105)，那么可在步骤102中更新维纳滤波器参数Ω_fn，以进一步迭代迭代过程。

方法100可应用于多信道音频信号的帧的剪辑，其中剪辑包含N个帧。如图2中所示，针对每一剪辑，多信道音频缓冲器200可包含总共(N+T_R)个帧，包含当前剪辑的N个帧，一或多个先前剪辑的个帧(作为历史缓冲器201)及一或多个未来剪辑的个帧(作为先行缓冲器202)。维持此缓冲器200用于确定协方差矩阵。

在下文中，描述用于初始化源参数的方案。时域音频信道302是可用的，并且可在时域中将相对小的随机噪声添加到输入以获得(可能有噪声的)音频信道x_i(t)。应用时域到频域变换(例如，STFT)以获得X_fn。可将音频信道的瞬时协方差矩阵计算为

可通过对T_R个帧求平均来计算针对不同频率仓及针对不同帧的协方差矩阵：

加权窗口可任选地应用于等式(5)中的求和，使得更接近当前帧的信息更加重要。

通过对个别频率仓f＝1，...，F求和，可将R_XX,fn分组为基于带的协方差矩阵以提供对应频带实例条带机制包含Octave带及ERB(等效矩形带宽)带。通过实例的方式，可使用具有条带边界的20个ERB带[0,1,3,5,8,11,15,20,27,35,45,59,75,96,123,156,199,252,320,405,513]。替代地，具有条带边界的56个Octave带[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,18,20,22,24,26,28,30,32,36,40,44,48,52,56,60,64,72,80,88,96,104,112,120,128,144,160,176,192,208,224,240,256,288,320,352,384,416,448,480,513]可用于增加频率分辨率(例如，当使用513点STFT时)。条带可应用于方法100的任何处理步骤。在本文献中，个别频率仓f可由频带代替(如果使用条带)。

使用输入协方差矩阵R_XX,fn，可针对每一时间-频率(TF)块确定对数能量值，意味着针对频率仓f及帧n的每一组合。然后可将对数能量值归一化或映射到[0,1]间隔：

其中α可设置为2.5，并且通常在1到2.5的范围内。经归一化对数能量值e_fn可在方法100内用作针对对应TF块的加权因子，用于更新混合矩阵A(参见等式18)。

音频信道302的协方差矩阵可通过每TF块的混合信道的能量来归一化，使得针对给定TF块的音频信道302的所有经归一化能量的总和是：

其中ε₁是相对较小的值(例如，10^-6)以避免被零除，而trace(·)返回括号内矩阵的对角条目的总和。

针对源的频谱幂矩阵的初始化从多信道音频信号的第一个剪辑到多信道音频信号的其它后续剪辑不同：

针对第一剪辑，源的频谱幂矩阵(仅针对角元素为非零)可用随机非负矩阵分解(NMF)矩阵W、H(或W、H的预先学习值，如果可供使用)来初始化：

针对任何后续剪辑，可通过将先前估计的用于先前剪辑的维纳滤波器参数Ω应用于音频信道302的协方差矩阵来初始化源的频谱幂矩阵：

(Σ_S)_jj,fn＝(ΩR_XXΩ^H)_jj,fn+ε₂|rand(j)| (9)

其中Ω可为针对先前剪辑的最后一帧的经估计维纳滤波器参数。ε₂可为相对小的值(例如，10^-6)，并且rand(j)～N(1.0,0.5)可为高斯随机值。通过添加小随机值，在(ΩR_XXΩ^H)_jj,fn的值非常小的情况下，可克服冷开始问题。此外，可能有利于全局优化。

混合参数A的初始化可如下进行：

针对第一剪辑，针对多信道瞬时混合类型，可初始化混合参数：

A_ij,fn＝|rand(i,j)|,f,n (10)

且接着归一化：

针对立体声情况，意味着包含I＝2个音频信道的多信道音频信号，其中左信道L为i＝1且右信道R：i＝2，可明确应用以下公式

针对多信道音频信号的后续剪辑，可利用来自多信道音频信号的先前剪辑的最后一帧的估计值来初始化混合参数。

在下文中，概述更新维纳滤波器参数。可计算维纳滤波器参数：

其中是通过求和Σ_S,fn,f＝1,…,F得到的对应频带来计算的。等式(13)可用于确定维纳滤波器参数，特别是针对其中I<J的情况。

噪声协方差参数Σ_B可设置为迭代相关的公共值，其不表现出频率依赖性或时间依赖性，因为假设噪声是白色及静止的

所述值在每一迭代iter中改变，从初始值1/100I变为最终较小值/10000I。此操作类似于模拟退火，其有利于快速及全局收敛。

用于计算维纳滤波器参数的逆操作将应用于I×I矩阵。为了避免矩阵求逆的计算，在J≤I的情况下，并非等式(13)，可使用伍德伯里(Woodbury)矩阵恒等式来计算维纳滤波器参数

可展示等式(15)在数学上等效于等式(13)。

在不相关音频源的假设下，可通过在源之间迭代地应用正交约束来进一步调节维纳滤波器参数：

其中表达式[·]_D指示对角矩阵，其是通过将所有非对角条目设置为零而获得的，其中∈可为∈＝10^-12或更小。重复梯度更新直到实现收敛或直到达到迭代的最大允许数目ITR_ortho。等式(16)使用自适应去相关方法。

可使用以下等式更新(步骤103)协方差矩阵

在下文中，描述用于更新源参数的方案(步骤104)。由于假设瞬时混合类型，因此可在频率仓或频带上对协方差矩阵求和以计算混合参数。此外，可使用如在等式(6)中计算的加权因子来缩放TF块，使得音频信道302内的更响亮分量被赋予更多重要性：

给定无约束问题，混合参数可通过矩阵求逆来确定

此外，可更新音频源301的频谱幂。在此上下文中，非负矩阵因子分解(NMF)方案的应用可能有益于考虑音频源301的某些约束或属性(特别是关于音频源301的频谱)。因而，当更新频谱幂时，可通过NMF施加频谱约束。当关于音频源的频谱特征(W)及/或时间特征(H)的先验知识可用时，NMF特别有益。在盲源分离(BSS)的情况下，NMF还可能具有施加某些频谱约束的效果，使得避免频谱置换(意味着一个音频源的频谱分量被分成多个音频源)并且使得获得具有较少假象的更令人满意的声音。

可使用下式更新音频源的频谱幂Σ_S

随后，可基于(Σ_S)_jj,fn针对每一音频源j更新音频源的频谱特征W_j,fk及音频源的时间特征H_j,kn。为简单起见，下文将这些项表示为W，H及Σ_S(意味着不具有指数)。音频源的频谱特征W可每一个剪辑仅更新一次，用于稳定更新并且与针对剪辑的每一个帧更新W相比降低计算复杂度。

作为NMF方案的输入，提供Σ_S，W，W_A，W_B及H。然后可重复以下等式(21)直到(24)直到收敛或直到实现最大迭代次数。首先，可更新时间特征：

其中ε₄很小，例如10^-12。然后，可更新W_A，W_B

且W可能被更新

且W，W_A，W_B可被重新归一化

因而，可以迭代方式确定经更新W，W_A，W_B及H，借此对音频源施加某些约束。然后可使用经更新W，W_A，W_B及H来使用等式(8)来细化音频源的频谱幂Σ_S。

为了消除尺度模糊，可重新归一化A，W及H(或A及Σ_S)：

H_j,kn←H_j,kn×E_1,jn×E_2,jk

(25)

通过重新归一化，A在信道当中传达能量保持混合增益并且W也是与能量无关的并且传达归一化频谱特征。同时，整体能量被保留，因为所有能量相关信息都被降级为时间特征H。应注意，此重新归一化过程保留对信号进行缩放的量：可使用等式(8)利用NMF矩阵W及H来细化源的谱幂矩阵∑_s。

步骤105中使用的停止准则可由下式给出

可使用维纳滤波器重建个别音频源301：

S_fn＝Ω_fnX_fn (27)

其中可使用等式(13)(或等式(15))针对每一频率仓重新计算Ω_fn。针对源重建，使用相对精细的频率分辨率通常是有益的，因此通常优选基于个别频率仓f而不是频带来确定Ω_fn。

然后可通过使用混合参数平移经估计音频源来重建多信道(I信道)源：

其中是一组J个向量，每一者大小为I，表示多信道源的STFT。通过维纳滤波器的保守性，重建确保多信道源及噪声总和到原始音频信道：

由于逆STFT的线性，保守性也在时域中成立。

本文献中描述的方法及系统可实施为软件、固件及/或硬件。某些组件可例如实施为在数字信号处理器或微处理器上运行的软件。其它组件可例如实施为硬件及/或专用集成电路。在所描述的方法及系统中遇到的信号可存储在例如随机存取存储器或光学存储媒体的媒体上。其可经由网络转移，例如无线电网络、卫星网络、无线网络或有线网络，例如因特网。使用本文献中描述的方法及系统的典型装置是便携式电子装置或用于存储及/或呈现音频信号的其它消费型装备。

从下文列举的实例实施例(EEE)可了解本发明的各个方面：

EEE 1.一种用于从I个音频信道(302)提取J个音频源(301)的方法(100)，其中I,J>1，其中音频信道(302)包括多个剪辑，每一剪辑包括N个帧，其中N>1，其中所述I个音频信道(302)可表示为频域中的信道矩阵，其中所述J个音频源(301)可表示为所述频域中的源矩阵，其中针对当前剪辑的帧n，针对至少一个频率仓f，并且针对当前迭代，所述方法(100)包括，

-基于以下各者来更新(102)维纳滤波器矩阵

-混合矩阵，其经配置以提供来自所述源矩阵的所述信道矩阵的估计，及

-所述J个音频源(301)的幂矩阵，其表示所述J个音频源(301)的频谱幂；

其中所述维纳滤波器矩阵经配置以提供来自所述信道矩阵的所述源矩阵的估计；

-更新(103)所述I个音频信道(302)及所述J个音频源(301)的互协方差矩阵及所述J个音频源(301)的自协方差矩阵，其基于

-所述经更新维纳滤波器矩阵；及

-所述I个音频信道(302)的自协方差矩阵；以及

-基于以下各者来更新(104)所述混合矩阵及所述幂矩阵

-所述I个音频信道(302)及所述J个音频源(301)的所述经更新互协方差矩阵，及/或

-所述J个音频源(301)的所述经更新自协方差矩阵。

EEE 2.根据EEE1所述的方法(100)，其中所述方法(100)包括针对来自一或多个先前剪辑的帧及来自一或多个未来剪辑的帧的当前剪辑的帧n来确定所述I个音频信道(302)的所述自协方差矩阵。

EEE 3.根据任一前述EEE所述的方法(100)，其中所述方法(100)包括通过将所述I个音频信道(302)从时域变换到所述频域来确定所述信道矩阵。

EEE 4.根据EEE 3所述的方法(100)，其中使用短期傅里叶变换确定所述信道矩阵。

EEE 5.根据任一前述EEE所述的方法(100)，其中

-所述方法(100)包括针对所述当前剪辑的所述帧n及针对至少一个频率仓f来将所述源矩阵的估计确定为S_fn＝Ω_fnX_fn；

-S_fn是所述源矩阵的估计；

-Ω_fn是所述维纳滤波器矩阵；且

-X_fn是所述信道矩阵。

EEE 6.根据任一前述EEE所述的方法(100)，其中所述方法(100)包括执行所述更新步骤(102,103,104)以确定所述维纳滤波器矩阵，直到达到最大迭代次数或直到相对于所述混合矩阵满足收敛准则。

EEE 7.根据任一前述EEE所述的方法(100)，其中

-所述频域被细分为F个频率仓；

-针对F个频率仓确定所述维纳滤波器矩阵；

-所述F个频率仓被分组为个频带，其中

-针对个频带确定所述I个音频信道(302)的自协方差矩阵；且

-针对个频带确定所述J个音频源(301)的所述幂矩阵。

EEE 8.根据任一前述EEE所述的方法(100)，其中

-基于包括噪声幂项的噪声幂矩阵来更新所述维纳滤波器矩阵；且

-随着迭代次数的增加，所述噪声幂项减少。

EEE 9.根据任一前述EEE所述的方法(100)，其中

-针对所述当前剪辑的所述帧n及位于频带内的所述频率仓f，基于针对I<J的或基于针对I≥J的更新所述维纳滤波器矩阵；

-Ω_fn是所述经更新维纳滤波器矩阵；

-是所述J个音频源(301)的所述幂矩阵；

-A_fn是所述混合矩阵；及

-Σ_B是噪声幂矩阵。

EEE 10.根据任一前述EEE所述的方法(100)，其中通过关于所述J个音频源(301)应用正交约束来更新所述维纳滤波器矩阵。

EEE 11.根据EEE10所述的方法(100)，其中所述维纳滤波器矩阵被迭代地更新以减小所述J个音频源(301)的所述自协方差矩阵的非对角项的所述幂。

EEE 12.根据EEE10到11中任一者所述的方法(100)，其中

-使用梯度迭代地更新所述维纳滤波器矩阵

-是针对频带及针对所述帧n的所述维纳滤波器矩阵；

-是所述I个音频信道(302)的所述自协方差矩阵；

-[ ]_D是所述括号内包含的矩阵的对角矩阵，其中所有非对角条目都设置为零；且

-∈是实数。

EEE 13.根据任一前述EEE所述的方法(100)，其中

-基于更新所述I个音频信道(302)及所述J个音频源(301)的互协方差矩阵；

-是针对频带及针对所述帧n的所述I个音频信道(302)及所述J个音频源(301)的所述经更新互协方差矩阵；

-是所述维纳滤波器矩阵；且

-是所述I个音频信道(302)的所述自协方差矩阵。

EEE 14.根据任一前述EEE所述的方法(100)，其中

-基于更新所述J个音频源(301)的所述自协方差矩阵；

-是针对频带及针对所述帧n的所述J个音频源(301)的所述经更新自协方差矩阵；

-是所述维纳滤波器矩阵；且

-是所述I个音频信道(302)的所述自协方差矩阵。

EEE 15.根据任一前述EEE所述的方法(100)，其中更新(104)所述混合矩阵包括，

-基于针对所述帧n及针对不同频率仓f或所述频域的频带的所述J个音频源(301)的所述自协方差矩阵来确定针对所述帧n的所述J个音频源(301)的与频率无关的自协方差矩阵以及

-基于针对所述帧n及针对所述频域的不同频率仓f或频带的所述I个音频信道(302)及所述J个音频源(301)的所述互协方差矩阵确定针对所述帧n的所述I个音频信道(302)及所述J个音频源(301)的与频率无关的互协方差矩阵

EEE 16.根据EEE15所述的方法(100)，其中

-基于确定所述混合矩阵；

-A_n是针对所述帧n的所述与频率无关的混合矩阵。

EEE 17.根据EEE15到16中任一者所述的方法(100)，其中

-所述方法包括基于所述I个音频信道(302)的所述自协方差矩阵确定频率相关加权项e_fn；且

-基于所述频率相关加权项e_fn确定所述与频率无关的自协方差矩阵及所述与频率无关的互协方差矩阵

EEE 18.根据任一前述EEE所述的方法(100)，其中

-更新(104)所述幂矩阵包括基于针对所述频率仓f及针对所述帧n确定针对所述第j个音频源(301)的经更新幂矩阵项(Σ_s)_jj,fn；且

-是针对所述帧n及针对频带的所述J个音频源(301)的所述自协方差矩阵，频带包括所述频率仓f。

EEE 19.根据EEE18所述的方法(100)，其中

-更新(104)所述幂矩阵包括使用所述幂矩阵的非负矩阵分解来确定针对所述J个音频源(301)的频谱特征W及时间特征H；

-基于针对所述第j个音频源(301)的所述经更新幂矩阵项(Σ_s)_jj,fn来确定针对所述第j个音频源(301)的所述频谱特征W及所述时间特征H；且

-更新(104)所述幂矩阵包括基于(Σ_s)_jj,fn＝∑_kW_j,fkH_j,kn确定针对所述第j个音频源(301)的另一经更新幂矩阵项(Σ_s)_jj,fn。

EEE 20.根据任一前述EEE所述的方法(100)，其中所述方法(100)进一步包括，

-使用针对紧接在所述当前剪辑之前的剪辑的帧确定的混合矩阵来初始化(101)所述混合矩阵；以及

-基于针对所述当前剪辑的帧n的所述I个音频信道(302)的所述自协方差矩阵及基于针对紧接在所述当前剪辑之前的所述剪辑的帧所确定的所述维纳滤波器矩阵来初始化(101)所述幂矩阵。

EEE 21一种存储媒体，其包括适于在处理器上执行并且当在计算装置上实行时执行前述权利要求中任一权利要求所述的方法步骤的软件程序。

EEE 22一种用于从I个音频信道(302)提取J个音频源(301)的系统，其中I，J>1，其中所述音频信道(302)包括多个剪辑，每一剪辑包括N个帧，其中N>1，其中所述I个音频信道(302)可表示为频域中的信道矩阵，其中所述J个音频源(301)可表示为所述频域中的源矩阵，其中针对当前剪辑的帧n，针对至少一个频率仓f，及针对当前迭代，所述系统经配置以

-基于以下各者来更新维纳滤波器矩阵

-更新所述I个音频信道(302)及所述J个音频源(301)的互协方差矩阵及所述J个音频源(301)的自协方差矩阵，其基于

-所述经更新维纳滤波器矩阵；及

-所述I个音频信道(302)的自协方差矩阵；以及

-基于以下各者来更新所述混合矩阵及所述幂矩阵

-所述J个音频源(301)的所述经更新自协方差矩阵。

Claims

1.一种用于从I个音频信道(302)提取J个音频源(301)的方法(100)，其中I,J>1，其中所述音频信道(302)包括多个剪辑，每一剪辑包括N个帧，其中N>1，其中所述I个音频信道(302)可表示为频域中的信道矩阵，其中所述J个音频源(301)可表示为所述频域中的源矩阵，其中所述频域被细分为F个频率仓，其中所述F个频率仓被分组为个频带，其中针对当前剪辑的帧n，针对至少一个频率仓f，并且针对当前迭代，所述方法(100)包括，

-基于以下各者来更新(102)维纳滤波器矩阵

-其中所述维纳滤波器矩阵经配置以提供来自所述信道矩阵的所述源矩阵的估计；其中针对所述F个频率仓中的每一者确定所述维纳滤波器矩阵；

-所述经更新维纳滤波器矩阵；及

-所述I个音频信道(302)的自协方差矩阵；以及

-基于以下各者来更新(104)所述混合矩阵及所述幂矩阵

-所述J个音频源(301)的所述经更新自协方差矩阵；其中仅针对所述个频带确定所述J个音频源(301)的所述幂矩阵。

2.根据权利要求1所述的方法(100)，其中所述方法(100)包括针对来自一或多个先前剪辑的帧及来自一或多个未来剪辑的帧的当前剪辑的帧n来确定所述I个音频信道(302)的所述自协方差矩阵。

3.根据任一前述权利要求所述的方法(100)，其中所述方法(100)包括通过将所述I个音频信道(302)从时域变换到所述频域来确定所述信道矩阵，并且任选地

其中使用短期傅里叶变换确定所述信道矩阵。

4.根据任一前述权利要求所述的方法(100)，其中

-S_fn是所述源矩阵的估计；

-Ω_fn是所述维纳滤波器矩阵；且

-X_fn是所述信道矩阵。

5.根据任一前述权利要求所述的方法(100)，其中所述方法(100)包括执行所述更新步骤(102,103,104)以确定所述维纳滤波器矩阵，直到达到最大迭代次数或直到相对于所述混合矩阵满足收敛准则。

6.根据任一前述权利要求所述的方法(100)，其中仅针对所述个频带确定所述I个音频信道(302)的所述自协方差矩阵。

7.根据任一前述权利要求所述的方法(100)，其中

-随着迭代次数的增加，所述噪声幂项减少。

8.根据任一前述权利要求所述的方法(100)，其中

-Ω_fn是所述经更新维纳滤波器矩阵；

-是所述J个音频源(301)的所述幂矩阵；

-A_fn是所述混合矩阵；及

-Σ_B是噪声幂矩阵。

9.根据任一前述权利要求所述的方法(100)，其中通过关于所述J个音频源(301)应用正交约束来更新所述维纳滤波器矩阵，并且任选地

其中所述维纳滤波器矩阵被迭代地更新以减小所述J个音频源(301)的所述自协方差矩阵的非对角项的所述幂。

10.根据权利要求9所述的方法(100)，其中

-使用梯度迭代地更新所述维纳滤波器矩阵

-是针对频带及针对所述帧n的所述维纳滤波器矩阵；

-是所述I个音频信道(302)的所述自协方差矩阵；

-[]_D是所述括号内包含的矩阵的对角矩阵，其中所有非对角条目都设置为零；且

-∈是实数。

11.根据任一前述权利要求所述的方法(100)，其中

-基于更新所述I个音频信道(302)及所述J个音频源(301)的所述互协方差矩阵；

-是所述维纳滤波器矩阵；且

-是所述I个音频信道(302)的所述自协方差矩阵，及/或

其中，

-基于更新所述J个音频源(301)的所述自协方差矩阵；

-是所述维纳滤波器矩阵；且

-是所述I个音频信道(302)的所述自协方差矩阵。

12.根据任一前述权利要求所述的方法(100)，其中更新(104)所述混合矩阵包括，

-基于针对所述帧n及针对不同频率仓f或所述频域的频带所述J个音频源(301)的所述自协方差矩阵来确定针对所述帧n的所述J个音频源(301)的与频率无关的自协方差矩阵以及

-基于针对所述帧n及针对所述频域的不同频率仓f或频带所述I个音频信道(302)及所述J个音频源(301)的所述互协方差矩阵确定针对所述帧n的所述I个音频信道(302)及所述J个音频源(301)的与频率无关的互协方差矩阵且任选地

其中，

-基于确定所述混合矩阵；

-A_n是针对所述帧n的所述与频率无关的混合矩阵。

13.根据权利要求12所述的方法(100)，其中

14.根据任一前述权利要求所述的方法(100)，其中

-更新(104)所述幂矩阵包括基于针对所述频率仓f及针对所述帧n确定针对所述第j个音频源(301)的经更新幂矩阵项(∑_s)_jj,fn；且

-是针对所述帧n及针对频带所述J个音频源(301)的所述自协方差矩阵，所述频带包括所述频率仓f，且任选地

其中，

-基于针对所述第j个音频源(301)的所述经更新幂矩阵项(∑_s)_jj,fn来确定针对所述第j个音频源(301)的所述频谱特征W及所述时间特征H；且

-更新(104)所述幂矩阵包括基于(∑_s)_jj,fn＝∑_kW_j,fkH_j,kn确定针对所述第j个音频源(301)的另一经更新幂矩阵项(∑_s)_jj,fn。

15.根据任一前述权利要求所述的方法(100)，其中所述方法(100)进一步包括，

-使用针对直接在所述当前剪辑之前的剪辑的帧确定的混合矩阵来初始化(101)所述混合矩阵；以及

-基于针对所述当前剪辑的帧n的所述I个音频信道(302)的所述自协方差矩阵及基于针对直接在所述当前剪辑之前的所述剪辑的帧所确定的所述维纳滤波器矩阵来初始化(101)所述幂矩阵。