CN109644304A

CN109644304A - 混响环境的源分离

Info

Publication number: CN109644304A
Application number: CN201780052977.XA
Authority: CN
Inventors: 王珺
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-08-31
Filing date: 2017-08-28
Publication date: 2019-04-16
Anticipated expiration: 2037-08-28
Also published as: EP3507993B1; US10904688B2; US10667069B2; US20190191259A1; EP3507993A1; US20200389749A1; CN109644304B

Abstract

本发明揭示混响环境的源分离的实施例。根据方法，分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号。通过处理器基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数。分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。所述处理器通过应用所述重建模型而执行所述源分离。

Description

混响环境的源分离

技术领域

本文中揭示的实例实施例涉及音频信号处理。更具体来说，实例实施例涉及从在混响环境中捕获的音频混合物的源分离。

背景技术

以多声道格式(例如，立体声、波束形成、5.1、7.1及类似者)呈现的混合音频信号是通过在演播室中混合不同音频源来创建，或从真实环境中的各种音频源的多个录音产生。源分离可用于广泛范围的音频处理应用。例如，当使用一或多个麦克风录制听觉场景时，优选地分离声源相依信息以用于各种后续音频处理任务。此类应用的实例包含重新混合/重新创作应用、空间音频编码、3D声音分析及合成，以及在扩展回放环境(而非原始的混合音频信号)中呈现源。其它应用需要源参数以实现源特定分析及后处理，例如音调校正、时间扭曲、声音效果、增强、衰减或调平某些源。

源分离包括在给定混合信号的情况下恢复源信号或其空间图像。大多数现有方法经由短时傅立叶(Fourier)变换(STFT)将信号变换到时频域，并通过复值混合矩阵或空间协方差矩阵近似表示每一频段中的混合过程。接着通过估计全部频段中的混合矩阵或空间协方差并导出源STFT系数来实现源分离。恢复源信号的实例方法是通过估计混合矩阵且随后导出源STFT系数，如A.奥泽洛夫(A.Ozerov)、C.菲沃特(C.Fevotte)的“用于音频源分离的卷积混合物中的多声道非负矩阵分解(Multichannel Nonnegative MatrixFactorization in Convolutive Mixtures for Audio Source Separation)”，IEEETrans ASLP，第18卷，第3号，2010年中描述，所述案的内容的全文以引用的方式并入本文中(此后称为“参考案1”)。恢复源的空间图像的另一实例方法是通过估计空间协方差并导出源STFT系数，如越Q.K.棠(Ngoc Q.K.Duong)、E.文森特(E.Vincent)、R.格力博瓦特(R.Gribonvoal)的“欠定混响音频源分离的空间协方差模型(Spatial Covariance Modelsfor Under-determined Reverberant Audio Source Separation)”，关于信号处理在音频及声学中的应用的IEEE研讨会，2009年中描述，所述案的内容的全文以引用的方式并入本文中(此后称为“参考案2”)。

发明内容

本文中揭示的实例实施例描述一种产生用于源分离的重建模型的方法。根据所述方法，通过处理器基于第一麦克风信号学习用于对至少一个源与至少两个麦克风之间的声路建模的混合参数。假定针对所述至少一个源中的每一个别者的所述第一麦克风信号分别由所述至少两个麦克风针对其间仅所述个别者产生声音的时段捕获。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。假定所述第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获。

本文中揭示的实例实施例还描述一种用于源分离的方法。根据所述方法，分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号。通过处理器基于所述第一麦克风信号学习用于对至少一个源与所述至少两个麦克风之间的声路建模的混合参数。分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。所述处理器通过应用所述重建模型而执行所述源分离。

下文参考附图详细描述本文中揭示的实例实施例的进一步特征及优点以及实例实施例的结构及操作。应注意，本文中仅为了说明性目的呈现实例实施例。(若干)相关领域的技术人员基于本文中含有的教示将明白额外实施例。

附图说明

本文中揭示的实施例在附图的图中通过实例而非通过限制说明且其中相同元件符号是指类似元件且其中：

图1是说明根据实例实施例的产生用于源分离的重建模型的实例方法的流程图；

图2是示意性地说明在实例实施例中源与麦克风之间的实例关系的图式；

图3是说明根据实例实施例的用于源分离的实例方法的流程图；

图4是说明根据实例实施例的产生用于源分离的重建模型的实例方法的流程图；

图5是说明根据实例实施例的用于源分离的实例方法的流程图。

图6是说明在实例实施例中学习混合参数及频谱基的实例过程的流程图，且图7是说明在此实施例中估计重建模型的实例过程的流程图；

图8是示意性地说明根据实例实施例的经由判别式非负矩阵分解(DNMF)方法估计频谱基的过程的图式；

图9是说明根据实例实施例的学习混合参数及频谱基的实例过程的流程图。

图10是说明根据实例实施例的将混合参数、频谱基及激活参数估计为M步骤的模型参数的实例过程的流程图；

图11是说明根据实例实施例的学习混合参数及频谱基的实例过程的流程图；

图12是说明在实例实施例中学习混合参数及频谱基的实例过程的流程图，且图13是说明在此实施例中估计重建模型的实例过程的流程图；及

图14是说明执行重建模型的估计的实例过程的流程图。

具体实施方式

通过参考图式描述实例实施例。应注意，为了简洁起见，在图式及描述中省略关于所属领域的技术人员已知但与实例实施例无关的那些组件及过程的表示及描述。

如所属领域的技术人员将了解，实例实施例的方面可体现为系统、方法或计算机程序产品。因此，实例实施例的方面可采取完整硬件实施例、完整软件实施例(包含固件、常驻软件、微代码等)或组合在本文中可全部统称为“电路”、“模块”或“系统”的软件及硬件方面的实施例的形式。此外，实例实施例的方面可采取有形地体现于其上体现计算机可读程序码的一或多个计算机可读媒体中的计算机程序产品的形式。

下文参考方法、设备(以及系统)及计算机程序产品的流程图说明及/或框图描述实例实施例的方面。将理解，流程图说明及/或框图的每一框及流程图说明及/或框图中的框的组合可通过计算机程序指令实施。这些计算机程序指令可提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器，使得经由计算机或其它可编程数据处理设备执行的指令创建用于实施流程图及/或框图的(若干)框中指示的功能/动作的构件。

源分离问题在混响环境中尤其困难。实际上，因为录音室的墙壁上的许多不同位置处的回声，所以混响增加每一源的空间传播。已在其中已知源位置及一些房间特性的特定背景中展示最先进方法的有效性。例如，在参考案2中描述的方法中，在假定源空间协方差矩阵已知的情况下证明混响语音混合物的源分离。然而，这对于大多数真实世界应用通常不实际，这是因为此信息通常不可用或无法获得，此信息包含麦克风的设置及源的位置、房间形状、大小、墙反射因数。

鉴于前述内容，提出用于在不知道关于录音装置的性质、房间的声学性质等的任何现有信息的情况下仅通过分析经录制音频信号而在半监督式背景中进行源分离的解决方案。

具体来说，解决方案包含用于估计用于源分离的重建模型的训练阶段及测试阶段。训练阶段具有与测试阶段相同的环境设置。每一源发出声音达特定时段(例如，几秒或至多几分钟作为典型排练长度，且内容不需要与其在测试阶段中的相同)。针对每一个别源进行多声道麦克风录制。在训练阶段中，学习参数(例如，混合参数及频谱基)，所述参数取决于每一个别源及个别源与麦克风之间的声路(包含混合路径及房间脉冲响应(RIR))。由于这些参数与除参数所取决的个别源之外的源不相干，所以可仅在个别源发出声音时捕获麦克风信号且可基于麦克风信号学习参数而无其它源引发的干扰及复杂性。在测试阶段中，估计重建模型，其中在训练阶段中学习的参数固定。此外，在测试阶段中，估计取决于全部源的参数。因为已在训练阶段学习一些参数且其在测试阶段中不变或至少一致，所以可在测试阶段中以较高准确性及较低复杂性实现估计。

图1是说明根据实例实施例的产生用于源分离的重建模型的实例方法100的流程图。

根据图1，方法100从步骤101开始。在步骤103(训练阶段)处，基于麦克风信号x₁、…、x_I学习用于对源s₁、…、s_J与麦克风mic₁、…、mic_I之间的声路建模的混合参数A。假定针对源s₁、…、s_J的每一源s_j(j＝1,…,J)的麦克风信号x_j,1、…、x_j,I分别由麦克风mic₁、…、mic_I在仅源s_j产生声音的时段内捕获。基于麦克风信号x_j,1、…、x_j,I学习用于对源s_j与麦克风mic₁、…、mic_I之间的声路建模的混合参数A_j。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。

在步骤105(测试阶段)处，基于在训练阶段中学习的混合参数及麦克风信号x’₁、…、x’_I估计重建模型。假定麦克风信号x’₁、…、x’_I分别由麦克风mic₁、…、mic_I针对在其间全部源s₁、…、s_J产生声音的时段捕获。在此步骤中，可通过使用在步骤103中学习的混合参数作为固定参数而应用估计重建模型的任何已知方法。在步骤107处，方法100结束。

在方法100中，一或多个源或其空间图像可由重建模型重建。数字J可为一个或一个以上。

在方法100中，要由重建模型针对源重建的信号可为源自身(例如，源信号)或麦克风上的源的空间图像。麦克风上的源的空间图像是源在由麦克风捕获的麦克风信号中的贡献。在空间图像的情况中，不需要重建源。

图3是说明根据实例实施例的用于源分离的实例方法300的流程图。根据图3，方法300从步骤301开始。

在步骤303处，针对源s₁、…、s_J的每一源s_j(j＝1,…,J)的麦克风信号x_j,1、…、x _j,I分别由麦克风mic₁、…、mic_I针对其间仅源s_j产生声音的时段捕获。

在步骤305处，基于麦克风信号x₁、…、x_I学习用于对源s₁、…、s_J与麦克风mic₁、…、mic_I之间的声路建模的混合参数A。针对每一源s_j(j＝1,…,J)，基于麦克风信号x_j,1、…、x_j,I学习用于对源s_j与麦克风mic₁、…、mic_I之间的声路建模的混合参数A_j。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。

在步骤307处，麦克风信号x’₁、…、x’_I分别由麦克风mic₁、…、mic_I针对在其间全部源s₁、…、s_J产生声音的时段捕获。

在步骤309处，基于在训练阶段中学习的混合参数及麦克风信号x’₁、…、x’_I估计重建模型。在此步骤中，可通过使用在步骤305中学习的混合参数作为固定参数而应用估计重建模型的任何已知方法。

在步骤311处，通过应用重建模型而执行源分离。在步骤313处，方法300结束。

在方法300中，步骤307也可在步骤305之前的任何时间执行。步骤303及307可在录音装置上执行。步骤305及309可在一个服务器或一或多个服务器及/或分布式服务器上执行。经捕获麦克风信号可(例如)经由存储媒体、通信连接或网络从录音装置传送到服务器用于执行训练阶段及测试阶段。可将经估计重建模型从服务器传送到录音装置，使得录音装置可将重建模型应用到经捕获麦克风信号用于源分离。还可将由录音装置录制的麦克风信号传送到除录音装置之外的装置，或甚至到服务器，使得装置或服务器可将重建模型应用到经捕获麦克风信号用于源分离。

可在方法中根据本文中揭示的实例实施例使用基于混合参数的各种重建模型。此外，可在方法中根据本文中揭示的实例实施例使用用于估计重建模型且用于学习混合参数的各种方法。将在下文中详细描述一些实例。

在进一步实例实施例中，重建模型经调适以重建麦克风mic₁、…、mic_I上的源s₁、…、s_J的空间图像。

在实例案例中，源s₁、…、s_J的每一源s_j可在麦克风mic₁、…、mic_I的每一麦克风mic_i上产生空间图像s_ji ^img。也就是说，每一源s_j可分别在麦克风mic₁、…、mic_I上产生I个空间图像s_j1 ^img、…、s_jI ^img。在训练阶段中，针对源s_j的麦克风信号可表达为

其中s_ji ^img＝a_i，js_j，s_j表示源s_j，a_i，j表示源s_j与麦克风mic_i,i＝1、…、I之间的声路。针对每一源s_j的混合参数可特性化为表示麦克风mic₁、…、mic_I上的源s_j的空间图像s_j1 ^img、…、s_jI ^img与麦克风mic₁、…、mic_I中的参考者(在此实例中为mic₁)上的源s_j的空间图像s_j1 ^img之间的比率。参考麦克风可为麦克风mic₁、…、mic_I中的任一者。也在此实例中，在测试阶段中，麦克风信号可表达为

其中表示在测试阶段中的源s_j。此实例中可使用基于此类混合参数的任何重建模型。可通过将更详细描述的维纳(Wiener)滤波方法实施一个实例重建模型。

在另一实例案例中，每一源s_j可分别在麦克风mic₁、…、mic_I上产生I个空间图像s_j1 ^img、…、s_jI ^img。针对每一源s_j的混合参数可特性化为源s_j的空间协方差，表示源s_j的空间性质。

此实例中可使用基于此类混合参数的任何重建模型。

在进一步实例实施例中，重建模型经调适以重建原始源s₁、…、s_J中的每一者的源信号。混合参数对原始源s₁、…、s_J与麦克风mic₁、…、mic_I之间的声路建模。图2是示意性地说明在此实施例中原始源与麦克风之间的关系的图式。如图2中说明，混合参数A_j＝[α_1j,…,α_Ij]^T对原始源s_j与麦克风mic₁、…、mic_I之间的声路建模。

在此实施例中，频域中的卷积混合模型可近似表示为：

X_fn＝A_fS_fn+B_f (1)

其中

f＝1、…、F表示频段指数，n＝1、…、N表示时间帧指数，I表示麦克风的数目，J表示源的数目，X_fn是表示针对第f个频段及第n个时间帧的I个麦克风信号的STFT的I×1矩阵，B_f是表示针对第f个频段的I声道噪声的STFT的I×1矩阵，且这些变量在以下方程式中具有相同意义。

S_fn是表示针对第f个频段及第n个时间帧的J个未知源的STFT的J×1矩阵，

A_f＝[α_ij]_f是表示针对第f个频段的混合参数(其是频率相依且非时变的)的I×J矩阵。

非负矩阵分解(NMF)及判别式非负矩阵分解是用于通过将每一源的频谱图建模为基向量的非负组合(也称为频谱基)而进行源分离的方法。频谱基是源相依的且可从源的音频样本学习。还可在训练阶段中学习源的频谱基且在测试阶段中使用经学习频谱基。

图4是说明根据实例实施例的产生用于源分离的重建模型的实例方法400的流程图。根据图4，方法400从步骤401开始。

在步骤403(训练阶段)处，基于麦克风信号x₁、…、x_I学习用于对源s₁、…、s_J与麦克风mic₁、…、mic_I之间的声路建模的混合参数A。还基于麦克风信号x₁、…、x_I学习源的频谱基。可经由非负矩阵分解方法或判别式非负矩阵分解方法学习频谱基。假定针对源s₁、…、s_J的每一源s_j(j＝1,…,J)的麦克风信号x_j,1、…、x_j,I分别由麦克风mic₁、…、mic_I针对其间仅源s_j产生声音的时段捕获。基于麦克风信号x_j,1、…、x_j,I学习用于对源s_j与麦克风mic₁、…、mic_I之间的声路建模的混合参数A_j以及相关联的频谱基。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。

在步骤405(测试阶段)处，基于在训练阶段中学习的混合参数及频谱基以及麦克风信号x’₁、…、x’_I估计重建模型。假定麦克风信号x’₁、…、x’_I分别由麦克风mic₁、…、mic_I针对在其间全部源s₁、…、s_J产生声音的时段捕获。在此步骤中，可通过使用在步骤403中学习的混合参数及频谱基作为固定参数而应用估计重建模型的任何已知方法。在步骤407处，方法400结束。

图5是说明根据实例实施例的用于源分离的实例方法500的流程图。根据图5，方法500从步骤501开始。

在步骤503处，针对源s₁、…、s_J的每一源s_j(j＝1,…,J)的麦克风信号x_j,1、…、x _j,I分别由麦克风mic₁、…、mic_I针对其间仅源s_j产生声音的时段捕获。

在步骤505处，基于麦克风信号x₁、…、x_I学习用于对源s₁、…、s_J与麦克风mic₁、…、mic_I之间的声路建模的混合参数A。还基于麦克风信号x₁、…、x_I学习源的频谱基。可经由非负矩阵分解方法或判别式非负矩阵分解方法学习频谱基。针对每一源s_j(j＝1,…,J)，基于麦克风信号x_j,1、…、x_j,I学习用于对源s_j与麦克风mic₁、…、mic_I之间的声路建模的混合参数A_j以及相关联的频谱基。在此步骤中可基于在其中仅一个源产生声音的时段期间捕获的麦克风信号应用基于麦克风信号学习混合参数的任何已知方法。

在步骤507处，麦克风信号x’₁、…、x’_I分别由麦克风mic₁、…、mic_I针对在其间全部源s₁、…、s_J产生声音的时段捕获。

在步骤509处，基于在训练阶段中学习的混合参数及频谱基以及麦克风信号x’₁、…、x’_I估计重建模型。在此步骤中，可通过使用在步骤505中学习的混合参数及频谱基作为固定参数而应用估计重建模型的任何已知方法。

在步骤511处，通过应用重建模型而执行源分离。在步骤513处，方法500结束。

在学习混合参数、频谱基或重建模型中，可应用迭代算法来更新各个参数(例如混合参数、频谱基、激活参数、源的功率谱图等)的估计。例如，迭代算法的终止准则可为已达到最大允许迭代计数，或已到达混合参数已收敛的条件(例如，经估计参数或基于经估计参数的成本在两个连续迭代之间的改变足够小)。实例收敛条件可表达为：

其中|| ||_F表示弗罗贝尼乌斯(Frobenius)范数，A^new及A^old表示在当前迭代及先前迭代中估计的混合参数，且Γ表示阈值。

在方法400或方法500的进一步实施例中，在每一源的功率谱图收敛的条件下完成估计重建模型。估计重建模型包括从源的经估计协方差导出功率谱图。图6是说明在此实施例中学习混合参数及频谱基的实例过程600的流程图。图7是说明在此实施例中估计重建模型的实例过程700的流程图。在过程600及700中使用期望最大化(EM)算法。

如图6中说明，过程600从步骤601开始。在步骤603处，将计数器j设置为(例如)1。在另一实例实施例中，可将要估计的参数设置为初始值。在步骤605处，执行EM迭代的期望(E)步骤，其中将源的功率谱图、重建滤波器(例如维纳滤波器、扩展卡尔曼(Kalman)滤波器及类似者)、源之间的频谱协方差矩阵以及麦克风与源之间的交叉协方差矩阵估计为中间参数。

例如，可将J个源的功率谱图估计为：

即，

其中w_{1，...J，fk}及h_{1，...J，kn}是矩阵W_1，...J及H_1，...J的元素，且K是源s_j特定的频谱分量的数目。{W_j，H_j}的形式使用语义上有意义(可解释)的表示来对源建模。是涉及源s_j的频谱分量作为列向量的非负矩阵。是具有对应于每一频谱分量的激活的行向量的非负矩阵。W_j被称为源s_j的频谱基。H_j被称为源s_j的激活参数。

例如，可将维纳滤波器估计为

其中∑_b，f是噪声的功率谱图，且可经由各种已知方法估计，且A_f是在方程式1中使用的混合参数。

例如，可将源之间的频谱协方差矩阵估计为

其中C_X，fn是麦克风之间的协方差矩阵。

例如，可将麦克风与源之间的交叉协方差矩阵估计为

在过程600中针对源s_j的每一迭代的背景中，源的数目J＝1，这是因为仅存在一个所考虑源。

在步骤607处，执行EM迭代的最大化(M)步骤，其中基于在步骤605处估计的中间参数将针对源s_j的混合参数、频谱基及激活参数估计为模型参数。

例如，可将混合参数估计为

例如，可通过迭代地应用方程式7及方程式8直到收敛而估计频谱基及激活参数。例如，如果基于经估计频谱基及激活参数的成本足够小，那么迭代可收敛。在C.菲沃特、N贝尔坦(N Bertin)、JL杜列乌(JLDurrieu)的“使用板仓-斋藤(Itakura-Saito)散度的非负矩阵分解：应用于音乐分析(Nonnegative matrix factorization with the Itakura-Saitodivergence：With application to music analysis)”，神经计算，2009年中使用方程式2描述收敛准则的实例，所述案的内容的全文以引用的方式并入本文中(此后称为“参考案3”)。

其中V_j是的简化表示，其为在M步骤中估计的源的功率谱图，1_P，Q代表具有维度P×Q的全单元素矩阵，⊙及分别代表元素乘积及除法。

在另一实例实施例中，为了移除尺度及相位模糊，可在每一EM迭代中通过施加∑_i|a_ij，f|²＝1.、∑_fW_j，fk＝1且接着相应地按比例缩放H_j的行而重新归一化参数A_f、W_j、H_j。

在步骤609处，确定在M步骤中估计的混合参数是否收敛。如果在M步骤中估计的混合参数收敛，那么过程600进行到步骤611，且如果未收敛，那么过程600返回到步骤605。

在步骤611处，使计数器j递增。在步骤613处，确定计数器j是否超过要由重建模型重建的源的数目。如果计数器j超过要由重建模型重建的源的数目，那么过程600进行到步骤615。在另一实例实施例中，可将要估计的参数设置为初始值。如果未超过，那么过程600返回到步骤605。在步骤615处，过程600结束。

在过程600中，通过使用EM估计而针对每一个别源计算频谱基及混合参数。这表示全部源被独立地训练，且因此可并行而非串行执行针对不同源的EM估计。

如图7中说明，过程700从步骤701开始。在过程700中，在针对其对应源的EM估计中输入经由过程600学习的频谱基及混合参数作为固定参数。

在步骤703处，执行EM迭代的期望(E)步骤，其中将源的功率谱图、重建滤波器(例如维纳滤波器、扩展卡尔曼滤波器及类似者)、源之间的频谱协方差矩阵以及麦克风与源之间的交叉协方差矩阵估计为中间参数。

例如，可通过使用方程式2估计J个源的功率谱图其中经由过程600学习的频谱基固定。J表示要由重建模型重建的源的数目。可通过使用方程式3估计此维纳滤波器其中经由过程600学习的混合参数固定。可通过使用方程式4估计源之间的频谱协方差矩阵

在步骤705处，执行EM迭代的最大化(M)步骤，其中基于在步骤703处估计的中间参数将针对源的激活参数估计为模型参数。

例如，可通过迭代地应用方程式8直到收敛而估计激活参数。

在步骤707处，确定在M步骤中估计的功率谱图是否收敛。如果在M步骤中估计的功率谱图收敛，那么过程700进行到步骤709，且如果未收敛，那么过程700返回到步骤703。在步骤709处，过程700结束。

在图6及7中说明的过程中，针对训练阶段且针对测试阶段区别使用源频谱性质及空间性质的不同约束模型。因此，可处理可用现有信息且将其嵌入估计过程中。

在图6及7中说明的过程中，使用IS(板仓-斋藤)散度以例示非负矩阵分解算法。所属领域的技术人员可了解，其它类型的散度也适用。

在测试阶段中的EM迭代达到收敛准则之后，通过应用维纳滤波而重建源的STFT，如在方程式9中给出，其中维纳滤波器是使用方程式3计算。在经估计源及相加噪声在STFT域以及时域中加总到原始输入音频的意义上，此维纳重建是保守的。

替代地，在结合图6及7描述的方法400或方法500的进一步实施例中，过程600可使用经由判别式非负矩阵分解方法学习频谱基的过程替代。图9是说明根据实例实施例的学习混合参数及频谱基的此实例过程900的流程图。

如图9中说明，过程900从步骤901开始。

在过程900中，针对要由重建模型重建的每一源s_j，步骤905-j、907-j及909-j的分支j与其它分支并行开始。除训练不同源之外，全部分支具有相同功能。因此，仅提供所述分支中的分支j的详细描述。

在步骤905-j处，执行EM迭代的期望(E)步骤，其中将源的功率谱图、重建滤波器(例如维纳滤波器、扩展卡尔曼滤波器及类似者)、源之间的频谱协方差矩阵以及麦克风与源之间的交叉协方差矩阵估计为中间参数。例如，可使用方程式2估计J个源的功率谱图可使用方程式3估计维纳滤波器可使用方程式4估计源之间的频谱协方差矩阵可使用方程式5估计麦克风与源之间的交叉协方差矩阵在过程900中的每一分支j的背景中，源的数目J＝1，这是因为仅存在一个所考虑源。

在步骤907-j处，执行EM迭代的最大化(M)步骤，其中基于在步骤905-j处估计的中间参数将针对源s_j的混合参数、频谱基及激活参数估计为模型参数。例如，可使用方程式6估计混合参数。

例如，可通过迭代地应用方程式10及方程式11直到收敛而估计频谱基及激活参数。

其中λ是用于执行稀疏正规化的参数。这里使用广义KL散度来例示非负矩阵分解算法。1_P，Q代表具有维度P×Q的全单元素矩阵，⊙及分别代表元素乘积及除法。在图8中说明V_j，l，。

图8是示意性地说明根据实例实施例的经由判别式非负矩阵分解方法估计频谱基的过程的图式。

如图8中展示，针对在训练阶段中在处理中的目标源的功率谱图V_j，其干扰源是通过加总全部剩余源的功率谱图(V′＝∑_p≠jV_p)且每τ帧循环V′而形成。以此方式，通过分别将其与目标源的功率谱图V_j相加，可针对每一目标源的功率谱图V_j：V_j，1、V_j，2、...、V_j，N/τ产生N/τ个混合源的功率谱图V_j，l。由源形成混合源的全部可能组合的详尽数目远高于N/τ。然而，在此实施例中，通过仅循环全部剩余源的总和而将数目按比例缩小到N/τ。

可通过计算而估计目标源的功率谱图V_j。将目标源的功率谱图V_j输出到其它分支，使得每一分支可计算其功率谱图V′＝∑_p≠jV_p。因此，如果每一分支还未接收全部剩余源的功率谱图，那么其必须在应用方程式10及方程式11之前等待所述功率谱图。

在另一实例实施例中，为了移除尺度及相位模糊，可在每一EM迭代中通过施加∑_i|a_ij，f|²＝1.、∑_fW_jf，k＝1且接着相应地按比例缩放H_j的行而重新归一化参数A_f、W_j、H_j。

在步骤909-j处，确定在M步骤中估计的混合参数是否收敛。如果在M步骤中估计的混合参数收敛，那么分支j进行到步骤913，且如果未收敛，那么分支j返回到步骤905-j。

在步骤913处，确定是否已训练全部源。如果已训练全部源，那么过程900进行到步骤915。如果未训练全部源，那么过程900重复步骤913。在步骤915处，过程900结束。

通过使用过程900替代过程600，可在无来自其它源的干扰的情况下重建干净的源。

此外，在过程900中，在学习期间，判别式学习过程与EM估计过程共同执行，使得在考虑空间及频谱信息两者的算法内部判别地优化频谱基，从而促进根据混合源计算重建信号。

在一些应用案例中，从源的集合/库/超集(通常来自一组已知源)预学习频谱基是可行的。因为源已知，所以源的功率谱图也已知。可通过迭代地应用方程式7及方程式8或方程式10及方程式11直到收敛而预学习频谱基。这使从干净的干源的超集学习频谱基成为可能，因此其独立于现场房间、麦克风及录音设置。此工作可完全离线完成，因此其非计算敏感。

在结合图6及7描述的方法400或方法500的进一步实施例中，可参考一组经预学习频谱基执行步骤607。图10是说明根据实例实施例的将混合参数、频谱基及激活参数估计为M步骤的模型参数的此实例过程1000的流程图。

如图10中说明，过程1000从步骤1001开始。

在步骤1003处，基于在步骤605处估计的中间参数将混合参数估计为模型参数。例如，可使用方程式6估计混合参数。

在步骤1005处，确定是否已从一组频谱基发现针对源s_j的频谱基。如果是，那么过程1000进行到步骤1007。如果否，那么过程1000进行到步骤1009。

在步骤1009处，基于频谱基组W’₁、...、W’_P的每一频谱基W’_p及针对其间仅源s_j产生声音的时段捕获的源s_j的麦克风信号计算源s_j的估计。

在步骤1011处，从所述经估计源选择与源s_j最近似的经估计源。

在步骤1013处，将用于计算选定经估计源的组中的频谱基W’_q设置为要确定的频谱基。

在步骤1007处，可通过迭代地应用方程式8或10直到收敛，且通过将W_i固定为频谱基W’_q而估计激活参数。

在步骤1015处，过程1000结束。

在实例中，可将步骤1009的源s_j的估计计算为功率谱图V_j。将每一经预学习频谱基W_j(其中及是针对给定应用的全部源的超集)保持固定且应用到方程式8或10以迭代地估计H_j直到收敛。在步骤1011处，搜索从全部非负矩阵分解重建(例如，V＝WH)到V_j的最小散度(例如，在参考案3中定义的散度)且将对应W_j固定为最佳频谱基。

在测试阶段期间，期望经分离源的多声道图像总和等于多声道麦克风信号。因此，不同于去混响任务，目标不是恢复原始干净的干源。代替性地，应用需要将每一源的混响空间投影输出到麦克风。因此，针对混响源分离，可在训练阶段期间学习混合参数，且在测试阶段期间执行空间投影。此方法可引起以下益处：1)使训练加速；2)避免训练期间的与算法相关的估计不稳定性及不准确性；3)还可能改进测试阶段中的分离性能。此方法适用于对现场训练阶段具有高计算灵敏度的应用。

替代地，在结合图6及7描述的方法400或方法500的进一步实施例中，过程600可使用其中经由非负矩阵分解方法通过将每一源的麦克风信号的功率谱图(其是针对其间仅所述源产生声音的时段捕获)视为所述源的功率谱图而学习至少一个源的频谱基的学习频谱基及混合参数的过程替代。图11是说明根据实例实施例的学习混合参数及频谱基的此实例过程1100的流程图。

如图11中说明，过程1100从步骤1101开始。

在步骤1103处，将计数器j设置为(例如)1。

在步骤1105处，可将混合参数估计为

其中A_j，f表示特性化为麦克风mic₁、…、mic_I上的源s_j的空间图像s_j1 ^img、…、s_jI ^img与麦克风mic_p上的源s_j的空间图像s_jp ^img之间的比率的混合参数，是麦克风mic_p的信号的协方差矩阵(在此情况中，实际上是仅具有一个值的1×1矩阵，其表示mic_p信号的频谱功率)，且是麦克风mic₁、…、mic_I与mic_p之间的交叉协方差矩阵。

此外，可经由非负矩阵分解方法通过计算麦克风信号的功率谱图X且通过X＝W_jH_j将功率谱图X假定为源s_j的功率谱图而估计源s_j的频谱基W_j。

在步骤1107处，使计数器j递增。

在步骤1109处，确定计数器j是否超过要由重建模型重建的源的数目。如果计数器j超过要由重建模型重建的源的数目，那么过程1100进行到步骤1111。如果未超过，那么过程1100返回到步骤1105。在步骤1111处，过程1100结束。

为了处理具有较长混响时间的现实混响环境，可使用满秩混响模型，其中具有I×I维度的方矩阵A_j对源s_j的空间参数建模，且空间协方差矩阵表示混合参数。可将分离输出简化为源s_j的空间图像的STFT，这是因为目标是获得可恢复混合源的全部源的空间图像。

在方法400或方法500的进一步实施例中，在每一源的功率谱图收敛的条件下完成估计重建模型。估计重建模型包括经由非负矩阵分解方法基于频谱基细化功率谱图。图12是说明在此实施例中学习混合参数及频谱基的实例过程1200的流程图。图13是说明在此实施例中估计重建模型的实例过程1300的流程图。

如图12中说明，过程1200从步骤1201开始。

在步骤1203处，将计数器j设置为(例如)1。在另一实例实施例中，可将要估计的参数设置为初始值。在步骤1205处，将源s_j的混合参数估计为

且将源s_j的功率谱图估计为

其中是源s_j的空间图像的协方差矩阵，v_j，fn是源s_j的功率谱图。在另一实例实施例中，为了移除尺度模糊，可在每一EM迭代中通过施加trace(R_j，f)＝I.而重新归一化混合参数R_j，f，这效仿在其它实施例中描述为∑_i|a_ij，f|²＝1的重新归一化过程。

针对现场训练阶段，J＝1且等于麦克风信号的协方差矩阵：因此可直接计算功率谱图v_j，fn及混合参数R_j，f。通过将及重新归一化trace(R_j，f)＝I重新代入方程式12中，可将源s_j的混合参数估计为

接着可通过将代入方程式13中而计算v_j，fn，使得可将源s_j的功率谱图估计为

在步骤1207处，通过迭代地应用方程式7及方程式8或方程式10及方程式11直到收敛而学习源s_j的频谱基。

在步骤1209处，使计数器j递增。

在步骤1211处，确定计数器j是否超过要由重建模型重建的源的数目。如果计数器j超过要由重建模型重建的源的数目，那么过程1200进行到步骤1213。如果未超过，那么过程1200返回到步骤1205。

在步骤1213处，过程1200结束。

如图13中说明，过程1300从步骤1301开始。在过程1300中，在针对其对应源的EM估计中输入经由过程1200学习的频谱基及混合参数作为固定参数。

在步骤1303处，执行EM迭代的期望(E)步骤以估计中间参数。具体来说，在混合参数R_j，f固定的情况下，将给定参数的麦克风信号的协方差矩阵估计为

在混合参数R_j，f固定的情况下，将给定参数的每一源s_j的空间图像的协方差矩阵估计为

将针对每一源s_j的维纳滤波器估计为

将每一源s_j的空间图像估计为

将每一源的空间图像的协方差矩阵估计为

在步骤1305处，执行EM迭代的最大化(M)步骤以基于在步骤1303处估计的中间参数估计模型参数。

具体来说，通过使用方程式13计算每一源s_j的功率谱图v_j，fn，其中混合参数R_j固定。

接着使用方程式8及2通过非负矩阵分解细化v_j，fn，其中频谱基固定。

在步骤1307处，确定在M步骤中估计的功率谱图是否收敛。如果在M步骤中估计的功率谱图收敛，那么过程1300进行到步骤1309，且如果未收敛，那么过程1300返回到步骤1303。

在步骤1309处，过程1300结束。

在结合图1或3描述的方法100或方法300的进一步实施例中，可通过使用方程式14计算每一源s_j的混合参数R_j执行步骤103或305。可经由EM算法执行步骤105或309，其中在每一源的功率谱图收敛的条件下完成重建模型的估计，且重建模型的估计包括从源的混合参数及源的空间图像的经估计协方差导出功率谱图。图14是说明执行步骤105或309的重建模型的估计的此实例过程1400的流程图。

如图14中说明，过程1400从步骤1401开始。在过程1400中，在针对其对应源的EM估计中输入经由方法100或300学习的混合参数作为固定参数。

在步骤1403处，执行EM迭代的期望(E)步骤以估计中间参数。具体来说，在混合参数R_j，f固定的情况下，使用方程式16估计给定参数的麦克风信号的协方差矩阵。在混合参数R_j，f固定的情况下，使用方程式17估计给定参数的每一源s_j的空间图像的协方差矩阵。使用方程式18估计针对每一源s_j的维纳滤波器。使用方程式19估计每一源s_j的空间图像。使用方程式20估计每一源的空间图像的协方差矩阵。

在步骤1405处，执行EM迭代的最大化(M)步骤以基于在步骤1403处估计的中间参数估计模型参数。

具体来说，通过使用方程式13计算每一源s_j的功率谱图v_j，其中混合参数R_j固定。

在步骤1407处，确定在M步骤中估计的功率谱图是否收敛。如果在M步骤中估计的功率谱图收敛，那么过程1400进行到步骤1409，且如果未收敛，那么过程1400返回到步骤1403。

在步骤1409处，过程1400结束。

从以下枚举实例实施例(EEE)可了解本发明的各种方面。

EEE 1.一种产生用于源分离的重建模型的方法，其包括：

通过处理器在假定针对至少一个源中的每一个别者的第一麦克风信号分别由至少两个麦克风针对其间仅所述个别者产生声音的时段捕获的情况下基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数；及

通过所述处理器在假定第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获的情况下基于所述混合参数及所述第二麦克风信号估计所述重建模型。

EEE 2.根据EEE 1所述的方法，其中所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。

EEE 3.根据EEE 2所述的方法，其中将针对每一源的所述混合参数特性化为所述源的空间协方差。

EEE 4.根据EEE 3所述的方法，其进一步包括：

通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习所述至少一个源的频谱基，及

其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。

EEE 5.根据EEE 4所述的方法，其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化所述功率谱图。

EEE 6.根据EEE 3所述的方法，其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

所述重建模型的所述估计包括从所述源的所述混合参数及所述源的空间图像的经估计协方差导出所述功率谱图。

EEE 7.根据EEE 2所述的方法，其中将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。

EEE 8.根据EEE 7所述的方法，其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基，及

EEE 9.根据EEE 1所述的方法，其中所述重建模型经调适以重建所述至少一个源中的每一者的源信号。

EEE 10.根据EEE 9所述的方法，其进一步包括：

通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号确定所述至少一个源中的每一者的频谱基，及

EEE 11.根据EEE 10所述的方法，其中在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计，及

所述重建模型的所述估计包括从所述至少一个源的经估计协方差导出所述功率谱图。

EEE 12.根据EEE 10所述的方法，其中针对所述至少一个源中的每一者，所述频谱基的所述确定包括：

基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号，估计所述源；及

选择与所述源最近似的所述经估计源中的一者；及

将用于估计所述选定经估计源的所述预定频谱基设置为要确定的所述频谱基。

EEE 13.一种用于源分离的方法，其包括：

分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号；

通过处理器基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数；

分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号；

通过所述处理器基于所述混合参数及所述第二麦克风信号估计所述重建模型；及

通过所述处理器通过应用所述重建模型而执行所述源分离。

EEE 14.根据EEE 13所述的方法，其中所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。

EEE 15.根据EEE 14所述的方法，其中将针对每一源的所述混合参数特性化为所述源的空间协方差。

EEE 16.根据EEE 15所述的方法，其进一步包括：

EEE 17.根据EEE 16所述的方法，其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

EEE 18.根据EEE 15所述的方法，其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

EEE 19.根据EEE 14所述的方法，其中将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。

EEE 20.根据EEE 19所述的方法，其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基，及

EEE 21.根据EEE 13所述的方法，其中所述重建模型经调适以重建所述至少一个源中的每一者的源信号。

EEE 22.根据EEE 21所述的方法，其进一步包括：

EEE 23.根据EEE 22所述的方法，其中在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计，及

EEE 24.根据EEE 22所述的方法，其中针对所述至少一个源中的每一者，所述频谱基的所述确定包括：

选择与所述源最近似的所述经估计源中的一者；及

EEE 25.一种信号处理设备，其包括经配置以执行根据EEE 1到EEE 12中的任一者所述的方法的处理器。

Claims

1.一种产生用于源分离的重建模型的方法，其特征在于包括：

通过处理器在假定针对至少一个源中的每一个别者的第一麦克风信号分别由至少两个麦克风针对其间仅所述个别者产生声音的时段捕获的情况下基于所述第一麦克风信号学习(103)用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数；及

通过所述处理器在假定第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获的情况下基于所述混合参数及所述第二麦克风信号估计(105)所述重建模型。

2.根据权利要求1所述的方法，其特征在于所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。

3.根据权利要求2所述的方法，其特征在于将针对每一源的所述混合参数特性化为所述源的空间协方差。

4.根据权利要求3所述的方法，其特征在于其包括：

通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习(403)所述至少一个源的频谱基，及

其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计(405)所述重建模型。

5.根据权利要求4所述的方法，其特征在于在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化(1305)所述功率谱图。

6.根据权利要求3所述的方法，其特征在于在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

7.根据权利要求2所述的方法，其特征在于将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。

8.根据权利要求7所述的方法，其特征在于其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基，及

9.根据任何前述权利要求所述的方法，其特征在于所述重建模型经调适以重建所述至少一个源中的每一者的源信号。

10.根据权利要求9所述的方法，其特征在于其进一步包括：

11.根据权利要求10所述的方法，其特征在于在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计，及

12.根据权利要求10或权利要求11所述的方法，其特征在于针对所述至少一个源中的每一者，所述频谱基的所述确定包括：

基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号，估计所述源，其中所述预定频谱基是来自已知源的集合的经预学习频谱基；及

选择与所述源最近似的所述经估计源中的一者；及

13.根据前述权利要求中的任一权利要求所述的方法，其进一步包括：

捕获所述第一麦克风信号及/或所述第二麦克风信号。

14.根据前述权利要求中的任一权利要求所述的方法，其进一步包括：

通过所述处理器通过应用所述重建模型而执行源分离。

15.一种用于源分离的方法，其特征在于包括：

分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获(303)针对每一所述个别者的第一麦克风信号；

通过处理器基于所述第一麦克风信号学习(305)用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数；

分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获(307)第二麦克风信号；

通过所述处理器基于所述混合参数及所述第二麦克风信号估计(309)所述重建模型；及

通过所述处理器通过应用所述重建模型而执行(311)所述源分离。

16.根据权利要求15所述的方法，其特征在于所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。

17.根据权利要求16所述的方法，其中将针对每一源的所述混合参数特性化为所述源的空间协方差。

18.根据权利要求17所述的方法，其进一步包括：

19.根据权利要求18所述的方法，其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

20.根据权利要求17所述的方法，其中在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计，及

21.根据权利要求16所述的方法，其中将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。

22.根据权利要求21所述的方法，其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基，及

23.根据权利要求15所述的方法，其中所述重建模型经调适以重建所述至少一个源中的每一者的源信号。

24.根据权利要求23所述的方法，其进一步包括：

25.根据权利要求24所述的方法，其中在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计，及

26.根据权利要求24所述的方法，其中针对所述至少一个源中的每一者，所述频谱基的所述确定包括：

选择与所述源最近似的所述经估计源中的一者；及

27.一种信号处理设备，其特征在于包括经配置以执行根据权利要求1到14中的任一权利要求所述的方法的处理器。