CN109074818B

CN109074818B - 音频源参数化

Info

Publication number: CN109074818B
Application number: CN201780028437.8A
Authority: CN
Inventors: 王珺
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2016-04-08
Filing date: 2017-04-05
Publication date: 2023-05-05
Anticipated expiration: 2037-04-05
Also published as: EP3440671A1; CN109074818A; EP3440671B1; WO2017176941A1

Abstract

本发明描述一种用于从混合音频信号(102)估计音频源(101)的源参数的方法(600)。所述混合音频信号(102)包括多个帧。所述混合音频信号(102)可表示为频域中的混合音频矩阵且所述音频源(101)可表示为所述频域中的源矩阵。所述方法(600)包括基于混合矩阵(225)更新(601)非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计。此外，所述方法(600)包括基于所述非混合矩阵(221)且基于所述混合音频信号(102)更新(602)所述混合矩阵(225)。另外，所述方法(600)包括迭代(603)所述更新步骤(601、602)直到满足整体收敛准则。

Description

音频源参数化

技术领域

本发明涉及音频内容处理，且更特定来说，涉及一种用于从混合音频信号估计音频源的源参数的方法及系统。

背景技术

多声道格式的混合音频信号(例如立体声信号、波束成形、5.1或7.1信号等等)是通过在演播室中混合不同音频源来创建，或在真实环境中从多个音频源记录生成。源参数化是估计这些音频源的源参数以用于进一步音频处理应用的任务。此类源参数包含关于音频源的信息，例如混合参数、位置元数据、频谱功率参数、频谱及时间特征等等。源参数对广泛范围的音频处理应用是有用的。例如，当使用一或多个麦克风记录听觉场景时，可能有益的是为不同的后续音频处理任务分离及标识音频源相关信息。音频处理应用的实例包含空间音频编码、3D(三维)声音分析及合成及/或重新混合/重新创作。与创建原始混合音频信号的环境相比，重新混合/重新创作应用可在扩展的回放环境中显现音频源。出于例如自动语音识别的各种目的，其它应用利用音频源参数来实现音频源特定分析及后处理，例如增强、衰减或调平某些音频源。

鉴于前述内容，所属领域中需要一种用于即使关于音频源或关于捕获过程的先验信息不可用(例如记录装置的性质、房间的声学性质等等)仍从混合音频信号估计音频源参数的解决方案。此外，需要一种用于在嘈杂环境中估计源参数的强健无监督解决方案。

本发明解决提供用于以准确且强健的方式从混合音频信号估计多个音频源的源参数的方法的技术问题。

发明内容

根据方面，描述一种用于从I个混合音频信号估计J个音频源的源参数的方法，其中I,J＞1。所述混合音频信号通常包含多个帧。所述I个混合音频信号可表示为频域中的混合音频矩阵且所述音频源可表示为所述频域中的源矩阵。特定来说，可使用时域到频域变换(例如短期傅里叶变换)将所述混合音频信号从所述时域变换到所述频域。

所述方法包含对于帧n更新非混合矩阵，所述非混合矩阵适应于提供从所述混合音频矩阵对所述源矩阵的估计。基于混合矩阵更新所述非混合矩阵，所述混合矩阵适应于提供从所述源矩阵对所述混合音频矩阵的估计。作为所述更新步骤的结果，获得(经更新)非混合矩阵。

特定来说，可使用S_fn＝Ω_fnX_fn确定所述帧n及所述频域的频段f的所述源矩阵的估计。此外，可基于X_fn＝A_fnS_fn确定所述帧n及所述频段f的所述混合音频矩阵的估计。在上述公式中，S_fn是所述源矩阵(的估计)，Ω_fn是所述非混合矩阵，A_fn是所述混合矩阵，且X_fn是所述混合音频矩阵。

此外，所述方法包含基于所述(经更新)非混合矩阵且基于所述帧n的所述I个混合音频信号更新所述混合矩阵。

另外，所述方法包含迭代所述更新步骤直到满足整体收敛准则。换句话说，可使用所述先前更新的混合矩阵更新所述非混合矩阵，且可使用所述先前更新的非混合矩阵更新所述混合矩阵。可针对多次迭代执行这些更新步骤直到满足所述整体收敛准则。所述整体收敛准则可取决于两次连续迭代之间的所述混合矩阵的变化程度。特定来说，一旦两次连续迭代之间的所述混合矩阵的所述变化程度等于或小于预定阈值，就可终止所述迭代更新程序。

此外，所述方法可包含确定所述音频源的协方差矩阵。可基于所述混合音频矩阵确定所述音频源的所述协方差矩阵。例如，可基于所述混合音频矩阵且基于所述非混合矩阵确定所述音频源的所述协方差矩阵。可基于

确定帧n及所述频域的所述频段f的所述音频源的所述协方差矩阵R_SS,fn。可基于所述音频源的所述协方差矩阵更新所述非混合矩阵，由此实现有效且精确地确定所述非混合矩阵。

通过基于所述非混合矩阵重复地更新所述混合矩阵且接着使用所述经更新混合矩阵来更新所述非混合矩阵，可确定精确混合矩阵及/或精确非混合矩阵，由此实现确定所述音频源的精确源参数。为了这个目的，所述方法可包含：在满足所述收敛准则之后，对所述混合矩阵执行后处理以确定关于所述音频源的一或多个(额外)源参数(例如关于所述音频源的不同位置的位置信息)。

可通过基于对于所述帧n之前的帧确定的非混合矩阵初始化所述非混合矩阵来初始化所述迭代程序。此外，可基于所述(经初始化)非混合矩阵且基于所述帧n的所述I个混合音频信号初始化所述混合矩阵。通过利用先前帧的估计结果来初始化当前帧的估计方法，可改善所述迭代程序的收敛速度及所述估计结果的精度。

所述方法可包含基于所述混合音频矩阵确定所述混合音频信号的协方差矩阵。特定来说，可基于帧n周围的窗口内的多个帧的协方差矩阵的平均值确定所述帧n及所述频域的所述频段f的所述混合音频信号的所述协方差矩阵R_XX,fn。举例来说，可基于

确定帧k的所述协方差矩阵。可基于

确定所述混合音频信号的所述协方差矩阵，其中T是用于确定所述协方差矩阵R_XX,fn的帧的数目。接着可基于所述混合音频信号的所述协方差矩阵更新所述混合矩阵，由此实现有效且精确地确定所述混合矩阵。此外，确定所述混合音频信号的所述协方差矩阵可包括归一化所述帧n及所述频段f的所述协方差矩阵，使得所述帧n及所述频段f的所述混合音频信号的能量的总和等于预定归一化值(例如等于1)。通过这样做，可改善所述方法的收敛性质。

所述方法可包含确定所述混合音频信号内的噪声的协方差矩阵。可基于所述混合音频信号确定噪声的所述协方差矩阵。此外，噪声的所述协方差矩阵可与所述混合音频信号的所述协方差矩阵成比例。另外，可确定噪声的所述协方差矩阵，使得仅噪声的所述协方差矩阵的主对角线包含非零矩阵项(以考虑所述噪声不相关的事实)。替代地或另外，噪声的所述协方差矩阵的所述矩阵项的大小可随着所述迭代程序的迭代次数q增加而减小(由此支持所述迭代程序朝向最优估计结果的收敛)。可基于所述混合音频信号内的噪声的所述协方差矩阵更新所述非混合矩阵，由此实现有效且精确地确定所述非混合矩阵。

更新所述非混合矩阵的步骤可包含改善(例如，最小化或优化)非混合目标函数的步骤，所述非混合目标函数取决于所述非混合矩阵或是所述非混合矩阵的函数。以类似方式，更新所述混合矩阵的步骤可包含改善(例如，最小化或优化)混合目标函数的步骤，所述混合目标函数取决于所述混合矩阵或是所述混合矩阵的函数。通过考虑此类目标函数，可以精确方式确定所述混合矩阵及/或所述非混合矩阵。

所述非混合目标函数及/或所述混合目标函数可包含一或多个约束项，其中约束项通常取决于或指示所述非混合矩阵或所述混合矩阵的所期望性质。特定来说，约束项可反映所述混合矩阵或所述非混合矩阵的性质，这是所述音频源的已知性质的结果。所述一或多个约束项可分别使用一或多个约束权重包含到所述非混合目标函数及/或所述混合目标函数中，以增加或减少所述一或多个约束项对所述非混合目标函数及/或所述混合目标函数的影响。通过考虑一或多个约束项，可进一步增加所述所估计混合矩阵及/或非混合矩阵的质量。

所述混合目标函数(用于更新所述混合矩阵)可包含以下各者中的一或多者：取决于所述混合矩阵的所述矩阵项的非负性的约束项；取决于所述混合矩阵的非零矩阵项的数目的约束项；取决于所述混合矩阵的不同列或不同行之间的相关性的约束项；及/或取决于帧n的所述混合矩阵与(直接)前一帧的混合矩阵的偏差的约束项。

替代地或另外，所述非混合目标函数(用于更新所述非混合矩阵)可包含以下各者中的一或多者：取决于所述非混合矩阵从所述混合音频信号的协方差矩阵提供所述音频源的协方差矩阵使得所述音频源的所述协方差矩阵的非零矩阵项集中于所述协方差矩阵的所述主对角线的能力的约束项；取决于所述非混合矩阵的可逆性程度的约束项；及/或取决于所述非混合矩阵的列矢量或行矢量的正交性程度的约束项。

可以迭代方式改善所述非混合目标函数及/或所述混合目标函数直到满足子收敛准则，以分别更新所述非混合矩阵及/或所述混合矩阵。换句话说，用于更新所述混合矩阵及/或用于更新所述非混合矩阵的更新步骤自身可包含迭代程序。

特定来说，改善所述混合目标函数(且因此更新所述混合矩阵)可包含将所述混合矩阵与乘数矩阵重复地相乘直到满足所述子收敛准则，其中所述乘数矩阵可取决于所述非混合矩阵及所述混合音频信号。特定来说，所述乘数矩阵可取决于或可等于

其中M＝ΩR_XXΩ^H+α_uncorr1；其中D＝-R_XXΩ^H+α_sparse1；其中Ω是所述非混合矩阵；其中R_XX是所述混合音频信号的所述协方差矩阵；其中α_uncorr及α_sparse是约束权重；其中ε是实数；且其中A是所述混合矩阵。在上述项中，为提供简化记号，已省略帧索引n及频段索引f。通过重复地应用乘数矩阵，可以强健且精确的方式确定所述混合矩阵。

改善所述非混合目标函数(且因此更新所述非混合矩阵)的步骤可包含将梯度与所述非混合矩阵重复地相加直到满足所述子收敛准则。所述梯度可取决于所述混合音频信号的协方差矩阵。使用梯度方法，可以精确且强健的方式更新所述非混合矩阵。

根据另一方面，描述一种用于从I个混合音频信号估计J个音频源的源参数的系统，其中I,J＞1。所述I个混合音频信号可表示为频域中的混合音频矩阵且所述J个音频源可表示为所述频域中的源矩阵。所述系统包含参数学习器，所述参数学习器适应于基于混合矩阵更新非混合矩阵，所述非混合矩阵适应于提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵适应于提供从所述源矩阵对所述混合音频矩阵的估计。此外，所述参数学习器适应于基于所述非混合矩阵且基于所述I个混合音频信号更新所述混合矩阵。所述系统适应于按重复方式例示所述参数学习器直到满足整体收敛准则。

根据另一方面，描述一种软件程序。所述软件程序可适应于在处理器上执行且当在所述处理器上实行时执行本发明中所概述的方法步骤。

根据另一方面，描述一种存储媒体。所述存储媒体可包含软件程序，所述软件程序适应于在处理器上执行且当在所述处理器上实行时执行本发明中所概述的方法步骤。

根据另一方面，描述一种计算机程序产品。所述计算机程序可包含用于在计算机上执行时执行本发明中所概述的方法步骤的可执行指令。

应注意，包含如本专利申请案中所概述的优选实施例的方法及系统可单独使用或组合本发明中所揭示的其它方法及系统使用。此外，本专利申请案中所概述的方法及系统的所有方面可任意组合。特定来说，权利要求书的特征可以任意方式彼此组合。

附图说明

下文参考附图以示范性方式阐释本发明，其中

图1展示具有多声道信号的多个音频源及多个混合音频信号的实例情境；

图2展示用于估计多个音频源的源参数的实例系统的框图；

图3展示实例约束参数学习器的框图；

图4展示另一实例约束参数学习器的框图；

图5A及5B分别展示用于分别更新混合矩阵及非混合矩阵的实例迭代处理器；及

图6展示用于从多个混合音频信号估计音频源的源参数的实例方法的流程图。

具体实施方式

如上文所概述，本发明涉及从混合音频信号估计音频源的源参数。图1绘示源参数估计的实例情境。特定来说，图1绘示位于声学环境内的不同位置处的多个音频源101。此外，多个混合音频信号102是由麦克风在声学环境内的不同位置处捕获。源参数估计的目的是从混合音频信号102导出关于音频源101的信息。特定来说，本发明中描述用于源参数化的无监督方法，其可提取有意义的源参数，可发现观测到的混合音频信号下方的结构，且可提供给定数据及约束的有用表示。

本发明中使用以下记号：

·A.B表示两个矩阵A及B的逐元素乘积；

·

表示两个矩阵A及B的逐元素除法；

·B^-1表示矩阵B的矩阵求逆；

·B^H在B是实值矩阵的情况下表示B的转置，且在B是复值矩阵的情况下表示B的共轭转置；且

·1表示具有全1的合适维度的矩阵。

图2展示用于估计源参数的实例系统200的框图。系统200的输入包含具有I个音频声道的多声道音频信号或混合音频信号102，表达为x_i(t),i＝1,…,I,t＝1,…Z。混合音频信号102可转换成频域，例如短期傅里叶变换(STFT)域，使得X_fn是表示I个混合音频信号102的STFT的I×1矩阵(被称为混合音频矩阵)，其中f＝1,…,F是频段索引，且其中n＝1,…,N是时间帧索引。混合音频信号的混合模型可以矩阵形式呈现为：

X_fn＝A_fnS_fn+B_fn (1)

其中S_fn是表示J个未知音频源的STFT的维度矩阵J×1(在本文中被称为源矩阵)，A_fn是表示可频率相关且时变的混合参数的维度矩阵I×J(在本文中被称为混合矩阵)，且B_fn是表示加性噪声加扩散环境信号的维度矩阵I×1(在本文中被称为噪声矩阵)。

同样地，从观测到的混合音频信号102到未知音频源101的逆混合过程可以类似矩阵形式建模为：

其中

是表示J个所估计音频源的STFT的维度矩阵J×1(在本文中被称为估计源矩阵)，Ω_fn是表示逆混合参数或非混合参数的维度矩阵J×I(在本文中被称为非混合矩阵)。

在本发明中，描述用于估计在不同的后续音频处理任务中使用的源参数的无监督学习方法及系统200。同时，如果先验知识可用，那么可扩展方法及系统200以将先验信息合并入在学习方案内。源参数可包含混合参数A_fn及非混合参数Ω_fn，及/或未知音频源101的所估计频谱及时间参数。

系统200可包含以下模块：

·混合预处理器201，其适应于处理混合音频信号102且输出混合音频信号102的经处理协方差矩阵R_XX,fn 222。

·混合参数学习器202，其适应于在第一输入211处获取混合音频信号102的协方差矩阵222及非混合参数Ω_fn 221，且在第一输出213处提供混合参数或混合矩阵A_fn225。替代地或另外，混合参数学习器202适应于在第二输入212处获取混合参数A_fn225、源预处理器203的输出信号224及可能是混合音频信号102的协方差矩阵222，且在第二输出214处提供非混合参数或非混合矩阵Ω_fn 221。

·源预处理器203，其适应于将混合音频信号102的协方差矩阵222及非混合参数Ω_fn 221当作输入。另外，输入可包含可用来调节协方差矩阵的关于音频源101及/或噪声的先验知识223(如果可用)。源预处理器203输出音频源101的协方差矩阵R_SS,fn及噪声的协方差矩阵R_BB,fn。

·迭代处理器204，其适应于迭代地应用模块202及203直到满足一或多个收敛准则。在收敛之后，输出所学源参数(例如，如图2所展示的混合参数A_fn 225)且可能将其提交给后处理205。

表1绘示参数学习器202的实例输入及输出。

表1

在下文中，描述系统200的不同模块的实例。

混合预处理器201可读入I个混合音频信号102且可应用时域到频域变换(例如STFT变换)以提供频域混合音频矩阵X_fn。可如下计算混合音频信号102的协方差矩阵R_XX, _fn222：

其中n是当前帧索引，且其中T是变换的分析窗口的帧计数。

另外，混合音频信号102的协方差矩阵222可通过每TF片的混合音频信号102的能量来归一化，使得给定TF片的混合音频信号102的所有归一化能量的总和是1：

其中ε₁是相对小的值(例如，10^-6)以避免被零除，且trace(·)返回括号内的矩阵的对角线条目的总和。

源预处理器203可适应于将音频源的协方差矩阵R_SS,fn计算为：

可假设每一混合音频信号102中的噪声彼此不相关，这从实际观点来看不会限制一般性。因此，噪声的协方差矩阵是对角线矩阵，其中所有对角线条目可被初始化为与混合音频信号102的混合协方差矩阵的轨迹成比例，且其中比例因子可随着迭代处理器的迭代次数而减小：

其中Q是总迭代次数且q是迭代处理期间的当前迭代计数。

如果关于音频源101及/或噪声的先验知识223可用，那么可在源预处理器203内采用高级方法。

混合参数学习器202可实施通过最小化及/或优化成本函数(或目标函数)来确定音频源101的混合参数225及非混合参数221的学习方法。成本函数可取决于混合音频矩阵及混合参数。在实例中，可如下定义用于学习混合参数A_fn(或当省略频率索引f及帧索引n时为A)的此类成本函数：

其中‖·‖_F表示弗罗贝尼乌斯范数。

可以相同方式定义用于学习非混合参数Ω_fn(或Ω)的成本函数。通过用Ω替换A且用S替换X来改变成本函数的输入。因此，成本函数可取决于源矩阵及非混合参数。在对应于方程式(7)的实例的实例中：

替代地，值得注意的是，如果要考虑噪声模型，那么可使用利用负对数似然的成本函数，例如：

其中

且其中R_BB,fn是噪声信号的协方差矩阵。通常，如果噪声被认为是不相关信号，那么R_BB,fn是对角线矩阵。可观测到，方程式(9)的成本函数与方程式(7)及(8)的成本函数呈相同形式。

可应用不同优化技术来学习混合参数及/或非混合参数。特定来说，学习混合/非混合参数的问题可被认为是最小化问题：

A＝argmin E(A) (10)

Ω＝argmin E(Ω) (11)

系统200可通过求解

以确定混合参数的优化值来使用逆矩阵方法，如下：

A＝R_XXΩ^H(ΩR_XXΩ^H)^-1 (12)

Ω＝R_SSA^H(AR_SSA^H+R_BB)^-1 (13)

混合参数学习器202的成功且有效的设计及实施方案通常取决于基于先验知识223对正规化、预处理及后处理的适当使用。为了这个目的，可在混合参数学习器202内考虑一或多个约束，由此实现提取及/或标识物理上重要且有意义的隐藏源参数。

图3绘示利用一或多个约束311、312来确定混合参数225及/或确定非混合参数221的混合参数学习器302。可根据混合参数A及/或非混合参数Ω的不同性质及物理意义施加不同约束311、312。

用于学习混合参数A的实例约束311：

·非负性约束：根据非负性约束，所有所学混合参数A可被约束为正值或零。实际上，尤其是对于处理演播室中创建的混合音频信号102，例如电影及电视节目，可能有效的是假设混合参数A非负。事实上，对于在演播室环境中的内容创建，负混合参数即使并非不可能也是罕见的。不利用非负性约束的混合参数学习器202、302可造成可听伪声、空间失真及/或不稳定性。例如，如果不施加非负性约束，那么可在系统200内生成假异相音频源。此类异相音频源通常在执行例如向上混合的后处理时引入可听伪声、能量积累及空间失真。

·稀疏性约束：稀疏性约束可迫使混合参数学习器202、302支持A的稀疏解，这意味着混合矩阵A具有增加数目的零条目。当例如音频源101的数目的信息未知时，这个性质在无监督学习的背景下通常是有益的。例如，当音频源101的数目被高估(这意味着高于音频源101的实际数目)时，无约束学习器202、302可输出混合矩阵A，混合矩阵A是合法解，但具有高于最优解的多个非零元素。此类额外非零元素通常对应于假音频源，其可能会在后处理205的背景下引入不稳定性及伪声。可通过施加稀疏性约束来移除此类非零元素。

·不相关性约束：不相关性约束可迫使参数学习器202、302更偏向于具有混合矩阵A内的不相关列的解。这个约束可用于在无监督学习中筛选出假音频源。

·组合的稀疏性及不相关性约束：可能有益的是使学习器202、302应用维度特定稀疏性约束，这意味着假设A仅沿第一维度而非第二维度稀疏。可通过施加稀疏性及不相关性约束两者来实现此类维度特定稀疏性。

·一致性约束：域知识指示混合矩阵A通常随时间展现一致性性质，这意味着当前帧的混合参数通常与先前帧的混合参数一致，而无突变。

此外，为了学习非混合参数Ω，可在学习器202、302内强制执行以下约束中的一或多者。实例约束是：

·可对角化性约束：可对角化性约束可迫使参数学习器202、302搜索Ω的解，使得非混合矩阵将R_SS对角化，这意味着可对角化性约束有利于使音频源101的估计彼此不相关。音频源101之间的不相关性的假设通常使无监督学习系统200能够迅速地收敛到有意义的音频源101。即，相应约束项可取决于非混合矩阵从混合音频信号的协方差矩阵R_XX提供音频源的协方差矩阵R_SS使得音频源的协方差矩阵的非零矩阵项集中于主对角线的能力(例如，约束项可取决于R_SS的对角化性程度)。可基于下文所定义的度量A确定对角化性程度。

·可逆性约束：关于非混合参数的可逆性约束可用作阻止成本函数的最小值收敛到零解的约束。

·正交性约束：正交性可用来减少学习器202、302在其内操作的空间，由此进一步加速学习系统200的收敛。

虽然成本函数可包含例如如方程式(7)及(8)中所表达的弗罗贝尼乌斯范数或如方程式(9)中所表达的负对数似然项的项，但代替如本发明中所描述的成本函数或除了如本发明中所描述的成本函数之外，还可使用其它成本函数。明确来说，可使用额外约束项来调节学习以实现快速收敛及改善性能。例如，约束成本函数可由以下方程式给出

E(A)＝‖(X^H-(AS)^H)‖_F ²+E_uncorr+E_sparse (14)

其中E_uncorr是不相关性约束的项：

E_uncorr＝α_uncorr‖A1‖_F ² (15)

且E_sparse是稀疏性约束的项：

不相关性及/或稀疏性的水平可随着正规化系数α_uncorr及/或α_sparse的增加而增加。举例来说，α_uncorr∈[0,10]且α_sparse∈[0.0,0.5]。

实例约束学习器302可通过求解

以确定混合参数的优化值来使用逆矩阵方法，如下：

A＝(R_XXΩ^H-α_sparse1)(ΩR_XXΩ^H+α_uncorr1)^-1 (17)

然而，关于约束，逆矩阵方法可能存在限制。用于强制执行非负性约束的可能方法是在每次计算方程式(17)之后使A＝A₊，其中矩阵A的正分量A₊及负分量A_-分别被定义如下：

用于施加非负性的此类方法可能不一定收敛到全局最优值。另一方面，如果不强制执行非负性约束，这意味着如果方程式(16)中的条件

不成立，那么可能难以施加L1范数稀疏性约束，如方程式(16)中所定义。

代替使用逆矩阵方法或除了使用逆矩阵方法之外，还可使用在施加不同约束方面灵活的无监督迭代学习方法。可使用这种方法来发现观测到的混合音频信号102下方的结构，提取有意义的参数，及标识给定数据的有用表示。可以相对简单的方式实施迭代学习方法。

当施加例如L1范数稀疏性的约束时，可能相关的是通过乘法更新来解决问题，这是因为不再存在闭合形式解。此外，假定非负初始化及非负乘数，那么乘法迭代学习器自然地强制执行非负性约束。另外，乘法更新方法还为病态情况提供稳定性。假定病态ΩR_XXΩ^H，那么乘法更新方法引导学习器202输出强健且稳定的混合参数A。此类病态情况可能会发生在无监督学习的频率上，尤其是当音频源101的数目被高估时或当所估计音频源101彼此高度相关时。在这些情况下，矩阵ΩR_XXΩ^H是奇异的(具有低于其维度的秩)，使得使用方程式(12)及(13)中的逆矩阵方法可能会导致数值问题且可能变得不稳定。

当使用乘法更新方法时，通过用非负乘数迭代地更新混合参数的先前值来获得混合参数的当前值。仅出于说明目的，可从具有非负乘数的混合参数的先前值导出混合参数的当前值，如下：

其中M＝ΩR_XXΩ^H+α_uncorr1，D＝-R_XXΩ^H+α_sparse1，且其中ε是小值(通常，ε＝10^-8)以避免被零除。在上文中，α_sparse及/或α_uncorr可为零。

当α_sparse＝0且α_uncorr＝0时，上述更新方法与无稀疏性约束或不相关性约束的无约束学习器相同。可通过增加正规化系数或约束权重α_uncorr及α_sparse来宣告不相关性水平及稀疏性水平。可凭经验取决于不相关性及/或稀疏性的所期望程度设置这些系数。通常，α_uncorr∈[0,10]且α_sparse∈[0.0,0.5]。替代地，可基于例如信号失真比的目标度量学习最优正规化系数。已展示使用乘法更新方法的成本函数E(A)的优化是收敛的。

尽管M通常是可对角化的且正定的，但经由如由方程式(12)或(17)所给出的逆矩阵方法获得的混合参数可能不一定是正的。与此对比，当根据方程式(19)通过作为正乘数的更新因子更新混合参数值时，可确保混合参数的优化过程中的非负性，其限制条件是混合参数的初始值是非负的。根据方程式(19)使用乘法更新方法获得的混合参数可保持为零，其限制条件是混合参数的初始值是零。

可为无非负性约束的学习器202、302扩展乘法更新方法，这意味着允许A含有非负条目及负条目两者：A＝A₊-A_-。仅出于说明目的，混合参数的当前值可通过单独地更新其非负部分及负部分来导出，如下：

其中D_p＝-R_XXΩ^H-A_-M+α_sparse1，D_n＝R_XXΩ^H-A₊M+α_sparse1，M＝ΩR_XXΩ^H+α_uncorr1，且ε是小值(通常，ε＝10^-8)以避免被零除。

如图4所展示，约束学习器302可适应于应用迭代处理器411来学习混合参数且应用迭代处理器412来学习非混合参数。可在约束学习器302内应用乘法更新方法。此外，代替或结合乘法更新方法，可使用可维持非负性的不同优化方法。在实例中，实施非负性约束的二次编程方法(例如，被实施为MATLAB函数pdco()等等)可用来在维持非负性的同时学习参数值。在另一实例中，内点优化器(例如，在软件库IPOPT中实施)可用来在维持非负性的同时学习参数值。此类方法可被实施为迭代方法、递归方法等等。还应注意，包含乘法更新方案的此类优化方法可应用于各种成本或目标函数中的任一者，包含但不限于本发明内所提供的实例(例如方程式(7)、(8)或(9)中所给出的成本或目标函数)。

图5A绘示迭代地应用乘法更新器511的迭代处理器411。首先，可使用例如随机值设置混合参数A的初始非负值。替代地，可从先前帧的混合参数的值继承混合参数的初始值，A_fn＝A_fn-1，使得一致性约束间接施加到学习器302。接着通过将当前值与乘数相乘来迭代地更新混合矩阵A的值(如例如由方程式(19)所指示)。迭代程序在收敛后就终止。收敛准则(在本文中也被称为子收敛准则)可例如包含两次连续迭代之间的混合矩阵的值差。如果此类差变得小于收敛阈值，那么可终止迭代程序。替代地或另外，如果达到最大允许迭代次数，那么可终止迭代程序。接着，迭代处理器411可输出混合参数225的收敛值。

表2中展示混合参数的约束学习器302使用乘法方法的实例实施方案：

表2

在上文中，α_sparse及/或α_uncorr可为零。

乘法更新器可以类似方式应用于学习非混合参数Ω。在图5B中，描述具有约束学习器512的迭代处理器412，约束学习器512利用实例梯度更新方法来强制执行可对角化性。根据这种梯度更新方法，可将梯度与非混合矩阵重复地相加直到满足子收敛准则。这可被认为对应于改善非混合目标函数。梯度可取决于混合音频信号的协方差矩阵。表3展示用于确定非混合参数的此类梯度更新方法的伪码。

表3

可通过测量迭代处理器204的两次迭代之间的混合参数A的差来确定图2中的迭代处理器204的收敛。差度量可与表2中使用的差度量相同。接着可输出混合参数以用于计算其它源元数据及其它类型的后处理205。

因而，图2的迭代处理器204可利用外迭代来以交替方式基于混合参数更新非混合参数及基于非混合参数更新混合参数。此外，迭代处理器204，且尤其是参数学习器202，可利用内迭代来分别更新非混合参数及更新混合参数(使用迭代处理器412及411)。因此，可以强健且精确的方式确定源参数。

在下文中，描述实例后处理205。可从混合参数A直接估计音频源的位置元数据。假设已在确定混合参数A时强制执行非负性，那么混合矩阵的每列表示对应音频源的平移系数。平移系数的平方可表示混合音频信号102内的音频源101的能量分布。因此，可估计音频源101的位置为能量加权质心：

其中P_j是第j音频源的空间位置，其中P_i是对应于第i混合音频信号102的位置，且其中w_ij是第i混合音频信号中的第j音频源的能量分布：

替代地或另外，可通过反转质心振幅平移(CMAP)算法且通过使用以下方程式来估计每一音频源101的空间位置：

其中α_distance是惩罚远离音频源101的发射扬声器的CMAP中的约束项的权重，且其中α_distance通常被设置为0.01。

对于传统的基于声道的混合音频信号(例如5.1及7.1多声道信号)估计的位置元数据通常仅含有2D(二维)信息(x及y，这是因为混合音频信号仅含有水平信号)。可使用预定义半球函数估计z：

其中

是音频源的位置(x,y)与空间的中心(0.5,0.5)之间的相对距离，且其中h_max是范围通常为0到1的最大物体高度。

图6展示用于从I个混合音频信号102估计J个音频源101的源参数的实例方法600的流程图，其中I,J＞1。混合音频信号102包含多个帧。I个混合音频信号102可表示为频域中的混合音频矩阵且音频源101可表示为频域中的源矩阵。

方法600包含基于混合矩阵225更新601非混合矩阵221，非混合矩阵221适应于提供从混合音频矩阵对源矩阵的估计，混合矩阵225适应于提供从源矩阵对混合音频矩阵的估计。此外，方法600包含基于非混合矩阵221且基于I个混合音频信号102更新602混合矩阵225。另外，方法600包含迭代603更新步骤601、602直到满足整体收敛准则。通过基于非混合矩阵221迭代地及交替地更新混合矩阵225且接着使用经更新混合矩阵225来更新非混合矩阵221，可确定精确混合矩阵225，由此实现确定音频源101的精确源参数。可对于频域的不同频段f及/或对于不同帧n执行方法600。

本发明中所描述的方法及系统可被实施为软件、固件及/或硬件。某些组件可例如被实施为在数字信号处理器或微处理器上运行的软件。其它组件可例如被实施为硬件及/或专用集成电路。在所描述的方法及系统中遇到的信号可存储在例如随机存取存储器或光学存储媒体的媒体上。所述信号可经由网络传送，所述网络是例如无线电网络、卫星网络、无线网络，或有线网络，例如因特网。

可从以下列举的实例实施例(EEE)了解本发明的各个方面：

EEE 1.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的方法(600)，其中I,J＞1，其中所述混合音频信号(102)包括多个帧，其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵，其中所述J个音频源(101)可表示为所述频域中的源矩阵，其中所述方法(600)包括对于帧n进行以下操作：

-基于混合矩阵(225)更新(601)非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计；

-基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新(602)所述混合矩阵(225)；及

-迭代(603)所述更新步骤(601、602)直到满足整体收敛准则。

EEE 2.根据EEE 1所述的方法(600)，其中

-所述方法(600)包括基于所述混合音频矩阵确定所述混合音频信号(102)的协方差矩阵(222)；且

-基于所述混合音频信号(102)的所述协方差矩阵(222)更新所述混合矩阵(225)。

EEE 3.根据EEE 2所述的方法(600)，其中

-基于帧n周围的窗口内的所述混合音频信号(102)的帧的协方差矩阵的平均值来确定所述帧n及所述频域的频段f的所述混合音频信号(102)的所述协方差矩阵R_XX,fn(222)；

-基于

确定帧k的所述协方差矩阵；且

-X_fn是帧n及所述频段f的所述混合音频矩阵。

EEE 4.根据EEE 2或3中任一EEE所述的方法(600)，其中确定所述混合音频信号(102)的所述协方差矩阵(222)包括归一化所述帧n及频段f的所述协方差矩阵(222)，使得所述帧n及所述频段f的所述混合音频信号(102)的能量的总和等于预定归一化值。

EEE 5.根据任一前述EEE所述的方法(600)，其中

-所述方法(600)包括基于所述混合音频矩阵且基于所述非混合矩阵(221)确定所述音频源(101)的协方差矩阵(224)；且

-基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)。

EEE 6.根据EEE 5所述的方法(600)，其中

-基于

确定帧n及所述频域的频段f的所述音频源(101)的所述协方差矩阵R_SS,fn(224)；

-R_XX,fn是所述混合音频信号(102)的协方差矩阵(222)；且

-Ω_fn是所述非混合矩阵(221)。

EEE 7.根据任一前述EEE所述的方法(600)，其中

-所述方法(600)包括确定所述混合音频信号(102)内的噪声的协方差矩阵(224)；且

-基于所述混合音频信号(102)内的噪声的所述协方差矩阵(224)更新所述非混合矩阵(221)。

EEE 8.根据EEE 7所述的方法(600)，其中

-基于所述混合音频信号(102)确定噪声的所述协方差矩阵(224)；及/或

-噪声的所述协方差矩阵(224)与所述混合音频信号(102)的协方差矩阵(222)的轨迹成比例；及/或

-确定噪声的所述协方差矩阵(224)使得仅噪声的所述协方差矩阵(224)的主对角线包括非零矩阵项；及/或

-噪声的所述协方差矩阵(224)的所述矩阵项的大小随着所述方法(600)的迭代次数q增加而减小。

EEE 9.根据任一前述EEE所述的方法(600)，其中

-更新(601)所述非混合矩阵(221)包括改善取决于所述非混合矩阵(221)的非混合目标函数；及/或

-更新(602)所述混合矩阵(225)包括改善取决于所述混合矩阵(225)的混合目标函数。

EEE 10.根据EEE 9所述的方法(600)，其中

-所述非混合目标函数及/或所述混合目标函数包括一或多个约束项；且

-约束项取决于所述非混合矩阵(221)或所述混合矩阵(225)的所期望性质。

EEE 11.根据EEE 10所述的方法(600)，其中所述混合目标函数包括以下各者中的一或多者：

-取决于所述混合矩阵(225)的所述矩阵项的非负性的约束项；

-取决于所述混合矩阵(225)的非零矩阵项的数目的约束项；

-取决于所述混合矩阵(225)的不同列或不同行之间的相关性的约束项；及/或

-取决于帧n的所述混合矩阵(225)与前一帧的混合矩阵(225)的偏差的约束项。

EEE 12.根据EEE 10到11中任一EEE所述的方法(600)，其中所述非混合目标函数包括以下各者中的一或多者：

-取决于所述非混合矩阵(221)从所述混合音频信号(102)的协方差矩阵(222)提供所述音频源(101)的协方差矩阵(224)使得所述音频源(101)的所述协方差矩阵(224)的非零矩阵项集中于所述主对角线的能力的约束项；

-取决于所述非混合矩阵(221)的可逆性程度的约束项；及/或

-取决于所述非混合矩阵(221)的列矢量或行矢量的正交性程度的约束项。

EEE 13.根据EEE 10到12中任一EEE所述的方法(600)，其中所述一或多个约束项分别使用一或多个约束权重包含到所述非混合目标函数及/或所述混合目标函数中，以增加或减少所述一或多个约束项对所述非混合目标函数及/或所述混合目标函数的影响。

EEE 14.根据EEE 9到13中任一EEE所述的方法(600)，其中以迭代方式改善所述非混合目标函数及/或所述混合目标函数直到满足子收敛准则，以分别更新所述非混合矩阵(221)及/或所述混合矩阵(225)。

EEE 15.根据EEE 14所述的方法(600)，其中

-改善所述混合目标函数包括将所述混合矩阵(225)与乘数矩阵重复地相乘直到满足所述子收敛准则；且

-所述乘数矩阵取决于所述非混合矩阵(221)及所述混合音频信号(102)。

EEE 16.根据EEE 15所述的方法(600)，其中

-所述乘数矩阵取决于

-M＝ΩR_XXΩ^H+α_uncorr1；

-D＝-R_XXΩ^H+α_sparse1；

-Ω是所述非混合矩阵(221)；

-R_XX是所述混合音频信号(102)的协方差矩阵(222)；

-α_uncorr及α_sparse是约束权重；

-ε是实数；且

-A是所述混合矩阵(225)。

EEE 17.根据EEE 14到16中任一EEE所述的方法(600)，其中

-改善所述非混合目标函数包括将梯度与所述非混合矩阵(221)重复地相加直到满足所述子收敛准则；且

-所述梯度取决于所述混合音频信号(102)的协方差矩阵(222)。

EEE 18.根据任一前述EEE所述的方法(600)，其中所述方法(600)包括通过将所述I个混合音频信号(102)从时域变换到所述频域来确定所述混合音频矩阵。

EEE 19.根据EEE 18所述的方法(600)，其中使用短期傅里叶变换确定所述混合音频矩阵。

EEE 20.根据任一前述EEE所述的方法(600)，其中

-确定所述帧n及频段f的所述源矩阵的估计为S_fn＝Ω_fnX_fn；

-基于X_fn＝A_fnS_fn确定所述帧n及所述频段f的所述混合音频矩阵的估计；

-S_fn是所述源矩阵的估计；

-Ω_fn是所述非混合矩阵(221)；

-A_fn是所述混合矩阵(225)；且

-X_fn是所述混合音频矩阵。

EEE 21.根据任一前述EEE所述的方法(600)，其中所述整体收敛准则取决于两次连续迭代之间的所述混合矩阵(225)的变化程度。

EEE 22.根据任一前述EEE所述的方法(600)，其中所述方法包括：

-基于对于所述帧n之前的帧确定的非混合矩阵(221)初始化所述非混合矩阵(221)；及

-基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)初始化所述混合矩阵(225)。

EEE 23.根据任一前述EEE所述的方法(600)，其中所述方法(600)包括：在满足所述收敛准则之后，对所述混合矩阵(225)执行后处理(205)以确定关于所述音频源(101)的一或多个源参数。

EEE 24.一种包括软件程序的存储媒体，所述软件程序适应于在处理器上执行且当在计算装置上实行时执行前述EEE中任一EEE的方法步骤。

EEE 25.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的系统(200)，其中I,J＞1，其中所述混合音频信号(102)包括多个帧，其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵，其中所述J个音频源(101)可表示为所述频域中的源矩阵，其中

-所述系统(200)包括参数学习器(202)，所述参数学习器(202)经配置以对于帧n进行以下操作：

-基于混合矩阵(225)更新非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计；及

-基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新所述混合矩阵(225)；且

-所述系统(200)经配置以按重复方式例示所述参数学习器(202)直到满足整体收敛准则。

Claims

1.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的方法(600)，其中I,J>1，其中所述混合音频信号(102)包括多个帧，其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵，其中所述J个音频源(101)可表示为所述频域中的源矩阵，其中所述方法(600)包括对于帧n进行以下操作：

-执行以下更新步骤(601、602)：

-基于混合矩阵(225)更新(601)非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计；及

-迭代(603)所述更新步骤(601、602)直到满足整体收敛准则，其中所述整体收敛准则取决于两次连续迭代之间的所述混合矩阵(225)的变化程度；及

其中

-所述方法(600)进一步包括确定所述音频源(101)的协方差矩阵(224)；

-基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)；且

-基于所述混合音频矩阵且基于所述非混合矩阵(221)确定所述音频源(101)的所述协方差矩阵(224)。

2.根据权利要求1所述的方法(600)，其中

3.根据权利要求2所述的方法(600)，其中

-基于帧n周围的窗口内的所述混合音频信号(102)的帧的协方差矩阵的平均值确定所述帧n及所述频域的频段f的所述混合音频信号(102)的所述协方差矩阵R_XX,fn(222)；

-基于

确定帧k的所述协方差矩阵；且

-X_fn是帧n及所述频段f的所述混合音频矩阵。

4.根据权利要求2到3中任一权利要求所述的方法(600)，其中确定所述混合音频信号(102)的所述协方差矩阵(222)包括归一化所述帧n及频段f的所述协方差矩阵(222)，使得所述帧n及所述频段f的所述混合音频信号(102)的能量的总和等于预定归一化值。

5.根据权利要求1-3中任一权利要求所述的方法(600)，其中

-基于

-R_XX,fn是所述混合音频信号(102)的协方差矩阵(222)；且

-Ω_fn是所述非混合矩阵(221)。

6.根据权利要求1-3中任一权利要求所述的方法(600)，其中

7.根据权利要求1-3中任一权利要求所述的方法(600)，其中

-噪声的所述协方差矩阵(224)的所述非零矩阵项的大小随着所述方法(600)的迭代次数q增加而减小。

8.根据权利要求1-3中任一权利要求所述的方法(600)，其中

9.根据权利要求8所述的方法(600)，其中

10.根据权利要求9所述的方法(600)，其中所述混合目标函数包括以下各者中的一或多者：

-取决于所述混合矩阵(225)的矩阵项的非负性的约束项；

-取决于所述混合矩阵(225)的非零矩阵项的数目的约束项；

11.根据权利要求9所述的方法(600)，其中所述非混合目标函数包括以下各者中的一或多者：

-取决于所述非混合矩阵(221)从所述混合音频信号(102)的协方差矩阵(222)提供所述音频源(101)的协方差矩阵(224)使得所述音频源(101)的所述协方差矩阵(224)的非零矩阵项集中于所述音频源(101)的所述协方差矩阵(224)的主对角线的程度的约束项；

-取决于所述非混合矩阵(221)的可逆性程度的约束项；及/或

12.根据权利要求9所述的方法(600)，其中所述一或多个约束项分别使用一或多个约束权重包含到所述非混合目标函数及/或所述混合目标函数中，以增加或减少所述一或多个约束项对所述非混合目标函数及/或所述混合目标函数的影响。

13.根据权利要求8所述的方法(600)，其中以迭代方式改善所述非混合目标函数及/或所述混合目标函数直到满足子收敛准则，以分别更新所述非混合矩阵(221)及/或所述混合矩阵(225)。

14.根据权利要求13所述的方法(600)，其中

15.根据权利要求14所述的方法(600)，其中

-所述乘数矩阵取决于

-M＝ΩR_XXΩ^H+α_uncorr1；

-D＝-R_XXΩ^H+α_sparse1；

-Ω是所述非混合矩阵(221)；

-R_XX是所述混合音频信号(102)的协方差矩阵(222)；

-α_uncorr及α_sparse是约束权重；

-ε是实数；且

-A是所述混合矩阵(225)。

16.根据权利要求13所述的方法(600)，其中

-所述梯度取决于所述混合音频信号(102)的协方差矩阵(222)。

17.根据权利要求1-3中任一权利要求所述的方法(600)，其中所述方法(600)包括通过将所述I个混合音频信号(102)从时域变换到所述频域来确定所述混合音频矩阵。

18.根据权利要求17所述的方法(600)，其中使用短期傅里叶变换确定所述混合音频矩阵。

19.根据权利要求1-3中任一权利要求所述的方法(600)，其中

-确定所述帧n及频段f的所述源矩阵的估计为S_fn＝Ω_fnX_fn；

-S_fn是所述源矩阵的估计；

-Ω_fn是所述非混合矩阵(221)；

-A_fn是所述混合矩阵(225)；且

-X_fn是所述混合音频矩阵。

20.根据权利要求1-3中任一权利要求所述的方法(600)，其中所述方法包括：

21.根据权利要求1-3中任一权利要求所述的方法(600)，其中所述方法(600)包括：在满足所述收敛准则之后，对所述混合矩阵(225)执行后处理(205)以确定关于所述音频源(101)的一或多个源参数。

22.一种包括软件程序的存储媒体，所述软件程序适应于在处理器上执行且当在计算装置上实行时执行前述权利要求中任一权利要求所述的方法。

23.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的系统(200)，其中I,J>1，其中所述混合音频信号(102)包括多个帧，其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵，其中所述J个音频源(101)可表示为所述频域中的源矩阵，其中

-所述系统(200)包括参数学习器(202)，所述参数学习器(202)经配置以对于帧n进行以下更新步骤：

-基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新所述混合矩阵(225)；

-所述系统(200)包括源预处理器(203)，所述源预处理器(203)经配置以确定所述音频源(101)的协方差矩阵(224)；

-所述参数学习器(202)经配置以基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)；

-所述系统(200)经配置以通过迭代所述更新步骤来训练所述参数学习器(202)直到满足整体收敛准则，其中所述整体收敛准则取决于两次连续迭代之间的所述混合矩阵(225)的变化程度；且

-所述源预处理器(203)经配置以基于所述混合音频矩阵且基于所述非混合矩阵(221)确定所述音频源(101)的所述协方差矩阵(224)。