CN110100457A

CN110100457A - 基于噪声时变环境的加权预测误差的在线去混响算法

Info

Publication number: CN110100457A
Application number: CN201780080144.4A
Authority: CN
Inventors: S.M.卡萨里; F.内斯塔; T.索尔蒙森
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2016-12-23
Filing date: 2017-12-22
Publication date: 2019-08-06
Anticipated expiration: 2037-12-22
Also published as: DE112017006486T5; US10446171B2; JP2020503552A; WO2018119470A1; CN110100457B; US20180182410A1; JP7175441B2

Abstract

用于处理多声道音频信号的系统和方法包括：接收多声道时域音频输入，将输入信号变换成多个多声道频域、k个间隔的欠采样子带信号，缓冲和延迟每个声道，保存频谱帧中的每个处的用于预测滤波器估计的频谱帧的子集，估计频谱帧中的每个处的频域信号的方差，使用递归最小二乘方（RLS）算法以在线方式适应性地估计预测滤波器，使用估计的预测滤波器对每个声道进行线性滤波，对线性滤波的输出信号非线性滤波以减少残余混响和估计的方差，从而产生非线性滤波的输出信号，以及合成非线性滤波的输出信号以重构去混响的时域多声道音频信号。

Description

基于噪声时变环境的加权预测误差的在线去混响算法

相关申请的交叉引用

本申请要求于2016年12月23日提交的并且标题为“基于噪声时变环境的加权预测误差的在线去混响算法”的美国临时专利申请No.62/438860的权益和优先权，所述申请通过引用以其整体并入本文中。

技术领域

本申请总体上涉及音频处理，并且更具体地涉及多声道音频信号的去混响。

背景技术

混响减少解决方案在音频信号处理领域中是已知的。许多常规方法不适合用于实时应用中。例如，混响减少解决方案可需要数据的长缓冲以补偿混响的效应或以估计房间脉冲响应(RIR)的逆滤波器。适合于实时应用的方法在高混响和特别是高的非平稳环境中没有以合理的方式良好地执行。另外，这样的解决方案需要大量的存储器，并且对于许多低功率设备而言不是计算上高效的。

一种常规解决方案基于加权预测误差(WPE)，其假设混响过程的自回归模型，即，假设能够从混响麦克风信号的先前样本预测特定时间的混响分量。期望信号可以被估计为模型的预测误差。引入固定延迟以避免语音信号的短时相关的失真。该算法不适合于实时处理，并且在噪声条件下没有以明确的方式对输入信号建模。而且，WPE方法具有高复杂性并且不是在线多输入多输出(MIMO)解决方案。WPE方法已经被扩展以用于MIMO并且被一般化以在噪声条件下使用。然而，这样的修改不适合于时变环境。已经提出了对时变环境的进一步修改，其包括用于线性滤波的WPE和波束成形与基于维纳滤波的非线性滤波的最优组合。然而，这样的提议仍然不是实时的，并且由于其高复杂性而不适合于在低功率设备中使用。

通常，对于在在线和实时应用中的使用，常规方法在复杂性和实用性上受到限制。与批处理不同，在工业中针对许多实际应用使用实时或在线处理。因此，存在对用于在线和实时去混响的改进的系统和方法的需要。

发明内容

公开了包括基于用于噪声时变环境的加权预测误差的在线去混响的实施例的系统和方法。在各种实施例中，用于处理多声道音频信号的方法包括：接收包括时域多声道音频信号的输入信号；将输入信号变换为包括多个多声道频域、k个间隔的欠采样子带信号的频域输入信号；缓冲和延迟频域输入信号的每个声道；保存在频谱帧中的每个处的预测滤波器估计的频谱帧的子集；以及通过使用递归最小二乘方(RLS)算法来估计频谱帧中的每个处的频域输入信号的方差，适应性地以在线方式估计预测滤波器。该方法还包括使用估计的预测滤波器对频域输入信号的每个声道进行线性滤波，以产生线性滤波的输出信号；非线性地对线性滤波的输出信号进行滤波以减少残余混响和估计的方差；产生非线性滤波的输出信号；以及合成非线性滤波的输出信号以重构去混响的时域多声道音频信号，其中输出声道的数目等于输入声道的数目。

在各种实施例中，方法还可包括估计频域输入信号的方差，还包括估计干净语音方差、估计噪声方差和/或估计残余语音方差。在各种实施例中，方法可还包括使用适应性RLS算法，通过将稀疏性施加到相关矩阵而独立于频域输入信号的每个频率窗口(bin)来估计在每个帧处的预测滤波器。

在各种实施例中，输入信号包括至少一个目标信号，并且非线性滤波计算每个目标信号的增强的语音信号以减少残余混响和背景噪声。方差估计过程可包括基于先前估计的预测滤波器估计新的干净语音方差，使用具有调谐参数的固定指数衰减加权函数来估计新的残余混响方差以定制音频解决方案，以及使用单麦克风噪声方差估计方法估计每个声道的噪声方差并且随后计算平均值，从而估计噪声方差。方法还可以检测突然的改变以在扬声器移动的情况下重置预测滤波器和相关矩阵。

在各种实施例中，音频处理系统包括音频输入、子带分解模块、缓冲器、方差估计器、预测滤波器估计器、线性滤波器、非线性滤波器和合成器。音频输入可操作为接收时域多声道音频信号。子带分解模块可操作为将输入信号变换成频域输入信号，所述频域输入信号包括多个多声道频域、k个间隔的欠采样子带信号。缓冲器可操作为缓冲和延迟频域输入信号的每个声道，从而保存在频谱帧中的每个处的用于预测滤波器估计的频谱帧的子集。

在各种实施例中，方差估计器可操作为估计频谱帧中的每个处的频域输入信号的方差。方差估计器还可以可操作为估计干净语音方差、噪声方差和/或残余语音方差。方差估计器还可以可操作为基于先前估计的预测滤波器来估计新的干净语音方差；使用具有调谐参数的固定指数衰减加权函数来估计新的残余混响方差以定制音频解决方案；以及使用单麦克风噪声方差估计方法来估计每个声道的噪声方差并且随后计算平均值，从而估计噪声方差。方差估计器还可以可操作为检测由于扬声器移动的改变以及重置预测滤波器和相关矩阵。

在一个或多个实施例中，预测滤波器估计器可操作为通过使用递归最小二乘方(RLS)算法来以在线方式适应性地估计预测滤波器。预测滤波器还可以可操作为使用适应性RLS算法，以通过将稀疏性施加到相关矩阵而独立于频域输入信号的每个频率窗口来估计每个帧处的预测滤波器。

在各种实施例中，线性滤波器可操作为使用估计的预测滤波器对频域输入信号的每个声道进行线性滤波以产生线性滤波的输出信号。非线性滤波器可操作为非线性地对线性滤波的输出信号进行滤波以减少残余混响和估计的方差，从而产生非线性滤波的输出信号。在一个实施例中，时域多声道音频信号包括至少一个目标信号，并且非线性滤波器还可操作为针对每个目标信号计算增强的语音信号，并且减少残余混响和背景噪声。合成器可操作为合成非线性滤波的输出信号以重构去混响的时域多声道音频信号，其中输出声道的数目等于输入声道的数目。

本发明的范围由权利要求限定，所述权利要求通过引用并入本部分中。通过考虑以下一个或多个实施例的具体实施方式，本领域技术人员将被给予对本发明的实施例的更完整的理解以及其附加优点的实现。将对首先将被简要描述的附图的图进行参考。

附图说明

参考以下附图和随后的具体实施方式，可以更好地理解本公开的各方面及其优点。应当领会的是，相同的参考标号用于标识一个或多个附图中图示的相同的元件，其中其中的示出是出于图示本公开的实施例的目的，而不是出于限制本公开的目的。附图中的部件不一定按比例，而是将重点放在清楚地图示本公开的原理上。

图1是根据本公开的实施例的语音去混响系统的框图。

图2是根据本公开的实施例的包括语音去混响的音频处理系统的框图。

图3图示了根据本公开的实施例的具有延迟的缓冲器。

图4是根据本公开的实施例的用于确定方差的流程图。

图5是根据本公开的实施例的音频处理系统的框图。

具体实施方式

根据本公开的各种实施例，提供了用于多声道音频信号的去混响的系统和方法。

通常，对于在在线和实时应用中的使用，常规方法在复杂性和实用性上受到限制。与批处理不同，在工业中针对许多实际应用使用实时或在线处理。已经针对这些应用开发了在线适应性算法，诸如用于开发适应性WPE方法的递归最小二乘方(RLS)方法，或者其中使用同时估计干净语音信号和时变声学系统的多麦克风算法的卡尔曼滤波器方法。采用递归期望最大化方案来以在线方式获得干净语音信号和声学系统二者。然而，在基于RLS和基于卡尔曼滤波器的算法中，所述方法在高度非平稳条件下表现不佳。另外，对于许多应用而言，卡尔曼和RLS算法二者具有超出合理程度的计算复杂性和存储使用。另外，尽管它们快速收敛到稳定的解，但是算法可能对突然的改变太敏感并且可能需要改变检测器来将相关矩阵和滤波器重置为它们的初始值。

本文中公开了用于使用子带域的去混响的在线多输入多输出(MIMO)实施例。在各种实施例中，在线估计适配成无目的地缩短麦克风与未知数目的源的集合之间的房间脉冲响应(RIR)的多声道线性预测滤波器。在一个实施例中，RLS算法用于快速收敛。然而，使用RLS的一些方法可通过高计算复杂性来表征。在各种环境中，可能期望低计算复杂性和低存储消耗。在本文中所公开的系统和方法的各种实施例中，通过将稀疏性施加到相关矩阵来降低存储使用和计算复杂性。在一个实施例中，提出一种新方法，其用于识别时变环境中的扬声器或音频源的移动，包括重新初始化预测滤波器和改进时变环境中的收敛速度。

在各种真实世界环境中，语音源可以与环境噪声混合。记录的语音信号典型地包括不想要的噪声，这可能降级用于语音应用(诸如IP语音(VoIP)通信)的语音可懂度，并且可以降低诸如电话、膝上型计算机和语音控制的器具之类的设备的语音识别性能的表现。解决噪声干扰问题的一种方法是使用麦克风阵列和波束成形算法，其可以利用噪声源的空间多样性来检测或提取期望的源信号并且来抑制不想要的干扰。波束成形表示一类这样的多声道信号处理算法，并且建议空间滤波，该空间滤波将增加灵敏度的波束指向期望的源位置，同时抑制源自其它位置的信号。

在室内环境中，当信号源较接近麦克风时，噪声抑制方法可能较有效，这可被称为近场场景。然而，当增加源与麦克风之间的距离时，噪声抑制可能较复杂。

参考图1，信号源110(诸如人类扬声器)位于与环境102(诸如房间)中的麦克风阵列120相距一定距离的位置处。麦克风阵列120收集在信号源110与麦克风阵列120之间的直接路径中接收的期望信号104。麦克风阵列120还从噪声源130收集噪声，包括噪声干扰140和离开墙壁、天花板和/或环境102中的其它对象的信号反射150。

诸如声源定位、波束成形和自动语音识别(ASR)之类的许多麦克风阵列处理技术的性能在混响环境中可能是可感知地降级的，诸如图1中所图示。例如，混响可造成直接声音的时间和频谱特性的模糊。噪声混响环境中的语音增强可能需要解决渲染且非平稳的语音信号、可随时间显著改变的噪声信号以及可能较长和/或具有非最小相位的声学声道的脉冲响应。在各种应用中，脉冲响应的长度取决于混响时间，并且许多方法可能无法在高混响时间的情况下工作。本文中所公开的是用于噪声鲁棒多声道语音去混响的系统和方法，所述系统和方法减少混响的效应，同时产生去混响语音信号的多声道估计。

用于解决混响的常规方法对于许多应用具有使所述方法不适合的限制。例如，计算复杂性对于需要实时、在线处理的许多真实世界情况而言可能使算法变得不切实际。这样的算法还可能需要高存储消耗，这种高存储消耗不适合于可能需要存储高效算法的嵌入式设备。在真实环境中，混响语音信号通常被非平稳的加性背景噪声污染，这可能极大地恶化那些未以明确方式解决其模型中的非平稳噪声的去混响算法的性能。许多去混响方法使用需要大量输入数据以产生良好性能的批量方法。然而，在诸如VoIP和助听器的应用中，I/O延时是不期望的。

许多常规的去混响方法产生作为输入麦克风阵列中的麦克风的较少数目的去混响的信号，并且不保存在各种麦克风位置处的到达时间差(TDOA)。然而，在一些应用中，源定位算法可以基于在麦克风位置处的TDOA而明确地或隐含地进行。常规去混响方法的其它缺点可包括需要知道声源的数目的算法和非快速收敛的方法，因此使算法对新的改变作出响应减慢。

本文中公开的实施例解决了常规系统的限制，这些常规系统提供在工业中的不同应用中使用的解决方案。在一个实施例中，算法提供快速收敛并且不提供延迟，这使得对于如VOIP的应用而言是可期望的。盲方法使用多声道输入信号来缩短未知数目的源的集合之间的MIMO RIR。使用子带域多声道线性预测滤波器，并且算法独立地估计每个频带的滤波器。该方法的一个优点是其可以保存麦克风位置处的TDOA以及源与麦克风之间的线性关系，这在需要做进一步处理以定位和减少噪声和干扰的情况下是有益的。另外，算法可以通过分离地估计每个麦克风的预测滤波器来产生与麦克风一样多的去混响信号。还可在模型中考虑加性背景噪声以使用适应性算法来以在线方式适应性地估计预测滤波器。以此方式，算法可以适应性地估计噪声的功率谱密度(PSD)。

本公开的实施例提供了优于常规方法的许多优点。各种实施例提供不具有延时的实时去混响。公开了MIMO算法，因此其可以容易地与其它多声道信号处理块集成，例如，以用于进行噪声减少或源定位。本文中公开的实施例在存储和计算上是高效的，其需要较少的MIPS。该解决方案对于时变环境是鲁棒的并且是快速收敛的。在各种实施例中，可跳过非线性滤波以进一步减小噪声和残余混响，从而允许算法来提供线性处理，所述线性处理对于需要线性度的一些应用来说可能是至关重要的。该解决方案对于非平稳噪声是鲁棒的，并且在高混响条件下可以良好地执行。解决方案可以是单声道和多声道二者，并且可以扩展用于多于一个源的情况。

现在将描述本公开的实施例。如图1中所图示，语音去混响系统100可处理来自麦克风阵列120的信号并且产生可用于本文中所描述的各种目的输出信号(例如，增强的语音信号)。参考图2，将描述根据本公开的实施例的包括语音去混响的音频处理系统。系统200包括子带分解模块210、缓冲器220、方差估计部件230、预测滤波器240、线性滤波器250、非线性滤波器260和合成器270。

从麦克风阵列接收的音频信号202被提供给子带分解模块210，其执行子带分析以在子带帧中变换时域信号。缓冲器220存储用于所有声道的子带信号的最后L_k帧(过去帧的数目是子带相关的)。方差估计部件230估计当前帧的方差以用于预测滤波器估计和非线性滤波。预测滤波器估计部件240使用快速收敛的适应性在线方法。线性滤波部件250减少了大部分混响。非线性滤波部件260减少残余混响和噪声。合成器270将增强的子带域信号变换到时域。

在操作中，麦克风阵列202接收多个输入信号。假设第i个声道的输入信号由x_i[n]表示，其中i＝1……M，其中M是感测多个不同音频源N_S的麦克风的数目。然后，输入信号可以被建模为

所有源的向量(干净语音)

第i个麦克风和每个源之间的房间脉冲响应(RIR)

v_i[n]→第i个麦克风的背景噪声

在短时傅立叶变换(STFT)域中的接收的信号可以近似地建模为

其中L_i是STFT域中的RIR的长度，l是帧索引，并且k是频率窗口索引。第i个接收的输入信号可以被分离成早期反射部分(期望信号)和后期混响部分如

其中D是早期反射的抽头长度(tap-length)。目标是要通过减少噪声条件下的第二后期混响项(R_i(l,k))和第三项(V_i(l,k))来提取(3)中的第一项(Y_i(l,k))。

在一个或多个实施例中，为了估计后期混响部分，连同源信号一起估计RIR的后期反射。为了使这个任务较容易，通过如下给出的那样将(3)转换成较容易的多声道自回归模型来执行去混响。

在(4)中，要估计的唯一未知参数是预测滤波器

(W_l(l′，k)＝[W_il(l′，k)，...，W_iM(l′，k)]^T，M×1向量以及X(l-l′，k)＝[X_l(l-l′，k)，...，X_M(l-l′，k)]^T，M×1向量)。

在一个或多个实施例中，为了估计预测滤波器，使用最大似然(ML)方法。在一个实施例中，预测滤波器基于以下假设：(1)接收的语音信号具有高斯概率密度函数(pdf)，并且接收的语音的干净部分具有带有时变方差的零均值。而且，假设噪声具有零均值；(2)输入信号的帧是独立随机变量；以及(3)RIR不改变或者它们缓慢地改变。

考虑以上假设，可以如下写出用于T帧的输入信号的pdf：

是M×1向量。

X(l，k)＝[X₁(l，k)，X₂(l，k)，...，X_M(l，k)]^T是M×1向量。

其中μ(l，k)是均值并且∑(l，k)是M×M空间相关矩阵。

如上所述，ML方法用于估计预测滤波器，并且因此使用(5)中的pdf的对数的ML函数将被认为是要最大化的成本函数。

是成本函数

根据以上假设，均值可以近似地获得为

为了能够以在线方式实际上估计预测滤波器，进一步假设的是相关滤波器可由按比例的单位矩阵近似如下：

现在方差尺度σ(l，k)可以获得为

其中σ_reverb(l，k)和σ_noise(l，k)分别是第j个源信号的方差、残余混响方差和噪声方差。

针对单声道的情况的等式(6)可以使用(8)作为加权均方误差(MSE)最优化问题来简化：

对于单麦克风的情况，

其中e(l，k)是误差信号。

在一个或多个实施例中，为了以在线方式估计预测滤波器，MSE成本函数将通过选择预测滤波器W₁(l′，k)来最小化，从而在新数据到达时更新滤波器。在此实施例中，递归最小二乘方(RLS)滤波器用于估计预测滤波器。为了这样做，使用遗忘因子(0＜λ≤1)来将成本函数修订为

一个目标是以高效方式最小化以上成本函数并且减少噪声和混响二者。下面我们将描述在图2的实施例中示出的用于实现该目标的所提出的系统。

如图2中所示出，输入信号202首先被变换为子带频域，因为其在(4)中通过子带分解模块210给出。由于混响时间是频率相关的并且用于不同麦克风的RIR的长度近似相同，所以预测滤波器的抽头的数目被假设为独立于声道，但是取决于频率。因此L_i在(4)中被L_k取代为

为了降低存储消耗并改进系统的性能，对于较高频率窗口使用较短的长度并且对于较低频率窗口使用较长的长度。

在子带分解220之后，每个麦克风的输入信号被提供给具有延迟230的缓冲器，并且对于帧l和频率窗口k，其实施例在图3中示出。第k个频率窗口的缓冲器大小是L_k。如从该图中清楚的那样，对于每个声道，具有延迟D的信号的最近L_k帧将被保持在该缓冲器中。

(11)中的RLS滤波器更新的最终成本函数具有由方差估计器230估计的方差σ(l，k)。根据(9)，方差具有三个分量。

参考图4，将描述用于高效地估计每个分量的方法400。在步骤402中，估计早期反射的方差。在一个实施例中，从输入语音中减去后期混响，然后在所有声道上对其进行平均。

其中对于后期混响，我们使用当前预测滤波器。

在步骤404中，估计残余混响的方差。根据(12)，可以使用以下等式来估计该方差：

其中是第l帧的残余后期混响权重，其是未知参数。在一个实施例中，以如下在线方式估计残余混响权重：

其中β和w₀是遗忘因子(非常接近于1)和用于残余权重初始化的数目。ε是非常小的数目以避免除以零。该方法在不同的混响环境中提供了良好的性能，但是其取决于实施方式具有一些缺点。首先，为了估计未知残余混响权重以供方差估计，其使方法增加了额外的复杂性。第二，可能需要额外的存储，这对于许多低存储设备(例如，移动电话)是不可期望的。第三，其适合于静态环境，并且性能可能在快速时变环境中降低。

为了解决这些问题，替换方法使用具有指数衰减函数的固定残余混响权重，如下给出：

其中b和η分别是瑞利分布参数和大约0.01的小的数。根据抽头的数目L_k，残余混响权重可以看起来像高斯pdf。实验结果示出，相比之下该替换方法仅在一定程度上次优，但在时变环境中具有较低的计算复杂性和较快的收敛。

在步骤406中，使用高效实时单声道方法来估计噪声方差σ^υ(l，k)，并且在所有声道上对噪声方差估计进行平均以获得关于噪声方差σ^υ(l，k)的单个值。

返回参考图2，方差估计部件230的输出被提供给预测滤波器估计部件240。预测滤波器估计部件240基于最大化接收的频谱的对数pdf(即，使用最大似然(ML)算法)来处理信号，并且pdf是具有在(7)-(9)中给出的均值和方差的高斯pdf。

以向量形式重写(7)中的均值μ_i(l，k)提供：

其中w_i ^l(k)是用于频带k和第i声道的预测滤波器。现在，(11)中的误差可以被重写为：

在一个实施例中，为了针对第l个帧以在线方式估计W_i ^l(k)，预测滤波器W_i(k)应当针对所有频率和声道由零值初始化，然后(11)中的成本函数的梯度(其是L_k*M个数字的向量)应当被计算。使用RLS算法的更新规则可概括如下：

初始化→w_m(0，k)＝0并且Φ(0，k)＝γI_Mγ是正则化因子

其中Φ(l，k)是(L_kM×L_kM)相关矩阵。

在此实施例中，RLS算法具有快速收敛速率且其通常胜过其它适应性算法，但其取决于应用具有两个缺点。首先，算法具有作为未知参数的预测滤波器和相关矩阵二者。相关矩阵是复矩阵，并且对于K个频带具有K×(L_kM×L_kM)个复数。这可能需要比较大量的存储，并且因此RLS算法可能不适合于需要低存储的特定应用。而且，这种算法的计算复杂性对于这样的应用可能是不合理的。第二，RLS算法可以通过利用相关矩阵来高效地朝着精确解收敛。然而，在时变条件下，这可能导致性能问题，这是因为算法花费更多的时间来跟踪突然的改变。下面，公开了向两个问题提供解决方案的实施例。

在一个实施例中，RLS算法的复杂性降低。(19)中给出的相关矩阵也可以重写如下：

计算上，(20)中的相关矩阵的更新的主要部分是要注意的是，相关矩阵在其主对角线上具有实数，并且针对两个声道情况(M＝2)具有如下给出的对称矩阵形式：针对两个声道M＝2的情况

在(21)中，要注意的是，Ф(l，k)的最重要的分量是和的主对角线。其它分量具有接近于零的大小。通过针对矩阵维持是实数值的这些对角线以及针对维持复数值，RLS算法的性能将不会显著地影响结果。在一个实施例中，通过维持如上所述的对角线的值并使其它分量为零来使相关矩阵较稀疏。例如，对于两声道(M＝2)的情况，该方法将减少对于从到的所有频率的Φ(l，k)的数目分量。如上所述的大多数分量现在是实数值，其不仅减少存储使用的量，而且降低了数值复杂性，这是因为矩阵是较稀疏的并且乘法的数目减少。

在另一实施例中，改进了RLS算法在时变环境中的性能。采用RLS算法来开发适应性WPE方法的在线适应性算法在T.Yoshioka、H.Tachibana、T.Nakatani、M.Miyoshi的“具有说话者位置变化检测能力的语音信号自适应去混响”Proc.Int.Conf.Acoust.，Speech，Signal Process.(2009)，pp.3733-3736中描述，其通过引用并入本文中。如该论文中所示出，RLS算法在每次突然的改变之后放大信号。为了改进在他的论文中描述的检测的性能，使用由零初始化的每个声道的长度N_f的二进制缓冲器。该缓冲器将包含对包括当前帧的最后N_f帧的二进制决策。为了在每个帧处更新此缓冲器，对针对在(18)中的e_i(l，k)具有负值的频率的数(其被称为每个声道的F_i，i＝1，......，M)进行计数。将F_i与阈值τ₁进行比较。如果F_i＞τ₁，则以一更新缓冲器，否则将其设置为零。如果用于任何声道的此缓冲器中一的数目已超过阈值τ₂，则识别突然的改变。在检测发生之后，RLS方法的预测滤波器和相关矩阵将重置到它们的初始值，如之前所讨论的。

在240中估计预测滤波器之后，每个声道中的输入信号由线性滤波器250滤波。在一个实施例中，如下计算预测滤波器：

在线性滤波之后，非线性滤波260执行为

如果期望使用非线性滤波来计算第j个源的增强的语音信号则计算为

其中是(9)中给出的第j个源的对应方差，并且其可以使用如M.Togami、Y.Kawaguchi、R.Takeda、Y.Obuchi和N.Nukaga的“用于时变声学转移函数的基于概率视角的优化的语音去混响”，IEEE Trans.Audio，Speech，Lang，Process.，vol.21，no.7,pp.1369–1380，Jul.2013中所示出的源分离方法来计算，其通过引用以其整体并入本文中。

在应用滤波之后，通过应用重叠相加技术，随后是反向短时快速傅里叶变换(ISTFT)，将针对每个带的增强的语音频谱从频域变换到时域。

本文中描述的实施例被配置用于以数字信号处理器或其它较小平台的存储器和MIPS限制操作，对于数字信号处理器或其它较小平台，已知的计算解决方案通常是不切实际的。因此，本公开提供了适合于在消费者电子市场和其它相关应用的语音控制应用中使用的、具有鲁棒性的去混响。例如，可以利用本文中描述的系统来实现诸如使用语音命令的智能TV、汽车工业中的语音控制应用和其它潜在应用之类的家用电器的语音控制。使用本文中所描述的实施例，自动语音识别可在能够抑制当目标扬声器处于离麦克风远距离处时的非平稳干扰噪声的廉价设备上实现高性能。

图5是根据本公开的示例性实施方式的用于处理音频数据的音频处理系统的图。音频处理系统510通常对应于图2的架构，并且可以共享本文中先前描述的任何功能性。音频处理系统510可实现于硬件中或实现为硬件与软件的组合，并且可被配置用于数字信号处理器、通用计算机或其它适合平台上的操作。

如图5中所示出，音频处理系统510包括存储器520和处理器540。另外，音频处理系统510包括子带分解模块522、具有延迟模块524的缓冲器、方差估计模块526、预测滤波器估计模块528、线性滤波器模块530、非线性滤波器模块532和合成模块534，其中的一些或全部可存储在存储器520中。图5中还示出了音频输入560(诸如麦克风阵列或其它音频输入)以及模数转换器550。模数转换器550可操作为接收音频输入以及将音频信号提供到处理器540以用于如本文中所描述的处理。在各种实施例中，音频处理系统510还可以包括数模转换器570和音频输出590，诸如一个或多个扬声器。

在一些实施例中，处理器540可以执行存储在存储器520中的机器可读指令(例如，软件、固件或其它指令)。在此方面，处理器540可执行本文中所描述的各种操作、过程和技术中的任何。在其它实施例中，处理器540可以被代替和/或补充有专用硬件部件以执行本文中描述的各种技术的任何期望的组合。存储器520可以被实现为存储各种机器可读指令和数据的机器可读介质。例如，在一些实施例中，存储器520可以存储操作系统，以及作为可以由处理器540读取和执行以执行本文中描述的各种技术的机器可读指令的一个或多个应用。在一些实施例中，存储器520可以被实现为非易失性存储器(例如，闪速存储器、硬盘驱动器、固态驱动器或其它非暂态机器可读介质)、易失性存储器或其组合。

在所图示的实施例中，模块522-534由处理器540控制。子带分解模块522可操作为接收包括目标音频信号的多个音频信号，并且将接收的信号中的每个变换到子带频域中。具有延迟524的缓冲器可操作为接收多个子带频域信号以及生成多个缓冲的输出。方差估计模块526可操作为估计用于如本文中所描述的RLS滤波器的成本函数的方差分量。根据本文中所描述的实施例，预测滤波器估计模块528可操作为使用具有快速收敛的适应性在线方法。线性滤波器模块530可操作为减少混响的一方，尤其是可通过线性滤波来减少的后期混响。非线性滤波器模块532可操作为减少来自多声道音频信号的残余混响和噪声。合成模块534可操作为将增强的子带域信号变换到时域。

由音频处理系统510表示的解决方案存在若干优点。首先，该解决方案是通用框架，其可以适应于多个场景并且针对所实施计算环境的特定硬件限制而定制。本解决方案能够在提供的性能与较复杂的现有技术离线解决方案可比的同时以在线处理方式运行。例如，当麦克风-源距离大时，即使仅使用两个麦克风也可分离高度混响的源。在一些实施方式中，音频处理系统510可配置成选择性地识别相对于选择性音频处理系统510处于运动中的目标音频信号的源。

前述公开不旨在将本发明限制于所公开的精确形式或特定使用领域。因此，要预测到的是，根据本公开，无论在本文中明确描述或暗示，本公开的各种替换实施例和/或修改是可能的。已经像这样描述了本公开的实施例，本领域的普通技术人员将认识到的是，在不脱离本公开的范围的情况下，可以在形式和细节上做出改变。因此，本公开仅受权利要求限制。

Claims

1.一种用于处理多声道音频信号的方法，包括：

接收包括时域多声道音频信号的输入信号；

将所述输入信号变换为频域输入信号，所述频域输入信号包括多个多声道频域、k个间隔的欠采样子带信号；

缓冲和延迟所述频域输入信号的每个声道，保存频谱帧中的每个处的用于预测滤波器估计的所述频谱帧的子集；

估计所述频谱帧中的每个处的所述频域输入信号的方差；

通过使用递归最小二乘方（RLS）算法以在线方式适应性地估计所述预测滤波器；

使用所述估计的预测滤波器对所述频域输入信号的每个声道线性滤波，以产生线性滤波的输出信号；

非线性地对所述线性滤波的输出信号滤波以减少残余混响和所估计的方差，从而产生非线性滤波的输出信号；以及

合成所述非线性滤波的输出信号以重构去混响的时域多声道音频信号，其中输出声道的数目等于输入声道的数目。

2.根据权利要求1所述的方法，其中估计所述频域输入信号的所述方差还包括估计干净语音方差。

3.根据权利要求2所述的方法，其中估计所述频域输入信号的所述方差还包括估计噪声方差。

4.根据权利要求3所述的方法，其中估计所述频域输入信号的所述方差还包括估计残余语音方差。

5.根据权利要求1所述的方法，其中适应性地估计还包括：通过将稀疏性施加到相关矩阵来使用适应性RLS算法，独立于所述频域输入信号的每个频率窗口估计每个帧处的所述预测滤波器。

6.根据权利要求1所述的方法，其中所述输入信号包括至少一个目标信号；并且其中所述非线性滤波针对每个目标信号计算增强的语音信号。

7.根据权利要求6所述的方法，其中所述非线性滤波减少残余混响和背景噪声。

8.根据权利要求1所述的方法，其中估计所述频域输入信号的所述方差还包括：

基于先前估计的预测滤波器估计新的干净语音方差；

使用具有用于定制音频解决方案的调谐参数的固定指数衰减加权函数来估计新的残余混响方差；以及

使用单麦克风噪声方差估计方法以估计每个声道的噪声方差并且随后计算平均值，从而估计所述噪声方差。

9.根据权利要求8所述的方法，其还包括检测突然的改变以在扬声器移动的情况下重置所述预测滤波器和相关矩阵。

10.一种音频处理系统，包括：

音频输入，其可操作为接收时域多声道音频信号；

子带分解模块，其可操作为将输入信号变换为频域输入信号，所述频域输入信号包括多个多声道频域、k个间隔的欠采样子带信号；

缓冲器，其可操作为缓冲和延迟所述频域输入信号的每个声道，从而保存频谱帧中的每个处的用于预测滤波器估计的所述频谱帧的子集；

方差估计器，其可操作为估计所述频谱帧中的每个处的所述频域输入信号的方差；

预测滤波器估计器，其可操作为通过使用递归最小二乘方（RLS）算法以在线方式适应性地估计所述预测滤波器；

线性滤波器，其可操作为使用所述估计的预测滤波器对所述频域输入信号的每个声道线性滤波，从而产生线性滤波的输出信号；

非线性滤波器，其可操作为非线性地对所述线性滤波的输出信号滤波以减少残余混响和所估计的方差，从而产生非线性滤波的输出信号；以及

合成器，其可操作为合成所述非线性滤波的输出信号以重构去混响的时域多声道音频信号，其中输出声道的数目等于输入声道的数目。

11.根据权利要求10所述的音频处理系统，其中所述方差估计器还可操作为估计干净语音方差。

12.根据权利要求11所述的音频处理系统，其中所述方差估计器还可操作为估计噪声方差。

13.根据权利要求12所述的音频处理系统，其中所述方差估计器还可操作为估计残余语音方差。

14.根据权利要求10所述的音频处理系统，其中所述预测滤波器估计器还可操作为通过将稀疏性施加到相关矩阵来使用适应性RLS算法，独立于所述频域输入信号的每个频率窗口估计每个帧处的所述预测滤波器。

15.根据权利要求10所述的音频处理系统，其中所述时域多声道音频信号包括至少一个目标信号；以及

其中所述非线性滤波器还可操作为针对每个目标信号计算增强的语音信号。

16.根据权利要求15所述的音频处理系统，其中所述非线性滤波器可操作为减少残余混响和背景噪声。

17.根据权利要求10所述的音频处理系统，其中所述方差估计器还可操作为：

基于先前估计的预测滤波器估计新的干净语音方差；

使用单麦克风噪声方差估计方法估计每个声道的噪声方差，并且随后计算平均值，从而估计所述噪声方差。

18.根据权利要求10所述的音频处理系统，其中所述方差估计器还可操作为检测由于扬声器移动的改变以及重置所述预测滤波器和所述相关矩阵。