背景技术
在包括例如电信、内容分发等等的许多领域中,音频信号的高级处理变得越来越重要。例如,在诸如电话会议之类的一些应用中,对于来自多个麦克风的输入的复杂处理已经被用于为包括各麦克风的麦克风阵列提供可配置的方向敏感度。具体地,对于来自麦克风阵列的信号的处理可以生成具有可以简单地通过改变各个麦克风信号的组合的特性来改变的方向的音频波束。
典型地,波束形成系统被控制,以使得干扰源(interferer)的衰减最大化。例如,可以控制波束形成系统,以在从主要干扰源接收的信号的方向上提供最大的衰减(优选地为不存在)。
在许多实施例中提供特别有利的性能的波束形成系统是在WO 99/27522中公开的滤波-和波束形成器(Filtered-Sum Beamformer, FSB)。
与许多其它的波束形成系统形成对照,FSB系统设法使朝向期望的信号的麦克风阵列的敏感度最大化,而不是使朝向干扰源的衰减最大化。FSB系统的示例在图1中例示。
该FSB系统设法对于麦克风阵列标识来自期望源的声学脉冲响应的特性,所述期望源包括直达场和第一次反射。FSB通过相干地将麦克风信号的期望部分相加来产生增强的输出信号z,所述相干地添将麦克风信号的期望部分相加的步骤是通过对前向匹配滤波器中的所接收的信号进行滤波并且将经过滤波的输出相加而进行的。而且,在对于前向滤波器具有共轭滤波器响应(在频域中对应于时域中的逆时脉冲响应)的后向自适应滤波器中对输出信号进行滤波。作为输入信号与后向自适应滤波器的输出之间的差而生产误差信号,并且滤波器系数被适配为使误差信号最小化,从而导致音频波束导向主导信号(dominant signal)。所生成的误差信号可以被视为特别适于对于增强的输出信号z执行额外的噪声降低的噪声参考信号。
对于音频信号处理来说特别重要的领域是助听器领域。近年来,助听器越来越多地应用复杂音频处理算法来提供改进的用户体验以及对于用户的辅助。例如,音频处理算法已经被用于提供期望的声音源和干扰声音源之间的改进的信号噪声比,从而向用户提供更清楚并且更易感的信号。特别地,已经开发了包括多于一个麦克风的助听器,其中麦克风的音频信号被动态地组合以为麦克风装置提供方向性。作为另一个示例,噪声消除系统可以被应用来降低由不期望的声音源和背景噪声导致的干扰。
FSB系统有望对于诸如助听器之类的应用是有利的,因为FSB系统许诺朝向期望的信号(而不是针对干扰信号的衰减)的高效的波束形成。已经发现这在助听器应用中特别有利,在所述助听器应用中,FSB系统已经被发现向用户提供便利并且帮助对于期望的信号的感知的信号。另外,FSB系统提供特别适于对于所生成的信号进行噪声降低/补偿的噪声参考信号。
然而,已经发现FSB系统在用于诸如助听器之类的应用时具有一些相关联的缺点。特别地,已经发现对于麦克风阵列中的各麦克风之间的短距离,FSB系统的性能降级。例如,对于具有间隔为15 mm的两个全向麦克风的典型的端射阵列的助听器配置,FSB已经被发现具有次最优的性能。实际上,已经发现在许多情况下,FSB系统未能够朝向期望的信号收敛。
因此,改进的音频波束形成将是有利的,特别地,允许用于麦克风之间的距离相当小的助听器的改进的适用性的波束形成将是有利的。
发明内容
本发明的一个目的是提供一种适于麦克风阵列中的各麦克风之间的短距离的增强的音频处理装置。本发明由独立权利要求限定。从属权利要求限定有利的实施例。
根据本发明,此目的在如上所述的音频处理装置中实现,所述音频处理装置的特征在于:所述音频处理装置包括用于从输入音频信号中导出经过预处理的音频信号的预处理电路。代替输入音频信号,将经过预处理的信号提供给处理电路。所述预处理电路被布置为使包括在输入音频信号中的干扰的互相关最小化。
在一个实施例中,所述预处理电路保证:在包括在一个输入音频信号中的干扰与包括在其它输入音频信号中的干扰相关的情况下,输出信号中仅期望信号的功率被最大化。在没有预处理电路、并且处理电路和控制电路例如使用被配置为使组合的音频信号中的期望的输出功率最大化的自适应滤波器系数的情况下,如果音频信号中的干扰相关的话,包括在处理电路和控制电路中的自适应滤波器的误差信号包含与自适应滤波器的输入相关的干扰。这将导致自适应滤波器系数背离最优解。这里,所述背离意味着使组合的信号的输出功率最大化不导致使期望的信号的输出功率最大化。
在一个实施例中,在预处理电路中执行的预处理确保:例如利用由处理电路和控制电路使用的、被配置为使组合的音频信号中的期望的输出功率最大化的自适应滤波器系数,自适应滤波器的误差信号与输入中的干扰分量之间的相关被最小化。
以此方式,所述音频处理装置在应用于具有相关的干扰的麦克风阵列时提供鲁棒的性能。这种情况的一个示例是混响情况下端射配置中的小麦克风阵列。
在一个实施例中,所述预处理电路通过将输入音频信号乘以调节矩阵的逆矩阵的电路来使干扰的互相关最小化。所述调节矩阵是相关矩阵的函数,其中相关矩阵中的元是包含在音频源中多个干扰中的相应对的干扰之间的相关度量。
例如包括在处理电路和控制电路中的自适应滤波器分别对于其中自适应滤波器收敛到期望的语音信号的情况的背离是由音频信号中的干扰的相关造成的,特别是由自适应滤波器的误差信号中的干扰和自适应滤波器的输入中的干扰的相关造成的。这里,到期望的信号的收敛确保自适应滤波器系数被配置为使组合的音频信号中的期望的输出功率最大化。将输入音频信号乘以调节矩阵的逆矩阵确保自适应滤波器的误差信号和输入中的干扰之间的相关被最小化。
在另一个实施例中,调节矩阵是相关矩阵。相关矩阵的元可以是标量或者滤子(filter)。当元是标量时,则在时域中处理问题是有利的。如果元是滤子,则在频域中处理问题是有利的。在频域中,对于每个频率分量
,相关矩阵
具有标量元,并且因此标量的情况可被应用于每个单独的频率分量。
在另一个实施例中,调节矩阵由下式给出:
其中
是调节矩阵,
是相关矩阵,
是预定参数,
是单位矩阵,
是径向频率(radial frequency)。
上面的调节矩阵的选择的优点是使得音频处理装置的操作对于诸如例如麦克风自身噪声之类的不相关的噪声较不敏感。
其中
是输入音频信号中的相关干扰(期望的语音信号的声学噪声和/或混响)的方差,且
是包含在音频信号中的不相关电子噪声(白噪声,例如麦克风自身噪声)的方差。
等效于包括相关干扰和不相关电子干扰的组合的干扰信号的数据相关矩阵。利用参数
的这种定义,调节矩阵的元更精确地反映干扰之间的实际相关。
在另一个实施例中,参数
取预定的固定值。利用
的预定的固定值,不需要测量
和
的值,而是可以取
的平均值,从而导致减少相关。此实施例的优点是确定调节矩阵的元非常简单。将参数
当作控制对于扩散噪声的鲁棒性与麦克风自身噪声的放大之间的折衷的设计参数。参数
的典型值是0.99。
在另一个实施例中,调节矩阵的元(p, q)由下式给出:
其中
是输入音频信号p中的干扰,
是输入音频信号q中的干扰,
是径向频率,E是期望算子。上面的实施例的优点是调节矩阵的元相当精确。
在另一个实施例中,相关矩阵的元(p, q)由下式给出:
其中
是麦克风p和q之间的距离,c是声音在空气中的速度,且
是径向频率。矩阵
是属于(理想)扩散声场的数据相关矩阵。扩散声场可以是扩散噪声场或者由于期望的语音的混响导致的场。特别是对于后者,难以测量数据相关矩阵,这是因为混响与期望的(直达)语音相联系,即混响在非语音活动期间不可得。上面的公式提供了扩散噪声场中的相干函数的良好估计。
在另一个实施例中,处理电路包括用于从预处理的音频信号导出经过处理的音频信号的多个可调节滤波器,以及控制电路包括具有作为可调节滤波器的传递函数的共轭的传递函数的多个另外的可调节滤波器。所述另外的可调节滤波器从组合的音频信号导出经过滤波的组合的音频信号。控制电路通过控制所述可调节滤波器以及所述另外的可调节滤波器的传递函数来将经过处理的音频信号的增益的函数限制为预定值,以便使输入音频信号与对应于输入音频信号的经过滤波的组合的音频信号之间的差度量最小化。
通过将可调节滤波器用作处理电路,可以进一步增强语音信号的质量。通过使输入音频信号与对应的经过滤波的组合的音频信号之间的差度量最小化,得到了:在对于每频率分量可调节滤波器的增益的函数等于预定常数的约束下,组合的音频信号的功率度量被最大化。或者,换言之,控制电路隐含地限制增益的函数,以使得输出中干扰的功率保持恒定。使输出的功率最大化于是导致使输出信号中的期望的信号的功率最大化,由此增强输出信号中的信噪比。
由于使用可调节滤波器,不需要诸如在延迟和波束形成器中使用的可调节延迟元件之类的可调节延迟元件。
在另一个实施例中,音频处理装置包括固定延迟元件,用于补偿在输入音频信号中存在的共用音频信号的延迟差。来自声音源的音频信号可能在不同的时间到达音频源,因此导致由这些音频源生成的输入音频信号之间的延迟。这些差由延迟元件补偿。
根据本发明的另一方面,提供了一种音频处理方法。应当理解:上述特征、优点、注释等等相等地适用于本发明的此方面。
本发明还提供一种音频信号处理装置以及包括根据本发明的音频信号处理装置的助听器。
本发明的这些和其它方面、特征和优点将根据下文中描述的实施例而显而易见,并且将参照下文中描述的实施例而被阐明。
具体实施方式
以下的描述集中于适用于助听器并且特别适用于包括两个音频源的助听器的本发明的实施例。音频源可以是麦克风。麦克风优选地是全向的。然而,将理解:本发明不限于此应用,而是可以应用于许多其它的音频应用。特别地,将理解:所描述的原理可以容易地扩展到基于多于两个音频源的实施例。
图1示出了诸如在WO 99/27522中公开的、能够进行波束形成的现有技术音频处理装置的例示。音频处理装置将音频波束适配为朝向期望的声音源,所述期望的声音源可以是助听器的用户正在利用其讲话的扬声器。在特定的示例中,助听器包括如图1所示的音频处理装置100。即使存在不相关噪声,由音频处理装置100使用的FSB也使期望的声音源(例如语音)的功率最大化。
第一音频源101(这里是麦克风101)的输出连接到音频处理装置100的第一输入,并且第二音频源(这里是麦克风102)的输出连接到音频处理装置100的第二输入。
分别由音频源101和102生成,被音频处理装置处理以生成音频波束形成103。这里,s是期望的声音源(例如语音),称为传递因数的a是常数,n1和n2是不相关噪声干扰。此外,假定:
这意味着n1和n2彼此不相关,具有单位方差,并且与期望的声音源s不相关。
处理电路110包括第一缩放电路111和第二缩放电路112,每个缩放电路利用预定缩放因数缩放其输入音频信号。第一缩放电路使用缩放因数
。第二缩放电路使用缩放因数
。第一缩放电路生成第一经过处理的音频信号。第二缩放电路生成第二经过处理的音频信号。
然后,在组合电路120中对第一和第二经过处理的信号相加,以生成组合的(定向的)音频信号103:
具体地,通过修改第一和第二缩放电路111和112的缩放因数,音频波束的方向可以被指向期望的方向。
更新缩放因数,以使得整个组合的音频信号的功率估计被最大化。此外,在维持缩放电路111和112的相加能量恒定的约束下,进行缩放因数的适配。
上面的结果是缩放因数被更新,以使得组合的音频信号的期望的源分量的功率度量被最大化,尽管组合的信号包含不相关噪声。
在该特定示例中,电路111和112的缩放因数不被直接更新。代之,音频处理装置100包括控制电路130,其确定要由处理电路110使用的缩放因数的值。控制电路包括另外缩放电路131和132,用于对组合的音频信号进行缩放,以分别生成第三经过处理的音频信号以及第四经过处理的音频信号。
将第三经过处理的音频信号馈送到第一减法电路133,其生成第三经过处理的音频信号与第一输入音频信号x1之间的第一残留信号。将第四经过处理的音频信号馈送到第二减法电路134,其生成第四经过处理的音频信号与第二输入音频信号x2之间的第二残留信号。
在该装置中,在存在来自期望的声音源的主导信号的情况下,所述另外缩放电路131和132的缩放因数分别被控制元件135和136适配,以使得残留信号的功率被减小并且具体地被最小化。下面,更详细地解释控制电路的操作。
组合的音频信号103的功率是:
当在
的约束下
P y 被最大化时,
P y 中的噪声的功率保持恒定并且
P y 中的信噪比被最大化。然后,可以使用拉格朗日乘子方法来在理论上计算缩放因数,其产生:
并且
然而,在实践中,优选地使用最小均方(LMS)适配解来获得缩放因数,如在控制元件135和136中进行的。由此,拉格朗日乘子方法用于理论计算。
对于选择为
并且
的
和
,这两个缩放因数在音频处理装置100中被分别应用于电路111、131以及112、132中。换言之,由缩放电路111使用的缩放因数与由所述另外缩放电路131使用的缩放因数相同。可以看出:在
并且
的情况下,对于第一缩放电路111,在其残留信号中不存在剩余的期望的声音信号s,并且残留信号与第一缩放电路111的输入之间的互相关为零。
被馈送到控制电路130的组合的音频信号被表达为:
于是,与之间的互相关给出为:
在平衡时,在参考信号中不存在期望的声音信号,并且由于噪声而引起的
为零。
控制元件135和136分别优选地根据下面的表达式更新:
并且
其中k是时间索引,
是第二残留信号,并且其中
是适配常数。因为在
并且
的情况下,由于噪声引起的
为零,所以
f 1将保持平衡。上述对于
f 2也成立。
上面的内容可以被容易地一般化以用于每个具有传递因数
(其中
)的N个输入音频信号。对于包括在处理电路110中的、每个对应于输入音频信号
的N个缩放电路,每个缩放电路的缩放因数可以被表达为:
发明人认识到:所描述的音频处理装置100的性能在存在相关噪声的情况下显著降级并且因此不适于许多其中使用紧密间隔的麦克风从而导致增加的相关噪声(诸如混响噪声)的应用。具体地,发明人认识到:相关噪声的存在可能导致算法朝向对应于次最优的波束形成/方向的次最优的缩放因数收敛,或者可能导致算法不收敛。由此,如由发明人认识到的,对于包括期望的信号分量、不相关噪声分量以及相关噪声分量的输入信号,不相关噪声分量将仅增加所生成的滤波器系数估计的方差,但将不向估计引入偏差,而相关噪声将趋于使适配偏移离开滤波器系数的正确值。具体地,已经发现:对于混响房间中的小麦克风阵列,混响可以完全防止波束形成单元100朝向正确的解收敛。如果混响的等级等于或大于包括早期反射的直达声音,即如果源与麦克风之间的距离超出混响半径,则尤其是这样的情况。当然,这样的情况典型地是用于助听器应用的情况,在所述助听器应用中,麦克风之间的距离较低,而到期望的声音源(例如扬声器)的距离大得多。
图2示出了根据本发明的一个实施例的音频处理装置200的例示。该音频处理装置200是扩展有预处理电路140的音频处理装置100。该预处理电路140从输入音频信号导出经过预处理的音频信号。代替输入音频信号,将该经过预处理的信号提供到处理电路。该预处理电路140被布置为使包括在输入音频信号中的干扰的互相关最小化。
在一个示例中解释预处理电路140的操作。在n1和n2之间存在非零互相关:
组合的音频信号103的功率现在是:
其中
,清楚的是:使
P y最大化不一定意味着信噪比被最大化。对于
,使
P y最大化就使
最大化(其中
),除非
,否则这不是正确的解。
在控制电路130中,表达式
被优化,并且对于
并且
的情况,对于残留
出现问题,因为期望
于是为:
由此,
在不等于1时具有非零值。结果,由于在控制元件135中使用的缩放因数的更新规则,
是不平衡的,并且
将收敛到不同的(不期望的)解。
由此,期望去除干扰的互相关的影响,如在预处理电路140中进行的。用于上述示例的数据相关矩阵被定义为:
其逆矩阵为:
于是,预处理电路140的输出处的经过预处理的信号由下式给出:
于是,组合电路120的输出处的组合的信号y为:
于是,y的功率为:
为了优化信噪比,必须应用使P y中的噪声贡献独立于f 1和f 2的约束,即:
按照矩阵符号其可被等效地表达为:
应用拉格朗日乘子方法导致f 1和f 2以下的值:
上面的约束在图2所示的结构中实现。利用最优的缩放电路111和112以及另外缩放电路131和132,再一次在参考信号中不存在期望的声音源,并且残留信号中的噪声分量与所述另外缩放电路的输入之间的互相关等于零。
y中期望的声音源分量为:
类似地,对于y中的噪声分量:
在平衡时,由于在预处理电路140中执行的预处理,互相关的影响被去除。
在一个实施例中,所述预处理电路140通过将输入音频信号乘以调节矩阵的逆矩阵的电路来使干扰的互相关最小化。所述调节矩阵是相关矩阵的函数。相关矩阵中的元是多个音频源中相应对的音频源之间的相关度量。
可以进行调节矩阵的各种选择,只要调节矩阵保证包括在输入音频信号中的干扰的互相关被最小化。
优选地,调节矩阵由下式给出:
其中
V p (ω)是输入音频信号p中的干扰,
是输入音频信号q中的干扰,
是径向频率,且E是期望算子。其中可以如上地计算调节矩阵的示例是当干扰来自噪声来源时,并且当期望的声音源不活动时,可以估计上面的矩阵。可以通过对数据样本进行平均来计算期望。
然而,当干扰是混响时,上面的用于计算调节矩阵的方式是不可能的,因为混响仅在期望的源活动时存在并且由此不能被测量。在此情况下,可以利用用于相关矩阵的模型。
在另一个实施例中,调节矩阵是相关矩阵。
在另一个实施例中,相关矩阵的元(p, q)基于用于扩散噪声的模型,并且由下式给出:
其中
是麦克风p与q之间的距离,c是声音在空气中的速度,且
是径向频率。
如果调节矩阵是相关矩阵,其使相关干扰去相关,而之前不相关的噪声(例如白噪声,传感器噪声)现在变为相关。由此,存在折衷:相关干扰可以被去相关,但是代价是在之前不相关的噪声之间引入相关。在另一个实施例中,上面提及的折衷可以通过选择下式的调节矩阵而被控制:
其中
是调节矩阵,
是相关矩阵,
是预定参数,且
是单位矩阵。
一种更精确的控制上面提及的折衷的方式是基于相关和不相关噪声的相对功率来调节
。
在另一个实施例中,参数由下式给出:
其中
是输入音频信号中的干扰的方差,
是包含在音频信号中的电子噪声的方差。
在另一个实施例中,参数
取预定的固定值。
的优选值为0.98或0.99。
通常,电子噪声的功率
是固定的并且可以被测量。当期望的源不活动时,量
+
也可以被测量。一旦这两个量已知,就可以计算参数
。
图3示出了根据本发明的一个实施例的音频处理装置200的例示。处理电路140包括用于从经过预处理的音频信号导出经过处理的音频信号的多个可调节滤波器113和114。控制电路130包括具有作为可调节滤波器的传递函数的共轭的传递函数的多个可调节滤波器137和138。所述可调节滤波器137和138被布置为从组合的音频信号导出经过滤波的组合的音频信号。控制电路130被布置为通过控制所述可调节滤波器以及所述另外的可调节滤波器的传递函数来将经过处理的音频信号的增益的函数限制为预定值,以便使输入音频信号与对应于输入音频信号的经过滤波的组合的音频信号之间的差度量最小化。
另外,音频处理装置200包括固定延迟元件151和152。第一音频源101的输出连接到第一延迟元件151的输入。第一延迟元件151的输出连接到减法电路133的第一输入。第二音频源102的输出连接到第二延迟元件152的输入。第二延迟元件152的输出连接到第二减法电路134。延迟元件151和152使得可调节滤波器的脉冲响应相对于所述另外的可调节滤波器的脉冲响应来说是相对无因果的( anti-causal)(在时间上更早)。
在存在可调节滤波器而不是如在之前考虑的示例中的标量(增益)因数的情况下,在频域中看待该问题是有利的。类似于先前考虑的示例,于是在频域中具有如下式表达的第一输入音频信号
以及第二输入音频信号
:
上面的系统可以被当作用于每个频率分量(
)的标量的情况,并且可以如在先前的示例中那样导出对应的增益因数
和
。量
和
对应于可调节滤波器的传递函数。
图4示出了具有延迟元件141、142的、根据本发明的一个实施例的音频处理装置200的例示。所述延迟元件补偿在输入音频信号中存在的共用音频信号的延迟差。来自期望的(物理)声音源的音频信号可能在不同的时间到达音频源101和102,因此导致由这些音频源生成的输入音频信号之间的延迟。这些差由延迟元件141和142补偿。如图4中所示的音频处理装置200因此在其中用于补偿路径延迟的延迟元件的延迟值尚未调节为它们的最优值的过渡时间段期间也给出改进的性能。
尽管已经结合一些实施例描述了本发明,但是本发明并不意在限于本文阐述的特定形式。相反地,本发明的范围仅由所附权利要求书限制。此外,虽然特征可能看起来是结合特定实施例描述的,但是本领域技术人员应当认识到,根据本发明可以组合所描述的实施例的各种特征。在权利要求书中,措词“包括”不排除其他元件或步骤的存在。
此外,尽管单独地被列出,但是多个电路、元件或方法步骤可以由例如单个单元或适当编程的处理器实现。此外,尽管单独的特征可以包含于不同的权利要求中,但是这些特征可以有利地加以组合,并且包含于不同的权利要求中并不意味着特征的组合不可行和/或不是有利的。而且,特征包含于一种权利要求类别中并不意味着限于该类别,而是表示该特征同样可适当地应用于其他权利要求类别。此外,权利要求中特征的顺序并不意味着其中特征必须起作用的任何特定顺序,并且特别地,方法权利要求中各个步骤的顺序并不意味着这些步骤必须按照该顺序来执行。相反地,这些步骤可以以任何适当的顺序执行。此外,单数引用不排除复数。因此,对于“一”、“第一”、“第二”等等的引用不排除复数。权利要求中的附图标记仅仅作为澄清示例而被提供,并且不应当以任何方式被解释为限制权利要求的范围。