CN102077277A

CN102077277A - 音频处理

Info

Publication number: CN102077277A
Application number: CN2009801240387A
Authority: CN
Inventors: S.斯里尼瓦桑; D.A.C.M.鲁弗斯; C.P.詹斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV; MediaTek Inc
Priority date: 2008-06-25
Filing date: 2009-06-17
Publication date: 2011-05-25
Anticipated expiration: 2029-06-17
Also published as: CN102077277B; US8472655B2; JP2011526114A; KR20110040855A; JP5331201B2; KR101572793B1; US20110103625A1; EP2308044B1; WO2009156906A1; ATE528752T1; EP2308044A1

Abstract

一种音频处理装置（200）包括：生成输入音频信号的多个音频源（101，102）；处理电路（110），用于从输入音频信号导出经过处理的音频信号；组合电路（120），用于从所述经过处理的音频信号导出组合的音频信号；以及控制电路（130），用于控制所述处理电路以便使所述组合的音频信号的功率度量最大化，并且用于将所述经过处理的音频信号的增益的函数限制为预定值。根据本发明，所述音频处理装置（200）包括预处理电路（140），用于从输入音频信号导出经过预处理的音频信号，从而使包括在输入音频信号中的干扰的互相关最小化。代替输入音频信号，将所述经过预处理的信号提供给处理电路（110）。

Description

音频处理

技术领域

本发明涉及一种音频处理装置，包括：用于生成输入音频信号的多个音频源，用于从所述输入音频信号导出经过处理的音频信号的处理电路，用于从所述经过处理的音频信号导出组合的音频信号的组合电路，以及用于控制所述处理电路以便使所述组合的音频信号的功率度量最大化并且用于将所述经过处理的音频信号的增益的函数限制为预定值的控制电路。本发明还涉及一种音频处理方法。

背景技术

在包括例如电信、内容分发等等的许多领域中，音频信号的高级处理变得越来越重要。例如，在诸如电话会议之类的一些应用中，对于来自多个麦克风的输入的复杂处理已经被用于为包括各麦克风的麦克风阵列提供可配置的方向敏感度。具体地，对于来自麦克风阵列的信号的处理可以生成具有可以简单地通过改变各个麦克风信号的组合的特性来改变的方向的音频波束。

典型地，波束形成系统被控制，以使得干扰源（interferer）的衰减最大化。例如，可以控制波束形成系统，以在从主要干扰源接收的信号的方向上提供最大的衰减（优选地为不存在）。

在许多实施例中提供特别有利的性能的波束形成系统是在WO 99/27522中公开的滤波-和波束形成器（Filtered-Sum Beamformer, FSB）。

与许多其它的波束形成系统形成对照，FSB系统设法使朝向期望的信号的麦克风阵列的敏感度最大化，而不是使朝向干扰源的衰减最大化。FSB系统的示例在图1中例示。

该FSB系统设法对于麦克风阵列标识来自期望源的声学脉冲响应的特性，所述期望源包括直达场和第一次反射。FSB通过相干地将麦克风信号的期望部分相加来产生增强的输出信号z，所述相干地添将麦克风信号的期望部分相加的步骤是通过对前向匹配滤波器中的所接收的信号进行滤波并且将经过滤波的输出相加而进行的。而且，在对于前向滤波器具有共轭滤波器响应（在频域中对应于时域中的逆时脉冲响应）的后向自适应滤波器中对输出信号进行滤波。作为输入信号与后向自适应滤波器的输出之间的差而生产误差信号，并且滤波器系数被适配为使误差信号最小化，从而导致音频波束导向主导信号（dominant signal）。所生成的误差信号可以被视为特别适于对于增强的输出信号z执行额外的噪声降低的噪声参考信号。

对于音频信号处理来说特别重要的领域是助听器领域。近年来，助听器越来越多地应用复杂音频处理算法来提供改进的用户体验以及对于用户的辅助。例如，音频处理算法已经被用于提供期望的声音源和干扰声音源之间的改进的信号噪声比，从而向用户提供更清楚并且更易感的信号。特别地，已经开发了包括多于一个麦克风的助听器，其中麦克风的音频信号被动态地组合以为麦克风装置提供方向性。作为另一个示例，噪声消除系统可以被应用来降低由不期望的声音源和背景噪声导致的干扰。

FSB系统有望对于诸如助听器之类的应用是有利的，因为FSB系统许诺朝向期望的信号（而不是针对干扰信号的衰减）的高效的波束形成。已经发现这在助听器应用中特别有利，在所述助听器应用中，FSB系统已经被发现向用户提供便利并且帮助对于期望的信号的感知的信号。另外，FSB系统提供特别适于对于所生成的信号进行噪声降低/补偿的噪声参考信号。

然而，已经发现FSB系统在用于诸如助听器之类的应用时具有一些相关联的缺点。特别地，已经发现对于麦克风阵列中的各麦克风之间的短距离，FSB系统的性能降级。例如，对于具有间隔为15 mm的两个全向麦克风的典型的端射阵列的助听器配置，FSB已经被发现具有次最优的性能。实际上，已经发现在许多情况下，FSB系统未能够朝向期望的信号收敛。

因此，改进的音频波束形成将是有利的，特别地，允许用于麦克风之间的距离相当小的助听器的改进的适用性的波束形成将是有利的。

发明内容

本发明的一个目的是提供一种适于麦克风阵列中的各麦克风之间的短距离的增强的音频处理装置。本发明由独立权利要求限定。从属权利要求限定有利的实施例。

根据本发明，此目的在如上所述的音频处理装置中实现，所述音频处理装置的特征在于：所述音频处理装置包括用于从输入音频信号中导出经过预处理的音频信号的预处理电路。代替输入音频信号，将经过预处理的信号提供给处理电路。所述预处理电路被布置为使包括在输入音频信号中的干扰的互相关最小化。

在一个实施例中，所述预处理电路保证：在包括在一个输入音频信号中的干扰与包括在其它输入音频信号中的干扰相关的情况下，输出信号中仅期望信号的功率被最大化。在没有预处理电路、并且处理电路和控制电路例如使用被配置为使组合的音频信号中的期望的输出功率最大化的自适应滤波器系数的情况下，如果音频信号中的干扰相关的话，包括在处理电路和控制电路中的自适应滤波器的误差信号包含与自适应滤波器的输入相关的干扰。这将导致自适应滤波器系数背离最优解。这里，所述背离意味着使组合的信号的输出功率最大化不导致使期望的信号的输出功率最大化。

在一个实施例中，在预处理电路中执行的预处理确保：例如利用由处理电路和控制电路使用的、被配置为使组合的音频信号中的期望的输出功率最大化的自适应滤波器系数，自适应滤波器的误差信号与输入中的干扰分量之间的相关被最小化。

以此方式，所述音频处理装置在应用于具有相关的干扰的麦克风阵列时提供鲁棒的性能。这种情况的一个示例是混响情况下端射配置中的小麦克风阵列。

在一个实施例中，所述预处理电路通过将输入音频信号乘以调节矩阵的逆矩阵的电路来使干扰的互相关最小化。所述调节矩阵是相关矩阵的函数，其中相关矩阵中的元是包含在音频源中多个干扰中的相应对的干扰之间的相关度量。

例如包括在处理电路和控制电路中的自适应滤波器分别对于其中自适应滤波器收敛到期望的语音信号的情况的背离是由音频信号中的干扰的相关造成的，特别是由自适应滤波器的误差信号中的干扰和自适应滤波器的输入中的干扰的相关造成的。这里，到期望的信号的收敛确保自适应滤波器系数被配置为使组合的音频信号中的期望的输出功率最大化。将输入音频信号乘以调节矩阵的逆矩阵确保自适应滤波器的误差信号和输入中的干扰之间的相关被最小化。

在另一个实施例中，调节矩阵是相关矩阵。相关矩阵的元可以是标量或者滤子（filter）。当元是标量时，则在时域中处理问题是有利的。如果元是滤子，则在频域中处理问题是有利的。在频域中，对于每个频率分量，相关矩阵

Figure 2009801240387100002DEST_PATH_IMAGE004

具有标量元，并且因此标量的情况可被应用于每个单独的频率分量。

在另一个实施例中，调节矩阵由下式给出：

Figure 2009801240387100002DEST_PATH_IMAGE006

其中

Figure 2009801240387100002DEST_PATH_IMAGE008

是调节矩阵，是相关矩阵，

是预定参数，是单位矩阵，

是径向频率（radial frequency）。

上面的调节矩阵的选择的优点是使得音频处理装置的操作对于诸如例如麦克风自身噪声之类的不相关的噪声较不敏感。

在另一个实施例中，参数

由下式给出：

Figure 2009801240387100002DEST_PATH_IMAGE018

其中是输入音频信号中的相关干扰（期望的语音信号的声学噪声和/或混响）的方差，且

Figure 2009801240387100002DEST_PATH_IMAGE022

是包含在音频信号中的不相关电子噪声（白噪声，例如麦克风自身噪声）的方差。

Figure 2009801240387100002DEST_PATH_IMAGE024

等效于包括相关干扰和不相关电子干扰的组合的干扰信号的数据相关矩阵。利用参数

的这种定义，调节矩阵的元更精确地反映干扰之间的实际相关。

在另一个实施例中，参数

取预定的固定值。利用的预定的固定值，不需要测量

和

的值，而是可以取

的平均值，从而导致减少相关。此实施例的优点是确定调节矩阵的元非常简单。将参数

当作控制对于扩散噪声的鲁棒性与麦克风自身噪声的放大之间的折衷的设计参数。参数

的典型值是0.99。

在另一个实施例中，调节矩阵的元(p, q)由下式给出：

Figure 2009801240387100002DEST_PATH_IMAGE026

其中是输入音频信号p中的干扰，

是输入音频信号q中的干扰，

是径向频率，E是期望算子。上面的实施例的优点是调节矩阵的元相当精确。

在另一个实施例中，相关矩阵的元(p, q)由下式给出：

其中是麦克风p和q之间的距离，c是声音在空气中的速度，且

是径向频率。矩阵是属于（理想）扩散声场的数据相关矩阵。扩散声场可以是扩散噪声场或者由于期望的语音的混响导致的场。特别是对于后者，难以测量数据相关矩阵，这是因为混响与期望的（直达）语音相联系，即混响在非语音活动期间不可得。上面的公式提供了扩散噪声场中的相干函数的良好估计。

在另一个实施例中，处理电路包括用于从预处理的音频信号导出经过处理的音频信号的多个可调节滤波器，以及控制电路包括具有作为可调节滤波器的传递函数的共轭的传递函数的多个另外的可调节滤波器。所述另外的可调节滤波器从组合的音频信号导出经过滤波的组合的音频信号。控制电路通过控制所述可调节滤波器以及所述另外的可调节滤波器的传递函数来将经过处理的音频信号的增益的函数限制为预定值，以便使输入音频信号与对应于输入音频信号的经过滤波的组合的音频信号之间的差度量最小化。

通过将可调节滤波器用作处理电路，可以进一步增强语音信号的质量。通过使输入音频信号与对应的经过滤波的组合的音频信号之间的差度量最小化，得到了：在对于每频率分量可调节滤波器的增益的函数等于预定常数的约束下，组合的音频信号的功率度量被最大化。或者，换言之，控制电路隐含地限制增益的函数，以使得输出中干扰的功率保持恒定。使输出的功率最大化于是导致使输出信号中的期望的信号的功率最大化，由此增强输出信号中的信噪比。

由于使用可调节滤波器，不需要诸如在延迟和波束形成器中使用的可调节延迟元件之类的可调节延迟元件。

在另一个实施例中，音频处理装置包括固定延迟元件，用于补偿在输入音频信号中存在的共用音频信号的延迟差。来自声音源的音频信号可能在不同的时间到达音频源，因此导致由这些音频源生成的输入音频信号之间的延迟。这些差由延迟元件补偿。

根据本发明的另一方面，提供了一种音频处理方法。应当理解：上述特征、优点、注释等等相等地适用于本发明的此方面。

本发明还提供一种音频信号处理装置以及包括根据本发明的音频信号处理装置的助听器。

本发明的这些和其它方面、特征和优点将根据下文中描述的实施例而显而易见，并且将参照下文中描述的实施例而被阐明。

附图说明

图1示出了能够进行波束形成的现有技术音频处理装置的例示；

图2示出了根据本发明的一些实施例的音频处理装置的示例的例示；

图3示出了具有包括多个可调节滤波器的处理电路和控制电路的、根据本发明的一些实施例的音频处理装置的示例的例示；

图4示出了具有延迟元件的、根据本发明的一些实施例的音频处理装置的示例的例示。

遍布各附图，相同的参考标号指示相似或者对应的特征。图中指示的特征中的一些特征典型地以软件实现，并且由此表示软件实体，诸如软件模块或者对象。

具体实施方式

以下的描述集中于适用于助听器并且特别适用于包括两个音频源的助听器的本发明的实施例。音频源可以是麦克风。麦克风优选地是全向的。然而，将理解：本发明不限于此应用，而是可以应用于许多其它的音频应用。特别地，将理解：所描述的原理可以容易地扩展到基于多于两个音频源的实施例。

图1示出了诸如在WO 99/27522中公开的、能够进行波束形成的现有技术音频处理装置的例示。音频处理装置将音频波束适配为朝向期望的声音源，所述期望的声音源可以是助听器的用户正在利用其讲话的扬声器。在特定的示例中，助听器包括如图1所示的音频处理装置100。即使存在不相关噪声，由音频处理装置100使用的FSB也使期望的声音源（例如语音）的功率最大化。

第一音频源101（这里是麦克风101）的输出连接到音频处理装置100的第一输入，并且第二音频源（这里是麦克风102）的输出连接到音频处理装置100的第二输入。

第一输入音频信号

以及第二输入音频信号

：

分别由音频源101和102生成，被音频处理装置处理以生成音频波束形成103。这里，s是期望的声音源（例如语音），称为传递因数的a是常数，n₁和n₂是不相关噪声干扰。此外，假定：

这意味着n₁和n₂彼此不相关，具有单位方差，并且与期望的声音源s不相关。

处理电路110包括第一缩放电路111和第二缩放电路112，每个缩放电路利用预定缩放因数缩放其输入音频信号。第一缩放电路使用缩放因数

。第二缩放电路使用缩放因数

。第一缩放电路生成第一经过处理的音频信号。第二缩放电路生成第二经过处理的音频信号。

然后，在组合电路120中对第一和第二经过处理的信号相加，以生成组合的（定向的）音频信号103：

具体地，通过修改第一和第二缩放电路111和112的缩放因数，音频波束的方向可以被指向期望的方向。

更新缩放因数，以使得整个组合的音频信号的功率估计被最大化。此外，在维持缩放电路111和112的相加能量恒定的约束下，进行缩放因数的适配。

上面的结果是缩放因数被更新，以使得组合的音频信号的期望的源分量的功率度量被最大化，尽管组合的信号包含不相关噪声。

在该特定示例中，电路111和112的缩放因数不被直接更新。代之，音频处理装置100包括控制电路130，其确定要由处理电路110使用的缩放因数的值。控制电路包括另外缩放电路131和132，用于对组合的音频信号进行缩放，以分别生成第三经过处理的音频信号以及第四经过处理的音频信号。

将第三经过处理的音频信号馈送到第一减法电路133，其生成第三经过处理的音频信号与第一输入音频信号x₁之间的第一残留信号。将第四经过处理的音频信号馈送到第二减法电路134，其生成第四经过处理的音频信号与第二输入音频信号x₂之间的第二残留信号。

在该装置中，在存在来自期望的声音源的主导信号的情况下，所述另外缩放电路131和132的缩放因数分别被控制元件135和136适配，以使得残留信号的功率被减小并且具体地被最小化。下面，更详细地解释控制电路的操作。

组合的音频信号103的功率是：

当在

的约束下P _y被最大化时，P _y中的噪声的功率保持恒定并且P _y中的信噪比被最大化。然后，可以使用拉格朗日乘子方法来在理论上计算缩放因数，其产生：

并且

然而，在实践中，优选地使用最小均方（LMS）适配解来获得缩放因数，如在控制元件135和136中进行的。由此，拉格朗日乘子方法用于理论计算。

对于选择为

并且

的

和

，这两个缩放因数在音频处理装置100中被分别应用于电路111、131以及112、132中。换言之，由缩放电路111使用的缩放因数与由所述另外缩放电路131使用的缩放因数相同。可以看出：在

并且

的情况下，对于第一缩放电路111，在其残留信号中不存在剩余的期望的声音信号s，并且残留信号与第一缩放电路111的输入之间的互相关为零。

被馈送到控制电路130的组合的音频信号被表达为：

于是，第一残留信号

被表达为：

对于

并且

并且

，上面的第一残留信号减小到：

于是，与之间的互相关给出为：

在平衡时，在参考信号中不存在期望的声音信号，并且由于噪声而引起的

为零。

控制元件135和136分别优选地根据下面的表达式更新：

并且

其中k是时间索引，

是第二残留信号，并且其中

是适配常数。因为在

并且

的情况下，由于噪声引起的

为零，所以f ₁将保持平衡。上述对于f ₂也成立。

上面的内容可以被容易地一般化以用于每个具有传递因数

（其中

）的N个输入音频信号。对于包括在处理电路110中的、每个对应于输入音频信号的N个缩放电路，每个缩放电路的缩放因数可以被表达为：

发明人认识到：所描述的音频处理装置100的性能在存在相关噪声的情况下显著降级并且因此不适于许多其中使用紧密间隔的麦克风从而导致增加的相关噪声（诸如混响噪声）的应用。具体地，发明人认识到：相关噪声的存在可能导致算法朝向对应于次最优的波束形成/方向的次最优的缩放因数收敛，或者可能导致算法不收敛。由此，如由发明人认识到的，对于包括期望的信号分量、不相关噪声分量以及相关噪声分量的输入信号，不相关噪声分量将仅增加所生成的滤波器系数估计的方差，但将不向估计引入偏差，而相关噪声将趋于使适配偏移离开滤波器系数的正确值。具体地，已经发现：对于混响房间中的小麦克风阵列，混响可以完全防止波束形成单元100朝向正确的解收敛。如果混响的等级等于或大于包括早期反射的直达声音，即如果源与麦克风之间的距离超出混响半径，则尤其是这样的情况。当然，这样的情况典型地是用于助听器应用的情况，在所述助听器应用中，麦克风之间的距离较低，而到期望的声音源（例如扬声器）的距离大得多。

图2示出了根据本发明的一个实施例的音频处理装置200的例示。该音频处理装置200是扩展有预处理电路140的音频处理装置100。该预处理电路140从输入音频信号导出经过预处理的音频信号。代替输入音频信号，将该经过预处理的信号提供到处理电路。该预处理电路140被布置为使包括在输入音频信号中的干扰的互相关最小化。

在一个示例中解释预处理电路140的操作。在n₁和n₂之间存在非零互相关：

组合的音频信号103的功率现在是：

其中

，清楚的是：使P _y最大化不一定意味着信噪比被最大化。对于

，使P _y最大化就使最大化（其中

），除非，否则这不是正确的解。

在控制电路130中，表达式

被优化，并且对于

并且的情况，对于残留

出现问题，因为期望

于是为：

由此，

在不等于1时具有非零值。结果，由于在控制元件135中使用的缩放因数的更新规则，

是不平衡的，并且

将收敛到不同的（不期望的）解。

由此，期望去除干扰的互相关的影响，如在预处理电路140中进行的。用于上述示例的数据相关矩阵被定义为：

其逆矩阵为：

于是，预处理电路140的输出处的经过预处理的信号由下式给出：

于是，组合电路120的输出处的组合的信号y为：

于是，y的功率为：

为了优化信噪比，必须应用使P _y中的噪声贡献独立于f ₁和f ₂的约束，即：

按照矩阵符号其可被等效地表达为：

应用拉格朗日乘子方法导致f ₁和f ₂以下的值：

并且

上面的约束在图2所示的结构中实现。利用最优的缩放电路111和112以及另外缩放电路131和132，再一次在参考信号中不存在期望的声音源，并且残留信号中的噪声分量与所述另外缩放电路的输入之间的互相关等于零。

y中期望的声音源分量为：

中期望的声音源分量为：

类似地，对于y中的噪声分量：

中的噪声分量：

使

和

Claims

1. 一种音频处理装置（200），包括：

预处理电路，用于从输入音频信号导出经过预处理的音频信号，从而使包括在输入音频信号中的干扰的互相关最小化；

处理电路（110），用于从经过预处理的输入音频信号导出经过处理的音频信号，

组合电路（120），用于从所述经过处理的音频信号导出组合的音频信号，以及

控制电路（130），用于控制所述处理电路以便使所述组合的音频信号的功率度量最大化，并且用于将所述经过处理的音频信号的增益的函数限制为预定值。

2. 根据权利要求1所述的音频处理装置，其中所述预处理电路（140）被布置为通过将输入音频信号乘以调节矩阵的逆矩阵的电路来使干扰的互相关最小化，其中所述调节矩阵是相关矩阵的函数，并且其中所述相关矩阵中的元是多个音频源中相应对的音频源之间的相关度量。

3. 根据权利要求2所述的音频处理装置，其中所述调节矩阵是所述相关矩阵。

4. 根据权利要求2所述的音频处理装置，其中所述调节矩阵由下式给出：

其中

是所述调节矩阵，

是所述相关矩阵，

是预定参数，

是单位矩阵，

是径向频率。

5. 根据权利要求4所述的音频处理装置，其中所述参数

由下式给出：

其中

是所述输入音频信号中的相关干扰的方差，是包含在所述输入音频信号中的不相关电子噪声的方差。

6. 根据权利要求4所述的音频处理装置，其中所述参数

是预定的固定值。

7. 根据权利要求2所述的音频处理装置，其中所述调节矩阵的元(p, q)由下式给出：

其中

是输入音频信号p中的干扰，

是输入音频信号q中的干扰，是径向频率，E是期望算子。

8. 根据权利要求2所述的音频处理装置，其中所述相关矩阵的元(p, q)由下式给出：

其中

是麦克风p和q之间的距离，c是声音在空气中的速度，

是径向频率。

9. 根据权利要求1所述的音频处理装置，其中所述处理电路（110）包括用于从所述经过预处理的音频信号导出经过处理的音频信号的多个可调节滤波器（113，114），所述控制电路（130）包括用于从所述组合的音频信号导出经过滤波的组合的音频信号的多个另外可调节滤波器（137,138），所述另外可调节滤波器具有作为所述可调节滤波器的传递函数的共轭的传递函数，以及所述控制电路被布置为通过控制所述可调节滤波器以及所述另外可调节滤波器的传递函数来将所述经过处理的音频信号的增益的函数限制为所述预定值，以便使所述输入音频信号与对应于所述输入音频信号的经过滤波的组合的音频信号之间的差度量最小化。

10. 根据权利要求1所述的音频处理装置，其中所述音频处理装置（200）包括用于补偿在所述输入音频信号中存在的共用音频信号的延迟差的延迟元件（141,142）。

11. 一种音频信号处理装置，包括：

生成输入音频信号的多个音频源（101,102），以及

如权利要求1所述的音频处理装置（200）。

12. 一种音频处理方法，包括：

从多个音频源（101，102）接收多个输入音频信号，

从所述输入音频信号导出经过预处理的音频信号，从而使包括在所述输入音频信号中的干扰的互相关最小化，

从所述经过预处理的音频信号导出经过处理的音频信号，从所述经过处理的音频信号导出组合的音频信号，

控制经过处理的音频信号的导出，以便使所述组合的音频信号的功率度量最大化，以及

控制将所述经过处理的音频信号的增益的函数限制为预定值的处理。

13. 一种助听器，包括根据权利要求11所述的音频处理装置。