CN101189656A

CN101189656A - 具有相对于不相关噪声的稳健性的自适应波束生成器

Info

Publication number: CN101189656A
Application number: CNA2004800345675A
Authority: CN
Inventors: B·E·萨鲁克; C·P·扬斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-24
Filing date: 2004-11-18
Publication date: 2008-05-28
Also published as: KR20060113714A; EP1692685A2; JP2007523514A; US20070076898A1; WO2005050618A3; WO2005050618A2

Abstract

相对稳健的自适应波束生成器，包括：滤波求和波束生成器(107)，用于处理来自各个麦克风的阵列(101，103，105)的输入音频信号(u1，u2，u3)，并且设置成主要对应于来自预期音频源(160)的声音而产生第一音频信号(z)的输出；和噪声估计，例如当被集成在旁瓣抑制器结构中时，一个自适应噪声估计器(150)，设置成获取噪声信号(y)，并从第一音频信号(z)中减去该噪声信号(y)而获得去除噪声的第二音频信号(r)，并且进一步包括定标因子确定单元(170)，设置成提供作为旁瓣抑制的比率(Q)的函数的定标因子(S)，并且设置成利用该定标因子(S)定标自适应步长，从而使得该旁瓣抑制器仅在相对较好地锁定在该预期声源上时快速自适应，而对于来自噪声源的干扰不敏感。

Description

具有相对于不相关噪声的稳健性的自适应波束生成器

本发明涉及一种自适应波束生成器和一种包括例如自适应波束生成器的旁瓣抑制器。

本发明还涉及免持(handsfree)语音通信设备、声音控制单元和用于跟踪音频产生物体的跟踪设备，包括例如自适应波束生成器或旁瓣抑制器。

本发明还涉及一种包括例如声音控制单元的消费者设备。

本发明还涉及一种自适应波束生成或旁瓣抑制的方法。

第一段中所述的旁瓣抑制器(sidelobe canceller)和所包括的波束生成器(注意：波束生成器和旁瓣抑制器可以被称为相应的设备，由于在旁瓣抑制器内部的波束生成器是以与独立的波束生成器相似的方式自适应，所以二者都具有本发明的特定技术特征所解决的相同问题)可以从“C.Fancourt and L.Parra：The generalized sidelobedecorrelator.Proceedings of the IEEE Workshop onapplications of signal processing to audio and acoustics2001.”的公开中得知。旁瓣抑制器被设计成锁定在预期的声源上，即主要对应于来自该预期声源的声音而产生输出音频信号，而尽可能地抑制被称为噪声的、来自其它声源的声音。为了实现这一点，旁瓣抑制器包括处理来自麦克风阵列的信号的自适应波束生成器，其波束生成器的滤波器可以被优化，从而使它们表示从该预期声源到每个麦克风的预期音频路径的逆(即通过例如反射各种表面和最终从各个方向进入特定的麦克风而修改该预期音频)。通过将该滤波信号相加，该波束生成器有效地实现了在预期声源方向具有高灵敏度波瓣的方向敏感模式。例如对于纯延迟的滤波器，该波束生成器实现了具有主瓣和旁瓣的sin(x)/x模式。然而这种敏感模式的问题是，也会拾取来自其它声源的声音。例如一个噪声源可能位于一个旁瓣的方向上。为了解决这个问题，该旁瓣抑制器还包括自适应噪声抑制阶段。根据该麦克风测量，通过阻塞来自它们的预期声音成分，即在本示例中确定该旁瓣中的噪声，来计算噪声参考信号。通过根据这些噪声测量的自适应滤波器，估计在该朝向预期声音的波瓣图中泄漏了多少噪声源。最后，从在主瓣中拾取的信号中减去该噪声，以便最大程度地使得仅有预期声音作为最终的音频信号。如果相应于这种优化的旁瓣抑制器计算定向模式，则它将包含朝向该预期声源的主瓣，而在该噪声源的方向为零。

在现有技术的旁瓣抑制器和波束生成器中存在许多问题，导致在实际中它不能像理论上那样工作。首先，在来自预期声源例如扬声器的声音和来自噪声源的声音例如发动机声音之间不一定存在物理差别。所以该系统可以向该噪声源分叉而不是锁定在该扬声器上，并且具有朝向该预期声源和噪声源之间的方向的主瓣。在该旁瓣抑制器中，这导致了这样一个事实，即该噪声参考包含语音或者一般为预期的声音，因而不是仅仅从被主瓣拾取的声音中抑制噪声，而是也抑制了该预期声音的一部分。对于语音来说，这是特别不可接受的。在一些情况下，这种具有麦克风阵列的旁瓣抑制器甚至比没有旁瓣抑制器的各个麦克风工作更差。这种来自特定方向(例如第二扬声器)的噪声称为相关噪声，因为每个麦克风拾取有关的声音，例如延迟版本。第二，存在所谓不相关源的问题，在这种情况下该麦克风的信号是正交的。不相关噪声可以来自例如散射声场(许多独立源，例如来自回响或对于汽车的风噪声)，或者仅仅是该麦克风中的电子噪声。这种噪声也会妨碍旁瓣抑制器的功能。现有技术的旁瓣抑制器可以包含语音检测器以试图解决这些问题。假定预期声源是扬声器，而噪声源不是。波束生成器仅当接收语音时进行自适应，典型地通过最大化其输出功率来实现。如果该噪声抑制滤波器被不正确地自适应，那么它们会对该预期的语音最终输出施加本应当最小化的残余噪声。因此，当仅检测到噪声时，使该最终输出最小化而不是最大化以获得优化的噪声抑制滤波器。这种语音检测器存在两个问题。首先，该旁瓣抑制器不能锁定到例如用于将照相机指向产生音频通信声音的设备所需的非语音信号；第二，更重要的是，这种语音检测器不是非常稳健的，使得这种旁瓣抑制器仍然相对较坏。对于预期声源和/或噪声源的方向变化的环境设计好的波束生成器/旁瓣抑制器特别困难，因此对于这种情况，滤波器必须在相对较短的时间间隔内再次自适应。然而，这种情形很常见，例如在试图跟踪在房间内移动的说话者的电话会议系统中，或者在说话人对集成在移动电话中的旁瓣抑制器说话的系统中，并且该移动电话在可变环境中移动，例如是免持汽车电话工具包。所描述的关于旁瓣抑制器的问题也是关于与另一噪声去除策略相关联的自适应波束生成器的问题。

本发明的第一个目的是提供一种对于噪声影响相对稳健的自适应波束生成器。该第一个目的是这样实现的，该自适应波束生成器包括：

-滤波求和波束生成器，设置成处理来自各个麦克风的阵列的输入音频信号，和设置成产生主要对应于来自预期音频源的声音的第一音频信号作为输出，通过利用第一组相应的自适应滤波器滤波该输入音频信号，该滤波求和波束生成器以这种形式自适应，即该第一组自适应滤波器的系数易于通过对至少一个系数加上作为自适应步长的函数而获得的不同值而改变；和

-定标因子确定单元，设置成提供作为第一变量和第二变量的比的第一函数评估的定标因子，该第一变量是对在第一音频信号中存在的来自预期声源的未掺杂噪声的音频信号的估计，而第二变量是对在该第一音频信号中存在的噪声的估计，该自适应波束生成器被设置成利用该定标因子定标该自适应步长。

对于稳健的自适应波束生成器，希望对该自适应波束生成器是否锁定在该预期声音上进行更连续的评估(与上述语音检测器相比)，而不只是二元的语音/非语音判定，因为通过这种连续功能，该自适应波束生成器能够承受评估错误。如果根据该二元判别错误地将噪声识别为语音，则该波束生成器将开始完全对该噪声自适应，从而变得非最优。在该波束生成器响应于即将到来的噪声而进行错误自适应的情况下，需要一种结构，通过它来使得该波束生成器仅在参数空间中进行少量自适应。这可以通过使得该自适应步骤依赖于指示该波束生成器优化程度和噪声到来数量的函数的结果来实现，从而能够使得该波束生成器变得非最优。这两个因子可以被一起组合到一个等式中，用于将定标因子指定为如下1)和2)的比率的函数F1：

1)任何指示预期音频信号(例如语音)的变量(例如，该第一音频信号本身应当是近乎完美的，但是优选为其进一步处理的版本，其中利用其他方法例如旁瓣抑制大量去除了由该波束生成器不能抑制的噪声)。理论上，可以理解，这是实际上从预期音频源发出并且经过例如房间传播、麦克风传输函数等修改(滤波)的音频(但是不会被电子电路噪声、来自其他非预期音频源的相关和非相关噪声所破坏)；和

2)任何指示在被处理以变得更接近于该预期语音/音频的(输出)音频信号中的噪声的变量。

如果这个函数很大，它表示该波束生成器工作得非常好，并且也许会自适应得很好，所以可以使用大量自适应步骤，以便可以跟踪运动的预期声源。反之，如果该函数表示波束生成器没有很好地工作(例如由于强干扰噪声源的存在而使得该比率很小)，那么自适应步骤应当被设置为很小，因为该滤波求和波束生成器滤波器系数将不会自适应到正确值，而是变得更差。否则该波束生成器滤波器将被噪声大量或部分影响。从而使得该自适应步骤与定标因子成比例。

该自适应波束生成器或者其任何实施例，可以被包含在一个旁瓣抑制器中，其进一步包括：

-自适应噪声估计器，布置成通过利用第二组自适应滤波器对从输入音频信号获取的各个噪声测量进行滤波而得到估计的噪声信号；和

-减法器，被连接以从该第一音频信号中减去该估计的噪声信号而获得去除噪声的第二音频信号。

现在是第二组自适应滤波器(g1，g2)，其与该滤波求和波束生成器的滤波器相关联，并且估计从该波束生成器输出的预期信号中的噪声分布。一般地，该估计的噪声信号将是比例如简单的单个噪声测量x1更可靠的噪声估计，当然是假定所有滤波器都能够很好地自适应。对于波束生成器，第一音频信号(z)不与噪声正交，因为在二者中都将存在例如相关噪声。利用旁瓣抑制器可以在很大程度上解决这一点：更好的噪声估计(y)和预期语音(r)的更好(干净)版本是近似正交的。

如果预期音频是与该旁瓣抑制器被优化以抑制的一种噪声(即在方向敏感模式为零的方向上的少量相关噪声源)一起输入的，那么旁瓣抑制会工作得很好；相反，如果该滤波器没有优化(即例如该主瓣被定向在预期声源的方向和噪声源的方向之间)和/或存在不相关噪声，则该旁瓣抑制器工作得很差。如果该旁瓣抑制器主要拾取了该预期声音，那么它可以以较大的自适应步长进行自适应，以便能够跟踪运动的预期声源。然而，如果该旁瓣抑制在保持聚焦在预期声源上有问题(例如由于干扰噪声源)，使用较大的自适应步长也许会使它变得更差(特别是当它仅被轻微地错误自适应(misadapted)时)，因而该自适应步长应该很小。类似的理由应用于噪声估计器/抑制器，否则它会被设计成主要对噪声而不是预期信号例如语音进行自适应。通过这种连续的评估，如果需要的话，噪声抑制器的滤波求和波束生成器和噪声估计器可以同步自适应，或者每个使用例如现有技术的语音检测器在各自的补充时间段内自适应。

要注意的是，用于由减法器142从第一音频信号(z)中抑制的噪声估计(y)不需要与用于评估步长的噪声估计相同。优选地，这是一个关于由噪声估计器310估计的初步噪声估计x1、x2、x3的函数A(xi)。该对于在第一音频信号中存在的噪声的估计当然可以被设定为y本身(在这种情况下，噪声估计器310被作为一个部件与自适应噪声估计器150物理集成)。然而在一些情形中，其他估计会效果更好(例如，当由于在阻塞矩阵(blocking matrix)之后，第一音频信号z和参照信号之间仅有极小相关，而使得自适应噪声估计器150不能得到较大的或者可靠的y信号时)。于是例如可以使用非线性函数作为噪声参考信号的功率和(对于许多散播噪声是好的，如在聚会中许多背景说话人的所谓“多路干扰噪声”)。

自适应波束生成器或包括自适应波束生成器的旁瓣抑制器的第一实施例具有设定在频域中的第一组滤波器(f1(-t)，f2(-t)，f3(-t))，并且被布置成具有对每个预定频率范围定标的自适应步长，该定标是由(P_zz[f，t]-CP_A(xi)A(xi)[f，t])/P_zz[f，t]得到的比率(Q)实现的，其中P_zz[f，t]是对于第一音频信号(z)在瞬时时间t和频率f周围的预定频率范围内的功率测量，P_A(xi)A(xi)[f，t]是对于由噪声估计单元(310)通过变换A从至少一个噪声测量(x1)获取的噪声信号的功率测量，C是常数。

替代功率，也可以使用该信号的幅度或幅度的其他函数用于该比率等式中。

用于该旁瓣抑制器的适当和优选的变换A是，通过对噪声估计x1、x2、x3应用噪声估计滤波而产生的变换，并且得到估计噪声信号y。在这种示例情况下，P_A(xi)A(xi)[f，t]变为P_yy[f，t]。

在这种情况下，该分母是对于包含噪声的语音/预期音频的测量，而分子是对于该预期音频的测量(在抑制所存在噪声的估计之后，即该减法后的结果)。该特定的函数具有有用的标准化特性。

该滤波器可以已经对多数频率进行了很好的自适应，但是特定频带中的噪声会出现或者相对于该旁瓣抑制器移动。在这种情况下，仅需要自适应特定频带中的系数。因而，根据本发明的自适应波束生成器/旁瓣抑制器的优选实施例将使用设定在频域中的滤波器工作，虽然也可以使用时域滤波器或其他表示。在该第一实施例中，选择由该波束生成器输出的第一音频信号的功率作为预期声音估计使用的该比率等式中的信号。代替严格地使用该波束生成器的输出，可以在将该第一音频信号代入定标因子确定单元之前执行多个基本的信号定形操作，例如因为该噪声估计典型地会导致额外延迟，所以典型地在该波束生成器之后引入延迟元件。然后，优选地，在该延迟之后使用该第一音频信号，因为该信号与噪声信号同步。如果该旁瓣抑制器进行了很好的自适应并且存在极少的噪声，那么上式中的噪声功率与预期声音功率相比是可以忽略的，使得该分子近似等于分母。反之，如果存在大量噪声，则分子将会比分母小，使得该比率较小。上式具有在0和1之间的值，意味着可以通过与上式的简单相乘而将所建议的步长定标在该建议和0之间。然而该波束生成器滤波器典型地是通过利用从上式得到的评估定标它们的自适应步长来调节，噪声估计器/抑制器滤波器典型地用1减去该评估结果来定标。

旁瓣抑制器的第二实施例具有设定在频域中的第一组滤波器的系数，并且被布置成具有对每个预定频率范围定标的自适应步长，该定标是由(P_zz[f，t]-CP_A(xi)A(xi)[f，t])/P_rr[f，t]得到的比率(Q)实现的，其中P_zz[f，t]是对于第一音频信号(z)在瞬时时间t和频率f周围的预定频率范围内的功率测量，P_A(xi)A(xi)[f，t]是对于由噪声估计单元(310)通过变换A从至少一个噪声测量(x1)获取的噪声信号的功率测量，P_rr[f，t]是对于第二音频信号(r)的功率测量，C是预定常数。

作为使用该第一音频信号作为预期声音的估计的替代，也可以使用第二音频信号作为参考信号。因为该第二音频信号是在从第一音频信号中减去残余噪声而获得的，所以假定它是对于预期音频信号更精确的估计。认为如果该系统接近最优时，那么在用于获得该预期信号的算法的进一步处理流程中的信号就构成了用于判定例如该波束生成器是否应当自适应的更精确基础，但是如果该旁瓣抑制器远远达不到最优，那么所得到的信号也可能比通过一些简单算法获得的估计差得更多。因此当使用这种旁瓣抑制器布局结构来更新该滤波器时，经典的语音检测器会得到总体不可接受的结果，而用于定标该步长的连续准则是惟一的可行选择。可以获得类似的等式和等效的旁瓣抑制器更新结构以用于在进一步处理之后使用所获得的信号作为参考信号，该进一步的处理例如，典型地，进一步减少残余噪声量，或者进一步净化该预期声音或语音。

有利的是，如果该自适应波束生成器/旁瓣抑制器包括语音检测器，其基于该第一音频信号提供布尔标识语音/噪声，并设置成仅当该标识是语音时对该第一组进行自适应，而仅当该标识是噪声时该旁瓣抑制器对第二组滤波器进行自适应。从而该波束生成器被设置成仅在该预期声音是语音时利用标定的自适应步长对其滤波器进行自适应。

还有利的是，如果该自适应波束生成器/旁瓣抑制器被设置成对该比率应用二元判定函数，并且设置成如果该判定是1则仅对第一组滤波器进行自适应，和如果该判定是0则仅对第二组滤波器进行自适应。例如，上述两等式的任一个大于0.5的值导致仅更新该波束生成器滤波器，即在判定等于1时，在本示例中通过舍入到最近的整数而获得的。然而语音检测器仅能区分语音和非语音噪声(经常是以不可靠的方式)，在检测器中使用该比率具有使得该旁瓣抑制器能够用于锁定在所有类型的非语音预期声音上的优点，该非语音预期声音例如是动物比如鸟的叫声，或者由设备产生的声音。

该自适应波束生成器和旁瓣抑制器典型地可以应用于所有种类的(例如典型地为免持的)语音通信设备中，例如放置在桌上用于电话会议的装置，或者汽车设备，或常规的移动电话，个人数字助理，口述设备或者其他具有类似通信功能的设备。该自适应波束生成器/旁瓣抑制器还可以有利地用于声控设备中，例如用于电势的远程控制或者p.c.上的语音至文本系统，用于提高该设备的语音辨识性能，噪声对于这些设备是一个重要的问题。其他设备可以是所有类型的消费设备，电梯或智能房屋的部件，安全系统，例如依赖于声音识别的系统，消费者交互终端等等。

该系统还可以用于跟踪系统，典型地用于安全应用，或者基于某些原因监控用户行为的应用。一个例子可以是基于窃贼的特征噪声向窃贼移动的摄像机。

本发明的第二个目的是提供一种对应于上述旁瓣抑制器的功能的旁瓣抑制方法。

该第二个目的是这样实现的，该方法包括：

-利用第一组相应的自适应波束生成滤波器(f1(-t)，f2(-t)，f3(-t))对来自各个麦克风(101，103，105)的阵列的输入音频信号(u1，u2，u3)进行波束生成滤波，产生主要对应于来自预定音频源(160)的声音的第一音频信号(z)，该波束生成滤波以这种形式自适应，即该第一组自适应滤波器(f1(-t)，f2(-t)，f3(-t))的系数可以通过对至少一个系数加上作为自适应步长的函数而获得的不同值来改变；

-利用第一变量(F2)和第二变量(F3)的比(Q)的第一函数(F1)确定定标因子(S)，该第一变量(F2)是对在第一音频信号(z)中存在的来自预期声源(160)的未掺杂噪声的音频信号的估计，而第二变量(F3)是对在该第一音频信号(z)中存在的噪声的估计；和

-利用该定标因子定标自适应步长。

该方法典型地可以实施为软件，例如存储在服务器上用于下载或者传输给消费设备。

参照下面描述的实施方式和实施例并且结合附图，根据本发明的旁瓣抑制器的这些和其他方面将变得清楚明白，其中该附图仅仅用作为举例说明更一般概念的非限制性的特定示例。

在该附图中：

图1示意性示出了对应于基于第一音频信号的比率等式的旁瓣抑制器的一个实施例；和

图2示意性示出了对应于基于第二音频信号的比率等式的旁瓣抑制器的一个实施例。

在图1中，来自预期声源160和可能也是来自一个或多个非预期噪声源161的声音传播到至少两个麦克风101、103、105的阵列。由这些麦克风输出的信号u1、u2、u3被波束生成器107的第一组相应的滤波器f1(-t)、f2(-t)、f3(-t)滤波，其系数可以相对于例如该预期声源160的房间内的条件变化而自适应，该系数典型地为每个频带的系数。由该相应的滤波器输出所得到的信号通过加法器110求和，得到第一音频信号z。理论上，该滤波器表示该预期声音朝向特定麦克风的逆路径，从而通过第一滤波器f1(-t)滤波第一麦克风信号u1，在理论上精确地获得该预期声音。因而，如果该滤波器进行了很好的自适应，该第一音频信号就是对于该预期声音的良好近似。然而，由于该麦克风也拾取了噪声，所以该第一音频信号z也不可避免地包含噪声。该麦克风信号u1、u2、u3也用于产生噪声测量x1、x2、x3。为了获得仅表示该噪声的信号，从数学上讲就是与该预期音频信号正交，利用相应的减法器115、121、127从该麦克风信号u1、u2、u3中减去该预期信号。因此，所谓的阻塞矩阵111再次对该第一音频信号z应用该声音传播路径滤波器f1、f2、f3，以获得对于由麦克风拾取的预期声音的估计。从而，波束生成器107和该阻塞矩阵的滤波器除了时间反转之外是相似的。自适应噪声估计器150基于从每个麦克风获得的噪声测量x1、x2、x3，估计在波束生成器指向预期声源的主瓣或者该波瓣图中指向预期声源的其他部分例如该图的一个旁瓣，从而估计在该第一音频信号z中的噪声分布。因此，噪声估计器150使用第二组自适应滤波器g1、g2，该滤波器还是与波束生成器滤波器f1(-t)、f2(-t)、f3(-t)相关联。由于在使用该第二滤波器g1、g2之前该噪声测量x1、x2、x3(仅有三个导致预期音频信号成为第一音频信号z的麦克风测量和三个噪声测量x1、x2、x3)中的一个的数学依赖性，所以可以应用维数减缩(dimension reduction)。例如可以丢弃该第三噪声信号，或者x11可以定义为x1-(x1+x2+x3)/3，并且x12可以定义为x2-(x1+x2+x3)/3等。

替代地，三个第二滤波器可以自适应，收敛性会自动考虑该依赖性。最后，包括减法器142以用于从第一音频信号z中减去估计噪声信号y，减法器142和噪声估计器150一起构成噪声抑制器，得到相对去除噪声的第二音频信号r。

上述系统是如现有技术所知的旁瓣抑制器。在图1中，用于更新波束生成器107和阻塞矩阵111的滤波器的各个波束生成器更新单元117、123、129被显示为阻塞矩阵的构成部分，虽然这不是必需的。

用于现有技术波束生成器的典型更新规则可以采用第一音频信号z和相应的噪声测量作为输入，并且评估用于频率f周围的特定频率范围或频带的新的滤波器系数：

F (f, t + 1) = F (f, t) + \frac{α}{P_{zz} [f, t]} z^{*} [f, t] x [f, t]

[等式1]

在该等式中，F是分别用于在离散时间t和t+1的特定频率范围的特定滤波器系数，α是常数，P_zz[f，t]是对于第一音频信号的功率测量，x是相应的噪声测量(例如对于第一滤波器f1(-t)使用x1)，星号表示复共轭。从而，如果该噪声近似正交于预期第一音频信号z，则几乎不更新该滤波器系数。

在现有技术的噪声抑制器更新单元159中用于更新第二组滤波器g1、g2的典型更新规则是：

G_{1} (f, t + 1) = G_{1} (f, t) + \frac{α}{P_{x 11 x 11} [f, t]} {x_{11}}^{*} [f, t] r [f, t]

[等式2]

G_{2} (f, t + 1) = G_{2} (f, t) + \frac{α}{P_{x 12 x 12} [f, t]} {x_{12}}^{*} [f, t] r [f, t]

其中r是第二音频信号，P_yy[f，t]是对于噪声信号y的功率测量，x11和x12是对于滤波器的各个输入噪声估计(对于不同的布局结构例如不同的R-模块，本领域技术人员可以从自适应滤波器理论中获得相似的更新规则)。

对于根据本发明的旁瓣抑制器100，依赖于确定该旁瓣抑制器工作良好程度的比率对这些更新步骤(在+号之后的部分)进行定标。

因此包括定标因子确定单元170，其具有第一音频信号z(优选地在被延迟元件141延迟之后)和噪声信号y作为输入。它评估比率Q，并且将定标因子S作为该比率的函数。该用于旁瓣抑制器更新结构的定标因子S可以这样评估：

S [f, t] = \frac{P_{zz} [f, t] - {CP}_{yy} [f, t]}{P_{zz} [f, t]}

[等式3]

其中C是预定常数，而其余项具有与上述相同的含义。

该函数的下限应当为零，即它不应该是负数。应当注意，可以以不同的方式(本领域技术人员所公知的)选择该瞬时时间，并且优选地在模块基础上完成处理。可以看出，等式3近似等价于：

S [f, t] \approx \frac{P_{AA} [f, t]}{P_{AA} [f, t] + P_{nn} [f, t]},

其中A是预期音频信号(例如预期说话人的语音)，n是噪声，即等式3近似等价于

S [f, t] \approx \frac{SNR}{SNR + 1},

即信噪比SNR＝P_AA[f，t]/P_nn[f，t]的函数。

本领域技术人员将会认识到，也可以使用其他噪声估计，从而不需要该旁瓣抑制器的噪声估计器。自适应滤波求和波束生成器(这个概念也倾向于包括延迟求和波束生成器和类似的结构)和噪声参考的任意组合，可以用于构成根据本发明的核心自适应波束生成器，其中该噪声参考例如由任意麦克风拾取的信号。

该定标因子S被传输到波束生成器更新单元117、123、129，根据本发明，它们被设置成通过用定标因子S与自适应步长相乘来定标该波束生成器滤波器的更新步骤，从而得到根据本发明的更新规则：

F (f, t + 1) = F (f, t) + \frac{α (P_{zz} [f, t] - {CP}_{yy} [f, t])}{P_{zz} {[f, t]}^{2}} z^{*} [f, t] x [f, t]

[等式4]

类似地，通过用1-S定标该噪声估计器滤波器自适应步长，相应的更新规则是：

G_{1} (f, t + 1) = G_{1} (f, t) + \frac{α ({CP}_{yy} [f, t])}{P_{x 11 x 11} [f, t] P_{zz} [f, t]} {x_{11}}^{*} [f, t] r [f, t]

[等式5]

可以使用该比率的其他函数，假定该噪声估计器具有与波束生成器相逆的操作，即该噪声估计器主要对在语音停顿期间拾取的包含主噪声和少量预期信号能量的信号起反作用。

代替使用CP_yy，可以提供替代的噪声估计单元310(仅在图2中示出，但是当然可以与所有实施例自由组合)以评估在该预期语音(例如z)的估计中仍然存在的噪声的替代测量，其可以是例如噪声测量x1、x2、x3的任意线性或非线性函数。

可以看出，例如对于该波束生成器滤波器更新(等式4)，如果存在大量(相关或非相关)噪声，那么CP_yy[f，t]就会相对较大，使得p_zz[f，t]-CP_yy[f，t]小于P_zz[f，t]，从而导致较小的步长。如果根本不存在噪声，那么该定标因子等于1。

还可以包括现有技术已知的语音检测器165。对它进行修改以便能够在第一音频信号z被识别为语音时，将信号Sufi输出到波束生成器更新单元117、123、129，并且该波束生成器更新单元117、123、129被设置成如果该信号Sufi是特定值例如1，那么仅更新该滤波器(f1(-t)，f2(-t)，f3(-t)，f1，f2，f3)。类似地，信号SUW使得该噪声估计器150滤波器g1、g2能够仅在该语音检测器165识别出第一音频信号z是噪声时进行自适应。该语音检测也可以应用到第二音频信号r作为输入。注意到在图1中为了图上清楚起见，没有显示出信号Sufi和SUW到更新单元的连接，但是可以理解，它们可以是已知的连接类型例如导线、以软件版本通过存储器保存和获取等。

在另一实施例中，定标因子确定单元170可以包括声音类型特征化单元166。与语音检测器165类似，该单元辨识旁瓣抑制器是否大致锁定在预期音频源或者它是否接收了大量噪声。该声音类型特征化单元166例如被设置成对比率Q应用二元判断函数(例如舍入到最近的整数0或1)，并且如上所述设置成输出信号Sufi以在该判断为1时自适应第一组滤波器(f1(-t)，f2(-t)，f3(-t)和f1，f2，f3)，而仅当该判断为0时自适应第二组滤波器(g1，g2)。这可以更进一步增强该旁瓣抑制器的稳健性。

图2示出了一种结构，其被设置成作为第二音频信号r的函数而执行对该波束生成器/闭塞滤波器(f1(-t)，f2(-t)，f3(-t)，f1，f2，f3)的更新。因此，第二波束生成器更新单元219、215、211被示意性显示在如前所述的现有技术旁瓣抑制器部件的上方。该第二波束生成器更新单元219、215、211具有类似建立的一组第二噪声测量v1、v2、v3作为第二输入，它们是利用相应的减法器建立的，例如减法器227从该第一麦克风信号u1中减去了第二音频信号r经过第一闭塞滤波器f1的滤波版本，等等。

可以数学证明，与等式1类似，基本更新公式可以被智能选择为：

F (f, t + 1) = F (f, t) + \frac{α}{P_{rr} [f, t]} r^{*} [f, t] v [f, t]

[等式6]

其中r是第二音频信号，v是对应于被更新的特定波束生成器滤波器的第二噪声测量v1、v2、v3中的一个，而P_rr[f]是对第二音频信号r的功率测量。

由第二定标因子确定单元250评估的、用于该旁瓣抑制器结构200的定标因子的可能的等式是：

S [f, t] = \frac{P_{zz} [f, t] - {CP}_{yy} [f, t]}{P_{rr} [f, t]}

[等式7]

对于波束生成器107滤波器、阻塞矩阵111滤波器和噪声估计器150滤波器的定标是如图1的结构所述而进行的。

如果实质上仅有相关噪声和近乎完美的抑制，那么减法器142的减法可以被看作是标量等式，并且通过定义P_rr[f]≈P_zz[f]-CP_yy[f]，由于r＝z-y，从而使得S近似等于1。如果该噪声抑制器是不协调的(ill-adapted)，例如由于噪声源的运动而导致，那么因为该噪声的相位是未知的，导致减法器142不能执行噪声抑制。例如可以正确估计该噪声的幅度，但是如果有180度的相位差，那么该估计的噪声信号y将被相加到该第一音频信号中而不是从中减去，这样只会增加噪声。而且，由于在该噪声测量v1、v2、v3中大量能量的泄漏(甚至是预期声音的能量)，导致该噪声功率P_yy[f，t]将相对较大。总之，这导致了一个事实，即P_rr[f，t]＞P_zz[f，t]-CP_yy[f，t]，使得定标因子小于1。而且对于不相关噪声，能从第一音频信号z中很好地减去该噪声，再次导致P_rr[f，t]＞P_zz[f，t]-CP_yy[f，t]。

常数C可以以多种方式确定。如，C可以被确定为：

C (f, t) = \frac{P_{zz} [f, t]}{P_{yy} [f, t]}

[等式8]

其中P_zz是在非语音时间片段期间(即z中的噪声)确定的。这可以通过利用语音检测器来实现，或者通过在时间z信号中查找低幅度区域来实现，该低幅度是由于缺少语音而发生的。从而可以看出，C*P_yy得到了对于z中噪声的良好估计。C也可以通过取决于应用的优化测试来预先确定。

所公开的算法部件实际上可以(全部或部分地)实现为硬件(例如特定用途IC的部件)或在特定数字信号处理器、通用处理器等上运行的软件。

下面的计算机程序产品应当被理解为一组命令的任意物理实现，其使得处理器(通用或特定用途的)在一系列将该命令装载入该处理器的加载步骤后，运行本发明的任一个特征功能。特别地，该计算机程序产品可以被实现为载体例如磁盘或磁带上的数据，存储器中提供的数据，通过网络连接(有线或无线)传播的数据，或者纸上的程序代码。除程序代码之外，该程序所需的特征数据也可以体现为计算机程序产品。

应当注意的是，上述实施例举例说明而不是限制本发明。除了在权利要求中组合的本发明的元件组合，其他的元件组合也是可能的。任意的元件组合可以被实现为单个专用元件。

在权利要求中的括号之间的任意参考标记不是用于限制该权利要求。词语“包括”不排除权利要求中未列出的元件或方面的存在。在元件前面的词语“一个”不排除多个这种元件的存在。

Claims

1.一种自适应波束生成器，包括：

-滤波求和波束生成器(107)，设置成处理来自各自麦克风(101，103，105)的阵列的输入音频信号(u1，u2，u3)，和设置成产生主要对应于来自预期音频源(160)的声音的第一音频信号(z)作为输出，通过利用第一组相应的自适应滤波器(f1(-t)，f2(-t)，f3(-t))滤波该输入音频信号(u1，u2，u3)，该滤波求和波束生成器(107)以这种形式自适应，即该第一组自适应滤波器(f1(-t)，f2(-t)，f3(-t))的系数易于通过对至少一个系数加上作为自适应步长的函数而获得的不同值而改变；和

-定标因子确定单元(170)，设置成提供作为第一变量(F2)和第二变量(F3)的比率(Q)的第一函数(F1)评估的定标因子(S)，该第一变量(F2)是对在第一音频信号(z)中存在的来自预期声源(160)的未掺杂噪声的音频信号的估计，而第二变量(F3)是对在该第一音频信号(z)中存在的噪声的估计，

该自适应波束生成器被设置成利用该定标因子(S)定标该自适应步长。

2.包括如权利要求1所述的自适应波束生成器的旁瓣抑制器(100)，进一步包括：

-自适应噪声估计器(150)，布置成通过利用第二组自适应滤波器(g1，g2)对从输入音频信号(u1，u2，u3)获取的各个噪声测量(x1，x2，x3)进行滤波而得到估计的噪声信号(y)；和

-减法器(142)，被连接以从该第一音频信号(z)中减去该估计的噪声信号(y)而获得去除噪声的第二音频信号(r).

3.如权利要求1所述的自适应波束生成器或如权利要求2所述的旁瓣抑制器，具有设定在频域中的该第一组滤波器(f1(-t)，f2(-t)，f3(-t))的系数，并且被设置成具有对每个预定频率范围定标的自适应步长，该定标是由(P_zz[f，t]-CP_A(xi)A(xi)[f，t])/P_zz[f，t]得到的比率(Q)实现的，其中P_zz[f，t]是对于第一音频信号(z)在瞬时时间t和频率f周围的预定频率范围内的功率测量，P_A(xi)A(xi)[f，t]是对于由噪声估计单元(310)通过变换A从至少一个噪声测量(x1)获取的噪声信号的功率测量，C是常数。

4.如权利要求2所述的旁瓣抑制器，具有设定在频域中的第一组滤波器(f1(-t)，f2(-t)，f3(-t))的系数，并且被布置成具有对每个预定频率范围定标的自适应步长，该定标是由(P_zz[f，t]-CP_A(xi)A(xi)[f，t])/P_rr[f，t]得到的比率(Q)实现的，其中P_zz[f，t]是对于第一音频信号(z)在瞬时时间t和频率f周围的预定频率范围内的功率测量，P_A(xi)A(xi)[f，t]是对于由噪声估计单元(310)通过变换A从至少一个噪声测量(x1)获取的噪声信号的功率测量，P_rr[f，t]是对于第二音频信号(r)的功率测量，C是常数。

5.如权利要求1所述的自适应波束生成器，包括语音检测器(165)，其基于该第一音频信号(z)提供布尔标识语音/噪声，并且设置成仅当该标识是语音时对该第一组滤波器(f1(-t)，f2(-t)，f3(-t))进行适应。

6.如权利要求2所述的旁瓣抑制器，包括语音检测器(165)，其基于该第一音频信号(z)或第二音频信号(r)提供布尔标识语音/噪声，并且设置成仅当该标识是语音时对该第一组滤波器(f1(-t)，f2(-t)，f3(-t))进行适应。

7.如权利要求1所述的自适应波束生成器或如权利要求2所述的旁瓣抑制器，设置成对该比率(Q)应用二元判断函数，并且设置成仅当该判断为1时对该第一组滤波器(f1(-t)，f2(-t)，f3(-t))进行适应。

8.一种免持语音通信设备，包括如权利要求1所述的自适应波束生成器或如权利要求2所述的旁瓣抑制器。

9.一种声音控制单元，包括如权利要求1所述的自适应波束生成器或如权利要求2所述的旁瓣抑制器。

10.一种消费设备，包括如权利要求9中所述的声音控制单元。

11.一种设置用于跟踪音频产生目标的跟踪设备，包括如权利要求1所述的自适应波束生成器或如权利要求2所述的旁瓣抑制器。

12.一种自适应波束生成的方法，包括：

-利用第一组相应的自适应波束生成滤波器(f1(-t)，f2(-t)，f3(-t))对来自各个麦克风(101，103，105)的阵列的输入音频信号(u1，u2，u3)进行波束生成滤波，并且产生主要对应于来自预定音频源(160)的声音的第一音频信号(z)，该波束生成滤波以这种形式自适应，即该第一组自适应滤波器(f1(-t)，f2(-t)，f3(-t))的系数可以通过对至少一个系数加上作为自适应步长的函数而获得的不同值来改变；

-利用第一变量(F2)和第二变量(F3)的比率(Q)的第一函数(F1)确定定标因子(S)，该第一变量(F2)是对在第一音频信号(z)中存在的来自预期声源(160)的未掺杂噪声的音频信号的估计，而第二变量(F3)是对在该第一音频信号(z)中存在的噪声的估计；和

-利用该定标因子(S)定标自适应步长。

13.一种计算机程序产品，包括用于使得处理器执行权利要求12的方法的每个步骤的相应代码。