CN1947171B

CN1947171B - 自适应波束形成器、旁瓣抑制器、自动语音通信设备

Info

Publication number: CN1947171B
Application number: CN200580013338XA
Authority: CN
Inventors: B·E·萨罗克哈; C·P·詹塞
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV; MediaTek Inc
Priority date: 2004-04-28
Filing date: 2005-04-20
Publication date: 2011-05-04
Anticipated expiration: 2025-04-20
Also published as: US20070273585A1; TW200615902A; KR101149571B1; KR20070004893A; US7957542B2; JP2007535853A; CN1947171A; JP5313496B2; EP1743323A1; EP1743323B1; WO2005106841A1

Abstract

自适应波束形成器单元(191)包括：滤波求和波束形成器(107)，被设置为处理来自各自麦克风(101，103)阵列的输入音频信号(u1，u2)，并且还被设置为通过对第一个输入音频信号(u1)使用第一自适应滤波器(f1(-t))滤波，以及对第二个输入音频信号(u2)使用第二自适应滤波器(f2(-t))滤波，生成占主导地位地对应于来自期望音频源(160)的声音的第一音频信号(z)作为输出，第一滤波器(f1(-t))和第二滤波器(f2(-t))的系数是分别使用第一步长(α1)和第二步长(α2)自适应可调节的；噪声测度导出装置(111)，被设置为从输入音频信号(u1，u2)导出第一噪声测度(x1)和第二噪声测度(x2)；和更新单元(192)，被设置为利用等式确定第一和第二步长(α1，α2)，该等式在分母中分别包含对于第一步长(α1)的第一噪声测度(x1)、对于第二步长(α2)的第二噪声测度(x2)。这使得该波束形成器对于相关的音频干扰的影响具有相对的鲁棒性。该波束形成器也可以被结合到旁瓣抑制器拓扑中，生成更多噪声清除的期望声音估计，它可以被用于相关的、更加先进的自适应滤波器(f1(-t)，f2(-t))更新。这样的波束形成器对于应用在自动语音通信系统中通常是有益的。

Description

自适应波束形成器、旁瓣抑制器、自动语音通信设备

技术领域

本发明涉及自适应波束形成器单元和包括该自适应波束形成器的旁瓣抑制器。

本发明还涉及包括该自适应波束形成器或者旁瓣抑制器的自动(handsfree)语音通信系统、便携的语音通信设备、声音控制单元和用以跟踪音频产生物体的跟踪设备。

本发明还涉及包括该声音控制单元的消费装置。

本发明还涉及自适应波束形成或者旁瓣抑制的方法和包含该方法的代码的计算机程序产品。

背景技术

如在第一段中所述的旁瓣抑制器和包含的波束形成器的一个实施例可以从出版物“C.Fancourt and L.Parra：The generalized sidelobe decorrelator.Proceedingsof the IEEE Workshop on applications of signalprocessing to audio and acoustics2001”中得知。设计波束形成器和旁瓣抑制器用来锁定期望的声音源，即，产生占主导地位地(predominantly)对应于来自期望声音源的声音的输出音频信号，同时尽可能多地避免来自其它源的声音(称为噪声)。旁瓣抑制器包括自适应波束形成器，它被设置为处理来自麦克风阵列的信号，该旁瓣抑制器的波束形成器滤波器可以被最优化，使得这些滤波器表示期望的音频从期望的音频源到每一个麦克风的路径的反向(即期望的音频通过例如在不同的表面反射出来并且最终从不同的方向进入到特定的麦克风而被改变)。通过合并滤波后的信号，波束形成器有效地实现一个对方向敏感的模式，该模式在期望声音源的方向上具有高灵敏度的波瓣。例如对于纯粹延时的滤波器，波束形成器实现具有主瓣和多个旁瓣的sin(x)/x模式。然而，该灵敏性模式带来的问题在于来自其它源的声音也可以被采集到。例如，噪声源可能位于其中一个旁瓣的方向上。为了解决这个问题，旁瓣抑制器还包括自适应噪声消除级。通过麦克风测量，通过从噪声参考信号中阻止期望的声音成分来计算噪声参考信号，即，例如确定旁瓣中的噪声。通过自适应滤波器的方法，从这些噪声测量中估计有多少噪声源从该波瓣模式中朝着期望的声音泄漏。最后，从由主瓣采集的信号中减去该噪声，剩下的作为最后的音频信号主要仅仅为期望的声音。如果方向模式是对应于该最优的旁瓣抑制器计算出来的，那么这个模式包括一个朝着期望的声音源的主瓣，和在噪声源方向上的零值。

现有技术的旁瓣抑制器和波束形成器存在着许多问题，导致这一事实：实际上它们经常不像它们理想应该的那样工作。特别地，优良的旁瓣抑制器或者波束形成器，对于在期望的声音源和/或噪声源的方向是不断变化的环境下，是特别难以设计的，因此，对于这种情况，在一个相对短的时间间隔，滤波器可能必须重新适应(re-adapt)。然而，例如在试图跟踪在房间内到处移动的说话人的电话会议系统中，或者在人对着整合在移动电话中的旁瓣抑制器说话和连同移动电话在可变化的环境中(例如，与自动车载电话套件相冲突)到处移动的系统中，这种情况是非常普遍的。

没有预先出版的欧洲申请03104334.2描述了一种波束形成器/旁瓣抑制器滤波器优化技术来消除这两种问题。第一，大量的不相关噪声(理论上对应于无限源)的存在，例如在车载应用中的风。该申请解决的第二问题是阻止引入相当多的“语音泄漏”到噪声的测量中，这发生在如果例如波束形成器主瓣从它的最优的方向朝着期望的声音源和干扰声音源之间的方向移动时。由于干扰声音源在每一个麦克风中引入相关的信号成分(例如相互之间纯粹的延时成分)，因此以下也将其称作相关噪声。

03104334.2中单独为了处理不相关噪声和语音泄漏而设计的波束形成器/旁瓣抑制器不能够在相关噪声即干扰声音源存在时准确地工作，该干扰声音源例如风扇或者从旁经过的摩托车。

由于在来自期望声音源的声音(例如，近端说话者)和形成相关噪声源的干扰声音之间不必然存在物理差异，因此，该系统可能会偏离到噪声源上，而不能锁定到说话者或者保持锁定说话者，例如，如果在一个时间段内噪声源具有比期望的声音源更大的幅度时就会这样，而该现象发生在例如当靠近终端的说话人的说话声音比较轻且有声音较大的卡车从旁经过时。特别地，使用经过许多处理步骤后得到的纯净信号来自适应调节其滤波器的旁瓣抑制器，尽管能够得到一个最优滤波器的优良的估计，但是它容易脱离其最优状态，然后难以使系统回到最优状态，特别是在大幅度相关噪声存在时。

发明内容

本发明的首要目标在于提供一种自适应波束形成器单元，该单元对于相关噪声的影响，即，非期望的第二声音源，具有一定的鲁棒性。

该首要目标的实现在于按照本发明的自适应波束形成器单元包括：

-滤波求和波束形成器，被设置为处理来自各自的麦克风阵列的输入音频信号，并且，还被设置为通过使用第一自适应滤波器对输入音频信号的第一个信号滤波和使用第二自适应滤波器对输入音频信号的第二个信号滤波，生成占主导地位地对应于来自期望音频源的声音的第一音频信号作为输出，第一滤波器和第二滤波器的系数是分别使用第一步长和第二步长自适应可调节的；

-噪声测度导出装置，被设置为从输入音频信号导出第一噪声测度和第二噪声测度；和

-更新单元，被设置为利用等式确定第一和第二步长，该等式在分母中包含对于第一步长的第一噪声测度、对于第二步长的第二噪声测度。

该波束形成器和噪声测度可通过03104334.2获得，而本波束形成器使用新的更新策略，用以增加抵抗来自干扰声音源的相关噪声的鲁棒性。

噪声导出装置对麦克风信号优选地应用自适应滤波，例如，阻止矩阵(blocking matrix)可以用来消除对期望音频(例如，语音)的估计，由此生成好的噪声测度，该期望音频估计是在特定的滤波器路径采集到的，也就是通过特定的麦克风从总的采集到的信号中选出来的。

通过为每一个滤波器的更新单元部分提供它自己的噪声测度，并导出瞬间的与噪声量成反比的更新步长，使得该滤波器对于噪声特别不敏感。如果存在占主导地位的期望音频，则最好设置较大的步长，使得滤波器可以跟踪移动的期望源。如果存在大量的噪声，则分母变大，产生较小的更新步长，所以滤波器有效地冻结，几乎不对有害的噪声的影响产生反应。特别地，如果滤波器对于期望源、空间特性、麦克风位置等被最优化，则滤波器使用小的更新步长就可以在很大程度上保持在最优的设置。

在自适应波束形成器单元的优选实施例中，噪声测度导出装置被设置为，通过从第一麦克风采集到的期望音频源的声音中减去期望的声音测度，从而从第一输入音频信号中导出第一噪声测度；通过从第二麦克风采集到的期望音频源的声音中减去第二期望的声音测度，从而从第二输入音频信号中导出第二噪声测度。

理想地，由对应于特定的波束形成器滤波器的麦克风实际采集到的噪声被应用在自适应步长等式中。如果存在例如两个噪声源——风扇和摩托车——则每个麦克风都将采集到一个总的噪声信号，它们是来自两个源的声音的组合，由于这里麦克风信号是相关的，因此由每一个噪声源引入的子信号的相关可以确定。由于滤波器更新等式一般包含期望音频测度和整个噪声干扰测度的内积，后者可以使滤波器远离它们的最优设置，特别是当它比较大时。因此，应该完全正确地计算出该总噪声。

该自适应波束形成器单元实施例的一个特殊的实现形式使用等式来获得步长，该等式等于：

α_{m} [f, t] = β P_{zz} [f, t] / (P_{zz} [f, t] + γ P_{x_{m} x_{m}} [f, t]),

其中m是索引，其指示使用得到的步长α_m来自适应调节哪个滤波器(f1(-t)，f2(-t))，f表示频率，t表示时刻，z表示第一音频信号，x_m分别是第一、第二噪声测度，在本实施例中，即由对应的第m个麦克风采集到的噪声测度，从麦克风输入音频信号u_m中减去期望的音频以得到该噪声测度，P..表示用来得到(.如在它的下标中所指示的)信号的功率的等式，以及β和γ是预先确定的常数。本领域技术人员可以认识到，有一些功率测度可供选择，典型的一个是，例如，在一段时间内信号平方的积分。

但是，在另一个实施例中，第一噪声测度和第二噪声测度由输入音频信号的各自的线性组合来确定。

相关噪声的有害的行为可以通过，例如，使步长等式的分母依赖于所有噪声源的和来克服。或者，期望音频(一般是语音)的线性组合-被消除的麦克风信号，可以从自适应噪声估计器得到，该估计器具有作为输出的每一个噪声源单独的测度(一个是风扇噪声的测度，另一个是摩托车噪声的测度，等)。然后，这些噪声测度可以用在分母中，或者加到已经出现在更新步长等式的分母中的噪声测度上。在许多情况下，这会比当如上所述使用在特定滤波器信道中的整个噪声的测度时具有某种程度上更小的鲁棒性更新行为。

自适应波束形成器也可以包含在旁瓣抑制器拓扑中，该拓扑进一步包括：

-自适应噪声估计器，被设置为利用第二组自适应滤波器，对从输入音频信号导出的第一和第二噪声测度进行滤波，导出估计的噪声信号；

-减法器，被设置为从第一音频信号中减去估计的噪声信号，以得到无噪声的(noise cleaned)第二音频信号；和

-可选的更新单元，被设置为利用等式确定第一和第二步长，该等式包括第二音频信号的幅度测度，并且在分母中分别包含对于第一步长的第一噪声测度、对于第二步长的第二噪声测度。

旁瓣抑制器允许产生更加纯净的期望音频信号-第二音频信号-和对噪声的更加纯净的测度(即，信号更大程度上仅仅对应于实际采集到的噪声，和尽可能少的仍然保留其中的期望音频的残余)。该拓扑产生比使用上面的波束形成器单元更好的优化结果，但是，一般来说不仅具有优化的波束形成器滤波器，而且还有语音阻止矩阵和噪声估计器的滤波器的旁瓣抑制器，对于噪声更加敏感，使得该新的更新策略非常重要。本领域技术人员可以由非预先公布的欧洲申请号为03104334.2的专利申请中得知，如何优化阻止矩阵和与波束形成器的滤波器相关的噪声估计器滤波器。

旁瓣抑制器的实例性实施例通过使用等式得到如下的步长、基于第二音频信号来实现更新，该等式等于：

α_{m} [f, t] = β P_{rr} [f, t] / (P_{rr} [f, t] + γ P_{v_{m} v_{m}} [f, t]),

其中m是索引，其指示使用得到的步长大小α_m来自适应调节哪个滤波器(f1(-t)，f2(-t))，f表示频率，t表示时刻，r是第二音频信号，V_m是由对应的第m个麦克风采集到的噪声测度，无噪的第二音频信号(r)作为期望音频的测度被减去了，P表示用来得到信号功率的等式，以及β和γ是预先确定的常数。

这又是一个优化等式，该优化等式对于每一个单独的滤波信道使用噪声测度V_m(对于这个旁瓣抑制器更新拓扑，噪声测度一对一地对应于波束形成器单元更新的测度X_m)。

自适应波束形成器或者旁瓣抑制器的实施例包括缩放因子确定单元，被设置为确定单独的缩放因子来缩放波束形成器的第一滤波器和第二滤波器的步长，缩放因子基于语音泄漏和/或不相关的噪声的量来确定。

将对于相关噪声具有鲁棒性的本更新方案与对于其他非理想类型具有鲁棒性的方案结合起来是有益的，其中，对于其他非理想类型的鲁棒的方案例如在03104334.2所披露的方案。如果波束形成器/旁瓣抑制器是接近最优的，则本自适应步长确定方案可确定正确的步长。但是，如果滤波器对于最优有稍许偏离(或者至少趋向于偏离最优)，则目前的方案不会工作得很好，但是03104334.2中的步长确定方法可以用来使滤波器回到它们最优的设置。

将自适应波束形成器或者旁瓣抑制器设置为从基于音频的说话者跟踪器和/或基于视频的说话者跟踪器接收位置数据也是有益的，其中基于音频的说话者跟踪器被配置为基于说话者的语音确定说话者在空间中的位置，基于视频的说话者跟踪器被配置为基于拍摄的图像确定说话者在空间中的位置。其中，第一滤波器和第二滤波器的系数基于位置来确定，该位置由基于音频的说话者跟踪器和/或基于视频的说话者跟踪器来确定。

如果存在许多大功率的声音源，即使结合上面两种更新方案，使滤波器收敛于它们的最优点也可能是困难。可以使用别的设备来帮助该系统，例如，基于视频的说话者跟踪器可以在拍摄的图像中使用图像处理软件来检测对应于说话者的脸谱(face)，基于此，滤波器的系数重新初始化，使得主瓣至少稍许地更加指向说话者的脸谱的空间位置。

自适应波束形成器和旁瓣抑制器一般被应用在各种类型的(例如，一般是自动的)语音通信系统中，例如包含安排在一个桌子上的小的群体实现远程电信会议，或者汽车套件(分布在汽车里面的麦克风)。波束形成器单元或者旁瓣抑制器也可以包含在一个便携式的语音通信设备中，例如移动电话、个人数字助手、口述装置或者其他具有类似通信能力的设备。该自适应波束形成器/旁瓣抑制器优点还在于声音控制装置，例如，电视机的遥控器，或者个人电脑上的语音转文本系统，为了提高这些装置的语音识别能力，对于这些设备，噪声是一个重要的问题。其他设备可以是各种消费设备、电梯或者智能房间的组成部分、安全系统(例如依赖于声音识别的系统)、消费交互终端等。

该系统也用于跟踪设备中，一般用于安全应用，或者为了某些目的而监控用户的行为的应用。例如，一个例子可以是基于夜贼的特征噪音而对其进行推摄(zoomin)的照相机。

披露了一种自适应波束形成的相应的方法，包括：

a)使用第一自适应滤波器(f1(-t))对来自第一麦克风的第一输入音频信号进行滤波，使用第二自适应滤波器(f2(-t))对来自第二麦克风的第二输入音频信号进行滤波，并对滤波后的输入音频信号求和，以产生占主导地位地对应于来自期望音频源的的声音的第一音频信号；

b)从输入音频信号导出第一噪声测度和第二噪声测度；

c)分别使用第一步长(α1)、第二步长(α2)自适应调节第一滤波器(f1(-t)、第二滤波器(f2(-t))的系数，所述步长来自一个等式，该等式对于第一步长(α1)，其分母中包括第一噪声测度(x1)，对于第二步长(α2)，其分母中包括第二噪声测度(x2)。

附图说明

根据本发明，参照下文描述的执行方式、实施例以及附图，波束形成器和旁瓣抑制器的这些和其他的方面将是明显的，这些附图只不过作为不受限制的特殊的图来举例说明更加一般的概念。

附图中：

图1示意性地示出了基于第一音频信号、对应比例等式的旁瓣抑制器的实施例；

图2示意性地示出了基于第二音频信号、对应比例等式的旁瓣抑制器的实施例；

图3示意性地示出了一种视频会议的应用。

具体实施方式

在图1中，来自期望声音源160和可能同样来自一个或者多个非期望的噪声源161(噪声不应该理解为只是随机信号例如电子热噪声，而是任何非期望/干扰的音频信号)的声音，其传播到至少有两个麦克风101、103的阵列。由这些麦克风输出的信号u1，u2被第一组各自的波束形成器107的滤波器f1(-t)，f2(-t)滤波，该滤波器的系数-一般是每一个频率带一个系数-能够适应于房间中不断变化的条件，例如移动的期望声音源160。各自的滤波器输出的结果信号被加法器110相加，生成第一音频信号z。理想地，滤波器表示朝向特定麦克风的期望信号的逆路径，因此用第一滤波器f1(-t)对第一麦克风信号u1滤波，理想准确地获得期望声音。因此，如果滤波器被很好地自适应调节，则第一音频信号z就是对期望信号的良好的近似。但是，由于麦克风也采集噪声，第一音频信号z不可避免地也包含噪声。麦克风信号u1，u2也用来产生噪声测度x1，x2。为了获得仅仅代表噪声的信号(数学上称正交于期望音频信号)，通过各自的减法器115，121从麦克风信号u1，u2减去期望信号。所说的阻止矩阵111对第一音频信号z再应用声音传播路径滤波器f1，f2，来获得由麦克风采集的期望声音的估计。因此波束形成器107和阻止矩阵的滤波器除了时间反转以外完全相同。自适应噪声估计器150基于从每一个麦克风获得的噪声测度x1，x2，...来估计有多少噪声被波束形成器的指向期望源的主瓣或者波瓣模式的指向期望声音的另一部分(例如该模式的旁瓣)采集，从而估计第一音频信号z中的噪声的贡献度。另外噪声估计器150必须使用第二组可自适应滤波器g1，其也与波束形成器滤波器f1(-t)，f2(-t)相关。由于在使用第二滤波器g1之前对噪声测度x1，x2之一的数学上的依赖(存在仅仅两个麦克风测度，导致期望音频信号为第一音频信号z和两个噪声测度x1，x2)，因此，如在03104334.2中揭露的，可以应用维数降低。

最后，减法器142被包括进来，用来从第一音频信号z中减去估计的噪声信号y，减法器142和噪声估计器150共同组成噪声抑制器，产生相对无噪的第二音频信号r。优选地，使用延时单元141来产生对应于噪声信号y的时间抽样的正确的时间抽样(或者相似的等同物)。

上面描述的系统是现有技术已知的旁瓣抑制器。

波束形成器滤波器(以及优选地，所有的相关的滤波器，例如，阻止矩阵滤波器和噪声估计滤波器)使用更新单元117，123朝着它们瞬时的最佳更新。

对于现有技术的波束形成器的一个典型的更新规则是，采用第一音频信号z和各自的噪声测度作为输入，并且为一个特定的频率范围或者频带附近的频率f计算新的滤波器系数的值：

F (f, t + 1) = F (f, t) + \frac{α}{P_{zz} (f, t)} z^{*} [f, t] x [f, t] - - - [Eq . 1]

在这个等式中，F是对于特定的频率范围分别在离散时间t、t+1上的特定的滤波器系数，α是一个常数，P_zz[f，t]是第一音频信号功率的测量值，x为各自的噪声测度(例如，x1对应于第一滤波器f1(-t)，是由第一麦克风101采集到的噪声的测度，并且在第一波束形成器信道中被进一步处理，而且一般地通过从由第一麦克风101实际采集到的第一输入音频信号中减去也是由第一麦克风采集的期望音频信号的估计来获得)，星花代表复共轭。因此，如果噪声近似正交于期望的第一音频信号z，正如在旁瓣抑制器是最优时所应该的那样，则滤波器系数几乎不被更新，如果存在临时的无噪声，则会出现相同的情况。结果由更新单元获得的新的系数被复制到各自的滤波器，例如，波束形成器滤波器f1(-t)，f2(-t)。

用来更新第二组滤波器g1……的现有技术的噪声抑制器更新单元159中的一个典型的更新规则是：

G (f, t + 1) = G (f, t) + \frac{α}{P_{yy [f, t]}} r^{*} [f, t] y [f, t] - - - [Eq . 2],

其中，r是第二音频信号，P_yy[f，t]是噪声信号y的功率测度。

根据本发明，不是对于波束形成器滤波器的每一个更新等式[Eq.1]都使用固定步长α，而是根据在特定信道中采集的相关噪声的量确定最优步长。

理论上可以导出：当滤波器被最优化时，对于波束形成器的特定的第m个滤波器，性能测度可以为：

Q_{m} [f, t] \approx \frac{2}{α} \frac{P_{zz} [f, t]}{{γP}_{x_{m} x_{m}} [f, t]} - - - [Eq . 3]

其中α是更新步长，γ是常数，例如近似等于麦克风的数目。步长的减小导致性能的提高，另一方面，如果采集的噪声的功率增加，性能就会降低。

此外，更新等式1可以在概念上/近似地理解为包含以下贡献：

F (f, t + 1) \dot{. .} F (f, t) + \frac{α}{P_{zz} [f, t]} {(λs + n_{c})}^{*} (μs + {vn}_{c}) - - - [Eq . 4]

可以假定，在最优的条件下，第一个采集到的相关噪声项n_c与期望音频λs(λ是比例常数，由于期望音频测度z是不精确的，而是仍然包含其他的因素)相比是可以忽略的。μ是另一个常数，表示噪声测度中的语音泄漏。由于阻止矩阵滤波器是最优的，因此假定在最优的条件下语音泄漏也是可以忽略的。因此通过近似分析，可以看出滤波器具有随相关噪声的量线性发散的倾向。

提出的解决方法是用相关噪声的幅度测度除步长α，特别是功率测度。在后者的情况下，第二功率超过了在分子上的线性相关噪声值，即，噪声的幅度越大，更新越不敏感。但是精确的相关噪声是不知道的，所以需要使用噪声的测度或者相关性。在噪声估计器150之前的噪声测度x_i是良好的测度，它是通过减去期望音频的测度得到的，例如，从每一个各自的输入音频信号u_i减去第一音频信号z而获得。

优选地，鲁棒的更新步长被决定为：

α_{m} [f, t] = {βP}_{zz} [f, t] / (P_{zz} [f, t] + {γP}_{x_{m} x_{m}} [f, t]) - - - [Eq . 5],

其中m是索引，其指示使用得到的步长α_m自适应调节哪一个滤波器(f1(-t)，f2(-t))，f表示频率，t表示时刻，z表示第一音频信号，x_m是由对应的第m个麦克风采集到的噪声的测度，期望音频被从麦克风输入音频信号u_m中减去，P表示用来得到信号功率的等式，以及β和γ是预先确定的常数。

当滤波器接近最优时，即使存在很强的干扰噪声源，使用上述更新规则的波束形成器仍然能够很好地工作。但是，可以通过增加帮助朝着最优点收敛的部件进行改进该系统。因此，波束形成器可以与基于视频的说话者跟踪器274合作，该跟踪器被设置为从由照相机272拍摄的图像中确定期望声音源的位置。在期望音频是语音的情况下，人脸检测可以用来识别一个或者更多的说话者，该人脸识别可以通过图像处理(例如肤色检测、眼睛检测、人脸几何确认等)的现有技术得到。嘴唇跟踪(例如使用蛇行技术-一种数学曲线跟踪技术)也可以用来检测是否这个人真的在说话，或者来自例如无线电的语音是否检测到。

通过图像处理，可以获得粗略的或者更加准确的位置估计，该位置估计被传输给波束形成器。波束形成器基于位置估计重新确定它的系数。例如，可以包括一个查找表，对于多个位置对应更加优化的起始系数。有关房间的先验知识可能被使用。粗略的定位算法简单地确定说话者在图像中间的哪一边，然后重新初始化波束形成器的主瓣分别朝着右边或者左边。更复杂的图像分析可以用于更加准确地确定说话者的位置，例如当使用两个照相机得到的图像时，在3维空间中确定位置。通过绘制人脸模型，说话者头部的位置也可以被确定(存在基于关键点例如眼睛的几何性的简单算法)。最后，如果存在有关房间的信息，对于那个特定房间，可以利用头部有关的传输(转移)函数的更加准确的系数来重新确定滤波器。

附加地或任选地，基于音频的说话者跟踪器270可以被连接到或者被包含在含有根据本发明的波束形成器的装置之中。该跟踪器270可以例如使用对采集到的输入音频信号(u1，u2，...)的相关分析来确定对应于出现在周围的音频源的候选方向，如在WO 00/28740中所述的。高级版本可以基于语音分析(例如女声的共振峰与男声的共振峰是不同频率的)进一步确定说话者是谁，并且重新定位主瓣到对应于确认的特定说话者的方向上。

一般地，这个方向确定仅仅是“最初”完成的，并且然后波束形成器/旁瓣抑制器使用上面的自适应算法独立地进行微调。如果微调的方向仍然移出了预先确定的准确的可靠角度，该跟踪器将重新初始化滤波器。

两个估计都可以与预先确定的结合算法结合起来。

图2显示了旁瓣抑制器200的拓扑，用来作为第二音频信号r的函数，完成波束形成器/阻止滤波器(在这个例子中，三个滤波器f1(-t)，f2(-t)，f3(-t)，f1，f2，f3)的更新。所以，第二波束形成器更新单元219，215，211被示意性地示于前面描述的现有技术的旁瓣抑制器部分的上方。第二波束形成器更新单元219，215，211具有近似构造的一组第二噪声测度v1、v2、v3作为第二输入，这些噪声测度是由各自的减法器产生的，例如减法器227使用第一阻止滤波器f1从第一麦克风信号u1减去对第二音频信号r滤波后的信号，等等。

可以在数学上证明，与eq.1相似，基本的更新规则可以被聪明地选择为：

F (f, t + 1) = F (f, t) + \frac{α}{P_{rr} [f, t]} r^{*} [f, t] v [f, t] - - - [Eq . 6],

其中，r是第二音频信号，v是与特定的要更新的波束形成器滤波器相对应的第二噪声测度v1，v2，v3的其中之一，P_rr[f]是第二音频信号r的功率的测度。

对于第二更新拓扑，相关噪声鲁棒的更新步长等式可以与Eq.5相类似地得到：

α_{m} [f, t] = {βP}_{rr} [f, t] / (P_{rr} [f, t] + {γP}_{v_{m} v_{m}} [f, t]) - - - [Eq . 7]

在该情况下，除了根据本发明在步长等式的分母上使用对应的噪声测度v_m，还使用第二音频信号r(其中的噪声被清除得更加彻底，即，对真实语音更好的估计)。可以通过对该拓扑去掉近似等式4省略法之间的第一项中的n_c这一项(只保留λs)来看出这样做的原因。

旁瓣抑制器也可以与缩放因子确定单元250相结合，例如，在03104334.2中所披露的(虽然没有示出，但是类似地，波束形成器的滤波器也可以独自地使用可由03104334.2获知的缩放因子确定单元250来调整)。该缩放因子确定单元250为波束形成器(如果需要应用，阻止矩阵和噪声抑制器)所有的滤波器导出一个单一的缩放因子。由于在存在大量的不相关噪声或者语音泄漏时波束形成器或者旁瓣抑制器收敛困难，所以对于这些情况，设置小的步长，即使当所有的滤波器接近最优点时。这两个更新策略共同产生更加鲁棒的系统。

在图3中，显示了一种视频会议应用，例如对于家庭的或者专业的应用。在该情况下，自动语音通信设备301是一个具有电话功能的外壳，还具有例如两个用来采集声音的麦克风303，305(例如对于桌子周围的四个说话者，四个麦克风可以设置在十字拓扑中)。近端说话者106与远端说话者360通信。理想地，即使是在存在噪声源的情况下，说话者160希望可以在自由地走动时使波束形成器/旁瓣抑制器始终保持锁定他。他也可以在声音控制单元中使用波束形成器/旁瓣抑制器，例如去控制消费装置350的行为，例如个人电脑、电视机、家庭应用例如中央暖气系统等，那么该设施特别包含多个麦克风和本发明。更加便宜的设备可以从包含声音控制单元的家庭中心计算机得到其命令。

使用者160也具有可携带的语音通信设备370，该设备具有集成了波束形成器单元或者旁瓣抑制器的麦克风371和372。将来，会议系统可以从一体化的系统方案向无线系统过渡，在无线系统中，每个参与者具有他个人的例如安置在他的衣服上或者悬挂在他的脖子上的移动设备。

公开的算法组件实际上可以(全部或者部分)用硬件(例如，专用集成电路的部分)来实现，或者作为可运行在专用数字信号处理器、普通的处理器等上的软件来实现。

在计算机程序产品可以被理解的条件下，任何命令启动处理器集合的物理实现-普通的或者特殊的目的-在经过一系列载入步骤使命令进入处理器之后，都可以使处理器执行发明的任意特征功能。特别地，计算机程序产品可以作为包括例如盘或者磁带的载体中的数据、存储器中的数据、通过网络连接-有线的或无线的-传播的数据、或者纸上的程序代码来实现。除了程序代码外，程序需要的特征数据也可以具体体现为计算机程序产品。

应该注意到上面提到的实施例的解释没有限制本发明。除了如权利要求中结合的本发明元件的结合外，其他的元件的结合也是可能的。任意的元件结合可以在一个单独的专用元件中实现。

在权利要求的圆括号内的任何标记都不能限制该权利要求。单词“包括”不排除没有列在权利要求中的元素或者方面。在元素前的单词“一个”不排除多个此类元素的出现。

Claims

1.一种自适应波束形成器单元，包括：

滤波求和波束形成器，被设置为处理来自各个麦克风阵列的输入音频信号，并且被设置为通过使用第一自适应滤波器对输入音频信号中的第一输入音频信号进行滤波和使用第二自适应滤波器对输入音频信号中的第二输入音频信号进行滤波来生成占主导地位地对应于来自期望音频源的声音的第一音频信号作为输出，第一自适应滤波器和第二自适应滤波器的系数是分别地可使用第一步长和第二步长自适应调节的；

噪声测度导出装置，被设置为从输入音频信号中导出第一噪声测度和第二噪声测度；以及

更新单元，被设置为将第一步长和第二步长确定为与对于第一步长的第一噪声测度和对于第二步长的第二噪声测度成反比。

2.如权利要求1所述的自适应波束形成器单元，其中噪声测度导出装置被设置为通过从期望音频源中减去由第一麦克风拾取的声音的期望声音测度而从输入音频信号中的第一输入音频信号中导出第一噪声测度，并且通过从期望音频源中减去由第二麦克风拾取的声音的第二期望声音测度而从输入音频信号中的第二输入音频信号中导出第二噪声测度。

3.如权利要求2所述的自适应波束形成器单元，其中获得第一步长和第二步长的等式等于：

α_{m} [f, t] = β P_{zz} [f, t] / (P_{zz} [f, t] + γ P_{x_{m} x_{m}} [f, t]),

其中m是索引，其指示利用得到的步长α_m来自适应调节哪个滤波器，f表示频率，t表示时刻，z表示第一音频信号，x_m分别是第一噪声测度、第二噪声测度，Pzz表示获得以其下标z识别的信号的功率的等式，并且β和γ是预先确定的常数。

4.如权利要求1所述的自适应波束形成器单元，其中第一噪声测度和第二噪声测度由输入音频信号的各自的线性组合来确定。

5.一种旁瓣抑制器，包括：

如权利要求1所述的滤波求和波束形成器；

自适应噪声估计器，被设置为通过利用第二组自适应滤波器对从输入音频信号中导出的第一噪声测度和第二噪声测度进行滤波来导出估计的噪声信号；

减法器，被设置为从第一音频信号中减去估计的噪声信号，以得到无噪的第二音频信号；和

可选的更新单元，被设置为将第一步长和第二步长确定为与第二音频信号的幅度测度成比例并且与对于第一步长的第一噪声测度和对于第二步长的第二噪声测度成反比。

6.如权利要求5所述的旁瓣抑制器，其中获得步长的等式等于：

α_{m} = β P_{rr} [f, t] / (P_{rr} [f, t] + γ P_{v_{m} v_{m}} [f, t]),

其中m是索引，其指示利用得到的步长α_m来自适应调节哪个滤波器，f表示频率，t表示时刻，r表示第二音频信号，v_m是由对应的第m个麦克风拾取的噪声的测度，无噪的第二音频信号作为来自期望音频源的声音的测度被从各自的输入音频信号中减去，以得到噪声测度v_m，P表示获得信号的功率的等式，并且β和γ是预先确定的常数。

7.如权利要求1所述的自适应波束形成器单元，其包括缩放因子确定单元，被设置为确定单一的缩放因子用来缩放滤波求和波束形成器的第一自适应滤波器和第二自适应滤波器的步长，所述缩放因子基于语音泄漏和/或不相关噪声的量来确定。

8.如权利要求5所述的旁瓣抑制器，其包括缩放因子确定单元，被设置为确定单一的缩放因子用来缩放滤波求和波束形成器的第一自适应滤波器和第二自适应滤波器的步长，所述缩放因子基于语音泄漏和/或不相关噪声的量来确定。

9.如权利要求1所述的自适应波束形成器单元，其被设置为从基于音频的说话者跟踪器和/或基于视频的说话者跟踪器接收位置数据，其中基于音频的说话者跟踪器被配置为基于说话者的语音来确定说话者在空间中的位置，基于视频的说话者跟踪器被配置为基于拍摄的图像来确定说话者在空间中的位置，其中第一自适应滤波器和第二自适应滤波器系数初始地根据由基于音频的说话者跟踪器和/或基于视频的说话者跟踪器所确定的位置来确定。

10.一种自动语音通信系统，其包括如权利要求1所述的自适应波束形成器单元或者如权利要求5所述的旁瓣抑制器。

11.一种便携式语音通信设备，包括至少两个麦克风来生成输入音频信号，并且还包括如权利要求1所述的自适应波束形成器单元或者如权利要求5所述的旁瓣抑制器来处理输入音频信号。

12.一种声音控制单元，其包括如权利要求1所述的自适应波束形成器单元或者如权利要求5所述的旁瓣抑制器，并且还包括语音分析装置，用来识别语音命令。

13.一种消费装置，包括如权利要求12所述的声音控制单元。

14.一种自适应波束形成的方法，包括：

a)利用第一自适应滤波器对来自第一麦克风的第一输入音频信号进行滤波，和利用第二自适应滤波器对来自第二麦克风的第二输入音频信号进行滤波，并且对滤波后的输入音频信号求和，以产生占主导地位地对应于来自期望音频源的声音的第一音频信号；

b)从输入音频信号中导出第一噪声测度和第二噪声测度；和

c)利用第一步长与第二步长来自适应调节第一自适应滤波器和第二自适应滤波器的系数，所述步长与对于第一步长的第一噪声测度和对于第二步长的第二噪声测度成反比。