优选实施例详细说明
在以下对于本发明优选实施例的说明中,参考了作为其中一部分的附图,其中通过对可以应用本发明的特定实施例的说明来显示。可以理解,其他实施例也可以应用,并且可以不脱离本发明范围地作出结构变化。
1.0
示例性操作环境:
图1显示了可以实施本发明的适合的计算系统环境100的例子。计算系统环境100只是适合的计算环境的一个例子,并不表示对本发明的应用范围和功能有任何限制。并且该计算环境100也不应被理解成对显示在示例性操作环境100中的组件中的任一个或其组合有任何依赖或需要。
本发明可以利用多个其他通用或特定目的的计算系统环境或配置来运作。已知的可以适合用于本发明的计算系统、环境和/或配置的例子包括但不仅限于,个人计算机,服务器计算机,手持、膝上或便携式计算机,或通讯装置例如蜂窝式电话和PDA,多处理器系统,基于多处理器的系统,机顶盒,可编程消费电子产品,网络PC,小型计算机,大型计算机,包含任何上述系统或装置的分布式计算环境等。
本发明可以以计算机可执行指令的一般语境来说明,例如与硬件模块结合由计算机执行的程序模块,包括传声器阵列组件198,或者其他接收器组件(未显示)例如定向无线电天线阵列、雷达接收器阵列等。一般地,程序模块包含执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、数据结构等。本发明也可以在分布式计算环境中实现,其中通过由通信网络连接的远程处理装置执行任务。在分布式计算环境中,程序模块可以同时存在于本地和远程计算机存储介质包括记忆存储装置中。参照图1,实现本发明的示例性系统包含计算机110形式的通用计算装置。
计算机110组件可以包含但不仅限于,处理单元120、系统存储器130和将包括系统存储器的各种系统组件连接到处理单元120的系统总线121。系统总线121可以是多种总线结构中的任一种,包括使用多种总线结构中任一种的存储总线或存储控制器、外围总线和本地总线。例如但不限于,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强的ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外设部件互连(PCI)总线也叫Mezzanine总线。
计算机110一般包含多种计算机可读介质。计算机可读介质可以是能够被计算机110访问的任何可用介质,包括易失性介质和非易失性介质、可移动和不可移动介质。例如但不限于,计算机可读介质可以包括计算机存储介质和通讯介质。计算机存储介质包含易失和非易失、移动和不可移动介质,以任何存储信息例如计算机可读指令、数据结构、程序模块或其它数据的方法或技术来实现。
计算机可读介质包括但不限于,RAM、ROM、PROM、EPROM、EEPROM、闪存或其它存储技术;CD-ROM、数字通用光盘(DVD)或其他光盘存储器;磁卡、磁带、磁盘存储器或其它磁存储装置;或其他可以用于存储预期信息并且可被计算机110访问的介质。通讯介质一般记录调制数据信号例如载玻或其它传输技术中的计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传送介质。术语“调制数据信号”是指,具有一个或多个特征组或者以在信号中编码信息的方式变化的信号。例如但不限于,通讯介质包括有线介质例如有线网络或直接有线连接,和无线介质例如声学、RF、红外和其他无线介质。任何上述介质的组合也应当包含在计算机可读介质的范围之内。
系统存储器130包含易失和/或非易失性存储器形式的计算机存储介质例如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS),包括协助例如在启动期间在计算机110内部元件之间传送信息的基本例程,一般存储在ROM131中。RAM132一般包含即时访问和/或将要被处理单元120处理的数据和/或程序模块。例如但不限于,图1示出了操作系统134、应用程序135、其他程序模块136和程序数据137。
计算机110也可以包含其他可移动/不可移动、易失/非易失性计算机存储介质。仅仅通过示例的方式,图1显示了对不可移动、非易失性磁介质进行读或写的硬盘驱动器141,对可移动、非易失性磁盘152进行读或写的磁盘驱动器151,和对可移动、非易失性光盘156例如CD ROM或其它光介质进行读或写的光盘驱动器155。其他可用于该示例操作环境的可移动/不可移动、易失/非易失性计算机存储介质包括但不限于,磁卡带、闪存卡、数字通用光盘、数字视频带、固态RAM、固态ROM等。硬盘驱动器141一股通过不可移动存储器接口例如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155一般通过可移动存储器接口例如接口150连接到系统总线121。
上面讨论并且显示在图1中的驱动器以及与之相连接的计算机存储介质,用于为计算机110存储计算机可读指令、数据结构、程序模块和其他数据。在图1中,例如,硬盘驱动器141显示为用于存储操作系统144、应用程序145、其他程序模块146和程序数据147。注意到这些组件可以与操作系统134、应用程序135、其他程序模块136和程序数据137相同或者不同。操作系统144、应用程序145、其他程序模块146和程序数据147在这里给出了不同的序号,这是为了说明至少它们不是同一个副本。用户可以通过输入装置例如键盘162和一般称为鼠标、轨迹球或触摸板的点击装置161,向计算机110输入命令和信息。
其他输入装置(未显示)可以包括操纵杆、游戏垫、圆盘式卫星电视天线、扫描仪、无线电接收器和电视机或广播视频接收器等。更进一步的输入装置(未显示)可以包括接收阵列或信号输入装置例如,定向无线电天线阵列、雷达接收器阵列等。这些和其他输入装置经常通过连接到系统总线121的有线或无线用户输入接口160与处理单元120相连,但是也可以通过其他常规接口和总线结构连接,例如并行端口、博奕端口、通用串行总线(USB)、IEEE1394接口、BluetoothTM无线接口、IEEE802.11无线接口等。进一步地,计算机110还可以包括语音或音频输入装置,例如传声器或传声器阵列198,与扬声器197或其他声音输出装置一样通过音频接口199相连接,也可以包含常规的有线或无线接口例如并行、串行、USB、IEEE1394、BluetoothTM等。
监视器191或其它类型的显示装置也通过接口例如视频接口190连接到系统总线121。除了监视器,计算机还可以包括其他外围输出装置例如打印机196,通过输出外围接口195与之连接。
计算机110可以利用到一个或多个远程计算机例如远程计算机180的逻辑连接在网络环境中运行。远程计算机180可以是个人计算机、服务器、路由器、网络PC、同位装置(peer device)或其他普通网络节点,一般包含许多或所有上述与计算机110相关的元件,虽然图1中仅显示了记忆存储装置181。图1中描绘的逻辑连接包含局域网(LAN)171和广域网(WAN)173,但也可以包含其他网络。这种网络环境常见于办公室、企业范围的计算机网络、内部网和因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接到LAN171。当在WAN网络环境中使用时,计算机110一般包含调制解调器172或其他用于在WAN173例如因特网建立通信的设备。调制解调器172可以是内部或者是外部的,通过用户输入接口160或其他适当的结构连接到系统总线121。在网络环境中,所述与计算机110相关的程序模块或者其一部分存储在远程记忆存储装置中。例如但不限于,图1显示了远程应用程序185驻留在存储装置181中。可以理解,所显示的网络环境是示例性的,也可以使用其他在计算机之间建立通信连接的设备。
至此讨论了示例的操作环境,本说明的余下部分将对为任意结构和传声器类型的传声器自动设计最优波束的系统和方法进行讨论。
2.0
介绍:
这里所述的“通用聚束器”,自动地设计一组覆盖预期角度空间范围或“工作空间”的波束(即聚束)。这些波束然后可以用于在传感器阵列周围的工作空间中的指定查找区域中定位特定的信号源。例如,对于一个会议室中的环形传声器阵列,一般的空间范围可以包含360度范围,或者对于有时在桌上或PC型计算机上的个人使用中应用的线性传声器阵列,可以是大约120到150度的角度范围。
然而,与常规聚束技术不同,这里所说的通用聚束器能够为任何给定结构和传感器特性的传感器阵列设计一组最优化波束。例如,在传声器阵列的情况,该结构是阵列中传声器的数量和位置,该特性则包含阵列中每个传声器的传声器定向性。
具体而言,该通用聚束器通过确定作为频率的函数的最优波束宽度来为波束内声源提供最优信噪比,而为环境和波束外噪声源进行最优衰减或滤波,从而为任意结构和传感器类型的传感器阵列设计一组最优化调节波束。该通用聚束器通过新的误差最小化处理提供这种聚束设计,它能够确定给定本地噪声条件和传声器阵列操作特性的最优的频率相关的波束宽度。要注意的是,尽管该通用聚束器可用于各种传感器阵列,为了说明清楚起见,以下讨论将假定该传感器阵列是包含多个具有一些已知结构和传声器定向性的传声器的传声器阵列。
值得注意的是,聚束系统也经常对聚束器的信号输出应用多种降噪或其他滤波或后处理。并且,在聚束操作前对传感器阵列输入的时域或频域预处理也经常用于常规聚束系统中。然而,为了说明方便,以下讨论将针对对于任意结构和传声器类型的传声器阵列的聚束设计进行,并且将仅考虑由聚束和波束控制操作导致的作为空间滤波的自然结果的噪声衰减。任何预期的对于聚束器输入或输出的常规预处理或后处理或滤波应当理解为包含在这里提供的通用聚束器的说明的范围之内。
另外,与常规固定聚束和自适应聚束技术一般在时域操作不同,,通用聚束器在频域进行所有聚束操作。大多数常规音频处理包含例如滤波、谱分析、音频压缩、符号差提取等一般使用快速傅里叶变换(FFT)等在频域处理。因而,常规聚束系统经常首先在时域进行聚束操作,然后将这些信号转换到频域进行进一步处理,最后再将这些信号转换回时域信号进行回放。
因此,这里所述的通用聚束器的一个优点在于,与大多数常规聚束技术不同,它是完全在频域进行聚束处理。进一步地,在一个实施例中,本频域聚束处理是使用被称为复调制折叠变换(MCLT)的频域技术来实现的,因为MCLT域处理在与其他音频处理模块例如压缩和解压模块(编解码器)相结合方面具有一些优点。
然而,虽然这里所述的概念使用MCLT域处理作为例子,应当认识到,这些概念可以很容易地使用于其他频域分解例如FFT或基于FFT的滤波器组中。从而,信号处理例如多余滤波、生成数字音频签名、音频压缩等均可以直接在频域直接对聚束器输出进行,而不需要首先在时域进行聚束处理再将其转换到频域。此外,该通用聚束器的设计保证了线性处理并且排除了输出信号中的非线性失真,从而进一步减少了计算开销和信号失真。
2.1
系统概述:
一般地,该通用聚束器通过首先利用描述该传声器阵列的操作特性和结构的参数信息来计算频率相关的“权值矩阵”,与一个或多个为传声器阵列周围环境而自动生成或计算得到的噪声模型相结合,来开始对传声器阵列的最优固定波束的设计。此权值矩阵然后用于在对传声器阵列接收的音频信号进行频域聚束处理时,对传声器阵列中的每个传声器的输出进行频域加权。
为权值矩阵计算的权值是通过为分布在传声器阵列周围的整个工作空间中的预期“焦点”计算频域权值来确定的。这个权值矩阵中的权值被优化,从而使得该通用聚束器设计的波束能够在任何焦点的单元增益和零相位偏移的约束条件下为每个频带提供最大噪声衰减(基于该计算的噪声模型)。这些约束条件应用于该焦点周围的一个角度范围,称为“焦点宽度”。该处理对每个感兴趣的频带重复进行,从而为每个给定焦点产生了以频率函数变化的最优波束宽度。
在一个实施例中,使用被称为复调制折叠变换(MCLT)的频域技术实现聚束处理。然而,虽然这里所述的概念使用MCLT域处理作为例子,本领域技术人员应当理解,这些概念可以容易地适应于其他频域分解,例如FFT或基于FFT的滤波器组。要注意的是,由于这些权值是为频域加权而计算的,所以权值矩阵是一个N×M矩阵,其中N是每个音频帧中MCLT的频带数(即MCLT子带),M是阵列中传声器的数量。因此,例如假定对MCLT计算使用320个频率接收器,那么对于任何特定焦点的最优波束宽度可以通过描绘作为入射角的函数的增益和320个MCLT频率系数中每一个的频率来说明。
此外,应当注意,当使用MCLT处理用于聚束操作时,使用大量MCLT子带(例如320个子带,如在先例子中)具有频域技术的两个重要优点:i)较好地调节每个频率子带的波束形状;和ii)将每个子带的滤波系数简化为单个复值增益因子,从而实现了高效计算。
用于计算权值矩阵的参数信息包含阵列中传声器的数量、阵列中传声器的结构布局和阵列中每个传声器的指向模式。噪声模型生成是用于计算区分至少三种噪声的权值矩阵,包括无向性环境噪声(即背景噪声例如“白噪声”或其他相对均匀分布的噪声)、仪器噪声(即由传声器阵列和连接到外部计算装置或其它外部电子装置的阵列的电子电路中的电子活动产生的噪声)和点噪声源(例如计算机风扇、通过开着的窗子的交通噪声、应当被抑制的扬声器等)。
因此,给定前述的噪声模型,为传声器阵列设计最优固定波束问题的解决方案与具有约束条件的一般最小问题相似,可以通过使用数学多维优化方法来解决(单纯形、梯度等)。然而,给定权值矩阵的相对高的维数(每个频带2M个实数,总共N×2M个数),这可以看作是一个多峰超曲面,又因为函数是非线性的,所以寻找作为该多峰超曲面中的点的最优权值的计算量将非常巨大,一般需要对本地最小值进行多重校验。
所以在一个实施例中,该通用聚束器不是直接在这个多峰超曲面中寻找最优点,而是首先用一个误差最小化模式合成代替对权值矩阵计算的直接多维优化,然后进行最优波束宽度的一维查找。任何常规的误差最小化技术都可以用在这里,例如最小二乘方或者最小均方误差(MMSE)估计、最小均对误差估计、最小-最大误差估计、均波技术等。
一般地,在为权值矩阵寻找最优解时,要均衡两个矛盾的因素。具体地说,给定波束形状的窄焦点范围,由于定向性的增加而使得环境噪声能量自然减少。此外,非相关噪声(包括电子电路噪声)将增加,这是因为更好定向性的解决方案将考虑越来越小的在传声器的输出信号之间的相位差别,从而增加了非相关噪声。相反地,当波束形状的目标焦点范围增大时,自然就会导致更大的环境噪声能量,但又减少了非相关噪声能量。
因此,通用聚束器在估计特定焦点范围宽度的最小误差时要考虑上述因素的均衡,以便为阵列中的每个传声器确定每个MCLT频带加权的最优解。然后通过模式合成来确定这个最优解,该模式合成判定满足特定目标波束形状的最小二乘(或者其他误差最小化技术)需求的权值。幸运的是,通过以这种方式来处理,可以使用线性系统方程的数值解来解决这个问题,这样显著快于多维优化。要注意的是,由于该优化是基于阵列中每个单独传声器的结构和定向性来计算的,所以对于传声器阵列周围的任何给定波束,即使在每个特定频带内部,最优波束设计也会作为目标焦点的函数而变化。
具体地说,聚束器设计过程首先将一组“目标波束形状”表示成一些预期目标波束宽度焦点范围(即2度、5度、10度等)的函数。一般地,任何最大值为1并且衰减到0的常规函数都可以用于表示目标波束形状,例如矩形函数、样条函数、余弦函数等。然而,不连续函数例如矩形函数会引起波束形状的波动。因此,一般使用从1平滑衰减到0的函数例如余弦函数来获得较好的结果。然而,考虑到前述的从1到0的衰减函数(线性或非线性)或者一些加权以强制其水平从1到0的衰减函数的约束条件,任何预期的函数均可以用在这里。
给定目标波束形状,就可以确定“目标权值函数”以判定是否每个目标或焦点是在特定的目标波束形状的过渡范围之内还是之外。一般地,观测目标波束宽度的大约一倍到三倍的过渡范围以提供较好的结果;然而,过渡范围的最优大小事实上是与阵列中传感器的类型和传感器阵列周围的工作空间的环境有关的。要注意的是,焦点只是一些(优选为大于传声器的数量)平均分散在阵列周围的整个工作空间中的点(即对于环形阵列使用等圆散布,或者对于线性阵列使用等弧散布)。然后目标权值函数根据那些点相对于特定目标波束的位置提供用于加权每个目标点的增益。
提供目标权值函数的目的是为了最小化来自聚束器估计的主波束之外的点的信号的影响。因此在一个测试实施例中,位于目标波束内部的目标点的增益指定为1.0(单元增益);而将位于过渡范围内的目标点的增益指定为0.1以最小化这些点对聚束估计的影响但是仍然考虑它们的影响;最后将位于目标波束的过渡范围外部的目标点的增益指定为2.0,以便更全面地考滤和充分减小最终设计的波束的旁瓣幅度。值得注意的是,对位于过渡范围外部的目标点使用过高的增益会掩盖位于目标波束内部的目标点的效应,从而导致不能实现最优聚束估计。
然后,给定目标波束形状和目标权值函数,下一步就是估计一组权值使得对于每个目标点的实际波束形状(利用阵列中每个传声器的已知定向性模式作为实际波束形状)与目标波束形状相符,通过使用误差最小化技术使得对于每个目标波束形状每个MCLT频率子带的总噪声能量最小化。该估计的解是一组使得实际波束形状与目标波束形状相匹配的权值。然而,这组权值不是必须满足前述对于每个工作频带焦点的单元增益和零相位偏移的约束条件。换句话说,该组初始权值可以为波束中的声源提供比单元增益更多或更少的增益。因而,对估计的权值进行归一化以便使任何源自焦点的信号都具有单元增益和零相位偏移。
这时,该通用聚束器还没有把总噪声能量的全面最小化作为波束宽度的函数来考虑。因此,并非简单地为一个预期目标波束宽度估计权值,如上所述,是为一个目标波束宽度范围估计归一化权值,该范围包括从一些预定最小值到一些预定最大预期角度。该波束宽度步距大小可以如预期的一样小或大(即可以预期地使用0.5、1、2、5、10度的步距,或者任何其他大小的步距)。
于是使用一维优化来为每个频带判定最优波束宽度。许多众所周知的非线性函数优化技术中的任何一个均可以应用,例如梯度下降法、查找法等。换句话说就是,总噪声能量的估计是使用任何预期角度的步距大小来为整个目标波束宽度范围中的每个目标波束宽度进行的。然后简单地对这些总噪声能量进行比较以确定具有该频率最低总噪声能量的每个频率的波束宽度。最终结果是对于传感器阵列周围的每个目标点作为频率的函数变化的最优化波束宽度。
注意到在一个实施例中,不是假定噪声在全部频率范围中平均衰减,而是将总最低噪声能量被作为特定频率范围的函数。具体地说,在一些情况,可以预见地仅在某个频率范围内最小化总噪声能量,或者更多地在特定频率范围内衰减噪声。在这种情况下,在确定具有最低噪声能量的目标波束宽度时更多地考虑那些特定的频率范围。一种确定噪声是否在某个特定频率范围内更突出的方式是简单地执行常规频率分析来为特定频率范围确定噪声能量水平。然后对具有特别高的噪声能量水平的频率范围加以更重的权值,以增大它们对于整个聚束估计的影响,从而实现在这些频率范围内噪声的更大衰减。
在每个频率水平具有最低总噪声能量的波束宽度的归一化权值然后提供给前述的权值矩阵。然后对应于波束所指向的目标点的任何给定频率的最优波束宽度,将工作空间分成多个角度区域。要注意的是,波束的定向是使用常规技术例如声源定位(SSL)。将这些波束定向到阵列周围的特定点是本领域技术人员所公知的概念,这里不再详细说明。
进一步地,应当注意,特定应用会需要一些波束角度叠接以提供改进的信源定位。在这种情况,波束之间的预期叠接量仅用于确定对预期工作空间全面覆盖所需要的波束数量。使用波束叠接的一个应用例子在2004年3月1日提交的、题目为“用于提高定位估计精确度的系统和方法”的、指定序列号为10/791,252的专利申请中给出,这里引用其主题作为参考。从而,例如预期50%的波束叠接,则波束的数量将加倍,使用前述的对于环形工作空间的20度波束宽度的例子,则该工作空间将被分成36个叠接的20度波束,而不是仅使用18个波束。
在该通用聚束器的进一步实施例中,聚束过程可以作为时间的函数演化。具体来讲,如上所述,对权值矩阵和最优波束宽度进行估计,部分地,基于为传声器阵列周围的工作空间估计的噪声模型。然而,应当清楚,噪声水平和噪声源经常作为时间的函数而改变。因此,在一个实施例中,工作空间环境的噪声建模连续地进行,或者根据有规则的或用户指定的间隔进行。给定新的噪声模型,则上述的聚束设计处理将用于为该工作空间自动形成一组新的最优波束。
注意到在一个实施例中,该通用聚束器完全在传声器阵列内以计算机处理方式运作,该传声器阵列自身从其各种传声器中接收原始音频输入,然后提供处理后的音频输出。在这个实施例中,传声器阵列包含为聚束提供这里所述的处理技术的定点计算机。然而,具有定点计算机处理能力的传声器阵列的造价显著高于计算机处理能力位于传声器阵列外部的情况,从而该传声器阵列仅包含传声器、前置放大器、A/D转换器和一些与外部计算装置连接的设备例如PC型计算机。
因此,为了处理这个问题,在一个实施例中,传声器阵列仅包括用于从每个传声器阵列接收音频信号的足够组件,并将这些信号提供给外部计算装置,由其执行这里所述的聚束处理。在本实施例中,装置驱动或装置说明文件包含表示传声器阵列的操作特性例如增益、灵敏度、阵列结构等数据,为传声器阵列单独提供,从而使驻留在外部计算装置中的该通用聚束器能够根据这里所述的系统和方法,为该特定的传声器阵列自动设计一组自动最优化的波束。
在紧密相关的实施例中,传声器阵列包含自动向外部计算装置报告其配置和操作参数的机构。具体来讲,在本实施例中,传声器阵列包含驻留在传声器阵列存储器例如ROM、PROM、EPROM、EEPROM或其他常规存储器中的计算机可读文件或图表,其中包含传声器阵列装置说明。该装置说明包含描述传声器阵列的操作特性和配置的参数信息。
在本实施例中,一旦连接到外部计算装置,传声器阵列为该外部计算装置提供器装置说明,而该外部计算装置然后使用通用聚束器为所连接的传声器阵列自动生成一组自动优化的波束。并且,在该外部计算装置中运行的通用聚束器然后在传声器阵列的外部执行所有聚束操作。这种用于自动将传声器阵列配置和操作参数报告给外部计算装置的技术详细记载在2004年2月9日提交的、题目为“自描述传声器阵列”的专利申请中,指定序列号为10/775,371,这里通过引用其主题作为参考。
在另一个相关实施例中,为传声器阵列提供一综合自校准系统,用于自动确定传声器阵列中每一个前置放大器的频域响应,然后计算频域补偿增益,从而该通用聚束器可以利用这些补偿增益来匹配每个前置放大器的输出。因而,就不需要预先确定传声器阵列每个通道的精确操作特性或者使用昂贵的匹配电子部件。
具体而言,在本实施例中,综合自校准系统将已知幅度和相位的激励脉冲插入到传声器阵列中的所有前置放大器输入中。于是可以测量每个前置放大器输出产生的模拟波形。然后对每个产生的模型进行频率分析例如快速傅里叶变换(FFT)或其他常规频率分析。这种频率分析的结果然后用于为每个前置放大器计算频域补偿增益以使得所有前置放大器的响应相互匹配或平衡。这种综合自校准系统详细记载在2004年2月4日提交的、题目为“用于传声器阵列的模拟前置放大器测量”的专利申请中,指定序列号为10/772,528,这里通过引用其主题作为参考。
2.2
系统结构:
上面概述的处理通过图2中的系统概况图来显示。具体地说,图2中的系统显示了用于实现为任意结构传声器阵列自动设计一组最优化波束的通用聚束器的程序模块之间的相互关系。应当注意,图2中的任何方框和用虚线表示的方框之间的相互连接是代表这里所述通用聚束器的可选实施例,任何或所有这些可选实施例,如下所述,均可以用于与本文全文中说明的其他可选实施例相结合。
一般地,通用聚束器用于为已知结构和操作特性的传声器或其他传感器阵列设计最优化波束。并且,这些波束相对于本地环境进行优化。换句话说,波束最优化作为信号频率的函数而自动适应于阵列结构、阵列操作特性和工作空间环境(包含传声器阵列周围区域中的环境或无向噪声的影响,以及传声器阵列的仪器噪声)。
通用聚束器的操作的开始是,使用构成例如传声器阵列的传感器阵列200的多个传感器的每一个,来监视传感器阵列周围本地环境的噪声水平(环境或无向、点声源和仪器)。从传感器阵列200中的每个传感器M得到的监视噪声然后作为输入xM(n)提供给作为时间函数的信号输入模块205。
下一步包括基于所测量的传感器阵列200周围本地环境的噪声水平估计一个或多个噪声模型。然而,在一个实施例中,首先使用频域分解模块210将输入信号帧从时域变换到频域。应当注意到,这里所述的聚束操作可以使用对时域或频域操作的滤波器来实现。然而,为了减小计算复杂度、易于与其他音频处理元件结合和额外适应性,一般最好在频域进行信号处理。
有许多可能的频域信号处理工具可以使用,例如包括离散傅里叶变换,通常通过快速傅里叶变换(FFT)来实现。进一步地,通用聚束器的一个实施例使用复调制折叠变换(MCLT)来进行频域处理。要注意的是,以下讨论将只针对使用MCLT来进行,而不对时域处理或其他频域技术例如FFT的使用进行说明。然而,本领域技术人员应当理解,所述关于使用MCLT的技术可以很容易地适用于其他频域或时域处理技术,并且这里所述的通用聚束器并不限于使用MCLT处理。
因此,假定使用MCLT信号变换,频域分解模块210将输入信号帧(代表来自阵列中每个传感器的输入)从时域变换到频域以便为每个传感器输入xM(n)产生N个MCLT系数XM(N)。然后噪声模型估计模块215通过使用多种公知噪声建模技术中的任一种估计表示传感器阵列200周围本地环境噪声的常规噪声模型。然而,应当注意,如果需要的话可以省略对噪声模型的估计。
一般地,这里考虑了几种噪声模型,包括传感器阵列200周围区域的环境或无向噪声、传感器阵列电路的仪器噪声和点噪声源。因为这种噪声建模技术已经为本领域技术人员所公知,这里不再对其详细说明。一旦噪声模型估计模块215根据输入信号估计出噪声模型,这些噪声模型然后提供给权值计算模块220。在一个实施例中,通过离线预估计噪声模型和使用那些固定模型来减少计算开销;例如关于环境噪声的简单假定(来自任何方向的能量相等以及特定的频谱形状)。
除了噪声模型,权值计算模映220还接收描述传感器阵列200的结构和操作特性(包含定向性模式)的传感器阵列参数信息230。例如,当考虑传声器阵列时,提供给通用聚束器的参数信息描述具有M个传感器(传声器)的阵列,每个传感器具有已知的位置矢量和定向性模式。本领域技术人员所公知的,定向性模式是一个复函数,它给出灵敏度和相位偏移,由对于来自特定位置的声音的传声器引入。
注意到,不需要为传声器阵列使用相同类型或定向性的传声器,只要已知每个传声器的位置和定向性。并且,如上所述,在一个实施例中,传感器阵列参数信息230在装置说明文件或装置驱动等中提供。同样如上所述,在相关实施例中,此参数信息保留在传声器阵列自身中,并且自动报告给外部计算装置以根据这里所述的方式运行通用聚束器。
另外,除了噪声模型和传感器阵列参数信息230,权值计算模块220还从目标波束形状定义模块230接收“目标波束形状”的输入和相应的“目标权值函数”。目标波束形状和目标权值函数通过目标形状定义模块225自动提供。一般地,如上所述,目标波束形状定义模块230描述一组“目标波束形状”作为多个目标焦点中每一个周围的一些预期目标波束宽度焦点区域的函数。如上所述,描述最优目标波束形状最好通过产生目标波束形状以迭代过程实现,以及对于每个感兴趣的频率或频带,其相应的目标权值函数越过一些预期范围的目标波束宽度(即2度、5度、10度等)。
用于聚束估计的目标焦点的数量一般应当大于传感器阵列200中传感器的数量,并且事实上,更大的数量有助于使聚束分辨率增加。具体来讲,目标焦点L的数量要选得比传感器M的数量大。这些目标焦点然后平均散布在传感器阵列周围的工作空间内以用于聚束估计。例如,在一个测试实施例中,为具有8个传声器M的环形传声器阵列选择了500个目标焦点L。然后对这些目标焦点单独估算以确定它们是位于目标波束宽度焦点区域内、目标波束宽度焦点区域周围的“过渡区域”内,抑或是位于目标波束宽度焦点区域外和过渡区域外。然后根据每个焦点关于当前所分析波束的位置,将通过目标权值函数提供的相应的增益应用到每个焦点上。
具体而言,前述的目标权值函数表示为一组三个加权参数Vpass、VTrans、VStop,它们分别对应于该目标焦点是位于目标波束形状内(VPass)、该目标焦点周围的过渡区域内(VTrans)、或是完全在目标波束形状和过渡区域外(VStop)。注意到过渡区域是用目标波束形状的周边周围的一些三角形表示。例如,在一个测试实施例中,使用三倍于目标波束宽度的三角形来表示过渡区域。从而,假定在焦点周围±10度的目标波束宽度,以及假定三倍于目标波束宽度的三角形,则过渡区域将从离目标点±10度处开始并且延伸到距离该目标点±40度处。于是在这个例子中,在目标点周围±40度之外的任何点属于闭塞区(VStop)。然后目标权值函数根据点相对于特定目标波束的位置为每个目标点提供加权的增益。
此时,权值计算模块220已经获得了目标波束形状、目标权值函数、目标点组、估计噪声模型和传声器阵列中传声器的定向性模式。给定这些信息,权值计算模块220然后为每个传声器计算一组对于当前MCLT频率子带、使得每个实际波形形状(利用阵列中每个传声器的定向性模式作为实际波束形状)与每个目标点的当前目标波束形状相匹配的权值。注意到,如下在第三部分所述,这组权值通过使用误差最小化技术进行最优化来选择最小化当前MCLT频率子带的总噪声能量的权值。
然后权值归一化模块235对于每个目标波束形状归一化该最优权值组以对于来自对应于每个目标波束形状的目标点的任何信号,都保证单元增益和零相位偏移。
上述步骤然后对于一定范围的目标波束形状进行重复。也就是说,在整个使用任何预期步距的预期波束角度范围中,重复上述用于为特定目标波束形状生成一组最优归一权值的步骤。例如,给定预期范围为5度,最小角为10度,最大角为60度,则将对于从10度到60度中以5度为增量的每个目标形状计算最优归一权值。从而,存储的目标波束和权值240将包含,对于当前MCLT频率子带的每个目标点在目标波束形状的整个预期范围中的最优归一权值和波束形状。
然后总噪声能量比较模块245计算总噪声能量,其通过在存储的目标波束和权值240中进行简单的一维查找以确定在当前MCLT子带中每个目标点周围提供最低总噪声能量的波束形状(即波束角度)和相应的权值。这些波束形状和相应的权值然后通过最优波束和权值矩阵模块250输出,并作为对应于当前MCLT子带的最优波束和权值矩阵255的输入。
然后通过为每个MCLT子带重复上述步骤来填充全部最优波束和权值矩阵255。具体来说,对于每个MCLT子带,通用聚束器为整个波束角度预期范围中的每个目标波束形状单独生成一组最优归一权值。如上所述,通用聚束器然后查找这些储存的目标波束形状和权值以判定对于每个MCLT子带的每个目标点周围提供最低总噪声能量的波束形状及其相应的权值,并将该波束形状及其相应权值存入最优波束和权值矩阵255,如上所述。
注意到,除了理想的均匀传感器例如全向传声器的情况外,传感器200中的每个传感器可以具有不同的定向性。并且,不同类型的传感器以及因而不同的定向性,也可以包含在同一传感器阵列200中。因此,应当重新计算在最优波束和权值矩阵255中描述的最优波束形状(即具有最低总噪声能量的那些波束形状)以适应不同定向性模式的传感器。
3.0
操作概述:
上述程序模块应用于实现这里所述的通用聚束器。如上所述,该通用聚束系统和方法相对于传感器阵列周围的本地噪声条件,自动形成一组最优化波束作为传感器阵列周围工作空间中目标点和频率的函数。以下部分将给出对于实现前述程序模块的示例性方法的详细操作的讨论。要注意的是,术语“焦点”、“目标点”和“目标焦点”会交替地出现在下述讨论中。
3.1
初始考虑:
下列讨论是针对使用通用聚束器为传声器阵列形成一组最优化波束而进行的,该传声器阵列具有任意但是已知的结构和操作特性。然而,如上所述,这里所述的通用聚束器很容易适用于其他类型的传感器阵列。
此外,这里所述的通用聚束器可以适于使用在时域或频域处理的滤波器。然而,如上所述,在频域进行聚束处理可以减小计算开销、易于与其他音频处理元件结合以及额外的适应性。
在一个实施例中,通用聚束器在波束设计中使用复调制折叠变换(MCLT),这是因为MCLT与其他音频处理部件例如音频压缩模块结合的优点。然而,如上所述,这里所述的技术可以很容易地适应于使用其他频域分解例如FFT或基于FFT的滤波器组。
3.1.1
传感器阵列结构和特性:
如上所述,通用聚束器能够为任何已知结构和操作特性的传声器阵列提供最优化波束设计。具体而言,就是考虑具有已知位置矢量
的包括M个传声器的阵列。阵列中的传声器将对阵列周围的工作空间中的信号域在位置p
m=(x
m,y
m,z
m):m=0,1,...,M-1进行采样。该采样产生一组由信号矢量
表示的信号。
并且,每个传声器m具有已知的定向性模式Um(f,c),其中f是频率,c={,θ,ρ}代表放射性坐标系中声源的坐标。类似的记法将用于表示矩形坐标系中的那些相同坐标,在这种情况下,c={x,y,z}。如本领域技术人员所公知的,传声器的定向性模式是提供灵敏度和相位偏移的复函数,其中相位偏移是由用于来自特定位置或方向的声音的传声器引入的。对于理想的全向传声器,Um(f,c)=常数。然而,如上所述,传声器阵列可以不损失通用聚束器共性地使用不同类型和定向性模式的传声器。
3.1.2
信号定义:
如本领域技术人员所公知的,源自相对于传声器阵列的特定位置c的声音信号受到多个因素的影响。例如,给定源自点c的声音信号S(f),由每个传声器实际获取的信号可以由等式(1)表示,如下所示:
Xm(f,pm)=Dm(f,c)A(f)mUm(f,c)S(f) 等式(1)
其中第一个元素Dm(f,c)由下面的等式(2)表示,代表由于点c到传声器的距离导致的相位偏移和信号衰减。注意到,任何由于空气中能量损失导致的信号衰减被忽略,因为其相对于传声器阵列一般包括的工作距离太低。然而,当包含更大的距离时或者当包含其他传感器类型、传导介质(即水或其他液体)或信号类型时,这种损失会变得较为突出。
等式(2)
等式(1)的第二个元素A(f)m是每个传声器m的传声器阵列前置放大器/ADC电路的频率响应。等式(1)的第三个元素Um(f,c)表示相对于点c的传声器定向性。最后,如上所述,等式(1)的第四个元素S(f)是实际信号自身。
3.1.3
噪声模型:
给定获取的信号Xm(f,pm),第一个任务是估计噪声模型用于对传声器阵列的本地环境中的各种噪声进行建模。这里所述的噪声模型区分三种噪声:无向环境噪声、仪器噪声和点噪声源。噪声源的时域和频域建模均为本领域技术人员所公知。因此,以下仅对噪声模型的种类进行概括说明。
具体地说,无向环境噪声具有由符号NA(f)表示的频谱,假定为均匀散布在传声器阵列周围的整个工作容积或工作空间内。该无向环境噪声NA(f)与所有通道相关并且依照等式(1)通过传声器阵列获取。在一个测试实施例中,噪声模型NA(f)是通过对正常条件下的噪声直接采样和平均来获得的,即该噪声是在使用传声器阵列的办公室或会议室中的环境噪声。
此外,仪器噪声具有由符号NI(f)表示的频谱,代表来自传声器、前置放大器和ADC(模/数转换)电路的电子电路噪声。仪器噪声NI(f)与所有通道无关并且一般与白噪声频谱相近。在一个测试实施例中,噪声模型NI(f)是通过对无噪声和混响的“理想房间”(从而噪声将仅来自于传声器和前置放大器电路)中的阵列中的传声器直接采样和平均来获得的。
第三种噪声来自被认为表示噪声的个别点声源。例如,点噪声源可以包括例如计算机风扇、应当被消除的第二扬声器等的声音。
3.1.4
通用聚束器的标准构成:
根据前面的讨论应当清楚,这里所述的聚束设计操作是在数字域进行而不是直接对传声器阵列直接接收的模拟信号进行。因此,传声器阵列获取的任何音频信号首先使用常规A/D转换技术进行数字化。为了避免不必要的混叠效应,音频信号优选地以长于MCLT工作频带中最低频率周期两倍的帧进行处理。
给定该数字信号,对由这里所述通用聚束器操作所生成聚束设计信息的实际使用是简单明了的。具体地说,使用设计波束来基于传声器阵列总输入为特定目标点产生音频输出,可以概括表示为传声器阵列获取的输入音频帧的加权和的结合。特别地,聚束器设计的特定波束输出可以通过等式(3)来表示:
等式(3)
其中Wm(f)是对于感兴趣目标点的每个传感器的权值矩阵W,Y(f)是聚束器输出,表示使用总传声器阵列输入在该目标点获取音频信号的最优解。如上所述,矢量组Wm(f)是N×M矩阵,其中N是音频帧中MCLT频率接收器的数量,M是传声器的数量。从而如等式(3)所示,这种聚束器的标准构成保证了线性处理,并且消除了输出信号Y(f)中的非线性失真。这种标准聚束器的框图在图3中给出。
对于每一组权值
对应有提供聚束器定向性的波束形状函数B(f,c)。
特别地,波束形状函数B(f,c)将传声器阵列的复值增益表示成声源位置的函数,由等式(4)给出:
等式(4)
本领域技术人员应当理解,图3中的概图可以容易地扩展成适应更多复杂系统。例如,通用聚束器设计的波束可以用于多个系统例如包括,声源定位(SSL)系统、声学回波消除(AEC)系统、定向滤波系统、选择信号获取系统等。此外,还应当清楚如果需要可以将任何这些系统相结合。
3.1.5
聚束器参数:
如本领域技术人员所公知的,使用传声器阵列的一个目的是通过利用这种阵列的定向性能(即“定向性”),提高从空间特定点或特定方向产生的信号的信噪比(SNR)。通过检测各种噪声特性以及自动补偿这些噪声,通用聚束器进一步提高所获取音频信号的SNR。如上所述,该通用聚束器考虑三种噪声。具体来说就是考虑无向环境噪声、仪器噪声和点声源噪声。
3.1.5.1
聚束器噪声考虑:
环境噪声增益GAN(f)作为在特定工作空间内的总传声器阵列波束容量的函数来建模。该噪声模型由等式(5)表示,其中简单地显示了环境噪声增益GAN(f)是对由阵列表示的组合波束的全部容积作为一个整体来计算的:
等式(5)
其中V是传声器阵列工作容积,即所有坐标c的组。
传声器阵列和前置放大器对于任何特定目标点的仪器或非相关噪声增益GIN(f),是简单地作为关于该目标点而指定给阵列中传声器的权值导致的增益的和来建模的。具体来讲,如等式(6)所示,来自传声器和前置放大器的非相关噪声增益GIN(f)由
等式(6)
给出。
最后,对于点噪声源的增益简单地通过与任何特定波束的波束形状相关联的增益给出。换句话说,在点c的噪声源的增益简单地由波束形状B(f,c)的增益给出。
鉴于与各种噪声相关的增益,聚束器输出中的总噪声能量由等式(7)给出:
等式(7)
3.1.5.2
聚束器定向性考虑:
除了考虑噪声影响,通用聚束器还对通用聚束器的波束设计所导致的传声器阵列的定向性进行特征化。具体来讲,传声器阵列的定向索引DI可以通过等式(8)到(10)进行特征化,如下所示:
P(f,,θ)=|B(f,c)|2,ρ=ρ0=常数 等式(8)
等式(9)
DI=10log10D 等式(10)
其中P(f,,θ)称为“功率模式”,ρ0是工作容量的平均距离(深度),(T,θT)是调整方向。
3.2
问题定义和约束:
一般地,通用聚束器为传声器阵列设计最优化波束时所要面临的两个主要问题是:
1.为任意预期焦点cT计算前述的权值矩阵W,如等式(3)所示的聚束器中所使用的;和
2.提供最大噪声压缩,即对于工作频带,在焦点处的单元增益和零相位偏移的约束下最小化输出信号的总噪声能量(例见等式(7))。这些约束通过等式(11)表示如下:
|B(f,cT)|=1
对于f∈[fBEG,fEND] 等式(11)
arg(B(f,cT))=0
其中fBEG和fEND表示工作频带的边界。
这些约束,在焦点或目标点处的单元增益和零相位偏移,应用于该焦点周围的一个范围,称为焦点宽度。给定前述的噪声模型,上述这些问题的一般解决方案与具有约束的一般最小化问题类似,可以使用数学多维最优化方法(即单纯形、梯度等)解决。遗憾的是,由于权值矩阵W(每个频带2M个实数,总共N×2M个数)的高维数、多峰超曲面,并且因为是非线性函数,所以寻找作为在多峰超曲面中的点的最优权值需要极大的计算量,因为一般需要对局部最小值进行多重校验。
3.3
关于权值矩阵W的低维误差最小化解决方案:
虽然有一些试图解决上面提到的多峰超曲面问题的常规方法,但是这些方法一般都非常慢以致于无法用于需要快速响应进行聚束操作的聚束系统中。因此,不是直接去解决这个问题,而是使用最小二乘方或其他误差最小化技术、误差模式合成来处理在等式(11)约束下的等式(7)所描述函数的直接多维优化,然后对传声器阵列周围的每个目标点或焦点进行一维查找。
考虑到等式(11)的两个约束,应当清楚有两个互相矛盾的过程。
具体地说,给定一个窄焦点范围,等式(11)的第一个约束,由于使用窄焦点范围而导致定向性增加,所以焦点处的单元增益将会使得由等式(7)表示的环境噪声能量减少。相反地,给定一个窄焦点范围,等式(7)的非相关噪声能量部分将会增加,这是因为具有更好定向性的解决方案将考虑在传声器输出信号之间的越来越小的相位差别,从而增加了传声器阵列电路中的非相关噪声。
另一方面,当目标焦点范围增大时,将会导致该范围中更大的环境噪声能量,仅仅是由于较大波束宽度的影响。然而,非相关噪声能量会降低,因为在来自传声器的信号之间的相位差的重要性降低,从而传声器阵列电路的噪声影响的效力减小。
对这些矛盾过程的最优化就得到了对于任何给定焦点或目标点周围焦点范围宽度的权值矩阵解,其中由等式(7)表示的总噪声能量取最小值。获得这个最优解的过程在这里称为“模式合成”。一般地,这种模式合成技术为最优波束形状的权值矩阵寻找能够最小化关于给定目标波束形状的误差(使用前述的最小二乘或其他误差最小化技术)的权值。从而可以使用解决线性方程系统的常规数值方法来获得权值矩阵的解。这种数值方法的实现显著快于常规的多维最优化方法。
3.3.1
目标波束形状的定义组:
鉴于上述的误差最小化技术,形成目标波束形状就是一个更易于控制的问题。一般地,目标波束形状实质上是具有一个参数——目标焦点范围宽度的函数。如上所述,任何其最大值为1并且衰减到0的函数均可用于描述目标波束形状(此函数给出目标波束中的增益,即在焦点处为1然后在波束边界处衰减到0的增益)。然而,不连续函数例如形成矩形目标范围的矩形函数,会引起波束形状的波动,从而降低了通用聚束器的整体性能。因此,使用从1平滑过渡到0的目标形状函数可以获得更好的结果。
发现能够在测试实施例中产生较好结果的平滑衰减函数的一个例子是常规余弦形状函数,如等式(12)所示如下:
其中(ρT,T,θT)是目标焦点,δ是目标范围大小,k是修正该形状函数的定标因子。
此外,如上所述,前述的目标权值函数V(ρ,,θ)表示为一组三个权值参数VPass、VTrans、VStop,它们分别对应于该目标焦点是位于目标波束形状内(VPass)、该目标焦点周围的过渡区域内(VTrans)、或是完全在目标波束形状和过渡区域外(VStop)。如在第2.1节非常详细地讨论过的,目标权值函数根据这些点相对于特定目标波束的位置为每个目标点提供加权的权值,以使得这样加权能够最小化从主波束之外的点产生的信号对于聚束器估计的影响。
3.3.2
模式合成:
一旦定义了目标波束形状和目标权值函数,通过满足最小二乘需求(或其他误差最小化技术)来判定一组使实际波束形状(基于传声器定向性模式)与目标函数匹配的权值就是一件简单的事情了。
具体而言,第一步就是选择均匀散布在工作空间中的L个点,其中L>M。然后,对于给定频率f,对于给定焦点范围宽度δ的波束形状T(参见等式(12))可以表示成目标权值函数V、阵列中传声器的数量M、相位偏移和信号衰减D(参见等式(2))、传声器定向性响应U、和权值矩阵或“权值矢量”W的复乘积。该乘积可以由等式(13)所示的复数方程来表示:
T1×L=V1×LDM×LUM×LW1×M 等式(13)
这个复数方程的解(即求解最优权值W)然后通过寻找权值矢量W的最小均方误差(MMSE)解(或使用其他常规误差最小化技术的最小值)来确定。注意这个权值矢量W以下用
表示。
3.3.3
权值归一化:
第3.3.2节中所述的在模式合成过程中判定的权值解,将阵列中每个传声器的实际定向性模式调整到预期波束形状T。然而,如上所述,这些权值还不满足等式(11)中的约束。因此,为处理这个问题,对这些权值进行归一以使得从焦点cT产生的信号具有单元增益和零相位偏移。该归一化由等式(14)表示如下:
等式(14)
其中
W表示在等式(11)约束下的最优归一权值。
3.3.4
波束宽度最优化:
如上所讨论的,对于每个频率,使用任何预期步距,对目标波束形状区域中的每一个重复在第3.3.1到3.3.3节所述的判定和归一化提供输出信号中最小噪声能量的权值的过程。具体来说,在区间[δ
MIN,δ
MAX]中重复这些过程,其中δ代表每个特定目标焦点周围的目标范围宽度。换句话说,上面所讨论的重复,对于当前MCLT频率子带的每个目标点,使用任意预期步距在整个预期波束角度区域中,重复上述为特定目标波束形状生成一组最优归一权值即权值矢量
的过程。所得的权值矢量
是对于给定频率f的“伪最优”解。
3.3.5
对于整个频带的计算:
为了获得对于特定目标焦点的完整权值矩阵
将在第3.3.1到3.3.4节中说明的过程对于传声器阵列处理的频域中的每个MCLT频率子带进行简单的重复。
3.3.6
波束组的计算:
在完成在第3.3.1到3.3.5节中说明的过程之后,权值矩阵
于是就表示对于特定焦点c
T的单个波束的N×M权值矩阵。从而,重复K次上面在第3.3.1到3.3.5节中说明的过程以得到K个波束,这些波束均匀散布在整个工作空间中。所得到的N×M×K三维权值矩阵确定了完整波束设计,该完整波束设计是由通用聚束器在给定本地环境当前噪声的条件下对位于当前本地环境中的传声器阵列产生的。
4.0
实施
在一个实施例中,上面在第3部分所述的用于在给定本地噪声条件下为特定传感器阵列设计最优化波束聚束过程分成两个分离的部分实施:离线设计程序估计前述的权值矩阵,和实时传感器阵列信号处理引擎根据图3中的框图使用这些权值。离线估计权值的原因是,估计这些最优权值比在图3所示的信号处理设备中使用它们实质上需要更多的计算开销。
然而,给定常规计算机的速度,包含例如常规PC型计算机,实时或接近实时地估计该权值矩阵是可能的。从而,在另一个实施例中,权值矩阵在进行时基础上以与可用计算机处理功率所允许的同样接近实时地来估计。于是,由通用聚束器设计的波束可以连续并自动地适应于本地环境中环境噪声水平的变化。
根据图2和图3、并且进一步根据在第2和第3部分给出详细说明的上述过程,通过图5中的总体操作流程图来显示。具体来讲,图5给出了显示通用聚束器操作的示例性操作流程图。应当注意,图5中用虚线或断线表示的任何方框和方框之间的相互连接表示这里所述通用聚束器的可选实施例,并且任何或者所有这些可选实施例,如下所述,可以与在本篇全文中所述的其他可选实施例相结合使用。
一般地,如图5所示,聚束操作开始于监视来自传声器阵列500的输入信号(方框505),该监视是对足够根据阵列输入来产生噪声模型的一些时间周期进行的。一般地,如本领域技术人员所公知的,噪声模型可以基于对输入信号相对短的采样来估计。并且,如上所述,在一个实施例中,连续或者在用户指定的时间或间隔监视传声器阵列500,从而可以实时或接近实时地估计和更新噪声模型,以便用于为作为时间的函数而适应于本地噪声环境的传声器阵列设计最优化波束。
一旦接收到输入信号,常规A/D转换技术510就用于根据将要来到的音频信号构建数字信号帧。如上所述,这些帧的长度一般应当是MCLT工作频带中最低频率周期的至少两倍以上以便减少或最小化混叠效应。然后将数字音频帧分解成MCLT系数515。在测试实施例中,发现当为一般会议室类型的环境中的一般环形传声器阵列设计波束时,使用320个MCLT频带可以提供较好的结果。
此时,由于分解音频信号通过MCLT系数以频域信号表示,所以就更容易应用任何预期的频域处理例如在一些预期频率或频域滤波。例如,在需要从噪声模型排除除了一些频域窗之外的所有频率时,可以在这一步应用带通型滤波器。类似地,也可以应用其他滤波效果包括例如高通、低通、多带通滤波器、陷波滤波器等,单独或者组合使用均可。因此,在一个实施例中,输入音频帧的预处理520在从该音频帧生成噪声模型之前执行。
然后使用常规噪声建模技术生成这些噪声模型525,不论是否进行了任何预处理。例如,无向环境噪声假定均匀散布在传声器阵列周围的整个工作容积或工作空间内。因此,无向环境噪声是通过对使用该阵列的位置正常条件下的噪声直接采样和平均来建模的。类似地,仪器噪声是通过对无噪声和混响(从而噪声仅来自于传声器和前置放大器的电路)的“理想房间”中的阵列中的传声器直接采样和平均来建模的。
噪声模型一旦产生525,下一步就是描述要在聚束设计中使用的多个变量(方框530)。具体地说,这些变量包括:1)基于一些如上所述的预期衰减函数的目标波束形状;2)散布在阵列周围的目标焦点;3)目标权值函数,用于依据它们是位于特定目标波束内部、波束周围的过渡区域内或是在波束和过渡区域外部来对目标焦点加权;4)最小和最大预期波束形状角度;和5)用于在搜索最优波束形状期间增加目标波束宽度的波束步距。注意到,所有这些变量都可以对特定阵列进行预描述,然后只需要读出以用于波束设计。可选地,一个或多个这些变量是用户可调节的以便可以实现对聚束设计过程的更多用户控制。
然后在开始方框540到方框585所示步骤表示的波束设计过程之前,初始化用于追踪在点cT(K)当前目标波束形状角度(即当前目标波束宽度)、当前MCLT子带和当前目标波束的计数器(方框535)。
具体而言,给定噪声模型和前述变量,最优波束设计开始,首先对于给定每个传声器的定向性,对每个传声器和目标焦点在当前MCLT子带和当前波束宽度估计权值540。如上所述,传声器参数信息230可以保存在一些种类的表或数据库中,或者在一个实施例中自动地保存在传声器阵列自身并由其报告,例如上述的“自描述传声器阵列”。这些估计的权值然后进行归一化550以保证在相应目标焦点的单元增益和零相位偏移。归一后的权值然后与其对应的波束形状240一同存储。
然后,关于当前波束形状角度是否大于或等于步骤530指定的最大角作出判断555。如果当前波束角度小于步骤530指定的最大波束角度,则对该波束角度增加前述的波束角度步距(方框560)。于是基于该新的目标波束宽度,估计540、归一化550和存储240一组新的权值。然后重复这些步骤(540、550、240和555)直到目标波束宽度大于或等于该最大角度555。
此时,搜索存储的目标波束和相应的权值来为当前MCLT频带选择在点cT(K)处的当前目标波束的最优波束宽度(方框565)。然后将该最优波束宽度和相应的权值矢量存储到当前MCLT子带的最优波束和权值矩阵255。再判断(方框570)当前MCLT子带例如MCLT子带(i)是否最大的MCLT子带。如果不是,则将该MCLT子带标号(i)增加到下一个MCLT子带之前,而将当前波束宽度重设为最小角度(方框575)。
然后对新的当前MCLT子带重复上述为当前MCLT子带估计最优波束和权值矩阵项的步骤(540、550、240、555、560、565、255、570和575),直到当前MCLT子带等于最大值MCLT子带(方框570)。一旦当前MCLT子带等于最大值MCLT子带(方框570),则关于每个MCLT子带在点cT(K)处的当前目标波束的最优波束和权值矩阵将被完全填充。
然而,一般希望对传声器阵列提供不止一个单一波束。因此,如步骤580和585所示,对上述填充每个MCLT子带在点cT(K)处的当前目标波束的最优波束和权值矩阵的步骤重复K遍以得到K个波束,这些波束通常均匀散布在整个工作空间中。所得到的N×M×K三维权值矩阵255确定了完整的波束设计,该完整波束设计是由通用聚束器在给定本地环境的当前噪声条件下对位于当前本地环境中的传声器阵列产生的。
前述的对于通用聚束器为任意结构和传声器定向性的传声器阵列设计一组最优化波束的说明是为了说明和描述的目的而给出的。并非是穷举的或者将本发明限制到所公开的具体形式。根据上述教导有可能作出许多修改和变化。此外,应当注意,任何或所有前述的可选实施例可以根据需要以任何组合形式形成通用聚束器的另外的混合实施例。这意味着本发明的范围并不仅限于本详细说明,而是由所附的相关权利要求所定义的。