CN103026733B

CN103026733B - 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体

Info

Publication number: CN103026733B
Application number: CN201180036598.4A
Authority: CN
Inventors: 埃里克·维瑟; 伊恩·埃尔纳恩·刘
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-07-26
Filing date: 2011-07-26
Publication date: 2015-07-29
Anticipated expiration: 2031-07-26
Also published as: JP2013535915A; EP2599329A2; CN103026733A; KR101470262B1; WO2012018641A3; KR20130055650A; US9025782B2; EP2599329B1; WO2012018641A2; US20120020485A1

Abstract

一种多麦克风系统执行声信号的位置选择性处理，其中源位置由相对于位于用户的头的中间矢状面的相对侧的麦克风对的到达方向指示。

Description

用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体

根据35U.S.C.§119主张优先权

本专利申请案主张2010年7月26日申请的题目为“用于多麦克风范围选择性处理的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLE MEDIA FOR MULTI-MICROPHONE RANGE-SELECTIVEPROCESSING)”的第61/367,730号临时申请案的优先权。

技术领域

本发明涉及信号处理。

背景技术

先前在安静的办公室或家庭环境中进行的许多活动现今是在声响可变的情形(如汽车、街道或咖啡馆)中执行。举例来说，一个人可能需要使用话音通信通道与另一个人通信。所述通道可(例如)由移动无线手持机或头戴式耳机(headset)、对讲机、双向无线电、车载套件(car-kit)或另一通信装置提供。因此，在用户由其它人包围的环境(具有在人们趋向于聚集的地方通常遇到的种类的噪声内容)中使用便携式音频感测装置(例如，智能电话、手持机及/或头戴式耳机)发生大量的话音通信。此噪声趋向于使在电话对话的远端的用户分心或受到干扰。此外，许多标准自动化商业交易(例如，账户结余或股票报价检查)采用以话音辨识为基础的数据查询，且干扰性噪声可能显著地妨碍这些系统的准确度。

对于通信发生于有噪声环境中的应用来说，可能需要分离所要的语音信号与背景噪声。可将噪声定义为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包含：在声环境(例如其它人的背景对话)内产生的众多噪声信号，以及从所要信号及/或其它信号中的任一者产生的反射及回响。除非分离所要的语音信号与背景噪声，否则可能难以可靠及有效地使用所要的语音信号。在一个特定实例中，在有噪声环境中产生语音信号，且使用语音处理方法来分离语音信号与环境噪声。

在移动环境中遇到的噪声可包含多种不同分量，例如竞争的讲话者、音乐、混串音(babble)、街道噪声及/或机场噪声。因为此噪声的特征通常是不稳定的且接近于用户自己的频率特征，所以可能难以使用传统的单麦克风或固定式射束成形型方法来模型化所述噪声。单麦克风噪声降低技术通常需要显著的参数调整来实现最佳性能。举例来说，在这些状况下可能无法直接获得合适的噪声参考，且可能有必须间接地导出噪声参考。因此，可能需要以多麦克风为基础的高级信号处理来支持将移动装置用于有噪声环境中的话音通信。

发明内容

根据一般配置的音频信号处理的方法包含：计算由第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一指示；以及计算由第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二指示。此方法还包含基于所述第一和第二方向指示而控制音频信号的增益以产生输出信号。在此方法中，所述第一对的麦克风位于用户的头的中间矢状面的第一侧，所述第二对的麦克风位于所述中间矢状面的与所述第一侧相对的第二侧，且所述第一对与所述第二对分离至少10厘米。还揭示具有有形特征的计算机可读存储媒体(例如，非暂时性媒体)，所述有形特征致使读取所述特征的机器执行此方法。

根据一般配置的用于音频信号处理的设备包含：用于计算由第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一指示的装置；以及用于计算由第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二指示的装置。此设备还包含用于基于所述第一和第二方向指示而控制音频信号的增益的装置。在此设备中，所述第一对的麦克风位于用户的头的中间矢状面的第一侧，所述第二对的麦克风位于所述中间矢状面的与所述第一侧相对的第二侧，且所述第一对与所述第二对分离至少10厘米。

根据一般配置的用于音频信号处理的设备包含：第一对麦克风，其经配置以在所述设备的使用期间位于用户的头的中间矢状面的第一侧；以及第二对麦克风，其经配置以在所述设备的所述使用期间位于所述中间矢状面的与所述第一侧相对的第二侧。在此设备中，所述第一对经配置以在所述设备的所述使用期间与所述第二对分离至少10厘米。此设备还包含：第一方向指示计算器，其经配置以计算由所述第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一指示；以及第二方向指示计算器，其经配置以计算由所述第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二指示。此设备还包含增益控制模块，其经配置以基于所述第一和第二方向指示而控制音频信号的增益。

附图说明

图1和2展示用于话音通信的头戴式耳机D100的典型使用情况的俯视图。

图3A展示根据一般配置的系统S100的框图。

图3B展示在系统S100的使用期间麦克风ML10、ML20、MR10和MR20的相对放置的实例。

图4A展示耳杯ECR10的水平横截面。

图4B展示耳杯ECR20的水平横截面。

图4C展示耳杯ECR10的实施方案ECR12的水平横截面。

图5A和5B分别展示系统S100作为一对头戴受话器的实施方案的典型使用情况的俯视图和正视图。

图6A展示在用户的头的冠状面中相对于正交于用户的头的中间矢状面的线的各种角范围的实例。

图6B展示在正交于中间矢状面和冠状面的横向平面中相对于正交于用户的头的中间矢状面的线的各种角范围的实例。

图7A展示麦克风对ML10、ML20和MR10、MR20的放置的实例。

图7B展示麦克风对ML10、ML20和MR10、MR20的放置的实例。

图8A展示阵列R100R的实施方案R200R的框图。

图8B展示阵列R200R的实施方案R210R的框图。

图9A展示设备A100的实施方案A110的框图。

图9B展示设备A110的实施方案A120的框图。

图10A和10B展示其中方向计算器DC10R指示源相对于麦克风对MR10和MR20的到达方向(DOA)的实例。

图10C展示不对称阵列的射束图案的实例。

图11A展示方向指示计算器DC10R的实施方案DC20R的实例的框图。

图11B展示方向指示计算器DC10R的实施方案DC30R的框图。

图12和13展示射束成形器射束图案的实例。

图14说明DOA估计的反向投射方法。

图15A和15B展示计算器DC12R的实施方案的基于扇区的应用的俯视图。

图16A到16D展示方向性掩蔽函数的个别实例。

图17展示不同的两组三个方向性掩蔽函数的实例。

图18展示将如图17所示的一组三个方向性掩蔽函数应用于同一多通道音频信号的结果的量值对时间的绘图。

图19展示麦克风对MR10、MR20的典型使用情况的实例。

图20A到20C展示说明在噪声减少模式中系统的操作原理的俯视图。

图21A到21C展示说明在噪声减少模式中系统的操作原理的俯视图。

图22A到22C展示说明在噪声减少模式中系统的操作原理的俯视图。

图23A到23C展示说明在噪声减少模式中系统的操作原理的俯视图。

图24A展示设备A120的实施方案A130的框图。

图24B到24C和26B到26D展示麦克风MC10的放置的额外实例。

图25A展示安装在模拟器上的系统S100的实施方案的正视图。

图25B和26A分别在模拟器的左侧视图中展示麦克风放置和定向的实例。

图27展示设备A110的实施方案A140的框图。

图28展示设备A110的实施方案A210的框图。

图29A到29C展示说明在助听器模式中系统的操作原理的俯视图。

图30A到30C展示说明在助听器模式中系统的操作原理的俯视图。

图31A到31C展示说明在助听器模式中系统的操作原理的俯视图。

图32展示测试布置的实例。

图33展示在助听器模式中的此测试的结果。

图34展示设备A210的实施方案A220的框图。

图35展示设备A110和A210的实施方案A300的框图。

图36A展示根据一般配置的方法N100的流程图。

图36B展示根据一般配置的方法N200的流程图。

图37展示根据一般配置的方法N300的流程图。

图38A展示根据一般配置的方法M100的流程图。

图38B展示根据一般配置的设备MF100的框图。

图39展示包含系统S100的实施方案的通信装置D10的框图。

具体实施方式

由便携式感测装置感测的声信号可含有从不同的源(例如，所要的声源，例如用户的嘴，和一个或一个以上干扰源)接收的分量。可能希望在时间和/或频率上分离所接收信号中的这些分量。举例来说，可能希望区别用户的话音与扩散背景噪声和其它方向性声音。

图1和2展示用于话音通信(例如，Bluetooth^TM头戴式耳机)的头戴式耳机D100的典型使用情况的俯视图，头戴式耳机D100包含双麦克风阵列MC10和MC20且佩戴于用户的耳朵上。大体上，此阵列可用以支持具有不同到达方向的信号分量之间的区分。然而，到达方向的指示可能不足以区别从远离的源接收但在同一方向上的干扰声。替代地或另外，可能希望根据装置与源(例如，所要的源，例如用户的嘴，或干扰源，例如另一扬声器)之间的距离来区分信号分量。

然而，便携式音频感测装置的尺寸通常太小而无法允许足够大的麦克风间距来支持有效的声测距。而且，从麦克风阵列获得范围信息的方法通常取决于麦克风之间的测量增益差，且获取可靠的增益差测量值通常需要执行和维持麦克风相对于彼此的增益响应的校准。

描述一种基于四麦克风头戴式耳机的范围选择性声成像系统。所提出的系统包含两个侧边安装的麦克风阵列(例如，若干对)且使用来自每一阵列的方向性信息来界定用户的嘴周围的由到达方向(DOA)和范围限定的区。当使用相位差来指示到达方向时，此系统可经配置以根据范围来分离信号分量，而不需要校准相对于彼此的麦克风增益。用于此系统的应用的实例包含从背景噪声提取用户的话音和/或在用户的前方、后方和/或任一侧成像不同的空间区。

除非由其上下文明确限制，否则本文中使用术语“信号”来指示其普通意义中的任一者，包含在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如计算或以另外方式产生。除非由其上下文明确限制，否则本文中使用术语“计算”来指示其普通意义中的任一者，例如运算、估计、平滑和/或从多个值中进行选择。除非由其上下文明确限制，否则使用术语“获得”来指示其普通意义中的任一者，例如计算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。除非由其上下文明确限制，否则使用术语“选择”来指示其普通意义中的任一者，例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在术语“包括”用于本描述和权利要求书中的情况下，其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者，包含如下情况：(i)“从…导出”(例如，“B是A的前体”)，(ii)“至少基于”(例如，“A至少基于B”)，以及如果在特定上下文中适当的话，(iii)“等于”(例如，“A等于B”)。类似地，使用术语“响应于”来指示其普通意义中的任一者，包含“至少响应于”。

对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置，除非上下文另外指示。根据特定上下文，术语“通道”有时用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示，否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为基数的对数，但此运算向其它基数的扩展属于本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者，例如所述信号的频域表示(例如，如由快速傅立叶变换产生)或所述信号的子带(例如，巴克(Bark)尺度或梅尔(mel)尺度子带)的样本。

除非另外指出，否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”，除非特定上下文另外指示。也一般地且可互换地使用术语“设备”和“装置”，除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制，否则本文中使用术语“系统”来指示其普通意义中的任一者，包含“交互以用于共同目的的一组元件”。一个文档的一部分以引用的方式的任何并入也应理解为并入了在所述部分内参考的术语或变量的定义(其中这些定义在所述文档的其它地方出现)以及在所并入的部分中参考的任何图式。

术语“译码器”、“编解码器”和“译码系统”可互换使用以表示包含至少一个编码器和一对应解码器的系统，所述编码器经配置以接收和编码音频信号的帧(可能在一个或一个以上预处理操作之后，例如感知加权和/或其它滤波操作)，所述解码器经配置以产生所述帧的经解码表示。此编码器和解码器通常部署于通信链路的相对终端处。为了支持全双工通信，通常在此链路的每一端处部署编码器和解码器两者的实例。

在本描述中，术语“经感测音频信号”表示经由一个或一个以上麦克风接收的信号，且术语“经再生音频信号”表示根据从存储装置检索和/或经由到另一装置的有线或无线连接接收的信息而再生的信号。例如通信或重放装置等音频再生装置可经配置以将经再生音频信号输出到所述装置的一个或一个以上扬声器。替代地，此装置可经配置以将经再生音频信号输出到经由电线或无线地耦合到所述装置的听筒、其它头戴式耳机或外部扬声器。参考用于例如电话等话音通信的收发器应用，经感测音频信号是将由收发器发射的近端信号，且经再生音频信号是由收发器(例如，经由无线通信链路)接收的远端信号。参考例如经记录音乐、视频或话音(例如，经MP3编码的音乐文件、电影、视频剪辑、音频书籍、播客)的重放或此类内容的流式传输等移动音频再生应用，经再生音频信号是正在重放或流式传输的音频信号。

图3A展示根据一般配置的系统S100的框图，系统S100包含麦克风阵列的左实例R100L和右实例R100R。系统S100还包含设备A100，其经配置以基于来自由左麦克风阵列R100L产生的多通道信号SL10、SL20的信息和来自由右麦克风阵列R100R产生的多通道信号SR10、SR20的信息而处理输入音频信号SI10以产生输出音频信号SO10。

系统S100可经实施以使得设备A100经由电线或其它导电路径耦合到麦克风ML10、ML20、MR10和MR20中的每一者。替代地，系统S100可经实施以使得设备A100以导电方式耦合到麦克风对中的一者(例如，与此麦克风对位于同一耳杯内)且无线地耦合到另一麦克风对。替代地，系统S100可经实施以使得设备A100无线地耦合到麦克风ML10、ML20、MR10和MR20(例如，使得设备A100实施于便携式音频感测装置内，例如手持机、智能电话或者膝上型或平板计算机)。

麦克风ML10、ML20、MR10和MR20中的每一者可具有全向、双向或单向(例如，心形线)的响应。可用于麦克风ML10、ML20、MR10和MR20中的每一者的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。

图3B展示在系统S100的使用期间麦克风的相对放置的实例。在此实例中，左麦克风阵列的麦克风ML10和ML20位于用户的头的左侧，且右麦克风阵列的麦克风MR10和MR20位于用户的头的右侧。可能希望定向麦克风阵列以使得其轴线是在用户的前方方向的侧边，如图3B所示。虽然每一麦克风阵列通常佩戴于用户的相应耳朵上，但还可能每一阵列的一个或一个以上麦克风佩戴于不同位置中，例如在用户的肩部。举例来说，每一麦克风阵列可经配置以佩戴于用户的相应肩部上。

可能希望每一麦克风阵列的麦克风之间(例如，ML10与ML20之间，和MR10与MR20之间)的间距处于从约2到约4厘米(或甚至高达5到6厘米)的范围内。可能希望在装置的使用期间左麦克风阵列与右麦克风阵列之间的间距至少等于耳间距离(即，在用户的耳道的开口之间在空间上沿着直线的距离)。举例来说，可能希望每一阵列的内部麦克风之间(即，麦克风ML10与MR10)的距离大于或等于12、13、14、15、16、17、18、19、20、21或22厘米。此类麦克风放置可提供在所要的到达方向范围上的满意程度的噪声减少性能。

系统S100可经实施以包含一对头戴受话器，例如一对耳杯，其由将佩戴于用户的头上的带接合。图4A展示耳杯的右侧实例ECR10的水平横截面，其包含麦克风MR10和MR20以及经布置以对用户的耳朵产生声信号(例如，来自无线地或经由到媒体重放或流式传输装置的绳接收的信号)的扬声器LSR10。可能希望使麦克风与通过耳杯的结构从扬声器接收机械振动相绝缘。耳杯ECR10可经配置为压耳式(即，在使用期间搁置于用户的耳朵上而不包围耳朵)或绕耳式(即，在使用期间包围用户的耳朵)。在耳杯ECR10的其它实施方案中，外部麦克风MR20可安装在从耳杯延伸远离用户的头的吊杆或其它突出部上。

系统S100可经实施以针对用户的每一耳朵包含此耳杯的实例。举例来说，图5A和5B分别展示系统S100作为一对头戴受话器的实施方案的典型使用情况的俯视图和正视图，所述系统S100还包含耳杯ECR10的左实例ECL10和带BD10。图4B展示耳杯ECR20的水平横截面，其中麦克风MR10和MR20沿着耳杯外壳的弯曲部分安置。在此特定实例中，麦克风定向于远离用户的头的中间矢状面的稍微不同的方向上(如图5A和5B所示)。耳杯ECR20还可经实施以使得一个(例如MR10)或两个麦克风在使用期间定向于与用户的头的中间矢状面平行的方向上(例如，如图4A中)，或使得两个麦克风在使用期间定向于朝向或远离此平面的同一小角度(例如，不大于45度)。(将了解，本文描述的各种右侧耳杯的左侧实例是类似地配置。)

图4C展示耳杯ECR10的实施方案ECR12的水平横截面，其包含经导向以接收环境声的第三麦克风MR30。还可能阵列R100L和R100R中的一者或两者包含两个以上麦克风。

可能希望在系统的使用期间，麦克风对ML10、ML20的轴线(即，穿过所述对中的每一麦克风的敏感表面的中心的线)大体上正交于用户的头的中间矢状面。类似地，可能希望在系统的使用期间，麦克风对MR10、MR20的轴线大体上正交于用户的头的中间矢状面。可能希望配置系统S100(例如)以使得麦克风对ML10、ML20的轴线和麦克风对MR10、MR20的轴线中的每一者在系统的使用期间与用户的头的中间矢状面的正交向不超过15、20、25、30或45度。图6A展示在用户的头的冠状面中的各种此类范围的实例，且图6B展示在正交于中间矢状面和冠状面的横向平面中的相同范围的实例。

应注意，可允许角度的此范围的正负界限无需相同。举例来说，系统S100可经实施以使得麦克风对ML10、ML20的轴线和麦克风对MR10、MR20的轴线中的每一者在系统的使用期间在用户的头的冠状面中与用户的头的中间矢状面的正交向不超过正15度且不超过负30度。替代地或另外，系统S100可经实施以使得麦克风对ML10、ML20的轴线和麦克风对MR10、MR20的轴线中的每一者在系统的使用期间在用户的头的横向平面中与用户的头的中间矢状面的正交向不超过正30度且不超过负15度。

图7A展示麦克风对MR10、MR20在耳杯ECR10上的放置的三个实例(其中每一放置由虚线椭圆指示)和麦克风对ML10、ML20在耳杯ECL10上的放置的对应实例。这些麦克风对中的每一者在使用期间也可根据上述间距和正交性约束中的任一者而佩戴于用户身体的另一部分上。图7A展示麦克风对MR10、MR20的此类替代放置的两个实例(即，在用户的肩部和在用户胸部的上部部分上)和麦克风对ML10、ML20的放置的对应实例。在此类情况下，每一麦克风对可附加到用户的衣服上(例如，使用Velcro^R或类似的可装卸式扣件)。图7B展示图7A所示的放置的实例，其中每一对的轴线在用户的头的冠状面中具有从用户的头的中间矢状面的正交向的稍微负倾斜。

其中麦克风ML10、ML20、MR10和MR20可根据上述间距和正交性约束中的任一者安装的系统S100的其它实施方案包含例如在头盔上的圆形布置。举例来说，内部麦克风ML10、MR10可安装在此头盔的帽檐上。

在如本文描述的多麦克风音频感测装置的操作期间，麦克风阵列R100的每一实例产生多通道信号，其中每一通道是基于麦克风中的对应一者对声环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音，使得对应通道彼此不同，从而共同提供比使用单个麦克风进行俘获的情况更完整的对声环境的表示。

可能希望阵列对由麦克风产生的信号执行一个或一个以上处理操作以产生对应的多通道信号。举例来说，图8A展示阵列R100R的实施方案R200R的框图，所述实施方案R200R包含经配置以执行一个或一个以上此操作的音频预处理级AP10，所述一个或一个以上此操作可包含(不限于)阻抗匹配、模/数转换、增益控制和/或在模拟域和/或数字域中的滤波，从而产生多通道信号，其中每一通道是基于对应麦克风对声信号的响应。阵列R100L可类似地实施。

图8B展示阵列R200R的实施方案R210R的框图。阵列R210R包含音频预处理级AP10的实施方案AP20，所述实施方案AP20包含模拟预处理级P10a和P10b。在一个实例中，级P10a和P10b各自经配置以对相对应的麦克风信号执行高通滤波操作(例如，截止频率为50Hz、100Hz或200Hz)。阵列R100L可类似地实施。

可能希望阵列R100L和R100R中的每一者将对应的多通道信号产生为数字信号(也就是说，样本序列)。举例来说，阵列R210R包含各自经布置以对相对应的模拟通道进行取样的模/数转换器(ADC)C10a和C10b。声应用的典型取样速率包含8kHz、12kHz、16kHz和在约8kHz到约16kHz的范围中的其它频率，但也可使用高达约44.1kHz、48kHz或192kHz的取样速率。在此特定实例中，阵列R210R还包含各自经配置以对相对应的经数字化通道执行一个或一个以上预处理操作(例如，回音消除、噪声减少和/或谱成形)以产生多通道信号MCS10R的对应通道SR10、SR20的数字预处理级P20a和P20b。阵列R100L可类似地实施。

图9A展示设备A100的实施方案A110的框图，实施方案A110包含方向指示计算器的实例DC10L和DC10R。计算器DL10L计算由左麦克风阵列R100L产生的多通道信号(包含左通道SL10和SL20)的方向指示DI10L，且计算器DL10R计算由右麦克风阵列R100R产生的多通道信号(包含右通道SR10和SR20)的方向指示DI10R。

方向指示DI10L和DI10R中的每一者指示对应多通道信号的声音分量相对于对应阵列的到达方向(DOA)。取决于计算器DC10L和DC10R的特定实施方案，方向指示符可指示相对于内部麦克风的位置、相对于外部麦克风的位置或相对于位于这些位置之间的对应阵列轴线上的另一参考点(例如，麦克风位置之间的中点)的DOA。方向指示的实例包含增益差或比率、到达时间差、相位差以及相位差与频率之间的比率。设备A110还包含增益控制模块GC10，其经配置以根据方向指示DI10L和DI10R的值来控制输入音频信号SI10的增益。

方向指示计算器DC10L和DC10R中的每一者可经配置以将对应多通道信号处理为一系列片段。举例来说，方向指示计算器DC10L和DC10R中的每一者可经配置以计算对应多通道信号的一系列片段中的每一者的方向指示符。典型的片段长度的范围是从约5或10毫秒到约40或50毫秒，且片段可重叠(例如，与邻近片段重叠25%或50%)或不重叠。在一个特定实例中，将多通道信号划分为一系列不重叠的片段或“帧”，每一者具有10毫秒的长度。在另一特定实例中，每一帧具有20毫秒的长度。由DOA估计操作处理的片段也可为由不同音频处理操作处理的较大片段的片段(即，“子帧”)，或反之亦然。

计算器DC10L和DC10R可经配置以执行若干不同DOA估计技术中的任一者或一者以上以产生方向指示。可预期产生具有类似空间分辨率的源DOA的估计的用于DOA估计的技术包含基于增益差的方法和基于相位差的方法。基于交叉相关的方法(例如，计算多通道信号的通道之间的滞后，且使用所述滞后作为到达时间差以确定DOA)也可在一些情况中有用。

如本文描述，方向计算器DC10L和DC10R可经实施以在时域中或在频域中(例如，变换域，例如FFT、DCT或MDCT域)对相对应的多通道信号执行DOA估计。图9B展示设备A110的实施方案A120的框图，实施方案A120包含变换模块的四个实例XM10L、XM20L、XM10R和XM20R，其各自经配置以计算对应通道的频率变换，例如快速傅立叶变换(FFT)或经修改离散余弦变换(MDCT)。设备A120还包含方向指示计算器DC10L和DC10R分别的实施方案DC12L和DC12R，其经配置以接收对应通道且在变换域中对其进行操作。

基于增益差的方法基于信号的增益之间的差来估计DOA，所述增益是基于多通道信号的通道。举例来说，计算器DC10L和DC10R的此类实施方案可经配置以基于多通道信号的不同通道的增益之间的差(例如，量值或能量的差)来估计DOA。多通道信号的片段的增益的量度可在时域中或在频域中(例如，变换域，例如FFT、DCT或MDCT域)计算。此类增益量度的实例包含(不限于)以下各项：总量值(例如，样本值的绝对值的和)、平均量值(例如，每样本)、RMS振幅、中值量值、峰值量值、峰值能量、总能量(例如，样本值的平方和)以及平均能量(例如，每样本)。为了以增益差技术获得准确结果，可能希望相对于彼此校准两个麦克风通道的响应。可能希望对多通道信号应用低通滤波以使得增益量度的计算限于多通道信号的音频频率分量。

方向计算器DC10L和DC10R可经实施以将增益之间的差计算为在对数域(例如，以分贝为单位的值)中每一通道的对应增益量度值之间的差，或等效地计算为在线性域中的增益量度值之间的比率。对于经校准的麦克风对，可采取零的增益差以指示源与每一麦克风是等距的(即，位于所述对的边射方向上)，可采取具有大的正值的增益差以指示源较靠近一个麦克风(即，位于所述对的一个端射方向上)，且可采取具有大的负值的增益差以指示源较靠近另一麦克风(即，位于所述对的另一端射方向上)。

图10A展示其中方向计算器DC10R通过根据片段n的增益差GD[n]与增益差阈值T_L之间的关系的状态选择三个空间扇区(即，端射扇区1、边射扇区2和端射扇区3)当中的一者来估计源相对于麦克风对MR10和MR20的DOA的实例。图10B展示其中方向计算器DC10R通过根据增益差GD[n]与第一增益差阈值T_L1之间的关系的状态以及增益差GD[n]与第二增益差阈值T_L2之间的关系的状态选择五个空间扇区当中的一者来估计源相对于麦克风对MR10和MR20的DOA的实例。

在另一实例中，方向计算器DC10L和DC10R经实施以使用基于增益差的方法来估计源的DOA，所述方法是基于从多通道信号(例如，从多通道信号的音频频率分量)产生的射束之间的增益差。计算器DC10L和DC10R的此类实施方案可经配置以使用一组固定滤波器来产生跨越所要方向范围(例如，以10度增量、30度增量或45度增量的180度)的对应一组射束。在一个实例中，此方法将固定滤波器中的每一者应用于多通道信号且将DOA(例如，对于每一片段)估计为展现最高输出能量的射束的探视方向。

图11A展示方向指示计算器DC10R的此实施方案DC20R的实例的框图，实施方案DC20R包含固定滤波器BF10a、BF10b和BF10n，其经布置以对多通道信号S10进行滤波以产生相应射束B10a、B10b和B10n。计算器DC20R还包含比较器CM10，其经配置以根据具有最大能量的射束产生方向指示DI10R。可用以产生固定滤波器的射束成形方法的实例包含一般化旁瓣消除(GSC)、最小方差失真响应(MVDR)和线性约束最小方差(LCMV)射束成形器。可用以产生固定滤波器的射束产生方法的其它实例包含盲源分离(BSS)方法，例如独立分量分析(ICA)和独立向量分析(IVA)，其通过朝向干扰点源导引空射束来操作。

图12和13分别展示在1500Hz和2300Hz下三个麦克风的阵列(虚线)和四个麦克风的阵列(实线)的射束成形器射束图案的实例。在这些图中，左上方绘图A展示具有约60度的探视方向的射束成形器的图案，中下方绘图B展示具有约90度的探视方向的射束成形器的图案，且右上方绘图C展示具有约120度的探视方向的射束成形器的图案。通过以线性阵列布置的三个或四个麦克风(例如，邻近麦克风之间的间距为约3.5cm)的射束成形可用以获得约10到20度的空间带宽辨别。图10C展示不对称阵列的射束图案的实例。

在又一实例中，方向计算器DC10L和DC10R经实施以使用基于增益差的方法估计源的DOA，所述方法是基于从多通道信号产生(例如，使用如上所述的射束成形或BSS方法)的射束的通道之间的增益差，从而产生多通道输出。举例来说，固定滤波器可经配置以通过将从特定方向或源(例如，探视方向)到达的能量集中到一个输出通道中和/或将从另一方向或源到达的能量集中到一不同输出通道中而产生此射束。在此情况下，基于增益差的方法可经实施以将DOA估计为在其输出通道之间具有最大能量差的射束的探视方向。

图11B展示方向指示计算器DC10R的实施方案DC30R的框图，实施方案DC30R包含固定滤波器BF20a、BF20b和BF20n，其经布置以对多通道信号S10进行滤波以产生相应射束，所述射束具有信号通道B20as、B20bs和B20ns(例如，对应于相应探视方向)和噪声通道B20an、B20bn和B20nn。计算器DC30R还包含：计算器CL20a、CL20b和CL20n，其经布置以针对每一射束计算信噪比(SNR)；以及比较器CM20，其经配置以根据具有最大SNR的射束产生方向指示DI10R。

方向指示计算器DC10L和DC10R还可经实施以通过直接使用BSS解混矩阵W和麦克风间距来获得DOA估计。此技术可包含通过如下方式估计源DOA(例如，针对每一源-麦克风对)：使用经分离源信号的反向投射，使用解混矩阵W的逆(例如，Moore-Penrose伪逆)，之后是对反向投射的数据的单个源DOA估计。此DOA估计方法对麦克风增益响应校准中的误差通常是稳健的。BSS解混矩阵W应用于m个麦克风信号X₁到X_M，且待反向投射的源信号Y_j是选自矩阵W的输出当中。每一源-麦克风对的DOA可使用例如GCC-PHAT或SRP-PHAT等技术根据反向投射信号来计算。最大似然和/或多信号分类(MUSIC)算法也可应用于反向投射信号以用于源定位。图14中说明上文描述的反向投射方法。

替代地，方向计算器DC10L和DC10R可经实施以使用基于相位差的方法估计源的DOA，所述方法是基于多通道信号的不同通道的相位之间的差。此类方法包含基于多通道信号(例如，多通道信号的音频频率分量)的交叉功率谱相位(CPSP)的技术，所述CPSP可通过将交叉功率谱密度向量的每一元素按其量值正规化来计算。此类技术的实例包含一般化交叉相关相位变换(GCC-PHAT)和导向式响应功率相位变换(SRP-PHAT)，其通常以到达时间差的形式产生估计DOA。方向指示计算器DC10L和DC10R的基于相位差的实施方案的一个潜在优点是其对麦克风的增益响应之间的失配通常是稳健的。

其它基于相位差的方法包含针对待检查的多个频率分量中的每一者估计每一通道中的相位。在一个实例中，方向指示计算器DC12L和DC12R经配置以将频率分量的相位估计为所述频率分量的FFT系数的虚数项与所述频率分量的FFT系数的实数项的比率的逆正切(也称为反正切)。可能希望配置此计算器以通过如下方式计算待检查的每一频率分量的相位差从所述频率分量在另一(例如，次要)通道中的估计相位减去所述频率分量在主要通道中的估计相位。在此情况下，主要通道可为预期具有最高信噪比的通道，例如对应于在装置的典型使用期间预期最直接地接收用户的话音的麦克风的通道。

DOA估计方法可能不必考虑信号的整个带宽上的相位差。对于例如宽带范围(例如，0到8000Hz)中的许多频带，相位估计可为不实际的或不必要的。在极低频率下所接收波形的相位关系的实际评价通常需要变换器之间的对应大的间距。因此，麦克风之间的最大可用间距可建立频率下限。另一方面，麦克风之间的距离不应超过最小波长的一半，以便避免空间混叠。例如，8千赫取样速率给出从0到4千赫的带宽。4kHz信号的波长为约8.5厘米，因此在此情况下，邻近麦克风之间的间距不应超过约4厘米。麦克风通道可经低通滤波以便移除可能带来空间混叠的频率。

可能希望在多通道信号的有限音频频率范围(例如，语音信号的预期频率范围)上执行DOA估计。在一个此实例中，方向指示计算器DC12L和DC12R经配置以针对700Hz到2000Hz的频率范围计算相位差，所述频率范围可预期包含用户话音的大多数能量。对于4千赫带宽信号的128点FFT，700到2000Hz的范围大致对应于从第10样本到第32样本的23个频率样本。在另外实例中，此计算器经配置以在从约50、100、200、300或500Hz的下限延伸到约700、1000、1200、1500或2000Hz的上限(这些下限和上限的25种组合中的每一者是明确预期和揭示的)的频率范围上计算相位差。

有话音的语音(例如，元音声音)的能量谱趋向于在音调频率的谐波处具有局部峰值。另一方面，背景噪声的能量谱趋向于相对未经结构化。因此，可预期在音调频率的谐波处的输入通道的分量具有比其它分量高的信噪比(SNR)。可能希望配置方向指示计算器DC12L和DC12R以仅考虑对应于多倍的估计音调频率的相位差。举例来说，可能希望至少25%、50%或75%(可能全部)计算出的相位差对应于多倍的估计音调频率，或为对应于此些分量的方向指示符比其它方向指示符更重地加权。典型音调频率的范围为男性说话者的约70Hz到100Hz到女性说话者的约150Hz到200Hz，且在包含语音编码及/或解码的应用(例如，使用包含音调估计的编解码器的话音通信，所述音调估计例如码激励线性预测(CELP)及原型波形内插(PWI))中，将通常已可获得音调频率的当前估计(例如，呈音调周期或“音调滞后”的估计的形式)。同一原理也可应用于其它所要谐波信号。相反，可能希望配置方向指示计算器DC12L和DC12R以忽略对应于已知干扰源的频率分量，所述干扰源例如声调信号(例如，闹钟、电话铃声和其它电子警报)。

方向指示计算器DC12L和DC12R可经实施以针对多个计算出的相位差中的每一者计算DOA的对应指示。在一个实例中，将每一频率分量的DOAθ_i的指示计算为估计相位差与频率f_i之间的比率r_i(例如，)。替代地，可将DOAθ_i的指示计算为量的逆余弦(也称为反余弦)，其中c表示声速(大约340米/秒)，d表示麦克风之间的距离，表示两个麦克风的对应相位估计之间的弧度差，且f_i为所述相位估计所对应的频率分量(例如，对应的FFT样本的频率，或对应的子带的中心或边缘频率)。替代地，可将到达方向θ_i的指示计算为量的反余弦，其中λ_i表示频率分量f_i的波长。

在另一实例中，方向指示计算器DC12L和DC12R经实施以针对多个计算出的相位差中的每一者将DOA的指示计算为多通道信号的对应频率分量f_i的到达时间延迟τ_i(例如，以秒为单位)。举例来说，此方法可经配置以使用例如或的表达式，参考主要麦克风来估计次要麦克风处的到达时间延迟τ_i。在这些实例中，值τ_i=0指示从边射方向到达的信号，τ_i的大的正值指示从参考端射方向到达的信号，且τ_i的大的负值指示从另一端射方向到达的信号。在计算值τ_i的过程中，可能希望使用被认为适合于特定应用的时间单位，例如取样周期(例如，针对8kHz的取样速率为125微秒的单位)或一秒的分数(例如，10^-3、10^-4、10^-5或10^-6秒)。应注意，还可通过在时域中使每一通道的频率分量f_i交叉相关来计算到达时间延迟τ_i。

方向指示计算器DC12L和DC12R可经实施以通过如下方式执行基于相位差的方法：将一帧(或子带)的DOA指示为对应频率分量的DOA指示符的平均值(例如，均值、中值或模式)。替代地，此类计算器可经实施以通过如下方式来指示一帧(或子带)的DOA：将所要DOA覆盖范围划分为多个区间(例如，针对0到180度的范围的3、4、5、6、7、8、9、10、11或12个区间的固定方案)，且确定值属于每一区间内的对应频率分量的DOA指示符的数目(即，区间群体)。对于其中区间具有不相等带宽的情况，可能希望此计算器通过将每一区间群体按对应带宽进行正规化来计算区间群体值。可将所要源的DOA指示为对应于具有最高群体值的区间的方向，或指示为对应于当前群体值具有最大对比度的区间(例如，按最大相对量值与所述区间的群体值的长期时间平均值不同)的方向。

计算器DC12L和DC12R的类似实施方案使用一组方向性掩蔽函数来将所要的DOA覆盖范围划分为多个空间扇区(例如，针对0到180度的范围的3、4、5、6、7、8、9、10、11或12个扇区)。用于邻近扇区的方向性掩蔽函数可重叠或不重叠，且方向性掩蔽函数的分布可为线性的或非线性的。方向性掩蔽函数可经实施以使得止带与通带之间的一或多个转变的锐度在操作期间根据一个或一个以上因数(例如，信噪比(SNR)、噪声底限等)的值而为可选择的和/或可变的。举例来说，可能希望计算器在SNR较低时使用较窄的通带。

所述扇区可具有彼此相同的角宽度(例如，以度或弧度为单位)，或扇区中的两者或两者以上(可能全部)可具有彼此不同的宽度。图15A展示计算器DC12R的此实施方案的应用的俯视图，其中将一组三个重叠扇区应用于对应于麦克风MR10和MR20的通道对以用于相对于麦克风MR10的位置的基于相位差的DOA指示。图15B展示计算器DC12R的此实施方案的应用的俯视图，其中将一组五个扇区(其中每一扇区处的箭头指示扇区的中心处的DOA)应用于对应于麦克风MR10和MR20的通道对以用于相对于麦克风对MR10、MR20的轴线的中点的基于相位差的DOA指示。

图16A到16D展示方向性掩蔽函数的个别实例，且图17展示不同的两组(线性对弯曲分布)三个方向性掩蔽函数的实例。在这些实例中，每一片段的掩蔽函数的输出是基于正在检查的频率分量的对应相位差的通过值的和。举例来说，计算器DC12L和DC12R的此类实施方案可经配置以通过相对于掩蔽函数的最大可能值将所述和正规化来计算输出。当然，掩蔽函数的响应也可依据时间延迟τ或比率r而非方向θ来表达。

可预期麦克风阵列将接收来自不同方向的不同量的环境噪声。图18展示将如图17所示的一组三个方向性掩蔽函数应用于同一多通道音频信号的结果的量值对时间(以帧为单位)的绘图。可见，各种掩蔽函数对此信号的平均响应显著不同。可能希望配置计算器DC12L和DC12R的使用此类掩蔽函数来将相应检测阈值应用于每一掩蔽函数的输出的实施方案，使得对应于所述扇区的DOA不被选择为片段的DOA的指示，除非掩蔽函数输出高于(替代地，不小于)对应的检测阈值。

将多通道信号的“方向相干性”界定为信号的各种频率分量从同一方向到达的程度。对于理想的方向上相干的通道对，的值针对所有频率均等于常数k，其中k的值与到达方向θ和到达时间延迟τ相关。方向计算器DC12L和DC12R的实施方案可经配置以例如通过针对每一频率分量根据其与特定方向一致的程度(例如，使用方向性掩蔽函数)将所估计的到达方向分级，且随后组合各种频率分量的分级结果以获得信号的相干性量度，来量化多通道信号的方向相干性。因此，由方向计算器DC12L或DC12R的对应实施方案计算的针对空间扇区的掩蔽函数输出也是所述扇区内的多通道信号的方向相干性的量度。方向相干性的量度的计算和应用还在例如第WO2010/048620A1号和第WO2010/144577A1号国际专利公开案(维瑟(Visser)等人)中描述。

可能希望实施方向计算器DC12L和DC12R以将每一扇区的相干性量度产生为经时间平滑的值。在一个此类实例中，方向计算器经配置以将相干性量度产生为在最近m个帧上的平均值，其中m的可能值包含4、5、8、10、16和20。在另一此类实例中，方向计算器经配置以根据例如z(n)=βz(n-1)+(1-β)c(n)(也称为一阶IIR或递归滤波器)等表达式来计算帧n的经平滑相干性量度z(n)，其中z(n-1)表示前一帧的经平滑相干性量度，c(n)表示相干性量度的当前未经平滑值，且β是平滑因数，其值可选自从0(无平滑)到1(无更新)的范围。平滑因数β的典型值包含0.1、0.2、0.25、0.3、0.4和0.5。方向计算器DC12L和DC12R的此类实施方案使用相同的β值来平滑对应于不同扇区的相干性量度是典型的，但不是必要的。

相干性量度的对比度可表达为相干性量度的当前值与相干性量度随时间的平均值(例如，在最近10、20、50或100个帧上的均值、模式或中值)之间的关系(例如，差或比率)的值。方向计算器DC12L和DC12R的实施方案可经配置以使用时间平滑函数(例如，泄漏积分器)或根据例如v(n)=αv(n-1)+(1-α)c(n)等表达式来计算每一扇区的相干性量度的平均值，其中v(n)表示当前帧的平均值，v(n-1)表示前一帧的平均值，c(n)表示相干性量度的当前值，且α是平滑因数，其值可选自从0(无平滑)到1(无更新)的范围。平滑因数α的典型值包含0.01、0.02、0.05和0.1。

方向计算器DC12L和DC12R的实施方案可经配置以使用基于扇区的DOA估计方法来将信号的DOA估计为与相干性量度最大的扇区相关联的DOA。替代地，此方向计算器可经配置以将信号的DOA估计为与相干性量度当前具有最大对比度的扇区(例如，具有按最大相对量值与所述扇区的相干性量度的长期时间平均值不同的当前值)相关联的DOA。基于相位差的DOA估计的额外描述可参见例如第2011/0038489号美国专利申请公开案(2011年2月17日公开)和第13/029,582号美国专利申请案(2011年2月17日申请)。

对于基于增益差的方法和基于相位差的方法，可能希望实施方向计算器DC10L和DC10R以执行在多通道信号的有限音频频率范围上的DOA指示。举例来说，可能希望此方向计算器执行中频范围(例如，从100、200、300或500到800、100、1200、1500或2000Hz)上的DOA估计以避免由于低频中的混响和/或高频中的所要信号的衰减所带来的问题。

相对于麦克风对的DOA指示符通常在符号方面是不明确的。举例来说，对于位于麦克风对的前方的源以及对于位于麦克风对的后方的源来说，到达时间延迟或相位差将是相同的。图19展示麦克风对MR10、MR20的典型使用情况的实例，其中端射扇区1和3的圆锥形围绕阵列轴线是对称的，且其中扇区2占据这些圆锥形之间的空间。因此，对于其中麦克风为全向的情况，对应于指定方向范围的拾取圆锥形相对于麦克风对的前方和后方来说可能是不明确的。

方向指示计算器DC10L和DC10R中的每一者还可经配置以如本文所述针对多通道信号的一系列帧中的每一者的多个频率分量(例如，子带或频率区间)中的每一者产生方向指示。在一个实例中，设备A100经配置以针对帧的若干频率分量(例如，子带或FFT区间)中的每一者计算增益差。设备A100的此类实施方案可经配置以在变换域中操作或包含子带滤波器组以在时域中产生输入通道的子带。

还可能希望配置设备A100以在噪声减少模式中操作。在此模式中，输入信号SI10是基于麦克风通道SL10、SL20、SR10和SR20中的至少一者和/或基于由经安置以接收用户的话音的另一麦克风产生的信号。可应用此操作以辨别远场噪声且集中于来自用户的嘴的近场信号。

对于在噪声减少模式中的操作，输入信号SI10可包含由另一麦克风MC10产生的信号，MC10较靠近用户的嘴定位和/或较直接地接收用户的话音(例如，吊杆安装式或绳安装式麦克风)。麦克风MC10布置于设备A100内以使得在设备A100的使用期间，来自麦克风信号MC30的信号中用户的话音的SNR大于麦克风通道SL10、SL20、SR10和SR20中的任一者中用户的话音的SNR。替代地或另外，话音麦克风MC10可在使用期间经布置以较直接地朝向用户话音的中心出口点定向、较靠近所述中心出口点和/或位于较靠近所述中心出口点的冠状面中(与噪声参考麦克风ML10和MR10中的任一者相比)。

图25A展示安装在头与躯干模拟器或“HATS”(Bruel and Kjaer，DK)上的系统S100的实施方案的正视图。图25B展示HATS的左侧视图。用户话音的中心出口点在图25A和25B中由十字准线指示且经界定为用户头部的中间矢状面中的位置，在所述位置处，用户的上唇和下唇的外表面在说话期间会合。中间冠状面与中心出口点之间的距离通常在从7、8或9到10、11、12、13或14厘米的范围内(例如，80到130mm)。(此处假定点与平面之间的距离是沿着与平面垂直的线所测量。)在设备A100的使用期间，话音麦克风MC10通常位于中心出口点的三十厘米以内。

在设备A100的使用期间话音麦克风MC10的位置的若干不同实例在图25A中由标记的圆展示。在位置A中，话音麦克风MC10安装于帽子或头盔的帽沿中。在位置B中，话音麦克风MC10安装于一副眼镜、护目镜、安全眼镜或其它眼饰物的中间桥中。在位置CL或CR中，话音麦克风MC10安装于一副眼镜、护目镜、安全眼镜或其它眼饰物的左边撑或右边撑中。在位置DL或DR中，话音麦克风MC10安装于包含麦克风ML10和MR10中的对应一者的头戴式耳机外壳的前向部分中。在位置EL或ER中，话音麦克风MC10安装于从佩戴于用户耳朵上的钩朝向用户的嘴延伸的吊杆上。在位置FL、FR、GL或GR中，话音麦克风MC10安装于将话音麦克风MC10以及噪声参考麦克风ML10和MR10中的对应一者电连接到通信装置的绳上。

图25B的侧视图说明所有位置A、B、CL、DL、EL、FL和GL均处于比麦克风ML20(例如，如相对于位置FL所说明)更靠近中心出口点的冠状面(即，平行于中间冠状面的平面，如图示)中。图26A的侧视图展示在这些位置中的每一者处麦克风MC10的实例的定向的实例，且说明在位置A、B、DL、EL、FL和GL处的实例中的每一者比麦克风ML10(与图的平面垂直而定向)更直接地朝向中心出口点定向。

图24B到24C和26B到26D展示在如本文描述的系统S100的实施方案内可使用的麦克风MC10的放置的额外实例。图24B展示眼镜(例如，处方眼镜、太阳镜或安全眼镜)，其具有安装于边撑或对应端片上的话音麦克风MC10。图24C展示头盔，其中话音麦克风MC10安装于用户的嘴处，且噪声参考对ML10、MR10中的每一麦克风安装于用户的头的对应侧处。图26B到26D展示护目镜(例如，滑雪护目镜)的实例，其中这些实例中的每一者展示话音麦克风MC10的不同对应位置。在如本文描述的系统S100的实施方案的使用期间话音麦克风MC10的放置的额外实例包含(但不限于)以下各者：帽子或礼帽的帽檐或边沿；翻领、胸袋或肩部。

图20A到20C展示说明在噪声减少模式中设备A100的操作的一个实例的俯视图。在这些实例中，麦克风ML10、ML20、MR10和MR20中的每一者具有单向(例如，心形线)的响应且朝向用户的前方方向定向。在此模式中，增益控制模块GC10经配置以在方向指示DI10L指示帧的DOA在前向拾取圆锥形LN10内且方向指示DI10R指示帧的DOA在前向拾取圆锥形RN10内的情况下传递输入信号SI10。在此情况下，假定源位于这些圆锥形的相交点I10处，使得话音活动得到指示。否则，如果方向指示DI10L指示帧的DOA不在圆锥形LN10内或方向指示DI10R指示帧的DOA不在圆锥形RN10内，那么假定源在相交点I10之外(例如，指示没有话音活动)，且在此情况下增益控制模块GC10经配置以衰减输入信号SI10。图21A到21C展示说明类似实例的俯视图，其中方向指示DI10L和DI10R指示源是否位于端射拾取圆锥形LN12和RN12的相交点I12。

对于噪声减少模式中的操作，可能希望配置拾取圆锥形以使得设备A100可区别用户的话音与来自位于距用户话音的中心出口点至少阈值距离(例如，至少25、30、50、75或100厘米)处的源的声音。举例来说，可能希望选择拾取圆锥形以使得其相交点沿着中间矢状面的延伸不会比距用户话音的中心出口点的阈值距离远。

图22A到22C展示说明类似实例的俯视图，其中麦克风ML10、ML20、MR10和MR20中的每一者具有全向的响应。在此实例中，增益控制模块GC10经配置以在方向指示DI10L指示帧的DOA在前向拾取圆锥形LN10或后向拾取圆锥形LN20内且方向指示DI10R指示帧的DOA在前向拾取圆锥形RN10或后向拾取圆锥形RN20内的情况下传递输入信号SI10。在此情况下，假定源位于这些圆锥形的相交点I20处，使得话音活动得到指示。否则，如果方向指示DI10L指示帧的DOA不在圆锥形LN10和LN20中的任一者内或方向指示DI10R指示帧的DOA不在圆锥形RN10和RN20中的任一者内，那么假定源在相交点I20之外(例如，指示没有话音活动)，且在此情况下增益控制模块GC10经配置以衰减输入信号SI10。图23A到23C展示说明类似实例的俯视图，其中方向指示DI10L和DI10R指示源是否位于端射拾取圆锥形LN15和RN15的相交点I15。

如上文论述，方向指示计算器DC10L和DC10R中的每一者可经实施以识别包含到达方向的空间扇区(例如，如本文参考图10A、10B、15A、15B和19描述)。在此类情况下，计算器DC10L和DC10R中的每一者可经实施以通过将扇区指示映射到指示扇区是否在对应拾取圆锥形内的值(例如，0或1的值)来产生对应的方向指示。对于例如图10B所示的方案，方向指示计算器DC10R可经实施以通过将扇区5的指示映射到方向指示DI10R的1的值且将任一其它扇区的指示映射到方向指示DI10R的0的值来产生方向指示DI10R。

替代地，如上文论述，方向指示计算器DC10L和DC10R中的每一者可经实施以计算指示估计的到达方向的值(例如，相对于麦克风轴线的角度、到达时间差，或相位差与频率的比率)。在此类情况下，计算机DC10L和DC10R中的每一者可经实施以通过对所计算的DOA值应用到对应方向指示DI10L或DI10R的值(例如，0或1的值)的相应映射来产生对应的方向指示，所述对应方向指示DI10L或DI10R的值指示对应DOA是否在对应拾取圆锥形内。此映射可例如实施为一个或一个以上阈值(例如，将指示小于阈值的DOA的值映射到方向指示1，且将指示大于阈值的DOA的值映射到方向指示1，或反之亦然)。

可能希望实施对由增益控制元件GC10所计算的增益因数实施延滞或其它时间平滑操作(例如，以避免针对靠近相交点边界的源的输出信号SO10中的抖动)。举例来说，增益控制元件GC10可经配置以不改变增益因数的状态，直到对于阈值数目(例如，5、10或20)的连续帧已指示新状态为止。

增益控制模块GC10可经实施以根据方向指示是否指示源在由拾取圆锥形界定的相交点内来执行对输入信号SI10的二进制控制(即，门控)以产生输出信号SO10。在此情况下，增益因数可视为话音活动检测信号，其致使增益控制元件GC10相应地传递或衰减输入信号SI10。替代地，增益控制模块GC10可经实施以通过将具有两个以上可能值的增益因数应用于输入信号SI10来产生输出信号SO10。举例来说，计算器DC10L和DC10R可经配置以根据扇区号到拾取圆锥形的映射来产生方向指示DI10L和DI10R，所述映射在扇区在拾取圆锥形内的情况下指示第一值(例如，1)，在扇区在拾取圆锥形之外的情况下指示第二值(例如，0)，且在扇区部分地在拾取圆锥形内(例如，图10B中的扇区4)的情况下指示第三中间值(例如，1/2)。估计的DOA值到拾取圆锥形的映射可类似地实施，且将了解，此映射可经实施以具有任意数目的中间值。在这些情况下，增益控制模块GC10可经实施以通过组合(例如，相加或相乘)方向指示来计算增益因数。增益因数值的可允许范围可以线性项(例如，从0到1)表达或以对数项(例如，从-20到0dB)表达。对于非二进制值情况，对增益因数的时间平滑操作可例如实施为有限或无限脉冲响应(FIR或IIR)滤波器。

如上所述，方向指示计算器DC10L和DC10R中的每一者可经实施以针对一帧的每一子带产生对应方向指示。在此类情况下，增益控制模块GC10可经实施以组合来自每一方向指示计算器的子带级方向指示，以获得对应的帧级方向指示(例如，作为来自所述方向计算器的子带方向指示的和、平均值或加权平均值)。替代地，增益控制模块GC10可经实施以执行如本文描述的组合的多个实例以针对每一子带产生对应的增益因数。在此情况下，增益控制元件GC10可经类似地实施以组合(例如，相加或相乘)子带级源位置决定以获得对应的帧级增益因数值，或将每一子带级源位置决定映射到对应的子带级增益因数值。增益控制元件GC10可经配置以在时域中(例如，使用子带滤波器组)或在频域中将增益因数应用于输入信号SI10的对应子带。

可能希望对来自输出信号SO10的音频频率信息进行编码(例如，用于经由无线通信链路进行传输)。图24A展示包含分析模块AM10的设备A110的实施方案A130的框图。分析模块AM10经配置以对输出信号SO10(或基于SO10的音频信号)执行线性预测译码(LPC)分析操作，以产生描述帧的谱包络的一组LPC滤波器系数。设备A130在此情况下可经配置以将音频频率信息编码为与本文提到的各种编解码器(例如，EVRC、SMV、AMR-WB)中的一者或一者以上顺应的帧。设备A120可类似地实施。

可能希望实施设备A100以包含对输出信号SO10的后处理(例如，用于噪声减少)。图27展示设备A120的实施方案A140的框图，其经配置以产生经后处理的输出信号S P10(未图示变换模块XM10L、20L、10R、20R和用以将输入信号SI10转换到变换域中的对应模块)。设备A140包含增益控制元件GC10的第二实例GC10，其经配置以应用方向指示以通过如下方式产生噪声估计NE10：阻挡从拾取圆锥形相交点内到达的通道SR20(和/或通道SL20)的帧，且传递从拾取圆锥形相交点之外的方向到达的帧。设备A140还包含后处理模块PP10，其经配置以基于来自噪声估计NE10的信息对输出信号SO10执行后处理(例如，所要语音信号的估计)以产生经后处理的输出信号SP10。此后处理可包含对输出信号SO10的维纳滤波或噪声估计NE10从输出信号SO10的谱减法。如图27所示，设备A140可经配置以在频域中执行后处理操作，且经由反变换模块IM10将所得信号转换到时域以获得经后处理的输出信号S P10。

除了如上所述的噪声减少模式外或替代于如上所述的噪声减少模式，设备A100可经实施以在助听器模式中操作。在助听器模式中，系统S100可用以通过抑制近场区(可包含来自用户的嘴的信号和干扰声音信号)同时聚焦于远场方向来执行反馈控制和远场射束成形。助听器模式可使用单向和/或全向麦克风来实施。

对于助听器模式中的操作，系统S100可经实施以包含一个或一个以上扬声器LS10，其经配置以在用户的一只或两只耳朵处再生输出信号SO10。系统S100可经实施以使得设备A100经由电线或其它导电路径耦合到一个或一个以上此类扬声器LS10。替代地或另外，系统S100可经实施以使得设备A100无线地耦合到一个或一个以上此类扬声器LS10。

图28展示用于助听器模式操作的设备A110的实施方案A210的框图。在此模式中，增益控制模块GC10经配置以衰减从拾取圆锥形相交点到达的通道SR20(和/或通道SL20)的帧。设备A210还包含音频输出级AO10，其经配置以驱动扬声器LS10以产生基于输出信号SO10的声信号，所述扬声器LS10可佩戴于用户的耳朵上且指向用户的对应耳膜。

图29A到29C展示说明在助听器模式中设备A210的实施方案的操作原理的俯视图。在这些实例中，麦克风ML10、ML20、MR10和MR20中的每一者是单向的且朝向用户的前方方向定向。在此实施方案中，方向计算器DC10L经配置以指示由阵列R100L接收的信号的声音分量的DOA是否落在第一指定范围内(图29A中指示为拾取圆锥形LF10的空间区域)，且方向计算器DC10R经配置以指示由阵列R100R接收的信号的声音分量的DOA是否落在第二指定范围内(图29B中指示为拾取圆锥形RF10的空间区域)。

在一个实例中，增益控制元件GC10经配置以传递从拾取圆锥形LF10和RF10中的任一者内的方向接收的声信息作为输出信号OS10(例如，“或”情况)。在另一实例中，增益控制元件GC10经配置以仅在方向指示符DI10L指示拾取圆锥形LF10内的到达方向且方向指示符DI10R指示拾取圆锥形RF10内的到达方向(例如，“与”情况)的情况下传递由麦克风中的至少一者接收的声信息作为输出信号OS10。

图30A到30C展示针对其中麦克风为全向的类似情况说明在助听器模式中的系统的操作原理的俯视图。系统也可经配置以允许用户在助听器模式中在不同的探视方向当中手动选择，同时维持对来自用户的嘴的近场信号的抑制。举例来说，图31A到31C展示说明在全向麦克风的情况下在助听器模式中的系统的操作原理的俯视图，其中使用侧向探视方向代替图30A到30C所示的前后方向。

对于助听器模式，设备A100可经配置以用于对每一麦克风阵列的独立操作。举例来说，设备A100在助听器模式中的操作可经配置以使得从向外端射方向的信号选择在每一侧上是独立的。替代地，设备A100在助听器模式中的操作可经配置以衰减分布的噪声(例如，通过阻挡在两个多通道信号中发现的声音分量和/或传递存在于多通道信号中的仅一者的选定方向范围内的方向性声音分量)。

图32展示其中设备A100的实施方案放置在头与躯干模拟器(HATS)上的测试布置的实例，所述HATS从嘴扬声器输出近场模拟语音信号同时围绕的扬声器输出干扰远场信号。图33展示在助听器模式中的此测试的结果。由麦克风中的至少一者记录的信号与经处理信号(即，输出信号OS10)的比较展示从所要方向到达的远场信号已被保留，而来自其它方向的近场信号和远场信号已被抑制。

可能希望实施系统S100以组合设备A100的助听器模式实施方案与经再生音频信号(例如远端通信信号)或其它经压缩音频或视听信息的重放，所述经压缩音频或视听信息例如根据标准压缩格式(例如，动画专家组(MPEG)-1音频层3(MP3)、MPEG-4部分14(MP4)、Windows媒体音频/视频的版本(WMA/WMV)(华盛顿雷蒙德市微软公司)、高级音频译码(AAC)、国际电信联盟(ITU)-T H.264或类似格式)编码的文件或流。图34展示包含音频输出级AO10的实施方案AO20的设备A210的实施方案A220的框图，音频输出级AO10经配置以混合输出信号SO10与此经再生音频信号RAS10且用混合信号来驱动扬声器LS10。

可能希望实施系统S100以如本文所述在噪声减少模式和助听器模式中的任一者或两者中支持设备A100的操作。图35展示设备A110和A210的此实施方案A300的框图。设备A300包含：增益控制模块GC10的第一实例GC10a，其经配置以在噪声减少模式中对第一输入信号SI10a操作以产生第一输出信号SO10a；和增益控制模块GC10的第二实例GC10b，其经配置以在助听器模式中对第二输入信号SI10b操作以产生第二输出信号SO10b。设备A300还可经实施以包含如本文所述的设备A120、A130和/或A140的特征，和/或设备A220的特征。

图36A展示根据一般配置的包含任务V100和V200的方法N100的流程图。任务V100测量由第一麦克风对接收的信号的通道之间的至少一个相位差和由第二麦克风对接收的信号的通道之间的至少一个相位差。任务V200通过在相位差不满足所要圆锥形相交关系的情况下衰减所接收的信号且否则传递所接收的信号来执行噪声减少模式。

图36B展示根据一般配置的包含任务V100和V300的方法N200的流程图。任务V300通过在相位差满足所要圆锥形相交关系的情况下衰减所接收的信号、在任一相位差满足远场定义的情况下传递所接收的信号且否则衰减所接收的信号来执行助听器模式。

图37展示根据一般配置的包含任务V100、V200和V300的方法N300的流程图。在此情况下，任务V200和V300中的一者是根据例如用户选择或装置的操作模式(例如，用户是否当前进行电话呼叫)来执行的。

图38A展示根据一般配置的包含任务T100、T200和T300的方法M100的流程图。任务T100计算由第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一指示(例如，如本文参考方向指示计算器DC10L所述)。任务T200计算由第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二指示(例如，如本文参考方向指示计算器DC10R所述)。任务T300基于第一和第二方向指示而控制音频信号的增益以产生输出信号(例如，如本文参考增益控制元件GC10所述)。

图38B展示根据一般配置的设备MF100的框图。设备MF100包含用于计算由第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一指示的装置F100(例如，如本文参考方向指示计算器DC10L所述)。设备MF100还包含用于计算由第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二指示的装置F200(例如，如本文参考方向指示计算器DC10R所述)。设备MF100还包含用于基于第一和第二方向指示而控制音频信号的增益以产生输出信号的装置F300(例如，如本文参考增益控制元件GC10所述)。

图39展示可实施为系统S100的通信装置D10的框图。替代地，装置D10(例如，蜂窝式电话手持机、智能电话或者膝上型或平板计算机)可实施为系统S100的部分，其中麦克风和扬声器位于不同装置中，例如一对头戴受话器。装置D10包含芯片或芯片组CS10(例如，移动台调制解调器(MSM)芯片组)，其包含设备A100。芯片/芯片组CS10可包含可经配置为设备A100的软件和/或固件部分(例如，作为指令)的一个或一个以上处理器。芯片/芯片组CS10还可包含阵列R100L和R100R的处理元件(例如，音频预处理级AP10的元件)。芯片/芯片组CS10包含：接收器，其经配置以接收射频(RF)通信信号，且解码和再生编码于所述RF信号内的音频信号；以及发射器，其经配置以对基于由设备A100产生的经处理信号(例如，输出信号SO10)的音频信号进行编码，且发射描述所述经编码音频信号的RF通信信号。

此装置可经配置以经由一种或一种以上编码和解码方案(也被称为“编解码器”)无线地发射和接收话音通信数据。这些编解码器的实例包含：如2007年2月的题目为“增强型可变速率编解码器，用于宽带展频数字系统的语音服务选项3、68和70(EnhancedVariable Rate Codec,Speech Service Options3,68,and70for Wideband Spread SpectrumDigital Systems)”的第三代合作伙伴计划2(3GPP2)文档C.S0014-C(v1.0)(在www-dot-3gpp-dot-org处在线可得)中所描述的增强型可变速率编解码器；如2004年1月的题目为“用于宽带展频通信系统的可选模式声码器(SMV)服务选项(Selectable ModeVocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文档C.S0030-0(v3.0)(在www-dot-3gpp-dot-org处在线可得)中所描述的可选模式声码器语音编解码器；如文档ETSI TS126092V6.0.0(欧洲电信标准协会(ETSI)，法国索菲亚安提波利斯企业特投(SophiaAntipolis Cedex,FR)，2004年12月)中所描述的自适应多速率(AMR)语音编解码器；和如文档ETSI TS126192V6.0.0(ETSI，2004年12月)中所描述的AMR宽带语音编解码器。举例来说，芯片或芯片组CS10可经配置以产生经编码音频信号以与一个或一个以上此类编解码器顺应。

装置D10经配置以经由天线C30接收和发射RF通信信号。装置D10在到天线C30的路径中还可包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中，装置D10还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如，Bluetooth^TM)头戴式耳机等外部装置的短程通信。在另一实例中，此通信装置自身为蓝牙头戴式耳机且无小键盘C10、显示器C20和天线C30。

本文中所揭示的方法和设备通常可应用于任何收发和/或音频感测应用(尤其是此些应用的移动或其它便携式实例)中。举例来说，本文中所揭示的配置的范围包含驻留于经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将理解，具有如本文中所描述的特征的方法和设备可驻留于采用所属领域的技术人员已知的广泛范围的技术的各种通信系统中的任一者中，例如经由有线和/或无线(例如，CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道采用IP话音(VoIP)的系统。

明确地预期且特此揭示，本文中所揭示的通信装置可适于在包交换式网络(例如，经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换式网络中使用。还明确地预期且特此揭示，本文中所揭示的通信装置可适于在窄带译码系统(例如，编码约4千赫或5千赫的音频频率范围的系统)中使用和/或在宽带译码系统(例如，编码大于5千赫的音频频率的系统)中使用，所述系统包含全带宽带译码系统和分带宽带译码系统。

提供对所描述配置的呈现以使得所属领域的技术人员能够制作或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、框图和其它结构仅为实例，且这些结构的其它变型也属于本发明的范围内。对这些配置的各种修改是可能的，且本文中所呈现的一般原理还可应用于其它配置。因此，本发明不希望限于上文所展示的配置，而是应被赋予与本文中以任何方式(包含在所申请的附加权利要求书中)揭示的原理和新颖特征一致的最广范围，所述权利要求书形成原始揭示内容的一部分。

所属领域的技术人员将理解，可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示可在以上描述全篇中引用的数据、指令、命令、信息、信号、位和符号。

对于如本文中所揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂性(通常以百万指令/秒或MIPS为单位来测量)减到最小，尤其是对于计算密集型应用，例如经压缩音频或视听信息(例如，根据压缩格式编码的文件或流，例如本文识别的实例中的一者)的重放，或用于宽带通信的应用(例如，在高于8千赫的取样速率(例如，12kHz、16kHz、44.1kHz、48kHz或192kHz)下的话音通信)。

如本文中所描述的多麦克风处理系统的目标可包含：实现10dB到12dB的总噪声减少；在所需说话者移动期间保持话音水平和色彩；获得噪声已被移到背景中的感知而不是激进的噪声移除；语音的去混响；和/或启用后处理的选项以获得较激进的噪声减少。

如本文中所揭示的设备(例如，设备A100、A110、A120、A130、A140、A210、A220、A300和MF100)可实施于被认为适合于既定应用的硬件与软件和/或固件的任何组合中。举例来说，此设备的元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或逻辑门)阵列，且这些元件中的任一者可被实施为一个或一个以上此阵列。这些元件中的任何两者或两者以上或甚至全部可被实施于相同的一个或多个阵列内。所述一个或多个阵列可被实施于一个或一个以上芯片内(例如，实施于包含两个或两个以上芯片的芯片组内)。

本文中所揭示的设备的各种实施方案(例如，设备A100、A110、A120、A130、A140、A210、A220、A300和MF100)的一个或一个以上元件可整体地或部分地实施为一个或一个以上指令集，所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))上执行。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如，包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器，也被称为“处理器”)，且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此类一个或多个计算机内。

可将如本文中所揭示的处理器或其它处理装置制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的一个或一个以上电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或逻辑门)阵列，且这些元件中的任一者可被实施为一个或一个以上此阵列。所述一个或多个阵列可被实施于一个或一个以上芯片内(例如，实施于包含两个或两个以上芯片的芯片组内)。这些阵列的实例包含固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC)。如本文中所揭示的处理器或其它处理装置还可体现为一个或一个以上计算机(例如，包含经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文中所描述的处理器来执行并非与方法M100的实施方案的程序直接相关的任务或执行并非与方法M100的实施方案的程序直接相关的其它指令集，例如与嵌入有所述处理器的装置或系统(例如，音频感测装置)的另一操作相关的任务。还有可能由音频感测装置的处理器执行如本文中所揭示的方法的一部分且在一个或一个以上其它处理器的控制下执行所述方法的另一部分。

所属领域的技术人员将了解，可将结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路以及测试和其它操作实施为电子硬件、计算机软件或两者的组合。这些模块、逻辑块、电路和操作可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行。举例来说，此配置可至少部分地实施为硬连线电路、实施为制造于专用集成电路中的电路配置，或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序，所述代码是可由逻辑元件阵列(例如，通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中，例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式盘或CD-ROM或者此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器，使得所述处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中，处理器和存储媒体可作为离散组件而驻留于用户终端中。

应注意，本文中所揭示的各种方法(例如，方法N100、N200、N300和M100，以及参考本文描述的各种设备的操作揭示的其它方法)可由例如处理器等逻辑元件阵列来执行，且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用，术语“模块”或“子模块”可指代包含呈软件、硬件或固件形式的计算机指令(例如，逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解，多个模块或系统可组合成一个模块或系统，且一个模块或系统可分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时，过程的元素基本上是用以执行相关任务的代码段，例如例程、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包含源代码、汇编语言代码、机器码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列以及此些实例的任何组合。程序或代码段可存储于处理器可读媒体中，或可经由传输媒体或通信链路通过体现于载波中的计算机数据信号来传输。

本文中所揭示的方法、方案和技术的实施方案也可有形地体现(例如，在如本文中所列出的一个或一个以上计算机可读存储媒体的有形的计算机可读特征中)为可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体，包含易失性、非易失性、可装卸式和非可装卸式存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用以存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路或可用以载运所要信息且可被存取的任何其它媒体。计算机数据信号可包含可经由例如电子网络通道、光纤、空气、电磁、RF链路等传输媒体传播的任何信号。可经由例如因特网或企业内部网络等计算机网络来下载代码段。在任何情况下，本发明的范围不应被解释为受这些实施例限制。

本文中所描述的方法的任务中的每一者可直接体现于硬件中、由处理器执行的软件模块中或所述两者的组合中。在如本文中所揭示的方法的实施方案的典型应用中，逻辑元件(例如，逻辑门)阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。任务中的一者或一者以上(可能为全部)还可被实施为体现于计算机程序产品(例如，一个或一个以上数据存储媒体，例如磁盘、快闪存储器卡或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如，一个或一个以上指令集)，所述代码可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器(例如，计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵列或机器执行。在这些或其它实施方案中，可在用于无线通信的装置(例如，蜂窝式电话)或具有此通信能力的其它装置内执行任务。此装置可经配置以与电路交换式网络和/或包交换式网络通信(例如，使用例如VoIP等一个或一个以上协议)。举例来说，此装置可包含经配置以接收和/或发射经编码的帧的RF电路。

明确地揭示，本文中所揭示的各种方法可由便携式通信装置(例如，手持机、头戴式耳机、智能电话或平板计算机)执行，且本文中所描述的各种设备可包含于此装置内。典型的实时(例如，在线)应用为使用此移动装置进行的电话对话。

在一个或一个以上示范性实施例中，本文中所描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件实施，那么此些操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体来传输。术语“计算机可读媒体”包含计算机可读存储媒体与通信(例如，传输)媒体两者。借助于实例而非限制，计算机可读存储媒体可包括存储元件阵列，例如半导体存储器(其可包含但不限于动态或静态RAM、ROM、EEPROM和/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁性存储装置。此些存储媒体可存储呈可由计算机存取的指令或数据结构的形式的信息。通信媒体可包括可用以载运呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何媒体，包含促进将计算机程序从一处传送到另一处的任何媒体。而且，将任何连接恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源传输软件，那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含于媒体的定义中。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和Blu-ray Disc^TM(加利福尼亚州环球城蓝光光盘协会(Blu-Ray DiscAssociation,Universal City,CA))，其中磁盘通常以磁性方式再生数据，而光盘通过激光以光学方式再生数据。上述各者的组合也应包含在计算机可读媒体的范围内。

如本文中所描述的声信号处理设备可并入到电子装置中，所述电子装置接受语音输入以便控制某些操作，或可另外受益于所需噪声与背景噪声的分离。许多应用可受益于增强清楚的所需声音或分离清楚的所需声音与来源于多个方向的背景声音。这些应用可包含并入有例如话音辨识和检测、语音增强和分离、话音启动的控制及其类似者等能力的电子或计算装置中的人机接口。可能需要实施此声信号处理设备以适合于仅提供有限处理能力的装置中。

可将本文中所描述的模块、元件和装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片当中的电子装置和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如晶体管或门)阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可完全或部分地实施为一个或一个以上指令集，所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行。

有可能使用如本文中所描述的设备的实施方案的一个或一个以上元件来执行并非与所述设备的操作直接相关的任务或执行并非与所述设备的操作直接相关的其它指令集，例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能的是此设备的实施方案的一个或一个以上元件具有共同的结构(例如，用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集，或在不同时间执行不同元件的操作的电子装置和/或光学装置的布置)。

Claims

1.一种音频信号处理的方法，所述方法包括：

计算由第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一方向指示；

计算由与所述第一对分离的第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二方向指示；

使用所述第一和第二方向指示来控制音频信号的增益以产生输出信号，其中所述控制所述增益包括确定所述第一方向指示和所述第二方向指示两者指示与用户的头的中间矢状面相交的到达方向，

其中所述第一对的麦克风位于所述中间矢状面的第一侧，且

其中所述第二对的麦克风位于所述中间矢状面的与所述第一侧相对的第二侧。

2.根据权利要求1所述的音频信号处理的方法，其中所述音频信号包含来自由所述第一和第二对当中的至少一个麦克风产生的信号的音频频率能量。

3.根据权利要求1所述的音频信号处理的方法，其中所述音频信号包含来自由话音麦克风产生的信号的音频频率能量，且

其中所述话音麦克风位于所述用户的头的冠状面中，所述冠状面比所述第一和第二麦克风对中的每一对的至少一个麦克风更靠近所述用户的话音的中心出口点。

4.根据权利要求1所述的音频信号处理的方法，其中所述方法包括基于所述输出信号的音频频率能量而计算多个线性预测译码滤波器系数。

5.根据权利要求1所述的音频信号处理的方法，其中所述计算所述第一方向指示包含针对基于由所述第一对麦克风产生的信号的多通道信号的多个不同频率分量当中的每一者计算所述多通道信号的第一通道中的频率分量的相位与所述多通道信号的第二通道中的频率分量的相位之间的差。

6.根据权利要求1所述的音频信号处理的方法，其中所述第一对的所述麦克风的位置是沿着第一轴线，且

其中所述第二对的所述麦克风的位置是沿着第二轴线，且

其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过45度。

7.根据权利要求6所述的音频信号处理的方法，其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过30度。

8.根据权利要求6所述的音频信号处理的方法，其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过20度。

9.根据权利要求1到8中任一权利要求所述的音频信号处理的方法，其中所述控制所述增益包括除非所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的到达方向，否则衰减所述音频信号。

10.根据权利要求1到8中任一权利要求所述的音频信号处理的方法，其中所述控制所述增益包括响应于所述第一和第二方向指示当中的至少一者指示远离所述中间矢状面的对应到达方向而衰减所述音频信号。

11.根据权利要求10所述的音频信号处理的方法，其中所述方法包括响应于所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的对应到达方向而衰减第二音频信号，且

其中所述第二音频信号包含来自由所述第一和第二对当中的至少一个麦克风产生的信号的音频频率能量。

12.根据权利要求1到8中任一权利要求所述的音频信号处理的方法，其中所述控制所述增益包括响应于所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的对应到达方向而衰减所述音频信号。

13.根据权利要求12所述的音频信号处理的方法，其中所述方法包括：

将基于所述输出信号的信号与经再生音频信号进行混合以产生经混合信号，以及

驱动佩戴于所述用户的耳朵上且指向所述用户的对应鼓膜的扬声器以产生基于所述经混合信号的声信号。

14.根据权利要求1到8中任一权利要求所述的音频信号处理的方法，其中所述方法包含驱动佩戴于所述用户的耳朵上且指向所述用户的对应鼓膜的扬声器以产生基于所述输出信号的声信号。

15.根据权利要求1到8中任一权利要求所述的音频信号处理的方法，其中所述第一对与所述第二对分离至少10厘米。

16.一种用于音频信号处理的设备，所述设备包括：

用于计算由第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一方向指示的装置；

用于计算由与所述第一对分离的第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二方向指示的装置；以及

用于使用所述第一和第二方向指示来控制音频信号的增益以产生输出信号的装置，其中所述用于控制所述增益的装置经配置以确定是否所述第一方向指示和所述第二方向指示两者均指示与用户的头的中间矢状面相交的到达方向，

其中所述第一对的麦克风位于所述中间矢状面的第一侧，且

17.根据权利要求16所述的用于音频信号处理的设备，其中所述音频信号包含来自由所述第一和第二对当中的至少一个麦克风产生的信号的音频频率能量。

18.根据权利要求16所述的用于音频信号处理的设备，其中所述音频信号包含来自由话音麦克风产生的信号的音频频率能量，且

19.根据权利要求16所述的用于音频信号处理的设备，其中所述设备包括用于基于所述输出信号的音频频率能量而计算多个线性预测译码滤波器系数的装置。

20.根据权利要求16所述的用于音频信号处理的设备，其中所述用于计算所述第一方向指示的装置包含用于针对基于由所述第一对麦克风产生的信号的多通道信号的多个不同频率分量当中的每一者计算所述多通道信号的第一通道中的频率分量的相位与所述多通道信号的第二通道中的频率分量的相位之间的差的装置。

21.根据权利要求16所述的用于音频信号处理的设备，其中所述第一对的所述麦克风的位置是沿着第一轴线，且

其中所述第二对的所述麦克风的位置是沿着第二轴线，且

22.根据权利要求21所述的用于音频信号处理的设备，其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过30度。

23.根据权利要求21所述的用于音频信号处理的设备，其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过20度。

24.根据权利要求16到23中任一权利要求所述的用于音频信号处理的设备，其中所述用于控制所述增益的装置包括用于除非所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的到达方向否则衰减所述音频信号的装置。

25.根据权利要求16到23中任一权利要求所述的用于音频信号处理的设备，其中所述用于控制所述增益的装置包括用于响应于所述第一和第二方向指示当中的至少一者指示远离所述中间矢状面的对应到达方向而衰减所述音频信号的装置。

26.根据权利要求25所述的用于音频信号处理的设备，其中所述设备包括用于响应于所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的对应到达方向而衰减第二音频信号的装置，且

27.根据权利要求16到23中任一权利要求所述的用于音频信号处理的设备，其中所述用于控制所述增益的装置包括用于响应于所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的对应到达方向而衰减所述音频信号的装置。

28.根据权利要求27所述的用于音频信号处理的设备，其中所述设备包括：

用于将基于所述输出信号的信号与经再生音频信号进行混合以产生经混合信号的装置，以及

用于驱动佩戴于所述用户的耳朵上且指向所述用户的对应鼓膜的扬声器以产生基于所述经混合信号的声信号的装置。

29.根据权利要求16到23中任一权利要求所述的用于音频信号处理的设备，其中所述设备包含用于驱动佩戴于所述用户的耳朵上且指向所述用户的对应鼓膜的扬声器以产生基于所述输出信号的声信号的装置。

30.根据权利要求16到23中任一权利要求所述的用于音频信号处理的设备，其中所述第一对与所述第二对分离至少10厘米。

31.一种用于音频信号处理的设备，所述设备包括：

第一对麦克风，其经配置以在所述设备的使用期间位于用户的头的中间矢状面的第一侧；

第二对麦克风，其与所述第一对分离且经配置以在所述设备的所述使用期间位于所述中间矢状面的与所述第一侧相对的第二侧；

第一方向指示计算器，其经配置以计算由所述第一对麦克风接收的第一声音分量相对于所述第一对麦克风的到达方向的第一方向指示；

第二方向指示计算器，其经配置以计算由所述第二对麦克风接收的第二声音分量相对于所述第二对麦克风的到达方向的第二方向指示；以及

增益控制模块，其经配置以使用所述第一和第二方向指示来控制音频信号的增益以产生输出信号，其中所述增益控制模块经配置以确定是否所述第一方向指示和所述第二方向指示两者均指示与所述中间矢状面相交的到达方向。

32.根据权利要求31所述的用于音频信号处理的设备，其中所述音频信号包含来自由所述第一和第二对当中的至少一个麦克风产生的信号的音频频率能量。

33.根据权利要求31所述的用于音频信号处理的设备，其中所述音频信号包含来自由话音麦克风产生的信号的音频频率能量，且

34.根据权利要求31所述的用于音频信号处理的设备，其中所述设备包括分析模块，所述分析模块经配置以基于所述输出信号的音频频率能量而计算多个线性预测译码滤波器系数。

35.根据权利要求31所述的用于音频信号处理的设备，其中所述第一方向指示计算器经配置以针对基于由所述第一对麦克风产生的信号的多通道信号的多个不同频率分量当中的每一者计算所述多通道信号的第一通道中的频率分量的相位与所述多通道信号的第二通道中的频率分量的相位之间的差。

36.根据权利要求31所述的用于音频信号处理的设备，其中所述第一对的所述麦克风的位置是沿着第一轴线，且

其中所述第二对的所述麦克风的位置是沿着第二轴线，且

37.根据权利要求36所述的用于音频信号处理的设备，其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过30度。

38.根据权利要求36所述的用于音频信号处理的设备，其中所述第一和第二轴线当中的每一者与正交于所述中间矢状面的线的平行向不超过20度。

39.根据权利要求31到38中任一权利要求所述的用于音频信号处理的设备，其中所述增益控制模块经配置以除非所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的到达方向否则衰减所述音频信号。

40.根据权利要求31到38中任一权利要求所述的用于音频信号处理的设备，其中所述增益控制模块经配置以响应于所述第一和第二方向指示当中的至少一者指示远离所述中间矢状面的对应到达方向而衰减所述音频信号。

41.根据权利要求40所述的用于音频信号处理的设备，其中所述设备包括第二增益控制模块，所述第二增益控制模块经配置以响应于所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的对应到达方向而衰减第二音频信号，且

42.根据权利要求31到38中任一权利要求所述的用于音频信号处理的设备，其中所述增益控制模块经配置以响应于所述第一方向指示和所述第二方向指示两者指示与所述中间矢状面相交的对应到达方向而衰减所述音频信号。

43.根据权利要求42所述的用于音频信号处理的设备，其中所述设备包括：

混合器，其经配置以将基于所述输出信号的信号与经再生音频信号进行混合以产生经混合信号，以及

音频输出级，其经配置以驱动佩戴于所述用户的耳朵上且指向所述用户的对应鼓膜的扬声器以产生基于所述经混合信号的声信号。

44.根据权利要求31到38中任一权利要求所述的用于音频信号处理的设备，其中所述设备包含音频输出级，所述音频输出级经配置以驱动佩戴于所述用户的耳朵上且指向所述用户的对应鼓膜的扬声器以产生基于所述输出信号的声信号。

45.根据权利要求31到38中任一权利要求所述的用于音频信号处理的设备，其中所述第一对经配置以在所述设备的所述使用期间与所述第二对分离至少10厘米。