CN103181192B

CN103181192B - 利用多麦克风的三维声音捕获和再现

Info

Publication number: CN103181192B
Application number: CN201180051705.0A
Authority: CN
Inventors: 金莱轩; 埃里克·维塞; 向佩; 伊恩·埃尔纳恩·刘; 迪内希·拉马克里希南
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-10-25
Filing date: 2011-10-25
Publication date: 2017-03-01
Anticipated expiration: 2031-10-25
Also published as: CN103181192A; US9552840B2; EP2633697B1; KR20130116271A; US20120128160A1; JP2015213328A; KR101547035B1; EP2633697A1; JP2014501064A; WO2012061149A1; JP6121481B2; JP5762550B2

Abstract

本发明描述用于使用多麦克风设置进行三维声音记录和再现的系统、方法、设备和机器可读媒体。

Description

利用多麦克风的三维声音捕获和再现

根据35U.S.C.§119主张优先权

本专利申请案主张2010年10月25日申请且转让给本受让人的题为“利用多麦克风的三维声音捕获和再现(THREE-DIMENSIONAL SOUND CAPTURING AND REPRODUCING WITHMULTI-MICROPHONES)”的临时申请案第61/406,396号的优先权。本专利申请案还主张2011年3月22日申请的题目为“用于宽立体声和环绕声记录的多麦克风设置和处理方案(MULTI-MICROPHONE SETUP AND PROCESSING SCHEME FOR WIDE STEREO AND SURROUND SOUNDRECORDING)”的临时申请案第61/466,432号的优先权，所述临时申请案转让给本受让人。

技术领域

本发明涉及音频信号处理。

背景技术

发明内容

根据一般配置的一种音频信号处理方法包含：将所记录的听觉场景分解成第一类可定位源与第二类环境声音；以及记录所述可定位源中的每一者的方向的指示。还揭示具有有形特征的计算机可读存储媒体(例如，非暂时性媒体)，所述有形特征致使所述机器读取所述特征以执行此方法。根据一般配置的一种音频信号处理设备包含：用于将所记录的听觉场景分解成第一类可定位源与第二类环境声音的装置；以及用于记录所述可定位源中的每一者的方向的指示的装置。根据另一一般配置的一种音频信号处理设备包含：空间选择性滤波器，其经配置以将所记录的听觉场景分解成第一类可定位源与第二类环境声音；以及方向估计器，其经配置以记录所述可定位源中的每一者的方向的指示。

附图说明

图1展示用于蜂窝式电话的代表性手持机上的麦克风放置。

图2A展示基于用户接口输入进行麦克风/波束成形器选择的方法的流程图。

图2B说明用于麦克风对的空间选择的区域。

图3说明用于在两个维度中选择所需记录方向的用户接口。

图4展示围绕经配置以执行主动噪音消除(ANC)的头戴式耳机界定的可能空间扇形区。

图5展示三麦克风布置。

图6展示用于具有两个可定位源(歌手与鼓)和无定位周围环境的情况的概念图。

图7展示使用相位差分布来估计源方向和/或数目的实例。

图8展示使用多个波束成形器来估计源方向和/或数目的实例。

图9展示用于使用四麦克风设置的空间译码的全向和一阶捕获。

图10展示便携式通信装置的一个实例的前视图和后视图。

图11展示记录从侧面方向到达的源信号的情况。

图12展示记录从侧面方向到达的源信号的另一情况。

图13展示组合端射波束的情况。

图14展示在前中、左前、右前、左后和右后方向上的波束的绘图的实例。

图15展示获得右后空间方向的信号的处理的实例。

图16展示利用具有三个麦克风的阵列使用两麦克风对BSS的空波束成形方法。

图17展示其中前和右方向上的波束经组合以获得右前方向的结果的实例。

图18展示如图16中所说明的方法的空波束的实例。

图19展示利用具有四个麦克风的阵列使用四声道BSS的空波束成形方法。

图20展示针对拐角方向FL、FR、BL和BR的一组四个滤波器的波束图的实例。

图21展示在移动扬声器数据上习得的IVA会聚滤波器波束图的实例。

图22展示在改进的移动扬声器数据上习得的IVA会聚滤波器波束图的实例。

图23A展示组合端射波束的方法的流程图。

图23B展示针对一般双对情况的方法的流程图。

图23C展示针对三麦克风情况的图23B的方法的实施方案。

图24展示利用具有四个麦克风的阵列使用四声道BSS的方法的流程图。

图25展示用于从使用多个全向麦克风记录的信号提供5.1声道记录且使用头戴式送受话器再现此记录的系统。

图26展示用于BSS滤波器组的部分路由图。

图27展示用于2x2滤波器组的路由图。

图28A展示阵列R100的实施方案R200的框图。

图28B展示阵列R200的实施方案R210的框图。

图29A展示根据一般配置的多麦克风音频感测装置D10的框图。

图29B展示为装置D10的实施方案的通信装置D20的框图。

具体实施方式

除非明确地受其上下文限制，否则术语“信号”在本文中用以指示其普通意义中的任一者，包含如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非明确地受其上下文限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如，计算或以其它方式产生。除非明确地受其上下文限制，否则本文中使用术语“计算”来指示其普通意义中的任一者，例如，推算、评估、平滑化和/或从多个值中选择。除非明确地受其上下文限制，否则使用术语“获得”来指示其普通意义中的任一者，例如，计算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。除非明确地受其上下文限制，否则使用术语“选择”来指示其普通意义中的任一者，例如，识别、指示、应用和/或使用两个或两个以上的集合中的至少一者和少于全部个。在术语“包括”用于本描述和权利要求书中的情况下，其不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其普通意义中的任一者，包含以下情况：(i)“从……导出”(例如，“B为A的前体”)，(ii)“至少基于”(例如，“A至少基于B”)，和如果在特定上下文中合适，(iii)“等于”(例如，“A等于B”)。类似地，使用术语“响应于”来指示其普通意义中的任一者，包含“至少响应于”。

对多麦克风音频感测装置的麦克风的“位置”的参考指示麦克风的声学感测面的中心的位置，除非上下文另有指示。根据特定上下文，术语“信道”有时用来指示信号路径，且有时用来指示由此路径携载的信号。除非另有指示，否则术语“系列”用来指示一连串两个或两个以上项。术语“算法”用来指示以十为基数的算法，但此运算至其它基数的延伸在本发明的范畴内。术语“频率分量”用来指示信号的一组频率或频带中的一者，例如，信号的频域表示的样本(例如，如通过快速傅立叶变换产生)或信号的次频带(例如，巴克(Bark)级或梅尔(mel)级次频带)。

除非另外指出，否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。关于方法、设备和/或系统，如由其特定上下文指示，可使用术语“配置”。一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”，除非特定上下文另有指示。也一般地且可互换地使用术语“设备”和“装置”，除非特定上下文另有指示。术语“元件”和“模块”通常用来指示较大配置的一部分。除非明确地受其上下文限制，否则本文中使用术语“系统”来指示其普通意义中的任一者，包含“交互以服务于共同目的的一群元件”。还应将文献的一部分以引用方式进行的任何并入理解为并有在所述部分内提及的术语或变量的定义(在这些定义出现于所述文献中其它处的情况下)，以及在并入的部分中提及的任何图。

如本文中描述的方法可经配置以将所捕获的信号作为一系列段来处理。典型的段长度范围自约五毫秒或十毫秒至约四十毫秒或五十毫秒，且段可重叠(例如，其中邻近段重叠25%或50%)或不重叠。在一个特定实例中，将信号分成一系列不重叠段或“帧”，每一者具有十毫秒的长度。如由此方法处理的段也可为如由不同操作处理的较大段的一段(即，“子帧”)。

现今，我们正经历着通过例如脸书(Facebook)、推特(Twitter)等快速增长的社交网络服务的个人信息的快速交换。与此同时，我们也看到网络速度和存储量的明显增长，这已经不仅支持文本，还支持多媒体数据。在此环境中，我们看到捕获和再现三维(3D)音频的重要需要，以实现个人听觉体验的更逼真且身临其境的交换。

已使用头戴式送受话器或扩音器阵列来执行三维音频再现。然而，不存在在线可控性，使得再现准确声音图像的稳健性受到限制。在基于头部相关转移函数(HRTF)的头戴式送受话器再现的情况下，声音图像通常局部化于用户头部中，使得深度和空间感知受到限制。

最近已在增强语音通信的上下文中开发了基于多麦克风的音频处理算法。本发明基于可与一个或一个以上此算法组合的多麦克风拓扑描述3D音频的若干独特特征。下文从记录角度和再现角度描述这些特征。

这些特征可用于利用下文列举的子类特征支持3D音频的整个路径。记录角度涉及用于发射单耳音频声道的方向捕获，其用于连同方向信息一起再现。再现角度再次利用多麦克风拓扑引入稳健且可信的声音图像重构方法。

图1展示具有可针对不同声源方向加以配置的麦克风阵列几何形状的装置的三个不同视图。取决于使用情况，可选择所述装置的麦克风的不同组合(例如，对)来支持在不同源方向上的空间选择性音频记录。举例来说，参考图1，在视频相机情境(例如，具有在装置的后面上的相机镜头)中，可使用前后麦克风对(例如，麦克风2和4、麦克风2和3、麦克风5和4)来记录前后方向(即，操纵波束进入和远离相机点方向)，其中可手动或自动地配置左右方向参数选择。对于在正交于前后轴线的方向上的声音记录，麦克风对(1，2)为另一选项。

给定设计方法的范围(即，MVDR、LCMV、相控阵列，等)，可针对各种麦克风组合离线地计算不同波束成形器数据库。在使用期间，可取决于当前使用情况要求来通过用户接口中的菜单选择这些波束成形器中的所需一者。图2A展示包含任务T110和T120的此方法的概念流程图。任务T110指定一个或一个以上优选声音捕获方向(例如，自动选择和/或经由用户接口选择)，且任务T120选择波束成形器与提供指定方向性的麦克风阵列(例如，对)的组合。图3展示选择记录方向的用户接口的实例。

图4展示针对立体声头戴式耳机的相关使用情况的说明，所述立体声头戴式耳机包含支持例如话音捕获和/或主动噪音消除(ANC)等应用的三个麦克风。对于此应用，可界定围绕头部的不同扇形区以使用此三麦克风配置(图4，使用全向麦克风)进行记录。

还可利用例如图5中所示的三麦克风布置等专门麦克风设置来执行三维音频捕获。此布置可经由接线或无线地连接到例如视频记录装置D400等记录装置。装置D400可包含如本文中描述的用于检测装置定向和根据所选择的音频记录方向来从麦克风ML10、MR10和MC10中选择一对麦克风的设备。在替代布置中，麦克风MC10位于记录装置上。

可能需要提供自动场景分析和分解的能力。此能力对于其中装置的用户未指定优选音频记录方向或此知识因其它原因而不可用的情况可为需要的。

在自动化场景分析和分解的一个实例中，听觉场景被分解成两个主类。第一主类是可定位源。可使用适当波束成形器来捕获来自此些源的信号分量，所述波束成形器可根据相应估计的到达方向来设计(例如，离线地计算)和选择。每一可定位源的记录可包含记录所述源的到达方向和对应单声道音频信号。在所记录的信号的再现期间，可用适当方向信息合成这些源。

可通过响应于所记录的场景而比较定向于已知方向上的波束成形器的输出来执行到达方向(DOA)的估计。此外或替代地，方向估计器可经配置以计算一个或一个以上麦克风声道对的对应频率分量之间的相位差(其中到达方向由相位差与频率之间的比率指示)。此外或替代地，方向估计器可经配置以计算一个或一个以上麦克风声道对的电平(例如，能量差)之间的差。

经定位的源信号可单独地或组合地再现。对于其中空间化的单声道源最终将在再现位点处混合的情况，可放宽分离要求。举例来说，可认为将一个或一个以上其它方向源在记录期间抑制小达6dB提供足够的分离度。

第二主类是所捕获的不可实现的周围环境。可例如通过从所记录的信号减去来自所定位源的分量来将此周围环境获得为残差。可进一步利用在再现位点中的环绕扩音器来处理环境信号，或所述环境信号在头戴式送受话器倾听的情况下可扩散。

可通过用户界定的将于场景中定位的优势源的数目来指导此自动化分析和分解。然而，如果优势源的所需数目不可用，那么其也可自动地确定(例如，基于到达方向信息的分析)。图6展示位于相对于麦克风阵列的不同到达方向θ的两个可定位源(歌手与鼓)的概念图。

在一个实例(例如，如图7中所示)中，根据柱状图中峰值的数目来计算经定位源的数目，所述柱状图指示在一定范围的频率上从每一方向到达的频率分量的数目。在另一实例(例如，如图8中所示)中，根据定向于不同方向上的一组波束成形器中的波束成形器的数目来计算经定位源的数目，所述波束成形器响应于所记录场景的输出高于(或者，至少等于)阈值。

通常假定，远端用户使用立体声头戴式耳机(例如，自适应噪音消除或ANC头戴式耳机)来倾听所记录的空间声音。然而，在其它应用中，可能在远端可使用能够再现两个以上空间方向的多扩音器阵列。为支持此使用情况，可能需要在记录期间同时实现一个以上麦克风/波束成形器组合。

多麦克风阵列可与空间选择性滤波器一起使用以针对一个或一个以上源方向中的每一者产生单声道声音。然而，此阵列还可用以支持在两个或三个维度上的空间音频编码。可由如本文中描述的多麦克风阵列支持的空间音频编码方法的实例包含5.1环绕、7.1环绕、杜比环绕、杜比定向逻辑(Dolby Pro-Logic)，或任何其它相位-振幅矩阵立体声格式；杜比数字、DTS或任何离散多声道格式；以及波场合成。五声道编码的一个实例包含左、右、中、左环绕和右环绕声道。

可由如本文中描述的多麦克风阵列支持的空间音频编码方法的实例还包含最初既定与特殊麦克风一起使用的方法，例如高保真立体声复制(Ambisonic)B格式或较高阶Ambisonic格式。Ambisonic编码方案的经处理的多声道输出例如为测量点上的三维泰勒扩展，其可使用如图9中所描绘的在三个维度上定位的麦克风阵列来近似至少达一阶。利用更多麦克风，我们可增加近似阶数。

为了向用户传达身临其境的声音体验，通常独立地或与视频录像结合来进行环绕声记录。环绕声记录通常需要使用单向麦克风的单独麦克风设置，其通常需要单独地剪辑，且因此不适于便携式音频感测装置(例如，智能电话或平板计算机)。在本发明中，呈现基于与空间滤波组合的多个全向麦克风的替代方案。所述解决方案是基于嵌入于智能电话或平板计算机上以支持多个使用情况的全向麦克风。因此，不需要庞大的单向麦克风设置来支持视频录像应用。

用于宽立体声的两个麦克风或具有适当麦克风轴线以用于环绕声的至少三个全向麦克风用以在智能电话或平板计算机装置上记录多个声音声道。这些声道又被成对地处理或利用经设计以在所需查看方向上具有特定空间拾取图的滤波器同时全部被滤波。归因于空间假频，可选择麦克风间距离以使得图在最相关的频带中是有效的。所产生的立体声或5.1输出声道可在环绕声设置中回放以产生身临其境的声音体验。

图10展示便携式通信装置(例如，智能电话)的一个实例的前视图和后视图。具有前麦克风2和后麦克风4的阵列是可用以进行立体声记录的一个典型双麦克风配置，且若干其它对阵列(例如，(1,2)、(3,4)、(1,4))也是可能的。麦克风相对于源的不同位置(其可取决于装置的保持位置)造成立体声效果，可使用空间滤波来突出所述立体声效果。为了在讲解员与所记录的场景之间造成立体声图像(例如，在视频录像期间)，可能需要使用使用前麦克风2与后麦克风4(距离为装置的厚度，如图1的侧视图中所示)的端射配对。然而，注意，我们也可使用处于不同保持位置的相同麦克风来以朝向z轴的距离造成端射配对(如图1中的后视图中所示)。在后者情况下，我们可创建朝向场景的立体声图像(例如，来自场景中左方的声音被捕获为来自左方的声音)。

图11展示使用前麦克风2与后麦克风4(距离为装置的厚度)的端射配对来记录从侧面方向到达的源信号的情况。在此实例中，两个麦克风的坐标是(x=0，y=0，z=0)与(x=0，y=0.10，z=-0.01)。应用立体声波束成形，使得沿着y=0平面的区域展示在侧面方向上的波束，且围绕(x=0，y=-0.5，z=0)的区域展示在端射方向上的空波束。当讲解员正从侧面方向讲话时(例如，进入装置的后面)，由于与关于麦克风对的轴线的旋转有关的模糊性，可能难以区分讲解员的话音与来自装置前面处的场景的声音。结果是不会增强将讲解员的话音与场景分开的立体声效果。

图12展示使用前麦克风2与后麦克风4(距离为装置的厚度)的端射配对来记录从侧面方向到达的源信号的另一情况，其中麦克风坐标与图11中的坐标相同。在此实例中，波束朝向端射方向定向(通过点(x=0，y=-0.5，z=0))，使得用户(例如，讲解员)的话音在一个声道中变为空。可使用空波束成形器或另一方法来形成所述波束。例如独立分量分析(ICA)或独立矢量分析(IVA)等盲源分离(BSS)方法可提供比空波束成形器更宽的立体声效果。注意，为了对于所录音的场景自身提供较宽立体声效果，使用距离朝向z轴的相同麦克风的端射配对(如图1中的后视图中所示)可能足够。

对于处于侧面保持位置中的装置，可能需要将端射波束组合到左侧和右侧(例如，如图12和13中所示)，以与原始记录相比增强立体声效果。此处理还可包含添加声道间延迟(例如，以模拟麦克风间距)。此延迟可用以根据空间中的共同参考点来正态化两个波束成形器的输出延迟。当通过头戴式送受话器回放立体声声道时，操纵延迟也可帮助在优选方向上旋转空间图像。装置可包含指示保持位置的加速计、磁力计和/或回转仪(例如，如标题为“用于定向敏感记录控制的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FOR ORIENTATION-SENSITIVE RECORDINGCONTROL)”第13/XXX,XXX号美国专利申请案(代理人档案号102978U1)中所描述)。图23A展示此方法的流程图。

当装置处于端射保持位置中时，可预期记录已经提供宽立体声效果。在此情况下，空间滤波(例如，使用空波束成形器或BSS解决方案，例如ICA或IVA)仅可稍微地增强所述效果。

在双麦克风情况下，可通过如上所述的空间滤波(例如，以增加用户的话音与所记录场景的分离)来增强立体声记录的文件。可能需要从所捕获的立体声信号产生若干不同方向声道(例如，用于环绕声)，例如以将信号增混(upmix)到两个以上声道。举例来说，可能需要将信号增混到五个声道(例如，对于5.1环绕声方案)，使得其可对于每一声道可使用一阵列五个扬声器中的一不同扬声器来回放。此方法可包含在对应方向上应用空间滤波以获得经增混的声道。此方法还可包含对经增混的声道应用多声道编码方案(例如，杜比环绕的一个版本)。

对于其中使用两个以上麦克风用于记录时，有可能使用空间滤波及不同麦克风组合在多个方向(例如，五个方向，根据5.1标准)上进行记录，接着回放所记录的信号(例如，使用五个扩音器)。可在无增混的情况下执行此处理。

图1展示具有两个以上麦克风的便携式通信装置(例如，智能电话)的一个实例的前视图、后视图和侧视图。可能需要组合来自不同麦克风对的波束和/或空波束以获得特定查看方向上的增强的鉴别。多声道记录的一个方法包含使用前后麦克风对(例如，麦克风2和3)和左右麦克风对(例如，麦克风1和2)来在五个不同查看方向上设计二维波束。图14展示在前中(FC)、左前(FL)、右前(FR)、左后(BL)和右后(BR)方向上的此些波束的绘图的实例。X轴、Y轴和Z轴在所有这些图中类似地定向(每一范围的中间为零，且极端为+/-0.5，其中X轴向右增加，Y轴向左增加，且Z轴向顶部增加)，且黑暗区域指示如所陈述的波束或空波束方向。每一绘图的波束被引导穿过以下点(z=0)：对于FC，(x=0，y=+0.5)；对于FR，(x=+0.5，y=+0.5)；对于BR，(x=+0.5，y=-0.5)；对于BL，(x=-0.5，y=-0.5)；以及对于FL，(x=-0.5，y=+0.5)。

空间滤波技术的有效性可能取决于例如小麦克风间间距、空间假频和高频下的散射等因素而限于带通范围。在一个实例中，在空间滤波之前对信号进行低通滤波(例如，用8kHz的截止频率)。

对于其中来自单点源的声音被捕获的情况，用遮蔽从其它方向到达的信号来补充此波束成形可导致非直接路径信号的强衰减和/或在实现所需遮蔽效果所需要的激进度水平处的听觉失真。此假讯(artifact)对于高清晰度(HD)音频来说可为不合需要的。在一个实例中，以48kHz的取样率来记录HD音频。为减轻此些假讯，替代使用经激进地空间滤波的信号，可能需要仅使用每一声道的经处理信号的能量分布并根据每一声道的能量分布将增益声相规则(gain panning rule)在遮蔽之前应用于原始输入信号或经空间处理的输出。注意，由于声音事件在时间-频率图中通常非常稀疏，因此有可能甚至对于多源情况使用此种后增益声相方法。图15展示获得右后空间方向的信号的处理的实例。曲线A(振幅对时间)展示原始麦克风记录。曲线B(振幅对时间)展示对麦克风信号进行低通滤波(用8kHz的截止频率)且执行具有遮蔽的空间滤波的结果。曲线C(振幅对时间)展示基于曲线B中的信号的能量(例如，取样值的平方和)的相关空间能量。曲线D(状态对时间)展示基于由低频率空间滤波指示的能量差的声相分布，且曲线E(振幅对时间)展示48-kHz声相输出。

对于双麦克风对情况，可能需要针对一个对设计至少一个波束，且针对另一对设计在不同方向上的至少两个波束。所述波束可经设计或习得(例如，利用BSS方法，例如ICA或IVA)。这些波束中的每一者可用以获得记录的不同声道(例如，对于环绕声记录)。

图16展示利用具有三个麦克风的阵列使用两麦克风对BSS的空波束成形方法(例如，ICA或IVA)。对于前后方向，使用麦克风对(2，3)。对于左右方向，使用麦克风对(1，2)。可能需要两个麦克风对的轴线正交或至少实质上正交(例如，距正交不大于5度、10度、15度或20度)。

可通过组合波束中的两者或两者以上来产生声道中的一些。图17展示其中前和右方向上的波束经组合以获得右前方向的结果的实例。可以相同方式获得左前、右后和/或左后方向的结果。在此实例中，以此方式组合重叠的波束提供以下信号：从对应拐角到达的信号比从其它位置到达的信号响六dB。图23B展示针对一般双对情况的此方法的流程图。图23C展示针对三麦克风情况的图23B的方法的实施方案。可能需要应用声道间延迟来根据空间中的共同参考点来正态化两个波束成形器的输出延迟。当组合“左右端射对”与“前后端射对”时，可能需要将参考点设置到麦克风阵列的重心。此操作可通过两个对之间的经调整的延迟来支持所需拐角位置处的最大化波束发射。

图18展示针对如图16中所说明的方法的空波束的实例，所述空波束可使用在装置与声源的相对位置固定的情形中习得的MVDR波束成形器或会聚BSS(例如，ICA或IVA)滤波器来加以设计。在这些实例中，所展示的频率组的范围对应于从0到8kHz的频带。可以看出，空间波束图是互补的。还可以看出，因为这些实例中的左右对的麦克风与前后对的麦克风之间的间距不同，所以空间假频以不同方式影响这些波束图。

因为空间假频，取决于麦克风间距离，可能需要将波束应用于所捕获信号的小于整个的频率范围(例如，应用到如上文所指出的0到8kHz的范围)。在对低频内容进行空间滤波之后，可在对空间延迟、处理延迟和/或增益匹配进行一些调整的情况下加回高频内容。在一些情况下(例如，手持型装置板型)，还可能需要仅对中间范围的频率(例如，仅降至200或500Hz)进行滤波，因为无论如何，归因于麦克风间距限制可能预期一些方向性损失。

如果存在某种非线性相位失真(情况通常始终如此)，那么由于如由非线性相位失真引起的在一些频率上的不同延迟，根据相同DOA对于所有频率基于相同延迟的标准波束/空成形技术可能表现不良。然而，如上文所述的基于IVA的方法基于源分离来操作，且因此可预期此方法产生良好结果，即使在对于相同DOA存在不同延迟的情况下也是如此。此稳健性可为使用IVA用于获得环绕处理系数的潜在优点。

对于在一些截止频率(例如，8kHz)之上不进行空间滤波的情况，提供最终HD信号可包含对原始前/后声道进行高通滤波以及加回从8到24kHz的频带。此操作可包含调整空间和高通滤波延迟。可能还需要调整8-24-kHz频带的增益(例如，以使得不会混淆空间分离效果)。图15中所说明的实例是在时域中滤波，但明确涵盖且特此揭示应用本文所述的方法在其它域(例如，频域)中滤波。

图19展示利用具有四个麦克风的阵列使用四声道BSS的空波束成形方法(例如，ICA或IVA)。可能需要四个麦克风的各种对中的至少两者的轴线正交或至少实质上正交(例如，距正交不大于5度、10度、15度或20度)。除了双麦克风配对之外，还可使用此四麦克风滤波器来创建拐角方向上的波束图。在一个实例中，使用IVA和训练数据来习得滤波器，且将所得会聚IVA滤波器实施为固定滤波器应用到四个所记录的麦克风输入，以针对5.1环绕声中的相应五个声道方向(FL、FC、FR、BR、BL)中的每一者产生信号。为完全利用五个扬声器，可例如使用以下规则获得前中声道图24展示此方法的流程图。图26展示用于此滤波器组的部分路由图，其中麦克风n将输入提供到列n(对于l<=n<=4)中的滤波器，且输出声道中的每一者为对应行中的滤波器的输出的和。

在此习得过程的一个实例中，独立声源位于围绕四麦克风阵列的四个指定位置(例如，四个拐角位置FL、FR、BL和BR)中的一者处，且使用所述阵列来捕获四声道信号。注意，所捕获的四声道输出中的每一者是所有四个源的混合。接着应用BSS技术(例如，IVA)来分离四个独立源。在会聚之后，我们获得分离的四个独立源以及会聚的滤波器组，所述滤波器组基本上是朝向目标拐角进行波束发射且朝向其它三个拐角进行置空。

图20展示针对拐角方向FL、FR、BL和BR的此组四个滤波器的波束图的实例。对于风景记录模式，获得和应用滤波器可包含使用两个前麦克风和两个后麦克风，对于相对于阵列处于固定位置的源运行四声道IVA习得算法，以及应用会聚滤波器。

波束图取决于所捕获的混合数据可能不同。图21展示在移动扬声器数据上习得的IVA会聚滤波器波束图的实例。图22展示在改进的移动扬声器数据上习得的IVA会聚滤波器波束图的实例。这些实例与如图21中所示对实例相同，除了FR波束图之外。

使用IVA训练四麦克风滤波器的过程不仅包含朝向所需方向进行波束发射，而且包含对干扰方向置空。举例来说，将用于左前(FL)方向的滤波器会聚到包含朝向FL方向的波束和在右前(FR)、左后(BL)和右后(BR)方向上的空值的解决方案。如果已经知道确切的麦克风阵列几何形状，可确定性地进行此训练操作。或者，可用丰富的训练数据执行IVA过程，其中一个或一个以上音频源(例如，语音、乐器，等)位于每一拐角处且由四麦克风阵列捕获。在此情况下，不管麦克风配置如何，可执行一次训练过程(即，无需关于麦克风几何形状的信息)，且可使滤波器固定以在稍后时间用于特定阵列配置。只要阵列在突出的二维(x-y)平面上包含四个麦克风，就可应用此习得处理的结果来产生一组适当的四个拐角滤波器。应明确注意，只要阵列的麦克风布置于两个正交或几乎正交(例如，在距正交15度内)的轴线上，就可使用此训练的滤波器来记录环绕声图像，而不限制特定麦克风阵列配置。举例来说，如果两个轴线非常接近于正交，那么三麦克风阵列是足够的，且每一轴线上的麦克风之间的分离之间的比率并不重要。

如上文所指出，可通过在空间上处理低频且忽略高频项目来获得宽带(例如，HD)信号。然而，如果增加计算复杂性对于特定设计并非显著问题，那么可替代地执行对整个频率区域的处理。因为四麦克风IVA方法相对于波束发射更多地集中于置空，因此减少高频项目中的假频效应。空假频仅出现于波束发射方向上的稀少频率处，使得波束发射方向上的大部分频率区域将不受空假频影响，尤其对于小麦克风间距离。对于较大麦克风间距离，置空实际上变得随机化，使得效果与仅忽略未经处理的高频项目的情况类似。

对于小板型(例如，手持型装置)，可能需要避免在低频处执行空间滤波，因为麦克风间距可能过小而不支持良好结果，且可能损害较高频率中的性能。同样，可能需要避免在高频处执行空间滤波，因为此些频率通常已为方向性的，且滤波对于高于空间假频频率的频率可能无效。

如果使用少于四个麦克风，那么可能难以在三个其它拐角处形成置空(例如，归因于不够的自由度)。在此情况下，可能需要使用替代物，例如上文参考图17、23B和23C论述的端射配对。

此描述包含从使用多个全向麦克风(例如，如图25的中心到左方路径)记录的信号提供5.1声道记录的揭示内容。可能需要从使用多个全向麦克风捕获的信号创建双耳记录。如果例如在用户侧不存在5.1声道环绕系统，那么可能需要将5.1声道减混到立体声双耳记录，以使得用户可利用环绕声系统而具有处于实际声学空间中的体验。而且，此能力可提供以下选项：用户可在其正在现场记录场景的同时监控环绕记录，和/或使用头戴式耳机替代家庭影院系统在其移动装置上回放所记录的视频和环绕声。

我们可以从全向麦克风阵列而具有方向性声源，其既定通过在典型起居室空间中位于指定位置(FL、FR、C、BL(或环绕左)，以及BR(或环绕右))的扩音器播放。一种仅通过头戴式送受话器(如图25中的中心到右方路径所说明)来再现此情境的方法包含测量所需声学空间中从每一扩音器到位于每一耳朵内的麦克风的双耳脉冲响应(BIR)(例如，双耳转移函数)的离线过程。BIR针对扩音器阵列与两耳当中的每一源-接收器对来编码声学路径信息，包含直接路径以及来自每一扩音器的反射路径。我们可将小麦克风定位在真实人耳内，或使用具有硅酮耳朵的假人头部，例如头与躯干模拟器(HATS，Bruel和Kjaer，DK)。

对于双耳再现，将所测量的BIR与用于所指定的扩音器位置的每一方向性声源进行卷积。在卷积所有方向性源与BIR之后，对每一耳朵记录的结果求和。最终结果为两个声道(例如，左与右)，其复制由人耳捕获的左与右信号，且可通过头戴式送受话器播放。注意，从全向麦克风阵列的5.1环绕产生实际上用作从所述阵列到双耳再现的通过点(via-point)。因此，此方案可取决于如何产生通过点而为通用的。举例来说，如果我们从由所述阵列捕获的信号创建更多方向性源，那么我们使用这些源作为从所需扩音器位置到耳朵的具有适当测量的BIR的通过点。

可能需要在便携式音频感测装置中执行如本文中所描述的方法，所述便携式音频感测装置具有经配置以接收声学信号的两个或两个以上麦克风的阵列R100。可经实施以包含此阵列且可用于音频记录和/或话音通信应用的便携式音频感测装置的实例包含电话手持机(例如，蜂窝式电话手持机)；有线或无线头戴式耳机(例如，蓝牙头戴式耳机)；手持型音频和/或视频记录器；经配置以记录音频和/或视频内容的个人媒体播放器；个人数字助理(PDA)或其它手持型计算装置；和笔记本计算机、膝上型计算机、上网本计算机、平板计算机或其它便携式计算装置。便携式计算装置的类别当前包含具有例如以下名称的名称的装置：膝上型计算机、笔记本计算机、上网本计算机、超级便携式计算机、平板计算机、移动因特网装置、智能本和智能电话。此装置可具有包含显示屏的顶部面板和包含键盘的底部面板，其中两个面板可以哈壳或其它铰接关系相连接。此装置可类似地实施为在顶表面上包含触摸屏显示器的平板计算机。可经建构以执行此方法且包含阵列R100的例项且可用于音频记录和/或话音通信应用的音频感测装置的其它实例包含机顶盒和音频和/或视频会议装置。

图29A展示根据一般配置的多麦克风音频感测装置D10的框图。装置D10包含本文中揭示的麦克风阵列R100的实施方案中的任一者的例项，且可将本文中揭示的音频感测装置中的任一者实施为装置D10的例项。装置D10还包含设备A100，其经配置以通过执行如本文中揭示的方法的实施方案来处理多声道音频信号MCS。可将设备A100实施为硬件(例如，处理器)与软件和/或与固件的组合。

图29B展示为装置D10的实施方案的通信装置D20的框图。装置D20包含芯片或芯片组CS10(例如，移动台调制解调器(MSM)芯片组)，其包含设备A100。芯片或芯片组CS10可包含一个或一个以上处理器。芯片/芯片组CS10也可包含阵列R100的处理元件(例如，如以下描述的音频预处理级AP10的元件)。芯片/芯片组CS10包含：接收器，其经配置以接收射频(RF)通信信号且解码并再现在RF信号内编码的音频信号；以及发射器，其经配置以编码基于由设备A100产生的经处理信号的音频信号且发射描述所编码的音频信号的RF通信信号。举例来说，芯片/芯片组CS10的一个或一个以上处理器可经配置以对多声道信号的一个或一个以上声道执行如上所述的噪音减少操作，使得编码的音频信号是基于噪音减少的信号。

阵列R100的每一麦克风可具有全向、双向或单向(例如，心形线)的响应。可在阵列R100中使用的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。在用于便携式话音通信的装置(例如，手持机或头戴式耳机)中，阵列R100的邻近麦克风之间的中心到中心间距通常在从约1.5cm到约4.5cm的范围中，但在例如手持机或智能电话等装置中，较大间距(例如，高达10cm或15cm)也是可能的，且在例如平板计算机等装置中，甚至更大的间距(例如，高达20cm、25cm或30cm或30cm以上)也是可能的。阵列R100的麦克风可沿着一线布置(具有均匀或非均匀麦克风间距)，或者，使得其中心位于二维(例如，三角形)或三维形状的顶点处。

应明确注意，更通常地可将麦克风实施为对辐射或发射而不是对声音敏感的换能器。在一个此实例中，将麦克风对实施为一对超声换能器(例如，对大于十五千赫、二十千赫、二十五千赫、三十千赫、四十千赫或五十千赫或五十千赫以上的声频敏感的换能器)。

在多麦克风音频感测装置的操作期间，阵列R100产生多声道信号，其中每一声道是基于麦克风中的对应者对声学环境的响应。一个麦克风可比另一麦克风直接地接收特定声音，使得对应的声道相互间不同以共同提供比使用单一麦克风可捕获的声学环境的表示完整的对声学环境的表示。

可能需要阵列R100对由麦克风产生的信号执行一个或一个以上处理操作以产生多声道信号MCS。图28A展示阵列R100的实施方案R200的框图，阵列R100包含经配置以执行一个或一个以上这些操作的音频预处理级AP10，这些操作可包含(不限于)阻抗匹配、模/数转换、增益控制和/或在模拟和/或数字域中的滤波。

图28B展示阵列R200的实施方案R210的框图。阵列R210包含包含模拟预处理级P10a和P10b的音频预处理级AP10的实施方案AP20。在一个实例中，级P10a和P10b各自经配置以对对应的麦克风信号执行高通滤波操作(例如，用50Hz、100Hz或200Hz的截止频率)。

可能需要阵列R100产生多声道信号，作为数字信号，也就是说，作为一连串样本。举例来说，阵列R210包含模/数转换器(ADC)C10a和C10b，其各自经布置以取样对应的模拟声道。针对声学应用的典型取样速率包含8kHz、12kHz、16kHz和在从约8kHz到约16kHz的范围中的其它频率，但也可使用高达约44kHz的取样速率。在此特定实例中，阵列R210还包含数字预处理级P20a和P20b，其各自经配置以对对应的经数字化的声道执行一个或一个以上预处理操作(例如，回波消除、噪音减少和/或频谱成形)以产生多声道信号MCS的对应声道MCS-1、MCS-2。虽然图28A和28B展示两声道实施方案，但将理解，相同原理可延伸到任意数目个麦克风和多声道信号MCS的对应声道。

本文中揭示的方法和设备通常可应用于任何收发和/或音频感测应用中，包含这些应用的移动或其它便携式例项。举例来说，本文中揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将理解，具有如本文中所描述的特征的方法和设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的任何各种通信系统中，例如，经由有线和/或无线(例如，CDMA、TDMA、FDMA和/或TD-SCDMA)传输声道使用IP语音(VoIP)的系统。

明确预料且在此揭示，本文中揭示的通信装置可适宜于在为分组交换式网络(例如，经布置以根据例如VoIP的协议承载音频传输的有线和/或无线网络)和/或电路交换式网络中使用。还明确预料且在此揭示，本文中揭示的通信装置可适宜于在窄带译码系统(例如，编码约四千赫或五千赫的音频频率范围的系统)中使用和/或适宜于在宽带译码系统(例如，编码大于五千赫的音频频率的系统)中使用。

描述的配置的前述呈现经提供以使任何所属领域的技术人员制造或使用本文中揭示的方法和其它结构。本文中展示和描述的流程图、框图和其它结构仅为实例，且这些结构的其它变体也在本发明的范畴内。对这些配置的各种修改是可能的，且本文中所呈现的一般原理也可应用于其它配置。因此，本发明不希望限于上文所展示的配置，而是应符合与在本文中(包含在所申请的附加权利要求书中)以任何方式揭示的原理和新颖特征一致的最广范围，所述权利要求书形成原始揭示内容的一部分。

所属领域的技术人员将了解，可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所提及的数据、指令、命令、信息、信号、位和符号。

对于如本文中揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂性(通常按每秒百万个指令或MIPS来测量)最小化，尤其对于计算集中式应用，例如，经压缩的音频或视听信息(例如，根据压缩格式编码的档案或流，例如，本文中识别的实例中的一者)的重放，或针对宽带通信(例如，按高于八千赫的取样速率(例如，12kHz、16kHz或44kHz)的话音通信)的应用。

多麦克风处理系统的目标可包含实现10dB到12dB的总噪音减少，在所需扬声器的移动期间保持话音电平和色彩，获得噪音已被移动至背景内而非激进的噪音移除的察觉，语音的去回响，和/或实现针对较激进的噪音减少的后期处理的选项。

如本文中揭示的设备的实施方案的各种元件可以适合于希望的应用的硬件与软件和/或与固件的任何组合来体现。举例来说，此些元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两个或两个以上或甚至全部可实施于同一或同样的阵列内。此或此类阵列可实施于一个或一个以上芯片内(例如，包含两个或两个以上芯片的芯片组内)。

本文中揭示的设备的各种实施方案的一或多个元件也可全部或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(场可编程门阵列)、ASSP(特殊应用标准产品)和ASIC(专用集成电路))阵列上执行的一组或一组以上指令。如本文中揭示的设备的实施方案的各种元件中的任一者也可实施为一或多个计算机(例如，包含经编程以执行一个或一个以上指令集或序列的机器)，且这些元件中的任何两者或两者以上或甚至全部可实施于一个或一个以上相同的此种计算机内。

如本文中揭示的处理器或用于处理的其它装置可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的一个或一个以上电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。此或此类阵列可实施于一个或一个以上芯片内(例如，包含两个或两个以上芯片的芯片组内)。此类阵列的实例包含固定或可编程逻辑元件(例如，微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC)阵列。如本文中揭示的处理器或用于处理的其它装置还可实施为一或多个计算机(例如，包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器)或其它处理器。如本文中描述的处理器可能用来执行并非与方向性编码程序直接有关的任务或其它指令集，例如，关于嵌入有所述处理器的装置或系统(例如，音频感测装置)的另一操作的任务。如本文中揭示的方法的部分还可由音频感测装置的处理器执行，方法的另一部分还可在一个或一个以上其它处理器的控制下执行。

所属领域的技术人员将了解，可将关于本文中揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作实施为电子硬件、计算机软件或两者的组合。这些模块、逻辑块、电路和操作可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或经设计以产生如本文中揭示的配置的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。举例来说，此配置可至少部分实施为硬接线的电路，实施为制造至专用集成电路内的电路配置，或实施为载入至非易失性存储装置内的固件程序或从数据存储媒体载入或载入至数据存储媒体的软件程序作为机器可读代码，这些代码为可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器，但在替代例中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可以实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心结合的一个或多个微处理器或任何其它此类配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移除式盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合至处理器，使得处理器可自存储媒体读取信息以及将信息写入至存储媒体。作为替代，存储媒体可以与处理器整合为一体。处理器和存储媒体可以驻留在ASIC中。ASIC可驻留于用户终端中。在替代例中，处理器及存储媒体可作为离散组件驻留于用户终端中。

应注意，本文揭示的各种方法可由例如处理器等逻辑元件的阵列执行，且如本文中描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用，术语“模块”或“子模块”可指包含呈软件、硬件或固件形式的计算机指令(例如，逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解，多个模块或系统可组合为一个模块或系统，且一个模块或系统可被分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时，过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构和类似者有关的任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中，或由以载波体现的计算机数据信号在传输媒体或通信链路上传输。

本文中揭示的方法、方案和技术的实施方案也可有形地体现(例如，以如本文中列举的一个或一个以上计算机可读媒体)为可由包含逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)阵列的机器读取和/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或转移信息的任何媒体(包含易失性、非易失性、可移除式和非可移除式媒体)。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路，或可用于存储所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如，电子网络声道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或企业内部网络等计算机网络来下载。在任一情况下，本发明的范畴不应被解释为受这些实施例限制。

本文中描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以两者的组合来体现。在如本文中揭示的方法的实施方案的典型应用中，逻辑元件(例如，逻辑门)阵列经配置以执行方法的各种任务中的一个、一个以上或甚至全部。所述任务中的一者或一者以上(可能所有)还可实施为在计算机程序产品(例如，一个或一个以上数据存储媒体，例如，磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如，一个或一个以上指令集)，所述计算机程序产品可由包含逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)阵列的机器(例如，计算机)读取和/或执行。如本文中揭示的方法的实施方案的任务也可由一个以上此阵列或机器执行。在这些或其它实施方案中，所述任务可在用于无线通信的装置内执行，所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换式和/或分组交换式网络通信(例如，使用一个或一个以上协议(例如，VoIP))。举例来说，此装置可包含经配置以接收和/或发射经编码的帧的RF电路。

明确揭示，本文中揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行，且本文中描述的各种设备可包含于此装置内。典型实时(例如，线上)应用为使用此移动装置进行的电话会话。

在一个或一个以上示范性实施例中，本文中描述的操作可以硬件、软件、固件或其任何组合实施。如果以软件实施，那么这些操作可作为一个或一个以上指令或代码存储于计算机可读媒体上或在计算机可读媒体上传输。属于“计算机可读媒体”包含计算机存储媒体与包括促进计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。以实例说明且不受限制，此计算机可读媒体可包括存储元件阵列，例如，半导体存储器(其可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以在可由计算机存取的有形结构中存储呈指令或数据结构形式的所需程序代码的任何其它媒体。同样，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输软件，那么同轴电缆、光缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘和Blu-ray Disc^TM(蓝光光盘协会，加利福尼亚州大学城(Universal City,CA))，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。上文的组合也应包括在计算机可读媒体的范围内。

如本文中描述的声学信号处理设备可并入至接受语音输入以便控制某些操作或可以其它方式受益于所需噪音与背景噪音的分离的电子装置(例如，通信装置)内。许多应用可受益于增强清晰的所需声音或将清晰的所需声音与源自多个方向的背景声音分离。这些应用可包含电子或计算装置中的人机接口，其并入有例如话音辨识和检测、语音增强和分离、话音激活式控制和类似者的能力。可能需要实施此声学信号处理设备以适用于只提供有限处理能力的装置中。

本文中描述的模块、元件和装置的各种实施方案的元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或门)阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)阵列上执行的一个或一个以上指令集。

有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用来执行并非与所述设备的操作直接有关的任务或其它指令集，例如，关于嵌入有所述设备的装置或系统的另一操作的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如，用来在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集或在不同时间对不同元件执行操作的电子和/或光学装置的布置)。

Claims

1.一种通过装置处理音频信号的方法，所述方法包括：

将所记录的听觉场景分解成第一类可定位源与第二类环境声音，所述所记录的听觉场景是使用在所述装置上形成两个麦克风对的三个麦克风记录的，其中所述第一类可定位源表示不同方向，所述不同方向表示所述装置的一个或多个拐角，其中所述装置的所述一个或多个拐角包括左前方向、左后方向、右前方向和右后方向，且与标准声道格式环绕声系统相关联；

记录所述可定位源中的每一者的方向的指示；以及

通过在多个查看方向中的一个查看方向上应用波束且在所述多个查看方向中的所有其它查看方向上应用空波束而将至少一个多声道滤波器应用到所述听觉场景的多个所记录的输入声道，其中在一个查看方向上应用波束包括组合两个重叠的波束。

2.根据权利要求1所述的方法，其中所述方法包括接收包括所需记录方向的用户输入。

3.根据权利要求1所述的方法，其中所述方法包括估计所述可定位源的数目，包含估计每一源的到达方向。

4.根据权利要求1所述的方法，其中所述方法包括根据三维音频编码方案编码所记录的多声道信号。

5.根据权利要求4所述的方法，所述三维音频编码方案是高保真立体声复制方案和波场合成方案中的至少一者。

6.根据权利要求1所述的方法，其中所述组合两个重叠的波束包括：在一个端射方向上应用波束以获得第一经滤波信号；

在另一端射方向上应用波束以获得第二经滤波信号；以及

组合所述第一经滤波信号与所述第二经滤波信号的延迟版本。

7.根据权利要求1所述的方法，其中所述组合两个重叠的波束包括：在一个端射方向上应用波束以获得第一经滤波信号；

在另一端射方向上应用波束以获得第二经滤波信号；以及

组合所述第一与第二经滤波信号以获得组合信号，

其中所述第一与第二经滤波信号中的每一者具有至少两个声道，且其中所述组合信号的一个声道相对于所述组合信号的另一声道延迟。

8.根据权利要求7所述的方法，其中所述方法包括在所述组合之前，使所述第一经滤波信号的一个声道相对于所述第一经滤波信号的另一声道延迟，且使所述第二经滤波信号的一个声道相对于所述第二经滤波信号的另一声道延迟。

9.根据权利要求7所述的方法，其中所述方法包括使所述组合信号的一个声道相对于所述组合信号的另一声道延迟。

10.根据权利要求1所述的方法，其中所述组合两个重叠的波束包括：将在第一方向上具有波束的滤波器应用于由第一对麦克风产生的信号以获得第一经空间滤波的信号；

将在不同于所述第一方向的第二方向上具有波束的滤波器应用于由不同于所述第一对麦克风的第二对麦克风产生的信号，以获得第二经空间滤波的信号；以及

组合所述第一与第二经空间滤波的信号以获得在不同于所述第一和第二方向的第三方向上对应于源的输出信号。

11.根据权利要求10所述的方法，其中所述第一对麦克风的轴线至少实质上正交于所述第二对麦克风的轴线。

12.根据权利要求1所述的方法，其中所述方法包括：对于阵列中的所述三个麦克风中的每一者，记录对应输入声道；以及

对于所述多个查看方向中的每一者，将对应多声道滤波器应用于所述多个所述所记录的输入声道以获得对应输出声道。

13.根据权利要求12所述的方法，其中所述三个麦克风中的第一对的轴线距与所述三个麦克风中的第二对的轴线正交不大于15度。

14.根据权利要求12所述的方法，其中所述多个查看方向为至少四个。

15.根据权利要求12所述的方法，其中所述方法包括处理所述多个输出声道以产生双耳记录，

其中所述处理包含对于所述多个输出声道中的每一者，将对应双耳脉冲响应应用于所述输出声道以获得对应双耳信号，其中所述双耳记录是基于所述双耳信号的和。

16.根据权利要求1所述的方法，其中所述方法包括基于便携式音频感测装置的定向选择记录方向。

17.根据权利要求10所述的方法，其中所述应用在所述第一方向上具有波束的所述滤波器限于低阈值与高阈值之间的频率，且其中所述低阈值与所述高阈值中的至少一者是基于麦克风之间的距离。

18.根据权利要求1所述的方法，其中所述方法包含：训练多个滤波器以产生对应的多个固定会聚滤波器；以及将所述固定会聚滤波器应用于所述所记录的听觉场景以执行所述分解。

19.一种用于音频信号处理的设备，所述设备包括：

用于将所记录的听觉场景分解成第一类可定位源与第二类环境声音的装置，所述所记录的听觉场景是使用在所述装置上形成两个麦克风对的三个麦克风记录的，其中所述第一类可定位源表示不同方向，所述不同方向表示所述装置的一个或多个拐角，其中所述装置的所述一个或多个拐角包括左前方向、左后方向、右前方向和右后方向，且与标准声道格式环绕声系统相关联；

用于记录所述可定位源中的每一者的方向的指示的装置；以及

用于通过在多个查看方向中的一个查看方向上应用波束且在所述多个查看方向中的所有其它查看方向上应用空波束而将至少一个多声道滤波器应用到所述听觉场景的多个所记录的输入声道的装置，其中在一个查看方向上应用波束包括组合两个重叠的波束。

20.根据权利要求19所述的设备，其中所述设备包括用于接收包括所需记录方向的用户输入的装置。

21.根据权利要求19所述的设备，其中所述设备包括用于估计所述可定位源的数目的装置，包含用于估计每一源的到达方向的装置。

22.根据权利要求19所述的设备，其中所述设备包括用于根据三维音频编码方案编码所记录的多声道信号的装置。

23.根据权利要求22所述的设备，其中所述三维音频编码方案为高保真立体声复制方案和波场合成方案中的至少一者。

24.根据权利要求19所述的设备，其中所述设备包括：

用于在一个端射方向上应用波束以获得第一经滤波信号的装置；

用于在另一端射方向上应用波束以获得第二经滤波信号的装置；以及

用于组合所述第一经滤波信号与所述第二经滤波信号的延迟版本的装置。

25.根据权利要求19所述的设备，其中所述设备包括：

用于在一个端射方向上应用波束以获得第一经滤波信号的装置；用于在另一端射方向上应用波束以获得第二经滤波信号的装置；以及

用于组合所述第一与第二经滤波信号以获得组合信号的装置，其中所述第一与第二经滤波信号中的每一者具有至少两个声道，且其中所述组合信号的一个声道相对于所述组合信号的另一声道延迟。

26.根据权利要求25所述的设备，其中所述设备包括用于在所述组合之前使所述第一经滤波信号的一个声道相对于所述第一经滤波信号的另一声道延迟且使所述第二经滤波信号的一个声道相对于所述第二经滤波信号的另一声道延迟的装置。

27.根据权利要求25所述的设备，其中所述设备包括用于使所述组合信号的一个声道相对于所述组合信号的另一声道延迟的装置。

28.根据权利要求19所述的设备，其中所述设备包括：

用于将在第一方向上具有波束的滤波器应用于由第一对麦克风产生的信号以获得第一经空间滤波的信号的装置；

用于将在不同于所述第一方向的第二方向上具有波束的滤波器应用于由不同于所述第一对麦克风的第二对麦克风产生的信号，以获得第二经空间滤波的信号的装置；以及

用于组合所述第一与第二经空间滤波的信号以获得在不同于所述第一和第二方向的第三方向上对应于源的输出信号的装置。

29.根据权利要求28所述的设备，其中所述第一对麦克风的轴线至少实质上正交于所述第二对麦克风的轴线。

30.根据权利要求19所述的设备，其中所述设备包括：

用于对于阵列中的所述三个麦克风中的每一者记录对应输入声道的装置；以及

用于对于所述多个查看方向中的每一者，将对应多声道滤波器应用于所述多个所述所记录的输入声道以获得对应输出声道的装置。

31.根据权利要求30所述的设备，其中所述三个麦克风中的第一对的轴线距与所述三个麦克风中的第二对的轴线正交不大于15度。

32.根据权利要求30所述的设备，其中所述多个查看方向为至少四个。

33.根据权利要求30所述的设备，其中所述设备包括用于处理所述多个输出声道以产生双耳记录的装置，

其中所述处理包含对于所述多个输出声道中的每一者，将对应双耳脉冲响应应用于所述输出声道以获得对应双耳信号，

其中所述双耳记录是基于所述双耳信号的和。

34.根据权利要求19所述的设备，其中所述设备包括用于基于便携式音频感测装置的定向选择记录方向的装置。

35.根据权利要求28所述的设备，其中所述用于应用在所述第一方向上具有波束的所述波束的装置经配置以将所述滤波器仅应用于低阈值与高阈值之间的频率，且

其中所述低阈值与所述高阈值中的至少一者是基于麦克风之间的距离。

36.一种用于音频信号处理的设备，所述设备包括：

显示器，其经配置以呈现用户接口；及

一个或多个处理器，其经配置以：

记录所述可定位源中的每一者的方向的指示；以及