CN103190158A

CN103190158A - 用于基于所记录的声音信号进行头部跟踪的系统、方法、设备和计算机可读媒体

Info

Publication number: CN103190158A
Application number: CN2011800516927A
Authority: CN
Inventors: 金莱轩; 向佩; 埃里克·维瑟
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-10-25
Filing date: 2011-10-25
Publication date: 2013-07-03
Also published as: KR20130114162A; WO2012061148A1; EP2633698A1; US20120128166A1; US8855341B2; JP2013546253A

Abstract

本发明描述用于基于所记录的声音信号检测头部移动的系统、方法、设备和机器可读媒体。

Description

用于基于所记录的声音信号进行头部跟踪的系统、方法、设备和计算机可读媒体

根据35U.S.C.§119主张优先权

本专利申请案主张2010年10月25日申请且转让给本受让人的题为“利用多麦克风的三维声音捕获和再现(THREE-DIMENSIONAL SOUND CAPTURING ANDREPRODUCING WITH MULTI-MICROPHONES)”的临时申请案第61/406,396号的优先权。

交叉参考的申请案

本专利申请案涉及以下同在申请中的美国专利申请案：

“用于定向敏感性记录控制的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FORORIENTATION-SENSITIVE RECORDING CONTROL)”(代理人档案号码102978U1)，其与本申请案同时申请，转让给其受让人；以及

“利用多麦克风的三维声音捕获和再现(THREE-DIMENSIONAL SOUNDCAPTURING AND REPRODUCING WITH MULTI-MICROPHONES)”(代理人档案号码102978U2)，其与本申请案同时申请，转让给其受让人。

技术领域

本发明涉及音频信号处理。

背景技术

已通过使用一对头戴式送受话器或扩音器阵列来执行三维音频再现。然而，现有方法缺乏在线可控性，使得再现准确声音图像的稳健性受到限制。

立体声头戴式耳机自身通常无法提供像外部扩音器阵列那样丰富的空间图像。在基于头部相关转移函数(HRTF)的头戴式送受话器再现的情况下，例如，声音图像通常局部化于用户头部中。结果，用户的深度和空间感觉可能受到限制。

然而，在外部扩音器阵列的情况下，图像可能受限于相对较小的甜点(sweet spot)。图像也可能受到用户头部相对于阵列的位置和定向的影响。

发明内容

根据一般配置的一种音频信号处理方法包含：计算左麦克风信号与参考麦克风信号之间的第一交叉相关；以及计算右麦克风信号与参考麦克风信号之间的第二交叉相关。此方法还包含基于来自所述第一和第二计算出的交叉相关的信息来确定用户的头部的对应定向。在此方法中，所述左麦克风信号是基于由位于头部左侧的左麦克风产生的信号，所述右麦克风信号是基于由位于头部的与左侧相对的右侧的右麦克风产生的信号，且所述参考麦克风信号是基于由参考麦克风产生的信号。在此方法中，所述参考麦克风经定位使得：(A)当头部在第一方向上旋转时，所述左麦克风与所述参考麦克风之间的左距离减小，且所述右麦克风与所述参考麦克风之间的右距离增加，且(B)当头部在与所述第一方向相反的第二方向上旋转时，所述左距离增加，且所述右距离减小。还揭示具有有形特征的计算机可读存储媒体(例如，非暂时性媒体)，所述有形特征致使所述机器读取所述特征以执行此方法。

根据一般配置的一种音频信号处理设备包含：用于计算左麦克风信号与参考麦克风信号之间的第一交叉相关的装置；以及用于计算右麦克风信号与参考麦克风信号之间的第二交叉相关的装置。此设备还包含用于基于来自所述第一和第二计算出的交叉相关的信息来确定用户的头部的对应定向的装置。在此设备中，所述左麦克风信号是基于由位于头部左侧的左麦克风产生的信号，所述右麦克风信号是基于由位于头部的与左侧相对的右侧的右麦克风产生的信号，且所述参考麦克风信号是基于由参考麦克风产生的信号。在此设备中，所述参考麦克风经定位使得：(A)当头部在第一方向上旋转时，所述左麦克风与所述参考麦克风之间的左距离减小，且所述右麦克风与所述参考麦克风之间的右距离增加，且(B)当头部在与所述第一方向相反的第二方向上旋转时，所述左距离增加，且所述右距离减小。

根据另一一般配置的一种音频信号处理设备包含：左麦克风，其经配置以在所述设备的使用期间位于用户的头部的左侧；以及右麦克风，其经配置以在所述设备的使用期间位于所述头部的与所述左侧相对的右侧。此设备还包含：参考麦克风，其经配置以在所述设备的使用期间经定位而使得：(A)当头部在第一方向上旋转时，所述左麦克风与所述参考麦克风之间的左距离减小，且所述右麦克风与所述参考麦克风之间的右距离增加，且(B)当头部在与所述第一方向相反的第二方向上旋转时，所述左距离增加，且所述右距离减小。此设备还包含：第一交叉相关器，其经配置以计算基于由所述参考麦克风产生的信号的参考麦克风信号与基于由所述左麦克风产生的信号的左麦克风信号之间的第一交叉相关；第二交叉相关器，其经配置以计算所述参考麦克风信号与基于由所述右麦克风产生的信号的右麦克风信号之间的第二交叉相关；以及定向计算器，其经配置以基于来自所述第一和第二计算出的交叉相关的信息确定用户的头部的对应定向。

附图说明

图1A展示一对头戴式耳机D100L、D100R的实例。

图1B展示一对耳塞。

图2A和2B分别展示一对耳杯ECL10、ECR10的前视图和俯视图。

图3A展示根据一般配置的方法M100的流程图。

图3B展示方法M100的实施方案M110的流程图。

图4A展示安装于一副眼用佩镜上的阵列ML10-MR10的例项的实例。

图4B展示安装于头盔上的阵列ML10-MR10的例项的实例。

图4C、5和6展示阵列ML10-MR10的轴线相对于传播方向的定向的实例的俯视图。

图7展示参考麦克风MC10相对于用户身体的中央失状表面与中央冠状表面的位置。

图8A展示根据一般配置的设备MF100的框图。

图8B展示根据另一一般配置的设备A100的框图。

图9A展示设备MF100的实施方案MF110的框图。

图9B展示设备A100的实施方案A110的框图。

图10展示包含麦克风阵列ML10-MR10和一对头戴式扩音器LL10和LR10的布置的俯视图。

图11A到12C分别展示耳杯ECR10的实施方案ECR12、ECR14、ECR16、ECR22、ECR24和ECR26的水平横截面。

图13A到13D展示头戴式耳机D100的实施方案D102的各种视图。

图14A展示头戴式耳机D100的实施方案D104。

图14B展示头戴式耳机D100的实施方案D106的视图。

图14C展示耳塞EB10的实例的前视图。

图14D展示耳塞EB10的实施方案EB12的前视图。

图15展示麦克风ML10、MR10和MV10的使用。

图16A展示方法M100的实施方案M300的流程图。

图16B展示设备A100的实施方案A300的框图。

图17A展示作为虚拟图像旋转器VR10的音频处理级600的实施方案的实例。

图17B展示作为左声道串音消除器CCL10与右声道串音消除器CCR10的音频处理级600的实施方案的实例。

图18展示手持机H100的各种视图。

图19展示手持型装置D800。

图20A展示膝上型计算机D710的前视图。

图20B展示显示装置TV10。

图20C展示显示装置TV20。

图21展示用于自适应串音消除的反馈策略的说明。

图22A展示方法M100的实施方案M400的流程图。

图22B展示设备A100的实施方案A400的框图。

图22C展示作为串音消除器CCL10与CCR10的音频处理级600的实施方案。

图23展示头戴式扩音器和麦克风的布置。

图24展示用于混合3D音频再现方案的概念图。

图25A展示音频预处理级AP10。

图25B展示音频预处理级AP10的实施方案AP20的框图。

具体实施方式

现今，我们正经历着通过例如脸书(Facebook)、推特(Twitter)等快速增长的社交网络服务的个人信息的快速交换。与此同时，我们也看到网络速度和存储量的明显增长，这已经不仅支持文本，还支持多媒体数据。在此环境中，我们看到捕获和再现三维(3D)音频的重要需要，以实现个人听觉体验的更逼真且身临其境的交换。本发明描述用于基于多麦克风拓扑进行稳健且可信的声音图像重构的若干独特特征。

除非明确地受其上下文限制，否则术语“信号”在本文中用以指示其普通意义中的任一者，包含如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非明确地受其上下文限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如，计算或以其它方式产生。除非明确地受其上下文限制，否则本文中使用术语“计算”来指示其普通意义中的任一者，例如，推算、评估、平滑化和/或从多个值中选择。除非明确地受其上下文限制，否则使用术语“获得”来指示其普通意义中的任一者，例如，计算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。除非明确地受其上下文限制，否则使用术语“选择”来指示其普通意义中的任一者，例如，识别、指示、应用和/或使用两个或两个以上的集合中的至少一者和少于全部个。在术语“包括”用于本描述和权利要求书中的情况下，其不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其普通意义中的任一者，包含以下情况：(i)“从……导出”(例如，“B为A的前体”)，(ii)“至少基于”(例如，“A至少基于B”)，和如果在特定上下文中合适，(iii)“等于”(例如，“A等于B”)。类似地，使用术语“响应于”来指示其普通意义中的任一者，包含“至少响应于”。

对多麦克风音频感测装置的麦克风的“位置”的参考指示麦克风的声学感测面的中心的位置，除非上下文另有指示。根据特定上下文，术语“信道”有时用来指示信号路径，且有时用来指示由此路径携载的信号。除非另有指示，否则术语“系列”用来指示一连串两个或两个以上项。术语“算法”用来指示以十为基数的算法，但此运算至其它基数的延伸在本发明的范畴内。术语“频率分量”用来指示信号的一组频率或频带中的一者，例如，信号的频域表示的样本(例如，如通过快速傅立叶变换产生)或信号的次频带(例如，巴克(Bark)级或梅尔(mel)级次频带)。

除非另外指出，否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。关于方法、设备和/或系统，如由其特定上下文指示，可使用术语“配置”。一般地且可互换地使用术语“方法”、“过程”、“程序”和“技术”，除非特定上下文另有指示。也一般地且可互换地使用术语“设备”和“装置”，除非特定上下文另有指示。术语“元件”和“模块”通常用来指示较大配置的一部分。除非明确地受其上下文限制，否则本文中使用术语“系统”来指示其普通意义中的任一者，包含“交互以服务于共同目的的一群元件”。还应将文献的一部分以引用方式进行的任何并入理解为并有在所述部分内提及的术语或变量的定义(在这些定义出现于所述文献中其它处的情况下)，以及在并入的部分中提及的任何图。

术语“译码器”、“编解码器”与“译码系统”可互换地使用以表示包含至少一个编码器和对应解码器的系统，所述至少一个编码器经配置以接收且编码音频信号的帧(可能在一个或一个以上预处理操作之后，例如感觉加权和/或其它滤波操作)，且所述解码器经配置以产生所述帧的经解码的表示。此编码器和解码器通常部署于通信链路的相对终端处。为了支持全双工通信，编码器和解码器两者的例项通常部署于此链路的每一端处。

在此描述中，术语“感测的音频信号”表示经由一个或一个以上麦克风接收的信号，且术语“再现的音频信号”表示从自存储装置检索和/或经由到另一装置的有线或无线连接接收的信息再现的信号。例如通信或回放装置等音频再现装置可经配置以将再现的音频信号输出到装置的一个或一个以上扩音器。或者，此装置可经配置以将再现的音频信号输出到经由导线或无线地耦合到所述装置的听筒、其它头戴式耳机或外部扩音器。参考用于例如电话等话音通信的收发器应用，感测的音频信号是将由收发器发射的近端信号，且再现的音频信号是由收发器接收(例如，经由无线通信链路)的远端信号。参考例如记录的音乐、视频或语音(例如，MP3编码的音乐文件、电影、视频剪辑、有声书(audiobook)、播客(podcast))的回放或此内容的串流传输等移动音频再现应用，再现的音频信号是被回放或串流传输的音频信号。

如本文中描述的方法可经配置以将所捕获的信号作为一系列段来处理。典型的段长度范围自约五毫秒或十毫秒至约四十毫秒或五十毫秒，且段可重叠(例如，其中邻近段重叠25%或50%)或不重叠。在一个特定实例中，将信号分成一系列不重叠段或“帧”，每一者具有十毫秒的长度。在另一特定实例中，每一帧具有20毫秒的长度。如由此方法处理的段也可为如由不同操作处理的较大段的一段(即，“子帧”)。

如本文中所述的用于感测头部定向的系统包含具有左麦克风ML10和右麦克风MR10的麦克风阵列。所述麦克风佩戴于用户头部上以随头部一起移动。举例来说，每一麦克风可佩戴于用户的相应耳朵上以随耳朵一起移动。在使用期间，麦克风ML10与MR10通常隔开约15到25厘米(用户耳朵之间的平均间距为17.5厘米)，且距耳道的开口在五厘米以内。可能需要所述阵列经佩戴而使得阵列的轴线(即，麦克风ML10与MR10的中心之间的线)随头部而旋转。

图1A展示一对头戴式耳机D100L、D100R的实例，所述头戴式耳机D100L、D100R包含麦克风阵列ML10-MR10的例项。图1B展示一对耳塞，所述耳塞包含麦克风阵列ML10-MR10的例项。图2A和2B分别展示一对耳杯(即，头戴式送受话器)ECL10、ECR10的前视图和俯视图，所述耳杯包含麦克风阵列ML10-MR10和连接两个耳杯的带子BD10的例项。图4A展示安装于一副眼用佩镜(例如，眼镜、护目镜)上的阵列ML10-MR10的例项的实例，且图4B展示安装于头盔上的阵列ML10-MR10的例项的实例。

此多麦克风阵列的用途可包含减少近端通信信号(例如，用户的话音)中的噪音、减少环境噪音以实现主动噪音消除(ANC)，和/或均等化远端通信信号(例如，如Visser等人的第2010/0017205号美国公开专利申请案中所描述)。此阵列可能包含额外头戴式麦克风以实现冗余、更好的选择性，和/或支持其它方向性处理操作。

可能需要在系统中使用此麦克风对ML10-MR10以实现头部跟踪。此系统还包含参考麦克风MC10，所述参考麦克风MC10经定位使得用户头部的旋转致使麦克风ML10与MR10中的一者移动地更接近参考麦克风MC10，而另一者移动地远离参考麦克风MC10。参考麦克风MC10可位于例如接线(例如，如图1B中所示的接线CD10)上或可由用户抓持或佩戴或可搁置于用户附近的表面上的装置上(例如，搁置于蜂窝式电话手持机、平板计算机或膝上型计算机，或如图1B中所示的便携式媒体播放器D400)。可能需要但非必须使参考麦克风MC10接近于在头部旋转时由左和右麦克风ML10、MR10描述的平面。

此多麦克风设置可用以通过计算这些麦克风之间的声学关系来执行头部跟踪。可例如通过实时计算基于由这些麦克风响应于外部声场而产生的信号的麦克风信号之间的声学交叉相关来执行头部选择跟踪。

图3A展示根据一般配置的方法M100的流程图，所述方法M100包含任务T100、T200和T300。任务T100计算左麦克风信号与参考麦克风信号之间的第一交叉相关。任务T200计算右麦克风信号与参考麦克风信号之间的第二交叉相关。基于来自所述第一和第二计算出的交叉相关的信息，任务T300确定用户的头部的对应定向。

在一个实例中，任务T100经配置以计算参考信号与左麦克风信号之间的时域交叉相关r_CL。举例来说，任务T100可经实施以根据例如以下的表达式来计算交叉相关：

r_{CL} (d) = Σ_{n = N_{1}}^{N_{2}} x_{C} (n) x_{L} (n - d),

其中x_C表示参考麦克风信号，x_L表示左麦克风信号，n表示样本索引，d表示延迟索引，且N₁和N₂表示范围的第一和最后一个样本(例如，当前帧的第一和最后一个样本)。任务T200可经配置以根据类似表达式计算参考与右麦克风信号之间的时域交叉相关r_CR。

在另一实例中，任务T100经配置以计算参考信号与左麦克风信号之间的频域交叉相关R_CL。举例来说，任务T100可经实施以根据例如以下的表达式来计算交叉相关：

R_{CL} (k) = X_{C} (k) X_{L}^{*} (k),

其中X_C表示参考麦克风信号的DFT，且X_L表示左麦克风信号的DFT(例如，经由当前帧)，k表示频率组索引，且星号表示复共轭运算。任务T200可经配置以根据类似表达式计算参考与右麦克风信号之间的频域交叉相关R_CR。

任务T300可经配置以基于在对应时间内来自这些交叉相关的信息确定用户头部的定向。在时域中，举例来说，每一交叉相关的峰值指示声场的波前在参考麦克风MC10处的到达与其在麦克风ML10与MR10中的对应一者处的到达之间的延迟。在频域中，每一频率分量k的延迟由交叉相关矢量的对应元素的相位指示。

可能需要配置任务T300以确定相对于环境声场的传播方向的定向。当前定向可计算为传播方向与阵列ML10-MR10的轴线之间的角度。此角度可表达为经正态化的延迟差NDD=(d_CL-d_CR)/LRD的反余弦，其中d_CL表示声场的波前在参考麦克风MC10处的到达与其在左麦克风ML10处的到达之间的延迟，d_CR表示声场的波前在参考麦克风MC10处的到达与其在右麦克风MR10处的到达之间的延迟，且左右距离LRD表示麦克风ML10与MR10之间的距离。图4C、5和6展示其中阵列ML10-MR10的轴线相对于传播方向的定向分别为90度、零度和约45度的实例的俯视图。

图3B展示方法M100的实施方案M110的流程图。方法M110包含任务T400，其基于所确定的定向计算用户头部的旋转。任务T400可经配置以将头部的相对旋转计算为两个计算出的定向之间的角度。替代地或另外，任务T400可经配置以将头部的绝对旋转计算为计算出的定向与参考定向之间的角度。可通过在用户正面向已知方向时计算用户头部的定向来获得参考定向。在一个实例中，假定在时间上最持久的用户头部的定向是面向前的参考定向(例如，尤其对于媒体观看或游戏应用)。对于其中参考麦克风MC10沿着用户身体的中央失状平面定位的情况，可明确地跨越相对于面向前的定向+/-90度的范围来跟踪用户头部的旋转。

对于8kHz取样率和340m/s的声速，时域交叉相关中的每一延迟样本对应于4.25cm的距离。对于16kHz取样率，时域交叉相关中的每一延迟样本对应于2.125cm的距离。可通过例如在麦克风信号中的一者中包含分数样本延迟(例如，通过正弦内插)来在时域中实现子样本分辨率。可通过在例如频域信号中的一者中包含相变e^-jkτ来在频域中实现子样本分辨率，其中j为假想数字，且τ为可小于取样周期的时间值。

在如图1B中所示的多麦克风设置中，麦克风ML10和MR10将随头部一起移动，而头戴式耳机接线CD10上(或替代地，位于头戴式耳机所附接到的装置上，例如便携式媒体播放器D400)的参考麦克风MC10将相对固定到身体，且不随头部一起移动。对于其它实例，例如其中参考麦克风MC10处于由用户佩戴或抓持的装置中的情况或其中参考麦克风MC10处于搁置于另一表面上的装置中的情况，参考麦克风MC10的位置可能不随用户头部的旋转而变化。可包含参考麦克风MC10的装置的实例包含如图18中所示的手持机H100(例如，作为麦克风MF10、MF20、MF30、MB10和MB20中的一者，例如MF30)、如图19中所示的手持型装置D800(例如，作为麦克风MF10、MF20、MF30和MB10中的一者，例如MF20)，以及如图20A中所示的膝上型计算机D710(例如，作为麦克风MF10、MF20和MF30中的一者，例如MF20)。当用户旋转他或她的头部时，麦克风MC10与麦克风ML10和MR10中的每一者之间的音频信号交叉相关(包含延迟)将相应地改变，使得可实时跟踪并更新微小移动。

可能需要使参考麦克风MC10较之于中央冠状平面定位得更接近用户身体的中央失状平面(例如，如图7中所示)，因为旋转方向围绕所有三个麦克风在同一条线上的定向不明确。参考麦克风MC10通常定位于用户前方，但参考麦克风MC10还可定位于用户头部后方(例如，在车座的靠枕中)。

可能需要使参考麦克风MC10接近于左和右麦克风。举例来说，可能需要使参考麦克风MC10与左麦克风ML10和右麦克风MR10中的至少最近者之间的距离小于声音信号的波长，因为可预期此关系产生更好的交叉相关结果。典型超声波头部跟踪系统并不能获得此效果，在典型超声波头部跟踪系统中，测距信号的波长小于两厘米。可能需要使左、右和参考麦克风信号中的每一者的能量的至少一半处于不大于1,500赫兹的频率处。举例来说，每一信号可通过低通滤波器进行滤波以使较高频率衰减。

还可预期交叉相关结果随着在头部旋转期间参考麦克风MC10与左麦克风ML10或右麦克风MR10之间的距离减小而改进。在两麦克风头部跟踪系统中不可能实现此效果，因为在此系统中，两个麦克风之间的距离在头部旋转期间是恒定的。

对于如本文中描述的三麦克风头部跟踪系统，环境噪音和声音可通常用作用于更新麦克风交叉相关且因此用作旋转检测的参考音频。环境声场可包含一个或一个以上方向源。为与相对于用户静止的扩音器阵列一起使用所述系统，例如，环境声场可包含由所述阵列产生的场。然而，环境声场还可为背景噪音，其可在空间上分散。在实际环境中，声音吸收体将不均匀地分散，且一些非扩散反射将发生，使得一些方向性能量流将存在于周围声场中。

图8A展示根据一般配置的设备MF100的框图。设备MF100包含用于计算左麦克风信号与参考麦克风信号之间的第一交叉相关(例如，如本文中参考任务T100所描述)的装置F100。设备MF100还包含用于计算右麦克风信号与参考麦克风信号之间的第二交叉相关(例如，如本文中参考任务T200所描述)的装置F200。设备MF100还包含用于基于来自所述第一和第二计算出的交叉相关的信息来确定用户的头部的对应定向(例如，如本文中参考任务T300所描述)的装置F300。图9A展示设备MF100的实施方案MF110的框图，所述实施方案MF110包含用于基于所确定的定向计算头部的旋转(例如，如本文中参考任务T400所描述)的装置F400。

图8B展示根据另一一般配置的设备A100的框图，所述设备A100包含如本文中描述的左麦克风ML10、右麦克风MR10和参考麦克风MC10的例项。设备A100还包含：第一交叉相关器100，其经配置以计算左麦克风信号与参考麦克风信号之间的第一交叉相关(例如，如本文中参考任务T100所描述)；第二交叉相关器200，其经配置以计算右麦克风信号与所述参考麦克风信号之间的第二交叉相关(例如，如本文中参考任务T200所描述)；以及定向计算器300，其经配置以基于来自所述第一和第二计算出的交叉相关的信息确定用户的头部的对应定向(例如，如本文中参考任务T300所描述)。图9B展示设备A100的实施方案A110的框图，所述实施方案A110包含用于基于所确定的定向计算头部的旋转(例如，如本文中参考任务T400所描述)的旋转计算器400。

虚拟3D声音再现可包含基于例如头部相关转移函数(HRTF)等声学转移函数进行的反滤波。在此上下文中，头部跟踪通常是所需特征，其可帮助支持一贯的声音图像再现。举例来说，可能需要通过基于头部位置跟踪的结果来在一组固定反滤波器中选择来执行反滤波。在另一实例中，基于由相机捕获图像的顺序的分析来执行头部位置跟踪。在另一实例中，基于来自一个或一个以上头戴式定向传感器(例如，加速计、回转仪和/或磁力计，如标题为“用于定向敏感记录控制的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,AND COMPUTER-READABLE MEDIA FORORIENTATION-SENSITIVE RECORDING CONTROL)”第13/XXX,XXX号美国专利申请案(代理人档案号102978U1)中所描述)的指示来执行头部跟踪。一个或一个以上此些定向传感器可安装于例如如图2A中所示的一对耳杯中的一个耳杯中和/或带子BD10上。

通常假定，远端用户使用一对头戴式扩音器来倾听所记录的空间声音。此对扩音器包含佩戴于头部上以随用户的左耳一起移动的左扩音器以及佩戴于头部上以随用户的右耳一起移动的右扩音器。图10展示包含麦克风阵列ML10-MR10和此对头戴式扩音器LL10和LR10的布置的俯视图，且还可实施如上文所描述的麦克风阵列ML10-MR10的各种载体以包含具有两个或两个以上扩音器的此阵列。

举例来说，图11A到12C分别展示耳杯ECR10的实施方案ECR12、ECR14、ECR16、ECR22、ECR24和ECR26的水平横截面图，所述实施方案包含经布置以产生声学信号(例如，从无线地接收或经由到电话手持机或媒体回放或串流传输装置的接线接收的信号)到用户耳朵的此扩音器RLS10。可能需要通过耳杯的结构来使麦克风不能接收来自扩音器的机械振动。耳杯ECR10可经配置以为耳罩式(supra-aural)(即，在使用期间搁置于用户耳朵上而不围封耳朵)或护耳式(circumaural)(即，在使用期间围封用户的耳朵)的。这些实施方案中的一些还包含可用以支持主动噪音消除(ANC)的误差麦克风MRE10和/或可用以支持如上文指出的近端和/或远端噪音减小操作的一对扩音器MR10a、MR10b。(将理解，本文描述的各种右侧耳杯的左侧例项被类似地配置。)

图13A到13D展示头戴式耳机D100的实施方案D102的各种视图，所述实施方案D102包含承载麦克风MR10和MV10的外壳Z10和从外壳延伸以将声音从内部扩音器引导到耳道中的头戴受话器Z20。此装置可经配置以经由与例如蜂窝式电话手持机的通信(例如，使用如由华盛顿州贝尔维尤市蓝牙特殊兴趣小组公司发布的Bluetooth^TM协议的一个版本)支持半双工或全双工电话。一般来说，头戴式耳机的外壳可如图13A、13B和13D中所示为矩形或以其它方式为细长(例如，成形为迷你吊杆状)或可更圆或甚至为圆形。外壳还可围封电池和处理器和/或其它处理电路(例如，印刷电路板和安装于其上的组件)，且可包含电端口(例如，迷你通用串行总线(USB)或用于电池充电的其它端口)和用户接口特征，例如一个或一个以上按钮开关和/或LED。通常，外壳沿其主轴的长度在1到3英寸的范围内。

通常，头戴式耳机的每一麦克风在外壳中的充当声学端口的一个或一个以上小孔后方安装于装置内。图13B到13D展示用于麦克风MV100的声学端口Z40和用于麦克风MR10的声学端口Z50的位置。

头戴式耳机还可包含紧固装置，例如耳钩Z30，其通常可从头戴式耳机拆卸。外部耳钩可为可反转的，以例如允许用户配置头戴式耳机以用于任一耳朵中。或者，头戴式耳机的头戴受话器可设计为内部紧固装置(例如，耳塞)，其可包含可移除式听筒以允许不同用户使用具有不同大小(例如，直径)的听筒以更好地适合于特定用户的耳道的外部部分。图15展示使用麦克风ML10、MR10和MV10来鉴别从四个不同空间扇形区到达的声音。

图14A展示头戴式耳机D100的实施方案D104，其中误差麦克风ME10被引导到耳道中。图14B展示包含用于误差麦克风ME10的端口Z60的头戴式耳机D100的实施方案D106沿着图13C的视图的相反方向的视图。(将理解，本文描述的各种右侧头戴式耳机的左侧例项经类似地配置以包含经定位以将声音引导到用户耳道中的扩音器。)

图14C展示耳杯EB10(例如，如图1B中所示)的实例的前视图，所述耳杯EB10含有左扩音器LLS10和左麦克风ML10。在使用期间，耳塞EB10佩戴于用户的左耳处以将由左扩音器LLS10产生(例如，从经由接线CD10接收的信号)的声学信号引导到用户的耳道中。可能需要由例如弹性体(例如，硅橡胶)等弹性材料来制成或覆盖将声学信号引导到用户耳道中的耳塞EB10的一部分，使得其可舒适地佩戴以与用户耳道形成密封。图14D展示耳塞EB10的实施方案EB12的前视图，所述实施方案EB12含有误差麦克风MLE10(例如，以支持主动噪音消除)。(将理解，本文描述的各种左侧耳塞的右侧例项被类似地配置。)

如本文中描述的头部跟踪可用以旋转由头戴式扩音器产生的虚拟空间图像。举例来说，可能需要根据头部移动来相对于头戴式扩音器阵列的轴线移动虚拟图像。在一个实例中，使用所确定的定向来在所存储的双耳空间转移函数(BRTF)(其描述在每一耳朵处的空间的脉冲响应)和/或头部相关转移函数(HRTF)(其描述用户的头部(且可能躯干)对由每一耳朵接收的声场的影响)中进行选择。此些声学转移函数可分别地离线计算(例如，在训练操作中)，且可经选择以复制所需声学空间且/或可针对用户个人化。接着将所选择的声学转移函数应用于对应耳朵的扩音器信号。

图16A展示方法M100的实施方案M300的流程图，所述实施方案M300包含任务T500。基于由任务T300确定的定向，任务T500选择声学转移函数。在一个实例中，所选择的声学转移函数包含空间脉冲响应。测量、选择和应用空间脉冲响应的描述可见于例如第2006/0045294A1号美国公开专利申请案(Smyth)中。

方法M300还可经配置以基于所选择的声学转移函数来驱动一对扩音器。图16B展示设备A100的实施方案A300的框图。设备A300包含经配置以选择声学转移函数(例如，如本文中参考任务T500所描述)的声学转移函数选择器500。设备A300还包含经配置以基于所选择的声学转移函数来驱动一对扩音器的音频处理级600。音频处理级600可经配置以通过将音频输入信号SI10、SI20从数字格式转换到模拟格式和/或通过对信号执行任何其它所需音频处理操作(例如，滤波、放大、应用增益因数，和/或控制信号电平)来产生扩音器驱动信号SO10、SO20。音频输入信号SI10、SI20可为由媒体回放或串流传输装置(例如，平板计算机或膝上型计算机)提供的再现的音频信号的声道。在一个实例中，音频输入信号SI10、SI20为由蜂窝式电话手持机提供的远端通信信号的声道。音频处理级600还可经配置以提供到每一扩音器的阻抗匹配。图17A展示作为虚拟图像旋转器VR10的音频处理级600的实施方案的实例。

在其它应用中，可能可使用能够以两个以上空间维度再现声场的外部扩音器阵列。图18展示手持机H100的此阵列LS20L-LS20R的实例，所述手持机H100还包含听筒扩音器LS10、触摸屏TS10和相机镜头L10。图19展示手持型装置D800的此阵列SP10-SP20的实例，所述手持型装置D800还包含用户接口控制UI10、UI20和触摸屏显示器TS10。图20B展示在显示装置TV10(例如，电视或计算机监视器)中的显示屏SC20下方的此扩音器阵列LSL10-LSR10的实例，且图20C展示在此显示装置TV20中的显示屏SC20的任一侧上的阵列LSL10-LSR10的实例。如图20A中所示的膝上型计算机D710也可经配置以包含此阵列(例如，在底部面板PL20中的键盘的后方和/或旁侧，和/或在顶部目标PL10的显示屏SC10的边沿中)。此阵列还可围封于一个或一个以上单独机箱中或安装于例如汽车等车辆的内部。可用以再现声场的空间音频编码方法的实例包含5.1环绕、7.1环绕、杜比环绕、杜比定向逻辑(Dolby Pro-Logic)，或任何其它相位-振幅矩阵立体声格式；杜比数字、DTS或任何离散多声道格式；波场合成；以及高保真立体声复制(Ambisonic)B格式或较高阶Ambisonic格式。五声道编码的一个实例包含左、右、中、左环绕和右环绕声道。

为加宽由扩音器阵列再现的感知到的空间图像，通常基于正常混合情形将固定反滤波器矩阵应用到回放的扩音器信号以实现串音消除。然而，如果用户的头部正在移动(例如，旋转)，那么此固定反滤波方法可能并非最佳。

可能需要配置方法M300以使用所确定的定向来控制由外部扩音器阵列产生的空间图像。举例来说，可能需要实施任务T500以基于所确定的定向来配置串音消除操作。任务T500的此实施方案可包含根据所确定的定向从一组HRTF(例如，针对每一声道)中选择一者。选择和使用HRTF(也称头部相关脉冲响应或HRIR)以用于定向依赖性串音消除的描述可见于例如第2008/0025534Al号美国公开专利申请案(Kuhn等人)和第6,243,476Bl号美国专利(Gardner)中。图17B展示作为左声道串音消除器CCL10与右声道串音消除器CCR10的音频处理级600的实施方案的实例。

对于其中头戴式扩音器阵列与外部扩音器阵列(例如，安装于显示屏外壳(例如电视或计算机监视器)中、安装于车辆内部和/或容纳于一个或一个以上单独机箱中的阵列)结合使用的情况，可执行如本文中所描述的虚拟图像的旋转以维持虚拟图像与由外部阵列产生的声场的对准(例如，对于游戏或电影观看应用)。

可能需要使用由每一耳朵处的麦克风(例如，由麦克风阵列ML10-MR10)捕获的信息来提供自适应控制以实现在两个或三个维度上的可信的音频再现。当此阵列与外部扩音器阵列结合使用时，安装于头戴式耳机上的双耳记录可用以执行自适应串音消除，其允许稳健地放大的甜点用于3D音频再现。

在一个实例中，由麦克风ML10和MR10响应于由外部扩音器阵列造成的声场而产生的信号用作反馈信号以更新对扩音器驱动信号的自适应滤波操作。此操作可包含自适应反滤波以实现串音消除和/或去回响。还可能需要调适扩音器驱动信号以随着头部移动而移动甜点。此调适可与如上所述的旋转由头戴式扩音器产生的虚拟图像组合。

在自适应串音消除的替代方法中，使用关于由扩音器阵列产生的声场的反馈信息(如由头戴式麦克风记录于用户耳朵的水平处)来对由扩音器阵列产生的信号进行去相关且因此实现较宽的空间图像。用于此任务的一种已被证实的技术是基于盲源分离(BSS)技术。事实上，由于近耳捕获的信号的目标信号也是已知的，因此可应用充分快速地会聚的任何自适应滤波方案(例如，类似于自适应声学回音消除方案)，例如最小均方(LMS)技术或独立分量分析(ICA)技术。图21展示可使用如本文中描述的头戴式麦克风阵列实施的此策略的说明。

图22A展示方法M100的实施方案M400的流程图。方法M400包含任务T700，任务T700基于来自由左麦克风产生的信号的信息和来自由右麦克风产生的信号的信息更新自适应滤波操作。图22B展示设备A100的实施方案A400的框图。设备A400包含滤波器自适应模块，所述滤波器自适应模块经配置以基于来自由左麦克风产生的信号的信息和来自由右麦克风产生的信号的信息更新自适应滤波操作(例如，根据LMS或ICA技术)。设备A400还包含音频处理级600的例项，所述音频处理级600的例项经配置以执行经更新的自适应滤波操作以产生扩音器驱动信号。图22C展示作为一对串音消除器CCL10和CCR10的音频处理级600的实施方案，其系数由滤波器自适应模块700根据左麦克风反馈信号HFL10和右麦克风反馈信号HFR10加以更新。

执行如上文所述的自适应串音消除可提供更好的源定位。然而，利用ANC麦克风的自适应滤波还可经实施以包含对感知参数(例如，深度和空间感知)的可参数化控制性和/或使用靠近用户耳朵记录的实际反馈来提供适当的定位感知。此可控性可表示为例如易于存取的用户接口，尤其是对于触摸屏装置(例如，智能电话或移动PC，例如平板计算机)。

因为由颅内声音定位(偏侧化)与外部声音定位造成的不同感知效果，立体声头戴式耳机自身通常无法提供像外部播放的扩音器那样丰富的空间图像。如图21中所示的反馈操作可用以单独地应用两个不同3D音频(基于头戴式扩音器与基于外部扩音器阵列)再现方案。然而，我们可利用如图23中所示的头部安装布置来联合地优化两个不同3D音频再现方案。可通过调换图21中所示的布置中的扩音器与麦克风的位置来获得此结构。注意，利用此配置，我们仍可执行ANC操作。然而，另外，我们现在捕获不仅来自外部扩音器阵列而且来自头戴式扩音器LL10和LR10的声音，且可对于所有再现路径执行自适应滤波。因此，我们现在可具有明显的可参数化可控性来产生靠近耳朵的适当声音图像。举例来说，还可应用特定限制，使得我们可更多地依赖于头戴式送受话器再现用于定位感知，且更多地依赖扩音器再现用于距离和空间感知。图24展示用于使用此布置的混合3D音频再现方案的概念图。

在此情况下，反馈操作可经配置以使用由头戴式麦克风(位于头戴式扩音器内侧，例如，如本文中描述的ANC误差麦克风，例如麦克风MLE10和MRE10)产生的信号来监控组合声场。可根据由头戴式麦克风感测的声场来调适用以驱动头戴式扩音器的信号。可能响应于用户选择，还可使用声场的此自适应组合来增强深度感知和/或空间感知(例如，通过添加回响和/或改变外部扩音器信号中的直达与回响比率)。

利用多麦克风方法的三维声音捕获和再现可用以提供支持可信且身临其境的3D音频体验的特征。利用预定义的控制参数，用户或开发者不仅可控制源位置，而且可控制实际深度和空间感知。自动听觉场景分析也使得在缺乏用户意图的特定指示的情况下能够对于默认设置进行合理的自动程序。

麦克风ML10、MR10和MC10中的每一者可具有全向、双向或单向(例如，心形线)的响应。可使用的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。应明确注意，更通常地可将麦克风实施为对辐射或发射而不是对声音敏感的换能器。在一个此实例中，将麦克风对实施为一对超声换能器(例如，对大于十五千赫、二十千赫、二十五千赫、三十千赫、四十千赫或五十千赫或五十千赫以上的声频敏感的换能器)。

可将设备A100实施为硬件(例如，处理器)与软件和/或与固件的组合。设备A100还可包含如图25A中所示的音频预处理级AP10，所述音频预处理级AP10对麦克风信号ML10、MR10和MC10中的每一者执行一个或一个以上预处理操作，以产生左麦克风信号AL10、右麦克风信号AR10和参考麦克风信号AC10中的对应者。此些预处理操作可包含(不限于)阻抗匹配、模/数转换、增益控制，和/或在模拟和/或数字域中的滤波。

图25B展示音频预处理级AP10的实施方案AP20的框图，所述实施方案AP20包含模拟预处理级P10a、P10b和P10c。在一个实例中，级P10a、P10b和P10c各自经配置以对对应的麦克风信号执行高通滤波操作(例如，用50Hz、100Hz或200Hz的截止频率)。通常，级P10a、P10b和P10c将经配置以对每一信号执行相同功能。

可能需要音频预处理级AP10产生每一麦克风信号，作为数字信号，也就是说，作为一连串样本。举例来说，音频预处理级AP20包含模/数转换器(ADC)C10a、C10b和C10c，其各自经布置以取样对应的模拟信号。针对声学应用的典型取样速率包含8kHz、12kHz、16kHz和在从约8kHz到约16kHz的范围中的其它频率，但也可使用高达约44.1kHz、48kHz或192kHz的取样速率。通常，转换器C10a、C10b和C10c将经配置而以相同速率取样每一信号。

在此实例中，音频预处理级AP20还包含数字预处理级P20a、P20b和P20c，其各自经配置以对相应数字化声道执行一个或一个以上预处理操作(例如，频谱成形)。通常，级P20a、P20b和P20c将经配置以对每一信号执行相同功能。还应注意，预处理级AP10可经配置以从麦克风ML10和MR10中的每一者产生信号的一个版本用于交叉相关计算，且产生另一版本用于反馈用途。虽然图25A和25B展示两声道实施方案，但将理解，相同原理可延伸到任意数目个麦克风。

本文中揭示的方法和设备通常可应用于任何收发和/或音频感测应用中，包含这些应用的移动或其它便携式例项。举例来说，本文中揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将理解，具有如本文中所描述的特征的方法和设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的任何各种通信系统中，例如，经由有线和/或无线(例如，CDMA、TDMA、FDMA和/或TD-SCDMA)传输声道使用IP语音(VoIP)的系统。

明确预料且在此揭示，本文中揭示的通信装置可适宜于在为分组交换式网络(例如，经布置以根据例如VoIP的协议承载音频传输的有线和/或无线网络)和/或电路交换式网络中使用。还明确预料且在此揭示，本文中揭示的通信装置可适宜于在窄带译码系统(例如，编码约四千赫或五千赫的音频频率范围的系统)中使用和/或适宜于在宽带译码系统(例如，编码大于五千赫的音频频率的系统)中使用。

描述的配置的前述呈现经提供以使任何所属领域的技术人员制造或使用本文中揭示的方法和其它结构。本文中展示和描述的流程图、框图和其它结构仅为实例，且这些结构的其它变体也在本发明的范畴内。对这些配置的各种修改是可能的，且本文中所呈现的一般原理也可应用于其它配置。因此，本发明不希望限于上文所展示的配置，而是应符合与在本文中(包含在所申请的附加权利要求书中)以任何方式揭示的原理和新颖特征一致的最广范围，所述权利要求书形成原始揭示内容的一部分。

所属领域的技术人员将了解，可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所提及的数据、指令、命令、信息、信号、位和符号。

对于如本文中揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂性(通常按每秒百万个指令或MIPS来测量)最小化，尤其对于计算集中式应用，例如，经压缩的音频或视听信息(例如，根据压缩格式编码的档案或流，例如，本文中识别的实例中的一者)的重放，或针对宽带通信(例如，按高于八千赫的取样速率(例如，12kHz、16kHz或44.1kHz、48kHz或192kHz)的话音通信)的应用。

多麦克风处理系统的目标可包含实现10dB到12dB的总噪音减少，在所需扬声器的移动期间保持话音电平和色彩，获得噪音已被移动至背景内而非激进的噪音移除的察觉，语音的去回响，和/或实现针对较激进的噪音减少的后期处理的选项。

如本文中揭示的设备(例如，设备A100和MF100)的实施方案的各种元件可以适合于希望的应用的硬件与软件和/或与固件的任何组合来体现。举例来说，此些元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两个或两个以上或甚至全部可实施于同一或同样的阵列内。此或此类阵列可实施于一个或一个以上芯片内(例如，包含两个或两个以上芯片的芯片组内)。

本文中揭示的设备的各种实施方案的一或多个元件也可全部或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(场可编程门阵列)、ASSP(特殊应用标准产品)和ASIC(专用集成电路))阵列上执行的一组或一组以上指令。如本文中揭示的设备的实施方案的各种元件中的任一者也可实施为一或多个计算机(例如，包含经编程以执行一个或一个以上指令集或序列的机器)，且这些元件中的任何两者或两者以上或甚至全部可实施于一个或一个以上相同的此种计算机内。

如本文中揭示的处理器或用于处理的其它装置可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的一个或一个以上电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或逻辑门)阵列，且这些元件中的任一者可实施为一个或一个以上此类阵列。此或此类阵列可实施于一个或一个以上芯片内(例如，包含两个或两个以上芯片的芯片组内)。此类阵列的实例包含固定或可编程逻辑元件(例如，微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC)阵列。如本文中揭示的处理器或用于处理的其它装置还可实施为一或多个计算机(例如，包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器)或其它处理器。如本文中描述的处理器可能用来执行并非与头部跟踪程序直接有关的任务或其它指令集，例如，关于嵌入有所述处理器的装置或系统(例如，音频感测装置)的另一操作的任务。如本文中揭示的方法的部分还可由音频感测装置的处理器执行，方法的另一部分还可在一个或一个以上其它处理器的控制下执行。

所属领域的技术人员将了解，可将关于本文中揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作实施为电子硬件、计算机软件或两者的组合。这些模块、逻辑块、电路和操作可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或经设计以产生如本文中揭示的配置的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。举例来说，此配置可至少部分实施为硬接线的电路，实施为制造至专用集成电路内的电路配置，或实施为载入至非易失性存储装置内的固件程序或从数据存储媒体载入或载入至数据存储媒体的软件程序作为机器可读代码，这些代码为可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器，但在替代例中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可以实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、与DSP核心结合的一个或多个微处理器或任何其它此类配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移除式盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合至处理器，使得处理器可自存储媒体读取信息以及将信息写入至存储媒体。作为替代，存储媒体可以与处理器整合为一体。处理器和存储媒体可以驻留在ASIC中。ASIC可驻留于用户终端中。在替代例中，处理器及存储媒体可作为离散组件驻留于用户终端中。

应注意，本文揭示的各种方法可由例如处理器等逻辑元件的阵列执行，且如本文中描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用，术语“模块”或“子模块”可指包含呈软件、硬件或固件形式的计算机指令(例如，逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解，多个模块或系统可组合为一个模块或系统，且一个模块或系统可被分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时，过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构和类似者有关的任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中，或由以载波体现的计算机数据信号在传输媒体或通信链路上传输。

本文中揭示的方法、方案和技术的实施方案也可有形地体现(例如，以如本文中列举的一个或一个以上计算机可读媒体)为可由包含逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)阵列的机器读取和/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或转移信息的任何媒体(包含易失性、非易失性、可移除式和非可移除式媒体)。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路，或可用于存储所需信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如，电子网络声道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或企业内部网络等计算机网络来下载。在任一情况下，本发明的范畴不应被解释为受这些实施例限制。

本文中描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以两者的组合来体现。在如本文中揭示的方法的实施方案的典型应用中，逻辑元件(例如，逻辑门)阵列经配置以执行方法的各种任务中的一个、一个以上或甚至全部。所述任务中的一者或一者以上(可能所有)还可实施为在计算机程序产品(例如，一个或一个以上数据存储媒体，例如，磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如，一个或一个以上指令集)，所述计算机程序产品可由包含逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)阵列的机器(例如，计算机)读取和/或执行。如本文中揭示的方法的实施方案的任务也可由一个以上此阵列或机器执行。在这些或其它实施方案中，所述任务可在用于无线通信的装置内执行，所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换式和/或分组交换式网络通信(例如，使用一个或一个以上协议(例如，VoIP))。举例来说，此装置可包含经配置以接收和/或发射经编码的帧的RF电路。

明确揭示，本文中揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行，且本文中描述的各种设备可包含于此装置内。典型实时(例如，线上)应用为使用此移动装置进行的电话会话。

在一个或一个以上示范性实施例中，本文中描述的操作可以硬件、软件、固件或其任何组合实施。如果以软件实施，那么这些操作可作为一个或一个以上指令或代码存储于计算机可读媒体上或在计算机可读媒体上传输。属于“计算机可读媒体”包含计算机存储媒体与包括促进计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。以实例说明且不受限制，此计算机可读媒体可包括存储元件阵列，例如，半导体存储器(其可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)，或铁电、磁阻、双向、聚合或相变存储器；CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以在可由计算机存取的有形结构中存储呈指令或数据结构形式的所需程序代码的任何其它媒体。同样，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输软件，那么同轴电缆、光缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘和Blu-ray Disc^TM(蓝光光盘协会，加利福尼亚州大学城(Universal City,CA))，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。上文的组合也应包括在计算机可读媒体的范围内。

如本文中描述的声学信号处理设备可并入至接受语音输入以便控制某些操作或可以其它方式受益于所需噪音与背景噪音的分离的电子装置(例如，通信装置)内。许多应用可受益于增强清晰的所需声音或将清晰的所需声音与源自多个方向的背景声音分离。这些应用可包含电子或计算装置中的人机接口，其并入有例如话音辨识和检测、语音增强和分离、话音激活式控制和类似者的能力。可能需要实施此声学信号处理设备以适用于只提供有限处理能力的装置中。

本文中描述的模块、元件和装置的各种实施方案的元件可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如，晶体管或门)阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件(例如，微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)阵列上执行的一个或一个以上指令集。

有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用来执行并非与所述设备的操作直接有关的任务或其它指令集，例如，关于嵌入有所述设备的装置或系统的另一操作的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如，用来在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集或在不同时间对不同元件执行操作的电子和/或光学装置的布置)。

Claims

1.一种音频信号处理方法，所述方法包括：

计算左麦克风信号与参考麦克风信号之间的第一交叉相关；

计算右麦克风信号与所述参考麦克风信号之间的第二交叉相关；以及

基于来自所述第一和第二计算出的交叉相关的信息，确定用户的头部的对应定向，

其中所述左麦克风信号是基于由位于所述头部左侧的左麦克风产生的信号，所述右麦克风信号是基于由位于所述头部的与所述左侧相对的右侧的右麦克风产生的信号，且所述参考麦克风信号是基于由参考麦克风产生的信号，且

其中所述参考麦克风经定位使得：(A)当所述头部在第一方向上旋转时，所述左麦克风与所述参考麦克风之间的左距离减小，且所述右麦克风与所述参考麦克风之间的右距离增加，且(B)当所述头部在与所述第一方向相反的第二方向上旋转时，所述左距离增加，且所述右距离减小。

2.根据权利要求1所述的方法，其中穿过所述左麦克风的中心与所述右麦克风的中心的线随着所述头部一起旋转。

3.根据权利要求1和2中任一权利要求所述的方法，其中所述左麦克风佩戴于所述头部上以随所述用户的左耳一起移动，且其中所述右麦克风佩戴于所述头部上以随所述用户的右耳一起移动。

4.根据权利要求1到3中任一权利要求所述的方法，其中所述左麦克风定位于距所述用户的左耳道的开口不大于五厘米的位置处，且其中所述右麦克风定位于距所述用户的右耳道的开口不大于五厘米的位置处。

5.根据权利要求1到4中任一权利要求所述的方法，其中所述参考麦克风定位于所述用户的身体的中央冠状平面的前侧处。

6.根据权利要求1到5中任一权利要求所述的方法，其中所述参考麦克风较之于所述用户的身体的中央冠状平面定位得更接近于所述用户的所述身体的中央失状平面。

7.根据权利要求1到6中任一权利要求所述的方法，其中所述参考麦克风的位置不随所述头部的旋转而变化。

8.根据权利要求1到7中任一权利要求所述的方法，其中所述左、右和参考麦克风信号中的每一者的能量的至少一半处于不大于1,500赫兹的频率处。

9.根据权利要求1到7中任一权利要求所述的方法，其中所述方法包含基于所述所确定的定向来计算所述头部的旋转。

10.根据权利要求1到7中任一权利要求所述的方法，其中所述方法包含：

基于所述所确定的定向选择声学转移函数；以及

基于所述所选择的声学转移函数来驱动一对扩音器。

11.根据权利要求10所述的方法，其中所述所选择的声学转移函数包含空间脉冲响应。

12.根据权利要求10和11中任一权利要求所述的方法，其中所述所选择的声学转移函数包含头部相关转移函数。

13.根据权利要求10到12中任一权利要求所述的方法，其中所述驱动包括执行基于所述所选择的声学转移函数的串音消除操作。

14.根据权利要求1到7中任一权利要求所述的方法，其中所述方法包括：

基于来自由所述左麦克风产生的所述信号的信息和来自由所述右麦克风产生的所述信号的信息更新自适应滤波操作；以及

基于所述经更新的自适应滤波操作，驱动一对扩音器。

15.根据权利要求14所述的方法，其中由所述左麦克风产生的所述信号和由所述右麦克风产生的所述信号是响应于由所述对扩音器产生的声场而产生。

16.根据权利要求10到14中任一权利要求所述的方法，其中所述对扩音器包含佩戴于所述头部上以随所述用户的左耳一起移动的左扩音器以及佩戴于所述头部上以随所述用户的右耳一起移动的右扩音器。

17.一种用于音频信号处理的设备，所述设备包括：

用于计算左麦克风信号与参考麦克风信号之间的第一交叉相关的装置；

用于计算右麦克风信号与所述参考麦克风信号之间的第二交叉相关的装置；以及

用于基于来自所述第一和第二计算出的交叉相关的信息来确定用户的头部的对应定向的装置；

18.根据权利要求17所述的设备，其中在所述设备的使用期间，穿过所述左麦克风的中心与所述右麦克风的中心的线随着所述头部一起旋转。

19.根据权利要求17和18中任一权利要求所述的设备，其中所述左麦克风经配置以在所述设备的使用期间佩戴于所述头部上以随所述用户的左耳一起移动，且其中所述右麦克风经配置以在所述设备的使用期间佩戴于所述头部上以随所述用户的右耳一起移动。

20.根据权利要求17到19中任一权利要求所述的设备，其中所述左麦克风经配置以在所述设备的使用期间定位于距所述用户的左耳道的开口不大于五厘米的位置处，且其中所述右麦克风经配置以在所述设备的使用期间定位于距所述用户的右耳道的开口不大于五厘米的位置处。

21.根据权利要求17到20中任一权利要求所述的设备，其中所述参考麦克风经配置以在所述设备的使用期间定位于所述用户的身体的中央冠状平面的前侧处。

22.根据权利要求17到21中任一权利要求所述的设备，其中所述参考麦克风经配置以在所述设备的使用期间较之于所述用户的身体的中央冠状平面定位得更接近于所述用户的所述身体的中央失状平面。

23.根据权利要求17到22中任一权利要求所述的设备，其中所述参考麦克风的位置不随所述头部的旋转而变化。

24.根据权利要求17到23中任一权利要求所述的设备，其中所述左、右和参考麦克风信号中的每一者的能量的至少一半处于不大于1,500赫兹的频率处。

25.根据权利要求17到23中任一权利要求所述的设备，其中所述设备包含用于基于所述所确定的定向来计算所述头部的旋转的装置。

26.根据权利要求17到23中任一权利要求所述的设备，其中所述设备包含：

用于基于所述所确定的定向选择一组声学转移函数中的一者的装置；以及

用于基于所述所选择的声学转移函数来驱动一对扩音器的装置。

27.根据权利要求26所述的设备，其中所述所选择的声学转移函数包含空间脉冲响应。

28.根据权利要求26和27中任一权利要求所述的设备，其中所述所选择的声学转移函数包含头部相关转移函数。

29.根据权利要求26到28中任一权利要求所述的设备，其中所述用于驱动的装置经配置以执行基于所述所选择的声学转移函数的串音消除操作。

30.根据权利要求17到23中任一权利要求所述的设备，其中所述设备包括：

用于基于来自由所述左麦克风产生的所述信号的信息和来自由所述右麦克风产生的所述信号的信息更新自适应滤波操作的装置；以及

用于基于所述经更新的自适应滤波操作来驱动一对扩音器的装置。

31.根据权利要求30所述的设备，其中由所述左麦克风产生的所述信号和由所述右麦克风产生的所述信号是响应于由所述对扩音器产生的声场而产生。

32.根据权利要求26到30中任一权利要求所述的设备，其中所述对扩音器包含佩戴于所述头部上以随所述用户的左耳一起移动的左扩音器以及佩戴于所述头部上以随所述用户的右耳一起移动的右扩音器。

33.一种用于音频信号处理的设备，所述设备包括：

左麦克风，其经配置以在所述设备的使用期间位于用户的头部的左侧；

右麦克风，其经配置以在所述设备的使用期间位于所述头部的与所述左侧相对的右侧；

参考麦克风，其经配置以在所述设备的使用期间经定位而使得：(A)当所述头部在第一方向上旋转时，所述左麦克风与所述参考麦克风之间的左距离减小，且所述右麦克风与所述参考麦克风之间的右距离增加，且(B)当所述头部在与所述第一方向相反的第二方向上旋转时，所述左距离增加，且所述右距离减小；

第一交叉相关器，其经配置以计算基于由所述参考麦克风产生的信号的参考麦克风信号与基于由所述左麦克风产生的信号的左麦克风信号之间的第一交叉相关；

第二交叉相关器，其经配置以计算所述参考麦克风信号与基于由所述右麦克风产生的信号的右麦克风信号之间的第二交叉相关；以及

定向计算器，其经配置以基于来自所述第一和第二计算出的交叉相关的信息确定用户的头部的对应定向。

34.根据权利要求33所述的设备，其中在所述设备的使用期间，穿过所述左麦克风的中心与所述右麦克风的中心的线随着所述头部一起旋转。

35.根据权利要求33和34中任一权利要求所述的设备，其中所述左麦克风经配置以在所述设备的使用期间佩戴于所述头部上以随所述用户的左耳一起移动，且其中所述右麦克风经配置以在所述设备的使用期间佩戴于所述头部上以随所述用户的右耳一起移动。

36.根据权利要求33到35中任一权利要求所述的设备，其中所述左麦克风经配置以在所述设备的使用期间定位于距所述用户的左耳道的开口不大于五厘米的位置处，且其中所述右麦克风经配置以在所述设备的使用期间定位于距所述用户的右耳道的开口不大于五厘米的位置处。

37.根据权利要求33到36中任一权利要求所述的设备，其中所述参考麦克风经配置以在所述设备的使用期间定位于所述用户的身体的中央冠状平面的前侧处。

38.根据权利要求33到37中任一权利要求所述的设备，其中所述参考麦克风经配置以在所述设备的使用期间较之于所述用户的身体的中央冠状平面定位得更接近于所述用户的所述身体的中央失状平面。

39.根据权利要求33到38中任一权利要求所述的设备，其中所述参考麦克风的位置不随所述头部的旋转而变化。

40.根据权利要求33到39中任一权利要求所述的设备，其中所述左、右和参考麦克风信号中的每一者的能量的至少一半处于不大于1,500赫兹的频率处。

41.根据权利要求33到39中任一权利要求所述的设备，其中所述设备包含经配置以基于所述所确定的定向来计算所述头部的旋转的旋转计算器。

42.根据权利要求33到39中任一权利要求所述的设备，其中所述设备包含：

声学转移函数选择器，其经配置以基于所述所确定的定向选择一组声学转移函数中的一者；以及

音频处理级，其经配置以基于所述所选择的声学转移函数来驱动一对扩音器。

43.根据权利要求42所述的设备，其中所述所选择的声学转移函数包含空间脉冲响应。

44.根据权利要求42和43中任一权利要求所述的设备，其中所述所选择的声学转移函数包含头部相关转移函数。

45.根据权利要求42到44中任一权利要求所述的设备，其中所述音频处理级经配置以执行基于所述所选择的声学转移函数的串音消除操作。

46.根据权利要求33到39中任一权利要求所述的设备，其中所述设备包括：

滤波器自适应模块，其经配置以基于来自由所述左麦克风产生的所述信号的信息和来自由所述右麦克风产生的所述信号的信息更新自适应滤波操作；以及

音频处理级，其经配置以基于所述经更新的自适应滤波操作来驱动一对扩音器。

47.根据权利要求46所述的设备，其中由所述左麦克风产生的所述信号和由所述右麦克风产生的所述信号是响应于由所述对扩音器产生的声场而产生。

48.根据权利要求42到46中任一权利要求所述的设备，其中所述对扩音器包含佩戴于所述头部上以随所述用户的左耳一起移动的左扩音器以及佩戴于所述头部上以随所述用户的右耳一起移动的右扩音器。

49.一种机器可读存储媒体，其包括当由机器读取时致使所述机器执行根据权利要求1到16中任一权利要求所述的方法的有形特征。