CN107113499B

CN107113499B - 定向音频捕获

Info

Publication number: CN107113499B
Application number: CN201580071317.7A
Authority: CN
Inventors: H·E·瓦拉布汉; S·萨卡里; C·艾文达诺; L·佐尔巴赫
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2014-12-30
Filing date: 2015-12-02
Publication date: 2018-09-18
Anticipated expiration: 2035-12-02
Also published as: CN107113499A; WO2016109103A1; DE112015005862T5

Abstract

提供了用于改进定向音频捕获系统的性能的系统和方法。示例方法包括使至少两个音频输入的相图相关，所述音频输入由至少两个麦克风捕获。所述方法还可包括基于相关性而生成在不同方向角下的显著性的估计以定位声源的方向。所述方法可允许基于所述估计向定向音频捕获系统提供线索。所述线索包括衰减水平。通过启动和释放时间常数来控制所述衰减水平的变化率以避免声音伪影。所述方法还包括基于显著性的估计中是否存在一个或更多个峰值来确定模式。所述方法还基于所确定的模式来配置定向音频捕获系统。

Description

定向音频捕获

相关申请的交叉引用

本申请是要求2009年12月2日提交的美国临时申请No.61/266,131的权益的2010年10月1日提交的美国专利申请No.12/896,725的部分继续案；本申请还要求2014年12月30日提交的美国临时申请No.62/098,247的权益。上述申请的主题出于所有目的通过引用并入本文。

技术领域

本公开总体上涉及音频处理，更具体地讲，涉及用于改进定向音频捕获的性能的系统和方法。

背景技术

用于定向音频捕获的现有系统通常被配置为捕获感兴趣区域内(例如，波瓣内)的音频信号并抑制波瓣之外的任何东西。另外，用于定向音频捕获的现有系统没有利用正被记录的扬声器的方向性。这导致贯穿波瓣的不均匀抑制。特别是在讲话者(即，扬声器)与给定角度的音频捕获装置之间的距离变化的情况下，会危及这样的系统的鲁棒性。如果讲话者靠近装置或远离装置移动，则抑制会变得不均匀。

在用于定向音频捕获的现有方案中，开箱/校准和顾客要求可能不一致。这种不一致可能导致在特定角度范围需要更多或更少的抑制。由于不均匀的抑制，在期望抑制/提高特定角度以遍及波瓣维持均匀的噪声抑制的情况下部署这样的解决方案会变得更具挑战性。

现有定向音频捕获解决方案还会对麦克风密封非常敏感。较好的麦克风密封导致更均匀的抑制，较差的麦克风密封导致不均匀的抑制。通常，即使当使用相同制造批次时，麦克风密封也会使得一个装置不同于另一装置。期望一种在讲话者与音频捕获系统之间的距离变化期间使麦克风密封鲁棒的解决方案。

发明内容

此发明内容被提供用于以简化的形式介绍概念的选择，这些概念在下面在具体实施方式中进一步描述。此发明内容并非旨在确定要求保护的主题的关键特征或必要特征，也非旨在用于帮助确定要求保护的主题的范围。

提供了用于改进定向音频捕获系统的性能的系统和方法。示例方法包括使至少两个音频输入的相图相关。该方法允许基于相关性来生成在不同方向角下的显著性(salience)的估计以定位与至少一个声源关联的至少一个方向。该方法还包括基于显著性的估计来确定线索(cue)，并且将线索提供给定向音频捕获系统。

在一些实施方式中，定向音频捕获系统使用线索来在不同方向角下衰减或放大所述至少两个音频输入。在特定实施方式中，线索至少包括针对不同方向角的衰减水平。在一些实施方式中，显著性的估计包括在平行于地面的平面内在从0至360的方向角下的显著性的向量。

在一些实施方式中，生成线索包括将不同方向角映射至定向音频捕获系统的相对衰减水平。在特定实施方式中，该方法包括通过启动和释放(attack and release)时间常数实时地控制衰减水平的变化率以避免声音伪影。

在一些实施方式中，该方法包括基于显著性的估计中是否存在一个或更多个峰值来从多个操作模式中确定模式。该方法允许基于所确定的模式来配置定向音频捕获系统。在特定实施方式中，该方法允许通过应用启动和释放时间常数来实时地控制所述多个操作模式中的模式之间的切换速率。在一些实施方式中，通过具有不同质量的密封的至少两个麦克风来捕获音频输入。

根据本公开的另一示例实施方式，用于改进定向音频捕获系统的性能的方法的步骤被存储在包括指令的机器可读介质上，所述指令在被一个或更多个处理器实现时执行所述步骤。

本公开的其它示例实施方式和方面将从以下结合附图进行的描述变得显而易见。

附图说明

在附图中例示了实施方式作为示例而非限制，在附图中相似的标号指示相似的元件。

图1是可使用本技术的示例性环境的框图。

图2是示例性音频装置的框图。

图3是示例性音频处理系统的框图。

图4是示例性波束成形器模块的框图。

图5是用于执行音频变焦(audio zoom)的示例性方法的流程图。

图6是用于增强声信号分量的示例性方法的流程图。

图7是用于生成乘法性屏蔽的示例性方法的流程图。

图8是适合于改进定向音频捕获的性能的示例性音频处理系统的框图。

图9是用于改进定向音频捕获的性能的示例性方法的流程图。

图10是可用于实现本文所公开的根据各种示例实施方式的方法的计算机系统。

具体实施方式

本文所公开的技术涉及用于改进定向音频捕获的性能的系统和方法。本技术的实施方式可利用可操作以至少捕获并处理声信号的音频装置来实践。音频装置可包括：射频(RF)接收器、发送器和收发器；有线和/或无线电信和/或网络装置；放大器；音频和/或视频播放器；编码器；解码器；扬声器；输入；输出；存储装置；以及用户输入装置。音频装置可包括诸如按钮、开关、键、键盘、轨迹球、滑块、触摸屏、一个或更多个麦克风、陀螺仪、加速度计、全球定位系统(GPS)接收器等的输入装置。音频装置可包括诸如发光二极管(LED)指示灯、视频显示器、触摸屏、扬声器等的输出。在一些实施方式中，音频装置包括诸如有线和/或无线遥控器、笔记本计算机、平板计算机、平板手机、智能电话、个人数字助理、媒体播放器、移动电话等的手持装置。在特定实施方式中，音频装置包括电视(TV)机、汽车控制和音频系统、智能恒温器、灯开关、调光器等。

在各种实施方式中，音频装置在固定环境和便携式环境中操作。固定环境可包括住宅和商业建筑物或结构等。例如，固定实施方式可包括起居室、卧室、家庭影院、会议室、观众厅、办公室等。便携式环境可包括移动的车辆、移动的人、其它运输工具等。

根据示例实施方式，一种用于改进定向音频捕获系统的方法包括对至少两个音频输入的相图进行相关。该方法允许基于相关性来生成不同方向角处的显著性的估计以定位与至少一个声源关联的至少一个方向。线索至少包括衰减水平。该方法包括基于显著性的估计来确定线索，并且将线索提供给定向音频捕获系统。

图1是可使用本技术的示例性环境100的框图。图1的环境100包括音频装置104以及音频源112、114和116(全部在具有墙壁132和134的环境100内)。

音频装置104的用户可选择聚焦于或“变焦”至环境100内的多个音频源当中的特定音频源。环境100包括音频源112、114和116，其全部提供多方向的音频(包括朝着音频装置104)。另外，从音频源112和116以及其它音频源的反射可提供从环境100的墙壁132和134反射离开并指向音频装置104的音频。例如，反射128是由音频源112提供并从墙壁132反射的音频信号的反射，反射129是由音频源116提供并从墙壁134反射的音频信号的反射，这二者均朝着音频装置104传播。

本技术允许用户选择“变焦”的区域。通过对特定区域执行音频变焦，本技术检测来源在该特定区域内的音频信号并且将那些信号相对于来自该特定区域之外的音频源的信号增强。区域可利用波束(例如，图1中的波束140)来限定。在图1中，波束140包含包括音频源114的区域。音频源112和116被包含在波束区域之外。因此，本技术将突出或“变焦”至由音频源114提供的音频信号，而不突出由音频源112和116提供的音频(包括环境100所提供的任何反射，例如反射128和129)。

音频装置104的主麦克风106和副麦克风108可以是全向麦克风。另选实施方式可使用其它形式的麦克风或声传感器(例如，定向麦克风)。

在麦克风106和108从音频源114接收声音(即，声信号)的同时，麦克风106和108也拾取来自音频源112的噪声。尽管在图1中噪声122被示出为来自单一位置，噪声122可包括来自不同于音频源114的位置的一个或更多个位置的任何声音，并且可包括混响和回声。噪声124可以是固定的、非固定的、和/或固定和非固定噪声的组合。

一些实施方式可利用由两个麦克风106和108接收的声信号之间的水平差异(例如，能量差异)。例如，在近距离讲话用途的情况下，由于主麦克风106远比副麦克风108更靠近音频源116，所以对于主麦克风106，噪声126的强度水平更高，从而导致例如在语音片段期间由主麦克风106接收的能量水平更大。

然后，可在时间-频率域中使用水平差异来区分语音和噪声。另外的实施方式可使用能量水平差异和时间延迟的组合来区分语音。基于双耳线索编码，可执行语音信号提取或语音增强。

图2是示例性音频装置的框图。在一些实施方式中，图2的音频装置为图1的音频装置104提供更多细节。

在所示的实施方式中，音频装置104包括接收器210、处理器220、主麦克风106、可选的副麦克风108、音频处理系统230和输出装置240。音频装置104可包括音频装置104操作所需的另外的或其它的组件。类似地，与图2中所描绘的那些相比，音频装置104可包括执行相似或等同的功能的较少组件。

处理器220可执行存储在音频装置104中的存储器(图2中未示出)中的指令和模块以执行本文所描述的功能(包括针对声信号的降噪)。处理器220可包括被实现为处理单元的硬件和软件，该处理单元可为处理器220处理浮点运算以及其它运算。

示例性接收器210是被配置为从通信网络接收信号的声传感器。在一些实施方式中，接收器210可包括天线装置。然后可将信号转发给音频处理系统230以利用本文所述的技术来降噪，并且将音频信号提供给输出装置240。本技术可用在音频装置104的发送路径和接收路径中的一者或二者中。

音频处理系统230被配置为经由主麦克风106和副麦克风108从声源接收声信号并处理声信号。处理可包括在声信号内执行降噪。音频处理系统230在下面更详细地讨论。主麦克风106和副麦克风108可间隔开一定距离以便允许检测它们之间的能量水平差异、时间差异或相位差异。由主麦克风106和副麦克风108接收的声信号可被转换为电信号(即，主电信号和副电信号)。根据一些实施方式，电信号本身可被模数转换器(未示出)转换为数字信号以便于处理。为了区分声信号以便于清晰，由主麦克风106接收的声信号在本文中被称作主声信号，而由副麦克风108接收的声信号在本文中被称作副声信号。主声信号和副声信号可由音频处理系统230处理以生成具有改进的信噪比的信号。应该注意的是，本文所述的技术的实施方式可仅利用主麦克风106来实践。

输出装置240是向用户提供音频输出的任何装置。例如，输出装置240可包括扬声器、耳罩或耳机或者会议设备上的扬声器。

在各种实施方式中，在主麦克风106和副麦克风108是相距很近(例如，隔开1-2cm)的全向麦克风的情况下，可使用波束成形技术来模拟面向前和面向后的定向麦克风。可在时间-频率域中使用水平差异来区分语音和噪声(可用于降噪)。

图3是示例性音频处理系统的框图。图3的框图为图2的框图中的音频处理系统230提供更多细节。音频处理系统230包括快速余弦变换(FCT)模块302和304、波束成形器模块310、乘法性增益扩展模块320、混响模块330、混合器模块340和变焦控制模块350。

FCT模块302和304可从音频装置麦克风接收声信号并将声信号转换为频率范围子带信号。在一些实施方式中，FCT模块302和304被实现为针对所接收的各个麦克风信号创建一个或更多个子带信号的一个或更多个模块。FCT模块302和304从包含在音频装置104中的各个麦克风接收声信号。所接收的这些信号被表示为信号X₁-X_I，其中，X₁是主麦克风信号，X_I表示剩余麦克风信号。在一些实施方式中，图3的音频处理系统230基于每一帧和每一子带来执行音频变焦。

在一些实施方式中，波束成形器模块310接收频率子带信号以及变焦指示信号。变焦指示接收自变焦控制模块350。通过变焦指示符信号K传送的变焦指示可响应于用户输入、音频装置104所接收的主麦克风信号或其它声信号的分析、视频变焦特征选择或者一些其它数据来生成。在操作中，波束成形器模块310接收子带信号，处理子带信号以识别哪些信号在要增强(或“变焦”)的特定区域内，并且将所选择的信号的数据作为输出提供给乘法性增益扩展模块320。输出可包括要增强的区域内的音频源的子带信号。波束成形器模块310还将增益因子提供给乘法性增益扩展模块320。增益因子可指示乘法性增益扩展模块320是否应该对从波束成形器模块310接收的信号执行附加增益或降低。在一些实施方式中，增益因子被生成为基于所接收的麦克风信号和分量的能量比。由波束成形器模块310输出的增益指示可以是来自主麦克风的信号中降低多少能量对来自其它麦克风的信号中的能量之比。因此，增益可以是放大或相消增益扩展因子。增益因子在下面更详细地讨论。

波束成形器模块310可被实现为空值处理噪声消除(NPNS)模块、乘法性模块或这些模块的组合。当在麦克风中使用NPNS模块来生成波束并实现波束成形时，通过使约束α和γ变窄来聚集波束。对于制导波束，可使约束更大。因此，可通过在优选方向周围设置保护范围来操纵波束。波束成形器模块310可通过题为“Multi-Microphone Robust NoiseSuppression System”的美国专利申请No.61/325,764中所描述的系统来实现，其公开内容通过引用并入本文。用于减少信号的不期望的音频分量的附加技术在题为“AdaptiveNoise Reduction Using Level Cues”的美国专利申请No.12/693,998(如今的美国专利No.8,718,290)中有所讨论，其公开内容通过引用并入本文。

乘法性增益扩展模块320接收与所选择的波束内音频源关联的子带信号、来自波束成形器模块310的增益因子以及变焦指示符信号。乘法性增益扩展模块320基于所接收的增益因子应用乘法性增益。实际上，乘法性增益扩展模块320对波束成形器模块310所提供的波束成形器信号进行滤波。

增益因子可被实现为多种不同的能量比中的一种。例如，能量比可以是降噪信号与从主麦克风接收的主声信号之比、降噪信号与主麦克风信号内所检测的噪声分量之比、降噪信号与副声信号之比、或者降噪信号与主信号和另一信号之间的内水平差异之比。增益因子可以是目标方向对所有其它方向上的信号强度的指示。换句话说，增益因子可以是乘法性扩展期限(due)以及是否应该在乘法性增益扩展模块320处执行附加扩展或消除的指示。乘法性增益扩展模块320输出修改的信号并将信号提供给混响模块330(也可用于去混响)。

混响模块330接收乘法性增益扩展模块320所输出的子带信号以及也由波束成形器模块310接收的麦克风信号，并且对乘法性增益扩展模块320所输出的子带信号执行混响或去混响。混响模块330可基于变焦控制模块350所提供的变焦控制指示符来调节信号内的定向能量与剩余能量之比。

为信号调节混响可涉及调节信号的不同分量的能量。音频信号在频域中具有多个分量，包括定向分量、早期反射和尾音分量。在信号内，定向分量通常具有最高能量水平，随后是能量水平略低的反射。在非常特别的信号内还包括尾音，其可包括噪声以及其它低能量数据或低能量音频。混响被定义为定向音频分量的反射。因此，在宽频率范围上具有很多反射的混响得到更明显的混响。具有较少反射分量的信号具有较小混响分量。

通常，收听者离音频源越远，信号中的混响越大，收听者离音频源越近，混响信号(反射分量)的强度越小。因此，基于从变焦控制模块350接收的变焦指示符，混响模块330可调节从乘法性增益扩展模块320接收的信号中的混响分量。因此，如果所接收的变焦指示符指示要对音频执行放大操作，则将通过使所接收的信号的反射分量最小化来减小混响。如果变焦指示符指示要对音频信号执行缩小，则对早期反射分量进行增益以增加这些分量，使得看起来就像信号内存在附加混响一样。在调节所接收的信号的混响之后，混响模块330将修改的信号提供给混合器模块340。

混合器模块340接收调节了混响的信号并将该信号与来自主麦克风的信号混合。在一些实施方式中，当帧中存在音频时混合器模块340适当地增加信号的能量，在帧中存在很少音频能量的情况下减小信号的能量。

图4是示例性波束成形器模块的框图。波束成形器模块310可每一抽头(即，每子带)地实现。波束成形器模块310接收第一麦克风(例如，主麦克风)和第二麦克风的FCT输出信号。第一麦克风FCT信号由模块410根据函数来处理以利用参数生成第一差分阵列。

副麦克风FCT信号由模块420根据函数来处理以利用参数生成第二差分阵列。关于示例性第一和第二差分阵列的生成的进一步的细节在2012年6月5日提交的题为“System and Method for Utilizing Omni-Directional Microphones for SpeechEnhancement”的美国专利申请No.11/699,732,764中有所描述(如今为美国专利No.8,194,880)，其公开内容通过引用并入本文。

然后，在组合器440处从副麦克风FCT信号减去模块410的输出，并且在组合器430处从主麦克风FCT信号减去模块420的输出。从组合器430输出心形信号C_f并提供给模块450，在模块450处应用以下函数：

Log(|C_f|²)。

从组合器440输出心形信号C_b并提供给模块460，在模块460处应用以下函数：

Log(|C_b|²)。

通过元件470确定模块450和460的输出之差并且作为ILD线索输出。ILD线索可通过波束成形器模块310被输出至后滤波器(例如，由乘法性增益扩展模块320实现的滤波器)。

图5是执行音频变焦的示例性方法的流程图。在步骤510从一个或更多个源接收声信号。在一些实施方式中，通过音频装置104上的一个或更多个麦克风来接收声信号。例如，通过音频装置104的麦克风106和108接收来自音频源112-116和反射128-129的声信号。

然后，在步骤520接收针对空间区域的变焦指示。在一些实施方式中，变焦指示接收自用户或者基于其它数据来确定。例如，变焦指示从用户经由视频变焦设置、在特定方向上指点音频装置、针对视频变焦的输入或者按照一些其它方式来接收。

在步骤530基于变焦指示增强声信号分量能量水平。在一些实施方式中，通过增加源自所选择的波束区域内的源装置的音频源子带信号的能量水平来增强声信号分量能量水平。来自所选择的波束区域之外的装置的音频信号不被突出。增强声信号分量能量水平在下面参照图6的方法更详细地讨论。

在步骤540基于所接收的指示调节与空间区域内的位置关联的混响信号分量。如上面所讨论的，所述调节可包括针对特定信号修改直接分量与反射分量之比。当要执行放大功能时，应该在音频信号中通过增大直接分量与反射分量之比来减小混响。当针对音频信号执行缩小功能时，相对于反射分量减小直接分量以减小音频信号的直接分量与反射分量之比。

在步骤550中将经调制的增益应用于信号分量。可通过将处理了混响的声信号与主声信号(或者由音频装置104接收的另一音频信号)混合来应用增益。在步骤560输出已通过音频变焦处理的混合信号。

如上面所讨论的，基于变焦指示来增强子带信号。图6是增强声信号分量的示例性方法的流程图。在一些实施方式中，图6中的方法为图5中的方法的步骤530提供更多细节。在步骤610在波束的方向上检测音频源。此检测可由空值处理噪声消除机制或者能够基于两个或更多个麦克风所接收的音频信号识别源的空间位置的一些其它模块来执行。

在步骤620使位于空间区域之外的声信号源衰减。在各种实施方式中，空间区域之外的声源包括某些音频源(例如，图1中的112)以及反射音频信号(例如，反射128和129)。然后，在步骤630基于变焦指示使用自适应约束来使波束转向。在一些实施方式中，自适应约束包括空值处理噪声抑制系统中所使用的α和σ约束。自适应约束也可基于波束图案从优选方向周围的区域的乘法性扩展或选择推导。

然后，在步骤640确定能量比。能量比可用于推导放大或减小信号分量的波束成形器相消增益的乘法性屏蔽。接下来，在步骤650基于能量比生成乘法性屏蔽。基于能量比生成乘法性屏蔽在下面参照图7的方法来更详细地讨论。

图7是生成乘法性屏蔽的示例性方法的流程图。图7的方法为图6的方法中的步骤650提供更多细节。在步骤710从麦克风信号生成差分阵列。数列可作为波束成形器模块310的部分生成。波束图案可以是至少部分地基于差分输出信号而生成的心形图案。接下来，在步骤720从差分阵列生成波束图案。然后，在步骤730从波束图案生成能量比。能量比可作为信号的任何组合来生成。一旦生成，就可从能量比每频率地生成ILD图。可选择与期望的选择对应的ILD范围。然后，可通过放大窗口内的信号分量并使位于窗口之外的信号分量衰减来将ILD窗口应用于图。在步骤740可从能量比推导滤波器(例如，后滤波器)。

上述模块(包括参照图3讨论的那些)可包括存储在诸如机器可读介质(例如，计算机可读介质)的存储介质中的指令。这些指令可由处理器220检索并执行，以执行本文所讨论的功能。指令的一些示例包括软件、程序代码和固件。存储介质的一些示例包括存储器装置和集成电路。

图8是示出根据另一示例实施方式的音频处理系统800的框图。示例音频处理系统800包括连接至示例AZA子系统的各种元件的源估计子系统830。示例AZA子系统包括限制器802a、802b、...和802n、FCT模块804a、804b、...和804n、分析模块806、变焦控制模块810、信号修改器812、元件818和限制器820。源估计子系统830可包括源方向估计器(SDE)模块808(也被称作目标估计器)、增益模块816和自动增益控制(AGC)模块814。示例音频处理系统800处理来自麦克风106a、106b、...和106n的声音信号。

在各种示例性实施方式中，SDE模块808可操作以定位声源。SDE模块808可基于不同麦克风输入之间的相图的相关性来生成线索。基于相图的相关性，示例SDE模块808可计算不同角度的显著性估计的向量。基于显著性估计，SDE模块808可确定源的方向。换言之，根据各种实施方式，显著性估计的向量中的峰值是特定方向上的源的方向的指示。同时，漫射性质(即，非定向)的源可由所有角度的差显著性估计表示。各种实施方式可依赖于线索(显著性的估计)来改进由分析模块806、信号修改器812和变焦控制模块810执行的现有定向音频解决方案的性能。

根据示例实施方式，例如当音频装置104被放在桌面上时，使用显著性的估计在与地面平行的平面中在0至360度的范围内定位源的角度。可根据顾客/用户需要使用显著性的估计来衰减/放大不同角度的信号。

在各种实施方式中，SDE模块808被配置为在两种和更多种模式下操作。操作模式可包括“正常”、“嘈杂”和“同时讲话者”。这些模式的表征由SDE显著性参数来驱动。

正常模式

“正常”操作模式由单一方向语音源限定，而不存在任何类型的强语音干扰，存在或不存在噪声。在这种情况下显著性估计的向量可由单个峰值(显著性阈值以上)表征。该单个峰值可指示单个声源的存在。显著性估计的向量中的峰值的位置可表征源的角度。在这样的情况下，漫射源检测器和同时讲话者检测器二者可被设定为“否”状态。基于这些状态，在各种实施方式中，目标估计器基于每一角度根据用户的期望驱动抑制/放大的水平。

在一些实施方式中，目标估计器生成角度至AZA子系统中的相对衰减水平的映射。例如，240-270度的角度范围可能需要相对于包含除了介于240和270度之间的条目之外始终具有0dB的阵列的AZA性能目标估计器的10dB的增量抑制。

尽管检测上可实现10dB的立即相对抑制水平，在实时语音系统中，这样的抑制可能由于信号水平的突然跳跃而导致收听者的可听失真。在一些实施方式中，为了减轻失真问题，AGC模块814可利用启动和释放时间常数来控制滚降率。平滑滚降可有效地稳定语音系统，而音频中不会有可听失真。在一些实施方式中，如果噪声与定向语音一起存在，则通过AZA子系统来减轻噪声。

嘈杂模式

嘈杂操作模式可由没有定向语音的漫射噪声源表征。嘈杂模式可导致所有角度的差显著性估计。由于这样的数据不存在定向源信息，所以可仅通过AZA子系统来处理信号。在一些实施方式中，在没有突然转换的情况下平滑地处理嘈杂操作模式与正常操作模式之间的交互以避免泵送(pumping)或任何增益相关伪影。为了平滑的切换，目标估计器可向AGC模块814提供0dB的目标。通过适当地处理启动和释放时间，可实现平滑切换。然而，应该指出的是，嘈杂模式下的启动和释放时间不同于正常模式下所使用的启动和释放时间。

同时讲话者模式

同时讲话者模式由同时多个讲话者/侧面干扰表征，有或没有噪声。同时讲话者模式的显著性向量可由多个峰值(显著性阈值以上)表征。同时讲话者模式可按照与嘈杂模式相似的方式来处理。当SDE模块在同时讲话者模式下操作时，来自麦克风的声信号可仅通过AZA子系统来处理。在各种实施方式中，上述模式之间的切换可在AGC子系统的帮助下以得体的方式来进行。

具有利用源估计子系统增强的AZA子系统的本文所述的技术的各种实施方式可通过忽略任何麦克风间信号水平差异来避免麦克风密封的问题。各种实施方式相反聚焦于麦克风之间的到达时间/相位线索。然而，应该注意的是，即使各种实施方式可对麦克风密封不敏感，作为基础的AZA子系统仍可能对麦克风密封敏感，因此总系统性能可能依赖于麦克风密封。在一些实施方式中，为了减轻麦克风密封问题，可基于所使用的麦克风的密封的特性来调谐AZA子系统以降低对麦克风密封的敏感度。关于AZA子系统的示例性调谐的进一步的细节可见于2010年10月1日提交的美国专利申请No.12/896,725中，其通过引用并入本文。

本技术的各种实施方式可利用这样的事实：当讲话者/扬声器与音频装置之间的距离在0.5m-2m的范围内并且扬声器的口部在音频装置上方30cm左右时，随着该距离改变，SDE显著性变化很小。这可使得音频处理系统800对距离变化更鲁棒，并且对于在这些距离处讲话的讲话者可导致甚至/相似性能。在一些实施方式中，AZA子系统可被调谐以充分利用对距离的鲁棒性。

目标估计器块(也被称作SDE模块)808可独立于AZA子系统基于声音的到达角度提供相对抑制水平。在一些实施方式中，目标估计器块可被独立地控制，而无需与其它子系统的任何交互。这种可独立控制(例如“孤岛”)架构可赋予现场调谐工程师与顾客/用户所期望的性能匹配的能力。

如关于各种实施方式所描述的，在“正常”操作模式期间目标估计器的阵列提供了可允许通过操纵目标估计器块中的抑制水平阵列的角度来实现上述架构的有力工具。

图9是示出根据示例实施方式的改进定向音频捕获系统的性能的方法900的步骤的流程图。在方框910中，示例方法900包括对至少两个音频输入的相图进行相关。在一些实施方式中，音频输入可由具有不同密封的至少两个麦克风捕获。

在方框920中，示例方法900允许基于相关性来生成不同方向角处的显著性的估计以定位与至少一个声源关联的至少一个方向。在一些实施方式中，显著性的估计包括在与地面平行的平面中从0至360的方向角处的显著性的向量。

在方框930中，示例方法900包括基于显著性的估计来确定线索。在方框940中，示例方法900包括将那些基于“显著性的估计”的线索提供给定向音频捕获系统。

在另外的实施方式中，示例方法900包括基于显著性的估计(例如，显著性的估计中是否存在一个或更多个峰值)来从多个操作模式中确定模式。在特定实施方式中，操作模式包括由单一方向语音源表征的“正常”模式、由存在至少两个单一方向语音源表征的“同时讲话者”模式以及由没有定向语音的漫射噪声源表征的嘈杂模式。

在方框960中，示例方法900包括基于所确定的模式来配置定向音频捕获系统。

在方框970中，示例方法900包括基于显著性的估计以及所确定的模式来确定至少包括衰减水平的其它线索。

在方框980中，示例方法900包括通过应用启动和释放时间常数来实时地控制多个操作模式中的模式之间的切换速率。

图10示出可用于实现本公开的一些实施方式的示例性计算机系统1000。图10的计算机系统1000可在类似计算系统、网络、服务器或其组合的背景下实现。图10的计算机系统1000包括一个或更多个处理器单元1010和主存储器1020。主存储器1020部分地存储指令和数据以便于处理器单元1010执行。在此示例中，主存储器1020在操作时存储可执行代码。图10的计算机系统1000还包括海量数据存储装置1030、便携式存储装置1040、输出装置1050、用户输入装置1060、图形显示系统1070和外围装置1080。

图10所示的组件被描绘为经由单一总线1090连接。组件可通过一个或更多个数据传输装置来连接。处理器单元1010和主存储器1020经由本地微处理器总线来连接，海量数据存储装置1030、(多个)外围装置1080、便携式存储装置1040和图形显示系统1070经由一个或更多个输入/输出(I/O)总线来连接。

可利用磁盘驱动器、固态驱动器或光盘驱动器实现的海量数据存储装置1030是存储数据和指令以便于处理器单元1010使用的非易失性存储装置。海量数据存储装置1030存储用于实现本公开的实施方式的系统软件以便于将该软件加载到主存储器1020中。

便携式存储装置1040与诸如闪存驱动器、软盘、紧凑盘、数字视频盘或通用串行总线(USB)存储装置的便携式非易失性存储介质结合来操作，以向图10的计算机系统1000输入以及从其输出数据和代码。用于实现本公开的实施方式的系统软件被存储在这种便携式介质上并经由便携式存储装置1040被输入至计算机系统1000。

用户输入装置1060可提供一部分用户接口。用户输入装置1060可包括一个或更多个麦克风、用于输入字母数字和其它信息的字母数字键区(例如，键盘)、或者指点装置(例如，鼠标、轨迹球、手写笔或光标方向键)。用户输入装置1060还可包括触摸屏。另外，如图10所示的计算机系统1000包括输出装置1050。合适的输出装置1050包括扬声器、打印机、网络接口和监视器。

图形显示系统1070包括液晶显示器(LCD)或其它合适的显示装置。图形显示系统1070可被配置为接收文本和图形信息并处理所述信息以便于输出至显示装置。

外围装置1080可包括任何类型的计算机支持装置以向计算机系统增加附加功能。

包括在图10的计算机系统1000中的组件是常见于可适合用于本公开的实施方式的计算机系统中的那些组件，并且旨在表示本领域中熟知的一大类这样的计算机组件。因此，图10的计算机系统1000可以是个人计算机(PC)、手持计算机系统、电话、移动计算机系统、工作站、平板、平板手机、移动电话、服务器、微型计算机、主计算机、可穿戴或任何其它计算机系统。计算机还可包括不同的总线配置、联网平台、多处理器平台等。可使用各种操作系统，包括UNIX、LINUX、WINDOWS、MAC OS、PALM OS、QNX ANDROID、IOS、CHROME、TIZEN以及其它合适的操作系统。

各种实施方式的处理可被实现于基于云的软件中。在一些实施方式中，计算机系统1000被实现为基于云的计算环境，例如在计算云内操作的虚拟机。在其它实施方式中，计算机系统1000本身可包括基于云的计算环境，其中计算机系统1000的功能按照分布式方式执行。因此，计算机系统1000在被配置为计算云时可包括各种形式的多个计算装置，如将在下面更详细描述的。

通常，基于云的计算环境是通常将大量处理器(例如在web服务器内)的计算能力组合和/或将大量计算机存储器或存储装置的存储容量组合的资源。提供基于云的资源的系统可由其所有者独占地使用，或者这样的系统可由外部用户访问，外部用户在计算基础设施内部署应用以获益于大量计算或存储资源。

可例如通过包括多个计算装置(例如，计算机系统1000)的web服务器与提供处理器和/或存储资源的各个服务器(或者至少其中的多个)的网络来形成云。这些服务器可管理由多个用户(例如，云资源顾客或其它用户)提供的工作负载。通常，各个用户对云提出实时(有时剧烈地)变化的工作负载需求。这些变化的本质和程度通常取决于与用户关联的业务的类型。

上面参照示例实施方式描述了本技术。因此，本公开旨在涵盖示例实施方式的其它变化。

Claims

1.一种用于改进定向音频捕获系统的性能的方法，该方法包括以下步骤：

使至少两个音频输入的相图相关；

基于相关性而生成在不同方向角下的显著性的估计以定位与至少一个声源关联的至少一个方向；

基于所述显著性的估计而确定线索；

将所述线索提供给所述定向音频捕获系统；以及

基于所述显著性的估计来确定从多个操作模式中选择的模式，所述多个操作模式包括所述至少一个声源包括单一方向语音源的第一操作模式。

2.根据权利要求1所述的方法，其中，所述定向音频捕获系统使用所述线索来在所述不同方向角下衰减或放大所述至少两个音频输入。

3.根据权利要求1所述的方法，其中，所述线索至少包括所述不同方向角的衰减水平。

4.根据权利要求1所述的方法，其中，所述显著性的估计包括在平行于地面的平面内在从0至360的方向角下的显著性的向量。

5.根据权利要求1所述的方法，其中，生成所述线索的步骤包括将所述不同方向角映射至所述定向音频捕获系统的相对衰减水平。

6.根据权利要求5所述的方法，该方法还包括通过启动和释放时间常数实时地控制所述衰减水平的变化率以避免声音伪影。

7.根据权利要求1所述的方法，其中，所述多个操作模式还包括所述至少一个声源包括至少两个单一方向语音源的第二操作模式以及所述至少一个声源包括没有定向语音的漫射噪声源的第三操作模式。

8.根据权利要求1所述的方法，其中，确定所述模式的步骤基于所述显著性的估计中是否存在一个或更多个峰值。

9.根据权利要求8所述的方法，该方法还包括基于所确定的模式来配置所述定向音频捕获系统。

10.根据权利要求1所述的方法，该方法还包括通过应用启动和释放时间常数来实时地控制所述多个操作模式中的模式之间的切换速率。

11.根据权利要求1所述的方法，其中，所述至少两个音频输入由至少两个麦克风捕获。

12.根据权利要求11所述的方法，其中，所述至少两个麦克风中的一个麦克风的密封好于所述至少两个麦克风中的其它麦克风。

13.一种用于改进定向音频捕获系统的性能的系统，该系统包括：

至少一个处理器；以及

存储器，该存储器在通信上与所述至少一个处理器连接，所述存储器存储指令，所述指令在由所述至少一个处理器执行时执行方法，该方法包括以下步骤：

使至少两个音频输入的相图相关；

基于所述显著性的估计而确定线索；

将所述线索提供给所述定向音频捕获系统；以及

基于所述显著性的估计中是否存在一个或更多个峰值来确定从多个操作模式选择的模式，所述多个操作模式包括所述至少一个声源包括单一方向语音源的第一操作模式。

14.根据权利要求13所述的系统，其中，所述定向音频捕获系统使用所述线索来在所述不同方向角下衰减或放大所述至少两个音频输入。

15.根据权利要求13所述的系统，其中，所述线索至少包括针对所述不同方向角的衰减水平。

16.根据权利要求13所述的系统，其中，生成所述线索的步骤包括将所述不同方向角映射至所述定向音频捕获系统的相对衰减水平。

17.根据权利要求13所述的系统，其中，所述多个操作模式还包括所述至少一个声源包括至少两个单一方向语音源的第二操作模式和所述至少一个声源包括没有定向语音的漫射噪声源的第三操作模式。

18.根据权利要求17所述的系统，其中，所述方法还包括以下步骤：

基于所确定的模式来配置所述定向音频捕获系统，以及

通过应用启动和释放时间常数来实时地控制模式之间的切换速率。

19.一种非暂时性计算机可读存储介质，在该非暂时性计算机可读存储介质上包含指令，所述指令在由至少一个处理器执行时执行方法的步骤，该方法包括以下步骤：

使至少两个音频输入的相图相关；

基于所述显著性的估计而确定线索；

将所述线索提供给定向音频捕获系统；以及