CN111316356A

CN111316356A - 用于选择性音频拾取的自适应空成形

Info

Publication number: CN111316356A
Application number: CN201880071529.9A
Authority: CN
Inventors: J·凯默勒; A·加尼施库玛
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2017-11-01
Filing date: 2018-10-31
Publication date: 2020-06-19
Also published as: WO2019089716A1; US10354635B2; EP3704692B1; US20190130885A1; US20190304427A1; EP3704692A1

Abstract

本发明提供了音频拾取系统和方法以通过去除与声学环境相关的噪声分量来增强音频信号。该系统和方法接收主信号和参考信号。将参考信号自适应地滤波并从主信号中减去，以使得到的输出信号的能量含量最小化。

Description

用于选择性音频拾取的自适应空成形

背景技术

音频系统有时包括一个或多个声换能器以将声学信号转换成电信号(例如，麦克风)以检测它们在其中操作的环境中的声音，并且有时还包括声学驱动器(例如，扬声器)以从电信号再现声学音频内容。麦克风可被部署在此类系统中以用于检测期望的音频的目的，该期望的音频可包括用于诸如例如自动语音识别、虚拟个人助理和通信(例如，电话)的应用程序的用户的语音。通常，其中使用音频系统的环境包括除期望的音频之外的附加声源，诸如电视、其他音频系统、来自设备的噪声等，并且这些另选声源有时可能干扰期望的音频(例如，用户的语音)的检测和/或处理。音频系统在其中操作的声学环境通常可能是未知的，并且可能随时间推移而显著变化。因此，另选的或不期望的声学信号在一开始可能是未知的，并且也可能随时间推移而显著变化。

发明内容

方面和示例涉及用于拾取期望的音频信号(诸如用户的语音活动)并且减少其他信号分量(诸如另选的声源和/或背景噪声)以增强输出信号中的期望的信号分量的系统和方法。所述系统和方法通过去除或减少其他信号源来提供期望的信号的增强隔离。各种应用程序包括例如虚拟个人助理(VPA)等的自动语音识别。本文公开的方面和示例允许音频系统拾取并增强期望的信号，诸如用户的语音，使得用户可以以改善的性能和/或在嘈杂的环境中使用此类应用程序。

根据一个方面，提供了增强音频信号的方法，该方法包括接收主信号、接收多个参考信号、从多个参考麦克风中的一个麦克风接收多个参考信号中的每个参考信号、对多个参考信号中的每个参考信号进行滤波以提供多个滤波后的信号、组合多个滤波后的信号以提供噪声估计信号、从主信号减去噪声估计信号以提供输出信号，以及自适应多个参考信号中的每个参考信号的滤波以使输出信号的能量含量最小化。

某些示例包括针对期望的信号监测输出信号，并且在检测到期望的信号时停止自适应多个参考信号中的每个参考信号的滤波。针对期望的信号监测输出信号可包括针对唤醒字词监测输出信号。

一些示例包括从主麦克风提供主信号。一些示例包括组合来自多个麦克风的多个信号以提供主信号。

在某些示例中，主信号和多个参考信号中的每一者可以被分成子频带。

一些示例包括对多个参考信号中的每个参考信号操作背景自适应滤波器，并且其中自适应多个参考信号中的每个参考信号的滤波包括从背景自适应滤波器复制一组滤波器权重。

根据另一方面，提供了一种音频系统，该音频系统包括主输入、多个参考输入、多个自适应滤波器以及一个或多个组合器，主输入用于接收主信号，多个参考输入中的每个参考输入用于接收参考信号，多个自适应滤波器中的每个自适应滤波器被配置为自适应滤波多个参考信号中的一个参考信号以提供滤波后的信号，并且一个或多个组合器被配置为接收多个滤波后的信号并从主信号中减去多个滤波后的信号以提供输出信号。

某些示例包括检测器，该检测器被配置为检测输出信号中的期望的信号分量并响应于检测到期望的信号而暂停多个自适应滤波器的自适应。在一些示例中，检测器是唤醒字词检测器。

一些示例包括多个麦克风，该多个麦克风中的至少一个麦克风被配置为向多个参考输入中的至少一个参考输入提供参考信号中的至少一个参考信号。某些示例还包括波束形成器，该波束形成器被配置为从多个麦克风中的一个或多个麦克风接收信号并将主信号提供给主输入。

在一些示例中，多个自适应滤波器被配置为自适应以使输出信号的能量含量最小化。

在某些示例中，多个自适应滤波器中的每个自适应滤波器包括有源滤波器和相应的背景自适应滤波器，每个有源滤波器被配置为通过复制来自相应的背景自适应滤波器的滤波器权重来自适应。

根据另一方面，提供了一种音频系统，该音频系统包括用于提供主信号的主麦克风、用于提供参考信号的参考麦克风、被配置为接收参考信号并提供滤波后的信号的滤波器，该滤波器被配置成在间隔内应用固定滤波器响应并且在间隔到期时更新固定滤波器响应，用于从主信号中减去滤波后的信号以提供输出信号的组合器。

在一些示例中，间隔是固定的持续时间。

某些示例包括对参考信号进行操作的背景自适应滤波器，并且间隔基于背景自适应滤波器的收敛时间，间隔的到期为背景自适应滤波器达到收敛的时间，并且对固定滤波器响应的更新基于背景自适应滤波器在间隔的到期时的滤波器响应。

在某些示例中，检测器被包括并被配置为检测输出信号中的期望的信号，并且间隔基于期望的信号的检测。

一些示例包括用于提供第二参考信号的第二参考麦克风，以及被配置为接收第二参考信号并提供第二滤波后的信号的第二滤波器，第二滤波器被配置为在间隔内应用第二固定滤波器响应并且在间隔的到期时更新第二固定滤波器响应，以及被配置为从主信号中减去滤波后的信号和第二滤波后的信号以提供输出信号的组合器。

某些示例可包括波束形成器，该波束形成器被配置为接收包括来自主麦克风的麦克风信号的一个或多个麦克风信号，并且提供主信号作为一个或多个麦克风信号的组合。

以下仍然详细讨论了这些示例性方面和示例的其他方面、示例和优点。本文所公开的示例可以与本文所公开的至少一个原理一致的任何方式与其他示例组合，并且对“示例”、“一些示例”、“另选的示例”、“各种示例”、“一个示例”等的引用不一定互相排斥，并且旨在指示所述的特定特征、结构或特性可包括在至少一个示例中。本文中此类术语的出现未必全都指代相同的示例。

附图说明

下面参考附图讨论至少一个示例的各个方面，这些附图并非旨在按比例绘制。包括附图以提供对各个方面和示例的例证和进一步理解，并且附图并入本说明书且构成本说明书的一部分，但并非旨在作为本发明的限制的定义。在附图中，在各种图中示出的相同或几乎相同的部件可以类似的数字表示。为清楚起见，并不是在每个图中给每个部件都注上标记。在附图中：

图1A至图1C是示例性音频系统可在其中操作的示例性环境的示意图；

图2A至图2B是音频系统的各种示例的透视图；

图3是示例性音频系统的示意性框图；

图4是包括子频带处理的示例的示例性音频系统的示意性框图；

图5是包括背景自适应示例的示例性音频系统的示意性框图；

图6是包括活动检测的示例的示例性音频系统的示意性框图；

图7是包括波束形成以提供主信号的示例的示例性音频系统的示意性框图；

具体实施方式

本公开的各方面涉及音频系统和方法，其拾取诸如用户的语音信号之类的期望的信号，同时减少或去除与该期望的信号不相关的其他信号分量，例如用户的语音。提供具有减少的噪声分量的用户的语音信号可增强能够作为音频系统或其他相关联的设备的一部分而能够获得的基于语音的特征或功能，诸如通信系统(蜂窝、无线电、航空)、娱乐系统(游戏)、语音识别应用程序(语音转文本、虚拟个人助理)以及处理音频(尤其是语音或声音)的其他系统和应用程序。本文所公开的示例可通过有线或无线装置耦接到其他系统或放置为与其他系统连接，或者可独立于其他系统或设备。

本文所述的示例性音频系统和方法可包括多个麦克风，所述多个麦克风向一个或多个自适应滤波器提供一个或多个信号以对特定声学环境产生基本上空响应。自适应滤波器的操作(和支持信号处理)可使得音频系统或方法在持续的基础上自适应声学环境，以基本上抵消背景声音。在各种示例中，基本上空响应可包括提供具有最小化的能量含量的输出信号。声学环境的变化，诸如用户开始讲话或期望的信号的新存在(自适应滤波器尚未收敛以抵消其存在)，可以在输出信号中提供期望的信号的分量。自适应声学环境以提供期望的信号的常规方法需要期望的信号的某些特性，诸如某个源位置或到达相位关系，和/或需要阻塞矩阵以在自适应之前有效地增强或消除来自某些方向的信号，以增加的处理能力、资源和/或能耗为代价。

其中用户的语音分量被增强而其他分量被减少的信号的产生在本文中通常可以被称为语音拾取、语音隔离、语音增强等。如本文所用，术语“语音”、“话音”、“谈话”及其变型形式可互换使用而不用考虑这种话音是否涉及声带的使用。

本文所公开的示例可以与本文所公开的至少一个原理一致的任何方式与其他示例组合，并且对“示例”、“一些示例”、“另选的示例”、“各种示例”、“一个示例”等的引用不一定互相排斥，并且旨在指示所述的特定特征、结构或特性可包括在至少一个示例中。本文中此类术语的出现未必全都指代相同的示例。

应当理解，本文讨论的方法和装置的示例不限于应用到以下描述中列出的或附图中示出的构造细节和部件布置。这些方法和装置能够在其他示例中实施，并且能够以各种方式操作或执行。本文提供的具体实施的示例仅出于进行示意性的目的，并非旨在进行限制。此外，本文所用的措辞和术语是出于描述的目的，而不应被视为限制。本文使用“包括”、“包含”、“具有”、“含有”、“涉及”及其变型形式旨在涵盖其后列出的项目及其等同物以及附加的项目。对“或”的引用可以被理解为是包含性的，使得使用“或”描述的任何术语可以指示所述术语中的单个、多于一个和全部中的任何一种。对前和后、右和左、顶部和底部、上部和下部以及垂直和水平的任何引用是为了便于描述，而不是为了将本系统和方法或它们的分量限制成任何一个位置或空间取向。

图1A示出了示例性音频系统110可在其中使用的示例性环境100。环境100可包括音频系统110、其语音待检测并被提供用于进一步处理的用户120，以及一个或多个附加声源130，诸如电视、收音机、风扇等。当用户120讲话时，他或她可以产生可到达音频系统110的直接声学信号122和/或一个或多个间接声学信号124。表示用户的语音的输出信号(例如，表示直接声学信号122)期望由音频系统110提供以用于进一步处理，并且可为例如电的(数字或模拟)形式。一个或多个附加声源130还可以产生到达音频系统110的一个或多个直接声学信号132和/或间接声学信号134。来自一个或多个附加声源130的这些声学信号优选地从将被提供用于处理的输出信号中的表示中减少或去除。因此，由音频系统110提供的输出信号可包括稳健的信噪比(SNR)，例如不是用户语音的每个声学信号被认为是例如“噪声”信号。

本文所述的各种示例可将自适应滤波器应用于一个或多个麦克风信号以产生对声学环境(例如，对环境中的声学信号)的基本上空响应。例如，图1B示出了在用户120未讲话时在环境100中操作的示例性音频系统110。与音频系统110相关联的主麦克风可拾取到达音频系统110的声学信号，诸如声学信号132、134，并且提供包括来自环境中的许多或所有声源的分量的麦克风信号。与音频系统110相关联的附加麦克风(辅助或参考麦克风)也可拾取相同或类似的声学信号，例如，形成麦克风阵列，该麦克风阵列提供相对于彼此和主麦克风具有到达时间、相位和振幅变化的各个麦克风信号。自适应滤波器在各种示例中应用于参考麦克风信号，并且用于修改主麦克风信号以产生基本上空响应，如下文更详细所述。因此，音频系统110的空间响应模式140可针对从例如声学信号132、134的方向到达的声学信号形成空响应142。虽然空间响应模式140可被示出为形成光束和空值，但这仅仅是为了进行示意性的说明，并且本文所述的各种示例将不一定形成增强响应的光束，并且将不一定在严格意义上形成空值。各种示例可减少对于来自某些方向的声学信号的声学响应，例如基于如本文所述的到另选声源和自适应的一个或多个方向，从而减少输出信号中来自此类声源的代表性内容。此类减少的内容和/或减少的响应在本文中通常可称为空形成(nullforming)。

如图1C所示，声学环境的变化(诸如新的声源或用户开始讲话)可以产生新的声学信号，诸如声学信号122、124，音频系统110未针对其形成空响应142。因此，来自音频系统110的输出信号可包括新的声学信号的分量，例如，用户的语音。在一些示例中，对参考麦克风信号进行操作的自适应滤波器可能需要一些时间来自适应新的声学信号(例如，用户120的语音)，并且用于自适应的时间可能足以检测用户正在讲话和/或检测用户说出的内容(例如，经由语音识别)。

在一些示例中，在自适应滤波器形成可减少或消除用户的语音的新的空值之前，自适应滤波器的自适应时间可足够长，使得用户120所讲的命令或指令提供在输出信号中。在一些示例中，由用户120说出的唤醒字词可足够短以被检测到并触发自适应滤波器对自适应的冻结。在一些示例中，多个自适应算法可对每个参考麦克风信号并行操作，使得自适应滤波器以冻结(或固定)响应(例如，暂时静态滤波器权重/系数)操作至少一定持续时间。在一些示例中，作用于参考麦克风信号的自适应滤波器在更新其滤波器响应时可能会有延迟地操作(例如，在更新一组滤波器权重/系数中有延迟)，使得新的声学信号(诸如用户120开始讲话)在延迟的时间期间向输出信号提供分量。因此，在各种示例中，所提供的输出信号可包括用户语音的分量，该分量可适用于通过例如语音识别、虚拟个人助理和其他系统的进一步处理。

图2A和2B中的每个示出了示例音频系统110，其具有主麦克风210、多个参考(或辅助)麦克风220以及包括信号处理部件/电路的控制器230。在各种示例中，并且如图所示，主麦克风210可以是中心麦克风。在其他示例中，主麦克风可以是所示麦克风中的任一个或另一个麦克风。在其他示例中，可不存在特定的主麦克风，但可存在源自或形成自来自多个麦克风的信号的主信号，例如，诸如在波束形成布置或其他阵列处理中。示例性音频系统110被示出为具有特定的形状因数，但可容纳各种形状因数中的任一种形状因数。另外，虽然图2A示出了具有四个参考麦克风的示例性音频系统110，并且图2B示出了具有六个参考麦克风的示例性音频系统110，但是多于或少于所示数量的任何数量的参考麦克风可以是合适的并且可包括在各种示例中。各种麦克风210、220的放置和/或布置也可以不同。所述系统和方法的各种示例对特定麦克风放置不敏感。此外，一些示例可包括用于各种目的的附加主麦克风和/或其他麦克风。

虽然在各个附图中示出了麦克风并且用附图标号(诸如附图标号210、220)标记，但在一些示例中，附图所示的一个或多个视觉元件可表示声学端口，其中声学信号进入以最终到达麦克风210、220，这些麦克风可以是内部的并且从外部物理地不可见。在示例中，麦克风210、220中的一者或多者可紧邻声学端口的内部或者可从声学端口移开一定距离，并且可包括声学端口和相关联的麦克风之间的声波导。

在一些示例中，主麦克风210提供主信号。在一些示例中，可通过组合来自麦克风210、220的信号(例如，利用阵列处理)来提供主信号，以使在假定用户讲话的方向上的声学响应最大化。在各种示例中，自适应滤波器对多个参考信号(例如，由参考麦克风220提供的参考信号)进行操作以产生抵消信号，该抵消信号用于修改主信号以产生具有基本上空响应的输出信号，例如，当用户不讲话时。因此，当用户开始讲话时，抵消信号可能无法形成基本上空响应(例如，至少一些时间段)，并且输出信号可包括与用户的语音相关的分量。

图3示出了音频系统110的至少一个示例，该音频系统包括主麦克风210、参考麦克风220以及包括信号处理部件/电路的控制器230的至少一部分。主麦克风210提供主信号212，以在用户讲话时包括用户的语音，但其也可包括来自附加声学信号的分量。参考麦克风220中的每个参考麦克风提供参考信号222，该参考信号222包括与主信号212基本上相同的内容，但具有不同的到达时间、相位和/或振幅。在各种示例中，参考信号222可以被用作噪声参考，以例如在用户不讲话并且因此不与用户的语音相关联时，从主信号212减少或去除通常与声学环境相关联的内容。

参考信号222中的每个参考信号可通过自适应滤波器232来处理，该自适应滤波器232的输出由组合器234组合以产生噪声估计信号224，该噪声估计信号224由组合器236从主信号212中减去，以产生可作为输出信号240提供的语音估计信号214。自适应滤波器232可包括监测语音估计信号214(例如，被示出为反馈信号216)的自适应算法，并且可例如以各种间隔来自适应相应的自适应滤波器232。自适应滤波器232可使噪声估计信号224在减少语音估计信号214中的内容上有所改善，尤其是在用户120不讲话时。因此，当用户120不讲话时，音频系统110收敛以提供几乎为空的输出信号240，从而有效地减少或抵消环境中的声源向输出信号240提供代表性分量。总体上考虑自适应滤波器232(使它们的各个信号组合以从主信号212中减去)可被视为多通道自适应滤波器系统。

自适应滤波器232可包括可为本领域已知的任何数量的自适应算法或其他自适应算法的自适应算法。在一些示例中，自适应算法可为最小均方算法、归一化最小均方算法、递归最小均方算法或其他算法中的任一者，或者可为这些算法或其他算法中的任一者的组合。

在各种示例中，自适应滤波器232可被配置为在声学环境仅包括噪声源(例如，不包括用户的语音或另一期望的信号)的时间段期间自适应以确定适当的滤波器响应(例如，自适应的权重、系数)以从输出信号240基本上减少或去除噪声含量，并且当存在期望的信号时，例如当用户讲话时，应用自适应的权重或系数(例如，在滤波器232中保持它们运作)。在各种示例中，时间段可提供固定或保持的滤波器权重或系数的周期，或者信号检测(诸如语音活动检测(VAD))可触发自适应的冻结以提供固定或保持的滤波器权重的周期，或者可应用这些或其他方法的组合。例如，自适应滤波器232可能需要一些时间来自适应变化的声学环境，诸如用户开始讲话，并且此类时间可能足以在输出信号中提供用户的语音内容。在其他示例中，可通过选择自适应参数(例如，步长或自适应常数)来应用附加或不同的时间段，以产生相对缓慢的收敛和/或另选的自适应算法，诸如例如在不相交的时间段期间自适应的多个自适应滤波器之间的切换。在一些示例中，对期望的信号的检测可包括语音活动检测，该语音活动检测还可包括例如在自适应滤波器232自适应(并抵消)变化的声学环境(例如，用户开始讲话)之前的时间段期间检测唤醒字词。

一些示例可仅包括单个参考麦克风220以提供单个参考信号，该参考信号可由自适应滤波器232自适应地滤波，以提供对声学环境的基本上抵消。声学环境的变化，诸如新的期望的信号，可在输出信号中提供期望的信号的分量，如前所述，即使在此类单通道(例如，单个参考麦克风)示例中也是如此。在各种示例中，在一个或多个自适应滤波器自适应或收敛于新的声学环境(其可包括收敛的有目的的延迟)时，和/或在一个或多个自适应滤波器通过背景自适应和/或信号活动检测或其他机制的操作而被冻结时，期望的信号的分量可被包括在输出信号中。

在一些示例中，控制器230可在子频带中对各种麦克风信号进行操作，使得图3所示的控制器230的各种部件中的每个部件可包括多个子部件，每个子部件仅接收所述各种信号的特定子频带部分和/或对其进行操作。例如，并且参考图4，每个麦克风210、220可向任选的子频带滤波器410提供信号，该任选的子频带滤波器410将每个麦克风的频谱分量分成多个子频带，并且任选的子频带合成器420可将多个子频带重新组合成合适的输出信号240。因此，对于具有“n”个子频带的系统，所示“m”个自适应滤波器232中的每个自适应滤波器表示“n”个自适应滤波器，每个子频带一个自适应滤波器。各种示例可将麦克风信号分成8、16、32、64、128或更多个子频带。在某些示例中，具有在六十四(64)个子频带(n＝64)上处理的四(4)个参考麦克风通道(m＝4)的系统可包括总共256个(例如，4×64个)自适应滤波器232，每个信道每个子频带一个自适应滤波器。

在一些示例中，来自每个麦克风的信号可以模拟形式来处理，但优选地通过一个或多个ADC转换为数字形式，这些ADC可以与每个麦克风相关联，或与子频带滤波器410相关联，或以其他方式作用于麦克风和子频带滤波器410之间或其他位置的每个麦克风的输出信号，例如，作为控制器230的一部分。因此，在某些示例中，各个部件作用于从每个麦克风获得的数字信号。本文所述的ADC、子频带滤波器410和示例性音频系统110的其他部件中的任一者可以例如通过配置和/或编程为执行所示或所讨论的任何部件的各种功能或充当其的各种功能的数字信号处理器(DSP)来实现。

如上所述，信号可在被接收时由子频带滤波器410分成子频带，并且在输出处被提供时由子频带合成器420重新组合。因此，所示的各种部件中的每个部件可逻辑地表示多个此类部件以处理多个子频带。此外，子频带滤波器410可处理麦克风信号以提供限于特定范围的频率，并且在该范围内可提供多个子频带，多个子频带组合在一起涵盖整个范围。例如，子频带滤波器可在0至8,000Hz的频率范围内提供六十四(64)个子频带，每个子频带覆盖125Hz。可以为所关注的最高频率选择模数采样率，例如16kHz采样率，以满足Nyquist-Shannon采样定理，例如在高达8kHz的频率范围内。根据不同的应用和操作要求，各种示例可包括更窄或更宽的频率范围，并且可包括更多或更少的子频带，或者可不包括子频带处理。子频带滤波、处理和合成可包括在本文所述的任何示例中，而不考虑其是否在任何特定附图中示出。在各种示例中，具有不同配置参数(诸如开窗、窗口大小、重叠长度等)的各种重叠相加(OLA)或加权重叠相加(WOLA)方法可被实现用于子频带滤波和合成。

继续参考图4，自适应滤波器232可跨各种示例实现变化的滤波器分辨率或抽头，以适应不同环境中的变化的操作要求。在各种示例中，自适应滤波器232可以使用1抽头、4抽头、16抽头、32抽头或其他分辨率来操作。在一些示例中，可结合子频带尺寸、采样速率、采样位深度和/或其他处理参数来选择滤波器分辨率，以实现各种性能特性。

在各种示例中，在自适应滤波器232形成可减少或消除用户的语音的新的空值(例如，使输出信号处的能量响应最小化)之前，自适应滤波器232的收敛时间可足以使用户120所讲的命令或指令提供在输出信号240中。例如，一些自适应滤波器232可包括约1秒的收敛时间。在其他示例中，可有目的地延长或延迟自适应滤波器的收敛时间。例如，自适应滤波器232中的每个自适应滤波器(参照图3至图4)包括滤波来自参考麦克风220的相应信号的滤波器，以及更新或自适应滤波器的自适应算法，如上所述。在一些示例中，自适应滤波器232中的每个自适应滤波器的收敛减慢可为用户120所讲的命令或指令提供附加时间以提供在输出信号240中。例如，与相应的自适应滤波器232相关联的自适应算法中的每个自适应算法可被调谐(例如，通过例如调节步长或其他自适应常数)或被调节成使其对声学环境中的变化的响应不敏感，从而减慢其收敛速率，例如，延长自适应滤波器232自适应所花费的时间。在各种示例中，此类收敛延迟可以被选择或设计成提供3秒、5秒、8秒或更长时间的收敛时间。

在各种示例中，自适应滤波器232可包括每个麦克风220(例如，每个通道)(并且在子频带处理的情况下，每个子频带)多个自适应滤波器，使得每个(子频带)通道包括有源滤波器和背景滤波器。有源自适应滤波器和背景自适应滤波器可以间隔从有源到背景(反之亦然)交换功能，以形成各种间隔，在这些间隔期间，期望的信号(诸如用户的语音)可能不会通过自适应滤波器232的动作而被自适应、减少、抵消或取消。参考图5，示出了包括有源自适应滤波器和背景自适应滤波器的示例性系统110的示意图。

图5示出了示例性音频系统110，其中来自每个参考麦克风220的信号可由有源自适应滤波器232和背景自适应滤波器532处理。在一些示例中，一个或多个背景自适应滤波器532可连续地自适应以使误差信号516的响应最小化，而一个或多个有源自适应滤波器232至少在一段时间内保持一组固定(或冻结)的滤波器权重以提供输出信号240的固定响应。在各种时间间隔(诸如在各种示例中为3秒、5秒、或8秒或更多的固定间隔)下，可将来自背景自适应滤波器532的滤波器权重复制到有源自适应滤波器232。在一些示例中，可交换有源自适应滤波器232和背景自适应滤波器532的操作，使得背景自适应滤波器532变为有源且冻结的，并且有源自适应滤波器232作为背景自适应滤波器开始自适应其滤波器权重。

在一些示例中，每当有源自适应滤波器的滤波器权重变化(例如，从背景自适应滤波器复制)时，可将背景自适应滤波器重置以从新的未自适应状态开始自适应。在其他示例中，背景自适应滤波器可以继续从先前自适应的滤波器权重进行自适应，而无需重置。

在一些示例中，有源自适应滤波器232可以基于除了固定间隔之外的标准来更新。例如，每当背景自适应滤波器532已达到特定收敛水平时，可通过例如从背景自适应滤波器532复制权重来更新有源自适应滤波器232。在某些示例中，背景自适应滤波器532从重置状态自适应，并且当自适应充分完成时，例如通过滤波器权重不变化或变化小于阈值和/或很小的量，滤波器权重可被复制到有源自适应滤波器232。在一些示例中，背景自适应滤波器532可在将其权重复制到有源自适应滤波器232之后被重置。在其他示例中，背景自适应滤波器532可继续自适应并且可稍后将其权重复制到有源自适应滤波器232，基于例如权重的阈值变化和/或权重的此类变化之后的阈值收敛。因此，有源自适应滤波器232可在各种间隔内用相对固定的滤波器权重来操作，各种间隔可设计为固定间隔，或者可以为基于背景自适应滤波器532的各种标准的间隔，诸如背景自适应滤波器532的收敛标准和/或在背景自适应滤波器532的权重中已经发生的阈值变化。在这些示例性情况中的每一种情况下，系统的固定响应可足够长(例如，在时间上)以用于在输出信号240中提供和/或检测到期望的信号。

在各种示例中，各种自适应滤波器可在检测到期望的信号时(诸如当用户讲话时)冻结，并且因此可允许在此类检测之后的一段时间内在输出信号240中提供期望的信号。例如，语音活动检测器可监测估计语音信号214并向自适应滤波器232发送信号，以在检测到语音估计信号中的语音活动时暂停自适应。在某些示例中，唤醒字词相对于自适应滤波器232的收敛时间可在持续时间上足够短，以在输出信号240中被检测到并发信号通知自适应滤波器232暂停自适应。因此，在一些示例中，语音活动检测器可为唤醒字词检测器。

参考图6，示出了包括信号活动检测的示例性音频系统110。可控制自适应滤波器232以暂停自适应，同时继续基于最近的滤波器权重或系数来对信号进行滤波。活动检测器602可控制自适应算法(与自适应滤波器232相关联)何时暂停。例如，活动检测器602可监测输出信号240以指示期望的信号，诸如特定频谱内容、或唤醒字词的存在、或其他标准，并且在检测到期望的信号活动时，活动检测器602可向自适应滤波器232中的每个自适应滤波器发送信号604以暂停(或冻结)其相应滤波器权重或系数的自适应。在一些示例中，自适应滤波器232中的每个自适应滤波器可被配置为使用恰好在检测到期望的信号之前计算的滤波器权重或系数。在各种示例中，活动检测器602可以生成信号604以在特定时间段(诸如3秒、5秒、8秒或更长)内暂停自适应。在其他示例中，活动检测器602可仅在继续检测到期望的信号时生成信号604。在其他示例中，自适应算法可被配置为在接收到信号604时暂停自适应达特定时间段，或者时间段可以其他方式实施。

在各种示例中，除了监测输出信号240之外或代替监测输出信号240，活动检测器诸如活动检测器602可监测音频系统110的其他方面。例如，活动检测器602可计算主信号212和噪声估计信号224之间的相关性，并且可监测该相关性的变化。声学环境的变化可导致主信号212和噪声估计信号224之间的相关性变化，因此活动检测器602可将此类相关性变化结合到是否存在期望的信号的决定中。另外，一旦收敛，由例如自适应滤波器232应用的权重就可保持基本上恒定，只要声学环境保持不变。声学环境中的变化(诸如期望的信号的存在，例如用户正在讲话)使得自适应滤波器232开始调节所应用的权重。因此，自适应滤波器232的权重的新的或显著的变化可指示声学环境的变化，该变化可与期望的信号相关。活动检测器602可将此类情况结合到是否存在期望的信号的决定中，并且如果是这样，则暂停进一步的自适应和/或恢复恰好在变化发生之前使用的滤波器权重。

在各种示例中，可以组合上文参考图3至图6具体描述的任何元件以用于有利的效果。例如，延迟的自适应可提供减慢的收敛时间，其中可检测到期望的信号(例如，语音活动、唤醒字词)，如图6所示，以触发自适应中的暂停。此外，如图5所示的有源自适应滤波器和背景自适应滤波器可通过来自如图6所示的活动检测器的信号暂停。进一步如上所述，可将子频带滤波、处理和合成结合到图3至图6所示的方面中的任一个或组合中。另外，提供主信号的另选的系统和方法可与子频带滤波、处理、合成、收敛时间、背景自适应和活动检测的任何方面组合。参考图7描述了另选地提供主信号的至少一个示例。

图7示出了另选的示例音频系统110，其中主信号212由波束形成器710的动作提供。麦克风210、220中的任何一个都可以向波束形成器710提供信号，该信号可以应用阵列处理以将波束(例如，增强的声学响应的方向)转向例如用户120的预期位置。在一些示例中，可以预先配置(例如，存储在存储器中)多组波束形成权重(例如，一组用于各个方向中的每个方向)，并且波束形成器710可以应用所选择的一组波束形成权重。自适应滤波器232的操作可独立于应用于提供主信号212的方法或系统，并且因此参考图3至图7，自适应滤波器232的上述操作、子频带处理、收敛时间、有源和背景自适应以及活动检测中的任一者，可以有利地应用于图7的示例性音频系统110。实际上，图7所示的示例性音频系统110可以是图3所示的示例性音频系统110的一般情况，例如，图7中的波束形成器710，其选择和提供来自主麦克风210的信号并拒绝来自参考麦克风220的信号，减少到图3所示的特定情况。

根据本文所述的那些的系统和方法的各种示例可包括检测声学环境的噪声场的各种特性。例如，如本文所述的自适应系统和方法可在具有主要离散声学噪声源并且表现出各种麦克风之间的高相干水平的声学环境中表现出更稳健的性能。本文所述的在更漫射的声场中操作的系统和方法可通过包括波束形成技术诸如参考图7所述的那些技术来更稳健地操作。因此，一些示例检测声学环境的噪声场是否表现出更离散的特性或更漫射的特性，并且可部分地基于噪声场检测来选择各种操作参数。例如，在一些示例中，使用和操作波束形成以提供主信号、自适应滤波器的积极性(例如，收敛时间)和/或是否在一段时间内暂停或冻结自适应可以基于对噪声场特性的检测。例如，一些示例可在检测到噪声场更漫射时使用波束形成来提供主信号和不太积极的自适应，并且可在检测到噪声场更离散时使用全向麦克风来提供主信号和更积极的自适应。在一些示例中，可以通过计算或确定各个麦克风通道之间的幅值平方相干性来确定噪声场的漫射性的确定。在一些示例中，针对预期对于漫射噪声场具有低相干性(例如，特征sinc函数中的空值)的频率，确定幅值平方相干性。

根据本文所述的那些的系统和方法的各种示例可以包括用于从一个或多个程序内容信号产生声学信号的一个或多个声学驱动器。例如，除了多个麦克风(诸如上述示例性音频系统中的任何一个的麦克风210、220，或其组合或另选方案)之外，音频系统还可以包括一个或多个扬声器，并且可接收用于作为声学信号回放的程序内容信号。此类音频系统可以是扬声器系统、便携式扬声器、虚拟助理设备、条形音箱等，并且可经由无线连接(例如，Bluetooth^TM或wi-fi)或有线连接(例如，光学的、同轴的、以太网)使用各种协议和/或信号格式中的任一者耦接到音频信号源(诸如智能电话、电视、远程服务器等)。所描述的示例性音频系统的一个或多个扬声器可以是另选的音频源，该另选的音频源提供不期望是输出信号(例如，输出信号240)的一部分的声学信号。在一些示例中，自适应滤波器232对来自参考麦克风220的信号的操作可以从主信号212充分地减少音频程序内容(例如，从被一个或多个扬声器转换为一个或多个声学信号的一个或多个程序内容信号)以提供足够的输出信号240。在其他示例中，可以包括回声消除子系统，该回声消除子系统从主信号212或从参考信号222中的一个或多个参考信号中去除所呈现的程序内容的一些或全部，以基本上去除或减少程序内容信号的分量以免存在于输出信号240中。

图8示出了另选的示例性音频系统110，其中回声消除子系统对主信号212和参考信号222进行操作以从那些信号中去除所呈现的程序内容的一些或全部。主麦克风210提供主信号212，该主信号在用户讲话时包括用户的语音，但也可包括来自附加声学信号的分量，诸如由音频系统110呈现的音频信号/程序内容。回声消除子系统218对主信号212进行操作以从信号中去除所有呈现的程序内容的一些。除了主信号212之外，回声消除子系统218还设置有音频参考信号250，该音频参考信号表示正由音频系统110呈现的程序内容。音频参考信号250可以是单声道信号(即，单个通道)，或者可包括多个通道或信号，例如左/右立体声音频、3.1环绕声音频、5.1环绕声音频、7.1环绕声音频等。可执行单声道或多通道回声消除的回声消除子系统218从主信号212去除此类音频内容，从而生成经处理的主信号219。类似地，参考信号222中的每个参考信号可以由回声消除子系统228(其也可以执行单声道或多通道回声消除)处理，以从那些信号中去除所呈现的程序内容的一些或全部。除了相应的参考信号222之外，每个回声消除子系统228还设置有音频参考信号250，该音频参考信号表示由音频系统110呈现的程序内容。如上所述，音频参考信号250可以是单声道或包括多通道或信号。回声消除子系统从参考信号222去除此类音频内容，从而生成经处理的参考信号229。自适应滤波器232的操作可独立于对主信号212和/或参考信号222执行的任何回声消除，并且因此参考图3至图7，自适应滤波器232的上述操作、子频带处理、收敛时间、有源和背景自适应以及活动检测中的任一者，可以有利地应用于图8的示例性音频系统110。

根据本文所述的那些的系统和方法的各种示例可包括基于应用或环境的操作、部件和特征的变型。例如，专为便携式使用而设计的音频系统可以包括有时用电池供电操作的选项，并且在某些示例中，可选择或可自适应参考麦克风(例如，自适应通道)的数量、自适应滤波器、子频带、采样频率等以降低功率消耗。在一些示例中，降低功率消耗的折衷可由系统在运行时进行，并且可能包括在降低噪音方面牺牲性能以延长操作时间(例如电池寿命)。在某些示例中，此类选项可由用户配置。另外，此类选项可随时间推移而变化，例如，当电池充电水平降低到例如一个或多个阈值以下时。预期在更固定的环境中使用的音频系统，诸如可插入电源并预期较长时间保持在固定位置的家庭扬声器或办公室扬声器，可被设计用于以增加的功耗为代价的更稳健的操作，例如，至少部分地由于来自例如电网的电力的预期可靠性和充足性。在此类情况下，系统可使用更多的参考麦克风(例如，更多的通道)、更多的自适应滤波器(可能具有更高的分辨率)、更高的采样频率、更多的子频带等，以提供更稳健的性能而不考虑功率消耗。一些示例可结合关于声学环境的预期知识。例如，可预期便携式系统在更广泛变化和/或改变的声学环境中执行，而可预期非便携式(但可移动的)系统在可不随时间推移而大变化的一组更有限的条件下操作。因此，非便携式系统可例如在断电时保持或存储自适应的滤波器权重，以在下一次通电事件中再次使用。便携式系统可能不会受益于存储先前收敛的滤波器权重，因为可能无法预期它将在与先前操作相同的声学环境中打开。基于电池供电操作的便携式系统更有可能在外面，具有很少的反射或混响信号，而非便携式系统可预期在内部，壁在附近，具有来自多个方向的相对强的噪声信号。因此，在各种示例中，可基于一个或多个预期的使用场景和/或预期的声学环境来选择或挑选包括操作参数、功率消耗、处理资源、存储器等的各种配置。

在各种示例和组合中，上述系统和方法中的一个或多个可用于捕获用户的语音并相对于附加声源和背景噪声隔离或增强用户的语音。所述的任何系统和方法及其变型可基于例如麦克风质量、麦克风放置、声学端口、结构或设备框架设计、阈值、对自适应算法、频谱算法和其他算法的选择、加权因子、窗口大小、滤波器分辨率、子频带频率宽度等，以及可适应不同应用和操作参数的其他标准用不同级别的可靠性来实施。

在各种示例和组合中，上述系统和方法中的一者或多者可用于各种音频系统中，包括各种形状因数的家庭扬声器系统、家庭影院系统、条形音箱、便携式扬声器和可穿戴音频设备。除非另外指明，否则如本文档中所用，术语可穿戴音频设备包括耳机和各种其他类型的个人音频设备，诸如头部、肩部或体戴式声学设备(例如，音频眼镜或其他头戴式音频设备)，其包括一个或多个声换能器以在接触或不接触用户耳朵的情况下接收和/或产生声音。在各种示例和组合中，上述系统和方法中的一者或多者还可用于涉及多个设备的系统中，所述多个设备协作以接收声音输入和/或产生声音。例如，此类系统可包括具有一个或多个麦克风以接收声音输入的第一设备，该第一设备与第二设备通信(经由有线或无线连接)，该第二设备可具有一个或多个声换能器以产生声音。在此类系统中，上述系统和方法可存在于第一设备中以捕获用户的语音并且相对于附加声源和背景噪声隔离或增强用户的语音，并且可将所得的语音信号和/或基于所得的语音信号的控制信号提供给第二设备以控制第二设备的一个或多个特征或功能(音频相关的或其他)。应注意的是，尽管主要服务于声学输出音频的目的的扬声器系统的特定实施方式以某种程度的细节呈现，但特定实施方式的此类呈现旨在通过提供示例来促进理解，并且不应视为限制本公开的范围或权利要求覆盖的范围。

应当理解，根据各个方面和示例的本文所公开的系统的许多功能、方法和/或部件可在数字信号处理器(DSP)和/或其他电路(模拟或数字)中实现或执行，数字信号处理器和/或其他电路适用于根据本文所公开的方面和示例来执行信号处理和其他功能。附加地或另选地，微处理器、逻辑控制器、逻辑电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、通用计算处理器、微控制器等或这些的任何组合可以是合适的，并且可包括模拟或数字电路部件和/或相对于任何特定实施方式的其他部件。

本文所公开的功能和部件可在数字域、模拟域或这两者的组合中操作，并且在适当的情况下，某些示例包括一个或多个模数转换器(ADC)和/或一个或多个数模转换器(DAC)，尽管在各个附图中缺少对ADC或DAC的说明。此外，本文所公开的功能和部件可在时域、频域或两者的组合中操作，并且某些示例包括各种形式的傅里叶或类似分析、合成和/或变换以适应各种域中的处理。

任何合适的硬件和/或软件(包括固件等)可被配置为实施或实现本文所公开的各方面和示例的部件，并且各方面和示例的各种实施方式可包括除所公开的那些之外的部件和/或功能。各种实施方式可包括用于数字信号处理器和/或其他电路的存储指令，以使电路能够至少部分地执行本文所述的功能。

应当理解，声换能器、麦克风、驱动器或扬声器可以是本领域已知的许多类型的换能器中的任一种。例如，耦接到定位在磁场中的线圈以响应于运动而产生电信号或响应于电信号而产生运动的声学结构可以是合适的声换能器。另外，压电材料可以将声学信号转换成电信号(反之亦然)的方式响应，并且可以是合适的声换能器。此外，微机电系统(MEMS)可用作合适的声换能器或为合适的声换能器的部件。这些或其他形式的声换能器中的任一个可以是合适的并且包括在各种示例中。

已经在上文描述了至少一个示例的若干方面，应当理解，本领域技术人员将容易想到各种改变、修改和改进。此类改变、修改和改进旨在成为本公开的一部分，并且旨在落入本发明的范围内。因此，上述说明书和附图仅是示例性的，并且本发明的范围应由所附权利要求书的适当构造及其等同内容来确定。

Claims

1.一种增强音频信号的方法，所述方法包括：

接收主信号；

接收多个参考信号，所述多个参考信号中的每个参考信号来自多个参考麦克风中的一个参考麦克风；

对所述多个参考信号中的每个参考信号进行滤波以提供多个滤波后的信号；

组合所述多个滤波后的信号以提供噪声估计信号；

从所述主信号中减去所述噪声估计信号以提供输出信号；以及

自适应所述多个参考信号中的每个参考信号的所述滤波，以使所述输出信号的能量含量最小化。

2.根据权利要求1所述的方法，还包括针对期望的信号监测所述输出信号，以及在检测到所述期望的信号时停止自适应所述多个参考信号中的每个参考信号的所述滤波。

3.根据权利要求2所述的方法，其中针对期望的信号监测所述输出信号包括针对唤醒字词监测所述输出信号。

4.根据权利要求1所述的方法，还包括从主麦克风提供所述主信号。

5.根据权利要求1所述的方法，还包括组合来自多个麦克风的多个信号以提供所述主信号。

6.根据权利要求1所述的方法，还包括将所述主信号和所述多个参考信号中的每一个分成子频带。

7.根据权利要求1所述的方法，还包括在所述多个参考信号中的每个参考信号上操作背景自适应滤波器，并且其中自适应所述多个参考信号中的每个参考信号的所述滤波包括从所述背景自适应滤波器复制一组滤波器权重。

8.一种音频系统，所述音频系统包括：

主输入，所述主输入用于接收主信号；

多个参考输入，所述多个参考输入中的每个参考输入用于接收参考信号；

多个自适应滤波器，所述多个自适应滤波器中的每个自适应滤波器被配置为自适应地对所述多个参考信号中的一个参考信号进行滤波以提供滤波后的信号；和

一个或多个组合器，所述一个或多个组合器被配置成接收所述多个滤波后的信号并且从所述主信号中减去所述多个滤波后的信号以提供输出信号。

9.根据权利要求8所述的音频系统，还包括检测器，所述检测器被配置为检测所述输出信号中的期望的信号分量并且响应于检测到所述期望的信号而暂停所述多个自适应滤波器的自适应。

10.根据权利要求9所述的音频系统，其中所述检测器是唤醒字词检测器。

11.根据权利要求8所述的音频系统，还包括多个麦克风，所述多个麦克风中的至少一个麦克风被配置为将所述参考信号中的至少一个参考信号提供给所述多个参考输入中的至少一个参考输入。

12.根据权利要求11所述的音频系统，还包括波束形成器，所述波束形成器被配置为从所述多个麦克风中的一个或多个麦克风接收信号并且将所述主信号提供到所述主输入。

13.根据权利要求8所述的音频系统，其中所述多个自适应滤波器被配置为自适应以使所述输出信号的能量含量最小化。

14.根据权利要求8所述的音频系统，其中所述多个自适应滤波器中的每个自适应滤波器包括有源滤波器和相应的背景自适应滤波器，每个有源滤波器被配置为通过复制来自所述相应的背景自适应滤波器的滤波器权重来自适应。

15.一种音频系统，所述音频系统包括：

主麦克风，所述主麦克风用于提供主信号；

参考麦克风，所述参考麦克风用于提供参考信号；

滤波器，所述滤波器被配置为接收所述参考信号并提供滤波后的信号，所述滤波器被配置为针对一间隔应用固定滤波器响应并在所述间隔到期时更新所述固定滤波器响应；和

组合器，所述组合器用于从所述主信号中减去所述滤波后的信号以提供输出信号。

16.根据权利要求15所述的音频系统，其中所述间隔是固定的持续时间。

17.根据权利要求15所述的音频系统，还包括对所述参考信号进行操作的背景自适应滤波器，并且所述间隔基于所述背景自适应滤波器的收敛时间，所述间隔的所述到期是所述背景自适应滤波器实现收敛时的时间，并且对所述固定滤波器响应的所述更新基于所述背景自适应滤波器在所述间隔的所述到期时的滤波器响应。

18.根据权利要求15所述的音频系统，还包括检测器，所述检测器被配置为检测所述输出信号中的期望的信号，并且所述间隔基于所述期望的信号的所述检测。

19.根据权利要求15所述的音频系统，还包括用于提供第二参考信号的第二参考麦克风，以及被配置为接收所述第二参考信号并提供第二滤波后的信号的第二滤波器，所述第二滤波器被配置成针对一间隔应用第二固定滤波器响应并且在所述间隔的所述到期时更新所述第二固定滤波器响应，所述组合器被配置成从所述主信号中减去所述滤波后的信号和所述第二滤波后的信号以提供所述输出信号。

20.根据权利要求15所述的音频系统，还包括波束形成器，所述波束形成器被配置为接收包括来自所述主麦克风的麦克风信号的一个或多个麦克风信号，并且提供所述主信号作为所述一个或多个麦克风信号的组合。