CN110785808B

CN110785808B - 具有唤醒字检测的音频设备

Info

Publication number: CN110785808B
Application number: CN201880041169.8A
Authority: CN
Inventors: R·卡雷拉斯; A·加尼施库玛
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2017-06-20
Filing date: 2018-06-20
Publication date: 2023-10-24
Anticipated expiration: 2038-06-20
Also published as: CN110785808A; US11270696B2; US10789949B2; WO2018236952A1; EP3642836A1; US20180366117A1; US20190325874A1; EP3642836B1

Abstract

本发明公开了一种具有至少一个麦克风以及处理系统的音频设备，所述至少一个麦克风适于接收来自声场的声音并产生输出，所述处理系统响应于所述麦克风的所述输出。所述处理系统被配置为使用信号处理算法来检测唤醒字，并且如果所述声场改变，则修改用于检测所述唤醒字的所述信号处理算法。

Description

具有唤醒字检测的音频设备

背景技术

本公开涉及一种具有麦克风的音频设备。

使用一个或多个麦克风连续监测唤醒字的声场的音频设备可使用信号处理算法(诸如波束形成器)，以提高噪声环境中的唤醒字检测率。然而，波束形成和其他复杂信号处理算法可使用大量的功率。对于电池驱动的音频设备，所得的电池消耗可成为使用限制。

发明内容

下文提及的所有示例和特征均可以任何技术上可能的方式组合。

在一个方面，一种音频设备包括至少一个麦克风以及处理系统，该至少一个麦克风适于接收来自声场的声音并产生输出，该处理系统响应于麦克风的输出并且被配置为使用信号处理算法来检测唤醒字，并且如果声场改变则修改用于检测唤醒字的信号处理算法。

实施方案可包括以下特征中的一个特征，或它们的任何组合。音频设备可包括可配置成麦克风阵列的多个麦克风。信号处理算法可包括波束形成器，该波束形成器使用多个麦克风输出来检测唤醒字。如果声场改变则修改用于检测唤醒字的信号处理算法可包括：改变波束形成器所使用的麦克风输出的数量。处理系统可被配置为随着声场的声压级增加而在波束形成器中使用更多麦克风。

实施方案可包括以下特征中的一个特征，或它们的任何组合。音频设备还可包括当检测到至少一个麦克风的输出中的语音活动时触发的活动检测器。处理系统可被配置为如果活动检测器触发率高于阈值触发率，则在波束形成器中使用更多麦克风。处理系统可被配置为如果活动检测器触发率高于阈值率并且声场的声压级高于阈值级别，则在波束形成器中使用更多麦克风。处理系统可被配置为如果声场的声压级降低到阈值级别以下并且活动检测器触发率低于其阈值率，则在波束形成器中使用较少麦克风。处理系统可被配置为如果声场的声压级降低到阈值级别以下、活动检测器触发率低于其阈值率，并且满足至少一个滞后规则，则在波束形成器中使用较少麦克风。至少一个滞后规则可包括声场声压级和定时器中的至少一者。

实施方案可包括以下特征中的一个特征，或它们的任何组合。如果声场改变则修改用于检测唤醒字的信号处理算法可包括：在声场改变时修改信号处理算法的复杂性。如果声场的声压级增加，则信号处理算法的复杂性可增大。在声场改变时修改信号处理算法的复杂性可包括：应用噪声缓解技术。在声场改变时修改信号处理算法的复杂性可包括：应用盲源分离。

实施方案可包括以下特征中的一个特征，或它们的任何组合。音频设备可包括耳机。耳机可具有带有外部和内部的耳杯，并且至少一些麦克风可适于接收耳杯外部的声音。处理系统可被进一步配置为在通过音频设备播放音频时启用自动回声消除算法。

实施方案可包括以下特征中的一个特征，或它们的任何组合。处理系统可包括当检测到候选唤醒字时触发的唤醒字检测器。处理系统可被配置为使用唤醒字检测器触发器来实现使用多个麦克风输出的波束形成器。唤醒字检测器可利用低功率数字信号处理器来实现。低功率数字信号处理器可适于用单个麦克风的输出输入。低功率数字信号处理器可进一步实现低功率活动检测器，低功率活动检测器用一个或多个麦克风的输出输入，并且当在输入中检测到语音或初始类似语音的模式时具有输出。处理系统可被进一步配置为向唤醒字检测器提供低功率活动检测器输出。

实施方案可包括以下特征中的一个特征，或它们的任何组合。处理系统可被进一步配置为监测麦克风输出以检测回声的指示。如果声场改变则修改用于检测唤醒字的信号处理算法可包括：在检测到回声的指示之后启用回声消除算法。音频设备可包括可配置成麦克风阵列的多个麦克风，并且信号处理算法可包括波束形成器，该波束形成器使用多个麦克风输出来检测唤醒字。如果声场改变则修改用于检测唤醒字的信号处理算法可包括：改变波束形成器所使用的麦克风输出的数量。处理系统可被配置为在回声条件较高时在波束形成器中使用更多麦克风。

在另一方面，一种音频设备包括：可配置成麦克风阵列的多个麦克风，其中麦克风适于接收来自声场的声音并产生输出；活动检测器，当检测到至少一个麦克风的输出中的语音活动时触发活动检测器；以及处理系统，该处理系统响应于麦克风和活动检测器，并且被配置为使用至少一个麦克风的输出来检测唤醒字，并且如果声场改变或者活动检测器触发率高于阈值触发率，则处理系统被进一步配置为：将信号处理算法应用于至少一个麦克风的输出或改变用于检测唤醒字的麦克风输出的数量。

在另一方面，一种音频设备包括：适于接收来自声场的声音并产生输出的至少一个麦克风；以及处理系统，该处理系统响应于麦克风的输出并且被配置为监测麦克风输出以检测回声的指示，使用信号处理算法来检测唤醒字，并且如果声场改变或者检测到回声的指示，则修改用于检测唤醒字的信号处理算法。

附图说明

图1是具有唤醒字检测的音频设备的示意性框图。

图2是具有唤醒字检测的音频设备的示意性框图。

图3是图2的音频设备的低功率数字信号处理器(DSP)的示意性框图。

图4是详细说明具有唤醒字检测的音频设备的操作的流程图。

图5是作为具有唤醒字检测的音频设备的一个示例的耳机的示意图。

具体实施方式

对于具有语音控制用户界面的设备(例如，为了激活虚拟个人助理(VPA))，设备必须不断地收听适当的提示。在一些此类设备中，使用有时被称为“唤醒字”的特殊字词或短语来激活设备的语音识别特征。在一些示例中，设备利用一个或多个麦克风来不断地收听唤醒字。用于检测唤醒字的麦克风和处理器使用电源。在电池驱动的设备中，电力使用可缩短电池寿命并因此对用户体验产生负面影响。然而，设备需要准确地检测唤醒字，否则它们不能正常工作(例如，可能存在正误识，其中设备认为已经说出唤醒字，而其实没有，或者可能存在负误识，其中设备未检测到已说出的唤醒字)，这对于用户而言可能是有问题的和烦人的。

本发明的具有唤醒字检测的音频设备包括一个或多个麦克风。当设备具有多个麦克风时，麦克风可被配置成麦克风阵列。麦克风接收来自声场的声音，声场通常来自用户周围的区域。作为两个非限制性示例，用户可以是耳机的佩戴者或包括主题音频设备的便携式扬声器的用户。音频设备包括响应于麦克风的处理系统。处理系统被配置为使用信号处理算法来检测唤醒字。如果声场改变(例如，由于增加的声压级，这可能是由于增加的背景噪声造成)和/或处理器检测到音频设备内的语音活动检测器(VAD)的高触发率，则处理系统被配置为修改用于检测唤醒字的信号处理算法。在一个非限制性示例中，声场中增加的噪声可指示应使用另外的麦克风来检测唤醒字，而VAD的高触发率可指示声场中的高语音活动，这也可意味着应使用另外的麦克风来检测唤醒字。

在安静的环境中，通常可使用单个麦克风成功地检测到唤醒字。然而，在嘈杂环境中，特别是在有多个人说话的情况下，当将两个(或更多个)麦克风排列为被优化为拾取用户语音的波束形成器并用于馈送唤醒字检测器时，唤醒字检测得到改善。处理系统可使用波束形成之外的算法来改善唤醒字检测，例如，盲源分离和自适应噪声缓解。与处理单个麦克风的输出相比，在存在噪声的情况下工作良好的波束形成和其他算法可能需要更多的功率来实现。因此，在电池驱动的音频设备(诸如一些耳机和便携式扬声器)中，由于需要波束形成或使用另一种用于唤醒字检测的复杂信号处理方法，电池寿命可能受到负面影响。可通过改变唤醒字检测任务中使用的麦克风的数量或使用更简单的算法来延长电池寿命。在一个示例中，当环境安静时可使用更少(例如，一个)麦克风，并且当环境变得嘈杂时，可波束形成更多(例如，不止一个)麦克风。在一个非限制性示例中，在波束形成器中使用的麦克风的数量可由于环境噪声的增加和/或错误唤醒字检测的频率太高而逐渐增加。然后，随着噪声减少和/或错误唤醒字检测的频率降低，用于检测唤醒字的麦克风的数量可在逐渐减少麦克风的一个步骤中或多个步骤中减少回到一个。

类似地，在其他示例中，当环境变得嘈杂和/或错误唤醒字检测的频率太高时，其他更复杂的信号处理技术(例如，盲源分离、自适应噪声缓解、回声消除等)可应用于一个或多个麦克风。随着环境噪声增加和/或错误唤醒字检测的频率太高(以电池功率为代价)，所应用的信号处理技术可在检测唤醒字时逐渐变得更稳健。然后，随着噪声减少和/或错误唤醒字检测的频率降低，所应用的信号处理技术可在一个步骤中或在多个步骤中变得不那么稳健，但从电池使用角度来看更有利。

图中的元件在框图中示出并描述为离散元件。这些元件可以实现为模拟电路或数字电路中的一者或多者。作为另外一种选择或除此之外，它们可用执行软件指令的一个或多个微处理器来实现。软件指令可包括数字信号处理指令。操作可由模拟电路或由执行软件的微处理器执行，该软件执行等效模拟操作。信号线可被实现为离散的模拟或数字信号线，具有能够处理单独信号的适当信号处理的离散数字信号线，和/或无线通信系统的元件。

当在框图中表示或暗示过程时，步骤可以由一个元件或多个元件执行。步骤可一起执行或在不同时间执行。执行活动的元件可在物理上彼此相同或靠近，或者可在物理上分开。一个元件可执行不止一个框的动作。音频信号可被编码或不编码，并且可以以数字或模拟形式发射。在一些情况下，从图中省略了常规音频信号处理设备和操作。

图1是具有唤醒字检测的音频设备300的示意性框图。音频设备300包括麦克风304，麦克风304被定位成使得它能够检测来自设备300附近的声场的声音。声场通常包括人的语音和噪声。处理器306接收麦克风输出，并且使用一个或多个信号处理算法来检测所接收的声音中的唤醒字。通信模块308能够以本领域中已知的方式发送和接收。可以向云310进行通信和从云310进行通信，且/或向另一功能或设备进行通信和从另一功能或设备进行通信。

处理器306被布置用于实现至少一个信号处理算法，该算法可用于检测麦克风输出中的唤醒字。为了在存在噪声的情况下准确地检测唤醒字，可启用处理器306以修改信号处理算法，该算法用于在声场改变(例如，如果有更多的噪声或更多的人在说话)时检测唤醒字。有许多能够有利于检测语音信号并抑制噪声的已知的信号处理方法。一般来讲，在存在噪声的情况下更好地检测语音的更复杂的信号处理算法往往需要额外的处理，因此往往使用比更简单的技术更大的功率。

本公开设想使用一个或多个此类信号处理算法来进行唤醒字检测。算法可独立使用或彼此组合使用。下文更详细地讨论的一种此类算法是波束形成。波束形成是一种使用间隔开的麦克风的阵列进行定向信号接收的信号处理技术。因此，波束形成可用于在存在噪声的情况下更好地检测语音。其他信号处理算法包括盲源分离和自适应噪声缓解。盲源分离涉及从一组混合信号中分离一组信号。盲源分离通常涉及使用多个间隔开的麦克风来检测混合信号，并在频域中进行处理。在本公开中，盲源分离可有助于将语音信号从混合语音和噪声信号中分离出来。自适应噪声缓解方法能够自适应地移除存在噪声的频带，以便缓解噪声信号，从而增强语音信号。自适应噪声缓解技术可与单个麦克风输出一起使用，或可与多个麦克风的输出一起使用。

在本公开中，可使用不同的信号处理技术来改善唤醒字检测，并且此类技术可与一个麦克风或多于一个麦克风一起使用。例如，在噪声很小的情况下，可使用简单的技术和单个麦克风。当唤醒字检测变得更加困难时，可使用更复杂的技术和单个麦克风，或者当唤醒字检测变得更加困难时，可使用相同的技术但可使用多个麦克风。处理器可循环通过不同的信号处理技术和/或使用更多麦克风，以便实现期望水平的唤醒字检测成功。

图2是具有唤醒字检测的音频设备12的示意性框图。音频设备12包括麦克风阵列14，麦克风阵列14包括一个或多个麦克风。麦克风被定位成使得它们能够检测来自设备12附近的声场的声音。声场通常包括人的语音和噪声。设备12还可具有一个或多个电声换能器(未示出)，使得它也可用于产生声音。设备12包括电源18；在这个非限制性示例中，电源是电池电源。许多音频设备将具有与本公开不直接相关并且未在附图中示出的其他部件或功能，包括例如附加处理和用户界面。音频设备的示例包括耳机、头戴式耳机、智能扬声器和无线扬声器。在以下描述中，在一些情况下，音频设备12将被描述为无线、电池驱动的头戴式耳机或耳机，但本公开不限于此类音频设备，因为本公开可应用于使用一个或多个麦克风来检测说出字词或短语的任何设备。

在一个非限制性示例中，音频设备12包括信号处理16。信号处理16单独地或与数字信号处理器(DSP)20一起可用于实现如本文所述的用于唤醒字检测的一些或全部信号处理算法。信号处理16可接收阵列14中正使用的所有麦克风的输出，如由一系列箭头所指示。在一个非限制性示例中，信号处理16实现波束形成器。波束形成器在本领域中是已知的，并且是处理多个麦克风的输出以产生空间定向的声音检测的装置。一般来讲，使用更多麦克风允许更大的方向性，并且因此在存在不期望的声音(诸如其他语音和其他环境噪声)的情况下，检测期望的声音(诸如用户的语音)的能力更强。然而，与使用单个麦克风而无波束形成的声音检测相比，波束形成需要用于多个麦克风的功率和更大的处理需要。低功率DSP20被配置为通过线路15接收单个非波束形成麦克风的输出。DSP 20还可通过线路17从信号处理16接收两个或更多个麦克风的已处理(例如波束形成)输出。当设备12仅使用单个麦克风来检测唤醒字时，信号处理16可被绕过，或者可简单地不包括在麦克风输出处理中。音频设备12还包括具有天线31的蓝牙片上系统(SoC)30。SoC 30接收来自DSP 20的数据和来自信号处理16的音频信号。SoC 30提供与例如音频源设备(诸如智能电话、平板电脑或其他移动设备)的无线通信能力。音频设备12被描绘为与具有天线41的智能电话40进行无线通信(例如，使用或另一无线标准)。通常通过使用使用天线42和路由器/接入点50的天线51建立的数据链路，智能电话40还可与云60进行无线通信。

如上所述，波束形成器只是可应用于麦克风阵列的输出以改善唤醒字检测的技术的一个非限制性示例。除了波束形成之外或代替波束形成，可以由信号处理16实现的其他技术可包括盲源分离、自适应噪声缓解、AEC，以及可改善唤醒字检测的其他信号处理技术。这些技术将在音频信号(单个麦克风音频信号15或基于多个麦克风的音频信号17)被传递到DSP 20之前应用。双耳信号处理可有助于在存在噪声的情况下检测语音。双耳语音检测技术公开于2017年3月20日提交的题为“Audio Signal Processing for NoiseReduction”的美国专利申请15/463,368中，该专利申请的全部公开内容以引用方式并入本文。

智能电话40不是当前音频设备的一部分，而是包括在图2中以建立音频设备12的许多可能使用场景中的一种。例如，用户可使用耳机来启用与云的语音通信，例如使用一个或多个VPA(例如，由Apple Inc.(Cupertino,CA)提供的由Amazon Inc.(Seattle,WA)提供的/>由Google(Mountain View,CA)提供的Google />由Microsoft Corp.(Redmond,WA)提供的/>和由Samsung Electronics(Suwon,South Korea)提供的S/>)来进行互联网搜索。音频设备12(在这种情况下包括耳机)用于检测唤醒字，例如作为经由智能电话40开始语音连接到云的装置。

如本文所述，环境噪声可影响音频设备12正确检测说出唤醒字的能力。噪声的一个具体示例可包括回声条件，回声条件可在音频设备的用户或佩戴者收听音乐时发生。当用于唤醒字检测的一个或多个麦克风上存在回声条件时，回声可能会在发出唤醒字时掩盖用户的语音，并导致唤醒字检测的问题。可启用音频设备12以检测麦克风的输出中的回声条件，并且根据需要修改信号处理算法以在存在回声条件的情况下更稳健。例如，可启用DSP 20以在检测到回声时使用声学回声消除(AEC)功能(未示出)。回声消除通常涉及首先识别原始发射的信号，该信号在发射或接收的信号中以一定的延迟重新出现。一旦识别出回声，就可通过从发射或接收的信号中减去回声来将它去除。这种技术通常使用DSP或软件以数字方式实现，但也可在模拟电路中实现。

在耳机不对用户的耳朵完美密封的情况下，播放音乐时可能会出现回声。特别是当用户以很大的音量收听音乐时，可通过耳机上的一个或多个麦克风来拾取声漏。当在这些麦克风上检测到回声条件时，音频设备12可能更难检测说出的唤醒字，因为回声可能掩盖用户的语音。因此，当检测到回声条件时，音频设备12可切换到更复杂的唤醒字检测(例如，启用AEC功能，和/或使用启用了AEC的附加麦克风)。因此，回声条件可以是用于从较低功率唤醒字检测状态移动到较高功率(但根据回声条件可能更准确)唤醒字检测状态的另一触发器，以处理回声可能干扰唤醒字的准确检测的情况。

每当有音乐播放时，可能会担心回声条件。因此，当播放音乐时(例如，通过监测A2DP流)，处理器可根据检测到的回声条件来循环通过多个级别的麦克风并使用AEC。例如，当回声条件较低时，唤醒字检测可通过单个麦克风来完成，而无需启用AEC。当回声条件中等时，唤醒字检测可通过启用AEC的单个麦克风来完成。当回声条件较高时，唤醒字检测可通过更多麦克风来完成，并且启用AEC。通过添加更多麦克风和/或调整应用于麦克风的输出的信号处理，在其间可存在其他级别。当不播放音乐时，算法可如别处所述操作，在低功率活动检测器(如下所述)上寻找外部噪声和/或活动，并且基于检测到的条件增加到更多麦克风和/或更复杂算法。

当播放导致回声条件且有噪声的音乐时，音频设备应能够区分回声和噪声，以例如决定是否应当启用AEC。音乐和噪声具有不同的频谱内容，因此可在不同频率上分析麦克风接收的信号，以确定是否存在音乐或噪声。或者，可以在播放音乐时启用AEC作为预防措施，然后可基于麦克风处感测到的声压级(这可能是由于回声或噪声)来使用另外的麦克风和/或更复杂的信号处理。

图3是图2的音频设备12的低功率数字信号处理器20的示意性框图，并且包括图2中未详细描述的附加功能。低功率DSP 20包括声压级(SPL)检测器72、低功率活动检测器(LPAD)74、唤醒字检测器76、以及测量、统计和控制/设置功能78。这些中的每一者都可经由DSP 20的处理来实现。三种类型的检测器中的每一种在本领域中都是已知的，因此本文未完全描述。SPL检测器72是检测由阵列的一个或多个麦克风检测到的声场中的声音的平均总体级别的一种装置。SPL检测器72通常监测整个声场的数秒内的平均值。例如，SPL检测器72可接收来自一个或多个外部麦克风的输入，以检测周围环境的SPL。SPL检测器72可使用频谱加权来辅助唤醒字检测和/或可聚焦于语音频带能量级别以帮助区分背景噪声与语音。

LPAD 74是一种检测频谱模式的装置，与漫射噪声和可能在时间上缓慢变化的来自其他来源的噪声相比，该频谱模式可包括人的语音的初始发声，或如几分之一秒短的类似语音的频谱模式。当在输入中检测到语音或初始类似语音模式时，LPAD 74产生输出。语音活动检测器(VAD)是一种熟知类型的LPAD，它在每次检测到可能是语音输入时产生输出或触发。VAD可包括自语音检测算法，以抑制由于相邻语音活动引起的错误检测。自语音检测算法公开于2017年3月20日提交的题为“Systems and Methods of Detecting SpeechActivity of Headphone User”的美国专利申请15/463,259中，该专利申请的全部公开内容以引用方式并入本文。LPAD还可接收来自一个或多个外部麦克风的输入，以确定周围环境中是否存在人类语音活动。由于DSP 20不断地寻找唤醒字，因此任何LPAD触发器可(或可不)包括唤醒字。唤醒字检测器76被配置为接收来自LPAD 74的触发，并尝试检测从LPAD 74接收的语音输入中的唤醒字(这被认为是潜在或候选唤醒字)。如果唤醒字检测器76检测到唤醒字，则它向蓝牙SoC发送适当的信号(例如，开始与智能电话41的蓝牙通信)。

SPL检测器72接收单个麦克风的输出(该输出可经由例如如本文所述的AEC或自适应噪声缓解来进一步处理)。波束形成的麦克风输出(或来自使用多个麦克风的另一个更复杂的信号处理算法(例如，盲源分离)的输出)也可被选择为经由控制功能78和选择器控制线88控制的选择器84输入到SPL检测器72。控制功能78还可用于经由选择器86选择到LPAD74的单个麦克风输入或多个麦克风输入。SPL数据73和LPAD数据80被提供给测量、统计和控制/设置功能78，该功能向SoC输出数据、控制和设置信息，并且能够从/>SoC接收数据、控制和设置信息，如线路79所示。用于检测唤醒字的一个或多个算法可通过在SoC上运行附加代码来分布和/或增强。LPAD 74的输出还通过线路75提供给唤醒字(WUW)检测器76，唤醒字(WUW)检测器76的输出被提供给/>SoC，如线路77所示。功能78还能够通过数据和控制线81控制波束形成器(例如，选择波束形成器中使用的麦克风的数量)或其他信号处理(例如，AEC、盲源分离、自适应噪声缓解)。

在本发明的音频设备中，当环境相对较静时，唤醒字处理(检测)可基于单个麦克风的输入。随着环境变得更嘈杂，唤醒字检测可基于两个或更多个麦克风，且/或其他信号处理技术可应用于一个或多个麦克风输出以改善唤醒字的检测。例如，可以对麦克风输出进行波束形成，和/或可应用自适应噪声缓解技术、盲源分离、AEC或其他信号处理技术。在具有三个或更多个麦克风的系统中，可以逐步增加所使用的麦克风的数量。同样，当嘈杂的环境开始变得安静时，所使用的麦克风的数量可在一个或多个步骤中减少，在一些情况下可以减少回到单个麦克风。在图3所示的示例中，麦克风的数量的改变和/或波束形成或其他信号处理技术的使用可基于LPAD 74被触发的频率和/或SPL检测器72检测到的声压级。如果LPAD触发率高，或者SPL高，或两者都高，则可使用更多麦克风和/或更高级的信号处理来进行唤醒字检测。高LPAD触发率指示周围环境具有丰富的语音活动，这可能意味着需要另外的麦克风和/或更高级的信号处理来准确地检测唤醒字。类似地，高SPL数值指示周围环境很嘈杂，这也可能意味着需要另外的麦克风和/或更高级的信号处理来准确地检测唤醒字。

图4是详细说明使用波束形成的具有唤醒字检测的音频设备(诸如，图2的音频设备12)的操作的非限制性示例的流程图100。在步骤102，操作开始于一个麦克风用于唤醒字检测。另外，可为SPL和LPAD(或VAD)触发率中的一者或两者设置初始阈值级别(“级别1”)。一个或多个阈值指示噪声级别和/或LPAD触发率，该噪声级别和/或LPAD触发率将指示应将附加麦克风(和/或更复杂的信号处理算法)用于唤醒字检测，并且可基于例如经验。作为一个非限制性示例，初始SPL阈值可为约60-65dB，并且初始LPAD触发率阈值可为约50％。在步骤104，可如上所述测量SPL和LPAD触发率。如果任一者高于相应阈值(步骤106)，则在步骤108，如果可能，增加用于唤醒字检测的麦克风的数量。如果所有的麦克风都在使用中，显然数量不能增加。另外，如果可能，则在步骤110增加阈值级别(对于SPL和LPAD触发率中的一个或最好是两者)。例如，新的SPL阈值级别可为约70dB，并且新的LPAD触发率可大于先前阈值。如果一个或多个阈值级别处于最大值，则级别不会增加。增加通常但不一定是系统中预先确定和预先设置的。增加可通过一个步骤或多个步骤实现。过程100设想多个步骤。

存在可有助于理解本文所述技术的基本用例。如果LPAD仅偶尔触发一次，则WUW检测器仅偶尔唤醒一次，这从功率和准确性角度来看是可以容忍的。另一种情况是LPAD频繁触发，导致WUW检测器在大部分时间都在运行，这可能消耗比所期望更多的功率。问题是如何确定第二种情况是否“不好”，即是不期望的？这可在一个非限制性示例中通过监测环境的平均噪音和LPAD触发的频率来实现。如果噪音低，则本文所公开的系统监测LPAD触发率和WUW检测器错误触发率。如果噪音高，但LPAD触发率低，则系统利用增大数量的麦克风和/或应用更复杂的信号处理，以避免错过语音内容。如果噪音很高并且LPAD触发率很高，则系统利用增大数量的麦克风和/或应用更复杂的信号，并检测WUW检测器错误检测的变化。

如果LPAD被频繁触发，但唤醒字(WUW)触发率随后较低，则这可指示具有挑战性的声学状况，这将一定提高所使用的语音提取方法的复杂性。一个非限制性示例性品质因数可以是：当LPAD触发率高于每分钟一次时，(WUW触发率)/(LPAD触发率)小于30％。此外，用于降低语音提取复杂性的度量可不同于用于进入更复杂状态的度量。例如，当LPAD触发率高于每分钟一次且(WUW触发率)/(LPAD触发率)小于30％时，进入更复杂的状态，但当SPL低于65dB且WUW触发率降到每分钟一次以下时，复杂性降低。

图4详细说明的过程还包括任选的滞后规则，旨在防止不同唤醒字检测状态之间的非期望快速循环。与麦克风的数量减少和/或信号处理算法的复杂性降低时相比，滞后规则针对其中麦克风的数量增加和/或所使用的信号处理算法的复杂性增大的情况设置不同的阈值。例如，阈值SPL可处于一个级别，以触发麦克风数量的增加和/或所使用的信号处理算法的复杂性的增大。随着SPL稍后下降，所使用的麦克风的数量和/或信号处理算法的复杂性也应当下降。然而，下降的SPL的阈值应该比增大的SPL的阈值小一点，以便系统不会对阈值附近的SPL的微小变化过于敏感。这同样适用于唤醒字触发率阈值。可供选择的滞后规则使用定时器而不是不同的级别，或者除了不同的级别之外也使用定时器。即，使用上述示例，当SPL下降到阈值级别时，如果SPL保持等于或低于阈值级别达至少预先确定的时间量，则将满足滞后规则。操作然后返回到步骤104。注意，动态改变滞后规则是可选步骤；如果需要，滞后规则可以是静态的。

因此，随着SPL增大和/或唤醒字检测器触发率增大，步骤104-112将逐渐增加所使用的麦克风的数量和/或所使用的信号处理算法的复杂性。

当SPL和/或唤醒字检测器触发率未达到当前设置的阈值时，步骤120-126开始起作用。如果SPL和LPAD触发率低于当前阈值(步骤106)，则如上所述，在步骤120检查当前滞后规则以确定这些规则是否已满足。如果满足这些规则，则在步骤122，如果可能，减少在唤醒字检测中使用的麦克风的数量和/或降低在唤醒字检测中使用的信号处理算法的复杂性；如果当前只使用一个麦克风，显然不能减少数量。另外，如果可能，则在步骤124降低阈值级别(对于SPL和LPAD触发率中的一个或最好是两者)。减少通常但不一定是系统中预先确定和预先设置的。在步骤126，如果可能，减少滞后规则。减少可通过一个步骤或多个步骤实现。过程100设想多个步骤。如果SPL和LPAD触发率低于当前阈值(步骤106)，并且不满足当前滞后规则(步骤122)，则操作返回到步骤104。

使用三个麦克风进行唤醒字检测的主题音频设备的操作的一个非限制性示例如下。在安静的环境中，当噪声低于可能在约65dB的范围内的第一阈值级别时，设备使用单个麦克风来收听唤醒字。如果SPL增大到第一阈值以上，和/或唤醒字检测的错误率增加到第一阈值率(在一个非限制性示例中为每小时一个以上的错误检测)以上，则DSP 20启用波束形成器16，以开始使用两个麦克风的波束形成。如果SPL随后增加到大于第一阈值的第二阈值以上(例如，70dB以上)，和/或唤醒字检测的错误率增加到大于第一阈值率的第二阈值率以上，则DSP 20启用波束形成器16，以开始使用所有三个麦克风的波束形成。当噪声降低和/或唤醒字检测错误率降低时，该过程被反转，直到仅使用一个麦克风。如果设备包括滞后规则，则如上所述也考虑这些规则。可使用相同的技术将系统缩放以使用超过三个麦克风。

需注意，在本文所述的若干操作中涉及的一些处理可被卸载到云，其中根据需要将信息和统计值报告回音频设备。例如，音频设备可确定是否检测到WUW并触发过程。音频设备DSP可以将信息传递到SoC，然后再传递到云。另外的处理可在云中(即，非现场)进行，例如以确定WUW检测是否正确。如果这个附加处理指示过多的正误识WUW检测，则可在音频设备中触发改变，以增加WUW检测的可靠性。

另外，随着复杂性增加而使用的信号处理算法和规则不需要与随着复杂性降低而使用的算法和规则相同。例如，如果WUW检测变得有问题，则复杂性可能会显著增加(例如，在单个步骤中从最不复杂的信号处理转移到最复杂的信号处理)，因为正确的WUW检测通常比电池寿命更重要。另一方面，如果噪声显著降低(例如，耳机佩戴者走出拥挤的聚会)，则复杂性可以在单个步骤而不是多个步骤中降低。

图5是耳机200的示意图，耳机200是具有唤醒字检测的音频设备的一个非限制性示例。在图5的示例中，耳机200包括头带206，以及耳上型或包耳式耳杯204和202。此处提供了与耳杯202相关的细节，并且通常对于两个耳杯均存在(如果耳机具有两个耳杯)。仅仅为了简单起见，仅给出了一个耳杯的细节。耳机可以采用其他形式，包括例如入耳式耳机或耳塞以及肩部或颈部佩戴的音频设备。

耳杯202位于头部H的耳部E上方。一个或多个外部麦克风安装到耳杯202，使得它们可检测耳杯外部的SPL。在这个非限制性示例中，包括三个此类麦克风211、212和213。麦克风211、212和213可位于耳杯202上的各种位置；图4中所示的位置是示例性的。另外，在耳杯内可存在但不一定存在一个或多个内部麦克风，诸如检测耳杯内部的SPL的麦克风214。如本领域中所公知的，耳杯内的麦克风可用于噪声消除。外部麦克风211-213通常用于如本文所述的唤醒字检测，并且还可用于噪声消除或其他通信应用。作为另外一种选择或除此之外，一个或多个内部麦克风可用于唤醒字检测。在仅使用单个麦克风的情况下，该单个麦克风通常但不一定是最靠近嘴的麦克风，在这种情况下是麦克风213。另外，有时可通过在两个耳杯上使用一个或多个麦克风来改善波束形成。因此，对于具有两个耳杯的耳机，主题音频设备可使用来自一个或两个耳杯的麦克风。在存在影响外部麦克风检测用户语音能力的某种类型的大量噪声的情况下(例如，如果有风并且所有外部麦克风211-213都被风噪声淹没)，那么如在本领域中已知的，内部麦克风214可用于检测语音。

上述系统和方法的实施方案包括对于本领域技术人员来将显而易见的计算机部件和计算机实现的步骤。例如，本领域技术人员应当理解，计算机实现的步骤可以作为计算机可执行指令存储在计算机可读介质上，诸如，例如，软盘、硬盘、光盘、闪存ROM、非易失性ROM和RAM。此外，本领域技术人员应当理解，计算机可执行指令可以在各种处理器上执行，诸如，例如，微处理器、数字信号处理器、门阵列等。为了便于说明，上述系统和方法并不是每一个步骤或元件在本文中都被描述为计算机系统的一部分，但是本领域技术人员将认识到每个步骤或元件可以具有对应的计算机系统或软件部件。因此，通过描述其对应的步骤或元件(即，它们的功能)来实现此类计算机系统和/或软件部件在本公开的范围内。

已描述了多个实施方式。然而，应当理解，在不脱离本文所述发明构思的范围的情况下，可进行附加修改，并且因此，其他实施方案在以下权利要求书的范围内。

Claims

1.一种音频设备，包括：

多个麦克风，能够被配置成麦克风阵列，所述麦克风适于接收来自声场的声音并产生多个输出；和

处理系统，所述处理系统响应于所述麦克风的所述多个输出并且包括：

信号处理算法，包括使用多个麦克风输出来检测唤醒字的波束成形器；以及

其中如果所述声场改变，则所述信号处理算法被修改；

其中修改所述信号处理算法包括改变由所述波束成形器所使用的麦克风输出的数量。

2.根据权利要求1所述的音频设备，其中所述处理系统被配置为随着所述声场的声压级增加而在所述波束形成器中使用更多麦克风。

3.根据权利要求1所述的音频设备，还包括活动检测器，当所述活动检测器检测到所述麦克风中的至少一个麦克风的所述输出中的语音活动时，所述活动检测器被触发。

4.根据权利要求3所述的音频设备，其中所述处理系统被配置为如果所述活动检测器触发率高于阈值触发率，则在所述波束形成器中使用更多麦克风。

5.根据权利要求4所述的音频设备，其中所述处理系统被配置为如果所述活动检测器触发率高于阈值率并且所述声场的声压级高于阈值级别，则在所述波束形成器中使用更多麦克风。

6.根据权利要求5所述的音频设备，其中所述处理系统被配置为如果所述声场的所述声压级降低到所述阈值级别以下并且所述活动检测器触发率低于其阈值率，则在所述波束形成器中使用较少麦克风。

7.根据权利要求6所述的音频设备，其中所述处理系统被配置为如果所述声场的所述声压级降低到所述阈值级别以下、所述活动检测器触发率低于其阈值率、并且满足至少一个滞后规则，则在所述波束形成器中使用较少麦克风。

8.根据权利要求7所述的音频设备，其中所述至少一个滞后规则包括声场声压级和定时器中的至少一者。

9.根据权利要求1所述的音频设备，其中如果所述声场改变则修改用于检测所述唤醒字的所述信号处理算法包括：在所述声场改变时修改所述信号处理算法的复杂性。

10.根据权利要求9所述的音频设备，其中如果所述声场的声压级增加，则所述信号处理算法的所述复杂性增大。

11.根据权利要求9所述的音频设备，其中在所述声场改变时修改所述信号处理算法的所述复杂性包括：应用噪声缓解技术。

12.根据权利要求9所述的音频设备，其中在所述声场改变时修改所述信号处理算法的所述复杂性包括：应用盲源分离。

13.根据权利要求1所述的音频设备，其中所述音频设备包括耳机。

14.根据权利要求13所述的音频设备，其中所述耳机具有带有外部和内部的耳杯，并且所述麦克风中的至少一些适于接收耳杯外部的声音。

15.根据权利要求1所述的音频设备，其中所述处理系统包括唤醒字检测器，当所述唤醒字检测器检测到候选唤醒字时，所述唤醒字检测器被触发。

16.根据权利要求15所述的音频设备，其中所述处理系统被配置为使用唤醒字检测器触发器来实现使用多个麦克风输出的波束形成器。

17.根据权利要求15所述的音频设备，其中所述唤醒字检测器用低功率数字信号处理器来实现。

18.根据权利要求17所述的音频设备，其中所述低功率数字信号处理器适于被输入以单个麦克风的所述输出。

19.根据权利要求17所述的音频设备，其中所述低功率数字信号处理器进一步实现低功率活动检测器，所述低功率活动检测器被输入以一个或多个麦克风的所述输出，并且当在输入中检测到语音时具有输出。

20.根据权利要求19所述的音频设备，其中所述处理系统被进一步配置为向所述唤醒字检测器提供所述低功率活动检测器输出。

21.根据权利要求1所述的音频设备，其中所述处理系统被进一步配置为监测麦克风输出以检测回声的指示。

22.根据权利要求21所述的音频设备，其中如果所述声场改变则修改用于检测所述唤醒字的所述信号处理算法包括：在检测到回声的指示之后启用回声消除算法。

23.根据权利要求22所述的音频设备，包括能够配置成麦克风阵列的多个麦克风，并且其中：

所述信号处理算法包括波束形成器，所述波束形成器使用多个麦克风输出来检测唤醒字；

如果所述声场改变则修改用于检测所述唤醒字的所述信号处理算法包括改变所述波束形成器所使用的麦克风输出的数量；并且

所述处理系统被配置为在回声条件较高时在所述波束形成器中使用更多麦克风。

24.根据权利要求1所述的音频设备，其中所述处理系统被进一步配置为在通过所述音频设备播放音频时启用自动回声消除算法。