CN113330752A

CN113330752A - 使用噪声分类优化网络麦克风设备

Info

Publication number: CN113330752A
Application number: CN201980089721.5A
Authority: CN
Inventors: 库尔特·托马斯·索托
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2018-12-20
Filing date: 2019-12-19
Publication date: 2021-08-31
Also published as: JP7271674B2; US20200213729A1; JP2022514894A; WO2020132298A1; AU2019405936A1; US11540047B2; US10602268B1; US20220007106A1; EP3900395A1; US20230217165A1; CA3123601A1; US11159880B2

Abstract

本文公开了用于使用噪声分类来优化网络麦克风设备的系统和方法。在一个示例中，网络麦克风设备(NMD)的各个麦克风检测声音。分析声音数据以检测触发事件，例如唤醒词。在NMD的回溯缓冲器中捕捉与声音数据相关联的元数据。在检测到触发事件之后，分析元数据以对声音数据中的噪声进行分类。基于分类的噪声，修改NMD的至少一个性能参数。

Description

使用噪声分类优化网络麦克风设备

相关申请的交叉引用

本申请要求于2018年12月20日提交的美国专利申请No.16/227,308的优先权，其全部内容通过引用并入本文。

技术领域

本技术涉及消费品，并且更具体地，涉及针对语音可控媒体回放系统或其一些方面的方法、系统、产品、特征、服务和其他元素。

背景技术

访问和收听外放设置的数字音频的选项是有限的，直到2003年SONOS公司申请了其首批专利申请中的一件题为“Method for Synchronizing Audio Playback betweenMultiple Networked Devices”的专利申请，并在2005年开始出售媒体回放系统为止。SONOS无线高保真(HiFi)系统使人们可以通过一个或多个联网回放设备体验来自许多源的音乐。通过安装在智能电话、平板计算机或计算机上的软件控制应用，人们能够在具有联网回放设备的任何房间中播放他或她期望的内容。另外，使用控制器，例如，能够将不同的歌曲流传输到具有回放设备的每个房间，能够将房间组合在一起进行同步回放，或者可以在所有房间中同步收听相同的歌曲。

鉴于对数字媒体的兴趣日益增长，仍然需要开发一种消费者易于使用的技术以进一步增强收听体验。

附图说明

参考以下说明书、所附权利要求和附图，可以更好地理解本公开的技术的特征、方面和优点。

图1A是具有根据所公开技术的各方面配置的媒体回放系统的环境的局部剖视图。

图1B是图1A的媒体回放系统和一个或多个网络的示意图。

图2A是示例回放设备的功能框图。

图2B是图2A的回放设备的示例壳体的立体图。

图3A-3E是示出了根据本公开的方面的示例回放设备配置的图。

图4A是根据本公开的各方面的示例控制器设备的功能框图。

图4B和图4C是根据本公开的各方面的控制器接口。

图5是根据本公开的各方面的示例网络麦克风设备的某些组件的功能框图。

图6A是示例语音输入的图。

图6B是描绘根据本公开的各方面的示例声音样本的图。

图7示出了通过主分量分析定义的坐标空间中特定噪声的分离。

图8A示出了根据本公开的各方面的用于经由网络麦克风设备对噪声进行分类的示例方法。

图8B和图8C是根据本公开的各方面的控制器接口。

图9是根据本公开的各方面的示例噪声分类和网络麦克风设备适配的功能流程图。

图10是风扇噪声在不同距离处的示例频谱图。

图11是从麦克风频谱数据的主分量分析导出的基向量的示例图。

图12是用于对噪声数据进行分类的重构频谱的示例图。

图13是从群体网络麦克风设备捕捉的示例频谱分布图。

附图是出于说明示例实施例的目的，但是应当理解的是，本发明不限于附图中所示的布置和手段。在附图中，相同的附图标记识别至少大致相似的元件。为了促进对任何特定元件的讨论，任何参考数字中的一个或多个最高有效位指的是首次引入该元件的附图。例如，首先参照图1A介绍和讨论元件103a。

具体实施方式

I.概述

在“智能”家居中，语音控制可能是有益的，该“智能”家居包括连接到通信网络的智能应用和设备(例如，无线音频回放设备、照明设备和家庭自动化设备(例如，恒温器、门锁等))。在一些实施方式中，网络麦克风设备可以用于控制智能家居设备。

网络麦克风设备(“NMD”)是一种联网计算设备，通常包括麦克风的布置(例如，麦克风阵列)，该麦克风的布置被配置为检测NMD环境中存在的声音。检测到的声音可以包括与背景噪声(例如，回放设备输出的音乐或其他环境噪声)混合在一起的人的语音。实际上，NMD通常会过滤检测到的声音，以从人的语音中消除背景噪声，从而促进识别该语音是否包含表示语音控制的语音输入。如果是这样，则NMD可以基于这种语音输入来采取措施。

NMD通常采用唤醒词引擎(通常在NMD上搭载)来识别该NMD检测到的声音是否包含包括特定唤醒词的语音输入。唤醒词引擎可以被配置为使用一种或多种识别算法来识别(即，“定位(spot)”)特定唤醒词。该唤醒词识别过程通常被称为“关键词定位”。在实践中，为了帮助促进关键词定位，NMD可以缓冲NMD的麦克风检测到的声音，然后使用唤醒词引擎来处理该缓冲的声音以确定是否存在唤醒词。

当唤醒词引擎在检测到的声音中定位唤醒词时，NMD可以确定发生了唤醒词事件(即，“唤醒词触发”)，这表明NMD已检测到包括潜在语音输入的声音。唤醒词事件的发生通常会使NMD执行涉及检测到的声音的附加过程。在一些实施方式中，除其他可能的附加过程之外，这些附加过程可以包括：输出指示已经识别出唤醒词的警报(例如，可听见的铃声和/或光指示器)，以及从缓冲器提取检测到的声音数据。提取检测到的声音可以包括：根据特定格式读出并封装检测到的声音的流，并向适当的VAS发送该封装的声音数据以用于解释。

继而，与由唤醒词引擎识别的唤醒词相对应的VAS通过通信网络从NMD接收发送的声音数据。传统上，VAS采用远程服务的形式，该远程服务是使用一个或多个配置为处理语音输入的云服务器(例如，AMAZON的ALEXA、APPLE的SIRI、MICROSOFT的CORTANA、GOOGLE的ASSISTANT等)来实施的。在某些情况下，VAS的某些组件和功能可能分布在本地设备和远程设备上。附加地或备选地，VAS可以采用在NMD或包括NMD的媒体回放系统处实现的本地服务的形式，使得语音输入或某些类型的语音输入(例如，基本命令)在本地处理而无需来自远程VAS干预。

在任何情况下，当VAS接收到检测到的声音数据时，该VAS通常会处理该数据，这涉及识别语音输入并确定在该语音输入中捕捉的单词的意图。然后，VAS可以根据该确定的意图使用某指令将响应提供回NMD。根据该指令，NMD可以使一个或多个智能设备执行操作。例如，在其他示例中，根据来自VAS的指令，NMD可以使回放设备播放特定歌曲，或者使照明设备打开/关闭。在一些情况下，NMD或具有NMD的媒体系统(例如，具有配备有NMD的回放设备的媒体回放系统)可以被配置为与多个VAS交互。实际上，NMD可以基于在NMD检测到的声音中识别的特定唤醒词，选择一个VAS而不是另一个。

在一些实施方式中，被配置为网络媒体回放系统的一部分的回放设备可以包括NMD的组件和功能(即，回放设备是“配备有NMD的”)。在这方面，这种回放设备可以包括麦克风，该麦克风被配置为检测存在于该回放设备环境中的声音(例如，人们说话、该回放设备本身或附近的另一回放设备正在输出的音频或其他环境噪声)，还可以包括用于缓冲检测到的声音以促进唤醒词识别的组件。

一些配备有NMD的回放设备可以包括内部电源(例如，可充电电池)，该内部电源允许该回放设备在未物理连接至墙壁电源插座等的情况下进行操作。就这一点而言，这种回放设备在本文中可以被称为“便携式回放设备”。另一方面，被配置为依赖于来自墙壁电源插座等的电力的回放设备在本文中可以被称为“固定回放设备”，尽管这样的设备实际上可以在家庭或其他环境中移动。在实践中，人们可能经常携带便携式回放设备往返于家庭或其他环境，在所述家庭或其他环境中保留有一个或多个固定回放设备。

在一些情况下，为NMD或NMD系统(例如，回放设备的媒体回放系统)配置了多个语音服务。可以在设置过程中配置一个或多个服务，并且稍后可以为该系统配置附加语音服务。这样，NMD充当与多个语音服务的接口，也许减轻了从每个语音服务中获取NMD以便与相应语音服务进行交互的需求。此外，NMD可以与家庭中存在的服务特定的NMD协同操作，以处理给定的语音命令。

在为NMD配置两个或多个语音服务的情况下，可以通过说出与特定语音服务相对应的唤醒词来调用该特定语音服务。例如，在查询AMAZON时，用户可以说出唤醒词“Alexa”，然后再说出语音命令。其他示例包括“Ok，Google”(用于查询GOOGLE)和“Hey，Siri”(用于查询APPLE)。

在一些情况下，通用唤醒词可以用于指示向NMD输入的语音。在一些情况下，这是制造商特定的唤醒词，而不是绑定到任何特定语音服务的唤醒词(例如，“Hey，Sonos”，其中，NMD是SONOS回放设备)。给定这样的唤醒词，NMD可以识别特定的语音服务以处理请求。例如，如果在唤醒词之后的语音输入与特定类型的命令(例如，音乐回放)相关，则向与该类型的命令相关联的特定语音服务(例如，具有语音命令能力的流音乐服务)发送该语音输入。

NMD可以包括单独的麦克风阵列。在操作中，NMD从各个的麦克风中的每一个接收声音数据，然后对其进行处理以评估是否已检测到唤醒词。如上所述，如果已经检测到了唤醒词，NMD可以向VAS传递后续的音频输入以进行进一步处理。在存在噪声(例如，来自附近设施、背景对话、交通、建筑等的环境噪声)的情况下，网络麦克风设备的功能可能受到影响。噪声的存在会对下游处理产生不利影响，增加唤醒词检测的假阳性或假阴性率，和/或导致VAS的性能不佳，例如，无法准确破译和响应语音命令。

如下文更详细地描述，公开了被配置为在存在噪声的情况下增强语音输入处理的各种技术和设备。例如，在一些实施例中，可以调整NMD的一个或多个参数以提高NMD的性能。在一些实施例中，例如通过与来自用户环境或来自更大样本群体的已知噪声样本进行比较，可以对噪声进行分类。例如，可以在存在所识别的噪声类别的情况下调整唤醒词灵敏度参数。备选地或附加地，在下游处理之前，可以从所检测到的声音数据中忽略或过滤对应于所识别的家用电器噪声的特定频带。还可以调整空间处理以抑制来自特定方向(例如，来自固定家用电器)的噪声。通过基于所检测到的音频数据中的噪声特性修改NMD的性能，可以改进语音检测和下游处理。

在一些实施例中，NMD向远程计算设备提供声音元数据(例如，频谱数据、信号电平、方向检测等)以用于评估和噪声分类。为保护用户隐私，仅依赖不透露原始音频内容(例如，所录制的话音输入或所检测到的其他声音数据的内容)的声音元数据会很有用。在仅能访问声音元数据的情况下，NMD可以通过使原始音频信号无法辨认的方式从所检测到的声音数据中导出声音元数据。例如，通过将声音元数据限制为在许多采样帧上平均的频域信息而不是时域信息，NMD可以使所检测到的原始声音数据无法经由声音元数据辨认。在操作中，NMD可以收集声音元数据并向远程评估器的一个或多个计算设备发送该元数据以进行评估和比较。然后，远程评估器可以评估声音元数据以识别声音元数据的任何特征，该特征指示噪声或可能导致NMD性能下降的其他因素。如此，在一些实施例中，系统可以通过向远程评估器发送所记录的音频内容来对环境中的噪声进行检测和分类而不侵犯用户隐私。

尽管本文所述的一些实施例可以涉及由给定的行动者(例如，“用户”和/或其他实体)执行的功能，但是应当理解的是，该描述仅出于解释的目的。除非权利要求本身的语言明确要求，否则不应将权利要求解释为要求任何此类示例行动者进行动作。

II.示例操作环境

图1A和1B示出了媒体回放系统100(或“MPS 100”)的示例配置，在媒体回放系统100中可以实现本文公开的一个或多个实施例。首先参考图1A，所示的MPS 100与具有多个房间和空间的示例家居环境相关联，其可以被统称为“家居环境”、“智能家居”或“环境101”。环境101包括具有若干个房间、空间和/或回放地区的家庭，包括主浴室101a、主卧室101b(在本文中被称为“尼克的房间”)、第二卧室101c、家庭房或书房101d、办公室101e、客厅101f、餐厅101g、厨房101h和室外庭院101i。尽管下文在家居环境的上下文中描述了某些实施例和示例，但是本文所述的技术可以在其他类型的环境中实现。在一些实施例中，例如，MPS 100可以在一个或多个商业设置(例如，餐厅、购物中心、机场、酒店、零售店或其他商店)、一个或多个交通工具(例如，运动型多功能车、巴士、汽车、轮船、轮船、飞机)、多个环境(例如，家庭和交通工具环境的组合)和/或可能需要多地区音频的其他合适环境中实现。

在这些房间和空间中，MPS 100包括一个或多个计算设备。一起参考图1A和1B，这样的计算设备可以包括：回放设备102(分别识别为回放设备102a-102o)、网络麦克风设备103(分别识别为“NMD”103a-102i)以及控制器设备104a和104b(统称为“控制器设备104”)。参照图1B，家居环境可以包括附加和/或其他计算设备，包括本地网络设备，例如，一个或多个智能照明设备108(图1B)、智能恒温器110和本地计算设备105(图1A)。在下文所述的实施例中，各种回放设备102中的一个或多个可以被配置为便携式回放设备，而其他回放设备可以被配置为固定回放设备。例如，耳机102o(图1B)是便携式回放设备，而书架上的回放设备102d可以是固定设备。作为另一示例，庭院上的回放设备102c可以是电池供电的设备，允许其在未插入墙壁插座时被运输到环境101内以及环境101外部的各个区域。

仍参考图1B，MPS 100的各种回放、网络麦克风和控制器设备102-104和/或其他网络设备可以通过点对点连接和/或通过其他连接彼此耦合，该其他连接可以通过包括网络路由器109的LAN 111进行有线和/或无线连接。例如，可以被指定为“左”设备的书房101d(图1A)中的回放设备102j可以与回放设备102a具有点对点连接，该回放设备102a也在书房101d中并且可以被指定为“右”设备。在相关实施例中，左回放设备102j可以通过点对点连接和/或通过经由LAN111的其他连接与其他网络设备(例如，回放设备102b)通信，该其他网络设备可以被指定为“前”设备。

如图1B进一步所示，MPS 100可以通过广域网(“WAN”)107耦合到一个或多个远程计算设备106。在一些实施例中，每个远程计算设备106可以采取一个或多个云服务器的形式。远程计算设备106可以被配置为以各种方式与环境101中的计算设备进行交互。例如，远程计算设备106可以被配置为在家居环境101中促进流传输和/或控制媒体内容(例如，音频)的回放。

在一些实施方式中，各种回放设备、NMD和/或控制器设备102-104可以通信地耦合到与VAS相关联的至少一个远程计算设备和与媒体内容服务(“MCS”)相关联的至少一个远程计算设备。例如，在图1B的所示示例中，远程计算设备106a与VAS 190相关联，并且远程计算设备106b与MCS 192相关联。尽管为了清楚起见在图1B的示例中仅示出了单个VAS 190和单个MCS 192，但是MPS 100可以耦合到多个不同的VAS和/或MCS。在一些实施方式中，VAS可以由AMAZON、GOOGLE、APPLE、MICROSOFT、SONOS或其他语音助手提供商中的一个或多个来操作。在一些实施方式中，MCS可以由SPOTIFY、PANDORA、AMAZON MUSIC或其他媒体内容服务中的一个或多个来操作。

如图1B进一步所示，远程计算设备106还包括远程计算设备106c，该远程计算设备106c被配置为执行某些操作，例如，远程促进媒体回放功能、管理设备和系统状态信息、指导MPS 100的设备与一个或多个VAS和/或MCS之间的通信，以及其他操作。在一个示例中，远程计算设备106c为一个或多个SONOS无线HiFi系统提供云服务器。

在各种实施方式中，一个或多个回放设备102可以采用板载(例如，集成的)网络麦克风设备的形式或包括板载(例如，集成的)网络麦克风设备。例如，回放设备102a-e分别包括或以其他方式配备有对应的NMD 103a-e。除非在说明书中另外指出，否则包括或配备有NMD的回放设备在本文中可以互换地被称为回放设备或NMD。在一些情况下，一个或多个NMD103可以是独立设备。例如，NMD 103f和103g可以是独立设备。独立NMD可以省略通常包括在回放设备中的组件和/或功能，例如，扬声器或相关电子设备。例如，在这种情况下，独立NMD可能不会产生音频输出或可能会产生有限的音频输出(例如，相对低质量的音频输出)。

MPS 100的各种回放和网络麦克风设备102和103均可以与唯一名称相关联，该唯一名称可以例如在设置这些设备中的一个或多个期间由用户分配给相应设备。例如，如图1B的所示示例所示，用户可以将名称“书架”分配给回放设备102d，因为它实际上位于书架上。类似地，可以将名称“岛”分配给NMD 103f，因为它实际上位于厨房101h(图1A)中的岛台面上。可以根据地区或房间为一些回放设备分配名称，例如，回放设备102e、1021、102m和102n，它们分别被命名为“卧室”、“餐厅”、“客厅”和“办公室”。此外，某些回放设备可以具有功能描述性名称。例如，回放设备102a和102b分别被分配了名称“右”和“前”，因为这两个设备被配置为在媒体回放期间在书房101d(图1A)的地区中提供特定的音频声道。庭院中的回放设备102c可以被命名为便携式设备，因为它是电池供电的和/或易于运输到环境101的不同区域。其他命名约定也是可能的。

如上所述，NMD可以检测和处理来自其环境的声音，例如，包括背景噪声的声音，该背景噪声与该NMD附近的人说出的话音混合。例如，当NMD在环境中检测到声音时，该NMD可以处理检测到的声音以确定该声音是否包括语音，该语音包含用于该NMD并最终用于特定VAS的语音输入。例如，NMD可以识别话音是否包括与特定VAS相关联的唤醒词。

在图1B的所示示例中，NMD 103被配置为经由LAN 111和路由器109通过网络与VAS190交互。例如，当NMD在检测到的声音中识别出潜在唤醒词时，可以发起与VAS 190的交互。该识别导致唤醒词事件，这又导致NMD开始向VAS 190发送检测到的声音数据。在一些实施方式中，MPS 100的各种本地网络设备102-105(图1A)和/或远程计算设备106c可以与远程计算设备交换各种反馈、信息、指令和/或相关数据，该远程计算设备与所选择的VAS相关联。这样的交换可以与包含语音输入的发送消息有关或独立于该消息。在一些实施例中，远程计算设备和媒体回放系统100可以经由如本文所述的通信路径和/或使用如在2017年2月21日提交的美国申请No.15/438,749中所述的元数据交换信道来交换数据，该美国申请题为“Voice Control of a Media Playback System”，其全部内容通过引用并入本文。

在接收到声音数据流之后，VAS 190确定来自NMD的流数据中是否存在语音输入，如果存在，则VAS 190还将确定该语音输入中的潜在意图。VAS 190接下来可以将响应发送回MPS 100，这可以包括直接向导致唤醒词事件的NMD发送该响应。该响应通常基于VAS 190确定的存在于语音输入中的意图。作为示例，响应于VAS 190接收到发声为“播放披头士乐队的Hey Jude”的语音输入，VAS 190可以确定该语音输入的基本意图是发起回放，并进一步确定该语音输入的意图是播放特定歌曲“Hey Jude”。在这些确定之后，VAS 190可以向特定MCS 192发送命令以取回内容(即，歌曲“Hey Jude”)，并且，该MCS 192进而直接向MPS100提供(例如，流)这个内容或间接经由VAS 190提供。在一些实施方式中，VAS 190可以向MPS 100发送命令，该命令使MPS 100自身从MCS 192取回内容。

在某些实施方式中，当在由彼此相互接近的两个或更多个NMD检测到的语音中识别出语音输入时，NMD可以促进彼此之间的仲裁。例如，环境101(图1A)中配备有NMD的回放设备102d与配备有NMD的客厅回放设备102m相对接近，并且设备102d和102m两者都可以至少有时检测到相同的声音。在这种情况下，这可能需要仲裁，以确定最终由哪个设备负责向远程VAS提供检测到的声音数据。例如，可以在先前引用的美国申请No.15/438,749中找到在NMD之间进行仲裁的示例。

在某些实施方式中，NMD可以被分配给可能不包含NMD的指定的或默认的回放设备，或以其他方式与该回放设备相关联。例如，可以将厨房101h(图1A)中的岛NMD 103f分配给与该岛NMD 103f相对接近的餐厅回放设备1021。在实践中，响应于远程VAS接收到来自NMD的语音输入以播放音频，NMD可以指示分配的回放设备播放音频，该NMD可能已经响应于用户说出的命令而向该VAS发送语音输入以播放特定的歌曲、专辑、播放列表等。例如，在先前引用的美国专利申请No.15/438,749中可以找到关于将NMD和回放设备分配为指定设备或默认设备的附加细节。

可以在以下部分中找到与示例MPS 100的不同组件以及不同组件可以如何交互以向用户提供媒体体验有关的其他方面。尽管本文的讨论可以通常涉及示例MPS 100，但本文描述的技术不限于尤其上述家居环境中的应用。例如，本文所述的技术在其他家居环境配置中可能是有用的，该其他家居环境配置包括更多或更少的回放/网络麦克风和/或控制器设备102-104中的任何一个。例如，本文的技术可以在具有单个回放设备102和/或单个NMD103的环境中使用。在这种情况的一些示例中，LAN 111(图1B)可以被消除，并且单个回放设备102和/或单个NMD 103可以直接地与远程计算设备106a-d通信。在一些实施例中，电信网络(例如，LTE网络、5G网络等)可以独立于LAN与各种回放设备102、网络麦克风设备103和/或控制器设备104通信。

a.示例回放和网络麦克风设备

图2A是示出了图1A和图1B的MPS 100的回放设备102之一的某些方面的功能框图。如图所示，回放设备102包括各种组件，下文进一步详细时论每个组件，并且回放设备102的各种组件可以通过系统总线、通信网络或某个其他连接机制可操作地彼此耦合。在图2A的所示示例中，回放设备102可以被称为“配备有NMD”的回放设备，因为它包括支持NMD功能的组件，例如，图1A中所示的NMD103之一。

如图所示，回放设备102包括至少一个处理器212，该处理器212可以是时钟驱动的计算组件，该计算组件被配置为根据存储在存储器213中的指令来处理输入数据。存储器213可以是有形的、非暂时性的计算机可读介质，其被配置为存储可由处理器212执行的指令。例如，存储器213可以是数据存储设备，其可以加载有可由处理器212执行以实现某些功能的软件代码214。

在一个示例中，这些功能可以涉及回放设备102从音频源获取音频数据，该音频源可以是另一回放设备。在另一示例中，该功能可以涉及回放设备102通过至少一个网络接口224向网络上的另一设备发送音频数据、检测到的声音数据(例如，对应于语音输入)和/或其他信息。在又一示例中，该功能可以涉及回放设备102使一个或多个其他回放设备与回放设备102同步地回放音频。在又一示例中，该功能可以涉及回放设备102促进与一个或多个其他回放设备配对或以其他方式绑定以创建多声道音频环境。许多其他示例功能也是可能的，下面讨论其中一些功能。

如刚刚提到的，某些功能可以涉及回放设备102与一个或多个其他回放设备同步回放音频内容。在同步回放期间，听众可能无法感知同步回放设备在音频内容回放之间的时间延迟差异。通过引用整体并入本文的2004年4月4日提交的题为“System and methodfor synchronizing operations among a plurality of independently clockeddigital data processing devices”的美国专利No.8,234,395，更详细地提供了回放设备之间的音频回放同步的一些示例。

为了促进音频回放，回放设备102包括音频处理组件216，该音频处理组件216通常被配置为在回放设备102呈现音频之前处理该音频。在这方面，音频处理组件216可以包括一个或多个数模转换器(“DAC”)、一个或多个音频预处理组件、一个或多个音频增强组件、一个或多个数字信号处理器(“DSP”)等。在一些实施方式中，一个或多个音频处理组件216可以是处理器212的子组件。在操作中，音频处理组件216接收模拟和/或数字音频，并且处理和/或有意更改音频以产生音频信号进行播放。

然后，可以向一个或多个音频放大器217提供产生的音频信号，以通过可操作地耦合到放大器217的一个或多个扬声器218进行放大和回放。音频放大器217可以包括被配置为将音频信号放大到用于驱动一个或多个扬声器218的电平的组件。

扬声器218中的每一个可以包括单独的传感器(例如，“驱动器”)，或者扬声器218可以包括完整的扬声器系统，该扬声器系统包括具有一个或多个驱动器的外壳。扬声器218的特殊驱动器可以包括例如重低音扬声器(例如，用于低频)、中频段驱动器(例如，用于中频)和/或高音扬声器(例如，用于高频)。在一些情况下，换能器可以由音频放大器217的各个对应的音频放大器驱动。在一些实施方式中，回放设备可以不包括扬声器218，而是可以包括用于将该回放设备连接到外部扬声器的扬声器接口。在某些实施例中，回放设备可以既不包括扬声器218也不包括音频放大器217，而是可以包括用于将该回放设备连接到外部音频放大器或视听接收机的音频接口(未示出)。

除了产生用于由回放设备102回放的音频信号之外，音频处理组件216可以被配置为处理要通过网络接口224向一个或多个其他回放设备发送以进行回放的音频。在示例场景中，如下所述，可以例如通过回放设备102(未示出)的音频线路输入接口(例如，自动检测3.5mm音频线路输入连接)或通过网络接口224从外部源接收要由回放设备102处理和/或回放的音频内容。

如图所示，至少一个网络接口224可以采取一个或多个无线接口225和/或一个或多个有线接口226的形式。无线接口可以为回放设备102提供网络接口功能，以根据通信协议(例如，任何无线标准，包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准等)与其他设备(例如，其他回放设备、NMD和/或控制器设备)无线通信。有线接口可以为回放设备102提供网络接口功能，以根据通信协议(例如，IEEE802.3)通过有线连接与其他设备进行通信。尽管图2A中所示的网络接口224包括有线接口和无线接口，但是在一些实施方式中，回放设备102可以仅包括无线接口或仅包括有线接口。

通常，网络接口224促进回放设备102与数据网络上的一个或多个其他设备之间的数据流。例如，回放设备102可以被配置为通过数据网络从一个或多个其他回放设备、LAN内的网络设备和/或WAN(例如，互联网)上的音频内容源接收音频内容。在一个示例中，回放设备102发送和接收的音频内容和其他信号可以以数字数据包数据的形式来发送，该数字数据包数据包括基于互联网协议(IP)的源地址和基于IP的目的地地址。在这种情况下，网络接口224可以被配置为解析数字数据包数据，使得去往回放设备102的数据被回放设备102正确地接收和处理。

如图2A所示，回放设备102还包括可操作地耦合到一个或多个麦克风222的语音处理组件220。麦克风222被配置为检测回放设备102的环境中的声音(即，声波)，然后将其提供给语音处理组件220。更具体地，每个麦克风222被配置为检测声音并将该声音转换成表示检测到的声音的数字或模拟信号，然后这可以使语音处理组件220基于检测到的声音执行各种功能，如下文更详细地描述。在一个实施方式中，麦克风222被布置为麦克风阵列(例如，六个麦克风的阵列)。在一些实施方式中，回放设备102包括六个以上麦克风(例如，八个麦克风或十二个麦克风)或少于六个麦克风(例如，四个麦克风、两个麦克风或单个麦克风)。

在操作中，语音处理组件220通常被配置为检测和处理通过麦克风222接收到的声音，识别检测到的声音中潜在的语音输入，并提取检测到的声音数据以启用VAS(例如，VAS190(图1B))，以处理在检测到的声音数据中识别的语音输入。语音处理组件220可以包括一个或多个模数转换器、回声消除器(“AEC”)、空间处理器(例如，一个或多个多声道维纳滤波器、一个或多个其他滤波器和/或一个或多个波束形成器组件)、一个或多个缓冲器(例如，一个或多个循环缓冲器)、一个或多个唤醒词引擎、一个或多个语音提取器和/或一个或多个话音处理组件(例如，被配置为识别与家庭相关联的特定用户或特定用户组的语音的组件)以及其他示例语音处理组件。在示例实施方式中，语音处理组件220可以包括或者采取一个或多个DSP或DSP的一个或多个模块的形式。在这方面，某些语音处理组件220可以被配置有特定参数(例如，增益和/或频谱参数)，该特定参数可以被修改或以其他方式被调谐以实现特定功能。在一些实施方式中，一个或多个语音处理组件220可以是处理器212的子组件。

在一些实施方式中，语音处理组件220可以检测并存储用户语音简档，该用户语音简档可以与MPS 100的用户帐户相关联。例如，语音简档可以被存储为变量和/或与存储在命令信息集合或数据表中的变量进行比较。语音简档可以包括用户语音的音调或频率方面和/或用户语音的其他独特方面，例如，先前引用的美国专利申请No.15/438,749中所述的那些。

如图2A进一步所示，回放设备102还包括电源组件227。电源组件227至少包括外部电源接口228，该外部电源接口228可以通过将回放设备102物理地连接至电源插座或某个其他外部电源的电缆等来耦合到电源(未示出)。其他电源组件可以包括例如变压器、转换器以及被配置为格式化电源的类似组件。

在一些实施方式中，回放设备102的电源组件227可以附加地包括内部电源229(例如，一个或多个电池)，该内部电源229被配置为在未物理连接到外部电源的情况下为回放设备102供电。当配备有内部电源229时，回放设备102可以独立于外部电源进行操作。在一些这样的实施方式中，外部电源接口228可以被配置为促进对内部电源229的充电。如之前所讨论的，包括内部电源的回放设备在本文中可以被称为“便携式回放设备”。另一方面，使用外部电源操作的回放设备在本文中可以被称为“固定回放设备”，尽管这种设备实际上可以在家庭或其他环境中移动。

回放设备102还包括用户界面240，该用户界面240可以独立于或与一个或多个控制器设备104所促进的用户交互相结合来促进用户交互。在各种实施例中，用户界面240包括一个或多个物理按钮和/或支持在触敏屏幕和/或表面上提供的图形界面等，以便用户直接提供输入。用户界面240还可以包括灯(例如，LED)和扬声器中的一个或多个，以向用户提供视觉和/或音频反馈。

作为说明性示例，图2B示出了回放设备102的示例性外壳230，在外壳230的顶部234处包括控制区域232形式的用户界面。控制区域232包括用于控制音频回放、音量水平和其他功能的按钮236a-c。控制区域232还包括用于将麦克风222切换到开启状态或关闭状态的按钮236d。

如图2B进一步所示，控制区域232至少部分地由形成在外壳230的顶部234中的孔围绕，麦克风222(在图2B中不可见)通过该孔接收回放设备102的环境中的声音。麦克风222可以沿着顶部234或外壳230的其他区域和/或在顶部230或外壳230的其他区域内的各种位置中布置，以便从相对于回放设备102的一个或多个方向检测声音。

举例来说，SONOS公司目前提供(或已经提供)销售可以实现本文公开的某些实施例的某些回放设备，包括“PLAY：1”、“PLAY：3”、“PLAY：5”、“PLAYBAR”、“CONNECT：AMP”、“PLAYBASE”、“BEAM”、“CONNECT”和“SUB”。任何其他过去、现在和/或将来的回放设备可以附加地或备选地用于实现本文公开的示例实施例的回放设备。此外，应当理解的是，回放设备不限于图2A或图2B所示的示例或SONOS产品供应。例如，回放设备可以包括有线或无线耳机集合，或者以其他方式采取有线或无线耳机集合的形式，该耳机集合可以通过网络接口等作为媒体回放系统100的一部分进行操作。在另一示例中，回放设备可以包括个人移动媒体回放设备的扩展基座，或与其交互。在又一示例中，回放设备可以集成到另一设备或组件，例如，电视、照明器材或在室内或室外使用的一些其他设备。

b.示例回放设备配置

图3A-3E示出了回放设备的示例配置。首先参考图3A，在一些示例实例中，单个回放设备可以属于一个地区。例如，庭院(Patio)上的回放设备102c可以属于A地区。在以下所述的一些实施方式中，多个回放设备可以被“绑定”以形成“绑定对”，它们一起形成单个地区。例如，可以将图3A中名为“床1”的回放设备102f(图1A)绑定到图3A中名为“床2”的回放设备102g(图1A)以形成B地区。绑定的回放设备可以具有不同的回放职责(例如，声道职责)。在以下所述的另一实施方式中，多个回放设备可以被合并以形成单个地区。例如，可以将名为“书架”的回放设备102d与名为“客厅”的回放设备102m合并以形成单个地区C。合并的回放设备102d和102m可以不被具体地分配不同的回放职责。即，合并的回放设备102d和102m除了可以同步播放音频内容之外，还可以如未合并时那样各自播放音频内容。

为了控制的目的，MPS 100中的每个地区可以被表示为单个用户界面(“UI”)实体。例如，如控制器设备104所显示的，A地区可以被提供为名为“便携”的单个实体，B地区可以被提供为名为“立体声”的单个实体，以及C地区可以被提供为名为“客厅”的单个实体。

在各种实施例中，一个地区可以采用属于该地区的回放设备之一的名称。例如，C地区可以采用客厅设备102m的名称(如图所示)。在另一示例中，C地区可以采用书架设备102d的名称。在另一示例中，C地区可以采用书架设备102d和客厅设备102m的某种组合的名称。用户可以通过控制器设备104处的输入来选定所选择的名称。在一些实施例中，可以将地区命名为与属于该地区的设备不同的名称。例如，图3A中的B地区被命名为“立体声”，但是B地区中的所有设备都没有此名称。在一方面，B地区是表示名为“立体声”的单个设备的单个UI实体，该单个设备由名为“床1”和“床2”的组成设备组成。在一个实施方式中，床1设备可以是主卧室101h(图1A)中的回放设备102f，并且床2设备也可以是主卧室101h(图1A)中的回放设备102g。

如上所述，绑定的回放设备可以具有不同的回放职责，例如，某些音频声道的回放职责。例如，如图3B所示，床1和床2设备102f和102g可以被绑定，以产生或增强音频内容的立体声效果。在该示例中，床1回放设备102f可以被配置为播放左声道音频分量，而床2回放设备102g可以被配置为播放右声道音频分量。在一些实施方式中，这种立体声绑定可以被称为“配对”。

另外，被配置为被绑定的回放设备可以具有附加的和/或不同的各自的扬声器驱动器。如图3C所示，可以将名为“前”的回放设备102b与名为“SUB”的回放设备102k绑定。前设备102b可以呈现中高频范围，而SUB设备102k可以呈现低频，例如，重低音扬声器。当未绑定时，前设备102b可以被配置为呈现整个频率范围。作为另一示例，图3D示出了分别与右回放设备102a和左回放设备102j进一步绑定的前设备102b和SUB设备102k。在一些实施方式中，右设备102a和左设备102j可以形成家庭影院系统的环绕或“卫星”声道。绑定的回放设备102a、102b、102j和102k可以形成单个D地区(图3A)。

在一些实施方式中，回放设备也可以被“合并”。与某些绑定的回放设备相比，合并的回放设备可以没有分配回放职责，但可以分别呈现每个回放设备能够回放的音频内容的全部范围。然而，合并的设备可以被表示为单个UI实体(即，如上所述的地区)。例如，图3E示出了客厅中的回放设备102d和102m的合并，这将导致这些设备由C地区的单个UI实体表示。在一个实施例中，回放设备102d和102m可以同步回放音频，在此期间，每个回放设备输出每个相应的回放设备102d和102m能够呈现的完整范围的音频内容。

在一些实施例中，独立NMD本身可以在一个地区中。例如，来自图1A的NMD 103h被命名为“壁橱”，并形成图3A中的I地区。NMD也可以与其他设备绑定或合并，以形成地区。例如，可以将名为“岛”的NMD设备103f与回放设备102i厨房绑定，两者一起形成F地区，该F地区也被命名为“厨房”。例如，在先前引用的美国专利申请No.15/438,749中可以找到关于将NMD和回放设备分配为指定设备或默认设备的附加细节。在一些实施例中，可以不将独立NMD分配给地区。

单个、绑定和/或合并的设备的地区可以被布置为形成一组同步回放音频的回放设备。这样的一组回放设备可以被称为“组”、“地区组”、“同步组”或“回放组”。响应于通过控制器设备104提供的输入，可以动态地对回放设备进行分组和取消分组以形成同步回放音频内容的新的或不同的组。例如，参考图3A，A地区可以与B地区分在一组，以形成地区组，该地区组包括两个地区的回放设备。作为另一示例，A地区可以与一个或多个其他地区C-I分在一组。A-I地区可以以多种方式进行分组和取消分组。例如，可以将三个、四个、五个或更多个(例如，全部)地区A-I分在一组。如先前参考的美国专利No.8,234,395中所述，当被分在一组时，各个和/或绑定的回放设备的地区可以彼此同步地回放音频。分在一组并绑定的设备是便携和固定回放设备之间的关联的示例类型，其可以响应于触发事件而引起，如上文所讨论并且在下文更详细地描述。

在各种实施方式中，可以为环境中的地区分配特定名称，该特定名称可以是地区组内的地区的默认名称或地区组内的地区的名称的组合，例如，如图3A所示的“餐厅+厨房”。在一些实施例中，还可以将对区组命名为由用户选择的唯一名称，例如，如图3A所示的“尼克的房间”。名称“尼克的房间”可以是用户在该地区组的先前名称上选择的名称，例如，房间名称“主卧室”。

再次参考图2A，某些数据可以作为一个或多个状态变量被存储在存储器213中，该状态变量被周期性地更新并且用于描述回放地区、回放设备和/或关联的地区组的状态。存储器213还可以包括与媒体回放系统100的其他设备的状态相关联的数据，其可以不时地在设备之间共享，使得一个或多个设备具有与该系统相关联的最新数据。

在一些实施例中，回放设备102的存储器213可以存储与状态相关联的各种变量类型的实例。变量实例可以与对应于类型的标识符(例如，标签)一起存储。例如，某些标识符可以是用于识别地区的回放设备的第一类型“a1”、用于识别可以绑定在该地区中的回放设备的第二类型“b1”和用于识别该地区可能所属的地区组的第三类型“c1”。作为相关示例，在图1A中，与庭院相关联的标识符可以指示该庭院是特定地区的唯一回放设备，而不是在地区组中。与客厅相关联的标识符可以指示该客厅没有与其他地区分在一组，而是包括绑定的回放设备102a、102b、102j和102k。与餐厅(Dining Room)相关联的标识符可以指示该餐厅是餐厅(Dining Room)+厨房(Kitchen)组的一部分，并且设备103f和102i被绑定。由于厨房是餐厅+厨房地区组的一部分，因此与该厨房关联的标识符可以指示相同或相似的信息。其他示例地区变量和标识符如下所述。

在又一示例中，如图3A所示，MPS 100可以包括表示地区和地区组的其他关联的变量或标识符，例如，与区域相关联的标识符。区域可以涉及地区组和/或不在地区组内的地区的集群。例如，图3A示出了名为“第一区域”的第一区域和名为“第二区域”的第二区域。第一区域包括庭院、书房、餐厅、厨房和浴室的地区和地区组。第二区域包括浴室、尼克的房间、卧室和客厅的对区和地区组。在一个方面，区域可以用于调用地区组和/或地区的集群，其共享另一集群的一个或多个地区和/或地区组。在这方面，这样的区域不同于地区组，该地区组不与另一地区组共享地区。用于实现区域的技术的其他示例可以在例如2017年8月21日提交的题为“Room Association Based on Name”的美国申请No.15/682,506和2007年9月11日提交的题为“Controlling and manipulating groupings in a multi-zonemedia system”的美国专利No.8,483,853中找到。这些申请中的每一个通过引用整体并入本文。在一些实施例中，MPS 100可以不实现区域，在这种情况下，系统可以不存储与区域相关联的变量。

存储器213还可以被配置为存储其他数据。这样的数据可以属于回放设备102可访问的音频源或该回放设备(或一些其他回放设备)可以与之关联的回放队列。在以下所述的实施例中，存储器213被配置为在处理语音输入时存储用于选定特定VAS的命令数据集合。

在操作期间，图1A环境中的一个或多个回放地区可能每个都在播放不同的音频内容。例如，用户可能正在庭院地区烧烤并收听由回放设备102c播放的嘻哈音乐，而另一用户可能正在厨房地区中准备食物并收听由回放设备102i播放的古典音乐。在另一示例中，回放地区可以与另一回放地区同步地播放相同的音频内容。例如，用户可以在办公室地区中，其中，回放设备102n正在播放与庭院地区中的回放设备102c正在播放的嘻哈音乐相同的音乐。在这种情况下，回放设备102c和102n可以同步地播放嘻哈音乐，使得用户可以在不同回放地区之间移动时无缝地(或者至少基本上无缝地)欣赏被外放的音频内容。可以以类似于如先前引用的美国专利No.8,234,395中所述的回放设备之间的同步的方式来实现回放地区之间的同步。

如上所述，可以动态地修改MPS 100的地区配置。因此，MPS 100可以支持多种配置。例如，如果用户将一个或多个回放设备物理地移入或移出地区，则可以将MPS 100重新配置以适应变化。例如，如果用户将回放设备102c从庭院地区物理地移动到办公室地区，则办公室地区现在可以包括回放设备102c和102n。在一些情况下，用户可以使用例如控制器设备104之一和/或语音输入来将移动的回放设备102c与办公室地区配对或分在一组和/或重命名办公室地区中的播放器。作为另一示例，如果将一个或多个回放设备102移动到家居环境中还不是回放地区的特定空间，则可以将移动的回放设备重命名或与该特定空间的回放地区相关联。

此外，MPS 100的不同回放地区可以被动态地组合成区组或划分成单独的回放地区。例如，餐厅地区和厨房地区可以被组合成用于宴会的地区组，使得回放设备102i和1021可以同步地呈现音频内容。作为另一示例，可以将书房地区中的绑定的回放设备分为(i)电视地区和(ii)分离的收听地区。电视地区可以包括前回放设备102b。收听地区可以包括右回放设备102a、左回放设备102j和低音炮(SUB)回放设备102k，如上所述，它们可以被分成一组、配对或合并。以这种方式划分书房地区可以允许一个用户在客厅空间的一个区域中的收听地区中收听音乐，而另一用户在客厅空间的另一区域中观看电视。在相关示例中，用户可以在将书房地区划分为电视地区和收听地区之前，利用NMD 103a或103b(图1B)中的任何一个来控制书房地区。一旦划分，可以例如由NMD 103a附近的用户控制收听地区，并且可以例如由NMD 103b附近的用户控制电视地区。然而，如上所述，任何NMD 103可以被配置为控制MPS 100的各种回放设备和其他设备。

c.示例控制器设备

图4A是示出了图1A的MPS 100的所选控制器设备104中的一个的某些方面的功能框图。这样的控制器设备在本文中也可以被称为“控制设备”或“控制器”。图4A中所示的控制器设备可以包括通常类似于上述网络设备的某些组件的组件，例如，处理器412、存储程序软件414的存储器413、至少一个网络接口424以及一个或多个麦克风422。在一个示例中，控制器设备可以是用于MPS 100的专用控制器。在另一示例中，控制器设备可以是可以在其上安装媒体回放系统控制器应用软件的网络设备，例如，iPhone^TM、iPad^TM或任何其他智能电话、平板电脑或网络设备(例如，联网计算机(例如，PC或Mac^TM))。

控制器设备104的存储器413可以被配置为存储控制器应用软件和与MPS 100和/或系统100的用户相关联的其他数据。存储器413可以加载有软件414中的指令，该指令可由处理器412执行以实现某些功能，例如，促进MPS 100的用户访问、控制和/或配置。如上所述，控制器设备104被配置为通过网络接口424与其他网络设备通信，该网络接口424可以采取无线接口的形式。

在一个示例中，系统信息(例如，状态变量)可以通过网络接口424在控制器设备104和其他设备之间传送。例如，控制器设备104可以从回放设备、NMD或另一网络设备接收MPS 100中的回放地区和地区组配置。类似地，控制器设备104可以通过网络接口424向回放设备或另一网络设备发送这样的系统信息。在一些情况下，另一网络设备可以是另一控制器设备。

控制器设备104还可以通过网络接口424向回放设备传送回放设备控制命令，例如，音量控制和音频回放控制。如上所述，也可以由用户使用控制器设备104来执行对MPS100的配置更改。配置更改可以包括：将一个或多个回放设备添加到地区/从地区中删除；将一个或多个地区添加到地区组/从地区组中删除；形成绑定或合并的播放器；将一个或多个回放设备与绑定或合并的播放器分离等。

如图4A中所示，控制器设备104还包括用户界面440，该用户界面440通常被配置为促进用户对MPS 100的访问和控制。用户界面440可以包括触摸屏显示器或其他物理接口，该触摸屏显示器或其他物理接口被配置为提供各种图形控制器界面，例如，图4B和4C中所示的控制器界面440a和440b。一起参考图4B和图4C，控制器界面440a和440b包括回放控制区442、回放地区区443、回放状态区444、回放队列区446和源区448。所示的用户界面仅是可以在网络设备(例如，图4A所示的控制器设备)上提供、并且由用户访问以控制媒体回放系统(例如，MPS 100)的界面的一个示例。备选地，可以在一个或多个网络设备上实现变化的格式、样式和交互序列的其他用户界面，以提供对媒体回放系统的类似的控制访问。

回放控制区442(图4B)可以包括可选择图标(例如，通过触摸或通过使用光标)，当其被选择时，使所选择的回放地区或地区组中的回放设备播放或暂停、快进、快退、跳到下一个、跳到前一个、进入/退出随机播放模式、进入/退出重复模式、进入/退出交叉淡入淡出模式等。回放控制区442还可以包括可选择图标，当其被选择时，修改均衡设置、回放音量等。

回放地区区443(图4C)可以包括MPS 100内的回放地区的表示。如图所示，回放地区区443还可以包括地区组的表示，例如，餐厅+厨房地区组。在一些实施例中，回放地区的图形表示可以是可选择的，以调出附加的可选择图标来管理或配置MPS 100中的回放地区，例如，绑定地区的创建、地区组的创建、地区组的分离以及地区组的重命名等。

例如，如图所示，可以在回放地区的每个图形表示内提供“分组”图标。在特定地区的图形表示内提供的“分组”图标可以是可选择的，以调出用于选择要与特定地区分在一组的MPS 100中的一个或多个其他区的选项。一旦被分组，已经与特定地区分在一组的地区中的回放设备将被配置为与该特定地区中的回放设备同步地播放音频内容。类似地，可以在地区组的图形表示内提供“分组”图标。在这种情况下，“分组”图标可以是可选择的，以调出用于取消选择地区组中的要从该地区组中移除的一个或多个地区的选项。通过用户界面对地区进行分组和取消分组的其他交互和实现也是可能的。当回放地区或地区组配置被修改时，可以动态地更新回放地区区443(图4C)中的回放地区表示。

回放状态区444(图4B)可以包括在所选择的回放地区或地区组中当前正在播放、先前播放或被安排为接下来播放的音频内容的图形表示。可以在控制器界面上可视地区分所选择的回放地区或地区组，例如，在回放地区区443和/或回放状态区444内。图形表示可以包括曲目标题、艺术家姓名、专辑名称、专辑年份、曲目长度和/或其他相关信息，当用户通过控制器界面控制MPS 100时，这些信息可以是对用户有用的。

回放队列区446可以包括与所选择的回放地地区或地区组相关联的回放队列中的音频内容的图形表示。在一些实施例中，每个回放地区或区组可以与回放队列相关联，该回放队列包括与该回放地区或区组回放的零个或多个音频项相对应的信息。例如，回放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符，该其他标识符可以由回放地区或区组中的回放设备用于从本地音频内容源或网络音频内容源查找和取回音频项，然后可以由回放设备回放该音频项。

在一个示例中，可以将播放列表添加到回放队列，在这种情况下，可以将与播放列表中的每个音频项对应的信息添加到回放队列。在另一示例中，回放队列中的音频项可以被保存为播放列表。在另一示例中，当回放地区或区组正在连续播放流式音频内容(例如，互联网收音机，其可以持续播放直到被停止)，而不是具有回放持续时间的分立音频项时，回放队列可以为空或被填充但“未使用”。在替代实施例中，回放队列可以包括互联网收音机和/或其他流音频内容项，并且当回放地区或区组正在播放这些项时处于“使用中”。其他示例也是可能的。

当回放地区或区组被“分组”或“取消分组”时，可以清除与受影响的回放地区或区组相关联的回放队列，或者重新关联。例如，如果包括第一回放队列的第一回放地区与包括第二回放队列的第二回放地区被分在一组，则所建立的区组可以具有相关联的回放队列，其最初是空的，包含来自第一回放队列的音频项(例如，如果第二回放地区被添加到第一回放地区)，或包含来自第二回放队列的音频项(例如，如果第一回放地区被添加到第二回放地区)，或包含来自第一回放队列和第二回放队列二者的音频项的组合。随后，如果所建立的区组被取消分组，则所得到的第一回放地区可以与先前的第一回放队列重新关联，或者与新的回放队列相关联，该新的回放队列是空的，或者包含与来自在所建立的区组被取消分组之前所建立的区组相关联的回放队列的音频项。类似地，所得到的第二回放地区可以与先前的第二回放队列重新关联，或者与新的回放队列相关联，该新的回放队列是空的，或者包含来自在与所建立的区组被取消分组之前所建立的区组相关联的回放队列的音频项。其他示例也是可能的。

仍然参考图4B和4C，音频内容在回放队列区446(图4B)中的图形表示可以包括曲目标题、艺术家姓名、曲目长度以及与回放队列中的音频内容相关联的其他相关信息。在一个示例中，音频内容的图形表示可以是可选择的，以调出附加的可选择图标来管理和/或操纵回放队列和/或回放队列中表示的音频内容。例如，可以将所表示的音频内容从回放队列中移除，将所表示的音频内容移动到回放队列内的不同位置，或者选择所表示的音频内容以立即播放，或者在任何当前播放的音频内容之后进行播放等。与回放地区或区组相关联的回放队列可以存储于该回放地区或区组中的一个或多个回放设备上、不在该回放地区或区组中的回放设备上和/或一些其他指定设备上的存储器中。这种回放队列的回放可以涉及一个或多个回放设备可能按顺序或随机顺序回放队列中的媒体项。

源区448可以包括与对应的VAS相关联的可选择音频内容源和/或可选择语音助手的图形表示。可以选择性地分配VAS。在一些示例中，同一NMD可以调用多个VAS，例如，AMAZON的Alexa、MICROSOFT的Cortana等。在一些实施例中，用户可以将VAS专门分配给一个或多个NMD。例如，用户可以将第一VAS分配给图1A所示的客厅中的NMD 102a和102b中的一个或两个，并将第二VAS分配给厨房中的NMD 103f。其他示例是可能。

d.示例音频内容源

源区448中的音频源可以是音频内容源，可以通过所选择的回放地区或地区组从该音频内容源中获取音频内容并播放。区或地区组中的一个或多个回放设备可以被配置为从各种可用音频内容源中获取回放音频内容(例如，根据音频内容的对应URI或URL)。在一个示例中，回放设备可以直接从对应的音频内容源(例如，通过线路输入连接)中取回音频内容。在另一示例中，可以在网络上，经由一个或多个其他回放设备或网络设备向回放设备提供音频内容。如下文更详细描述的，在一些实施例中，音频内容可以由一个或多个媒体内容服务提供。

示例音频内容源可以包括：媒体回放系统(例如，图1的MPS 100)中的一个或多个回放设备的存储器、一个或多个网络设备(例如，控制器设备、启用网络的个人计算机或附接网络的存储器(“NAS”))上的本地音乐库、通过互联网(例如，基于云的音乐服务)提供音频内容的流音频服务、或者通过回放设备或网络设备上的线路输入连接连接至媒体回放系统的音频源等。

在一些实施例中，可以从媒体回放系统(例如，图1A的MPS 100)中添加或移除音频内容源。在一个示例中，每当添加、移除或更新一个或多个音频内容源时，可以执行对音频项编索引。对音频项编索引可以包括：扫描由媒体回放系统中的回放设备可访问的网络上共享的所有文件夹/目录中的可识别音频项，并且生成或更新包括元数据(例如，标题、艺术家、专辑、曲目长度等)及其他关联信息(例如，用于找到的每个可识别音频项的URI或URL)的音频内容数据库。用于管理和维护音频内容源的其他示例也是可能的。

e.示例网络麦克风设备

图5是示出了根据本公开的实施例配置的NMD 503的功能框图。NMD 503包括语音捕捉组件(“VCC”，或统称为“语音处理器560)、唤醒词引擎570和至少一个语音提取器572，每个语音提取器572可操作地耦合到语音处理器560。NMD 503还包括上述麦克风222和至少一个网络接口224，并且还可以包括其他组件，例如，音频放大器、接口等，为清楚起见该其他组件未在图5中示出。

NMD 503的麦克风222被配置为从NMD 503的环境向语音处理器560提供检测到的声音S_D。检测到的声音S_D可以采用一个或多个模拟或数字信号的形式。在示例实施方式中，检测到的声音S_D可以由与馈送到语音处理器560的各个声道562相关联的多个信号组成。

每个声道562可以对应于特定的麦克风222。例如，具有六个麦克风的NMD可以具有六个对应的声道。检测到的声音S_D的每个声道可以与其他声道具有某些相似性，但在某些方面可能有所不同，这可能是由于给定声道的对应麦克风相对于其他声道的麦克风的位置。例如，检测到的声音S_D的一个或多个声道可以具有比其他声道更大的话音与背景噪声的信噪比(“SNR”)。

如图5进一步所示，语音处理器560包括AEC 564、空间处理器566和一个或多个缓冲器568。在操作中，AEC 564接收检测到的声音S_D并过滤或以其他方式处理该声音以抑制回声和/或改善检测到的声音S_D的质量。然后可以向空间处理器566传递该处理后的声音。

空间处理器566通常被配置为分析所检测到的声音S_D并识别某些特性，例如，声音的幅度(例如，分贝级)、频谱、方向性等。一方面，如上所述，空间处理器566可以基于所检测到的声音S_D的组成声道562的相似性和差异性来帮助过滤或抑制所检测到的来自潜在用户话音的声音S_D中的周围环境噪声。作为一种可能性，空间处理器566可以监视将话音与其他声音区分开的度量。例如，这种度量可以包括话音频带内相对于背景噪声的能量以及该话音频带内的熵(频谱结构的一种测量)，该度量通常比大多数常见背景噪声低。在一些实施方式中，空间处理器566可以被配置为确定话音存在概率，这种功能的示例在2018年5月18日提交的题为“Linear Filtering forNoise-Suppressed Speech Detection”的美国专利申请No.15/984,073和2018年9月29日提交的题为“Linear Filtering for Noise-SuppressedSpeech Detection via Multiple Network Microphone Devices”的美国专利申请No.16/147,710中公开，它们中的每一个的全部内容通过引用并入本文。

唤醒词引擎570被配置为监视和分析接收到的音频以确定该音频中是否存在任何唤醒词。唤醒词引擎570可以使用唤醒词检测算法来分析接收到的音频。如果唤醒词引擎570检测到唤醒词，则网络麦克风设备可以处理该接收到的音频中包含的语音输入。示例唤醒词检测算法接受音频作为输入，并且提供在该音频中是否存在唤醒词的指示。许多第一方和第三方唤醒词检测算法是已知的并且可商购的。例如，语音服务的运营商可以使其算法可用于第三方设备。备选地，可以训练算法以检测某些唤醒词。

在一些实施例中，唤醒词引擎570在接收到的音频上同时(或基本同时)运行多个唤醒词检测算法。如上所述，不同的语音服务(例如，AMAZON的

APPLE的

MICROSOFT的

GOOGLE的Assistant等)均使用不同的唤醒词来调用它们各自的语音服务。为了支持多种服务，唤醒词引擎570可以针对每个支持的语音服务通过唤醒词检测算法并行地运行接收到的音频。在这样的实施例中，网络麦克风设备103可以包括VAS选择器组件574，其被配置为将语音输入传递给适当的语音助手服务。在其他实施例中，可以省略VAS选择器组件574。在一些实施例中，MPS 100的各个NMD 103可以被配置为运行与特定VAS相关联的不同唤醒词检测算法。例如，客厅的回放设备102a和102b的NMD可以与AMAZON的

相关联，并被配置为运行相应的唤醒词检测算法(例如，被配置为检测唤醒词“Alexa”或其他相关联的唤醒词)，而厨房中的回放设备102f的NMD可以与GOOGLE的Assistant相关联，并被配置为运行对应的唤醒词检测算法(例如，被配置为检测唤醒词“OK，Google”或其他相关联的唤醒词)。

在一些实施例中，网络麦克风设备可以包括语音处理组件，该语音处理组件被配置为例如通过执行被训练识别与家庭相关联的特定用户或特定用户集合的语音识别来进一步促进语音处理。语音识别软件可以实现被调谐到特定语音简档的语音处理算法。

在操作中，一个或多个缓冲器568(其中一个或多个可以是存储器213(图2A)的一部分或与之分离)捕捉与检测到的声音S_D相对应的数据。更具体地说，一个或多个缓冲器568捕捉由上游AEC 564和空间处理器566处理的检测到的声音数据。

通常，检测到的声音数据形成由麦克风222检测到的声音的数字表示(即，声音数据流)S_DS。实际上，声音数据流S_DS可以采用多种形式。作为一种可能性，声音数据流S_DS可以由帧组成，每个帧可以包括一个或多个声音样本。可以从一个或多个缓冲器568流传输(即，读出)帧，以由下游组件(例如，NMD 503的唤醒词引擎570和语音提取器572)进行进一步处理。

在一些实施方式中，至少一个缓冲器568利用滑动窗口方法来捕捉检测到的声音数据，其中，在至少一个缓冲器568中保留给定数量(即，给定窗口)的最新捕捉的检测到的声音数据，而当较旧的检测到的声音数据落在窗口之外时，它们将被覆写。例如，至少一个缓冲器568可以在给定时间临时保留20个声音样本的帧，在到期时间之后丢弃最旧的帧，然后捕捉新的帧，将其添加到声音样本的19个先前帧中。

实际上，当声音数据流S_DS由帧组成时，这些帧可以采用具有各种特性的各种形式。作为一种可能性，这些帧可以采用具有一定分辨率(例如，16比特分辨率)的音频帧的形式，该分辨率可以基于采样率(例如，44，100Hz)。附加地或备选地，这些帧可以包括与这些帧定义的给定声音样本相对应的信息，例如，元数据，该元数据指示频率响应、功率输入电平、信噪比、麦克风声道标识和/或给定声音样本的其他信息，以及其他示例。因此，在一些实施例中，帧可以包括声音的一部分(例如，给定声音样本的一个或多个样本)和关于声音的一部分的元数据。在其他实施例中，帧可以仅包括声音的一部分(例如，给定声音样本的一个或多个样本)或关于声音的一部分的元数据。

语音处理器560还包括至少一个回溯缓冲器569，其可以是存储器213(图2A)的一部分或与其分离。在操作中，回溯缓冲器569可以存储基于所检测到的从麦克风222接收到的所检测声音数据S_D处理的声音元数据。如上所述，麦克风224可以包括布置成阵列的多个麦克风。声音元数据可以包括，例如：(1)阵列的各个麦克风的频率响应数据，(2)回声回波损耗增强测量(即，对每个麦克风的声学回声消除器(AEC)有效性的测量)，(3)语音方向测量；(4)仲裁统计(例如，与不同麦克风相关联的空间处理流的信号和噪声估计)；和/或(5)语音频谱数据(即，在已经执行了声学回声消除和空间处理之后对处理后的音频输出进行评估的频率响应)。其他声音元数据也可用于对所检测到的声音数据S_D中的噪声进行识别和分类。在至少一些实施例中，如从回溯缓冲器569延伸到网络接口224的箭头所反映的，声音元数据可以与声音数据流S_DS分开传输。例如，声音元数据可以从回溯缓冲器569被发送给一个或多个与接收声音数据流S_DS的VAS分开的远程计算设备。在一些实施例中，如下文更详细描述的，例如，元数据可以被发送给远程服务提供商进行分析以构建或修改噪声分类器。

如以下关于图7-图13更详细地描述，在一些实施例中，远程计算设备106c或本地NMD 503可以对声音元数据执行附加计算以对可能影响(例如，有害地影响)声音数据流S_DS的下游处理的噪声进行识别和/或分类。

在任何情况下，语音处理器560下游的NMD 503的组件可以处理声音数据流S_DS。例如，唤醒词引擎570可以被配置为将一种或多种识别算法应用于声音数据流S_DS(例如，流媒体声音帧)，以在检测到的声音S_D中发现潜在唤醒词。当唤醒词引擎570发现潜在唤醒词时，唤醒词引擎570可以以信号S_w的形式向语音提取器572提供“唤醒词事件”(也称为“唤醒词触发”)的指示。

响应于唤醒词事件(例如，响应于来自唤醒词引擎570的指示唤醒词事件的信号S_W)，语音提取器572被配置为接收和格式化(例如，封装)声音数据流S_DS。例如，语音提取器572将声音数据流S_DS的帧封装成消息。语音提取器572通过网络接口218向远程VAS(例如，VAS 190(图1B))发送或流传输可能包含实时或接近实时语音输入的消息M_V。

该VAS被配置为处理从NMD 503发送的消息MV中包含的声音数据流S_DS。更具体地说，该VAS被配置为基于声音数据流S_DS来识别语音输入。参照图6A，语音输入680可以包括唤醒词部分680a和发声部分680b。唤醒词部分680a对应于导致唤醒词事件的检测到的声音。例如，唤醒词部分680a对应于使唤醒词引擎570向语音提取器572提供唤醒词事件的指示的检测到的声音。发声部分680b对应于检测到的声音，该检测到的声音潜在包括跟随唤醒词部分680a的用户请求。

作为说明性示例，图6B示出了示例第一声音样本。在该示例中，声音样本对应于与图6A的发现的唤醒词680a相关联的声音数据流S_DS(例如，一个或多个音频帧)。如图所示，示例第一声音样本包括：(i)紧接在说出唤醒词之前在回放设备102i的环境中检测到的声音，该声音可以被称为前滚动部分(在时间t₀和t₁之间)；(ii)在说出唤醒词时在回放设备102i的环境中检测到的声音，该声音可以被称为唤醒计量部分(在时间t₁和t₂之间)和/或(iii)在说出唤醒词之后在回放设备102i的环境中检测到的声音，该声音可以被称为后滚动部分(在时间t₂和t₃之间)。其他声音样本也是可能的。

通常，VAS可以首先处理声音数据流S_DS中的唤醒词部分680a以验证唤醒词的存在。在一些实例中，VAS可以确定唤醒词部分680a包括错误的唤醒词(例如，当单词“Alexa”是目标唤醒词时，单词“Election”)。在这种情况下，VAS可以向NMD 503(图5)发送响应，指示NMD503停止提取声音数据，这可能导致语音提取器572停止检测到的声音数据向VAS的进一步流传输。唤醒词引擎570可以恢复或继续监视声音样本，直到另一潜在唤醒词导致另一唤醒词事件。在一些实施方式中，VAS可以不处理或接收唤醒词部分680a，而是仅处理发声部分680b。

在任何情况下，VAS处理发声部分680b以识别在检测到的声音数据中任何单词的存在并从这些单词确定潜在意图。这些单词可以对应于某个命令和某些关键词684(在图6A中分别标识为第一关键词684a和第二关键词684b)。关键词可以是例如语音输入680中的识别MPS 100中特定设备或分组的词。例如，在所示的示例中，关键词684可以是识别要在其中播放音乐的一个或多个地区(例如，客厅和餐厅(图1A))的一个或多个单词。

为了确定单词的意图，VAS通常与和VAS(未示出)关联的一个或多个数据库和/或MPS 100的一个或多个数据库(未示出)进行通信。这样的数据库可以存储多种用户数据、分析、目录和其他信息以用于自然语言处理和/或其他处理。在一些实施方式中，可以基于语音输入处理来更新这样的数据库以用于神经网络的自适应学习和反馈。在某些情况下，发声部分680b可以包括附加信息，例如，检测到的用户说出的单词之间的停顿(例如，非语音的时间段)，如图6A所示。该停顿可以在发声部分680b内标定由用户说出的单独命令、关键词或其他信息的位置。

基于某些命令标准，VAS可以由于识别语音输入中的一个或多个命令(例如，命令682)而采取动作。命令标准可以基于在语音输入中包含某些关键词以及其他可能性。附加地或备选地，用于命令的命令标准可以涉及对一个或多个控制状态和/或地区状态变量的识别，该控制状态和/或地区状态变量与一个或多个特定命令的识别相结合。控制状态变量可以包括：例如，识别音量水平的指示符、与一个或多个设备相关联的队列以及回放状态，例如，设备是否正在播放队列、是否暂停等。地区状态变量可以包括：例如，识别哪些地区播放器(如果有的话)被分在一组的指示符。

在处理语音输入之后，VAS可以基于其从语音输入确定的意图，向MPS 100发送具有指令的响应以执行一个或多个动作。例如，基于语音输入，VAS可以指导MPS 100在一个或多个回放设备102上发起回放、控制这些设备中的一个或多个(例如，提高/降低音量、分组/取消分组设备等)、打开/关闭某些智能设备以及其他动作。如以上所讨论的，在接收到来自VAS的响应之后，NMD 503的唤醒词引擎570可以恢复或继续监视声音数据流S_DS，直到发现另一潜在唤醒词为止。

返回参考图5，在多VAS实施方式中，NMD 503可以包括VAS选择器574(以虚线示出)，该VAS选择器574通常被配置为：当特定的唤醒词引擎(例如，第一唤醒词引擎570a、第二唤醒词引擎570b或附加唤醒词引擎571)识别给定的唤醒词时，指导语音提取器的提取和向适当VAS的声音数据流S_DS传输。在这样的实施方式中，NMD503可以包括多个不同的唤醒词引擎和/或语音提取器，每一个都由特定的VAS支持。与以上讨论类似，每个唤醒词引擎可以被配置为从一个或多个缓冲器568接收声音数据流S_DS作为输入，并且应用识别算法为适当的VAS引起唤醒词触发。因此，作为一个示例，第一唤醒词引擎570a可以被配置为识别唤醒词“Alexa”，并且当发现“Alexa”时使NMD 503调用AMAZON VAS。作为另一示例，第二唤醒词引擎570b可以被配置为识别唤醒词“Ok，Google”，并且当发现“Ok，Google”时使NMD 503调用GOOGLE VAS。在单个VAS实施方式中，可以省略VAS选择器574。

在附加或备选实施方式中，NMD 503可以包括其他语音输入识别引擎571(以虚线示出)，其使NMD 503能够在没有远程VAS的辅助下进行操作。作为示例，这样的引擎可以在检测到的声音中识别某些命令(例如，“播放”、“暂停”、“打开”等)和/或某些关键词或短语，例如，分配给给定回放设备的唯一名称(例如“书架”、“庭院”、“办公室”等)。响应于识别这些命令、关键词和/或短语中的一个或多个，NMD 503可以传送使音频处理组件216(图2A)执行一个或多个动作的信号(在图5中未示出)。例如，当用户说“Hey Sonos，停止办公室里的音乐”时，NMD 503可以直接或间接地通过MPS 100的一个或多个其他设备向办公室回放设备102n传送信号，使办公设备102n停止音频回放。减少或消除来自远程VAS的辅助的需求，可以减少在远程处理语音输入时可能发生的延迟。在某些情况下，所采用的识别算法可以被配置为识别在没有前面的唤醒词的情况下说出的命令。例如，在以上示例中，NMD 503可以采用识别算法，该算法触发事件以停止办公室中的音乐，而无需用户先说“Hey Sonos”或另一唤醒词。

III.基于噪声分类修改NMD操作的示例系统和方法

在操作中，NMD可能暴露于各种不同类型的噪声中，例如，交通、设施(例如，风扇、水槽、冰箱等)、建筑、干扰话音等。为了在存在这种噪声的情况下更好地分析所捕捉到的音频输入，对音频输入中的噪声进行分类可能很有用。不同的噪声源将产生不同的声音，并且这些不同的声音将具有不同的相关联的声音元数据(例如，频率响应、信号电平等)。与不同的噪声源相关联的声音元数据可以具有区分一个噪声源与另一个噪声源的特征。因此，通过识别不同的特征，可以通过分析声音元数据来对不同的噪声源进行分类。图7示出了所分析的与四个噪声源相关联的声音元数据：左上图是在定位在距离NMD三英尺的高度设置上的风扇的噪声；右上图是周围环境噪声；左下图是定位在距离NMD三英尺的运行水槽；以及右下图是距离NMD三英尺的烹饪食物的嘶嘶声。在一些实施方式中，可以使用主分量分析来生成图中所示的这些特征。如下面关于图10-图13更详细地描述，从各种NMD收集的数据提供了可能的频率响应谱的整体分布。通常，主分量分析(PCA)可以用于找到描述所有现场数据的方差的正交基。该本征空间反映在图7各图中所示的轮廓中。图中的每个点表示投影到本征空间上的已知噪声值(例如，来自暴露于指定噪声源的NMD的单个频率响应谱)。如图7所示，这些已知噪声值在投影到本征空间时聚集在一起，为不同的噪声源生成明显不同的特征分布。如下文更详细的描述，这种噪声分类可以用于提高NMD性能。

如上所述，诸如NMD 503之类的网络麦克风设备可以具有多种可调参数，这些参数影响对所检测到的由NMD的一个或多个麦克风捕捉到的声音中的语音输入的识别和处理。响应于对所检测到的声音中的噪声进行分类，可以修改这些参数中的一个或多个以提高设备性能。例如，响应于对所检测到的声音中的噪声进行分类，可以向上或向下调整在处理期间应用于声音数据的增益以改进语音检测。在一个示例中，NMD可以基于对所检测到的声音数据中的噪声进行分类来检测洗碗机正在运行。作为响应，NMD可以增加增益或以其他方式提高经由NMD回放的音频的音量水平。当NMD检测到洗碗机不再运行时(例如，通过不再识别所检测到的声音数据中的分类噪声)，可以降低增益水平，使得回放恢复先前的音量水平。

另一个可调参数是降噪(例如，修改NMD处理声音数据或声音数据流的程度)，以减少噪声和/或提高信噪比。NMD还可以修改声学回声消除(AEC)参数(例如，通过修改图5中的AEC 564的操作)或语音处理器560或其它NMD组件的其它参数。作为又一示例，可以修改NMD的空间处理算法。例如，对于较小的噪声环境，语音处理路径可以减少麦克风声道的数量。特别地，如果NMD确定所检测到的声音数据中存在低水平的噪声，则NMD的一个或多个麦克风可能被关闭、断电或以其他方式丢弃，使得下游处理不依赖于来自这些麦克风的输入。一方面，减少麦克风声道的数量可以减少对计算资源的需求并节省计算资源。在相关方面，节省计算资源可以释放这些资源以与其他资源一起使用，例如用于支持可以是板载的或以其他方式耦合到NMD的附加唤醒词引擎。如果NMD然后检测到噪声水平的增加(例如，如果NMD在所检测到的声音数据中识别出某些噪声)，则可以重新激活一些或所有停用的麦克风。在美国申请No.16/147,710中可以找到关于NMD的一个或多个麦克风的选择性停用的附加细节，该申请通过引用整体并入本文。

另一个可调参数是唤醒词检测灵敏度参数。例如，唤醒词引擎570(或任何附加唤醒词引擎571)可以具有一个或多个参数，这些参数调整用于识别音频输入中的唤醒词的灵敏度或阈值。在存在分类噪声的情况下，可以调整该参数以提高NMD性能。降低阈值(或提高灵敏度)可以增加假阳性率同时降低假阴性率，而相反地提高阈值(或降低灵敏度)可以降低假阳性率同时增加假阴性率。调整唤醒词检测灵敏度参数可以允许NMD在假阴性率和假阳性率之间实现适当的权衡，该参数可以取决于NMD经历的特定噪声条件而变化。

除了上面列出的那些参数之外或备选地，在一些实施例中，NMD可以修改空间处理算法以提高在存在特定类别的噪声的情况下检测和处理语音输入的性能(例如，通过修改图5中的空间处理器566的操作)。在各种实施例中，空间处理算法可以包括一个或多个多通道维纳(Wiener)滤波器、其他滤波器和/或一个或多个波束成形算法，其细节可以在例如先前的参考申请No.15/984,073和No.16/147,710中找到。作为一种可能性，空间处理器566可以监视将语音与其他声音区分开的度量。例如，这种度量可以包括话音频带内相对于背景噪声的能量以及该话音频带内的熵(频谱结构的一种测量)，该话音频带内的熵通常比大多数常见背景噪声低。在一些实施方式中，空间处理器566可以被配置为确定话音存在概率。可以调整与这些度量相关联的阈值或系数(例如，某些频带内的能量、熵等)以提高NMD在存在特定类别的噪声的情况下检测和处理语音输入的性能。例如，冰箱的嗡嗡声可以被识别为噪声并由NMD进行分类。响应于该分类，可以调整多通道维纳滤波器空间处理算法的一个或多个参数，以在存在该噪声的情况下提高NMD性能。这样的参数可以包括最小增益，反映多通道维纳滤波器的降噪部分的谱底。可以修改多通道维纳滤波器的其他参数以提高NMD性能。

在各种实施例中，可以在单独设备级别、家庭或环境级别(例如，可以一起调整客户家中的所有NMD)或人口级别(例如，可以一起调整给定的区中的所有NMD)上调整NMD性能参数。如下文更详细地描述，可以基于噪声分类修改一个或多个NMD性能参数，噪声分类可以使用声音元数据导出。声音元数据可以从经由NMD的各个麦克风获得的声音数据S_D和/或从由语音处理器560(图5)提供的声音数据流S_DS中获得。声音元数据的示例包括：(1)频率响应数据，(2)回声回波损耗增强测量(即，对声学回声消除器(AEC)有效性的测量)，(3)语音方向测量；(4)仲裁统计(例如，与不同麦克风相关联的空间处理流的信号和噪声估计)；和/或(5)语音频谱数据(即，在已经执行了声学回声消除和空间处理之后对处理后的音频输出进行评估的频率响应)。其他声音元数据也可用于对经由NMD检测到的声音中的噪声进行分类。

图8A是用于对网络麦克风设备的噪声进行分类和修改网络麦克风设备的性能的示例方法800。方法800在框802处开始，NMD经由NMD的各个麦克风检测声音。接下来，方法800前进到框804，其中NMD在至少第一缓冲器中捕捉所检测到的声音。例如，所捕捉到的声音可以作为声音数据SD存储在缓冲器568(图5)中。

在框806中，NMD在至少第二缓冲器中捕捉与声音数据相关联的元数据。例如，声音元数据可以存储在回溯缓冲器569(图5)或与NMD相关联的其他存储器中。如上所述，为了保护用户隐私，仅依赖不透露原始音频内容(例如，所录制的话音输入或其他所检测到的声音数据的内容)的声音元数据可以很有用。这种声音元数据的示例包括：(1)频率响应数据，(2)回声回波损耗增强测量，(3)语音方向测量；(4)仲裁统计；和/或(5)话音频谱数据。其他声音元数据也可以被捕捉并存储在第二缓冲器中。

接下来，方法800在框808中继续，分析所检测到的声音以检测触发事件。在一些实施例中，触发事件是对唤醒词的检测。例如，可以经由如上所述的唤醒词引擎570(图5)来检测唤醒词。在一些实施例中，触发事件可以采用其他形式。例如，触发事件可以是对具有一些特定性质(例如，所检测到的音频音量高于预定阈值，所检测到的音频信号达预定时间长度等)的音频信号的检测。

在检测到触发事件之后，方法800在框810中继续，提取经由NMD的语音输入。例如，语音提取器572(图5)可以接收声音数据流并将其格式化(例如，打包)为消息，这些消息可以经由网络接口实时或接近实时地发送给远程VAS或其他远程计算设备。

在框812中，方法800涉及分析声音元数据以对所检测到的声音中的噪声进行分类。该分析可以由NMD本地执行，或由一个或多个远程计算设备远程地执行。在一些实施例中，框812中的分析可以与框808中的触发事件检测同时执行。在其他实施例中，框812中的分析仅在框808中已经检测到触发事件之后发生。

分析声音元数据可以包括：将声音元数据的一个或多个特征与已知噪声参考值进行比较，或将样本群体数据与已知噪声进行比较。例如，声音元数据的任何特征(例如，信号电平、频率响应谱等)都可以与噪声参考值或在样本群体上收集和平均的值进行比较。在一些实施例中，分析声音元数据包括：将频率响应谱投影到对应于来自群体NMD的聚合频率响应谱的本征空间上(如以下关于图10-图13更详细地描述)。在至少一些实施例中，可以执行将频率响应谱投影到本征空间上作为预处理步骤以促进下游分类。在各种实施例中，可以使用用于使用声音元数据对噪声进行分类的任何数量的不同技术，例如，使用决策树的机器学习、或贝叶斯分类器、神经网络或任何其他分类技术。备选地或附加地，可以使用各种聚类技术，例如，K-Means聚类、均值偏移聚类、期望最大化聚类或任何其他合适的聚类技术。

在一些实施例中，噪声参考样本可以通过在受控条件下捕捉样本(例如，从相对于NMD的不同位置处捕捉来自风扇的音频输入)或从被设计为模仿已知噪声条件的仿真获得。备选地或附加地，噪声参考样本可以从用户输入获得。例如，可以指示用户(例如，经由控制设备104)生成预先识别的噪声(例如，打开厨房水槽、打开吊扇等)，并且NMD 503可以记录正在处理的音频输入。通过在用户指示的不同条件下捕捉音频输入，可以由NMD 503本地地或经由远程计算设备获得和存储已知的噪声参考值。

图8B和图8C示出了可用于接收用户输入以生成预先识别的噪声测量的控制器接口。如图8所示，对于特定的NMD(此处为“播放器A”)，用户可以从预先填充的列表中选择设备位置。一旦选择了特定位置(例如，“厨房”)，各种潜在的噪声源就可以作为用户可选择的选项呈现。如图8B所示，与厨房相关联的示例噪声选项是水龙头、排气扇、洗碗机和其他。类似地，其他位置可以具有其他相关联的噪声选项，例如，车库门打开或车库中的洗衣机等。

除了用户选择的噪声源之外，不同的位置可以与可能的噪声源相关联，而不需要使用选择。例如，当用户指示NMD位于厨房中时，所检测到的噪声更有可能包括烹饪声音(如嘶嘶的油脂)、冰箱门关闭的声音或与厨房相关联的其他声音。类似地，其他位置可以具有被认为是该位置固有的其他相关联的噪声，例如，儿童游乐区的孩子语音、浴室中冲马桶的声音等。通过识别NMD的位置，用户可以提供用于对不同设备检测到的噪声进行分类的附加的相关信息。

在图8C中，用户已经经由控制器界面选择了“水龙头”噪声源。在该选择之后，可以提示用户打开水龙头，使得可以在这些受控条件下收集噪声数据。一旦用户指示了噪声已经开始(例如，用户已经打开了水龙头)，NMD就可以收集声音数据和/或元数据。由于已知该数据与水龙头噪声相关联，因此它可用于帮助对未来音频输入中的噪声进行分类，无论是针对该特定NMD还是其他设备。在各种实施例中，可以提示用户多次或在不同条件下(例如通过打开水龙头)重复指定的噪声。另外，可以询问用户关于与噪声源有关的附加信息，例如，噪声源可能活跃的频率(例如，“您多久运行一次洗碗机？”)、特定设备的品牌或型号等。用户可以经由图8B和图8C所示的控制器界面提供该信息和其他相关信息。然后可以使用所收集到的信息来改进噪声分类，因为在这些条件下捕捉音频输入可以提供由NMD本地存储或通过远程计算设备存储的已知噪声参考。

返回参考图8A，方法800在框814中继续，基于框812中的评估修改NMD的性能。取决于分类的噪声，NMD的修改可以采用多种形式。例如，设备的调整可以包括：调整回放音量、调整固定增益、修改降噪参数、改变唤醒词检测灵敏度参数或调整空间处理算法等。在各种实施例中，NMD可以被配置为取决于特定分类的噪声来修改不同的性能参数。

在框816中，可以基于在框812中获得的特定噪声分类来更新噪声分类器。如下面更详细的描述，噪声分类器可以包括被配置为识别所检测到的声音数据或元数据中的不同类型噪声的神经网络或其他数学模型。可以通过增加用于训练和评估的可用数据来改进这种噪声分类器。因此，噪声数据可以从大量NMD中获得，其中每个新的噪声分类或其他噪声数据都被用于更新或修正噪声分类器。另外，通过使用从大量NMD收集的数据，可以评估各个类型噪声的相对流行程度，这同样可以用于更新噪声分类器。在一些实施例中，例如在元数据没有为噪声分类器提供有用的附加信息的情况下，或者如果元数据看起来异常，则不基于在框812中获得的分类来更新噪声分类器。

图9是示例噪声分类和麦克风适配的功能流程图900。功能流程图900示出了在NMD503上发生的功能以及可以例如在远程计算设备106c上远程发生的功能，该远程计算设备可以如下面更详细描述的那样执行用于噪声分类的声音元数据的远程评估和处理。在一个示例中，远程计算设备106c为一个或多个SONOS无线HiFi系统提供云服务器。在至少一些实施例中，流程图900中描绘的任何或所有功能可以在NMD 503而不是远程计算设备106c上执行。

从NMD 503开始，各个麦克风242a-242n的阵列检测声音并通过多个声道(例如，每个麦克风具有对应的声道)向语音处理器560提供声音数据。如上面关于图5所描述的，除了回溯缓冲器569之外，语音处理器560还可以包括一个或多个缓冲器568。语音处理器560还包括AEC 564和空间处理器566。麦克风242a-242n可以被布置为检测NMD 503的环境中的声音。在一个示例中，麦克风242a-242n可以被布置为检测来自相对于NMD 503的一个或多个方向的音频。麦克风242a-242n还可以被布置为捕捉音频源(例如，语音、可听声音)的位置信息和/或帮助过滤任何背景噪声。

语音处理器560可以将来自各个麦克风242a-242n的声音数据存储在一个或多个缓冲器中达预定的时间间隔。例如，在一些实施例中，语音处理器560将声音数据存储少于5秒、少于4秒、少于3秒、少于2秒或少于1秒，例如在缓冲器中覆写。在一些实施方式中，语音处理器560包括利用滑动窗口方法来捕捉声音数据的缓冲器(例如，缓冲器568)，其中，在至少一个缓冲器568中保留给定数量(即，给定窗口)的最新捕捉的所检测到的声音数据，而当较旧的声音数据落在窗口之外时，它们将被覆写。例如，至少一个缓冲器568可以在给定时间临时保留20个声音样本的帧，在到期时间之后丢弃最旧的帧，然后捕捉新的帧，将其添加到声音样本的19个先前帧中。

语音处理器560可以将声音数据流输出到框905以用于事件触发。这里，NMD 503可以评估声音数据流以检测预定的触发事件。例如，框905中检测到的触发事件可以是对声音数据流中唤醒词的检测(例如，使用图5所示的唤醒词引擎570)。在一些实施例中，触发事件可以采用其他形式。例如，触发事件可以是对具有一些特定性质(例如，所检测到的音频电平高于预定阈值，所检测到的音频信号达预定时间长度等)的音频信号的检测。如果在框905中没有检测到触发事件，则可以删除、丢弃或覆写语音处理器560中的所检测到的声音数据，并且麦克风242a-242n可以继续将新获取的声音数据传递到语音处理器560，直到在框905中检测到触发事件。

如果在框905中检测到触发事件，则在框907中将声音数据流传递给设备功能。例如，在框907中，可以选择多个VAS之一，可以向VAS发送处理后的音频以进行进一步处理，可以向用户提供可听输出，可以向相关联的回放设备发送指令，或者可以在框905中检测到触发事件之后执行任何其他适当的操作。

一旦在框905中检测到触发事件，就向语音处理器560提供指示，语音处理器560继而可以在框909中向远程计算设备106c提供声音元数据。声音元数据909可以基于来自麦克风242a-242n的声音数据。如上所述，为了保护用户隐私，仅依赖不透露原始音频内容(例如，所录制的话音输入或其他所检测到的声音数据的内容)的声音元数据可以很有用。在仅访问声音元数据的情况下，NMD 503可以通过使原始声音数据无法辨认的方式从所检测到的声音数据中导出声音元数据。如上所述，声音元数据的示例包括：(1)频率响应数据，(2)回声回波损耗增强测量(即，对每个麦克风的声学回声消除器(AEC)有效性的测量)，(3)语音方向测量；(4)仲裁统计(例如，与不同麦克风相关联的空间处理流的信号和噪声估计)；和/或(5)语音频谱数据(即，在已经执行了声学回声消除和空间处理之后对处理后的音频输出进行评估的频率响应)。其他声音元数据也可以用于对所检测到的声音数据中的噪声进行识别和/或分类。

从框909开始，声音元数据可以从NMD 503发送给远程计算设备106c以在框911中进行云收集。例如，远程计算设备106c可以从一个或多个NMD收集声音元数据。在一些实施例中，远程计算设备106c可以从大量NMD收集声音元数据，并且这样的群体元数据可以用于对噪声进行分类、导出平均值、识别异常值、以及指导NMD性能参数的修改以改进NMD 503在存在各种类型的噪声的情况下的操作。因为声音元数据是从声音数据导出的但不透露声音数据，所以仅向远程计算设备106c发送声音元数据允许对NMD性能的评估而不暴露从中导出声音数据的实际音频内容。

在框913中，远程计算设备106c分析声音元数据以对噪声进行分类。在一些实施例中，分析声音元数据包括：将声音元数据的一个或多个特征与噪声参考值或样本群体值进行比较。例如，如下面关于图10-图13更详细描述的，声音元数据的任何特征(例如，频率响应数据、信号电平等)都可以与已知的噪声参考值或从样本群体收集的平均值进行比较。在一些实施例中，如框914所示，对声音元数据的分析可以由NMD本地执行，而不是远程计算设备106c执行的评估，或者除了远程计算设备106c执行的评估之外。

继续参考图9，在框915中，计算设备106c可以执行预测建模以识别在存在不同的噪声条件的情况下将改进语音输入的检测和处理的潜在设备调整。例如，虚拟测试框架可以用于使用蒙特卡罗(Monte Carlo)方法运行大量仿真，表示现实世界中用户对NMD的预期性能。一系列具有不同噪声分量(例如，不同类别的噪声(风扇、水槽、交通等)、噪声相对于NMD的不同位置等)的音频输入可以由具有一系列不同的性能参数值的模拟NMD处理。然后可以基于仿真结果识别性能最佳的参数值。在一些实施例中，最佳性能参数至少部分地由唤醒词检测中的假阳性率和假阴性率确定。然后，可以使用这些所识别的性能参数来修改现实世界中NMD的性能。这可以包括仅针对经历某些噪声输入分类的NMD(例如，经历自来水噪声、冰箱噪声、交通噪声等的NMD)更新性能参数。

在框917中，远程计算设备106c基于框913中的噪声分类和/或框915中的预测建模确定是否需要修改NMD性能。如果不需要修改，则过程返回到框913中的数据分析以分析新接收到的声音元数据。如果在决策框917中需要修改，则过程继续到框919以调整NMD的操作。

继续参考框919，取决于所识别的元数据的特征，NMD的修改可以采用多种形式。例如，设备的调整可以包括：修改回放音量、调整固定增益、修改降噪参数、唤醒词检测灵敏度参数或调整空间处理算法等。

图7和图10-图12示出了一种将声音元数据与已知噪声参考值进行比较以对NMD捕捉到的音频输入中的噪声进行分类的示例方法。如上所述，在一些实施例中，由NMD捕捉到的声音元数据可以包括频率响应谱，其可以随时间平均并沿频率范围对数采样。

从各种NMD收集到的数据可以提供可能的频率响应谱的整体分布。然后，可以通过减去所有频谱仓(bin)的平均值来对每个频谱进行归一化，而无需转换为功率的线性空间。该操作竖直地平移频谱，因为类似源的所有频谱保持相似的形状，导致所有频谱落入更紧密的分布。这个简单的操作去除了与整体音量贡献相关联的变化，从而允许对噪声进行独立于其音量的分类。

图10示出了一些示例频谱，其示出了在不同风扇速度和距NMD的不同距离处从风扇测量的噪声的类似频谱形状的竖直平移。每个组示出了特定配置的测量分布。这种行为与众所周知的噪声类型(例如，白噪声或粉红噪声)的行为一致，其中，噪声的整体频谱形状由频谱的斜率而不是绝对水平定义。为了生成可能的频率响应数据的整体分布，可以经由用户家中的或受控条件下的NMD收集许多这种频谱。

从大量NMD获得的频谱数据包含多种可能的噪声类型，这些类型对于每个测量都不是明确已知的。然而，这种大量的测量可以用于使用主分量分析(PCA)来定义正交基(本征空间)，主分量分析确定最大方差轴。例如，使用从现场的多个NMD收集到的频谱数据的大约1000万个测量，麦克风频谱可以按每个频谱仓进行平均，然后如上所述进行归一化。然后可以使用PCA来定义正交基。图11示出了定义本征空间的一些基向量的示例。尽管示出了五个基向量，但在各种实施例中，基向量的数量可以变化，例如，两个、三个或四个基向量，或者备选地，六个、七个、八个或更多个基向量。

该操作产生矩阵集：

X＝USV^T

其中，X是包含所有场谱的原始向量空间。U是酉矩阵，S是奇异值的对角矩阵，并且V^T是定义最大方差轴的本征向量的矩阵。

使用这些本征向量(例如，图11所示的基向量)，任何新观察到的频谱N都可以通过在新频谱和该基向量之间执行点积来投影到新空间上，N’＝NV。该计算定义了每个频谱的特征值，这些特征值可以被重构为这些本征向量和特征值的任何子集的线性组合。图12示出了用描述群体分布中最大方差的本征向量的子集重构的这些频谱之一。如图12所示，所观察到的频谱提供了多个离散的频率响应值。重构的频谱表示基向量(例如，图11所示的基向量)的组合，其中每个基向量的强度都在变化，以最适合所观察到的频谱。如图所示，重构的频谱基本上对应于所观察到的频谱。在操作中，可以使用基向量的线性组合(例如，图11所示的基向量)重构任何新接收到的频率响应谱。

对NMD在现场可能遇到的每个可能的噪声进行分类可能是不切实际的。然而，可以可视化上述特征谱的子集中的噪声分布。图13示出了所观察到的场谱的整体分布，作为前两个本征向量(例如，图11所示的对所观察到的方差负有最大责任的两个基向量)的强度。对于图13，“特征1”是重构频谱(例如，图12所示的重构频谱)中第一个本征向量的强度，并且“特征2”是重构频谱(例如，图12所示的重建频谱)中第二个本征向量的强度。尽管图13中的图示出了两个特征的值(例如，重构频谱中两个基向量的强度)，附加特征的值可以用于对噪声进行分类。例如，可以存在三个、四个、五个或更多个特征，每个特征对应于重构频谱中不同基向量的强度。通过根据附加特征评估新观察到的频谱，不同的噪声类型可以更容易地相互区分，从而改进整体噪声分类。

现场噪声案例之间的分离与噪声的各个簇是连续的，因此可能不容易辨别。这是由于每种类型的噪声变化是小的，这导致难以识别特定的噪声区，因为每个区都不太明显。可以使用仿真软件进一步阐明噪声的分布，采用已知的所记录的噪声集，并以与现场类似的方式，但是以受控且高度可重复的方式生成频谱。然后，这些已知的测试样本频谱可以作为“测试粒子”投影到本征空间，该“测试粒子”追踪它们在场噪声分布中的存在。在图7的各个图中，场密度分布由轮廓线表示，并且各个点是通过仿真运行的测试样本，示出了参数空间的不同位置。如图7所示，不同的噪声源产生投影到本征空间上的不同的点簇。

通过对从大量NMD收集到的数据的这种理解，可以识别各个类型的噪声的相对流行程度。此外，可以使用神经网络构建分类器，以识别从一个或多个NMD收集到的数据中的噪声。例如，神经网络可以在已知的、标记的噪声集上进行训练，这些噪声被投影到群体的本征空间上。这些已知的、标记的噪声可以由仿真软件处理，并且可以包括许多类型的典型噪声，这些噪声被分组为一些用于分类的标签，例如，“周围环境”、“风扇”、“水槽”、“干扰话音”等，每个标签可以提供足够的洞察力来例如通过修改噪声消除算法或其他音频处理算法来调谐NMD的性能参数。在一些实施例中，分类器可以用于进一步理解特定设备所经历的噪声的相对贡献。例如，如果特定设备经历高于平均水平的风扇噪声，则可以修改该NMD的特定性能参数以适应更高的风扇噪声，而另一个经历高于预期交通噪声水平的NMD可以进行不同调整。

尽管以上示例利用主分量分析来帮助对不同类型的噪声进行分类，但是在分类过程中可以使用各种其他技术和算法。例如，可以采用使用决策树或贝叶斯分类器、神经网络或任何其他分类技术的机器学习。备选地或附加地，可以使用各种聚类技术，例如，K-Means聚类、均值偏移聚类、期望最大化聚类或任何其他合适的聚类技术。

结论

以上描述尤其公开了各种示例系统、方法、装置和尤其包括在硬件上执行的固件和/或软件的制品。应当理解的是，这些示例仅是示意性的，而不应当被认为是限制性的。例如，可以想到，这些固件、硬件和/或软件方面或组件中的任意一个或全部可以专门在硬件中实现、专门在软件中实现、专门在固件中实现、或在硬件、软件和/或固件的任意组合中实现。因此，所提供的示例不是实现这些系统、方法、装置和/或制品的唯一方式。

除了本文描述的关于固定回放设备的示例之外，本技术的实施例还可以应用于耳机、耳塞或其他入耳式或耳罩式回放设备。例如，这种入耳式或耳罩式回放设备可以包括降噪功能，以减少在回放期间用户对外部噪声的感知。在一些实施例中，噪声分类可以用于在某些条件下对噪声消除进行调制。例如，如果用户使用降噪耳机听音乐，当用户的门铃响起时，降噪特征可以暂时禁用或下调。备选地或附加地，可以基于对门铃铃声的检测来调整回放音量。通过检测门铃的声音(例如，通过基于所接收到的声音元数据对门铃进行正确分类)，可以修改降噪功能，使得用户即使在戴着降噪耳机时也能听到门铃。可以使用各种其他方法基于本文描述的噪声分类技术来对耳机或其他这种设备的性能参数进行调制。

主要在说明性的环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦接到网络的数据处理设备的操作相类似的其他象征性表示的方面上，提出本说明书。本领域技术人员通常使用这些处理描述和表示，以向本领域技术人员的其他技术人员传播他们的工作内容。阐述了各种具体细节，以提供本公开的透彻理解。然而，本领域技术人员应理解，不需要特定、具体细节就可以实施本公开。在其他实例中，没有描述熟知的方法、过程、组件和电路，以避免不必要地使实施例的方面模糊不清。因此，本公开的范围由随附权利要求、而不是以上实施例的描述来界定。

当随附权利要求中的任一项权利要求被理解成涵盖纯软件和/或固件实现时，在此明确限定至少一个示例中的至少一个元素以包括存储软件和/或固件的非暂时性有形介质，如存储器、DVD、CD、蓝光等。

例如，根据以下所述的各个方面示出了本技术。为了方便起见，将本技术各方面的各种示例描述为编号示例(1、2、3等)。这些仅作为示例提供，并不限制本技术。请注意，任何从属示例可以以任何组合被组合，并且被放置在相应的独立示例中。可以以类似的方式呈现其他示例。

示例1：一种方法，包括：经由网络麦克风设备(NMD)的一个或多个麦克风检测声音；基于所检测到的声音，在所述NMD的第一缓冲器中捕捉声音数据；经由所述NMD分析所述声音数据以检测触发事件；在所述NMD的至少第二缓冲器中捕捉与所述声音数据相关联的元数据；在检测到所述触发事件之后，分析所述元数据以对所述声音数据中的噪声进行分类；以及基于所分类的噪声，修改所述NMD的至少一个性能参数。

示例2：根据示例1所述的方法，其中，分析所述元数据以对所述声音数据中的噪声进行分类包括：将所述元数据与和已知噪声事件相关联的参考元数据进行比较。

示例3：根据示例2所述的方法，其中，所述元数据包括频率响应谱，并且其中，将所述元数据与参考元数据进行比较包括：将所述频率响应谱投影到对应于来自群体NMD的聚合频率响应谱的本征空间。

示例4：根据示例1所述的方法，其中，修改所述NMD的至少一个性能参数包括以下各项中的至少一项：调整所述NMD的唤醒词检测灵敏度参数；调整与所述NMD相关联的回放设备的回放音量；或修改所述NMD的降噪算法。

示例5：根据示例1所述的方法，还包括：经由所述NMD通过广域网向一个或多个远程计算设备发送对应于所分类的噪声的数据。

示例6：根据示例1所述的方法，其中，所述元数据包括以下各项中的至少一项：麦克风频率响应数据；麦克风频谱数据；回声消除(AEC)数据；回声回波损耗增强(ERLE)数据；仲裁数据；信号电平数据；或方向检测数据。

示例7：根据示例1所述的方法，其中，所述声音数据无法从所述元数据导出。

示例8：一种网络麦克风设备(NMD)，包括：一个或多个处理器；一个或多个麦克风；以及一种有形的、非暂时性的计算机可读介质，其存储指令，所述指令可由所述一个或多个处理器执行，以使所述回放设备执行包括以下各项的操作：经由所述一个或多个麦克风检测声音；基于所检测到的声音，在所述NMD的第一缓冲器中捕捉声音数据；经由所述NMD分析所述声音数据以检测触发事件；在所述NMD的至少第二缓冲器中捕捉与所述声音数据相关联的元数据；在检测到所述触发事件之后，分析所述元数据以对所述声音数据中的噪声进行分类；以及基于所分类的噪声，修改所述NMD的至少一个性能参数。

示例9：根据示例8所述的回放设备，其中，分析所述元数据以对所述声音数据中的噪声进行分类包括：将所述元数据与和已知噪声事件相关联的参考元数据进行比较。

示例10：根据示例9所述的回放设备，其中，所述元数据包括频率响应谱，并且其中，将所述元数据与参考元数据进行比较包括：将所述频率响应谱投影到对应于来自群体NMD的聚合频率响应谱的本征空间。

示例11：根据示例8所述的回放设备，其中，修改所述NMD的至少一个性能参数包括以下各项中的至少一项：调整所述NMD的唤醒词检测灵敏度参数；调整与所述NMD相关联的回放设备的回放音量；或修改所述NMD的降噪算法。

示例12：根据示例8所述的回放设备，其中，所述操作还包括：经由所述NMD通过广域网向一个或多个远程计算设备发送对应于所分类的噪声的数据。

示例13：根据示例8所述的回放设备，其中，所述元数据包括以下各项中的至少一项：麦克风频率响应数据；麦克风频谱数据；回声消除(AEC)数据；回声回波损耗增强(ERLE)数据；仲裁数据；信号电平数据；或方向检测数据。

示例14：根据示例8所述的回放设备，其中，所述声音数据无法从所述元数据导出。

示例15：一种有形的、非暂时性的计算机可读介质，其存储指令，所述指令可由所述一个或多个处理器执行，以使网络麦克风设备执行包括以下各项的操作：经由所述NMD的一个或多个麦克风检测声音；基于所检测到的声音，在所述NMD的第一缓冲器中捕捉声音数据；经由所述NMD分析所述声音数据以检测触发事件；在所述NMD的至少第二缓冲器中捕捉与所述声音数据相关联的元数据；在检测到所述触发事件之后，分析所述元数据以对所述声音数据中的噪声进行分类；以及基于所分类的噪声，修改所述NMD的至少一个性能参数。

示例16：根据示例15所述的有形的、非暂时性的计算机可读介质，其中，分析所述元数据以对所述声音数据中的噪声进行分类包括：将所述元数据与和已知噪声事件相关联的参考元数据进行比较。

示例17：根据示例16所述的有形的、非暂时性的计算机可读介质，其中，所述元数据包括频率响应谱，并且其中，将所述元数据与参考元数据进行比较包括：将所述频率响应谱投影到对应于来自群体NMD的聚合频率响应谱的本征空间。

示例18：根据示例15所述的有形的、非暂时性的计算机可读介质，其中，修改所述NMD的至少一个性能参数包括以下各项中的至少一项：调整所述NMD的唤醒词检测灵敏度参数；调整与所述NMD相关联的回放设备的回放音量；或修改所述NMD的降噪算法。

示例19：根据示例8所述的有形的、非暂时性的计算机可读介质，其中，所述操作还包括：经由所述NMD通过广域网向一个或多个远程计算设备发送对应于所分类的噪声的数据。

示例20：根据示例8所述的有形的、非暂时性的计算机可读介质，其中，所述元数据包括以下各项中的至少一项：麦克风频率响应数据；麦克风频谱数据；回声消除(AEC)数据；回声回波损耗增强(ERLE)数据；仲裁数据；信号电平数据；或方向检测数据。

Claims

1.一种方法，包括：

经由网络麦克风设备NMD的一个或多个麦克风检测声音；

基于所检测到的声音，在所述NMD的第一缓冲器中捕捉声音数据；

经由所述NMD分析所述声音数据以检测触发事件；

在所述NMD的至少第二缓冲器中捕捉与所述声音数据相关联的元数据；

在检测到所述触发事件之后，使得分析元数据以对所述声音数据中的噪声进行分类；以及

基于所分类的噪声，修改所述NMD的至少一个性能参数。

2.根据权利要求1所述的方法，其中，所述声音数据无法从所述元数据导出。

3.根据权利要求1或2所述的方法，其中，分析所述元数据以对所述声音数据中的噪声进行分类包括：将所述元数据与和已知噪声事件相关联的参考元数据进行比较。

4.根据前述权利要求中任一项所述的方法，其中，将所述元数据与参考元数据进行比较包括：将所述元数据与相应噪声事件的特征进行比较，所述特征是使用主分量分析生成的，所述主分量分析被应用于暴露于所述相应噪声事件的麦克风设备的多个频率响应。

5.根据权利要求4所述的方法，其中，所述多个频率响应包括以下各项中的至少一项：

在受控条件下捕捉的样本；以及

从用户输入获得的样本。

6.根据前述权利要求中任一项所述的方法，其中，所述元数据包括频率响应谱，并且其中，将所述元数据与参考元数据进行比较包括：将所述频率响应谱投影到对应于来自群体NMD的聚合频率响应谱的本征空间。

7.根据前述权利要求中任一项所述的方法，还包括：通过将所述声音元数据限制为在许多采样帧上平均的频域信息来从所捕捉的声音数据导出所述元数据。

8.根据前述权利要求中任一项所述的方法，还包括：

从用户接收指示所述NMD的位置的输入，以及

确定至少一个噪声事件的可能性或多或少可能基于所指示的位置。

9.根据前述权利要求中任一项所述的方法，还包括：当检测到低噪声水平时，减少被处理以分析所述声音数据的麦克风声道的数量。

10.根据权利要求9所述的方法，其中，减少所述麦克风声道的数量包括：关闭一个或多个麦克风声道，对一个或多个麦克风声道断电，或丢弃来自一个或多个麦克风声道的读数。

11.根据前述权利要求中任一项所述的方法，还包括：在检测到所述噪声的同时，调整所述NMD的性能参数，并且在不再检测到所述噪声之后，将所述NMD的性能参数恢复到检测到所述噪声之前的状态。

12.根据前述权利要求中任一项所述的方法，其中，修改所述NMD的所述至少一个性能参数包括以下各项中的至少一项：

调整所述NMD的唤醒词检测灵敏度参数；

调整与所述NMD相关联的回放设备的回放音量；或者

修改所述NMD的降噪算法。

13.根据前述权利要求中任一项所述的方法，还包括：经由所述NMD通过广域网向一个或多个远程计算设备发送对应于所分类的噪声的数据。

14.根据前述权利要求中任一项所述的方法，其中，修改所述NMD的至少一个性能参数还包括修改环境中多个NMD的至少一个性能参数。

15.根据前述权利要求中任一项所述的方法，其中，所述元数据包括以下各项中的至少一项：

麦克风频率响应数据；

麦克风频谱数据；

声学回声消除AEC数据；

回声回波损耗增强ERLE数据；

仲裁数据；

信号电平数据；

或，方向检测数据。

16.根据前述权利要求中任一项所述的方法，其中，修改所述NMD的至少一个性能参数包括：

由所述NMD或远程设备使用应用于模拟噪声事件或噪声事件与语音输入的组合的一系列不同的性能参数执行预测建模，以及

确定针对特定噪声事件或噪声事件组合的最佳性能参数值，以及

基于所确定的最佳性能参数值修改所述NMD的性能参数。

17.根据权利要求16所述的方法，其中，使用在已知噪声的集合上训练的神经网络来执行所述预测建模。

18.一种有形的、非暂时性的计算机可读介质，其存储指令，所述指令能够由一个或多个处理器执行，以使网络麦克风设备NMD执行前述权利要求中任一项所述的方法。

19.一种网络麦克风设备NMD，包括：

一个或多个处理器；

一个或多个麦克风；以及

根据权利要求18所述的有形的、非暂时性的计算机可读介质。