CN111194439B

CN111194439B - 唤醒词检测抑制

Info

Publication number: CN111194439B
Application number: CN201880064916.XA
Authority: CN
Inventors: 乔纳森·P·朗格
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2017-08-07
Filing date: 2018-08-06
Publication date: 2023-07-07
Anticipated expiration: 2038-08-06
Also published as: EP3665562A1; AU2023203687A1; AU2018312989B2; JP6963673B2; US11380322B2; US20200075010A1; WO2019032462A1; US20240321271A1; US10475449B2; AU2018312989A1; CA3140979C; CN111194439A; KR102315053B1; US11900937B2; CA3072492C; CA3140979A1; EP4040285A1; CN116954545A; JP2020530585A; CA3072492A1

Abstract

示例技术涉及确定NMD的方向。示例实现包括一种回放设备，回放设备接收表示音频内容的数据，以供回放设备进行回放。在回放设备回放音频内容之前，回放设备在音频内容中检测用于一个或多个语音服务的一个或多个唤醒词。回放设备使一个或多个联网麦克风设备在回放设备回放音频内容期间停用该一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应，并且经由一个或多个扬声器回放音频内容。在唤醒响应被启用时，给定联网麦克风设备对特定唤醒词的唤醒响应使给该定联网麦克风设备经由麦克风收听特定唤醒词之后的语音命令。

Description

唤醒词检测抑制

相关申请的交叉引用

本申请要求2017年8月7日提交的美国专利申请No.15/670,361的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及消费者产品，更具体地，涉及与媒体播放或者其某个方面有关的方法、系统、产品、特征、服务和其他元素。

背景技术

访问和收听外放设置的数字音频的选项是有限的，直到2003年SONOS公司申请了其首批专利申请中的一件题为“Method for Synchronizing Audio Playback betweenMultiple Networked Devices”的专利申请，并在2005年开始出售媒体播放系统为止。Sonos无线高保真(HiFi)系统使人们可以通过一个或多个联网回放设备体验来自许多源的音乐。通过安装在智能电话、平板计算机或计算机上的软件控制应用，人们能够在具有联网回放设备的任何房间中播放他或她期望的内容。另外，使用控制器，例如，能够将不同的歌曲流传输到具有回放设备的每个房间，能够将房间组合在一起进行同步回放，或者可以在所有房间中同步收听相同的歌曲。

鉴于对数字媒体的兴趣日益增长，仍然需要开发一种消费者易于使用的技术以进一步增强收听体验。

附图说明

参考以下说明书、所附权利要求和附图，可以更好地理解所公开的技术的特征、方面和优点，在附图中：

图1示出可以实施某些实施例的示例媒体回放系统配置；

图2示出示例回放设备的功能框图；

图3示出示例控制设备的功能框图；

图4示出示例控制器接口；

图5示出示例处理系统；

图6示出根据本文描述的方面的示例多个网络设备；

图7示出根据本文描述的方面的示例网络麦克风设备的功能框图；

图8示出停用一个或多个MD的唤醒响应的示例流程图；

图9示出使NMD忽略唤醒词的示例消息；

图10A、图10B、图10C、图10D示出了使NMD忽略唤醒词的示例指令；

图11示出停用一个或多个NMD的唤醒响应的示例流程图；

图12示出停用一个或多个NMD的唤醒响应的示例流程图；以及

图13示出抑制唤醒响应的示例流程图。

附图用于示出示例实施例的目的，但可以理解，本发明不限于附图中示出的布置和手段。

具体实施方式

I.概述

联网麦克风设备(NMD)可用于使用语音控制来控制家庭。NMD可以是例如能够经由麦克风接收语音输入的

回放设备、服务器或系统，或者其一部分。在一些示例中，回放设备是/>

回放设备。另外，NMD可以是能够经由麦克风接收语音输入的另一设备、服务器或系统(例如，/>

等)，或者其一部分。2017年2月21日提交的题为“Voice Control of a Media Playback System”的美国申请No.15/438,749通过引用整体并入本文，其提供了启用语音的家庭架构的示例。语音控制对于“智能”家庭情况下的各种设备(例如回放设备、无线照明设备、恒温器、门锁、家庭自动化以及其他示例)可以是有益的。

在一些实施方式中，由NMD检测到的语音输入被发送给语音服务以进行处理。NMD与回放设备一起可以用作到语音服务的麦克风/扬声器接口。语音输入由NMD的麦克风检测，然后传输给特定的语音服务进行处理。然后，语音服务可以返回命令或语音输入的其他结果。

唤醒词的发音可以调用语音服务。例如，在查询

语音服务时，用户可以说出唤醒词“Alexa”，然后进行语音输入。其他示例包括用于查询/>

语音服务的“好，Google”和用于查询/>

语音服务的“嘿，Siri”。存在唤醒词和语音服务的其他示例。在检测到唤醒词之后，NMD可以通过经由麦克风收听唤醒词之后的语音命令来做出响应。该响应在本文中被称为NMD的“唤醒响应”。

在一些情况下，回放包括唤醒词的音频内容可能错误地触发NMD的唤醒响应。许多语音服务的唤醒词是从现有语言的词汇中选择的预先存在的词。例如，几种流行的语音服务使用给定名称作为唤醒词(例如“Alexa”和“Siri”)。因此，在一些情况下，诸如谈话节目、电影、电视节目、播客、互联网流式视频等的所记录的音频内容可能包括唤醒词或类似词。在NMD范围内回放这类音频内容可能错误地触发NMD，出于许多原因，这可能是不希望的，原因包括它可能干扰对音频内容的赏析。

例如，电视可以回放针对给定语音服务的广告。在广告期间，演员可能说出语音服务的唤醒词，也许是为了演示语音服务是如何被调用的。与电视位于同一房间的NMD可能检测到来自电视的音频输入，并且当NMD检测到广告中的唤醒词时调用语音服务。这可能是不希望的。此外，由于广告可以同时在许多电视上播放，因此广告可以同时触发许多NMD，这可能导致对语音服务的请求发生不希望的激增。

为了避免其广告引起误触发，语音服务的运营商可以标记其广告中包括唤醒词的部分，并对他们的NMD进行编程以忽视这些被标记的部分。例如，运营商可以将音调或其他音频标记混入语音服务的广告中，并对他们的NMD进行编程，以忽视与该音频标记一起检测到的唤醒词。该实现在有限的情况下(例如语音服务的广告，其中语音服务的运营商可以将该标记嵌入音频内容中)可能是有用的。然而，对于语音服务的运营商无法控制的绝大多数其他音频内容，该实现没有用。

本文描述的示例技术可以包括：在音频内容被回放设备可听地回放之前，对要被回放设备回放的音频内容进行处理，确定音频内容是否包括一个或多个唤醒词，并且通知一个或多个NMD在该一个或多个回放设备回放唤醒词时忽略这些唤醒词。以这种方式，该技术可以帮助防止NMD的错误触发。显然，这些技术可以适用于要被回放设备回放的任何所记录的音频内容。

例如，回放设备可以接收音频内容以供回放。在播放音频内容之前，回放设备将音频内容存储在存储器中(例如，在缓冲器中)，并对音频内容运行唤醒词检测算法。如果在音频内容中检测到任何唤醒词，则当回放设备最终回放音频内容时，回放设备(可以是NMD本身)使一个或多个NMD忽略这些唤醒词。

作为另一示例，NMD可以接收已经被指定由回放设备回放的音频内容。在回放设备回放音频内容之前，NMD可以对音频内容运行唤醒词检测算法。如果在音频内容中检测到任何唤醒词，则当唤醒词最终被回放设备回放时，NMD可以使其本身(以及可能附近的其他NMD)忽略这些唤醒词。

NMD可以使用各种技术中的任一种来忽略唤醒词。在一些情况下，可以指示NMD在唤醒词被回放设备回放时不检测唤醒词，这可能通过指示NMD停止收听唤醒词，通过停用NMD的麦克风阵列一段时间，或者通过在回放设备的方向创建收听无效(NULL)等来进行。备选地，NMD可以继续最初地检测唤醒词，但是NMD被指示抑制其经编程的唤醒响应，该经编程的唤醒响应对检测到唤醒词进行响应而调用语音服务，这可能通过在某些时段期间忽略唤醒词，或者通过在某些时段期间忽略所有所记录的音频来进行。

当在回放设备可听地回放音频内容之前处理音频内容时，处理设备(例如，回放设备或NMD)也可以确定所记录的音频内容的哪些部分包含唤醒词。这些部分可以由音频内容内的时间段来定义，例如唤醒词的开始和停止时间(例如，播客中的唤醒词从33：52.543开始并在33：54.013结束)。在回放音频内容时，可以指示附近的NMD在这些时间段期间忽略唤醒词。

作为另一示例，处理设备可以对音频内容(或音频内容的一部分)中唤醒词的数量进行计数。例如，正在处理广告的音频内容的回放设备可能在该广告中检测到唤醒词的四个实例。然后，回放设备可以指示回放设备附近的NMD忽略唤醒词，直到它们已经检测到与计数相等数量的唤醒词为止(例如，忽略接下来的四个唤醒词)。

在其他示例中，处理设备可以在所记录的音频内容中动态插入音频音调或其他标记，以指定在音频内容中检测到的唤醒词。然后，当回放设备回放音频内容时，可以指示将音频标记和唤醒词一起检测到的NMD忽略该唤醒词的实例。响应于检测到相关联的音频标记，在回放设备的可听范围内的多个NMD可以各自检测唤醒词并且忽略唤醒词。

示例技术可以涉及停用一个或多个NMD的唤醒响应。第一实施方式可以包括：经由网络接口接收表示音频内容的数据，以供回放设备回放，并且在回放设备回放音频内容之前，在音频内容中检测用于一个或多个语音服务的一个或多个唤醒词。第一实施方式还可以包括：使一个或多个联网麦克风设备在回放设备回放音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应，其中，在唤醒响应被启用时，给定联网麦克风设备对特定唤醒词的唤醒响应使所述给定联网麦克风设备经由麦克风收听所述特定唤醒词之后的语音命令。第一实施方式还可以包括经由一个或多个扬声器回放所述音频内容。

第二实施方式可以包括经由网络接口接收表示音频内容的数据，以供所述回放设备回放。第二实施方式还可以包括：在所述回放设备回放所述音频内容之前，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词。第二实施方式还可以包括：在所述回放设备回放所述音频内容期间停用联网麦克风设备对检测到的一个或多个唤醒词的唤醒响应，并且当所述回放设备正在回放所述音频内容时，经由麦克风检测所回放的音频内容。

第三实施方式可以包括经由计算系统的接口接收述音频内容，以供一个或多个回放设备回放。第三实施方式还可以包括：在回放设备回放音频内容之前，在音频内容中检测用于一个或多个语音服务的一个或多个唤醒词。第三实施方式还可以包括：使一个或多个联网麦克风设备在回放设备回放音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应。

第四实施方式可以包括经由网络接口接收指令，以停用联网麦克风设备对一个或多个唤醒词的唤醒响应。第四实施方式还可以包括经由麦克风检测由一个或多个回放设备回放的音频内容。第四实施方式还可以包括：确定检测到的音频内容包括一个或多个唤醒词，并且响应于所接收的指令，停用联网麦克风设备对检测到的音频内容中的一个或多个唤醒词的唤醒响应。

这些示例实施方式中的每一个可以被体现为方法、被配置为执行该实施方式的设备、被配置为执行该实施方式的设备系统、或包含指令的非暂时性计算机可读介质等，所述指令能够由所述一个或多个处理器执行以执行该实现。本领域普通技术人员将理解，本公开包括许多其他实施例，包括本文描述的示例特征的组合。此外，描述为由给定设备执行以说明技术的任何示例操作可以由任何合适的设备执行，包括本文描述的设备。此外，任何设备可以使另一设备执行本文描述的任何操作。

尽管本文描述的一些示例可以涉及由给定行动者(例如“用户”和/或其他实体)执行的功能，但是应当理解，该描述仅出于解释的目的。除非权利要求本身的语言明确要求，否则不应将权利要求解释为要求任何此类示例行动者进行动作。

II.示例操作环境

图1示出了媒体回放系统100的示例配置，在媒体回放系统100中可以实施或实现本文公开的一个或多个实施例。如图所示的媒体回放系统100与具有若干房间和空间(例如，主卧室、书房、餐厅和客厅)的示例家居环境相关联。如图1的示例所示，媒体回放系统100包括回放设备102、104、106、108、110、112、114、116、118、120、122和124、控制设备126和128、以及有线或无线网络路由器130。图1中还示出了MD 132和134。

可以在以下部分中找到关于示例媒体回放系统100的不同组件以及不同组件可以如何交互以向用户提供媒体体验的进一步讨论。虽然本文的讨论可能总体上涉及示例媒体回放系统100，但是本文描述的技术不限于尤其如图1所示的家居环境内的应用。例如，本文描述的技术可以在可能期望多区域音频的环境中有用，例如，诸如餐馆、商场或机场之类的商业环境、诸如运动型多用途车(SUV)、公共汽车或小汽车之类的载运工具、船舶或船只、飞机等。

a.示例回放设备

图2示出示例回放设备200的功能框图，示例回放设备200可以被配置为图1的媒体回放系统100的回放设备102—124中的一个或多个。回放设备200可以包括处理器202、软件组件204、存储器206、音频处理组件208、音频放大器210、扬声器212、以及包括无线接口216和有线接口218的网络接口214。在一种情况下，回放设备200可以不包括扬声器212，而是包括用于将回放设备200连接到外部扬声器的扬声器接口。在另一种情况下，回放设备200可以既不包括扬声器212也不包括音频放大器210，而是包括用于将回放设备200连接到外部音频放大器或视听接收器的音频接口。

在一个示例中，处理器202是时钟驱动计算组件，其被配置为根据存储器206中存储的指令处理输入数据。存储器206可以是有形计算机可读介质，其被配置为存储可由处理器202执行的指令。例如，存储器206可以是数据存储设备，其可以加载有可由处理器202执行以实现某些功能的一个或多个软件组件204。在一个示例中，所述功能可以包括回放设备200从音频源或另一回放设备获取音频数据。在另一示例中，所述功能可以包括回放设备200向网络上的另一设备或回放设备发送音频数据。在又一示例中，所述功能可以包括将回放设备200与一个或多个回放设备配对以创建多通道音频环境。

某些功能可以包括回放设备200与一个或多个其他回放设备同步对音频内容的回放。在同步回放期间，收听者将优选地不能够感知到回放设备200和一个或多个其他回放设备对音频内容的回放之间的时间延迟差异。通过引用将其内容全部合并于此的题目为“System and method for synchronizing operations among a plurality ofindependently clocked digital data processing devices(用于同步多个独立时钟控制的数字数据处理设备之间的操作的系统和方法)”的美国专利No.8,234,395更详细地提供了回放设备之间的音频回放同步的一些示例。

存储器206还可以被配置为存储与回放设备200相关联的数据，例如，回放设备200是其一部分的一个或多个区域和/或区域组、回放设备200可访问的音频源、或回放设备200(或某个其他回放设备)可以与之相关联的回放队列。数据可以被存储为一个或多个状态变量，所述状态变量被周期性地更新并用于描述回放设备200的状态。存储器206还可以包括与媒体系统的其他设备的状态相关联的数据，并且间或地在设备之间共享，使得设备中的一个或多个具有与系统相关联的最新数据。其他实施例也是可能的。

音频处理组件208可以包括一个或多个数模转换器(DAC)、音频预处理组件、音频增强组件或数字信号处理器(DSP)等。在一个实施例中，音频处理组件208中的一个或多个可以是处理器202的子组件。在一个示例中，音频处理组件208可以处理和/或有意地改变音频内容以产生音频信号。然后，所产生的音频信号可被提供至音频放大器210进行放大，并通过扬声器212回放。具体地，音频放大器210可以包括被配置为将音频信号放大到用于驱动扬声器212中的一个或多个的电平的设备。扬声器212可以包括单独的换能器(例如，“驱动器”)或具有一个或多个驱动器的包括外壳的完整扬声器系统。例如，扬声器212的特殊驱动器可以包括例如低音喇叭(例如，针对低频)、中频段驱动器(例如，针对中频)和/或高频扬声器(例如，针对高频)。在一些情况下，一个或多个扬声器212中的每个换能器可以由音频放大器210的各个对应的音频放大器来驱动。除了产生用于由回放设备200回放的模拟信号之外，音频处理组件208还可以被配置为处理要向一个或多个其他回放设备发送以供回放的音频内容。

可以例如通过音频线路输入的输入连接(例如，自动检测3.5mm音频线路输入连接)或网络接口214从外部源接收要由回放设备200处理和/或回放的音频内容。

网络接口214可以被配置为促进回放设备200与数据网络上的一个或多个其他设备之间的数据流。这样，回放设备200可以被配置为通过数据网络从与回放设备200通信的一个或多个其他回放设备、局域网内的网络设备、或通过诸如互联网之类的广域网从音频内容源接收音频内容。在一个示例中，回放设备200发送和接收的音频内容和其他信号可以以包含基于互联网协议(IP)的源地址和基于IP的目的地地址的数字分组数据的形式来发送。在这种情况下，网络接口214可以被配置为解析数字分组数据，使得去往回放设备200的数据被回放设备200正确地接收和处理。

如图所示，网络接口214可以包括无线接口216和有线接口218。无线接口216可以为回放设备200提供网络接口功能，以根据通信协议(例如，任何无线标准，包括IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准等)与其他设备(例如，与回放设备200相关联的数据网络内的其他回放设备、扬声器、接收器、网络设备、控制设备)无线通信。有线接口218可以为回放设备200提供网络接口功能，以根据通信协议(例如，IEEE 802.3)通过有线连接与其他设备通信。虽然图2中所示的网络接口214包括无线接口216和有线接口218，但是在一些实施例中，网络接口214可以仅包括无线接口或仅包括有线接口。

在一个示例中，回放设备200和另一回放设备可以配对，以播放音频内容的两个单独的音频分量。例如，回放设备200可以被配置为播放左通道音频分量，而另一回放设备可以被配置为播放右通道音频分量，从而产生或增强音频内容的立体声效果。配对的回放设备(也称为“绑定的回放设备”)还可以与其他回放设备同步播放音频内容。

在另一示例中，回放设备200可以与一个或多个其他回放设备声音合并以形成单个合并的回放设备。合并的回放设备可以被配置为与非合并的回放设备或配对的回放设备不同地处理和再现声音，这是因为合并的回放设备可以具有可以通过其呈现音频内容的附加的扬声器驱动器。例如，如果回放设备200是被设计为呈现低频段音频内容的回放设备(即，低音喇叭)，则回放设备200可以与被设计为呈现全频段音频内容的回放设备合并。在这种情况下，当与低频回放设备200合并时，全频段回放设备可以被配置为仅呈现音频内容的中高频分量，而低频段回放设备200则呈现音频内容的低频分量。合并的回放设备还可以与单个回放设备或另一合并的回放设备配对。

举例来说，SONOS公司目前提供(或已经提供)销售某些回放设备，包括“PLAY：1”、“PLAY：3”、“PLAY：5”、“PLAYBAR”、“CONNECT：AMP”、“CONNECT”、和“SUB”。任何其他过去、现在和/或将来的回放设备可以附加地或备选地用于实现本文公开的示例实施例的回放设备。此外，应当理解，回放设备不限于图2示出的示例或SONOS的产品供应。例如，回放设备可以包括有线或无线耳机。在另一示例中，回放设备可以包括个人移动媒体回放设备的扩展基座，或与其交互。在又一示例中，回放设备可以是诸如电视、照明器材或在室内外使用的一些其他设备之类的另一设备或组件的组成部分。

b.示例回放区域配置

返回参考图1的媒体回放系统100，环境可以具有一个或多个回放区域，每个回放区域具有一个或多个回放设备。媒体回放系统100可以建立有一个或多个回放区域，之后可以添加或移除一个或多个区域，以达到图1所示的示例配置。每个区域可以根据不同的房间或空间(例如书房、浴室、主卧室、卧室、厨房、餐厅、客厅和/或阳台)被赋予名称。在一种情况下，单个回放区域可以包括多个房间或空间。在另一种情况下，单个房间或空间可以包括多个回放区域。

如图1所示，阳台、餐厅、厨房、浴室、书房和卧室区域均具有一个回放设备，而客厅和主卧室区域均具有多个回放设备。在客厅区域中，回放设备104、106、108和110可以被配置为作为单独的回放设备、作为一个或多个绑定的回放设备、作为一个或多个合并的回放设备或其任何组合来同步播放音频内容。类似地，在主卧室的情况下，回放设备122和124可以被配置为作为单独的回放设备、作为绑定的回放设备、或作为合并的回放设备来同步播放音频内容。

在一个示例中，图1的环境中的一个或多个回放区域可以分别播放不同的音频内容。例如，用户可以在阳台区域中烧烤并收听正由回放设备102播放的嘻哈音乐，而另一用户可以正在厨房区域中准备食物并收听正由回放设备114播放的古典音乐。在另一示例中，回放区域可以与另一回放区域同步地播放相同的音频内容。例如，用户可以在书房区域中，其中回放设备118正在播放与阳台区域中的回放设备102正在播放的摇滚音乐相同的摇滚音乐。在这种情况下，回放设备102和118可以同步播放摇滚音乐，使得用户可以在不同回放区域之间移动时无缝地(或至少基本上无缝地)享受被外放播放的音频内容。可以以类似于如先前引用的美国专利No.8,234,395中所述的回放设备之间的同步的方式来实现回放区域之间的同步。

如上文所建议的，可以动态地修改媒体回放系统100的区域配置，并且在一些实施例中，媒体回放系统100支持多种配置。例如，如果用户将一个或多个回放设备物理地移动到区域中或从区域中移出，则可以重新配置媒体回放系统100以适应改变。例如，如果用户将回放设备102从阳台区域物理地移动到书房区域，则书房区域现在可以包括回放设备118和回放设备102。可以通过诸如控制设备126和128之类的控制设备，将回放设备102与书房区域配对或分组，和/或重新命名(如果需要)。另一方面，如果一个或多个回放设备被移动到家居环境中还不是回放区域的特殊区域，则可以针对该特殊区域创建新的回放区域。

此外，媒体回放系统100的不同回放区域可以被动态组合为区域组或分成单独的回放区域。例如，餐厅区域和厨房区域14可以组合为用于宴会的区域组，使得回放设备112和114可以同步呈现音频内容。另一方面，如果用户期望在客厅空间中听音乐，而另一用户期望看电视，则客厅区域可以被分成包括回放设备104的电视区域和包括回放设备106、108和110的收听区域。

c.示例控制设备

图3示出示例控制设备300的功能框图，示例控制设备300可以被配置为媒体回放系统100的控制设备126和128之一或两者。控制设备300也可以被称为控制器。如图所示，控制设备300可以包括处理器302、存储器304、网络接口306和用户界面308。在一个示例中，控制设备300可以是媒体回放系统100的专用控制器。在另一示例中，控制设备300可以是可以在其上安装媒体回放系统控制器应用软件的网络设备，例如，iPhone^TM、iPad^TM或任何其他智能电话、平板计算机或网络设备(例如，联网计算机，如PC或Mac^TM)。

处理器302可以被配置为执行与有助于用户对媒体回放系统100进行访问、控制和配置相关的功能。存储器304可以被配置为存储可由处理器302执行的指令以执行这些功能。存储器304还可以被配置为存储媒体回放系统控制器应用软件和与媒体回放系统100和用户相关联的其他数据。

在一个示例中，网络接口306可以基于行业标准(例如，红外、无线电、包括IEEE802.3的有线标准、包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准在内的无线标准等)。网络接口306可以提供用于控制设备300与媒体回放系统100中的其他设备通信的手段。在一个示例中，可以经由网络接口306在控制设备300和其他设备之间传送数据和信息(例如，状态变量)。例如，媒体回放系统100中的回放区域和区域组配置可以由控制设备300通过网络接口306从回放设备或另一网络设备接收，或者由控制设备300通过网络接口306向另一回放设备或网络设备发送。在一些情况下，该另一网络设备可以是另一控制设备。

诸如音量控制和音频回放控制之类的回放设备控制命令也可以通过网络接口306从控制设备300向回放设备传送。如上文所建议的，还可以由用户使用控制设备300来执行对媒体回放系统100的配置的改变。配置改变可以包括：向区域增加或从区域中移除一个或多个回放设备、向区域组增加或从区域组中移除一个或多个区域、形成绑定或合并的播放器、将一个或多个回放设备与绑定或合并的播放器中分离等。因此，控制设备300有时可以被称为控制器300，无论控制设备300是专用控制器还是在其上安装有媒体回放系统控制器应用软件的网络设备。

控制设备300的用户界面308可以被配置为通过提供诸如图4中所示的控制器界面400之类的控制器界面来帮助用户访问和控制媒体播放系统100。控制器界面400包括回放控制区410、回放区域区420、回放状态区430、回放队列区440和音频内容源区450。所示的用户界面400仅是可以在诸如图3的控制设备300(和/或图1的控制设备126和128)之类的网络设备上提供、并由用户访问以控制媒体回放系统(例如，媒体回放系统100)的用户界面的一个示例。备选地，可以在一个或多个网络设备上实现变化的格式、样式和交互序列的其他用户界面，以提供对媒体回放系统的类似的控制访问。

回放控制区410可以包括可选择(例如，通过触摸或通过使用光标)图标，以使所选择的回放区域或区域组中的回放设备播放或暂停、快进、回退、跳到下一个、跳到前一个、进入/退出随机播放模式、进入/退出重复模式、进入/退出交叉淡入淡出模式(cross fademode)。回放控制区410还可以包括用于修改均衡设置、回放音量等的可选择图标。

回放区域区420可以包括媒体回放系统100内的回放区域的表示。在一些实施例中，回放区域的图形表示可以是可选择的，以调出附加的可选择图标来管理或配置媒体回放系统中的回放区域，例如，创建绑定的区域、创建区域组、分离区域组、重命名区域组等。

例如，如图所示，可以在播放区域的每个图形表示内提供“分组”图标。在特定区域的图形表示内提供的“分组”图标可以是可选择的，以便调出用于选择媒体播放系统中的、将与特定区域分在一组的一个或多个其他区域的选项。一旦被分组，已经与特殊区域分在一组的区域中的回放设备将被配置为与特殊区域中的回放设备同步地播放音频内容。类似地，可以在区域组的图形表示内提供“分组”图标。在这种情况下，“分组”图标可以是可选择的，以调出用于取消选择区域组中的要从该区域组中移除的一个或多个区域的选项。通过诸如用户界面400之类的用户界面对区域进行分组和取消分组的其他交互和实现也是可能的。当回放区域或区域组配置被修改时，可以动态地更新回放区域在回放区域区420中的表示。

回放状态区430可以包括在所选择的回放区域或区域组中当前正在播放、先前播放或安排为接下来播放的音频内容的图形表示。可以在用户界面上可视地区分所选择的回放区域或区域组，例如，在回放区域区420和/或回放状态区430内。图形表示可以包括曲目名称、艺术家姓名、专辑名称、专辑年份、曲目长度以及当通过用户界面400控制媒体回放系统时用户知道了会有用的其他相关信息。

回放队列区440可以包括与所选择的回放区域或区域组相关联的回放队列中的音频内容的图形表示。在一些实施例中，每个回放区域或区域组可以与回放队列相关联，该回放队列包含与由该回放区域或区域组回放的零个或多个音频项相对应的信息。例如，回放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符，其可以由回放区域或区域组中的回放设备用于从本地音频内容源或联网音频内容源查找和/或获取音频项，可能供回放设备回放。

在一个示例中，可以将播放列表添加到回放队列，在这种情况下，可以将与播放列表中的每个音频项对应的信息添加到回放队列。在另一示例中，回放队列中的音频项可以被保存为播放列表。在另一示例中，当回放区域或区域组正在持续播放流式音频内容(例如，互联网收音机，其可以持续播放直到被停止)，而不是具有回放持续时间的分立音频项时，回放队列可以是空的或被填充但是“未使用”。在备选实施例中，回放队列可以包括互联网收音机和/或其他流式音频内容项，并且当回放区域或区域组正在播放这些内容项时处于“使用中”。其他示例也是可能的。

当回放区域或区域组被“分组”或“取消分组”时，可以清除与受影响的回放区域或区域组相关联的回放队列，或者重新关联。例如，如果包括第一回放队列的第一回放区域与包括第二回放队列的第二回放区域被分在一组，则所建立的区域组可以具有相关联的回放队列，其最初是空的，包含来自第一回放队列的音频项(例如，如果第二回放区域被添加到第一回放区域)，或包含来自第二回放队列的音频项(例如，如果第一回放区域被添加到第二回放区域)，或包含来自第一回放队列和第二回放队列二者的音频项的组合。随后，如果所建立的区域组被取消分组，则所得到的第一回放区域可以与先前的第一回放队列重新关联，或者与新的回放队列相关联，该新的回放队列是空的，或者包含与来自在所建立的区域组被取消分组之前所建立的区域组相关联的回放队列的音频项。类似地，所得到的第二回放区域可以与先前的第二回放队列重新关联，或者与新的回放队列相关联，该新的回放队列是空的，或者包含来自在与所建立的区域组被取消分组之前所建立的区域组相关联的回放队列的音频项。其他示例也是可能的。

返回参考图4的用户界面400，音频内容在回放队列区440中的图形表示可以包括曲目标题、艺术家姓名、曲目长度以及与回放队列中的音频内容相关联的其他相关信息。在一个示例中，音频内容的图形表示可以是可选择的，以调出附加的可选择图标来管理和/或操纵回放队列和/或回放队列中表示的音频内容。例如，可以将所表示的音频内容从回放队列中移除，将所表示的音频内容移动到回放队列内的不同位置，或者选择所表示的音频内容以立即播放，或者在任何当前播放的音频内容之后进行播放等。与回放区域或区域组相关联的回放队列可以存储于该回放区域或区域组中的一个或多个回放设备上、不在该回放区域或区域组中的回放设备上和/或一些其他指定设备上的存储器中。这种回放队列的回放可以涉及一个或多个回放设备可能按顺序或随机顺序回放队列中的媒体项。

音频内容源区450可以包括可选择的音频内容源的图形表示，可以从音频内容源中获取音频内容，并由所选择的回放区域或区域组来播放。有关音频内容源的讨论可参见以下部分。

d.示例音频内容源

如前所述，区域或区域组中的一个或多个回放设备可以被配置为从各种可用音频内容源中获取回放音频内容(例如，根据音频内容的对应URI或URL)。在一个示例中，回放设备可以直接从对应的音频内容源(例如，线路输入连接)中获取音频内容。在另一示例中，可以在网络上，通过一个或多个其他回放设备或网络设备向回放设备提供音频内容。

示例音频内容源可以包括：媒体回放系统(例如，图1的媒体回放系统100)中的一个或多个回放设备的存储器、一个或多个网络设备(例如，控制设备、支持网络的个人计算机、或者网络附接存储器(NAS)等)上的本地音乐库、通过互联网(例如，云)提供音频内容的流式音频服务、或者通过回放设备或网络设备上的线路输入连接连接至媒体回放系统的音频源等。

在一些实施例中，可以在诸如图1的媒体回放系统100之类的媒体回放系统中定期添加音频内容源，或从中移除音频内容源。在一个示例中，每当添加、移除或更新一个或多个音频内容源时，可以执行对音频项编索引。对音频项编索引可以包括：扫描由媒体回放系统中的回放设备可访问的网络上共享的所有文件夹/目录中的可识别音频项，并且生成或更新包含元数据(例如，标题、艺术家、专辑、曲目长度等)及其他关联信息(例如，找到的每个可识别音频项的URI或URL)的音频内容数据库。用于管理和维护音频内容源的其他示例也是可能的。

e.示例处理系统

图5示出了示例处理系统500的功能框图，示例处理系统500包括音频输入/输出组件502、唤醒词检测组件504和通知组件506。在操作中，处理系统500检测所记录的音频内容内的唤醒词，并向NMD提供通知，以忽略或以其他方式抑制NMD对检测的唤醒词的经编程的唤醒响应。在各个实施例中，处理系统500可以在回放设备、NMD或诸如云服务器的单独的处理设备等中实现。在一些实施例中，处理系统的各种组件(和/或其功能)分布在多个设备之间。

在操作中，音频输入/输出组件502经由输入接口接收指定由回放设备进行回放的所记录的音频内容。例如，控制设备(例如，图1的控制设备126或128)可以指示回放设备(例如，图1的任何回放设备)回放某些音频内容，这可能通过将该内容放置在回放设备的回放队列中以使回放设备获取音频内容，通过将音频内容流引导到回放设备，或者通过经由模拟或数字线路输入接口将音频内容引导到回放设备等来进行。处理系统500的音频/输入组件502在回放设备回放音频内容之前接收该所记录的音频内容。

如上所述，在一些示例中，处理系统500在回放设备内实现。在这些实施例中，回放设备500已经可以访问回放必需的音频内容。例如，回放设备可以通过一种或多种类型的网络(例如，广域网(WAN)、局域网(LAN)和个域网(PAN)等)来经由网络接口从网络源(例如，流式媒体服务或移动设备)接收音频内容。备选地，回放设备可以经由模拟(例如，RCA)或数字(例如，

或/>

)输入线接口接收音频内容。

在其他示例中，处理系统500在NMD或与回放设备分离的其他处理设备内实现。在这些实施例中，处理系统500可以经由网络接口从回放设备或从音频内容的源等接收音频内容。在另一示例中，输入线接口可以将音频内容直接提供给NMD，或者回放设备可以经由输入线接口接收音频内容，并且通过一个或多个网络将内容中继给处理系统500。

例如，处理系统500可以访问回放设备的回放队列。如上所述，回放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符，它们可由回放区域或区域组中的回放设备使用以从本地音频内容源或联网的音频内容源查找和/或获取音频项，可能用于回放设备进行回放。在被回放设备回放之前，处理系统500可以类似地使用这种标识符从本地音频内容源或联网的音频内容源获取音频内容。

在一些实施方式中，回放队列被存储在回放设备的数据存储设备中。在其他实施方式中，回放队列被存储在云服务器上。存储在云服务器上的回放队列(即，云队列)可以是存储在回放设备上的回放队列的实例或表示。云队列可以包括回放指针或表示回放设备上的当前回放状态的其他状态信息。

在一些情况下，处理系统500可以将所接收的音频内容转换成适于唤醒词检测的格式。例如，如果经由模拟输入线接口将音频内容提供给音频/输入组件502，则处理系统500可以将模拟音频数字化(例如，使用基于软件或基于硬件的模数转换器)。作为另一示例，如果所接收的音频内容是以不适于分析的数字形式接收到的，则处理系统500可以将该记录转码为合适的格式。

唤醒词检测组件504对所接收的音频内容进行分析，以确定记录中是否存在任何唤醒词。唤醒词检测组件504可以使用唤醒词检测算法来分析所接收的音频内容。示例唤醒词检测算法接受音频记录作为输入，并且提供对记录中是否存在唤醒词的指示作为输出。

在一些实施方式中，唤醒词检测组件504可以对记录使用与如下算法相同的算法：由NMD使用以检测经由麦克风记录的音频中的唤醒词的算法。在典型操作期间，示例NMD不断记录音频并将所记录的音频流提供给唤醒词检测算法，以便确定所记录的音频是否包括唤醒词。这里，不同于将由NMD的麦克风记录的音频提供给唤醒词检测算法，唤醒词检测组件504提供指定用于回放的预先记录的音频内容。

在分析期间，唤醒词检测组件504还确定每个唤醒词出现在所接收的音频内容中的位置。例如，唤醒词检测组件504可以将所接收的音频内容划分成已知长度的片段。然后，唤醒词检测组件504可以通过识别检测到唤醒词的片段来确定唤醒词出现在记录中的位置。例如，如果每个片段长5秒，并且在第四片段中检测到唤醒词，则唤醒词必定位于记录中的15到20秒之间。唤醒词检测组件504可以记录音频内容中包含唤醒词的各部分，可能使用一个或多个时间戳(例如，指示唤醒词开始时间的时间戳，以及可能地，指示该唤醒词的停止时间的另一时间戳)来记录。这些时间戳可以定义与音频记录的开始或音频记录中的另一特定位置的相应时间偏移。在一些情况下，唤醒词检测组件504可以将音频记录分为重叠的片段，以避免将唤醒词分解为不可识别的部分。也可以利用其他技术来确定唤醒词在音频记录内的位置。

在示例内，处理系统500可以将所接收的音频内容缓冲在存储器中。例如，处理系统500可以将所接收的音频内容存储在先进先出缓冲器(例如，循环缓冲器)中。在这些实施方式中，所接收的音频的各部分在接收时被存储在缓冲器中，并且当对这些唤醒词进行处理以确定所接收的音频内容是否包含唤醒词时，从缓冲器中移除这些唤醒词。

在一些情况下，唤醒词检测组件504同时(或基本同时)对所接收的音频内容运行多个唤醒词检测算法。如上所述，不同的语音服务(例如，AMAZON的

APPLE的

或MICROSOFT的/>

)各自使用不同的唤醒词来调用其相应的语音服务。为了支持多种服务，唤醒词检测组件504可以针对每种所支持的语音服务并行地对所接收的音频内容运行唤醒词检测算法。

如果在音频内容中检测到一个或多个唤醒词，则通知组件506通知一个或多个NMD(例如，图1的NMD 132和/或134)。当在回放设备回放包含唤醒词的音频内容的过程中回放检测到的唤醒词时，该通知使NMD忽略检测到的唤醒词。例如，通知组件506可以通过网络接口向一个或多个NMD发送指令，以忽略某些唤醒词或某个数量的唤醒词。

在一些情况下，通知组件506可以防止NMD在唤醒词被回放设备回放时检测该唤醒词。例如，通知组件506可以指示NMD停止收听唤醒词(例如，停止对所记录的音频进行处理)一段时间。备选地，通知组件506可以指示NMD暂时停用其麦克风阵列(例如，在与唤醒词预期被回放设备播放的时间相对应的时间段期间)。作为又一示例，通知组件506可以指示NMD使用其麦克风阵列在回放设备的方向上创建收听无效，使得NMD不检测唤醒词。也可以使用其他示例。

备选地，NMD可以检测唤醒词，但是通知组件506指示NMD抑制其经编程的唤醒响应，该经编程的唤醒响应对检测到唤醒词进行响应而调用语音服务。例如，通知组件506可以指示NMD在某些时间段期间忽略唤醒词或者在某些时间段期间忽略所有音频。也可以使用其他示例。

作为另一示例，处理系统500可以对音频内容(或音频内容的一部分)中唤醒词的数量进行计数。例如，处理系统500可能在示例音频内容(例如，电视节目)中检测到三个唤醒词。如上所述，这些实例可以包括唤醒词的任何组合，包括用于不同语音服务的不同唤醒词。然后，处理系统500可以指示附近的MD忽略唤醒词，直到它们已经检测到与计数相等数量的唤醒词为止(例如，忽略接下来的三个唤醒词)。

在其他示例中，处理系统500可以在所记录的音频内容中动态插入音频音调或其他标记，以指定在音频内容中检测到的唤醒词。然后，当回放设备回放音频内容时，可以指示将音频标记和唤醒词一起检测到的NMD忽略该唤醒词的实例。如果多个NMD在回放设备的可听范围内，则响应于检测到相关联的音频标记，检测到唤醒词的每个NMD可以忽略该唤醒词。在一些情况下，音频标记由人类听觉范围之外(例如，20kHz以上)的音频频率组成，使得插入的音调不会被听众察觉。

在一些实施方式中，处理系统500作为音频内容源与回放设备之间的中介进行操作。例如，在处理系统500使用音频标记通知NMD的实施方式中，处理系统修改被指定用于由回放设备回放的音频内容。在这些实施方式中，处理系统500可以(例如，经由网络或输入线接口)从音频源接收音频内容，对音频内容进行分析，并且将经修改的音频内容(可能经由网络接口)提供给回放设备以供回放。

备选地，如上所述，处理系统500被实现在回放设备本身中。在这种情况下，在对音频内容进行分析之后，回放设备可以继续回放音频内容。此外，如上所述，在一些情况下，回放设备可以被配置为与一个或多个附加回放设备同步回放音频内容(例如，在区域组、立体声对或环绕声配置中)。在这种情况下，回放设备可以将(可能经修改的)音频内容(可能经由网络接口)提供给该一个或多个附加回放设备。

在另外的示例中，处理系统500在NMD中实现。在这些情况下，处理系统500可以使NMD本身在回放音频内容时忽略音频内容中的唤醒词。此外，NMD可以指示其他NMD忽略唤醒词。例如，NMD 132可以指示NMD 134忽略唤醒词。此外，如果NMD在回放设备(例如，回放设备104)中实现，则NMD/回放设备可以指示其他NMD(其本身可以在回放设备中实现)忽略唤醒词。

f.示例多个联网设备

图6示出了示例多个设备600，其可以被配置为基于语音控制提供音频回放体验。本领域普通技术人员将理解，图6中所示的设备仅用于说明目的，并且包括不同和/或附加设备的变型是可能的。如图所示，多个设备600包括计算设备604、606和608；网络麦克风设备(NMD)612、614和616；回放设备(PBD)632、634、636和638；以及控制器设备(CR)622。

多个设备600中的每个设备可以是具有网络功能的设备，其可以根据一个或多个网络协议(例如，NFC、蓝牙、以太网和IEEE 802.11等)，在一种或多种类型的网络(例如，广域网(WAN)、局域网(LAN)和个域网(PAN)等)上与多个设备中的一个或多个其他设备建立通信。

如图所示，计算设备604、606和608可以是云网络602的一部分。云网络602可以包括附加的计算设备。在一个示例中，计算设备604、606和608可以是不同的服务器。在另一示例中，计算设备604、606和608中的两个或更多个可以是单个服务器的模块。类似地，计算设备604、606和608中的每一个可以包括一个或多个模块或服务器。本文中为了便于说明，计算设备604、606和608中的每一个可以被配置为在云网络602内执行特殊功能。例如，计算设备608可以是用于流式音乐服务的音频内容源。

如图所示，计算设备604可以被配置为经由通信路径642与NMD 612、614和616接口连接。NMD 612、614和616可以是一个或多个“智能家居”系统的组件。在一种情况下，NMD612、614和616可以物理地分布在整个家中，类似于图1所示的设备分布。在另一种情况下，NMD 612、614和616中的两个或更多个可以物理地位置彼此相对靠近。通信路径642可以包括一种或多种类型的网络，例如包括互联网的WAN、LAN和/或PAN等。

在一个示例中，NMD 612、614和616中的一个或多个可以是被配置为主要用于音频检测的设备。在另一示例中，NMD 612、614和616中的一个或多个可以是具有各种主要实用程序的设备的组件。例如，如上面结合图2和图3所讨论的，NMD 612、614和616中的一个或多个可以是回放设备200的麦克风220或网络设备300的麦克风310。此外，在一些情况下，NMD612、614和616中的一个或多个可以是回放设备200或网络设备300。在示例中，NMD 612、614和/或616中的一个或多个可以包括布置在麦克风阵列中的多个麦克风。

如图所示，计算设备606可以被配置为经由通信路径644与CR 622和PBD 632、634、636和638接口连接。在一个示例中，CR 622可以是网络设备，例如图2的网络设备200。因此，CR 622可以被配置为提供图4的控制器界面400。类似地，PBD 632、634、636和638可以是回放设备，例如图3的回放设备300。这样，PBD 632、634、636和638可以物理地分布在整个家中，如图1所示。为了说明目的，PBD 636和638可以是绑定区域630的一部分，而PBD 632和634可以是它们各自区域的一部分。如上所述，PBD 632、634、636和638可以被动态地绑定、分组、解除绑定和取消分组。通信路径644可以包括一种或多种类型的网络，例如包括互联网的WAN、LAN和/或PAN等。

在一个示例中，与NMD 612、614和616一样，CR 622和PBD 632、634、636和638也可以是一个或多个“智能家居”系统的组件。在一种情况下，PBD 632、634、636和638与NMD612、614和616分布在相同的家中。此外，如上文建议的，PBD 632、634、636和638中的一个或多个可以是NMD 612、614和616中的一个或多个。

NMD 612、614和616可以是局域网的一部分，并且通信路径642可以包括通过WAN(通信路径，未示出)将NMD 612、614和616的局域网链接到计算设备604的接入点。同样地，NMD 612、614和616中的每一个可以经由该接入点彼此通信。

类似地，CR 622和PBD 632、634、636和638可以是局域网和/或本地回放网络的一部分(如前面部分中讨论的)，并且通信路径644可以包括通过WAN将CR 622和PBD 632、634、636和638的局域网和/或本地回放网络链接到计算设备606的接入点。这样，CR 622和PBD632、634、636和638中的每一个也可以通过该接入点彼此通信。

在一个示例中，通信路径642和644可以包括相同的接入点。在示例中，NMD 612、614和616、CR 622和PBD 632、634、636和638中的每一个可以通过家庭的相同接入点来访问云网络602。

如图6所示，NMD 612、614和616、CR 622和PBD 632、634、636和638中的每一个还可以通过通信方式646与一个或多个其他设备直接通信。如本文所述的通信方式646可以包括根据一个或多个网络协议通过一种或多种类型的网络在设备之间的一种或多种形式的通信，和/或可以包括通过一个或多个其他网络设备的通信。例如，通信方式646可以包括蓝牙^TM(IEEE 802.15)、NFC、无线直连和/或专有无线等中的一个或多个。

在一个示例中，CR 622可以通过蓝牙^TM与NMD 612通信，并且可以通过另一局域网与PBD 634通信。在另一示例中，NMD 614可以通过另一局域网与CR 622通信，并且可以通过蓝牙与PBD 636通信。在又一示例中，PBD 632、634、636和638中的每一个可以根据生成树协议通过本地回放网络彼此通信，同时分别通过不同于本地回放网络的局域网与CR 622通信。其他示例也是可能的。

在一些情况下，NMD 612、614和616、CR 622和PBD 632、634、636和638之间的通信方式可以根据设备间的通信类型、网络状况和/或时延要求而改变。例如，当NMD 616首次被引入具有PBD 632、634、636和638的家中时，可以使用通信方式646。在一种情况下，NMD 616可以通过NFC向PBD 638发送与NMD 616相对应的标识信息，并且作为响应，PBD 638可以通过NFC(或某种其他形式的通信)向NMD 616发送局域网信息。然而，一旦在家中配置了NMD616，NMD 616和PBD 638之间的通信方式可能改变。例如，NMD 616可以随后通过通信路径642、云网络602和通信路径644与PBD 638通信。在另一示例中，NMD和PBD可能从不通过本地通信方式646通信。在另一示例中，NMD和PBD可以主要通过本地通信方式646通信。其他示例也是可能的。

在说明性示例中，NMD 612、614和616可以被配置为接收用于控制PBD 632、634、636和638的语音输入。可用的控制命令可以包括先前讨论的任何媒体回放系统控制，例如回放音量控制、回放传输控制、音乐源选择和分组等。在一个实例中，NMD 612可以接收用于控制PBD 632、634、636和638中的一个或多个的语音输入。响应于接收到语音输入，NMD 612可以通过通信路径642向计算设备604发送语音输入以进行处理。在一个示例中，计算设备604可以将语音输入转换为等效的文本命令，并解析该文本命令以识别命令。然后，计算设备604可以随后向计算设备606发送文本命令。在另一示例中，计算设备604可以将语音输入转换为等效的文本命令，然后向计算设备606发送文本命令。然后，计算设备606可以解析文本命令以识别一个或多个回放命令。

例如，如果文本命令是“在区域中播放来自流式服务的艺术家的曲目”，则计算设备606可以标识(i)从流式服务1可获得的艺术家1的曲目1的URL，以及(ii)区域1中的至少一个回放设备。在该示例中，来自流式服务1的艺术家1的曲目1的URL可以是指向计算设备608的URL，并且区域1可以是绑定区域630。这样，当识别出URL以及PBD 636和638之一或两个时，计算设备606可以经由通信路径644向PBD 636和638之一或两个发送所识别的URL，用于回放。作为响应，PBD 636和638之一或两个可以根据所接收的URL从计算设备608中获取音频内容，并且开始播放来自流式服务1的艺术家1的曲目1。

在又一示例中，计算设备604可以执行一些处理以识别用户的意图或相关命令，并且向计算设备606提供与语音输入相关的媒体内容的相关信息。例如，计算设备604可以对语音输入执行话语到文本转换，并分析语音输入，以得到命令或意图(例如，播放、暂停、停止、音量增大、音量减小、跳过、下一个、分组、取消分组)以及关于如何执行命令的其他信息。计算设备604或计算设备606可以确定哪些PBD命令对应于由计算设备604确定的命令或意图。可以从计算设备604向计算设备606发送从语音输入确定的命令或意图和/或与执行命令相关的其他信息。计算设备604上的处理可以由应用、模块、附加软件、具有本地联网麦克风系统软件平台的集成件、和/或本地联网麦克风系统软件平台来执行。

本领域普通技术人员将了解，以上仅是一个说明性示例，并且其他实现也是可能的。在一种情况下，如上所述，多个设备600中的一个或多个执行的操作可以由多个设备600中的一个或多个其他设备来执行。例如，从语音输入到文本命令的转换可以替代地、部分地或完全由另一个或多个设备来执行，例如NMD 612、计算设备606、PBD 636和/或PBD 638。类似地，URL的标识可以替代地、部分地或完全由另一个或多个设备执行，例如，NMD 612、计算设备604、PBD 636和/或PBD 638。

f.示例网络麦克风设备

图7示出示例网络麦克风设备700的功能框图，示例网络麦克风设备700可以被配置为图6的NMD 612、614和616中的一个或多个。如图所示，网络麦克风设备700包括处理器702、存储器704、麦克风阵列706、网络接口708、用户界面710、软件组件712和扬声器714。本领域普通技术人员将了解，其他网络麦克风设备配置和布置也是可能的。例如，备选地，网络麦克风设备可以不包括扬声器714，或者具有单个麦克风而不是麦克风阵列706。

处理器702可以包括一个或多个处理器和/或控制器，其可以采用通用或专用处理器或控制器的形式。例如，处理单元702可以包括微处理器、微控制器、专用集成电路、数字信号处理器等。存储器704可以是数据存储设备，其可以加载有可由处理器702执行以实现这些功能的一个或多个软件组件。因此，存储器704可以包括一个或多个非暂时性计算机可读存储介质，其示例可以包括：易失性存储介质(例如，随机存取存储器、寄存器、高速缓存等)、以及非易失性存储介质(例如，只读存储器、硬盘驱动器、固态驱动器、闪存和/或光储存设备等)。

麦克风阵列706可以是多个麦克风，其被布置为检测网络麦克风设备700的环境中的声音。麦克风阵列706可以包括现在已知或以后开发的任何类型的麦克风，例如，电容式麦克风、驻极体电容式麦克风或动态麦克风等。在一个示例中，麦克风阵列可以被布置为检测来自相对于网络麦克风设备的一个或多个方向的音频。麦克风阵列706可以对频段的一部分敏感。在一个示例中，麦克风阵列706的第一子集可以对第一频段敏感，而麦克风阵列的第二子集可以对第二频段敏感。麦克风阵列706还可以被布置为捕捉音频源(例如，语音、可听声音)的位置信息和/或帮助过滤背景噪声。值得注意的是，在一些实施例中，麦克风阵列可以仅由单个麦克风组成，而不是由多个麦克风组成。

网络接口708可以被配置为促进各种网络设备(例如，参考图6，其中的CR 622、PBD632-638、云网络602中的计算设备604-608，以及其他网络麦克风设备等)之间的无线和/或有线通信。这样，网络接口708可以采用任何合适的形式来执行这些功能，其示例可以包括：以太网接口、串行总线接口(例如，Fire Wire、USB 2.0等)、适于促进无线通信的芯片组和天线、和/或提供有线和/或无线通信的任何其他接口。在一个示例中，网络接口708可以基于行业标准(例如，红外、无线电、包括IEEE 802.3的有线标准、包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准在内的无线标准等)。

网络麦克风设备700的用户界面710可以被配置为促进与网络麦克风设备的用户交互。在一个示例中，用户界面708可以包括物理按钮、设置在触敏屏幕和/或表面上的图形界面等中的一个或多个，以供用户直接向网络麦克风设备700提供输入。用户界面710还可以包括灯和扬声器714中的一个或多个，以向用户提供视觉和/或音频反馈。在一个示例中，网络麦克风设备700还可以被配置为通过扬声器714回放音频内容。

III.回放设备停用唤醒响应的示例技术

如上所述，本文描述的实施例可以涉及停用唤醒响应。图8示出了示例实现800，通过该实现800，回放设备停用一个或多个MD的唤醒响应。

a.接收表示音频内容的数据以供回放

在框802处，实现802涉及接收表示音频内容的话数据以供回放。例如，回放设备可以接收音频内容以供回放设备进行回放。示例回放设备包括图1中所示的回放设备102、104、106、108、110、112、114、116、118、120、112和124中的任一个，其例如可以被实现为图2的回放设备200。在一些实施方式中，回放设备可以包括处理系统(例如，处理系统500)，并且使用音频输入/输出组件(例如，图5的音频输入/输出组件502)来接收表示音频内容的数据。

示例音频内容包括一个或多个音频曲目、脱口秀、电源、电视节目、播客、互联网流式视频，以及其他可能形式的音频内容。音频内容可以包括伴随视频的音频内容(例如，视频的音频曲目)或不伴随视频的音频。

回放设备可以经由输入接口来接收音频内容，该输入接口可以是有线或无线网络接口或者模拟或数字输入线接口等。例如，回放设备可以通过一种或多种网络(例如，广域网(WAN)、局域网(LAN)和个域网(PAN)等)经由网络接口从网络源接收音频内容。

回放设备可以从本地或远程音频源接收表示音频内容的数据。例如，回放设备可以从以下接收音频内容：本地媒体服务器或局域网上的其他设备、由回放设备或与回放设备(例如，通过局域网经由网络接口)进行通信的另一设备读取的介质(例如，CD、DVD、蓝光、闪存或硬盘驱动器)、回放设备本身上的数据存储设备。回放设备可以从一个或多个云服务器接收音频内容作为音频内容流。例如，回放设备可以经由网络接口根据URL获取音频内容流。备选地，回放设备可以从回放设备上或与回放设备(例如，经由网络接口通过局域网)进行通信的另一设备上的输入线接口接收音频内容。

在一些情况下，回放设备可能经由模拟输入线接口以模拟格式接收音频内容。在这些情况下，回放设备将模拟音频数字化(例如，使用基于软件或基于硬件的模数转换器)为适于处理的格式。备选地，与回放设备进行通信的设备可以接收模拟格式的音频内容，将音频内容数字化，并且将表示音频内容的数据发送给回放设备。

如上所述，所接收的音频内容被设计用于由回放设备回放。例如，控制设备(如图1的控制设备126或128)可以指示回放设备回放某些音频内容，也许通过使该音频内容放置在回放设备的回放队列中来进行。将音频曲目或其他音频内容放置在这种队列中可能使回放设备在经由控制设备或回放设备本身上的控制启动(例如，播放/暂停按钮)回放之后获取音频内容。回放设备可以通过以下方式从本地或远程音频源获取音频内容：经由网络接口将音频内容流引导到回放设备，或者经由模拟或数字输入线接口将音频内容引导到回放设备等。

在示例内，回放设备可以将所接收的音频内容的至少一部分存储在存储器中。例如，回放设备可以将所接收的音频内容缓冲在先进先出缓冲器(例如，循环缓冲器)中。在这些实施方式中，所接收的音频的各部分在接收时被存储在缓冲器中，并且当对这些唤醒词进行处理时从缓冲器中移除这些唤醒词，这使得回放设备能够确定所接收的音频内容是否包含唤醒词。

b.在音频内容中检测一个或多个唤醒词

返回参考图8，在框804处，实现800涉及在回放设备回放音频内容之前，在音频内容中检测一个或多个唤醒词。例如，回放设备可以对接收的表示音频内容的数据进行分析，以确定音频内容中是否表示了用于任何语音服务的唤醒词，导致当回放音频内容时将可听地播放唤醒词。如上所述，在一些实施方式中，回放设备可以包括处理系统(例如，处理系统500)，并且使用唤醒词检测组件(例如，图5的唤醒词检测组件504)来检测音频内容内的唤醒词。

回放设备可以使用一种或多种唤醒词检测算法对所接收的音频内容进行分析。示例唤醒词检测算法接受音频记录作为输入，并且提供对记录中是否存在唤醒词的指示作为输出。许多第一方和第三方唤醒词检测算法是已知的并且可商购。例如，语音服务的运营商可以使其算法可用于第三方设备。备选地，可以训练算法以检测某些唤醒词。

在一些实施方式中，回放设备可以对所接收的表示音频内容的数据使用与以下算法相同或相似的算法：MD所使用的用于检测经由麦克风记录的音频中的唤醒词的算法。以这种方式，回放设备可以检测到音频内容中的与在NMD的可听范围内回放音频内容时NMD本会检测到的唤醒词相同或相似的唤醒词。然而，鉴于NMD通常对变化环境条件(例如，可能是吵杂的家庭环境)中各种各样的人类语音说出的由麦克风记录的音频运行唤醒词检测算法，因此，在没有这种变化性的情况下，对所接收的音频内容运行唤醒词算法对检测唤醒词甚至可能更有效。

在分析期间，回放设备可以确定每个唤醒词出现在所接收的音频内容中的位置。在识别出音频内容中确定为包括唤醒词的各部分之后，回放设备可以使用一个或多个时间戳(例如，指示唤醒词开始时间的时间戳，以及可能地，指示该唤醒词的停止时间的另一时间戳)来标注音频内容的这些部分。最终，这些时间戳可用于停用一个或多个NMD对与每个时间戳相对应的唤醒词的唤醒响应。

在一个示例中，回放设备可以将所接收的音频内容划分为已知长度的片段。然后，回放设备通过识别检测到唤醒词的片段来识别音频内容中包括唤醒词的部分(即片段)。例如，如果每个片段长3秒，并且在第四片段中检测到唤醒词，则唤醒词位于记录的9到12秒之间。在一些情况下，回放设备可以将音频记录分为重叠的片段，以避免将唤醒词分解为不可识别的部分(例如，一个片段表示“Hey”，另一片段表示“Siri”)。也可以利用其他技术来确定唤醒词在音频记录内的位置。

在一些情况下，回放设备同时(或基本同时)对所接收的音频内容运行多个唤醒词检测算法。如上所述，不同的语音服务(例如，AMAZON的

APPLE的/>

或MICROSOFT的/>

)可以各自使用不同的唤醒词来调用其相应的语音服务。此外，一些语音服务可以允许用户选择偏好的唤醒词或配置定制的唤醒词。为了支持多种服务(和/或不同的唤醒词)，回放设备可以针对每种所支持的语音服务并行地对所接收的音频内容运行唤醒词检测算法。例如，回放设备在回放设备回放音频内容之前，向音频内容应用针对第一语音服务的第一音频检测算法，以检测至少一个针对第一语音服务的第一唤醒词，并且在回放设备回放音频内容之前，向音频内容应用针对第二语音服务的第二音频检测算法，以检测至少一个针对第二语音服务的第二唤醒词。回放设备也可以将(可能针对于相应的语音服务的)附加的音频检测算法应用于音频内容。

c.使一个或多个NMD在音频内容的回放期间停用对检测到的一个或多个唤醒词的相应唤醒响应

在图8中，在框806处，实现800涉及在音频内容的回放期间使一个或多个联网的麦克风设备停用其对检测到的一个或多个唤醒词的相应唤醒响应。例如，回放设备可以使在回放设备的音频范围内的NMD在回放设备回放音频内容期间停用NMD对检测到的一个或多个唤醒词的相应唤醒响应。如上所述，回放设备可以实现包括通知组件(例如，图5的通知组件506)的处理系统500，并且使用该通知组件，在回放设备回放音频内容期间，使一个或多个NMD停用其对检测到的一个或多个唤醒词的相应唤醒响应。

如上所述，NMD的唤醒响应是指其对检测到唤醒词的经编程的响应。当启用唤醒响应时，响应于检测到唤醒词，NMD的唤醒响应使该NMD经由麦克风收听特定唤醒词之后的语音命令。NMD调用语音服务以执行语音命令。然而，当停用唤醒响应时，NMD可能不收听语音命令，并且将不调用语音服务来执行语音命令。

在一些实施方式中，回放设备本身包括NMD(例如，在回放设备内实现NMD 700)。在这些实施方式中，当回放设备正在回放音频内容时，回放设备停用其自身的NMD对检测到的一个或多个唤醒词的唤醒响应。例如，在回放设备中实现的处理系统500的实例可以将一个或多个唤醒词及其相应的回放时间通知给NMD，以便使NMD停用对检测到的一个或多个唤醒词的唤醒响应。例如，处理系统可以通过改变RAM中的标志以停用唤醒响应，或者通过使用内部通信总线向NMD传送消息等来通知NMD。然后，在回放音频内容的同时，回放设备的NMD可以经由麦克风记录正由回放设备回放的音频内容，并且停用NMD对所记录的音频内容内的一个或多个唤醒词的相应唤醒响应。

在示例实施方式中，回放设备可以使家庭内的所有联网麦克风设备停用它们相应的唤醒响应。例如，图1所示的回放设备104可以在回放设备104回放包含一个或多个唤醒词的音频内容时使NMD 132和134停用它们相应的唤醒响应。此外，如果回放设备102或106—124中的任何一个实现NMD，则当回放设备104回放包含一个或多个唤醒词的音频内容时，回放设备104可以使这些回放设备停用它们相应的唤醒响应。更进一步，如果回放设备104本身实现NMD，或者如果控制设备126或128实现NMD，则当回放设备104回放音频内容时，回放设备104可以使这些设备停用它们相应的唤醒响应。

备选地，回放设备可以使家庭内的NMD的子集停用它们相应的唤醒响应。例如，回放设备可以使回放设备的可听范围内的NMD停用它们相应的唤醒响应。备选地，回放设备可以使已经与回放设备相关联的NMD停用它们相应的唤醒响应。

可以使用任何合适的技术来确定可听范围。在一些实施方式中，基于回放设备的回放配置来建立可听范围。例如，如果回放设备与一个或多个回放设备处于同步回放配置中，则可以假定这些回放设备在回放设备的可听范围内。因此，如果这些回放设备中的任何一个实现NMD，则这些回放设备的相应唤醒响应被停用。回放设备可以通过参考回放设备的配置来确定这些NMD在回放设备的可听范围内，该配置可以存储在对家中的各回放设备而言同步的一个或多个状态变量中。

在其他示例中，在设置过程(例如，校准过程)期间建立可听范围。在这种设置过程中，可以指示家中的NMD收听由家中的回放设备回放的音频信号(例如，音调)。如果NMD可以经由其麦克风检测到音频信号，则可以认为该NMD在可听范围内。可以指示家庭内的回放设备以不同的音量循环回放音频信号，以便确定任何给定音量水平下在每个回放设备的可听范围内的NMD集合。示例校准过程可以涉及校准声音的输出，该校准声音还可以用作将由家中的NMD检测到的音频信号。

为了说明，在示例设置过程期间，图1的控制设备126可以指示主卧室区域中的回放设备(即，回放设备122和124)输出音频信号。在大多数音量水平下，该输出被NMD 134检测到。然而，随着音量水平增加，其他NMD也开始检测到该输出。例如，回放设备118和控制设备128可以各自实现NMD，并且检测相对较高的音量水平下的音频信号输出。这样，经由示例设置过程，NMD 134被建立为位于回放设备122和124在某个音量范围(例如，5％至100％)下的可听范围内，而回放设备118和控制设备128被认为是被建立在位于回放设备122和124的某些较高音量范围(例如，音量水平>80％)下的可听范围内。可以针对家庭内的其他回放设备和NMD重复该过程。

在其他示例中，NMD可以基于已知的物理接近度与一个或多个回放设备配对。例如，返回参考图1，NMD 134可以与回放设备122和/或124配对，作为用于主卧室区域的NMD。可以经由诸如控制设备126或128的控制设备上的用户界面来配置这种配对。作为另一示例，根据NMD 132与厨房区域配对且已知厨房区域物理上接近餐厅和/或客厅区域，或者根据厨房区域与餐厅或客厅区域形成在区域组中，可以将NMD 132与回放设备104、106、108、110、112和/或114配对。如果NMD与一个或多个回放设备配对，则可以假定NMD在这些回放设备的可听范围内。

在以下内容中描述了对回放设备附近存在的NMD的确定的其他示例：2016年4月14日提交的No.15/098,867题为“Default Playback Device Designation(默认回放设备指定)”的申请；2016年4月14日提交的No.15/098,892题为“Default Playback Devices(默认回放设备)”的申请；N0.15/237,133题为“Audio Response Playback(音频响应回放)”的申请；以及2016年8月5日提交的No.15/229,855题为“Determining Direction of NetworkedMicrophone Device Relative to Audio Playback Device(确定联网麦克风设备相对于音频回放设备的方向)”的申请。这些专利申请中的每一件的内容通过引用整体并入。

如上所述，在一些情况下，回放设备被配置为与一个或多个附加的回放设备同步地回放音频(可能在区域组、立体声对或环绕声配置中)。这些配置可以扩展回放设备的可听范围，因为在该回放设备或该一个或多个附加回放设备中的任一个的可听范围内的任何NMD都可能响应于由这些回放设备同步回放的音频内容中的唤醒词而错误触发。这样，如果回放设备当前处于与一个或多个附加回放设备的同步回放配置中，则回放设备可以停用在可听范围内或以其他方式与这些附加回放设备相关联的NMD的相应唤醒响应。

在一些实施方式中，回放设备通过以下方式使该一个或多个NMD响应于检测到的一个或多个唤醒词而停用其相应的唤醒：通过经由网络接口向该一个或多个NMD发送指令，该指令使该一个或多个NMD在所接收的音频内容的回放期间停用它们相应的唤醒响应。如上所述，媒体回放系统的各种设备(例如，控制设备、回放设备和NMD)可以经由局域网(例如，经由由图1的有线或无线网络路由器130形成的局域网)互连，以允许家中的设备之间指令交换和其他消息传递。可以对媒体回放系统的这些设备各自进行编程，以响应来自系统中其他设备的某些指令。

在一些示例中，这些指令可以防止该一个或多个NMD在唤醒词被回放设备回放时检测到该唤醒词。例如，回放设备可以指示一个或多个NMD在一个或多个时间段期间(即，与唤醒词将被回放设备回放的时间相对应的时间段，可能由时间戳来表示)停止收听唤醒词(例如，停止处理所记录的音频)。备选地，回放设备可以指示该一个或多个NMD暂时(例如，在上述时间段期间)停用它们各自的麦克风。作为又一示例，回放设备可以使用其麦克风阵列指示该一个或多个NMD在回放设备的方向上创建收听无效，以使NMD不检测唤醒词。也可以使用其他示例。例如，在回放设备播放音频内容的包含唤醒词的部分之前不久，回放设备可以发送第一消息，该第一消息指示该一个或多个NMD停用唤醒词检测。然后，在回放设备播放音频内容的包含唤醒词的部分之后不久，回放设备可以发送第二消息，该第二消息指示该一个或多个NMD启用唤醒词检测。

为了说明，图9描绘了示例消息900，回放设备可以将消息900发送给一个或多个NMD，以使该一个或多个NMD响应于检测到的一个或多个唤醒词而停用其相应的唤醒响应。消息900可以符合诸如IEEE 802.3规范(其指定以太网分组和帧的结构)之类的规范。如图所示，消息900包括前导码902，前导码902包括交替比特的模式，网络上的设备(例如，NMD、回放设备和/或控制设备等)可以使用该模式来同步它们的接收器时钟。消息900还包括帧开始定界符(SFD)904，其标记前导码(以太网分组的第一个字段)的结束和消息中以太网帧部分的开始。消息900还包括目的地地址906和源地址908，其指示目的地(例如，NMD)和源(例如，回放设备)。消息900还包括有效载荷910。有效负载910包括使NMD(即，由目的地地址906指示的NMD)停用其对一个或多个唤醒词的唤醒响应的指令。消息900还包括帧校验序列(FCS)912，该FCS是允许在所接收的帧中检测被损坏的数据的循环冗余校验值。

可以使用两个或更多个以太网分组(例如，消息900中的两个或更多个)来传输指令。例如，可以在消息900的两个或更多个实例的有效载荷之间划分对一个NMD的指令。此外，可以在消息900的一个或多个相应实例中分别发送对多个NMD的指令。也可以使用其他示例。

作为示例，图10A、图10B、图10C和图10D示出了示例指令1000A、1000B、1000C和1000D，其可以在一个或多个消息的有效载荷(例如，消息900的有效载荷910)中传输给NMD。如图10A所示，指令1000A包括命令1002A，以使NMD在由时间戳1004A、1006A、1008A、1010A定义的某些时间段期间停用唤醒响应。在一些示例中，时间戳1004A和1006A分别指定以下时间段的开始和结束：回放设备将回放音频内容中包含第一唤醒词的部分的时间段。类似地，时间戳1008A和1010A可以分别指定以下时间段的开始和结束：回放设备将回放音频内容中包含第二唤醒词的部分的时间段。指令1000A可以包括定义另外的时间段的其他时间戳。备选地，时间戳1004A、1006A、1008A和1010A可以与以下时间相对应：音频的特定帧的回放时间、与发送或接收设备上的系统时钟相对应的时间；或者与NMD和回放设备都已知的全局时钟相对应的时间等。

图10B示出了指令1000B，其包括命令1002B以使NMD在由坐标1004B和1006B定义的某些方向上创建收听无效。坐标1004B和1006B指示相应回放设备相对于NMD的方向。例如，返回参考图1，指令1000B的示例实例可以包括坐标1004B和1006B，以指示回放设备122和124相对于NMD 134的方向。在该示例中，坐标1004B和1006B可以向NMD 134指示回放设备122以0°相对于NMD 134(即，正好位于NMD 134的前面)，而回放设备122相对于NMD 134向左偏45°。可以通过设置或配置过程来预先建立家中各设备相对于彼此的相应位置。

图10C和10D分别示出了指令1000C和1000D。指令1000C包括命令1002C，以使接收NMD停用唤醒词检测。回放设备可以在回放音频内容中包括唤醒词的部分之前不久发送这种指令。指令1000D包括命令1002D，以使接收NMD启用唤醒词检测。回放设备可以在回放音频内容中包括唤醒词的部分之后不久发送这种指令。

在另一示例中，该一个或多个NMD可以检测唤醒词，但回放设备指示该一个或多个NMD抑制其唤醒响应。例如，回放设备可以指示该一个或多个NMD在某个时间段期间忽略唤醒词或在某个时间段期间忽略所有音频。也可以使用其他示例。

作为另一示例，回放设备可以对音频内容(或音频内容的一部分)中的唤醒词的数量进行计数。例如，回放设备可能在示例音频内容中检测到三个唤醒词。如上所述，这些实例可以包括唤醒词的任何组合，包括用于不同语音服务的不同唤醒词。然后，回放设备可以指示附近的一个或多个NMD忽略唤醒词，直到它们已经检测到与计数相等数量的唤醒词为止(例如，忽略接下来的三个唤醒词)。

备选地，回放设备通过动态修改音频内容以将声学标记并入音频内容的片段中，来使该一个或多个NMD停用其对检测到的一个或多个唤醒词的相应唤醒响应。例如，回放设备可以在所记录的音频内容中插入(例如，混入)音频音调或其他标记中以指定在音频内容中检测到的唤醒词。然后，如果NMD检测到与唤醒词相关联(例如，紧接在唤醒词之前或与唤醒词同时出现)的音频标记，则可以指示NMD或对NMD预编程以忽略唤醒词的实例。使用这种技术，不需要预先确定或估计回放设备的可听范围内的NMD。相反，由于与音频内容一起回放声学标记，所以在用于检测音频内容的可听范围内(因此可能被该内容错误触发)的NMD也位于用于检测声学标记的范围内，并且作为响应停用它们的唤醒响应。如果多个NMD在回放设备的可听范围内，则检测到唤醒词的每个NMD都会响应于检测到相关联的声学标记，而作为响应停用其对唤醒词的唤醒响应。

d.回放音频内容

在图8中，在框808处，实现800涉及经由一个或多个扬声器回放音频内容。回放设备通过一个或多个音频转换器(例如，扬声器)回放音频内容。在一些情况下，扬声器与回放设备位于同一外壳中。备选地，回放设备可以经由扬声器插孔向一个或多个单独的无源扬声器提供经放大的音频。作为另一示例，回放设备可以通过向放大器提供线级音频来回放音频内容，放大器随后经由扬声器插孔向一个或多个无源扬声器提供经放大的音频。

如上所述，在一些情况下，回放设备被配置到与一个或多个附加回放设备的同步回放配置中。在这种情况下，回放音频内容涉及与该一个或多个附加回放设备同步地回放音频内容。在一些回放配置(例如，立体声对或环绕声)中，处于该回放配置中的每个回放设备与该回放配置中的其他回放设备同步地回放音频内容的一部分。

在一些实施方式中，回放设备向一个或多个附加回放设备提供音频内容以供回放，来促进与回放设备同步回放该音频内容。在这些实施方式中，回放设备可以用作同步组的组协调器，该同步组包括该回放设备和该一个或多个附加回放设备。作为组协调器，回放设备可以另外向该一个或多个附加回放设备提供定时信息，以促进同步组调度同步回放。回放设备经由网络接口提供音频内容和/或定时信息。

如上所述，在一些情况下，回放设备将音频内容修改为包括声学标记。在这些实施例中，如果回放设备在同步组中，则回放设备可以将经修改的音频内容提供给同步组中的其他回放设备。然后，同步组中的每个回放设备可以与组中的其他回放设备同步地回放经修改的音频内容。

为了说明，在一个示例中，回放设备114和122和124位于区域组(即，厨房+主卧室区域组)中，该区域组被配置为同步回放音频内容。在为区域组回放指定的音频内容中检测到唤醒词之后，回放设备114可以将音频内容修改为包括声学标记，以在音频内容中指定唤醒词。然后，回放设备114可以将经修改的音频内容提供给回放设备122和/或124，以促进经修改的音频内容的同步回放。

IV.NMD停用唤醒响应的示例技术

如上所述，本文描述的实施例可以涉及停用唤醒响应。图11示出了示例实现1100，通过该实现1100，NMD停用其对一个或多个检测到的唤醒词的唤醒响应。

a.接收表示音频内容的数据以供回放

在框1102处，实现1100涉及接收表示所记录的音频内容的数据。例如，NMD可以接收音频内容以供回放设备回放。示例NMD包括图1中所示的NMD 132和134中的任何一个，其可以被实现为例如图7的NMD 700。示例回放设备包括图1所示的回放设备102、104、106、108、110、112、114、116、118、120、112和124中的任何一个，其可以实现为由例如图2的回放设备200表示。其他示例NMD可以包括这些回放设备和/或控制设备126和128中的任何一个，因为这些设备除了可以作为回放或控制设备的功能之外还可以实现NMD。NMD可以包括处理系统(例如，处理系统500)，并且使用音频输入/输出组件(诸如图5的音频输入/输出组件502)接收表示音频内容的数据。

NMD可以经由输入接口接收音频内容，该输入接口可以是有线或无线网络接口或者模拟或数字输入线接口等。例如，NMD可以经由网络接口通过一种或多种类型的网络(例如WAN、LAN和PAN)从网络源接收音频内容等。

NMD可以从本地或远程音频源接收表示音频内容的数据。例如，NMD可以从以下接收音频内容：本地媒体服务器或局域网上的其他设备、由NMD或与NMD通信的另一设备(例如，通过局域网经由网络接口与NMD通信的回放设备)读取的介质(例如，CD、DVD、蓝光、闪存或硬盘驱动器)、或存储在NMD本身上的数据存储设备。

NMD可以从一个或多个云服务器接收音频内容作为音频内容流。例如，NMD可以经由网络接口从URL获取音频内容流。备选地，NMD可以从NMD上或与NMD通信的另一设备(例如，经由网络接口通过局域网连接到NMD的回放设备)上的输入线接口接收音频内容。

在一些情况下，NMD可能经由模拟输入线接口接收模拟格式的音频内容。在这些情况下，NMD将模拟音频数字化(例如，使用基于软件或基于硬件的模数转换器)为适合于处理的格式。备选地，与NMD通信的设备(例如，回放设备)可以接收模拟格式的音频内容，将音频内容数字化，并且将表示音频内容的数据发送给回放设备。

如上所述，所接收的音频内容被设计用于由回放设备回放。例如，控制设备(如图1的控制设备126或128)可以指示回放设备回放某些音频内容，也许通过使该音频内容放置在回放设备的回放队列中来进行。将音频曲目或其他音频内容放置在这种队列中可能使回放设备在经由控制设备或回放设备本身上的控制启动(例如，播放/暂停按钮)回放之后获取音频内容。NMD可以访问该队列(例如，队列的内容可以经由LAN或其他网络与NMD共享)。在进行这种访问的情况下，NMD可以通过以下方式从本地或远程音频源获取音频内容：经由网络接口将音频内容流引导到NMD，或者经由模拟或数字输入线接口将音频内容引导到NMD等。

在一些情况下，所接收的音频内容被设计为由两个或多个回放设备回放。例如，可以将两个或更多个回放设备配置到同步组(例如，区域组、立体声对或环绕声配置)中。特定音频内容可以由该同步组指定用于回放。

在示例内，处理系统500可以将所接收的音频内容的至少一部分存储在存储器中。例如，处理系统500可以将所接收的音频内容缓冲在先进先出缓冲器(例如，循环缓冲器)中。在这些实施方式中，所接收的音频的各部分在接收时被存储在缓冲器中，并且当对这些唤醒词进行处理时从缓冲器中移除这些唤醒词，这使得回放设备能够确定所接收的音频内容是否包含唤醒词。

b.在音频内容中检测一个或多个唤醒词

在图11中，在框1104处，实现1100涉及在回放设备回放音频内容之前，在音频内容中检测一个或多个唤醒词。例如，NMD可以对接收的表示音频内容的数据进行分析，以确定音频内容中是否表示了用于任何语音服务的唤醒词，导致当回放音频内容时将可听地播放唤醒词。如上所述，在一些实施方式中，NMD可以包括处理系统(例如，处理系统500)，并且使用唤醒词检测组件(例如，图5的唤醒词检测组件504)来检测音频内容内的唤醒词。

NMD可以使用一种或多种唤醒词检测算法对所接收的音频内容进行分析。示例唤醒词检测算法接受音频记录作为输入，并且提供对记录中是否存在唤醒词的指示作为输出。许多第一方和第三方唤醒词检测算法是已知的并且可商购。例如，语音服务的运营商可以使其算法可用于第三方设备。备选地，可以训练算法以检测某些唤醒词。

在常规操作中，NMD将经由麦克风收听家庭或其他环境中的声音(例如，人类语音)，并且通过唤醒词检测算法运行该声音的音频记录，以检测声音是否包含唤醒词。在该过程中，NMD可以使用与NMD用来检测由人类语音发出的唤醒词的算法相同或相似的算法。然而，代替将经由麦克风记录的音频输入到算法，输入的是由回放设备回放的音频内容。以这种方式，NMD可以检测到音频内容中的与在各NMD的可听范围内回放音频内容时NMD本会检测到的唤醒词相同或相似的唤醒词。然而，鉴于NMD通常对变化环境条件(例如，可能是吵杂的家庭环境)中各种各样的人类语音说出的由麦克风记录的音频运行唤醒词检测算法，因此，在没有这种变化性的情况下，对所接收的音频内容运行唤醒词算法对检测唤醒词甚至可能更有效。

在分析期间，NMD可以确定每个唤醒词出现在所接收的音频内容中的位置。在识别出音频内容被确定为包括唤醒词的各部分之后，NMD可以使用一个或多个时间戳(例如，指示唤醒词开始时间的时间戳，以及可能地，指示该唤醒词的停止时间的另一时间戳)来标注音频内容的这些部分。最后，这些时间戳可用于停用NMD对与每个时间戳相对应的唤醒词的唤醒响应。

在一个示例中，NMD可以将所接收的音频内容划分为已知长度的片段。然后，NMD可以通过识别检测到唤醒词的片段来识别音频内容中包括唤醒词的部分(即片段)。例如，如果每个片段长4秒且在第六片段中检测到唤醒词，则唤醒词位于记录的20到24秒之间。在一些情况下，NMD可以将音频记录分成重叠的片段，以避免将唤醒词分解为不可识别的部分(例如，一个片段表示“Hey”而另一片段表示“Alexa”)。也可以利用其他技术来确定唤醒词在音频记录内的位置。

在一些情况下，NMD对所接收的音频内容同时运行多个唤醒词检测算法。如上所述，不同的语音服务(例如，AMAZON的

APPLE的/>

或MICROSOFT的/>

)可以各自使用不同的唤醒词来调用其相应的语音服务。此外，每个语音服务可以支持多个唤醒词和/或定制唤醒词。为了支持多种语音服务，NMD可以针对每种所支持的语音服务并行地对所接收的音频内容运行唤醒词检测算法，以便检测可能在音频内容中表示的不同唤醒词。例如，NMD可以将第一音频检测算法应用于第一语音服务以检测用于第一语音服务的至少一个第一唤醒词，并将第二音频检测算法应用于第二语音服务以检测用于第二语音服务的至少一个第二唤醒词。在回放设备回放音频内容之前，NMD可能还可以针对相应的语音服务，将附加的音频检测算法应用于音频内容。

c.在音频内容的回放期间停用对检测到的一个或多个唤醒词的唤醒响应

在图11中，在框1106处，实现1100涉及在音频内容的回放期间停用对检测到的一个或多个唤醒词的唤醒响应。例如，当音频内容被回放设备可听地回放时，NMD可以停用其对在音频内容中检测到的一个或多个唤醒词的唤醒响应。

在一些实施方式中，当唤醒词被回放设备回放时，NMD通过防止NMD检测到唤醒词来停用其唤醒响应。例如，NMD可以在一个或多个时间段期间(即，与唤醒词将被回放设备回放的时间相对应的时间段，可能由时间戳来表示)停止收听唤醒词(例如，停止处理所记录的音频)。备选地，NMD可以暂时(例如，在上述时间段期间)停用其麦克风。作为又一示例，NMD可以使用其麦克风阵列在回放设备的方向上创建收听无效，使得NMD不检测唤醒词。也可以使用其他示例。

在另外的示例中，NMD在唤醒词被回放设备回放时检测到唤醒词，但是抑制其对检测到的唤醒词的唤醒响应。例如，NMD可以在多个时间段期间忽略唤醒词，或者在某些时间段期间忽略所有音频。也可以使用其他示例。

作为另一示例，NMD可以对音频内容(或音频内容的一部分)中的唤醒词的数量进行计数。例如，NMD可能在示例音频内容中检测到三个唤醒词。如上所述，这些实例可以包括唤醒词的任何组合，包括用于不同语音服务的不同唤醒词。然后，NMD然后可以停用其唤醒响应，直到它检测到与计数相等数量的唤醒词为止(例如，通过忽略接下来的三个唤醒词)。

备选地，NMD通过修改音频内容以将声学标记并入音频内容的片段中来停用其对检测到的一个或多个唤醒词的相应唤醒响应。例如，NMD可以在所记录的音频内容中插入(例如，混入)音频音调或其他标记以指定在音频内容中检测到的唤醒词。然后，假定将NMD编程为响应于检测到这种音频标记而停用其唤醒响应，则NMD将在由回放设备回放的音频内容中检测到唤醒词时自动抑制唤醒响应。

在一些示例中，当唤醒词被回放设备回放时，NMD可以使一个或多个附加联网麦克风设备停用它们对检测到的唤醒词的相应唤醒响应。例如，参考图1，NMD 132可以使NMD134停用其唤醒响应。此外，家中的任何回放设备和/或控制设备都可以实现NMD，并且NMD132也可以停用这些回放设备中的任何一个的唤醒响应。

NMD可以停用家中的特定NMD集合。在一些情况下，其唤醒响应被停用的NMD集合基于媒体回放系统的区域或区域组配置。例如，如果NMD与特定区域相关联(例如，如果NMD132与厨房区域相关联)，则NMD可以使也与该相同区域相关联的任何NMD的相应唤醒响应停用。这些NMD可以包括实现NMD的各种设备(例如，回放设备)以及专用NMD。此外，如果与NMD相关联的特定区域与区域组中的一个或多个附加区域相连，则NMD可以使也与该一个或多个附加区域相关联的任何NMD的相应唤醒响应也被停用。如上所述，可以在NMD和媒体回放系统的区域之间创建关联，可能以促进在家庭的特定房间(例如，厨房区域)中的合作。

备选地，其唤醒响应被停用的特定附加NMD基于正在回放包括唤醒词的音频内容的回放设备的可听范围。可以使用任何合适的技术来确定可听范围。在一些实施方式中，如上所述，基于NMD与一个或多个区域的关联来建立可听范围。在其他示例中，在设置过程(例如，校准过程)期间建立可听范围，如以上在第II I节中所述。可以将通过区域配置和/或设置过程建立的可听范围存储为一个或多个状态变量并且在网络(例如，由图1中所示的家中的路由器130建立的LAN)内的设备间共享。通过访问这种信息，NMD可以确定将位于将要回放音频内容的回放设备的可听范围内的NMD集合，并且使这些NMD集合的相应唤醒响应停用。

为了说明，在一个示例中，图1中的NMD 132在设计为由厨房区域中的回放设备114回放的给定音频内容中检测到一个或多个唤醒词。因此，NMD 132停用其对这些唤醒词的唤醒响应。由于回放设备114也是NMD，因此NMD 132停用回放设备114的唤醒响应。此外，由于厨房区域与餐厅区域位于区域组中，因此NMD 132还停用也是NMD的回放设备112的唤醒响应，以便在音频内容由餐厅区域和厨房区域同步回放时，回放设备112的NMD不会错误触发。

在另一示例中，图1中的NMD 134在设计为由主卧室区域中的回放设备122和124回放的给定音频内容中检测一个或多个唤醒词。因此，NMD 134停用其对这些唤醒词的唤醒响应。由于回放设备116实现了NMD，并且已被预先建立为位于回放设备122和124在其当前音量水平下的可听范围内，因此NMD 134还停用回放设备116的唤醒响应。NMD 134从经由路由器130创建的LAN与NMD 134共享的一个或多个状态变量中得知，回放设备116位于回放设备122和124在其当前音量水平下的可听范围内。这些状态变量向NMD 134指示媒体回放系统100的各个方面的状态，例如：回放设备122和124的当前回放配置(例如，立体声对)、它们当前的音量水平、以及在该回放配置和该音量水平下确定了哪些NMD在这些回放设备的可听范围内。

NMD可使用任何合适的技术使该一个或多个附加NMD停用其相应的唤醒响应。NMD可以实现包括通知组件(例如，图5的通知组件506)的处理系统500，并且在回放设备回放音频内容期间，使用该通知组件使一个或多个NMD的集合停用其对检测到的一个或多个唤醒词的相应唤醒响应。

在一些实施方式中，NMD通过以下方式使该一个或多个附加NMD响应于检测到的一个或多个唤醒词而停用其相应的唤醒：通过经由网络接口向该一个或多个NMD发送指令，该指令使该一个或多个NMD在所接收的音频内容的回放期间停用它们相应的唤醒响应。如上所述，媒体回放系统的各种设备(例如，控制设备、回放设备和NMD)可以经由局域网(例如，经由由图1的有线或无线网络路由器130形成的局域网)互连，以允许家中的设备之间指令交换和其他消息传递。可以对媒体回放系统的这些设备各自进行编程，以响应来自系统中其他设备的某些指令。上面结合图9和图10A、图10B、图10C和图10D描述了示例消息和指令。

备选地，NMD通过修改音频内容以将声学标记并入音频内容的片段中，来使该一个或多个NMD停用其对检测到的一个或多个唤醒词的相应唤醒响应。使用这种技术，不需要预先确定或估计回放设备的可听范围内的NMD。相反，由于与音频内容一起回放声学标记，所以在用于检测音频内容的可听范围内(因此可能被该内容错误触发)的NMD也位于用于检测声学标记的范围内，并且作为响应停用它们的唤醒响应。如果多个NMD在NMD的可听范围内，则检测到唤醒词的每个NMD都会响应于检测到相关联的声学标记，而作为响应停用其对唤醒词的唤醒响应。

在一些实施方式中，例如在NMD修改音频内容的实施方式中，NMD将音频内容提供给回放设备。在这种情况下，NMD可以作为音频内容源和回放设备之间的中介。将音频内容传输给回放设备可以使回放设备回放音频内容，因为回放设备可以被配置为回放所接收的音频内容。NMD可以经由任何适当的通信接口(例，如网络接口)将音频内容提供给回放设备。如果将多个回放设备配置为回放音频内容，则NMD可以将音频内容提供给所有回放设备，或者NMD可以将音频内容传输给回放设备的子集(例如，组协调器)，然后，回放设备的子集将音频内容分发给组中的其他回放设备，可能与定时信息一起分发以调度同步回放。

为了说明，在一个示例中，回放设备112和124位于被配置为同步回放音频内容的区域组(即，厨房+餐厅区域组)中。在检测到指定由区域组回放的音频内容中的唤醒词之后，NMD 132可以将音频内容修改为包括声学标记，以在音频内容中指定唤醒词。然后，回放设备132可以将经修改的音频内容提供给回放设备112和/或114，以促进经修改的音频内容的同步回放。

d.检测所回放的音频内容

在框1108处，实现1100涉及经由麦克风检测所回放的音频内容。例如，当回放设备正在回放包括一个或多个检测到的唤醒词的音频内容时，NMD可以经由麦克风检测所回放的音频内容。在启用NMD的唤醒响应的配置中，检测所回放的音频内容中包括唤醒词的各部分将触发NMD的唤醒响应。然而，由于NMD停用了对音频内容中一个或多个唤醒词的唤醒响应，因此不会触发唤醒响应。

在一些实施方式中，回放设备实现NMD。在这些示例中，回放设备可以经由一个或多个扬声器回放所接收的音频内容。在一些情况下，扬声器与NMD位于同一外壳中。备选地，回放设备可以经由扬声器插孔向一个或多个单独的无源扬声器提供经放大的音频。作为另一示例，回放设备可以通过向放大器提供线级音频来回放音频内容，放大器随后经由扬声器插孔向一个或多个无源扬声器提供经放大的音频。

在一些情况下，NMD被配置到与一个或多个附加回放设备的同步回放配置中。在这种情况下，回放音频内容涉及与该一个或多个附加回放设备同步地回放音频内容。在一些回放配置(例如，立体声对或环绕声)中，处于该回放配置中的每个回放设备与该回放配置中的其他回放设备同步地回放音频内容的一部分。

如上所述，在一些实施方式中，NMD将音频内容提供给一个或多个回放设备以供回放。在一些示例中，NMD将音频内容提供给该一个或多个回放设备，来促进与NMD同步回放该音频内容。在这些实施方式中，NMD可以用作同步组的组协调器，该同步组包括该NMD和该一个或多个附加回放设备。作为组协调器，NMD可以另外向该一个或多个附加回放设备提供定时信息，以促进同步组调度同步回放。回放设备经由网络接口提供音频内容和/或定时信息。

V.计算系统停用唤醒响应的示例技术

如上所述，本文描述的实施例可以涉及停用唤醒响应。图12示出了示例实现1200，通过该示例实现1200，计算系统停用一个或多个NMD对音频内容中的一个或多个唤醒词的唤醒响应。在各种实施例中，计算系统可以是云服务器。备选地，计算系统可以是本地处理设备(例如，与媒体回放系统连接到相同LAN的设备)。计算系统可以实现回放设备或NMD。

a.接收表示所记录的音频内容的数据

在框1202处，实现1200涉及接收表示所记录的音频内容的数据。例如，计算系统可以接收音频内容以供回放设备进行回放。示例回放设备包括图1中所示的回放设备102、104、106、108、110、112、114、116、118、120、112和124中的任一个，其例如可以被实现为图2的回放设备200。处理系统可以包括处理系统(例如，处理系统500)，并且使用音频输入/输出组件(诸如图5的音频输入/输出组件502)来接收表示音频内容的数据。计算系统可以使用任何合适的技术来接收音频内容，诸如以上在第II、第III和第IV部分中讨论的技术。

b.在音频内容中检测一个或多个唤醒词

在图12中，在框1204处，实现1200涉及在回放设备回放音频内容之前，在音频内容中检测一个或多个唤醒词。例如，计算系统可以对接收的表示音频内容的数据进行分析，以确定音频内容中是否表示了用于任何语音服务的唤醒词，导致当回放音频内容时将可听地播放唤醒词。如上所述，在一些实施方式中，计算系统可以包括处理系统(例如，处理系统500)，并且使用唤醒词检测组件(例如，图5的唤醒词检测组件504)来检测音频内容内的唤醒词。计算系统可以使用任何合适的技术来检测唤醒词，诸如以上在第II、第III和第TV部分中讨论的技术。

c.使一个或多个MD在音频内容的回放期间停用对检测到的一个或多个唤醒词的相应唤醒响应

在图12中，在框1206处，实现1200涉及在音频内容的回放期间使一个或多个联网的麦克风设备停用其对检测到的一个或多个唤醒词的相应唤醒响应。例如，计算系统可以使在回放设备的音频范围内的NMD在回放设备回放音频内容期间停用NMD对检测到的一个或多个唤醒词的相应唤醒响应。如上所述，计算系统可以实现包括通知组件(例如，图5的通知组件506)的处理系统500，并且使用该通知组件，在回放设备回放音频内容期间，使一个或多个NMD停用其对检测到的一个或多个唤醒词的相应唤醒响应。计算系统可以使用任何合适的技术(例如，上述在第II、第III和第IV部分中讨论的技术)，在音频内容的回放期间，使一个或多个NMD停用其对检测到的一个或多个唤醒词的相应唤醒响应。

VI.抑制唤醒响应的示例技术

如上所述，本文描述的实施例可以涉及抑制唤醒响应。图13示出了示例实现1300)，NMD通过该示例实现1300)停用唤醒响应。

a.接收用于停用NMD对一个或多个唤醒词的唤醒响应的指令

在框1302处，实现1300涉及接收用于停用NMD对一个或唤醒词的唤醒响应的指令。例如，NMD(例如，NMD 132)可以从另一NMD、回放设备、计算系统或任何其他设备接收指令。指令使NMD停用其对一个或多个唤醒词的唤醒响应，这些唤醒词被表示在已经指定由一个或多个回放设备回放的某些音频内容中。

在一些实施方式中，所接收的用于停用NMD对一个或多个唤醒词的唤醒响应的指令是隐式的。例如，可以指示NMD在唤醒词被回放设备回放时不检测唤醒词，这可能通过指示NMD停止收听唤醒词，通过停用NMD的麦克风阵列一段时间，或者通过在回放设备的方向创建收听无效等来进行。备选地，NMD可以检测唤醒词，但是NMD被指示抑制其经编程的唤醒响应，该经编程的唤醒响应对检测到唤醒词进行响应而调用语音服务，这可能通过在某些时段期间忽略唤醒词，或者通过在某些时段期间忽略所有音频来进行。可以使用任何合适的指令来指示NMD，例如以上第II、第III和第IV部分中讨论的那些指令。

备选地，所接收的指令是隐式的。例如，如上所述，可以将音频内容修改为包括指定唤醒词的声学标记。在这些实施方式中，所接收的指令可以是声学标记的形式。在一些情况下，所接收的指令可以是用于在检测到声学标记时停用NMD的唤醒响应的指令。

b.检测一个或多个回放设备正在回放的音频内容

在图13中，在框1304处，实现1300涉及检测由一个或多个回放设备回放的音频内容。例如，NMD可以经由麦克风检测由单个回放设备回放的音频内容。备选地，NMD可以检测由两个或更多个设备(例如，同步地)回放的音频内容。

c.确定检测到的音频内容包括一个或多个唤醒词

在图13中，在框1306处，实现1300涉及确定检测到的音频内容包括一个或多个唤醒词。例如，NMD可以通过对检测到的音频内容运行一种或多种唤醒词检测算法，来确定检测到的音频内容包括一个或多个唤醒词。在一些情况下，NMD可以对检测到的音频内容运行多个唤醒词检测算法(例如，用于不同唤醒词(可能用于不同的语音服务)的唤醒词检测算法)。在整个本公开中描述了示例唤醒词检测算法。

D.停用NMD对检测到的音频内容中的一个或多个唤醒词的唤醒响应

在图13中，在框1308处，实现1300涉及停用NMD对检测到的音频内容中的一个或多个唤醒词的唤醒响应。如上所述，NMD的唤醒响应是指其对检测到唤醒词的经编程的响应。当启用唤醒响应时，响应于检测到唤醒词，NMD的唤醒响应使该NMD经由麦克风收听特定唤醒词之后的语音命令。NMD调用语音服务以执行语音命令。然而，当停用唤醒响应时，NMD可能不收听语音命令，并且将不调用语音服务来执行语音命令。

VII.结论

以上描述尤其公开了各种示例系统、方法、装置和尤其包括在硬件上执行的固件和/或软件的制品。应当理解的是，这些示例仅是示意性的，而不应当被认为是限制性的。例如，可以想到，这些固件、硬件和/或软件方面或组件中的任意一个或全部可以专门在硬件中实现、专门在软件中实现、专门在固件中实现、或在硬件、软件和/或固件的任意组合中实现。因此，所提供的示例不是实现这些系统、方法、装置和/或制品的唯一方式。

(特征1)一种方法，包括：经由回放设备接收表示音频内容的数据，以供所述回放设备回放；在所述回放设备回放所述音频内容之前，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词；使一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应，其中，在唤醒响应被启用时，给定联网麦克风设备对特定唤醒词的唤醒响应使所述给定联网麦克风设备经由麦克风收听所述特定唤醒词之后的语音命令；以及经由一个或多个扬声器回放所述音频内容。

(特征2)根据特征1所述的方法，其中，所述回放设备包括所述给定联网麦克风设备，并且其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：在回放所述音频内容的同时，经由所述麦克风记录正在回放的音频内容；以及停用所述给定联网麦克风设备对所记录的音频内容中的所述一个或多个唤醒词的相应唤醒响应。

(特征3)根据特征1所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：经由所述网络接口向所述一个或多个联网麦克风设备发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令。

(特征4)根据特征2所述的方法，其中，所述一个或多个联网麦克风设备是家中的联网麦克风设备的子集，并且其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近；以及响应于确定所述一个或多个联网麦克风在所述音频内容的可听范围附近，发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令。

(特征5)根据特征4所述的方法，其中，所述一个或多个联网麦克风设备包括相应的回放设备，并且其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述一个或多个联网麦克风设备与所述回放设备处于同步回放配置中。

(特征6)根据特征4所述的方法，其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述一个或多个联网麦克风设备在所述回放设备的可听范围附近。

(特征7)根据特征1所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：在回放所述音频内容之前，修改所述音频内容以将声学标记并入所述音频内容的表示相应唤醒词的片段中，其中，检测所述声学标记以使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应。

(特征8)根据特征1所述的方法，其中，检测所述一个或多个唤醒词包括对所述音频内容应用多个唤醒词检测算法，其中，所述多个唤醒词检测算法包括用于第一语音服务的第一唤醒词检测算法和用于第二语音服务的第二唤醒词检测算法，并且其中，在所述回放设备回放所述音频内容之前对所述音频内容应用多个唤醒词检测算法包括：在所述回放设备回放所述音频内容之前，对所述音频内容应用用于所述第一语音服务的第一音频检测算法，以检测用于所述第一语音服务的至少一个第一唤醒词；以及在回放设备回放音频内容之前，对所述音频内容应用用于所述第二语音服务的第二音频检测算法，以检测用于所述第二语音服务的至少一个第二唤醒词，其中，所述第二唤醒词与所述第一唤醒词不同。

(特征9)根据特征1所述的方法，其中，所述一个或多个联网麦克风设备包括第一联网麦克风设备和第二联网麦克风设备，并且其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：使所述第一联网麦克风设备停用所述第一联网麦克风设备对检测到的至少一个第一唤醒词的相应唤醒响应；以及使所述第二联网麦克风设备停用所述第二联网麦克风设备对检测到的至少一个第二唤醒词的相应唤醒响应。

(特征10)根据特征1所述的方法，其中，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词包括检测特定唤醒词在所述音频内容中的多个实例，并且其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：使所述一个或多个联网麦克风设备停用所述一个或多个联网麦克风设备的相应唤醒响应，直到每个联网麦克风设备已经检测到与在所述音频内容中检测到的所述特定唤醒词的所述多个实例的数量相等数量的唤醒词为止。

(特征11)一种有形非暂时性计算机可读介质，其中存储有指令，该指令可由一个或多个处理器以使设备执行根据特征1至10中任一项的方法。

(特征12)一种设备，被配置为执行根据特征1至10中任一项的方法。

(特征13)一种媒体回放系统，被配置为执行根据特征1至10中任一项的方法。

(特征14)一种方法，包括：经由联网麦克风设备接收表示音频内容的数据，以供回放设备回放；在所述回放设备回放所述音频内容之前，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词；在所述回放设备回放所述音频内容期间停用所述联网麦克风设备对检测到的一个或多个唤醒词的唤醒响应，其中，在唤醒响应被启用时，所述联网麦克风设备对特定唤醒词的唤醒响应使所述联网麦克风设备经由麦克风收听所述特定唤醒词之后的语音命令；以及当所述回放设备正在回放所述音频内容时，经由所述麦克风检测所回放的音频内容。

(特征15)根据特征14所述的方法，还包括：经由网络接口将表示音频内容的数据传输给所述回放设备，以使所述回放设备回放所述音频内容。

(特征16)根据特征15所述的方法，其中，在所述回放设备回放所述音频内容期间停用所述联网麦克风设备对检测到的一个或多个唤醒词的唤醒响应包括：在将表示所述音频内容的数据传输给所述回放设备之前，修改所述音频内容以将声学标记并入所述音频内容的表示相应唤醒词的片段中，其中，检测所述声学标记使所述联网麦克风设备在所述回放设备回放所述音频内容期间停用所述联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应。

(特征17)根据特征14所述的方法，还包括：使一个或多个附加联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个附加联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应。

(特征18)根据特征17所述的方法，其中，使所述一个或多个附加联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个附加联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：经由所述网络接口向所述一个或多个附加联网麦克风设备发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令。

(特征19)根据特征17所述的方法，其中，所述一个或多个附加联网麦克风设备是家中的联网麦克风设备的子集，并且其中，使所述一个或多个附加联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：确定所述一个或多个联网麦克风在音频内容的可听范围附近；以及响应于确定所述一个或多个联网麦克风在所述音频内容的可听范围附近，发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令。

(特征20)根据特征19所述的方法，其中，所述一个或多个联网麦克风设备包括相应的回放设备，并且其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述一个或多个联网麦克风设备与所述回放设备处于同步回放配置中。

(特征21)根据特征14所述的方法，其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述一个或多个联网麦克风设备在所述回放设备的可听范围附近。

(特征22)根据特征14所述的方法，其中，检测所述一个或多个唤醒词包括对所述音频内容应用多个唤醒词检测算法，其中，所述多个唤醒词检测算法包括用于第一语音服务的第一唤醒词检测算法和用于第二语音服务的第二唤醒词检测算法，并且其中，在所述回放设备回放所述音频内容之前对所述音频内容应用多个唤醒词检测算法包括：在所述回放设备回放所述音频内容之前，对所述音频内容应用用于所述第一语音服务的第一音频检测算法，以检测用于所述第一语音服务的至少一个第一唤醒词；以及在所述回放设备回放所述音频内容之前，对所述音频内容应用用于所述第二语音服务的第二音频检测算法，以检测用于所述第二语音服务的至少一个第二唤醒词，其中，所述第二唤醒词与所述第一唤醒词不同。

(特征23)根据特征14所述的方法，其中，所述联网麦克风设备包括所述回放设备，并且其中，所述方法还包括经由一个或多个扬声器回放所述音频内容。

(特征24)一种有形非暂时性计算机可读介质，其中存储有指令，该指令可由一个或多个处理器以使设备执行根据特征14至23中任一项的方法。

(特征25)一种设备，被配置为执行特征14至23中任一项的方法。

(特征26)一种回放系统，被配置为执行特征14至23中任一项的方法。

(特征27)一种方法，包括：通过计算系统接收(经由所述计算系统的接口)接收音频内容，以供一个或多个回放设备回放；在回放设备回放所述音频内容之前，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词；以及使一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应，其中，在唤醒响应被启用时，给定联网麦克风设备对特定唤醒词的唤醒响应使所述给定联网麦克风设备经由麦克风收听所述特定唤醒词之后的语音命令。

(特征28)根据特征27所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：经由所述网络接口向所述一个或多个联网麦克风设备发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令。

(特征29)根据特征28所述的方法，其中，发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令包括：发送使所述一个或多个联网麦克风设备在一个或多个时间段期间停用所述一个或多个联网麦克风设备的相应唤醒响应的指令，所述一个或多个时间段与所述一个或多个回放设备将回放所述音频内容的表示相应唤醒词的片段的时间相对应。

(特征30)根据特征28所述的方法，其中，发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令包括：发送使所述一个或多个联网麦克风设备在一个或多个时间段期间停用所述一个或多个联网麦克风设备的相应麦克风的指令，所述一个或多个时间段与所述一个或多个回放设备将回放所述音频内容的表示相应唤醒词的片段的时间相对应。

(特征31)根据特征28所述的方法，其中，所述计算系统在所述音频内容检测到特定数量的唤醒词，并且其中，发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令包括：发送指令，所述指令使所述一个或多个联网麦克风设备停用所述一个或多个联网麦克风设备的相应唤醒响应，直到所述一个或多个联网麦克风设备已经检测到与在所述音频内容中检测到的唤醒词的特定数量相等数量的唤醒词为止。

(特征32)根据特征28所述的方法，其中，所述一个或多个联网麦克风设备是家中的联网麦克风设备的子集，并且其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近；以及响应于确定所述一个或多个联网麦克风在所述音频内容的可听范围附近，发送使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应的指令。

(特征33)根据特征32所述的方法，其中，所述一个或多个联网麦克风设备包括相应的回放设备，并且其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述一个或多个联网麦克风设备与所述回放设备处于同步回放配置中。

(特征34)根据特征32所述的方法，其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述一个或多个联网麦克风设备在所述回放设备的可听范围附近。

(特征35)根据特征27所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：在所述一个或多个回放设备回放所述音频内容之前，修改所述音频内容以将声学标记并入所述音频内容的表示相应唤醒词的片段中，其中，检测所述声学标记以使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应；以及将修改后的音频内容传输给所述一个或多个回放设备中的至少一个，以供所述一个或多个回放设备回放。

(特征36)根据特征35所述的方法，其中，接收音频内容以供一个或多个回放设备回放包括以下之一：(a)经由接口的网络接口接收表示音频内容的数据，或(b)经由接口的模拟接口接收表示音频内容的模拟信号。

(特征37)根据特征27所述的方法，其中，所述计算系统包括所述一个或多个回放设备中的特定回放设备，并且其中，操作还包括回放所述音频内容。

(特征38)根据特征27所述的方法，其中，所述计算系统包括所述一个或多个联网麦克风设备中的特定联网麦克风设备，并且其中，操作还包括经由麦克风检测正由所述一个或多个回放设备回放的音频内容。

(特征39)一种有形暂时性计算机可读介质，其中存储有指令，该指令可由一个或多个处理器执行以使设备执行特征27至38中任一项的方法。

(特征4())一种设备，被配置为执行特征27至38中任一项的方法。

(特征41)一种媒体回放系统，被配置为执行特征27至38中任一项的方法。

(特征42)一种方法，包括：经由联网麦克风设备接收停用所述联网麦克风设备对一个或多个唤醒词的唤醒响应的指令，其中，当唤醒响应被启用时，所述联网麦克风设备对给定唤醒词的唤醒响应使所述联网麦克风设备经由麦克风收听所述给定唤醒词之后的语音命令；经由所述麦克风检测由一个或多个回放设备回放的音频内容；确定检测到的音频内容包括一个或多个唤醒词；以及响应于接收到的指令，停用所述联网麦克风设备对检测到的音频内容中的所述一个或多个唤醒词的唤醒响应。

(特征43)根据特征42所述的方法，其中，接收停用所述联网麦克风设备对一个或多个唤醒词的唤醒响应的指令包括：接收对在一个或多个时间段期间停用所述唤醒响应的指令，所述一个或多个时间段与所述一个或多个回放设备将要回放所述音频内容中与相应检测到的唤醒词相对应的片段的时间相对应。

(特征44)根据特征42所述的方法，其中，接收停用所述联网麦克风设备对一个或多个唤醒词的唤醒响应的指令包括：接收对在一个或多个时间段期间停用所述麦克风的指令，所述一个或多个时间段与所述一个或多个回放设备将要回放所述音频内容中与相应检测到的唤醒词相对应的片段的时间相对应。

(特征45)根据特征42所述的方法，其中，接收停用所述联网麦克风设备对一个或多个唤醒词的唤醒响应的指令包括：接收指令，所述指令在检测到连续唤醒词时停用所述唤醒响应，直到所述联网麦克风设备已经检测到与特定数量的唤醒词相等数量的唤醒词为止。

(特征46)根据特征42所述的方法，其中，接收停用所述联网麦克风设备对一个或多个唤醒词的唤醒响应的指令包括：接收在检测到声学标记时停用唤醒响应的指令，并且其中，停用所述联网麦克风设备对检测到的音频内容中的一个或多个唤醒词的唤醒响应包括：检测检测到的音频内容中与相应的检测到的唤醒词相对应的声学标记；以及响应于检测到每个声学标记而停用所述唤醒响应。

(特征47)根据特征42所述的方法，其中，确定检测到的音频内容包括一个或多个唤醒词包括向检测到的音频内容应用一个或多个唤醒词检测算法。

(特征48)一种有形非暂时性计算机可读介质，其中存储有指令，该指令可由一个或多个处理器执行以使设备执行根据特征42至47中任一项的方法。

(特征49)一种设备，被配置为执行根据特征42至47中任一项的方法。

(特征50)一种媒体回放设备，被配置为执行根据特征42至47中任一项的方法。

主要在说明性的环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦接到网络的数据处理设备的操作相类似的其他象征性表示的方面上，提出本说明书。本领域技术人员通常使用这些处理描述和表示，以向本领域技术人员的其他技术人员传播他们的工作内容。阐述了各种具体细节，以提供本公开的透彻理解。然而，本领域技术人员应理解，不需要特定、具体细节就可以实施本公开。在其他实例中，没有描述熟知的方法、过程、组件和电路，以避免不必要地使实施例的方面模糊不清。因此，本公开的范围由随附权利要求、而不是以上实施例的描述来界定。

当随附权利要求中的任一项权利要求被理解成涵盖纯软件和/或固件实现时，在此明确限定至少一个示例中的至少一个元素以包括存储软件和/或固件的非暂时性有形介质，如存储器、DVD、CD、蓝光等。

Claims

1.一种用于回放设备的方法，包括：

经由所述回放设备的网络接口接收表示音频内容的数据，以供所述回放设备回放；以及

在所述回放设备回放所述音频内容之前，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词；

确定一个或多个联网麦克风设备位于所述音频内容的可听范围附近；

响应于确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近，使被确定为在所述音频内容的可听范围内的一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间，停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应，其中，在唤醒响应被启用时，所述一个或多个联网麦克风设备中的给定联网麦克风设备对特定唤醒词的唤醒响应使所述给定联网麦克风设备经由麦克风收听所述特定唤醒词之后的语音命令；以及

经由所述回放设备的一个或多个扬声器回放所述音频内容。

2.根据权利要求1所述的方法，其中，所述回放设备包括所述给定联网麦克风设备。

3.根据权利要求1或2所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：

在回放所述音频内容的同时，经由所述一个或多个联网麦克风设备记录正在回放的音频内容；以及

停用所述一个或多个联网麦克风设备对所记录的音频内容中的所述一个或多个唤醒词的相应唤醒响应。

4.根据权利要求1或2所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：

经由所述回放设备的所述网络接口向所述一个或多个联网麦克风设备发送指令，所述指令使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对所述一个或多个唤醒词的相应唤醒响应。

5.根据权利要求1或2所述的方法，其中，被确定为在所述音频内容的可听范围附近的所述一个或多个联网麦克风设备是家中的联网麦克风设备的子集。

6.根据权利要求2所述的方法，其中，确定所述一个或多个联网麦克风设备在所述音频内容的可听范围附近包括：确定所述所述一个或多个联网麦克风设备与所述回放设备处于同步回放配置中。

7.根据权利要求1或2所述的方法，其中，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：

在回放所述音频内容之前，修改所述音频内容以将声学标记并入所述音频内容的表示相应唤醒词的片段中，其中，检测所述声学标记以使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应。

8.根据权利要求1或2所述的方法，其中，检测所述一个或多个唤醒词包括：对所述音频内容应用多个唤醒词检测算法，所述多个唤醒词检测算法各自针对与相应语音服务相关联的唤醒词。

9.根据权利要求8所述的方法，其中：

检测所述一个或多个唤醒词包括检测多个唤醒词；以及

使所述一个或多个联网麦克风设备停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：

使第一联网麦克风设备停用所述第一联网麦克风设备对检测到的至少一个第一唤醒词的相应唤醒响应；以及

使第二联网麦克风设备停用所述第二联网麦克风设备对检测到的至少一个第二唤醒字的相应唤醒响应。

10.根据权利要求1所述的方法，其中，在所述音频内容中检测用于一个或多个语音服务的一个或多个唤醒词包括检测特定唤醒词在所述音频内容中的多个实例。

11.根据权利要求10所述的方法，使所述一个或多个联网麦克风设备在所述回放设备回放所述音频内容期间停用所述一个或多个联网麦克风设备对检测到的一个或多个唤醒词的相应唤醒响应包括：使所述一个或多个联网麦克风设备停用所述一个或多个联网麦克风设备的相应唤醒响应，直到每个联网麦克风设备已经检测到与在所述音频内容中检测到的所述特定唤醒词的所述多个实例的数量相等数量的唤醒词为止。

12.一种存储有指令的有形非暂时性计算机可读介质，所述指令能够由一个或多个处理器执行，以使回放设备执行根据前述权利要求中任一项所述的方法。

13.一种回放设备，包括：

网络接口；

一个或多个处理器；以及

根据权利要求12所述的有形非暂时性计算机可读介质。