CN109716429B

CN109716429B - 由多个设备进行的语音检测

Info

Publication number: CN109716429B
Application number: CN201780056695.7A
Authority: CN
Inventors: 乔纳森·赖利; 格雷戈里·伯林盖姆; 克里斯托弗·巴茨; 罗米·卡德里; 乔纳森·P·朗
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2016-07-15
Filing date: 2017-07-14
Publication date: 2023-02-28
Anticipated expiration: 2037-07-14
Also published as: US20190108839A1; EP4036912A1; US10297256B2; WO2018013978A1; EP3709292A1; US10699711B2; US11664023B2; CN109716429A; US20190341045A1; US20200395015A1; EP3709292B1; US20180018964A1; US20240029731A1; US10152969B2; EP3485488A1; EP3485488B1

Abstract

本文公开了用于由多个NMD进行语音检测的示例技术。示例实现可以涉及：从NMD集合接收语音记录集合，以及识别语音记录子集，其中根据语音记录子集来确定给定语音命令。示例实现还可以涉及：使所识别的语音记录子集被分析以确定给定语音命令。

Description

由多个设备进行的语音检测

相关申请的交叉引用

本申请要求于2016年7月15日提交的第15/211,748号美国专利申请的优先权，该申请通过引用整体并入本文。本申请还通过引用将2016年4月14日提交的题为“DefaultPlayback Device Designation”的第15/098,867号美国申请的全部内容并入本文。

技术领域

本公开内容涉及消费品，并且更特别地，涉及针对媒体回放或其一些方面的方法、系统、产品、特征、服务和其他元素。

背景技术

直到在2003年SONOS公司申请题为“Method for Synchronizing Audio Playbackbetween Multiple Networked Devices”的其首批专利申请之一，并且在2005年开始提供媒体回放系统用于出售时，用于以大声设置访问和收听数字音频的选择受到限制。Sonos无线高保真系统使人能经由一个或更多个联网回放设备来体验来自许多源的音乐。通过安装在智能电话、平板计算机或计算机上的软件控制应用，一个人可以在具有联网回放设备的任何房间中播放他或她想要的内容。另外，使用控制器，例如，可以利用回放设备将不同的歌曲流送至每个房间，房间可以被分组在一起以用于同步回放，或者可以在所有房间中同步地收听同一歌曲。

鉴于对数字媒体的日益增长的兴趣，仍然需要开发消费者可访问的技术以进一步增强收听体验。

附图说明

考虑以下描述、所附权利要求以及附图，可以更好地理解本公开技术的特征、方面和优点，在附图中：

图1示出了其中可以实践某些实施方式的示例媒体回放系统配置；

图2示出了示例回放设备的功能框图；

图3示出了示例控制设备的功能框图；

图4示出了示例控制器接口；

图5示出了示例的多个网络设备；

图6示出了示例网络麦克风设备的功能框图；

图7示出了根据示例实施方式的技术。

附图是出于说明示例实施方式的目的，但是应该理解的是，本发明不限于附图中示出的布置和手段。

具体实施方式

I.概述

大声地收听媒体内容可以是涉及家人、朋友和客人的社交活动。媒体内容可以包括例如谈话电台、书籍、来自电视的音频、存储在本地驱动器上的音乐、来自媒体源(例如，

Radio，

Radio，Google Play^TM，iTunes Radio)的音乐以及其他可听的材料。在家庭中，例如，人们可以在聚会和其他社交集会上大声播放音乐。在这样的环境中，人们可能希望在一个收听区或同时在多个收听区中播放音乐，使得每个收听区中的音乐可以同步，而没有可听的回声或干扰(glitch)。

在使用语音命令控制音频回放设备或系统以及家庭中的其他设备(例如灯)时，可以丰富这样的体验。例如，用户可能希望使用各种语音命令来改变音频内容、播放列表或收听区，将音乐曲目添加到播放列表或回放队列，或者改变回放设置(例如，播放、暂停、下一曲目、前一曲目、回放音量和EQ设置等)。一些示例音频回放设备或系统可以包括用于检测这样的语音命令的麦克风。

在一些情况下，大声地收听媒体内容是个人体验。例如，个人可以在早晨在工作之前、在锻炼期间、在夜晚在晚餐期间或者在家中或工作中在一天中的其他时间为自己大声播放音乐。对于这些个人体验，个人可以选择将音频内容的回放限制到单个收听区或区域。在个人可以使用语音命令来选择收听区、音频内容和回放设置以及其他设置时，可以丰富这样的体验。

在一些情况下，可以使用联网麦克风设备(NMD)来控制家庭。NMD可以是例如能够经由麦克风接收语音输入的

回放设备、服务器或系统。另外，NMD可以是除了

回放设备、服务器或系统之外的能够经由麦克风接收语音输入的设备(例如，

)。通过引用在此并入的题为“Default Playback Device Designation”的第15/098,867号美国申请提供了支持语音的家庭体系结构的示例。

在一些常规方法中，单个NMD可以独立地接收或处理语音输入或命令。的确，一些商业可用设备设想单个NMD的存在。因此，在多个这样的常规NMD存在于单个位置的情况下，常规NMD可能独立地对单个语音输入做出反应。在存在多个NMD的这样的家庭中，协调并识别NMD集合可以提供增强用户体验的改进的语音识别技术，在该NMD集合中根据相应NMD的语音记录来确定语音命令。

在一些示例中，给定家庭中的NMD可以各自具有用于记录来自用户的语音输入或命令的一个或更多个麦克风。计算设备可以从一个或更多个NMD接收相应的语音记录集合，并且在计算设备处本地地处理语音记录或者在通过一个或更多个网络连接至计算设备的另一设备上远程地处理语音记录。例如，计算设备可以与联网麦克风系统服务器、一个或更多个NMD、回放设备和/或另一计算设备通信以接收或处理语音记录。在一些实施方式中，计算设备、媒体回放系统服务器和/或联网麦克风系统服务器可以是基于云的服务器系统。在其他实施方式中，计算设备本身可以是NMD、回放设备或本文中描述的任何其他设备或服务器。

计算设备可以在从多个NMD接收的语音记录集合中识别要处理哪个语音记录以确定给定语音命令。例如，在一些实施方式中，来自登记语音输入的任何NMD的语音输入被处理。可替选地，计算设备可以识别记录的子集。该子集可能包括将给定语音命令登记为处于给定阈值(例如阈值声压级)或以上的任何NMD。作为另一示例，该子集可能包括来自预定义数目个NMD(例如，将语音命令登记为处于给定阈值或以上的三个NMD)的语音输入。其他示例也是可行的。

例如，计算设备可以基于预定规则从多个记录的语音输入之中进行选择。为了说明，在NMD是回放设备的情况下，可以基于回放设备的区配置选择语音输入的子集以用于处理。例如，来自结合在一起作为绑定对(例如立体对或环绕声配置)的多个回放设备的给定命令的记录可以被一起处理。在一些情况下，来自绑定区之外的设备的记录可以被忽略。作为另一示例，来自被分组在一起(作为区组)的多个区的给定命令的记录可以被一起处理。还可以设想其他示例。

计算设备可以使所识别的语音记录子集被分析以确定给定语音命令。换言之，多个NMD的语音记录可以被处理以确定单个语音命令。处理语音记录的特定子集可以提高细化和处理语音记录的精确度，这又能实现语音命令的更高质量的语音至文本转换。更特别地，细化所识别的记录可以防止对相同语音记录(或语音记录的相同部分)的重复、冗余或分开的处理。在其他实例中，识别语音记录子集可以减少确定给定语音命令的处理时间，可能通过避免对相同语音记录的重复、冗余或分开的处理而减少处理时间。本文中进一步描述示例。

除了其他示例之外，NMD可以响应于触发来连续进行记录或开始进行记录。例如，给定NMD可以连续记录环境噪声，但可能仅在以下情况下将其记录提供给计算设备(以可能包括在处理中)：给定NMD(1)本身被唤醒词或语音输入唤醒，或者(2)从另一设备接收到用以将记录提供给计算设备的指令。在这样的实现中，可以触发对给定NMD的记录的处理，尽管给定NMD不一定登记远场语音输入本身(例如，通过登记唤醒词或语音输入)。

虽然本文中描述的一些示例可以涉及由给定的行动者例如“用户”和/或其他实体执行的功能，但是应该理解的是，这仅仅出于说明的目的。除非权利要求本身的语言明确要求，否则权利要求不应该被解释为需要任何这样的示例行动者的行动。本领域普通技术人员将理解的是，本公开内容包括许多其他实施方式。此外，本文中描述的示例可以扩展到通过以任何合适的方式组合示例特征而形成的多个实施方式。

II.示例操作环境

图1示出了其中可以实践或实现本文中公开的一个或更多个实施方式的媒体回放系统100的示例配置。所示出的媒体回放系统100与具有若干房间和空间——例如主卧室、办公室、餐厅和起居室——的示例家庭环境相关联。如图1的示例中所示，媒体回放系统100包括回放设备102至回放设备124、控制设备126和128以及有线或无线网络路由器130。

可以在下面的部分中找到与示例媒体回放系统100的不同组件以及不同组件可以如何交互以向用户提供媒体体验有关的进一步讨论。虽然本文中的讨论可以通常涉及示例媒体回放系统100，但是本文中描述的技术不限于如图1所示的家庭环境等内的应用。例如，本文中描述的技术可以在以下可能期望多区音频的环境中有用：例如商业环境如餐馆、商场或机场，交通工具如运动型多功能车(SUV)、公共汽车或汽车、舰或船、飞机等。

a.示例回放设备

图2示出了示例回放设备200的功能框图，该示例回放设备200可以被配置为图1的媒体回放系统100的回放设备102至回放设备124中的一个或更多个。回放设备200可以包括：处理器202、软件组件204、存储器206、音频处理组件208、音频放大器210、扬声器212、包括无线接口216和有线接口218的网络接口214以及麦克风220。在一种情况下，回放设备200可以不包括扬声器212，而可以包括用于将回放设备200连接至外部扬声器的扬声器接口。在另一种情况下，回放设备200可以既不包括扬声器212也不包括音频放大器210，而可以包括用于将回放设备200连接至外部音频放大器或视听接收器的音频接口。

在一个示例中，处理器202可以是被配置成根据存储在存储器206中的指令来处理输入数据的时钟驱动计算组件。存储器206可以是被配置成存储能够由处理器202执行的指令的有形计算机可读介质。例如，存储器206可以是可以加载有能够由处理器202执行以实现某些功能的软件组件204中的一个或更多个的数据存储装置。在一个示例中，功能可以涉及回放设备200从音频源或另一回放设备检索音频数据。在另一示例中，功能可以涉及回放设备200向网络上的另一设备或回放设备发送音频数据。在又一示例中，功能可以涉及回放设备200与一个或更多个回放设备的配对以创建多声道音频环境。

某些功能可以涉及回放设备200与一个或更多个其他回放设备同步对音频内容的回放。在同步回放期间，收听者优选地将不能感知回放设备200对音频内容的回放与一个或更多个其他回放设备对音频内容的回放之间的时间延迟差异。在此通过引用并入本文的题为“System and method for synchronizing operations among a plurality ofindependently clocked digital data processing devices”的第8,234,395号美国专利更详细地提供了用于回放设备之间的音频回放同步的一些示例。

存储器206还可以被配置成存储与回放设备200相关联的数据，例如回放设备200是其一部分的一个或更多个区和/或区组、可由回放设备200访问的音频源、或者可与回放设备200(或某些其他回放设备)相关联的回放队列。该数据可以被存储为周期性地更新并且用来描述回放设备200的状态的一个或更多个状态变量。存储器206还可以包括这样的数据：该数据与媒体系统的其他设备的状态相关联，并且不时地在设备之间共享，使得设备中的一个或更多个具有与系统相关联的最新数据。其他实施方式也是可行的。

音频处理组件208可以包括一个或更多个数模转换器(DAC)、音频预处理组件、音频增强组件或数字信号处理器(DSP)等。在一个实施方式中，音频处理组件208中的一个或更多个可以是处理器202的子组件。在一个示例中，音频处理组件208可以处理和/或有意地改变音频内容以产生音频信号。然后，可以将产生的音频信号提供至音频放大器210以用于放大并且通过扬声器212进行回放。特别地，音频放大器210可以包括被配置成将音频信号放大至用于驱动扬声器212中的一个或更多个的水平的设备。扬声器212可以包括单独的换能器(例如，“驱动器”)，或者包括具有一个或更多个驱动器的外壳的完整扬声器系统。扬声器212的特定驱动器可以包括例如超低音扬声器(例如，用于低频)、中档驱动器(例如，用于中频)和/或高频扬声器(例如，用于高频)。在一些情况下，一个或更多个扬声器212中的每个换能器可以由音频放大器210的单独相应音频放大器来驱动。除了产生用于由回放设备200回放的模拟信号以外，音频处理组件208可以被配置成对要被发送至一个或更多个其他回放设备以供回放的音频内容进行处理。

可以例如经由音频线路输入连接(例如，自动检测3.5mm音频线路输入连接)或网络接口214从外部源接收要由回放设备200处理和/或回放的音频内容。

网络接口214可以被配置成促进回放设备200与数据网络上的一个或更多个其他设备之间的数据流动。同样地，回放设备200可以被配置成通过数据网络从与该回放设备200通信的一个或更多个其他回放设备、局域网内的网络设备或者广域网如互联网上的音频内容源接收音频内容。在一个示例中，可以以包含基于互联网协议(IP)的源地址和基于IP的目标地址的数字分组数据的形式发送由回放设备200发送和接收的音频内容和其他信号。在这样的情况下，网络接口214可以被配置成对数字分组数据进行解析，使得回放设备200正确地接收和处理去往该回放设备200的数据。

如所示出的，网络接口214可以包括无线接口216和有线接口218。无线接口216可以为回放设备200提供网络接口功能以根据通信协议(例如任何无线标准，包括IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准等)与其他设备(例如，与回放设备200相关联的数据网络内的其他回放设备、扬声器、接收器、网络设备、控制设备)进行无线通信。有线接口218可以为回放设备200提供网络接口功能以根据通信协议(例如，IEEE 802.3)通过有线连接与其他设备进行通信。虽然图2中示出的网络接口214包括无线接口216和有线接口218两者，但是在一些实施方式中，网络接口214可以仅包括无线接口或仅包括有线接口。

麦克风220可以被布置成检测回放设备200的环境中的声音。例如，麦克风可以安装在回放设备的壳体的外壁上。麦克风可以是现在已知或以后开发的任何类型的麦克风，例如电容式麦克风、驻极体电容式麦克风或动态麦克风。麦克风可以对扬声器220的频率范围的一部分敏感。一个或更多个扬声器220可以与麦克风220相反地操作。在一些方面，回放设备200可能不包括麦克风220。

在一个示例中，可以将回放设备200与一个其他回放设备进行配对以播放音频内容的两个分开的音频分量。例如，回放设备200可以被配置成播放左声道音频分量，而其他回放设备可以被配置成播放右声道音频分量，从而产生或增强音频内容的立体声效果。配对的回放设备(也被称为“绑定的回放设备”)还可以与其他回放设备同步地播放音频内容。

在另一示例中，可以将回放设备200与一个或更多个其他回放设备在声音上联合以形成单个联合的回放设备。因为联合的回放设备可以具有额外的扬声器驱动器，其中可以通过该扬声器驱动器来呈现音频内容，所以联合的回放设备可以被配置成与非联合的回放设备或配对的回放设备不同地处理和再现声音。例如，如果回放设备200是被设计成呈现低频范围音频内容的回放设备(即，超低音扬声器)，则回放设备200可以与被设计成呈现全频范围音频内容的回放设备联合。在这样的情况下，当与低频回放设备200联合时，全频范围回放设备可以被配置成仅呈现音频内容的中频分量和高频分量，而低频范围回放设备200呈现音频内容的低频分量。联合的回放设备还可以与单个回放设备或另一联合的回放设备配对。

举例来说，SONOS公司目前公开发售(或已经公开发售)某些回放设备，某些回放设备包括“PLAY：1”、“PLAY：3”、“PLAY：5”、“PLAYBAR”、“CONNECT：AMP”、“CONNECT”和“SUB”。另外地或可替选地，任何其他过去的、现在的和/或将来的回放设备可以用于实现本文公开的示例实施方式的回放设备。另外，应当理解的是，回放设备不限于图2中示出的示例或SONOS产品供应。例如，回放设备可以包括有线或无线耳机。在另一示例中，回放设备可以包括用于个人移动媒体回放设备的对接站或与该对接站交互。在又一示例中，回放设备可以集成至另一设备或组件如电视、照明器材或供室内或室外使用的一些其他设备。

b.示例回放区配置

返回参照图1的媒体回放系统100，环境可以具有一个或更多个回放区，每个回放区具有一个或更多个回放设备。媒体回放系统100可以与一个或更多个回放区一起建立，此后，一个或更多个区可以被添加或移除以得到图1中示出的示例配置。可以根据不同的房间或空间——例如办公室、浴室、主卧室、卧室、厨房、餐厅、起居室和/或阳台——给每个区命名。在一种情况下，单个回放区可以包括多个房间或空间。在另一种情况下，单个房间或空间可以包括多个回放区。

如图1示出的，阳台、餐厅、厨房、浴室、办公室和卧室区各有一个回放设备，而起居室区和主卧室区各有多个回放设备。在起居室区中，回放设备104、106、108和110可以被配置成：作为单独的回放设备、作为一个或更多个绑定的回放设备、作为一个或更多个联合的回放设备或者其任意组合来同步地播放音频内容。类似地，在主卧室的情况下，回放设备122和124可以被配置成：作为单独的回放设备、作为绑定的回放设备或者作为联合的回放设备来同步地播放音频内容。

在一个示例中，图1的环境中的一个或更多个回放区可以各自正在播放不同的音频内容。例如，用户可以正在阳台区中烧烤并且收听正由回放设备102播放的嘻哈音乐，同时另一用户可以正在厨房区中准备食物并且收听正由回放设备114播放的古典音乐。在另一示例中，回放区可以与另一回放区同步地播放相同的音频内容。例如，用户可以在办公室区中，在该办公室区中回放设备118正在播放与阳台区中的回放设备102正播放的摇滚音乐相同的摇滚音乐。在这样的情况下，回放设备102和回放设备118可以同步播放摇滚音乐，使得当用户在不同回放区之间移动时可以无缝地(或至少基本上无缝地)享受正被大声播放的音频内容。如在先前引用的第8,234,395号美国专利中描述的，可以以与回放设备之间的同步方式类似的方式实现回放区之间的同步。

如上面提出的，可以动态地修改媒体回放系统100的区配置，并且在一些实施方式中，媒体回放系统100支持许多配置。例如，如果用户物理地将一个或更多个回放设备移动至区或从区移出一个或更多个回放设备，则媒体回放系统100可以被重新配置以适应改变。例如，如果用户物理地将回放设备102从阳台区移动至办公室区，则办公室区现在可以包括回放设备118和回放设备102两者。如果需要，则可以经由控制设备如控制设备126和控制设备128将回放设备102与办公室区配对或分组在一起和/或对该回放设备102重命名。另一方面，如果一个或更多个回放设备被移动至家庭环境中的尚不是回放区的特定区域，则可以针对该特定区域创建新的回放区。

此外，可以将媒体回放系统100的不同回放区动态地组合成区组或将其划分成单独的回放区。例如，可以将餐厅区和厨房区114组合成用于晚餐聚会的区组，使得回放设备112和114可以同步地呈现音频内容。另一方面，如果用户希望在起居室空间中收听音乐而另一用户希望看电视，则可以将起居室区划分成包括回放设备104的电视区以及包括回放设备106、108和110的收听区。

c.示例控制设备

图3示出了示例控制设备300的功能框图，该示例控制设备300可以被配置为媒体回放系统100的控制设备126和控制设备128中的一者或两者。如示出的，控制设备300可以包括处理器302、存储器304、网络接口306、用户接口308、麦克风310和软件组件312。在一个示例中，控制设备300可以是用于媒体回放系统100的专用控制器。在另一示例中，控制设备300可以是可以安装媒体回放系统控制器应用软件的网络设备，例如，iPhone^TM、iPad^TM或者任何其他智能电话、平板计算机或网络设备(例如，联网的计算机如PC或Mac^TM)。

处理器302可以被配置成执行与促进对媒体回放系统100的用户访问、控制和配置有关的功能。存储器304可以是可以加载能由处理器302执行以执行那些功能的软件组件中的一个或更多个的数据存储装置。存储器304还可以被配置成存储媒体回放系统控制器应用软件以及与媒体回放系统100和用户相关联的其他数据。

在一个示例中，网络接口306可以基于行业标准(例如，包括IEEE802.3的红外、无线电、有线标准，包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15的无线标准、4G移动通信标准等)。网络接口306可以提供用于控制设备300与媒体回放系统100中的其他设备进行通信的装置。在一个示例中，可以经由网络接口306在控制设备300与其他设备之间传送数据和信息(例如，如状态变量)。例如，控制设备300可以经由网络接口306从回放设备或另一网络设备接收媒体回放系统100中的回放区和区组配置或者控制设备300可以经由网络接口306将媒体回放系统100中的回放区和区组配置发送至另一回放设备或网络设备。在一些情况下，其他网络设备可以是另一控制设备。

还可以经由网络接口306将回放设备控制命令如音量控制和音频回放控制从控制设备300传送至回放设备。如上面提出的，用户还可以使用控制设备300来执行对媒体回放系统100的配置的改变。配置改变可以包括：将一个或更多个回放设备添加至区或从区移除一个或更多个回放设备；将一个或更多个区添加至区组或从区组移除一个或更多个区；形成绑定的或联合的播放器；从绑定的或联合的播放器分离一个或更多个回放设备等。因此，有时可以将控制设备300称为控制器，而不论控制设备300是专用控制器还是安装有媒体回放系统控制器应用软件的网络设备。

控制设备300可以包括麦克风310。麦克风310可以被布置成检测控制设备300的环境中的声音。麦克风310可以是现在已知或以后开发的任何类型的麦克风，例如电容式麦克风、驻极体电容式麦克风或动态麦克风。麦克风可以对频率范围的一部分敏感。两个或更多个麦克风310可以被布置成捕获音频源(例如，语音、可听声音)的位置信息以及/或者帮助过滤背景噪声。

控制设备300的用户接口308可以被配置成通过提供控制器接口例如图4示出的控制器接口400来促进对媒体回放系统100的用户访问和控制。控制器接口400包括回放控制区域410、回放区区域420、回放状态区域430、回放队列区域440以及音频内容源区域450。示出的用户接口400仅是可以在网络设备如图3的控制设备300(和/或图1的控制设备126和128)上提供并且由用户访问以控制媒体回放系统如媒体回放系统100的用户接口的一个示例。可替选地，可以在一个或更多个网络设备上实现不同格式、样式和交互序列的其他用户接口以提供对媒体回放系统的可比较的控制访问。

回放控制区域410可以包括用于使所选择的回放区或区组中的回放设备播放或暂停、快进、倒回、跳到下一首、跳到上一首、进入/退出随机模式、进入/退出重复模式、进入/退出交叉渐变模式的可选(例如，通过触摸或通过使用光标)图标。回放控制区域410还可以包括用于修改均衡设定和回放音量以及其他可能性的可选图标。

回放区区域420可以包括媒体回放系统100内的回放区的表示。在一些实施方式中，回放区的图形表示可以是可选的以产生另外的可选图标，以管理或配置媒体回放系统中的回放区，例如，绑定区的创建、区组的创建、区组的分离和区组的重命名，以及其他可能性。

例如，如示出的，可以在回放区的图形表示中的每一个内设置“分组”图标。在特定区的图形表示内设置的“分组”图标可以是可选的，以产生用于选择媒体回放系统中的要与该特定区分组在一起的一个或更多个其他区的选项。一旦被分组，已经与特定区分组在一起的区中的回放设备将被配置成与特定区中的回放设备同步地播放音频内容。类似地，可以在区组的图形表示内设置“分组”图标。在这种情况下，“分组”图标可以是可选的，以产生用于取消选择区组中的要从该区组移除的一个或更多个区的选项。用于经由用户接口如用户接口400对区进行分组和取消分组的其他交互和实现也是可行的。随着回放区或区组配置被修改，可以动态地更新回放区区域420中的回放区的表示。

回放状态区域430可以包括所选择的回放区或区组中的当前正在被播放、先前被播放或被安排接下来要播放的音频内容的图形表示。可以在用户接口上——例如在回放区区域420和/或回放状态区域430内——在视觉上区分所选择的回放区或区组。图形表示可以包括曲目名称、艺术家姓名、专辑名、专辑年份、曲目长度以及对用户了解何时经由用户接口400来控制媒体回放系统而言有用的其他相关信息。

回放队列区域440可以包括与所选择的回放区或区组相关联的回放队列中的音频内容的图形表示。在一些实施方式中，每个回放区或区组可以与这样的回放队列相关联，该回放队列包含与用于由回放区或区组回放的零个或更多个音频项相对应的信息。例如，回放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符，其他标识符可以由回放区或区组中的回放设备使用以从本地音频内容源或联网音频内容源查找和/或检索音频项，可能用于由回放设备回放。

在一个示例中，可以将播放列表添加至回放队列，在这种情况下，可以将与播放列表中的每个音频项相对应的信息添加至回放队列。在另一示例中，可以将回放队列中的音频项保存为播放列表。在又一示例中，当回放区或区组正在连续播放流式音频内容——例如，可以连续播放直到以其他方式被停止的互联网广播，而不是播放具有回放持续时间的离散音频项时，回放队列可以是空的或者被填充但“不在使用中”。在替选实施方式中，回放队列可以包括互联网广播和/或其他流式音频内容项并且当回放区或区组正在播放那些项时回放队列“在使用中”。其他示例也是可行的。

当回放区或区组被“分组”或被“取消分组”时，可以清除或重新关联与受影响的回放区或区组相关联的回放队列。例如，如果将包括第一回放队列的第一回放区与包括第二回放队列的第二回放区分组在一起，则所建立的区组可以具有相关联的回放队列，该相关联的回放队列最初为空，包含来自第一回放队列的音频项(例如，如果第二回放区被添加至第一回放区)，包含来自第二回放队列的音频项(例如，如果第一回放区被添加至第二回放区)，或者来自第一回放队列和第二回放队列两者的音频项的组合。随后，如果建立的区组被取消分组，则所得到的第一回放区可以与先前的第一回放队列重新关联，或者可以与以下新的回放队列相关联，该新的回放队列是空的或者包含来自在所建立的区组被取消分组之前与所建立的区组相关联的回放队列的音频项。类似地，所得到的第二回放区可以与先前的第二回放队列重新关联，或者与以下新的回放队列相关联，该新的回放队列是空的或者包含来自在所建立的区组被取消分组之前与所建立的区组相关联的回放队列的音频项。其他示例也是可行的。

返回参照图4的用户接口400，回放队列区域440中的音频内容的图形表示可以包括曲目名称、艺术家姓名、曲目长度以及与回放队列中的音频内容相关联的其他相关信息。在一个示例中，音频内容的图形表示可以是可选的以产生另外的可选图标，以管理和/或操纵回放队列和/或回放队列中呈现的音频内容。例如，所呈现的音频内容可以从回放队列中移除，可以被移动至回放队列内的不同位置，或者被选择以立即播放或者在任何当前播放的音频内容之后播放，以及其他可能性。与回放区或区组相关联的回放队列可以被存储在回放区或区组中的一个或更多个回放设备上的存储器中、不在回放区或区组中的回放设备上的存储器中和/或一些其他指定设备上的存储器中。

音频内容源区域450可以包括可选音频内容源的图形表示，可以从该可选音频内容源检索音频内容并且由所选择的回放区或区组播放音频内容。可以在下面部分中找到关于音频内容源的论述。

d.示例音频内容源

如前面指出的，区或区组中的一个或更多个回放设备可以被配置成从各种可用音频内容源检索用于回放的音频内容(例如，根据音频内容的相应URI或URL)。在一个示例中，可以由回放设备直接从相应的音频内容源(例如，线路输入连接)检索音频内容。在另一示例中，可以经由一个或更多个其他回放设备或网络设备通过网络将音频内容提供给回放设备。

示例音频内容源可以包括：媒体回放系统例如图1的媒体回放系统100中的一个或更多个回放设备的存储器、一个或更多个网络设备(例如，如控制设备、支持网络的个人计算机或网络附加存储装置(NAS))上的本地音乐库、经由互联网(例如，云)提供音频内容的流式音频服务或者经由回放设备或网络设备上的线路输入连接与媒体回放系统连接的音频源，以及其他可能性。

在一些实施方式中，可以有规律地从媒体回放系统例如图1的媒体回放系统100添加或移除音频内容源。在一个示例中，每当添加、移除或更新一个或更多个音频内容源时，可以执行对音频项编索引。对音频项编索引可以涉及：扫描在能够由媒体回放系统中的回放设备访问的网络上共享的所有文件夹/目录中的可识别音频项；以及生成或更新音频内容数据库，该音频内容数据库包含元数据(例如，名称、艺术家、专辑、曲目长度等)以及其他关联信息，例如找到的每个可识别音频项的URI或URL。用于管理和保持音频内容源的其他示例也是可行的。

以上关于回放设备、控制器设备、回放区域配置和媒体内容源的讨论仅提供了其中可以实现下面描述的功能和方法的操作环境的一些示例。本文中未明确描述的媒体回放系统、回放设备和网络设备的其他操作环境和配置也可以适用于并适合于功能和方法的实现。

e.示例多个联网设备

图5示出了可以被配置成基于语音控制来提供音频回放体验的示例性多个设备500。本领域普通技术人员将理解的是，图5中示出的设备仅出于说明目的，并且包括不同和/或附加设备的变体是可行的。如示出的，多个设备500包括计算设备504、506和508；网络麦克风设备(NMD)512、514和516；回放设备(PBD)532、534、536和538以及控制器设备(CR)522。

多个设备500中的每一个可以是能够联网的设备，其可以根据一个或更多个网络协议例如NFC、蓝牙、以太网和IEEE 802.11以及其他示例在一种或更多种类型的网络——例如广域网(WAN)、局域网(LAN)和个人区域网(PAN)以及其他可能性——上与多个设备中的一个或更多个其他设备建立通信。

如示出的，计算设备504、506和508可以是云网络502的一部分。云网络502可以包括另外的计算设备。在一个示例中，计算设备504、506和508可以是不同的服务器。在另一示例中，计算设备504、506和508中的两个或更多个可以是单个服务器的模块。类似地，计算设备504、506和508中的每一个可以包括一个或更多个模块或服务器。本文中出于便于说明的目的，计算设备504、506和508中的每一个可以被配置成在云网络502内执行特定功能。例如，计算设备508可以是用于流式音乐服务的音频内容的源。

如示出的，计算设备504可以被配置成经由通信路径542与NMD512、514和516接口。NMD 512、514和516可以是一个或更多个“智能家居”系统的组件。在一种情况下，NMD 512、514和516可以物理地分布在整个家庭中，类似于图1中示出的设备的分布。在另一种情况下，NMD512、514和516中的两个或更多个可以物理地定位在彼此相对接近的范围内。通信路径542可以包括一种或更多种类型的网络，例如包括互联网的WAN、LAN和/或PAN以及其他可能性。

在一个示例中，NMD 512、514和516中的一个或更多个可以是主要配置用于音频检测的设备。在另一示例中，NMD 512、514和516中的一个或更多个可以是具有各种主要功用的设备的组件。例如，如上面结合图2和图3所讨论的，NMD 512、514和516中的一个或更多个可以是回放设备200的麦克风220或网络设备300的麦克风310。此外，在一些情况下，NMD512、514和516中的一个或更多个可以是回放设备200或网络设备300。在示例中，NMD 512、514和/或516中的一个或更多个可以包括布置在麦克风阵列中的多个麦克风。

如示出的，计算设备506可以被配置成经由通信路径544与CR 522和PBD 532、534、536和538接口。在一个示例中，CR 522可以是网络设备例如图2的网络设备200。因此，CR522可以被配置成提供图4的控制器接口400。类似地，PBD 532、534、536和538可以是回放设备例如图3的回放设备300。因此，PBD 532、534、536和538可以物理地分布在整个家庭中，如图1所示。出于说明的目的，PBD 536和PBD 538可以是绑定区530的一部分，而PBD 532和PBD534可以是它们各自区的一部分。如上面讨论的，PBD 532、534、536和538可以动态地绑定、分组、解除绑定和取消分组。通信路径544可以包括一种或更多种类型的网络，例如包括互联网的WAN、LAN和/或PAN以及其他可能性。

在一个示例中，与NMD 512、514和516一样，CR 522和PBD 532、534、536和538也可以是一个或更多个“智能家居”系统的组件。在一种情况下，PBD 532、534、536和538可以与NMD 512、514和516分布在相同的家庭中。此外，如上面提到的，PBD 532、534、536和538中的一个或更多个可以是NMD 512、514和516中的一个或更多个。

NMD 512、514和516可以是局域网的一部分，并且通信路径542可以包括通过WAN(未示出的通信路径)将NMD 512、514和516的局域网链接至计算设备504的接入点。同样地，NMD 512、514和516中的每一个可以经由这样的接入点彼此通信。

类似地，CR 522和PBD 532、534、536和538可以是如先前部分中讨论的局域网和/或本地回放网络的一部分，并且通信路径544可以包括通过WAN将CR 522和PBD 532、534、536和538的局域网和/或本地回放网络链接至计算设备506的接入点。因此，CR 522和PBD532、534、536和538中的每一个也可以通过这样的接入点彼此进行通信。

在一个示例中，单个接入点可以包括通信路径542和通信路径544。在示例中，NMD512、514和516，CR 522以及PBD 532、534、536和538中的每一个可以经由用于家庭的相同接入点来访问云网络502。

如图5所示，NMD 512、514和516，CR 522以及PBD 532、534、536和538中的每一个还可以经由通信装置546直接与其他设备中的一个或更多个通信。如本文中描述的通信装置546可以涉及根据一个或更多个网络协议通过一种或更多种类型的网络的设备之间的一种或更多种形式的通信，以及/或者可以涉及经由一个或更多个其他网络设备的通信。例如，通信装置546可以包括例如Bluetooth^TM(IEEE 802.15)、NFC、无线直接(Wireless direct)和/或专有无线中的一个或更多个以及其他可能性。

在一个示例中，CR 522可以通过Bluetooth^TM与NMD 512通信，并且通过另一局域网与PBD 534通信。在另一示例中，NMD 514可以通过另一局域网与CR 522通信，并且通过蓝牙与PBD 536通信。在又一示例中，PBD 532、534、536和538中的每一个可以根据生成树协议通过本地回放网络彼此通信，同时各自通过不同于本地回放网络的局域网与CR 522通信。其他示例也是可行的。

在一些情况下，可以根据设备之间的通信的类型、网络状况和/或延迟要求来改变NMD 512、514和516，CR 522以及PBD 532、534、536和538之间的通信装置。例如，当NMD 516首次被引入具有PBD 532、534、536和538的家庭时，可以使用通信装置546。在一种情况下，NMD516可以经由NFC将与NMD 516相对应的标识信息发送至PBD 538，并且PBD 538作为响应可以经由NFC(或一些其他形式的通信)将局域网信息发送至NMD 516。然而，一旦在家庭内配置了NMD 516，NMD 516与PBD 538之间的通信装置可能会变化。例如，NMD 516可以随后经由通信路径542、云网络502和通信路径544与PBD 538通信。在另一示例中，NMD和PBD可能永远不会经由本地通信装置546进行通信。在又一示例中，NMD和PBD可以主要经由本地通信装置546进行通信。其他示例也是可行的。

在说明性示例中，NMD 512、514和516可以被配置成接收语音输入以控制PBD 532、534、536和538。可用的控制命令可以包括先前讨论的任何媒体回放系统控制，例如回放音量控制、回放传输控制、音乐源选择和分组，以及其他可能性。在一个实例中，NMD 512可以接收语音输入以控制PBD 532、534、536和538中的一个或更多个。响应于接收到语音输入，NMD 512可以经由通信路径542将语音输入发送至计算设备504以用于进行处理。在一个示例中，计算设备504可以将语音输入转换成等效文本命令，并解析文本命令以识别命令。然后，计算设备504可以随后将文本命令发送至计算设备506。在另一示例中，计算设备504可以将语音输入转换成等效文本命令，随后将文本命令发送至计算设备506。然后，计算设备506可以解析文本命令以识别一个或更多个回放命令。

例如，如果文本命令是“在“区1”中播放来自“流服务1”的“艺术家1”的“曲目1””，则计算设备506可以识别：(i)可从“流服务1”获得的“艺术家1”的“曲目1”的URL，以及(ii)“区1”中的至少一个回放设备。在该示例中，来自“流服务1”的“艺术家1”的“曲目1”的URL可以是指向计算设备508的URL，并且“区1”可以是绑定区530。因此，一旦识别了URL以及PBD536和PBD 538中的一个或两个，计算设备506可以经由通信路径544向PBD 536和PBD 538中的一个或两个发送所识别的URL以用于回放。PBD 536和PBD 538中的一个或两个可以响应地根据所接收的URL从计算设备508检索音频内容，并且开始播放来自“流服务”的“艺术家1”的“曲目1”。

本领域普通技术人员将理解的是，上文仅是一个说明性示例，并且其他实现也是可行的。在一种情况下，如上面描述的，由多个设备500中的一个或更多个执行的操作可以由多个设备500中的一个或更多个其他设备执行。例如，从语音输入到文本命令的转换可以替选地、部分地或完全由另外的设备——例如NMD 512、计算设备506、PBD 536和/或PBD538执行。类似地，URL的识别可以替选地、部分地或完全地由另外的设备例如NMD 512、计算设备504、PBD 536和/或PBD 538执行。

f.示例网络麦克风设备

图6示出了示例网络麦克风设备600的功能框图，示例网络麦克风设备600可以被配置为图5的NMD 512、514和516中的一个或更多个。如示出的，网络麦克风设备600包括：处理器602、存储器604、麦克风阵列606、网络接口608、用户接口610、软件组件612以及扬声器614。本领域普通技术人员将理解的是，其他网络麦克风设备配置和布置也是可行的。例如，网络麦克风设备可以替选地排除扬声器614，或者具有单个麦克风而不是麦克风阵列606。

处理器602可以包括一个或更多个处理器和/或控制器，其可以采用通用或专用处理器或控制器的形式。例如，处理单元602可以包括微处理器、微控制器、专用集成电路、数字信号处理器等。存储器604可以是可以加载有可由处理器602执行以执行那些功能的一个或更多个软件组件的数据存储装置。因此，存储器604可以包括一个或更多个非暂态计算机可读存储介质，其示例可以包括易失性存储介质如随机存取存储器、寄存器、高速缓存等，以及非易失性存储介质如只读存储器、硬盘驱动器、固态驱动器、闪存和/或光学存储设备，以及其他可能性。

麦克风阵列606可以是被布置成检测网络麦克风设备600的环境中的声音的多个麦克风。麦克风阵列606可以包括现在已知或以后开发的任何类型的麦克风，诸如电容式麦克风、驻极体电容式麦克风或动态麦克风，以及其他可能性。在一个示例中，麦克风阵列可以被布置成检测来自相对于网络麦克风设备的一个或更多个方向的音频。麦克风阵列606可以对频率范围的一部分敏感。在一个示例中，麦克风阵列606的第一子集可以对第一频率范围敏感，而麦克风阵列的第二子集可以对第二频率范围敏感。麦克风阵列606还可以被布置成捕获音频源(例如，语音、可听声音)的位置信息和/或帮助过滤背景噪声。值得注意的是，在一些实施方式中，麦克风阵列可以仅由单个麦克风组成，而不是由多个麦克风组成。

网络接口608可以被配置成促进各种网络设备——例如参照图5的云网络502中的CR 522、PBD 532至PBD 538、计算设备504至508和其他网络麦克风设备以及其他可能性——之间的无线通信和/或有线通信。因此，网络接口608可以采用用于执行这些功能的任何合适的形式，其示例可以包括以太网接口、串行总线接口(例如，FireWire、USB 2.0等)、芯片组和适于促进无线通信的天线和/或提供有线通信和/或无线通信的任何其他接口。在一个示例中，网络接口608可以基于行业标准(例如，包括IEEE 802.3的红外、无线电、有线标准，包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15的无线标准，4G移动通信标准等)。

网络麦克风设备600的用户接口610可以被配置成促进与网络麦克风设备的用户交互。在一个示例中，用户接口608可以包括物理按钮、在触敏屏幕和/或触敏表面上设置的图形接口以及其他可能性中的一个或更多个，以用于用户直接向网络麦克风设备600提供输入。用户接口610还可以包括灯和扬声器614中的一个或更多个，以向用户提供视觉和/或音频反馈。在一个示例中，网络麦克风设备600还可以被配置成经由扬声器614回放音频内容。

III.用于由多个NMD进行的语音检测的示例系统和方法

如上面讨论的，在一些示例中，计算设备可以促进并协调多个NMD的语音记录以确定语音命令。示例语音命令可以包括用以修改媒体回放系统控制或回放设置中的任何一个的命令。回放设置可以包括例如回放音量、回放传输控制、音乐源选择和分组以及其他可能性。其他语音命令可以包括用于调整电视控制或播放设置、移动电话设备设置或照明设备的操作以及其他设备操作。随着更多的家庭设备变得“智能”(例如，通过并入网络接口)，可以使用语音命令来控制这些家庭设备。

通常，应当理解的是，本文中描述的一个或更多个功能可以由计算设备单独执行，或者与媒体回放系统服务器、联网麦克风系统服务器、PBD532至PBD 538、NMD 512至NMD516、CR 522或本文中描述的任何其他设备结合来执行。可替选地，计算设备本身可以是媒体回放系统服务器、联网麦克风系统服务器、PBD 532至PBD 538之一、NMD 512至NMD 516之一、CR 522或本文中描述的任何其他设备。

图7中示出的实现700呈现了本文中描述的示例技术的实施方式。实现700可以在包括或涉及例如图1的媒体回放系统100、图2的一个或更多个回放设备200、图3的一个或更多个控制设备300、图4的用户接口和/或图5中示出的配置的操作环境内实现。实现700可以包括如通过框702至框706中的一个或更多个示出的一个或更多个操作、功能或动作。尽管以顺序次序示出了框，但是这些框也可以并行执行，和/或以与本文中描述的次序不同的次序执行。此外，可以基于期望的实现将各种框组合成更少的框、划分成额外的框以及/或者移除。

另外，对于本文中公开的实现700、其他处理和方法，该流程图示出了一些实施方式的一种可能实现的功能和操作。在这方面，每个框可以表示程序代码的模块、区段或一部分，其包括可以由处理器执行以用于实现该处理中的特定逻辑功能或步骤的一个或更多个指令。程序代码可以存储在任何类型的计算机可读介质上，例如，包括磁盘或硬盘驱动器的存储设备。计算机可读介质可以包括非暂态计算机可读介质，例如，短时间存储数据的有形、非暂态计算机可读介质，如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可以包括非暂态介质，例如二级或持久长期存储装置，例如只读存储器(ROM)、光盘或磁盘、致密盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其他易失性或非易失性存储系统。计算机可读介质可以被认为是例如计算机可读存储介质或有形存储设备。另外，对于本文中公开的实现700、其他处理和方法，图7中的每个框可以表示被连线以执行处理中的特定逻辑功能的电路。

a.接收语音记录集合

在框702处，实现700涉及接收语音记录集合。例如，计算设备例如计算设备506可以从一个或更多个NMD接收语音记录集合。在一些实施方式中，给定NMD可以具有一个或更多个麦克风以记录来自用户的语音输入或命令。例如，位于家庭的起居室中或附近的一个或更多个NMD可以记录来自位于起居室中的用户的语音输入。另外地，计算设备本身可以作为NMD操作并且包括一个或更多个麦克风以记录语音输入或命令。

在一些情况下，可能除了经由计算设备的麦克风接收语音记录之外，计算设备可以经由计算设备的网络接口接收语音记录。例如，计算设备可以从媒体回放系统服务器、联网麦克风系统服务器、PBD 532至PBD 538、NMD 512至NMD 516、CR 522或本文描述的任何其他设备传送和接收语音记录。在一些实施方式中，媒体回放系统服务器和/或联网麦克风系统服务器可以是基于云的服务器系统。处理NMD可以从这些设备和/或服务器中的任何一个或其组合接收语音记录。

NMD可以经由一个或更多个麦克风连续记录环境噪声(例如，收听语音输入)。可以将连续的记录存储在环形缓冲器或循环缓冲器中，其中，可以丢弃记录，除非需要该记录以用于处理和确定给定语音命令。缓冲器可以被本地存储以及/或者经由本文中描述的设备或服务器中的任何一个远程存储。

在其他实施方式中，一些NMD可能不会连续地记录环境噪声。确切地说，在一些实例中，一个或更多个NMD可以接收指示一个或更多个NMD“唤醒”并开始记录语音输入或命令的语音输入或指示。例如，计算设备506可以接收语音输入并且在本文中描述的某些情况下，向一个或更多个NMD发送用以开始记录的指示。在其他示例中，一个或更多个NMD可以接收触发一个或更多个NMD开始记录或收听语音命令的特定“唤醒词”(例如，“嗨Sonos”、“Siri”、“Alexa”)。

除了其他选择之外，NMD可以在检测到语音命令时或在被指示发送其记录时将其语音记录发送至计算设备。例如，NMD可以在登记该语音命令(例如，通过登记唤醒词之后的语音命令)之后，发送给定语音命令的语音记录。可替选地，另一NMD或其他设备可以登记语音命令并指示NMD将最近的记录发送至计算设备。

在其他示例中，计算设备可以从多个NMD接收语音记录中的仅一些。可以基于本文中进一步描述的各种标准将所选择的语音记录提供给计算设备。例如，在记录满足特定标准(例如，语音记录被登记为处于或高于阈值声压级)的情况下，给定NMD可以将其记录提供给计算设备。作为另一示例，另一设备可以登记语音命令，并且如果所登记的语音命令满足特定标准，则可以指示NMD将与语音命令相对应的最近记录发送至计算设备。

在示例中，在计算设备接收语音记录之前，来自多个NMD的语音记录可以被细化、处理和/或组合成单个语音输入。作为示例，媒体回放系统服务器可以从一个或更多个NMD例如512至516接收语音记录。在一些实施方式中，PBD 532至PBD 538可以被配置为NMD，并且媒体回放系统服务器可以从PBD 532至PBD 538接收语音记录。媒体回放系统可以细化、处理语音记录和/或将语音记录组合成单个语音输入并且将单个语音输入发送至计算设备以用于进一步处理。涉及本文中描述的设备和/或服务器的组合的其他示例是可行的。

在一些示例中，计算设备可以从多个NMD接收处于不同声压级的语音记录。例如，相对于远离用户的第二NMD，接近用户的第一NMD可以以用户语音命令的较高声压级语音记录来记录用户语音命令。作为另一示例，用户在提供语音命令时可能不是静止的(例如，用户可能从起居室向卧室移动)。在这样的实例中，第一NMD可能记录了用户语音命令的第一部分的较高声压级语音记录，并且第二NMD可能记录了用户语音命令的第二部分的较高声压级记录，这是由于用户在说出语音命令的同时的移动而引起的。

在一些情况下，多个NMD可能记录了用户语音输入的相同部分。例如，第一NMD和第二NMD可以彼此接近并且可以各自一直收听语音输入。在其他情况下，多个NMD可能记录了用户语音输入的不同部分(例如，记录的内容可能根本不重叠或可能在某种程度上重叠)。作为示例，第二NMD可能最初未收听语音输入或者用户可能没有在附近(或者可能在提供语音输入的同时移动至另一位置)。在第一NMD检测到语音命令的第一部分之后，第一NMD可以指示第二NMD开始记录，这可以使第二NMD检测语音命令的第二部分。可替选地，如上面提到的，第二NMD可以连续地进行记录，并且计算设备可以指示第二NMD将其记录中的与语音命令相对应的部分发送至计算设备。

如上面提到的，计算设备本身可以作为NMD操作。在一些情况下，计算设备可以登记语音命令并且可能指示其他NMD来记录语音命令。例如，计算设备可以经由计算设备的一个或更多个麦克风来记录给定语音命令的至少第一部分，并且使一个或更多个NMD记录给定语音命令的至少第二部分。

在一些实现中，给定NMD可以连续地记录环境噪声但可能仅在以下情况下将其记录提供给计算设备：给定NMD(1)本身被唤醒词或语音输入唤醒，或者(2)接收到来自另一NMD、设备或系统的用以将记录提供给计算设备的指令。例如，第一NMD可以连续地进行记录，并且在一些实例中，可以记录从用户接收的给定语音命令的至少一部分。第二NMD可以使第一NMD经由网络接口将语音记录发送至计算设备。在这样的示例中，对给定NMD的连续记录的特定部分的处理可以被触发，尽管给定NMD不一定登记远场语音输入本身。

为了说明，返回参照图1，用户可以在从主卧室区走向浴室区的同时说出特定语音命令。作为NMD操作的回放设备122(和/或回放设备124)可以通过在用户处于主卧室时讲出的唤醒词将用户语音登记为语音命令。回放设备122可以记录特定语音命令的第一部分。可以指示回放设备116、118和120发送其记录中的与回放设备122检测到语音命令的时间段相对应的一部分。鉴于在该示例中用户移动至浴室区，回放设备116可以检测特定语音命令的第二部分并且将该第二部分发送至计算设备，以用于与由回放设备122进行的特定语音命令的第一部分的记录一起处理。在该示例中，由回放设备116进行的记录被处理，尽管回放设备116未登记语音命令本身。

另外地或可替选地，可以记录环境噪声和/或给定语音命令的至少一部分的给定NMD可以从另一NMD、设备或系统接收到用以停止记录的指令。这样的实施方式可以防止对相同语音输入的重复或分开的处理，并且可以提供对语音记录的更快处理以确定给定语音命令。

在一些实现中，各种NMD可以被配置成联合操作，这可以影响将哪些记录发送至计算设备。例如，一些NMD可以包括回放设备功能(或者反之亦然)。如上面提到的，回放设备可以形成各种分组(例如，绑定区或区组，以及其他示例)。当组中的NMD检测到语音命令时，该NMD可以指示该组中的其他NMD将其与语音命令相对应的记录发送至计算设备。

例如，计算设备可以从第一NMD(例如，被配置为NMD的PBD)接收与给定语音命令的至少第一部分相对应的第一语音记录。在计算设备接收到第一语音记录时(或之后)，计算设备可以确定第一NMD和第二NMD是通常与其他回放设备同步播放媒体内容的配对设备(或者绑定的回放设备)。基于确定第一NMD和第二NMD是配对设备，计算设备可以使第二NMD记录并提供与给定语音命令的至少第二部分相对应的第二语音记录。在第二NMD连续地进行记录的一些实例中，计算设备可以使第二NMD将语音记录提供给计算设备。可替选地，计算设备可以使第二NMD停止记录以防止对相同语音输入的重复处理。

在其他示例中，计算设备可以从第一NMD(例如，配置为NMD的PBD)接收与给定语音命令的至少第一部分相对应的第一语音记录。在计算设备接收到第一语音记录时(或之后)，计算设备可以确定第一NMD和一个或更多个其他NMD是通常在回放区内同步地播放媒体内容的区组的一部分。在一些实例中，计算设备可以确定第一NMD和一个或更多个其他NMD是区场景的一部分(例如，位于家庭的第一层的回放设备，或者在工作日下午5点分组在一起的回放设备)。基于这样的确定，计算设备可以使一个或更多个其他NMD记录并提供与给定语音命令的至少第二部分相对应的第二语音记录。在一个或更多个其他NMD连续地进行记录的一些实例中，计算设备使一个或更多个其他NMD将语音记录提供给计算设备。可替选地，计算设备可以使一个或更多个其他NMD停止记录以防止对相同语音输入的重复处理。

在一些实施方式中，用户可以定义标识NMD(例如，被配置为NMD的PBD)集合的语音输入或命令，该NMD集合可以一起用作绑定设备、回放区和/或区场景以记录给定语音命令的一部分。在这样的实施方式中，计算设备可以接收标识被分组在一起作为绑定对、回放区或区场景的NMD集合的用户定义的命令。因此，计算设备可以使被分组在一起的一个或更多个NMD记录和/或提供给定语音命令的一部分。例如，用户可以定义“楼下”作为将家庭底部中的NMD集合标识为区场景的给定语音命令的部分。计算设备可以使所标识NMD中的作为底部区场景的一部分的一个或更多个NMD记录与给定语音命令相对应的用户的语音输入。

在其他实施方式中，在预定义的条件被触发时，计算设备可以使被分组在一起作为绑定对、回放区或区场景的NMD集合记录和/或提供给定语音命令。例如，仅在用户的命令是出于例如看电影或控制一个或更多个回放设置(例如，播放或暂停歌曲、播放下一首或前一首歌曲、调整音量等)的回放目的时，计算设备可以使作为区组的部分的NMD集合记录和/或提供给定语音命令的至少一部分。

在其他实施方式中，计算设备可以了解NMD集合通常被分组在一起作为区场景以联合操作(例如，同步地播放媒体内容)。这样的了解可以基于NMD的配置历史。例如，示例配置历史可以指示该NMD集合已经在多于阈值数目个实例上被分组在一起。如上面提到的，为了说明，这样的区场景可能包括位于房屋的给定层的NMD、在彼此附近收听的NMD、通常在特定时间(例如，周末聚会模式)或其他场景分组在一起的NMD。因此，响应于从特定区场景中的第一NMD接收到给定语音命令的一部分，计算设备可以使通常与第一NMD分组在一起的一个或更多个其他NMD记录给定语音命令的至少一部分和/或向计算设备提供给定语音命令的至少一部分。

在其他实施方式中，计算设备可以从第一NMD接收给定语音命令的至少一部分的第一语音记录，并且确定给定语音命令相对于第一NMD的定向或方向(例如，在记录语音命令时用户面对的相对方向)。基于给定语音命令相对于第一NMD的方向，计算设备(或任何其他设备/服务器)可以使第二NMD收听并记录表示给定语音命令的至少一部分的第二语音记录。

为了说明，返回参照图1，回放设备104可以检测来自浴室区与办公室区之间过道的方向的语音命令。鉴于语音命令的方向，可以指示回放设备116和/或回放设备118记录与语音命令相对应的记录和/或向计算设备发送该记录。

作为又一示例，仍然参照图1，用户可以从起居室朝主卧室移动。随着用户移动，起居室中的回放设备(例如，回放设备104)可以向卧室中的第二NMD发送这样的指示：第二NMD可以在预期用户的语音命令或输入时开始记录和/或预处理。例如，第一NMD可以向第二NMD发送以下指示：开始滤除人类语音的基频带(例如，85Hz-255Hz)之外的噪声。在其他实例中，可以将第二NMD中的一个或更多个麦克风操纵成朝向用户面对的方向(例如，卧室的入口)。可以基于如本文中进一步描述的确定给定语音命令相对于NMD的定向或方向来完成这样的示例实施方式。

在示例中，接收语音命令的媒体回放系统、计算设备和/或NMD可以确认提供语音命令的特定用户的身份以区别其他语音输入(例如，其他扬声器、电视等)。在一些实例中，媒体回放系统、计算设备和/或NMD可以基于存储在媒体回放系统和/或本文中描述的设备的一个或更多个组合中的用户简档或语音配置设置来识别特定用户。可以经由网络接口在设备中的任何设备之间共享用户简档信息。示例用户简档可以包括语音特征，语音特征包括特定用户的语音的音调或频率、年龄、性别和用户历史以及标识特定用户的其他信息。

在示例操作中，返回参照图1，用户可以在提供语音命令的同时从起居室朝主卧室移动。随着用户移动，起居室中的回放设备(例如，回放设备104)可以基于用户简档识别用户并且向卧室中的第二NMD发送第二NMD可以在预期用户语音命令或输入时开始记录和/或预处理的指示。知道了用户的身份，起居室中的回放设备104和卧室中的第二NMD可以区别来自附近电视的可能干扰用户语音命令的记录的语音输入。

在其他实例中，在特定位置处接收到用户的语音输入的一部分时，媒体回放系统、计算设备和/或NMD可以响应于确定了用户的语音特征来识别特定用户。作为示例，返回参照图1，男性用户可以处于可以具有一个或更多个NMD(例如，回放设备122、回放设备124)的主卧室中。在男性用户在主卧室附近或内部提供语音命令或输入时，一个或更多个NMD可以确认用户的身份并且确定用户的语音特征(例如，男性用户的语音的频率和音调)。随着用户从主卧室移动离开，主卧室中的一个或更多个NMD可以向位于附近其他生活空间(例如，浴室、起居室等)中的其他NMD发送该语音特征，并且指示其他NMD主动地收听与用户的语音特征相匹配的语音输入，以区别来自其他源(例如，电视、女性用户等)的语音输入。

在其他实例中，特定位置处的NMD可以接收这样的语音命令或输入，该语音命令或输入可以触发用于该NMD或任何一个或更多个其他NMD主动地收听额外的语音输入或命令的时段或窗口。在一些示例中，唤醒词或短语(例如，嗨Sonos)可以触发用于一个或更多个NMD主动地收听额外的语音输入或命令的时段或窗口。在其他示例中，接收语音输入的至少一部分的一个或更多个NMD可以触发用于一个或更多个其他NMD主动地收听额外的语音输入或命令的时段或窗口。在示例中，接收语音输入的至少一部分的一个或更多个NMD可以确认特定用户的身份，并且触发用于一个或更多个其他NMD主动地收听来自特定用户的额外的语音输入或命令的时段或窗口。

在一些实现中，时段或窗口可以在特定持续时间(例如，在一个或更多个NMD接收到初始语音输入之后一分钟)之后到期。在其他实现中，用户可以指定用于一个或更多个NMD接收额外语音输入或命令的时段或窗口。特别地，一个或更多个NMD可以接收语音命令(例如，“让我们用一会儿排队一些歌曲”)，该语音命令指定用于一个或更多个NMD主动地收听额外的语音输入(例如，用以将歌曲加入回放队列的语音输入)的时段或窗口(例如，一分钟)。在其他实现中，一个或更多个NMD可以在用于接收额外的语音输入的时段或窗口到期之前结束或终止这样的时段或窗口。通过引用在此并入的题为“Action based on UserID”的美国申请第15/131,776描述了另外的示例。

在一些实施方式中，可以基于语音输入或命令的频率响应来确定定向或方向。通常，在记录语音输入或命令的同时用户面对的NMD可能比用户未面对的NMD具有更大的高频分量。对这样的分量的分析可以向计算设备指示语音命令的方向性。例如，鉴于(1)表示多个NMD的相应麦克风的频率响应的数据以及(2)多个NMD的语音输入的单独的时间对准记录，计算设备可以使语音输入的相应记录的频率响应(例如，35Hz-22.05kHz)相对于低频带标准化。例如，可以使用第二NMD相对于人类语音的基频带(例如，85Hz-255Hz)来标准化从第一NMD记录的语音输入的频率响应。然后可以比较语音输入的标准化响应的高频分量以确定在记录语音命令的同时用户面对的方向。

在其他实施方式中，可以通过使用NMD的两个或更多个麦克风的已知极性响应的方差来确定语音输入的定向或方向。方差可以帮助确定用户(或语音输入)相对于与两个或更多个麦克风的平面垂直的NMD的角度。用户相对于NMD的角度可以帮助更精确地定位在记录语音输入的同时用户面向的方向，并且可以增加从特定方向或定向接收语音输入的额外置信度。可以通过同时测量每个麦克风处的语音输入的极性响应并将方差与已知的极性响应相匹配来识别这样的角度。

在其他实施方式中，可以通过测量跨其间具有已知距离的两个或更多个麦克风的延迟来确定用户相对于NMD的角度。另外的示例可以包括：视觉成像，测量跨两个或更多个麦克风或NMD的相对大小，NMD与另一个计算设备例如移动电话之间的蓝牙接近度检测，或者监视WiFi接收信号强度指示(RSSI)以检测用户接近度和/或位置。

b.识别语音记录子集

在框704处，实现700涉及识别语音记录子集。例如，计算设备(例如，计算设备506)可以在该语音记录集合中识别根据其来确定给定语音命令的语音记录子集。可替选地，计算设备可以使用从相应NMD接收的所有语音记录来确定给定语音命令。

在一些实例中，识别语音记录子集可以包括：除了计算设备之外的设备(例如，媒体回放服务器)本地或远程地(经由网络接口)确定语音记录子集并且向计算设备提供该子集。一些实现可以涉及：除了计算设备之外的设备或服务器的一个或更多个组合确定语音记录子集。

在一些实施方式中，计算设备可以通过将从NMD集合接收的语音记录与阈值声压级或阈值音量级进行比较来识别语音记录子集。阈值例如可以是绝对阈值例如量值，或者是可以根据语音记录的最高量值标准化的相对阈值。在一些实施方式中，计算设备可以将超过阈值水平的语音记录(或NMD)识别为语音记录(或NMD)子集以确定给定语音命令。在其他实施方式中，计算设备可以识别记录了给定语音命令中的处于最高声压级的至少一部分的预定数目个NMD(例如，三个NMD)以确定给定语音命令。以这种方式识别语音记录子集可以确保在细化和处理语音记录方面更大的精确度，并且能够实现更高质量的语音至文本转换以确定给定语音命令。

在其他实施方式中，计算设备可以基于各种规则和标准来识别NMD的语音记录。例如，可以将来自被分组在一起作为绑定对、回放区和/或区场景的NMD的语音记录识别为根据其来确定给定语音命令的语音记录子集。

在语音命令被用于回放目的时，以这种方式识别语音记录子集可以有用。例如，家庭的起居室和厨房中的NMD可以记录用户的语音命令的至少一部分。计算设备可以将起居室中的NMD的语音记录识别为根据其来确定给定语音命令的语音记录子集。在其他示例中，起居室中的NMD集合可以记录用户的语音命令的至少一部分。计算设备可以将起居室中的绑定在一起的一对NMD的语音记录识别为根据其来确定给定语音命令的语音记录子集。

在其他示例中，家庭的第一层和第二层的NMD集合可以记录用户的语音命令的至少一部分。计算设备可以将第一层的NMD的语音记录识别为根据其来确定给定语音命令的语音记录子集。在一些实例中，如上面描述的，计算设备可以将在预定数目个实例上通常被分组在一起作为区场景的NMD的语音记录识别为根据其来确定给定语音命令的语音记录子集。

在其他实施方式中，计算设备可以将在声学上耦合的NMD的两个或更多个语音记录识别为根据其来确定给定语音命令的语音记录子集。在一些实例中，计算设备可以使NMD确定其是否在声学上耦合至一个或更多个其他NMD。例如，计算设备可以使第一NMD播放或输出测试音调(或任何其他音频内容)并且可以使第二NMD经由第二NMD的一个或更多个麦克风来检测音调。计算设备可以将所检测的测试音调的量值与阈值声压级进行比较以确定第一NMD和第二NMD是否在声学上耦合。在其他示例中，第一NMD可以正在播放音频内容并且第二NMD可以经由一个或更多个麦克风登记音频内容。计算设备可以将所登记的音频内容的量值与阈值声压级进行比较以确定第一NMD和第二NMD是否在声学上耦合。基于两个或更多个NMD的声耦合，计算设备可以将这样的NMD识别为根据其来确定给定语音命令的子集。

c.使所识别的语音记录子集被分析以确定给定语音命令

在框706处，实现700涉及使所识别的语音记录子集被分析以确定给定语音命令。例如，计算设备例如计算设备506可以使语音记录子集被分析以确定给定语音命令。

在一些情况下，计算设备本身可以分析语音记录子集。可替选地，本文中描述的设备或服务器中的任何一个或其组合可以使所识别的语音记录子集被分析以确定给定语音命令，这可以由连接设备的一个或更多个网络(例如，连接装置546)促进。

在一些示例中，计算设备可以通过与NMD通信来使所识别的语音记录子集被分析。计算设备可以将所识别的记录发送至NMD，并且NMD可以确定并执行语音命令。在示例中，计算设备可以根据所识别的语音记录子集来确定给定语音命令，并且将所确定的语音命令发送至NMD以执行语音命令。涉及本文中描述的设备或服务器中的一个或其组合的其他示例是可行的。

在一些实施方式中，计算设备可以通过处理并细化所识别的语音记录子集来使所识别的语音记录子集被分析以确定给定语音命令。可替选地，计算设备可以处理所识别的语音记录子集，而无细化。然而，对所识别的记录进行细化能够实现更高质量的语音至文本的转换。在一些实现中，可以在识别语音记录子集之前细化语音记录子集。例如，计算设备506可以接收语音记录集合并且在识别语音记录子集之前本地或远程地细化该语音记录。在其他示例中，在计算设备(例如计算设备506)接收该语音记录集合之前，可以由设备或服务器的一个或更多个组合来细化该语音记录集合。计算设备可以从所接收的该细化的语音记录集合中识别语音记录子集。

计算设备可以对所识别的语音记录子集进行时间对准。对语音记录进行时间对准可以防止对给定语音命令的冗余或重复的部分的处理。例如，第一NMD和第二NMD可能在给定时间处记录了给定语音命令的至少一部分。第一NMD可能在第二NMD可能一直在记录的给定时间处记录了一些重叠部分。因此，计算设备可以对来自第一NMD和第二NMD的语音记录进行时间对准，并且根据本文中描述的各种标准来细化或去除语音记录的重叠部分。

在一些示例中，计算设备可以采用所识别的语音记录子集的量值加权平均值。具有较高量值(例如，较高声压级)的语音记录的相应部分可以被赋予较高权重，并且更可能被处理以确定给定语音命令。

在其他示例中，计算设备可以通过确定所识别的语音记录子集的平均值来组合记录。可以根据相应NMD的麦克风的质量和/或数量对这样的平均值进行加权。一些NMD可以具有多个麦克风并且一些NMD可以比其他NMD具有更好质量的麦克风。因此，计算设备可以基于这样的因素来确定所识别的语音记录子集的量值加权平均值。

计算设备可以“切割(chop)”所识别的语音记录子集并且将它们拼接在一起。例如，如上面提到的，用户可以在提供给定语音命令的同时从家庭的起居室向卧室移动。基于确定相应NMD的所识别的语音记录子集的相对定向或方向，计算设备可以使用来自起居室的所识别的语音记录子集作为根据其来确定给定语音命令的第一部分，并且使用来自卧室的所识别的语音记录子集作为根据其来确定给定语音命令的第二部分。

IV.结论

除了别的以外，上面的描述公开了各种示例系统、方法、装置和包括在硬件上执行的固件和/或软件以及其他组件的制品。应该理解的是，这样的示例仅仅是说明性的，并且不应被认为是限制性的。例如，可以设想的是，固件、硬件和/或软件方面或组件中的任何一个或全部可以专门以硬件、专门以软件、专门以固件或者以硬件、软件和/或固件的任意组合来实现。因此，所提供的示例不是实现这样的系统、方法、装置和/或制品的唯一方式。

(特征1)一种方法，包括：(i)经由计算设备接收语音记录集合，其中，经由联网麦克风设备(NMD)集合中的相应NMD来检测该语音记录集合中的每个语音记录；(ii)经由计算设备从该语音记录集合中识别语音记录子集，其中根据该语音记录子集来确定给定语音命令；以及(iii)使所识别的语音记录子集被分析以确定给定语音命令。

(特征2)根据特征1所述的方法，其中，接收语音记录集合：经由计算设备的网络接口来接收表示给定语音命令的至少第一部分的第一语音记录，其中，从该NMD集合中的第一NMD记录第一语音记录，并且其中，第二NMD使第一NMD将第一语音记录发送至计算设备。

(特征3)根据特征1所述的方法，其中，接收语音记录集合包括：(i)经由计算设备的麦克风来接收表示给定语音命令的至少第一部分的第一语音记录；以及(ii)使该NMD集合中的第二NMD记录表示给定语音命令的至少第二部分的第二语音输入。

(特征4)根据特征1所述的方法，其中，接收语音记录集合包括：接收经由该NMD集合中的第一NMD检测到的第一语音记录，以及接收经由该NMD集合中的第二NMD检测到的第二语音记录，并且其中，识别根据其来确定给定语音命令的语音记录子集包括：(i)确定第一语音记录和第二语音记录超过阈值声压级，其中，第一语音记录和第二语音记录各自表示给定语音命令的至少一部分；以及(ii)将第一语音记录和第二语音记录识别为根据其来确定给定语音命令的语音记录子集。

(特征5)根据特征1所述的方法，其中，接收语音记录集合包括：(i)接收经由该NMD集合中的第一NMD检测到的第一语音记录以及接收经由该NMD集合中的第二NMD检测到的第二语音记录；(ii)确定第一语音记录表示给定语音命令的第一部分；以及(iii)确定第二语音记录表示给定语音命令的第二部分，其中，第二部分至少部分地与第一部分不同。

(特征6)根据特征1所述的方法，其中，接收语音记录集合包括：接收处于相应声压级的语音记录集合，并且其中，识别根据其来确定给定语音命令的语音记录子集包括：将来自预定数目个NMD的语音记录识别为语音记录子集，所述预定数目个NMD检测到给定语音命令中的处于相应声压级中的最高声压级的至少一部分。

(特征7)根据特征1所述的方法，其中，接收语音记录集合包括：(i)接收经由该NMD集合中的第一NMD检测到的第一语音记录，其中，第一语音记录表示给定语音命令的至少第一部分；(ii)确定第一语音记录是在相对于第一NMD的给定方向上记录的；以及(iii)使该NMD集合中的第二NMD在给定方向上记录第二语音记录，其中，第二语音记录表示给定语音命令的至少第二部分。

(特征8)根据特征1所述的方法，其中，接收语音记录集合包括：(i)接收经由该NMD集合中的第一NMD检测到的第一语音记录，其中，第一语音记录表示给定语音命令的至少第一部分；(ii)确定该NMD集合中的第一NMD和第二NMD被布置为绑定区以回放多声道媒体内容的相应声道；以及(iii)使第二NMD记录第二语音记录，其中，第二语音记录表示给定语音命令的至少第二部分。

(特征9)根据特征8所述的方法，其中，识别根据其来确定给定语音命令的语音记录子集包括：将第一语音记录和第二语音记录识别为根据其来确定给定语音命令的语音记录子集。

(特征10)根据特征1所述的方法，其中，接收语音记录集合包括：(i)接收经由该NMD集合中的第一NMD检测到的第一语音记录，其中，第一语音记录表示给定语音命令的至少第一部分；(ii)确定该NMD集合中的第一NMD和第二NMD被结合成区组以同步地回放媒体内容；以及(iii)使第二NMD记录第二语音记录，其中，第二语音记录表示给定语音命令的至少第二部分。

(特征11)根据特征10所述的方法，其中，识别根据其来确定给定语音命令的语音记录子集包括：使所识别的语音输入集合被处理成给定语音命令包括将第一语音记录和第二语音记录识别为根据其来确定给定语音命令的语音记录子集。

(特征12)根据特征1所述的方法，其中，该NMD集合中的两个或更多个特定NMD包括媒体回放系统的相应区，并且其中，识别根据其来确定给定语音命令的语音记录子集包括：(i)确定相应区被布置成以预定布置同步地回放媒体的区的区场景；以及(ii)将经由两个或更多个特定NMD检测到的语音记录识别为根据其来确定给定语音命令的该语音记录集合。

(特征13)根据特征1所述的方法，其中，该NMD集合中的第一NMD和第二NMD分别包括媒体回放系统的第一区和第二区，并且其中，识别根据其来确定给定语音命令的语音记录子集包括：(i)基于第一区和第二区的配置历史来确定第一区和第二区在多于阈值数目个实例上被布置成区场景，其中，第一区和第二区被配置成在被布置成区场景时同步地回放媒体；以及(iii)将经由第一NMD和第二NMD检测到的语音记录识别为根据其来确定给定语音命令的语音记录子集。

(特征14)根据特征1所述的方法，其中，识别根据其来确定给定语音命令的语音记录子集包括：(i)确定该NMD集合中的两个或更多个特定NMD在声学上耦合；以及(ii)将经由两个或更多个特定NMD检测到的语音输入识别为根据其来确定给定语音命令的语音记录子集。

(特征15)根据特征14所述的方法，其中，确定该NMD集合中的两个或更多个特定NMD在声学上耦合包括：(i)使两个或更多个特定NMD中的第一NMD输出给定声音；(ii)使两个或更多个特定NMD中的第二NMD检测给定声音；以及(iii)确定所检测的给定声音超过阈值声压级。

(特征16)一种编码有指令的有形非暂态计算机可读介质，其中，指令在由一个或更多个处理器执行时使计算设备执行包括以下操作的方法：(i)接收语音记录集合，其中，经由联网麦克风设备(NMD)集合中的相应NMD来检测该语音记录集合中的每个语音记录；(ii)从该语音记录集合中识别语音记录子集，其中根据该语音记录子集来确定给定语音命令；以及(iii)使所识别的语音记录子集被分析以确定给定语音命令。

(特征17)根据特征16所述的有形非暂态计算机可读介质，其中，接收语音记录集合包括：接收经由该NMD集合中的第一NMD检测到的第一语音记录以及接收经由该NMD集合中的第二NMD检测到的第二语音记录，并且其中，识别根据其来确定给定语音命令的语音记录子集包括：(i)确定第一语音记录和第二语音记录超过阈值声压级，其中，第一语音记录和第二语音记录各自表示给定语音命令的至少一部分；以及(ii)将第一语音记录和第二语音记录识别为根据其来确定给定语音命令的语音记录子集。

(特征18)根据特征16所述的有形非暂态计算机可读介质，其中，接收语音记录集合包括：(i)接收经由该NMD集合中的第一NMD检测到的第一语音记录以及接收经由该NMD集合中的第二NMD检测到的第二语音记录；(ii)确定第一语音记录表示给定语音命令的第一部分；以及(iii)确定第二语音记录表示给定语音命令的第二部分，其中，第二部分至少部分地与第一部分不同。

(特征19)一种计算设备，包括：(i)网络接口；(ii)一个或更多个处理器；以及(iii)编码有指令的计算机可读介质，其中，指令在由一个或更多个处理器执行时使计算设备执行包括以下功能的功能：(a)接收语音记录集合，其中，经由联网麦克风设备(NMD)集合中的相应NMD来检测该语音记录集合中的每个语音记录；(b)从该语音记录集合中识别语音记录子集，其中根据该语音记录子集来确定给定语音命令；以及(c)使所识别的语音记录子集被分析以确定给定语音命令。

(特征20)根据特征19所述的计算设备，其中，接收语音记录集合包括：(i)接收经由该NMD集合中的第一NMD检测到的第一语音记录以及接收经由该NMD集合中的第二NMD检测到的第二语音记录；(ii)确定第一语音记录表示给定语音命令的第一部分；以及(iii)确定第二语音记录表示给定语音命令的第二部分，其中，第二部分至少部分地与第一部分不同。

另外，本文对“实施方式”的提及意指：结合该实施方式所描述的特定特征、结构或特性可以包括在本发明的至少一个示例实施方式中。该短语在说明书中的各个地方的出现不一定都指代同一实施方式，也不是与其他实施方式相互排斥的单独或替选的实施方式。同样地，本领域技术人员明确地和隐含地理解的本文中描述的实施方式可以与其他实施方式进行组合。

主要从说明性环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦接至网络的数据处理设备的操作相类似的其他象征性表示的方面，提出本说明书。本领域技术人员通常使用这些处理描述和表示来向本领域其他技术人员最有效地传达他们的工作内容。阐述了许多具体细节，以提供对本公开内容的透彻理解。然而，本领域技术人员应当理解的是，可以在没有某些具体细节的情况下实践本公开内容的某些实施方式。在其他实例中，没有详细描述熟知的方法、过程、组件和电路，以避免不必要地使实施方式的各方面模糊。因此，本公开内容的范围由所附权利要求而不是对实施方式的前述描述来限定。

当所附权利要求中的任意权利要求被理解为涵盖纯软件和/或固件实现时，在此将至少一个示例中的至少一个元素明确限定为包括存储软件和/或固件的有形非暂态介质，如存储器、DVD、CD、蓝光等。

Claims

1.一种用于计算设备的方法，所述方法包括：

接收包括至少第一语音记录和第二语音记录的语音记录集合，其中，经由相应联网麦克风设备NMD来检测所述集合中的每个语音记录；

从所述语音记录集合中识别语音记录子集，其中，根据所述语音记录子集来确定给定语音命令；以及

使所识别的语音记录子集被分析以确定所述给定语音命令，

其中，经由第一NMD检测所述第一语音记录，并且所述第一语音记录表示所述给定语音命令的至少第一部分；并且

所述方法还包括：

确定所述第一NMD和第二NMD被布置为以下之一：

用以回放多声道媒体内容的相应声道的绑定区；以及

用以同步地回放媒体内容的区组；以及

使所述第二NMD记录第二语音记录，其中，所述第二语音记录表示所述给定语音命令的至少第二部分。

2.根据权利要求1所述的方法，其中：

经由所述计算设备的网络接口从第一NMD接收所述第一语音记录，并且

第二NMD使所述第一NMD向所述计算设备发送所述第一语音记录。

3.根据权利要求1所述的方法，其中：

经由所述计算设备的麦克风接收所述第一语音记录，其中，所述计算设备是NMD，

所述第一语音记录表示所述给定语音命令的至少第一部分；并且

所述方法还包括：使第二NMD记录表示所述给定语音命令的至少第二部分的第二语音输入。

4.根据权利要求1至3中的任意一项所述的方法，其中：

在确定所述第一语音记录和所述第二语音记录超过阈值声压级时，将所述第一语音记录和所述第二语音记录识别为所述语音记录子集的部分；并且

分别由第一NMD和第二NMD来检测所述第一语音记录和所述第二语音记录，并且所述第一语音记录和所述第二语音记录各自表示所述给定语音命令的至少一部分。

5.根据权利要求1至3中的任意一项所述的方法，

还包括：确定所述第一语音记录和所述第二语音记录分别表示所述给定语音命令的第一部分和第二部分；其中：

所述第二部分至少部分地不同于所述第一部分；

分别经由第一NMD和第二NMD来检测所述第一语音记录和所述第二语音记录。

6.根据权利要求1至3中的任意一项所述的方法，其中：

所述语音记录集合中的每个语音记录包括相应声压级；并且

将来自检测到所述给定语音命令中的处于所述相应声压级中的最高声压级的至少一部分的预定数目个NMD的语音记录识别为所述子集的部分。

7.根据权利要求1至3中的任意一项所述的方法，其中：

经由第一NMD检测所述第一语音记录，并且所述第一语音记录表示所述给定语音命令的至少第一部分；并且

所述方法还包括：

确定所述第一语音记录是在相对于所述第一NMD的给定方向上记录的；以及

使第二NMD在所述给定方向上记录第二语音记录，其中，所述第二语音记录表示所述给定语音命令的至少第二部分。

8.根据权利要求7所述的方法，其中，将所述第一语音记录和所述第二语音记录识别为所述语音记录子集的部分。

9.根据权利要求1至3中的任意一项所述的方法，其中：

两个或更多个NMD与媒体回放系统的相应区相对应；

所述方法还包括：确定所述相应区被布置成以预定布置同步地回放媒体的区的区场景；并且

将经由与所述媒体回放系统的相应区相对应的所述两个或更多个NMD检测到的语音记录识别为所述语音记录子集的部分。

10.根据权利要求1至3中的任意一项所述的方法，其中：

第一NMD和第二NMD分别与媒体回放系统的第一区和第二区相对应，

所述方法还包括：基于所述第一区和所述第二区的配置历史来确定所述第一区和所述第二区在多于阈值数目个实例上被布置成这样的区场景，在所述区场景中所述第一区和所述第二区被配置成同步地回放媒体；以及

将经由所述第一NMD和所述第二NMD检测到的语音记录识别为所述语音记录子集的部分。

11.根据权利要求1至3中的任意一项所述的方法，

还包括：确定NMD集合中的两个或更多个NMD在声学上耦合，

其中，将经由在声学上耦合的所述两个或更多个NMD检测到的语音输入识别为所述语音记录子集的部分。

12.根据权利要求11所述的方法，其中，确定所述NMD集合中的所述两个或更多个NMD在声学上耦合包括：

使所述两个或更多个NMD中的第一NMD输出给定声音；

使所述两个或更多个NMD中的第二NMD检测所述给定声音；以及

确定所检测的所述给定声音超过阈值声压级。

13.一种编码有指令的有形非暂态计算机可读介质，其中，所述指令在由一个或更多个处理器执行时使计算设备执行根据权利要求1至12之一所述的方法。

14.一种计算设备，包括：

网络接口；以及

一个或更多个处理器，其被配置成执行根据权利要求1至12之一所述的方法。