CN111344780A

CN111344780A - 基于上下文的设备仲裁

Info

Publication number: CN111344780A
Application number: CN201880056464.0A
Authority: CN
Inventors: J·怀特; L·拉金德兰; R·K·雷切孔达; V·S·切鲁库里; D·U·沙; M·霍拉桑尼; V·K·莫汉那姆
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2017-08-30
Filing date: 2018-08-20
Publication date: 2020-06-26
Also published as: US10546583B2; US20200211554A1; WO2019046026A1; US11289087B2; US20190066670A1; US20220215837A1; EP3676828A1

Abstract

本公开部分描述了基于上下文的设备仲裁技术，以从多个语音使能设备中选择一个语音使能设备，为包括在用户语音发声中的命令提供响应。在一些示例中，所述上下文驱动的仲裁技术可包括确定语音使能设备的排序表，所述语音使能设备的排序是基于各语音使能设备生成的音频信号的音频信号指标值进行的，并可迭代地遍历所述排序表，以基于所述语音使能设备的设备状态确定，是否所述语音使能设备之一能够执行响应所述命令的动作。如果检测到所述语音发声的语音使能设备不能执行响应所述命令的动作，可分析与账户关联的所有其他语音使能设备，以确定是否所述其他语音使能设备之一能够执行响应所述语音发声中的命令的动作。

Description

基于上下文的设备仲裁

相关申请交叉引用

本申请主张于2017年8月30日提交的、名称为“基于上下文的设备仲裁”、申请号为15/691,460的美国专利申请的优先权。上述美国专利申请的全部内容通过引用结合在本文中。

背景技术

随着计算设备的能力不断发展，用户可以通过众多不同的方式与计算设备进行交互，例如通过机械设备(如键盘、鼠标等)、触屏、动作和手势等。现在，台式机、平板电脑、娱乐系统和可携式通信设备等许多计算设备能够接受声音命令并对此做出回应。在某些情况下，用户附近可能会放有多个此类语音使能计算设备，以便各语音使能计算设备监测用户发出的语音命令。各语音使能计算设备均可监测并处理该语音命令，以便为用户执行所述任务。由此造成多个语音使能设备为用户执行同样的任务，最终导致不好的用户体验。

附图说明

下面将结合附图进行详细描述。在所述附图中，参考标号的最左位数字表明该参考标号首次出现的附图。不同附图中的相同参考标号代表相似或相同的物件。附图中示出的系统未按比例绘制，且附图中的部件彼此之间也可能未按比例绘制。

图1为一种示例环境的示意图。在该示例性环境中，用户发出语音发声，多个语音使能设备检测到该语音发声，一个语音处理系统进行仲裁，以确定哪个语音使能设备响应该语音发声。

图2为一种语音使能设备的示例架构框图，该语音使能设备生成音频信号和元数据，并将该音频信号和元数据发送至语音处理系统。

图3为一种由语音使能设备向语音处理系统提供音频信号和元数据的示例方法的流程图。

图4A为一种语音处理系统的示例架构框图，该语音处理系统从语音使能设备接收音频信号和音频信号指标值，并进行仲裁，以确定哪个语音使能设备将对该音频信号所代表的用户的语音发声作出响应。

图4B为一种语音处理系统的示例架构框图，该语音处理系统包括命令处理器，该命令处理器用于做出哪个语音使能设备将对用户语音发声作出响应的决定。

图5为一种根据各语音使能设备所采集的音频信号的各种音频信号指标值，对检测到用户语音发声的语音使能设备进行排序的示例方法的流程图。

图6A和6B为一种由语音处理系统为多个语音使能设备进行仲裁，以确定哪个语音使能设备将对用户语音发声作出响应的示例方法的流程图。

具体实施方式

随着语音使能计算设备(或被称为“语音使能设备”)的广泛使用，用户能够通过语音与更多的计算设备进行交互。例如，用户可通过语音发声向语音使能设备发布命令，以执行打开/关闭电器、串流音乐、打电话等操作。因为这些语音使能设备的有效性，用户经常在其家中等环境里放有多个设备。尽管有了多个语音使能设备，用户在家中各处都可发出包括命令的语音发声，进而提高用户满意度，但在多个语音使能设备彼此靠近，比如在同一房间或隔壁房间内的情况下，各语音使能设备均可接收到用户的发声，且各语音使能设备均可独立地试图处理该用户的发声，并作出响应，如同有两次分开的发声。在一些示例中，可通过使用非常有限的数据类型，从所述多个语音使能设备中选出一个语音使能设备，对发声作出响应。例如，可通过分析和比较代表所述语音发声的、由各语音使能设备生成的音频信号的不同音频信号指标(metric)值，比如各语音使能设备生成的各音频信号的信号幅度或信噪比，进而选择语音使能设备。

本公开至少部分描述了使用上下文信息进行设备仲裁的技术，以从多个语音使能设备中选择最合适的语音使能设备，从而执行响应于包含在所述语音发声中的命令的动作。在一些示例中，用于选择语音使能设备以响应语音发声的所述仲裁技术可由不同类型的上下文信息驱动。例如，所述上下文信息可包括与所述多个语音使能设备检测到的所述语音发声相关联的信息(如信噪比、用户与各语音使能设备的接近度、发出所述发声的用户的意图等等)、所述语音发声的意图、当前设备状态(如打电话、输出闹铃声等等)，或其他类型的上下文信息。

为执行上下文驱动的设备仲裁，语音使能设备经常配置有传感器和部件，以收集不同类型的数据或元数据，所述数据或元数据可被用于选择语音使能设备，以执行响应于用户语音发声的操作。例如，所述语音使能设备可各自包括麦克风，所述麦克风用于生成代表所述用户发出的语音发声的音频信号。所述语音使能设备可配置有部件以确定不同类型的音频信号指标值，所述音频信号指标值表明音频信号的特征，比如信噪比、频谱质心量值、语音能量水平、频谱通量、特定百分位频率、明确、和谐度、音频信号中检测到的声音存在水平、所述音频信号的幅度，等等。

在一些示例中，所述语音使能设备的部件可被用于确定所述语音使能设备在所述语音发声被发出时的“设备状态”(如设备状态数据)。设备状态一般可对应于当所述语音发声被发出时，所述语音使能设备正在进行的活动。例如，设备状态可包括语音使能设备在打电话、串流音乐、发出闹铃(如厨房计时器)，等等。相应地，语音使能设备可配置有各种传感器和部件，以生成代表语音发声的音频信号和采集元数据，该元数据提供当检测到所述语音发声时，围绕所述语音使能设备的上下文。

尽管语音使能设备可执行一些类型的预处理，但语音使能设备经常可具备较少的功能。例如，语音使能设备可具有由电池供电的设备，所述电池供电的设备仅用于作为远程服务器或系统和用户之间的界面。这样，所述仲裁技术涉及的更深度的处理可通过远程服务的大量资源执行，由此可延长语音使能设备的电池寿命。例如，尽管语音使能设备可配置有用于确定部分或全部本文所述音频信号指标值的部件，一些示例中的语音使能设备可将所述音频信号转至语音处理系统，该语音处理系统对所述音频信号运用处理技术，以确定部分或全部的所述音频信号指标值。

由此，在一些示例中，部分或全部的所述仲裁技术可由语音处理系统(如“基于云的服务”、“软件即服务(SaaS)”、“网络可访问平台”等)执行，该语音处理系统从所述语音使能设备接收数据。各语音使能设备均可通过互联网等通信网络访问该语音处理系统，以便为该语音处理系统提供所采集的音频信号和由所述语音使能设备检测或确定的各种类型的上下文信息。在不同的示例中，所述语音使能设备可接收“唤醒”触发(如唤醒词、按键输入等)，该“唤醒”触发向所述语音使能设备表示，用户正在说出命令，所述语音使能设备则开始向所述基于网络的语音服务串流代表所说出命令的元数据、音频信号指标值及音频信号。

如上所述，所述语音处理系统可包括在多个语音使能设备间进行设备仲裁，以选择一个特定语音使能设备响应语音发声的一个或多个部件。例如，仲裁部件可运用各种技术，在检测和/或采集到用户语音发声的多个语音使能设备间进行仲裁。在一些示例中，所述仲裁部件可从各语音使能设备接收音频信号指标值(如信噪比)，基于该音频信号指标值对所述语音使能设备进行排序，并基于该排序选择语音使能设备，以执行响应于包含在所述语音发声中的命令的动作。通过使用从各语音使能设备接收的音频信号的音频信号指标值，所述仲裁部件可选择最接近用户的设备或用户说话朝向的设备。但是，在一些示例中，基于最靠近用户的设备选择响应用户命令的语音使能设备可能导致选择一个不合适的设备来响应该命令。例如，用户可能在起居室通过起居室里的语音使能设备串流音频，而厨房里的语音使能设备可开始输出闹铃声。如果用户发出“请停止”的语音命令以停止该闹铃声，所述语音处理系统的仲裁部件可能使得起居室的语音使能设备停止串流音频，而用户却是意图让厨房里的语音使能设备停止输出闹铃声。

在一些示例中，所述语音处理系统可使用额外的上下文数据确定响应语音发声中的命令的设备。例如，所述语音处理系统的编排部件可调用所述语音处理系统的自动语音识别(ASR)部件，使用自动语音识别处理从语音使能设备接收的一个或多个音频信号，以生成代表所述语音发声的文本数据。另外，所述编排部件可调用自然语言理解(NLU)部件，使用自然语言理解处理代表所述语音发声的文本数据，以确定用户在所述语音发声中表达的意图(如意图数据)。例如，如果用户发出“请停止”的命令，该NLU部件可确定用户的意图为使得某一语音使能设备停止执行某一任务(如打电话、串流音频、发出闹铃等)。

另外，所述语音处理系统可使用各语音使能设备的设备状态等上下文数据确定响应所述语音发声中的命令的设备。所述语音处理系统可以是与用户和/或家庭账户关联的语音使能设备跟踪并维护设备状态指示。例如，当用户请求所述语音处理系统在厨房语音使能设备上设闹钟时，所述语音处理系统可在接收到所述请求时，储存该厨房语音使能设备具有正在计时的闹钟的指示。又如，如果用户请求起居室语音使能设备连至用户电话并打电话，则所述语音处理系统可储存该起居室语音使能设备正在打电话的指示，直至接收到结束该电话的命令。

在各种示例中，所述语音处理系统的定向部件可基于所述各种上下文数据，确定与发出语音发声中的命令的用户账户关联的哪个语音使能设备将响应该命令。所述定向部件可接收和/或识别上下文数据，所述上下文数据包括，但不限于，(i)由所述仲裁部件基于一个或多个音频信号指标值对检测到所述语音发声的语音使能设备进行排序的排序表，(ii)用户在所述语音发声中表达的意图(如意图数据)，和(iii)与用户账户关联的语音使能设备的设备状态。为确定哪个语音使能设备将响应语音发声中的命令，所述语音处理系统的定向部件可使用一条或多条规则迭代分析各语音使能设备。

在一些示例中，所述定向部件可运用第一规则，先确定所述排序表中排名最高的语音使能设备(“源设备”)是否能够响应语音发声中的命令。所述定向部件可分析所述语音发声中表达的意图及设备状态，以确定所述源设备是否能够响应语音发声中的命令。例如，如果所述语音发声是“请停止”，则所述意图可映射至能够“停止”其设备状态的设备状态，如串流音频、打电话、发出闹铃等的设备状态。通过运用第一规则，如果所述语音发声的意图映射至源设备的设备状态，或与源设备的设备状态“相关”，所述定向部件可确定，源设备能够对所述命令作出响应，并选择该源设备为将响应语音发声中的命令的语音使能设备(“目标设备”)。

或者，如果所述语音发声中表达的意图没有映射至源设备的设备状态，所述定向部件可运用第二规则确定源设备是否为某一设备“设备集群”中的一部分，该设备集群具有所述意图映射至的设备状态或具有所述意图以其他方式对应的设备状态。设备集群可对应于经同步以共同执行相同动作的一组语音使能设备的虚拟表示或指示。例如，所述设备集群可包括多个语音使能设备和/或二级设备，其以统一方式输出相同音频流，使得被各语音使能设备输出的对应于相同音频内容的不同音频流彼此同步。所述设备集群可被储存为虚拟表示，这样，对所述定向部件而言，集群中的所有语音使能设备显得是一个单个设备。相应地，按照与第一规则相似的方式，所述定向部件可确定所述设备集群是否能够响应语音发声中的命令。如果所述语音发声的意图映射至所述设备集群的设备状态，或与所述设备集群的设备状态“相关”，所述定向部件可确定所述设备集群能够对所述命令作出响应，并选择所述设备集群为目标设备。

或者，如果所述定向部件确定源设备没有被包括在设备集群中，或如果包括源设备的设备集群不能够响应语音发声中的命令，所述定向部件可运用第三规则确定源设备是否与能够响应所述命令的二级设备关联。如本文所述，二级设备可包括被语音使能设备控制或以其他方式与语音使能设备关联的设备。一般地，二级设备不是语音使能的。例如，二级设备的类型可包括，但不限于，电视、灯、车库门、门锁、温控器、废物搅碎机等。根据第三规则，如果所述定向部件确定源设备与二级设备关联，所述定向部件可根据第三规则确定所述意图是否映射至所述二级设备的设备状态。如果所述定向部件确定所述二级设备能够响应所述命令，所述定向部件可选择源设备为目标设备。例如，如果源设备与二级设备关联，比如基于用户的语音命令控制电视，且所述命令为“下一个频道”，所述定向部件可选择源设备为目标设备，因为源设备所关联的二级设备能够执行语音发声中的命令。

但是，如果源设备没有与二级设备关联，或者如果源设备所关联的二级设备不能够执行该命令，所述定向部件可确定源设备不是目标设备。确定源设备不是目标设备后，所述定向部件可迭代地运用上述规则确定排序表中指示的其他语音使能设备是否为目标设备。所述定向部件可遍历设备排序表，以确定检测到所述语音发声的语音使能设备中任一设备是否为目标设备。

在一些示例中，所述定向部件可确定检测到所述语音发声的语音使能设备排序表中不包含目标设备。在此情况下，所述定向部件可识别未检测到所述语音发声的、与用户和/或家庭账户关联的所有其他语音使能设备。然后，所述定向部件可确定所述语音发声中表达的意图是否映射至所述其余语音使能设备中的任一设备，或以其它方式与所述其余语音使能设备中的任一设备关联。如果所述意图映射至某一语音使能设备的设备状态，所述定向部件可选择该语音使能设备为目标设备。但是，如果所述其他语音使能设备中没有任何设备能够响应所述命令，所述定向部件可指定源设备为目标设备。

因此，本文所述技术包括运用不同规则分析上下文数据，以确定哪个语音使能设备被意图用于和/或能够响应用户语音发声中发出的命令。

一旦所述定向部件确定了目标设备，所述定向部件可向命令处理器提供目标设备的指示。所述命令处理器可使用所述意图和目标设备的指示确定针对所处理的语音发声的响应。例如，所述命令处理器可与用于确定针对所处理询问的响应的一个或多个speechlet结合，确定为用户的请求提供服务的相关信息位置，和/或如果未生成该等信息，则生成并存储该等信息，以及将所识别的意图传送至合适的目的地命令处理器。可基于通过NLU确定的意图确定所述目的地命令处理器。例如，如果所述NLU输出包括播放音乐的命令(播放音乐的意图)，则目的地命令处理器可以是音乐播放应用程序，如位于目标语音使能设备上或音乐播放电器内的音乐播放应用程序，该音乐播放应用程序用于执行播放音乐的命令。然后，所述命令处理器则可使得所确定的命令被发送至所述目标设备，进而使得所述目标设备执行针对该命令的合适响应。

通过上述技术(下面将结合附图，对上述技术进行更详细的说明)，语音处理系统可为语音使能设备分析音频信号及额外的上下文元数据，并运用技术从多个语音使能设备中选择合适的语音使能设备，以响应语音发声。根据传统技术，选择某一语音使能设备的原因可以是因为与检测到语音发声的其他语音使能设备相比，该语音使能设备处检测到的所述语音发声更响。但是，如果不使用与各语音使能设备关联的上下文及所述语音发声，有可能不会选择最佳或至少较佳的语音使能设备来响应所述语音发声。例如，如果用户位于具有卧室设备的卧室里，而某一厨房设备开始输出闹铃声，则当用户发布命令关闭该闹铃时，按传统技术，所述卧室设备会被选中，因为所述卧室设备生成的音频信号幅度大于所述厨房设备。然而，如果运用本文所述技术，则分析围绕语音使能设备的上下文和语音发声，以进行设备仲裁，从而确定哪个语音使能设备最适合对所述语音发声作出响应。由此，本文所述的技术可解决多个语音使能设备尽管位于不同的房间，但这里同样的唤醒词和随后的语音命令，并试图对该语音命令作出独立的处理和响应的问题。例如，所述语音命令的意图、听到所述发声的各语音使能设备的设备状态及由仲裁部件提供的所述语音使能设备的排序指示可全部被组合用于从多个语音使能设备中选择一个语音使能设备，以响应所述语音命令。

在一些示例中，一种或多种上述处理可并行实施，以减少等待时间。例如，可并行分析多个语音使能设备，以确定所述设备是否适合成为目标设备。另外，可并行运用一条或多条规则(如相关设备规则、集群设备规则、二级设备关联规则等)分析某一语音使能设备。

下面将结合附图更完整地描述本公开的特定实施方式和实施例，并示出本公开的不同方面。但是，所述不同方面可通过很多不同形式实施，不可理解为仅限于本文所述的实施方式。如本文所述，本公开包括所述实施例的各种变化。在本文全文中，相似的数字代表相似的元件。

示例架构

图1为一种示例环境102的示意图100。在该示例性环境中，用户104发出语音发声106，一个或多个语音使能设备108(1)-(N)(总称为“语音使能设备108”)检测到语音发声106，一个语音处理系统110具有各种部件，以确定哪个语音使能设备108响应该语音发声106。语音使能设备108(N)还可与电视等二级设备112关联。语音使能设备108(N)可与二级设备112无线连接(如蓝牙、ZigBee等)，且语音使能设备108(N)可通过经语音处理系统110处理的语音发声106控制二级设备112的操作。

语音处理系统110可处理从语音使能设备108接收的音频信号，并准备对用户106的响应，同时确定哪个语音使能设备108将执行响应于语音发声106中的命令的动作。语音处理系统110可实现为一个或多个计算设备，包括一个或多个服务器、台式电脑、笔记本电脑等。在一个示例中，语音处理系统110被配置在服务器集群、服务器场、数据中心、大型机、云计算环境或其组合中。作为示例，语音处理系统110可包括任意数目的作为提供储存、计算、联网等服务的分布式计算资源(如云计算、托管计算等)运行的设备。

在一些示例中，语音使能设备108可各自具有一个或多个用于采集语音发声106等用户语音的麦克风，及一个或多个用于播放语音(如对话)和内容的扬声器。在一些实施例中，语音使能设备108可设计为在固定位置运行，而在其他实施例中，语音使能设备108可设计为便携式或移动式。例如，语音使能设备108可包括手持设备或其他移动设备，如智能手机、平板电脑、媒体播放器、个人电脑、可穿戴设备、各种配件等。

如在环境102中所示，用户104与语音使能设备108通过语音发声106交互。例如，语音使能设备108可通过语音发声106从用户104接收口头命令，并提供响应于该命令的服务。在一些示例中，语音使能设备108可检测预定义触发表达或词(如“唤醒”)，其后可跟随有指令或指示(如“请结束我的电话”、“请关闭闹铃”等)。语音使能设备108与语音处理系统110共同提供的服务可包括执行动作或活动、渲染媒体、获得和/或提供信息、通过经语音使能设备108生成或合成的语音提供信息、代表用户104发起基于互联网的服务等。

语音使能设备108可通过一个或多个麦克风接收或采集对应于用户的语音发声106的声音。在特定实施方式中，语音发声106可包括或在其前有用户104说出的唤醒词或其他触发表达或事件，表示随后的用户语音旨在由语音使能设备108和/或语音处理系统110接收并对其执行动作。语音使能设备108可检测该唤醒词，并开始向语音处理系统110串流音频信号。在一些示例中，语音使能设备108可以低功能模式运行，并使用ASR处理分析声音。当使用ASR检测到唤醒词时，语音使能设备108可开始向语音处理系统110串流音频信号和其他数据。唤醒词可以是被语音使能设备108在本地检测到的保留关键词，比如通过使用表达检测器，运用ASR技术分析语音使能设备108的麦克风生成的音频信号，检测所述唤醒词，而所述唤醒词一般可以是预定义词、短语或其他声音。例如，该表达检测器可运用关键词识别技术实现。关键词识别器可以是评估音频信号以检测该音频信号中是否存在预定义词或表达的功能部件或算法。关键词识别器生成真/假输出，以表明该音频信号中是否表示所述预定义词或表达，而不是生成所述语音中词语的文字记录。

在特定实施例中，语音使能设备108的表达检测器可用于分析音频信号，产生指示该音频信号中表示所述唤醒词的可能性的分值。然后，表达检测器将该分值与阈值比较，以确定唤醒词是否被宣布为已被说出。例如，ASR技术可包括运用隐马尔可夫模型(HMM)识别器，该识别器对音频信号进行声学建模，并将音频信号的HMM模型与为特定触发表达的、通过训练而建立的一个或多个参考HMM模型比较。

在环境102中所示的示例中，用户104在唤醒词后发出被语音使能设备108(1)和108(2)各自检测或采集到的语音发声106。但是，语音使能设备108(N)可能没有检测到该语音发声。语音使能设备108(1)和108(2)各自生成代表语音发声106的音频信号114。在一些示例中，音频信号114可代表会触发响应的其他声音，比如玻璃破碎、电器发出嘀嘀的声音、烟雾报警器发声、婴儿啼哭等。另外，语音使能设备108(1)和108(2)可各自确定不同的音频信号指标值116(1)和116(2)(总称为“音频信号指标值116”)，或确定与语音发声106关联的额外的元数据，和/或涉及语音使能设备108(1)和108(2)的情况。

作为一个示例，语音使能设备108(1)可位于用户104正前方的桌子上，语音使能设备108(2)位于用户104所在房间另一侧的桌子上，而语音使能设备108(N)位于用户104后面的桌子上。在这种情况下，语音使能设备108(1)和108(2)各自检测到语音发声106，但语音使能设备108(N)没有检测到语音发声106。其中，语音使能设备108(1)和108(2)均可通过发送在各语音使能设备108处确定的音频信号114和各音频信号114的音频信号指标值116，从而发起与语音处理系统110的通讯，以处理所述语音输入。一般地，各音频信号指标值116可指示相关联的音频信号114的一个特征，比如信噪比、频谱质心量值、语音能量水平、频谱通量、特定百分位频率、明确、和谐度、音频信号中检测到的声音存在水平、所述音频信号的幅度，等等。如图1所示，语音使能设备108(1)和108(2)可向语音处理系统110各自发送音频信号114(1)和114(2)，及音频信号指标值116(1)和116(2)。

在一些示例中，一个或多个语音使能设备108还可确定和/或生成额外的元数据，并向语音处理系统110发送额外的元数据，其可被用于确定哪个设备108将响应语音发声106中的命令。例如，元数据类型可包括接近数据，比如用户104相对于各语音使能设备108的物理接近度，和时间接近度，比如各语音使能设备108检测到语音发声106的时间。元数据还可包括指示语音使能设备108的设备状态的快照。所述快照可包括指示在语音使能设备108检测到语音发声106之前、当时和/或之后，语音使能设备108的当前活动或操作的设备状态。例如，语音使能设备108的设备状态可包括打电话、输出闹铃声、串流音频(如音乐、有声书等)、与用户104对话、执行网上搜索、控制房屋中的电器，或语音使能设备108可用于执行的任何其他类型的活动。一般地，当因为语音使能设备108(2)上的闹铃响而输出闹铃声时，所述快照可代表语音使能设备108(2)的状态。相反地，语音使能设备108(1)的设备状态快照表明，设备108(1)除了串流音频信号114(1)外，不处于任何活动状态。

当106检测到语音发声时，可把设备状态的快照发送至语音处理系统110，但在其他示例中，语音处理系统110也可保存设备状态的指示，而不是在每次接收音频信号114时接收这些设备状态。例如，语音处理系统110可接收用户104设置闹铃的指示，并知道闹铃响的时间。由此，一旦闹铃响，语音处理系统110可以早已保存设备状态，且每次检测到语音发声106时，不接收快照。相似地，可在语音使能设备108(1)和/或108(2)采集到语音发声106前，把部分或全部元数据储存在语音处理系统110中。

在各种示例中，可通过一个或多个网络118，把音频信号114和音频信号指标值116发送至语音处理系统110。所述一个或多个网络118可包括任何可行的通信技术，如有线和/或无线模式和/或技术。网络118可包括个人局域网(PAN)、局域网(LAN)、园域网(CAN)、城域网(MAN)、外联网、内联网、互联网、短距离无线通信网络(如ZigBee、蓝牙等)、集中式和/或分布式广域网(WAN)，和/或其任何组合、排列和/或聚合的任何组合。

在一些示例中，语音处理系统110可包括一个或多个处理器120和保存各种部件以确定哪个语音使能设备108将响应语音发声106中的命令的计算机可读介质122。例如，计算机可读介质122可包括调用自动语音识别(ASR)部件126或与自动语音识别(ASR)部件126通信的编排部件124，及用于处理一个或多个音频信号114的自然语言理解(NLU)部件128。例如，编排部件124可向ASR部件126串流音频信号114，ASR部件126检测语音发声106的结束点并向语音发声106发送消息，以结束音频信号114的串流。在一些示例中，语音处理系统110的ASR部件126可处理所述一个或多个音频信号114，以在确定对应于语音发声106的文本数据。在一些示例中，ASR部件126可生成代表所述文本数据的特定词集与语音发声106中说出的词匹配的可能性的ASR置信度分值。例如，ASR部件126可确定与声音匹配的特定词被包括在句子中特定位置的置信度或可能性(如，通过一个语言或语法模型)。由此，语音发声106的各种可能的文本解释与一个ASR置信度分值关联。然后，ASR部件126可将所述文本数据返回至编排部件124。尽管如图所示，在语音使能设备108处确定音频信号指标值116，在其他示例中，一些或全部音频信号指标值116可由ASR部件126、仲裁部件130和/或NLU部件128等语音处理系统110的部件确定。

在各种示例中，可从编排部件124发送对应于语音发声106的文本数据至NLU部件128，由NLU部件128分析或处理该文本数据，以确定用户104在语音发声106中表达的意图。例如，如果用户104发出命令，“请关闭闹铃”，NLU部件128可确定，用户的意图是使正在输出闹铃声的语音使能设备108(2)关闭闹铃。一旦NLU部件128确定了该意图，编排部件124可将该意图发给定向部件134，以便使用该意图确定哪个语音使能设备108将响应语音发声106。在一些示例中，ASY部件126和/或NLU部件128可检测音频信号114中除了语音发声106之外或与语音发声106结合的各种类型的声音。例如，ASR部件126和NLU部件128可检测玻璃破碎、电器发出嘀嘀的声音、烟雾报警器发声、婴儿啼哭和/或其他声音，而不是包括在音频信号114中的语音发声106，这些声音可能映射至一种由语音处理系统110执行的意图和/或动作。

在各种示例中，计算机可读介质122还储存有仲裁部件130，仲裁部件130可基于音频信号指标值116对检测到语音发声106的语音使能设备108进行排序，并生成设备排序表132。所述仲裁部件可使用各种音频信号指标值116对语音使能设备108进行排序，比如信噪比、频谱质心量值、语音能量水平、频谱通量、特定百分位频率、周期性、清晰度、和谐度，等等。例如，与语音使能设备108(2)生成的音频信号114(2)的音频信号指标值116(2)相比，语音使能设备108(1)的音频信号指标值116(1)可较高或对应于较佳的音频信号114(1)。这可表示，用户104在发出语音发声106时，面对语音使能设备108(1)，或者表示，用户104在发出语音发声106时，离语音使能设备108(1)比离语音使能设备108(2)近。仲裁部件130可根据音频信号指标值116对语音使能设备108进行排序。例如，如果语音使能设备108(1)关联的信噪比值比语音使能设备108(2)关联的信噪比值高，则第一语音使能设备108(1)的排名可高于(朝排序表的顶部方向)语音使能设备108(2)。

又如，仲裁部件130可基于多个音频信号指标值116(如不同类型的音频信号指标值)对各语音使能设备108进行排序。作为示例，可根据语音使能设备108的信噪比值和该语音使能设备108的频谱质心量值，对该语音使能设备108进行排序。在一些示例中，不同类型的音频信号指标值116可具有不同的权重。在一些示例中，仲裁部件130可基于经加权的音频信号指标值116对语音使能设备108进行排序。作为示例，对于某一语音使能设备108的音频信号114，该语音使能设备108可选择与最佳音频信号指标值116(如，最大/最高音频信号指标值，或在一些示例中，最小/最低音频信号指标值)关联的音频信号114。对于语音使能设备108的音频信号114，最佳音频信号指标值116可由最佳音频信号指标值116(如，最大/最高音频信号指标值116)和最差音频信号指标值116(如，最小/最低音频信号指标值)之间的差值(方差)加权。可将该经加权的音频信号指标值116发送至服务提供商102，对多个语音使能设备108进行排序。完成确定设备排序表132后，仲裁部件可把设备排序表132提供或发送给定向部件134。

在各种示例中，编排部件124可传送NLU部件128确定的意图，并将该意图传送给定向部件134。定向部件134可确定哪个语音使能设备108将响应语音发声106或执行响应语音发声106的动作。定向部件134可使用NLU部件128确定的意图、各语音使能设备108的设备状态、设备排序表132以及可能还有其他数据，确定哪个语音使能设备108将执行对语音发声108的响应。如上所述，定向部件134可迭代地遍历设备排序表132，并运用各种规则确定是否有一台语音使能设备108能够执行对语音发声的响应。例如，语音使能设备108(1)为设备排序表132中排名最高的设备或源设备，定向部件134分析语音发声106中表达的意图以及语音使能设备108(1)的设备状态，以确定语音使能设备108(1)是否能够响应语音发声中的命令。例如，如果语音发声106是“请停止”，该意图可映射至能够“停止”其设备状态的设备状态，比如串流音频、打电话、输出闹铃声等设备状态。运用第一规则，如果语音发声的意图映射至源设备的设备状态，或与源设备的设备状态“相关”，所述定向部件可确定，源设备能够对所述命令作出响应，并选择该源设备为将响应语音发声中的命令的语音使能设备(“目标设备”)。

如果语音发声106中表达的意图没有映射至语音使能设备108(1)的设备状态，定向部件134可运用下一条规则，确定语音使能设备108(1)是否为某一设备集群中的一部分，该设备集群具有所述意图映射至的设备状态或具有所述意图以其他方式对应的设备状态。在一些示例中，定向部件可分析用户注册表134，以基于设备指示138确定语音使能设备108(1)是否为某一设备集群中的一部分。如果定向部件134确定语音发声106的意图映射至该设备集群的设备状态，或与该设备集群的设备状态“相关”，定向部件可确定该设备集群能够执行对所述命令的响应，并选择该设备集群为目标设备。用户注册表134可为不同的用户和/或家庭账户保存虚拟设备集群的指示。

或者，如果定向部件134确定语音使能设备108(1)没有被包括在设备集群中，或如果包括语音使能设备108(1)的设备集群不能够响应语音发声中的命令，定向部件134可运用第三规则确定源设备是否与能够响应所述命令的二级设备112关联。

如果定向部件134确定语音使能设备108(1)没有与二级设备112关联，或者如果语音使能设备108(1)所关联的二级设备112不能够执行该命令，定向部件134可确定语音使能设备108(1)不是目标设备。确定源设备不是目标设备后，定向部件134可迭代地运用上述规则确定排序表132中指示的其他语音使能设备108(2)是否为目标设备。定向部件134可遍历设备排序表，以确定检测到语音发声106的语音使能设备108中任一设备是否为目标设备。

在一些示例中，定向部件134可确定目标设备没有被包括在检测到语音发声106的语音使能设备108的排序表132中。在这种情况下，定向部件134可通过用户注册表136识别未检测到语音发声106的、与用户和/或家庭账户关联的所有其他语音使能设备108，比如语音使能设备108(N)。然后，定向部件134可确定语音发声106中表达的意图是否映射至所述其余语音使能设备108(N)中的任一设备，或以其它方式与所述其余语音使能设备108(N)中的任一设备关联。如果所述意图映射至语音使能设备108(N)的设备状态，定向部件134可选择语音使能设备108(N)为目标设备。例如，定向部件134可确定语音使能设备108(N)与二级设备112关联或控制二级设备112。如果所述意图表明语音发声106中的命令是“改变频道”的命令，二级设备112是电视，则定向部件134可确定所述意图映射至二级设备112的设备状态。例如，设备指示138可表明，二级设备112的当前设备状态是，所述电视正在某一频道播放视频，并表明，所述电视能够执行“改变频道”的命令。在此情况下，所述定向部件可选择语音使能设备108(N)为目标设备，并向命令处理器140提供所述意图的指示，以及语音使能设备108(N)是目标设备的指示。

命令处理器140可包括一个或多个域speechlet，其确定并生成由语音使能设备108(N)执行的响应。在一些示例中，命令处理器140可传送被识别的意图至合适的speechlet。例如，所述speechlet可以是基于各种意图作出响应的专门软件、网域和/或设备，比如音乐域(如，亚马逊音乐、Pandora、Spotify等)、视频域(如，亚马逊视频、HBO、Netflix、Hulu等)、家用组织域(如，日历、提醒、计时器、闹铃等)，及其他类型的域。例如，某一意图可包括播放音乐的命令(播放音乐意图)，命令处理器140可将该意图传送至用于执行播放音乐命令的音乐域speechlet中。

一旦命令处理器140生成命令，命令处理器140可向语音使能设备108(N)提供响应148中的命令，使得二级设备112改变频道。

本文所述动作是相对于环境102中的三台语音使能设备108而执行的。但是，可以相同的方式使用和处理任意数目的语音使能设备108，其中执行的所述规则和处理是可扩展的，以容纳额外的语音使能设备108。如上所述，语音使能设备108根本不需要检测所述语音发声，但依然被选择执行响应148。例如，远程语音使能设备108可位于不同于用户104所在房间的另一房间内，且没有检测到语音发声106。例如，该远程语音使能设备108可输出闹铃声，或者打电话。虽然用户104和远程语音使能设备108不在同一房间，但用户104可指令另一语音使能设备108关闭闹铃，或挂断电话。尽管没有检测到语音发声106且没有发送音频信号114，该远程语音使能设备108依然可被选择执行响应148。

示例语音使能设备

图2为一种语音使能设备的示例架构框图，比如图1所示的语音使能设备108之一。该语音使能设备生成音频信号和元数据，并将该音频信号和元数据发送至语音处理系统。在一些示例中，所述元数据可包括各种音频信号指标值。

所述语音使能设备包括一个或多个处理器200、一个或多个扬声器202，和一个或多个麦克风204。处理器200可包括中央处理器(CPU)、图形处理器(GPU)、微处理器、数字信号处理器等。尽管没有图示，语音使能设备108还可包括一个或多个输入/输出设备(如，鼠标、键盘等)、一个或多个显示屏(如，触摸屏、液晶显示器(LCD)、发光二极管(LED)显示屏、有机LED显示屏、等离子显示屏、电子纸显示屏等)、一个或多个传感器(如，加速度计、磁力计等)、一个或多个灯，等等。可使用任意数目的语音使能设备108的部件，从用户接收输入和/或输出响应。

尽管语音使能设备108如图示具有一个或多个内置扬声器202，但在其他实施例中，语音使能设备108也可以不包括扬声器202。例如，语音使能设备108可包括麦克风设备，用户对该麦克风设备说话，以发布命令，或者语音使能设备108可包括用于连接至电视等另一电器的设备。这样的实施例可以使用其他设备的扬声器功能，而不是集成扬声器202，所述其他设备包括的确具有扬声器的其他语音使能设备及不同类型的专用扬声器部件。例如，语音使能设备108可生成驱动外部扬声器的音频输出信号。又如，语音使能设备108可通过蓝牙连接等无线数据连接驱动或控制外部扬声器的音频输出信号。在其他情况下，语音使能设备108可与从语音处理系统110，而不是从该语音使能设备108接收音频信号和其他指令的扬声器设备共同使用。在这种情况下，可以向例如扬声器设备，而不是向该语音使能设备108提供图1所示的响应148。

麦克风204可包括用于接收声音的传感器(如转换器)。麦克风204可为音频输入(如声音)生成输入信号。例如，麦克风204可针对用户的发声确定数字输入信号。在一些示例中，麦克风204实现为一个阵列。所述阵列可被布置为一个几何图案，比如线性几何形状、圆形几何形状，或任何其他配置。例如，对于一个给定点，四个传感器的阵列可按90度的增量(如，0、90、180、270)布置成圆形图案，从四个方向接收声音。麦克风204可以是平面布置，或在一个非平面的三维区域分开设置。在一些实施方式中，麦克风204可包括空间上不同的进行数据通讯的传感器阵列。例如，可包括联网的传感器阵列。麦克风204可包括全向麦克风、定向麦克风(如枪型麦克风)等等。

在一些示例中，麦克风204和扬声器202促进与用户104的对话等交互。麦克风204生成音频信号，以代表来自语音使能设备108的环境的声音，这用户104的语音发声106。麦克风204生成的音频信号可包括定向音频信号或可被用于生成定向音频信号，其中各定向音频信号着重于来自相对麦克风204的一个不同径向方向的音频。

语音使能设备108的处理器200可被耦合至语音使能设备108的部件，使得语音使能设备108执行各种动作或操作。在一些示例中，语音使能设备108可包括一个或多个接近检测设备206，比如相机、测距设备，或用于确定相对语音使能设备108的用户104的部分的其他传感器，并生成相应的接近或距离数据。所述接近或距离数据可被当作用于仲裁的元数据使用。

语音使能设备108还可包括为用户104的环境102成像的成像设备208。例如，当检测到唤醒词或其他唤醒事件时，语音使能设备108可使用成像设备208采集图像数据。所述成像设备可包括相机、热成像设备，或采集环境102的图像的任何其他类型的成像设备208。成像设备208可生成图像数据，其则可相应地被当作用于仲裁的元数据使用。

语音使能设备108可包括计算机可读介质210。计算机可读介质210可被用于储存任意数目的可被处理器200执行的软件部件。储存在计算机可读介质210中的软件部件可包括操作系统212，所述操作系统用于管理位于语音使能设备108内并与之耦合的硬件和服务。另外，计算机可读介质210储存的可执行部件可包括音频处理部件214，该部件用于使用麦克风204生成音频信号。音频处理部件214可包括处理麦克风204生成的音频信号的功能性，和/或输出所提供的音频信号至扬声器202。例如，音频处理部件214可包括声学回声消除或抑制部件216，该部件用于减少麦克风204和扬声器202之间的声学耦合产生的声学回声。音频处理部件214还可包括噪声减少部件218，该部件减少接收到的音频信号中的噪声，比如用户语音之外的麦克风语音信号要素。

音频处理部件214可包括一个或多个音频波束成型器或波束成型部件220，用于生成聚焦于不同方向的定向音频信号。更具体地，波束成型部件220可响应于来自空间分开的麦克风204的麦克风要素，生成定向音频信号，所述定向音频信号着重于源自语音使能设备108的环境的不同区域的声音，或源自相对语音使能设备108的不同方向的声音。在一些情况下，波束成型部件220可生成可被用于仲裁的音频信号指标值。例如，波束成型部件220可指示对应于各定向音频信号的声音活动水平的信号强度。

储存在计算机可读介质210中并被处理器200执行的可执行部件可包括唤醒词检测部件222，用于监控一个或多个定向音频信号，以检测触发表达的系统的用户发声。如上所述，例如，可使用关键词识别技术实施唤醒词检测。

软件部件还可包括声音活动检测部件224，用于监控波束成型部件220生成的定向音频信号中的声音存在水平。声音存在水平可被用作是音频信号指标值，以用于仲裁。在一些示例中，所述声音活动可包括语音发声106的信号强度指示及环境102中的环境噪声指示。例如，所述声音活动可为音频信号114中的语音发声106的信号强度与音频信号114中的环境噪声的比率。

语音使能设备108的软件部件还可包括声源定位(SSL)部件224，可被用于确定用户104离语音使能设备108的距离。SSL部件224用于分析所接收到的声音在麦克风204的各麦克风处的到达时间差别，以便确定所接收到的声音的起源位置。例如，SSL部件224可使用到达时间差(TDOA)技术，确定声音源的位置或方向。所确定的位置可被用作音频信号指标值，以用于执行本文所述的仲裁。

语音使能设备108还具有未图示的各种硬件部件，比如通信部件、电源部件、I/O部件、信号处理部件指示器、控制按钮、放大器等。例如，当用户104按下设备108上的一个按钮时，作为响应，语音使能设备108开始聆听，而不是接收一个“唤醒词”来唤醒。

语音使能设备102可具有一个或多个网络接口228，比如无线或Wi-Fi网络通信接口、以太网通信接口、蜂窝网络通信接口、蓝牙通信接口等，用于与语音处理系统110通过各种类型的网络118通信，所述网络包括广域网、局域网、私用网、公用网等。对于无线通信接口，此类接口可包括无线电收发器，及用于执行合适通信协议的相关联控制电路和逻辑。

在一些示例中，音频信号指标部件226可为波束成型部件220提供的多个音频信号114(如波束成型的音频信号)中的每一个信号，确定一个音频信号指标值。在一些实施例中，基于波束成型的音频信号的多幅帧其中之一的样本，确定每个音频信号指标值。例如，可对多个波束成型的音频信号中的每一个信号，确定多幅帧的信噪比。

可对多个波束成型的音频信号中的每一个信号的各帧，确定音频信号指标值f，得到形式为f(n)(k)的数字阵列：

{f(1)(k),f(2)(k),...,f(N)(k)}

这里，“k”是时间指数，“n”是对应于第n个波束成型的音频信号的音频流指数(或观测方向指数)。

音频信号指标值可包括信噪比(SNR)、音频信号114中的声音存在水平、频谱质心量值(如频谱质心峰值)、语音能量水平(如4Hz调制能量)、频谱通量、特定百分位频率(如第90百分位数频率)、周期性、清晰度、和谐度，等等。频谱质心量值通常提供频谱形心质量的量值。频谱通量通常提供频谱改变率的量值。特定百分位频率通常基于最小频率间隔，提供至少覆盖总功率的特定百分位(如90％)的量值。周期性通常提供可用于嘈杂环境中基音检测的量值。清晰度通常提供对说话片段具有较高值，对背景噪声具有较低值的量值。和谐度通常是对说话片段提供较高值，对背景噪声提供较低值的另一量值。语音能量水平(如4Hz调制能量)通常为语音提供因说话速率而具有较高值的量值。在其他实施例中，可确定任何另一音频信号指标值，所述另一音频信号指标值为在一个短暂时间窗口内(如，通常不超过一帧)的原始波束成型信号数据的某个函数。在一些示例中，可基于波束成型音频信号的多幅帧的样本，确定音频信号指标值。另外，在一些示例中，音频信号指标值可被称为信号特征。

在一些实施方式中，音频信号指标值可根据下表定义：

在一些示例中，音频信号指标部件228可为特定波束成型音频信号确定一个音频信号指标值。例如，可为一个波束成型音频信号确定与特定观测方向关联的SNR值。又如，可为多个波束成型音频信号确定一个音频信号指标值。例如，对于为一个语音使能设备确定的多个波束成型音频信号，可确定一个平均音频信号指标值，比如该语音使能设备的任意数目的波束成型音频信号的平均SNR值。

尽管本文中讨论了各种处理技术和音频信号指标值，但可使用语音使能设备108的部件确定任何其他类型的音频信号指标值。

图3为一种由语音使能设备108向语音处理系统110提供音频信号114和音频信号指标值116的示例方法300的流程图。在302，语音使能设备108可使用麦克风204检测到包括语音发声(如语音发声106)的声音。方法300的操作或步骤的描述顺序不应被解释为限制，且任意数目的所述操作可按任何顺序和/或并行组合，以执行方法300。例如，当语音发声在302被检测到并被采集的同时，可以持续执行波束成型的步骤304。另外，其他步骤可按任何顺序执行。

在304，语音使能设备可通过波束成型部件220执行波束成型。所述波束成型可包括音频波束成型，以生成多个定向音频信号，其中各音频信号着重于来自相对于语音使能设备108的一个不同方向的声音。语音使能设备108可通过到达时间差(TDOA)技术，执行波束成型304，比如，使用成对的麦克风204，延迟来自一个麦克风204的信号，所述延迟时间等于声音经过麦克风204之间距离所需时间，由此着重于与所述两个麦克风保持一致的声源。可以按这种方式使用不同对的麦克风204，以获得多个音频信号，各个音频信号对应于一个不同的方向。

在306，语音使能设备可通过声音活动检测(VAD)确定声音活动，以检测所述定向音频信号中是否存在声音。当检测到一个定向音频信号中有声音存在时，针对该定向音频信号执行随后的动作。在一些实施例中，针对具有最高声音存在的定向音频信号，执行图3的随后动作。在一些示例中，所述声音活动可包括语音发声106的信号强度指示及环境102中的环境噪声指示。例如，所述声音活动可为音频信号114中的语音发声106的信号强度与音频信号114中的环境噪声的比率。

VAD通过分析音频信号的一部分，评估该音频信号的特征，比如信号能量和频率分布，进而确定该音频信号中的声音存在水平。所述特征经量化，并与对应于已知包含人类语音的参考信号的参考特征比较。所述比较生成一个对应于音频信号的特征和参考特征间相似度的分值。所述分值被用于指示测得的或可能的该音频信号中的语音存在水平。

在308，语音使能设备108可通过对其中检测到声音活动的定向音频信号，或对其中检测到最高声音活动水平的定向音频信号执行唤醒词检测，由此检测到一个唤醒词。如上所述，可把预定义词、表达或其他声音用作一个信号，表明用户旨在由语音使能设备108接收随后语音并对其采取动作。

在所描述的实施例中，例如，所述唤醒词检测可通过关键词识别技术完成。关键词识别器可以是评估音频信号以检测该音频信号中是否存在预定义词或表达的功能部件或算法。关键词识别器生成真/假输出，以表明该音频信号中是否表示所述预定义词或表达，而不是生成所述语音中词语的文字记录。

在一些情况下，关键词识别器可使用简化ASR(自动语音识别)技术。例如，唤醒词检测可运用隐马尔可夫模型(HMM)识别器，该识别器对音频信号进行声学建模，并将HMM模型与为特定触发表达的、通过训练而建立的一个或多个参考HMM模型比较。HMM模型以一系列的状态表示一个词。一般地，通过比较一个音频信号的HMM模型和所述触发表达的HMM模型，分析该音频信号的一部分，生成一个代表音频信号模型与触发表达模型之间相似度的特征分值。在实际应用中，对应于HMM模型的不同特征，HMM识别器可生成多个特征分值。

所述唤醒词检测还可使用支持向量机(SVM)分类器，该SVM分类器接收所述HMM识别器生成的一个或多个特征分值。该SVM分类器生成一个置信度分值，表明音频信号包括所述触发表达的可能性。

在310，语音使能设备108可通过使用接近度检测，来检测用户104离语音使能设备108的接近度或距离。例如，可使用声源定位(SSL)技术和二维麦克风阵列共同完成接近度检测。所述声源定位(SSL)技术分析所接收到的声音在麦克风中的各麦克风处的到达时间差别，以便确定所接收到的声音的起源位置。或者，语音使能设备108可具备相机或专门传感器，以确定用户104相对于语音使能设备108的位置。

在312，设备状态确定部件226可确定语音使能设备108的设备状态。所述设备状态或快照可被用作用于仲裁和/或定向的元数据。

在314，成像设备208可被用于采集用户104的环境102的图像数据。在一些示例中，成像设备208可被用于在声音来自用户104的方向上采集图像数据。

方法300的任何动作均可生成元数据116中的项目。例如，VAD 306可生成声音存在水平，表明一个人在语音使能设备108附近说话的可能性。VAD 306还可生成信噪比量值。唤醒词可生成对应于用户104说出唤醒词的可能性的唤醒词置信度水平。唤醒词检测308还可生成表明检测到唤醒词的时间的时间戳。接近度检测310可生成距离参数，该参数表明用户104离语音使能设备108的距离。

在316，语音使能设备108可对音频信号114执行各种类型的处理，以生成元数据和/或音频信号指标值，比如信噪比、频谱质心量值、语音能量水平(如4Hz调制能量)、频谱通量、特定百分位频率(如第90百分位数频率)、周期性、清晰度、和谐度，等等。

在318，语音使能设备108可通过网络接口228发送音频信号114和音频信号指标值116至语音处理系统110。音频信号114可包括定向音频信号之一，比如其中检测到语音和检测到唤醒词的定向音频信号。

在一些示例中，发送至语音处理系统110的元数据和/或音频信号指标值116可包括基于传感器数据生成的信息或包括传感器数据本身。例如，语音使能设备108的部件可在316对各种传感器(如，接近检测设备206、成像设备208等)采集的传感器数据执行处理，以生成元数据。例如，音频处理部件214可对麦克风204生成的音频信号执行各种处理，比如减少噪声或波束成型。在其他示例中，音频信号指标值116可简单地包括传感器采集的、未经任何处理的传感器数据。由此，在一些示例中，所述处理的全部或部分和/或在316执行的生成都可以是可选的，语音使能设备108可简单地把各种传感器采集的全部数据直接转发给语音处理系统。

示例语音处理系统

图4A为一种语音处理系统110的示例架构框图，该语音处理系统从语音使能设备108接收音频信号114和音频信号指标值116，并执行处理技术，以确定哪个语音使能设备108将对音频信号114中代表的用户104的语音发声106作出响应。

图4A包括如何处理语音发声106的概念图，其允许一个系统采集并执行用户104说出的命令，比如跟随唤醒词的口头命令。图示各种部件可位于同一物理设备，或位于不同的物理设备。图4A所示各种部件间可直接通信，或可以通过网络118通信。语音使能设备108的麦克风204等音频采集部件采集对应于语音发声106的音频。然后，语音使能设备108使用唤醒词检测部件222，处理语音发声106或者对应于语音发声106的音频数据，以确定是否在语音发声106中检测到关键词(比如唤醒词)。检测到唤醒词之后，语音使能设备108发送对应于语音发声106的音频信号114至语音处理系统110的计算设备，该计算设备包括ASR部件126。音频信号114可由位于语音使能设备108的声学前端(AFE)424在发送前输出。或者，音频信号114可具有不同的形式，以便远程AFE 416进行处理，比如与ASR部件126在一起的AFE416。

在各种示例中，语音处理系统110可包括一个或多个处理器400为语音处理系统110的部件、设备和动作供电，及一个或多个网络接口450，比如无线或Wi-Fi网络通信接口、以太网通信接口、蜂窝网络通信接口、蓝牙通信接口等，用于与语音处理系统110通过各种类型的网络118通信，所述网络包括广域网、局域网、私用网、公用网等。对于无线通信接口，此类接口可包括无线电收发器，及用于执行合适通信协议的相关联控制电路和逻辑。

语音处理系统110还可包括计算机可读介质402，其储存各种部件、部件或其他可执行软件，以执行各种仲裁动作，确定哪个语音使能设备将响应语音发声106中的命令。所述计算机可读介质可储存操作系统406，所述操作系统用于管理位于语音处理系统110内并与之耦合的硬件和服务。

计算机可读介质402还可储存对话管理部件408，针对由NLU部件128确定的用户语音的含义或意图，该部件负责与用户104进行语音对话。对话管理部件408可包括域逻辑，该域逻辑用于分析用户语音的含义及确定如何回应用户语音。对话管理部件408可定义与不同信息或主题域相关的规则和行为，所述主题域包括新闻、交通、天气、待办事项清单、购物清单、音乐、家庭自动化、零售服务等等。所述域逻辑把用户的口头陈述映射至各自的域，并负责确定将要执行的对话回应和/或动作，以响应用户的发声。

计算机可读介质402还可包括仲裁部件130、定向部件134和包括设备指示138的用户注册表136。仲裁部件130可以为生成对应于语音发声106的音频信号114的语音使能设备108执行各种功能或过程，以基于音频信号指标值116确定设备排序表132。定向部件134可执行各种操作，以确定哪个语音使能设备108将响应语音发声106中的命令。例如，定向部件134可使用用户注册表136，确定与用户和/或家庭账户关联的所有语音使能设备108和/或二级设备112。定向部件134可使用设备排序表132、NLU部件128确定的用户语音106中表达的意图和储存在设备指示138中的设备状态，确定哪个语音使能设备108应执行语音发声106中表明的命令。

语音处理系统110还可包括各种部件用于处理语音发声106，比如自动语音识别部件126和自然语言理解部件128。图示的各种部件可位于同一物理设备，或位于不同的物理设备。

在一些示例中，音频数据(如音频信号114)可由语音处理系统110接收，用于语音处理去解释所包括的语音发声106(为了使能声音通信和/或为了执行语音中的命令)。所述音频数据可包括对应于唤醒词的数据，或者语音使能设备108可在发送前，去除对应于唤醒词的音频数据的一部分。语音处理系统110收到后，ASR部件126可将音频数据转换成文本。ASR部件126把音频数据抄录成代表包含在音频数据中的语音词语的文本数据。然后，所述文本数据可被其他部件用于不同的用途，比如仲裁、执行系统命令、输入数据等。音频数据中的语音发声106被输入处理器中，所述处理器用于执行ASR，其随后基于所述发声和储存在ASR模型知识库(ASR模型储存412)中的预先建立的ASR语言模型之间的相似度，解释所述发声。例如，所述ASR处理可把输入的音频数据与声音(如子词单位或音位)模型和声音序列比较，以识别与音频数据的发声中说出的声音序列匹配的词。

可以给可解释语音发声106的不同方法(即不同的假设)分别指定一个ASR几率或一个ASR置信度分值，代表特定词集与所述发声中说出的词匹配的可能性。ASR置信度分值可基于多个因子，例如包括所述发声中的声音与语言声音(如储存在ASR模型储存412中的声学模型414)间的相似度，和声音匹配的特定词被包括在句子中特定位置的可能性(如，通过一个语言或语法模型)。由此，对所述口头发声的各潜在文本解释(假设)与ASR置信度分值关联。基于所考虑的因子和指定的ASR置信度分值，ASR部件126输出音频数据中识别的最可能文本。ASR部件126还可以网格或N最佳清单形式输出多个ASR假设，其中各假设对应于一个ASR置信度分值或其他分值(比如可能性分值等)。

执行ASR处理的一个或多个设备可包括声学前端(AFE)416和语音识别引擎418。声学前端(AFE)416把来自麦克风的音频数据转换成由语音识别引擎418处理的数据。语音识别引擎418把语音识别数据与声学模型414、语言模型410和其他数据模型及信息比较，以识别音频数据中传达的语音。AFE 416可减少音频数据中的噪声，并把数字化的音频数据分割成代表时间间隔的帧，AFE 416确定这些帧的多个值，又称为特征，代表音频数据的特性，以及这些值组成的一个集，又称为特征向量，代表该帧中音频数据的特征/特性。如本领域中熟知的，可以确定很多不同的特征，而各个特征代表可用于ASR处理的音频的某个特性。AFE416可使用多种方法处理音频数据，比如梅尔频率倒谱系数(MFCCs)、感知线性预测(PLP)技术、神经网络特征向量技术、线性判别分析、半连带协方差矩阵或本领域技术人员熟知的其他方法。

语音识别引擎418可结合语音/模型储存(412)中储存的信息，处理AFE 416的输出。或者，执行ASR处理的设备可从内置AFE 416以外的另一源接收前端后处理数据(比如特征向量)。例如，语音使能设备108可把音频数据处理成特征向量(例如使用一个装在设备上的AFE 416)，并把该信息通过网络发送至服务器，进行ASR处理。特征向量可以经过编码，再到达语音处理系统110，在这种情况下，在被执行语音识别引擎418的处理器处理前，特征向量可被解码。

语音识别引擎418试图把接收到的特征向量与所储存的声学模型414和语言模型410中已知的语言音位和词匹配。语音识别引擎418基于声学信息和语言信息，为特征向量计算识别分值。所述声学信息被用于计算声学分值，其代表由一组特征向量代表的意向声音与语言音位匹配的可能性。所述语言信息被用于考虑什么声音和/或词被用在彼此的上下文中，进而调节该声学分值，由此提高ASR过程输出合乎语法的语音结果的可能性。所使用的特定模型可以是通用模型，或者是对应于诸如音乐、银行业务等特定域的模型。

语音识别引擎418可使用多种技术把特征向量与音位匹配，例如使用隐马尔可夫模型(HMM)确定特征向量与音位匹配的可能性。接收到的声音可被表示为HMM状态之间的路径，多个路径可代表同一声音的多个可能的文本匹配。

在ASR处理之后，语音识别引擎418可发送ASR结果至其他处理部件，这些部件可与执行ASR的设备互为本地，和/或分布在网络上。例如，具有语音的单个文本表示、包括多个假设和各自分值的N最佳清单、网格等形式的ASR结果可被发送至语音处理系统110，以便由用户设备、语音处理系统110或另一设备(比如运行搜索引擎等特定应用程序的服务器)进行自然语言理解(NLU)处理，比如把文本转换成命令以供执行。

NLU部件128(如服务器)可包括各种部件，如潜在专用的处理器、存储器、保存等。如图4A所示，NLU部件128可包括识别器420，该识别器包括命名实体识别(NER)部件422，用于识别对应于可由系统识别的命名实体的询问文本的各部分。被称为命名实体解析的下游过程把文字部分与系统已知的特定实体相连。为执行命名实体解析，系统可使用储存在实体库储存436中的词典库信息434。所述词典库信息可被用于实体解析，例如把ASR结果与不同的实体(比如歌曲题目、联系人姓名等)匹配。词典库可与用户相连(例如特定词典库可与特定用户的音乐收藏关联)，可与特定域(比如购物)相连，或可以多种其他方式组织。

一般地，NLU部件128接收文本输入(比如ASR部件126确定的文本输入)，并尝试对文本进行语义解释。即，NLU部件128基于单个词确定文本后面的含义，然后实施该含义。NLU部件128解释一个文字串，导出用户的意图或想采取的动作，以及文本中的相关信息，使得设备(如语音使能设备108)能够完成该动作。例如，如果使用ASR部件126处理口头发声，并输出文本“关闭闹铃”，NLU部件128可确定，用户104意图使语音使能设备108(2)被指令关闭正在输出的闹铃声。又如，如果使用ASR部件126处理口头发声，并输出文本“挂断电话”，NLU部件128可确定，用户104意图使语音使能设备108(2)被指令挂断正在打的电话。

NLU部件128可处理与同一发声相关的若干文本输入。例如，如果ASR部件126输出N个文字段(作为N最佳清单的一部分)，NLU部件128可处理所有N个输出，以获得NLU结果。

为了正确执行语音输入的NLU处理，NLU部件128可配置为确定发声的“域”，以便确定端点设备(如语音处理系统110或语音使能设备108)提供的哪些服务会相关，并缩小这一过程中考虑的服务的范围。例如，端点设备可提供有关于与电话服务、联系人名单服务、日历/计划安排服务、音乐播放服务等的交互的服务。单词文字询问中的词可能涉及超过一种服务，而且有些服务可能是功能性地相连(如，电话服务和日历服务都可能使用来自联系人名单的数据)。

命名实体识别(NER)部件422以ASR结果的形式接收询问，并试图识别相关的语法和语义信息，这些信息可被用于解释含义。为此，NLU部件128可开始识别可能涉及接收到的询问的潜在域。NLU储存424包括设备域426的数据库，其识别与特定设备关联的域。例如，语音使能设备108可与关于音乐、电话、日历、联系人名单和设备专用通信的域关联，但不包括视频。另外，设备域426可包括有关特定设备上的特定服务的数据库项，可通过设备ID、用户ID或家庭ID，或某一其他指示索引。

在NLU处理中，一个域可代表一个独立的具有共同主题的活动集，比如“购物”、“音乐”、“记录”等。由此，各域可与特定识别器420、语言模型和/或语法数据库428、特定域意图/动作集430和特定个性化域辞典432关联。各词典库434可包括与特定用户和/或设备关联的以域为索引的辞典信息。用户的联系人名单的辞汇信息可能包括联系人的姓名。因为每位用户的联系人名单应该不同，此个性化信息提高了实体解析。

如上所述，在传统的NLU处理中，可运用适用于各确定域的规则、模型和信息处理询问。例如，如果询问同时涉及通信和例如音乐，则基本上可并行地对该询问使用语法模型和语义信息，进行有关通信的NLU处理，并使用语法模型和语义信息，进行有关音乐的处理。对各模型集基于询问生成的响应评分，从所有应用的域中，通常选择总体排序最高的域作为正确结果。

意图分类(IC)部件438解析该询问，为各确定域确定意图，其中所述意图对应于将要执行的、响应询问的动作。各域与和意图连接的词汇数据库(如域意图430)关联。例如，音乐域意图数据库430可把“安静”、“关闭音量”和“静音”等词和短语与“静音”意图相连。同时，语音消息域意图数据库可连接“发送消息”、“发送语音消息”和“发送下述”等词和短语。IC部件438通过比较询问中的词和域意图数据库430中的词和短语，为各确定域确定可能的意图。在一些示例中，IC部件438的意图确定是通过运用规则或模板集完成的，针对接收的文本，处理所述规则或模板以识别匹配的意图。

为了生成特定的经解释的响应，NER 422应用与各自的域关联的语法模型和语义信息，以真正识别询问文本中的提及一个或多个实体。这样，NER422识别可能在随后的命令处理中需要的“槽位”(即，询问文本中的特定词)。视NER部件422的复杂程度，其还可用一种不同水平的特异性(比如名词、地方、城市、艺术家姓名或歌曲名称等)标注各槽位。各语法模型428包括通常在有关特定域的语音中发现的实体名称(即名词)，而来自词典库434的语义信息432针对用户和/或设备加以个性化。例如，与购物域关联的语法模型可包括人们在讨论购物时经常使用的词汇的数据库。

IC部件438确定的意图与专用于各域的语法框架(包含在430中)相连，其中“槽位”或“字段”将会被填写。各槽位/字段对应于系统认为对应于某一实体的询问的一部分。为了使解析更加灵活，这些框架一般可以不构造为句子，而是基于把槽位与语法标签相关联。例如，如果“发送消息”是所确定的意图，则语法(428)框架可对应于“发送消息给{联系人}”、“发送语音消息给{联系人}”和“发送下述给{联系人}”等句子结构。

例如，NER部件422可解析询问，以根据语法规则和/或模型，在识别命名实体前，确定各词为主语、宾语、动词、介词等。所确定的动词可被IC部件438用于确定意图，而该意图则随后被NER部件422用于确定框架。同时，用于意图“发送消息”的框架可指明适用于播放所确定的“联系人“和任何宾语限定词等的槽位/字段清单(如，指明接收方的设备)。随后，NER部件422在专用于各域的个性化的辞典中搜索响应的字段，试图把询问中标记为语法宾语或宾语限定词的词和短语与在数据库中确定的词和短语进行匹配。

此过程包括语义标记，即根据其类型/语义，标记单词或单词组合。可运用启发式语法规则执行解析，或者可使用隐马尔可夫模型、最大熵模型、对数线性模型和条件随机场(CRF)等技术构造NER模型。

随后，与意图相连的框架被用于确定应搜索哪些数据库字段，以确定这些短语的含义，比如搜索用户的词典，以确定与框架槽位的相似之处。如果所述对词典库的搜索没有通过词典库信息解决槽位/字段，NER部件422则可搜索与域关联的通用词汇数据库(在知识库440中)。因此，例如，如果询问是“发送消息给乔”，在未能确定“乔”的姓的情况下，NER部件422可在域词汇表中搜索单词“乔”。或者，在词典库信息之前检查通用词汇，或者同时尝试两者，这样可能生成两种不同的结果。

NLU部件128的输出数据(其可包括经标记的文字、命令等)可随后被发送至命令处理器140。可基于NLU输出确定目的地命令处理器140。例如，如果NLU输出包括发送消息的命令，目的地命令处理器140可为消息发送应用程序，比如位于用户设备或消息发送电器中的应用程序，用于执行消息发送命令。如果NLU输出包括搜索请求，目的地命令处理器140可包括搜索引擎处理器，比如位于搜索服务器的搜索引擎处理器，用于执行搜索命令。

现有系统的NLU操作可以采取多域架构的形式。各域(其可包括定义诸如音乐、书籍等更广泛概念的意图和实体槽位集，以及用于执行NER、IC等各种NLU操作的诸如经训练模型等的部件)可独立构造，并在对文本(比如ASR部件1003的文本输出)进行NLU操作的运行操作过程中，提供给NLU部件128。各域可具有专门配置的部件执行NLU操作的各种步骤。

例如，在NLU系统中，该系统可包括一个多域架构，该架构由可被系统(或被与系统相连的其他设备)执行的意图/命令的多个域组成，比如音乐、视频、书籍和信息。该系统可包括多个域识别器，其中各域可包括其自己的识别器420。各识别器可包括各种NLU部件，比如NER部件422、IC部件438和诸如实体解析器等的其他部件，或其他部件。

如上所述，可在单个语音处理系统110中采用多个设备。在此多设备的系统中，各设备可包括不同的部件，以执行语音处理的不同方面。所述多个设备可包括彼此重复的部件。本文所述的语音使能设备108和语音处理系统110仅为示例性，且可位于独立的设备中，或全部或部分地作为较大设备或系统的部件被包括，可分布于某一网络或通过网络连接的多个设备，等等。

图4B为一种语音处理系统110的示例架构框图，该语音处理系统包括命令处理器140，该命令处理器用于生成所选语音使能设备108用于响应语音发声106的命令。如图4B所示，包括编排部件124和语音处理部件404的语音系统110可与定向部件134耦合，并向定向部件提供确定在语音发声106中表达的意图，其中语音处理部件404包括ASR部件126和NLU部件128。另外，仲裁部件130可向定向部件134提供设备排序表132，以及用于设备排序表132中一个或多个语音使能设备108的设备指示(如，IP地址、设备名称等)。定向部件134可随后运用技术确定目标设备(如执行所请求的操作的设备)，并向命令处理器140提供各种数据。例如，定向部件134可向命令处理器140提供语音使能设备108的各种设备标识、确定的目标设备、确定的意图和/或命令等。

命令处理器140和/或NLU部件128可基于意图确定一个域，并基于此确定，把对应于音频数据的请求传送至合适的域speechlet，比如所示的域speechlet 442。域speechlet442可包括任意类型的设备或设备组(如，硬件设备、虚拟设备或分区、服务器等)，且可接收与音频信号114关联的文本数据和/或意图，并确定如何响应该请求。例如，命令“请挂断我的电话”的意图可被传送至智能家庭域speechlet 442，其控制与语音使能设备108连接的设备，比如正在通话中的一个电话机。智能家庭域speechlet 442可基于用户104要挂断电话的意图，确定欲生成的命令。另外，智能家庭域speechlet 442可确定将由语音使能设备108(1)或108(2)之一输出的音频数据等额外内容，比如“我们已经挂断了您的电话”。

可使用不同类型的域speechlet 442确定使用哪个设备108去响应语音发声106，以及合适的响应148和可能的额外内容(如音频数据)。例如，域speechlet 442可包括可处理与赌博、生产率等关联的意图的第三方技能域speechlet 442、可处理与播放音乐请求(如亚马逊音乐、Pandora、Spotify、iHeart等)关联的意图的音乐域speechlet 442、可处理与播放视频请求(如，亚马逊视频、HBO、Netflix、Hulu等)关联的意图的视频域speechlet442、可处理与家居活动(如，日历、提醒、计时器等)关联的意图的家用组织域speechlet442、可处理与控制智能设备(如，控制灯、门锁、家居监控等)关联的意图的智能家居域speechlet 442、汽车域speechlet 442、可处理与购物请求(如，准备购物清单、网上订购物品等)关联的意图的购物域speechlet 442，和/或可处理天气预报请求(如，提供天气网站的URL、提供天气相关的图像和/或视频等)的天气域speechlet 442。

当域speechlet 442基于用户104的意图生成合适的命令，和/或提供将由语音使能设备108之一输出的音频数据(如，“我们已经挂断了您的电话”)等额外内容后，域speechlet 442可将此信息返回至语音系统110，其相应地将此信息的一部分或全部提供给文本到语音(TTS)引擎444。随后，TTS引擎444生成实际的音频文件，以输出由域speechlet442确定的第二音频数据(如，“我们已经挂断了您的电话”或“我们已经关闭了您的闹铃…”)。当该文件(或“音频数据”)生成后，TTS引擎444可将此数据返回至语音系统110。

语音系统110可随后将此信息的一部分或全部发布(即写入)至事件总线446。即，语音系统110可向事件总线446提供有关最初请求的信息(如，语音、文本、域/意图等)、将向语音使能设备108提供的响应(如，挂断电话的命令、关闭闹铃的命令等)或与语音使能设备108(1)和语音处理系统110之间的交互相关的任何其他信息。

在语音处理系统110中，一个或多个部件或服务可订阅事件总线446，以便接收有关用户服务和语音处理系统110之间的交互的信息。在所述示例中，例如，设备管理部件448可订阅事件总线446，且由此可监控有关这些交互的信息。在一些示例中，监控事件总线446中的信息可包括语音处理系统110的各种设备之间的通信。例如，定向部件134可监控事件总线446，以确定语音使能设备108的设备状态数据。在一些示例中，事件总线446可“推送”或发送事件指示和/或设备状态数据至定向部件。另外，或作为替代，当定向部件134向事件总线446发送请求，以提供语音使能设备108的设备状态数据指示时，事件总线446可被“拉取”。事件总线446可在例如数据库(如用户注册表136)中储存设备108的设备状态指示，并使用所储存的设备状态指示，把语音使能设备108的设备状态数据发送至定向部件。由此，为了确定设备108和/或112的设备状态数据，定向部件134可向事件总线446(如事件部件)发送请求，以提供与设备108和/或112关联的设备状态数据指示，并从事件总线446接收所请求的设备状态数据。

设备管理部件448的功能为监控发布至事件总线446的信息，并确定可能触发动作的事件。例如，设备管理部件448可确定(如，通过过滤)下列事件：(i)来自与二级设备112关联的语音使能设备108(如，在其环境中具有诸如电视、个人计算设备等二级设备112)的事件，和(ii)与补充内容(如，图像数据、视频数据等)关联的事件。设备管理部件448可参考用户注册表136，以确定哪些语音使能设备108与二级设备112关联，并确定这些二级设备112的设备类型、状态和其他性能。例如，设备管理部件448可根据发布至事件总线446的信息，确定与做出相应请求的语音使能设备108或与被选中响应语音发声106的语音使能设备108相关联的标识。设备管理部件448可使用此标识在用户注册表136中确定与语音使能设备108相关联的用户账户。设备管理部件448还可确定是否有任何二级设备112已向所确定的用户账户注册，以及任何此类二级设备112的性能，比如二级设备112的通信配置情况(如，通过WiFi、短距离无线连接等)、设备112能够输出的内容类型(如，音频、视频、静像、闪光等)，等等。

设备管理部件448可确定所识别的一个特定事件是否与补充内容关联。即，设备管理部件448可向数据存储器写入何种事件和/或哪些主要内容或响应与补充内容关联的指示。在一些示例中，语音处理系统110可让第三方开发人员访问，允许这些开发人员为特定事件和/或主要内容注册输出用的补充内容。例如，如果语音使能设备108要输出天气将包括雷电，设备管理部件448可储存雷声、闪电的图片/动画等的补充内容指示。又如，如果语音使能设备108正在输出有关特定事实(如，“蓝鲸是地球上最大的哺乳动物…”)的信息，则电视等二级设备112可用于提供蓝鲸的视频或图片等补充内容。在这些及其他示例中，设备管理部件448可储存主要响应或内容(如，有关世界上最大的哺乳动物的信息输出)和对应的补充内容(如，音频数据或图像数据等)之间的关联。在一些示例中，设备管理部件448还可表明，何种类型的二级设备将输出哪些补充内容。例如，在刚才的示例中，设备管理部件448可储存一个指示，表明二级设备112为课堂类型的“平板”，并将输出蓝鲸的图片。同时，在这些及其他示例中，设备管理部件448可储存与二级设备性能(如，具有扬声器的设备输出音频评论、具有屏幕的设备输出图像等)关联的补充内容。

最后，设备管理部件448可确定如何把响应和/或补充内容(和/或获得所述内容的信息)发送至语音使能设备108和/或二级设备112。为作出这一确定，设备管理部件448可确定可能储存在用户注册表136的语音使能设备108和/或二级设备112的设备类型或所述设备的性能等。在一些示例中，设备管理部件448可确定特定设备能够与语音处理系统110直接通信(如，通过WiFi)，设备管理部件448因此可直接在网络118上向二级设备112(潜在地，通过语音系统110)提供响应和/或内容。又如，设备管理部件448可确定特定二级设备112不能与语音处理系统110直接通信，但被配置成与语音使能设备108在其环境中通过短距离无线网络通信。因此，设备管理部件448可提供补充内容(或信息)至语音系统110，其相应地将补充内容(或信息)发送至语音使能设备108，其可将所述信息通过短距离网络发送给二级设备112。

计算机可读介质402还可包括用户注册表136，而用户注册表136包括有关本文所述的用户资料的数据。用户注册表136可位于语音处理系统110的一部分，或靠近语音处理系统110，或以其他方式与各种部件通信，例如通过网络118。用户注册表136可包括与单个用户、账户等相关的多种信息，所述用户、账户等与语音使能设备108及语音处理系统110交互。例如，用户注册表136可包括关于与特定单个用户资料相关的设备的数据。所述数据包括不同设备的用户或设备标识(ID)及互联网协议(IP)地址信息，以及用户称呼所述设备的名称。描述所述设备的更多的限定词也可与设备对象类型的描述一起列出。另外，用户注册表136可保存各种语音使能设备108和/或二级设备112之间关联的指示，比如设备的虚拟集群。用户注册表136可把设备108和/或112表示成能够接收命令并向集群中每个设备108和/或112分发该命令的单个设备。在一些示例中，所述设备的虚拟集群可被表示为单个设备，其被确定为能够或不能够(如，离线)执行语音发声中的命令。一般地，设备的虚拟集群可对应于被储存的设备分组或被储存的一组设备间的关联。

在一些示例中，与用户账户关联的设备的设备状态可表示语音使能设备108(1)和(2)等设备的当前状态。这样，命令处理器140和/或域speechlet 442可基于用户注册表136中储存的设备状态，确定语音使能设备108的当前设备状态。设备状态可早已被确定或接收到，并储存在用户注册表136中，而不是在元数据116中接收语音使能设备108的设备状态。另外，用户注册表136可提供取决于用户的各种权限水平的指示。例如，语音系统110可对音频信号114进行说话者识别，以确定所述说话者的身份。如果例如说话者是孩子，则孩子资料可能有权限限制，例如其不能挂断来自父母的电话。反之，父母资料能够挂断涉及孩子资料的电话，或当检测到孩子资料也在观看电视时，转换电视频道。

在一些示例中，为了确定设备状态，事件总线446可向订阅事件总线446的各种实体或部件发布表明设备状态的不同事件。例如，如果“设置闹铃”事件为语音使能设备108而发生，事件总线446可发布此事件的指示，因此就为语音使能设备108设置好闹铃的设备状态。因此，可通过事件总线446，向定向部件134等各种部件提供各种设备状态的指示。事件总线446还可在用户注册表136中，为语音使能设备108储存和/或更新设备状态。

特定用户资料可包括可被系统110使用的多种数据。例如，用户资料可包括有关哪些语音使能设备108与用户104关联的信息。用户资料还可包括与用户104关联的各设备的IP地址、各设备的用户ID、设备类型的指示，和设备的当前设备状态。

如本文的用法，诸如处理器120、200和/或400的处理器可包括多个处理器和/或具有多核的一个处理器。另外，所述处理器可包括一个或多个不同类型的核。例如，所述处理器可包括应用程序处理器单元、图像处理器等等。在一种实施方式中，所述处理器可包括微控制器和/或微处理器。处理器120、200和/或400可包括图像处理器(GPU)、微处理器、数字信号处理器或其他本领域熟知的处理单元或部件。作为替代或者另外，本文所述的功能性可被一个或多个硬件逻辑部件至少部分地执行。例如且无限制地，可被使用的硬件逻辑部件的示例类型包括现场可编程门阵列(FPGA)、应用专用集成电路(ASIC)、应用专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。另外，各处理器120、200和/或400可具有其自己的本地存储器，该本地存储器也可储存程序部件、程序数据和/或一个或多个操作系统。

如本文所述，计算机可读介质122、210和/或402可包括由任何方法或技术实现的非永久性和永久性存储器、可移动和非可移动存储器，以用于信息存储，比如计算机可读指令、数据结构、程序部件或其他数据。计算机可读介质122、210和/或402包括，但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带、磁盘存储或其他磁性存储设备、RAID存储系统或可用于存储所需信息且可以被计算设备访问的任何其他介质。计算机可读介质可被实现为计算机可读介质(“CRSM”)，其可为任何可用物理介质，其可被处理器120、200和/或400访问，以执行存储在计算机可读介质122、210和/或402上的指令。在一个基本实施方式中，CRSM可包括随机存取存储器(“RAM”)和闪存。在其他实施方式中，CRSM可包括，但不限于，只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)或可用于存储所需信息且可以被所述处理器访问的任何其他有形介质。

另外，功能部件可被储存在各自的存储器中，或作为替代地，同样的功能性可实现在硬件、固件、应用专用集成电路、现场可编程门阵列中，或作为片上系统(SoC)实现。另外，尽管未图示，本文所讨论的各存储器，如计算机可读介质122、210和/或402，可包括至少一个操作系统(OS)部件，该部件用于管理网络接口、各装置的I/O设备等硬件资源设备，并为在处理器上执行的应用程序或部件提供各种服务。该OS部件可执行FreeBSD项目发布的FreeBSD操作系统的变体、其他UNIX或类似UNIX的变体、Linus Torvalds发布的Linux操作系统的变体、位于美国华盛顿州西雅图的Amazon.com Inc.的FireOS操作系统、位于美国华盛顿州雷德蒙德的微软公司的Windows操作系统、位于加利福尼亚州圣荷西的LynxSoftware Technologies,Inc.发布的LynxOS、瑞典的ENEA AB发布的嵌入式操作系统(EneaOSE)，等等。

各网络接口228和网络接口450可实现语音使能设备108和语音处理系统110，以及其他联网设备之间的通信。所述网络接口可包括一个或多个网络接口控制器(NIC)或其他类型的收发器设备，以通过网络发送和接收通信。

例如，各网络接口228和网络接口450可包括个人局域网(PAN)部件，以实现通过一个或多个短距离无线通信通道的通信。例如，该PAN部件可实现遵守至少一种下列标准的通信：IEEE 802.15.4(ZigBee)、IEEE 802.15.1(蓝牙)、IEEE 802.11(WiFi)或其他任何PAN通信协议。另外，各网络接口228和网络接口450可包括广域网(WAN)部件，以实现广域网上的通信。网络118可代表一系列的有线网络、WiFi等无线网络或其组合。

图5为一种根据各语音使能设备108所采集的音频信号114的各种音频信号指标值116，对检测到用户104的语音发声106的语音使能设备108进行排序的示例方法500的流程图。在一些示例中，方法500的一些或全部步骤可由语音处理系统110的部件执行，比如编排部件124、仲裁部件130、定向部件134等。

在502，仲裁部件可识别检测到语音发声106的语音使能设备108。这可包括识别(或确定)基本上在同一时间(彼此相差在某一时间阈值内)，从单个发声106接收到音频输入的第一语音使能设备108和第二语音使能设备108。

在504，语音处理系统110可从各语音使能设备108接收一个或多个音频信号指标值116。音频信号指标值116可用于与在语音使能设备108处接收的音频输入关联的波束成型音频信号。音频信号指标值116可包括信噪比、频谱质心量值、语音能量水平(如4Hz调制能量)、频谱通量、特定百分位频率(如第90百分位数频率)、周期性、清晰度、和谐度，等等。例如，操作504可包括：接收一个音频信号指标值116，其在多个音频信号指标值116中具有最佳值，其中所述多个音频信号指标值中的每一个均与由一个语音使能设备108确定的一个不同的波束成型音频信号关联。具有最佳值的音频信号指标值116可为具有最高(最大)值的音频信号。或者，具有最佳值的音频信号指标值116可为具有最低(最小)值的音频信号。又如，操作504可包括：从一个语音使能设备108的多个音频信号指标值116中，接收平均音频信号指标值。再如，操作504可包括：接收一个语音使能设备108的多个音频信号指标值116。在一些示例中，可对音频信号指标值116加权，比如可由一个语音使能设备108的多个音频信号指标值116中，具有最佳值的音频信号指标值(最高值，或在一些示例中，最低值)和具有最差值的音频信号指标值116(最低值，或在一些示例中，最高值)之间的差值加权。

在506，仲裁部件130可对多个语音使能设备108进行排序，生成设备排序表132。操作506可基于多个语音使能设备108中每一个的音频信号指标值116完成。在一些示例中，一个语音使能设备108可相对于不同的音频信号指标值116、不同的排序技术等等被多次排序。在一些示例中，可使用音频信号指标值之外的其他类型的数据对语音使能设备进行排序。例如，语音使能设备108可接收另一输入(如，按按键、手势等)，而不是检测唤醒词，所述另一输入可能影响接收该输入的语音使能设备108的排名。例如，接收按键输入的语音使能设备108可具有额外的加权因子用于其排名，以提高其排名，因为所述按键输入表明，用户104希望该语音使能设备108为语音命令106执行动作。在各种示例中，可使用其他类型的数据对语音使能设备108进行排序。例如，可使用通过接近检测设备206检测的接近度数据，根据各语音使能设备108和用户104间的距离，语音使能设备108可被排序较高或较低。另外，由成像设备208获得的图像数据可被用于对语音使能设备108进行排序。例如，可以确定其中一个语音使能设备108采集的图像数据显示，用户104的脸部面朝特定语音使能设备108(如，使用对象识别技术)。基于用户104面向该特定语音使能设备108，用户104所面向的该特定语音使能设备108的排名可以提高。这里，可使用其他类型的数据和音频指标值一起，或代替音频指标值，对语音使能设备进行排序。

在508，仲裁部件130可选择一个语音使能设备108作为源设备。例如，仲裁部件130可选择位于设备排序表132顶部的语音使能设备108。又如，仲裁部件130可选择在设备排序表132顶部N个位置出现次数最多的语音使能设备108，其中N是大于2的整数。

在一些示例中，一旦选好源设备，可指令检测到语音发声106的其他语音使能设备108停止串流对应于语音发声106的音频数据。因此，当在环境中检测到对话或其他声音时，源设备可继续串流音频信号114或代表语音发声106的音频数据至语音处理系统110。但是，一旦确定源设备，先前串流对应于所述声音的音频信号114的其他设备108可被“关闭”或被指令停止发送音频数据。这样，相对检测到语音发声106的其他语音使能设备108，源设备可发送额外的或更多的音频数据。被其他语音使能设备108(不是源设备)发送的音频数据或信号114可能已发送代表环境102中声音的一部分的音频信号114，但少于源设备的音频信号114中采集的全部声音。在一些示例中，源设备可串流在执行ASR和NLU时，更易使用或更有效使用的音频信号114。

在510，编排部件124可编排所选语音使能设备108的音频信号114的处理。在一些示例中，编排部件124可调用或以其他方式使得ASR部件126和NLU部件128处理音频信号114，以确定由音频信号114代表的语音发声106中表达的意图。

在512，语音使能设备108的排序指示(如，设备排序表132)和所述意图可被发送至定向部件134。

图6A和6B为一种由语音处理系统100为多个语音使能设备108进行仲裁，以确定哪个语音使能设备108将对用户104的语音发声106作出响应的示例方法600的流程图。操作或步骤的描述顺序不应被解释为限制，且任意数目的所述操作可按任何顺序和/或并行组合，以执行方法600。

在602，定向部件134可接收设备排序表132和意图。可从仲裁部件130接收设备排序表132，且可基于音频信号指标值116加以排序。可从编排部件接收所述意图，并使用ASR部件126和NLU部件128确定该意图。设备排序表132可包括检测到语音发声106的语音使能设备108。

在604，定向部件134可确定方法600是否已分析检测到语音发声106的所有语音使能设备108。如果定向部件134确定方法600没有到达设备排序表132的结束部，定向部件134可执行606。

在606，定向部件134可选择设备排序表132中的下一个设备。在方法600的开始，定向部件134可选择该表中的语音使能设备108(1)(如，设备排序表132中最高排名的设备，或“源设备”)。

在608，定向部件134可在第一次迭代中，使用第一相关设备规则确定排序表中最高排名的语音使能设备108(1)(“源设备”)是否能够响应语音发声106中的命令。定向部件134可分析语音发声106中表达的意图，以及设备状态，以确定源设备是否能够响应语音发声106中的命令。例如，如果语音发声106是“请停止”，该意图可映射至能够“停止”其设备状态的设备状态，比如串流音频、打电话、输出闹铃声等设备状态。

在各种示例中，不同数据(如，意图、设备状态、设备标识等)之间的“映射”一般可对应于存在存储器或数据库中的两份数据之间的关联。例如，特定意图和特定设备之间的映射可表明，在数据库或其他存储结构中，通过本领域熟知的任何技术标明该特定意图和特定设备彼此关联(如，在表格中关联、通过指针关联等)。

在一些示例中，定向部件134可确定，某一语音使能设备108不能或没有能力响应语音发声106中的命令。例如，如果该语音使能设备108离线(如，空闲)或处于离线状态或空闲状态，语音使能设备108可能无法改变正在输出的音频音量。在一些示例中，当语音使能设备108不执行用户请求的动作(如，语音使能设备108不输出音频、输出视频、执行对话等)时，可认为语音使能设备108为离线。

通过在608运用第一规则，如果所述语音发声106的意图映射至源设备的设备状态，或与源设备的设备状态“相关”，定向部件134可在610确定，源设备能够对所述命令作出响应，并选择该源设备为将响应语音发声中的命令的语音使能设备108(“目标设备”)。因此，定向部件134可指定源设备为目标设备，并保存源设备是目标设备的指示。然后，定向部件134可在610发送指示给命令处理器140，表明源设备是目标设备。

或者，如果语音发声106中表达的意图没有映射至源设备的设备状态，定向部件134可在612运用一条或多条额外规则，并确定所述额外规则是否选择了一个设备。在一些示例中，在612运用的额外规则可包括：确定源设备是否为某一设备“设备集群”中的一部分，该设备集群具有所述意图映射至的设备状态或具有所述意图以其他方式对应的设备状态。设备集群可对应于经同步以共同执行相同动作的一组语音使能设备的虚拟表示或指示。例如，所述设备集群可包括多个语音使能设备108，其以统一方式输出相同音频流，使得被各语音使能设备108输出的对应于相同音频内容的不同音频流彼此同步。所述设备集群可被储存为虚拟表示，这样，对所述定向部件而言，集群中的所有语音使能设备显得是一个单个设备。相应地，按照与第一规则相似的方式，定向部件134可确定所述设备集群是否能够响应语音发声106中的命令。

在612，定向部件134可确定语音发声106的意图是否映射至所述设备集群的设备状态，或与所述设备集群的设备状态“相关”。如果定向部件134确定，所述设备集群能够对所述命令作出响应，定向部件134可在610选择所述设备集群为目标设备。

尽管以上描述了可被运用于612以确定设备的若干条额外规则，用于基于设备状态数据和意图数据确定设备是否将响应命令的其他类型的规则也可被使用。

或者，在612，如果定向部件134确定源设备没有被包括在设备集群中，或在614，如果定向部件134确定包括源设备的设备集群不能够响应语音发声中的命令，定向部件134可在612运用第三规则，确定源设备是否与能够响应所述命令的二级设备112关联。如本文所述，二级设备112可包括被语音使能设备108控制或以其他方式与语音使能设备108关联的设备。例如，二级设备112的类型可包括，但不限于，电视、灯、车库门、门锁、温控器、废物搅碎机等。

在612，如果定向部件134确定在源设备与二级设备112关联，定向部件134可确定所述意图是否映射至二级设备112的设备状态。如果所述定向部件确定二级设备112能够响应所述命令，定向部件134可在610选择源设备为目标设备。例如，如果源设备与二级设备112关联，比如基于用户104的语音命令控制电视，且所述命令为“下一个频道”，定向部件134可在610选择源设备为目标设备，因为源设备所关联的二级设备112能够执行语音发声106中的命令。

但是，如果定向部件134在612确定源设备没有与二级设备112关联，或者如果定向部件134在612确定源设备所关联的二级设备112不能够执行该命令，定向部件134可确定源设备不是目标设备。

如果定向部件134确定源设备不是目标设备，定向部件134可返回至604，并确定是否所有的语音使能设备108均已被分析。如果定向部件134确定，设备排序表132中的设备没有全部被分析，定向部件134可迭代地运用方法600的规则606-618，以确定排序表132中指示的其他语音使能设备108是否为目标设备。定向部件134可遍历设备排序表132，以确定检测到语音发声106的语音使能设备108中任一设备是否为目标设备。

如果定向部件134在604确定，设备排序表132中的所有语音使能设备108均已被分析，定向部件134可执行614。

在614，定向部件134可识别未检测到所述语音发声的、与用户和/或家庭账户关联的所有其他语音使能设备108。例如，定向部件134可分析用户注册表136，以识别设备指示138中的设备，进而识别未检测到所述语音发声106的、与用户和/或家庭账户关联的设备。

在616，定向部件134可确定是否所有的其他设备108均已被分析，以确定这些设备是否能够响应语音发声106中的命令。在618，定向部件134可确定方法600是否已分析了未检测到语音发声106的所有其他语音使能设备106。

在620，如果定向部件134确定，还有其他语音使能设备108需要分析，则定向部件134可确定所述语音发声106中表达的意图是否映射至一个剩余的语音使能设备108，或以其它方式与一个剩余的语音使能设备108关联。如果所述意图映射至一个语音使能设备的设备状态，则定向部件134可在622保存所述语音使能设备是目标设备的指示。

然后，对每个未检测到语音发声的剩余语音使能设备108，定向部件134可迭代地执行步骤616-620，并在622保存特定语音使能设备108是目标设备的指示。

如果定向部件134在6216确定，未检测到所述语音发声106的所有其他语音使能设备108均已被分析，则定向部件134可执行624，并确定是否识别单个语音使能设备去执行所述操作。如果仅识别单个语音使能设备能够执行所述操作或命令，则定向部件134可指定此设备108为目标设备，并提供此指示给命令处理器140。

或者，如果定向部件134在624确定，已表明有超过一个语音使能设备108能够执行所述操作，则定向部件134可指定源设备为目标设备，并提供此指示给命令处理器140。然后，命令处理器140可生成将被发送至源设备的输出音频数据，其向用户104表明，语音处理系统110无法确定如何执行所请求的操作。

因此，本文所述技术包括：使用各种规则分析上下文数据，以确定想要哪个语音使能设备和/或哪个语音使能设备能够响应在用户104的语音发声106中发布的命令。

一旦所述定向部件确定了目标设备，所述定向部件可向命令处理器提供目标设备的指示。所述命令处理器可使用所述意图和目标设备的指示确定针对所处理的语音发声的响应。例如，所述命令处理器可与用于确定针对所处理询问的响应的一个或多个speechlet结合，确定为用户102的请求提供服务的相关信息位置，和/或如果未生成该等信息，则生成并存储该等信息，以及将所识别的意图传送至合适的目的地命令处理器。可基于通过NLU确定的意图确定所述目的地命令处理器。例如，如果所述NLU输出包括播放音乐的命令(播放音乐的意图)，则目的地命令处理器可以是音乐播放应用程序，如位于目标语音使能设备上或音乐播放电器内的音乐播放应用程序，该音乐播放应用程序用于执行播放音乐的命令。然后，所述命令处理器则可使得所确定的命令被发送至所述目标设备，进而使得所述目标设备执行针对该命令的合适响应。

在一些示例中，语音处理系统可确定设备108要执行操作的各种类型。例如，命令处理器140可生成一个命令，使得所述语音使能设备和/或二级设备112从第一状态变至第二状态(如，改变音频输出的音量、改变电视上的频道、打开车库门等)。另外，或作为替代，所述命令处理器可采用文本到语音引擎444，生成由设备作为音频输出的文本。例如，文本到语音引擎444可生成将发送至源设备的音频输出，向用户表明，他们的命令已经被处理(如，“您设备上的音量已经降低”)。所述音频输出可被发送至源设备，且也可发送一条使得语音使能设备108改变状态的命令给目标设备，其也可以是源设备。

虽然结合具体示例描述了上述发明，但应理解，本发明的范围并不限于这些具体示例。对本领域技术人员而言，适合特定操作要求和环境的其他不同的变化和变更是显而易见的，所以本发明不可理解为限于选用于公开的意图的示例，且本发明覆盖未偏离本发明精神和范围的所有变化和变更。

尽管本申请描述了具有具体结构特征和/或方法行为的实施例，但应理解，权利要求书不一定受限于所述具体特征或行为。相反地，所述具体特征和行为仅为落入本申请的权利要求书范围内的示例性实施例。

可基于下述条款，描述本公开的实施例。

1.一种系统，包括：一个或多个处理器；计算机可读介质，所述计算机可读介质存储计算机可执行指令，当被所述一个或多个处理器执行时，所述计算机可执行指令使得所述一个或多个处理器执行下列操作：从第一语音使能设备接收第一音频数据，所述第一音频数据代表语音发声；从所述第一语音使能设备接收第一音频信号指标值，所述第一音频信号指标值表明与所述第一音频数据关联的第一信噪比；从第二语音使能设备接收第二音频数据，所述第二音频数据代表所述语音发声；从所述第二语音使能设备接收第二音频信号指标值，所述第二音频信号指标值表明与所述第二音频数据关联的第二信噪比；确定所述第一信噪比大于所述第二信噪比；识别与所述第一语音使能设备关联的设备状态数据；通过对所述第一音频数据或所述第二音频数据中至少一个运用自动语音识别(ASR)，生成对应于所述语音发声的文本数据；通过对所述文本数据运用自然语言理解(NLU)，确定与所述语音发声关联的意图数据，所述意图数据代表要求客户端设备执行动作的请求；至少部分基于所述设备状态数据，确定所述第一语音使能设备能够执行响应所述语音发声的所述动作；确定使得所述第一语音使能设备执行所述动作的命令；以及向所述第一语音使能设备发送表明所述命令的数据。

2.根据条款1所述的系统，所述操作还包括：使得所述第二语音使能设备停止发送所述第二音频数据，在所述第一语音使能设备停止发送所述第一音频数据前，使得所述第二语音使能设备停止发送所述第二音频数据，其中生成所述文本数据是通过对所述第一音频数据运用ASR来执行的。

3.根据条款1或2之一项所述的系统，所述操作还包括：确定所述第一语音使能设备被包括在被储存的设备分组中，所述设备分组包括所述第一语音使能设备和第三语音使能设备；识别与所述被储存的设备分组关联的设备状态数据；以及确定所述被储存的设备分组能够执行响应所述语音发声的所述动作。

4.根据条款1、2或3所述的系统，其中识别与所述第一语音使能设备关联的设备状态数据包括：发送请求至事件部件，以提供与所述第一语音使能设备关联的所述设备状态数据的指示；以及从所述事件部件接收所述设备状态数据。

5.一种系统，包括：一个或多个处理器；计算机可读介质，所述计算机可读介质存储计算机可执行指令，当被所述一个或多个处理器执行时，所述计算机可执行指令使得所述一个或多个处理器执行下列操作：接收第一设备的第一设备标识；接收与所述第一设备标识关联的第一音频数据，所述第一音频数据代表一个声音；接收第二设备的第二设备标识；接收与所述第二设备标识关联的第二音频数据，所述第二音频数据代表所述声音的一部分，所述声音的所述部分少于所述第一音频数据代表的声音的全部；接收意图数据，所述意图数据代表针对所述声音的机器响应；识别与所述第一设备关联的第一设备状态数据；识别与第二设备关联的第二设备状态数据；以及至少部分基于所述第二设备状态数据，确定所述第二设备将被用于所述机器响应。

6.根据条款5所述的系统，还包括基于所述第一设备状态数据来确定所述第一设备离线。

7.根据条款5或6所述的系统，所述操作还包括：确定所述第一设备被包括在被储存的设备分组中，所述设备分组包括所述第一设备和第三设备；识别与所述被储存的设备分组关联的设备状态数据；以及基于与所述被储存的设备分组关联的所述设备状态数据，确定所述被储存的设备分组离线。

8.根据条款5、6或7所述的系统，所述操作还包括：确定所述第一设备与二级设备关联；识别与所述二级设备关联的第三设备状态数据；以及基于所述第三设备状态数据，确定所述二级设备离线。

9.根据条款5、6、7或8所述的系统，所述操作还包括：基于所述第一设备状态数据，确定所述第一设备离线；保存所述第二设备将执行所述机器响应的指示；确定使得所述第二设备执行所述机器响应的命令；以及发送表明执行所述机器响应的命令的数据至所述第二设备。

10.根据条款5、6、7、8或9所述的系统，所述操作还包括接收至少部分基于与所述第一音频数据关联的第一音频信号指标和与所述第二音频数据关联的第二音频信号指标，所述第一设备排序高于所述第二设备的指示。

11.根据条款10所述的系统，其中：与所述第一音频数据关联的所述第一音频信号指标包括下列中的至少一个：所述第一音频数据的第一信噪比值；所述第一音频数据的第一幅度；或所述第一音频数据中声音活动的第一水平；以及与所述第二音频数据关联的所述第二音频信号指标包括下列中的至少一个：所述第二音频数据的第二信噪比值；所述第二音频数据的第二幅度；或所述第二音频数据中声音活动的第二水平。

12.根据条款5、6、7、8、9、10或11所述的系统，所述操作还包括：接收所述第一设备排序高于所述第二设备的指示，其中基于下列之一或更多对所述第一设备和所述第二设备进行排序：通过所述第一设备的输入控制接收的输入；用户离所述第一设备的距离；或表明所述用户至少部分地面对所述第一设备的图像数据。

13.一种方法，包括：接收与第一设备关联的第一音频数据，所述第一音频数据代表一个声音；接收与第二设备关联的第二音频数据，所述第二音频数据代表所述声音的一部分，所述声音的所述部分少于所述第一音频数据代表的声音的全部；识别与所述第一设备关联的第一设备状态数据；识别与第二设备关联的第二设备状态数据；接收意图数据，所述意图数据代表针对所述声音的机器响应；以及至少部分基于所述第二设备状态数据，确定所述第二设备将被用于所述机器响应。

14.根据条款13所述的方法，还包括基于所述第一设备状态数据来确定所述第一设备离线。

15.根据条款13或14所述的方法，还包括：确定所述第一设备被包括在被储存的设备分组中，所述设备分组包括所述第一设备和第三设备；识别与所述被储存的设备分组关联的设备状态数据；以及基于与所述被储存的设备分组关联的所述设备状态数据，确定所述被储存的设备分组离线。

16.根据条款13、14或15所述的方法，还包括：确定所述第一设备与二级设备关联；识别与所述二级设备关联的第三设备状态数据；以及基于所述第三设备状态数据，确定所述二级设备离线。

17.根据条款13、14、15或16所述的方法，还包括：基于所述第一设备状态数据，确定所述第一设备离线；保存所述第二设备将执行所述机器响应的指示；确定使得所述第二设备执行所述机器响应的命令；以及发送表明执行所述机器响应的命令的数据至所述第二设备。

18.根据条款13、14、15、16或17所述的方法，还包括接收至少部分基于与所述第一音频数据关联的第一音频信号指标和与所述第二音频数据关联的第二音频信号指标，所述第一设备排序高于所述第二设备的指示。

19.根据条款18所述的方法，其中，与所述第一音频数据关联的所述第一音频信号指标包括下列中的至少一个：所述第一音频数据的第一信噪比值；所述第一音频数据的第一幅度；或所述第一音频数据中声音活动的第一水平；以及与所述第二音频数据关联的所述第二音频信号指标包括下列中的至少一个：所述第二音频数据的第二信噪比值；所述第二音频数据的第二幅度；或所述第二音频数据中声音活动的第二水平。

20.根据条款13、14、15、16、17或18所述的方法，还包括：生成代表输出文本数据的合成语音的输出音频数据，其中所述输出文本数据表明，所述第二设备将被用于所述机器响应；以及发送所述输出音频数据至所述第一设备。

Claims

1.一种系统，包括：

一个或更多个处理器；

计算机可读介质，所述计算机可读介质存储计算机可执行指令，当被所述一个或更多个处理器执行时，使得所述一个或更多个处理器执行下列操作：

接收第一设备的第一设备标识；

接收与所述第一设备标识关联的第一音频数据，所述第一音频数据代表声音；

接收第二设备的第二设备标识；

接收与所述第二设备标识关联的第二音频数据，所述第二音频数据代表所述声音的部分，所述声音的所述部分少于所述第一音频数据代表的所述声音的全部；

接收意图数据，所述意图数据代表针对所述声音的机器响应；

识别与所述第一设备关联的第一设备状态数据；

识别与所述第二设备关联的第二设备状态数据；以及

至少部分基于所述第二设备状态数据，确定所述第二设备将被用于所述机器响应。

2.根据权利要求1所述的系统，还包括基于所述第一设备状态数据来确定所述第一设备是离线的。

3.根据权利要求1或2任一项所述的系统，所述操作还包括：

确定所述第一设备与二级设备关联；

识别与所述二级设备关联的第三设备状态数据；以及

基于所述第三设备状态数据，确定所述二级设备是离线的。

4.根据权利要求1、2或3任一项所述的系统，所述操作还包括

基于所述第一设备状态数据，确定所述第一设备是离线的；

保存所述第二设备将要执行所述机器响应的指示；

确定使得所述第二设备执行所述机器响应的命令；以及

向所述第二设备发送指示执行所述机器响应的所述命令的数据。

5.根据权利要求1、2、3或4任一项所述的系统，所述操作还包括：至少部分基于与所述第一音频数据关联的第一音频信号指标和与所述第二音频数据关联的第二音频信号指标，接收所述第一设备的等级高于所述第二设备的指示。

6.根据权利要求5所述的系统，其中：

与所述第一音频数据关联的所述第一音频信号指标包括下列中的至少一个：

所述第一音频数据的第一信噪比值；

所述第一音频数据的第一幅度；或

所述第一音频数据中语音活动的第一水平；以及

与所述第二音频数据关联的所述第二音频信号指标包括下列中的至少一个：

所述第二音频数据的第二信噪比值；

所述第二音频数据的第二幅度；或

所述第二音频数据中语音活动的第二水平。

7.一种方法，包括：

接收与第一设备关联的第一音频数据，所述第一音频数据代表声音；

接收与第二设备关联的第二音频数据，所述第二音频数据代表所述声音的部分，所述声音的所述部分少于所述第一音频数据代表的所述声音的全部；

识别与所述第一设备关联的第一设备状态数据；

识别与所述第二设备关联的第二设备状态数据；

接收意图数据，所述意图数据代表针对所述声音的机器响应；以及

8.根据权利要求7所述的方法，还包括：

确定所述第一设备被包括在被储存的设备分组中，所述被储存的设备分组包括所述第一设备和第三设备；

识别与所述被储存的设备分组关联的设备状态数据；以及

至少部分基于与所述被储存的设备分组关联的所述设备状态数据，确定所述被储存的设备分组是离线的。

9.根据权利要求7或8任一项所述的方法，还包括：

确定所述第一设备与二级设备关联；

识别与所述二级设备关联的第三设备状态数据；以及

基于所述第三设备状态数据，确定所述二级设备是离线的。

10.根据权利要求7、8或9任一项所述的方法，还包括：

基于所述第一设备状态数据，确定所述第一设备是离线的；

保存所述第二设备将要执行所述机器响应的指示；

确定使得所述第二设备执行所述机器响应的命令；以及

11.根据权利要求7、8、9或10任一项所述的方法，还包括：至少部分基于与所述第一音频数据关联的第一音频信号指标和与所述第二音频数据关联的第二音频信号指标，接收所述第一设备的等级高于所述第二设备的指示。

12.根据权利要求11所述的方法，其中：

所述第一音频数据的第一信噪比值；

所述第一音频数据的第一幅度；或

所述第一音频数据中语音活动的第一水平；以及

所述第二音频数据的第二信噪比值；

所述第二音频数据的第二幅度；或

所述第二音频数据中语音活动的第二水平。

13.根据权利要求7、8、9、10、11或12任一项所述的方法，还包括：

通过对所述第一音频数据或所述第二音频数据中至少一个运用自动语音识别(ASR)，生成对应于包括在所述声音中的语音发声的文本数据；以及

通过对所述文本数据运用自然语言理解(NLU)，确定与所述语音发声关联的意图数据，所述意图数据代表所述机器响应。

14.根据权利要求13所述的方法，还包括：使得所述第二设备停止发送所述第二音频数据，在所述第一设备停止发送所述第一音频数据前使得所述第二设备停止发送所述第二音频数据，

其中生成所述文本数据是通过对所述第一音频数据运用ASR来执行的。

15.根据权利要求7、8、9、10、11、12、13或14任一项所述的方法，还包括：

确定所述第二设备被包括在被储存的设备分组中，所述被储存的设备分组包括所述第二设备和第三设备；

识别与所述被储存的设备分组关联的设备状态数据；以及

至少部分基于与所述被储存的设备分组关联的所述设备状态数据，确定所述被储存的设备分组能够被用于所述机器响应。