CN108351872A

CN108351872A - 用于提供响应的设备选择

Info

Publication number: CN108351872A
Application number: CN201680054589.0A
Authority: CN
Inventors: J·D·迈耶斯; A·迪恩; 月·刘; A·曼达尔; D·米勒; S·S·普拉温钱德拉
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2015-09-21
Filing date: 2016-09-20
Publication date: 2018-07-31
Anticipated expiration: 2036-09-20
Also published as: EP3353677A1; EP3353677B1; US9875081B2; JP2018537700A; KR102098136B1; KR20180042376A; US20180210703A1; JP2020016890A; US20170083285A1; US11922095B2; EP3353677A4; WO2017053311A1; JP6671466B2; CN108351872B

Abstract

一种系统，可使用多个语音接口设备来通过语音与用户交互。所述语音接口设备中的全部或部分可检测用户话语并且可启动语音处理以确定所述话语的意思或意图。在所述语音处理内，可采用仲裁来选择所述多个语音接口设备中的一个来对所述用户话语作出响应。仲裁可部分地基于直接地或间接地指示所述用户与所述设备的接近度的元数据，并且可选择被认为最靠近所述用户的所述设备来对所述用户话语作出响应。

Description

用于提供响应的设备选择

相关申请的交叉引用

本申请要求2015年9月21日提交的美国专利申请号14/860,400的优先权。所述专利申请的全部内容特此以引用的方式并入本文。

背景

随着对设备和相关联的支持服务可用的处理能力继续增加，以新的方式与用户交互变得实际。具体地，通过语音与用户交互变得实际。许多设备(包括个人计算机、智能电话、平板设备、媒体设备、娱乐设备、工业系统、基于话音的助理等等)现能够接收话音命令并且对话音命令作出响应。本文描述的是当扩展这些系统时面对的问题的技术解决方案。

附图简述

参考附图来描述详细说明。在图中，参考数字最左侧的数字标识所述参考数字首次出现的图。在不同的图中使用的相同参考编号指示类似或相同的部件或特征。

图1是示出从多个语音接口设备接收用户话语的示例性基于语音的系统的方框图。

图2是示出处理来自多个语音接口设备的多个音频信号的示例性方法的流程图。

图3是示出可由语音接口设备中的一个执行以处理接收的音频信号的另一个示例性方法的流程图。

图4是示出在两个语音设备之间仲裁的示例性方法的流程图。

图5是示出可由语音接口设备执行以向语音服务提供音频信号和伴随的元数据的示例性方法的流程图。

图6-8展示可当根据图3的方法处理来自不同语音接口设备的音频信号时，由不同解决方案引起的动作的从顶部到底部的时间序列的示例。

图9是展示示例性语音接口设备的相关部件的方框图。

图10是展示可被部分地使用来实现诸如本文描述的语音服务的示例性服务器的相关部件的方框图。

详细描述

基于语音的系统可被配置来通过语音与用户交互以从用户接收指令并且为用户提供服务。在某些实施方案中，所述系统可包括放置在房间、房屋或另一个环境内的不同位置处的多个语音接口设备。每个语音接口设备具有用于接收用户语音的麦克风，并且在一些实施方案中，可与整合的或相关联的扬声器一起起作用以便播放响应性系统语音。

每个设备的某些功能和性能可至少部分地由基于网络的服务提供，设备可通过数据通信网络(包括互联网)访问所述基于网络的服务。具体地，基于网络的服务可向设备提供语音处理和交互性能，包括自动语音识别(ASR)、自然语言理解(NLU)、响应生成和文本到语音(TTS)功能性。在确定由用户语音表述的意图之后，基于网络的服务使用语音接口设备执行功能和/或产生音频。

在某些实施方案中，语音接口设备可包括麦克风和扬声器两者。在其他实施方案中，语音接口设备可包括用于接收用户语音的麦克风，其中响应性系统生成的语音由扩音器设备提供。这种扩音器设备可受语音接口设备的控制并且可播放由语音接口设备提供的音频。可替代地，扩音器设备可从基于网络的服务接收响应性语音音频。

在多个语音接口设备彼此靠近的情境中(诸如在单一房间内或在邻近的房间中)，语音接口设备中的每一个可接收用户话语并且每个设备可独立地试图处理用户话语并且对用户话语作出响应，就好像它是两个单独话语一样。下列公开涉及除其他之外用于避免这类重复努力和响应的技术。

在描述的实施方案中，每个语音接口设备检测用户正在讲出的命令并且将表示所讲出的命令的音频信号流式传输给基于网络的语音服务。基于网络的语音服务接收音频信号，执行ASR和NLU以确定由命令表述的意图并且向语音接口设备中的一个提供响应。例如，所述响应可包括生成表示响应于用户命令将要作为声音由语音接口设备产生的字词(word)的数据。作为另一个示例，所述响应可包括针对语音接口的指令以开始播放音乐或执行另一个功能。

当从住宅内的多个语音接口设备接收音频信号时，所述系统选择设备中的将要对用户命令作出响应(例如，提供可听响应或响应于用户命令以其他方式起作用)的一个。所述选择可基于与音频信号相关联的元数据进行。作为一个示例，所述系统可试图确定用户与不同语音接口设备的接近度并且选择最靠近用户的语音接口设备。接近度可包括时间和物理接近度，并且可由元数据属性(诸如音频信号幅值、在音频信号中检测的话音存在的水平、用户语音由语音接口设备检测的相对时间以及可由语音接口设备产生或提供的其他属性)指示。例如，在第一语音接口设备处相对于第二语音接口设备的更高的音频信号幅值可指示用户比第二语音接口设备更靠近于第一语音接口。作为另一个示例，首先检测或识别用户语音的语音接口设备可以是最靠近用户的设备。

接近度还可由借助于基于网络的语音服务产生的属性(诸如ASR和NLU置信度水平)指示。在一些情况下，接近度分值可基于多个属性创建，并且对应于不同音频信号的接近度分值可进行比较来选择具有最高元数据分值的音频信号。

在一些情况下，选择多个语音处理设备中的哪一个将对接收的用户语音作出响应，可基于在其内讲出命令的情境进行。例如，新接收的命令可与同特定语音接口设备针对其作出响应的先前的命令相同的主题相关，并且相同的语音接口设备可因此被选择来对新接收的命令作出响应。作为另一个示例，最近的有源语音接口设备可被选择来响应于用户命令而提供动作或语音。作为另一个示例，在语音接口设备中的一个具有用于对语音命令提供适当响应的性能并且所述设备中的另一个不具有所述性能的情况下，具有所述性能的设备可被选择用于提供所述响应。作为又一个示例，语音命令可与语音接口设备中的一个当前正在执行，并且语音接口设备可因此被选择来对语音命令起作用或作出响应的活动相关。在一些情况下，可发生的是，第一设备响应于先前的用户命令而执行活动，并且修改这一活动的新的命令由第二设备检测。在这种情况下，基于网络的语音服务可确定新的命令与第一设备的当前活动相关，并且可选择第一设备来对用户命令作出响应。

在一些实施方案中，表示语音命令的音频信号可由第一语音接口设备提供并且第二语音接口设备可未能检测或发送语音命令，即使可使命令与第二语音接口设备当前正在执行的活动相关。例如，第二设备可在第一设备接收命令“停止”时播放音乐。所述系统可确定由第一设备接收的命令与由第二设备正在执行的活动相关，并且可检测对第二设备而不是对第一设备的响应。在这个示例中，将“停止”命令引导至第二设备，并且第二设备通过使音乐回放停止来作出响应。

图1展示基于口头命令提供服务的示例性系统100。系统具有多个语音接口设备102。语音接口设备102将在本文中被简单地称为设备102。出于论述的目的，展示两个设备102(a)和102(b)，但是系统100可以包括多于两个设备102。每个设备102具有用来捕获用户语音的一个或更多个麦克风以及用来播放语音和内容的一个或更多个扩音器。在一些实施方案中，设备102可被设计成从固定位置进行操作。在其他实施方案中，设备102可以是便捷式的。例如，设备102可包括手持式设备或其他移动设备，诸如智能电话、平板计算机、媒体播放器、个人计算机、可穿戴设备、各种类型的附件等等。

用户104被展示为通过设备102与系统100交互。设备102可定位成足够靠近于彼此，使得设备102中的两者可检测用户104的话语。

在某些实施方案中，用户与语音接口设备102的交互的主要模式可以是通过语音。例如，语音接口设备102可接收来自用户104的口头命令并且可响应于所述命令来提供服务。用户104可讲出预定义的触发表述(例如，“醒来”)，所述触发表述之后可以是指令或号令(例如，“我想要去看电影。请告诉我当地电影院正在播放什么影片。”)。所提供的服务可包括执行动作或活动、呈现媒体、获取和/或提供信息、通过由语音接口设备102生成或合成的语音提供信息、代表用户104启动基于互联网的服务等等。

对应于口头的用户请求106的声音由设备102中的每一个接收。在某些实现方式中，用户请求106可以用户104讲出的唤醒字词或其他触发表述开头以指示后续用户语音意图由设备102中的一个接收并且对所述设备102中的一个起作用。设备102可检测唤醒字词并且当后续的用户语音被引导至设备102时解释所述后续的用户语音。在某些实施方案中，唤醒字词可以是由语音接口设备102本地地检测的保留关键词。在检测到关键词之后，语音接口设备102可开始向远程的基于网络的语音识别系统提供音频信号以便检测后续的用户话语并且对后续的用户话语作出响应。

在某些实现方式中，每个设备102可具有表述检测器，所述表述检测器分析由设备102的麦克风产生的音频信号以检测唤醒字词，所述唤醒字词通常可以是预定义的字词、短语或其他声音。例如，这种表述检测器可使用关键词测位技术实现。关键词测位仪是功能部件或算法，其评估音频信号以检测音频信号中预定义的字词或表述的存在。不是产生语音的字词的转录，关键词测位仪生成真/假的输出以指示预定义的字词或表述是否在音频信号中被表示。

在某些实施方案中，音频设备102的表述检测器可被配置来分析音频信号以产生指示唤醒字词在音频信号中被表示的可能性的分值。表述检测器然后将所述分值与阈值进行比较来确定唤醒字词将是否被断言为已经被讲出。

在一些情况下，键词测位仪可使用简化的ASR(自动语音识别)技术。例如，表述检测器可使用执行音频信号的声学建模并且将音频信号的HMM模型与通过训练特定触发表述创建的一个或更多个参考HMM模型进行比较的隐马尔科夫模型(HMM)识别器。HMM模型将字词表示为一系列状态。通常，音频信号的一部分通过将其HMM模型与触发表述的HMM模型进行比较来分析，从而得到表示音频信号模型与触发表述模型的类似性的特征分值。

实际上，HMM识别器可产生对应于HMM模型的不同特征的多个特征分值。表述检测器可使用接收由HMM识别器产生的一个或更多个特征分值的支持向量机(SVM)分类器。SVM分类器产生指示音频信号包含触发表述的可能性的置信度分值。将置信度分值与置信度阈值进行比较以作出关于音频信号的特定部分是否表示触发表述的话语的最后的决定。在断言音频信号表示触发表述的话语之后，音频设备102开始将音频信号传输给远程的基于网络的话语识别系统以便检测后续的用户话语并且对所述后续的用户话语作出响应。

每个设备102接收用户请求106并且产生对应的音频信号108和相关联的元数据110。具体地，第一语音接口设备102(a)产生对应的音频信号108(a)和相关联的元数据110(a)，并且第二语音接口设备102(b)产生对应的音频信号108(b)和相关联的元数据110(b)。音频信号108(a)和108(b)中的每一个表示对应于用户请求106的相同的用户话语。

元数据110可包括可用来确定或推断用户104相对于相应设备102的接近度并且更一般地可用来确定应将语音响应和其他动作引导至设备102中的哪一个的各种信息。在这一类环境中的接近度可对应于物理接近度和时间接近度中的任一者或两者。例如，第一元数据110(a)可包括指示用户语音106由第一语音接口设备102(a)接收的时间的第一时间戳，并且第二元数据110(b)可包括指示用户语音106由第二语音接口设备102(a)接收的时间的第二时间戳。元数据110可包括如由语音接口设备102检测的其他信息，诸如音频信号108的信号能量和/或在音频信号108中的话音存在的水平。

将音频信号108和相关联的元数据110提供给语音服务112以用于分析和响应性动作。在一些情况下，语音服务112可以是由支持许多不同用户的住宅或其他楼宇中的设备102的多个服务器计算机实现的网络可访问的服务。设备102可通过广域网(诸如互联网)与语音服务112通信。可替代地，设备102中的一个或更多个可包括或提供语音服务112。

语音服务112基于可由语音服务112本身产生的元数据110和其他元数据来确定语音接口设备102中的哪一个应接收并且执行对用户请求106的响应114。这以反映用户104的可能的意图以对语音接口设备102中的特定一个讲话的方式完成。将在下文描述用于确定用户104最可能想要设备102中的哪一个对用户请求106作出响应的各种技术。

通常，语音服务112通过首先确定从设备102接收的音频信号是否表示相同话语来起作用，所述确定从设备102接收的音频信号是否表示相同话语可通过比较设备102接收用户语音的时间来执行。如果音频信号表示相同话语，诸如可被认为是接收用户语音的设备102在时间上彼此接近，那么执行仲裁来确定设备102中的哪一个应被用来提供对由音频信号表示的用户请求的响应。

语音服务112被配置来使用相应的语音处理流水线实例116(a)和116(b)来处理音频信号108(a)和108(b)。每个流水线实例116对应于设备102中的一个和由流水线实例提供的信号108。在示出的示例中，第一语音处理流水线实例116(a)对应于第一设备102(a)和对应的第一音频信号108(a)。第二语音处理流水线实例116(b)对应于第二设备102(b)和对应的第二音频信号108(b)。

每个语音处理流水线实例116具有被配置来处理接收的音频信号108的有序系列的流水线处理部件。第一语音处理流水线实例116(a)处理从第一设备102(a)接收的第一音频信号108(a)和对应的第一元数据110(a)。第二语音处理流水线实例116(b)处理从第二设备102(b)接收的第二音频信号108(b)和对应的第二元数据110(b)。每个流水线实例116可由语音服务112的不同服务器实现。

每个语音处理流水线实例116的处理部件包括被配置来分析接收的音频信号108的自动语音识别(ASR)部件118以确定口头的用户请求106的字词。处理部件还包括在流水线实例中定位在ASR部件118之后的自然语言理解(NLU)部件120。NLU部件120被配置来分析由ASR部件118产生的用户请求106的字词以确定由用户请求106表述的意图。处理部件还包括定位在流水线实例中NLU部件120之后的响应分配器122。响应分配器122被配置来基于由NLU部件120确定的意图来确定和指定对应于用户请求106的意图的语音响应或其他动作，并且向对应的设备102提供响应或指导对应的设备102响应于用户请求106而执行动作。

每个流水线实例116从对应的设备102接收音频信号108并且除非流水线实例如下文所述被中断，否则提供对相同设备102的响应114。在操作时，流水线实例116中的一个之外的全部在完成之前被中断，使得流水线实例116中的仅单一个将响应114返回至其对应的设备102。

每个流水线实例116中的处理部件包括在流水线实例116中定位在ASR部件118之前的第一源仲裁器124(a)，在流水线实例116中定位在ASR部件118之后和NLU部件120之前的第二源仲裁器124(b)，以及在流水线实例116中定位在NLU部件120之后和响应分配器122之前的第三源仲裁器124(c)。更具体地，第一源仲裁器124(a)定位在流水线实例116中，使得它在启动ASR之前的时间处被调用，并且使得ASR部件由于第一源仲裁器124(a)产生输出而被启动。第二源仲裁器124(b)定位在流水线实例116中，使得它在完成ASR之后并且在启动NLU之前的时间处被调用。因此，第二源仲裁器124(b)基于ASR部件118产生输出而被启动，并且NLU部件120基于第二源仲裁器124(b)产生输出而被启动。第三源仲裁器124(c)定位在流水线实例116中，使得它在完成NLU之后并且在调用响应分配器122之前被调用。因此，第三源仲裁器124(c)基于NLU部件120产生输出而被启动，并且响应分配器122基于第三源仲裁器124(c)产生输出而被启动。

每个源仲裁器124被配置来确定是否满足一个或更多个判据，其中所述判据与对应于流水线实例116的设备102是否应或将是用来提供对用户请求106的响应的装置相关并且指示其。判据可至少部分地基于从对应的设备102接收的元数据110。尽管结合本文的一些实施方案展示和论述了三个仲裁器，但是其他实施方案可包括一个、两个或更多个仲裁器和/或类似于结合源仲裁器124(a)、124(b)和/或124(c)论述的功能性或提供所述功能性的子集起作用的其他设备。

作为一个示例，第一元数据110(a)可包括对应于用户请求106由第一设备102(a)接收的时间的第一时间戳，并且第二元数据110(b)可包括对应于用户请求106由第二设备102(b)接收的时间的第二时间戳。第一流水线实例116(a)的每个仲裁器124可被配置来响应于(a)确定第一时间戳与第二时间戳之间的差小于阈值，从而指示表示用户请求106的声音由设备102(a)和102(b)几乎同时接收，和(b)确定第一时间戳大于第二时间戳，从而指示接收或检测用户话语的第一设备102(a)晚于第二设备102(b)而中断流水线实例116(a)。需注意，在这些示例中，时间戳可对应于开头的唤醒字词由相应的设备102检测的时间。

作为另一个示例，元数据110可包括一个或更多个信号属性。例如，信号属性可指示音频信号的幅值、音频信号的信噪比、在音频信号中检测的话音存在的水平、在音频信号中检测的唤醒字词具有的置信度水平、用户104距设备102的物理距离等等。第一流水线实例116(a)的每个仲裁器124可被配置来将关于第一音频信号108(a)的属性与第二音频信号108(b)的对应的属性进行比较并且作为否定的比较的结果而中断第一流水线实例116(a)。例如，如果第一音频信号108(a)比第二音频信号108(b)具有更低的幅值，那么可中断第一流水线实例116(a)。类似地，如果第一音频信号比第二音频信号108(b)具有更低的信噪比、话音存在、唤醒检测置信度水平或用户距离，那么可中断第一流水线实例116(a)。

作为特定示例，在第一音频设备和第二音频设备分别提供第一音频信号和第二音频信号的情况下，确定第一音频设备和第二音频信号中的哪一个将对用户话语作出响应，可包括以下中的一个或更多个：

确定第一音频信号和第二音频信号中的哪一个具有更高的强度或幅值；

确定第一设备和第二设备中的哪一个检测到更高水平的话音存在或第一音频信号和第二音频信号中的哪一个表示更高水平的话音存在；

确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值；

确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述；

确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述；

确定第一设备和第二设备中的哪一个具有特定性能；

确定第一音频信号和第二音频信号中的哪一个内字词被识别出具有更高水平的置信度；

确定在第一音频信号和第二音频信号中的哪一个内由字词表述的意图被确定具有更高水平的置信度；

确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户；

确定第一设备和第二设备中的哪一个先接收对话语作出的响应；或

确定所述第一设备和所述第二设备中的哪一个先接收所述话语。

更一般地，源仲裁器124中的每一个可在确定与流水线实例116相关联的设备102不是应将响应提供给的所述设备102之后中断其流水线实例116。当处理流水线实例的操作被中断时，中断的流水线实例并不将响应114提供给对应的设备102。中断的流水线实例还可向设备102提供指示设备102将并不用来提供对用户请求的响应的消息。作为响应，设备可停止将音频信号108提供给语音服务112。作为实例，消息或其他指示可包括数据，所述数据包括引起或导致设备进入收听模式的指令。收听模式是设备并不将音频信号108发送至语音服务112和设备监测其环境以检测唤醒字词的另外的话语的模式。在一些情况下，可将对应于终端的流水线实例的错误响应返回至设备102。在一些情况下，设备可被指导来播放音调，产生LED照明或采取一些其他动作，从而指示设备并不将要对用户请求作出响应。

语音服务112可在许多不同用户的住宅中支持语音接口设备102。在这一类描述中，假设用户104已经提供指示一组设备102与彼此相关联并且以本文所述的方式共同地被处置的配置信息。例如，用户104可将他的或她的设备102中的每一个或被共同地定位的这类设备的集合记录为与单一用户或家庭账户相关联。更具体地，用户可利用提供语音服务112和支持许多不同语音接口设备的操作的基于网络的服务提供商维护账户。账户可被配置来存储针对对应于不同家庭成员的多个用户配置文件的信息。每个用户配置文件可指示特定用户的特性和偏好。用户或家庭可将许多不同类型的设备记录为与账户相关联。账户可被配置来存储支付信息、购买信息、预订情况、联系人信息等。账户还可被配置来存储关于家庭内的语音接口设备的信息，诸如它们的位置、它们相关联的配置文件等。

本文所描述的动作关于以诸如此的方式与彼此相关联的一组设备102执行。此外，尽管本文的描述在两个设备102的情境中被给定，但是可以相同的方式使用和处置两个或更多个任意数目的设备102。

语音服务112可以是通过互联网(诸如有时被称为“云”服务)维护和访问的一个或更多个网络可访问的计算平台的一部分。通常，在语音接口设备102与语音服务112之间的通信可通过各种类型的数据通信网络(包括局域网、广域网和/或公共网络，所述公共网络可包括各种类型的无线网络，包括Wi-Fi、蓝牙网络和蜂窝通信网络)的组合实现。

图2展示在多个语音接口设备102可试图处理相同用户话语并且对所述相同用户话语作出响应所处的环境中提供对话语(诸如用户请求106)的响应的示例性方法200。图2的动作可由对设备102提供支持的网络服务(诸如图1中所示的语音服务112)的一个或更多个服务器和/或一个或更多个语音处理流水线实例116共同地实现。

动作202包括接收由第一设备102(a)产生的第一音频信号108(a)，其中第一音频信号108(a)表示第一用户话语。动作202还包括接收与第一音频信号108(a)相关联的第一元数据110(a)。在图1的情境中，第一音频信号108(a)和第一元数据110(a)可由第一处理流水线实例116(a)接收。元数据110可包括如上文描述的各种属性，所述各种属性可与对应的音频信号、提供音频信号的设备和/或与用户104相关。

动作204包括接收由第二设备102(b)产生的第二音频信号108(b)，其中第二音频信号108(b)表示第二用户话语。动作204还包括接收与第二音频信号108(b)相关联的第二元数据110(b)。在图1的情境中，第二音频信号108(b)和第二元数据110(b)可由第二处理流水线实例116(b)接收。第一处理流水线实例116(a)和第二处理流水线实例116(b)可由语音服务112的不同服务器实现。也就是说，设备102中的每一个可与语音服务112的不同服务器通信并且从所述不同服务器接收支持。

在某些实施方案中，第一元数据110(a)可包括指示接收用户话语的第一时间或接收用户话语前面的唤醒字词的第一时间的第一时间戳。类似地，第二元数据110(b)可包括指示接收用户话语的第二时间或接收用户话语前面的唤醒字词的第二时间的第二时间戳。

动作206包括确定从其已经接收第一音频信号108(a)和第二音频信号108(b)的第一设备102(a)和第二设备102(b)是否与相同用户或家庭账户相关联。如果不相关联，那么动作208执行处理音频信号108(a)和108(b)中的两者并且对所述音频信号108(a)和108(b)中的两者作出响应，其中设备102(a)和102(b)中的每一个用来响应于其相应地接收的用户话语而提供语音响应或其他动作。

如果第一设备102(a)和第二设备102(b)与相同用户或家庭账户相关联，那么执行动作210。动作210(其可在对应于设备102(a)和102(b)中的任一个或两个的处理流水线实例内执行多次)包括确定第一音频信号和第二音频信号是否表示相同用户话语。在一些实施方案中，这可通过将分别与第一音频信号和第二音频信号相关联的第一时间戳和第二时间戳进行比较来确定。更具体地，在第一时间戳与第二时间戳之间的差可被计算并且与阈值进行比较。如果差小于阈值，那么第一音频信号和第二音频信号被断言表示相同话语。如果差高于阈值，那么第一音频信号和第二音频信号被断言表示不同话语。

动作210还可使用其他判据来确定第一音频信号108(a)和第二音频信号108(b)是否表示相同话语。例如，音频信号可彼此进行比较以确定他们是否类似于彼此。具体地，动作210可包括计算第一音频信号108(a)与第二音频信号108(b)之间的互相关性。如果在信号之间存在强的互相关性，具体地，如果互相关性超过预定阈值，那么信号被断言表示相同话语。作为另一个示例，可比较关于第一音频信号108(a)和第二音频信号108(b)的ASR结果来确定音频信号是否表示匹配的字词序列。如果针对两个音频信号的ASR是完全相同的或类似的，那么两个音频信号可被认为表示相同话语。作为又一个示例，关于第一音频信号108(a)和第二音频信号108(b)的NLU结果可彼此比较。如果NLU结果指示对应于第一音频信号108(a)和第二音频信号108(b)的语音表示共同意图，那么两个音频信号可被认为表示相同话语。

动作210可使用所描述的多于一个的判据。例如，音频信号可需要满足两个或更多个判据，以便被断言为表示相同的用户话语。此外，变化了超过预定量的具有相关联的时间戳的信号可被认为表示两个不同的用户话语，而不管信号的任何其他类似性、关于信号的ASR结果或关于信号的NLU结果如何。

如果动作210确定第一音频信号108(a)和第二音频信号108(b)不表示相同用户话语，那么动作208执行处理所述音频信号中的两者并且对所述音频信号中的两者作出响应，其中设备102(a)和102(b)中的每一个用来响应于其相应地接收的用户话语而提供语音响应或其他动作。

如果动作210确定第一音频信号108(a)和第二音频信号108(b)表示相同用户话语，那么动作212在对应的设备102(a)与102(b)之间执行仲裁以确定设备中的哪一个将提供对由设备102(a)和102(b)中的两者检测和提供的单一用户话语的响应。动作212可包括比较由元数据110指示的针对音频信号108中的每一个的属性。将音频信号108具有最强属性集合的设备选择为仲裁的获胜者。

如果第一设备102(a)赢得仲裁，那么动作214执行对第一音频信号108(a)进行处理并作出响应，包括由第一设备102(a)对由第一音频信号108(a)表示的用户命令产生适当的响应。动作216包括取消对第二音频信号108(b)的处理并且取消可基于第二音频信号108(b)以其他方式提供的任何响应，包括可由设备102(b)以其他方式给定的任何响应。在一些实现方式中，将消息发送给设备102(b)从而通知设备102(b)不要从语音服务112期望另外的响应。需注意，动作214和216可并行执行或以与所示出的不同的次序执行。例如，动作216可在动作214之前执行。

如果第二设备102(b)赢得仲裁，那么动作218执行对第二音频信号108(b)进行处理并作出响应，包括由第二设备102(b)对由第二音频信号108(b)表示的用户命令产生适当的响应。动作220包括取消对第一音频信号108(a)的处理并且取消可基于第一音频信号108(a)以其他方式提供的任何响应，包括可由第一设备102(a)以其他方式给定的任何响应。在一些实现方式中，将消息发送给设备102(a)从而通知设备102(a)不要从语音服务112期望另外的响应。需注意，动作218和220可并行执行或以与所示出的不同的次序执行。例如，动作220可在动作218之前执行。

仲裁动作212可至少部分地基于第一元数据110(a)和第二元数据110(b)执行，所述第一元数据110(a)和第二元数据110(b)可包括分别与第一音频信号108(a)和第二音频信号108(b)相关的一个或更多个属性。元数据110除上文所提及的时间戳之外可指示用户104相对于对应的设备102的接近度。例如，设备102可具有用于基于由麦克风阵列的空间上独立的麦克风元件产生的麦克风信号来执行声音源定位(SSL)的性能。SSL可被实现以便基于对应于用户104的语音的接收的声音来确定用户104的距离。仲裁动作212可包括确定设备102(a)和102(b)中哪一个物理地或在声学上最靠近用户104并且选择最靠近的设备来提供对用户请求106的响应。

可替代地，每个设备102可提供可作为代理用于用户相对于设备的实际距离测量的其他元数据。例如，与音频信号108相关联的元数据110可包括音频信号108的幅值，并且动作212可包括选择产生具有最高幅值的音频信号108的设备102。元数据110可包括或可指示在音频信号108中检测的人类话音存在的水平，并且动作212可包括选择产生具有最高水平的检测的话音存在的音频信号108的设备102。类似地，元数据可包括或可指示音频信号108的信噪比，并且动作212可包括选择提供具有最高信噪比的音频信号108的设备102。作为另一个示例，元数据110可包括或指示唤醒字词或其他触发表述由设备102检测具有的置信度水平，并且动作212可包括选择检测触发表述具有最高置信度水平的设备102。作为又一个示例，元数据110可包括指示触发表述由提供音频信号的设备102检测的时间的时间戳，并且动作212可包括选择产生与最早时间戳相关联的音频信号的设备102。

在某些实施方案中，元数据可指示提供音频信号的设备的特殊性能，诸如并非所有设备具有的专用性能，并且动作212可包括选择设备102中的能够对用户请求106作出响应的那个。例如，第一设备102(a)可能够播放视频而第二设备102(b)不能。响应于播放视频的用户请求，动作212可选择第一设备102(a)，因为第二设备102(b)并不支持所请求的动作或活动。

在一些情况下，元数据110可指示设备102中的应对用户请求106作出响应的那个的特定用户名称。例如，用户请求本身可口头地辨识设备102中的一个，或用户可先前已经使所述设备配置来具有相关性质，使得设备102中的一个用于对用户请求作出响应。在这种情况下，动作212可包括选择用户已经被命名来对用户请求106作出响应的设备。

作为另一个示例，动作212可至少部分地基于设备102中的哪一个先接收对用户请求106的响应114，由此选择先接收响应114的设备102来指示或实现响应114，而其他设备忽略或取消它接收的响应。

元数据110可指示对应的设备102最后有源的时间。设备102可在它提供语音响应、播放音乐、提供通知、执行动作等时被认为是有源的。在这种情况下，动作212可包括选择最近有源的设备。

在这种情况下，动作212可包括确定新的用户话语是与设备102中的一个对其作出响应的先前用户话语相关的请求并且选择相同设备102来对新的用户话语作出响应。例如，先前的用户话语可以是第一设备102(a)对其作出响应的针对天气报道的请求。新的用户话语可以是关于天气的更加特定的请求，诸如针对5天的预报的请求。因为先前相关的请求由第一设备102(a)作出响应，所以动作208还可选择第一设备102(a)来对相关的新的请求作出响应。

在一些情况下，动作208可包括确定用户请求106与当前正在由设备102中的一个执行的活动相关并且选择相同设备102来对请求106作出响应。例如，第一设备102(a)可正在播放音乐，并且用户请求可包括“停止”命令。用户请求可被解释为与第一设备102(a)的当前活动相关，并且第一设备102(a)因此被选择为应对“停止”请求作出响应的设备。

在一些实现方式中，动作212还可基于其他元数据，诸如在每个处理流水线实例116内产生的元数据。例如，流水线实例116的ASR部件118可产生关于ASR结果的ASR置信度分值或水平。动作212可包括选择产生最高ASR置信度水平的设备102。类似地，NLU部件120可产生关于NLU结果的NLU置信度分值或水平。动作212可包括选择产生最高NLU置信度水平的设备102。

更一般地，动作212可基于涉及多个类型的元数据和其他信息的多个判据。例如，每个判据可与元数据的特定项相关，所述判据可被加权来针对每个设备102产生复合元数据分值，并且可将具有最高元数据分值的设备102选择为对用户请求106作出响应的设备。

关于图1中所示的实现方式，每个流水线实例116实现仲裁器124的若干实例，其中每个仲裁器实例124实现类似于动作210和212或与动作210和212完全相同的动作。然而，当每个流水线实例116与单一对应的设备102相关联时，单个流水线实例116内的仲裁器124仅确定在该流水线实例内并且关于对应的设备102的处理是否应该继续，并且并不关于其他流水线实例116或其他设备102中的任一个采取任何直接动作。换句话说，每个仲裁器124可起作用来中断或取消对所述仲裁器124包含在其内的流水线实例的处理，而不是中断或取消对可与不同设备102相关联的任何其他流水线实例116的处理。

处理用户请求106的不同流水线实例通常彼此不同步。因此，流水线实例116中的一个可在已经启动流水线实例中的另一个之前前进通过其部件或操作中的一个或更多个。类似地，处理单一用户请求106的两个流水线实例116可由于音频信号108的不同到达时间而在不同时间处由语音服务启动。在任何特定时间处，流水线实例中的每一个可前进至其操作的另一个。

在与单个语音接口设备102相关联的单个流水线实例116内，仲裁器124基于当前可用的信息而继续/中断决定。在一些情况下，可能仅由相关联的设备102供应的元数据当前可用。在其他情况下，出于比较，与其他设备102相关联、与其他流水线实例116相关联的元数据也可用。元数据(诸如与ASR和NLU相关的置信度分值)在任何给定时间处可能可用或可能不可用，这取决于在每个流水线实例内的进程。

图3展示了示出可关于由分别对应的语音接口设备102提供的多个接收的音频信号108中的每一个执行的一系列动作的示例性方法300。方法300由图1的语音处理的流水线实例116中的每一个执行。方法300响应于从对应的语音接口设备102接收音频信号108来启动。出于论述的目的，由方法300分析的音频信号将被称为“对象”音频信号302。由方法300的其他实例并行分析的由其他设备102提供的音频信号将被称为“其他”音频信号。类似地，与对象音频信号302相关联的元数据将被称为对象设备元数据304。提供对象音频信号302的语音接口设备102将被称为对象设备。

动作306包括接收表示用户话语(诸如口头用户请求106)的对象音频信号302。动作306还包括接收对象设备元数据304。对象设备元数据304可包括对象音频信号302的属性，诸如如上文参考图2的动作210和212所论述的信号强度、检测的话音水平、信噪比等。对象设备元数据304可包括诸如用户104距设备102的物理距离、对应于用户话语被接收或唤醒字词被检测的时间的时间戳、配置信息、连接性信息等的信息。

响应于接收对象音频信号302和对象设备元数据304执行的动作308包括将对象设备元数据304高速缓存在方法300的多个实例可访问(诸如语音服务112的多个服务器和多个处理流水线实例116可访问)的存储位置中。将方法300的所有实例高速缓存在共同存储位置中，使得每个实例能够访问由其他实例高速缓存的元数据。

也响应于接收音频信号302和设备元数据304执行的动作310(a)包括执行重复仲裁。通常，在方法300中的不同点处执行的类似的或完全相同的动作310(a)、310(b)和310(c)包括相比较于先前已经由方法300的其他实例高速缓存的其他音频信号的元数据，评估与对象音频信号302相关的对象设备元数据304和其他元数据。评估被执行以便确定当处于对象设备与其他设备中的每一个之间时，对象设备是否应对由对象音频信号302表示的话语作出响应。如果不是，那么动作312执行中断对应于对象设备的流水线实例，意味着没有方法300的另外的动作关于对象音频信号302被执行。动作312通知对象设备流水线实例已经被终止并且对象设备不应期望对对象音频信号302作出响应。在一些情况下，动作312还可包括指导对象设备停止向语音服务发送对象音频信号302。

图4示出可用来实现动作310(a)、310(b)和310(c)的示例性方法400。方法400的动作402包括获得对象音频信号302的对象设备元数据304。然后针对或关于针对其已经启用方法300的实例的其他音频信号中的每一个执行动作404的集合。

动作404包括针对或关于一个或更多个其他音频信号中的每一个执行的程序环路，其中术语“其他音频信号”用来指代不同于对象音频信号的每个多个音频信号。每个其他音频信号与其自己的元数据和已经生成另一个音频信号的对应的设备102相关联。针对其他音频信号中的每一个已经或将要启动方法300的实例。尽管如所述程序环路404针对其他音频信号中的每一个重复进行除非到达中断决定，但是它将被描述为关于其他音频信号中的单个执行。

动作406包括获得与其他音频信号相关联的元数据，诸如先前由于其他音频信号相关联的方法300的实例高速缓存的元数据。其他音频信号的元数据可包括本文描述的元数据或信息中的任一个，诸如设备元数据110和在与其他音频信号相关联的流水线实例116内产生的任何其他元数据。

动作408包括确定对象音频信号302和其他音频信号是否表示相同用户话语。动作408可使用如上文参考图2的动作210描述的相同技术执行。如果两个音频信号并不表示相同用户话语，那么关于其他音频信号并不采取另外的动作，并且动作404的集合针对其他音频信号中的不同的一个继续，如由方框410所指示。

如果两个音频信号并不表示相同用户话语，那么执行动作412。动作412包括确定方法300的另一个实例是否已经使其相关联的设备102承诺对用户话语作出响应。如果是，那么动作414执行中断与对象音频信号相关联的方法300的实例。中断方法300意味着关于对象音频信号302不采取另外的动作并且对象设备并不提供响应。此外，环路404终止。

如果另一个设备尚未承诺对用户话语作出响应，那么动作416执行确定当前对象音频信号和其他音频信号可用的元数据是否满足中断判据中的一个或更多个。中断判据可包括在对象音频信号的元数据与其他音频信号之间的关系，如上文参考图2的动作210所述。如果一个或更多个判据被满足，那么动作414执行中断与对象音频信号302相关联的方法的实例。如果中断判据未被满足，那么动作404的集合针对其他音频信号中的不同的一个重复进行，如由方框418所指示。

返回图3，动作310(a)导致决定中断或继续。如果决定被中断，那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。对象设备可被引导来停止发送对象音频信号302。

如果动作310(a)的决定继续，那么执行动作314，其包括对对象音频信号302执行自动语音识别(ASR)。ASR 314产生由对象音频信号302表示的任何用户语音的字词的文本表示。ASR还可产生指示确定用户语音的字词具有的置信度水平的ASR置信度水平。动作316包括高速缓存ASR置信度水平作为ASR元数据以与音频信号302相关联。

在ASR 314之后，执行另外的重复仲裁动作310(b)，其类似于动作310(a)或与310(a)完全相同。如果310(b)的决定被中断，那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。

如果动作310(b)的决定继续，那么执行动作318，其包括对由ASR314产生的字词的文本表示执行自然语言理解(NLU)。动作318确定由用户语音表述的可能意图并且还可产生指示确定所述意图具有的置信度水平的NLU置信度水平。动作320包括高速缓存NLU置信度水平作为NLU元数据以与音频信号302相关联。

在NLU 318之后，执行又一个重复仲裁动作310(c)，其可类似于动作310(a)和310(b)或与310(a)和310(b)完全相同。如果310(c)的决被定中断，那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。

如果动作310(c)的决定继续，那么动作322执行使对象设备承诺对用户查询作出响应。这一承诺通过执行如下动作324得知：高速缓存承诺标记，指示对对象音频信号的处理已经前进至响应于由对象音频信号表示的意图而将动作分配至对象设备的点，并且对其他音频信号的处理应被中断。当方法300的其他实例执行重复仲裁310时它们可读取这一标记，并且可基于这一标记的存在而中断它们自己。例如，图4的动作412可通过检查这一标记来执行。

动作326包括分配动作，其可包括生成和提供对对象设备的响应。动作326还可包括响应于确定的用户请求来执行其他动作，所述确定的用户请求包括除了产生语音或除其之外，向对象设备102提供指令以执行动作，诸如播放音乐、停止音乐回放、启用定时器等。

图5示出可由设备102中的每一个实现以便响应于检测的用户语音502(其可对应于用户请求106)而向语音服务112提供音频信号108和相关联的元数据110的示例性方法500。

动作504包括执行音频波束形成以产生多个定向音频信号，其中每个定向音频信号加强来自相对于设备102的不同方向的声音。动作504可使用到达时间差(TDOA)技术，诸如使用麦克风对并且使来自麦克风中的一个的信号延迟等于声音穿行麦克风之间的距离的时间的量，由此加强与两个麦克风对齐的声音源来执行。可以此方式使用不同的麦克风对以获得多个音频信号，所述多个音频信号中的每一个对应于不同方向。

动作506包括执行话音活动检测(VAD)以检测话音在定向音频信号中的存在。在定向音频信号中的一个中检测到话音存在之后，关于定向音频信号执行后续动作。在一些实施方案中，图5的后续动作关于具有最高话音存在的定向音频信号执行。

VAD通过分析音频信号的一部分来评估音频信号的特征(诸如信号能量和频率分布)来确定音频信号中话音存在的水平。所述特征被量化并且与对应于已知包含人类语音的参考信号的参考特征进行比较。所述比较产生对应于音频信号的特征与参考特征之间的类似度的分值。所述分值用作对音频信号中语音存在的检测的或可能水平的指示。

动作508包括对在其内已经检测到话音活动的定向音频信号或在其内已经检测到最高话音活动水平的定向音频信号执行唤醒字词检测。如上文所提及，预定义的字词、表述或其他声音可用作由设备102接收用户意图后续语音并且对其起作用的信号。

在描述的实施方案中，例如，唤醒字词检测可使用关键词测位技术实现。关键词测位仪是功能部件或算法，其评估音频信号以检测音频信号中预定义的字词或表述的存在。不是产生语音的字词的转录，关键词测位仪生成真/假的输出以指示预定义的字词或表述是否在音频信号中被表示。

在一些情况下，键词测位仪可使用简化的ASR(自动语音识别)技术。例如，唤醒字词检测可使用执行音频信号的声学建模并且将HMM模型与通过训练特定触发表述创建的一个或更多个参考HMM模型进行比较的隐马尔科夫模型(HMM)识别器。HMM模型将字词表示为一系列状态。通常，音频信号的一部分通过将其HMM模型与触发表述的HMM模型进行比较来分析，从而得到表示音频信号模型与触发表述模型的类似性的特征分值。实际上，HMM识别器可产生对应于HMM模型的不同特征的多个特征分值。

唤醒字词检测还可使用接收由HMM识别器产生的一个或更多个特征分值的支持向量机(SVM)分类器。SVM分类器产生指示音频信号包含触发表述的可能性的置信度分值。

动作510包括执行接近度检测以确定用户距设备102的距离。例如，接近度检测可结合二维麦克风阵列使用声音源定位(SSL)技术来实现。这类SSL技术分析在麦克风阵列的相应麦克风处接收的声音的到达时间差以便确定接收的声音所源自的方位。可替代地，设备102可具有摄像头或专用传感器以便确定用户相对于设备102的方位。

方法500的动作中的任一个可产生元数据110的事项。例如，VAD 506可产生话音存在水平，指示人在设备102附近讲话的可能性。VAD 506还可产生信噪比测量值。唤醒字词可产生唤醒字词置信度水平，对应于用户104说出的唤醒字词的可能性。唤醒字词检测508还可产生指示检测到唤醒字词的时间的时间戳。接近度检测512可产生距离参数，指示用户104距设备102的距离。

动作512包括向语音服务112发送音频信号108和元数据110。音频信号108可包括定向音频信号中的一个，诸如在其中检测语音和在其中检测唤醒字词的定向音频信号。

图6-8示出所描述的方法可导致设备102(a)和102(b)中的一个或另一个对用户请求106作出响应的方式的示例。在这些图中的每一个中，展示了由第一设备和相关联的第一流水线实例执行的动作，以及由第二设备和相关联的第二流水线实例执行的动作，以及以从顶部至底部按序列次序展示的动作。还示出与集中式高速缓存的交互。每个示例假设由第一设备和第二设备提供的信号表示共同用户话语。也就是说，动作408通过使用两个音频信号最可能表示相同用户话语的描述的技术来确定。在一些实施方案中，这可意味着与音频信号相关联的时间戳的差小于预定义阈值。图6-8中所示的事件通常对应于图3中所示的动作。

图6表示在其中音频信号由第一流水线实例和第二流水线实例几乎同时接收的情境。在这个示例中，假设由第一设备提供的音频信号比由第二设备提供的音频信号具有更高的元数据分值。例如，第一音频信号的信噪比或信号幅值可高于第二音频信号的信噪比和信号幅值。因为音频信号和伴随的元数据几乎同时被接收，所以由第二流水线实例执行的第一仲裁能够访问与第一音频信号相关联的高速缓存的元数据并且能够确定第一音频信号比第二音频信号具有更高的元数据分值。基于这一确定，第二流水线实例在启动ASR之前中断其本身，并且并不执行在删除线文本中所展示的动作。相反，第一流水线实例执行直至完成并且提供对第一设备的响应。

图7表示在其中第二流水线实例接收其音频信号显著地晚于第一流水线实例接收其音频信号的情境。更具体地，在第一流水线实例的ASR部件分析其音频信号之后，第二流水线实例接收其音频信号。图7还假设由第二设备提供的音频信号比由第一音频设备提供的音频信号具有更高的元数据分值。在这种情况下，由第一流水线实例执行的第一仲裁不能够访问关于第二音频信号的任何高速缓存的元数据，因为尚未到达第二音频信号。相反，第一流水线实例的第二仲裁能够访问与第二音频信号相关联的高速缓存的元数据，并且此时中断第一流水线实例。在这个示例中，第二流水线实例继续完成并且提供对第二设备的响应。

图8表示在其中第二流水线实例接收其音频信号显著地晚于第一流水线实例接收其音频信号的情境。在这种情况下，第二流水线实例在第一流水线会理已经承诺对用户话语作出响应之后接收第二音频信号。在这种情况下，由第二流水线实例执行的第一仲裁确定第一流水线实例已经承诺对用户话语作出响应并且在执行ASR之前中断其本身，即使第二音频信号可能已经与比第一音频信号更高的元数据分值相关联。

图9展示了示例性语音接口设备102的相关部件。语音接口设备102具有促进与用户104的音频交互的麦克风阵列902和一个或更多个语音扬声器904。麦克风阵列902产生表示来自语音接口设备102的环境的音频(诸如由用户104说出的声音)的麦克风音频信号。由麦克风阵列902产生的麦克风音频信号可包括定向音频信号或可用来产生定向音频信号，其中定向音频信号中的每一个加强来自相对于麦克风阵列902的不同径向方向的音频。

尽管语音接口设备102被描述为具有一个或更多个整合的扬声器904，但在其他实施方案中，语音接口设备102可不包括扬声器。例如，语音接口设备102可包括用户向其中发出命令的麦克风设备或可包括用于连接到另一个装置(诸如电视机)的设备。替代整合的扬声器，诸如这一类的实施方案可使用其他设备(包括具有扬声器和不同类型的专有扬声器部件的其他语音接口设备)的扬声器性能。作为一个示例，语音接口设备102可产生驱动外部扬声器的音频输出信号。作为另一个示例，语音接口设备102可通过无线数据连接(诸如蓝牙连接)驱动或控制外部扬声器。在其他情境中，语音接口设备102可结合从语音服务102而不是从语音接口设备102接收音频信号和其他指令的扬声器设备使用。在这种情况下，可将图1的响应114提供至诸如扬声器设备而不是语音接口设备102。

语音接口设备102可包括处理单元906和相关联的存储器908。处理单元906可包括一个或更多个处理器，所述一个或更多个处理器可包括通用处理器、专用处理器、处理器核心、数字信号处理器等。取决于语音接口设备102的配置，存储器908可以是非暂时性计算机存储介质类型并且可包括易失性和非易失性存储器。存储器908可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术。存储器908可包括可移除或可拆卸存储器，并且还可包括网络可访问的存储器。存储器908可包括便捷式存储介质，诸如闪存驱动器。

可以使用存储器908来存储任何数目的软件部件，所述软件部件可通过处理单元906执行。存储在存储器908中的软件部件可包括被配置来管理处于语音接口设备102内并且耦合到语音接口设备102的硬件和服务的操作系统910。此外，由存储器908存储的可执行部件可包括被配置来使用麦克风阵列902产生音频信号的音频处理部件912。音频处理部件912可包括用于处理由麦克风阵列902生成的麦克风音频信号和/或提供给扬声器904的输出音频信号的功能性。作为示例，音频处理部件912可包括用于减少由麦克风阵列902与扬声器904之间的声学耦合生成的声学回声的声学回声消除或抑制部件914。音频处理部件912还可包括用于减少所接收音频信号中的噪声(诸如麦克风音频信号而非用户语音的元素)的噪声减少部件916。

音频处理部件912可包括被配置来生成在不同方向上聚焦的定向音频信号的一个或更多个音频波束形成器或波束形成部件916。更具体地，波束形成部件916可响应于来自空间上隔开的麦克风阵列902的麦克风元件的音频信号以产生加强源自语音接口设备102的环境的不同区域或源自相对于语音接口设备102的不同方向的声音的定向音频信号。在一些情况下，波束形成部件916可产生可在仲裁中使用的元数据。例如，波束形成部件916可指示对应于每个定向音频信号的话音活动水平的信号强度。

存储在存储器908中并且由处理器906执行的可执行部件可包括监测定向音频信号中的一个或更多个以检测触发表述的系统的用户话语的唤醒字词检测部件920。如上文所述，例如，唤醒字词检测可使用关键词测位技术实现。唤醒字词检测部件920可产生元数据，诸如对应于检测唤醒字词具有的置信度的置信度分值或水平。

软件部件还可包括被配置来监测由波束形成部件918产生的定向音频信号中话音存在的水平的话音活动检测器922。出于如上文所论述的仲裁的目的，话音存在的水平可用作元数据。

设备102的软件部件还可包括可用来确定用户104距设备102的距离的声音源定位(SSL)部件924。SSL部件924被配置来分析在麦克风阵列902的相应麦克风处接收的声音的到达时间差以便确定接收的声音所源自的方位。例如，SSL部件924可使用到达时间差(TDOA)技术来确定声音源的方位或方向。出于执行如上文所论述的仲裁的目的，所确定的方位可用作元数据。

设备102可具有用来确定用户104相对于设备102的方位的接近度检测部件或系统926(诸如摄像头、测距设备或其他传感器)。而且，出于仲裁的目的，以此方式产生的方位信息可用作元数据。

语音接口设备102还具有各种硬件部件(未示出)，诸如通信部件、功率部件、I/O部件、信号处理部件、指示器、控制按钮、放大器等。

语音接口设备102可具有用于通过各种类型的网络(包括广域网、局域网、私用网络、公用网络等)与语音服务112通信的通信接口928，诸如无线或Wi-Fi网络通信接口、以太网通信接口、蜂窝网络通信接口、蓝牙通信接口等。在无线通信接口的情况下，这类接口可包括用于实现适当通信协议的无线电收发器和相关联的控制电路和逻辑。

图10示出可用来实现语音服务112的服务器1000的相关逻辑或功能部件的示例。通常，语音服务112可以由一个或更多个服务器1000来实现，其中各种功能性以各种方式重复或分布在不同的服务器中。服务器可以定位在一起或独立地定位，并且被组织成虚拟服务器、服务器库和/或服务器群。可以通过单一实体或企业的服务器来提供本文描述的功能性，或可以利用多个实体或企业的服务器和/或服务。此外，所描述的语音服务可以是向多个用户提供各种类型的功能和服务(不限于本文所描述的功能和服务)的更大基础设施的一部分。

在非常基本的配置中，示例性服务器1000可以包括处理单元1002和相关联的存储器1004。处理单元1002可包括一个或更多个处理器，所述一个或更多个处理器可包括通用处理器、专用处理器、处理器核心、数字信号处理器等。取决于服务器1000的配置，存储器1004可以是非暂时性计算机存储介质类型并且可包括易失性和非易失性存储器。存储器1004可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术。存储器1004可包括可移除或可拆卸存储器，并且还可包括网络可访问的存储器。存储器1004可包括便捷式存储介质，诸如闪存驱动器。

可以使用存储器1004来存储任何数目的软件部件，所述软件部件可通过处理单元1002执行。存储在存储器1004中的软件部件可包括被配置来管理处于服务器1000内并且耦合到服务器1000的硬件和服务的操作系统1006。此外，由存储器1004存储的可执行软件部件可包括支持语音接口设备102的基于语音的操作的服务部件1008。服务器1000还可具有用于与其他服务器1000、其他联网部件以及与位于许多不同用户的住宅或其他楼宇中的多个语音接口设备102通信的通信接口1010(诸如以太网通信适配器)。

服务部件1008的部件接收由音频处理部件912处理的一个或更多个音频信号并且执行各种类型的处理以便理解由用户语音表述的意图或意思。通常，语音部件1008被配置来(a)接收表示用户语音的信号，(b)分析信号以识别用户语音，(c)分析用户语音以确定用户语音的意思，和(d)生成响应于用户语音的意思的输出语音。

服务部件1008可包括识别接收的音频信号中的人类语音的自动语音识别(ASR)部件1012。ASR部件1012创建在定向音频信号中表示的字词的转录。服务部件1008还可包括被配置来基于用户104的所识别的语音确定用户意图的自然语言理解(NLU)部件1014。NLU部件1014分析由ASR部件1012提供的字词流并且产生字词流的意思的表示。例如，NLU部件1014可使用解析器和相关联的语法规则来分析语句和以正式定义的语言产生语句的意思的表示，所述正式定义的语言以由计算机容易地处理的方式传输概念。所述意思可语义地表示为时隙和时隙值的分层集合或框架，其中每个时隙对应于语义地定义的概念。NLU还可使用由训练数据以利用典型语音中的字词之间的统计学相关性生成的统计学模型和模式。

服务部件1008可通过将文本转换成音频以便在扬声器904处生成的文本到语音或语音生成部件1016来部分地实现。

服务部件1008还可包括负责响应于由NLU部件1014确定的用户语音的意思传导与用户104的语音对话的对话管理部件1018。对话管理部件1018可包括用来分析用户语音的意思并且确定如何对用户语音作出响应的域逻辑。对话管理部件1018可定义与不同信息或话题域(诸如新闻、交通、天气、要做的事情列表、购物列表、引用、家用自动化、零售服务等等)的规则和行为。域逻辑将口头用户陈述映射给相应的域并且负责确定对话响应和/或动作以执行响应于用户话语。

服务部件1008可包括至少部分地基于关于如上文所描述的其他音频信号的高速缓存的元数据来确定是否应将响应提供给表示用户语音的接收的音频信号的仲裁器部件1020。

服务部件1008可用来形成语音处理流水线实例116并且用于执行图3的方法300。

存储器1004可包括元数据高速缓存1024，在所述元数据高速缓存1024中元数据可由实现不同处理流水线实例的多个服务器1000高速缓存。实际上，元数据高速缓存可由多个服务器1000可访问的存储服务器和由服务器1000实现的多个语音处理流水线实例实现。

考虑到以下条款，也可理解上述内容。

1.一种系统，其包括：

第一语音处理流水线实例，所述第一语音处理流水线实例从第一语音接口设备接收第一音频信号，所述第一音频信号表示语音话语，所述第一语音处理流水线实例还接收指示第一时间的第一时间戳，在所述第一时间处唤醒字词由所述第一语音接口设备检测；

第二语音处理流水线实例，所述第二语音处理流水线实例从第二语音接口设备接收第二音频信号，所述第二音频信号表示所述语音话语，所述第二语音处理流水线还接收指示第二时间的第二时间戳，在所述第二时间处所述唤醒字词由所述第二语音接口设备检测；

所述第一语音处理流水线实例具有一系列处理部件，所述一系列处理部件包括：

自动语音识别(ASR)部件，所述自动语音识别(ASR)部件被配置来分析所述第一音频信号以确定所述语音话语的字词；

自然语言理解(NLU)部件，所述自然语言理解(NLU)部件在所述第一语音处理流水线实例中定位在所述ASR部件之后，所述NLU部件被配置来分析所述语音话语的所述字词以确定由所述语音话语表述的意图；

响应分配器，所述响应分配器在所述第一语音处理流水线实例中定位在所述NLU部件之后，所述响应分配器被配置来指定对所述语音话语作出的语音响应；

第一源仲裁器，所述第一源仲裁器在所述第一语音处理流水线实例中定位在所述ASR部件之前，所述第一源仲裁器被配置来(a)确定由在所述第一时间戳与所述第二时间戳之间的差表示的时间量小于阈值；(b)确定所述第一时间戳大于所述第二时间戳；并且(c)中断所述第一语音处理流水线实例。

2.如条款1所述的系统，其中：

所述第一语音处理流水线实例在所述ASR部件分析所述第一音频信号之后接收所述第一音频信号；并且

所述一系列处理部件包括第二源仲裁器，所述第二源仲裁器在所述第一语音处理流水线实例中定位在所述ASR部件之后，所述第二源仲裁器被配置来(a)确定由在所述第一时间戳与所述第二时间戳之间的所述差表示的所述时间量小于所述阈值；(b)确定所述第一时间戳大于所述第二时间戳；并且(c)中断所述第一语音处理流水线实例。

3.如条款1所述的系统，所述系统被配置来向所述第一语音接口设备发送所述第一语音接口设备将对所述话语不作出响应的指示。

4.如条款3所述的系统，其中所述指示包括致使所述第一语音接口设备停止向所述第一语音处理流水线实例提供所述第一音频信号并且进入所述第一语音接口设备检测所述唤醒字词的另外话语的收听模式的数据。

5.如条款1所述的系统，其中：

所述第一语音处理流水线实例还接收所述第一音频信号的第一信号属性，其中所述第一信号属性指示以下各项中的一个或更多个：

在所述第一音频信号中检测的话音存在的水平；

唤醒字词由所述第一语音接口设备检测具有的置信度；

所述第一音频信号的幅值；

所述第一音频信号的信噪比测量值；或

用户距所述第一语音接口设备的距离；

所述第二语音处理流水线实例还接收所述第二音频信号的第二信号属性，其中所述第二信号属性指示以下各项中的一个或更多个：

在所述第二音频信号中检测的话音存在的水平；

所述唤醒字词由所述第二语音接口设备检测具有的置信度；

所述第二音频信号的幅值；

所述第二音频信号的第二信噪比测量值；或

所述用户距所述第二语音接口设备的距离；并且

所述第一源仲裁器进一步被配置来将所述第一信号属性与所述第二信号属性进行比较以(a)确定与所述第一用户接口设备相比，所述用户更接近所述第二用户接口设备并且(b)中断所述第一语音处理流水线实例。

6.一种方法，其包括：

接收由第一设备产生的第一音频信号；

接收由第二设备产生的第二音频信号；

确定所述第一音频信号表示话语；

确定所述第二音频信号表示所述话语；

接收与所述第一音频信号相关联的一个或更多个第一属性；

接收与所述第二音频信号相关联的一个或更多个第二属性；以及

至少部分地基于所述一个或更多个第一属性和所述一个或更多个第二属性来确定所述第一设备将对所述话语作出响应。

7.如条款6所述的方法，其还包括向所述第一设备发送指定将由所述第一设备产生的语音的数据。

8.如条款7所述的方法，其还包括向所述第二设备发送包括导致所述第一设备进入收听模式的指令的数据。

9.如条款6所述的方法，其还包括接收指示所述第一设备与所述第二设备之间的关联性的配置信息。

10.如条款6所述的方法，其还包括确定所述第一设备和所述第二设备与用户账户相关联。

11.如条款6所述的方法，其中：

接收所述一个或更多个第一属性包括接收通过所述第一设备与所述话语相关联的第一时间；

接收所述一个或更多个第二属性包括接收通过所述第二设备与所述话语相关联的第二时间；以及

确定所述第二音频信号表示所述话语包括确定由所述第一时间与所述第二时间之间的差表示的时间小于阈值。

12.如条款6所述的方法，其还包括：

对所述第一音频信号执行自动语音识别(ASR)以确定所述话语中的一个或更多个字词；

对所述话语中的所述一个或更多个字词执行自然语言理解(NLU)以确定由所述话语表述的意图。

13.如条款6所述的方法，其中接收所述一个或更多个第一属性包括接收用户相对于所述第一设备的接近度。

14.如条款6所述的方法，其中确定所述第一设备将对所述话语作出响应包括以下各项中的一个或更多个：

确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的幅值；

确定所述第一设备和所述第二设备中的哪一个检测到更高水平的话音存在；

确定所述第一设备和所述第二设备中的哪一个具有性能；

确定所述第一音频信号和所述第二音频信号中的哪一个内字词被识别出具有更高水平的置信度；或

确定在所述第一音频信号和所述第二音频信号中的哪一个内由所述字词表述的意图被确定具有更高水平的置信度。

15.如条款6所述的方法，其中确定所述第一设备将对所述话语作出响应包括确定通过所述第一设备与所述话语相关联的第一时间先于通过所述第二设备与所述话语相关联的第二时间。

16.一种系统，其包括：

一个或更多个处理器；

一个或更多个非暂时性计算机可读介质，其存储计算机可执行指令，所述计算机可执行指令当在所述一个或更多个处理器上执行时，致使所述一个或更多个处理器执行包括以下项的动作：

接收由第一设备产生的第一音频信号；

接收由第二设备产生的第二音频信号；

确定所述第一音频信号表示话语；

确定所述第二音频信号表示所述话语；

接收与所述第一音频信号相关联的第一属性；

接收与所述第二音频信号相关联的第二属性；以及

至少部分地基于所述第一属性和所述第二属性来确定所述第一设备将对所述话语作出响应。

17.如条款16所述的系统，其中确定所述第二音频信号表示所述话语包括确定所述第一设备在所述第二设备接收所述话语的预定义时间内接收到所述话语。

18.如条款16所述的系统，其中确定所述第二音频信号表示所述话语包括计算在所述第一音频信号与所述第二音频信号之间的互相关性。

19.如条款16所述的系统，其中确定所述第二音频信号表示所述话语包括确定所述第一音频信号和所述第二音频信号表示字词的匹配序列。

20.如条款16所述的系统，其中确定所述第二音频信号表示所述话语包括：

确定所述第一音频信号表示第一用户语音；

确定所述第二音频信号表示第二用户语音；以及

确定所述第一用户语音和所述第二用户语音对应于共同意图。

21.如条款16所述的系统，其中确定所述第一设备将对所述话语作出响应包括以下各项中的一个或更多个：

确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信号幅值；

确定所述第一音频信号和所述第二音频信号中的哪一个表示更高水平的话音存在；

确定所述第一设备和所述第二设备中的哪一个先接收对所述话语作出的响应；以及

尽管已用特定于结构特征的语言描述了主题，但是将理解，所附权利要求中定义的主题不必限于所描述的具体特征。实际上，具体特征作为实施权利要求的说明性形式来公开。

Claims

1.一种方法，包括：

接收由第一设备产生的第一音频信号；

接收由第二设备产生的第二音频信号；

确定所述第一音频信号表示话语；

确定所述第二音频信号表示所述话语；

接收与所述第一音频信号相关联的一个或更多个第一属性；

2.如权利要求1所述的方法，还包括：

向所述第一设备发送指定将由所述第一设备产生的语音的数据。

3.如权利要求2所述的方法，还包括向所述第二设备发送包括导致所述第二设备进入收听模式的指令的数据。

4.如任一前述权利要求所述的方法，还包括：

接收指示所述第一设备与所述第二设备之间的关联性的配置信息；以及

确定所述第一设备和所述第二设备与用户账户相关联。

5.如任一前述权利要求所述的方法，其中：

6.如任一前述权利要求所述的方法，还包括：

对所述第一音频信号执行自动语音识别(ASR)以确定所述话语的一个或更多个字词；以及

对所述话语的所述一个或更多个字词执行自然语言理解(NLU)以确定由所述话语表述的意图。

7.如任一前述权利要求所述的方法，其中接收所述一个或更多个第一属性包括接收用户相对于所述第一设备的接近度。

8.如任一前述权利要求所述的方法，其中确定所述第一设备将对所述话语作出响应包括以下一个或更多个：

确定所述第一设备和所述第二设备中的哪一个具有性能；

9.如任一前述权利要求所述的方法，其中确定所述第一设备将对所述话语作出响应包括确定通过所述第一设备与所述话语相关联的第一时间先于通过所述第二设备与所述话语相关联的第二时间。

10.一种系统，包括：

一个或更多个处理器；

一个或更多个非暂时性计算机可读介质，其存储计算机可执行指令，所述计算机可执行指令当在所述一个或更多个处理器上执行时，致使所述一个或更多个处理器执行动作，所述动作包括：

接收由第一设备产生的第一音频信号；

接收由第二设备产生的第二音频信号；

确定所述第一音频信号表示话语；

确定所述第二音频信号表示所述话语；

接收与所述第一音频信号相关联的第一属性；

接收与所述第二音频信号相关联的第二属性；以及

11.如权利要求10所述的系统，其中确定所述第二音频信号表示所述话语包括确定所述第一设备在所述第二设备接收所述话语的预定义时间内接收到所述话语。

12.如权利要求10所述的系统，其中确定所述第二音频信号表示所述话语包括计算在所述第一音频信号与所述第二音频信号之间的互相关性。

13.如权利要求10所述的系统，其中确定所述第二音频信号表示所述话语包括确定所述第一音频信号和所述第二音频信号表示字词的匹配序列。

14.如权利要求10所述的系统，其中确定所述第二音频信号表示所述话语包括：

确定所述第一音频信号表示第一用户语音；

确定所述第二音频信号表示第二用户语音；以及

15.如权利要求10所述的系统，其中所述确定所述第一设备将对所述话语作出响应包括以下一个或更多个：