CN107924681B

CN107924681B - 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统

Info

Publication number: CN107924681B
Application number: CN201680049580.0A
Authority: CN
Inventors: R·高普兰; S·K·孙达拉姆
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2015-09-11
Filing date: 2016-09-08
Publication date: 2022-05-17
Anticipated expiration: 2036-09-08
Also published as: KR102089485B1; JP6640993B2; EP3347894A1; EP3347894B1; US10026399B2; KR20180039135A; CA2997934C; CA2997934A1; WO2017044629A1; US20170076720A1; JP2018532151A; CN107924681A

Abstract

本文描述了用于选择具有语音功能的装置来处置由多个具有语音功能的装置检测到的音频输入的架构和技术。在一些情况下，由于多个具有语音功能的装置位于用户附近，所以所述具有语音功能的装置可以在基本上相同的时间检测到来自所述用户的音频输入。所述架构和技术可以分析所述具有语音功能的装置的多种音频信号度量值以指定用于处置所述音频输入的具有语音功能的装置。

Description

用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统

相关申请

本申请要求2015年9月11日提交的美国专利申请第14/852,022号的优先权权益，所述专利申请的全部内容以引用的方式并入本文。

背景

用户越来越多地采用具有语音功能的(voice-enabled)装置来执行任务。在许多情况下，用户可以在位于多个具有语音功能的装置附近时提供话音输入。话音输入可以请求执行任务。具有语音功能的装置中的每一者可以检测话音输入并且处理所述话音输入以为用户执行任务。这可能导致为用户多次执行相同的任务。此外，在一些情况下，具有语音功能的装置中的每一者可以作出响应以向用户告知已经执行任务、请求额外的信息等。这最终产生不合意的用户经验。

附图简述

参考附图陈述详细描述。在图中，参考数字的最左边数字识别了所述参考数字第一次出现的图。在不同的图中使用相同的参考数字来指示类似或相同的项目或特征。

图1示出其中可以实施本文描述的技术的示例性架构。

图2示出服务提供方的示例性组件。

图3示出具有语音功能的装置的示例性组件。

图4示出用于在多个具有语音功能的装置之间进行仲裁的示例性过程。

图5示出用于执行初始处理以选择在其间仲裁的具有语音功能的装置的示例性过程。

详细描述

本公开描述了用于选择具有语音功能的装置来处置由多个具有语音功能的装置检测到的音频输入的架构和技术。在一些情况下，由于多个具有语音功能的装置各自位于用户附近，所以所述具有语音功能的装置可以在基本上相同的时间检测到来自用户的音频输入。所述架构和技术可以分析具有语音功能的装置的多种音频信号度量值以指定用来处置对音频输入的处理的具有语音功能的装置。这可以通过避免重复的输入处理来提高用户体验。此外，这可以允许处理最佳音频信号。

在一些实现方式中，服务提供方可以识别检测到音频输入的多个具有语音功能的装置。具有语音功能的装置可以位于彼此附近，并且因此，在基本上相同的时间检测到音频输入。在一些情况下，一些或所有具有语音功能的装置包括传感器阵列(例如，麦克风阵列)，所述传感器阵列提供用于确定多个音频信号(例如，与不同的观看方向相关联的波束成形的音频信号)的输入信号。服务提供方可以基于从具有语音功能的装置接收的音频信号度量值来选择具有语音功能的装置中的一者或多者以处置所述音频输入。举例来说，每个具有语音功能的装置可以向服务提供方提供在具有语音功能的装置处确定的音频信号的至少一个音频信号度量值。

音频信号度量值可以指示音频信号的特性。举例来说，音频信号度量值可以包括信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度、调和性等。音频信号度量值可以是一个音频信号特有的，或者可以适用于多个音频信号。举例来说，具有语音功能的装置可以确定多个波束成形的音频信号，并且选择与具有最高值的音频信号度量值相关联的波束成形的音频信号。此处，具有语音功能的装置可以向服务提供方发送选定的波束成形的音频信号的音频信号度量值以使得服务提供方能够选择用于处置对音频输入的处理的具有语音功能的装置。作为另一实例，具有语音功能的装置可以发送在具有语音功能的装置处确定的每个波束成形的音频信号的音频信号度量值。作为另一实例，具有语音功能的装置可以发送在具有语音功能的装置处确定的波束成形的音频信号的平均音频信号度量值。在其他实例中，具有语音功能的装置可以发送其他类型的音频信号度量值(例如，经加权的音频信号度量值等)。

在任何情况下，服务提供方可以基于音频信号度量值来对具有语音功能的装置进行排名。举例来说，如果在第一具有语音功能的装置处确定的音频信号的信噪比高于(大于)在第二具有语音功能的装置处确定的音频信号的信噪比，那么第一具有语音功能的装置的排名可以高于第二具有语音功能的装置。基于所述排名，服务提供方可以选择用于处置对音频输入的处理的具有语音功能的装置。例如，服务提供方可以选择与最高(最大)值的音频信号度量值相关联的具有语音功能的装置。服务提供方可以处理来自选定的具有语音功能的装置的音频信号并且忽视来自非选定的具有语音功能的装置的音频信号。为了说明，如果多个具有语音功能的装置检测到对天气信息的用户请求，并且服务提供方选择了特定具有语音功能的装置，那么服务提供方可以对来自选定的具有语音功能的装置的音频信号执行话音辨识技术，并且致使经由所述选定的具有语音功能的装置提供包括天气信息的响应。可以不对来自非选定的装置的任何音频信号进行进一步处理。

此论述突出的是，本文描述的架构和技术提高了具有可能在用户周围的多个具有语音功能的装置的用户的体验。举例来说，通过选择用于处置由多个具有语音功能的装置检测到的音频输入的具有语音功能的装置，所述架构和技术可以避免话音处理和/或响应形成的重复。此外，通过避免话音处理和/或响应形成的重复，所述架构和技术可以减少处理量和/或通信次数(例如，减少与具有语音功能的装置的用于处理输入和/或提供响应的通信)。另外，在许多情况下，所述架构和技术可以选择与最佳音频信号(例如，最佳质量信号)相关联的具有语音功能的装置。

虽然在许多情况下将用于选择具有语音功能的装置的技术论述为是由服务提供方执行，但所述技术可以另外或替代地由具有语音功能的装置和/或另一计算装置(例如，膝上型计算机、智能电话、第三方服务等)执行。

为了读者的便利而提供此简介，并且无意限制权利要求书或以下部分的范围。此外，可以通过若干方式并且在若干背景下实施在下文详细描述的技术。参考下图提供示例性实现方式和背景，如下文更详细地描述。然而，以下实现方式和背景仅是许多实现方式和背景中的一些实现方式和背景。

示例性架构

图1示出其中可以实施本文描述的技术的示例性架构100。架构100包括服务提供方102，所述服务提供方被配置成与多个具有语音功能的装置104(1)-(N)(统称为“具有语音功能的装置104”)通信以促进各种处理。举例来说，服务提供方102可以从具有语音功能的装置104接收由一个或更多个用户106(在下文称为“用户106”)提供的音频输入的音频信号。服务提供方102可以处理所述音频信号以为用户106执行任务、制定对用户106的响应等。在一些情况下，服务提供方102可以选择具有语音功能的装置104中的一者来处置由具有语音功能的装置104中的若干装置检测到的音频输入。另外或替代地，在一些情况下，服务提供方102可以选择具有语音功能的装置104中的相同或不同一者来处置音频输出。服务提供方102和具有语音功能的装置104可以经由一个或更多个网络108进行通信。一个或更多个网络108可以包括多个不同类型的网络中的任何一者或组合，所述网络例如为蜂窝网络、无线网络、局域网(LAN)、广域网(WAN)、个人区域网(PAN)、互联网等。虽然在图1中未示出，但具有语音功能的装置104中的每一者可以连接到无线接入点，例如无线路由器、小区塔等。举例来说，具有语音功能的装置104中的每一者可以无线地连接到位于用户106住宅内的无线路由器。替代地或另外，具有语音功能的装置104可以经由有线连接而彼此连接。

可以将服务提供方102实施为包括一个或更多个服务器、桌上型计算机、膝上型计算机等的一个或更多个计算装置。在一个实例中，在服务器群集、服务器农场、数据中心、主机、云计算环境或其组合中配置服务提供方102。为了说明，服务提供方102可以包括作为提供服务(例如，存储、计算、连网等)的分布式计算资源(例如，云计算、托管的计算等)而操作的任何数目的装置。

服务提供方102可以执行多种操作来辅助具有语音功能的装置104与用户106交互。服务提供方102一般可以：从具有语音功能的装置104接收音频信号和其他信息；处理所述音频信号和/或其他信息(例如，使用话音辨识、自然语言处理(NPL)等)；基于所处理的音频信号来执行任务；为具有语音功能的装置104制定响应等。举例来说，如果用户106请求具有语音功能的装置104(N)“播放Tom Petty”，那么服务提供方102可以处理来自具有语音功能的装置104(N)的音频信号，并且在理解了所述用户请求之后指令具有语音功能的装置104(N)播放Tom Petty的歌。

在一些情况下，服务提供方102可以在检测到来自同一音频源的音频输入的多个具有语音功能的装置之间进行仲裁。为此，服务提供方102可以分析在具有语音功能的装置处确定的音频信号的音频信号度量值。作为一个实例，假定具有语音功能的装置104(1)位于走廊中的橱柜上，并且具有语音功能的装置104(N)位于连接到走廊的厨房里的桌子上。还假定用户106说“天气怎么样？”在沿着走廊行进到厨房时，具有语音功能的装置104(1)和104(N)中的每一者都检测到话音输入。此处，具有语音功能的装置104(1)和104(N)中的每一者可以起始与服务提供方102的通信，以通过发送在相应的具有语音功能的装置处确定的音频信号和/或所述音频信号的音频信号度量值来处理话音输入。每个音频信号度量值一般可以指示相关联的音频信号的特性。如图1中示出，具有语音功能的装置104(1)可以向服务提供方102发送一个或更多个音频信号度量值110(1)，而具有语音功能的装置104(N)可以发送一个或更多个音频信号度量值110(M)。服务提供方102可以基于音频信号度量值来对具有语音功能的装置104(1)和104(N)进行排名，如在图1中的112处示出。服务提供方102可以从所述排名选择具有语音功能的装置(例如，排名最高的装置)。服务提供方102随后可以处理来自选定的具有语音功能的装置的音频信号并且为用户106执行任务。在此实例中，用户106已经询问了天气信息，并且因此，服务提供方102向具有语音功能的装置104(1)提供天气信息以作为说出的音频“西雅图目前是85度”进行输出。同时，服务提供方102可以忽视(或制止处理)来自非选定的装置(具有语音功能的装置104(N))的音频信号。

可以将具有语音功能的装置104中的每一者实施为计算装置，例如膝上型计算机、桌上型计算机、服务器、智能电话、电子阅读器装置、移动手持机、个人数字助理(PDA)、便携式导航装置、便携式游戏装置、平板计算机、手表、便携式媒体播放器、可穿戴计算装置(例如，手表、光学头戴式显示器(OHMD)等)、电视、计算机监视器或显示器、机顶盒、车辆中的计算机系统、家电、相机、机械手、全息系统、安全系统、恒温器、烟雾检测器、对讲机、家庭媒体系统、照明系统、加热、通风和空气调节(HVAC)系统、家庭自动化系统、投影仪、自动柜员机(ATM)、语音命令装置(VCD)等。在一些情况下，计算装置可以包括移动装置，而在其他情况下，计算装置可以是静止装置。虽然在图1中将具有语音功能的装置104示出为同一类型的装置，但具有语音功能的装置104中的每一者可以是被配置成具有任何数目的组件的任何类型的装置。

在图1的示例性架构100中，将装置仲裁技术论述为是由服务提供方102执行。然而，在其他情况下，所述技术可以由其他装置执行，例如由具有语音功能的装置104中的一者执行。为了说明，当具有语音功能的装置104(1)和104(N)都检测到来自同一音频源的音频输入时，可以将具有语音功能的装置104(1)指定为仲裁器以选择用于处置音频输入的特定装置。此处，具有语音功能的装置104(1)可以与具有语音功能的装置104(N)通信(例如，经由无线或有线连接)以接收音频信号和/或音频信号度量值。具有语音功能的装置104(1)可以执行上文参考服务提供方102而论述的仲裁技术来选择具有语音功能的装置104中的一者。在一些情况下，具有语音功能的装置104(1)可以充当用于具有语音功能的装置104(N)的中继器或回程连接(例如，代表具有语音功能的装置104(N)与服务提供方102通信)。而在其他情况下，具有语音功能的装置104(N)可以不通过具有语音功能的装置104(1)进行通信。

示例性服务提供方

图2示出图1的服务提供方102的示例性组件。如上文所论述，可以将服务提供方102实施为一个或更多个计算装置。一个或更多个计算装置可以配备有一个或更多个处理器202、存储器204和一个或更多个网络接口206。一个或更多个处理器202可以包括中央处理单元(CPU)、图形处理单元(GPU)、微处理器、数字信号处理器等。

存储器204可以包括被配置成一个或更多个“模块”的软件和/或固件功能性。术语“模块”意在表示对软件和/或固件的示例性划分以用于论述目的，并且无意表示任何类型的要求或所需的方法、方式或所需的组织。因此，虽然论述了各种“模块”，但可以不同地布置它们的功能性和/或类似的功能性(例如，组合成更少数目的模块、分解为更大数目的模块等)。如图2中示出，存储器204可以包括唤醒字模块208、话音辨识模块210、任务模块212和仲裁模块214。模块208、210、212和/或214可以是可以由一个或更多个处理器202执行的，以执行各种操作。

唤醒字模块208可以被配置成检测音频信号中的特定字或短语(例如，说出以起始与计算装置的交互的“唤醒”字或其他关键字或短语)。举例来说，唤醒字模块208可以识别在所接收的音频信号中的将触发(例如，唤醒/启动)系统的潜在关键字。唤醒字模块208可以接收一个或更多个波束成形的音频信号以确定所述波束成形的音频信号的一部分是否有可能含有对应于将要检测到的字或短语的信息。音频信号数据存储216可以存储从具有语音功能的装置104接收的一个或更多个音频信号。一旦检测到潜在的唤醒字，便可以将波束成形的音频信号传递到话音辨识模块210以确定存在哪些字或短语。

唤醒字模块208可以提供指示是否检测到唤醒字的唤醒字结果。无法检测到唤醒字可能是由于(例如)错误或因为未检测到唤醒字。在其中检测到唤醒字的一些实现方式中，唤醒字结果还可以包括潜在的唤醒字。另外或替代地，唤醒字结果可以包括指示辨识唤醒字的置信度的辨识置信度得分。因为辨识是预测，所以辨识置信度得分可以指示辨识预测的置信度。在一些情况下，可以向另一组件，例如服务提供方102的另一模块和/或具有语音功能的装置104中的一者的模块(例如，将要在波束选择期间使用的波束选择器模块)，提供唤醒字结果。此外，在一些情况下，可以向唤醒字模块208提供来自服务提供方102的另一模块(例如，话音辨识模块210)和/或具有语音功能的装置104中的一者的模块的输出以辅助检测唤醒字。

在一些情况下，具有语音功能的装置104可以连续地监听话音以检测唤醒字。此处，具有语音功能的装置104可以向服务提供方102连续地提供波束成形的音频信号以识别唤醒字。在检测到唤醒字之后，可以执行进一步处理。在其他情况下，可以在具有语音功能的装置104中的一者上在本地实施唤醒字模块208。此处，具有语音功能的装置104中的一者可以监听话音以检测唤醒字，并且在检测到唤醒字之后将处理传递到服务提供方102(例如，将处理传递到话音辨识模块210)。

话音辨识模块210可以对音频信号执行各种话音辨识技术(有时被称为自动话音辨识(ASR))。话音辨识模块210可以提供关于辨识音频信号中的字的抄本或其他输出。话音辨识模块210可以提供指示以下各者的结果：是否接受音频信号以进行话音辨识；是否从音频信号辨识到字；所辨识的字的置信度(例如，指示辨识字的置信度的辨识置信度得分)等。在一个实例中，辨识置信度得分可以指示准确地检测到字的置信水平。在一些情况下，可以向服务提供方102的另一模块和/或具有语音功能的装置104中的一者的模块(例如将要在波束选择期间使用的波束选择器模块)提供结果(例如，作为反馈)。如果话音辨识模块210检测到字，那么可以将抄本(和/或音频信号)传递到任务模块212。

任务模块212可以被配置成分析来自话音辨识模块210(和/或其他模块)的信息以解译输入和/或执行任务。在一些情况下，任务模块212采用自然语言处理(NLP)技术来确定抄本(例如，文本)的含义。基于所述含义，任务模块212可以识别将要执行的任务和/或将要提供的响应。举例来说，响应于在具有语音功能的装置处接收的请求“请订购更多的电池”，任务模块212可以通过电子商务站点执行订购电池的任务，并且随后向具有语音功能的装置发送指令以提供订购了电池的指示(例如，音频输出“好的,我已经订购了更多的电池”)。在其他实例中，可以执行其他类型的任务，例如设定日历预约、拨打电话呼叫、提供天气信息、播放音乐等。此外，可以提供其他类型的响应，例如在灯上运行以指示已经执行了任务、提供特定的可听声音(例如，哔哔声)等。

仲裁模块214可以被配置成选择用于处置输入和/或输出的具有语音功能的装置。如上文所述，在一些情况下，多个具有语音功能的装置可以检测来自用户的相同话语(或来自来源的相同声音)，这可能导致具有语音功能的装置中的每一者尝试处置所述话语。在这些情况下，服务提供方102可以在具有语音功能的装置之间进行仲裁以选择用于处置与用户的交互的最佳具有语音功能的装置。此外，这可以允许处理最佳信号(例如，最准确地表示话语的信号)。

在一些情况下，为了选择具有语音功能的装置，仲裁模块214可以执行初始处理以识别可能潜在被选择的具有语音功能的装置(例如，识别在其间仲裁的具有语音功能的装置)。也就是说，仲裁模块214可以确定从中选择的一组具有语音功能的装置。举例来说，如果多个具有语音功能的装置位于家中，那么仲裁模块214可以执行初始处理以识别对于与用户进行交互来说可能潜在最佳的多个装置的子集。仲裁模块214可以在运行时(例如，当将要执行仲裁过程时实时地)和/或预先执行所述初始处理。

在一个实例中，初始处理可以选择位于彼此和/或音频源预定距离之内/附近的具有语音功能的装置。例如，可以基于从装置的全球定位系统(GPS)传感器识别的位置来确定多个具有语音功能的装置位于彼此附近(例如，在同一房间、彼此相距数英尺)。替代地或另外，可以基于装置连接到同一无线接入点来确定多个具有语音功能的装置位于彼此附近。此处，无线接入点可以提供对特定区域(例如，房间、房屋等)的覆盖。此外，可以基于到无线接入点的信号强度来确定多个具有语音功能的装置具有语音功能的装置位于彼此附近。为了说明，如果具有语音功能的装置到无线接入点的无线连接高于强度阈值(例如，指示相对强的信号)，并且另一具有语音功能的装置到同一无线接入点的无线连接高于所述强度阈值，那么可以确定所述两个装置处于彼此附近。可以由管理员、服务提供方102、终端用户等来设定预定距离/接近度。可以将将预定距离/接近度设定为任何值，例如当用户以特定分贝水平说话时具有语音功能的装置可以听到用户的平均距离(随时间确定)。

在另一实例中，所述初始处理可以选择在基本上相同时间(例如，在时间窗内)确定音频信号的具有语音功能的装置。为了说明，如果两个具有语音功能的装置各自在彼此的阈值量时间内(例如，在时间的时间窗的相同跨度内)产生了音频信号，那么可以选择所述装置。所述选择可以基于音频信号的时戳。每个时戳可以指示产生音频信号的时间。如果在彼此接近的时间产生了音频信号，那么这可以指示(例如)装置听到来自用户的相同话语。可以由管理员、服务提供方102、终端用户等来设定时间的阈值量。

在另一实例中，初始处理可以选择与同一用户账户相关联的具有语音功能的装置。为了说明，如果多个具有语音功能的装置各自链接(注册)到同一用户账户(例如，经创建以访问内容的账户、用于访问具有语音功能的装置的账户，或任何其他账户)，那么可以选择所述多个具有语音功能的装置。

在另一实例中，所述初始处理可以选择彼此具有阈值量的类似性的音频信号(例如，指示装置听到相同话语)的具有语音功能的装置。可以(例如)使用例如Kullback-Leibler(KL)距离/散度、动态时间伸缩、基于欧几里得距离的群集内/间差异(例如，群集内/间相关性)等技术通过统计分析来确定音频信号之间的类似量。

在另一实例中，所述初始处理可以选择与各自高于阈值(例如，指示装置准确地辨识出字)的(音频信号的)辨识置信度得分相关联的具有语音功能的装置。为了说明，如果多个具有语音功能的装置中的每个装置辨识出音频信号中的字并且每个装置具有高于阈值的置信度值(指示辨识字的准确性)，那么可以选择所述多个具有语音功能的装置。高于阈值的置信度值可以指示装置相对地确信音频信号包括字。

在任何情况下，为了选择具有语音功能的装置，仲裁模块214一般可以对检测到相同声音的多个具有语音功能的装置进行排名。所述排名可以包括对来自多个具有语音功能的装置的音频信号进行排名。所述排名可以基于多种信息。例如，可以基于从具有语音功能的装置接收的音频信号度量值来对具有语音功能的装置进行排名。可以选择排在列表顶部(或朝向排名顶部)的具有语音功能的装置来处置音频输入。音频信号度量值可以包括信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度、调和性等。可以将音频信号度量值存储在音频信号度量值数据存储218中。下文参考图3进一步详细论述音频信号度量值。

作为对具有语音功能的装置进行排名的一个实例，仲裁模块214可以从具有语音功能的装置中的每一者接收音频信号度量值。每个音频信号度量值可以表示在由相应的具有语音功能的装置确定的多个音频信号之间具有最高值的音频信号度量值。为了说明，第一具有语音功能的装置可以选择用于处理话语的音频信号(如在下文参考图3详细论述的最佳音频信号)，并且向服务提供方102发送所述音频信号的音频信号度量值。类似地，检测到相同话语的第二具有语音功能的装置可以选择用于处理的音频信号(最佳音频信号)，并且向服务提供方102发送所述音频信号的音频信号度量值。服务提供方102可以根据相应的音频信号度量值来对所述两个具有语音功能的装置进行排名。例如，如果第一具有语音功能的装置与比第二具有语音功能的装置更大的SNR值相关联，那么第一具有语音功能的装置可以排名更高(朝向列表顶部)，并且可以优于第二具有语音功能的装置被选择。

作为另一实例，仲裁模块214可以基于每个相应的具有语音功能的装置的音频信号的度量来对具有语音功能的装置进行排名。此处，不让每个具有语音功能的装置都提供选定音频信号(例如，装置处的最佳音频信号)的音频信号度量值，而是每个具有语音功能的装置可以提供具有语音功能的装置的多个音频信号中的每一者(例如，一些或所有所确定的音频信号)的音频信号度量值。因此，排名可以包括具有语音功能的装置中的每一者的多个条目(例如，在第一时间针对第一音频信号度量值对特定装置进行排名，并且在第二时间针对第二音频信号度量值对特定装置进行排名)。

作为另一实例，仲裁模块214可以基于多个音频信号度量值(例如，不同类型的音频信号度量值)来对每个具有语音功能的装置进行排名。为了说明，可以根据具有语音功能的装置的SNR值和具有语音功能的装置的频谱质心量度来对具有语音功能的装置进行排名。在一些情况下，可以不同地加权不同类型的音频信号度量值。

作为另一实例，仲裁模块214可以基于平均音频信号度量值对具有语音功能的装置进行排名。此处，每个具有语音功能的装置可以发送具有语音功能的装置的多个音频信号的平均音频信号度量值。为了说明，如果具有语音功能的装置确定三个波束成形的音频信号，那么具有语音功能的装置可以发送三个波束的平均音频信号度量值(例如，平均SNR)。在一些情况下，如果一个具有语音功能的装置比另一具有语音功能的装置的平均音频信号度量值更大，那么这可以指示所述具有语音功能的装置比所述另一具有语音功能的装置更接近音频源。

在一些情况下，仲裁模块214可以基于经加权的音频信号度量值对具有语音功能的装置进行排名。为了说明，具有语音功能的装置可以选择与具有语音功能的装置的音频信号的最佳音频信号度量值(例如，最大/最高音频信号度量值，或者在一些情况下，最小/最低音频信号度量值)相关联的音频信号。可以通过具有语音功能的装置的音频信号的最佳音频信号度量值(例如，最大/最高音频信号度量值)与最差音频信号度量值(例如，最小/最低音频信号度量值)之间的差(方差)来加权最佳音频信号度量值。可以将经加权的音频信号度量值发送到服务提供方102以对多个具有语音功能的装置进行排名。

此外，在一些情况下，仲裁模块214可以基于历史统计对音频信号和/或具有语音功能的装置进行排名。举例来说，可以随时间从多种具有语音功能的装置收集音频信号的音频信号度量值。如果确定来自具有语音功能的装置的特定波束成形的音频信号在历史上曾是那个具有语音功能的装置或跨越具有语音功能的装置的最佳信号(例如，由于所述特定信号具有最高SNR)，那么仲裁模块214可以将更多加权应用于所述特定波束成形的音频信号，使得所述特定波束成形的音频信号的排名将高于另一波束成形的音频信号。因此，仲裁模块214可以随时间了解哪些音频信号和/或具有语音功能的装置一般使用起来最佳。为了说明，仲裁模块214可以了解位于墙壁旁边的具有语音功能的装置的三个特定波束成形的音频信号是一般相对良好的音频信号，而三个其他波束成形的音频信号是相对差的信号。在另一说明中，仲裁模块214可以了解特定波束成形的音频信号一般是最佳音频信号，因为用户一般在相同位置说话。

在任何情况下，仲裁模块214可以使用排名来选择具有语音功能的装置。在一些实例中，可以选择出现在排名顶部(或者朝向顶部(在顶部周围的特定位置))处的具有语音功能的装置来处置处理。此外，在其中具有语音功能的装置在排名中出现多次(对于多个音频信号度量值)的一些实例中，仲裁模块214可以选择在排名中的前N数目个位置最多出现的具有语音功能的装置。N可以是大于2的整数。为了说明，仲裁模块214可以选择占据排名中的前三个位置中的两者的第一具有语音功能的装置。

在一些情况下，如果仲裁模块214不能从排名识别最佳的具有语音功能的装置，那么仲裁模块214可以针对不同的信息重复所述排名操作。举例来说，如果两个具有语音功能的装置占据基于SNR的排名中的顶部位置(或者各自占据前N数目个位置)，那么仲裁模块214可以再次基于话语能量水平对所述两个具有语音功能的装置进行排名。

虽然本文将许多操作描述为由服务提供方102执行，但这些操作中的任一者可以由其他装置(例如，具有语音功能的装置104中的任一者)执行。因此，具有语音功能的装置104中的任一者可以包括模块208、210、212和/或214中的任一者以在本地执行处理。举例来说，可以将仲裁模块214存储在具有语音功能的装置104中的一者的存储器中，并且仲裁模块214在具有语音功能的装置104处执行本地处理以选择用于处置输入和/或输出的具有语音功能的装置。另外或替代地，可以跨越各种不同的计算装置(例如，多个服务提供方)实施模块208、210、212和/或214中的任一者。此外，虽然将各种操作描述为由模块执行，但可以将本文描述的这些操作和/或其他技术中的任一者实施为一个或更多个硬件逻辑组件，例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、系统芯片系统(SOC)、复杂可编程逻辑装置(CPLD)等。

示例性具有语音功能的装置

图3示出图1的具有语音功能的装置104中的一者的示例性组件。具有语音功能的装置104可以包括一个或更多个处理器302、存储器304、一个或更多个网络接口306，和一个或更多个麦克风308(在下文称为“麦克风308”)。一个或更多个处理器302可以包括中央处理单元(CPU)、图形处理单元(GPU)、微处理器、数字信号处理器等。虽然未示出，但但具有语音功能的装置104还可以包括一个或更多个输入/输出装置(例如，鼠标、键盘等)、一个或更多个相机(例如，后向、前向等)、一个或更多个显示器(例如，触摸屏、液晶显示器(LCD)、发光二极管(LED)显示器、有机LED显示器、等离子体显示器、电子纸张显示器等)、一个或更多个传感器(例如，加速度计、磁强计等)、一个或更多个扬声器、一个或更多个灯等。可以使用具有语音功能的装置104的任何数目的组件来从用户接收输入和/或输出响应。举例来说，麦克风308可以检测来自用户的话音输入，并且扬声器或灯可以使用已经针对所述话音输入执行了任务的指示(例如，音频输出“我已经为你订购了项目”、启用灯等)作出响应。此外，一个或更多个网络接口306可以经由一个或更多个网络进行通信(例如，接收信息或向服务提供方102发送信息，例如音频信号、音频信号度量值等)。

麦克风308可以包括被配置成接收声音的传感器(例如，换能器)。麦克风308可以产生音频输入(例如，声音)的输入信号。举例来说，麦克风308可以确定用户的话语的数字输入信号。在一些情况下，以阵列实施麦克风308。所述阵列可以布置成几何图案，例如线性几何形式、圆形几何形式或任何其他配置。举例来说，对于给定点，可以将四个传感器的阵列以90度的增量(例如，0、90、180、270)放置成圆形图案，以从四个方向接收声音。麦克风308可以处于平坦配置，或者在非平坦的三维区中相隔地定位。在一些实现方式中，麦克风308可以包括数据通信中的传感器的空间上不同的阵列。举例来说，可以包括传感器的连网阵列。麦克风308可以包括全向麦克风、方向性麦克风(例如，猎枪麦克风)等。

存储器304可以包括波束成形器模块310、音频信号度量模块312和波束选择器模块314。波束成形器模块310可以从麦克风308接收输入信号，并且对所述输入信号执行信号处理以产生音频信号。举例来说，波束成形器模块310可以使用所接收的输入信号形成(例如，确定)多个波束成形的音频信号，并且针对所述多个波束成形的音频信号中的每一者使用不同组滤波器。波束成形器模块310可以确定所述多个波束成形的音频信号中的每一者具有观看方向(有时被称为方向)，传感器阵列(例如，麦克风308)从除了所述观看方向之外的方向检测到的波形会相对于所述传感器阵列从所述观看方向检测到的波形受到抑制。所述多个波束成形的信号中的每一者的观看方向同样可以彼此间隔开。因此，每个波束成形的音频信号可以对应于不同的观看方向。

在一些情况下，可以通过使用实施自适应或可变波束成形技术的自适应或可变波束成形器来采用所述波束成形技术。此外，在一些情况下，提供多个波束成形器模块(例如，多个固定的波束成形器模块)。每个波束成形器模块利用一组滤波器权重和/或延迟来确定对应于特定观看方向的波束成形的音频信号。举例来说，可以提供六个固定的波束成形器模块以确定六个波束成形的音频信号，每个波束成形的音频信号对应于不同的观看方向。无论使用固定的还是自适应波束成形器，可以通过y(n)(k)形式的数字阵列表示所得的多个波束成形的音频信号：

{y(1)(k),y(2)(k),......,y(N)(k)},

此处，“k”是时间索引，并且“n”是对应于第n个波束成形的音频信号(和第n个观看方向)的音频流索引(或者观看方向索引)。

在一个实现方式中，将波束成形器模块310实施为波束成形器的延迟加总类型，所述波束成形器被适配成使用每个阵列传感器之间的延迟来补偿跨越所述传感器阵列的源信号方向的传播延迟的差异。通过调整波束成形器的权重和延迟，对源自所要方向(或者位置)(例如，源自说话的人员(例如，向话音辨识系统提供指令和/或输入的人员)的方向)的源信号的相位求和，而其他信号(例如，噪声、非话音等)经历相消干扰。通过调整或选择延迟加总波束成形器的权重和/或延迟，其波束成形的音频信号输出的形状可以得到控制。还可以利用其他类型的波束成形器模块。

在2014年7月30日提交的标题为“Method and System for Beam Selection inMicrophone Array Beamformers”的美国专利申请号14/447,498以及2015年6月1日提交的标题为“Feedback Based Beamformed Signal Selection”的美国专利申请号14/727,504中论述了示例性波束成形技术，所述两个申请的全部内容以引用的方式并入本文。

音频信号度量模块312可以确定由波束成形器模块310提供的多个音频信号(例如，波束成形的音频信号)中的每一者的音频信号度量值。在一些实施方案中，基于波束成形的音频信号的多个帧中的一者的样本来确定每个音频信号度量值。举例来说，可以确定多个波束成形的音频信号中的每一者的多个帧的信噪比。可以确定多个波束成形的音频信号中的每一者的每个帧的音频信号度量值f，从而产生f(n)(k)形式的数字阵列：

{f(1)(k),f(2)(k),......,f(N)(k)}

此处，“k”是时间索引，并且“n”是对应于第n个波束成形的音频信号的音频流索引(或者观看方向索引)。

音频信号度量值可以包括信噪比(SNR)、频谱质心量度(例如，峰值频谱质心量度)、话语能量水平(例如，4Hz调制能量)、频谱通量、特定百分位频率(例如，第90百分位频率)、周期性、清晰度、调和性等。频谱质心量度一般提供频谱的质心质量的量度。频谱通量一般提供频谱变化率的量度。特定百分位频率一般提供基于覆盖至少总功率的特定百分比(例如，90％)的最小频段的量度。周期性一般提供可以用于有噪声环境中的基音检测的量度。清晰度一般提供具有语音段的高值和背景噪声的低值的量度。调和性是一般提供语音段的高值和背景噪声的低值的另一量度。话语能量水平(例如，4Hz调制能量)一般提供由于说话速率而具有话音的高值的量度。在其他实施方案中，可以确定在短暂时间窗(例如，通常不超过一帧)内大概随着原始波束成形的信号数据而变的任何另一音频信号度量值。在一些情况下，可以基于波束成形的音频信号的多个帧的样本来确定音频信号度量值。此外，在一些情况下，音频信号度量值可以被称为信号特征。

在一些实现方式中，可以根据下表来定义音频信号度量值：

在一些情况下，音频信号度量模块312可以确定关于特定波束成形的音频信号的音频信号度量值。作为一个实例，可以确定与特定观看方向相关联的波束成形的音频信号的SNR值。在其他情况下，可以确定多个波束成形的音频信号的音频信号度量值。作为一个实例，可以确定针对具有语音功能的装置而确定的多个波束成形的音频信号的平均音频信号度量值，例如跨越具有语音功能的装置的任何数目的波束成形的音频信号的平均SNR值。

此外，在一些情况下，音频信号度量模块312可以加权音频信号度量值。作为一个实例，可以使音频信号度量值乘以具有语音功能的装置的波束成形的音频信号中的具有最大值的音频信号度量值(相同类型)与具有最小值的音频信号度量值(相同类型)之间的差。为了说明，可以通过具有语音功能的装置的波束成形的音频信号中的最大SNR值与最小SNR值之间的差对SNR值进行加权。最大音频信号度量值与最小音频信号度量值之间的差(或方差)可以是波束成形器的方向性的量度(例如，波束成形器对方向有多灵敏)。举例来说，相对大的差可以指示波束成形器具有高度方向性(例如，能够相对良好地检测音频源的方向以及更合意的波束成形器)，而相对小的差可以指示波束成形器不大具有方向性(例如，不能非常良好地检测音频源的方向以及不大合意的波束成形器)。在一些情况下，波束成形器的方向性可能受到环境条件影响(例如，定位在墙壁旁边、干扰的物体等)，而在其他情况下，所述方向性可以是波束成形器和/或相关联的具有语音功能的装置的硬件和/或软件的特性。例如，如果具有语音功能的装置定位在墙壁旁边，那么在波束成形的音频信号的音频信号度量值之间可能存在相对小的方差，这是因为音频输入可能会在于具有语音功能的装置处被检测到之前反射离开墙壁。

另外或替代地，音频信号度量模块312可以基于多个帧内的多个音频信号度量值f的时间平滑函数来确定多个音频信号度量值中的每一者的时间平滑的音频信号度量值(还被称为“平滑的音频信号度量值”或“平滑的特征”)。在一些实施方案中，基于多个帧内的音频信号度量值来确定平滑的音频信号度量值S。举例来说，平滑的音频信号度量值S可以基于少到信号特征数据的三个帧、基于多到信号特征数据的一千帧或更多帧。可以确定多个波束成形的音频信号中的每一者的平滑的音频信号度量值S，从而产生S(n)(k)形式的数字阵列：

{S(1)(k),S(2)(k),......,S(N)(k)}

一般来说，音频信号度量值是统计数据。音频信号度量值可以概括从波束成形的信号提取的特定信号特征的变化。音频信号度量值的实例可以是表示一段时间内的信号的最大值的音频信号度量值的峰值。可以随时间使此类音频信号度量值平滑(例如，求平均、移动平均或加权平均)，以减少音频信号度量值中的任何短持续时间噪度。

在一些实施方案中，可以基于以下关系获得用于确定平滑的音频信号度量值S的时间平滑技术：

S(k)＝alpha*S(k-1)+(1-alpha)*f(k)

在此实例中，alpha是平滑因子或时间常数。根据以上内容，确定当前帧(例如，S(k))处的平滑的音频信号度量值S包括：通过使对应于先前帧(例如，S(k-1))的平滑的音频信号度量值S乘以第一时间常数(例如，alpha)来确定第一乘积；通过使当前帧(例如，f(k))处的音频信号度量值乘以第二时间常数(例如，(1-alpha))来确定第二乘积，其中所述第一时间常数和第二时间常数之和为1；以及使第一乘积(例如，alpha*S(k-1))加上所述第二乘积(例如，(1-alpha)*f(k))。

在一些实施方案中，可以依据音频信号度量值而不同地应用所述平滑技术。举例来说，可以基于以下过程获得用于确定平滑的音频信号度量值S的另一时间平滑技术：

If(f(k)>S(k)):

S(k)＝alpha_attack*S(k-l)+(1-alpha_attack)*f(k)

Else:

S(k)＝alpha_release*S(k-l)+(l-alpha_release)*f(k)

在此实例中，alpha_attack是增高时间常数，并且alpha_release是释放时间常数。一般来说，增高时间常数比释放时间常数快。使增高时间常数比释放时间常数快允许平滑的音频信号度量值S(k)快速地跟踪信号特征的相对高的峰值(例如，当f(k)>S(k)时)，同时相对慢地跟踪音频信号度量值的相对低的峰值(例如，当f(k)<S(k)时)。在其他实施方案中，可以使用类似的技术来跟踪话音信号的最小值。一般来说，当向音频信号度量值f(k)给予较高的权重并且向先前帧的平滑的音频信号度量值给予较小的权重时，增高更快。因此，较小的alpha提供更快的增高。

波束选择器模块314可以接收音频信号(例如，波束成形的音频信号)和/或音频信号度量值，并且选择音频信号以供进一步处理。波束选择器模块314一般可以选择提供最靠近所捕获的音频输入(例如，用户的话语)的来源的音频的音频信号。波束选择器模块314可以被配置成使用多种信息来选择音频信号中的一者。举例来说，波束选择器模块314可以从具有语音功能的装置104的多个波束成形的音频信号中选择与最大音频信号度量值相关联的波束成形的音频信号。为了说明，波束选择器模块312可以基于多个波束成形的音频信号的对应的音频信号度量值来对所述多个波束成形的音频信号进行排名。波束选择器314随后可以从所述多个波束成形的音频信号中选择与(例如)最大SNR值相关联的波束成形的音频信号。可以使用选定的波束成形的音频信号来处理音频输入(例如，话音辨识等)。作为一个实例，可以向服务提供方102发送所述选定的波束成形的音频信号(和/或相关联的音频信号度量值)以进行处理。在一些情况下，波束选择器模块314使用平滑的音频信号度量值以进行选择。

在一些实施方案中，如果还确定具有最大平滑的音频信号的波束成形的音频信号包括语音(或者话音)，那么波束选择器模块314可以选择所述波束成形的音频信号。可以通过多种方式检测语音和/或话音检测，包括使用语音活动检测器。作为一个实例，波束选择器模块314可以首先确定候选的波束成形的音频信号是否包括语音和/或话音，并且随后从包括语音和/或话音的候选的波束成形的音频信号中选择波束成形的音频信号。作为另一实例，波束选择器模块314可以首先确定候选的波束成形的音频信号的平滑的音频信号度量值。波束选择器模块314随后可以确定拥有具有最大值的平滑的音频信号度量值的波束成形的音频信号是否包括语音和/或话音。如果包括语音和/或话音，那么可以选择拥有具有最大值的平滑的音频信号度量值的波束成形的音频信号以供进一步处理。如果不包括语音和/或话音，那么波束选择器模块314可以确定具有下一最高平滑的音频信号度量值的波束成形的信号是否包括语音和/或话音。如果包括语音和/或话音，那么可以选择那个波束成形的音频信号以供进一步处理。如果不包括语音和/或话音，那么波束选择器模块314可以继续以平滑的音频信号度量值的降序来评估波束成形的信号，直到确定了包括语音和/或话音的波束成形的音频信号为止。可以选择所述波束成形的音频信号以供进一步处理。

在一些情况下，为了促进更稳健的波束选择，波束选择器模块314可以基于来自一个或更多个话音处理元件(例如，话音辨识模块、唤醒字模块等)的反馈来选择波束成形的音频信号。所述反馈可以包括指示以下各者的信息：是否接受音频信号以用于话音辨识；是否从音频信号辨识出字；辨识出的字的置信度(例如，由话音辨识模块辨识的字有多大可能性准确)；是否针对音频信号起始任务和/或响应(例如，播放歌、添加日历事件等在音频信号中是否检测到唤醒字；辨识唤醒字的置信度等。波束选择器模块312可以利用所述反馈对波束成形的音频信号进行排名和/或选择。举例来说，已经检测到唤醒字的波束成形的音频信号可以排在已经检测到和识别出唤醒字的波束成形的音频信号之下。类似地，经由话音辨识模块提供了产生高置信度辨识检测的数据的波束成形的音频信号的排名可以高于提供了产生较低的置信度辨识的数据的波束成形的音频信号。

虽然本文将许多操作描述为由具有语音功能的装置104执行，但这些操作中的任一者可以由其他装置(例如，任何服务提供方102)执行。因此，服务提供方102可以包括模块310、312和/或314中的任一者。举例来说，服务提供方102可以从具有语音功能的装置104接收波束成形的音频信号，并且确定每个波束成形的音频信号的音频信号度量值。此外，虽然将各种操作描述为由模块执行，但可以将本文描述的这些操作和/或其他技术中的任一者实施为一个或更多个硬件逻辑组件，例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、系统芯片系统(SOC)、复杂可编程逻辑装置(CPLD)等。

存储器204和/或304(以及本文描述的所有其他存储器)可以包括计算机可读介质(例如，存储介质)中的一者或组合。计算机可读介质包括在用于存储例如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法和技术中实施的易失性和非易失性、可移除和非可移除介质。计算机可读介质包括，但不限于，相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器或其他存储器技术、压缩磁盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储装置，或可以用于存储供计算装置访问的信息的任何其他非暂时性介质。如本文界定，计算机可读介质不包括暂时性通信介质，例如没有非暂时性介质的已调制的数据信号和载波。因此，计算机可读介质包括非暂时性计算机可读介质。

示例性过程

图4和图5示出用于采用本文描述的技术的示例性过程400和500。为了易于说明，将过程400和500描述为在图1的架构100中执行。举例来说，过程400和500的个别操作中的一者或多者可以由服务提供方102和/或具有语音功能的装置104中的任一者执行。然而，可以在其他架构中执行过程400和500。另外，可以使用架构100来执行其他过程。

将过程400和500示出为逻辑流图，所述过程的每个操作表示可以在硬件、软件或其组合中实施的一连串操作。在软件背景下，所述操作表示存储在一个或更多个计算机可读存储介质上的计算机可执行指令，所述计算机可执行指令在由一个或更多个处理器执行时会配置所述一个或更多个处理器以致使计算装置执行所叙述的操作。一般来说，计算机可执行指令包括执行特定功能或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。不希望将描述操作的次序理解为限制，并且可以通过任何次序和/或并行地组合任何数目的所描述的操作来实施过程。此外，可以省略任何数目的操作。

图4示出用于在多个具有语音功能的装置之间进行仲裁的示例性过程400。

在402处，可以识别多个具有语音功能的装置。这可以包括识别(或者确定)在基本上相同的时间(在彼此的阈值量时间内)从单个话语接收音频输入的第一具有语音功能的装置和第二具有语音功能的装置。

在404处，可以从每个具有语音功能的装置接收一个或更多个音频信号度量值。音频信号度量值可以是针对与在具有语音功能的装置处接收的音频输入相关联的波束成形的音频信号。音频信号度量值可以包括信噪比、频谱质心量度、话语能量水平(例如，4HZ调制能量)、频谱通量、特定百分位频率(例如，第90百分位频率)、周期性、清晰度、调和性等。在一个实例中，操作404可以包括接收多个音频信号度量值中的具有最佳值的音频信号度量值，其中所述多个音频信号度量值中的每一者与由具有语音功能的装置确定的不同的波束成形的音频信号相关联。具有最佳值的音频信号度量值可以是具有最高(最大)值的音频信号。替代地，具有最佳值的音频信号度量值可以是具有最低(最小)值的音频信号。在另一实例中，操作404可以包括接收具有语音功能的装置的多个音频信号度量值中的平均音频信号度量值。在另一实例中，操作404可以包括接收具有语音功能的装置的多个音频信号度量值。在一些情况下，可以例如通过具有语音功能的装置的多个音频信号度量值中的具有最佳值(最高值，或者在一些情况下，最低值)的音频信号度量值和具有最差值(最低值，或者在一些情况下，最高值)的音频信号度量值之间的差对音频信号度量值进行加权。

在406处，可以对多个具有语音功能的装置进行排名。操作406可以基于多个具有语音功能的装置中的个别具有语音功能的装置的音频信号度量值。在一些情况下，可以针对不同的音频信号度量值、不同的排名技术等对具有语音功能的装置多次进行排名。

在408处，可以选择具有语音功能的装置以用作选定的具有语音功能的装置。作为一个实例，操作408可以选择出现在排名顶部处的具有语音功能的装置。作为另一实例，操作408可以选择在排名中的前N个数目的位置出现最多的具有语音功能的装置，其中N是大于2的整数。

在410处，可以致使处理选定的具有语音功能的装置的音频信号。在一些情况下，操作410包括向服务提供方发送指令以处理选定的具有语音功能的装置的音频信号(例如，在具有语音功能的装置执行仲裁过程的情况下)。在其他情况下，操作410包括处理选定的具有语音功能的装置的音频信号(例如，在服务提供方执行仲裁过程的情况下)。

在412处，可以至少部分基于经过处理的音频信号来执行任务。举例来说，所述任务可以包括执行由用户请求的功能。

在414处，可以致使选定的具有语音功能的装置输出关于任务的指示。在一些情况下，操作414包括向选定的具有语音功能的装置发送指令。所述指令可以请求所述选定的具有语音功能的装置输出已经完成任务的指示。在其他情况下，操作414包括输出指示(例如，提供话音输出、显示响应、启用灯等)。

图5示出用于执行初始处理以选择在其间仲裁的具有语音功能的装置的示例性过程500。在一些情况下，可以在图4的过程400之前执行过程500。在其他情况下，可以在其他时间执行过程500。

在502处，可以确定产生与具有语音功能的装置相关联的音频信号的时间。可以针对多个具有语音功能的装置中的每一者重复操作502。

在504处，可以确定具有语音功能的装置的位置。可以针对多个具有语音功能的装置中的每一者重复操作504。

在506处，可以确定与具有语音功能的装置相关联的账户。举例来说，操作506可以识别具有语音功能的装置所注册到的用户账户。可以针对多个具有语音功能的装置中的每一者重复操作506。

在508处，可以确定与第一具有语音功能的装置相关联的音频信号和与第二具有语音功能的装置相关联的音频信号之间的类似性。

在510处，可以确定与具有语音功能的装置相关联的音频信号的辨识置信度得分。辨识置信度得分可以指示关于对音频信号的字的辨识的置信水平。可以针对多个具有语音功能的装置中的每一者重复操作510。

在512处，可以确定音频源的位置。举例来说，可以使用源定位算法来确定用户位于何处(例如，相对于具有语音功能的装置)。源定位算法可以包括导向响应功率与相位变换(SRP PHAT)、广义交叉相关与相位变换(GCC PHAT)、最小方差无失真响应与相位变换(MVDR PHAT)等。

在514处，可以执行初始处理。所述初始处理可以选择在其间仲裁的具有语音功能的装置。所述初始处理可以基于操作502-512的一个或更多个确定。举例来说，在出现以下情况的情况下可以选择多个具有语音功能的装置：在相同时间或者在彼此的阈值量时间内(例如，在彼此的一秒内、几分之一秒内等)产生相关联的音频信号；装置位于彼此附近；装置与同一账户相关联；来自装置的音频信号具有阈值量的类似性；来自装置的音频信号的辨识置信度得分各自高于阈值；装置位于音频源(例如，用户)的预定接近度内，等等。

虽然在执行初始选择处理的背景下论述了操作502-512，但在一些情况下，可以在其他背景下执行操作502-512。举例来说，可以使用操作502-512的确定中的一者或多者来辅助在过程400的操作408处选择具有语音功能的装置。

可以鉴于以下条款来描述本公开的实施方案：

条款A：一种方法，包括：通过计算装置确定在基本上相同的时间接收到音频输入的第一具有语音功能的装置和第二具有语音功能的装置；通过所述计算装置从所述第一具有语音功能的装置接收指示与第一波束成形的音频信号相关联的信噪比的第一音频信号度量值，已经在所述第一具有语音功能的装置处确定了在所述第一具有语音功能的装置处接收的所述音频输入的所述第一波束成形的音频信号，针对相对于所述第一具有语音功能的装置的方向来确定所述第一波束成形的音频信号；通过所述计算装置从所述第二具有语音功能的装置接收指示与第二波束成形的音频信号相关联的信噪比的第二音频信号度量值，已经在所述第二具有语音功能的装置处确定了在所述第二具有语音功能的装置处接收的所述音频输入的所述第二波束成形的音频信号，针对相对于所述第二具有语音功能的装置的方向来确定所述第二波束成形的音频信号；通过所述计算装置确定与所述第一波束成形的音频信号相关联的所述信噪比大于与所述第二波束成形的音频信号相关联的所述信噪比；通过所述计算装置使用一种或多种话音辨识技术来处理所述第一波束成形的音频信号；通过所述计算装置执行与所述音频输入相关联的任务；以及通过所述计算装置向所述第一具有语音功能的装置发送指令，所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。

条款B：如条款A所述的方法，其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的最大的信噪比，所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号，已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。

条款C：如条款A或B所述的方法，其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的平均信噪比，所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号，已经在所述第一具有语音功能的装置处确定了所述多个波束成形的音频信号中的每一者。

条款D：如条款A至条款C中的任一者所述的方法，其中通过多个不同的波束成形的音频信号的具有最高值的信噪比与具有最低值的信噪比之间的差对所述第一音频信号度量值的信噪比进行加权，所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号，已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。

条款E：一种系统，包括：一个或更多个处理器；以及存储器，所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令，所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作，所述操作包括：识别与第一音频信号相关联的第一音频信号度量值，所述第一音频信号与第一具有语音功能的装置相关联；识别与第二音频信号相关联的第二音频信号度量值，所述第二音频信号与第二具有语音功能的装置相关联；至少部分基于所述第一音频信号度量值和所述第二音频信号度量值来选择所述第一具有语音功能的装置；以及处理所述第一音频信号。

条款F：如条款E所述的系统，其中所述操作进一步包括：确定在彼此的阈值量时间内产生了所述第一音频信号和所述第二音频信号。

条款G：如条款E或条款F所述的系统，其中所述操作进一步包括：确定所述第一具有语音功能的装置和所述第二具有语音功能的装置位于彼此的预定距离内。

条款H：如条款E至条款G中的任一者所述的系统，其中所述操作进一步包括：确定所述第一具有语音功能的装置和所述第二具有语音功能的装置与同一账户相关联。

条款I：如条款E至条款H中的任一者所述的系统，其中所述操作进一步包括：确定所述第一音频信号和所述第二音频信号彼此具有阈值量的类似性。

条款J：如条款E至条款I中的任一者所述的系统，其中所述操作进一步包括：确定所述第一音频信号的第一辨识置信度得分和所述第二音频信号的第二辨识置信度得分各自高于阈值，所述第一辨识置信度得分指示在所述第一音频信号中准确地检测到字的置信水平，所述第二辨识置信度得分指示在所述第二音频信号中准确地检测到所述字或不同字的置信水平。

条款K：如条款E至条款J中的任一者所述的系统，其中所述第一音频信号度量值包括以下之一：信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度或调和性。

条款L：如条款E至条款K中的任一者所述的系统，其中所述第一音频信号度量值是多个音频信号度量值中最高的，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。

条款M：如条款E至条款L中的任一者所述的系统，其中所述第一音频信号度量值包括多个音频信号度量值的平均音频信号度量值，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。

条款N：如条款E至条款M中的任一者所述的系统，其中通过多个音频信号度量值中的具有最高值的音频信号度量值与具有最低值的音频信号度量值之间的差来对所述第一音频信号度量值进行加权，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的所述第一音频信号或不同的音频信号相关联。

条款O：如条款E至条款N中的任一者所述的系统，其中所述操作进一步包括：执行与所述第一音频信号相关联的任务；以及向所述第一具有语音功能的装置发送指令，所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。

条款P：一种系统，包括：一个或更多个处理器；以及存储器，所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令，所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作，所述操作包括：确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入；至少部分基于所述第一具有语音功能的装置的第一波束成形的音频信号的第一音频信号度量值和所述第二具有语音功能的装置的第二波束成形的音频信号的第二音频信号度量值来对所述第一具有语音功能的装置和所述第二具有语音功能的装置进行排名；选择所述第一具有语音功能的装置来继续处理所述音频输入；以及致使处理所述第一波束成形的音频信号。

条款Q：如条款P所述的系统，其中所述系统包括所述第一具有语音功能的装置，所述第一具有语音功能的装置进一步包括：包括多个麦克风的麦克风阵列，所述多个麦克风中的每一者被配置成确定所述音频输入的输入信号；其中所述操作进一步包括：至少部分基于来自所述多个麦克风的所述输入信号来确定多个波束成形的音频信号，针对相对于所述第一具有语音功能的装置的方向来确定所述多个波束成形的音频信号中的每一者，所述多个波束成形的音频信号包括所述第一波束成形的音频信号；以及确定所述第一音频信号度量值。

条款R：如条款P或条款Q所述的系统，其中所述操作进一步包括至少部分基于所述第一音频信号度量值而从所述多个波束成形的音频信号中选择所述第一波束成形的音频信号。

条款S：如条款P至条款R中的任一者所述的系统，其中所述操作进一步包括：识别所述第一波束成形的音频信号的第三音频信号度量值；其中进一步至少部分基于所述第三音频信号度量值来对所述第一具有语音功能的装置进行排名。

条款T：如条款P至条款S中的任一者所述的系统，其中所述操作进一步包括：确定多个音频信号度量值中的具有最高值的波束成形的音频信号度量值与具有最低值的波束成形的音频信号度量值之间的差，所述多个音频信号度量值中的每一者与由所述第一具有语音功能的装置确定的音频信号相关联；以及至少部分基于所述差，对所述第一音频信号度量值进行加权以产生经加权的第一音频信号度量值；其中至少部分基于所述经加权的第一音频信号度量值来对所述第一具有语音功能的装置进行排名。

结论

尽管已经用结构特征和/或方法动作特有的语言描述了实施方案，但应理解，本公开不一定受限于所描述的特定特征或动作。而是，本文将所述特定特征和动作公开为实施所述实施方案的说明形式。

Claims

1.一种用于在两个具有语音功能的装置之间进行仲裁的系统，所述系统包括：

一个或更多个处理器；以及

存储器，所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令，所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作，所述操作包括：

识别与第一音频信号相关联的第一音频信号度量值，所述第一音频信号与第一具有语音功能的装置相关联；

识别与第二音频信号相关联的第二音频信号度量值，所述第二音频信号与第二具有语音功能的装置相关联；

确定所述第一具有语音功能的装置和所述第二具有语音功能的装置与同一用户账户相关联；

至少部分基于所述第一音频信号度量值和所述第二音频信号度量值来选择所述第一具有语音功能的装置；以及

处理所述第一音频信号。

2.如权利要求1所述的系统，其中所述操作进一步包括：

确定在彼此的阈值量时间内产生所述第一音频信号和所述第二音频信号。

3.如权利要求1或2所述的系统，其中所述操作进一步包括：

确定所述第一具有语音功能的装置和所述第二具有语音功能的装置位于彼此的预定距离内。

4.如权利要求1或2所述的系统，其中所述操作进一步包括：

确定所述第一音频信号和所述第二音频信号彼此具有阈值量的相似性。

5.如权利要求1或2所述的系统，其中所述操作进一步包括：

确定所述第一音频信号的第一辨识置信度得分和所述第二音频信号的第二辨识置信度得分各自高于阈值，所述第一辨识置信度得分指示在所述第一音频信号中准确地检测到字的置信水平，所述第二辨识置信度得分指示在所述第二音频信号中准确地检测到所述字或不同字的置信水平。

6.如权利要求1或2所述的系统，其中所述第一音频信号度量值包括以下之一：信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度或调和性。

7.如权利要求1或2所述的系统，其中所述第一音频信号度量值是多个音频信号度量值中最高的，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。

8.如权利要求1或2所述的系统，其中所述第一音频信号度量值包括多个音频信号度量值的平均音频信号度量值，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。

9.如权利要求1或2所述的系统，其中通过多个音频信号度量值中的具有最高值的音频信号度量值与具有最低值的音频信号度量值之间的差来对所述第一音频信号度量值进行加权，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的所述第一音频信号或不同的音频信号相关联。

10.如权利要求1或2所述的系统，其中所述操作进一步包括：

执行与所述第一音频信号相关联的任务；以及

向所述第一具有语音功能的装置发送指令，所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。

11.一种用于在两个具有语音功能的装置之间的仲裁中的方法，所述方法包括：

至少部分基于所述第一音频信号度量值和所述第二音频信号度量值：

处理所述第一音频信号并忽略所述第二音频信号；以及

响应于所述音频输入使所述第一具有语音功能的装置输出数据。

12.如权利要求11所述的方法，进一步包括：确定在彼此的阈值量时间内产生所述第一音频信号和所述第二音频信号。

13.如权利要求11或12所述的方法，进一步包括：确定所述第一具有语音功能的装置和所述第二具有语音功能的装置位于彼此的预定距离内。

14.如权利要求11或12所述的方法，进一步包括：确定所述第一具有语音功能的装置和所述第二具有语音功能的装置与同一用户账户相关联。

15.如权利要求11或12所述的方法，进一步包括：确定所述第一音频信号和所述第二音频信号彼此具有阈值量的相似性。

16.如权利要求11或12所述的方法，进一步包括：确定所述第一音频信号的第一辨识置信度得分和所述第二音频信号的第二辨识置信度得分各自高于阈值，所述第一辨识置信度得分指示在所述第一音频信号中准确地检测到字的置信水平，所述第二辨识置信度得分指示在所述第二音频信号中准确地检测到所述字或不同字的置信水平。

17.如权利要求11或12所述的方法，其中所述第一音频信号度量值包括以下之一：信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度或调和性。

18.如权利要求11或12所述的方法，其中所述第一音频信号度量值是多个音频信号度量值中最高的，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。

19.如权利要求11或12所述的方法，其中所述第一音频信号度量值包括多个音频信号度量值的平均音频信号度量值，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。

20.如权利要求11或12所述的方法，其中通过多个音频信号度量值中的具有最高值的音频信号度量值与具有最低值的音频信号度量值之间的差来对所述第一音频信号度量值进行加权，所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的所述第一音频信号或不同的音频信号相关联。

21.如权利要求11或12所述的方法，进一步包括：

执行与所述第一音频信号相关联的任务；以及

22.一种用于在两个具有语音功能的装置之间进行仲裁的系统，所述系统包括：

第一具有语音功能的装置，其具有第一扬声器和第一多个麦克风；

第二具有语音功能的装置，其具有第二扬声器和第二多个麦克风；远程服务器计算机，其包含一个或更多个处理器，所述一个或更多个处理器耦合至所述第一具有语音功能的装置和所述第二具有语音功能的装置；以及

确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入；

至少部分基于所述第一具有语音功能的装置的第一波束成形的音频信号的第一音频信号度量值和所述第二具有语音功能的装置的第二波束成形的音频信号的第二音频信号度量值来对所述第一具有语音功能的装置和所述第二具有语音功能的装置进行排名；

确定所述第一具有语音功能的装置排名高于所述第二具有语音功能的装置；

选择所述第一具有语音功能的装置以继续处理所述音频输入，并且忽略所述第二波束成形的音频信号；以及

致使处理所述第一波束成形的音频信号。

23.如权利要求22所述的系统，其中

所述第一多个麦克风中的每一者被配置成确定所述音频输入的输入信号；

其中所述操作进一步包括：

至少部分基于来自所述第一多个麦克风的所述输入信号来确定多个波束成形的音频信号，针对相对于所述第一具有语音功能的装置的方向来确定所述多个波束成形的音频信号中的每一者，所述多个波束成形的音频信号包括所述第一波束成形的音频信号；以及

确定所述第一音频信号度量值。

24.如权利要求23所述的系统，其中所述操作进一步包括：

至少部分基于所述第一音频信号度量值而从所述多个波束成形的音频信号中选择所述第一波束成形的音频信号；以及

识别所述第一波束成形的音频信号的第三音频信号度量值；

其中进一步至少部分基于所述第三音频信号度量值来对所述第一具有语音功能的装置进行排名。

25.如权利要求22至24中任一项所述的系统，其中所述操作进一步包括：

确定多个音频信号度量值中的具有最高值的波束成形的音频信号度量值与具有最低值的波束成形的音频信号度量值之间的差，所述多个音频信号度量值中的每一者与由所述第一具有语音功能的装置确定的音频信号相关联；以及

至少部分基于所述差，对所述第一音频信号度量值进行加权以产生经加权的第一音频信号度量值；

其中至少部分基于所述经加权的第一音频信号度量值来对所述第一具有语音功能的装置进行排名。

26.一种用于在两个具有语音功能的装置之间的仲裁中的方法，所述方法包括：

确定对应于所述音频输入的第一波束成形的信号，所述第一波束成形的信号具有第一音频度量值；

确定对应于所述音频输入的第二波束成形的信号，所述第二波束成形的信号具有第二音频度量值；

致使处理所述第一波束成形的音频信号。

27.如权利要求26所述的方法，其中所述第一具有语音功能的装置包括：包括多个麦克风的麦克风阵列，所述多个麦克风中的每一者被配置成确定所述音频输入的输入信号，其中所述方法进一步包括：

至少部分基于来自所述多个麦克风的所述输入信号来确定多个波束成形的音频信号，针对相对于所述第一具有语音功能的装置的方向来确定所述多个波束成形的音频信号中的每一者，所述多个波束成形的音频信号包括所述第一波束成形的音频信号；以及

确定所述第一音频信号度量值。

28.如权利要求27所述的方法，进一步包括：

识别所述第一波束成形的音频信号的第三音频信号度量值；

29.如权利要求26至28中任一项所述的方法，进一步包括：

30.一种用于在两个具有语音功能的装置之间的仲裁中的方法，所述方法包括：

由计算装置确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入；

由所述计算装置从所述第一具有语音功能的装置接收指示与第一波束成形的音频信号相关联的信噪比的第一音频信号度量值，已经在所述第一具有语音功能的装置处确定了在所述第一具有语音功能的装置处接收的所述音频输入的所述第一波束成形的音频信号，针对相对于所述第一具有语音功能的装置的方向来确定所述第一波束成形的音频信号；

由所述计算装置从所述第二具有语音功能的装置接收指示与第二波束成形的音频信号相关联的信噪比的第二音频信号度量值，已经在所述第二具有语音功能的装置处确定了在所述第二具有语音功能的装置处接收的所述音频输入的所述第二波束成形的音频信号，针对相对于所述第二具有语音功能的装置的方向来确定所述第二波束成形的音频信号；

由所述计算装置确定与所述第一波束成形的音频信号相关联的所述信噪比大于与所述第二波束成形的音频信号相关联的所述信噪比；

由所述计算装置使用一种或多种话音辨识技术来处理所述第一波束成形的音频信号；

由所述计算装置执行与所述音频输入相关联的任务；以及

由所述计算装置向所述第一具有语音功能的装置发送指令，所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。

31.如权利要求30所述的方法，其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的最大的信噪比，所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号，已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。

32.如权利要求30或31所述的方法，其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的平均信噪比，所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号，已经在所述第一具有语音功能的装置处确定了所述多个波束成形的音频信号中的每一者。

33.如权利要求30或31所述的方法，其中由多个不同的波束成形的音频信号的具有最高值的信噪比与具有最低值的信噪比之间的差对所述第一音频信号度量值的信噪比进行加权，所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号，已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。