CN108962258A

CN108962258A - 多个语音识别设备之间的协调

Info

Publication number: CN108962258A
Application number: CN201810500648.3A
Authority: CN
Inventors: B.D.汤姆森
Original assignee: Crown Audio Inc
Current assignee: Crown Audio Inc
Priority date: 2017-05-24
Filing date: 2018-05-23
Publication date: 2018-12-07
Anticipated expiration: 2038-05-23
Also published as: US20180342244A1; US10665232B2; CN108962258B; KR20180128838A; JP7202075B2; EP3407348A1; JP2018197855A; EP3407348B1

Abstract

本发明的一个实施例阐述了一种用于选择语音识别设备的机制，所述语音识别设备被包括在此类设备的网络中，以处理与检测到的话语事件对应的音频命令。所述网络中的所述语音识别设备单独确定所述设备中的哪一个设备最适合处理与所述话语事件对应的所述音频命令。在操作中，检测到相同话语事件的所述语音识别设备中的每一者独立地选择相同的设备来处理所述音频命令。因为包括所选择的设备在内的所述语音识别设备中的每一者选择相同的设备来处理所述音频命令，所以所述语音识别设备不需要彼此共享与所选择的设备有关的信息。

Description

多个语音识别设备之间的协调

技术领域

本发明总体上涉及语音识别设备，并且更具体地涉及多个语音识别设备之间的协调。

背景技术

消费者空间中的语音识别变得越来越普遍。语音识别的一个用例是独立式语音识别设备，用于侦听关键词或关键短语并处理任何后续接收到的基于语音的命令。随着语音识别设备变得越来越普遍，诸如家庭或办公室之类的环境在给定的基于语音的命令的收听范围内具有多个语音识别设备将是司空见惯的。

在实践中，语音识别设备独立操作，使得给定设备将处理设备接收的每个基于语音的命令。这种独立操作导致在具有许多这种设备的环境中出现不希望的结果。具体地，每个语音识别设备可以基于接收的基于语音的命令独立地执行动作，该命令应理想地仅由一个设备执行。例如，用于将恒温器上的温度增加5度的语音命令可能被多个设备串行地且独立地执行，导致温度增加到不舒适或不安全的范围。

在一些系统中，主设备在不同语音识别设备之间进行协调以选择用于处理每个基于语音的命令的设备之一。这种系统的一个缺点是当主设备作为所有语音识别设备之间的协调中介工作时，处理基于语音的命令的延迟增加。这种系统的另一个缺点是主设备总是存在并且可用。因此，在主设备脱机的情况下，整个系统无法按需要运行。

发明内容

本发明的一个实施例阐述了用于处理基于话语的命令的方法。该方法包括生成与已经在本地检测到的话语事件相关联的一组特征并且从外部设备接收与由外部设备检测到的话语事件相关联的第二组特征。该方法还包括基于该组特征和第二组特征之间的比较来确定响应于该话语事件的动作应当在本地执行，并且在本地执行该动作。

所公开的方法的一个优点是在本地检测话语事件的设备可以独立地确定它是否相对于可能已经检测到话语事件的其他设备而言最适合于处理对应于话语事件的音频命令。以这种方式，设备网络中的每个设备独立地选择最适合处理对应于话语事件的音频命令的设备。另一个优点是减少了由不同设备响应相同话语事件而执行重复动作的情况。

附图说明

图1示出了被配置为实现本发明的一个或多个方面的系统环境。

图2示出根据一个实施例的VRD的框图。

图3是根据一个实施例的用于处理基于话语的命令的方法步骤的流程图。

具体实施方式

在以下描述中，阐述了许多具体细节以提供对本发明更透彻的理解。然而，对于本领域技术人员来说显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实践本发明。在其他情况下，为了避免模糊本发明，没有描述众所周知的特征。

图1示出了被配置为实现本发明的一个或多个方面的系统环境100。如所示出的，系统环境100包括语音识别设备(VRD)网络102、处理系统106和音频信号108。

VRD网络102包括多个VRD 104(1)-(N)(也统称为“VRD 104”，并且分别称为“VRD104”)。在一个实施例中，VRD网络102中的VRD 104基于网络连接、物理接近度和/或共享用户标识被自动分组。在另一个实施例中，VRD 104被手动分组，使得用户选择要包括在VRD网络102中的单独的VRD 104。

每个VRD 104由音频命令控制，使得VRD 104完全或部分地处理音频命令以执行一个或多个动作。VRD 104包括至少一个用于捕获音频命令(例如，人类说出的语音命令)的麦克风。VRD 104还包括至少一个音频输出机构(例如扬声器)和/或用于连接到外部音频输出机构(例如，用于连接到外部扬声器的音频插孔或蓝牙)的机构。音频输出机制用于将音频输出传递给VRD 104的用户。音频输出可以是录音、文本到语音播放、音乐、新闻等。

每个VRD 104经由网络连接与VRD网络102中的每个其他VRD 104连接。如下面更详细描述的，VRD 104通过网络连接彼此通信以协调VRD 104执行的一个或多个动作。此外，每个VRD 104经由网络连接而连接到远离VRD网络102的处理系统106。在一个实施例中，VRD104结合处理系统106操作以处理经由麦克风捕获的音频命令。

VRD 104通过处理入射在麦克风上的音频信号108来在“收听”状态下操作，以识别说出的关键词或关键短语。一旦识别了关键词或关键短语，VRD 104通过处理入射在麦克风上的任何其他音频信号108来切换到“动作”状态以识别音频命令。在一个实施例中，在动作状态下，VRD 104执行与所识别的音频命令相关联的一个或多个动作。在替代实施例中，在动作状态中，音频信号108被记录并传送到处理系统106。处理系统106对接收到的音频信号108执行一种或多种语音识别技术以识别音频命令，并且可选地执行与音频命令相关联的一个或多个动作。VRD 104通知用户处理音频命令和任何相关动作的结果。该通知可以是可视的(例如闪光灯)和/或基于音频(例如，预先记录的音频、文本到语音的音频等)。

在给定时间，与话语事件相关联的音频信号108入射到包括在若干VRD 104中的麦克风上。因此，VRD 104协调以确定哪个VRD 104最适合于处理对应于话语事件的音频命令。在操作中，当给定的VRD 104切换到动作状态时，VRD 104确定VRD网络102中的其他VRD 104是否也响应了导致VRD 104切换到动作状态的相同话语事件。如果是，则VRD 104选择VRD104中的一个来处理对应于话语事件的音频命令。响应相同话语事件的每个VRD 104独立地选择相同的VRD 104来处理音频命令。因为包括选择的VRD 104的每个VRD 104选择用于处理音频命令的相同的VRD 104，所以VRD 104不需要彼此共享与所选择的VRD 104相关的信息。以下讨论提供了有关此选择过程的详细信息。

图2示出根据一个实施例的给定VRD 104的框图。如图所示，VRD 104包括时钟同步引擎、话语识别引擎204、交叉VRD通信引擎206、VRD选择引擎208和本地命令处理引擎210。

时钟同步引擎202保持在VRD网络102中的所有VRD 104之间同步的时钟。在一个实施例中，同步时钟是专用时钟。在另一个实施例中，同步时钟是通过使每个VRD 104跟踪本地时钟与商定的主时钟之间的时间差的偏移量的近似值来计算的时钟值。一些同步时钟的技术包括网络时间协议(NTP)和全球定位卫星(GPS)。

话语识别引擎204分析音频信号以识别对应于话语事件的语音内容(在本文中被称为“识别的语音”)。在一个实施例中，音频信号的分析基于对应于来自词汇表的单词、短语或命令的声学模型。本领域的技术人员将理解，用于识别语音内容的任何其他技术都在该范围内。

话语识别引擎204还生成与识别的话语的各种特征相关联的元数据。具体地，话语识别引擎204基于接收到的音频信号的能量测量和音频信号中的背景噪声来生成与识别的语音相关联的输入质量度量。在一个实施例中，由于来自音频源的声音强度依据距离的平方而下降，音频信号的能量越低，输入质量度量越低。话语识别引擎204还基于所识别的语音相对于所说单词是准确和/或正确的置信度来生成与所识别的语音相关联的输出质量度量。此外，话语识别引擎204生成与所识别的语音相关联的定时信息。在一个实施例中，定时信息指示从时钟同步引擎202捕获的时间戳，该时间戳对应于与VRD 104接收到与识别的语音相关联的音频信号的时间。

在一个实施例中，话语识别引擎204结合处理系统106进行操作以执行语音识别和/或元数据生成操作。在这样的实施例中，话语识别引擎204将接收到的音频信号发送到处理系统106，并且作为响应，接收识别的语音和/或关联的元数据。

话语识别引擎204将识别的语音和对应于本地检测到的话语事件的关联的元数据发送到交叉VRD通信引擎206和VRD选择引擎208。交叉VRD通信引擎206将识别的语音和相关联的元数据发送到VRD网络102中的其他VRD 104。在一些实施例中，检测到相同话语事件的VRD网络102中的其他VRD 104(在此称为“外部VRD 104”)将与外部检测到的话语事件相对应的语音和元数据发送到交叉VRD通信引擎206。交叉VRD通信引擎206将来自话语识别引擎204的识别的语音和相关联的元数据以及从外部VRD 104接收的识别的语音和关联的元数据发送到VRD选择引擎208。

VRD选择引擎208选择检测到给定话语事件的VRD 104中的一个，以处理与话语事件相关联的命令。在操作中，VRD选择引擎208从话语识别引擎204接收识别的语音以及与本地检测到的话语事件相对应的关联的元数据。VRD选择引擎208还从交叉VRD通信引擎208接收与外部检测到的话语事件相对应的识别的语音以及相关联的元数据。这些外部检测到的话语事件被外部VRD 104检测到。VRD选择引擎208确定本地检测到的话语事件是否与外部检测到的话语事件相同(如果有的话)，并且如果是，则确定检测到话语事件的哪个VRD 104应该进一步处理识别的语音。

为了确定本地检测到的话语事件是否与外部检测到的话语事件相同，VRD选择引擎208评估对应于每个检测到的话语事件的元数据。具体地，如果包括在与本地检测到的话语事件和外部检测到的话语事件对应的元数据中的定时信息指示事件发生在彼此的阈值时间内，则VRD选择引擎208确定本地和外部检测到的话语事件是相同的。另外，如果对应于本地检测到的话语事件和外部检测到的话语事件的识别的语音匹配(或基本匹配)，则VRD选择引擎208确定本地和外部检测到的话语事件是相同的。在一些实施例中，VRD选择引擎208(i)不接收对应于外部检测到的话语事件的识别的语音和元数据，或者(ii)外部检测到的话语事件都不与本地检测到的话语事件相同。在这样的实施例中，VRD选择引擎208选择本地VRD 104以进一步处理识别的语音。

当一个或多个外部VRD 104也检测到话语事件时，本地VRD 104中的VRD选择引擎208选择VRD 104中的一个VRD来进一步处理所识别的语音。所选择的VRD 104可以是本地VRD 104或外部VRD 104。在操作中，跨越不同VRD 104的每个VRD选择引擎208选择相同的VRD 104以进一步处理识别的语音。如果选择的VRD 104是本地VRD 104，则本地VRD 104继续处理识别的语音(使用本地命令处理引擎210)。然而，如果所选择的VRD 104是外部VRD104，则本地VRD 104不再处理所识别的语音。

为了选择将进一步处理识别的语音的VRD 104，VRD选择引擎208评估与每个检测到的话语事件相对应的识别语音的元数据和/或内容。具体而言，VRD选择引擎208评估定时信息、输入质量度量、输出质量度量和识别的语音的内容中的一个或多个，以选择将进一步处理识别的语音的VRD 104。以下讨论描述VRD选择引擎208可以如何单独使用定时信息、度量和识别语音的内容中的每一项来进行选择。在其他实施例中，定时信息、度量和识别语音的内容可以使用加权函数进行组合，或者可以单独使用或组合使用，以在最终选择之前过滤某些VRD 104。

关于定时信息，VRD选择引擎208评估与检测到的话语事件对应的时间戳，并识别具有最早的时间戳的检测到的话语事件。如上所述，对应于检测到的话语事件的时间戳指示检测到话语事件的VRD 104接收到音频信号的时间。检测到对应于最早时间戳的话语事件的VRD 104被选择用于进一步处理识别的语音。在两个或更多个检测到的话语事件具有时间相同或接近的时间戳的情况下，VRD选择引擎208执行平局决胜操作。在一个实施例中，平局决胜操作选择具有最低MAC地址的VRD 104。

关于输入质量度量，对于每个检测到的话语事件，VRD选择引擎208基于对应的输入质量度量来计算输入质量分数。为了计算输入质量分数，VRD选择引擎208确定在人类话语的典型频率(例如，300Hz至3kHz)内的音频信号的能量的量。如果对于给定的检测到的话语事件，小于音频信号的能量的阈值量在该范围内，则检测到的话语事件不太可能是人类话语，或者可能包括与人类话语相结合的显著噪声。VRD选择引擎208还将音频信号的能量的量与对应于先前检测到的成功处理的话语事件的音频信号的能量的量进行比较。如果对于给定的检测到的话语事件，能量的量在先前检测到的话语事件的范围内，则检测到的话语事件更可能是人类话语，并且音频信号可能具有良好的质量。VRD选择引擎208还确定所接收的音频的整体质量。音频的总体质量可以基于音频是否包括可识别的噪声(例如，弹出或点击)和/或音频的采样率。

VRD选择引擎208基于人类话语的典型频率内的能量的量、能量的量与先前检测到的话语事件之间的比较以及音频的总体质量来计算给定的检测到的话语事件的输入质量分数。VRD选择引擎208可以将数值与这些特征中的每一个相关联，然后对这些数值进行加权和求和以计算输入质量得分。VRD选择引擎208比较对应于每个检测到的话语事件的输入质量分数，以确定哪个VRD 104接收到最佳质量的音频信号并且应该被选择用于进一步处理话语事件。在一个实施例中，检测具有最高输入质量分数的话语事件的VRD 104被选择用于进一步处理识别的语音。在其他实施例中，VRD选择引擎208将输入质量分数与检测到的话语事件相关联的其他度量相结合以进行选择。

关于输出质量度量，VRD选择引擎208评估对应于检测到的话语事件的输出质量度量并且识别具有最高输出质量度量的检测到的话语事件。如上所述，与识别的语音相关联的输出质量度量指示所识别的语音相对于所说单词是准确和/或正确的置信度。检测到对应于最高输出质量度量的话语事件的VRD 104被选择用于进一步处理识别的语音。在两个或更多个检测到的话语事件具有可比较的质量和/或置信度值的情况下，VRD选择引擎208执行平局决胜操作。在一个实施例中，平局决胜操作选择具有最低MAC地址的VRD 104。

关于识别的语音的内容，VRD选择引擎208评估与检测到的话语事件对应的内容，并确定识别相同内容的VRD 104的数量。当VRD 104的至少阈值数量或百分比识别相同的内容时，VRD选择引擎208选择识别该内容的VRD 104中的一个，以进一步处理识别的语音。在VRD 104的至少阈值数量或百分比未识别相同内容的情况下，VRD选择引擎208可以确定不应该选择VRD 104中的任何一个用于进一步处理识别的语音。

如上所述，VRD选择引擎208可以使用加权函数来组合定时信息、度量和所识别语音的内容，以选择将进一步处理所识别的语音的VRD 104。跨越不同VRD 104的每个VRD选择引擎208使用相同的标准来选择相同的VRD 104以用于进一步处理所识别的语音。如果选择的VRD 104是本地VRD 104，则本地VRD 104继续处理识别的语音。然而，如果所选择的VRD104是外部VRD 104，则本地VRD 104不再处理所识别的语音。由于跨越不同VRD 104的每个VRD选择引擎208选择相同的VRD 104以用于进一步处理识别的语音，所以VRD 104不需要彼此传递该选择。

本地命令处理引擎210在本地执行与包括在识别的语音中的音频命令相关联的一个或多个动作。在替代实施例中，本地命令处理引擎210与处理系统106协调以执行与音频命令相关联的一个或多个动作。本地命令处理引擎210可选地向用户通知执行与音频命令相关联的动作的结果。该通知可以是可视的(例如闪光灯)和/或基于音频的(例如，预先记录的音频、文本到语音的音频等)

图3是根据一个实施例的用于处理基于话语的命令的方法步骤的流程图。尽管结合图1-2的系统描述了方法步骤，但本领域技术人员将理解，配置为以任何顺序执行方法步骤的任何系统都在本发明的范围内。

方法300在步骤302处开始，其中本地VRD 104中的话语识别引擎204在本地检测话语事件。话语识别引擎204分析与话语事件相关联的音频信号并识别与话语事件相对应的语音内容。在一个实施例中，音频信号的分析基于对应于来自词汇表的单词、短语或命令的声学模型。本领域的技术人员将理解，用于识别语音内容的任何其他技术都在该范围内。

在步骤304，话语识别引擎204生成与本地检测到的话语事件相关联的一组特征。该组特征包括基于接收到的音频信号的能量测量和音频信号中的背景噪声确定的输入质量度量。该组特征还包括基于识别的语音相对于说出的单词准确和/或正确的置信度确定的输出质量度量。此外，特征包括指示与VRD 104接收到与识别的语音相关联的音频信号的时间对应的时间戳的定时信息。话语识别引擎204将该组特征发送到包括在本地VRD 104中的VRD选择引擎208。

在步骤306，包括在本地VRD 104中的VRD选择引擎208启动定时器。定时器周期使得包括在本地VRD 104中的交叉VRD通信引擎206有时间在定时器到期之前从VRD网络102中的所有其他VRD 104接收识别的语音和相关联的元数据。

在步骤308，包括在本地VRD 104中的VRD选择引擎208等待定时器到期，并且还等待接收与由外部VRD 104检测到的相同话语事件相关联的第二组特征。一旦发生这些事件中的任何一个，方法300就前进到步骤310。

在步骤310，如果在步骤308中定时器在接收到任何更多特征之前到期，则方法300前进到步骤316。否则，在步骤308，包括在本地VRD 104中的VRD选择引擎208接收与由外部VRD 104检测到的相同话语事件相关联的第二组特征。该组特征包括输入质量度量、输出质量度量和对应于外部检测到的话语事件的定时信息。在这种情况下，方法300进行到步骤312以处理接收到的第二组特征。

如果自从方法300开始以来已经针对每个外部VRD 104接收并评估了特征(步骤314)，则步骤308和310可以将该定时器视为已经到期，因为不期望更多的特征，而不是使步骤308继续等待定时器到期。

在312处，VRD选择引擎208基于第一组特征和第二组特征来确定是否应该由本地VRD 104执行响应于话语事件的任何进一步的动作。在操作中，VRD选择引擎208将第一组特征与第二组特征进行比较，以确定本地VRD 104是否相对于也检测到相同的话语事件的外部VRD 104更适合于处理对应于话语事件的音频命令。

如果在步骤314，VRD选择引擎208确定本地VRD应该执行响应于话语事件的进一步动作，则方法300进行到步骤308以等待来自其他外部VRD 104的特征。然而，如果在步骤314，VRD选择引擎208确定本地VRD不应当执行响应于话语事件的进一步动作，则方法300结束。

在步骤316，本地处理引擎210本地执行响应于话语事件的一个或多个动作。在一个实施例中，本地处理引擎210结合处理系统106进行操作以执行动作。

总而言之，在给定时间，与话语事件相关联的音频信号入射到包括在若干VRD 104中的麦克风上。因此，VRD 104分别确定哪个VRD 104最适合处理对应于话语事件的音频命令。在操作中，本地检测到话语事件的VRD 104确定VRD网络102中的其他VRD 104是否也检测到相同的话语事件。如果是，则VRD 104选择VRD 104中的一个来处理对应于话语事件的音频命令。检测到相同话语事件的每个VRD 104独立地选择相同的VRD 104来处理音频命令。因为包括选择的VRD 104的每个VRD 104选择用于处理音频命令的相同的VRD 104，所以VRD 104不需要彼此共享与所选择的VRD 104相关的信息。

尽管前述内容针对本发明的实施例，但是可以在不脱离本发明的基本范围的情况下设计本发明的其他实施例和进一步的实施例。例如，本发明的各方面可以用硬件或软件或硬件和软件的组合来实现。本发明的一个实施例可以实现为与计算机系统一起使用的程序产品。程序产品的程序定义了实施例的功能(包括这里描述的方法)并且可以包含在各种计算机可读存储介质上。说明性的计算机可读存储介质包括但不限于：(i)不可写入的存储介质(例如，计算机内的只读存储器设备，诸如可由CD-ROM驱动器读取的CD-ROM盘、闪存、ROM芯片或任何类型的固态非易失性半导体存储器)，其上永久存储信息；以及(ii)存储可变信息的可写存储介质(例如，软盘驱动器内的软盘或硬盘驱动器或任何类型的固态随机存取半导体存储器)。当携带指导本发明的功能的计算机可读指令时，这样的计算机可读存储介质是本发明的实施例。

鉴于前述内容，本发明的范围由权利要求书确定。

Claims

1.一种用于处理基于话语的命令的方法，所述方法包括：

生成与已经在本地检测到的话语事件相关联的一组特征；

从外部设备接收与由所述外部设备检测到的所述话语事件相关联的第二组特征；

基于所述一组特征与所述第二组特征之间的比较来确定响应于所述话语事件的动作应当在本地执行；以及

在本地执行所述动作。

2.根据权利要求1所述的方法，其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的频率，并且其中确定响应于所述话语事件的所述动作应当在本地执行包括确定所述频率落入与人类话语相关联的频率范围内。

3.根据权利要求1所述的方法，其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的能量测量，并且所述第二组特征包括对应于所述话语事件的外部检测到的音频信号的第二能量测量，并且其中确定响应于所述话语事件的所述动作应当在本地执行包括确定所述本地检测到的音频信号的所述能量测量大于所述外部检测到的音频信号的所述第二能量测量。

4.根据权利要求1所述的方法，其中所述一组特征包括对应于所述话语事件的本地检测到的音频的质量测量，并且所述第二组特征包括对应于所述话语事件的外部检测到的音频的第二质量测量，并且其中确定响应于所述话语事件的所述动作应当在本地执行包括确定所述本地检测到的音频的所述质量测量高于所述外部检测到的音频的所述第二质量测量。

5.根据权利要求1所述的方法，其中所述一组特征包括对应于在本地检测到所述话语事件时的时间戳，并且所述第二组特征包括对应于在所述外部设备检测到所述话语事件时的时间戳，并且其中确定响应于所述话语事件的所述动作应当在本地执行包括：基于所述时间戳来确定在所述外部设备检测到所述话语事件之前本地检测到所述话语事件。

6.根据权利要求1所述的方法，其中所述一组特征包括与从本地检测到的所述话语事件中识别的说话内容相关联的置信度分数，并且所述第二组特征包括与从所述外部设备检测到的所述话语事件中识别的说话内容相关联的第二置信度分数，并且其中确定响应于所述话语事件的动作应当在本地执行包括：确定所述本地检测到的音频的所述置信度分数高于所述第二置信度分数。

7.根据权利要求1所述的方法，其中所述一组特征包括与从所述话语事件中识别出的说话内容相关联的置信度分数，并且其中确定响应于所述话语事件的动作应当在本地执行包括：确定所述置信分数大于阈值。

8.根据权利要求1所述的方法，其中所述一组特征包括从所述话语事件中识别出的说话内容，并且所述第二组特征包括从所述话语事件中识别的第二说话内容，并且其中确定响应于所述话语事件的所述动作应当在本地执行包括：确定所述说话内容基本上与所述第二说话内容匹配。

9.根据权利要求1所述的方法，还包括：

生成与已经在本地检测到的第二话语事件相关联的第三组特征；

从所述外部设备接收与由所述外部设备检测到的所述第二话语事件相关联的第四组特征；

基于所述第三组特征与所述第四组特征之间的比较来确定响应于所述话语事件的动作应当由所述外部设备执行；以及

终止对所述第二话语事件的本地处理。

10.一种存储指令的计算机可读介质，所述指令在由处理器执行时使所述处理器通过执行以下步骤来处理基于话语的命令：

生成与已经在本地检测到的话语事件相关联的一组特征；

在本地执行所述动作。

11.根据权利要求10所述的计算机可读介质，其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的频率，并且其中确定响应于所述话语事件的动作应当在本地执行包括：确定所述频率落在与人类话语相关联的频率范围内。

12.根据权利要求10所述的计算机可读介质，其中所述一组特征包括对应于所述话语事件的本地检测到的音频信号的能量测量，并且所述第二组特征包括对应于所述话语事件的外部检测到的音频信号的第二能量测量，并且其中确定响应于所述话语事件的动作应当在本地执行包括：确定所述本地检测到的音频信号的能量测量大于所述外部检测到的音频信号的所述第二能量测量。

13.根据权利要求10所述的计算机可读介质，其中所述一组特征包括对应于所述话语事件的本地检测到的音频的质量测量，并且所述第二组特征包括对应于所述话语事件的外部检测到的音频的第二质量测量，并且其中确定响应于所述话语事件的所述动作应当在本地执行包括：确定本地检测到的音频的所述质量测量高于外部检测到的音频的所述第二质量测量。

14.根据权利要求10所述的计算机可读介质，其中所述一组特征包括对应于在本地检测到所述话语事件时的时间戳，并且所述第二组特征包括对应于在所述外部设备检测到所述话语事件时的时间戳，并且其中确定响应于所述话语事件的动作应当在本地执行包括：基于所述时间戳来确定在所述外部设备检测到所述话语事件之前本地检测到所述话语事件。

15.根据权利要求14所述的计算机可读介质，其中所述时间戳是基于同步时钟确定的。

16.根据权利要求10所述的计算机可读介质，其中所述指令还使所述处理器执行以下步骤：确定由所述外部设备检测到的所述话语事件与已经在本地检测到的所述话语事件匹配。

17.根据权利要求16所述的计算机可读介质，其中确定由所述外部设备检测到的所述话语事件与已经在本地检测到的所述话语事件匹配包括将对应于在所述外部设备检测到所述话语事件时的外部时间戳与对应于在本地检测到所述话语事件时的本地时间戳进行比较。

18.根据权利要求16所述的计算机可读介质，其中确定由所述外部设备检测到的所述话语事件与已经在本地检测到的所述话语事件匹配包括将基于所述外部设备检测到的所述话语事件识别的第一内容与基于已经在本地检测到的所述话语事件识别的第二内容进行比较。

19.一种语音识别系统，包括：

麦克风；以及

计算机处理器，其执行指令以执行以下步骤：

生成与已经经由所述麦克风本地检测到的话语事件相关联的一组特征，

接收与已经在外部检测到的所述话语事件相关联的第二组特征，

基于所述一组特征与所述第二组特征之间的比较来确定响应于所述话语事件的动作应当在本地执行，以及

在本地执行所述动作。

20.根据权利要求19所述的语音识别系统，其中所述指令还使所述处理器执行以下步骤：

生成与已经经由所述麦克风本地检测到的第二话语事件相关联的第三组特征；

从所述外部设备接收与已经在外部检测到的所述第二话语事件相关联的第四组特征；

终止对所述第二话语事件的本地处理。