CN110876276A

CN110876276A - 低带宽联网系统中的音频处理

Info

Publication number: CN110876276A
Application number: CN201880003511.5A
Authority: CN
Inventors: 杰里米·佩恩; 托默·阿马里利奥
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-29
Filing date: 2018-08-01
Publication date: 2020-03-10
Anticipated expiration: 2038-08-01
Also published as: US20220215831A1; US11823663B2; US11694676B2; US11114094B2; US20210398522A1; US20200265832A1; EP3739576B1; US11282504B2; WO2020005305A1; EP3613039A1; US20210201902A1; EP3739576A1; EP3613039B1; CN110876276B

Abstract

本公开一般涉及一种用于检测在低带宽网络上发送的输入音频信号内的激活短语的系统。所述系统可以使用两阶段激活短语检测过程。首先，可以包括用于检测输入音频信号的多个麦克风的感测设备可以检测包括候选激活短语的输入音频信号。其次，感测设备可以将输入音频信号的记录发送到客户端设备，以确认输入音频信号包括激活短语。

Description

低带宽联网系统中的音频处理

对于相关申请的交叉引用

本申请要求2018年6月29日提交的题为“AUDIO PROCESSING IN A LOW-BANDWIDTHNETWORKED SYSTEM(低带宽联网系统中的音频处理)”的美国临时专利申请No.62/692,181的优先权，该申请通过引用整体并入本文。

背景技术

联网设备可以处理基于音频的信号。设备处理基于音频的信号的能力可以基于基于音频的信号的质量。高质量的基于音频的信号可以具有相对大的文件大小。计算设备之间的网络流量数据的基于分组或其他的过度网络发送可以防止计算设备正确地处理基于音频的信号，完成与基于音频的信号相关的操作，或者及时响应基于音频的信号。

发明内容

根据本公开的至少一个方面，一种用于检测远程设备中的激活短语的系统可以包括由第一客户端设备执行的自然语言处理器组件。该系统可以接收由感测设备检测到的第一输入音频信号的第一实例。该系统可以解析第一输入音频信号的第一实例以识别第一输入音频信号的第一实例中的第一候选激活短语。该系统可以确定第一候选激活短语不包含预定激活短语。该系统可以接收由感测设备获得的第一输入音频信号的第二实例。该系统可以解析第一输入音频信号的第二实例以识别第一输入音频信号的第二实例中的第二候选激活短语。该系统可以确定第二候选激活短语包含预定激活短语。该系统可以包括接口，用于基于第二候选激活短语包含预定激活短语的确定，发送与第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个相关联的音频信号。数据处理系统可以包括第二自然语言处理器组件，以识别第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个中的请求。

根据本公开的至少一个方面，一种用于在语音激活网络中发送数据的系统可以包括客户端设备，用于接收第一输入音频信号的第一实例。该系统可以包括客户端设备，用于接收第一输入音频信号的第二实例。该系统可以包括由客户端设备执行的自然语言处理器组件，以解析第一输入音频信号的第一实例以识别激活短语。该系统可以包括客户端设备的接口，用于基于第一输入音频信号的第一实例中的激活短语的识别在第一时间点将第一输入音频信号的第一实例发送到数据处理系统。数据处理系统可以包括第二自然语言处理器组件。客户端设备的接口可以在第一时间点之后的第二时间点将第一输入音频信号的第二实例发送到数据处理系统。客户端设备的接口可以基于来自数据处理系统的、识别第一输入音频信号的第二实例中的激活短语的确认消息将与第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个相关联的音频信号发送到数据处理系统。

根据本公开的至少一个方面，一种在语音激活网络中发送数据的方法可以包括由客户端设备接收第一输入音频信号的第一实例。该方法可以包括由客户端设备获得第一输入音频信号的第二实例。该方法可以包括由客户端设备执行的自然语言处理器组件解析第一输入音频信号的第一实例以识别激活短语。该方法可以包括：基于第一输入音频信号的第一实例中的激活短语的识别，客户端设备的接口在第一时间点将第一输入音频信号的第一实例发送到数据处理系统。数据处理系统可以包括第二自然语言处理器组件。该方法可以包括由客户端设备的接口在第一时间点之后的第二时间点将第一输入音频信号的第二实例发送到数据处理系统。该方法可以包括由客户端设备的接口基于来自数据处理系统的第一输入音频信号的第二实例中的激活短语的识别的确认消息将与第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个相关联的音频信号发送到数据处理系统。

根据本公开的至少一个方面，一种用于检测远程设备中的激活短语的该系统可以包括由第一客户端设备执行的自然语言处理器组件。该系统可以接收由感测设备的第一麦克风检测到的第一输入音频信号的第一实例。该系统可以解析第一输入音频信号的第一实例以识别第一输入音频信号的第一实例中的第一候选激活短语。该系统可以确定第一候选激活短语不包含预定激活短语。该系统可以接收由感测设备的第二麦克风检测到的第一输入音频信号的第二实例。该系统可以解析第一输入音频信号的第二实例以识别第一输入音频信号的第二实例中的第二候选激活短语。该系统可以确定第二候选激活短语包含预定激活短语。该系统可以包括接口，用于基于第二候选激活短语包含预定激活短语的确定，将第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个发送到数据处理系统。数据处理系统可以包括第二自然语言处理器组件，以识别第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个中的请求。

根据本公开的至少一个方面，一种在语音激活网络中发送数据的系统可以包括客户端设备的第一麦克风，用于接收第一输入音频信号的第一实例和第二输入音频信号的第一实例。该系统可以包括客户端设备的第二麦克风，用于接收第一输入音频信号的第二实例和第二输入音频信号的第二实例。该系统可以包括由客户端设备执行的自然语言处理器组件，用于解析第一输入音频信号的第一实例以识别激活短语。系统可以包括客户端设备的接口，以在第一时间点基于第一输入音频信号的第一实例中的激活短语的识别将第一输入音频信号的第一实例发送到数据处理系统。数据处理系统可以包括第二自然语言处理器组件。客户端设备的接口可以在第一时间点之后的第二时间点将第一输入音频信号的第二实例发送到数据处理系统。客户端设备的接口可以基于来自数据处理系统的识别第一输入音频信号的第二实例中的激活短语的确认消息将第二输入音频信号的第一实例发送到数据处理系统。

根据本公开的至少一个方面，一种在语音激活网络中发送数据的方法可以包括由客户端设备的第一麦克风接收第一输入音频信号的第一实例和第二输入音频信号的第一实例。该方法可以包括由客户端设备的第二麦克风接收第一输入音频信号的第二实例和第二输入音频信号的第二实例。该方法可以包括由客户端设备执行的自然语言处理器组件解析第一输入音频信号的第一实例以识别激活短语。该方法可以包括：在第一时间点，客户端设备的接口基于第一输入音频信号的第一实例中的激活短语的识别，将第一输入音频信号的第一实例发送到数据处理系统。数据处理系统可以包括第二自然语言处理器组件。该方法可以包括由客户端设备的接口在第一时间点之后的第二时间点将第一输入音频信号的第二实例发送到数据处理系统。该方法可以包括由客户端设备的接口基于来自数据处理系统的识别在第一输入音频信号的第二实例中的激活短语的确认消息，将第二输入音频信号的第一实例发送到数据处理系统。

每个方面可以可选地包括以下特征中的一个或多个。该系统可以包括第一和第二麦克风。可以由第一麦克风检测第一输入音频信号的第一实例，可以由第二麦克风检测第一输入音频信号的第二实例。可以接收第二输入音频信号的第一实例，并且可以接收第二输入音频信号的第二实例。与第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个相关联的音频信号可以是第二输入音频信号的第一实例和第二输入音频信号的第二实例中的至少一个。或者，与第一输入音频信号的第一实例和第一输入音频信号的第二实例中的至少一个相关联的音频信号可以是第一输入音频信号的第一实例和第一输入音频信号或其一部分的第二实例中的至少一个。

接口可以基于确定第一候选激活短语不包含预定激活短语，从第一客户端设备向感测设备发送对第一输入音频信号的第二实例的请求。自然语言处理器组件可以：接收由感测设备的第一麦克风检测到的第二输入音频信号的第一实例；解析第二输入音频信号的第一实例以识别第三候选激活短语；确定第三候选激活短语包含预定激活短语；并且接口可以基于确定第三候选激活短语包含预定激活短语，向感测设备发送对第三输入音频信号的请求。自然语言处理器组件可以：接收由感测设备的第一麦克风检测到的第二输入音频信号的第一实例；解析第二输入音频信号的第一实例以识别第三候选激活短语；确定第三候选激活短语包含预定激活短语；并且接口可以基于确定第三候选激活短语包含预定激活短语来终止第二输入音频信号的第二实例的接收。接口可以在第一客户端设备和感测设备之间建立蓝牙连接。自然语言处理器组件可以：从第一客户端设备的传感器接收第一输入音频信号的第三实例；解析第一输入音频信号的第三实例以识别第一输入音频信号的第三实例中的第三候选激活短语；并且至少基于第三候选激活短语和第二候选激活短语确定第一输入音频信号包含预定激活短语。自然语言处理器组件可以：接收由第二感测设备的第一麦克风检测到的第二输入音频信号的第一实例；解析第二输入音频信号的第一实例以识别第二输入音频信号的第一实例中的第三候选激活短语；确定第三候选激活短语不包含预定激活短语；接收由第二感测设备的第一麦克风检测到的第二输入音频信号的第二实例，第二输入音频信号的第二实例具有比第一输入音频信号的第一实例低的压缩率；解析第二输入音频信号的第二实例以识别第二输入音频信号的第二实例中的第四候选激活短语；确定第四候选激活短语包含预定激活短语；所述第一客户端设备的接口可以：基于所述第四候选激活短语包含所述预定激活短语的确定，将所述第二输入音频信号的第一实例和所述第二输入音频的第二实例中的至少一个信号发送到包括第二自然语言处理器组件的数据处理系统，以识别第二输入音频信号的第一实例和第二输入音频信号的第二实例中的至少一个中的第二请求。

接口可以：在第一时间点，以第一压缩等级向客户端设备发送第一输入音频信号的第一实例；并且在第二时间点，以低于第一压缩等级的第二压缩等级将第一输入音频信号的第二实例发送到客户端设备。接口可以在第一时间点以第一压缩等级将第一输入音频信号的第二实例发送到客户端设备；并且在第二时间点，以低于第一压缩等级的第二压缩等级将第一输入音频信号的第一实例和输入音频信号的第二实例发送到客户端设备。接口可以：在第二时间点，基于激活短语不在输入音频信号的第一实例中的确认消息，将第一输入音频信号的第二实例发送到客户端设备。接口可以：在接收到激活短语不在输入音频信号的第一实例中的确认消息之前，在第二时间点将第一输入音频信号的第二实例发送到客户端设备。接口可以基于激活短语在输入音频信号的第一实例中的确认消息来终止第一输入音频信号的第二接口的发送。接口可以：与客户端设备建立蓝牙连接；通过蓝牙连接发送第一输入音频信号的第一实例和第一输入音频信号的第二实例。

下面详细讨论这些和其他方面和实施方式。前述信息和以下详细描述包括各种方面和实施方式的说明性示例，并提供用于理解所要求保护的方面和实施方式的性质和特性的概述或框架。附图提供了对各个方面和实施方式的说明和进一步理解，并且被并入本说明书并构成本说明书的一部分。

附图说明

附图不旨在按比例绘制。各附图中相同的附图标记和名称表示相同的元件。为清楚起见，并非每个组件都可以在每个图中标记。在图中：

图1示出了用于检测在低带宽网络中发送的输入音频信号中的激活短语的示例系统。

图2示出了车辆的俯视图，并示出了图1中所示的车辆的内舱。

图3示出了用于检测具有有限带宽的联网系统中的激活短语的示例方法的框图。

图4是示例计算机系统的框图。

具体实施方式

以下是与基于语音激活的数据分组的计算机网络环境中的分组数据的多模式发送的方法、装置和系统有关的各种概念和该方法、装置和系统的实施方式的更详细描述。可以以多种方式中的任何一种来实现以上介绍并在下面更详细讨论的各种概念。

本公开一般涉及一种用于检测在低带宽网络上发送的输入音频信号内的激活短语的系统。例如，系统的一个或多个设备可以通过蓝牙连接通信地耦合在一起。系统可以使用两阶段激活短语检测过程。首先，可以包括用于检测输入音频信号的多个麦克风的感测设备可以检测具有候选激活短语的输入音频信号。当确定输入音频信号是否包括激活短语时，感测设备的语言处理可能是不精确的并且触发误报。其次，感测设备可以将输入音频信号的记录发送到客户端设备，以确认输入音频信号包括激活短语。由于感测设备和客户端设备之间的链路带宽有限，同时发送由感测设备进行的两个记录都会在数据传输完成时引入延迟。

为了减少从客户端设备接收确认的延迟，感测设备可以将输入音频信号的第一记录传送到客户端设备。如果客户端设备确定第一记录中存在激活短语，则可以丢弃由感测设备做出的其他记录，并且不将其发送到客户端设备，从而节省带宽。如果客户端设备不能识别第一记录中的激活短语，则客户端设备可以从感测设备接收第二记录。然后，客户端设备可以处理第二记录以确认输入音频信号是否包括激活短语。因此，客户端设备可以使用由感测设备做出的记录来提供对激活短语的改进的检测，而不会由于在感测设备和客户端设备之间发送的附加信息而引入延迟。

图1示出了用于检测在低带宽网络中发送的输入音频信号中的激活短语的示例系统100。系统100可以包括至少一个数据处理系统102、一个或多个客户端设备128以及可以位于车辆140例如汽车中的一个或多个感测设备142。感测设备142可以被称为远程设备，因为感测设备142可以远离客户端设备128放置，以便检测输入音频信号并将输入音频信号发送到客户端设备128。

数据处理系统102可以包括接口104。数据处理系统102可以包括自然语言处理器(NLP)组件106，用于解析基于音频的输入，例如输入音频信号。数据处理系统102可以包括接口管理组件108，用于检测和管理系统100中的其他设备的接口。数据处理系统102可以包括音频信号发生器组件110，用于产生基于音频的信号。数据处理系统102可以包括直接动作应用编程接口(API)112。数据处理系统102可以包括响应选择器组件114，用于选择对基于音频的输入信号的响应。数据处理系统102可以包括数据知识库118，其中数据处理系统102可以存储参数120、策略122、响应数据124和模板126。客户端设备128和感测设备142可以包括并执行数据处理系统102的组件的实例。在一些实施方式中，客户端设备128和感测设备142均可以包括数据处理系统102或其任何组件的实例。

系统100还可以包括一个或多个客户端设备128。客户端设备128可以包括传感器130、扬声器132(1)、接口134和换能器136(1)。客户端设备128可以执行NLP组件106的实例。系统100还可以包括一个或多个数据提供器138。系统100可以包括一个或多个车辆140。每个车辆140可以包括一个或多个感测设备142。感测设备142可包括第一传感器130(1)、第二传感器130(2)(其可通称为传感器130)、扬声器132(2)、接口134和换能器136(2)。感测设备142每个可以执行NLP组件106的实例。客户端设备的扬声器132(1)和感测设备的扬声器132(2)可以是相同类型的扬声器或不同类型的扬声器。客户端设备的扬声器132(1)和感测设备的扬声器132(2)可以通称为扬声器132。客户端设备的换能器136(1)和感测设备的换能器136(2)可以是相同类型的换能器或不同类型的换能器。客户端设备的换能器136(1)和感测设备的换能器136(2)可以通称为换能器136。

系统100的组件可以通过网络116进行通信。客户端设备128中的一个或多个可以位于车辆140的实例内。例如，客户端设备128可以是驾驶车辆140的驾驶员的移动电话。一个或多个客户端设备128可以远离车辆140。例如，在驾驶员停放并离开车辆140进行工作之后，驾驶员的移动电话远离车辆140。在车辆140的预定接近范围内时，客户端设备128的接口104可以通过蓝牙与车辆140内的感测设备142建立连接。例如，客户端设备128和感测设备142之间的网络116的部分可以是蓝牙连接。

网络116可以包括计算机网络，诸如因特网、本地、广域、城域或其他区域网络、内联网、卫星网络、诸如语音或数据移动电话通信网络的其他计算机网络以及它们的组合。网络116可以由数据处理系统102、客户端设备128和感测设备142使用以访问数据提供器138的诸如网页、网站、域名、统一资源定位符的信息资源。例如，数据处理系统102可以经由网络116访问数据提供器138，该数据提供器138提供诸如与车辆140相关联的位置的特定位置的天气数据。

网络116可以包括例如点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、ATM(异步)传输模式)网络、SONET(同步光纤网络)网络、SDH(同步数字体系)网络、无线网络或有线网络以及它们的组合。网络116可以包括无线链路，例如蓝牙链路、红外信道或卫星频带。网络116的拓扑可以包括总线、星形或环形网络拓扑。网络116可以包括使用用于在移动设备之间通信的任何一个或多个协议的移动电话网络，所述协议包括高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电服务(“GPRS”)或通用移动电信系统(“UMTS”)。可以通过不同的协议发送不同类型的数据，或者可以通过不同的协议发送相同类型的数据。

客户端设备128和感测设备142均可包括至少一个逻辑设备，例如具有处理器的计算设备，用于经由网络116彼此通信并与数据处理系统102通信。感测设备142可以经由客户端设备128与数据处理系统102通信。例如，感测设备142可以经由蓝牙连接将输入音频信号发送到客户端设备128，并且客户端设备128可以将输入音频信号发送到数据处理系统102。

客户端设备128和感测设备142可以包括关于数据处理系统102描述的任何组件的实例，所述组件例如是NLP组件106。客户端设备128和感测设备142可以包括数据处理系统102的实例。

客户端设备128可以包括台式计算机、膝上型计算机、平板计算机、个人数字助理、智能手机、移动设备、便携式计算机、瘦客户端计算机、虚拟服务器、基于扬声器的数字助理或其他计算设备。客户端设备128可以是用户的移动电话。由客户端设备128执行的数字助理的实例可以从用户接收输入音频信号。输入音频信号可以包括基于语音或基于音频的请求。例如，用户可以生成话语“Ok,play the next song(Ok，播放下一首歌曲)”。客户端设备128可以检测输入音频信号并将输入音频信号发送到数据处理系统102，数据处理系统102可以基于输入音频信号内的请求产生响应或动作。。

感测设备142可以是遥感设备。感测设备142可以远离客户端设备128，但是在客户端设备128的预定距离内。预定距离可以是其上可以建立客户端设备128和感测设备142之间的蓝牙连接的距离。感测设备142可包括一个或多个传感器130，用于检测由用户产生的输入音频信号。感测设备142可以将由感测设备的传感器130捕获的输入音频信号的实例发送到客户端设备128以进行处理。在客户端设备的传感器130不能检测输入音频信号的情况下，感测设备的传感器130可以检测输入音频信号。例如，感测设备142可以定位在开放区域内，并且当客户端设备128例如在用户的口袋中并且不能检测输入音频信号时，可以检测输入音频信号。

如图1所示，感测设备142可以被配置为车辆附件。例如，感测设备142可以是蓝牙使能充电设备。感测设备142可以是电源适配器，其使车辆的点烟器的输出适配于一个或多个USB端口。例如，感测设备142可以将车辆的点烟器的12V或24V转换为5V和1A或5V和2.1A。感测设备142可以产生其他输出电压和电流，例如介于约5V和约10V之间的电压。感测设备142可以包括可以执行数据处理系统102或其任何组件的实例的一个或多个处理器。感测设备142可以从车辆140移除。例如，感测设备142可以是可拆卸的电源适配器，其可以插入车辆的点烟器中然后从车辆的点烟器中取出。感测设备142可以是车辆140的永久部件。例如，感测设备142可以是车辆头部单元的组件。车辆140可以是汽车、卡车、摩托车或其他运输设备。

感测设备142可以被配置为用于非车辆环境的遥感设备。例如，感测设备142可以是可以包括多个传感器130的传感器阵列。传感器阵列可以位于用户家中的房间中以捕获输入音频信号并将输入音频信号发送到例如位于用户家中的不同房间中的基于扬声器的数字助理。

客户端设备128和感测设备142可以包括至少一个传感器130、至少一个换能器136、至少一个音频驱动器和至少一个扬声器132。传感器130可以包括麦克风或音频输入传感器。传感器130还可以包括GPS传感器、接近传感器、环境光传感器、温度传感器、运动传感器、加速度计或陀螺仪中的一个或多个。换能器136可以将音频输入转换为电子信号。音频驱动器可以包括由客户端设备128或感测设备142的一个或多个处理器执行以控制扬声器132的脚本或程序。扬声器132可以通过将电信号转换为可听波来呈现音频信号。

客户端设备128和感测设备142可以与向客户端设备128或感测设备142输入作为输入音频信号的语音查询的终端用户相关联。用户可以通过例如完成蓝牙配对过程以将感测设备142与客户端设备128配对而将感测设备142注册到用户的客户端设备128。用户可以经由感测设备142将语音查询输入到客户端设备128。响应于输入音频信号，用户可以从客户端设备128或感测设备142接收以计算机生成的语音形式的音频输出。音频输出可以由数据处理系统102生成。响应于输入音频信号，客户端设备128还可以接收动作数据结构以执行预定的功能或动作。接口134可以接收数据消息或者向数据处理系统102的直接动作API112提供数据消息，并且实现系统100的组件之间的通信。客户端设备128还可以包括使用户能够与系统100的组件交互的用户界面。

感测设备142可以将输入音频信号的一个或多个实例发送到客户端设备128。客户端设备128可以将输入音频信号转发到数据处理系统102，其可以满足数据处理系统的NLP组件106从输入音频信号中解析的请求。为了节省感测设备142和客户端设备128的带宽和功耗，仅当感测设备142确定输入音频信号包括激活短语时，感测设备142才可以将输入音频信号发送到客户端设备128。激活短语可以是用户在请求开始时包括的短语、术语、唤醒字或热词，以向客户端设备128或感测设备142指示输入音频信号被定向到客户端设备128或感测设备142。例如，在输入音频信号“Ok device,change the song(Ok设备，改变歌曲)”中，短语“Ok device”可以是激活短语。

感测设备142可包括第一传感器130(1)和第二传感器130(2)。当用户生成包括语音查询或请求的输入音频信号时，第一传感器130(1)可以检测并记录语音查询或请求作为输入音频信号的第一实例，并且第二传感器130(2)可以检测并记录语音查询或请求作为输入音频信号的第二实例。

感测设备142可以包括NLP组件106的实例，其可以解析由第一传感器130(1)和第二传感器130(2)接收的输入音频信号。感测设备142的NLP组件106可以是NLP组件106的优化实例，其被配置为在具有较少量计算资源的设备例如感测设备142上运行。例如，不是能够解析输入音频信号中的任何单词，而是可以将感测设备的NLP组件106的实例配置为检测有限数量的单词，例如激活短语。如果感测设备的NLP组件106确定由传感器130之一检测到的输入音频信号的实例包括激活短语，则感测设备142可以将输入音频信号的实例中的至少一个发送到客户端设备128。与感测设备142相比，客户端设备128可以具有更大的计算能力。客户端设备的NLP组件106可以解析输入音频信号以确认输入音频信号是否包括激活短语。如果输入音频信号包括激活短语，则客户端设备128可以将输入音频信号发送到数据处理系统102，以供数据处理系统102解析和实现。

客户端设备128可以与感测设备142建立低带宽连接，以接收由感测设备142检测到的输入音频信号的实例。低带宽连接可以是蓝牙连接。发送由传感器130(1)和传感器130(2)检测到的输入音频信号的第一和第二实例可能需要几秒钟(由于低带宽连接)，这可能导致在确认输入音频信号是否包括激活短语上的延迟。为了通过客户端设备128更快地确认输入音频信号是否包括激活短语，并且考虑到低带宽连接，感测设备142可以将输入音频信号的实例串行地或以不同的压缩等级发送到客户端设备128。

例如，并且响应于通过感测设备142确定输入音频信号包括激活短语，感测设备142可以将检测到的输入音频信号的实例之一发送到客户端设备128。在完成向客户端设备128发送输入音频信号的第一实例之后，感测设备142可以将输入音频信号的第二实例发送到客户端设备128。例如，感测设备142可以将输入音频信号的实例串行地发送到客户端设备128。响应于客户端设备128接收输入音频信号的第一实例，客户端设备的NLP组件106可以开始处理输入音频信号的第一实例以确认输入音频信号是否包括激活短语。当客户端设备的NLP组件106处理输入音频信号的第一实例时，客户端设备128可以接收输入音频信号的第二实例。如果NLP组件106在输入音频信号的第一实例中确认存在激活短语，则客户端设备128可以不处理输入音频信号的第二实例。如果NLP组件106不能在输入音频信号的第一实例中确认存在激活短语，则客户端设备128可以通过其NLP组件106处理输入音频信号的第二实例以确定输入音频信号的第二实例是否包括输入音频信号。

响应于由感测设备142确定输入音频信号包括激活短语，感测设备142可以以低质量水平或相对高压缩状态将输入音频信号的两个实例发送到客户端设备128。一旦输入音频信号的第一和第二实例的低质量版本被发送到客户端设备128，感测设备142就可以向客户端设备128发送输入音频信号的第一和/或第二实例的更高质量(例如，更少压缩)的版本。如果客户端设备128确定输入音频信号的一个或多个实例包括激活短语，则客户端设备128可以将输入音频信号或其中的请求发送到数据处理系统102，以用于由数据处理系统102实现。

系统的数据处理系统102可以包括具有至少一个处理器的至少一个服务器。例如，数据处理系统102可以包括位于至少一个数据中心或服务器群中的多个服务器。数据处理系统102可以根据音频输入信号确定请求和与请求相关联的触发关键字。基于请求和触发关键字，数据处理系统102可以生成或选择响应数据。响应数据可以是基于音频的或基于文本的。例如，响应日期可以包括一个或多个音频文件，该音频文件在被呈现时提供音频输出或声波。响应数据内的数据也可以称为内容项。除了音频内容之外，响应数据还可以包括其他内容(例如，文本、视频或图像内容)。

数据处理系统102可以包括多个逻辑分组的服务器并且便利分布式计算技术。服务器的逻辑组可以称为数据中心、服务器群或机器群。服务器可以在地理上分散。可以作为单个实体来管理数据中心或机器群，或者机器群可以包括多个机器群。每个机器群内的服务器可以是异构的：一个或多个服务器或机器可以根据一种或多种类型的操作系统平台操作。数据处理系统102可以包括存储在一个或多个高密度机架系统中的数据中心中的服务器以及例如位于企业数据中心中的相关的存储系统。以这种方式具有整合服务器的数据处理系统102可以通过在本地化高性能网络上定位服务器和高性能存储系统来改善系统可管理性、数据安全性、系统的物理安全性和系统性能。集中所有或一些数据处理系统102组件包括服务器和存储系统并将它们与高级系统管理工具耦合允许更有效地使用服务器资源，这节省了功率和处理要求并减少了带宽使用。数据处理系统102的每个组件可以各自包括至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、设备或其他逻辑设备，诸如被配置为与数据知识库118和与其他计算设备通信的可编程逻辑阵列。

数据处理系统102可以包括数据知识库118。数据知识库118可以包括一个或多个本地或分布式数据库，并且可以包括数据库管理系统。数据知识库118可以包括计算机数据存储或存储器，并且可以存储一个或多个参数120、一个或多个策略122、响应数据124和模板126以及其他数据。参数120、策略122和模板126可以包括诸如关于客户端设备128、数据处理系统102和感测设备142之间的基于语音的会话的规则的信息。响应数据124可以包括用于音频输出的内容项或关联元数据以及输入音频消息，输入音频消息可以是与客户端设备128的一个或多个通信会话的一部分。

与数据处理系统102相关联的应用、脚本、程序或其他组件可以安装在客户端设备128或感测设备142处。应用可以使客户端设备128或感测设备142能够将输入音频信号(和其他数据)传送到数据处理系统102的接口104。应用可以使客户端设备128和感测设备142能够驱动客户端设备128和感测设备142的组件以呈现输出音频信号。

数据处理系统的NLP组件106可以接收输入音频信号。数据处理系统102可以从客户端设备128或感测设备142接收输入音频信号。数据处理系统102可以经由客户端设备128从感测设备142接收输入音频信号。第一设备可以执行NLP组件106，并且NLP组件106可以从第二设备接收输入音频信号。例如，感测设备142可以接收输入音频信号并将其发送到客户端设备128的NLP组件106。

NLP组件106可以通过将输入音频信号与存储的代表性音频波形组进行比较并选择最接近的匹配来将输入音频信号转换为识别的文本。可以在大量输入音频信号上生成代表性波形。一旦输入音频信号被转换为识别的文本，NLP组件106就可以将文本与(例如经由学习阶段)与动作或输出音频信号关联的词匹配。

根据输入音频信号，NLP组件106可以识别至少一个请求或对应于该请求的至少一个触发关键字。该请求可以指示输入音频信号的意图或主题。触发关键字可以指示可能采取的动作类型。例如，NLP组件106可以解析输入音频信号以识别打开车辆窗口或跳到音乐播放列表中的下一个音频文件的至少一个请求。触发关键字可以包括至少一个单词、短语、根或部分单词或指示要采取的动作的衍生物。输入音频信号可以包括激活短语或术语，例如“go”或“ok”。

响应选择器组件114可以从数据知识库118获得信息，其中，它可以作为响应数据124的一部分存储。响应选择器组件114可以查询数据知识库118以选择或以其它方式识别例如来自响应数据124的响应短语或内容项。

音频信号发生器组件130可以生成或以其它方式获得包括内容项的输出信号。数据处理系统102可以执行音频信号发生器组件110以产生或创建对应于内容项或请求的输出信号。例如，一旦满足请求，信号发生器组件110就可以生成包括短语“The action wascompleted(动作已完成)”的音频输出信号。

接口104可以是数据接口、硬件接口、软件接口或网络接口，其使得系统100的组件能够彼此通信。数据处理系统102的接口104可以经由网络116向客户端设备128或感测设备142提供或发送包括动作数据结构、音频信号或其他数据的一个或多个数据分组。例如，数据处理系统102可以向客户端设备128提供来自数据知识库118或来自音频信号发生器110的输出信号。数据处理系统102还可以通过数据分组发送指示客户端设备128或感测设备142执行动作数据结构中指示的功能。输出信号可以被获得、生成、变换为来自数据处理系统102(或其他计算设备)的一个或多个数据分组(或其他通信协议)或作为来自数据处理系统102(或其他计算设备)的一个或多个数据分组(或其他通信协议)发送到客户端设备128或感测设备142。

数据处理系统102的直接动作API 112可以基于例如请求来生成动作数据结构。动作数据结构可以包括用于执行指定动作以满足请求的数据或指令。动作数据结构可以是JSON格式的数据结构或XML格式的数据结构。

动作数据结构可以包括用于完成请求的信息。例如，动作数据结构可以是XML(可扩展标记语言)或JSON(JavaScript对象表示法)格式化数据结构，其包括用于完成或以其它方式履行请求的属性。属性可以包括车辆140的位置、客户端设备128的位置、与客户端设备128相关联的用户的授权等级、车辆标识符、接口标识符、车辆状态或请求状态。请求状态可以包括在完成动作之前应该满足的一个或多个属性。例如，请求“Ok，change the song”，请求状态可以具有{请求者：已授权，乘客}的属性。在该示例中，请求者(例如，生成输入音频信号的用户)应明确被授权改变歌曲或应该是车辆中的乘客。

直接动作API 112可以从存储库118检索模板126以确定哪些字段或属性要被包括在动作数据结构中。直接动作API 112可以确定必要的参数并且可以将信息打包到动作数据结构中。直接动作API 112可以从存储库118检索内容以获得关于数据结构的属性的信息。

直接动作API 112可以用来自输入音频信号的数据填充字段。直接动作API 112还可以使用来自数据提供器138、客户端设备128或感测设备142的数据来填充字段。直接动作API 112可以在填充字段时提示用户提供附加信息。可以将模板126针对不同类型的动作进行标准化，不同类型的动作例如是通过车辆的头部单元播放媒体文件、响应消息以及执行汽车内的功能。动作数据结构最初可以由远程数据处理系统102执行的直接动作API 112生成。远程数据处理系统102可以将动作数据结构发送到客户端设备128，客户端设备128可以向动作数据结构添加字段和属性。

直接动作API 112可以从数据知识库118获得响应数据124(或参数120或策略122)，以及从客户端设备128获得最终用户同意接收的数据，以确定位置、时间、用户账户、物流或其他信息，以便从汽车共享服务预订汽车。响应数据124(或参数120或策略122)可以被包括在动作数据结构中。当被包括在动作数据结构中的内容包括用于认证的最终用户数据时，该数据可以在存储在数据知识库118中之前通过散列函数传递。使用直接动作API112，数据处理系统102可以通过在该示例中进行汽车共享接收预订与服务提供商计算设备160通信以完成转换。

图2示出了车辆140的俯视图并且示出了车辆140的内舱。车辆140的内舱可包括多个座椅200。用户202可坐在至少一个座椅200中。用户202可以关联于(例如，拥有)客户端设备128。客户端设备128可以包括传感器130。车辆140的内部可以包括感测设备142。感测设备142可以包括第一传感器130(1)和第二传感器130(2)。每个传感器130可以是麦克风。感测设备142可以是电力适配器或充电设备，其将来自车辆140的电力转换成可由客户端设备128消耗的电力水平。客户端设备128可通过诸如蓝牙的无线连接建立与感测设备142的通信链路。

用户202可以以输入音频信号204的形式生成请求。输入音频信号204可以由感测设备142的传感器130和客户端设备128的传感器130记录或检测。感测设备的第一传感器130(1)可以将输入音频信号204记录为输入音频信号204的第一实例，第二传感器130(2)可以将输入音频信号204记录为输入音频信号的第二实例，客户端设备的传感器130可以将输入音频信号204记录为输入音频信号204的第三实例。客户端设备128可以处于客户端设备128接收的输入音频信号204的质量与感测设备142相比较低的位置。例如，客户端设备128可以位于用户的口袋中或车辆140的中央控制台中。给定每个传感器130在车辆140内部的相对位置，每一个传感器130可以记录或检测输入音频信号204的略微不同的版本。

还参考图1，其中，感测设备142的NLP组件106组件可以解析由第一和第二传感器130检测到的输入音频信号204的实例。如果NLP组件106检测或识别激活短语(例如，“Ok,device”)或候选激活短语的存在，感测设备142可以将输入音频信号204的实例发送到客户端设备128。与感测设备142相比可以具有更大的计算资源的客户端设备128可以用客户端设备的NLP组件106处理输入音频信号204的实例以确认输入音频信号204中存在激活短语。如果客户端设备128确认存在激活短语，则客户端设备128可以将输入音频信号发送到数据处理系统102进行处理。

感测设备142可以在第一时间点例如在感测设备142检测到输入音频信号204中存在激活短语的时间点将第一实例发送到客户端设备128。如果客户端设备的NLP组件106未能确定激活短语在输入音频信号204中，客户端设备128可以向感测设备142发送消息，以请求感测设备142发送感测设备142记录的输入音频信号204的第二实例。感测设备142可以在第二时间点将输入音频信号204的第二实例发送到客户端设备128。第二时间点可以是感测设备142完成输入音频信号204的第一实例向客户端设备128的发送之后的时间点。

一旦接收到，客户端设备的NLP组件106就可以处理输入音频信号204的第二实例以寻找激活短语的存在。客户端设备128可以基于输入音频信号204的第二实例或输入音频信号204的第一和第二实例的组合来确定输入音频信号204是否包括激活短语。

在从客户端设备128接收对输入音频信号204的第二实例的请求之前，感测设备142可以将输入音频信号204的第二实例发送到客户端设备128。例如，在完成向客户端设备128发送输入音频信号204的第一实例时，感测设备142可以在第二时间点自动开始将输入音频信号204的第二实例发送到客户端设备128。当感测设备142自动开始将输入音频信号204的第二实例发送到客户端设备128时，如果客户端设备128确认激活短语在输入音频信号204的第一实例中，则客户端设备128可以向感测设备142发送终止消息，因为客户端设备128不需要激活短语的第二实例来确认在输入音频信号204中的激活短语的存在。

客户端设备128还可以使用由客户端设备的传感器130检测到的输入音频信号204的实例来确认激活短语是否存在于输入音频信号204中。客户端设备128可以使用由客户端设备128记录的输入音频信号204的实例结合输入音频信号204的第一实例或输入音频信号204的第二实例。

图3示出了用于检测具有有限带宽的联网系统中的激活短语的示例方法300的框图。框图左侧所示的步骤可以由感测设备142执行，并且框图右侧所示的步骤可以由客户端设备128执行。

方法300可包括接收输入音频信号的第一实例(ACT 302)并接收输入音频信号的第二实例(ACT 304)。方法300可以包括识别激活短语(ACT 306)。方法300可以包括发送输入音频信号的第一实例(ACT 308)。方法300可以包括由客户端设备接收输入音频信号的第一实例(ACT 310)。方法300可以包括解析输入音频信号的第一实例(ACT 312)。方法300可以包括确定输入音频信号的第一实例是否包括激活短语(动作314)。方法300可以包括由感测设备发送输入音频信号的第二实例(ACT 316)并且由客户端设备接收输入音频信号的第二实例(ACT 318)。方法300可以包括解析输入音频信号的第二实例(ACT 320)。方法300可以包括由感测设备发送第二输入音频信号的第一实例(ACT 322)。如果在ACT 314处客户端设备识别输入音频信号中的激活短语，则方法300可以包括终止发送(ACT 324)。方法300可以包括由客户端设备发送第二输入音频信号的第一实例(ACT 326)。

方法300可包括接收输入音频信号的第一实例(ACT 302)并接收输入音频信号的第二实例(ACT 304)。还参考图1和图2，输入音频信号的第一和第二实例可以由例如感测设备142的第一和第二麦克风(例如，传感器130)接收。输入音频信号可以是由用户做出的话语。当输入音频信号的音量超过预定阈值时，第一和第二麦克风可以检测输入音频信号。

方法300可以包括识别激活短语(ACT 306)。感测设备142可以包括NLP组件106。感测设备142可以具有有限的计算能力，并且NLP组件106可以被配置为仅检测输入音频信号内的激活短语的存在。用于准确识别传入的输入音频信号中的激活短语的阈值可以是低的。例如，感测设备的NLP组件106可以具有高误报率。由感测设备142检测到的激活短语可以被称为候选激活短语。

方法300可以包括发送输入音频信号的第一实例(ACT 308)。感测设备142可以将输入音频信号的第一实例发送到客户端设备128。客户端设备128可以在感测设备142和客户端设备128之间建立蓝牙连接，通过该蓝牙连接发送输入音频信号的第一实例(和其他数据)。感测设备142可以在第一时间点例如在感测设备的NLP组件106在输入音频信号的第一实例中检测到激活短语时将输入音频信号的第一实例发送到客户端设备128。

感测设备142可以将输入音频信号的第一实例发送到客户端设备128，以便客户端设备128确认激活短语是否在输入音频信号中。感测设备142可以生成输入音频信号的第一实例的多个副本。可以通过将不同的压缩等级应用于输入音频信号的第一实例来生成不同的副本。例如，感测设备142可以生成：输入音频信号的第一实例的第一副本，其是高度压缩的并且具有相对小的文件大小但是低音质；以及，输入音频信号的第一实例的第二副本，其压缩程度较低，具有相对较大文件大小但较高的音质。感测设备142可以在第一时间点将输入音频信号的第一实例的高度压缩(较小文件大小)副本发送到客户端设备128。感测设备142可以例如响应于来自客户端设备128的请求在第二时间点将输入音频信号的第一实例的第二副本发送到客户端设备128。

方法300可以包括接收输入音频信号的第一实例(ACT 310)。客户端设备128可以经由在感测设备142和客户端设备128之间建立的蓝牙连接来接收输入音频信号的第一实例。方法300可以包括解析输入音频信号的第一实例(ACT 312)。客户端设备128的NLP组件106可以解析输入音频信号并识别一个或多个候选激活短语。候选激活短语可以是NLP组件106确定具有高于预定阈值的可能性是激活短语的短语或术语。候选激活短语可以是由感测设备142识别的激活短语。例如，感测设备142可以仅发送输入音频信号的第一实例的一部分，其是包括在候选激活短语之前和之后具有预定记录量的候选激活短语的输入音频信号的剪切部分。

方法300可以包括识别激活短语(动作314)。客户端设备的NLP组件106可以解析所接收的输入音频信号的实例以确定或确认激活短语是否在输入音频信号内。例如，NLP组件106可以确定候选激活短语是否是发起基于语音的查询或请求所需的激活短语。如果激活短语不在输入音频信号内，则方法300可以继续到ACT 316，并且如果NLP组件106确定激活短语在输入音频信号内，则方法300可以继续到ACT 324。

方法300可以包括识别输入音频信号的第三实例内的激活短语。输入音频信号的第三实例可以由客户端设备的麦克风或其他传感器130记录。确定输入音频信号是否包括激活短语的ACT 314可以包括确定输入音频信号的第一或第三实例中的任何一个是否包括激活短语。客户端设备的NLP组件106可以分别分析输入音频信号的第一和第三实例。例如，NLP组件106可以独立地确定输入音频信号的实例是否包括激活短语。如果NLP组件106确定输入音频信号的实例中的任一个被确定为包括激活短语，则NLP组件106可以确定输入音频信号包括激活短语。NLP组件106可以一起分析输入音频信号的第一和第三实例。例如，NLP组件106生成输入音频信号的每个实例是否包括激活短语的置信度得分，并且基于与输入音频信号的每个实例相关联的置信度分数的组合或平均来确定输入音频信号是否包括激活短语。

方法300可以包括由感测设备发送输入音频信号的第二实例(ACT 316)。感测设备142可以通过在感测设备142和客户端设备128之间建立的蓝牙连接将输入音频信号的第二实例发送到客户端设备128。输入音频信号的第二实例可以是通过与检测或记录输入音频信号的第一实例的其他麦克风或传感器130不同的麦克风或其他传感器130在感测设备142处检测或记录的输入音频信号的实例。感测设备142可以在第二时间点将输入音频信号的第二实例发送到感测设备142。第二时间点可以在第一时间点之后。第二时间点可以在完成将输入音频信号的第一实例发送到客户端设备128时(例如，在ACT 308完成之后)。例如，在完成向客户端设备128发送输入音频信号的第一实例时，感测设备142可以自动地将输入音频信号的第二实例发送到客户端设备128。

响应于来自客户端设备128的请求，感测设备142可以将输入音频信号的第二实例发送到客户端设备128。例如，在ACT 314，当客户端设备128确定激活短语时不在输入音频信号的第一实例内(或者不能在其内检测到)，则客户端设备128可以生成并向感测设备142发送针对输入音频信号的第二实例的请求。客户端设备128可以通过在感测设备142和客户端设备128之间建立的蓝牙网络发送对输入音频信号的第二实例的请求。

当感测设备142仅包括单个麦克风时，输入音频信号的第二实例可以是输入音频信号的第一实例的副本，但其具有更高的音频质量。例如，与在ACT 308发送的输入音频信号的第一实例相比，在ACT 318发送的副本可以被压缩得更少。

方法300可以包括解析输入音频信号的第二实例(ACT 320)。客户端设备的NLP组件106可以解析输入音频信号的第二实例以识别输入音频信号的第二实例中的候选激活短语。如果客户端设备的NLP组件106确定候选激活短语之一是预定激活短语，则客户端设备128可以将第二输入音频信号发送到数据处理系统102。可以通过感测设备142或客户端设备128的任何传感器130来检测或记录第二输入音频信号。第二输入音频信号可以是第一输入音频信号的延续。例如，第二输入音频信号可以是或可以包括紧接在激活短语之后的用户话语。

方法300可以包括由感测设备发送第二输入音频信号的第一实例(ACT 322)。第二输入音频信号的第一实例可以是客户端设备128基于第一输入音频信号的第一或第二实例中的激活短语的检测而接收并发送到数据处理系统102的输入音频信号。

第二输入音频信号可以是在检测到第一输入音频信号之后由传感器130之一检测或记录的输入音频信号。第二输入音频信号的一部分可以与第一输入音频信号的一部分重叠。可以从单个输入音频信号生成第一和第二输入音频信号。第一输入音频信号可以包括激活短语，第二输入音频信号可以包括请求。例如，输入音频信号可以是“Ok，skip to thenext song(跳到下一首歌曲)”。在该示例中，第一输入音频信号可以至少包括激活短语“Ok”，并且第二输入音频信号可以至少包括请求“skip to the next song”。为了节省功率和带宽，感测设备142可以仅将包括激活短语(例如，第一输入音频信号)的输入音频信号的一部分发送到客户端设备128。感测设备142可以不发送包括请求的输入音频信号(例如，第二输入音频信号)的部分，直到感测设备142从客户端设备接收到第一输入音频信号包括激活短语的确认消息。在一些实施方式中，感测设备142可以首先发送可能包括激活短语的第一输入音频信号的一个或多个实例，然后一旦完成将第一输入音频信号发送到客户端设备128就自动开始将第二输入音频信号发送到客户端设备128。

返回到ACT 314处的识别步骤，如果客户端设备128在输入音频信号的第一实例中识别激活短语，则客户端设备128可以终止感测设备142和客户端设备128之间的发送。感测设备142和客户端设备128之间的发送的终止可以是可选的。如上所述，在完成向客户端设备128发送输入音频信号的第一实例时，感测设备142可以自动地将输入音频信号的第二实例发送到客户端设备128。客户端设备128可以生成并向感测设备142发送终止消息，该终止消息可以使感测设备142停止向客户端设备128发送输入音频信号的第二实例。终止向客户端设备128发送输入音频信号的第二实例可以包括客户端设备128停止接收输入音频信号的第二实例。例如，感测设备142可以继续发送第二输入音频信号的第二实例，但是客户端设备128可以拒绝接收输入音频信号的第二实例或者一旦接收到输入音频信号的第二实例不对输入的第二实例执行进一步处理。不执行进一步处理可以包括不用客户端设备的NLP组件106处理输入音频信号的第二实例。

方法300可以包括发送第二输入音频信号的第一实例(ACT 326)。方法300可以包括由客户端设备128将第二输入音频信号的第一实例发送到数据处理系统102。客户端设备128可以在ACT 322接收第二输入音频信号的第一实例。客户端设备128可以响应于在输入音频信号的第一或第二实例中的至少一个中检测或确认激活短语的存在，将第二输入音频信号的第一实例发送到数据处理系统102。第二输入音频信号可以包括可以由数据处理系统的NLP组件106解析并且由数据处理系统102完成(至少部分地)的请求。

图4是示例计算机系统400的框图。计算机系统或计算设备400可以包括或用于实现系统100或其组件例如数据处理系统102。计算系统400包括总线405或其他用于传送信息的通信组件和耦合到总线405用于处理信息的处理器410或处理电路。计算系统400还可以包括耦合到总线用于处理信息的一个或多个处理器410或处理电路。计算系统400还包括主存储器415，例如随机存取存储器(RAM)或其他动态存储设备，其耦合到总线405用于存储信息以及由处理器410执行的指令。主存储器415可以是或包括数据存储库118。主存储器415还可以用于在处理器410执行指令期间存储位置信息、临时变量或其他中间信息。计算系统400还可以包括耦合到总线405的只读存储器(ROM)或其他静态存储设备，用于存储处理器410的静态信息和指令。存储设备425例如固态设备、磁盘或光盘可以耦合到总线405以持久存储信息和指令。存储设备425可以包括数据存储库118或者是数据存储库118的一部分。

计算系统400可以经由总线405耦合到用于向用户显示信息的显示器435，例如液晶显示器或有源矩阵显示器。输入设备430诸如包括字母数字键和其他键的键盘可以耦合到总线405，用于将信息和命令选择传送到处理器410。输入设备430可以包括触摸屏显示器435。输入设备430可以还包括光标控制，例如鼠标、轨迹球或光标方向键，用于将方向信息和命令选择传送到处理器410并用于控制显示器435上的光标移动。显示器435可以例如是数据处理系统102、客户端计算设备128或图1的其他组件的一部分。

可以由计算系统400响应于处理器410执行包含在主存储器415中的指令排列来实现本文描述的过程、系统和方法。这些指令可以从诸如存储设备425的另一计算机可读介质读入主存储器415。包含在主存储器415中的指令的布置的执行使得计算系统400执行本文描述的说明性过程。还可以采用多处理布置中的一个或多个处理器来执行包含在主存储器415中的指令。可以使用硬连线电路代替软件指令以及本文描述的系统和方法或与软件指令以及本文描述的系统和方法组合。这里描述的系统和方法不限于硬件电路和软件的任何特定组合。

尽管图4中已经描述了示例计算系统，包括本说明书中描述的操作的主题可以在其他类型的数字电子电路中实现，或者在计算机软件、固件或硬件中实现，该硬件包括本说明书中公开的结构及其结构等同物或者它们的一个或多个的组合。

对于这里讨论的系统收集关于用户的个人信息或者可以利用个人信息的情况，可以向用户提供控制程序或特征是否可以收集个人信息(例如，关于用户社交网络、社交活动、用户的偏好或用户的位置的信息)，或控制是否或如何从内容服务器或其他数据处理系统接收可能与用户更相关的内容的机会。另外，某些数据可以在存储或使用之前以一种或多种方式匿名化，以便在生成参数时移除个人可识别信息。例如，用户的身份可以是匿名的，以便不能为用户确定个人身份信息，或者可以在获得位置信息时一般化用户的地理位置(例如，到城市、邮政编码或州级别)，这样就无法确定用户的特定位置。因此，用户可以控制如何收集关于他或她并由内容服务器使用的信息。

本说明书中描述的主题和操作可以在数字电子电路中实现，或者在计算机软件，固件或硬件中实现，该硬件包括本说明书中公开的结构及其结构等同物或者它们的一个或多个的组合。本说明书中描述的主题可以实现为在一个或多个计算机存储介质上编码的一个或多个计算机程序(例如，计算机程序指令的一个或多个电路)，用于由数据处理装置执行或控制数据处理装置的操作。替代地或另外地，程序指令可以编码在人工生成的传播信号上(例如，机器生成的电、光或电磁信号，其被生成以编码信息以便发送到合适的接收器设备以供数据处理装置执行)。计算机存储介质可以是或被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备或它们中的一个或多个的组合。虽然计算机存储介质不是传播信号，但是计算机存储介质可以是以人工生成的传播信号编码的计算机程序指令的源或目的地。计算机存储介质也可以是或被包括在一个或多个单独的组件或介质(例如，多个CD、磁盘或其他存储设备)中。本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。

术语“数据处理系统”、“计算设备”、“组件”或“数据处理装置”包括用于处理数据的各种装置、设备和机器，包括例如可编程处理器、计算机、片上系统或多个系统或前述的组合。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础结构，例如web服务、分布式计算和网格计算基础结构。系统100的组件可以包括或共享一个或多个数据处理装置、系统、计算设备或处理器。

计算机程序(也称为程序、软件、软件应用、应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言、声明或过程语言，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或适合在计算环境中使用的其他单元。计算机程序可以对应于文件系统中的文件。计算机程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、存储在专用于所讨论的程序的单个文件中或者存储在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一个计算机上或在位于一个站点上或分布在多个站点上并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器(例如，数据处理系统102的组件)执行，以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实现为专用逻辑电路，专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，包括例如：半导体存储器设备(例如，EPROM、EEPROM和闪存设备)；磁盘(例如，内部硬盘或可移动磁盘)；磁光盘；和CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

本文描述的主题可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)或包括前端组件(例如，具有图形用户界面的客户端计算机)或web浏览器或者一个或多个这样的后端、中间件或前端组件的组合的计算系统中实现，用户可以通过该浏览器与本说明书中描述的主题的实施方式进行交互。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、网络间(例如，因特网)和对等网络(例如，自组织对等网络)。

诸如系统100或系统400的计算系统可包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络(例如，网络116)进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中，服务器将数据(例如，表示内容项的数据分组)发送到客户端设备(例如，用于向与客户端设备交互的用户显示数据和从其接收用户输入的目的)。可以在服务器处从客户端设备接收(例如，由数据处理系统102从客户端计算设备128或感测设备142接收)在客户端设备处生成的数据(例如，用户交互的结果)。

虽然在附图中以特定次序描绘了操作，但是不需要以所示的特定次序或顺序次序执行这些操作，并且不需要执行所有示出的操作。可以以不同的次序执行这里描述的动作。

在所有实施方式中，各种系统组件的分离不需要分离，并且所描述的程序组件可以被包括在单个硬件或软件产品中。例如，NLP组件110可以是单个组件、app或程序、或具有一个或多个处理电路的逻辑设备、或者数据处理系统102的一个或多个服务器的一部分。

现在已经描述了一些说明性实施方式，显而易见的是，前述内容是说明性的而非限制性的，已经通过示例的方式呈现。特别地，尽管本文呈现的许多示例涉及方法动作或系统元件的特定组合，但是那些动作和那些元件可以以其他方式组合以实现相同的目标。结合一个实现讨论的动作、元件和特征不旨在从其他实施方式中的类似角色中排除。

这里使用的措辞和术语是出于描述的目的，不应该被认为是限制性的。本文中“包括”、“包含”、“具有”、“含有”、“涉及”、“以其为特征”、“其特征在于”及其变化形式的使用旨在涵盖其后列出的项、其等同物和其他项以及排他地由其后列出的项组成的替选实施方式。在一个实施方式中，这里描述的系统和方法由一个、多于一个的每个组合或所有所描述的元件、动作或组件组成。

对在此以单数形式提及的系统和方法的实施方式或元件或动作的任何引用也可以涵盖包括多个这些元素的实施方式，并且对于本文中的任何实现或元件或动作的任何复数引用也可以涵盖仅包括一个元素的实施方式。单数或复数形式的引用并不旨在将当前公开的系统或方法、它们的组件、动作或元件限制为单个或多个配置。基于任何信息、动作或元件的对于任何动作或元件的引用可以包括其中动作或元件至少部分地基于任何信息、动作或元件的实施方式。

本文公开的任何实施方式可以与任何其他实施方式或实施例组合，并且对“实施方式”、“一些实施方式”或“一个实施方式”等的引用不一定是相互排斥的并且旨在指示结合实施方式描述的特定特征、结构或特性可以被包括在至少一个实施方式或实施例中。这里使用的这些术语不一定都指的是相同的实施方式。任何实施方式可以以与本文公开的方面和实施方式一致的任何方式包含或排他地与任何其他实施方式组合。

对“或”的引用可以被解释为包含性的，使得使用“或”描述的任何术语可以指示单个、多于一个和所有所描述的术语中的任何术语。例如，对“‘A’和‘B’中的至少一个”的引用可以仅包括“A”、仅包括“B”以及包括“A”和“B”两者。与“包括”或其他开放术语结合使用的这些引用可包括附加项。

在附图、详细说明或任何权利要求中的技术特征之后是附图标记的情况下，包括了附图标记以增加附图、详细说明和权利要求的可懂度。因此，参考标记和它们的缺失都不会对任何权利要求要素的范围产生任何限制作用。

在不脱离其特征的情况下，本文描述的系统和方法可以以其他特定形式体现。前述实施方式是说明性的而非限制所描述的系统和方法。因此，本文描述的系统和方法的范围由所附权利要求而不是前面的描述表示，并且落入权利要求的等同物的含义和范围内的变化包含在其中。

Claims

1.一种用于检测远程设备中的激活短语的系统，包括：

由第一客户端设备执行的自然语言处理器组件，用于：

接收由感测设备的第一麦克风检测到的第一输入音频信号的第一实例；

解析所述第一输入音频信号的所述第一实例以识别在所述第一输入音频信号的所述第一实例中的第一候选激活短语；

确定所述第一候选激活短语不包含预定激活短语；

接收由所述感测设备的第二麦克风检测到的所述第一输入音频信号的第二实例；

解析所述第一输入音频信号的所述第二实例以识别在所述第一输入音频信号的所述第二实例中的第二候选激活短语；

确定所述第二候选激活短语包含所述预定激活短语；以及

所述第一客户端设备的接口，用于：

基于确定所述第二候选激活短语包含所述预定激活短语，将与所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例中的至少一个相关联的音频信号发送到数据处理系统，所述数据处理系统包括第二自然语言处理器组件，用于识别在所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例中的至少一个中的请求。

2.根据权利要求1所述的系统，包括：

所述接口，用于基于确定所述第一候选激活短语不包含所述预定激活短语，从所述第一客户端设备向所述感测设备发送对所述第一输入音频信号的所述第二实例的请求。

3.根据权利要求1或2所述的系统，包括：

所述自然语言处理器组件，用于：

接收由所述感测设备的所述第一麦克风检测到的第二输入音频信号的第一实例；

解析所述第二输入音频信号的所述第一实例以识别第三候选激活短语；

确定所述第三候选激活短语包含所述预定激活短语；以及

所述接口，用于基于确定所述第三候选激活短语包含所述预定激活短语，向所述感测设备发送对第三输入音频信号的请求。

4.根据任一项前述权利要求所述的系统，包括：

所述自然语言处理器组件，用于：

确定所述第三候选激活短语包含所述预定激活短语；以及

所述接口，用于基于确定所述第三候选激活短语包含所述预定激活短语，终止接收所述第二输入音频信号的第二实例。

5.根据任一项前述权利要求所述的系统，包括：

所述接口，用于在所述第一客户端设备和所述感测设备之间建立蓝牙连接。

6.根据任一项前述权利要求所述的系统，包括所述自然语言处理器组件，用于：

从所述第一客户端设备的传感器接收所述第一输入音频信号的第三实例；

解析所述第一输入音频信号的所述第三实例以识别在所述第一输入音频信号的所述第三实例中的第三候选激活短语；以及

至少基于所述第三候选激活短语和所述第二候选激活短语确定所述第一输入音频信号包含所述预定激活短语。

7.根据任一项前述权利要求所述的系统，包括：

所述自然语言处理器组件，用于：

接收由第二感测设备的第一麦克风检测到的第二输入音频信号的第一实例；

解析所述第二输入音频信号的所述第一实例以识别在所述第二输入音频信号的所述第一实例中的第三候选激活短语；

确定所述第三候选激活短语不包含预定激活短语；

接收由所述第二感测设备的所述第一麦克风检测到的所述第二输入音频信号的第二实例，所述第二输入音频信号的所述第二实例具有比所述第二输入音频信号的所述第一实例低的压缩率；

解析所述第二输入音频信号的所述第二实例以识别在所述第二输入音频信号的所述第二实例中的第四候选激活短语；

确定所述第四候选激活短语包含所述预定激活短语；以及

所述第一客户端设备的所述接口，用于：

基于确定所述第四候选激活短语包含所述预定激活短语，将所述第二输入音频信号的所述第一实例和所述第二输入音频信号的所述第二实例中的至少一个发送到包括所述第二自然语言处理器组件的所述数据处理系统，以识别在所述第二输入音频信号的所述第一实例和所述第二输入音频信号的所述第二实例的至少一个中的第二请求。

8.一种用于在语音激活网络中发送数据的系统，包括：

感测设备的第一麦克风，用于接收第一输入音频信号的第一实例；

所述感测设备的第二麦克风，用于接收所述第一输入音频信号的第二实例；

由所述感测设备执行的自然语言处理器组件，用于解析所述第一输入音频信号的所述第一实例以识别激活短语；

所述感测设备的接口，用于在第一时间点基于在所述第一输入音频信号的所述第一实例中的所述激活短语的识别，将所述第一输入音频信号的所述第一实例发送到客户端设备，所述客户端设备包括第二自然语言处理器组件；

所述感测设备的所述接口，用于在所述第一时间点之后的第二时间点将所述第一输入音频信号的所述第二实例发送到所述客户端设备；以及

所述感测设备的所述接口，用于基于来自所述客户端设备的、在所述第一输入音频信号的所述第二实例中的所述激活短语的识别的确认消息，将与所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例中的至少一个相关联的音频信号发送到所述客户端设备。

9.根据权利要求8所述的系统，包括所述接口，用于：

在所述第一时间点，以第一压缩等级向所述客户端设备发送所述第一输入音频信号的所述第一实例；以及

在所述第二时间点，以低于所述第一压缩等级的第二压缩等级将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

10.根据权利要求8或9所述的系统，包括所述接口，用于：

在所述第一时间点，以第一压缩等级向所述客户端设备发送所述第一输入音频信号的所述第二实例；以及

在所述第二时间点，以低于所述第一压缩等级的第二压缩等级将所述第一输入音频信号的所述第一实例和所述输入音频信号的所述第二实例发送到所述客户端设备。

11.根据权利要求8、9或10中的任一项所述的系统，包括所述接口，用于：

在所述第二时间点，基于所述激活短语不在所述输入音频信号的所述第一实例中的确认消息，将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

12.根据权利要求8至11中的任一项所述的系统，包括所述接口，用于：

在所述第二时间点，在接收到所述激活短语不在所述输入音频信号的所述第一实例中的确认消息之前，将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

13.根据权利要求12所述的系统，包括：

所述接口，用于基于所述激活短语在所述输入音频信号的所述第一实例中的确认消息来终止所述第一输入音频信号的所述第二接口的所述发送。

14.根据权利要求8至13中的任一项所述的系统，包括所述接口，用于：

与所述客户端设备建立蓝牙连接；

通过所述蓝牙连接发送所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例。

15.一种在语音激活网络中发送数据的方法，包括：

由感测设备的第一麦克风接收第一输入音频信号的第一实例；

由所述感测设备的第二麦克风接收所述第一输入音频信号的第二实例；

通过由所述感测设备执行的自然语言处理器组件解析所述第一输入音频信号的所述第一实例以识别激活短语；

基于所述第一输入音频信号的所述第一实例中的所述激活短语的识别，由所述感测设备的接口在第一时间点将所述第一输入音频信号的所述第一实例发送到客户端设备，所述客户端设备包括第二自然语言处理器组件；

由所述感测设备的所述接口在所述第一时间点之后的第二时间点向所述客户端设备发送所述第一输入音频信号的所述第二实例；以及

基于来自所述客户端设备的、在所述第一输入音频信号的所述第二实例中的所述激活短语的识别的确认消息，由所述感测设备的所述接口发送与所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例中的至少一个相关联的音频信号。

16.根据权利要求15所述的方法，包括：

由所述接口在所述第一时间点以第一压缩等级向所述客户端设备发送所述第一输入音频信号的所述第一实例；以及

由所述接口在所述第二时间点以低于所述第一压缩等级的第二压缩等级将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

17.根据权利要求15或16所述的方法，包括：

由所述接口在所述第一时间点以第一压缩等级将所述第一输入音频信号的所述第二实例发送给所述客户端设备；以及

由所述接口在所述第二时间点以低于所述第一压缩等级的第二压缩等级将所述第一输入音频信号的所述第一实例和所述输入音频信号的所述第二实例发送到所述客户端设备。

18.根据权利要求15至17中的任一项所述的方法，包括：

基于所述激活短语不在所述输入音频信号的所述第一实例中的确认消息，由所述接口在所述第二时间点将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

19.根据权利要求15至18中的任一项所述的方法，包括：

在接收到所述激活短语不在所述输入音频信号的所述第一实例中的确认消息之前，由所述接口在所述第二时间点将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

20.根据权利要求19所述的方法，包括：

基于所述激活短语在所述输入音频信号的所述第一实例中的确认消息，由所述接口终止所述第一输入音频信号的所述第二接口的所述发送。

21.一种用于检测远程设备中的激活短语的系统，包括：

由第一客户端设备执行的自然语言处理器组件，用于：

解析所述第一输入音频信号的所述第一实例以识别所述第一输入音频信号的所述第一实例中的第一候选激活短语；

确定所述第一候选激活短语不包含预定激活短语；

确定所述第二候选激活短语包含所述预定激活短语；以及

所述第一客户端设备的接口，用于：

基于确定所述第二候选激活短语包含所述预定激活短语，将所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例中的至少一个发送到包括第二自然语言处理器组件的数据处理系统，以识别所述第一输入音频信号的所述第一实例和所述第一输入音频信号的所述第二实例的至少一个中的请求。

22.根据权利要求21所述的系统，包括：

23.根据权利要求21所述的系统，包括：

所述自然语言处理器组件，用于：

确定所述第三候选激活短语包含所述预定激活短语；以及

24.根据权利要求21所述的系统，包括：

所述自然语言处理器组件，用于：

确定所述第三候选激活短语包含所述预定激活短语；以及

25.根据权利要求21所述的系统，包括：

26.根据权利要求21所述的系统，包括所述自然语言处理器组件，用于：

27.根据权利要求21所述的系统，包括：

所述自然语言处理器组件，用于：

解析所述第二输入音频信号的所述第一实例以识别所述第二输入音频信号的所述第一实例中的第三候选激活短语；

确定所述第三候选激活短语不包含预定激活短语；

解析所述第二输入音频信号的所述第二实例以识别所述第二输入音频信号的所述第二实例中的第四候选激活短语；

确定所述第四候选激活短语包含所述预定激活短语；以及

所述第一客户端设备的接口，用于：

基于确定所述第四候选激活短语包含所述预定激活短语，将所述第二输入音频信号的所述第一实例和所述第二输入音频信号的所述第二实例中的至少一个发送到包括所述第二自然语言处理器组件的所述数据处理系统，以识别在所述第二输入音频信号的所述第一实例和所述第二输入音频信号的所述第二实例中的至少一个中的第二请求

28.一种用于在语音激活网络中发送数据的系统，包括：

感测设备的第一麦克风，用于接收第一输入音频信号的第一实例和第二输入音频信号的第一实例；

所述感测设备的第二麦克风，用于接收所述第一输入音频信号的第二实例和所述第二输入音频信号的第二实例；

所述感测设备的接口，用于基于所述第一输入音频信号的所述第一实例中的所述激活短语的识别，在第一时间点将所述第一输入音频信号的所述第一实例发送到客户端设备，所述客户端设备包括第二自然语言处理器组件；

所述感测设备的所述接口，用于基于来自所述客户端设备的、所述第一输入音频信号的所述第二实例中的所述激活短语的识别的确认消息，将所述第二输入音频信号的所述第一实例发送到所述客户端设备。

29.根据权利要求28所述的系统，包括所述接口，用于：

在所述第二时间点，以低于所述第一压缩等级的第二压缩等级向所述客户端设备发送所述第一输入音频信号的所述第二实例。

30.根据权利要求28所述的系统，包括所述接口，用于：

在所述第二时间点，以低于所述第一压缩等级的第二压缩等级向所述客户端设备发送所述第一输入音频信号的所述第一实例和所述输入音频信号的所述第二实例。

31.根据权利要求28所述的系统，包括所述接口，用于：

基于所述激活短语不在所述输入音频信号的所述第一实例中的确认消息，在所述第二时间点将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

32.根据权利要求28所述的系统，包括所述接口，用于：

在接收到所述激活短语不在所述输入音频信号的所述第一实例中的确认消息之前，在所述第二时间点将所述第一输入音频信号的所述第二实例发送到所述客户端设备。

33.根据权利要求32所述的系统，包括：

34.根据权利要求28所述的系统，包括所述接口，用于：

与所述客户端设备建立蓝牙连接；

35.一种用于在语音激活网络中发送数据的方法，包括：

由感测设备的第一麦克风接收第一输入音频信号的第一实例和第二输入音频信号的第一实例；

由所述感测设备的第二麦克风接收所述第一输入音频信号的第二实例和所述第二输入音频信号的第二实例；

基于来自所述客户端设备的、所述第一输入音频信号的所述第二实例中的激活短语的识别的确认消息，由所述感测设备的所述接口将所述第二输入音频信号的所述第一实例发送到所述客户端设备。

36.根据权利要求35所述的方法，包括：

由所述接口在所述第一时间点，以第一压缩等级向所述客户端设备发送所述第一输入音频信号的所述第一实例；以及

由所述接口在所述第二时间点，以低于所述第一压缩等级的第二压缩等级向所述客户端设备发送所述第一输入音频信号的所述第二实例。

37.根据权利要求35所述的方法，包括：

由所述接口在所述第一时间点，以第一压缩等级向所述客户端设备发送所述第一输入音频信号的所述第二实例；以及

由所述接口在所述第二时间点，以低于所述第一压缩等级的第二压缩等级向所述客户端设备发送所述第一输入音频信号的所述第一实例和所述输入音频信号的所述第二实例。

38.根据权利要求35所述的方法，包括：

39.根据权利要求35所述的方法，包括：

40.根据权利要求39所述的方法，包括：