CN108551766A

CN108551766A - 用于与服务提供者的会话建立的自然语言处理

Info

Publication number: CN108551766A
Application number: CN201780001369.6A
Authority: CN
Inventors: 格拉瓦·布哈亚; 罗伯特·斯特茨
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-08-31
Publication date: 2018-09-18
Anticipated expiration: 2037-08-31
Also published as: KR102165262B1; EP3360314B1; CN113918896A; DE212017000029U1; CN108551766B; WO2018125299A1; ES2884090T3; JP2019194918A; EP3905653A1; US20210160308A1; US10972530B2; KR20190099350A; JP2019506759A; DE112017000122T5; EP3360314A1; KR102015069B1; US11949733B2; US20180191808A1; JP6563519B2; JP7163253B2

Abstract

提供了在基于语音激活的数据分组的计算机网络环境中路由分组化动作。系统可接收由装置的麦克风检测到的音频信号。系统可解析音频信号以标识触发关键词和请求，并且生成动作数据结构。系统可将动作数据结构发送到第三方提供者装置。系统可从第三方提供者装置接收与装置建立了通信会话的指示。

Description

用于与服务提供者的会话建立的自然语言处理

相关申请的交叉引用

本申请要求于2016年12月30日提交的并且标题为“AUDIO-BASED DATA STRUCTUREGENERATION”的美国专利申请No.15/395,689的权益和优先权，其特此通过引用整体地并入以用于所有目的。

背景技术

计算装置之间的网络业务数据的基于分组或其它的过度网络传输可阻碍计算装置适当地处理网络业务数据、完成与网络业务数据有关的操作或者及时对网络业务数据做出响应。如果响应计算装置处于或超过其处理能力，则网络业务数据的过度网络传输也可使数据路由复杂化或者使响应的质量降级，这可以导致低效率的带宽利用。对与内容项对象相对应的网络传输的控制可能由于能在计算装置之间发起网络业务数据的网络传输的大量内容项对象而变得复杂。

发明内容

本公开总体上致力于改进在根本不同的计算资源上的信息传输和处理的效率和有效性。对于根本不同的计算资源来说，在基于语音的计算环境中高效地处理并一致地且准确地解析基于音频的指令是有挑战性的。例如，根本不同的计算资源可能不能够访问相同的语音模型，或者可能访问过时或不同步的语音模型，这可使准确地且一致地解析基于音频的指令变得有挑战性。

本公开的系统和方法总体上致力于经由计算机网络路由分组化动作的数据处理系统。数据处理系统可专门使用基于聚合语音训练的语音模型来处理基于语音的输入以解析基于语音的指令并创建动作数据结构。数据处理系统可将动作数据结构发送到数据处理系统或第三方提供者装置的一个或多个组件，从而允许第三方提供者装置在不必处理基于语音的输入的情况下处理动作数据结构。通过针对多个第三方提供者装置来处理基于语音的输入，数据处理系统可改进处理并执行基于语音的指令的可靠性、效率和准确性。

至少一个方面致力于经由计算机网络路由分组化动作的系统。该系统可包括由数据处理系统执行的自然语言处理器(“NLP”)组件。NLP组件可经由数据处理系统的接口接收包括由客户端装置的传感器检测到的输入音频信号的数据分组。NLP组件可解析输入音频信号以标识请求和与请求相对应的触发关键词。数据处理系统可包括直接动作应用编程接口(“API”)。直接操作API可基于触发关键词生成响应于请求的动作数据结构。直接动作API可将动作数据结构发送到第三方提供者装置以使第三方提供者装置调用对话应用编程接口并在第三方提供者装置与客户端装置之间建立通信会话。数据处理系统可从第三方提供者装置接收第三方提供者装置与客户端装置建立了通信会话的指示。

至少一个方面致力于经由计算机网络路由分组化动作的方法。该方法可包括数据处理系统经由数据处理系统的接口接收包括由客户端装置的传感器检测到的输入音频信号的数据分组。方法可包括数据处理系统解析输入音频信号以标识请求和与请求相对应的触发关键词。该方法可包括数据处理系统基于触发关键词生成响应于请求的动作数据结构。该方法可包括数据处理系统将动作数据结构发送到第三方提供者装置以使第三方提供者装置调用对话应用编程接口并在第三方提供者装置与客户端装置之间建立通信会话。该方法可包括数据处理系统从第三方提供者装置接收第三方提供者装置与客户端装置建立了通信会话的指示。

在下面详细地讨论这些及其它方面和实施方式。上述信息和以下详细描述包括各个方面和实施方式的说明性示例，并且提供用于理解所要求保护的方面和实施方式的性质和特征的概要或框架。附图提供各个方面和实施方式的图示和进一步理解，并且被并入本说明书并构成本说明书的一部分。

附图说明

附图不旨在按比例绘制。在各个附图中相同的附图标记和名称指示相同的元件。出于清楚的目的，可以不在每一附图中标记每一组件。在附图中：

图1是经由计算机网络路由分组化动作的系统的图示。

图2是系统经由计算机网络路由分组化动作的操作的图示。

图3是系统经由计算机网络路由分组化动作的操作的图示。

图4是经由计算机网络路由分组化动作的方法的图示。

图5是图示可被采用来实现本文所描述和图示的系统和方法的元件的计算机系统的一般架构的框图。

具体实施方式

下文是与经由计算机网络路由分组化动作的方法、设备和系统有关的各种构思以及这些方法、设备和系统的实施方式的更详细描述。可以以许多方式中的任一种实现在上面介绍的并在下面更详细地讨论的各种构思。

本公开总体致力于改进在根本不同的计算资源上的信息传输和处理的效率和有效性。对于根本不同的计算资源来说，在基于语音的计算环境中高效地处理并一致地且准确地解析基于音频的指令是有挑战性的。例如，根本不同的计算资源可能不能够访问相同的语音模型，或者可能访问过时或不同步的语音模型，这可使准确地且一致地解析基于音频的指令变得有挑战性。

本公开的系统和方法总体致力于经由计算机网络路由分组化动作的数据处理系统。数据处理系统可专门使用基于聚合语音训练的语音模型来处理基于语音的输入，以解析基于语音的指令并创建动作数据结构。数据处理系统可将动作数据结构发送到数据处理系统或第三方提供者装置的一个或多个组件，从而允许第三方提供者装置在不必处理基于语音的输入的情况下处理动作数据结构。通过针对多个第三方提供者装置来处理基于语音的输入，数据处理系统可改进处理并执行基于语音的指令的可靠性、效率和准确性。

本解决方案可通过解析来自终端用户的基于语音的指令、使用模板来构造动作数据结构并且将该动作数据结构路由到对应的第三方提供者来减少资源消耗、处理器利用、电池消耗、带宽利用、音频文件的大小或由扬声器消耗的时间的量。

图1图示经由计算机网络路由分组化动作的示例系统100。系统100可包括内容选择基础设施。系统100可包括数据处理系统102。数据处理系统102可经由网络105与内容提供者计算装置106、服务提供者计算装置108或客户端计算装置104中的一个或多个进行通信。网络105可包括诸如因特网、局域网、广域网、城域网或其它区域网络、内联网、卫星网络的计算机网络，以及诸如语音或数据移动电话网络的其它通信网络。网络105可用于访问信息资源，诸如可以在至少一个计算装置104(诸如膝上型电脑、台式机、平板、个人数字助理、智能电话、便携式计算机或扬声器)上呈现、输出、渲染或者显示的web页面、web站点、域名或统一资源定位符。例如，经由网络105计算装置104的用户可访问由服务提供者108或内容提供者106提供的信息或数据。计算装置104可以或者可以不包括显示器；例如，计算装置可以包括有限类型的用户接口，诸如麦克风和扬声器。在一些情况下，计算装置104的主用户接口可以是麦克风和扬声器。

网络105可包括或者构成显示网络，例如，互联网上可得到的与内容置放或搜索引擎结果系统相关联或者有资格包括第三方内容项作为内容项置放活动的一部分的信息资源的子集。网络105可被数据处理系统102使用来访问信息资源，诸如可由客户端计算装置104呈现、输出、渲染或者显示的web页面、web站点、域名或统一资源定位符。例如，经由网络105客户端计算装置104的用户可访问由内容提供者计算装置106或服务提供者计算装置108提供的信息或数据。

网络105可以是任何类型或形式的网络并且可以包括下列中的任一个：点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、ATM(异步传输模式)网络、SONET(同步光网络)网络、SDH(同步数字体系)网络、无线网络和有线线路网络。网络105可以包括无线链路，诸如红外线信道或卫星频带。网络105的拓扑可以包括总线、星形或环形网络拓扑。网络可以包括使用任何一个或多个协议用于在移动装置之间通信的移动电话网络，协议包括高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电服务(“GPRS”)或通用移动电信系统(“UMTS”)。可以经由不同的协议发送不同类型的数据，或者可以经由不同的协议发送相同类型的数据。

系统100可包括至少一个数据处理系统102。数据处理系统102可包括至少一个逻辑装置，诸如具有处理器以经由网络105例如与计算装置104、内容提供者装置106(内容提供者106)或服务提供者装置108(或服务提供者108)进行通信的计算装置。数据处理系统102可包括至少一个计算资源、服务器、处理器或存储器。例如，数据处理系统102可包括位于至少一个数据中心中的多个计算资源或服务器。数据处理系统102可包括多个逻辑上分组的服务器并且有助于分布式计算技术。服务器的逻辑组可以被称为数据中心、服务器场或机器场。服务器也可以在地理上分散。数据中心或机器场可以作为单个实体来管理，或者机器场可包括多个机器场。每个机器场内的服务器可以是异构的——这些服务器或机器中的一个或多个可根据一个或多个类型的操作系统平台来操作。

机器场中的服务器可连同相关联的存储系统一起被存储在高密度机架系统中，并且位于企业数据中心中。例如，以这种方式整合服务器可以通过将服务器和高性能存储系统定位在本地化高性能网络上来改进系统可管理性、数据安全性、系统的物理安全性和系统性能。数据处理系统102组件(包括服务器和存储系统)中的全部或一些的集中化并且将它们与高级系统管理工具耦合允许更高效地使用服务器资源，这节省电力和处理需求并减少带宽使用。

系统100可包括、访问或者以其它方式与至少一个服务提供者装置108交互。服务提供者装置108可包括至少一个逻辑装置，诸如具有处理器以经由网络105例如与计算装置104、数据处理系统102或内容提供者106进行通信的计算装置。服务提供者装置108可包括至少一个计算资源、服务器、处理器或存储器。例如，服务提供者装置108可包括位于至少一个数据中心中的多个计算资源或服务器。服务提供者装置108可包括数据处理系统102的一个或多个组件或功能性。

内容提供者计算装置106可提供基于音频的内容项用于由客户端计算装置104作为音频输出内容项来显示。内容项可包括对商品或服务的提供，诸如陈述：“您希望我为您订出租车吗？”的基于语音的消息。例如，内容提供者计算装置155可包括存储器用于存储可响应于基于语音的查询而提供的一系列音频内容项。内容提供者计算装置106也可向数据处理系统102提供基于音频的内容项(或其它内容项)，其中它们可被存储在数据储存库124中。数据处理系统102可选择音频内容项并且将这些音频内容项提供(或者指示内容提供者计算装置104将这些音频内容项提供)给客户端计算装置104。基于音频的内容项可以专门是音频，或者可与文本、图像或视频数据组合。

服务提供者装置108可包括至少一个服务提供者自然语言处理器组件142和服务提供者接口144，与至少一个服务提供者自然语言处理器组件142和服务提供者接口144对接，或者以其它方式与至少一个服务提供者自然语言处理器组件142和服务提供者接口144进行通信。服务提供者计算装置108可包括至少一个服务提供者自然语言处理器(NLP)组件142和至少一个服务提供者接口144。服务提供者NLP组件142(或诸如服务提供者计算装置108的直接动作API的其它组件)可(经由数据处理系统102或者绕过数据处理系统102)与客户端计算装置104接合，以在客户端计算装置104与服务提供者计算装置108之间创建基于来回实时语音或音频的对话(例如，会话)。服务提供者NLP 142可包括作为数据处理系统102的NLP组件112的一个或多个功能或特征。例如，服务提供者接口144可接收并将数据消息提供给数据处理系统102的直接动作API 116。服务提供者计算装置108和内容提供者计算装置106可与同一实体相关联。例如，内容提供者计算装置106可以为汽车共享服务创建、存储或者制作可用的内容项，并且服务提供者计算装置108可与客户端计算装置106建立会话来安排汽车共享服务的出租车或汽车的配送以接送客户端计算装置104的终端用户。数据处理系统102经由直接动作API 116、NLP组件112或其它组件也可与客户端计算装置建立会话，包括或者绕过服务提供者计算装置104，以例如安排汽车共享服务的出租车或汽车的配送。

计算装置104可包括至少一个传感器134、换能器136、音频驱动器138或预处理器140，与至少一个传感器134、换能器136、音频驱动器138或预处理器140对接，或者以其它方式与至少一个传感器134、换能器136、音频驱动器138或预处理器140进行通信。传感器134可包括例如环境光传感器、接近传感器、温度传感器、加速度计、陀螺仪、运动检测器、GPS传感器、位置传感器、麦克风或触摸传感器。换能器136可包括扬声器或麦克风。音频驱动器138可向硬件换能器136提供软件接口。音频驱动器可以执行由数据处理系统102提供的音频文件或其它指令，以控制换能器136以生成对应的声波或音波。预处理器140可被配置成检测关键词并基于该关键词执行动作。预处理器140可在将术语发送到数据处理系统102以用于进一步处理之前滤出一个或多个术语或者修改术语。预处理器140可将由麦克风检测到的模拟音频信号转换成数字音频信号，并且经由网络105向数据处理系统102发送承载该数字音频信号的一个或多个数据分组。在一些情况下，预处理器140可响应于检测到用于执行这种传输的指令而发送承载输入音频信号中的一些或全部的数据分组。指令可包括例如用于向数据处理系统102发送包括输入音频信号的数据分组的触发关键词或其它关键词或批准。

客户端计算装置104可与终端用户相关联，终端用户(经由传感器134)将语音查询作为音频输入录入到客户端计算装置104中，并且接收从换能器136(例如，扬声器)输出的音频输出，该音频输出形式为可从数据处理系统102(或内容提供者计算装置106或服务提供者计算装置108)提供给客户端计算装置104的计算机生成的语音。计算机生成的语音可包括来自真人或计算机生成的语言的录音。

数据储存库124可包括一个或多个本地或分布式数据库，并且可包括数据库管理系统。数据储存库124可包括计算机数据存储部或存储器，并且除了其它数据之外还可存储一个或多个参数126、一个或多个策略128、内容数据130或模板132。参数126、策略128和模板132可包括诸如关于客户端计算装置104与数据处理系统102(或服务提供者计算装置108)之间的基于语音的会话的规则的信息。内容数据130可包括音频输出或相关元数据的内容项，以及可以是与客户端计算装置104的一个或多个通信会话的一部分的输入音频消息。

数据处理系统102可包括具有至少一个计算资源或服务器的内容置放系统。数据处理系统102可包括至少一个接口110，与至少一个接口110对接，或者以其它方式与至少一个接口110进行通信。数据处理系统102可包括至少一个自然语言处理器组件112，与至少一个自然语言处理器组件112对接，或者以其它方式与至少一个自然语言处理器组件112进行通信。数据处理系统102可包括至少一个直接动作应用编程接口(“API”)116，与至少一个直接动作应用编程接口(“API”)116对接，或者以其它方式与至少一个直接动作应用编程接口(“API”)116进行通信。数据处理系统102可包括至少一个会话处理机114，与至少一个会话处理机114对接，或者以其它方式与至少一个会话处理机114进行通信。数据处理系统102可包括至少一个内容选择器组件118，与至少一个内容选择器组件118对接，或者以其它方式与至少一个内容选择器组件118进行通信。数据处理系统102可包括至少一个音频信号生成器122，与至少一个音频信号生成器122对接，或者以其它方式与至少一个音频信号生成器122进行通信。数据处理系统102可包括至少一个数据储存库124，与至少一个数据储存库124对接，或者以其它方式与至少一个数据储存库124进行通信。至少一个数据储存库124可包括或者在一个或多个数据结构或数据库中存储参数126、策略128、内容数据130或模板132。参数126可包括例如阈值、距离、时间间隔、持续时间、分数或权重。内容数据130可包括例如内容活动信息、内容组、内容选择准则、内容项对象或由内容提供者106提供或者由数据处理系统获得或者确定以有助于内容选择的其它信息。内容数据130可包括例如内容活动的历史表现。

接口110、自然语言处理器组件112、会话处理机114、直接动作API 116、内容选择器组件118或音频信号生成器组件122可各自包括至少一个处理单元或其它逻辑装置，诸如可编程逻辑阵列引擎或被配置成与数据库储存库或数据库124进行通信的模块。接口110、自然语言处理器组件112、会话处理机114、直接动作API 116、内容选择器组件118、音频信号生成器组件122和数据储存库124可以是单独的组件、单个组件或数据处理系统102的一部分。系统100及其组件(诸如数据处理系统102)可包括硬件元件，诸如一个或多个处理器、逻辑装置或电路。

数据处理系统102可获得与多个计算装置104相关联的匿名计算机网络激活信息。计算装置104的用户可肯定地授权数据处理系统102以获得与该用户的计算装置104相对应的网络激活信息。例如，数据处理系统102可提示计算装置104的用户以同意获得一个或多个类型的网络激活信息。计算装置104的用户的身份可保持匿名并且计算装置104可与唯一标识符(例如，由数据处理系统或计算机的用户提供的用户或计算装置的唯一标识符)相关联。数据处理系统可使每个观察结果与对应的唯一标识符相关联。

内容提供者106可建立电子内容活动。可将电子内容活动作为内容数据130存储在数据储存库124中。电子内容活动可指代对应于公共题材的一个或多个内容组。内容活动可包括分层数据结构，分层数据结构包括内容组、内容项数据对象和内容选择准则。为了创建内容活动，内容提供者106可为该内容活动的活动级别参数指定值。活动级别参数可包括例如活动名称、用于置放内容项对象的优选内容网络、待用于内容活动的资源的价值、内容活动的开始和结束日期、内容活动的持续时间、内容项对象置放的时间表、语言、地理位置、在其上提供内容项对象的计算装置的类型。在一些情况下，印象可指代内容项对象何时被从其源(例如，数据处理系统102或内容提供者106)预取，并且是可计数的。在一些情况下，由于点击欺骗的可能性，机器人活动可作为印象被过滤和排除。因此，在一些情况下，印象可指代来自Web服务器的对来自浏览器的页面请求的响应的测量，其被从机器人活动和错误代码中过滤，并且在尽可能接近的点被记录以有机会渲染内容项对象用于显示在计算装置104上。在一些情况下，印象可指代可见或可听印象；例如，内容项对象至少部分地(例如，20％、30％、30％、40％、50％、60％、70％或更多)在客户端计算装置104的显示装置上可见，或者经由计算装置104的扬声器136可听。点击或选择可指代用户与内容项对象的交互，诸如对可听印象、鼠标点击、触摸交互、手势、摇动、音频交互或键盘点击的语音响应。转换可指代用户对于内容项对象采取期望的动作；例如，购买产品或服务、完成调查、访问与内容项相对应的物理商店或者完成电子交易。

内容提供者106还可为内容活动建立一个或多个内容组。内容组包括一个或多个内容项对象和对应的内容选择准则，诸如关键词、单词、术语、短语、地理位置、计算装置的类型、时刻、兴趣、主题或垂直。在相同的内容活动下的内容组可共享相同的活动级别参数，但是对于特定内容组级别参数(诸如关键词、否定关键词(例如，在否定关键词存在于主要内容上的情况下阻止内容项的置放)、对关键词的出价或者与出价或内容活动相关联的参数)具有定制规范。

为了创建新内容组，内容提供者可为内容组的内容组级别参数提供值。内容组级别参数包括例如内容组名称或内容组题材以及对不同的内容置放机会(例如，自动置放或受管理置放)或结果(例如，点击、印象或转换)的出价。内容组名称或内容组题材可以是内容提供者106可使用来捕获内容组的内容项对象将被选择以供显示的论题或主题的一个或多个术语。例如，汽车经销商可为它运送的车辆的每个型号创建不同的内容组，并且还可以为它运送的车辆的每个品牌创建不同的内容组。汽车经销商可使用的内容组题材的示例包括例如“制造A跑车”、“制造B跑车”、“制造C轿车”、“制造C卡车”、“制造C混合动力车”或“制造D混合电力车”。例如，示例内容活动题材可以是“混合电力车”并且包括针对“制造C混合电力车”和“制造D混合电力车”两者的内容组。

内容提供者106可向每个内容组提供一个或多个关键词和内容项对象。关键词可包括和与内容项对象相关联或者由内容项对象标识的产品或服务相关的术语。关键词可包括一个或多个术语或短语。例如，汽车经销商可包括“跑车”、“V-6发动机”、“四轮驱动”、“燃料效率”作为内容组或内容活动的关键词。在一些情况下，内容提供者可指定否定关键词以在特定术语或关键词上避免、防止、阻止或者禁用内容置放。内容提供者可指定用于选择内容项对象的匹配的类型，例如精确匹配、短语匹配或广泛匹配。

内容提供者106可提供待由数据处理系统102使用来选择由内容提供者106提供的内容项对象的一个或多个关键词。内容提供者106可标识要出价的一个或多个关键词，并且为各种关键词进一步提供出价金额。内容提供者106可提供待由数据处理系统102使用来选择内容项对象的附加内容选择准则。多个内容提供者106可对相同或不同的关键词出价，并且数据处理系统102可响应于接收到电子消息的关键词的指示而运行内容选择过程或广告拍卖。

内容提供者106可提供一个或多个内容项对象以供数据处理系统102选择。当与为内容组指定的资源分配、内容时间表、最大出价、关键词和其它选择准则匹配的内容置放机会变得可用时，数据处理系统102(例如，经由内容选择器组件118)可选择内容项对象。可将不同类型的内容项对象包括在内容组中，内容组诸如是语音内容项、音频内容项、文本内容项、图像内容项、视频内容项、多媒体内容项或内容项链接。在选择内容项时，数据处理系统102可发送用于在计算装置104或计算装置104的显示装置上渲染的内容项对象。渲染可包括将内容项显示在显示装置上或者经由计算装置104的扬声器播放内容项。数据处理系统102可向计算装置104提供用于渲染内容项对象的指令。数据处理系统102可指示计算装置104或计算装置104的音频驱动器138生成音频信号或声波。

数据处理系统102可包括被设计、配置、构造或者可操作来使用例如数据分组以接收和发送信息的接口组件110。接口110可使用一个或多个协议(诸如网络协议)来接收和发送信息。接口110可包括硬件接口、软件接口、有线接口或无线接口。接口110可有助于将数据从一个格式转化或者格式化为另一格式。例如，接口110可包括应用编程接口，应用编程接口包括用于在各种组件(诸如软件组件)之间进行通信的定义。

数据处理系统102可包括安装在客户端计算装置104处的应用、脚本或程序，诸如用于向数据处理系统102的接口110传送输入音频信号并且驱动客户端计算装置的组件以渲染输出音频信号的app。数据处理系统102可接收包括或者标识音频输入信号的数据分组或其它信号。例如，数据处理系统102可执行或者运行NLP组件112以接收或者获得音频信号并解析音频信号。例如，NLP组件112可提供人类与计算机之间的交互。NLP组件112可被配置有用于理解自然语言并且允许数据处理系统102从人类或自然语言输入导出含义的技术。NLP组件112可包括或者被配置有基于机器学习的技术，诸如统计机器学习。NLP组件112可利用决策树、统计模型或概率模型来解析输入音频信号。NLP组件112可执行例如这些功能，诸如命名实体识别(例如，给定文本流，确定文本中的哪些项映射到适当的名称(诸如人或地点)并且每个这种名称是什么类型，诸如人、地点或组织)、自然语言生成(例如，将来自计算机数据库或语义意图的信息转换成可理解的人类语言)、自然语言理解(例如，将文本转换成更正式的表示，诸如计算机模块可操纵的一阶逻辑结构)、机器翻译(例如，将文本从一种人类语言自动地翻译为另一语言)、形态分段(例如，将单词分成单独的语素并且标识语素的类别，这基于正考虑的语言的单词的形态或结构的复杂性可能是有挑战性的)、问题回答(例如，确定人类语言问题的答案，其可以是特定的或开放式的)、语义处理(例如，可在标识单词并且对其含义进行编码以便使所识别的单词与具有相似含义的其它单词相关联之后发生的处理)。

NLP组件112通过对照存储的一组代表性音频波形(例如，在数据储存库124中)来比较输入信号，并且选取最接近的匹配来将音频输入信号转换成识别的文本。该组音频波形可被存储在数据储存库124或对数据处理系统102可访问的其它数据库中。代表性波形是跨越一大组用户而生成的，并且然后可以用来自用户的语音样本进行扩增。在音频信号被转换成识别的文本之后，NLP组件112使该文本与例如经由跨越用户训练或者通过人工指定而与数据处理系统102可服务的动作相关联的单词相匹配。

音频输入信号可由客户端计算装置104的传感器134或换能器136(例如，麦克风)来检测。经由换能器136或其它组件，客户端计算装置104可将音频输入信号提供给数据处理系统102(例如，经由网络105)，在此它可被接收(例如，由接口110接收)并提供给NLP组件112或者存储在数据储存库124中。

NLP组件112可获得输入音频信号。根据输入音频信号，NLP组件112可标识至少一个请求或与该请求相对应的至少一个触发关键词。该请求可指示输入音频信号的意图或主题。触发关键词可指示很可能被采取的动作的类型。例如，NLP组件112可解析输入的音频信号以标识晚上离开家去参加晚餐和电影的至少一个请求。触发关键词可包括至少一个单词、短语、根或部分单词或指示要采取的动作的派生词。例如，来自输入音频信号的触发关键词“go”或“to go”可指示对交通的需要。在此示例中，输入音频信号(或所识别的请求)不直接表达对交通的意图，然而触发关键词指示交通是对于请求所指示的至少一个其它动作的辅助动作。

NLP组件112可解析输入音频信号以标识、确定、检索或者以其它方式获得请求和触发关键词。例如，NLP组件112可对输入音频信号应用语义处理技术以标识触发关键词或请求。NLP组件112可将语义处理技术应用于输入音频信号以标识包括一个或多个触发关键词(诸如第一触发关键词和第二触发关键词)的触发短语。例如，输入音频信号可包括句子“I need someone to do my laundry and my dry cleaning(我需要某人洗衣服和干洗)”。NLP组件112可对包括该句子的数据分组应用语义处理技术或其它自然语言处理技术以标识触发短语“do my laundry”和“do my dry cleaning”。NLP组件112还可标识多个触发关键词，诸如洗衣和干洗。例如，NLP组件112可确定触发短语包括触发关键词和第二触发关键词。

NLP组件112可对输入音频信号进行过滤以标识触发关键词。例如，承载输入音频信号的数据分组可包括“It would be great if I could get someone that could helpme go to the airport(如果我能找到某人帮我去机场就太好了)”，在此情况下NLP组件112可滤出一个或多个术语如下：“it”、“would”、“be”、“great”、“if”、“I”、“could”、“get”、“someone”、“that”、“could”或“help”。通过滤出这些术语，NLP组件112可以更精确地且可靠地标识触发关键词，诸如“go to the airport(去机场)”，并且确定这是对出租车或乘车共享服务的请求。

在一些情况下，NLP组件可确定承载输入音频信号的数据分组包括一个或多个请求。例如，输入音频信号可包括句子“I need someone to do my laundry and my drycleaning(我需要某人洗衣服和干洗)”。NLP组件112可确定这是对洗衣服务和干洗服务的请求。NLP组件112可确定这是对可提供洗衣服务和干洗服务两者的服务提供者的单个请求。NLP组件112可确定这是两个请求；对执行洗衣服务的服务提供者的第一请求，以及对提供干洗服务的服务提供者的第二请求。在一些情况下，NLP组件112可将多个确定的请求组合成单个请求，并且将该单个请求发送到服务提供者装置108。在一些情况下，NLP组件112可将单独的请求发送到相应的服务提供者装置108，或者将两个请求分别发送到相同的服务提供者装置108。

数据处理系统102可包括被设计和构造来基于触发关键词生成响应于请求的动作数据结构的直接动作API 116。数据处理系统102的处理器可调用直接动作API 116来执行生成数据结构给服务提供者装置108的脚本，以请求或者订购服务或产品，诸如来自汽车共享服务的汽车。直接动作API 116可获得来自数据储存库124的数据，以及在终端用户同意情况下从客户端计算装置104接收的数据，以确定位置、时间、用户账户、逻辑或其它信息以允许服务提供者装置108执行操作，诸如从汽车共享服务预订车辆。使用直接动作API 116，数据处理系统102也可与服务提供者装置108进行通信以通过在此示例中进行汽车共享接送预订来完成转换。

直接动作API 116可执行指定的动作以满足如由数据处理系统102所确定的终端用户的意图。取决于其输入中指定的动作，直接动作API 116可执行标识履行用户请求所需要的参数的代码或谈话脚本。这种代码可例如在数据储存库124中查找附加信息，诸如家庭自动化服务的名称，或者它可提供用于在客户端计算装置104处渲染以询问终端用户诸如请求的出租车的预定目的地的问题的音频输出。直接动作API 116可确定必要的参数并且可将信息封装到动作数据结构中，动作数据结构然后可被发送到另一组件(诸如内容选择器组件118)或者到服务提供者计算装置108以被完成。

直接动作API 116可从数据处理系统102的NLP组件112或其它组件接收指令或命令，以生成或者构造动作数据结构。直接动作API116可确定动作的类型以便从存储在数据储存库124中的模板储存库132中选择模板。动作的类型可包括例如服务、产品、预订或门票。动作的类型还可包括服务或产品的类型。例如，服务的类型可包括汽车共享服务、食物配送服务、洗衣服务、清洁服务、维修服务或家政服务。产品的类型可包括例如衣服、鞋子、玩具、电子装置、计算机、书籍或首饰。预订的类型可包括例如晚餐预订或美发沙龙预约。门票的类型可包括例如电影票、体育场馆门票或机票。在一些情况下，可基于价格、位置、送货类型、可用性或其它属性对服务、产品、预订或门票的类型进行分类。

直接动作API 116在标识请求的类型时，可从模板储存库132访问所对应的模板。模板可包括可通过直接动作API 116填充的结构化数据集合中的字段，以进一步进行服务提供者装置108请求的操作(诸如派出租车在接送位置接送终端用户并将该终端用户运送到目的地位置的操作)。直接动作API 116可在模板储存库132中执行查找以选择与触发关键词和请求的一个或多个特性匹配的模板。例如，如果请求对应于对汽车或乘车到目的地的请求，则数据处理系统102可选择汽车共享服务模板。汽车共享服务模板可包括以下字段中的一个或多个：装置标识符、接送位置、目的地位置、乘客人数或服务的类型。直接动作API 116可用值填充字段。为了用值填充字段，直接动作API 116可以从计算装置104的一个或多个传感器134或装置104的用户接口查验、轮询或者以其它方式获得信息。例如，直接动作API 116可使用位置传感器(诸如GPS传感器)来检测源位置。直接动作API 116可通过向计算装置104的终端用户提交调查、提示或查询来获得进一步信息。直接动作API可经由数据处理系统102的接口110和计算装置104的用户接口(例如，音频接口、基于语音的用户接口、显示器或触摸屏)提交调查、提示或查询。因此，直接动作API 116可基于触发关键词或请求为动作数据结构选择模板，用由一个或多个传感器134检测到的或者经由用户接口获得的信息填充模板中的一个或多个字段，并且生成、创建或者以其它方式构造动作数据结构以有助于由服务提供者装置108执行操作。

数据处理系统102可基于各种因素选择基于模板数据结构的模板132，各种因素包括例如触发关键词、请求、第三方提供者装置108、第三方提供者装置108的类型、第三方提供者装置108落入的类别(例如，出租车服务、洗衣服务、花卉服务或食物配送)、位置或其它传感器信息中的一个或多个。

为了基于触发关键词选择模板，数据处理系统102(例如，经由直接动作API 116)可使用触发关键词来对模板数据库132执行查找或其它查询操作以标识映射到或者以其它方式对应于触发关键词的模板数据结构。例如，模板数据库132中的每个模板可与一个或多个触发关键词相关联，以指示该模板被配置成响应于第三方提供者装置108可处理来建立通信会话的触发关键词而生成动作数据结构。

在一些情况下，数据处理系统102可基于触发关键词标识第三方提供者装置108。为了基于触发关键词标识第三方提供者108，数据处理系统102可在数据储存库124中执行查找以标识映射到触发关键词的第三方提供者装置108。例如，如果触发关键词包括“ride”或“to gotto”，则数据处理系统102(例如，经由直接动作API 116)可将第三方提供者装置108标识为对应于出租车服务公司A。数据处理系统102可使用所标识的第三方提供者装置108来从模板数据库132中选择模板。例如，模板数据库132可将第三方提供者装置108或实体之间的映射或相关性包括到被配置成响应于第三方提供者装置108可处理来建立通信会话的触发关键词而生成动作数据结构的模板。在一些情况下，可为第三方提供者装置108或者为第三方提供者装置108的类别定制模板。数据处理系统102可基于用于第三方提供者108的模板来生成动作数据结构。

为了构造或者生成动作数据结构，数据处理系统102可标识在所选择的模板中要用值填充的一个或多个字段。字段可用数值、字符串、Unicode值、布尔逻辑、二进制值、十六进制值、标识符、位置坐标、地理区域、时间戳或其它值填充。可对字段或数据结构它本身进行加密或者掩蔽以维护数据安全性。

在确定模板中的字段时，数据处理系统102可标识字段的值以填充模板的字段来创建动作数据结构。数据处理系统102可通过对数据储存库124执行查找或其它查询操作来获得、检索、确定或者以其它方式标识字段的值。

在一些情况下，数据处理系统102可确定数据储存库124中不存在字段的信息或值。数据处理系统102可确定存储在数据储存库124中的信息或值是过时的、陈旧的或者以其它方式不适合于响应于由NLP组件112标识的触发关键词和请求而构造动作数据结构的目的(例如，客户端计算装置104的位置可能是旧位置而不是当前位置；账户可能过期；目的地餐厅可能已移动到新位置；身体活动信息；或交通方式)。

如果数据处理系统102确定它在数据处理系统102的存储器中当前不能够访问模板的字段的值或信息，则数据处理系统102可获取这些值或信息。数据处理系统102可通过查询或者轮询客户端计算装置104的一个或多个可用的传感器、针对信息而提示客户端计算装置104的终端用户，或者使用HTTP协议来访问基于在线web的资源来获取或者获得信息。例如，数据处理系统102可确定它不具有客户端计算装置104的当前位置，其可以是模板的所需字段。数据处理系统102可以向客户端计算装置104查询位置信息。数据处理系统102可请求客户端计算装置104使用一个或多个位置传感器134(诸如全球定位系统传感器)、WIFI三角测量、小区塔三角测量、蓝牙信标、IP地址或其它位置感测技术来提供位置信息。

直接动作API 116可将动作数据结构发送到第三方提供者装置(例如，服务提供者装置108)以使该第三方提供者装置108调用对话应用编程接口(例如，服务提供者NLP组件142)并且在第三方提供者装置108与客户端计算装置104之间建立通信会话。响应于在服务提供者装置108与客户端计算装置104之间建立了通信会话，服务提供者装置108可经由网络105直接向客户端计算装置104发送数据分组。在一些情况下，服务提供者装置108可经由数据处理系统102和网络105向客户端计算装置104发送数据分组。

在一些情况下，第三方提供者装置108可执行对话API 142的至少一部分。例如，第三方提供者装置108可处理通信会话的某些方面或某些类型的查询。第三方提供者装置108可以利用由数据处理系统102执行的NLP组件112来有助于处理与通信会话相关联的音频信号并且生成对查询的响应。在一些情况下，数据处理系统102可包括为第三方提供者108配置的对话API 142。在一些情况下，数据处理系统在客户端计算装置与第三方提供者装置之间路由数据分组以建立通信会话。数据处理系统102可从第三方提供者装置108接收该第三方提供者装置与客户端装置104建立了通信会话的指示。该指示可包括客户端计算装置104的标识符、与当通信会话被建立时相对于的时间戳或与通信会话相关联的其它信息，诸如与通信会话相关联的动作数据结构。

在一些情况下，对话API可以是包括第一NLP 112的一个或多个组件或功能的第二NLP。第二NLP 142可交互或者利用第一NLP 112。在一些情况下，系统100可包括由数据处理系统102执行的单个NLP112。该单个NLP 112可支持数据处理系统102和第三方服务提供者装置108两者。在一些情况下，直接动作API 116生成或者构造动作数据结构以有助于执行服务，并且对话API生成响应或查询以进一步与终端用户进行通信会话，或者获得附加信息以改进或者增强终端用户对服务的体验或服务的性能。

数据处理系统102可包括、执行、访问或者以其它方式与会话处理机组件114进行通信以在客户端装置104与数据处理系统102之间建立通信会话。该通信会话可指代客户端装置104与数据处理系统102之间的一个或多个数据传输，其包括由客户端装置104的传感器134所检测到的输入音频信号以及由数据处理系统102发送到客户端装置104的输出信号。数据处理系统102(例如，经由会话处理机组件114)可响应于接收输入音频信号而建立通信会话。数据处理系统102可为通信会话设定持续时间。数据处理系统102可为针对通信会话设定的持续时间设定定时器或计数器。响应于定时器的期满，数据处理系统102可终止通信会话。

通信会话可指代基于网络的通信会话，其中客户端装置104提供认证信息或凭证来建立该会话。在一些情况下，通信会话指代在会话期间通过数据分组承载的音频信号的主题或场境。例如，第一通信会话可指代在客户端装置104与数据处理系统102之间发送的与出租车服务有关(例如，包括关键词、动作数据结构或内容项对象)的音频信号；而第二通信会话可指代在客户端装置104与数据处理系统102之间发送的与洗衣和干洗服务有关的音频信号。在此示例中，数据处理系统102可确定音频信号的场境是不同的(例如，经由NLP组件112)，并且使两组音频信号分成不同的通信会话。会话处理机114可响应于标识与干洗和洗衣服务有关的一个或多个音频信号而终止与乘车服务有关的第一会话。因此，数据处理系统102可响应于检测到音频信号的场境而为与干洗和洗衣服务有关的音频信号发起或者建立第二会话。

数据处理系统102可包括、执行或者以其它方式与内容选择器组件118进行通信以接收由自然语言处理器标识的触发关键词，并且基于触发关键词，经由实时内容选择过程选择内容项。内容选择过程可指代或者包括选择由第三方内容提供者106提供的赞助内容项对象。实时内容选择过程可包括由多个内容提供者提供的内容项被解析、处理、加权或者匹配以便选择一个或多个内容项以提供给计算装置104的服务。内容选择器组件118可实时地执行内容选择过程。实时地执行内容选择处理可指代响应于对经由客户端计算装置104接收到的内容的请求而执行内容选择过程。可在接收请求的时间间隔(例如，5秒、10秒、20秒、30秒、1分钟、2分钟、3分钟、5分钟、10分钟或20分钟)内执行(例如，发起或者完成)实时内容选择过程。可在与客户端计算装置104的通信会话期间或者在通信会话被终止之后的一定时间间隔内执行实时内容选择过程。

例如，数据处理系统102可包括被设计、构造、配置或者可操作来选择内容项对象的内容选择器组件118。为了选择在基于语音的环境中显示的内容项，数据处理系统102(例如，经由NLP组件112)可解析输入音频信号以标识关键词(例如，触发关键词)，并且使用这些关键词来基于广泛匹配、精确匹配或短语匹配来选择匹配内容项。例如，内容选择器组件118可分析、解析或者以其它方式处理候选内容项的主题以确定候选内容项的主题是否对应于由客户端计算装置104的麦克风检测到的输入音频信号的关键词或短语的主题。内容选择器组件118可以使用图像处理技术、字符识别技术、自然语言处理技术或数据库查找来标识、分析或者识别候选内容项的语音、音频、术语、字符、文本、符号或图像。候选内容项可以包括指示候选内容项的主题的元数据，在此情况下内容选择器组件118可以处理该元数据以确定候选内容项的主题是否对应于输入音频信号。

内容提供者106可以在设置包括内容项的内容活动时提供附加指示符。通过使用关于候选内容项的信息来执行查找，在内容选择器组件118可以标识的内容活动或内容组级别，内容提供者106可以提供信息。例如，候选内容项可以包括可以映射到内容组、内容活动或内容提供者的唯一标识符。内容选择器组件118可基于存储在数据储存库124中的内容活动数据结构中的信息来确定关于内容提供者106的信息。

数据处理系统102可经由计算机网络接收对在计算装置104上呈现的内容的请求。数据处理系统102可通过处理由客户端计算装置104的麦克风检测到的输入音频信号来标识请求。该请求可包括请求的选择准则，诸如装置类型、位置和与该请求相关联的关键词。该请求可包括动作数据结构或动作数据结构。

响应于请求，数据处理系统102可从数据储存库124或与内容提供者106相关联的数据库中选择内容项对象，并且经由网络105提供内容项以供经由计算装置104呈现。内容项对象可由与服务提供者装置108不同的内容提供者装置108来提供。内容项可对应于与动作数据结构的服务的类型不同的服务的类型(例如，出租车服务对比食物配送服务)。计算装置104可与内容项对象交互。计算装置104可接收对内容项的音频响应。计算装置104可接收用于选择与内容项对象相关联的超链接或其它按钮的指示，该指示使得或者允许计算装置104标识服务提供者108，从服务提供者108请求服务，指示服务提供者108执行服务，向服务提供者108发送信息，或者以其它方式查询服务提供者装置108。

数据处理系统102可包括、执行或者与音频信号生成器组件122进行通信以生成输出信号。该输出信号可包括一个或多个部分。例如，该输出信号可包括第一部分和第二部分。该输出信号的第一部分可对应于动作数据结构。该输出信号的第二部分可对应于由内容选择器组件118在实时内容选择过程期间选择的内容项。

音频信号生成器组件122可生成具有与第一数据结构相对应的声音的第一部分的输出信号。例如，音频信号生成器组件122可基于通过直接动作API 116填充到动作数据结构的字段中的一个或多个值来生成输出信号的第一部分。在出租车服务示例中，字段的值可包括例如接送位置为123大街、目的地位置为1234大街、乘客人数为2和服务水平的经济性。音频信号生成器组件122可生成输出信号的第一部分以便确认计算装置104的终端用户想要继续将请求发送到服务提供者108。第一部分可以包括以下输出“Would you like toan economy car from taxi service provider A to pick two people up at 123MainStreet and drop off at 1234Main Street？(您想从出租车服务提供者A订一辆经济车在123大街接两个人并在1234大街下车吗？)”

在一些情况下，第一部分可包括从服务提供者装置108接收到的信息。可针对动作数据结构定制或者定做从服务提供者装置108接收到的信息。例如，数据处理系统102在指示服务提供者108执行操作之前(例如，经由直接动作API 116)可将动作数据结构发送到服务提供者108。替代地，数据处理系统102可指示服务提供者装置108对动作数据结构执行初始或初步处理以生成关于操作的初步信息。在出租车服务的示例中，对动作数据结构的初步处理可包括标识满足位于接送位置周围的服务水平要求的可用出租车、估计最近可用出租车到达接送位置的时间量、估计到达目的地的时间以及估计出租车服务的价格。估计的初始值可以包括固定值、基于各种条件经受改变的估值或值的范围。服务提供者装置108可经由网络104将初步信息返回给数据处理系统102或者直接给客户端计算装置104。数据处理系统102可将来自服务提供者装置108的初步结果并入到输出信号中，并且将输出信号发送到计算装置104。输出信号可包括例如“Taxi Service Company A can pick you up at123Main Street in 10minutes,and drop you off at 1234Main Street by 9AM for$10.Do you want to order this ride？(出租车服务公司A可在10分钟内在123主街接您，并以10美元让您在上午9点前在1234主街下车。你想订购此旅程吗？)”这可形成输出信号的第一部分。

在一些情况下，数据处理系统102可形成输出信号的第二部分。输出信号的第二部分可包括由内容选择器组件118在实时内容选择过程期间选择的内容项。第一部分可与第二部分不同。例如，第一部分可包括与动作数据结构相对应的直接响应于承载由客户端计算装置104的传感器134检测到的输入音频信号的数据分组的信息，然而第二部分可包括由内容选择器组件104所选择的可与动作数据结构切向相关的内容项，或者包括由内容提供者装置106提供的赞助内容。例如，计算装置104的终端用户可从出租车服务公司A请求出租车。数据处理系统102可生成输出信号的第一部分以包括关于来自出租车服务公司A的出租车的信息。然而，数据处理系统102可生成输出信号的第二部分以包括基于关键词“taxiservice(出租车服务)”和包含在动作数据结构中的终端用户可能感兴趣的信息而选择的内容项。例如，第二部分可包括由不同的出租车服务公司(诸如出租车服务公司B)提供的内容项或信息。虽然用户可能尚未具体地请求出租车服务公司B，但是数据处理系统102仍然可以提供来自出租车服务公司B的内容项，因为用户可能选择关于出租车服务公司B执行操作。

数据处理系统102可将来自动作数据结构的信息发送到出租车服务公司B以确定乘车时间、到达目的地的时间和旅程价格。数据处理系统102可接收此信息并且生成输出信号的第二部分如下：“Taxi Service Company B can pick you up at 123Main Street in2minutes,and drop you off at 1234Main Street by 8:82AM for$15.Do you wantthis ride instead？(出租车服务公司B可在2分钟内在123主街接您，并以15美元让您在上午8:52前在1234主街下车。您替代地想要此旅程吗？)”。计算装置104的终端用户然后可选择由出租车服务公司A提供的旅程或由出租车服务公司B提供的旅程。

在输出信号的第二部分中提供与由出租车服务公司B提供的服务相对应的赞助内容项之前，数据处理系统102可通知计算装置的终端用户第二部分对应于(例如，由内容选择器组件118)在实时内容选择过程期间选择的内容项对象。然而，数据处理系统102可具有对不同类型的接口的有限访问以向计算装置104的终端用户提供通知。例如，计算装置104可以不包括显示装置，或者该显示装置可以被禁用或者关掉。与计算装置104的扬声器相比计算装置104的显示装置可以消耗更多的资源，所以与使用计算装置104的扬声器来传达通知相比打开计算装置104的显示装置可能是不太高效的。因此，在一些情况下，数据处理系统102可改进通过一个或多个接口或者一个或多个类型的计算机网络的信息传输的效率和有效性。例如，数据处理系统102(例如，经由音频信号生成器组件122)可使包括内容项的输出音频信号的部分模块化以向终端用户提供输出信号的该部分包括赞助内容项的指示或通知。

数据处理系统102(例如，经由接口110和网络105)可发送包括由音频信号生成器组件122生成的输出信号的数据分组。输出信号可使客户端装置104的音频驱动器组件138或由客户端装置104执行的音频驱动器组件138驱动客户端装置104的扬声器(例如，换能器136)以生成与输出信号相对应的声波。

图2是系统100经由计算机网络路由分组化动作的图示。系统可包括图1中所描绘的系统100的一个或多个组件。在205处，客户端计算装置104可发送承载由计算装置104的麦克风或其它传感器检测到的输入音频信号的数据分组。客户端计算装置104可将输入音频信号发送到数据处理系统102。数据处理系统102可解析输入音频信号以标识关键词、请求或其它信息以生成响应于该请求的动作数据结构。

在动作210处，数据处理系统102可将动作数据结构发送到服务提供者装置108(或第三方提供者装置108)。数据处理系统102可经由网络发送动作数据结构。服务提供者装置108可包括被配置成接收并处理由数据处理系统102发送的动作数据结构的接口。

在动作215处服务提供者装置108(例如，经由对话API)可对动作数据结构做出响应。来自服务提供者装置108的响应可包括与动作数据结构相对应的要执行的服务的指示。该响应可包括继续执行操作的确认。该响应可包括对执行与动作数据结构相对应的操作的进一步信息的请求。例如，动作数据结构可用于旅程，并且服务提供者108可以对进一步信息的请求响应，进一步信息诸如旅程乘客人数、乘客所期望的汽车的类型、汽车中的期望设施或优选接送位置。对附加信息的请求可包括可能不存在于动作数据结构中的信息。例如，动作数据结构可包括执行操作的基线信息，诸如接送位置、目的地位置和乘客人数。基线信息可以是由出租车服务类别中的多个服务提供者108使用的标准数据集合。然而，某个出租车服务提供者108可选择通过从客户端计算装置104请求附加信息或偏好来定制并改进操作。

在动作215处服务提供者装置108可向数据处理系统102发送承载响应的一个或多个数据分组。数据处理系统102可解析数据分组并且标识数据分组的源和数据分组的目的地。在动作220处，数据处理系统102因此可将数据分组路由或者转发到客户端计算装置104。数据处理系统102可经由网络105路由或者转发数据分组。

在动作225处，客户端计算装置220可基于转发的响应来向数据处理系统102发送指令或命令。例如，在225处转发的响应可以是对乘客人数和继续安排出租车旅程的确认的请求。225处的指令可包括乘客人数和继续安排接送的指令。客户端装置104可将承载指令的一个或多个数据分组发送到数据处理系统102。在动作230处数据处理系统102可将承载指令的数据分组路由或者转发到服务提供者装置108。

在一些情况下，数据处理系统102可原样(例如，在不操纵数据分组的情况下)在动作220或动作230处路由或者转发数据分组。在一些情况下，数据处理系统102可处理数据分组以滤出信息，或者用信息封装数据分组以有助于由服务提供者装置108或客户端计算装置104对数据分组进行处理。例如，数据处理系统102可掩蔽、隐藏或者保护客户端计算装置104的身份免受服务提供者装置108之害。因此，数据处理系统102可使用散列函数对标识信息进行加密，使得服务提供者108不可直接标识客户端计算装置104的装置标识符或用户名。数据处理系统102可维护提供给服务提供者装置108以供在通信会话期间使用的代理标识符到客户端计算装置104的标识符或用户名的映射。

图3是系统100经由计算机网络路由分组化动作的图示。系统可包括图1中所描绘的系统100的一个或多个组件。在305处，客户端计算装置104可发送承载由计算装置104的麦克风或其它传感器检测到的输入音频信号的数据分组。客户端计算装置104可将输入音频信号发送到数据处理系统102。数据处理系统102可解析输入音频信号以标识关键词、请求或其它信息以生成响应于该请求的动作数据结构。

在动作310处，数据处理系统102可将动作数据结构发送到服务提供者装置108(或第三方提供者装置108)。数据处理系统102可经由网络发送动作数据结构。服务提供者装置108可包括被配置成接收并处理由数据处理系统102发送的动作数据结构的接口。

在动作315处服务提供者装置108(例如，经由对话API)可对动作数据结构做出响应。来自服务提供者装置108的响应可包括与动作数据结构相对应的要执行的服务的指示。该响应可包括继续执行操作的确认。该响应可包括对执行与动作数据结构相对应的操作的进一步信息的请求。例如，动作数据结构可用于旅程，并且服务提供者108可以进一步信息响应，进一步信息诸如旅程乘客人数、乘客所期望的汽车的类型、汽车中的期望设施或优选接送位置。对附加信息的请求可包括可能不存在于动作数据结构中的信息。例如，动作数据结构可包括执行操作的基线信息，诸如接送位置、目的地位置和乘客人数。基线信息可以是由出租车服务类别中的多个服务提供者108使用的标准数据集合。然而，某个出租车服务提供者108可选择通过从客户端计算装置104请求附加信息或偏好来定制并改进操作。

服务提供者装置108可经由网络105直接向客户端计算装置104发送承载响应的一个或多个数据分组。例如，不是通过数据处理系统102来路由响应，而是服务提供者装置108经由服务提供者装置108执行的对话API可直接对客户端计算装置104做出响应。这可允许服务提供者定制通信会话。

在动作320处，客户端计算装置104可基于响应向服务提供者装置108发送指令或命令。例如，在315处提供的响应可以是对乘客人数和继续安排出租车旅程的确认的请求。320处的指令可包括乘客人数和继续安排接送的指令。客户端装置104可将承载指令的一个或多个数据分组发送到服务提供者装置108，而不是通过数据处理系统102来路由这些数据分组。

数据处理系统102可通过将通信标识符传递给相应装置来有助于服务提供者装置108和客户端计算装置104独立于数据处理系统102而建立通信会话。例如，数据处理系统102可将装置104的标识符转发到装置108；并且数据处理系统102可将装置108的标识符转发到装置104。因此，装置108可直接与装置104建立通信会话。

在一些情况下，装置108或装置104可分别向数据处理系统102转发关于通信会话的信息，诸如状态信息。例如，装置108可向数据处理系统提供装置108与客户端装置104成功地建立了通信会话的指示。

图4是用于执行分组化音频信号的动态调制的示例方法的图示。方法400可由系统100或系统500的一个或多个组件、系统或元件来执行。方法400可包括数据处理系统接收输入音频信号(动作405)。数据处理系统可从客户计算装置接收输入音频信号。例如，由数据处理系统执行的自然语言处理器组件可经由数据处理系统的接口从客户端计算装置接收输入音频信号。数据处理系统可接收承载或者包括由客户端计算装置(或客户端装置)的传感器检测到的输入音频信号的数据分组。

在动作410处，方法400可包括数据处理系统解析输入音频信号。自然语言处理器组件可解析输入音频信号以标识请求和与该请求相对应的触发关键词。例如，由客户端装置检测到的音频信号可包括“Okay device,I need a ride from Taxi Service CompanyA to go to 1234 Main Street(好的装置，我需要从出租车服务公司A乘车去1234主街)”。在此音频信号中，初始触发关键词可包括“okay device”，其可向客户端装置指示要向数据处理系统发送输入音频信号。客户端装置的预处理器在将剩余音频信号发送到数据处理系统之前可滤出术语“okay device”。在一些情况下，客户端装置可滤出附加术语或者生成要发送到数据处理系统以供进一步处理的关键词。

数据处理系统可标识输入音频信号中的触发关键词。触发关键词可包括例如“togo to”或“ride”或这些术语的变化。触发关键词可指示服务或产品的类型。数据处理系统可标识输入音频信号中的请求。可基于术语“I need”确定请求。可使用语义处理技术或其它自然语言处理技术来确定触发关键词和请求。

在动作415处，方法400可包括数据处理系统生成动作数据结构。数据处理系统可基于触发关键词、请求、第三方提供者装置或其它信息生成动作数据结构。动作数据结构可响应于请求。例如，如果客户端计算装置的终端用户从出租车服务公司A请求出租车，则动作数据结构可包括从出租车服务公司A请求出租车服务的信息。数据处理系统可选择用于出租车服务公司A的模板，并且用值填充模板中的字段以允许出租车服务公司A向客户端计算装置的用户派出租车以接用户并将该用户运送到所请求的目的地。

在动作420处，方法400可包括数据处理系统将动作数据结构发送到第三方提供者装置以引起第三方提供者装置。第三方装置可解析或者处理所接收到的动作数据结构并且确定要调用对话API并在第三方提供者装置与客户端装置之间建立通信会话。基于动作数据结构的内容服务提供者装置108可确定要调用或者以其它方式执行或者利用对话API。例如，服务提供者装置108可确定附加信息可有助于执行与动作数据结构相对应的操作。服务提供者装置108可确定与客户端计算装置1042通信可改进服务水平或者减少由于操作的错误执行而导致的资源利用。服务提供者装置108可确定要通过获得附加信息来为客户端计算装置104定制操作。

在动作425处，方法400可包括数据处理系统从第三方提供者装置接收第三方提供者装置与客户端装置建立了通信会话的指示。该指示可包括与当通信会话被建立时相对应的时间戳、通信会话的唯一标识符(例如，由装置标识符、通信会话的时间和日期戳以及服务提供者装置的标识符形成的元组)。

图5是示例计算机系统500的框图。计算机系统或计算装置500可包括或者用于实现系统100或其组件，诸如数据处理系统102。数据处理系统102可包括智能个人助理或基于语音的数字助理。计算系统500包括用于传送信息的总线505或其它通信组件以及耦合到总线505以用于处理信息的处理器510或处理电路。计算系统500也可包括耦合到总线以用于处理信息的一个或多个处理器510或处理电路。计算系统500也包括耦合到总线505以用于存储信息和待由处理器510执行的指令的主存储器515，诸如随机存取存储器(RAM)或其它动态存储装置。主存储器515可以是或者包括数据储存库145。主存储器515也可被用于在由处理器510执行指令期间存储位置信息、临时变量或其它中间信息。计算系统500还可以包括耦合到总线505以用于为处理器510存储静态信息和指令的只读存储器(ROM)520或其它静态存储装置。存储装置525(诸如固态装置、磁盘或光盘)可耦合到总线505以持久地存储信息和指令。存储装置525可包括或者是数据储存库145的一部分。

计算系统500可以经由总线505耦合到显示器535，诸如液晶显示器或有源矩阵显示器，用于向用户显示信息。输入装置530(诸如包括字母数字和其它键的键盘)可以耦合到总线505以用于向处理器510传送信息和命令。输入装置530可包括触摸屏显示器535。输入装置530也可包括光标控件，诸如鼠标、轨迹球或光标方向键，用于向处理器510传送方向信息和命令选择并用于控制光标在显示器535上的移动。例如，显示器535可以是图1的数据处理系统102、客户端计算装置150或其它组件的一部分。

本文所描述的过程、系统和方法可由计算系统500响应于处理器510执行包含在主存储器515中的指令的布置来实现。此类指令可被从另一计算机可读介质(诸如存储装置525)读取到主存储器515中。包含在主存储器515中的指令的布置的执行使计算系统500执行本文所描述的说明性过程。也可以采用多处理布置中的一个或多个处理器来执行包含在主存储器515中的指令。可使用硬连线电路代替软件指令或者连同本文所描述的系统和方法一起与软件指令相结合地使用。本文所描述的系统和方法不限于硬件电路和软件的任何特定组合。

尽管已经在图5中描述了示例计算系统，然而包括本说明书中所描述的操作的主题可用其它类型的数字电子电路或者用计算机软件、固件或硬件(包括本说明书所公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。

对于本文所讨论的系统收集关于用户的个人信息或者可以利用个人信息的情形，可以给用户提供控制程序或特征是否可以收集个人信息(例如，关于用户的社交网络、社交动作或活动、用户的偏好或用户的位置的信息)或者控制是否或者如何从内容服务器或其它数据处理系统接收可能与用户更相关的内容的机会。此外，某些数据可以在它被存储或者使用之前被以一个或多个方式匿名化，使得个人可标识的信息在生成参数时被移除。例如，可以使用户的身份匿名化，使得对于该用户来说不可确定个人可标识的信息，或者可以在获得了位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不可确定用户的特定位置。因此，用户可以控制信息如何关于他或她被收集并由内容服务器使用。

本说明书中所描述的主题和操作可用数字电子电路或者用计算机软件、固件或硬件(包括本说明书所公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。本说明书中所描述的主题可作为在一个或多个计算机存储介质上编码以供由数据处理设备执行或者控制数据处理设备的操作的一个或多个计算机程序(例如，计算机程序指令的一个或多个电路)被实现。可替选地或此外，可在人工生成的传播信号(例如，被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理设备执行的机器生成的电、光或电磁信号)上对程序指令进行编码。计算机存储介质可以是或者被包括在计算机可读存储装置、计算机可读存储基板、随机或串行存取存储器阵列或装置或者它们中的一个或多个的组合中。虽然计算机存储介质不是传播信号，但是计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是或者被包括在一个或多个单独的组件或介质(例如，多个CD、磁盘或其它存储装置)中。本说明书中所描述的操作可作为由数据处理装置对存储在一个或多个计算机可读存储装置上或者从其它源接收到的数据执行的操作被实现。

术语“数据处理系统”、“计算装置”、“组件”或“数据处理设备”包含用于对数据进行处理的各种设备、装置和机器，作为示例包括可编程处理器、计算机、片上系统或多个可编程处理器、计算机、片上系统，或者上述的组合。设备可包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。设备除了包括硬件之外还可包括为所述计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们其中的一个或多个的组合的代码。设备和执行环境可实现各种不同的计算模型基础设施，诸如web服务、分布式计算和网格计算基础设施。例如，直接动作API 116、内容选择器组件118或NLP组件112和其它数据处理系统102组件可包括或者共享一个或多个数据处理设备、系统、计算装置或处理器。

计算机程序(也被称为程序、软件、软件应用、app、脚本或代码)可用任何形式的编程语言编写，编程语言包括编译或解释语言、声明性或过程语言，并且可被以任何形式部署，任何形式包括作为独立程序或者作为模块、组件、子例行程序、对象或适合于在计算环境使用的其它单元。计算机程序可对应于文件系统中的文件。可在保持其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、在专用于所述程序的单个文件中或者在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中存储计算机程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并由通信网络互连的多个计算机上执行。

本说明书中所描述的过程和逻辑流程可通过一个或多个可编程处理器执行一个或多个计算机程序(例如，数据处理系统102的组件)以通过对输入数据进行操作并生成输出来执行动作而被执行。过程和逻辑流程也可由专用逻辑电路来执行，并且设备也可作为专用逻辑电路被实现，专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合于存储计算机程序指令和数据的装置包括所有形式的非易失性存储器、介质和存储器器件，作为示例包括半导体存储器器件，例如EPROM、EEPROM和闪速存储器器件；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路来补充，或者并入专用逻辑电路。

可在计算系统中实现本文所描述的主题，计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有用户可用来与本说明书中所描述的主题的实施方式交互的图形用户接口或web浏览器的客户端计算机)，或者一个或多个此类后端、中间件或前端组件的组合。本系统的组件可通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，因特网)和对等网络(例如，自组织对等网络)。

诸如系统100或系统500的计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络(例如，网络165)交互。客户端和服务器的关系借助于相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中，服务器向客户端装置发送数据(例如，表示内容项的数据分组)(例如，出于向与客户端装置交互的用户显示数据并且从与客户端装置交互的用户接收用户输入的目的)。在客户机装置处生成的数据(例如，用户交互的结果)可在服务器处从客户端装置接收(例如，由数据处理系统102从计算装置150或内容提供者计算装置155或服务提供者计算装置160接收)。

虽然在附图中按照特定次序描绘了操作，但是不要求按照所示特定次序或按照顺序次序执行此类操作，并且不要求执行所有图示的操作。可按照不同的次序执行本文所描述的动作。

各种系统组件的分离在所有实施方式中不要求分离，并且所描述的程序组件可被包括在单个硬件或软件产品中。例如，NLP组件112或内容选择器组件118可以是单个组件、app或程序，或者具有一个或多个处理电路的逻辑器件，或者数据处理系统102的一个或多个服务器的一部分。

在现在已经描述了一些说明性实施方式后，显而易见的是，上文是说明性的而非限制性的，已经通过示例被呈现。特别地，尽管本文所呈现的许多示例涉及方法动作或系统元件的特定组合，但是可以以其它方式组合那些动作和那些元件以实现相同的目标。连同一个实施方式一起讨论的动作、元件和特征在其它实现或实施方式中不旨在被排除在类似的角色之外。

本文所使用的措辞和术语是为了描述的目的，而不应该被认为是限制性的。“包含”、“包括”、“具有”、“包含”、“涉及”、“特征是”、“其特征在于”及其变化的使用意在包含此后列举的项、其等同物和附加目以及由此后排他地列举的项构成的供替换的实施方式。在一个实施方式中，本文所描述的系统和方法由所有所描述的元件、动作或组件中的一个、多于一个的每个组合或全部构成。

对在本文中按照单数参考的系统和方法的实施方式或元件或动作的任何引用也可以包含包括多个这些元素的实施方式，并且在本文中按照复数对任何实施方式或元件或动作的任何引用也可以包含仅包括单个元件的实施方式。单数或复数形式的引用不旨在将目前公开的系统或方法、其组件、动作或元件限于单个或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包括该动作或元件至少部分地基于任何信息、动作或元件的实施方式。

本文所公开的任何实施方式可以与任何其它实施方式或实施例组合，并且对“实施方式”、“一些实施方式”、“一个实施方式”等的引用不一定是相互排斥的，并且旨在指示与该实施方式相结合地描述的特定特征、结构或特性可以被包括在至少一个实施方式或实施例中。如本文所使用的术语不一定全部参考同一实施方式。任何实施方式可以按照与本文所公开的方面和实施方式一致的任何方式包括地或排他地与任何其它实施方式组合。

对“或”的引用可以被解释为包括的，使得使用“或”所描述的任何术语可以指示所描述的术语中的单个、多于一个和全部中的任一个。例如，对“‘A’和‘B’中的至少一个”的引用可包括仅‘A’”、仅‘B’以及‘A’和‘B’两者。与“包括”或其它开放式术语相结合地使用的此类引用可包括附加项。

在附图、具体实施方式或任何权利要求中的技术特征后面有附图标记的情况下，这些附图标记已被包括来增加附图、具体实施方式和权利要求的可理解性。因此，附图标记及其不存在皆不对任何权利要求要素的范围具有任何影响。

本文所述的系统和方法可以在不脱离其特性的情况下被以其它特定形式具体实现。例如，数据处理系统102可部分地基于来自线程200的动作序列中的先前动作的数据(诸如来自第二动作210的指示第二动作210完成或即将开始的数据)来为后续动作(例如，为第三动作215)选择内容项。上述实施方式说明而不限制所描述的系统和方法。本文所描述的系统和方法的范围因此通过所附权利要求而不是上述描述来指示，并且落在权利要求的等同物的含义和范围内的改变被包含在其中。

Claims

1.一种经由计算机网络路由分组化动作的系统，包括：

由数据处理系统执行的自然语言处理器组件，用于经由所述数据处理系统的接口接收包括由客户端装置的传感器检测到的输入音频信号的数据分组；

所述自然语言处理器组件用于解析所述输入音频信号以标识请求和与所述请求相对应的触发关键词；

所述数据处理系统的直接动作应用编程接口，用于基于所述触发关键词生成响应于所述请求的动作数据结构；

所述直接动作应用编程接口用于将所述动作数据结构发送到第三方提供者装置以使所述第三方提供者装置调用对话应用编程接口并在所述第三方提供者装置与所述客户端装置之间建立通信会话；以及

所述数据处理系统，用于从所述第三方提供者装置接收所述第三方提供者装置与所述客户端装置建立了所述通信会话的指示。

2.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述触发关键词从存储在存储器中的数据库中选择模板；并且

基于所述模板来生成所述动作数据结构。

3.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述触发关键词来标识所述第三方提供者；

基于所述第三方提供者从存储在存储器中的数据库中选择模板；并且

基于用于所述第三方提供者的所述模板生成所述动作数据结构。

4.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述触发关键词从存储在存储器中的数据库中选择模板；

标识所述模板中的字段；

从所述客户端计算装置接收与所述模板中的所述字段相对应的值；并且

用从所述客户端计算装置接收到的所述值填充所述模板中的所述字段以生成所述动作数据结构。

5.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述触发关键词和所述第三方提供者中的至少一个从存储在存储器中的数据库中选择模板；

标识所述模板中的字段；

从所述客户端计算装置的传感器请求与所述模板中的所述字段相对应的值；并且

6.根据权利要求5所述的系统，其中，所述传感器包括全球定位系统传感器和加速度计中的至少一个。

7.根据权利要求1所述的系统，包括：

由所述数据处理系统执行的内容选择器组件，用于接收由所述自然语言处理器标识的所述触发关键词并且基于所述触发关键词经由实时内容选择过程来选择内容项。

8.根据权利要求1所述的系统，包括：

由所述数据处理系统执行的内容选择器组件，用于接收由所述自然语言处理器标识的所述触发关键词并且基于所述触发关键词经由实时内容选择过程来选择内容项，所述内容项由与所述第三方提供者装置不同的内容提供者装置来提供。

9.根据权利要求1所述的系统，包括：

由所述数据处理系统执行的内容选择器组件，用于接收由所述自然语言处理器标识的所述触发关键词并且基于所述触发关键词经由实时内容选择过程来选择内容项，所述内容项由与所述第三方提供者装置不同的内容提供者来提供，所述内容项对应于与所述动作数据结构的服务的类型不同的服务的类型。

10.根据权利要求1所述的系统，包括所述数据处理系统用于：

将所述动作数据结构发送到所述第三方提供者装置以使所述第三方提供者装置调用由所述第三方提供者装置执行的所述对话应用编程接口。

11.根据权利要求1所述的系统，包括所述数据处理系统用于：

将所述动作数据结构发送到所述第三方提供者装置以使所述第三方提供者装置调用为所述第三方提供者装置配置的并由所述数据处理系统执行的所述对话应用编程接口，其中所述数据处理系统在所述客户端计算装置与所述第三方提供者装置之间路由数据分组以建立所述通信会话。

12.一种经由计算机网络路由分组化动作的方法，包括：

通过由数据处理系统执行的自然语言处理器组件经由所述数据处理系统的接口接收包括由客户端装置的传感器检测到的输入音频信号的数据分组；

由所述自然语言处理器组件解析所述输入音频信号以标识请求和与所述请求相对应的触发关键词；

通过所述数据处理系统的直接动作应用编程接口基于所述触发关键词来生成响应于所述请求的动作数据结构；

通过所述直接动作应用编程接口将所述动作数据结构发送到第三方提供者装置以使所述第三方提供者装置调用对话应用编程接口并在所述第三方提供者装置与所述客户端装置之间建立通信会话；以及

由所述数据处理系统从所述第三方提供者装置接收所述第三方提供者装置与所述客户端装置建立了所述通信会话的指示。

13.根据权利要求12所述的方法，包括：

由所述数据处理系统基于所述触发关键词从存储在存储器中的数据库中选择模板；以及

由所述数据处理系统基于所述模板来生成所述动作数据结构。

14.根据权利要求12所述的方法，包括：

由所述数据处理系统基于所述触发关键词来标识所述第三方提供者；

由所述数据处理系统基于所述第三方提供者从存储在存储器中的数据库中选择模板；以及

由所述数据处理系统基于用于所述第三方提供者的所述模板生成所述动作数据结构。

15.根据权利要求12所述的方法，包括：

由所述数据处理系统基于所述触发关键词从存储在存储器中的数据库中选择模板；

由所述数据处理系统标识所述模板中的字段；

由所述数据处理系统从所述客户端计算装置接收与所述模板中的所述字段相对应的值；以及

由所述数据处理系统用从所述客户端计算装置接收到的所述值填充所述模板中的所述字段以生成所述动作数据结构。

16.根据权利要求12所述的方法，包括：

由所述数据处理系统基于所述触发关键词和所述第三方提供者中的至少一个从存储在存储器中的数据库中选择模板；

由所述数据处理系统标识所述模板中的字段；

由所述数据处理系统从所述客户端计算装置的传感器请求与所述模板中的所述字段相对应的值；以及

17.根据权利要求16所述的方法，其中，所述传感器包括全球定位系统传感器和加速度计中的至少一个。

18.根据权利要求12所述的方法，包括：

通过由所述数据处理系统执行的内容选择器组件来接收由所述自然语言处理器标识的所述触发关键词并且基于所述触发关键词经由实时内容选择过程来选择内容项。

19.根据权利要求12所述的系统，包括：

通过由所述数据处理系统执行的内容选择器组件来接收由所述自然语言处理器标识的所述触发关键词并且基于所述触发关键词经由实时内容选择过程来选择内容项，所述内容项由与所述第三方提供者装置不同的内容提供者装置来提供。

20.根据权利要求12所述的方法，包括：

由所述数据处理系统将所述动作数据结构发送到所述第三方提供者装置以使所述第三方提供者装置调用为所述第三方提供者装置配置的并由所述数据处理系统执行的所述对话应用编程接口，其中所述数据处理系统在所述客户端计算装置与所述第三方提供者装置之间路由数据分组以建立所述通信会话。