CN108605076A

CN108605076A - 用于数据传输的反馈控制器

Info

Publication number: CN108605076A
Application number: CN201780001629.XA
Authority: CN
Inventors: 格拉瓦·布哈亚; 罗伯特·斯特茨
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-08-31
Publication date: 2018-09-28
Anticipated expiration: 2037-08-31
Also published as: AU2020256315A1; GB2564921B; KR20210012049A; DE112017000131T5; AU2017386098A1; US11475886B2; KR102415921B1; JP2019507397A; EP3360313B1; CN108605076B; KR102040783B1; DE212017000030U1; JP6839234B2; JP2019174846A; CN112967716A; EP3360313A1; EP4149097A1; GB2564921A; US20200251103A1; JP2021089758A

Abstract

提供了一种用于语音激活的基于数据包的计算机网络环境中的数据传输的反馈控制系统。一种系统能接收由设备的麦克风检测到的音频信号。所述系统能够解析所述音频信号以识别触发关键字和请求。所述系统能够使用触发关键字或请求来选择内容项目。所述内容项目能够被配置为在所述设备与第三方设备之间建立通信会话。所述系统能够监视所述通信会话以测量所述通信会话的特性。所述系统能基于所测量的特性生成质量信号。

Description

用于数据传输的反馈控制器

背景技术

本申请要求于2016年12月30日提交的标题为“用于数据传输的反馈控制器(FEEDBACK CONTROLLER FOR DATA TRANSMISSIONS)”的No.15/395,694美国专利申请的权益，其全部内容以引用的方式并入本文用于所有目的。

背景技术

计算设备之间的网络流量数据的基于包或其他方式的多度网络传输可能会防止计算设备正确处理网络流量数据、完成与网络流量数据相关的操作或及时响应网络流量数据。如果响应的计算设备处于或超过其处理能力，则网络流量数据的过度网络传输还可能使数据路由复杂化或降低响应质量，这可能导致低效率的带宽利用。与内容项目对象相对应的网络传输的控制能够由能够在计算设备之间发起网络流量数据的网络传输的大量内容项目对象而变得复杂。

发明内容

本公开大体上涉及一种用于通过一个或多个接口或一种或多种类型的计算机网络进行数据传输的反馈控制器。例如，计算系统能够具有对有限数量的接口、有限类型的接口，或者在给定时间可能存在有限数量的可用接口访问。由于某些类型的接口可能会消耗更多的计算资源或电池，因此系统响应当前可用的接口而有效地传输信息会具有挑战性。因为不同的计算资源在基于语音的计算环境中高效地处理且一致而准确地解析基于音频的指令是有挑战性的，所以在不同的计算资源上有效、可靠且准确地传送信息会具有挑战性。例如，不同的计算资源可能无法访问相同的语音模型，或可能访问过时或不同步的语音模型，这可能使得准确且一致地解析基于音频的指令变得具有挑战性。

本公开的系统和方法大体上涉及一种用于数据传输的反馈控制器。数据处理系统能够使用基于聚集语音训练的语音模型来处理基于语音的输入，以解析基于语音的指令，并通过内容选择器组件执行的实时内容选择过程来选择内容项目。数据处理系统能够将所选择的内容项目传输到客户端计算设备，以发起客户端计算设备和与所选择的内容项目相关联的第三方提供者设备之间的通信会话。数据处理系统能够监视或以其他方式接收关于通信会话的信息，以测量通信会话的特性并生成质量信号。然后，数据处理系统能够基于质量信号来调整或控制内容选择器组件，以便影响实时内容选择过程。例如，与允许或准许内容项目被选择并建立通信会话相比，阻止或防止内容选择器组件选择与低质量通信会话相关联的内容项目对象能够减少浪费的资源消耗。此外，对于使用电池电源的客户端设备，反馈监视器组件能够节省电池使用。

至少一个方面涉及一种用于计算机网络上的数据传输的反馈控制系统。所述系统能够包含执行自然语言处理器和内容选择器组件的数据处理系统。所述系统能够包含反馈监视器组件。自然语言处理器组件能够经由数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据包。自然语言处理器组件能够解析输入音频信号以识别请求和与该请求相对应的触发关键字。数据处理系统能够包含内容选择器组件，用于接收由自然语言处理器识别的触发关键字，并且用于基于所述触发关键字经由实时内容选择过程来选择内容项目。所述系统能够包含反馈监视器组件。反馈监视器组件能够接收携带客户端设备与对话应用编程接口之间传输的听觉信号的数据包，该对话应用编程接口响应于与内容项目的交互而与客户端设备建立通信会话。反馈监视器能够基于听觉信号来测量通信会话的特性。反馈监视器组件能够基于测得的特性生成质量信号。该内容选择器组件能够基于该质量信号来调整实时选择过程。

至少一个方面涉及一种使用反馈控制系统在计算机网络上传输数据的方法。所述方法能够至少部分地由执行自然语言处理器组件和内容选择器组件的数据处理系统执行。所述方法能够至少部分地由反馈监视器组件执行。所述方法能够包含自然语言处理器组件经由数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据包。所述方法能够包含数据处理系统解析输入音频信号以识别请求和与该请求相对应的触发关键字。所述方法能够包含内容选择器组件接收由自然语言处理器识别的触发关键字。所述方法能够包含内容选择器组件，基于触发关键字，经由实时内容选择过程来选择内容项目。所述方法能够包含反馈监视器组件接收携带客户端设备与对话应用编程接口之间传输的听觉信号的数据包，所述对话应用编程接口响应于与内容项目的交互而与客户端设备建立通信会话。所述方法能够包含反馈监视器组件基于听觉信号来测量通信会话的质量。所述方法能够包含反馈监视器组件基于所测得的特性来生成质量信号。所述方法能够包含反馈监视器组件基于质量信号来调整实时选择过程。

下面将详细讨论这些和其他方面和实施方案。上述信息和以下详细描述包含各种方面和实施方案的说明性示例，并且提供用于理解所要求保护的方面和实施方案的性质和特征的概述或框架。附图提供了各种方面和实施方案的说明和进一步的理解，并且并入本说明书并构成本说明书的部分。

附图说明

附图不旨在按比例绘制。相同的附图标记和标号表示相同的元件。为了清楚起见，并非每一个组件都会在每一个附图中标注。在附图中：

图1是用于计算机网络上的数据传输的反馈控制系统的图示。

图2是用于计算机网络上的数据传输的反馈控制系统的操作的图示。

图3是使用反馈控制系统在计算机网络上传输数据的方法的图示。

图4是图示用于能够被采用以实现本文描述和图示的系统元件和方法的计算机系统的一般架构的框图。

具体实施方式

以下是关于计算机网络上的数据传输的反馈控制系统的方法、装置、和系统的各种概念和实施方案的更详细的描述。上面介绍并在下面更详细讨论的各种概念可以以许多方式中的任何一种来实现。

本公开大体上涉及一种用于通过一个或多个接口或一种或多种类型的计算机网络进行数据传输的反馈控制器。例如，计算系统可以具有对有限数量的接口、有限类型的接口，或者在给定时间可能存在有限数量的可用接口的访问。由于某些类型的接口可能会消耗更多的计算资源或电量，因此系统响应当前可用的接口而有效地传输信息会具有挑战性。因为不同的计算资源在基于语音的计算环境中高效地处理且一致而准确地解析基于音频的指令是有挑战性的，所以在不同的计算资源上有效、可靠且准确地传送信息会具有挑战性。例如，不同的计算资源可能无法访问相同的语音模型，或可能访问过时或不同步的语音模型，这可能使得准确且一致地解析基于音频的指令变得具有挑战性。

本公开的系统和方法大体上涉及一种用于数据传输的反馈控制器。数据处理系统能够使用基于聚集语音训练的语音模型来处理基于语音的输入，以解析基于语音的指令，并经由通过内容选择器组件执行的实时内容选择过程来选择内容项目。数据处理系统能够将所选择的内容项目传输到客户端计算设备，以发起客户端计算设备和与所选择的内容项目相关联的第三方提供者设备之间的通信会话。数据处理系统能够监视或以其他方式接收关于通信会话的信息，以测量通信会话的特性并生成质量信号。然后，数据处理系统能够基于质量信号来调整或控制内容选择器组件，以便影响实时内容选择过程。

图1示出了用于计算机网络上的数据传输的示例反馈控制系统100。系统100能够包含内容选择基础设施。系统100能够包含数据处理系统102。数据处理系统102能够经由网络105与内容提供者计算设备106、服务提供者计算设备108、或客户端计算设备104中的一个或多个进行通信。网络105能够包含计算机网络，诸如互联网、本地网、广域网、城域网、或其他区域网络、内联网、卫星网络，以及诸如语音或数据移动电话网络等其他通信网络。网络105能够用于访问能够展示、输出、呈现或显示在至少一个计算设备104(例如笔记本电脑、台式机、平板电脑、个人数字助理、智能手机、便携式电脑或扬声器)上的网页、网站、域名或统一资源定位符等信息资源。例如，经由网络105，计算设备104的用户能够访问由服务提供者108或内容提供者106提供的信息或数据。

网络105能够包含或构成显示网络，例如，互联网上可用的与内容放置或搜索引擎结果系统相关联的或能够包含第三方内容项目作为内容项目放置宣传活动的一部分的信息资源的子集。能够由数据处理系统102使用网络105来访问能够由客户端计算设备104呈现、输出、渲染或显示的web页面、网站、域名、或统一资源定位符等信息资源。例如，客户端计算设备104的用户能够经由网络105访问由内容提供者计算设备106或服务提供者计算设备108提供的信息或数据。

网络105可以是任何类型或形式的网络，并且可以包含以下任何一个：点到点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、异步传输模式(ATM)网络、同步光网络(SONET)网络、同步数字体系(SDH)网络、无线网络和有线网络。网络105能够包含诸如红外线信道或卫星频带等无线链路。网络105的拓扑能够包含总线、星形、或环形网络拓扑。网络可以包含使用用于在移动设备之间通信的任何一个或多个协议的移动电话网络，包含高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电业务(“GPRS”)或通用移动通信系统(“UMTS”)。可以经由不同的协议传输不同类型的数据，或者可以经由不同的协议传输相同类型的数据。

系统100能够包含至少一个数据处理系统102。数据处理系统102能够包含至少一个逻辑设备，诸如具有处理器以经由网络105与例如计算设备104、内容提供者设备106(内容提供者106)、或服务提供者设备108(或服务提供者108)进行通信的计算设备。数据处理系统102能够包含至少一个计算资源、服务器、处理器或存储器。例如，数据处理系统102能够包含位于至少一个数据中心中的多个计算资源或服务器。数据处理系统102能够包含多个逻辑分组的服务器并且促进分布式计算技术。服务器的逻辑组可以被称为数据中心、服务器场或机器场。还能够在地理上分散服务器。数据中心或机器场可以作为单个实体来管理，或者机器场能够包含多个机器场。每个机器场中的服务器能够是异构的—服务器或机器中的一个或多个能够根据操作系统平台的一种或多种类型来操作。

机器场中的服务器能够被存储在高密度机架系统以及相关联的存储系统中，并位于企业数据中心。例如，以这种方式整合服务器可以通过将服务器和高性能存储系统定位在本地化高性能网络上来提高系统可管理性、数据安全性、系统的物理安全性，以及系统性能。集中化所有或一些数据处理系统102组件(包含服务器和存储系统)并将其与高级系统管理工具耦合允许更有效地利用服务器资源，从而节省功率和处理需求并减少带宽使用。

系统100能够包含、访问或以其他方式与至少一个服务提供者设备108交互。服务提供者设备108能够包含至少一个逻辑设备，诸如具有处理器以经由网络105与例如计算设备104、数据处理系统102或内容提供者106进行通信的计算设备。服务提供者设备108能够包含至少一个计算资源、服务器、处理器或存储器。例如，服务提供者设备108能够包含位于至少一个数据中心中的多个计算资源或服务器。服务提供者设备108能够包含数据处理系统102的一个或多个组件或功能。

内容提供者计算设备106能够提供基于音频的内容项目，以供客户端计算设备104显示为音频输出内容项目。内容项目能够包含提供者品或服务，诸如基于语音的消息，其陈述：“您希望我为您预约出租车吗？”例如，内容提供者计算设备155能够包含存储器以存储能够响应于基于语音的查询而提供的音频内容项目。内容提供者计算设备106还能够向数据处理系统102提供基于音频的内容项目(或其他内容项目)，所述内容项目能够存储在数据存储库124中。数据处理系统102能够选择音频内容项目并将所述音频内容项目提供(或指示内容提供者计算设备104提供)给客户端计算设备104。基于音频的内容项目能够是专用音频，或者能够与文本、图像、或视频数据组合。

服务提供者设备108能够包含、接口连接至少一个服务提供者自然语言处理器组件142和服务提供者接口144、或以其他方式与至少一个服务提供者自然语言处理器组件142和服务提供者接口144进行通信。服务提供者计算设备108能够包含至少一个服务提供者自然语言处理器(NLP)组件142和至少一个服务提供者接口144。服务提供者NLP组件142(或诸如服务提供者计算设备108的直接动作API的其他组件)能够与客户端计算设备104(经由数据处理系统102或绕过数据处理系统102)结合以在客户端计算设备104与服务提供者计算设备108之间创建基于来回实时语音或音频的对话(例如，会话)。服务提供者NLP142能够包含作为数据处理系统102的NLP组件112的一个或多个功能或特征。例如，服务提供者接口144能够接收或提供数据消息到数据处理系统102的直接动作API 116。服务提供者计算设备108和内容提供者计算设备106能够与同一实体相关联。例如，内容提供者计算设备106能够为汽车共享服务创建、存储、或制作可用的内容项目，并且服务提供者计算设备108能够建立与客户端计算设备106的会话以安排用于出租车的递送或汽车共享服务的汽车来搭载客户端计算设备104的终端用户。经由直接动作API 116、NLP组件112或其他组件，数据处理系统102还能够建立与客户端计算设备的会话，包含或绕过服务提供者计算设备104，以安排例如用于出租车的递送或汽车共享服务的汽车。

计算设备104能够包含、接口连接至少一个传感器134、变换器136、音频驱动器138、或预处理器140或、以其他方式与至少一个传感器134、变换器136、音频驱动器138、或预处理器140通信。传感器134能够包含例如环境光传感器、接近传感器、温度传感器、加速度计、陀螺仪、运动检测器、GPS传感器、位置传感器、麦克风或触摸传感器。变换器136能够包含扬声器或麦克风。音频驱动器138能够向硬件变换器136提供软件接口。音频驱动器能够执行由数据处理系统102提供的音频文件或其他指令，以控制变换器136生成相对应的声波或音波。预处理器140能够被配置为检测关键字并且基于所述关键字执行动作。预处理器140能够在将词项传输到数据处理系统102进行进一步处理之前过滤掉一个或多个词项或修改词项。预处理器140能够将由麦克风检测到的模拟音频信号转换为数字音频信号，并且经由网络105将携带数字音频信号的一个或多个数据包传输到数据处理系统102。在一些情况下，预处理器140能够响应于检测到执行这种传输的指令而传输携带输入音频信号中的一些或全部的数据包。所述指令能够包含例如触发关键字或其他关键字或批准将包括输入音频信号的数据包传输到数据处理系统102。

客户端计算设备104能够与终端用户相关联，所述终端用户将语音查询作为音频输入而输入到客户端计算设备104中(经由传感器134)，并且接收从变换器136(例如，扬声器)输出的、能够从数据处理系统102(或内容提供者计算设备106或服务提供者计算设备108)提供到客户端计算设备104的计算机生成语音形式的音频输出。计算机生成语音能够包含来自真人或计算机生成语言的记录。

数据存储库124能够包含一个或多个本地或分布式数据库，并且能够包含数据库管理系统。数据存储库124能够包含计算机数据存储装置或存储器，并且能够存储一个或多个参数126、一个或多个策略128、内容数据130或模板132，以及其它数据。参数126、策略128、和模板132能够包含关于客户端计算设备104与数据处理系统102(或服务提供者计算设备108)之间的基于语音的会话的规则等信息。内容数据130能够包含用于音频输出或相关元数据的内容项目，以及能够作为与客户端计算设备104的一个或多个通信会话的一部分的输入音频消息。

数据处理系统102能够包含具有至少一个计算资源或服务器的内容放置系统。数据处理系统102能够包含、接口连接至少一个接口110、或以其他方式与至少一个接口110通信。数据处理系统102能够包含、接口连接至少一个自然语言处理器组件112、或以其他方式与至少一个自然语言处理器组件112通信。数据处理系统102能够包含、接口连接至少一个直接动作应用编程接口(“API”)116、或以其他方式与至少一个直接动作应用编程接口(“API”)116通信。数据处理系统102能够包含、接口连接至少一个会话处理机114、或以其他方式与至少一个会话处理机114通信。数据处理系统102能够包含、接口连接与至少一个内容选择器组件118、或以其他方式与至少一个内容选择器组件118通信。数据处理系统102能够包含、接口连接至少一个反馈监视器组件120、或以其他方式与至少一个反馈监视器组件120通信。数据处理系统102能够包含、接口连接至少一个音频信号发生器122、或以其他方式与至少一个音频信号发生器122通信。数据处理系统102能够包括，接口连接至少一个数据存储库124、或以其它方式与至少一个数据存储库124通信。至少一个数据存储库124能够在一个或多个数据结构或数据库中包含或存储参数126、策略128、内容数据130、或模板132。参数126能够包含例如阈值、距离、时间间隔、持续时间、评分、或权重。内容数据130能够包含例如由内容提供者106提供或通过数据处理系统获得或确定以促进内容选择的内容宣传活动信息、内容组、内容选择准则、内容项目对象或其他信息。内容数据130能够包含例如内容宣传活动的历史表现。

接口110、自然语言处理器组件112、会话处理机114、直接动作API 116、内容选择器组件118、反馈监视器组件120、或音频信号发生器组件122能够各自包含至少一个处理单元或其他逻辑设备，诸如可编程逻辑阵列引擎或被配置为与数据存储库或数据库124进行通信的模块。接口110、自然语言处理器组件112、会话处理机114、直接动作API 116、内容选择器组件118、反馈监视器组件120、音频信号发生器组件122和数据存储库124能够是单独的组件、单个组件或数据处理系统102的一部分。系统100及其组件(诸如数据处理系统102)能够包含硬件元件，诸如一个或多个处理器、逻辑设备或电路。

数据处理系统102能够获得与多个计算设备104相关联的匿名计算机网络活动信息。计算设备104的用户能够肯定地授权数据处理系统102以获得与用户的计算设备相对应的网络活动信息。例如，数据处理系统102能够提示计算设备104的用户同意获得一种或多种类型的网络活动信息。计算设备104的用户的身份能够保持匿名，并且计算设备104能够与唯一标识符相关联(例如，由数据处理系统或计算设备的用户提供的用户或计算设备的唯一标识符)。数据处理系统能够将每个观察与相对应的唯一标识符相关联。

内容提供者106能够建立电子内容宣传活动。电子内容宣传活动能够作为内容数据130被存储在数据存储库124中。电子内容宣传活动能够指与共同主题相关联的一个或多个内容组。内容宣传活动能够包含分层数据结构，分层数据结构包含内容组、内容项目数据对象和内容选择准则。为了创建内容宣传活动，内容提供者106能够指定针对内容宣传活动的宣传活动级别参数的值。宣传活动级别参数能够包含例如宣传活动名称、用于放置内容项目对象的优选内容网络、要用于内容宣传活动的资源的值、内容宣传活动的开始和结束日期、内容宣传活动的持续时间、内容项目对象放置的安排、语言、地理位置、其上要提供内容项目对象的计算设备的类型。在一些情况下，闪现(impression)能够指何时内容项目对象从其来源(例如，数据处理系统102或内容提供者106)获取，并且是可计数的。在一些情况下，由于点击欺诈的可能性，机器人活动能够作为闪现被过滤并被排除。因此，在一些情况下，闪现能够指根据Web服务器对来自浏览器的页面请求的响应的测量，其从机器人活动和错误代码中过滤，并且在尽可能接近渲染内容项目对象以在计算设备104上显示的机会的时间点处被记录。在一些情况下，闪现能够指可查看或可听闪现；例如，内容项目对象至少部分地(例如，20％、30％、30％、40％、50％、60％、70％或更多)可在客户端计算设备104的显示设备上查看，或可经由计算设备104的扬声器136听见。点击或选择能够指用户与内容项目对象的交互，诸如对可听闪现的语音响应、鼠标点击、触摸交互、手势、摇动、音频交互或键盘点击。转换能够指用户对内容项目对象采取期望的动作；例如购买产品或服务、完成调查、参观与内容项目相对应的实体店、或完成电子交易。

内容提供者106能够进一步建立用于内容宣传活动的一个或多个内容组。内容组包含一个或多个内容项目对象和相对应的内容选择标准，诸如关键字、单词、词项、短语、地理位置、计算设备的类型、当日时间、兴趣、主题、或垂直。相同内容宣传活动下的内容组能够共享相同的宣传活动级别参数，但可能会针对特定内容组级别参数调整规范，诸如关键字、否定关键字(例如，在存在关于主要内容的否定关键字的情况下阻止内容项目的放置)、关键字出价、或与出价或内容宣传活动相关联的参数。

为了创建新的内容组，内容提供者能够提供针对内容组的内容组级别参数的值。内容组级别参数包含例如内容组名称或内容组主题、以及针对不同内容放置机会(例如，自动放置或托管放置)或结果(例如，点击、闪现或转换)的出价。内容组名称或内容组主题能够是内容提供者106能够用来捕获要选择内容组的内容项目对象以供显示的话题或主旨的一个或多个词项。例如，汽车经销商能够为其支持的每个品牌的车辆创建不同的内容组，并且可以进一步为其支持的每个型号的车辆创建不同的内容组。汽车经销商可以使用的内容组主题的示例包含例如“制造A跑车”、“制造B跑车”、“制造C轿车”、“制造C卡车”、“制造C混合动力车”或“制造D混合动力车”。示例内容宣传活动的主题能够是“混合动力车”，并且包含“制造C混合动力车”和“制造D混合动力车”两者的内容组。

内容提供者106能够向每个内容组提供一个或多个关键字和内容项目对象。关键字能够包含与内容项目对象相关联或由内容项目对象识别的产品或服务相关的词项。关键字能够包含一个或多个词项或短语。例如，汽车经销商能够将“跑车”、“V-6发动机”、“四轮驱动”、“燃油效率”作为用于内容组或内容宣传活动的关键字。在一些情况下，内容提供者能够指定否定关键字，以避免、防止、阻止或停用特定词项或关键字的内容放置。内容提供者能够指定用于选择内容项目对象的匹配类型，诸如完全匹配、短语匹配、或广泛匹配。

内容提供者106能够提供要由数据处理系统102用来选择由内容提供者106提供的内容项目对象的一个或多个关键字。内容提供者106能够识别出价的一个或多个关键字，并进一步提供用于各种关键字的出价金额。内容提供者106能够提供要由数据处理系统102用来选择内容项目对象的附加的内容选择准则。多个内容提供者106能够对相同或不同的关键字出价，并且数据处理系统102能够响应于接收到电子消息的关键字的指示而运行内容选择过程或广告拍卖。

内容提供者106能够提供由数据处理系统102选择的一个或多个内容项目对象。数据处理系统102(例如，经由内容选择器组件118)能够在内容放置机会成为可用时选择内容项目对象，匹配资源分配、内容计划、最高出价、关键字和针对内容组指定的其他选择准则。不同类型的内容项目对象能够被包含在语音内容项目、音频内容项目、文本内容项目、图像内容项目、视频内容项目、多媒体内容项目或、内容项目链接等的内容组中。在选择内容项目之后，数据处理系统102能够传输内容项目对象，用于在计算设备104或计算设备104的显示设备上渲染。渲染能够包含在显示设备上显示该内容项目，或者经由计算设备104的扬声器播放内容项目。数据处理系统102能够向计算设备104提供指令以渲染内容项目对象。数据处理系统102能够指示计算设备104或计算设备104的音频驱动器138生成音频信号或声波。

数据处理系统102能够包含使用例如数据包来设计、配置、构造、或操作以接收和传输信息的接口组件110。接口110能够使用诸如网络协议等一个或多个协议来接收和传输信息。接口110能够包含硬件接口、软件接口、有线接口、或无线接口。接口110能够促进将数据从一种格式转换或格式化为另一种格式。例如，接口110能够包含应用编程接口，其包含用于诸如软件组件等的各种组件之间的通信的定义。

数据处理系统102能够包含在客户端计算设备104处安装的应用程序、脚本或程序，诸如将输入音频信号传送到数据处理系统102的接口110并驱动客户端计算设备的组件来渲染输出音频信号的app。数据处理系统102能够接收数据包或包含或识别音频输入信号的其他信号。例如，数据处理系统102能够执行或运行NLP组件112以接收或获得音频信号并解析音频信号。例如，NLP组件112能够提供用于人与计算机之间的交互。NLP组件112能够被配置有用于理解自然语言并允许数据处理系统102以从人类或自然语言输入中导出含义的技术。NLP组件112能够包含或者被配置有基于机器学习的技术，诸如统计机器学习。NLP组件112能够利用决策树、统计模型或概率模型来解析输入音频信号。NLP组件112能够执行诸如以下功能，例如命名实体识别(例如，在给定文本流的情况下，确定文本中的哪些项目目映射到诸如人物或地点等的专有名称，以及每个这样的名称的类型是什么，诸如人、地点或组织)、自然语言生成(例如，将信息从计算机数据库或语义意义转换成可理解的人类语言)、自然语言理解(例如，将文本转换成更正式的表示，例如计算机模块能够操纵的一阶逻辑结构)、机器翻译(例如，将文本从一种人类语言自动翻译成另一种人类语言)、形态分割(例如，将单词分离成单个语素，并且识别语素的类别，这基于应当考虑到的语言的单词的词法或结构的复杂性而可能具有挑战性)、问题回答(例如，确定人类语言问题的答案，其能够是特定的或开放的)、语义处理(例如，在识别单词并且对其含义进行编码之后可能发生的处理，以便将所识别的单词与具有相似含义的其他单词关联)。

通过将输入信号与存储的代表性的一组音频波形(例如，在数据存储库124中)进行比较并选择最接近的匹配，NLP组件112将音频输入信号转换成识别的文本。这组音频波形能够存储在对数据处理系统102可访问的数据存储库124或其他数据库中。代表性的波形是跨越一大组用户生成的，然后可以用来自用户的语音样本进行增强。在将音频信号转换成识别文本之后，NLP组件112将文本与单词进行匹配，所述单词例如经由跨越用户进行训练或通过手动指定与数据处理系统102能够服务的动作相关联。

音频输入信号能够由客户端计算设备104的传感器134或变换器136(例如，麦克风)来检测。经由变换器136、音频驱动器138或其他组件，客户端计算设备104能够将音频输入信号提供到数据处理系统102(例如，经由网络105)，在所述数据处理系统处所述音频输入信号能够被接收(例如，由接口110)并提供给NLP组件112或存储在数据存储库124中。

NLP组件112能够获得输入音频信号。根据输入音频信号，NLP组件112能够识别至少一个请求或与所述请求相对应的至少一个触发关键字。请求能够指示输入音频信号的意义或主旨。触发关键字能够指示可能要采取的动作类型。例如，NLP组件112能够解析输入音频信号以识别晚上离开家去参加晚餐和电影的至少一个请求。触发关键字能够包含指示要采取的动作的至少一个单词、短语、根或部分单词、派生词。例如，来自输入音频信号的触发关键字“去”或“要去”能够指示需要交通工具。在这个示例中，输入音频信号(或所识别的请求)不直接表示交通目的，然而触发关键字指示交通是对由请求指示的至少一个其他动作的辅助动作。

NLP组件112能够解析输入音频信号以识别、确定、检索或、以其他方式获得请求和触发关键字。例如，NLP组件112能够将语义处理技术应用于输入音频信号，以识别触发关键字或请求。NLP组件112能够将语义处理技术应用于输入音频信号，以识别包含一个或多个触发关键字(诸如，第一触发关键字和第二触发关键字)的触发短语。例如，输入音频信号能够包含句子“我需要有人帮我洗衣和帮我干洗”。NLP组件112能够将语义处理技术或其他自然语言处理技术应用于包括所述句子的数据包，以确定触发短语“帮我洗衣”和“帮我干洗”。NLP组件112能够进一步识别多个触发关键字，诸如洗衣和干洗。例如，NLP组件112能够确定触发短语包含触发关键字和第二触发关键字。

NLP组件112能够过滤输入音频信号以识别触发关键字。例如，携带输入音频信号的数据包能够包含“如果我能够找到能帮助我去机场的人，这将是很好的(It would begreat if I could get someone that could help me go to the airport)”，在这种情况下，NLP组件112能够如下过滤掉一个或多个词项：“it”、“would”、“be”、“great”、“if”、“I”、“could”、“get”、“someone”、“that”，“could”或“help”。通过过滤掉这些词项，NLP组件112可以更准确且可靠地识别触发关键字，诸如“去机场(go to the airport)”，并确定这是针对出租车或乘车共享服务的请求。

在一些情况下，NLP组件能够确定携带输入音频信号的数据包包含一个或多个请求。例如，输入音频信号能够包含句子“我需要有人帮我洗衣和帮我干洗”。NLP组件112能够确定这是对洗衣服务和干洗服务的请求。NLP组件112能够确定这是针对能够提供洗衣服务和干洗服务的服务提供者的单个请求。NLP组件112能够确定这是两个请求；对执行洗衣服务的服务提供者的第一请求以及对提供干洗服务的服务提供者的第二请求。在一些情况下，NLP组件112能够将多个确定的请求组合成单个请求，并将所述单个请求传输到服务提供者设备108。在一些情况下，NLP组件112能够将各个请求传输到相应服务提供者设备108，或者分别将这两个请求传输给相同的服务提供者设备108。

数据处理系统102能够包含直接动作API 116，其被设计和构造成基于触发关键字来生成响应于该请求的动作数据结构。数据处理系统102的处理器能够调用直接动作API116来执行脚本，所述脚本生成数据结构到服务提供者设备108以请求或订购服务或产品，诸如来自汽车共享服务的汽车。直接动作API 116能够从数据存储库124获得数据，以及从客户端计算设备104接收终端用户同意的数据以确定位置、时间、用户账户、物流或其他信息，以允许服务提供者设备108执行操作，诸如从汽车共享服务中存留汽车。使用直接动作API 116，数据处理系统102还能够与服务提供者设备108通信，以在此示例中通过预约汽车共享搭载存留来完成转换。

直接动作API 116能够执行指定的动作，以满足作为由数据处理系统102确定的终端用户的目的。根据其输入中指定的动作，直接动作API 116能够执行识别满足用户请求所需的参数的代码或对话脚本。这样的代码能够例如在数据存储库124中查找家庭自动化服务的名称等附加信息，或者其能够提供用于在客户端计算设备104处渲染的音频输出以向终端用户询问诸如所请求的出租车的预定目的地的问题。直接动作API 116能够确定必要的参数，并且能够将该信息打包成动作数据结构，然后能够将动作数据结构发送到另一组件(诸如内容选择器组件118)或发送到服务提供者计算设备108以被履行。

直接动作API 116能够从NLP组件112或数据处理系统102的其他组件接收指令或命令以生成或构建动作数据结构。直接动作API 116能够确定动作的类型，以便从在数据存储库124中存储的模板存储库132中选择模板。动作的类型能够包含例如服务、产品、预约或票务。操作的类型能够进一步包含服务或产品的类型。例如，服务类型能够包含汽车共享服务、送餐服务、洗衣服务、雇佣服务、维修服务、或家庭服务。产品类型能够包含例如衣服、鞋、玩具、电子产品、电脑、书籍、或珠宝。预约类型能够包含例如晚餐预约或美发沙龙预约。票务类型能够包含例如电影票、运动场地票或机票。在一些情况下，能够根据价格、地点、运输类型、可用性、或其他属性对服务、产品、预约或票务的类型进行分类。

直接动作API 116在识别出请求的类型之后能够从模板存储库132访问相对应的模板。模板能够包含结构化数据集中的字段，其能够由直接动作API 116填充以促进服务提供者设备108请求的操作(诸如发送出租车在搭载位置搭载终端用户并将终端用户送到目的地位置的操作)。直接动作API 116能够在模板存储库132中执行查找以选择与触发关键字和请求的一个或多个特征相匹配的模板。例如，如果请求与对汽车或乘坐到目的地的请求相对应，则数据处理系统102能够选择汽车共享服务模板。汽车共享服务模板能够包含以下字段中的一个或多个：设备标识符、搭载位置、目的地位置、乘客人数或服务类型。直接动作API 116能够用值填充字段。为了用值填充字段，直接动作API 116能够从计算设备104的一个或多个传感器134或设备104的用户接口ping、轮询、或以其他方式获得信息。例如，直接动作API 116能够使用诸如GPS传感器等位置传感器检测源位置。直接动作API 116能够通过向计算设备104的用户的终端提交调查、提示、或查询来获得进一步的信息。直接动作API能够经由数据处理系统102的接口110和计算设备104的用户接口(例如，音频接口、基于语音的用户接口、显示器、或触摸屏)提交调查、提示、或查询。因此，直接动作API 116能够基于触发关键字或请求为动作数据结构选择模板，利用由一个或多个传感器134检测到的或经由用户接口获得的信息来填充模板中的一个或多个字段，以及生成、创建或以其他方式构造动作数据结构以促进由服务提供者设备108执行操作。

数据处理系统102能够基于各种因素而从模板数据结构132来选择模板，所述各种因素包含例如触发关键字、请求、第三方提供者设备108、第三方提供者设备108的类型、第三方提供者设备108所属的类别(例如，出租车服务、洗衣服务、鲜花服务或食物递送)、位置、或其他传感器信息中的一个或多个。

为了基于触发关键字选择模板，数据处理系统102(例如，经由直接动作API 116)能够使用触发关键字来在模板数据库132上执行查找或其他查询操作，以识别映射或以其他方式与触发关键字相对应的模板数据结构。例如，模板数据库132中的每个模板能够与一个或多个触发关键字相关联，以指示模板被配置为响应于第三方提供者设备108能够处理以建立通信会话的触发关键字来生成动作数据结构。

在一些情况下，数据处理系统102能够基于触发关键字来识别第三方提供者设备108。为了基于触发关键字来识别第三方提供者设备108，数据处理系统102能够在数据存储库124中执行查找，以识别映射到触发关键字的第三方提供者设备108。例如，如果触发关键字包含“乘车(ride)”或“要去(to go to)”，则数据处理系统102(例如，经由直接动作API116)能够将第三方提供者设备108识别为与出租车服务公司A相对应。数据处理系统102能够使用识别的第三方提供者设备108从模板数据库132中选择模板。例如，模板数据库132能够包含第三方提供者设备108或实体与被配置为响应于第三方提供者设备108能够处理以建立通信会话的触发关键字而生成动作数据结构的模板之间的映射或关联。在一些情况下，能够为第三方提供者设备108或第三方提供者设备108的类别定制模板。数据处理系统102能够基于用于第三方提供者108的模板来生成动作数据结构。

为了构建或生成动作数据结构，数据处理系统102能够识别所选模板中的一个或多个字段以用值填充。字段能够被填充有数值、字符串、Unicode值、布尔逻辑、二进制值、十六进制值、标识符、位置坐标、地理区域、时间戳、或其他值。字段或数据结构本身能够经过加密或屏蔽以保持数据安全。

在确定模板中的字段之后，数据处理系统102能够识别字段的值以填充模板的字段，从而创建动作数据结构。数据处理系统102能够通过在数据存储库124上执行查找或其他查询操作来获取、检索、确定或、以其他方式识别字段的值。

在一些情况下，数据处理系统102能够确定用于数据存储库124中不存在的字段的信息或值。数据处理系统102能够确定在数据存储库124中存储的信息或值是过时的、陈旧的、或以其他方式不适合于响应于由NLP组件112所识别的触发关键字和请求构建动作数据结构的目的(例如，客户端计算设备104的位置可能是老位置而不是当前位置；帐户可能过期；目的地餐馆可能已经搬移到新的位置；身体活动信息；或交通方式)。

如果数据处理系统102确定当前不具有在数据处理系统102的存储器中访问模板字段的值或信息，则数据处理系统102能够获取值或信息。数据处理系统102能够通过查询或轮询客户端计算设备104的一个或多个可用传感器来获取或获得信息，提示客户端计算设备104的终端用户所述信息，或使用HTTP协议访问在线基于web的资源。例如，数据处理系统102能够确定它不具有客户端计算设备104的当前位置，所述位置可能是模板的所需字段。数据处理系统102能够针对位置信息查询客户端计算设备104。数据处理系统102能够请求客户端计算设备104，以使用一个或多个位置传感器134来提供位置信息，所述一个或多个位置传感器诸如是全球定位系统传感器、WIFI三角测量、蜂窝塔三角测量、蓝牙信标、IP地址、或其他位置感测技术。

直接动作API 116能够将动作数据结构传输到第三方提供者设备(例如服务提供者设备108)，以使第三方提供者设备108调用对话式应用编程接口(例如，服务提供者NLP组件142)并且建立第三方提供者设备108与客户端计算设备104之间的通信会话。响应于在服务提供者设备108与客户端计算设备1004之间建立通信会话，服务提供者设备108能够经由网络105将数据包直接传输到客户端计算设备104。在一些情况下，服务提供者设备108能够经由数据处理系统102和网络105将数据包传输到客户端计算设备104。

在一些情况下，第三方提供者设备108能够执行对话API 142的至少一部分。例如，第三方提供者设备108能够处理通信会话的某些方面或者查询的类型。第三方提供者设备108可以利用由数据处理系统102执行的NLP组件112来促进处理与通信会话相关联的音频信号并生成对查询的响应。在一些情况下，数据处理系统102能够包含为第三方提供者108配置的对话API 142。在一些情况下，数据处理系统在客户端计算设备与第三方提供者设备之间路由数据包，以建立通信会话。数据处理系统102能够从第三方提供者设备108接收第三方提供者设备与客户端设备104建立了通信会话的指示。所述指示能够包含客户端计算设备104的标识符、与在建立通信会话时相对应的时间戳，或与通信会话相关联的其他信息，诸如与通信会话相关联的动作数据结构。在一些情况下，数据处理系统102能够包含以管理通信会话的会话处理机组件114以及以测量通信会话的特性的反馈监视器组件120。

数据处理系统102能够包含、执行、访问会话处理机组件114、或以其他方式与会话处理机组件114通信，以建立客户端设备104与数据处理系统102之间的通信会话。通信会话能够指客户端设备104与数据处理系统102之间的一个或多个数据传输，包含由客户端设备104的传感器134检测到的输入音频信号，以及由数据处理系统102传输到客户端设备104的输出信号。数据处理系统102(例如，经由会话处理机组件114)可响应于接收到输入音频信号而建立通信会话。数据处理系统102能够设置通信会话的持续时间。数据处理系统102能够为通信会话设置的持续时间设置定时器或计数器。响应定时器到期，数据处理系统102能够终止通信会话。

通信会话能够指基于网络的通信会话，其中客户端设备104提供认证信息或证书来建立会话。在一些情况下，通信会话是指在会话期间由数据包携带的音频信号的话题或情景。例如，第一通信会话能够指在客户端设备104与数据处理系统102之间传输的、与(例如，包含关键字、动作数据结构或内容项目对象)出租车服务有关的音频信号；并且第二通信会话能够指在客户端设备104与数据处理系统102之间传输的、与洗衣和干洗服务有关的音频信号。在此示例中，数据处理系统102能够确定音频信号的情景不同(例如，经由NLP组件112)，并且将两组音频信号分离成不同的通信会话。会话处理机114能够响应于识别与干洗和洗衣服务有关的一个或多个音频信号而终止与乘车服务有关的第一会话。因此，响应于检测到音频信号的情景，数据处理系统102能够启动或建立与干洗和洗衣服务相关的音频信号的第二会话。

数据处理系统102能够包含、执行内容选择器组件118、或以其他方式与内容选择器组件118通信，以接收由自然语言处理器识别的触发关键字，以及基于所述触发关键字，经由实时内容选择过程来选择内容项目。在一些情况下，直接动作API 116能够将动作数据结构传输到内容选择器组件118以执行实时内容选择过程并建立内容提供者设备106(或第三方提供者设备108)与客户端计算设备104之间的通信会话。

内容选择过程能够指或者包含选择由第三方内容提供者106提供的赞助内容项目对象。内容选择过程能够包含这样的服务：其中解析、处理、加权、或匹配由多个内容提供者提供的内容项目，以便选择一个或多个内容项目以提供给计算设备104。内容选择过程能够实时或离线地执行。实时执行内容选择过程能够指响应于经由客户端计算设备104接收到的对内容的请求而执行内容选择过程。能够在接收请求的时间间隔内(例如5秒、10秒、20秒、30秒、1分钟、2分钟、3分钟、5分钟、10分钟、或20分钟)执行(例如，发起或完成)实时内容选择过程。能够在与客户端计算设备104的通信会话期间或者在通信会话终止之后的时间间隔内执行实时内容选择过程。

例如，数据处理系统102能够包含设计、构造、配置或操作以选择内容项目对象的内容选择器组件118。为了选择用于要在基于语音的环境中显示的内容项目，数据处理系统102(例如，经由NLP组件112)能够解析输入音频信号以识别关键字(例如，触发关键字)，并使用关键字以基于广泛匹配、完全匹配、或短语匹配来选择匹配内容项目。例如，内容选择器组件118能够分析、解析或以其他方式处理候选内容项目的主旨，以确定候选内容项目的主旨是否与由客户端计算设备104的麦克风检测到的输入音频信号的关键字或短语的主旨相对应。内容选择器组件118可以使用图像处理技术、字符识别技术、自然语言处理技术、或数据库查询等来识别、分析、或辨识候选内容项目的语音、音频、词项、字符、文本、符号、或图像。候选内容项目可以包含指示候选内容项目的主旨的元数据，在这种情况下，内容选择器组件118可以处理元数据以确定候选内容项目的主旨是否与输入音频信号相对应。

内容提供者106可以在设置包含内容项目的内容宣传活动时提供附加指示符。内容提供者106可以提供内容选择器组件118可以通过使用关于候选内容项目的信息执行查找来识别的内容宣传活动或内容组级别的信息。例如，候选内容项目能够包含唯一标识符，所述唯一标识符可以映射到内容组、内容宣传活动、或内容提供者。内容选择器组件118可以基于数据存储库124中的内容宣传活动数据结构中存储的信息来确定关于内容提供者106的信息。

数据处理系统102能够经由计算机网络接收对用于在计算设备104上呈现的内容的请求。数据处理系统102能够通过处理由客户端计算设备104的麦克风检测到的输入音频信号来识别请求。请求能够包含请求的选择准则，诸如设备与请求相关联的类型、位置、以及关键字。请求能够包含动作数据结构或动作数据结构。

响应于该请求，数据处理系统102能够从数据存储库124或与内容提供者106相关联的数据库中选择内容项目对象，并且经由网络105提供所述内容项目用于经由计算设备104呈现。内容项目对象能够由不同于服务提供者设备108的内容提供者设备108来提供。内容项目能够相对应于与动作数据结构的服务类型不同的服务的类型(例如，出租车服务对比食物递送服务)。计算设备104能够与内容项目对象交互。计算设备104能够接收对内容项目的音频响应。计算设备104能够接收以选择与内容项目对象相关联的超链接或其他按钮的指示，所述超链接或其他按钮使或允许计算设备104识别服务提供者108、请求来自服务提供者108的服务、指示服务提供者108以执行服务、将信息传输给服务提供者108，或以其他方式查询服务提供者设备108。

数据处理系统102能够包含、执行音频信号发生器组件122或者与音频信号发生器组件122通信以生成输出信号。输出信号能够包含一个或多个部分。例如，输出信号能够包含第一部分和第二部分。输出信号的第一部分能够与动作数据结构相对应。输出信号的第二部分能够与在实时内容选择过程期间由内容选择器组件118选择的内容项目。

音频信号发生器组件122能够利用具有与第一数据结构相关联的声音的第一部分来生成输出信号。例如，音频信号发生器组件122能够基于由直接动作API 116填充到动作数据结构的字段中的一个或多个值来生成输出信号的第一部分。在出租车服务示例中，所述字段的值能够包含例如针对搭载位置的大街123号、针对目的地位置的大街1234号，针对乘客数量的2、以及针对服务级别的经济情况。音频信号发生器组件122能够生成输出信号的第一部分，以便确认计算设备104的终端用户想要继续向服务提供者108传输请求。第一部分能够包含以下输出“您想从出租车服务提供者A那里订购一辆经济型汽车，在大街123号搭载两个人，然后在大街1234号下车？”

在一些情况下，第一部分能够包含从服务提供者设备108接收的信息。从服务提供者设备108接收的信息能够针对动作数据结构定制或调整。例如，数据处理系统102(例如，经由直接动作API 116)能够在指示服务提供者108执行该操作之前将动作数据结构传输到服务提供者108。相反，数据处理系统102能够指示服务提供者设备108对动作数据结构执行初始或初步处理，以生成关于该作的初步信息。在出租车服务的示例中，对动作数据结构的初步处理能够包含识别位于搭载位置周围满足服务需求的级别的可用出租车，估计最近的可用出租车到达搭载位置的时间量，估计到达目的地的时间，以及估计出租车服务的价格。估计的初步值可以包含固定值，基于各种条件可能变化的估计，或值的范围。服务提供者设备108能够将初步信息返回给数据处理系统102或者经由网络104直接发送到客户端计算设备104。数据处理系统102能够将来自服务提供者设备108的初步结果并入到输出信号中，并且将输出信号传输到计算设备104。输出信号能够包含例如“出租车服务公司A能够在10分钟内在大街123号接你，并在上午9点让您在大街1234号下车，费用10美元。您想要订购这趟车吗？“这能够形成输出信号的第一部分。

在一些情况下，数据处理系统102能够形成输出信号的第二部分。输出信号的第二部分能够包含在实时内容选择过程期间由内容选择器组件118选择的内容项目。第一部分能够不同于第二部分。例如，第一部分能够包含与动作数据结构相对应的信息，其直接响应于携带由客户端计算设备104的传感器134检测到的输入音频信号的数据包，而第二部分能够包含由内容选择器组件104选择的、能够与动作数据结构切线相关的内容项目，或者包含由内容提供者设备106提供的赞助内容。例如，计算设备104的终端用户能够从出租车服务公司A请求出租车。数据处理系统102能够生成输出信号的第一部分以包含关于来自出租车服务公司A的出租车的信息。然而，数据处理系统102能够生成输出信号的第二部分，以包含基于关键字“出租车服务”选择的内容项目和终端用户可能感兴趣的动作数据结构中包含的信息。例如，第二部分能够包含由不同的出租车服务公司(诸如，出租车服务公司B)提供的内容项目或信息。因为用户可以选择以执行具有出租车服务公司B的操作，所以虽然用户可能没有特别要求的出租车服务公司B，但是数据处理系统102仍然可以提供来自出租车服务公司B的内容项目。

数据处理系统102能够将来自动作数据结构的信息传输给出租车服务公司B，以确定接送时间、到达目的地的时间、以及乘车的价格。数据处理系统102能够接收此信息并生成输出信号的第二部分，如下所示：“出租车服务公司B能够在2分钟内在大街123号接您，并在上午8:52让您在大街1234号下车，费用15美元。您想更换此次乘车吗？”计算设备104的终端用户然后能够选择由出租车服务公司A提供的乘车或由出租车服务公司B提供的乘车。

在输出信号的第二部分中提供与由出租车服务公司B提供的服务相对应的赞助内容项目之前，数据处理系统102能够通知终端用户计算设备第二部分与在实时内容选择过程期间(例如，由内容选择器组件118)选择的内容项目对象相对应。然而，数据处理系统102能够具有对不同类型的接口的有限访问，以向计算设备104的终端用户提供通知。例如，计算设备104可以不包括显示设备，或者显示设备可以被禁用或关闭。计算设备104的显示设备可能消耗比计算设备104的扬声器更多的资源，因此与使用计算设备104的扬声器相比，打开计算设备104的显示设备可能在传送通知上效率更低。因此，在一些情况下，数据处理系统102能够通过一个或多个接口或一种或多种类型的计算机网络提高信息传输的效率和有效性。例如，数据处理系统102(例如，经由音频信号发生器组件122)能够对包括内容项目的输出音频信号的部分进行模块化，以向终端用户提供输出信号的所述部分包括赞助的内容项目的指示或通知。

数据处理系统102(例如，经由接口110和网络105)能够传输包括由音频信号发生器组件122生成的输出信号的数据包。输出信号能够使得客户端设备104的音频驱动器组件138或由客户端设备104执行的音频驱动器组件138驱动客户端设备104的扬声器(例如，变换器136)以生成与输出信号相对应的声波。

数据处理系统102能够包含反馈监视器组件120。反馈监视器组件120能够包含用于测量通信会话的特性的硬件或软件。反馈监视器组件120能够接收携带客户端设备(例如，计算设备104)与对话应用编程接口(例如，由数据处理系统执行的NLP组件112，或由服务提供者设备108、第三方提供者设备、或内容提供者设备106执行的服务提供者NLP组件142)之间传输的听觉信号的数据包，所述对话应用编程接口响应于与内容项目的交互而与所述客户端设备建立通信会话。在一些情况下，内容提供者设备106能够执行包括服务提供者NLP组件142或NLP组件112的一个或多个功能或组件的NLP组件。由服务提供者设备108或内容提供者设备106执行的NLP组件能够针对服务提供者设备108或内容提供者设备106而定制。通过定制NLP组件，因为NLP组件能够被配置有更精确的查询和响应，使得减少NLP组件与客户端计算设备104之间的来回，所以当与通用或标准NLP组件相比时，NLP组件能够减少带宽使用和请求响应。

反馈监视器组件120能够基于听觉信号来测量通信会话的特性。反馈监视器组件120能够基于测得的特性生成质量信号。质量信号能够包含或指代质量级别、质量度量、质量评分或质量级别。质量信号能够包含例如数字评分(例如，0到10，其中0是最低质量且10是最高质量，反之亦然)、字母评级(例如，A到F，A是最好的质量)、二进制值(例如，是/否；好/坏；1/0；高/低)、等级、或百分数。质量信号能够包含从与同一NLP组件或提供者设备106或108通信的多个客户端设备之间的通信确定的平均质量信号。

反馈监视器组件120能够使用各种测量技术、启发式技术、策略、条件、或测试来测量通信会话的特性。反馈监视器组件120能够解析在客户端设备104与内容提供者设备、第三方设备、服务提供者或数据处理系统之间传输的数据包，以确定通信会话的特性。质量能够指用于传输数据的通信信道的质量或正被传送的数据的质量。例如，通信信道的质量能够指信噪比、环境噪声级别、延时、延迟、等待时间、不连续性、回声、或掉话。正被传送的数据的质量能够指由NLP组件生成的对计算设备的麦克风检测到的音频信号作出响应的响应的质量。数据的质量能够是基于NLP组件的响应性、NLP组件的准确度，或NLP组件从客户端设备104接收音频信号或查询与传输响应之间的等待时间。

通过测量背景噪声量和信号电平以确定信噪(“SNR”)比，反馈监视器组件120能够确定通信信道的质量。反馈监视器组件120能够将所测量或所确定的SNR与阈值进行比较以确定质量级别。例如，10dB的SNR可能被认为是好的。能够预先确定阈值或者经由机器学习模型(例如，基于来自多个设备的反馈)来确定阈值。

反馈监视器组件120能够基于客户端设备104与提供者设备或数据处理系统之间的ping时间来进一步确定通信信道的质量。数据处理系统能够比较ping时间和阈值以确定质量级别。例如，ping阈值能够是20ms、30ms、50ms、100ms、200ms或更多。反馈监视器组件120能够基于音频的不连续性(例如，音频中的暂停或中断；音频切断)来确定通信信道的质量。反馈监视器组件120能够识别通信信道中的回声，以确定低质量级别。反馈监视器组件120能够确定在时间间隔期间NLP组件的掉话的次数或者掉话与全部呼叫的比率，并将其与阈值进行比较以确定质量级别。例如，阈值能够是每小时2次掉话；或者每100次通话1次掉话。

反馈监视器组件120能够基于由与客户端计算设备104通信的NLP组件(或对话API)生成的响应的质量来确定通信会话的质量。响应的质量能够包含或者基于例如NLP组件生成响应所花费的时间量、响应的文本、响应的准确度、响应的相关性、响应的语义分析、或客户端设备的响应于由NLP组件提供的响应的网络活动。反馈监视器组件120能够通过区分与在NLP组件从客户端设备104接收到音频信号时相对应的时间戳和与在NLP传输响应时相对应的时间戳来确定NLP组件生成该响应所花费的时间的量。反馈监视器组件120能够通过区分与在客户端设备传输音频信号时相对应的时间戳和与在客户端设备从NLP组件接收到响应时相对应的时间戳来确定时间的量。

反馈监视器组件120能够通过解析包括该响应的数据包来确定响应的质量。例如，反馈监视器组件120能够解析和分析响应的文本、响应的准确性、或对来自客户端设备的查询的响应的相关性。反馈监视器组件120能够通过将查询提供给另一个NLP组件并且比较来自这两个NLP组件的响应来执行此评估。反馈监视器组件120能够通过将查询和响应提供给第三方评估者来执行此评估。反馈监视器组件120能够通过将多个响应与由多个客户端设备提供的多个类似查询进行比较来确定响应的一致性。反馈监视器组件120能够基于客户端设备传输包括相同查询的音频信号的次数(例如，指示响应还没有完全响应于由客户端设备提交的查询)来确定响应的质量。

反馈监视器组件120能够基于客户端设备的网络活动来确定由NLP生成的响应的质量。例如，NLP组件能够从客户端设备接收语音查询、生成对语音查询的响应，以及将携带响应的数据包传输到客户端设备。客户端设备在接收到来自NLP组件的响应之后能够执行网络活动或改变网络活动。例如，客户端设备能够终止通信会话，这能够指示NLP组件完全响应于客户端设备，或NLP未能成功响应于客户端设备且客户端设备放弃所述NLP组件。反馈监视器组件能够基于与由NLP组件生成的响应相关联的置信度评分来确定客户端设备由于好的或坏的原因而终止呼叫。置信度评分能够是与用于生成响应的概率或统计语义分析相关联。

反馈监视器组件120能够基于不存在由客户端设备传输的音频信号来确定客户端设备终止了通信会话。反馈监视器组件120能够基于由客户端设备传输的终止或结束命令来确定客户端设备终止了通信会话。反馈监视器组件120能够基于来自客户端设备的静音量(例如，不存在音频信号)来确定质量级别。能够基于来自客户端设备的SNR小于阈值(例如，6dB、3dB或0dB)来识别音频信号的不存在。反馈监视器组件能够基于通信会话的持续时间来测量特性。例如，大于阈值的持续时间能够指示客户端设备的终端用户对通信会话得以满足。然而，因为客户端的用户可能已经花费了不必要的或不需要的与通信有关的延长时间量，所以与诸如音频信号的幅度增加、查询重复、以及节奏减慢等其他特性相结合的长持续时间可以指示低质量会话。

NLP组件能够对由客户端设备传输的查询执行语义分析，以确定客户端设备即使NLP组件生成并提供响应也重复地传输相同或相似的查询。反馈监视器组件120能够基于在时间间隔内的重复查询的次数(或顺序重复的查询)超过阈值(例如，2、3、4、5、6、7或更多)而确定质量级别是低的。

在一些情况下，反馈监视器组件120能够确定在通信会话的不同部分处(例如，开始、中间、或结束；或时间间隔)的通信会话质量。例如，反馈监视器组件120能够确定通信会话的第一部分或第一时间间隔的质量；以及在第一部分或第一时间间隔之后的通信会话中的第二部分或第二时间间隔的质量。反馈监视器组件120能够比较这两个部分处的质量以确定整个通信会话的质量。例如，两个部分之间的质量的差大于阈值能够指示质量低、质量不一致、或质量不可靠。

在一些情况下，反馈监视器组件120能够基于通信会话或其至少一部分的特性来确定质量。所述特性能够包含例如幅度、频率、节奏、音调和音高中的至少一个。例如，反馈监视器组件120能够使用所述特性来确定客户端设备的用户的反应或使用客户端的情绪。例如，如果在来自NLP的每个响应之后由客户端设备传输的音频信号的幅度增加，则反馈监视器能够确定终端用户对NLP组件生成的响应感到失望。反馈监视器组件120能够在相同的通信会话或不同的通信会话期间将由客户端设备检测到的音频信号的幅度与阈值或与由客户端设备接收到的其他音频信号进行比较。

反馈监视器组件120能够基于由客户端设备检测到并传输到NLP组件的音频信号的节奏或音调等特性来确定质量。例如，反馈监视器组件120能够确定：例如，在每次NLP响应之后节奏的减慢(例如，每时间间隔所说的词的速率)能够指示终端用户对由NLP组件所生成的响应不满意，并且慢慢重复以使NLP组件更好地解析音频信号并改善响应。在一些情况下，增快或稳定的节奏能够指示客户端设备的用户对由NLP所生成的响应满意并且信任所述响应。在一些情况下，由客户端设备检测到的音频信号的音高增加能够指示来自NLP的响应的质量差或者缺乏对这些响应的置信度。

在一些情况下，反馈监视器组件120能够向客户端设备传输查询以测量或确定质量。例如，反馈监视器组件120能够向终端用户传输调查问题，询问关于通信会话的质量、NLP组件、或提供者设备。在一些情况下，响应于反馈监视器组件120确定第一质量信号低于阈值，反馈监视器组件120能够生成查询。例如，反馈监视器组件120能够基于使用诸如由客户端设备检测到的音频信号的幅度增加结合由客户端设备检测到的音频信号的节奏减慢的特性来测量质量而确定第一质量信号。反馈监视器组件120能够基于幅度和节奏的组合特性来生成指示质量级别低的质量信号。响应于基于该组合特性所确定的低质量信号，反馈监视器组件120能够生成并向客户端设备传输查询，隐式地或显式地询问关于通信会话的质量(例如，您对由NLP组件生成的响应是否满意？您对通信会话是否满意？)。在另一示例中，数据处理系统能够基于服务提供者108是否能提供所请求的服务来确定质量。例如，终端用户可以请求产品或服务，但是服务提供者108作出响应，声明它们没有所述产品或不能执行所述服务，这可能使终端用户指示对服务提供者108的失望。数据处理系统102能够识别这种失望，并相应地分配质量。

在一些情况下，反馈监视器组件120能够基于多个电子表面上的网络活动来测量特性，并且聚集从多个电子表面测得的质量以生成总和质量信号。总和质量信号能够是平均值、加权平均值、绝对总和、或其他组合的质量信号值。反馈监视器组件120还能够生成组合的质量信号值的统计数据或执行统计分析，诸如确定标准偏差、方差、3西格玛(sigma)质量、或6西格玛质量。

反馈监视器组件120能够调整由内容选择器组件118执行的实时内容选择过程。调整实时内容选择过程能够指调整用于选择内容项目的权值，所述内容项目由内容提供者设备106或服务提供者设备108或执行用于建立与客户端设备104的通信会话的NLP组件的第三方提供者设备108提供。例如，如果内容项目导致低质量通信会话，则反馈监视器组件120能够调整包括内容项目的内容数据130的属性或参数，以减少针对类似的动作数据结构或类似的客户端设备104(或其账户或概况)选择所述内容项目的可能性。

在一些情况下，反馈监视器组件120能够响应于质量信号小于阈值而防止或阻止内容选择器组件118在实时选择过程中选择内容项目。在一些情况下，反馈监视器组件120能够响应于质量信号大于或等于阈值而允许或准许内容选择器组件118在实时选择过程中选择内容项目。

图2是用于计算机网络上的数据传输的反馈控制系统的操作的图示。所述系统能够包含图1中描绘的系统100的一个或多个组件。系统100能够包含由一个或多个客户端计算设备104a-n执行或提供的一个或多个电子表面202a-n。电子表面202a-n的示例能够包含音频接口、基于语音的接口、显示屏幕、HTML内容项目、多媒体、图像、视频、基于文本的内容项目、SMS、消息应用、聊天应用、或自然语言处理器。

在动作204处，客户端计算设备104能够从电子表面202或经由电子表面202接收指示反馈的数据包、信号、或其他信息。在动作206处，一个或多个客户端计算设备104a-n、一个或多个的服务提供者设备108a-n、或一个或多个内容提供者设备106a-n能够将数据包传输到反馈监视器组件124。所述数据包能够与在客户端设备104与服务提供者设备108或内容提供者设备106中的一个或多个之间建立的通信会话相关联。所述数据包能够从相应的设备传输到反馈监视器组件124。

在一些情况下，反馈监视器组件124能够拦截从设备104、106或108传输到相应设备的数据包。反馈监视器组件124能够分析所拦截的数据包并将数据包路由或转发到其预期的目的地。因此，反馈监视器组件124能够是到客户端设备104和服务/第三方提供者设备108或内容提供者设备106的媒介。

在动作208处，反馈监视器组件124能够将从通信会话拦截的或接收的数据包传输到NLP组件112。在动作210处，NLP组件112能够执行数据包的语义分析并且将它们提供回反馈组件124。在一些情况下，NLP组件112能够对来自通信会话206的音频信号执行自然语言处理，以比较由提供者设备106或108生成的NLP组件的响应。反馈监视器组件124能够比较由控制NLP组件112生成的响应，以确定第三方NLP组件是否在可比较的或令人满意的级别上运行。

在动作212处，反馈监视器组件124能够确定通信会话206的质量信号，并且调整由内容选择器组件118执行的实时内容选择过程，使得下一次内容选择器组件118接收对内容的请求时，内容选择器组件118能够适当地对与通信会话206相关联的内容项目(或内容提供者)加权，以增加或减少内容项目被选择的可能性。例如，如果提供者108与多个低质量通信会话相关联，则反馈监视器组件124能够指示内容选择器组件118防止选择能够导致建立与提供者108的通信会话的内容项目。

图3是用于执行分组音频信号的动态调制的示例方法的图示。方法300能够由系统100或系统400的一个或多个组件、系统或元件执行。方法300能够包含接收输入音频信号的数据处理系统(动作305)。数据处理系统能够从客户端计算设备接收输入音频信号。例如，由数据处理系统执行的自然语言处理器组件能够经由数据处理系统的接口从客户端计算设备接收输入音频信号。数据处理系统能够接收携带或包含由客户端计算设备(或客户端设备)的传感器检测到的输入音频信号的数据包。

在动作310处，方法300能够包含数据处理系统解析输入音频信号。自然语言处理器组件能够解析输入音频信号以识别请求和与请求相对应的触发关键字。例如，由客户端设备检测到的音频信号能够包含“好的设备，我需要乘出租车服务公司A的车去大街1234号(“Okay device,I need a ride from Taxi Service Company A to go to 1234MainStreet)”。在这个音频信号中，初始触发关键字能够包含“好的设备(Okay device)”，这能够向客户端设备指示将输入音频信号传输到数据处理系统。客户端设备的预处理器能够在将其余的音频信号发送到数据处理系统之前过滤掉词项“好的设备(Okay device)”。在一些情况下，客户端设备能够过滤掉附加的词项或生成关键字以传输给数据处理系统用于进一步的处理。

数据处理系统能够识别输入音频信号中的触发关键字。触发关键字能够包含例如“要去(to go to)”或“乘(ride)”或这些词项的变体。触发关键字能够指示服务或产品的类型。数据处理系统能够识别输入音频信号中的请求。能够基于词项“我需要(I need)”来确定请求。能够使用语义处理技术或其他自然语言处理技术来确定触发关键字和请求。

在一些情况下，数据处理系统能够生成动作数据结构。数据处理系统能够基于触发关键字、请求、第三方提供者设备或其他信息来生成动作数据结构。动作数据结构能够响应请求。例如，如果客户端计算设备的终端用户请求来自出租车服务公司A的出租车，则动作数据结构能够包含用于请求来自出租车服务公司A的出租车服务的信息。数据处理系统能够选择针对出租车服务公司A的模板，并且使用值填充模板中的字段，以允许出租车服务公司A为客户端计算设备的用户派送出租车来搭载所述用户并将用户送到所请求的目的地。

在动作315处，数据处理系统能够选择内容项目。例如，内容选择器组件能够接收触发关键字、请求或动作数据结构，并且经由实时内容选择过程来选择内容项目。所选内容项目能够与内容提供者、服务提供者或其他第三方提供者相对应。客户端设备能够与内容项目交互以建立与内容项目的提供者或与内容项目相关联的其他设备的通信会话。与内容项目相关联的设备能够使用对话API(诸如，NLP)与客户端设备交互。

在动作320处，反馈监视器组件能够接收携带客户端设备与对话应用编程接口之间传输的听觉信号的数据包，所述对话应用编程接口响应于与内容项目的交互而建立与客户端设备的通信会话。在动作325处，反馈监视器组件能够基于听觉信号来测量通信会话的质量或特性，并且基于测得的特性来生成质量信号。在动作330处，反馈监视器组件或数据处理系统能够基于质量信号来调整实时选择过程。

图4是示例计算机系统400的框图。计算机系统或计算设备400能够包含或用于实现系统100或其诸如数据处理系统102的组件。数据处理系统102能够包含智能个人助理或基于语音的数字助理。计算系统400包含用于传送信息的总线405或其他通信组件以及耦合到总线405以处理信息的处理器410或处理电路。计算系统400还能够包含耦合到总线的、用于处理信息的一个或多个处理器410或处理电路，。计算系统400还包含耦合到总线405的、用于存储信息的诸如随机存取存储器(RAM)或其他动态存储设备的主存储器415，以及用于要由处理器410执行的指令。主存储器415能够是或包含数据存储库145。主存储器415还能够用于在由处理器410执行指令期间存储位置信息、临时变量、或其他中间信息。计算系统400可以进一步包含耦合到总线405的、用于存储用于处理器410的静态信息和指令的只读存储器(ROM)420或其他静态存储设备。诸如固态设备、磁盘或光盘的存储设备425能够被耦合到总线405以永久地存储信息和指示。存储设备425能够包含或者是数据存储库145的部分。

计算系统400可以经由总线405耦合到显示器435，诸如液晶显示器或有源矩阵显示器，用于向用户显示信息。诸如包含字母数字键和其他键的键盘的输入设备430可以耦合到总线405，用于向处理器410传送信息和命令选择。输入设备430能够包含触摸屏显示器435。输入设备430还能够包含用于向处理器410传送方向信息和命令选择以及用于控制显示器435上的光标移动的光标控制件，诸如鼠标、轨迹球、或光标方向键。例如，显示器435能够是数据处理系统102、客户端计算设备150、或图1的其他组件的部分。

本文描述的处理、系统和方法能够由计算系统400响应于处理器410执行在主存储器415中包含的指令的布置来实现。这样的指令能够从另一个计算机可读介质(诸如存储设备425)读取到主存储器415中。在主存储器415中包含的执行指令的布置使计算系统400执行在此描述的说明性处理。还可以采用多处理布置中的一个或多个处理器来执行在主存储器415中包含的指令。利用在此描述的系统和方法，硬连线电路能够代替软件指令或与软件指令一起结合被使用。这里描述的系统和方法不限于硬件电路和软件的任何特定组合。

虽然在图4中已经描述了示例计算系统，但包含本说明书中描述的操作的主题能够在其他类型的数字电子电路中或者在计算机软件、固件或硬件中实现，包含本说明书中公开的结构及其结构等同物，或者在上述中的一个或多个的组合中实现。

对于其中本文讨论的系统收集关于用户的个人信息或者可以利用个人信息的情况，用户可以被提供有机会来控制可以收集个人信息(例如，关于用户的社交网络、社交动作或活动、用户的偏好、或用户的位置的信息)的程序或特征，或者控制是否或如何接收来自内容服务器或可以与用户更相关的其他数据处理系统的内容。另外，某些数据在存储或使用之前可能会以一种或多种方式进行匿名化，使得在生成参数时移除个人身份信息。例如，用户的身份可以是匿名的，使得不能够确定用户的个人可识别信息，或者可以在获得位置信息(诸如城市、邮政编码、或州级)的情况下将用户的地理位置概括化，使得不能确定用户的具体位置。因此，用户可以具有对如何收集关于他或她的以及由内容服务器使用的信息的控制。

本说明书中描述的主题和操作能够在数字电子电路中或者在计算机软件、固件或硬件中实现，包含本说明书中公开的结构及其结构等同物，或者在上述中的一个或多个的组合中实现。本说明书中描述的主题能够被实现为在一个或多个计算机存储介质上编码的、用于由数据处理设备执行或控制数据处理设备的操作的一个或多个计算机程序，例如计算机程序指令的一个或多个电路。可替代地或附加地，程序指令能够在被生成以对信息进行编码的人工生成的传播信号上编码，例如机器生成的电信号、光信号、或电磁信号，以传输到用于由数据处理装置执行的合适的接收器装置。计算机存储介质能够是计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备，或者其中的一个或多个的组合，或者能够被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备，或者其中的一个或多个的组合中。虽然计算机存储介质不是传播信号，但是计算机存储介质能够是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质还能够是一个或多个单独的组件或介质(例如，多个CD、磁盘、或其他存储设备)或被包括在一个或多个单独的组件或介质中。本说明书中描述的操作能够被实现为由数据处理装置对在一个或多个计算机可读存储设备上存储的数据或从其他源接收的数据执行的操作。

术语“数据处理系统”、“计算设备”、“组件”、或“数据处理装置”涵盖用于处理数据的各种装置、设备、和机器，例如包含可编程处理器、计算机、芯片上系统、或前述中的多个或组合。装置能够包含专用逻辑电路，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。除了硬件之外，装置还能够包含为所涉及的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其中的一个或多个的组合的代码。装置和执行环境能够实现各种不同的计算模型基础设施，诸如Web服务、分布式计算、和网格计算基础设施。例如，直接动作API 116、内容选择器组件118、或NLP组件112以及其他数据处理系统102的组件能够包含或共享一个或多个数据处理装置、系统、计算设备或处理器。

计算机程序(还被称为程序、软件、软件应用程序、应有(app)、脚本、或代码)能够用任何形式的编程语言编写，包含编译或解释语言、说明性或程序语言，并且能够以任何形式部署，包含作为适用于计算环境的独立程序或作为模块、组件，子程序、对象、或其他单元。计算机程序能够与文件系统中的文件相对应。计算机程序能够被存储在保存其他程序或数据(例如，在标记语言文档中存储的一个或多个脚本)的文件的部分中，被存储在专用于所讨论的程序的单个文件中，或者被存储在多个协调的文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序能够被部署以在一台计算机上或多台计算机上执行，这些计算机位于一个站点处或跨多个站点分布并通过通信网络互连。

本说明书中描述的处理和逻辑流程能够由执行一个或多个计算机程序(例如，数据处理系统102的组件)的一个或多个可编程处理器来执行，以通过对输入数据进行操作并生成输出来执行动作。处理和逻辑流程还能够由专用逻辑电路(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))来执行，并且装置还能够被实现为所述专用逻辑电路。适合于存储计算机程序指令和数据的设备包含所有形式的非易失性存储器、介质和存储设备，例如包含半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或者并入在专用逻辑电路中。

本文描述的主题能够在包含后端组件(例如，作为数据服务器)或包含中间件组件(例如，应用服务器)、或包含前端组件(例如具有用户能够通过其与本说明书中所描述的主题的实施方案交互的图形用户接口或网页浏览器的客户端计算机)或者一个或多个这样的后端、中间件、或前端组件的组合的计算系统中实现。系统的组件能够通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包含局域网(“LAN”)和广域网(“WAN”)、网间网络(例如，互联网)以及对等网络(例如，自组对等网络)。

诸如系统100或系统400的计算系统能够包含客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络(例如，网络165)进行交互。客户端与服务器之间的关系是通过在各个计算机上运行且彼此具有客户端-服务器关系的计算机程序产生的。在一些实施方案现中，服务器将数据(例如，表示内容项目的数据包)传输到客户端设备(例如，出于向与客户端设备交互的用户显示数据和从所述用户接收用户输入的目的)。在客户端设备处生成的数据(例如，用户交互的结果)能够从服务器处的客户端设备接收(例如，由数据处理系统102从计算设备150或内容提供者计算设备155或服务提供者计算设备160接收)。

尽管在附图中以特定顺序描述了操作，但是这些操作不需要以所示出的特定顺序或以相继顺序执行，并且不需要执行所有示出的操作。本文描述的动作能够不同的顺序执行。

各种系统组件的分离不需要在所有实施方案中分离，并且所描述的程序组件能够被包含在单个硬件或软件产品中。例如，NLP组件110或内容选择器组件125能够是单个组件、app、或程序，或具有一个或多个处理电路的逻辑设备，或是数据处理系统102的一个或多个服务器的部分。

现在已经描述了一些说明性的实施方案，显而易见的是，前述内容是说明性而非限制性的，已通过示例的方式呈现。具体地说，虽然本文提出的许多示例涉及方法动作或系统元件的特定组合，但这些动作和元件可以以其他方式组合以实现相同的目标。结合一个实施方案讨论的动作、元件和特征并非意图排除在其他一个或多个实施方案中的类似作用。

本文使用的措辞和术语是为了描述的目的，且不应当被认为是限制性的。“包含”、“包括”、“具有”、“含有”、“涉及”、“特征在于”、“其特征在于”、及其变化形式意在涵盖其后列出的项目、其等同物和附加项目以及由其后专门列出的项目组成的可替代实施方案。在一个实施方案中，本文描述的系统和方法包括所描述的元件、动作或组件中的一个、超过一个的每个组合或全部。

本文以单数的方式提及的系统和方法的实施方案或元件或动作的任何引用还可以涵盖包含多个这些元件的实施方案，并且本文的任何实施方案或元件或动作的复数引用也能够涵盖仅包含一个元件的实施方案。单数形式或复数形式的引用不旨在将当前公开的系统或方法、其组件、动作或元件限制为单个或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包含其中动作或元件至少部分地基于任何信息、动作或元件的实施方案。

本文公开的任何实施方案可以与任何其他实施方案或实施例组合，并且对“实施方案”、“一些实施方案”、“一个实施方案”等的引用不一定是相互排斥的，而是旨在指示结合实施方案描述的特定特征、结构或特性能够包含在至少一个实施方案或实施例中。本文使用的此类术语不一定都指的是相同的实施方案。任何实施方案能够任何与本文所公开的方面和实施方案一致的方式包含地或排他地与任何其他实施方案组合。

对“或”的引用能够被解释为包含性的，因此使用“或”描述的任何术语可以指示单个、超过一个、以及全部所描述术语中的任何一个。例如，对“‘A’和‘B’中的至少一个”的引用能够仅包含“A”、仅包含“B”、以及“A”和“B”两者。结合“包括”或其他公开术语使用的此类参考能够包含附加项目。

在附图、详细描述或任何权利要求中的技术特征后面附有附图标记的情况下，已经包含附图标记以增加附图、详细描述和权利要求的可理解性。相应地，附图标记和它们的缺失都不会对任何权利要求元素的范围产生任何限制作用。

本文描述的系统和方法可以以其他特定形式来实施而不脱离其特性。例如，数据处理系统102能够部分地基于来自线程200的动作序列中的先前动作的数据(诸如，来自第二动作210的指示第二动作210完成或即将开始的数据)为后续动作(例如，第三动作215)选择内容项目。前述实施方案是说明性的而非限制所描述的系统和方法。本文中描述的系统和方法的范围因此由所附权利要求书而不是前面的描述来指示，并且落入权利要求书的等同物的含义和范围内的改变也包含在其中。

Claims

1.一种用于在计算机网络上的数据传输的反馈控制系统，包括：

自然语言处理器组件，所述自然语言处理器组件由数据处理系统执行，以经由所述数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据包；

所述自然语言处理器组件用于解析所述输入音频信号，以识别请求和与所述请求相对应的触发关键字；

内容选择器组件，所述内容选择器组件由所述数据处理系统执行以接收由所述自然语言处理器识别的所述触发关键字，并且基于所述触发关键字经由实时内容选择过程来选择内容项目；

反馈监视器组件，用于：

接收携带所述客户端设备与对话应用编程接口之间传输的听觉信号的数据包，所述对话应用编程接口响应于与所述内容项目的交互而与所述客户端设备建立通信会话；

基于所述听觉信号测量所述通信会话的特性；以及

基于所测量的特性生成质量信号；以及

所述内容选择器组件用于基于所述质量信号来调整所述实时选择过程。

2.根据权利要求1所述的系统，包括由所述数据处理系统执行的所述对话应用编程接口。

3.根据权利要求1所述的系统，包括由第三方提供者设备执行的所述对话应用编程接口。

4.根据权利要求1所述的系统，包括所述数据处理系统用于：

拦截从所述客户端设备传输的所述数据包；

解析所述数据包以识别第三方设备；以及

将所述数据包路由到所述第三方设备。

5.根据权利要求1所述的系统，包括所述数据处理系统用于：

解析所述数据包，以确定听觉信号不存在；以及

基于所述听觉信号的所述不存在而生成指示低级别质量的所述质量信号。

6.根据权利要求1所述的系统，包括：

所述反馈监视器组件用于将携带所述听觉信号的所述数据包转发到所述自然语言处理器，以确定在第一时间间隔处的所述听觉信号的第一特性，以及在所述第一时间间隔之后的第二时间间隔处的所述听觉信号的第二特性；以及

基于所述第一特性和所述第二特性的比较来测量特性。

7.根据权利要求6所述的系统，其中，所述第一特性和所述第二特性包含幅度、频率、节奏、音调和音高中的至少一个。

8.根据权利要求1所述的系统，包括所述数据处理系统用于：

将多个基于语音的查询传输到所述客户端设备；以及

基于对所述多个基于语音的查询的响应来测量所述特性。

9.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述质量信号小于阈值而生成查询；

从所述客户端设备接收对所述查询的响应；以及

基于所述响应生成第二质量信号。

10.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述通信会话的持续时间测量所述特性。

11.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于多个电子表面上的网络活动来测量所述特性；以及

聚集从所述多个电子表面测量的所述质量，以生成总和质量信号。

12.根据权利要求1所述的系统，包括所述数据处理系统用于：

响应于所述质量信号小于阈值而防止所述内容选择器组件在所述实时选择过程中进行所述内容项目的选择。

13.根据权利要求1所述的系统，包括：

响应于所述质量信号大于或等于阈值而允许所述内容选择器组件在所述实时选择过程中选择所述内容项目。

14.一种使用反馈控制系统在计算机网络上传输数据的方法，包括：

通过由数据处理系统执行的自然语言处理器组件经由所述数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据包；

通过所述数据处理系统解析所述输入音频信号，以识别请求和与所述请求相对应的触发关键字；

通过由所述数据处理系统执行的内容选择器组件接收由所述自然语言处理器识别的所述触发关键字；

通过所述内容选择器组件基于所述触发关键字经由实时内容选择过程来选择内容项目；

通过反馈监视器组件接收携带所述客户端设备与对话应用编程接口之间传输的听觉信号的数据包，所述对话应用编程接口响应于与所述内容项目的交互而与所述客户端设备建立通信会话；

通过所述反馈监视器组件基于所述听觉信号来测量所述通信会话的特性；

通过所述反馈监视器组件基于所测量的特性来生成质量信号；以及

通过所述内容选择器组件基于所述质量信号来调整所述实时选择过程。

15.根据权利要求14所述的方法，包括：

在所述数据处理系统上执行所述对话应用编程接口。

16.根据权利要求14所述的方法，包括：

通过所述数据处理系统拦截从所述客户端设备传输的所述数据包；

通过所述数据处理系统解析所述数据包以识别第三方设备；以及

通过所述数据处理系统将所述数据包路由到所述第三方设备。

17.根据权利要求14所述的方法，包括：

通过所述数据处理系统解析所述数据包以确定听觉信号不存在；以及

通过所述数据处理系统基于所述听觉信号的所述不存在而生成指示低级别质量的所述质量信号。

18.根据权利要求14所述的方法，包括：

通过所述反馈监视器将携带所述听觉信号的所述数据包转发到所述自然语言处理器，以确定在第一时间间隔处的所述听觉信号的第一特性，以及在所述第一时间间隔之后的第二时间间隔处的所述听觉信号的第二特性；以及

通过所述反馈监视器基于所述第一特性和所述第二特性的比较来测量所述质量。

19.根据权利要求18所述的方法，其中，所述第一特性和所述第二特性包含幅度、频率、节奏、音调和音高中的至少一个。

20.根据权利要求14所述的方法，包括：

响应于所述质量信号小于阈值而防止所述内容选择器组件在所述实时选择过程中选择所述内容项目。