CN109074802B

CN109074802B - 分组化音频信号的调制

Info

Publication number: CN109074802B
Application number: CN201780001555.XA
Authority: CN
Inventors: 格拉瓦·布哈亚; 罗伯特·斯特茨
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-08-31
Publication date: 2023-08-08
Anticipated expiration: 2037-08-31
Also published as: CN109074802A; JP6704937B2; US10347247B2; AU2017386097A1; EP3360128A1; KR102345614B1; EP3360128B1; US20230111040A1; JP2019506627A; JP6977103B2; GB2605281B; JP2020129145A; AU2017386097B9; US20180190275A1; AU2020203038B2; US11948572B2; GB2565175B; KR102058131B1; DE212017000032U1; US11482216B2

Abstract

本发明提供在基于语音激活的数据分组的计算机网络环境中调制分组化音频信号。一种系统能够接收由设备的麦克风检测到的音频信号。所述系统能够解析所述音频信号以识别触发关键词和请求，并且生成第一动作数据结构。所述系统能够基于所述触发关键词识别内容项对象，并且生成输出信号，所述输出信号包括对应于所述第一动作数据结构的第一部分以及对应于所述内容项对象的第二部分。所述系统能够对所述输出信号的第一部分或者第二部分应用调制，并且将经调制的输出信号发送到所述设备。

Description

分组化音频信号的调制

技术领域

本申请请求于2016年12月30日提交并且标题为“分组化音频信号的调制”的美国专利申请号15/395,660的权益，其全部内容出于各种目的通过引用并入本文中。

背景技术

计算设备间网络流量数据的基于分组或其他方式的过度网络传输会阻止计算设备正确处理网络流量数据、完成与网络流量数据相关的操作或者及时对网络流量数据作出响应。如果响应的计算设备处于或超过其处理能力，则网络流量数据的过度网络传输还会使数据路由复杂化或者降低响应质量，这可能导致低效的带宽占用。对应于内容项对象的网络传输的控制会因大量内容项对象能够启动计算设备之间网络业务数据的网络传输而变得复杂。

发明内容

本公开大体上针对提高通过一个或多个接口或者一种或多种类型的计算机网络进行信息传输的效率和有效性。例如，计算系统可以访问有限数目的接口、有限类型的接口或者在给定时间可能存在有限数目的可用接口。由于某些类型的接口可能会消耗更多的计算资源或者电池，对于系统响应于当前可用的接口而高效地传送信息而言，可能富有挑战性。

本公开的系统和方法大体上针对基于通信会话的上下文来动态地调制输出音频的数据处理系统。所述数据处理系统能够调制音调、频率、中心频率和幅度，应用水印、叠加或以其他方式调制或调整输出音频的一部分，以便指示输出音频的该部分的上下文或类型。基于第二部分的上下文不同于第一部分，所述数据处理系统能够使用用于所述输出音频信号的第一部分的第一音频调制以及用于所述音频信号的第二部分的第二音频调制。例如，所述第二部分能够包括对应于由第三方内容提供者提供并且由所述数据处理系统在实时选择过程期间选择的内容项的音频。

至少一个方面针对一种执行分组化音频信号的动态调制的系统。所述系统能够包括由数据处理系统执行的自然语言处理器组件、直接动作应用编程接口、内容选择器和音频信号生成器组件。所述自然语言处理器组件能够经由所述接口接收包括由客户端设备的传感器检测到的输入音频信号的数据分组。所述自然语言处理器组件能够解析所述输入音频信号以识别请求和与所述请求相对应的触发关键词。所述直接动作应用编程接口能够基于触发关键词来生成响应于所述请求的第一动作数据结构。所述内容选择器组件能够接收由所述自然语言处理器识别的触发关键词，以及基于所述触发关键词经由实时内容选择过程来选择内容项。所述音频信号生成器组件能够生成输出信号，其包括与所述第一动作数据结构相对应并且利用第一音频调制生成的第一部分以及与所述内容项相对应并且利用不同于所述第一音频调制的第二音频调制生成的第二部分。所述数据处理系统的接口能够传送包括由所述音频信号生成器组件生成的输出信号的数据分组。所述接口能够传送数据分组以使由所述客户端设备执行的音频驱动器组件驱动所述客户端设备的扬声器，以生成与所述输出信号相对应的声波。

至少一个方面针对一种执行分组化音频信号的动态调制的方法。所述方法能够包括由数据处理系统执行的自然语言处理器组件，其经由所述数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据分组。所述方法能够包括所述自然语言处理器组件解析所述输入音频信号以识别请求和与所述请求相对应的触发关键词。所述方法能够包括所述数据处理系统的直接动作应用编程接口基于触发关键词来生成响应于所述请求的第一动作数据结构。所述方法能够包括由所述数据处理系统执行的内容选择器组件接收由所述自然语言处理器识别的触发关键词。所述方法能够包括所述内容选择器组件基于所述触发关键词经由实时内容选择过程来选择内容项。所述方法能够包括由所述数据处理系统执行的音频信号生成器组件生成输出信号，其包括与所述第一动作数据结构相对应并且利用第一音频调制生成的第一部分以及与所述内容项相对应并且利用不同于所述第一音频调制的第二音频调制生成的第二部分。所述方法能够包括所述数据处理系统的接口传送包括由所述音频信号生成器组件生成的输出信号的数据分组以使由所述客户端设备执行的音频驱动器组件驱动所述客户端设备的扬声器来生成与所述输出信号相对应的声波。

下面详细讨论这些和其他方面以及实施方式。上文的信息和下文的具体实施方式包括各个方面和各种实施方式的说明性示例，并且提供用于理解所要求保护的方面和实施方式的性质和特点的概述或构架。附图提供对各个方面和各种实施方式的说明和进一步理解，并且被并入本发明且构成本说明书的一部分。

附图说明

附图不旨在按比例绘制。在各图中相似的附图标号和标记指示相似的元素。为清楚起见，在每个图中可以并不标注每个组件。在图中：

图1是调制分组化音频信号的系统的图示。

图2是调制分组化音频信号的系统的操作的图示。

图3是调制分组化音频信号的系统的操作的图示。

图4是根据一种实施方式的执行分组化音频信号的动态调制的方法的图示。

图5是图示出能够用来实现本文所述和所示的系统和方法的元素的计算机系统的总体架构的框图。

具体实施方式

下面更详细地描述有关调制分组化音频信号的方法、装置和系统的各种概念及其实施方式。上文介绍并且下文将更详细讨论的各种概念可以通过若干方式中的任何一种来实现。

本公开大体上针对一种用于执行分组化音频信号的动态调制的数据处理系统。所述数据处理系统能够提高通过一个或多个接口或者一种或多种类型的计算机网络进行信息传输的效率和有效性。例如，计算系统可以访问有限数目的接口、有限类型的接口或者在给定时间可能存在有限数目的可用接口。由于某些类型的接口可能会消耗更多的计算资源或者电池，对于系统响应于当前可用的接口而高效地传送信息而言，可能富有挑战性。

本公开的系统和方法大体上针对基于通信会话的上下文来动态地调制输出音频的数据处理系统。所述数据处理系统能够调制音调、频率、中心频率和幅度，应用水印、叠加或以其他方式调制或调整输出音频的一部分，以便指示输出音频的该部分的上下文或类型。基于第二部分的上下文不同于第一部分，所述数据处理系统能够使用用于输出音频信号的第一部分的第一音频调制以及用于音频信号的第二部分的第二音频调制。例如，第二部分能够包括对应于由第三方内容提供者提供并且由数据处理系统在实时选择过程期间选择的内容项的音频。

本解决方案能够通过调制输出音频文件的一部分来提供指示而减少资源消耗、处理器利用率、电池消耗、带宽利用率、音频文件大小或者扬声器消耗的时间量。在一些情况下，所述数据处理系统能够调制音频文件的一部分，而非将额外的音频内容附加到音频文件。同提供附加到音频文件的单独指示或者以单独方式提供相比，通过调制音频文件的一部分，所述数据处理系统能够因提供更少的数据传输或者产生更少的音频信号而减少资源消耗。

图1图示出执行分组化音频信号的动态调制的示例系统100。系统100能够包括内容选择基础设施。系统100能够包括数据处理系统102。数据处理系统102能够经由网络105与内容提供者计算设备106、服务提供者计算设备108或者客户端计算设备104中的一个或多个进行通信。网络105能够包括诸如互联、局域网、广域网、城域网或者其他域网、内联网、卫星网络的计算机网络以及诸如语音或者数据移动电话网络的其他通信网络。网络105能够被使用于访问信息资源，诸如网页、网站、域名或者能够在诸如膝上型计算机、桌面型计算机、平板型计算机、个人数字助理、智能电话、便携式计算机或者扬声器的至少一个计算设备104上呈现、输出、再现或者显示的统一资源定位符。例如，经由网络105，计算设备104的用户能够访问由服务提供者108或者内容提供者106提供的信息或者数据。计算设备104可以包括或者可以不包括显示器；例如，计算设备可以包括有限类型的用户接口，诸如麦克风和扬声器。在一些情况下，计算设备104的主用户接口可以是麦克风和扬声器。

网络105能够包括或者构成显示网络，例如，互联网上与内容放置或者搜索引擎结果系统相关联或者有资格包括第三方内容项作为内容项放置宣传活动(campaign)的一部分的可用信息资源的子集。网络105能够供数据处理系统102用来访问能够由客户端计算设备104呈现、输出、渲染或者显示的信息资源，诸如网页、网站、域名或者统一资源定位符。例如，经由网络105，客户端计算设备104的用户能够访问由内容提供者计算设备106或者服务提供者计算设备108提供的信息或者数据。

网络105可以是任何类型或者形式的网络并且可以下列任一网络：包括对等网络、广播网络、广域网络、局域网络、电信网络、数据通信网络、计算机网络、ATM(异步传输模式)网络、SONET(同步光学网络)网络、SDH(同步数字体系)网络、无线网络以及有线网络。网络105可以包括无线链路，诸如红外信道或者卫星频带。网络105的拓扑结构可以包括总线、星形或者环形网络拓扑结构。所述网络可以包括使用用于移动设备之间通信的任一协议或者任何协议的移动电话网络，所述协议包括高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电服务(“GPRS”)或者通用移动通信系统(“UMTS”)。可以经由不同的协议传输不同类型的数据，或者可以经由不同的协议传输相同类型的数据。

系统100能够包括至少一个数据处理系统102。数据处理系统102能够包括至少一个逻辑设备，诸如具有处理器的计算设备，以经由网络105例如与计算设备104、内容提供者设备106(内容提供者106)或者服务提供者设备108(或服务提供者108)进行通信。数据处理系统102能够包括具有至少一个计算资源、服务器、处理器或者存储器。例如，数据处理系统102能够包括位于至少一个数据中心中的多个计算资源或者服务器。数据处理系统102能够包括多个逻辑分组的服务器并且促进分布式计算技术。服务器的逻辑组可以被称为数据中心、服务器群或者机群(machine farm)。服务器也能够在地理上分散。数据中心或者机群可以作为单个实体来管理，或者所述机群能够包括多个机群。每个机群内的服务器能够是异构的服务器或机器中的一个或多个能够根据一种或多种类型的操作系统平台来操作。

机群中的服务器能够连同相关联的存储系统一起被存储在高密度机架系统中并且位于企业数据中心中。例如，通过这种方式统一服务器可以通过在本地化高性能网络上定位服务器和高性能存储系统来提高系统易管理性、数据安全性、系统的物理安全性和系统性能。将包括服务器和存储系统的数据处理系统102的全部或一些组件集中化并且将它们与先进的系统管理工具相耦合能够更有效地使用服务器资源，这会节省电力和处理需求并且减少带宽占用。

系统100能够包括、访问或以其他方式与至少一个服务提供者设备108相交互。服务提供者设备108能够包括至少一个逻辑设备，诸如具有处理器的计算设备，以经由网络105例如与计算设备104、数据处理系统102或者内容提供者106进行通信。服务提供者设备108能够包括至少一个计算资源、服务器、处理器或者存储器。例如，服务提供者设备108能够包括位于至少一个数据中心中的多个计算资源或者服务器。服务提供者设备108能够包括数据处理系统102的一个或多个组件或者功能。

内容提供者计算设备106能够提供基于音频的内容项，以供客户端计算设备104作为音频输出内容项显示。内容项能够包括对货物或者服务的报价，诸如基于语音的消息，该消息称：“Would you like me to order you a taxi(需要我帮您订辆出租车吗)？”例如，内容提供者计算设备155能够包括存储器，用以存储能够响应于基于语音的查询而提供的一系列音频内容项。内容提供者计算设备106还能够将基于音频的内容项(或者其他内容项)提供给数据处理系统102，在此能够将它们存储在数据存储库124中。数据处理系统102能够选择音频内容项并且将音频内容项提供给客户端计算设备104(或者指令内容提供者计算设备104来提供)。基于音频的内容项能够仅为音频或者能够与文本、图像或视频数据组合。

服务提供者设备108能够包括、接口连接或以其他方式与至少一个服务提供者自然语言处理器组件142和服务提供者接口144进行通信。服务提供者计算设备108能够包括至少一个服务提供者自然语言处理器(NLP)组件142以及至少一个服务提供者接口144。服务提供者NLP组件142(或者诸如服务提供者计算设备108的直接动作API的其他组件)能够与客户端计算设备104(经由数据处理系统102或者绕过数据处理系统102)接合，以创建客户端计算设备104与服务提供者计算设备108之间的来回实时基于语音或音频的对话(例如，会话)。服务提供者NLP 142能够包括作为数据处理系统102的NLP组件112的一个或多个功能或者特征。例如，服务提供者接口144能够向数据处理系统102的直接动作API 116接收或者提供数据消息。服务提供者计算设备108和内容提供者计算设备106能够与同一实体相关联。例如，内容提供者计算设备106能够为汽车共享服务创建、存储或者制作可用的内容项，并且服务提供者计算设备108能够与客户端计算设备106建立会话，以安排交付汽车共享服务的出租车或者汽车来接走客户端计算设备104的终端用户。经由直接动作API 116、NLP组件112或者其他组件，数据处理系统102还能够与客户端计算设备建立会话(包括或绕过服务提供者计算设备104)以例如安排交付汽车共享服务的出租车或者汽车。

计算设备104能够包括、接口连接或以其他方式与至少一个传感器134、换能器136、音频驱动器138或者预处理器140通信。传感器134能够例如包括环境光传感器、接近传感器、温度传感器、加速计、陀螺仪、运动检测器、GPS传感器、位置传感器、麦克风或者触摸传感器。换能器136能够包括扬声器或者麦克风。音频驱动器138能够向硬件换能器136提供软件接口。音频驱动器能够执行由数据处理系统102提供的音频文件或者其他指令，以控制换能器136产生对应的声波或者音波。预处理器140能够被配置成检测关键词并且基于该关键词执行动作。预处理器140能够在将词项发送到数据处理系统102以便进一步处理之前过滤一个或多个词项或者修改词项。预处理器140能够将由麦克风检测到的模拟音频信号转换成数字音频信号，并且经由网络105将承载数字音频信号的一个或多个数据分组传送到数据处理系统102。在一些情况下，响应于检测到执行这样的传输的指令，预处理器140能够传送承载输入音频信号中的一些或全部的数据分组。所述指令例如能够包括触发关键词或其他关键词或者同意将包括输入音频信号的数据分组传送到数据处理系统102。

客户端计算设备104能够与终端用户相关联，该终端用户将语音查询作为音频输入录入到客户端计算设备104(经由传感器134)，并且接收从换能器136(例如，扬声器)输出的能够从数据处理系统102(或者内容提供者计算设备106或者服务提供者计算设备108)向客户端计算设备104提供的计算机生成的语音形式的音频输出。计算机生成的语音能够包括来自真人的录音或者计算机生成的语言。

数据存储库124能够包括一个或多个本地数据库或者分布式数据库并且能够包括数据库管理系统。数据存储库124能够包括计算机数据存储区或者存储器并且能够存储一个或多个参数126、一个或多个策略128、内容数据130或者模板132以及其他数据。参数126、策略128和模板132能够包括诸如关于客户端计算设备104与数据处理系统102(或者服务提供者计算设备108)之间的基于语音的会话的规则的信息。内容数据130能够包括用于音频输出或者相关联的元数据的内容项以及能够作为与客户端计算设备104的一个或多个通信会话的一部分的输入音频消息。

数据处理系统102能够包括具有至少一个计算资源或者服务器的内容放置系统。数据处理系统102能够包括、接口连接或以其他方式与至少一个接口110进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个自然语言处理器组件112进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个会话处置器114进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个直接动作应用编程接口(“API”)116进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个内容选择器组件118进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个策略引擎120进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个音频信号生成器122进行通信。数据处理系统102能够包括、接口连接或以其他方式与至少一个数据存储库124进行通信。至少一个数据存储库124能够在一个或多个数据结构或者数据库中包括或者存储参数126、策略128、内容数据130或者模板132。参数126能够例如包括阈值、距离、时间间隔、持续时间、分值或者权重。内容数据130能够例如包括内容宣传活动信息、内容组、内容选择准则、内容项对象或者由内容提供者106提供或者由数据处理系统获得或确定以促进内容选择的其他信息。内容数据130能够例如包括内容宣传活动的历史表现。

接口110、自然语言处理器组件112、会话处置器114、直接动作API 116、内容选择器组件118、策略引擎120或者音频信号生成器组件122能够各自包括至少一个处理单元或者其他逻辑设备，诸如可编程逻辑阵列引擎或者配置成与数据存储库或数据库124进行通信的模块。接口110、自然语言处理器组件112、会话处置器114、直接动作API 116、内容选择器组件118、策略引擎120、音频信号生成器组件122和数据存储库124能够是单独的组件、单个组件或者数据处理系统102的一部分。系统100及其组件(诸如数据处理系统102)能够包括诸如一个或多个处理器、逻辑设备或者电路的硬件元素。

数据处理系统102能够获得与多个计算设备104相关联的匿名计算机网络活动信息。计算设备104的用户能够肯定地授权数据处理系统102获得对应于用户计算设备104的网络活动信息。例如，数据处理系统102能够提示计算设备104的用户同意获得一种或多种类型的网络活动信息。计算设备104的用户的身份能够保持匿名，并且计算设备104能够与唯一标识符相关联(例如，由数据处理系统或者计算设备的用户提供的用户或者计算设备的唯一标识符)。数据处理系统能够将每个观察结果与对应的唯一标识符相关联。

内容提供者106能够建立电子内容宣传活动。电子内容宣传活动能够作为内容数据130而被存储在数据存储库124中。电子内容宣传活动能够涉及对应于共同主题的一个或多个内容组。内容宣传活动能够包括分层数据结构，其包括内容组、内容项数据对象和内容选择准则。为了创建内容宣传活动，内容提供者106能够指定内容宣传活动的宣传活动级别参数的值。宣传活动级别参数能够例如包括宣传活动名称、用于放置内容项对象的偏好内容网络、用于内容宣传活动的资源价值、内容宣传活动的开始和结束日期、内容宣传活动的持续时间、内容项对象放置的排程、语言、地理位置、提供内容项对象的计算设备的类型。在一些情况下，闪现(impression)能够指何时从其源(例如，数据处理系统102或者内容提供者106)取得内容项对象并且可计数。在一些情况下，由于可能有点击欺诈，能够作为闪现的过滤和排除机器人活动。因此，在一些情况下，闪现能够指从Web服务器的对来自浏览器的页面请求的响应的测量，将过滤自机器人活动和错误代码并且记录在尽可能接近渲染内容项对象以便在计算设备104上显示的机会的位置。在一些情况下，闪现能够指可视或者可听的闪现；例如，内容项对象至少部分地(例如，20％、30％、30％、40％、50％、60％、70％或更多)在客户端计算设备104的显示设备上可视，或者经由计算设备104的扬声器136可听。点击或者选择能够指用户与内容项对象相交互，诸如对可听闪现、鼠标点击、触摸交互、手势、摇动、音频交互或者键盘点击的语音响应。转化(conversion)能够指用户针对内容项对象采取所需的动作；例如，购买产品或服务、完成调查、访问对应于内容项的实体商店或者完成电子交易。

内容提供者106能够进一步建立内容宣传活动的一个或多个内容组。内容组包括一个或多个内容项对象和对应的内容选择准则，诸如关键词、词语、词项、短语、地理位置、计算设备的类型、时刻、兴趣、题目或者纵向准则。相同内容宣传活动下的内容组能够共享相同的宣传活动级别参数，但针对特定内容组级别参数可能具有定制的规格，所述特定内容组级别参数诸如关键词、否定关键词(例如，在主要内容中存在否定关键词的情况下，阻止放置内容项)、针对关键词的竞价或者与竞价或内容宣传活动相关联的参数。

为了创建新的内容组，内容提供者能够提供内容组的内容组级别参数的值。内容组级别参数例如包括内容组名称或者内容组主题以及针对不同内容放置机会(例如，自动放置或者被管理放置)或者结果(例如，点击、闪现或者转化)的竞价。内容组名称或者内容组主题能够是内容提供者106能够用来捕获内容组中将被选择以供显示的内容项对象的题目或主题的一个或多个词项。例如，汽车经销商能够为其经营的每种车辆品牌创建不同的内容组，并且可以进一步为其经营的每种车型创建不同的内容组。例如，汽车经销商能够使用内容组主题的示例包括“Make A sports car(将A定为跑车)”、“Make B sports car(将B定为跑车)”、“Make C sedan(将C定为轿车)”、“Make C truck(将C定为卡车)”、“Make Chybrid(将C定为混合动力车)”或“Make Dhybrid(将D定为混合动力车)”。例如，示例的内容宣传活动主题能够是“hybrid(混合动力车)”并且包括“Make C hybrid(将C定为混合动力车)”以及“Make D hybrid(将D定为混合动力车)”的内容组。

内容提供者106能够向每个内容组提供一个或多个关键词和内容项对象。关键词能够包括与内容项对象相关联或者由内容项对象识别的产品或者服务相关的词项。关键词能够包含一个或多个词项或者短语。例如，汽车经销商能够包括“跑车”、“V6发动机”、“四轮驱动”、“燃油效率”，作为内容组或者内容宣传活动的关键词。在一些情况下，否定关键词能够由内容提供者指定，以避免、防止、阻止或者停用某些词项或者关键词的内容放置。内容提供者能够指定用于选择内容项对象的匹配类型，诸如精确匹配、短语匹配或者广泛匹配。

内容提供者106能够提供将供数据处理系统102用来选择由内容提供者106提供的内容项对象的一个或多个关键词。内容提供者106能够识别要竞价的一个或多个关键词，并且进一步提供各种关键词的竞价金额。内容提供者106能够提供附加内容选择准则，以供数据处理系统102用来选择内容项对象。多个内容提供者106能够对相同或不同的关键词竞价，并且数据处理系统102能够响应于接收电子消息的关键词的指示而运行内容选择过程或者广告拍卖。

内容提供者106能够提供一个或多个内容项对象以供数据处理系统102选择。数据处理系统102(例如，经由内容选择器组件118)能够在内容放置机会变得可用时选择与为内容组指定的资源分配、内容调度、最大竞价、关键词以及其他选择准则匹配的内容项对象。在内容组中能够包括不同类型的内容项对象，诸如语音内容项、音频内容项、文本内容项、图像内容项、视频内容项、多媒体内容项或者内容项链接。在选择内容项后，数据处理系统102能够传送用于在计算设备104或者计算设备104的显示设备上渲染的内容项对象。渲染能够包括在显示设备上显示内容项，或者经由计算设备104的扬声器播放内容项。数据处理系统102能够向计算设备104提供用来渲染内容项对象的指令。数据处理系统102能够指令计算设备104或者计算设备104的音频驱动器138生成音频信号或者声波。

数据处理系统102能够包括例如使用数据分组来设计、配置、构造或者操作以接收和传送信息的接口组件110。接口110能够使用诸如网络协议的一个或多个协议来接收和传送信息。接口110能够包括硬件接口、软件接口、有线接口或者无线接口。接口110能够有助于将数据从一种格式翻译或者格式化成另一种格式。例如，接口110能够包括应用编程接口，其包括用于诸如软件组件的各种组件之间通信的定义。

数据处理系统102能够包括安装在客户端计算设备104处的应用、脚本或者程序，诸如app，用以将输入音频信号通信到数据处理系统102的接口110并且驱动客户端计算设备的组件渲染输出音频信号。数据处理系统102能够接收包括或者识别音频输入信号的数据分组或者其他信号。例如，数据处理系统102能够执行或者运行NLP组件112，以接收或者获得音频信号并且解析该音频信号。例如，NLP组件112能够提供人与计算机之间的交互。NLP组件112能够配置有用于理解自然语言并且允许数据处理系统102从人或者自然语言输入中推导含义的技术。NLP组件112能够包括或者配置有基于机器学习的技术，诸如统计机器学习。NLP组件112能够利用决策树、统计模型或者概率模型来解析输入音频信号。NLP组件112能够例如执行诸如命名实体识别(例如，给定文本流，确定文本中哪些项映射到诸如人物或地点的专有名称以及每个这样的名称为哪种类型，诸如人、地点或组织)、自然语言生成(例如，将信息从计算机数据库或者语义意图转化成可理解的人类语言)、自然语言理解(例如，将文本转化成更正式的表示，诸如计算机模块能够操纵的一阶逻辑结构)、机器翻译(例如，将文本从一种人类语言自动翻译成另一种)、语素切分(例如，将词语分成各个语素并且识别语素的类别，基于考虑中的语言的词语的语素或结构复杂性，这会富有挑战性)、问答(例如，确定对人类语言问题的答案，其能够是特定答案或者开放式答案)、语义处理(例如，在识别词语并且将其含义编码之后可能发生的处理，以便将所识别的词语与具有相似含义的其他词语相关联)的功能。

NLP组件112通过将输入信号与所存储的代表性音频波形集合(例如，在数据存储库124中)进行比较并且选取最匹配的那些而将音频输入信号转化成辨别的文本。音频波形集合能够被存储在数据存储库124或者数据处理系统102可访问的其他数据库中。代表性波形是在大量用户之间生成并且能够再用来自用户的话音(speech)采样来增强。在音频信号被转化成辨识的文本之后，NLP组件112将文本与例如经由在用户之间或者通过手册训练而与数据处理系统102能够派发的动作相关联的词语进行匹配。

音频输入信号能够由客户端计算设备104的传感器134或者换能器136(例如，麦克风)来检测。经由换能器136、音频驱动器138或者其他组件，客户端计算设备104能够将音频输入信号提供给数据处理系统102(例如，经由网络105)，在此该音频输入信号能够被接收(例如，通过接口110)并且被提供给NLP组件112或者被存储在数据存储库124中。

NLP组件112能够获得输入音频信号。从输入音频信号中，NLP组件112能够识别至少一个请求或者对应于该请求的至少一个触发关键词。请求能够指示输入音频信号的意图或者主题。触发关键词能够指示可能采取的动作的类型。例如，NLP组件112能够解析输入音频信号以识别晚上离开家去参加晚餐和电影的至少一个请求。触发关键词能够包括至少一个词语、短语、词根或部分词或者指示要采取的动作的派生词。例如，输入音频信号中的关键词“go(去)”或者“to go to(要去)”能够指示需要交通。在本示例中，输入音频信号(或者所识别的请求)并未直接表达对交通的意图，然而触发关键词指示交通是对由请求指示的至少一个其他动作的辅助动作。

NLP组件112能够解析输入音频信号以识别、确定、检索或以其他方式获得请求和触发关键词。譬如，NLP组件112能够对输入音频信号应用语义处理技术以识别触发关键词或者请求。NLP组件112能够对输入音频信号应用语义处理技术以识别触发短语，其包括一个或多个触发关键词，诸如第一触发关键词和第二触发关键词。例如，输入音频信号能够包括语句“I need someone to do my laundry and my drycleaning(我需要某人为我洗衣和干洗)”。NLP组件112能够对包括该语句的数据分组应用语义处理技术或者其他自然语言处理技术，以识别触发短语“do my laundry(为我洗衣)”和“do my dry cleaning(为我干洗)”。NLP组件112能够进一步识别多个触发关键词，诸如洗衣和干洗。例如，NLP组件112能够确定触发短语包括触发关键词和第二触发关键词。

NLP组件112能够过滤输入音频信号以识别触发关键词。例如，承载输入音频信号的数据分组能够包括“It would be great if I could get someone that could helpme go to the airport(如果有人能帮我去机场就太棒了)”，在这种情况下，NLP组件112能够滤除如下的一个或多个词项：“it”、“would”、“be”、“great”、“if”、“I”、“could”、“get”、“someone”、“that”、“could”或者“help”。通过滤除这些词项，NLP组件112可以更准确且可靠地识别诸如“go to the airport(去机场)”的触发关键词，并且确定这是对出租车或者乘车共享服务的请求。

在一些情况下，NLP组件能够确定承载输入音频信号的数据分组包括一个或多个请求。例如，输入音频信号能够包括语句“I need someone to do my laundry and my drycleaning(我需要某人为我洗衣和干洗)”。NLP组件112能够确定这是对洗衣服务和干洗服务的请求。NLP组件112能够确定这是对能够提供洗衣服务和干洗服务二者的服务提供者的单个请求。NLP组件112能够确定这是两个请求；对执行洗衣服务的服务提供者的第一请求，以及对提供干洗服务的服务提供者的第二请求。在一些情况下，NLP组件112能够将多个确定的请求组合成单个请求，并且将该单个请求传送到服务提供者设备108。在一些情况下，NLP组件112能够将各个请求传送到相应的服务提供者设备108，或者将两个请求分别传送到相同的服务提供者设备108。

数据处理系统102能够包括设计和构造成基于触发关键词生成响应于请求的第一动作数据结构的直接动作API 116。数据处理系统102的处理器能够调用直接动作API 116来执行生成数据结构的脚本，以向服务提供者设备108请求或者预订服务或者产品，诸如汽车共享服务中的汽车。直接动作API 116能够从数据存储库124获得数据以及从客户端计算设备104获得终端用户同意接收的数据，以确定位置、时间、用户账户、逻辑或者其他信息，以允许服务提供者设备108执行操作，诸如从汽车共享服务中的预约汽车。使用直接动作API 116，数据处理系统102还能够与服务提供者设备108进行通信，以完成转化，在该示例中是进行汽车共享接取预约。

直接动作API 116能够从NLP组件112或者数据处理系统102的其他组件接收指令或者命令，以生成或者构造第一动作数据结构。直接动作API 116能够确定动作的类型，以便从数据存储库124中所存储的模板存储库132中选择模板。动作的类型能够例如包括服务、产品、预约或者票务。动作的类型能够进一步包括服务或者产品的类型。例如，服务的类型能够包括汽车共享服务、送餐服务、洗衣服务、帮佣服务、维修服务或者家政服务。产品的类型能够例如包括衣服、鞋、玩具、电子产品、计算机、书籍或者首饰。预约的类型能够例如包括晚餐预约或者美发沙龙预约。票务的类型能够例如包括电影票、体育场馆门票或者机票。在一些情况下，服务、产品、预约或者票务的类型能够根据价格、位置、运输类型、可用性或者其他属性来分类。

直接动作API 116能够执行由数据处理系统102确定的指定动作来满足终端用户的意图。根据在其输入中指定的动作，直接动作API116能够执行代码或者对话脚本，其识别满足用户请求所需的参数。这样的代码能够例如在数据存储库124中查找附加信息，诸如家庭自动化服务的名称，或者其能够提供用于在客户端计算设备104处渲染的音频输出，以向终端用户询问问题，诸如所请求的出租车的预期目的地。直接动作API 116能够确定必要的参数并且能够将信息封装成动作数据结构，所述动作数据结构能够再被传送到诸如内容选择器组件118的另一个组件或者待满足的服务提供者计算设备108。

直接动作API 116在识别请求的类型后能够从模板存储库132中访问对应的模板。模板能够包括能够由直接动作API 116填充的结构化数据集中的字段，以促进服务提供者设备108所请求的操作(诸如派送出租车在接人位置接取终端用户并且将终端用户送到目的地位置的操作)。字段能够填充有数值、字符串、Unicode值、布尔逻辑、二进制值、十六进制值、标识符、位置坐标、地理区域、时间戳或者其他值。字段或者数据结构本身能够被加密或者掩码以保持数据安全性。

直接动作API 116能够对模板存储库132执行查找或者其他查询操作，以选择与触发关键词和请求的一个或多个特性相匹配的模板。例如，如果请求对应于汽车或者乘车到目的地的请求，则数据处理系统102能够选择汽车共享服务模板。汽车共享服务模板能够包括以下字段中的一个或多个：设备标识符、接人位置、目的地位置、乘客人数或者服务类型。直接动作API 116能够用值填充字段。为了用值填充字段，直接动作API 116能够查验(ping)、轮询或以其他方式获得来自计算设备104的一个或多个传感器134或者设备104的用户界面的信息。例如，直接动作API 116能够使用诸如GPS传感器的位置传感器来检测源位置。直接动作API 116能够通过向计算设备104的用户终端提交调查、提示或者查询来获得进一步的信息。直接动作API能够经由数据处理系统102的接口110和计算设备104的用户界面(例如，音频接口、基于语音的用户界面、显示器或者触摸屏)来提交调查、提示或者查询。因此，直接动作API 116能够基于触发关键词或者请求来选择用于第一动作数据结构的模板，利用由一个或多个传感器134检测的信息或者经由用户界面获得的信息来填充模板中的一个或多个字段，并且生成、创建或以其他方式构造第一动作数据结构以便于由服务提供者设备108执行操作。

所述数据处理系统102能够包括、执行或以其他方式与内容选择器组件118进行通信，以接收由自然语言处理器识别的触发关键词，并且基于触发关键词，经由实时内容选择过程来选择内容项。内容选择过程能够涉及或者包括选择由第三方内容提供者106提供的赞助内容项对象。实时内容选择过程能够包括解析、处理、加权或者匹配由多个内容提供者提供的内容项以便选择一个或多个内容项提供给计算设备104的服务。内容选择器组件118能够实时执行内容选择过程。实时执行内容选择过程能够指响应于对经由客户端计算设备104接收的内容的请求而执行内容选择过程。能够在接收请求的时间间隔(例如，5秒、10秒、20秒、30秒、1分钟、2分钟、3分钟、5分钟、10分钟或者20分钟)内执行实时内容选择过程(例如，启动或者完成)。能够在与客户端计算设备104的通信会话期间或者在终止通信会话之后的时间间隔内执行实时内容选择过程。

例如，数据处理系统102能够包括设计、构造、配置或者操作成选择内容项对象的内容选择器组件118。为了选择用于在基于语音的环境中显示的内容项，数据处理系统102(例如，经由NLP组件112)能够解析输入音频信号以识别关键词(例如，触发关键词)，并且使用该关键词基于广泛匹配、精确匹配或者短语匹配来选择匹配的内容项。例如，内容选择器组件118能够分析、解析或以其他方式处理候选内容项的主题，以确定候选内容项的主题是否对应于由客户端计算设备104的麦克风所检测到的输入音频信号的关键词或者短语的主题。内容选择器组件118可以使用图像处理技术、字符识别技术、自然语言处理技术或者数据库查找来识别、分析或者辨识候选内容项的语音、音频、词项、字符、文本、符号或者图像。候选内容项可以包括指示候选内容项的主题的元数据，在这种情况下，内容选择器组件118可以处理元数据，以确定候选内容项的主题是否对应于输入音频信号。

当设立包括内容项的内容宣传活动时，内容提供者106可以提供附加指示符。内容提供者可以通过使用关于候选内容项的信息来执行查找，以内容选择器组件118可以识别的内容宣传活动或者内容组级别提供信息。例如，候选内容项可以包括可以映射到内容组、内容宣传活动或者内容提供者的唯一标识符。内容选择器组件118可以基于数据存储库124中的内容宣传活动数据结构中所存储的信息来确定关于内容提供者106的信息。

数据处理系统102能够经由计算机网络接收对用于在计算设备104上渲染的内容的请求。数据处理系统102能够通过处理由客户端计算设备104的麦克风检测到的输入音频信号而识别请求。请求能够包括请求的选择准则，诸如设备类型、位置和与请求相关联的关键词。

响应于请求，数据处理系统102能够从数据存储库124或者与内容提供者106相关联的数据库中选择内容项对象，并且经由网络105提供用于经由计算设备104呈现的内容项。计算设备104能够与内容项对象相交互。计算设备104能够接收对内容项的音频响应。计算设备104能够接收选择与内容项对象相关联的超链接或者其他按钮的指示，其促使或者允许计算设备104识别服务提供者108、从服务提供者108请求服务、指令服务提供者108执行服务、向服务提供者108传送信息或者以其他方式查询服务提供者设备108。

数据处理系统102能够包括、执行或者与音频信号生成器组件122通信以生成输出信号。输出信号能够包括一个或多个部分。例如，输出信号能够包括第一部分和第二部分。输出信号的第一部分能够对应于第一动作数据结构。输出信号的第二部分能够对应于在实时内容选择过程期间由内容选择器组件118选择的内容项。

音频信号生成器组件122能够生成具有其第一部分对应于第一数据结构的声音的输出信号。例如，音频信号生成器组件122能够基于通过直接动作API 116填充到第一动作数据结构的字段中的一个或多个值来生成输出信号的第一部分。在出租车服务的示例中，字段的值能够例如包括接人位置主街123号、目的地位置主街1234号、乘客人数2人和服务水平经济。音频信号生成器组件122能够生成输出信号的第一部分，以便确认计算设备104的终端用户想要继续向服务提供者108传送请求。第一部分能够包括以下输出：“Would youlike to order an economy car from taxi service provider A to pick two peopleup at 123Main Street and drop off at 1234Main Street？(你想从出租车服务提供者A预订经济型汽车在主街123号接两个人并在主街1234号下车吗？)”。

在一些情况下，第一部分能够包括从服务提供者设备108接收的信息。从服务提供者设备108接收的信息能够针对第一动作数据结构而被订制或者定制。例如，数据处理系统102(例如，经由直接动作API116)能够在指令服务提供者108执行操作之前将第一动作数据结构传送到服务提供者108。作为替代，数据处理系统102能够指令服务提供者设备108对第一动作数据结构执行初始或初步处理以生成关于操作的初步信息。在出租车服务的示例中，对第一动作数据结构的初步处理能够包括识别位于接人位置周围的满足服务水平要求的可用出租车、估计最近的可用出租车到达接人位置的时间量、估计到达目的地的时间以及估计出租车服务的价格。所估计的初步值可以包括固定值、基于各种条件发生变化的估计值或者值范围。服务提供者设备108能够经由网络104将初步信息返回给数据处理系统102或者直接返回给客户端计算设备104。数据处理系统102能够将来自服务提供者设备108的初步结果并入输出信号，并且将输出信号传送到计算设备104。输出信号能够例如包括“Taxi Service Company A can pick you up at 123Main Street in 10minutes,anddrop you off at 1234Main Street by 9AM for$10.Do you want to order this ride？(出租车服务公司A能够10分钟内在主街123号接您并且在上午9点前将您送到主街1234号，车费10美元。你想预订该乘车吗？)”。这能够形成输出信号的第一部分。

在一些情况下，数据处理系统102能够形成输出信号的第二部分。输出信号的第二部分能够包括在实时内容选择过程期间由内容选择器组件118选择的内容项。第一部分能够与第二部分不同。例如，第一部分能够包括对应于第一动作数据结构的信息，其直接响应于承载由客户端计算装置104的传感器134检测到的输入音频信号的数据分组，而第二部分能够包括由内容选择器组件104选择的内容项，其能够与第一动作数据结构密切相关，或者第二部分能够包括由内容提供者设备106提供的赞助内容。例如，计算设备104的终端用户能够请求来自出租车服务公司A的出租车。数据处理系统102能够生成输出信号的第一部分，以包括关于来自出租车服务公司A的出租车的信息。然而，数据处理系统102能够生成输出信号的第二部分，以包括基于关键词“出租车服务”所选择的内容项以及终端用户可能感兴趣的第一动作数据结构中所包含的信息。例如，第二部分能够包括由诸如出租车服务公司B的不同出租车服务公司提供的内容项或者信息。虽然用户可能未具体请求出租车服务公司B，但数据处理系统102可以提供来自出租车服务公司B的内容项，因为用户可以选择与出租车服务公司B执行操作。

数据处理系统102能够将来自第一动作数据结构的信息传送到出租车服务公司B，以确定接人时间、到达目的地的时间和乘车价格。数据处理系统102能够接收该信息并且生成如下输出信号的第二部分：“Taxi Service Company B can pick you up at 123MainStreet in 2minutes,and drop you off at 1234Main Street by 8:52AM for$15.Doyou want this ride instead？(出租车公司B能够2分钟内在主街123号接您并且在上午8点52分前将你送到主街1234号，车费15美元。您想换成该乘车吗？)”。然后，计算设备104的终端用户能够选择由出租车服务公司A提供的乘车或者由出租车服务公司B提供的乘车。

在输出信号的第二部分中提供对应于由出租车服务公司B提供的服务的赞助内容项之前，数据处理系统102能够向终端用户计算设备通知第二部分对应于在实时内容选择过程期间(例如，由内容选择器组件118)所选择的内容项对象。然而，数据处理系统102能够受限地访问不同类型的接口以向计算设备104的最终用户提供通知。例如，计算设备104可以不包括显示设备，或者显示设备可以被禁用或者关闭。计算设备104的显示设备可能消耗比计算设备104的扬声器更多的资源，因此与使用计算设备104的扬声器来传达通知相比，打开计算设备104的显示设备可能效率更低。因此，在一些情况下，数据处理系统102能够提高通过一个或多个接口或者一种或多种类型的计算机网络进行信息传输的效率和有效性。例如，数据处理系统102(例如，经由音频信号生成器组件122)能够将输出音频信号包括内容项的部分模块化，以向终端用户提供输出信号的该部分包括赞助内容项的指示或通知。

音频信号生成器组件122能够使用一个或多个音频调制技术来生成输出信号。音频调制技术能够例如包括频移、幅移、音频叠加或者音频水印。在一些情况下，音频调制技术能够包括应用调制或者更改原始输出信号的一部分，或者不更改或调制原始音频信号(例如，不存在对原始输出信号的一部分的更改或调制)。

数据处理系统102能够利用第一音频调制生成输出信号的第一部分。数据处理系统102能够利用第二音频调制生成输出信号的第二部分。第一音频调制能够与第二音频调制不同，以便指示输出信号的第一部分与输出信号的第二部分是不同的类型。例如，输出信号的第一部分的第一音频调制能够指示第一部分是有机结果或者对终端用户的输入音频信号的直接响应。输出信号的第二部分的第二音频调制能够指示第二部分是在实时内容选择过程期间由内容选择器选择的赞助内容项。

第一音频调制能够包括默认音频调制。在一些情况下，默认音频调制能够指不调制声音。例如，默认调制能够指零频移、无音高移位、无幅度变化或者无音频水印。在一些情况下，第一部分能够通过减小或增大音高、频率、音调、幅度(例如，音量)或者应用音频水印来调制。

音频信号生成器组件122能够通过移位输出信号的至少一部分部分的频率调制输出信号的该部分。音频信号生成器组件122能够增大或者减小输出信号的该部分的频率。与原始输出信号相比，音频信号生成器组件122能够增大输出信号的频率以生成具有较高频率、音调或者音高的结果输出信号。与原始输出信号相比，音频信号生成器组件122能够减小输出信号的频率以产生具有较低频率、音调或者音高的结果输出信号。音频信号生成器组件能够调节输出信号的低音或者高音。

音频信号生成器组件122能够包括混合器或者混频器。混合器能够指由向其施加的两个信号创建新频率的非线性电路。例如，频率f1和f2的两个信号能够被施加到混合器，并且混合器能够产生原始频率的和f1+f2与差f1-f2的新信号，这被称为外差法。

音频信号生成器组件122能够包括音高移位器、变调器或者自动校音器，其能够提高或者降低输出信号的至少一部分中所记录的声音的音高。音高移位器能够指以预设或预定间隔提高或降低音频信号的音高的音效单元。例如，设置成将音高提高到第四度的音高移位器能够将每个音符提高实际播放的音符上的三个全音程。音高移位器能够将音高提高或降低一个或两个八度，或者音程范围交替变化。音高移位器能够包括将“移位的”音高与原始音高组合以创建两个或两个以上音符和声的和声器。

在一些情况下，输出信号能够包括数字记录。音频信号生成器组件122能够通过数字信号处理对数字记录执行音高移位。音频信号生成器122能够在后期制作中或者实时移位音高值。例如，音频信号生成器组件122能够生成具有音高移位部分的输出信号，并且将包括具有音高移位值的输出信号的数据分组传送到客户端计算设备104以便行播放。在一些情况下，音频信号生成器组件122能够将具有指令的输出信号传送到客户端计算设备104，以在播放期间实时移位音高值。客户端计算设备104能够接收在有效载荷中承载输出信号的数据分组以及上下移位音高值和移位音高量的指令。客户端计算设备104能够从数据处理系统102(例如，经由网络105)接收输出信号和音高指令。当客户端计算设备102的扬声器(例如，136)播放声音时，客户端计算设备104(例如，经由音频驱动器138)能够移位输出信号的一部分的频率。

音频信号生成器组件122能够包括放大器，用以增加输出的幅度。音频信号生成器组件122能够应用数字信号处理技术来增加输出信号的至少一部分的幅度。音频信号生成器组件122能够向音频驱动器138传送增加由换能器136或者扬声器生成的声音的至少一部分的幅度的指令。音频信号生成器组件122能够生成包括对输出信号的一个或多个部分的一种或多种类型的调制的音频文件。

音频信号生成器组件122能够将音频水印应用于输出信号的至少一部分。音频水印能够指以难以移除的方式将信息嵌入信号(例如，音频信号)的过程。例如，能够跨频谱应用水印，使得移除水印会使原始音频信号失真到原始音频信号不理想或不合适的程度。如果信号被复制，则副本中也携带该信息。音频水印能够包括标识符、唯一标识符或者难以移除的其他信号或信息。在一些情况下，能够跨输出信号的频谱应用音频水印。音频水印能够包括听觉频率范围内的信号(例如，20Hz至20000Hz)。

音频信号生成器组件122能够对输出信号的至少一部分应用音频叠加。音频叠加能够包括音调、音符、短语、器乐、节拍或者其他音频叠加。音频叠加能够具有与输出信号的一部分相同或不同的幅度。例如，音频叠加能够被计算设备104的终端用户感知为背景音频或者背景声音。音频叠加能够包括诸如“This content item provided by contentprovider(该内容项由内容提供者提供)”的语句。

因此，通过调制输出对应于内容项的一部分，数据处理系统102(例如，经由音频信号生成器组件122)能够经由音频接口有效地传送关于内容项的附加信息。原始内容项能够被调制。原始内容项可以不包括内容项对应于赞助内容项的指示或者听觉指示。数据处理系统102能够调制对应于内容项的部分，因为原始内容项可能不包括这样的通知或者指示。调制原始内容项可能更加有效，或者是对将附加音频片段添加到听觉内容项的改进，那样会需要额外的数据传输，占用额外的扬声器资源和电池资源、额外的处理资源，以及以其他方式占用比原始听觉内容项更大的时间间隔。

数据处理系统102(例如，经由接口110和网络105)能够传送包括由音频信号生成器组件122生成的输出信号的数据分组。输出信号能够使得由客户端设备104的音频驱动器组件138或者由其执行的音频驱动器组件138驱动客户端设备104的扬声器(例如，换能器136)以生成对应于输出信号的声波。

数据处理系统102能够包括、访问、执行或以其他方式与策略引擎组件120进行通信，以基于经由实时内容选择过程所选择的内容项来确定指令音频信号生成器组件122对输出信号的至少一部分应用调制。策略引擎组件120能够例如确定对输出信号的第二部分应用调制，并且不调制输出信号的第一部分。策略引擎组件120能够例如确定对输出信号的第一部分应用第一调制，以及对输出信号的第二部分应用与第一调制不同的第二调制。

策略引擎组件120能够包括或者利用一个或多个规则、决策树、启发技术或者机器学习技术来确定调制输出信号的一部分以及调制的类型。例如，策略引擎组件120能够利用指令对对应于内容项的输出信号的一部分应用调制，而不调制对应于第一动作数据结构的输出信号的一部分的规则。策略引擎组件120能够利用指令对包括或者对应于第一动作数据结构的输出信号的第一部分应用第一调制以及对包括或者对应于在实时内容选择过程期间由内容选择器组件118选择的内容项对象的输出信号的第二部分应用第二调制的规则。

策略引擎组件120能够包括或者利用一个或多个规则。规则能够在数据存储库124中存储于策略数据结构128中。规则能够包括if/then语句、条件语句、事件驱动规则、基于位置的规则或者布尔逻辑。规则能够例如包括：如果该部分对应于由内容项提供者设备106提供的内容项，则调制该部分；如果该部分对应于内容项并且该内容项先前未曾被提供给计算设备104，则调制该部分；如果该部分对应于内容项并且该内容项在一定时间间隔内(例如，最近10分钟、最近30分钟、最近1小时、最近2小时、最近4小时、最近8小时、最近24小时、最近72小时或者更长时间)先前未曾被提供给计算设备104，则调制该部分；如果该部分对应于内容项并且该内容项在通信会话(例如，由会话处置器114确定的对话会话)期间先前未曾被提供给计算设备104，则调制该部分；如果计算设备104位于当前位置或者其他预定位置的同时该部分先前未曾被呈现给计算设备104，则调制该部分；或者如果在一定时间间隔期间，计算设备104位于当前位置或者其他预定位置的同时该部分先前未曾被呈现给计算设备104，则调制该部分。

例如，如果计算设备104位于主街123号并且接收利用第二调制来调制的输出信号的第二部分以指示其对应于在实时内容选择过程期间由内容选择器组件118选择的内容项对象，则如果计算设备104位于与将内容项呈现给计算设备104的前一时间时的相同位置并且处于先前将内容项呈现给计算设备104的15分钟内该第二部分正被提供给计算设备104，则策略引擎组件120能够基于从数据储存库124中所存储的策略数据结构128中所选择或者检索的规则来确定不应用第二调制。

数据处理系统102能够包括、执行、访问或以其他方式与会话处置器组件114进行通信以在客户端设备104与数据处理系统102之间建立通信会话。通信会话能够指客户端设备104与数据处理系统102之间的一个或多个数据传输，其包括由客户端设备104的传感器134检测到的输入音频信号以及由数据处理系统102传送到客户端设备104的输出信号。数据处理系统102(例如，经由会话处置器组件114)能够响应于接收到输入音频信号而建立通信会话。会话处置器114能够向通信会话分配唯一标识符。例如，数据处理系统能够基于从多个值形成的元组来生成通信会话的唯一标识符，诸如对应于建立通信会话时的时间戳、通信会话的唯一标识符、通信会话的时间和日期戳以及服务提供者设备的标识符。数据处理系统102能够设置通信会话的持续时间。针对通信会话的持续时间设置，数据处理系统102能够设置定时器或者计数器。响应于定时器到期，数据处理系统102能够终止通信会话。

通信会话能够指基于网络的通信会话，其中客户端设备104提供认证信息或者凭证来建立会话。在一些情况下，通信会话是指会话期间由数据分组承载的音频信号的主题或者上下文。例如，第一通信会话能够指客户端设备104与数据处理系统102之间传输的有关出租车服务(例如，包括关键词、第一动作数据结构或者内容项对象)的音频信号；并且第二通信会话能够指与客户端设备104与数据处理系统102之间传输的有关洗衣和干洗服务的音频信号。在本示例中，数据处理系统102能够确定音频信号的上下文不同(例如，经由NLP组件112)，并且将两组音频信号分成不同的通信会话。响应于识别有关干洗和洗衣服务的一个或多个音频信号，会话处置器114能够终止有关乘车服务的第一会话。因此，响应于检测到音频信号的上下文，数据处理系统102能够启动或者建立有关干洗和洗衣服务的音频信号的第二会话。

会话处置器114能够检测通信会话中出现的第一类型的网络活动(例如，出租车服务)到第二类型的网络活动(例如，洗衣服务)的转换。会话处置器114能够响应于转换而终止通信会话。会话处置器114能够在客户端设备与数据处理系统之间建立第二通信会话。第二通信会话能够包括第二类型的网络活动(例如，洗衣服务)和第二输入音频信号(例如，对洗衣服务的请求)。

会话处置器114能够使用参数数据结构126中所存储的参数或者策略数据结构128中所存储的策略来启动、建立或者终止通信会话。参数能够例如包括客户端设备104与数据处理系统102之间的时间间隔、位置边界、距离、相关性分值、语义矢量距离、音频信号的数目或者来回通信，数据处理系统102与客户端设备104之间传输的数个词语，或者数据处理系统102与客户端设备104之间传输的数个语句或者查询。策略能够例如包括响应于能够基于参数来设置的条件、事件或者触发来终止通信会话。例如，策略能够包括当建立通信会话时响应于客户端设备104离开基于位置的边界而终止通信会话，该边界被定义为用户位置周围100米。

虽然与除内容项之外还提供附加音频或者视频通知相比，调制对应于内容项对象的输出信号的部分能够减少资源消耗，数据处理系统102(例如，经由策略引擎组件120和会话处置器组件114)能够通过在经由实时内容选择过程所选择的内容项在通信会话期间先前曾被呈现给客户端设备的情况下确定不调整对应于内容项的输出信号的部分而进一步减少资源消耗。由于内容项在相同的通信会话期间先前被呈现，数据处理系统102能够确定不必经由调制提供相同的指示并且放弃调制，由此避免音频信号生成器组件122消耗资源来应用调制技术(例如，音高移位、幅度变化、音频叠加或者音频水印)。

然而，如果数据处理系统102确定内容项在通信会话期间先前未曾被提供给客户端设备104，则数据处理系统102能够响应于内容项在通信会话期间先前未曾被提供而指令音频信号生成器组件122利用与第一音频调制不同的第二音频调制生成输出信号的第二部分。

在一些情况下，通信会话能够包括由客户端计算设备104的麦克风检测到的多个输入音频信号。内容选择器组件118能够基于第二输入音频信号来选择第二内容项。数据处理系统102(例如，经由策略引擎组件120)能够确定是否对对应于第二内容项的输出信号的一部分应用调制技术。例如，策略引擎120能够确定第二内容项与在通信会话期间先前为客户端设备选择和提供的一个或多个内容项不同。如果内容项是针对不同的服务或者产品或者由不同的内容提供者设备106提供，则其能够不同。由于第二内容项与第一内容项不同，数据处理系统102能够通过调制对应于第二内容项的音频输出而确定提供指示。如果第二内容项匹配或者类似于先前在通信会话期间提供的内容(例如，针对相同的服务或者产品或者由相同的内容提供者设备108提供的内容)，则为了减少资源消耗，数据处理系统102可以不调制输出。

在第二内容项与在通信会话期间先前呈现的内容项中的一些或者全部不同的情况下，数据处理系统102能够指令音频信号生成器组件122生成第二输出信号，其包括对应于由内容选择器组件选择的第二内容项的第三部分。音频信号生成器组件122能够生成利用用于生成对应于第一内容项的输出信号的第二部分的相同调制或者不同调制所生成的第三部分。

在一些情况下，数据处理系统102能够确定第二内容项对应于在通信会话期间先前所选择的至少一个内容项，并且响应于在通信会话期间先前所提供的一个或多个内容项而指令音频信号生成器组件122生成输出信号，所述输出信号包括对应于第二内容项并且利用用在对应于数据结构的第一部分上的第一音频调制所生成的部分。例如，在这种情况下，数据处理系统102能够确定不区分第二内容项与对应于数据结构的第一部分，因此，应用相同的调制技术或者默认调制技术(例如，无调制)。

在一些情况下，数据处理系统能够将通信会话标记或者标志为包含赞助内容项。继将通信会话标志为包含至少一个赞助内容项之后，数据处理系统能够确定调制在标志的通信会话期间所提供的一些或者全部输出信号。数据处理系统能够基于时间间隔或者响应于数据处理系统提供有机结果或者非赞助项而撤销标志通信会话。数据处理系统能够基于通信会话的上下文中的变化来撤销标志通信会话。一旦通信已被撤销标志，数据处理系统便能够停止调制输出音频信号。数据处理系统能够调制对应于单个赞助内容项或者多个赞助内容项的音频信号。

图2是调制分组化音频信号的系统100的图示。所述系统能够包括图1中所描绘的系统100的一个或多个组件。在205，客户端计算设备104能够传送承载由计算设备104的麦克风或者其他传感器检测到的输入音频信号的数据分组。客户端计算设备104能够将输入音频信号传送到数据处理系统102。数据处理系统102能够与服务提供者设备108和内容提供者设备106进行通信或以其他方式相接口连接，以在210生成输出信号的第一部分并且在215生成输出信号的第二部分。响应于输入音频信号，输出信号的第一部分能够对应于第一动作数据结构。输出信号的第一部分能够包括信息或以其他方式与服务提供者设备108相关联。例如，输出信号的第一部分能够包括用于确认输入音频信号中的请求的查询。输出信号的第二部分能够包括由内容提供者设备106提供的内容项对象。在基于在205接收到的输入音频信号的一个或多个关键词的实时内容选择过程期间，能够由数据处理系统102选择内容项对象。在220，数据处理系统102能够进一步对输出信号的第一部分应用第一音频调制，并且在225，对输出信号的第二部分应用第二音频调制。在230和235，数据处理系统102能够将利用第一调制的输出信号的第一部分与利用第二调制的输出信号的第二部分合并、组合、拼接或以其他方式并置成经调制的输出信号(其能够被称为输出信号)。数据处理系统102能够生成具有第一部分和第二部分的音频文件，以便传输到客户端计算设备104。数据处理系统102能够将经调制的输出信号流送到客户端计算设备104，以使客户端计算设备104播放输出信号。

图3是调制分组化音频信号的系统100的图示。所述系统能够包括图1中所描绘的系统100的一个或多个组件。在305，客户端计算设备104能够向数据处理系统102传送第一输入音频信号。能够由客户端计算设备104的麦克风检测第一输入音频信号。数据处理系统102能够响应于接收到第一输入音频信号而建立第一通信会话325。在310，数据处理系统102能够与服务提供者设备108和内容提供者设备106进行通信，以生成第一输出信号。第一输出信号能够包括利用第一调制的第一部分，其对应于提供响应于输入音频信号的服务的服务提供者108。第一输出信号能够包括利用第二音频调制的第二部分，其对应于由内容提供者设备106提供以及在实时内容选择过程期间由数据处理系统102选择的内容项对象。数据处理系统102能够经由网络向客户端计算设备104传送第一输出信号。

在315，数据处理系统102能够从客户端计算设备104接收第二输入音频信号。数据处理系统104能够解析第二输入音频信号并且确定第二输入音频信号属于第一通信会话325。例如，数据处理系统102的会话处置器能够确定保持第一通信会话或者不终止第一通信会话。在320，数据处理系统102能够与服务提供者设备108和内容提供者设备106相交互，以生成第二输出信号。第二输出信号能够包括利用第一音频调制的第三部分。第三部分能够对应于服务提供者设备108。第二输出信号能够包括利用第一音频调制的第四部分。第四部分能够对应于由内容提供者设备106提供的内容项对象。数据处理系统102能够对第四部分应用第一调制，因为数据处理系统102能够确定来自内容提供者设备106的内容项在相同的通信会话325期间先前曾被提供给客户端计算设备104。因此，数据处理系统102能够通过不调制第二输出信号的第四部分而减少资源利用率，因为数据处理系统102能够确定在相同的通信会话中先前曾提供基于调制的内容项的指示。然后，数据处理系统102能够将承载第二输出信号的数据分组传送到客户端计算设备104。

例如，数据处理系统能够包括智能个人助理或者基于语音的数字助理。终端用户能够口头询问数据处理系统天气情况。数据处理系统能够经由听觉输出信号的第一部分中具有天气信息的音频作出响应。因此，第一部分能够包括对用户查询的有机结果或者响应。附加到听觉信号的第一部分，数据处理系统能够提供在内容选择过程期间所选择的赞助内容项。数据处理系统能够调制第二部分的音频以指示第二部分包含赞助内容项。例如，赞助内容项能够是针对乘车共享服务的音频内容项。

图4是用于执行分组化音频信号的动态调制的示例方法的图示。方法400能够由系统100或者系统500的一个或多个组件、系统或元素来执行。方法400能够包括接收输入音频信号的数据处理系统(ACT405)。数据处理系统能够从客户端计算设备接收输入音频信号。例如，由数据处理系统执行的自然语言处理器组件能够经由数据处理系统的接口从客户端计算设备接收输入音频信号。数据处理系统能够接收承载或者包括由客户端计算设备(或者客户端设备)的传感器检测到的输入音频信号的数据分组。

在ACT 410，方法400能够包括解析输入音频信号的数据处理系统。自然语言处理器组件能够解析输入音频信号以识别请求和对应于该请求的触发关键词。例如，由客户端设备检测到的音频信号能够包括“Okay device,I need a ride from Taxi ServiceCompany A to go to 1234Main Street(好的设备，我需要出租车服务公司A中的乘车去往主街1234号)”。在该音频信号中，初始触发关键词能够包括“okay device(好的设备)”，其能够向客户端设备指示将输入音频信号传送到数据处理系统。在将剩余的音频信号发送到数据处理系统之前，客户端设备的预处理器能够滤出词项“okay device(好的设备)”。在一些情况下，客户端设备能够滤出其他词项或者生成关键词以传送到数据处理系统以便进一步处理。

数据处理系统能够识别输入音频信号中的触发关键词。触发关键词能够例如包括“to go to(去往)”或“ride(乘车)”或者这些词项的变型。触发关键词能够指示服务或者产品的类型。数据处理系统能够识别输入音频信号中的请求。请求能够基于词项“I need(我需要)”来确定。触发关键词和请求能够使词项义处理技术或者其他自然语言处理技术来确定。

在ACT 415，方法400能够包括生成第一动作数据结构的数据处理系统。数据处理系统能够基于触发关键词来生成第一动作数据结构。第一动作数据结构能够响应于请求。例如，如果客户端计算设备的终端用户从出租车服务公司A请求出租车，则第一动作数据结构能够包括从出租车服务公司A请求出租车服务的信息。数据处理系统能够选择针对出租车服务公司A的模板，并且用值填充模板中的字段，以允许出租车服务公司A向客户端计算设备的用户发送出租车，以接取用户并且将用户送到所请求的目的地。

在ACT 420，方法400能够包括接收触发关键词并且选择内容项对象的数据处理系统。数据处理系统能够接收由自然语言处理器识别的触发关键词。基于触发关键词，数据处理系统能够经由实时内容选择过程来选择内容项。内容项对象能够由内容提供者提供。内容项对象能够由与数据处理系统向其传送第一动作数据结构的服务提供者设备不同的内容提供者来提供。数据处理系统能够从与通过使用客户端设备在输入音频信号中请求的服务提供者不同的内容提供者选择内容项对象。例如，用户能够从出租车服务公司A请求出租车服务，但在实时内容选择过程期间由数据处理系统选择的内容项对象能够来自出租车服务公司B。

在ACT 425，方法400能够包括生成输出信号的数据处理系统，该输出信号包括对应于第一动作数据结构的第一部分以及对应于内容项的第二部分。在一些情况下，第一部分可以不被调制，而第二部分被调制。在一些情况下，利用不同的调制来调制第一部分和第二部分，以便区分第一部分与第二部分。例如，数据处理系统能够降低第一部分的音高并且增大第二部分的音高；数据处理系统能够增大第一部分的音量并且减小第二部分的音量；数据处理系统能够增大第一部分的音量并且增大第二部分的音高；或者数据处理系统能够增大第一部分的音高并且对第二部分应用音频叠加或者音频水印。

在ACT 430，方法400能够包括数据处理系统向客户端计算设备传送输出信号。所述数据处理系统能够传送包括由音频信号生成器组件生成的输出信号的数据分组以使由客户端设备执行的音频驱动器组件驱动客户端设备的扬声器，以生成对应于输出信号的声波。

图5是示例计算机系统500的框图。计算机系统或者计算设备500能够包括或者被使用于实现系统100或者其组件，诸如数据处理系统102。计算系统500包括用于通信信息的总线505或者其他通信组件以及用于处理信息的耦合到总线505的处理器510或者处理电路。计算系统500还能够包括用于处理信息的耦合到总线的一个或多个处理器510或者处理电路。计算系统500还包括用于存储信息的耦合到总线505的主存储器515，诸如随机存取存储器(RAM)或者其他动态存储设备，以及由处理器510执行的指令。主存储器515能够是或者包括数据储存库145。主存储器515还能够被使用于在由处理器510执行指令期间存储位置信息、临时变量或者其他中间信息。计算系统500可以进一步包括耦合到总线505的只读存储器(ROM)520或者其他静态存储设备，用于存储用于处理器510的静态信息和指令。诸如固态设备、磁盘或者光盘的存储设备525能够被耦合到总线505，以持久性存储信息和指令。存储设备525能够包括数据存储库145或者作为其一部分。

计算系统500可以经由总线505而被耦合到显示器535，诸如液晶显示器或者有源矩阵显示器，用于向用户显示信息。诸如包括字母数字和其他键的键盘的输入设备530可以被耦合到总线505，用于将信息和命令选择通信到处理器510。输入设备530能够包括触摸屏显示器535。输入设备530还能够包括诸如鼠标、跟踪球或者光标方向键的光标控制器，用于将方向信息和命令选择通信到处理器510以及控制显示器535上的光标移动。例如，显示器535能够作为数据处理系统102、客户端计算设备150或者图1的其他组件的一部分。

本文所述的过程、系统和方法能够由计算系统500响应于处理器510执行主存储器515中所包含的指令的布置来实现。这样的指令能够从诸如存储设备525的另一个计算机可读介质读入主存储器515。执行主存储器515中所包含的指令的布置促使计算系统500执行本文所述的说明性过程。也可以采用多处理布置中的一个或多个处理器来执行主存储器515中所包含的指令。硬连线电路能够以取代软件指令或者与软件指令组合的方式与本文所述的系统和方法连用。本文所述的系统和方法并不限于硬件电路和软件的任何特定组合。

虽然在图5中已描述示例计算系统，但本说明书中所述的主题，包括操作，能够以其他类型的数字电路，或者计算机软件、固件或硬件，包括本说明书中所公开的结构及其结构等价物，或者其中一个或多个的组合来实现。

在本文所讨论的系统采集关于用户的个人信息或者可以使用个人信息的情况下，用户可能有机会控制程序或者功能是否可以采集个人信息(例如，关于用户的社交网络、社交行动或活动、用户的偏好或者用户的位置的信息)，或者控制是否或如何从内容服务器或其他数据处理系统接收可能与用户更相关的内容。此外，在存储或者使用某些数据之前，可以通过一种或多种方式将其匿名化，以便在生成参数时删除个人可识别信息。例如，用户的身份可以被匿名化，以便不会针对用户来确定个人可识别信息，或者用户的地理位置可以被泛化到获得位置信息的位置(诸如城市、邮政编码或者州级)，以便用户的特定位置不会被确定。因此，用户可以控制如何采集关于他或她的信息并且供内容服务器使用。

本说明书中所述的主题和操作能够以数字电路，或者计算机软件、固件或硬件，包括本说明书中所公开的结构及其结构等价物，或者其中一个或多个的组合来实现。本说明书中所述的主题能够被实现为一个或多个计算机程序，例如，在一个或多个计算机存储介质上编码的计算机程序指令的一个或多个电路，用于由数据处理装置执行或者控制其操作。替选地或附加地，程序指令能够被编码在人工生成的传播信号上，例如，机器生成的电子、光学或者电磁信号，该信号被生成以编码用于传输至适当的接收器装置的信息，以便由数据处理装置执行。计算机存储介质能够是计算机可读的存储设备、计算机可读的存储衬底、随机或串行存取存储器阵列或设备或者其中一个或多个的组合，或者包括在其中。虽然计算机存储介质并非传播信号，但计算机存储介质能够是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也能够是一个或多个单独的组件或介质(例如，多个CD、磁盘或者其他存储设备)，或者包括在其中。在本说明书中所述的操作能够被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其他来源接收的数据执行的操作。

术语“数据处理系统”、“计算设备”、“组件”或者“数据处理装置”包含用于处理数据的各种装置、设备和机器，例如，包括可编程处理器、计算机、系统单芯片或者以上的多个或组合。所述装置能够包括专用逻辑电路，例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。所述装置除硬件之外还能够包括为考虑中的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或者其中一个或多个的组合的代码。所述装置和执行环境能够实现各种不同计算模型的基础设施，诸如web服务、分布式计算以及网格计算的基础设施。直接动作API 135、内容选择器组件125、预测组件120或者NLP组件110以及其他数据处理系统102组件能够包括或者共享一个或多个数据处理装置、系统、计算设备或者处理器。

计算机程序(也称为程序、软件、软件应用、app、脚本或者代码)能够以任何形式的编程语言来编写，包括编译或解释语言、声明性或过程式语言，并且能够以任何形式来部署，包括部署为独立程序或者模块、组件、子例程、对象或者适于在计算环境中使用的其他单元。计算机程序能够对应于文件系统中的文件。计算机程序能够被存储于保存其他程序或者数据的文件(例如存储成标记语言文档的一个或多个脚本)的一部分中、专用于考虑中的程序的单个文件中或者多个协作文件(例如存储一个或多个模块、子程序或者代码的多个部分)中。计算机程序能够被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且通过通信网络而互联的多个计算机上来执行。

本说明书中所述的过程和逻辑流程能够由执行一个或多个计算机程序的可编程处理器(例如，数据处理系统102的组件)来执行，以通过对输入数据进行操作并且生成输出来执行动作。所述的过程以及逻辑流程也能够通过专用逻辑电路来执行，并且装置也能够被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。适于存储计算机程序指令和数据的设备包括所有形式的非易失存储器、介质和存储设备，例如包括EPROM、EEPROM和闪存设备的半导体存储设备、例如内置硬盘或可移动磁盘的磁盘、磁光盘以及CD ROM和DVD-ROM磁盘。处理器和存储器能够增加或结合专用逻辑电路。

本文所述的主题能够在例如包括作为数据服务器的后端组件、例如包括应用服务器的中间件组件、例如包括具有用户能够借以与本说明书中所述主题的实施方式交互的图形用户界面或者web浏览器的客户端计算机的前端组件或者一个或多个这样的后端、中间件或前端组件的组合的计算系统中来实现。系统的组件能够通过数字数据通信的任何形式或者媒介来互联，例如，通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联的网络(例如，互联网)以及对等网络(例如，ad-hoc对等网络)。

诸如系统100或者系统500的计算系统能够包括客户端和服务器。客户端与服务器一般彼此远离，并且通常通过通信网络(例如，网络165)进行交互。客户端与服务器的关系借助在相应计算上运行并且彼此具有客户端-服务器关系的计算机程序来实现。在一些实施方式中，服务器将数据(例如，表示内容项的数据分组)传送至客户端设备(例如，目的是向与客户端设备进行交互的用户显示数据并且从该用户接收用户输入)。在客户端设备处生成的数据(例如，用户交互的结果)能够在服务器处从客户端设备接收(例如，由数据处理系统102从计算设备150或者内容提供者计算设备155或服务提供者计算设备160接收)。

虽然在图中以特定顺序来描绘操作，但无需以所示的特定顺序或者依序执行这样的操作，并且无需执行全部操作。本文所述的动作能够以不同的顺序来执行。

各种系统组件的分离并非在所有实施方式中都需要分离，并且所述程序组件能够被包括在单个硬件或者软件产品中。例如，NLP组件112或者内容选择器组件118能够是单个组件、app或程序，或者具有一个或多个处理电路的逻辑设备，或者数据处理系统102的一个或多个服务器的一部分。

现已描述一些说明性实施方式，但显然以上仅通过示例方式呈现说明性，而非旨在限制性。具体地，虽然本文提出的许多示例涉及方法动作或者系统元素的具体组合，但那些动作和那些元素可以通过其他方式组合来实现相同的目标。结合一种实施方式所讨论的动作、元素和特征并非旨在排除在其他实施方式中起类似作用。

本文所用的用语和术语是出于描述目的，而不应被视为限制目的。本文使用“包含”、“包括”、“具有”、“含有”、“涉及”、“特征是”、“特征在于”及其变型意在涵盖其后列举的项、其等价物和附加项以及仅由其后列举的项组成的替选实施方式。在一种实施方式中，本文所述的系统和方法由所述元素、动作或者组件中的一个、多于一个的每种组合或者全部组成。

对本文以单数形式提及的系统和方法的实施方式或者元素或动作的任何引用也可以涵盖包括多个这些元素的实施方式，并且对本文任何实施方式或者元素或动作的以复数形式的任何引用也可以涵盖仅包括单个元素的实施方式。以单数形式或者复数形式引用并非旨在将目前公开的系统或方法、其组件、动作或元素限制为单个或多个配置。引用基于任何信息、动作或元素的任何动作或元素可以包括动作或元素至少部分基于任何信息、动作或元素的实施方式。

本文所公开的任何实施方式可以与任何其他实施方式或实施例组合，并且引用“一种实施方式”、“一些实施方式”、“一个实施方式”等并非必然相互排斥，而旨在表示结合实施方式所述的特定特征、结构或特性可以被包括在至少一个实施方式或实施例中。本文使用的这些术语并非必然全部涉及相同的实施方式。任何实施方式均可以通过与本文所公开的方面和实施方式一致的任何方式，包含性或排他性地与任何其他实施方式组合。

引用“或者”可以被解释为包含性，这样使用“或者”所述的任何术语可以指示单个、一个以上和全部所述术语中的任何一个。例如，引用“A”和“B”中的至少一个能够仅包含“A”、仅包含“B”以及包含“A”和“B”。结合“包括”或其他开放性术语使用的这类引用能够包括附加项。

在附图、具体实施方式或任何权利要求中的技术特征后面带附图标记的情况下，已包括附图标记来提高对附图、具体描述和权利要求的理解性。因此，是否存在附图标记对于任何权利要求元素的范围没有任何限制性影响。

在不脱离本发明的特征情况下，本文所述的系统和方法可以体现成其他具体形式。例如，数据处理系统102能够部分基于来自线程200的动作序列中的前一动作的数据来选择后续动作(例如，第三动作215)的内容项，诸如来自第二动作210的数据指示第二动作210完成或者即将开始。前述实施方式仅为说明性，而非旨在限制所述的系统和方法。因此，本文所述的系统和方法的范围由所附权利要求而非前文描述来指示，并且在权利要求的等价含义和范围内的变化包含于其中。

Claims

1.一种调制分组化音频信号的系统，包括：

自然语言处理器组件，所述自然语言处理器组件由数据处理系统执行，用以经由所述数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据分组；

所述自然语言处理器组件用以解析所述输入音频信号以识别请求和与所述请求相对应的触发关键词；

所述数据处理系统的直接动作应用编程接口，所述直接动作应用编程接口用以基于所述触发关键词来生成第一数据结构，所述第一数据结构表示响应于所述请求的动作，其中生成所述第一数据结构包括选择模板以及利用信息来填充所述模板中的一个或多个字段，所述信息是由所述客户端设备的一个或多个传感器检测到的或经由所述客户端设备的用户接口获得的；

内容选择器组件，所述内容选择器组件由所述数据处理系统执行，用以接收由所述自然语言处理器识别的所述触发关键词，以及基于所述触发关键词经由实时内容选择过程来选择内容项；

音频信号生成器组件，所述音频信号生成器组件由所述数据处理系统执行，用以生成输出音频信号，所述输出音频信号包括与所述第一数据结构相对应并且利用第一音频调制生成的第一部分、以及与所述内容项相对应并且利用不同于所述第一音频调制的第二音频调制生成的第二部分，其中所述输出音频信号的所述第一部分和所述第二部分中的至少一个是通过以下来调制的：减小或增大所述输出音频信号的频率和幅度中的至少一个或者将音频叠加或音频水印应用于所述输出音频信号；

所述数据处理系统的接口，用以传送包括由所述音频信号生成器组件生成的所述输出音频信号的数据分组，以使由所述客户端设备执行的音频驱动器组件驱动所述客户端设备的扬声器来生成与所述输出音频信号相对应的声波。

2.根据权利要求1所述的系统，包括：

所述自然语言处理器组件，用以过滤所述输入音频信号以识别所述触发关键词。

3.根据权利要求1所述的系统，包括：

策略引擎组件，所述策略引擎组件由所述数据处理系统执行，用以基于经由所述实时内容选择过程所选择的所述内容项来确定指令所述音频信号生成器组件使用与所述第一音频调制不同的第二调制。

4.根据权利要求1所述的系统，包括：

会话处置器组件，所述会话处置器组件由所述数据处理系统执行，用以在所述客户端设备与所述数据处理系统之间建立通信会话，所述通信会话包括所述输入音频信号；以及

策略引擎组件，所述策略引擎组件由所述数据处理系统执行，用以：

确定经由所述实时内容选择过程所选择的所述内容项在所述通信会话期间先前未曾被提供给所述客户端设备；以及

响应于所述内容项在所述通信会话期间先前未曾被提供给所述客户端设备，指令所述音频信号生成器组件利用与所述第一音频调制不同的所述第二音频调制来生成所述输出音频信号的所述第二部分。

5.根据权利要求1所述的系统，包括：

会话处置器组件，所述会话处置器组件由所述数据处理系统执行，用以在所述客户端设备与所述数据处理系统之间建立通信会话，所述通信会话包括所述输入音频信号和第二输入音频信号；以及

所述内容选择器组件，用以基于所述第二输入音频信号来选择第二内容项；

确定所述第二内容项与在所述通信会话期间先前选择和提供给所述客户端设备的一个或多个内容项不同；

响应于所述第二内容项与在所述通信会话期间先前提供给所述客户端设备的一个或多个内容项不同，指令所述音频信号生成器组件生成第二输出信号，所述第二输出信号包括与由所述内容选择器组件选择的所述第二内容项相对应的第三部分，所述第三部分利用所述第二音频调制来生成；以及

所述接口，用以在所述通信会话内向所述客户端设备传送包括所述第二输出信号的数据分组。

6.根据权利要求1所述的系统，包括：

会话处置器组件，所述会话处置器组件由所述数据处理系统执行，用以在所述客户端设备与所述数据处理系统之间建立通信会话，所述通信会话包括所述输入音频信号；

确定所述实时内容选择过程在所述通信会话期间为所述客户端设备先前选择和提供给所述客户端设备一个或多个内容项；以及

响应于在所述通信会话期间先前提供的所述一个或多个内容项，指令所述音频信号生成器组件生成第二输出信号，所述第二输出信号包括与由所述内容选择器组件选择的第二内容项相对应的第三部分，所述第三部分利用所述第一音频调制来生成；以及

7.根据权利要求6所述的系统，包括：

所述会话处置器组件，所述会话处置器组件由所述数据处理系统执行，用以：

继传输包括所述第二输出信号的所述数据分组之后，检测从在所述通信会话中发生的第一类型的网络活动到第二类型的网络活动的转换；

响应于所述转换而终止所述通信会话；以及

在所述客户端设备与所述数据处理系统之间建立第二通信会话，所述第二通信会话包括所述第二类型的网络活动和第二输入音频信号；

所述策略引擎组件，用以确定至少一个内容项在所述第二通信会话中先前未曾被提供；以及

所述音频信号生成器组件，用以生成第三输出信号，所述第三输出信号包括与由所述内容选择器组件选择的第三内容项相对应的第四部分，所述第四部分是响应于确定至少一个内容项在所述第二通信会话中先前未曾被提供而利用所述第二音频调制来生成的。

8.根据权利要求1所述的系统，其中：

所述音频信号生成器组件，被配置来生成所述第二音频调制，所述第二音频调制包括频移和幅移中的至少一个。

9.根据权利要求1所述的系统，包括：

所述音频信号生成器组件，被配置来生成所述第二音频调制，所述第二音频调制包括音频叠加和音频水印中的至少一个。

10.根据权利要求1所述的系统，包括：

所述音频信号生成器组件，被配置来利用包括默认音频调制的所述第一音频调制生成所述第一部分，利用所述第二音频调制生成所述第二部分，所述第二音频调制包括大于所述默认音频调制的音高或幅度。

11.一种执行分组化音频信号的动态调制的方法，包括：

通过由数据处理系统执行的自然语言处理器组件，经由所述数据处理系统的接口接收包括由客户端设备的传感器检测到的输入音频信号的数据分组；

通过所述自然语言处理器组件，解析所述输入音频信号以识别请求和与所述请求相对应的触发关键词；

通过所述数据处理系统的直接动作应用编程接口，基于所述触发关键词来生成第一数据结构，所述第一数据结构表示响应于所述请求的动作，其中生成所述第一数据结构包括选择模板以及利用信息来填充所述模板中的一个或多个字段，所述信息是由所述客户端设备的一个或多个传感器检测到的或经由所述客户端设备的用户接口获得的；

通过由所述数据处理系统执行的内容选择器组件，接收由所述自然语言处理器识别的所述触发关键词；

通过所述内容选择器组件，基于所述触发关键词，经由实时内容选择过程来选择音频内容项；

通过由所述数据处理系统执行的音频信号生成器组件，生成输出音频信号，所述输出音频信号包括与所述第一数据结构相对应并且利用第一音频调制生成的第一部分、以及与所述内容项相对应并且利用不同于所述第一音频调制的第二音频调制生成的第二部分，其中所述输出音频信号的所述第一部分和所述第二部分中的至少一个是通过以下来调制的：减小或增大所述输出音频信号的频率和幅度中的至少一个或者将音频叠加或音频水印应用于所述输出音频信号；以及

通过所述数据处理系统的接口，传送包括由所述音频信号生成器组件生成的所述输出音频信号的数据分组，以使由所述客户端设备执行的音频驱动器组件驱动所述客户端设备的扬声器来生成与所述输出音频信号相对应的声波。

12.根据权利要求11所述的方法，包括：

通过所述数据处理系统，过滤所述输入音频信号以识别所述触发关键词。

13.根据权利要求11所述的方法，包括：

通过所述数据处理系统，基于经由所述实时内容选择过程所选择的所述内容项，确定指令所述音频信号生成器组件使用与所述第一音频调制不同的第二调制。

14.根据权利要求11所述的方法，包括：

通过所述数据处理系统，在所述客户端设备与所述数据处理系统之间建立通信会话，所述通信会话包括所述输入音频信号；

通过所述数据处理系统，确定经由所述实时内容选择过程所选择的所述内容项在所述通信会话期间先前未曾被提供给所述客户端设备；以及

通过所述数据处理系统，响应于所述内容项在所述通信会话期间先前未曾被提供给所述客户端设备，指令所述音频信号生成器组件利用与所述第一音频调制不同的所述第二音频调制来生成所述输出音频信号的所述第二部分。

15.根据权利要求11所述的方法，包括：

通过所述数据处理系统，在所述客户端设备与所述数据处理系统之间建立通信会话，所述通信会话包括所述输入音频信号和第二输入音频信号；

通过所述数据处理系统，基于所述第二输入音频信号，选择第二内容项；

通过所述数据处理系统，确定所述第二内容项与在所述通信会话期间先前选择和提供给所述客户端设备的一个或多个内容项不同；

通过所述数据处理系统，响应于所述第二内容项与在所述通信会话期间先前提供给所述客户端设备的一个或多个内容项不同，指令所述音频信号生成器组件生成第二输出信号，所述第二输出信号包括与由所述内容选择器组件选择的所述第二内容项相对应的第三部分，所述第三部分利用所述第二音频调制来生成；以及

通过所述数据处理系统，在所述通信会话期间向所述客户端设备传送包括所述第二输出信号的数据分组。

16.根据权利要求11所述的方法，包括：

通过所述数据处理系统，确定所述实时内容选择过程在所述通信会话期间先前选择和提供给所述客户端设备一个或多个内容项；

通过所述数据处理系统，响应于在所述通信会话期间先前提供给所述客户端设备的所述一个或多个内容项，指令所述音频信号生成器组件生成第二输出信号，所述第二输出信号包括与由所述内容选择器组件选择的第二内容项相对应的第三部分，所述第三部分利用所述第一音频调制来生成；以及

17.根据权利要求16所述的方法，包括：

通过所述数据处理系统，继传输包括所述第二输出信号的所述数据分组之后，检测从在所述通信会话中发生的第一类型的网络活动到第二类型的网络活动的转换；

通过所述数据处理系统，响应于所述转换，终止所述通信会话；

通过所述数据处理系统，在所述客户端设备与所述数据处理系统之间建立第二通信会话，所述第二通信会话包括所述第二类型的网络活动和第二输入音频信号；

通过所述数据处理系统，确定至少一个内容项在所述第二通信会话中先前未曾被提供；以及

通过所述数据处理系统，生成第三输出信号，所述第三输出信号包括与由所述内容选择器组件选择的第三内容项相对应的第四部分，所述第四部分是响应于至少一个内容项在所述第二通信会话中先前未曾被提供的确定而利用所述第二音频调制来生成的。

18.根据权利要求11所述的方法，包括：

通过所述数据处理系统，生成所述第二音频调制，所述第二音频调制包括频移和幅移中的至少一个。