CN114491226A

CN114491226A - 建立与非注册资源的基于音频的网络会话

Info

Publication number: CN114491226A
Application number: CN202210111602.9A
Authority: CN
Inventors: 瓦伦·索恩达拉拉央; 斯里拉姆·巴尔加瓦·卡纳蒂
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2022-05-13
Also published as: JP2020522031A; WO2018231209A1; US11475900B2; KR20210097842A; CN109392309A; KR102287862B1; KR102421669B1; JP6968897B2; EP3625668B1; US20200175992A1; US20180358022A1; EP4060476A2; KR20190109498A; DE212017000068U1; CN109392309B; US10573322B2; EP4060476A3; EP3625668A1

Abstract

本公开涉及建立与非注册资源的基于音频的网络会话。系统使得能够使用计算设备上的语音或话音输入和输出接口来导航数字组件且与数字组件交互。系统可以接收和处理输入音频信号以识别数字组件。系统使得能够经由输入和输出接口而与之前未注册的数字组件进行基于语音的交互。

Description

建立与非注册资源的基于音频的网络会话

分案说明

本申请属于申请日为2017年6月13日的中国发明专利申请201780000981.1的分案申请。

背景技术

计算机系统可以与被配置为与计算机系统交互的网络资源交互。为了与网络资源交互，接口可以被设计用于每个网络资源。因为不能有效地为每个网络资源创建定制接口，某些计算机系统的扩展可能是有限的，且可能是计算资源(诸如带宽、事件或电力)重叠和浪费的。因此，某些计算机系统的扩展不是能够使用网络资源的当前加载(onboarding)技术而缩放的。

发明内容

至少一个方面涉及一种用于在基于语音激活数据分组的计算机网络环境中检索数字组件的系统包括自然语言处理器组件。自然语言处理器组件可以由数据处理系统执行。自然语言处理器组件可以经由所述数据处理系统的接口接收包括由计算设备的传感器所检测到的输入音频信号的数据分组。所述自然语言处理器组件可以解析所述输入音频信号以识别请求、内容提供者以及对应于所述请求的触发关键词。所述系统可以包括直接动作应用编程接口，其可以基于所述触发关键词生成动作数据结构。所述动作数据结构可以响应于所述请求和所识别的内容提供者而生成。所述系统可以包括导航组件。所述导航组件可以建立与所识别的内容提供者的会话。所述导航组件可以渲染经由所述会话从所述内容提供者接收到的数字组件。所述导航组件可以选择与所述内容提供者相关联的交互模型。所述导航组件可以基于所述交互模型和所述动作数据结构来生成数据阵列。所述系统可以经由所述数据处理系统的所述接口传送所述数据阵列到所述内容提供者。

至少一个方面涉及一种用于在基于语音激活数据分组的计算机网络环境中检索数字组件并与之交互的方法。该方法可以包括由数据处理系统执行的自然语言处理器组件经由所述数据处理系统的接口接收能够包括由计算设备的传感器所检测到的输入音频信号的数据分组。所述方法可以包括由所述自然语言处理器组件解析所述输入音频信号以识别请求、内容提供者以及对应于所述请求的触发关键词。所述方法可以包括由直接动作应用编程接口基于所述触发关键词生成动作数据结构。所述动作数据结构可以响应于所述请求和所述内容提供者而生成。所述方法可以包括由导航组件建立与所述内容提供者的会话。所述方法可以包括由所述导航组件渲染经由所述会话从所述远程数据处理系统接收到的数字组件。所述方法可以包括由所述导航组件选择与所述远程数据处理系统相关联的交互模型。所述方法可以包括由所述导航组件基于所述交互模型和所述动作数据结构来生成数据阵列。所述方法可以包括由所述数据处理系统经由所述数据处理系统的所述接口传送所述数据阵列到所述远程数据处理系统。

前面的一般描述和下面的附图说明以及具体实施方式都是示例性的且旨在提供对所要求保护的发明的进一步的解释。通过下面的附图说明和具体实施方式，其他目标、优点和新颖特征将对本领域技术人员显而易见。

附图说明

附图不旨在按照比例来绘制。相似的附图标记和指示在各种附图中指示相似的元素。为了清楚，并非每个组件都在每个附图中被标注。在附图中：

图1图示说明用来选择且经由计算机网络与数字组件交互的示例系统的框图。

图2图示说明用于检索图1中所图示的系统中的数字组件的示例方法的框图。

图3图示说明通过图1中所图示的系统的示例数据流的框图。

图4图示说明在图1中所图示的系统中使用的示例计算机系统的框图。

具体实施方式

下面是对与在基于音频的计算机网络中检索和交互数字组件的方法、装置和系统有关的各种概念以及方法、装置和系统的实施方式的更详细描述。上面引入和在下面更详细讨论的各种概念可以以许多方式中的任何一种来实现，因为所述概念不限于任何特定方式的实施方式。

本公开通常涉及增加将诸如数字组件的网络资源加载到基于语音或图像的网络的可缩放性的系统和方法。系统可以包括数据处理系统，其使得能够导航数字组件并与数字组件交互，数字组件诸如网页、其一部分或者使用语音、图像或计算设备上的语音输入和输出接口的其他在线文档。系统可以接收和处理语音输入(这里也被称为输入音频信号)以识别数字组件。系统可以识别内容提供者，内容提供者提供数字组件。语音输入(或者其他非文本输入，诸如图像输入)可以包括与可以在数字组件中访问的所定义类型的至少一个资源相关联的动词指令。资源可以是、包括、或对应于经由所识别的数字组件或包含在数字组件中或以其他方式由数字组件识别的特定项或网页完成的动作。系统可以创建与托管数字组件的内容提供者的会话。系统可以渲染从内容提供者接收到的数字组件。系统可以在没有用户界面的情况下无界面(headless)地渲染数字组件。系统可以使用交互模型来分析所渲染的数字组件以使用交互模型导航到资源。系统可以从第一模型类型和第二模型类型中选择交互模型。第一模型类型可以是或包括通用模型，其可以合并第一训练数据集，第一训练数据集基于具有与在语音输入中识别的资源相同类型的资源的网站的集合。第二模型类型可以是或包括特定模型，其合并专用于数字组件的资源的第二训练数据集。两个模型集合都可以包括用于确定到相应资源的访问或导航数字组件的数据。系统可以基于接收到的用于访问相应资源的指令提供与相关联资源有关的信息到计算设备以便进行一个或多个后续操作。系统也可以基于在导航数字组件以访问资源或附加资源时所作出的一个或多个确定而更新交互模型。

系统可以输入数据到数字组件。数据可以由用户提供并存储在计算设备或系统上的安全存储钱包中。在创建与数字组件的会话期间或在创建的会话期间被一个或多个后续操作所需要时，数据可以被自动提供到系统。

系统可以通过获得或存储有关访问多个不同数字组件上相应类型资源所共有的术语、布局、类别和超链接中的一个或多个的信息而生成通用模型。系统可以通过获得和存储有关分别针对话音输入中识别的数字组件的资源的术语、布局、菜单、类别和超链接中的一个或多个的信息而生成特定模型。

网络资源加载到语音激活网络，使得其他网络资源可以与该网络资源交互，这在技术上可能很难，因为可能需要为每个资源创建唯一接口。例如，资源的拥有者可能需要创建应用编程接口(API)使得基于语音的计算设备的提供者能够与资源交互。基于语音的计算设备的提供者还可能需要生成程序来使得计算设备能够经由所提供的API与资源进行交互。基于语音的计算设备的提供者可以提供API，资源拥有者可以将其合并到他们的数字组件中。该加载过程会是消耗时间的，计算上不够有效率且可能需要双方的合作。

加载过程可能是引导与资源的交易所需的，用来获得对资源的安全部分的访问，或者交换敏感信息。用于利用语音输入接口而与这些资源交互以便引导交易和交换数据的技术可能需要基于语音的计算设备的资源接口的紧密集成，使得计算设备能够使用发布到特定用户接口模块的话音命令而导航通过资源。这样的特定于资源的集成可能需要在接口模块和相应资源之间的预定义，这样的特定于资源的集成对于确保向计算设备的用户提供安全、快速和无缝体验可以是必需。这是因为可能需要关于安全数据如何对接口模块可获得(例如从计算设备上的安全钱包)的先前安全配置、以及与特定资源的先前集成，使得接口模块知道资源输入、组件或其他交互对象的布局。

因此，与还未经历加载过程来建立基于语音的计算设备和资源之间的紧密集成的资源的交互也许并不可能。在没有与各个和每个资源集成的情况下，使用基于语音的计算设备来完成与资源的动作也许并不可能。

而且，基于语音(或图像或视频)的计算设备可以使用多个基于话音识别的接口模块。取决于特定接口模块所使用的模块，对于基于语音的计算设备可与之交互的每个资源，可能需要与每个相应接口模块的预定义的集成。

提供与基于语音的计算设备的这样的集成以使得对资源的导航和与资源的交互会遭受上面所述的缺点，即对于每个资源而言需要非常特定和密切的预定义的集成。这些技术可能不是可缩放的，并且不能应用于所有资源。例如，提供功能来允许话音控制的用户接口模块对网站导航的网站或域(domain)可能需要将功能限制到一种类型的接口模块，而不是能够与任何语音输入识别模块相交互。

因此，存在置配通用和可缩放技术的需求，使得基于语音的计算设备能够使用话音、语音、或图像输入识别接口模块导航且与所有资源交互。

本公开提供下面的技术步骤用来使能可与提供商品、服务或其他动作的所有资源一起操作的实时和可缩放的技术。用户可以经由基于语音的计算设备发起命令，诸如“OK,Iwant to obtain product X on website Y,please let me know the price andavailability.(好，我想在网站Y上得到商品X，请让我知道价格以及是否有货。)”系统(例如数据处理系统)可以使用自然语言处理来解析和解释输入音频信号。例如，系统可以经由安全钱包获得用户对网站Y的证书。系统可以发起与网站Y的会话。服务器可以无界面地渲染网站Y。系统可以随后使用特定或通用交互模型之一来导航网站Y以获得商品X的价格以及是否有货。价格以及是否有货可以经由输出音频文件而提供给用户的计算设备，输出音频文件经由计算设备上或与计算设备相关联的换能器(例如扬声器)呈现给用户。用户可以经由系统可以解析的第二输入音频信号确认购买或者提供额外细节给系统。在这个示例中，系统使得用户能够与网站Y交互而不需要系统和基于语音的计算设备之间的任何特定集成。该技术提供了一种方法和系统，能够使用训练过的交互模型实时与网站、网络资源或其他数字组件交互，而不需要特定集成。

这里所述的技术可以是一般的且可缩放到所有类型的数字组件，并且能够使能数据处理系统与数字组件的交互而无需数字组件提供者和基于语音的计算设备的提供者之间的预先集成或协调。

上述技术方案是通过服务器侧无界面地渲染相应数字组件以建立服务器和网站域(domain)之间的映射的技术特征而提供的。使用至少一个训练过的交互模型，系统可以识别结构、元件、输入元件(input element)、以及数字组件的其他组件。上面的步骤可以无缝且自动实时发生以便进一步提供处理输入音频信号以与数字组件交互的有效的终端用户体验。

图1图示说明了用于经由计算机网络选择和与数字组件交互的示例系统100的框图。系统100可以包括内容选择基础设施。系统100可以包括数据处理系统102。数据处理系统102可以经由网络105与内容提供者计算设备106或客户端计算设备104中的一个或多个通信。网络105可以包括计算机网络，诸如互联网、局域网、广域网、城域网、或其他区域网络、内联网、卫星网络，还包括其他通信网络，诸如语音或数据移动电话网以及上述的组合。网络105可以访问信息资源，诸如网页、网站、域名、或统一资源定位符，其可以被呈现、输出、渲染或显示在至少一个计算设备104上，所述计算设备104诸如膝上型计算机、桌面型计算机、平板、个人数字助理、智能电话、家用助理设备、便携计算机、或扬声器。例如，经由网络105，计算设备104的用户可以访问由内容提供设备106所提供的信息或数据。

数据处理系统102可以包括接口110、自然语言处理器组件112以及会话控制器组件114。数据处理系统102还可以包括直接动作应用编程接口116、导航组件118和音频信号生成器组件122。数据处理系统102还可以包括数据存储库124，在其上存储参数126、策略128、交互模型130和模板132。

网络105可以由数据处理系统102使用来访问信息资源，诸如网页、网站、域名、或统一资源定位符，其可以被客户端计算设备104所呈现、输出、渲染或显示。由内容提供设备106存储或以其他方式提供的网页、网站和其他数字内容可以被称为数字组件或内容项。经由网络105，客户端计算设备104的用户可以访问由内容提供计算设备106所提供的信息或数据(例如，诸如内容项的数字组件)。

数字组件可以经由计算设备104的显示设备而被渲染或者可以在数据处理系统102上被渲染。渲染可以包括在显示设备上显示数字组件或其他内容项，显示设备可以是或可以不是计算设备104的一部分。在一些实施方式中，计算设备104不包括显示设备来渲染数字组件。例如，计算设备104可以只通过经由计算设备104的扬声器播放数字组件来渲染数字组件。数据处理系统102可以充当中间件且使得计算设备104能够以基于音频的形式与数字组件交互。

网络105可以是任何类型或形式的网络并且可以包括下面任何一个：对等网络、广播网络、广域网、局域网、电信网、数字通信网、计算机网络、ATM(异步传输模型)网络、SONET(同步光网络)网络、SDH(同步数字层级)网络、无线网络和有线网络。网络105可以包括无线链路，诸如红外信道或卫星带。网络105的拓扑可以包括总线、星形或环形网络拓扑。网络可以包括使用用来在移动设备间通信的任何一个或多个协议的移动电话网络，这些协议包括高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电业务(“GPRS”)或者通用移动电信系统(“UMTS”)。不同类型的数据可以经由不同协议传送，或者相同类型的数据可以经由不同协议传送。

系统100可以包括至少一个数据处理系统102。数据处理系统102可以包括至少一个逻辑设备，诸如具有处理器以经由网络105与例如计算设备104或内容提供设备106(内容提供者106)通信的计算设备。数据处理系统102可以包括至少一个计算资源、服务器、处理器或存储器。例如，数据处理系统102可以包括位于至少一个数据中心的多个计算资源或服务器。数据处理系统102可以包括多个逻辑上成组的服务器以及促进分布式计算技术。服务器的逻辑分组可以被称为数据中心、服务器场或机器场。服务器还可以在地理上被分散。数据中心或机器场可以被管理为单个实体，或者机器场可以包括多个机器场。每个机器场内的服务器可以是异构的——服务器或机器中的一个或多个可以根据一个或多个类型的操作系统平台来操作。

机器场中的服务器可以与相关联的存储系统一起存储在高密度机架系统中，且位于企业数据中心中。例如，这样巩固服务器可以通过将服务器和高性能存储系统定位于本地化高性能网络上而改进系统可管理性、数据安全性、系统的物理安全以及系统性能。包括服务器和存储系统的数据处理系统102组件中的所有或一些的中心化以及将它们与高级系统管理工具相耦合允许更有效地使用服务器资源，这节省了功率和处理要求并且降低了带宽使用。

系统100可以包括、访问、或者以其他方式与至少一个内容提供设备106交互。内容提供设备106可以包括至少一个逻辑设备，诸如具有处理器来经由网络105通信的计算设备。内容提供设备106可以包括至少一个计算资源、服务器、处理器或存储器。例如，内容提供设备106可以包括位于至少一个数据中心中的多个计算资源或服务器。

内容提供计算设备106可以提供数字组件到数据处理系统102和计算设备104。数字组件可以是网页，其包括图形、文本、超链接和机器可执行指令。数字组件可以可视地显示给终端用户，诸如经由渲染网页且将经渲染的网页在显示器上显示给用户的web浏览器。数字组件可以是或包括网页，网页包括出价、货物、服务或信息。例如，数字组件可以是销售服装的网站。

计算设备104可以包括或与至少一个传感器134、换能器136、音频驱动器138、或预处理器140接口连接或通信。传感器134可以包括例如环境光传感器、接近传感器、温度传感器、加速计、陀螺仪、运动检测器、GPS传感器、位置传感器、麦克风、或者触摸传感器。换能器136可以包括扬声器或麦克风。音频驱动138可以提供软件接口给硬件换能器136。音频驱动器138可以执行由数据处理系统102提供的音频文件或其他指令以控制换能器136生成对应的声学波或声波。预处理器140可以被配置为检测关键词并基于关键词执行动作。预处理器140可以过滤掉一个或多个词项(term)并且在将词项传送到数据处理系统102以进一步处理之前修改词项。预处理器140可以将由麦克风检测到的模拟音频信号转换成数字音频信号，并且将携带数字音频信号的一个或多个数据分组经由网络105传送到数据处理系统102。在一些情况下，预处理器140可以传送携带一些或全部输入音频信号的数据分组(或其他基于协议的传输)以响应检测到执行这样的传输的指令，诸如“好的”、“开始”或其他唤醒词。指令可以包括例如触发关键词或其他关键词或者批准来将包括输入音频信号的数据分组传送到数据处理系统102。在一些情况下，计算设备104的主用户接口可以是麦克风和扬声器。

动作的类型可以包括例如服务、商品、预定、或票务。动作的类型可以进一步包括服务或商品的类型。例如，服务的类型可以包括共享汽车服务、食品递送服务、洗衣服务、清洁服务、修理服务或家政服务。商品的类型可以包括例如服装、鞋子、玩具、电子产品、计算机、书籍或珠宝。预订的类型可以包括例如晚餐预定或发廊预约。票务的类型可以包括例如电影票、体育赛事票、或飞机票。在一些情况下，服务、商品、预定或票务的类型可以基于价格、位置、运送类型、可用性、或其他属性来进行分类。

客户端计算设备104可以与输入语音查询作为音频输入到客户端计算设备104(经由传感器134)并且接收可以从数据处理系统102(或者内容提供计算设备106)提供到客户端计算设备104、从换能器136(例如扬声器)输出的计算机生成的语音的形式的音频输出的终端用户相关联。计算机生成的语音可以包括来自真实人的记录或者计算机生成的语言。除了语音查询，输入还可以包括一个或多个图像或视频片段，从客户端计算设备104生成或获得(例如经由网络105)并且由数据处理系统102解析，以获得通过解析语音查询而获得的相同类型的信息。例如，用户可以拍摄他们希望购买的物品的照片。数据处理系统102可以针对图像执行机器视觉以识别图像的内容并生成识别图像内容的文本串。文本串可以用作输入查询。

数据处理系统102可以包括使得数据处理系统102能够诸如经由网络105与其他设备通信的至少一个接口110或者与其接口连接或以其他方式通信。数据处理系统102可以包括至少一个自然语言处理器组件112或者与其接口连接或以其他方式通信。数据处理系统102可以包括至少一个直接动作应用编程接口(“API”)116或者与其接口连接或以其他方式通信。数据处理系统102可以包括至少一个会话控制器114或者与其接口连接或以其他方式通信。数据处理系统102可以包括至少一个导航组件118或者与其接口连接或以其他方式通信。数据处理系统102可以包括至少一个音频信号生成器122或者与其接口连接或以其他方式通信。数据处理系统102可以包括至少一个数据存储库124或者与其接口连接或以其他方式通信。

数据处理系统102可以包括导航组件118或者与其接口连接或以其他方式通信。导航组件118可以使能计算设备104和由内容提供者106提供的诸如网站的数字组件之间的基于语音的交互。由内容提供者106所提供的数字组件可以不被配置为容许基于语音的交互。例如，数字组件可以是网页，包括文本、图像、视频、输入元件和其他非音频元件。此外，在数字组件(或其提供者)和数据处理系统102之间可能没有之前建立的集成。导航组件118可以使用例如无界面的浏览器或无界面的网络工具渲染器来渲染以及识别数字组件中的输入元件、文本和其他数据。当用无界面的渲染器来渲染时，经渲染的数字组件不需要图形用户界面来起作用。导航组件118可以使用交互模型与这些元件交互。例如，导航组件118可以输入数据阵列到输入域(input field)、选择和激活输入元件(例如导航或提交按钮)、基于交互模型检索数据以完成如在从计算设备104接收到的输入音频信号中识别的动作。作为一个示例，对于输入音频信号“buy two shirts(购买两件衬衫)”，导航组件118可以生成“text＝2”的数据阵列。导航组件118还可以识别无界面渲染网页中的输入域和“buy(购买)”按钮。导航组件118可以输入文本“2”到输入域中且随后选择“buy”按钮以完成交易。

数据存储库124可以包括一个或多个本地或分布式数据库，并且可以包括数据库管理系统。数据存储库124可以包括计算机数据存储或存储器且可以存储一个或多个参数126、一个或多个策略128、交互模型130以及模板132等数据。参数126、策略128和模板132可以包括诸如有关在客户端计算设备104和数据处理系统102之间的基于语音的会话的规则的信息。数据存储库124还可以存储内容数据，其可以包括用于音频输出或相关联元数据的内容项，以及可以是与客户端计算设备104的一个或多个通信会话的一部分的输入音频消息。参数126可以包括例如阈值、距离、时间间隔、持续时间、分数或权重。

交互模型130可以由导航组件118来生成和更新。数据存储库124可以包括多个交互模型。交互模型130可以被分类为通用模型和特定于内容提供者的模型。通用模型可以进一步被划分为不同的交互或动作类别。例如，交互模型130可以包括用于诸如购物网站、天气提供者网站和预定预约网站的不同类型的商业网站的通用模型。

交互模型130还可以包括特定模型。特定交互模型可以是特定于内容提供者106或由特定内容提供者106所提供的特定数字组件。例如，对于特定网站Y，特定交互模型可以知道链接、菜单的放置、怎样导航网站以及怎样在网站内存储和分类具体商品和数据。导航组件118可以使用该信息来在整个网站中导航并且在与网站交互时提供数据阵列给网站以完成动作或与网站的其他交易。

通用交互模型可以在导航组件118不具有与数字组件或内容提供者106的预先确定的数目的交互以生成特定交互模型时使用。导航组件118可以通过最初收集来自特定会话(例如，在获得它们许可后的用户会话，或者用户与数字组件交互情况下的特定训练会话)的数据来训练模型(通用和特定交互模型二者)。例如，给定输入音频信号，用户可以完成输入音频信号的任务(例如，“OK,buy a shirt.”(好的，买衬衫))。导航组件118可以在完成动作时接收用户进行的输入并且构建使得导航组件118能够识别用于完成动作的输入元件(诸如文本域和按钮)的模型。特定模型可以针对特定数字组件来训练，而通用模型可以使用给定类别内的多个数字组件来训练。训练可以使得模型能够确定交互数据，所述交互数据诸如购买特定商品所涉及的步骤、商品目录、商品排序以及怎样针对数字组件执行排序。模型可以使得导航组件118正确识别且与在输入音频信号中识别的商品或服务交互。

两种类型的交互模型130都可以在数据处理系统102和内容提供者106之间的会话期间和之后被训练和更新。例如，尽管使用通用模型用于数字组件，导航组件118可以建构特定模型用于数字组件。一旦用于特定导航组件118的特定交互模型被视为可信赖，例如利用来自预先确定数目的会话的数据而构建，导航组件118可以开始使用用于数字组件的特定交互模型而不是通用模型。导航组件118可以使用附加(或新会话)的数据来更新交互模型130。

接口110、自然语言处理器组件112、会话控制器114、直接动作API 116、导航组件118或者音频信号生成器组件122每个都可以包括至少一个处理单元或诸如可编程逻辑阵列引擎的其他逻辑设备，或者配置为与数据库存储库或数据库124通信的模块。接口110、自然语言处理器组件112、会话控制器114、直接动作API 116、导航组件118、音频信号生成器组件122以及数据存储库124可以是分开的组件、单个组件、或者数据处理系统102的一部分。系统100及其诸如数据处理系统102的组件，可以包括硬件元件，诸如一个或多个处理器、逻辑设备或电路。

数据处理系统102可以获得与多个计算设备104相关联的匿名计算机网络活动信息。计算设备104的用户可以肯定地授权数据处理系统102来获得对应于用户的计算设备104的网络活动信息。例如，数据处理系统102可以提示计算设备104的用户同意获得一个或多个类型的网络活动信息。计算设备104的用户的身份可以保持匿名且计算设备104可以与唯一标识符(例如由数据处理系统102或计算设备的用户所提供的用于用户或计算设备的唯一标识符)相关联。数据处理系统102可以将每个观察与对应的唯一标识符相关联。

数据处理系统102可以包括接口组件110，接口组件110被设计、配置、构造或操作以使用例如数据分组来接收和传送信息。接口110可以使用诸如网络协议的一个或多个协议来接收和传送信息。接口110可以包括硬件接口、软件接口、有线接口或无线接口。接口110可以促进将数据从一个格式到另一格式的转换或格式化。例如，接口110可以包括应用编程接口，其包括用于在诸如软件组件的各种组件之间通信的定义。

数据处理系统102可以接收包括或识别音频输入信号的数据分组或其他信号。例如，数据处理系统102可以执行或者运行NLP组件112以接收或获得音频信号并且解析该音频信号。例如，NLP组件112可以提供人类与计算机之间的交互。NLP组件112可以利用用于理解自然语言且允许数据处理系统从人类或自然语言输入中得到含义的技术来配置。NLP组件可以包括基于机器学习的技术(诸如统计机器学习)或者用基于机器学习的技术来配置。NLP组件112可以利用决策树、统计模型、或者概率统计模型来解析输入音频信号。NLP组件112可以执行例如功能，功能诸如命名的实体识别(例如，给定文本流、确定文本中哪个项映射到合适名称，诸如人物或地点，以及每个这样的名称的类型是什么，诸如人、位置或组织)、自然语言生成(例如，将信息从计算机数据库或语义意图转换为可理解的人类语言)、自然语言理解(例如，将文本转换为更正常的表达，诸如计算机模块可以操纵的第一次序逻辑结构)、机器翻译(例如自动将文本从一种人类语言翻译成另一种)、语素切分(例如，将词分离为单个语素且识别语素的分类，基于语素的复杂性或考虑语言的词结构，这会是挑战)、问题回答(例如，确定对人类语言问题的答复，其可以是特定或开放的)、语义处理(例如处理会发生在识别词并编码其含义之后，以便利用相似意义而将识别的词与其他词进行相关)。

NLP组件112通过比较输入信号与存储的相应的音频波形集合(例如在数据存储库124中)并且选取最接近的匹配而将音频输入信号转换为识别的文本。音频波形集合可以存储在数据存储库124中或者对数据处理系统102可访问的其他数据库中。典型的波形在用户大集合之间生成，随后可以利用来自用户的话音采样而增强。在音频信号被转换为识别的文本之后，NLP组件112将文本匹配到与数据处理系统102可以作用的动作相关联的词，例如经由用户间或者通过手动规范的训练。

音频输入信号可以由客户端计算设备104的传感器134或换能器136(例如麦克风)来检测。经由换能器136，音频驱动器138或客户端计算设备104的其他组件可以提供音频输入信号到数据处理系统102(例如经由网络105)，在此其可以被接收(例如由接口110)并提供给NLP组件112或存储在数据存储库124中。

NLP组件112可以获得输入音频信号。根据输入音频信号，NLP组件112可以识别至少一个请求或对应于该请求的至少一个触发关键词。该请求可以指示输入音频信号的意图或主题。触发关键词可以指示可能要采取的动作的类型。例如，NLP组件112可以解析输入音频信号以识别晚上离开家去参加晚餐以及看电影的至少一个请求。触发关键词可以包括至少一个词、词组、词根或不完全单词、或者指示要采取的动作的派生。例如，来自输入音频信号的触发关键词“go(去)”或“to go to(要去到)”可以指示运输的需要。在该示例中，输入音频信号(或识别的请求)不直接表达运输的意图，但是触发关键词指示了运输是对由请求所指示的至少一个其他动作的辅助动作。

NLP组件112可以解析输入音频信号以识别、确定、检索或获得请求和触发关键词。例如，NLP组件112可以将语义处理技术应用于输入音频信号以识别触发关键词或请求。NLP组件112可以将语义处理技术应用于输入音频信号以识别触发词组，其包括一个或多个触发关键词，诸如第一触发关键词和第二触发关键词。例如，输入音频信号可以包括句子“Ineed someone to do my laundry and my dry cleaning.(我需要某些人帮我洗衣服并且帮我烘干。)”NLP组件112可以将语义处理技术或其他自然语言处理技术应用于包括该句子的数据分组以识别触发词组“do my laundry(帮我洗衣服)”和“do may dry cleaning(帮我烘干)”。NLP组件112可以进一步识别多个触发关键词，诸如laundry(洗衣服)和drycleaning(烘干)。例如，NLP组件112可以确定触发词组包括触发关键词和第二触发关键词。

NLP组件112可以解析输入音频信号以在类似于NLP组件112用来获得请求和触发关键词的方法的方法中识别、确定、检索或获得远程内容提供者106或远程数据处理系统102的标识。例如，包括词组“ok,buy a red shirt from ABC(好，从ABC购买红色衬衫)”的输入音频信号可以被解析为识别ABC作为衬衫的卖家。数据处理系统102可以随后确定与ABC相关联的内容提供者106。内容提供者106可以是托管ABC的网站的服务器。数据处理系统102可以识别ABC的网络地址，诸如“www.ABC.com”。数据处理系统102可以传送确认音频信号到计算设备104，诸如“Are you referring to ABC of www.ABC.com？(你被推荐到www.ABC.com的ABC吗？)”响应于从计算设备104接收到确认消息，数据处理系统102可以发起与位于www.ABC.com的内容提供者106的会话。

NLP组件112可以过滤输入音频信号以识别触发关键词。例如，携带输入音频信号的数据分组可以包括“It would be great if I could get someone that could helpme go to the airport(如果我能带能够帮助我去机场的某些人就太好了)”，在此情况下，NLP组件112可以过滤掉一个或多个如下词项：“it”、“would(就)”、“be(会)”、“great”、“if(如果)”、“I(我)”、“could(能)”、“get(带)”、“someone(某些人)”、“that”、“could(能)”或“help(帮助)”。通过过滤掉这些术语，NLP组件112可以更准确和可信赖地识别触发关键词，诸如“go to the airport(去机场)”并且确定这是对出租车或共乘服务的请求。

数据处理系统102可以包括直接动作API 116，被设计和构造为响应于请求和识别的远程内容提供者106而基于触发关键词生成动作数据结构。数据处理系统102的处理器可以调用直接动作API 116来执行生成数据结构到内容提供者106以请求或订购服务或商品(诸如汽车共享服务中的汽车)的脚本。直接动作API 116可以从数据存储库124中获得数据以及通过终端用户从客户端计算设备104接收的数据，以确定位置、时间、用户账户、物流、和其他信息以允许数据处理系统102执行操作，诸如预定汽车共享服务中的汽车。

当数据处理系统102与来自内容提供设备106的数字组件交互时，直接动作API116可以执行指定动作以满足终端用户的意图。取决于其输入中指定的动作，直接动作API116可以执行代码或对话脚本，所述代码或对话脚本识别满足用户请求所需的参数，其可以被包括到动作数据结构中。这样的代码可以查找附加信息或者其可以提供音频输出以便在客户端计算设备104上渲染从而询问终端用户诸如用户的优选衬衫尺码的问题，以便继续上面的输入音频信号是“ok,buy a red shirt.(好的，购买红色衬衫)”的示例。直接动作API 116可以确定必要参数并且可以将信息封装到动作数据结构中。例如，当输入音频信号是“ok,buy a red shirt”时，该动作数据结构可以包括用户的优选衬衫尺码。

直接动作API 116在识别请求类型后可以从数据存储库124中存储的模板存储库中访问对应模板。模板132可以在结构化数据集合中包括由直接动作API 116填充的字段，以进一步进行满足由内容提供者106提供的数字组件或与该数字组件交互的操作。直接动作API 116可以在模板存储库中执行查找以选择与触发关键词和请求的一个或多个特性匹配的模板。例如，如果请求与对汽车或乘坐到目的地的请求相对应，则数据处理系统102可以选择汽车共享服务模板。汽车共享服务模板可以包括以下字段中的一个或多个：设备标识符、搭乘位置、目的地位置、乘客数目、或服务类型。直接动作API 116可以用值来填充字段。为了用值来填充字段，直接动作API 116可以从计算设备104的一个或多个传感器134或计算设备104的用户接口ping、轮询或者以其他方式获得信息。例如，直接动作API 116可以使用诸如GPS传感器的位置传感器检测源位置。直接动作API 116可以通过提交对计算设备104的终端用户的调查、提示、或查询而获得进一步的信息。直接动作API 116可以经由数据处理系统102的接口110和计算设备104的用户接口(例如音频接口、基于语音的用户接口、显示器或触摸屏)提交调查、提示或查询。因此，直接动作API 116可以基于触发关键词或请求来选择用于动作数据结构的模板，用由一个或多个传感器134检测到的或者经由用户接口获得的信息填充模板中的一个或多个字段，以及生成、创建或以其他方式构造动作数据结构以促进内容提供者106的操作的执行。

数据处理系统102可以基于各种因素从模板数据结构中选择模板，各种因素包括例如触发关键词、请求、内容提供者106的类型、内容提供者106的类别(例如，出租车服务、洗衣服务、鲜花服务、零售服务、或者食品递送)、位置或其他传感器信息中的一个或多个。

为了基于触发关键词选择模板，数据处理系统102(例如经由直接动作API 116)可以使用触发关键词针对模板数据库执行查找或其他查询操作以识别映射到或以其他方式对应于触发关键词的模板数据结构。例如，模板数据库中的每个模板可以与一个或多个触发关键词相关联以指示模板被配置为响应于数据处理系统102可以处理以建立数据处理系统102和内容提供者106之间的通信会话的触发关键词而生成动作数据结构。

为了构造或生成动作数据结构，数据处理系统102可以识别所选模板中的一个或多个字段以用值来填充。这些字段可以用数字值、字符串、Unicode值、布尔逻辑、二进制值、十六进制值、标识符、位置坐标、地理区域、时间戳或其他值。这些字段或数据结构本身可以被加密或者掩码以保持数据安全。

一旦确定模板中的字段，数据处理系统102可以识别这些字段的值以便填充模板的这些字段来创建动作数据结构。数据处理系统102可以通过对数据存储库124执行查找或其他查询操作来获得、检索、确定或以其他方式识别这些字段的值。

在一些情况下，数据处理系统102可以确定这些字段的信息或值从数据存储库124中缺失。数据处理系统102可以确定存储在数据存储库124中的信息或值过期、陈旧或者以其他方式不适用于对响应于由NLP组件112识别的触发关键词和请求(例如，客户端计算设备104的位置可能是旧位置而不是当前位置；账户可能过期；目的地餐馆可能已经搬到新的位置；物理活动信息；或者交通运输模式)而构造动作数据结构的目的。

如果数据处理系统102确定其当前不能在数据处理系统102的存储器中访问模板的字段的值或信息，则数据处理系统102可以获取值或信息。数据处理系统102可以通过查询或轮询客户端计算设备104的一个或多个可用传感器、向客户端计算设备104的终端用户提示该信息、或者使用HTTP协议访问在线基于web的资源来获取或获得信息。例如，数据处理系统102可以确定其不具有客户端计算设备104的当前位置，所述当前位置可能是模板的所需字段。数据处理系统102可以向客户端计算设备104查询位置信息。数据处理系统102可以请求客户端计算设备104使用一个或多个位置传感器134来提供位置信息，所述位置传感器134诸如全球定位系统传感器、WiFi三角测量、蜂窝塔三角测量、蓝牙信标、IP地址或其他位置传感技术。

在一些情况下，数据处理系统102可以基于触发关键词或请求而识别远程内容提供者106，由此来建立会话。为了基于触发关键词而识别内容提供者106，数据处理系统102可以在数据存储库124中执行查找以识别被映射至触发关键词的内容提供者106。例如，如果触发关键词包括“ride(乘坐)”或“to go to(要去到)”，则数据处理系统102(例如经由直接动作API 116)可以识别内容提供者106(或其网络地址)对应于出租车服务公司A。数据处理系统102可以基于所识别的内容提供者106从模板数据库选择模板。数据处理系统102可以通过引导基于互联网的搜索而识别内容提供者106。

数据处理系统102可以包括、执行、访问或以其他方式与会话控制器组件114通信以在计算设备104和数据处理系统102之间建立通信会话。通信会话还可以指数据处理系统102和内容提供者106之间的一个或多个数据传输。计算设备104和数据处理系统102之间的通信会话可以包括由计算设备104的传感器134所检测到的输入音频信号的传输，以及由数据处理系统102传送到计算设备104的输出信号的传输。数据处理系统102(例如经由会话控制器组件114)可以响应于接收到输入音频信号而建立通信会话。数据处理系统102可以设置用于通信会话的持续时间。数据处理系统102可以为通信会话设定的持续时间设置定时器或计数器。响应于定时器的到期，数据处理系统102可以终止通信会话。数据处理系统102和内容提供者106之间的通信会话可以包括从内容提供者106到数据处理系统102的数字组件的传输。数据处理系统102和内容提供者106之间的通信会话还可以包括到内容提供者106的数据阵列的传输。通信会话可以指基于网络的通信会话，其中数据(例如数字组件、认证信息、证书等等)在数据处理系统102和内容提供者106之间以及数据处理系统102和计算设备104之间传送。

数据处理系统102可以包括、执行或与音频信号生成器组件122通信以生成输出信号。输出信号可以包括一个或多个部分。输出信号可以包括在从内容提供者106接收到的数字组件中识别的内容。

音频信号生成器组件122可以生成输出信号，其第一部分具有对应于第一数据结构的声音。例如，音频信号生成器组件122可以基于由直接动作API 116填充到动作数据结构的字段中的一个或多个值来生成输出信号的第一部分。在出租车服务的示例中，字段的值可以包括例如123Main Street(123主街)作为接乘客位置，1234Main Street(1234主街)作为目的地位置，乘客数目为2，且服务等级为经济。

数据处理系统102(例如经由接口110和网络105)可以传送包括由音频信号生成器组件122生成的输出信号的数据分组。输出信号可以使得计算设备104的音频驱动器组件138或由计算设备104执行的音频驱动器组件138驱动计算设备104的扬声器(例如换能器136)生成对应于输出的声波。

内容提供者106可以提供网站、货物或服务(所有都被一般地称为数字组件)给计算设备104和数据处理器系统102。服务和货物可以是物理上提供的服务和货物(例如，服装、汽车服务以及其他消耗等等)且与数字组件相关联。例如，用于汽车服务的数字组件可以是网站，用户通过该网站调度汽车服务。与服务和货物相关联的数字组件可以是用于货物或服务的购买、发起、建立或者与货物和服务相关的其他交易的数字组件。

内容提供者106可以在数字组件中包括一个或多个关键词。关键词可以在元标记、报头串、数字组件的本体、以及链接中。在接收到数字组件之后，导航组件118可以分析关键词以将数字组件(或与数字组件相关联的内容提供者106)分类为不同的类别。例如，数字组件可以被分类成识别数字组件的一般主题的新闻、零售等等类别。导航组件118可以至少部分地基于数字组件的类别从交互模型130中选择交互模型。

数字组件可以经由计算设备104的显示设备来渲染或者可以在数据处理系统102上被渲染。渲染可以包括在显示设备上显示内容项。在一些实施方式中，计算设备104不包括显示设备来渲染数字组件。例如，计算设备104可以只通过经由计算设备104的扬声器播放数字组件来渲染数字组件。数据处理系统102可以充当中间物且使得计算设备104能够与数字组件以基于音频的方式交互。计算设备104可以包括安装在客户端计算设备104上的应用、脚本或程序，诸如用来将输入音频信号通信到数据处理系统102的接口110的app。应用还可以驱动计算设备104的组件来渲染输出音频信号。

图2图示说明用于在语音激活的基于数据分组的计算机网络中检索和与数字组件交互的示例方法200的框图。图3图示说明在图2中所图示的方法200的过程期间通过图1中所图示的系统的示例数据流的框图。方法200包括接收输入音频信号(ACT 202)。方法200包括解析输入音频信号以识别请求、内容提供者和触发关键词(ACT 204)。方法200包括生成动作数据结构(ACT 206)。方法200包括建立与内容提供者的会话(ACT 208)。方法200包括渲染接收到的数字组件(ACT 210)。方法200包括选择交互模型(ACT 212)。方法200包括基于交互模型生成数据阵列(ACT 214)。方法200包括传送数据阵列到内容提供者(ACT 216)。

如上所阐述，且参看图2-3，方法200包括接收输入音频信号(ACT202)。数据处理系统102可以从计算设备104接收输入音频信号320。输入音频信号320可以由数据处理系统102经由NLP组件112在网络上接收。NLP可以由数据处理系统102来执行。数据处理系统102可以接收输入音频信号320作为包括输入音频信号的数据分组。输入音频信号可以由诸如麦克风的计算设备104的传感器来检测。

方法200包括解析输入音频信号以识别请求、内容提供者和触发关键词(ACT204)。输入音频信号可以由自然语言处理组件112来解析。例如，由计算设备104检测到的音频信号可以包括“Okay device,Iwant a shirt from ABC Co.(好的设备，我想要ABC Co.的衬衫)”。在这个输入音频信号中，初始触发关键词可以包括“okay device(好的设备)”，其可以向技术设备104指示传送输入音频信号到数据处理系统102。计算设备104的预处理器可以在发送剩余音频信号到数据处理系统102之前过滤掉词项“okay device”。在一些情况下，计算设备104可以过滤掉附加词项或生成关键词以传送到数据处理系统102进行进一步处理。

数据处理系统102可以识别输入音频信号320中的触发关键词。触发关键词，其可以是词组，在上面的示例中，可以包括“I want a shirt(我想要衬衫)”。触发关键词可以指示服务或商品的类型(例如，衬衫(shirt))以及要采取的动作。数据处理系统102可以识别输入音频信号中的请求。请求可以基于术语“I want(我想要)”而确定。触发关键词和请求可以使用语义处理技术或其他自然语言处理技术来确定。数据处理系统102可以识别内容提供者106为ABC公司(ABC Co.)。数据处理系统102可以识别与内容提供者106ABC公司相关联的网站、IP地址或内容提供者106的其他网络位置。

方法200包括生成动作数据结构(ACT 206)。直接动作应用编程接口可以基于触发关键词生成动作数据结构。动作数据结构还可以响应于请求和识别的内容提供者106而生成。动作数据结构可以从或基于模板来生成。模板可以基于触发关键词和识别的内容提供者106来选择。生成的动作数据结构可以包括与完成与触发关键词相关联的动作有关的信息和数据。例如，对于“I want a shirt from ABC Co.”，模板可以指示与购买衬衫有关的所需的信息可以包括尺码、优选颜色、优选样式以及优选价格范围。数据处理系统102可以用从存储器中检索到的值或者基于用户对于从数据处理系统102传送到计算设备104的输出信号的响应而填充动作数据结构中的字段。数据处理系统102可以填充安全字段，所述安全字段诸如来自可以存储在数据处理系统102或计算设备104上的安全钱包的用户证书。数据处理系统102可以在从安全钱包获得信息之前从用户请求访问安全钱包的许可。

方法200包括建立与内容提供者的会话(ACT 208)。数据处理系统102可以响应于在输入音频信号中识别内容提供者106而建立与内容提供者的通信会话322。通信会话322可以被建立以从内容提供者106接收数字组件。会话可以使用超文本传输协议来建立。会话可以利用来自数据处理系统102对内容提供者106的请求而建立。请求324可以针对在对请求324的响应325中传送的网页。

方法200包括渲染接收到的数字组件(ACT 210)。接收到的数字组件可以由数据处理系统102的导航组件118来渲染。图3图示说明数字组件的部分渲染300。继续上面的示例，数字组件可以响应于输入音频信号“I want a shirt from ABC Co.(我想要ABC Co.的衬衫)”而接收。渲染的数字组件300可以包括输入域302、按钮304、菜单、图像域(imagefield)306、图像308以及文本310(通常被称为数字组件的组件或元件)。按钮、链接、输入域和单选按钮可以通常被称为输入元件。数字组件可以在没有图形用户界面的情况下被渲染。例如，数字组件300可以是HTML文档，其由无界面浏览器渲染。导航组件118的无界面浏览器可以包括布局引擎，其可以渲染数字组件300的代码，诸如数字组件内的HTML和JavaScript。当以无界面形式渲染数字组件时，导航组件118可以将数字组件300渲染为可以用导航组件118的机器视觉组件来分析的图像文件。

方法200包括选择交互模型(ACT 212)。导航组件118可以选择与内容提供者106相关联的交互模型。导航组件118可以在两种一般类型的交互模型之间进行选择。第一模型可以是通用模型，其可能对于与特定类别相关联的每个内容提供者106来说是相同的。例如，数据处理系统102可以包括用于购物网站的通用模型；用于保险网站的通用模型；用于酒店预订网站的通用模型；以及用于食品递送网站的通用模型。第二种类型的模型可以特定用于内容提供者106(或从内容提供者106接收到的数字组件)。

此外，还可以使用作为特定数据模型的第二模型。例如，模型可以特定于ABC公司。诸如访问商品的链接的放置、特定菜单的放置以及怎样导航通过它们、具体商品在网站内怎样存储和分类的特定或特殊特征可以是包括在特定模型中的信息。导航组件118可以使用该模型来解释数字组件300。导航组件118可以在数据处理系统102和内容提供者106之间建立预先确定数目的会话之后生成特定交互模型。例如，最初数据处理系统102在与给定内容提供者106交互时可以使用通用模型。来自交互的数据可以被用于构建特定交互模型。一旦数据处理系统102已经开始预先确定数目的会话且将会话数据添加到用于内容提供者106的特定模型，数据处理系统102可以开始使用用于内容提供者106的特定交互模型。当之前建立的会话的数目低于预先确定的数目时，数据处理系统102在与内容提供者106交互时可以继续使用通用交互模型。

使用所选的模型，导航组件118可以通过执行数字组件300的所保存图像文件的机器视觉分析来识别数字组件300的输入域302、按钮304、菜单、图像域306、图像308、和文本310。导航组件118还可以通过解析数字组件300的代码来识别数字组件300的组件。例如，导航组件118可以识别数字组件300内的HTML标签。作为一个示例，导航组件118可以搜索HTML标签<input>或<form>以识别输入域302。

当导航组件118识别图像或按钮时，导航组件118可以对图像或按钮执行机器视觉分析以确定图像或按钮的一个或多个特性。这些特性可以包括对图像内颜色的确定(例如在图像308中所图示的那件衬衫是红色衬衫)、对图像中对象的识别(例如图像308图示说明的是衬衫)、或者图像或按钮内的文本或图标(例如，按钮304包括指示“下一个”的箭头或者按钮304是否包括了文本“下一个”)。

方法200包括基于交互模型生成数据阵列(ACT 214)。数据阵列可以由导航组件118基于在数字组件300中识别的信息而使用交互模型来生成。数字阵列可以使用来自动作数据结构的信息来生成。例如，使用交互模型，导航组件118可以确定文本310陈述“尺码”且与输入域302相关联。动作数据结构可以在字段“尺码”中包括“中等”的条目。导航组件118可以在数据阵列中包括“中等”且将数据阵列输入到输入域302中以指出应该选择中等尺码的衬衫。

方法200包括传送数据阵列到内容提供者(ACT 216)。数据阵列330可以输入到输入域302。数据阵列330可以响应于导航组件118选择另一输入域(诸如按钮304)而被传送到内容提供者106。数据阵列330可以响应于HTTP POST或GET方法而被传送到内容提供者106。数据处理系统102可以继续与数字组件交互以完成在输入音频信号中识别的动作。例如，在图3中所图示的示例中，数据处理系统102可以重复方法200的ACT以选择衬衫、结账或购买衬衫、随后发送确认到客户端计算设备102。

数据处理系统102可以建立数据处理系统102和计算设备104之间的通信会话322。通信会话322可以由常规应用编程接口来建立。通信会话322可以是实时、基于来回的语音或音频的交谈会话。数据处理系统102可以建立与计算设备104的通信会话322以检索用于动作数据结构或数据阵列的附加信息。例如，数据处理系统102可以利用使得计算设备104的换能器生成“What is your preferred color(你喜欢什么颜色)”声波的指令传送输出音频信号326。用户可以响应于输出音频信号326而提供第二输入音频信号328。自然语言处理器组件112可以处理第二输入音频信号328以识别用户的响应，其在本示例中可以是“red(红色)”。导航组件118可以基于交互模型和在第二输入音频信号328中识别的响应来生成第二数据阵列332。第二数据阵列332可以被传送到内容提供者106。

数据处理系统102可以建立与第二计算设备104的通信会话，第二计算设备104与原始传送输入音频信号的第一计算设备104的用户相关联。例如，第一计算设备104可以是基于语音的数字辅助扬声器系统而第二计算设备104可以是用户的智能电话。数据处理系统102可以经由第二计算设备104向用户请求附加信息或确认。例如，在图3中所图示的示例中，数据处理系统102可以提供所选衬衫的两个图像给用户的智能电话并且请求用户选择两个衬衫之一。在完成购买或进行预定之前，数据处理系统102可以经由第一计算设备104请求动词确认或经由第二计算设备104请求确认(例如，“buy(购买)”按钮的选择)。

图4是示例计算机系统400的框图。计算机系统或计算设备400可以包括或用于实现系统100、或者其组件，诸如数据处理系统102。数据处理系统102可以包括智能个人助理或基于语音的数字助理。计算系统400包括总线405或其他通信组件来通信信息，还包括耦合到总线405的处理器410或处理电路来处理信息。计算系统400还可以包括耦合到总线的一个或多个处理器410或处理电路来处理信息。计算系统400还包括耦合到总线405的主存储器415用于存储信息，诸如随机存取存储器(RAM)或其他动态存储设备，还包括要由处理器410执行的指令。主存储器415可以是或包括数据存储库124。主存储器415还可以用于在处理器410执行指令期间存储位置信息、临时变量、或其他中间信息。计算系统400可以进一步包括耦合到总线405用于存储静态信息和用于处理器410的指令的只读存储器(ROM)420或其他静态存储设备。存储设备42，诸如固态设备、磁盘或光盘，可以耦合到总线405以永久存储信息和指令。存储设备425可以包括或者是数据存储库124的一部分。

计算系统400可以经由总线405耦合到显示器435，诸如液晶显示器或有源矩阵显示器，用于向用户显示信息。输入设备430，诸如包括字母数字和其他键的键盘，可以耦合到总线405用来将信息和命令选择通信到处理器410。输入设备430可以包括触摸屏显示器435。输入设备430还可以包括光标控制，诸如鼠标、轨迹球或光标方向键，用于将方向信息和命令选择通信到处理器410并且用于控制显示器435上的光标移动。显示器435可以是例如数据处理系统102、客户端计算神104或图1的其他组件的一部分。

这里所述的处理、系统和方法可以由计算系统400响应于处理器410执行在主存储器415中包含的指令的布置而实现。这样的指令可以从诸如存储设备425的另一计算机可读介质被读入到主存储器415中。主存储器415中包含的指令的布置的执行使得计算系统400执行这里所述的说明性过程。在多处理布置中的一个或多个处理器还可以用于执行在主存储器415中包含的指令。硬连线电路可以与本文所述的系统和方法一起用于代替软件指令或与软件指令组合使用。这里所述的系统和方法不限于硬件电路和软件的任何特定组合。

尽管在图4中已经描述了示例计算系统，包括本说明书中所述的操作的主题可以以其他类型的数字电子电路、或以计算机软件、固件或硬件来实现，包括在本说明书所公开的结构及其结构等价物，或者以上述一个或多个的组合。

对于这里所讨论的系统收集有关用户的个人信息或者利用个人信息的情形，可以向用户提供机会来控制可以收集个人信息(例如有关用户社交网络、社会行为或活动、用户偏好或用户位置的信息)的程序或特征，或者控制是否和/或怎样从可能与用户更加相关的内容服务器或其他数据处理系统接收内容。而且，在被存储或使用之前，特定数据可以以一种或多种方式被匿名，使得当生成参数时个人可识别信息被去除。例如，用户的身份信息可以被匿名，使得不会为用户确定任何个人可识别信息，或者用户的地理位置可以被广义化到获得位置信息的地方(诸如到城市、邮编、或州一级)，使得用户的特定位置不会被确定。这样，用户可以控制怎样收集和内容服务器怎样使用有关他或她的信息。

本说明书中所述的主题和操作可以用数字电子电路、或者以计算机软件、固件或硬件，包括在本说明书中公开的结构及其结构等价物，或者以上述一个或多个的组件来实现。本说明书中所述的主题可以被实现为一个或多个计算机程序，例如计算机程序指令的一个或多个电路，在一个或多个计算机存储介质上编码，以便由数据处理装置执行或者控制数据处理装置的操作。可替选地或此外，程序指令可以在人工生成的传播信号上编码，例如机器生成的电、光或电磁信号，其被生成以编码信息用来传输到合适的接收机装置以便由数据处理装置执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或者以上一个或多个的组合，或者被包括在其中。尽管计算机存储介质不是传播信号，计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质还可以是一个或多个分立组件或介质(例如多个CD、盘或者其他存储设备)，或者被包括在其中。本说明书中所述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据所执行的操作。

术语“数据处理系统”、“计算设备104”、“组件”或“数据处理装置”包含用于处理数据的各种装置、设备和机器，包括例如可编程处理器、计算机、片上系统、或多个装置、或前述的组合。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，装置还可以包括为所述计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或以上一个或多个的组件的代码。装置和执行环境可以实现各种不同计算模型基础设施，诸如web服务、分布式计算和网格计算基础设施。例如，直接动作API 116、NLP组件112和其他数据处理系统102组件可以包括或共享一个或多个数据处理装置、系统、计算设备或处理器。

计算机程序(也被称为程序、软件、软件应用、app、脚本或代码)可以以任何形式的编程语言来编写，包括编译或解释语言、声明或过程性语言，并且可以以任何形式部署，包括作为单独程序或者作为模块、组件、子例程、对象或适合用于计算环境中的其他单元。计算机程序可以对应于文件系统中的文件。计算机程序可以存储在保持其他程序或数据的文件(例如，标记语言文档中存储的一个或多个脚本)的一部分中、专用于所述程序的单个文件中、或者多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在一个计算机上或位于一个站点或分布在多个站点且由通信网络互连的多个计算机上执行。

本说明书中所述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器(例如，数据处理系统102的组件)来执行以通过对输入数据操作并生成输出而执行动作。过程和逻辑流程还可以由专用逻辑电路来执行，且装置还可以被实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM以及闪存存储器设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充，或者并入专用逻辑电路中。

这里所述的主题可以用包括诸如数据服务器的后端组件、或者包括诸如应用服务器的中间件组件、或者包括诸如具有用户可以与计算机系统100或这里所述的其他元件交互的图形用户界面和web浏览器的客户端计算机的前端组件、或者一个或多个这样的后端、中间件或前端组件的组合的计算系统来实现。系统的组件可以由任何形式或介质的数字数据通信来互连，诸如通信网络。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、互联网络(例如互联网)、以及对等网络(例如自组织对等网络)。

诸如系统100的计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离且典型地通过通信网络(例如网络105)交互。客户端和服务器的关系由在相应计算机上运行且彼此具有客户端-服务器关系的计算机程序而产生。服务器可以传送数据(例如，代表内容项的数据分组)到计算设备104(例如，为了向与计算设备104交互的用户显示数据或从该用户接收用户输入)。在计算设备104上生成的数据(例如用户交互的结果)可以在服务器处从计算设备104接收(例如，由数据处理系统102从计算设备104或内容提供者106接收)。

尽管以特定次序在附图中描绘了操作，这样的操作并不需要以所示的特定次序或者以顺序的次序来执行，而且并不需要执行所有图示的操作。这里所述的动作可以以不同次序来执行。

各种系统组件的分离并不需要所有实施方式中的分离，而且所述程序组件可以包括在单个硬件或软件产品中。例如，NLP组件112可以是单一组件、app、或程序、或者具有一个或多个处理电路的逻辑器件、或者数据处理系统102的一个或多个服务器的一部分。

现在已经描述了一些说明性实施方式，很明显前述的都是说明性的而非限制，通过举例的方式来呈现。特别是，尽管这里呈现的许多示例涉及方法动作或系统元件的特定组合，这些动作和这些元件可以以其他方式组合来完成相同目标。结合一个实施方式所讨论的动作、元件和特征不希望从其他实施方式或实施方式方式中的类似角色中被排除。

这里所使用的措辞和术语是为了描述并且不应该被视为限制。“包括”、“具有”、“包含”、“涉及”、“特征包括”、“特征在于”及其在此的变化的使用，意味着包含此后所列出的项目、其等价物和附加的项，以及由此后所列项唯一构成的替选实施方式。在一个实施方式中，这里所述的系统和方法由一个或、多于一个的每个组合、或者所有所述元件、动作或组件构成。

对这里以单数相称的系统和方法的实施方式或元件或动作的任何引用还可以包含包括多个这些元件的实施方式，而这里对任何实施方式或元件或动作的复数的任何引用还可以包含只包括单个元件的实施方式。单数或复数形式的引用不旨在限制当前公开的系统或方法、其组件、动作或元件为单一或多个配置。对基于任何信息、动作或元件的任何动作或元件的引用可以包括动作或元件至少部分地基于任何信息、动作或元件的实施方式。

这里公开的任何实施方式可以与任何其他实施方式或实施例组合，且对“实施方式”、“一些实施方式”、“一个实施方式”等的引用不必相互排斥而是旨在表示结合实施方式所述的特定特征、结构或特性可以包括在至少一个实施方式或实施例中。这里使用的这样的术语不必都指代相同的实施方式。任何实施方式可以包含性地或排他性地、以与这里所公开的方面和实施方式相同的任何方式与任何其他实施方式相组合。

对“或”的引用可被解释为包括，使得使用“或”来描述的任何术语可以指示单个、多于一个、以及所有所述术语中的任何。例如，对“‘A’或‘B’中至少一个”的引用可以包括仅仅‘A’、仅仅‘B’以及‘A’和‘B’二者。结合“包括”或其他开放性术语而使用的这样的引用可以包括附加项。

尽管附图、具体实施方式或任何权利要求中的技术特征之后紧跟着参考标记，参考标记被包括用来增加附图、具体实施方式和权利要求的可理解性。因此，是否有参考标记对于任何权利要求元素的范围没有任何限制效果。

这里所述的系统和方法可以体现为其他特定形式而不背离其特性。前述实施方式是说明性的，而非对所述系统和方法的限制。这里所述的系统和方法的范围因此由所附权利要求书、而不是前述的描述来指示，这里包含落入权利要求的含义和等价范围内的改变。

Claims

1.一种用于在基于语音激活数据分组的计算机网络环境中检索数字组件的系统，包括：

具有一个或多个处理器的数据处理系统；

自然语言处理器组件，所述自然语言处理器组件由所述数据处理系统执行以解析经由第一客户端设备的传感器获取的输入音频信号以识别请求和将满足所述请求的内容提供者；和

由所述数据处理系统执行的导航组件，所述导航组件用于：

使用从所述输入音频信号中识别的所述请求来识别所述内容提供者的数字组件，所述数字组件具有图形用户界面的一个或多个输入元件；

使用所述图形用户界面的所述一个或多个输入元件在所述第一客户端设备或第二客户端设备中的至少一个上渲染与所述数字组件相对应的图像；

选择所述数字组件的交互模型，以识别与所述内容提供者的所述数字组件相对应的所述图像中的所述一个或多个输入元件；

根据所述交互模型，生成数据阵列以包括与所述图像相对应的所述数字组件的所述一个或多个输入元件中的至少一个输入元件的信息；和

将所述数据阵列提供给所述内容提供者以满足从所述输入音频信号中识别的所述请求。

2.根据权利要求1所述的系统，其中，所述导航组件进一步用于向所述第一客户端设备提供输出音频信号以检索附加信息以满足从所述输入音频信号中识别的所述请求，所述系统进一步包括：

对话应用编程接口，所述对话应用编程接口由所述数据处理系统执行以经由与所述第一客户端设备建立的通信会话接收在所述输出音频信号的所述提供之后经由所述第一客户端设备的所述传感器获取的第二输入音频信号；和

其中，所述自然语言处理器组件进一步用于解析所述第二输入音频信号以识别响应；和

所述导航组件进一步用于根据所述交互模型来生成第二数据阵列以包括对所述数字组件的所述一个或多个输入元件中的至少一个输入元件的所述响应。

3.根据权利要求1所述的系统，其中，所述导航组件进一步用于：

使用所述图形用户界面的所述一个或多个输入元件在与所述第一客户端设备相关联的所述第二客户端设备上渲染与所述数字组件相对应的所述图像；

经由所述第二客户端设备接收与所述图形用户界面的所述数字组件的所述输入元件中的至少一个输入元件的交互；和

根据所述交互模型使用与和所述数字组件的所述交互相对应的数据生成第二数据阵列。

4.根据权利要求1所述的系统，其中，所述导航组件进一步用于使用训练数据建立要从中选择的多个交互模型，所述多个交互模型包括：

为动作类别定义的第一交互模型，

为多个内容提供者中的对应内容提供者定义的第二交互模型，以及

为多个数字组件中的对应数字组件定义的第三交互模型。

5.根据权利要求1所述的系统，其中，所述导航组件进一步用于：

识别所述客户端设备与所述内容提供者或所述数字组件中的至少一个之间的先前会话数目；和

基于所述先前会话数目来从多个交互模型中选择所述数字组件的所述交互模型，所述多个交互模型包括响应于确定所述先前会话数目少于或等于阈值数目而要选择的第一交互模型和响应于确定所述先前会话数目大于所述阈值数目而要选择的第二交互模型。

6.根据权利要求1所述的系统，其中，所述导航组件进一步用于：

解析为所述内容提供者识别的所述数字组件的内容，以识别与所述数字组件相关联的动作类别；和

基于所述动作类别来从多个交互模型中选择所述数字组件的所述交互模型。

7.根据权利要求1所述的系统，其中，所述导航组件进一步用于：

使用从所述输入音频信号中识别的所述请求来识别所述数字组件，所述数字组件不能容许与所述一个或多个输入元件中的任一个的基于语音的交互；和

使用所述图形用户界面的所述一个或多个输入元件无界面地渲染与所述数字组件相对应的所述图像。

8.根据权利要求1所述的系统，其中，所述导航组件进一步用于：

响应于从所述输入音频信号中的所述内容提供者的所述识别，建立与所述内容提供者的通信会话；和

使用从所述输入音频信号中识别的所述请求，经由所述通信会话从所述内容提供者接收所述数字组件，所述数字组件包括非音频元件。

9.根据权利要求1所述的系统，其中，所述导航组件进一步用于解析与所述数字组件相对应的脚本以识别所述数字组件的所述图形用户界面的所述一个或多个输入元件。

10.根据权利要求1所述的系统，其中，所述导航组件进一步用于使用机器视觉分析来识别来自所述数字组件的所述图形用户界面的所述一个或多个输入元件。

11.根据权利要求1所述的系统，进一步包括：

直接动作应用编程接口，所述直接动作应用编程接口由所述数据处理系统执行以基于对所述输入音频信号的所述解析来生成动作数据结构；和

其中，所述导航组件进一步用于生成所述数据阵列以包括动作数据结构，以提供给所述内容提供者以满足所述请求。

12.根据权利要求1所述的系统，其中，所述自然语言处理器组件进一步用于：

解析所述输入音频信号以识别定义所述请求的触发关键词，以及

基于所述请求或所述触发关键词中的至少一个来识别要通信的所述内容提供者。

13.一种在基于语音激活数据分组的计算机网络环境中检索数字组件的方法，包括：

由具有一个或多个处理器的数据处理系统解析经由第一客户端设备的传感器获取的输入音频信号以识别请求和将满足所述请求的内容提供者；和

由所述数据处理系统使用从所述输入音频信号中识别的所述请求来识别所述内容提供者的数字组件，所述数字组件具有图形用户界面的一个或多个输入元件；

由所述数据处理系统选择所述数字组件的交互模型，以识别与所述内容提供者的所述数字组件相对应的所述图像中的所述一个或多个输入元件；

由所述数据处理系统根据所述交互模型，生成数据阵列以包括与所述图像相对应的所述数字组件的所述一个或多个输入元件中的至少一个输入元件的信息；和

由所述数据处理系统将所述数据阵列提供给所述内容提供者以满足从所述输入音频信号中识别的所述请求。

14.根据权利要求13所述的方法，进一步包括：

由所述数据处理系统向所述第一客户端设备提供输出音频信号以检索附加信息以满足从所述输入音频信号中识别的所述请求；

由所述数据处理系统经由与所述第一客户端设备建立的通信会话接收在所述输出音频信号的所述提供之后经由所述第一客户端设备的所述传感器获取的第二输入音频信号；

由所述数据处理系统解析所述第二输入音频信号以识别响应；和

由所述数据处理系统根据所述交互模型来生成第二数据阵列以包括对所述数字组件的所述一个或多个输入元件中的至少一个输入元件的所述响应。

15.根据权利要求13所述的方法，进一步包括：

由所述数据处理系统根据所述交互模型使用与和所述数字组件的所述交互相对应的数据生成第二数据阵列。

16.根据权利要求13所述的方法，进一步包括由所述数据处理系统使用训练数据建立要从中选择的多个交互模型，所述多个交互模型包括：

为动作类别定义的第一交互模型，

为多个数字组件中的对应数字组件定义的第三交互模型。

17.根据权利要求13所述的方法，进一步包括：

由所述数据处理系统识别所述客户端设备与所述内容提供者或所述数字组件中的至少一个之间的先前会话数目；和

由所述数据处理系统基于所述先前会话数目来从多个交互模型中选择所述数字组件的所述交互模型，所述多个交互模型包括响应于确定所述先前会话数目少于或等于阈值数目而要选择的第一交互模型和响应于确定所述先前会话数目大于所述阈值数目而要选择的第二交互模型。

18.根据权利要求13所述的方法，进一步包括：

由所述数据处理系统解析为所述内容提供者识别的所述数字组件的内容，以识别与所述数字组件相关联的动作类别；和

由所述数据处理系统基于所述动作类别来从多个交互模型中选择所述数字组件的所述交互模型。

19.根据权利要求13所述的方法，进一步包括：

由所述数据处理系统响应于从所述输入音频信号中的所述内容提供者的所述识别，建立与所述内容提供者的通信会话；和

由所述数据处理系统使用从所述输入音频信号中识别的所述请求，经由所述通信会话从所述内容提供者接收所述数字组件，所述数字组件包括非音频元件。

20.根据权利要求13所述的方法，进一步包括：

由所述数据处理系统基于对所述输入音频信号的所述解析来生成动作数据结构；和

由所述数据处理系统生成所述数据阵列以包括动作数据结构，以提供给所述内容提供者以满足所述请求。