CN117150079A

CN117150079A - 对网络中的数字内容的基于语言的搜索

Info

Publication number: CN117150079A
Application number: CN202311062769.1A
Authority: CN
Inventors: 马苏德·洛格马尼; 安舒·科塔里; 阿南斯·德武拉帕利
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-07
Filing date: 2019-04-08
Publication date: 2023-12-01
Also published as: US20200342856A1; US20190341028A1; JP7021368B2; WO2019217018A1; KR20220116361A; KR102433255B1; KR20200130400A; US10733984B2; CN111279333B; JP7311653B2; US20240062749A1; EP3685280A1; CN111279333A; US11776536B2; JP2022070886A; KR102619568B1; JP2021521525A

Abstract

本发明涉及对网络中的数字内容的基于语言的搜索。该解决方案可以使用户能够通过触摸界面和通过语音命令与视频和其他内容进行交互。除了诸如停止和播放的输入之外，本解决方案还可以为所显示的视频文件自动地生成注释。根据注释，该解决方案可以识别与视频中的不同场景、视频部分或操作步骤相关联的一个或多个断点。数字助理可以接收输入音频信号并解析该输入音频信号，以识别该输入音频信号内的语义实体。数字助理可以将所识别的语义实体映射到注释，以选择与该输入音频信号中的用户请求相对应的视频的部分。

Description

对网络中的数字内容的基于语言的搜索

分案说明

本申请属于申请日为2019年4月8日的中国发明专利申请No.201980005354.6的分案申请。

相关申请的交叉引用

本申请要求于2018年5月7日提交的题为“MULTI-MODAL INTERFACE IN A VOICE-ACTIVATED NETWORK(语音激活网络中的多模态接口)”的美国非临时专利申请No.15/973,447的优先权，其全部内容通过引用合并于本文中。

背景技术

计算设备可以向联网的客户端设备提供数字内容。可能需要过多的网络传输才能在提供的数字内容中找到特定的位置或内容。另外，基于语音的接口可能不能移动到数字内容内的特定位置，当数字内容的实体被发送到网络客户端设备时，这可能导致网络资源浪费。

发明内容

根据本公开的至少一个方面，一种用于控制语音激活系统中的数字组件的系统可以包括数据处理系统。该数据处理系统可以包括一个或多个处理器和存储器。数据处理系统可以执行自然语言处理器(“NLP”)组件、注释组件和解析组件。自然语言处理器组件可以接收由客户端计算设备处的传感器检测到的第一输入音频信号。自然语言处理器组件可以解析第一输入音频信号，以识别第一输入音频信号中的第一数字组件请求。注释组件可以至少基于在第一数字组件中识别的话音来生成第一数字组件的第一注释集合。解析组件可以至少基于第一注释集合来识别多个断点。自然语言处理器组件可以接收由客户端计算设备处的传感器检测到的第二输入音频信号。自然语言处理器组件可以解析第二输入音频信号，以识别第二输入音频信号中的词项。解析组件可以基于该词项从多个断点中选择断点。解析组件可以发送第一数字组件的对应于断点的一部分。

该系统可以进一步包括内容选择组件，该内容选择组件用于基于从多个断点中选择的断点来选择第二数字组件，并将第二数字组件与第一数字组件的对应于断点的一部分发送到客户端计算设备。注释组件可以基于数字组件中的图像来生成第一数字组件的第二注释集合，并且解析组件可以基于第二注释集合来识别多个断点。

注释组件可以基于数字组件中的隐藏字幕数据来生成第一数字组件的第二注释集合。注释组件可以从第二客户端计算设备接收第一数字组件的第二注释集合。解析组件可以基于第二注释集合来识别多个断点。解析组件可以识别数字组件中的场景转换，并基于场景转换来识别多个断点。

自然语言处理器组件可以接收由客户端计算设备处的传感器检测到的第三输入音频信号，解析第三输入音频信号以识别多个断点中的第二断点的指示，并且解析组件可以向客户端计算设备发送第一数字组件的对应于第二断点的第二部分。自然语言处理器组件可以解析第一输入音频信号，以识别第一输入音频信号中的第一语义表示，并且解析组件可以基于第一语义含义从多个断点中选择断点。解析组件可以基于多个断点来生成第一数字组件的多个部分，并且可以确定第一数字组件的多个部分中的每个部分的语义表示。

注释组件可以基于第一数字组件的多个部分中的每个部分的语义表示来生成第一数字组件的第二注释集合，并且解析组件可以基于第二注释集合来识别多个断点。多个断点中的每个断点可以对应于不同场景的开始。解析组件可以生成第二数字组件，该第二数字组件包括多个断点中的每个断点的指示，并且向客户端计算设备发送第二数字组件以用于与第一数字组件的对应于断点的部分一起呈现。自然语言处理器组件可以从客户端计算设备接收包括多个断点中的一个断点的选择的第三输入音频信号，并且解析组件可以基于多个断点中的一个断点的选择来从多个断点中选择断点。

根据本公开的至少一个方面，一种用于控制语音激活系统中的数字组件的方法可以包括：通过由数据处理系统执行的自然语言处理器组件并经由所述数据处理系统的接口，接收由客户端计算设备处的传感器检测到的第一输入音频信号。该方法可以包括：由自然语言处理器组件解析第一输入音频信号，以识别第一输入音频信号中的第一数字组件请求。该方法可以包括：通过由数据处理系统执行的注释组件至少基于在第一数字组件中识别的话音，生成第一数字组件的第一注释集合。该方法可以包括：通过由数据处理系统执行的解析组件至少基于第一注释集合，识别多个断点。该方法可以包括：通过自然语言处理器组件接收由客户端计算设备处的传感器检测到的第二输入音频信号。该方法可以包括：由自然语言处理器组件解析第二输入音频信号，以识别第二输入音频信号中的词项。该方法可以包括：由解析组件基于该词项从多个断点中选择断点。该方法可以包括：由解析组件向客户端计算设备发送第一数字组件的对应于断点的部分。

该方法可以进一步包括：通过由数据处理系统执行的内容选择组件基于从多个断点中选择的断点来选择第二数字组件，以及由内容选择组件向客户端计算设备发送第二数字组件及第一数字组件的对应于断点的部分。该方法可以进一步包括：由注释组件基于数字组件中的图像来生成第一数字组件的第二注释集合，以及由解析组件基于第二注释集合来识别多个断点。

该方法可以进一步包括：由注释组件基于数字组件中的隐藏字幕数据来生成第一数字组件的第二注释集合。该方法可以进一步包括：由注释组件从第二客户端计算设备接收第一数字组件的第二注释集合，以及由解析组件基于第二注释集合来识别多个断点。该方法可以进一步包括：由解析组件识别数字组件中的场景转换，以及由解析组件至少基于场景转换来识别多个断点。

该方法可以进一步包括：由自然语言处理器组件接收由客户端计算设备处的传感器检测到的第三输入音频信号，由自然语言处理器组件解析第三输入音频信号，以识别多个断点中的第二个断点的指示，并由解析组件向客户端计算设备发送第一数字组件的对应于第二个断点的第二部分。该方法可以进一步包括：由自然语言处理器组件解析第一输入音频信号，以识别第一输入音频信号中的第一语义表示，以及由解析组件基于第一语义含义从多个断点中选择断点。

该方法可以进一步包括：由解析组件基于多个断点来生成第一数字组件的多个部分，并且由解析组件确定第一数字组件的多个部分中的每个部分的语义表示。该方法可以进一步包括：由注释组件基于第一数字组件的多个部分中的每个部分的语义表示来生成第一数字组件的第二注释集合，以及由解析组件至少基于第二注释集合来识别多个断点。

多个断点中的每个断点可以对应于不同场景的开始。该方法可以进一步包括：由解析组件生成第二数字组件，该第二数字组件包括多个断点中的每个断点的指示；由解析组件向客户端计算设备发送第二数字组件以用于与第一数字组件的对应于断点的部分一起呈现。该方法还可以包括：由自然语言处理器组件从客户端计算设备接收第三输入音频信号，该第三输入音频信号包括多个断点中的一个断点的选择，以及由解析组件基于多个断点中的一个断点的选择，从多个断点中选择断点。

以下详细讨论这些方面和其他方面以及实施方式。前述信息和以下详细描述包括各个方面和实施方式的说明性示例，并且提供了用于理解所要求保护的方面和实施方式的性质和特征的概述或框架。附图提供了对各个方面和实施方式的说明和进一步的理解，并且被并入本说明书中并构成本说明书的一部分。所公开的主题的方面和实施例可以在适当的地方进行组合。

附图说明

附图不旨在按比例绘制。在各个附图中，相同的附图标记和标记指示相同的元件。为了清楚起见，并非在每个附图中都标记了每个组件。在附图中：

图1示出了根据本公开的示例的用于控制语音激活系统中的数字组件的示例系统。

图2示出了根据本公开的示例的数字组件随时间的示例表示的框图。

图3出了根据本公开的示例的用于控制语音激活系统中的数字组件的示例方法的框图。

图4示出了根据本公开的示例的在图3所示的方法期间的第一时间点处和第二时间点期间的客户端计算设备。

图5示出了根据本公开的示例的示例计算机系统的框图。

具体实施方式

以下是与在安全处理环境中传输数据的方法、装置和系统有关的各种概念以及其实现的更详细地描述。可以以许多方式中的任何一种来实现以上介绍的和以下更详细讨论的各种概念。

本公开总体上涉及控制语音激活系统中的数字组件。用于呈现视频的接口可以包括模仿机电回放设备(例如，VCR)的输入，并且包括诸如停止、播放、前进和倒回的按钮。利用这些有限的输入与语音激活系统进行交互可能很困难。另外，与视频内容交互的困难使得用户难以选择和观看视频内容的一部分。仅查找和观看视频内容的期望的部分的困难可能由于最终用户可能经常观看或下载整个视频内容而不是仅观看或下需所需的部分，而导致计算和网络浪费。

本技术解决方案的系统和方法为诸如数字助理的基于语音的设备启用了多模态接口。该解决方案可以使用户能够通过触摸界面和通过语音命令与视频和其他内容进行交互。除了诸如停止和播放的输入以外，该解决方案还可为显示的视频文件自动生成注释。根据注释，该解决方案可以识别与视频中的不同场景、视频部分或操作步骤相关联的一个或多个断点。数字助理可以接收输入音频信号，并解析输入音频信号，以识别输入音频信号内的语义实体。数字助理可以将所识别的语义实体映射到注释，以选择视频中的与输入音频信号中的用户请求相对应的部分。然后，数字助理可以跳转到视频的所选择的部分。使基于语音的数字助理的用户能够搜索视频中的特定内容能够通过使用户跳到视频的所请求的部分、使通过网络仅发送视频的一部分而不是整个视频，来减少计算和网络资源。本解决方案还向用户提供了用于与基于语音的设备上的视频交互的新的和改进的用户界面，从而改进人机交互过程。

图1示出了用于控制语音激活系统中的数字组件的示例系统100。系统100可以包括数字组件选择基础设施。系统100可以包括数据处理系统102。数据处理系统102可以经由网络105与数字组件提供者设备106(例如，内容提供者设备)或客户端计算设备104中的一个或多个通信。网络105可以包括诸如互联网、局域网、广域网、城域网或其他区域网的计算机网络、内联网、卫星网络以及诸如语音或数据移动电话网络的其他通信网络。网络105可以用于访问诸如网页、网站、域名或统一资源定位符的信息资源，该信息资源可以在诸如膝上型计算机、台式机、平板电脑、数字助理、个人数字助理、智能手表、可穿戴设备、智能手机、便携式计算机或扬声器的至少一个计算设备104上呈现、输出、渲染或显示。例如，客户端计算设备104的用户可以经由网络105访问由数字组件提供者设备106提供的信息或数据。客户端计算设备104可以包括或者可以不包括显示器。例如，客户端计算设备104可以包括诸如麦克风和扬声器的有限类型的用户接口，(例如，客户端计算设备104可以包括语音驱动的或基于音频的接口)。计算设备104的主要用户接口可以是麦克风和扬声器。

网络105可以包括或构成显示网络，例如，互联网上可用的与内容放置或搜索引擎结果系统相关联或有资格包括第三方数字组件的信息资源的子集。数据处理系统102可以使用网络105来访问可以由客户端计算设备104呈现、输出、渲染或显示的诸如网页、网站、域名或统一资源定位符的信息资源。例如，客户端计算设备104的用户可以经由网络105访问由数字组件提供者设备106提供的信息或数据。

网络105可以是任何类型或形式的网络，并且可以包括以下任何一种：点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、ATM(异步传输模式)网络、SONET(同步光网络)网络、SDH(同步数字体系)网络、无线网络和有线网络。网络105可以包括诸如红外信道或卫星频带的无线链路。网络105的拓扑可以包括总线、星形或环形网络拓扑。网络可以包括使用任何一种或多种用于在移动设备之间进行通信的协议的移动电话网络，包括高级移动电话协议(AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线电服务(“GPRS”)或通用移动电信系统(“UMTS”)。可以经由不同的协议传输不同类型的数据，或者可以经由不同的协议传输相同类型的数据。

系统100可以包括至少一个数据处理系统102。数据处理系统102可以包括至少一个逻辑设备，诸如具有处理器以经由网络105例如与计算设备104或数字组件提供者设备106进行通信的计算设备。数据处理系统102可以包括至少一个计算资源、服务器、处理器或内存。例如，数据处理系统102可以包括位于至少一个数据中心中的多个计算资源或服务器。数据处理系统102可以包括多个按逻辑分组的服务器，并且有助于分布式计算技术。服务器的逻辑组可以称为数据中心、服务器群组或机器群组。服务器也可以在地理位置上分散。数据中心或机器群组可以作为单个实体进行管理，或者机器群组可以包括多个机器群组。每个计算机群组内的服务器可以是异构的，一个或多个服务器或机器可以根据一种或多种类型的操作系统平台进行操作。

机器群组中的服务器可以与相关联的存储系统一起存储在高密度机架系统中，并且可以位于企业数据中心中。例如，通过在本地化的高性能网络上定位服务器和高性能存储系统，以这种方式整合服务器可以提高系统可管理性、数据安全性、系统的物理安全性和系统性能。包括服务器和存储系统的数据处理系统102的所有或一些组件的集中化以及将它们与高级系统管理工具联接，允许更有效地利用服务器资源，这节省了功率和处理需求并减少了带宽使用。

客户端计算设备104可以包括、执行、对接或以其他方式与至少一个本地数字助理134、至少一个传感器138、至少一个换能器140、至少一个音频驱动器142或至少一个显示器144通信。传感器138可以包括，例如，相机、环境光传感器、接近传感器、温度传感器、加速度计、陀螺仪、运动检测器、GPS传感器、位置传感器、麦克风、视频、图像检测或触摸传感器。换能器140可以包括扬声器或麦克风或可以是扬声器或麦克风的一部分。音频驱动器142可以向硬件换能器140提供软件接口。音频驱动器142可以执行由数据处理系统102提供的音频文件或其他指令，以控制换能器140生成相应的声波或声音波形。显示器144可以包括被配置成提供视觉指示或光学输出的一个或多个硬件组件或软件组件，诸如发光二极管、有机发光二极管、液晶显示器、激光器或显示器。

本地数字助理134可以包括一个或多个处理器、逻辑阵列或存储器或由其执行。本地数字助理134可以检测关键字并基于该关键字执行动作。本地数字助理134可以是在数据处理系统102处执行的远程数字助理组件112的实例，或者可以执行远程数字助理组件112的任何功能。本地数字助理134可以在将一个或多个词项作为数据发送到数据处理系统102(例如，远程数字助理组件112)以用于进一步处理之前过滤掉这些词项或者修改这些词项。本地数字助理134可以将由换能器140检测到的模拟音频信号转换成数字音频信号，并经由网络105将携带数字音频信号的一个或多个数据分组发送到数据处理系统102。响应于检测到执行这种发送的指令，本地数字助理134可以发送携带输入音频信号中的一些或全部。该指令可以包括例如触发关键字或其他关键字或向数据处理系统102发送包括输入音频信号的数据分组的批准。

本地数字助理134可以对输入音频信号执行预滤波或预处理，以移除音频的某些频率。该预滤波可以包括诸如低通滤波器、高通滤波器或带通滤波器的滤波器。滤波器可以应用于频域。可以使用数字信号处理技术来应用滤波器。滤波器可以被配置成保持对应于人类语音或人类话音的频率，同时消除超出人类话音的典型频率之外的频率。例如，带通滤波器可以被配置成移除低于第一阈值(例如，70Hz、75Hz、80Hz、85Hz、90Hz、95Hz、100Hz或105Hz)和高于第二阈值(例如，200Hz、205Hz、210Hz、225Hz、235Hz、245Hz或255Hz)的频率。应用带通滤波器可以减少下游处理中的计算资源利用率。计算设备104上的本地数字助理134可以在向数据处理系统102发送输入音频信号之前应用带通滤波器，从而降低网络带宽利用率。然而，基于计算设备104可用的计算资源和可用的网络带宽，向数据处理系统102提供输入音频信号以允许数据处理系统102执行滤波可能更有效。

本地数字助理134可以应用诸如降噪技术的附加预处理或预滤波技术，以减少可能干扰自然语言处理器的环境噪声水平。降噪技术可以提高自然语言处理器的准确性和速度，从而提高数据处理系统102的性能，并管理经由显示器144提供的图形用户界面的渲染。

客户端计算设备104可以与最终用户相关联，该最终用户(经由传感器138或换能器140)输入语音查询作为到客户端计算设备104的音频输入并且从数据处理系统102或数字组件提供者设备106接收音频(或其他)输出以向客户端计算设备104的最终用户呈现、显示或渲染。数字组件可以包括计算机生成的语音，该语音可以从数据处理系统102或数字组件提供者设备106被提供到客户端计算设备104。客户端计算设备104可以经由换能器140(例如，扬声器)向最终用户渲染计算机生成的语音。计算机生成的语音可以包括来自真实的人的录音或计算机生成的语言。客户端计算设备104可以经由通信地耦接到计算设备104的显示设备144提供视觉输出。

向客户端计算设备104输入语音查询的最终用户可以与多个客户端计算设备104相关联。例如，最终用户可以与可以是基于扬声器的数字助理设备的第一客户端计算设备104、可以是移动设备(例如，智能电话)的第二客户端计算设备104以及可以是台式计算机的第三客户端计算设备104相关联。数据处理系统102可以通过公共登录、位置、网络或其他链接数据来关联客户端计算设备104中的每个客户端计算设备104。例如，最终用户可以利用相同账户用户名和密码登录到客户端计算设备104中的每个客户端计算设备104。

客户端计算设备104可以接收由计算设备104的传感器138(例如，麦克风)检测到的输入音频信号。输入音频信号可以包括例如查询、问题、命令、指令或语言中提供的其他声明。输入音频信号可以包括问题或请求所针对的第三方(例如，数字组件提供者设备106)的标识符或名称。

客户端计算设备104可以包括数字助理设备、执行数字助理设备或被称为数字助理设备。数字助理设备可以包括计算设备104的一个或多个组件。数字助理设备可以包括图形驱动器，该图形驱动器可以从数据处理系统102接收显示输出并在显示器132上渲染该显示输出。图形驱动器可以包括控制或增强如何在显示器144上显示图形或视觉输出的硬件组件或软件组件。图形驱动器可以包括例如控制图形组件如何与计算设备104的其余部分(或数字助理)一起工作的程序。本地数字助理134可以对输入音频信号进行滤波以创建滤波后的输入音频信号，将滤波后的输入音频信号转换成数据分组，并向包括一个或多个处理器和存储器的数据处理系统发送数据分组。

数字助理设备可以包括音频驱动器142和扬声器组件(例如，换能器140)。预处理器组件140接收显示输出的指示，并指示音频驱动器142生成输出音频信号，以使扬声器组件(例如，换能器140)发送对应于显示输出的指示的音频输出。

系统100可以包括至少数字组件提供者设备106、访问至少数字组件提供者设备106或以其他方式与至少数字组件提供者设备106交互。数字组件提供者设备106可以包括可以向客户端计算设备104或数据处理系统102提供数字组件的一个或多个服务器。数字组件提供者设备106或其组件可以与数据处理系统102集成，或至少部分地由数据处理系统102执行。数字组件提供者设备106可以包括至少一个逻辑设备，诸如具有处理器以经由网络105例如与计算设备104、数据处理系统102或数字组件提供者设备106通信的计算机设备。数字组件提供者设备106可以包括至少一个计算资源、服务器、处理器、或存储器。例如，数字组件提供者设备106可以包括位于至少一个数据中心中的多个计算资源或服务器。

数字组件提供者设备106可以提供基于音频、视觉或多媒体的数字组件，以供客户端计算设备104作为音频输出数字组件、视觉输出数字组件或其混合而呈现。数字组件可以是数字内容或包括数字内容。数字组件可以是数字对象或包括数字对象。数字组件可以包括基于订阅的内容或付费内容。数字组件可以包括多个数字内容项。例如，数字组件可以是来自流音乐服务(例如，数字组件提供者设备106)的数据流。数字组件可以包括或者可以是数字电影、网站、歌曲、应用(例如，智能电话或其他客户端设备应用)或其他基于文本的内容、基于音频的内容、基于图像的内容或基于视频的内容。例如，数字组件可以是由数字内容提供者设备106向客户端计算设备104提供的操作视频、电影或其他视频。数字内容提供者设备106可以提供由数字内容提供者设备生成的数字组件、由用户上传的数字组件或来自其他数字内容提供者设备106的来源。

数字组件提供者设备106可以经由网络105向客户端计算设备104提供数字组件并绕过数据处理系统102。数字组件提供者设备106可以经由网络105和数据处理系统102向客户端计算设备104提供数字组件。例如，数字组件提供者设备106可以向数据处理系统102提供数字组件，该数据处理系统102可以存储数字组件并在由客户端计算设备104请求时向客户端计算设备104提供该数字组件。

数据处理系统102可以包括至少一个计算资源或服务器。数据处理系统102可以包括至少一个接口110、与至少一个接口110对接或以其它方式与至少一个接口110通信。数据处理系统102可以包括至少一个远程数字助理组件112、与至少一个远程数字助理组件112对接或以其它方式与至少一个远程数字助理组件112通信。远程数字助理组件112可以包括至少一个自然语言处理器组件114、与至少一个自然语言处理器组件114对接或以其它方式与至少一个自然语言处理器组件114通信。数据处理系统102可以包括至少一个数字组件选择器120、与至少一个数字组件选择器120对接或以其它方式与至少一个数字组件选择器120通信。数据处理系统102可以包括至少一个注释组件135、与至少一个注释组件135对接或以其它方式与至少一个注释组件135通信。数据处理系统102可以包括至少一个解析组件116、与至少一个解析组件116对接或以其它方式与至少一个解析组件116通信。数据处理系统102可以包括至少一个数据存储库124、与至少一个数据存储库124对接或以其它方式与至少一个数据存储库124通信。至少一个数据存储库124可以包括或存储注释126、断点128、字幕数据130和内容数据132的集合在一个或多个数据结构或数据库中。数据存储库124可以包括一个或多个本地或分布式数据库，并且可以包括数据库管理。

接口110、远程数字助理组件112、自然语言处理器组件114、数字组件选择器120、注释组件135和解析组件116各自可以包括至少一个处理单元或诸如可编程逻辑阵列引擎的其他逻辑设备，或被配置成与数据库存储库或数据库124通信的模块。接口110、远程数字助理组件112、自然语言处理器组件114、数字组件选择器120、注释组件135、解析组件和数据存储库124可以是单独的组件、单个组件或多个数据处理系统102的一部分。系统100及其组件(诸如数据处理系统102)可以包括诸如一个或多个处理器、逻辑设备或电路的硬件元件。

数据处理系统102可以包括接口110。接口110可以被配置成、被构造成或可操作地使用例如数据分组来接收和发送信息。接口110可以使用诸如网络协议的一种或多种协议来接收和发送信息。接口110可以包括硬件接口、软件接口、有线接口或无线接口。接口110可以促进将数据从一种格式转换或格式化为另一种格式。例如，接口110可以包括应用编程接口，该应用编程接口包括用于在诸如软件组件的各种组件之间进行通信的定义。

数据处理系统102可以包括安装在客户端计算设备104上的诸如本地数字助理134的应用、脚本或程序，以将输入音频信号传送到数据处理系统102的接口110并且驱动客户端计算设备的组件以渲染输出音频信号或视觉输出。数据处理系统102可以接收数据分组、数字文件或包括或识别输入音频信号(或多个输入音频信号)的其他信号。计算设备104可以经由换能器140检测音频信号，并且经由模数转换器将模拟音频信号转换成数字文件。例如，音频驱动器142可以包括模数转换器组件。预处理器组件140可以将音频信号转换成可以通过网络105经由数据分组发送的数字文件。

数据处理系统102的远程数字助理组件112可以执行或运行NLP组件114，以接收或获得包括由计算设备104的传感器138检测到的输入音频信号的数据分组。客户端计算设备104也可以执行NLP组件114的实例以在客户端计算设备104处处理语言和文本。数据分组可以提供数字文件。NLP组件114可以接收或获得包括音频信号的数字文件或数据分组并解析音频信号。例如，NLP组件114可以提供人与计算机之间的交互。NLP组件114可以配置有用于理解自然语言并使数据处理系统102能够从人或自然语言输入中获得含义的技术。NLP组件114可以包括或配置有基于机器学习的技术，诸如统计机器学习。NLP组件114可以利用决策树、统计模型或概率模型来解析输入音频信号。

NLP组件114可以执行例如以下功能：诸如命名实体识别(例如，给定文本流，确定文本中的哪些项映射为诸如人或地方的适当的名称，以及每个这样的名称是诸如人、位置或组织的何种类型)、自然语言生成(例如，将信息从计算机数据库或语义意图转换成可理解的人类语言)、自然语言理解(例如，将文本转换为更正式的表示，诸如计算机模块可以操纵的一阶逻辑结构)、机器翻译(例如，将文本从一种人类语言自动翻译成另一种人类语言、形态学分割(例如，将单词分离为单个词素并识别词素的类别，这基于所考虑的语言的单词的形态或结构的复杂性可能是具有挑战的)、问题回答(例如，确定人类语言问题的答案，其可以是特定的或开放的)和语义处理(例如，可以在识别单词并对其含义进行编码后以便将所识别的单词与具有相似含义的其他单词相关联而进行的处理)。NLP组件114可以识别所识别的单词的语义表示。通过识别语义表示，数据处理系统可以基于单词或短语的相似语义含义而不是特定单词匹配来匹配单词或短语。例如，基于语义表示的输入文本的搜索可以将同义词返回到搜索到的单词，而不仅仅是搜索到的单词的出现。

NLP组件114可以通过将输入信号与(例如，在数据存储库124中)存储的代表性的音频波形集合进行比较并选择最接近的匹配，来将输入音频信号转换为识别的文本。该音频波形集合可以存储在数据处理系统102可访问的数据存储库124或其他数据库中。可以跨较大的用户集合生成代表性波形，并且然后利用来自用户的话音样本来增强该代表性波形。在音频信号被转换成所识别的文本之后，NLP组件114将文本与单词匹配，该单词例如经由跨用户的训练或通过手动指定与数据处理系统102可以服务的动作相关联。NLP组件114可以将图像输入或视频输入转换成文本或数字文件。例如，NLP组件114可以检测视频文件中的话音，将该话音转换成文本，并且然后处理该文本。NLP组件114可以识别或接收视频文件中的隐藏字幕数据，并处理该隐藏字幕数据以识别文本或对该隐藏字幕数据执行语义分析。NLP组件114可以将数字组件中的每个数字组件的隐藏字幕数据作为字幕数据130存储在数据存储库124中。NLP组件114可以转换NLP组件114可以处理、分析或解释图像输入或视频输入，以执行动作、生成请求或选择数据结构或识别数据结构。

除了输入音频信号之外或替代输入音频信号，数据处理系统102可以接收图像输入信号或视频输入信号。数据处理系统102可以使用例如图像解释技术、计算机视觉、机器学习引擎或其他技术来处理图像输入信号或视频输入信号，以识别或解释图像或视频以将图像或视频转换成数字文件。可以将一种或多种图像解释技术、计算机视觉技术或机器学习技术统称为成像技术。除了或替代音频处理技术，数据处理系统102(例如，NLP组件114)可以配置有成像技术。

NLP组件114可以获得输入音频信号。根据输入音频信号，NLP组件114可以识别至少一个请求或与该请求相对应的至少一个触发关键字。该请求可以指示输入音频信号的意图、数字组件或主题。触发关键字可以指示可能采取的动作的类型。例如，NLP组件114可以解析输入音频信号以识别至少一个请求以跳到视频文件的特定部分。触发关键字可以包括至少一个单词、短语、词根或部分单词，或指示要采取的动作的派生词。例如，触发关键字“go(转到)”，“go to(转去)”或“skip(跳到)”以指示最终用户想要查看视频文件的特定部分。

NLP组件114可以解析输入音频信号以识别、确定、检索或以其他方式获得对数字组件的请求。数字组件可以是基于视频的文件，诸如流电影、节目或其他视频文件。例如，NLP组件114可以将语义处理技术应用于输入音频信号以识别所请求的数字组件。NLP组件114可以将语义处理技术应用于输入音频信号以识别包括诸如第一触发关键字和第二触发关键字的一个或多个触发关键字的触发短语。例如，输入音频信号可以包括句子“Play avideo of fixing a bike(播放修理自行车的视频)”。NLP组件114可以确定输入音频信号包括触发关键字“play(播放)”。NLP组件114可以确定该请求是针对被修理的自行车的数字组件(例如，视频)。

数据处理系统102的远程数字助理组件112可以执行或运行注释组件135的实例，以生成数字组件的注释集合。注释组件135可以生成被发送到客户端计算设备104以进行呈现的数字组件的注释集合。注释集合可以包括整个数字组件(例如，视频文件)的一个或多个注释，或数字组件中所识别的场景或步骤中的每个场景或每个步骤的一个或多个注释。解析组件116可以使用注释集合来确定数字组件或数字组件的场景内包含的含义、语义含义或内容。解析组件116可以使用注释集合来将输入音频信号中的请求与数字组件中所识别的场景或步骤进行匹配。注释组件135可以将注释作为注释集合126存储在数据存储库中。注释集合126可以存储在数据结构或数据库中，该数据结构或数据库识别与注释集合126相关联的数字组件、断点、场景、视频部分或其任何组合。

注释组件135可以基于在数字组件中识别出的话音或识别出的文本来生成注释集合。例如，数字组件可以是视频，并且NLP组件114可以从视频中提取和处理话音。基于视频的话音内容，注释组件可以确定视频的内容并标记关键字。例如，在操作视频中，注释组件可以标记工具或特定材料的名称。在该示例中，如果最终用户在观看操作视频时使用注释提供输入音频信号“what tools do I need to perform this task(我需要什么工具来执行该任务)”，则数据处理系统可以向最终用户呈现操作视频中的该视频讨论工具的部分。注释组件135可以基于与数字组件相关联的隐藏字幕数据来生成注释集合。注释集合可以包括在数字组件或其部分期间说出的单词的列表。解析组件116可以执行关键字搜索以将在输入音频信号中识别出的关键词与在数字组件或其部分期间说出的词项进行匹配。注释集合可以包括数字组件中的词项或短语的语义含义或语义表示。注释集合可以指示数字组件的每个场景或部分的语义含义。

注释组件135可以基于数字组件中的图像来生成注释集合。注释组件135可以从基于图像或基于视频的数字组件提取帧或图像。注释组件135可以对图像执行图像识别。基于图像的注释集合可以包括在数字组件中识别的对象的数据库以及所识别的对象在数字组件中出现的时间点。注释组件135还可以检测基于视频的数字组件中的转换。转换可以是例如场景变化或渐变到黑色。转换可以表示从第一场景改变到第二场景。注释集合可以指示在数字组件中识别出何种类型的转换以及转换在数字组件中发生的时间点。

注释组件135可以基于来自第二客户端计算设备104或数字内容提供者设备106的输入来生成注释集合。例如，数字组件可以由数字内容提供者设备106或由第二客户端计算设备104的最终用户提供。数字组件的提供者可以注释数字组件，并将注释作为注释集合发送到数据处理系统102。来自提供者的注释集合可以包括数字组件中指示视频中的场景或步骤的开始的时间点、被分配给数字组件不同部分的关键字或标签、或所定义的断点的位置。例如，数字组件(例如，视频)的所有者或创建者可以在数字组件的元数据中设置断点的位置，以识别在数字组件中讨论的每个步骤。

数据处理系统102的远程数字助理组件112可以执行或运行解析组件116的实例，以基于由注释组件135生成的注释集合将数字组件解析为不同部分。解析数字组件可以包括将数字组件划分成单独的数字组件。例如，解析组件116可以将视频划分成多个较小视频。较小视频中的每个较小视频可以包括原始视频中包括的单个场景或步骤。解析数字组件可以包括确定数字组件中的断点。可以将数字组件的一部分定义为两个断点(或文件的开始和数字组件的第一部分的第一个断点，以及文件的结束和数字组件的最后部分的最后一个断点)之间。解析组件116可以基于注释集合来设置断点。例如，解析组件116可以在场景之间的转换处设置断点。解析组件116可以在单个场景内设置多个断点。例如，单个场景可以覆盖操作视频中的单个主题。可以由两个断点来定义包含单个主题的场景的操作视频的一部分。解析组件116还可以包括场景内的指示在该场景期间采取的不同步骤的多个断点。解析组件116可以使用机器学习和/或自然语言处理来设置断点，以识别数字组件中的位置，该位置可以对应于视频中的不同步骤、视频中的转换或有用的短语。例如，解析组件116可以识别在数字组件中可能有用或可识别的注释，诸如配料清单、工具清单或特定类型的场景(例如，汽车追逐场景)，并在这些位置处设置断点。解析组件116还可以基于数字组件的观看历史来设置断点。例如，只要用户通常观看视频的子部分，解析组件116可以将该子部分识别为视频的重要或相关部分，并且可以在该子部分的开始附近设置断点。解析组件116可以确定或识别数字组件的每个断点。解析组件116可以将断点作为断点128保存在数据存储库124中。断点128可以是与数字组件的指示相关联地存储断点中的每个断点的时间点的数据库。可以在数字组件内以设置的间隔设置断点。例如，解析组件116可以每隔数字组件的5、10、15、20、25、30或60分钟设置断点。

数字组件选择器120可以选择包括文本、字符串、字符、视频文件、图像文件或音频文件的数字组件，这些数字组件可以由客户端计算设备104处理并经由显示器144或换能器140(例如，扬声器)向用户呈现。数字组件选择器120可以选择响应于输入音频信号中的由NLP组件114识别的请求的数字组件。对于给定的请求，数字组件选择器120可以选择补充数字组件，该补充数字组件也可以被提供有主要数字组件。主要数字组件可以是响应于请求而直接选择的数字组件。例如，主要数字组件可以是用户请求的操作视频。补充数字组件可以是提供附加信息或与主要数字组件有关的附加数字组件。

数字组件选择器120可以选择哪个数字组件提供者设备106应该或可以满足该请求，并且可以将该请求转发给数字组件提供者设备106。例如，数据处理系统102可以在数字组件提供者设备106和客户端计算设备104之间发起会话，以使数字组件提供者设备106能够向客户端计算设备104发送数字组件。数字组件选择器120可以从数字组件提供者设备106请求一个或多个数字组件。数字组件提供者设备106可以将数字组件提供给数据处理系统102，该数据处理系统102可以将数字组件存储在数据存储库124中。响应于对数字组件的请求，数字组件选择器120可以从数据存储库124中检索数字组件。响应于对数字组件的请求，数字组件选择器120可以响应于该请求而选择数字组件的一部分或全部以提供给客户端计算设备104。

数字组件选择器120可以经由实时内容选择过程选择多个数字组件。数字组件选择器120可以对数字组件进行评分和排序，并且向输出合并组件120提供多个数字组件，以允许输出合并组件120选择排名最高的数字组件。数字组件选择器120可以基于输入音频信号(或其中包含的关键字和请求)来选择被发送到客户端计算设备104的一个或多个附加数字组件。在一个示例中，输入音频信号可以包括启动流操作视频的请求。数字组件选择器120可以选择附加数字组件(例如，广告)。当数字组件选择器120将操作视频流传输到客户端计算设备104时，附加数字组件可以被发送到客户端计算设备104。附加数字组件可以将可以满足来自第一客户端计算设备104的请求的附加的或相关的数字组件提供者设备106通知最终用户。

数字组件选择器120可以向计算设备104或计算设备104上执行的本地数字助理134或应用提供响应于在输入音频信号中识别的请求而选择的所选择的数字组件以用于呈现。因此，数字组件选择器120可以从客户端计算设备104接收内容请求，响应于该内容请求而选择数字组件，并向客户端计算设备104发送该数字组件以用于呈现。数字组件选择器120可以将所选择的数字组件发送到本地数字助理134以供本地数字助理134本身或由客户端计算设备104执行的第三方应用呈现。例如，本地数字助理134可以播放或输出与所选择的数字组件相对应的音频信号。

数据存储库124存储内容数据132，该内容数据132可以包括例如由数字组件提供者设备106提供或由数据处理系统102获得或确定的数字组件，以促进内容选择。内容数据132可以包括例如数字组件(或数字组件对象)，该数字组件(或数字组件对象)可以包括例如内容项、在线文档、音频、图像、视频、多媒体内容或第三方内容。数字组件提供者设备106可以向数据处理系统102提供全长数字组件，以存储为内容数据132。数字组件提供者设备106可以向数据处理系统102提供数字组件的多个部分。

图2示出了数字组件200随时间的示例性表示的框图。数字组件200可以是基于视频的数字组件，例如操作视频。数据处理系统可以识别通常可以被称为部分201的多个部分201(1)-201(5)。数据处理系统可以识别通常可以被称为断点202的多个断点202(1)-202(4)。数据处理系统还可在数字组件的开始和结尾定义断点202。

可以在两个断点202之间定义部分中的每个部分201。例如，将部分201(2)定义为断点202(1)和断点202(2)之间的时间。数据处理系统可以基于由注释组件生成的注释集合来选择断点202中的每个断点所在的时间。断点202(1)可以对应于数字组件200的指令部分的开始。断点202(2)可以对应于数字组件200的第一操作步骤。

图3示出了用于控制语音激活系统中的数字组件的示例方法300的框图。方法300可以包括接收输入信号(动作302)。方法300可以包括解析输入信号(动作304)。方法300可以包括生成注释集合(动作306)。方法300可以包括识别断点(动作308)。方法300可以包括接收输入信号(动作310)和解析输入信号(动作312)。方法300可以包括选择断点(动作314)。方法300可以包括发送数字组件的一部分(动作316)。

如上所述，方法300可以包括接收输入信号(动作302)。方法300可以包括通过由数据处理系统执行的自然语言处理器组件来接收输入信号。输入信号可以是由第一客户端设备处的传感器检测到的输入音频信号。传感器可以是第一客户端设备的麦克风。例如，至少部分地由包括一个或多个处理器和存储器的数据处理系统执行的数字助理组件可以接收输入音频信号。输入音频信号可以包括由数字助理促进的对话。对话可以包括一个或多个输入和输出。对话可以是基于音频的、基于文本的或音频和文本的组合。输入音频信号可以包括文本输入，或者可以提供会话信息的其他类型的输入。数据处理系统可以接收与对话相对应的会话的音频输入。数据处理系统可以接收音频输入的一个或多个部分，或作为批量或分批上传(例如，在单次传输中上传的对话的多个部分以减少传输的数量)。

方法300可以包括解析输入信号(动作304)。数据处理系统的NLP组件可以解析输入信号以识别数字组件请求。NLP组件可以识别输入信号中的触发关键字。例如，输入音频信号可以包括“OK,show me how to fix my bike.(好，告诉我如何修理自行车)”。NLP组件可以解析输入信号，以确定对显示如何修理自行车的操作视频的请求。NLP组件可以确定将要播放触发关键字，这可以指示最终用户想要开始流传输视频并向客户端计算设备播放视频。客户端计算设备还可以以文本形式向数据处理系统提供数字组件请求。例如，最终用户可以使用与客户端计算设备相关联的物理或数字键盘来键入对特定视频或其他文件的请求。

还参考图4，其中，图4示出了在方法300的动作期间的第一时间点401处和第二时间点402期间的客户端计算设备104。图4中示出的客户端计算设备104示出在显示器144上向最终用户呈现的示例用户界面。该用户界面是会话的、基于语音的界面。例如，来自用户的输入被显示为朝着显示器144的右侧开始，并且来自数据处理系统的输入(或响应)被显示为朝着显示器144的左侧开始。新输入或响应被添加到对话的底部-靠近显示器144的底部。随着添加了新输入或响应，较旧的输入和响应朝着显示器144的顶部滚动。例如，在时间402，在时间401处可见的输入的一部分已经滚出显示器144的可见部分。

如图4所示，客户端计算设备104可以检测到包括短语“how do Ifix my bike？(我如何修理我的自行车？)”的输入音频信号。输入音频信号可以由NLP组件114处理以提取输入音频信号的文本。输入音频信号的文本403可以被显示给用户，作为客户端计算设备104(和数据处理系统102)理解并正确处理了输入音频信号的确认。数据处理系统可以响应于在输入音频信号中识别的请求来选择数字组件404。在图4所示的示例中，数字组件404包括视频组件405和文本组件406。

方法300可以包括生成注释集合(动作306)。注释组件135可以为所选择的数字组件生成一个或多个注释集合。NLP组件114可以处理包含在数字组件中的话音或在数字组件中或与数字组件相关联的隐藏字幕数据，以生成一个或多个注释集合。注释组件135可以基于在数字组件中识别的对象来生成一个或多个注释集合。例如，数据处理系统102可以对数字组件中的视频帧执行对象识别，以识别数字组件中的对象。注释组件135可以基于数字组件内的转换(例如，视频淡入或视频淡出)来生成注释集合。NLP组件114可以在数字组件内生成话音或文本的语义表示。注释组件135可以基于语义表示来生成注释集合。注释组件135可以将语义表示聚类在一起以确定数字组件的哪些部分与特定主题或步骤相关。例如，对于如何修理自行车的操作视频的数字组件，注释组件135可以使用语义表示来识别示出轮胎的更换的操作视频的部分，以及示出自行车的链条的更换的操作视频的部分。注释组件135可以生成注释集合，该注释集合指示其中讨论轮胎更换的操作视频的时间部分和其中讨论链条更换的操作视频的部分。

方法300可以包括识别断点(动作308)。数据处理系统102可以基于所生成的注释集合中的一个或多个来识别断点。断点可以识别视频中的关键帧的时间点。断点可以识别场景转换、操作视频中的每个步骤的开始、视频中的兴趣点、视频中对象的进入或退出。

可以将一个或多个断点的指示发送到客户端计算设备104。也参考图4，其中，可以将断点的指示可以包括在数字组件407中并且发送到客户端计算设备104。客户端计算设备104可以渲染数字组件407以显示数据处理系统102确定的呈现在视频组件405中的断点的列表或指示。注释组件135可以为断点中的每个断点生成标签。例如，如图4所示，数据处理系统102向客户端计算设备104发送包括三个断点的指示的数字组件。将断点标记为“step1(步骤1)”、“step2(步骤2)”和“step3(步骤3)”，并且可以分别对应于视频组件405中的步骤1、步骤2和步骤3的开始时间点。

方法300还可包括数据处理系统102除了响应于输入音频信号而识别的主要数字组件之外还选择了一个或多个补充或附加数字组件。例如，补充数字组件可以与相同主题相关，提供与主要数字组件相关的其他信息，或者可以提示最终用户进行更多输入。还参考图4，其中，数据处理系统102选择附加数字组件408并向客户端计算设备104发送附加数字组件408。客户端计算设备104可以渲染和呈现附加数字组件408和主要数字组件404。附加数字组件308可以是服务提供商的广告，或者与数字组件404相关的内容。

方法300可以包括接收输入信号(动作310)。输入信号可以是第二输入音频信号。可以由客户端计算设备104的传感器(例如，麦克风)检测第二输入音频信号。方法300可以包括解析输入信号(动作312)。NLP组件114可以解析第二输入音频信号以识别第二输入音频信号内的关键字、词项或语义表示。例如，并且还参考图4，第二输入音频信号可以包括短语“show fixing the chain(显示修理链条)”。客户端计算设备104可以显示来自第二输入音频信号的文本409。NLP组件114可以解析第二输入音频信号以识别关键字，例如以上示例短语中的“show(显示)”。NLP组件114可以基于关键字“show”来识别用户想要视频组件405的特定部分。NLP组件114可以识别出最终用户想要观看对应于修理自行车的链条的视频中的步骤的视频组件405的部分。

方法300可以包括选择断点(动作314)。数据处理系统102可以从基于数字组件的一个或多个注释集合而生成的多个断点中选择断点。数据处理系统102可以基于在第二输入音频信号中识别出的关键字、词项或语义表示来选择断点。数据处理系统102可以将关键字、词项或语义表示与对应于数字组件的每个部分或多个断点中的每个断点的注释进行匹配或相关联。

在图4所示的示例中，用户提供了包括短语“show fixing the chain”的第二输入音频信号。第二输入音频信号可以包括对特定断点的请求。例如，客户端计算设备104渲染了向用户呈现多个断点的数字组件407。第二输入音频信号可以识别先前未向最终用户表示的断点或与该断点相关联。例如，如图4所示，第二个输入音频信号“show fixing thechain”不是以下断点中的一个断点的选择：“step1(步骤1)”、“step2(步骤2)”和“step3(步骤3)”。当第二输入音频信号不包括断点的特定选择时，数据处理系统102可以将在第二输入音频信号中识别的关键字、词项或语义表示与对应于数字组件的部分中的一个部分或多个断点中的一个断点的注释进行匹配或相关联。例如，词项“chain(链条)”可以与视频组件405的一部分匹配或相关联，在该部分中，注释组件135将链条识别为视频中的对象或者视频的该部分中的话音的文本或语义含义对应于链条。

方法300可以包括发送数字组件的一部分(动作316)。数字组件的所发送的部分可以对应于所选择的断点。可以利用使客户端计算设备104自动开始播放或渲染数字组件的所发送的部分的指令来将数字组件的该部分发送到客户端计算设备104。例如，并且参考图4，数据处理系统102可以选择与示出如何更换自行车上的链条的部分的开始相对应的断点。客户端数据处理系统102可以向数据处理系统发送所选择的部分，并且数据处理系统102可以开始渲染示出如何更换自行车的链条的视频组件的部分。发送数字组件的一部分还可以包括向客户端计算设备104发送与所选择的断点相关联的时间的指示。例如，客户端计算设备104可能先前已经接收到数字组件的实体。当选择了断点时，可以将与断点相关联的时间发送到客户端计算设备104，并且客户端计算设备104可以跳到视频中与断点相关联的时间。

图5示出了示例计算机系统500的框图。计算机系统或计算设备500可以包括或用于实现系统100或其诸如数据处理系统102的组件。数据处理系统102可以包括智能个人助理或基于语音的数字助理。计算系统500包括总线505或用于传送信息的其他通信组件，以及耦接到总线505以用于处理信息的处理器510或处理电路。计算系统500还可包括一个或多个处理器510或耦接到总线以用于处理信息的处理电路。计算系统500还包括诸如随机存取存储器(RAM)或其他动态存储设备的耦接到总线505以用于存储信息的主存储器515，以及将由处理器510执行的指令。主存储器515可以是数据存储库124或包括数据存储库124。主存储器515也可以在由处理器510执行指令期间用于存储位置信息、临时变量或其他中间信息。计算系统500进一步可以包括耦接到总线505的只读存储器(ROM)520或其他静态存储设备，用于存储用于处理器510的静态信息和指令。诸如固态设备、磁盘或光盘的存储设备525可以耦接到总线505，以持久地存储信息和指令510。存储设备525可以包括数据存储库124或者是数据存储库124的一部分。

计算系统500可以经由总线505耦接到诸如液晶显示器或有源矩阵显示器的显示器535，以向用户显示信息。诸如包括字母数字和其他键的键盘的输入设备530可以耦接到总线505，以用于向处理器510传送信息和命令。输入设备530可以包括触摸屏显示器535。输入设备530可以还包括诸如鼠标、轨迹球或光标方向键的光标控件，以用于向处理器510传送方向信息和命令选择，以及用于控制显示器535上的光标移动。显示器535可以是例如数据处理系统102、客户端计算设备104或图1的另一个组件的一部分。

本文中描述的过程、系统和方法可以由计算系统500响应于处理器510执行包含在主存储器515中的指令的布置来实现。这样的指令可以从诸如存储设备525的另一个计算机可读设备读入主存储器515中。包含在主存储器515中的指令的布置的执行使计算系统500执行本文中描述的说明性过程。也可以采用多处理布置中的一个或多个处理器来执行包含在主存储器515中的指令。硬连线电路可替代软件指令或与软件指令结合地与本文中所述的系统和方法一起使用。本文中描述的系统和方法不限于硬件电路和软件的任何特定组合。

尽管已经在图5中描述了示例计算系统，但是包括在本说明书中描述的操作的主题可以在其他类型的数字电子电路中或在计算机软件、固件或硬件中实现，包括在本说明书中公开的结构及其等同结构，或其一种或多种的组合。

对于本文中讨论的系统收集关于用户的个人信息或可以利用个人信息的情况，可以为用户提供控制是否可以收集个人信息的程序或功能(例如，关于用户的社交网络，社交动作或活动，用户的偏好或用户的位置的信息)的机会，或控制是否或如何从内容服务器或与用户更相关的其他数据处理系统接收内容。另外，某些数据可以在存储或使用之前以一种或多种方式匿名化，以便在生成参数时移除个人身份信息。例如，可以对用户的身份进行匿名，以便不能确定该用户的个人可识别信息，或者可以在获得位置信息的情况下将用户的地理位置概括化(例如，到城市、邮政编码或州级别)，以便不能确定用户的具体位置。因此，用户可以控制如何收集关于他的或她的信息以及如何由内容服务器使用。

本说明书中描述的主题和操作可以在数字电子电路或在计算机软件、固件或硬件中实现，包括本说明书中公开的结构及其等同结构，或其一种或多种的组合。本说明书中描述的主题可以被实现为编码在一个或多个计算机存储介质上的一个或多个计算机程序(例如，计算机程序指令的一个或多个电路)，以用于由数据处理装置执行或控制数据处理装置的操作。可替选地或附加地，程序指令可以被编码在人工生成的所传播的信号上，例如机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码以用于传输到适当的接收器装置以由数据处理装置执行。计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基板、随机或串行访问存储器阵列或设备，或它们中的一个或多个的组合中。尽管计算机存储介质不是所传播的信号，但是计算机存储介质可以是以人工生成的所传播的信号编码的计算机程序指令的源或目的地。计算机存储介质还可以是一个或多个单独的组件或介质(例如，多个CD、磁盘或其他存储设备)或包含在其中。本说明书中描述的操作可以被实现为由数据处理设备对存储在一个或多个计算机可读存储设备上或从其他源接收到的数据执行的操作。

术语“数据处理系统”，“计算设备”，“组件”或“数据处理设备”包含用于处理数据的各种装置、设备和机器，包括例如可编程处理器、计算机、片上系统、多个或上述的组合。该设备可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行环境、虚拟机或它们中一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，例如网络服务、分布式计算和网格计算基础设施。例如，接口110、数字组件选择器120、NLP组件114、注释组件135、解析组件116和其他数据处理系统组件可以包括或共享一个或多个数据处理装置、系统、计算设备或处理器。

计算机程序(也称为程序、软件、软件应用、应用程序、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言、声明或过程语言)编写，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或适合于在计算环境中使用的其他单元。计算机程序可以对应于文件系统中的文件。计算机程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中或多个协调文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。可以将计算机程序部署为在位于一个站点或分布在多个站点并通过通信网络互连的一台计算机或多台计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序(例如，数据处理系统102的组件)的一个或多个可编程处理器来执行，以通过对输入数据进行操作并生成输出来执行动作。处理和逻辑流程也可以由专用逻辑电路执行，并且装置也可以被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动磁盘)；磁光盘以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

本文中描述的主题可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)或包括前端组件(例如，具有图形用户界面或网页浏览器，用户通过该用户通过网络浏览器与本说明书中描述的主题的实施方式交互)或一个或多个这种后端组件、中间件组件或前端组件的组合的计算系统中实现。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、网际网络(例如，互联网)和对等网络(例如，ad hoc对等网络)。

诸如系统100或系统500的计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络(例如，网络105)进行交互。客户端和服务器之间的关系是借助于在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生的。在一些实施方式中，服务器将数据(例如，表示数字组件的数据分组)发送到客户端设备(例如，出于向与客户端设备交互的用户显示数据并从该用户接收用户输入的目的)。可以从服务器处的客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)(例如，由数据处理系统102从客户端计算设备104或数字组件提供者设备106接收)。

虽然在附图中以特定顺序描绘了操作，但是不需要以示出的特定顺序或以顺序次序来执行这样的操作，并且不需要执行所有示出的操作。本文中描述的动作可以以不同顺序执行。

各个系统组件的分离并不需要在所有实施方式中都进行分离，并且所描述的程序组件可以包含在单个硬件或软件产品中。例如，NLP组件114或数字组件选择器120可以是单个组件、应用或程序，或者是具有一个或多个处理电路的逻辑设备，或者是数据处理系统102的一个或多个服务器的一部分。

现在已经描述了一些说明性的实施方式，很明显，已经以示例的方式给出的前述内容是说明性的而不是限制性的。特别地的，尽管本文中呈现的许多示例涉及方法动作或系统元素的特定组合，但是可以以其他方式组合那些动作和那些元素以实现相同的目标。结合一个实施方式所讨论的动作、要素和特征不旨在被排除在其他实施方式或多个实施方式中的类似角色之外。

本文中使用的措词和术语是出于描述的目的，而不应被认为是限制性的。本文中“包括”，“包含”，“具有”，“包含”，“涉及”，“以…为特征”，“特征在于”及其变体的使用意在涵盖其后列出的项、其等同物以及附加项，以及由其后专门列出的项组成的替代实施方式。在一个实施方式中，本文中描述的系统和方法由所描述的元素、动作或组件中一个、多于一个的每种组合或全部组成。

对本文中以单数形式提及的系统和方法的实现或元素或动作的任何引用也可包含包括多个这些元素的实现，并且在本文中对任何实现或元素或动作的复数形式的任何引用也可以包含包括仅单数元素的实现。单数或复数形式的引用不旨在将当前公开的系统或方法、它们的组件、动作或元素限制为单数或复数配置。对基于任何信息、动作或元素的任何行为或元素的引用可以包括其中该行为或元素至少部分基于任何信息、动作或元素。

本文中公开的任何实施方式可以与任何其他实施方式或实施例组合，并且对“一种实施方式”，“一些实施方式”，“一个实施方式”等的引用不一定是互斥的，并且旨在指示结合实施方式描述的特定的特征、结构或特性可以被包括在至少一个实施方式或实施例中。如本文中所使用的这样的术语不一定全部指代相同的实施方式。任何实施方式可以以与本文公开的方面和实施方式一致的任何方式与任何其他实施方式相结合地包括在内或排它地。

对“或”的引用可以解释为包括性的，以使得使用“或”描述的任何术语可以指示单个、一个以上以及所有所描述术语中的任何一个。例如，对“'A'和'B'中的至少一个”的引用可以仅包括“A”、仅包括“B”以及“A”和“B”两者。与“包含”或其他开放式术语结合使用的此类参考可以包括附加项。

在附图、详细描述或任何权利要求中的技术特征之后是附图标记的地方，已经包括附图标记以增加附图、详细描述和权利要求的可理解性。因此，附图标记和其不存在两者都不对任何权利要求要素的范围具有任何限制作用。

本文中描述的系统和方法可以以其他特定形式来实现而不背离其特征。例如，计算设备104可以在启动应用时生成打包的数据对象，并且在将其转发给第三方应用。前述实施方式是说明性的，而不是限制所描述的系统和方法。因此，本文中描述的系统和方法的范围由所附权利要求来指示，而不是由前述描述来指示，并且本文中包含在权利要求的等同的含义和范围内的改变。

Claims

1.一种用于控制语音激活环境中的数字组件的系统，包括：

数据处理系统，所述数据处理系统包括与存储器耦合的一个或多个处理器，所述数据处理系统用于：

在识别具有与注释集合相对应的多个部分的数字组件之后，接收经由客户端设备的传感器获取的输入音频信号；

解析所述输入音频信号，以从所述输入音频信号识别关键字；

从所述注释集合识别与从所述输入音频信号识别的所述关键字相关联的注释；

从所述数字组件的所述多个部分中选择与被识别为与所述关键字相关联的所述注释相对应的部分；以及

向所述客户端设备提供从所述多个部分中选择的所述部分。

2.根据权利要求1所述的系统，包括所述数据处理系统用于：

在经由所述客户端设备呈现所述数字组件的至少一个帧和与所述数字组件的所述多个部分相对应的多个指示符之后，接收所述输入音频信号；以及

提供从所述多个部分中选择的所述部分以经由所述客户端设备呈现。

3.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述数字组件的视听内容或所述注释集合中的至少一个来确定限定所述数字组件内的所述多个部分的多个断点；以及

基于所述关键字和所述注释集合来从所述多个断点中识别一个断点，所述一个断点对应于来自所述数字组件的所述多个部分中的所述部分。

4.根据权利要求1所述的系统，包括所述数据处理系统用于：

生成与从所述数字组件的所述多个部分中选择的所述部分相对应的第二数字组件；以及

提供所述第二数字组件以经由所述客户端设备呈现所述部分。

5.根据权利要求1所述的系统，包括所述数据处理系统用于：

基于所述注释识别所述数字组件内的起始时间，在所述起始时间处所述部分开始；以及

向所述客户端设备提供所述起始时间的指示以呈现从所述数字组件中的所述起始时间开始的部分。

6.根据权利要求1所述的系统，包括所述数据处理系统用于：

确定从所述输入音频信号识别的所述关键字不包括对所述数字组件的所述多个部分中的一个的选择；以及

响应于确定所述关键字不包括所述选择，识别与所述关键字语义相关联的所述注释。

7.根据权利要求1所述的系统，包括所述数据处理系统用于：

确定从所述输入音频信号识别的所述关键字包括对所述数字组件的所述多个部分中的所述部分的选择；以及

对于被确定为与所述关键字相关联的所述注释来选择所述部分。

8.根据权利要求1所述的系统，包括所述数据处理系统用于基于在所述数字组件的视听内容中检测的一个或多个场景转换来从所述数字组件识别所述多个部分。

9.根据权利要求1所述的系统，包括所述数据处理系统基于所述数字组件中的视听内容或与所述数字组件相关联的字幕数据集合中的至少一个来生成用于所述数字组件的所述注释集合，所述注释集合中的每一个对应于与所述多个部分相对应的语义表示。

10.根据权利要求1所述的系统，包括所述数据处理系统用于：

在接收所述输入音频信号之前，接收经由所述客户端设备的所述传感器获取的第二输入音频信号；

解析所述第二输入音频信号以识别对内容的请求；以及

基于对从所述第二输入音频信号识别的内容的请求从多个数字组件中识别所述数字组件。

11.一种用于控制语音激活环境中的数字组件的方法，包括：

在识别具有与注释集合相对应的多个部分的数字组件之后，由数据处理系统接收经由客户端设备的传感器获取的输入音频信号；

由所述数据处理系统解析所述输入音频信号，以从所述输入音频信号识别关键字；

由所述数据处理系统从所述注释集合识别与从所述输入音频信号识别的所述关键字相关联的注释；

由所述数据处理系统从所述数字组件的所述多个部分中选择与被识别为与所述关键字相关联的所述注释相对应的部分；以及

由所述数据处理系统向所述客户端设备提供从所述多个部分中选择的所述部分。

12.根据权利要求11所述的方法，包括：

在经由所述客户端设备呈现所述数字组件的至少一个帧和与所述数字组件的所述多个部分相对应的多个指示符之后，由所述数据处理系统接收所述输入音频信号；

由所述数据处理系统提供从所述多个部分中选择的所述部分以经由所述客户端设备呈现。

13.根据权利要求11所述的方法，包括：

由所述数据处理系统基于所述数字组件的视听内容或所述注释集合中的至少一个来确定限定所述数字组件内的所述多个部分的多个断点；以及

由所述数据处理系统基于所述关键字和所述注释集合来从所述多个断点中识别一个断点，所述一个断点对应于来自所述数字组件的所述多个部分中的所述部分。

14.根据权利要求11所述的方法，包括：

由所述数据处理系统生成与从所述数字组件的所述多个部分中选择的所述部分相对应的第二数字组件；以及

由所述数据处理系统提供所述第二数字组件以经由所述客户端设备呈现所述部分。

15.根据权利要求11所述的方法，包括：

由所述数据处理系统基于所述注释识别所述数字组件内的起始时间，在所述起始时间处所述部分开始；以及

由所述数据处理系统向所述客户端设备提供所述起始时间的指示以呈现从所述数字组件中的所述起始时间开始的部分。

16.根据权利要求11所述的方法，包括：

由所述数据处理系统确定从所述输入音频信号识别的所述关键字不包括对所述数字组件的所述多个部分中的一个的选择；以及

响应于确定所述关键字不包括所述选择，由所述数据处理系统识别与所述关键字语义相关联的所述注释。

17.根据权利要求11所述的方法，包括：

由所述数据处理系统确定从所述输入音频信号识别的所述关键字包括对所述数字组件的所述多个部分中的所述部分的选择；以及

由所述数据处理系统对于被确定为与所述关键字相关联的所述注释来选择所述部分。

18.根据权利要求11所述的方法，包括由所述数据处理系统基于在所述数字组件的视听内容中检测的一个或多个场景转换来从所述数字组件识别所述多个部分。

19.根据权利要求11所述的方法，包括由所述数据处理系统基于所述数字组件中的视听内容或与所述数字组件相关联的字幕数据集合中的至少一个来生成用于所述数字组件的所述注释集合，所述注释集合中的每一个对应于与所述多个部分相对应的语义表示。

20.根据权利要求11所述的方法，包括：

在接收所述输入音频信号之前，由所述数据处理系统接收经由所述客户端设备的所述传感器获取的第二输入音频信号；

由所述数据处理系统解析所述第二输入音频信号以识别对内容的请求；以及

由所述数据处理系统基于对从所述第二输入音频信号识别的内容的请求从多个数字组件中识别所述数字组件。