CN114174972B

CN114174972B - 用于复杂应用gui的自动化助理控制的压缩口头话语

Info

Publication number: CN114174972B
Application number: CN201980098212.9A
Authority: CN
Inventors: 杰西克·斯米格吉尔; 约瑟夫·兰格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-07-19
Filing date: 2019-08-12
Publication date: 2024-05-17
Anticipated expiration: 2039-08-12
Also published as: KR20220011187A; US20210182018A1; EP3970000A1; CN114174972A; US11995379B2; WO2021015801A1; US20230012852A1; CN118535073A; US20240281205A1; US11449308B2

Abstract

本文阐述的实现方式涉及自动化助理，该自动化助理可以使用图形用户界面(GUI)内容的自然语言理解经由语音输入来控制GUI元素，以便解决不清楚并且允许压缩GUI语音输入请求。当用户正访问在显示界面处呈现各种GUI元素的应用时，自动化助理可以操作以处理对应于GUI元素的可操作数据。可操作数据可以被处理以便确定到自动化助理的GUI语音输入请求和在显示接口处呈现的GUI元素中的至少一个GUI元素之间的对应关系。当确定来自用户的特定口头话语对应于多个GUI元素时，可以在显示界面处呈现不清楚的指示，以便鼓励用户提供更具体的口头话语。

Description

用于复杂应用GUI的自动化助理控制的压缩口头话语

背景技术

人类可以使用本文称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“会话式代理”等)的交互式软件应用参与人机对话。例如，人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即，话语)和/或通过提供文本(例如，键入的)自然语言输入来提供命令和/或请求，在一些情况下所述口头自然语言输入可以被转换成文本并且然后被处理。

当用户同时与自动化助理和应用(例如，web浏览器)交互时，对应用的输入可以导致对由自动化助理执行的动作的中断，并且反之亦然。这可能例如导致其上正实现自动化助理和应用的计算设备需要从头开始重启在中断之前已经部分地执行的某些动作。这可能对计算设备施加附加负担。例如，可能需要设备检测和处理与中断之后的动作相关的重复的口头话语，并且可能需要设备处理这样的重复话语和/或对设备的其他重复输入(例如，屏幕输入)以便完成中断之后的动作。

发明内容

本文阐述的实现方式涉及自动化助理，其可以调解用户与应用的GUI元素之间的交互，并且还允许用户提供压缩语音输入以控制复杂应用GUI。当这种复杂应用GUI经由压缩语音输入不可控制时，用户可能需要执行各种不同的触摸手势以便控制在应用GUI处呈现的各种GUI元素。然而，当这种复杂应用GUI经由压缩语音输入可控制时，如由本文所讨论的实现方式所促进的，对于在其上实现应用的计算装置，可以使用户与应用GUI之间的交互更高效。这种效率可以由交互期间的功耗和处理带宽的可用性的降低而产生。

为了允许用户提供用于控制复杂应用GUI的压缩口头话语，可以向对应于复杂应用GUI的应用提供用于静态和/或动态GUI元素的内容描述数据。内容描述数据可以至少部分地与静态和/或动态GUI元素的每个GUI相关联地存储，以在响应于旨在控制特定GUI元素的口头话语时引导自动化助理。自动化助理可以将口头话语的自然语言内容与内容描述数据进行比较以便标识用户可能正打算经由口头话语控制的一个或多个GUI元素。当自动化助理标识用户正打算控制的特定GUI元素时，自动化助理可以使用口头话语的自然语言内容和/或对应于特定GUI元素的数据来标识要响应于来自用户的口头话语而初始化的动作。

例如，当GUI元素(例如，用于创建事件的日历)被配置成将用户输入与从多个值(例如，1-12个月)中可选择的值(例如，1个月)相关时，自动化助理可以将口头话语的自然语言内容与多个值和/或与GUI元素相关联的任何其他信息进行比较。当自动化助理确定口头话语的自然语言内容标识与GUI元素相关联的多个值中的特定值时，自动化助理然后可以标识能够控制GUI元素以反映由用户标识的特定值的一个或多个动作。例如，当用户已经提供了诸如“Assistant,set the date to‘July’(助理，将日期设置为“7月”)”的口头话语时，自动化助理可以确定执行应用的GUI元素具有标识“July(7月)”的对应内容描述数据。作为响应，动作“setDate()”可以由自动化助理标识并且经由执行应用来初始化。动作“setDate('July')”可以被初始化以便使执行应用(i)以反映选择“July”作为所选月份的方式呈现GUI元素，以及(ii)修改针对7月的月份要设置的草稿日历事件。

在一些实现方式中，响应于用户提供口头话语，自动化助理可以使计算设备的显示面板呈现指示对特定GUI元素的选择的图形指示符。例如，响应于接收到口头话语“Assistant,set the date to‘July’”并且标识特定GUI元素，自动化助理可以使显示面板在特定GUI元素处和/或其附近呈现图形指示符。图形指示符可以是，但不限于，在特定GUI元素处或其附近的应用GUI的一部分的“halo(光环)”、图案、形状、和/或其他着色。

在一些实现方式中，响应于自动化助理确定用户已经提供了口头话语以促进控制应用GUI，自动化助理可以进入GUI控制模式。当在GUI控制模式中操作时，自动化助理可以响应于来自用户的口头话语，而口头话语不必包括诸如“Assistant(助理)”的调用短语。可替代地或附加地，当在GUI控制模式中操作时，自动化助理可以响应于未明确地标识自动化助理的动作的压缩口头话语。相反，在一些实现方式中，自动化助理可以响应于与在用户提供特定口头话语时在应用GUI处呈现的一个或多个GUI元素具有关联的任何口头话语。

作为GUI控制模式的示例，在自动化助理接收到口头话语“Assistant,set thedate to‘July’”之后，自动化助理可以接收后续口头话语，诸如“Also,the 15th at 8O’clock PM(同样，15号下午8点)”。在用户已经使自动化助理针对事件选择七月的月份之后，用户可以提供后续口头话语以促进为该事件选择时间。响应于接收到初始口头话语，“Assistant,set the date to‘July’”，自动化助理可以转变到在GUI控制模式下操作，从而使用户和自动化助理之间的后续交互更高效。可以根据GUI控制模式处理来自用户的后续口头话语以促进确定后续口头话语是否被定向到应用GUI选择—尽管用户未在口头话语中明显地调用自动化助理。此外，在来自用户的事先许可的情况下，可以处理后续口头话语，以确定后续口头话语的自然语言内容和与应用GUI元素相关联的内容描述数据之间的相关性。例如，后续口头话语“Also,the 15th at 8 O’clock PM”可以被确定为与标识日历日的GUI元素和标识用户正在设置的事件的小时和分钟的另一GUI元素相关。

当自然语言内容中的一个或多个项对应于唯一GUI元素时，自动化助理可以作为响应来初始化用于影响每个唯一GUI元素的特定动作。然而，当自然语言内容中的一个或多个项对应于多个GUI元素时，自动化助理可以使图形指示符被呈现在应用GUI处以鼓励用户解决其口头话语的不清楚。图形指示符可以通知用户他们的口头话语已经被解释为对应于多个GUI元素，并且还通知用户响应于口头话语而没有采取动作。在确认或查看图形指示符之后，用户可提供不同的口头话语，该口头话语使自动化助理注意到用户最初打算修改的特定GUI元素。

作为示例，应用GUI可以包括事件的“开始时间”和事件的“结束时间”，并且每个时间都可以由用户可选择。然而，每个时间可以具有对应的“Date(日期)”字段和“Time(时间)”字段，并且因此，响应于用户提供后续口头话语，自动化助理可以标识事件的“开始时间”和“结束时间”两者的“Date”字段和“Time”字段。为了标识用户正打算影响后续口头话语的特定字段，自动化助理可以使图形指示符被呈现在已基于后续口头话语而标识的每个字段处或其附近。在一些实现方式中，用户可以通过提供一个或多个其他口头话语来解决不清楚，所述口头话语更具体地标识用户正打算影响的字段。例如，当图形指示符高亮开始时间“Time”字段和结束时间“Time”字段时，用户可以提供另一压缩口头话语，例如“开始”，以便选择开始时间“Time”字段，而不必再次提供调用短语(例如，“Assistant(助理)…”)。

另外或可替换地，当开始时间“Time”字段和结束时间“Time”字段彼此相邻放置时，用户可以提供另一压缩口头话语，该口头话语指示预期字段所位于的应用GUI的一部分。作为示例，用户可以提供诸如“左”或“上”的另一口头话语，以便指示要影响的预期字段至少相对于不打算受影响的字段的位置。响应于接收到指示预期字段的相对位置的另一口头话语，自动化助理可以标识预期字段，并且然后执行对在预期字段处提供的值的选择。例如，自动化助理可以选择开始时间“Time”字段作为要修改以指示对“8 O’clock PM(下午8点)”的选择的字段。

另外或可替代地，因为第二口头话语(例如，“Also,the 15th at 8 O’clock PM”)包括多个选择(例如，15号和下午8点)，所以自动化助理可以基于与方向相关的口头话语(例如，“左”或“上”)来影响多个GUI元素。例如，响应于接收到与方向相关的口头话语，自动化助理可以至少基于开始时间字段在结束时间字段的“左”或“上”而修改开始时间“Time”字段以标识“下午8点”并且修改开始时间“日期”字段以标识“15”。以此方式，用户不需要在与方向相关的口头话语之后提供后续口头话语，而是可以取决于自动化助理回忆先前提供的压缩口头话语并且对其进行动作。

提供以上描述作为本公开的一些实现方式的概述。下面更详细地描述这些实现方式和其他实现方式的进一步描述。

其他实现方式可以包括非暂时性计算机可读存储介质，其存储由一个或多个处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))可执行的指令，以执行诸如上面和/或本文其他地方描述的一种或多种方法的方法。其他实现方式还可以包括一个或多个计算机的系统，所述一个或多个计算机包括一个或多个处理器，所述一个或多个处理器可操作以执行所存储的指令以执行诸如上面和/或本文其他地方描述的一种或多种方法的方法。

应当理解，本文中更详细描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如，出现在本公开的结尾处的要求保护的主题的所有组合被认为是本文公开的主题的一部分。

附图说明

图1A、图1B、图1C和图1D示出了用户使用与内容描述数据相关的压缩口头话语来控制一个或多个应用的视图。

图2示出了用于提供自动化助理的系统，该自动化助理可以使用内容描述数据和/或图形用户界面(GUI)内容的自然语言理解(NLU)经由语音输入来控制GUI元素，以便解决不清楚和/或允许压缩GUI语音输入请求。

图3示出了用于允许用户提供压缩口头话语以便控制应用图形用户界面的方法，该应用图形用户界面另外可以经由一个或多个仅你的输入来可控制。

图4是示例计算机系统的框图。

具体实施方式

图1A、图1B、图1C和图1D分别示出了用户102使用与内容描述数据124相关的压缩口头话语来控制一个或多个应用的视图100、视图140、视图150和视图160。具体地，用户102可以提供口头话语118来初始化自动化助理以促进控制在计算设备104的显示设备138处呈现的一个或多个应用GUI元素。例如，用户102可以经由计算设备104访问恒温器应用110和警报系统应用108。计算设备104可以提供对自动化助理130的访问，该自动化助理130可以根据来自用户102的口头话语来控制恒温器应用110和警报系统应用108。

为了确定用户102是否正在提供口头话语以促进控制一个或多个应用128，自动化助理130和/或内容相关引擎126可以将内容描述数据124与接收到的口头话语的自然语言内容进行比较。内容描述数据124可以包括表征可以由应用128呈现的一个或多个GUI元素的一个或多个属性的信息。GUI元素可以包括以下中的一个或多个：图像、输入字段、菜单、子菜单、链接、按钮、复选框、开关、日历、索引(例如，页面索引)、滑块、旋转木马、通知(例如，弹出消息)、进度指示符、菜单元素、子菜单元素、多个菜单元素和/或可以在计算设备的GUI处提供的任何其它GUI元素。当在显示设备138上呈现应用128的特定GUI元素时，与内容描述数据124一起提供的信息可以从显示设备138中省略或者在显示设备138上呈现。例如，对应于元素集合112的内容描述数据124可以包括诸如“On(开)”、“Off(关)”和“Auto(自动)”的项。然而，这些项可以或不可以与元素集合112一起在显示设备138处呈现。可替代地或附加地，另一元素集合114可以包括用户的家的当前温度读数(例如，65度)和指示恒温器应用110的温度设置的水平可控滚动条。对应于其他元素集合114的内容描述数据124可以包括诸如“度”、“华氏度”、“摄氏度”之类的项和/或可以与温度的调整相关联的任何其他项。

为了经由压缩口头话语来实现恒温器应用110和/或警报系统应用108的控制，可以将口头话语118的内容之间的相关性与内容描述数据124进行比较。例如，用户102可以提供可包括诸如“Assistant,72degrees(助理，72度)”的自然语言内容口头话语118，并且在用户102暂停几秒之后，用户102可以提供诸如“1...6...1...8...0...Stay(1...6...1...8...0...逗留)”的后续口头话语。响应于接收到初始口头话语，如状态116所指示，自动化助理130可以确定用户102打算控制计算设备104的一个或多个应用。基于此确定，自动化助理130可以转变到在GUI控制模式下操作。当在GUI控制模式下操作时，用户102可以在经由自动化助理130控制一个或多个GUI元素时从后续口头话语中省略调用项和/或短语，诸如“Assistant(助理)”。

在一些实现方式中，用户102可以将口头话语118的自然语言内容与内容描述数据124进行比较，以便识别用户102打算控制的特定GUI元素。初始口头话语可以包括项“72”和“degrees(度)”，其可以对应于由内容描述数据124与其他元素集合114相关联地提供的项“degrees”。可以提供初始口头话语而无需明确识别要执行的动作。例如，项“modify(修改)”、“set(设置)”和/或“change(改变)”可以从初始口头话语中省略，同时仍允许用户102控制自动化助理130来实现对应用128的设置的修改。当自动化助理130接收到初始口头话语“…72degrees(…72度)”时，自动化助理130可以基于初始口头话语的项“degrees”与在内容描述数据124中与另一元素集合114相关联所提供的项“degrees”之间的相关性来标识另一元素集合114。

在一些实现方式中，可以基于在计算设备104的指导下进行的一个或多个处理来确定口头话语的自然语言内容与GUI元素之间的相关性。例如，在一些实现方式中，当口头话语的自然语言内容与关联于GUI元素和/或先前提供的用于控制GUI元素和/或类似GUI元素的一个或多个输入的一个或多个项、音素、单词和/或短语共有一个或多个项、音素、单词和/或短语时，可以标识口头话语的自然语言内容与GUI元素之间的相关性。作为示例，一个或多个输入可以先前已经由一个或多个其他用户提供，以控制和/或初始化与应用的GUI元素相关联的动作。在一些实现方式中，表征一个或多个输入的数据，诸如但不限于搜索字符串和/或其他自然语言输入，可以用于训练一个或多个机器学习模型。所得到的经训练的机器学习模型此后可以用于响应于来自用户的口头话语来确定要控制的合适的动作和/或GUI元素。在一些实现方式中，可以根据一个或多个用户与网站域之间的交互和/或一个或多个用户与一组网站域之间的交互来训练一个或多个经训练的机器学习模型。

另外或可替代地，可以使用指示特定GUI元素在网页内的位置的网站数据来训练一个或多个经训练的机器学习模型。例如，用于一个或多个网站的计算机代码可以被排列在层级(例如，文档对象模型)中，其可以指示GUI元素相对于其他GUI元素的相对位置和/或网页的特征。根据此类信息训练的机器学习模型可以用于标识用户可能正打算经由提供给自动化助理的口头话语来控制的特定GUI元素。例如，与特定GUI元素相关联地存储的元数据和/或其它结构化标记数据可以用于标识也与类似的元数据和/或结构化标记数据相关联的另一GUI元素。

在一些实现方式中，自动化助理130和/或内容相关引擎126可以标识对应于初始口头话语118的自然语言内容的参数和/或槽值。例如，自动化助理130可以确定其他元素集合114具有允许用户经由GUI输入来修改的槽值“65”和不允许用户经由GUI输入来修改的另一槽值“65”。因此，基于与其他元素集合114相关联的许可，自动化助理130可以标识要初始化的动作以促进将槽值“65”修改为“72。在一些实现方式中，基于所标识的动作(例如，Application_Intent(modify_set_temp[set，current，Fahrenheit]))，自动化助理130可以生成表征要由自动化助理130提供给恒温器应用110的应用输入数据的助理数据120。在一些实现方式中，应用输入数据可以表征一个或多个手势(例如，轻扫手势)，如果用户102将该一个或多个手势提供给显示设备138，则该一个或多个手势将实现所请求的将设置温度从65度修改为72度。例如，自动化助理130可以生成应用输入数据，诸如“Gesture_Input(touch_display([swipe，horizontal_right]，start(17，28)，end(24，28))),”，其可以从自动化助理130提供给恒温器应用110，和/或从自动化助理130提供给计算设备104的操作系统，提供给恒温器应用110。如果自动化助理130和/或内容相关引擎126未标识与初始口头话语118的自然语言内容对应的参数和/或槽值，则不生成上文所提及的输入数据。自动化助理例如可以避免生成输入数据。

当自动化助理130在GUI控制模式下操作时，用户102可以提供后续口头话语118，以促进控制另一应用，诸如警报系统应用。具体地，用户102可以提供要经由警报系统应用108处的数字小键盘GUI元素输入的数字代码(例如，“1...6...1...8...0…”)和模式值(例如，“stay(逗留时间)”)，以便修改允许在模式之间切换的另一GUI元素，如图1A中所描绘的。作为响应，并且如图1B的视图140中所描绘的，计算设备104的状态132可以指示警报系统已经被设置为按照用户输入“stay”。可响应于未明确地标识自动化助理130和/或包括调用短语的后续口头话语118而执行警报系统的解锁和模式的改变。

在一些实现方式中，内容描述数据124可以由自动化助理130使用对一个或多个屏幕截图的图像识别处理而生成。屏幕截图可以经由自动化助理130和/或另一应用来捕获，并且可以包括恒温器应用110的GUI元素和警报系统应用108的其它GUI元素。在一些实现方式中，从图像识别处理生成的数据可以与由第三方实体提供的内容描述数据124结合使用，以便标识用户102正在提供的口头话语的内容与用户打算控制的一个或多个GUI元素之间的对应关系。

在一些实现方式中，内容描述数据124可以是应用编程接口(API)，其向用户提供向自动化助理提供口头话语以便初始化应用动作的能力，否则该应用动作可以经由一个或多个手势被初始化到由应用提供的应用GUI。换言之，API可以从经由特定GUI元素初始化的动作“指向”到一个或多个音素、项和/或短语，它们可以被包括在对自动化助理的口头话语中以使该动作由应用程序初始化。

在一些实现方式中，内容描述数据124可以指示每个应用128的每个GUI元素的状态，并且因此可以标识处于前台、后台、最小化、活动、非活动和/或处于任何其他操作状态的GUI元素。以此方式，当用户102意识到具有特定GUI元素的特定应用是活动的但不在前台中时，用户102仍然可以经由压缩口头话语控制该特定GUI元素。例如，恒温器应用110可以覆盖警报系统应用108的数字小键盘GUI元素，但是当内容描述数据124指示数字小键盘GUI元素是活动的但是在后台中时，用户102仍然可以经由后续口头话语118来控制数字小键盘GUI元素。

在一些实现方式中，自动化助理130可以使在用户102已标识的每个GUI元素处或其附近呈现一个或多个图形指示符。图形指示符可以向用户102通知自动化助理130已被标识为来自用户102的一个或多个口头话语的主题的GUI元素。例如，基于将口头话语118的内容与内容描述数据124进行比较，自动化助理130可以使第一图形指示符144(例如，高亮和/或围绕水平滚动条的其他图形图案)和第二图形指示符142(例如，高亮和/或围绕数字小键盘GUI元素的其他图形图案)在显示设备138处被呈现。这些图形指示符可以提供自动化助理130已经由用户102经由口头话语标识为作为目标的GUI元素的视觉指示。

图1C示出自动化助理130响应于来自用户102的压缩口头话语158来标识多个不同GUI元素的视图150。具体地，当用户102提供压缩口头话语158“Off”时，自动化助理130可以在GUI控制模式下操作。响应于接收到口头话语158，自动化助理130和/或内容相关引擎126可以确定该口头话语158对应于内容描述数据124中的多个不同条目。例如，自动化助理130可以确定项“Off”对应于用于GUI元素集合112的“heat(加热)”开关、GUI元素112的“fan(风扇)”开关和在警报系统应用108处提供的“off(关)”开关的条目。

在一些实现方式中，自动化助理130可以标识内容描述数据124中的对应于在显示设备138的前台中呈现的GUI元素和未在显示设备138的前台中呈现的其它GUI元素的条目。另外或可替代地，自动化助理130可以确定至少一些GUI元素对应于口头话语158，尽管在GUI元素处或其附近呈现的自然语言内容不包括来自口头话语158的相同内容。作为示例，自动化助理130和/或内容相关引擎126可以将“heat”开关和“fan”开关标识为在内容描述数据124中具有包括项“off”的条目。此外，自动化助理130可以确定一个或多个执行应用正在特定用户可控制GUI元素处或其附近呈现项“off”。例如，自动化助理130可以确定警报系统应用108正与用户可控制状态开关(例如，具有诸如“stay”、“off”和“away(离开)”的位置的开关)相关联地呈现项“off”。基于此确定，自动化助理130可以使显示设备138在“heat”开关处或其附近呈现第一图形指示符152、在“fan”开关处或其附近呈现第二图形指示符154，并且在用户可控制状态开关处或其附近呈现第三图形指示符156。

如图1D的视图160中所提供，用户102可以提供后续口头话语162以便辅助自动化助理130进一步标识用户旨在控制的特定GUI元素。具体地，响应于在图形指示符在显示设备138处被呈现的同时用户102提供后续口头话语162，自动化助理130可以将后续口头话语162的内容与内容描述数据124中的对应于图形指示符的条目的内容进行比较。当自动化助理130确定口头话语162的内容对应于内容描述数据124中的已经与图形指示符相关联的条目时，自动化助理130可以标识用于履行来自用户102的口头话语158以及后续口头话语162的一个或多个动作。具体地，自动化助理130可以基于口头话语158以及后续口头话语162两者的内容来标识用于将“heat”开关的状态164改变为“off”位置的动作。以此方式，用户102不一定需要重复调用短语来保持自动化助理130活动，这可能另外导致所请求的动作的延迟执行和某些计算资源的浪费。此外，用户102可以提供更多压缩口头话语以用于与图形用户界面交互。

在一些实现方式中，每个图形指示符的属性可以被存储为辅助数据120，并且可以指示每个图形指示符相对于彼此的位置。以此方式，用户102可以提供更简单的口头话语以标识用户102正打算控制的特定GUI元素。例如，为了标识图1C中的“heat”开关，用户102可能已经提供诸如“左”的后续口头话语，以便标识在显示设备138的最左部分具有图形指示符的可控制GUI元素。

图2示出了用于提供自动化助理204的系统200，所述自动化助理204可以通过使用图形用户界面(GUI)内容的自然语言理解(NLU)经由语音输入来控制GUI元素，以便解决不清楚和/或允许压缩GUI语音输入请求。自动化助理204可以作为在一个或多个计算设备——诸如计算设备202和/或服务器设备——处提供的助理应用的一部分来操作。用户可以经由助理接口220与自动化助理204交互，助理接口220可以是麦克风、相机、触摸屏显示器、用户接口和/或能够在用户和应用之间提供接口的任何其他装置。例如，用户可以通过向助理接口220提供语言输入、文本输入和/或图形输入来初始化自动化助理204，以使自动化助理204执行功能(例如，提供数据、控制外围设备、访问代理、生成输入和/或输出等)。计算设备202可以包括显示设备，该显示设备可以是包括用于接收触摸输入和/或手势以用于允许用户经由触摸界面控制计算设备202的应用234的触摸界面的显示面板。在一些实现方式中，计算设备202可以缺少显示设备，从而提供可听用户界面输出，而不提供图形用户界面输出。此外，计算设备202可以提供诸如麦克风的用户接口，以用于接收来自用户的口头自然语言输入。在一些实现方式中，计算设备202可以包括触摸界面并且可以没有相机和/或麦克风，但是可以可选地包括一个或多个其他传感器。

计算设备202和/或其他第三方客户端设备可以通过网络——诸如互联网——与服务器设备通信。另外，计算设备202和任何其他计算设备可以通过诸如Wi-Fi网络的局域网(LAN)彼此通信。计算设备202可以将计算任务卸载到服务器设备，以便在计算设备202处节省计算资源。例如，服务器设备可以托管自动化助理204，和/或计算设备202可以将在一个或多个助理接口220处接收到的输入传送到服务器设备。然而，在一些实现方式中，自动化助理204可以被托管在计算设备202处，并且可以在计算设备202处执行可以与自动化助理操作相关联的各种处理。

在各个实现方式中，自动化助理204的全部或少于全部方面可以在计算设备202上实现。在这些实现方式中的一些实现方式中，自动化助理204的各方面经由计算设备202实现，并且可以与服务器设备对接，服务器设备可以实现自动化助理204的其他方面。服务器设备可以可选地经由多个线程服务于多个用户及其相关联的助理应用。在经由计算设备202实现自动化助理204的所有方面或少于所有方面的实现方式中，自动化助理204可以是与计算设备202的操作系统分离的应用(例如，安装在操作系统的“顶部”上)-或者可替代地可以由计算设备202的操作系统直接实现(例如，被认为是与操作系统的但与其集成的应用)。

在一些实现方式中，自动化助理204可以包括输入处理引擎206，该输入处理引擎206可以采用多个不同模块来处理计算设备202和/或服务器设备的输入和/或输出。例如，输入处理引擎206可以包括语音处理引擎208，该语音处理引擎208可以处理在辅助接口220处接收到的音频数据以标识体现在音频数据中的文本。音频数据可以例如从计算设备202传送到服务器设备，以便保留计算设备202处的计算资源。另外或者可替换地，可以在计算设备202处独占地处理音频数据。

用于将音频数据转换为文本的处理可以包括语音识别算法，其可以采用神经网络和/或用于标识对应于单词或短语的音频数据组的统计模型。从音频数据转换的文本可以由数据解析引擎210解析，并且作为可以用于生成和/或标识命令短语、意图、动作、槽值和/或用户指定的任何其他内容的文本数据对自动化助理204可用。在一些实现方式中，由数据解析引擎210提供的输出数据可以被提供给参数引擎212，以确定用户是否提供了对应于能够由自动化助理204和/或能够经由自动化助理204访问的应用或代理执行的特定意图、动作和/或例程的输入。例如，助理数据238可以被存储在服务器设备和/或计算设备202处，并且可以包括定义能够由自动化助理204执行的一个或多个动作的数据以及执行这些动作所必需的参数。参数引擎212可以生成用于意图、动作和/或槽值的一个或多个参数，并且将所述一个或多个参数提供给输出生成引擎214。输出生成引擎214可以使用一个或多个参数来与用于向用户提供输出的助理接口220通信，和/或与用于向一个或多个应用234提供输出的一个或多个应用234通信。

在一些实现方式中，自动化助理204可以是可以安装在计算设备202的操作系统的“顶部”上和/或可以本身形成计算设备202的操作系统的一部分(或整体)的应用。自动化助理应用包括设备上语音识别、设备上自然语言理解和设备上履行和/或具有对其的访问。例如，可以使用设备上语音识别模块来执行设备上语音识别，该设备上语音识别模块使用本地存储在计算设备202处的端到端语音识别机器学习模型来处理(由麦克风检测到的)音频数据。设备上语音识别为音频数据中存在的口头话语(如果有的话)生成所识别的文本。此外，例如，可以使用处理使用设备上语音识别生成的识别文本的设备上NLU模块、生成的NLU数据和可选上下文数据来执行设备上自然语言理解(NLU)。NLU数据可以包括对应于口头话语的意图和可选地用于该意图的参数(例如，槽值)。

可以使用设备上履行模块来执行设备上履行，该模块利用(来自设备上NLU的)NLU数据和可选其他本地数据来确定要采取的动作以解析口头话语的意图(以及可选地用于该意图的参数)。这可以包括确定对口头话语的本地和/或远程响应(例如，回答)、基于口头话语执行的与本地安装的应用的交互、基于口头话语(直接或经由相应的远程系统)向物联网(IoT)设备传送的命令、和/或基于口头话语执行的其他解决动作。然后，设备上履行可以启动所确定的动作的本地和/或远程性能/执行，以解决口头话语。

在各种实现方式中，可以至少选择性地利用远程语音处理、远程NLU和/或远程履行。例如，所识别的文本可以至少可选择地传送到远程自动化助理组件以用于远程NLU和/或远程履行。例如，所识别的文本可以可选地被传送用于与设备上性能并行地的远程性能，或者响应于设备上NLU和/或设备上履行的故障。然而，设备上语音处理、设备上NLU、设备上履行和/或设备上执行可以至少由于它们在解决口头话语时提供的延迟减少(由于不需要客户端-服务器往返来解决口头话语)而被优先化。此外，在没有或有限网络连接的情况下，设备上功能可能是唯一可用的功能。

在一些实现方式中，计算设备202可以包括一个或多个应用234，该一个或多个应用234可以由与提供计算设备202和/或自动化助理204的实体不同的第三方实体提供。自动化助理204和/或计算设备202可以访问应用数据230以确定能够由一个或多个应用234执行的一个或多个动作，以及一个或多个应用234中的每个应用的状态。此外，应用数据230和/或任何其他数据(例如，设备数据232)可以由自动化助理204访问以生成上下文数据，该上下文数据可以表征特定应用234在计算设备202处执行的上下文和/或特定用户正访问计算设备202的上下文。

当一个或多个应用234在计算设备202处执行时，设备数据232可以表征在计算设备202处执行的每个应用234的当前操作状态。此外，应用数据230可以表征执行应用234的一个或多个特征，诸如在一个或多个应用234的指导下呈现的一个或多个图形用户界面的内容。可替换地或另外地，应用数据230可以基于相应应用的当前操作状态来表征可以由相应应用和/或自动化助理204更新的动作模式。可替换地或另外地，用于一个或多个应用234的一个或多个动作模式可以保持静态，但是可以由自动化助理204访问，以便确定经由自动化助理204初始化的适当动作。

在一些实现方式中，计算设备202可以存储内容描述数据236，该内容描述数据236可以表征对应于一个或多个不同应用234的各种GUI元素。例如，当特定应用234被安装在计算设备202处和/或由计算设备202以其他方式访问时，计算设备202可以下载用于特定应用234的内容描述数据236。自动化助理204可以访问内容描述数据236，以便标识特定用户正打算经由口头话语来控制的一个或多个GUI元素。对应于应用234的特定GUI元素的内容描述数据236的每个部分可以是静态的或动态的。例如，当内容描述数据236是动态的时，可以根据到计算设备202的输入和/或来自计算设备202的输出来更新内容描述数据236。例如，当用户提供口头话语以用于进一步修改特定GUI元素，并且自动化助理204引起对特定图形用户界面元素的改变时，对应于特定GUI元素的内容描述数据可以由对应应用234、计算设备202和/或自动化助理204来修改，以便反映对特定GUI元素的改变。

计算设备202和/或自动化助理204还可以包括内容相关引擎260。内容相关引擎216可以处理来自用户的输入的自然语言内容，以便确定自然语言内容是否对应于一个或多个GUI元素。当在内容描述数据236中的特定条目中提供自然语言内容的一个或多个项时，可以标识口头话语的自然语言内容与内容描述数据236中的特定条目之间的相关性。可替换地或者另外地，当自然语言内容的一个或多个项被确定为与内容描述数据236的特定条目中的一个或多个项同义时，可以标识出口头话语的自然语言内容与内容描述数据236中的特定条目之间的相关性。可替换地或者另外地，当自然语言内容的一个或多个项表征内容描述数据236的条目也表征的GUI元素的特定特征时，可以标识出口头话语的自然语言内容与内容描述数据236中的特定条目之间的相关性。

例如，当特定应用234的应用GUI正呈现模拟立体声的音量拨号的拨号GUI元素时，对应于拨号GUI元素的内容描述数据236可以包括诸如“turn(转动)”、“顺时针”和/或“逆时针”的一个或多个项。因此，当用户在计算设备202的显示面板处同时呈现应用GUI的同时提供诸如“turn up(向上转动)”的口头话语时，自动化助理204可以确定在口头话语的内容的项“turn”与内容描述数据236的项“turn”之间存在相关性。在一些实现方式中，基于确定该相关性，自动化助理204可以标识对应于GUI元素的当前值，并且基于由用户提供的口头话语使该值被修改。例如，当在中间位置呈现拨号GUI元素从而指示50％的值时，自动化助理204可以基于用户提供定制话语“turn up”来使该值增加。50％的初始值可以由内容描述数据236、应用数据230和/或在计算设备202的图形用户界面处表征值的其他数据来标识。

例如，在一些实现方式中，自动化助理204可以采用补充内容引擎218，以便基于计算设备202的特征和/或在用户和自动化助理204之间的交互期间提供的信息来生成附加内容描述数据。补充内容引擎218可以处理对应于计算设备202的显示界面的屏幕截图的图像数据，以便生成附加内容描述数据。当显示界面是呈现来自多个不同应用234的内容时，自动化助理204可以针对应用234中的每个使用内容描述数据236，以便将所呈现的内容的每个部分与每个相应应用234相关。这可以允许自动化助理接收指向在计算设备202的显示界面处同时呈现和/或以其他方式表示的多个不同应用的口头话语。

在一些实现方式中，为了初始化将由一个或多个应用234执行的一个或多个动作，计算设备202和/或自动化助理204可以包括响应数据引擎222。响应数据引擎222可以使用内容描述数据236以便生成响应数据，该响应数据可以用于初始化要由一个或多个应用234执行的一个或多个动作。例如，响应于接收到口头话语，自动化助理204可以标识用户正打算经由口头话语修改的特定应用GUI元素。在一些实现方式中，当在与计算设备202通信的显示界面处呈现一个或多个用户可控制GUI元素的同时，GUI控制模式引擎224可以使自动化助理204响应于接收到口头话语而在GUI控制模式下操作。自动化助理204可以使用内容相关引擎216来标识对应于特定应用GUI元素的内容描述数据236。可以由响应数据引擎222访问与口头话语的内容相关的内容描述数据236的一部分，以便响应数据引擎222生成由对应于应用GUI元素的特定应用可操作的输入数据。在自动化助理204不标识对应于特定GUI元素的内容描述数据236的情况下，可以不生成输入数据。

作为示例，响应数据引擎222可以生成表征可以实现旨在由用户经由口头话语所阐述的一个或多个改变的一个或多个手势的手势数据。例如，当应用GUI元素是可旋转拨号图标时，响应数据引擎222可以生成表征旋转手势的数据，类似于用户使用一个或多个四肢在计算设备202的触摸显示界面处“转动”可旋转拨号图标。可替换地，当应用GUI元素是滚动条并且内容描述数据236的相关部分指示滚动条在显示界面处于最低位置时，响应数据引擎222可以生成表征将滚动条从最低位置移动到由用户经由口头话语所标识的位置的手势的数据。例如，当用户提供口头话语“up(向上)”时，自动化助理可以使响应数据引擎222生成默认值，该默认值对应于从滚动条的当前位置到当前位置上方的特定位置的默认距离。

在一些实现方式中，补充内容引擎218可以基于来自用户的一个或多个口头话语来生成附加内容描述数据，以便为由用户提供的后续口头话语提供进一步的上下文，从而进一步操纵应用GUI。作为示例，用户可以与对应于控制用户的家庭的恒温器的应用234的应用234交互。应用GUI可以包括用于输入恒温器也将被设置的温度的文本字段。最初，用户可以在显示界面处呈现应用GUI和文本字段时提供诸如“Assistant,set the thermostatto 68degrees(助理，将恒温器设置为68度)”的口头话语。作为响应，内容相关引擎216可以标识上述口头话语的内容与内容描述数据236中的条目之间的相关性。例如，内容描述数据236中的条目可以包括诸如“temperature(温度)”和“degrees”的自然语言内容，由此提供口头话语与内容描述数据236中的条目之间的相关性。基于该相关性，自动化助理204可以使应用234将恒温器的设置从当前位置改变到对应于68℃的位置。

此外，补充内容引擎218可以生成补充内容描述数据，该补充内容描述数据将恒温器的温度的当前位置表征为值68。如果用户想要改变恒温器，则用户可以提供后续口头话语，例如“将68改变到72”。因为后续口头话语不与内容描述数据236或者至少自然语言内容“temperature”和“degrees”具有直接相关性，因此自动化助理204可以依赖于补充内容描述数据，以便标识用户正打算控制的特定应用GUI元素。例如，因为补充内容描述数据包括值“68”，所以自动化助理204和/或内容相关引擎216可以确定后续口头话语和补充内容描述数据具有直接相关性。

结果，自动化助理204和/或数据引擎222的响应可以生成用于初始化动作的动作数据，以将恒温器的温度的文本字段中的值的设置从68℃改变到72℃。例如，反应数据可以表征用于选择文本字段、删除当前值68以及键入新值72的一个或多个手势。基于该改变，可以修改补充内容描述数据以指示在应用GUI的温度文本字段内正呈现值72。以这种方式，尽管原始内容描述数据236可能不指示当前值，如果用户再次想要使用另一口头话语来改变温度场中的值，则自动化助理204将能够标识用户正打算控制的播放特定GUI元素。

图3示出用于允许用户提供压缩口头话语以便控制应用图形用户界面的方法300，该应用图形用户界面另外可以经由一个或多个用户输入来可控制。用户可以使用口头话语来控制应用GUI，该口头话语可以不一定包括调用短语和/或排序标识自动化助理的一个或多个单词。方法300可以由一个或多个计算设备、应用和/或能够提供对自动化助理的访问的任何其他装置或模块来执行。方法300可以包括确定用户是否向计算设备的接口提供了口头话语的操作302。计算设备可以包括一个或多个接口，诸如触摸显示面板、一个或多个扬声器和/或一个或多个麦克风。当在计算设备的触摸显示面板处呈现应用GUI时，可以由用户提供口头话语。该应用GUI将由经由一个或多个输入手势可控制的应用在触摸显示面板和/或任何其他界面处呈现。例如，应用可以是用于控制通过在用户的家中可访问的局域网连接的各种设备的设备控制面板应用。应用GUI可以包括各种不同的GUI元素，诸如按钮、下拉菜单、文本输入域和/或任何其他类型的GUI元素。此外，设备控制面板应用可以控制各种设备，诸如空调、炉子、Wi-Fi路由器、各种不同的灯、安全系统、计算机和/或任何其他可以经由应用可控制的电器或装置。

方法300还可以包括确定用户是否在口头话语中提供了调用短语的操作304。调用短语可以是由用户旨在标识自动化助理以促进初始化用户和自动化助理之间的交互的一个或多个单词。例如，用户提供的口头话语可以是“Assistant,68degrees(助理，68度)”，其中“Assistant”是调用短语。响应于接收到口头话语，自动化助理可以确定口头话语包括“Assistant”的调用短语。因此，在这种情况下，方法300可以从操作304前进到操作308。然而，当调用短语没有被包括在口头话语中时，消息可以从操作304前进到操作306。

操作306可以包括确定自动化助理是否根据GUI控制模式来操作。当在GUI控制模式下操作时，自动化助理可以响应于口头话语，该口头话语可以不一定包括标识自动化助理的调用短语和/或一个或多个单词。作为示例，当在GUI控制模式下操作时，自动化助理可以响应于口头话语，诸如“off”，以便切换对应于特定设备的双位开关的GUI元素。然而，当自动化助理不在GUI控制模式下操作并且用户提供不包括调用短语的口头话语时，方法300可以从操作306前进，并且随后返回到检测用户是否已经提供了后续口头话语的操作302。

操作308可以包括标识与当前呈现的应用GUI对应的内容描述数据。在一些实现方式中，内容描述数据可以与应用相关联地存储并且存储在自动化助理可访问的位置处。例如，自动化助理可以在允许访问表征由一个或多个不同应用在计算设备的触摸显示面板处呈现的各种GUI元素的内容描述数据之前提供。以此方式，响应于接收到口头话语，自动化助理可以做出关于用户是否打算控制在触摸显示面板处呈现的一个或多个GUI元素的确定。在一些实现方式中，内容描述数据可以由提供应用的第三方实体提供，但是该第三方实体不同于提供自动化助理和/或应用正在其上执行的操作系统的实体。内容描述数据可以包括静态数据和/或动态数据，这取决于内容描述数据的一部分正表征的特定GUI元素。在一些实现方式中，应用和/或自动化助理可以生成补充内容描述数据，该补充内容描述数据可以根据用户是否正与应用GUI和/或一个或多个GUI元素交互来动态更新。以此方式，如果用户标识最初未被内容描述数据标识但与应用GUI相关联的内容，则自动化助理可以响应于标识此类内容的口头话语。

方法300可以从操作308前进至操作310，该操作310可以包括确定口头话语的内容是否对应于多个GUI元素。当口头话语的自然语言内容包括与多个GUI元素相关联的内容时，自动化助理可以确定口头话语对应于多个GUI元素。例如，用户可以提供诸如“turn up”的口头话语，其可以对应于多个GUI元素，诸如用于调节恒温器的温度的刻度盘和用于调节立体声系统所投影的音乐的音量的另一刻度盘。表征刻度盘和另一刻度盘的内容描述数据可以包括具有单词“up”的条目，从而使自动化助理标识与口头话语“turn up”对应的多个GUI元素。然而，当仅存在在应用GUI处呈现的单个刻度盘时，自动化助理可以确定口头话语仅对应于特定GUI元素。

当口头话语的内容对应于多个GUI元素时，方法300可以从操作310前进至可任选操作312，该可任选操作312可以包括使图形指示符被呈现在多个GUI元素中的每个GUI元素处或附近。作为示例，当在应用GUI处呈现的第一GUI元素和第二GUI元素被确定为对应于口头话语时，自动化助理可以使一种或多种颜色被呈现在第一GUI元素和第二GUI元素处或附近。一种或多种颜色可以通知用户响应于来自用户的最近口头话语而标识出多个GUI元素。用户然后可以决定是否进一步指定用户旨在控制的特定GUI元素。

方法300可以可选地从操作312前进到可选操作314，该可选操作314可以包括生成与多个GUI元素相关联的附加内容描述数据。在一些实现方式中，附加内容描述数据可以表征经由操作312呈现的一个或多个图形指示符。例如，可以在被标识为对应于口头话语的多个GUI元素中的每个GUI元素处或附近呈现多种不同颜色、值、文本和/或其他指示符。附加内容描述数据因此可以表征多种不同颜色、值、文本和/或其他指示符中的每一个。以此方式，当用户提供后续口头话语以便进一步指定他们旨在控制的特定GUI元素时，后续口头话语的内容可以与原始内容描述数据以及附加内容描述数据进行比较。

例如，方法300可以从操作314前进到操作302，以便检测来自用户的后续口头话语。用户可以提供诸如“红色”的后续口头话语，以便标识已用于高亮多个GUI元素中的至少一个GUI元素的颜色。当用户提供后续口头话语时，自动化助理可以根据GUI控制模式来操作，从而允许用户提供后续口头话语而无需调用短语。因此，响应于后续口头话语，自动化助理可以将后续口头话语的内容与(i)内容描述数据和(ii)附加内容描述数据进行比较，以便标识用户正参考的特定GUI元素。当自动化助理标识以“红色”高亮的特定GUI元素时，自动化助理可以(在提供后续口头话语之前)回忆由用户提供的初始口头话语，并且初始化与以红色高亮的特定GUI元素对应的动作的执行，并且促进填充由用户提供的初始口头话语。

当在操作310处口头话语的内容不对应于多个GUI元素时，方法300可以从操作310前进到操作316。该操作416可以包括确定口头话语的内容是否对应于单个GUI元素。当确定口头话语的内容不对应于单个GUI元素时，方法300可以返回到操作302，以便检测来自一个或多个用户的任何后续口头话语。然而，当确定口头话语的内容对应于单个GUI元素时，方法300可以从操作316前进到操作318。

操作318可以包括生成与口头话语一致并且与单个GUI元素相关联的元素数据。作为示例，当用户已经提供口头话语“Assistant,68degrees”时，自动化助理可以生成包括值68的元素数据和/或标识单个GUI元素的元素标识符。以此方式，当单个GUI元素是文本字段时，自动化助理就像用户一样可以使值“68”被输入到文本字段中。可替代地或附加地，自动化助理可以生成表征特定手势的手势数据，该特定手势将修改单个GUI元素(如果用户执行了特定手势)并且使单个GUI元素反映口头话语的内容。例如，当单个GUI元素对应于滚动条时，自动化助理可以生成表征手势的数据，该手势将实现滚动条的位置从当前位置改变到表征滚动条的68度的值的另一位置。

在一些实现方式中，自动化助理可以基于手势数据来初始化动作以“trick(欺骗)”应用认为用户实际上提供了影响滚动条的手势。例如，自动化助理可以与计算设备的操作系统通信以便向操作系统指示用户正打算操纵单个GUI元素。由自动化助理提供给操作系统的信息可以基于由自动化助理生成的手势数据。因此，在一些实现方式中，操作系统可以代表自动化助理与应用通信以便控制应用，就好像用户提供由元素数据表征的手势一样。

图4是示例计算机系统410的框图。该计算机系统410通常包括至少一个处理器414，其经由总线子系统412与多个外围设备通信。这些外围设备可以包括存储子系统424——其包括例如存储器425和文件存储子系统426、用户接口输出设备420、用户接口输入设备422和网络接口子系统416。输入和输出设备允许用户与计算机系统410交互。网络接口子系统416提供到外部网络的接口，并且耦合到其他计算机系统中的对应接口设备。

用户接口输入设备422可以包括键盘；诸如鼠标、轨迹球、触摸板或图形输入板的指向设备；扫描仪；并入到显示器的触摸屏；诸如语音识别系统的音频输入设备；麦克风；以及/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备以及将信息输入到计算机系统410或通信网络中的方式。

用户接口输出设备420可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或其他用于创建可视图像的机制。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常，术语“输出设备”的使用旨在包括所有可能类型的设备以及从计算机系统410向用户或另一台机器或计算机系统输出信息的方式。

存储子系统424存储提供本文描述的一些或所有模块的功能的编程和数据构造。例如，存储子系统424可以包括用于执行方法300的选定方面和/或实现系统200、计算设备104、自动化助理130和/或此处讨论的任何其他应用、设备、装置和/或模块中的一个或多个的逻辑。

这些软件模块通常由处理器414单独或与其他处理器结合执行。存储子系统424中使用的存储器425可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)430以及存储固定指令的只读存储器(ROM)432。文件存储子系统426可以提供用于程序和数据文件的持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统426存储在存储子系统524中，或者存储在处理器514可访问的其他机器中。

总线子系统412提供一种机制，其用于使计算机系统410的各种组件和子系统按照预期相互通信。尽管总线子系统412被示意性地示出为单个总线，但是总线子系统的替代实施方式可以使用多个总线。

计算机系统410能够是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群、或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图4中描绘的计算机系统410的描述仅旨在作为用于说明一些实施方式的目的的特定示例。计算机系统410的许多其他配置可能具有比图4中描绘的计算机系统更多或更少的组件。

在本文描述的系统收集关于用户(或者在此经常被称为“参与者”)的个人信息或可以使用个人信息的情况下，可以向用户提供机会来控制是否程序或者特征收集用户信息(例如，关于用户的社交网络、社会行为或者活动、职业、用户的偏好、或者用户的当前地理位置的信息)，或者控制是否和/或如何从可能与用户更加相关的内容服务器接收内容。另外，某些数据在存储或使用之前可以用一种或多种方式处理，使个人可识别信息被移除。例如，可以对待用户的身份，使无法为该用户确定任何个人可识别信息，或者可以概括获得地理位置信息的用户的地理位置(诸如城市、邮政编码或州级别)，使无法确定用户的特定地理位置。因此，用户可以控制如何收集有关用户的信息和/或已使用的信息。

虽然本文已经描述和说明若干实施方式，但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他手段和/或结构，并且这些变化和/或修改中的每一个被认为是在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置旨在是示例性的，并且实际参数、尺寸、材料和/或配置将取决于使用教导的特定应用或应用。本领域的技术人员将认识到或者能够使用不超过常规的实验确定本文所述具体实施方式的许多等同物。因此，要理解，前述实施方式仅作为示例呈现，并且在所附权利要求及其等同物的范围内，可以以不同于具体描述和要求保护的方式实施实施方式。本公开的实施方式涉及本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外，如果这些特征、系统、物品、材料、套件和/或方法不相互矛盾，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合被包括在本公开的范围内。

在一些实现方式中，由一个或多个处理器实现的方法被阐述为包括诸如确定用户已经向计算设备提供了口语话语的操作，其中当在所述计算设备的显示面板处呈现应用图形用户界面(GUI)的同时提供所述口头话语，并且其中所述计算设备提供对经由口头自然语言输入可控制的自动化助理的访问。该方法还可以包括基于接收到所述口头话语来标识由正在所述显示面板处呈现所述应用GUI的应用提供的内容描述数据的操作，其中内容描述数据从应用GUI中省略但是表征一个或多个GUI元素，所述一个或多个GUI元素：在应用GUI处被呈现并且能够由用户经由一个或多个输入手势交互以向应用提供输入。该方法还可以包括基于内容描述数据和口头话语来确定口头话语的自然语言内容是否对应于由内容描述数据表征的一个或多个GUI元素中的至少一个GUI元素的操作。方法还可以包括当自然语言内容对应于至少一个GUI元素中的特定GUI元素时：基于与特定GUI元素对应的自然语言内容，生成与口头话语的自然语言内容一致的输入数据。

在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的特定GUI元素时，使输入数据在应用GUI的特定GUI元素处或附近被呈现。在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的特定GUI元素时，使输入数据被传送到应用或与计算设备不同的单独计算设备。在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的多个不同GUI元素时，使计算设备的显示面板在多个不同GUI元素中的每个GUI元素处或附近呈现图形指示符。

在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的多个不同GUI元素时：确定用户已经提供了包括自然语言内容的后续口头话语，自然语言内容从多个不同GUI元素指定用于控制的预期GUI元素，以及基于确定用户已经提供了后续口头话语，使应用初始化与预期GUI元素对应的另一动作。在一些实现方式中，应用由与提供了自动化助理的实体不同的第三方实体提供。在一些实现方式中，口头话语的自然语言内容没有标识自动化助理的一个或多个单词。在一些实现方式中，方法可以包括：当自然语言内容不对应于至少一个GUI元素中的特定GUI元素时：抑制生成输入数据。

在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的特定GUI元素时：由自动化助理标识对应于特定GUI元素的应用动作，以及使应用动作由应用初始化，其中，生成输入数据还根据应用动作来执行。在一些实现方式中，应用动作包括使具有多个菜单元素的菜单在应用GUI处被呈现，并且元素数据表征多个菜单元素中的每个菜单元素。在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的特定GUI元素时：在使应用动作被初始化并且菜单被呈现在应用GUI处之后，确定用户已经提供了后续口头话语，后续口头话语：明确地标识多个菜单元素中的特定菜单元素并且没有标识自动化助理的一个或多个单词，以及基于确定用户已经提供后续口头话语，使基于所识别的特定菜单元素由应用初始化对应动作。

在其他实现方式中，一种由一个或多个处理器实现的方法被阐述为包括诸如由经由计算设备可访问的自动化助理确定用户已经向自动化助理提供了口头话语的操作，其中当在计算设备的显示面板处呈现应用图形用户界面(GUI)的同时提供口头话语，并且其中，口头话语包括标识自动化助理的自然语言内容。在一些实现方式中，方法还可以包括基于接收到口头话语来标识由正在显示面板处呈现应用GUI的应用提供的内容描述数据的操作，其中内容描述数据从应用GUI中省略但是表征一个或多个GUI元素，所述一个或多个GUI元素：在应用GUI处被呈现并且能够由用户经由一个或多个输入手势交互以向应用提供输入。在一些实现方式中，方法还可以包括基于内容描述数据和口头话语来确定口头话语的自然语言内容是否对应于由内容描述数据表征的一个或多个GUI元素中的至少一个GUI元素的操作。在一些实现方式中，方法还可以包括以下操作：当自然语言内容对应于至少一个GUI元素中的特定GUI元素时，使自动化助理根据GUI控制模式来操作，在GUI控制模式中，由用户提供的后续口头话语能够省略标识自动化助理的一个或多个单词但是仍然能够使自动化助理初始化应用动作的执行，以及基于与特定GUI元素对应的自然语言内容，生成与口头话语的自然语言内容一致的输入数据。在一些实现方式中，方法还可以包括：当自然语言内容不对应于至少一个GUI元素中的特定GUI元素时，使自动化助理不根据GUI控制模式来操作，以及抑制生成输入数据。

在一些实现方式中，内容描述数据包括其他自然语言内容，其中确定口头话语的自然语言内容是否对应于至少一个GUI元素包括：确定口头话语的自然语言内容的至少一部分被包括在从应用GUI省略的内容描述数据的其他自然语言内容中。在一些实现方式中，当自然语言内容对应于至少一个GUI元素中的特定GUI元素并且自动化助理根据GUI控制模式来操作时：确定附加口头话语已经被提供作为来自用户的计算设备的输入，其中附加口头话语没有标识自动化助理的一个或多个单词，以及基于附加口头话语的附加自然语言内容来生成与口头话语的附加自然语言内容一致的附加输入数据。

在一些实现方式中，附加口头话语的附加自然语言内容标识另一GUI元素相对于特定GUI元素的位置。在一些实现方式中，附加口头话语的附加自然语言内容表征以下中的至少一个：一个或多个输入手势中的输入手势和另一GUI元素。

在又一些实现方式中，一种由一个或多个处理器实现的方法被阐述为包括诸如由经由计算设备可访问的自动化助理确定用户已经向自动化助理提供了口头话语的操作，其中当在计算设备的显示面板处呈现应用的应用图形用户界面GUI的同时提供口头话语，以及其中，口头话语包括标识自动化助理的自然语言内容。在一些实现方式中，方法还可以包括基于口头话语来确定口头话语的自然语言内容是否对应于利用应用GUI呈现的多个不同GUI元素的操作，其中，利用应用GUI呈现的用户可控制GUI元素的总数大于自然语言内容被确定为对应的多个不同GUI元素的总数。在一些实现方式中，方法还可以包括基于确定自然语言内容对应于多个不同GUI元素使多个不同图形指示符被呈现在多个不同GUI元素处或附近的操作，其中多个不同图形指示符中的每个图形指示符被呈现为对应于多个不同GUI元素中的GUI元素。在一些实现方式中，方法还可以包括由自动化助理确定用户已经向自动化助理提供后续口头话语的操作，其中与在多个不同GUI元素处或附近呈现多个不同图形指示符同时地提供后续口头话语。在一些实现方式中，方法还可以包括基于后续口头话语的其他自然语言内容来确定用户已经标识与对应图形指示符相关联的特定GUI元素的操作。在一些实现方式中，方法还可以包括基于自然语言内容和其他自然语言内容来生成输入数据以促进初始化与自然语言内容和其他自然语言内容一致的一个或多个动作的操作。

在一些实现方式中，输入数据与手势输入相关联，手势输入在由用户执行时使应用初始化动作，并且方法还包括：将输入数据提供给应用，其中输入数据在由应用接收时使应用初始化动作。在一些实现方式中，后续口头话语的其他自然语言内容没有标识自动化助理的一个或多个单词。在一些实现方式中，其他口头话语的其他自然语言内容标识特定GUI元素在应用GUI内的位置。在一些实现方式中，附加口头话语的其他自然语言内容标识从应用GUI内的特定GUI元素省略但是与特定GUI元素相关联地存储为内容描述数据的信息。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

确定用户已经向计算设备提供了口头话语，

其中，当在所述计算设备的显示面板处呈现应用图形用户界面GUI的同时，提供所述口头话语，以及

其中，所述计算设备提供对经由口头自然语言输入能够控制的自动化助理的访问；

基于接收到所述口头话语，标识由正在所述显示面板处呈现所述应用GUI的应用提供的内容描述数据，

其中，所述内容描述数据从所述应用GUI中省略但是表征一个或多个GUI元素，所述一个或多个GUI元素：在所述应用GUI处被呈现并且能够由所述用户经由一个或多个输入手势交互以向所述应用提供输入；

基于所述内容描述数据和所述口头话语，确定所述口头话语的自然语言内容是否对应于由所述内容描述数据表征的所述一个或多个GUI元素中的至少一个GUI元素；以及

当所述自然语言内容对应于所述至少一个GUI元素中的特定GUI元素时：

基于与所述特定GUI元素对应的所述自然语言内容，生成与所述口头话语的所述自然语言内容一致的输入数据。

2.根据权利要求1所述的方法，进一步包括：

当所述自然语言内容对应于所述至少一个GUI元素中的所述特定GUI元素时：

使所述输入数据在所述应用GUI的所述特定GUI元素处或附近被呈现。

3.根据权利要求1所述的方法，进一步包括：

使所述输入数据被传送到所述应用或与所述计算设备不同的单独计算设备。

4.根据权利要求1所述的方法，进一步包括：

当所述自然语言内容对应于所述至少一个GUI元素中的多个不同GUI元素时：

使所述计算设备的所述显示面板在所述多个不同GUI元素中的每个GUI元素处或附近呈现图形指示符。

5.根据权利要求4所述的方法，进一步包括：

确定所述用户已经提供了包括自然语言内容的后续口头话语，所述自然语言内容从所述多个不同GUI元素指定用于控制的预期GUI元素，以及

基于确定所述用户已经提供了所述后续口头话语，使所述应用初始化与所述预期GUI元素对应的另一动作。

6.根据权利要求1所述的方法，其中，所述应用由与提供了所述自动化助理的实体不同的第三方实体提供。

7.根据权利要求1所述的方法，其中，所述口头话语的所述自然语言内容没有标识所述自动化助理的一个或多个单词。

8.根据权利要求1所述的方法，进一步包括：

由所述自动化助理标识对应于所述特定GUI元素的应用动作，以及

使所述应用动作由所述应用初始化，其中，生成所述输入数据进一步根据所述应用动作来执行。

9.根据权利要求8所述的方法，

其中，所述应用动作包括使具有多个菜单元素的菜单在所述应用GUI处被呈现，以及

其中，所述元素数据表征所述多个菜单元素中的每个菜单元素。

10.根据权利要求9所述的方法，进一步包括：

在使所述应用动作被初始化并且所述菜单被呈现在所述应用GUI处之后，确定所述用户已经提供了后续口头话语，所述后续口头话语：明确地标识所述多个菜单元素中的特定菜单元素并且没有标识所述自动化助理的一个或多个单词，以及

基于确定所述用户已经提供所述后续口头话语，使所述应用基于所标识的所述特定菜单元素初始化对应动作。

11.根据权利要求1-10中的任一项所述的方法，进一步包括：

当所述自然语言内容不对应于所述至少一个GUI元素中的特定GUI元素时：

抑制生成所述输入数据。

12.一种由一个或多个处理器实现的方法，所述方法包括：

由经由计算设备能够访问的自动化助理确定用户已经向所述自动化助理提供了口头话语，

其中，所述口头话语包括标识所述自动化助理的自然语言内容；

使所述自动化助理根据GUI控制模式来操作，在所述GUI控制模式中，由所述用户提供的后续口头话语能够省略标识所述自动化助理的一个或多个单词但是仍然能够使所述自动化助理初始化应用动作的执行，以及

13.根据权利要求12所述的方法，其中，所述内容描述数据包括其他自然语言内容，其中确定所述口头话语的所述自然语言内容是否对应于所述至少一个GUI元素包括：

确定所述口头话语的所述自然语言内容的至少一部分被包括在从所述应用GUI省略的所述内容描述数据的所述其他自然语言内容中。

14.根据权利要求12所述的方法，进一步包括：

当所述自然语言内容对应于所述至少一个GUI元素中的特定GUI元素并且所述自动化助理根据所述GUI控制模式来操作时：

确定附加口头话语已经作为输入从所述用户被提供给所述计算设备，其中所述附加口头话语没有标识所述自动化助理的一个或多个单词，以及

基于所述附加口头话语的附加自然语言内容来生成与所述口头话语的所述附加自然语言内容一致的附加输入数据。

15.根据权利要求14所述的方法，其中，所述附加口头话语的所述附加自然语言内容标识另一GUI元素相对于所述特定GUI元素的位置。

16.根据权利要求14所述的方法，其中，所述附加口头话语的所述附加自然语言内容表征以下中的至少一个：所述一个或多个输入手势中的输入手势和另一GUI元素。

17.根据权利要求12至16中的任一项所述的方法，进一步包括：

使所述自动化助理不根据所述GUI控制模式来操作，以及

抑制生成所述输入数据。

18.一种由一个或多个处理器实现的方法，所述方法包括：

其中，当在所述计算设备的显示面板处呈现应用的应用图形用户界面GUI的同时，提供所述口头话语，以及

基于所述口头话语来确定所述口头话语的自然语言内容是否对应于用所述应用GUI呈现的多个不同GUI元素，

其中，用所述应用GUI呈现的用户可控制GUI元素的总数大于所述自然语言内容被确定为对应的所述多个不同GUI元素的总数；

基于确定所述自然语言内容对应于多个不同GUI元素，使多个不同图形指示符被呈现在所述多个不同GUI元素处或附近，

其中，所述多个不同图形指示符中的每个图形指示符被呈现为对应于所述多个不同GUI元素中的GUI元素；

由所述自动化助理确定所述用户已经向所述自动化助理提供后续口头话语，

其中，与在所述多个不同GUI元素处或附近呈现所述多个不同图形指示符同时地提供所述后续口头话语；

基于所述后续口头话语的其他自然语言内容来确定所述用户已经标识与对应图形指示符相关联的特定GUI元素；以及

基于所述自然语言内容和所述其他自然语言内容来生成输入数据以促进初始化与所述自然语言内容和所述其他自然语言内容一致的一个或多个动作。

19.根据权利要求18所述的方法，其中，所述输入数据与手势输入相关联，所述手势输入在由所述用户执行时使所述应用初始化动作，并且所述方法进一步包括：

将所述输入数据提供给所述应用，其中所述输入数据在被所述应用接收时使所述应用初始化所述动作。

20.根据权利要求18所述的方法，其中，所述后续口头话语的所述其他自然语言内容没有标识所述自动化助理的一个或多个单词。

21.根据权利要求18至20中的任一项所述的方法，其中，所述其他口头话语的所述其他自然语言内容标识所述特定GUI元素在所述应用GUI内的位置。

22.根据权利要求18至20中的任一项所述的方法，其中，附加口头话语的所述其他自然语言内容标识从所述应用GUI内的所述特定GUI元素省略但是与所述特定GUI元素相关联地存储为内容描述数据的信息。

23.一种包括指令的计算机程序产品，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至22中的任一项所述的方法。

24.一种包括指令的计算机可读存储介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至22中的任一项所述的方法。

25.一种包括用于执行权利要求1至22中的任一项所述的方法的一个或多个处理器的系统。