CN115605842A

CN115605842A - 当环境干扰预计会抑制某些自动化助理交互时建议备选接口

Info

Publication number: CN115605842A
Application number: CN202180035301.6A
Authority: CN
Inventors: 马修·谢里菲; 维克托·克尔布内
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-10-16
Filing date: 2021-10-12
Publication date: 2023-01-13
Also published as: EP4127900A1; JP2023532395A; US20230298583A1; KR20220167393A; US20220122599A1; US11657817B2; WO2022081574A1

Abstract

所阐述的实施方式涉及当自动化助理和/或用户预计不理解用户与自动化助理之间的特定交互时建议替代接口模态。在一些实例中，自动化助理能够抢先确定用户与自动化助理之间即将进行的和/或正在进行的交互可能会经历干扰。基于该确定，自动化助理能够提供交互可能不成功和/或用户应该通过不同的模态与自动化助理交互的指示。例如，当自动化助理确定便携式计算设备的音频接口正经历干扰时，自动化助理能够在便携式计算设备处呈现键盘接口。

Description

当环境干扰预计会抑制某些自动化助理交互时建议备选接口

背景技术

人类可以参与与交互式软件应用的人机对话，交互式软件应用在此被称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“会话代理”等)。例如，人类(当他们与自动化助理交互时，可以被称为“用户”)可以使用说出的自然语言输入(即，话语)来提供命令和/或请求，在一些情况下，可以将说出的自然语言输入转换成文本，然后进行处理，和/或通过提供文本(例如，键入的)自然语言输入来提供命令和/或请求。

在用于接收用户输入的模态经历干扰的情况下，与自动化助理交互的用户可能不可避免地调用他们相应的自动化助理。这种情况能够包括拥挤的公共场所和/或背景噪声明显的其它区域。因此，受干扰影响的输入模态在那时可能不是用于自动化助理的可靠接口。结果，向暂时不可靠的接口提供输入的用户可能不得不重复他们的输入。在一些实例中，当用户意图用他们的输入来控制自动化助理时，自动化助理可能请求用户重复输入和/或初始化不正确动作的执行。重复的输入和/或执行不正确的动作会导致计算资源的浪费——假设重复的输入和/或非预期的动作将在客户端计算设备处被处理和/或通过网络被传送到服务器。

发明内容

在本文中所阐述的实施方式涉及一种自动化助理，该自动化助理能够确定用户与自动化助理之间经由特定接口的正在进行的或期望的交互是否预计会受到干扰的影响。当自动化助理确定特定接口处的交互被确定为受干扰影响时，自动化助理能够提供用户应该经由单独的接口与自动化助理交互的指示。以这种方式，自动化助理能够通过减少用户不得不重复可能已经受到一定量的环境干扰影响的输入的次数来保留计算资源。此外，这能够减少自动化助理由于交互受到某些干扰影响而初始化不正确动作的实例的数量。

在一些实例中，用户可能位于其中存在由环境中其它人的交互引起的一定量背景噪声的环境中。在此期间，用户可能正拿着便携式计算设备，期望调用他们的自动化助理来回答特定的查询(例如，“Assistant,what time am I meeting Joe tomorrow？(助理，我明天什么时候会见乔？)”)。在一些实施方式中，在用户向他们的自动化助理提供输入之前，或者在用户向自动化助理提供输入的同时，自动化助理能够确定输入是否将被背景噪声中断或者正在被背景噪声中断。例如，当用户输入体现在说出的话语中时，能够在捕获说出的话语的音频中也捕获由其它人造成的背景噪声。当自动化助理确定输入预计会受到背景噪声和/或其它干扰的影响时，自动化助理能够使指示向用户呈现。该指示能够操作以警告用户他们的输入可能未被自动化助理充分接收和/或用户可能具有可用于提供输入的另一输入模态。例如，在一些实施方式中，该指示能够是键盘接口的呈现，用户能够采用该键盘接口来向自动化助理键入输入，而不是对自动化助理说话。

在一些实施方式中，用户环境的一个或多个特征能够由用于确定环境的一个或多个特征是否将在一定程度上影响用户输入的数据来表征。能够处理该数据以便生成一个或多个得分，能够将一个或多个得分与阈值进行比较，当满足该阈值时，指示用户输入预计会受到环境的一个或多个特征影响。例如，得分能够基于环境中的人的数量、环境中说话的人的数量、用户在类似环境中与自动化助理互动的一个或多个先前实例、背景噪声的类型、背景噪声的音量水平、环境的一个或多个图像和/或能够用于表征环境的任何其它数据。

在一些实施方式中，得分和/或附加得分能够基于用于与自动化助理交互的单独模态的可用性。例如，当用户处于能经由不包括图形用户接口的独立扬声器设备来访问自动化助理的环境中时，能够生成附加得分来反映任何其它接口(例如，在图形用户接口处呈现的键盘接口)的受限的可用性。备选地，当用户处于其中能经由独立扬声器设备和用户口袋中的移动计算设备来访问自动化助理的另一环境中时，能够生成附加得分来反映用户能够在其中与自动化助理交互的大量接口。在一些实施方式中，能够生成附加得分来反映预计在环境中不经历干扰的自动化助理接口的可用性。基于环境的干扰得分以及可选地接口可用性得分，自动化助理能够确定是否提供另一接口可用和/或特定类型的输入预计将经历干扰的指示。在一些实施方式中，能够基于环境变化和/或某些自动化助理接口的可用性变化，随时间更新一个或多个得分。

在一些实施方式中，一个或多个得分能够基于使用一个或多个经训练的机器学习模型来处理来自一个或多个不同来源的数据。能够使用基于先前实例的训练数据来训练这些经训练的机器学习模型，在先前实例中，一种或多种不同类型的干扰影响和/或不影响用户与自动化助理之间的交互。例如，一个或多个数据来源能够表征用户所在的环境，并且能够使用一个或多个经训练的机器学习模型来处理数据，以便生成嵌入。能够将该嵌入与潜在空间中的其它嵌入进行比较，以便确定环境是否表现出将影响用户与自动化助理之间的交互的干扰。备选地或附加地，一个或多个经训练的机器学习模型能够用于分类和/或以其它方式确定用户被理解的概率。在一些实施方式中，能够将潜在空间中从该嵌入到另一嵌入的距离与阈值或另一距离进行比较，以便确定是否建议用户应该经由特定的接口模态与自动化助理进行对接。例如，潜在空间中嵌入的比较，和/或经由启发式方法，能够导致一个或多个接口被指示为受干扰影响，和/或一个或多个其它接口被指示为受干扰影响较少。

提供以上描述作为本公开的一些实施方式的概述。下文将更详细地描述这些实施方式以及其它实施方式的进一步描述。

其它实施方式可以包括存储能由一个或多个处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))运行的指令的非暂时性计算机可读存储介质，以执行方法，诸如上文描述和/或本文其它地方描述的一种或多种方法。其它实施方式可以包括一个或多个计算机的系统，一个或多个计算机包括一个或多个处理器，一个或多个处理器能操作来允许存储的指令执行方法，诸如上文描述和/或本文其它地方描述的一种或多种方法。

应当认识到，在本文中更详细描述的前述概念和附加概念的所有组合被认为是在本文中公开的主题的部分。例如，出现在本公开末尾的所要求保护的主题的所有组合被认为是本文公开的主题的部分。

附图说明

图1A和图1B图示了用户在可能干扰说出的输入的环境中接收向自动化助理键入输入而不是说出输入的建议的视图。

图2图示了用于在预计自动化助理和/或用户不理解用户与自动化助理之间的特定交互时建议替代接口模态的系统。

图3图示了用于提供对自动化助理的特定输入是否会受环境中的干扰影响的指示，并提供用于向自动化助理提供输入的单独接口的方法。

图4是示例计算机系统的框图。

具体实施方式

图1A和图1B分别图示了在可能干扰说出的输入的环境110中用户102接收向自动化助理键入输入而不是说出输入的建议的视图100和视图120。例如，用户102可能在环境110中，诸如在他们的公寓大楼外面，并且有他们想要询问他们的自动化助理的查询。为了访问自动化助理，用户102能够具有计算设备106，计算设备106允许用户102经由一个或多个接口与自动化助理交互。例如，计算设备106能够包括显示接口104和音频接口108，显示接口104能够是支持触摸的显示面板，音频接口108能够包括扬声器和/或麦克风。在一些实施方式中，计算设备106还能够包括用于提供与自动化助理交互的另一接口的相机。

在一些实施方式中，并且在得到用户102的事先许可的情况下，自动化助理能够确定环境110的一个或多个特征是否会影响用户102与自动化助理之间的交互。例如，自动化助理能够基于计算设备106可用的音频数据和/或图像数据来确定用户102在拥挤的人行道上。在一些实施方式中，能够处理来自一个或多个来源的数据，以便确定对计算设备106的特定接口的输入是否会受到来自环境110和/或其它来源的干扰。基于该处理，当在环境110中时，自动化助理能够选择向用户102提供对特定接口的输入将经历干扰的指示。例如，最初，显示接口104可能没有特定接口将受诸如背景噪声(例如，如图1A和图1B所指示的多人交谈)的干扰和/或其它干扰等影响的任何指示。然而，如图1B的视图120中所提供的，基于特定接口将受到某种干扰影响的确定，自动化助理和/或其它应用能够使键盘124呈现在显示接口104处。

在一些实施方式中，键盘124的一个或多个特性能够至少部分地基于干扰预计会影响对计算设备106的特定接口(例如，麦克风)的输入的程度。例如，键盘124的大小能够根据干扰预计会影响特定接口的输入的程度来调整。在一些实施方式中，当干扰预计不会影响对自动化助理的说出的输入时，自动化助理能可选地使得输入段112被呈现在显示接口104处。然而，当预计干扰会影响对自动化助理的输入时，自动化助理能够使键盘124呈现在显示接口104处，同时保留输入段112或从显示接口104移除输入段112。这能够允许用户102使用他们的手122来向自动化助理键入输入，而没有说出的输入受可听干扰影响的风险。

图2图示了用于在自动化助理和/或用户预计不理解用户与自动化助理之间的特定交互时建议替代接口模态的系统200。自动化助理204能够作为在诸如计算设备202和/或服务器设备等一个或多个计算设备处提供的助理应用的部分来操作。用户能够经由助理接口220与自动化助理204交互，助理接口220可以是麦克风、相机、触摸屏显示器、用户接口和/或能够提供用户与应用之间的接口的任何其它装置。例如，用户能够通过向助理接口220提供口述、文本和/或图形输入来初始化自动化助理204，以使自动化助理204初始化一个或多个动作(例如，提供数据、控制外围设备、访问代理、生成输入和/或输出等)。备选地，自动化助理204能够使用一个或多个经训练的机器学习模型基于对场境数据236的处理来初始化。场境数据236能够表征自动化助理204能够在其中访问的环境的一个或多个特征，和/或被预测为打算与自动化助理204交互的用户的一个或多个特征。计算设备202能够包括显示设备，该显示设备能够是显示面板，该显示面板包括用于接收触摸输入和/或手势的触摸接口，以允许用户经由触摸接口控制计算设备202的应用234。在一些实施方式中，计算设备202可能没有显示设备，从而提供听觉用户接口输出，而不提供图形用户接口输出。此外，计算设备202能够提供用户接口，诸如麦克风，用于从用户接收说出的自然语言输入。在一些实施方式中，计算设备202能够包括触摸接口，并且可能没有相机，但是能够可选地包括一个或多个其它传感器。

计算设备202和/或其它第三方客户端设备能够通过诸如互联网等网络与服务器设备通信。附加地，计算设备202和任何其它计算设备能够通过诸如Wi-Fi网络之类的局域网(LAN)相互通信。计算设备202能够将计算任务卸载到服务器设备，以便节省计算设备202处的计算资源。例如，服务器装置能够分担(offload)自动化助理204，且/或计算装置202能够将在一个或多个助理接口220处接收的输入传输到服务器设备。然而，在一些实施方式中，自动化助理204能够被托管在计算设备202处，并且能够与自动化助理操作相关联的各种过程能够在计算设备202处执行。

在各种实施方式中，自动化助理204的所有方面或少于所有方面能够在计算设备202上实施。在这些实施方式中的一些中，自动化助理204的方面经由计算设备202来实施，并且能够与服务器设备对接，该服务器设备能够实施自动化助理204的其它方面。服务器设备能够可选地经由多线程为多个用户及其关联的助理应用提供服务。在自动化助理204的所有或少于所有方面经由计算设备202实施的实施方式中，自动化助理204能够是与计算设备202的操作系统分离的应用(例如，安装在操作系统的“之上”)——或者能够备选地由计算设备202的操作系统直接实施(例如，被认为是操作系统的应用，但与操作系统是一体的)。

在一些实施方式中，自动化助理204能够包括输入处理引擎206，该引擎能够采用多个不同的模块来处理计算设备202和/或服务器设备的输入和/或输出。例如，输入处理引擎206能够包括语音处理引擎208，该语音处理引擎208能够处理在助理接口220处接收的音频数据，以辨识音频数据中体现的文本。音频数据能够从例如计算设备202传输到服务器设备，以便保留计算设备202处的计算资源。附加地或备选地，音频数据能够仅在计算设备202处被处理。

用于将音频数据转换成文本的过程能够包括语音识别算法，该语音识别算法能够采用神经网络和/或统计模型来辨识对应于单词或短语的音频数据组。从音频数据转换的文本能够由数据解析引擎210解析，并作为文本数据对自动化助理204可用，文本数据能够用于生成和/或辨识命令短语、意图、动作、槽值和/或用户指定的任何其它内容。在一些实施方式中，由数据解析引擎210提供的输出数据能被提供给参数引擎212，以确定用户是否提供了对应于能够由自动化助理204和/或能够经由自动化助理204访问的应用或代理执行的特定意图、动作和/或例程的输入。例如，助理数据238能够存储在服务器设备和/或计算设备202处，并且能够包括定义能够由自动化助理204执行的一个或多个动作的数据，以及执行这些动作所必需的参数。参数引擎212能够为意图、动作和/或槽值生成一个或多个参数，并将这一个或多个参数提供给输出生成引擎214。输出生成引擎214能够使用一个或多个参数来与用于向用户提供输出的助理接口220通信，和/或与用于向一个或多个应用234提供输出的一个或多个应用234通信。

在一些实施方式中，自动化助理204能够是能安装在计算设备202的操作系统“之上”的应用和/或其本身能够形成计算设备202的操作系统的部分(或全部)。自动化助理应用包括和/或可以访问设备上语音识别、设备上自然语言理解和设备上履行。例如，能够使用设备上语音识别模块来执行设备上语音识别，该设备上语音识别模块使用本地存储在计算设备202处的端到端语音识别机器学习模型来处理音频数据(由麦克风检测)。设备上语音识别为音频数据中存在的说出的话语(如果有的话)生成识别的文本。此外，例如，能够使用设备上自然语言理解(NLU)模块来执行设备上的自然语言理解(NLU)，该设备上NLU模块处理使用设备上语音识别生成的识别文本以及可选地场境数据，以生成NLU数据。

NLU数据能够包括对应于说出的话语的意图以及可选地用于意图的参数(例如，槽值)。能够使用设备上履行模块来执行设备上履行，该设备上履行模块利用NLU数据(来自设备上NLU)以及可选地其它本地数据来确定要采取的动作以分辨说出话语的意图(以及可选地用于意图的参数)。这能够包括确定对说出的话语的本地和/或远程响应(例如，回答)、基于说出的话语执行的与本地安装的应用的交互、基于说出的话语向物联网(IoT)设备(直接地或经由对应的远程系统)传输的命令、和/或基于说出的话语执行的其它分辨动作。然后，设备上履行能够启动所确定的动作的本地和/或远程执行/运行，以分辨说出的话语。

在各种实施方式中，能够至少选择性地利用远程语音处理、远程NLU和/或远程履行。例如，识别的文本能够至少选择性地被传输到远程自动化助理组件，用于远程NLU和/或远程履行。例如，能够可选地传输所识别的文本，用于与设备上执行并行的远程执行，或者是响应于设备上NLU和/或设备上履行失败。然而，设备上语音处理、设备上NLU、设备上履行和/或设备上运行能够被优先化，至少是由于它们在分辨说出的话语时提供的等待时间减少(由于不需要(一次或多次)客户端-服务器往返来分辨说出的话语)。此外，在没有网络连接或网络连接受限的情况下，设备上功能能够是唯一可用的功能。

在一些实施方式中，计算设备202能够包括一个或多个应用234，一个或多个应用234能够由不同于提供计算设备202和/或自动化助理204的实体的第三方实体来提供。自动化助理204和/或计算设备202的应用状态引擎能够访问应用数据230来确定能够由一个或多个应用234执行的一个或多个动作，以及一个或多个应用234的每个应用的状态和/或与计算设备202相关联的相应设备的状态。自动化助理204和/或计算设备202的设备状态引擎能够访问设备数据232来确定能够由计算设备202和/或与计算设备202相关联的一个或多个设备执行的一个或多个动作。此外，应用数据230和/或任何其它数据(例如，设备数据232)能够由自动化助理204访问以生成场境数据236，该场境数据236能够表征特定应用234和/或设备正在其中运行的场境，和/或特定用户正在其中访问计算设备202、访问应用234和/或任何其它设备或模块的场境。

当一个或多个应用234在计算设备202处运行时，设备数据232能够表征在计算设备202处运行的每个应用234的当前操作状态。此外，应用数据230能够表征正在运行的应用234的一个或多个特征，诸如在一个或多个应用234的指导下呈现的一个或多个图形用户接口的内容。备选地或附加地，应用数据230能够表征动作模式，该动作模式能够由相应应用和/或自动化助理204基于相应应用的当前操作状况来更新。备选地或附加地，用于一个或多个应用234的一个或多个动作模式能够保持静态，但是能够由应用状态引擎访问，以便确定合适的动作来经由自动化助理204初始化。

计算设备202还能够包括助理调用引擎222，该助理调用引擎222能够使用一个或多个经训练的机器学习模型来处理应用数据230、设备数据232、场境数据236和/或计算设备202能够访问的任何其它数据。助理调用引擎222能够处理该数据，以便确定是否等待用户显式说出调用短语来调用自动化助理204，或者将该数据视为指示用户调用自动化助理的意图——代替要求用户显式说出调用短语。例如，能够使用训练数据的实例来训练一个或多个经训练的机器学习模型，训练数据的实例基于用户处于其中多个设备和/或应用表现出各种操作状态的环境中的场景。能够生成训练数据的实例，以便捕获表征用户调用自动化助理的场境和用户不调用自动化助理的其它场境的训练数据。

当根据训练数据的这些实例来训练一个或多个经训练的机器学习模型时，助理调用引擎222能够使得自动化助理204基于场境和/或环境的特征来检测或限制检测来自用户的说出的调用短语。附加地或备选地，助理调用引擎222能够使得自动化助理204基于场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。在一些实施方式中，能够基于计算设备202检测到助理制止来自另一计算设备的输出，来禁用或限制助理调用引擎222。以这种方式，当计算设备202正检测到助理制止输出时，自动化助理204将不会基于场境数据236而被调用，否则的话，如果未检测到助理制止输出，这将导致自动化助理204被调用。

在一些实施方式中，自动化助理204能够包括环境特征引擎218，该环境特征引擎218能够检测计算设备202和/或另一计算设备正在其中操作的环境的一个或多个特征。环境特征引擎218能够处理表征一个或多个特征的数据，以便确定用户与自动化助理204之间的交互是否会受到环境的影响。该确定能够基于一个或多个启发式过程和/或一个或多个经训练的机器学习模型，其能够基于一个或多个用户在类似环境中与自动化助理交互的先前实例来训练。例如，表征用户在拥挤的环境中与自动化助理交互的先前实例的数据能够用于辨识干扰得分的阈值。能够使用一个或多个经训练的机器学习模型为特定环境生成干扰得分。当特定干扰得分满足干扰得分阈值时，环境特征引擎218能够与自动化助理204的干扰指示引擎226通信。

自动化助理204能够采用干扰指示引擎226来向用户提供用户与自动化助理204之间的交互可能受他们所处环境的一个或多个特征影响的指示。在一些实施方式中，提供给用户的指示的类型能够基于由环境特征引擎218生成的一个或多个得分。例如，当生成用于指示音频干扰将影响音频接口的得分时，干扰指示引擎226能够使视觉指示向用户呈现。在一些实施方式中，指示的特性也能够由干扰指示引擎226来选择。例如，干扰指示引擎226能够使得指示的大小、形状、亮度、内容和/或其它特性根据预计会影响用户与自动化助理204之间的交互的干扰程度来调整。

在一些实施方式中，自动化助理204能够包括接口选择引擎228，当预计干扰会影响不同的接口时，该接口选择引擎228能够选择接口以向用户推荐。例如，当计算设备202被确定正经历将使在触摸接口上键入变得困难的眩光量时，接口选择引擎228能够将触摸接口评分为低于其它可用接口。在一些实例中，接口选择引擎228能够将触摸接口指定为在某些环境中比例如音频接口次优的接口。在一些实施方式中，能够从接口选择引擎228向干扰指示引擎226通知排名，并且干扰指示引擎226生成标识用于特定环境的最优接口的指示。例如，由干扰指示引擎226提供的指示能够包括键盘的呈现，用户能够向键盘提供触摸输入以便直接向自动化助理键入输入。

图3图示了用于提供对自动化助理的特定输入是否会受到环境中的干扰影响的指示，并提供用于向自动化助理提供输入的单独接口的方法300。方法300能够由一个或多个计算设备、应用和/或能够与自动化助理相关联的任何其它装置或模块来执行。方法300能够包括确定用户是否可用于向自动化助理提供输入的操作302。在一些实施方式中，对用户是否可用的确定能够基于来自一个或多个传感器和/或一个或多个计算设备的任何其它接口的数据。例如，自动化助理能够基于音频数据和/或图像数据来确定一个或多个用户在自动化助理接口的阈值距离内。当自动化助理确定用户可用于向自动化助理提供输入时，方法300能够前进至操作304。否则，自动化助理能够继续确定用户是否可用于向自动化助理提供输入。

操作304能够包括确定环境的一个或多个特征是否预计会影响来自用户的输入。在一些实施方式中，环境的一个或多个特征能够包括环境的音频特性。音频特性能够包括正在说话的人的数量、特定声音的源、特定声音的音量和/或频率、环境声音、总音量水平、声音的来源到特定接口的距离、和/或能够干扰对计算设备的输入的任何其它音频特性。在一些实施方式中，环境的一个或多个特征能够包括物体、人、位置、可用功率、天气、运动、照明、某些物体之间的距离、区域布局、温度和/或能够影响用户与自动化助理之间的交互的环境的任何其它特征。在一些实施方式中，环境的一个或多个特征能够被确定并用于生成得分。自动化助理能够确定得分是否满足一个或多个不同的阈值。备选地或附加地，能够为环境中的计算设备的每个相应接口生成一个或多个不同的得分。当特定接口的得分不满足该特定接口的阈值时，自动化助理能够提供该特定接口可能在用户与自动化助理之间的交互期间经历干扰的指示。例如，音频接口的得分可能无法满足该音频接口的阈值，并且因此，自动化助理能够使键盘接口在计算设备处呈现。

当自动化助理确定环境的一个或多个特征预计会影响用户与自动化助理之间的交互时，方法300能够从操作304前进至操作306。否则，自动化助理能够继续确定用户是否已向特定接口或另一接口提供了输入，以促进与自动化助理的交互。操作306能够包括使自动化助理提供经由特定接口提供或正在提供的输入可能受环境影响的指示。在一些实施方式中，能够经由音频接口、图形接口、触觉接口、无线接口和/或能用于向用户提供指示的任何其它接口来提供指示。在一些实施方式中，当计算设备包括触摸显示面板时，能够在触摸显示面板处的键盘接口处呈现指示。以这种方式，当用户将要提供被确定为将受环境内的干扰影响的说出的话语时，用户能够看到键盘接口并选择向触摸显示面板提供触摸输入，而不是说出的话语。

方法300能够从操作306前进至任选操作308，该操作308可包括由自动化助理经由另一接口(即，与被确定为受环境内的干扰影响的特定接口分离的另一接口)接收来自用户的单独输入。例如，代替用户提供诸如“Assistant,good morning(助理，早上好)”之类的说出的话语来初始化“早上好”例程的执行，用户能够将诸如“good morning(早上好)”之类的较短输入键入到键盘接口中，作为对自动化助理的输入。方法300能够从操作308前进至任选操作310，该操作310能够包括使自动化助理基于单独的输入来初始化一个或多个动作的执行。例如，单独的输入能够包括由用户使用在操作306处呈现的键盘接口键入的自然语言内容。自然语言内容能够是“good morning(早上好)”，这能够使得自动化助理执行一个或多个动作以促进完成“good morning(早上好)”例程(例如，阅读当天的日历条目、打开房间的灯、播放放松的音乐)。通过提供关于说出的输入或其它类型的输入是否可能经历干扰的指示，自动化助理能够减少来自用户的被误解的输入的量。这能够保留计算资源，否则的话，这些资源原本可能会被消耗在执行不正确的动作和/或处理重复的输入上。

图4是示例计算机系统410的框图400。计算机系统410通常包括至少一个处理器414，至少一个处理器414经由总线子系统412与多个外围设备通信。这些外围设备可以包括存储子系统424(包括例如存储器425和文件存储子系统426)、用户接口输出设备420、用户接口输入设备422和网络接口子系统416。输入和输出设备允许用户与计算机系统410交互。网络接口子系统416提供到外部网络的接口，并耦合到其它计算机系统中的对应接口设备。

用户接口输入设备422可以包括键盘、诸如鼠标的定点设备、轨迹球、触摸板或图形输入板、扫描仪、结合到显示器中的触摸屏、诸如话音识别系统的音频输入设备、麦克风和/或其它类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入到计算机系统410或通信网络的所有可能类型的设备和方式。

用户接口输出设备420可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的一些其它机构。显示子系统还可以诸如经由音频输出设备提供非视觉显示。一般而言，术语“输出设备”的使用旨在包括从计算机系统410向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方式。

存储子系统424存储提供在本文中描述的一些或所有模块的功能的程序和数据结构。例如，存储子系统424可以包括执行方法300的选定方面，和/或实施系统200、计算设备106和/或本文讨论的任何其它应用、设备、装置和/或模块中的一个或多个的逻辑。

这些软件模块通常由处理器414单独运行或者与其它处理器组合运行。存储子系统424中使用的存储器425能够包括多个存储器，包括用于在程序运行期间存储指令和数据的主随机存取存储器(RAM)430和存储固定指令的只读存储器(ROM)432。文件存储子系统426能够为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光驱或可移动介质盒。实施某些实施方式的功能的模块可以由文件存储子系统426存储在存储子系统424中，或者存储在处理器414能够访问的其它机器中。

总线子系统412提供了用于让计算机系统410的各种组件和子系统按照预期相互通信的机构。尽管总线子系统412被示意性地示为单条总线，但是总线子系统的备选实施方式可以使用多条总线。

计算机系统410能够是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其它数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图4中描绘的计算机系统410的描述仅旨在作为用于说明一些实施方式的具体示例。计算机系统410的许多其它配置可能具有比图4所描绘的计算机系统更多或更少的组件。

在本文中描述的系统收集关于用户(或者在本文中经常称为“参与者”)的个人信息，或者可以利用个人信息的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交行动或活动、职业、用户的偏好或者用户的当前地理位置的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外，在存储或使用某些数据之前，可能会以一种或多种方式对其进行处理，以便删除个人可辨识信息。例如，可以处理用户的身份，使得不能确定用户的个人可辨识信息，或者可以在获得地理位置信息的地方概括用户的地理位置(诸如城市、邮政编码或州级)，使得不能确定用户的特定地理位置。因此，用户可以控制如何收集和/或使用关于用户的信息。

虽然在本文中已经描述和图示了几个实施方式，但是可以利用用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个优点的各种其它手段和/或结构，并且这样的变化和/或修改中的每一个被认为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置都是示例性的，并且实际的参数、尺寸、材料和/或配置将取决于使用该教导的一个或多个具体应用。本领域的技术人员将会认识到或者能够仅使用常规实验来确定本文描述的具体实施方式的许多等同物。因此，应当理解，前述实施方式仅作为示例给出，并且在所附权利要求及其等同物的范围内，实施方式可以以不同于具体描述和要求保护的方式实施。本公开的实施方式针对本文描述的每个个别的特征、系统、物品、材料、套件和/或方法。此外，两个或多个这样的特征、系统、物品、材料、套件和/或方法的任何组合包括在本公开的范围内，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的。

在一些实施方式中，由一个或多个处理器实施的方法被阐述为包括操作，诸如，处理第一数据，该第一数据表征计算设备所在的环境的音频特性，其中该计算设备经由该计算设备的一个或多个接口提供对自动化助理的访问。该方法还能够包括基于第一数据确定音频特性是否对应于预计会影响用户与自动化助理之间的交互的干扰的操作，其中该交互经由一个或多个接口中的音频接口发生。该方法还能够包括处理第二数据的操作，该第二数据指示用户正在向自动化助理提供或预计提供说出的话语以促进交互。该方法还能够包括以下操作：当确定干扰影响交互时，基于第一数据和第二数据，使计算设备或另一计算设备呈现键盘接口，在键盘接口处接收用户输入以促进用户与自动化助理之间的交互，以及响应于在键盘接口处接收用户输入，使自动化助理初始化一个或多个动作的执行。

在一些实施方式中，该方法还能够包括以下操作：当确定干扰不影响交互时，经由音频接口接收单独的用户输入，以促进用户与自动化助理之间的交互。在一些实施方式中，确定音频特性是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定位于一个或多个接口的阈值距离内的人的数量。在一些实施方式中，确定音频特性是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定得分，该得分指示自动化助理是否预计会正确地解释用户正在提供或预计会提供的说出的话语以促进交互，其中当得分满足阈值时，预计干扰会影响交互。

在其它实施方式中，确定音频特性是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定附加得分，该附加得分表征计算设备所在的环境中访问键盘接口的便利性，其中键盘接口的呈现进一步基于该附加得分。在一些实施方式中，使计算设备呈现键盘接口是与用户向自动化助理提供说出的话语以促进交互同时执行的。在一些实施方式中，使计算设备呈现键盘接口是在用户向自动化助理提供说出的话语以促进交互之前执行的。

在其它实施方式中，由一个或多个处理器实现的方法被阐述为包括操作，诸如，处理第一数据，第一数据表征其中计算设备所在的环境的一个或多个特征，其中该计算设备经由该计算设备的一个或多个接口提供对自动化助理的访问。该方法还能够包括基于第一数据确定一个或多个特征是否对应于预计会影响用户与自动化助理之间的交互的干扰的操作，其中该交互经由计算设备的一个或多个接口发生。该方法还能够包括处理第二数据的操作，该第二数据指示用户正在向自动化助理提供输入或预计向自动化助理提供输入以促进交互。该方法还能够包括以下操作：当确定干扰影响交互时：基于第一数据和第二数据，使计算设备或另一计算设备呈现用户与自动化助理之间的交互将受干扰影响的指示，在该计算设备或另一计算设备的一个或多个其它接口处接收用户输入以促进用户与自动化助理之间的交互，以及响应于在一个或多个其它接口处接收到用户输入，使得自动化助理初始化一个或多个动作的执行。

在一些实施方式中，该方法还能够包括以下操作：当确定干扰不影响交互时：在计算设备的一个或多个接口处接收单独的用户输入，以促进用户与自动化助理之间的交互。在一些实施方式中，一个或多个接口包括音频接口，并且该指示被呈现在计算设备或另一计算设备的图形用户接口处。在一些实施方式中，确定一个或多个特征是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定位于一个或多个接口的阈值距离内的人的数量。在一些实施方式中，确定一个或多个特征是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定在一个或多个接口的阈值距离内说话的人的数量。

在一些实施方式中，确定一个或多个特征是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定得分，该得分指示自动化助理是否预计会正确解释用户正在提供或预计会提供的输入以促进交互，其中当得分满足阈值时，预计干扰会影响交互。在一些实施方式中，确定一个或多个特征是否对应于预计会影响用户与自动化助理之间的交互的干扰包括：确定附加得分，该附加得分表征在计算设备所在的环境中访问一个或多个其它接口的便利性，其中该指示进一步基于该附加得分。在一些实施方式中，使计算设备呈现指示是与用户向自动化助理提供输入以促进交互同时执行的。在一些实施方式中，使计算设备呈现该指示是在用户向自动化助理提供输入以促进交互之前执行的。在一些实施方式中，一个或多个接口包括键盘接口，并且该指示包括在计算设备的图形用户接口处呈现的键盘接口。在一些实施方式中，该指示还包括文本段，该文本段包括基于输入中体现的并且受干扰影响的内容的建议内容。

在其它实施方式中，由一个或多个处理器实施的方法被阐述为包括操作，诸如，处理表征计算设备所在的环境的音频特性的场境数据，其中该计算设备经由该计算设备的音频接口提供对自动化助理的访问。该方法还能够包括基于处理场境数据来确定音频特性是否对应于预计会影响用户与自动化助理之间的交互的干扰的操作，其中该交互经由一个或多个接口中的音频接口发生。该方法还能够包括以下操作：当确定干扰会影响交互时，基于场境数据，使计算设备或另一计算设备呈现用于接收用户输入以促进用户与自动化助理之间的交互的键盘接口。在一些实施方式中，处理表征计算设备所在的环境的音频特性的场境数据包括：处理表征一个或多个先前实例的历史交互数据，在一个或多个先前实例中，用户向自动化助理提供说出的输入，并且自动化助理未履行说出的输入中体现的一个或多个请求。

Claims

1.一种由一个或多个处理器实施的方法，所述方法包括：

处理第一数据，所述第一数据表征计算设备所在的环境的音频特性，

其中所述计算设备经由所述计算设备的一个或多个接口提供对自动化助理的访问；

基于所述第一数据，确定所述音频特性是否与预计会影响在用户与所述自动化助理之间的交互的干扰相对应，

其中所述交互经由所述一个或多个接口中的音频接口发生；

处理第二数据，所述第二数据指示所述用户正在向所述自动化助理提供说出的话语或预计向所述自动化助理提供说出的话语以促进所述交互；以及

当所述干扰被确定为会影响所述交互时：

基于所述第一数据和所述第二数据，使所述计算设备或另一计算设备呈现键盘接口，

在所述键盘接口处接收用户输入，以促进在所述用户与所述自动化助理之间的所述交互，以及

响应于在所述键盘接口处接收到所述用户输入，使所述自动化助理初始化一个或多个动作的执行。

2.根据权利要求1所述的方法，进一步包括：

当所述干扰被确定为不会影响所述交互时：

经由所述音频接口接收单独的用户输入，以促进在所述用户与所述自动化助理之间的所述交互。

3.根据权利要求1或权利要求2所述的方法，其中确定所述音频特性是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定位于所述一个或多个接口的阈值距离内的人的数量。

4.根据权利要求1或权利要求2所述的方法，其中确定所述音频特性是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定得分，所述得分指示预计所述自动化助理是否会正确解释所述用户正在提供或预计提供的所述说出的话语以促进所述交互，

其中当所述得分满足阈值时，预计所述干扰会影响所述交互。

5.根据权利要求4所述的方法，其中确定所述音频特性是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定附加得分，所述附加得分表征在所述计算设备所在的所述环境中访问所述键盘接口的便利性，

其中所述键盘接口的所述呈现进一步基于所述附加得分。

6.根据前述权利要求中任一项所述的方法，其中使所述计算设备呈现所述键盘接口是与所述用户向所述自动化助理提供所述说出的话语以促进所述交互同时执行的。

7.根据权利要求1至5中任一项所述的方法，其中使所述计算设备呈现所述键盘接口是在所述用户向所述自动化助理提供所述说出的话语以促进所述交互之前执行的。

8.一种由一个或多个处理器实施的方法，所述方法包括：

处理第一数据，所述第一数据表征计算设备所在的环境的一个或多个特征，

基于所述第一数据，确定所述一个或多个特征是否与预计会影响在用户与所述自动化助理之间的交互的干扰相对应，

其中所述交互经由所述计算设备的所述一个或多个接口发生；

处理第二数据，所述第二数据指示所述用户正在向所述自动化助理提供输入或预计向所述自动化助理提供输入以促进所述交互；以及

当所述干扰被确定为会影响所述交互时：

基于所述第一数据和所述第二数据，使所述计算设备或另一计算设备呈现关于在所述用户与所述自动化助理之间的所述交互将受所述干扰影响的指示，

在所述计算设备或所述另一计算设备的一个或多个其它接口处接收用户输入，以促进在所述用户与所述自动化助理之间的所述交互，以及

响应于在所述一个或多个其它接口处接收到所述用户输入，使得所述自动化助理初始化一个或多个动作的执行。

9.根据权利要求8所述的方法，进一步包括：

当所述干扰被确定为不会影响所述交互时：

在所述计算设备的所述一个或多个接口处接收单独的用户输入，以促进在所述用户与所述自动化助理之间的所述交互。

10.根据权利要求8或9所述的方法，

其中所述一个或多个接口包括音频接口，并且

其中所述指示被呈现在所述计算设备或所述另一计算设备的图形用户接口处。

11.根据权利要求8至10中任一项所述的方法，其中确定所述一个或多个特征是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定位于所述一个或多个接口的阈值距离内的人的数量。

12.根据权利要求8至10中任一项所述的方法，其中确定所述一个或多个特征是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定在所述一个或多个接口的阈值距离内说话的人的数量。

13.根据权利要求8至10中任一项所述的方法，其中确定所述一个或多个特征是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定得分，所述得分指示预计所述自动化助理是否会正确解释所述用户正在提供的输入或预计提供的输入以促进所述交互，

14.根据权利要求13所述的方法，其中确定所述一个或多个特征是否与预计会影响在所述用户与所述自动化助理之间的所述交互的所述干扰相对应包括：

确定附加得分，所述附加得分表征在所述计算设备所在的环境中访问所述一个或多个其它接口的便利性，

其中所述指示进一步基于所述附加得分。

15.根据权利要求8至14中任一项所述的方法，其中使所述计算设备呈现所述指示是与所述用户向所述自动化助理提供所述输入以促进所述交互同时执行的。

16.根据权利要求8至10中任一项所述的方法，其中，使所述计算设备呈现所述指示是在所述用户向所述自动化助理提供所述输入以促进所述交互之前执行的。

17.根据权利要求8至16中任一项所述的方法，

其中所述一个或多个接口包括键盘接口，并且

其中所述指示包括在所述计算设备的图形用户接口处呈现的所述键盘接口。

18.根据权利要求17所述的方法，其中所述指示进一步包括文本段，所述文本段包括建议内容，所述建议内容是基于在所述输入中体现的并且受所述干扰影响的内容。

19.一种由一个或多个处理器实施的方法，所述方法包括：

处理表征计算设备所在的环境的音频特性的场境数据，

其中所述计算设备经由所述计算设备的音频接口提供对自动化助理的访问；

基于处理所述场境数据，确定所述音频特性是否与预计会影响在用户与所述自动化助理之间的交互的干扰相对应，

其中所述交互经由所述一个或多个接口中的所述音频接口发生；以及

当所述干扰被确定为会影响所述交互时：

基于所述场境数据，使所述计算设备或另一计算设备呈现键盘接口，所述键盘接口用于接收用户输入以促进在所述用户与所述自动化助理之间的所述交互。

20.根据权利要求19所述的方法，其中处理表征所述计算设备所在的所述环境的音频特性的所述场境数据包括：

处理表征一个或多个先前实例的历史交互数据，在所述一个或多个先前实例中，所述用户向所述自动化助理提供说出的输入并且所述自动化助理没有履行体现在所述说出的输入中的一个或多个请求。

21.一种系统，包括：

至少一个处理器；和

存储器，所述存储器存储指令，当所述指令被运行时，使所述至少一个处理器执行权利要求1至20中任一项所述的操作。

22.一种存储指令的非暂时性计算机可读存储介质，所述指令在被运行时使得至少一个处理器执行对应于权利要求1至20中任一项所述的操作。