CN116670637A - 在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配 - Google Patents

在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配 Download PDF

Info

Publication number
CN116670637A
CN116670637A CN202180088524.9A CN202180088524A CN116670637A CN 116670637 A CN116670637 A CN 116670637A CN 202180088524 A CN202180088524 A CN 202180088524A CN 116670637 A CN116670637 A CN 116670637A
Authority
CN
China
Prior art keywords
request
computing device
user
additional
spoken utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180088524.9A
Other languages
English (en)
Inventor
布雷特·巴罗斯
乔安妮·J·章
安德鲁·朔内魏斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/532,199 external-priority patent/US12039996B2/en
Application filed by Google LLC filed Critical Google LLC
Priority claimed from PCT/US2021/061000 external-priority patent/WO2023009157A1/en
Publication of CN116670637A publication Critical patent/CN116670637A/zh
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本文描述的实施方式涉及一种自动化助理,其在用户迭代地提供对应于指向自动化助理的请求的口头话语或口头话语序列时迭代地渲染各种GUI元素。当用户迭代地提供口头话语以帮助用户有效地使请求完整时,能够动态地适配这些各种GUI元素。在一些实施方式中,能够在计算设备的显示界面处初始地渲染与候选意图相关联的通用容器图形元素,并且当在用户迭代地提供口头话语的同时确定特定意图时,用定制容器图形元素动态地适配。在附加或替代实施方式中,定制容器图形元素能够包括与计算设备或附加计算设备相关联的一个或多个设置的当前状态,使得用户能够在使口头话语完整时查看当前状态。

Description

在用户迭代地提供口头话语或口头话语序列时由自动化助理 对图形用户界面元素的动态适配
背景技术
人类可以用在本文中被称为“自动化助理”(也被称为“数字智能体”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话智能体”等)的交互式软件应用参与人对计算机的对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求,口头自然语言输入在一些情况下可以被转换为文本然后被处理。
在许多实例中,自动化助理可以由可能没有记住完整命令短语的用户调用。例如,假设用户提供了包括对自动化助理采取行动的请求的一部分的口头话语“Assistant,set…(助理,设置…)”。在该示例中,请求的该部分可以指示用户意图设置智能扬声器的音量、设置智能恒温器的温度、设置智能灯泡的亮度水平等。然而,在这些实例中的许多实例中,如果用户没有在某个时间窗口内明确表达完整命令短语,则自动化助理可能不对请求采取行动,因为它太模糊,或者自动化助理可能对请求采取行动并执行用户不意图的一些动作。因此,用户可能需要重新调用自动化助理并再次提供具有完整命令短语的口头话语,从而延长用户和自动化助理之间的一个或多个对话会话并增加在计算设备处接收的用户输入的数量。
在一些实例中,自动化助理可以由可能记住完整命令短语但可能没有记住与命令短语相关联的特定槽值的用户调用。例如,假设用户提供了口头话语“Assistant,set thevolume to…(助理,将音量设置为…)”,其包括对自动化助理采取行动的请求的一部分。在该示例中,请求的该部分可以指示用户意图将扬声器的音量设置为与设置扬声器的音量的命令相关联的特定槽值。然而,在这些实例中的许多实例中,用户可能不知道扬声器的音量的当前状态,并且因此可能不知道如何相对于当前状态修改扬声器的音量。因此,用户可以暂停以考虑在提供口头话语的初始部分(例如,Assistant,set the volume to…“助理,将音量设置为…”)之后如何修改扬声器的音量。类似于上述示例,如果用户在某个时间窗口内没有明确表达特定槽值,则自动化助理可能不对请求采取行动,因为它太模糊,或者自动化助理可能对请求采取行动并执行用户不意图的一些动作。同样,用户可能需要重新调用自动化助理并再次提供具有完整命令短语和特定槽值的口头话语,从而延长用户和自动化助理之间的一个或多个对话会话并增加在计算设备处接收的用户输入的数量。因此,在这些示例中,通过处理不完整的口头话语并要求用户重新参与与自动化助理的对话会话,可能浪费计算资源。
发明内容
本文描述的实施方式涉及一种自动化助理,该自动化助理能够基于用户迭代地提供口头话语或口头话语序列来动态地适配图形用户界面(GUI)元素,该口头话语或口头话语序列包括针对至少部分地在用户的计算设备处执行的自动化助理的请求。GUI元素能够表征来自用户的传入请求的部分和/或提供能够帮助用户更有效且准确地向自动化助理描述请求的建议。在一些实施方式中,并且基于处理请求的该部分,能够确定候选意图,并且能够在用户使请求完整之前在计算设备的显示界面处渲染与候选意图相关联的通用容器图形元素。此外,并且基于处理请求的附加部分,能够从候选意图确定特定意图,并且能够用与特定意图相关联的特定定制容器图形元素动态地适配通用容器图形元素,而无需在计算设备处渲染不同的显示界面。在附加或替代实施方式中,包括在请求的该部分中的特定单词或短语能够被直接映射到通用容器图形元素,而不必确定候选意图。在附加或替代实施方式中,响应于确定请求的该部分与修改计算设备和/或附加计算设备的一个或多个设置的当前状态相关联,特定定制容器图形元素能够包括计算设备和/或与计算设备通信的附加计算设备的一个或多个设置的当前状态(例如,与一个或多个设置的当前状态相关联的槽值)。
例如,假设用户开始提供的口头话语“Assistant,set…”,该口头话语包括对自动化的请求的一部分以调整设备的状态,诸如智能扬声器的音量、智能恒温器的温度、设置智能灯泡的亮度水平等。当用户提供请求的该部分时,自动化助理能够使用流式自动语音识别(ASR)模型,使得捕获请求的该部分的音频数据流被处理,以生成ASR输出。此外,自动化助理能够使用自然语言理解(NLU)模型,使得ASR输出被处理以生成NLU输出。能够基于ASR输出(例如,指示请求的该部分包括“set(设置)”或另一特定单词或短语)和/或NLU输出(例如,指示请求的该部分包括与通用容器图形元素相关联的候选意图),在计算设备的显示界面处渲染通用容器图形元素。
进一步假设用户继续提供口头话语“…the volume for the speakers…(…扬声器的音量…)”(或作为口头话语之后的附加口头话语),其包括用于自动调整设备的状态的请求的附加部分。类似地,当用户提供请求的该附加部分时,自动化助理能够使用流式ASR模型,使得也捕获请求的该附加部分的音频数据流被处理,以生成附加ASR输出。此外,自动化助理能够使用NLU模型使附加ASR输出被处理,以生成附加NLU输出。基于附加ASR输出和/或附加NLU输出,自动化助理能够确定用户想要设置智能扬声器的音量。因此,能够用特定于设置用于智能扬声器的音量的定制容器图形元素来动态地适配通用容器图形元素。例如,特定于设置智能扬声器的音量的定制容器图形元素能够包括智能扬声器的音量的当前状态、使得用户能够使用触摸输入设置音量的音量控制图形元素、指示正在为智能扬声器设置音量的媒体内容、与智能扬声器相关联的设备标识符和/或与智能扬声器相关联的任何其他内容。
相反,在继续提供口头话语时,如果用户指示“…the temperature…(…温度…)”,则能够用特定于设置智能恒温器的温度的定制容器图形元素动态地适配通用容器图形元素,该定制容器图形元素与特定于设置智能扬声器的音量的定制容器图形元素不同。例如,特定于设置智能恒温器的温度的定制容器图形元素能够包括温度的当前状态、指示正在为智能恒温器设置温度的媒体内容、使得用户能够使用触摸输入设置温度的温度控制图形元素、与智能恒温器相关联的设备标识符和/或与智能恒温器相关联的任何其他内容。尽管如此,在这些实例中的任一个中,相同的通用容器图形元素能够动态地适配于这些各种定制容器图形元素,而无需渲染任何附加的用户界面。
通用容器图形元素能够作为多个不同的定制容器图形元素中的任何一个的占位符操作,每个定制容器图形元素与多个不同意图中的对应一个相关联或者被直接映射到特定单词或短语。因此,当用户继续向自动化助理提供请求时,能够用基于处理请求的该附加部分而确定的特定意图相关联的特定定制图形元素动态且无缝地适配通用容器图形元素。例如,在上述示例中,能够响应于请求的该部分“Assistant,set…”,在显示界面处初始渲染通用容器图形元素。通用容器图形元素能够包括例如图形元素的阵列(例如,点形状的阵列)以指示值的范围。随后,当用户提供请求的附加部分(例如,“…the volume of thespeakers…(…扬声器的音量…)”、“…the brightness…(…亮度…)”、“…thetemperature…(…温度…)”等)时,自动化助理能够基于请求的该附加部分来适配图形元素阵列。例如,基于用户提供“…the volume of the speakers……”的请求的附加部分,图形元素阵列能够适配以反映与智能扬声器的音量相关联的值的范围,并且包括智能扬声器的音量的当前状态以帮助用户确定如何修改音量。此外,例如,基于用户提供“…thebrightness…”的请求的附加部分,图形元素阵列能够被适配以反映与智能灯泡的亮度相关联的值的范围,并且包括智能灯泡的亮度的当前状态以帮助用户确定如何修改亮度。
在一些实施方式中,自动化助理能够处理候选意图以标识用户在提供请求时可能试图控制的特定设备和/或应用。当自动化助理标识特定设备和/或应用时,自动化助理能够使得通用容器图形元素中的图形元素阵列表示该特定应用和/或设备的当前状态,从而产生定制容器图形元素。例如,图形元素阵列能够包括七个实心圆,随后是三个空圆,从而指示与特定设备和/或应用相关联的智能灯泡当前处于最大亮度水平的70%作为智能灯泡的亮度设置的当前状态。可替代地或附加地,自动化助理能够标识表示预测用户将参考的特定设备和/或应用的图标(例如,表示厨房灯的图标)。自动化助理能够将图标包括到定制容器图形元素,以标识自动化助理响应于来自用户的请求而选择以控制的特定设备和/或应用。以这种方式,用户能够选择绕过经由口头话语提供请求的另一部分以用于指定特定应用和/或设备(例如,将亮度从70%改变为50%),并且替代地利用触摸输入,从而保留计算资源,诸如在处理口头话语或附加口头话语时原本将消耗的那些计算资源。
在一些实施方式中,用户能够通过经由一个或多个附加口头话语完整请求并且基于见证由定制容器图形元素中包括的图形元素阵列指示的当前状态来使得自动化助理控制特定设备和/或应用。例如,通过见证定制容器图形元素中包括的图形元素阵列,用户能够考虑他们的请求的最终部分。用户能够提供最终口头话语诸如“…to 30%(…到30%)”,从而指示自动化助理控制特定设备和/或应用以将亮度水平从70%调节到30%。可替代地或附加地,用户能够轻击对应于“30%dot(30%点)”的图形元素阵列的一部分,以使自动化助理类似地将亮度水平从70%调节到30%。
在一些实施方式中,自动化助理能够响应于用户提供的请求的初始部分,使得多个定制容器元素被渲染。例如,当用户经由诸如“Assistant,play[song title 1]by…(助理,播放...的[歌曲标题1])”的口头话语提供请求的初始部分时,自动化助理能够使多个不同的定制容器元素在计算设备的显示界面处渲染。每个定制容器图形元素能够对应于能够与请求相关联的不同操作和/或解释。例如,第一定制容器图形元素能够对应于在计算设备或附加计算设备处播放“[艺术家1]”的“[歌曲标题1]”的操作,而第二定制容器图形元素能够对应于在计算设备或附加计算设备处播放“[艺术家2]”的“[歌曲标题1]”的另一操作。在一些实施方式中,定制容器图形元素中的每一个附加地或可替代地包括计算设备或附加计算设备的当前状态(例如,当前在第一设备和/或第二设备处播放的内容)。用户能够(例如,经由口头话语和/或触摸输入)完整请求,并且自动化助理能够使得相应地履行请求。
在一些实施方式中,使用流式ASR模型生成的ASR输出能够包括例如预测为对应于请求的各个部分的预测语音假设、预测为对应于请求的各个部分的预测音素、指示预测语音假设和/或预测音素对应于请求的各个部分的可能性的预测ASR测量值和/或其他ASR输出。此外,使用NLU模型生成的NLU输出能够包括例如被预测为与用户在提供请求的各个部分时的实际意图对应的候选意图、用于与候选意图相关联的对应参数的一个或多个槽值和/或其他NLU输出。此外,一个或多个结构化请求能够基于NLU输出生成,并且由各种设备和/或应用处理以生成对该请求的履行数据。履行数据在被实现时能够使自动化助理履行由用户提供的请求。
在一些实施方式中,响应于确定用户已经暂停提供请求,可以仅在计算设备的显示界面处渲染本文描述的通用容器图形元素和/或定制容器图形元素。自动化助理能够基于例如与在计算设备处接收的请求的部分相关联的NLU数据和/或基于音频的特性来确定用户已经暂停提供请求。与请求的部分相关联的基于音频的特性能够包括以下中的一个或多个:语调、音调、重音、节奏、节拍、音高和细长音节。例如,假设用户提供包括在指向自动化助理的口头话语中的请求“Assistant,set the volume to…(助理,将音量设置为…)”。在该示例中,自动化助理能够基于例如自所述“to(到)”起流逝的阈值持续时间和指示用户尚未提供与改变智能扬声器的音量的预测意图相关联的音量参数的槽值的NLU输出来确定用户已经暂停。作为响应,自动化助理能够使得用于智能扬声器的音量容器图形元素被渲染在计算设备的显示界面处。在计算设备的显示界面处渲染的智能扬声器的音量容器图形元素能够包括智能扬声器的当前音量,以帮助辅助用户确定如何相对于当前音量修改音量。可替代地或附加地,进一步假设用户在提供“to(到)”(例如,“Assistant,set thevolume to 0000…(助理,将音量设置为to 0000……)”)时包括细长音节。在该示例中,自动化助理能够基于例如基于音频的特性来确定用户已经暂停,该基于音频的特性反映关于如何至少基于提供请求中的细长音节相对于当前音量修改音量的不确定性。因此,音量容器图形元素能够帮助辅助用户确定如何相对于当前音量修改音量。
通过使用本文描述的技术,能够实现各种技术优点。作为一个非限制性示例,本文描述的技术能够使得自动化助理在用户提供口头话语或口头话语序列的同时将各种GUI元素从通用GUI元素动态地适配到定制的GUI元素。例如,用户能够提供包括请求的一部分的口头话语,并且自动化助理能够渲染通用GUI元素,该通用GUI元素随后基于处理口头话语的附加部分或附加口头话语而用定制的GUI元素适配。这些定制的GUI元素能够帮助用户使请求完整,从而使得用户和自动化助理之间的对话会话以更快速和有效的方式结束,并且能够减少在计算设备处接收的用户输入的数量。此外,能够减轻自动化助理由于用户未在某个时间窗口内使请求完整而失败的实例。结果,能够节省计算设备处的计算资源,并且能够减少履行请求的延迟。
提供以上描述作为本公开的一些实施方式的概述。下面更详细地描述那些实施方式和其他实施方式的进一步描述。
附图说明
图1A、图1B和图1C图示了根据各种实施方式的用户迭代地向自动化助理提供示例性请求的视图,该自动化助理迭代地渲染与示例性请求的部分对应的图形元素。
图2A、图2B和图2C图示了根据各种实施方式的用户迭代地向自动化助理提供附加示例性请求的视图,该自动化助理迭代地渲染与附加示例性请求的部分对应的图形元素。
图3图示了根据各种实施方式的提供自动化助理的系统,该自动化助理在用户提供指向自动化助理的请求时迭代地构建图形元素。
图4A和图4B图示了根据各种实施方式的用于在用户提供指向自动化助理的请求时控制自动化助理在显示界面处迭代地提供图形元素的方法。
图5是根据各种实施方式的示例性计算机系统的框图。
具体实施方式
图1A、图1B和图1C分别图示了用户102迭代地向自动化助理提供示例性请求的视图100、视图120和视图140,该自动化助理迭代地渲染与示例性请求的部分对应的图形元素。该请求能够被包括在指向自动化助理的口头话语或指向自动化助理的口头话语序列中。例如,在图1A的示例中,假设用户102提供了口头话语“Assistant,set…”,其包括指向经由用户家中的计算设备104可访问的自动化助理的请求108的第一部分。用户102能够提供口头话语以促进使得自动化助理执行特定助理动作和/或执行与请求108的第一部分相关联的特定意图。自动化助理能够使用流式自动语音识别(ASR)模型,使得捕获请求108的第一部分的音频数据流被处理,以生成ASR输出。此外,自动化助理能够使用自然语言理解(NLU)模型使得ASR输出被处理,以生成NLU输出。值得注意的是,能够在用户102提供包括请求108的第一部分的口头话语时执行这些操作。
在一些实施方式中,自动化助理能够基于处理请求108的第一部分,基于NLU输出确定与请求108的第一部分相关联的候选意图。此外,自动化助理能够基于候选意图来确定要在计算设备104的显示界面106处渲染的通用容器图形元素110。例如,能够选择通用容器图形元素110以表示图形用户界面(GUI)元素,该图形用户界面(GUI)元素能够用特定定制容器图形元素动态适配,该特定定制容器图形元素与基于处理请求的附加部分,从候选意图中选择的特定意图相关联(例如,如图1A和1B所示)。在附加或替代实施方式中,自动化助理能够基于指示请求的第一部分的ASR输出(并且不考虑NLU输出)来确定包括特定单词或短语(例如,“set”)。例如,能够将特定单词或短语映射到计算设备104的设备上存储器中的通用容器图形元素110,使得当在ASR输出中检测到特定单词或短语时,能够在计算设备104的显示界面106处渲染通用容器图形元素110。通用容器图形元素110能够基于处理请求的附加部分,用与特定意图相关联的特定定制容器图形元素类似地动态适配(例如,如图1B和1C所示)。换句话说,能够在计算设备104的显示界面106处渲染通用容器图形元素110,因为请求108的第一部分被预测为对应于用于控制具有“setting(设置)”的应用和/或设备的请求(例如,基于包括单词“set(设置)”、“change(改变)”和/或其他特定单词或短语的请求108的第一部分),其能够由图形元素的阵列(例如,如图1A所示的空的或填充的圆圈的阵列)表示。
在一些实施方式中,能够响应于确定用户102已经暂停提供包括请求108的第一部分的口头话语,在计算设备104的显示界面106处渲染通用容器图形元素110。自动化助理能够基于例如在处理口头话语时生成的NLU输出、基于处理口头话语确定的基于音频的特性和/或自用户102提供请求108的第一部分以来流逝的阈值持续时间来确定用户102已经暂停提供包括请求108的第一部分的口头话语。例如,自动化助理可以基于自用户102提供请求108的第一部分以来流逝的阈值持续时间,并且基于指示与候选意图相关联的对应参数的槽值未知的NLU输出(例如,用户102说出“set(设置)”,但是未能提供要“set(设置)”什么的任何指示),确定用户102已经暂停提供口头话语。在这些实施方式的一些版本中,自动化助理还可以考虑围绕预测的暂停的一个或多个词语或短语(例如,暂停是否发生在介词或语音不流利(例如,uhmmm(嗯)、uhhh(呃)等)之后)。可替代地或附加地,基于音频的特性能够指示用户102提供请求108的第一部分的方式,该请求108的第一部分指示用户102已经暂停以考虑如何短语化将被提供给自动化助理以使请求完整的自然语言。
进一步假设用户102继续提供口头话语或者通过提供如图1B的视图120中所图示的“…the lights…(…灯…)”来提供包括请求122的第二部分的附加口头话语,以促进向自动化助理提供完整请求。在该示例中,能够处理捕获请求122的第二部分的音频数据流以产生附加ASR输出和附加NLU输出。基于附加NLU输出,自动化助理能够从参考图1A描述的候选意图中选择特定意图,该特定意图向自动化助理指示用户102想要修改用户102家中的智能灯泡的当前状态。因此,响应于接收到请求122的第二部分,自动化助理能够用与基于处理请求122的第二部分而确定的特定意图相关联的内容来动态地适配图1A的通用容器图形元素110,从而以无缝方式产生特定的定制图形容器元素112。
特定的定制图形容器元素112能够是通用图形容器元素110可以动态适配的多个不同的定制图形容器元素之一,并且可以特定于基于处理请求122的第二部分而选择的特定意图。换句话说,图1B中所示的特定定制图形容器元素112能够特定于与修改智能灯泡的当前状态相关联的特定意图,并且其他意图能够与定制图形容器元素(例如,修改温度意图、修改扬声器音量意图等)相关联,该定制图形容器元素与图1B中所示的特定定制图形容器元素112不同。特定定制图形容器元素112能够包括例如指示自动化助理可以与请求122的第二部分相关联的设备和/或应用(例如,图1B中描绘的灯泡图标)的媒体内容124、指示自动化助理可以与请求122的第二部分相关联的设备和/或应用的当前状态(例如,图1B中描绘的七个实心圆以指示智能灯泡处于70%亮度)并且从参考图1A的通用容器图形元素所示的图形元素阵列动态适配的当前状态120、当经由用户102的触摸输入选择时使得控制设备和/或应用的当前状态120的一个或多个控制元素144(例如,如参考图1C所述的)、与待控制的各种智能灯泡相关联的设备标识符和/或其他内容。值得注意的是,因为当用户102提供请求时用特定定制容器图形元素112动态地适配通用容器图形元素110,所以能够在用户102完整请求之前和/或在自动化助理完整请求的履行之前在计算设备104的显示界面106处渲染特定定制容器图形元素112。
与图1B中所示的示例相反,假设用户102继续提供口头话语或者提供包括请求122的第二部分的附加口头话语,诸如“…the volume of the speakers…(…扬声器的音量…)”。在该示例中,能够以与上述相同或类似的方式处理请求122的第二部分。然而,所得到的特定定制容器图形元素将不同于图1B中所示的特定定制容器图形元素112。例如,该对比示例中的特定定制图形容器元素能够包括例如指示自动化助理可以与请求122的第二部分相关联的设备和/或应用的媒体内容(例如,扬声器图标)、指示自动化助理可以与请求122的第二部分相关联的设备和/或应用的当前状态(例如,实心圆能够对应于扬声器音量水平)并且从相对于图1A中的通用容器图形元素110示出的图形元素阵列动态地适配的当前状态、当经由用户102的触摸输入被选择时使得控制设备和/或应用的当前状态的一个或多个控制元素和/或其他内容。因此,能够基于请求122的第二部分,不同地适配图1B中所示的相同通用容器图形元素110。
进一步假设用户102完整口头话语、附加口头话语的提供,或者通过提供如图1C的视图140所示的“…to 30percent(…到30%)”来提供包括请求142的第三部分的另外的附加口头话语,以促进向自动化助理提供完整请求。在该示例中,能够处理捕获请求142的第三部分的音频数据流以生成另外的附加ASR输出以及另外的附加NLU输出。基于另外的附加NLU输出,自动化助理能够生成结构化请求以被利用于履行用户102的口头话语。例如,自动化助理能够响应于从用户102接收到请求142的第三部分,将一个或多个结构化请求传送到智能灯泡和/或在计算设备104处可访问的与智能灯泡相关联的应用以使得智能灯泡的当前状态122从70%亮度修改为30%亮度。此外,响应于接收到请求142的第三部分,自动化助理能够通过适配当前状态122以反映已经将智能灯泡从70%亮度改变为30%亮度来反映智能灯泡的亮度的改变(例如,图1B中描绘的用于指示智能灯泡处于70%亮度的七个实心圆被改变为图1C中的用于指示智能灯泡现在处于30%的三个实心圆)。
可替代地,并且代替提供包括如图1C所示的请求142的第三部分的口头话语,用户102能够将触摸输入引导到一个或多个控制图形元素144中的给定一个(例如,第三圆)。类似地,响应于用户102将触摸输入引导到一个或多个控制图形元素中的给定的一个控制图形元素,自动化助理能够生成要被利用于履行用户102的口头话语的结构化请求,使得智能灯泡的当前状态122从70%亮度修改为30%亮度(假设用户102将触摸输入引导到第三圆),并且通过适配当前状态122以反映智能灯泡已经从70%亮度改变到30%亮度来反映智能灯泡的亮度的改变,如上所述。
尽管参考改变各个部分(例如,第一部分108、第二部分122和第三部分142)中的智能灯泡的亮度的请求描述了图1A、图1B和图1C的示例,但是应当理解到,这是为了示例的目的而不意味着限制。例如,即使用户102在提供请求的各个部分以向用户102指示自动化助理正在监听用户102和履行请求之间没有暂停,自动化助理甚至在用户102提供请求时也能够如上所述动态地适配GUI元素。因此,能够减轻用户102重复请求的一个或多个部分的实例,因为用户102基于本文描述的动态GUI元素知道自动化助理正在履行请求。然而,在用户102在提供请求时暂停的实例中,本文描述的动态GUI元素能够通过至少提供智能灯泡的当前状态122以在提供请求时呈现给用户102来帮助辅助用户102完整请求。结果,能够以更快速和有效的方式结束用户102和自动化助理之间的对话会话。此外,尽管参考改变智能灯泡的亮度的请求描述了图1A、图1B和图1C的示例,但是应当理解到,这是为了示例的目的而不意味着限制。相反,应当理解到,本文描述的技术能够被利用于为指向自动化助理的任何请求提供动态GUI元素。
图2A、图2B和图2C分别图示了用户202迭代地向自动化助理提供附加示例性请求的视图200、视图220和视图240,该自动化助理迭代地渲染与附加示例性请求的部分对应的图形元素。该请求能够被包括在指向自动化助理的口头话语或指向自动化助理的口头话语序列中。例如,在图2A的示例中,假设用户202提供了“Assistant,set…”的口头话语,其包括指向经由用户家中的计算设备204可访问的自动化助理的请求208的第一部分。用户202能够提供口头话语以促进使自动化助理执行特定助理动作和/或执行与请求208的第一部分相关联的特定意图。类似于上面参考图1A提供的描述,自动化助理能够使用流式自动语音识别(ASR)模型使得捕获请求208的第一部分的音频数据流被处理,以生成ASR输出,并且能够使用自然语言理解(NLU)模型使得ASR输出被处理,以生成NLU输出。响应于接收到请求208的第一部分,自动化助理能够使得计算设备204的显示界面206以与上面参考图1A描述的相同或类似的方式渲染通用容器图形元素210。
再次,进一步假设用户102继续提供口头话语或者通过提供如图2B的视图220中所图示的“…the lights…(…灯…)”来提供包括请求226的第二部分的附加口头话语,以促进向自动化助理提供完整请求。类似地,能够处理捕获请求226的第二部分的音频数据流以生成附加ASR输出和附加NLU输出。基于附加NLU输出,自动化助理能够选择特定意图,该特定意图向自动化助理指示用户202想要修改用户202的家中的智能灯泡的当前状态。因此,响应于接收到请求226的第二部分。然而,且与图1A的示例相反,假设用户202将他/她的家中的多组智能灯泡一起分组(例如,智能灯泡的“厨房”组、智能灯泡的“地下室”组和智能灯泡的“走廊”组)。因此,在图2A的示例中,自动化助理能够用与基于处理请求226的第二部分并且基于多组智能灯泡而确定的特定意图相关联的内容来动态地适配图2A的通用容器图形元素210的多个实例,从而产生多个特定的定制图形容器元素222A、222B和222C。
例如,第一定制图形容器元素222A能够与智能灯泡的“厨房”组相关联,并且包括“厨房”的设备标识符224以及其他内容(例如,如由五个实心圆指示的50%亮度的“厨房”灯的当前状态、控制图形元素、媒体内容和/或与智能灯泡的“厨房”组相关联的其他内容);第二定制图形容器元素222B能够与智能灯泡的“地下室”组相关联,并且包括“地下室”的设备标识符228以及其他内容(例如,如由九个实心圆指示的90%亮度的“地下室”灯的当前状态、控制图形元素、媒体内容和/或与智能灯泡的“地下室”组相关联的其他内容);而第三定制图形容器元素222C能够与智能灯泡的“走廊”组相关联,并且包括“走廊”的设备标识符230以及其他内容(例如,如由七个实心圆指示的70%亮度的“走廊”灯的当前状态、控制图形元素、媒体内容和/或与智能灯泡的“走廊”组相关联的其他内容)。在一些实施方式中,自动化助理能够从与智能灯泡相关联的应用检索每个智能灯泡组的当前状态,而在其他实施方式中,自动化助理能够从智能灯泡直接检索每个智能灯泡组的当前状态。因此,在用户202提供请求226的第二部分的时刻的实例中,自动化助理能够动态地适配通用容器图形元素210的多个实例,从而产生多个不同的定制容器图形元素,以基于每个智能灯泡组的当前状态来动态地向用户202提供如何控制智能灯泡的指示。
在一些实施方式中,当用户202提供请求时,能够在显示界面206处渲染与来自用户202的请求对应的自然语言内容232。例如,自然语言内容232能够包括流式转录(例如,如图2B中的计算设备204的显示界面206处所示的“Assistant,set the lights…(助理,设置灯…)”),该流式转录基于在处理捕获请求的第一部分208和请求的第二部分226的音频数据流时使用流式ASR模型生成的ASR输出来确定。值得注意的是,自然语言内容能够与在计算设备204的显示界面206处渲染多个定制容器图形元素222A、222B和222C同时渲染。以这些和其他方式,自动化助理能够使得各种图形元素(例如,定制容器图形元素222A、222B和222C、自然语言内容232和/或其他图形元素)努力帮助用户202快速且有效地完整请求,从而减少用户202和自动化助理之间的对话会话的持续时间。
进一步假设用户202通过提供请求242的第三部分“…in the basement to30percent(…在地下室到30%)”来完整请求,如图2C的视图240所示,以促进向自动化助理提供完整请求。在该示例中,能够处理捕获请求242的第三部分的音频数据流以生成ASR输出和NLU输出。基于NLU输出,自动化助理能够生成结构化请求以被利用于履行用户202的口头话语。例如,自动化助理能够响应于从用户202接收到请求242的第三部分,将一个或多个结构化请求传送到“地下室”组中的智能灯泡和/或与在计算设备204处可访问的智能灯泡相关联的应用以使“地下室”组中的智能灯泡的当前状态从90%亮度修改为30%亮度。此外,响应于接收到请求242的第三部分,自动化助理能够通过适配当前状态来反映智能灯泡已经从90%亮度改变为30%亮度来反映智能灯泡的亮度的改变(例如,图2B中描绘的用于指示“地下室”组中的智能灯泡处于90%亮度的九个实心圆被改变为图2C中的指示“地下室”组中的智能灯泡现在处于30%的三个实心圆)。
在一些实施方式中,如图2C所示,当ASR输出指示用户已经选择了特定的智能灯泡组(例如,图2C的示例中的“地下室”组)时,自动化助理能够从计算设备204的显示界面206移除其他定制容器图形元素222A和222C,使得与用户202的特定意图相关联的定制容器图形元素222B是唯一剩余的定制容器图形元素。在一些实施方式中,能够根据容器图形元素的内容来偏置经由自动化助理执行的ASR和/或NLU过程。例如,响应于接收到请求242的第三部分,自动化助理能够将ASR处理和/或ASR输出朝向“厨房”、“地下室”和“走廊”偏置。
图3图示了提供自动化助理304的系统300,该自动化助理304在用户提供指向自动化助理304的请求时迭代地构建图形元素。自动化助理204能够作为在一个或多个计算设备,诸如计算设备302(例如,计算设备104的实例、计算设备204所实例等)和/或服务器设备处提供的助理应用的一部分来操作。用户能够经由助理接口320与自动化助理304交互,助理接口320能够是麦克风、相机、触摸屏显示器、用户界面和/或能够在用户和应用之间提供接口的任何其他装置。例如,用户能够通过向助理接口320提供口头、文本和/或图形输入来初始化自动化助理304,以使自动化助理304初始化一个或多个动作(例如,提供数据、控制外围设备、访问智能体、生成输入和/或输出等)。可替代地,能够基于使用一个或多个经训练的机器学习模型对场境数据336的处理来初始化自动化助理304。场境数据336能够表征自动化助理304可访问的环境的一个或多个特征,和/或被预测为旨在与自动化助理304交互的用户的一个或多个特征。计算设备302能够包括显示设备,该显示设备能够是包括触摸界面的显示面板,该触摸界面用于接收触摸输入和/或手势输入,以允许用户经由触摸界面(例如,计算设备104的显示界面106、计算设备204的显示界面206)控制计算设备302的应用334。在一些实施方式中,计算设备302能够缺少显示设备,从而提供可听用户接口输出,而不提供图形用户界面输出。此外,计算设备302能够提供用于从用户接收口头自然语言输入的用户接口,诸如麦克风。在一些实施方式中,计算设备302能够包括触摸界面并且能够没有相机,但是能够可选地包括一个或多个其他传感器。
计算设备302和/或其他第三方客户端设备能够通过诸如互联网的网络与服务器设备通信。另外,计算设备302和任何其他计算设备能够通过诸如Wi-Fi网络的局域网(LAN)彼此通信。计算设备302能够将计算任务卸载到服务器设备,以便节省计算设备302处的计算资源。例如,服务器设备能够托管自动化助理304,和/或计算设备302能够将在一个或多个助理接口320处接收的输入传送到服务器设备。然而,在一些实施方式中,自动化助理304能够被本地托管在计算设备302处,并且能够在计算设备302处专门执行能够与自动化助理操作相关联的各种过程。
在各种实施方式中,自动化助理304的所有或少于所有方面能够在计算设备302上实现。在这些实施方式中的一些实施方式中,自动化助理304的方面经由计算设备302来实现,并且能够与服务器设备接口,该服务器设备能够实现自动化助理304的其他方面。服务器设备能够可选地经由多个线程为多个用户及其相关联的助理应用服务。在经由计算设备302实现自动化助理304的所有或少于所有方面的实施方式中,自动化助理304能够是与计算设备302的操作系统分离的(例如,安装在操作系统的“顶上”的)应用-或者能够可替代地由计算设备302的操作系统直接实现(例如,被认为是操作系统的应用,但与操作系统集成)。
在一些实施方式中,自动化助理304能够包括输入处理引擎306,其能够采用多个不同的模块来处理计算设备302和/或服务器设备的输入和/或输出。例如,输入处理引擎306能够包括利用流式ASR模型的语音处理引擎308,其能够处理在助理接口320处接收的音频数据流以生成ASR输出,诸如在音频数据流中体现的文本。此外,例如,输入处理引擎306能够使用基于音频的机器学习模型和/或基于启发式的方法来确定与在音频数据流中捕获的任何口头话语/请求相关联的基于音频的特性。在一些实施方式中,能够将音频数据流从例如计算设备302传送到服务器设备,以便保留计算设备302处的计算资源。附加地或可替代地,能够在计算设备302处专门处理音频数据流。
用于将音频数据转换为文本的过程能够包括语音识别算法,其能够采用神经网络和/或统计模型(例如,本文描述的流式ASR模型)来标识与单词或短语对应的音频数据组。从音频数据转换的文本能够由利用NLU模型的数据解析引擎310解析,并且作为文本数据使得可用于自动化助理304,该文本数据能够被用来生成NLU输出,诸如命令短语、意图、动作、槽值和/或由用户指定的任何其他内容。在一些实施方式中,由数据解析引擎310提供的输出数据能够被提供给参数引擎312,以确定用户是否提供了与能够由自动化助理304和/或能够经由自动化助理304访问的应用或智能体执行的特定意图、动作和/或例程对应的输入。例如,助理数据338能够被存储在服务器设备和/或计算设备302处,并且能够包括定义能够由自动化助理304执行的一个或多个动作的数据,以及执行动作所需的参数。参数引擎312能够生成用于意图、动作和/或槽值的一个或多个参数,并且将一个或多个参数提供给输出生成引擎314。输出生成引擎314能够使用一个或多个参数来与助理接口320通信以向用户提供输出(例如,可视输出和/或可听输出),和/或与一个或多个应用334通信以向一个或多个应用334提供输出。
在一些实施方式中,并且如上所述,自动化助理304能够是能够安装在计算设备302的操作系统“之上”和/或本身能够形成计算设备302的操作系统的一部分(或全部)的应用。自动化助理应用包括和/或具有对设备上ASR、设备上NLU和设备上履行的访问。例如,能够使用流式ASR模型来执行设备上ASR,该流式ASR模型使用本地存储在计算设备302处的端到端流式ASR模型来处理(由麦克风检测到的)音频数据流。设备上语音识别生成ASR输出,诸如用于音频数据流中存在的口头话语(如果有的话)的识别文本。此外,例如,能够使用设备上NLU模型来执行设备上NLU,该设备上NLU模型处理使用流式ASR模型生成的ASR输出以及可选地场境数据,以生成NLU输出。NLU输出能够包括与口头话语对应的候选意图,并且可选地包括与候选意图相关联的对应参数的槽值。
能够使用设备上履行模型或履行规则来执行设备上履行,该设备上履行模型或履行规则利用NLU输出以及可选地其他本地数据来确定生成用于确定要采取的动作以解析口头话语的意图的结构化请求(以及可选地与候选意图相关联的对应参数的槽值)。这能够包括确定对口头话语和/或请求的本地和/或远程响应(例如,回答)、基于口头话语和/或请求执行的与本地安装的应用的交互、基于口头话语和/或请求(直接或经由对应的远程系统)传送到物联网(IoT)设备的命令、和/或基于口头话语和/或请求执行的其他解析动作。然后,设备上履行能够发起所确定的动作的本地和/或远程实现/执行,以解析口头话语和/或请求。
在各种实施方式中,能够至少选择性地利用远程语音处理、远程NLU和/或远程履行以节省计算设备302处的计算资源。例如,能够将所识别的文本至少选择性地传送到远程自动化助理组件以用于远程NLU和/或远程履行。例如,能够可选地传送所识别的文本以与设备上执行并行地或者响应于设备上NLU和/或设备上履行的故障来远程执行。然而,设备上语音处理、设备上NLU、设备上履行和/或设备上执行能够至少由于它们在解析口头话语时提供的时延减少(由于不需要客户端-服务器往返以解析口头话语)而被优先化。此外,设备上功能能够是在没有网络连接或具有有限网络连接的情况下可用的唯一功能。
在一些实施方式中,计算设备302能够具有对一个或多个应用334的访问,其能够由与提供计算设备302和/或自动化助理304的实体不同的第三方实体和/或由与提供计算设备302和/或自动化助理304的实体相同的第一方实体提供。自动化助理304和/或计算设备302能够访问应用数据330以确定能够由一个或多个应用334执行的一个或多个动作,以及一个或多个应用334中的每个应用的状态和/或与计算设备302相关联的相应设备的状态。此外,自动化助理304和/或计算设备302能够访问设备数据332以确定能够由计算设备302和/或与计算设备302相关联的一个或多个设备执行的一个或多个动作。此外,应用数据330和/或任何其他数据(例如,设备数据332)能够由自动化助理304访问以生成场境数据336,其能够表征特定应用334和/或设备正在执行的场境,和/或特定用户正在访问计算设备302、访问应用334和/或任何其他设备或模块的场境。
当一个或多个应用334正在计算设备302处执行时,设备数据332能够表征在计算设备302处执行的每个应用334的当前操作状态。此外,应用数据330能够表征正在执行的应用334的一个或多个特征,诸如在一个或多个应用334的指导下渲染的一个或多个图形用户界面的内容。可替代地或附加地,应用数据330能够表征动作模式,该动作模式能够由相应的应用和/或由自动化助理304基于相应的应用的当前操作状态来更新。可替代地或附加地,用于一个或多个应用334的一个或多个动作模式能够保持静态,但是能够由应用状态引擎访问,以便经由自动化助理304确定要初始化的合适动作。
计算设备302能够进一步包括助理调用引擎322,其能够使用一个或多个经训练的机器学习模型来处理应用数据330、设备数据332、场境数据336和/或计算设备302可访问的任何其他数据。助理调用引擎322能够处理该数据以便确定是否等待用户明确地说出调用短语以调用自动化助理304,或者认为该数据指示用户调用自动化助理的意图——而不是要求用户明确地说出调用短语。例如,能够使用训练数据的实例来训练一个或多个经训练的机器学习模型,所述训练数据的实例基于用户处于多个设备和/或应用展现各种操作状态的环境中的场景。
能够生成训练数据的实例,以便捕获表征用户调用自动化助理的场境和用户不调用自动化助理的其他场境。当根据训练数据的这些实例训练一个或多个经训练的机器学习模型时,助理调用引擎322能够使自动化助理304基于场境和/或环境的特征来检测或限制检测来自用户的口头调用短语。附加地或可替代地,助理调用引擎322能够使自动化助理304基于场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。在一些实施方式中,能够基于计算设备302检测到来自另一计算设备的助理抑制输出来禁用或限制助理调用引擎322。以这种方式,当计算设备302正在检测助理抑制输出时,将不基于场境数据336调用自动化助理304,如果没有检测到助理抑制输出,则场境数据336将使得自动化助理304被调用。
在一些实施方式中,系统300能够包括候选意图引擎316,其用于确定能够与用户向自动化助理304提供的请求的一个或多个部分相关联的一个或多个候选意图。例如,当用户提供诸如“Assistant,play…(助理,播放…)”的口头话语时,候选意图引擎316能够基于上述NLU输出来标识可能与口头话语相关联的一个或多个意图。可替代地或附加地,候选意图引擎316能够过滤掉可能与用户提供的口头话语不相关的某些候选意图。
在一些实施方式中,系统300能够包括通用容器引擎318,其能够基于由候选意图引擎316标识的一个或多个候选意图来获得和/或生成一个或多个通用容器图形元素。能够响应于接收到包括使自动化助理304履行的请求的口头话语来(例如,从计算设备302的设备上存储器)获得或生成通用容器图形元素。能够为通用容器图形元素分配与预测用户经由口头话语提供的一个或多个请求相关联的其他元素和/或特征。例如,尽管诸如“Assistant,play…(助理,播放…)”的初始口头话语未标识特定槽值(例如,歌曲、艺术家、电影、流媒体服务等),但是通用容器引擎318能够标识被预测为与请求相关联的槽值的类型。基于这种类型的槽值,通用容器引擎318能够获得和/或生成通用容器图形元素,该通用容器图形元素能够基于尚未在计算设备302处接收的请求的部分来动态地适配。例如,包括词语“play”的初始口头话语能够与用于控制媒体回放的槽值的类型相关联。因此,与“媒体回放”特征相关联的通用容器图形元素能够由通用容器引擎318选择,并且随后用与媒体回放相关联的特征动态地适配。可替代地,包括词语“turn”的初始口头话语能够与用于控制应用和/或设备的输出级别的槽值的类型相关联。因此,与调整应用和/或设备的设置相关联的通用容器图形元素能够由通用容器引擎318选择,并且随后用用于控制应用和/或设备的输出级别的设置相关联的特征动态地适配。
在一些实施方式中,系统300能够包括定制容器引擎326,其能够获得和/或生成用于动态地分配适配通用容器图形元素的控制元素,从而产生定制容器图形元素。例如,当用户向自动化助理304提供请求的附加部分时,定制容器引擎326能够在通用容器图形元素处迭代地分配和/或移除控制元素。每个控制元件能够与被确定为与预测用户将向自动化助理304提供的请求对应的槽值和/或槽值类型相关联。例如,当预测用户请求自动化助理304修改能够具有数值范围的设备设置时,定制容器引擎326能够选择要分配给容器图形元素的“滑动”GUI元素(或适合于控制设备设置的任何其他元素)。可替代地,当预测用户将向自动化助理304提供控制媒体内容(例如,音频和/或视频)的回放的请求时,定制容器引擎326能够选择要分配给容器图形元素的一个或多个媒体回放控制元素(例如,暂停按钮、播放按钮、跳过按钮等)。
在一些实施方式中,系统300能够包括状态引擎324,其能够在用户向自动化助理304提供请求的附加部分时获得和/或移除用于定制容器图形元素的应用和/或设备的当前状态。此外,状态引擎能够基于处理与请求相关联的口头话语和/或触摸输入来确定用于应用和/或设备的更新状态。例如,当预测用户请求自动化助理304修改另一计算设备的设置时,状态引擎326能够确定用于另一计算设备的设置的当前状态。基于该当前状态,状态引擎326能够标识能够表征设备的状态的状态GUI元素,并且使得状态GUI元素被合并到定制容器图形元素中。例如,当设置的状态对应于数值范围内的值时,状态引擎326能够生成表征数值范围并强调设置的当前状态的状态GUI元素。然后能够将该状态GUI元素合并到当前正在计算设备302的界面处渲染的定制容器图形元素中。以这种方式,当用户继续提供请求的附加部分时,能够通知用户设置的当前状态,从而刷新他们对任何当前状态的回忆并帮助用户确定相对于当前状态的期望更新状态。
图4A和图4B图示了用于在用户提供指向自动化助理的请求时控制自动化助理在显示界面处迭代地提供图形元素的方法400和方法420。方法400和方法420能够由一个或多个应用、计算设备和/或能够与自动化助理交互的任何其他应用或模块来执行。方法400能够包括用于确定用户是否已经向自动化助理提供请求的操作402。该请求能够例如被包括在口头话语,诸如“Assistant,adjust…(助理,调整…)”,其能够指代要由自动化助理履行的请求的第一部分。
当自动化助理已经确定已经接收到请求的至少一部分时,方法400能够从操作402进行到操作404。操作404能够包括确定该请求是对应于完整请求还是不完整请求。换句话讲,自动化助理能够确定用户是否已经为自动化助理提供了足够的信息来初始化请求的履行。根据前述示例,当用户提供口头话语“Assistant,adjust…(助理,调整…)”时,自动化助理能够确定该请求对应于不完整的请求。基于该确定,方法400能够从操作404进行到操作406。否则,如果自动化助理确定请求对应于完整请求,则方法400能够从操作404经由继续元素“B”进行到操作424,如图4A和图4B所示并且如参考图4B所述。在各种实施方式中,即使当在操作404处确定请求是完整请求时,方法400也能够进行到操作406。因此,应当理解到,方法400和方法420仅仅是为了示例而提供的,并不意味着限制。
操作406能够包括使得通用容器图形元素被渲染在计算设备的显示界面处。通用容器图形元素能够作为通用容器图形元素能够动态适配的其他图形元素的占位符来操作。例如,通用容器图形元素能够是具有主体的形状的图形渲染,该主体包括用于要被分配的其他图形元素的足够区域。其他图形元素能够包括但不限于用于控制一个或多个应用和/或设备的控制元素、用于指示一个或多个应用和/或设备的当前状态的状态元素、一个或多个应用和/或设备的设备标识符、基于媒体内容的媒体元素和/或能够在显示界面处渲染的任何其他类型的元素。方法400能够从操作406进行到操作408,操作408能够包括确定自动化助理是否已经接收到不完整请求的附加部分。
请求的附加部分能够是诸如“…the temperature…(…温度…)”的口头话语。当确定已经接收到不完整请求的附加部分时,方法400能够从操作408进行到操作410。否则,当确定尚未接收到不完整请求的另一部分时,方法400能够从操作408经由继续元素“A”进行到方法420的可选操作424,如图4A和图4B所示并且如参考图4B所述。如图4B所示的可选操作424能够包括使得在显示界面处渲染一个或多个可选建议。一个或多个可选建议能够基于已经由自动化助理从用户接收的不完整请求的一个或多个部分。以这种方式,尽管用户没有提供完整的请求,但是自动化助理仍然能够提供一个或多个可选建议,该一个或多个可选建议被预测为与用户可能正在尝试传达的一个或多个意图对应。此后,方法420能够可选地经由继续元素“C”返回到操作402,如图4A和图4B所示。
当在操作408处确定已经接收到不完整请求的附加部分时,方法400能够从操作408进行到操作410。操作410能够包括确定不完整的请求对应于特定意图。在一些实例中,能够在用户已经提供了用于使不完整的请求完整的一个或多个附加输入之后执行操作410。例如,当用户已经提供请求的第一部分“Assistant,adjust…(助理,调整…)”之后是请求的第二部分“…the temperature…(…温度…)”(例如,其被包括在同一口头话语或该口头话语之后的附加口头话语中)时,自动化助理能够确定用户正在请求修改应用和/或设备的温度设置。在一些实施方式中,特定意图能够具有与特定意图相关联的对应参数的槽值。在一些实施方式中,来自用户的请求能够基于如由自动化助理或其他应用确定的预测概率而被认为是不完整的。例如,预测概率能够指示用户正在请求执行特定意图的可能性。当预测概率满足概率阈值时,来自用户的请求能够被认为完整。此后,能够基于来自用户的附加输入和/或自动化助理可用的数据,将用于对应参数的槽值分配给特定意图。
方法400能够从操作410进行到操作412,其能够包括使得通用容器图形元素被动态地适配,这能够导致特定于特定意图的定制容器图形元素。定制容器图形元素能够包括用于控制特定助理动作的一个或多个控制元素、指示应用和/或设备的状态的一个或多个状态元素、和/或本文描述的其他内容。例如,基于请求的部分(例如,“Assistant,adjust…the temperature…(助理,调整…温度…)”),自动化助理能够使各种图形元素动态地适配于通用容器图形元素,用于指示特定设备(例如,走廊恒温器)的当前温度设置。可替代地或附加地,自动化助理能够使单独的图形元素被分配给通用容器图形元素以用于调节特定设备的温度设置。以这种方式,用户将能够看到特定设备的当前状态以及用于控制特定设备的选项。通过迭代地将图形元素分配给容器图形元素,自动化助理和计算设备能够节省等待用户提供完整的请求否则将消耗的时间和资源。
方法400能够从操作412进行到操作414,其能够包括确定是否已经接收到用于初始化特定助理动作的输入。输入能够是例如包括在同一口头话语或口头话语之后的附加口头话语中的请求的另一部分(例如,“…to 72degrees…(…到72度…)”)和/或正在渲染特定定制容器图形元素的显示界面的区域处的触摸输入。当确定已经接收到用于初始化请求的履行的输入时,方法400能够从操作414经由继续元素“B”进行到方法420的操作422,如图4A和图4B所示并且如参考图4B所述。否则,方法400能够从操作414经由继续元素“A”进行到可选操作424和/或操作402。
操作422能够包括基于来自用户的请求来初始化履行。履行能够对应于执行特定意图以履行请求。例如,用户能够基于指示设备的当前状态为67度的特定定制容器图形元素来提供附加口头话语,诸如“…to 72degrees…(…到72度…)”。因此,能够通过在特定定制容器图形元素处传达的信息来刷新用户的回忆。方法420能够从操作422进行到可选操作426,其能够包括基于履行来渲染响应输出。例如,能够基于履行的执行,向特定定制容器图形元素分配附加内容。根据前述示例,能够为容器图形元素分配附加图形内容,用于指示设备的温度设置已经从67度的当前状态成功地调整或修改为72度的更新状态。此后,方法420能够经由继续元素“C”返回到操作402。
图5是示例性计算机系统510的框图500。计算机系统510通常包括经由总线子系统512与多个外围设备通信的至少一个处理器514。这些外围设备可以包括存储子系统524,其包括例如存储器525和文件存储子系统524、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入和输出设备允许与计算机系统510的用户交互。网络接口子系统516提供到外部网络的接口,并且耦合到其他计算机系统中的相应接口设备。
用户接口输入设备522可以包括键盘、指向设备,诸如鼠标、轨迹球、触摸板或图形输入板、扫描仪、并入显示器中的触摸屏、音频输入设备,诸如语音识别系统、麦克风、和/或其他类型的输入设备。通常,词语“输入设备”的使用旨在包括将信息输入到计算机系统510中或通信网络上的所有可能类型的设备和方式。
用户接口输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的一些其他机构。显示子系统还可以诸如经由音频输出设备提供非视觉显示。通常,词语“输出设备”的使用旨在包括将信息从计算机系统510输出到用户或另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统524存储提供本文描述的一些或所有模块的功能的编程和数据结构。例如,存储子系统524可以包括执行方法400的所选方面,和/或实现系统300、计算设备104、计算设备204、自动化助理和/或本文讨论的任何其他应用、设备、装置和/或模块中的一个或多个的逻辑。
这些软件模块通常由处理器514单独执行或与其他处理器组合执行。在存储子系统524中使用的存储器525能够包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和存储固定指令的只读存储器(ROM)532。文件存储子系统526能够为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统526存储在存储子系统524中,或者存储在可由处理器514访问的其他机器中。
总线子系统512提供了一种用于使计算机系统510的各种组件和子系统按预期彼此通信的机制。尽管总线子系统512被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算机系统510能够是各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,为说明一些实施方式的目的,图5中描绘的计算机系统510的描述仅旨在作为具体示例。计算机系统510的许多其他配置可能具有比图5中描绘的计算机系统更多或更少的组件。
在本文描述的系统收集关于用户(或者本文通常称为“参与者”)的个人信息或者可以使用个人信息的情况下,可以向用户提供控制程序或功能部件是否收集用户信息(例如,关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。同样,某些数据可以在其被存储或使用之前以一种或多种方式被处理,使得个人可识别信息被移除。例如,可以处理用户的身份,使得不能确定用户的个人身份信息,或者可以概括获得地理位置信息的用户的地理位置(诸如到城市、邮政编码或州级别),使得不能确定用户的具体地理位置。因此,用户可以控制如何收集和/或使用关于用户的信息。
虽然本文已经描述和图示了若干实施方式,但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他装置和/或结构,并且这些变化和/或修改中的每一个被认为是在本文描述的实施方式的范围内。更一般地,本文描述的所有参数、尺寸、材料和配置旨在是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用教导的一个或多个具体应用。本领域技术人员将认识到或能够使用不超过常规实验来查明本文描述的具体实施方式的许多等同物。因此,应当理解到,前述实施方式仅作为示例呈现,并且在所附权利要求及其等同物的范围内,可以以不同于具体描述和要求保护的方式来实践实施方式。本公开的实施方式涉及本文描述的每个个体特征、系统、制品、材料、套件和/或方法。另外,如果这样的特征、系统、制品、材料、套件和/或方法不相互矛盾,则两个或更多个这样的特征、系统、制品、材料、套件和/或方法的任何组合被包括在本公开的范围内。
在一些实施方式中,提供了一种由一个或多个处理器实现的方法,并且包括在计算设备处接收来自用户的被包括在口头话语中的请求的第一部分。口头话语指向经由计算设备可访问的自动化助理。方法进一步包括基于处理请求的第一部分,确定与请求的第一部分相关联的一个或多个候选意图;以及基于一个或多个候选意图,使得通用容器图形元素被渲染在计算设备的显示界面处。通用容器图形元素能够用多个不同的定制容器图形元素中的任何一个动态地适配,且多个不同的定制容器图形元素中的每一个与一个或多个候选意图中的对应一个候选意图相关联。方法进一步包括在计算设备处接收来自用户的请求的第二部分,第二部分也被包括在口头话语中或者被包括在口头话语之后接收的附加口头话语中;基于处理请求的第二部分,确定请求对应于一个或多个候选意图中的特定意图;以及基于特定意图,使得用多个不同的定制容器图形元素中的特定定制容器图形元素动态地适配在显示界面处渲染的通用容器图形元素。
本文描述的技术的这些和其他实施方式能够可选地包括下述特征中的一个或多个。
在一些实施方式中,特定定制容器图形元素可以表征与特定意图相关联的对应参数的槽值,且请求的第一部分和请求的第二部分可能不标识槽值。
在一些实施方式中,方法可以进一步包括响应于接收到请求的第一部分,使得计算设备的显示界面视觉地渲染表征请求的第一部分的自然语言内容。显示界面可以在渲染通用容器图形元素的同时渲染请求的第一部分的自然语言内容。
在一些实施方式中,方法可以进一步包括在接收到请求的第一部分之后,确定阈值持续时间已经流逝。基于阈值持续时间流逝,可以执行使得在显示界面处渲染通用容器图形元素。
在一些实施方式中,特定定制容器图形元素可以包括与计算设备或与计算设备通信的一个或多个附加计算设备的一个或多个设置的当前状态相关联的特定图形控制元素。在这些实施方式的一些版本中,方法可以进一步包括在计算设备处接收来自用户的请求的第三部分,第三部分也被包括在口头话语、附加口头话语或者在口头话语或附加口头话语之后接收的另一附加口头话语中,请求的第三部分包括用于一个或多个设置的更新状态;以及由自动化助理使得计算设备或附加计算设备中的一个或多个附加计算设备的一个或多个设置从当前状态改变为更新状态。
在一些实施方式中,使得在显示界面处渲染的通用容器图形元素动态地适配于特定定制容器图形元素可以包括基于在第二口头话语中标识的槽值的类型,从多个不同的定制容器图形元素中选择特定定制容器图形元素。槽值的类型可以对应于限于数值范围的数值。
在一些实施方式中,可以在接收到请求的第二部分之前,在计算设备的显示界面处渲染通用容器图形元素。
在一些实施方式中,可以在请求的第二部分正被接收的同时,在计算设备的显示界面处渲染通用容器图形元素。
在一些实施方式中,基于处理请求的第一部分来确定与请求的第一部分相关联的一个或多个候选意图可以包括使用流式自动语音识别(ASR)模型来处理由计算设备的一个或多个麦克风生成的音频数据流以生成ASR输出,音频数据流捕获请求的第一部分;使用自然语言理解(NLU)模型来处理ASR输出以生成NLU输出;以及基于NLU输出确定与请求的第一部分相关联的一个或多个候选意图。在这些实施方式的一些版本中,基于处理请求的第二部分来确定请求对应于一个或多个候选意图中的特定意图可以包括使用流式ASR模型处理音频数据流以生成附加ASR输出,音频数据流还捕获请求的第二部分;使用NLU模型处理附加ASR输出以生成附加NLU输出;以及基于附加NLU输出,从一个或多个候选意图中选择特定意图。
在一些实施方式中,提供一种由一个或多个处理器实现的方法,并且包括在计算设备处接收由用户提交的请求的一部分,请求的该部分被包括在指向经由计算设备可访问的自动化助理的口头话语中;由自动化助理确定请求的该部分与修改计算设备或经由自动化助理与计算设备通信的一个或多个附加计算设备的一个或多个设置的当前状态相关联;基于一个或多个设置的当前状态,确定表征一个或多个设置的当前状态的定制容器图形元素数据;基于定制容器图形元素数据,使得计算设备的显示界面渲染指示一个或多个设置的当前状态的一个或多个定制容器图形元素;以及响应于使计算设备的显示界面渲染指示一个或多个设置的当前状态的一个或多个定制容器图形元素:在计算设备处接收由用户提交的请求的附加部分,请求的附加部分被包括在口头话语或被包括在口头话语之后接收的附加口头话语中,以及请求的附加部分包括用于一个或多个设置的更新状态;以及由自动化助理使得计算设备或附加计算设备中的一个或多个附加计算设备的一个或多个设置从当前状态改变为更新状态。
本文描述的技术的这些和其他实施方式能够可选地包括下述特征中的一个或多个。
在一些实施方式中,一个或多个定制容器图形元素中的每一个可以包括用于表示一个或多个设置的当前状态的图形图标。
在一些实施方式中,方法可以进一步包括响应于接收到请求的部分,使得计算设备的显示界面视觉地渲染表征请求的部分的自然语言内容。可以在显示界面渲染自然语言内容的同时渲染一个或多个定制图形容器元素。
在一些实施方式中,请求的部分可以不包括用于一个或多个设置的当前状态。
在一些实施方式中,基于定制容器图形元素数据使得计算设备的显示界面渲染指示一个或多个设置的当前状态的一个或多个定制容器图形元素可以包括使得渲染一个或多个定制容器图形元素中的第一定制容器图形元素,第一定制容器图形元素指示一个或多个附加计算设备中的与计算设备分离的第一计算设备的一个或多个设置中的第一设置;以及使得渲染一个或多个定制容器图形元素中的第二定制容器图形元素,第二定制容器图形元素指示一个或多个附加计算设备中的与计算设备分离的第二计算设备的一个或多个设置中的第二设置。在这些实施方式的一些版本中,第一计算设备的第一设置可以对应于第一计算设备的音量设置,以及第二计算设备的第二设置可以对应于第二计算设备的音量设置。在这些实施方式的附加或替代版本中,第一计算设备的第一设置可以对应于第一计算设备的亮度设置,以及第二计算设备的第二设置可以对应于第二计算设备的亮度设置。
在一些实施方式中,方法可以进一步包括基于处理请求的部分,确定用户已经暂停提供请求。使得计算设备的显示界面渲染指示一个或多个设置的当前状态的一个或多个定制容器图形元素可以是响应于确定用户已经暂停提供请求。在这些实施方式的一些版本中,基于处理请求的部分来确定用户已经暂停提供请求可以包括基于处理请求的部分,确定用户在提供特定单词或短语之后已经暂停提供请求。在这些实施方式的附加或替代版本中,使得计算设备的显示界面渲染指示一个或多个设置的当前状态的一个或多个定制容器图形元素可以是响应于确定用户已经暂停提供请求达阈值持续时间。在这些实施方式的附加或替代版本中,基于处理请求的部分来确定用户已经暂停提供请求可以包括使用流式自动语音识别(ASR)模型来处理由计算设备的一个或多个麦克风生成的音频数据流以生成ASR输出,音频数据流捕获请求的部分;使用自然语言理解(NLU)模型来处理ASR输出以生成NLU输出;以及基于NLU输出,确定用户已经暂停提供请求。在这些实施方式的附加或替代版本中,基于处理请求的部分来确定用户已经暂停提供请求可以包括基于处理请求的部分,确定与请求的部分相关联的基于音频的特性;以及基于与请求的部分相关联的基于音频的特性来确定用户已经暂停提供请求。
在一些实施方式中,提供一种由一个或多个处理器实现的方法,以及包括在计算设备处接收来自用户的被包括在口头话语中的请求的第一部分。口头话语指向经由计算设备可访问的自动化助理。方法进一步包括基于处理请求的第一部分,确定请求的部分包括与控制计算设备或与计算设备通信的一个或多个附加计算设备相关联的特定单词或短语;以及基于请求的第一部分包括特定单词或短语,使得在计算设备的显示界面处渲染通用容器图形元素。通用容器图形元素能够用多个不同的定制容器图形元素中的任何一个动态地适配,以及多个不同的定制容器图形元素中的每一个与基于处理口头话语的第一部分而确定的对应意图相关联。方法进一步包括在计算设备处接收来自用户的请求的第二部分,第二部分也被包括在口头话语中或者被包括在口头话语之后接收的附加口头话语中;基于处理请求的第二部分,确定请求对应于一个或多个候选意图中的特定意图;以及基于特定意图,使得用多个不同的定制容器图形元素中的特定定制容器图形元素动态地适配在显示界面处渲染的通用容器图形元素。
本文描述的技术的这些和其他实施方式能够可选地包括下述特征中的一个或多个。
在一些实施方式中,基于处理请求的第一部分,确定请求的部分包括与控制计算设备或与计算设备通信的一个或多个附加计算设备相关联的特定单词或短语可以包括使用流式自动语音识别(ASR)模型来处理由计算设备的一个或多个麦克风生成的音频数据流以生成ASR输出,音频数据流捕获请求的第一部分;以及基于ASR输出,确定请求的部分包括与控制计算设备或一个或多个附加计算设备相关联的特定单词或短语。
在这些实施方式的一些版本中,基于包括特定单词或短语的请求的第一部分,使得在计算设备的显示界面处渲染通用容器图形元素可以包括确定特定单词或短语在计算设备的设备上存储器中被映射到通用容器图形元素;以及响应于确定特定单词或短语被映射到通用容器图形元素:使得通用容器图形元素在计算设备的显示界面处被渲染,而不使用自然语言理解(NLU)模型来处理ASR输出。
其他实施方式可以包括非暂时性计算机可读存储介质,其存储可由一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU))执行的指令,以执行诸如上述和/或本文其他地方描述的一种或多种方法的方法。其他实施方式可以包括一个或多个计算机的系统,计算机包括可操作以执行所存储的指令以执行诸如上述和/或本文其他地方描述的一种或多种方法的方法的一个或多个处理器。
应当意识到,本文更详细描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如,出现在本公开结尾处的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。

Claims (28)

1.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处接收来自用户的被包括在口头话语中的请求的第一部分,
其中,所述口头话语指向经由所述计算设备能够访问的自动化助理;
基于处理所述请求的所述第一部分,确定与所述请求的所述第一部分相关联的一个或多个候选意图;
基于所述一个或多个候选意图,使得通用容器图形元素被渲染在所述计算设备的显示界面处,
其中,所述通用容器图形元素能够用多个不同的定制容器图形元素中的任何一个动态地适配,以及
其中,所述多个不同的定制容器图形元素中的每一个与所述一个或多个候选意图中的对应一个候选意图相关联;
在所述计算设备处接收来自所述用户的所述请求的第二部分,所述第二部分也被包括在所述口头话语中或者被包括在所述口头话语之后接收的附加口头话语中;
基于处理所述请求的所述第二部分,确定所述请求对应于所述一个或多个候选意图中的特定意图;以及
基于所述特定意图,使得用所述多个不同的定制容器图形元素中的特定定制容器图形元素动态地适配在所述显示界面处渲染的所述通用容器图形元素。
2.根据权利要求1所述的方法,
其中,所述特定定制容器图形元素表征与所述特定意图相关联的对应参数的槽值,以及
其中,所述请求的所述第一部分和所述请求的所述第二部分不标识所述槽值。
3.根据权利要求1或权利要求2所述的方法,进一步包括:
响应于接收到所述请求的所述第一部分,使得所述计算设备的所述显示界面视觉地渲染表征所述请求的所述第一部分的自然语言内容,
其中,所述显示界面在渲染所述通用容器图形元素的同时渲染所述请求的所述第一部分的所述自然语言内容。
4.根据任一前述权利要求所述的方法,进一步包括:
在接收到所述请求的所述第一部分之后,确定阈值持续时间已经流逝,
其中,基于所述阈值持续时间流逝,执行使得在所述显示界面处渲染所述通用容器图形元素。
5.根据任一前述权利要求所述的方法,其中,所述特定定制容器图形元素包括与所述计算设备或与所述计算设备通信的一个或多个附加计算设备的一个或多个设置的当前状态相关联的特定图形控制元素。
6.根据权利要求5所述的方法,进一步包括:
在所述计算设备处接收来自所述用户的所述请求的第三部分,所述第三部分也被包括在所述口头话语、所述附加口头话语或者在所述口头话语或所述附加口头话语之后接收的另一附加口头话语中,所述请求的所述第三部分包括用于所述一个或多个设置的更新状态;以及
由所述自动化助理使得所述计算设备或所述附加计算设备中的一个或多个附加计算设备的所述一个或多个设置从所述当前状态改变为所述更新状态。
7.根据任一前述权利要求所述的方法,其中,使得在所述显示界面处渲染的所述通用容器图形元素动态地适配于所述特定定制容器图形元素包括:
基于在第二口头话语中标识的槽值的类型,从所述多个不同的定制容器图形元素中选择所述特定定制容器图形元素,
其中,所述槽值的类型对应于被限于一数值范围的数值。
8.根据任一前述权利要求所述的方法,其中,在接收到所述请求的所述第二部分之前,在所述计算设备的所述显示界面处渲染所述通用容器图形元素。
9.根据任一前述权利要求所述的方法,其中,在所述请求的所述第二部分正被接收的同时,在所述计算设备的所述显示界面处渲染所述通用容器图形元素。
10.根据任一前述权利要求所述的方法,其中,基于处理所述请求的所述第一部分来确定与所述请求的所述第一部分相关联的一个或多个候选意图包括:
使用流式自动语音识别(ASR)模型来处理由所述计算设备的一个或多个麦克风生成的音频数据流以生成ASR输出,所述音频数据流捕获所述请求的所述第一部分;
使用自然语言理解(NLU)模型来处理所述ASR输出以生成NLU输出;以及
基于所述NLU输出确定与所述请求的所述第一部分相关联的所述一个或多个候选意图。
11.根据权利要求10所述的方法,其中,基于处理所述请求的所述第二部分来确定所述请求对应于所述一个或多个候选意图中的特定意图包括:
使用所述流式ASR模型处理所述音频数据流以生成附加ASR输出,所述音频数据流还捕获所述请求的所述第二部分;
使用所述NLU模型处理所述附加ASR输出以生成附加NLU输出;以及
基于所述附加NLU输出,从所述一个或多个候选意图中选择所述特定意图。
12.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处接收由用户提交的请求的部分,所述请求的所述部分被包括在指向经由所述计算设备可访问的自动化助理的口头话语中;
由所述自动化助理确定所述请求的所述部分与修改所述计算设备或经由所述自动化助理与所述计算设备通信的一个或多个附加计算设备的一个或多个设置的当前状态相关联;
基于所述一个或多个设置的所述当前状态,确定表征所述一个或多个设置的所述当前状态的定制容器图形元素数据;
基于所述定制容器图形元素数据,使得所述计算设备的显示界面渲染指示所述一个或多个设置的所述当前状态的一个或多个定制容器图形元素;以及
响应于使所述计算设备的所述显示界面渲染指示所述一个或多个设置的所述当前状态的所述一个或多个定制容器图形元素:
在所述计算设备处接收由所述用户提交的所述请求的附加部分,所述请求的所述附加部分被包括在所述口头话语或被包括在所述口头话语之后接收的附加口头话语中,以及所述请求的所述附加部分包括用于所述一个或多个设置的更新状态;以及
由所述自动化助理使得所述计算设备或所述附加计算设备中的一个或多个附加计算设备的所述一个或多个设置从所述当前状态改变为所述更新状态。
13.根据权利要求12所述的方法,其中,所述一个或多个定制容器图形元素中的每一个包括用于表示所述一个或多个设置的所述当前状态的图形图标。
14.根据权利要求12或权利要求13所述的方法,进一步包括:
响应于接收到所述请求的所述部分,使得所述计算设备的所述显示界面视觉地渲染表征所述请求的所述部分的自然语言内容,
其中,在所述显示界面渲染所述自然语言内容的同时渲染所述一个或多个定制图形容器元素。
15.根据权利要求12至14中的任一项所述的方法,其中,所述请求的所述部分不包括所述一个或多个设置的所述当前状态。
16.根据权利要求12至15中的任一项所述的方法,其中,基于所述定制容器图形元素数据使得所述计算设备的所述显示界面渲染指示所述一个或多个设置的所述当前状态的所述一个或多个定制容器图形元素包括:
使得渲染所述一个或多个定制容器图形元素中的第一定制容器图形元素,所述第一定制容器图形元素指示所述一个或多个附加计算设备中的与所述计算设备分离的第一计算设备的所述一个或多个设置中的第一设置;以及
使得渲染所述一个或多个定制容器图形元素中的第二定制容器图形元素,所述第二定制容器图形元素指示所述一个或多个附加计算设备中的与所述计算设备分离的第二计算设备的所述一个或多个设置中的第二设置。
17.根据权利要求16所述的方法,
其中,所述第一计算设备的所述第一设置对应于所述第一计算设备的音量设置,以及
其中,所述第二计算设备的所述第二设置对应于所述第二计算设备的音量设置。
18.根据权利要求16所述的方法,
其中,所述第一计算设备的所述第一设置对应于所述第一计算设备的亮度设置,以及
其中,所述第二计算设备的所述第二设置对应于所述第二计算设备的亮度设置。
19.根据权利要求12至18中的任一项所述的方法,进一步包括:
基于处理所述请求的所述部分,确定所述用户已经暂停提供所述请求,
其中,使得所述计算设备的所述显示界面渲染指示所述一个或多个设置的所述当前状态的所述一个或多个定制容器图形元素是响应于确定所述用户已经暂停提供所述请求。
20.根据权利要求19所述的方法,其中,基于处理所述请求的所述部分来确定所述用户已经暂停提供所述请求包括:
基于处理所述请求的所述部分,确定所述用户在提供特定单词或短语之后已经暂停提供所述请求。
21.根据权利要求19所述的方法,其中,使得所述计算设备的所述显示界面渲染指示所述一个或多个设置的所述当前状态的所述一个或多个定制容器图形元素是响应于确定所述用户已经暂停提供所述请求达阈值持续时间。
22.根据权利要求19所述的方法,其中,基于处理所述请求的所述部分来确定所述用户已经暂停提供所述请求包括:
使用流式自动语音识别(ASR)模型来处理由所述计算设备的一个或多个麦克风生成的音频数据流以生成ASR输出,所述音频数据流捕获所述请求的所述部分;
使用自然语言理解(NLU)模型来处理所述ASR输出以生成NLU输出;以及
基于所述NLU输出,确定所述用户已经暂停提供所述请求。
23.根据权利要求19所述的方法,其中,基于处理所述请求的所述部分来确定所述用户已经暂停提供所述请求包括:
基于处理所述请求的所述部分,确定与所述请求的所述部分相关联的基于音频的特性;以及
基于与所述请求的所述部分相关联的所述基于音频的特性来确定所述用户已经暂停提供所述请求。
24.一种由一个或多个处理器实现的方法,所述方法包括:
在计算设备处接收来自用户的被包括在口头话语中的请求的第一部分,
其中,所述口头话语指向经由所述计算设备能够访问的自动化助理;
基于处理所述请求的所述第一部分,确定所述请求的所述部分包括与控制所述计算设备或与所述计算设备通信的一个或多个附加计算设备相关联的特定单词或短语;
基于所述请求的所述第一部分包括所述特定单词或短语,使得在所述计算设备的显示界面处渲染通用容器图形元素,
其中,所述通用容器图形元素能够用多个不同的定制容器图形元素中的任何一个动态地适配,以及
其中,所述多个不同的定制容器图形元素中的每一个与基于处理所述口头话语的所述第一部分而确定的对应意图相关联;
在所述计算设备处接收来自所述用户的所述请求的第二部分,所述第二部分也被包括在所述口头话语中或者被包括在所述口头话语之后接收的附加口头话语中;
基于处理所述请求的所述第二部分,确定所述请求对应于所述一个或多个候选意图中的特定意图;以及
基于所述特定意图,使得用所述多个不同的定制容器图形元素中的特定定制容器图形元素动态地适配在所述显示界面处渲染的所述通用容器图形元素。
25.根据权利要求24所述的方法,其中,基于处理所述请求的所述第一部分,确定所述请求的所述部分包括与控制所述计算设备或与所述计算设备通信的所述一个或多个附加计算设备相关联的所述特定单词或短语包括:
使用流式自动语音识别(ASR)模型来处理由所述计算设备的一个或多个麦克风生成的音频数据流以生成ASR输出,所述音频数据流捕获所述请求的所述第一部分;以及
基于所述ASR输出,确定所述请求的所述部分包括与控制所述计算设备或所述一个或多个附加计算设备相关联的所述特定单词或短语。
26.根据权利要求25所述的方法,其中,基于所述请求的所述第一部分包括所述特定单词或短语使得在所述计算设备的所述显示界面处渲染所述通用容器图形元素包括:
确定所述特定单词或短语在所述计算设备的设备上存储器中被映射到所述通用容器图形元素;以及
响应于确定所述特定单词或短语被映射到所述通用容器图形元素:
使得所述通用容器图形元素在所述计算设备的所述显示界面处被渲染,而不使用自然语言理解(NLU)模型来处理所述ASR输出。
27.一种系统,包括:
至少一个处理器;以及
存储指令的存储器,所述指令在被执行时使所述至少一个处理器执行与权利要求1至26中的任一项对应的操作。
28.一种存储指令的非暂时性计算机可读存储介质,所述指令在被执行时使得至少一个处理器执行与权利要求1至26中的任一项对应的操作。
CN202180088524.9A 2021-07-28 2021-11-29 在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配 Pending CN116670637A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/226,431 2021-07-28
US17/532,199 US12039996B2 (en) 2021-11-22 Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances
US17/532,199 2021-11-22
PCT/US2021/061000 WO2023009157A1 (en) 2021-07-28 2021-11-29 Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances

Publications (1)

Publication Number Publication Date
CN116670637A true CN116670637A (zh) 2023-08-29

Family

ID=87722897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180088524.9A Pending CN116670637A (zh) 2021-07-28 2021-11-29 在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配

Country Status (1)

Country Link
CN (1) CN116670637A (zh)

Similar Documents

Publication Publication Date Title
EP3788620B1 (en) Supplementing voice inputs to an automated assistant according to selected suggestions
CN111052229B (zh) 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
CN110998717A (zh) 自动确定通过自动化助理接口接收的口头话语的语音识别的语言
US12027164B2 (en) Passive disambiguation of assistant commands
US20230153525A1 (en) Fulfillment of actionable requests ahead of a user selecting a particular autocomplete suggestion for completing a current user input
JP7170739B2 (ja) リモートに生成された自動化アシスタントコンテンツのレンダリングにおけるクライアントデバイスレイテンシの軽減
US20220276722A1 (en) Expanding physical motion gesture lexicon for an automated assistant
WO2020226670A1 (en) Initializing non-assistant background actions, via an automated assistant, while accessing a non-assistant application
EP3939033B1 (en) Automated assistant control of external applications lacking automated assistant application programming interface functionality
US20230031461A1 (en) Providing certain reasoning with respect to fulfillment of an assistant command
US12039996B2 (en) Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances
CN116670637A (zh) 在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配
US20230035713A1 (en) Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances
KR20230121150A (ko) 파라미터(들)로 제한될 수 있는 사용자 입력에 대한응답으로 비-어시스턴트 애플리케이션 동작(들)의 자동화된 어시스턴트 수행
EP4150441A1 (en) Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances
US20240203410A1 (en) Adapting virtual features of a virtual environment for streamlining assistant interactions in the virtual environment
US20240038246A1 (en) Non-wake word invocation of an automated assistant from certain utterances related to display content
KR20230118959A (ko) 어시스턴트 명령의 이행과 관련하여 특정한 이유 제공
KR20230158615A (ko) 자동화된 어시스턴트를 위한 소프트 엔드포인팅을 사용한 자연스러운 대화 활성화

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination