CN112867985A - 确定在中断第二会话的中止后是否自动恢复第一自动助理会话 - Google Patents

确定在中断第二会话的中止后是否自动恢复第一自动助理会话 Download PDF

Info

Publication number
CN112867985A
CN112867985A CN201980037325.8A CN201980037325A CN112867985A CN 112867985 A CN112867985 A CN 112867985A CN 201980037325 A CN201980037325 A CN 201980037325A CN 112867985 A CN112867985 A CN 112867985A
Authority
CN
China
Prior art keywords
session
content
client device
user
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980037325.8A
Other languages
English (en)
Inventor
安德烈亚·特维斯查·范舍尔廷加
尼科洛·德尔科莱
扎希德·撒布尔
徐碧波
梅根·奈特
阿尔文·阿布达吉科
扬·拉梅基
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN112867985A publication Critical patent/CN112867985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

确定在中断并取代了先前的第一自动助理会话的第二自动助理会话的中止后是否执行以下操作:(1)自动恢复所述先前的第一自动助理会话,或(2)转变成所述先前的第一会话不被自动恢复的替代自动助理状态。实施方式还涉及基于所述确定和在所述第二自动助理会话的中止后,选择性地使被中断的所述先前的第一自动助理会话自动恢复或转变成所述第一会话不被自动恢复的所述状态。

Description

确定在中断第二会话的中止后是否自动恢复第一自动助理 会话
背景技术
人类可以使用在此称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“谈话代理”等)的交互式软件应用参与人机对话。例如,人类-当他们与自动助理交互时他们可以称为“用户”-可以使用自由形式的自然语言输入来提供命令、查询和/或请求。自由形式的自然语言输入可以包括使用自动语音识别转换为文本的有声话语和/或键入的自由形式的自然语言输入。
为用户提供与自动助理进行有声地接洽的能力的独立语音响应扬声器变得越来越普遍。除了可能包括静音按钮、用于调整音量的触敏接口等之外,这些设备通常只能包括对(多个)麦克风补充的很少的硬件输入机构。这些扬声器的目标是允许用户轻松地与自动助理进行有声地接洽,而无需用户与某些用户界面元素(诸如键盘或鼠标)进行物理交互以执行各种任务。
传统的独立语音响应扬声器通常缺少完整的显示器。这些传统的独立语音响应扬声器最多趋向于包括相对简单的视觉输出机构,诸如发光二极管等,这些相对简单的视觉输出机构能够利用基本的颜色和/或动画来传达简单的消息。下一代的独立语音响应扬声器可以包括更稳健的视觉输出机构,诸如显示器或甚至触摸屏显示器。与独立的语音响应扬声器相反,这些设备在本文中将被称为“独立的多模态助理设备”。与传统的独立交互式扬声器的情况一样,独立的多模态助理设备可以被设计成与键盘、鼠标或其他复杂的物理输入组件有声地交互,并且通常将不包括键盘、鼠标或其他复杂的物理输入组件。然而,独立的多模态助理设备通常将包括用于有声交互的(多个)麦克风和用于经由经由触摸屏接收到的各种触摸输入进行交互的触摸屏。
发明内容
通过独立多模态助理设备,与这些设备进行接洽的用户通常可以使用触摸输入或口头话语来与设备进行交互。此外,当用户相对靠近设备(例如,在几英尺附近或在几英尺内)、相对远离设备(例如,超过十英尺远)时或甚至在他们绕环境移动时,用户可以与设备进行接洽。例如,用户可以与多模态助理设备进行接洽以在执行多步骤任务(诸如安装和配置新智能恒温器)中寻求辅助。在执行任务期间,用户可以经由触摸输入和/或口头输入与多模态助理设备进行交互,以使多模态助理设备在听觉上和/或在图形上渲染各种步骤和/或与安装和配置新智能恒温器有关的其他指导。当提供这种输入时和/或当查明由多模态助理设备渲染的内容时,用户可以在整个环境中移动。因此,用户相对于设备的显示器的视点可能改变,从而影响用户观看经由显示器渲染的内容的能力。此外,用户的改变位置可能影响他/她听到经由多模态设备的(多个)扬声器在听觉上渲染的任何内容的能力。
鉴于这些和其他考虑,本文中所公开的实施方式在与用户的活动会话期间仅渲染与该活动会话相关的内容。例如,响应于“walk me through installing smartthermostat X(指导我安装智能恒温器X)”的口头话语,独立多模态助理设备的显示器和该设备的(多个)扬声器可以排他地渲染与安装且配置“智能恒温器X”有关的内容。换句话说,任何先前渲染的内容可以被活动会话的内容完全取代。例如,假设响应于“today’sweather forecast(今天的天气预报)”的先前口头话语,在先前的会话中在显示器上渲染了每日天气预报。可以响应于“walk me through installing smart thermostat X”的口头话语在新活动会话中通过与“智能恒温器X”安装有关的视觉内容来取代天气预报的显示。以这些和其他方式,针对活动会话的内容的渲染可以利用多模态助理设备的显示器和/或(多个)扬声器的全部范围,而无需“分割”显示器来呈现来自两个会话的内容,而没有同时渲染来自两个不同会话的音频(例如,其中一个会话处于“较低”音量)。除了通过防止来自两个会话的内容的同时渲染来节省资源之外,这种情况还可以使得用户能够更容易且更快速地查明活动会话中的内容,从而有可能缩短活动会话的持续时间。
虽然仅渲染与活动会话相关的内容提供了各种优点,但是当活动会话在先前的会话被完成之前中断先前的会话时,也可能带来问题。例如,在中断了先前的会话的活动会话的中止后,关于被中断的先前会话是否应该执行以下操作可能是不清楚的:自动恢复(例如,在活动会话的中止后恢复,并且不需要进一步的用户界面输入);不自动恢复,但建议恢复(例如,所显示的接口元素可以被触摸以恢复先前的会话);既不自动恢复也不建议恢复,但响应于明确的用户请求而可恢复(例如,“resume prior session(恢复先前的会话)”的口头话语);或不自动恢复并完全终止(例如,从存储器中清除数据以恢复先前的会话,在其中断状态下,在没有延长的用户交互以重新创建先前的会话的状态的情况下是不可能的)。
排他性地完全终止先前的会话的技术可能直接导致计算机和网络资源的浪费。例如,假设先前的会话处于由多个人类-自动助理对话话轮(turn)而导致的状态,并且用户希望在中断会话的中止之后返回到先前的会话。通过排他性地完全终止先前的会话的技术,在不再次执行资源密集的多个人类-自动助理对话话轮来重新创建先前的会话的状态的情况下,无法恢复先前的会话。排他性地始终转向先前的会话的技术也可能直接导致计算机和网络资源的浪费。例如,在用户不希望在中断会话的中止之后返回到先前的会话的情况下,再次渲染来自先前的会话的内容和/或将其状态存储在存储器中可能不必要地消耗各种资源。
通常,在确保有效管理多个重叠会话和为此提供的资源的助理设备中存在挑战。特别地,在由助理呈现的接口的一个或多个方面被实施为音频(例如,经由口头话语)的情况下,在包括线性呈现方面的环境中呈现并行会话信息存在挑战。虽然多模态助理设备(诸如包括显示器的多模态助理设备)可以为被传达的附加接口信息提供机会,但是这些多模态助理设备也为包括多个会话的交互提供了更大的机会。在助理环境中管理应用于重叠任务的资源的使用存在不适合先前在替代接口中使用的解决方案的挑战。
鉴于这些和其他考虑,本文中所公开的实施方式涉及确定在中断并取代先前的第一自动助理会话的第二自动助理会话的中止后是否执行以下操作:(1)自动恢复先前的第一会话,或(2)转变成先前的第一会话不被自动恢复的替代状态。在一些实施方式中,当确定转变成先前的第一会话不被自动恢复的替代状态时,替代状态可以是先前的会话不被自动恢复且完全终止的替代状态;先前的会话不被自动恢复但是建议经由用户界面输出(例如,经由图形元素的渲染)恢复的替代状态;或先前的会话既不被自动恢复也被建议恢复但可以响应于明确的用户请求而恢复的替代状态。当确定转变成第一会话不被自动恢复的替代状态时,这些实施方式中的一些可以始终转变成相同的替代状态。其他实施方式可以在确定转变成第一会话不被自动恢复的替代状态时从那些替代状态中的一个或多个中进行选择。
本文中所描述的实施方式还涉及在第二会话的中止后,选择性地使被中断的先前的第一会话自动恢复或转变成第一会话不被自动恢复的状态。这些实施方式基于以下确定而选择地使这两个动作中的一个动作发生:是(1)自动恢复先前的第一会话,还是(2)转变成先前的第一会话不被自动恢复的替代状态。如本文中所详细描述,可以利用各种技术来进行这种确定,诸如考虑先前的第一会话和/或中断的第二会话的一个或多个特性的技术。进行这种确定并且选择性地使两个动作中的仅一个动作的执行可以直接产生各种优点。特别地,通过提供替代方法来管理会话之间的转变,可以实现资源的改进分派。例如,先前的第一会话的选择性自动恢复可以减少(例如减少至零)用户为恢复先前的第一会话而必须进行的输入数量,同时仅选择性地并且基于(多个)各种考虑被执行,以降低不期望时自动恢复的风险。此外,例如,选择性地转变成先前的第一会话不被自动恢复的状态可以防止来自第一会话的内容的自动渲染和/或可以使得助理设备更快速地转变成低功率状态,同时仅选择性地并且基于(多个)各种考虑被执行,以降低不希望时非自动恢复的风险。此外,两个动作中的一个动作的选择性执行提供了改进的交互协议,该改进的交互协议在各种任务(诸如控制智能设备、配置智能设备、安装智能设备等)的执行中促进了人类-自动助理交互。
在一些实施方式中,在中断并取代先前的第一会话的第二会话的中止后确定是否执行以下操作是至少部分地基于先前的第一会话的一个或多个特性和/或第二会话的一个或多个特性:(1)自动恢复先前的第一会话,或(2)转变成先前的第一会话不被自动恢复的替代状态。在那些实施方式中的一些中,第一会话的所利用的特性可以包括被分配给第一内容的分类和/或第二会话的所利用的特性可以包括被分配给第二内容的分类。分类可以指示例如对应内容是瞬时的还是持久的。以该方式,可以认识到,具有不同分类的会话在被包括在多会话环境中时可以被不同地处置,由此将资源适当地分派给它们所需要或期望的内容。
持久内容可以包括例如通过多个对话话轮被渲染的内容和/或在对话话轮期间取决于用户界面输入而被动态渲染的内容。例如,在指导用户安装和配置智能设备时所渲染的内容可以是持久的,因为该内容通过多个对话话轮被渲染,和/或因为该内容以动态方式被渲染(例如,如果用户在对话话轮中选择布线选项A,则将提供另一内容A,而如果用户替代地在对话话轮中选择布线选项B,则将提供另一内容B)。持久内容可以附加地或替代地包括例如其整个渲染至少花费阈值持续时间的内容和/或属于某种类型的内容。例如,许多(或全部)视频可以被分类为持久的,诸如音乐视频,其至少包括在视觉上和在听觉上渲染的内容的阈值持续时间。相反,瞬时内容可以包括静态的和/或仅在单个对话话轮中被渲染的内容,诸如可听和/或视觉天气预报、术语的定义、问题的答案。在一些实施方式中,内容可以至少部分地基于内容的来源而被分类为持久的或瞬时的。例如,来自提供视频内容的代理的内容可以全部被分类为持久的,而来自提供天气信息的代理的内容可以被分类为瞬时的。在一些实施方式中,内容可以至少部分地基于以口头话语或内容对其做出响应的通知为基础所确定的意图而被分类为持久的或瞬时的。例如,如本文中所描述,口头话语可以被处理以得出意图,且/或通知可以与对应意图相关联,并且一些意图可以与持久内容相关联,而其他意图可以与瞬时内容相关联。可以提供用于将内容分类为瞬时或持久的附加和/或替代技术。
在一些实施方式中,确定自动恢复先前的第一会话可以基于先前的第一会话的内容被分类为持久的并且第二会话的内容被分类为瞬时的。在一些附加或替代的实施方式中,确定转变成先前的第一会话不被自动恢复的替代状态可以基于先前的第一会话的内容被分类为瞬时的。在那些实施方式中的一些中,替代状态是先前的第一会话不被自动恢复并且被完全终止的状态。在一些附加或替代的实施方式中,确定转变成先前的第一会话不被自动恢复的替代状态可以基于先前的第一会话的内容被分类为持久的且第二会话的内容也被分类为持久的。在那些实施方式的一些版本中,替代状态是先前的第一会话不被自动恢复但是建议经由用户界面输出(例如,经由在“主”屏幕上渲染图形元素,本文中更详细地描述)的状态。在那些实施方式的一些其他版本中,替代状态是先前的会话既不被自动恢复也不被建议恢复而是响应于明确的用户请求而可恢复的状态。在一些附加或替代的实施方式中,确定自动恢复先前的第一会话可以基于先前的第一会话的内容被分类为持久的、第二会话的内容被分类为持久的以及先前的第一会话的内容实现实体并且第二会话的实体内容之间存在所定义的关系的另一确定。
在本文中所描述的各种实施方式中,在渲染第一会话的第一内容期间接收到中断数据,并且响应于接收到中断数据,在第二会话期间渲染了替代内容。在那些实施方式中的一些中,中断数据是用户的口头输入,并且基于口头输入包括对替代内容的请求并且替代内容不同于第一会话的第一内容被确定为中断数据。例如,第一会话的第一内容可以与配置智能设备有关,口头输入可以是“how do you make a mint julep(你如何制作薄荷朱利酒)”,并且可以基于包括对与第一会话的智能设备配置内容无关的内容(与制作薄荷朱利酒有关的指南)的请求而被确定为中断数据。相反,如果在第一会话期间被显示的第一内容是与配置智能设备有关的多个步骤中的一个步骤,并且口头输入是“下一”步骤,则口头输入将不被确定为不是中断数据,而是替代地被确定为对渲染第一内容的下一部分的请求。
在一些附加或替代实施方式中,中断数据可以是用户界面输入,该用户界面输入指示与在第一会话期间接收到并且在第一会话期间渲染第一内容期间在视觉上和/或在听觉上被渲染的通知进行交互的期望。例如,通知可以是传入音频和/或视觉呼叫,并且交互式图形界面元素可以被覆盖在第一会话的视觉上渲染的内容之上。通知图形界面元素的肯定选择可以是中断数据,并且在第二会话期间渲染的替代内容可以是音频和/或视觉呼叫。肯定选择可以是例如特定的积极的触摸选择(例如向右滑动或双击)或积极的有声话语(例如“OK(好的)”、“accept the notification(接受通知)”)。相反,图形界面元素的否定选择(例如特定的否定触摸选择,诸如向下滑动)可以在不中断第一会话的情况下使通知被取消。如本文中所使用,中断数据引用了指示使替代内容被渲染为替代会话的一部分的期望的数据,并且可以与仅试图使当前中止进行中止的用户界面输入(例如口头命令“停止”或“暂停”、交互式“X”触摸或其他中止图形元素)。
在各种实施方式中,当接收到中断数据时,被中断的第一会话的第一会话数据可以被存储并用于在第一会话的状态下自动恢复第一会话。在那些实施方式中的一些中,可选地仅响应于确定恢复第一会话而持久保存第一会话数据。可以以各种方式存储第一会话数据。在一些实施方式中,第一会话的人机对话的整个笔录可以被保留,以使得例如可以例如匆忙地和/或视需要通过检测保留的抄本中的意图、槽值、实体等来重建或恢复第一会话的状态。附加地或替代地,在一些实施方式中,仅状态的核心元素(诸如(多个)检测到的意图、槽值、所提及的实体等)可以以各种格式被保留,诸如JavaScript对象表示法(“JSON”)或其他类似格式。第一会话数据可以被保留在各个位所处。在一些实施方式中,第一会话数据可以被保存在由用户操作的计算设备本地的存储器中,以与自动助理进行接洽。这种情况可以产生各种技术益处,诸如降低第一会话的恢复的等待时间。附加地或替代地,在一些实施方式中,第一会话数据可以从用户的计算设备远程地保存在例如与通常被称为“基于云的服务”的一个或多个计算系统共同地操作的一个或多个计算系统的存储器中。
上文描述仅作为本文中所描述的各种实施方式的概述被提供。本文中提供了那些各种实施方式以及附加实施方式的附加描述。
在一些实施方式中,由一个或多个处理器执行的方法被提供并且包括接收指示经由客户端设备的用户界面输入组件检测到的用户输入的用户输入数据。方法还包括基于用户输入数据标识响应于用户输入的第一内容。方法还包括响应于接收到用户输入数据,使客户端设备在第一会话期间渲染第一内容的至少一部分。方法还包括在第一会话期间由客户端设备渲染第一内容期间接收到中断数据。响应于在第一会话期间渲染第一内容期间检测到的用户的另一用户界面输入,接收到中断数据。方法还包括响应于接收到中断数据,使客户端设备在至少临时替换第一会话的第二会话期间渲染替代内容。替代内容不同于第一内容,并且使客户端设备在第二会话期间渲染替代内容包括使客户端设备渲染替代内容代替第一内容。方法还包括确定在第二会话的中止后是否执行以下操作:使客户端设备自动恢复第一会话,或使客户端设备转变成客户端设备不自动恢复第一会话的替代状态。确定至少基于第一会话的一个或多个特性。方法还包括在第二会话的中止后且取决于确定,选择地使客户端设备自动恢复第一会话或转变成第一会话不被自动恢复的替代状态。
本文中所描述的技术的这些和其他实施方式可以包括以下特征中的一个或多个。
在一些实施方式中,用户输入数据包括指示经由客户端设备的一个或多个麦克风检测到的用户的口头话语的口头话语数据。
在一些实施方式中,确定所基于的第一会话的至少一个特性包括被分配给第一内容的分类。在那些实施方式的一些版本中,被分配给第一内容的分类指示第一内容是瞬时的还是持久的。在那些版本中的一些中,确定包括基于被分配给内容的分类指示第一内容是瞬时的来确定使客户端设备转变成该客户端设备不自动恢复第一会话的替代状态。
在一些实施方式中,确定所基于的第一会话的至少一个特性指示第一内容是瞬时的还是持久的,并且确定还基于第二会话的一个或多个特性。在那些实施方式中的一些中,第二会话的至少一个特性指示替代内容是瞬时的还是持久的。在那些实施方式中的一些版本中,确定包括基于被分配给第一内容的分类指示第一内容是持久的以及第二会话的至少一个特性指示替代内容是瞬时的来确定使客户端设备自动恢复第一会话。在那些实施方式中的一些其他版本中,确定包括基于被分配给第一内容的分类指示内容是持久的以及第二会话的至少一个特性指示替代内容是持久的来确定使客户端设备转变成该客户端设备不自动恢复第一会话的替代状态。
在一些实施方式中,另一用户界面输入是用户的另一口头话语。在那些实施方式中的一些中,方法还包括基于另一口头输入包括对替代内容的请求且替代内容不同于第一会话的第一内容,确定另一口头输入是中断数据。
在一些实施方式中,确定所基于的第一会话的至少一个特性包括由第一内容实现的实体,并且确定包括基于确定替代内容与由第一内容实现的实体之间的关系来确定使客户端设备自动恢复第一会话。
在一些实施方式中,方法还包括:在由客户端设备在第一会话期间渲染第一内容期间,接收要在客户端设备处渲染的通知;以及响应于接收到通知,使客户端设备渲染通知。在那些实施方式中的一些中,另一用户界面输入是响应于客户端设备渲染通知而被提供的用户的肯定触摸或口头输入,用户的肯定输入指示用户与通知进行交互的期望,并且替代内容是基于通知。
在一些实施方式中,方法还包括存储针对第一会话的第一会话状态数据,该第一会话状态数据指示当接收到中断数据时第一会话的状态。在那些实施方式中,使客户端设备自动恢复第一会话包括使用第一会话状态数据以当接收到中断数据时第一会话的状态恢复第一会话。
在一些实施方式中,确定包括确定使客户端设备转变成客户端设备不自动恢复第一会话的状态。在那些实施方式中的一些中,方法还包括作为响应,从客户端设备或与客户端设备进行网络通信的远程服务器的存储器中为第一会话清除会话数据。
在一些实施方式中,客户端设备包括显示器和至少一个扬声器,并且呈现内容包括经由显示器和至少一个扬声器渲染内容。
在一些实施方式中,客户端设备不自动恢复第一会话的替代状态包括主屏幕或环境屏幕的显示。在那些实施方式的一些版本中,主屏幕或环境屏幕的显示缺少对第一会话的任何引用。在那些实施方式的一些其他版本中,主屏幕或环境屏幕的显示包括可选图形界面元素,该图形界面元素可以被选择来恢复第一会话。
另外,一些实施方式包括一个或多个计算设备的一个或多个处理器,其中一个或多个处理器可操作以执行存储在相关联的存储器中的指令,并且其中所述指令被配置成使执行前述任何方法中的一种。一些实施方式还包括一个或多个非暂时性计算机可读存储介质,其存储可由一个或多个处理器执行以执行任何前述方法的计算机指令。
附图说明
图1是其中可以实现本文公开的实施方式的示例环境的框图。
图2描绘可以根据各种实施方式来实现的示例状态机。
图3描绘图示根据本文公开的实施方式的示例方法的流程图。
图4图示在第一会话期间渲染第一内容,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容,并且在第二会话的中止时自动地恢复第一会话的示例。
图5图示在第一会话期间渲染第一内容,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容,并且在第二会话的中止时转变到其中第一会话被建议恢复但不会自动恢复的替代状态的示例。
图6图示在第一会话期间渲染第一内容,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容,并且在第二会话的中止时自动地恢复第一会话的另一示例。
图7示出在第一会话期间渲染第一内容,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容,并且在第二会话的中止时转变到其中第一会话不会自动恢复并且不建议恢复的替代状态的示例。
图8图示在第一会话期间渲染第一内容,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容,并且在第二会话的中止时恢复第一会话的另一示例。
图9是示例计算设备的框图。
具体实施方式
现在转到图1,图示其中可以实现本文公开的技术的示例环境。示例环境包括多个客户端计算设备1061-N。每个客户端设备106可以执行自动助理客户端118的相应实例。可以在一个或多个计算系统(统称为“云”计算系统)上实现一个或多个基于云的自动助理组件119,诸如自然语言理解引擎135,所述一个或多个计算系统经由通常在110处指示的一个或多个局域网和/或广域网(例如,因特网)通信地耦合到客户端设备1061-N
在一些实施方式中,自动助理客户端118的实例通过其与一个或多个基于云的自动助理组件119的交互可以形成从用户的角度看似乎是自动化助理120的逻辑实例,用户可以参与与该自动化助理120的逻辑实例的人机对话。在图1中描绘这种自动助理120的两个实例。虚线环绕的第一自动助理120A为操作第一客户端设备1061的第一用户(未描绘)服务,并且包括自动助理客户端1181和一个或多个基于云的自动助理组件119。双点划线环绕的第二自动助理120B为操作另一个客户端设备106N的第二用户(未描绘)提供服务,并包括自动助理客户端118N和一个或多个基于云的自动助理组件119。
因此,应当理解,与在客户端设备106上执行的自动助理客户端118接洽的每个用户实际上可以与他或她自己的自动助理120的逻辑实例接洽。为了简短和简单起见,本文中用作“服务”特定用户的术语“自动助理”将指代在由用户操作的客户端设备106上执行的自动助理客户端118和一个或多个基于云的自动助理组件119(可以在多个自动助理客户端118之间共享)的组合。还应该理解,在一些实施方式中,自动助理120可以响应来自任何用户的请求,而不管该自动助理120的特定实例是否实际上“服务”该用户。
客户端设备1061-N可以包括例如下述中的一个或多个:台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如,车载通信系统、车载娱乐系统、车载导航系统)、独立的交互式扬声器、诸如智能电视的智能电器和/或用户的可穿戴设备,该可穿戴设备包括计算设备(例如,具有计算设备的用户的手表、具有计算设备的用户的眼镜、虚拟或增强现实计算设备)。可以提供附加的和/或替代的客户端计算设备。
为了本公开的目的,在图1中,第一客户端设备1061采用具有扬声器1091和显示器1111的独立多模态辅助设备的形式,并且可能缺少复杂的硬件输入组件(在一些实施方式中,除了是触摸屏的显示器111之外),诸如键盘或鼠标。尽管本文所述的技术将在使用诸如1061的独立多模态辅助设备执行的上下文中进行描述,但这并不意味着限制。本文描述的技术可以在具有其他形状因子(但是仍然缺少标准键盘和鼠标)的客户端设备上实现,诸如旨在主要经由有声交互和/或触摸交互来与其交互的车辆计算设备。第二客户端设备106N是独立语音响应扬声器,其包括扬声器109N,自动助理120A可以通过扬声器109N提供自然语言输出。可以经由第二客户端设备106N与经由第二客户端设备106N渲染的会话的音频内容相关联地附加地或替代地实现本文描述的技术。
如本文中更详细地描述,自动助理120经由一个或多个客户端设备1061-N的用户界面输入和输出设备参与与一个或多个用户的人机对话会话。在独立多模态辅助设备(诸如客户端设备1061)的情况下,这些输入设备可能仅限于麦克风(未描述)和显示器111(在显示器111为触摸屏的实施方式中)以及可选的其他传感器(例如,PIR、相机),其可用于例如检测附近人员的存在。在一些实施方式中,响应于用户经由客户端设备1061-N之一的一个或多个用户界面输入设备提供的用户界面输入,自动助理120可以参与与用户的人机对话会话。在那些实施方式中的一些中,用户界面输入被明确地指向到自动助理120。例如,特定用户界面输入可以是用户与硬件按钮和/或虚拟按钮的交互(例如,轻击、长按)、口头命令(例如,“Hey Automated Assistant(嘿自动助理)”)和/或其他特定用户界面输入。
在一些实施方式中,即使当用户界面输入没有明确地指向自动助理120时,自动助理120也可以响应于用户界面输入而参与人机对话会话。例如,自动助理120可以检查用户界面输入的内容并响应于用户界面输入中存在的某些术语和/或基于其他提示而参与对话会话。在许多实施方式中,用户可以发出命令,进行搜索等,并且自动助理120可以利用语音识别以将话语转换为文本,并且例如通过提供搜索结果、一般信息和/或采取一项或多项响应动作(例如,播放媒体、启动游戏、订购食物等)相应地对文本做出响应。在一些实施方式中,自动助理120可以附加地或替代地对话语做出响应而无需将话语转换为文本。例如,自动助理120可以将语音输入转换为嵌入,转换成实体表示(指示语音输入中存在的一个/多个实体)和/或其他“非文本”表示,并对这样的非文本表示进行操作。因此,本文描述为基于从语音输入转换的文本进行操作的实施方式可以附加地和/或替代地直接对语音输入和/或语音输入的其他非文本表示进行操作。
客户端计算设备1061-N和运行基于云的自动助理组件119的一个或多个计算设备中的每一个可以包括用于存储数据和软件应用的一个或多个存储器、用于访问数据并执行应用的一个或多个处理器以及有助于通过网络进行通信的其他组件。由一个或多个客户端计算设备1061-N和/或由自动助理120执行的操作可以分布在多个计算机系统上。自动助理120可以被实现为例如在通过网络彼此耦合的一个或多个位置中的一台或多台计算机上运行的计算机程序。
如上所述,在各种实施方式中,客户端计算设备1061-N中的每一个可以操作自动助理客户端118。在各个实施例中,每个自动助理客户端118可以包括对应的语音捕获/文本到语音(“TTS”)/语音到文本(“STT”)模块114。在其他实施方式中,语音捕获/TTS/STT模块114的一个或多个方面可以与自动助理客户端118分离而实施。每个语音捕获/TTS/STT模块114可以被配置成执行一个或多个功能:例如,经由麦克风捕获用户的语音(语音捕获);将捕获的音频转换为文本和/或其他表示或嵌入(STT);和/或将文本转换为语音(TTS)。例如,在一些实施方式中,因为客户端设备106可能在计算资源(例如,处理器周期、内存、电池等)方面受到相对约束,所以对于每个客户端设备106而言本地的STT模块114可以被配置成将有限数量的不同口语短语转换为文本(或其他形式,诸如较低维度的嵌入)。其他语音输入可以被发送到基于云的自动助理组件119,其可以包括基于云的STT模块117。
基于云的STT模块117可以被配置成利用云的实际上无限的资源来将由语音捕获/TTS/STT模块114捕获的音频数据转换为文本(然后可以将其提供给自然语言处理器122)。基于云的TTS模块116可以被配置成利用云的实际上无限的资源来将文本数据(例如,由自动助理120制定的自然语言响应)转换为计算机生成的语音输出。在一些实施方式中,TTS模块116可以将计算机生成的语音输出提供给客户端设备106以,例如使用一个或多个扬声器来直接输出。在其他实施方式中,可以将由自动助理120生成的文本数据(例如,自然语言响应)提供给语音捕获/TTS/STT模块114,其随后可以将文本数据转换为本地输出的计算机生成的语音。
自动助理120(并且特别地,基于云的自动助理组件119)可以包括自然语言理解引擎135、前述的TTS模块116、前述的STT模块117以及下面将更详细描述的其他组件。在一些实施方式中,可以在与自动助理120分离的组件中省略、组合和/或实现自动助理120的一个或多个引擎和/或模块。在一些实施方式中,诸如自然语言理解引擎135、语音捕获/TTS/STT模块114等的自动助理120的一个或多个组件中可以至少部分地在客户端设备106上实现(例如,排除在云之外)。
在一些实施方式中,自动助理120响应于客户端设备1061-N之一的用户在与自动助理120的人机对话会话期间生成的各种输入来生成响应内容。自动助理120可以(例如,在与用户的客户端设备分离时通过一个或多个网络)提供响应内容,用于作为对话会话的一部分呈现给用户。例如,自动助理120可以响应于经由客户端设备1061-N之一提供的自由形式的自然语言输入来生成响应内容。如本文所使用的,自由形式的自然语言输入是由用户制定的并且不受到呈现以供用户选择的一组选项约束的输入。
自然语言理解引擎135的自然语言处理器122处理用户经由客户端设备1061-N生成的自然语言输入,并可以生成注释输出(例如,以文本形式)以供自动助理120的一个或多个其他组件使用。例如,自然语言处理器122可以处理由用户经由客户端设备1061的一个或多个用户界面输入设备生成的自然语言自由形式输入。所生成的注释输出包括自然语言输入的一个或多个注释以及可选地包括自然语言输入的一个或多个(例如,全部)术语。
在一些实施方式中,自然语言处理器122被配置成标识和注释自然语言输入中的各种类型的语法信息。例如,自然语言处理器122可以包括形态引擎,该形态引擎可以将单个单词分离为词素和/或例如用词素的类别注释这些词素。自然语言处理器122还可以包括词性标注器,该词性标注器被配置成用术语的语法角色来注释该术语。此外,例如,在一些实施方式中,自然语言处理器122可以附加地和/或可替换地包括可以被配置成确定自然语言输入中的术语之间的句法关系的依赖性解析器。
在一些实施方式中,自然语言处理器122可以附加地和/或可替代地包括实体标注器,该实体标注器被配置成在一个或多个片段中注释实体引用,诸如对人们(包括例如文学人物、名人、公众人物等)、组织、位置(真实的和虚构的)等等的引用。在一些实施方式中,关于实体的数据可以存储在一个或多个数据库中,诸如知识图(未描绘)中。在一些实施方式中,知识图可以包括代表已知实体的节点(并且在一些情况下,实体属性)以及连接节点并代表实体之间的关系的边缘。例如,“香蕉”节点可以(例如,作为子节点)被连接到“水果”节点,其继而可以被(例如,作为子节点)连接到“产品”和/或“食物”节点。作为另一个示例,称为“Hypothetical Cafe”的餐厅可以由节点表示,该节点还包括诸如其地址、所供应食物的类型、营业时间、联系信息等属性。通过边缘(例如,代表子节点与父节点的关系)连接到一个或多个其他节点,诸如“餐厅”节点、“企业”节点、代表餐厅所在城市和/或其中餐厅位于的州的节点等等。
自然语言处理器122的实体标注器可以以较高级别的粒度(例如,以使能够标识对诸如人们的实体类别的所有引用)和/或较低级别的粒度(例如,以使能够标识对诸如特定人员的特定实体的所有引用)注释对实体的引用。实体标注器可以依赖于自然语言输入的内容来解析特定实体和/或可以可选地与知识图或其他实体数据库进行通信以解析特定实体。
在一些实施方式中,自然语言处理器122可以附加地和/或可替代地包括被配置成基于一个或多个场境提示来对同一实体的引用进行分组或“聚类”的共指解析器(未描绘)。例如,可以利用共指解析器以将术语“there(那里)”解析为自然语言输入“I likedHypothetical Cafe last time we ate there(我喜欢我们上次在那里用餐的Hypothetical Cafe)”中的“Hypothetical Cafe”。
在一些实施方式中,自然语言处理器122的一个或多个组件可以依赖于自然语言处理器122的一个或多个其他组件的注释。例如,在一些实施方式中,在注释对特定实体的所有提及时,命名的实体标注器可以依赖于来自于共指解析器和/或依赖性解析器的注释。例如,在一些实施方式中,在聚类对同一实体的引用时,共指解析器可能依赖于来自依赖性解析器的注释。在一些实施方式中,在处理特定自然语言输入时,自然语言处理器122的一个或多个组件可以使用相关的先前输入和/或特定自然语言输入之外的其他相关数据来确定一个或多个注释。
自然语言理解引擎135还可以包括意图匹配器136,该意图匹配器136被配置成基于自然语言处理器122的注释输出来确定参与与自动助理120的人机对话会话的用户的意图。尽管在图1中与自然语言处理器122分离地描绘,但是在其他实施方式中,意图匹配器136可以是自然语言处理器122(或更一般而言,包括自然语言处理器122的管道)的组成部分。在一些实施方式中,自然语言处理器122和意图匹配器136可以共同形成前述“自然语言理解”引擎135。
意图匹配器136可以使用各种技术来确定用户的意图。在一些实施方式中,意图匹配器136可以具有对一个或多个数据库137的访问,所述一个或多个数据库137包括例如语法和响应动作(或更一般地,意图)之间的多个映射。附加地或可替代地,在一些实施方式中,一个或多个数据库137可以存储一个或多个机器学习模型,其被训练以基于用户的输入来生成指示用户意图的输出。
可以选择、定制(例如,用手)和/或随着时间的流逝学习语法,例如,以表示用户的最普通意图。例如,一种语法“播放<艺术家>”可以被映射到意图,该意图调用响应动作,该响应动作使得<艺术家>的音乐在用户操作的客户端设备106上播放。另一个语法“[weather|forcast]today([天气|预报]今天)”可以与用户查询(诸如“what’s the weather today(今天的天气如何)”和“what’s the forecast for today(今天的预报是什么)?”)匹配。如在“播放<艺术家>”示例语法中看到的,一些语法具有可以用插槽值(或“参数”)填满的插槽(例如,<艺术家>)。插槽值可以以各种方式确定。用户通常会主动地提供插槽值。例如,对于语法“Order me a<topping>pizza(为我订购<topping>披萨)”,用户可能会讲出“order mea sausage pizza(为我订购香肠披萨)”短语,在这种情况下,自动填满插槽<topping>。另外地或可替代地,如果用户调用包括要用插槽值填满的插槽的语法,而无需用户主动地提供插槽值,则自动助理120可以向用户征求这些插槽值(例如,“what type of crust doyou want on your pizza?(您的披萨使用哪种类型的披萨?)”)。
与(可以手动创建的)许多语法相反,可以例如使用用户和自动助理之间的交互日志来自动训练机器学习模型。机器学习模型可以采用诸如神经网络的各种形式。可以以各种方式对它们进行训练,以根据用户输入预测用户意图。例如,在一些实施方式中,可以提供包括个别训练示例的训练数据。每个训练示例可以包括例如来自用户的自由形式输入(例如,以文本或非文本形式),并且可以通过意图(例如,用手)标记。可以在机器学习模型(例如,神经网络)上将训练示例应用作为输入以生成输出。可以将输出与标签进行比较以确定误差。例如,该误差可以用于使用诸如梯度下降(例如,随机、批量等)和/或反向传播的技术来训练模型,以调整与模型的隐藏层相关联的权重。一旦通过(通常是非常大的)大量的训练示例对这种模型进行训练,就可以将其用于根据未标记的自由形式的自然语言输入生成预测意图的输出。
在一些实施方式中,自动助理120可以促进(或“协商”)用户与诸如第三方应用的应用(也被称为代理)之间的交易。这些应用可能会或可能不会在与操作例如基于云的自动助理组件119的那些计算系统分离的计算机系统上运行。因此,意图匹配器136可以标识的一种用户意图要参与诸如第三方应用的应用。例如,自动助理120可以向披萨递送服务提供对应用编程接口(“API”)的访问。用户可以调用自动助理120并提供诸如“I’d like toorder a pizza(我想订购比萨)”的命令。意图匹配器136可以将该命令映射到语法(在一些情况下可以由第三方添加到数据库137),该语法触发自动助理120与第三方披萨递送服务接洽。第三方披萨递送服务可以向自动助理120提供需要填满的最小数量的插槽列表,以便于履行披萨递送订单。自动助理120可以生成向插槽征求参数的自然语言输出并(经由客户端设备106)将其提供给用户。
履行引擎124可以被配置成接收意图匹配器136输出的意图以及任何相关联的插槽值(是由用户主动地提供还是从用户那里征求)并履行该意图。在各个实施例中,用户意图的履行可以导致例如由履行引擎124生成/获得各种履行信息。如下面将会描述的,在一些实施方式中,可以将履行信息提供给自然语言生成器126,其可以基于履行信息来生成自然语言输出。
因为可以以多种方式履行意图,所以履行信息可以采取各种形式。假设用户请求纯粹信息,诸如“Where were the outdoor shots of'The Shining'filmed?(“TheShining”的外景拍摄在哪里拍摄?)”。可以例如通过意图匹配器1S6将用户的意图确定为搜索查询。可以将搜索查询的意图和内容提供给履行引擎124,其如图1中所描绘可以与被配置成在文档和/或其他数据源(例如,知识图等)的语料库中搜索响应信息的一个或多个搜索引擎150通信。履行引擎124可以向搜索引擎150提供指示搜索查询的数据(例如,查询的文本、降维嵌入等)。搜索引擎150可以提供响应信息,诸如“Timberline Lodge,Mt.Hood,Oregon(俄勒冈州胡德山的森林界线小屋)”。该响应信息可以形成由履行引擎124生成的履行信息的一部分。
附加地或可替代地,履行引擎124可以被配置成例如从自然语言理解引擎135接收用户的意图和由用户提供或使用其他手段确定的任何插槽值(例如,用户的GPS坐标、用户偏好设置等)并触发响应操作。响应动作可以包括例如订购商品/服务、参与交互式对话以完成任务、启动计时器、设置提醒、发起电话呼叫、播放媒体、发送消息等。在一些这样的实施方式中,履行信息可以包括与履行、确认响应(在一些情况下其可以选自预定响应)等相关联的插槽值。
如上所述,自然语言生成器126可以被配置成基于从各种来源获得的数据来生成和/或选择自然语言输出(例如,被设计为模仿人类语音的口语单词/短语)。在一些实施方式中,自然语言生成器126可以被配置成接收与履行引擎124履行意图相关联的履行信息作为输入,并基于履行信息生成自然语言输出。附加地或可替代地,自然语言生成器126可以从诸如第三方应用的其他来源接收信息(例如,所需的插槽),其可以用于为用户定制自然语言输出。此外,如本文所述,作为输出提供给用户以进行渲染的内容可以包括图形内容,可选地连同相应的可听内容。
会话引擎138可以被配置成标识经由第一客户端设备1061或经由第二客户端设备106N发生的活动自动助理会话。会话引擎138可以仅在活动会话期间仅使与活动会话相关的内容被渲染。此外,会话引擎138可以被配置成响应于在活动第一会话期间接收到中断数据,使相应的客户端设备在至少临时替换第二会话的第二会话期间渲染替代内容。在第二会话期间所渲染的替代内容不同于第一会话的内容,并且使客户端设备渲染替代内容包括使客户端设备渲染替代内容代替第一会话的内容。
会话引擎138可以基于请求提供替代内容代替在第一会话期间被提供的内容的那些实例,确定由用户提供的用户界面输入的一些实例构成中断数据。在做出这种确定时,会话引擎138可以依赖于来自自然语言理解引擎135的输出,诸如指示用户的口头输入和/或其他自然语言输入的输出指示从当前意图到新意图的改变。当接收到作为中断数据的这种口头输入时,会话引擎138可以使响应于新意图并由实现引擎124确定的替代内容取代为第一会话渲染的内容。会话引擎138可以附加地或替代地确定通过在第一会话期间提供的通知,肯定用户交互是中断数据。当接收到这种肯定用户交互时,会话引擎138可以使与通知相对应的替代内容取代为第一会话渲染的内容。
会话引擎138还可以被配置成在第二会话的中止后确定是否执行以下操作:(1)自动恢复先前第一会话,或(2)转变成其中先前第一会话不被自动恢复的替代状态。会话引擎138还被配置成在第二会话的中止后,选择性地使被中断的先前第一会话自动恢复或转变成第一会话不被自动恢复的状态。会话引擎138可以基于以下确定而选择地使这两个动作中的一个动作发生:(1)是自动恢复先前第一会话,还是(2)转变成先前第一会话不被自动恢复的替代状态。如本文中所描述,当会话引擎138确定转变成先前第一会话不被自动恢复的替代状态时,替代状态可以是:先前会话不被自动恢复且完全终止的替代状态;先前会话不被自动恢复但是建议经由用户界面输出恢复的替代状态;或先前会话既不被自动恢复也不被建议恢复但可以响应于明确的用户请求而恢复的替代状态。
会话引擎138还可以被配置成根据本文中所描述的实施方式引起各种状态之间的选择性过渡,诸如本文中所描述的显示器关闭、周围环境、主页和会话状态。例如,会话引擎138可以选择性地从中断会话状态转变成自动恢复先前会话状态,或替代地先前会话状态不被自动恢复的状态。此外,在会话引擎138转变成先前会话状态不被自动恢复的主页状态的实施方式中,会话引擎138可以可选地基于本文中所描述的各种考虑来确定是否适应主页状态(例如,确定是否包括用于恢复先前会话状态的交互式元素)。本文中(例如,在概述中,并且相对于下文图2至图8)描述了会话引擎138的这些和其他方面的附加描述。应注意,尽管会话引擎138在图1中被图示为(多个)基于云的自动助理组件119的一部分,在各种实施方式中,会话引擎138的全部或部分可以由相应的自动助理客户端118实施。
图2描绘了根据各种实施方式可以例如由会话引擎138实施的一个示例状态图。所描绘的状态图包括五个状态,显示器关闭181、环境183、主页185、第一会话187和第二会话189。虽然描绘了五个状态,但是可以提供更少或更多状态例如,如本文中所描述,第二会话189并不总是处于活动状态,而是可以响应于中断数据在内容在第一会话187中被渲染时被接收到而按需创建。此外,例如,附加第三会话状态可以响应于其他中断数据在内容在第二会话189中被渲染时被接收到而由会话引擎138按需创建。当这种第三会话状态被创建时,从第三会话状态的过渡可以以与本文中相对于从第二会话的过渡类似的方式来处理(例如,第二会话189可以被自动恢复,或第二会话189不自动被自动恢复的替代状态)。
显示器关闭181可以是显示器111保持睡眠例如使用少量功率或不使用功率的默认状态。虽然独立多模态助理设备1061保持单独存在,而附近没有人,但是显示器关闭181可以保持当前状态。在一些实施方式中,虽然当前状态是显示器关闭181,但是用户(尚未被检测为存在)仍可以例如通过讲出调用短语后接着特定请求来从自动助理120请求活动,这可以将当前状态直接转变成第一会话187状态。
在一些实施方式中,当在附近检测到一个或多个人(即“占用”)时,当前状态可以被转变成环境183状态。在环境183状态下,自动助理120可以使客户端设备1061的显示器1111渲染可以例如基于其美学外观而被选择的环境内容。例如,可以可选地在令人放松的自然声音的可听渲染的情况下视觉地显示风景或其他类似内容的一个或多个数字图像和/或视频。应注意,尽管在环境183状态下渲染内容,但是环境183状态不被认为是会话,因为该术语在本文中被使用。例如,该环境183状态可能不被认为是会话,因为在环境183状态下渲染的内容不被标识并响应于口头话语或响应于用户对通知的接受而被渲染。在一些实施方式中,如果确定例如在至少预定时间段内居住者不再与独立多模态助理设备共存,则当前状态可以从环境183转变回到显示器关闭181。
如图2中所指示,在一些实施方式中,虽然当前状态是环境183时,但用户仍然可以例如通过讲出调用短语后接着特定请求来从自动助理120请求活动,这可以将当前状态转变成第一会话187状态。在其他实施方式中,可能不存在环境183状态,并且当前状态可以响应于检测到人的共存(占用)而从显示器关闭181直接转变成主页185。
在主页185状态下,可以渲染各种图形元素,诸如用户通过与自动助理进行交互来执行当前时间、当前天气状况、用户日历的简要摘要等的建议动作。在一些实施方式中,数据项可以被显示为可以是交互式的或可以不是交互式的卡片或图块(例如,取决于显示器111是否是触摸屏)。在一些情况下,可以基于各种标准(诸如被(自动或手动)分配给数据项的优先级、共存人员的身份(如果确定)、一天中的时间、一年中的时间等)对数据项进行排名。当数据项例如以堆叠形式被渲染为卡片时,例如,排名可以通过最高优先级的顶部卡片以及具有相对较低优先级的底层卡片被反映。当数据项被呈现为图块时,例如占用显示器111的一部分,则排名可以例如在图块的放置中(例如,左上角或右上角可以是最高优先级)和/或在图块的大小中(例如,图块越大,优先级越高)被反映。如本文中所详细描述,在各种实施方式中,当主页185状态被转变成包括持久内容的会话完成之前,数据项可选地包括可选图形元素,该图形元素可以被选择来恢复会话。应注意,尽管在主页185状态下渲染内容,但是主页185状态不被认为是会话,因为该术语在本文中被使用。例如,该主页185状态可能不被认为是会话,因为在主页185状态下渲染的内容不被标识并响应于口头话语或响应于用户对通知的接受而被渲染。
当处于主页185状态时,如果用户参与表示数据项的图形元素中的一个或多个(例如,通过点击图块或卡片),则当前状态可以转变成第一会话187状态并渲染响应于与用户进行交互的(多个)图形元素的内容。例如,如果图形元素中的一个图形元素是对用户可能感兴趣的音乐视频的建议,则第一会话187状态可以使音乐视频的可听内容和图形内容被渲染。同样,如果用户向自动助理120说出有声请求(例如“OK,Assistant,what is…?(好的,助理,……是什么?)”),则当前状态可以转变成第一会话187状态,并渲染响应于有声请求的内容。在一些实施方式中,如果共存用户在至少预定的时间间隔(即超时)中既不与自动助理120进行有声地接洽也不与在显示器111上所渲染的数据项进行交互,则当前状态可以从主页185转变回到环境183状态,如果不存在环境183状态,则甚至转变回到显示器关闭181。可能触发从主页185状态转变到环境183(或显示器关闭181)状态的其他事件包括但不限于来自用户的特定请求(例如,点击显示器上的退出按钮)、可能会对共存用户的意图进行传信以转变回到环境183等的向后手势(例如,在相机或其他传感器前面挥手)。
在第一会话187状态下,与所请求的活动或任务有关的内容可以被排他地渲染在显示器111上,并且可选地经由(多个)扬声器191被排他地渲染。例如,假设共存用户说出有声请求以指导安装智能设备。作为响应,整个显示器111和(多个)扬声器191可以专用于多个对话话轮交互,以指导用户完成智能设备安装过程。作为另一示例,假设共存用户对关于名人的信息说出有声请求。在一些实施方式中,响应内容可以通过扬声器109有声地被提供为由自动助理120输出的自然语言,和/或渲染在显示器111上。在一些实施方式中,可以显示响应于用户的请求的其他内容(但不一定被用户特定地请求),而自动助理120在听觉上提供响应内容。例如,如果用户询问名人的生日,则可以在听觉上输出名人的生日,而关于名人的其他信息(例如,用以示出由名人担任主角的电影的时间、名人的(多个)照片等的深层链接)可以被渲染在显示器111上。
响应于第一会话187的中止,当前状态可以从第一会议187状态转变回到主页185状态(或甚至是环境183或显示器关闭181)。响应于完成对第一会话状态187的持久内容的渲染(例如,完成了音乐视频的播放)、完成对瞬时内容的渲染以及可选地在超时之后在完成之后,第一会话187的中止可能发生。其他事件可以被认为是中止事件,但是不构成第一会话187的完成,诸如用户撤销第一会话187(例如“stop(停止)”有声话语、“back(返回)”触摸输入、“X”或其他撤销交互式图形元素上的触摸输入)的明确输入或返回到主页185状态的特定请求等。
在一些实施方式中,当存在引起转变成主页185状态的中止时,第一会话187的活动和/或任务可能不会完成和/或可能保持打开(例如未明确取消)。例如,用户可以在其渲染的中间暂停歌曲或视频。作为另一示例,用户可以开始请求任务,该任务需要用活动参数填充多个槽,但是可能无法填充全部所要求的槽。例如,用户可以开始订购比萨饼,但是可以停止并离开房间来询问其他人他们想要什么配料或向其他人请求付款信息。在那些实施方式中的一些中,可以使新图块或卡片以表示未完成的第一会话187的主页状态185被渲染在显示器111上。在一些情况下,用户可以点击该新图块或卡片以继续第一会话187。在许多实施方式中,可以仅针对被分类为持久性任务的不完整任务生成该新图块或卡片(而对于被替代地分类为瞬时任务的不完整任务则不生成图块或卡片)。
同样如图2中所图示,响应于接收到中断数据,当前状态可以从第一会话187状态转变成第二会话189状态。这种情况可以在第一会话187仍是活动的并且仅经由显示器111和/或(多个)扬声器109排他性地渲染第一会话187的内容时发生。如本文中所描述,当由用户提供的口头话语请求提供替代内容代替在第一会话187期间提供的内容时,中断数据可以是该口头话语。中断数据可以附加地或替代地是肯定用户交互,其中在第一会话187期间提供了通知。不管中断数据如何,中断数据的接收都引起转变第二会话189状态,其中与中断数据相对应的替代内容取代了在第一会话187状态期间被渲染的内容。
在发生第二会话189的中止后,存在向以下各者的转变:第一会话187,其中第一会话187的内容的渲染自动恢复;或主页185状态或环境183状态,其中第一会话187状态的内容的渲染不自动恢复。如本文中所描述,是否应当发生向第一会话187状态的转变或向主页185或环境183状态的转变可以基于第一会话187和/或第二会话189的一个或多个特性来动态地确定。这种特性可以包括例如第一会话187是渲染持久内容还是瞬时内容,和/或第二会话是渲染持久内容还是瞬时内容。在发生向主页185状态的转变并且第一会话187状态渲染持久内容的情况下,可以可选地使可选图块、卡片或其他图形元素在主页185状态下被渲染,其中选择导致转变回到第一会话187状态,其中然后第一会话187被恢复。
响应于完成对第二会话189的持久内容的渲染(例如,完成了视频的播放)、完成对瞬时内容的渲染以及可选地在超时之后在完成之后,第二会话189状态的中止可能发生。其他事件可以被认为是针对第二会话189的中止事件,但是不构成第二会话189的完成,诸如用户撤销第二会话189(例如“stop”有声话语、“back”触摸输入、“X”或其他撤销交互式图形元素上的触摸输入)的明确输入。在许多情况下,在没有直接指示用户是否希望返回到第一会话187的用户输入的情况下发生第二会话189的中止。因此,本文中所描述的实施方式解决了这种情况,并且可以在第二会话189中止后选择性地、动态地并且以上下文敏感的方式确定是否返回并自动恢复第一会话187。
图3是图示根据本文是所公开的实施方式的示例方法300的流程图。为了方便起见,参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件,诸如实施自动助理120的计算系统的一个或多个组件。此外,虽然以特定顺序示出了方法300的操作,但这并不意味着是限制性的。一个或多个操作可以被重新排序、省略或添加。
在框302处,系统标识响应于助理设备处的用户界面输入的内容。例如,用户界面输入可以是口头话语,并且系统可以标识响应于口头话语的内容。例如,响应于“playvideo X(播放视频X)”,与“video X”相对应的视频可以被标识。作为另一示例,用户界面输入可以是与渲染在助理设备的触敏显示器上的图形元素的触摸交互,并且响应内容可以响应于图形元素。例如,图形元素可以是对“视频X”的推荐,并且响应于与图形元素的交互而标识“视频X”。
在框304处,系统在第一会话304期间渲染内容。系统可以经由助理设备的用户界面输出设备(诸如助理设备的显示器和/或(多个)扬声器)来渲染内容。在各种实施方式中,系统排他性地渲染内容。也就是说,系统渲染内容而不渲染与第一会话无关的任何内容(与传入通知有关的缺少内容,其可以短暂地被渲染(可选地,在暂停第一会话的内容时)以使得用户能够肯定地接受通知)。在第一会话304期间渲染内容可以通过一个或多个对话话轮和/或在长持续时间内发生。
在第一会话期间渲染内容期间,在框306处,系统监测第一会话的中止。如果在框306处存在第一会话的中止,则系统可以进行到框316并将助理设备的显示器转变成主屏幕或环境屏幕,如本文中所描述。在显示器是主屏幕并且在框306处所检测到的第一会话的中止未完成并且未撤销的情况下,框316可以包括可选框317的迭代,其中针对第一会话的恢复建议在主屏幕上渲染。例如,在响应于用户讲出“pause(暂停)”和发生超时而在框306处检测到中止的情况下,可选图形元素可以在主屏幕上被渲染,如果选择该图形元素,则引起第一会话的恢复和框304、306和308的继续执行。
如果在框306处不存在第一会话的中止,则系统可以进行到框308并确定是否已经接收到中断数据。尽管在图3中连续地描绘,但应注意,在各种实施方式中,框306和框308可以响应于接收到对应的输入而被并行和/或“按需”执行。此外,框304、306和308全部可以被并行执行。例如,当框306和308在后台运行时,框304可以被连续地执行。如果在框308处未接收到中断数据,则系统返回进行到框304,并且在第一会话304期间渲染内容继续(例如没有任何中断)。
如果在框308的迭代处接收到中断数据,则系统进行到框310,并在取代第一会话的第二会话中渲染替代内容。替代内容可以响应于中断数据。例如,替代内容可以响应于与中断数据相关联的口头话语,或可以响应于与中断数据相关联的通知。在各种实施方式中,系统在框310处排他性地渲染替代内容。也就是说,系统渲染替代内容而不渲染与第二会话无关的任何内容(与传入通知有关的缺少内容,其可以短暂地被渲染(可选地,在暂停第一会话的内容时)以使得用户能够肯定地接受通知)。在第二会话310期间渲染替代内容可以通过一个或多个对话话轮和/或在长持续时间内发生。
在框310的一些实施方式中,在第二会话中渲染替代内容可以响应于确定针对替代内容(例如可听的和/或视觉的)的至少一个所需的输出模态与被用于在第一会话中渲染第一内容的至少一个输出模态冲突来取代第一会话。在那些实施方式中的一些中,如果模态不冲突(例如,替代和第一内容中的一个内容仅是可听的,并且替代和第一内容中的另一内容仅是视觉的),则框314可以被跳过,因为第一会话不会停顿,这是因为第一会话和第二会话两者都可以通过不同的输出模态同时发生。
在第二会话期间渲染替代内容期间,在框312处,系统监测第二会话的中止。当在框312的迭代处检测到第二会话的中止时,系统进行到框314,并确定是否恢复第一会话。
如果系统在框314处确定恢复第一会话,则系统返回进行到框304,并且可选地从与具有在框308处检测到中断数据的第一会话的状态相对应的第一对话的状态自动恢复在第一会话期间渲染内容。
如果系统在框314处确定不恢复第一会话,则系统进行到框316,并将助理设备的显示器转变成主屏幕或环境屏幕,如本文中所描述。在显示器是主屏幕的情况下,框316可以包括可选框317的迭代,其中在主屏幕上渲染针对第一会话的恢复建议和/或针对第二会话的恢复建议。例如,在第一会话包括持久内容的情况下,可以在主屏幕上渲染可选的图形元素,如果选择该图形元素,则该图形元素使第一会话恢复以及框304、306和308继续执行。此外,例如,在第二会话包括持久内容并且框312的第二会话中止未完成或撤销的情况下,可以在主屏幕上渲染可选图形元素,如果选择该图形元素,则该图形元素使第二会话恢复。
在各种实施方式中,在框314处确定是否恢复第一会话可以至少部分地基于第一会话的一个或多个特性和/或第二会话的一个或多个特性,诸如第一会话的内容是持久内容还是瞬时内容和/或第二会话的替代内容是持久内容还是瞬时内容。尽管在图3中连续地描绘,应注意,在各种实施方式中,框310、312和314可以被并行执行。例如,框310可以被连续执行,而框312在后台连续运行,并且框314的确定可以在框312发生之前的一次迭代中被预先确定。
图4图示了以下示例:在第一会话期间渲染第一内容491,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容493,以及在第二会话的中止后自动恢复第一会话。
在图4中,并且如最顶部的第一客户端设备1061所表示,第一内容491可以响应于用户请求使自动助理120有助于智能恒温器的布线而在第一客户端设备1061的显示器上被渲染。第一内容491仅表示在第一会话期间向这种用户请求被渲染的并且在第一会话的多个对话话轮中的一个对话话轮期间被渲染的第一内容的一部分。应注意,尽管未描绘,但是第一会话的对应的可听内容也可以由第一客户端设备1061的扬声器渲染。在第一会话的中止之前,并且在第一内容491被渲染的同时,用户提供“what’s today’s weather forecast(今天的天气预报是什么)”的口头话语492。这种口头话语492构成中断数据,因为它是对与第一会话无关的替代内容的请求。
响应于口头话语,并且如中间的第一客户端设备1061所表示,自动助理使第一内容491的渲染被第二会话中的替代内容493取代。替代内容493响应于口头话语492,取代了第一内容491,并且排他性地由显示器渲染。应注意,在各种实施方式中,第二会话的可听替代内容也可以由第一客户端设备1061的扬声器渲染。
在第二会话的中止后,并且如最底部的第一客户端设备1061所表示,第一会话被自动恢复。例如,响应于超时或响应于用户通过用户界面输入(例如,讲出“Done(完成)”、滑动“back”等)指示完成,可以发生第二会话的中止。在一些实施方式中,第一会话可以至少部分地基于第一会话的第一内容491被分类为持久内容并且第二会话的第二内容493被分类为瞬时内容而被自动恢复。
图5图示了以下示例:在第一会话期间渲染第一内容591,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容592,以及在第二会话的中止后转变成替代状态595,在该替代状态下第一会话被建议恢复但不自动恢复。
在图5中,并且如最顶部的第一客户端设备1061所表示,第一内容591可以响应于用户请求使自动助理120有助于智能恒温器的布线而在第一客户端设备1061的显示器上被渲染。第一内容591可以类似于图4的第一内容491。在第一会话的中止之前,并且在第一内容591被渲染的同时,用户提供“show me a video for making a mint julep(给我看用于制作薄荷朱利酒的视频)”的口头话语592。这种口头话语592构成中断数据,因为它是对与第一会话无关的替代内容的请求。
响应于口头话语,并且如中间的第一客户端设备1061所表示,自动助理使第一内容591的渲染被第二会话中的替代内容593取代。替代内容593响应于口头话语592,取代了第一内容591,并且排他性地由显示器渲染。在图5的示例中,替代内容593是与制作薄荷朱利酒有关的持久视频,并且该视频响应于构成中断数据的口头话语592而被自动播放。
在第二会话的中止后,并且如最底部的第一客户端设备1061所表示,第一会话不被自动恢复。替代地,客户端设备1061的显示器被转变成替代的“主页”状态595,在该状态下,第一会话经由图形元素5951被建议恢复,但是不被自动恢复。如果通过触摸输入选择图形元素5951,则该图形元素可以使第一会话恢复。在一些实施方式中,第一会话可以至少部分地基于第二会话的替代内容593被分类为持久内容而不被自动恢复。在一些实施方式中,图形元素5951可以至少部分地基于第一会话的第一会话内容591被分类为持久内容而被提供。应注意,在主页状态595下,还提供了其他图形元素5952和5953,这些其他图形元素分别显示了针对用户定制的即将到来的事件和本地天气预报。
图6图示了另一示例:在第一会话期间渲染第一内容691,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容692,以及在第二会话的中止后自动恢复第一会话。
在图6中,并且如最顶部的第一客户端设备1061所表示,第一内容691可以响应于用户请求使自动助理120有助于智能恒温器的布线而在第一客户端设备1061的显示器上被渲染。第一内容691可以类似于图4的第一内容491。在第一会话的中止之前,并且在第一内容691被渲染的同时,用户提供“show me a video for distinguishing ground andneutral(给我看区分接地和中性的视频)”的口头话语692。这种口头话语692构成中断数据,因为它是对与第一会话无关的替代内容的请求。例如,这种口头话语不会导致从第一会话继续呈现第一内容,而是构成了对不包含在第一内容中的替代内容的请求。
响应于口头话语,并且如中间的第一客户端设备1061所表示,自动助理使第一内容691的渲染被第二会话中的替代内容693取代。替代内容693响应于口头话语692,取代了第一内容691,并且排他性地由显示器渲染。在图6的示例中,替代内容693是与区分接地和中性电线有关的持久视频,并且该视频响应于构成中断数据的口头话语692而被自动播放。
在第二会话的中止后,并且如最底部的第一客户端设备1061所表示,第一会话被自动恢复。在图6的示例中,尽管第二会话的替代内容被分类为持久内容,但是第一会话被自动恢复。在一些实施方式中,当第二会话的替代内容被分类为持久内容时,除非存在一个或多个其他条件,否则第一会话不被自动恢复。这种附加条件存在于图6的示例中。即,附加条件可以是确定先前第一会话的内容体现了一个或多个实体,诸如“电线”实体和/或更细的“地线”实体和/或“中性电线”实体,并且第一会话的实体与第二会话的替代内容之间存在已定义的关系。例如,关系可以是第二会话的视频还体现“电线”实体和/或更细的“地线”实体和/或“中性电线”实体。确定这种实体由第一会话的第一内容和/或第二会话的替代内容来体现可以是基于内容和替代内容的术语、标题和/或其他特性,并且可以可选地基于对知识图的参考,诸如上文所描述的知识图。例如,自然语言处理器122(图1)的实体标记器可以基于与第一内容和替代内容相关联的文本来标记这种实体。
图7图示了以下示例:在第一会话期间渲染第一内容791,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容793,以及在第二会话的中止后转变成替代状态,在该替代状态下第一会话不被自动恢复且不被建议恢复。
在图7中,并且如最顶部的第一客户端设备1061所表示,第一内容791可以响应于“how tall is the empire state building(帝国大厦有多高)”的用户口头话语而在第一客户端设备1061的显示器上被渲染。第一内容791是瞬时内容,并且表示在第一会话期间被渲染的第一内容的整体(缺少可以可选地被同时渲染的对应音频内容)。在第一会话的中止之前,并且在第一内容791被渲染的同时,用户提供“what’s today’s weather forecast”的口头话语792。这种口头话语792构成中断数据,因为它是对与第一会话无关的替代内容的请求。
响应于口头话语,并且如中间的第一客户端设备1061所表示,自动助理使第一内容791的渲染被第二会话中的替代内容793取代。替代内容793响应于口头话语792,取代了第一内容791,并且排他性地由显示器渲染。
在第二会话的中止后,并且如最底部的第一客户端设备1061所表示,第一会话不被自动恢复。替代地,客户端设备1061的显示器被转变成替代的“主页”状态795,在该状态下,第一会话不被自动恢复且不经由任何图形元素被建议恢复。在一些实施方式中,第一会话可以至少部分地基于第一会话的第一会话内容791被分类为瞬时内容而不被自动恢复且不被建议恢复。应注意,在主页状态795下,还提供了图形元素7951和7952,这些图形元素分别显示了针对用户定制的即将到来的事件和本地天气预报。
图8图示了另一示例:在第一会话期间渲染第一内容891,响应于在第一会话期间渲染第一内容期间接收到中断数据而在第二会话期间渲染替代内容893,以及在第二会话的中止后自动恢复第一会话。
在图8中,并且如最顶部的第一客户端设备1061所表示,第一内容891可以响应于用户请求使自动助理120有助于智能恒温器的布线而在第一客户端设备1061的显示器上被渲染。在第一会话的中止之前,并且在第一内容891被渲染的同时,通知897在第一会话期间在第一内容891之上被临时渲染。通知897向用户通知可用的运动分值更新。如图8中所指示,用户“点击”构成中断数据的通知897。
响应于中断数据,并且如中间的第一客户端设备1061所表示,自动助理使第一内容891的渲染被第二会话中的替代内容893取代。替代内容893响应于通知897,并且包括与通知的运动分值更新有关的附加视觉和可选内容。替代内容893取代了第一内容891,并且排他性地由显示器渲染。
在第二会话的中止后,并且如最底部的第一客户端设备1061所表示,第一会话被自动恢复。例如,响应于超时、响应于用户通过用户界面输入(例如,讲出“Done”、滑动“back”等)指示完成,可以发生第二会话的中止。在一些实施方式中,第一会话可以至少部分地基于第一会话的第一内容891被分类为持久内容并且第二会话的第二内容893被分类为瞬时内容而被自动恢复。
图9是示例计算设备910的框图,该示例计算设备910可以可选地用于执行本文所述技术的一个或多个方面。在一些实施方式中,客户端计算设备、用户控制的资源引擎130和/或其他组件中的一个或多个可以包括示例计算设备910的一个或多个组件。
计算设备910通常包括至少一个处理器914,其经由总线子系统912与多个外围设备通信。这些外围设备可以包括存储子系统924,包括例如,存储器子系统925和文件存储子系统926;用户界面输出设备920;用户界面输入设备922以及网络接口子系统916。输入和输出设备允许用户与计算设备910交互。网络接口子系统916提供到外部网络的接口,并耦合到其他计算设备中的对应接口设备。
用户界面输入设备922可以包括键盘;诸如鼠标、轨迹球、触摸板或图形输入板的指向设备;扫描仪;并入到显示器的触摸屏;诸如语音辨识系统的音频输入设备;麦克风;以及/或其他类型的输入设备。通常,术语“输入设备”的使用旨在包括所有可能类型的设备以及将信息输入到计算设备910或通信网络中的方式。
用户界面输出设备920可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或其他用于创建可视图像的机制。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常,术语“输出设备”的使用旨在包括所有可能类型的设备以及从计算设备910向用户或另一个机器或计算设备输出信息的方式。
存储子系统924存储提供本文所述的一些或全部模块的功能性的编程和数据构造。例如,存储子系统924可以包括执行图3的方法的所选方面以及实现附图和/或本文描述的各种组件的逻辑。
这些软件模块通常由处理器914单独或与其他处理器结合执行。存储子系统924中使用的存储器925可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)930以及存储固定指令的只读存储器(ROM)932。文件存储子系统926可以提供用于程序和数据文件的持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能性的模块可以由在存储子系统924中的文件存储子系统926存储,或者存储在处理器914可访问的其他机器中。
总线子系统912提供一种机制,其用于使计算设备910的各种组件和子系统按照预期相互通信。尽管总线子系统912被示意性地示出为单个总线,但是总线子系统的替代实施方式可以使用多个总线。
计算设备910能够是各种类型,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图9中描绘的计算设备910的描述仅旨在作为用于说明一些实施方式的目的的特定示例。计算设备910的许多其他配置可能具有比图9中描绘的计算设备更多或更少的组件。
在此处讨论的某些实施方式可以收集或使用关于用户的个人信息(例如,从其他电子通信中提取的用户数据、有关用户社交网络的信息、用户的位置、用户的时间、用户的生物特征信息以及用户的活动和人口统计信息、用户之间的关系等)的情况下,向用户提供一个或多个机会来控制是否收集信息、是否存储个人信息、是否使用个人信息以及如何收集、存储和使用有关用户的信息。也就是说,仅在从相关用户接收到明确的这样做的授权后,本文讨论的系统和方法才收集、存储和/或使用用户的个人信息。
例如,向用户提供对程序或特征是否收集关于该特定用户或与程序或特征相关的其他用户的用户信息的控制。向要为其收集个人信息的每个用户呈现一个或多个选项,以允许控制与该用户有关的信息收集,以提供关于是否收集信息以及信息的哪些部分要被收集的许可或授权。例如,可以通过通信网络向用户提供一个或多个这样的控制选项。另外,在存储或使用某些数据之前,可能会以一种或多种方式处理某些数据,使得删除个人可识别信息。作为一个示例,可以处理用户的身份,使得不能确定个人可识别信息。作为另一示例,用户的地理位置可以被概括为更大的区域,使得不能确定用户的特定位置。

Claims (19)

1.一种使用一个或多个处理器实施的方法,包括:
接收指示经由客户端设备的一个或多个麦克风检测到的用户的口头话语的口头话语数据;
基于所述口头话语数据,标识响应于所述用户的所述口头话语的第一内容;
响应于接收到所述口头话语数据,使所述客户端设备在第一会话期间渲染所述第一内容的至少一部分;
在由所述客户端设备在所述第一会话期间渲染所述第一内容期间接收中断数据,所述中断数据响应于在所述第一会话期间渲染所述第一内容期间检测到的所述用户的另一用户界面输入而被接收;
响应于接收到所述中断数据,使所述客户端设备在至少临时替换所述第一会话的第二会话期间渲染替代内容,其中所述替代内容与所述第一内容不同,并且其中使所述客户端设备在所述第二会话期间渲染所述替代内容包括使所述客户端设备渲染所述替代内容代替所述第一内容;
确定在所述第二会话的中止后是否执行以下操作:
使所述客户端设备自动恢复所述第一会话,或者
使所述客户端设备转变成所述客户端设备不自动恢复所述第一会话的替代状态,
其中所述确定至少基于所述第一会话的一个或多个特性;以及
在所述第二会话的中止后,选择地使所述客户端设备自动恢复所述第一会话或转变成所述第一会话不被自动恢复的所述替代状态,其中所述选择地使取决于所述确定。
2.根据权利要求1所述的方法,其中所述确定所基于的所述第一会话的至少一个特性包括被分配给所述第一内容的分类。
3.根据权利要求2所述的方法,其中被分配给所述第一内容的所述分类指示所述第一内容是瞬时的还是持久的。
4.根据权利要求3所述的方法,其中所述确定包括基于被分配给所述内容的所述分类指示所述第一内容是瞬时的来确定使所述客户端设备转变成所述客户端设备不自动恢复所述第一会话的所述替代状态。
5.根据权利要求3所述的方法,其中所述确定还基于所述第二会话的一个或多个特性。
6.根据权利要求5所述的方法,其中所述第二会话的至少一个特性指示所述替代内容是瞬时的还是持久的。
7.根据权利要求6所述的方法,其中所述确定包括基于被分配给所述第一内容的所述分类指示所述第一内容是持久的以及所述第二会话的至少一个特性指示所述替代内容是瞬时的来确定使所述客户端设备自动恢复所述第一会话。
8.根据权利要求6所述的方法,其中所述确定包括基于被分配给所述第一内容的所述分类指示所述内容是持久的以及所述第二会话的至少一个特性指示所述替代内容是持久的来确定使所述客户端设备转变成所述客户端设备不自动恢复所述第一会话的所述替代状态。
9.根据任一前述权利要求所述的方法,其中所述另一用户界面输入是所述用户的另一口头话语,并且还包括:
基于所述另一口头输入包括对所述替代内容的请求且所述替代内容不同于所述第一会话的所述第一内容,确定所述另一口头输入是中断数据。
10.根据权利要求1或权利要求9所述的方法,其中所述确定所基于的所述第一会话的至少一个特性包括由所述第一内容实现的实体,并且所述确定包括基于确定所述替代内容与由所述第一内容实现的所述实体之间的关系来确定使所述客户端设备自动恢复所述第一会话。
11.根据权利要求1至8中任一项所述的方法,还包括:
在由所述客户端设备在所述第一会话期间渲染所述第一内容期间,接收要在所述客户端设备处渲染的通知;
响应于接收到所述通知,使所述客户端设备渲染所述通知;
其中所述另一用户界面输入是响应于所述客户端设备渲染所述通知而被提供的所述用户的肯定触摸或口头输入,
其中所述用户的所述肯定输入指示所述用户与所述通知进行交互的期望,以及
其中所述替代内容是基于所述通知。
12.根据任一前述权利要求所述的方法,还包括:
存储针对所述第一会话的第一会话状态数据,所述第一会话状态数据指示当接收到所述中断数据时所述第一会话的状态;
其中使所述客户端设备自动恢复所述第一会话包括使用所述第一会话状态数据以当接收到所述中断数据时所述第一会话的所述状态恢复所述第一会话。
13.根据权利要求1所述的方法,其中所述确定包括确定使所述客户端设备转变成所述客户端设备不自动恢复所述第一会话的所述状态,并且还包括:
从所述客户端设备或与所述客户端设备进行网络通信的远程服务器的存储器中为所述第一会话清除会话数据。
14.根据权利要求1所述的方法,其中所述客户端设备包括显示器和至少一个扬声器,并且其中渲染所述内容包括经由所述显示器和所述至少一个扬声器来渲染所述内容。
15.根据任一前述权利要求所述的方法,其中所述客户端设备不自动恢复所述第一会话的所述替代状态包括主屏幕或环境屏幕的显示。
16.根据权利要求15所述的方法,其中所述主屏幕或所述环境屏幕的所述显示缺少对所述第一会话的任何引用。
17.根据权利要求15所述的方法,其中所述主屏幕或所述环境屏幕的所述显示包括可选图形界面元素,所述可选图形界面元素能够被选择以恢复所述第一会话。
18.一种包括一个或多个处理器和与所述一个或多个处理器可操作地耦合的存储器的系统,其中所述存储器存储指令,所述指令响应于一个或多个处理器对所述指令的执行,使所述一个或多个处理器执行前述权利要求中的任一项所述的方法。
19.至少一种非暂时性计算机可读介质,包括指令,所述指令响应于一个或多个处理器对所述指令的执行,使所述一个或多个处理器执行根据权利要求1至17中的任一项所述的方法。
CN201980037325.8A 2018-05-07 2019-05-01 确定在中断第二会话的中止后是否自动恢复第一自动助理会话 Pending CN112867985A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862668151P 2018-05-07 2018-05-07
US62/668,151 2018-05-07
PCT/US2019/030271 WO2019217178A1 (en) 2018-05-07 2019-05-01 Determining whether to automatically resume first automated assistant session upon cessation of interrupting second session

Publications (1)

Publication Number Publication Date
CN112867985A true CN112867985A (zh) 2021-05-28

Family

ID=66530517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980037325.8A Pending CN112867985A (zh) 2018-05-07 2019-05-01 确定在中断第二会话的中止后是否自动恢复第一自动助理会话

Country Status (6)

Country Link
US (3) US11217247B2 (zh)
EP (2) EP4130975A1 (zh)
JP (3) JP7135114B2 (zh)
KR (2) KR20230035157A (zh)
CN (1) CN112867985A (zh)
WO (1) WO2019217178A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112867985A (zh) 2018-05-07 2021-05-28 谷歌有限责任公司 确定在中断第二会话的中止后是否自动恢复第一自动助理会话
US11288347B2 (en) * 2019-03-07 2022-03-29 Paypal, Inc. Login from an alternate electronic device
US11748660B2 (en) * 2020-09-17 2023-09-05 Google Llc Automated assistant training and/or execution of inter-user procedures
US11368544B2 (en) * 2020-10-30 2022-06-21 Capital One Services, Llc Scalable server-based web scripting with user input
JP7420109B2 (ja) * 2021-04-08 2024-01-23 トヨタ自動車株式会社 情報出力システム、サーバ装置および情報出力方法
US11736420B2 (en) 2021-12-16 2023-08-22 International Business Machines Corporation Management and organization of computer based chat type conversations
WO2024058027A1 (ja) * 2022-09-13 2024-03-21 株式会社デンソー 車載装置、センタ装置、車両制御プログラム及び車両制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244712A1 (en) * 2013-02-25 2014-08-28 Artificial Solutions Iberia SL System and methods for virtual assistant networks
CN105634760A (zh) * 2015-12-29 2016-06-01 腾讯科技(深圳)有限公司 公众号与用户通信方法及装置
CN107957776A (zh) * 2016-10-14 2018-04-24 谷歌公司 主动虚拟助理

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3738923B2 (ja) 1996-09-30 2006-01-25 マツダ株式会社 ナビゲーション装置
JP4593018B2 (ja) 2001-06-22 2010-12-08 三菱電機株式会社 移動通信システム、ハンドオーバー制御方法、カーナビゲーション装置、路側機および路側機制御サーバ
JP2004108908A (ja) 2002-09-18 2004-04-08 Denso Corp オーディオ連携ナビゲーション装置
US20070211875A1 (en) * 2006-03-07 2007-09-13 Nokia Corporation Method of controlling an electronic device using audio inputs
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4935392B2 (ja) 2007-02-07 2012-05-23 富士通株式会社 出力調停プログラム及び装置
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2012137933A1 (ja) 2011-04-07 2012-10-11 エイディシーテクノロジー株式会社 メッセージ伝達装置、及びメッセージ伝達アプリケーション
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
WO2014188512A1 (ja) 2013-05-21 2014-11-27 三菱電機株式会社 音声認識装置、認識結果表示装置および表示方法
US9116952B1 (en) 2013-05-31 2015-08-25 Google Inc. Query refinements using search data
US9547690B2 (en) 2014-09-15 2017-01-17 Google Inc. Query rewriting using session information
US10671954B2 (en) * 2015-02-23 2020-06-02 Google Llc Selective reminders to complete interrupted tasks
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10089262B2 (en) * 2015-06-19 2018-10-02 Sap Se Reduced overhead safepoint mechanism using signals
US10311875B2 (en) * 2016-12-22 2019-06-04 Soundhound, Inc. Full-duplex utterance processing in a natural language virtual assistant
US10930276B2 (en) * 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
CN112867985A (zh) 2018-05-07 2021-05-28 谷歌有限责任公司 确定在中断第二会话的中止后是否自动恢复第一自动助理会话

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244712A1 (en) * 2013-02-25 2014-08-28 Artificial Solutions Iberia SL System and methods for virtual assistant networks
CN105634760A (zh) * 2015-12-29 2016-06-01 腾讯科技(深圳)有限公司 公众号与用户通信方法及装置
CN107957776A (zh) * 2016-10-14 2018-04-24 谷歌公司 主动虚拟助理

Also Published As

Publication number Publication date
WO2019217178A1 (en) 2019-11-14
KR20230035157A (ko) 2023-03-10
US20210065701A1 (en) 2021-03-04
US11217247B2 (en) 2022-01-04
JP7384976B2 (ja) 2023-11-21
KR102508338B1 (ko) 2023-03-10
JP2024020343A (ja) 2024-02-14
US20230402035A1 (en) 2023-12-14
JP2021522613A (ja) 2021-08-30
US11830491B2 (en) 2023-11-28
JP2022191216A (ja) 2022-12-27
US20220108696A1 (en) 2022-04-07
EP3590036A1 (en) 2020-01-08
EP4130975A1 (en) 2023-02-08
JP7135114B2 (ja) 2022-09-12
KR20210002724A (ko) 2021-01-08
EP3590036B1 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
JP7032504B2 (ja) 会議能力を有する自動アシスタント
CN110785763B (zh) 自动化助理实现的方法和相关存储介质
JP7384976B2 (ja) 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること
KR102567447B1 (ko) 자동화 어시스턴트를 이용한 이전 대화 컨텍스트사이의 전환
US11347801B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US11735182B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
EP3926625B1 (en) Voice to text conversion based on third-party agent content
US11200893B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
KR20210008521A (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
JP7471371B2 (ja) アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination