CN117971154A

CN117971154A - 多模态响应

Info

Publication number: CN117971154A
Application number: CN202410158700.7A
Authority: CN
Inventors: 阿普丽尔·普法尔; 贾里德·斯特劳德曼; 哈利·郁; 阿德里安娜·奥尔莫斯·安蒂利翁; 乔纳森·利夫尼; 奥坎·科拉克; 詹姆斯·詹戈拉; 尼汀·坎德沃尔; 杰森·卡恩斯; 安德鲁·沃森; 约瑟夫·阿谢尔; 瓦莱里·尼高
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-09-04
Filing date: 2019-09-03
Publication date: 2024-05-03
Also published as: CN110543290A; US20240169989A1; CN110543290B; US20220051675A1; US11935530B2

Abstract

本文涉及多模态响应，尤其公开了用于在动态生成针对客户端设备的当前模态而定制的客户端设备输出中使用多模态响应的系统、方法和装置。多模态客户端设备可以进行跨多模态谱的各种交互，所述交互包括仅语音交互、语音主导交互、多模态交互、视觉主导交互、仅视觉交互等。多模态响应可以包括：要针对全部交互类型被渲染的核心消息以及用于向用户提供附加信息的一个或多个取决于模态的组成部分。

Description

多模态响应

分案说明

本申请属于申请日为2019年9月3日的中国发明专利申请201910826487.1的分案申请。

技术领域

本公开涉及多模态响应，更具体地涉及用于在动态生成针对客户端设备的当前模态所定制的客户端设备输出中使用多模态响应的系统、方法和装置。

背景技术

自动化助理(也称为“个人助理”、“移动助理”等)可以在多模态客户端设备上和/或在诸如经由网络连接到多模态客户端设备的“云”中的计算设备的一个或多个远程计算设备上实现。多模态客户端设备可以向用户提供与设备的多种模式的交互。更具体地，多模态设备具有可用于用户向设备输入数据的若干模式和/或可用于设备向用户渲染输出的若干模式。

例如，对多模态设备的用户输入可以包括口述输入(例如用户说话)、文本输入(例如用户在键盘上键入、用户在触敏屏幕上录入文本等)、手势输入(例如用户手部动作、用户注视、用户头部运动等)、触觉输入(例如向客户端设备施加各种力，诸如挤压客户端设备、拿起客户端设备、摇动客户端设备、以特定定向放置客户端设备等)以及其他类型的输入(例如按下客户端设备上的物理按钮、使用鼠标点击用户界面中的按钮、使用鼠标执行动作——诸如使用鼠标滚轮向上和/或向下移动屏幕上的信息等)等。相似地，多模态设备可以以许多方式向用户渲染输出，所述许多方式包括音频输出(例如使用扬声器生成输出以便用户收听)、视觉输出(例如在屏幕上显示文本、图像、视频等，客户端设备上的灯亮灭闪光，改变设备上的灯的颜色等)、触觉输出(例如使客户端设备振动)等。

发明内容

本文关于用于在动态生成针对客户端设备的当前模态所定制的客户端设备输出中使用多模态响应的系统、方法和装置。客户端设备的当前模态可以是多模态谱内的多个候选模态中的一个并且可以指示将利用的用户接口输入和/或客户端设备输出的当前方法。在一些实施方式中，候选模态的多模态谱包括仅语音(voice only)交互、语音主导(voice forward)交互、多模态交互(也称为“模态间(intermodal)交互”)、视觉主导(visual forward)交互、仅视觉(visual only)交互等。客户端设备可以利用一个或多个模态，例如客户端设备利用仅语音交互、语音主导交互、多模态交互和仅视觉交互。在一些实施方式中，客户端设备的当前模态可以基于来自客户端设备的一个或多个传感器的传感器数据和/或基于经由客户端设备的用户的用户接口输入的对模态的选择来确定。例如，多模态客户端设备可以使用来自一个或多个传感器的传感器数据来确定多模态客户端设备的当前模态，所述一个或多个传感器诸如相机、惯性测量单元(“IMU”)、陀螺仪、定位系统(例如全球定位系统(“GPS”)、麦克风，接近传感器、压力传感器等。

客户端设备可以使用其模态以及各种其他信息，通过选择与当前客户端设备模态相对应的多模态响应的一个或多个部分来使用多模态响应，动态地生成客户端输出，所述各种信息包括：用户接口输入、用户接口输入的一个或多个模态、客户端设备的类型、客户端设备的位置、用户相对于客户端设备的位置等。根据许多实施方式，多模态响应可以包括核心消息以及取决于模态的附加信息。

例如，对多模态客户端设备的口述用户接口输入可以指示客户端动作，诸如调整连网智能恒温器的被设置的/期望的温度(例如，诸如“increase temperature by fivedegrees(将温度增加五度)”的用户接口输入)。用于针对调整恒温器温度的客户端设备动作渲染输出的多模态响应可以包括核心消息，诸如确认期望的温度已经被调整。客户端设备的当前模态以及各种其他信息可以确定此确认是否被渲染为音频输出、视觉输出、音频和视觉输出二者等。相似地，取决于模态的附加信息可以提供附加输出以经由客户端设备渲染。例如，视觉输出可以指示新设置的温度以及房间的当前温度。用于在一个或多个设备模态中使用的附加视觉输出可以指示各种信息，诸如达到新温度的估计时间、相关联的智能恒温器的名称、外面的温度等。相似地，用于在一个或多个设备模态中使用的附加音频输出可以指示要由客户端设备渲染的各种信息，诸如新温度、当前温度、对将花费多久达到期望的温度的估计等。

在许多实施方式中，客户端设备可以动态地选择多模态响应的部分以渲染针对各种模态中的相应模态的输出。例如，多模态响应的一部分可以被选择以用于仅语音交互，并且多模态响应的不同部分可以被选择以用于仅视觉交互。作为另一个示例，多模态响应的一个或多个视觉组成部分可以经由在语音主导交互中的客户端设备渲染，而相反地，多模态响应的视觉组成部分将不会经由仅语音交互中的客户端设备渲染。

在许多实施方式中，可以用于针对多个候选模态中的任一个来生成客户端设备输出的单个多模态响应相对于多个单独的响应可以提供存储效率，所述多个单独的响应均针对单个对应的模态而定制。例如，与存储针对每一个模态类型的个体设备响应相比，用于动态地生成针对许多设备模态的输出的单个多模态响应可以被存储在存储器或其他数据结构的更小部分中。例如，语音主导交互可以含有与多模态交互相同的被渲染的音频输出。与存储语音主导交互响应以及多模态交互响应二者中的相同的音频输出相比，从针对语音主导交互和多模态交互的相同的多模态响应中提取的音频输出可以减少存储器存储需求。

附加地或替选地，相对于均针对单个对应的模态而定制的多个单独的响应，单个多模态响应可以在客户端设备输出生成中提供计算效率和/或减少的时延。例如，具有单个多模态响应而不是均针对单个对应的模态而定制的单独的响应可以减小确定用于响应于用户输入而渲染的输出中所利用的索引和/或其他数据结构的大小，从而实现更快和/或更有效率的对响应的检索。而且，例如，在一些实施方式中，多模态响应可以从远程服务器传输到客户端设备，并且客户端设备本身可以基于多模态响应来生成输出以供响应于用户输入而渲染。传输单个多模态响应(与针对每一个模态交互类型的响应相比)可以使得客户端设备能够在交互类型之间快速切换而无需请求并等待接收针对附加交互类型的响应。例如，诸如蜂窝电话的多模态客户端设备在用户正在进行仅语音交互时可以屏幕侧朝下地放置。如果用户拿起蜂窝电话并看屏幕，则当前设备模态可以例如改变为多模态交互。多模态客户端设备可以选择多模态响应的不同部分并继续渲染输出而无需等待从远程服务器接收单独的多模态交互响应。

此外，针对客户端设备的当前模态而定制的客户端设备输出的动态生成可以附加地或替选地直接导致各种其他效率。例如，通过生成专门针对当前模态而定制的客户端设备输出，客户端设备资源不会被浪费在不必要地渲染当前模态不需要的各种内容。例如，假设客户端设备是移动电话并且基于指示电话“面朝下”的传感器数据而具有“仅语音”的当前模态。利用本文公开的技术，在“仅语音”模态中，仅可以提供可听输出，从而防止对相关视觉输出的不必要的同时渲染。而且例如，针对当前模态而定制的客户端设备输出的动态生成可以减少用户输入量和/或使得自动化助理能够在技术任务的执行中更有效率地协助用户。例如，在用户与自动化助理之间的、其中输出是针对当前模态而定制的多轮对话会话期间，可以动态地定制输出以在对话会话期间鉴于一个/多个模态来最有效率地向用户传达信息。

附加地或替选地，取决于设备的当前模态，客户端设备错误可以以不同方式被处置。例如，在仅语音交互中，客户端设备可以渲染指导用户重复其口述输入的输出和/或渲染指示系统遇到错误的输出。相似地，使用仅视觉交互的客户端设备可以视觉地渲染错误处置，诸如渲染请求用户重复用户输入的视觉输出和/或渲染指示后端服务器错误已发生的视觉输出。多模态交互、语音主导交互和/或视觉主导交互可以使用仅语音和仅视觉错误处置的组合来处置错误。在许多实施方式中，错误处置可以被包含作为针对会发起错误的客户端动作的多模态响应的一部分。在其他实施方式中，错误处置可以被包括为单独的多模态响应的一部分。

以上描述作为本文公开的一些实施方式的概述而提供。本文中更详细地阐述了这些和其他实施方式的附加描述。

在一些实施方式中，提供了一种方法，所述方法包括：基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例来确定客户端设备动作。方法还包括：至少部分地基于来自多模态客户端设备的一个或多个传感器的传感器数据来确定多模态客户端设备的当前客户端设备模态，其中当前客户端设备模态是多模态客户端设备的多个分立的客户端设备模态中的一个，并且其中确定当前客户端设备模态所基于的传感器数据是除了由用户接口输入的一个或多个实例生成的任何传感器数据之外的传感器数据。方法进一步包括：使用多模态响应来生成针对客户端设备动作的客户端设备输出，其中多模态响应包括针对多个分立的客户端设备模态的、针对客户端设备动作的输出的组成部分，并且其中生成客户端设备输出包括：选择与当前客户端设备模态相关的、多模态响应的组成部分中的一个或多个。方法进一步包括：使得客户端设备输出由多模态客户端设备的一个或多个用户接口输出设备渲染。

本文描述的技术的这些和其他实施方式可包括以下特征中的一个或多个。

在一些实施方式中，多模态响应是由多模态客户端设备从远程服务器接收的并且生成客户端设备输出是由多模态客户端设备进行的。在那些实施方式中的一些中，方法进一步包括：响应于由客户端设备传输到远程服务器的请求，由多模态客户端设备从远程服务器接收多模态响应，该请求是基于用户接口输入，并且其中，确定多模态客户端设备的当前客户端模态是由多模态客户端设备进行的并且发生在传输该请求之后。在那些实施方式的一些版本中，方法进一步包括：在客户端设备输出的至少一部分正在由多模态客户端设备的一个或多个用户接口输出设备渲染时，检测多模态客户端设备从当前客户端设备模态到分立的新客户端设备模态的切换，检测多模态客户端设备从当前客户端设备模态到分立的新客户端设备模态的切换。方法进一步包括：响应于检测到切换，使用多模态响应来生成替选客户端设备输出，其中替选客户端设备输出相对于客户端设备输出包括附加内容或更少内容。方法进一步包括：使得替选客户端设备输出由多模态响应客户端设备渲染。在那些版本中的一些中，方法进一步包括：客户端设备输出包括经由多模态客户端设备的一个或多个用户接口输出设备中的至少一个扬声器渲染的可听输出以及经由一个或多个用户接口输出设备中的至少一个显示器渲染的视觉输出，替选客户端设备缺少视觉输出，以及使得替选客户端设备输出由多模态客户端设备渲染包括：停止由至少一个显示器渲染视觉输出。

在那些版本中的一些中，多模态响应的组成部分包括：核心消息组成部分和一个或多个取决于模态的组成部分。在一些附加或替选版本中，生成客户端设备输出进一步包括：至少选择多模态响应的核心消息组成部分。方法进一步包括：通过选择取决于模态的组成部分中的一个或多个来选择与当前客户端设备模态相关的、多模态响应的一个或多个组成部分。在那些版本中的一些中，当前客户端设备模态是仅语音交互，并且客户端设备输出仅经由一个或多个用户接口输出设备中的一个或多个扬声器来渲染。

在附加或替选版本中，当前客户端设备模态是仅语音交互，并且客户端设备输出仅经由一个或多个用户接口输出设备中的一个或多个扬声器来渲染。在附加或替选版本中，当前客户端设备模态是语音主导交互，客户端设备输出的核心消息组成部分仅经由一个或多个用户接口输出设备中的一个或多个扬声器渲染，并且客户端设备输出的一个或多个取决于模态的组成部分经由一个或多个用户接口输出设备中的触摸屏渲染。在附加或替选版本中，当前客户端设备模态是多模态交互并且客户端设备输出经由一个或多个用户接口输出设备中的一个或多个扬声器并且经由触摸屏来渲染。在附加或替选版本中，当前设备模态是视觉主导交互，客户端设备输出的核心消息组成部分仅经由一个或多个用户接口输出设备中的触摸屏来渲染，并且客户端设备输出的一个或多个取决于模态的组成部分经由一个或多个用户接口输出设备中的一个或多个扬声器渲染。在附加或替选版本中，当前设备模态是仅视觉交互，并且客户端设备输出仅经由一个或多个用户接口输出设备中的触摸屏来渲染。

在一些实施方式中，至少部分地基于传感器数据来确定当前客户端设备模态包括：确定多模态客户端设备的定向，以及基于多模态客户端设备的定向来选择当前客户端设备模态。

在各个实施方式中，一种方法包括：确定在生成针对客户端设备动作的输出中的错误，其中客户端设备动作是根据由多模态客户端设备的用户提供的用户接口输入的一个或多个实例来确定的。方法进一步包括：至少部分地基于来自多模态客户端设备的一个或多个传感器的传感器数据来确定多模态客户端设备的当前客户端设备模态，其中当前设备模态是对于多模态客户端设备可用的多个分立的客户端设备模态中的一个，并且其中确定当前客户端设备模态所基于的传感器数据是除了由用户接口输入的一个或多个实例生成的任何传感器数据之外的传感器数据。方法进一步包括：针对在生成针对客户端设备动作的输出中的错误，使用多模态响应来生成错误消息，其中多模态响应包括针对多个分立的客户端设备模态的、针对错误的输出的组成部分，并且其中生成错误消息包括：选择与当前设备模态相关的、多模态响应的组成部分中的一个或多个组成部分。方法进一步包括：使得错误消息由多模态客户端设备的一个或多个用户接口输出设备渲染。

在许多实施方式中，一种方法包括：经由远离多模态客户端设备的一个或多个服务器设备处的网络接口接收客户端设备动作和当前客户端设备模态。方法进一步包括：基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例来确定客户端设备动作。方法进一步包括：至少部分地基于来自多模态客户端设备的一个或多个传感器的传感器数据来确定当前客户端设备模态。方法进一步包括：当前客户端设备模态是对于多模态客户端设备可用的多个分立的客户端设备模态中的一个。方法进一步包括：确定当前客户端设备模态所基于的传感器数据是除了由用户接口输入的一个或多个实例生成的任何传感器数据之外的传感器数据。方法进一步包括：使用多模态响应来生成针对客户端设备动作的客户端设备输出，其中多模态响应包括用于针对多个分立的客户端设备模态的、针对客户端设备动作的输出的组成部分，并且其中生成客户端设备输出包括：选择与当前客户端设备模态相关的、多模态响应的组成部分中的一个或多个组成部分。方法进一步包括：经由网络接口将客户端设备输出传输到多模态客户端设备以用于由多模态客户端设备的一个或多个用户接口输出设备渲染。

此外，一些实施方式包括一个或多个计算设备的一个或多个处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)和/或张量处理单元(TPU)，其中一个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中指令被配置为使得执行本文描述方法中的任一个。一些实施方式还包括存储计算机指令的一个或多个非暂时性计算机可读存储介质，所述计算机指令可由一个或多个处理器执行以实施本文描述的方法中的任一个。

应理解的是，本文更详细描述的前述概念和附加概念的全部组合都被认为是本文公开的主题的一部分。例如，本公开所附的所要求保护的主题的全部组合被认为是本文公开的主题的一部分。

附图说明

图1是图示出可以实现本文公开的各个实施方式的示例环境的框图。

图2图示出根据本文公开的实施方式的示例多模态谱。

图3图示出根据本文公开的实施方式的示例多模态响应。

图4图示出根据本文公开的实施方式的用户与客户端设备交互的示例。

图5图示出根据本文公开的实施方式的用户与客户端设备交互的另一个示例。

图6A和图6B图示出根据本文公开的实施方式的用户与客户端设备交互的另一个示例。

图7是图示出可以实现本文公开的各个实施方式的过程的流程图。

图8是图示出可以实现本文公开的各个实施方式的另一个过程的流程图。

图9是图示出可以实现本文公开的各个实施方式的另一个过程的流程图。

图10是图示出计算设备的示例架构的框图。

具体实施方式

图1图示出可以实现各个实施方式的示例环境100。示例环境100包括客户端设备102。诸如自然语言处理器122和/或多模态响应模块124的一个或多个基于云的远程服务器组件116可以在一个或多个计算系统上实现(统称为“云”计算系统)，所述一个或多个计算系统经由一般指示为114的一个或多个局域网和/或广域网(例如互联网)通信地耦合到客户端设备102。

客户端设备102可以包括例如以下中的一个或多个：台式计算设备、膝上型计算设备、平板计算设备、触敏计算设备(例如可以经由来自用户的触摸来接收输入的计算设备)、移动电话计算设备、用户车辆中的计算设备(例如车载通信系统、车载娱乐系统、车载导航系统)、独立交互式扬声器、诸如智能电视的智能电器和/或包括计算设备的用户的可穿戴装置(例如具有计算设备的用户的手表、具有计算设备的用户的眼镜、虚拟现实或增强现实计算设备)。在许多实施方式中，客户端设备102可以是多模态客户端设备。可以提供附加的和/或替选的客户端计算设备。

在各个实施方式中，客户端设备102可以包括可以具有各种形式的一个或多个传感器108。传感器108可以感测对客户端设备102的不同类型的输入，诸如基于口头、文本、图形、物理(例如包括触敏投影仪和/或计算设备的触敏屏幕的显示设备上的触摸)和/或视觉(例如手势)的输入。一些客户端设备102可以配备有一个或多个数字相机，所述一个或多个数字相机被配置为捕获并提供指示在其视场中检测到的运动的信号。附加地或替选地，一些客户端设备可以配备有检测声波(或压力)波的传感器，诸如一个或多个麦克风。

传感器108可以收集部分地被用于确定客户端设备102的当前模态的各种传感器数据，所述传感器108包括：一个或多个相机、IMU、陀螺仪、GPS、麦克风、一个或多个压力传感器、一个或多个接近传感器等。在一些实施方式中，可以使用接收用户接口输入的不同传感器来收集被用于确定设备模态的传感器数据。例如，麦克风可以被用于收集用户接口输入并且指示客户端设备的位置和/或姿态的IMU数据可以被用于确定模态。在其他实施方式中，传感器可以被用于收集用户接口输入数据以及确定设备模态。例如，麦克风可以确定用户接口输入并且相同的麦克风可以确定围绕客户端设备的环境噪声。换句话说，相同的传感器(例如麦克风)可以具有与用户接口输入相对应的传感器数据集合和与用户接口输入无关的第二传感器数据集合以供在确定设备模态中使用。

客户端设备102和/或基于云的远程服务器组件116可以与一个或多个设备104通信。设备104可以包括各种设备中的任何一种，包括：诸如智能电器、智能恒温器、智能咖啡机、智能灯、智能锁、智能灯等的物联网设备。设备104与客户端设备102(和/或客户端设备102的特定用户)链接并且彼此相互连接。例如，设备104可以链接到被指派给客户端设备102(以及可选地指派给其他客户端设备)的简档和/或可以链接到被指派给客户端设备102的用户的简档。总体上，客户端设备102、其他客户端设备和设备104可以定义协调的设备的生态系统。在各个实施方式中，设备经由设备拓扑表示彼此链接，所述设备拓扑表示可以是用户创建的和/或自动创建的并且所述设备拓扑表示可以定义各种客户端设备、各种智能设备、每一个设备的标识符和/或每一个设备的属性。例如，设备的标识符可以指定设备所位于的结构的房间(和/或其他区域)(例如客厅、厨房)和/或可以指定设备的昵称和/或别名(例如沙发灯、前门锁、卧室扬声器、厨房助理等)。以这种方式，设备的标识符可以是用户可能将其与相应的设备相关联的相应的设备的名称、别名和/或位置。

在许多实施方式中，设备104可以由客户端设备102在各种模态下控制。例如，可以通过语音交互(例如用户向独立交互式扬声器和/或多模态设备给出命令)以及物理交互(例如控制智能恒温器本身上的显示器和/或在多模态设备上生成新的命令输入)对智能恒温器进行控制。在接收改变温度的用户输入之后，通过选择与客户端设备的模态相对应的多模态响应的组成部分，多模态响应可以生成口述和/或视觉输出的各种组合。根据各个实施方式的多模态响应在图3中图示出。

设备104可以由客户端设备102直接控制，和/或设备104可以由远程设备(例如另一个基于云的组件)托管的一个或多个第三方代理106控制。此外，一个或多个第三方代理106也可以执行除控制设备104和/或控制其他硬件设备之外的功能。例如，客户端设备102可以与第三方代理106交互以使服务被执行、事务被发起等。在一些实施方式中，第三方代理106可以响应于接收到发起由第三方代理控制的动作的命令而提供一个或多个多模态响应以用于生成客户端设备输出。例如，第三方代理106可以接收用于打开智能灯的用户输入命令。第三方代理除打开智能灯之外，可以向基于云的远程服务器组件116和/或客户端设备102传输多模态响应，使得附加的输出可以根据客户端设备的模态来在客户端设备上渲染以确认灯已经被打开。

在许多实施方式中，客户端设备102可以经由一个或多个客户端设备的用户接口输入设备和/或输出设备来进行与一个或多个用户的对话会话。在一些实施方式中，响应于由用户经由客户端设备102中的一个的一个或多个用户接口输入设备所提供的用户接口输入，客户端设备102可以进行与用户的对话会话。在这些实施方式中的一些实施方式中，用户接口输入明确地指向自动化助理(未示出)。例如，用户可以说出预定的调用短语，诸如“OK，Assistant(好的，助理)”或“Hey，Assistant(嘿，助理)”以使自动化助理开始主动地收听。

在一些实施方式中，即使在该用户接口输入未明确地指向自动化助理时，客户端设备102也可以响应于用户接口输入而进行对话会话。在许多实施方式中，客户端设备102可以利用话音识别来将来自用户的话语转换为文本并且例如通过提供视觉信息、通过提供搜索结果、通过提供一般信息和/或采取一个或多个响应动作(例如播放媒体、启动游戏、订购食物等)来相应地响应文本。在一些实施方式中，客户端设备102可以附加地或替选地响应话语而无需将话语转换为文本。例如，客户端设备102可以将语音输入转换为嵌入(embedding)、转换为实体表示(指示存在于语音输入中的一个/多个实体)和/或其他“非文本”表示并且对这样的非文本表示进行操作。因此，在本文中被描述为基于从语音输入转换的文本来操作的实施方式可以附加地和/或替选地直接对语音输入和/或语音输入的其他非文本表示进行操作。

客户端设备102和基于云的远程服务器组件116可以包括用于存储数据和软件应用的一个或多个存储器、用于访问数据和执行应用的一个或多个处理器以及促进通过网络进行通信的其他组件。由一个或多个计算设备102执行的操作可以跨多个计算机系统分布。

在各个实施方式中，客户端设备102可以包括对应的话音捕获/文本转话音(“TTS”)/话音转文本(“STT”)模块110。在其他实施方式中，话音捕获/TTS/STT模块110的一个或多个方面可以与客户端设备102分离实现。话音捕获/TTS/STT模块110可以被配置为执行一个或多个功能：捕获用户的话音，例如经由麦克风来捕获；将所捕获的音频转换为文本(和/或其他表示或嵌入)；和/或将文本转换为话音。例如，在一些实施方式中，因为客户端设备102在计算资源(例如处理器周期、存储器、电池等)方面可能相对受限，所以位于客户端设备102的话音捕获/TTS/STT模块110可以被配置为将有限数目的不同口述短语——特别是调用自动化助理的短语——转换为文本(或其他形式，诸如更低维度的嵌入)。其他话音输入可以被发送到基于云的远程服务器组件116，所述基于云的远程服务器组件116可以包括基于云的TTS模块118和/或基于云的STT模块120。

基于云的STT模块120可以被配置为利用云的几乎无限的资源来将由话音捕获/TTS/STT模块110捕获的音频数据转换为文本(其然后可以被提供到自然语言处理器122)。相似地，基于云的TTS模块118可以被配置为利用云的几乎无限的资源来将文本数据转换为计算机生成的话音输出。在一些实施方式中，TTS模块118可以将计算机生成的话音输出提供到客户端设备102以例如使用一个或多个扬声器被直接输出。在其他实施方式中，由STT模块120生成的文本数据(例如自然语言响应)可以被提供到话音捕获/TTS/STT模块110，所述话音捕获/TTS/STT模块110然后可以将文本数据转换为被本地输出的计算机生成的话音。

基于云的远程服务器组件116可以包括自然语言处理器122、多模态响应模块124、前述TTS模块118、前述STT模块120和其他组件，其中的一些组件在下面更详细地描述。在一些实施方式中，客户端设备102和/或基于云的远程服务器组件116的引擎和/或模块中的一个或多个可以被省略、组合和/或在与客户端设备102分离的组件中实现。在一些实施方式中，为了保护隐私，诸如自然语言处理器122、话音捕获/TTS/STT模块110、多模态响应模块124等的组件中的一个或多个可以至少部分地在客户端设备102上实现(例如而排除云)。

在一些实施方式中，客户端设备102响应于在人到计算机对话会话期间由用户生成的各种输入来生成响应性内容。附加地或替选地，客户端设备102可以提供响应性内容以用于作为对话会话的一部分向用户呈现。例如，响应性内容可以响应于经由客户端设备102提供的自由形式的自然语言输入而生成。如本文所使用的，自由形式的输入是由用户构思的输入，所述自由形式的输入不限于被呈现以供用户选择的一组选项。

自然语言处理器122处理由用户经由客户端设备102生成的自然语言输入并且可以生成经标注的输出。例如，自然语言处理器122可以处理由用户经由客户端设备102的一个或多个用户接口输入设备生成的自然语言自由形式的输入。所生成的经标注的输出包括自然语言输入的一个或多个标注以及可选地包括自然语言输入中的词项中的一个或多个(例如全部)。

在一些实施方式中，自然语言处理器122被配置为识别和标注自然语言输入中的各种类型的语法信息。例如，自然语言处理器122可以包括被配置为使用其语法角色来标注词项的词性标记器的一部分。而且，例如，在一些实施方式中，自然语言处理器122可以附加地和/或替选地包括被配置为确定自然语言输入中的词项之间的句法关系的依存解析器(未示出)。

在一些实施方式中，自然语言处理器122可以附加地和/或替选地包括实体标记器(未示出)，其被配置为在一个或多个片段中标注实体指涉，所述实体指涉诸如对人(例如包括文学人物、名人、公众人物等)、组织、(真实和虚构的)地点等的指涉。自然语言处理器122的实体标记器可以以高粒度级别来标注对实体的指涉(例如以使得能够识别对诸如人的实体类的全部指涉)和/或以更低粒度级别来标注对实体的指涉(例如以使得能够识别对诸如特定的人的特定实体的全部指涉)。实体标记器可以依靠自然语言输入的内容来消解(resolve)特定实体和/或可以可选地与知识图或其他实体数据库通信以消解特定实体。

在一些实施方式中，自然语言处理器122可以附加地和/或替选地包括共指消解器(未示出)，其被配置为基于一个或多个上下文提示来对相同实体的指涉进行分组或“聚类”。例如，可以利用共指消解器将自然语言输入“I liked Hypothetical Cafélast timewe ate there.(我喜欢上次我们在那里吃饭的假想咖啡馆。)”中的“there(那里)”消解为“Hypothetical Café(假想咖啡馆)”。

在许多实施方式中，自然语言处理器122的一个或多个组件可以依靠来自自然语言处理器122中的一个或多个其他组件的标注。例如，在一些实施方式中，所提到的实体标记器在标注对特定实体的全部指称中可以依靠来自共指消解器和/或依存解析器的标注。而且例如，在一些实施方式中，共指消解器在对相同实体的指涉进行聚类时可以依靠来自依存解析器的标注。在许多实施方式中，在处理特定自然语言输入时，自然语言处理器122的一个或多个组件可以使用有关的先前输入和/或该特定自然语言输入之外的其他有关的数据来确定一个或多个标注。

多模态响应模块124可以检索与用户输入有关的多模态响应，从第三方代理接收多模态响应，确定客户端设备102的模态，选择多模态响应的一个或多个部分以用于包括在客户端设备输出中等。

在许多实施方式中，在从客户端设备接收到用户接口输入时，多模态响应模块124可以检索与用户接口输入相关的一个或多个多模态响应。例如，用户可以询问客户端设备“当前天气怎样(what is the current weather)”，并且多模态响应模块124可以检索对应的多模态响应以在客户端设备上渲染当前天气输出。附加地或替选地，响应于在客户端设备处接收的用户接口输入，多模态响应可以从基于云的远程服务器组件和/或客户端设备本身被检索和/或被传输到基于云的远程服务器组件和/或客户端设备本身。

多模态响应模块124可另外地确定客户端设备的当前模态。由客户端设备102和/或传感器108收集的各种数据可以指示客户端设备模态，包括客户端设备的类型、客户端设备的视觉和/或音频组件的状态、客户端设备的位置、客户端设备的姿态、用户相对于客户端设备的位置等。

在许多实施方式中，多模态响应模块124可以确定客户端设备的类型，诸如独立交互式扬声器、蜂窝电话、诸如智能恒温器的硬件设备上的触摸屏接口等。例如，智能恒温器可以由各种客户端设备控制，包括独立交互式扬声器、蜂窝电话和/或智能恒温器本身上的显示屏。一些客户端设备由于未包括在客户端设备中的一个或多个硬件组件而固有地限制于特定模态(例如不具有扬声器的设备可以被限制于仅视觉交互，并且相似地，不具有显示屏的设备可以被限制于仅语音交互)。虽然独立交互式扬声器、蜂窝电话和/或智能恒温器上的显示屏在控制恒温器时都可以利用相同的多模态响应，但是独立交互式扬声器由于缺少视觉显示，通常被限制于仅语音交互。相似地，缺少麦克风和/或扬声器的智能恒温器上的显示屏通常被限制于仅视觉交互。蜂窝电话(以及其他多模态客户端设备)可以采取附加模态并且因此可以利用多模态响应的附加组成部分。换句话说，进行仅语音交互的多模态客户端设备可以使用与诸如独立交互式扬声器的仅可以进行仅语音交互的客户端设备相似的(并且通常相同的)多模态响应的组成部分。相似地，进行仅视觉交互的多模态客户端设备可以使用与仅视觉的客户端设备相似的(并且通常相同的)多模态响应的组成部分。

在许多实施方式中，客户端设备的位置可以被用于确定多模态响应的一个或多个组成部分以进行渲染。例如，GPS单元可以确定移动设备的位置。客户端设备已知的位置可以指示用户可能想要进行的交互的类型。例如，用户在处于已知的“工作”位置时可能不想要渲染声音并且多模态响应模块124可以确定仅视觉交互和/或视觉主导交互。相似地，用户可能较不担心在家中渲染声音，并且已知的“家”位置可以向多模态响应模块124进行指示来确定多模态交互。在一些实施方式中，客户端设备可以通过连接到已知的Wi-Fi网络来确定客户端设备的位置(例如客户端设备了解它何时连接到“家”Wi-Fi网络)。

许多客户端设备可以由用户以各种姿态放置。例如，蜂窝电话可以以“正面朝下”位置放置，这将阻碍用户看到电话屏幕的能力。在一些这样的实施方式中，阻止用户看到显示器的能力的姿态可以向多模态响应模块124指示客户端设备处于仅语音或语音主导交互中。可以使用各种传感器来确定客户端设备的姿态，所述传感器包括IMU、一个或多个相机等。

附加地或替选地，可以利用用户相对于客户端设备的位置来确定设备模态。例如，一个或多个相机可以确定用户相对于客户端设备的位置。相似地，接近传感器可以确定用户何时在客户端设备的阈值范围内。在许多实施方式中，取决于用户相对于多模态客户端设备的屏幕的位置，多模态客户端设备可以处于不同的模态。例如，持有客户端设备的用户通常非常靠近屏幕并且可以看到多模态响应的更详细的取决于模态的视觉组成部分。在其他实施例中，客户端设备可以确定用户相对于客户端设备在房间的另一侧。虽然位于房间另一侧的用户仍然可以看到客户端设备显示器上的一些信息，但是多模态响应模块124可以确定客户端设备正在进行语音主导交互并且在显示器上使用较不密集的视觉信息来渲染取决于模态的视觉组成部分。

在确定设备模态时，多模态响应模块124可以利用各种其他客户端设备专有的传感器数据。例如，车载导航系统可以利用各种传感器来确定车辆何时在行驶。在一些这样的实施方式中，多模态响应模块124可以确定车载导航系统可以在车辆行驶时进行仅语音或语音主导交互，并且在车辆停止时可以进行多模态谱内的分立的交互类型中的任何类型。

在确定了客户端设备102的当前模态之后，多模态响应模块124可以选择多模态响应的一个或多个组成部分以经由客户端设备渲染对用户的输出。在图3中图示出包括核心消息组成部分和一个或多个取决于模态的组成部分的多模态响应的组成部分。

图2图示出根据本文描述的各个实施方式的多模态谱200的图像。多模态谱包括多模态客户端设备交互的多个分立的模态。在许多实施方式中，多模态谱200可以包括：仅语音交互202、语音主导交互204、多模态交互206(也称为“模态间交互”)、视觉主导交互208、仅视觉交互210等。

仅语音交互202可以包括用户向客户端设备说话和/或从客户端设备收听(即音频交互)。例如，独立交互式扬声器可以进行仅语音交互。附加地或替选地，在例如屏幕对于用户不可见时，多模态客户端设备可以进行仅语音交互。作为一个说明性示例，在蜂窝电话屏幕侧向下地放置在表面上、屏幕关闭、用户太远而不能看到屏幕等时，蜂窝电话可以进行仅语音交互。在许多实施方式中，仅语音交互202包括：用户经由麦克风向客户端设备提供口述输入连同客户端设备通过扬声器渲染输出。图4中描述了根据许多实施方式的仅语音交互的示例。

附加地或替选地，仅视觉交互210包括：用户向客户端设备提供物理输入(例如，键入、点击物理按钮、点击由用户接口显示器渲染的按钮、摇动客户端设备等)连同由客户端设备在显示器上渲染输出。进行仅视觉交互的一些客户端设备能够缺少麦克风和/或扬声器。在其他实施方式中，在音频接口被禁用时，多模态客户端设备可以进行仅视觉交互。例如，如果客户端设备扬声器被静音，则智能电话可以进行仅视觉交互。图6A-图6B中描述了仅视觉交互的示例。

进行语音主导交互204、多模态交互206和视觉主导交互208的多模态客户端设备可以使用各种输入接口和/或输出接口，诸如用于语音交互的麦克风和扬声器以及用于视觉交互的物理输入和显示屏。在一些实施方式中，语音主导交互204可以包括将多模态响应的核心消息组成部分渲染为音频以及渲染多模态响应的一个或多个附加的取决于模态的音频和/或视觉组成部分。例如，多模态客户端设备可以渲染告知用户当前天气的输出(即，多模态响应的核心消息组成部分)并经由扬声器指示用户针对本周天气报告而查看屏幕(即，多模态响应的取决于模态的音频组成部分)并在客户端设备显示器上渲染本周天气报告(即，多模态响应的取决于模态的视觉组成部分)。

附加地或替选地，在多模态交互206中，客户端设备可以将当前天气渲染为音频输出以及将当前天气渲染为视觉输出(即，可以经由扬声器和屏幕来渲染核心消息组成部分)并可以在屏幕上视觉地渲染各种附加天气信息中的一个或多个，诸如下周的交互式天气报告，其中用户可以选择单独的一日以取得该日更详细的天气信息(即，取决于模态的视觉组成部分)。在一些这样的实施方式中，在用户选择单独的一日以取得更详细的天气信息之后，可以渲染一个或多个附加的音频组成部分(即，取决于模态的音频组成部分)。

相似地，例如，在一个或多个传感器确定屏幕对用户可见但是用户处于远离屏幕的阈值距离处并且通常无法读取屏幕上的详细信息时，可以生成视觉主导交互208。在一些这样的实施方式中，当前温度(即，核心消息组成部分)可以经由扬声器被渲染，并且当前温度可以被渲染为大图形，使得用户可以从房间的另一头看到当前温度(即，取决于模态的视觉组成部分)。

图3图示出根据本文描述的各个实施方式的示例多模态响应。在许多实施方式中，多模态响应300可以包括核心消息组成部分302、取决于模态的音频组成部分304、306以及取决于模态的视觉组成部分308、310。核心消息组成部分302可以包括将针对全部模态生成多模态响应的信息。在一些实施方式中，客户端设备可以确定如何在客户端设备处渲染核心消息组成部分302。换句话说，核心消息组成部分可以被客户端设备转化成音频输出或视觉输出(例如，文本可以被客户端设备视觉地渲染并且转换为口述输出)。在一些其他实施方式中，核心消息组成部分302还可以包括音频核心消息组成部分(未示出)以及视觉核心消息组成部分(未示出)，这可以使客户端设备能够针对任何模态渲染相同的信息。附加地或替选地，由多模态客户端设备执行的特定动作无法在每个设备模态中执行并且核心消息组成部分302可以包括视觉组成部分或音频组成部分。例如，视频无法在仅音频交互中播放，因此包括视频的核心消息组成部分将不会经由仅音频交互来渲染。在一些这样的实施方式中，多模态响应可以生成指示视频无法播放的错误消息以对用户渲染。

在各种实施方式中，多模态响应可以被构造，使得该多模态响应具有优选的设备模态。例如，每当可能时，客户端设备可以切换到语音主导交互以渲染多模态响应中的信息。换句话说，在若干个模态可用于客户端设备时，多模态响应可以推动客户端设备进入特定模态。

取决于模态的音频组成部分304、306可以包括可以由客户端设备渲染的不同音频信息。相似地，取决于模态的视觉组成部分308、310可以包括可以由客户端设备渲染的不同视觉信息。在许多实施方式中，(如图1中图示出的)多模态响应模块124可以针对特定模态中的特定客户端设备来选择取决于模态的组成部分(诸如304、306、308、310)的组合。换句话说，针对处于一个模态中的第一客户端设备所选择的一个或多个取决于模态的组成部分可以与针对处于相同模态中的第二客户端设备所选择的一个或多个取决于模态的组成部分不同。此外，可以在不同时间针对处于相同模态的相同客户端设备选择多模态响应的不同组成部分。例如，取决于模态的视觉组成部分可以取决于用户距客户端设备的所检测的距离而改变。

在许多实施方式中，可以针对各个客户端动作分别生成多模态响应。例如，用户可以提供用于针对若干个模态渲染的输出，所述输出可以由一个或多个服务器设备合并为多模态响应。

图4图示出在仅语音交互中用户与客户端设备互动的示例图像。图像400包括客户端设备402和用户404。在许多实施方式中，客户端设备402可以包括独立交互式扬声器。附加地或替选地，多模态客户端设备可以基于物理输入和/或视觉输出的不可用性来进行仅语音交互。例如，用户404可以通过说“Assistant,please turn up the temperature bythree degrees(助理，请将温度调高三度)”来改变连网的智能恒温器(未示出)的温度。多模态响应的核心消息组成部分可以指示温度的改变。例如，在仅语音交互中，扬声器可以渲染“OK,the temperature has been set to 75degrees(好的，温度已经设置为75度)”。在许多实施方式中，可以附加地渲染多模态响应的一个或多个附加的取决于模态的音频组成部分，诸如“The current temperature is 73degrees(当前温度是73度)”、“It will takeapproximately one hour to reach 75degrees(将花费大约一小时达到75度)”等。

图5图示出用户与多模态客户端设备互动的的示例图像。图像500包括多模态客户端设备502(诸如蜂窝电话)和用户504。在许多实施方式中，多模态客户端设备可以进行多模态谱中的任一个分立的模态。视觉主导交互、多模态交互和/或语音主导交互可以共享多模态响应的一个或多个视觉和/或语音组成部分。例如，由用户504生成的用户输入可以改变连网的智能恒温器上的温度设置。核心消息组成部分可以被可听地渲染以及在显示屏上示出。例如，扬声器可以渲染“OK,the temperature has been set to 75degrees”，同时显示屏渲染指示新温度的文本消息。多模态响应的一个或多个取决于模态的语音组成部分和/或一个或多个取决于模态的视觉组成部分可以被客户端设备渲染以增强核心消息组成部分。

图6A图示出在进行仅视觉交互之前客户端设备的图像。图像600包括智能恒温器的显示器602，所述显示器602指示当前温度是72度。用户可以通过与智能恒温器显示器的触摸表面交互来改变温度以将温度增加三度。图6B示的图像610图示出在温度已被增加三度之后的相同的智能恒温器显示器612。例如，可以在显示器上渲染核心消息“Temperatureincreased to 75degrees(温度被增加到75度)”。也可以在显示器上渲染多模态响应的一个或多个取决于模态的视觉组成部分，诸如当前温度(例如“Current–72degrees(当前—72度)”)。在许多实施方式中，进行仅视觉交互的多模态客户端设备(未示出)可以控制智能恒温器。在一些这样的实施方式中，在接收到增加温度的用户输入之后，多模态响应的相同核心消息组成部分(例如，“Temperature increased to 75degrees”)以及相同的取决于模态的视觉组成部分(例如，“Current–72degrees”)可以在智能恒温器显示器上显示。在许多实施方式中，诸如蜂窝电话的多模态客户端设备(其通常具有与硬件设备显示器相比用于渲染内容的更大的屏幕)可以呈现附加的取决于模态的视觉组成部分，诸如“it will takeapproximately one hour to reach 75degrees”。换句话说，特定客户端设备可以影响：针对在相同模态下执行的相同动作，渲染多模态响应的哪些组成部分。

图7是图示出根据本文公开的各个实施方式的、使用多模态响应来生成客户端设备输出的示例过程700的流程图。为方便起见，参考执行操作的系统描述图7的操作。此系统可以包括各个计算机系统的各个组件，诸如客户端设备102的一个或多个组件。此外，虽然过程700的操作以特定顺序示出，但这并不意指是限制性的。一个或多个操作可以被重新排序、省略或添加。

在框702处，系统接收由多模态客户端设备的用户提供的用户接口输入。例如，系统可以接收口述的用户接口输入、被键入的用户接口输入、基于手势的输入和/或其他输入。

在框704处，系统确定与多模态客户端设备的设备模态相关的传感器数据。

在框706处，系统经由网络将用户接口输入和传感器数据传输到一个或多个远程服务器设备。

在框708处，系统经由网络从一个或多个远程服务器设备接收客户端设备输出的实例。在许多实施方式中，一个或多个远程服务器设备识别与用户接口输入相对应的动作以及与传感器数据相对应的设备模态。附加地或替选地，客户端设备输出可以包括与设备模态相关的多模态响应的一个或多个组成部分。在许多实施方式中，多模态响应模块124可以确定当前设备模态以及选择多模态响应的一个或多个组成部分以生成客户端设备输出。

在框710处，系统使用多模态客户端设备的一个或多个用户接口输出设备来渲染客户端设备输出。例如，系统可以使用与客户端设备输出相对应的并且因此也与客户端设备的当前模态相对应的用户接口输出设备来渲染客户端设备输出。

图8是图示出根据本文公开的各个实施方式的、使用多模态响应来生成客户端设备输出的示例过程800的流程图。为方便起见，参考执行操作的系统描述图8的操作。此系统可以包括各个计算机系统的各个组件，诸如客户端设备102的一个或多个组件。此外，虽然过程800的操作以特定顺序示出，但这并不意指是限制性的。一个或多个操作可以被重新排序、省略或添加。

在框802处，系统基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例来确定客户端设备动作。在许多实施方式中，可以根据用户接口输入来确定客户端设备动作。例如，客户端设备本身可以根据所接收的用户接口输入来确定客户端设备动作(可选地，在进行确定时与远程服务器对接)和/或客户端设备动作可以由远程系统基于传输到该远程系统的用户接口输入(和/或其转换)来确定。

在框804处，系统至少部分地基于来自多模态客户端设备的一个或多个传感器的传感器数据来确定多模态客户端设备的当前客户端设备模态。在许多实施方式中，设备模态可以由如图1中所描述的多模态响应模块124确定。

在框806处，系统经由网络从一个或多个远程服务器设备接收多模态响应，其中多模态响应包括针对多个客户端设备模态的、针对客户端设备动作的输出的组成部分。

在框808，系统使用多模态响应来生成针对客户端设备动作的客户端设备输出。客户端设备输出可以包括与当前设备模态相关的多模态响应的一个或多个组成部分。在许多实施方式中，多模态响应模块124可以选择多模态响应的一个或多个部分来生成客户端设备输出。

在框810处，系统使用多模态客户端设备的一个或多个用户接口输出设备来渲染客户端设备输出。

图9是图示出根据本文公开的各个实施方式的、使用多模态响应来生成客户端设备的错误消息的示例过程900的流程图。为方便起见，参考执行操作的系统描述图9的操作。此系统可以包括各个计算机系统的各个组件，诸如客户端设备102的一个或多个组件。此外，虽然过程900的操作以特定顺序示出，但这并不意指是限制性的。一个或多个操作可以被重新排序、省略或添加。

在框902处，系统确定在根据由多模态客户端设备的用户提供的用户接口输入的一个或多个实例来生成多模态客户端设备的输出中的错误。

在框904处，系统至少部分地基于来自多模态客户端设备的一个或多个传感器的传感器数据来确定多模态客户端设备的当前客户端设备模态。

在框906处，系统针对在生成输出中的错误使用多模态响应通过以下操作来生成错误消息：选择与当前客户端设备模态相关的多模态响应的一个或多个组成部分。

在框908处，系统使用多模态客户端设备的一个或多个用户接口输出设备来渲染错误消息。例如，错误消息可以经由客户端设备扬声器和/或作为在客户端设备显示屏上的文本输出被渲染。

图10是可以可选地被用于执行本文描述的技术的一个或多个方面的示例计算设备1010的框图。在一些实施方式中，客户端计算设备、用户控制的资源模块和/或其他组件中的一个或多个可以包括示例计算设备1010的一个或多个组件。

计算设备1010通常包括至少一个处理器1014，所述至少一个处理器1014经由总线子系统1012与多个外围设备通信。这些外围设备可以包括：存储子系统1024、用户接口输出设备1020、用户接口输入设备1022和网络接口子系统1016，所述存储子系统1024包括例如存储器子系统1025和文件存储子系统1026。输入和输出设备允许与计算设备1010的用户交互。网络接口子系统1016提供对外部网络的接口并且被耦合到其他计算设备中的对应的接口设备。

用户接口输入设备1022可以包括键盘、诸如鼠标、轨迹球、触摸板或绘图平板的定点设备、扫描仪、合并到显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括用于将信息输入到计算设备1010或通信网络上的全部可能类型的设备和方法。

用户接口输出设备1020可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的一些其他机制。显示子系统也可以诸如经由音频输出设备提供非可视显示。通常，术语“输出设备”的使用旨在包括用于从计算设备1010向用户或向另一个机器或计算设备输出信息的全部可能类型的设备和方法。

存储子系统1024存储提供本文描述的模块中的一些或全部的功能的编程和数据结构。例如，存储子系统1024可以包括用于执行图7、图8和/或图9的过程的所选择的方面以及实现图1中描绘的各个组件的逻辑。

这些软件模块通常由处理器1014单独或与其他处理器组合执行。存储子系统1024中使用的存储器1025可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1030和在其中存储固定指令的只读存储器(ROM)1032。文件存储子系统1026可以针对程序和数据文件提供持久存储并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实现某些实施方式的功能的模块可以由存储子系统1024中的文件存储子系统1026存储或者存储在处理器1014可访问的其他机器中。

总线子系统1012提供用于使计算设备1010的各个组件和子系统按预期彼此通信的机制。虽然总线子系统1012被示意性地示出为单个总线，但是总线子系统的替选实施方式可以使用多个总线。

计算设备1010可以是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图10中描绘的计算设备1010的描述旨在仅作为出于说明一些实施方式的目的的特定示例。计算设备1010的许多其他配置可能具有比图10中描绘的计算设备更多或更少的组件。

在本文描述的系统收集或以其他方式监视关于用户的个人信息或者可以利用个人和/或所监视的信息的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置的信息)或控制是否和/或如何从内容服务器接收可能与用户更相关的内容。而且，某些数据可以在被存储或使用之前以一种或多种方式处理，使得个人可识别信息被移除。例如，用户的身份可以被处理，使得个人可识别信息不能针对用户被确定，或者在获取地理位置信息的情况下，用户的地理位置可以被泛化(诸如泛化为城市、邮政编码或州级)。使得用户的特定地理位置无法被确定。因此，用户可以控制关于用户的信息被如何收集和/或使用。

虽然本文已经描述和说明若干实施方式，但是用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个的各种其他装置和/或结构可以被利用，并且这样的变化和/或修改中的每一个被认为是在本文描述的实施方式的范围内。更一般地，本文描述的全部参数、尺寸、材料和配置意指是示例性的并且实际参数、尺寸、材料和/或配置将取决于教导所用于的一个或多个特定应用。本领域技术人员将认识到或者能够使用不超过常规的实验来确定本文描述的具体实施方式的许多等同物。因此应该理解的是，前述实施方式仅作为示例呈现并且在所附权利要求书及其等同物的范围内，可以以不同于具体描述和要求保护的方式实践实施方式。本公开的实施方式涉及本文描述的每一个个体特征、系统、物品、材料、套件和/或方法。此外，如果这样的特征、系统、物品、材料、套件和/或方法不相互矛盾，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合包括在本公开的范围内。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

基于由多模态客户端设备的用户提供的用户接口输入的一个或多个实例，确定客户端设备动作；

至少部分地基于来自所述多模态客户端设备的一个或多个传感器的传感器数据，确定所述多模态客户端设备的当前客户端设备模态，

其中，所述当前客户端设备模态是可用于所述多模态客户端设备的多个分立客户端设备模态中的一个，以及

其中，确定所述当前客户端设备模态所基于的所述传感器数据是除了由用户接口输入的所述一个或多个实例生成的任何传感器数据之外还有的传感器数据；

使用多模态响应来生成针对所述客户端设备动作的客户端设备输出，

其中，所述多模态响应包括：

针对所述当前客户端设备模态和针对所述客户端设备动作的第一输出特性，以及

针对第二客户端设备模态和针对所述客户端设备动作的第二输出特性，以及

其中，生成所述客户端设备输出包括响应于确定所述当前客户端设备模态而选择所述第一输出特性；以及

使得所述客户端设备输出由所述多模态客户端设备渲染；

当至少部分所述客户端设备输出由所述多模态客户端设备的所述一个或多个用户接口输出设备渲染时：

至少部分地基于来自所述一个或多个传感器的更新的传感器数据来检测所述多模态客户端设备从所述当前客户端设备模态到所述第二客户端设备模态的切换；

响应于检测到所述切换，使用所述多模态响应生成替选客户端设备输出，其中，生成所述替选客户端设备输出包括响应于检测到到所述第二客户端设备模态的所述切换而选择所述第二输出特性；以及

使得所述替选客户端设备输出由所述多模态客户端设备渲染。

2.根据权利要求1所述的方法，其中，确定所述当前客户端设备模态包括：

基于所述传感器数据确定所述多模态客户端设备的第一定向；以及

基于所述第一定向确定所述当前客户端设备模态。

3.根据权利要求1所述的方法，其中，检测所述切换包括：

基于所述更新的传感器数据确定所述多模态客户端设备从所述第一定向切换到第二定向；以及

基于确定所述多模态客户端设备从所述第一定向切换到所述第二定向来检测所述切换。

4.根据权利要求1所述的方法，其中，所述第一输出特性包括没有任何视觉输出的音频输出，并且其中，所述第二输出特性包括视觉输出。

5.根据权利要求1所述的方法，其中，所述第一输出特性包括视觉输出，并且其中，所述第二输出特性包括没有任何视觉输出的音频输出。

6.根据权利要求1所述的方法，其中，所述一个或多个传感器包括：

惯性测量单元或

陀螺仪。

7.根据权利要求1所述的方法，其中，所述一个或多个传感器包括所述惯性测量单元。

8.根据权利要求1所述的方法，其中，所述多模态响应是从远离所述多模态客户端设备的服务器接收的，并且其中，所述一个或多个处理器属于所述多模态客户端设备。

9.一种多模态客户端设备，包括：

麦克风；

除所述麦克风之外还有的传感器；

一个或多个扬声器；

一个或多个显示器；

存储指令的存储器；

一个或多个处理器，所述一个或多个处理器执行所述指令以：

基于由用户经由所述麦克风提供的用户接口输入的一个或多个实例来确定客户端设备动作；

至少部分地基于来自所述传感器中的一个或多个传感器的传感器数据来确定当前客户端设备模态，

其中，所述多模态响应包括：

其中，在生成所述客户端设备输出时，所述处理器中的一个或多个处理器将响应于确定所述当前客户端设备模态而选择所述第一输出特性；以及

使得所述客户端设备输出由所述多模态客户端设备渲染；

响应于检测到所述切换，使用所述多模态响应生成替选客户端设备输出，其中，在生成所述替选客户端设备输出时，所述处理器中的一个或多个处理器将响应于检测到到所述第二客户端设备模态的所述切换而选择所述第二输出特性；以及

10.根据权利要求9所述的多模态客户端设备，其中，所述替选客户端设备输出包括未包括在所述客户端设备输出中的附加内容。

11.根据权利要求9所述的多模态客户端设备，其中，所述替选客户端设备输出缺少包括在所述客户端设备输出中的特定内容。

12.根据权利要求9所述的多模态客户端设备，其中，在确定所述当前客户端设备模态时，所述处理器中的一个或多个处理器将：

基于所述第一定向确定所述当前客户端设备模态。

13.根据权利要求12所述的多模态客户端设备，其中，在检测所述切换时，所述处理器中的一个或多个处理器将：

14.根据权利要求9所述的多模态客户端设备，其中，所述第一输出特性包括没有任何视觉输出的音频输出，并且其中，所述第二输出特性包括视觉输出。

15.根据权利要求9所述的多模态客户端设备，其中，所述第一输出特性包括视觉输出，并且其中，所述第二输出特性包括没有任何视觉输出的音频输出。

16.根据权利要求9所述的多模态客户端设备，其中，所述一个或多个传感器包括惯性测量单元。

17.根据权利要求9所述的多模态客户端设备，其中，所述多模态响应是从远离所述多模态客户端设备的服务器接收的。

18.根据权利要求9所述的多模态客户端设备，其中，所述客户端设备输出在所述一个或多个显示器处被渲染并且不在所述一个或多个扬声器处被渲染，并且其中，所述替选客户端设备输出在所述一个或多个扬声器处被渲染。

19.根据权利要求9所述的多模态客户端设备，其中，所述客户端设备输出在所述一个或多个扬声器处渲染并且不在所述一个或多个显示器处渲染，并且其中，所述替选客户端设备输出在所述一个或多个显示器处渲染。

20.一种由一个或多个处理器实现的方法，所述方法包括：

使用机器学习模型处理(1)来自所述多模态客户端设备的所述一个或多个传感器的传感器数据和(2)多模态响应，以生成客户端设备输出，

其中，来自所述多模态客户端设备的所述一个或多个传感器的所述传感器数据指示所述多模态客户端设备的当前客户端设备模态，

其中，所述当前客户端设备模态是可用于所述多模态客户端设备的多个分立客户端设备模态中的一个，

其中，所述传感器数据是除了由用户接口输入的所述一个或多个实例生成的任何传感器数据之外还有的传感器数据，

其中，所述多模态响应包括针对所述多个分立客户端设备模态的、针对所述客户端设备动作的输出的组成部分，并且

其中，输出的所述组成部分至少包括(a)核心消息组成部分，所述核心消息组成部分表示要为所述多个分立的客户端设备模态中的每个分立的客户端设备模态渲染的信息和(b)一个或多个取决于模态的组成部分，所述一个或多个取决于模态的组成部分各自表示要为所述多个分立的客户端设备模态中的一个或多个分立的客户端设备模态渲染的对应信息，以及

使得所述客户端设备输出由所述多模态客户端设备的一个或多个用户接口输出设备渲染。

21.根据权利要求20所述的方法，其中，所述多模态响应由所述多模态客户端设备从远程服务器接收，并且其中，生成所述客户端设备输出由所述多模态客户端设备完成。

22.根据权利要求21所述的方法，其中，响应于由所述客户端设备传送到所述远程服务器的、基于所述用户接口输入的请求，所述多模态响应是由所述多模态客户端设备从所述远程服务器接收的，并且其中，确定所述多模态客户端设备的所述当前客户端设备模态是由所述多模态客户端设备进行的并且在传输所述请求之后发生。

23.根据权利要求21所述的方法，进一步包括：

基于来自所述多模态客户端设备的所述一个或多个传感器的替选传感器数据，检测所述多模态客户端设备从所述当前客户端设备模态到分立的新客户端设备模态的切换；

响应于检测到所述切换，使用所述机器学习模型基于处理(1)来自所述多模态客户端设备的所述一个或多个传感器的所述替选传感器数据和(2)所述多模态响应，生成替选客户端设备输出；以及

使得所述替选客户端设备输出由所述多模态客户端设备的所述一个或多个用户接口输出设备渲染。

24.根据权利要求23所述的方法，

其中，所述客户端设备输出包括经由所述多模态客户端设备的所述一个或多个用户接口输出设备的至少一个扬声器渲染的可听输出以及经由所述一个或多个用户接口输出设备的至少一个显示器渲染的视觉输出，

其中，所述替选客户端设备输出缺少所述视觉输出，并且

其中，使得所述替选客户端设备输出由所述多模态客户端设备渲染包括停止由所述至少一个显示器渲染所述视觉输出。

25.根据权利要求20所述的方法，其中，所述当前客户端设备模态是仅语音交互，并且所述客户端设备输出是经由所述一个或多个用户接口输出设备的一个或多个扬声器渲染的。

26.根据权利要求20所述的方法，其中，所述当前客户端设备模态是语音主导交互，所述客户端设备输出的所述核心消息组成部分仅经由所述一个或多个用户接口输出设备中的一个或多个扬声器来渲染，并且所述客户端设备输出的所述一个或多个取决于模态的组成部分经由所述一个或多个用户接口输出设备的触摸屏来渲染。

27.根据权利要求20所述的方法，其中，所述当前客户端设备模态是多模态交互，所述客户端设备输出经由一个或多个扬声器并且经由所述一个或多个用户接口输出设备的触摸屏来渲染。

28.根据权利要求20所述的方法，其中，所述当前设备模态是视觉主导交互，所述客户端设备输出的所述核心消息组成部分仅经由所述一个或多个用户接口输出设备的触摸屏来渲染，并且所述客户端设备输出的所述一个或多个取决于模态的组成部分经由经由所述一个或多个用户接口输出设备的一个或多个扬声器来渲染。

29.根据权利要求20所述的方法，其中，所述当前设备模态是仅视觉交互，并且所述客户端设备输出仅经由所述一个或多个用户接口输出设备的触摸屏来渲染。

30.一种多模态客户端设备，包括：

一个或多个麦克风；

除了所述一个或多个麦克风之外还有的一个或多个传感器；

一个或多个扬声器；

一个或多个显示器；

存储指令的存储器；

一个或多个处理器，所述一个或多个处理器执行所述指令以执行以下方法：

基于由所述多模态客户端设备的用户提供的用户接口输入的一个或多个实例，确定客户端设备动作；

其中，输出的所述组成部分至少包括(a)核心消息组成部分，所述核心消息组成部分表示要为所述多个分立的客户端设备模态中的每个分立的客户端设备模态渲染的信息和(b)一个或多个取决于模态的组成部分，所述一个或多个取决于模态的组成部分各自表示要为所述多个分立的客户端设备模态中的分立的一个或多个客户端设备模态渲染的对应信息，以及

31.根据权利要求30所述的多模态客户端设备，其中，所述多模态响应由所述多模态客户端设备从远程服务器接收，并且其中，生成所述客户端设备输出由所述多模态客户端设备完成。

32.根据权利要求31所述的多模态客户端设备，其中，响应于由所述客户端设备传送到所述远程服务器的、基于所述用户接口输入的请求，所述多模态响应是由所述多模态客户端设备从所述远程服务器接收的，并且其中，确定所述多模态客户端设备的所述当前客户端设备模态是由所述多模态客户端设备进行的并且在传输所述请求之后发生。

33.根据权利要求31所述的多模态客户端设备，进一步包括：

34.根据权利要求33所述的多模态客户端设备，

其中，所述替选客户端设备输出缺少所述视觉输出，并且

35.根据权利要求30所述的多模态客户端设备，其中，所述当前客户端设备模态是仅语音交互，并且所述客户端设备输出是经由所述一个或多个用户接口输出设备的一个或多个扬声器渲染的。

36.根据权利要求30所述的多模态客户端设备，其中，所述当前客户端设备模态是语音主导交互，所述客户端设备输出的所述核心消息组成部分仅经由所述一个或多个用户接口输出设备中的一个或多个扬声器来渲染，并且所述客户端设备输出的所述一个或多个取决于模态的组成部分经由所述一个或多个用户接口输出设备的触摸屏来渲染。

37.根据权利要求30所述的多模态客户端设备，其中，所述当前客户端设备模态是多模态交互，所述客户端设备输出经由一个或多个扬声器并且经由所述一个或多个用户接口输出设备的触摸屏来渲染。

38.根据权利要求30所述的多模态客户端设备，其中，所述当前设备模态是视觉主导交互，所述客户端设备输出的所述核心消息组成部分仅经由所述一个或多个用户接口输出设备的触摸屏来渲染，并且所述客户端设备输出的所述一个或多个取决于模态的组成部分经由经由所述一个或多个用户接口输出设备的一个或多个扬声器来渲染。

39.根据权利要求30所述的多模态客户端设备，其中，所述当前设备模态是仅视觉交互，并且所述客户端设备输出仅经由所述一个或多个用户接口输出设备的触摸屏来渲染。