CN113302664A

CN113302664A - 运载工具的多模态用户接口

Info

Publication number: CN113302664A
Application number: CN201980088179.1A
Authority: CN
Inventors: 穆罕默德·M·莫尼里; N·伦克
Original assignee: Sereni Run Co
Current assignee: Sereni Run Co; Nuance Communications Inc
Priority date: 2019-01-07
Filing date: 2019-12-23
Publication date: 2021-08-24
Also published as: US20200219320A1; US10943400B2; KR20210112324A; EP3909028A4; WO2020146136A1; EP3909028A1

Abstract

本文描述的一些实施例涉及用于汽车的多模态用户接口。多模态用户接口可以诸如通过在汽车的挡风玻璃上投影信息等在挡风玻璃上显示信息，并且可以经由多个模态接受来自用户的输入，多个模态可以包括语音接口以及其它接口。其它接口可以包括允许用户通过指示角度来提供几何输入的接口。在一些实施例中，用户可以使用多个不同的输入模态来定义要进行的任务。例如，用户可以经由语音接口提供描述用户请求进行的任务的语音输入，并且可以经由一个或多个其它接口提供与该任务相关的几何参数。多模态用户接口可以根据输入来确定任务和几何参数。

Description

运载工具的多模态用户接口

技术领域

本文描述的一些实施例涉及经由多种模态接受输入的多模态用户接口。在一些实施例中，多模态用户接口可以是汽车的接口，诸如允许用户在汽车的挡风玻璃上显示信息和/或与在汽车的挡风玻璃上显示的信息交互的用户接口等。在一些实施例中，多模态用户接口可以经由描述要进行的任务的一个输入模态(例如，语音)来接收输入，并且还经由一个或多个其它模态来接收该任务的一个或多个参数的输入。在这样的参数是几何参数(诸如方向参数等)的情况下，可以从用于检测由用户指示的角度(诸如从用户正指向的角度和/或用户正观看的角度)等的模态接收输入。

背景技术

可以经由汽车的一个或多个用户接口向汽车的驾驶员和乘客显示信息。例如，可以在汽车的仪表板上的一个或多个仪表上显示指示与汽车的状态有关的信息(诸如与汽车的速度、剩余燃料量或发动机状态有关的信息等)的仪表。作为另一示例，可以经由接口显示与汽车的环境控制有关的信息，或者可以经由接口显示与汽车的音频系统有关的信息。在包括导航系统的汽车中，可以经由接口显示导航信息。

发明内容

在一个实施例中，提供一种操作汽车的多模态用户接口的方法。所述方法包括：从经由所述多模态用户接口的语音接口所提供的语音输入来确定用户正在请求进行的任务，所述任务与所述汽车的挡风玻璃上的信息的显示相关；从所述多模态用户接口的至少一个其它输入模态来确定与所述任务相关的至少一个几何参数；以及根据所述任务来更新所述汽车的挡风玻璃上的信息的显示。

在另一实施例中，提供至少一个计算机可读存储介质，其用计算机可执行指令编码，所述计算机可执行指令在由计算机执行时使得所述计算机执行操作汽车的多模态用户接口的方法。所述方法包括：从经由所述多模态用户接口的语音接口所提供的语音输入来确定用户正在请求进行的任务；从所述多模态用户接口的至少一个其它输入模态来确定与所述任务相关的至少一个几何参数；以及根据所述任务来控制信息的输出。

在另一实施例中，提供一种设备，包括：至少一个处理器；以及至少一个计算机可读存储介质，其用计算机可执行指令编码，所述计算机可执行指令在由计算机执行时使得所述计算机执行操作运载工具的多模态用户接口的方法。所述方法包括：从经由所述多模态用户接口的语音接口所提供的语音输入来确定用户正在请求进行的任务；从所述多模态用户接口的至少一个其它输入模态来确定与所述任务相关的至少一个几何参数；以及根据所述至少一个几何参数来进行所述任务。

以上是由所附权利要求书限定的本发明的非限制性总结。

附图说明

附图不旨在按比例绘制。在附图中，各种附图中示出的各个相同或几乎相同的组件由相同的数字表示。为了清楚起见，可能没有在每个图上标注每个组件。在图中：

图1描绘了一些实施例可以操作的多模态用户接口的示例；

图2是多模态接口系统的示例的一些说明性组件的概述；

图3是可以在一些实施例中实现以根据由用户提供的多模态输入来进行任务的处理的流程图；

图4A和4B是可以在一些实施例中实现以识别由用户提供的非语音输入指示的位置的处理的流程图；

图5是可以在一些实施例中实现以确定用户使用哪个模态提供非语音输入的处理的流程图；

图6A和6B是可以在一些实施例中实现以识别与语音输入中包括的歧义相对应的非语音输入的处理的流程图；

图7是可以在一些实施例中实现以从用户接收多个位置的非语音输入(诸如指示形状等)的处理的流程图；

图8是可以在一些实施例中实现以从用户接收大小或其它尺寸的非语音输入的处理的流程图；

图9是可以在一些实施例中实现以生成用于多模态接口的增强现实(AR)显示的处理的流程图；

图10是可以在一些实施例中实现以在运载工具的操作过程中生成驾驶员的注视位置的热图的处理的流程图；以及

图11是一些实施例可以操作的计算装置的一些示例性组件的框图。

具体实施方式

本文描述的一些实施例涉及用于汽车的多模态用户接口。多模态用户接口可以在汽车的挡风玻璃上显示信息，诸如通过在挡风玻璃上投影信息等，并且可以经由多个模态接受来自用户的输入，多模态用户接口可以包括语音接口以及其它接口。其它接口可以包括允许用户诸如通过指示位置等来提供几何输入的接口。例如，其它接口可以包括用于监视用户的注视并确定用户每次观看的角度的注视检测接口，其中该角度在用户想要指示的位置的方向上。作为另一示例，其它接口可以包括用于监视用户的手势并确定用户每次做出手势的角度的手势识别接口，其中该角度在用户想要指示的位置的方向上。在一些实施例中，用户可以使用经由多种不同输入模态提供的输入来定义要进行的任务。例如，用户可以经由语音接口提供描述用户正请求进行的任务的语音输入，并且可以经由一个或多个其它接口提供与该任务有关的几何参数。多模态用户接口可根据输入来确定任务和几何参数并进行该任务，这可以包括根据该任务更新挡风玻璃上的信息的显示。

在一些实施例中，任务可以涉及挡风玻璃上的信息显示，诸如将所显示的信息从一个位置移动到另一位置或请求在一个位置处新显示信息。在一些这样的情况下，用户可以经由语音接口提供对信息的移动的请求或对信息的新显示的请求，并且可以经由注视检测接口和/或手势识别接口提供要显示信息的位置。

在一些其它实施例中，任务可以涉及在汽车的环境中获得与汽车外部的对象有关的信息。在一些这样的情况下，用户可以经由语音接口提供对与环境中的对象有关的信息的请求，并且可以通过观看环境中的对象或做手势来利用经由注视检测接口和/或手势识别接口提供的输入来指示对象。

在一些这样的实施例中，用户可以通过在特定方向上观看或做手势来经由注视检测接口和/或手势识别接口提供这样的位置，该特定方向可以由非语音接口作为输入角度来接收。多模态用户接口可以结合诸如三维模型等的模型来分析角度，以确定模型中的沿着用户所指示的角度的线将与对象相交处的点。模型可以是例如汽车的模型，并且对象可以是汽车的挡风玻璃，使得用户可以通过朝挡风玻璃上的位置观看或做手势来指示挡风玻璃上的位置。作为另一示例，模型可以是汽车在接收到语音输入的至少一部分的时间所行驶的环境的模型，并且对象可以是环境中的对象，使得用户可以通过朝向环境中的对象观看或做手势来识别该对象。

本发明人已认识并理解，汽车的传统用户接口与可能对该汽车或其它汽车的驾驶员或乘客造成伤害或损坏该汽车或其它财产的潜在汽车碰撞的不可接受的大风险相关联。这种碰撞可能在汽车的驾驶员由于传统用户接口的操作而分散注意力时发生，并且在操作传统用户接口的同时，较少注意到驾驶汽车。

本发明人还认识并理解，如果用于汽车的用户接口对于用户而言更简单地操作，这将是有利的。例如，如果用户接口允许操作该接口的驾驶员将他或她的眼睛从道路上移开比传统用户接口更短的时间，则可以降低碰撞的风险。作为另一示例，如果用户接口允许驾驶员在查看用户接口中的信息的同时将他或她的眼睛保持在道路上，则可以降低碰撞的风险。作为另一示例，如果驾驶员不需要操作用户接口的物理按钮或开关来提供输入，而是可以用他或她的发音和其它输入模态提供输入，则可以降低碰撞风险。

语音用户接口可以用于传统汽车，但是发明人已经认识并理解，这种用户接口在其接受来自用户的输入的能力上受到限制。经由语音提供某些形式的输入可能是复杂的，需要仔细地说出指令以确保该输入的精度。例如，如果用户想要询问关于汽车正在行驶经过的建筑物或其它对象的问题，并且用户没有该对象的精确标识符(例如，街道地址)，则可能难以提供精确描述该对象的语音输入来使得用户接口能够查询关于该对象的信息。提供这样的语音输入不仅对用户而言是困难和繁琐的，而且语音接口可能提示用户一次或多次以用于消除歧义输入，或者提供输入可能需要用户大量的关注力或注意力。这种扩展的交互或需要注意的交互对于汽车设置可能是不利的，其中快速使用并且不会引起用户的太多注意的接口将是有利的，从而确保驾驶员能够尽可能多地集中于驾驶并避免碰撞。

此外，本发明人已经认识并理解，如果驾驶员能够重新配置汽车的用户接口以适应用户的风格和偏好将是有利的。当用户接口与用户的风格和偏好不一致时，对于用户使用而言可能更麻烦，并且可能会将更多的关注力或注意力放在用户使用上。在驱动设置中，这是不利的。因此，如果用户能够自定义或以其它方式布置用户接口以适应其风格和偏好，则对于这些用户而言将是有益的。

本文描述了用于操作汽车的多模态用户接口的各种技术。多模态接口可以经由语音接口以及一个或多个其它模态接受输入。在一些实施例中，其它模态可以包括用于提供几何输入的模态，诸如描述一个或多个位置的输入等。在一些实施例中，其它模态可以包括注视检测接口和/或手势识别接口。使用这种接口，用户可以通过经由输入到非语音接口的方向或角度(诸如通过在该方向或角度上观看或在该方向或角度上做手势等)来提供指示位置的输入来提供指示位置的输入。

对于一些任务，提供(例如，描述位置、形状或尺寸的)几何输入可以非常适合针对要进行的任务提供参数。例如，如果用户期望更多地了解在用户驾驶穿过的环境中的地标、建筑物或其它对象，则用户可以通过观看该对象或在该对象的方向上做手势来指示该对象。这可以使得与用户接口的交互对于用户更简单，并且可以有利地减少交互所需的时间和/或注意力的量。例如，对于地标查询，用户可以说出问题“那是什么？”并且向地标处观看或做手势，此后，系统可以(使用本文描述的技术)确定用户当时正观看或做手势的对象，并进行关于该对象的信息的查询。

包括接收几何输入的这种多模态输入对于布置用户接口显示(诸如与用户的风格或偏好一致)也是有利的。例如，如果驾驶员希望在用户接口显示中显示导航接口，并且希望将其显示在用户喜欢的显示的位置处，则用户可以说出“在那里显示导航”的命令，并且经由注视和/或手势输入指示优选位置。多模态接口可以根据对检测到的注视/手势的分析来确定“那里”的位置，并且根据对语音输入的分析确定为用户希望将导航接口显示在该位置。多模态输入也可以用于重新布置用户接口中所显示的信息。例如，如果在一个位置显示导航接口，并且用户优选其显示在另一位置，则用户可以说出“将导航移动到那里”的命令，并且经由注视和/或手势输入指示新位置。多模态接口可以根据对检测到的注视/手势的分析来确定“那里”的位置，并且根据对语音输入的分析确定为用户希望将导航接口移动到该位置。

因此，在一些实施例中，用户可以使用多个不同的输入模态来定义要进行的任务。例如，用户可以经由语音接口提供描述用户请求进行的任务的语音输入，并且可以经由一个或多个其它接口提供关于该任务的几何参数。多模态用户接口可根据输入确定任务和几何参数，并且根据任务更新挡风玻璃上的信息的显示。

如下面更详细描述的，任务的几何参数可以包括与任务相关的一个或多个位置。多模态接口可以根据用户通过非语音输入模态提供的输入来确定位置。这种非语音模态可以是例如用户输入方向或角度的模态。这可以包括检测用户正观看的方向或角度的注视检测接口。这可以另外地或可替代地包括用于检测用户正做手势的方向或角度的手势识别接口。多模态用户接口可以结合诸如三维模型等的模型来分析角度，以确定模型中的沿着用户所指示的角度的线将与对象相交处的点。模型可以是例如汽车的模型，并且对象可以是汽车的挡风玻璃，使得用户可以通过朝向挡风玻璃上的位置观看或做手势来指示挡风玻璃上的位置。作为另一示例，模型可以是汽车在接收到语音输入的至少一部分的时间所行驶的环境的模型，并且对象可以是环境中的对象，使得用户可以通过朝向对象观看或做手势来识别环境中的对象。

在一些实施例中，用户可以经由非语音输入模态输入与任务相关的多个位置。例如，任务可以涉及移动用户接口中所显示的信息(例如，导航接口)，并且用户可以提及初始位置和期望的新位置这两者：“将导航从那里移动到那里”。在该示例中，两个“那里”术语对应于用户所指示的位置。因此，多模态接口可以通过从非语音输入模态确定在不同时间点指示的位置来确定两个不同位置。作为一个示例，系统可以确定与用户说出的各个“那里”相关联的时间，并且可以确定在这些时间中的各个时间处由用户经由非语音输入模态所指示的位置，但是可以使用其它技术并且将在下面讨论。作为与任务相关的多个位置的输入的另一示例，用户可以请求在用户指定的特定形状和大小(诸如正方形、矩形或自由形状)内的用户接口中显示信息。用户可以利用语音输入指定规则的几何形状(例如，正方形)，但是一些实施例的多模态接口允许用户通过输入多个位置来指示形状。例如，用户可以说出“在该形式内显示导航”的输入，并且利用非语音输入概略地描绘该形式(例如，正方形、矩形、其它规则几何形状或自由形式形状)。如上所述，非语音输入可以由注视输入或手势输入提供。注视检测接口和/或手势识别接口可以确定由用户指示的位置的时间顺序序列，其对应于定义形状的注视或手势的连续掠过或者对应于定义形状的离散点集合(例如，正方形或矩形的四个角，或者正方形或矩形的两个相对的角)。

应当理解，实施例不限于使用非语音输入仅提供几何输入。例如，用户可以要求调整在用户接口中显示的信息的大小，诸如通过调整包含该信息的框的大小等。用户可以说出请求调整大小的命令(例如，“调整导航窗口的大小”)，然后提供非语音输入来控制调整大小。例如，在用户正提供非语音输入时，系统随后可以基于非语音输入来调整形式的大小，并且当用户停止提供非语音输入时停止调整大小。作为这种输入的具体示例，响应于用户所说出的命令，多模态接口可以开始监视用户的注视或手势、或其它非语音输入。例如，如果用户的手正在抬升，则多模态接口可以放大导航窗口，直到用户放下他或她的手为止，此时系统将停止调整导航形式的大小。如果用户的手正落下，多模态接口可以类似地缩小导航窗口，直到用户放下他或她的手为止。应当理解，除了跟踪向上和向下手势移动之外的技术或者除了手势之外的技术也可以用于调整大小。

还应当理解，实施例不限于使用多模态输入来控制信息的显示，因为实施例可以与其它类型的任务一起操作。例如，虽然上面和下面描述的示例涉及更新显示的信息，但是在其它实施例中，由用户输入的任务可能不引起信息的显示，而是可能引起以另一种形式输出信息。例如，用户可以提供请求在电子消息(例如，电子邮件、SMS/文本或其它消息传送协议)中向另一用户发送信息的多模态输入。该多模态输入可以包括具有该请求的语音输入和包括与该任务相关的位置信息的非语音输入。例如，用户可以说出“将该建筑物的地址发送给Kevin”，多模态接口可以从中确定为消息将被发送给(可以从用户的联系列表中识别出的)“Kevin”，然后根据非语音输入(例如，如上所述，诸如使用用户的注视或手势的方向等)确定为用户是指在语音输入时处于汽车的环境中的建筑物。当进行这样的任务时，系统可能不生成要显示的任何输出。可能不引起显示输出的其它任务也可以使用如本文中所描述的操作的多模态接口来进行，因为实施例在这方面不受限制。

还应当理解，虽然下面描述了在汽车的挡风玻璃上显示信息的示例，但是实施例不限于使用任何特定形式的显示来进行操作。在下面描述的一些实施例中，汽车的挡风玻璃可以包括允许反射向挡风玻璃投影的一些光的部分反射层。这可以允许如下的显示：信息从小汽车内部投影到挡风玻璃上并且以部分透明的方式显示在挡风玻璃上。这种实施例可能是有利的，因为小汽车中的乘客以及驾驶员能够查看该显示。在其它实施例中，信息可以投影到挡风玻璃上，而挡风玻璃无需具有添加到挡风玻璃的部分反射层。例如，一些实施例可以包括投影仪，该投影仪以考虑到将一些光反射离开空气-挡风玻璃接口并朝向驾驶员的方式朝向挡风玻璃投影光，以提供“抬头显示”(HUD)。在这样的实施例中，接口能够对驾驶员可见，但仅能够部分可见或对乘客不可见。作为另一选项，驾驶员可以在他或她的眼睛(和/或他/她的面部的任何其它部分)上佩戴屏幕或面罩，并且可以以对驾驶员而言看起来信息显示在挡风玻璃上的方式将信息投影在屏幕上，并且提供增强现实(AR)接口。也可以使用其它显示，因为实施例在该方面不受限制。

在屏幕上显示信息或在用户的眼睛上方或附近(和/或面部的任何其它部分)标记信息的一些实施例中，可以使用AR技术在屏幕上显示信息，使得该信息对用户而言就像显示在挡风玻璃上一样。本文描述了用于检测挡风玻璃上用户希望显示信息的位置以及在挡风玻璃中的该位置处显示信息的各种技术。或者，检测挡风玻璃上的环境中的建筑物或其它对象的投影所落在的位置，并且在挡风玻璃上在该投影处显示信息，使得该信息出现在建筑物/对象附近或叠加在建筑物/对象上。在使用在用户面部的一部分上方或附近的屏幕上显示信息的AR显示的实施例中，屏幕可以是至少部分透明的，使得可以通过屏幕看到挡风玻璃和环境。可以使用AR技术在屏幕上显示信息，使得如果用户指示挡风玻璃的要显示信息的区域或者指示环境中的对象(使用以下描述的技术)，则可以在屏幕上显示信息，由此信息对用户而言看似仿佛显示在挡风玻璃上的所指示的位置处或者显示在挡风玻璃上的环境中的对象的投影上。如下面结合图9讨论的，当使用这种AR技术时，屏幕上的显示信息的位置可以部分地取决于用户的头部或眼睛相对于挡风玻璃或环境的姿势。已知的AR技术可以用于在屏幕上的某一位置处显示信息，使得对用户而言，该信息出现在挡风玻璃中的某一位置处，其中该位置是基于用户的头部或眼睛的姿势、运载工具的3D模型、环境的3D模型和/或其它因素来计算的。

本文描述了与汽车一起使用多模态接口的示例。本文使用的“汽车”包括各种类型的轮式机动运载工具，包括小汽车、轿车、运动型多用途车(SUV)、卡车(包括轻型、中型、重型和其它类型的卡车)、公共汽车和其它运载工具。然而，本领域技术人员将理解，本文描述的技术可以容易地与除了汽车之外的运载工具类型一起使用。例如，本文描述的多模态接口可以与船只、飞机、建筑设备、农业设备、军事设备和其它类型的运载工具一起使用。

在下面的一些示例中，操作多模态用户接口的用户可以被称为汽车的“驾驶员”。应当理解，实施例不限于从任何特定人接收命令。在一些情况下，操作多模态接口的用户可以是驾驶员，而在其它情况下，操作多模态接口的用户可以是乘客。还应当理解，实施例不限于与人主动驾驶运载工具或以其它方式控制运载工具的操作的运载工具一起操作，或者不限于在人主动驾驶或控制运载工具的操作的时间处操作。用户可以在运载工具不移动时操作多模态接口。此外，用户可以在运载工具完全自主的情况下操作多模态接口，或者在用户可以处于当用户请求运载工具退出自主模式时或者当运载工具出于任何其它原因退出自主模式时控制运载工具的位置的自主模式下操作多模态接口。

下面描述的是多模态接口的各种示例和可以操作多模态接口以与用户交互的方式的示例。然而，应当理解的是，实施例不限于结合以下任何具体示例操作，因为这些示例仅仅是说明性的。其它实施例也是可行的。

图1示出了可以根据本文描述的技术操作的汽车的多模态用户接口100的示例。图1的示例中的汽车包括可以显示信息的挡风玻璃102。驾驶员104可以操作多模态用户接口以改变信息的显示或请求其它任务的执行。

图1示出了投影在挡风玻璃102上供驾驶员104查看的用户接口元素106A、106B的两个示例。可以使用将光输出到挡风玻璃102上的投影仪108将元素106A、106B投影在显示器上。在一些实施例中，如上所述，挡风玻璃102可以具有部分反射层以反射投影光并形成元素106A、106B的显示。在其它实施例中，投影仪108可以通过投影被空气和挡风玻璃102之间的接合部分反射并朝向驾驶员104反射的光来投影光以形成HUD。可以使用其它类型的显示，因为实施例在这方面不受限制。

如图1所示，元素106A是标记为“电话”的矩形，以显示与同多模态用户接口100相关联的电话(例如，驾驶员104的智能电话或其它电话)有关的信息。元素106A可以显示由电话传输到多模态用户接口100的信息，诸如与来电或其它消息有关的信息(例如，电子邮件、SMS消息等)或与电话相关的其它信息(例如，日历提醒、应用通知等)。图1示出了显示由电话中继到接口100的天气信息的元素106A，示出了天气是“45°”和“晴天”。元素106B是标记有“音乐”的矩形，以显示与可能正在汽车中播放或可以在汽车中播放的音频有关的信息。例如，元素106B可以显示与汽车收音机的当前状态有关的信息，诸如收音机调到的AM/FM无线电台等，或者可以显示与在关联于多模态用户接口100的电子装置(例如，驾驶员104的智能电话或其它装置)上存储和/或正播放的音乐有关的信息。

应当理解，元素106A、106B只是可以显示的信息类型的例示，并且可以显示其它类型的信息。例如，可以显示导航信息，或者可以显示新闻头条，或者可以显示股票市场信息，或者用户可以使用计算装置查看的任何其它类型的信息。实施例不限于以任何特定类型的信息进行操作。下面描述用户和多模态用户接口100之间的交互的示例，这可能引起显示各种类型的信息。

驾驶员104可以通过经由多模态用户接口100的一个或多个输入模态提供输入来操作多模态用户接口100以进行各种任务。实施例不限于以任何特定类型的任务进行操作。

在一些实施例中，任务可能涉及多模态用户接口100的显示的配置或定制。例如，图1示出了在挡风玻璃102的中间的元素106A、106B(其中元素106A以垂直堆叠的方式显示在元素106B上方)，并且将元素106A、106B示出为具有相同形状(矩形)和大小。驾驶员104可以操作多模态用户接口100以改变元素106A、106B的位置、形状或大小，或者向显示添加具有新信息的新元素，或者从显示中移除元素。例如，驾驶员104可能期望将电话显示移动到挡风玻璃102的右手侧的汽车的前排乘客座椅的前面。为此，驾驶员104可以经由接口100的语音接口提供语音输入以“将电话显示移动到那里”，并且可以经由多模态用户接口100的另一接口提供指示挡风玻璃上的驾驶员104希望显示元素106A的位置的几何输入。作为另一示例，驾驶员104可能期望添加导航显示。为此，驾驶员104可以经由接口100的语音接口提供语音输入以“在这个形式中显示导航”，并且可以经由多模态用户接口100的另一接口提供指示挡风玻璃102上的位置和驾驶员104希望在该位置处显示导航信息的形状的几何输入。

在其它实施例中，任务可能不涉及接口100的配置，而是可能涉及汽车正运行的环境。例如，驾驶员104可能期望更多地了解汽车正经过的地标。为了查询，驾驶员104可以经由接口100的语音接口提供语音输入以“告诉我关于那个”，并且经由多模态用户接口100的另一接口提供指示地标的几何输入。响应于该任务，多模态用户接口100可以识别地标，经由网络连接查询关于地标的信息，并且向驾驶员104输出关于地标的信息。接口100可以通过在挡风玻璃102上显示信息来输出该信息以及/或者可以使用文本到语音技术或其它音频生成技术来输出信息作为音频。

在一些实施例中，多模态用户接口100可以包括一个或多个其它输入模态，其使得用户(例如，驾驶员104)能够诸如通过指示位置等来提供几何输入。一些这样的输入模态可以通过接收指示方向或角度(多模态用户接口100可以从该方向或角度确定位置)的输入来接收指示该位置的输入。在一些实施例中，如上所述，其它输入模态可以包括注视检测接口110和/或手势识别接口112。

注视检测接口110可以跟踪汽车中的一个或多个人的眼睛的移动，以确定在每一时间瞬间各个人的注视的方向。在图1所示的实施例中，实施注视检测接口110以仅跟踪一个人(驾驶员104)的注视，但是应当理解，实施例不限于此。在一些实施例中，可以针对汽车的各个座位实施注视检测接口110，使得注视检测接口110可以跟踪汽车中的各个驾驶员或乘客的注视。

在图1的示例中，注视检测接口110包括发光元素以及光检测元素。具体地，注视检测接口110包括红外照相机和每组四个共两组的八个红外(IR)发光二极管(LED)。红外光沿驾驶员104的面部的方向从LED发射，以照射驾驶员104的眼睛。红外照相机捕获由驾驶员104的眼睛反射的一些IR光。使用用于注视检测的已知图像处理技术来配置注视检测接口，以根据对由红外照相机捕获的反射IR光的分析来确定驾驶员104正观看的方向或角度。然而，应当理解，包括注视检测的实施例不限于使用任何特定形式的注视检测。可以使用其它注视检测系统和技术。

可以使用用于手势识别的任何已知技术来实现手势识别接口112。在图1的实施例中，手势识别接口112包括用于至少在驾驶员104的区域中捕获汽车的客舱的图像的照相机。已知图像处理技术可以用于确定用户的手势。这种手势可以包括用手指或手指着、抬起手臂或手、降低手臂或手、打开或闭合手、移动手臂或手以通过手臂或手的移动或其它运动来描绘形状的轮廓。实施例不限于以任何特定类型的手势或任何特定类型的手势识别进行操作。

使用以下描述的技术，当使用注视检测接口110或手势识别接口112或其它非语音接口来与任务相关地提供几何输入、并且经由语音接口提供描述任务的语音输入时，多模态用户接口100可以根据语音输入和几何输入来进行任务。在一些实施例中，如下面更详细讨论的，进行任务可以包括：诸如通过根据模型分析用户利用非语音输入所指示的方向或角度等来从几何输入确定由几何输入指示的位置，以确定模型中的由方向或角度指示的位置。

图2示出了可以使用与图1中的多模态接口类似的多模态接口的示例性系统200的组件。图2的系统200包括汽车202和用户204，用户204可以是汽车202的驾驶员或乘客。汽车202可以包括多模态接口206，多模态接口206可以实现上文结合图1描述的技术和/或本文描述的其它接口技术。

多模态接口206包括用于处理由用户204提供的语音输入的语音接口208。在一些实施例中，用户204可以通过经由语音接口208提供描述用户204希望进行的任务的语音输入来操作多模态接口206。为了确定任务，语音接口208可以使用可实现自动语音识别(ASR)技术的语音识别引擎210以及可实现自然语言处理(NLP)和/或自然语言理解(NLU)技术的自然语言处理器212来处理语音输入。

语音识别引擎210可以接受由语音接口208的一个或多个麦克风接收的输入音频信号作为输入，该语音接口208可以包括在汽车202中。语音识别引擎210可以应用合适的ASR技术来识别包括在语音输入中的词语和/或短语，诸如使用一个或多个声学模型、词典、语法和/或语言模型等。实施例不限于以任何特定ASR技术进行操作。语音识别引擎210可以输出识别结果，该识别结果包括语音识别引擎210已经确定可能包括在语音输入中的词语或短语。在一些实施例中，语音识别引擎210还可以输出置信度分数，该置信度分数是由语音识别引擎210生成的指示输出的识别结果是正确识别结果的可能性的度量。在一些实施例中，语音识别引擎210还可以以N最佳识别结果列表的形式输出多个潜在备选语音识别结果和与各个这样的潜在备选结果相关联的置信度分数。

语音识别引擎210的输出(包括一个或多个识别结果的词语和/或短语以及在一些实施例中相关联的(一个或多个)置信度分数)可以被提供给自然语言处理器212。自然语言处理器212可以分析词语和/或短语以确定由词语和/或短语表达的含义。该含义可以指示用户204请求进行的任务。例如，用户204可能提及移动显示上的元素、或者向显示添加元素、或者改变元素被显示的方式(例如，改变颜色、大小、形状等)、或者环境中的用户204希望获得更多信息的对象、或者将与对象有关的信息发送给其它人、或者各种其它任务中的任一个。自然语言处理器212可以语义地解释由语音识别引擎210输出的词语和/或短语，以确定由语音输入表达的含义并确定由用户204请求的任务。自然语言处理器212可以包括用以将词语或短语链接到用户204可能表达的概念的一个或多个本体(ontology)，诸如与用户接口交互概念或用户204可能请求进行的其它任务相关的本体等。实施例不限于实现用于确定由用户204在语音输入中描述的任务的任何特定NLP或NLU技术。

在一些实施例中，作为确定用户204请求进行的任务的部分，自然语言处理器212可以确定为用户204已经提供了歧义输入或者已经提供了不足以进行用户204请求的任务的输入。例如，如果用户204要说出“移动那个元素”作为请求移动显示上的信息的部分，则多模态接口206可能没有足够的信息来进行任务，因为用户204没有指示期望的目标位置。作为另一示例，如果用户204要说出“改变那个元素”，则用户204可能期望对显示上的元素进行各种改变中的任何一种(例如，改变颜色、形状、大小等)，但是对于多模态用户接口206而言可能不清楚用户204希望改变什么。在一些实施例中，如果自然语言处理器212确定为提供了不足的输入或歧义输入，则自然语言处理器可以指示歧义或不足，并且语音接口208可以提示用户204解决歧义或输入附加信息。在一些这样的实施例中，语音接口208可以经由语音合成引擎214输出提示。语音合成引擎214可以使用任何合适的语音合成技术(包括输出预先记录的音频或文本到语音(TTS)技术)向用户204输出语音的音频。在一些实施例中，语音合成引擎214还可以用于向用户204输出其它信息，诸如输出由用户204请求的信息(例如，由用户204请求的关于地标的信息)、或导航信息、或任务进行的确认、或其它信息等。

在一些实施例中，自然语言处理器212还可以识别不是通过提示用户204解决而可以通过经由多模态接口206的其它输入模态所接收的输入来解决的歧义。例如，语音输入可以包括指代接口206的显示或汽车的环境中的位置的术语、或者指代接口206的显示中的特定元素或环境中的对象的术语、或者指代其它位置信息的术语。这样的术语可以包括指示代词(如“那个(that)”或“这个(this)”)或者位置副词(如“这里(here)”或“那里(there)”)。使用这些示例，当自然语言处理器212在语音输入中识别作为指示代词或位置副词的术语、并且确定为该术语是指要进行的任务的参数时，自然语言处理器212可以针对多模态接口206识别该术语，并且识别出该术语式被消除歧义以进行任务。然后，多模态接口可以使用多模态接口206的其它输入模态来确定由术语提及的位置或对象。

在图2的实施例中，多模态接口206的其它输入模态包括注视检测接口216和手势识别接口218。当自然语言处理器212(例如，根据对指示位置或对象的术语(诸如指示代词或位置副词等)的检测)确定为语音输入包含可通过经由另一模态所接收的输入来解决的歧义时，多模态接口206将从注视检测接口216和/或手势识别接口218获得经由这些接口中的一个(或两个)提供的几何输入。例如，多模态接口206在从自然语言处理器212接收要从非语音模态中的至少一个获得附加输入的指示时(以及在一些实施例中提供该附加输入的时间)，可以请求接口216、218中的一个或两个提供由接口接收的几何输入。对于一些任务，这种几何输入可以是用户204观看或做手势的角度或方向。对于其它任务，这种几何输入可以是用户204抬起或放下手或手臂的量。对于其它任务，这种几何输入可以是由用户204的手势或注视绘制的形状。

对于一些任务，在从接口216、218中的一个或两个接收几何输入时，多模态接口206可以确定由几何输入指示的位置。例如，如果语音输入描述了要相对于显示上的“那个”信息或相对于“那里”进行的任务，则多模态接口206从几何输入确定由用户指示的且与术语“那个”或术语“那里”相关联的位置。为此，在一些实施例中，多模态接口206可以利用一个或多个三维(3D)模型220。

模型220可以包括汽车202的三维模型。汽车202的模型可以包括汽车202的组件的放置(诸如汽车的挡风玻璃、仪表板组件或其它组件的放置等)的定义。使用与驾驶员的头部、手臂或手的位置有关的信息和从接口216、218接收的几何输入，多模态接口206可以确定模型中与几何输入相对应的位置。例如，如果从接口216、218接收的几何输入是用户观看的角度或方向，则接口206可以确定模型中的沿着该角度或方向绘制的线将与模型中的组件(例如，仪表板或挡风玻璃)相交处的位置。接口206可以使用与由接口216、218提供的几何输入定义的矢量相关地分析模型的物理引擎或碰撞检测引擎进行该确定，所述矢量从用户204的眼睛的位置(在注视检测的情况下)或从用户204的手的位置(在手势识别的情况下)延伸。汽车202的这种模型可以从汽车202的制造商获得，或者从由汽车制造商提供的汽车202的计算机辅助绘图(CAD)图生成。可替代地，可以通过进行汽车202的三维扫描来生成模型。可以针对汽车的不同品牌和模型获得和/或生成这样的模型。

模型220可以另外地或可替代地包括汽车202正行驶的环境的三维模型。这种三维模型可以包括例如与环境中的建筑物和其它对象相对应的三维元素。可以根据从地图绘制服务检索的地图数据来构造这样的模型。这样的地图数据可以是包括用于环境中的对象的三维数据的三维地图数据。可替代地，这样的地图数据可以包括指示建筑物和其它对象的占地的二维地图，并且对于各个这样的建筑物或对象还包括高度数据。在后一种情况下，二维占地数据可以与高度数据一起处理以生成三维模型中的多个三维元素，其中各个元素具有与由地图绘制数据所标识的占地相匹配的占地，然后在所有侧上直线向上延伸至针对建筑物/对象所指示的高度。使用与先前段中描述的技术类似的技术，可以与模型一起分析经由接口216、218提供的几何输入，以确定沿着由几何输入指示的角度或方向绘制的线将与模型中所表示的建筑物或其它对象相交处的位置。

多模态接口206还可包括显示器222，显示器222可以用于向用户204输出信息。如上所述，显示器222可以包括经由汽车202的挡风玻璃的部分反射层将信息向挡风玻璃的投影、以HUD的方式将信息向挡风玻璃的投影、增强现实(AR)显示器、用户204佩戴的装置上的显示器或其它形式的显示器。实施例不限于以任何特定形式的显示器进行操作。

在一些实施例中，多模态接口206可以在汽车202制造时由汽车202的制造商在汽车内实现。在这种情况下，多模态接口206可以是汽车202的原始设备制造商(OEM)组件。在其它实施例中，多模态接口206的一个、一部分或所有组件可以在汽车202的制造和销售之后添加到汽车202，诸如以汽车202的售后产品的形式等。实施例在这方面不受限制。

实施例不限于以任何特定方式实现多模态接口206及其组件。在一些实施例中，多模态接口206的各个组件可以至少部分地以在一个或多个处理器上执行的计算机可执行指令的形式来实现。在一些实施例中，在多模态接口206执行的处理器位于汽车202内的状态下，多模态接口206可以完全在汽车202内实现。在其它实施例中，可以使用客户端服务器技术来实现多模态接口206，其中接口206的一部分在汽车202内实现，并且一部分相对于汽车202远程实现。例如，可以在汽车202内实现接口206的感测组件(例如，注视检测接口216的IR LED和IR照相机)和接口206的输出组件(例如，用于语音接口208、显示器222的麦克风和扬声器)，但是可以在一个或多个服务器中相对于汽车202远程实现分析功能。这种分析功能可以包括语音识别引擎210、自然语言处理器212、用以构建和/或分析模型220的接口206的功能、接口216、218的图像处理和/或任何其它功能。应当理解，实施例不限于以任何特定方式在客户端和服务器之间划分功能，并且可以基于例如汽车202处可用的计算资源、无线连接的可用性和/或无线连接的带宽以各种方式进行功能划分。

因此，在一些实施例中，在操作期间，多模态接口206可以与可以相对于汽车202远程实现的一个或多个计算装置224通信。这种计算装置224可以包括一个或多个数据存储器224A，一个或多个数据存储器224A包括可以由多模态接口206作为进行用户204经由多模态接口206指定的任务的部分所使用的信息。例如，如果用户204请求与环境中的建筑物有关的信息，则一旦多模态接口206识别出建筑物，则接口206可以向一个或多个服务器224查询与建筑物有关的信息。向服务器224的查询可以包括提交到搜索引擎的Web搜索，或者可以包括任何其它类型的查询。作为另一示例，如果用户提交对导航信息的查询，则可以向与地图绘制/导航服务相关联的服务器224提交查询。

当汽车202的组件(例如，接口206的组件)与远程计算装置通信时，可以经由一个或多个通信网络226发送和接收通信。网络226可以是一个或多个有线和/或无线通信网络，包括因特网。在一些情况下，网络226可以包括无线广域网(WWAN)，诸如蜂窝网络等，汽车202通过该无线广域网发送和接收通信。汽车202可以使用用于通过(一个或多个)网络226中的网络传输无线通信的网络适配器进行无线通信，网络适配器可以是与汽车202具体相关联的网络适配器和/或可以是当用户204在汽车202中乘坐时存在于汽车中的用户204的通信装置(诸如智能电话等)。

以上结合图1至2讨论了多模态接口及其组件的示例。图3至10示出了根据本文描述的一些技术可以由一些多模态接口实现的技术的示例。

图3示出了在一些实施例中可以由多模态接口实现以基于由用户提供的多模态输入来进行任务的处理300。图3的处理300可以与诸如汽车(包括上面结合图1至2讨论的接口和汽车的示例)等的运载工具的多模态接口一起使用。多模态接口可以配置有一个或多个模型，诸如使用多模态接口的汽车的模型等。处理300可以由多模态接口的任务设施进行。任务设施可以实现为在多模态接口的一个或多个处理器上执行的计算机可执行指令，多模态接口可以相对于汽车是本地的和/或远程的。任务设施可以与多模态接口的组件交互以确定用户请求进行的任务，然后进行该任务。

处理300开始于框302，在框302中，任务设施经由多模态语音接口的语音接口接收语音输入。任务设施可以通过随时间推移监视音频以从上下文线索确定用户何时向语音接口提供语音输入(而非例如与汽车的另一位乘客说话、与收音机一起唱歌或发出其它声音)或者通过用于接收语音输入的任何其它技术，以任何适当的方式(包括响应于来自用户的显式输入(诸如经由语音接口触发语音输入的接收的触发词语或者用户按压以指示语音输入的开始的触发按钮等))来接收语音输入。在框304中，任务设施请求处理语音输入以确定由语音输入描述的任务。处理语音可以包括对语音进行ASR和/或自然语言处理，包括使用上文结合图2描述的技术。该处理还可以包括将语音输入与要进行的任务匹配。在一些实施例中，任务设施可以配置有与可利用多模态接口进行的任务集合有关的信息。各个任务可以与定义任务并且要被输入以使得能够进行该任务的一个或多个参数的集合相关联。例如，对于涉及在显示中移动用户接口元素的任务，该任务可能需要输入两个参数：要移动的用户接口元素的标识以及该用户接口元素的期望目标位置的标识。

在框306中，任务设施基于来自语音输入的处理的输出来确定语音输入是否包括与要进行的任务有关的歧义，使得任务不清楚或不能进行。如果是，则在框308中，任务设施与用户在框308中就歧义进行交互以获得附加信息。框308的交互可以经由语音接口，通过经由语音合成向用户输出提示并且接收附加语音输入。交互的精确方式可能取决于要解决的歧义性。例如，如果框304的处理不能将语音输入与任务匹配，则任务设施可以在框308中提示用户提供与用户希望进行的任务有关的更多信息。

一旦任务设施在框306中确定对于要进行的任务没有歧义并且已经提供了足够的信息进行该任务，则任务设施在框310中确定语音输入是否指示已经提供了针对该任务的非语音输入。语音输入可以指示由于没有足够的信息进行语音输入中包括的任务并且由于语音输入包括涉及缺失的信息的歧义而提供了非语音输入。例如，任务设施可以从框304中的语音输入的处理(例如，使用自然语言处理)确定为语音输入包括关于语音输入“将那个元素移动到那里”中的“那个”和“那里”的含义的歧义。另外，任务设施可以从框304中的语音输入的处理(例如，使用自然语言处理)确定为语音输入涉及正在显示中移动用户接口元素的任务。如上所述，任务设施可以配置有与该任务有关的信息，该信息指示该任务需要输入要移动的用户接口元素的标识和该用户接口元素的期望目标位置的标识。任务设施可以从自然语言处理器接收输出，该输出指示“那个”和“那里”是歧义的，但是“那个元素”的含义是用户提及的特定元素，并且“那里”的含义是用户提及的位置。任务设施可以确定为这两个歧义涉及任务的所需信息，并且可以通过确定在提供语音输入时用户是否提供其它非语音输入来确定为歧义可以被解决。

在一些实施例中，任务设施还可以基于语音输入中的某些类型的词语或短语的存在(诸如是否包括语音的某些部分等)来确定是否提供了非语音输入。例如，如果框304的自然语言处理指示语音输入包括指示代词(例如，“这个”和“那个”)或位置副词(例如，“这里”和“那里”)。任务设施可以被配置为在包括这样的术语时获得非语音输入。

如果是，则在框310中，任务设施获得并处理经由多模态接口的其它模态(诸如注视检测或手势识别等)接收的非语音输入。如下面更详细讨论的，任务设施可以向其它输入模态查询是否在与语音输入相关联的一次或多次期间提供输入。任务设施还可以处理经由其它输入模态获得的输入(诸如几何输入(例如，所指示的方向或角度、所指示的大小或所指示的形状)等)，以确定要进行的任务的参数。例如，如上面和下面更详细地描述的，如果任务设施确定为注视检测和/或手势识别确定了用户观看或做手势的特定角度或方向，则任务设施可以根据模型分析该角度或方向以确定用户所提及的位置或用户利用输入所提及的对象。

一旦任务设施已经获得并处理解决了语音输入中的歧义的非语音输入，或者如果任务设施在框310中确定为没有提供非语音输入，则任务设施进行由用户请求的任务。在一些情况下，进行任务可以包括根据任务来更新多模态接口的显示以改变所显示的信息或显示信息的方式。在其它情况下，进行任务可以另外地或可替代地包括从远程计算装置检索信息以获得要输出(包括经由显示和/或语音合成接口输出或者以任何其它合适的方式输出)到用户的信息。在其它情况下，进行任务可以包括触发向诸如其它用户等的一个或多个目的地传输一个或多个消息。由于实施例不限于以任何特定类型的任务进行操作，因此进行任务可以包括进行各种操作。

在一些实施例中，进行任务还可以包括将多模态接口配置为在稍后的时间根据任务采取动作。例如，用户可以请求在输入时进行一些任务(例如，“将那个信息移动到那里”)，并且可以请求进行涉及对多模态接口进行编程以按某种方式进行的一些任务。作为后一类别的示例，用户可以提供语音输入请求“当接收到电话呼叫时，将呼入呼叫通知放置在那里”并且提供指示显示上的位置的非语音输入。任务设施可以配置多模态接口，使得当接收到呼入呼叫时，在所指示的位置显示通知窗口。但是，任务设施可以不改变输入时的显示或提供除了接收到输入的确认和/或任务的进行之外的输出。

一旦任务设施进行用户请求的任务，则处理314结束。

虽然在图3中未示出，但在一些实施例中，如果在接收和处理语音和非语音输入之后，任务设施确定输入中依然歧义或存在不足以进行任务的信息(诸如由于缺少任务的一个或多个参数等)，则任务设施可以在进行任务之前与用户交互。例如，在某些情况下，非语音输入可能是歧义的。运载工具的驾驶员可以在挡风玻璃上的驾驶员希望定位用户接口元素的位置处快速地瞥一眼，但是可能瞥得过快以使注视检测设备不能确信用户正在观看的角度。或者，如果用户使用不是点的手势(例如，挥手)朝向挡风玻璃的一部分做手势，则该手势可能不足以精确地使任务设施确定将用户接口元素移动到的新位置。或者，语音输入和非语音输入的组合可能仍然缺乏进行任务所需的一些信息。因此，在一些实施例中，任务设施可以如框308中那样与用户交互，以在框314中继续进行任务之前获得附加语音和/或非语音输入并确定任务所需的各个参数。

另外，虽然在图3中未示出，但在一些实施例中，任务设施可以确定接收到语音输入的用户，以确定要接收非语音输入的用户。在一些实施例中，多模态接口可以诸如通过仅接受来自汽车的驾驶员的输入等仅以汽车中的一个人来操作。在这样的实施例中，当接收到语音输入时，可以针对非语音输入来监视一个被监视的人(例如，驾驶员)。然而，在其它实施例中，多模态接口可以接受来自汽车中的任何人的输入，并且可以被配置为接受来自任何这样的人的多模态输入。因此，在一些实施例中，任务设施可以诸如通过使用音频定位或位置检测来分析语音输入、或者在用户在提供语音输入之前按下按钮或提供另一显式输入的情况下通过识别按下了哪个用户的按钮等，来确定汽车中提供非语音输入的人。然后，任务设施可以从非语音输入模态获得该人在语音输入期间提供的输入。

图3描述了从非语音模态获得非语音输入(包括可以指示用户观看或做手势的角度或方向的几何输入)并且从该非语音输入确定位置或对象的处理。图4A和4B是可用于非语音输入的这种获得和处理的处理的示例。

图4A的处理可以用于识别挡风玻璃上由用户指示的位置，如果用户提供与用户接口的控制或定制有关的语音输入，则这可能是有用的。在图4A的开始之前，诸如可以从汽车的制造商或从汽车(或相同品牌和型号的另一汽车)的3D扫描中接收汽车的3D模型。3D模型可以指示汽车的组件的位置，诸如仪表板、方向盘、HVAC(加热、通风和空调)通风口、挡风玻璃或汽车的其它组件的位置等。

图4A开始于框402，在框402中，任务设施从非语音输入(诸如通过使用注视检测接口检测到的用户的观看或经由手势识别接口的用户所提供的手势等)确定由用户指示的角度或方向。任务设施还可以从非语音输入模态确定角度或方向的开始位置。对于注视检测，诸如通过监视用户的头部姿态，开始位置可以与在输入注视时用户的眼睛的位置相对应。对于手势识别，开始位置可以与输入手势时用户的手或手臂的位置相对应。

接着，在框404中，任务设施可以确定从开始位置起沿着角度的线与汽车的挡风玻璃相交处的点。在一些实施例中，任务设施可以结合在开始位置开始并且沿着由非语音接口检测的角度/方向的矢量来分析模型。任务设施可以在该分析中使用碰撞检测引擎或其它物理引擎来确定模型中矢量何时与挡风玻璃相交。

在框406中，一旦任务设施确定挡风玻璃位置，该设施就输出用于进行任务的挡风玻璃位置，并且处理406结束。根据语音输入和任务，可以以任意方式使用挡风玻璃位置。例如，如果用户说出命令“将那个元素移动到那里”，则针对“那个元素”和针对“那里”，可以确定两个挡风玻璃位置，并且它们可以以不同的方式使用。针对“那个元素”的挡风玻璃位置可以与指示用户接口元素的当前位置的信息结合使用，以识别用户所提及的用户接口元素。针对“那里”的挡风玻璃位置可以用于识别移动的目标位置，使得任务设施将显示配置成在期望位置示出所识别的用户接口元素。应当理解，由于实施例不限于以特定任务进行操作，因此实施例也不限于以可以用非语音输入提及的特定用户接口元素进行操作。虽然已经给出了识别显示中的信息容器以移动该信息容器的示例，但是也可以使用非语音输入来识别用户希望交互的用户接口元素。例如，显示可以包括用户可以通过说出“按下那个按钮”的命令以及对该按钮观看或做手势而按下的虚拟按钮。作为另一示例，如果显示导航接口，则用户可以观看地图中的位置并提供语音输入“导航到那里”。实施例不限于可以在显示器显示的特定类型的内容或可以利用多模态输入来进行以与该内容交互的任务。

图4B的处理420可以用于识别汽车正运行的环境中的用户使用非语音输入所提及的位置或对象。例如，如果用户提供提及了环境中的对象(诸如关于环境中的地标的查询(例如，“那个雕像是什么？”或者“那个山的名称是什么？”或者“那个建筑物里有什么生意？”))的语音输入，则这可能是有用的。图4B的处理420可以利用汽车正运行的环境的3D模型。如上所述，可以从地图绘制服务检索3D模型和/或从由地图绘制服务提供的数据生成3D模型。在生成模型的一些情况下，如上文所讨论的，地图绘制服务可以提供环境中的对象的二维占地信息以及各个对象的高度信息，并且可以通过构造具有针对各个对象的元素的模型来生成3D模型，该对象具有由针对该对象的地图绘制服务数据指示的占地以及向上延伸到针对该对象的所指示的高度的直边。

处理420开始于框422，在框422中，任务设施从非语音输入(诸如通过使用注视检测接口检测到的用户的观看或经由手势识别接口的用户提供的手势等)确定由用户指示的角度或方向。任务设施还可以从非语音输入模态确定角度或方向的开始位置。对于注视检测，诸如通过监视用户的头部姿态等，开始位置可以与在输入注视时用户的眼睛的位置相对应。对于手势识别，开始位置可以与输入手势时用户的手或手臂的位置相对应。

在框424中，任务设施可以获得汽车正运行的环境的3D模型的至少一部分。在有源存储器中维护完整环境(诸如整个城市或整个区域等)的3D模型，这可能是计算密集型的。在一些实施例中，响应于用户对与环境有关的任务的输入，检索模型的一部分(该部分包括由用户提供输入时汽车的位置的数据)可能是有利的。模型的该部分也可以仅是汽车的周围的处于用户指示的区域中的一部分(而不是汽车的完整周围)。例如，任务设施可以获得模型的楔形或锥形，该楔形或锥形跟随在框422中确定的由开始位置和角度所定义的矢量。因此，在框424中，任务设施向数据存储器查询环境的3D模型的一部分。对数据存储器的查询可以包括汽车在环境中的当前位置，诸如其全球定位系统(GPS)位置以及用户在环境中观看的角度等。

在框426中，任务设施使用检索到的模型来确定模型中的元素与从框422的开始位置起沿着框422的角度的线相交处的点。在一些实施例中，任务设施可以结合在开始位置处开始并沿着由非语音接口检测到的角度的矢量来分析模型。任务设施可以在该分析中使用碰撞检测引擎或其它物理引擎来确定模型中矢量何时与元素相交。

在框428中，任务设施可以识别环境中与在框426中确定的模型的元素相对应的对象。为了识别与元素相对应的对象，任务设施可以查询关于对象的信息。查询可以包括确定模型的元素所对应的环境中的对象的街道地址或地理位置(例如，GPS位置)。识别街道地址或地理位置可以包括查看与在框424中检索的模型相对应的地图数据。一旦获得了街道地址或地理位置，任务设施可以诸如通过向Web搜索服务提交查询来向数据存储器查询关于街道地址或地理位置的信息。在某些情况下，诸如在可以获得地标的名称或可以获得建筑物的名称的情况下，可以通过查询获得附加信息。在其它情况下，查询可能不会得到附加的识别信息，并且街道地址或地理位置可能是任务设施可用于识别对象的内容。

在框430中，任务设施输出对象的标识，并且处理420结束。对象的标识可以以多种方式使用，因为实施例不限于以特定任务或任务的类型进行操作。例如，如果用户提供请求“将我导航到那个建筑物”的语音输入，并且任务设施通过处理420确定“那个建筑物”的标识，则任务设施可以接着获得并输出用户导航指令以将用户带到那个建筑物。作为另一示例，如果用户提供请求“那个山的名称是什么？”的语音输入，则诸如通过在显示上显示山的名称(例如，作为挡风玻璃显示上的山的AR注释)或者通过语音合成输出名称作为音频等，可以输出(如在框428中确定的)山的标识。在其它情况下，用户可以请求“将那个建筑物的地址发送给Kevin”，并且任务设施可以触发向(可以从用户的联系列表中识别出的)Kevin传输电子消息，该电子消息包括在框428中识别的建筑物的地址。实施例不限于以任何特定方式使用通过处理420获得的信息。

在上述各种示例中，多模态接口包括注视检测接口和手势识别接口。应当理解，实施例不限于包括这两个接口，并且在一些实施例中可以仅包括这两个接口中的一个接口。其它实施例可能不包括注视检测接口或手势识别接口，因为实施例不限于包括任何特定输入模态。然而，如上所述，本发明人已经认识到用于运载工具接口的注视检测和手势识别的优点。

在包括注视检测接口和手势识别接口这两者的一些实施例中，任务设施可以包括用以确定用户通过哪个输入模态提供与经由接口接收的语音输入对齐的输入的功能。当用户正操作运载工具时，用户可能环顾环境以确保运载工具的安全操作。因此，注视检测接口可以总是在每个时间点确定用户注视的角度，但是这可能不与由用户结合任务所提供的输入相对应。类似地，用户可能已经移动了用户的手或肢体，但是可能不旨在提供与任务相对应的手势输入。

此外，在一些情况下，任务设施可能难以在一次接收的两种类型的非语音输入之间进行区分，因为用户可能在与他或她做手势不同的方向上观看。

在一些实施例中，处理500可以用于确定用户使用哪个输入模态来提供与由语音输入描述的任务相关的非语音输入。处理500开始于框502，在框502中任务设施确定用户是否提供了注视输入。任务设施可以通过确定用户的注视是否落在与运载工具操作相对应的区域之外来确定用户是否提供了注视输入。在一些实施例中，在运载工具的驾驶员的前方并且在运载工具的行驶方向上的区域可以被认为是与运载工具的安全操作的监视相关联并且不与任何任务输入相对应的区域。如果用户在语音输入时间期间的注视落在该区域中，则可以确定用户在该时间期间没有提供注视输入。作为另一示例，任务设施可以执行像图4A和4B的处理那样的处理以针对任务确定用户的注视是否与挡风玻璃的用于显示的部分中的位置或者环境中的对象相交。如果没有确定挡风玻璃位置或对象，则可以确定用户没有提供注视输入。然而，如果确定了挡风玻璃位置或对象，则任务设施可以确定为用户提供了注视输入。

如果任务设施在框502中确定为用户没有提供注视输入，则在框504中，任务设施确定用户是否提供了手势输入。任务设施可以通过确定在语音输入时用户是否做出任何手势作为阈值事项来确定用户是否提供了手势输入。如果用户没有做出任何手势，则任务设施可以确定为用户没有提供手势输入。任务设施还可以通过与先前段中描述的类似地使用像图4A和4B中的处理那样的处理分析由用户做出的手势，来确定用户是否提供了手势输入，以针对任务确定用户的手势是否指示挡风玻璃的用于显示的部分中的位置或者环境中的对象。如果没有确定挡风玻璃位置或对象，则可以确定用户没有提供手势输入。然而，如果确定了挡风玻璃位置或对象，则任务设施可以确定为用户提供了手势输入。

如果在框504中确定用户已经提供了手势输入，则在框506中，任务设施诸如通过使用基于手势输入识别的挡风玻璃位置或对象等来使用手势输入。

然而，如果确定用户没有提供手势输入，则任务设施已经确定为用户既没有提供注视输入也没有提供手势输入，并且在框508中提示用户输入。

如果任务设施在框502中确定为提供了注视输入，则在框510中任务设施确定是否还提供了手势输入。任务设施可以以结合框504描述的方式进行框510的操作。如果设施确定为没有提供手势输入，则在框512，设施诸如通过使用基于注视输入识别的挡风玻璃位置或对象等来使用框502的注视输入。

然而，如果设施在框510中确定为提供了手势输入，则设施已经确定为提供了手势输入和注视输入这两者。这可能会对用户的输入产生歧义。在框514中，任务设施确定输入是否一致。设施可以例如通过确定输入是否指相同挡风玻璃位置(或阈值接近度内的位置)或环境中的相同对象来确定输入是否一致。例如，如果用户在提供非语音输入时在他或她做手势的方向上观看，则可能发生该情况。如果是，则在框516中，设施使用由这两个输入所指示的挡风玻璃位置或对象。

然而，如果任务设施在框514中确定为输入不一致，则任务设施在框518中提示用户提供标识位置或对象的输入。框518中的提示可以包括指示用户的注视输入与手势输入不一致的消息，并且提醒用户仅提供一个输入或提供一致输入。

一旦在框508、518中提示用户，或者在框506、512、516中使用输入，则处理500结束。

在上述示例中，多模态接口的任务设施确定与语音输入中的歧义相对应且涉及要进行的任务的非语音输入，诸如几何输入等。在一些实施例中，为了确定非语音输入，任务设施可以约束其对由非语音模态检测到的输入的分析。任务设施可以约束其分析的一种这样的方式是在时间上约束分析。注视检测设施可以例如在驾驶员正在操作运载工具的整个时间内跟踪驾驶员的眼睛位置。在由驾驶员提供语音输入的整个时间内，驾驶员的眼睛可被检测为处于各种位置，但不是所有这些位置可以与语音输入或用户期望进行的任务相对应。实际上，一部分眼睛位置可能与如下相对应：监视运载工具的行驶路径以确保运载工具的安全操作。因此，为了确保由任务设施检测到的非语音输入是由提供语音输入的用户期望的输入，任务设施可以将其对非语音输入的分析约束到一个或多个特定时间，或者以其它方式在时间中约束该分析。

图6A和6B示出了任务设施可以分析非语音输入以确定与用户提供的语音输入匹配的输入的方式的两个示例。在图6A的示例中，当(例如通过自然语言处理器)分析语音输入并且在语音输入中检测到涉及任务的歧义时，自然语言处理器可以输出歧义的术语的标识以及用户说出与歧义相对应的词语或短语的时间。例如，对于语音输入“将导航显示移动到这里”，术语“这里”是涉及任务的可以使用非语音输入解决的歧义。自然语言处理器可以输出与术语“这里”相关的歧义的标识以及用户说出该术语的时间的标识。用户说出术语的时间可以是时间范围(从用户说出“这里(here)”的第一个声音(“h”)开始到用户说出“这里”的最后一个声音为止)。用户说出该术语的时间可以替代地是特定的时间点，诸如说出第一个声音的时间、说出词语的中间时间点、或者说出最后一个声音的时间、或者其它时间等。

处理600开始于框602，在框602中，任务设施接收语音输入(例如，术语“这里”)中的歧义的指示和与该歧义相关联的时间。框602中接收到的时间可以是精确的时间或时间范围。在框604中，任务设施分析在与框602中指示的时间匹配的时间处经由一个或多个非语音输入模态所接收到的非语音输入。与框602中指示的时间匹配的时间可以在框602中指示的确切时间，或者可以是框602中指示的时间+框602的时间之前和/或之后的阈值时间量。阈值时间量可以允许用户的动作中的一些变化，因为用户可能地在还驾驶汽车的同时提供语音输入和非语音输入。根据框604的分析，任务设施可以从注视检测接口或手势识别接口或其它接口接收由用户在与时间匹配的时间处提供的几何输入或其它输入。例如，这可以是用户在该时间处观看的角度。

在框606中，任务设施根据时间输出非语音输入。

虽然为了便于描述，针对单个歧义讨论了图6A，但应当理解，可以针对可包括在语音输入中的多个歧义中的各个歧义来重复图6A的处理。例如，对于语音输入“将那个元素移动到那里”，可以使用两次图6A的处理，以确定与“那个元素”相关的非语音输入和与“那里”相关的非语音输入。

在一些实施例中，自然语言处理器可能不输出与语音输入中包括的各个歧义相关联的特定时间。因此，任务设施可能无法确定分析可能与语音输入相对应的非语音输入的精确时间。在一些这样的实施例中，可以使用图6B的方法。

图6B的处理620开始于框622，在框622中，任务设施接收语音输入中包括的一个或多个歧义的指示。任务设施可以不接收各个歧义的时间戳(如结合图6A)，但可以接收接收到语音输入的时间的指示。作为响应，在框624中任务设施分析非语音输入以确定用户在语音输入的时间内提供的非语音输入的数量(诸如几何输入的数量等)。例如，任务设施可以操作注视检测接口，以确定在用户正说出语音输入的时间期间的多个位置、用户的注视暂停的次数和用户在各个这样的暂停正在观看的角度。这些暂停可以与用户提供的非语音输入相关联，并且涉及语音输入中的歧义。作为另一示例，任务设施可以操作手势识别接口以确定用户在该用户说出语音输入的时间期间输入的多个手势，因为各个这样的手势可能与语音输入中的歧义相关联。在框626中，任务设施将在框622中识别的歧义的时间顺序集合与在框624中识别的非语音输入的时间顺序集合匹配，使得第一歧义与第一非语音输入相关联，第二歧义与第二非语音输入相关联，等等。一旦在框626中输入与歧义相关联，则处理620结束。

如上所述，在一些实施例中，用户可以提供包括多个点的几何输入。这例如可以是用户正提供形状(诸如用户希望在显示中显示的用户接口元素的形状等)的输入的情况。可以使用图7的处理700来提供这种输入。

处理700开始于框702，在框702中，任务设施接收用户要提供包括多个点(诸如形状等)的非语音输入的指示。这可以基于确定为语音输入包括对“形状”或“形式”的提及(例如，“以该形状显示导航信息”)。在框704中，任务设施分析非语音输入(例如，注视输入、手势输入等)以确定由用户指示的多个点。这多个点可以是点的连续轨迹，诸如用户以注视或手势的掠过来“绘制”整个形状的情况等。可替代地，多个点可以是针对形状的离散点(诸如针对形状的各个角或顶点的点、或者针对角/顶点的点和沿着形状的线的多个其它点等)的集合。

在其它情况下，用户可以不提供定义整个形状的输入，而是可以仅输入表示形状的有限点。例如，用户可以通过输入针对形状的两个对角线角的点(例如，左上和右下)来定义矩形或正方形。或者可以通过标识圆的两个相对点来输入圆。在这种情况下，语音输入可以定义要绘制的形状(例如，“以该圆显示导航信息”)。

在一些实施例中，一旦用户已经提供了多个点的输入，则任务设施可以使用形状分类器对由多个点指示的形状进行分类。形状分类器可以被训练以根据用户提供的不完美输入辨别规则几何形状(例如，正方形、矩形、圆等)。以这种方式，即使在用户提供与矩形相似但不是矩形的输入的情况下，任务设施也能够将用户接口配置成在清晰分明的矩形内显示信息。这可以减轻用户提供精确输入的负担，使得多模态接口更易于操作。然而，应当理解，实施例不限于实现形状分类器，并且一些实施例可以在由用户绘制的任何形式的形状内显示信息。

在框708中，一旦任务设施已经使用形状分类器或根据在框704中确定的多个点识别了形状，则任务设施输出由该任务设置根据用户输入要进行的任务中所使用的形状。然后处理700结束。

在一些实施例中，用户能够将几何输入输入到包括大小信息或其它尺寸信息的多模态接口。例如，如果用户请求调整用户接口元素的大小，则用户可以经由非语音输入来输入大小。用户可以以各种方式中的任何方式来输入大小。图8示出了可以在一些实施例中使用的一个处理的示例，该处理通过手势输入来接收大小或其它尺寸的输入。

处理800开始于框802，在框802中，任务设施接收用户输入大小或其它尺寸的指示。可以诸如通过自然语言处理(例如，诸如“使那个元素这样大得多”等的语音输入)等从语音输入确定该指示。在框804中，任务设施操作多模态接口的手势识别接口以确定与用户期望的大小相关的手势。手势可以包括手指、手、手臂或其它附属物在语音输入的时间内从一个位置到另一位置的移动。在框806中，任务设施从检测到的手势导出大小。为此，任务设施将手势的开始和结束位置作为两组3D坐标(x，y，z)。任务设施使用以下等式计算两个坐标之间的矢量的大小：

其中，第一坐标为(x₁，y₁，z₁)，并且第二坐标为(x₂，y₂，z₂)。然后，在框808中任务设施将输出大小，并且根据所确定的大小(例如，通过根据用户的请求缩小或放大元素)来操纵用户接口元素并更新显示。然后处理800结束。

如在上面的各种示例中讨论的，在一些实施例中，多模态接口的显示可以诸如响应于用户对与汽车正在行驶的环境中的对象有关的信息的请求或响应于任何其它合适的条件等而包括该信息。在一些实施例中，可以在汽车的挡风玻璃显示(例如，如图1那样)中显示与环境中的对象有关的信息，使得示出的信息叠加在驾驶员视场中的对象上或以其它方式与该对象相关联，以提供“增强现实”用户接口。图9示出可以用于提供这种AR显示的处理的示例。

图9的示例处理900使用上述两个3D模型，即环境的3D模型和汽车的3D模型。处理900开始于框902，在框902中，任务设施识别环境中的要显示信息的对象。在框902中设施可以使用本文描述的技术(包括结合图4B)来识别对象。

在框904中，任务设施确定对象在汽车的AR显示上的投影。对象的投影是显示中的来自对象的光穿过显示(诸如通过当AR显示与汽车的挡风玻璃一体化时穿过挡风玻璃等)的位置。对象在AR显示上的投影取决于各种因素，包括用户观看显示的位置(例如，用户的头部和眼睛位置)以及汽车相对于对象的位置。

为了确定投影，任务设施确定与环境的3D模型中的对象相对应的3D元素(例如，矩形棱柱)的八个角，并且识别从各个角朝向用户的两只眼睛之间的点延伸的光线。然后，设施基于汽车的3D模型确定这八个光线将与汽车的挡风玻璃相交处的八个点。任务设施标识包含所有这八个点的矩形。该矩形是对象在AR显示上的投影。

在一些实施例中，任务设施可以基于汽车的当前位置和/或用户的头部/眼睛来确定驾驶员可见的3D棱柱的一部分，而不是仅确定环境模型中的3D棱柱的八个角。这可以包括确定可能部分遮挡驾驶员感兴趣的对象的其它对象，包括环境中的其它建筑物和/或其它运载工具。例如，基于环境的3D模型，任务设施可以确定环境中可能部分地遮挡期望对象的视图的一个或多个其它对象。作为另一示例，基于关于环境中的其它运载工具所获得的地理(例如，GPS)位置，任务设施可以识别可能部分地遮挡期望对象的视图的其它运载工具。基于部分障碍物(例如，用于环境中的其它对象的矩形棱柱、用于其它运载工具的矩形棱柱)的3D模型，任务设施可以确定期望对象的用户一次查看的部分。由此，任务设施可以识别正查看的部分的八个角，并且基于这八个角来确定如上所述的投影。

因此，在框906中，任务设施在投影或投影的一部分内显示与对象有关的内容，诸如对象的注释等。由于注释的正确性取决于投影的正确定位，因此在框908中，任务设施根据改变汽车位置和改变用户的头部/眼睛位置以及在一些实施例中基于改变环境中其它运载工具的位置来更新投影和更新注释。在一些实施例中，任务设施可以每秒多次重新计算投影。可以连续地更新投影，直到对象不再处于视图中(例如，汽车驾驶经过该对象)或用户请求不再显示信息为止。

上述各种示例包括允许描述用户希望进行的任务的信息的多模态输入的技术。如上所述，实施例不限于以任何特定任务或者语音或非语音输入的形式进行操作。下面提供一些实施例可以操作的任务和输入的说明性示例：

示例1：用户通过语音输入请求多模态接口显示新闻头条。在分析语音输入时，任务设施确定为用户没有指定位置，并且利用语音合成提示用户进一步输入。作为响应，用户说“将其放在这里”，并且提供指示挡风玻璃显示上的特定位置的注视输入。任务设施还可以确定为用户尚未指定用户希望新闻头条显示的形状，并且利用语音合成提示用户“绘制您喜欢的形式”。作为响应，用户通过用指示手指扫向挡风玻璃来勾勒形状，从而在挡风玻璃上“绘制”矩形。任务设施更新显示，以在指定位置处和指定矩形内示出新闻头条。

示例2：用户通过语音输入请求在屏幕上显示音乐播放器信息。在分析语音输入时，任务设施确定为用户没有指定位置，并且针对期望的位置而利用语音合成提示用户。用户提供附加语音输入“以该形式将其放在这里”，并且在该语音输入期间在显示中的特定位置处绘制形式(例如，圆形)。然后以用户绘制的形式在显示上显示音乐播放器。

随后，用户诸如通过说出语音输入“使音乐播放器变大”等来要求调整该形式的大小。在分析该新语音输入时，任务设施可以确定为用户尚未指示以多大示出音乐播放器，并且可以使用语音合成提示用户输入量。作为响应，用户可以将她的手对角线向上地移动。当用户的手移动时，任务设施监视移动并根据抬升的手而放大音乐播放器。当形式达到用户期望的大小时，用户会说“停止，这很好”，此时任务设施停止放大该形式。

示例3：在上述示例1中，提示用户形状并绘制显示所请求信息的自由形式的形状。在该示例中，用户输入使用形状分类器分析的自由形式的形状，以从自由形式的形状识别用户正在绘制的规则几何形状。

示例4：在上述示例1中，用户使用注视输入来指定要显示新内容的位置。在该示例中，用户可以(诸如通过指向期望位置等)输入手势而不是注视输入。

示例5：用户可能期望诸如通过说出命令“移动那个元素到那里”而在显示中重新布置用户接口元素。作为响应，任务设施确定与输入的两个不同部分(“移动那个元素”和“到那里”)相关联的时间戳。然后，任务设施将分析每次期间的注视输入。因此，设施可以将在输入的第一部分的时间内具有沿着用户的注视的线到元素之间的最高数量的“碰撞”的用户接口元素(参见图4A的讨论)确定为用户正提及的元素。然后，如图4A和6A中所描述的，设施可以确定挡风玻璃上的用户在说出短语“到这里”期间正观看的位置。然后，任务设施可以将所识别的用户接口元素移动到新位置。

示例6：在示例5中，用户使用注视提供输入。在该示例中，用户可以诸如通过指向元素和新期望位置等输入手势而不是注视输入。

示例7：用户可能期望与汽车正经过的环境中的对象(例如，地标)有关的信息，并且可以提供语音输入“告诉我更多关于那个”。任务设施可以通过识别环境中用户正观看或做手势的对象来确定由“那个”所提及的对象，并且可以在AR接口中显示与该对象有关的信息。

示例8：用户可能期望向其他人发送电子消息，该电子消息包括与环境的对象有关的信息，诸如建筑物的地址等。用户可以提供语音输入“将那个建筑物的地址发送给Kevin”。任务设施可以识别Kevin并从用户的联系列表获得他的联系信息。设施还可以根据用户在该用户说出该语音输入(或该语音输入的与“那个建筑物”相对应的部分)时的注视或手势来确定用户正提及的建筑物，并且获得该建筑物的地址信息。然后设施可以触发向“Kevin”传输包括地址信息的电子消息。

示例9：用户可能期望诸如通过提供语音输入“将那个点发送给Kevin”等将环境内的位置发送给联系人。任务设施可以识别Kevin并从用户的联系列表获得他的联系信息。设施还可以根据用户在该用户说出该语音输入(或该语音输入的与“那个点”相对应的部分)时的注视或手势来确定该用户正提及的点并获得该点的地址信息。在一些实施例中，可能难以精确地识别由用户利用注视输入所提及的位置，这是因为用户可能一直在环顾环境以确保汽车的安全操作。因此，在一些实施例中，获得用户在语音输入的持续时间内的注视。

可以对用户的注视相对于环境的三维坐标进行平均以确定单个坐标。然后，设施可以触发向“Kevin”传输包括环境中的该坐标的位置的电子消息。

示例10：用户可能期望定制多模态用户接口的显示中的用户接口元素的显示。用户可以说出命令“使那个为黄色”，并提供指示用户接口元素的注视或手势输入。与上述示例一致，任务设施可以确定挡风玻璃上的与“那个”相对应的位置，并识别该位置处的用户接口元素。然后，任务设施可以更新显示，使得所识别的用户接口元素以黄色示出。

因此，应当理解，可以在实施例中进行各种形式的任务，并且实施例不限于特定形式的输入或任务。

在一些实施例中，本文描述的多模态接口可以不用于定义用户希望在运载工具操作期间进行的任务。相反，多模态接口的组件可以用于在运载工具的驾驶员/其它用户在运载工具中的时间内监视驾驶员或其它用户，并且生成与该时间期间驾驶员/用户的行为有关的信息。例如，任务设施可以随时间(诸如在运载工具的点火装置被开启的时间和运载工具的点火装置被关闭的时间之间等)存储指示在运载工具的操作期间驾驶员/用户观看的环境中的对象的信息。随后，用户可以请求与用户随时间所观看的位置有关的信息。这种信息可以是示出环境中用户通常在该时间期间或多或少所观看的对象的“热图”。

图10示出了在一些实施例中可以由任务设施使用以生成用户随时间的注视的热图的处理的示例。图10的处理1000开始于框1002，在框1002中，任务设施获得指示运载工具行程的开始和结束的时间信息。开始和结束时间可以例如通过运载工具点火装置被开启和关闭的时间来定义。开始和结束时间可以另外地或可替代地由运载工具在超过阈值时间段(例如，2分钟、5分钟、30分钟、1小时等)内未移动(指示运载工具的操作可能已经停止)的时间来定义。可以使用其它方式来确定行程的开始和结束时间，因为实施例在这方面不受限制。

接着，在框1004中，任务设施从注视检测接口获得在开始时间和结束时间之间针对驾驶员检测到的注视位置的时间顺序序列。注视检测接口可以诸如每秒多次检测驾驶员在运载工具的整个操作中的注视位置。注视检测设施除了本文描述的多模态接口的操作之外可能出于多种原因而这样做，包括作为驾驶员监视系统的一部分以分析和警告驾驶员分心或疲倦。因此，注视检测接口可以在行程的开始时间和结束时间之间的时间内存储任务设施在框1004中可以获得的注视位置的时间顺序序列。

在框1006中，任务设施获得运载工具随着时间运行的环境的地图。这可以是环境的3D地图，诸如上面示例中描述的环境的3D模型等。可替代地，这可以是环境的二维地图。可以从任何合适的数据存储器获得地图，包括从任务设施可访问的地图绘制服务获得地图。

在框1008中，任务设施基于来自框1004的注视位置的时间顺序序列和来自框1006的地图来生成热图。根据在框1006中获得的地图的性质，热图可以是2D或3D热图，并且可以指示用户随着时间观看的位置。在块1006的地图数据是环境的3D模型的实施例中，本文描述的技术(例如，结合图4B)可以用于确定用户针对时间顺序序列中的各个注视位置所观看的对象，并且将注视位置与以下位置相关联，在该位置，沿着注视位置的线将与模型中的同对象相关联的元素相交。

作为生成热图的部分，在一些实施例中，任务设施可以采用滤波器以去除可能与观看运载工具的行驶路径相关联或者以其它方式与运载工具的操作相关联的注视位置。例如，对于汽车，任务设施可以过滤掉在运载工具行驶方向上的在驾驶员前方的注视位置。在其它实施例中，任务设施可以利用模型确定将与对应于街道或街道标志的模型的元素相交处的注视位置。利用这种滤波器，任务设施可以获得指示用户在运载工具的操作过程中观看的环境的对象的注视位置的时间顺序序列。

作为生成热图的部分，一旦任务设施将注视位置与地图数据中的位置相关联，则任务设施还可以针对地图的各区域识别注视位置的密度。然后，任务设施可以以不同的方式对不同密度的区域进行着色，以指示随着时间的高密度和低密度。注视位置的该密度可以指示驾驶员对该区域的注意力的量，诸如驾驶员观看该区域的时间量或驾驶员观看该区域的次数等。

在框1010中，任务设施输出热图以呈现给驾驶员或其它用户。例如，任务设施可以诸如经由多模态接口的显示或其它显示等，输出用于显示的热图。或者，任务设施可以将热图传输到其它计算装置。在输出之后，处理1000结束。

虽然将图10的处理1000描述为由多模态接口的任务设施执行，但应当理解，实施例不限于此。在其它实施例中热图可以由其它设施生成，其它设施可以在相对于汽车远程的计算装置上执行。例如，在一些实施例中，注视检测接口可以(例如，通过从汽车无线传输)向相对于汽车远程的数据存储器提供注视位置的时间顺序序列，并且远程计算装置上的设施可以进行像图10的示例那样的处理以生成热图。

还应当理解，实施例不限于出于任何特定原因或目的生成热图。在一些实施例中，可以诸如通过指示从道路转移的用户注意力的量等来生成热图作为潜在驾驶员分心的度量。例如，一旦生成，则可以(例如，编程地或由人手动地)检查该热图，以确定该热图是否示出可能与潜在驾驶员分心相对应的任何密度水平，诸如花费在环境中的对象上的注意力的量，其指示当时驾驶员潜在地没有足够地关注运载工具的操作。

根据本文描述的原理操作的技术可以以任何合适的方式实现。上面讨论中所包括的是一系列流程图，其示出操作汽车的多模态接口的各种处理的步骤和动作。以上流程图的处理和决策块表示在执行这些各种处理的算法中可能包括的步骤和动作。从这些处理导出的算法可以实现为与一个或多个单用途或多用途处理器的操作集成并指导该操作的软件、可以实现为诸如数字信号处理(DSP)电路或专用集成电路(ASIC)等的功能等效电路、或者可以以任何其它合适的方式实现。应当理解，本文所包括的流程图不描述任何特定电路或任何特定编程语言或编程语言类型的语法或操作。相反，流程图示出了本领域技术人员可以用来制造电路或实现计算机软件算法以进行执行本文描述的技术类型的特定设备的处理的功能信息。还应当理解，除非本文另有说明，否则在各个流程图中描述的步骤和/或动作的特定序列仅仅是可以实现的算法的图示，并且可以在本文描述的原理的实现和实施例中变化。

因此，在一些实施例中，本文描述的技术可以体现在实现为软件的计算机可执行指令中，包括实现为应用软件、系统软件、固件、中间件、嵌入式代码或任何其它合适类型的计算机代码。这种计算机可执行指令可以使用多种合适的编程语言和/或编程或脚本工具中的任一种来编写，并且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。

当本文描述的技术体现为计算机可执行指令时，这些计算机可执行指令可以以任何合适的方式实现，包括作为多个功能设施，各个功能设施提供一个或多个操作以完成根据这些技术操作的算法的执行。然而，“功能设施”是计算机系统的结构组件，其中当与一个或多个计算机集成并由其执行时使得一个或多个计算机进行特定的操作角色。功能设施可以是软件元素的一部分或整个软件元素。例如，功能设施可以实现为处理的功能，或实现为离散处理，或实现为任何其它合适的处理单元。如果本文描述的技术被实现为多个功能设施，则各个功能设施可以以其自身的方式实现；所有功能设施不需要以相同的方式实施。另外，这些功能设施可以根据需要以并行和/或串行方式执行，并且可以使用它们正在执行的计算机上的共享存储器、使用消息传递协议或以任何其它合适的方式在彼此之间传递信息。

通常，功能设施包括进行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。典型地，功能设施的功能可以根据期望组合或分布在它们操作的系统中。在一些实现中，执行本文技术的一个或多个功能设施可以一起形成完整的软件包。在替代实施例中，这些功能设施可适于与其它不相关的功能设施和/或处理交互，以实现软件程序应用。

本文描述了一些用于执行一个或多个任务的示例性功能设施。然而，应当理解，所描述的功能设施和任务的划分仅仅是可以实现本文描述的示例性技术的功能设施的类型的例示，并且实施例不限于以任何特定数量、划分或类型的功能设施来实现。在一些实现中，所有功能可以在单个功能设施中实现。还应当理解，在一些实现中，本文描述的一些功能设施可以与其它功能设施一起实施或与其它功能设施分开实施(即，作为单个单元或单独单元)，或者这些功能设施中的一些功能设施可以不实施。

在一些实施例中，可以在一个或多个计算机可读介质上编码实现本文描述的技术的计算机可执行指令(当以一个或多个功能设施或以任何其它方式实现时)，以向介质提供功能。计算机可读介质包括诸如硬盘驱动器等的磁介质、诸如紧致盘(CD)或数字多功能盘(DVD)等的光学介质、持久或非持久固态存储器(例如，闪速存储器、磁RAM等)或任何其它合适的存储介质。这种计算机可读介质可以以任何合适的方式实现，包括作为下文描述的图11的计算机可读存储介质1106(即，作为计算装置1100的一部分)或作为独立的单独存储介质。如本文所使用的，“计算机可读介质”(也称为“计算机可读存储介质”)是指有形存储介质。有形存储介质是非暂时性的，并且具有至少一个物理结构组件。在如本文所使用的“计算机可读介质”中，至少一个物理、结构组件具有至少一个物理性质，该物理性质可以在创建嵌入有信息的介质的处理、在其上记录信息的处理或者在用信息编码介质的任何其它处理期间以某种方式改变。例如，可以在记录处理期间改变计算机可读介质的物理结构的一部分的磁化状态。

在技术可以体现为计算机可执行指令的一些但不是所有的实现中，这些指令可以在一个或多个合适的计算装置上执行，所述一个或多个合适的计算装置在任何合适的计算机系统(包括图2的示例性计算机系统)中操作，或者一个或多个计算装置(或者一个或多个计算装置的一个或多个处理器)可以被编程以执行计算机可执行指令。计算装置或处理器可以被编程为当指令以计算装置或处理器可访问的方式存储(诸如在数据存储器(例如，片上高速缓存或指令寄存器、经由总线可访问的计算机可读存储介质、经由一个或多个网络可访问且由装置/处理器可访问的计算机可读存储介质等)中等)时执行指令。包括这些计算机可执行指令的功能设施可以与单个多用途可编程数字计算装置、共享处理能力并共同执行本文描述的技术的两个或更多个多用途计算装置的协调系统、专用于执行本文描述的技术的单个计算装置或计算装置的协调系统(共址或地理分布)、用于执行本文描述的技术的一个或多个现场可编程门阵列(FPGA)、或任何其它合适的系统集成并指导其操作。

图11示出了以计算装置1100的形式的计算装置的一个示例性实现，计算装置1100可以用于实现本文描述的技术的系统中，但其它计算装置也是可能的。应当理解，图11既不是用于根据本文中描述的原理操作的计算装置的必要组件的描绘，也不是全面描绘。

计算装置1100可以包括至少一个处理器1102、网络适配器1104和计算机可读存储介质1106。计算装置1100可以是例如运载工具(例如，汽车)的嵌入式计算机、台式或膝上型个人计算机、个人数字助理(PDA)、智能移动电话、服务器或任何其它合适的计算装置。网络适配器1104可以是使得计算装置1100能够通过任何合适的计算网络与任何其它合适的计算装置有线和/或无线通信的任何合适的硬件和/或软件。计算网络可以包括无线接入点、交换机、路由器、网关和/或其它联网设备以及任何合适的有线和/或无线通信介质或用于在两个或更多计算机之间交换数据的介质(包括因特网)。计算机可读介质1106可以适于存储要处理的数据和/或要由处理器1102执行的指令。处理器1102使得能够处理数据和执行指令。数据和指令可以存储在计算机可读存储介质1106上。

存储在计算机可读存储介质1106上的数据和指令可以包括实现根据本文描述的原理操作的技术的计算机可执行指令。在图11的示例中，计算机可读存储介质1106存储实现各种设施并存储如上所述的各种信息的计算机可执行指令。计算机可读存储介质1106可以存储任务设施1108、语音接口设施1110、一个或多个非语音接口设施1112(例如，注视检测设施和/或手势识别设施)以及显示设施1114。介质1106可以附加地存储要由一个或多个这样的设施使用的信息，包括可能进行的任务的定义1116和运载工具和/或环境的模型1118。

尽管在图11中未示出，但计算装置可以附加地具有一个或多个组件和外围装置，包括输入和输出装置。这些装置可以用于呈现用户接口等。可以用于提供用户接口的输出装置的示例包括用于输出的视觉呈现的打印机或显示屏以及用于输出的可听呈现的扬声器或其它声音生成装置。可以用于用户接口的输入装置的示例包括键盘和指示装置，诸如鼠标、触摸板和数字化平板电脑等。作为另一示例，计算装置可以通过语音识别或以其它可听形式接收输入信息。

已经描述了在电路和/或计算机可执行指令中实现技术的实施例。应当理解，一些实施例可以是提供了至少一个示例的方法的形式。作为方法的一部分进行的动作可以以任何适当的方式来排序。因此，可以构造实施例，其中动作以不同于所示的顺序来进行，这可以包括同时进行一些动作，即使在所示的实施例中示出为顺次动作。

以上描述的实施例的各个方面可以单独使用、组合使用或者以前述描述的实施例中未具体讨论的各种布置使用，并且因此在其应用中不限于在前述描述中阐述或附图中示出的组件的详情和布置。例如，在一个实施例中描述的方面可以以任何方式与在其它实施例中描述的方面组合。

在权利要求书中使用诸如“第一”、“第二”、“第三”等序数术语来修改权利要求元素本身并不意味着一个权利要求元素相对于另一个权利要求元素(或者进行方法的动作的时间顺序)的任何优先级、领先或顺序，而是仅用作标签来区分具有特定名称的一个权利要求元素和具有相同名称的另一个元素(但用于使用序数术语)以区分权利要求元素。

此外，本文使用的短语和术语是为了描述的目的，并且不应被视为限制性的。“包括(including)”、“包括(comprising)”、“具有”、“包含”、“涉及”及其变化的使用意指包括此后列出的项及其等同物以及附加项。

本文使用词语“示例性”意指用作示例、实例或图示。本文将任何实施例、实现、处理、特征等描述为示例性的，因此，应当理解为说明性示例，并且除非另有指示，否则不应当理解为优选或有利的示例。

这样描述了至少一个实施例的几个方面，应当理解，对于本领域技术人员而言将容易发生各种改变、修改和改进。这种改变、修改和改进旨在作为本发明的一部分，并且旨在处于本文描述的原理的精神和范围内。因此，前述描述和附图仅作为示例。

Claims

1.一种操作汽车的多模态用户接口的方法，所述方法包括：

从经由所述多模态用户接口的语音接口所提供的语音输入来确定用户正在请求进行的任务，所述任务与所述汽车的挡风玻璃上的信息的显示相关；

从所述多模态用户接口的至少一个其它输入模态来确定与所述任务相关的至少一个几何参数；以及

根据所述任务来更新所述汽车的挡风玻璃上的信息的显示。

2.根据权利要求1所述的方法，其中，从所述至少一个其它输入模态来确定所述至少一个几何参数包括至少部分地基于经由所述至少一个其它输入模态从用户接收的输入所指示的角度来确定位置。

3.根据权利要求2所述的方法，其中：

所述至少一个其它输入模态包括注视检测；

经由所述至少一个其它输入模态从用户接收的输入包括用户的注视，并且输入所指示的角度是使用注视检测所检测到的用户的注视的角度；以及

至少部分地基于所述角度来确定所述位置包括至少部分地基于用户的注视的角度来确定所述位置。

4.根据权利要求2所述的方法，其中：

所述至少一个其它输入模态包括手势识别；

经由所述至少一个其它输入模态从用户接收的输入包括用户的手势，并且输入所指示的角度是使用手势识别所检测到的用户的手势的角度；以及

至少部分地基于所述角度来确定所述位置包括至少部分地基于用户做手势的角度来确定所述位置。

5.根据权利要求2所述的方法，其中，至少部分地基于所述角度来确定所述位置包括：

使用模型来确定所述模型中的沿着所述角度的线将与所述模型中的对象相交处的点；以及

根据所述模型中的所述线将与所述对象相交处的点来确定所述位置。

6.根据权利要求5所述的方法，其中：

所述模型是所述汽车的三维模型；

所述模型中的对象是所述汽车的挡风玻璃；以及

所述模型中的所述线将与所述对象相交处的点是所述挡风玻璃上的点。

7.根据权利要求5所述的方法，其中：

所述模型是所述汽车在与所述语音输入的至少一部分相对应的时间正在行驶的环境的三维模型；

所述模型中的对象与所述环境中的对象相对应；以及

所述模型中的所述线将与所述对象相交处的点与所述环境中的对象上的点相对应。

8.根据权利要求2所述的方法，其中：

至少部分地基于所述角度来确定所述位置包括基于沿着所述角度的线与所述汽车的所述挡风玻璃的交点来确定所述挡风玻璃上的挡风玻璃位置；以及

更新所述汽车的所述挡风玻璃上的信息的显示包括更新所述挡风玻璃位置处的信息的显示。

9.根据权利要求8所述的方法，其中，更新所述挡风玻璃位置处的信息的显示包括将所述多模态用户接口中的信息的显示从所述挡风玻璃上的先前位置移动到从所述角度所确定的所述挡风玻璃位置。

10.根据权利要求8所述的方法，其中：

与所述挡风玻璃上的信息的显示相关的任务是在所述挡风玻璃上显示在用户提供所述语音输入时未在所述挡风玻璃上显示的所请求信息的请求；以及

更新所述挡风玻璃位置处的信息的显示包括将所请求信息显示在所述挡风玻璃上的所述挡风玻璃位置处。

11.根据权利要求10所述的方法，其中：

从所述多模态用户接口的所述至少一个其它输入模态中确定与所述任务相关的至少一个几何参数包括确定用户经由所述至少一个其它输入模态所指示的形状的轮廓，所述形状的轮廓包括用户利用经由所述至少一个其它输入模态提供的输入所指示的多个位置；以及

将所请求信息显示在所述挡风玻璃上的所述挡风玻璃位置处包括在所述挡风玻璃上以具有所述形状的用户接口元素显示所请求信息。

12.根据权利要求2所述的方法，其中：

用户正在请求进行的任务涉及获得与所述汽车的环境中的对象有关的信息；

至少部分地基于所述角度来确定所述位置包括基于每次沿着所述角度的线与所述汽车的环境的交点来确定环境中的环境位置；

至少部分地基于所述环境位置来识别所述环境中的对象；以及

更新所述汽车的挡风玻璃上的信息的显示包括在所述挡风玻璃上显示与所述环境中的对象有关的信息。

13.根据权利要求12所述的方法，其中，确定所述汽车的环境中的环境位置包括至少部分地基于所述汽车在所述环境中的地理位置并且至少部分地基于每次沿着所述角度的线与所述环境的交点来确定所述环境位置。

14.根据权利要求1所述的方法，其中，确定所述任务包括对所述语音输入进行语音识别和/或自然语言处理。

15.根据权利要求14所述的方法，其中，确定所述任务包括至少部分地基于所述语音识别和/或所述自然语言处理来识别用户在所述语音输入中提及并且与所述任务相关的信息。

16.根据权利要求1所述的方法，其中：

所述挡风玻璃包括部分反射层；以及

更新所述挡风玻璃上的信息的显示包括将更新的信息投影在所述挡风玻璃上。

17.至少一个计算机可读存储介质，其用计算机可执行指令编码，所述计算机可执行指令在由计算机执行时使得所述计算机执行操作汽车的多模态用户接口的方法，所述方法包括：

从经由所述多模态用户接口的语音接口所提供的语音输入来确定用户正在请求进行的任务；

根据所述任务来控制信息的输出。

18.根据权利要求17所述的至少一个计算机可读存储介质，其中：

所述任务与所述汽车的挡风玻璃上的信息的显示相关；以及

根据所述任务来控制信息的输出包括根据所述任务来更新所述汽车的挡风玻璃上的信息的显示。

19.一种设备，包括：

至少一个处理器；以及

至少一个计算机可读存储介质，其用计算机可执行指令编码，所述计算机可执行指令在由计算机执行时使得所述计算机执行操作运载工具的多模态用户接口的方法，所述方法包括：

根据所述至少一个几何参数来进行所述任务。

20.根据权利要求19所述的设备，其中，进行所述任务包括从所述运载工具传输至少一个电子消息。