CN106462909A

CN106462909A - 用于启用对话的上下文相关的和以用户为中心的内容呈现的系统和方法

Info

Publication number: CN106462909A
Application number: CN201480076121.2A
Authority: CN
Inventors: F.翁; K.徐; F.刘; L.赵; Z.冯; Z.沈
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2013-12-20
Filing date: 2014-12-11
Publication date: 2017-02-22
Anticipated expiration: 2034-12-11
Also published as: WO2015094891A1; US20160313868A1; CN106462909B; EP3084714A1; US10209853B2; EP3084714A4

Abstract

车载信息娱乐系统、智能家居信息访问和设备控制单元或者移动系统基于与用户相关联的用户偏好模型向用户呈现汇总信息。所述系统基于关于车辆的环境上下文数据和关于用户的活动的用户上下文数据来修改对用户的信息呈现。在信息的呈现期间，响应于来自用户的多模态输入请求，所述系统修改汇总信息的内容和呈现。

Description

用于启用对话的上下文相关的和以用户为中心的内容呈现的系统和方法

优先权要求

本专利要求美国临时申请号61/919,377的优先权，该美国临时申请标题为“SystemAnd Method For Dialog-Enabled Context-Dependent And User-Centric ContentPresentation”并且于2013年12月20日提交，该美国临时申请的全部内容在此通过引用结合于本文中。

交叉引用

本专利交叉引用美国专利号7,716,056，该美国专利标题为“Method and system forinteractive conversational dialogue for cognitively overloaded device users”并且于2004年9月27日提交，该美国专利的全部内容在此通过引用结合于本文中。

技术领域

本公开一般涉及自动信息检索的领域，并且更具体而言，涉及用于基于请求文本数据的用户的背景（context）来检索和汇总文本数据的系统和方法。

背景技术

对人而言，口语是最自然和最方便的交流工具。言语和语言技术的进步已允许增加使用与多种不同的机器和计算机系统的口语接口。通过自然语音请求的对各种系统和服务的接口在选择性地从互联网访问各种信息中给人提供了便利和效率。对于例如驾驶汽车或执行复杂的计算任务之类的处于眼忙和手忙状况下的应用而言，这是特别重要的。利用口语命令和语音识别的人机接口一般基于对话系统。对话系统是如下计算机系统，即：其被设计成在输入和输出通道二者上使用相干（coherent）的结构和文本、语言、图形或其他通信模态与人类交谈。采用语言的对话系统被称为口语对话系统，并且一般表示最自然的类型的人机接口。随着越来越大地依靠电子设备，口语对话系统正被越来越多地实施在许多不同系统中。

在许多人机交互（HMI）系统中，用户能够通过多个输入设备或多种类型的设备与系统交互，例如通过语音输入、手势控制和传统的键盘/鼠标/笔输入。这给用户提供了关于数据输入的灵活性，并且允许用户更高效地并根据他们自己的偏好给系统提供信息。

现在的HMI系统通常将特定的输入模态限于特定类型的数据，或允许用户一次仅使用多个模态中的一个。例如，车辆导航系统可以包括用于口语命令的语音识别系统和触摸屏二者。然而，所述触摸屏通常被限于允许用户通过接触而不是通过语音命令来选择特定的菜单项。这样的多模态系统不通过不同的输入模态来协调用户命令，它们也不将用于一个模态的输入数据用于通知和/或修改用于另一模态的数据。因此，现在的多模态系统没有充分地提供如下无缝的用户接口系统，即：其中，来自所有可能的输入模态的数据能够被用于给系统提供精确的信息。

HMI的一个常见示例是机动车呈现给车辆中的用户和其他乘客的接口。现代的机动车通常包括给车辆中的乘客提供在本文档中称为“信息娱乐”的各种各样的信息和娱乐选择的一个或多个车载信息系统。车载信息娱乐系统所提供的常见服务包括但不限于车辆状态和诊断信息、导航应用、免提电话、收音机和音乐播放以及交通状况警报。车载信息娱乐系统通常包括多个输入和输出设备。例如，用于操作收音机和音频系统的传统的按钮和控制旋钮通常被用于车辆信息娱乐系统中。较新形式的车辆输入包括将输入和显示结合到单一屏幕中的触摸屏输入设备，以及车载信息娱乐系统响应语音命令的语音激活功能。输出系统的示例包括机械仪器仪表、例如液晶显示器（LCD）面板之类的输出显示面板以及产生合成语音的音频输出设备。对于决定何时和如何选择和/或呈现互联网信息给驾驶员或车辆乘客以及选择和/或呈现什么给驾驶员或车辆乘客而言，也称为车辆上下文信息（context information）的系统状态信息能够是有用的。

车载信息娱乐系统使用最低限度交互式或完全交互式的信息服务来操作。最低限度交互式服务包括例如车载收音机和音乐播放设备之类的许多传统系统。在最低限度交互式服务中，用户对于内容具有较少程度的输入，例如选择广播电台或改变预先录制的音乐播放的音轨。用户在最低限度交互式服务中具有很少的或没有内容控制。完全交互式服务对于信息的选择给予用户多得多的控制。例如，完全交互式服务的示例包括网络浏览器、交互式聊天和通信应用、社交网络应用、新闻、体育等。完全交互式服务给用户提供较大程度的灵活性，但许多完全交互式服务不适于在车辆处于运动中时使用。完全交互式服务趋于比最低限度交互式服务复杂，并且用户无法在操作车辆的同时有效地使用完全交互式服务。因此，与最低限度交互式系统相比给用户提供更多灵活性同时还降低完全交互式系统的复杂度的对HMI和数字信息系统的改进将是有益的。

发明内容

内容呈现系统基于针对用户的预定的偏好、关于用户的当前状态的上下文数据以及关于用户周围的环境的上下文数据来识别用户感兴趣的内容，并且将内容呈现给用户。所述系统还被配置成以自然（多模态）和动态的方式来收集用户请求，并且基于领域知识（domain knowledge）和用户模型来识别用户意图，以按照交互式方式来更新信息的内容或呈现模式。所述系统按照不同的方面来阐明用户意图，包括主题、作者、信息源、观点、政治倾向、细节级别、具体的数字/人、实体或事件。所述系统根据用户意图识别并且提取相关内容。所述系统根据用户意图组织、汇总和呈现所提取的内容。所述系统包括先进的多模态对话子系统，以经由用户可以最初表达一些模糊的想法的多步骤会话式对话来收集信息需求的用户意图，并且所述系统将引导用户获得非常期望的信息内容。多模态对话系统使用信息域中的知识库，包括关于政治、社会、社区、商业、商务、科学、技术、军事、体育、日常生活、社交网络或朋友的新闻。所述系统被配置成呈现针对不同的信息主题的默认的细节级别，并且用户能够请求所述系统以交互式方式呈现具有更大或更小程度的细节的信息。

在一个实施例中，已开发了一种内容呈现系统。所述内容呈现系统包括：网络设备，其配置成通过数据网络从多个信息源检索信息；存储器，其配置成存储对应于所述内容呈现系统的用户的用户偏好模型；输出设备；以及处理器，其操作性地连接到所述网络设备、所述存储器和所述输出设备。所述处理器被配置成：参考所述用户偏好模型从所述多个信息源检索对应于预定的多个主题的信息；产生针对所述多个主题中的每个主题的信息的多个汇总呈现；以及利用所述输出设备，参考所述用户偏好模型，为所述用户以预定格式利用所述输出设备为针对所述多个主题的所述多个汇总呈现中的每一个产生输出。

在另一实施例中，已开发了一种在内容呈现系统中呈现内容的方法。所述方法包括：参考存储在存储器中的用户偏好模型，利用网络设备从多个信息源检索对应于预定的多个主题的信息；利用处理器，产生针对所述多个主题中的每个主题的信息的多个汇总呈现；以及利用所述处理器，参考所述用户偏好模型，为用户利用输出设备以预定格式为针对所述多个主题的所述多个汇总呈现中的每一个产生输出。

附图说明

图1图示了根据一个实施例的多模态人机系统，其实施了多模态同步和消歧系统。

图2为根据一个实施例的多模态用户交互系统的框图，所述多模态用户交互系统接受用户的手势和语言作为输入，并且包括多模态同步和消歧系统。

图3图示了在一个实施例下使用多模态用户交互系统的输入事件的处理。

图4为口语对话管理器系统的框图，所述口语对话管理器系统实施了多模态交互系统，并且基于用户的背景、用户周围的环境和预定的用户偏好模型向用户呈现结果。

图5为图示了在一个实施例下通过多模态接口在对话系统中处理用户输入的方法的流程图。

图6为基于用户偏好向用户呈现信息并且基于用户输入修改信息的呈现的车辆中的车载信息娱乐系统的部件的示意图。

图7为用于操作车载信息娱乐系统以基于用户的背景、车辆周围的环境以及与用户相关联的预定的用户偏好模型来给用户查询提供结果的过程的框图。

图8为图示了基于针对用户的个性化偏好模型的信息呈现的示例性默认格式的示图。

图9为描绘了用于呈现给用户的个性化内容的检索的示图。

图10为描绘了用于基于针对用户的个人偏好向用户呈现新闻信息的数据抓取和汇总过程的示图。

具体实施方式

为了促进理解本文所公开的实施例的原理的目的，现在参考附图和以下书面说明书中的描述。不意在通过参考限制主题的范围。本公开还包括对图示实施例的任何变更和修改，并且包括本公开所属领域的技术人员正常将想到的所公开实施例的原理的另外的应用。

如本文所用的，术语“手势”包括对应于用于控制包括车载停车辅助服务的计算设备的输入的人类用户的任何移动。虽然不是要求，但许多手势利用手和手臂来执行。手势的示例包括将一个或多个手指压在触摸传感器的表面上，在触摸传感器上移动一个或多个手指，或者以被一个或多个摄像机或三维传感器捕捉的三维运动来移动手指、手或手臂。其他手势包括头部运动或眼球运动。如本文所用的，术语“手势输入设备”指的是如下任何设备，即：其被配置成感测人类用户的手势，并且产生相对应的数据，数字处理器或控制器将所述相对应的数据解释为输入，以控制软件程序和硬件部件的操作，特别是车辆中的硬件部件。许多手势输入设备包括触摸感应设备，其包括具有电阻式和电容式触摸传感器的表面。触摸屏为包括用于触摸输入的集成触摸传感器的视频输出设备。其他手势输入设备包括摄像机和其他遥感传感器，其感测用户在三维空间中的移动，或感测用户与未另外装有触摸传感器的表面接触的移动。下面描述用于记录人机交互的手势输入设备的实施例。

描述了结合了用于人机交互（HMI）系统中的多模态同步和消歧系统的对话系统的实施例。实施例包括接收来自多个不同的用户输入机构的用户输入的部件。所述多模态同步和消歧系统同步和整合（integrate）从不同模态获得的信息，消除输入的歧义，并且从对于任何的用户输入可产生的任何错误恢复。这样的系统有效地解决与用户输入相关联的任何歧义，并且纠正人机交互中的错误。

在下面的描述中，引入了许多具体细节，以提供对多模态同步和消歧系统和方法的实施例的透彻理解，并且使得能够描述所述多模态同步和消歧系统和方法的实施例。然而，相关领域的技术人员将认识到，这些实施例能够在没有特定细节中的一个或多个的情况下或利用其他部件、系统等来实施。在其他情况下，公知的结构或操作未被示出，或未详细描述，以避免模糊所公开实施例的各方面。

图1图示了根据一个实施例的多模态人机系统，其实施了多模态同步和消歧系统。在系统100中，用户102与设备110交互，所述设备110可以是计算系统、机器或任何自动化机电系统。用户能够通过若干不同的模态给设备110提供输入，通常通过借助一个或多个输入方式的语音或触摸控制。例如，这些包括键盘或鼠标输入106、触摸屏或平板输入108和/或通过麦克风104的语音输入103。其他用户输入的方式也是可能的，例如脚踏控制、小键盘、游戏杆/伺服控制、游戏手柄输入、红外线或激光指示器、基于摄像机的手势输入、电磁传感器等。不同的用户输入可以控制机器操作的不同方面。在特定情况下，特定的输入模态可以控制特定类型的操作。例如，语音命令可以被配置成与系统管理任务接口，并且键盘输入可以被用于执行操作任务。在一个实施例中，来自不同输入模态的用户输入被用于控制设备110的至少某些重叠功能。对于该实施例，多模态输入同步模块112被用于同步和整合从不同的输入模态104-108获得的信息，消除输入的歧义，并且使用来自任何模态的输入来纠正、修改或以其他方式通知来自任何其他模态的输入。

如图1中所示，在许多人机交互（HMI）系统中，用户能够经由例如触摸屏、鼠标、键盘、麦克风之类的多个输入设备与系统交互。多模态输入机构给用户提供灵活性，以通过任何它们优选的方法更高效地输入信息到系统。例如，当使用导航系统时，用户可能想要找到该区域中的餐馆。他或她可能偏好直接在显示的地图上通过触摸屏接口来指定区域，而不是借助通过语言或语音命令来描述它。在另一示例中，当用户将联系人姓名添加到他的通讯簿中时，直接说出姓名可能比通过键盘或电话键盘键入它高效和方便。

用户还可以使用多个模态来实现他们的任务。即，机器或机器操作的一个方面可接受两个或更多个模态的用户输入。在一些情况下，用户可利用所有可能的模态的输入来执行任务。多模态同步部件112允许同步和整合从不同模态获得的信息。不同的输入能够被用于消除响应的歧义，并且为任何问题输入提供错误恢复。以这种方式，用户能够利用最期望的输入方法，并且不总是被迫学习不同的输入约定，例如具有独特含义的新的手势或命令。

不像仅允许用户同时使用多个模态中的一个的传统的多模态HMI系统，多模态同步部件允许用户同时经由多个模态输入信息。例如，用户能够对系统说话，同时在触摸屏上画某物。因此，在导航系统中，用户能够说出“找到该区域中的餐馆”，同时在触摸屏上的地图显示上画出圆形区域。在这种情况下，用户通过触摸屏输入来指定“该区域”的意思。用户的多模态输入的意义的确定将取决于以不同模态传达的信息、当时模态的置信度（confidence）以及从不同模态接收的信息的时间。

图2为接受用户的手势和语言作为输入的多模态用户交互系统的框图。在多模态用户交互系统200中，用户能够通过键入、触摸屏幕、说出句子或其他类似的方式来输入信息。例如触摸屏输入201之类的物理手势输入被发送到手势识别模块211。手势识别模块将处理用户的输入并且将它分类成不同类型的手势，例如拖动动作或画点、线、曲线、区域等。用户的语言输入202将被发送到语言识别模块222。来自相对应的手势识别模块和语言识别模块的识别的手势和语言将被发送到对话系统221。所述对话系统基于对话的背景和输入事件的时间顺序来同步从每个模态获得的信息并且消除其歧义。对话系统与应用或设备223交互，以完成用户经由多模态输入指定的任务。然后，交互的输出和所执行的任务的结果通过语言响应203传达给用户和/或通过渲染模块212显示在图形用户界面（GUI）210上。图2的系统200可以被用于执行用户基于语言和触摸屏输入的组合来指定要找的餐馆的在上面的示例中提供的输入任务。

多模态用户交互系统的主要功能在于区分和同步可能针对相同应用的用户输入。不同的输入模态可针对不同的任务，即使它们同时被输入。类似地，用户通过不同模态在不同时间提供的输入可实际上针对相同的任务。一般而言，应用和系统仅识别通过适当的模态并且在适当的时间段中提供的用户输入。

图3图示了在一个实施例下使用多模态用户交互系统的输入事件的处理。如图3中所示，横轴302表示沿时间轴的针对系统的输入事件。两个示例性事件被图示为由“事件1”和“事件2”表示。所述输入事件表示对特定的应用或任务而言有效的用户输入时段（userinput period）。由模态1、2和3表示的三个不同的输入模态被示出，并且能够表示绘图输入、口语输入、键盘输入等。不同的输入模态具有在不同的时间段和针对不同的持续时间有效的用户输入。对于事件1，用户已通过模态1、2和3提供输入，但模态2为相对短和迟的输入。类似地对于事件2，模态1和3似乎具有有效的输入，但模态2可能是早的或不存在的。多模态交互系统可以使用通过任何模态提供的信息，以确定特定输入是否有效，以及帮助辨别输入的正确含义。

当所接收的信息在确定含义中不够时，所述系统还能够要求来自各种模态的更多输入。通过预定义的规则或针对不同的应用和任务开发的统计模型能够导引多模态信息的同步和整合。

上面提供的示例说明了如下事实，即：从单一通道（例如，语音命令）获得的信息通常包含歧义。这样的歧义能够因用户的表达的意外的多种解释而发生。例如，用语“该区域”本身就是模糊的，除非用户提供被系统识别的名称。在另一示例中，在触摸屏上的手势可具有不同的含义。例如，在示出了地图的触摸屏上沿直线移动手指能够意味着在地图上画线或沿特定方向拖动地图。多模态同步模块使用来自所有利用的模态的信息，以提供用户输入的最有可能的解释。当在从特定通道获得的信息中检测到歧义时，在不同的系统状态下能够使用不同的方式。所述系统可以使用在先的背景（或上下文）来帮助消歧，或它可要求用户从相同或不同的模态澄清。继续使用先前的示例，假定语言和触摸屏是两个输入模态，并且用户在显示在触摸屏上的地图上移动他或她的手指。存在该手势的至少两种可能的解释：在地图上画线，或朝向另一方向拖动地图。在这种情况下，如果用户说“我想要在这条街上找到一些餐馆”，则系统将知道用户画线来指定街道。如果用户在那段时间什么也没说，则可能用户只是想要拖动地图。

从一个模态获得的信息也可能包含错误。这些错误可能来自设备、系统，并且甚至可能来自用户。此外，来自一个模态的错误还可引入与来自其他模态的信息的不一致性。多模态同步和消歧部件能够解决所述不一致性，选择正确的解释，并且基于上下文和置信度从这样的错误恢复。在一个实施例中，置信度分数通过包括例如输入设备的性能规格、特定模态的重要性、用于从输入数据获得信息的算法的性能之类的因素来计算。当在不同模态之间存在不一致时，多个假设连同来自每个模态的相对应的置信度分数被用于决定哪些模态是将传递到下一阶段处理的可能模态。针对每个假设的总置信度分数通过来自针对该假设的不同的可用模态的置信度分数的加权线性组合或通过其他组合函数来计算。

图4为在一个实施例下的实施多模态交互系统的口语对话系统的框图。为了呈现描述的目的，在处理设备上执行的任何过程也可被称为模块或部件，并且可以是在相应的设备计算机上本地执行的独立程序，或者它们能够是运行在一个或多个设备上的分布式客户端应用的多个部分。系统400的核心部件包括具有针对不完善输入的多个理解策略的口语理解（SLU）模块和语言识别（SR）模块402、处理多个对话线程的信息状态更新（information-state-update）或其他类型的对话管理器（DM）406、控制对基于本体的领域知识的访问的知识管理器（KM）410以及数据存储418和通过数据网络440访问一个或多个在线数据服务442。例如，在线数据服务包括涵盖当前事件的网站和博客、例如天气和交通监测服务之类的信息服务以及具有注册到系统400的特定用户的帐户的社交网络服务。知识管理器410访问在数据存储418中本地存储的基于领域的本体数据，并且可选地访问可用于通过网络440访问的作为在线本体数据444提供的附加的本体数据。如下所述，信息检索模块450和汇总模块460能够基于存储在用户偏好模型412中的个别用户的偏好来检索和汇总来自不同的在线数据服务的数据。

在系统400中，多个用户输入设备403接收来自用户的多模态用户输入数据401。在一个实施例中，包括口语单词和短语的用户输入401产生被语言识别单元402接收的声波。语言识别单元402能够包括提供例如动态语法和基于类别的n-grams之类的功能的部件。通过语言识别单元识别的发声输出将通过口语理解单元来处理，以获得用户的基于语音的输入的语义。在用户输入401是基于文本的而不是基于语音的情况下，绕过语言识别，并且口语理解单元将接收用户的基于文本的输入，并产生用户的基于文本的输入的语义。用户输入设备403接收多模态用户输入401，所述多模态用户输入401可选地包括手势或其他物理通信方式。在这种情况下，手势识别部件404将识别的手势转换成机器可识别的输入信号。手势输入和识别系统能够基于基于摄像机的手势输入、激光传感器、基于红外线或任何其他机械或电磁传感器的系统。针对不同的用户交互系统的实施例，用户输入设备还包括追踪来自用户的面部表情和手势的摄像机、音频输入设备、触摸屏、笔输入设备、键盘等。

对于系统400的实施例，来自任何可用的方法的用户输入（语音、手势、计算机等）被提供给多模态接口模块414，所述多模态接口模块414在功能上耦接到对话管理器404。多模态接口包括执行输入同步和输入消歧的任务的一个或多个功能模块。输入同步功能确定哪个或哪些输入对应于针对特定事件的响应，如图3中所示。输入消歧功能解决存在于输入的一个或多个中的任何歧义。

在系统400中，用户与一个或多个计算设备交互，例如移动电子设备、车载信息娱乐系统以及结合环境传感器430的其他计算设备。环境传感器430提供对应于用户周围的环境和计算设备的背景（上下文信息432）的数据。例如，许多智能手机包括光传感器、加速度计、陀螺仪、热传感器、全球定位系统（GPS）设备以及给智能手机提供关于智能手机周围的环境的信息的其他传感器。如下面更详细地描述的，机动车还包括提供关于车辆周围的环境的信息的范围广泛的传感器。系统400基于从环境传感器430接收的数据产生来自环境432的上下文信息。基于从环境传感器430接收的环境状态，对话管理器406使用上下文数据来修改用户接收的输出消息。

在系统400中，对话管理器406还从输入设备407接收上下文用户信息。所述上下文用户信息包括除来自用户的直接输入外系统400中的输入设备或其他传感器接收的关于用户的数据。例如，捕捉用户用于输入的手势的输入摄像机也记录用户的面部表情和眼球运动。面部表情指示用户的情绪状态，其能够影响用户从响应发生器单元416接收的汇总响应的输出。例如，如果用户的面部表情指示恼怒或烦恼，则对话管理器406和响应发生器416对查询产生简短的输出响应，以减少用户与系统400交互所需的时间量。在另一状况下，如果用户的图像数据指示用户没有看视觉显示设备或忙于需要视觉集中的活动，则响应发生器416产生响应的音频输出而不是产生响应的视频输出。

在系统400中，用户偏好模型412为包括用户的偏好的数据配置文件（dataprofile），系统400使用所述偏好来控制使用知识管理器410的信息的检索以及利用对话管理器406的汇总结果的呈现。例如，当系统400接收到来自用户的多模态输入查询时，知识管理器410从包括数据存储418和在线数据服务442的一个或多个数据源检索数据。在一个操作模式中，系统400向用户呈现汇总信息，并且系统400接收来自用户的请求对汇总信息的呈现或内容进行改变的多模态对话输入。

知识管理器410从用户偏好模型412检索信息，以从大范围的在线数据服务442选择较小的一组服务。在一个实施例中，用户偏好模型412包括当手动操作网络浏览器或其他在线通信软件时用户定期访问的网站和社交媒体服务的存储的历史。所述存储的历史指示了当接收信息时用户偏好使用的网站、新闻服务、博客、作者和社交网络。知识管理器410使用用户偏好模型412中存储的数据来选择对应于系统400中的观察到的用户偏好的信息源。在系统400中，用户偏好模型412还存储用户存储的手动偏好设置来配置查询响应，并且用户偏好模型412可选地响应于用户的反馈来更新以调整查询结果的内容和格式。用户活动历史数据为结合到用户偏好模型412中的隐含的一组偏好提供一组数据。此外，在系统400的操作期间来自用户的输入提供了关于用户偏好的表达数据（express data）。例如，在呈现关于体育的信息期间，系统400接收来自用户的明示请求（express request）以将报导集中在特定的运动队或体育事件上。系统400基于所述明示请求更新偏好模型。当然，用户的兴趣可随时间的推移而改变，并且系统400能够接收针对要检索的信息的附加的明示请求，并且基于用户的当前兴趣来呈现相关的信息。

对话管理器406通过语言输入设备402、手势输入设备404处理来自用户的直接输入。此外，对话管理器406接收关于用户的上下文输入407和与系统400中的计算设备相关联的来自一个或多个环境传感器430的设备上下文输入432。对话管理器406和知识管理器410还基于预定的用户偏好模型数据412来选择输出响应的内容，以过滤针对来自用户的查询接收到对应于预定的用户偏好的汇总输出中的较大量的数据。因此，基于针对用户中的每一个的用户偏好模型，系统400对针对两个不同用户的相同查询通常产生不同的输出。响应发生器和文本转语言（TTS）单元416提供系统400的输出，并且能够基于用户输入产生音频、文本和/或视觉输出。通常由TTS单元以语言的形式提供的音频输出通过扬声器420来播放。文本和视觉/图形输出能够通过显示设备422来显示，所述显示设备422可以执行图形用户界面过程，例如图2中所示的GUI 210。图形用户输入也可以访问或执行有利于特定信息的显示的特定的显示程序，例如示出感兴趣的地方的地图等。如下所述，系统400基于来自用户的直接输入、关于用户和用户周围的环境的上下文信息二者以及存储在用户偏好模型412中的针对用户的预定的偏好来产生响应。

在一种配置中，响应发生器416产生对应于用于给用户呈现信息的默认格式的输出。所述默认格式基于用户偏好模型412针对每个用户个性化。在结合系统400的车载信息娱乐系统的背景下，下面在图8中提供了用于信息呈现的格式的更详细的示例。在操作期间，对话管理器406和响应发生器416基于环境上下文信息432和用户上下文信息407二者来调整呈现给用户的信息的呈现格式和复杂度。例如，如果用户上下文信息指示用户忙于另一任务，则对话管理器406降低呈现给用户的信息的复杂度。如果车辆在具有一定的剩余等待时间的情况下在红灯之前停止并且输入传感器指示用户正在关注与响应发生器416相关联的视频输出设备，则对话管理器406可选地增加呈现给用户的信息量。例如，如果用户上下文数据指示用户在移动或以其他方式忙碌，则对话管理器406使用响应发生器416中的语言合成模块来产生汇总文本用于输出。然而，如果用户不忙，则对话管理器406包括附加的信息，例如扩展的文本段落、图形和视频。

在移动实施例中，对话管理器还基于来自系统400周围的传感器的环境上下文信息来修改呈现给用户的信息的复杂度。用户可选地使用多模态用户输入设备403通过与对话管理器406交互来随时改变信息的呈现。因此，系统400中的信息呈现按照以用户的偏好和背景定制的默认格式给用户提供信息，但如果用户请求改变信息的内容或呈现，则系统400还为用户交互提供接口。

多模态接口414包括处于系统400的部件内的一个或多个分布式过程。例如，同步功能可以在对话管理器404中提供，并且消歧过程可以在SR/SLU单元402和手势识别模块404中提供。同步功能基于输入事件的时间顺序以及来自例如语言识别器、手势识别器之类的识别器的内容来同步输入。例如，识别的语言“找到该区域中的中餐馆”将提示系统等待来自手势识别部件的输入或在扩展的处理期（extended proceeding period）中搜索输入。如果识别出手势，则针对语言识别器能够预期相似的过程。在两种情况下，都需要语言和手势缓冲来存储扩展时间段内的语言和手势事件。消歧功能基于对话上下文（dialogcontext）消除从每个模态获得的信息的歧义。

图5为图示了在一个实施例下通过多模态接口在对话系统中处理用户输入的方法的流程图。在接收来自一个或多个模态的输入时（框502）。同步功能基于输入可对应的事件的时间对应（temporal correspondence）来同步输入（框504）。对于每个输入，对话管理器得到关于输入的含义的概率的一组原始假设（框506）。假设（H）中的不确定性表示输入中的歧义的量。针对特定假设的正确性概率可被表达为加权值（W）。因此，每个输入可具有与它相关联的假设和权重（H、W）。对于多个输入模态，产生假设矩阵，例如对于三个输入模态（例如，语言/手势/键盘）为（H1 W1；H2 W2；H3 W3）。

在特定情况下，来自不同输入类型或模态的输入能够有助于阐明来自另一模态的输入。例如，对地图的随机手势可不清楚地指示用户指向哪儿，但如果他或她还说出“PaloAlto”，则该口语输入能够帮助消除手势输入中的歧义，并且反之亦然。在与输入识别单元相关联的消歧过程期间接收附加的输入。在过程500期间，口语单元从对话管理器的对另一模态输入的解释接收一组约束，并且将这些约束提供给消歧过程（框508）。这些约束随后与对话管理器内的原始假设结合（框510）。然后，对话管理器基于这些基于其他输入的约束得到新的假设（框512）。以这种方式，来自一个或多个其他模态的输入被用于帮助确定来自特定输入模态的输入的含义。

因此，所述多模态接口系统提供了用于同步和整合从多个输入设备获得的多模态信息并且基于多模态信息消除输入的歧义的系统和方法。该系统和方法使得对话系统能够基于多模态信息检测错误并从错误恢复。通过允许用户经由多个模态同时输入信息，所述系统给用户提供了更多的灵活性和便利。消歧和错误恢复机制能够改进HMI系统的性能和稳健性。多模态接口系统的实施例可以被用于任何类型的人机交互（HMI）系统中，例如用于操作车载设备和服务的对话系统；呼叫中心、智能手机或其他移动设备。这样的系统可以是基于语言的系统，其包括用于来自一个或多个用户的口语输入的一个或多个语言识别器部件，或者它们可以是手势输入、机器输入或软件应用输入方式或者它们的任何组合。

本文所述的多模态同步和消歧过程的方面可以被实施为编程到多种电路中的任何一种中的功能，所述多种电路包括可编程逻辑设备（“PLD”），例如现场可编程门阵列（“FPGA”）、可编程阵列逻辑（“PAL”）设备、电可编程逻辑和存储器设备和标准的基于单元的设备以及专用集成电路。用于实施多个方面的一些其他可能性包括：具有存储器（例如EEPROM）的微控制器、嵌入式微处理器、固件、软件等。此外，服务方法的内容的方面可以被实施在具有基于软件的电路仿真的微处理器、离散逻辑（顺序和组合）、定制设备、模糊（神经）逻辑、量子设备以及上述设备类型的任何混合物中。基础的设备技术可以在多种部件类型中提供，例如，如互补金属氧化物半导体（“CMOS”）的金属氧化物半导体场效应晶体管（“MOSFET”）技术、如射极耦合逻辑（“ECL”）的双极技术、聚合物技术（例如，硅共轭聚合物和金属-共轭聚合物-金属结构）、混合的模拟和数字等。

还应当注意的是，在它们的行为、寄存器传输、逻辑部件和/或其他特性方面，本文所公开的各种功能可以使用硬件、固件的任何数量的组合来描述，和/或描述为实施在各种机器可读或计算机可读的介质中的数据和/或指令。其中可实施这样的格式化数据和/或指令的计算机可读介质包括但不限于各种形式的非易失性存储介质（例如，光学、磁或半导体的存储介质）以及可用于通过无线、光学或有线信令介质（signaling media）或者其任何组合来传输这样的格式化数据和/或指令的载波。通过载波传输这样的格式化数据和/或指令的示例包括但不限于通过一个或多个数据传输协议（例如，HTTP、FTP、SMTP等）在互联网和/或其他计算机网络上传输（上传、下载、电子邮件等）。

图6描绘了车载信息娱乐系统600，其是见于机动车中的人机交互系统的具体实施例。在车辆的环境中，HMI系统被配置成使得车辆中的人类用户能够通过一个或多个输入模式输入针对服务的请求。车载信息娱乐系统600使用一个或多个输入设备来实施每个输入模式。例如，如下所述，系统600包括多个手势输入设备，以在手势输入模式中接收手势，并且包括语言识别输入设备，以实施语言输入模式。如果需要，则车载信息娱乐系统600提示使用一个或多个输入设备输入附加的信息，以接收与服务请求相关联的一个或多个参数，并且车载信息娱乐系统600使用从多个输入模态接收的输入数据来执行请求。车载信息娱乐系统600提供了一种HMI系统，其使得用户能够输入针对简单和复杂的服务二者的请求，而减少使车辆中的用户分心。

如本文所用的，术语“服务请求”指的是来自车辆中的用户的单一输入或一系列相关输入，车载信息娱乐系统接收并且处理所述单一输入或一系列相关输入，来代表用户执行功能或动作。对车载信息娱乐系统的服务请求包括但不限于：对操作车辆中的部件的请求，所述部件例如娱乐系统、电动座椅、空调控制系统、导航系统等；以及对访问通信和网络服务的请求，所述通信和网络服务包括电话、文本消息和社交网络通信服务。一些服务请求包括完成服务请求所需的输入参数，并且用户使用输入设备来为系统600的一些输入参数提供数据。下面描述用户提供对车载信息娱乐系统中的信息呈现的修改的交互式对话服务请求的示例。

在图6中，车载信息娱乐系统600包括平视显示器（HUD）620、一个或多个控制台LCD面板624、一个或多个输入麦克风628、一个或多个输出扬声器632、方向盘区域604之上的输入区域634A、634B和636、相应地在用于左臂和右臂中的一个或两个的附近扶手区域612和613上的输入区域640和641以及运动感测摄像机644。LCD显示器624可选地包括接收触摸输入的触摸屏接口。在系统600中，LCD显示器624中的触摸屏和运动感测摄像机644是手势输入设备。虽然图6描绘了具有识别来自用户的手势的运动感测摄像机644的实施例，但在另一实施例中，车辆包括结合到方向盘、扶手和车辆的客舱中的其他表面中的触摸传感器，以接收输入手势。运动感测摄像机644还被配置成接收来自用户的输入手势，所述输入手势包括头部运动、眼球运动以及当用户的手不与输入区域634A、634B、636、640和641直接接触时发生的三维手部移动。

在系统600中，处理器648被操作性地连接到车载信息娱乐系统600中的部件中的每一个。处理器648包括配置为中央处理单元（CPU）、微控制器、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、数字信号处理器（DSP）或任何其他合适的数字逻辑设备的一个或多个集成电路。处理器648还包括存储器，例如固态或磁性的数据存储设备，所述存储器存储用于车载信息娱乐系统600的操作的编程指令。在图6的实施例中，所述存储指令实现一个或多个软件应用、解释使用系统600中的多个输入设备的输入的输入分析软件，以及实现上文中参考图4描述的对话管理器406和知识管理器410的功能的软件指令。

在处理器648中，存储器可选地存储图4的本地存储器数据存储418中的基于本体的领域知识的全部或一部分，而系统600可选地通过使用一个或多个无线网络设备654的联网服务访问较大的一组领域知识。在一些实施例中，每个本体的与系统600呈现给用户的一个信息主题相关联，例如体育、政治、交通、天气等。如下所述，处理器648针对关于车载信息娱乐系统600汇总以呈现给用户的不同信息源的特性和属性的特定领域的知识访问存储的本体信息。例如，无线网络设备654包括无线局域网（WLAN）收发器，其包括使用IEEE 802.11系列协议或蓝牙系列协议用于与处于车辆的短距离范围内的移动计算设备通信的设备，所述移动计算设备例如车辆中乘客携带的智能手机670。无线网络设备654还包括无线广域网（WWAN）收发器，其使用例如通用远距离通信系统（UMTS）、长期演进技术（LTE）、其他的3G和4G标准或者给车载信息娱乐系统600提供对包括在线信息服务、网站和社交媒体网络之类的远程计算系统的网络访问的任何其他合适的无线标准来实现广域网协议。所述存储器还存储对应于用户使用车辆中的多模态输入设备提供的输入的中间状态信息，所述多模态输入设备包括语言输入和手势输入设备。无线网络设备654可以利用智能手机或具有无线连接的其他智能设备来链接到互联网。

处理器648连接到或结合附加的部件，例如一个或多个车载传感器650、全球定位系统（GPS）接收器652和无线网络设备654，以利用外部数据网络和计算设备来提供导航和通信。例如，车载传感器650包括车速表、转速表、包括光传感器的环境传感器、湿度传感器、外部雷达、外部停车和防撞摄像机以及给处理器648提供关于车辆的状态和车辆周围的环境的信息的任何其他传感器。GPS 652还给处理器648提供对应于车辆的当前位置的地理数据，并且处理器648使用该地理数据来利用无线网络设备654从外部数据服务检索天气和交通信息。车载信息娱乐系统600集成有在机动车中常见的常规部件，包括挡风玻璃602、仪表盘608和方向盘604。

在一些操作模式中，车载信息娱乐系统600独立地操作，而在其他操作模式中，车载信息娱乐系统600与移动电子设备相互作用，所述移动电子设备例如智能手机670、平板、笔记本电脑、可穿戴计算设备或其他电子设备。车载信息娱乐系统使用例如USB之类的有线接口或例如蓝牙之类的无线接口与智能手机670通信。车载信息娱乐系统600提供了用户接口，其使得用户能够控制智能手机670或另一移动电子通信设备而减少分心。例如，车载信息娱乐系统600提供了基于组合的语音和手势的接口，以使得用户能够利用智能手机670拨打电话或发送文本消息，而无需用户握持或看智能手机670。在一些实施例中，智能手机670包括各种设备，例如补充或替代收容在车辆中的设备的功能的GPS和无线联网设备。

在系统600的一些实施例中，智能手机670或另一移动电子设备在移动电子设备的存储器中存储在图4中描绘的用户偏好模型412。由于用户偏好模型412对应于个别用户的偏好，因此用户携带的个人智能手机670将用户偏好数据存储在各种情况下用户可访问的位置用于与不同的数字计算系统交互。在系统600中，处理器648使用无线网络设备654与智能手机670通信，以访问用户偏好数据。在另一实施例中，针对用户的用户偏好数据以与用户相关联的用户帐户被存储在在线数据库中。车载信息娱乐系统600利用无线网络设备654使用WWAN收发器来访问帐户。智能手机670可选地提供登录凭证以访问与用户相关联的用户偏好模型，而无需用户手动输入登录名和密码或其他认证信息。

在系统600中，输入区域634A、634B、636、640和641为用户使用手部运动或手势来输入输入数据提供表面。在一个实施例中，输入区域包括识别来自用户的输入手势的手势传感器设备，例如红外线或飞行时间（TOF）传感器。在另一实施例中，摄像机644被安装在乘客舱的顶棚上，并且查看手势输入区域634A、634B、636、640和641中的一个或多个。除用户与车辆中的表面接触时作出的手势外，摄像机644还记录在驾驶员周围的区域中的手、手臂和头部运动，例如方向盘604之上的区域。

摄像机644产生对应于用户在输入区域中作出手势时输入的手势的图像数据，并且可选地识别在摄像机644的视场中执行的其他手势。所述手势包括当用户接触车辆中的表面时的例如手部和手指移动之类的二维移动，或用户在方向盘604之上移动他或她的手时的三维手势二者。在替代性实施例中，包括附加的摄像机、雷达和超声换能器、压力传感器和磁传感器的一个或多个传感器被用于监测用户的手、手臂、面部和其他身体部位的移动，以识别不同的手势。

在方向盘604上，手势输入区域634A和634B位于方向盘604的顶部上，在车辆的操作期间，用户可以利用他或她的手非常方便地接近所述手势输入区域。在一些情况下，用户还接触手势输入区域636，以激活例如车辆中的喇叭。此外，用户还可以将手臂放置在扶手612和613中的一个上。处理器648被配置成忽略从手势输入区域接收的输入，除了当用户被提示使用所述接口来输入输入数据时，以防止来自这些区域的伪输入。

在一些实施例中，除了在摄像机644的视野内以三维执行的识别简单手势外，处理器648被配置成识别从接口区域中的一个接收的手写或键入的输入。例如，用户利用手指接合区域636、640或641来写字符或数字。作为对通过语音对话系统提供的输入的补充，手写输入被用于拼写实体名称，例如人名、具有城市、街道的地址以及状态名称或电话号码。在许多其他应用中开发的自动完成特征能够被用于缩短输入。在另一实施例中，处理器648在HUD上显示2D/3D地图，并且用户可以放大/缩小地图，左、右、上或下地移动地图，或利用多个手指旋转地图。在另一实施例中，处理器648使用HUD 620显示简化的虚拟键盘，并且用户使用输入区域636、640或641来选择键，同时维持眼光通过挡风玻璃602与车辆周围的环境接触。

麦克风628由从用户或另一车辆乘客接收的口语输入产生音频数据。处理器648包括例如DSP之类的处理音频数据的硬件，以及例如语言识别和语音对话系统软件之类的软件部件，以识别和解释语音输入，并且管理扬声器和车载信息娱乐系统600之间的相互作用。此外，处理器648还包括硬件和软件部件，其使得能够通过扬声器632产生合成语音输出，以给驾驶员和乘客提供听觉反馈。

车载信息娱乐系统600使用LCD面板624、投影到挡风玻璃602上的HUD 620并且通过位于仪表盘608中的仪表、指示灯或附加的LCD面板给用户提供视觉反馈。当车辆处于运动中时，处理器648可选地停用LCD面板624，或仅通过LCD面板624显示简化的输出，以减少用户的分心。处理器648使用HUD 620显示视觉反馈，以使得用户能够在接收视觉反馈的同时查看车辆周围的环境。处理器648通常在HUD 620上对应于用户的周边视觉的区域中显示简化的数据，以确保用户具有对车辆周围的道路和环境的无障碍视野。

如上所述，HUD 620在挡风玻璃620的一部分上显示视觉信息。如本文所用的，术语“HUD”一般指的是范围广泛的平视显示设备，其包括但不限于组合平视显示器（CHUD）等，所述组合平视显示器包括单独的组合器元件。在一些实施例中，HUD 620显示单色的文本和图形，而其他HUD的实施例包括多色显示器。虽然HUD 620被描绘为显示在挡风玻璃602上，但在替代性实施例中，平视单元与用户在操作期间穿戴的眼镜、头盔面罩或光罩（reticle）集成。

在操作期间，车载信息娱乐系统600从多个输入设备接收输入请求，包括但不限于通过麦克风628接收的语音输入、来自方向盘位置或扶手位置的手势输入、触摸屏LCD 624或其他控制输入，例如表盘、旋钮、按钮、开关等。在初始的输入请求之后，处理器648产生次级反馈提示，以接收来自用户的附加的信息，并且用户使用与用于初始输入的设备不同的输入设备给车载信息娱乐系统提供次级信息。处理器648使用车载信息娱乐系统600中的不同的输入设备来接收来自用户的多个输入，并且使用不同的输出设备给用户提供反馈。在一些状况下，处理器648产生多个反馈提示，来按照迭代的方式与用户交互，以识别特定的命令并且给用户提供特定服务。

在一个示例中，在驾驶通过城市时，用户对车载信息娱乐系统600说话以输入寻问城市中的餐馆列表的问题。在一个操作模式中，HUD 620显示城市的地图。然后，用户作出对应于显示在HUD 620上的地图上的圆圈的手势，以精确地指示预期的位置。处理器648随后产生请求用户缩小餐馆的搜索条件的音频请求，供用户输入更具体的请求。例如，在一种配置中，HUD 620显示对应于满足规定要求的餐馆的一组图标。用户利用通过输入区域634A、634B、636、640和641中的一个输入的点手势或另一合适的手势来输入对第二查询的响应。用户维持与方向盘604紧密接触，并且在输入手势输入的同时，维持通过挡风玻璃602与车辆周围的环境目光接触。因此，车载信息娱乐系统600使得用户能够使用多个输入和输出设备与车载信息娱乐系统600交互，同时减少用户的分心。如在本领域中已知的，来自例如语音、手势、旋钮和按钮之类的不同输入通道的多个输入能够以灵活的顺序执行，并且这些输入被同步和整合而不施加严格的排序约束。

上述示例是车载信息娱乐系统600的说明性操作，但车载信息娱乐系统600还被配置成执行范围广泛的附加操作。例如，车载信息娱乐系统600使得用户能够提供输入以选择用于通过扬声器632播放的音乐，找到感兴趣的点并且驾驶车辆到达感兴趣的点，在他/她的电话簿中找人以便拨通电话，或找到社交媒体信息的入口，而无需将他或她的目光从通过挡风玻璃602的道路移开。使用车载信息娱乐系统600中的输入区域，用户通过在输入区域上书写来输入字符并且发送消息，而无需用户破坏与挡风玻璃602的目光接触并且无需用户释放方向盘604。

图7描绘了用于给用户提供对查询的相关反馈的用户和设备之间的基于上下文的交互的过程700。为了说明的目的，过程700结合图6的车载信息娱乐系统600来描述，但过程700也能够使用其他电子信息系统来执行，包括但不限于例如智能手机、平板、便携式个人计算机、可穿戴计算设备之类的移动电子设备、与住宅或商业建筑集成的“智能家居”计算系统等。在下面的描述中，对执行功能或动作的过程700的引用指的是执行编程指令以操作一个或多个部件来执行所述功能或动作的处理器，例如处理器648或智能手机670中的一个或多个处理器。

过程700以车载信息娱乐系统基于存储的用户偏好模型中的个性化用户偏好数据针对预定的一组主题呈现汇总信息开始（框704）。如上所述，用户偏好模型包括由用户的浏览和通信活动识别的推断的偏好信息。所述推断的偏好能够由用户和车载信息娱乐系统600之间的交互的历史，以及从用户和其他计算设备之间的交互历史二者识别，所述其他计算设备包括智能手机670或其他外部计算设备。所述推断的偏好能够由用户的隐性行为和显性请求二者识别。预定的信息呈现格式也基于用户提供给车载信息娱乐系统600的明示的偏好信息来识别。

图8描绘了预定的程序格式800的一个示例，其包括车载信息娱乐系统600在过程700期间呈现给用户的信息主题。在图8的说明性示例中，程序包括呈现本地天气和交通状况804、世界新闻808、体育新闻812、政治评论816和来自社交媒体网络或电子邮件的针对用户的个性化消息820。虽然信息程序格式800的格式与广播电台或电视台所用的广播格式具有一些相似性，但内容的类型、信息量和主题的呈现顺序基于用户偏好在系统启动之前静态地或在系统操作期间动态地来选择。此外，处理器648基于用户的用户偏好模型针对每个主题搜索、过滤并且汇总来自多个信息源的信息。例如，处理器648从多个在线服务检索天气和交通数据，并且基于车辆的位置并可选地基于用户明确指定的驾车路线或用户定期依循的通勤路线给用户呈现概要。处理器648过滤与车辆的行进路线不相关的交通事故信息。

处理器648还基于用户偏好模型中的信息选择用户偏好的一个或多个新闻服务，以检索、过滤并且汇总用于呈现给用户的世界新闻和体育新闻故事。在系统600中，处理器648基于用户偏好模型过滤信息源，以识别包括相关信息并且可选地对应于用户倾向于接收的所选择的观点的源。对于体育新闻，处理器648还搜索特定运动（例如，篮球）以及用户感兴趣的特定队伍的新闻。在针对用户的汇总过程期间，处理器648优先考虑特定运动和特定队伍的新闻条目。处理器648基于用户偏好模型来识别已知的记者和政治评论家，以检索和汇总针对用户的当前政治评论。处理器648可选地使用存储在车载信息娱乐系统600内的本地存储器中的本体或通过数据网络访问远程本体，以基于用户偏好模型识别不同信息源的观点并且过滤信息源。相似的偏好被用于从社交网络、电子邮件或其他消息系统为用户检索和呈现个性化消息。

如下所述，在过程700期间，车载信息娱乐系统600中的基于对话的接口被配置成随时接收来自用户的输入，以改变内容的递送，如图8中框824所描绘的。虽然车载信息娱乐系统600产生图8中所描绘的程序格式800而无需用户输入，但车载信息娱乐系统600基于用户输入来修改给用户的信息的内容或递送。例如，用户能够请求关于主题804-820中的任何主题的信息的更多或更少的细节，请求附加信息源或来自具有相反的观点的源的信息，或甚至请求关于与按照程序格式800呈现的主题完全不同的主题的信息。

再次参照图7，过程700以车载信息娱乐系统600基于用户偏好模型中的主题从多个源检索信息继续。处理器648基于用户偏好模型中针对用户的偏好来产生用于在线信息服务的一个或多个查询，以检索与主题相关的内容数据（框708）。在一些实施例中，内容检索包括“抓取（crawling）”过程，其中，处理器648针对来自不同信息服务的信息产生多个查询，以检索与一个或多个主题相关的链接文档。

例如，处理器648使用预定的本体或通过在线搜索引擎利用用户偏好模型中的关于运动队的识别信息和参考的一组体育信息服务来产生针对关于特定运动队的信息的查询。所选的源可选地基于隐性用户偏好来识别，例如用户使用其他计算设备定期访问的网站的统一资源定位符（URL），或通过选择一个或多个服务的显性用户输入来识别。查询包括例如包括来自用户偏好模型的相关术语的特定的关键字或关键短语，例如队名，并且处理器648使用无线网络设备654从所选的服务检索查询结果。查询还从所选的服务检索一般新闻信息，以除了基于针对用户的用户偏好模型的关于运动队的更详细的信息之外，还产生体育中的新近事件的一般摘要。在另一实施例中，处理器648实施如下软件，其订阅所选服务的发布的信息流，例如“丰富站点摘要”（RSS）订阅、Atom订阅或使用发布者-订阅者通信方案的其他合适的信息订阅。

图9描绘了用于在过程700期间检索和呈现针对用户的个人内容的系统600的一种操作模式。图9描绘了在系统600中通过处理器648来实现的对话管理器系统406，以及用户偏好模型数据904、个人爬虫内容模块908、个人内容数据库912、音频内容播放模块916、音频内容产生模块920和利用LCD显示器624实施的GUI控制器。个人内容包括使用一个或多个社交网络、电子邮件、SMS或其他消息服务932的个别针对用户的用户帐户的消息和其他数据。在图9中，处理器648从车辆中的存储器或从智能手机670中的存储器检索用户偏好模型数据904。用户偏好模型904以预定的数据格式存储对应于用户的偏好和用户的帐户凭据的数据，所述预定的数据格式例如JavaScript Object Notation（JSON）格式。例如，用户偏好模型904包括针对社交网络和消息服务932的URL和其他标识符、使得处理器648能够使用无线网络设备654来访问社交网络服务932的用户名以及密码或密钥。个人内容爬虫908也被配置成与服务932的预定的通信协议或公共应用程序编程接口（API）交互。处理器648使用个人内容爬虫908来从社交网络服务932检索消息和其他个人内容数据，并且处理器648将取回的数据存储在个人内容数据库912中。个人内容数据库912包括针对用户的一组个人数据，所述个人数据可用于使用车载信息娱乐系统600中的一个或多个输出设备来呈现。

对话管理器系统406控制框916中的音频内容的播放和来自用户920的音频内容的产生二者。音频内容播放916使用文本转语言（TTS）或其他音频合成系统来由个人内容爬虫908检索并且存储在个人内容数据库912中的消息产生音频输出。用户偏好模型904包括针对应当呈现给用户的消息的类型的存储的偏好，并且可选地包括针对呈现的顺序的偏好（例如，首先是来自工作电子邮件地址的电子邮件，继之以来自社交网络帐户的个人消息）。LCD 624产生GUI接口，其使得用户能够跳过、暂停和重放消息，或使得能够使用音频内容产生模块920记录新的消息。使用车载信息娱乐系统600中的多模态输入设备，用户还能够使用语音输入或手势输入来输入命令。为了记录新的消息，对话管理器系统406产生提示供用户识别消息的接收者以及用于传送消息的社交网络服务或电子邮件帐户。用户记录消息且音频内容产生模块920将消息内容转换成文本，并且个人内容爬虫908将消息传送到在线服务932。

图10描绘了用于在过程700期间检索和给用户呈现新闻或其他信息主题的车载信息娱乐系统600的另一操作模式。在图10中，车载信息娱乐系统600和处理器648实现了内容爬虫1008、新闻内容数据库1012、新闻集群模块1016、新闻过滤模块1020、音频输出模块1028和图4中所示的对话管理器系统406。在图10的配置中，内容爬虫1008从多个新闻媒体源1032检索对应于新闻和当前事件主题的数据，所述多个新闻媒体源1032为在线网站、博客、社交媒体网络、有线服务和新闻信息的任何其他在线来源。

取回的新闻故事数据被存储在新闻内容数据库1012中。例如，新闻集群模块1016使用凝聚式（agglomerative）的集群过程或其他集群过程，以基于不同新闻故事的内容的相似性将来自多个新闻源的内容组合在一起。新闻过滤模块1020接收与不同主题相关的新闻故事的群集群组，并且基于针对在新闻故事的每个集群中论述的每个主题的用户偏好来过滤集群。例如，如果用户偏好数据指示用户对与电视和电影演员的活动相关的新闻内容没兴趣，则随后新闻过滤模块1020基于条目中的关键词和用于分类新闻条目的分类元数据来阻止呈现这些条目。在图10的示例中，用户偏好数据被存储在一个或多个移动设备中，例如智能手机670，并且对话管理器系统406为新闻过滤模块1020和汇总模块1024检索用户偏好数据。新闻过滤模块1020可选地删除从新闻内容数据库1012过滤掉的内容。新闻过滤模块1020还组织用户感兴趣的主题，以首先呈现与用户高度感兴趣的主题相关的新闻故事。

汇总模块1024从新闻过滤模块1020接收新闻内容的集群，并且产生包括不同的细节级别的每个故事集群的多个汇总。例如，在一个实施例中，汇总模块1024为新闻故事的集群产生十个不同的级别细节。例如，具有最少量细节的汇总能够包括来自不同新闻条目的标题的汇总，而最详细的汇总包括来自不同新闻故事的扩展的段落，其中，汇总模块将冗余的内容综合成多个新闻条目。汇总模块1024存储与新闻内容数据库1012中的每个新闻条目相关联的多个级别的汇总信息。在操作期间，对话管理器系统406使用利用用户偏好数据存储的默认的汇总级别来呈现不同的主题。

在图10的示例中，音频输出模块1028包括文本转语言模块，用于通过扬声器632音频呈现汇总数据，但是替代性配置通过HUD 620和LCD显示器624输出文本和多媒体数据。在另一实施例中，车载信息娱乐系统600将作为文本或作为文本转按照例如MP3之类的音频格式编码的语言音频数据的汇总传送到移动设备670，用于通过移动设备来呈现。用户可选地通过车载信息娱乐系统600中的多模态输入设备来输入输入，以请求与默认的细节级别相比包括增加或减少的细节级别的汇总的版本，用于汇总呈现。对话管理器系统406接收所述请求，并且选择具有所请求的细节级别的汇总的版本，用于呈现给用户。

再次参照图7，处理器648在过程700期间还接收环境上下文数据和用户上下文数据（框712）。车载传感器650、GPS 652以及可选地智能手机670各自产生关于车辆的操作状态和车辆周围的环境的数据。包括手势输入摄像机644、LCD触摸屏接口624和音频输入设备628的多模态输入设备提供关于用户的活动的上下文信息，识别方向盘604以及油门和刹车踏板的操作的车载传感器650中的一些也是。车载信息娱乐系统600在过程700期间不断地收集车辆环境上下文数据和用户上下文数据。

过程700以如下方式继续，即：处理器648过滤和汇总从不同的源检索的内容数据，以基于操作的车辆环境背景和用户的背景针对主题中的每一个产生汇总呈现（框716）。处理器648将过滤和汇总过程应用于所选数据，以便呈现所述内容的被认为与用户最相关的部分。汇总过程的部分包括过滤过程，以在对于合理地呈现给用户而言内容的量过大的情况下，移除从在线服务取回的内容中的一些。在一个实施例中，汇总过程将相对相关性的优先级分配给从一个或多个信息服务接收的不同的文本块。因此，处理器648产生针对一个主题的包括具有不同相关性等级的多组数据的汇总呈现。

如下所述，响应于来自车载传感器650的数据或从用户接收的输入，系统600可选地产生如下输出，即：所述输出包括针对全部的汇总呈现的多组数据，或仅超过针对汇总数据集的相关性阈值的多组数据的一部分。一种更紧凑的汇总呈现仅包括具有最高相关性的文本段落，而更广泛的汇总还包括添加细节的附加段落。在一些实施例中，处理器648还执行句子压缩和其他文本编辑过程，以呈现汇总内容给用户。汇总过程还将来自多个信息源的内容组合成用于用户的统一的信息呈现。由于在描述主题时多个信息源通常包括冗余的信息，因此汇总过程从输出减少或消除冗余的信息。

在车载信息娱乐系统600中，处理器648基于环境上下文数据和用户上下文数据二者修改汇总过程，以增加或减少用户接收的信息量。例如，在一些情况下，处理器648响应于指示车辆处于交通繁忙中的来自车载环境传感器650的环境数据以音频格式产生输出，或如果车载环境传感器650指示车辆停止，则处理器648以视频格式产生输出。处理器648提高或降低针对汇总数据的相关性阈值，以基于识别的车辆和用户的背景来修改信息的汇总呈现。例如，如果车辆周围的环境数据指示车辆处于交通繁忙中，则处理器648将汇总过程限于仅具有最高相关性的信息的段落，以按照简化的方式提供信息的“标题”概括。处理器648还将输出产生为音频输出，以减少对用户的潜在分心。一些具有高优先级的简单的信息块，例如天气或交通警报符号，能够经由HUD 620来显示，以提供高度浓缩的信息而使用户最少分心。然而，如果环境上下文信息指示车辆被停止，并且用户上下文数据指示用户正在关注LCD面板624，则处理器648在汇总过程期间产生关于每个主题的更丰富信息集合。LCD面板624可选地显示更复杂的信息，例如针对用户的扩展的文本段落和图形，以基于车辆和用户的环境来为用户提供多模态输出。

过程700以如下方式继续，即：车载信息娱乐系统600基于用户偏好模型数据检索针对不同主题的数据，过滤和汇总所述数据，并且以预定的格式给用户呈现针对所述主题的汇总呈现，如上文参考框704-716的处理所述。车载信息娱乐系统600继续基于用户偏好模型使用例如图8中描绘的呈现格式800输出针对两个或更多个主题的信息的汇总呈现，如上文中在框708-716的处理中所述，直至用户经由多模态输入接口输入输入以改变信息的呈现（框720）。车载信息娱乐系统600使用上文在图3和图4中所述的对话用户接口系统来识别输入，并且如果初始输入是模糊的，则处理器648可选地征求来自用户的附加信息。

处理器648基于输入来修改呈现给用户的信息主题的呈现和内容（框724）。为了修改信息的呈现，处理器648接收预定的输入手势或口语命令，以重复主题、跳过或截短主题的呈现，或基于用户输入进入关于特定主题的更多细节。如果用户请求跳过主题，则处理器648绕过在主题中的信息呈现，并且开始产生针对另一主题的汇总呈现的输出。如果用户请求附加细节，处理器648降低在汇总过程中需要的相关性阈值，并且可选地从附加的在线数据服务请求信息，以呈现附加的信息给用户。用户还能够识别用于呈现的预定主题，以从预定的格式改变呈现的顺序。例如，在预定的程序格式800中，用户能够利用请求呈现天气主题804来中断体育信息主题812的呈现。因此，车载信息娱乐系统600基于用户输入来修改内容的呈现。

除修改内容的呈现外，车载信息娱乐系统600还被配置成响应于来自用户的输入来修改呈现的内容。为了改变针对系统600的呈现的主题，用户请求呈现与车载信息娱乐系统600被配置成呈现的预定的一组主题的信息的不同主题。所选的主题可以是关于与基于用户偏好模型在预定的程序中呈现的任何主题不同的主题。使用图8中的程序格式800作为示例，用户可以请求关于本地新闻主题的信息，即使本地新闻主题不是用户偏好模型中的默认程序格式的一部分。

在另一示例中，用户请求车载信息娱乐系统600从与默认的用户偏好模型中指定的源不同的源呈现信息，以呈现来自不同观点的关于主题的信息。例如，针对关于两个队伍之间的即将到来的体育事件的呈现的主题的默认的用户偏好模型可以包括与参与事件中的仅一个队相关联的新闻源。用户能够针对关于相同主题的不同意见请求来自附加的新闻源的关于主题的信息，所述附加的新闻源与另一个队相关联。处理器648参考关于体育的本体或其他领域特定的知识，以识别通常与特定队相关联的信息源，例如与每个队处于相同城市中的电视、收音机和报纸组织。

在另一示例中，用户偏好模型数据指定信息服务或与特定政治观点相关联的个别政治评论家。用户请求可以包括指定与用户偏好模型中的默认信息不同的观点、政治组织或评论类型的关键词。为了识别不同的信息服务或个别评论家的政治观点，处理器648参考本体将常用术语（例如 “右翼”、“左翼”、“自由派”、“保守”等）与同意或不同意特定观点的不同的在线服务和政治评论家相关联。此外，如“中立”或“客观”之类的术语可以表示关于主题产生具有较少政治倾向的信息的信息源。更复杂的统计或符号算法也可以被用于分类和选择具有不同观点的信息源。车载信息娱乐系统600中的对话接口接收来自用户的关键词输入，执行任何所需的消歧，并且使用附加的信息源给用户呈现修改的用户内容，如上参考框708-716中的处理所述。

在过程700期间，处理器648响应于来自用户的基于对话的输入，修改与用户相关联的用户偏好模型（框728）。在车载信息娱乐系统600的使用期间对用户偏好模型的修改导致对信息呈现的默认格式的呈现或内容的改变。将程序格式800用作示例，如果在框812中的体育新闻的汇总呈现期间用户频繁地输入关于特定队伍的附加信息的请求，则处理器648更新用户偏好数据模型，以默认在针对属于识别的运动队的主题的汇总过程期间包括更多的信息。类似地，如果用户随时间的推移对改变针对内容的信息的内容或源作出重复的请求，则处理器648基于用户输入更新用户偏好模型，以默认呈现修改的内容。因此，在过程700的后续迭代期间，车载信息娱乐系统600基于来自用户的输入修改信息主题的默认的呈现和内容。

如上所述，车载信息娱乐系统600利用用户可选择的交互性水平给用户递送信息。不同于传统的最低限度交互式系统，用户以个性化格式接收信息并且以交互式方式自由请求改变信息递送。不同于传统的完全交互式系统，用户不需要通过一系列请求手动检索信息，例如请求一系列网页，或手动访问多个新闻服务以检索信息。相反，车载信息娱乐系统提供600相关信息被定制为用户的偏好和用户的和车辆的当前背景下，而不需要详细的用户控制。然而，系统600提供多模态对话接口，使用户改变内容和的信息在中交互式方式呈现。尽管过程700被描述在中结合车载信息娱乐系统600作为一个说明性实施例，过程700能够与整合范围广泛的计算设备包括，但不限于，智能手机，可穿戴式计算机，智能家居信息访问和设备控制单元，和其他移动计算设备。

它将可以理解的是变体的上述公开的和其他特征和功能，或它们的替代物，可以按需要结合到中许多其他不同的系统，应用或方法。例如，虽然前述实施例呈现的车载智能辅助系统，替代性实施例信息的示例系统600能够与集成各种各样的电子设备，包括移动电子通信设备和电动工具，或智能家居信息访问和设备控制单元，以减少用户分散注意力。各种目前无法预见或无法预料的替代，修改，变化或改进可以随后通过本领域技术人员在中的技术，它们也旨在被包括在本文中所阐述在中下列权利要求提出。

Claims

1.一种内容呈现系统，包括：

网络设备，其配置成通过数据网络从多个信息源检索信息；

存储器，其配置成存储对应于所述内容呈现系统的用户的用户偏好模型；

输出设备；以及

处理器，其操作性地连接到所述网络设备、所述存储器和所述输出设备，所述处理器被配置成：

参考所述用户偏好模型从所述多个信息源检索对应于预定的多个主题的信息；

产生针对所述多个主题中的每个主题的信息的多个汇总呈现；以及

利用所述输出设备，参考所述用户偏好模型，为所述用户以预定格式利用所述输出设备为针对所述多个主题的所述多个汇总呈现中的每一个产生输出。

2. 如权利要求1所述的内容呈现系统，还包括：

环境传感器，其配置成产生对应于所述内容呈现系统周围的环境的数据；以及

所述处理器被操作性地连接到所述环境传感器，并且还配置成：

参考对应于所述呈现系统周围的环境的数据，来修改所述多个汇总呈现的输出。

3.如权利要求2所述的内容呈现系统，所述处理器还被配置成：

参考对应于所述呈现系统周围的环境的数据，利用音频输出设备来产生所述多个汇总呈现中的至少一个的输出。

4.如权利要求2所述的内容呈现系统，所述处理器还被配置成：

参考对应于所述呈现系统周围的环境的数据，利用视频输出设备来产生所述多个汇总呈现中的至少一个的输出。

5.如权利要求2所述的内容呈现系统，所述处理器还被配置成：

产生包括对应于多个相关性等级的多组汇总数据的所述多个汇总呈现中的一个汇总呈现；

参考对应于所述呈现系统周围的环境的数据来设置相关性阈值；以及

产生包括对应于超过所述相关性阈值的相关性等级的所述多组汇总数据的仅一部分的所述一个汇总呈现的输出。

6. 如权利要求1所述的内容呈现系统，还包括：

输入设备，其配置成接收来自所述用户的输入；以及

所述处理器被操作性地连接到所述输入设备，并且还配置成：

在利用所述输出设备产生多个汇总输出期间，利用用户输入设备来接收来自所述用户的输入；以及

参考来自所述用户的输入，来调整所述多个汇总输出的预定格式。

7. 如权利要求6所述的内容呈现系统，所述处理器还被配置成：

响应于来自所述用户的输入，截短所述多个汇总呈现中的一个汇总呈现的输出；以及

响应于来自所述用户的输入，开始所述多个汇总呈现中的另一汇总呈现的输出。

8. 如权利要求6所述的内容呈现系统，所述处理器还被配置成：

响应于来自所述用户的输入，为所述多个汇总呈现中的一个汇总呈现产生附加细节；以及

利用所述输出设备来产生具有所述附加细节的所述一个汇总呈现的输出。

9. 如权利要求1所述的内容呈现系统，所述处理器还被配置成：

参考存储在所述存储器中的所述用户偏好模型，来识别对应于所述多个主题中的一个主题的观点偏好；以及

参考所述用户偏好模型，过滤来自所述多个信息源的信息，以选择仅对应于所述观点偏好的信息源，用于产生对应于所述一个主题的汇总呈现。

10.如权利要求9所述的内容呈现系统，所述处理器还被配置成：

参考与所述一个主题相关联的本体，来识别与对应于所述一个主题的所述多个信息源中的每一个相关联的观点。

11.一种在内容呈现系统中呈现内容的方法，包括：

参考存储在存储器中的用户偏好模型，利用网络设备从多个信息源检索对应于预定的多个主题的信息；

利用处理器，产生针对所述多个主题中的每个主题的信息的多个汇总呈现；以及

利用所述处理器，参考所述用户偏好模型，为用户利用输出设备以预定格式为针对所述多个主题的所述多个汇总呈现中的每一个产生输出。

12. 如权利要求11所述的方法，还包括：

利用环境传感器来接收对应于所述内容呈现系统周围的环境的数据；以及

参考对应于所述呈现系统周围的环境的数据，利用所述处理器来修改所述多个汇总呈现的输出。

13.如权利要求12所述的方法，对所述多个汇总呈现的输出的所述修改还包括：

14.如权利要求12所述的方法，对所述多个汇总呈现的输出的所述修改还包括：

15.如权利要求12所述的方法，还包括：

利用所述处理器来产生包括对应于多个相关性等级的多组汇总数据的所述多个汇总呈现中的一个汇总呈现；

参考对应于所述呈现系统周围的环境的数据，利用所述处理器来设置相关性阈值；以及

利用所述处理器来产生包括仅对应于超过所述相关性阈值的相关性等级的所述多组汇总数据的一部分的所述一个汇总呈现的输出。

16. 如权利要求11所述的方法，还包括：

输入设备，其配置成接收来自所述用户的输入；以及

在利用所述输出设备来产生多个汇总输出期间，利用输入设备来接收来自所述用户的输入；以及

参考来自所述用户的输入，利用所述处理器来调整所述多个汇总输出的预定格式。

17. 如权利要求16所述的方法，还包括：

响应于来自所述用户的输入，利用所述处理器来截短所述多个汇总呈现中的一个汇总呈现的输出；以及

响应于来自所述用户的输入，利用所述处理器来开始所述多个汇总呈现中的另一汇总呈现的输出。

18. 如权利要求16所述的方法，还包括：

响应于来自所述用户的输入，利用所述处理器为所述多个汇总呈现中的一个汇总呈现产生附加细节；以及

利用所述处理器，利用所述输出设备来产生具有所述附加细节的所述一个汇总呈现的输出。

19. 如权利要求11所述的方法，还包括：

利用所述处理器，参考存储在所述存储器中的用户偏好模型，来识别对应于所述多个主题中的一个主题的观点偏好；以及

利用所述处理器，参考所述用户偏好模型，过滤来自所述多个信息源的信息，以选择仅对应于所述观点偏好的信息源，用于产生对应于所述一个主题的汇总呈现。

20.如权利要求19所述的方法，还包括：

利用所述处理器，参考与所述一个主题相关联的本体，来识别与对应于所述一个主题的所述多个信息源中的每一个相关联的观点。