CN115038936A

CN115038936A - 用于场景感知交互的系统和方法

Info

Publication number: CN115038936A
Application number: CN202080095350.4A
Authority: CN
Inventors: 堀智织; A·谢里安; 陈思衡; T·马克斯; J·勒鲁克斯; 堀贵明; B·哈尔沙姆; 安东尼·韦特罗; 阿兰·苏利文
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-02-06
Filing date: 2020-12-17
Publication date: 2022-09-09
Also published as: EP3994426B1; EP3994426A1; US11635299B2; WO2021157243A1; US20210247201A1; JP2023508778A; JP7345683B2

Abstract

提供了一种导航系统，其被配置为基于场景中的与驾驶车辆相关的对象的实时描述向移动的车辆的驾驶员提供驾驶指令。导航系统包括：输入接口，其被配置为接受用于驾驶车辆的路线、在当前时刻车辆在路线上的状态、以及在当前时刻与车辆的路线相关的显著对象的集合的动态地图，其中，至少一个显著对象是由在当前时刻的当前位置和在未来时刻的未来位置之间的路线上移动的车辆的测量系统感知的对象，其中，显著对象的集合包括一个或更多个静态对象和一个或更多个动态对象；处理器，其被配置为基于从由车辆的状态指定的驾驶员视角导出的动态地图中的显著对象的描述来生成驾驶指令；以及输出接口，其配置为向车辆的驾驶员呈现驾驶指令。

Description

用于场景感知交互的系统和方法

技术领域

本发明总体上涉及用于提供场景感知交互(scene-aware interaction)系统的系统和方法，并且更具体地涉及用于基于关于车辆附近的静态和动态对象的实时单模态(unimodal)或多模态(multimodal)信息向车辆的驾驶员提供路线引导的场景感知交互导航系统。

背景技术

为驾驶员驾驶车辆提供导航辅助通常是由诸如GPS接收器之类的系统提供的，该系统可以向驾驶员提供语音路线引导。路线引导采用转向指示的形式，最常见的是指示到转向点的距离、转向的方向以及可能的一些额外信息，以明确在哪里转向，例如“在100英尺内第二个路口向右转进入约翰逊街”。然而，在某些情况下，向驾驶员提供路线引导的这种方法可能会使驾驶员感到困惑，例如，当驾驶员不知道并且不能容易识别转向的街道名称是“约翰逊街”时，或者当存在多条街道和路径紧密靠近时。然后，驾驶员可能无法识别要转向的正确街道，从而错过转向，变得困惑，可能导致危险情况。

另选地，存在可以使用来自地图的存储的与兴趣点相关的信息来指示转向点的路线引导系统，诸如“在邮局处在100英尺内转向”。然而，在某些情况下，这种方法可能会让驾驶员感到困惑，例如当树木或车辆掩盖了邮局或使其难以识别时，或者当存储的信息过时并且在该转向点不再存在邮局时。

另选地，存在实验路线引导系统，其可以接受由驾驶员捕获的实时相机图像并且在实时图像上覆盖诸如箭头之类的指示要遵循的特定路线的图形元素。然而，这种方法不提供大声说出的描述性语句，并且要求驾驶员将眼睛从道路移开以看到路线引导。

发明内容

场景感知交互系统可以应用于多种应用，例如车载信息娱乐和家用电器、与建筑物系统中的服务机器人的交互以及监测系统。GPS仅仅是导航系统的一种定位方法，其它定位方法可以用于其它应用。在下文中，导航系统被描述为场景感知交互的示例应用之一。

本公开的至少一个认识是，现有方法不同于将知道何处转向的假设乘客将向驾驶员提供的引导。了解路线并向驾驶员提供引导的乘客通常不考虑静态和动态对象两者以制定他们认为最直观、自然、相关、容易理解、清晰等的驾驶指令，以便帮助驾驶员安全地遵循预期路线。

本公开的至少一个其它实现是现有方法不利用关于车辆附近的动态对象(例如其它车辆)的实时信息来识别参考点以提供路线引导。本公开的至少一个其它实现是现有方法没有利用实时信息来考虑当前的情况使得驾驶员可以容易地识别当前的情况(诸如例如车辆或树木的阻碍视野的其它对象)，所述当前的情况可能改变或影响描述车辆附近的静态对象的适当方式，，静态对象的外观不同于静态数据库中存储的静态对象的外观，例如由于建设或翻新，或者直接由于不再存在静态对象，因此使得其与提供路线引导的参考点无关。

一些实施方式的目的是基于关于车辆附近的静态和动态对象的实时单模态或多模态信息向车辆驾驶员提供路线引导。例如，一些实施方式的目的是提供基于上下文的驾驶指令，例如“在棕色砖块建筑物之前右转”或“跟随白色汽车”，作为如“在100英尺内在第二个路口右转上约翰逊街”的基于GPS的指令的补充或替代。这种基于上下文的驾驶指令可以基于对车辆附近的场景的实时感知来生成。为此，基于上下文的导航在本文中被称为场景感知导航。

一些实施方式基于以下理解：在不同的时间点，不同数量或类型的对象可以与用于驾驶车辆的路线相关。所有这些相关对象对于场景感知导航都是潜在有用的。然而，与由计算机作出驾驶决定的自主驾驶相比，当针对太多不同对象或人类驾驶员可能不容易识别的对象作出驾驶指令时，人类驾驶员可能会困惑和/或分心。因此，因为不同对象可以或多或少地与上下文驾驶指令相关，所以一些实施方式的目的是从与驾驶员的路线相关的显著对象的集合中选择对象并基于该显著对象的描述生成驾驶指令。

本发明的路线引导系统可以从多个源接收信息，包括静态地图、规划的路线、由GPS或其它方法确定的车辆当前位置，以及来自一系列传感器的实时传感器信息，所述一系列传感器包括但不限于一个或更多个相机、一个或更多个麦克风、以及包括雷达和LiDAR的一个或更多个距离检测器。实时传感器信息由处理器处理，该处理器能够从实时传感器信息检测车辆附近的显著静态和动态对象的集合以及一组对象属性的集合，该对象属性的集合可以包括例如：每个对象的类别，例如汽车、卡车、建筑物；以及对象的颜色、大小和位置。对于动态对象，处理器还可以确定动态对象的轨迹。在由麦克风获取的声音信息的情况下，处理器可以通过识别声音的类型来检测对象的类别，并且对象属性可以包括对象的方向和距车辆的距离、对象的运动轨迹以及声音的强度。显著对象的集合及其属性的集合在下文中被称为动态地图。

路线引导系统使用诸如基于规则的方法或基于机器学习的方法之类的许多方法来处理动态地图，以便基于路线从显著对象的集合中识别显著对象，以用作所选显著对象以便提供路线引导。

路线引导信息的传达可以包括在显示器(例如，仪表组或中央控制台中的LCD显示器)上使用边界矩形或其它图形元素来突出显示显著对象。另选地，传达的方法可以包括使用例如基于规则的方法或基于机器学习的方法来生成语句，其包括显著对象的描述性属性的集合。生成的语句可以在显示器上被传达给驾驶员。另选地，可以通过语音合成将生成的语句转换成驾驶员可以听到的说话的声音。

本发明的另一个目的是，可以通过考虑车辆距路线转向点的距离来确定显著对象。特别地，可以在各种距离范围选择多个不同的显著对象，使得在每个距离范围，所选显著对象向驾驶员提供关于规划的路线的最大信息。例如，在距转向点远距离处，诸如接近转向点的建筑物之类的大型静态对象可以被确定为显著对象，因为还不能清楚地看到转向点，而在距转向点近距离处，诸如已经沿着规划的路线行进的另一车辆之类的动态对象可被确定为显著对象，因为其可被清楚地看到并且足够独特以用于路线引导。

本发明的另一个目的是，根据规划的路线，本发明的路线引导系统可以以某种形式提供关于车辆附近的其它对象的描述性警告。例如，如果规划的路线的下一步骤是转向，并且路线引导系统检测到在规划的路线上存在障碍物，则可以将描述性警告消息传送给驾驶员以警告他们对象的存在。更具体地，如果一个人正在沿着规划的路线在车辆附近的点处穿过或看上去准备穿过街道，则路线引导系统可以提供描述性警告消息。例如，路线引导系统可以生成并大声说出这样的语句：“警告，有人在你左边的人行横道上”。

本发明的另一个目的是提供驾驶员和本发明的路线引导系统之间的双向交互的可能性，该双向交互使得驾驶员能够寻求关于涉及显著对象的位置、属性或其它信息的澄清以及请求不同的显著对象。双向交互可以包括一个或更多个交互机制，交互机制包括口语对话，其中自动语音识别器使得路线引导系统能够获取驾驶员发声的文本，从而系统能够处理该文本以理解和适应驾驶员对系统的响应。交互还可以包括由一个或更多个相机捕获的信息，所述相机接收驾驶员的图像并且被输入到计算机视觉子系统中，所述计算机视觉子系统可以提取关于驾驶员的信息，包括但不限于驾驶员的姿势，例如驾驶员的手的指向或驾驶员的注视方向。交互还可以包括来自驾驶员的手动输入，包括按压一个或更多个控制按钮，这些控制按钮可以以驾驶员可访问的方式布置，例如在方向盘、仪表组或中央控制台上。

根据一些实施方式，导航系统被配置为基于场景中的与驾驶车辆相关的对象的实时描述向车辆的驾驶员提供驾驶指令。所述导航系统可以包括：输入接口，该输入接口被配置为接受用于驾驶所述车辆的路线、在当前时刻在所述路线上的所述车辆的状态、以及与所述车辆在所述当前时刻的路线相关的显著对象的集合的动态地图，其中，至少一个显著对象是由在所述当前时刻的当前位置和在未来时刻的未来位置之间的路线上移动的所述车辆的测量系统感知的对象，其中，所述显著对象集合包括一个或更多个静态对象和一个或更多个动态对象；处理器，该处理器被配置为基于从由所述车辆的状态指定的驾驶员视角导出的动态地图中的显著对象的描述来生成驾驶指令；以及输出接口，该输出接口被配置为向车辆的驾驶员呈现驾驶指令。

本公开的一些实施方式基于这样的认识，即可以基于关注多模态融合来执行与用户(操作者)的场景感知交互，该关注多模态融合分析多模态感测信息并且通过依赖于上下文的自然语言生成来提供与人类的更自然和直观的交互。

在一些情况下，多模态感测信息可以是由相机捕获的图像/视频、由麦克风获取的音频信息以及由诸如LiDAR或雷达的距离传感器估计的位置信息。

将关注多模态融合到场景理解技术和基于上下文的自然语言生成中，实现了一个强大的场景感知交互系统，以更直观地根据场景中的对象和事件与用户进行交互。场景感知交互技术可以广泛地应用于多种应用，包括车载信息娱乐和家用电器的人机接口(HMI)、与建筑物系统中的服务机器人的交互以及监测系统。

将参照附图进一步解释当前公开的实施方式。所示出的附图不一定是按比例绘制的，而是通常将重点放在说明当前公开的实施方式的原理上。

附图说明

[图1A]

图1A示出了根据本公开的一些实施方式的导航系统的框图和图示；

[图1B]

图1B示出了根据本公开的一些实施方式的导航系统的框图和图示；

[图1C]

图1C示出了根据本公开的一些实施方式的导航系统的框图和图示；

[图1D]

图1D示出了根据本公开的一些实施方式的导航系统的框图和图示；

[图2]

图2是根据本公开的一些实施方式的路线引导系统的示意图，其示出了从车辆附近的外部场景到输出驾驶指令的信息流；

[图3]

图3是根据本公开的一些实施方式的从多个源和传感器接受输入并将信息输出到显示器或扬声器的计算机的框图；

[图4]

图4是示出根据本公开的实施方式的多模态关注方法的框图；

[图5]

图5是示出根据本公开的实施方式的用于语句生成的多模态融合方法(多模态特征融合方法)的示例的框图；

[图6A]

图6A是示出根据本公开的实施方式的导航系统的参数函数的训练的流程图，该参数函数被配置为基于车辆的状态和动态地图生成驾驶指令；

[图6B]

图6B是示出根据本公开的实施方式的导航系统的参数函数的训练的流程图，第一参数函数被配置为基于车辆的状态来确定动态地图的显著对象的集合的属性和空间关系以获得经变换的动态地图，第二参数函数被配置为基于经变换的动态地图来生成驾驶指令；

[图6C]

图6C是示出根据本公开的实施方式的导航系统的参数函数的训练的流程图，第一参数函数被配置为基于来自场景的测量确定车辆的状态和动态地图，第二参数函数被配置为基于车辆状态和动态地图生成驾驶指令；

[图6D]

图6D是示出根据本公开的实施方式的导航系统的参数函数的端到端训练的流程图，该导航系统被配置为基于来自场景的测量来生成驾驶指令；

[图6E]

图6E是示出根据本公开的实施方式的导航系统的参数函数的训练的流程图，第一参数函数被配置为基于来自场景的测量确定车辆的状态和动态地图，第二参数函数被配置为基于所述车辆的状态确定所述动态地图的显著对象的集合的属性和空间关系以获得经变换的动态地图，第三参数函数被配置为从所述经变换的动态地图中选择显著对象的子集，并且第四参数函数被配置为基于所选显著对象生成驾驶指令；

[图6F]

图6F是示出根据本公开的实施方式的导航系统的参数函数的多任务训练的流程图，第一参数函数被配置为基于来自场景的测量确定车辆的状态和动态地图，第二参数函数被配置为基于所述车辆的状态确定所述动态地图的显著对象的集合的属性和空间关系以获得经变换的动态地图，第三参数函数被配置为从所述经变换的动态地图中选择显著对象的子集，并且第四参数函数被配置为基于所选显著对象生成驾驶指令；

[图7]

图7示出了根据本公开的一些实施方式的动态地图中的示例显著对象以及对象的属性和这些属性的值；

[图8]

图8示出了根据本公开的一些实施方式的显著对象的集合及其相对空间关系；

[图9]

图9示出了根据本公开的一些实施方式的显著对象的集合和用于在不同时间实例生成路线引导语句的相应相关性得分；

[图10]

图10示出了根据本公开的一些实施方式的显著对象的集合和用于在不同时间实例生成路线引导语句的相应相关性得分；

[图11]

图11示出了根据本公开的一些实施方式的路线引导系统和驾驶员之间的对话的示例；

[图12]

图12是根据本公开的一些实施方式的路线引导系统的特定实施方式的流程图，该路线引导系统在语句生成器内使用基于规则的对象排序器。

虽然上述附图阐述了当前公开的实施方式，但如在讨论中所指出的，也可预期其他实施方式。本公开以呈现而非限制的方式呈现说明性实施方式。本领域技术人员可以设计出许多其他修改和实施方式，这些修改和实施方式落在当前公开的实施方式的原理的范围和精神内。

具体实施方式

以下描述仅提供示例性实施方式，而不旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将向本领域技术人员提供用于使得能够实现一个或更多个示例性实施方式的描述。预期可在不脱离所附权利要求书中所阐述的所公开主题的精神和范围的情况下对元件的功能和布置进行各种改变。

在以下描述中给出具体细节以提供对实施方式的全面理解。然而，本领域的普通技术人员可理解，可在没有这些特定细节的情况下实践实施方式。例如，所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件，以便不以不必要的细节使实施方式模糊。在其它示例中，可在没有不必要细节的情况下示出众所周知的过程、结构及技术以避免使实施方式模糊。此外，各个附图中相同的参考标号和标记指示相同的元件。

而且，可以将各个实施方式描述为被描绘为流图、流程图、数据流图、结构图或框图的过程。尽管流程图可能将操作描述为顺序过程，但许多操作可并行或同时执行。另外，可以重新安排操作的顺序。过程可在其操作完成时终止，但可具有未在图中论述或包括的额外步骤。此外，并非在所有实施方式中都会发生任何特别描述的过程中的所有操作。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，函数的终止可以对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可以至少部分地手动或自动地实现。可通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实施方案。当在软件、固件、中间件或微代码中实现时，用于执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要的任务。

图1A至图1D示出了根据本公开的一些实施方式的导航系统的框图和图示。在一些情况下，导航系统可以被称为路线引导系统，并且路线引导系统可以被称为导航系统。

图1A是示出一些实施方式的特征的导航系统的框图。可以基于由车辆的测量系统160感知的感测信息来识别和描述动态地图中的显著对象(salient object)的集合，该感测信息包括来自一个或多个模态的信息，例如来自麦克风161的音频信息、来自相机162的视觉信息、来自诸如LiDAR 163的距离传感器(即，深度传感器)的深度信息、以及来自全球定位系统(GPS)164的定位信息。系统基于来自显著对象的集合的一个或多个显著对象的描述来输出驾驶指令105。在一些实施方式中，处理器通过将来自测量系统160的测量提交给参数函数170来生成驾驶指令105，参数函数170已经被训练为根据测量生成驾驶指令。在其它实施方式中，由测量系统获得的多模态感测信息用于确定车辆的状态(在本文件中我们也将其称为车辆状态)和动态地图。处理器被配置为将车辆的状态和动态地图提交给参数函数170，参数函数170被配置为基于从由车辆的状态指定的驾驶员视角导出的动态地图中的显著对象的描述来生成驾驶指令105。

图1B、图1C和图1D示出了根据本发明的一些实施方式的导航系统的图示。系统已经获得用于驾驶车辆的路线，并且具有关于在当前时刻在驾驶路线110上的车辆的状态的信息。应当理解，路线由一系列路段(segment)和转向组成，其中，每个路段具有确定的长度和位置，并且每个转向在从一个路段或转向通向另一个路段或转向的特定方向上。在一些实施方式中，路段和转向是连接以提供车辆可遵循以从一个位置行进到另一位置的路径的道路的各个部分。路线由驾驶路线110的不久将被车辆穿过的部分表示，如覆盖在道路上的箭头所示。在一些实施方式中，车辆的状态包括车辆相对于动态地图的位置和朝向，动态地图包含与在路线上驾驶车辆相关的显著对象的集合。显著对象包括一个或多个静态对象(即，总是静止的对象)，例如建筑物130、标志140或邮箱102，以及一个或多个动态对象(即，具有移动能力的对象)，例如其它车辆120、125或行人106。在一些实施方式中，当前不移动但具有移动能力的动态对象(例如，停驻的汽车或当前站着不动的行人)被认为是动态对象(尽管速度等于零)。该系统包括被配置成生成驾驶指令105的处理器，该驾驶指令105经由诸如语音合成系统150的输出接口呈现给车辆的驾驶员。

在一些实施方式中，驾驶指令包括从由车辆的状态指定的驾驶员视角导出的动态地图中的显著对象(102、125、126)。例如，在图1B中，驾驶指令105基于显著对象102的描述“红色邮箱”，显著对象102是从基于驾驶员视角的动态地图中的显著对象的集合中选择的。在一些实施方式中，驾驶员视角包括车辆相对于动态地图的当前位置以及路线110的基于车辆的当前位置和朝向而相关的部分。例如，选择“红色邮箱”部分是因为其位于路线110中即将到来的转向的方向上。在即将到来的转向110为左转的另选情形(图1B中未示出)中，驾驶指令将基于不同对象130，所述不同对象130的描述“蓝色建筑物”用于诸如“在蓝色建筑物之前左转”的驾驶指令中，因为从将要左转的驾驶员的视角来看，蓝色建筑物130比红色邮箱102更相关。

在图1C中，驾驶指令105基于动态地图中显著对象125的描述“右转的银色汽车”。在图1D中，驾驶指令105是基于动态地图中的显著对象的集合(行人106和人行横道)的描述“人行横道中的行人”的警告。从驾驶员的视角来看，这些对象是重要的，因为它们对于车辆的驾驶员是可见的并且它们在车辆的路线110的下一部分上。

图2是示出从车辆附近的外部场景201到输出驾驶指令213的信息流的所提出的路线引导系统的示意图。车辆配备有向路线引导系统提供实时传感器信息203的多个实时传感器模态。对象检测和分类模块204使用参数化函数来处理实时传感器信息203，以便提取关于车辆附近的对象的信息，关于车辆附近的对象的信息包括它们相对于车辆的位置以及它们的类别类型，其中类别类型至少包括建筑物、汽车、卡车和行人。对象属性提取模块205执行附加操作以针对每个检测到的对象提取对象属性的集合，其中属性的集合至少包括颜色、距车辆的距离和大小，并且对于一些特定类别的对象还可以包括轨迹信息，例如运动的速度和方向。本领域普通技术人员应当理解，对于每个不同类别的对象，可以存在不同的属性的集合。例如，卡车可以具有卡车类型的属性，该属性例如可以根据需要取厢式、半厢式、倾卸等中的一个的值，以使得语句生成器212能够生成高度描述性的驾驶指令语句213以用于路线引导。动态地图206从对象检测和分类模块204、对象属性提取模块205以及规划的驾驶路线202和由车辆状态209确定的视见体积(viewing volume)211接收信息。动态地图206使用驾驶路线信息202来识别对规划的路线显著的所检测的对象的子集。显著对象是指通过例如在与路线转向点相同的拐角处或刚好经过转向点的规划的路线上而与驾驶路线相关的对象。动态地图由显著的静态和动态对象的集合组成，包括它们的类别类型和属性，这些对象是要用于向驾驶员提供路线引导的候选对象。

车辆状态209包括车辆位置、速度和朝向中的一个或组合。在一些实施方式中，驾驶员视角210是给定驾驶员的座椅高度和驾驶员在没有过度头部运动的情况下能够合理地看到的角度范围(例如围绕汽车的前部方向+/-60度)的驾驶员的观察位置。驾驶员视角210用于确定视见体积211，视见体积211是驾驶员可以看到的空间的子集。这是有用的，因为一个或更多个实时传感器可以以使得它们能够看到驾驶员看不到的对象的方式安装在汽车上。例如，安装在车顶上的LiDAR可以能够检测超出另一个更近的第二对象的第一对象，但是当从驾驶员的视角210观看时，第一对象被第二对象遮挡。这使得第一对象在该时刻不是合适的显著对象，因为它不能被看到。因此，动态地图206还可以使用视见体积211来确定显著对象的集合。另选地，从驾驶员的视角210不能被看到的显著对象对于提供驾驶指令语句213可能是重要的。例如，救护车可能从车辆后面接近，因此，从驾驶员的直接视野中隐藏。语句生成模块212可以生成驾驶指令语句213，其向驾驶员提供关于接近的救护车的警告。应当理解，动态地图基于实时传感器信息203被连续地更新，并且视见体积211的状态可以随时改变。

语句生成模块212执行在给定驾驶路线202、视见体积211和动态地图206的情况下生成驾驶指令语句213的操作。语句生成模块212使用参数函数在动态地图206中的静态显著对象207和动态显著对象208的集合中选择对于生成驾驶指令语句213最显著的对象的小子集。宽泛地说，最显著的对象往往会更大，并且颜色或位置更独特，以便驾驶员能够快速观察到它。

语句生成模块212可以由多个不同的参数函数来实现。用于实现语句生成模块212的一个可能的参数函数是通过使用基于模板的驾驶命令，也简称为驾驶命令。基于模板的驾驶命令的一个示例是“跟随在前方转向<方向>的<属性><显著对象>”。在前述示例中，<属性>、<显著对象>和<方向>是语句生成模块212填充以产生驾驶指令语句213的模板槽。在这种情况下，<属性>是显著对象的一个或更多个属性，并且<方向>是驾驶路线202中的下一个转向方向。这种类型的基于模板的驾驶命令的一个具体示例是“跟随在前方左转的大型棕色厢式卡车”。在该具体示例中，“大型”、“棕色”和“厢式”是已经在与驾驶路线202的下一个转向方向相同的方向上“左转”的“卡车”的属性。很多可能的基于模板的驾驶命令是可行的，包括例如“在<属性><显著对象>之前转向<方向>”、“在<属性><显著对象>之后转向<方向>”、“合并到<方向>”、“向<属性><显著对象>驾驶”、“停在<属性><显著对象>”、“在<属性><显著对象>附近停车”。使用词语“之前”、“之后”、“附近”表示显著对象与路线之间的相对空间关系。例如，“在大型绿色雕塑前右转”。应当理解，前述列表并不全面，并且基于模板的驾驶命令的许多附加变型是可能的，包括提供包括多于一个显著对象的驾驶指令语句213的一些变型。

图3是本发明的路线引导系统300的框图。路线引导系统在计算机305中实现，计算机305可以根据需要与一个或更多个外围设备接口连接以实现功能。驾驶员控制接口310将计算机305接口连接到一个或更多个驾驶员控制器311，驾驶员控制器311可以包括例如车辆方向盘上的按钮，并且可以使驾驶员能够向路线引导系统300提供一种形式的输入。显示接口350将计算机305接口连接到一个或更多个显示装置355，显示装置355可以包括例如安装在仪表组上的显示器或安装在中控台上的显示器，并且使路线引导系统能够向驾驶员显示视觉输出。相机接口360将计算机305接口连接到一个或更多个相机365，相机365中的一个被定位成接收来自车辆的前方外部附近的光。另一相机365可被定位成接收来自车辆内部的光，以使路线引导系统300能够观察驾驶员的面部和动作，从而实现另一形式的输入。距离传感器接口370将计算机305接口连接到一个或更多个距离传感器375，距离传感器375可以包括例如面向外部的前视、侧视或后视雷达和LiDAR，从而使得路线引导系统能够获得包括到附近对象的距离的关于车辆附近的3D信息。另外，距离传感器375可以包括一个或更多个面向内部的雷达传感器和LiDAR，其使得路线引导系统能够获得关于驾驶员的动作的3D信息，从而使得能够向系统300进行另一种形式的输入。GPS接口376将计算机305接口连接到GPS接收器377，GPS接收器377能够接收提供车辆的当前实时位置的GPS信号。麦克风接口380将计算机305接口连接到可以例如位于车辆外部以使得能够接收来自车辆外部的声音信号的一个或更多个麦克风385以及位于车辆内部上以使得能够从车辆内部接收包括驾驶员语音的声音信号的一个或更多个麦克风385。扬声器接口390将计算机305接口连接到一个或更多个扬声器395以使系统300能够向驾驶员发射可听输出，该可听输出可以包括例如由语音合成器呈现为可听形式的驾驶指令213。综合起来，驾驶员控制器311、相机365、距离传感器375、GPS接收器377和麦克风385构成提供如上所述的实时信息203的实时传感器。

计算机305可以配备有网络接口控制器(NIC)312，其使得系统300能够从网络313交换信息，网络313可以包括例如互联网。交换的信息可以包括基于网络的地图和其它数据314，诸如车辆附近的静态对象的位置和属性。计算机配备有执行实现路线引导系统300所需的实际算法的处理器320以及存储部330，存储部330是某种形式的计算机存储器，例如，可以是动态随机存取存储器(DRAM)、硬盘驱动器(HDD)或固态驱动器(SSD)。存储部330可以用于许多目的，包括但不限于存储对象检测和分类模块331、对象属性提取模块332、动态地图333、路线334、路线引导模块335和语句生成模块336。另外，计算机305具有用于存储由各种模块和接口使用的临时数据的工作存储器340。

多模态关注方法(Multimodal Attention Method)

可以基于多模态关注方法来构造具有多模态融合模型的语句生成器。图4是示出根据本公开的实施方式的多模态关注方法的框图。除了特征提取器1～K、关注估计器1～K、加权求和处理器1～K、特征变换模块1～K和序列生成器450之外，多模态关注方法还包括模态关注估计器455和加权求和处理器445，而不是使用简单求和处理器(未示出)。结合序列生成模型(未示出)、特征提取模型(未示出)和多模态融合模型(未示出)来执行多模态关注方法。在这两种方法中，序列生成模型可以提供序列生成器450，特征提取模型可以提供特征提取器1～K(411、421、431)。此外，特征变换模块1～K(414、424、434)、模态关注估计器455和加权求和处理器1～K(413、423、433)以及加权求和处理器445可由多模态融合模型提供。

给定包括K个模态的多模态视频数据，使得K≥2并且一些模态可以相同，使用数据的特征提取器411、关注估计器412和加权求和处理器413将模态-1数据转换为固定维度内容向量，其中特征提取器411从数据中提取多个特征向量，关注估计器412估计每个提取的特征向量的每个权重，加权求和处理器413输出(生成)作为所提取的特征向量利用所估计的权重的加权和而计算的内容向量。使用数据的特征提取器421、关注估计器422和加权求和处理器423将模态-2数据转换成固定维度内容向量。直到模态-K数据，获得K个固定维度内容向量，其中特征提取器431、关注估计器432和加权求和处理器433用于模态-K数据。模态-1、模态-2、…、模态-K数据中的每一个可以是以具有间隔的时间相继顺序的相继数据或具有预定时间间隔的其它预定顺序。

然后，K个内容向量中的每一个由每个特征变换模块414、424和434变换(转换)为N维向量，并且获得K个经变换的N维向量，其中N是预定正整数。

K个经变换的N维向量在图4的简单多模态方法中被求和为单个N维内容向量，而在多模态关注方法中，使用模态关注估计器455和加权求和处理器445将向量转换成单个N维内容向量，其中，模态关注估计器455估计每个经变换的N维向量的每个权重，并且加权求和处理器445输出(生成)作为K个经变换的N维向量利用估计的权重的加权求和而计算的N维内容向量。

序列生成器450接收单个N维内容向量并预测与描述视频数据的语句的词语相对应的一个标签。

为了预测下一个词语，序列生成器450向关注估计器412、422、432和模态关注估计器455提供语句的上下文信息，例如表示先前生成的词语的向量，以用于估计关注权重以获得适当的内容向量。向量可以被称为预步骤(pre-step)(或前步骤)上下文向量。

序列生成器450预测以语句开头标记(start-of-sentence token)“<sos>”开始的下一个词语，并且通过迭代地预测下一个词语(预测的词语)直到预测对应于“语句结尾”的特殊符号“<eos>”来生成描述性语句。换句话说，序列生成器450从多模态输入向量生成词语序列。在一些情况下，可以经由诸如HMI和I/O接口(未示出)或一个或更多个I/O接口(未示出)的不同输入/输出接口来接收多模态输入向量。

在每个生成过程中，生成在根据加权内容向量和预步骤上下文向量给出的所有可能词语中具有最高概率的预测词语。此外，可以将预测词语累积到存储器340、存储装置330或更多个存储装置(未示出)中以生成词语序列，并且可以继续该累积过程直到接收到特殊符号(序列的结尾)。系统300可以经由NIC及网络、HMI及I/O接口或一个或更多个I/O接口发送从序列生成器450生成的预测词语，使得预测词语的数据可由其它计算机(未示出)或其它输出装置(未展示)使用。

当K个内容向量中的每一个来自不同的模态数据和/或通过不同的特征提取器时，具有K个经变换的向量的加权和的模态或特征融合使得能够通过根据语句的上下文信息关注不同的模态和/或不同的特征来更好地预测每个词语。因此，该多模态关注方法可以包括地或选择性地使用不同模态或特征上的关注权重利用不同特征来推断描述的每个词语。

此外，系统300中的多模态融合模型可以包括数据分布模块(未示出)，该数据分布模块经由I/O接口接收多个时间相继数据，并将接收到的数据分布到模态-1、模态-2、…、模态-K数据中，根据挖掘的一个或多个间隔划分每个分布的相继数据，并且然后分别向特征提取器1～K提供模态-1、模态-2、…、模态-K数据。

在一些情况下，多个时间相继数据可以是由相机捕获的视频信号和用麦克风记录的音频信号。当由距离传感器获得的时间相继深度图像用于模态数据时，系统300在图中使用特征提取器411、421和431(设置K＝3)。实时多模态信息可以包括来自至少一个相机的图像(帧)、来自测量系统的信号、来自至少一个相邻车辆的通信数据、或通过布置在车辆中的至少一个麦克风的声音信号，实时多模态信息通过相机接口360、距离传感器接口370或麦克风接口380提供给系统300中的特征提取器411、421和431。特征提取器411、421和431可以分别提取图像数据、音频数据和深度数据作为模态-1数据、模态-2数据和模态-3(例如，K＝3)。在这种情况下，特征提取器411、421和431分别根据第一间隔、第二间隔和第三间隔从实时图像(帧)的数据流接收模态-1数据、模态-2数据和模态-3。

在一些情况下，当可以以不同的时间间隔捕获图像特征、运动特征或音频特征时，数据分布模块可以分别以预定的不同时间间隔划分多个时间相继数据。

在一些情况下，对象检测器、对象分类器、运动轨迹估计器和对象属性提取器中的一个或组合可用作特征提取器之一，其经由相机接口360、距离传感器接口370或麦克风接口380接收具有预定时间间隔的时间相继数据，并生成包括诸如对象位置、对象类别、对象属性、对象运动和交叉路口位置之类的所检测的对象的信息的特征向量序列。

多模态融合模型的示例

语句生成的方法可以基于多模态序列到序列学习。本公开的实施方式提供了处理多模态的融合的关注模型，其中每个模态具有其自身的特征向量序列。对于语句生成，诸如图像特征、运动特征和音频特征之类的多模态输入是可用的。此外，来自不同特征提取方法的多特征的组合通常有效地提高语句质量。

图5是示出假设K＝2的用于语句生成的多模态融合方法(多模态特征融合方法)的示例的框图。输入图像/音频序列560可以是具有预定时间间隔的时间相继顺序。使用一个或更多个特征提取器561获得输入特征向量序列。

给定输入的图像/音频序列560，其中，一个可以是图像序列X₁＝x₁₁、x₁₂、…、x_1L，另一个可以是音频信号序列X₂＝x₂₁、x₂₂、…,x_2L’，每个图像或音频信号首先被馈送到用于图像或音频信号的对应特征提取器561。对于图像，特征提取器可以是预训练的卷积神经网络(CNN)，例如GoogLeNet、VGGNet或C3D，其中，可以通过针对每个输入图像提取CNN的完全连接层的激活向量来获得每个特征向量。图像特征向量序列X’₁在图5中示出为x’₁₁、x’₁₂、…、x’_1L。对于音频信号，特征提取器可以是mel频率分析方法，其生成Mel频率倒频谱系数(MFCC)作为特征向量。音频特征向量序列X’₂在图5中示出为x’₂₁、x’₂₂、…、x’_2L’。

多模态融合方法可采用基于双向长短期记忆(BLSTM)或门控递归单元(GRU)的编码器来进一步转换特征向量序列，使得每个向量包含其上下文信息。然而，在实时图像描述任务中，可以直接使用基于CNN的特征，或者可以添加一个或更多个前馈层以减少维度。

如果在特征提取之后使用BLSTM编码器，则激活向量(即，编码器状态)可以获得如下：

其中，h_t ^(f)和h_t ^(b)是前向和后向隐藏激活向量：

LSTM的隐藏状态由下式给出：

h_t＝LSTM(h_t-1，x′_t；λ_E)， (4)

其中，可以是前向LSTM网络

或后向LSTM网络

的编码器网络λ_E的LSTM函数计算为：

LSTM(h_t-1，x_t；λ)＝o_ttanh(c_t)， (5)

其中

其中，σ()是逐元素S形函数，并且i_t、f_t、to以及c_t分别是第t个输入向量的输入门、遗忘门、输出门和单元激活向量。权重矩阵W_zz ^(λ)和偏差向量b_Z ^(λ)由下标z∈{x，h，i，f，o，c}标识。例如，W_hi是隐藏输入门矩阵，W_xo是输入-输出门矩阵。本程序不使用窥视孔连接。

如果使用前馈层，则激活向量被计算为

h_t＝tanh(W_px′_t+b_p)， (10)

其中，W_p是权重矩阵，b_p是偏差向量。此外，当直接使用CNN特征时，则其假设为h_t＝x_t。

a.关注机制562通过在整个输入序列560或由特征提取器561提取的特征向量序列上对隐藏激活向量使用关注权重来实现。这些权重使得网络能够强调来自对于预测下一个输出词语最重要的那些时间步长的特征。

b.设α_i,t是第i个输出词语和第t个输入特征向量之间的关注权重。对于第i个输出，获得表示输入序列的相关内容的上下文向量c_i作为隐藏单元激活向量的加权和：

关注权重可计算为

并且

其中，W_A和V_A是矩阵，w_A和b_A是向量，e_i,t是标量。

在图5中，该关注机制被应用于每个模态，其中，c_1,i和c_2,i分别表示从第一模态和第二模态获得的上下文向量。

关注机制进一步应用于多模态融合。使用多模态关注机制，基于先前解码器状态s_i-1，LSTM解码器540可选择性地关注输入的特定模态(或特定特征类型)以预测下一词语。根据本公开的实施方式的基于关注的特征融合可以使用下式执行

以生成多模态上下文向量g_i，580，其中，

是矩阵，并且d_k,i是从对应于第k个特征提取器或模态的第k个上下文向量c_k,i获得的经变换的上下文向量570，其被计算为

其中，

是矩阵，

是向量。然后将多模态上下文向量g_i，580馈送到LSTM解码器540。用类似于式(11)、(12)和(13)的时间关注机制的方式来获得多模态关注权重β_k,i：

其中

并且，W_B和V_Bk是矩阵，w_B和b_Bk是向量，并且v_k,i是标量。

LSTM解码器540采用基于LSTM的解码器网络λ_D，其利用多模态上下文向量g_i(i＝1,…,M+1)产生输出词语序列590。解码器以语句开头标记“<sos>”开始迭代地预测下一个词语，直到其预测语句结尾标记“<eos>”为止。语句开头标记可以被称为开头标签，并且语句结尾标记可以被称为结尾标签。

给定解码器状态s_i-1和多模态上下文向量g_i，LSTM解码器540将下一词语概率分布推断为

其中，

和

是矩阵，

是向量。

并且解码器根据下式预测具有最高概率的下一词语y_i：

y_i＝argmax_y∈UP(y|s_i-1，g_i)， (19)

其中，U表示词汇表。使用解码器的LSTM网络将解码器状态更新为

s_i＝LSTM(s_i-1，y′_i；λ_D)， (20)

其中，y’_i是y_i的词语嵌入向量，并且初始状态s₀被设置为零向量，并且y’₀被给出为开始标签<sos>的词语嵌入向量。在训练阶段，给出Y＝y₁,…,y_M作为参考，以确定式(1)至(20)中用W、V、w和b表示的矩阵和向量。然而，在测试阶段，需要基于下式找到最佳词语序列：

因此，测试阶段中的波束搜索方法可以用于在每个第i步保持具有最高累积概率的多个状态和假设，并且从已经到达语句结尾标记的那些假设中选择最佳假设。

场景感知交互导航系统的语句生成的示例描述

为了设计场景感知交互导航系统，根据本发明的一些实施方式，由车辆上的相机捕获的实时图像可用于为车辆的人类驾驶员生成导航语句。在这种情况下，对象检测和分类模块331、对象属性提取模块332和运动轨迹估计模块(未示出)可以用作语句生成器的特征提取器。

对象检测和分类模块311可以从每个图像中检测多个显著对象，其中，为每个对象预测边界框和对象类别。边界框指示对象在图像中的位置，其被表示为四维向量(x₁、y₁、x₂、y₂)，其中，x₁和y₁表示图像中对象的左上角的坐标点，x₂和y₂表示图像中对象的右下角的坐标点。

对象类别标识符是指示诸如建筑物、标志、杆、交通灯、树、人、自行车、公共汽车和汽车之类的预定对象类别的整数。对象类别标识符可以表示为单热向量(one-hotvector)。对象属性提取模块332可以估计每个对象的属性，其中，属性可以是对象的形状、颜色和状态，例如高、宽、大、红、蓝、白、黑、行走和站立。属性被预测为属性标识符，属性标识符是每个属性的预定整数。属性标识符可以表示为单热向量。运动轨迹估计模块(未示出)可以使用先前接收的图像来估计每个对象的运动向量，其中，该运动向量可以包括2D图像中对象的方向和速度，并且可以被表示为2维向量。可以使用相同对象在先前接收的图像中的位置的差异来估计运动向量。对象检测和分类模块331还可以检测道路交叉路口并提供表示道路交叉路口的边界框的四维向量。利用这些前述模块，通过将对象和道路交叉路口的边界框向量、对象类别标识符和属性标识符的单热向量以及对象的运动向量级联起来，可以构造每个检测对象的特征向量。

对于多个对象，特征向量可以被认为是来自不同特征提取器的不同向量。多模态融合方法可以用于融合来自多个对象的特征向量。在这种情况下，通过将在当前图像中检测到的对象的特征向量分配给在先前图像中检测到的重叠程度最高的对象来构造每个对象的特征向量序列。两个对象之间的重叠程度可以使用交连(Intersection-over-Union，IoU)测量来计算：

其中，|A∩B|和|A∪B|分别是两个对象A和B之间的交集和并集区域。如果A的边界框是

并且B的边界框是

则交集和并集可以计算为：

假设I₁,I₂,…,I_t表示直到当前时间帧t的时间相继图像数据。对于对象o，τ-长度特征向量序列

可以如下得到。

其中，O(I)表示来自图像I的检测到的对象的集合，并且F(o)是从对象o提取特征向量的函数。如果在先前的图像中没有重叠的对象，则可以使用零向量，即，如果

则

其中，β是忽略非常小重叠的预定阈值，d表示特征向量的维数。根据式(21)和(22)，可以以O(I_t-τ+1)中的每个对象开始每个序列来得到多个特征向量序列。

例如，更快R-CNN(任少卿等，“Faster R-CNN:Towards real-time objectdetection with region proposal networks(更快的R-CNN：用区域提议网络实现实时目标检测)”，《Advances in neural information processing systems(神经信息处理系统进展)》，2015年)是已知的现有技术方法，其可用于对象检测和分类模块331和对象属性提取模块332中。

当给定路线指示车辆将在下一个交叉路口右转时，系统可以生成类似“在黑色建筑物之前的交叉路口右转”的语句。为了生成这种语句，可以将关于转向方向的信息添加到特征向量。在这种情况下，可以将方向表示为3维单热向量，使得

(1,0,0)＝左转，

(0,1,0)＝直行，

(0,0,1)＝右转，

(0,0,0)＝没有交叉路口。

该方向向量可以级联到从每个对象提取的每个特征向量。

此外，为了配置语音对话系统以接受来自驾驶员的语音请求并向驾驶员输出语音响应，语音识别系统和文本到语音合成系统可以包括在该系统中。在这种情况下，作为驾驶员请求的语音识别的结果而给出的文本语句可以被馈送到语句生成模块336，其中，该语句可以是用于图4中的多模态融合方法的多模态输入(即，Modal-k数据，其中，k是使得1≤k≤K的整数)之一。可以将语句中的每个词语转换成固定维度的词语嵌入向量，因此可以将文本语句表示为特征向量序列。利用从驾驶员请求中提取的特征向量序列和检测到的对象，多模态融合方法可以生成合理的语句作为对驾驶员的响应。所生成的语句可以进一步由文本到语音合成系统转换成语音信号，以经由一些音频扬声器输出信号。

用于训练语句生成模型的设置

为了学习具有多模态融合模型的基于关注的语句生成器，创建场景感知交互数据，其中从附接在汽车仪表板上的相机获得21567个图像。然后由人类主体对图像进行注释，其中用对象名称、属性、边界框和语句来标记36935个对象交叉点对，以向汽车驾驶员提供导航。数据包括2658个独特的对象和8970个独特的语句。

使用训练集训练语句生成模型，即解码器网络，以使交叉熵准则(cross-entropycriterion)最小化。图像特征被馈送到解码器网络之前的BLSTM编码器。编码器网络有两个具有100个单元的BLSTM层。解码器网络具有一个具有100个单元的LSTM层。每个词语在被馈送到LSTM层时被嵌入到50维向量中。我们采用AdaDelta优化器(M.D.Zeiler.ADADELTA：Anadaptive learning rate method(一种自适应学习速率方法)。CoRR,abs/1212.5701,2012.)来更新参数，这被广泛用于优化关注模型。LSTM和关注模型使用PyTorch实现(Paszke、Adam等人，“PyTorch：一个命令式、高性能的深度学习库(PyTorch:An imperativestyle,high-performance deep learning library)。”《Advances in NeuralInformation Processing Systems(神经信息处理系统进展)》，2019年)。

图6A是示出根据本公开的实施方式的导航系统600A的参数函数635的训练的流程图，该参数函数635被配置为基于车辆状态610和动态地图611生成驾驶指令640。例如，参数函数635可以被实现为包括参数集合650中包括的参数的神经网络，或者被实现为同样涉及参数集合650中包括的参数的基于规则的系统。可以通过考虑训练数据示例的训练集601来执行训练，训练数据示例包括观察到的车辆状态610、观察到的动态地图611和对应的驾驶指令602的组合。训练数据示例可以通过以下方式收集：在各种条件下驾驶车辆、记录观察到的车辆状态610和观察到的动态地图611并且通过要求人类给出他们认为与在对应于当前车辆状态和动态地图的情况下引导驾驶员相关的驾驶指令的示例来收集相应驾驶指令602作为标签。为了帮助驾驶员安全地遵循导航系统试图引导驾驶员的预期路线，可以要求多个人基于驾驶指令在多大程度上可以被认为是直观、自然、相关、容易理解、清晰等提供他们认为在当前情况下特别适合作为假设的驾驶指令的一个或更多个驾驶指令的示例。相应的驾驶指令可以在车辆正被驾驶时由乘客收集，或者可以通过向人类贴标者示出车辆状态和动态地图的示例来离线收集，人类贴标者用相应的驾驶指令对其进行注释。例如，如果收集训练数据的车辆遇到其中黑色汽车在导航系统正试图引导驾驶员的预期路线上在车辆前方正在右转的交叉路口，可以向人类贴标者显示来自车辆仪表板相机的视频剪辑，该视频剪辑显示黑色汽车右转的时刻和预期路线意指在该交叉路口右转的指示，并且人类贴标者用诸如“跟随右转的黑色汽车”的相应驾驶指令来标记该时刻。例如，如果人类贴标者注意到可能影响安全右转能力的潜在危险，例如试图在车辆的未来路径上穿过街道的行人，则贴标者可以用相应的驾驶指令(例如“当心试图穿过街道的行人”)来标记该时刻。目标函数计算模块645通过计算生成的驾驶指令640和训练驾驶指令602之间的误差函数来计算目标函数。误差函数可以基于相似性度量、交叉熵准则等。训练模块655可以使用目标函数来更新参数650。在参数函数635被实现为神经网络的情况下，训练模块655是网络训练模块，并且参数650包括网络参数。在参数函数635被实现为基于规则的系统的情况下，参数650包括例如权重和阈值的基于规则的系统的参数，可以使用训练模块655修改基于规则的系统的参数以最小化或减小关于训练集601的目标函数645。

图6B是示出根据本公开的实施方式的导航系统600B的参数函数的训练的流程图，第一参数函数615被配置为基于车辆状态610来确定动态地图611的显著对象的集合的属性和空间关系以获得经变换的动态地图620，第二参数函数635被配置为基于经变换的动态地图620来生成驾驶指令640。例如，第一参数函数615可以被实现为具有包括在参数集合650中的参数的神经网络，或者被实现为同样涉及包括在参数集合650中的参数的基于规则的系统，并且第二参数函数635可以被实现为具有包括在参数集合650中的参数的神经网络，或者被实现为同样涉及包括在参数集合650中的参数的基于规则的系统。可以以与图6A的系统类似的方式执行训练，其中参数650在此还包括第一参数函数615的参数，其也可以使用训练模块655基于通过将生成的驾驶指令640与训练驾驶指令602进行比较而获得的目标函数645来训练。

图6C是示出根据本公开的实施方式的导航系统600C的参数函数的训练的流程图，第一参数函数605被配置为基于来自场景的测量603确定车辆状态610和动态地图611，第二参数函数635被配置为基于车辆状态610和动态地图611生成驾驶指令640。例如，第一参数函数605可以被实现为具有参数集合650中包括的参数的神经网络，或者被实现为同样涉及参数集合650中包括的参数的基于规则的系统。可以通过考虑收集的训练数据示例的训练集601来执行训练，训练数据示例包括观察到的测量值603和对应的驾驶指令602的组合。可以以与图6A中的系统中类似的方式通过在各种条件下驾驶车辆、记录观测的场景的测量603并且收集对应的驾驶指令602来收集训练数据示例。给定训练集601，可以以与图6A的系统中类似的方式执行训练，其中参数650在此还包括第一参数函数605的参数，其也可以使用训练模块655基于通过将生成的驾驶指令640与训练驾驶指令602进行比较而获得的目标函数645来训练。

图6D是示出根据本公开的实施方式的导航系统600D的参数函数635的端到端训练的流程图，该导航系统600D被配置为基于来自场景的测量603来生成驾驶指令640。可以通过考虑收集的训练数据示例的训练集601来执行训练，训练数据示例包括观察到的测量603和对应的驾驶指令602的组合。目标函数计算模块645通过计算生成的驾驶指令640和训练驾驶指令602之间的误差函数来计算目标函数。训练模块655可以使用目标函数来更新参数650。

图6E是示出根据本公开的实施方式的导航系统600E的参数函数的训练的流程图，第一参数函数605被配置为基于来自场景的测量603确定车辆状态610和动态地图611，第二参数函数615被配置为基于所述车辆状态610确定所述动态地图611的显著对象的集合的属性和空间关系以获得经变换的动态地图620，第三参数函数625被配置为从所述经变换的动态地图620中选择显著对象的子集630，并且第四参数函数635被配置为基于所选显著对象630生成驾驶指令640。例如，每个参数函数可以实现为神经网络或基于规则的系统，具有包括在参数集合650中的参数。可以通过考虑收集的训练数据示例的训练集601来执行训练，训练数据示例包括观察到的测量603和对应的驾驶指令602的组合。目标函数计算模块645通过计算生成的驾驶指令640和训练驾驶指令602之间的误差函数来计算目标函数。训练模块655可以使用目标函数来更新参数650。

图6F是示出根据本公开的实施方式的导航系统600E的参数函数的多任务训练的流程图，第一参数函数605被配置为基于来自场景的测量603确定车辆状态610和动态地图611，第二参数函数615被配置为基于所述车辆状态610确定所述动态地图611的显著对象的集合的属性和空间关系以获得经变换的动态地图620，第三参数函数625被配置为从所述经变换的动态地图620中选择显著对象的子集630，并且第四参数函数635被配置为基于所选显著对象630生成驾驶指令640。例如，参数函数可以被实现为具有包括在参数集合650中的参数的神经网络。可以通过考虑所收集的训练数据示例的训练集601来执行训练，训练数据示例包括观察到的测量603和相应的加标签的数据602的组合，加标签的数据602包括车辆状态标签、动态地图标签、经变换的动态地图标签、所选显著对象和驾驶指令中的一个或组合。目标函数计算模块645通过计算所确定的车辆状态610和来自加标签的数据602的训练车辆状态之间的误差函数、所确定的动态地图611和来自加标签的数据602的训练动态地图602之间的误差函数、所选显著对象630和来自加标签的数据602的训练所选显著对象之间的误差函数、以及生成的驾驶指令640和来自加标签的数据602的训练驾驶指令之间的误差函数中的一个或组合的加权和来计算目标函数。训练模块655可以使用目标函数来更新参数650。

图7示出了根据本公开的一些实施方式的动态地图中的示例显著对象710、720、730、740、750、760以及对象的相应属性及其值711、721、731、741、751、761。

动态地图中显著对象可能拥有的属性类型包括：类别、颜色、动态(即，运动)、形状、大小、位置、外观和深度。属性类别指对象的类型。例如，对于一个显著对象760，属性761类别具有值交叉路口，指示对象是两条道路之间的交叉路口。类别属性的其它可能值包括汽车711、建筑物721、行人741和诸如警报声751之类的声音类型。另一属性颜色，是指对象的颜色，并且可以具有诸如棕色721、白色731或黑色711之类的值。在一些实施方式中使用的另一属性是对象的动态状态，即，关于对象的运动的信息，其可以取诸如对象的行进方向(例如右转711)、其速度(例如15km/h711)或其缺乏运动之类的值(如果对象是当前静止的例如汽车或行人的动态对象)。在一些实施方式中使用的其它属性包括：形状721、731；位置，例如相对于车辆701的深度711或相对于动态地图的参考框架的位置；整个显著对象的大小；以及在处理器确定从驾驶员视角仅可见对象的一部分的情况下显著对象的可见部分的大小。

应当注意，在根据本公开的一些实施方式中，显著对象不需要是驾驶员当前可见的或可感知以便从驾驶员的视角看是相关的。例如，正在接近车辆当前或未来的位置的一辆救护车可以是相关的以被包括在驾驶指令中，如“警告：从后面靠近的救护车”或“警告：救护车从左侧的蓝色建筑物后面靠近的救护车”，即使车辆的驾驶员目前看不到或听不到救护车。

动态地图中显著对象之间的空间关系也用于驾驶指令的生成。空间关系可以指示一个或更多个对象相对于另一对象或对象集合的相对3D位置。相对位置被表示为定位在左侧、右侧、前方、后方、上方、下方等。在确定相对3D位置时使用从相机估计或从诸如LiDAR或雷达传感器之类的距离传感器(即，深度传感器)直接获取的深度或距离信息。

图8示出了动态地图中的示例显著对象801、802、803、804，以及成对选择空间关系812、834。在该示例中，显著对象801与显著对象802具有空间关系812，指示显著对象801在显著对象802左侧5米处。类似地，显著对象803与显著对象804具有空间关系834，指示显著对象804在显著对象803的前方20米且在显著对象803的右侧15米处。

来自显著对象的运动轨迹和声音也可用于产生驾驶指令。针对每个显著对象确定指示显著对象在预定时间量上的移动的运动轨迹。使用麦克风直接获取与显著对象相关联的声音。

如图9和图10中所示，基于显著对象906在预定时间量上的运动来估计运动轨迹916，并且基于显著对象904在预定时间量上的运动来估计运动轨迹914。场景还包括静态对象902、903以及遮挡对象905，遮挡对象905发出可由车辆901的测量系统感知的独特声音。

在特定时刻，导航系统可以比较从驾驶员视角感知的显著对象的属性，以估计每个显著对象的相关性得分，该相关性得分指示显著对象的针对包括在生成的驾驶指令中的相关性。然后，导航系统基于显著对象的相关性得分的指从显著对象集合中选择显著对象以将其包含在所产生的驾驶指令中。导航系统基于显著对象到车辆的距离的函数、显著对象到路线上的下一个转向的距离的函数、以及车辆到路线上的下一个转向的距离的函数中的一个或组合来估计每个显著对象的相关性得分。

对于图9和图10中所示的示例，车辆901的路线指示车辆应在即将到来的交叉路口右转950。如图9所示，当车辆901距交叉路口100米时，具有最高相关性得分930的显著对象是具有运动轨迹916的显著对象906，并且生成的驾驶指令是“跟随右转的黑色汽车”。如图10所示，当车辆901距交叉路口50米时，具有最高相关性得分1030的显著对象包括具有运动轨迹914的显著对象904和显著对象905。在这种情况下，所生成的驾驶指令1040是“小心从左侧穿过街道的行人以及从左侧接近的救护车”。

这些示例示出了基于在当前时刻与车辆的路线相关的显著对象集合及其属性以及车辆的状态的导航系统的适应性。

导航系统根据语言学规则生成语句形式的驾驶指令，使得输出接口连接到配置为读出该语言学语句的扬声器。导航系统还支持语音对话系统，该语音对话系统被配置为接受来自驾驶员的语音请求并向驾驶员输出语音响应，使得语言学语句使用语音对话系统的操作历史。语音对话系统用于澄清生成的驾驶指令或提供驾驶员与场景之间的其它交互手段以及驾驶指令。

图11示出了在动态地图中具有车辆1101和显著对象1102、1103、1104的集合的场景。第一个生成的驾驶指令1105是“跟随右转的黑色汽车”。在场景中有两辆黑色汽车1102、1104的情况下，驾驶员可以请求澄清，“哪辆黑色汽车？”1106。第二个生成的驾驶指令1107是“低的暗色建筑物前面的黑色汽车”。

图12是示出本发明的路径引导系统的特定实施方式的流程图。在该实施方式中，系统从一个或更多个音频传感器1211、一个或更多个相机1212、一个或更多个LiDAR距离传感器1214、GPS位置1201以及路线方向1210接收实时传感器信息。对象检测器和分类器1220输出应被理解为包括对象的属性的所有检测对象的集合。显著对象检测器1222使用路线方向1210来确定如先前所讨论的动态地图1224。在该实施方式中，显著对象遵循两个不同的处理路径，这取决于它们是静态对象(例如建筑物)还是动态对象(例如汽车)。关于动态对象的信息由显著动态对象轨迹估计器1240处理，显著动态对象轨迹估计器1240估计由对象的移动速度和方向组成的对象的轨迹。存在显著动态对象轨迹估计器1240的许多可能实现方式，包括将对象在第一相机图像中的位置与对象在第二相机图像中的位置进行比较以估计对象轨迹的实现方式。

此后，显著动态对象属性提取器1241提取显著动态对象的属性，以产生具有属性的显著动态对象集合1242。显著静态对象属性提取器1231提取显著静态对象集合的属性，以产生具有属性的显著静态对象集合1232。显著静态对象属性提取器1231还接收使用车辆GPS位置1201从地图服务器1202获得的本地地图数据1203作为输入。这使得显著静态对象属性提取器1231能够包括显著静态对象的附加属性，诸如对象的名称。例如，如果显著静态对象是企业，则该对象的属性可以包括企业名称。

存在语句生成模块1243的许多可能的实施方式。一种非常强大的实施方式是被实现为使用由人类贴标者提供的相应语句和显著对象的数据集来训练的神经网络的参数函数。

图12中所示的语句生成模块1243的特定实施方式采用基于规则的对象排序器1245，其使用手动生成的规则的集合来对显著对象进行排序，以便输出所选显著对象1250。规则可用于基于显著对象的数据和属性来比较显著对象的集合，以对显著对象进行排序，以识别所选显著对象1250。例如，规则可偏爱与车辆在相同的方向上移动的动态对象。这些规则可偏爱更大的对象而不是更小的对象，或者偏爱明亮的颜色，如红色或绿色，而不是更暗的颜色，如棕色或黑色。

作为对象排序器1245的实施方式的特定示例，我们在数学上定义了两个边界框，一个用于下一个转向点的交叉路口，而第二个用于对象，

交叉路口：

对象：

其中，

和

分别是下一个转向点的交叉路口的边界框

的左上x和y相机图像坐标，

和

分别是交叉路口的边界框

的右下x和y相机图像坐标，并且x₁和y₁分别是对象的边界框b的左上x和y相机图像坐标，x₂和y₂分别是对象的边界框b的右下x和y相机图像坐标。

对于每个显著对象O，我们计算与其数据和属性相关的度量的集合。例如：

是测量相机图像中对象面积的数字。其对于更大的对象来说更大。

是作为一个给定类别的显著对象在所有显著对象中的普遍程度的度量的数字，其中，N(O)是与O具有相同类别的显著对象的数量，H是显著对象的总数。如果与O类别相同的对象更少，则该数字更大。

是作为一个给定颜色的显著对象在所有显著对象中的普遍程度的度量的数字，其中，N(c)是与o具有相同颜色的显著对象的数量，H是显著对象的总数。如果具有与显著对象O颜色相同的显著对象更少，则该数字更大。

这些度量中的每一个都可以通过下式结合到显著对象得分中：

S＝W_AF_A+W_oF_o+W_CF_C

其中，W_A、W_o和W_c是手动确定的权重，用于定义每个度量的相对重要性。例如，我们可以分别选择W_A＝0.6、W_o＝0.3且W_c＝0.1。然后，对象排序器1245为所有显著对象计算S，并将它们从最大到最小排序。然后可以将所选显著对象1250确定为具有最大得分S的显著对象。权重的精确值通常是手动调节的，直到系统工作良好。应当理解，存在许多可能的显著对象度量以及将它们组合成分数的方式，并且以上公开仅是一个可能的实施方式。

另外，在该实施方式中，语句生成器1243的对象排序器1245接收已经由自动语音识别模块1260从音频输入1211检测到的来自驾驶员的任何检测到的驾驶员语音1261作为输入。对话系统1262提供用于调整对象排序器1245的功能的输出。例如，使用第一显著对象的先前驾驶指令被呈现给驾驶员，但是驾驶员没有看到所参考的显著对象。结果是驾驶员通过语音指示他们没有看到显著对象。因此，对象排序器应当降低先前显著对象的得分，以便选择替代显著对象作为所选显著对象1250。

此外，本发明的另一实施方式基于这样的认识，即用于为车辆中的驾驶员提供路线引导的方法可以通过以下步骤来实现：获取多模态信息；分析所获取的多模态信息；基于路线识别一个或更多个显著对象；以及基于一个或更多个显著对象生成提供路线引导的语句。该方法可以包括使用语音合成模块或显示器中的一个或更多个来输出生成的语句的步骤。在这种情况下，基于当前位置和目的地来确定路线，基于所获取的多模态信息和显著对象来生成语句，并且多模态信息包括来自一个或更多个成像装置的信息。分析可以通过包括以下步骤中的一个或组合来实现：检测和分类多个对象；将多个属性与检测到的对象相关联；基于路线检测车辆的前进方向上的交叉路口的位置；估计对象子集的运动轨迹；以及确定检测到的对象的子集之间的空间关系，其中空间关系指示对象之间的相对位置和朝向。在一些情况下，可以通过使用基于机器学习的系统来执行检测和分类多个对象的步骤，并且属性还可以包括主要颜色、相对于车辆的当前位置的深度中的一个或组合，分类的对象类别可以包括行人、车辆、自行车、建筑物、交通标志中的一个或更多个。此外，生成的语句可以提供包括与显著对象有关的驾驶指令的路线引导，并且生成的语句基于分析的结果指示警告。

在一些情况下，成像装置可以是一个或更多个相机、一个或更多个距离传感器、或一个或更多个相机、一个或更多个距离传感器的组合。在一些情况下，至少一个距离传感器可以是LiDAR(光检测和测距)或雷达等，并且成像装置中的一个或更多个可以从车辆周围环境捕获信息。此外，多模态信息可以包括当车辆正被驾驶时实时获取的信号或/和由一个或更多个麦克风获取的声音信号，并且在一些情况下，声音信号可以是用户的语音，这允许使用该方法的导航系统实现与用户(驾驶员)的交互，并向用户生成更多的信息。多模态信息可以是用户和系统之间的交互的历史，并且包括地图信息。交互可以包括用户语音输入和先前生成的语句中的一个或更多个。分析还可以包括在地图中定位车辆。在这种情况下，地图信息可以包括多个关注点，并且基于分析的结果从关注点选择一个或更多个显著对象。

在上文中，导航系统被描述为场景感知交互系统的示例应用之一。然而，本发明不限于导航系统。例如，本发明的一些实施方式可用于车载信息娱乐和家用电器、与建筑系统中的服务机器人的交互以及监测系统。GPS仅仅是导航系统的定位方法之一，其它定位方法也可以用于其它应用。

根据本公开的另一实施方式，可以通过将驾驶员控制接口310和驾驶员控制器311改变为机器人控制接口(未示出)和机器人控制接口来实现场景感知交互系统。在这种情况下，可以根据服务机器人的系统设计使用GPS/定位器接口376和GPS/定位器377，并且可以改变训练数据集。

此外，根据本公开的实施方式提供了用于执行多模态融合模型的有效方法，因此，使用利用多模态融合模型的方法和系统可以减少中央处理单元(CPU)使用、功耗和/或网络带宽使用。

本公开的上述实施方式可以以多种方式中的任何方式来实现。例如，可以使用硬件、软件或其组合来实现实施方式。当以软件实现时，软件代码可以在任何合适的处理器或无论是提供在单个计算机中还是分布在多个计算机之间的处理器集合上执行。这样的处理器可以被实现为集成电路，在集成电路组件中具有一个或多个处理器。然而，可以使用任何适当格式的电路来实现处理器。

此外，本文概述的各种方法或过程可被编码为可在采用各种操作系统或平台中的任何一个的一个或更多个处理器上执行的软件。另外，这样的软件可以使用许多合适的编程语言和/或编程或脚本工具中的任何一种来编写，并且还可以被编译为在框架或虚拟机上执行的中间代码或可执行机器语言代码。通常，在各种实施方式中，程序模块的功能可以根据需要进行组合或分布。

此外，本公开的实施方式可以被实施为一种方法，已经提供了该方法的示例。作为方法的一部分执行的动作可以以任何合适的方式排序。因此，可以构建其中以不同于所示出的顺序执行动作的实施方式，所述顺序可包括同时执行一些动作，虽然在说明性实施方式中示出为顺序动作。此外，在权利要求中使用诸如“第一”、“第二”之类的顺序术语来修饰权利要求元素本身并不意味着一个权利要求元素相对于另一个权利要求元素的任何优先、优先级或顺序或者执行方法动作的时间顺序，而仅仅用作将具有某一名称的一个权利要求元素与具有相同名称(除了使用顺序术语之外)的另一元素区分开来的标签，以区分权利要求元素。

虽然已经参考某些优选实施方式描述了本公开，但是应当理解，在本公开的精神和范围内可以进行各种其它的改编和修改。因此，所附权利要求的方面覆盖了落入本公开的真实精神和范围内的所有这些变化和修改。

Claims

1.一种导航系统，该导航系统被配置为基于场景中的与驾驶车辆相关的对象的实时描述向所述车辆的驾驶员提供驾驶指令，所述导航系统包括：

输入接口，所述输入接口被配置为接受用于驾驶所述车辆的路线、在当前时刻在所述路线上的所述车辆的状态、以及在所述当前时刻与所述车辆的所述路线相关的显著对象的集合的动态地图，其中，至少一个显著对象是由所述车辆的测量系统感知的对象，所述车辆在所述当前时刻的当前位置和未来时刻的未来位置之间的所述路线上移动，其中，所述显著对象的集合包括一个或多个静态对象和一个或多个动态对象；

处理器，所述处理器被配置为基于所述动态地图中的显著对象的描述来生成驾驶指令，所述动态地图中的所述显著对象是从由所述车辆的状态指定的驾驶员视角导出的；以及

输出接口，所述输出接口被配置为向所述车辆的所述驾驶员呈现所述驾驶指令。

2.根据权利要求1所述的导航系统，其中，所述处理器被配置为向参数函数提交所述车辆的状态和所述动态地图，所述参数函数被配置为生成所述驾驶指令。

3.根据权利要求2所述的导航系统，其中，所述参数函数是使用训练数据训练的，所述训练数据包括车辆状态、动态地图和与所述驾驶员视角相关的相应驾驶指令的组合。

4.根据权利要求2所述的导航系统，其中，所述动态地图包括指示所述显著对象的属性的值和所述显著对象之间的空间关系的特征，其中，所述处理器确定所述显著对象的所述属性和所述显著对象之间的所述空间关系，更新所述属性和所述空间关系，并将更新的属性和空间关系提交给所述参数函数以生成所述驾驶指令。

5.根据权利要求4所述的导航系统，其中，所述显著对象的所述属性包括所述显著对象的类别、所述显著对象的动态的状态、所述显著对象的形状、所述显著对象的大小、所述显著对象的可见部分的大小、所述显著对象的位置和所述显著对象的颜色中的一个或组合，

其中，所述空间关系包括相对位置的类型、高度、距离、角度和遮挡中的一个或组合，

使得所述处理器基于所述车辆的状态更新所述属性和所述空间关系。

6.根据权利要求1所述的导航系统，所述导航系统还包括：

通信接口，所述通信接口被配置为从所述测量系统接收在所述当前时刻对所述场景的测量，

其中，所述测量是从至少一个传感器接收的，所述至少一个传感器包括相机、深度传感器、麦克风、所述车辆的GPS、相邻车辆的GPS、距离传感器和路边单元RSU的传感器中的一个或组合。

7.根据权利要求6所述的导航系统，其中，所述处理器执行第一参数函数，所述第一参数函数被训练为从所述测量提取特征以确定所述车辆的状态和所述动态地图。

8.根据权利要求7所述的导航系统，其中，所述处理器执行第二参数函数，所述第二参数函数被训练为从由所述第一参数函数产生的提取特征生成所述驾驶指令，其中，所述第一参数函数和所述第二参数函数被联合训练。

9.根据权利要求6所述的导航系统，其中，所述处理器执行被训练为从所述测量生成所述驾驶指令的参数函数。

10.根据权利要求4所述的导航系统，其中，所述驾驶指令包括从预定驾驶命令的集合中选择的驾驶命令，其中，所述预定驾驶命令中的每一个基于一个或更多个显著对象而修改并且与指示经修改的驾驶命令对所述驾驶员的清晰度水平的得分相关联，其中，所述参数函数被训练为生成包括具有更高得分的经修改的驾驶命令的所述驾驶指令。

11.根据权利要求10所述的导航系统，其中，所述预定驾驶命令的集合包括跟随驾驶命令、之后转向驾驶命令和之前转向驾驶命令。

12.根据权利要求6所述的导航系统，其中，所述处理器被配置为：执行第一参数函数，所述第一参数函数被训练为从所述测量提取特征以确定所述车辆的状态和所述动态地图；

执行第二参数函数，所述第二参数函数被训练为基于所述车辆的状态变换所述动态地图，以产生从所述驾驶员视角指定所述显著对象的属性和空间关系的经变换的动态地图；执行第三参数函数，所述第三参数函数被训练为基于所述经变换的动态地图中的所述显著对象的所述属性和所述空间关系从所述显著对象的集合中选择一个或更多个显著对象；并且执行第四参数函数，所述第四参数函数被训练为基于所选显著对象的所述属性和所述空间关系来生成所述驾驶指令。

13.根据权利要求1所述的导航系统，其中，所述驾驶指令根据语言学规则以语句的形式生成，其中，所述输出接口连接到被配置为读出语言学语句的扬声器。

14.根据权利要求13所述的导航系统，所述导航系统还包括：

语音对话系统，所述语音对话系统被配置为接受来自所述驾驶员的语音请求并向所述驾驶员输出语音响应，其中，所述处理器使用所述语音对话系统的操作历史来生成所述语言学语句。

15.根据权利要求1所述的导航系统，其中，所述处理器被配置为比较从所述驾驶员视角感知的所述显著对象的属性，以估计每个显著对象的相关性得分，所述相关性得分指示所述显著对象的针对被包括在生成的所述驾驶指令中的相关性；并且基于显著对象的所述相关性得分的值从所述显著对象的集合中选择显著对象以将所述显著对象包括在生成的所述驾驶指令中。

16.根据权利要求15所述的导航系统，其中，基于所述显著对象到所述车辆的距离的函数、所述显著对象到所述路线上的下一个转向的距离的函数、以及所述车辆到所述路线上的下一个转向的距离的函数中的一个或组合来估计每个显著对象的所述相关性得分。

17.根据权利要求1所述的导航系统，其中，所述显著对象的描述包括驾驶命令、所述显著对象的属性的值和所述显著对象的类别的标签。