CN110291499A

CN110291499A - 使用完全卷积架构的驾驶员视觉注意的计算框架的系统和方法

Info

Publication number: CN110291499A
Application number: CN201880010444.XA
Authority: CN
Inventors: 阿施施·塔瓦里; 姜秉根
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-02-06
Filing date: 2018-02-05
Publication date: 2019-09-27
Also published as: JP2020509466A; WO2018145028A1; US20180225554A1; DE112018000335T5

Abstract

本发明提供了用于估计驾驶场景的一个或多个目标的显著特点的系统和方法。在一些方面，系统包括存储器，该存储器存储用于执行用于估计驾驶场景的一个或多个目标的显著特点的过程的指令。该系统还包括处理器，该处理器被配置为执行指令。在各个方面，过程包括生成贝叶斯框架以对驾驶员的视觉注意进行建模，贝叶斯框架包括自底向上显著特点元素和自顶向下显著特点元素。在各个方面，该过程还包括基于贝叶斯框架生成完全卷积神经网络以生成驾驶场景中的一个或多个目标的视觉显著特点模型。在另外的方面，该过程包括输出视觉显著特点模型以指示吸引驾驶员的注意的特征。

Description

使用完全卷积架构的驾驶员视觉注意的计算框架的系统和方法

相关申请的交叉引用

本公开要求2017年5月30日提交的美国专利申请号15/608,523的优先权，该专利申请要求2017年2月6日提交的临时申请号62/455,328的优先权，每个申请的内容据此全文并入。

技术领域

本文的主题涉及用于估计驾驶场景中的显著特点的方法和系统。

背景技术

在复杂的驾驶环境中与交通参与者交互是具有挑战性且重要的任务。人类视觉系统可以发挥作用来完成该任务。具体地讲，视觉注意机制可允许人类驾驶员关注场景的显著和相关区域以做出驾驶决定。探究性人类视觉系统可改进辅助和自动车辆技术。

在人类驾驶员最复杂的能力中的可以是驾驶员在复杂的驾驶环境中不间断地感知交通参与者并与之交互的能力。人类视觉可能在感知环境方面发挥作用，然后导致对场景的理解并最终导致适当的车辆控制行为。驾驶员可以将注意力分配给最重要且显著的区域或物体。然而，到目前为止，还没有计算框架可以准确地模仿驾驶员的凝视行为并估计复杂交通驾驶环境中的显著特点。然而，计算特定驾驶环境中的显著和相关区域或目标的交通显著特点检测可以是智能车辆系统的重要组成部分，并且可用于支持自动驾驶、交通标志检测、驾驶训练、碰撞警告和其他任务。

一般来讲，视觉注意是指选择视野的重要和相关区域以允许实时进行后续复杂处理(例如，物体识别)的机制。尽管已经研究了建模视觉注意，现有的理论和计算模型试图解释眼睛运动(例如，注视/扫视)，但是它们可能还不能可靠地模仿通常由自底向上和自顶向下机制的一些组合引导的复杂的人类凝视行为。自底向上的线索可能受到外部刺激的影响，并且主要基于视觉场景的特性，诸如基于图像的显著性，而自顶向下的线索是目标取向的，其中除了其他因素之外，任务、知识、记忆和期望引导凝视朝向相关/信息丰富的场景区域。

自底向上方法可直观地表征视野中从其相邻背景中突出的一些部分或事件。例如，在驾驶情境中，由于高相对对比度而抵靠背景弹出的物体(诸如逆向反射交通标志)或诸如汽车的闪光指示器、尾刹车灯的开启等的事件可能是显著的。另一方面，自顶向下方法是任务驱动的或目标取向的。例如，可以要求受试者在不同任务下观看相同的场景(例如，分析相同场景的不同方面)，并且可以基于正在执行的特定任务找到眼睛运动和注视的显著差异。这使得自顶向下注意的建模在概念上具有挑战性，因为不同的任务可能需要不同的算法。

驾驶通常发生在复杂的动态环境中，其中不同的自顶向下因素随着时间的推移在控制凝视行为中起到非常积极的作用。诸如计划机动(例如，左转/右转，通往下一个出口等)、交通法规的知识、在给定位置找到其他道路参与者的期望等的因素可能与自底向上事件竞争，并且可能极大地影响凝视行为。

发明内容

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征，也不旨在用于帮助确定所要求保护的主题的范围。

本公开涉及驾驶员的凝视行为以理解视觉注意。根据本公开的方面，提出了用以对人类驾驶员的视觉注意进行建模的贝叶斯框架。此外，基于贝叶斯框架，可以开发完全卷积神经网络来估计新颖驾驶场景中的显著区域。根据本公开的另外方面，可以调查场景中吸引驾驶员注意力的区域，其中驾驶员的凝视提供注意的区域，而不考虑诸如非注意盲视、看了但没看到等的心理效应。以这种方式，可以预测驾驶员在现实世界驾驶场景中的眼睛注视。为此，可以使用贝叶斯框架来对驾驶员的视觉注意进行建模，并且可以开发完全卷积神经网络以预测凝视注视并使用道路驾驶数据来评估系统的性能。

在各个方面，本公开可以使用贝叶斯框架来结合任务相关的自顶向下和自底向上因素来对驾驶员的视觉注意进行建模。例如，可使用完全卷积神经网络来对视觉显著特点进行建模以预测驾驶员的凝视注视，可以使用道路驾驶数据执行全面评估和比较研究，并且可以评估从车辆状态推断的不同“任务”的自顶向下影响。

附图说明

被认为是本公开的方面的特性的新颖特征在所附权利要求中阐述。在下面的描述中，相同的部件在整个说明书和附图中分别用相同的数字标记。附图未必按比例绘制，并且为了清楚和简明起见，某些附图可以夸大或一般的形式示出。然而，当结合附图阅读时，通过参考本公开的示例性方面的以下详细描述，将最好地理解本公开本身以及优选的使用模式，其进一步的目的和进步，其中：

图1示出了根据本公开的方面的数据采集系统的示例性操作环境的示意图；

图2示出了用于管理数据采集系统的示例性网络；

图3示出了根据本公开的方面的视觉系统；

图4示出了根据本公开的方面的学习的位置先验的图像；

图5A至图5C示出了根据本公开的方面的凝视分布的图像；

图6示出了根据本公开的方面的表示显著特点得分与速度的曲线图；

图7示出了根据本公开的方面的表示位置先验对基于偏航率的测试序列的影响的结果的图表；

图8示出了根据本公开的方面的本公开的系统和方法以及其他方法的定性结果；

图9示出了与本公开的方面结合使用的示例性计算机系统的各种特征；并且

图10示出了根据本公开的方面的生成显著特点模型的流程图方法。

具体实施方式

以下包括本文所用的选定术语的定义。定义包括落入术语范围内并且可以用于实施方式的部件的各种示例和/或形式。示例并非旨在限制。

如本文所用，“处理器”处理信号并执行通用计算和算术功能。由处理器处理的信号可以包括数字信号、数据信号、计算机指令、处理器指令、消息、比特、比特流、或者可被接收、发射和/或检测的其他计算。

如本文所用，“总线”是指可操作地连接以在单个或多个系统内的计算机部件之间传输数据的互连架构。总线可以是存储器总线、存储器控制器、外围总线、外部总线、纵横开关和/或本地总线等。总线还可以是使用协议(诸如控制器区域网络(CAN)、局域互连网络(LIN)等)互连车辆内部的部件的车辆总线。

如本文所用，“存储器”可包括易失性存储器和/或非易失性存储器。非易失性存储器可包括例如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除PROM)和EEPROM(电可擦除PROM)。易失性存储器可包括例如RAM(随机存取存储器)，同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)和/或直接RAM总线RAM(DRRAM)。

如本文所用，“可操作连接”可以包括实体“可操作地连接”的连接，其中可以发送和/或接收信号、物理通信和/或逻辑通信。可操作连接可以包括物理接口、数据接口和/或电接口。

如本文所用，“车辆”是指由任何形式的能量提供动力的任何移动车辆。车辆可以携带人类乘员或货物。术语“车辆”包括但不限于：汽车、卡车、货车、小型货车、SUV、摩托车、踏板车、船、水上摩托和飞机。在一些情况下，机动车辆包括一个或多个发动机。

一般所述，本公开提供了用于估计驾驶场景中的显著特点的系统和方法。转到图1，提供了根据本公开的方面的车辆数据采集系统110的示例性操作环境100的示意图。车辆数据采集系统110可驻留在车辆102内。车辆数据采集系统110的部件以及本文讨论的其他系统、硬件架构和软件架构的部件可被组合，省略或组织成各种实施方式。

车辆102可通常包括电子控制单元(ECU)112，该电子控制单元可操作地控制多个车辆系统。车辆系统可包括但不限于车辆数据采集系统110，除了其他系统之外，包括车辆HVAC系统、车辆音频系统、车辆视频系统、车辆信息娱乐系统、车辆电话系统等。数据采集系统110可包括前置摄像机或其他图像捕获设备(例如，扫描仪)120，顶部摄像机或其他图像捕获设备(例如，扫描仪)121，以及后置摄像机或其他图像捕获设备(例如，扫描仪)122，其也可连接到ECU 112以提供车辆102周围环境的图像。数据采集系统110还可包括处理器114和存储器116，其与前置摄像机120、顶部摄像机121、后置摄像机122、前灯124、尾灯126、通信设备130和自动驾驶系统132通信。

ECU 112可包括内部处理存储器，接口电路和总线线路，以用于传输数据，发送命令并且与车辆系统通信。ECU 112可包括内部处理器和存储器，未示出。车辆102还可包括用于在车辆数据采集系统110的各种部件之间在内部发送数据的总线。

车辆102还可包括通信设备130(例如，无线调制解调器)，用于利用各种协议提供有线或无线计算机通信，以相对于车辆102内的特征和系统以及相对于外部设备在内部发送/接收电子信号。这些协议可包括利用射频(RF)通信的无线系统(例如，IEEE 802.11(Wi-Fi)、IEEE 802.15.1)，近场通信系统(NFC)(例如，ISO 13157)，局域网(LAN)，无线广域网(WWAN)(例如，蜂窝)和/或点对点系统。另外，车辆102的通信设备130可经由总线(例如，CAN或LIN协议总线)可操作地连接以用于内部计算机通信，以便于电子控制单元112与车辆特征和系统之间的数据输入和输出。在一方面，通信设备130可被配置用于车辆与车辆(V2V)通信。例如，V2V通信可包括预留频谱内的无线通信。作为另一个示例，V2V通信可包括使用Wi-Fi或设置的车辆之间的自组织网络。

车辆102可包括前置摄像机120、顶部摄像机121和后置摄像机122。前置摄像机120、顶部摄像机121和后置摄像机122中的每个可以是能够捕获一个或多个图像或图像流的数字相机，或者可以是另一个图像捕获设备，诸如扫描仪。前置摄像机120可以是仪表板摄像机，其被配置为捕获在车辆102正前方的环境的图像。顶部摄像机121可以是被配置为更宽地查看车辆102前方的环境的摄像机。前置摄像机120、顶部摄像机121和/或后置摄像机122还可将图像提供给自动驾驶系统132，除了其他系统之外，该自动驾驶系统可包括车道保持辅助系统、碰撞警报系统或全自动驾驶系统。

车辆102可包括前灯124和尾灯126，它们可包括在车辆上使用的任何常规灯。前灯124和尾灯126可由车辆数据采集系统110和/或ECU 112控制以便提供各种通知。例如，前灯124和尾灯126可以帮助扫描来自与车辆102一前一后停放的车辆的标识符。例如，当扫描车辆102的环境时，前灯124和/或尾灯126可被激活或控制以提供期望的照明。前灯124和尾灯126还可通过闪烁提供诸如远程命令(例如，移动请求)的确认之类的信息。

图2示出了用于管理数据采集系统110的示例性网络200。网络200可以是促进多个系统之间的通信的通信网络。例如，网络200可包括互联网或基于另一种互联网协议(IP)的网络。网络200可以使数据采集系统110能够与移动设备210、移动服务提供方220或制造商系统230通信。

车辆102内的数据采集系统110可经由通信设备130与网络200通信。数据采集110可以例如将由前置摄像机120、顶部摄像机121和/或后置摄像机122捕获的图像传送到制造商系统230。数据采集系统110还可从另一个车辆或从制造商系统230接收通知。

制造商系统230可包括与一个或多个车辆制造商或经销商相关联的计算机系统，如相对于下述图9所示。制造商系统230可包括一个或多个数据库，该数据库存储由前置摄像机120、顶部摄像机121和/或后置摄像机122收集的数据。制造商系统230还可包括存储器和处理器，该存储器存储用于执行用于估计车辆102的驾驶场景的一个或多个目标的显著特点的过程的指令，该处理器被配置为执行指令。

根据本公开的方面，制造商系统230可被配置为确定驾驶场景的显著特点。在一些方面，显著特点可被表示为s_z＝p(O＝1|F＝f_z,L＝l_z)，其中z可以是驾驶员的视野中的点。点可以是场景摄像机帧中的像素，f_z和l_z可以表示点z的视觉特征和位置(x,y)，并且O可以是二进制变量，其中O＝1可以表示与驾驶相关的对象/区域(也称为目标)的存在。因此，在各个方面，点z处相关目标的概率越高，点z可能变得越显著。

驾驶通常发生在高度动态的环境中，该环境包括在不同时间点的不同任务，例如，汽车跟随，车道保持，转弯，改变车道等。考虑到具有不同任务的相同驾驶场景可能影响驾驶员的凝视行为。可以根据本公开的各个方面对由于不同任务导致的此类影响进行建模。例如，在一些方面，这些影响可由制造商系统230使用下面的等式(1)来建模，其中T可以是从所有任务的空间中抽取的离散随机变量

仔细观察等式(1)右侧的第一分量(由于空间约束，缩写为S_z(T_i))，使用贝叶斯规则：

在一些方面，当点z的特征和位置被认为是条件独立时，可以简化等式(2)。换句话讲，无论在任何给定任务期间特征是否出现在目标上，特征的分布都不会随着场景中的位置而改变。因此，等式(2)可以被分解成有意义的分量，如下面的等式(3)所示，其中为简单起见，O＝1可以缩写为O：

在各个方面，等式(3)的第一分量可以称为自底向上显著特点，因为它不依赖于目标。在一些方面，随着点z的特征变得不太可能，点z可能变得更显著。换句话讲，罕见的特征可能是显著的。在各个方面，等式(3)的第二分量可取决于目标和相关知识，并且因此可以称为自顶向下显著特点。因此，在一些方面，第二分量的第一部分可以鼓励在目标中找到的特征。也就是说，重要的特征可能是显著的。在本公开的另外方面，第二分量的第二部分可以编码目标的预期位置的知识，可以称为位置先验。从驾驶的角度来看，这可能需要驾驶员在场景的特定位置发展相关目标的先前预期，同时执行特定任务，诸如在改变车道时检查侧镜或扭头看。

在各个方面，准确地学习p(f_z|T_i)和p(f_z|O,T_i)中的高维特征分布可能是困难的，并且因此，等式(3)中的前两项可以使用贝叶斯规则重新排列如下：

在本公开的方面，等式(4)的最后一项p(O|T_i)可以是给定特定任务的目标类别的先验概率，并且可以被认为是均匀的(例如，恒定值)。

图3示出了根据本公开的方面的制造商系统230的架构300。在各个方面，多个第一六面体305、多个第二六面体310和多个第三六面体315可分别表示卷积层、池化层和去卷积层。如图3所示，与多个第一六面体305中的每个相关的数字依次示出了多个第一六面体305中的每个的核大小。在一些方面，多个第二六面体310中的每个的核大小可以是2×2。此外，在一些方面，多个第一六面体305和多个第二六面体310(例如，分别为卷积层和池化层)中的每个的步幅可以分别为1和2。在其他方面，多个第三六面体315中的前两个的核大小可以是4×4×1并且步幅可以是2，并且多个第三六面体315中的最后一个的核大小可以是16×16×1的并且步幅可以是8。因此，在本公开的各个方面，来自等式1的总体显著特点可以是：

其中Z可以是归一化因数。在各个方面，因数p(O|f_z,T_i)和p(O|l_z,T_i)可以从驾驶数据学习。例如，可使用完全卷积神经网络来对p(O|f_z,T_i)进行建模，并且p(O|l_z,T_i)可从每个任务的位置先验学习。

在本公开的方面，显著区域可用基于所学习的先验分布估计的权重例如通过制造商系统230来调制。在各个方面，建模p(O|f_z,T_i)可以基于给定“任务”T_i中的特征向量的权重来区分目标类别，即显著目标与非显著目标。在一些方面，对于驾驶数据，在一点处的较长注视可以被解释为由驾驶员接收对该点的更多注意，因此可能更加显著。因此，显著特点可被建模为逐像素回归问题。

在另外的方面，显著特点的局部显著性特征可能需要分析周围的背景。换句话讲，局部特征不是独立分析，而是与周围特征结合来分析。在一些方面，这可以通过跳过连接320.1、320.2(共同跳过连接320)来实现。例如，跳过连接320.1可将多个第二六面体310中的第一个连接到多个第一六面体305中的第一个，并且跳过连接320.2可将多个第二六面体310中的第二个连接到多个第一六面体305中的第二个。跳过连接320可允许早期特征响应直接与稍后特征响应交互，稍后特征响应通常与早期图的下取样版本(例如，由于中间最大池化层)一起工作，并且因此对于相同的感受野大小可以覆盖原始输入帧中像素周围的更大区域。

在各个方面，显著特点数据集可以揭示用于自由观看图像和视频帧的人眼注视的强中心偏差，例如，使用以图像帧的中间为中心的高斯斑点作为显著特点图。从驾驶数据的角度来看，驾驶员可以在大多数时间注意前方，并且因此，本公开的制造商系统230可被配置为避免学习平凡的中心偏差解决方案。

基于以上标准，在一些方面，制造商系统230可包括卷积神经网络(CNN)，例如完全卷积神经网络(FCN)。在一些方面，完全卷积神经网络可采取任意大小的输入并且可产生对应大小的输出。此外，完全卷积网络(没有完全连接的层)可以相同地处理图像像素，而不管其位置。也就是说，在一些方面，只要完全卷积层的感受野不太大而不会引起边缘效应(例如，当感受野大小与输入层的大小相同时)，制造商系统230的完全卷积网络就没有任何方式来利用位置信息。

图4示出了从偏航率推断的针对不同“任务”学习的位置先验。也就是说，如图4所示，顶行和底行分别示出负偏航率(左转)和正偏航率(右转)的效果。另外，图4示出了当偏航率的幅度增加时，位置先验偏移远离中心。在本公开的各个方面，因为显著特点估计任务可以被认为是逐像素回归问题，所以制造商系统230的完全卷积网络可适用于这样的回归问题。例如，在一些方面，可以部署FCN-8(完全卷积网络)架构，该架构具有带有微小修改的多个跳过连接，诸如改变得分层以反映单通道显著特点得分以及用于回归的损失层。在一些预期中，对于损失函数，L2损失L可被定义如下：

其中N可以是数据的总数，可以是估计的显著特点，并且y可以是目标显著特点。

在各个方面，具有双线性上取样滤波器权重的固定去卷积层可用作应变策略之一。在另外的方面，可使用完全卷积网络(例如，FCN-8)来初始化本公开，该完全卷积网络可使用分割数据集来训练，并且可使用制造商系统230的DR(眼睛)VE训练数据集来训练以用于显著特点估计任务。例如，DR(眼睛)VE数据集可包括每个5分钟的74个序列，并且可提供来自前置摄像机120、顶部摄像机121、后置摄像机122、头戴式摄像机的视频，来自可佩戴眼睛跟踪设备的捕获凝视位置，和/或来自全球定位系统(GPS)的与车辆状态(例如，速度、路线、纬度、经度等)相关的其他信息。可使用时空高斯模型G(σ_s,σ_t)进一步处理捕获的凝视像素位置，其中σ_s＝200像素并且σ_t＝k/2，其中k＝25帧，以获取平滑的地面实况显著特点图。在一些方面，DR(眼睛)VE数据集可以在不同区域(例如，市中心、乡村和公路)，在不同的天气条件(例如，晴天、阴天和雨天)下以及在一天中的不同时间(例如，早晨、傍晚和夜晚)从多个驾驶员收集。在各个方面，DR(眼睛)VE数据集可被分离以用于训练和测试(例如，前37个序列用于训练并且最后37个序列用于测试)。在一些方面，可以排除具有误差的帧。在另外的方面，对于训练，也可以排除车辆静止时的任何帧，因为通常当车辆不在移动时，不预期驾驶员注意驾驶相关事件。

如本文所讨论，在驾驶期间，诸如车道变换、左转/右转、离开公路等的任务可能会影响自顶向下注意。因此，概率分布p(O|f_z,T_i)和p(O|l_z,T_i)可以以这些任务为条件，并且在本公开的一些方面，当驾驶员参与此类任务时，可以从DR(眼睛)VE数据集的一部分学习这些分布。在一些方面，DR(眼睛)VE数据集当前缺少这样的任务信息，并且因此，可以基于车辆动态来定义这些“任务”。例如，DR(眼睛)VE数据集可基于偏航率来划分。在一些方面，偏航率可以指示事件，例如，转弯(右转/左转)、离开、曲线跟随等，并且可以提供合理的和自动的方式来推断任务情境。在各个方面，在数据集中，可以从GPS提供的路线测量来计算偏航率。

在一些方面，DR(眼睛)VE数据集可被划分为具有5°/秒的面元的偏航率的离散间隔。然后，可以将位置先验p(O|l_z,T_i)计算为统计堆栈内所有训练集注意图的平均值。如本文所讨论，图4示出偏航率对位置先验的估计的影响。例如，随着偏航率幅度增加，位置先验变得越来越偏向边缘(例如，远离中心)。另外，在一些方面，正偏航率(右转事件)将位置先验朝向中心右侧偏移，而对于负偏航率(左转事件)相反。

在另外的方面，学习p(O|f_z,T_i)可以通过训练神经网络来实现。然而，随着偏航率幅度增加，统计堆栈内用于训练的数据集大小可能会急剧减小。为了解决这个问题，可以通过采取该分量的所有数据来近似p(O|f_z,T_i)至p(O|f_z)。例如，对于定量分析，可以计算估计的显著特点图和地面实况显著特点图之间的线性相关系数(CC)(也称为皮尔森线性系数)。在一些方面，每个显著特点图s可如下归一化：

其中可表示显著特点图s的平均值，并且σ(s)可以是s的标准偏差，并且z可以是场景摄像机帧中的像素。然后，CC可如下计算：

其中可表示归一化地面实况显著特点图，并且可以是归一化估计的显著特点图。

图5A至图5C示出了凝视分布的图像。在一些方面，图5A至图5C示出了从平均地面实况眼睛注视学习的中心偏置滤波器。在一些方面，可以学习水平轴线上的凝视分布(如图5A所示)以及竖直轴线上的凝视分布(如图5B所示)。此外，图5C示出了总体凝视分布。在一些方面，对于基线，可以计算中心偏置滤波器的性能。该基线可用作本文讨论的系统和方法的性能的比较。表I示出所提出方法的性能。也就是说，表I示出了通过基线，传统的自底向上显著特点方法和本公开的方法获得的测试结果，其中括号中的结果通过结合学习的位置先验来获得。

表I

总的来说，本公开的系统和方法达到约0.55的分数。另一方面，传统方法没有显示相关性(CC<0.3)，并且对应于简单的自顶向下线索的基线结果表现得更好。因此，本公开的系统和方法优于基线以及传统方法。在一些方面，与帧序列相反，本公开的系统和方法使用单个帧预测注视区域来实现现有技术的结果，并且因此，计算上可以更加有效。

图6示出了比较显著特点得分与速度的曲线图。如图6所示，每个点可以呈现具有大于给定速度的速度的帧的平均相关系数。如图6进一步所示，随着速度增加，本公开的系统和方法的性能改善，对于大于100km/h的速度，相关系数为约0.70。根据本公开的方面，出现这种情况是因为驾驶员在高速驾驶时可能会自然地更专心并且不太会被其他不相关的事件分心，而且倾向于不断地遵循诸如车道标记之类的道路特征，这些道路特征被学习网络很好地捕获。在其他另外的方面，排除在车辆静止时的帧可进一步将性能提高约5％。这可能归因于这样的事实：当车辆不移动时，驾驶员可以自由地环视非驾驶事件。

图7示出了在偏航率>15°/秒的情况下位置先验对测试序列的影响的测试结果。例如，图7示出了对于小于10km/h的速度的测试结果，对于在10km/h和30km/h之间的速度以及大于30km/h的速度的测试结果。值得注意的是，如图7所示，在偏航率大于15°/秒且速度大于30km/h的情况下，可以实现仅比使用视觉特征改善10％。这些实际上是驾驶员可能积极参与诸如转弯(左转/右转)和离开之类的机动的情况。

仔细观察网络的输出显示，本公开的系统和方法可以很好地响应吸引驾驶员注意的道路特征，如图8所示，其示出了根据本公开的方面的定性结果，以及基于GBVS、ITTI和图像标记的方法，用于在不同“任务”期间进行驾驶员的眼睛注视预测。另外，图8的“GT”栏显示了地面实况注视图(GT)。如图8所示，车道标记的消失点影响驾驶员的凝视行为，并且本公开的系统和方法可以学习那些有意义的表示。从凝视数据可以清楚地看出，驾驶期间的当前“任务”可能是重要因素。例如，驾驶员是否计划采取即将来临的存在将影响他/她的凝视行为(图8中从顶部开始的第5行)。仅从视觉特征，不能结合此类因素来模仿凝视行为，并且因此，本公开的系统和方法可以使用位置先验来对此类任务取向的预期进行建模。一般来讲，任何与视觉特征无关的信息都可以作为先验信息而结合并从数据中学习。

本发明的方面可使用硬件、软件或其组合来实现，并且可在一个或多个计算机系统或其他处理系统中实现。在本发明的一方面，特征涉及能够执行本文所述功能的一个或多个计算机系统。这样的计算机系统900的示例示于图9中。

计算机系统900包括一个或多个处理器，诸如处理器904。处理器904连接到通信基础设施906(例如，通信总线、交叉条或网络)。根据该示例性计算机系统描述了各种软件方面。在阅读本说明书之后，相关领域的技术人员将明白使用其他计算机系统和/或架构来实现本发明的方面的方式。

计算机系统900可包括显示界面902，该显示界面从通信基础设施906(或从未示出的帧缓冲器)转发图形、文本和其他数据，以显示在显示单元930上。计算机系统900还包括主存储器908，优选地是随机存取存储器(RAM)，并且还可以包括辅助存储器910。辅助存储器910可包括例如硬盘驱动器912和/或可移动存储驱动器914，代表软盘驱动器、磁带驱动器、光盘驱动器、通用串行总线(USB)闪存驱动器等。可移动存储驱动器914以众所周知的方式从可移动存储单元918读取和/或写入到该可移动存储单元。可移动存储单元918表示软盘、磁带、光盘、USB闪存驱动器等，其由可移动存储驱动器914读取并且写入到该可移动存储驱动器。应当理解，可移动存储单元918包括计算机可用存储介质，其中存储有计算机软件和/或数据。

本发明的替代方面可包括辅助存储器910，并且可包括用于允许将计算机程序或其他指令加载到计算机系统900中的其他类似设备。此类设备可包括例如可移动存储单元922和接口920。此类设备的示例可包括程序盒和盒式接口(诸如在视频游戏设备中找到的)，可移动存储器芯片(诸如可擦除可编程只读存储器(EPROM)或可编程只读存储器(PROM))和相关联的插座，以及其他可移动存储单元922和接口920，其允许软件和数据从可移动存储单元922传输到计算机系统900。

计算机系统900还可包括通信接口924。通信接口924允许软件和数据在计算机系统900和外部设备之间传输。通信接口924的示例可包括调制解调器、网络接口(诸如以太网卡)、通信端口、个人计算机存储卡国际协会(PCMCIA)插槽和卡等。经由通信接口924传输的软件和数据是信号928的形式，该信号可以是电子信号、电磁信号、光学信号或能够由通信接口924接收的其他信号。这些信号928经由通信路径(例如，信道)926提供给通信接口924。该路径926携带信号928，并且可使用电线或电缆、光纤、电话线、蜂窝链路、射频(RF)链路和/或其他通信信道来实现。在该文献中，术语“计算机程序介质”和“计算机可用介质”通常用于指诸如可移动存储驱动器918、安装在硬盘驱动器912中的硬盘以及信号928之类的介质。这些计算机程序产品向计算机系统900提供软件。本发明的方面涉及此类计算机程序产品。

计算机程序(也称为计算机控制逻辑)存储在主存储器908和/或辅助存储器910中。计算机程序还可经由通信接口924接收。此类计算机程序在被执行时使计算机系统900能够执行根据本发明的方面的特征，如本文所讨论的。具体地讲，计算机程序在被执行时使处理器904能够执行根据本发明的方面的特征。因此，此类计算机程序表示计算机系统900的控制器。

在本发明的使用软件实现本发明的一方面，软件可被存储在计算机程序产品中并使用可移动存储驱动器914、硬盘驱动器912或通信接口920加载到计算机系统900中。控制逻辑(软件)在被处理器904执行时使处理器904执行本文所述的功能。在本发明的另一方面，系统主要使用例如硬件部件(诸如专用集成电路(ASIC))以硬件实现。对于相关领域的技术人员而言，实现硬件状态机以便执行本文所述的功能将是显而易见的。

图10示出了根据本公开的方面的生成显著特点模型的流程图方法。生成显著特点模型的方法1000包括生成贝叶斯框架以对驾驶员的视觉注意进行建模1010，基于贝叶斯框架生成完全卷积神经网络以生成驾驶场景中的一个或多个目标的视觉显著特点模型1020，以及输出视觉显著特点模型以指示吸引驾驶员的注意的特征1030。

应当理解，上述公开的和其他特征和功能的各种实施方式或其替代或变化可以期望地组合到许多其他不同的系统或应用中。另外，本领域技术人员随后可在其中做出各种目前无法预见或未预料到的替代、修改、变型或改进，这些也旨在被所附权利要求所涵盖。

Claims

1.一种用于估计驾驶场景的一个或多个目标的显著特点的自动驾驶(AD)系统，所述系统包括：

存储器，所述存储器存储用于执行用于估计所述驾驶场景的所述一个或多个目标的所述显著特点的过程的指令；和

处理器，所述处理器被配置为执行所述指令，其中所述过程包括：

生成贝叶斯框架以对驾驶员的视觉注意进行建模，所述贝叶斯框架包括自底向上显著特点元素和自顶向下显著特点元素；

基于所述贝叶斯框架生成完全卷积神经网络以生成所述驾驶场景中的所述一个或多个目标的视觉显著特点模型；以及

输出所述视觉显著特点模型以指示吸引所述驾驶员的注意的特征。

2.根据权利要求1所述的AD系统，其中：

所述自底向上显著特点元素是与目标无关的；并且

所述自顶向下显著特点元素是与目标相关的。

3.根据权利要求2所述的AD系统，其中所述自顶向下显著特点元素包括第一分量和第二分量，所述第一分量指示重要目标是显著的，所述第二分量指示目标的预期位置的知识。

4.根据权利要求3所述的AD系统，其中所述目标的所述预期位置基于偏航率，其中随着所述偏航率的幅度增加，所述目标的所述预期位置偏移远离中心视野。

5.根据权利要求1所述的AD系统，其中所述过程还包括用基于学习的先验分布估计的权重调制所述驾驶场景的一个或多个显著区域。

6.根据权利要求5所述的AD系统，其中所述权重基于所述一个或多个目标的任务。

7.根据权利要求1所述的AD系统，其中所述完全卷积神经网络包括一个或多个跳过连接，所述一个或多个跳过连接被配置为使所述完全卷积神经网络能够结合所述一个或多个目标的周围特征来分析所述一个或多个目标。

8.一种用于估计驾驶场景的一个或多个目标的显著特点的方法，所述方法包括：

9.根据权利要求8所述的方法，其中：

所述自底向上显著特点元素是与目标无关的；并且

所述自顶向下显著特点元素是与目标相关的。

10.根据权利要求9所述的方法，其中所述自顶向下显著特点元素包括第一分量和第二分量，所述第一分量指示重要目标是显著的，所述第二分量指示目标的预期位置，其中所述预期位置基于先前驾驶员体验。

11.根据权利要求10所述的方法，其中所述目标的所述预期位置基于偏航率。

12.根据权利要求8所述的方法，还包括用基于学习的先验分布估计的权重调制所述驾驶场景的一个或多个显著区域。

13.根据权利要求12所述的方法，其中所述权重基于所述一个或多个目标的任务。

14.根据权利要求8所述的方法，还包括基于所述完全卷积神经网络的一个或多个跳过连接结合所述一个或多个目标的周围特征来分析所述一个或多个目标。

15.一种包含可执行计算机程序代码的非暂态计算机可读存储介质，所述代码包括指令，所述指令被配置为：

16.根据权利要求15所述的非暂态计算机可读存储介质，其中：

所述自底向上显著特点元素是与目标无关的；并且

所述自顶向下显著特点元素是与目标相关的。

17.根据权利要求15所述的非暂态计算机可读存储介质，其中所述自顶向下显著特点元素包括第一分量和第二分量，所述第一分量指示重要目标是显著的，所述第二分量指示目标的预期位置，其中所述预期位置基于先前驾驶员体验。

18.根据权利要求17所述的非暂态计算机可读存储介质，其中所述目标的所述预期位置基于偏航率。

19.根据权利要求15所述的非暂态计算机可读存储介质，其中所述代码包括指令，所述指令进一步被配置为用基于学习的先验分布估计的权重调制所述驾驶场景的一个或多个显著区域。

20.根据权利要求12所述的非暂态计算机可读存储介质，其中所述权重基于所述一个或多个目标的任务。