CN114495046A

CN114495046A - 驾驶员行为风险评估和行人意识

Info

Publication number: CN114495046A
Application number: CN202111305540.7A
Authority: CN
Inventors: 纳库尔·阿加瓦尔; 陈奕廷
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-11-12
Filing date: 2021-11-05
Publication date: 2022-05-13
Also published as: US20220144303A1; US20230311942A1; US11845464B2

Abstract

本发明题为“驾驶员行为风险评估和行人意识”。驾驶员行为风险评估和行人意识可包括：接收环境的图像的输入流，该环境包括该环境内的一个或多个对象；基于该图像的输入流和时间复现网络(TRN)来估计自我意识车辆的意图；基于该图像的输入流和图神经网络(GNN)来生成场景表示；基于该场景表示和该自我意识车辆的该意图来生成对情况的预测；以及基于对该情况的该预测和该场景表示来生成受影响或不受影响的动作确定。

Description

驾驶员行为风险评估和行人意识

相关申请的交叉引用

本专利申请要求于2020年11月12日提交的美国临时专利申请序列号63/113150的权益；上述申请的全文以引用方式并入本文。

背景技术

对驾驶员行为进行建模仍然是开放的研究问题。驾驶员行为可能是复杂的，因为它涉及低水平操作控制(例如，车辆速度/加速度、油门/刹车位置和横向加速度)和高水平认知处理(例如，驾驶操纵、驾驶员意图和状态、交通参与者的意图和环境因素的预测)。在认知水平上，驾驶员可首先识别影响其在场景中的导航的相关元素。第二，驾驶员可推理出这些元素之间的互连，并且第三，驾驶员可推断交通参与者的未来动作。对此类想法过程进行建模已证明是具有挑战性的，因为驾驶员对风险的感知是复杂的认知过程，其主要表现为驾驶员对外部刺激的自主响应以及参与者对自我意识车辆的明显注意力。

发明内容

根据一个方面，一种用于驾驶员行为风险评估和行人意识的系统可包括：图像传感器，该图像传感器接收环境的图像的输入流，该环境包括该环境内的一个或多个对象；意图估计器，该意图估计器基于该图像的输入流和时间复现网络(TRN)来估计自我意识车辆的意图；场景表示生成器，该场景表示生成器基于该图像的输入流和图神经网络(GNN)来生成场景表示；情况预测器，该情况预测器基于该场景表示和该自我意识车辆的该意图来生成对情况的预测；和驾驶员响应确定器，该驾驶员响应确定器基于对该情况的该预测和该场景表示来生成受影响或不受影响的动作确定。

该自我意识车辆的该意图可被估计为左转意图、右转意图或直行意图。该环境可包括直拓扑结构、三路交叉口拓扑结构或四路交叉口拓扑结构。该情况可包括停车标志、交通灯、穿越的行人、穿越的车辆、车辆阻塞自我意识车道、拥塞、乱穿马路、车辆后退到停车位中、车辆在肩部开门或切入。该用于驾驶员行为风险评估和行人意识的系统可包括风险对象标识符(ROI)，该ROI从该环境的该图像的输入流中提取图像级和对象级特征。该ROI可为该环境内的该对象中的一者或多者确定一个或多个对象边界框。该对象边界框中的一者或多者可围绕行人的面部或头部，并且该ROI确定该行人正在看还是没有看该自我意识车辆。该情况预测器可基于该场景表示和该自我意识车辆的该意图的元素级点乘积来生成对该情况的该预测。该驾驶员响应确定器可基于通过多层感知器(MLP)传递对该情况的该预测和该场景表示来生成该受影响或不受影响的动作确定。该情况预测器可将对该情况的该预测分类为二进制类别。

根据一个方面，一种用于驾驶员行为风险评估和行人意识的方法可包括：接收环境的图像的输入流，该环境包括该环境内的一个或多个对象；基于该图像的输入流和时间复现网络(TRN)来估计自我意识车辆的意图；基于该图像的输入流和图神经网络(GNN)来生成场景表示；基于该场景表示和该自我意识车辆的该意图来生成对情况的预测；以及基于对该情况的该预测和该场景表示来生成受影响或不受影响的动作确定。

该自我意识车辆的该意图可被估计为左转意图、右转意图或直行意图。该环境可包括直拓扑结构、三路交叉口拓扑结构或四路交叉口拓扑结构。该情况可包括停车标志、交通灯、穿越的行人、穿越的车辆、车辆阻塞自我意识车道、拥塞、乱穿马路、车辆后退到停车位中、车辆在肩部开门或切入。该用于驾驶员行为风险评估和行人意识的方法可包括从该环境的该图像的输入流中提取图像级和对象级特征。

该用于驾驶员行为风险评估和行人意识的方法可包括为该环境内的该对象中的一者或多者确定一个或多个对象边界框。该用于驾驶员行为风险评估和行人意识的方法可包括确定行人正在看还是没有看该自我意识车辆，并且该对象边界框中的一者或多者可围绕该行人的面部或头部。该用于驾驶员行为风险评估和行人意识的方法可包括基于该场景表示和该自我意识车辆的该意图的元素级点乘积来生成对该情况的该预测。该用于驾驶员行为风险评估和行人意识的方法可包括基于通过多层感知器(MLP)传递对该情况的该预测和该场景表示来生成该受影响或不受影响的动作确定。

驾驶员行为风险评估和行人意识车辆可包括：图像传感器，该图像传感器接收环境的图像的输入流，该环境包括该环境内的一个或多个对象；意图估计器，该意图估计器基于该图像的输入流和时间复现网络(TRN)来估计该车辆的意图；场景表示生成器，该场景表示生成器基于该图像的输入流和图神经网络(GNN)来生成场景表示；情况预测器，该情况预测器基于该场景表示和该车辆的该意图来生成对情况的预测；和驾驶员响应确定器，该驾驶员响应确定器基于对该情况的该预测和该场景表示来生成受影响或不受影响的动作确定。

附图说明

图1是根据一个方面的用于驾驶员行为风险评估和行人意识的系统的示例性部件图。

图2是根据一个方面的用于驾驶员行为风险评估和行人意识的系统的示例性部件图。

图3是根据一个方面的与驾驶员行为风险评估和行人意识相关联的因素的示例性图示。

图4是根据一个方面的与驾驶员行为风险评估和行人意识相关联的外部刺激的示例性图示。

图5是根据一个方面的用于驾驶员行为风险评估和行人意识的方法的示例性流程图。

图6是根据一个方面的示例性计算机可读介质或计算机可读装置的图示，该计算机可读介质或计算机可读装置包括被配置为体现本文阐述的规定中的一个或更多个的处理器可执行指令。

图7是根据一个方面的示例性计算环境的图示，本文阐述的规定中的一个或更多个在该计算环境中实现。

具体实施方式

以下包括本文采用的选定术语的定义。定义包括落入某个术语的范围内的并且可用于实施方式的部件的各种示例和/或形式。这些示例并非旨在进行限制。此外，本领域的普通技术人员将会知道，本文讨论的组件可以组合、省略或与其他组件组织或组织成不同架构。

如本文所用，“处理器”处理信号并且执行一般计算和算术功能。由处理器处理的信号可以包括数字信号、数据信号、计算机指令、处理器指令、消息、位、位流或可被接收、传输和/或检测的其他手段。一般来讲，处理器可以是多种处理器，包括多个单核和多核处理器和协处理器以及其他多个单核和多核处理器和协处理器架构。处理器可以包括各种模块以执行各种功能。

如本文所用的“存储器”可以包括易失性存储器和/或非易失性存储器。非易失性存储器可以包括例如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除PROM)和EEPROM(电可擦除PROM)。易失性存储器可以包括例如RAM(随机存取存储器)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDRSDRAM)和直接RAM总线RAM(DRRAM)。存储器可以存储控制或分配计算装置的资源的操作系统。

如本文所用的“盘”或“驱动器”可以是磁盘驱动器、固态磁盘驱动器、软盘驱动器、磁带驱动器、Zip驱动器、闪存存储器卡和/或存储棒。此外，盘可以是CD-ROM(压缩盘ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)和/或数字视频ROM驱动器(DVD-ROM)。盘可以存储控制或分配计算装置的资源的操作系统。

如本文所用，“总线”是指可互连的架构，其可操作地连接到在计算机内或在计算机之间的其他计算机部件。总线可以在计算机部件之间传输数据。总线可以是存储器总线、存储器控制器、外围总线、外部总线、纵横开关和/或本地总线等等。总线可还是使用诸如面向媒体的系统传送(MOST)、控制器局域网(CAN)、本地互连网络(LIN)等等协议来将在车辆内的组件互连的车辆总线。

如本文所用的“数据库”可以是指表、一组表和一组数据存储(例如，盘)和/或用于访问和/或操纵那些数据存储的方法。

“可操作的连接”或使实体“可操作地连接”的连接是可发送和/或接收信号、物理通信和/或逻辑通信的连接。可操作的连接可以包括无线接口、物理接口、数据接口和/或电接口。

如本文所用的“计算机通信”是指在两个或多个计算装置(例如，计算机、个人数字助理、蜂窝电话、网络装置)之间的通信，并且可以是例如网络传输、文件传输、小程序传输、电子邮件、超文本传输协议(HTTP)传输等。计算机通信可以跨例如无线系统(例如，IEEE802.11)、以太网系统(例如，IEEE 802.3)、令牌环系统(例如，IEEE802.5)、局域网(LAN)、广域网(WAN)、点对点系统、电路交换系统、分组交换系统等等发生。

如本文所用，“移动装置”可以是通常具有带有用户输入(例如，触摸、键盘)的显示屏和用于计算的处理器的计算装置。移动装置包括手持装置、便携式电子装置、智能电话、膝上型电脑、平板电脑和电子阅读器。

如本文所用，“车辆”是指能够运载一个或多个人类乘员并且由任何形式的能量提供动力的任何移动车辆。术语“车辆”包括汽车、卡车、货车、小型货车、SUV、摩托车、踏板车、船只、私人船艇和飞行器。在一些场景中，机动车辆包括一个或多个发动机。此外，术语“车辆”可以是指由完全地或部分地由电池供电的一个或多个电动马达供电的电动车辆(EV)。EV可包括电池动力电动车辆(BEV)和插电式混合动力电动车辆(PHEV)。另外，术语“车辆”可以是指由任何形式的能量提供动力的自主车辆和/或自行驾驶车辆。自主车辆可以运载或可以不运载一个或多个人类乘员。

如本文所用，“车辆系统”可以是可用于增强车辆和驾驶的任何自动或手动系统。示例性车辆系统包括自主驾驶系统、电子稳定性控制系统、防抱死制动系统、制动辅助系统、自动制动预填充系统、低速跟随系统、巡航控制系统、碰撞警告系统、碰撞缓解制动系统、自动巡航控制系统、车道偏离警告系统、盲点指示器系统、车道保持辅助系统、导航系统、变速器系统、制动踏板系统、电子动力转向系统、视觉装置(例如，相机系统、接近传感器系统)、气候控制系统、电子预紧系统、监测系统、乘客检测系统、车辆悬架系统、车辆座椅配置系统、车辆车厢照明系统、音频系统、感觉系统等。

本文讨论的方面可以在存储计算机可执行指令的非暂态计算机可读存储介质的上下文中描述和实现。非暂态计算机可读存储介质包括计算机存储介质和通信介质。例如，闪存存储器驱动器、数字通用盘(DVD)、压缩盘(CD)、软盘和磁带盒。非暂态计算机可读存储介质可以包括在用于信息(诸如计算机可读指令、数据结构、模块或其他数据)的存储的任何方法或技术中实现的易失性或非易失性、可移动和不可移动介质。

本公开涉及用于驾驶员行为理解的风险评估和行人意识。从以驾驶员为中心的角度，可制定风险以识别在危险情况中影响驾驶员的道路代理。提供了具有以下的注释的数据集：驾驶员意图(例如，直行)、场景(例如，乱穿马路者正在穿越街道)、驾驶员操纵的决定(例如，减慢)、场景的道路拓扑结构(例如，4路交叉口)以及当存在行人时使用面部注释的行人意识(例如，正在看或没有看)。这些附加的道路拓扑结构可与自我意识汽车交互相结合。注释还可包括让步或原始操纵。对于风险评估，提供了风险对象识别框架，其明确地对驾驶员意图、场景和驾驶员操纵的决定的因果关系进行建模。

当形成关系时，可考虑场景、自我意识意图和刺激。在一个示例中，并且当自我意识车辆接近交叉口时，自我意识意图可以是固定的，限定了哪些障碍物位于路径中，以及来自交通代理的何种影响。由此，可理解风险对象，并且可确定“停止”或“行进”。

风险对象可被认为是因果问题。给定过去观察到的视频帧序列，模型可首先将每个帧解析成感兴趣对象，每个感兴趣对象被编码为特征向量。可使用这些特征作为节点表示来构建以自我意识为中心的时空图，以产生对观察帧中的场景上下文和时间历史两者进行编码的特征向量。本文提供了明确地对驾驶员意图、场景和驾驶员操纵的决定之间的因果关系进行建模的框架。用于驾驶员行为风险评估和行人意识的系统可检查风险感知问题并且引入新数据集以便促进该领域中的研究。数据集可包括短视频片段或图像序列，其包括驾驶员意图、道路网络拓扑结构、情况(例如，穿越的行人)、驾驶员响应，以及使用面部注释和面部边界框的行人注意力的注释。利用数据集，系统可引入新型的风险对象识别(ROI)框架，该框架对驾驶员意图、情况和驾驶员的响应的因果关系进行建模，由此使得能够确定因果影响(例如，驾驶员响应或反应的原因(即，交通参与者、一个或多个环境特征等中的一者))。

对于行人注意力，系统可从分类和检测角度两者提供见解。根据一个方面，驾驶员行为风险评估和行人意识可利用具有驾驶场景中的行人面部注释的大规模数据集，以在风险感知的上下文内估计行人注意力并且提供使用行人面部的检测框架。

就这一点而言，本文所述的驾驶员行为风险评估和行人意识的优点或益处可包括通过引入具有情况和注释的不同集合的新型且全面的数据集来解决现有数据集的限制，从而实现对风险对象识别的研究。另外，可提供用于风险对象识别的框架，该框架对驾驶员意图(例如，驾驶员希望去哪里？)、情况(例如，推理、周围环境、交通参与者的位置、交通参与者正在移动的方向、自我意识车辆和交通参与者之间的交互、基于其他交通参与者的影响等)和驾驶员响应(例如，继续、停止、减慢、转弯等)之间的关系进行建模。此外，系统可在所提出的数据集的子集上为行人注意力提供注释以实现风险对象识别，并且提供使用面部的用于行人注意检测的框架。

根据一个方面，数据集可包括从摄像机捕获的图像序列或图像流，该摄像机可包括LiDAR传感器和/或GPS传感器。另外，可收集车辆控制器局域网(CAN)数据以用于结合图像序列或图像流来分析驾驶员如何操纵转向、刹车和油门。该传感器数据可被同步并且加时间戳。此外，数据可捕获交通场景的不同集合，包括例如不同的交通环境，诸如城市、郊区和高速公路环境。行人意识数据可集中于其中存在驾驶员和行人之间的不同交互的交叉口场景。

用于驾驶员行为风险评估和行人意识的系统可用于开发稳健智能驾驶系统，该稳健智能驾驶系统系统可使用如上所述的一个或多个车辆系统(例如，自主驾驶系统、电子稳定性控制系统、防抱死制动系统、制动辅助系统、自动制动预填充系统、低速跟随系统、巡航控制系统、碰撞警告系统、碰撞缓解制动系统、自动巡航控制系统、车道偏离警告系统、盲点指示器系统、车道保持辅助系统、导航系统、变速器系统、制动踏板系统、电子动力转向系统、视觉装置、相机系统、接近传感器系统、气候控制系统、电子预紧系统、监测系统、乘客检测系统、车辆悬架系统、车辆座椅配置系统、车辆车厢照明系统、音频系统、感觉系统等)来实现，诸如通过例如基于驾驶员行为风险评估和行人意识或风险评分等来实现上述车辆系统中的一者或多者。

数据集可包括被分类或手动分类的数据，并且包括针对每个数据片段的驾驶员意图、道路拓扑结构、情况、驾驶员的决定以及行人意识。根据一个方面，可使用所提出的数据集来探究未裁剪视频中的自动情况定位。

图1是根据一个方面的用于驾驶员行为风险评估和行人意识的系统100的示例性部件图。系统100可实现四层表示(即，驾驶员意图、拓扑结构、情况、驾驶员的响应)以描述用于风险评估的驾驶员行为。具体地讲，标记结构可被设计用于风险评估。根据一个方面，自我意识车辆的意图或驾驶员意图可被估计为左转意图、右转意图或直行意图。因此，如本文所述的用于驾驶员行为风险评估和行人意识的系统100不需要预测任何车辆、行人、交通参与者等的任何轨迹，因为替代地计算风险评估。这样，无论如何都不需要轨迹预报，并且可提供意图、情况和驾驶员响应之间的关系的建模。这种明确建模有利于识别谁可能对驾驶员的行为有影响，以及谁可能被确定为有风险的或冒险的(作为交通参与者)。

驾驶员可感知场景的道路拓扑结构和情况，作为其计划和决策制定的一部分。就这一点而言，底层道路拓扑网络可在拓扑层中被注释，该拓扑层包括直拓扑结构、三路交叉口拓扑结构或四路交叉口拓扑结构。

在经由道路拓扑网络朝向目标(例如，到达交叉口)导航时，驾驶员或自我意识车辆可能遇到不同的驾驶情况或对某些道路用户或交通参与者(例如，正在穿越街道的骑车人、停放在自我意识车道附近的卡车等)作出反应。就这一点而言，可在数据集内的情况层中注释直接影响驾驶员行为的道路用户。不同类型的情况的示例可包括停车标志、交通灯、穿越的行人、穿越的车辆、车辆阻塞自我意识车道、拥塞、乱穿马路、车辆后退到停车位中、车辆在肩部开门或切入等。

驾驶员对道路用户的响应可被标记在数据集的驾驶员的响应层中。根据一个方面，注释两种类型的决定(即，受影响和不受影响)。受影响的示例可包括偏离停放的车辆、让步于穿越的行人、或为了停车标志而停车等。

关于行人注意力，数据集可集中于与行人在自我意识车辆正接近(例如，在阈值距离内等)时的注意相关的注释。换句话讲，对于行人注意力，系统100可从数据集中选择用于风险对象识别的场景子集，因此该子集包括驾驶员受行人影响的场景。此外，数据集的行人注意力部分可包括行人注意力标签(即，正在看、没有看和不确定)，并且还可包括与驾驶员监测和注视信息相关的相互意识标签(例如，驾驶员和行人是否可能意识到彼此)。此外，数据集的行人注意力部分可包括围绕行人面部以及行人身体的标签或边界框和遮挡标记。因此，数据集使得与行人注意力相关联的推理或推断能够从面部和身体两者进行，而不是纯粹使用身体姿势。根据一个方面，如果行人的高度大于行人的阈值像素数量，则可考虑行人。类似地，如果面部边界框大于面部的阈值像素数量，则可考虑行人面部。可为面部边界框、行人身体边界框和/或行人边界框设置遮挡标记(例如，部分遮挡、完全遮挡、非遮挡等)。

根据一个方面，系统100可被设置成根据图1的框架或架构或者图2的框架或架构将风险对象识别问题制定为因果问题。图2是根据一个方面的用于驾驶员行为风险评估和行人意识的系统200的示例性部件图。

就这一点而言，图1的用于驾驶员行为风险评估和行人意识的系统100和/或图2的用于驾驶员行为风险评估和行人意识的系统200可包括处理器102、存储器104、存储装置106和/或数据库、图像传感器110、风险对象标识符(ROI)120、意图估计器130、场景表示生成器140、情况预测器150、驾驶员响应确定器160、互连相应部件的一条或多条总线。ROI120、意图估计器130、场景表示生成器140、情况预测器150或驾驶员响应确定器160中的一者或多者可经由处理器102、存储器104和/或存储装置106来实现。此外，上述注释数据集可存储在数据库或存储装置106上，或者可存储在远程第三方服务器中。在任何情况下，注释数据集可用于训练ROI 120、意图估计器130、场景表示生成器140、情况预测器150或驾驶员响应确定器160中的一者或多者。

图像传感器110可以是图像捕获装置(诸如摄像机)，并且可接收环境的图像的输入流，该环境包括环境内的一个或多个对象(例如，行人、道路用户等)。

根据一个方面，可使用在数据集(例如，COCO数据集)上预先训练的掩模R-CNN来获得节点特征，并且可应用DeepSORT来检测和跟踪相应的对象。为了从以自我意识为中心的视图识别影响驾驶员行为的对象，系统100可构建以自我意识为中心的时空图，该时空图使用基于图的推理对道路用户如何影响自我意识车辆进行建模。这样，可提供组成框架以确定驾驶员是否受到影响。

ROI 120可从环境的图像的输入流中提取图像级和/或对象级特征。ROI 120可为环境内的对象中的一者或多者确定一个或多个对象边界框。对象边界框中的一者或多者可围绕行人的面部或头部，并且ROI 120可确定行人正在看还是没有看自我意识车辆。这样，给定观察的视频帧序列，图1的系统100或图2的系统200的框架可提取感兴趣对象的图像级和对象级特征。

根据一个方面，RoIAlign可用于提取对应的对象级表示。可类似地使用帧尺寸边界框来获得自我意识节点特征(即，自我意识车辆的表示)。这还使得能够捕获场景上下文。驾驶场景是复杂的，并且并非场景中的所有对象都会影响驾驶员。因此，系统100或200可将感兴趣对象限于以下类别：人、自行车、汽车、摩托车、公共汽车、卡车、交通灯和停车标志。另外，系统100或200可使用一个或多个部分卷积层来模拟不存在对象的情况。

意图估计器130可基于图像的输入流和时间复现网络(TRN)来估计自我意识车辆的意图。场景表示生成器140可基于图像的输入流和图神经网络(GNN)来生成场景表示。另外，场景表示生成器140可使用从感兴趣对象提取的图像级和对象级特征作为图中的各个节点的表示来构造以自我意识为中心的时空图。系统100或200可利用场景表示来突出显示对驾驶员意图、情况和驾驶员操纵的决定之间的因果关系进行建模的影响。通过将对象连接到GNN，这使得场景表示生成器140能够对相关交通参与者或环境的特征(例如，停车标志、交通灯等)之间的关系进行建模，并且因此对情况进行建模。换句话讲，基于GNN和TRN，场景表示生成器140可在一系列时间戳上对多个其他交通参与者和环境特征相对于自我意识车辆的关系进行建模。这样，系统100或200可使用因果影响来移除或掩蔽来自图像的对象或特征。

具体地讲，一旦提取了节点特征，系统100或200就可经由消息传递机制对自我意识和对象之间的交互进行建模。为了将通信中的时间历史合并在图内，系统100或200可使用LSTM模块或场景表示生成器140来对自我意识和对象的时间动态进行建模。

情况预测器150可基于场景表示和自我意识车辆的意图来生成对情况的预测。根据一个方面，情况预测器150可基于场景表示和自我意识车辆的意图的元素级点乘积来生成对情况的预测。情况预测器150可将对情况的预测分类为二进制类别。为了从以自我意识为中心的视图识别影响驾驶员行为的对象，系统100或200的场景表示生成器140可构建以自我意识为中心的时空图，该时空图使用基于图的推理对道路用户如何影响自我意识车辆进行建模。

驾驶员响应确定器160可基于对情况的预测和场景表示来生成受影响或不受影响的动作确定，并且基于受影响或不受影响的动作确定、对情况的预测和/或场景表示来生成对象、交通参与者或环境特征中的一者或多者的风险评分。根据一个方面，驾驶员响应确定器160可基于通过多层感知器(MLP)传递对情况的预测和场景表示来生成受影响或不受影响的动作确定。

这样，图1的系统100或图2的系统200可对驾驶员意图、情况和驾驶员操纵的决定之间的因果关系进行建模。网络架构或系统100或200可采用RGB帧序列、用于部分卷积的二进制掩模序列和对象轨迹段的集合作为输入。这些输入可分别传递到图神经网络(GNN)和TRN以用于获得场景表示和驾驶员意图表示，可进一步级联该场景表示和驾驶员意图表示以预测情况。来自情况分类器的分对数可被进一步分类为二进制类别、情况(s)和背景(1-s)，并且可通过MLP传递以获得细化表示，该细化表示可与基于图的场景表示级联以预测驾驶员决定并且被确定为受影响的或不受影响的。

图3是根据一个方面的与驾驶员行为风险评估和行人意识相关联的因素的示例性图示。根据一个方面，系统100或200可基于图3所示的因果关系(包括驾驶员意图302、情况304和驾驶员响应306)来建模。可注意到，驾驶员意图不一定直接影响驾驶员的决定(例如，驾驶员决定)，因为无论驾驶员意图如何，驾驶员都可基于交通代理(即，情况)改变路线。然而，驾驶员的意图可通过情况间接影响驾驶员决定。

图4是根据一个方面的与驾驶员行为风险评估和行人意识相关联的外部刺激的示例性图示400。行人注意力可在风险感知中起重要作用，因为其涉及驾驶员与道路用户或行人之间的相互通信和意图理解，这可用于对他们的相应交互进行建模。如图4所示，自我意识驾驶员402和正在等待穿越(即，行人意图)的行人404之间的联合注意形成非言语通信信道，该非言语通信信道减轻不确定性并且促进驾驶员和行人之间的相互意识。

系统100或200可将决策制定的高级建模划分成特定部件以便解决与交通场景(诸如图4的交通场景)相关联的任务。在驾驶场景的上下文中，当驾驶员402由于交通代理406而需要作出关于从当前路线改变的决定时，驾驶员可考虑到特定事件顺序。如图4所示，当驾驶员接近交叉口时，通常存在驾驶员可能采取的多个路径。基于驾驶员意图，可首先固定即时目标，在这种情况下，该即时目标是右转。然后，当决定预期路径时，第二步骤可以是确定预期路径上是否存在可致使驾驶员改变当前驾驶行为的交通代理或情况。假设驾驶员打算右转，则在左侧穿越的车辆变得不相关。最后，如果确实存在此类代理，则驾驶员决定受到影响。如图4所示，即将穿越的行人直接位于自我意识车辆的未来路径中。因此，来自驾驶员的预期响应为缓慢行进并且让步于行人。

相对于图1的系统100或图2的系统200，为了对上述关系进行建模，系统100或200可首先合并用于预测驾驶员意图的网络。然后可将通过该网络学习的特征表示与场景的基于图的表示级联，之后是分类器，以预测影响驾驶员的情况。为了预测驾驶员的响应(例如，受影响的或不受影响的)，情况存在的指示是足够的，因为无论情况是乱穿马路还是停车标志，驾驶员都将从当前路线改变。因此，系统100或200可以二进制方式(例如，情况或背景)修改场景分类器的分对数以指示障碍物或对象的存在。然后可将这些分对数通过多层感知器(MLP)传递并且与图表示级联以预测驾驶员决定。系统100或200可针对情况和驾驶员决定两者使用相同的图表示以捕获图中的相同节点(例如，交通代理)负责这两个任务的实质。系统100或200可使用以下多任务损失函数来优化网络：

其中

分别为对应于驾驶员意图、情况和驾驶员决定的损失，并且λ₁，λ₂，λ₃为损失平衡参数。

关于行人注意力，注释数据集可提供围绕行人的面部和身体的边界框，并且系统100或200可使用这些注释以从分类角度和检测角度训练ROI 120、意图估计器130、场景表示生成器140、情况预测器150、或驾驶员响应确定器160中的一者或多者。

关于分类，系统100或200可在模型(例如，ResNet-101模型)上单独训练行人及其面部的裁剪图像(例如，具有多达阈值量的微小遮挡)，并且因此展示通过前述注释数据集进行的面部注释的优点。

关于检测，系统100或200可通过与现有框分类和回归分支并行地添加用于估计行人注意的单独头部来修改面部检测器。系统100或200可检测场景中的面部并且对面部进行分类。更具体地讲，对于任何训练锚i，系统100或200可使以下多任务损失函数最小化：

其中

和

为面部分类和框回归损失，类似于，

为注意头部的损失，并且α用于平衡注意损失。系统100或200可使用

的交叉熵损失，其中α_i是对应于查看的锚i的预测概率，并且如果锚i是正锚，则为非零，即具有高于阈值γ的与地面实况面部框的重叠。对应地，

在标签是正在看时为1，并且如果

是没有看，则为0。这样，系统100或200可使用裁剪部分来对行人正在看还是没有看自我意识车辆进行分类。

虽然在驾驶员行为风险评估和行人意识中，系统100或200可集中于瞬时行人注意，但标签可通过将任务转换为动作开始检测(其中目标是识别动作的起始点)来修改，从而随时间推移扩展行人注意问题。

图5是根据一个方面的用于驾驶员行为风险评估和行人意识的方法500的示例性流程图。用于驾驶员行为风险评估和行人意识的方法可包括：接收502环境(例如，直拓扑结构、三路交叉口拓扑结构或四路交叉口拓扑结构)的图像的输入流，该环境包括环境内的一个或多个对象；基于图像的输入流和时间复现网络(TRN)来估计504自我意识车辆的意图(例如，左转意图、右转意图或直行意图)；基于图像的输入流和图神经网络(GNN)来生成506场景表示；基于场景表示和自主意识车辆的意图来生成508对情况(例如，停车标志、交通灯、穿越的行人、穿越的车辆、车辆阻塞自我意识车道、拥塞、乱穿马路、车辆后退到停车位中、车辆在肩部开门或切入)的预测；以基于对情况的预测和场景表示来生成510受影响或不受影响的动作确定。

用于驾驶员行为风险评估和行人意识的方法500可包括：从环境的图像的输入流中提取图像级和对象级特征；为环境内的对象中的一者或多者确定一个或多个对象边界框；确定行人正在看还是没有看自我意识车辆，并且对象边界框中的一者或多者可围绕行人的面部或头部；基于场景表示和自我意识车辆的意图的元素级点乘积来生成对情况的预测；以及基于通过多层感知器(MLP)传递对情况的预测和场景表示来生成受影响或不受影响的动作确定。

又一方面涉及计算机可读介质，该计算机可读介质包括处理器可执行指令，该处理器可执行指令被配置为实现本文呈现的技术的一个方面。图6中示出了以这些方式设计的计算机可读介质或计算机可读装置的一方面，其中实施方式600包括计算机可读介质608，诸如CD-R、DVD-R、闪存驱动器、硬盘驱动器盘片等，计算机可读数据606在该计算机可读介质上进行编码。该编码的计算机可读数据606(诸如包括如606所示的多个零和一的二进制数据)又包括一组处理器可执行计算机指令604，该组指令被配置为根据本文阐述的原理中的一个或更多个操作。在该实施方式600中，处理器可执行计算机指令604可被配置为执行方法602，诸如图5的方法500。在另一个方面，处理器可执行计算机指令604可被配置为实现系统，诸如图1的系统100或图2的系统200。许多此类计算机可读介质可以由本领域的普通技术人员设计，其被配置为根据本文呈现的技术进行操作。

如本申请中所用，术语“组件”、“模块”、“系统”、“接口”等一般旨在是指计算机相关实体、硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是在处理器上运行的进程、处理单元、对象、可执行程序、执行线程、程序或计算机。作为说明，在控制器上运行的应用程序和控制器两者都可以是组件。驻留在进程或执行线程和组件内的一个或多个组件可以位于一台计算机上或分布在两台或更多台计算机之间。

此外，所要求保护的主题被实现为使用标准编程或工程技术以产生软件、固件、硬件或它们的任何组合来控制计算机实现所公开的主题的方法、设备或制品。如本文所用的术语“制品”旨在涵盖可从任何计算机可读装置、载体或介质访问的计算机程序。当然，在不脱离所要求保护的主题的范围或精神的情况下，可以对该配置做出许多修改。

图7和以下讨论提供了用于实现本文阐述的规定中的一个或更多个的方面的合适的计算环境的描述。图7的操作环境仅是合适的操作环境的一个示例，并且并不旨在对操作环境的使用范围或功能提出任何限制。示例性计算装置包括但不限于个人计算机、服务器计算机、手持式或膝上型装置、移动装置(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费者电子装置、小型计算机、大型计算机、包括上述系统或装置中的任一个的分布式计算环境等。

一般来说，在“计算机可读指令”可由一个或多个计算装置执行的一般上下文中描述各方面。计算机可读指令可以经由计算机可读介质分发，如下面将讨论。计算机可读指令可以被实现为执行一个或多个任务或实现一个或多个抽象数据类型的程序模块，诸如函数、对象、应用程序编程接口(API)、数据结构等。通常，计算机可读指令的功能性根据需要在各种环境中组合或分布。

图7示出了包括被配置为实现本文提供的一个方面的计算装置712的系统700。在一种配置中，计算装置712包括至少一个处理单元716和存储器718。取决于计算装置的确切配置和类型，存储器718可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存存储器等)或这两者的组合。该配置在图7中由虚线714示出。

在其他方面，计算装置712包括附加特征或功能。例如，计算装置712可以包括附加存储装置，诸如可移动存储装置或不可移动存储装置，包括但不限于磁性存储装置、光学存储装置等。此类附加存储装置在图7中由存储装置720示出。在一方面，用于实现本文提供的一个方面的计算机可读指令在存储装置720中。存储装置720可以存储其他计算机可读指令以实现操作系统、应用程序等。例如，计算机可读指令可以加载到存储器718中以供处理单元716执行。

如本文所用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括在用于存储信息(诸如计算机可读指令或其他数据)的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质。存储器718和存储装置720是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储装置或可用于存储期望的信息并且可由计算装置712访问的任何其他介质。任何此类计算机存储介质都是计算装置712的一部分。

术语“计算机可读介质”包括通信介质。通信介质通常以“经调制的数据信号”(诸如载波或其他传输机制)来体现计算机可读指令或其他数据并且包括任何信息传递介质。术语“经调制的数据信号”包括以对信号中的信息进行编码的方式设置或改变其特性中的一个或多个的信号。

计算装置712包括输入装置724，诸如键盘、鼠标、笔、语音输入装置、触摸输入装置、红外相机、视频输入装置或任何其他输入装置。输出装置722(诸如一个或更多个显示器、扬声器、打印机或任何其他输出装置)可以包括在计算装置712中。输入装置724和输出装置722可以经由有线连接、无线连接或它们的任何组合连接到计算装置712。在一方面，来自另一计算装置的输入装置或输出装置可以用作计算装置712的输入装置724或输出装置722。例如，计算装置712可以包括通信连接726，以便于诸如通过网络728与一个或更多个其他装置730进行通信。

尽管用特定于结构特征或方法动作的语言描述了本主题，但是应当理解，所附权利要求书的主题不一定限于上述具体特征或动作。相反，上述具体特征和动作是作为示例性方面被公开。

在本文提供了各方面的各种操作。描述操作中的一个或多个或全部的次序不应被解释为暗示这些操作必须是按次序的。将会基于该描述而知道替代排序。此外，并非所有操作都必须要存在于本文提供的每个方面中。

如本申请中所用，“或”旨在表示包括性“或”而非排他性“或”。此外，包含性“或”可以包括它们的任何组合(例如，A、B或它们的任何组合)。另外，除非另外指明或从上下文清楚指向单数形式，否则如本申请中所用的“一个”和“一种”一般被解释为表示“一个或多个”。另外，A和B中的至少一个和/或相似的表达一般表示A或B或A和B两者。此外，就“包括(includes)”、“具有(having)”、“具有(has)”、“带有”或它们的变体在详细描述或权利要求书中使用来说，此类术语旨在以与术语“包括(comprising)”类似的方式是包括性的。

此外，除非另有说明，否则“第一”、“第二”等并不表示暗示时间方面、空间方面、排序等。相反，此类术语仅用作特征、要素、项等的标识符、名称等。例如，第一信道和第二信道一般对应于信道A和信道B或两个不同或两个相同的信道、或同一信道。另外，“包括(comprising)”、“包括(comprises)”、“包括(including)”、“包括(includes)”等一般表示包括(comprising)或包括(including)但不限于。

应当理解，上面公开的特征和功能以及其他特征和功能中的各种特征和功能或它们的替代物或变体可以理想地组合到许多其他不同系统或应用中。此外，本领域的技术人员可以之后做出本文的各种目前无法预料或无法预期的替代、修改、变化或改进，这些也旨在涵盖在所附权利要求书中。

Claims

1.一种用于驾驶员行为风险评估和行人意识的系统，包括：

图像传感器，所述图像传感器接收环境的图像的输入流，所述环境包括所述环境内的一个或多个对象；

意图估计器，所述意图估计器基于所述图像的输入流和时间复现网络(TRN)来估计自我意识车辆的意图；

场景表示生成器，所述场景表示生成器基于所述图像的输入流和图神经网络(GNN)来生成场景表示；

情况预测器，所述情况预测器基于所述场景表示和所述自我意识车辆的所述意图来生成对情况的预测；和

驾驶员响应确定器，所述驾驶员响应确定器基于对所述情况的所述预测和所述场景表示来生成受影响或不受影响的动作确定。

2.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，其中所述自我意识车辆的所述意图被估计为左转意图、右转意图或直行意图。

3.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，其中所述环境包括直拓扑结构、三路交叉口拓扑结构或四路交叉口拓扑结构。

4.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，其中所述情况包括停车标志、交通灯、穿越的行人、穿越的车辆、车辆阻塞自我意识车道、拥塞、乱穿马路、车辆后退到停车位中、车辆在肩部开门或切入。

5.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，包括风险对象标识符(ROI)，所述ROI从所述环境的所述图像的输入流中提取图像级和对象级特征。

6.根据权利要求5所述的用于驾驶员行为风险评估和行人意识的系统，其中所述ROI为所述环境内的所述对象中的一者或多者确定一个或多个对象边界框。

7.根据权利要求6所述的用于驾驶员行为风险评估和行人意识的系统，其中所述对象边界框中的一者或多者围绕行人的面部或头部，并且所述ROI确定所述行人正在看还是没有看所述自我意识车辆。

8.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，其中所述情况预测器基于所述场景表示和所述自我意识车辆的所述意图的元素级点乘积来生成对所述情况的所述预测。

9.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，其中所述驾驶员响应确定器基于通过多层感知器(MLP)传递对所述情况的所述预测和所述场景表示来生成所述受影响或不受影响的动作确定。

10.根据权利要求1所述的用于驾驶员行为风险评估和行人意识的系统，其中所述情况预测器将对所述情况的所述预测分类为二进制类别。

11.一种用于驾驶员行为风险评估和行人意识的方法，包括：

接收环境的图像的输入流，所述环境包括所述环境内的一个或多个对象；

基于所述图像的输入流和时间复现网络(TRN)来估计自我意识车辆的意图；

基于所述图像的输入流和图神经网络(GNN)来生成场景表示；

基于所述场景表示和所述自我意识车辆的所述意图来生成对情况的预测；以及

基于对所述情况的所述预测和所述场景表示来生成受影响或不受影响的动作确定。

12.根据权利要求11所述的用于驾驶员行为风险评估和行人意识的方法，其中所述自我意识车辆的所述意图被估计为左转意图、右转意图或直行意图。

13.根据权利要求11所述的用于驾驶员行为风险评估和行人意识的方法，其中所述环境包括直拓扑结构、三路交叉口拓扑结构或四路交叉口拓扑结构。

14.根据权利要求11所述的用于驾驶员行为风险评估和行人意识的方法，其中所述情况包括停车标志、交通灯、穿越的行人、穿越的车辆、车辆阻塞自我意识车道、拥塞、乱穿马路、车辆后退到停车位中、车辆在肩部开门或切入。

15.根据权利要求11所述的用于驾驶员行为风险评估和行人意识的方法，包括从所述环境的所述图像的输入流中提取图像级和对象级特征。

16.根据权利要求15所述的用于驾驶员行为风险评估和行人意识的方法，包括为所述环境内的所述对象中的一者或多者确定一个或多个对象边界框。

17.根据权利要求16所述的用于驾驶员行为风险评估和行人意识的方法，包括确定行人正在看还是没有看所述自我意识车辆，其中所述对象边界框中的一者或多者围绕所述行人的面部或头部。

18.根据权利要求11所述的用于驾驶员行为风险评估和行人意识的方法，包括基于所述场景表示和所述自我意识车辆的所述意图的元素级点乘积来生成对所述情况的所述预测。

19.根据权利要求11所述的用于驾驶员行为风险评估和行人意识的方法，包括基于通过多层感知器(MLP)传递对所述情况的所述预测和所述场景表示来生成所述受影响或不受影响的动作确定。

20.一种驾驶员行为风险评估和行人意识车辆，包括：

意图估计器，所述意图估计器基于所述图像的输入流和时间复现网络(TRN)来估计所述车辆的意图；

情况预测器，所述情况预测器基于所述场景表示和所述车辆的所述意图来生成对情况的预测；和