CN116543266A

CN116543266A - 注视行为知识引导的自动驾驶智能模型训练方法及装置

Info

Publication number: CN116543266A
Application number: CN202310711568.3A
Authority: CN
Inventors: 房丰洲; 任仲贺; 侯高峰; 牛锐
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-04

Abstract

本发明公开了一种注视行为知识引导的自动驾驶智能模型训练方法及装置，包括：数据采集模块获取驾驶行为画面、前向路况视野、车辆行驶参数；边缘计算模块和云服务器模块进行端云协同计算；基于驾驶行为画面获取注视方向元数据；视线模型基于注视方向元数据预测注视方向并获取视点加权掩模；通过视点驱动的目标物体分割以获取目标物体属性；视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数作为多模态输入数据用于自动驾驶智能模型的训练。通过本发明实施例，可利用视线追踪技术获取驾驶人员在驾驶车辆过程中的注视行为信息，并提取注视行为所包含的知识特征以引导自动驾驶智能模型的训练，提高训练效率和模型的场景认知能力。

Description

注视行为知识引导的自动驾驶智能模型训练方法及装置

技术领域

本发明属于自动驾驶技术领域，涉及人工智能模型训练方法，具体是一种注视行为知识引导的自动驾驶智能模型训练方法及装置。

背景技术

自动驾驶是依靠计算机与人工智能技术在没有人为操纵的情况下，执行完整、安全和有效驾驶的一项前沿科技。感知模块是自动驾驶系统的眼睛，也是后续决策层的基础，在自动驾驶系统中至关重要。环境感知是自动驾驶最重要的功能之一，环境感知的性能，如准确性、对光变化和阴影噪声的鲁棒性，以及对复杂道路环境和恶劣天气的适应性，直接影响自动驾驶技术的性能。视觉传感器是自动驾驶中常用的传感器之一，其能够获取丰富的颜色和纹理信息，可以快速准确地识别各种道路信息，因此，视觉感知在自动驾驶中起着重要作用，目标检测和识别是视觉感知的主要任务。算法是决定自动驾驶模型能力的核心要素之一。感知、决策、规划、控制算法是自动驾驶系统的核心，其安全性对自动驾驶车辆尤为重要。面向场景感知，神经网络模型的应用驱动了感知算法的高速发展，基于深度学习的方法具有更好的可靠性和处理速度，并且在识别复杂元素方面具有更大的优势。常见的神经网络模型可以分为两类，一类是以CNN、RNN为代表的小模型，另一类是以Transformer为代表的大模型。然而，当前感知与规控算法的不完备性，以及复杂硬件系统的不可靠性，仍是自动驾驶汽车安全性行驶的主要隐患；硬件方面，应采用更为先进的传感器、处理器、通信和电源等；软件方面，应采用更为智能、高效、稳定的决策和控制算法。

基于深度学习的人工智能模型能将非结构化的输入数据转换为有价值的结构化输出信息。然而，由于纯数据驱动的方法缺乏可解释性，这限制了其在关键场景中的适用性；此外，纯数据驱动的方法需要大规模的带有标签的数据集，不仅带来了较大的数据采集和标注成本，还要耗费巨大的计算资源进行模型训练。面向新一代人工智能技术，需要结合符号主义和联结主义，融合数据驱动和知识驱动，建立一种可解释的人工智能理论和方法，以提升人工智能模型的可解释性和可信赖度。

经验丰富的驾驶人员在驾驶车辆过程中的注视行为包含丰富的人类经验知识，这些知识对于提升基于视觉感知的自动驾驶智能模型的决策控制和运动规划水平具有重要作用；视线追踪能够用于预测人眼视线方向或注视位置。因此，基于视线追踪技术，设计一种注视行为知识引导的自动驾驶智能模型训练方法及装置具有重要意义和应用价值。

发明内容

本发明目的在于解决现有技术中存在的上述不足，提出一种注视行为知识引导的自动驾驶智能模型训练方法及装置，利用视线追踪技术获取经验丰富的驾驶人员在驾驶车辆过程中的注视行为信息，并利用注视行为所包含的知识引导自动驾驶智能模型的训练，提高训练效率，提升模型的场景认知、决策控制和运动规划能力。

实现本发明的技术方案是：

注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于，包括：

数据采集模块、边缘计算模块和云服务器模块；

所述数据采集模块是由车载的光学传感器和速度传感器组成，用于在车辆行驶过程中同步地获取驾驶行为画面、前向路况视野和车辆行驶参数，所述驾驶行为画面是由车载的内景相机模组面向车辆驾驶人员进行拍摄而实现数据采集，所述前向路况视野是由车载的外景相机模组面向车辆前方视野进行拍摄而实现数据采集，所述车辆行驶参数是由车载的行驶传感模组对车辆行驶的实时速度和加速度进行抓取而实现数据采集。

所述边缘计算模块和云服务器模块对所述驾驶行为画面、前向路况视野和车辆行驶参数进行端云协同计算，所述边缘计算模块是端云协同计算中的车载终端边缘计算，用于对数据采集模块实时采集的原始图像数据和行驶参数进行数据处理，所述云服务器模块是端云协同计算中的远程云服务器计算，用于接收数据传输、执行数据解压，并且基于视线模型、目标检测模型以及物体分割模型对注视方向元数据、前向路况视野进行处理和计算以获取视点加权掩模、目标物体属性，所述视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数作为多模态数据在进行空间和时间上的对齐之后并行输入到云服务器模块中部署的自动驾驶智能模型参与模型训练。

所述注视行为知识引导的自动驾驶智能模型训练方法包括以下步骤：

S01：车载的数据采集模块获取驾驶行为画面、前向路况视野、车辆行驶参数。

具体地，所述数据采集模块中的光学传感器包括车载内景相机模组和车载外景相机模组；所述内景相机模组是由至少一个可见光相机和至少一个红外相机而组成的可见光与红外融合的立体视觉系统，内景相机模组置于车辆驾驶室主驾驶座前方仪表盘上方平台的左侧或者右侧，内景相机模组的相机镜头朝向车辆驾驶室主驾驶座方位以拍摄驾驶行为画面；所述外景相机模组是由至少一个可见光相机和至少一个红外相机而组成的可见光与红外融合的立体视觉系统，外景相机模组置于车辆驾驶室中央后视镜后方的右侧，外景相机模组的相机镜头朝向车辆行驶前进方向以拍摄前向路况视野。

S02：边缘计算模块对驾驶行为画面进行数据处理得到注视方向元数据，并对前向路况视野和车辆行驶参数进行数据压缩。

具体地，所述驾驶行为画面通过边缘计算模块的数据处理完成特征初步提取和表征进而得到注视方向元数据，所述注视方向元数据是由表征视线信息的一系列基本特征元素组成的一个数据阵列，所述数据阵列由图像数据和坐标向量数据组成，其中，所述图像数据包括人脸区域图像、眼睛区域图像，所述坐标向量数据包括面部关键特征点坐标、眼睛瞳孔坐标、头部姿态向量；所述前向路况视野和车辆行驶参数在边缘计算模块进行数据处理和数据压缩。

S03：边缘计算模块处理之后的数据基于通信网络向云服务器模块进行数据传输并且实现端云协同计算。

S04：云服务器模块接收数据并进行数据解压以获取注视方向元数据、前向路况视野、车辆行驶参数。

S05：云服务器模块的视线模型基于注视方向元数据预测注视方向，并在前向路况视野中计算视点位置映射以获取视点加权掩模。

具体地，所述注视方向元数据基于云服务器模块中部署的视线模型通过模型预测得到注视方向信息，所述前向路况视野在完成数据解压之后，通过计算所述注视方向信息在前向路况视野中的视点位置映射关系得到包含驾驶人员注视焦点信息的视点加权掩模。

作为本发明的进一步改进，所述视线模型设有校准模式，通过运行校准模式可在车辆驾驶过程中对视线模型进行校准以使视线模型能够在驾驶人员的坐姿发生一定程度变动的情况下保持模型预测注视方向的准确度；所述校准模式通过目标检测模型从前向路况视野画面中检测到特定物体目标而发生周期性触发，所述特定物体目标可以是交通信号灯或者前方车辆的号码牌，校准模式被触发之后通过车载扬声器播放语音提示以提醒驾驶人员盯着语音提示所指定的特定物体目标保持注视一定时长，所述特定物体目标基于目标检测模型从前向路况视野画面中进过分割提取并识别获取特定物体目标的名称和位置；驾驶人员听到语音提示之后在注视特定物体目标的同时连续眨眼两次以引导内景相机模组拍摄驾驶人员正在注视特定物体目标的驾驶行为画面，所述内景相机模组拍摄完毕之后触发语音提示结束校准模式；所述校准模式期间拍摄的驾驶行为画面对应的注视方向元数据和前向路况视野以及基于目标检测模型从前向路况视野中提取得到的特定物体目标的位置数据并行输入到视线模型以用于模型的参数校准处理。

S06：在前向路况视野中基于物体分割模型进行视点驱动的目标物体分割以获取目标物体属性。

具体地，所述前向路况视野在计算视点位置映射之后基于物体分割模型获取目标物体属性，所述目标物体属性是基于驾驶人员在前向路况视野画面中的注视焦点以驱动物体分割模型从画面中分割注视的目标物体并获取目标物体的属性信息。

S07：在云服务器模块中，视点加权掩模、目标物体属性、前向路况视野、车辆行驶参数作为多模态输入数据并基于多分支网络学习与网络合并策略以用于自动驾驶智能模型的训练。

具体地，所述视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数作为多模态数据基于多分支网络学习和网络合并策略用于自动驾驶智能模型的训练；所述多分支网络学习对所述视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数分别进行单独通道的深度卷积神经网络计算；所述网络合并策略通过网络模型加权合并的方法融合多模态数据，其中，视点加权掩模通过网络模型加权合并的方法对前向路况视野画面赋予不同的网络权重，进而通过基于注视焦点权重分布信息的注意力机制以引导自动驾驶智能模型在训练中更多关注驾驶人员的注视焦点区域。

作为本发明的进一步改进，所述多分支网络学习是对视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数分别进行并行式单通道的深度卷积神经网络计算，经过深度卷积神经网络计算以获取每个模态数据对应的特征图；所述网络合并策略是对所述每个模态数据对应的特征图进行融合，并经过进一步地深度卷积神经网络计算而生成基于注视焦点权重分布信息的注意力机制特征模块以在自动驾驶智能模型的训练过程中发挥知识引导作用，从而提升自动驾驶智能模型训练的综合性能。

本发明与现有技术相比，优点在于：

所述注视行为知识引导的自动驾驶智能模型训练方法及装置，面向自动驾驶领域中智能决策模型的开发，提供了一种基于驾驶人员注视行为特征的知识引导式模型训练方法，可见光与红外融合的立体视觉系统能够适应复杂多变的照明环境并充分获取目标场景的多层次特征，结合边缘计算和云服务器进行多模态数据端云协同计算，基于驾驶行为画面获取的注视方向元数据能够提升数据传输效率和视线模型综合性能，校准模式能够让视线模型在驾驶人员的坐姿发生一定程度变动的情况下保持模型预测注视方向的准确度，视点驱动的目标物体分割可在前向路况视野中获取目标物体属性进而给自动驾驶智能模型赋予更多的知识性引导信息，提出了基于多分支网络学习和网络合并策略对视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数等多模态数据进行处理，引导自动驾驶智能模型在训练中更多关注驾驶人员的注视焦点，从而让模型在对复杂场景路况视野进行分析时能够充分关注重点区域，提高模型训练效率，提升模型的场景认知、决策控制和运动规划能力；本发明提出的注视行为知识引导的自动驾驶智能模型训练方法有助于推动发展融合知识驱动和数据驱动的人工智能大模型，具有重要意义和应用价值。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明提供的注视行为知识引导的自动驾驶智能模型训练方法及装置的整体架构示意图；

图2是本发明提供的注视行为知识引导的自动驾驶智能模型训练方法的流程图；

图3是本发明提供的注视行为知识引导的自动驾驶智能模型训练方法中的多分支网络学习与网络合并策略的示意图。

实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如附图1所示，本发明提供了一种注视行为知识引导的自动驾驶智能模型训练方法及装置，所述方法及装置包括：数据采集模块、边缘计算模块和云服务器模块；所述数据采集模块是由车载的光学传感器和速度传感器组成，用于在车辆行驶过程中同步地获取驾驶行为画面、前向路况视野和车辆行驶参数，所述驾驶行为画面是由车载的内景相机模组面向车辆驾驶人员进行拍摄而实现数据采集，所述前向路况视野是由车载的外景相机模组面向车辆前方视野进行拍摄而实现数据采集，所述车辆行驶参数是由车载的行驶传感模组对车辆行驶的实时速度和加速度进行抓取而实现数据采集。

如附图2所示，所述注视行为知识引导的自动驾驶智能模型训练方法包括以下步骤：

优选地，所述视线模型设有校准模式，通过运行校准模式可在车辆驾驶过程中对视线模型进行校准以使视线模型能够在驾驶人员的坐姿发生一定程度变动的情况下保持模型预测注视方向的准确度；所述校准模式通过目标检测模型从前向路况视野画面中检测到特定物体目标而发生周期性触发，所述特定物体目标可以是交通信号灯或者前方车辆的号码牌，校准模式被触发之后通过车载扬声器播放语音提示以提醒驾驶人员盯着语音提示所指定的特定物体目标保持注视一定时长，所述特定物体目标基于目标检测模型从前向路况视野画面中进过分割提取并识别获取特定物体目标的名称和位置；驾驶人员听到语音提示之后在注视特定物体目标的同时连续眨眼两次以引导内景相机模组拍摄驾驶人员正在注视特定物体目标的驾驶行为画面，所述内景相机模组拍摄完毕之后触发语音提示结束校准模式；所述校准模式期间拍摄的驾驶行为画面对应的注视方向元数据和前向路况视野以及基于目标检测模型从前向路况视野中提取得到的特定物体目标的位置数据并行输入到视线模型以用于模型的参数校准处理。

结合具体示例，对前述多分支网络学习和网络合并策略的方法做进一步说明：

如附图3所示，所述多分支网络学习是对视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数分别进行并行式单通道的深度卷积神经网络计算，经过深度卷积神经网络计算以获取每个模态数据对应的特征图；所述网络合并策略是对所述每个模态数据对应的特征图进行融合，并经过进一步地深度卷积神经网络计算而生成基于注视焦点权重分布信息的注意力机制特征模块以在自动驾驶智能模型的训练过程中发挥知识引导作用，从而提升自动驾驶智能模型训练的综合性能。

本发明提出的注视行为知识引导的自动驾驶智能模型训练方法及装置，面向自动驾驶领域中智能决策模型的开发，提供了一种基于驾驶人员注视行为特征的知识引导式模型训练方法；通过车载数据采集模块获取驾驶行为画面、前向路况视野、车辆行驶参数，可见光与红外融合的立体视觉系统能够适应复杂多变的照明环境并充分获取目标场景的多层次特征；结合边缘计算和云服务器进行多模态数据端云协同计算，基于驾驶行为画面获取的注视方向元数据能够提升数据传输效率和视线模型综合性能；周期性在线执行的校准模式能够让视线模型在驾驶人员的坐姿发生一定程度变动的情况下保持模型预测注视方向的准确度；视点驱动的目标物体分割可在前向路况视野中获取目标物体属性，进而给自动驾驶智能模型赋予更多的知识性引导信息；提出了基于多分支网络学习和网络合并策略对视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数等多模态数据进行处理，引导自动驾驶智能模型在训练中更多关注驾驶人员的注视焦点，从而让模型在对复杂场景路况视野进行分析时能够充分关注重点区域，提高模型训练效率，提升模型的场景认知、决策控制和运动规划能力。本发明提出的注视行为知识引导的自动驾驶智能模型训练方法有助于推进实施第三代人工智能，发展融合知识驱动和数据驱动的人工智能大模型，利用知识、数据、算法和算力四个要素，建立起可解释性人工智能理论与方法，发展安全、可信、可靠和可扩展的新一代人工智能技术。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于，所述方法及装置包括：

数据采集模块、边缘计算模块和云服务器模块；

所述数据采集模块是由车载的光学传感器和速度传感器组成，用于在车辆行驶过程中同步地获取驾驶行为画面、前向路况视野和车辆行驶参数，所述驾驶行为画面是由车载的内景相机模组面向车辆驾驶人员进行拍摄而实现数据采集，所述前向路况视野是由车载的外景相机模组面向车辆前方视野进行拍摄而实现数据采集，所述车辆行驶参数是由车载的行驶传感模组对车辆行驶的实时速度和加速度进行抓取而实现数据采集；

所述边缘计算模块和云服务器模块对所述驾驶行为画面、前向路况视野和车辆行驶参数进行端云协同计算，所述边缘计算模块是端云协同计算中的车载终端边缘计算，用于对数据采集模块实时采集的原始图像数据和行驶参数进行数据处理，所述云服务器模块是端云协同计算中的远程云服务器计算，用于接收数据传输、执行数据解压，并且基于视线模型、目标检测模型以及物体分割模型对注视方向元数据、前向路况视野进行处理和计算以获取视点加权掩模、目标物体属性，所述视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数作为多模态数据在进行空间和时间上的对齐之后并行输入到云服务器模块中部署的自动驾驶智能模型参与模型训练；

(1) 车载的数据采集模块获取驾驶行为画面、前向路况视野、车辆行驶参数；

(2) 边缘计算模块对驾驶行为画面进行数据处理得到注视方向元数据，并对前向路况视野和车辆行驶参数进行数据压缩；

(3) 边缘计算模块处理之后的数据基于通信网络向云服务器模块进行数据传输并且实现端云协同计算；

(4) 云服务器模块接收数据并进行数据解压以获取注视方向元数据、前向路况视野、车辆行驶参数；

(5) 云服务器模块的视线模型基于注视方向元数据预测注视方向，并在前向路况视野中计算视点位置映射以获取视点加权掩模；

(6) 在前向路况视野中基于物体分割模型进行视点驱动的目标物体分割以获取目标物体属性；

(7) 在云服务器模块中，视点加权掩模、目标物体属性、前向路况视野、车辆行驶参数作为多模态输入数据并基于多分支网络学习与网络合并策略以用于自动驾驶智能模型的训练。

2.根据权利要求1所述的注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于：

所述数据采集模块中的光学传感器包括车载内景相机模组和车载外景相机模组；

所述内景相机模组是由至少一个可见光相机和至少一个红外相机而组成的可见光与红外融合的立体视觉系统，内景相机模组置于车辆驾驶室主驾驶座前方仪表盘上方平台的左侧或者右侧，内景相机模组的相机镜头朝向车辆驾驶室主驾驶座方位以拍摄驾驶行为画面；

所述外景相机模组是由至少一个可见光相机和至少一个红外相机而组成的可见光与红外融合的立体视觉系统，外景相机模组置于车辆驾驶室中央后视镜后方的右侧，外景相机模组的相机镜头朝向车辆行驶前进方向以拍摄前向路况视野。

3.根据权利要求1所述的注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于：

所述驾驶行为画面通过边缘计算模块的数据处理完成特征初步提取和表征进而得到注视方向元数据，所述注视方向元数据是由表征视线信息的一系列基本特征元素组成的一个数据阵列，所述数据阵列由图像数据和坐标向量数据组成，其中，所述图像数据包括人脸区域图像、眼睛区域图像，所述坐标向量数据包括面部关键特征点坐标、眼睛瞳孔坐标、头部姿态向量；

所述前向路况视野和车辆行驶参数在边缘计算模块进行数据处理和数据压缩。

4.根据权利要求1所述的注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于：

所述注视方向元数据基于云服务器模块中部署的视线模型通过模型预测得到注视方向信息，所述前向路况视野在完成数据解压之后，通过计算所述注视方向信息在前向路况视野中的视点位置映射关系得到包含驾驶人员注视焦点信息的视点加权掩模。

5.根据权利要求1所述的注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于：

所述视线模型设有校准模式，通过运行校准模式可在车辆驾驶过程中对视线模型进行校准以使视线模型能够在驾驶人员的坐姿发生一定程度变动的情况下保持模型预测注视方向的准确度；

所述校准模式通过目标检测模型从前向路况视野画面中检测到特定物体目标而发生周期性触发，校准模式被触发之后通过车载扬声器播放语音提示以提醒驾驶人员盯着语音提示所指定的特定物体目标保持注视一定时长，所述特定物体目标基于目标检测模型从前向路况视野画面中进过分割提取并识别获取特定物体目标的名称和位置，驾驶人员听到语音提示之后在注视特定物体目标的同时连续眨眼两次以引导内景相机模组拍摄驾驶人员正在注视特定物体目标的驾驶行为画面，所述内景相机模组拍摄完毕之后触发语音提示结束校准模式；

所述校准模式期间拍摄的驾驶行为画面对应的注视方向元数据和前向路况视野以及基于目标检测模型从前向路况视野中提取得到的特定物体目标的位置数据并行输入到视线模型以用于模型的参数校准处理。

6.根据权利要求1所述的注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于：

所述前向路况视野在计算视点位置映射之后基于物体分割模型获取目标物体属性，所述目标物体属性是基于驾驶人员在前向路况视野画面中的注视焦点以驱动物体分割模型从画面中分割注视的目标物体并获取目标物体的属性信息。

7.根据权利要求1所述的注视行为知识引导的自动驾驶智能模型训练方法及装置，其特征在于：

所述视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数作为多模态数据基于多分支网络学习和网络合并策略用于自动驾驶智能模型的训练；

所述多分支网络学习对所述视点加权掩模、目标物体属性、前向路况视野和车辆行驶参数分别进行单独通道的深度卷积神经网络计算；

所述网络合并策略通过网络模型加权合并的方法融合多模态数据，其中，视点加权掩模通过网络模型加权合并的方法对前向路况视野画面赋予不同的网络权重，进而通过基于注视焦点权重分布信息的注意力机制以引导自动驾驶智能模型在训练中更多关注驾驶人员的注视焦点区域。