CN116958922A

CN116958922A - 一种不良光照场景下的智能驾驶可解释多模态感知方法

Info

Publication number: CN116958922A
Application number: CN202310770675.3A
Authority: CN
Inventors: 张新钰; 沈思甜; 李骏; 张世焱; 国纪龙; 吴凡
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-10-27

Abstract

本申请提供一种不良光照场景下的智能驾驶可解释多模态感知方法，涉及智能驾驶技术领域，所述方法包括：获取目标场景的RGB图像以及3D点云数据；利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；利用预先训练完成的第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像；利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；将融合特征与压缩后的3D点云数据的第一点云特征进行相加，得到第二点云特征；利用三维检测头对第二点云特征进行处理，得到目标检测结果。本申请提高了车辆遮挡以及光线骤变等特殊场景下的目标检测的精度。

Description

一种不良光照场景下的智能驾驶可解释多模态感知方法

技术领域

本申请涉及智能驾驶技术领域，尤其是涉及一种不良光照场景下的智能驾驶可解释多模态感知方法。

背景技术

目前，应用于智能驾驶的单模态感知算法往往受限于传感器的性能，无法满足不良光照场景下智能驾驶车辆的感知需求。现有的解决方案主要是采用多模态融合技术，利用不同模态的互补特征补充单模态在不良光照等场景下的特征损失，从而克服光照不足对单一传感器带来的影响。当前的多模态融合技术的缺陷在于：

(1)传统的融合方法通常采用结果融合，难以克服检测结果中目标数量或类别差异下的有效匹配，从而导致目标的漏检和误检，为感知安全带来风险。

(2)现有的多模态感知模型通常是基于深度学习算法，在部分感知任务中表现优异。但这类感知模型往往通过实验结果驱动设计，通过拟合大量数据来优化参数，存在可解释性差和感知功能底层机理难以阐释的问题，存在特定场景过拟合的风险，无法保证车辆遮挡以及光线骤变等特殊场景下的正确感知。

(3)传统深度学习网络难以评估检测结果的可信度，在适应复杂动态环境下的感知安全方面存在严重不足。并且，绝大多数多模态融合模型将感知结果的准确率作为其主要的评估指标，无法保证模型在同外界环境实时感知交互过程的可靠性，难以评估模型的泛化能力与感知过程的可信度。

发明内容

有鉴于此，本申请提供了一种不良光照场景下的智能驾驶可解释多模态感知方法，以解决上述技术问题。

第一方面，本申请实施例提供一种不良光照场景下的多模态感知方法，包括：

获取目标场景的RGB图像以及3D点云数据；

利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；利用预先训练完成的第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像；

利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；

将融合特征与压缩后的3D点云数据的第一点云特征进行相加，得到第二点云特征；

利用三维检测头对第二点云特征进行处理，得到目标检测结果。

进一步地，所述第一信源编码模型包括并行的两个处理分支和一个特征金字塔网络，每个处理分支均与特征金字塔网络连接；并行的两个处理分支包括：第一处理分支和第二处理分支；第一处理分支和第二处理分支均包括连接的第一Block和轴向注意力机制模块，两个相邻的第一Block之间设置一个空洞卷积模块；第一Block由多组卷积层与归一化层堆叠而成；空洞卷积模块由8个膨胀率不同的卷积层连接而成；

利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；包括：

利用第一处理分支的第一Block对3D点云数据进行处理，得到特征图，将特征图分别输入第一处理分支的轴向注意力机制模块和空洞卷积模块；

利用第一处理分支的轴向注意力机制模块对输入的特征图进行处理，得到第一注意力特征图；

利用空洞卷积模块对输入的特征图进行处理，得到与输入的特征图尺度不同的局部特征图；

利用第二处理分支对局部特征图进行处理，得到第二注意力特征图；

利用特征金字塔网络对第一注意力特征图和第二注意力特征图进行融合处理，得到压缩后的3D点云数据。

进一步地，所述第二信源编码模型包括：四个并行的处理分支和一个特征金字塔网络，每个处理分支均与特征金字塔网络连接；每个处理分支均包括连接的第二Block和轴向注意力机制模块，每两个相邻的第二Block之间设置一个空洞卷积模块；第二Block由多组卷积层与归一化层堆叠而成；空洞卷积模块由8个膨胀率不同的卷积层连接而成。

进一步地，所述基于多头注意力机制的多模态融合模型包括：点云特征提取模块、图像特征提取模块和融合模块；所述点云特征提取模块包括卷积层和池化层；所述图像特征提取模块包括卷积层和池化层；所述融合模块包括：第一归一化层、第二归一化层、第一拼接单元、多头注意力处理单元、第一提取分支、第二提取分支、第二拼接单元和全连接层，其中，第一归一化层与点云特征提取模块连接，第二归一化层与图像特征提取模块连接，第一拼接单元分别连接第一归一化层和第二归一化层；多头注意力处理单元分别连接第一归一化层和第一拼接单元；第一提取分支和第二提取分支均设置在多头注意力处理单元和第二拼接单元之间；

利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；包括：

利用点云特征提取模块对压缩后的3D点云数据进行处理，得到第一点云特征；利用图像特征提取模块对压缩后的RGB图像进行处理，得到图像特征；

利用第一归一化层对第一点云特征进行处理，得到归一化的第一点云特征；利用第二归一化层对图像特征进行处理，得到归一化的图像特征；

利用第一拼接单元对归一化的第一点云特征和归一化的图像特征进行拼接得到第一拼接特征，对归一化的图像特征和归一化的第一点云特征进行拼接得到第二拼接特征；

利用多头注意力处理单元对归一化的第一点云特征、第一拼接特征和第二拼接特征进行处理，得到第一注意力特征矩阵A₁和第二注意力特征矩阵B₁；

利用第一提取分支对第一注意力特征矩阵A₁进行处理，得到叠加不同层次的语义信息的第一注意力特征图；利用第二提取分支对第二注意力特征矩阵B₁进行处理，得到叠加不同层次的语义信息的第二注意力特征图；

利用第二拼接单元对叠加不同层次的语义信息的第一注意力特征图和叠加不同层次的语义信息的第二注意力特征图进行处理，得到局部融合特征图；

利用全连接层对局部融合特征图进行处理，得到最终的融合特征。

进一步地，利用多头注意力处理单元对归一化的第一点云特征、第一拼接特征和第二拼接特征进行处理，得到第一注意力特征矩阵A₁和第二注意力特征矩阵A₂；包括：

将归一化的第一点云特征矩阵和权重矩阵K₀和权重矩阵V₀分别相乘，得到矩阵K和矩阵V；

将第一拼接特征矩阵和权重矩阵Q₀相乘，得到矩阵Q₁；将第二拼接特征矩阵和权重矩阵Q₀相乘，得到矩阵Q₂；权重矩阵K₀、权重矩阵V₀和权重矩阵Q₀均为通过训练得到参数；

计算第一注意力特征矩阵A₁：

其中，D为通道数；Q₁的大小为：2M×D；K和V的大小为M×D；

计算第二注意力特征矩阵B₁：

进一步地，所述第一提取分支包括依次连接的第三归一化层、第一多层感知机和第一加法器；

利用第一提取分支对第一注意力特征矩阵A₁进行处理，得到叠加不同层次的语义信息的第一注意力特征图；包括：

利用第三归一化层对第一注意力特征矩阵A₁进行处理，得到归一化的第一注意力特征图A₂；

利用第一多层感知机对归一化的第一注意力特征图A₂进行处理，得到与第一注意力特征图A₂的语义信息不同的特征图A₃；

利用第一加法器对第一注意力特征矩阵A₁对应的特征图和特征图A₃进行相加，得到叠加不同层次的语义信息的第一注意力特征图。

进一步地，所述第二提取分支包括依次连接的第四归一化层、第二多层感知机和第二加法器；

利用第二提取分支对第二注意力特征矩阵B₁进行处理，得到叠加不同层次的语义信息的第二注意力特征图；包括：

利用第四归一化层对第二注意力特征矩阵B₁进行处理，得到归一化的第二注意力特征图B₂；

利用第二多层感知机对归一化的第二注意力特征图B₂进行处理，得到与第二注意力特征图B₂的语义信息不同的特征图B₃；

利用第二加法器对第二注意力特征矩阵B₁对应的特征图和特征图B₃进行相加，得到叠加不同层次的语义信息的第二注意力特征图。

进一步地，所述方法还包括：

获取多个训练样本组合，所述训练样本组合包括多个时空匹配的相机图像样本和3D点云数据样本，所述3D点云数据样本上标注多个目标的真实框；

利用第一信源编码模型对3D点云数据样本进行压缩处理，得到压缩后的3D点云数据样本；利用第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像样本；

利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据样本和压缩后的RGB图像样本进行融合处理，得到融合特征样本；

将融合特征样本与压缩后的3D点云数据样本的第一点云特征进行相加，得到第二点云特征样本；

利用三维检测头对第二点云特征样本进行处理，得到目标的预测框；

基于目标的预测框和目标的真实框，计算第一损失函数；

分别计算四个第一Block和两个第二Block的信息熵变，由此计算信息熵变的方差，作为第二损失函数；

计算第一损失函数和第二损失函数的加权和，作为总损失函数值；

基于总损失函数值，更新第一信源编码模型、第二信源编码模型和基于多头注意力机制的多模态融合模型的模型参数。

进一步地，分别计算四个第一Block和两个第二Block的信息熵变，由此计算信息熵变的方差，作为第二损失函数，包括：

四个第一Block和两个第二Block的信息熵变分别为：ΔH₁、ΔH₂、ΔH₃、ΔH₄、ΔH₅和ΔH₆，则平均信息熵变ΔH为：

则信息熵变的方差AEV为：

将AEV值作为第二损失函数。

第二方面，本申请实施例提供一种不良光照场景下的智能驾驶可解释多模态感知装置，包括：

获取单元，用于获取目标场景的RGB图像以及3D点云数据；

编码单元，用于利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；利用预先训练完成的第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像；

融合单元，用于利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；

处理单元，用于将融合特征与压缩后的3D点云数据的第一点云特征进行相加，得到第二点云特征；

目标检测单元，用于利用三维检测头对第二点云特征进行处理，得到目标检测结果。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

第四方面，本申请实施例一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现本申请实施例的方法。

本申请提高了车辆遮挡以及光线骤变等特殊场景下的目标检测的精度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知方法的流程图；

图2为本申请实施例提供的第一信源编码模型的示意图；

图3为本申请实施例提供的第二信源编码模型的示意图；

图4为本申请实施例提供的轴向注意力机制模块的示意图；

图5为本申请实施例提供的融合模块的示意图；

图6为本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知装置的功能结构图；

图7为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。当前的多模态融合技术的缺陷在于：通常采用结果融合，难以克服检测结果中目标数量或类别差异下的有效匹配，从而导致目标的漏检和误检，为感知安全带来风险。

为此，本申请一种不良光照场景下的智能驾驶可解释多模态感知方法，该方法包括：获取目标场景的RGB图像以及3D点云数据；利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；利用预先训练完成的第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像；利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；将融合特征与压缩后的3D点云数据的第一点云特征进行相加，得到第二点云特征；利用三维检测头对第二点云特征进行处理，得到目标检测结果。该方法基于特征融合的多模态融合方法，利用多头注意力融合模块融合不同模态之间特征信息的相互补充与矫正，使模型即使面临车辆遮挡以及光线骤变等特殊场景，依然能够保证感知安全与准确；利用信息论中基于信源信道联合编码的理论对感知模型中的特征提取和特征融合理论进行解释,在增强复杂场景下感知能力的同时保证模型的可解释性。

此外，本申请还构建的评价指标平均熵变稳定性(Average Entropy Variation，AEV)对模型与外界的感知交互过程进行评估，对模型感知交互过程中的稳定性进行了定量评价，丰富了感知模型的评估方法，增强了模型评估检测的可信度。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请提供一种不良光照场景下的智能驾驶可解释多模态感知方法，包括如下步骤：

步骤101：获取目标场景的RGB图像以及3D点云数据；

步骤102：利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；利用预先训练完成的第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像；

如图2所示，所述第一信源编码模型的主干结构为SECOND网络，包括并行的两个处理分支和一个特征金字塔网络(Fpn：Feature Pyramid Network)，每个处理分支均与特征金字塔网络连接；并行的两个处理分支包括：第一处理分支和第二处理分支；第一处理分支和第二处理分支均包括连接的第一Block和轴向注意力机制模块(AAM)，两个相邻的第一Block之间设置一个空洞卷积模块(DCM)；第一Block由多组卷积层与归一化层堆叠而成；空洞卷积模块由8个膨胀率不同的卷积层连接而成；

如图3所示，所述第二信源编码模型采用ResNet50网络作为骨干网络，包括：四个并行的处理分支和一个特征金字塔网络(Fpn)，每个处理分支均与特征金字塔网络连接；每个处理分支均包括连接的第二Block和轴向注意力机制模块(AAM)，每两个相邻的第二Block之间设置一个空洞卷积模块(DCM)；第二Block由多组卷积层与归一化层堆叠而成；空洞卷积模块由8个膨胀率不同的卷积层连接而成。

如图4所示，所述轴向注意力机制模块包括依次连接的第一卷积层(Conv)、列注意力处理单元、第一拼接单元、行注意力处理单元、第二拼接单元、第二卷积层(Conv)和加法器；所述加法器用于对第二卷积层输出的特征图和初始特征图进行相加。

由点云数据压缩部分和图像数据压缩部分构成完整的信源编码模块，从而对输入的相互匹配的图像数据以及点云数据进行压缩。

步骤103：利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；

所述基于多头注意力机制的多模态融合模型包括：点云特征提取模块、图像特征提取模块和融合模块；所述点云特征提取模块包括卷积层和池化层；所述图像特征提取模块包括卷积层和池化层；如图5所示，所述融合模块包括：第一归一化层(LN)、第二归一化层(LN)、第一拼接单元(concate)、多头注意力处理单元(Multi-head Attention)、第一提取分支、第二提取分支、第二拼接单元(concate)和全连接层(FC)，其中，第一归一化层与点云特征提取模块连接，第二归一化层与图像特征提取模块连接，第一拼接单元分别连接第一归一化层和第二归一化层；多头注意力处理单元分别连接第一归一化层和第一拼接单元；第一提取分支和第二提取分支均设置在多头注意力处理单元和第二拼接单元之间；

其中，利用多头注意力处理单元对归一化的第一点云特征、第一拼接特征和第二拼接特征进行处理，得到第一注意力特征矩阵A₁和第二注意力特征矩阵A₂；包括：

计算第一注意力特征矩阵A₁：

其中，D为通道数；Q₁的大小为：2M×D；K和V的大小为M×D；

计算第二注意力特征矩阵B₁：

本实施例中，所述第一提取分支包括依次连接的第三归一化层(LN)、第一多层感知机(MLP)和第一加法器；利用第一提取分支对第一注意力特征矩阵A₁进行处理，得到叠加不同层次的语义信息的第一注意力特征图；包括：

本实施例中，所述第二提取分支包括依次连接的第四归一化层、第二多层感知机和第二加法器；

步骤104：将融合特征与压缩后的3D点云数据的第一点云特征进行相加，得到第二点云特征；

将融合特征矩阵与雷达数据特征矩阵相加，使融合特征作为“噪声”补充到雷达数据中，通过“噪声”引入对点云数据进行补充矫正，从而能够完成高效的特征提取与数据传输。

步骤105：利用三维检测头对第二点云特征进行处理，得到目标检测结果。

此外，本申请在模型的训练过程中，构建一种新的评价指标——平均信息熵变(Average Entropy Variation，AEV)，用AEV来实时反映模型与外界感知交互过程中的稳定性。

对信息熵进行建模,从而更好的用熵值变化表示模型稳定性。通过计算单位网络层输入和输出对应维度的平均分布信息熵H，建立对应的基准信息熵H₁和H₂；计算输入输出概率分布信息熵h₁和h₂在平均分布上增加的信息量，得到与基准之间的相对熵h₁-H₁和h₂-H₂；整理相对熵的变化式，得到类似于交叉熵的熵变指标：

ΔH＝(h₂-h₁)-(H₂-H₁)

使用KNN来计算概率密度函数未知，且样本值有限情况下的信息熵。使用n个样本近似整个样本空间，将每个样本点被扩展成一个d维超球体，球体的半径是样本点和最近的样本点之间的距离。每个样本点的离散概率估计为：

p(x_i)＝[(n-1)·r_d(x_i)^d]·V_d]^-1

其中n为样本个数，r_d(x_i)为样本x_i与其最近样本点之间的d维欧氏距离，V_d为d维空间中单位球面的体积。因此将随机变量X的熵的估计值为：

其中ψ是D_i-gamma函数，ψ(1)＝-γ,ψ(n)～log(n-1)，r_d,k(x_i)是样本x_i与其最近的第k个样本点之间的d维欧氏距离。

所述方法还包括：

基于目标的预测框和目标的真实框，计算第一损失函数；

计算第一损失函数和第二损失函数的加权和，作为总损失函数值；基于总损失函数值，更新第一信源编码模型、第二信源编码模型和基于多头注意力机制的多模态融合模型的模型参数。

其中，考虑到第一Block和第二Block的网络结构相似，分别计算四个第一Block和两个第二Block的信息熵变，由此计算信息熵变的方差，作为第二损失函数，包括：

两个第一Block和四个第二Block的信息熵变分别为：ΔH₁、ΔH₂、ΔH₃、ΔH₄、ΔH₅和ΔH₆，则平均信息熵变ΔH为：

则信息熵变的方差AEV为：

将AEV值作为第二损失函数。

通过AEV的数值来反映模型的相似网络层在信息压缩过程中熵变的稳定程度，可以提高模型训练的速度。

基于上述实施例，本申请实施例提供了一种不良光照场景下的智能驾驶可解释多模态感知装置，参阅图6所示，本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知装置200至少包括：

获取单元201，用于获取目标场景的RGB图像以及3D点云数据；

编码单元202，用于利用预先训练完成的第一信源编码模型对3D点云数据进行压缩处理，得到压缩后的3D点云数据；利用预先训练完成的第二信源编码模型对RGB图像进行压缩，得到压缩后的RGB图像；

融合单元203，用于利用预先训练完成的基于多头注意力机制的多模态融合模型对压缩后的3D点云数据和压缩后的RGB图像进行融合处理，得到融合特征；

处理单元204，用于将融合特征与压缩后的3D点云数据的第一点云特征进行相加，得到第二点云特征；

目标检测单元205，用于利用三维检测头对第二点云特征进行处理，得到目标检测结果。

需要说明的是，本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知装置200解决技术问题的原理与本申请实施例提供的方法相似，因此，本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知装置200的实施可以参见本申请实施例提供的方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图7所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图7中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图7所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知方法。

本申请实施例提供的方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的不良光照场景下的智能驾驶可解释多模态感知方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种不良光照场景下的智能驾驶可解释多模态感知方法，其特征在于，包括：

获取目标场景的RGB图像以及3D点云数据；

2.根据权利要求1所述的方法，其特征在于，所述第一信源编码模型包括并行的两个处理分支和一个特征金字塔网络，每个处理分支均与特征金字塔网络连接；并行的两个处理分支包括：第一处理分支和第二处理分支；第一处理分支和第二处理分支均包括连接的第一Block和轴向注意力机制模块，两个相邻的第一Block之间设置一个空洞卷积模块；第一Block由多组卷积层与归一化层堆叠而成；空洞卷积模块由8个膨胀率不同的卷积层连接而成；

3.根据权利要求2所述的方法，其特征在于，所述第二信源编码模型包括：四个并行的处理分支和一个特征金字塔网络，每个处理分支均与特征金字塔网络连接；每个处理分支均包括连接的第二Block和轴向注意力机制模块，每两个相邻的第二Block之间设置一个空洞卷积模块；第二Block由多组卷积层与归一化层堆叠而成；空洞卷积模块由8个膨胀率不同的卷积层连接而成。

4.根据权利要求3所述的方法，其特征在于，所述基于多头注意力机制的多模态融合模型包括：点云特征提取模块、图像特征提取模块和融合模块；所述点云特征提取模块包括卷积层和池化层；所述图像特征提取模块包括卷积层和池化层；所述融合模块包括：第一归一化层、第二归一化层、第一拼接单元、多头注意力处理单元、第一提取分支、第二提取分支、第二拼接单元和全连接层，其中，第一归一化层与点云特征提取模块连接，第二归一化层与图像特征提取模块连接，第一拼接单元分别连接第一归一化层和第二归一化层；多头注意力处理单元分别连接第一归一化层和第一拼接单元；第一提取分支和第二提取分支均设置在多头注意力处理单元和第二拼接单元之间；

5.根据权利要求4所述的方法，其特征在于，利用多头注意力处理单元对归一化的第一点云特征、第一拼接特征和第二拼接特征进行处理，得到第一注意力特征矩阵A₁和第二注意力特征矩阵A₂；包括：

计算第一注意力特征矩阵A₁：

其中，D为通道数；Q₁的大小为：2M×D；K和V的大小为M×D；

计算第二注意力特征矩阵B₁：

6.根据权利要求5所述的方法，其特征在于，所述第一提取分支包括依次连接的第三归一化层、第一多层感知机和第一加法器；

7.根据权利要求6所述的方法，其特征在于，所述第二提取分支包括依次连接的第四归一化层、第二多层感知机和第二加法器；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于目标的预测框和目标的真实框，计算第一损失函数；

9.根据权利要求7所述的方法，其特征在于，分别计算四个第一Block和两个第二Block的信息熵变，由此计算信息熵变的方差，作为第二损失函数，包括：

则信息熵变的方差AEV为：

将AEV值作为第二损失函数。

10.一种不良光照场景下的智能驾驶可解释多模态感知装置，其特征在于，包括：

获取单元，用于获取目标场景的RGB图像以及3D点云数据；