CN115861601A

CN115861601A - 一种多传感器融合感知方法及装置

Info

Publication number: CN115861601A
Application number: CN202211639960.3A
Authority: CN
Inventors: 张新钰; 李骏; 李志伟; 王力; 刘华平; 吴新刚; 黄毅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-28
Anticipated expiration: 2042-12-20
Also published as: CN115861601B

Abstract

本申请提供了一种多传感器融合感知方法及装置，涉及融合感知技术领域，该方法包括：利用Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；将三维体素特征图进行鸟瞰视角映射得到二维特征图；利用候选区域生成网络对二维特征图进行处理，得到点云ROI区域，从点云ROI区域提取出点云ROI特征；对点云数据和RGB图像进行处理得到伪点云图像，从伪点云图像上提取出伪点云ROI特征；利用交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；利用感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果。本申请提高了目标检测和道路分割的精度。

Description

一种多传感器融合感知方法及装置

技术领域

本申请涉及融合感知技术领域，尤其是涉及一种传感器融合感知方法及装置。

背景技术

当前视觉图像数据和激光雷达数据通常采用两种融合方法：

视锥方法：首先在图像数据上使用二维目标检测和语义分割，将感知结果投影到三维空间中，形成视锥范围，再对这个范围内的点云进行三维目标检测和语义分割；

特征融合方法：将点云数据与图像数据进行像素级融合，融合之后的特征进行三维目标检测和语义分割任务。

上述两种融合方法只是简单地将不同模态数据特征进行拼接，这会带来噪声和分辨率不匹配等问题，且无法充分发挥不同模态数据的优势，不同模态数据融合后不仅不会提升精度，反而会降低精度。

此外，当视觉图像来源于不良光照环境下时，会降低三维目标检测和语义分割的精度。

发明内容

有鉴于此，本申请提供了一种传感器融合感知方法及装置，以解决上述技术问题。

第一方面，本申请实施例提供了一种多传感器融合感知方法，包括：

获取目标区域的RGB图像和点云数据；

利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；将三维体素特征图进行鸟瞰视角映射得到二维特征图；利用候选区域生成网络对二维特征图进行处理，得到点云ROI区域，从点云ROI区域提取出点云ROI特征；

对点云数据和RGB图像进行处理得到伪点云图像；在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

利用预先训练完成的感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果。

进一步地，利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码之前还包括：

对点云数据进行体素化处理，得到多个大小为H×W×L的体素块，H、W和L为一个体素块的长、宽和高；

对每个体素块进行采样，得到N个采样点；

计算每个体素块内的N个采样点的三维坐标和反射强度的平均值，得到4个维度的体素块特征向量

为N个采样点的三维坐标的平均值；

为N个采样点的反射强度的平均值；

利用一个全连接层将4个维度的体素块特征向量扩展为d维的特征张量f_voxel。

进一步地，所述Transformer编码器包括依次连接的自注意力模块、BatchNorm层、第一加法器、两个串联的全连接层、第二加法器和线性映射层；自注意力模块包括依次连接的处理单元和softmax激活函数，处理单元包括并联的第一处理分支、第二处理分支和第三处理分支；

利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；包括：

利用第一处理分支对特征张量进行处理，得到矩阵Q：

Q＝W_Q·f_voxel

其中，W_Q为权重矩阵；

利用第二处理分支对特征张量和对应体素块的位置信息P进行处理，得到矩阵K：

K＝W_K·(f_voxel+P)

其中，W_K为权重矩阵；

利用第三处理分支对特征张量和对应体素块的位置信息P进行处理，得到矩阵V：

V＝W_V·(f_voxel+P)

其中，W_V为权重矩阵；

利用softmax激活函数对矩阵Q、矩阵K和矩阵V进行处理，得到注意力特征Att：

其中，d为特征张量f_voxel的维度；

利用BatchNorm层对经过激活函数的注意力特征Att进行处理，得到第一残差；

利用第一加法器对特征张量和第一残差进行加法运算，得到第一中间特征张量；

依次利用两个全连接层对第一中间特征张量进行处理，得到第二残差；

利用利用第二加法器对第一中间特征张量和第二残差进行加法运算，得到第二中间特征张量；

利用线性映射层对经过激活函数的第二中间特征张量进行处理，得到4d通道的三维体素特征图。

进一步地，当所述RGB图像为不良光照环境下采集的RGB图像；所述方法还包括：

获取RGB图像的每个像素的颜色值的红色分量、绿色分量和蓝色分量的最大值，作为光照度估计图的对应像素的像素值；

计算RGB图像的像素k的增强系数R(k)：

R(k)＝L(k)/(T(k)+ε)

其中，ε是一个接近0的常数，L(k)为RGB图像的灰度图的像素k的灰度值，T(k)为光照度估计图的像素k的像素值；

对RGB图像进行伽马矫正处理，使每个像素的颜色值的红色分量为初始红色分量的γ次方，绿色分量为初始绿色分量的γ次方，蓝色分量为初始蓝色分量的γ次方，γ为矫正因子；

依次将每个像素的增强系数分别和对应像素的颜色值的红色分量、绿色分量和蓝色分量相乘，得到光照增强的RGB图像。

进一步地，对点云数据和RGB图像进行处理得到伪点云图像；包括：

通过标定文件将点云数据转换为正视视角下的稀疏深度图D_sparse；

利用深度补全网络对稀疏深度图d_sparse进行处理，生成密集深度图D_dense；

利用密集深度图D_dense将RGB图像转换为伪点云图像，每个伪点云图像的像元包括八个通道数据：(x,y,z,r,g,b,u,v)，其中，(x,y,z)是像元在三维空间中的坐标，(r,g,b)是像元的三个颜色值，(u,v)是像元在相机坐标下的二维坐标。

进一步地，在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；包括：

使用点云ROI区域对伪点云图像进行剪裁操作，得到伪点云ROI区域；

利用PointNet网络对伪点云ROI区域进行基于点的特征提取；

将提取特征后的点进行体素化，得到相应的伪点云ROI特征；

对伪点云ROI特征进行三维稀疏卷积处理，使伪点云ROI特征与点云ROI特征尺度相同。

进一步地，所述交叉注意力融合模型包括：三个并联的第一处理通道、第二处理通道和第三处理通道、第一矩阵乘法器、第二矩阵乘法器和拼接单元；第一处理通道包括：拼接层、第一全连接层和Sigmoid函数；第二处理通道包括：第二全连接层和第一卷积层；第三处理通道包括：第三全连接层和第二卷积层；

利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；包括：

利用第一处理通道的拼接层对点云ROI特征和伪点云ROI特征进行拼接，得到拼接后的特征；利用第一全连接层对拼接后的特征进行处理，得到交叉注意力矩阵；利用sigmoid函数对交叉注意力矩阵进行处理，得到注意力分数S；

利用第二处理通道对点云ROI特征进行处理，得到与注意力分数S相同维度的第一点云ROI特征；

利用第三处理通道对伪点云ROI特征进行处理，得到与注意力分数S相同维度的第一伪点云ROI特征；

利用第一矩阵乘法器对注意力分数S和第一点云ROI特征进行乘法运算，得到第二点云ROI特征；

利用第二矩阵乘法器将注意力分数S和和第一伪点云ROI特征进行乘法运算，得到第二伪点云ROI特征；

利用拼接单元对第二点云ROI特征和第二伪点云ROI特征进行拼接，得到融合后的ROI特征。

进一步地，所述感知模型包括并行的第一处理分支和第二处理分支，所述第一处理分支为预先训练完成的检测器，所述第二处理分支为训练完成的分割头；

利用预先训练完成的感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果，包括：

利用预先训练完成的检测器对融合后的ROI特征进行处理，得到三维目标检测框及目标类别；

利用预先训练完成的分割头对融合后的ROI特征进行处理，得到道路分割结果。

第二方面，本申请实施例提供了一种多传感器融合感知装置，包括：

获取单元，用于同步获取目标区域的RGB图像和点云数据；

第一处理单元，用于利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；将三维体素特征图进行鸟瞰视角映射得到二维特征图；利用候选区域生成网络对二维特征图进行处理，得到点云ROI区域，从点云ROI区域提取出点云ROI特征；

第二处理单元，用于对点云数据和RGB图像进行处理得到伪点云图像；在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

融合单元，用于利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

感知单元，用于利用预先训练完成的感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的方法。

本申请提高了目标检测和道路分割的精度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的多传感器融合感知方法的流程图；

图2为本申请实施例提供的多传感器融合感知装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

自动驾驶作为一种采用先进的通信、计算机、网络和控制技术的系统，通过环境感知使车辆做出安全的决策和控制。环境感知是自动驾驶中的核心技术，通过激光雷达、车载相机等传感器设备采集周边环境信息，并通过深度学习相关技术对车辆、行人、道路可行驶区域等进行精准感知，以达到安全驾驶的目的。

目前，环境感知所采用的技术是基于深度学习的3D目标检测，其主要任务是通过检测算法识别出目标类别和位置信息。根据传感器采集数据的不同，3D目标检测方法包括：基于单目视觉的方法、基于激光雷达的方法和基于多模态融合目标检测方法；道路分割方法包括：基于单目视觉的方法、基于激光雷达点云投影的方法和基于多模态融合道路分割方法。

对于感知效果来说，不同的方法具有不同的优缺点：

对于基于单目视觉的方法来说，仅仅采用了相机所产生的图像数据进行3D检测任务。由于图像仅具有纹理、色彩等信息，但不包含深度信息，特征维度缺失导致无法有效进行特征检测。此外，相机也会受到光照变化、物体遮挡、拍摄角度的影响，导致无法采集到周围完整的信息，基于单目视觉的道路分割方法也很容易受到场景限制，特别是不良光照环境，如夜晚、隧道等。

对于基于激光雷达的方法来说，激光雷达所生成的点云数据包含几何结构、深度等信息，并且不会受到光照条件的干扰。但是激光点云是稀疏的，且距离传感器越远越稀疏，导致算法所学习的特征非常有限，无法精确目标的位置和特征信息。对于道路分割算法，激光雷达点云的投影信息远不能满足精细的分割需求；

对于基于多模态融合目标检测或道路分割方法来说，通常采用图像-激光雷达数据融合的方式进行3D检测任务或道路分割任务。一般来说，只利用单一模态的数据存在各自的弊端，然而，融合算法可以取长补短，有效提升感知精度。

但是目前图像-激光雷达数据融合方法的发展受限于融合方案的不足，只是简单地将不同模态数据特征进行拼接，这会带来噪声和分辨率不匹配等问题，且无法充分发挥不同模态数据的优势，不同模态数据融合后不仅不会提升精度，反而会降低精度。此外，当视觉图像来源于不良光照环境下时，会降低三维目标检测和语义分割的精度。

为解决上述技术问题，本申请提供了一种多传感器融合感知方法，该方法通过获取目标区域的RGB图像和点云数据；利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；将三维体素特征图进行鸟瞰视角映射得到二维特征图；利用候选区域生成网络对二维特征图进行处理，得到点云ROI(Region ofInterest,感兴趣的区域)区域，从点云ROI区域提取出点云ROI特征；对点云数据和RGB图像进行处理得到伪点云图像；在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；利用预先训练完成的感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果；由此提升了三维目标检测和道路分割精度。此外，当RGB图像为在不良光照环境下采集得到的，本申请通过对RGB图像进行光照增强处理，克服了不良光照环境下的RGB图像对三维目标检测和道路分割精度的影响。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请实施提供一种多传感器融合感知方法，包括：

步骤101：获取目标区域的RGB图像和点云数据；

通过RGB相机和激光雷达，采集目标区域的同步的RGB图像数据和激光点云数据，然后利用RGB相机和激光雷达的标定文件将RGB图像和点云数据转换至同一坐标系下。

步骤102：利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；将三维体素特征图进行鸟瞰视角映射得到二维特征图；利用候选区域生成网络对二维特征图进行处理，得到点云ROI区域，从点云ROI区域提取出点云ROI特征；

本实施例中，所述Transformer编码器包括依次连接的自注意力模块、BatchNorm层、第一加法器、两个串联的全连接层、第二加法器和线性映射层；自注意力模块包括依次连接的处理单元和softmax激活函数，处理单元包括并联的三个分支：第一处理分支、第二处理分支和第三处理分支。

对点云数据进行体素化处理，得到多个大小为H×W×L的体素块，H、W和L分别为一个体素块的长、宽和高；

对每个体素块进行采样，得到N个采样点；其中，若实际采样点不足N个，则补充零采样点，使采样点的数量达到N个；

计算每个体素块内的采样点的三维坐标和反射强度的平均值，得到稀疏的4个维度的体素块特征向量

为采样点的三维坐标的平均值；

为采样点的反射强度的平均值；

利用一个全连接层将4个维度的体素块特征向量扩展为16维的特征张量f_voxel；

利用第一处理分支对16维的特征张量f_voxel进行处理，得到矩阵Q：

Q＝W_Q·f_voxel

其中，W_Q为权重矩阵；

利用第二处理分支对16维的特征张量f_voxel和每个体素块的位置信息P进行处理，得到矩阵K：

K＝W_K·(f_voxel+P)

其中，W_K为权重矩阵；

利用第三处理分支对16维的特征张量f_voxel和每个体素块的位置信息P进行处理，得到矩阵V：

V＝W_V·(f_voxel+P)

其中，W_V为权重矩阵；

其中，d为特征张量f_voxel的维度，d＝16；

利用第一加法器对16维的特征张量f_voxel和第一残差进行加法运算，得到第一中间特征张量；

利用两个全连接层对第一中间特征张量进行处理，得到第二残差；

利用线性映射层对经过激活函数的第二中间特征张量进行处理，得到64通道的三维体素特征图。

然后将64通道的三维体素特征图进行鸟瞰视角映射得到256通道的二维特征图。

本实施例中，从点云ROI区域提取出点云ROI特征，包括：将点云ROI区域进行体素化并进行下采样操作，得到点云ROI特征。

步骤103：对点云数据和RGB图像进行处理得到伪点云图像；在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

作为一种可能的实施方式，当所述RGB图像为不良光照环境下采集的RGB图像；所述方法还包括：对RGB图像进行光照增强处理，得到光照增强的RGB图像；具体包括：

计算RGB图像的像素k的增强系数R(k)：

R(k)＝L(k)/(T(k)+ε)

本实施例中，该步骤包括：

利用深度补全网络对稀疏深度图D_sparse进行处理，生成密集深度图D_dense：

利用密集深度图D_dense将增强后的RGB图像转换为伪点云图像，每个伪点云图像的像元包括八个通道数据：(x,y,z,r,g,b,u,v)，其中，(x,y,z)是像元在三维空间中的坐，(r,g,b)是像元的三个颜色值，(u,v)是像元在相机坐标下的二维坐标；

利用PointNet网络对伪点云ROI区域进行基于点的特征提取；

将提取特征后的点进行体素化，得到相应的伪点云ROI特征CP_roi；

对伪点云ROI特征CP_roi进行三维稀疏卷积处理，使伪点云ROI特征CP_roi与点云ROI特征P_roi尺度相同。

步骤104：利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

本实施例中，所述交叉注意力融合模型包括：三个并联的第一处理通道、第二处理通道和第三处理通道、第一矩阵乘法器、第二矩阵乘法器和拼接单元；第一处理通道包括：拼接层、第一全连接层和Sigmoid函数；第二处理通道包括：第二全连接层和第一卷积层；第三处理通道包括：第三全连接层和第二卷积层。

该步骤具体包括：

步骤105：利用预先训练完成的感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果。

其中，所述感知模型包括并行的第一处理分支和第二处理分支，第一处理分支为预先训练完成的检测器，第二处理分支为训练完成的分割头；该步骤包括：

此外，所述方法还包括，对Transformer编码器、交叉注意力融合模型和感知模型进行联合训练的步骤。在训练过程中，为防止单一数据源主导感知结果，增加了2个辅助损失函数：点云损失函数和伪点云损失函数。

基于上述实施例，本申请实施例提供了一种多传感器融合感知装置，参阅图2所示，本申请实施例提供的多传感器融合感知装置200至少包括：

获取单元201，用于同步获取目标区域的RGB图像和点云数据；

第一处理单元202，用于利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码，得到三维体素特征图；将三维体素特征图进行鸟瞰视角映射得到二维特征图；利用候选区域生成网络对二维特征图进行处理，得到点云ROI区域，从点云ROI区域提取出点云ROI特征；

第二处理单元203，用于对点云数据和RGB图像进行处理得到伪点云图像；在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

融合单元204，用于利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

感知单元205，用于利用预先训练完成的感知模型对融合后的ROI特征进行处理，得到三维目标检测框、目标类别以及道路分割结果。

需要说明的是，本申请实施例提供的多传感器融合感知装置200解决技术问题的原理与本申请实施例提供的多传感器融合感知方法相似，因此，本申请实施例提供的多传感器融合感知装置200的实施，可以参见本申请实施例提供的多传感器融合感知方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的多传感器融合感知方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的多传感器融合感知方法。

本申请实施例提供的多传感器融合感知方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的多传感器融合感知方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种多传感器融合感知方法，其特征在于，包括：

获取目标区域的RGB图像和点云数据；

2.根据权利要求1所述的方法，其特征在于，利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码之前还包括：

对每个体素块进行采样，得到N个采样点；

为N个采样点的三维坐标的平均值；

为N个采样点的反射强度的平均值；

3.根据权利要求2所述的方法，其特征在于，所述Transformer编码器包括依次连接的自注意力模块、BatchNorm层、第一加法器、两个串联的全连接层、第二加法器和线性映射层；自注意力模块包括依次连接的处理单元和softmax激活函数，处理单元包括并联的第一处理分支、第二处理分支和第三处理分支；

利用第一处理分支对特征张量进行处理，得到矩阵Q：

Q＝W_Q·f_voxel

其中，W_Q为权重矩阵；

K＝W_K·(f_voxel+P)

其中，W_K为权重矩阵；

V＝W_V·(f_voxel+P)

其中，W_V为权重矩阵；

其中，d为特征张量f_voxrl的维度；

4.根据权利要求1所述的方法，其特征在于，当所述RGB图像为不良光照环境下采集的RGB图像；所述方法还包括：

计算RGB图像的像素k的增强系数R(k)：

R(k)＝L(k)/(T(k)+ε)

5.根据权利要求3或4所述的方法，其特征在于，对点云数据和RGB图像进行处理得到伪点云图像；包括：

通过标定文件将点云数据转换为正视视角下的稀疏深度图Q_sparse；

6.根据权利要求5所述的方法，其特征在于，在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；包括：

利用PointNet网络对伪点云ROI区域进行基于点的特征提取；

将提取特征后的点进行体素化，得到相应的伪点云ROI特征；

7.根据权利要求6所述的方法，其特征在于，所述交叉注意力融合模型包括：三个并联的第一处理通道、第二处理通道和第三处理通道、第一矩阵乘法器、第二矩阵乘法器和拼接单元；第一处理通道包括：拼接层、第一全连接层和Sigmoid函数；第二处理通道包括：第二全连接层和第一卷积层；第三处理通道包括：第三全连接层和第二卷积层；

8.根据权利要求7所述的方法，其特征在于，所述感知模型包括并行的第一处理分支和第二处理分支，所述第一处理分支为预先训练完成的检测器，所述第二处理分支为训练完成的分割头；

9.一种多传感器融合感知装置，其特征在于，包括：

获取单元，用于同步获取目标区域的RGB图像和点云数据；

10.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的方法。