CN115019043B

CN115019043B - 基于交叉注意力机制的图像点云融合三维目标检测方法

Info

Publication number: CN115019043B
Application number: CN202210655005.2A
Authority: CN
Inventors: 胡斌杰; 廖清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2024-07-02
Anticipated expiration: 2042-06-10
Also published as: CN115019043A

Abstract

本发明涉及一种基于交叉注意力机制的图像点云融合三维目标检测方法及系统，属于三维目标检测领域。方法包括：对图像进行目标检测及分割处理，得到实例掩码；根据点云图像空间投影关系得到每一个实例掩码内的点云集合；使用DBSCAN聚类算法对每一个点云集合内的点云进行聚类，为前景点集合中的所有点云逐点拼接实例分割结果向量，将经图像特征渲染的点云所占的整个三维空间划分成多个柱体并进行特征拆分和重组，引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，多个柱体的融合特征构成伪图像特征；使用RPN网络提取并整合伪图像特征的多尺度特征，根据高分辨率特征图生成三维目标检测结果；从而提高了融合精度，实现了更优的检测效果。

Description

基于交叉注意力机制的图像点云融合三维目标检测方法

技术领域

本发明涉及基于计算机视觉的三维目标检测技术领域，特别是涉及一种基于交叉注意力机制的图像点云融合三维目标检测方法。

背景技术

智能交通是解决道路拥堵、降低交通事故、提高通勤效率的主流技术。而自动驾驶技术是智能交通的突破口。典型的自动驾驶车辆系统架构总体可分为环境感知、决策规划和运动控制三大模块，三部分呈现级联式的架构。因此，车辆具备精确且实时的环境感知能力对下游模块的正确决策与精准控制至关重要。三维目标检测作为感知中的重要任务，要求定位车身周围的障碍物，估计出尺寸以及朝向，并对其正确分类。

激光雷达和摄像头作为自动驾驶车辆搭载的常用传感器，是感知模块的重要信息来源。激光雷达传感器获取到的点云数据中，每个点包含空间坐标(x,y,z)和某些属性(如反射强度)，很好地表征了物体的三维结构。而摄像头能获取周围环境高分辨率的颜色、纹理信息。两类传感器的优缺互补特性十分明显，因此，激光雷达与摄像头的融合方法吸引了国内外大量研究学者的目光。

现有的基于激光雷达和摄像头融合的检测模型大致可以分为三类：(1)二维驱动的三维目标检测方法，例如斯坦福大学提出的F-PointNet模型；该类方法首先在图像上进行二维目标检测，然后将二维检测框投影至三维，得到对应的视锥，最后利用视锥内的点云完成三维目标检测任务；(2)基于多视图融合的方法，例如清华大学提出的MV3D以及滑铁卢大学提出的AVOD模型；该类方法将三维区域分别投影到图像和点云的多视图上，裁剪相应区域并将所有视图融合，完成三维目标检测任务；(3)基于逐点投影的方法，例如nuTonomy公司提出的PointPainting和上海交通大学提出的PointAugmenting；该类方法将点云投影至图像平面，获取相应位置的图像特征，这样通过空间变换关系构建起的一一映射使得点云和图像的融合更加细致，能有效提高融合精度。然而，现有的基于逐点投影的方法目前还存在亟待解决的2D图像到3D点云空间的投影模糊性问题和误渲染问题。

发明内容

为解决现有图像点云逐点投影融合方法的不足，本发明提出一种基于交叉注意力机制的图像点云融合三维目标检测方法，通过DBSCAN聚类算法改进点云分割结果，并引入交叉注意力机制聚合点云领域内的图像特征，以此解决2D图像到3D点云空间的投影模糊性问题和误渲染问题，提高融合精度，实现更优的检测效果。

为实现上述目的，本发明提供了如下方案：

一种基于交叉注意力机制的图像点云融合三维目标检测方法，包括：

获取相机采集的二维图像并对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码；

根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合；

使用DBSCAN聚类算法对每一个点云集合内的点云进行聚类，分别得到前景点集合和背景点集合；

为所述前景点集合中的所有点云逐点拼接实例分割结果向量，得到经图像特征渲染的点云；

将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并进行特征拆分和重组，得到柱体内每个点的位置特征和图像特征；

引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征；

使用RPN网络提取并整合所述伪图像特征的多尺度特征，生成高分辨率特征图；

根据所述高分辨率特征图生成三维目标检测结果；所述三维目标检测结果包括目标边界框的类别及位置参数。

可选地，所述对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码，具体包括：

使用CenterNet检测器得到所述二维图像内的所有目标检测框；

使用MaskRCNN中的分割模块对每个目标检测框进行像素级分类，得到多个二维图像实例掩码。

可选地，所述根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合，具体包括：

根据事先标定好的激光雷达外参和相机内外参，得到点云-图像的坐标变换矩阵；

根据所述坐标变换矩阵将点云投影到二维图像中，获得每个点云在二维图像中的二维像素坐标；

根据所述二维像素坐标筛选出位于每一个实例掩码内的所有点云，构成所述实例掩码内的点云集合。

可选地，所述为所述前景点集合中的所有点云逐点拼接实例分割结果向量，得到经图像特征渲染的点云，具体包括：

对所述前景点集合中的所有点云，沿特征通道逐点拼接实例分割结果向量，得到拼接后的实例分割结果向量；所述实例分割结果向量中包含实例分割的类别和置信度；对所述背景点集合中的所有点云，采用相同维度的全一向量进行拼接；经拼接后得到经图像特征渲染的点云。

可选地，所述将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并对点云特征进行拆分重组，得到柱体内每个点的位置特征和图像特征，具体包括：

将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并根据点云的三维坐标进行空间归类，将点云归类到相应的柱体内；

对于所述多个柱体中超过点数T的柱体，随机筛选出T个点云，对于不足点数T的柱体，用零填充，实现不规则点云的结构化处理；

将所述经图像特征渲染的点云进行特征拆分及重组，得到柱体内每个点的位置特征和图像特征；所述位置特征包括点云的三维坐标和划分柱体时引入的相对柱体中心的坐标；所述图像特征包括点云的三维坐标和所述拼接后的实例分割结果向量。

可选地，所述引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征，具体包括：

将柱体内每个点的位置特征和图像特征输入PointNet网络，提取出高维位置特征和高维图像特征；

根据所述高维位置特征生成查询项矩阵，根据所述高维图像特征生成关键项矩阵和价值项矩阵；

将所述查询项矩阵与所述关键项矩阵做相关运算，并对特征通道数做特征缩放，通过softmax实现归一化，得到点云-图像的注意力矩阵；

将所述注意力矩阵作用于所述价值项矩阵，并经过一层全连接层，得到加权聚合后的图像特征矩阵；

将所述加权聚合后的图像特征矩阵拼接到点云的高维位置特征中，实现对点云的图像特征重整，得到每个点的多模态特征；

将每个柱体内T个点的多模态特征聚合成每个柱体的融合特征，多个柱体的融合特征构成鸟瞰图视角下的二维伪图像特征。

可选地，所述根据所述高分辨率特征图生成三维目标检测结果，具体包括：

使用六个CenterHead检测头分别从所述高分辨率特征图中得到六个大类的检测结果；其中每个大类的检测结果包括表征目标中心点位置及种类的热图、目标中心点的水平偏移量、目标中心点的高度、目标的尺寸和朝向；

根据所述六个大类的检测结果整合出目标边界框的类别及位置参数作为三维目标检测结果。

一种基于交叉注意力机制的图像点云融合三维目标检测系统，包括：

图像实例分割模块，用于获取相机采集的二维图像并对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码；

点云投影模块，用于根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合；

点云聚类模块，用于使用DBSCAN聚类算法对每一个点云集合内的点云进行聚类，分别得到前景点集合和背景点集合；

图像点云渲染模块，用于为所述前景点集合中的所有点云逐点拼接实例分割结果向量，得到经图像特征渲染的点云；

点云结构化及特征拆分模块，用于将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并进行特征拆分和重组，得到柱体内每个点的位置特征和图像特征；

点云图像交叉注意力融合模块，用于引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征；

二维特征提取模块，用于使用RPN网络提取并整合所述伪图像特征的多尺度特征，生成高分辨率特征图；

检测头预测模块，用于根据所述高分辨率特征图生成三维目标检测结果；所述三维目标检测结果包括目标边界框的类别及位置参数。

可选地，所述图像实例分割模块具体包括：

目标检测单元，用于使用CenterNet检测器得到所述二维图像内的所有目标检测框；

语义分割单元，用于使用MaskRCNN中的分割模块对每个目标检测框进行像素级分类，得到多个二维图像实例掩码。

可选地，所述点云投影模块具体包括：

坐标变换矩阵获取单元，用于根据事先标定好的激光雷达外参和相机内外参，得到点云-图像的坐标变换矩阵；

点云投影单元，用于根据所述坐标变换矩阵将点云投影到二维图像中，获得每个点云在二维图像中的二维像素坐标；

点云集合筛选单元，用于根据所述二维像素坐标筛选出位于每一个实例掩码内的所有点云，构成所述实例掩码内的点云集合。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于交叉注意力机制的图像点云融合三维目标检测方法及系统，所述方法包括：获取相机采集的二维图像并对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码；根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合；使用DBSCAN聚类算法对每一个点云集合内的点云进行聚类，分别得到前景点集合和背景点集合；为所述前景点集合中的所有点云逐点拼接实例分割结果向量，得到经图像特征渲染的点云；将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并进行特征拆分和重组，得到柱体内每个点的位置特征和图像特征；引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征；使用RPN网络提取并整合所述伪图像特征的多尺度特征，生成高分辨率特征图；根据所述高分辨率特征图生成三维目标检测结果；所述三维目标检测结果包括目标边界框的类别及位置参数。本发明通过DBSCAN聚类算法改进点云分割结果，并引入交叉注意力机制聚合点云的局部图像特征，从而解决了2D图像到3D点云空间的投影模糊性问题和误渲染问题，提高了融合精度，实现了更优的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于交叉注意力机制的图像点云融合三维目标检测方法的流程图；

图2为本发明一种基于交叉注意力机制的图像点云融合三维目标检测方法的整体框架示意图；

图3为本发明提供的点云聚类及渲染过程示意图；

图4为本发明提供的点云图像交叉注意力融合机制的过程示意图；

图5为本发明提供的自定义PointNet网络的结构示意图；

图6为本发明提供的RPN网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提出一种基于交叉注意力机制的图像点云融合三维目标检测方法及系统，以解决图像和点云逐点特征融合中的误匹配问题，实现图像和点云自适应的精细逐点特征融合。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种基于交叉注意力机制的图像点云融合三维目标检测方法的流程图，图2为本发明一种基于交叉注意力机制的图像点云融合三维目标检测方法的整体框架示意图。参见图1和图2，本发明一种基于交叉注意力机制的图像点云融合三维目标检测方法包括：

步骤1：获取相机采集的二维图像并对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码。

激光雷达和相机作为自动驾驶车辆搭载的常用传感器，是感知模块的重要信息来源。激光雷达传感器获取到的点云数据中，每个点包含空间坐标和某些属性(如反射强度)，很好地表征了物体的三维结构。而相机能够获取周围环境高分辨率的颜色、纹理信息。两类传感器的优缺互补特性十分明显。本发明步骤1主要用于对相机采集的二维图像(即2D图像，下文也简称图像)进行目标检测及分割任务，得到实例分割掩码。

具体地，所述步骤1对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码，具体包括：

步骤1.1：使用CenterNet检测器得到所述二维图像内的所有目标检测框；

具体地，将二维图像数据通过CenterNet检测器，得到图像内的所有目标检测框B＝{B₁，B₂，…，B_n}；其中n为检测框数量。

步骤1.2：使用MaskRCNN中的分割模块对每个目标检测框进行像素级分类，得到多个二维图像实例掩码。

具体地，使用MaskRCNN中的分割模块，实现对每个检测框的像素级分类，得到多个二维图像实例掩码D＝{D₁，D₂，…，D_n}，n为掩码数量，与检测框数量相等。

步骤2：根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合。

通过事先标定好的激光雷达外参和相机内外参，得到点云-图像的坐标变换矩阵，并通过该坐标变换矩阵，将点云投影到图像中，获得每个点在图像中的像素坐标。然后对于每一个分割实例，维护位于其掩码内的点云集合。

所述步骤2根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合，具体包括：

步骤2.1：根据事先标定好的激光雷达外参和相机内外参，得到点云-图像的坐标变换矩阵k T_l→c。该点云-图像的坐标变换矩阵k T_l→c包括相机内参矩阵k和激光雷达到相机的外参变换矩阵T_l→c。

相机内参矩阵k可表示为：

f_x，f_y，c_x，c_y皆为相机的内参，其中，dx和dy分别代表单个像素在x和y方向的物理尺寸，(c_x，c_y)为图像平面的中心像素坐标。

激光雷达到相机的外参变换矩阵T_l→c可表示为：

其中激光雷达到相机的外参变换矩阵T_l→c包括旋转矩阵R_3×3和平移向量T_3×1。

步骤2.2：根据所述坐标变换矩阵将点云投影到二维图像中，获得每个点云在二维图像中的二维像素坐标；

根据空间投影变换矩阵(即坐标变换矩阵kT_l→c)将点云投影到图像中，获得每个点的像素坐标，公式如下：

其中，(P_x，P_y，P_z)为点云在激光雷达坐标系下的三维位置坐标(简称三维坐标)，(P_u，P_v)为点云投影到图像平面的二维像素坐标，为点云在相机坐标系下的深度值，T_l→c为激光雷达到相机的外参变换矩阵，k为相机内参矩阵。

步骤2.3：根据所述二维像素坐标筛选出位于每一个实例掩码内的所有点云，构成所述实例掩码内的点云集合。

对于多个二维图像实例掩码D＝{D₁，D₂，…，D_n}中的每一个分割实例D_i(i＝1，2，...n)，根据步骤2.2得到的点云像素坐标(P_u，P_v)筛选出位于掩码D_i内的所有点云，构成该实例掩码D_i的点云集合P＝{p₁，p₂，…，p_c}，其中c为点云集合中的点云数量。掩码D_i是一张与图像同尺寸且每个像素点取值为0或1的特征图，在实例轮廓范围内的那些像素点为1，其余为0；根据步骤2.2点云投影到图像的像素坐标(P_u，P_v)，去掩码特征图中判断该像素点的值是0或是1，如果是1就代表位于该实例掩码内。

步骤3：使用DBSCAN聚类算法对每一个点云集合内的点云进行聚类，分别得到前景点集合和背景点集合。

图3为本发明提供的点云聚类及渲染过程示意图。参见图3，对于每一个实例掩码D_i的点云集合P＝{p₁，p₂，…，p_c}，当满足点数大于预设值(本发明中设为20)时，对点云执行DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法，分别得到前景点集合P_f＝{p_f1，p_f2，…，p_fm}和背景点集合P_b＝{p_b1，p_b2，…，p_bl}。m和l分别为前景点集合和背景点集合中的点云数量。对于点数小于等于预设值的点云集合不作处理。

本发明根据点云图像空间投影关系得到每一个分割实例中的点云集合，并对其进行聚类，分别得到前景点集合和背景点集合，再将图像分割结果沿特征维度逐点拼接到前景点点云中，可以实现图像点云的细致融合。

步骤4：为所述前景点集合中的所有点云逐点拼接实例分割结果向量，得到经图像特征渲染的点云。

对所述前景点集合P_f＝{p_f1，p_f2，…，p_fm}中的所有点云，沿特征通道逐点拼接实例分割结果向量(其中包含实例分割的类别和置信度)，得到拼接后的实例分割结果向量。

所述实例分割结果向量img_feature包括实例分割的类别和置信度，是一个1×11维的向量。点云中的每一个点投影到图像坐标平面都对应一个像素点，取该像素点的分割结果向量拼接到点云的原始特征上，点云中每个点的原始特征是其三维坐标(P_x，P_y，P_z)，拼接后的结果(即拼接后的实例分割结果向量)表示为(P_x，P_y，P_z，img_feature)，其中img_feature是1×11维的实例分割结果向量。拼接后的点云不仅具有了点云原始特征，还具有图像特征(由分割结果向量体现)，构成了1×14维的特征。

对所述背景点集合P_b＝{p_b1，p_b2，…，p_bl}中的所有点云，采用相同维度的全一向量进行拼接，即用1×11维且值全为1的向量进行拼接，以此区分其为背景。

对多个二维图像实例掩码D＝{D₁，D₂，…，D_n}中的每一个分割实例D_i执行步骤3和步骤4的操作，得到经图像特征渲染的点云数据，其中每个点的特征可表示为(P_x，P_y，P_z，img_feature)。

步骤5：将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并进行特征拆分和重组，得到柱体内每个点的位置特征和图像特征。

所述步骤5将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并进行特征拆分和重组，得到柱体内每个点的位置特征和图像特征，具体包括：

步骤5.1：将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并根据点云的三维坐标进行空间归类，将点云归类到相应的柱体内。

筛选一定空间范围的点云数据，在鸟瞰图视角下将整个空间划分为多个柱体，划分的水平分辨率为D×W。根据三维坐标对点云进行柱体归类，将点云归类到相应的柱体内。

步骤5.2：对于所述多个柱体中超过点数T的柱体，随机筛选出T个点云，对于不足点数T的柱体，用零填充，实现不规则点云的结构化处理；

对于超过点数T的柱体，随机筛选出T个点，对于不足点数T的柱体，用零填充。以上操作实现了不规则点云的结构化处理。

步骤5.3：将所述经图像特征渲染的点云进行特征拆分及重组，得到柱体内每个点的位置特征和图像特征；所述位置特征包括点云的三维坐标和划分柱体时引入的相对柱体中心的坐标；所述图像特征包括点云的三维坐标和所述拼接后的实例分割结果向量。

对于每一个柱体的T个点，拆分其位置特征f_loc和图像特征f_col。其中位置特征f_loc是原始坐标(P_x，P_y，P_z)以及划分柱体时引入的相对柱体中心的坐标(P_lx，P_ly，P_lz)，图像特征f_col是原始坐标(P_x，P_y，P_z)和步骤4拼接的实例分割结果向量img_feature。

步骤6：引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征。

图4为本发明提供的点云图像交叉注意力融合机制的过程示意图，图4中C_loc，C′_loc为位置特征的特征通道数，在实验中分别设置为10，32。C_col，C′_col为图像特征的特征通道数，在实验中分别设置为15，32。C_q，C_k，C_v分别为查询项、关键项以及价值项的特征通道数，在实验中分别设置为16，16，32。C_out为融合特征的通道数，其值为64。

参见图4，所述步骤6引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征，具体包括：

步骤6.1：将柱体内每个点的位置特征和图像特征输入PointNet网络，提取出高维位置特征和高维图像特征；

图5为本发明提供的自定义PointNet网络的结构示意图，图中C1、C2、C3为特征通道数，FC代表全连接层，N为点云数量。参见图5，本发明采用的PointNet网络包括一层参数共享的全连接层，紧跟一个批归一化层和ReLU激活函数，然后使用最大池化聚合T个点的特征，并将聚合特征拷贝T份，分别拼接到各个点的特征通道，之后再经过一个参数共享的全连接层，得到各个点的特征。

本发明使用两个自定义的PointNet网络分别作用于位置特征f_loc和图像特征f_col，提取其局部特征，得到高维度的位置特征f_loc和图像特征f_col。

步骤6.2：根据所述高维位置特征生成查询项矩阵，根据所述高维图像特征生成关键项矩阵和价值项矩阵。

将一层全连接层作用于高维位置特征f′_loc，得到查询矩阵(也称查询项矩阵)Q。将两个全连接层同时作用于图像特征f′_col，分别得到关键字矩阵(也称关键项矩阵)K和价值矩阵(也称价值项矩阵)V。

步骤6.3：将所述查询项矩阵Q与所述关键项矩阵K做相关运算，并对特征通道数d_q做特征缩放，通过softmax函数实现归一化，得到点云-图像的注意力矩阵A：

其中，K^T表示矩阵K的转置，softmax()表示softmax函数。

步骤6.4：将所述注意力矩阵A作用于所述价值项矩阵V，并经过一层全连接层FC，得到加权聚合后的图像特征矩阵V_out：

V_out＝FC(A·V) (5)

注意力矩阵A的含义为每个点的图像特征受柱体内其他点的图像特征的影响程度，用注意力权值矩阵A对价值项矩阵V进行加权整合，实现对柱体中每个点的图像特征重整。

步骤6.5：将所述加权聚合后的图像特征矩阵拼接到点云的高维位置特征中，实现对点云的图像特征重整，得到每个点的多模态特征。

沿特征通道维度逐点拼接点云高维位置特征f′_loc和加权聚合后的图像特征矩阵V_out，得到每个点的多模态特征(f’_loc，V_out)。

步骤6.6：将每个柱体内T个点的多模态特征聚合成每个柱体的融合特征，多个柱体的融合特征构成鸟瞰图视角下的二维伪图像特征。

将PointNet网络作用于拼接后的多模态特征(f′_loc，v_out)，经过PointNet网络实现两类特征的深度融合。经过PointNet网络的特征提取后，柱体内T个点的特征最终会聚合成一个维度为1×64的特征向量，作为该柱体的特征，即通过聚合柱体内T个点的特征，最终得到表征该柱体的1×64维度的特征向量。

对每一个柱体执行步骤6.1至步骤6.6后，得到鸟瞰图视角下尺寸为(D，W，64)的伪图像特征。由于步骤5.1中在鸟瞰图视角下将整个空间划分为多个柱体，划分的水平分辨率为D×W，每个柱体是1×64维特征向量，因此整个伪图像特征尺寸就是D×W×64。

本发明将加权聚合后的矩阵V_out沿特征通道拼接到点云位置特征f_loc后，通过PointNet逐步融合点云位置和图像特征，最终得到每个柱体的融合特征，将整帧点云从鸟瞰图视角压缩成了伪图像。本发明利用点云图像交叉注意力融合机制聚合单点邻域内所有点的图像特征，实现了对误渲染点的自适应图像特征修正。

步骤7：使用RPN网络提取并整合所述伪图像特征的多尺度特征，生成高分辨率特征图。

使用RPN网络提取并整合伪图像特征的多尺度特征，所述RPN网络的输入为步骤6得到的尺寸为(D,W,64)的伪图像特征，输出为尺寸为(D/4,W/4,384)的高分辨率特征图。

图6为本发明提供的RPN网络的结构示意图，图中CBL表示由一层卷积Conv、一层批归一化层BN、一层ReLu激活层串联组成的模块，Deconv代表反卷积操作，Contact表示沿特征通道维度进行特征拼接。参见图6，本发明采用的RPN网络包含3个卷积特征提取模块和3个采样层。3个卷积特征提取模块为串联形式，逐步提取输入特征，输出特征图大小分别为原始输入的1/2，1/4，1/8倍。3个采样层分别作用于3张输出特征图，将其采样到同一分辨率，且特征通道数都为128。最后将其沿特征通道维度拼接，最终得到尺寸为(D/4,W/4,384)的输出特征图(即高分辨率特征图)。

步骤8：根据所述高分辨率特征图生成三维目标检测结果；所述三维目标检测结果包括目标边界框的类别及位置参数。

使用RPN结构提取多尺度的融合特征后，使用CenterHead检测头，分别预测出表征目标中心点位置和种类的热图、目标中心点的偏移量、目标的尺寸和朝向并最终回归检测参数。

所述步骤8根据所述高分辨率特征图生成三维目标检测结果，具体包括：

步骤8.1：使用六个CenterHead检测头分别从所述高分辨率特征图中得到六个大类的检测结果；其中每个大类的检测结果包括表征目标中心点位置及种类的热图、目标中心点的水平偏移量、目标中心点的高度、目标的尺寸和朝向；

使用六个CenterHead检测头，分别从融合了多尺度特征的高分辨率特征图中得到六个大类的检测结果，每个大类的检测结果包括表征目标中心点位置及种类的热图(D/4,W/4,C)、目标中心点的水平偏移量(D/4,W/4,2)、目标中心点的高度(D/4,W/4,1)、目标的尺寸(D/4,W/4,3)和朝向(D/4,W/4,2)。把每个大类的检测结果都添加到检测结果列表中，构成最终的检测结果。

CenterHead检测头是CenterHead模型中使用的检测头，虽然一个检测头也能完成对十类障碍物的三维目标检测结果的预测(包括分类和回归)，但是本发明为了提升检测效果，先对nuScense数据集标注的10种障碍物(car、truck、construction_vehicle、bus、trailer、barrier、motorcycle、bicycle、pedestrian、traffic_cone)根据尺寸划分成6大类(分别表示为Head_0～Head_5)，如下表1所示，然后使用了6个检测头分别对6个大类检测，使每个检测头能专注于对某种尺寸的障碍物的检测。

表1障碍物检测头分类表

步骤8.2：根据所述六个大类的检测结果整合出目标边界框的类别及位置参数作为三维目标检测结果。

最终由以上六个大类的检测结果整合出目标边界框的类别及位置参数(x,y,z,w,l,h,θ)，其中，(x,y,z)为目标中心点的三维坐标，(w,l,h)为目标的长宽高，θ为目标的yaw角(航向角)。

本发明提出的一种基于交叉注意力机制的图像点云融合三维目标检测方法，其整体算法可看作一个基于交叉注意力机制的图像点云融合三维目标检测模型，所述基于交叉注意力机制的图像点云融合三维目标检测模型采用公开数据集nuScense进行训练和测试。为了实现更好的检测效果，对于十类障碍物，根据目标尺寸共归为六个大类，分类详情见表1。初始化六个检测头分别对这六个大类进行预测。

所述基于交叉注意力机制的图像点云融合三维目标检测模型，其损失函数定义为分类损失和回归损失之和：

L_total＝λ₁L_cls+λ₂L_reg (6)

其中，L_cls为分类损失，L_reg为回归损失，λ₁和λ₂代表两类损失的平衡系数。分类损失L_cls作用于预测输出的热图，针对正负样本不平衡问题，使用FocalLoss：

其中，代表网络对于第i个样本的预测结果，y_i代表第i个样本的真实值，γ代表衰减系数，N为样本数量。回归损失L_reg使用L1损失，用于计算正样本的回归参数与真实值之间的误差：

其中，b∈(x，y，z，w，l，h，θ)表示一个样本，代表网络对样本的回归预测结果，b_gt代表样本的真实值，N_pos为正样本的数量。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于交叉注意力机制的图像点云融合三维目标检测方法，实现了图像和点云细致的逐点特征融合。针对2D图像到3D点云空间的投影模糊性问题，采用DBSCAN聚类算法分割点云的前景和背景。为进一步解决图像特征到点云空间的误渲染问题，通过设计一种点云与图像的交叉注意力机制，自适应地聚合点云邻域内的图像特征，与原点云特征进行逐点拼接及特征整合，最终实现了更高的融合精度，达到了更优的三维目标检测效果。

下面采用实验验证本发明方法的技术效果。

本次使用公开数据集nuScense进行实验。nuScense数据集使用两辆传感器配置相同的电动汽车进行采集，车身配备6个相机、1个32线束的激光雷达，具备360°的视野感知能力，采集地点为波士顿和新加坡，数据场景覆盖了城市、住宅区、郊区、工业区各个场景，也涵盖了白天、黑夜、晴天、雨天、多云等不同时段不同天气状况。本发明在多传感器时空配准上的处理为，时间同步方面，对于每一帧点云，搜索其最邻近时间戳的6个相机数据，构成一组数据。空间配准方面，使用数据集标定好的配准参数，考虑到点云和图像在时间上并非严格对齐，因此对于传感器的不同时间戳加入自车运动补偿，得到每组数据中点云到6帧图像的投影变换矩阵。此外，考虑到点云的稀疏性，使用车辆的自车运动补偿集成10帧。基于以上操作，共生成训练数据集28130帧，测试数据集6019帧。

本发明模型训练使用adam优化器，初始学习率设置为0.0001，使用4张RTX3090训练，每张卡的batchsize设置为4，共训练24个epoch，模型得到较好收敛。

模型评估方面，使用nuScense数据集提出的mAP和NDS指标进行评估，为充分验证本发明方法的优良性能，将其与基线算法及其他代表性检测模型(PointPillars、PointPainting、Centerpoint、MVP)进行对比，实验对比结果如表2所示。

表2本发明模型与本领域现有模型性能评估表

方法/模型名称	mAP(％)	NDS(％)
			PointPillars	30.5	45.3
PointPainting	46.4	59.2
			Centerpoint	50.3	60.2
MVP	62.8	66.2
			本发明方法(模型)	64.1	69.1

表2给出了本发明提出的模型与本领域其他代表性模型的实验结果对比，mAP和NDS是两个衡量指标。从表2数据可以看出，本发明所提出模型的mAP和NDS指标均高于本领域其他代表性模型，具有可行性和有效性。

本发明所提出方法模型在图像与点云融合过程中引入交叉注意力机制，自适应地聚合点云邻域内的图像特征，解决了逐点特征融合方法中图像特征到点云空间的误渲染问题，最终实现了更高的融合精度，达到了更优的三维目标检测效果。

基于本发明提供的方法，本发明还提供一种基于交叉注意力机制的图像点云融合三维目标检测系统，所述系统包括：

其中，所述图像实例分割模块具体包括：

所述点云投影模块具体包括：

所述系统包括依次连接的图像实例分割模块、点云投影模块、点云聚类模块、图像点云渲染模块、点云结构化及特征拆分模块、点云图像交叉注意力融合模块、二维特征提取模块及检测头预测模块。针对2D图像到3D点云空间的投影模糊性问题，在点云聚类及图像点云渲染模块中采用DBSCAN聚类算法分割点云为前景和背景，仅对前景点进行图像分割结果的渲染。此外，为进一步解决图像特征到点云空间的误渲染问题，在点云图像交叉注意力融合模块中设计了一种交叉注意力机制，自适应地聚合点云邻域内的图像特征，与原点云特征进行逐点拼接及特征整合，最终实现了更高的融合精度，达到了更优的三维目标检测效果。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于交叉注意力机制的图像点云融合三维目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述二维图像进行目标检测及分割处理，得到多个二维图像实例掩码，具体包括：

使用CenterNet检测器得到所述二维图像内的所有目标检测框；

3.根据权利要求2所述的方法，其特征在于，所述根据点云图像空间投影关系得到所述多个二维图像实例掩码中每一个实例掩码内的点云集合，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述为所述前景点集合中的所有点云逐点拼接实例分割结果向量，得到经图像特征渲染的点云，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述经图像特征渲染的点云所占的整个三维空间划分成多个柱体，并进行特征拆分和重组，得到柱体内每个点的位置特征和图像特征，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述引入交叉注意力机制聚合柱体内每个点的位置特征和图像特征，进而得到每个柱体的融合特征，多个柱体的融合特征构成伪图像特征，具体包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述高分辨率特征图生成三维目标检测结果，具体包括：

8.一种基于交叉注意力机制的图像点云融合三维目标检测系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，所述图像实例分割模块具体包括：

10.根据权利要求9所述的系统，其特征在于，所述点云投影模块具体包括：