CN116664856A

CN116664856A - 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质

Info

Publication number: CN116664856A
Application number: CN202310694347.XA
Authority: CN
Inventors: 李兴通; 薛俊; 刘仪婷; 杨易堃; 洪泽; 钱星铭; 肖昊; 陶重犇
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-08-29

Abstract

本发明提供了一种基于点云‑图像多交叉混合的三维目标检测方法、系统及存储介质，包括如下步骤：步骤一：分别对图像和原始点云提取特征，通过坐标细化模块将原始点位置编码与图像特征相结合，将采样点迭代地向边界框移动，增强图像与点云间的耦合度；步骤二：在体素鸟瞰特征提取过程中，将体素内的区域细粒度信息集成到全局特征中，用于补充Transformer缺乏局部信息，获得了更广感受野的鸟瞰特征图。本发明的优势：本发明融合了激光雷达和摄像头两种传感器的优势，实现自动驾驶领域中的3D目标检测的技术，能够对车辆、行人、骑行的人等目标进行准确的识别和定位，能够应用在实际的场景中。

Description

基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质。

背景技术

3D目标检测是计算机视觉领域中一种重要的任务，它旨在从三维空间结构中检测目标的位置、尺寸、类等属性。为了弥补单一的相机和激光雷达的各自的缺点，多模态3D目标检测技术应运而生。主要是利用多个不同媒介的信息来检测和定位三维空间中的物体。多模态3D目标检测技术更好地检测复杂的场景中的物体，比如在遮挡、反射、复杂背景等情况下，更好地检测出目标物体。尽管多模态3D目标检测技术取得了一定的进展，但由于传感器的本质特性，激光雷达和相机检测到的物体信息之间存在较大的差异，这就导致了模型的训练数据不平衡，从而影响了模型的有效性。同时，由于数据的维度不同，数据处理方式也大不相同，从而导致了特征差异，影响了多模态数据间的耦合性。最后，目前先进的多模态Transformer方法主要是进行全局融合，即在整个场景中融合图像特征和点云特征。这种做法缺乏细粒度的区域级信息，无法充分探索全局上下文信息，导致远距离小目标难以捕捉。

发明内容

本发明提供了一种基于点云-图像多交叉混合的三维目标检测方法，包括如下步骤：

步骤一：分别对图像和原始点云提取特征，通过坐标细化模块将原始点位置编码与图像特征相结合，将采样点迭代地向边界框移动，增强图像与点云间的耦合度；

步骤二：在体素鸟瞰特征提取过程中，将体素内的区域细粒度信息集成到全局特征中，用于补充Transformer缺乏局部信息，获得了更广感受野的鸟瞰特征图；

步骤三：基于图像特征、鸟瞰特征和点级特征通过多交叉的Transformer融合成一个混合表示，最后采用区域提案网络和分类回归学习网络实现3D目标检测。

本发明还提供了一种基于点云-图像多交叉混合的三维目标检测系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述三维目标检测方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的三维目标检测方法的步骤

本发明的有益效果是：本发明融合了激光雷达和摄像头两种传感器的优势，实现自动驾驶领域中的3D目标检测的技术，能够对车辆、行人、骑行的人等目标进行准确的识别和定位，能够应用在实际的场景中。

附图说明

图1是基于点云-图像多交叉混合的三维目标检测方法的框架图；

图2是图像自注意模块图；

图3点云坐标细化模块图；

图4是双流特征提取网络图；

图5是多交叉融合Transformer模块图。

具体实施方式

本发明公开了一种基于点云-图像多交叉混合的三维目标检测方法(PIMFormer)，减少多模态信息融合的目标检测在降维过程中，局部信息和全局信息的不匹配的问题，提高3D目标检测的定位精度。

本发明适用于用于自动驾驶的多模态三维目标检测。行驶车辆采用多传感器采集目标数据，迭代地将来自不同模态数据有效融合，提高目标检测的精度。

本发明将图像特征、鸟瞰特征和点级特征，通过多模态Transformer来有效地融合，提高3D目标检测的定位精度。

如图1至5所示，本发明公开了一种基于点云-图像多交叉混合的三维目标检测方法，具体步骤如下：

步骤一：分别对图像和原始点云提取特征，设计了一个坐标细化模块将原始点位置编码与图像特征相结合，将采样点迭代地向边界框移动，增强图像与点云间的耦合度，解决偏移导致的匹配问题。

步骤1包括：

步骤1：基于视觉Transformer设计图像自注意模块。本发明采用修改过的ResNet作为2D骨干网络，将I∈R^H×W×3的图像作为输入，其中H×W是原始图像的分辨率，图像的RGB通道数为3。通过骨干网络生成大小为的特征图F_I。本发明图像自注意模块由自注意(SA)和前馈神经网络(FFN)两个子编码器层组成。每个子层由采用残差连接，然后进行归一化(LN)处理。首先，为了进一步采用Transformer编码处理2D图像，本发明将图像特征/>调整为一系列大小为的2D特征块F_IB∈R^N×D，其中P²是每个图像特征块的分辨率，故特征块的数量为/>也是Transformer的输入序列长度。具体而言，将输入图像特征/>变换为询问Q_I、键K_I和值V_I：Q_I＝F_IBW^Q，K_I＝F_IBW^K，V_I＝F_IBW^V，其中/> 和/>为线性投影矩阵。再利用softmax函数对相关值进行归一化，从而得到注意力权重。最后通过点积计算，得到不同标记之间的相似度的到自注意加权值。因此，自注意加权值得到：/>随后，将得到的自注意加权值输入FFN中执行逐点操作。本发明采用多层感知器(MLP)作为FFN，因此得到FFN(x)＝MLP(x)＝σ((xw₁+b₁)w₂+b₂)，其中利用/>作为第一层的权重，将x投影到维度K。/>为第二层的权值。b₁∈R^K和/>是偏差，并且σ(·)为非线性激活。综上，每个编码器的输出表示为/>最后将变换后的向量特征块F′_IB再次重塑为二维特征图F_I，以便后续的多交叉融合。

步骤2：采用点云坐标细化提取特征。本发明引入了双流网络来获取点云特征弥补图像对目标深度信息的缺失。首先对原始的点云提取点云特征。给定输入点云P＝{p₁，p₂，...，p_N}，为了采样更好地复盖整个点云，使用最远点抽样(FPS)来选择点的子集使得/>是相对于其他同点集/>总距离最远的点。然后采用球查询寻找中心点/>周围k个邻近点构造局部区域集S_i。以这种方式，获得与目标相关联的特征。再对P_s领域内的点进行聚类，得到的每个局部特征再进行卷积和池化操作。所获得的多分辨率特征被用作中心点的局部特征。最后，通过PointNet将局部区域模式编码为特征向量/>其中/>和μ均为MLP网络。同时，为了建立了三维空间与图像特征的位置相关性，本发明将三维位置编码器引入特征提取网络，目的是通过将二维图像特征/>与三维位置信息相关联来获得三维特征因此，3D位置编码器表述为其中，θ(·)是位置编码函数中的位置编码(PE)部分所示。具体而言，给定二维特征F_I和三维坐标p_i，首先将p_i送入多层感知(MLP)网络，并将其转换为三维位置嵌入(PE)。然后，对二维特征F_I进行1×1卷积层变换，并加入三维PE形成三维位置感知特征/>最后，分别将三维位置特征/>和原始点云特征/>进行了合并为其中，/>为链接操作。

步骤二：在体素鸟瞰特征提取过程中，采用一种双流特征提取网络。将体素内的区域细粒度信息集成到全局特征中，用于补充Transformer缺乏局部信息，获得了更广感受野的鸟瞰特征图。

步骤二包括：

步骤A1：局部Transformer探索体素内部点的邻域关系。首先将W×H×D的点云空间延X、Y、Z轴划分为均匀分布的体素网格，其中每个体素大小为V_W×V_H×V_D。由于点云的稀疏性，每个体素中的点数可能会有所不同。为了减少学习偏差，对每个体素随机采样点相同的数量N个点，若体素具有太少的点数据，则采用零填充。将每个体素内最靠近中心的点作为一个质心集合其中N为体素的个数。将体素/>内的点并馈送到基于自关注的局部结构中，用于体素内部信息聚合。给定输入/>输出的F_L可得到：其中“⊙”是Hadamard积，j是体素/>内的采样点p_j索引。特征线性转换函数β为产生能与自适应权重向量α(c_i，p_j)聚合的特征向量β(p_j)。ρ是softmax函数。注意力权重的函数α计算权重c_i和p_j之间的权重，本发明将函数α分解如下：其中关系函数δ输出融合特征c_i和p_j的单个特征向量，本发明采用的是点积方法，/>和ψ是特征线性投影。映射函数γ为具有两个线性层和一个Relu非线性的MLP。

步骤A2：全局Transformer关注体素整体上下文关系。尽管局部层对长程依赖关系进行了探索，但局部转换层对点云进行局部处理。本发明还额外使用了一个全局转换层提供整体的上下文信息，它具有与局部转换层相似的转换结构，但以所有体素F_L作为输入，而不是局部子集由局部和全局转换器层生成的特征被级联以集成局部和全局上下文。输出的体素F_V可得到：/>最后采用子流形稀疏卷积提取特征，采用空间重构的方法将体素特征F_V向下采样转化为鸟瞰(BEV)特征F_B，并且馈送入多交叉融合模块。同时，基于F_B生成高质量的三维预选框。简而言之，沿Z轴的三维特征进行叠加，并对得到大小为/>的F_B进行评估，生成预选框并在后续进行优化。

步骤三：基于图像特征、鸟瞰特征和点级特征通过多交叉Transformer融合成一个混合表示，最后采用区域提案网络和分类回归学习网络实现3D目标检测。

步骤三包括：

步骤B1：类似于图像自注意模块的数据处理方式，分别通过点级特征投影的方式，得到与点级特征坐标P相对应的图像特征块坐标P_I和鸟瞰特征块坐标P_B，投影可得：其中，T_LiDAR→cam和T_LiDAR→bev分别为从LiDAR的坐标到相机和鸟瞰的变换矩阵，C_rect和R_rect分别是相机的校准矩阵和校正旋转。

在获得了F_p相对应的F_I和F_B后，类似于图像自注意，本发明将输入点级特征F_p、F_I和F_B变换为询问Q_*、键K_*和值V_*：其中，/>和为线性投影矩阵。本发明为了Transformer能够自适应地学习不同模态间权重来进行互补增强，因此，本发明对图像、点级和鸟瞰特征的问题矩阵进行交叉融合，得到新的融合查询/>然后，再将融合查询与另外一种模态的键K现结合，获得一种多模态的多交叉融合权重。例如：/>与K_B结合。再利用归一化函数的到新的权重得分：通过点积计算得到新的图像、点级和鸟瞰特征最后，将具有多融合的跨模态交互的特征聚合为新的特征其中/>代表连接。

步骤B2：本发明首先通过体素鸟瞰图中一组预测边界框B＝{b_k}，其中每个边界框b＝(u，v，d，w，l，h，θ)由中心位置(u，v，d)、边界框大小(w，l，h)和偏航旋转角度θ组成。本发明应用CenterPoint来预测指定类的热图、目标大小、细化位置和旋转角度。

综上本发明融合了激光雷达和摄像头两种传感器的优势，实现自动驾驶领域中的3D目标检测的技术，能够对车辆、行人、骑行的人等目标进行准确的识别和定位，能够应用在实际的场景中。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于点云-图像多交叉混合的三维目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的三维目标检测方法，其特征在于，所述步骤一包括如下步骤：

步骤1，基于视觉Transformer设计图像自注意模块：采用修改过的ResNet作为2D骨干网络，将I的图像作为输入；通过骨干网络生成特征图F_I；图像自注意模块由自注意和前馈神经网络两个子编码器层组成；每个子层由采用残差连接，然后进行归一化处理；将图像特征F_I调整为一系列大小为的2D特征块F_IB，特征块的数量为N，也是Transformer的输入序列长度；

步骤2，采用点云坐标细化提取特征：首先对原始的点云提取点云特征，给定输入点云P，使用最远点抽样来选择点的子集P_s，使得是相对于其他同点集/>总距离最远的点；然后采用球查询寻找中心点/>周围k个邻近点构造局部区域集S_i，获得与目标相关联的特征；再对P_s领域内的点进行聚类，得到的每个局部特征再进行卷积和池化操作；所获得的多分辨率特征被用作中心点的局部特征，最后，通过PointNet将局部区域模式编码为特征向量/>其中/>和μ均为MLP网络；将三维位置编码器引入特征提取网络，通过将二维图像特征F_I与三维位置信息相关联来获得三维特征/>3D位置编码器表述为:/>其中/>是位置编码函数中的位置编码部分所示。

3.根据权利要求2所述的三维目标检测方法，其特征在于，在所述步骤1中，将输入图像特征F_Ip变换为询问Q_I、键K_I和值V_I，再利用softmax函数对相关值进行归一化，从而得到注意力权重；最后通过点积计算，得到不同标记之间的相似度的到自注意加权值；因此，自注意加权值得到随后，将得到的自注意加权值输入FFN中执行逐点操作；采用多层感知器作为FFN，因此得到FFN(x)＝MLP(x)＝σ((xw₁+b₁)w₂+b₂),其中利用w₁作为第一层的权重，将x投影到维度K，w₂为第二层的权值，b₁和b₂是偏差，并且σ（·)为非线性激活；每个编码器的输出表示为/>最后将变换后的向量特征块F′_IB再次重塑为二维特征图F_I，以便后续的多交叉融合。

4.根据权利要求2所述的三维目标检测方法，其特征在于，在所述步骤1中，将I∈R^H×W×3的图像作为输入，其中H×W是原始图像的分辨率，图像的RGB通道数为3；通过骨干网络生成大小为的特征图F_I；将图像特征/>调整为一系列大小为的2D特征块/>其中P²是每个图像特征块的分辨率，故特征块的数量为/>

5.根据权利要求2所述的三维目标检测方法，其特征在于，在所述步骤2中，给定二维特征F_I和三维坐标p_i，首先将p_i送入多层感知网络，并将其转换为三维位置嵌入，然后，对二维特征F_I进行1×1卷积层变换，并加入三维PE形成三维位置感知特征最后，分别将三维位置特征/>和原始点云特征/>进行了合并为/>其中，/>为链接操作。

6.根据权利要求1所述的三维目标检测方法，其特征在于，所述步骤二包括如下步骤：

步骤A1：首先将W×H×D的点云空间延X、Y、Z轴划分为均匀分布的体素网格，其中每个体素大小为V_W×V_H×V_D；对每个体素随机采样点相同的数量N个点，若体素具有小于设定值的点数据，则采用零填充；将每个体素内最靠近中心的点作为一个质心集合C，其中N为体素的个数；将体素内的点并馈送到基于自关注的局部结构中，用于体素内部信息聚合；给定输入/>输出的F_L可得到：/>其中⊙是Hadamard积，j是体素内的采样点p_j索引；特征线性转换函数β为产生能与自适应权重向量α(c_i，p_j)聚合的特征向量β(p_j)；ρ是softmax函数；注意力权重的函数α计算权重c_i和p_j之间的权重；

步骤A2：使用全局转换层提供整体的上下文信息，以所有体素F_L作为输入，由局部和全局转换器层生成的特征被级联以集成局部和全局上下文；输出的体素F_V可得到：最后采用子流形稀疏卷积提取特征，采用空间重构的方法将体素特征F_V向下采样转化为鸟瞰特征F_B，并且馈送入多交叉融合模块；同时，基于F_B生成高质量的三维预选框。

7.根据权利要求6所述的三维目标检测方法，其特征在于，在所述步骤A1中，将函数α分解如下：其中关系函数δ输出融合特征c_i和p_j的单个特征向量，/>和ψ是特征线性投影，映射函数γ为具有两个线性层和一个Relu非线性的MLP。

8.根据权利要求1所述的三维目标检测方法，其特征在于，所述步骤三包括如下步骤：

步骤B1：分别通过点级特征投影的方式，得到与点级特征坐标P相对应的图像特征块坐标P_I和鸟瞰特征块坐标P_B，投影可得：其中，T_LiDAR→cam和T_LiDAR→bev分别为从LiDAR的坐标到相机和鸟瞰的变换矩阵，C_rect和R_rect分别是相机的校准矩阵和校正旋转；在获得了F_p相对应的F_I和F_B后，将输入点级特征F_p、F_I和F_B变换为询问Q_*、键K_*和值V_*；对图像、点级和鸟瞰特征的问题矩阵进行交叉融合，得到新的融合查询Q_**；然后，再将融合查询与另外一种模态的键K现结合，获得一种多模态的多交叉融合权重；通过点积计算得到新的图像、点级和鸟瞰特征F′_*，最后，将具有多融合的跨模态交互的特征聚合为新的特征F：/>其中/>代表连接。

步骤B2：通过体素鸟瞰图中一组预测边界框B＝{b_k}，其中每个边界框b＝(u，v，d，w，l，h，θ)由中心位置(u，v，d)、边界框大小(w，l，h)和偏航旋转角度θ组成；应用CenterPoint来预测指定类的热图、目标大小、细化位置和旋转角度。

9.一种基于点云-图像多交叉混合的三维目标检测系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－8中任一项所述三维目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－8中任一项所述的三维目标检测方法的步骤。