CN116310684A

CN116310684A - 基于Transformer的多模态特征融合的三维目标检测方法

Info

Publication number: CN116310684A
Application number: CN202310263222.1A
Authority: CN
Inventors: 张炳力; 王怿昕; 姜俊昭; 张成标; 潘泽昊; 杨程磊; 王欣雨; 王焱辉; 程进; 张羊阳
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-23

Abstract

本发明公开了一种基于Transformer的多模态特征融合的三维目标检测方法，包括：1.使用激光雷达采集点云数据并对点云数据进行采样，同时使用摄像头采集图像数据2.将激光雷达与摄像头采集到的数据输入基于Transformer的多模态特征融合RPN网络，提取区域建议框3.将区域建议框信息输入精细化网络，得到最终预测框。本发明能避免对基于多模态特征融合的目标检测过程中，误检、漏检的问题，从而能够保证对感知环境评估的准确性。

Description

基于Transformer的多模态特征融合的三维目标检测方法

技术领域

本发明涉及基于多传感器融合的环境感知技术领域，具体的说是一种基于Transformer的多模态特征融合的三维目标检测方法。

背景技术

当前的3D目标检测技术大致可分为仅激光雷达方法和多模态方法。仅激光雷达方法利用激光雷达摄取的点云来提取深度和几何结构信息，以理解3D场景。然而，仅激光雷达采集到的点云缺乏语义信息，因此可能会混淆具有相似结构的前景和背景，并导致误检，干扰正常驾驶。同时，点云的稀疏性影响了仅激光雷达方法识别远程物体和小物体的准确性。

在这种情况下，多模态方法越来越受到关注，研究人员致力于通过融合激光雷达和相机采集到的信息来感知周围环境。现有的多模态融合方法可分为前融合和后融合。后期融合方法鲁棒性强，但受到单模态检测器检测精度的限制，准确率有待提高。前融合方法可分为数据级融合和特征级融合，其准确率通常优于后融合方法，但它们难以解决异构的数据对齐问题。具体的，MV3D和AVOD算法通过融合区域特征进行预测。Huang Tengteng等人通过学习估计多模态特征的重要性，生成多模态之间的权重以融合多模态特征。但上述方法在执行过程中难以准确建立起不同传感器数据之间的对应关系，导致参与融合的点云特征与图像特征所包含的语义信息并不一致，融合后的特征图无法精准表述实际情况，严重影响检测的准确性。

发明内容

发明针对现有方法中存在的问题，提供了一种基于Transformer的多模态特征融合的三维目标检测方法，以期能实现三维检测过程中的多源异构特征融合，从而能保证对感知环境评估的准确性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于Transformer的多模态特征融合的三维目标检测方法的特点在于，包括如下步骤：

A、使用摄像头采集目标场景的图像P_i，同时使用激光雷达采集所述目标场景的点云数据后进行采样，得到激光雷达特征序列F_p；其中，所述图像P_i的维度为(H_r,W_r,3)，其中，H_r表示图像P_i的高度，W_r表示图像P_i的宽度，3表示图像P_i的RGB通道数；

所述激光雷达特征序列F_p的维度为(N_r，4)，其中，N_r表示点云数据的个数，4表示每个点云数据的信息数；所述信息包括中心坐标(x_o,y_o,z_o)以及反射强度r_o；

B、建立基于Transformer的多模态特征融合RPN网络，包括：K个SetAbstraction层、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个Feature Propagation层、二维转置卷积层、分类层和回归层；其中，所述卷积模块依次包括：第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层；

B1、定义当前迭代次数为k，并初始化k＝0，令K表示总的迭代次数；

将所述图像P_i作为第k次迭代的图像特征F_i ^k，所述激光雷达特征序列F_p作为第k次迭代的激光雷达点云特征

B2、第k+1个SetAbstraction层对所述第k次迭代的激光雷达点云特征F_p ^k进行编码，得到第k+1次迭代的高层次激光雷达点云特征

且/>

的维度为

其中，N_r/(4(k+1))表示/>

的点云数据个数，/>

表示/>

中每个点云数据包含的特征通道数；

B3、第k+1个卷积模块对所述第k次迭代的图像特征F_i ^k进行编码，获得第k+1次迭代的高层次图像特征F_i ^k+1，且F_i ^k+1的维度为

其中，H_r/2^k+1×W_r/2^k+1表示F_i ^k+1包含的特征元素点个数，/>

表示F_i ^k+1中每个特征元素点包含的特征通道数；

B4、第k+1个Transformer多模态特征融合模块对所述第k+1次迭代的高层次激光雷达点云特征

和第k+1次迭代高层次图像特征F_i ^k+1进行特征融合，得到第k+1次迭代的增强点云特征/>

B5、将

赋值给/>

将F_i ^k+1赋值给F_i ^k，将k+1赋值给k后，返回步骤B2顺序执行，直到k＝K为止，从而获得K个高层次激光雷达点云特征/>

和高层次图像特征{F_i ^k|k＝1,2,…,K}；

B6、K个Feature Propagation层依次对

中的/>

进行K次的解码，得到最终点云特征/>

且/>

的维度为(N_r/4,C_p)，其中，C_p表示/>

中每个点云数据的特征通道数；

B7、所述二维转置卷积层对{F_i ^k|k＝1,2,…,K}进行解码，得到转置图像特征

其中，/>

表示高层次图像特征F_i ^k的转置图像特征；

B8、将

进行级联连接后输入第K+1个卷积模块，获得最终图像特征F_i ^K+1，且F_i ^K+1的维度为(H_r/2,W_r/2,C_i)，其中，C_i表示F_i ^K+1中每个点数据的特征通道数；

B9、第K+1个Transformer多模态特征融合模块对最终点云特征

和最终图像特征F_i ^K+1进行特征融合，获得融合语义信息的点云特征F_ep，且F_ep的维度为(N_r/4,C)，其中，C表示F_ep中每个点云数据的特征通道数；

B10、将F_ep分别输入所述分类层和回归层中进行处理，获得区域建议框信息，包括：区域建议物体类别type_RPN、区域建议物体的2D边界框大小bbox_RPN、区域建议物体的3D边界框尺寸dimensions_RPN、区域建议物体的3D边界框位置location_RPN、区域建议物体的3D边界框空间方向rotation_RPN以及区域建议网络检测的置信度score_RPN；

C、将所述区域建议框信息输入所述精细化网络进行处理，得到最终预测框信息，包括：最终预测物体类别type_result、最终预测物体的2D预测框大小bbox_result、最终预测物体的3D预测框尺寸dimensions_result、最终预测物体的3D预测框位置location_result、最终预测物体的3D预测框空间方向rotation_result以及网络最终预测的置信度score_result。

本发明所述的基于Transformer的多模态特征融合三维目标检测方法的特点也在于，所述B4中的Transformer多模态特征融合模块包括：两个全连接层、两个Transformer交叉注意力模块，并按如下步骤进行特征融合：

B4.1、将所述第k+1次迭代的高层次图像特征F_i ^k+1压缩成维度为

的第k+1次迭代的高层次压缩图像特征/>

然后将所述第k+1次迭代的高层次激光雷达点云特征/>

与所述高层次压缩图像特征/>

分别输入第一全连接层中进行处理，得到第k+1次迭代的待融合的激光雷达点云特征/>

与第k+1次迭代的待融合的高层次图像特征F_i′^k+1，其中，/>

的维度为(N_r/(4(k+1)),C^k+1)，F_i′^k+1的维度为((H_r×W_r)/4^k+1,C^k+1)，C^k+1表示待融合特征的通道数；

B4.2、第一个Transformer交叉注意力模块对

与F_i′^k+1进行处理，获得第k+1次迭代的自适应点云特征/>

其中，/>

的维度为((H_r×W_r)/4^k+1，C^k+1)；

B4.3、将F_i′^k+1与

进行级联连接，获得第k+1次迭代的级联连接图像特征/>

后输入第二全连接层中进行处理，获得第k+1次迭代的增强图像特征/>

其中，/>

的维度为((H_r×W_r)/4^k+1，2C^k+1)，/>

的维度为((H_r×W_r)/4^k+1，C^k+1)；

B4.4、第二个Transformer交叉注意力模块对

和/>

进行处理，获得第k+1次迭代的自适应图像特征/>

其中，/>

的维度为(N_r/(4(k+1))，C^k+1)；

B4.5、将

与/>

进行级联连接后，获得第k+1次迭代的增强点云特征/>

其中，/>

的维度为(N_r/(4(k+1))，2(C^k+1))。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述三维目标检测方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述三维目标检测方法的步骤。

与现有技术相比，本发明的有益效果在于：

1.本发明针对基于多传感器特征级融合的三维目标检测方法异构数据对齐困难的问题，提出了一种基于Transformer的多模态特征融合三维目标检测方法，利用传统Transformer网络能够动态动态估计两种模态之间的相关性的特点，让网络自动对齐多源异构数据，从而提高了基于多传感器融合的目标检测的准确率，有利于智能车辆环境感知能力的提高。

2.本发明提出了一种基于Transformer的多源异构特征双向增强融合策略。与先前的基于Transformer的多模态融合方法相比，本发明方法首先利用Transformer网络提取基于注意力的自适应点云特征，接着将图像特征与自适应点云特征级联来增强图像特征，接着基于Transformer网络使用增强图像特征生成基于注意力的自适应图像特征，最后将点云特征与自适应图像特征级联以获取被语义信息增强的点云特征，解决了基于Transformer的多模态特征融合策略过于单一、无法充分发挥Transformer网络优越性的问题，从而优化了特征级融合的自适应性，提高了基于多传感器融合的目标检测的准确性，有利于智能车辆环境感知能力的提高。

附图说明

图1为本发明多模态特征融合的三维目标检测方法的整体流程图；

图2为本发明基于Transformer的多源异构特征双向增强融合策略的流程图；

图3为本发明机器视觉检测效果图。

具体实施方式

本实施例中，一种基于Transformer的多模态特征融合三维目标检测方法，如图1所示，包括如下步骤：

A、使用摄像头采集目标场景的图像P_i，同时使用激光雷达采集目标场景的点云数据后进行采样，采样过程包括：将激光雷达采集到的点云数量记作N_o，并规定采样后的点云数量N_r，若N_o＞N_r，则对激光雷达采集到的点云进行随机下采样直至点云数量为N_r，若N_o＜N_r，则对激光雷达采集到的点云进行随机复制直至点云数量达到N_r，输出激光雷达特征序列F_p，其中，其中，图像P_i的维度为(H_r,W_r,3)，其中，H_r表示图像P_i的高度，W_r表示图像P_i的宽度，3表示图像P_i的RGB通道数；

激光雷达特征序列F_p的维度为(N_r，4)，其中，N_r表示点云数据的个数，4表示每个点云数据的信息数；信息包括中心坐标(x_o,y_o,z_o)以及反射强度r_o。本实施例中，设置N_o＝16384；

B、建立基于Transformer的多模态特征融合RPN网络包括：K个PointNet++算法的Set Abstraction层(SA层)、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个PointNet++算法的Feature Propagation层(FP层)、二维转置卷积层、分类层和回归层；其中，卷积模块依次包括：第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层；

将图像P_i作为第k次迭代的图像特征F_i ^k，激光雷达特征序列F_p作为第k次迭代的激光雷达点云特征F_p ^k；

B2、第k+1个Set Abstraction层对第k次迭代的激光雷达点云特征F_p ^k进行编码，得到第k+1次迭代的高层次激光雷达点云特征

包括：利用FPS算法选取相互间距离最大的N_o'个点，本实施例中，设置N_o'＝N_r/(4(k+1))；然后利用ball query算法，以上述N_o'个点为质心，在半径为r_o的球体范围内采样K_o个点，本实施例中，设置r_o＝0.5(k+1)，K_o＝32；最后，将这N_o'个球体分别输入PointNet层，得到高层次激光雷达点云特征/>

其中，/>

的维度为/>

其中，N_r/(4(k+1))表示/>

的点云数据个数，/>

表示/>

中每个点云数据包含的特征通道数；

B3、第k+1个卷积模块对第k次迭代的图像特征F_i ^k进行编码，获得第k+1次迭代的高层次图像特征F_i ^k+1，其中，F_i ^k+1的维度为

H_r/2^k+1×W_r/2^k+1表示F_i ^k+1包含的特征元素点个数，/>

表示F_i ^k+1中每个特征元素点包含的特征通道数；

B4、第k+1个Transformer多模态特征融合模块对第k+1次迭代的高层次激光雷达点云特征

其中，Transformer多模态特征融合模块的流程图如图2所示：

B4.1、将第k+1次迭代的高层次图像特征F_i ^k+1压缩成维度为

的第k+1次迭代的高层次压缩图像特征/>

然后将第k+1次迭代的高层次激光雷达点云特征/>

与高层次压缩图像特征/>

与第k+1次迭代的待融合的高层次图像特征F_i′^k+1，其中，/>

的维度为(N_r/(4(k+1)),C^k+1)，F_i′^k+1的维度为((H_r×W_r)/4^k+1,C^k+1)，C^k+1表示待融合特征的通道数；本发明中，设置/>

B4.2、第一个Transformer交叉注意力模块对

与F_i′^k+1进行处理，获得第k+1次迭代的自适应点云特征/>

获得自适应点云特征/>

其中Transformer交叉注意力模块由式(1)所表征，包括：先将待融合高层次图像特征F_i ^k+1'映射到图像Query矩阵/>

同时将待融合高层次激光雷达点云特征/>

映射到点云Key矩阵/>

和点云Value矩阵/>

即：

式(1)～式(3)中，W_i ^Q、

均为可学习线性变换矩阵；

然后将图像Query矩阵

与点云Key矩阵/>

相乘，并作Softmax处理，获得点云注意力权重矩阵/>

即：

接着将点云注意力权重矩阵

与点云Value矩阵/>

相乘，获得自适应点云特征

即：

式(5)中，

的维度为((H_r×W_r)/4^k+1，C^k+1)；

B4.3、将F_i′^k+1与

进行级联连接，获得第k+1次迭代的级联连接图像特征/>

即：

式(6)中，FC代表全连接层，

代表Concatenation级联连接；

其中，级联拼接是指在特征张量第2维进行拼接，级联拼接是指在特征张量第2维进行拼接，级联连接图像特征大小为((H_r×W_r)/4^k+1，2C^k+1)，全连接层输出的增强图像特征

是大小为((H_r×W_r)/4^k+1，C^k+1)的特征张量；

B4.4、利用第二个Transformer交叉注意力模块对

和/>

进行处理，第k+1次迭代的自适应图像特征/>

其中Transformer交叉注意力模块由式(7)所表征，包括：先将待融合高层次激光雷达点云特征/>

映射到点云Query矩阵/>

将增强图像特征/>

映射到图像Key矩阵/>

和图像Value矩阵V_i ^k+1，即：

V_i ^k+1＝F_i ^k+1'·W_i ^V (9)

式(7)～式(9)中，

W_i ^K、W_i ^V均为可学习线性变换矩阵；

接着将点云Query矩阵

与图像Key矩阵/>

相乘，并作Softmax处理，获得图像注意力权重矩阵/>

即：

最后，将图像注意力权重矩阵

与图像Value矩阵V_i ^k+1相乘，获得自适应图像特征/>

即：

式(11)中，自适应图像特征

是大小为(N_r/(4(k+1))，C^k+1)的特征张量；

B4.5、将待融合高层次激光雷达点云特征

与自适应图像特征/>

进行级联连接，获得增强点云特征/>

即：

将增强点云特征

赋值给激光雷达点云特征/>

其中，级联连接是指在特征张量第2维度进行拼接，第k+1次迭代的增强点云特征/>

是大小为(N_r/(4(k+1))，2(C^k+1))的特征张量/>

B5、将

赋值给/>

和高层次图像特征{F_i ^k|k＝1,2,…,K}P_i ⁴；

B6、K个Feature Propagation层依次对

中的/>

进行K次的解码，包括利用IDW插值法对特征进行上采样，IDW插值法可表示为：

式(13)中：ω_i(x)计算点权重，它与距离成反比，距离越近，影响越大。f_i ^(j)表示已知点的值，f^(j)表示未知点的值，s表示在已知点集中取s个点进行插值计算，e表示距离对权重的影响程度；

经过上述操作，得到最终点云特征

其中，/>

的维度为(N_r/4,C_p)，C_p表示

中每个点云数据的特征通道数；

B7、二维转置卷积层对{F_i ^k|k＝1,2,…,K}进行解码，得到转置图像特征

其中，/>

表示高层次图像特征F_i ^k的转置图像特征；

B8、将

进行级联连接后输入第K+1个卷积模块，获得最终图像特征F_i ^K+1，其中，F_i ^K+1的维度为(H_r/2,W_r/2,C_i)，C_i表示F_i ^K+1中每个点数据的特征通道数；

B9、第K+1个Transformer多模态特征融合模块对最终点云特征

和最终图像特征F_i ^K+1进行特征融合，获得融合语义信息的点云特征F_ep，其中，F_ep的维度为(N_r/4,C)，C表示F_ep中每个点云数据的特征通道数；

B10、将F_ep分别输入分类层和回归层中进行处理，获得区域建议框信息，包括：区域建议物体类别type_RPN、区域建议物体的2D边界框大小bbox_RPN、区域建议物体的3D边界框尺寸dimensions_RPN、区域建议物体的3D边界框位置location_RPN、区域建议物体的3D边界框空间方向rotation_RPN以及区域建议网络检测的置信度score_RPN；区域建议物体的2D边界框大小bbox_RPN包括：2D边界框中心点坐标(x_{RPN_2D},y_{RPN_2D})，长w_{RPN_2D}和宽h_{RPN_2D}；区域建议物体的3D边界框尺寸dimensions_RPN包括：长w_{RPN_3D}，宽h_{RPN_3D}和高l_{RPN_3D}；区域建议物体的3D边界框位置location_RPN包括：(x_{RPN_3D},y_{RPN_3D},z_{RPN_3D})；

C、将步骤B10中区域建议框信息输入PointRCNN算法的精细化网络，精细化网络包括：用于提取全局描特征的3个SA层，以及两个子网络，两个字网络均具有两个级联的1×1卷积层，分别用于分类和回归，从而得到最终预测框信息，其中，最终预测框信息包括：最终预测物体类别type_result、最终预测物体的2D预测框大小bbox_result、最终预测物体的3D预测框尺寸dimensions_result、最终预测物体的3D预测框位置location_result、最终预测物体的3D预测框空间方向rotation_result以及网络最终预测的置信度score_result；最终预测物体的2D预测框大小bbox_result包括：2D预测框中心点坐标(x_{result_2D},y_{result_2D})，长w_{result_2D}和宽h_{result_2D}；最终预测物体的3D预测框尺寸dimensions_result包括：长w_{result_3D}，宽h_{result_3D}和高l_{result_3D}；最终预测物体的3D预测框位置location_result包括：(x_{result_3D},y_{result_3D},z_{result_3D})，检测效果图如图3所示，图中白色框即代表网络检测到的最终预测框。

本实施例中，设计一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行该多模态特征融合三维目标检测方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，设计一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行该多模态特征融合三维目标检测方法的步骤。