CN116152800A

CN116152800A - 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质

Info

Publication number: CN116152800A
Application number: CN202310149031.2A
Authority: CN
Inventors: 钱佳俊; 刘仪婷; 周锋; 李兴通; 肖昊; 陶重犇
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-23

Abstract

本发明提供了一种基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质,该3D动态多目标检测方法包括特征提取步骤、特征映射与融合步骤、预选框生成与检测框优化步骤。本发明的有益效果是：本发明融合了激光雷达和摄像头两种传感器的优势，实现自动驾驶领域中的动态多目标检测技术，能够对车辆、行人、骑行的人等多类目标进行准确的识别和定位，该技术兼顾了实时性，能够应用在实际的场景中。

Description

基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质

技术领域

本发明涉及图像处理及自动驾驶技术领域，尤其涉及一种基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质。

背景技术

自动驾驶技术已被广泛应用于道路自动避障、SLAM导航、自动泊车等各种日常生活场景中。其中，目标检测技术，是应用自动驾驶技术的车辆感知周围环境信息的重要环节，由于当前3D目标检测技术存在数据退化与特征丰富度不足的问题，如何提升检测效果，成为重要的研究方向。采用多模态特征融合技术，可以将不同传感器信息的优缺点相结合，提升特征丰富度，弥补卷积过程中带来的数据退化问题。其中以点云和图像相结合的跨视图特征融合的目标检测算法更具优势，逐渐成为研究热点。

虽然针对点云与图像相结合的多模态目标检测的研究已有很多，但大多采用伪激光雷达映射的方式，直接对点云和图像进行特征提取的研究还很少。对于跨视图实现多模态目标检测的解决方案可以分为两类。一类是采取序列融合的处理方法，即前一阶段得到的特征信息与后一阶段得到的特征相互连接，例如F-PointNets，采用视锥法，将图像生成的预选框投影到点云中，通过生成的视锥区域得到最终的3D检测框。但是，每个视锥区域中只包括了一个预选目标，在目标拥挤且较多的场景中效果欠佳。另一类是采取并行融合的处理方法，即直接融合多模态特征，将统一表示的特征形式信息输入检测模块生成预选框，例如ContFuse算法，通过逐点的特征融合方式，解决目标结构特征存在丢失的问题，但是由于点云具有稀疏性，因此在稀疏的区域，逐点融合的方式计算成本较高。无法满足自动驾驶的实时性要求。

发明内容

本发明提供了一种基于跨视图特征融合的3D动态多目标检测方法，包括如下步骤：

步骤一，特征提取步骤：包括点云特征提取网络和图像特征提取网络，通过并行的云特征提取网络和图像特征提取网络得到完整的多模态特征；

步骤二，特征映射与融合步骤：特征映射采用逐点对应的方式，得到点云特征与逐点对应的图像特征；特征融合过程首先计算每个点在点云特征和图像特征图中的权重，设点云加权特征为

其中LiDAR weight map为点云加权值，F_L代表点云特征图，图像特征图为F_C，/>

代表逐通道级联，×代表逐点乘积运算，图像加权特征为

Camera weight map为图像加权值，接着将加权点云特征和加权图像特征进行级联，得到融合特征F_Ripe；/>

步骤三，预选框生成与检测框优化步骤包括如下步骤：

步骤1：将融合特征F_Ripe进行置信度检测，得到定位置信度与分类置信度图；

步骤2：对于特征图中的每一个点，生成两个角度的预选框，包含7个参数(x，y，z，h，w，l，r)，分别代表坐标轴坐标和预选框的长宽高及偏向角信息；

步骤3：检测框优化，对特征的丰富度进行提升，增强对点云和图像空间的上下文结构信息的感知能力。

作为本发明的进一步改进，点云特征提取网络由划分体素空间、体素特征编码模块和子流型稀疏卷积模块构成，设点云空间沿Z，X，Y坐标轴的范围为H，D，W，采样步长为v_H，v_D，v_W，可得体素集合为

划分的体素数量分别用h、d、w表示；设集合C＝(C_x，C_y，C_z)为每个体素的局部质心，即每个体素采样点的坐标均值，则经过编码的体素特征集合V_in可以表示为/>

T表示矩阵转置，/>

为实数集合，C_x、C_y、C_z为体素的质心坐标，c_i为体素中第i个点的空间坐标(x_i，y_i，z_i)和该点的激光雷达的反射率，t∈(0，T]，代表该体素中采样点的数量，V_off表示每个点相对于局部质心C的偏移量；子流型稀疏卷积算法采用空值补零和失真区域清零的方式，保障卷积的实时性和避免卷积过程中出现失真，根据卷积尺度计算公式

E_i指输入特征图中的点，F_i指输出特征图与输入特征图对应的点，推导出八倍下采样稀疏卷积后的尺度信息，其中f代表卷积核大小，s代表卷积步长，p为零值填充。

作为本发明的进一步改进，图像特征提取网络由ResNet18与特征金字塔组成，其中ResNet18由输入模块和四个卷积模块组成，输入模块对图像进行预处理操作，采用普通卷积核最大池化相结合的方式，卷积模块加入残差网络，解决神经网络中的特征退化问题；特征金字塔使用自下而上的上采样方式，将ResNet18得到的最下层特征图放大到最上层的特征图，通过叠加保留各层的图像特征。

作为本发明的进一步改进，在所述步骤二中，在进行特征映射时，为了准确找到点云与图像之间的对应关系，遍历原始大小的体素，以体素中心点为参考坐标，通过实际情况的相机内外参数与激光雷达的对应关系，找到点云中的点在图像中的对应像素点，若找不到对应像素，则跳过该点；考虑到原始大小的信息和卷积得到的特征图存在八倍的尺度差距，为了防止原始图像中的像素坐标缩小八倍后不是整数，本发明采用双线性插值的方式解决；设I(m^k*，n^k*)为原始图像中坐标，F(m^k*，n^k*)为特征图中的坐标，则通过公式可得

其中/>

意为向下取整，i和j为索引范围，m^k*和n^k*为图像坐标系中第k个点所对应的横纵坐标，b(i，j，n，n)＝max(1-|i-m|，0)×max(1-|j-n|，0)，m代表横坐标，代表经过归一化处理后，四个坐标点到目标点(m^k*，n^k*)的权值，/>

代表四个坐标点在图像特征图中的特征向量。

作为本发明的进一步改进，在所述步骤1中，将融合特征F_Ripe通过2D卷积网络，生成定位置信度与分类置信度图。

作为本发明的进一步改进，所述步骤3包括：

步骤A：对预选框沿坐标轴均匀采样6×6×6个关键点，并在图像特征图中找到对应的像素点，使用PointNet进行编码，得到预选框相对应的图像特征F_Camera；

步骤B：然后对各阶段的稀疏卷积特征进行提取，包含一倍、两倍、四倍、八倍下采样的特征，则各阶段稀疏卷积融合的特征表示为F_Raw＝∑_m∈MM(P(max(S^m)))，其中，S^m代表为m层的体素特征向量集合，P(·)代表PointNet网络，M(·)表示多层感知机网络；

步骤C：采取逐通道级联的方式将F_Ripe、F_Camera和F_Raw融合，表示为F＝[F_Ripe，F_Raw，F_Camera]；对特征图中每一个点选取0°、30°、60°、90°、120°、150°六个角度生成检测框，接着输入框优化网络，对检测框的中心、大小和方向进行残差计算；框优化网络由具有两个分支的MLP网络构成，分别进行分类置信度和定位置信度预测，则第k个ROI区域的分类置信度G_k＝min(1，max(0，2IoU_k-0.5))，其中IoU_k代表ROI与地面真实值的交互比。

作为本发明的进一步改进，在所述步骤B中，由于每层特征图的尺度不同，使用MLP网络进行归一化处理。

作为本发明的进一步改进，在所述步骤三中，针对定位置信度和分类置信度之间存在不一致的问题，通过强制一致性损失函数对两种置信度进行约束，表示为

其中R表示预选框，T表示地面真实值，L(·)表示定位置信度，根据置信度图预测最终检测框的位置和类别信息。

本发明还提供了一种基于跨视图特征融合的3D动态多目标检测系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述3D动态多目标检测方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的3D动态多目标检测方法的步骤。

本发明的有益效果是：本发明融合了激光雷达和摄像头两种传感器的优势，实现自动驾驶领域中的动态多目标检测技术，能够对车辆、行人、骑行的人等多类目标进行准确的识别和定位，该技术兼顾了实时性，能够应用在实际的场景中。

附图说明

图1是本发明的原理框图。

具体实施方式

本发明公开了一种基于跨视图特征融合的3D动态多目标检测方法，本发明与已有做法不同，本发明充分考虑特征提取方式和特征融合的信息保留问题。通过设计并行的点云与图像特征提取网络得到完整的多模态特征，设计跨视图特征映射与融合模块，实现点云与图像特征的有效融合，得到准确的检测框。

本发明的3D动态多目标检测方法包括如下步骤：

步骤一，特征提取步骤：包括点云特征提取网络和图像特征提取网络，其中点云特征提取网络由划分体素空间，体素特征编码模块和子流型稀疏卷积模块构成。设点云空间沿Z，X，Y坐标轴的范围为H，D，W，采样步长为v_H，v_D，v_W，可得体素集合为

设集合C＝(C_x，C_y，C_z)为每个体素的局部质心，即每个体素采样点的坐标均值，则经过编码的体素特征集合V_in可以表示为

其中r_i为激光雷达的反射率。最后，本发明设计子流型稀疏卷积算法，避免传统卷积算法对点云中每个点都进行采样，采用空值补零和失真区域清零的方式，保障卷积的实时性和避免卷积过程中出现失真，根据卷积尺度计算公式/>

可以推导出八倍下采样稀疏卷积后的尺度信息，其中f代表卷积核大小，本发明采用维度为3的卷积核，s代表卷积步长，p为零值填充。图像特征提取网络由ResNet18与特征金字塔组成，其中ResNet18由输入模块和四个卷积模块组成，输入模块对图像进行预处理操作，采用普通卷积核最大池化相结合的方式，卷积模块加入残差网络，解决神经网络中的特征退化问题；特征金字塔使用自下而上的上采样方式，将ResNet18得到的最下层特征图放大到最上层的特征图，通过叠加保留各层的图像特征。

步骤二，特征映射与融合步骤：在使用相机采集图像信息时，通常具有多个摄像头，并且图像和点云的信息表征形式也不相同。为了准确找到点云与图像之间的对应关系，遍历原始大小的体素，以体素中心点为参考坐标，通过实际情况的相机内外参数与激光雷达的对应关系，找到点云中的点在图像中的对应像素点，由于两者的感应范围不一致，若找不到对应像素，则跳过该点。考虑到原始大小的信息和卷积得到的特征图存在八倍的尺度差距，为了防止原始图像中的像素坐标缩小八倍后不是整数，本发明采用双线性插值的方式解决。设I(m^k*，n^k*)为原始图像中坐标，F(m^k*，n^k*)为特征图中的坐标，则通过公式可得

其中/>

意为向下取整，b(i，j，m，n)＝max(1-|i-m|，0)×max(1-|j-n|，0)，代表经过归一化处理后，四个坐标点到目标点(m^k*，n^k*)的权值，/>

代表四个坐标点在图像特征图中的特征向量。此时得到了点云特征与逐点对应的图像特征，特征融合过程首先计算每个点在点云特征和图像特征图中的权重，设点云加权特征为/>

其中F_L代表点云特征图，/>

代表逐通道级联，×代表逐点乘积运算，图像加权特征同理。接着将加权点云特征和加权图像特征进行级联，得到融合特征F_Ripe。

步骤三，预选框生成与检测框优化步骤：将得到的融合特征进行置信度检测，得到定位置信度与分类置信度图。特征图中的每一个点生成两个角度的预选框，包含7个参数(x，y，z，h，w，l，r)，分别代表坐标轴坐标和预选框的长宽高及偏向角信息。检测框优化阶段进一步对特征的丰富度进行提升，增强对点云和图像空间的上下文结构信息的感知能力。首先对预选框沿坐标轴均匀采样6×6×6个关键点，并在图像特征图中找到对应的像素点，使用PointNet进行编码，得到预选框相对应的图像特征F_Camera。然后对各阶段的稀疏卷积特征进行提取，包含一倍、两倍、四倍、八倍下采样的特征，则各阶段稀疏卷积融合的特征可以表示为F_Raw＝∑_m∈MM(P(max(S^m)))，其中，S^m代表为m层的体素特征向量集合，N_m代表m级特征图中非空体素的数量，P(·)代表PointNet网络，M(·)表示多层感知机网络，由于每层特征图的尺度不同，使用MLP网络进行归一化处理。最后采取逐通道级联的方式将F_Ripe，F_Camera和F_Raw融合，表示为F＝[F_Ripe，F_Raw，F_Camera]，该特征图可以十分有效地保留点云与图像的信息。对特征图中每一个点选取0°，30°，60°，90°，120°，150°六个角度生成检测框，接着输入框优化网络，对检测框的中心，大小，和方向进行残差计算。框优化网络由具有两个分支的MLP网络构成，分别进行分类置信度和定位置信度预测，则第k个ROI区域的分类置信度G_k＝min(1，max(0，2IoU_k-0.5))。其中IoU_k代表ROI与地面真实值的交互比。针对定位置信度和分类置信度之间存在不一致的问题，本发明提出强制一致性损失函数，对两种置信度进行约束，表示为

其中R表示预选框，T表示地面真实值，L(·)表示定位置信度。根据置信度图预测最终检测框的位置和类别信息。

如图1所示，下面结合具体实例进行展开说明：

步骤一，特征提取步骤：在点云特征提取网络中，针对车辆目标，沿坐标轴的有效范围分别为H＝[-3，1]m，D＝[-40，40]m，W＝[0，70.4]m，每个体素大小为每个体素(v_H，v_D，v_W)＝(0.4，0.2，0.2)，因此空间被划分为10×400×352个体素。体素特征编码模块首先将每个采样点信息的7维向量V_in通过全连接层映射为32维。接着输入最大池化层中，得到每个体素的32维全局信息，拼接到每个点32维特征后，得到64维向量，重复上述操作，得到每个点用128维向量表征，通过池化操作，得到每个体素的128维向量，因此点云可以表征为(128，10，400，352)。最后输入到子流型稀疏卷积模块中，通过多次卷积下采样操作，得到维度为(32，50，44)的特征图，即尺度为(50，44)的特征图中每个点用32维向量表征。在图像特征提取网络中，为了保持后续特征融合阶段图像特征尺度与点云特征对应，将图像信息设置为(1，3，400，352)，其中3代表输入通道数，即RGB通道，(400，352)代表图像分辨率。经过ResNet18和特征金字塔网络，得到(1，256，50，44)的图像特征图，通过最大池化操作，得到32维特征，因此最终图像特征图维度为(32，50，44)。

步骤二，特征映射与融合步骤：特征映射采用逐点对应的方式，分别得到体素特征图和逐点对应的图像特征图，以维度(32，50，44)表征。接着特征融合模块对体素和图像特征进行级联，考虑到图像分为左右视图，则进行逐通道级联，可得到(96，50，44)的特征图。为了后续的多特征融合，将96维特征映射为128维，加权模块由两个MLP卷积网络组成，第一次卷积使用128个大小为1×128×1的卷积核进行卷积，得到n个维度为1×128的特征向量，其中n代表特征图中的尺寸，第二次卷积使用256个大小为1×1×128的卷积核进行卷积，得到n个维度为1×256的特征向量，即n×256。第二层MLP网络同理，最终得到n个维度为1×1的特征向量，即n×1，代表权重信息。最后经过Sigmoid激活函数并与原始输入特征相乘，得到加权后的点云和图像特征图。将经过自适应特征融合模块的加权点云特征和加权图像特征进行级联，得到维度为F_Ripe＝(128，50，44)的加权特征图。

步骤三，预选框生成与检测框优化步骤：将F_Ripe通过2D卷积网络，生成分类置信度图和定位置信度图，对于特征图中的每一个点，生成两个预选框，每个预选框用7维向量表示，因此定位置信度图的维度为14，即(14，50，44)。预选框优化阶段首先沿坐标轴设置6×6×6个关键点，并映射到图像特征图中，图像特征进行编码使用PointNet算法，得到216×128的特征向量，输入最大池化层，得到1×128维特征，对于每一个感兴趣区域均采取该方法，最终得到图像特征F_Camera＝(128，50，44)。一倍下采样卷积的点云维度为(128，10，400，352)，最终得到的维度为(32，50，44)。因此，八倍下采样卷积后的每个点代表原始点云特征图中周围16个点的特征，并且经过维度变换，沿Z轴方向也经过尺寸压缩，因此使用max(.)函数将特征图的尺度变换为(50，44)。使用PointNet算法对特征编码，输出维度仍然为128。然后，将特征输入MLP(·)网络中，使128维特征转换为32维。考虑到共有一倍、二倍、四倍、八倍四层卷积层，最后进行特征融合得到128维的多尺度体素特征F_Raw＝(128，50，44)。最后，后采取逐通道级联的方式得到384维的多模态融合特征F。再次进行置信度预测，得到目标检测框的位置信息和分类信息。

本发明适用于激光雷达和相机结合的自动驾驶车辆中。采用多模态特征映射与融合的方式。将点云信息与图像信息输入到检测网络中，进行特征提取、特征逐点对应、预选框生成与优化工作，实现精确的目标检测。此外，点云与图像的特征提取方式可以是多样化的，例如点云特征提取可以采用基于点的直接处理法或划分体素空间法，图像的特征提取可以采用ResNet与特征金字塔结合或者VGG卷积神经网络的方式。检测框生成模块需要考虑到时间效率，满足实际自动驾驶场景中的实时性需求。

综上，本发明适用于激光雷达和相机结合的自动驾驶车辆中，本发明可以更有效的将点云和图像特征进行映射和融合，降低计算成本和时间效率，满足基于自动驾驶的目标检测实时性与准确性要求。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于跨视图特征融合的3D动态多目标检测方法，其特征在于，包括如下步骤：

代表逐通道级联，×代表逐点乘积运算，图像加权特征为

Camera weight map为图像加权值，接着将加权点云特征和加权图像特征进行级联，得到融合特征F_Ripe；

步骤三，预选框生成与检测框优化步骤包括如下步骤：

2.根据权利要求1所述的3D动态多目标检测方法，其特征在于，点云特征提取网络由划分体素空间、体素特征编码模块和子流型稀疏卷积模块构成，设点云空间沿Z，X，Y坐标轴的范围为H，D,W，采样步长为v_H，v_D，v_W，可得体素集合为

划分的体素数量分别用h、d、w表示；设集合c＝(c_x，c_y，c_z)为每个体素的局部质心，即每个体素采样点的坐标均值，则经过编码的体素特征集合V_in可以表示为

T表示矩阵转置，/>

为实数集合，c_x、c_y、c_z为体素的质心坐标，c_i为体素中第i个点的空间坐标(x_i，y_i，z_i)和该点的激光雷达的反射率，t∈(0，T]，代表该体素中采样点的数量，V_off表示每个点相对于局部质心C的偏移量；子流型稀疏卷积算法采用空值补零和失真区域清零的方式，保障卷积的实时性和避免卷积过程中出现失真，根据卷积尺度计算公式/>

3.根据权利要求1所述的3D动态多目标检测方法，其特征在于，图像特征提取网络由ResNet18与特征金字塔组成，其中ResNet18由输入模块和四个卷积模块组成，输入模块对图像进行预处理操作，采用普通卷积核最大池化相结合的方式，卷积模块加入残差网络，解决神经网络中的特征退化问题；特征金字塔使用自下而上的上采样方式，将ResNet18得到的最下层特征图放大到最上层的特征图，通过叠加保留各层的图像特征。

4.根据权利要求1所述的3D动态多目标检测方法，其特征在于，在所述步骤二中，在进行特征映射时，为了准确找到点云与图像之间的对应关系，遍历原始大小的体素，以体素中心点为参考坐标，通过实际情况的相机内外参数与激光雷达的对应关系，找到点云中的点在图像中的对应像素点，若找不到对应像素，则跳过该点；考虑到原始大小的信息和卷积得到的特征图存在八倍的尺度差距，为了防止原始图像中的像素坐标缩小八倍后不是整数，本发明采用双线性插值的方式解决；设I(m^k* ，n^k*)为原始图像中坐标，F(m^k*，n^k*)为特征图中的坐标，则通过公式可得

其中/>

意为向下取整，i和j为索引范围，m^k*和n^k*为图像坐标系中第k个点所对应的横纵坐标，b(i，j，m，n)＝max(1-|i-m|，0)×max(1-|j-n|，0)，m代表横坐标，代表经过归一化处理后，四个坐标点到目标点(m^k*，n^k*)的权值，/>

代表四个坐标点在图像特征图中的特征向量。

5.根据权利要求1所述的3D动态多目标检测方法，其特征在于，在所述步骤1中，将融合特征F_Ripe通过2D卷积网络，生成定位置信度与分类置信度图。

6.根据权利要求1所述的3D动态多目标检测方法，其特征在于，所述步骤3包括：

7.根据权利要求6所述的3D动态多目标检测方法，其特征在于，在所述步骤B中，由于每层特征图的尺度不同，使用MLP网络进行归一化处理。

8.根据权利要求6所述的3D动态多目标检测方法，其特征在于，在所述步骤三中，针对定位置信度和分类置信度之间存在不一致的问题，通过强制一致性损失函数对两种置信度进行约束，表示为

9.一种基于跨视图特征融合的3D动态多目标检测系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－8中任一项所述3D动态多目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－8中任一项所述的3D动态多目标检测方法的步骤。