CN114387202A

CN114387202A - 一种基于车端点云与图像融合的3d目标检测方法

Info

Publication number: CN114387202A
Application number: CN202110714862.0A
Authority: CN
Inventors: 李贵炎; 耿禹; 翟永健
Original assignee: Nanjing Communications Institute of Technology
Current assignee: Nanjing Communications Institute of Technology
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-04-22
Anticipated expiration: 2041-06-25
Also published as: CN114387202B

Abstract

本发明公开了一种基于车端点云与图像融合的3D目标检测方法。此方法由基于注意力机制改进的RetinaNet二维目标检测算法和基于特征金字塔改进的DGCNN点云特征提取算法组成，使用一种基于视锥的提取方法将点云特征投影到图像上，然后将两种算法串联融合，实现3D目标检测。其中，改进的RetinaNet二维目标检测算法中，在后端的特征提取中加入通道过滤器来抑制背景特征、突出目标特征，以加强检测效果；改进的点云特征提取算法中，在DGCNN主干网络中构建自上而下的特征金字塔聚合特征，以进行多尺度的特征提取。本发明能够综合利用丰富的多模态信息，准确识别道路场景下的各类感兴趣目标，给出目标类别以及三维包围盒，在保证高平均检测精度的同时极大程度降低漏检率。

Description

一种基于车端点云与图像融合的3D目标检测方法

技术领域

本发明涉及目标检测领域，尤其是一种基于车端点云与图像融合的3D目标检测方法

背景技术

近年来，人工智能相关产业迅猛发展，作为综合运用多种模式识别技术的代表行业之一，自动驾驶成为我国近年来最火热发展行业之一。在物流配送、无人出租、自动化环卫作业以及港口码头自动装卸等场景下，发展势头尤为迅猛，已经有大量技术落地实施，创造了极大的社会价值。

作为场景理解任务中的关键技术，3D目标检测在自动驾驶领域中发挥着至关重要的作用。相比于分类任务，除提供目标类别信息外，3D目标检测还提供目标三维空间内的定位信息。其技术目的是找出应用场景下所有感兴趣目标，确定其所属类别以及各自的三维包围盒。

激光雷达和RGB-D相机是应用最广泛的3D目标检测传感器，随着近年来传感器制造技术的进步以及成本的下降，对应的三维目标检测技术落地应用也愈发广泛，三维数据的爆发式增长、数据场景的多元化进一步推动了3D目标检测应用技术的发展，并且极大地提升了检测效果。

除了与无人驾驶领域的发展息息相关外，3D目标检测在其他领域也有非常广阔的应用前景，例如在增强现实领域中，在对现实场景中的目标加上虚拟效果之前，需要先对其进行空间上的位置确认，定位越准确，现实场景中的目标于虚拟场景结合地才能更紧密；再如Kinect体感应用中的三维人机交互，通过深度传感器收集深度流信息，可以完成以骨骼跟踪为代表的3D目标检测相关任务，以此为基础开发的体感试衣镜，可以让客户便捷得试穿衣服，快速得到上身效果，具有巨大的应用价值。

近年来深度学习在人工智能领域发展迅猛，以其精准的识别率和高效的计算速度使得众多计算机视觉问题的瓶颈得以突破，它能够实时地对二维图像和三维点云等多模态数据进行检测，已经在很多工业领域得以应用。而基于深度学习的3D目标检测方法也已经发展成为业界的主流方法，通过借鉴在二维目标检测中应用的成熟思路，仍有广阔的应用前景。

发明内容

本发明的目的在于提供一种基于车端点云与图像融合的3D目标检测方法，为多场景下3D目标检测提供可靠参考。

实现本发明目的的技术解决方案为：一种基于车端点云与图像融合的3D目标检测方法，由基于注意力机制改进的RetinaNet二维目标检测算法和基于特征金字塔改进的DGCNN点云特征提取算法组成，使用一种基于视锥的提取方法将点云特征投影到图像上，然后将两种算法串联融合，实现3D目标检测；

基于注意力机制改进的RetinaNet二维目标检测算法，在图像中检测二维目标，得到目标的类别、二维包围框、特征图输出等信息；

基于特征金字塔改进的DGCNN点云特征提取算法，在二维目标存在的情况下，分类并回归对应的三维包围盒；

基于视锥的提取方法将处于视锥区域内的点云信息提取出，用于对目标的三维包围盒的回归。

进一步地，所述的基于注意力机制改进的RetinaNet二维目标检测算法，由以下步骤组成：

1)以ResNet、VGG等经典卷积神经网络模型作为后端骨干网络，通过一系列卷积、池化、激活层得到输入图像不同层次的特征图；

2)每个特征图都后接一个注意力机制模块，根据网络学习到的权值，自适应地对不同通道进行加权，突出目标特征，抑制背景特征；

3)对每个经自适应加权的特征图，在经特征金字塔框架得到多尺度特征图的基础上，利用anchor生成候选区域；

4)使用检测头对候选anchor进行分类和回归，得到目标类别和二维包围框；

5)损失函数使用focal loss，针对不同类别的样本比例做出平衡，有效降低样本量大的类别在损失函数中的比重。

进一步地，所述的基于特征金字塔改进的DGCNN点云特征提取算法，由以下步骤组成：

1)对输入点云作空间变换，具体作用是：保证在旋转、平移等刚性变换下，点云识别结果唯一；

2)基于Edge Convolution构建网络结构，提取点云特征；

3)对所有特征点进行层层聚合，得到自底向上逐渐抽象的金字塔聚合特征；

4)使用mlp对聚合特征进行分类，得到目标类别信息。。

进一步地，所述的基于视锥的提取方法，其具体提取方式是：基于标定好的传感器内参数，将点云坐标以及转换矩阵转换到相机坐标系下，若转换后的点云位于视锥区域内，则提取此部分点云用于三维包围盒的回归，否则过滤掉。

进一步地，所述的基于注意力机制改进的RetinaNet二维目标检测算法中，步骤2)中注意力机制的具体作用是：对于每个特征图的channel维度，自适应地学习一个权重系数，利用学习到的权重对channel进行加权，让网络在学习过程中自行决定对哪一部分特别关注，由此达到突出目标特征、抑制背景特征的目的

所述的步骤5)中focal loss的公式如下：

focal loss(p_t)＝-μ_t(1-p_t)^λlog p_t

其中，μ_t为与各类样本比例成反比的系数，其能在一定程度上抵抗类别不平衡，λ为聚焦参数，(1-p_t)^λ代表调整因子，通过聚焦参数可以平滑地调整易于训练样本的权重。。

进一步地，所述的基于特征金字塔改进的DGCNN点云特征提取算法中，步骤3)中Edge Convolution的具体步骤是：

1)将一个含有n个点的F维点云定义为：X＝x₁，…，x_n∈R^F，简单表示时，F＝3，代表三维坐标，更一般情况下，维度F代表某一层的特征维度；

2)使用有向图G＝(v，e)表示点云局部结构，其中顶点v＝{1，…，n}，边e∈v×v，定义边缘特征如下：

e_ij＝h_θ(x_i，x_j)

其中h_θ：R^F×R^F→R^F′，是由可学习的参数θ构成的非线性函数；

3)为同时结合全局形状信息和局部邻域信息，采用以下公式对边缘特征进行扩展：

h_θ(x_i，x_j)＝h_θ(x_i，x_i-x_j)

4)将不同层次的边缘特征进行聚合拼接，使得特征金字塔中既包括低层次的普遍特征，又包含高层次的抽象特征。

本方法中对二维、三维数据的综合应用时经过实践检验并被工业界认可的配置方法，既能利用图像数据中的颜色、纹理等信息，又能发挥点云中空间结构信息的作用，是一种高效准确的3D目标检测方法，具有如下有益效果：能够综合利用丰富的多模态信息，准确识别道路场景下的各类感兴趣目标，给出目标类别以及三维包围盒，在保证高平均检测精度的同时极大程度降低漏检率。

附图说明

图1是本发明基于车端点云与图像融合的3D目标检测方法的实现流程图。

图2是图1中基于车端点云与图像融合的3D目标检测方法中基于注意力机制改进的RetinaNet二维目标检测算法的网络结构示意图。

图3是图1中基于车端点云与图像融合的3D目标检测方法中基于特征金字塔改进的DGCNN点云特征提取算法的网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的属于仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明一种基于车端点云与图像融合的3D目标检测方法，基于注意力机制改进的RetinaNet二维目标检测算法在图像中检测二维目标，得到目标的类别、二维包围框、特征图输出等信息；基于特征金字塔改进的DGCNN点云特征提取算法，在二维目标存在的情况下，分类并回归对应的三维包围盒；然后使用一种基于视锥的提取方法将点云特征投影到图像上，将两种算法串联融合，实现3D目标检测，本方法能够综合利用丰富的多模态信息，准确识别道路场景下的各类感兴趣目标，给出目标类别以及三维包围盒，在保证高平均检测精度的同时极大程度降低漏检率。

参照图1，进一步地，对于二维图像数据源，经基于注意力机制改进的RetinaNet二维目标检测算法，得到目标类别、二维包围框、特征图等信息；

进一步地，对于三维点云数据源，经视锥点云提取算法，得到对应二维包围框内的点云数据；

进一步地，根据二维包围框相对应的点云数据，使用基于特征金字塔改进的DGCNN点云特征提取算法提取点云特征；

进一步地，使用提取的点云特征进行三维目标框的回归；

进一步地，结合二维目标检测的结果，给出感兴趣目标的类别和三维包围盒信息。

Claims

1.一种基于车端点云与图像融合的3D目标检测方法，其特征在于，该方法由基于注意力机制改进的RetinaNet二维目标检测算法和基于特征金字塔改进的DGCNN点云特征提取算法组成，使用一种基于视锥的提取方法将点云特征投影到图像上，然后将两种算法串联融合，实现3D目标检测；

2.根据权利要求1所述的车端点云与图像融合的3D目标检测方法，其特征在于，所述的基于注意力机制改进的RetinaNet二维目标检测算法，由以下步骤组成：

3.根据权利要求1所述的车端点云与图像融合的3D目标检测方法，其特征在于，所述的基于特征金字塔改进的DGCNN点云特征提取算法，由以下步骤组成：

2)基于Edge Convolution构建网络结构，提取点云特征；

4)使用mlp对聚合特征进行分类，得到目标类别信息。

4.根据权利要求1所述的车端点云与图像融合的3D目标检测方法，其特征在于，所述的基于视锥的提取方法，其具体提取方式是：基于标定好的传感器内参数，将点云坐标以及转换矩阵转换到相机坐标系下，若转换后的点云位于视锥区域内，则提取此部分点云用于三维包围盒的回归，否则过滤掉。

5.根据权利要求2所述的基于注意力机制改进的RetinaNet二维目标检测算法，其特征在于，所述的步骤2)中的注意力机制，具体作用是：对于每个特征图的channel维度，自适应地学习一个权重系数，利用学习到的权重对channel进行加权，让网络在学习过程中自行决定对哪一部分特别关注，由此达到突出目标特征、抑制背景特征的目的。

6.根据权利要求2所述的基于注意力机制改进的RetinaNet二维目标检测算法，其特征在于，所述的步骤5)中的focal loss，其公式如下：

focal loss(p_t)＝-μ_t(1-p_t)^λlogp_t

其中，μ_t为与各类样本比例成反比的系数，其能在一定程度上抵抗类别不平衡，λ为聚焦参数，(1-p_t)^λ代表调整因子，通过聚焦参数可以平滑地调整易于训练样本的权重。

7.根据权利要求3所述的基于特征金字塔改进的DGCNN点云特征提取算法，其特征在于，所述的步骤3)中的Edge Convolution，具体步骤是：

e_ij＝h_θ(x_i，x_j)

h_θ(x_i，x_j)＝h_θ(x_i，x_i-x_j)