CN113160330B

CN113160330B - 基于端到端的相机与激光雷达标定方法、系统及介质

Info

Publication number: CN113160330B
Application number: CN202110411702.9A
Authority: CN
Inventors: 王贺升; 任帅旗; 郭延丰; 王光明
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2023-04-07
Anticipated expiration: 2041-04-16
Also published as: CN113160330A

Abstract

本发明提供了一种基于端到端的相机与激光雷达标定方法、系统及介质，包括：步骤1：对相机RGB图像进行逐层特征提取；步骤2：对激光雷达点云数据进行逐层特征提取；步骤3：对提取的相机RGB图像特征和激光雷达点云数据特征进行融合；步骤4：基于融合后的特征进行逐层学习相应外参标定矩阵；步骤5：对每层的外参标定矩阵进行整合，得到最终的外参标定矩阵并进行标定。本发明提升了相机与激光雷达标定的精度，改善了传统卷积神经网络方法在由点云获得的深度特征提取上的误差问题，在特征融合方式上提出了新的融合方式，在自动驾驶等场景上有实际利用价值。

Description

基于端到端的相机与激光雷达标定方法、系统及介质

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种基于端到端的相机与激光雷达标定方法、系统及介质。

背景技术

在视觉同时定位与建图(SLAM)领域中，相机一直是最常用的传感器。在实践中人们希望能在相机之外引入其他类型的传感器，从而能更全面地获取环境的信息。激光雷达可以直接得到三维信息，将扫描得到的三维点云和相机的RGB图像融合后能够进行信息的相互补充。我们可以利用激光雷达点云中的深度信息强化相机的二维RGB信息，反过来，也可以利用相机RGB信息中的色彩信息补充激光雷达点云的深度信息。因此，相机和激光雷达组成的多传感器系统成为了热门的研究方向之一。然而，要想有效地实现这种多传感器系统，我们有必要知道传感器之间的位置关系，这就是传感器标定。随着相关研究的深入，逐步出现了RGB图像与激光雷达点云的边缘特征匹配法和RGB图像三维重建点云与激光雷达点云的匹配法。这两种方法的特征都是确切的，物理意义比较明确。但明显的缺点是，特征的描述往往没有足够的区分性，这将导致匹配错误或失败，特别是在初始误差较大的情况下。深度学习的快速发展和计算机硬件性能的大幅提升使得基于深度学习的标定方法获得了工程应用上的可能。因此，可以考虑将RGB图像和激光雷达点云分别输入对应的深度学习网络，得到RGB图像和激光雷达点云的特征，然后输入匹配网络进行训练，与真值对比，使损失最小化，这就是基于深度学习的特征匹配法的基本思想。该方法的优势在于利用了深度网络强大的非线性拟合能力，是目前标定方法的重要研究方向之一。

激光雷达点云由激光雷达扫描采集的数据集合，一般包括所有扫描点的三维坐标信息和雷达反射率。传感器标定是自动驾驶等场景的基本需求。为了共同处理同一片被测量区域，有必要确定同一平台上的多传感器之间的坐标变换关系。传感器标定的结果是一个外参标定矩阵，其中包含坐标旋转量和平移量参数。特征提取是指对初始数据进行变换，获得具有某种特殊性的变换结果以方便进行下一步的学习和处理。

专利文献CN110148180A(申请号：CN201910323937.5)公开了一种激光雷达与相机融合装置与标定方法，包括竖直升降台和标定板支架；所述竖直升降台上的工作导轨上设有工作台，所述工作台上固定安装有相机和激光雷达；所述标定板支架上固定安装有标定板；所述激光雷达在所述标定板上扫描得到一条水平直线，找到此直线在标定板边界上的左右端点，然后多次移动相同间隔，便可以得到左右边线上的多组端点，拟合便可近似得到左右边界的直线方程进而得到标定板的端点；将相机图片上端点所在位置的像素点与端点对应便可以得到相机和雷达的位姿关系表达式；运用本激光雷达与相机融合标定方法能够获取雷达点云稀疏的场景下的特征，并能够解得内外参的联合表达式。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于端到端的相机与激光雷达标定方法、系统及介质。

根据本发明提供的基于端到端的相机与激光雷达标定方法，包括：

步骤1：对相机RGB图像进行逐层特征提取；

步骤2：对激光雷达点云数据进行逐层特征提取；

步骤3：对提取的相机RGB图像特征和激光雷达点云数据特征进行融合；

步骤4：基于融合后的特征进行逐层学习相应外参标定矩阵；

步骤5：对每层的外参标定矩阵进行整合，得到最终的外参标定矩阵并进行标定。

优选的，所述步骤1包括：

对于输入的RGB图像，利用由多层卷积组成的RGB特征提取模块进行特征的提取，该RGB特征提取模块由三个不同卷积核大小的特征提取模块组成，依次提取不同尺度的特征；

三个特征提取模块的卷积核大小按特征提取的先后顺序排列，依次为11×11、5×5、3×3，分别得到第一尺度特征图RF₁、第二尺度特征图RF₂、第三尺度特征图RF₃。

优选的，所述步骤2包括：

通过PointNet++网络结构的特征提取网络进行激光雷达点云数据的特征提取，激光雷达点云数据首先输入采样层进行采样，确定出K_i个采样点P_i，接着通过分组层以这些采样点为中心点进行点集区域划分，在每个区域内使用多层感知机进行特征编码，最后通过汇聚层得到的每个区域的汇聚特征，即采样点的特征向量，记为LF_i，得到K_i个激光雷达点及其特征(P_i，LF_i)，其中：i表示由粗到细的层次，i＝(1，2，3)。

优选的，所述步骤3包括：

步骤3.1：将步骤2获得K_i个激光雷达点P_i通过外参标定矩阵H_i和相机内参矩阵K投影到相机坐标系上，得到K_i个二维点组成的集合I_i，计算公式如下：

其中：H_i是上层学习到的外参标定矩阵，(u，v)是激光点云坐标投影得到的二维点组成的集合I_i的坐标；(X，Y，Z，1)是原始的三维激光点P_i的齐次坐标；Z为原始的三维激光点P_i的Z坐标；

步骤3.2：将步骤3.1获得的K_i个二维点组成的集合I_i作为图像特征RF_i的K_i个中心点坐标进行激光雷达特征对应图像特征提取，得到二维坐标点及其特征(I_i，IF_i)；

步骤3.3：对二维点组成的集合I_i通过相机内参矩阵K反投影到激光雷达坐标系下，得到三维图像点坐标及其特征(P_i，IF_i)，公式如下：

步骤3.4：将激光雷达点云特征LF_i和图像点云特征IF_i拼接在一起，得到激光雷达点云特征和图像特征融合之后的特征RLF_i。

优选的，所述步骤3.2包括：

步骤3.2.1：在图像特征RF_i上以二维点组成的集合I_i的K_i个点坐标作为中心点，采用圆查询方法，搜索半径内的所有点分成K_i个组，公式如下：

其中：(x_i，y_i)是中心点的坐标，(u_j，v_j)是除中心点外其他点的坐标，R为预先设定的半径阈值，Ω_i-group是以二维点组成的集合I_i为中心点的图像特征集合；D_ij表示点(x_i，y_i)到点(u_j，v_j)的距离；j表示除中心点外其他点的的标记；

步骤3.2.2：对得到的K_i个组进行特征提取，得到IF_i，即为激光雷达特征对应的图像特征，公式如下：

其中：MLP为利用多层感知机进行特征编码，Ω_j-group表示分组操作的结果。

优选的，所述步骤4包括：

步骤4.1：将RLF_i作为网络的输入，通过预测模块进行该层对应外参标定矩阵H_i-1的学习，该预测模块由特征匹配模块和全局回归模块组成，其中特征匹配模块由两个卷积层组成，全局回归模块由两个全连接层组成；

步骤4.2：将RLF₃输入预测模块获得该层对应的外参标定矩阵H₂，利用得到的外参标定矩阵H₂代替初始化外参矩阵H_init进行该层的特征融合，得到融合特征RLF₂，将RLF₂输入预测模块得到该层对应的外参标定矩阵H₁，将外参标定矩阵H₁作为外参标定矩阵进行特征融合，得到融合特征RLF₁，将RLF₁输入预测模块得到该层对应的外参标定矩阵H₀。

优选的，所述步骤5包括：将步骤4中得到的每层对应的外参标定矩阵H_i累乘，得到最终的外参标定矩阵H，公式如下：

H＝H₀·H₁·H₂·H_init

其中，H₀、H₁、H₂分别为第一、第二、第三层激光雷达点云特征和图像特征融合之后的特征，H_init表示给定的初始化外参矩阵。

根据本发明提供的基于端到端的相机与激光雷达标定系统，包括：

模块M1：对相机RGB图像进行逐层特征提取；

模块M2：对激光雷达点云数据进行逐层特征提取；

模块M3：对提取的相机RGB图像特征和激光雷达点云数据特征进行融合；

模块M4：基于融合后的特征进行逐层学习相应外参标定矩阵；

模块M5：对每层的外参标定矩阵进行整合，得到最终的外参标定矩阵并进行标定。

优选的，所述模块M1包括：

三个特征提取模块的卷积核大小按特征提取的先后顺序排列，依次为11×11、5×5、3×3，分别得到第一尺度特征图RF₁、第二尺度特征图RF₂、第三尺度特征图RF₃；

所述模块M2包括：

通过PointNet++网络结构的特征提取网络进行激光雷达点云数据的特征提取，激光雷达点云数据首先输入采样层进行采样，确定出K_i个采样点P_i，接着通过分组层以这些采样点为中心点进行点集区域划分，在每个区域内使用多层感知机进行特征编码，最后通过汇聚层得到的每个区域的汇聚特征，即采样点的特征向量，记为LF_i，得到K_i个激光雷达点及其特征(P_i，LF_i)，其中：i表示由粗到细的层次，i＝(1，2，3)；

所述模块M3包括：

模块M3.1：将模块M2获得K_i个激光雷达点P_i通过外参标定矩阵H_i和相机内参矩阵K投影到相机坐标系上，得到K_i个二维点组成的集合I_i，计算公式如下：

模块M3.2：将模块M3.1获得的K_i个二维点组成的集合I_i作为图像特征RF_i的K_i个中心点坐标进行激光雷达特征对应图像特征提取，得到二维坐标点及其特征(I_i，IF_i)；

模块M3.3：对二维点组成的集合I_i通过相机内参矩阵K反投影到激光雷达坐标系下，得到三维图像点坐标及其特征(P_i，IF_i)，公式如下：

模块M3.4：将激光雷达点云特征LF_i和图像点云特征IF_i拼接在一起，得到激光雷达点云特征和图像特征融合之后的特征RLF_i；

所述模块M3.2包括：

模块M3.2.1：在图像特征RF_i上以二维点组成的集合I_i的K_i个点坐标作为中心点，采用圆查询方法，搜索半径内的所有点分成K_i个组，公式如下：

模块M3.2.2：对得到的K_i个组进行特征提取，得到IF_i，即为激光雷达特征对应的图像特征，公式如下：

其中：MLP为利用多层感知机进行特征编码，Ω_j-group表示分组操作的结果；

所述模块M4包括：

模块M4.1：将RLF_i作为网络的输入，通过预测模块进行该层对应外参标定矩阵H_i-1的学习，该预测模块由特征匹配模块和全局回归模块组成，其中特征匹配模块由两个卷积层组成，全局回归模块由两个全连接层组成；

模块M4.2：将RLF₃输入预测模块获得该层对应的外参标定矩阵H₂，利用得到的外参标定矩阵H₂代替初始化外参矩阵H_init进行该层的特征融合，得到融合特征RLF₂，将RLF₂输入预测模块得到该层对应的外参标定矩阵H₁，将外参标定矩阵H₁作为外参标定矩阵进行特征融合，得到融合特征RLF₁，将RLF₁输入预测模块得到该层对应的外参标定矩阵H₀；

所述模块M5包括：将模块M4中得到的每层对应的外参标定矩阵H_i累乘，得到最终的外参标定矩阵H，公式如下：

H＝H₀·H₁·H₂·H_init

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明能够解决现有的网络结构激光点云信息利用不够和不能够适应不同初始条件的缺点，在提取激光点云特征时使用了最先进的点云特征提取网络，获得了更多的点云局部特征，为学习外参标定矩阵提供了信息；

(2)本发明使用了级联的思想，在不同的尺度上进行学习和预测，使得网络可以充分利用不同尺度特征的信息，提高了网络的准确性；

(3)相较于传统卷积神经网络，本发明误差更小，对不同初始条件适应性更强，为基于此的研究提供了便利，在自动驾驶等场景上有实际应用价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明种基于端到端的由粗到细的相机与激光雷达标定方法的系统框图；

图2是RGB特征提取框图；

图3是激光雷达点云特征提取框图；

图4是特征融合框图；

图5是特征匹配框图；

图6是全局回归框图；

图7是算法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

根据本发明提供了一种基于从粗调到细调的相机与激光雷达标定方法，如图1，包括相机RGB图像逐层特征提取步骤(A)、激光雷达点云逐层特征提取步骤(B)、两类特征逐层融合学习对应外参标定矩阵并确定最终标定矩阵步骤(C)、逐层学习相应外参标定矩阵(D)、整合得到最终的外参标定矩阵(E)。

所述相机RGB图像逐层特征提取步骤(A)，包括如下步骤：

步骤A1：对于输入的RGB图像，利用由多层卷积组成的RGB特征提取模块进行特征的提取。该RGB特征提取模块由三个不同卷积核大小的特征提取模块组成，依次提取不同尺度的特征。具体的网络结构如图2所示。

步骤A2：RGB图像经过第一个卷积核大小为11×11的二维卷积后，可得到第一个尺度的特征图，可记为RF₁，RF₁经过下一个卷积核大小为5×5的二维卷积后，类似的可得到第二个尺度的特征图，记为RF₂，RF₂经过最后一个卷积核大小3×3的二维卷积后，类似的可得到第三个尺度的特征图，记为RF₃。

所述激光雷达点云逐层特征提取步骤(B)，包括如下步骤：

步骤B1：对于输入的激光雷达点云数据，利用PointNet++网络结构的特征提取网络来进行激光雷达点云数据的特征提取。该模块具有和RGB特征提取模块同样的三层结构，针对不同尺度来进行特征提取，此外它们特征提取尺寸具有对应性。具体的网络结构如图3所示。

步骤B2：输入的激光雷达点云数据首先输入采样层，进行采样，确定出K₁个采样点P₁，接着通过一个分组层以这些采样点为中心点进行点集区域划分，在每个区域内使用多层感知机进行特征编码，最后通过汇聚层得到的每个区域的汇聚特征，即采样点的特征向量，记为LF₁，得到K₁个激光雷达点及其特征(P₁，LF₁)。将得到的(P₁，LF₁)经过上述同样的操作可以得到K₂个激光雷达点及其特征(P₂，LF₂)。类似的，将(P₂，LF₂)作为新的输入进行相同的操作可以得到K₃个激光雷达点及其特征(P₃，LF₃)。

所述两类特征逐层融合学习对应外参标定矩阵并确定最终标定矩阵步骤(C)，包括如下步骤：

步骤C1：将步骤B2获得K_i个激光雷达点P_i通过外参标定矩阵H_i和相机内参矩阵K投影到相机坐标系上，得到K_i个二维点组成的集合I_i，计算公式如下：

其中：i＝(1，2，3)，H_i是上层学习到的外参标定矩阵，H₃＝H_init由初始化得到。(u，v)是激光点云坐标投影得到的二维点组成的集合I_i的坐标；(X，Y，Z，1)是原始的三维激光点P_i的齐次坐标；Z为原始的三维激光点P_i的Z坐标。

步骤C2：将步骤C1获得的K_i个二维点组成的集合I_i作为图像特征RF_i的K_i个中心点坐标进行激光雷达特征对应图像特征提取，包括如下步骤：

步骤C2.1：在图像特征RF_i上以二维点组成的集合I_i的K_i个点坐标作为中心点，采用圆查询方法，搜索半径内的所有点分成K_i个组，公式如下：

其中：(x_i，y_i)是中心点的坐标，(u_j，v_j)是除中心点外其他点的坐标，R为预先设定的半径阈值，Ω_i-group是以二维点组成的集合I_i为中心点的图像特征集合；D_ij表示点(x_i，y_i)到点(u_j，v_j)的距离；i表示的是由粗到细的层次，取值范围为(1，2，3)；j表示除中心点外其他点的的标记。

如图4所示，右上方的图像是激光雷达点云转化为相机坐标系下的特征图，包括有4个点，左上方的图像是图像特征。将右上方图中四个激光雷达投影点的坐标对应的二维点作为分组操作的中心点，进行圆查询方法分组。如左下方图所示，四个圆环点为中心点，黑色虚线包围的点为同一组点，这就完成了分组操作。

步骤C2.2：对得到的K_i个组进行特征提取，得到IF_i，即为激光雷达特征对应的图像特征。公式如下：

其中：MLP为利用多层感知机进行特征编码；Ω_j-group表示分组操作的结果，与上文的Ω_i-group对应，一共有K_i个。

如图4所示，经过分组操作将原始图像特征分成四组，进行分组特征提取，得到右下方图所示的特征，该特征即为激光点云特征对应的图像特征。

步骤C3：将步骤C2获得的二维坐标点及其特征(I_i，IF_i)，对二维点组成的集合I_i通过相机内参矩阵K反投影到激光雷达坐标系下，得到三维图像点坐标及其特征(P_i，IF_i)，公式如下：

其中：(u，v)是二维点组成的集合I_i的坐标，(X，Y，Z)是反投影得到的三维激光点P_i的坐标。由于二维点组成的集合I_i的坐标是由三维激光点P_i的坐标投影得到，故而二维点组成的集合I_i的坐标反投影得到的是三维激光点P_i的坐标。

步骤C4：将将步骤B2获得激光雷达点云特征LF_i和步骤C3得到的图像点云特征IF_i拼接在一起，得到RLF_i，为激光雷达点云特征和图像特征融合之后的特征。

融合过程如图4所示。

所述的逐层学习相应外参标定矩阵步骤(D)，包括如下步骤：

步骤D1：将步骤C5得到的RLF_i作为网络的输入，输入预测模块来进行该层对应外参标定矩阵H_i-1的学习。该预测组件模块由特征匹配模块和全局回归模块组成，其中特征匹配模块由两个卷积层组成，全局回归模块由两个全连接层组成。

如图5所示，特征匹配模块由两个卷积层组成，它们的输出通道均为512。

如图6所示，全局回归模块由两个全连接层组成，它们的输出通道分别为512和256。

步骤D2：首先将RLF₃输入预测模块获得该层对应的外参标定矩阵H₂。之后利用得到的外参标定矩阵H₂代替步骤C中的H_init进行步骤C，完成该层的特征融合，得到融合特征RLF₂。将RLF₂输入预测模块得到该层对应的外参标定矩阵H₁。同样的，将外参标定矩阵H₁作为步骤C中的外参标定矩阵，进行特征融合，得到融合特征RLF₁。将RLF₁输入预测模块便可以得到该层对应的外参标定矩阵H₀。

所述的整合得到最终的外参标定矩阵步骤(E)，包括如下步骤：

步骤E1：将步骤D得到的每层对应的外参标定矩阵H_i累乘，便可以得到最终的外参标定矩阵H，公式如下：

H＝H₀·H₁·H₂·H_init

H_init表示给定的初始化外参矩阵。

本算法整体的流程框图如图7所示。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于端到端的相机与激光雷达标定方法，其特征在于，包括：

步骤1：对相机RGB图像进行逐层特征提取；

步骤2：对激光雷达点云数据进行逐层特征提取；

步骤4：基于融合后的特征进行逐层学习相应外参标定矩阵；

步骤5：对每层的外参标定矩阵进行整合，得到最终的外参标定矩阵并进行标定；

所述步骤1包括：

所述步骤2包括：

所述步骤3包括：

步骤3.4：将激光雷达点云特征LF_i和图像点云特征IF_i拼接在一起，得到激光雷达点云特征和图像特征融合之后的特征RLF_i；

所述步骤3.2包括：

所述步骤4包括：

步骤4.1：将RLF_i作为网络的输入，通过预测模块进行多层卷积每一层对应外参标定矩阵H_i-1的学习，该预测模块由特征匹配模块和全局回归模块组成，其中特征匹配模块由两个卷积层组成，全局回归模块由两个全连接层组成；

步骤4.2：将RLF₃输入预测模块获得多层卷积第三层对应的外参标定矩阵H₂，利用得到的外参标定矩阵H₂代替初始化外参矩阵H_init进行该层的特征融合，得到融合特征RLF₂，将RLF₂输入预测模块得到多层卷积第二层对应的外参标定矩阵H₁，将外参标定矩阵H₁作为外参标定矩阵进行特征融合，得到融合特征RLF₁，将RLF₁输入预测模块得到多层卷积第一层对应的外参标定矩阵H₀。

2.根据权利要求1所述的基于端到端的相机与激光雷达标定方法，其特征在于，所述步骤5包括：将步骤4中得到的每层对应的外参标定矩阵H_i累乘，得到最终的外参标定矩阵H，公式如下：

H＝H₀·H₁·H₂·H_init

3.一种基于端到端的相机与激光雷达标定系统，其特征在于，包括：

模块M1：对相机RGB图像进行逐层特征提取；

模块M2：对激光雷达点云数据进行逐层特征提取；

模块M5：对每层的外参标定矩阵进行整合，得到最终的外参标定矩阵并进行标定；

所述模块M1包括：

所述模块M2包括：

所述模块M3包括：

所述模块M3.2包括：

所述模块M4包括：

模块M4.1：将RLF_i作为网络的输入，通过预测模块进行多层卷积每一层对应外参标定矩阵H_i-1的学习，该预测模块由特征匹配模块和全局回归模块组成，其中特征匹配模块由两个卷积层组成，全局回归模块由两个全连接层组成；

模块M4.2：将RLF₃输入预测模块获得多层卷积第三层对应的外参标定矩阵H₂，利用得到的外参标定矩阵H₂代替初始化外参矩阵H_init进行该层的特征融合，得到融合特征RLF₂，将RLF₂输入预测模块得到多层卷积第二层对应的外参标定矩阵H₁，将外参标定矩阵H₁作为外参标定矩阵进行特征融合，得到融合特征RLF₁，将RLF₁输入预测模块得到多层卷积第一层对应的外参标定矩阵H₀；

H＝H₀·H₁·H₂·H_init

4.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。