CN114972541B

CN114972541B - 基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法

Info

Publication number: CN114972541B
Application number: CN202210687895.5A
Authority: CN
Inventors: 王伟
Original assignee: Cathay Nebula Science & Technology Co ltd
Current assignee: Cathay Nebula Science & Technology Co ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2024-01-26
Anticipated expiration: 2042-06-17
Also published as: CN114972541A

Abstract

本发明公开了一种基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，包括如下步骤：步骤一、双目相机与三维激光雷达的联合标定；步骤二、基于PSMNet的双目视差数据获取；步骤三、基于MV3D‑Net的障碍物检测与立体防撞判断。与现有技术相比，本发明的积极效果是：本发明有效克服了单一传感器所提供的数据特征单一的缺点，将点云数据和视差数据融合，使得被检测区域数据更为丰富，可检测更远和更小的物体，具有更好的抗干扰能力，降低了障碍物的误检率和漏检率，提高了RTG防撞功能的适用性和准确性。

Description

基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法

技术领域

本发明涉及一种基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法。

背景技术

目前，现有的轮胎吊起重机(Rubber Tyre Gantry，缩写RTG)的防撞方法主要有：1)基于二维激光雷达的防撞方法；2)基于视觉深度学习的防撞方法；3)基于双目视觉的防撞方法；4)基于激光视觉融合的特征提取防撞方法；其中：

1)基于二维激光雷达的防撞方法，该方法通过以二维激光雷达自身坐标系为基准，根据安装位置预先设定固定的防护区域，并在区域内检测是否存在激光点数据及其特征，进而判断是否存在障碍物以及障碍物所在位置，从而实现防碰撞功能。该方法具备实现简单、便于安装应用等优点。但由于二维激光雷达检测区域为空间平面，因此可防护的障碍物受限，必须足够高且处于检测平面内；另外由于二维激光雷达数据特征单一，易受噪声点影响，环境适应性差，存在误报频繁的问题。

2)基于视觉深度学习的防撞方法，该方法通过摄像机对防护区域进行拍照采集图像数据，然后通过对图像数据进行基于神经网络的深度学习，对障碍物进行检测识别，从而实现防碰撞功能。该方法具有成本低、应用简单同时可实现立体防撞等优点。但该方法基于视觉图像处理的方式，对障碍物位置的识别存在弊端，无法准确获取与障碍物的距离，因此导致其防撞控制策略单一，用户体验感差；同时该方法对地面有积水或油污等的情况，容易识别错误，产生误报。

3)基于双目视觉的防撞方法，该方法基于视差的原理实现获取带有深度信息的图像数据，然后采用基于特征识别的方法对带有深度信息的图像数据进行处理，实现检测区域内障碍物的识别，同时定位出障碍物的位置，进而实现防碰撞功能。但该方法存在检测距离较小、检测精度差、对于较小障碍物容易漏识别等问题，进而影响防撞使用效果。

4)基于激光视觉融合的特征提取防撞方法，该方法通过将点云数据和图像数据融合成RGB-D数据，利用特征提取的方法来检测障碍物，该方法能够克服激光点云特征识别困难、减缓图像数据易受干扰的影响。但是，在特征提取时需要人为设计特征，对于特定的规则物体有效，对于非设计规则的物体特征提取困难，从而限制了该方法的适用性。

基于以上方法存在的缺陷，本发明将三维激光雷达、双目相机作为传感器单元，提出一种基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法。

发明内容

为了克服现有技术的上述缺点，本发明提出了一种基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法。

本发明解决其技术问题所采用的技术方案是：一种基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，包括如下步骤：

步骤一、双目相机与三维激光雷达的联合标定；

步骤二、基于PSMNet的双目视差数据获取；

步骤三、基于MV3D-Net的障碍物检测与立体防撞判断。

与现有技术相比，本发明的积极效果是：

本发明将三维激光雷达和双目相机融合，充分利用点云数据的高精度和双目视差数据高稠密性的特点，通过人为标定之后将两种数据进行融合，从而获得更为稠密的、精确的数据。再通过以深度学习为基础框架的多模态数据检测网络MV3D-Net方法进行自动识别，并自动计算障碍物的三维包围盒信息(3DBox)，提高了检测的自动化程度。最后，根据包围盒中心到仪器安装位置的水平距离d，做最终的防撞状态判断。该方法有效克服了单一传感器所提供的数据特征单一的缺点，将点云数据和视差数据融合，使得被检测区域数据更为丰富，可检测更远和更小的物体，具有更好的抗干扰能力，降低了障碍物的误检率和漏检率，提高了RTG防撞功能的适用性和准确性。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的整体结构的俯视图；

图2是本发明的三维激光雷达与双目相机标定图；

图3是本发明标定板的结构图。

具体实施方式

本发明的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法：

首先，人为的标定双目相机和三维激光雷达基于安装位置的外参数据，得到旋转矩阵R_3×3,和平移矩阵T_3×1，并标定各传感器的内参数据。其次，根据实际的激光扫描仪的安装位置和激光点云扫描数据的范围，划分数据检测范围得到初步的感兴趣区域ROI(Regionof Interested)，即在包含车道线的基础上再外扩一定范围的区域，利用PSMNet(PyramidStereo Matching Network)立体匹配网络获得双目相机的视差图像数据。再次，将点云数据(X,Y,Z,I)和视差图像数据(R,G,B)作为基本的数据源，制作训练样本数据和测试样本数据，并将训练样本输入到MV3D-Net(Multi-View 3D Object Detection Network forAutonomous Driving)中利用MV3D-Net检测框架，得到MV3D-Net的训练模型参数。最后，根据训练得到的参数模型，检测ROI区域内是否出现障碍物。若出现障碍物，根据实时检测出的3D Box(三维包围框)计算其中心到传感器安装位置的水平距离d，来做最终的防撞判断。具体包括如下步骤：

1)双目相机与三维激光雷达的联合标定，主要是通过人工制作的标定板，标定出双目相机和三维激光雷达的内、外参数信息，为后续的数据融合做准备。

2)基于PSMNet的双目视差数据获取，主要是通过PSMNet框架获取双目相机左、右图像的视差图像数据，获得稠密的视差数据信息。

3)基于MV3D-Net的障碍物检测与立体防撞判断，主要是通过多模数据检测网络，对ROI区域内的数据进行实时的检测，检测是否含有障碍物，若有，则计算其包围盒信息，进而得到障碍物到传感器安装位置的距离d，以此为基准作出防撞判断。

以下将结合附图对本发明方法进行详细描述：

本发明的整体场景结构如图1所示，包括：轮胎吊1、电气房2、轮胎吊车道线3、三维激光扫描仪4、双目视觉相机5、堆场集装箱6、三维激光扫描仪线7、双目视觉相机采集边界线8、轮胎吊电控系统PLC 9、计算机10、报警器11。轮胎吊司机驾驶轮胎吊1在堆场轨道线3内行驶时，位于轮胎吊电气房2内的计算机10实时获取安装在轮胎吊四个门腿上的三维激光扫描仪4的点云数据和双目视觉相机5的双目视差数据。计算机10通过视差计算方法标定好的参数信息做数据融合，然后根据障碍物实时检测框架检测出轮胎吊轨道线3内是否存在障碍物，并将检测信息通过轮胎吊控制系统PLC 9传递出去，若有障碍物，则报警器11进行鸣笛报警，轮胎吊控制系统PLC 9对轮胎吊进行减速控制。若无障碍物，则轮胎吊正常行驶。

基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法具体流程如下：

1.双目相机与三维激光雷达的联合标定

1.1标定中的传感器坐标系

双目相机和三维激光雷达涉及到的四种坐标系统：世界坐标系(O_w-XYZ)、激光雷达坐标系(O_L-X_LY_LZ_L)、摄像机坐标系(O_C-X_CY_CZ_C)和图像坐标系包括图像物理坐标系(O′_C-X′_C Y′_C)、以及图像像素坐标系(O-UV)。其中各坐标系之间的转换关系如下：

1.1.1摄像机坐标系与激光雷达坐标系的关系

摄像机坐标系和激光雷达坐标系之间的位姿关系可以根据旋转、平移矩阵计算得到。

其中：R＝R_zR_yR_x，T＝[t_x t_y t_z]^T

其中，R为旋转矩阵，α，β，γ分别为激光雷达坐标系在摄像机坐标系中沿着X_C,Y_C,Z_C轴方向的偏转角度。T为平移矩阵，表示两坐标系之间的相对位置关系即激光雷达坐标系的原点在摄像机坐标系中的坐标值。

1.1.2摄像机坐标系和图像坐标系的关系

摄像机坐标系到图像坐标系的转换是从三维空间点坐标到二维平面坐标的转换过程。将三维空间中的一个物点P(X_C,Y_C,Z_C)成像到像素平面上的点P′(X′_C,Y′_C)，关系式如下：

P′(X′_C,Y′_C)点的图像物理坐标与像素坐标(u,v)的转换关系如下：

其中，d_x、d_y、r、u₀、v₀为摄像机的内部参数；d_x、d_y分别为摄像机的单个像素在X′_C和Y′_C方向上的物理尺寸；r是倾斜比例因子，在一般标准相机中为0；(u₀,v₀)是图像主点坐标。

1.1.3激光雷达坐标系与图像像素坐标系的关系

由公式(1)、(2)、(3)可以得到激光雷达坐标系和图像像素坐标系的转换关系为：

其中：f_x＝f/d_x和f_y＝f/d_y表示X′_C和Y′_C轴方向上的等效焦距，通常为定值f。

1.2联合标定算法

本发明中使用的三维激光雷达和双目相机的装置如图2所示，以此来估算旋转矩阵R和平移矩阵T。标定实验中使用到的标定板如图3所示。首先使用图2中的黑白相间的棋盘格标定板对双目相机进行标定，得到双目相机的内外参数。与此同时双目相机和三维激光雷达同时采集标定板中圆孔的位置，以此作为特征点，计算激光雷达坐标系和摄像机坐标系之间的旋转矩阵R和平移矩阵T。具体流程如下：1>首先对双目相机进行标定，获得双目相机的内外参数。2>双目相机采集圆孔标定板图像，提取二维图像中圆孔的圆心坐标以及半径r_i(i＝1,2,3……16,17,18)。3>三维激光雷达扫描标定板，获取圆形点云中心点坐标/>和半径R_i。4>选取四个圆心作为特征点，建立三维激光雷达坐标/>到二维图像坐标/>的坐标转换约束关系(R,T)。本发明中，为减小计算量并减少随机误差的影响，随机选取四组相邻的圆心参与计算，求取平均值作为最终的(R,T)。构建优化函数：

多次求解之后取均值得到最终的旋转和平移矩阵(R,T)。

2.基于PSMNet的双目视差数据获取

本发明中的双目视觉相机数据，是根据双目相机的左、右视图数据计算得到的视差数据。目的是为了利用视差数据的稠密特性，与点云数据做融合，将融合之后的数据作为最终的输入。本发明中采用的双目视觉视差计算方法是PSMNet。PSMNet模型包含了一个空间金字塔池化(Spatial Pyramid Pooling,SSP)模块用于全局特征的提取，以及一个堆叠的沙漏结构用于匹配代价的聚合。

2.1空间金字塔池化结构

PSMNet通过空间金字塔池化结构结合上下文信息对输入的图像进行特征提取。与传统的CNN相比，空间金字塔池化结构具有训练图像尺寸多样性的特点，相比于单一尺寸的训练图像更加容易收敛。并且对于不同尺寸的输入，都能够得到固定尺寸的输出。

PSMNet中设计了4个尺度的平均池化：64×64，32×32，16×16，8×8。空间金字塔池化结构通过这4个平均池化层将提取到的图像特征压缩到4个尺度上，然后使用1×1的卷积层来减少特征的维度。然后，将低维度的特征图通过双线性插值的方法进行上采样以恢复到原始图像的尺寸。

2.2匹配代价立方体

PSMNet中通过结合左右图中每个视差值对应的特征图，来构建一个四维的匹配代价立方体(高×宽×视差×特征图大小)。

在将由空间金字塔池化结构得到特征构建成匹配代价立方体后，需要在视差维度和空间维度上对特征信息进行聚合。PSMNet中提出了两种类型的3DCNN结构来聚合特征信息：基础结构和堆叠的沙漏结构。在基础结构中，网络由简单的残差块构成，包括12个3×3×3的卷积层。之后通过双线性插值的上采样将匹配代价立方体恢复到H×W×D，H和W表示图像的原始高和宽，D表示最大视差。根据恢复之后的匹配代价立方体来计算最终尺寸为H×W的视差图。与基础结构相比，为了提取更多的特征信息，采用了沙漏结构。沙漏结构是一种编码解码的结构，由多个重复的自上而下，自下而上的过程构成。此处使用了三个堆叠的沙漏结构，每一个沙漏结构都会生成一个视差图，以此获得三个输出和三个损失。在训练的过程中，损失是由三个损失加权求和得到。在测试的过程中，将第三个沙漏结构输出的视差图作为最终的视差图。

2.3视差回归

通过3D CNN操作可以获取到一个H×W×D的匹配代价立方体，对于图像上的每一个像素点，我们通过softmax操作来计算每一个视差d的可能性σ：

预测视差值由每一个视差值乘以其对应的可能性求和得到，如下式：

式中，c_d表示视差为d时的匹配代价。相比于MC-CNN这种基于分类的方法，通过视差回归得到的结果鲁棒性会更强。

2.4损失函数

损失函数的计算采用Smooth L₁ loss，对比L₂loss，它具有更高的鲁棒性且对于异常点更不敏感。Smooth L₁loss定义如下：

损失函数定义如下：

式中，N表示Ground Truth中像素点的数量，d是真实视差值，是预测视差值。

3.基于MV3D-Net的障碍物检测与立体防撞判断

根据实际的激光雷达的安装位置和激光点云扫描数据的范围，划分点云数据得到初步的检测区域。获得双目相机的视差图像数据，将点云数据(X,Y,Z,I)和视差图像数据(R,G,B)作为基本的数据源并划分ROI区域，并制作训练样本数据和测试样本数据。训练样本输入到MV3D-Net中利用MV3D-Net检测框架，检测ROI区域内是否出现障碍物，并得到MV3D-Net的训练模型参数。

MV3D-Net是经典的3D目标检测网络，融合了视觉图像和激光雷达点云信息；它用了点云的俯视图和前视图，减少了计算量并保留了主要的特征信息，是目前主流的多模式目标检测网络。

在ROI中检测区域内，人为制作训练数据集，训练数据集包含堆场障碍物检测中常见到的遮挡物体数据(如人、箱子、包、梯子等)，利用该类型数据训练MV3D-Net网络，得到训练模型参数，在后续的RTG行走的车道线内对障碍物目标进行检测。

若在RTG行车道上有障碍物，利用MV3D-Net网络中的3DBox Regression作为三维物体的检测包围盒，检测3D Box的8个顶点，得到包围盒的中心，并计算包围盒的中心到激光雷达的水平距离d，以此来判断RTG的防撞状态。若距离d大于预先给定的防撞阈值D，计算机发出警报指令给警报器，以警示司机慢速。若障碍物在较近的距离，计算机发出停车指令，通过RTG相连的PLC发送信号，RTG停止行走。

Claims

1.一种基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：包括如下步骤：

步骤一、双目相机与三维激光雷达的联合标定；

步骤二、基于PSMNet的双目视差数据获取；

步骤三、基于MV3D-Net的障碍物检测与立体防撞判断：

（1）根据实际的激光雷达的安装位置和激光点云扫描数据的范围确定ROI区域；

（2）将激光点云数据和双目视差数据作为基本的数据源，制作训练样本数据和测试样本数据；

（3）利用训练样本数据对MV3D-Net模型进行训练；

（4）利用训练好的MV3D-Net模型检测ROI区域内是否出现障碍物，并在出现障碍物时，根据实时检测出的3D Box计算其中心到激光雷达的水平距离d，以此作出防撞判断。

2.根据权利要求1所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：步骤一所述双目相机与三维激光雷达的联合标定方法包括如下步骤：

第一步、使用黑白相间的棋盘格标定板对双目相机进行标定，获得双目相机的内外参数；

第二步、利用双目相机采集标定板图像，提取二维图像中圆孔的圆心坐标以及半径/>；

第三步、利用三维激光雷达扫描标定板，获取圆形点云中心点坐标和半径/>；

第四步、选取四个圆心作为特征点，建立三维激光雷达坐标到二维图像坐标/>的坐标转换约束关系(R, T)。

3.根据权利要求2所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：求取 (R,T)的方法为：随机选取四组相邻的圆心参与计算，构建优化函数，经过多次求解之后取均值得到最终的 (R,T)。

4.根据权利要求1所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：PSMNet模型包含用于全局特征提取的空间金字塔池化结构，以及用于匹配代价聚合的沙漏结构。

5.根据权利要求4所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：空间金字塔池化结构通过4 个平均池化层将提取到的图像特征压缩到 4 个尺度上，然后使用 1 × 1的卷积层来减少特征的维度，最后将低维度的特征图通过双线性插值的方法进行上采样以恢复到原始图像的尺寸。

6.根据权利要求5所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：4 个平均池化层的尺度分别为：，/>。

7.根据权利要求4所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：采用三个堆叠的沙漏结构来计算最终尺寸为 H × W 的视差图，每一个沙漏结构生成一个视差图，以此获得三个输出和三个损失，在训练的过程中，损失由三个损失加权求和得到，在测试的过程中，将第三个沙漏结构输出的视差图作为最终的视差图。

8.根据权利要求7所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：损失函数按如下公式计算：

，

式中，N 表示 Ground Truth 中像素点的数量，d 是真实视差值，是预测视差值；其中：

（1），

（2），

式中，表示视差为 d 时的匹配代价，/>表示视差为d 的可能性。

9.根据权利要求1所述的基于三维激光雷达和双目相机融合的轮胎吊立体防撞方法，其特征在于：训练样本数据为位于ROI区域内，堆场障碍物检测中常见的遮挡物体数据，包括人、箱子、包、梯子。