CN114359861A

CN114359861A - 基于视觉和激光雷达的智能车辆障碍物识别深度学习方法

Info

Publication number: CN114359861A
Application number: CN202111561727.3A
Authority: CN
Inventors: 马芳武; 才子建; 代凯; 冯曙
Original assignee: Zhejiang Tianshangyuan Technology Co ltd
Current assignee: Shangyuan Zhixing Ningbo Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-15

Abstract

本发明公开了一种基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，解决了直接处理激光雷达点云数据计算量大的问题，本发明方法利用视觉信息，以包络体的方式，剔除了大量对于障碍物检测无用的点云信息，通过联合标定的方法，迅速匹配障碍物在激光雷达中的特征位置及标签，同时，本发明方法考虑了数据的波动，利用均值与方差动态调整包络体尺寸，提高点云信息的利用率，通过将筛选的3D点云数据的映射，增加二维图像中关键点的数量，提高了视觉信息的利用率；本发明方法探测距离远、精度高、可靠性强，可快速准确识别目标类别与特征，能够低成本、低复杂度、高鲁棒性地解决城市复杂工况以及恶劣天气条件下的智能车辆障碍物识别与检测问题。

Description

基于视觉和激光雷达的智能车辆障碍物识别深度学习方法

技术领域

本发明涉及智能驾驶车辆技术环境感知领域，具体是一种基于视觉和激光雷达的智能车辆障碍物识别深度学习方法。

背景技术

随着社会的快速发展和科学技术水平的不断进步，近些年来，人工智能、计算机视觉、智能装备制造等领域取得了长足的进步，智能车辆越来越成为研究的热门发展的重要领域。对于智能车辆而言，其导航系统至关重要，包括：环境感知、自主定位、路径规划以及决策控制等模块。其中，环境感知技术承担着智能车辆获取外界环境信息的重要职责，只有具有完备、准确、快速、可靠的环境感知系统，才能保证智能车辆做出轨迹规划与控制、决策，进而实现安全而稳定的自动驾驶，因此环境感知技术是智能驾驶车辆的其他模块功能正常工作以及实现安全驾驶的要求与前提。

环境感知技术是指通过智能车辆自身携带的传感器或者外部环境传感器辅助的，描述车辆当下行驶工况下周围环境信息的技术，可以依靠单一传感器也可以携带多种传感器同时进行环境感知。目前，行业内研究者在不断提高单一传感器工作能力的同时，考虑到仅仅依靠单一传感器不能够对多种多样的行驶工况进行全方位准确细致的描述，也将大部分精力投入到多传感器信息融合研究领域。结合不同传感器的优缺点，优势互补，进行车辆的环境感知工作。

现有常见的传感器包括视觉传感器和激光雷达传感器。视觉传感器，例如：单目相机、双目相机、RGB-D相机等，具有图像信息丰富、价格成本低，同时随着计算机视觉技术的发展，结合深度学习，可以轻松利用大量的图片样本，提供给深度学习算法，进行模型训练，进而能够准确地识别障碍物，但缺点是：易受天气状况、光照条件等影响，探测距离有限。而激光雷达传感器具有探测距离远、不受光照信息影响的优势，同时由于激光雷达的3D点云数据量巨大，且样本数据难以获得，利用深度学习直接进行激光雷达的障碍物识别较为困难，且难以满足实时性要求。

在申请号为202010380040.9的专利申请中提出了一种基于视觉、激光雷达和毫米波雷达的目标检测方法，主要论述了基于视觉、激光雷达和毫米波雷达的目标检测方法，但该方法过度依赖于任一传感器数据，例如当毫米波雷达数据不可信时整个方法将不能工作，且数据处理繁琐，极易受外界噪声影响。

在申请号为201910846945.8的专利申请中提出了一种应用于智能驾驶车辆上的激光雷达动态物体感知方法，主要论述了利用激光雷达检测智能驾驶车辆行驶环境中动态障碍物的问题，通过激光雷达实时扫描的点云与高精地图中环境3D静态点云做高斯相减结合点云聚类，减少了计算量，提升了精确度，但其单一激光检测受雨天影响严重，鲁棒性不好。

目前大多数技术仅仅考虑如何将视觉传感器和激光雷达传感器这两种传感器的数据进行耦合，进行联合优化，但仍存在下列问题：1)基于激光雷达的深度学习算法较为繁琐，计算量大，难以满足实时性要求；2)视觉传感器所提供的丰富语义信息没有充分利用；3)激光雷达所提供的精确测距信息没有充分利用；4)视觉与雷达融合的方案鲁棒性不强。

发明内容

本发明提出一种基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，以低成本、低复杂度、高鲁棒性地解决现有技术中所存在的问题，达到既能够实现探测距离远、精度高和可靠性强的优点，同时又能够快速准确识别目标类别与特征的效果。

本发明解决上述技术问题所采用的技术方案为：基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，包括以下步骤：

S1：在智能车辆上布置视觉传感器和激光雷达，并确定二者的相对位置关系以及二者与智能车辆中心的相对位置关系，同时建立以视觉传感器为中心的视觉传感器坐标系，建立以激光雷达为中心的激光雷达坐标系，建立以智能车辆中心为中心的车辆坐标系；

S2：对视觉传感器和激光雷达进行联合标定；

S3：利用视觉传感器采集车辆周边区域内的障碍物的二维图像，并对采集的二维图像信息进行语义分割，保留可能会阻碍智能车辆行进的物体信息作为有用信息，剔除无用信息；利用Yolov4算法对分割好的语义信息进行目标识别与检测，并标记出障碍物外轮廓，形成数据集A；

S4：对步骤S3中检测出的障碍物图像进行特征、关键点提取，选取描述障碍物外轮廓的关键点，并记录选取的关键点相对于障碍物中心点的坐标，获取视觉传感器的深度信息，形成关键点集B；

S5：将关键点集B中的数据通过视觉传感器坐标系和激光雷达坐标系之间的变换矩阵，转换到激光雷达坐标系下，生成坐标集C；

S6：将激光雷达坐标系下的坐标集C，与3D点云库中的3D点云进行深度搜索匹配，建立表述障碍物轮廓尺寸的3D包络体；

S7：获得激光雷达深度学习样本数据串Ψ、视觉传感器深度学习样本数据串Ψ'；

S8：利用深度学习算法，在深度学习框架下，分别对获得的激光雷达深度学习样本数据串Ψ、视觉传感器深度学习样本数据串Ψ'进行训练，分别得到激光雷达训练模型与视觉传感器训练模型；

S9：对所获得的激光雷达训练模型与视觉传感器训练模型进行迭代优化。

作为优选，步骤2的具体流程为：

S2-1：采用统一采样频率和统一坐标系的方法，实现视觉传感器与激光雷达采集的信息在空间上与时间戳上的信息同步；

S2-2：根据视觉传感器和激光雷达的安装位置，首先对视觉传感器进行标定，获取视觉传感器的内参矩阵K、外参旋转矩阵R和外参变换矩阵T，其中内参矩阵K为：

其中f_x、f_y分别为视觉传感器的横焦距、纵焦距，c_x、c_y分别为视觉传感器的光学中心；

进而可以获得车辆坐标系下的三维坐标点与视觉传感器坐标系下的二维像素点的关系公式：

其中Z_c表示空间点在视觉传感器坐标系下的Z轴坐标，P_w表示车辆坐标系下的三维坐标点，(u,v)表示三维坐标点对应的二维像素坐标；

S2-3：对视觉传感器和激光雷达进行联合外参标定，在视觉传感器坐标系和激光雷达坐标系之间建立一个通过变换矩阵表示的变换关系，使视觉传感器坐标系采集的图像数据与激光雷达采集的数据相对应，其中变换公式为：

其中M表示激光雷达坐标系与视觉传感器坐标系之间的转换关系，由一个4×4的齐次变换矩阵组成，(x_lp,y_lp,z_lp)表示激光雷达点云数据下的三维点坐标，其映射到视觉传感器的像素平面的二维对应坐标为(u,v)。

作为优选，步骤3的具体流程为：

S3-1：对视觉传感器采集的二维图像，利用计算机视觉，对二维图像信息进行语义分割，分成敏感区图像块与不敏感区图像块，保留敏感区图像块，剔除不敏感区图像块，其中，敏感区图像块指的是对智能车辆的行进可能会造成阻碍的图像区域，不敏感区图像块指的是对智能车辆的行进不会造成影响的图像区域；

S3-2：利用Yolov4算法将分割得到的敏感区图像块进行识别与检测，对智能车辆行驶轨迹前方构成障碍物的物体进行筛选，检测出障碍物图像；

S3-3：将检测出的障碍物图像用长方形框线标出，并记录长方形框线的中心点的二维坐标、长方形框线的像素尺寸、障碍物信息标签，形成数据集A：

A＝{{u₁,v₁,a₁,b₁,其他车辆1}.....{u_N,v_N,a_N,b_N,障碍物N}}

其中u_N、v_N表示长方形框线的中心点的二维坐标，a_N、b_N表示长方形框线的像素尺寸，N表示检测到的障碍物个数，N为≥1的整数。

作为优选，步骤4的具体流程为：

S4-1：利用SIFT算法对步骤S3中检测出的障碍物图像进行关键点提取，选取多个能够清晰描述障碍物信息的关键点；

S4-2：选取落在长方形框线内的关键点进行保存，作为有价值点，同时保存每个有价值点相对于障碍物中心点的坐标，作为关键信息；

S4-3：对步骤S4-2中选取的有价值点进行深度恢复，获取视觉传感器的深度信息，并将获取的视觉传感器的深度信息和关键信息加入到步骤S3中形成的数据集A中，形成关键点集B。

作为优选，步骤6的具体流程为：

S6-1：将长方形框线的中心点的三维坐标记为(X,Y,Z)，计算坐标集C中全部点的三维坐标的均值u_x、u_y、u_z与方差δx、δy、δz，并标记均值点(u_x,u_y,u_z)；

S6-2：建立表述障碍物轮廓尺寸的3D包络体，该3D包络体的建立方法为：

首先，以坐标集C中在X轴、Y轴和Z轴上距离均值点最远的三个点作为3D包络体的三个顶点；其次，对于三个顶点和均值点构成的长方体，分别以三个顶点为起点，向X轴、Y轴和Z轴正方向各延伸(X-u_x|+δ_x)、(Y-uy|+δ_y)、(Z-u_z|+δ_z)距离作为误差层，增加包络体的体积，以缓冲因转换生成坐标集C而导致的匹配误差，得到最终的3D包络体。

作为优选，步骤7的具体流程为：

S7-1：将步骤S6中建立的3D包络体中囊括的3D点云数据从3D点云库中提取出来，得到3D点云数据组，将障碍物信息标签赋值3D点云数据组，得到数据集W₁，数据集W₁是一组具有障碍物特征属性且包含激光雷达数据的数据包；将从3D点云库中提取出来的3D点云数据通过视觉传感器坐标系和激光雷达坐标系之间的变换矩阵，转换到视觉传感器坐标系下，并记录点云深度信息与障碍物信息标签，形成激光雷达的3D点云数据映射到视觉传感器的二维图像信息坐标的有效障碍物点云关键点集W'₁；

S7-2：重复步骤S7-1，数据集W₁迭代更新，视觉传感器每次输出一组新的坐标集C到激光雷达坐标系下，就会产生一组新的数据集W_i，并相应得到一组新的有效障碍物点云关键点集W'_i，其中i为≥1的整数，最终形成大量的数据串记作Ψ＝{W₁,W₂,W₃.....W_i}，即激光雷达深度学习样本数据串Ψ，并形成大量的数据串记作Ψ'＝{W'₁,W'₂,W'₃.....W'_i}，即视觉传感器深度学习样本数据串Ψ'。

与现有技术相比，本发明具有如下优点：

1)本发明利用了视觉传感器和激光雷达两种传感器的信息，优势互补，降低了算法的复杂程度，弥补了单一传感器的缺陷，构成了一种探测距离远、精度高、可靠性强同时又可快速准确识别目标类别与特征的障碍物检测与识别技术，能够低成本、低复杂度、高鲁棒性地解决城市复杂工况以及恶劣天气条件下的智能车辆障碍物识别与检测问题；

2)本发明不局限于单一的视觉系统形式，具有更强的应用性；

3)本发明解决了直接处理激光雷达点云数据计算量大的问题，本发明方法利用视觉信息，以包络体的方式，剔除了大量对于障碍物检测无用的点云信息，通过联合标定的方法，迅速匹配障碍物在激光雷达中的特征位置及标签，同时，本发明方法考虑了数据的波动，利用均值与方差动态调整包络体尺寸，提高点云信息的利用率，通过将筛选的3D点云数据的映射，增加二维图像中关键点的数量，提高了视觉信息的利用率；

4)本发明方法对激光雷达、视觉传感器两种不同的深度学习模型进行训练，训练完成后的模型，可以同时工作优势互补，当任一传感器单独工作时，又可以兼容另一传感器的学习特征，检测准确率高，鲁棒性强。

附图说明

图1为实施例中基于视觉和激光雷达的智能车辆障碍物识别深度学习方法的流程图；

图2为实施例中视觉传感器和激光雷达的安装位置俯视示意图；

图3为实施例中视觉传感器和激光雷达联合外参标定示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

实施例：基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其流程图如图1所示，包括以下步骤：

S1：在智能车辆上布置视觉传感器和激光雷达(本实施例中，视觉传感器采用双目摄像头，视觉传感器和激光雷达的安装位置如图2所示，视觉传感器和激光雷达前后安装在智能车辆上)，并确定二者的相对位置关系以及二者与智能车辆中心的相对位置关系，同时建立以视觉传感器为中心的视觉传感器坐标系，建立以激光雷达为中心的激光雷达坐标系，建立以智能车辆中心为中心的车辆坐标系；

S2：对视觉传感器和激光雷达进行联合标定，具体流程为：

其中M表示激光雷达坐标系与视觉传感器坐标系之间的转换关系，由一个4×4的齐次变换矩阵组成，(x_lp,y_lp,z_lp)表示激光雷达点云数据下的三维点坐标，其映射到视觉传感器的像素平面的二维对应坐标为(u,v)；

S3：利用视觉传感器采集车辆周边区域内的障碍物的二维图像，并对采集的二维图像信息进行语义分割，保留可能会阻碍智能车辆行进的物体信息作为有用信息，剔除天空、远处高楼建筑等无用信息；利用Yolov4算法对分割好的语义信息进行目标识别与检测，并标记出障碍物外轮廓，形成数据集A；具体流程为：

S3-1：对视觉传感器采集的二维图像，利用计算机视觉，对二维图像信息进行语义分割，分成敏感区图像块与不敏感区图像块，保留敏感区图像块，剔除不敏感区图像块，其中，敏感区图像块指的是对智能车辆的行进可能会造成阻碍的图像区域(例如：前方道路上的障碍物、路边的行人等移动物体)，不敏感区图像块指的是对智能车辆的行进不会造成影响的图像区域(例如天空、远处的高层建筑等)，通过对视觉图像进行语义分割能够减小图像处理的计算量，只关注敏感区域，同时能够有效降低误判率；

S3-2：利用Yolov4算法将分割得到的敏感区图像块进行识别与检测，对智能车辆行驶轨迹前方构成障碍物的物体进行筛选(例如：其他车辆、行人、建筑物等)，检测出障碍物图像，其中，Yolov4算法为预先训练好的模型，只需将视觉传感器的视觉信息输入到算法模型中即可完成二维图像的障碍物识别与检测；

A＝{{u₁,v₁,a₁,b₁,其他车辆1}.....{u_N,v_N,a_N,b_N,障碍物N}}

其中u_N、v_N表示长方形框线的中心点的二维坐标，a_N、b_N表示长方形框线的像素尺寸，N表示检测到的障碍物个数，N为≥1的整数；

S4：对步骤S3中检测出的障碍物图像进行特征、关键点提取，选取描述障碍物外轮廓的关键点，并记录选取的关键点相对于障碍物中心点的坐标，获取视觉传感器的深度信息，形成关键点集B；具体流程为：

S4-2：选取落在长方形框线内的关键点进行保存，作为有价值点，同时保存每个有价值点相对于障碍物中心点的坐标，作为关键信息，其中，在选取关键点的过程中，由于不同障碍物的外轮廓复杂程度不同，考虑到障碍物的大小、外轮廓图形复杂程度等因素，以至少能够清晰描述障碍物信息不至于出现歧义的原则，尽可能多地选取关键点；

S4-3：对步骤S4-2中选取的有价值点进行深度恢复，获取视觉传感器的深度信息，并将获取的视觉传感器的深度信息和关键信息加入到步骤S3中形成的数据集A中，形成关键点集B，本实施例中，由于视觉传感器采用双目摄像头，因此可以利用左右摄像头视差恢复深度，在实际应用中，根据视觉传感器的不同可以运用不同的方法恢复深度信息，如单目相机可以利用三角化的方法测量关键点的深度；

S6：将激光雷达坐标系下的坐标集C，与3D点云库中的3D点云进行深度搜索匹配，建立表述障碍物轮廓尺寸的3D包络体；具体流程为：

S6-1：实际上坐标集C中的信息即是视觉传感器坐标系下障碍物关键点信息在激光雷达坐标系上的投影，而各个关键点的深度是没有变化的，即通过视觉方法测量的深度，显然激光雷达点云库中的3D点云不可能与坐标集C中的三维点一一对应，因此，将长方形框线的中心点的三维坐标记为(X,Y,Z)，计算坐标集C中全部点的三维坐标的均值u_x、u_y、u_z与方差δx、δy、δz，并标记均值点(u_x,u_y,u_z)；

首先，以坐标集C中在X轴、Y轴和Z轴上距离均值点最远的三个点作为3D包络体的三个顶点；其次，对于三个顶点和均值点构成的长方体，分别以三个顶点为起点，向X轴、Y轴和Z轴正方向各延伸(X-u_x|+δ_x)、(Y-uy|+δ_y)、(Z-u_z|+δ_z)距离作为误差层，增加包络体的体积，以缓冲因转换生成坐标集C而导致的匹配误差，得到最终的3D包络体；上述通过误差层形式上增加的体积能够提高点云信息的利用率，同时不至于增加错误匹配；

S7：获得激光雷达深度学习样本数据串Ψ、视觉传感器深度学习样本数据串Ψ'，具体流程为：

将3D包络体中囊括的3D点云数据作为敏感点从点云库中提出的做法大大减小了有效点云的规模，剔除了对障碍物检测没有价值的点；此外，将从激光雷达点云库中提取的3D包络体中囊括的3D点云数据，通过视觉传感器坐标系和激光雷达坐标系之间的变换矩阵，将点云数据映射到视觉传感器对应的二维图像中，同时保留深度信息及障碍物信息标签，其意义在于3D点云数据量远远大于二维图像中的关键点个数，通过增加描述障碍物特征的像素信息，能够提供更多的关键点对障碍物的识别与检测提供更多的数据；

S7-2：重复步骤S7-1，数据集W₁迭代更新，视觉传感器每次输出一组新的坐标集C到激光雷达坐标系下，就会产生一组新的数据集W_i，并相应得到一组新的有效障碍物点云关键点集W'_i，其中i为≥1的整数，最终形成大量的数据串记作Ψ＝{W₁,W₂,W₃.....W_i}，即激光雷达深度学习样本数据串Ψ，并形成大量的数据串记作Ψ'＝{W'₁,W'₂,W'₃.....W'_i}，即视觉传感器深度学习样本数据串Ψ'；

随着视觉传感器不断生成障碍物的信息与语义标签，不断转移到激光雷达坐标系下，与3D点云库中的点云进行搜索与匹配，输出自带标签的样本数据串，同时大量的3D点云映射回二维图像平面，提供丰富的关键点信息，结合精准的深度信息与障碍物信息标签，不需要手动标注，大大提高了工作效率，在短时间内生成大量的样本，以供模型训练；

S9：对所获得的激光雷达训练模型与视觉传感器训练模型进行迭代优化，对训练成功的模型进行准确率检验，通过不断调整3D包络体的尺寸，在大量的数据驱动下，优化模型参数信息，不断提高检测的效率。

将完成训练后的激光雷达、视觉传感器深度学习系统应用到无人驾驶车辆上，在视觉传感器不工作的情况下，也可以只利用激光雷达快速地识别障碍物，并分类；在激光雷达不工作的情况下，也可以只利用视觉传感的深度学习方法快速地识别障碍物，并分类。将在两个传感器坐标系下检测到的障碍物信息转换到智能车辆坐标系下，完成智能车辆的障碍物识别与检测工作。

至此，视觉传感器与激光雷达在短时间内获得大量的训练样本数据，不断迭代优化激光雷达、视觉传感器障碍物检测的深度学习模型，提高检测障碍物的准确率，在不受光照、天气等外界环境因素的影响下，两种传感器协同工作，检测的鲁棒性更强。在视觉信息受到外界环境影响时，例如夜晚或照明条件不好的情况下，激光雷达检测模型占主导，同时考虑视觉信息检测结果；在激光雷达受到干扰时，以视觉传感器检测模型为主导，同时考虑激光雷达检测结果，大大提到了感知提供的容错性。

以上实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其特征在于，包括以下步骤：

S2：对视觉传感器和激光雷达进行联合标定；

2.根据权利要求1所述的基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其特征在于，步骤2的具体流程为：

3.根据权利要求1或2所述的基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其特征在于，步骤3的具体流程为：

A＝{{u₁,v₁,a₁,b₁,其他车辆1}.....{u_N,v_N,a_N,b_N,障碍物N}}

4.根据权利要求3所述的基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其特征在于，步骤4的具体流程为：

5.根据权利要求4所述的基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其特征在于，步骤6的具体流程为：

首先，以坐标集C中在X轴、Y轴和Z轴上距离均值点最远的三个点作为3D包络体的三个顶点；其次，对于三个顶点和均值点构成的长方体，分别以三个顶点为起点，向X轴、Y轴和Z轴正方向各延伸(|X-u_x|+δ_x)、(|Y-uy|+δ_y)、(|Z-u_z|+δ_z)距离作为误差层，增加包络体的体积，以缓冲因转换生成坐标集C而导致的匹配误差，得到最终的3D包络体。

6.根据权利要求5所述的基于视觉和激光雷达的智能车辆障碍物识别深度学习方法，其特征在于，步骤7的具体流程为：