CN111353481A

CN111353481A - 基于激光点云与视频图像的道路障碍物识别方法

Info

Publication number: CN111353481A
Application number: CN202010385222.5A
Authority: CN
Inventors: 吴媛媛; 耿帅; 李章杰
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2019-12-31
Filing date: 2020-05-09
Publication date: 2020-06-30

Abstract

本发明涉及无人驾驶领域，是指基于激光点云与视频图像的道路障碍物识别方法，解决了现有技术中障碍物检测不够快速准确的问题。本发明包括以下步骤：A.使用YOLOv3算法对图像中的障碍物，车辆和行人，进行检测；B.原始视频图像经过Darknet‑53卷积网络之后，在经过卷积生成尺度为13*13的特征图；借鉴残差网络，生成尺度为26*26的特征图及尺度52*52的特征图；C.将特征图进行逻辑回归得到最终的检测结果目标框。本发明实现更高的检测率，改变网络结构，增加尺寸更大的特征图，有效改进损失函数；提高检测速度；通过快速准确地判断出视频图像里的障碍物，以供后续的路线规划和避障等处理。

Description

基于激光点云与视频图像的道路障碍物识别方法

技术领域

本发明涉及无人驾驶领域，特别是指基于激光点云与视频图像的道路障碍物识别方法。

背景技术

传统的视频图像障碍物检测方法主要分为光流法、帧差法、背景差分法、匹配法。这些传统方法有诸多的局限性，例如：光流法易受噪声、光源及阴影变化等外界因素的影响；帧差法对运动速度较为敏感，对于速度慢的障碍物，不易检测，而对速度快的障碍物，检测轮廓偏大，并误差随速度增大而增加；背景差分法则局限于静态检测，不适用于智能驾驶技术；匹配法则较依赖视角与目标运动方向的变化，若其一因素发生较大改变，则导致算法失效。

目前先进的目标检测算法可以分为两类：two-stage类和one-stage类。two-stage类是基于Region Proposal的R-CNN系列（R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN等），先产生目标候选框（即目标位置），再对候选框进行分类，但是需要分阶段训练并且运行速度较慢。one-stage类是YOLO、SSD等算法，直接使用一个卷积神经网络对目标位置和类别进行检测，相比于two-stage类算法，其速度更快，训练更方便，但是精度较差。无人驾驶对实时性有较高的要求，YOLO算法经过YOLOv1、YOLOv2、YOLOv3的改进，检测速度和准确率均取得了不错的效果，但是YOLOv3中提取特征的最小尺寸为13*13，最大为52*52，造成YOLOv3对中等或大尺寸的物体检测效果不好，为了实现更高的检测率，改变网络结构，增加尺寸更大的特征图，改进损失函数等研究均取得了一定的效果。由于YOLOv3在检测速度上的优势，已有很多基于YOLOv3的应用的研究；，这些研究大多是对YOLOv3算法的部分内容进行改进，其困难在于神经网络算法的复杂性使改进很难有明确的原理指导。另外，YOLOv3算法仅针对图像中的目标检测，而无人驾驶系统并不局限于摄像头这一种传感器，其他传感器例如雷达、陀螺仪等也可以为目标检测提供帮助。

亟待出现一种可解决上述问题的新型的障碍物检测方法。

本发明提出基于激光点云与视频图像的道路障碍物识别方法，解决了现有技术中障碍物检测不够快速准确的问题。

本发明的技术方案是这样实现的：基于激光点云与视频图像的道路障碍物识别方法，包括以下步骤：A 使用YOLOv3算法对图像中的障碍物，车辆和行人，进行检测；B 原始视频图像经过Darknet-53卷积网络之后，在经过卷积生成尺度为13*13的特征图；借鉴残差网络，生成尺度为26*26的特征图及尺度52*52的特征图；C 将特征图进行逻辑回归得到最终的检测结果目标框。

进一步地，步骤B具体的是将Darknet-53中的中间层输出与上一尺度的特征图进行维度上的拼接，再经过卷积生成特征图。

优选地，还包括步骤D 将检测结果中有较多部分处于地面部分的目标框排除，得到最终的检测结果。

进一步地，还包括E，设置于步骤C与步骤D之间，具体的是，使用同一时刻的激光点云数据，根据激光点相对于地面的高度，设定阈值；将接近地面部分的点的坐标映射到二维视频图像中，进分割出图片中的地面部分。

本发明公开的基于激光点云与视频图像的道路障碍物识别方法, 实现更高的检测率，改变网络结构，增加尺寸更大的特征图，有效改进损失函数；提高检测速度；通过快速准确地判断出视频图像里的障碍物，以供后续的路线规划和避障等处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1：YOLOv3检测算法流程图；

图2：激光点云地面分割算法流程图；

图3：总流程图；

图4: 背景占比≥70%下精度曲线图-检测结果正误统计图；

图5: 背景占比≤50%下精度曲线图-检测结果正误统计图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开的基于激光点云与视频图像的道路障碍物识别方法，包括以下步骤：A使用YOLOv3算法对图像中的障碍物，车辆和行人，进行检测；B 原始视频图像经过Darknet-53卷积网络之后，在经过卷积生成尺度为13*13的特征图；借鉴残差网络，生成尺度为26*26的特征图及尺度52*52的特征图；C 将特征图进行逻辑回归得到最终的检测结果目标框。

本发明基于YOLOv3算法，使用激光点云数据辅助判断障碍物。首先使用YOLOv3算法对图像中的障碍物（车辆和行人）进行检测，将原始视频图像经过Darknet-53卷积网络之后，在经过卷积生成尺度为13*13的特征图，YOLOv3借鉴了残差网络，将Darknet-53中的中间层输出与上一尺度的特征图进行维度上的拼接，再经过卷积生成尺度为26*26的特征图，同理生成尺度尺度52*52的特征图，最后将特征图进行逻辑回归得到最终的检测结果目标框。然后使用同一时刻的激光点云数据，根据激光点相对于地面的高度，设定阈值，将接近地面部分的点的坐标映射到二维视频图像中，进而分割出图片中的地面部分。最后将YOLOv3的检测结果中有较多部分处于地面部分的目标框排除，得到最终的检测结果。

本发明在KITTI数据集上测试，该数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。从KITTI数据集的目标检测视频图像数据集的7481张图片中选取了背景（非道路区域）占比超过70%的图片1286张，以及背景占比小于50%的图片990张进行测试，其中图片包含了城市、公路、校园、乡村等多种场景，测试类别转化为两类：车辆（car）和行人（person）。

使用KITTI数据集中的：

rawData\residential\0003\2011_09_26\2011_09_26_drive_0022_sync\image_02\data\0000000079.png做示例图片：

首先使用YOLOv3神经网络进行初步检测，直接使用官方给出的在COCO数据集上训练好的网络进行检测，并排除了车辆和行人以外的目标；

之后使用图片对应的激光点云数据，先排除位于摄像机后方的点，再分割出地面部分。经过测试，以低于雷达1.3米为阈值效果较好，即保留x坐标大于0且z坐标小于-1.3的点。激光点云是以雷达为原点的三维坐标，为了分割图片中的地面部分，需要进行坐标映射，根据KITTI数据集给出的雷达和摄像机的标定数据，按照如下公式将激光点x映射为图像中的点y：

y = P_rect_2 * R0_rect *Tr_velo_to_cam * x

其中，Tr_velo_to_cam将激光点映射到0号摄像机，R0_rect将0号摄像机映射为修正后的0号摄像机，P_rect_2再将其映射到2号摄像机的图像平面，这3个变换矩阵均由KITTI数据集提供；

进行上述处理以后的图进行形态学上的膨胀操作，即可得到最终的地面分割结果；

之后计算每个目标检测框中地面部分占比P：

P=半透明黄色部分面积/目标检测框面积

通过对检测框内地面部分的像素计数即可得到半透明黄色部分（地面部分）面积。

计算结果如下，设置50%为阈值，即可排除地面部分的误检。

排除误检的目标框之后，得到最终结果。

测试结果如下：

背景占比70%以上的检测平均精度可以达到91.51%。

背景占比50%以下的检测平均精度可以达到89.81%。

表1 背景占比≥70%的图片检测结果

类别	平均精度
		car	95.17%
person	87.85%
		average	91.51%

表2 背景占比≤50%的图片检测结果

类别	平均精度
		car	95.35%
person	84.27%
		average	89.81%

当然，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员应该可以根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于激光点云与视频图像的道路障碍物识别方法，其特征在于：包括以下步骤：

A 使用YOLOv3算法对图像中的障碍物，车辆和行人，进行检测；

B 原始视频图像经过Darknet-53卷积网络之后，在经过卷积生成尺度为13*13的特征图；借鉴残差网络，生成尺度为26*26的特征图及尺度52*52的特征图；

C 将特征图进行逻辑回归得到最终的检测结果目标框。

2.根据权利要求1所述的基于激光点云与视频图像的道路障碍物识别方法，其特征在于：步骤B具体的是将Darknet-53中的中间层输出与上一尺度的特征图进行维度上的拼接，再经过卷积生成特征图。

3.根据权利要求1或2所述的基于激光点云与视频图像的道路障碍物识别方法，其特征在于：还包括步骤：

D 将检测结果中有较多部分处于地面部分的目标框排除，得到最终的检测结果。

4.根据权利要求3所述的基于激光点云与视频图像的道路障碍物识别方法，其特征在于：还包括E，设置于步骤C与步骤D之间，具体的是，使用同一时刻的激光点云数据，根据激光点相对于地面的高度，设定阈值；将接近地面部分的点的坐标映射到二维视频图像中，进分割出图片中的地面部分。