CN112749662B

CN112749662B - 一种基于激光雷达的非结构化环境可行驶区域提取方法

Info

Publication number: CN112749662B
Application number: CN202110051699.4A
Authority: CN
Inventors: 李旭; 倪培洲; 徐启敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-08-05
Anticipated expiration: 2041-01-14
Also published as: CN112749662A

Abstract

本发明公开了一种基于激光雷达的非结构化环境可行驶区域提取方法，该方法针对当前大部分道路分割算法难以在非结构化环境下同时满足准确性和实时性要求的问题，构建了基于激光雷达的非结构化环境可行驶区域提取网络，步骤如下：首先对激光雷达数据进行预处理，将其转换成球面投影图像，其次设计一种基于残差扩张卷积的编码‑解码网络，进而利用样本集对网络进行训练，获得网络参数，从而实现非结构化环境可行驶区域的高效与可靠提取。

Description

一种基于激光雷达的非结构化环境可行驶区域提取方法

技术领域

本发明涉及智能车辆环境感知技术领域，特别是涉及一种基于激光雷达的非结构化环境可行驶区域识别方法。

背景技术

可行驶区域提取是地面无人系统领域的关键技术，是实现结构化及非结构化环境下安全可靠通过的前提条件。目前较为成熟的技术主要针对城市结构化环境进行设计，针对非结构化环境(例如应急救援场景)的研究较少，技术尚不成熟。在非结构化环境中，没有车道、路面、护栏等结构特征，可行驶区域边界模糊、纹理多样、特征复杂。因此，针对结构化环境设计的算法难以直接应用于非结构环境。

目前针对可行驶区域提取任务，相机和激光雷达是两个主要的传感数据输入来源。基于相机的非结构化环境可行驶区域提取方法，使用的颜色或纹理特征易受光照和天气的干扰，三维信息的缺失也限制了此类算法在不同场景的适应性；基于激光雷达的方法，依赖于数据分割和基于规则/阈值的方法来提取可行驶区域，而这些方法严重依赖手动提取特征及预设阈值，场景适应性较差，同时大量无序的三维点云增加了索引和计算的时间，实时性较差。因此，需要提出一种快速可靠的方法来提取非结构化环境可行驶区域。

发明内容

为解决上述存在的问题，本发明提供一种基于激光雷达的非结构化环境可行驶区域提取方法，该方法首先进行雷达数据预处理，将其转换成球面投影图像，其次设计一种基于残差扩张卷积的编码-解码网络，进而利用样本集对网络进行训练，获得网络参数，从而实现非结构化环境可行驶区域的高效与可靠提取。本发明提出的方法使用激光雷达传感器，不受光照和天气的干扰，点云的三维结构信息提高了算法对不同场景的适应能力；球面投影在降低索引和计算时间的同时，相比其他投影方法(例如鸟瞰图投影)可以生成更为紧凑密集的数据，有利于深度神经网络对于点云特征的提取；无需人为提取点云特征，利用深度神经网络的端到端算法可以极大地提高可行驶区域提取的精度和鲁棒性；网络中残差结构及扩张卷积的使用，不仅降低了网络结构的复杂度，还可以从网络不同深度的融合特征中挖掘出更多有效信息，从而保证该网络同时兼顾可行驶区域提取的准确性和实时性。

本发明提供一种基于激光雷达的非结构化环境可行驶区域提取方法，

具体步骤包括：

(1)雷达点云预处理

确定激光雷达的数据点坐标系OXYZ，以雷达中心为原点，载体前进方向为OX轴，按右手定则建立；方位角

和顶角θ的计算公式如下：

其中，(x，y，z)为雷达点云中每一个点在欧式坐标系下的坐标；对于点云中的每一个点都可以通过其(x，y，z)计算其

，即将欧式坐标系中的点投影到球面坐标系中；此球面坐标系实则是一个二维坐标系，为了便于理解，对其角度进行微分化从而得到一个二维的直角坐标系：

其中，i、j为二维直角坐标系的横、纵坐标，

、Δθ分别对应

、θ的分辨率；

通过此球面投影变换，可将欧式空间中得任意一点(x，y，z)投影到二维坐标系下的点(i，j)；本发明提取点云中每一个点的5个特征：欧式坐标(x，y，z)，反射率ref，角度信息r(其中，

从而得到一个尺寸为(H，W，C)的张量，其中，H为球面投影变换后所得渲染图像的宽，W为该图的长，C＝5；以KITTI数据集为例，该数据集使用的是64线激光雷达，因此H＝64；水平方向上，受数据集标注范围的限制，使用正前方90°的雷达点云数据，并将其划分为512个网格(即水平采样512个点)，因此W＝512；

(2)基于残差扩张卷积的编码-解码网络设计

主要包括以下子步骤：

子步骤1：确定卷积层类型、卷积核大小和卷积步长

设计扩张卷积层卷积核大小为1×1和3×3，步长均设为1。反卷积层的卷积核大小为3×3，步长为2；

子步骤2：确定池化层类型、采样尺寸和步长

采用最大池化，并将采样尺寸设为2×2，步长设为2；

子步骤3：确定dropout层分布

仅在编码器和解码器的中心层插入dropout；

子步骤4：将子步骤1～3中涉及的不同类型的网络层组合，利用交叉验证法进行模型选择，确定各层的层数、卷积核数量以及扩张卷积的扩张率，得到如下最优网络架构(其中每一个卷积操作都经过ReLU函数激活)：

Block1：用32个1×1、扩张率为1的卷积核与512×64×5的输入样本做卷积，得到子特征图1，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理(BN，Batch Normalization)，将特征图拼接(concatenation)后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图1做逐像素相加(element-wise addition)，得到维度为512×64×32的特征图；

池化层1：Block2输出的特征图用2×2的最大池化层做下采样，步长为2，得到维度为256×32×32的特征图；

Block2：参照Block1，用64个1×1、扩张率为1的卷积核与池化层1输出的特征图做卷积，得到子特征图2，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图2做逐像素相加，得到维度为256×32×64的特征图；

池化层2：Block2输出的特征图经过dropout后，用2×2的最大池化层做下采样，步长为2，得到维度为128×16×64的特征图；

Block3：参照Block1，用128个1×1、扩张率为1的卷积核与池化层2输出的特征图做卷积，得到子特征图3，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图3做逐像素相加，得到维度为128×16×128的特征图；

池化层3：Block3输出的特征图经过dropout后，用2×2的最大池化层做下采样，步长为2，得到维度为64×8×128的特征图；

Block4：参照Block1，用256个1×1、扩张率为1的卷积核与池化层3输出的特征图做卷积，得到子特征图4，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图4做逐像素相加，得到维度为64×8×256的特征图；

反卷积层1：用128个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，经dropout后与Block3输出的特征图逐像素相加，再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后经过dropout得到维度为128×16×128的特征图；

反卷积层2：参照反卷积层1，用64个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，经dropout后与Block3输出的特征图逐像素相加，再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后经过dropout得到维度为256×32×64的特征图；

反卷积层3：参照反卷积层1，用32个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，与Block3输出的特征图逐像素相加，再分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后得到维度为512×64×32的特征图；

标准卷积层：用2个1×1的卷积核与反卷积层3输出的特征图做卷积，得到维度为512×64×2的特征图，2个通道对应语义类的总数；

Soft-max层：对标准卷积层输出的特征图做像素级二分类，得到可行驶区域。

(3)网络模型训练

采用标准Soft-max交叉熵损失函数和Adam优化器对网络参数进行迭代训练；优化器初始学习率设为0.01，衰减率设为0.1/20K次迭代，dropout率设为0.5，batch size设为32，训练epoch设为500；

为了增加训练数据的数量，本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转[-5°，5°]处理；

(4)可行驶区域提取

采集到的雷达点云经过步骤(1)的预处理后，输入步骤(2)搭建的基于残差扩张卷积的编码-解码网络中，并利用步骤(3)得到的网络权重进行在线测试，得到非结构化环境可行驶区域的提取结果。

本发明的有益效果：

1、本发明使用激光雷达传感器，不受光照和天气的干扰，同时点云的三维结构信息提高了算法对不同场景的适应能力。

2、本发明使用的球面投影方法，在降低索引和计算时间的同时，更有利于点云特征的提取。

3、本发明使用端到端的深度神经网络算法，无需人为提取点云特征，提高了可行驶区域提取的精度和鲁棒性。

4、本发明使用扩张卷积与残差结构，不仅降低了网络结构的复杂度，还可以从网络不同深度的融合特征中挖掘出更多有效信息，从而保证该网络同时兼顾可行驶区域提取的准确性和实时性。

附图说明

图1是总体方案流程图；

图2是基于残差扩张卷积的编码-解码网络示意图；

图3是Block示意图；

图4是反卷积层示意图；

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

本实施例的一种基于激光雷达的非结构化环境可行驶区域提取方法，该方法首先进行雷达数据预处理，将其转换成球面投影图像，其次设计一种基于残差扩张卷积的编码-解码网络，进而利用样本集对网络进行训练，获得网络参数，从而实现非结构化环境可行驶区域的高效与可靠提取。本发明提出的方法使用激光雷达传感器，不受光照和天气的干扰，点云的三维结构信息提高了算法对不同场景的适应能力；球面投影在降低索引和计算时间的同时，相比其他投影方法(例如鸟瞰图投影)可以生成更为紧凑密集的数据，有利于深度神经网络对于点云特征的提取；无需人为提取点云特征，利用深度神经网络的端到端算法可以极大地提高可行驶区域提取的精度和鲁棒性；网络中残差结构及扩张卷积的使用，不仅降低了网络结构的复杂度，还可以从网络不同深度的融合特征中挖掘出更多有效信息，从而保证该网络同时兼顾可行驶区域提取的准确性和实时性。总体设计方案如图1所示，具体步骤包括：

(1)雷达点云预处理

激光雷达点云数据量庞大，且由于环境采样的不均匀，点云的密度变化很大，使得密集的点搜索和索引操作相对耗时。常见的解决方法是将点云投影到二维图像空间中，或是采用栅格化方法将每一帧激光雷达数据转换成一幅伪图像，以生成标准卷积操作所需的结构化矩阵形式。此类方法提高了数据处理的效率，但是损失了大量原始点云及其几何特征，不利于后续网络的特征提取。为保证非结构化环境可行驶区域提取的实时性和有效性，本发明采用球面投影对雷达点云做预处理，以生成更为紧凑密集的渲染图像。

本发明中激光雷达的数据点坐标系OXYZ是以雷达中心为原点，载体前进方向为OX轴，按右手定则建立。方位角

和顶角θ的计算公式如下：

其中，(x，y，z)为雷达点云中每一个点在欧式坐标系下的坐标。对于点云中的每一个点都可以通过其(x，y，z)计算其

，即将欧式坐标系中的点投影到球面坐标系中。此球面坐标系实则是一个二维坐标系，为了便于理解，对其角度进行微分化从而得到一个二维的直角坐标系：

其中，i、j为二维直角坐标系的横、纵坐标，

、Δθ分别对应

、θ的分辨率。

通过此球面投影变换，可将欧式空间中得任意一点(x，y，z)投影到二维坐标系下的点(i，j)。本发明提取点云中每一个点的5个特征：欧式坐标(x，y，z)，反射率ref，角度信息r(其中，

从而得到一个尺寸为(H，W，C)的张量，其中，H为球面投影变换后所得渲染图像的宽，W为该图的长，C＝5。以KITTI数据集为例，该数据集使用的是64线激光雷达，因此H＝64；水平方向上，受数据集标注范围的限制，使用正前方90°的雷达点云数据，并将其划分为512个网格(即水平采样512个点)，因此W＝512。

(2)基于残差扩张卷积的编码-解码网络设计

现有的快速分割网络(例如Enet等)为实现结构化场景的高精度多重语义分割而设计了较深层的复杂结构，超出了本发明可行驶区域分割(二分类)的需求，在算法结构上存在冗余，同时其网络结构未针对非结构化环境设计，在算法原理上存在缺陷，难以直接应用于非结构环境。为此，本发明针对非结构化环境可行驶区域提取任务，设计了一种基于残差扩张卷积的编码-解码网络，具体如图2所示，主要包括以下子步骤：

子步骤1：确定卷积层类型、卷积核大小和卷积步长

一般而言，网络的特征表达能力随着标准卷积层数量的增加而增强，但堆叠较多的卷积层加大了计算量，实时性降低，网络出现过拟合的风险更大，而卷积层数量少则难以提取到表达能力强的道路特征。因此，在设计可行驶区域提取网络的过程中，引入了扩张卷积层。扩张卷积能够极大的扩大网络的感受野而不引入额外的参数，合理设计扩张卷积的扩张率并组合使用，能够使网络学习到完整的可行驶区域信息。为了使特征图恢复到原始图片大小，同时避免引入大量噪声，设计参数可学习的反卷积层对特征图中深度压缩的可行驶区域特征进行逐层分级解耦。

为了避免因卷积核过大而引入大量的参数，设计扩张卷积层卷积核大小为1×1和3×3，步长均设为1。反卷积层的卷积核大小为3×3，步长为2，使得经过上采样后的特征图与输入图像分辨率相同。

子步骤2：确定池化层类型、采样尺寸和步长

为了减少网络的计算量并进一步增加网络的感受野，使其能够感受到更大的目标(即可行驶区域)，本发明引入池化层。最大池化能够保留采样窗口范围内最显著的特征(如可行驶区域的边缘特征)，因此采用最大池化操作来对特征图进行下采样，并将采样尺寸设为2×2，步长设为2。

子步骤3：dropout层分布

较低的网络层提取的基本特征为数据分布上一致的边缘和角等特征，而相对于结构化场景，非结构化场景下区分可行驶区域与障碍物/背景的特征较为稀疏，因此仅在编码器和解码器的中心层插入dropout，有利于网络在较深层中形成较好的高级特征。

子步骤4：将子步骤1～3中涉及的不同类型的网络层组合，确定各层的层数、卷积核数量以及扩张卷积的扩张率

一直以来，神经网络的结构设计都是研究者根据自己的应用场景和需求，参考当前公认性能出色的模型，设计出符合特定需求的网络架构。考虑到可行驶区域提取的任务是将可行驶区域与背景分割(即二分类)，相较于当前大多数面向自动驾驶的多分类语义分割网络而言，其架构应该更加简洁，从而无需堆叠大量的卷积层，以满足准确性和实时性要求。本发明初步确定卷积层层数的取值范围为6～12。

池化层在降低网络计算量的同时也损失了可行驶区域的部分空间位置信息，因此其数量需要控制在一定的范围内，使得网络能够在尽可能减少计算量和尽可能保留更多空间位置信息的两者间保持平衡，初步确定池化层层数的取值范围为2～4。因为反卷积层的目的是将缩小了的特征图(由池化层下采样引起)恢复到输入图像大小，所以反卷积层的数量等于池化层的数量。

参考现有的优秀语义分割模型，卷积核的数量大多设为2的整数次幂。卷积核数量越少，网络能够提取到的特征越少，而较大的卷积核数量会引入较多参数，增加了优化难度。为了保持两者平衡，初步确定卷积核数量的范围为2⁴～2¹⁰。

扩张卷积核的扩张率一般取值为2的整数次幂，扩张率越大，感受野越大，但引入的噪声亦越大，甚至会产生“网格效应”(造成分割不连续甚至漏分割)。因此，本发明初步确定扩张率的取值范围为2⁰～2⁴。

确定扩张率的取值范围后，利用交叉验证法进行模型选择，得到网络性能最佳时所对应的模型架构。在网络设计过程中，不仅综合考虑了卷积层、池化层的类型以及各自层数对边界特征提取的影响，还引入了扩张卷积并对扩张率进行了设计，使其在获得较大感受野的同时，避免了“网格效应”。此外，参考ResNet(He,Kaiming,et al."Deep residuallearning for image recognition."Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016.)、UNet(Ronneberger,Olaf,PhilippFischer,and Thomas Brox."U-net:Convolutional networks for biomedical imagesegmentation."International Conference on Medical image computing andcomputer-assisted intervention.Springer,Cham,2015.)设计了残差结构进行跨层连接，以便让网络从不同深度的融合特征中挖掘出更多有效信息，从而使得网络能够在保证实时性的前提下学习到有意义的、完整的可行驶区域特征。由模型选择得到的最优网络架构如下(其中每一个卷积操作都经过ReLU函数激活)：

Block1：用32个1×1、扩张率为1的卷积核与512×64×5的输入样本做卷积，得到子特征图1，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理(BN，Batch Normalization)，将特征图拼接(concatenation)后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图1做逐像素相加(element-wise addition)，得到维度为512×64×32的特征图，具体如图3所示；

反卷积层1：用128个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，经dropout后与Block3输出的特征图逐像素相加，再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后经过dropout得到维度为128×16×128的特征图，具体如图4所示；

(3)网络模型训练

本发明采用标准Soft-max交叉熵损失函数和Adam优化器对网络参数进行迭代训练。优化器初始学习率设为0.01，衰减率设为0.1/20K次迭代，dropout率设为0.5，batchsize设为32，训练epoch设为500。

由于缺少非结构化环境公开数据集，需利用结构化环境数据集(例如KITTI)做预训练，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到最终的网络权重。为了增加训练数据的数量，本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转[-5°，5°]处理。

(4)可行驶区域提取

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于激光雷达的非结构化环境可行驶区域提取方法，其特征在于：包含如下步骤：

(1)雷达点云预处理

和顶角θ的计算公式如下：

其中，(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标；对于点云中的每一个点都可以通过其(x,y,z)计算其

即将欧式坐标系中的点投影到球面坐标系中；此球面坐标系实则是一个二维坐标系，为了便于理解，对其角度进行微分化从而得到一个二维的直角坐标系：

其中，i、j为二维直角坐标系的横、纵坐标，

Δθ分别对应

θ的分辨率；

通过此球面投影变换，可将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(i,j)；本发明提取点云中每一个点的5个特征：欧式坐标(x,y,z)，反射率ref，角度信息r；其中，

从而得到一个尺寸为(H,W,C)的张量，其中，H为球面投影变换后所得渲染图像的宽，W为该图的长，C＝5；以KITTI数据集为例，该数据集使用的是64线激光雷达，因此H＝64；水平方向上，受数据集标注范围的限制，使用正前方90°的雷达点云数据，并将其划分为512个网格；即水平采样512个点，因此W＝512；

(2)基于残差扩张卷积的编码-解码网络设计

主要包括以下子步骤：

子步骤1：确定卷积层类型、卷积核大小和卷积步长

设计扩张卷积层卷积核大小为1×1和3×3，步长均设为1；反卷积层的卷积核大小为3×3，步长为2；

子步骤2：确定池化层类型、采样尺寸和步长

采用最大池化，并将采样尺寸设为2×2，步长设为2；

子步骤3：确定dropout层分布

仅在编码器和解码器的中心层插入dropout；

子步骤4：将子步骤1～3中涉及的不同类型的网络层组合，利用交叉验证法进行模型选择，确定各层的层数、卷积核数量以及扩张卷积的扩张率，得到如下最优网络架构，其中每一个卷积操作都经过ReLU函数激活：

Block1：用32个1×1、扩张率为1的卷积核与512×64×5的输入样本做卷积，得到子特征图1，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理；BN，Batch Normalization，将特征图拼接concatenation后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图1做逐像素相加element-wise addition，得到维度为512×64×32的特征图；

Soft-max层：对标准卷积层输出的特征图做像素级二分类，得到可行驶区域；

(3)网络模型训练

为了增加训练数据的数量，对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转[-5^°,5^°]处理；

(4)可行驶区域提取