CN112749662B - 一种基于激光雷达的非结构化环境可行驶区域提取方法 - Google Patents
一种基于激光雷达的非结构化环境可行驶区域提取方法 Download PDFInfo
- Publication number
- CN112749662B CN112749662B CN202110051699.4A CN202110051699A CN112749662B CN 112749662 B CN112749662 B CN 112749662B CN 202110051699 A CN202110051699 A CN 202110051699A CN 112749662 B CN112749662 B CN 112749662B
- Authority
- CN
- China
- Prior art keywords
- convolution
- expansion rate
- feature map
- convolution kernels
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 41
- 238000010586 diagram Methods 0.000 claims description 28
- 229910052582 BN Inorganic materials 0.000 claims description 22
- PZNSFCLAULLKQX-UHFFFAOYSA-N Boron nitride Chemical compound N#B PZNSFCLAULLKQX-UHFFFAOYSA-N 0.000 claims description 22
- 238000013461 design Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 101150064138 MAP1 gene Proteins 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000002310 reflectometry Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 230000011218 segmentation Effects 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于激光雷达的非结构化环境可行驶区域提取方法,该方法针对当前大部分道路分割算法难以在非结构化环境下同时满足准确性和实时性要求的问题,构建了基于激光雷达的非结构化环境可行驶区域提取网络,步骤如下:首先对激光雷达数据进行预处理,将其转换成球面投影图像,其次设计一种基于残差扩张卷积的编码‑解码网络,进而利用样本集对网络进行训练,获得网络参数,从而实现非结构化环境可行驶区域的高效与可靠提取。
Description
技术领域
本发明涉及智能车辆环境感知技术领域,特别是涉及一种基于激光雷达的非结构化环境可行驶区域识别方法。
背景技术
可行驶区域提取是地面无人系统领域的关键技术,是实现结构化及非结构化环境下安全可靠通过的前提条件。目前较为成熟的技术主要针对城市结构化环境进行设计,针对非结构化环境(例如应急救援场景)的研究较少,技术尚不成熟。在非结构化环境中,没有车道、路面、护栏等结构特征,可行驶区域边界模糊、纹理多样、特征复杂。因此,针对结构化环境设计的算法难以直接应用于非结构环境。
目前针对可行驶区域提取任务,相机和激光雷达是两个主要的传感数据输入来源。基于相机的非结构化环境可行驶区域提取方法,使用的颜色或纹理特征易受光照和天气的干扰,三维信息的缺失也限制了此类算法在不同场景的适应性;基于激光雷达的方法,依赖于数据分割和基于规则/阈值的方法来提取可行驶区域,而这些方法严重依赖手动提取特征及预设阈值,场景适应性较差,同时大量无序的三维点云增加了索引和计算的时间,实时性较差。因此,需要提出一种快速可靠的方法来提取非结构化环境可行驶区域。
发明内容
为解决上述存在的问题,本发明提供一种基于激光雷达的非结构化环境可行驶区域提取方法,该方法首先进行雷达数据预处理,将其转换成球面投影图像,其次设计一种基于残差扩张卷积的编码-解码网络,进而利用样本集对网络进行训练,获得网络参数,从而实现非结构化环境可行驶区域的高效与可靠提取。本发明提出的方法使用激光雷达传感器,不受光照和天气的干扰,点云的三维结构信息提高了算法对不同场景的适应能力;球面投影在降低索引和计算时间的同时,相比其他投影方法(例如鸟瞰图投影)可以生成更为紧凑密集的数据,有利于深度神经网络对于点云特征的提取;无需人为提取点云特征,利用深度神经网络的端到端算法可以极大地提高可行驶区域提取的精度和鲁棒性;网络中残差结构及扩张卷积的使用,不仅降低了网络结构的复杂度,还可以从网络不同深度的融合特征中挖掘出更多有效信息,从而保证该网络同时兼顾可行驶区域提取的准确性和实时性。
本发明提供一种基于激光雷达的非结构化环境可行驶区域提取方法,
具体步骤包括:
(1)雷达点云预处理
其中,(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标;对于点云中的每一个点都可以通过其(x,y,z)计算其,即将欧式坐标系中的点投影到球面坐标系中;此球面坐标系实则是一个二维坐标系,为了便于理解,对其角度进行微分化从而得到一个二维的直角坐标系:
通过此球面投影变换,可将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(i,j);本发明提取点云中每一个点的5个特征:欧式坐标(x,y,z),反射率ref,角度信息r(其中,从而得到一个尺寸为(H,W,C)的张量,其中,H为球面投影变换后所得渲染图像的宽,W为该图的长,C=5;以KITTI数据集为例,该数据集使用的是64线激光雷达,因此H=64;水平方向上,受数据集标注范围的限制,使用正前方90°的雷达点云数据,并将其划分为512个网格(即水平采样512个点),因此W=512;
(2)基于残差扩张卷积的编码-解码网络设计
主要包括以下子步骤:
子步骤1:确定卷积层类型、卷积核大小和卷积步长
设计扩张卷积层卷积核大小为1×1和3×3,步长均设为1。反卷积层的卷积核大小为3×3,步长为2;
子步骤2:确定池化层类型、采样尺寸和步长
采用最大池化,并将采样尺寸设为2×2,步长设为2;
子步骤3:确定dropout层分布
仅在编码器和解码器的中心层插入dropout;
子步骤4:将子步骤1~3中涉及的不同类型的网络层组合,利用交叉验证法进行模型选择,确定各层的层数、卷积核数量以及扩张卷积的扩张率,得到如下最优网络架构(其中每一个卷积操作都经过ReLU函数激活):
Block1:用32个1×1、扩张率为1的卷积核与512×64×5的输入样本做卷积,得到子特征图1,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理(BN,Batch Normalization),将特征图拼接(concatenation)后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图1做逐像素相加(element-wise addition),得到维度为512×64×32的特征图;
池化层1:Block2输出的特征图用2×2的最大池化层做下采样,步长为2,得到维度为256×32×32的特征图;
Block2:参照Block1,用64个1×1、扩张率为1的卷积核与池化层1输出的特征图做卷积,得到子特征图2,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图2做逐像素相加,得到维度为256×32×64的特征图;
池化层2:Block2输出的特征图经过dropout后,用2×2的最大池化层做下采样,步长为2,得到维度为128×16×64的特征图;
Block3:参照Block1,用128个1×1、扩张率为1的卷积核与池化层2输出的特征图做卷积,得到子特征图3,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图3做逐像素相加,得到维度为128×16×128的特征图;
池化层3:Block3输出的特征图经过dropout后,用2×2的最大池化层做下采样,步长为2,得到维度为64×8×128的特征图;
Block4:参照Block1,用256个1×1、扩张率为1的卷积核与池化层3输出的特征图做卷积,得到子特征图4,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图4做逐像素相加,得到维度为64×8×256的特征图;
反卷积层1:用128个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,经dropout后与Block3输出的特征图逐像素相加,再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后经过dropout得到维度为128×16×128的特征图;
反卷积层2:参照反卷积层1,用64个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,经dropout后与Block3输出的特征图逐像素相加,再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后经过dropout得到维度为256×32×64的特征图;
反卷积层3:参照反卷积层1,用32个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,与Block3输出的特征图逐像素相加,再分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后得到维度为512×64×32的特征图;
标准卷积层:用2个1×1的卷积核与反卷积层3输出的特征图做卷积,得到维度为512×64×2的特征图,2个通道对应语义类的总数;
Soft-max层:对标准卷积层输出的特征图做像素级二分类,得到可行驶区域。
(3)网络模型训练
采用标准Soft-max交叉熵损失函数和Adam优化器对网络参数进行迭代训练;优化器初始学习率设为0.01,衰减率设为0.1/20K次迭代,dropout率设为0.5,batch size设为32,训练epoch设为500;
为了增加训练数据的数量,本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转[-5°,5°]处理;
(4)可行驶区域提取
采集到的雷达点云经过步骤(1)的预处理后,输入步骤(2)搭建的基于残差扩张卷积的编码-解码网络中,并利用步骤(3)得到的网络权重进行在线测试,得到非结构化环境可行驶区域的提取结果。
本发明的有益效果:
1、本发明使用激光雷达传感器,不受光照和天气的干扰,同时点云的三维结构信息提高了算法对不同场景的适应能力。
2、本发明使用的球面投影方法,在降低索引和计算时间的同时,更有利于点云特征的提取。
3、本发明使用端到端的深度神经网络算法,无需人为提取点云特征,提高了可行驶区域提取的精度和鲁棒性。
4、本发明使用扩张卷积与残差结构,不仅降低了网络结构的复杂度,还可以从网络不同深度的融合特征中挖掘出更多有效信息,从而保证该网络同时兼顾可行驶区域提取的准确性和实时性。
附图说明
图1是总体方案流程图;
图2是基于残差扩张卷积的编码-解码网络示意图;
图3是Block示意图;
图4是反卷积层示意图;
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
本实施例的一种基于激光雷达的非结构化环境可行驶区域提取方法,该方法首先进行雷达数据预处理,将其转换成球面投影图像,其次设计一种基于残差扩张卷积的编码-解码网络,进而利用样本集对网络进行训练,获得网络参数,从而实现非结构化环境可行驶区域的高效与可靠提取。本发明提出的方法使用激光雷达传感器,不受光照和天气的干扰,点云的三维结构信息提高了算法对不同场景的适应能力;球面投影在降低索引和计算时间的同时,相比其他投影方法(例如鸟瞰图投影)可以生成更为紧凑密集的数据,有利于深度神经网络对于点云特征的提取;无需人为提取点云特征,利用深度神经网络的端到端算法可以极大地提高可行驶区域提取的精度和鲁棒性;网络中残差结构及扩张卷积的使用,不仅降低了网络结构的复杂度,还可以从网络不同深度的融合特征中挖掘出更多有效信息,从而保证该网络同时兼顾可行驶区域提取的准确性和实时性。总体设计方案如图1所示,具体步骤包括:
(1)雷达点云预处理
激光雷达点云数据量庞大,且由于环境采样的不均匀,点云的密度变化很大,使得密集的点搜索和索引操作相对耗时。常见的解决方法是将点云投影到二维图像空间中,或是采用栅格化方法将每一帧激光雷达数据转换成一幅伪图像,以生成标准卷积操作所需的结构化矩阵形式。此类方法提高了数据处理的效率,但是损失了大量原始点云及其几何特征,不利于后续网络的特征提取。为保证非结构化环境可行驶区域提取的实时性和有效性,本发明采用球面投影对雷达点云做预处理,以生成更为紧凑密集的渲染图像。
其中,(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标。对于点云中的每一个点都可以通过其(x,y,z)计算其,即将欧式坐标系中的点投影到球面坐标系中。此球面坐标系实则是一个二维坐标系,为了便于理解,对其角度进行微分化从而得到一个二维的直角坐标系:
通过此球面投影变换,可将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(i,j)。本发明提取点云中每一个点的5个特征:欧式坐标(x,y,z),反射率ref,角度信息r(其中,从而得到一个尺寸为(H,W,C)的张量,其中,H为球面投影变换后所得渲染图像的宽,W为该图的长,C=5。以KITTI数据集为例,该数据集使用的是64线激光雷达,因此H=64;水平方向上,受数据集标注范围的限制,使用正前方90°的雷达点云数据,并将其划分为512个网格(即水平采样512个点),因此W=512。
(2)基于残差扩张卷积的编码-解码网络设计
现有的快速分割网络(例如Enet等)为实现结构化场景的高精度多重语义分割而设计了较深层的复杂结构,超出了本发明可行驶区域分割(二分类)的需求,在算法结构上存在冗余,同时其网络结构未针对非结构化环境设计,在算法原理上存在缺陷,难以直接应用于非结构环境。为此,本发明针对非结构化环境可行驶区域提取任务,设计了一种基于残差扩张卷积的编码-解码网络,具体如图2所示,主要包括以下子步骤:
子步骤1:确定卷积层类型、卷积核大小和卷积步长
一般而言,网络的特征表达能力随着标准卷积层数量的增加而增强,但堆叠较多的卷积层加大了计算量,实时性降低,网络出现过拟合的风险更大,而卷积层数量少则难以提取到表达能力强的道路特征。因此,在设计可行驶区域提取网络的过程中,引入了扩张卷积层。扩张卷积能够极大的扩大网络的感受野而不引入额外的参数,合理设计扩张卷积的扩张率并组合使用,能够使网络学习到完整的可行驶区域信息。为了使特征图恢复到原始图片大小,同时避免引入大量噪声,设计参数可学习的反卷积层对特征图中深度压缩的可行驶区域特征进行逐层分级解耦。
为了避免因卷积核过大而引入大量的参数,设计扩张卷积层卷积核大小为1×1和3×3,步长均设为1。反卷积层的卷积核大小为3×3,步长为2,使得经过上采样后的特征图与输入图像分辨率相同。
子步骤2:确定池化层类型、采样尺寸和步长
为了减少网络的计算量并进一步增加网络的感受野,使其能够感受到更大的目标(即可行驶区域),本发明引入池化层。最大池化能够保留采样窗口范围内最显著的特征(如可行驶区域的边缘特征),因此采用最大池化操作来对特征图进行下采样,并将采样尺寸设为2×2,步长设为2。
子步骤3:dropout层分布
较低的网络层提取的基本特征为数据分布上一致的边缘和角等特征,而相对于结构化场景,非结构化场景下区分可行驶区域与障碍物/背景的特征较为稀疏,因此仅在编码器和解码器的中心层插入dropout,有利于网络在较深层中形成较好的高级特征。
子步骤4:将子步骤1~3中涉及的不同类型的网络层组合,确定各层的层数、卷积核数量以及扩张卷积的扩张率
一直以来,神经网络的结构设计都是研究者根据自己的应用场景和需求,参考当前公认性能出色的模型,设计出符合特定需求的网络架构。考虑到可行驶区域提取的任务是将可行驶区域与背景分割(即二分类),相较于当前大多数面向自动驾驶的多分类语义分割网络而言,其架构应该更加简洁,从而无需堆叠大量的卷积层,以满足准确性和实时性要求。本发明初步确定卷积层层数的取值范围为6~12。
池化层在降低网络计算量的同时也损失了可行驶区域的部分空间位置信息,因此其数量需要控制在一定的范围内,使得网络能够在尽可能减少计算量和尽可能保留更多空间位置信息的两者间保持平衡,初步确定池化层层数的取值范围为2~4。因为反卷积层的目的是将缩小了的特征图(由池化层下采样引起)恢复到输入图像大小,所以反卷积层的数量等于池化层的数量。
参考现有的优秀语义分割模型,卷积核的数量大多设为2的整数次幂。卷积核数量越少,网络能够提取到的特征越少,而较大的卷积核数量会引入较多参数,增加了优化难度。为了保持两者平衡,初步确定卷积核数量的范围为24~210。
扩张卷积核的扩张率一般取值为2的整数次幂,扩张率越大,感受野越大,但引入的噪声亦越大,甚至会产生“网格效应”(造成分割不连续甚至漏分割)。因此,本发明初步确定扩张率的取值范围为20~24。
确定扩张率的取值范围后,利用交叉验证法进行模型选择,得到网络性能最佳时所对应的模型架构。在网络设计过程中,不仅综合考虑了卷积层、池化层的类型以及各自层数对边界特征提取的影响,还引入了扩张卷积并对扩张率进行了设计,使其在获得较大感受野的同时,避免了“网格效应”。此外,参考ResNet(He,Kaiming,et al."Deep residuallearning for image recognition."Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016.)、UNet(Ronneberger,Olaf,PhilippFischer,and Thomas Brox."U-net:Convolutional networks for biomedical imagesegmentation."International Conference on Medical image computing andcomputer-assisted intervention.Springer,Cham,2015.)设计了残差结构进行跨层连接,以便让网络从不同深度的融合特征中挖掘出更多有效信息,从而使得网络能够在保证实时性的前提下学习到有意义的、完整的可行驶区域特征。由模型选择得到的最优网络架构如下(其中每一个卷积操作都经过ReLU函数激活):
Block1:用32个1×1、扩张率为1的卷积核与512×64×5的输入样本做卷积,得到子特征图1,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理(BN,Batch Normalization),将特征图拼接(concatenation)后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图1做逐像素相加(element-wise addition),得到维度为512×64×32的特征图,具体如图3所示;
池化层1:Block2输出的特征图用2×2的最大池化层做下采样,步长为2,得到维度为256×32×32的特征图;
Block2:参照Block1,用64个1×1、扩张率为1的卷积核与池化层1输出的特征图做卷积,得到子特征图2,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图2做逐像素相加,得到维度为256×32×64的特征图;
池化层2:Block2输出的特征图经过dropout后,用2×2的最大池化层做下采样,步长为2,得到维度为128×16×64的特征图;
Block3:参照Block1,用128个1×1、扩张率为1的卷积核与池化层2输出的特征图做卷积,得到子特征图3,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图3做逐像素相加,得到维度为128×16×128的特征图;
池化层3:Block3输出的特征图经过dropout后,用2×2的最大池化层做下采样,步长为2,得到维度为64×8×128的特征图;
Block4:参照Block1,用256个1×1、扩张率为1的卷积核与池化层3输出的特征图做卷积,得到子特征图4,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图4做逐像素相加,得到维度为64×8×256的特征图;
反卷积层1:用128个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,经dropout后与Block3输出的特征图逐像素相加,再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后经过dropout得到维度为128×16×128的特征图,具体如图4所示;
反卷积层2:参照反卷积层1,用64个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,经dropout后与Block3输出的特征图逐像素相加,再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后经过dropout得到维度为256×32×64的特征图;
反卷积层3:参照反卷积层1,用32个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,与Block3输出的特征图逐像素相加,再分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后得到维度为512×64×32的特征图;
标准卷积层:用2个1×1的卷积核与反卷积层3输出的特征图做卷积,得到维度为512×64×2的特征图,2个通道对应语义类的总数;
Soft-max层:对标准卷积层输出的特征图做像素级二分类,得到可行驶区域。
(3)网络模型训练
本发明采用标准Soft-max交叉熵损失函数和Adam优化器对网络参数进行迭代训练。优化器初始学习率设为0.01,衰减率设为0.1/20K次迭代,dropout率设为0.5,batchsize设为32,训练epoch设为500。
由于缺少非结构化环境公开数据集,需利用结构化环境数据集(例如KITTI)做预训练,得到预训练权重,再利用采集的少量非结构化环境数据做进一步训练,得到最终的网络权重。为了增加训练数据的数量,本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转[-5°,5°]处理。
(4)可行驶区域提取
采集到的雷达点云经过步骤(1)的预处理后,输入步骤(2)搭建的基于残差扩张卷积的编码-解码网络中,并利用步骤(3)得到的网络权重进行在线测试,得到非结构化环境可行驶区域的提取结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (1)
1.一种基于激光雷达的非结构化环境可行驶区域提取方法,其特征在于:包含如下步骤:
(1)雷达点云预处理
其中,(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标;对于点云中的每一个点都可以通过其(x,y,z)计算其即将欧式坐标系中的点投影到球面坐标系中;此球面坐标系实则是一个二维坐标系,为了便于理解,对其角度进行微分化从而得到一个二维的直角坐标系:
通过此球面投影变换,可将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(i,j);本发明提取点云中每一个点的5个特征:欧式坐标(x,y,z),反射率ref,角度信息r;其中,从而得到一个尺寸为(H,W,C)的张量,其中,H为球面投影变换后所得渲染图像的宽,W为该图的长,C=5;以KITTI数据集为例,该数据集使用的是64线激光雷达,因此H=64;水平方向上,受数据集标注范围的限制,使用正前方90°的雷达点云数据,并将其划分为512个网格;即水平采样512个点,因此W=512;
(2)基于残差扩张卷积的编码-解码网络设计
主要包括以下子步骤:
子步骤1:确定卷积层类型、卷积核大小和卷积步长
设计扩张卷积层卷积核大小为1×1和3×3,步长均设为1;反卷积层的卷积核大小为3×3,步长为2;
子步骤2:确定池化层类型、采样尺寸和步长
采用最大池化,并将采样尺寸设为2×2,步长设为2;
子步骤3:确定dropout层分布
仅在编码器和解码器的中心层插入dropout;
子步骤4:将子步骤1~3中涉及的不同类型的网络层组合,利用交叉验证法进行模型选择,确定各层的层数、卷积核数量以及扩张卷积的扩张率,得到如下最优网络架构, 其中每一个卷积操作都经过ReLU函数激活:
Block1:用32个1×1、扩张率为1的卷积核与512×64×5的输入样本做卷积,得到子特征图1,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理;BN,Batch Normalization,将特征图拼接concatenation后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图1做逐像素相加element-wise addition,得到维度为512×64×32的特征图;
池化层1:Block2输出的特征图用2×2的最大池化层做下采样,步长为2,得到维度为256×32×32的特征图;
Block2:参照Block1,用64个1×1、扩张率为1的卷积核与池化层1输出的特征图做卷积,得到子特征图2,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图2做逐像素相加,得到维度为256×32×64的特征图;
池化层2:Block2输出的特征图经过dropout后,用2×2的最大池化层做下采样,步长为2,得到维度为128×16×64的特征图;
Block3:参照Block1,用128个1×1、扩张率为1的卷积核与池化层2输出的特征图做卷积,得到子特征图3,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图3做逐像素相加,得到维度为128×16×128的特征图;
池化层3:Block3输出的特征图经过dropout后,用2×2的最大池化层做下采样,步长为2,得到维度为64×8×128的特征图;
Block4:参照Block1,用256个1×1、扩张率为1的卷积核与池化层3输出的特征图做卷积,得到子特征图4,之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,再与子特征图4做逐像素相加,得到维度为64×8×256的特征图;
反卷积层1:用128个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,经dropout后与Block3输出的特征图逐像素相加,再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后经过dropout得到维度为128×16×128的特征图;
反卷积层2:参照反卷积层1,用64个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,经dropout后与Block3输出的特征图逐像素相加,再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后经过dropout得到维度为256×32×64的特征图;
反卷积层3:参照反卷积层1,用32个3×3的卷积核与Block4输出的特征图做卷积并做BN,步长为2,与Block3输出的特征图逐像素相加,再分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN,将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN,最后得到维度为512×64×32的特征图;
标准卷积层:用2个1×1的卷积核与反卷积层3输出的特征图做卷积,得到维度为512×64×2的特征图,2个通道对应语义类的总数;
Soft-max层:对标准卷积层输出的特征图做像素级二分类,得到可行驶区域;
(3)网络模型训练
采用标准Soft-max交叉熵损失函数和Adam优化器对网络参数进行迭代训练;优化器初始学习率设为0.01,衰减率设为0.1/20K次迭代,dropout率设为0.5,batch size设为32,训练epoch设为500;
为了增加训练数据的数量,对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转[-5°,5°]处理;
(4)可行驶区域提取
采集到的雷达点云经过步骤(1)的预处理后,输入步骤(2)搭建的基于残差扩张卷积的编码-解码网络中,并利用步骤(3)得到的网络权重进行在线测试,得到非结构化环境可行驶区域的提取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051699.4A CN112749662B (zh) | 2021-01-14 | 2021-01-14 | 一种基于激光雷达的非结构化环境可行驶区域提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110051699.4A CN112749662B (zh) | 2021-01-14 | 2021-01-14 | 一种基于激光雷达的非结构化环境可行驶区域提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749662A CN112749662A (zh) | 2021-05-04 |
CN112749662B true CN112749662B (zh) | 2022-08-05 |
Family
ID=75652072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110051699.4A Active CN112749662B (zh) | 2021-01-14 | 2021-01-14 | 一种基于激光雷达的非结构化环境可行驶区域提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749662B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821074B (zh) * | 2022-07-01 | 2022-10-25 | 湖南盛鼎科技发展有限责任公司 | 机载liDAR点云语义分割方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107167811A (zh) * | 2017-04-26 | 2017-09-15 | 西安交通大学 | 基于单目视觉与激光雷达融合的道路可行驶区域检测方法 |
CN110009095A (zh) * | 2019-03-04 | 2019-07-12 | 东南大学 | 基于深度特征压缩卷积网络的道路行驶区域高效分割方法 |
CN110781891A (zh) * | 2019-11-28 | 2020-02-11 | 吉林大学 | 一种基于激光雷达传感器的识别车辆可行驶区域的方法 |
CN111695447A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于孪生特征增强网络的道路可行驶区域检测方法 |
-
2021
- 2021-01-14 CN CN202110051699.4A patent/CN112749662B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107167811A (zh) * | 2017-04-26 | 2017-09-15 | 西安交通大学 | 基于单目视觉与激光雷达融合的道路可行驶区域检测方法 |
CN110009095A (zh) * | 2019-03-04 | 2019-07-12 | 东南大学 | 基于深度特征压缩卷积网络的道路行驶区域高效分割方法 |
CN110781891A (zh) * | 2019-11-28 | 2020-02-11 | 吉林大学 | 一种基于激光雷达传感器的识别车辆可行驶区域的方法 |
CN111695447A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于孪生特征增强网络的道路可行驶区域检测方法 |
Non-Patent Citations (1)
Title |
---|
基于改进JP算法的激光雷达可行驶区域检测;段建民等;《应用激光》;20200615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749662A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832655B (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
Bai et al. | Pillargrid: Deep learning-based cooperative perception for 3d object detection from onboard-roadside lidar | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN111563415A (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN114549537A (zh) | 基于跨模态语义增强的非结构化环境点云语义分割方法 | |
CN114120115B (zh) | 一种融合点特征和网格特征的点云目标检测方法 | |
CN114004938B (zh) | 一种基于海量数据的城市场景重建方法及装置 | |
CN113536920B (zh) | 一种半监督三维点云目标检测方法 | |
CN115019043B (zh) | 基于交叉注意力机制的图像点云融合三维目标检测方法 | |
CN114821507A (zh) | 一种用于自动驾驶的多传感器融合车路协同感知方法 | |
CN116503602A (zh) | 基于多层级边缘增强的非结构化环境三维点云语义分割方法 | |
CN115359474A (zh) | 适用于移动端的轻量级三维目标检测方法、装置及介质 | |
CN117422971A (zh) | 一种基于跨模态注意力机制融合的双模态目标检测方法与系统 | |
Ouyang et al. | A cgans-based scene reconstruction model using lidar point cloud | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
US12079970B2 (en) | Methods and systems for semantic scene completion for sparse 3D data | |
CN112749662B (zh) | 一种基于激光雷达的非结构化环境可行驶区域提取方法 | |
Ren et al. | Object insertion based data augmentation for semantic segmentation | |
Li et al. | Vehicle object detection based on rgb-camera and radar sensor fusion | |
Wang et al. | PVF-DectNet: Multi-modal 3D detection network based on Perspective-Voxel fusion | |
CN114048536A (zh) | 一种基于多任务神经网络的道路结构预测与目标检测方法 | |
Lei et al. | Automatic identification of street trees with improved RandLA-Net and accurate calculation of shading area with density-based iterative α-shape | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
Li et al. | Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems | |
Wen et al. | LiDAR-camera-based deep dense fusion for robust 3D object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |