CN114529727A - 一种基于LiDAR和图像融合的街道场景语义分割方法 - Google Patents

一种基于LiDAR和图像融合的街道场景语义分割方法 Download PDF

Info

Publication number
CN114529727A
CN114529727A CN202210436081.4A CN202210436081A CN114529727A CN 114529727 A CN114529727 A CN 114529727A CN 202210436081 A CN202210436081 A CN 202210436081A CN 114529727 A CN114529727 A CN 114529727A
Authority
CN
China
Prior art keywords
image
semantic
features
point cloud
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210436081.4A
Other languages
English (en)
Inventor
陶文兵
赵蔺
刘李漫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Tuke Intelligent Technology Co ltd
Original Assignee
Wuhan Tuke Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tuke Intelligent Technology Co ltd filed Critical Wuhan Tuke Intelligent Technology Co ltd
Priority to CN202210436081.4A priority Critical patent/CN114529727A/zh
Publication of CN114529727A publication Critical patent/CN114529727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于LiDAR(激光雷达)和图像融合的街道场景语义分割方法,包括:输入LiDAR点云和图像并进行预处理;将点云投影到图像中后,对图像进行上下文信息的融合得到融合信息;使用点云语义分割网络提取融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征;将图像语义特征和粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取融合语义特征的细粒度的语义特征,得到语义分割结果;采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息,以此来生成语义类别特征;有效的增强所提取点云的特征的判别力,提升模型对场景分割的准确率。

Description

一种基于LiDAR和图像融合的街道场景语义分割方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于LiDAR和图像融合的街道场景语义分割方法。
背景技术
图像包含了丰富的色彩信息和纹理信息,但是存在尺度、遮挡等问题,相对图像而言,点云包含了三维的几何结构和深度信息,但是点云具有稀疏不一致的问题。
LiDAR点云和图像信息融合主要思想是利用LiDAR和相机两种传感器对环境感知的不同优势进行互补,提高模型对街道场景的感知理解能力。
以街道场景点云语义分割为例,随着自动驾驶的快速发展,3D场景感知受到了越来越多的关注,街道场景语义分割对自动驾驶汽车的环境感知和规划十分重要。目前,街道场景分割的方法可以分为三类:基于投影的方法,基于体素的方法和基于多视图融合的方法。Cortinhal等人利用球形投影机制将LiDAR点云投影成为伪图像,然后利用一个编码-解码结构的网络来获得语义信息。Kochanov等人利用残差网络ResNetXt-101和空洞空间金字塔池化(ASPP)构建了一个增强的网络结构,并利用KPConv作为分割头替换掉KNN后处理过程。Zhang等人利用极坐标的鸟瞰图投影替代了常规的基于2D网络的鸟瞰投影(BEV)。基于投影的方法不可避免的会损失和改变原有的几何拓扑结构,导致无法有效的对几何信息进行建模。基于体素的方法将LiDAR点云栅格化到一系列的体素网格中,并使用3D卷积来获得语义分割结果。Tang等人设计了一些策略来加速3D卷积的计算,以更少的计算量和内存消耗来提高性能。考虑到LiDAR点云的稀疏性和密度变化等固有特性,Zhou等人采用在柱坐标系下将LiDAR点云划分到不同的扇区,并设计了一种非对称残差块结构以进一步减少计算消耗。基于多视图融合的方法结合了基于体素和基于投影或基于点的操作对LiDAR点云进行分割。例如,Wang等人在开始时结合来自BEV的逐点的信息和伪图像信息,然后使用一个深度学习网络来提取特征。Cheng等人采用基于点和基于体素的融合策略实现了更好的分割性能。Xu等人通过门控融合机制融合了基于点、基于投影和基于体素的操作,进而构建了一个深度融合网络。由于LiDAR点云缺少丰富的颜色和纹理信息,这些方法的性能也受到了限制。
为了充分利用LiDAR点云和图像的优势信息进行互补,在基于LiDAR点云的3D目标检测任务中,一些研究者开始探索LiDAR和图像信息的融合方法。例如,Xie等人通过对3D点进行逐点卷积并应用特征聚合操作来融合图像和LiDAR点云的特征。Yoo等人采用一种跨视图空间特征融合策略来融合图像和LiDAR点云的特征,实现了更好的检测性能。Huang等人提出了一种激光雷达引导的图像融合模块来增强在不同尺度上与图像语义特征对应的LiDAR点云特征。Vora等人将LiDAR点云投影到图像上,并将图像特征附加到每个点上,然后使用一个LiDAR检测器实现目标检测。
综上,现有的LiDAR点云语义分割方法仅使用点云的信息来提取特征,而没有研究如何充分利用图像信息和LiDAR点云的优势进行互补,以进一步提高模型对街道场景的感知能力。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于LiDAR和图像融合的街道场景语义分割方法,首先采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息,以此来生成街道场景语义类别特征。在此基础上,提出一个偏移矫正方法来解决相机和LiDAR之间的弱时空同步问题(表现为将点云投影到图像平面,属于某个物体的投影点可能会落到物体外),以更好的融合图像语义特征和LiDAR点云特征,从而有效的增强所提取点云的特征的判别力,进一步提升模型对街道场景分割的准确率。
根据本发明的第一方面,提供了一种基于LiDAR和图像融合的街道场景语义分割方法,包括:
步骤1,输入LiDAR点云和图像并进行预处理;
步骤2,将点云投影到图像中后,对所述图像进行上下文信息的融合得到融合信息;
步骤3,使用点云语义分割网络提取所述融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征;
步骤4,将所述图像语义特征和所述粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取所述融合语义特征的细粒度的语义特征,得到语义分割结果。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述步骤1中对输入的所述点云进行预处理的过程包括:
将所述点云的XYZ坐标变换到柱坐标空间,计算在柱坐标系下所述点云的范围,确定该范围对应的最大值和最小值;
根据设置的参数将各个所述点云划分到一系列的圆柱分区中。
可选的,所述步骤2包括:
步骤201,根据点云的原始坐标
Figure 829076DEST_PATH_IMAGE001
、位姿变换矩阵
Figure 3355DEST_PATH_IMAGE002
、相机 内参矩阵
Figure 803821DEST_PATH_IMAGE003
,将点云投影到图像平面,生成投影索引
Figure 510745DEST_PATH_IMAGE004
;其中,
Figure 29451DEST_PATH_IMAGE005
,R表示实数,
Figure 316076DEST_PATH_IMAGE006
表示LiDAR点云中点的数量;
步骤202,将落在图像平面外的点过滤掉,对投影索引更新后保存到内存中;
步骤203,根据更新后的投影索引坐标,在图像平面上,以投影点为中心,以大小为w×w的窗口进行上下文信息采样,并将所述窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息;将所述图像上下文信息附加到原始点云的特征后面根据点云体素划分的索引对特征进行处理。
可选的,所述步骤202中更新后的所述投影索引为:
Figure 705469DEST_PATH_IMAGE007
其中,
Figure 786558DEST_PATH_IMAGE008
;H× W为图像的大小。
可选的,所述步骤203中得到所述图像上下文信息
Figure 816394DEST_PATH_IMAGE009
的过程为:
Figure 437868DEST_PATH_IMAGE010
Figure 104604DEST_PATH_IMAGE011
其中,sample()表示用于采样的函数,reshape()表示将指定的矩阵变换成特定维数矩阵的函数,I表示图像,Ni表示过滤后的点云的点的数量。
可选的,所述步骤3中所述点云语义分割网络为UNet结构网络;所述图像语义分割网络为DeepLab。
可选的,所述步骤3中基于所述图像高维语义特征
Figure 448604DEST_PATH_IMAGE012
,计算偏移量得到对齐 后的图像语义特征
Figure 676323DEST_PATH_IMAGE013
的过程为:
使用所述投影索引Idx将所述粗粒度的语义特征
Figure 868533DEST_PATH_IMAGE014
投影到图像平面,得到 和所述图像高维语义特征
Figure 954274DEST_PATH_IMAGE012
具有相同形状的伪图像特征
Figure 908323DEST_PATH_IMAGE015
将所述粗粒度的语义特征
Figure 249437DEST_PATH_IMAGE014
和所述伪图像特征
Figure 681556DEST_PATH_IMAGE015
融合后得到融合 后的特征
Figure 634468DEST_PATH_IMAGE016
;将融合后的特征
Figure 54692DEST_PATH_IMAGE016
输入到一个两层的深度卷积网络中进行偏 移学习得到所述偏移量Offset;
基于所述偏移量Offset更新所述投影索引Idx并进行反向投影;
根据更新后的所述投影索引Idx的位置将对应的所述图像高维语义特征
Figure 460265DEST_PATH_IMAGE012
提取出来得到对齐后的图像语义特征
Figure 430495DEST_PATH_IMAGE013
可选的,所述步骤4中得到所述融合语义特征
Figure 237914DEST_PATH_IMAGE017
的过程包括:
将所述图像语义特征
Figure 831969DEST_PATH_IMAGE013
附加在所述粗粒度的语义特征
Figure 724839DEST_PATH_IMAGE014
后面,和粗 粒度的语义特征
Figure 967601DEST_PATH_IMAGE014
相融合得到融合语义特征
Figure 160685DEST_PATH_IMAGE017
Figure 600675DEST_PATH_IMAGE018
Figure 246419DEST_PATH_IMAGE019
可选的,所述步骤4中使用一个基于LiDAR语义分割的
Figure 918972DEST_PATH_IMAGE020
结构的网络 Cylinder3D来提取所述融合语义特征
Figure 232141DEST_PATH_IMAGE017
的细粒度的语义特征;
对输出的细粒度的语义特征应用一个ARGMAX操作来生成所述语义预测结果。
本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法,通过结合LiDAR和图像上下文信息的融合以及对齐后的图像语义特征和LiDAR点云的特征来实现更加准确的街道场景语义分割;融合点云和图像上下信息从而实现更好的融合点云和图像两种不同模态数据,从而提升模型对街道场景的感知能力。此外,提出一种有效的偏移矫正策略,以解决LiDAR和相机之间的弱时空同步问题,因此可以更好的融合图像高层语义特征和LiDAR点云的特征,从而有效的增强所提取的点云特征的判别力,进一步提升模型对街道场景分割的准确率。核心创新包括两大部分:一是LiDAR点云和图像上下文信息的前融合;二是解决LiDAR和相机之间的弱时空同步问题,从而更好的融合图像语义特征和点云特征,进一步提高点云分割的准确率。
附图说明
图1为本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法的流程图;
图2为本发明实施例提供的一种点云和图像上下文信息融合的流程框图;
图3为本发明提实施例提供的一种偏移学习的流程框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
相机和3D LiDAR传感器已经成为现代自动驾驶汽车不可或缺的设备。其中相机图像提供了更好的二维纹理和颜色信息,LiDAR能够更加准确的对周围环境进行远距离测量。这两种传感器的互补信息使得两种不同模态的信息融合成为了一种可能。然而,相机和LiDAR融合的两个主要问题阻碍了他们融合的性能,即就是如何有效的融合这两种不同的模态信息以及如何解决由于弱时空同步导致的这两种模态数据的对齐问题。
本发明提出了一个由粗到细的LiDAR和图像融合的网络来对街道场景进行分割。对于第一个问题,不像其他哪些一对一的融合图像信息和点云的方法,本发明采用早期融合的策略来融合图像上下文信息和点云信息。其次,本发明设计了一种偏移矫正的方法来解决弱时空同步问题以对齐两种不同的模态特征。这两种策略使得融合了LiDAR点云和图像信息能够更好的对街道场景进行感知,从而得到更加准确的街道场景语义分割结果。
图1为本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法的流程图,如图1所示,该语义分割方法包括:
步骤1,输入LiDAR点云和图像并进行预处理。
步骤2,将点云投影到图像中后,对图像进行上下文信息的融合得到融合信息。
步骤3,使用点云语义分割网络提取融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征。
步骤4,将图像语义特征和粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取融合语义特征的细粒度的语义特征,得到语义分割结果。
本发明提供的一种LiDAR和图像融合的街道场景语义分割方法,首先采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息,以此来生成街道场景语义类别特征。在此基础上,提出一个偏移矫正方法来解决相机和LiDAR之间的弱时空同步问题(表现为将点云投影到图像平面,属于某个物体的投影点可能会落到物体外),以更好的融合图像语义特征和LiDAR点云特征,从而有效的增强所提取点云的特征的判别力,进一步提升模型对街道场景分割的准确率。
实施例1
本发明提供的实施例1为本发明提供的一种基于LiDAR和图像融合的街道场景语义分割方法的实施例,结合图2可知,该语义分割方法的实施例包括:
步骤1,输入LiDAR点云和图像并进行预处理。
在一种可能的实施例方式中,步骤1中对输入的点云进行预处理的过程包括:
将点云的XYZ坐标变换到柱坐标空间,计算在柱坐标系下点云的范围,确定该范围对应的最大值和最小值。
根据设置的参数将各个点云划分到一系列的圆柱分区中。
具体实施中,圆柱分区为H×W×L中,其中H、W和L分别表示柱坐标下的半径、角度和高度。在本实施例中H=480,W=360,L=32。
将点云的反射强度也作为一部分初始特征,并且保留点云体素划分的索引。
步骤2,将点云投影到图像中后,对图像进行上下文信息的融合得到融合信息。
如图2所示为本发明实施例提供的一种点云和图像上下文信息融合的流程框图,结合图1和图2可知,在一种可能的实施例方式中,步骤2在给定点云到图像的变换矩阵和对应的相机内参矩阵前提下,将点云投影到图像,并和图像上下文信息进行融合,具体可以包括:
步骤201,根据点云的原始坐标
Figure 135375DEST_PATH_IMAGE001
、位姿变换矩阵
Figure 2837DEST_PATH_IMAGE002
、相机 内参矩阵
Figure 617096DEST_PATH_IMAGE003
,将点云投影到图像平面,生成投影索引
Figure 253613DEST_PATH_IMAGE004
;其中,
Figure 62169DEST_PATH_IMAGE005
,R表示实数,
Figure 416927DEST_PATH_IMAGE021
表示LiDAR点云中点的数量。
步骤202,将落在图像平面外的点过滤掉,对投影索引更新后保存到内存中。
其中,更新后的投影索引为:
Figure 165703DEST_PATH_IMAGE007
其中,
Figure 922306DEST_PATH_IMAGE008
;H× W为图像的大小。
更新后的索引
Figure 660019DEST_PATH_IMAGE022
Figure 33231DEST_PATH_IMAGE023
步骤203,根据更新后的投影索引坐标,在图像平面I上,以投影点为中心,以大小为w×w的窗口进行上下文信息采样,并将窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息;将图像上下文信息附加到原始点云的特征后面,以增强原始点云的特征。并根据点云体素划分的索引对特征进行处理。
得到图像上下文信息
Figure 772648DEST_PATH_IMAGE009
的过程为:
Figure 118179DEST_PATH_IMAGE010
Figure 767073DEST_PATH_IMAGE011
其中,sample()表示用于采样的函数,reshape()表示将指定的矩阵变换成特定维数矩阵的函数,I表示图像,Ni表示过滤后的点云的点的数量。
步骤3,使用点云语义分割网络提取融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征。
在一种可能的实施例方式中,步骤3中点云语义分割网络可以采用任意基于体素化的LiDAR点云语义分割网络,具体可以为UNet结构网络;图像语义分割网络可以使用任意的图像语义分割网络来进行图像高维语义特征的提取,具体可以为DeepLab。
具体实施中,将步骤2中得到的融合信息输入到一个基于LiDAR语义分割的UNet结 构的网络Cylinder3D中提取粗粒度的语义特征
Figure 96423DEST_PATH_IMAGE024
Figure 92061DEST_PATH_IMAGE025
表示特征维度。
将RGB图像输入到一个图像语义分割网络DeepLab来提取图像的高维语义特征
Figure 645981DEST_PATH_IMAGE027
Figure 197048DEST_PATH_IMAGE028
该图像高维语义特征
Figure 31930DEST_PATH_IMAGE012
是和步骤3中提取的粗粒度的语义特征
Figure 352053DEST_PATH_IMAGE014
相 融合作为偏移学习的输入特征。
如图3所示为本发明提实施例提供的一种偏移学习的流程框图,在一种可能的实 施例方式中,步骤3中基于图像高维语义特征
Figure 811591DEST_PATH_IMAGE012
,计算偏移量得到对齐后的图像语义 特征
Figure 849954DEST_PATH_IMAGE013
的过程为:
使用投影索引Idx将粗粒度的语义特征
Figure 79072DEST_PATH_IMAGE014
投影到图像平面,得到和图像高 维语义特征
Figure 519281DEST_PATH_IMAGE012
具有相同形状的伪图像特征
Figure 447922DEST_PATH_IMAGE015
Figure 708002DEST_PATH_IMAGE029
,以便于后续和图 像语义特征融合并进行偏移学习,这一过程可以表示为:
Figure 443876DEST_PATH_IMAGE030
将粗粒度的语义特征
Figure 66487DEST_PATH_IMAGE014
和伪图像特征
Figure 867827DEST_PATH_IMAGE015
融合后得到融合后的特征
Figure 880783DEST_PATH_IMAGE016
Figure 825605DEST_PATH_IMAGE031
;将融合后的特征
Figure 974827DEST_PATH_IMAGE016
输入到一个两层的深度卷积网络中进行偏移学习得到偏移量Offset∈
Figure 714112DEST_PATH_IMAGE032
;通过学习投影点在图像平面上的偏移量以解决LiDAR和相机之间的弱时空同 步问题,进而提升模型对街道场景的分割精度
基于偏移量Offset更新投影索引Idx并进行反向投影。
具体实施中,更新Idx的公式为:
Figure 715829DEST_PATH_IMAGE033
Figure 464342DEST_PATH_IMAGE034
根据更新后的投影索引Idx的位置将对应的图像高维语义特征
Figure 468070DEST_PATH_IMAGE012
提取出来 得到对齐后的图像语义特征
Figure 643836DEST_PATH_IMAGE013
Figure 135778DEST_PATH_IMAGE035
步骤4,将图像语义特征和粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取融合语义特征的细粒度的语义特征,得到语义分割结果。
在一种可能的实施例方式中,步骤4中得到融合语义特征
Figure 156824DEST_PATH_IMAGE017
的过程包括:
将图像语义特征
Figure 280638DEST_PATH_IMAGE013
附加在粗粒度的语义特征
Figure 361726DEST_PATH_IMAGE014
后面,和粗粒度的语 义特征
Figure 570991DEST_PATH_IMAGE014
相融合得到融合语义特征
Figure 162771DEST_PATH_IMAGE017
Figure 406671DEST_PATH_IMAGE036
,这一过程可以表示 为:
Figure 924240DEST_PATH_IMAGE037
Figure 886380DEST_PATH_IMAGE038
在一种可能的实施例方式中,步骤4中可以使用任意的基于体素化的LiDAR语义分 割网络,本发明给出的实施例中使用一个基于LiDAR语义分割的UNet结构的网络 Cylinder3D来提取融合语义特征
Figure 13342DEST_PATH_IMAGE017
的细粒度的语义特征,从而进一步细化提取的 LiDAR语义特征。
对输出的细粒度的语义特征应用一个ARGMAX操作来生成语义预测结果。
ARGMAX为一种对函数求参数(集合)的函数。
本发明实施例提供的一种基于LiDAR和图像融合的街道场景语义分割方法,通过结合LiDAR和图像上下文信息的融合以及对齐后的图像语义特征和LiDAR点云的特征来实现更加准确的街道场景语义分割;融合点云和图像上下信息从而实现更好的融合点云和图像两种不同模态数据,从而提升模型对街道场景的感知能力。此外,提出一种有效的偏移矫正策略,以解决LiDAR和相机之间的弱时空同步问题,因此可以更好的融合图像高层语义特征和LiDAR点云的特征,从而有效的增强所提取的点云特征的判别力,进一步提升模型对街道场景分割的准确率。核心创新包括两大部分:一是LiDAR点云和图像上下文信息的前融合;二是解决LiDAR和相机之间的弱时空同步问题,从而更好的融合图像语义特征和点云特征,进一步提高点云分割的准确率。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (9)

1.一种基于LiDAR和图像融合的街道场景语义分割方法,其特征在于,所述语义分割方法包括:
步骤1,输入LiDAR点云和图像并进行预处理;
步骤2,将点云投影到图像中后,对所述图像进行上下文信息的融合得到融合信息;
步骤3,使用点云语义分割网络提取所述融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征;
步骤4,将所述图像语义特征和所述粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取所述融合语义特征的细粒度的语义特征,得到语义分割结果。
2.根据权利要求1所述的语义分割方法,其特征在于,所述步骤1中对输入的所述点云进行预处理的过程包括:
将所述点云的XYZ坐标变换到柱坐标空间,计算在柱坐标系下所述点云的范围,确定该范围对应的最大值和最小值;
根据设置的参数将各个所述点云划分到一系列的圆柱分区中。
3.根据权利要求1所述的语义分割方法,其特征在于,所述步骤2包括:
步骤201,根据点云的原始坐标
Figure 250298DEST_PATH_IMAGE001
、位姿变换矩阵
Figure 527696DEST_PATH_IMAGE002
、相机内参 矩阵
Figure 882454DEST_PATH_IMAGE003
,将点云投影到图像平面,生成投影索引
Figure 801868DEST_PATH_IMAGE004
;其中,
Figure 59937DEST_PATH_IMAGE005
,R表示实数,
Figure 773815DEST_PATH_IMAGE006
表示LiDAR点云中点的数量;
步骤202,将落在图像平面外的点过滤掉,对投影索引更新后保存到内存中;
步骤203,根据更新后的投影索引坐标,在图像平面上,以投影点为中心,以大小为w×w的窗口进行上下文信息采样,并将所述窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息;将所述图像上下文信息附加到原始点云的特征后面根据点云体素划分的索引对特征进行处理。
4.根据权利要求3所述的语义分割方法,其特征在于,所述步骤202中更新后的所述投影索引为:
Figure 615869DEST_PATH_IMAGE007
其中,
Figure 338974DEST_PATH_IMAGE008
;H×W为图 像的大小。
5.根据权利要求3所述的语义分割方法,其特征在于,所述步骤203中得到所述图像上 下文信息
Figure 448619DEST_PATH_IMAGE009
的过程为:
Figure 598978DEST_PATH_IMAGE010
Figure 662749DEST_PATH_IMAGE011
其中,sample()表示用于采样的函数,reshape()表示将指定的矩阵变换成特定维数矩阵的函数,I表示图像,Ni表示过滤后的点云的点的数量。
6.根据权利要求1所述的语义分割方法,其特征在于,所述步骤3中所述点云语义分割网络为UNet结构网络;所述图像语义分割网络为DeepLab。
7.根据权利要求3所述的语义分割方法,其特征在于,所述步骤3中基于所述图像高维 语义特征
Figure 923966DEST_PATH_IMAGE012
,计算偏移量得到对齐后的图像语义特征
Figure 625468DEST_PATH_IMAGE013
的过程为:
使用所述投影索引Idx将所述粗粒度的语义特征
Figure 681149DEST_PATH_IMAGE014
投影到图像平面,得到和所 述图像高维语义特征
Figure 497795DEST_PATH_IMAGE012
具有相同形状的伪图像特征
Figure 297124DEST_PATH_IMAGE015
将所述粗粒度的语义特征
Figure 617247DEST_PATH_IMAGE014
和所述伪图像特征
Figure 879382DEST_PATH_IMAGE015
融合后得到融合后的 特征
Figure 652165DEST_PATH_IMAGE016
;将融合后的特征
Figure 255185DEST_PATH_IMAGE016
输入到一个两层的深度卷积网络中进行偏移学 习得到所述偏移量Offset;
基于所述偏移量Offset更新所述投影索引Idx并进行反向投影;
根据更新后的所述投影索引Idx的位置将对应的所述图像高维语义特征
Figure 960973DEST_PATH_IMAGE012
提取 出来得到对齐后的图像语义特征
Figure 859921DEST_PATH_IMAGE013
8.根据权利要求3所述的语义分割方法,其特征在于,所述步骤4中得到所述融合语义 特征
Figure 651160DEST_PATH_IMAGE017
的过程包括:
将所述图像语义特征
Figure 526712DEST_PATH_IMAGE013
附加在所述粗粒度的语义特征
Figure 352585DEST_PATH_IMAGE014
后面,和粗粒度 的语义特征
Figure 419505DEST_PATH_IMAGE014
相融合得到融合语义特征
Figure 432460DEST_PATH_IMAGE017
Figure 377283DEST_PATH_IMAGE018
Figure 792083DEST_PATH_IMAGE019
9.根据权利要求3所述的语义分割方法,其特征在于,所述步骤4中使用一个基于LiDAR 语义分割的UNet结构的网络Cylinder3D来提取所述融合语义特征
Figure 32834DEST_PATH_IMAGE017
的细粒度的语义 特征;
对输出的细粒度的语义特征应用一个ARGMAX操作来生成所述语义预测结果。
CN202210436081.4A 2022-04-25 2022-04-25 一种基于LiDAR和图像融合的街道场景语义分割方法 Pending CN114529727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436081.4A CN114529727A (zh) 2022-04-25 2022-04-25 一种基于LiDAR和图像融合的街道场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436081.4A CN114529727A (zh) 2022-04-25 2022-04-25 一种基于LiDAR和图像融合的街道场景语义分割方法

Publications (1)

Publication Number Publication Date
CN114529727A true CN114529727A (zh) 2022-05-24

Family

ID=81628310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436081.4A Pending CN114529727A (zh) 2022-04-25 2022-04-25 一种基于LiDAR和图像融合的街道场景语义分割方法

Country Status (1)

Country Link
CN (1) CN114529727A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385452A (zh) * 2023-03-20 2023-07-04 广东科学技术职业学院 一种基于极坐标BEV图的LiDAR点云全景分割方法
CN116673597A (zh) * 2023-07-28 2023-09-01 清华大学 用于双v复合型坡口的激光线图像特征提取系统及方法
CN117333676A (zh) * 2023-12-01 2024-01-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表达的点云特征提取方法、点云视觉检测方法
CN117523547A (zh) * 2024-01-04 2024-02-06 山东省凯麟环保设备股份有限公司 一种三维场景语义感知方法、系统、设备与介质
WO2024113078A1 (zh) * 2022-11-28 2024-06-06 中国科学院深圳先进技术研究院 用于3d点云场景语义分割的局部上下文特征提取模块

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143207A (zh) * 2018-09-06 2019-01-04 百度在线网络技术(北京)有限公司 激光雷达内参精度验证方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143207A (zh) * 2018-09-06 2019-01-04 百度在线网络技术(北京)有限公司 激光雷达内参精度验证方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUI ZHOU ET AL.: "Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation", 《IEEE》 *
LIN ZHAO ET AL.: "LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation", 《IEEE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024113078A1 (zh) * 2022-11-28 2024-06-06 中国科学院深圳先进技术研究院 用于3d点云场景语义分割的局部上下文特征提取模块
CN116385452A (zh) * 2023-03-20 2023-07-04 广东科学技术职业学院 一种基于极坐标BEV图的LiDAR点云全景分割方法
CN116673597A (zh) * 2023-07-28 2023-09-01 清华大学 用于双v复合型坡口的激光线图像特征提取系统及方法
CN116673597B (zh) * 2023-07-28 2023-10-13 清华大学 用于双v复合型坡口的激光线图像特征提取系统及方法
CN117333676A (zh) * 2023-12-01 2024-01-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表达的点云特征提取方法、点云视觉检测方法
CN117333676B (zh) * 2023-12-01 2024-04-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表达的点云特征提取方法、点云视觉检测方法
CN117523547A (zh) * 2024-01-04 2024-02-06 山东省凯麟环保设备股份有限公司 一种三维场景语义感知方法、系统、设备与介质
CN117523547B (zh) * 2024-01-04 2024-03-29 山东省凯麟环保设备股份有限公司 一种三维场景语义感知方法、系统、设备与介质

Similar Documents

Publication Publication Date Title
CN114529727A (zh) 一种基于LiDAR和图像融合的街道场景语义分割方法
US11954813B2 (en) Three-dimensional scene constructing method, apparatus and system, and storage medium
Jörgensen et al. Monocular 3d object detection and box fitting trained end-to-end using intersection-over-union loss
Guerry et al. Snapnet-r: Consistent 3d multi-view semantic labeling for robotics
CN112085840B (zh) 语义分割方法、装置、设备及计算机可读存储介质
CN111340922B (zh) 定位与地图构建的方法和电子设备
CN112419494A (zh) 用于自动驾驶的障碍物检测、标记方法、设备及存储介质
CN113160068B (zh) 基于图像的点云补全方法及系统
CN112465970B (zh) 导航地图构建方法、装置、系统、电子装置和存储介质
EP3992908A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
KR20220161341A (ko) 이미지 처리 시스템 및 방법
CN113780389A (zh) 基于一致性约束的深度学习半监督密集匹配方法及系统
CN114445479A (zh) 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层
Tian et al. Monocular depth estimation based on a single image: a literature review
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
WO2021198665A1 (en) Image processing system and method
CN111738061A (zh) 基于区域特征提取的双目视觉立体匹配方法及存储介质
Niu et al. Overview of image-based 3D reconstruction technology
Wang et al. A review of 3D object detection based on autonomous driving
Ling et al. ScaleRAFT: Cross-Scale Recurrent All-Pairs Field Transforms for 3D Motion Estimation
CN115063594B (zh) 一种基于自动驾驶的特征提取方法及装置
Tian et al. 3D object reconstruction based on attention point cloud NeRF
CN114266900B (zh) 一种基于动态卷积的单目3d目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220524