CN117523547B - 一种三维场景语义感知方法、系统、设备与介质 - Google Patents

一种三维场景语义感知方法、系统、设备与介质 Download PDF

Info

Publication number
CN117523547B
CN117523547B CN202410008102.1A CN202410008102A CN117523547B CN 117523547 B CN117523547 B CN 117523547B CN 202410008102 A CN202410008102 A CN 202410008102A CN 117523547 B CN117523547 B CN 117523547B
Authority
CN
China
Prior art keywords
image
features
voxel
point cloud
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410008102.1A
Other languages
English (en)
Other versions
CN117523547A (zh
Inventor
徐龙生
薛冰
欧兆明
庞士玺
杨纪冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Kailin Environmental Protection Equipment Co ltd
Original Assignee
Shandong Kailin Environmental Protection Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Kailin Environmental Protection Equipment Co ltd filed Critical Shandong Kailin Environmental Protection Equipment Co ltd
Priority to CN202410008102.1A priority Critical patent/CN117523547B/zh
Publication of CN117523547A publication Critical patent/CN117523547A/zh
Application granted granted Critical
Publication of CN117523547B publication Critical patent/CN117523547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种三维场景语义感知方法、系统、设备与介质,涉及三维视觉技术领域,包括:获取三维场景的点云数据和RGB图像;分别从点云数据和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素‑图像融合特征及距离‑图像融合特征;将点云特征、体素‑图像融合特征和距离‑图像融合特征进行加权融合和残差连接,获得多模态融合特征;通过多模态融合特征对三维场景进行语义分割,提高了三维场景语义感知结果的准确性。

Description

一种三维场景语义感知方法、系统、设备与介质
技术领域
本发明涉及三维视觉技术领域,尤其涉及一种三维场景语义感知方法、系统、设备与介质。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着机器人技术在工业、服务业和日常生活中的应用越来越广泛,对机器人三维场景感知的需求也在不断增加。对于整个机器人系统来说,场景感知是其与外界信息交互的关键节点,具有至关重要的地位,它不仅可作为决策层先验,还是自主导航、人机交互等任务的基础。因此,机器人三维场景语义感知方法显得尤为重要。
当前三维场景语义感知方法主要通过单一的点云数据或RGB图像进行场景语义感知,现有技术采集的点云数据在复杂环境下存在较多的缺陷,对于这些缺陷造成的环境信息缺失,现有方法大多是通过拟合、插值的方法进行补充的,得到的信息只是对环境信息的估计,而不是真实准确的信息。现有点云数据利用技术不能满足复杂条件下环境实时精确感知的要求。RGB图像包含丰富的颜色和纹理,但对于空间信息无法精准提供,故当通过单一的点云数据或RGB图像进行场景语义感知时,不能保证场景语义感知结果的准确性。
发明内容
本发明为了解决上述问题,提出了一种三维场景语义感知方法、系统、设备与介质,同时利用三维场景的点云数据和RGB图像对三维场景进行语义感知,提高了三维场景语义感知的准确性。
为实现上述目的,本发明采用如下技术方案:
第一方面,提出了一种三维场景语义感知方法,包括:
获取三维场景的点云数据和RGB图像;
根据点云数据,获得点云的距离图像和体素图像;
分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;
通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;
将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素-图像融合特征及距离-图像融合特征;
将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接,获得多模态融合特征;
通过多模态融合特征对三维场景进行语义分割,获得三维场景的语义感知结果。
第二方面,提出了一种三维场景语义感知系统,包括:
多模态数据获取模块,用于获取三维场景的点云数据和RGB图像;
多模态特征获取模块,用于根据点云数据,获得点云的距离图像和体素图像;分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;
多模态特征融合模块,用于通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素-图像融合特征及距离-图像融合特征;将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接,获得多模态融合特征;
场景语义感知模块,用于通过多模态融合特征对三维场景进行语义分割,获得三维场景的语义感知结果。
第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成一种三维场景语义感知方法所述的步骤。
第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成一种三维场景语义感知方法所述的步骤。
与现有技术相比,本发明的有益效果为:
1、本发明充分利用点云精确的三维位置信息和RGB图像丰富的颜色和纹理信息,获得更具有鲁棒性的场景语义分割效果,从而提升机器人语义感知的性能。
2、本发明基于最近邻简化的点云特征提取方法从点云数据中提取点云特征,通过最近邻搜索算法和香农信息熵公式求得的最优邻域来确定点的曲率,可以得到更加合适的曲率值,以此进行点云简化,能够降低点的数据密度,减少计算开销,同时又能够尽可能保留有效信息,保证特征的精度和有效。
3、本发明分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;将点云特征、图像增强的体素特征和图像增强的距离特征进行加权融合和残差连接,获得多模态融合特征;将RGB图像的图像特征作为点云的自然补充,充分利用了RGB图像丰富的语义信息。同时,对点云的三个视图的特征进行自适应的融合,可以有效结合三种视图的优势,获得更完整和细粒度的空间信息。多模态的数据相辅相成,能够产生更好的语义分割效果。当用该多模态融合特征进行三维场景的语义分割时,能够提高机器人对场景语义信息的获取能力,使其具备更稳健的场景感知能力,提高机器人三维场景语义感知的准确性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为实施例公开方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
在该实施例中,公开了一种三维场景语义感知方法,如图1所示,包括:
S1:获取三维场景的点云数据和RGB图像。
机器人进入三维场景时,由机器人搭载的激光雷达发射激光束并测量其返回时间,生成一系列点的三维坐标,形成三维场景的点云数据。通过机器人搭载的RDB摄像头获取三维场景的RGB图像。
S2:根据点云数据,获得点云的距离图像和体素图像。
本实施例将点云数据进行球面投影,获得点云的距离图像。将三维点云数据通过映射到球面上,以实现球面上的二维表示。
根据点云数据构建体素空间;对体素空间进行体素网格划分;将每个点云数据与最近的体素中心点进行关联,获得点云的体素图像。
具体的,根据点云数据的最大值和最小值构建体素空间;将三维的体素空间划分为规则的体素网格。体素作为一种立方体形状的三维体元,类似于像素在二维图像中的概念。体素网格表示为一个三维数组,其中每个元素表示一个体素。对于每个点云数据,使用最近邻搜索算法,将每个点云数据与最近的体素中心点进行关联,获得点云的体素图像。
S3:分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征。
优选的,分别采用距离特征提取网络、体素特征提取网络和图像特征提取网络,从相应的点云的距离图像、体素图像和RGB图像中提取距离特征、体素特征/>和图像特征
基于最近邻简化的点云特征提取方法,从点云数据中提取点云特征,具体包括:
S31:确定每个点云数据的最优邻域。
对于点云数据集合中的任意点云数据/>,利用最近邻搜索算法寻找点云数据/>的N个最近的邻居点,计算N个邻居点与点云数据/>组成矩阵的协方差矩阵及该协方差矩阵的特征值,记为/>,其中,/>。根据协方差矩阵的特征值/>,通过香农信息熵公式计算点云数据/>的最优邻域/>:/>
S32:以最优邻域中数据的法向量方向为Z轴方向,建立正交坐标系;将P的最优邻域内的点全部投射到该正交坐标系中,对投影后的点进行抛物面拟合,获得拟合抛物面。
以点云数据为坐标原点,以最优邻域/>内点/>的法向量方向为Z轴方向,建立正交坐标系。将/>内的点全部投射到该正交坐标系中,获得投影后的点,投影后的点的坐标记为/>,对所有投影后的点以抛物线方程进行抛物面拟合:。式中,/>、/>、/>均为拟合参数,/>表示拟合抛物面。
S33:将拟合抛物面中曲率大于等于设定曲率阈值的点作为简化点云,将曲率小于设定阈值的点作为移除点云。
在对抛物面进行拟合,获得拟合抛物面后,进一步可以获得拟合抛物面的最佳平均曲率值为,根据所有点的最佳平均曲率值/>的数据分布,调整并确定曲率阈值/>。将拟合抛物面中曲率大于等于设定曲率阈值/>的点保留,作为简化点云,得到简化点云集合/>;将曲率小于设定曲率阈值的点作为移除点云,得到移除点集合/>
S34:提取简化点云特征和移除点云的拟合特征;将简化点云特征和移除点云的拟合特征进行合并获得点云特征。
将简化点云集合馈送到一系列多层感知机中,获取简化点云特征/>。确定与每个移除点最临近的简化点云;并计算每个移除点与其最临近的简化点云的欧式距离,利用移除点与其最临近的简化点云的欧式距离对移除点与其最临近的简化点云进行插值,获得移除点的拟合特征/>;将简化点云特征/>和移除点的拟合特征/>进行合并,得到点云特征/>
S4:通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素-图像融合特征及距离-图像融合特征。
获得图像增强的体素特征和图像增强的距离特征的过程包括:
通过校准矩阵对图像特征进行校准,获得校准后图像;
将校准后图像像素与图像特征进行对比,确定校准后图像中像素的偏移量;
通过校准后图像中像素的偏移量对图像特征进行采样,获得采样后的图像特征;
将体素特征和距离特征分别作为查询条件,将采样后的图像特征作为键和值,对体素特征和采样后的图像特征、距离特征和采样后的图像特征分别进行多头交叉注意力操作,获得图像增强的体素特征和图像增强的距离特征。
具体的,对于每个图像像素,首先根据校准矩阵,对图像特征进行校准。对于每个点坐标,通过下列公式与RGB图像像素/>的坐标/>进行对应: 其中,T为相机外参矩阵,由旋转矩阵和平移矩阵组成,S是相机内矩阵,S和T均为校准矩阵。
通过对图像特征和校准后图像中对应点的像素坐标之间作差,计算得到校准后图像中像素的偏移量。每个像素的偏移量为一个二维向量,包括水平方向和垂直方向上的偏移值。通过下式,利用学习到的偏移来采样L个图像特征:/>。式中,/>为校准后图像,/>是步骤S3中得到的图像特征,/>为图像像素点,/>是第/>个采样图像的像素偏移量。
将体素特征作为查询Q,采样后的图像特征作为键和值,分别表示为K和V。对体素特征和采样后的图像特征进行多头交叉注意力操作,得到图像增强的体素特征/> 其中,M表示多头交叉注意力的头数,/>表示体素特征的通道维度。
将图像增强的体素特征与原始的体素特征/>进行串联,得到体素-图像融合特征/>:/>
对于距离特征,采用与获得图像增强的体素特征相同的操作,并将体素特征替换为距离特征,获得距离-图像融合特征
S5:将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接,获得多模态融合特征。
在将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接之前,将体素-图像融合特征和距离-图像融合特征/>映射到点云空间,利用插值使得体素-图像融合特征和距离-图像融合特征的特征数量与点云的数量相匹配;之后,将体素-图像融合特征、距离-图像融合特征和点云特征进行串联,得到多模态特征/>;通过可学习权重/>对体素-图像融合特征、距离-图像融合特征和点云特征进行加权,然后馈送到带有ReLU激活的多层感知机中,获得其全局特征/>:/> 然后,通过残差连接,获得最终的多模态融合特征/>,并通过插值将其投影回原始的空间,其中:/>
S6:通过多模态融合特征对三维场景进行语义分割,获得三维场景的语义感知结果。
对于步骤S6中得到的多模态融合特征,将其输入到由多个全连接层组成的分类器中,该分类器的作用是为每个像素分配一个预测的语义标签,从而实现对三维场景的语义分割。通过此过程,机器人对三维场景进行语义分割,实现对三维场景的语义感知。
三维点云数据一般是由激光雷达等设备扫描获取的空间点的信息,其中的每个点都对应着真实空间中的一个测量点。三维点云包含丰富的几何和尺度信息,并且不易受遮挡和光照影响。因此,三维点云可以帮助机器人更好的理解周围的环境。三维点云语义分割是对点云中的每个点分配一个对应的语义标签,在机器人、自动驾驶和增强现实等众多领域中得到了广泛应用,也是机器人进行三维场景语义感知中不可或缺的关键部分。
对于场景信息,不同的模态有各自的优缺点。点云可提供准确的深度信息,并且可在点、体素和距离等不同的视图中处理。其中,点视图保持了原始点信息的完整性,但由于点的排列是无序的,邻近点索引复杂度高,效率低,计算开销大;体素视图将点云转化为体素单元,能够保留规则的结构,但难以反映点云密度变化,且可能丢失局部细节;距离视图比较稠密紧凑,便于高效处理,但会破坏原始三维信息;RGB图像包含丰富的颜色和纹理,但对于空间信息无法精准提供。多模态多视图的场景数据是互相辅助的。因此,充分利用多模态的综合信息有利于获得更加具有鲁棒性的场景语义感知。
综上所述,本实施例公开的一种三维场景语义感知方法通过融合多种模态的数据,来获取更丰富、更准确的环境信息。这种方法可以帮助机器人更好地理解环境中的物体、人体、场景布局等信息,为机器人提供更全面、更准确的环境感知能力,从而有助于实现更智能、更安全的机器人行为,具有广泛的应用前景。
故本实施例公开的一种三维场景语义感知方法,基于多模态特征融合,充分利用点云精确的三维位置信息和RGB图像丰富的颜色和纹理信息,获得更具有鲁棒性的场景语义分割效果。基于最近邻简化的点云特征提取能够降低点云密度,减少计算开销,同时保留有效信息,保证特征的精度和有效。基于注意力机制的多模态特征融合有效结合不同模态和视图的优势,获得更完整和细粒度的空间信息。多模态的数据相辅相成,产生更好的语义分割效果,从而提升机器人语义感知的性能。
实施例2
在该实施例中,公开了一种三维场景语义感知系统,包括:
多模态数据获取模块,用于获取三维场景的点云数据和RGB图像;
多模态特征获取模块,用于根据点云数据,获得点云的距离图像和体素图像;分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;
多模态特征融合模块,用于通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素-图像融合特征及距离-图像融合特征;将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接,获得多模态融合特征;
场景语义感知模块,用于通过多模态融合特征对三维场景进行语义分割,获得三维场景的语义感知结果。
实施例3
在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的一种三维场景语义感知方法所述的步骤。
实施例4
在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的一种三维场景语义感知方法所述的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种三维场景语义感知方法,其特征在于,包括:
获取三维场景的点云数据和RGB图像;
根据点云数据,获得点云的距离图像和体素图像;
分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;
通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;
将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素-图像融合特征及距离-图像融合特征;
将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接,获得多模态融合特征;
通过多模态融合特征对三维场景进行语义分割,获得三维场景的语义感知结果;
将点云数据进行球面投影,获得点云的距离图像;
获得图像增强的体素特征和图像增强的距离特征的过程包括:
通过校准矩阵对图像特征进行校准,获得校准后图像;
将校准后图像像素与图像特征进行对比,确定校准后图像中像素的偏移量;
通过校准后图像中像素的偏移量对图像特征进行采样,获得采样后的图像特征;
将体素特征和距离特征分别作为查询条件,将采样后的图像特征作为键和值,对体素特征和采样后的图像特征、距离特征和采样后的图像特征分别进行多头交叉注意力操作,获得图像增强的体素特征和图像增强的距离特征。
2.如权利要求1所述的一种三维场景语义感知方法,其特征在于,根据点云数据构建体素空间;对体素空间进行体素网格划分;将每个点云数据与最近的体素中心点进行关联,获得点云的体素图像。
3.如权利要求1所述的一种三维场景语义感知方法,其特征在于,基于最近邻简化的点云特征提取方法,从点云数据中提取点云特征。
4.如权利要求3所述的一种三维场景语义感知方法,其特征在于,确定每个点云数据的最优邻域;
以最优邻域中数据的法向量方向为Z轴方向,建立正交坐标系;将P的最优邻域内的点全部投射到该正交坐标系中,对投影后的点进行抛物面拟合,获得拟合抛物面;
将拟合抛物面中曲率大于等于设定曲率阈值的点作为简化点云,将曲率小于设定阈值的点作为移除点云;
提取简化点云特征和移除点云的拟合特征;将简化点云特征和移除点云的拟合特征进行合并获得点云特征。
5.如权利要求1所述的一种三维场景语义感知方法,其特征在于,将体素-图像融合特征和距离-图像融合特征映射到点云空间,利用插值使得体素-图像融合特征和距离-图像融合特征的特征数量与点云的数量相匹配。
6.一种三维场景语义感知系统,其特征在于,包括:
多模态数据获取模块,用于获取三维场景的点云数据和RGB图像;
多模态特征获取模块,用于根据点云数据,获得点云的距离图像和体素图像;分别从点云数据、点云的距离图像、体素图像和RGB图像中,提取点云特征、距离特征、体素特征和图像特征;
多模态特征融合模块,用于通过图像特征分别对体素特征和距离特征进行图像增强,获得图像增强的体素特征和图像增强的距离特征;将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合,获得体素-图像融合特征及距离-图像融合特征;将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接,获得多模态融合特征;
场景语义感知模块,用于通过多模态融合特征对三维场景进行语义分割,获得三维场景的语义感知结果;
将点云数据进行球面投影,获得点云的距离图像;
获得图像增强的体素特征和图像增强的距离特征的过程包括:
通过校准矩阵对图像特征进行校准,获得校准后图像;
将校准后图像像素与图像特征进行对比,确定校准后图像中像素的偏移量;
通过校准后图像中像素的偏移量对图像特征进行采样,获得采样后的图像特征;
将体素特征和距离特征分别作为查询条件,将采样后的图像特征作为键和值,对体素特征和采样后的图像特征、距离特征和采样后的图像特征分别进行多头交叉注意力操作,获得图像增强的体素特征和图像增强的距离特征。
7.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项所述的一种三维场景语义感知方法的步骤。
8.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的一种三维场景语义感知方法的步骤。
CN202410008102.1A 2024-01-04 2024-01-04 一种三维场景语义感知方法、系统、设备与介质 Active CN117523547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410008102.1A CN117523547B (zh) 2024-01-04 2024-01-04 一种三维场景语义感知方法、系统、设备与介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410008102.1A CN117523547B (zh) 2024-01-04 2024-01-04 一种三维场景语义感知方法、系统、设备与介质

Publications (2)

Publication Number Publication Date
CN117523547A CN117523547A (zh) 2024-02-06
CN117523547B true CN117523547B (zh) 2024-03-29

Family

ID=89751625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410008102.1A Active CN117523547B (zh) 2024-01-04 2024-01-04 一种三维场景语义感知方法、系统、设备与介质

Country Status (1)

Country Link
CN (1) CN117523547B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886272A (zh) * 2019-02-25 2019-06-14 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备
CN114255238A (zh) * 2021-11-26 2022-03-29 电子科技大学长三角研究院(湖州) 一种融合图像特征的三维点云场景分割方法及系统
CN114529727A (zh) * 2022-04-25 2022-05-24 武汉图科智能科技有限公司 一种基于LiDAR和图像融合的街道场景语义分割方法
CN114549537A (zh) * 2022-02-18 2022-05-27 东南大学 基于跨模态语义增强的非结构化环境点云语义分割方法
CN114821507A (zh) * 2022-05-18 2022-07-29 中国地质大学(北京) 一种用于自动驾驶的多传感器融合车路协同感知方法
CN116246074A (zh) * 2023-03-28 2023-06-09 北京航空航天大学 一种融合光学图像和激光雷达点云的遥感语义分割方法
CN116977959A (zh) * 2023-06-27 2023-10-31 清华大学 一种基于信息熵的全天时多模态融合方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886272A (zh) * 2019-02-25 2019-06-14 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备
CN114255238A (zh) * 2021-11-26 2022-03-29 电子科技大学长三角研究院(湖州) 一种融合图像特征的三维点云场景分割方法及系统
CN114549537A (zh) * 2022-02-18 2022-05-27 东南大学 基于跨模态语义增强的非结构化环境点云语义分割方法
CN114529727A (zh) * 2022-04-25 2022-05-24 武汉图科智能科技有限公司 一种基于LiDAR和图像融合的街道场景语义分割方法
CN114821507A (zh) * 2022-05-18 2022-07-29 中国地质大学(北京) 一种用于自动驾驶的多传感器融合车路协同感知方法
CN116246074A (zh) * 2023-03-28 2023-06-09 北京航空航天大学 一种融合光学图像和激光雷达点云的遥感语义分割方法
CN116977959A (zh) * 2023-06-27 2023-10-31 清华大学 一种基于信息熵的全天时多模态融合方法及装置

Also Published As

Publication number Publication date
CN117523547A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN111179324B (zh) 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
US20210110599A1 (en) Depth camera-based three-dimensional reconstruction method and apparatus, device, and storage medium
CN110853075B (zh) 一种基于稠密点云与合成视图的视觉跟踪定位方法
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN108986161A (zh) 一种三维空间坐标估计方法、装置、终端和存储介质
CN111899328B (zh) 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN108010123B (zh) 一种保留拓扑信息的三维点云获取方法
CN115205489A (zh) 一种大场景下的三维重建方法、系统及装置
Liang et al. A survey of 3D object detection
US20200057778A1 (en) Depth image pose search with a bootstrapped-created database
Xiaogang et al. Monocular depth estimation based on deep learning: A survey
CN115035235A (zh) 三维重建方法及装置
WO2023093085A1 (zh) 重建物体表面的方法、装置、计算机存储介质和计算机程序产品
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
Mihajlovic et al. Deepsurfels: Learning online appearance fusion
CN114863062A (zh) 基于点、体素特征表示的工业场景3d点云模型构建方法
Örnek et al. From 2d to 3d: Re-thinking benchmarking of monocular depth prediction
CN117523547B (zh) 一种三维场景语义感知方法、系统、设备与介质
CN116912405A (zh) 一种基于改进MVSNet的三维重建方法及系统
Yang et al. Monocular camera based real-time dense mapping using generative adversarial network
CN116704112A (zh) 一种用于对象重建的3d扫描系统
Lyu et al. 3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant