CN111275026B - 一种三维点云联合语义和实例分割的方法 - Google Patents

一种三维点云联合语义和实例分割的方法 Download PDF

Info

Publication number
CN111275026B
CN111275026B CN202010207999.2A CN202010207999A CN111275026B CN 111275026 B CN111275026 B CN 111275026B CN 202010207999 A CN202010207999 A CN 202010207999A CN 111275026 B CN111275026 B CN 111275026B
Authority
CN
China
Prior art keywords
semantic
point cloud
features
dimensional
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010207999.2A
Other languages
English (en)
Other versions
CN111275026A (zh
Inventor
冯建峰
杜量
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010207999.2A priority Critical patent/CN111275026B/zh
Publication of CN111275026A publication Critical patent/CN111275026A/zh
Application granted granted Critical
Publication of CN111275026B publication Critical patent/CN111275026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种三维点云联合语义和实例分割的方法,包括以下步骤:通过深度传感器和图像传感器获取三维场景的点云信息,将得到的三维场景点云数据进行随机下采样得到固定点数的点云数据,将得到的下采样的点云数据输入点云特征编码网络进行特征提取,将提取到的点云特征分别输入两个不同的特征提取网络得到独立的语义特征和实例特征,将语义特征和实例特征按先语义后实例,先实例后语义一步步输入两个不同的两步长的循环卷积神经网络,分别输出实例和语义特征;本发明模拟了人脑处理语义判别和同一语义下个体实例区分时的记忆筛选机制,不仅可以同时输出多任务,准确率也高于传统单任务的方法,具有很高效的推理速度。

Description

一种三维点云联合语义和实例分割的方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种三维点云联合语义和实例分割的方法。
背景技术
基于激光雷达、深度相机和双目相机的三维场景理解技术由于其在自主驾驶和机器人场景感知等方面的重要作用,实例和语义分割是该领域应用最为广泛和重要的两个实际任务,而这两个任务有一些共同点,可以关联地加以利用来提高彼此的性能。
过去一种方法是联合使用实例和语义分割的方法是利用预测的语义标签来进一步聚类实例,或者利用预测的实例结果作为语义分割的先验知识,然而,使用不可靠的上游预测作为先验信息可能会影响下游任务,因此,这种的传统方法是次优的。
过去另一种方法是直接用两个任务的高维编码来做特征融合,进一步预测实例和语义分割的结果,尽管语义分割和实例分割有着共同的目标,即检测识别特定的信息区域,但它们具有不同的任务导向,而且它们所包含的部分信息可能是相互矛盾的,实例分割主要是从不同的个体对象中提取点特征进行区分,而语义分割提取的特征用于对不同类别的点进行分类但不区分个体,因此两个任务的特征中必然包含矛盾的部分,因此,特征选择是交互过程中必不可少的一步。
实际上,这样一种特征信息相互辅助的过程中,与人类的场景感知中的记忆筛选是一致的,语义和实例分割是人类场景感知中最重要的视觉任务,对于人类来说,语义感知主要是从场景中的对象中提取高级语义特征,而实例分割则更注重挖掘更初级的视觉特征,这两个过程可以相互帮助,具体来说,从高级特征到初级特征的映射对于实例分割是有益的,例如,如果我们知道一个对象的类别,我们脑海中将获得该类别模糊形状和颜色信息(初级特征),这有助于纠正由于环境光而难以看到整个对象的实例分割结果中的错误,相反,如果我们在不知道类别的情况下看到了一些相似的颜色轮廓初级特征,那么我们就可以在属于同一类别的对象之间建立联系,从而帮助我们快速准确地完成语义分割推理。
最后,综上看来,这两个过程不是独立的,而是耦合的。然而,人类很少受到这种不同的任务导向信息的干扰,因为人脑能够快速、自适应地选择有用的信息,筛选遗忘无用的信息,人类场景感知的这一特性启发我们有必要建立一个多任务耦合的网络框架,通过循环卷积神经网络的记忆门控制单元来模拟人类场景感知的信息筛选过程。
发明内容
针对现有技术的不足,本发明提供了一种三维点云联合语义和实例分割的方法,解决了背景技术中提到的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种三维点云联合语义和实例分割的方法,包括以下步骤:
S1、通过深度传感器和图像传感器获取三维场景的点云信息;
S2、将步骤S1得到的三维场景点云数据进行随机下采样得到固定点数的点云数据;
S3、将步骤S2得到的下采样的点云数据输入点云特征编码网络进行特征提取;
S4、将步骤S3提取到的点云特征分别输入两个不同的特征提取网络得到独立的语义特征和实例特征;
S5、将步骤S4的语义特征和实例特征按先语义后实例,先实例后语义一步步输入两个不同的两步长的循环卷积神经网络,分别输出实例和语义特征;
S6、将步骤S5得到的语义特征进行解码得到每个点云的语义标签预测,实例特征解码得到每个点云的实例标签;用真值标签信号与预测信号进行损失函数计算,回传损失函数梯度更新网络权重直至网络训练完成。
进一步地,所述深度传感器为激光雷达,RGB-D深度相机,双面相机其中的一种,以获取场景三维坐标和颜色信息。
进一步地,所述特征编码网络为利用神经网络对输入的数据或特征进行编码,以得到数据和特征更为高级抽象的编码。
进一步地,所述循环卷积神经网络为一个两步长的循环卷积神经网络,且对于语义分割的特征编码,先将实例的特征作为第一步输入循环卷积神经网络,再将语义的特征作为第二步输入循环卷积神经网络,利用循换神经网络的门控机制,筛选出实例特征中有利于语义分割的信息作为语义特征的补充信息并做进一步融合,筛选出语义特征中有利于实例分割的信息作为实例特征的补充信息并做进一步融合。
本发明与现有技术相比具备以下有益效果:本发明模拟了人脑处理语义判别和同一语义下个体实例区分时的记忆筛选机制,不仅可以同时输出多任务,准确率也高于传统单任务的方法,具有很高效的推理速度。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种三维点云联合语义和实例分割的方法,包括以下步骤:
S1、通过深度传感器(深度传感器为激光雷达,RGB-D深度相机,双面相机其中的一种,以获取场景三维坐标和颜色信息)和图像传感器获取三维场景的点云信息;
S2、将步骤S1得到的三维场景点云数据进行随机下采样(随机下采样,一是为了满足神经网络固定长度的信息输入,二是为了降低计算资源,进行高效的网络训练和前向预测。由于三维点云存在大量的冗余结构信息,所以随机下采样依然可以保证场景的关键轮廓和颜色信息)得到固定点数的点云数据;
S3、将步骤S2得到的下采样的点云数据输入点云特征编码网络(特征编码网络为利用神经网络对输入的数据或特征进行编码,以得到数据和特征更为高级抽象的编码)进行特征提取;
S4、将步骤S3提取到的点云特征分别输入两个不同的特征提取网络得到独立的语义特征和实例特征;
S5、将步骤S4的语义特征和实例特征按先语义后实例,先实例后语义一步步输入两个不同的两步长的循环卷积神经网络(循环卷积神经网络为一个两步长的循环卷积神经网络,且对于语义分割的特征编码,先将实例的特征作为第一步输入循环卷积神经网络,再将语义的特征作为第二步输入循环卷积神经网络,利用循换神经网络的门控机制,筛选出实例特征中有利于语义分割的信息作为语义特征的补充信息并做进一步融合,筛选出语义特征中有利于实例分割的信息作为实例特征的补充信息并做进一步融合),分别输出实例和语义特征;
S6、将步骤S5得到的语义特征进行解码得到每个点云的语义标签预测,实例特征解码得到每个点云的实例标签;用真值标签信号与预测信号进行损失函数计算,回传损失函数梯度更新网络权重直至网络训练完成。
工作时,本发明通过步骤S1到S6的作用,利用神经网络,通过对高维度点云语义和实例分割特征的信息进行基于循环卷积神经网络门控单元的筛选融合,实现准确性更高,同时保证速度高效不受影响的三维点云联合语义和实例分割。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种三维点云联合语义和实例分割的方法,其特征在于:包括以下步骤:
S1、通过深度传感器和图像传感器获取三维场景的点云信息;
S2、将步骤S1得到的三维场景点云数据进行随机下采样得到固定点数的点云数据;
S3、将步骤S2得到的下采样的点云数据输入点云特征编码网络进行特征提取;
S4、将步骤S3提取到的点云特征分别输入两个不同的特征提取网络得到独立的语义特征和实例特征;
S5、将步骤S4的语义特征和实例特征按先语义后实例,先实例后语义一步步输入两个不同的两步长的循环卷积神经网络,分别输出实例和语义特征;
S6、将步骤S5得到的语义特征进行解码得到每个点云的语义标签预测,实例特征解码得到每个点云的实例标签;用真值标签信号与预测信号进行损失函数计算,回传损失函数梯度更新网络权重直至网络训练完成。
2.根据权利要求1所述的一种三维点云联合语义和实例分割的方法,其特征在于:所述深度传感器为激光雷达,RGB-D深度相机,双面相机其中的一种,以获取场景三维坐标和颜色信息。
3.根据权利要求2所述的一种三维点云联合语义和实例分割的方法,其特征在于:所述特征编码网络为利用神经网络对输入的数据或特征进行编码,以得到数据和特征更为高级抽象的编码。
4.根据权利要求3所述的一种三维点云联合语义和实例分割的方法,其特征在于:所述循环卷积神经网络为一个两步长的循环卷积神经网络,且对于语义分割的特征编码,先将实例的特征作为第一步输入循环卷积神经网络,再将语义的特征作为第二步输入循环卷积神经网络,利用循环卷积神经网络的门控机制,筛选出实例特征中有利于语义分割的信息作为语义特征的补充信息并做进一步融合,筛选出语义特征中有利于实例分割的信息作为实例特征的补充信息并做进一步融合。
CN202010207999.2A 2020-03-23 2020-03-23 一种三维点云联合语义和实例分割的方法 Active CN111275026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010207999.2A CN111275026B (zh) 2020-03-23 2020-03-23 一种三维点云联合语义和实例分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010207999.2A CN111275026B (zh) 2020-03-23 2020-03-23 一种三维点云联合语义和实例分割的方法

Publications (2)

Publication Number Publication Date
CN111275026A CN111275026A (zh) 2020-06-12
CN111275026B true CN111275026B (zh) 2022-09-13

Family

ID=71002516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010207999.2A Active CN111275026B (zh) 2020-03-23 2020-03-23 一种三维点云联合语义和实例分割的方法

Country Status (1)

Country Link
CN (1) CN111275026B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968133A (zh) * 2020-07-31 2020-11-20 上海交通大学 自动驾驶场景下的三维点云数据实例分割方法及系统
CN111968121B (zh) * 2020-08-03 2021-12-03 电子科技大学 一种基于实例嵌入与语义融合的三维点云场景分割方法
CN111967373B (zh) * 2020-08-14 2021-03-30 东南大学 一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法
CN112101252B (zh) * 2020-09-18 2021-08-31 广州云从洪荒智能科技有限公司 一种基于深度学习的图像处理方法、系统、设备及介质
CN113850811B (zh) * 2021-03-25 2024-05-28 北京大学 基于多尺度聚类和掩码打分的三维点云实例分割方法
CN113421267B (zh) * 2021-05-07 2024-04-12 江苏大学 一种基于改进PointConv的点云语义与实例联合分割方法及系统
CN117882115A (zh) * 2021-09-08 2024-04-12 华为技术有限公司 用于点云的无提议和无聚类全景分割系统的系统和方法
CN117876686A (zh) * 2024-01-15 2024-04-12 广东科学技术职业学院 一种基于深度学习的点云全景分割方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461211A (zh) * 2018-11-12 2019-03-12 南京人工智能高等研究院有限公司 基于视觉点云的语义矢量地图构建方法、装置和电子设备
CN109816686A (zh) * 2019-01-15 2019-05-28 山东大学 基于物体实例匹配的机器人语义slam方法、处理器及机器人
CN109886272A (zh) * 2019-02-25 2019-06-14 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461211A (zh) * 2018-11-12 2019-03-12 南京人工智能高等研究院有限公司 基于视觉点云的语义矢量地图构建方法、装置和电子设备
CN109816686A (zh) * 2019-01-15 2019-05-28 山东大学 基于物体实例匹配的机器人语义slam方法、处理器及机器人
CN109886272A (zh) * 2019-02-25 2019-06-14 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
3D Graph Embedding Learning with a Structure-aware Loss Function;zhidong liang etc.;《Computer Science and Engineering》;20190228;第1-7页 *

Also Published As

Publication number Publication date
CN111275026A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275026B (zh) 一种三维点云联合语义和实例分割的方法
Varghese et al. ChangeNet: A deep learning architecture for visual change detection
Li et al. A deep learning-based hybrid framework for object detection and recognition in autonomous driving
CN111738110A (zh) 基于多尺度注意力机制的遥感图像车辆目标检测方法
WO2021051601A1 (zh) 利用Mask R-CNN选择检测框的方法及系统、电子装置及存储介质
CN111080645A (zh) 基于生成式对抗网络的遥感图像半监督语义分割方法
CN112560999A (zh) 一种目标检测模型训练方法、装置、电子设备及存储介质
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN111444850B (zh) 一种图片检测的方法和相关装置
CN111652181B (zh) 目标跟踪方法、装置及电子设备
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN115661505A (zh) 一种语义感知的图像阴影检测方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN114519853A (zh) 一种基于多模态融合的三维目标检测方法及系统
CN114677618A (zh) 事故检测方法、装置、电子设备和存储介质
Ammar et al. An a-contrario approach for object detection in video sequence
CN117058647A (zh) 车道线处理方法、装置和设备及计算机存储介质
CN117173854A (zh) 一种基于深度学习的煤矿明火预警方法及系统
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN113344121B (zh) 训练招牌分类模型和招牌分类的方法
CN111768007B (zh) 用于挖掘数据的方法和装置
Jokela Person counter using real-time object detection and a small neural network
CN113223018A (zh) 细粒度图像分析处理方法
CN113159278A (zh) 一种分割网络系统
CN114998609B (zh) 一种基于密集特征提取与轻量级网络的多类商品目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant