CN112233124B - 基于对抗式学习与多模态学习的点云语义分割方法及系统 - Google Patents

基于对抗式学习与多模态学习的点云语义分割方法及系统 Download PDF

Info

Publication number
CN112233124B
CN112233124B CN202011094852.3A CN202011094852A CN112233124B CN 112233124 B CN112233124 B CN 112233124B CN 202011094852 A CN202011094852 A CN 202011094852A CN 112233124 B CN112233124 B CN 112233124B
Authority
CN
China
Prior art keywords
semantic segmentation
point cloud
dimensional
network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011094852.3A
Other languages
English (en)
Other versions
CN112233124A (zh
Inventor
刘伟
余晓霞
陈钱球
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202011094852.3A priority Critical patent/CN112233124B/zh
Publication of CN112233124A publication Critical patent/CN112233124A/zh
Application granted granted Critical
Publication of CN112233124B publication Critical patent/CN112233124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于对抗式学习与多模态学习的点云语义分割方法与系统,该方法包括如下步骤:在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,将3D点云数据上的标签传递至2D前视图像的采样点上;根据包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型;将目标领域中的3D点云数据以及对应的2D前视图像输入至点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。本发明提出的点云语义分割方法,可提高模型从源领域到目标领域的泛化性,并减小了标注的工作量。

Description

基于对抗式学习与多模态学习的点云语义分割方法及系统
技术领域
本发明涉及计算机语义分割计算技术领域,特别涉及一种基于对抗式学习与多模态学习的点云语义分割方法及系统。
背景技术
在计算机领域中,对三维场景的理解有着非常广泛的应用,特别是在机器人、自动驾驶以及虚拟现实领域等。在与此相关的各种任务中,三维点云的语义分割技术获得越来越多的关注。
具体的,三维点云指的是某个坐标系下的点的数据集。点云数据除了具有三维的几何位置以外,还可能包含了其它丰富的信息,例如颜色、分类值、强度值以及时间等。如图1(a)所示,该组点云除了空间位置信息以外,还包含颜色信息,其中不同的颜色表示离深度摄像头距离的近远。此外,点云的语义分割指的是根据点云中点的属性,赋予点云中每个数据点预先定义的类别标签。例如将点云中的点归类为车辆、路面、行人以及建筑等等。如图1所示,根据一定的算法或者规则,将图1(a)中的点云经语义分割得到图1(b)中所示的分割结果,其中不同类别的点用不同颜色进行代替。例如,绿色可以表示植被,橙色可以表示车辆,粉色可以表示路面等等。
由于点云数据集容易受到光照与地点的影响。例如,白天和夜晚的点云数据具有较大差异。由于不同数据领域之间的差异,很难保证点云分割模型的泛化性。比如利用带有人工语义标注的源领域数据集,进行训练得到点云语义分割模型,该模型直接在无人工语义标注的目标领域数据集上的测试精度较低。与二维图像人工标注相比,三维点云人工语义标注工作量巨大。在训练数据较为匮乏的情况下,为提高模型在不同数据集上的泛化性,目前的方案主要有两种做法:(1)大量标注目标领域的数据训练模型。此种做法可在一定程度上提高模型在目标领域上的表现。然而此种做法耗时耗力,也忽视了源领域数据和目标领域数据之间的联系。高昂的人工标注成本制约了点云语义分割的大规模应用。(2)采用领域自适应技术缩小领域间的差异。当前主要的领域自适应技术应用在二维图像语义分割上,而点云语义分割方案则较少采用领域自适应技术。此外,以往的解决方案基本只关注点云这一种模态的数据,然而通常情况下所采集到的三维数据集是多模态的,即由二维图像与三维点云构成。
以往的研究经验表明:多种模态数据的互补性可增强观察者对场景的语义理解。然而,目前没有研究方案可充分挖掘图像与点云两种模态的信息,以提高点云语义分割模型的泛化性。基于此,为减少人工标注的工作量,并提高点云语义分割算法在不同数据集上的泛化性,有必要提出一种新型的点云语义分割算法。
发明内容
基于此,本发明的目的是为了解决现有技术中,由于不同数据领域之间差异,很难保证点云分割模型的泛化性的问题。
本发明提出一种基于对抗式学习与多模态学习的点云语义分割方法,其中,所述方法包括如下步骤:
数据预处理:分别在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,并根据所述对应关系,将所述3D点云数据上的标签传递至所述2D前视图像的采样点上,以在所述2D前视图像上得到包含类别标签的源领域数据;
模型训练与建立:根据所述包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型;
输出结果测试:将目标领域上任一所述3D点云数据以及对应的所述2D前视图像输入至所述点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。
本发明提出的基于对抗式学习与多模态学习的点云语义分割方法,首先进行数据预处理,将3D点云数据上的标签投影至2D前视图像的采样点上,使得二维网络与三维网络具有相同长度的特征或输出;同时采用对抗式学习对判别器进行训练,以使得判别器判断数据来自源领域还是目标领域,同时在源领域上训练语义分割模型时愚弄判别器,使判别器误认为目标领域上的数据为源领域数据,从而提高最终得到的点云分割模型的泛化性。
本发明采用了基于对抗式学习的领域自适应技术,减小源领域数据和目标领域数据在特征空间差异,从而可提高模型从源领域到目标领域的泛化性。并且在训练阶段时所用到的数据为有标注信息的源领域数据以及无人工标注的目标领域数据。因此无需人工标注目标领域数据,减小了标注的工作量。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,在所述模型训练与建立的步骤中,训练判别器的目标函数表示为:
Figure BDA0002723064650000031
其中,|S|和|T|分别表示源领域和目标领域训练用到的图片数量,LD表示领域交叉熵损失,用于衡量判别器判断图片所属领域错误的代价,
Figure BDA0002723064650000032
Figure BDA0002723064650000033
分别表示源领域图像和目标领域图像输入点云语义分割网络中的二维子网络后得到的图像特征,
Figure BDA0002723064650000034
Figure BDA0002723064650000035
分别表示源领域图像和目标领域图像对应的交叉熵损失,θD表示判别器所需要学习的参数。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,在所述模型训练与建立的步骤中,所述二维图像子网络的训练方法包括如下步骤:
根据当前二维子网络的参数得到源领域上图像的语义分割预测值,计算得到二维语义分割结果损失;
根据当前二维子网络和三维子网络的参数,得到源领域图像和点云融合特征的语义分割预测值,计算得到融合特征语义分割结果损失;
根据当前二维子网络和判别器参数计算得到目标领域上的二维图像的对抗损失;
根据源领域上的所述二维语义分割结果损失,源领域上的所述融合特征语义分割结果损失以及目标领域上的所述二维图像的对抗损失计算得到二维子网络的总损失目标函数;
根据所述二维子网络的总损失目标函数,基于梯度下降法进行参数更新迭代计算,以至收敛后以建立得到所述点云语义分割网络模型。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,源领域上的所述融合特征语义分割结果损失表示为:
Figure BDA0002723064650000041
其中,
Figure BDA0002723064650000042
为融合特征对应的分割结果损失,xs表示源领域中带有语义分割标注信息的一对点云和2D前视图像,ys是源领域中点云的语义分割标签,N表示点云中数据点的个数,c表示预先定义的类别数量,
Figure BDA0002723064650000043
是源领域点云中标号为n的点的标签,
Figure BDA0002723064650000044
表示点n输出的融合特征关于类别c的参数预测值。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,源领域上的所述二维语义分割结果损失表示为:
Figure BDA0002723064650000045
其中,
Figure BDA0002723064650000046
表示二维语义分割结果损失,
Figure BDA0002723064650000047
表示源领域中的二维图像,
Figure BDA0002723064650000048
表示二维子网络中的点n输出的关于类别c的参数预测值。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,目标领域上的所述二维图像的对抗损失表示为:
Figure BDA0002723064650000049
其中,Ladv为所述二维图像的对抗损失,
Figure BDA00027230646500000410
表示目标领域图像输入点云语义分割网络中的二维子网络后得到的图像特征,θ2D是二维图像子网络对应的模型参数。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,所述二维子网络的总损失目标函数表示为:
Figure BDA0002723064650000051
其中,λ1和λ2表示对应损失函数的权重。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,所述三维点云子网络的训练方法包括如下步骤:
根据当前三维点云子网络的参数,得到源领域点云语义分割预测值,计算得到三维语义分割结果损失;
根据当前二维子网络和三维子网络的参数,得到源领域上的图像和点云融合特征的语义分割预测值,计算得到融合特征语义分割结果损失;
根据所述三维语义分割结果损失以及所述融合特征语义分割结果损失计算得到三维子网络的总损失目标函数;
根据所述三维子网络的总损失目标函数,基于梯度下降法进行参数更新迭代计算,以至收敛后以建立得到所述点云语义分割网络模型。
所述基于对抗式学习与多模态学习的点云语义分割方法,其中,源领域上的所述三维语义分割结果损失表示为:
Figure BDA0002723064650000052
其中,
Figure BDA0002723064650000053
表示三维语义分割结果损失,
Figure BDA0002723064650000054
表示源领域中的三维点云,
Figure BDA0002723064650000055
为三维子网络中的点n输出的关于类别c的预测值,
Figure BDA0002723064650000056
是源领域点云中标号为n的点的标签,N表示点云中数据点的个数,c表示预先定义的类别数量,ys是源领域中点云的语义分割标签;
所述三维子网络的总损失目标函数表示为:
Figure BDA0002723064650000057
Figure BDA0002723064650000061
为融合特征语义分割结果损失,θ3D表示三维子网络需要学习的参数,λ3表示需要人工取值的权重。
本发明还提出一种基于对抗式学习与多模态学习的点云语义分割系统,其中,所述系统包括:
数据预处理模块,用于分别在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,并根据所述对应关系,将所述3D点云数据上的标签传递至所述2D前视图像的采样点上,以在所述2D前视图像上得到包含类别标签的源领域数据;
模型训练与建立模块,用于根据所述包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型;
输出结果测试模块,用于将目标领域中任一所述3D点云数据以及对应的所述2D前视图像输入至所述点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为现有技术中点云与点云的语义分割的效果示意图;
图2为本发明提出的基于对抗式学习与多模态学习的点云语义分割方法的流程图;
图3为本发明提出的点云语义分割方法中多模态点云分割网络框架图;
图4为本发明提出的点云语义分割方法中判别器的框架图;
图5为本发明提出的基于对抗式学习与多模态学习的点云语义分割系统的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以往的研究经验表明:多种模态数据的互补性可增强观察者对场景的语义理解。然而,目前没有研究方案可充分挖掘图像与点云两种模态的信息,以提高点云语义分割模型的泛化性。基于此,为减少人工标注的工作量,并提高点云语义分割算法在不同数据集上的泛化性,有必要提出一种新型的点云语义分割算法。
基于以上所指出的问题,为减少人工标注的工作量,并提高点云语义分割算法在不同数据集上的泛化性。本发明提出了一种基于对抗式学习和多模态学习的点云语义标注模型,利用带有类别标签的源领域点云数据训练模型,使模型在无人工标注的目标领域点云数据上有较好的泛化性,从而实现点云分割模型的跨数据集的高精度语义分割。
如图3所示,本发明提出的语义分割模型由二维以及三维两个子网络组成。其中,三维网络输入的是点云数据,采用SparseConvNet(子流形稀疏卷积网络)提取点云的特征。二维网络输入的是点云对应的前视图像,采用DeepLab V3提取图像的特征。为使二维网络和三维网络具有相同长度的特征或输出,用点云在图像上投影采样N个像素。采样得到K维的图像特征和M维的点云特征串在一起形成维度为M+K的特征。
三个特征对应的分支分别有输出对点云的语义分割预测P2D、PF以及P3D。由于采样只能用到图像部分像素的信息,为充分挖掘图像特征,本发明设计了一个基于卷积神经网络的判别器,将由二维网络得到的全图特征Ix输入判别器中,训练判别器正确判断输入的图像是来自源领域还是目标领域,并且在训练图像分割子网络时欺骗判别器,以缩小源领域和目标领域之间的差异。
具体地,请参阅图2至图4,对于本发明提出的基于对抗式学习与多模态学习的点云语义分割方法,包括如下步骤:
S101,分别在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,并根据所述对应关系,将所述3D点云数据上的标签传递至所述2D前视图像的采样点上,以在所述2D前视图像上得到包含类别标签的源领域数据。
在本发明中,在训练时使用有人工标注信息的源领域数据和无人工标注的目标领域数据。也即源领域中的每个点云中的数据点是带有类别标签的,目标领域中的点云数据是不带有类别标签的。在每次训练时输入的是一个3D点云以及与其对应的2D前视图像。
在数据预处理步骤中,为使二维网络和三维网络具有相同长度的特征或输出,根据摄像头的内外参数,将3D点云数据投影到2D前视图像所在的平面,以得到采样点类别标签的源领域数据,也即对源领域数据进行了标注。在本发明中,目标领域数据不进行人工标注,因此减少了标注量。
S102,根据所述包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型。
如上所述,进行模型训练时,所输入的所有的样本均来自源领域以及目标领域。对整个训练过程而言,可以概述为:在训练开始,系统会给定初始模型对应的初始化参数,也即当前网络参数,然后利用总损失函数基于梯度下降法对参数进行更新迭代,最终收敛得到目标模型。
判别器的训练:
首先对判别器的训练而言,在本发明中,训练判别器的目的是使其可以辨别输入的图像是来自源领域,还是来自目标领域。在此,假设源领域的标签为1,目标领域的标签为0,则训练判别器的目标函数表示为:
Figure BDA0002723064650000091
其中,|S|和|T|分别表示源领域和目标领域训练用到的图片数量,LD表示领域交叉熵损失,用于衡量判别器判断图片所属领域错误的代价,
Figure BDA0002723064650000092
Figure BDA0002723064650000093
分别表示源领域图像和目标领域图像输入点云语义分割网络中的二维子网络后得到的图像特征,
Figure BDA0002723064650000094
Figure BDA0002723064650000095
分别表示源领域图像和目标领域图像对应的交叉熵损失,θD表示判别器所需要学习的参数。
二维图像子网络的训练:
其次,对二维图像子网络的训练中,所述二维图像子网络的训练方法包括如下步骤:
S1021,根据当前二维子网络的参数得到源领域上图像的语义分割预测值,计算得到二维语义分割结果损失,根据当前二维子网络和三维子网络的参数,得到源领域图像和点云融合特征的语义分割预测值,计算得到融合特征语义分割结果损失。
在使用源领域数据有监督地训练点云语义分割网络时,本发明采用交叉熵损失函数学习网络参数。其中,融合特征对应的语义分割结果PF的分割损失,也即源领域上的融合特征语义分割结果损失表示为:
Figure BDA0002723064650000096
其中,
Figure BDA0002723064650000097
为融合特征对应的分割结果损失,xs表示源领域中带有语义分割标注信息的一对点云和2D前视图像,ys是源领域中点云的语义分割标签,N表示点云中数据点的个数,c表示预先定义的类别数量,
Figure BDA0002723064650000098
是源领域点云中标号为n的点的标签,
Figure BDA0002723064650000099
表示点n输出的融合特征关于类别c的参数预测值。
语义分割结果P2D对应的损失,也即源领域上的二维语义分割结果损失可表示为:
Figure BDA0002723064650000101
其中,
Figure BDA0002723064650000102
表示二维语义分割结果损失,
Figure BDA0002723064650000103
表示源领域中的二维图像,
Figure BDA0002723064650000104
表示二维子网络中的点n输出的关于类别c的参数预测值。
S1022,根据当前二维子网络和判别器参数计算得到目标领域上的二维图像的对抗损失,根据源领域上的所述二维语义分割结果损失,源领域上的所述融合特征语义分割结果损失以及目标领域上的所述二维图像的对抗损失计算得到二维子网络的总损失目标函数。
如前所述,对抗式学习训练一个判别器判断数据来自源领域还是目标领域,同时在源领域上训练语义分割模型时愚弄判别器,使判别器误认为目标领域上的数据为源领域数据。目标领域上的对抗损失表示为:
Figure BDA0002723064650000105
其中,Ladv为所述二维图像的对抗损失,
Figure BDA0002723064650000106
表示目标领域图像输入点云语义分割网络中的二维子网络后得到的图像特征,θ2D是二维图像子网络对应的模型参数。
最终,二维子网络的总损失目标函数表示为:
Figure BDA0002723064650000107
其中,λ1和λ2表示对应损失函数的权重。
S1023,根据所述二维子网络的总损失目标函数,基于梯度下降法进行参数更新迭代计算,以至收敛后以建立得到所述点云语义分割网络模型。
在本步骤中,基于梯度下降法进行参数更新迭代的计算中,迭代的次数通常取决于数据量以及模型规模,一般为十几万次。当满足一定的迭代的次数,达到收敛标准之后,即停止迭代运算,最终得到点云语义分割网络模型。
三维点云子网络的训练:
进一步的,对于三维点云子网络的训练,其方法与上述二维图像子网络的训练相似。具体的,三维点云子网络的训练方法包括如下步骤:
S102a,根据当前三维点云子网络的参数,得到源领域点云语义分割预测值,计算得到三维语义分割结果损失,根据当前二维子网络和三维子网络的参数,得到源领域上的图像和点云融合特征的语义分割预测值,计算得到融合特征语义分割结果损失。
在本步骤中,源领域上的三维语义分割结果损失表示为:
Figure BDA0002723064650000111
其中,
Figure BDA0002723064650000112
表示三维语义分割结果损失,
Figure BDA0002723064650000113
表示源领域中的三维点云,
Figure BDA0002723064650000114
为三维子网络中的点n输出的关于类别c的预测值,
Figure BDA0002723064650000115
是源领域点云中标号为n的点的标签,N表示点云中数据点的个数,c表示预先定义的类别数量,ys是源领域中点云的语义分割标签。
此外,如上所述,融合特征语义分割结果损失的计算公式已在上文进行了叙述,在此不再赘述。
S102b,根据所述三维语义分割结果损失以及所述融合特征语义分割结果损失计算得到三维子网络的总损失目标函数。
在本步骤中,三维子网络的总损失目标函数表示为:
Figure BDA0002723064650000116
Figure BDA0002723064650000117
为融合特征语义分割结果损失,θ3D表示三维子网络需要学习的参数,λ3表示需要人工取值的权重。
S102c,根据所述三维子网络的总损失目标函数,基于梯度下降法进行参数更新迭代计算,以至收敛后以建立得到所述点云语义分割网络模型。
同理,基于梯度下降法进行参数更新迭代的计算,当满足一定的迭代的次数,达到收敛标准之后,即停止迭代运算,最终得到点云语义分割网络模型。
S103,将目标领域中任一所述3D点云数据以及对应的所述2D前视图像输入至所述点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。
如上所述,在训练完成并建立了所需的点云语义分割网络模型之后,需要对该模型进行测试。具体的,输入一个点云以及对应的2D前视图像至点云语义分割网络模型后,语义分割网络生成三个预测值P2D、PF以及P3D。为融合3个预测结果,在本发明中,将3个预测值取均值,即得到最终的点云语义分割结果。
本发明提出的基于对抗式学习与多模态学习的点云语义分割方法,首先进行数据预处理,将3D点云数据投影到2D前视图像的平面,使得二维网络与三维网络具有相同长度的特征或输出;同时采用对抗式学习对判别器进行训练,以使得判别器判断数据来自源领域还是目标领域,同时在源领域上训练语义分割模型时愚弄判别器,使判别器误认为目标领域上的数据为源领域数据,从而提高最终得到的点云分割模型的泛化性。本发明采用了基于对抗式学习的领域自适应技术,减小源领域数据和目标领域数据在特征空间差异,从而可提高模型从源领域到目标领域的泛化性。并且在训练阶段时所用到的数据为有标注信息的源领域数据以及无人工标注的目标领域数据。因此无需人工标注目标领域数据,减小了标注的工作量。
请参阅图5,本发明还提出一种基于对抗式学习与多模态学习的点云语义分割系统,其中,所述系统包括依次连接的数据预处理模块11、模型训练与建立模块12以及输出结果测试模块13;
其中,所述数据预处理模块11具体用于:
分别在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,并根据所述对应关系,将所述3D点云数据上的标签传递至所述2D前视图像的采样点上,以在所述2D前视图像上得到包含类别标签的源领域数据;
所述模型训练与建立模块12具体用于:
根据所述包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型;
所述输出结果测试模块13具体用于:
将目标领域中任一所述3D点云数据以及对应的所述2D前视图像输入至所述点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。所述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,包括上述方法所述的步骤。所述的存储介质,包括:ROM/RAM、磁碟、光盘等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,所述方法包括如下步骤:
数据预处理:分别在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,并根据所述对应关系,将所述3D点云数据上的标签传递至所述2D前视图像的采样点上,以在所述2D前视图像上得到包含类别标签的源领域数据;
模型训练与建立:根据所述包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型,其中,所述点云语义分割网络模型包括二维图像子网络以及三维点云子网络,所述2D前视图像用于输入至所述二维图像子网络中,所述3D点云数据用于输入至所述三维点云子网络中,并在2D特征、融合特征以及3D特征上分别得到2D语义分割结果P2D、融合语义分割结果PF以及3D语义分割结果P3D;训练所述判别器用于将2D语义分割结果P2D作为输入,并判断2D语义分割结果P2D来自源领域或目标领域,训练所述二维图像子网络用于缩小源领域与目标领域上分别得到的2D语义分割结果P2D之间的差异;
输出结果测试:将目标领域中任一所述3D点云数据以及对应的所述2D前视图像输入至所述点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。
2.根据权利要求1所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,在所述模型训练与建立的步骤中,训练判别器的目标函数表示为:
Figure FDA0003596748860000011
其中,|S|和|T|分别表示源领域和目标领域训练用到的图片数量,LD表示领域交叉熵损失,用于衡量判别器判断图片所属领域错误的代价,
Figure FDA0003596748860000012
Figure FDA0003596748860000013
分别表示源领域图像和目标领域图像输入点云语义分割网络中的二维子网络后得到的图像特征,
Figure FDA0003596748860000021
Figure FDA0003596748860000022
分别表示源领域图像和目标领域图像对应的交叉熵损失,θD表示判别器所需要学习的参数,0表示目标领域的标签,1表示源领域的标签。
3.根据权利要求1所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,在所述模型训练与建立的步骤中,所述二维图像子网络的训练方法包括如下步骤:
根据当前二维子网络的参数得到源领域上图像的语义分割预测值,计算得到二维语义分割结果损失;
根据当前二维子网络和三维子网络的参数,得到源领域图像和点云融合特征的语义分割预测值,计算得到融合特征语义分割结果损失;
根据当前二维子网络和判别器参数计算得到目标领域上的二维图像的对抗损失;
根据源领域上的所述二维语义分割结果损失,源领域上的所述融合特征语义分割结果损失以及目标领域上的所述二维图像的对抗损失计算得到二维子网络的总损失目标函数;
根据所述二维子网络的总损失目标函数,基于梯度下降法进行参数更新迭代计算,以至收敛后以建立得到所述点云语义分割网络模型。
4.根据权利要求3所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,源领域上的所述融合特征语义分割结果损失表示为:
Figure FDA0003596748860000023
其中,
Figure FDA0003596748860000024
为融合特征对应的分割结果损失,xs表示源领域中带有语义分割标注信息的一对点云和2D前视图像,ys是源领域中点云的语义分割标签,N表示点云中数据点的个数,c表示预先定义的类别数量,
Figure FDA0003596748860000025
是源领域点云中标号为n的点的标签,
Figure FDA0003596748860000026
表示点n输出的融合特征关于类别c的参数预测值。
5.根据权利要求4所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,源领域上的所述二维语义分割结果损失表示为:
Figure FDA0003596748860000031
其中,
Figure FDA0003596748860000032
表示二维语义分割结果损失,
Figure FDA0003596748860000033
表示源领域中的二维图像,
Figure FDA0003596748860000034
表示二维子网络中的点n输出的关于类别c的参数预测值。
6.根据权利要求5所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,目标领域上的所述二维图像的对抗损失表示为:
Figure FDA0003596748860000035
其中,Ladv为所述二维图像的对抗损失,
Figure FDA0003596748860000036
表示目标领域图像输入点云语义分割网络中的二维子网络后得到的图像特征,θ2D是二维图像子网络对应的模型参数,LD表示交叉熵损失。
7.根据权利要求6所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,所述二维子网络的总损失目标函数表示为:
Figure FDA0003596748860000037
其中,λ1和λ2表示对应损失函数的权重,
Figure FDA0003596748860000038
表示二维语义分割结果损失,
Figure FDA0003596748860000039
表示融合特征对应的分割结果损失。
8.根据权利要求1所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,所述三维点云子网络的训练方法包括如下步骤:
根据当前三维点云子网络的参数,得到源领域点云语义分割预测值,计算得到三维语义分割结果损失;
根据当前二维子网络和三维子网络的参数,得到源领域上的图像和点云融合特征的语义分割预测值,计算得到融合特征语义分割结果损失;
根据所述三维语义分割结果损失以及所述融合特征语义分割结果损失计算得到三维子网络的总损失目标函数;
根据所述三维子网络的总损失目标函数,基于梯度下降法进行参数更新迭代计算,以至收敛后以建立得到所述点云语义分割网络模型。
9.根据权利要求8所述的基于对抗式学习与多模态学习的点云语义分割方法,其特征在于,源领域上的所述三维语义分割结果损失表示为:
Figure FDA0003596748860000041
其中,
Figure FDA0003596748860000042
表示三维语义分割结果损失,
Figure FDA0003596748860000043
表示源领域中的三维点云,
Figure FDA0003596748860000044
为三维子网络中的点n输出的关于类别c的预测值,
Figure FDA0003596748860000045
是源领域点云中标号为n的点的标签,N表示点云中数据点的个数,c表示预先定义的类别数量,ys是源领域中点云的语义分割标签;
所述三维子网络的总损失目标函数表示为:
Figure FDA0003596748860000046
Figure FDA0003596748860000047
为融合特征语义分割结果损失,θ3D表示三维子网络需要学习的参数,λ3表示需要人工取值的权重。
10.一种基于对抗式学习与多模态学习的点云语义分割系统,其特征在于,所述系统包括:
数据预处理模块,用于分别在源领域与目标领域上,建立3D点云数据与2D前视图像之间的对应关系,并根据所述对应关系,将所述3D点云数据上的标签传递至所述2D前视图像的采样点上,以在所述2D前视图像上得到包含类别标签的源领域数据;
模型训练与建立模块,用于根据所述包含类别标签的源领域数据以及无类别标签标注的目标领域数据,对判别器、二维图像子网络以及三维点云子网络进行训练,至收敛后以建立得到点云语义分割网络模型,其中,所述点云语义分割网络模型包括二维图像子网络以及三维点云子网络,所述2D前视图像用于输入至所述二维图像子网络中,所述3D点云数据用于输入至所述三维点云子网络中,并在2D特征、融合特征以及3D特征上分别得到2D语义分割结果P2D、融合语义分割结果PF以及3D语义分割结果P3D;训练所述判别器用于将2D语义分割结果P2D作为输入,并判断2D语义分割结果P2D来自源领域或目标领域,训练所述二维图像子网络用于缩小源领域与目标领域上分别得到的2D语义分割结果P2D之间的差异;
输出结果测试模块,用于将目标领域中任一所述3D点云数据以及对应的所述2D前视图像输入至所述点云语义分割网络模型中,经语义分割网络模型计算得出点云语义分割结果。
CN202011094852.3A 2020-10-14 2020-10-14 基于对抗式学习与多模态学习的点云语义分割方法及系统 Active CN112233124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011094852.3A CN112233124B (zh) 2020-10-14 2020-10-14 基于对抗式学习与多模态学习的点云语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011094852.3A CN112233124B (zh) 2020-10-14 2020-10-14 基于对抗式学习与多模态学习的点云语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN112233124A CN112233124A (zh) 2021-01-15
CN112233124B true CN112233124B (zh) 2022-05-17

Family

ID=74111900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011094852.3A Active CN112233124B (zh) 2020-10-14 2020-10-14 基于对抗式学习与多模态学习的点云语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN112233124B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132931B (zh) * 2021-04-16 2022-01-28 电子科技大学 一种基于参数预测的深度迁移室内定位方法
CN113239749B (zh) * 2021-04-27 2023-04-07 四川大学 一种基于多模态联合学习的跨域点云语义分割方法
CN113312983B (zh) * 2021-05-08 2023-09-05 华南理工大学 基于多模态数据融合的语义分割方法、系统、装置及介质
CN113409340A (zh) * 2021-06-29 2021-09-17 北京百度网讯科技有限公司 语义分割模型训练方法、语义分割方法、装置及电子设备
CN113657387B (zh) * 2021-07-07 2023-10-13 复旦大学 基于神经网络的半监督三维点云语义分割方法
CN114120129B (zh) * 2021-11-30 2024-05-17 哈尔滨工业大学 基于无人机图像和深度学习的滑坡滑移面的三维识别方法
CN114529757B (zh) * 2022-01-21 2023-04-18 四川大学 一种跨模态单样本三维点云分割方法
CN114359562B (zh) * 2022-03-20 2022-06-17 宁波博登智能科技有限公司 一种四维点云自动语义分割标注系统及方法
CN114419323B (zh) * 2022-03-31 2022-06-24 华东交通大学 基于跨模态学习与领域自适应rgbd图像语义分割方法
CN115797642B (zh) * 2023-02-13 2023-05-16 华东交通大学 基于一致性正则化与半监督领域自适应图像语义分割算法
CN116168046B (zh) * 2023-04-26 2023-08-25 山东省凯麟环保设备股份有限公司 复杂环境下的3d点云语义分割方法、系统、介质及设备
CN116612285B (zh) * 2023-06-15 2024-09-20 重庆市测绘科学技术研究院 建筑物点云数据分割、点云数据语义分割方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080659A (zh) * 2019-12-19 2020-04-28 哈尔滨工业大学 一种基于视觉信息的环境语义感知方法
CN111489358A (zh) * 2020-03-18 2020-08-04 华中科技大学 一种基于深度学习的三维点云语义分割方法
CN111667523A (zh) * 2020-06-08 2020-09-15 深圳阿米嘎嘎科技有限公司 一种基于多模态多源的深度数据精炼方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080659A (zh) * 2019-12-19 2020-04-28 哈尔滨工业大学 一种基于视觉信息的环境语义感知方法
CN111489358A (zh) * 2020-03-18 2020-08-04 华中科技大学 一种基于深度学习的三维点云语义分割方法
CN111667523A (zh) * 2020-06-08 2020-09-15 深圳阿米嘎嘎科技有限公司 一种基于多模态多源的深度数据精炼方法及系统

Also Published As

Publication number Publication date
CN112233124A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112233124B (zh) 基于对抗式学习与多模态学习的点云语义分割方法及系统
CN113039563B (zh) 学习生成用于训练神经网络的合成数据集
US11816907B2 (en) Systems and methods for extracting information about objects from scene information
Yu et al. Underwater-GAN: Underwater image restoration via conditional generative adversarial network
CN110379020B (zh) 一种基于生成对抗网络的激光点云上色方法和装置
CN112085840B (zh) 语义分割方法、装置、设备及计算机可读存储介质
Rouhani et al. Semantic segmentation of 3D textured meshes for urban scene analysis
EP2984602B1 (en) Image labeling using geodesic features
Bešić et al. Dynamic object removal and spatio-temporal RGB-D inpainting via geometry-aware adversarial learning
Lam et al. HC-Search for structured prediction in computer vision
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
US11270425B2 (en) Coordinate estimation on n-spheres with spherical regression
CN113159043A (zh) 基于语义信息的特征点匹配方法及系统
Setiawan et al. Sequential inter-hop graph convolution neural network (SIhGCN) for skeleton-based human action recognition
WO2023185074A1 (zh) 一种基于互补时空信息建模的群体行为识别方法
Song et al. Contextualized CNN for scene-aware depth estimation from single RGB image
CN118115927B (zh) 目标追踪方法、装置、计算机设备、存储介质及程序产品
Fan Research and realization of video target detection system based on deep learning
Zhang et al. DuGAN: An effective framework for underwater image enhancement
Laupheimer et al. On the association of LiDAR point clouds and textured meshes for multi-modal semantic segmentation
Nguyen et al. Lane detection and tracking based on fully convolutional networks and probabilistic graphical models
Zhang et al. Interactive spatio-temporal feature learning network for video foreground detection
CN117351192A (zh) 一种对象检索模型训练、对象检索方法、装置及电子设备
CN109495316B (zh) 一种融合邻接性和节点角色相似性的网络表征方法
He et al. Automatic object segmentation of unstructured scenes using colour and depth maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant