CN115239954B - 一种用于点云全景分割的系统及方法 - Google Patents

一种用于点云全景分割的系统及方法 Download PDF

Info

Publication number
CN115239954B
CN115239954B CN202210701485.1A CN202210701485A CN115239954B CN 115239954 B CN115239954 B CN 115239954B CN 202210701485 A CN202210701485 A CN 202210701485A CN 115239954 B CN115239954 B CN 115239954B
Authority
CN
China
Prior art keywords
point cloud
layer
convolution kernel
learnable
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210701485.1A
Other languages
English (en)
Other versions
CN115239954A (zh
Inventor
肖泽琪
张文蔚
王泰
吕健勤
林达华
庞江淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai AI Innovation Center
Original Assignee
Shanghai AI Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai AI Innovation Center filed Critical Shanghai AI Innovation Center
Priority to CN202210701485.1A priority Critical patent/CN115239954B/zh
Publication of CN115239954A publication Critical patent/CN115239954A/zh
Application granted granted Critical
Publication of CN115239954B publication Critical patent/CN115239954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种用于点云全景分割的系统,其包括可学习卷积核以及第一神经网络结构,其中可学习卷积核可通过第一神经网络结构动态地适应点云数据,并进行一对一地预测对象。

Description

一种用于点云全景分割的系统及方法
技术领域
本发明涉及点云全景分割技术领域,特别涉及一种用于点云全景分割的系统及方法。
背景技术
点云通常是指三维空间坐标系下的点集合,其例如可由激光雷达向目标发射激光获取,又例如可通过对建模仿真物体进行稀释点抽取获取。点云中所包含的点称为点云点,其可包括空间位置、强度、颜色和时间等信息。
点云全景分割技术目的在于将所有的像素点赋予类别的标签,并将不同的实例物体分割开来,多应用于自动驾驶、室内仿真、高精度地图制作以及增强现实等行业中。现有的点云全景分割任务通常同时采用了语义分割和实例分割两个分支共同解决点云全景分割任务。具体而言,这类方法首先利用点云特征提取技术从点云中提取特征,再将特征分别输入负责语义分割、实例分割的神经网络得到语义分割结果和实例分割结果,最后将这两个结果融合起来得到全景分割结果。其流程较为复杂,且需要设计合理的策略用以合并两个分支的分割结果,其可能存在较大的误差。此外,现有的实例分割技术中,通常需要手动生成的实例中心作为学习目标。这样的实例中心会随着激光雷达扫描角度的改变而改变,其稳定性较差,因此会造成训练的模糊性,影响最终性能。
发明内容
针对现有技术中的部分或全部问题,本发明一方面提供一种用于点云全景分割的系统,包括可学习卷积核以及第一神经网络结构,其中所述可学习卷积核可通过所述第一神经网络结构动态地适应点云数据,并进行一对一地预测对象。
进一步地,所述第一神经网络结构包括加权平均层,所述可学习卷积核可通过所述加权平均层动态地适应所述点云特征,所述加权平均层包括多个多层感知器,所述多个多层感知器用于计算所述可学习卷积核与点云特征加权运算的权重值。
进一步地,所述第一神经网络结构还包括自注意力层以及前馈网络层,所述自注意力层以及前馈网络层用于构建所述可学习卷积核的全局关系,以使得所述可学习卷积核与预测对象一一对应。
进一步地,所述第一神经网络结构还包括至少一个规范化层,其设置于所述加权平均层,和/或所述自注意力层,和/或所述前馈网络层后,用于归一化上一层输出的数据。
进一步地,所述系统还包括特征提取模块,其用于从所述点云中提取点云特征。
进一步地,所述特征提取模块包括Cylinder3D点云特征提取网络。
基于如前所述的系统,本发明另一方面提供一种用于点云全景分割的方法,包括:
从点云中提取点云特征;
将所述点云特征与可学习卷积核进行加权平均;以及
基于加权平均后的可学习卷积核进行对象预测。
进一步地,所述加权平均包括:
将所述点云特征分别输入第一多层感知器及第二多层感知器,以得到第一点云特征投影向量及第二点云特征投影向量;
将所述可学习卷积核分别输入第一多层感知器及第二多层感知器,以得到第一可学习卷积核投影特征向量及第二可学习卷积核投影特征向量;
计算所述第二点云特征投影向量与第二可学习卷积核投影特征向量的哈达玛积;
将所述哈达玛积分别输入第三多层感知器及第四多层感知器,以得到可学习卷积核权重以及点云特征权重;以及
基于所述点云特征权重以及可学习卷积核权重,对所述第一点云特征投影向量与第一可学习卷积核投影特征向量进行加权平均,得到加权平均后的可学习卷积核,完成对输入数据的动态适应。
进一步地,通过注意力机制实现对象预测。
进一步地,所述方法还包括:计算对象预测结果的置信度,若满足预设要求,则保留所述对象预测结果,并将保留的对象预测结果根据置信度由高到低合并成全景分割结果。
本发明提供的一种用于点云全景分割的系统及方法,在现有的神经网络结构(Transformer)中增加了加权平均层,使得卷积核能够动态地适应点云数据,进而仅通过一个分支即可高效地完成点云全景分割。相较于现有的通过语义分割、实例分割两个分支共同进行全景分割的方法而言,一方面本发明提供的系统和方法流程简单,效率更高,另一方面,其不需要以实例中心作为学习目标,还能有效避免出现目标模糊的问题。
附图说明
为进一步阐明本发明的各实施例的以上和其它优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出本发明一个实施例的一种用于点云全景分割的系统的结构示意图;
图2示出本发明一个实施例的第一神经网络结构的结构示意图;以及
图3示出本发明一个实施例的一种用于点云全景分割的方法的流程示意图。
具体实施方式
以下的描述中,参考各实施例对本发明进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构或操作以免模糊本发明的发明点。类似地,为了解释的目的,阐述了特定数量和配置,以便提供对本发明的实施例的全面理解。然而,本发明并不限于这些特定细节。
在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
需要说明的是,本发明的实施例以特定顺序对方法步骤进行描述,然而这只是为了阐述该具体实施例,而不是限定各步骤的先后顺序。相反,在本发明的不同实施例中,可根据实际需求的调节来调整各步骤的先后顺序。
现有的点云全景分割技术中,通常需要融合语义分割结果和实例分割结果,进而才能得到最终的全景分割结果,这就使得必须要制定合理的融合策略,否则可能会导致较大的误差。此外,对于实例分割而言,还需要生成实例中心作为学习目标,极易出现目标模糊的问题。针对现有技术中的缺陷,本发明提供一种用于点云全景分割的系统及方法,采用可学习卷积核来实现点云全景分割任务,仅需采用一个分支即可完成全景分割,同时,由于不需要进行实例分割,还能有效地避免出现训练模糊性的问题。其中,所述可学习卷积核是一组随机初始化的可学习参数,每一个卷积核负责预测点云场景中的一个对象。所述可学习卷积核与普通卷积核在数据形式上一致,区别在于可学习卷积核能够动态地适应输入的数据,进而达到一对一预测对象的目的。在本发明的实施例中,动态地适应过程通过优化设计的神经网络结构(Transformer)实现。
下面结合实施例附图,对本发明的方案做进一步描述。
图1示出本发明一个实施例的一种用于点云全景分割的系统的结构示意图。如图1所示,一种用于点云全景分割的系统,包括可学习卷积核101以及第一神经网络结构(Transformer)102,其中所述可学习卷积核101可通过所述第一神经网络结构102动态地适应点云数据,并进行一对一地预测对象。
在本发明的一个实施例中,所述点云数据在输入所述第一神经网络结构102前,需要先进行预处理。所述预处理主要包括特征提取。因此,在本发明的一个实施例中,所述系统还包括特征提取模块103,其用于从所述点云数据中提取点云特征。在本发明的一个实施例中,采用Cylinder3D点云特征提取网络来提取点云特征,其所提取得到的点云特征V的维度为N*D。应当理解的是,在本发明的其他实施例中,还可采用其他方法或结构来实现这一功能。
为了实现动态适应,在本发明的实施例中,所述可学习卷积核101的维度应当与所述点云特征相同,因此,所述可学习卷积核101可包括D个通道数,且每个通道中可学习卷积核的数目为N。所述可学习卷积核101在初始化后,通过所述第一神经网络结构(Transformer)102实现与点云特征的信息交互,进而使得其能够动态地适应所述点云特征中的特定的对象,完成更精确的预测。基于此,所述第一神经网络结构(Transformer)102至少应当实现两部分的功能:信息交互以及对象预测。图2示出本发明一个实施例的第一神经网络结构的结构示意图。如图2所示的实施例中,采用了Transformer结构,即基于注意力机制来实现对象预测,同时,进一步地在所述Transformer结构中增加了加权平均层用以实现信息交互。具体而言,如图2所示,所述第一神经网络结构102包括加权平均层201,所述加权平均层201用于计算权重,并对所述点云特征与所述可学习卷积核101进行加权平均运算,使得所述可学习卷积核101与点云特征实现信息交互,进而能够动态地适应输入的数据中的特定的对象。在本发明的一个实施例中,所述加权平均层201包括多个多层感知器,所述多个多层感知器用于计算所述可学习卷积核与点云特征加权运算时的权重值。
所述第一神经网络结构(Transformer)102的其他结构与现有的Transformer结构类似,例如包括自注意力层202以及前馈网络层203。所述自注意力层与前馈网络层相连接组成的结构通常用作建立输入数据的全局关系模型。在本发明中,通过该结构进行可学习卷积核的全局关系建模,进而使得所述可学习卷积核与预测对象一一对应,避免多个可学习卷积核预测同一个对象的问题。所述自注意力层202以及前馈网络层203的实现原理和内部结构与现有技术基本一致,在此不再赘述。
此外,为了避免数据的极端分布,在本发明的一个实施例中,还进一步地在所述第一神经网络结构(Transformer)102中设置了至少一个规范化层204。所述规范化层204例如可设置于所述加权平均层201,和/或所述自注意力层202,和/或所述前馈网络层203的输出端,用以归一化上一层输出的数据。所述规范化层204的实现原理和内部结构与现有技术基本一致,在此不再赘述。
基于如前所述的系统,图3示出本发明一个实施例的一种用于点云全景分割的方法的流程示意图。如图3所示,一种用于点云全景分割的方法,包括:
首先,在步骤301,提取特征。通过注入Cylinder3D点云特征提取网络等,从输入的点云数据中提取点云特征V,所述点云特征V的维度为N*D;
接下来,在步骤302,可学习卷积核初始化。随机生成一组N*D维度的可学习参数,作为可学习卷积核的初始值;
接下来,在步骤303,动态适应特征。通过所述第一神经网络结构(Transformer)102的加权平均层201,使得所述可学习卷积核动态适应所述点云特征。在本发明的一个实施例中,所述动态适应包括:
将所述点云特征V分别输入第一多层感知器及第二多层感知器,以得到第一点云特征投影向量ZV及第二点云特征投影向量YV,所述ZV及YV的维度均为N*D;
将所述可学习卷积核K分别输入第一多层感知器及第二多层感知器,以得到第一可学习卷积核投影特征向量ZK及第二可学习卷积核投影特征向量YK,所述ZK及YK的维度均为N*D;
计算所述第二点云特征投影向量YV与第二可学习卷积核YK投影特征向量的哈达玛积X;
将所述哈达玛积X分别输入第三多层感知器及第四多层感知器,以得到可学习卷积核权重GK以及点云特征权重GV;以及
基于所述点云特征权重GV以及可学习卷积核权重GK,对所述第一点云特征投影向量ZV与第一可学习卷积核投影特征向量ZK进行加权平均,得到加权平均后的可学习卷积核K′:
K′=GK⊙ZK+GV⊙ZV
至此,完成所述可学习卷积核对点云特征的动态适应;
接下来,在步骤304,对象预测。基于已动态适应所述点云特征的可学习卷积核、以及点云特征进行对象预测,实现全景分割。在本发明的一个实施例中,是通过注意力机制实现对象预测,即通过所述第一神经网络结构(Transformer)102的自注意力层202以及前馈网络层203,基于加权平均后的可学习卷积核得到全景分割的结果;以及
最后,在步骤305,结果合并。将所有对象预测结果根据置信度合并成最终全景分割结果。在本发明的一个实施例中,通过计算对象预测结果的置信度,来判断是否需要保留所述对象预测结果:若所述置信度满足预设要求,则保留所述对象预测结果。最终将保留得到的对象预测结果根据置信度由高到低合并成全景分割结果。
经过测试,本发明提供的一种用于点云全景分割的系统的结构及方法在目前开源的大型数据集上取得了比现有技术更好的效果。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。

Claims (8)

1.一种用于点云全景分割的系统,其特征在于,包括可学习卷积核以及第一神经网络结构,其中所述第一神经网络结构包括:
加权平均层,所述可学习卷积核被配置为可通过所述加权平均层动态地适应点云特征,所述加权平均层包括多个多层感知器,所述多个多层感知器被配置为计算所述可学习卷积核与点云特征加权平均运算的权重值,包括:
将所述点云特征分别输入第一多层感知器及第二多层感知器,以得到第一点云特征投影向量及第二点云特征投影向量;
将所述可学习卷积核分别输入第一多层感知器及第二多层感知器,以得到第一可学习卷积核投影特征向量及第二可学习卷积核投影特征向量;
计算所述第二点云特征投影向量与第二可学习卷积核投影特征向量的哈达玛积;
将所述哈达玛积分别输入第三多层感知器及第四多层感知器,以得到可学习卷积核权重以及点云特征权重;以及
基于所述点云特征权重以及可学习卷积核权重,对所述第一点云特征投影向量与第一可学习卷积核投影特征向量进行加权平均,得到加权平均后的可学习卷积核,完成对输入数据的动态适应;
自注意力层;以及
前馈网络层,所述自注意力层以及前馈网络层被配置为构建所述可学习卷积核的全局关系,以使得所述可学习卷积核与预测对象一一对应。
2.如权利要求1所述的系统,其特征在于,所述第一神经网络结构还包括至少一个规范化层,其设置于所述加权平均层,和/或所述自注意力层,和/或所述前馈网络层的输出端,其被配置为归一化上一层输出的数据。
3.如权利要求1所述的系统,其特征在于,还包括特征提取模块,其被配置为从所述点云中提取点云特征。
4.如权利要求3所述的系统,其特征在于,所述特征提取模块包括Cyli nder3D点云特征提取网络。
5.一种基于如权利要求1至4任一所述的系统的用于点云全景分割的方法,其特征在于,包括步骤:
从点云数据中提取点云特征;
将所述点云特征与可学习卷积核进行加权平均;以及
基于加权平均后的可学习卷积核进行对象预测。
6.如权利要求5所述的方法,其特征在于,所述加权平均包括:
将所述点云特征分别输入第一多层感知器及第二多层感知器,以得到第一点云特征投影向量及第二点云特征投影向量;
将所述可学习卷积核分别输入第一多层感知器及第二多层感知器,以得到第一可学习卷积核投影特征向量及第二可学习卷积核投影特征向量;
计算所述第二点云特征投影向量与第二可学习卷积核投影特征向量的哈达玛积;
将所述哈达玛积分别输入第三多层感知器及第四多层感知器,以得到可学习卷积核权重以及点云特征权重;以及
基于所述点云特征权重以及可学习卷积核权重,对所述第一点云特征投影向量与第一可学习卷积核投影特征向量进行加权平均,得到加权平均后的可学习卷积核,完成对输入数据的动态适应。
7.如权利要求5所述的方法,其特征在于,通过注意力机制实现对象预测。
8.如权利要求5所述的方法,其特征在于,还包括:计算对象预测结果的置信度,若满足预设要求,则保留所述对象预测结果,并将保留的对象预测结果根据置信度由高到低合并成全景分割结果。
CN202210701485.1A 2022-06-21 2022-06-21 一种用于点云全景分割的系统及方法 Active CN115239954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210701485.1A CN115239954B (zh) 2022-06-21 2022-06-21 一种用于点云全景分割的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210701485.1A CN115239954B (zh) 2022-06-21 2022-06-21 一种用于点云全景分割的系统及方法

Publications (2)

Publication Number Publication Date
CN115239954A CN115239954A (zh) 2022-10-25
CN115239954B true CN115239954B (zh) 2024-06-14

Family

ID=83669997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210701485.1A Active CN115239954B (zh) 2022-06-21 2022-06-21 一种用于点云全景分割的系统及方法

Country Status (1)

Country Link
CN (1) CN115239954B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671531A1 (en) * 2018-12-17 2020-06-24 Promaton Holding B.V. Semantic segmentation of non-euclidean 3d data sets using deep learning
CN110910390B (zh) * 2019-11-11 2022-10-21 大连理工大学 一种基于深度畸变卷积的全景三维彩色点云语义分割方法
CN112053426B (zh) * 2020-10-15 2022-02-11 南京航空航天大学 一种基于深度学习的大规模三维铆钉点云提取方法
CN113449736B (zh) * 2021-01-14 2022-09-23 浙江工业大学 一种基于深度学习的摄影测量点云语义分割方法
CN112818999B (zh) * 2021-02-10 2022-10-28 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
CN113139549B (zh) * 2021-03-25 2024-03-15 北京化工大学 一种基于多任务学习的参数自适应全景分割方法
CN114283294A (zh) * 2021-12-20 2022-04-05 平安普惠企业管理有限公司 基于神经网络点云特征提取方法、系统、设备及存储介质
CN114595815A (zh) * 2022-02-21 2022-06-07 北京交通大学 一种面向传输友好的云-端协作训练神经网络模型方法
CN114612660A (zh) * 2022-03-01 2022-06-10 浙江工业大学 一种基于多特征融合点云分割的三维建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Technical Survey and Evaluation of Traditional Point Cloud Clustering Methods for LiDAR Panoptic Segmentation;Zhao, YM et.al;IEEE International Conference on Computer Vision Workshops;20220224;第1-5页 *
基于全融合网络的三维点云语义分割;刘佳;万方学位论文全文数据库;20220109;第1-30页 *

Also Published As

Publication number Publication date
CN115239954A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN114782691A (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN111797983A (zh) 一种神经网络构建方法以及装置
CN110070025B (zh) 基于单目图像的三维目标检测系统及方法
CN112529146B (zh) 神经网络模型训练的方法和装置
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN113221645B (zh) 目标模型训练方法、人脸图像生成方法以及相关装置
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN116097307A (zh) 图像的处理方法及相关设备
CN115984637A (zh) 时序融合的点云3d目标检测方法、系统、终端及介质
CN116993975A (zh) 基于深度学习无监督领域适应的全景相机语义分割方法
Xiaoying et al. Target detection of forward vehicle based on improved SSD
CN114359554A (zh) 一种基于多感受野上下文语义信息的图像语义分割方法
CN115239954B (zh) 一种用于点云全景分割的系统及方法
CN117036607A (zh) 基于隐式神经渲染的自动驾驶场景数据生成方法及系统
CN112529917A (zh) 一种三维目标分割方法、装置、设备和存储介质
CN116934972A (zh) 一种基于双流网络的三维人体重建方法
Zhu et al. Road scene layout reconstruction based on CNN and its application in traffic simulation
CN116486038A (zh) 一种三维构建网络训练方法、三维模型生成方法以及装置
Bai et al. Cyber mobility mirror for enabling cooperative driving automation: A co-simulation platform
Li et al. Geometric and semantic analysis of road image sequences for traffic scene construction
Ren et al. T-UNet: A novel TC-based point cloud super-resolution model for mechanical lidar

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant