CN118135225A - 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 - Google Patents
基于聚类思想的弱监督室内点云语义分割方法、装置及介质 Download PDFInfo
- Publication number
- CN118135225A CN118135225A CN202410350564.1A CN202410350564A CN118135225A CN 118135225 A CN118135225 A CN 118135225A CN 202410350564 A CN202410350564 A CN 202410350564A CN 118135225 A CN118135225 A CN 118135225A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- clustering
- semantic
- point
- indoor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000011218 segmentation Effects 0.000 title claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 2
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000013461 design Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000370 acceptor Substances 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于聚类思想的弱监督室内点云语义分割方法、装置及介质,其中方法包括以下步骤:获取室内点云数据并利用点云特征提取器提取多尺度室内点云特征;利用注意力机制设计查询模块与分组模块,构建聚类查询块和语义类别聚类查询块;使用多个聚类查询块和语义类别聚类查询块堆叠形成聚类查询网络,构建具有层次聚类结构的室内点云语义分割模型;使用手工设计的聚类中心约束引导模型学习全局语义信息,在弱监督的情况下训练室内点云语义分割模型;将待检测的室内场景点云输入训练好的室内点云语义分割模型中,得到预测的室内点云分割结果。与现有技术相比,本发明具有训练所需数据的标注量低、分割精度高、标注需求低、推理速度快等优点。
Description
技术领域
本发明涉及室内点云语义分割领域,尤其是涉及一种基于聚类思想的弱监督室内点云语义分割方法、装置及介质。
背景技术
随着室内点云算法的不断发展,当前的全监督算法在室内点云的各个下游任务中取得了相当高的精度。然而,尽管全监督方法在性能上表现出色,其对大量标注数据的依赖以及面对新场景时泛化能力的不足,限制了其在实际应用中的广泛使用。鉴于这一挑战,近期研究者们开始转向研究弱监督/无监督室内点云语义分割算法,以优化这一问题。
CN116664835A公开了一种无监督三维点云语义分割方法及相关设备,方法包括:根据点云数据确定若干超点;通过点云特征提取器获取各超点的超点特征,对各超点聚类得到若干生长超点;通过点云特征提取器获取各生长超点的超点特征,对各所述生长超点聚类得到若干语义基元;根据各语义基元确定点云数据中各点的伪标签,根据伪标签对点云特征提取器训练;判断点云特征提取器是否达到训练目标,当否时,继续执行上述步骤,直至达到训练目标;对最后得到的各语义基元聚类得到若干语义类别特征,根据各语义类别特征确定点云数据的语义分割结果。但是该方法通过确定的超点来进行聚类得到语义基元,从而得到伪标签,属于无监督方法,最终分割精度不够高,且训练步骤相对复杂,对算力要求较高。
而在应用弱监督方法进行室内点云语义分割时,需要解决两个关键问题:首先,选择合适的标签作为弱监督标签,其次,如何有效地利用有限的信息。现有技术中未有从点云语义特征分布特性出发对有限的信息加以利用的方法。
发明内容
本发明的目的是为了提供一种基于聚类思想的弱监督室内点云语义分割方法、装置及介质,利用同一语义类别的点在特征空间中聚集形成簇,而不同语义类别的点在特征空间中分布较远这一特性,从点云语义特征分布特性出发对有限的信息加以利用,为模型对点云特征的学习赋予重要的先验信息,提高模型对点云场景的理解能力,实现性能高、算力需求低、计算速度快的点云语义分割。
本发明的目的可以通过以下技术方案来实现:
一种基于聚类思想的弱监督室内点云语义分割方法,包括以下步骤:
步骤1:获取室内点云数据并利用基于Transformer模型的点云特征提取器提取多尺度室内点云特征;
步骤2:利用注意力机制设计查询模块与分组模块,构建聚类查询块和语义类别聚类查询块;
步骤3:使用多个聚类查询块和语义类别聚类查询块堆叠形成聚类查询网络,构建具有层次聚类结构的室内点云语义分割模型;
步骤4:使用手工设计的聚类中心约束引导模型学习全局语义信息,在弱监督的情况下训练室内点云语义分割模型;
步骤5:将待检测的室内场景点云输入训练好的室内点云语义分割模型中,得到预测的室内点云分割结果。
所述步骤1中,点云特征提取器对获取的室内点云数据进行分层采样,通过将点云空间划分为多个不重叠的立体窗口,根据窗口中点的分布获得每一个点的邻域点集,并通过注意力机制让点云中的点学习大量邻近点、少量中距离点且不学习远距离点,对每一个点云中点的邻域点集所含有的局部特征进行提取和学习。
所述步骤1中,分层采样策略具体为:进行小尺寸立体窗口划分,对小尺寸立体窗口所框定出的子点云进行密集采样,得到一组密集的邻近点;其次进行大尺寸立体窗口划分,并对大尺寸立体窗口框定范围,使用最远点对框定范围内的点云进行采样得到一组稀疏点,所述大尺寸立体窗口由小尺寸立体窗口拼接而成;分层采样得到的点集包含来自不同立体窗口尺寸和不同采样密度的点云信息,大尺寸立体窗口采样出的稀疏点和小尺寸立体窗口采样得到的密集点共同组成一个邻域点集;
点云特征提取器应用分层采样策略为每个点分层采样两组邻域点集,进行两次注意力机制的计算,其中,第一次分层采样采用所述分层采样策略直接对输入点云进行处理,第二次分层采样采用所述分层采样策略对经过窗口移动的点云进行处理,所述窗口移动的具体方式是将点云以大尺寸立体窗口划分,并以所述大尺寸立体窗口为单位进行窗口移动,改变窗口间的相对位置,破坏点云原有结构并进行重组,形成一个新的点云进行分层采样;
得到的两组邻域点集作为注意力机制中的键,以帮助点云中的点查询不同尺度的局部信息,并维持点云特征提取器处理长距离依赖的能力。
所述步骤2中,在特征空间下定义数量与点云场景中语义类别数量相同的簇,即语义类别簇,同时额外引入了一组簇,称为中间层簇,为语义类别簇中间提取点云的局部特征,在聚类查询块中更新中间层簇簇中心,学习点云局部特征,在语义类别聚类查询块中更新语义类别簇中心,学习点云全局特征,所述聚类查询块和语义类别聚类查询块中的计算均由一个查询模块和一个分组模块完成。
所述聚类查询块中的查询模块使用带有掩码的注意力机制,让中间层聚类中心学习点云的局部特征;语义类别聚类查询块中的查询模块使用带有掩码的注意力机制,让语义类别聚类中心学习中间层聚类中心所提取的局部特征,建立室内点云语义分割模型对室内全局语义特征的理解能力,查询模块的计算公式如下:
Q=Linearq(Q)
K=Lineark(F)
V=Linearv(F)
PEbias=MLP(PF)
PEaddend=MLP(PQ)-MLP(PF)
其中,Q表示查询的主体的特征,PQ表示Q所对应的坐标信息;F表示查询的键和值的特征,PF表示F所对应的坐标信息,α表示掩码,PEaddend与PEbias均代表位置编码,Linear代表线性层,MLP代表多层感知机,×代表逐元素乘积。
所述分组模块依据点的特征与簇中心特征的相似度,将点聚类归入簇,为下一个查询模块提供计算用的掩码,用以确保簇中心只能访问其各自簇内的点,其中,聚类查询块的分组模块仅计算注意力机制所需的掩码,让聚类中心只能学习簇内点的特征;语义类别聚类查询块的分组模块计算语义类别聚类中心的语义类别分数,并将语义类别聚类中心所学习到的全局特征映射回点云中的每个点上,分组模块的计算公式如下:
α=δ(β>t)
其中,β表示和Fk之间的相似度,SQ表示语义类别簇中心对应的语义分数,SP表示逐点语义分数,Fk表示点云逐点特征,σ表示sigmoid函数,t为预设阈值,δ表示线性插值函数,/>表示语义类别簇中心。
所述步骤4中,聚类中心约束包括聚类中心二元交叉熵损失和聚类中心对比损失,其中,
所述聚类中心二元交叉熵损失通过监督语义类别簇中心Qc对应的语义分数SQ,建立语义类别簇与语义类别之间的联系,将SQ与定义的单位矩阵进行比较,并应用二元交叉熵损失,以约束Qc确保其携带准确的全局语义信息,所述单位矩阵E除对角线元素值为1之外,其它元素均为0,C为语义类别的数量;
所述聚类中心对比损失约束Qc中的不同张量,保证i≠j时,张量qi与qj之间有明显的差别,其表达形式为:
其中,τ为常数。
所述步骤4中,室内点云语义分割模型的损失函数表示为:
其中,表示逐点的语义分数的交叉熵损失,/>表示聚类中心二元交叉熵损失,/>表示聚类中心对比损失,λbce、λcl代表对应损失的权重。
一种基于聚类思想的弱监督室内点云语义分割装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。
一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。
与现有技术相比,本发明具有以下有益效果:
一、本发明提出了一种专门为弱监督情况设计的室内点云分割方法,在使用点云1%和0.1%的标注量的情况下取得了能与全监督方法相媲美的模型性能,分割精度高。
二、本发明提出层次聚类结构,在特征空间中引入簇的概念,引导模型学习点云的全局语义特征。
三、本发明提出聚类查询网络,设计查询模块和聚类模块,应用聚类思想提高了模型对点云场景的理解能力。
四、本发明提出聚类中心二元交叉熵损失与聚类中心对比损失,通过约束保证聚类查询网络应用聚类思想学习到点云的全局语义信息,进一步保证方法的有效性。
五、本发明使用相减替换注意力机制中的点乘操作,保持注意力机制的强大性能的同时对算力需求低,计算速度快。
附图说明
图1为本发明的方法流程图;
图2为本发明的室内点云语义分割模型示意图;
图3为本发明的查询模块与分组模块的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于聚类思想的弱监督室内点云语义分割方法,如图1所示,包括以下步骤:
步骤1:获取室内点云数据并利用基于Transformer模型的点云特征提取器提取多尺度室内点云特征。
本实施例中,点云特征提取器采用了一种创新的分层采样策略,通过将点云空间划分为多个不重叠的立体窗口,根据不同尺寸窗口中点的分布获得每一个点的邻域点集,再通过带掩码的注意力机制让点云中的点学习大量邻近点的信息,少量中距离点的信息,而不学习远距离点的信息,把每一个点云中的点都作为注意力机制种的查询主体,对这一点的邻域点集所含有的局部特征进行提取和学习。
在这一分层采样策略以外,点云特征提取器通过将点云分块后重组,让原本因为距离过远而不在一个点的领域点集中的点可以出现在窗口移动后的该点点集中,从而让点云中的点能接触到长距离点,确保点云中的点不止能够从其领域获取信息,还能获得空间距离较远的点的信息。
分层采样策略具体为:进行小尺寸立体窗口划分,对小尺寸立体窗口所框定出的子点云进行密集采样,得到一组密集的邻近点;其次进行大尺寸立体窗口划分,为了限制领域点集中中距离点的数量,点云特征提取器对在大尺寸立体窗口框定范围,而不在目标小尺寸立体窗口框定范围中的点云进行采样,使用最远点对框定范围内的点云进行采样得到一组稀疏点,其中,大尺寸立体窗口由小尺寸立体窗口拼接而成。分层采样得到的点集包含来自不同立体窗口尺寸和不同采样密度的点云信息,大尺寸立体窗口采样出的稀疏点和小尺寸立体窗口采样得到的密集点共同组成一个邻域点集;
点云特征提取器采用了一种窗口移动的策略增强其处理长距离依赖的能力,应用分层采样策略为每个点分层采样两组邻域点集,进行两次注意力机制的计算,其中,第一次分层采样采用所述分层采样策略直接对输入点云进行处理,第二次分层采样采用所述分层采样策略对经过窗口移动的点云进行处理。窗口移动的具体方式是将点云以大尺寸立体窗口划分,并以所述大尺寸立体窗口为单位进行窗口移动,改变窗口间的相对位置,破坏点云原有结构并进行重组,形成一个新的点云进行分层采样。点云特征提取器以这种方式让原本因为距离过远不在一个点的领域点集中的点可以出现在窗口移动后的该点点集中,从而让点云中的点能接触到长距离点,增强了处理长距离依赖的能力。
通过以上方式,分层采样得到的点集包含了来自不同立体窗口尺寸和不同采样密度的点云信息,大尺寸的立体窗口采样出的稀疏点和小尺寸窗口中采样得到的密集点一同组成了一个领域点集,对不同的目标小尺寸窗口进行分层采样后,点云特征提取器最终会采样得到一系列领域点集e最终,这些邻域点集被用作中注意力机制的键,以帮助点云中的点查询不同尺度的局部信息,并维持特征提取器处理长距离依赖的能力。
点云特征提取器采用了类U-Net的结构。输入点云首先通过多个降采样块,每一个降采样块都对点云特征进行升维,降低点的数量的同时扩大点的感受野。多个降采样块堆叠后,以金字塔层级结构提取点云的多尺度特征,最终得到了高维度特征在降采样的过程中点的坐标信息一直被保留,F1是由坐标与提取出的高维度特征拼接而成,维度中(3+D1)即是由此而来。随后,高维度特征F1通过多次残差连接和多个上采样块,形成了一组多尺度特征{F1,F2,…,Fk},其中每个Fi均与F1一样,包含了在降采样过程中提取到的语义特征和保留的坐标信息,因此Fi的尺寸大小为Ni×(3+Di),其中Fk的尺寸为(3+Dk),是点云的逐点特征。
步骤2:利用注意力机制设计查询模块与分组模块,构建聚类查询块和语义类别聚类查询块。
本实施例在特征空间下定义数量与点云场景中语义类别数量相同的簇,即语义类别簇,同时额外引入了一组簇,称为中间层簇,为语义类别簇中间提取点云的局部特征,克服语义类别簇中心难以收敛的问题。为两组簇分别赋予一组簇中心,分别对点云的局部语义特征和全局语义特征进行学习。在本发明中,判断点云中的点属于哪一个语义类别的依据是该点在经过处理后属于哪一个语义类别簇,而其属于哪一个语义类别簇是由其特征与语义类别簇中心的相似度所决定的。
本实施例使用注意力机制构建查询模块与分组模块,帮助所定义的聚类中心学习点云的局部特征和全局特征。查询模块的主要作用是通过带掩码的互注意力机制,辅以位置编码,让簇中心从属于簇的点的特征中学习到语义信息。分组模块的作用是通过对点云进行分组,引入聚类思想,将点云划分入不同的簇中,为特征学习提供支撑。使用查询模块与分组模块,构建了聚类查询块和语义类别聚类查询块。聚类查询块中的查询模块和分组模块和语义类别聚类查询块中的查询模块和分组模块仅在输入和输出以及少量计算细节上略有差异,而整体功能和计算过程都是相同的。
聚类查询块中的查询模块使用带有掩码的注意力机制,让中间层聚类中心学习点云的局部特征;语义类别聚类查询块中的查询模块使用带有掩码的注意力机制,让语义类别聚类中心学习中间层聚类中心所提取的局部特征,建立室内点云语义分割模型对室内全局语义特征的理解能力。
如图3所示,查询模块以三个主要张量为输入,一是查询的主体,二是查询的受体,最后是掩码,除了掩码以外,一个张量作为Query,另一个张量作为Key与Value。而根据功能的不同,聚类查询块中的查询模块与语义类别聚类查询块中的查询模块所接收的输入并不相同。聚类查询块中的查询模块以中间层簇中心Qh作为Query,以点云特征Fi作为Key与Value;语义聚类类别查询块的查询模块则以语义类别簇中心Qc作为Query,以中间层簇中心Qh作为Key与Value。Qh是从逐点特征中使用最远点采样进行初始化得到,采样时也对坐标信息进行了保留。而Qc由一组可学习的张量表示,其坐标信息也由可学习张量表示。
图3中用Q表示查询的主体的特征,PQ表示Q所对应的坐标信息;用F表示查询的受体(Key与Value)的特征,PF表示F所对应的坐标信息;而掩码则用α进行表示,计算公式如下:
Q=Linearq(Q)
K=Lineark(F)
V=Linearv(F)
PEbias=MLP(PF)
PEaddend=MLP(PQ)-MLP(PF)
其中,PEaddend与PEbias均代表位置编码,Linear代表线性层,MLP代表多层感知机,×代表逐元素乘积。这一计算过程中使用相减替换注意力机制中的点乘操作,保持注意力机制的强大性能的同时降低了计算量。
分组模块依据点的特征与簇中心特征的相似度,将点聚类归入簇,为下一个查询模块提供计算用的掩码,用以确保簇中心只能访问其各自簇内的点。聚类查询块的分组模块仅计算注意力机制所需的掩码,让聚类中心只能学习簇内点的特征;语义类别聚类查询块的分组模块计算语义类别聚类中心的语义类别分数,并将语义类别聚类中心所学习到的全局特征映射回点云中的每个点上。分组模块以查询模块中计算得到的与点云的逐点特征Fk作为输入,集中体现了本发明对聚类思想的应用。
分组模块首先对与Fk的相似度β进行计算。其以这一相似度为依据,分组模块将点云中的点划分到不同的簇中,以一个二进制掩码α进行表示,确保每个簇中心获取其簇内的点特征。β的计算是通过将/>与逐点特征Fk进行点乘,并通过一个Sigmoid函数计算得到的,其公式表达为:
当前聚类查询块的分组模块计算得到的二进制掩码α将被送入下一个聚类查询块参与查询模块的运算,以限制每个簇中心只能学习其簇内点的特征。因此,α还需要进行插值处理,以适应下一个聚类查询块中输入的点云特征的尺寸。
在得到相似度β后,分组模块通过设定一个阈值t来生成二进制掩码α。具体而言,分组模块将β中大于阈值位置的值设为1,表示有效值,公式为:
α=δ(β>t)
其中,δ表示线性插值函数。
语义类别聚类查询块中的分组模块并不进行二进制掩码α的计算,而是需要计算得到语义类别簇中心对应的语义分数SQ,并进一步通过语义类别簇中心Qc和逐点特征Fk的相似度βk来为点云中的每个点分配语义分数,得到逐点语义分数SP。
步骤3:使用多个聚类查询块和语义类别聚类查询块堆叠形成聚类查询网络,构建具有层次聚类结构的室内点云语义分割模型。
具体的,在聚类查询块中更新中间层簇簇中心,学习点云局部特征,在语义类别聚类查询块中更新语义类别簇中心,学习点云全局特征。将多个聚类查询块和一个语义类别聚类查询块进行堆叠,构成聚类查询网络,应用聚类思想学习点云语义信息,完成语义分割任务。
本发明为定义的语义类别簇赋予了语义类别簇中心用以表征对应语义类别的典型语义特征,由一组可学习的张量表示。Qc通过学习点云的特征,不断迭代更新,直到获得优秀的语义特征表达能力。
Qc的尺寸中,C指的是室内点云中含有的语义类别的数量。一般而言,C是一个较小的数字,与点云中点的数量N相差三到四个数量级,例如ScanNet v2数据集中的点云只含有20个语义类别,而处理该数据集时输入模型的点则是数以万计。这会导致训练过程中Qc接收到的点云特征过多,进而导致难以收敛的问题。
为了克服这一难题,本发明额外引入了一组簇,称为中间层簇,并同样为这一组簇赋予了簇中心,称为中间层簇中心
不同于用可学习张量表示的Qc,Qh的初始化是使用最远点采样的方式,从点云的逐点特征Fk中采样而完成的。
Qh的尺寸中,H指一共有多少个中间层簇,(3+Dq)则表示Qh是由最远点采样得到的空间坐标与点的特征拼接而成。
Qc的维度虽然与Qh相同,但Qc维度中的3也是由可学习张量表示,其中并不含有具体的坐标信息。此处用可学习张量生成一个伪坐标信息的目的,一是与Qh的操作对齐,二是尝试学习到不同语义在场景空间中的一般位置。
中间层簇利用点云的局部语义同质性,提取了点云的局部特征,并集中由中间层簇中心Qh进行表达。本发明中,中间层簇充当了连接局部与全局信息的桥梁,在中间层簇簇中心Qh学习到点云局部信息后,语义类别簇中心Qc只需要对Qh表达的特征进行学习和进一步地聚合,即可学习到点云的全局语义信息。
为了通过我们构建的层次聚类结构,实现以上的局部特征到全局语义特征的特征提取过程,本发明设计了聚类查询块和语义类别聚类查询块,将多个聚类查询块和一个语义类别聚类查询块进行堆叠,如图2中所示,形成聚类查询网络。
步骤4:使用手工设计的聚类中心约束引导模型学习全局语义信息,在弱监督的情况下训练室内点云语义分割模型。
室内点云语义分割方法中应用聚类方法要求语义类别簇中心需要对其对应语义类别含有的语义信息有足够的表达能力,且表达不同语义类别的语义类别簇中心之间要有明显的差别。本发明定义的Qc包括了C个张量,分别表征着C个不同语义类别的语义信息。为了将点云根据所提取到的特征准确有效地聚类进入其所属的语义类别簇,Qc需要满足以下两个条件:一是Qc中每个张量需要对其对应语义类别含有的语义信息有足够的表达能力;二是表达不同语义类别的张量之间要有明显的差别。前者保障了在聚类正确的情况下,点云中的点能够根据所属的语义类别簇分配到准确的语义分数;后者能够降低点云特征与多个语义类别簇中心相似度接近,导致其聚类归入的簇发生混淆的可能性。根据以上情况,除了用于逐点的语义分数SP的常见交叉熵损失外,本发明还设计了一组聚类中心约束来监督Qc。这些约束包括两个组成部分:聚类中心二元交叉熵损失和聚类中心对比损失。
针对语义类别簇中心对其对应语义类别含有的语义信息足够的表达能力的需求,引入聚类中心二元交叉熵损失,以一个尺寸与语义类别数量相同的单位矩阵作为监督标签。聚类中心二元交叉熵损失通过监督语义类别簇中心Qc对应的语义分数SQ,建立语义类别簇与语义类别之间的联系,确保Qc携带准确的全局语义信息。为实现这一目标,本实施例将Qc送入一个由Sigmoid函数激活的线性层,得到语义分数Qc中表征不同语义类别的张量在对应的语义类别中应获得最高的分数。由此,本实施例定义了一个单位矩阵作为监督用的标签,单位矩阵E除对角线元素值为1之外,其它元素均为0。
基于此设计聚类中心二元交叉熵损失。该损失通过将SO与以上定义的单位矩阵E进行比较,并应用二元交叉熵损失,以约束Qc。这确保经过训练后Qc能够携带准确有效的全局语义信息,为点云的聚类提供可靠的依据。
Qc中对应着不同语义类别的张量之间应有明显差别。由此,针对不同语义类别簇中心在特征空间下分布较远的需求引入聚类中心对比损失,降低点云特征与多个语义类别簇中心相似度接近,导致其聚类归入的簇发生混淆的可能性。聚类中心对比损失约束Qc中的不同张量,保证i≠j时,张量qi与qj之间有明显的差别,其表达形式为:
其中,τ为常数,通常设置为0.07。
则,室内点云语义分割模型总体的损失函数表示为:
其中,表示逐点的语义分数的交叉熵损失,/>表示聚类中心二元交叉熵损失,/>表示聚类中心对比损失,λbce、λcl代表对应损失的权重,在训练过程中分别设置为0.01和0.1。
步骤5:将待检测的室内场景点云输入训练好的室内点云语义分割模型中,得到预测的室内点云分割结果。
本实施例在室内点云语义分割任务中表现出色,性能主要通过平均交并比进行评估。在使用点云1%和0.1%标注的弱监督标签的情况下,本发明在ScanNet v2数据集的测试集上分别取得了卓越的性能:
当使用点云1%的标注量时,本发明实现了令人瞩目的66.7%平均交并比。
在使用点云0.1%的标注量的情况下,本发明仍然保持了卓越的性能,达到了60.6%平均交并比。
这些结果表明,本发明在弱监督室内点云语义分割任务中取得了出色的性能,是当前领域的前沿方法,为使用同一弱监督标签的方法中精度最高的方法。
本发明使用了在整个点云场景中随机采样出一定比例的点,并为它们打上标签的方式获取弱监督标签。虽然这样的标注信息相对有限,但它最为直观,且符合点云标注的逻辑。相较于使用其他形式的弱监督标签,使用此类标签无需额外的复杂流程设计和模型结构设计,降低了训练过程的复杂性,也降低了获取标签的难度。并且,对于相对成熟的全监督方法的迁移,这种方式更加友好。并且,本发明从点云语义特征分布特性出发对有限的信息加以利用,为模型对点云特征的学习赋予重要的先验信息,提高了模型对点云场景的理解能力。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
本实施例提供一种基于聚类思想的弱监督室内点云语义分割装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。
具体的,该装置包括:
特征提取模块,用于获取室内点云数据并利用基于Transformer模型的点云特征提取器提取多尺度室内点云特征;
查询块构建模块,用于利用注意力机制设计查询模块与分组模块,构建聚类查询块和语义类别聚类查询块;
语义分割模型构建模块,用于使用多个聚类查询块和语义类别聚类查询块堆叠形成聚类查询网络,构建具有层次聚类结构的室内点云语义分割模型;
语义分割模型训练模块,用于使用手工设计的聚类中心约束引导模型学习全局语义信息,在弱监督的情况下训练室内点云语义分割模型;
检测模块,用于将待检测的室内场景点云输入训练好的室内点云语义分割模型中,得到预测的室内点云分割结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。
Claims (10)
1.一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,包括以下步骤:
步骤1:获取室内点云数据并利用基于Transformer模型的点云特征提取器提取多尺度室内点云特征;
步骤2:利用注意力机制设计查询模块与分组模块,构建聚类查询块和语义类别聚类查询块;
步骤3:使用多个聚类查询块和语义类别聚类查询块堆叠形成聚类查询网络,构建具有层次聚类结构的室内点云语义分割模型;
步骤4:使用手工设计的聚类中心约束引导模型学习全局语义信息,在弱监督的情况下训练室内点云语义分割模型;
步骤5:将待检测的室内场景点云输入训练好的室内点云语义分割模型中,得到预测的室内点云分割结果。
2.根据权利要求1所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述步骤1中,点云特征提取器对获取的室内点云数据进行分层采样,通过将点云空间划分为多个不重叠的立体窗口,根据窗口中点的分布获得每一个点的邻域点集,并通过注意力机制让点云中的点学习大量邻近点、少量中距离点且不学习远距离点,对每一个点云中点的邻域点集所含有的局部特征进行提取和学习。
3.根据权利要求2所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述步骤1中,分层采样策略具体为:进行小尺寸立体窗口划分,对小尺寸立体窗口所框定出的子点云进行密集采样,得到一组密集的邻近点;其次进行大尺寸立体窗口划分,并对大尺寸立体窗口框定范围,使用最远点对框定范围内的点云进行采样得到一组稀疏点,所述大尺寸立体窗口由小尺寸立体窗口拼接而成;分层采样得到的点集包含来自不同立体窗口尺寸和不同采样密度的点云信息,大尺寸立体窗口采样出的稀疏点和小尺寸立体窗口采样得到的密集点共同组成一个邻域点集;
点云特征提取器应用分层采样策略为每个点分层采样两组邻域点集,进行两次注意力机制的计算,其中,第一次分层采样采用所述分层采样策略直接对输入点云进行处理,第二次分层采样采用所述分层采样策略对经过窗口移动的点云进行处理,所述窗口移动的具体方式是将点云以大尺寸立体窗口划分,并以所述大尺寸立体窗口为单位进行窗口移动,改变窗口间的相对位置,破坏点云原有结构并进行重组,形成一个新的点云进行分层采样;
得到的两组邻域点集作为注意力机制中的键,以帮助点云中的点查询不同尺度的局部信息,并维持点云特征提取器处理长距离依赖的能力。
4.根据权利要求1所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述步骤2中,在特征空间下定义数量与点云场景中语义类别数量相同的簇,即语义类别簇,同时额外引入了一组簇,称为中间层簇,为语义类别簇中间提取点云的局部特征,在聚类查询块中更新中间层簇簇中心,学习点云局部特征,在语义类别聚类查询块中更新语义类别簇中心,学习点云全局特征,所述聚类查询块和语义类别聚类查询块中的计算均由一个查询模块和一个分组模块完成。
5.根据权利要求4所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述聚类查询块中的查询模块使用带有掩码的注意力机制,让中间层聚类中心学习点云的局部特征;语义类别聚类查询块中的查询模块使用带有掩码的注意力机制,让语义类别聚类中心学习中间层聚类中心所提取的局部特征,建立室内点云语义分割模型对室内全局语义特征的理解能力,查询模块的计算公式如下:
Q=Linearq(Q)
K=Lineark(F)
V=Linearv(F)
PEbias=MLP(PF)
PEaddend=MLP(PQ)-MLP(PF)
其中,Q表示查询的主体的特征,PQ表示Q所对应的坐标信息;F表示查询的键和值的特征,PF表示F所对应的坐标信息,α表示掩码,PEaddend与PEbias均代表位置编码,Linear代表线性层,MLP代表多层感知机,×代表逐元素乘积。
6.根据权利要求5所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述分组模块依据点的特征与簇中心特征的相似度,将点聚类归入簇,为下一个查询模块提供计算用的掩码,用以确保簇中心只能访问其各自簇内的点,其中,聚类查询块的分组模块仅计算注意力机制所需的掩码,让聚类中心只能学习簇内点的特征;语义类别聚类查询块的分组模块计算语义类别聚类中心的语义类别分数,并将语义类别聚类中心所学习到的全局特征映射回点云中的每个点上,分组模块的计算公式如下:
α=δ(β>t)
其中,β表示和Fk之间的相似度,SQ表示语义类别簇中心对应的语义分数,SP表示逐点语义分数,Fk表示点云逐点特征,σ表示sigmoid函数,t为预设阈值,δ表示线性插值函数,/>表示语义类别簇中心。
7.根据权利要求1所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述步骤4中,聚类中心约束包括聚类中心二元交叉熵损失和聚类中心对比损失,其中,
所述聚类中心二元交叉熵损失通过监督语义类别簇中心Qc对应的语义分数SQ,建立语义类别簇与语义类别之间的联系,将SQ与定义的单位矩阵进行比较,并应用二元交叉熵损失,以约束Qc确保其携带准确的全局语义信息,所述单位矩阵E除对角线元素值为1之外,其它元素均为0,C为语义类别的数量;
所述聚类中心对比损失约束Qc中的不同张量,保证i≠j时,张量qi与qj之间有明显的差别,其表达形式为:
其中,τ为常数。
8.根据权利要求1所述的一种基于聚类思想的弱监督室内点云语义分割方法,其特征在于,所述步骤4中,室内点云语义分割模型的损失函数表示为:
其中,表示逐点的语义分数的交叉熵损失,/>表示聚类中心二元交叉熵损失,/>表示聚类中心对比损失,λbce、λcl代表对应损失的权重。
9.一种基于聚类思想的弱监督室内点云语义分割装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410350564.1A CN118135225A (zh) | 2024-03-26 | 2024-03-26 | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410350564.1A CN118135225A (zh) | 2024-03-26 | 2024-03-26 | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118135225A true CN118135225A (zh) | 2024-06-04 |
Family
ID=91241774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410350564.1A Pending CN118135225A (zh) | 2024-03-26 | 2024-03-26 | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118135225A (zh) |
-
2024
- 2024-03-26 CN CN202410350564.1A patent/CN118135225A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111242208B (zh) | 一种点云分类方法、分割方法及相关设备 | |
US20190114547A1 (en) | Deep Learning-Based Splice Site Classification | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
Sun et al. | PGCNet: patch graph convolutional network for point cloud segmentation of indoor scenes | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
US20230222768A1 (en) | Multiscale point cloud classification method and system | |
Gao et al. | Natural scene recognition based on convolutional neural networks and deep Boltzmannn machines | |
CN116129141A (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN115222998A (zh) | 一种图像分类方法 | |
Fu et al. | Deep momentum uncertainty hashing | |
CN112036511A (zh) | 基于注意力机制图卷积神经网络的图像检索方法 | |
CN111241326A (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
CN114693923A (zh) | 一种基于上下文和注意力的三维点云语义分割方法 | |
Afzal et al. | Discriminative feature abstraction by deep L2 hypersphere embedding for 3D mesh CNNs | |
Qin et al. | Deep top similarity hashing with class-wise loss for multi-label image retrieval | |
CN116522143B (zh) | 模型训练方法、聚类方法、设备及介质 | |
Chauhan et al. | Empirical Study on convergence of Capsule Networks with various hyperparameters | |
CN116912486A (zh) | 基于边缘卷积和多维特征融合的目标分割方法、电子装置 | |
CN114638953B (zh) | 点云数据的分割方法、装置及计算机可读存储介质 | |
CN118135225A (zh) | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 | |
Chen et al. | 3D mesh transformer: A hierarchical neural network with local shape tokens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |