CN114529757B

CN114529757B - 一种跨模态单样本三维点云分割方法

Info

Publication number: CN114529757B
Application number: CN202210083858.3A
Authority: CN
Inventors: 雷印杰; 杨昱威
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-04-18
Anticipated expiration: 2042-01-21
Also published as: CN114529757A

Abstract

本发明涉及计算机视觉技术领域，且公开了一种跨模态单样本三维点云分割方法，首先针对目标场景中的所有类别建立类级别的单一文本描述集，分别使用不同的嵌入网络将支撑文本和查询点云映射到各自的特征空间中，接着应用双重注意力和自注意力完成模态内的特征交互并设计视觉‑语义变换器结构在统一的空间中对齐模态间的特征，最后构建文本原型并采用非参数化的度量方法来对点云进行逐点匹配，从而完成分割任务。该跨模态单样本三维点云分割方法，数据便于获取，极大减轻人力消耗且迁移扩展能力强，本方法仅通过使用容易获取的单一“类级别”文本描述作为支撑集引导查询点云完成单样本分割，无需大规模点云数据且完全避免对支撑点云的逐点标注。

Description

一种跨模态单样本三维点云分割方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种跨模态单样本三维点云分割方法。

背景技术

近年来，深度学习网络已经在二维图像分类、目标检测、语义分割等诸多任务上取得了巨大的成功，随着3D传感器的快速发展，一些实际的应用(如自动驾驶、机器导航、虚拟/增强现实等)引起了人们更多的关注，三维点云作为一种天然表示物体几何结构的数据形式被广泛应用，对其进行语义分割在现实中起着至关重要的作用，然而当前大部分的分割方法均依赖于全监督框架，它们需要昂贵且难以获得的逐点标注数据用来训练，且由于封闭集假设(Closed Set Assumption)，这些方法在推理过程中只适用于可见类的预测，难以推广到新类的分割上，这大大限制了模型的泛化性能，少样本学习(Few-Shot Learning)是一种解决这些问题的有前途的范式，因为其允许仅通过少量标注的样本作为支撑迁移到新类物体的识别上。

当前的少样本学习范式主要包括基于元学习(Meta Learning)和基于度量学习(Metric Learning)的两种框架，在传统的全监督学习框架中，随着数据量和标注的减少，数据将无法涵盖类别的完整分布，从而使得模型的表达能力显著下降，而对于少样本学习，其主要通过应用元学习算法或者非参数化/参数化的度量函数来完成少量数据下的知识迁移，但这些方法主要集中于二维图像的分类或分割任务上，难以处理复杂非规则化的三维点云数据。

最近的一些研究根据三维点云的数据特点设计了一些少样本分割方法，其主要通过学习同一模态的少量支撑样本中点云特征来帮助完成查询点云的识别，尽管这些方法取得了一定的进展，但是它们仍然依靠于完全逐点标注的支撑点云，这依然需要耗费大量的时间和精力，且无法适用于无新类视觉样本或视觉样本无法获得的极端情况下。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种跨模态单样本三维点云分割方法，采用更加容易获得的语义类级别单一文本描述作为支撑来构建情景任务(Episodic Task)，以此完成点云细粒度分割，称为跨模态单样本三维点云分割(Cross-Modal One-Shot PointCloud Segmentation，即少样本的支撑集为单一文本描述)，本发明将点云和文本嵌入到各自的特征空间，设计跨模态特征增强方法来完成视觉点云和文本特征的模态内交互及模态间对齐，具备提升语义引导的跨模态单样本框架下点云分割模型性能，增强模型仅依靠背景知识对无视觉支撑的新类点云泛化能力等优点，解决了传统少样本学习依靠完全逐点标注支撑点云，且无法适用于无新类视觉样本的极端情况下的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种跨模态单样本三维点云分割方法，所述方法包括：首先针对目标场景中的所有类别建立类级别的单一文本描述集，然后整体采用支撑-查询两分支架构，分别使用不同的嵌入网络将支撑文本和点云映射到各自的特征空间中，接着应用自注意力(针对点云特征)和双重注意力(针对文本特征)完成模态内的特征交互并设计视觉-语义变换器结构(Visual-Semantic Transformer)在统一的空间中对齐模态间的特征，最后构建文本原型(Prototype)，并采用非参数化的度量方法来对点云进行逐点匹配，从而完成分割任务，此外，本方法通过迁移经典的二维图像少样本学习方法于当前设定的三维点云单样本分割框架中形成额外的基线作为评估，采用设定的情景式学习范式进行训练，所述跨模态单样本三维点云分割方法的具体步骤如下所示：

S1、针对目标三维点云场景中出现的各个类别构建“类级别”单一描述，用以形成文本支撑集；

S2、构建支撑-查询双分支结构(Two-Branch Structure)，采用文本嵌入网络将S1中的支撑文本嵌入到语义特征空间中得到单词特征，应用点云嵌入网络将目标查询点云嵌入到视觉特征空间中获取逐点特征；

S3、对于S2语义特征空间中的单词特征应用双重注意力(Dual-Attention)，视觉特征空间中的逐点特征使用自注意力(Self-Attention)以挖掘模态内特征关系，完成特征交互，从而得到交互后的逐点和单词特征，并对交互后的单词特征应用平均池化(MeanPooling)得到类初始原型(包括背景类和前景类)；

S4、设计视觉-语义变换器结构(Visual-Semantic Transformer)，将S3中得到的交互后逐点、单词特征及初始原型作为跨模态特征令牌(Tokens)排列并拼接位置嵌入(Position Embedding)一同输入至变换器中用于在学习到的统一空间中进行模态间特征对齐，以消除模态间差异，得到对齐后的点云特征和文本原型；

S5、将S4中得到的查询点云特征与文本原型在相似度度量空间中进行逐点匹配，输出预测类别概率；

S6、构建整体预测损失函数并使用设定的情景式训练(Episodic Training)范式在可见类上对网络参数进行优化，并保存合适的模型参数用于未知类的预测测试；

S7、针对S3中的得到交互后的逐点和单词特征，可不遵循S4、S5操作而直接迁移经典少样本学习中的多种度量学习方法于当前设置框架中用于形成基线，并按照S6构建损失函数进行训练和评估。

优选的，所述S1中的“类级别”单一描述为一到两句英文文本，用来粗略地概括目标类别的基本通用属性(如形状、颜色、位置、用途等)。

优选的，所述S2中的文本嵌入网络使用预训练的Bert模型输出文本表示作为先验知识，在其后接入双向门控循环单元(Bi-GRU)用于网络微调，以动态学习语义空间。

优选的，所述S3中对单词特征的双重注意力采用位置注意力(PositionAttention)模块紧接自注意力模块构成，位置注意力将全连接层映射后的掩码单词特征通过Softmax后得到的概率与输入单词特征进行矩阵相乘，用于聚焦到重要的单词表示上。

优选的，所述S4中定制设计的视觉-语义变换器使用标准化+多头注意力+多层感知机结构来处理按照规则排列输入的令牌。

优选的，所述S5中采用余弦相似度作为度量函数来对点云逐点和文本原型进行匹配输出概率。

优选的，所述S7中的迁移的经典度量学习方法包括孪生网络(Siamese Network)、关系网络(Relation Network)、匹配网络(Matching Network)及原型网络(PrototypicalNetwork)。

与现有技术相比，本发明提供了一种跨模态单样本三维点云分割方法，具备以下有益效果：

1、该跨模态单样本三维点云分割方法，数据便于获取，极大减轻人力消耗且迁移扩展能力强，本方法仅通过使用容易获取的单一“类级别”文本描述作为支撑集引导查询点云完成单样本分割，无需大规模点云数据且完全避免对支撑点云的逐点标注，大大节省成本。

2、该跨模态单样本三维点云分割方法，精度高，在不同实验设置下(N-way1-shot，N为2～6)，本方法均取得显著优越的性能，2-way、3-way 1-shot设置下，在ScanNet数据集S0及S1划分上的平均mIoU性能分别为51.30和48.29，S3DIS数据集S0及S1划分上平均mIoU性能分别为47.02和43.43，达到与原先使用大量标注的视觉样本作为支撑集方法效果可比甚至更好的结果。

3、该跨模态单样本三维点云分割方法，迁移扩展性强，由于网络采用跨模态单样本学习框架，当出现一个存在新类别的点云场景时，无需视觉样本对模型进行重新训练，仅需类别的单一文本描述作为支撑即可帮助完成推理，具有良好的迁移能力。

4、该跨模态单样本三维点云分割方法，发展前景好，本方法探索了三维视觉点云和文本语义的联合理解以完成对新概念知识的学习，为当前日益进步的机器理解、人机交互等领域研究打下基础，具有广阔的发展空间。

附图说明

图1为本发明原理图；

图2为本发明网络整体图；

图3为本发明步骤流程图；

图4为本发明实验效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，一种跨模态单样本三维点云分割方法，方法包括：首先针对目标场景中的所有类别建立类级别的单一文本描述集，然后整体采用支撑-查询两分支架构，分别使用不同的嵌入网络将支撑文本和查询点云映射到各自的特征空间中，接着应用自注意力(针对点云特征)和双重注意力(针对文本特征)完成模态内的特征交互并设计视觉-语义变换器结构(Visual-Semantic Transformer)在统一的空间中对齐模态间的特征，最后构建文本原型(Prototype)，并采用非参数化的度量方法来对点云进行逐点匹配，从而完成分割任务，此外，本方法通过迁移经典的二维图像少样本学习方法于当前设定的三维点云单样本分割框架中形成额外的基线作为评估，采用设定的情景式学习范式进行训练，跨模态单样本三维点云分割方法的具体步骤如下所示：

S4、设计视觉-语义变换器结构(Visual-Semantic Transformer)，将S3中得到的交互后逐点、单词特征及初始原型作为跨模态特征令牌(Tokens)排列并拼接位置嵌入(Position Embedding)一同输入至变换器中用于在学习到的统一空间中进行模态间特征对齐，用以消除模态间差异，得到对齐后的点云特征和文本原型；

S1中的“类级别”单一描述为一到两句英文文本，用来粗略地概括目标类别的基本通用属性(如形状、颜色、位置、用途等)，文本支撑集分为目标类描述构成的前景文本支撑集和剩余类描述构成的背景文本支撑集；S2中的文本嵌入网络使用预训练的Bert模型输出文本表示作为先验知识，在其后接入双向门控循环单元(Bi-GRU)用于网络微调，以动态学习语义空间，S2中的点云嵌入网络采用DGCNN模型中边缘卷积EdgeConv模块堆叠三层以编码全局特征，并使用多层感知机(Multi-Layer Perceptron)将多层次拼接特征映射入视觉空间，点云嵌入网络需在目标场景上的可见类上进行预训练；S3中对单词特征的双重注意力采用位置注意力(Position Attention)模块紧接自注意力模块构成，位置注意力将全连接层映射后的掩码单词特征通过Softmax后得到的概率与输入单词特征进行矩阵相乘，用于聚焦到重要的单词表示上，自注意力模块同S3中自注意力SA，定义如下式所示：

其中Q为查询向量，K为键向量，V为值向量，d为缩放系数，在点云自注意力中Q，K，V均为点特征，单词自注意力中Q，K，V均为单词特征，其将原始输入特征作为残差拼接(对于点云特征)或直接加入(对于单词特征)到最终结果，S3中的类初始原型可表示为

(背景原型为

和前景原型为

)；S4中定制设计的视觉-语义变换器使用标准化+多头注意力+多层感知机结构来处理按照规则排列输入的令牌，具体过程如下所示：

y_l＝MLP(Norm(y'_l))+y'_l, (3)

y'_l←Att(Norm(y_l-1))+y_l-1, (4)

其中G为点云中点数目，W为文本单词数目(填充至同一长度)，N为N-way 1-shot设定下的类别数目，

为查询点云嵌入特征，背景描述文本的嵌入单词特征为

前景描述文本的嵌入单词特征为

x_pos代表令牌的位置嵌入，Norm表示特征标准化，Att为多头注意力，通过L层变换后，最终得到结果y_L，其中对应位置包含对齐后的点云特征

和文本原型

S3和S4共同组成跨模态特征增强；S5中采用余弦相似度作为度量函数来对点云逐点和文本原型进行匹配输出概率，计算公式如下所示：

其中的α(.,.)表示余弦相似度，

代表点云中每一个点属于N+1个类别的概率(N个前景类和1个背景类)；S6中的预测损失函数采用交叉熵损失(Cross Entropy Loss)，整体损失函数如下式所示：

其中M表示M对查询点云，

为查询点云中逐点标签值，训练过程中损失将会被最小化用于优化整体网络参数ψ，训练中背景类标签并不反向传播类信息，此外，S6中情景式训练范式不同于经典方法从支撑样本集中随机抽取一个或多个样本以构建一个情景任务(K-Shot设置)，该方法对于一个具体的类仅包含一个单独的文本描述，即相同类在不同情景任务中使用同一个文本描述(1-Shot)作为支撑进行训练；S7中的迁移的经典度量学习方法包括孪生网络(Siamese Network)、关系网络(Relation Network)、匹配网络(MatchingNetwork)及原型网络(Prototypical Network)，此外可设计微调方法(Fine Tuning)，直接拉近预测掩码点云和对应类文本原型特征间距离，并接入分割器完成任务，其中孪生网络使用二值交叉熵损失(Binary Cross Entropy Loss)、关系网络使用均方损失(MeanSquared Loss)、匹配网络和原型网络使用交叉熵损失(Cross Entropy Loss)。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种跨模态单样本三维点云分割方法，所述方法包括：首先针对目标场景中的所有类别建立类级别的单一文本描述集，然后整体采用支撑-查询两分支架构，分别使用不同的嵌入网络将支撑文本和查询点云映射到各自的特征空间中，接着应用自注意力和双重注意力完成模态内的特征交互并设计视觉-语义变换器结构Visual-SemanticTransformer在统一的空间中对齐模态间的特征，最后构建文本原型Prototype，并采用非参数化的度量方法来对点云进行逐点匹配，从而完成分割任务，此外，本方法通过迁移经典的二维图像少样本学习方法于当前设定的三维点云单样本分割框架中形成额外的基线作为评估，采用设定的情景式学习范式进行训练，所述跨模态单样本三维点云分割方法的具体步骤如下所示：

S1、针对目标三维点云场景中出现的各个类别构建“类级别”单一描述，用以形成文本支撑集，所述“类级别”单一描述为一到两句英文文本，用来粗略地概括目标类别的基本通用属性；

S2、构建支撑-查询双分支结构Two-BranchStructure，采用文本嵌入网络将S1中的支撑文本嵌入到语义特征空间中得到单词特征，应用点云嵌入网络将目标查询点云嵌入到视觉特征空间中获取逐点特征；

S3、对于S2语义特征空间中的单词特征应用双重注意力Dual-Attention，视觉特征空间中的逐点特征使用自注意力Self-Attention以挖掘模态内特征关系，完成特征交互，从而得到交互后的逐点和单词特征，并对交互后的单词特征应用平均池化MeanPooling得到类初始原型，初始类型包括背景类和前景类；

S4、设计视觉-语义变换器结构Visual-SemanticTransformer，将S3中得到的交互后逐点、单词特征及初始原型作为跨模态特征令牌Tokens排列并拼接位置嵌入PositionEmbedding一同输入至变换器中用于在学习到的统一空间中进行模态间特征对齐，用以消除模态间差异，得到对齐后的点云特征和文本原型；

S6、构建整体预测损失函数并使用设定的情景式训练EpisodicTraining范式在可见类上对网络参数进行优化，并保存合适的模型参数用于未知类的预测测试；

2.根据权利要求1所述的一种跨模态单样本三维点云分割方法，其特征在于：所述S2中的文本嵌入网络使用预训练的Bert模型输出文本表示作为先验知识，在其后接入双向门控循环单元Bi-GRU用于网络微调，以动态学习语义空间。

3.根据权利要求1所述的一种跨模态单样本三维点云分割方法，其特征在于：所述S3中对单词特征的双重注意力采用位置注意力PositionAttention模块紧接自注意力模块构成，位置注意力将全连接层映射的掩码单词特征通过Softmax后得到的概率与输入单词特征进行矩阵相乘，用于聚焦到重要的单词表示上。

4.根据权利要求1所述的一种跨模态单样本三维点云分割方法，其特征在于：所述S4中定制设计的视觉-语义变换器使用标准化+多头注意力+多层感知机结构来处理按照规则排列输入的令牌。

5.根据权利要求1所述的一种跨模态单样本三维点云分割方法，其特征在于：所述S5中采用余弦相似度作为度量函数来对点云逐点和文本原型进行匹配输出概率。

6.根据权利要求1所述的一种跨模态单样本三维点云分割方法，其特征在于：所述S6中的预测损失函数采用交叉熵损失CrossEntropyLoss。

7.根据权利要求1所述的一种跨模态单样本三维点云分割方法，其特征在于：所述S7中的迁移的经典度量学习方法包括孪生网络SiameseNetwork、关系网络RelationNetwork、匹配网络MatchingNetwork及原型网络PrototypicalNetwork。