CN117274388B

CN117274388B - 基于视觉文本关系对齐的无监督三维视觉定位方法及系统

Info

Publication number: CN117274388B
Application number: CN202311339921.6A
Authority: CN
Inventors: 雷印杰; 张宇琦; 李勇成; 刘洋; 陈晗; 王紫轩; 薛榕融
Original assignee: Sichuan University; Institute of Optics and Electronics of CAS
Current assignee: Sichuan University; Institute of Optics and Electronics of CAS
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-04-12
Anticipated expiration: 2043-10-17
Also published as: CN117274388A

Abstract

本发明公开了基于视觉文本关系对齐的无监督三维视觉定位方法及系统，涉及三维视觉定位技术领域。包括：S1.获取图像步骤；S2.获取点云特征步骤；S3.生成实例分割掩码步骤；S4.获取关系感知图像特征步骤；S5.输出目标建议点步骤；S6.获取三维视觉定位框步骤；S7.获取训练模型步骤；S8.视觉定位预测步骤。本发明利用二维图像‑文本对比预训练模型中图像与文本特征空间的对齐关系，用图像特征代替文本特征，与三维点云进行融合匹配，实现无需文本标注的任务学习；再通过显式的空间关系感知，借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系，保证模型具备对伪文本和点云中复杂空间关系的理解能力。

Description

基于视觉文本关系对齐的无监督三维视觉定位方法及系统

技术领域

本发明涉及三维视觉定位技术领域，尤其涉及一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统。

背景技术

三维点云视觉定位是指计算机根据给定文本描述，在三维空间中准确地识别和定位指定物体或特征点。在传统的二维视觉定位任务中，目标的位置和方向通常是通过在图像平面上识别和追踪特征点来确定的。然而，由于真实世界是三维的，二维定位往往无法准确地描述物体在空间中的位置和方向。因此，将这种定位技术扩展到三维空间势在必行，以便为诸如自动驾驶、机器人助手、增强现实（AR）和虚拟现实（VR）等应用提供更为准确的交互式空间定位信息。

目前，主流的三维视觉定位方法一般采用监督学习范式。具体地，该范式下的三维视觉定位利用人工标注的文本描述与点云场景中对应的边界框真值作为监督，优化模型使其具备场景语义理解能力，进而习得文本与三维边界框的映射关系，以实现三维视觉定位。例如 ScanRefer、InstanceRefer、3DJGG、3D-SPS、EDA等，这类方法在该任务上确实已展现出卓越的性能，然而，由于它们高度依赖于人工标注的文本描述和相应的三维物体锚框，这不仅会消耗大量的人力和物力，也会限制其广泛应用的可能性。因此，如何在缺乏文本描述和三维物体锚框标注的情况下，利用无监督学习训练出效果优异的三维视觉定位模型已成为亟待研究的新课题。

无监督学习作为新兴学习范式，也已逐渐进入三维视觉研究领域。近年来，部分研究人员利用预训练完成的二维多模态大模型，迁移其知识到三维模型中，有效实现无监督、弱监督点云分类、分割等任务。例如，Tianyu-Huang等人提出的CLIP2Point模型，将三维物体点云投影到二维平面，利用CLIP模型中图像与文本的对齐关系，实现无监督点云物体分类；Songyou-Pen等人提出的OpenScene通过点云与二维多视图中的逐点逐像素对齐，实现无监督点云分割。但这些研究并未涉及三维视觉-语言任务，不触及复杂文本与点云的融合。并且现有方法多采用点级别的对齐，以实现点-像素-类别的三模态对齐，并不适用于三维视觉定位这类需要点云、文本中复杂空间关系理解的下游任务。

因此，提出一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统，通过空间关系感知，借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系，保证模型具备对伪文本和点云中复杂空间关系的理解能力。

为了实现上述目的，本发明采用如下技术方案：

一种基于视觉文本关系对齐的无监督三维视觉定位方法，包括以下步骤：

S1.获取图像步骤：获取原始三维点云场景以及原始三维点云场景对应的二维多视图图像；

S2.获取点云特征步骤：将原始三维点云场景输入三维关系感知特征提取模块，得到关系感知点云特征；

S3.生成实例分割掩码步骤：将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中，生成多组实例分割掩码；

S4.获取关系感知图像特征步骤：将实例分割掩码和原始二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中，得到关系感知图像特征；

S5.输出目标建议点步骤：对关系感知图像特征进行加噪处理，以加噪后的关系感知图像特征作为伪文本特征，伪文本特征与关系感知点云特征进行渐进式特征融合与匹配，输出目标建议点；

S6.获取三维视觉定位框步骤：利用目标建议点解码出与伪文本特征匹配的三维视觉定位框；

S7.获取训练模型步骤：通过三维视觉定位框进行损失值计算，并依据损失值训练网络，得到训练模型；

S8.视觉定位预测步骤：保存训练模型，通过训练模型得到应用于任何点云场景的三维视觉定位预测。

可选的，S2中三维关系感知特征提取模块包括点云特征提取骨干网络和自注意力变换编码器。

可选的，S3中图像分割掩码生成器为完成预训练的2D开放世界分割模型。

可选的，S5中对关系感知图像特征进行加噪处理，以加噪后的关系感知图像特征作为伪文本特征的具体内容为：

关系感知图像特征添加高斯白噪声后作为伪文本特征/>，如下式所示：

其中，为符合(0,I)分布的高斯白噪声，/>为控制噪声强度的超参数，/>为/>正则化。

可选的，S7中采用如下公式对损失值进行计算：

其中，为计算预测的定位框与由二维实例分割掩码生成的三维定位框伪标签的检测效果，/>为二元分类损失，/>与/>为用于平衡不同的损失项的超参数。

一种基于视觉文本关系对齐的无监督三维视觉定位系统，应用上述任一项的一种基于视觉文本关系对齐的无监督三维视觉定位方法，包括：获取图像模块、获取点云特征模块、生成实例分割掩码模块、获取关系感知图像特征模块、输出目标建议点模块、获取三维视觉定位框模块、获取训练模型模块、视觉定位预测模块；

获取图像模块，与获取点云特征模块的输入端连接，用于获取原始三维点云场景和原始三维点云场景对应的二维多视图图像；

获取点云特征模块，与生成实例分割掩码模块的输入端连接，用于将原始三维点云场景输入三维关系感知特征提取模块，得到关系感知点云特征；

生成实例分割掩码模块，与获取关系感知图像特征模块的输入端连接，用于将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中，生成多组实例分割掩码；

获取关系感知图像特征模块，与输出目标建议点模块的输入端连接，用于将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中，得到关系感知图像特征；

输出目标建议点模块，与获取三维视觉定位框模块的输入端连接，用于对关系感知图像特征进行加噪处理，以加噪后的关系感知图像特征作为伪文本特征，伪文本特征与关系感知点云特征进行渐进式特征融合与匹配，输出目标建议点；

获取三维视觉定位框模块，与获取训练模型模块的输入端连接，用于利用目标建议点解码出与伪文本特征匹配的三维视觉定位框；

获取训练模型模块，与视觉定位预测模块的输入端连接，用于通过三维视觉定位框进行损失值计算，并依据损失值训练网络，得到训练模型；

视觉定位预测模块，用于保存训练模型，通过训练模型得到应用于任何点云场景的三维视觉定位预测。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统，具有以下有益效果：

（1）训练阶段无需文本描述和三维锚框标注，节省大量人力物力。

（2）在推理阶段，利用图像-文本特征空间的对齐关系，可直接输入文本描述实现自动驾驶、机器人助手中的交互式三维定位，使用灵活方便。

（3）利用二维大模型中已具备的空间关系感知能力引导三维点云空间关系建模，精度高且通用性好，在无监督训练范式下，性能显著优于已发表的其他方法，在ScanNet数据集上Acc@0.25以及Acc@0.5分别达到28.30以及20.66。

（4）利用二维图像-文本对比预训练模型中图像与文本特征空间的对齐关系，用图像特征代替文本特征，与三维点云进行融合匹配，实现无需文本标注的任务学习；再通过显式的空间关系感知，借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系，保证模型具备对伪文本和点云中复杂空间关系的理解能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于视觉文本关系对齐的无监督三维视觉定位方法流程图；

图2为本发明提供的训练网络结构示意图；

图3为本发明提供的一种基于视觉文本关系对齐的无监督三维视觉定位系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1和图2所示，本发明公开了一种基于视觉文本关系对齐的无监督三维视觉定位方法，包括以下步骤：

S4.获取关系感知图像特征步骤：将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中，得到关系感知图像特征；

进一步的，S2中三维关系感知特征提取模块包括点云特征提取骨干网络和自注意力变换编码器。

具体的，三维关系感知特征提取模块采用点云特征提取骨干网络和自注意力变换编码器（Transformer）来构建，得到一定数量的点云种子特征，如下式所示：点云种子点特征/>，类别特征/>，其中，/>为点云特征提取骨干网络，/>为自注意力变换编码器（Transformer）；得到点云种子特征后，进一步通过场景图向点云种子点注入空间关系信息，获得关系感知点云特征。

进一步的，S3中图像分割掩码生成器为完成预训练的2D开放世界分割模型。

具体的，图像分割掩码生成器为完成预训练的2D开放世界分割模型，以获取一组高精度的类别无关实例分割掩码。

具体的，S4中将实例分割掩码与原图像/>一同送入基于语言-图像对比预训练模型的空间关系特征提取模块中，分别提取能指代定位主体的局部特征/>和建模空间关系的全局特征/>。

局部特征和所掩物体类别特征/>可由分割出的实例像素编码而获得：

其中，为语言-图像对比预训练模型中的图像编码器，/>表示裁剪操作，/>为点乘操作。

全局特征可由语言-图像对比预训练模型图像编码器变体得到，具体如下式所示：

其中，为基于自注意力变换编码器的语言-图像对比预训练模型图像编码器的前k层，/>为编码器中除/>以外的其他层。

在此基础上，将和/>按比例叠加后，作为关系感知图像特征/>。

进一步的，S5中对关系感知图像特征进行加噪处理，以加噪后的关系感知图像特征作为伪文本特征的具体内容为：

具体的，S5中输出目标建议点的具体内容为：首先通过计算所掩物体类别特征与点云类别特征/>相似度，对点云种子进行初步筛选，选出与伪文本匹配的k个点云物体建议点，过程如下式所示：

其中，代表选出所掩物体类别特征/>与点云类别特征/>欧式距离最近的/>个点这一操作。

然后，进一步将伪文本特征与点云建议点特征/>进行交叉注意力（crossattention）操作，得到各点云建议点的文本注意力图，并将文本注意力图送入平均池化层，获得各点云建议点与文本的注意力程度，再由此选择最匹配的/>个点云建议点：

重复上述交叉注意力操作，渐进式筛选出个建议点。

进一步的，S7中采用如下公式对损失值进行计算：

具体的，S8中保存训练模型后，在推理阶段，借助二维多模态大模型的特征空间对齐能力，可直接输入真实文本，经由二维多模态大模型文本编码器后，替代训练阶段的伪文本特征，完成交互式三维点云视觉定位。

在一具体应用中，基于PyTorch框架，在配备4张 NVIDIA RTX 3090Ti GPU显卡的服务器上训练所提供的基于视觉文本关系对齐的无监督三维视觉定位方法。训练过程中，采用 AdamW 优化器进行模型端到端学习，训练批处理的点云场景数量为16，训练周期为32。噪声权重设置为0.4，点云物体建议点个数k=512，渐进式筛选过程中点云建议点个数，损失权重经验性地设置为/>=0.1，/>=2。

对比所提供的基于视觉文本关系对齐的无监督三维视觉定位方法和已发表方法为基线实现的同设定下的无监督定位方法，以及部分已发表的监督学习方法。具体实验结果如下：

表1. 对比实验结果

不难看出，本发明的实验结果在ScanNet数据集（ScanNet数据集是三维点云视觉定位任务公用的数据集）上Acc@0.25以及Acc@0.5分别达到28.30以及20.66，在无监督训练范式下，性能显著优于已发表的其他方法。

与图1所述的方法相对应，本发明实施例还提供了一种基于视觉文本关系对齐的无监督三维视觉定位系统，用于对图1中方法的具体实现，其结构示意图如图3所示，具体包括：

获取图像模块、获取点云特征模块、生成实例分割掩码模块、获取关系感知图像特征模块、输出目标建议点模块、获取三维视觉定位框模块、获取训练模型模块、视觉定位预测模块；

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于视觉文本关系对齐的无监督三维视觉定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法，其特征在于，

S2中三维关系感知特征提取模块包括点云特征提取骨干网络和自注意力变换编码器。

3.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法，其特征在于，

S3中图像分割掩码生成器为完成预训练的2D开放世界分割模型。

4.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法，其特征在于，

S5中对关系感知图像特征进行加噪处理，以加噪后的关系感知图像特征作为伪文本特征的具体内容为：

5.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法，其特征在于，

S7中采用如下公式对损失值进行计算：

6.一种基于视觉文本关系对齐的无监督三维视觉定位系统，其特征在于，包括：获取图像模块、获取点云特征模块、生成实例分割掩码模块、获取关系感知图像特征模块、输出目标建议点模块、获取三维视觉定位框模块、获取训练模型模块、视觉定位预测模块；

获取关系感知图像特征模块，与输出目标建议点模块的输入端连接，用于将实例分割掩码和原始二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中，得到关系感知图像特征；