CN117315030A

CN117315030A - 基于渐进式点云-文本匹配的三维视觉定位方法及系统

Info

Publication number: CN117315030A
Application number: CN202311350239.7A
Authority: CN
Inventors: 雷印杰; 王紫轩; 何鸿添; 马浩统; 张启洪; 唐涛
Original assignee: Sichuan University; Institute of Optics and Electronics of CAS
Current assignee: Sichuan University; Institute of Optics and Electronics of CAS
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-12-29
Anticipated expiration: 2043-10-18
Also published as: CN117315030B

Abstract

本发明公开了一种基于渐进式点云‑文本匹配的三维视觉定位方法及系统，应用于视觉定位技术领域。本发明包括：S1、数据获取步骤：获取三维点云数据以及文本描述信息，S2、模型建立步骤：建立一个三维视觉定位模型，并对三维视觉定位模型进行训练，S3、语义化编码步骤：通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码，得到种子点和全局本文特征，S4、关键种子点产生步骤，S5、特征计算步骤，S6、模型优化步骤。本发明有效避免了引入背景噪音，从而显著提高了三维视觉定位的稳定性和鲁棒性。

Description

基于渐进式点云-文本匹配的三维视觉定位方法及系统

技术领域

本发明涉及视觉定位技术领域，更具体的说是涉及一种基于渐进式点云-文本匹配的三维视觉定位方法及系统。

背景技术

目前，主流的三维视觉定位方法均采用一种“两阶段”的范式。具体地，“两阶段”范式中第一阶段的目标是通过一个预先训练好的三维物体检测器从三维点云中提取候选目标物体的特征，同时使用一个预先训练好的语言模型对文本描述信息进行编码；第二阶段则着眼于点云-语言两种模态特征的交互融合，以从候选目标物体中唯一地选出文本信息所描述的物体。近些年来，“两阶段”范式中的第二阶段，即如何有效地融合点云-语言两种模态特征逐渐成为了计算机视觉领域中研究的重点科学问题。例如，Zhenyu-Chen等人提出的ScanRefer依次地将各候选目标物体的点云特征和语言特征直接拼接，从而把三维视觉定位转换为对候选目标物体的二分类；遗憾的是，特征直接拼接不具有交互性，导致定位效果差强人意。Dailan-He等人提出的Transrefer3d以及Lichen-Zhao等人提出的3DVG-Transformer进一步利用Transformer的注意力机制，包括自注意力机制和跨模态注意力机制，实现了点云-语言两种模态特征的交互式融合；相较于ScanRefer，Transrefer3d以及3DVG-Transformer的定位性能更加出色。除了把三维视觉定位转换为对候选目标物体的二分类之外，Zhihao-Yuan等人提出的Instancerefer以及Ahmed-Abdelreheem等人提出的3DrefTransformer把点云-语言特征交互融合以及选出文本信息所描述的物体两步看作一个整体，通过依次地计算各候选目标物体的点云特征和语言特征的余弦相似度，以将各候选目标物体的点云特征和语言特征进行匹配，从而实现三维视觉定位；Instancerefer以及3DrefTransformer的本质是一种对比学习。鉴于三维点云的稀疏性、不完整性以及纹理特征匮乏等问题，前述方法未能精准从三维点云中提取候选目标物体的语义信息；Zhengyuan-Yang等人提出的SAT以及Daigang-Cai等人提出的3DJCG采用二维图像特征进一步地辅助点云-语言两种模态特征的融合，从而将三维视觉定位的性能提升到了一个新高度。

尽管上述方法已经具备了出色的三维视觉定位能力，但依旧存在三个问题：(1)预先训练好的三维物体检测器使用目标框表示候选目标物体，但目标框的体积通常大于真实物体的体积，故而引入了额外的噪音；(2)预先训练好的三维物体检测器依靠有限数量的关键点(关键点的个数为事先指定)表示一整个三维点云场景，同时基于这些关键点生成目标框；如果关键点数量指定的较小，则容易遗漏文本信息所描述的物体；如果关键点数量指定的较大，则目标框容易出现冗余，导致候选物体之间的关联过于复杂，最终使模型难以区分出目标物体；(3)预先训练好的三维物体检测器生成目标框时仅考虑了三维点云特征，而忽略了文本特征的重要作用。

因此，提出一种基于渐进式点云-文本匹配的三维视觉定位方法及系统，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于渐进式点云-文本匹配的三维视觉定位方法及系统，有效避免了引入背景噪音，从而显著提高了三维视觉定位的稳定性和鲁棒性。

为了实现上述目的，本发明提供如下技术方案：

一种基于渐进式点云-文本匹配的三维视觉定位方法，包括以下步骤：

S1、数据获取步骤：获取三维点云数据以及文本描述信息；

S2、模型建立步骤：建立一个三维视觉定位模型，并对三维视觉定位模型进行训练；

S3、语义化编码步骤：通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码，得到种子点和全局本文特征；

S4、关键种子点产生步骤：随机初始化实例掩膜，其中各实例掩膜表示预先定义好的三维候选目标物体；通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别，从而筛选出和目标物体特征近似的一些种子点，作为关键种子点；

S5、特征计算步骤：计算各关键种子点和文本描述信息的匹配度，选择匹配度最高的关键种子点作为目标物体的锚点；接着利用锚点的高维语义化特征，通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸；

S6、模型优化步骤：向三维视觉定位模型输入训练数据，计算损失值并依据损失值优化三维视觉定位模型；对训练好的三维视觉定位模型参数作持久化处理。

可选的，步骤S3具体包括：

S3.1：给定三维点云P_cloud和种子点数量M，采用PointNet++作为视觉骨干网络从三维点云P_cloud中提取各种子点对应的空间特征P_seed；

S3.2：给定单词个数为N_w的文本描述信息，首先采用预先训练好的Word2Vec将各单词映射至高维特征空间中；接着使用BERT作为语言骨干网络进一步地提取各单词的上下文特征E＝{e_i}；最终通过注意力池化获得全局文本特征

其中AvgPool(·)和MaxPool(·)为平均池化函数和最大池化函数；Rel(·)为计算两个特征向量之间相似性的点积操作；⊙为逐元素乘法操作。

可选的，步骤S4具体包括：

S4.1：随机初始化数量为N的查询向量Q_ini，其中N的值小于M的值；

S4.2：以初始化查询向量Q_ini和种子点特征P_cloud作为Transformer-Decoder的输入，采用Transformer-Decoder中的自注意力机制明确各查询向量需检测的物体类别；接着使用Transformer-Decoder中的跨模态注意力机制交互式融合初始化查询向量和种子点特征，以得到点云-感知的查询向量：

其中SelfATT(·)为Transformer-Decoder中的自注意力机制；CrossATT(·)为Transformer-Decoder中的跨模态注意力机制；为明确需检测的物体类别后的查询向量；Q_pc为点云-感知的查询向量；

S4.3：以点云-感知的查询向量Q_pc和全局文本特征作为Transformer-Decoder的输入，使用跨模态注意力机制交互式融合点云-感知的查询向量和全局文本特征，以得到点云-语言-感知的查询向量；接着以点云-语言-感知的查询向量作为全连接层的输入，以计算各实例掩膜对应的物体在三维点云P_cloud中出现的概率：

y_{ins_obj}＝Softmax(Linear(Q_pcl))

其中Linear(·)为全连接层；Softmax(·)为softmax函数；Q_pcl为点云-语言-感知的查询向量；y_{ins_obj}为各实例掩膜对应的物体出现的概率；

S4.4：平行于步骤S4.3，将种子点特征P_cloud和点云-感知的查询向量Q_pc做矩阵乘法，以获取各种子点所属的实例掩膜类别；

S4.5：选择出现概率最大的前k₁个实例掩膜，计算各种子点属于前k₁个实例掩膜的平均概率，从而选择平均概率最大的前k₂个种子点作为关键种子点；关键种子点对应的空间特征记作P_{key_seed}。

可选的，步骤S4.3和步骤S4.4通过计算输出结果和真实标签之间的损失值，优化查询向量Q_ini。

可选的，在步骤S6中，采用L_ref、L_sem以及L_mask三种损失函数来训练三维视觉定位模型，L_ref、L_sem以及L_mask三种损失函数的平均值将作为最终的损失值。

一种基于渐进式点云-文本匹配的三维视觉定位系统，应用上述的一种基于渐进式点云-文本匹配的三维视觉定位方法，包括依次连接的数据获取模块、模型建立模块、语义化编码模块、关键种子点产生模块、特征计算模块、模型优化模块；

数据获取模块，用于获取三维点云数据以及文本描述信息；

模型建立模块，用于建立一个三维视觉定位模型，并对三维视觉定位模型进行训练；

语义化编码模块，用于通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码，得到种子点和全局本文特征；

关键种子点产生模块，用于随机初始化实例掩膜，通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别，从而筛选出和目标物体特征近似的一些种子点，作为关键种子点；

特征计算模块，用于计算各关键种子点和文本描述信息的匹配度，选择匹配度最高的关键种子点作为目标物体的锚点；接着利用锚点的高维语义化特征，通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸；

模型优化模块，用于向三维视觉定位模型输入训练数据，计算损失值并依据损失值优化三维视觉定位模型；对训练好的三维视觉定位模型参数作持久化处理。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于渐进式点云-文本匹配的三维视觉定位方法及系统，具有以下有益效果：

(1)采用所提的点云-语言感知的掩膜预测模块，以实例掩膜而非目标框的形式表示候选目标物体，有效避免了引入背景噪音，从而显著提高了三维视觉定位的稳定性和鲁棒性；

(2)使用所提的点云-语言感知的掩膜预测模块，通过判断各种子点是否属于近似目标物体的实例掩膜来选择关键种子点，即避免遗漏重要的候选目标物体，又保证候选目标物体不冗余；

(3)引入语言信息至点云-语言感知的掩膜预测模块，确保选择的关键种子点和本文信息所描述的物体之间具有强相关性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于渐进式点云-文本匹配的三维视觉定位的方法流程图；

图2为本发明提供的一种基于渐进式点云-文本匹配的三维视觉定位的具体方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，一种基于渐进式点云-文本匹配的三维视觉定位方法，包括以下步骤：

S1、数据获取步骤：获取三维点云数据以及文本描述信息；

S4、关键种子点产生步骤：随机初始化多个实例掩膜，其中各实例掩膜表示预先定义好的三维候选目标物体；通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别，从而筛选出和目标物体特征近似的一些种子点，作为关键种子点；

可选的，步骤S3具体包括：

可选的，步骤S4具体包括：

S4.1：随机初始化数量为N的查询向量Q_ini，其中N的值远远小于M的值；各查询向量的目标是检测其对应类物体的实例掩膜；

S4.3：以点云-感知的查询向量Q_pc和全局文本特征作为Transformer-Decoder的输入，仅使用跨模态注意力机制交互式融合点云-感知的查询向量和全局文本特征，以得到点云-语言-感知的查询向量；接着以点云-语言-感知的查询向量作为全连接层的输入，以计算各实例掩膜对应的物体在三维点云P_cloud中出现的概率：

y_{ins_obj}＝Softmax(Linear(Q_pcl))

S4.4：平行于步骤S4.3，将种子点特征P_cloud和点云-感知的查询向量Q_pc做矩阵乘法，以获取各种子点所属的实例掩膜类别，即各种子点所属的物体类别；

S4.5：选择出现概率最大的前k₁个实例掩膜，计算各种子点属于前k₁个实例掩膜的平均概率，从而选择平均概率最大的前k₂个种子点作为关键种子点。关键种子点对应的空间特征记作P_{key_seed}。

具体的，步骤S5为：

S5.1：以关键种子点的空间特征记作P_{key_seed}和全局文本特征作为Transformer-Decoder的输入，采用Transformer-Decoder中的自注意力机制明确各关键种子点的重要程度；接着使用Transformer-Decoder中的跨模态注意力机制交互式融合全局文本特征和关键种子点特征，以得到语言-感知的关键种子点：

其中为明确各关键种子点的重要程度后关键种子点对应的特征；P_{lan_key_seed}为语言-感知的关键种子点对应的特征。

S5.2：以语言-感知的关键种子点对应的特征P_{lan_key_seed}作为全连接层的输入，得到各关键种子点属于目标物体的概率：

y_o＝Softmax(Linear(P_{lan_key_seed}))

其中y_o为各关键种子点属于目标物体的概率。概率最高的关键种子点记作锚点。

S5.3：采用预先训练好的三维视觉定位模型基于锚点生成目标物体在三维点云中的位置以及尺寸。

可选的，在步骤S6中，采用L_ref、L_sem以及L_mask三种损失函数来训练三维视觉定位模型，L_ref、L_sem以及L_mask三种损失函数的平均值将作为最终的损失值，用以优化所提供的方法。

具体的，L_ref是一种视觉定位损失函数，以约束基于瞄点生成的目标物体的大小和尺寸。L_sem是一种基于匈牙利匹配的实例语义损失函数，以约束各实例掩膜对应的物体在三维点云种出现的概率。L_mask是基于匈牙利匹配的种子点-掩膜匹配损失函数，以约束各种子点所属的物体软类别。

数据获取模块，用于获取三维点云数据以及文本描述信息；

如图2所示，本发明提供了一种基于渐进式点云-文本匹配的三维视觉定位方法，以原始的三维点云以及文本描述信息作为输入，预测目标物体的位置以及尺寸。所提供的方法主要包括三个模块：骨干网络、点云-文本-感知的掩膜-种子点匹配网络以及实例-感知的文本-关键种子点匹配网络。骨干网络以原始的三维点云以及文本描述信息作为输入，提取其二者的高维特征，从而对原始数据实现数字化编码。点云-文本-感知的掩膜-种子点匹配网络通过实例掩膜表示候选目标物体，进而获取各实例掩膜在三维点云出现的概率以及各种子点所属实例掩膜的软类别，以筛选出和目标物体特征近似的一些种子点，作为关键种子点。实例-感知的文本-关键种子点匹配网络通过关键种子点的高维特征以及所属实例掩膜的软类别寻找与文本描述信息最匹配的关键种子点，作为目标物体的锚点。最终，采用预先训练好的检测头基于锚点生成目标物体在三维点云中的位置以及尺寸。

在实施例中，发明人使用PyTorch编程框架训练了所提供的基于渐进式点云-文本匹配的三维视觉定位方法，训练数据采用ScanRefer数据集。训练过程在配备了4张NVIDIARTX 2080Ti GPU显卡的服务器上进行。发明人通过AdamW优化器训练所提方法，学习率设置为5e-4，批次大小设置为8。种子点数量设置为1024；点云-文本-感知的掩膜-种子点匹配网络参数k1和k2分别设置为4和256，初始化查询向量数量设置为100。Transformer-Decoder中层数设置为3，特征维数设置为128。经过120000次迭代，模型最终完成训练。

发明人对比了所提供的基于渐进式点云-文本匹配的三维视觉定位方法和已发表的基于“两阶段”范式的方法，具体对比实验结果如下表1：三维视觉定位性能显著优于现有的基于“两阶段”范式的方法，在ScanRefer数据集上Acc@0.25以及Acc@0.5分别达到48.12以及36.68。

表1

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于渐进式点云-文本匹配的三维视觉定位方法，其特征在于，包括以下步骤：

S1、数据获取步骤：获取三维点云数据以及文本描述信息；

S5、特征计算步骤：计算各关键种子点和文本描述信息的匹配度，选择匹配度最高的关键种子点作为目标物体的锚点；利用锚点的高维语义化特征，通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸；

2.根据权利要求2所述的一种基于渐进式点云-文本匹配的三维视觉定位方法，其特征在于，步骤S3具体包括：

3.根据权利要求2所述的一种基于渐进式点云-文本匹配的三维视觉定位方法，其特征在于，步骤S4具体包括：

y_{ins_obj}＝Softmax(Linear(Q_pcl))

4.根据权利要求3所述的一种基于渐进式点云-文本匹配的三维视觉定位方法，其特征在于，

步骤S4.3和步骤S4.4通过计算输出结果和真实标签之间的损失值，优化查询向量Q_ini。

5.根据权利要求2所述的一种基于渐进式点云-文本匹配的三维视觉定位方法，其特征在于，

在步骤S6中，采用L_ref、L_sem以及L_mask三种损失函数来训练三维视觉定位模型，L_ref、L_sem以及L_mask三种损失函数的平均值将作为最终的损失值。

6.一种基于渐进式点云-文本匹配的三维视觉定位系统，其特征在于，应用权利要求1-5任一项所述的一种基于渐进式点云-文本匹配的三维视觉定位方法，包括依次连接的数据获取模块、模型建立模块、语义化编码模块、关键种子点产生模块、特征计算模块、模型优化模块；其中，

数据获取模块，用于获取三维点云数据以及文本描述信息；