CN117274388B - 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 - Google Patents
基于视觉文本关系对齐的无监督三维视觉定位方法及系统 Download PDFInfo
- Publication number
- CN117274388B CN117274388B CN202311339921.6A CN202311339921A CN117274388B CN 117274388 B CN117274388 B CN 117274388B CN 202311339921 A CN202311339921 A CN 202311339921A CN 117274388 B CN117274388 B CN 117274388B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- point cloud
- relation
- image
- visual positioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 38
- 230000008447 perception Effects 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 21
- 238000003709 image segmentation Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000000750 progressive effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于视觉文本关系对齐的无监督三维视觉定位方法及系统,涉及三维视觉定位技术领域。包括:S1.获取图像步骤;S2.获取点云特征步骤;S3.生成实例分割掩码步骤;S4.获取关系感知图像特征步骤;S5.输出目标建议点步骤;S6.获取三维视觉定位框步骤;S7.获取训练模型步骤;S8.视觉定位预测步骤。本发明利用二维图像‑文本对比预训练模型中图像与文本特征空间的对齐关系,用图像特征代替文本特征,与三维点云进行融合匹配,实现无需文本标注的任务学习;再通过显式的空间关系感知,借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系,保证模型具备对伪文本和点云中复杂空间关系的理解能力。
Description
技术领域
本发明涉及三维视觉定位技术领域,尤其涉及一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统。
背景技术
三维点云视觉定位是指计算机根据给定文本描述,在三维空间中准确地识别和定位指定物体或特征点。在传统的二维视觉定位任务中,目标的位置和方向通常是通过在图像平面上识别和追踪特征点来确定的。然而,由于真实世界是三维的,二维定位往往无法准确地描述物体在空间中的位置和方向。因此,将这种定位技术扩展到三维空间势在必行,以便为诸如自动驾驶、机器人助手、增强现实(AR)和虚拟现实(VR)等应用提供更为准确的交互式空间定位信息。
目前,主流的三维视觉定位方法一般采用监督学习范式。具体地,该范式下的三维视觉定位利用人工标注的文本描述与点云场景中对应的边界框真值作为监督,优化模型使其具备场景语义理解能力,进而习得文本与三维边界框的映射关系,以实现三维视觉定位。例如 ScanRefer、InstanceRefer、3DJGG、3D-SPS、EDA等,这类方法在该任务上确实已展现出卓越的性能,然而,由于它们高度依赖于人工标注的文本描述和相应的三维物体锚框,这不仅会消耗大量的人力和物力,也会限制其广泛应用的可能性。因此,如何在缺乏文本描述和三维物体锚框标注的情况下,利用无监督学习训练出效果优异的三维视觉定位模型已成为亟待研究的新课题。
无监督学习作为新兴学习范式,也已逐渐进入三维视觉研究领域。近年来,部分研究人员利用预训练完成的二维多模态大模型,迁移其知识到三维模型中,有效实现无监督、弱监督点云分类、分割等任务。例如,Tianyu-Huang等人提出的CLIP2Point模型,将三维物体点云投影到二维平面,利用CLIP模型中图像与文本的对齐关系,实现无监督点云物体分类;Songyou-Pen等人提出的OpenScene通过点云与二维多视图中的逐点逐像素对齐,实现无监督点云分割。但这些研究并未涉及三维视觉-语言任务,不触及复杂文本与点云的融合。并且现有方法多采用点级别的对齐,以实现点-像素-类别的三模态对齐,并不适用于三维视觉定位这类需要点云、文本中复杂空间关系理解的下游任务。
因此,提出一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统,通过空间关系感知,借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系,保证模型具备对伪文本和点云中复杂空间关系的理解能力。
为了实现上述目的,本发明采用如下技术方案:
一种基于视觉文本关系对齐的无监督三维视觉定位方法,包括以下步骤:
S1.获取图像步骤:获取原始三维点云场景以及原始三维点云场景对应的二维多视图图像;
S2.获取点云特征步骤:将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;
S3.生成实例分割掩码步骤:将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;
S4.获取关系感知图像特征步骤:将实例分割掩码和原始二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;
S5.输出目标建议点步骤:对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;
S6.获取三维视觉定位框步骤:利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;
S7.获取训练模型步骤:通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;
S8.视觉定位预测步骤:保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。
可选的,S2中三维关系感知特征提取模块包括点云特征提取骨干网络和自注意力变换编码器。
可选的,S3中图像分割掩码生成器为完成预训练的2D开放世界分割模型。
可选的,S5中对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征的具体内容为:
关系感知图像特征添加高斯白噪声后作为伪文本特征/>,如下式所示:
其中,为符合(0,I)分布的高斯白噪声,/>为控制噪声强度的超参数,/>为/>正则化。
可选的,S7中采用如下公式对损失值进行计算:
其中,为计算预测的定位框与由二维实例分割掩码生成的三维定位框伪标签的检测效果,/>为二元分类损失,/>与/>为用于平衡不同的损失项的超参数。
一种基于视觉文本关系对齐的无监督三维视觉定位系统,应用上述任一项的一种基于视觉文本关系对齐的无监督三维视觉定位方法,包括:获取图像模块、获取点云特征模块、生成实例分割掩码模块、获取关系感知图像特征模块、输出目标建议点模块、获取三维视觉定位框模块、获取训练模型模块、视觉定位预测模块;
获取图像模块,与获取点云特征模块的输入端连接,用于获取原始三维点云场景和原始三维点云场景对应的二维多视图图像;
获取点云特征模块,与生成实例分割掩码模块的输入端连接,用于将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;
生成实例分割掩码模块,与获取关系感知图像特征模块的输入端连接,用于将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;
获取关系感知图像特征模块,与输出目标建议点模块的输入端连接,用于将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;
输出目标建议点模块,与获取三维视觉定位框模块的输入端连接,用于对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;
获取三维视觉定位框模块,与获取训练模型模块的输入端连接,用于利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;
获取训练模型模块,与视觉定位预测模块的输入端连接,用于通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;
视觉定位预测模块,用于保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于视觉文本关系对齐的无监督三维视觉定位方法及系统,具有以下有益效果:
(1)训练阶段无需文本描述和三维锚框标注,节省大量人力物力。
(2)在推理阶段,利用图像-文本特征空间的对齐关系,可直接输入文本描述实现自动驾驶、机器人助手中的交互式三维定位,使用灵活方便。
(3)利用二维大模型中已具备的空间关系感知能力引导三维点云空间关系建模,精度高且通用性好,在无监督训练范式下,性能显著优于已发表的其他方法,在ScanNet数据集上Acc@0.25以及Acc@0.5分别达到28.30以及20.66。
(4)利用二维图像-文本对比预训练模型中图像与文本特征空间的对齐关系,用图像特征代替文本特征,与三维点云进行融合匹配,实现无需文本标注的任务学习;再通过显式的空间关系感知,借助二维空间关系感知和三维场景图建模伪文本特征与点云中复杂空间关系,保证模型具备对伪文本和点云中复杂空间关系的理解能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于视觉文本关系对齐的无监督三维视觉定位方法流程图;
图2为本发明提供的训练网络结构示意图;
图3为本发明提供的一种基于视觉文本关系对齐的无监督三维视觉定位系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1和图2所示,本发明公开了一种基于视觉文本关系对齐的无监督三维视觉定位方法,包括以下步骤:
S1.获取图像步骤:获取原始三维点云场景以及原始三维点云场景对应的二维多视图图像;
S2.获取点云特征步骤:将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;
S3.生成实例分割掩码步骤:将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;
S4.获取关系感知图像特征步骤:将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;
S5.输出目标建议点步骤:对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;
S6.获取三维视觉定位框步骤:利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;
S7.获取训练模型步骤:通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;
S8.视觉定位预测步骤:保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。
进一步的,S2中三维关系感知特征提取模块包括点云特征提取骨干网络和自注意力变换编码器。
具体的,三维关系感知特征提取模块采用点云特征提取骨干网络和自注意力变换编码器(Transformer)来构建,得到一定数量的点云种子特征,如下式所示:点云种子点特征/>,类别特征/>,其中,/>为点云特征提取骨干网络,/>为自注意力变换编码器(Transformer);得到点云种子特征后,进一步通过场景图向点云种子点注入空间关系信息,获得关系感知点云特征。
进一步的,S3中图像分割掩码生成器为完成预训练的2D开放世界分割模型。
具体的,图像分割掩码生成器为完成预训练的2D开放世界分割模型,以获取一组高精度的类别无关实例分割掩码。
具体的,S4中将实例分割掩码与原图像/>一同送入基于语言-图像对比预训练模型的空间关系特征提取模块中,分别提取能指代定位主体的局部特征/>和建模空间关系的全局特征/>。
局部特征和所掩物体类别特征/>可由分割出的实例像素编码而获得:
其中,为语言-图像对比预训练模型中的图像编码器,/>表示裁剪操作,/>为点乘操作。
全局特征可由语言-图像对比预训练模型图像编码器变体得到,具体如下式所示:
其中,为基于自注意力变换编码器的语言-图像对比预训练模型图像编码器的前k层,/>为编码器中除/>以外的其他层。
在此基础上,将和/>按比例叠加后,作为关系感知图像特征/>。
进一步的,S5中对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征的具体内容为:
关系感知图像特征添加高斯白噪声后作为伪文本特征/>,如下式所示:
其中,为符合(0,I)分布的高斯白噪声,/>为控制噪声强度的超参数,/>为/>正则化。
具体的,S5中输出目标建议点的具体内容为:首先通过计算所掩物体类别特征与点云类别特征/>相似度,对点云种子进行初步筛选,选出与伪文本匹配的k个点云物体建议点,过程如下式所示:
其中,代表选出所掩物体类别特征/>与点云类别特征/>欧式距离最近的/>个点这一操作。
然后,进一步将伪文本特征与点云建议点特征/>进行交叉注意力(crossattention)操作,得到各点云建议点的文本注意力图,并将文本注意力图送入平均池化层,获得各点云建议点与文本的注意力程度,再由此选择最匹配的/>个点云建议点:
重复上述交叉注意力操作,渐进式筛选出个建议点。
进一步的,S7中采用如下公式对损失值进行计算:
其中,为计算预测的定位框与由二维实例分割掩码生成的三维定位框伪标签的检测效果,/>为二元分类损失,/>与/>为用于平衡不同的损失项的超参数。
具体的,S8中保存训练模型后,在推理阶段,借助二维多模态大模型的特征空间对齐能力,可直接输入真实文本,经由二维多模态大模型文本编码器后,替代训练阶段的伪文本特征,完成交互式三维点云视觉定位。
在一具体应用中,基于PyTorch框架,在配备4张 NVIDIA RTX 3090Ti GPU显卡的服务器上训练所提供的基于视觉文本关系对齐的无监督三维视觉定位方法。训练过程中,采用 AdamW 优化器进行模型端到端学习,训练批处理的点云场景数量为16,训练周期为32。噪声权重设置为0.4,点云物体建议点个数k=512,渐进式筛选过程中点云建议点个数,损失权重经验性地设置为/>=0.1,/>=2。
对比所提供的基于视觉文本关系对齐的无监督三维视觉定位方法和已发表方法为基线实现的同设定下的无监督定位方法,以及部分已发表的监督学习方法。具体实验结果如下:
表1. 对比实验结果
不难看出,本发明的实验结果在ScanNet数据集(ScanNet数据集是三维点云视觉定位任务公用的数据集)上Acc@0.25以及Acc@0.5分别达到28.30以及20.66,在无监督训练范式下,性能显著优于已发表的其他方法。
与图1所述的方法相对应,本发明实施例还提供了一种基于视觉文本关系对齐的无监督三维视觉定位系统,用于对图1中方法的具体实现,其结构示意图如图3所示,具体包括:
获取图像模块、获取点云特征模块、生成实例分割掩码模块、获取关系感知图像特征模块、输出目标建议点模块、获取三维视觉定位框模块、获取训练模型模块、视觉定位预测模块;
获取图像模块,与获取点云特征模块的输入端连接,用于获取原始三维点云场景和原始三维点云场景对应的二维多视图图像;
获取点云特征模块,与生成实例分割掩码模块的输入端连接,用于将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;
生成实例分割掩码模块,与获取关系感知图像特征模块的输入端连接,用于将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;
获取关系感知图像特征模块,与输出目标建议点模块的输入端连接,用于将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;
输出目标建议点模块,与获取三维视觉定位框模块的输入端连接,用于对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;
获取三维视觉定位框模块,与获取训练模型模块的输入端连接,用于利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;
获取训练模型模块,与视觉定位预测模块的输入端连接,用于通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;
视觉定位预测模块,用于保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于视觉文本关系对齐的无监督三维视觉定位方法,其特征在于,包括以下步骤:
S1.获取图像步骤:获取原始三维点云场景以及原始三维点云场景对应的二维多视图图像;
S2.获取点云特征步骤:将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;
S3.生成实例分割掩码步骤:将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;
S4.获取关系感知图像特征步骤:将实例分割掩码和二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;
S5.输出目标建议点步骤:对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;
S6.获取三维视觉定位框步骤:利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;
S7.获取训练模型步骤:通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;
S8.视觉定位预测步骤:保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。
2.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法,其特征在于,
S2中三维关系感知特征提取模块包括点云特征提取骨干网络和自注意力变换编码器。
3.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法,其特征在于,
S3中图像分割掩码生成器为完成预训练的2D开放世界分割模型。
4.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法,其特征在于,
S5中对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征的具体内容为:
关系感知图像特征添加高斯白噪声后作为伪文本特征/>,如下式所示:
其中,为符合(0,I)分布的高斯白噪声,/>为控制噪声强度的超参数,/>为/>正则化。
5.根据权利要求1所述的一种基于视觉文本关系对齐的无监督三维视觉定位方法,其特征在于,
S7中采用如下公式对损失值进行计算:
其中,为计算预测的定位框与由二维实例分割掩码生成的三维定位框伪标签的检测效果,/>为二元分类损失,/>与/>为用于平衡不同的损失项的超参数。
6.一种基于视觉文本关系对齐的无监督三维视觉定位系统,其特征在于,包括:获取图像模块、获取点云特征模块、生成实例分割掩码模块、获取关系感知图像特征模块、输出目标建议点模块、获取三维视觉定位框模块、获取训练模型模块、视觉定位预测模块;
获取图像模块,与获取点云特征模块的输入端连接,用于获取原始三维点云场景和原始三维点云场景对应的二维多视图图像;
获取点云特征模块,与生成实例分割掩码模块的输入端连接,用于将原始三维点云场景输入三维关系感知特征提取模块,得到关系感知点云特征;
生成实例分割掩码模块,与获取关系感知图像特征模块的输入端连接,用于将原始三维点云场景对应的二维多视图图像依次输入图像分割掩码生成器中,生成多组实例分割掩码;
获取关系感知图像特征模块,与输出目标建议点模块的输入端连接,用于将实例分割掩码和原始二维多视图图像输入基于语言-图像对比预训练模型的空间关系特征提取模块中,得到关系感知图像特征;
输出目标建议点模块,与获取三维视觉定位框模块的输入端连接,用于对关系感知图像特征进行加噪处理,以加噪后的关系感知图像特征作为伪文本特征,伪文本特征与关系感知点云特征进行渐进式特征融合与匹配,输出目标建议点;
获取三维视觉定位框模块,与获取训练模型模块的输入端连接,用于利用目标建议点解码出与伪文本特征匹配的三维视觉定位框;
获取训练模型模块,与视觉定位预测模块的输入端连接,用于通过三维视觉定位框进行损失值计算,并依据损失值训练网络,得到训练模型;
视觉定位预测模块,用于保存训练模型,通过训练模型得到应用于任何点云场景的三维视觉定位预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311339921.6A CN117274388B (zh) | 2023-10-17 | 2023-10-17 | 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311339921.6A CN117274388B (zh) | 2023-10-17 | 2023-10-17 | 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274388A CN117274388A (zh) | 2023-12-22 |
CN117274388B true CN117274388B (zh) | 2024-04-12 |
Family
ID=89206087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311339921.6A Active CN117274388B (zh) | 2023-10-17 | 2023-10-17 | 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274388B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830601B (zh) * | 2024-03-04 | 2024-05-24 | 深圳大学 | 一种基于弱监督的三维视觉定位方法、装置、设备及介质 |
CN117953224B (zh) * | 2024-03-27 | 2024-07-05 | 暗物智能科技(广州)有限公司 | 一种开放词汇3d全景分割方法及系统 |
CN118606900B (zh) * | 2024-08-08 | 2024-10-11 | 中国民用航空飞行学院 | 基于双模态交互的开放词汇三维场景理解方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996513A (zh) * | 2022-05-11 | 2022-09-02 | 湖南大学 | 基于跨模态提示学习的视频问答方法与系统 |
KR20230016127A (ko) * | 2021-07-23 | 2023-02-01 | 서울대학교산학협력단 | 자율주행을 위한 실시간 3차원 공간 데이터 업샘플링 시스템 및 장치 |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
-
2023
- 2023-10-17 CN CN202311339921.6A patent/CN117274388B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230016127A (ko) * | 2021-07-23 | 2023-02-01 | 서울대학교산학협력단 | 자율주행을 위한 실시간 3차원 공간 데이터 업샘플링 시스템 및 장치 |
CN114996513A (zh) * | 2022-05-11 | 2022-09-02 | 湖南大学 | 基于跨模态提示学习的视频问答方法与系统 |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117274388A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | Weakly supervised 3d object detection from lidar point cloud | |
CN117274388B (zh) | 基于视觉文本关系对齐的无监督三维视觉定位方法及系统 | |
Rahman et al. | Notice of violation of IEEE publication principles: Recent advances in 3D object detection in the era of deep neural networks: A survey | |
Zhang et al. | Deep learning-based 3D point cloud classification: A systematic survey and outlook | |
CN103729885B (zh) | 多视角投影与三维注册联合的手绘场景三维建模方法 | |
CN112287820A (zh) | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 | |
CN110490915B (zh) | 一种基于卷积受限玻尔兹曼机的点云配准方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN101996245A (zh) | 一种图形对象的形状特征描述与检索方法 | |
CN115147599A (zh) | 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法 | |
Cui et al. | Dense depth-map estimation based on fusion of event camera and sparse LiDAR | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN117953224B (zh) | 一种开放词汇3d全景分割方法及系统 | |
CN113223037B (zh) | 一种面向大规模数据的无监督语义分割方法及系统 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN118351410A (zh) | 一种基于稀疏代理注意力的多模态三维检测方法 | |
Sun et al. | A Metaverse text recognition model based on character-level contrastive learning | |
Wang et al. | Viewpoint estimation for objects with convolutional neural network trained on synthetic images | |
CN113487741B (zh) | 稠密三维地图更新方法及装置 | |
Tian | Analysis of Chinese Painting Color Teaching Based on Intelligent Image Color Processing Technology in the Network as a Green Environment | |
Pu et al. | An automatic method for tree species point cloud segmentation based on deep learning | |
Xu et al. | Arshape-net: Single-view image oriented 3d shape reconstruction with an adversarial refiner | |
Guan et al. | Synthetic region screening and adaptive feature fusion for constructing a flexible object detection database | |
Wang et al. | Facilitating 3D object tracking in point clouds with image semantics and geometry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |