CN117315030A - 基于渐进式点云-文本匹配的三维视觉定位方法及系统 - Google Patents
基于渐进式点云-文本匹配的三维视觉定位方法及系统 Download PDFInfo
- Publication number
- CN117315030A CN117315030A CN202311350239.7A CN202311350239A CN117315030A CN 117315030 A CN117315030 A CN 117315030A CN 202311350239 A CN202311350239 A CN 202311350239A CN 117315030 A CN117315030 A CN 117315030A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- dimensional
- visual positioning
- point
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000000750 progressive effect Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 49
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 7
- 230000002688 persistence Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于渐进式点云‑文本匹配的三维视觉定位方法及系统,应用于视觉定位技术领域。本发明包括:S1、数据获取步骤:获取三维点云数据以及文本描述信息,S2、模型建立步骤:建立一个三维视觉定位模型,并对三维视觉定位模型进行训练,S3、语义化编码步骤:通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征,S4、关键种子点产生步骤,S5、特征计算步骤,S6、模型优化步骤。本发明有效避免了引入背景噪音,从而显著提高了三维视觉定位的稳定性和鲁棒性。
Description
技术领域
本发明涉及视觉定位技术领域,更具体的说是涉及一种基于渐进式点云-文本匹配的三维视觉定位方法及系统。
背景技术
目前,主流的三维视觉定位方法均采用一种“两阶段”的范式。具体地,“两阶段”范式中第一阶段的目标是通过一个预先训练好的三维物体检测器从三维点云中提取候选目标物体的特征,同时使用一个预先训练好的语言模型对文本描述信息进行编码;第二阶段则着眼于点云-语言两种模态特征的交互融合,以从候选目标物体中唯一地选出文本信息所描述的物体。近些年来,“两阶段”范式中的第二阶段,即如何有效地融合点云-语言两种模态特征逐渐成为了计算机视觉领域中研究的重点科学问题。例如,Zhenyu-Chen等人提出的ScanRefer依次地将各候选目标物体的点云特征和语言特征直接拼接,从而把三维视觉定位转换为对候选目标物体的二分类;遗憾的是,特征直接拼接不具有交互性,导致定位效果差强人意。Dailan-He等人提出的Transrefer3d以及Lichen-Zhao等人提出的3DVG-Transformer进一步利用Transformer的注意力机制,包括自注意力机制和跨模态注意力机制,实现了点云-语言两种模态特征的交互式融合;相较于ScanRefer,Transrefer3d以及3DVG-Transformer的定位性能更加出色。除了把三维视觉定位转换为对候选目标物体的二分类之外,Zhihao-Yuan等人提出的Instancerefer以及Ahmed-Abdelreheem等人提出的3DrefTransformer把点云-语言特征交互融合以及选出文本信息所描述的物体两步看作一个整体,通过依次地计算各候选目标物体的点云特征和语言特征的余弦相似度,以将各候选目标物体的点云特征和语言特征进行匹配,从而实现三维视觉定位;Instancerefer以及3DrefTransformer的本质是一种对比学习。鉴于三维点云的稀疏性、不完整性以及纹理特征匮乏等问题,前述方法未能精准从三维点云中提取候选目标物体的语义信息;Zhengyuan-Yang等人提出的SAT以及Daigang-Cai等人提出的3DJCG采用二维图像特征进一步地辅助点云-语言两种模态特征的融合,从而将三维视觉定位的性能提升到了一个新高度。
尽管上述方法已经具备了出色的三维视觉定位能力,但依旧存在三个问题:(1)预先训练好的三维物体检测器使用目标框表示候选目标物体,但目标框的体积通常大于真实物体的体积,故而引入了额外的噪音;(2)预先训练好的三维物体检测器依靠有限数量的关键点(关键点的个数为事先指定)表示一整个三维点云场景,同时基于这些关键点生成目标框;如果关键点数量指定的较小,则容易遗漏文本信息所描述的物体;如果关键点数量指定的较大,则目标框容易出现冗余,导致候选物体之间的关联过于复杂,最终使模型难以区分出目标物体;(3)预先训练好的三维物体检测器生成目标框时仅考虑了三维点云特征,而忽略了文本特征的重要作用。
因此,提出一种基于渐进式点云-文本匹配的三维视觉定位方法及系统,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于渐进式点云-文本匹配的三维视觉定位方法及系统,有效避免了引入背景噪音,从而显著提高了三维视觉定位的稳定性和鲁棒性。
为了实现上述目的,本发明提供如下技术方案:
一种基于渐进式点云-文本匹配的三维视觉定位方法,包括以下步骤:
S1、数据获取步骤:获取三维点云数据以及文本描述信息;
S2、模型建立步骤:建立一个三维视觉定位模型,并对三维视觉定位模型进行训练;
S3、语义化编码步骤:通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征;
S4、关键种子点产生步骤:随机初始化实例掩膜,其中各实例掩膜表示预先定义好的三维候选目标物体;通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别,从而筛选出和目标物体特征近似的一些种子点,作为关键种子点;
S5、特征计算步骤:计算各关键种子点和文本描述信息的匹配度,选择匹配度最高的关键种子点作为目标物体的锚点;接着利用锚点的高维语义化特征,通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸;
S6、模型优化步骤:向三维视觉定位模型输入训练数据,计算损失值并依据损失值优化三维视觉定位模型;对训练好的三维视觉定位模型参数作持久化处理。
可选的,步骤S3具体包括:
S3.1:给定三维点云Pcloud和种子点数量M,采用PointNet++作为视觉骨干网络从三维点云Pcloud中提取各种子点对应的空间特征Pseed;
S3.2:给定单词个数为Nw的文本描述信息,首先采用预先训练好的Word2Vec将各单词映射至高维特征空间中;接着使用BERT作为语言骨干网络进一步地提取各单词的上下文特征E={ei};最终通过注意力池化获得全局文本特征
其中AvgPool(·)和MaxPool(·)为平均池化函数和最大池化函数;Rel(·)为计算两个特征向量之间相似性的点积操作;⊙为逐元素乘法操作。
可选的,步骤S4具体包括:
S4.1:随机初始化数量为N的查询向量Qini,其中N的值小于M的值;
S4.2:以初始化查询向量Qini和种子点特征Pcloud作为Transformer-Decoder的输入,采用Transformer-Decoder中的自注意力机制明确各查询向量需检测的物体类别;接着使用Transformer-Decoder中的跨模态注意力机制交互式融合初始化查询向量和种子点特征,以得到点云-感知的查询向量:
其中SelfATT(·)为Transformer-Decoder中的自注意力机制;CrossATT(·)为Transformer-Decoder中的跨模态注意力机制;为明确需检测的物体类别后的查询向量;Qpc为点云-感知的查询向量;
S4.3:以点云-感知的查询向量Qpc和全局文本特征作为Transformer-Decoder的输入,使用跨模态注意力机制交互式融合点云-感知的查询向量和全局文本特征,以得到点云-语言-感知的查询向量;接着以点云-语言-感知的查询向量作为全连接层的输入,以计算各实例掩膜对应的物体在三维点云Pcloud中出现的概率:
yins_obj=Softmax(Linear(Qpcl))
其中Linear(·)为全连接层;Softmax(·)为softmax函数;Qpcl为点云-语言-感知的查询向量;yins_obj为各实例掩膜对应的物体出现的概率;
S4.4:平行于步骤S4.3,将种子点特征Pcloud和点云-感知的查询向量Qpc做矩阵乘法,以获取各种子点所属的实例掩膜类别;
S4.5:选择出现概率最大的前k1个实例掩膜,计算各种子点属于前k1个实例掩膜的平均概率,从而选择平均概率最大的前k2个种子点作为关键种子点;关键种子点对应的空间特征记作Pkey_seed。
可选的,步骤S4.3和步骤S4.4通过计算输出结果和真实标签之间的损失值,优化查询向量Qini。
可选的,在步骤S6中,采用Lref、Lsem以及Lmask三种损失函数来训练三维视觉定位模型,Lref、Lsem以及Lmask三种损失函数的平均值将作为最终的损失值。
一种基于渐进式点云-文本匹配的三维视觉定位系统,应用上述的一种基于渐进式点云-文本匹配的三维视觉定位方法,包括依次连接的数据获取模块、模型建立模块、语义化编码模块、关键种子点产生模块、特征计算模块、模型优化模块;
数据获取模块,用于获取三维点云数据以及文本描述信息;
模型建立模块,用于建立一个三维视觉定位模型,并对三维视觉定位模型进行训练;
语义化编码模块,用于通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征;
关键种子点产生模块,用于随机初始化实例掩膜,通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别,从而筛选出和目标物体特征近似的一些种子点,作为关键种子点;
特征计算模块,用于计算各关键种子点和文本描述信息的匹配度,选择匹配度最高的关键种子点作为目标物体的锚点;接着利用锚点的高维语义化特征,通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸;
模型优化模块,用于向三维视觉定位模型输入训练数据,计算损失值并依据损失值优化三维视觉定位模型;对训练好的三维视觉定位模型参数作持久化处理。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于渐进式点云-文本匹配的三维视觉定位方法及系统,具有以下有益效果:
(1)采用所提的点云-语言感知的掩膜预测模块,以实例掩膜而非目标框的形式表示候选目标物体,有效避免了引入背景噪音,从而显著提高了三维视觉定位的稳定性和鲁棒性;
(2)使用所提的点云-语言感知的掩膜预测模块,通过判断各种子点是否属于近似目标物体的实例掩膜来选择关键种子点,即避免遗漏重要的候选目标物体,又保证候选目标物体不冗余;
(3)引入语言信息至点云-语言感知的掩膜预测模块,确保选择的关键种子点和本文信息所描述的物体之间具有强相关性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于渐进式点云-文本匹配的三维视觉定位的方法流程图;
图2为本发明提供的一种基于渐进式点云-文本匹配的三维视觉定位的具体方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种基于渐进式点云-文本匹配的三维视觉定位方法,包括以下步骤:
S1、数据获取步骤:获取三维点云数据以及文本描述信息;
S2、模型建立步骤:建立一个三维视觉定位模型,并对三维视觉定位模型进行训练;
S3、语义化编码步骤:通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征;
S4、关键种子点产生步骤:随机初始化多个实例掩膜,其中各实例掩膜表示预先定义好的三维候选目标物体;通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别,从而筛选出和目标物体特征近似的一些种子点,作为关键种子点;
S5、特征计算步骤:计算各关键种子点和文本描述信息的匹配度,选择匹配度最高的关键种子点作为目标物体的锚点;接着利用锚点的高维语义化特征,通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸;
S6、模型优化步骤:向三维视觉定位模型输入训练数据,计算损失值并依据损失值优化三维视觉定位模型;对训练好的三维视觉定位模型参数作持久化处理。
可选的,步骤S3具体包括:
S3.1:给定三维点云Pcloud和种子点数量M,采用PointNet++作为视觉骨干网络从三维点云Pcloud中提取各种子点对应的空间特征Pseed;
S3.2:给定单词个数为Nw的文本描述信息,首先采用预先训练好的Word2Vec将各单词映射至高维特征空间中;接着使用BERT作为语言骨干网络进一步地提取各单词的上下文特征E={ei};最终通过注意力池化获得全局文本特征
其中AvgPool(·)和MaxPool(·)为平均池化函数和最大池化函数;Rel(·)为计算两个特征向量之间相似性的点积操作;⊙为逐元素乘法操作。
可选的,步骤S4具体包括:
S4.1:随机初始化数量为N的查询向量Qini,其中N的值远远小于M的值;各查询向量的目标是检测其对应类物体的实例掩膜;
S4.2:以初始化查询向量Qini和种子点特征Pcloud作为Transformer-Decoder的输入,采用Transformer-Decoder中的自注意力机制明确各查询向量需检测的物体类别;接着使用Transformer-Decoder中的跨模态注意力机制交互式融合初始化查询向量和种子点特征,以得到点云-感知的查询向量:
其中SelfATT(·)为Transformer-Decoder中的自注意力机制;CrossATT(·)为Transformer-Decoder中的跨模态注意力机制;为明确需检测的物体类别后的查询向量;Qpc为点云-感知的查询向量;
S4.3:以点云-感知的查询向量Qpc和全局文本特征作为Transformer-Decoder的输入,仅使用跨模态注意力机制交互式融合点云-感知的查询向量和全局文本特征,以得到点云-语言-感知的查询向量;接着以点云-语言-感知的查询向量作为全连接层的输入,以计算各实例掩膜对应的物体在三维点云Pcloud中出现的概率:
yins_obj=Softmax(Linear(Qpcl))
其中Linear(·)为全连接层;Softmax(·)为softmax函数;Qpcl为点云-语言-感知的查询向量;yins_obj为各实例掩膜对应的物体出现的概率;
S4.4:平行于步骤S4.3,将种子点特征Pcloud和点云-感知的查询向量Qpc做矩阵乘法,以获取各种子点所属的实例掩膜类别,即各种子点所属的物体类别;
S4.5:选择出现概率最大的前k1个实例掩膜,计算各种子点属于前k1个实例掩膜的平均概率,从而选择平均概率最大的前k2个种子点作为关键种子点。关键种子点对应的空间特征记作Pkey_seed。
可选的,步骤S4.3和步骤S4.4通过计算输出结果和真实标签之间的损失值,优化查询向量Qini。
具体的,步骤S5为:
S5.1:以关键种子点的空间特征记作Pkey_seed和全局文本特征作为Transformer-Decoder的输入,采用Transformer-Decoder中的自注意力机制明确各关键种子点的重要程度;接着使用Transformer-Decoder中的跨模态注意力机制交互式融合全局文本特征和关键种子点特征,以得到语言-感知的关键种子点:
其中为明确各关键种子点的重要程度后关键种子点对应的特征;Plan_key_seed为语言-感知的关键种子点对应的特征。
S5.2:以语言-感知的关键种子点对应的特征Plan_key_seed作为全连接层的输入,得到各关键种子点属于目标物体的概率:
yo=Softmax(Linear(Plan_key_seed))
其中yo为各关键种子点属于目标物体的概率。概率最高的关键种子点记作锚点。
S5.3:采用预先训练好的三维视觉定位模型基于锚点生成目标物体在三维点云中的位置以及尺寸。
可选的,在步骤S6中,采用Lref、Lsem以及Lmask三种损失函数来训练三维视觉定位模型,Lref、Lsem以及Lmask三种损失函数的平均值将作为最终的损失值,用以优化所提供的方法。
具体的,Lref是一种视觉定位损失函数,以约束基于瞄点生成的目标物体的大小和尺寸。Lsem是一种基于匈牙利匹配的实例语义损失函数,以约束各实例掩膜对应的物体在三维点云种出现的概率。Lmask是基于匈牙利匹配的种子点-掩膜匹配损失函数,以约束各种子点所属的物体软类别。
一种基于渐进式点云-文本匹配的三维视觉定位系统,应用上述的一种基于渐进式点云-文本匹配的三维视觉定位方法,包括依次连接的数据获取模块、模型建立模块、语义化编码模块、关键种子点产生模块、特征计算模块、模型优化模块;
数据获取模块,用于获取三维点云数据以及文本描述信息;
模型建立模块,用于建立一个三维视觉定位模型,并对三维视觉定位模型进行训练;
语义化编码模块,用于通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征;
关键种子点产生模块,用于随机初始化实例掩膜,通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别,从而筛选出和目标物体特征近似的一些种子点,作为关键种子点;
特征计算模块,用于计算各关键种子点和文本描述信息的匹配度,选择匹配度最高的关键种子点作为目标物体的锚点;接着利用锚点的高维语义化特征,通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸;
模型优化模块,用于向三维视觉定位模型输入训练数据,计算损失值并依据损失值优化三维视觉定位模型;对训练好的三维视觉定位模型参数作持久化处理。
如图2所示,本发明提供了一种基于渐进式点云-文本匹配的三维视觉定位方法,以原始的三维点云以及文本描述信息作为输入,预测目标物体的位置以及尺寸。所提供的方法主要包括三个模块:骨干网络、点云-文本-感知的掩膜-种子点匹配网络以及实例-感知的文本-关键种子点匹配网络。骨干网络以原始的三维点云以及文本描述信息作为输入,提取其二者的高维特征,从而对原始数据实现数字化编码。点云-文本-感知的掩膜-种子点匹配网络通过实例掩膜表示候选目标物体,进而获取各实例掩膜在三维点云出现的概率以及各种子点所属实例掩膜的软类别,以筛选出和目标物体特征近似的一些种子点,作为关键种子点。实例-感知的文本-关键种子点匹配网络通过关键种子点的高维特征以及所属实例掩膜的软类别寻找与文本描述信息最匹配的关键种子点,作为目标物体的锚点。最终,采用预先训练好的检测头基于锚点生成目标物体在三维点云中的位置以及尺寸。
在实施例中,发明人使用PyTorch编程框架训练了所提供的基于渐进式点云-文本匹配的三维视觉定位方法,训练数据采用ScanRefer数据集。训练过程在配备了4张NVIDIARTX 2080Ti GPU显卡的服务器上进行。发明人通过AdamW优化器训练所提方法,学习率设置为5e-4,批次大小设置为8。种子点数量设置为1024;点云-文本-感知的掩膜-种子点匹配网络参数k1和k2分别设置为4和256,初始化查询向量数量设置为100。Transformer-Decoder中层数设置为3,特征维数设置为128。经过120000次迭代,模型最终完成训练。
发明人对比了所提供的基于渐进式点云-文本匹配的三维视觉定位方法和已发表的基于“两阶段”范式的方法,具体对比实验结果如下表1:三维视觉定位性能显著优于现有的基于“两阶段”范式的方法,在ScanRefer数据集上Acc@0.25以及Acc@0.5分别达到48.12以及36.68。
表1
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于渐进式点云-文本匹配的三维视觉定位方法,其特征在于,包括以下步骤:
S1、数据获取步骤:获取三维点云数据以及文本描述信息;
S2、模型建立步骤:建立一个三维视觉定位模型,并对三维视觉定位模型进行训练;
S3、语义化编码步骤:通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征;
S4、关键种子点产生步骤:随机初始化实例掩膜,其中各实例掩膜表示预先定义好的三维候选目标物体;通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别,从而筛选出和目标物体特征近似的一些种子点,作为关键种子点;
S5、特征计算步骤:计算各关键种子点和文本描述信息的匹配度,选择匹配度最高的关键种子点作为目标物体的锚点;利用锚点的高维语义化特征,通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸;
S6、模型优化步骤:向三维视觉定位模型输入训练数据,计算损失值并依据损失值优化三维视觉定位模型;对训练好的三维视觉定位模型参数作持久化处理。
2.根据权利要求2所述的一种基于渐进式点云-文本匹配的三维视觉定位方法,其特征在于,步骤S3具体包括:
S3.1:给定三维点云Pcloud和种子点数量M,采用PointNet++作为视觉骨干网络从三维点云Pcloud中提取各种子点对应的空间特征Pseed;
S3.2:给定单词个数为Nw的文本描述信息,首先采用预先训练好的Word2Vec将各单词映射至高维特征空间中;接着使用BERT作为语言骨干网络进一步地提取各单词的上下文特征E={ei};最终通过注意力池化获得全局文本特征
其中AvgPool(·)和MaxPool(·)为平均池化函数和最大池化函数;Rel(·)为计算两个特征向量之间相似性的点积操作;⊙为逐元素乘法操作。
3.根据权利要求2所述的一种基于渐进式点云-文本匹配的三维视觉定位方法,其特征在于,步骤S4具体包括:
S4.1:随机初始化数量为N的查询向量Qini,其中N的值小于M的值;
S4.2:以初始化查询向量Qini和种子点特征Pcloud作为Transformer-Decoder的输入,采用Transformer-Decoder中的自注意力机制明确各查询向量需检测的物体类别;接着使用Transformer-Decoder中的跨模态注意力机制交互式融合初始化查询向量和种子点特征,以得到点云-感知的查询向量:
其中SelfATT(·)为Transformer-Decoder中的自注意力机制;CrossATT(·)为Transformer-Decoder中的跨模态注意力机制;为明确需检测的物体类别后的查询向量;Qpc为点云-感知的查询向量;
S4.3:以点云-感知的查询向量Qpc和全局文本特征作为Transformer-Decoder的输入,使用跨模态注意力机制交互式融合点云-感知的查询向量和全局文本特征,以得到点云-语言-感知的查询向量;接着以点云-语言-感知的查询向量作为全连接层的输入,以计算各实例掩膜对应的物体在三维点云Pcloud中出现的概率:
yins_obj=Softmax(Linear(Qpcl))
其中Linear(·)为全连接层;Softmax(·)为softmax函数;Qpcl为点云-语言-感知的查询向量;yins_obj为各实例掩膜对应的物体出现的概率;
S4.4:平行于步骤S4.3,将种子点特征Pcloud和点云-感知的查询向量Qpc做矩阵乘法,以获取各种子点所属的实例掩膜类别;
S4.5:选择出现概率最大的前k1个实例掩膜,计算各种子点属于前k1个实例掩膜的平均概率,从而选择平均概率最大的前k2个种子点作为关键种子点;关键种子点对应的空间特征记作Pkey_seed。
4.根据权利要求3所述的一种基于渐进式点云-文本匹配的三维视觉定位方法,其特征在于,
步骤S4.3和步骤S4.4通过计算输出结果和真实标签之间的损失值,优化查询向量Qini。
5.根据权利要求2所述的一种基于渐进式点云-文本匹配的三维视觉定位方法,其特征在于,
在步骤S6中,采用Lref、Lsem以及Lmask三种损失函数来训练三维视觉定位模型,Lref、Lsem以及Lmask三种损失函数的平均值将作为最终的损失值。
6.一种基于渐进式点云-文本匹配的三维视觉定位系统,其特征在于,应用权利要求1-5任一项所述的一种基于渐进式点云-文本匹配的三维视觉定位方法,包括依次连接的数据获取模块、模型建立模块、语义化编码模块、关键种子点产生模块、特征计算模块、模型优化模块;其中,
数据获取模块,用于获取三维点云数据以及文本描述信息;
模型建立模块,用于建立一个三维视觉定位模型,并对三维视觉定位模型进行训练;
语义化编码模块,用于通过视觉骨干网络和语言骨干网络分别对输入的三维点云数据以及文本描述信息进行语义化编码,得到种子点和全局本文特征;
关键种子点产生模块,用于随机初始化实例掩膜,通过点云-文本-感知的掩膜-种子点匹配网络得到各实例掩膜在三维点云出现的概率以及各种子点所属的实例掩膜软类别,从而筛选出和目标物体特征近似的一些种子点,作为关键种子点;
特征计算模块,用于计算各关键种子点和文本描述信息的匹配度,选择匹配度最高的关键种子点作为目标物体的锚点;接着利用锚点的高维语义化特征,通过预先训练好的三维视觉定位模型回归目标物体在三维点云中的位置以及尺寸;
模型优化模块,用于向三维视觉定位模型输入训练数据,计算损失值并依据损失值优化三维视觉定位模型;对训练好的三维视觉定位模型参数作持久化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311350239.7A CN117315030B (zh) | 2023-10-18 | 2023-10-18 | 基于渐进式点云-文本匹配的三维视觉定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311350239.7A CN117315030B (zh) | 2023-10-18 | 2023-10-18 | 基于渐进式点云-文本匹配的三维视觉定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315030A true CN117315030A (zh) | 2023-12-29 |
CN117315030B CN117315030B (zh) | 2024-04-16 |
Family
ID=89297081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311350239.7A Active CN117315030B (zh) | 2023-10-18 | 2023-10-18 | 基于渐进式点云-文本匹配的三维视觉定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315030B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689393A (zh) * | 2021-08-19 | 2021-11-23 | 东南大学 | 一种基于图像和点云实例匹配的三维目标检测算法 |
CN114529757A (zh) * | 2022-01-21 | 2022-05-24 | 四川大学 | 一种跨模态单样本三维点云分割方法 |
US20220319046A1 (en) * | 2019-12-18 | 2022-10-06 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for visual positioning |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
CN116363212A (zh) * | 2023-02-28 | 2023-06-30 | 浙江大学 | 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 |
-
2023
- 2023-10-18 CN CN202311350239.7A patent/CN117315030B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220319046A1 (en) * | 2019-12-18 | 2022-10-06 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for visual positioning |
CN113689393A (zh) * | 2021-08-19 | 2021-11-23 | 东南大学 | 一种基于图像和点云实例匹配的三维目标检测算法 |
CN114529757A (zh) * | 2022-01-21 | 2022-05-24 | 四川大学 | 一种跨模态单样本三维点云分割方法 |
CN116363212A (zh) * | 2023-02-28 | 2023-06-30 | 浙江大学 | 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
Non-Patent Citations (3)
Title |
---|
ZHAO JIN 等: "Context-aware Alignment and Mutual Masking for 3D-Language Pre-training", 《2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 22 August 2023 (2023-08-22) * |
唐川: "基于局部对齐的3D形状-文本跨模态检索方法研究", 《万方学位论文》, 29 August 2023 (2023-08-29) * |
李梦甜: "三维点云场景语义分割的关键技术研究", 《CNKI博士学位论文全文库》, 15 October 2023 (2023-10-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117315030B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10755128B2 (en) | Scene and user-input context aided visual search | |
CN108334830B (zh) | 一种基于目标语义和深度外观特征融合的场景识别方法 | |
Zhang et al. | Action recognition from arbitrary views using transferable dictionary learning | |
Liu et al. | Two-stream 3d convolutional neural network for skeleton-based action recognition | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
CN103996056B (zh) | 一种基于深度学习的纹身图像分类方法 | |
CN115063573B (zh) | 一种基于注意力机制的多尺度目标检测方法 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN107229757A (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN113408455A (zh) | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 | |
CN110852182A (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
Naeem et al. | T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition | |
WO2024037585A1 (zh) | 基于内容理解的遥感影像统筹推荐方法 | |
CN108154156A (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
Huan et al. | GeoRec: Geometry-enhanced semantic 3D reconstruction of RGB-D indoor scenes | |
Wang et al. | KTN: Knowledge transfer network for learning multiperson 2D-3D correspondences | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
Fei et al. | Self-supervised learning for pre-training 3d point clouds: A survey | |
Fan et al. | Hcpvf: Hierarchical cascaded point-voxel fusion for 3D object detection | |
CN117522990B (zh) | 基于多头注意力机制和迭代细化的类别级位姿估计方法 | |
Cai et al. | Learning pose dictionary for human action recognition | |
Wang et al. | Swimmer’s posture recognition and correction method based on embedded depth image skeleton tracking | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |