CN116363212A - 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 - Google Patents
一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 Download PDFInfo
- Publication number
- CN116363212A CN116363212A CN202310177617.XA CN202310177617A CN116363212A CN 116363212 A CN116363212 A CN 116363212A CN 202310177617 A CN202310177617 A CN 202310177617A CN 116363212 A CN116363212 A CN 116363212A
- Authority
- CN
- China
- Prior art keywords
- candidate
- objects
- distillation
- semantic
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 27
- 238000004821 distillation Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 17
- 230000000873 masking effect Effects 0.000 claims abstract description 15
- 230000004807 localization Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/653—Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义匹配知识蒸馏的3D视觉定位方法和系统,属于视觉定位领域,在典型的两阶段3D视觉定位模型基础上,根据物体和查询语句之间的相似度矩阵,提取候选物体;对查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失和语义匹配分数,生成全部物体的蒸馏伪标签,将蒸馏伪标签与生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,联合各损失训练跨模态匹配网络;利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。本发明发挥经过充分研究的3D视觉定位模型结构的优势,有效降低推理成本并进一步提高模型性能,并证明了其有效性。
Description
技术领域
本发明涉及3D视觉定位任务,尤其涉及一种基于语义匹配知识蒸馏的3D视觉定位方法和系统。
背景技术
3D视觉定位任务的目标是根据任意格式的语言提示在3D点云中定位目标物体,其在VR/AR以及自动机器人领域有着极为广泛的应用。尽管3D视觉定位领域的研究取得了很大进展,但先前的工作均需要为每个查询语句标注匹配的边界框。不幸的是,3D点云中细粒度边界框的标注所需的成本非常昂贵。因此,本发明专注于3D视觉定位的弱监督学习,它只需要场景—语句对进行训练。显然,场景级的标签更容易获得,其只需要指示物体在3D场景中是否存在,而无需特定的位置信息。
然而,弱监督3D视觉定位存在两个挑战。首先,3D点云中充斥着大量属于不同类别的物体,查询语句中可能包含除目标物体之外的多个物体以帮助定位目标物体。在不知道真实的物体—语句对的情况下,很难从大量可能的物体—语句对中学习,并将语句与其对应的物体联系起来。其次,在3D视觉定位任务中,场景中往往存在多个与目标物体同类别的干扰物体,需要根据给定语句描述的物体属性和物体之间的关系来区分目标物体。
发明内容
为同时解决目前存在的两大挑战,本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位方法和系统,通过提取物体候选项,并根据特征相似度和类相似度矩阵粗略选定K个候选物体;将选定的候选物体逐个用于重建查询语句的关键字掩码,重建结果的准确性能够很好地反映每个候选物体与查询语句的语义相似性;将由粗略到精细的语义匹配知识蒸馏为典型的两阶段3D视觉定位模型,发挥经过充分研究的3D视觉定位模型结构的优势,有效降低推理成本并进一步提高模型性能。
为了实现上述目的,本发明采用的技术方案是:
第一方面,本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位方法,包括如下步骤:
1)从给定的点云中提取物体及其物体类别、物体特征;以及,从与给定点云匹配的查询语句中提取文本特征、文本类别;采用跨模态匹配网络对物体和查询语句进行特征匹配,生成每一个物体的预测分数并计算特征匹配损失;
2)根据物体和查询语句之间的相似度矩阵,提取候选物体;
3)对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
4)根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与步骤1)生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失;
5)联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络;
6)利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
进一步地,所述的物体和查询语句之间的相似度矩阵为:
进一步地,所述的步骤3)包括:
3.1)向查询语句中加入掩码,将查询语句中的重要词汇屏蔽;
3.2)获取掩码后查询语句的文本特征;
3.3)计算各候选物体的跨模态语义表示:
其中,fk表示第k个候选物体的跨模态语义表示,fi k表示第k个候选物体与掩码后查询语句中第i个单词的跨模态语义表示,表示第k个候选物体特征,/>表示掩码后查询语句的文本特征,Dec(·,·)是一个Transformer解码器,Nq表示查询语句中单词的数量;
3.4)根据各候选物体对步骤3.1)被屏蔽的重要词汇进行重建,计算各候选物体关于词汇表的能量分布:
3.5)根据各候选物体的能量分布计算各候选物体的重建损失;
3.6)计算各候选物体的语义匹配分数:
进一步地,所述的重要词汇包括目标物体、目标物体的特征属性及其与场景中其他物体的关系。
进一步地,所述的重建损失为:
进一步地,所述的文本类别由可训练的文本分类器实现。
进一步地,用于从给定的点云中提取物体及其物体类别、物体特征;以及,用于从与给定点云匹配的查询语句中提取文本特征、文本类别的模型为预训练模型或者待训练模型;当采用预训练模型时,其参数在步骤5)训练过程中不更新,当采用待训练模型时,其参数在步骤5)训练过程中与跨模态匹配网络同步更新,并引入待训练模型的训练损失。
进一步地,所述的步骤4)包括:
4.1)将候选物体的语义匹配分数填充到候选物体的原始索引,并用0填充其余非候选物体的索引,生成蒸馏伪标签;
4.2)将跨模态匹配网络生成的每一个物体的预测分数与伪标签对齐,进行语义匹配知识蒸馏,蒸馏损失计算公式为:
其中,Ldistill表示蒸馏损失,di表示第i个物体的蒸馏伪标签,si表示第i个物体的预测分数,Mp表示从给定的点云中提取物体的数量。
第二方面,本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位系统,包括:
3D物体检测器,其用于从给定的点云中提取物体及其物体类别;
属性编码器,其用于编码物体特征;
文本编码器,其用于编码与给定点云匹配的查询语句的文本特征;
文本分类器,其用于编码文本类别;
跨模态匹配网络模块,其用于对物体和查询语句进行特征匹配,生成每一个物体的预测分数;
粗粒度候选物体选择模块,其用于从由3D物体检测器提取的全部物体中选择候选物体;
细粒度语义匹配模块,其用于对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
知识蒸馏模块,其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
联合训练模块,其用于联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络模块;
3D视觉定位模块,其用于利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
进一步地,所述的粗粒度候选物体选择模块,根据物体和查询语句之间的相似度矩阵,从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体。
总的来说,本发明具备的有益效益包括:
1.本发明是第一个关于3D视觉定位任务中弱监督背景的工作,它摒弃了耗时且昂贵的密集物体—语句标注,只需要场景—语句级别的标签;
2.本发明将弱监督3D视觉定位任务视为一个由粗到细的语义匹配问题,并提出一个由粗到细的语义匹配模型来分析每个提议与句子之间的相似性;本发明将粗到细的语义匹配知识蒸馏到两阶段3D视觉定位模型中,以充分利用经过良好设计的网络结构,从而进一步提高了模型性能并降低推理成本;
3.大量的实验结果表明,在三个广泛使用的基准数据集ScanRefer,Nr3D和Sr3D上,本发明展示了极好的表现和性能。
附图说明
图1是本发明实施例示出的基于语义匹配知识蒸馏的3D视觉定位方法的整体框架;
图2是本发明实施例示出的具体模型架构。
具体实施方式
下面结合附图对本发明做进一步阐述和说明。
如图1所示,本发明提出的基于语义匹配知识蒸馏的3D视觉定位方法主要包括如下步骤:
1.建立当下主流的两阶段范式3D视觉定位工作流水线,具体为:
2.构建粗粒度候选物体选择模块,通过计算由预训练的3D物体检测器检测到的所有物体和查询语句之间的物体—语句相似度矩阵,提取前K个可能的物体作为候选物体;具体为:
考虑到从预训练的3D物体检测器中提取出相当多的高质量物体,从类级别和特征级别综合计算所有物体和查询语句之间的相似度矩阵;
对于特征级别,以对比学习的方式对齐物体和句查询语句的特征表示,将同一场景中的正物体—查询语句对拉近,并在语义空间中将负物体—查询语句对推开,其中同一场景的所有物体—查询语句作为正对,其余作为负对;
其中,分别表示编码后的物体特征和编码后的查询语句文本特征,/>分别表示物体和查询语句类别;φ是一种相似度计算函数,此具体实施中为点积;Mp是由预训练的3D物体检测器检测到的物体数量,Nq表示查询语句中单词的数量,d是特征维度;
3.构建细粒度语义匹配模块,根据每个候选物体—语句对的语义重构结果生成更准确的伪标签;具体为:
3.1)向查询语句中加入掩码,将查询语句中的重要词汇屏蔽,例如目标物体、目标物体的特征属性及其与场景中其他物体的关系等;
其中,Dec(·,·)是一个Transformer解码器,fi k是第k个候选物体与第i个单词的跨模态语义表示;3.4)根据每一个候选物体对步骤3.1)被屏蔽的重要词汇进行重建,可计算其关于该词汇表的能量分布为:
3.5)根据步骤3.4)中得到的每一个候选物体的能量分布,计算其重建损失为:
3.借助细粒度语义匹配模块中生成的伪标签,将语义匹配知识蒸馏到多模态预测模块中,充分利用现有模型架构并显著降低推理成本;具体为:
5.综合以上模块和流程对步骤1中建立的多模态预测模块进行训练,直到得到性能表现稳定且优异的训练结果为止;结合图2,可知其具体的数据流动方式,如下:
S1,从给定的点云中提取物体及其物体类别、物体特征;以及,从与给定点云匹配的查询语句中提取文本特征、文本类别;采用跨模态匹配网络对物体和查询语句进行特征匹配,生成每一个物体的预测分数并计算特征匹配损失;
S2,根据物体和查询语句之间的相似度矩阵,提取候选物体;
S3,对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
S4,根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与步骤S1生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
S5,联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络。
其中,各个环节损失及最终多任务损失的具体计算方式为:
5.1)文本分类损失(Lcls):简单的交叉熵损失;
5.2)特征匹配损失(Lmatch):
其中,p、p′是由预训练的3D物体检测器检测到的一个物体,q、q′是一个查询语句;φ是一种相似度计算函数,此具体实施中为点积;是物体与其对应查询语句对构成的集合,/>物体与非对应查询语句对构成的集合;B是batch-size;
5.3)重建损失(Lrecon):
5.4)蒸馏损失(Ldistill):
其中,di为第i个物体的蒸馏伪标签,si为从多模态预测模块获得的第i个物体的预测分数;
5.5)多任务损失(Loverall):
Loverall=Ldistill+λ1Lcls+λ2Lmatch+λ3Lrecon
将上述方法应用于以下实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
本发明在ScanRefer数据集上进行实验,并与多种先前工作进行横向对比。
为了评估本发明的方法和基线的性能,对ScanRefer数据集采用了R@n,IoU@m指标,该指标的具体意义为:与真实目标边界框相比,在前n个预测候选项中至少有一个IoU大于m的百分比;在本实施例中设定n∈{1,3},m∈{0.25,0.5}。
ScanRefer数据集基于Scan-Net数据集用51,583种语言描述标注了800个场景。每个场景平均有13.81个对象和64.48个描述。按照ScanRefer基准,实验中将训练/验证/测试集分别分为36,655、9,508和5,410个样本。数据可以分为“Unique”和“Multiple”两类,这取决于目标对象是否是场景中同类的唯一对象。为了全面评估本发明,下表1展示了本发明在“Unique”和“Multiple”子集上的准确性和总体准确性。
表1本发明在ScanRefer数据及上与其他先前方法进行比较
在本实施例中,与本发明进行对比的方法有:1)Random,从所有物体中随机选择一个候选物体作为预测结果;2)MIL-Margin,该方法提出了一种最大边界损失,以强制要求查询语句与对应场景之间的得分高于非对应的场景,反之亦然;3)MIL-NCE,该方法最大化了查询语句和其对应场景与查询句子和非对应的场景之间的互信息下限。
与Random方法相比,本发明在Scanrefer上展现了了巨大的优势,本发明能够有效地分析物体与句子之间的相似性;同时,本发明在很大程度上优于广泛使用的基于MIL的弱监督方法。这表明本发明能够深入挖掘3D场景与语句之间的对齐关系,并找到最具语义相关性的物体。在具有挑战性的ScanRefer的“Multiple”中,本发明同样能够展示出优异的性能。在这些子集中,存在具有相同类别的干扰物体,需要对句子进行全面理解以区分所描述的对象。这个问题导致其他方法陷入捆紧,而在本发明中,语义重建模块能够有效地处理这个问题。
在本实施例中还提供了一种基于语义匹配知识蒸馏的3D视觉定位系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
本实施例提供的一种基于语义匹配知识蒸馏的3D视觉定位系统,包括:
3D物体检测器,其用于从给定的点云中提取物体及其物体类别;
属性编码器,其用于编码物体特征;
文本编码器,其用于编码与给定点云匹配的查询语句的文本特征;
文本分类器,其用于编码文本类别;
跨模态匹配网络模块,其用于对物体和查询语句进行特征匹配,生成每一个物体的预测分数;
粗粒度候选物体选择模块,其用于根据物体和查询语句之间的相似度矩阵,从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体;
细粒度语义匹配模块,其用于对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
知识蒸馏模块,其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
联合训练模块,其用于联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络模块;
3D视觉定位模块,其用于利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (10)
1.一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,包括如下步骤:
1)从给定的点云中提取物体及其物体类别、物体特征;以及,从与给定点云匹配的查询语句中提取文本特征、文本类别;采用跨模态匹配网络对物体和查询语句进行特征匹配,生成每一个物体的预测分数并计算特征匹配损失;
2)根据物体和查询语句之间的相似度矩阵,提取候选物体;
3)对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
4)根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与步骤1)生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失;
5)联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络;
6)利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
3.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的步骤3)包括:
3.1)向查询语句中加入掩码,将查询语句中的重要词汇屏蔽;
3.2)获取掩码后查询语句的文本特征;
3.3)计算各候选物体的跨模态语义表示:
其中,fk表示第k个候选物体的跨模态语义表示,fi k表示第k个候选物体与掩码后查询语句中第i个单词的跨模态语义表示,表示第k个候选物体特征,/>表示掩码后查询语句的文本特征,Dec(·,·)是一个Transformer解码器,cq表示查询语句中单词的数量;
3.4)根据各候选物体对步骤3.1)被屏蔽的重要词汇进行重建,计算各候选物体关于词汇表的能量分布:
3.5)根据各候选物体的能量分布计算各候选物体的重建损失;
3.6)计算各候选物体的语义匹配分数:
4.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的重要词汇包括目标物体、目标物体的特征属性及其与场景中其他物体的关系。
6.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的文本类别由可训练的文本分类器实现。
7.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,用于从给定的点云中提取物体及其物体类别、物体特征;以及,用于从与给定点云匹配的查询语句中提取文本特征、文本类别的模型为预训练模型或者待训练模型;当采用预训练模型时,其参数在步骤5)训练过程中不更新,当采用待训练模型时,其参数在步骤5)训练过程中与跨模态匹配网络同步更新,并引入待训练模型的训练损失。
9.一种基于语义匹配知识蒸馏的3D视觉定位系统,其特征在于,包括:
3D物体检测器,其用于从给定的点云中提取物体及其物体类别;
属性编码器,其用于编码物体特征;
文本编码器,其用于编码与给定点云匹配的查询语句的文本特征;
文本分类器,其用于编码文本类别;
跨模态匹配网络模块,其用于对物体和查询语句进行特征匹配,生成每一个物体的预测分数;
粗粒度候选物体选择模块,其用于从由3D物体检测器提取的全部物体中选择候选物体;
细粒度语义匹配模块,其用于对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
知识蒸馏模块,其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
联合训练模块,其用于联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络模块;
3D视觉定位模块,其用于利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
10.根据权利要求9所述的一种基于语义匹配知识蒸馏的3D视觉定位系统,其特征在于,所述的粗粒度候选物体选择模块,根据物体和查询语句之间的相似度矩阵,从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310177617.XA CN116363212A (zh) | 2023-02-28 | 2023-02-28 | 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310177617.XA CN116363212A (zh) | 2023-02-28 | 2023-02-28 | 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363212A true CN116363212A (zh) | 2023-06-30 |
Family
ID=86939052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310177617.XA Pending CN116363212A (zh) | 2023-02-28 | 2023-02-28 | 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363212A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN117216225A (zh) * | 2023-10-19 | 2023-12-12 | 四川大学 | 一种基于三模态知识蒸馏的3d视觉问答方法 |
CN117315030A (zh) * | 2023-10-18 | 2023-12-29 | 四川大学 | 基于渐进式点云-文本匹配的三维视觉定位方法及系统 |
CN117830601A (zh) * | 2024-03-04 | 2024-04-05 | 深圳大学 | 一种基于弱监督的三维视觉定位方法、装置、设备及介质 |
-
2023
- 2023-02-28 CN CN202310177617.XA patent/CN116363212A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN116884003B (zh) * | 2023-07-18 | 2024-03-22 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN117315030A (zh) * | 2023-10-18 | 2023-12-29 | 四川大学 | 基于渐进式点云-文本匹配的三维视觉定位方法及系统 |
CN117315030B (zh) * | 2023-10-18 | 2024-04-16 | 四川大学 | 基于渐进式点云-文本匹配的三维视觉定位方法及系统 |
CN117216225A (zh) * | 2023-10-19 | 2023-12-12 | 四川大学 | 一种基于三模态知识蒸馏的3d视觉问答方法 |
CN117216225B (zh) * | 2023-10-19 | 2024-06-04 | 四川大学 | 一种基于三模态知识蒸馏的3d视觉问答方法 |
CN117830601A (zh) * | 2024-03-04 | 2024-04-05 | 深圳大学 | 一种基于弱监督的三维视觉定位方法、装置、设备及介质 |
CN117830601B (zh) * | 2024-03-04 | 2024-05-24 | 深圳大学 | 一种基于弱监督的三维视觉定位方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
Wang et al. | Learning latent opinions for aspect-level sentiment classification | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
CN112633419B (zh) | 小样本学习方法、装置、电子设备和存储介质 | |
CN116363212A (zh) | 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 | |
CN112905822B (zh) | 一种基于注意力机制的深度监督跨模态对抗学习方法 | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
Wicker et al. | Multi-label classification using boolean matrix decomposition | |
Zhang et al. | Multi-modal multi-label emotion detection with modality and label dependence | |
CN108536735A (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
Mi et al. | Knowledge-aware cross-modal text-image retrieval for remote sensing images | |
Bucher et al. | Semantic bottleneck for computer vision tasks | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
Kovvuri et al. | Pirc net: Using proposal indexing, relationships and context for phrase grounding | |
CN111985548A (zh) | 一种标签引导的跨模态深度哈希方法 | |
WO2022085533A1 (ja) | 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム | |
CN114926716A (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
Hakimov et al. | Evaluating architectural choices for deep learning approaches for question answering over knowledge bases | |
WO2021131324A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
CN117009516A (zh) | 换流站故障策略模型训练方法、推送方法及装置 | |
CN116521924A (zh) | 一种基于多尺度语义扫描的图文互检索方法及系统 | |
Devkota et al. | Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |