CN116363212A - 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 - Google Patents

一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 Download PDF

Info

Publication number
CN116363212A
CN116363212A CN202310177617.XA CN202310177617A CN116363212A CN 116363212 A CN116363212 A CN 116363212A CN 202310177617 A CN202310177617 A CN 202310177617A CN 116363212 A CN116363212 A CN 116363212A
Authority
CN
China
Prior art keywords
candidate
objects
distillation
semantic
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310177617.XA
Other languages
English (en)
Inventor
赵洲
朱亦陈
王泽寒
黄海烽
赵阳
陈哲乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Zhejiang University ZJU
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd, Zhejiang University ZJU filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN202310177617.XA priority Critical patent/CN116363212A/zh
Publication of CN116363212A publication Critical patent/CN116363212A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义匹配知识蒸馏的3D视觉定位方法和系统,属于视觉定位领域,在典型的两阶段3D视觉定位模型基础上,根据物体和查询语句之间的相似度矩阵,提取候选物体;对查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失和语义匹配分数,生成全部物体的蒸馏伪标签,将蒸馏伪标签与生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,联合各损失训练跨模态匹配网络;利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。本发明发挥经过充分研究的3D视觉定位模型结构的优势,有效降低推理成本并进一步提高模型性能,并证明了其有效性。

Description

一种基于语义匹配知识蒸馏的3D视觉定位方法和系统
技术领域
本发明涉及3D视觉定位任务,尤其涉及一种基于语义匹配知识蒸馏的3D视觉定位方法和系统。
背景技术
3D视觉定位任务的目标是根据任意格式的语言提示在3D点云中定位目标物体,其在VR/AR以及自动机器人领域有着极为广泛的应用。尽管3D视觉定位领域的研究取得了很大进展,但先前的工作均需要为每个查询语句标注匹配的边界框。不幸的是,3D点云中细粒度边界框的标注所需的成本非常昂贵。因此,本发明专注于3D视觉定位的弱监督学习,它只需要场景—语句对进行训练。显然,场景级的标签更容易获得,其只需要指示物体在3D场景中是否存在,而无需特定的位置信息。
然而,弱监督3D视觉定位存在两个挑战。首先,3D点云中充斥着大量属于不同类别的物体,查询语句中可能包含除目标物体之外的多个物体以帮助定位目标物体。在不知道真实的物体—语句对的情况下,很难从大量可能的物体—语句对中学习,并将语句与其对应的物体联系起来。其次,在3D视觉定位任务中,场景中往往存在多个与目标物体同类别的干扰物体,需要根据给定语句描述的物体属性和物体之间的关系来区分目标物体。
发明内容
为同时解决目前存在的两大挑战,本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位方法和系统,通过提取物体候选项,并根据特征相似度和类相似度矩阵粗略选定K个候选物体;将选定的候选物体逐个用于重建查询语句的关键字掩码,重建结果的准确性能够很好地反映每个候选物体与查询语句的语义相似性;将由粗略到精细的语义匹配知识蒸馏为典型的两阶段3D视觉定位模型,发挥经过充分研究的3D视觉定位模型结构的优势,有效降低推理成本并进一步提高模型性能。
为了实现上述目的,本发明采用的技术方案是:
第一方面,本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位方法,包括如下步骤:
1)从给定的点云中提取物体及其物体类别、物体特征;以及,从与给定点云匹配的查询语句中提取文本特征、文本类别;采用跨模态匹配网络对物体和查询语句进行特征匹配,生成每一个物体的预测分数并计算特征匹配损失;
2)根据物体和查询语句之间的相似度矩阵,提取候选物体;
3)对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
4)根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与步骤1)生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失;
5)联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络;
6)利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
进一步地,所述的物体和查询语句之间的相似度矩阵为:
Figure BDA0004101447750000021
其中,
Figure BDA0004101447750000022
表示相似度矩阵,/>
Figure BDA0004101447750000023
分别表示物体特征和查询语句的文本特征,
Figure BDA0004101447750000024
分别表示物体类别和查询语句的文本类别,φ(.)表示相似度计算函数,Mc表示类别变换矩阵。
进一步地,所述的步骤3)包括:
3.1)向查询语句中加入掩码,将查询语句中的重要词汇屏蔽;
3.2)获取掩码后查询语句的文本特征;
3.3)计算各候选物体的跨模态语义表示:
Figure BDA0004101447750000025
其中,fk表示第k个候选物体的跨模态语义表示,fi k表示第k个候选物体与掩码后查询语句中第i个单词的跨模态语义表示,
Figure BDA0004101447750000026
表示第k个候选物体特征,/>
Figure BDA0004101447750000027
表示掩码后查询语句的文本特征,Dec(·,·)是一个Transformer解码器,Nq表示查询语句中单词的数量;
3.4)根据各候选物体对步骤3.1)被屏蔽的重要词汇进行重建,计算各候选物体关于词汇表的能量分布:
Figure BDA0004101447750000028
其中,
Figure BDA0004101447750000031
是第k个候选物体对第i个预测词汇的能量分布,Nv是词汇表中的单词数量;W和b是可学习参数;
3.5)根据各候选物体的能量分布计算各候选物体的重建损失;
3.6)计算各候选物体的语义匹配分数:
Figure BDA0004101447750000032
其中,rk表示第k个候选物体的重建损失在全部候选物体重建损失中的排名,
Figure BDA0004101447750000033
表示第k个候选物体的语义匹配分数,K表示候选物体的数量。
进一步地,所述的重要词汇包括目标物体、目标物体的特征属性及其与场景中其他物体的关系。
进一步地,所述的重建损失为:
Figure BDA0004101447750000034
其中,qi+1表示查询语句中的第i+1个单词,
Figure BDA0004101447750000035
表示条件概率。
进一步地,所述的文本类别由可训练的文本分类器实现。
进一步地,用于从给定的点云中提取物体及其物体类别、物体特征;以及,用于从与给定点云匹配的查询语句中提取文本特征、文本类别的模型为预训练模型或者待训练模型;当采用预训练模型时,其参数在步骤5)训练过程中不更新,当采用待训练模型时,其参数在步骤5)训练过程中与跨模态匹配网络同步更新,并引入待训练模型的训练损失。
进一步地,所述的步骤4)包括:
4.1)将候选物体的语义匹配分数填充到候选物体的原始索引,并用0填充其余非候选物体的索引,生成蒸馏伪标签;
4.2)将跨模态匹配网络生成的每一个物体的预测分数与伪标签对齐,进行语义匹配知识蒸馏,蒸馏损失计算公式为:
Figure BDA0004101447750000036
其中,Ldistill表示蒸馏损失,di表示第i个物体的蒸馏伪标签,si表示第i个物体的预测分数,Mp表示从给定的点云中提取物体的数量。
第二方面,本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位系统,包括:
3D物体检测器,其用于从给定的点云中提取物体及其物体类别;
属性编码器,其用于编码物体特征;
文本编码器,其用于编码与给定点云匹配的查询语句的文本特征;
文本分类器,其用于编码文本类别;
跨模态匹配网络模块,其用于对物体和查询语句进行特征匹配,生成每一个物体的预测分数;
粗粒度候选物体选择模块,其用于从由3D物体检测器提取的全部物体中选择候选物体;
细粒度语义匹配模块,其用于对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
知识蒸馏模块,其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
联合训练模块,其用于联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络模块;
3D视觉定位模块,其用于利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
进一步地,所述的粗粒度候选物体选择模块,根据物体和查询语句之间的相似度矩阵,从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体。
总的来说,本发明具备的有益效益包括:
1.本发明是第一个关于3D视觉定位任务中弱监督背景的工作,它摒弃了耗时且昂贵的密集物体—语句标注,只需要场景—语句级别的标签;
2.本发明将弱监督3D视觉定位任务视为一个由粗到细的语义匹配问题,并提出一个由粗到细的语义匹配模型来分析每个提议与句子之间的相似性;本发明将粗到细的语义匹配知识蒸馏到两阶段3D视觉定位模型中,以充分利用经过良好设计的网络结构,从而进一步提高了模型性能并降低推理成本;
3.大量的实验结果表明,在三个广泛使用的基准数据集ScanRefer,Nr3D和Sr3D上,本发明展示了极好的表现和性能。
附图说明
图1是本发明实施例示出的基于语义匹配知识蒸馏的3D视觉定位方法的整体框架;
图2是本发明实施例示出的具体模型架构。
具体实施方式
下面结合附图对本发明做进一步阐述和说明。
如图1所示,本发明提出的基于语义匹配知识蒸馏的3D视觉定位方法主要包括如下步骤:
1.建立当下主流的两阶段范式3D视觉定位工作流水线,具体为:
1.1)使用预训练的3D物体检测器从给定的点云
Figure BDA0004101447750000051
中提取物体及其物体类别/>
Figure BDA0004101447750000052
使用属性编码器得到物体特征/>
Figure BDA0004101447750000053
1.2)使用预训练的文本编码器从与给定点云匹配的查询语句
Figure BDA0004101447750000054
中提取文本特征/>
Figure BDA0004101447750000055
qi表示查询语句中的第i个单词,Nq表示查询语句中单词的数量;使用文本分类器的得到文本类别/>
Figure BDA0004101447750000056
1.3)由多模态预测模块进行物体和文本间的跨模态匹配,所述的多模态预测模块以物体特征
Figure BDA0004101447750000057
和文本特征/>
Figure BDA0004101447750000058
为输入,能够生成物体的预测分数。
2.构建粗粒度候选物体选择模块,通过计算由预训练的3D物体检测器检测到的所有物体和查询语句之间的物体—语句相似度矩阵,提取前K个可能的物体作为候选物体;具体为:
考虑到从预训练的3D物体检测器中提取出相当多的高质量物体,从类级别和特征级别综合计算所有物体和查询语句之间的相似度矩阵;
对于类级别,部署基于类别名之间词向量相似度的类别变换矩阵
Figure BDA0004101447750000059
其中/>
Figure BDA00041014477500000510
和/>
Figure BDA00041014477500000511
分别表示物体和查询语句的类别数量;利用该类别变换矩阵实现物体类别和语句类别的对齐;
对于特征级别,以对比学习的方式对齐物体和句查询语句的特征表示,将同一场景中的正物体—查询语句对拉近,并在语义空间中将负物体—查询语句对推开,其中同一场景的所有物体—查询语句作为正对,其余作为负对;
综合上述,计算物体和查询语句之间的相似度矩阵
Figure BDA00041014477500000512
为:
Figure BDA00041014477500000513
其中,
Figure BDA0004101447750000061
分别表示编码后的物体特征和编码后的查询语句文本特征,/>
Figure BDA0004101447750000062
分别表示物体和查询语句类别;φ是一种相似度计算函数,此具体实施中为点积;Mp是由预训练的3D物体检测器检测到的物体数量,Nq表示查询语句中单词的数量,d是特征维度;
根据得到的物体和查询语句之间的相似度矩阵
Figure BDA0004101447750000063
从Mp个物体特征/>
Figure BDA0004101447750000064
中粗略地选出前K个候选物体特征/>
Figure BDA0004101447750000065
过滤掉不属于目标类别的物体。
3.构建细粒度语义匹配模块,根据每个候选物体—语句对的语义重构结果生成更准确的伪标签;具体为:
3.1)向查询语句中加入掩码,将查询语句中的重要词汇屏蔽,例如目标物体、目标物体的特征属性及其与场景中其他物体的关系等;
3.2)将掩码后的查询语句输入步骤1中建立的文本编码器,得到其输出的掩码文本特征,记为
Figure BDA0004101447750000066
3.3)对于步骤2中得到的K个候选物体特征
Figure BDA0004101447750000067
其中第k个候选物体特征为
Figure BDA0004101447750000068
计算其跨模态语义表示/>
Figure BDA0004101447750000069
为:
Figure BDA00041014477500000610
其中,Dec(·,·)是一个Transformer解码器,fi k是第k个候选物体与第i个单词的跨模态语义表示;3.4)根据每一个候选物体对步骤3.1)被屏蔽的重要词汇进行重建,可计算其关于该词汇表的能量分布
Figure BDA00041014477500000611
为:
Figure BDA00041014477500000612
其中,
Figure BDA00041014477500000613
是第k个候选物体对第i个预测词汇的能量分布,Nv是词汇表中的单词数量;/>
Figure BDA00041014477500000614
和/>
Figure BDA00041014477500000615
是连接层中的可学习参数;
3.5)根据步骤3.4)中得到的每一个候选物体的能量分布,计算其重建损失为:
Figure BDA00041014477500000616
其中,qi+1表示查询语句中的第i+1个单词,
Figure BDA00041014477500000617
表示条件概率;将所有候选物体的能量分布记为Lrecon
3.6)根据以上信息计算每一个候选物体的语义匹配分数
Figure BDA00041014477500000618
为:
Figure BDA00041014477500000619
其中,rk是将Lrecon按升序排列后
Figure BDA0004101447750000071
在其中的排名;根据该函数即可生成经过良好蒸馏的伪标签。
3.借助细粒度语义匹配模块中生成的伪标签,将语义匹配知识蒸馏到多模态预测模块中,充分利用现有模型架构并显著降低推理成本;具体为:
4.1)将候选物体的语义匹配分数
Figure BDA0004101447750000072
填充到候选物体的原始索引,并用0填充其余非候选物体的索引,从而生成蒸馏伪标签/>
Figure BDA0004101447750000073
4.2)将预测分数
Figure BDA0004101447750000074
与伪标签对齐进行语义匹配知识蒸馏,其中预测分数是从步骤1中建立的多模态预测模块获得的。
5.综合以上模块和流程对步骤1中建立的多模态预测模块进行训练,直到得到性能表现稳定且优异的训练结果为止;结合图2,可知其具体的数据流动方式,如下:
S1,从给定的点云中提取物体及其物体类别、物体特征;以及,从与给定点云匹配的查询语句中提取文本特征、文本类别;采用跨模态匹配网络对物体和查询语句进行特征匹配,生成每一个物体的预测分数并计算特征匹配损失;
S2,根据物体和查询语句之间的相似度矩阵,提取候选物体;
S3,对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
S4,根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与步骤S1生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
S5,联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络。
其中,各个环节损失及最终多任务损失的具体计算方式为:
5.1)文本分类损失(Lcls):简单的交叉熵损失;
5.2)特征匹配损失(Lmatch):
Figure BDA0004101447750000075
其中,p、p′是由预训练的3D物体检测器检测到的一个物体,q、q′是一个查询语句;φ是一种相似度计算函数,此具体实施中为点积;
Figure BDA0004101447750000076
是物体与其对应查询语句对构成的集合,/>
Figure BDA0004101447750000077
物体与非对应查询语句对构成的集合;B是batch-size;
5.3)重建损失(Lrecon):
Figure BDA0004101447750000081
5.4)蒸馏损失(Ldistill):
Figure BDA0004101447750000082
其中,di为第i个物体的蒸馏伪标签,si为从多模态预测模块获得的第i个物体的预测分数;
5.5)多任务损失(Loverall):
Loverall=Ldistill1Lcls2Lmatch3Lrecon
将上述方法应用于以下实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
本发明在ScanRefer数据集上进行实验,并与多种先前工作进行横向对比。
为了评估本发明的方法和基线的性能,对ScanRefer数据集采用了R@n,IoU@m指标,该指标的具体意义为:与真实目标边界框相比,在前n个预测候选项中至少有一个IoU大于m的百分比;在本实施例中设定n∈{1,3},m∈{0.25,0.5}。
ScanRefer数据集基于Scan-Net数据集用51,583种语言描述标注了800个场景。每个场景平均有13.81个对象和64.48个描述。按照ScanRefer基准,实验中将训练/验证/测试集分别分为36,655、9,508和5,410个样本。数据可以分为“Unique”和“Multiple”两类,这取决于目标对象是否是场景中同类的唯一对象。为了全面评估本发明,下表1展示了本发明在“Unique”和“Multiple”子集上的准确性和总体准确性。
表1本发明在ScanRefer数据及上与其他先前方法进行比较
Figure BDA0004101447750000083
在本实施例中,与本发明进行对比的方法有:1)Random,从所有物体中随机选择一个候选物体作为预测结果;2)MIL-Margin,该方法提出了一种最大边界损失,以强制要求查询语句与对应场景之间的得分高于非对应的场景,反之亦然;3)MIL-NCE,该方法最大化了查询语句和其对应场景与查询句子和非对应的场景之间的互信息下限。
与Random方法相比,本发明在Scanrefer上展现了了巨大的优势,本发明能够有效地分析物体与句子之间的相似性;同时,本发明在很大程度上优于广泛使用的基于MIL的弱监督方法。这表明本发明能够深入挖掘3D场景与语句之间的对齐关系,并找到最具语义相关性的物体。在具有挑战性的ScanRefer的“Multiple”中,本发明同样能够展示出优异的性能。在这些子集中,存在具有相同类别的干扰物体,需要对句子进行全面理解以区分所描述的对象。这个问题导致其他方法陷入捆紧,而在本发明中,语义重建模块能够有效地处理这个问题。
在本实施例中还提供了一种基于语义匹配知识蒸馏的3D视觉定位系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
本实施例提供的一种基于语义匹配知识蒸馏的3D视觉定位系统,包括:
3D物体检测器,其用于从给定的点云中提取物体及其物体类别;
属性编码器,其用于编码物体特征;
文本编码器,其用于编码与给定点云匹配的查询语句的文本特征;
文本分类器,其用于编码文本类别;
跨模态匹配网络模块,其用于对物体和查询语句进行特征匹配,生成每一个物体的预测分数;
粗粒度候选物体选择模块,其用于根据物体和查询语句之间的相似度矩阵,从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体;
细粒度语义匹配模块,其用于对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
知识蒸馏模块,其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
联合训练模块,其用于联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络模块;
3D视觉定位模块,其用于利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (10)

1.一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,包括如下步骤:
1)从给定的点云中提取物体及其物体类别、物体特征;以及,从与给定点云匹配的查询语句中提取文本特征、文本类别;采用跨模态匹配网络对物体和查询语句进行特征匹配,生成每一个物体的预测分数并计算特征匹配损失;
2)根据物体和查询语句之间的相似度矩阵,提取候选物体;
3)对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
4)根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与步骤1)生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失;
5)联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络;
6)利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
2.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的物体和查询语句之间的相似度矩阵为:
Figure FDA0004101447740000011
其中,
Figure FDA0004101447740000012
表示相似度矩阵,/>
Figure FDA0004101447740000013
分别表示物体特征和查询语句的文本特征,/>
Figure FDA0004101447740000014
分别表示物体类别和查询语句的文本类别,φ(.)表示相似度计算函数,Mc表示类别变换矩阵。
3.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的步骤3)包括:
3.1)向查询语句中加入掩码,将查询语句中的重要词汇屏蔽;
3.2)获取掩码后查询语句的文本特征;
3.3)计算各候选物体的跨模态语义表示:
Figure FDA0004101447740000015
其中,fk表示第k个候选物体的跨模态语义表示,fi k表示第k个候选物体与掩码后查询语句中第i个单词的跨模态语义表示,
Figure FDA0004101447740000016
表示第k个候选物体特征,/>
Figure FDA0004101447740000017
表示掩码后查询语句的文本特征,Dec(·,·)是一个Transformer解码器,cq表示查询语句中单词的数量;
3.4)根据各候选物体对步骤3.1)被屏蔽的重要词汇进行重建,计算各候选物体关于词汇表的能量分布:
Figure FDA0004101447740000021
其中,
Figure FDA0004101447740000022
是第k个候选物体对第i个预测词汇的能量分布,Nv是词汇表中的单词数量;W和b是可学习参数;
3.5)根据各候选物体的能量分布计算各候选物体的重建损失;
3.6)计算各候选物体的语义匹配分数:
Figure FDA0004101447740000023
其中,rk表示第k个候选物体的重建损失在全部候选物体重建损失中的排名,
Figure FDA0004101447740000024
表示第k个候选物体的语义匹配分数,K表示候选物体的数量。
4.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的重要词汇包括目标物体、目标物体的特征属性及其与场景中其他物体的关系。
5.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的重建损失为:
Figure FDA0004101447740000025
其中,qi+1表示查询语句中的第i+1个单词,
Figure FDA0004101447740000026
表示条件概率。
6.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的文本类别由可训练的文本分类器实现。
7.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,用于从给定的点云中提取物体及其物体类别、物体特征;以及,用于从与给定点云匹配的查询语句中提取文本特征、文本类别的模型为预训练模型或者待训练模型;当采用预训练模型时,其参数在步骤5)训练过程中不更新,当采用待训练模型时,其参数在步骤5)训练过程中与跨模态匹配网络同步更新,并引入待训练模型的训练损失。
8.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法,其特征在于,所述的步骤4)包括:
4.1)将候选物体的语义匹配分数填充到候选物体的原始索引,并用0填充其余非候选物体的索引,生成蒸馏伪标签;
4.2)将跨模态匹配网络生成的每一个物体的预测分数与伪标签对齐,进行语义匹配知识蒸馏,蒸馏损失计算公式为:
Figure FDA0004101447740000031
其中,Ldistill表示蒸馏损失,di表示第i个物体的蒸馏伪标签,si表示第i个物体的预测分数,Mp表示从给定的点云中提取物体的数量。
9.一种基于语义匹配知识蒸馏的3D视觉定位系统,其特征在于,包括:
3D物体检测器,其用于从给定的点云中提取物体及其物体类别;
属性编码器,其用于编码物体特征;
文本编码器,其用于编码与给定点云匹配的查询语句的文本特征;
文本分类器,其用于编码文本类别;
跨模态匹配网络模块,其用于对物体和查询语句进行特征匹配,生成每一个物体的预测分数;
粗粒度候选物体选择模块,其用于从由3D物体检测器提取的全部物体中选择候选物体;
细粒度语义匹配模块,其用于对与给定点云匹配的查询语句进行重要词汇掩码,根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数;
知识蒸馏模块,其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签,将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐,将语义匹配分数蒸馏到跨模态匹配网络中,计算蒸馏损失,
联合训练模块,其用于联合特征匹配损失、重建损失和蒸馏损失,训练跨模态匹配网络模块;
3D视觉定位模块,其用于利用训练好的跨模态匹配网络进行3D视觉定位,将预测分数最高的物体作为定位结果。
10.根据权利要求9所述的一种基于语义匹配知识蒸馏的3D视觉定位系统,其特征在于,所述的粗粒度候选物体选择模块,根据物体和查询语句之间的相似度矩阵,从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体。
CN202310177617.XA 2023-02-28 2023-02-28 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统 Pending CN116363212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310177617.XA CN116363212A (zh) 2023-02-28 2023-02-28 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310177617.XA CN116363212A (zh) 2023-02-28 2023-02-28 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统

Publications (1)

Publication Number Publication Date
CN116363212A true CN116363212A (zh) 2023-06-30

Family

ID=86939052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310177617.XA Pending CN116363212A (zh) 2023-02-28 2023-02-28 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统

Country Status (1)

Country Link
CN (1) CN116363212A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884003A (zh) * 2023-07-18 2023-10-13 南京领行科技股份有限公司 图片自动标注方法、装置、电子设备及存储介质
CN117216225A (zh) * 2023-10-19 2023-12-12 四川大学 一种基于三模态知识蒸馏的3d视觉问答方法
CN117315030A (zh) * 2023-10-18 2023-12-29 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及系统
CN117830601A (zh) * 2024-03-04 2024-04-05 深圳大学 一种基于弱监督的三维视觉定位方法、装置、设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884003A (zh) * 2023-07-18 2023-10-13 南京领行科技股份有限公司 图片自动标注方法、装置、电子设备及存储介质
CN116884003B (zh) * 2023-07-18 2024-03-22 南京领行科技股份有限公司 图片自动标注方法、装置、电子设备及存储介质
CN117315030A (zh) * 2023-10-18 2023-12-29 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及系统
CN117315030B (zh) * 2023-10-18 2024-04-16 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及系统
CN117216225A (zh) * 2023-10-19 2023-12-12 四川大学 一种基于三模态知识蒸馏的3d视觉问答方法
CN117216225B (zh) * 2023-10-19 2024-06-04 四川大学 一种基于三模态知识蒸馏的3d视觉问答方法
CN117830601A (zh) * 2024-03-04 2024-04-05 深圳大学 一种基于弱监督的三维视觉定位方法、装置、设备及介质
CN117830601B (zh) * 2024-03-04 2024-05-24 深圳大学 一种基于弱监督的三维视觉定位方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN108804530B (zh) 对图像的区域加字幕
Wang et al. Learning latent opinions for aspect-level sentiment classification
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN116363212A (zh) 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
Wicker et al. Multi-label classification using boolean matrix decomposition
Zhang et al. Multi-modal multi-label emotion detection with modality and label dependence
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
Mi et al. Knowledge-aware cross-modal text-image retrieval for remote sensing images
Bucher et al. Semantic bottleneck for computer vision tasks
Parvin et al. Transformer-based local-global guidance for image captioning
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
Kovvuri et al. Pirc net: Using proposal indexing, relationships and context for phrase grounding
CN111985548A (zh) 一种标签引导的跨模态深度哈希方法
WO2022085533A1 (ja) 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
CN114926716A (zh) 一种学习参与度识别方法、装置、设备及可读存储介质
Hakimov et al. Evaluating architectural choices for deep learning approaches for question answering over knowledge bases
WO2021131324A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
CN116521924A (zh) 一种基于多尺度语义扫描的图文互检索方法及系统
Devkota et al. Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination