CN116363212A

CN116363212A - 一种基于语义匹配知识蒸馏的3d视觉定位方法和系统

Info

Publication number: CN116363212A
Application number: CN202310177617.XA
Authority: CN
Inventors: 赵洲; 朱亦陈; 王泽寒; 黄海烽; 赵阳; 陈哲乾
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd; Zhejiang University ZJU
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd; Zhejiang University ZJU
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-30

Abstract

本发明公开了一种基于语义匹配知识蒸馏的3D视觉定位方法和系统，属于视觉定位领域，在典型的两阶段3D视觉定位模型基础上，根据物体和查询语句之间的相似度矩阵，提取候选物体；对查询语句进行重要词汇掩码，根据候选物体与掩码词汇的语义重构结果计算重建损失和语义匹配分数，生成全部物体的蒸馏伪标签，将蒸馏伪标签与生成的每一个物体的预测分数对齐，将语义匹配分数蒸馏到跨模态匹配网络中，计算蒸馏损失，联合各损失训练跨模态匹配网络；利用训练好的跨模态匹配网络进行3D视觉定位，将预测分数最高的物体作为定位结果。本发明发挥经过充分研究的3D视觉定位模型结构的优势，有效降低推理成本并进一步提高模型性能，并证明了其有效性。

Description

一种基于语义匹配知识蒸馏的3D视觉定位方法和系统

技术领域

本发明涉及3D视觉定位任务，尤其涉及一种基于语义匹配知识蒸馏的3D视觉定位方法和系统。

背景技术

3D视觉定位任务的目标是根据任意格式的语言提示在3D点云中定位目标物体，其在VR/AR以及自动机器人领域有着极为广泛的应用。尽管3D视觉定位领域的研究取得了很大进展，但先前的工作均需要为每个查询语句标注匹配的边界框。不幸的是，3D点云中细粒度边界框的标注所需的成本非常昂贵。因此，本发明专注于3D视觉定位的弱监督学习，它只需要场景—语句对进行训练。显然，场景级的标签更容易获得，其只需要指示物体在3D场景中是否存在，而无需特定的位置信息。

然而，弱监督3D视觉定位存在两个挑战。首先，3D点云中充斥着大量属于不同类别的物体，查询语句中可能包含除目标物体之外的多个物体以帮助定位目标物体。在不知道真实的物体—语句对的情况下，很难从大量可能的物体—语句对中学习，并将语句与其对应的物体联系起来。其次，在3D视觉定位任务中，场景中往往存在多个与目标物体同类别的干扰物体，需要根据给定语句描述的物体属性和物体之间的关系来区分目标物体。

发明内容

为同时解决目前存在的两大挑战，本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位方法和系统，通过提取物体候选项，并根据特征相似度和类相似度矩阵粗略选定K个候选物体；将选定的候选物体逐个用于重建查询语句的关键字掩码，重建结果的准确性能够很好地反映每个候选物体与查询语句的语义相似性；将由粗略到精细的语义匹配知识蒸馏为典型的两阶段3D视觉定位模型，发挥经过充分研究的3D视觉定位模型结构的优势，有效降低推理成本并进一步提高模型性能。

为了实现上述目的，本发明采用的技术方案是：

第一方面，本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位方法，包括如下步骤：

1)从给定的点云中提取物体及其物体类别、物体特征；以及，从与给定点云匹配的查询语句中提取文本特征、文本类别；采用跨模态匹配网络对物体和查询语句进行特征匹配，生成每一个物体的预测分数并计算特征匹配损失；

2)根据物体和查询语句之间的相似度矩阵，提取候选物体；

3)对与给定点云匹配的查询语句进行重要词汇掩码，根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数；

4)根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签，将所述的蒸馏伪标签与步骤1)生成的每一个物体的预测分数对齐，将语义匹配分数蒸馏到跨模态匹配网络中，计算蒸馏损失；

5)联合特征匹配损失、重建损失和蒸馏损失，训练跨模态匹配网络；

6)利用训练好的跨模态匹配网络进行3D视觉定位，将预测分数最高的物体作为定位结果。

进一步地，所述的物体和查询语句之间的相似度矩阵为：

其中，

表示相似度矩阵，/>

分别表示物体特征和查询语句的文本特征，

分别表示物体类别和查询语句的文本类别，φ(.)表示相似度计算函数，M^c表示类别变换矩阵。

进一步地，所述的步骤3)包括：

3.1)向查询语句中加入掩码，将查询语句中的重要词汇屏蔽；

3.2)获取掩码后查询语句的文本特征；

3.3)计算各候选物体的跨模态语义表示：

其中，f^k表示第k个候选物体的跨模态语义表示，f_i ^k表示第k个候选物体与掩码后查询语句中第i个单词的跨模态语义表示，

表示第k个候选物体特征，/>

表示掩码后查询语句的文本特征，Dec(·,·)是一个Transformer解码器，N_q表示查询语句中单词的数量；

3.4)根据各候选物体对步骤3.1)被屏蔽的重要词汇进行重建，计算各候选物体关于词汇表的能量分布：

其中，

是第k个候选物体对第i个预测词汇的能量分布，N_v是词汇表中的单词数量；W和b是可学习参数；

3.5)根据各候选物体的能量分布计算各候选物体的重建损失；

3.6)计算各候选物体的语义匹配分数：

其中，r^k表示第k个候选物体的重建损失在全部候选物体重建损失中的排名，

表示第k个候选物体的语义匹配分数，K表示候选物体的数量。

进一步地，所述的重要词汇包括目标物体、目标物体的特征属性及其与场景中其他物体的关系。

进一步地，所述的重建损失为：

其中，q_i+1表示查询语句中的第i+1个单词，

表示条件概率。

进一步地，所述的文本类别由可训练的文本分类器实现。

进一步地，用于从给定的点云中提取物体及其物体类别、物体特征；以及，用于从与给定点云匹配的查询语句中提取文本特征、文本类别的模型为预训练模型或者待训练模型；当采用预训练模型时，其参数在步骤5)训练过程中不更新，当采用待训练模型时，其参数在步骤5)训练过程中与跨模态匹配网络同步更新，并引入待训练模型的训练损失。

进一步地，所述的步骤4)包括：

4.1)将候选物体的语义匹配分数填充到候选物体的原始索引，并用0填充其余非候选物体的索引，生成蒸馏伪标签；

4.2)将跨模态匹配网络生成的每一个物体的预测分数与伪标签对齐，进行语义匹配知识蒸馏，蒸馏损失计算公式为：

其中，L_distill表示蒸馏损失，d_i表示第i个物体的蒸馏伪标签，s_i表示第i个物体的预测分数，M_p表示从给定的点云中提取物体的数量。

第二方面，本发明提出了一种基于语义匹配知识蒸馏的3D视觉定位系统，包括：

3D物体检测器，其用于从给定的点云中提取物体及其物体类别；

属性编码器，其用于编码物体特征；

文本编码器，其用于编码与给定点云匹配的查询语句的文本特征；

文本分类器，其用于编码文本类别；

跨模态匹配网络模块，其用于对物体和查询语句进行特征匹配，生成每一个物体的预测分数；

粗粒度候选物体选择模块，其用于从由3D物体检测器提取的全部物体中选择候选物体；

细粒度语义匹配模块，其用于对与给定点云匹配的查询语句进行重要词汇掩码，根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数；

知识蒸馏模块，其用于根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签，将所述的蒸馏伪标签与跨模态匹配网络模块生成的每一个物体的预测分数对齐，将语义匹配分数蒸馏到跨模态匹配网络中，计算蒸馏损失，

联合训练模块，其用于联合特征匹配损失、重建损失和蒸馏损失，训练跨模态匹配网络模块；

3D视觉定位模块，其用于利用训练好的跨模态匹配网络进行3D视觉定位，将预测分数最高的物体作为定位结果。

进一步地，所述的粗粒度候选物体选择模块，根据物体和查询语句之间的相似度矩阵，从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体。

总的来说，本发明具备的有益效益包括：

1.本发明是第一个关于3D视觉定位任务中弱监督背景的工作，它摒弃了耗时且昂贵的密集物体—语句标注，只需要场景—语句级别的标签；

2.本发明将弱监督3D视觉定位任务视为一个由粗到细的语义匹配问题，并提出一个由粗到细的语义匹配模型来分析每个提议与句子之间的相似性；本发明将粗到细的语义匹配知识蒸馏到两阶段3D视觉定位模型中，以充分利用经过良好设计的网络结构，从而进一步提高了模型性能并降低推理成本；

3.大量的实验结果表明，在三个广泛使用的基准数据集ScanRefer,Nr3D和Sr3D上，本发明展示了极好的表现和性能。

附图说明

图1是本发明实施例示出的基于语义匹配知识蒸馏的3D视觉定位方法的整体框架；

图2是本发明实施例示出的具体模型架构。

具体实施方式

下面结合附图对本发明做进一步阐述和说明。

如图1所示，本发明提出的基于语义匹配知识蒸馏的3D视觉定位方法主要包括如下步骤：

1.建立当下主流的两阶段范式3D视觉定位工作流水线，具体为：

1.1)使用预训练的3D物体检测器从给定的点云

中提取物体及其物体类别/>

使用属性编码器得到物体特征/>

1.2)使用预训练的文本编码器从与给定点云匹配的查询语句

中提取文本特征/>

q_i表示查询语句中的第i个单词，N_q表示查询语句中单词的数量；使用文本分类器的得到文本类别/>

1.3)由多模态预测模块进行物体和文本间的跨模态匹配，所述的多模态预测模块以物体特征

和文本特征/>

为输入，能够生成物体的预测分数。

2.构建粗粒度候选物体选择模块，通过计算由预训练的3D物体检测器检测到的所有物体和查询语句之间的物体—语句相似度矩阵，提取前K个可能的物体作为候选物体；具体为：

考虑到从预训练的3D物体检测器中提取出相当多的高质量物体，从类级别和特征级别综合计算所有物体和查询语句之间的相似度矩阵；

对于类级别，部署基于类别名之间词向量相似度的类别变换矩阵

其中/>

和/>

分别表示物体和查询语句的类别数量；利用该类别变换矩阵实现物体类别和语句类别的对齐；

对于特征级别，以对比学习的方式对齐物体和句查询语句的特征表示，将同一场景中的正物体—查询语句对拉近，并在语义空间中将负物体—查询语句对推开，其中同一场景的所有物体—查询语句作为正对，其余作为负对；

综合上述，计算物体和查询语句之间的相似度矩阵

为：

其中，

分别表示编码后的物体特征和编码后的查询语句文本特征，/>

分别表示物体和查询语句类别；φ是一种相似度计算函数，此具体实施中为点积；M_p是由预训练的3D物体检测器检测到的物体数量，N_q表示查询语句中单词的数量，d是特征维度；

根据得到的物体和查询语句之间的相似度矩阵

从M_p个物体特征/>

中粗略地选出前K个候选物体特征/>

过滤掉不属于目标类别的物体。

3.构建细粒度语义匹配模块，根据每个候选物体—语句对的语义重构结果生成更准确的伪标签；具体为：

3.1)向查询语句中加入掩码，将查询语句中的重要词汇屏蔽，例如目标物体、目标物体的特征属性及其与场景中其他物体的关系等；

3.2)将掩码后的查询语句输入步骤1中建立的文本编码器，得到其输出的掩码文本特征，记为

3.3)对于步骤2中得到的K个候选物体特征

其中第k个候选物体特征为

计算其跨模态语义表示/>

为：

其中，Dec(·,·)是一个Transformer解码器，f_i ^k是第k个候选物体与第i个单词的跨模态语义表示；3.4)根据每一个候选物体对步骤3.1)被屏蔽的重要词汇进行重建，可计算其关于该词汇表的能量分布

为：

其中，

是第k个候选物体对第i个预测词汇的能量分布，N_v是词汇表中的单词数量；/>

和/>

是连接层中的可学习参数；

3.5)根据步骤3.4)中得到的每一个候选物体的能量分布，计算其重建损失为：

其中，q_i+1表示查询语句中的第i+1个单词，

表示条件概率；将所有候选物体的能量分布记为L_recon；

3.6)根据以上信息计算每一个候选物体的语义匹配分数

为：

其中，r^k是将L_recon按升序排列后

在其中的排名；根据该函数即可生成经过良好蒸馏的伪标签。

3.借助细粒度语义匹配模块中生成的伪标签，将语义匹配知识蒸馏到多模态预测模块中，充分利用现有模型架构并显著降低推理成本；具体为：

4.1)将候选物体的语义匹配分数

填充到候选物体的原始索引，并用0填充其余非候选物体的索引，从而生成蒸馏伪标签/>

4.2)将预测分数

与伪标签对齐进行语义匹配知识蒸馏，其中预测分数是从步骤1中建立的多模态预测模块获得的。

5.综合以上模块和流程对步骤1中建立的多模态预测模块进行训练，直到得到性能表现稳定且优异的训练结果为止；结合图2，可知其具体的数据流动方式，如下：

S1，从给定的点云中提取物体及其物体类别、物体特征；以及，从与给定点云匹配的查询语句中提取文本特征、文本类别；采用跨模态匹配网络对物体和查询语句进行特征匹配，生成每一个物体的预测分数并计算特征匹配损失；

S2，根据物体和查询语句之间的相似度矩阵，提取候选物体；

S3，对与给定点云匹配的查询语句进行重要词汇掩码，根据候选物体与掩码词汇的语义重构结果计算重建损失与每一个候选物体的语义匹配分数；

S4，根据每一个候选物体的语义匹配分数生成全部物体的蒸馏伪标签，将所述的蒸馏伪标签与步骤S1生成的每一个物体的预测分数对齐，将语义匹配分数蒸馏到跨模态匹配网络中，计算蒸馏损失，

S5，联合特征匹配损失、重建损失和蒸馏损失，训练跨模态匹配网络。

其中，各个环节损失及最终多任务损失的具体计算方式为：

5.1)文本分类损失(L_cls)：简单的交叉熵损失；

5.2)特征匹配损失(L_match)：

其中，p、p′是由预训练的3D物体检测器检测到的一个物体，q、q′是一个查询语句；φ是一种相似度计算函数，此具体实施中为点积；

是物体与其对应查询语句对构成的集合，/>

物体与非对应查询语句对构成的集合；B是batch-size；

5.3)重建损失(L_recon)：

5.4)蒸馏损失(L_distill)：

其中，d_i为第i个物体的蒸馏伪标签，s_i为从多模态预测模块获得的第i个物体的预测分数；

5.5)多任务损失(L_overall)：

L_overall＝L_distill+λ₁L_cls+λ₂L_match+λ₃L_recon

将上述方法应用于以下实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

本发明在ScanRefer数据集上进行实验，并与多种先前工作进行横向对比。

为了评估本发明的方法和基线的性能，对ScanRefer数据集采用了R@n,IoU@m指标，该指标的具体意义为：与真实目标边界框相比，在前n个预测候选项中至少有一个IoU大于m的百分比；在本实施例中设定n∈{1,3},m∈{0.25,0.5}。

ScanRefer数据集基于Scan-Net数据集用51,583种语言描述标注了800个场景。每个场景平均有13.81个对象和64.48个描述。按照ScanRefer基准，实验中将训练/验证/测试集分别分为36,655、9,508和5,410个样本。数据可以分为“Unique”和“Multiple”两类，这取决于目标对象是否是场景中同类的唯一对象。为了全面评估本发明，下表1展示了本发明在“Unique”和“Multiple”子集上的准确性和总体准确性。

表1本发明在ScanRefer数据及上与其他先前方法进行比较

在本实施例中，与本发明进行对比的方法有：1)Random，从所有物体中随机选择一个候选物体作为预测结果；2)MIL-Margin，该方法提出了一种最大边界损失，以强制要求查询语句与对应场景之间的得分高于非对应的场景，反之亦然；3)MIL-NCE，该方法最大化了查询语句和其对应场景与查询句子和非对应的场景之间的互信息下限。

与Random方法相比，本发明在Scanrefer上展现了了巨大的优势，本发明能够有效地分析物体与句子之间的相似性；同时，本发明在很大程度上优于广泛使用的基于MIL的弱监督方法。这表明本发明能够深入挖掘3D场景与语句之间的对齐关系，并找到最具语义相关性的物体。在具有挑战性的ScanRefer的“Multiple”中，本发明同样能够展示出优异的性能。在这些子集中，存在具有相同类别的干扰物体，需要对句子进行全面理解以区分所描述的对象。这个问题导致其他方法陷入捆紧，而在本发明中，语义重建模块能够有效地处理这个问题。

在本实施例中还提供了一种基于语义匹配知识蒸馏的3D视觉定位系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

本实施例提供的一种基于语义匹配知识蒸馏的3D视觉定位系统，包括：

属性编码器，其用于编码物体特征；

文本分类器，其用于编码文本类别；

粗粒度候选物体选择模块，其用于根据物体和查询语句之间的相似度矩阵，从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体；

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，包括如下步骤：

2)根据物体和查询语句之间的相似度矩阵，提取候选物体；

2.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，所述的物体和查询语句之间的相似度矩阵为：

其中，

表示相似度矩阵，/>

分别表示物体特征和查询语句的文本特征，/>

3.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，所述的步骤3)包括：

3.1)向查询语句中加入掩码，将查询语句中的重要词汇屏蔽；

3.2)获取掩码后查询语句的文本特征；

3.3)计算各候选物体的跨模态语义表示：

表示第k个候选物体特征，/>

表示掩码后查询语句的文本特征，Dec(·,·)是一个Transformer解码器，c_q表示查询语句中单词的数量；

其中，

3.5)根据各候选物体的能量分布计算各候选物体的重建损失；

3.6)计算各候选物体的语义匹配分数：

4.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，所述的重要词汇包括目标物体、目标物体的特征属性及其与场景中其他物体的关系。

5.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，所述的重建损失为：

其中，q_i+1表示查询语句中的第i+1个单词，

表示条件概率。

6.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，所述的文本类别由可训练的文本分类器实现。

7.根据权利要求3所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，用于从给定的点云中提取物体及其物体类别、物体特征；以及，用于从与给定点云匹配的查询语句中提取文本特征、文本类别的模型为预训练模型或者待训练模型；当采用预训练模型时，其参数在步骤5)训练过程中不更新，当采用待训练模型时，其参数在步骤5)训练过程中与跨模态匹配网络同步更新，并引入待训练模型的训练损失。

8.根据权利要求1所述的一种基于语义匹配知识蒸馏的3D视觉定位方法，其特征在于，所述的步骤4)包括：

9.一种基于语义匹配知识蒸馏的3D视觉定位系统，其特征在于，包括：

属性编码器，其用于编码物体特征；

文本分类器，其用于编码文本类别；

10.根据权利要求9所述的一种基于语义匹配知识蒸馏的3D视觉定位系统，其特征在于，所述的粗粒度候选物体选择模块，根据物体和查询语句之间的相似度矩阵，从给定的点云中提取的全部物体中选择相似度最高的K个物体作为候选物体。