CN117370498B

CN117370498B - 一种3d开放词汇检测与密集字幕生成统一的建模方法

Info

Publication number: CN117370498B
Application number: CN202311358367.6A
Authority: CN
Inventors: 雷印杰; 瞿诗义; 马浩统; 刘洋; 李鹏; 刘杰; 张敏
Original assignee: Sichuan University; Institute of Optics and Electronics of CAS; CETC 10 Research Institute
Current assignee: Sichuan University; Institute of Optics and Electronics of CAS; CETC 10 Research Institute
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-06-14
Anticipated expiration: 2043-10-19
Also published as: CN117370498A

Abstract

本发明公开了一种3D开放词汇检测与密集字幕生成统一的建模方法，涉及计算机视觉与自然语言处理交叉领域。本发明的方法首先为了实现密集字幕数据和检测数据构建了统一的数据格式。随着数据的统一，模型架构在密集字幕数据和检测数据上采用统一的预训练范式。对于开发词汇的目标检测任务，利用CLIP多模态大模型的图像文本语义关联实现3D场景的跨模态表征学习，从而使得3D模型骨干网络能够具备开发词汇的目标检测能力，并为密集字幕生成提供基础。本发明既能检测和识别给定类别列表中的概念，又能为新概念或罕见类别的对象生成相应的自然语言描述。

Description

一种3D开放词汇检测与密集字幕生成统一的建模方法

技术领域

本发明涉及计算机视觉与自然语言处理交叉领域，更具体的说是涉及一种3D开放词汇检测与密集字幕生成统一的建模方法。

背景技术

3D密集字幕生成任务，作为一个新兴的跨视觉语言的任务，旨在从一系列点云中辨别和定位每个目标并为其生成一个独特的自然语言描述。与传统的2D图像字幕生成相比，3D密集字幕生成任务更具挑战性，因为它需要考虑到场景中物体的三维形状、位置信息以及不同目标间的关系。

传统的目标检测模型通常在有限数量的类上进行训练，导致模型无法扩展到在训练中没有出现的类别上，这与现实世界中存在的大量对象类相违背。而开放词汇的目标检测则具有更大的灵活性，可以在未知目标类别出现时进行识别并检测。实现开放式词汇检测需要模型学习一般表征，并将这些表征与文本线索联系起来。在2D图像领域，由于存在大量图像文本数据，相关方向已经存在深入的研究，例如，CLIP模型通过对大规模的图像和文本数据进行对齐学习，使得图像和文本表示最终在一个共享的嵌入空间中具有相似的语义表示。然而，由于数据收集和注释的困难，在点云领域，收集大量类的数据的典型方法是具有挑战性的。此外，获取大规模的点云字幕数据目前是不可行的，这进一步阻碍了点云模型学习联系点云表征与文本提示的能力。面对这些问题，通过实现从现有的预先训练的图像模型到3D点云模型的知识迁移来解决开放词汇的问题成为目前有效的解决方法。

而在现有的开放词汇目标检测方法的推理阶段，仍然需要预定义的类别空间，并且只有属于该空间的对象才会被预测。因此，如何解决这一问题是本领域技术人员亟需研究的。

发明内容

有鉴于此，本发明提供了一种3D开放词汇检测与密集字幕生成统一的建模方法，使得模型既能检测和识别给定类别列表中的概念，又能为新概念或罕见类别的对象生成相应的自然语言描述。

为了实现上述目的，本发明采用如下技术方案：

一种3D开放词汇检测与密集字幕生成统一的建模方法，包括以下步骤：

根据3D场景数据集获取文本特征和点云数据，并剪切3D场景数据集的图像；

分别提取剪切后的完整图像和局部图像的全部特征和全局特征；

对点云数据编码和解码分别获取编码特征和候选特征；

将全部特征和编码特征对齐，计算第一对比损失，将全局特征和候选特征对齐，计算第二对比损失；

提取候选特征对应的文本特征，将候选特征与文本特征计算第三对比损失；

利用第一对比损失，第二对比损失以及第三对比损失对3D模型骨干网络进行预训练；

以点云场景输入至预训练完成后的3D模型骨干网络中，计算检测损失；

利用检测损失和交叉熵损失函数对3D模型骨干网络训练，得到OpenCap模型。

可选的，所述3D场景数据集包括3D目标检测数据集和3D密集字幕生成数据集。

可选的，全部特征和全局特征的计算公式如下：

h＝f′_2D(C)；

h′＝f_2D(C′_j)；

式中，f′_2D(·)表示CLIP图像编码器但未包含最终池化的模型，f_2D(·)表示完整的CLIP图像编码器模型，h∈R^h×w×d表示完整图像C经过f′_2D(·)输出的完整特征；h′∈R^o×d为完整图像对应的所有局部图像经过完整CLIP图像编码器后输出的最终特征向量的总和，O为完整图像筛选得到的目标数量。

可选的，对点云数据编码和解码的具体过程为：对于输入的点云数据V∈R^N×(3+F)，经过3DETR的TransformerEncoder生成N′个场景编码特征向量，将对应点云坐标和特征表示为[p_e；m_e]∈R^{N′×(3+d′)}；3DETR解码器将N′个点云特征和一组查询嵌入作为输入，产生一组候选特征，并用于预测3D边界框。

可选的，第一对比损失的计算公式如下：

其中，cos(·)表示特征之间的余弦距离，τ是温度超参数，B表示对应的像素-点云数据对的集合，是来自图像特征h的第i个像素特征，/>是对应于/>的来自特征m^3D中的第j个点云特征，(i，j)对应关系根据像素-点云数据对应关系确定。

可选的，OpenCap模型包括对齐模块，点云编辑器，点云解码器，查询向量生成模块，检测模块和字幕生成模块；所述点云编辑器一端与所述对齐模块连接，另一端与点云解码器连接；所述点云编辑器还通过查询向量生成模块与所述点云解码器连接；所述点云解码器与检测模块和字幕生成模块连接。

可选的，还包括从候选特征中选择出对应候选框投影至2D图像后与每个2D候选框高度重合的候选特征w_s，将候选特征w_s输入检测模块提取出候选框以及分类得分，并计算检测损失。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种3D开放词汇检测与密集字幕生成统一的建模方法，具有以下有益效果：

1、实现一种将开放词汇检测与密集字幕生成任务统一的方法。

2、普适性强，模型既能检测和识别给定类别列表中的概念，又能为新概念或罕见类别的对象生成相应的自然语言描述。

3、准确率高，添加字幕任务有利于检测性能的泛化，提高其准确度。

4、速度快，单一数据从输入模型到检测框以及字幕生成完成总体耗时在0.1秒内。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的整体流程示意图；

图2为本发明的模型结构示意图；

图3为本发明的模型流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种3D开放词汇检测与密集字幕生成统一的建模方法，该方法首先实现密集字幕数据和检测数据构建了统一的数据格式。随着数据的统一，模型架构在密集字幕数据和检测数据上采用统一的预训练范式。对于开发词汇的目标检测任务，利用CLIP多模态大模型的图像文本语义关联实现3D场景的跨模态表征学习，从而使得3D模型骨干网络能够具备开发词汇的目标检测能力，并为密集字幕生成提供基础。对于密集字幕预训练，本发明采用了一个密集字幕生成模块，以预测的建议特征为输入，生成相应的字幕描述。具体包括以下步骤：

根据3D场景数据集获取文本特征和点云数据，并对剪切3D场景数据集的图像；

对点云数据编码和解码分别获取编码特征和候选特征；

其中OpenCap模型为开放词汇检测与密集字幕生成任务统一的模型。

进一步的，参见图1-图3详细技术方案如下：

步骤1)对3D点云场景数据集提供的图像、点云数据进行预处理，构建图像-点云数据对。另外，通过构造概念词典对3D目标检测数据集进行文本扩充，使其具备文本信息。

步骤2)利用2D预先训练的目标检测模型对图像进行剪切，提取局部目标图像。

步骤3)将完整图像与步骤2)得到的局部目标图像输入至CLIP模型的图像编码器中，提取相应特征。

步骤4)将点云数据输入至3DETR模型，提取编码后的点云场景特征向量以及候选目标特征，并通过检测模块提取出候选框以及分类得分。

步骤5)将步骤3)提取得到的2D图像特征与步骤4)提取得到的3D点云特征进行对齐，计算对比损失。在此基础上将步骤4)得到的候选框以及分类得分与真实标签计算检测损失。

步骤6)将步骤1)得到的目标检测数据集对应的概念词典文本和3D密集字幕数据集的文本描述输入至CLIP模型的文本编辑器提取文本特征，并将其与步骤4)得到的候选目标特征进行对齐，计算对比损失。

步骤7)通过步骤5)和步骤6)计算得到的损失值完成模型在3D目标检测数据集和3D密集字幕生成数据集上的检测预训练过程。

步骤8)将点云场景输入预训练模型，提取候选特征并输入至字幕生成器，计算描述损失，训练模型。

在步骤1)中，本发明需要使用两个3D场景数据集，分别是3D目标检测数据集SUNRGB-D以及3D密集字幕生成数据集ScanRefer。本发明为SUNRGB-D数据集设计了概念词典，为其提供文本信息并扩充其语义信息。对于ScanRefer数据集，本发明对数据集提供的点云数据和图像数据进行预处理，构造出点云-图像数据对。用[x，y，1]^T表示2D点在像素坐标的位置，用[x_p，y_p，z_p，1]^T表示点云在世界坐标中的位置，可以通过相机位姿T_i∈R^4×4、相机内参K∈R^3×4，将点从世界坐标映射到像素坐标，反之亦然。计算公式如下：

[x，y，1]^T＝KT_i[x_p，y_p，z_p，1]^T，#(1)

其中，K就是相机内参，固定值参数，是数据集自带的，也就是相机自己的相关参数。在给定场景的第i帧，通过将其深度图D_i反向投影到相机空间并将计算的点映射到具有相机姿态T_i的世界空间来识别世界空间中的哪些点云对应于它。通过上述方法，图像像素值I_i和对应的点云V_i形成2D-3D的数据对(I_i，V_i)。

在步骤2)中，由于CLIP模型不具备检测能力，本发明利用预先训练的模型(例如Detic、Mask R-CNN、Fast R-CNN)对图像进行剪切，从而引入额外的检测信息，增强模型的定位能力。

在步骤3)中，CLIP模型包含图像编码器和文本编码器两个部分，其中图像编码器有两种结构可以选择，分别是ResNet网络结构以及ViT结构。在本发明中选择ResNet结构的图像编码器完成特征提取。对于输入的完整图像C∈R^H×W×3，本发明提取其最后一层输出的全部特征h，对于输入的第j张局部目标图像C′_j，本发明提取其全局特征h′_j，相关计算公式如下：

h＝f′_2D(C)，#(2)

h′_j＝f_2D(C′_j)，#(3)

式中，f′_2D(·)表示CLIP图像编码器但未包含最终池化的模型，f_2D(·)表示完整的CLIP图像编码器模型，h∈R^h×w×d表示完整图像C经过f′_2D(·)输出的完整特征。h′∈R^o×d为完整图像对应的所有局部图像经过完整CLIP图像编码器后输出的最终特征向量的总和，o为完整图像筛选得到的目标数量。

在步骤4)中，对于输入的点云数据V∈R^N×(3+F)，首先经过3DETR的TransformerEncoder生成N′个场景编码特征向量，将对应点云坐标和特征表示为[pe；me]∈R^N′×(3+d)。3DETR解码器将N′个点云特征和一组查询嵌入作为输入，以产生一组候选特征，并用于预测3D边界框。本发明使用基于[p_e；m_e]生成的查询向量[p_q；m_q]作为3DETR的查询嵌入输入，通过该处理可以引入3D空间偏差和内容相关信息，从而加快模型训练并提高模型性能。相关过程由如下公式表示：

m_e＝f_3D(V)，#(4)

w＝g_3D((p_q，m_q)，m_e)，#(5)

其中，f_3D(·)、g_3D(·)分别表示3DETR模型的编码器和解码器。对于查询向量[p_q；m_q]∈R^k×(3+d)的生成过程，首先将编码特征m_e输入至FFN网络中学习点云的空间偏置Δp，将网络输出与其对应的点云坐标相加得到N个目标的空间中心位置p_v。为避免模型生成大量不必要的候选框，本发明通过最远点采样(FPS)从p_e中采样出k个点p_s并定位每个点对应的偏置估计，从而得到p_q＝p_s+Δp′，最后，通过set-abstraction层从[p_e；m_e]中收集特征，以形成投票查询特征m_q。计算公式如下：

p_v＝p_e+Δp＝p_e+FFN(m_e).#(6)

其中，FFN为网络模型基本结构。

在步骤5)中，本发明采用了两阶段的对齐方式。首先将步骤3)生成的完整图像特征h与步骤4)生成的编码特征m_e进行对齐，由于CLIP编码特征的特征维度和大小已经固定，本发明将编码特征m_e输入至对齐模块生成特征m^3D∈R^M×d，用该特征与特征h∈R^h×w×d进行对齐及计算对比损失。对齐模块由set-abstraction层和FC层组成。对比损失计算公式如下：

或写成：

其中，cos(·)表示特征之间的余弦距离，τ是温度超参数，是来自图像特征h的第i个像素特征，/>是对应于/>的来自特征m^3D中的第j个点云特征，(i，j)对应关系根据像素-点云数据对应关系确定，B表示对应的像素-点云数据对的集合。

之后将特征h′与候选特征w进行对齐。本发明从候选特征w中选择出其对应候选框投影至2D图像后与每个2D候选框高度重合的一定数量的候选特征w_s，并通过FC层得到与h′_j特征维度相同的候选特征w′∈R^M′×d，最终实现特征h′与w′的对齐，对比损失与上式类似，不再重复。

对于候选特征w_s，将其输入检测模块提取出候选框以及分类得分令其中/>表示预测框的中心坐标以及长宽高大小，/>表示候选框的角度相对值，/>表示K个语义对象类和“背景”类上的概率分布。在真实标签b与预测结果/>之间计算检测损失，检测损失包括分类损失/>中心回归损失/>检测框大小回归损失/>以及方向回归损失/>其中，对中心回归损失、检测框大小回归损失采用l₁回归损失函数，对方向回归损失采用Huber回归损失，对分类损失的计算采用交叉熵损失函数计算公式如下：

步骤6)通过CLIP文本编码器提取对应候选特征w′的文本特征t，在特征h′与候选特征w′进行对齐的基础上，进行特征h′与文本特征t的对齐，计算对比损失对比损失计算公式与步骤5)类似，不再重复。

在步骤7)中，对于目标检测数据集，损失包括了对齐损失以及检测损失。对于密集字幕生成数据集，损失仅计算对齐损失。

其中，分别是步骤5)和步骤6)中得到的两阶段的图像点云对比损失以及文本点云对比损失，/>为对齐损失的总和。

在步骤8)中，在预训练完成的检测模型基础上，以点云场景作为输入，提取其候选特征后，将特征输入至检测模块和密集字幕生成模块中，生成检测框和字幕描述，并与真实标签计算损失函数。其中，检测损失计算过程与上述相同。对于描述生成的损失，本发明在生成的令牌概率上应用传统的交叉熵损失函数/>将两个损失项线性组合得到最终的损失函数，计算公式如下：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种3D开放词汇检测与密集字幕生成统一的建模方法，其特征在于，包括以下步骤：

对点云数据编码和解码分别获取编码特征和候选特征；

利用检测损失和交叉熵损失函数对3D模型骨干网络训练，得到OpenCap模型；

对点云数据编码和解码的具体过程为：对于输入的点云数据V∈R^N×(3+F)，其中，R为维度空间标识，N表示点云的点数量，3表示点云的XYZ坐标特征，F表示为每个输入点添加的额外特征数量，经过3DETR的Transformer Encoder生成N′个场景编码特征向量，将对应点云坐标和特征表示为[p_e；m_e]∈R^{N′×(3+d′)}，其中，p_e∈R^N′×3表示N'个点的XYZ坐标，d'表示生成的特征向量的维度，m_e∈R^N'×d'表示生成的N'个点的特征；3DETR解码器将N′个点云特征和一组查询嵌入作为输入，产生一组候选特征，并用于预测3D边界框；

第一对比损失的计算公式如下：

其中，2D代表图像，3D代表点云，cos(·)表示特征之间的余弦距离，τ是温度超参数，B表示对应的像素-点云数据对的集合，是来自图像特征h的第i个像素特征，是对应于/>的来自特征m^3D中的第j个点云特征，(i，j)对应关系根据像素-点云数据对应关系确定；公式中的p、q表示累加和运算的变量符号，/>表示特征的第p个特征分量，∑_(·,p)(·)表示为/> 表示图像特征/>的第q个特征分量，∑_(q,·)(·)表示为/>

2.根据权利要求1所述的一种3D开放词汇检测与密集字幕生成统一的建模方法，其特征在于，所述3D场景数据集包括3D目标检测数据集和3D密集字幕生成数据集。

3.根据权利要求1所述的一种3D开放词汇检测与密集字幕生成统一的建模方法，其特征在于，全部特征和全局特征的计算公式如下：

h′＝f′_2D(C)；

h′＝f_2D(C′j₎)；

4.根据权利要求1所述的一种3D开放词汇检测与密集字幕生成统一的建模方法，其特征在于，OpenCap模型包括对齐模块，点云编辑器，点云解码器，查询向量生成模块，检测模块和字幕生成模块；所述点云编辑器一端与所述对齐模块连接，另一端与点云解码器连接；所述点云编辑器还通过查询向量生成模块与所述点云解码器连接；所述点云解码器与检测模块和字幕生成模块连接。

5.根据权利要求1所述的一种3D开放词汇检测与密集字幕生成统一的建模方法，其特征在于，还包括从候选特征中选择出对应候选框投影至2D图像后与每个2D候选框高度重合的候选特征w_s，将候选特征w_s输入检测模块提取出候选框以及分类得分，并计算检测损失。