CN116152267A

CN116152267A - 基于对比性语言图像预训练技术的点云实例分割方法

Info

Publication number: CN116152267A
Application number: CN202310448684.0A
Authority: CN
Inventors: 潘磊; 栾五洋; 田俊; 郑远; 傅强; 张永; 王艾; 赵枳晴; 李俊辉; 王梦琪
Original assignee: Civil Aviation Flight University of China
Current assignee: Civil Aviation Flight University of China
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-05-23
Anticipated expiration: 2043-04-24
Also published as: CN116152267B

Abstract

本发明涉及基于对比性语言图像预训练技术的点云实例分割方法，包括步骤：获取点云数据，进行预处理后，得到文本信息、点云训练数据集；构建跨模态预训练模型，跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络；将点云训练数据集输入稀疏卷积神经网络，得到体素级别的点云特征；将文本信息与体素级别的点云特征进行融合，得到融合点云特征；对融合点云特征进行线性投影得到实例掩码特征，对文本信息提取出文本特征，将融合点云特征、实例掩码特征、文本特征输入预训练编码网络，得到查询的向量值；将查询的向量值输入预测网络，得到分割的实例结果。本发明在将融合点云特征和文本特征整合在一起，能够更好地捕获这两类信息。

Description

基于对比性语言图像预训练技术的点云实例分割方法

技术领域

本发明涉及图像处理和计算机视觉技术领域，特别涉及一种基于对比性语言图像预训练技术的点云实例分割方法。

背景技术

三维实例点云分割是计算机视觉领域中的一个重要任务，目的是将三维空间中的点云数据划分为各个实例对象。近年来，随着传感器技术的发展以及三维数据在各个领域的广泛应用，如自动驾驶、机器人导航、智能监控等，三维实例点云分割技术越来越受到关注。有效的实例点云分割算法可以为这些应用提供更加准确和可靠的场景解析，从而提高任务的执行效率。

传统的三维实例点云分割方法主要基于几何特征和拓扑关系进行分割，这些方法通常依赖于手工设计的特征提取器和启发式分割策略，因此在处理复杂场景和多样化对象时，分割效果受到限制。近年来，随着深度学习技术的发展，许多基于深度神经网络的三维实例点云分割方法被提出。这些方法能够学习到更为丰富和高层次的特征表示，从而提高分割性能。然而，这些方法仍然面临一些挑战，例如如何有效的处理大规模、无序的点云数据，以及如何捕捉到点云中的多尺度信息和长距离依赖关系。一些方法尝试引入卷积神经网络来处理点云数据，但直接将二维卷积迁移到三维空间可能会导致计算复杂度的显著增加以及细节丢失。另一些方法则专注于解决点云分割中的某些特定问题，例如噪声抑制、遮挡处理等，但忽略了问题间的相关性。

早期的三维实例点云分割方法主要依赖于基于几何特征和拓扑关系的策略。几何特征方法通过分析点云数据的局部几个属性来划分实例，虽然在一定程度上可以提高分割精度，但由于缺乏对全局信息的考虑，容易导致分割结果的不稳定和不准确。拓扑关系方法主要基于点云数据的连接性进行分割，但在处理复杂结构和密集场景时，往往会受到噪声和遮挡的影像。

事实上，三维实例点云分割涉及到的特征信息包括局部几何、全局拓扑以及实例语义等多个层次，这些特征之间并非完全独立。例如，全局拓扑信息有助于识别连通的实例，而局部几何信息则有助于恢复实例边界。因此，在设计三维实例点云分割方法时，需要充分考虑这些特征之间的相互关系和影响。

发明内容

本发明的目的在于改善现有技术中所存在的不足，提供一种基于对比性语言图像预训练技术的点云实例分割方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

基于对比性语言图像预训练技术的点云实例分割方法，包括以下步骤：

步骤1，获取点云数据，进行预处理后，得到文本信息、点云训练数据集；

步骤2，构建跨模态预训练模型，所述跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络；将所述点云训练数据集输入稀疏卷积神经网络，得到体素级别的点云特征；将所述文本信息与体素级别的点云特征进行融合，得到融合点云特征；对融合点云特征进行线性投影得到实例掩码特征，对文本信息提取出文本特征，将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络，得到查询的向量值；将查询的向量值输入所述预测网络，得到分割的实例结果；

步骤3，使用点云训练数据集对所述跨模态预训练模型进行训练，当跨模态预训练模型收敛到设定值后，得到训练后的跨模态预训练模型；

步骤4，将实时捕获的点云数据输入跨模态预训练模型，得到点云数据的实例结果。

所述步骤1具体包括以下步骤：获取若干场景下的点云数据，进行预处理，生成点云数据集，所述点云数据集中包含的信息为：

{scan_IDs，voxel_coords，p2v_map，v2p_map，spatial_shape，feats，superpoints，batch_offsets，insts，lang_feat}

其中，scan_IDs指场景的ID，用于唯一标识一个场景；

voxel_coords指体素坐标，表示点云数据在离散体素空间中的坐标；

p2v_map指点云数据到体素的映射，用于将原始点云数据中的点映射到对应的体素中；

v2p_map指体素到点云数据的映射，用于将体素中的点映射到对应的原始点云数据中；

spatial_shape指离散体素空间的形状，表示体素网格的尺寸；

feats指点云数据的特征，包括点的位置、颜色、法向量；

superpoints指用于提高点云处理性能的高级特征表示；

batch_offsets指批次偏移，用于在批处理过程中标识不同场景的数据边界；

insts指实例标签，表示点云数据中每个点所属的实例；

lang_feat指每个场景下点云数据的文本信息；

将点云数据集中除文本信息外的其他信息作为点云训练数据集。

所述步骤2中，将所述点云训练数据集输入稀疏卷积神经网络，得到体素级别的点云特征的步骤，包括：

所述稀疏卷积神经网络包括编码器、解码器，编码器中的卷积层计算特征图：

X_{i+1}=f(W_i*X_i+b_i)

其中，X_i表示输入编码器的特征图，X_{i+1}表示编码器输出的特征图；W_i、b_i分别表示卷积层的权重矩阵和偏置向量；*表示卷积操作；f表示激活函数；

解码器中的反卷积层计算特征图：

Z_{i+1} = g(W'_i &Z_i + b'_i)

其中，Z_i表示输入解码器的特征图，Z_{i+1}表示解码器输出的特征图；W'_i 、b'_i分别表示反卷积层的权重矩阵和偏置向量；&表示反卷积操作；g表示激活函数；

解码器中的跳跃连接操作融合特征图：

C_i = concat(X_{n-i}, Z_i)

其中，C_i表示融合后的特征图；concat表示特征图的拼接操作；X_{n-i}表示编码器第n-i层输出的特征图；Z_i表示解码器第i层输出的特征图。

所述步骤2中，对融合点云特征进行线性投影得到实例掩码特征，对文本信息提取出文本特征，将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络，得到查询的向量值的步骤，包括：

所述预训练编码网络包括自注意力模块、对比性语言图像预训练模块；

将融合点云特征作为被查询的向量K和查询得到的值V输入所述自注意力模块；

将文本特征输入所述对比性语言图像预训练模块，对文本特征进行编码提取、采样以及随机删除来防止过拟合，生成要查询的信息Q输入所述自注意力模块；

组注意力模块将文本特征映射到查询的信息Q，将融合点云特征映射到被查询的向量K、查询得到的值V：

Q = W_q * T + b_q

K = W_k * P + b_k

V = W_v * P + b_v

其中，T是输入的文本特征，P是融合点云特征，W_q、W_k、W_v为权重矩阵，b_q、b_k、b_v为偏置向量；

查询矩阵之间的点积，进行缩放和归一化处理，计算注意力权重矩阵A：

其中，d_k是被查询的向量K的维度；T表示转置；softmax用于归一化处理；sqrt表示根号。

所述对比性语言图像预训练模块包括图像编码器、文本编码器，通过图像编码器和文本编码器最大化文本特征与相关图像之间的相似度，最小化文本特征与非相关图像之间的相似度；

所述对比性语言图像预训练模块的损失函数为：

其中，x_i表示文本编码器输出的文本向量，y_i表示图像编码器输出的与x_i相关的图像向量，y_j表示图像编码器输出的与x_i非相关的图像向量；sim( )表示计算两个向量之间的点积相似度；

表示温度参数，N表示批次数量。

所述预训练编码网络的总损失函数为：

其中，F_t为经过自注意力模块处理的文本特征，F_p为经过自注意力模块处理的融合点云特征；I为文本特征和融合点云特征的互信息，用于计算语义一致性损失；L_sc(I)是语义一致性损失；L_mf(K, F_t, F_p)是多尺度融合损失，基于自注意力模块中的总层数K以及处理后的文本特征F_t和融合点云特征F_p确定；

S是可解释性约束，如激活映射或注意力权重的稀疏性；L_int(S,F_t,F_p)是可解释性损失，基于可解释性约束S以及处理后的文本特征F_t和融合点云特征F_p确定；

其中L_all为总损失函数；α、β、γ分别为语义一致性损失、多尺度融合损失和可解释性损失的权重系数。

所述步骤2中，将查询的向量值输入所述预测网络，得到分割的实例结果的步骤，包括：

使用查询的向量值得到预测注意力掩码、预测掩码、预测得分、预测分类，其中对预测掩码通过sigmoid函数进行二值化处理：

M = sigmoid(W_m * Q+ b_m)

其中，M是预测掩码；W_m、b_m分别为权重矩阵和偏置向量；

计算预测得分和预测分类：

S = W_s * Q+ b_s

C = W_c * Q+ b_c

其中，S是预测得分，C是预测分类；W_s 、W_c为权重矩阵； b_s、b_c为偏置向量；

使用匈牙利算法结合实例掩码特征和预测注意力掩码进行二分匹配，使得实例掩码特征和预测注意力掩码之间的距离最小，得到最佳的预测掩码、预测得分、预测分类，获取预测得分最高的前k个实例作为结果输出。

与现有技术相比，本发明的有益效果：

本发明在全分辨率上提取点云数据的融合点云特征，并在空间域上获取文本特征，通过将这两类特征整合在一起，共同进行分割，能够更好地捕获这两类信息，并在分割过程中学习两类特征之间的关系，本能够更好地提取细节特征、文本特征并实现协同分割。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例对点云数据进行预处理的示意图；

图2为本发明实施例跨模态预训练模型的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外，术语“相连”、“连接”等可以是元件之间直接相连，也可以是经由其他元件的间接相连。

实施例：

本发明通过下述技术方案实现，如图1所示，一种基于对比性语言图像预训练技术的点云实例分割方法，包括以下步骤：

步骤1，获取点云数据，进行预处理后，得到文本信息、点云训练数据集。

请参见图1，获取1500个场景下的点云数据，进行预处理，生成点云数据集，所述点云数据集中包含的信息有：

其中，scan_IDs是指场景的ID，用于唯一标识一个场景；

voxel_coords是指体素坐标，表示点云数据在离散体素空间中的坐标；

p2v_map是指点云数据到体素的映射，用于将原始点云数据中的点映射到对应的体素中；

v2p_map是指体素到点云数据的映射，用于将体素中的点映射到对应的原始点云数据中；

spatial_shape是指离散体素空间的形状，表示体素网格的尺寸；

feats是指点云数据的特征，包括点的位置、颜色、法向量等；

superpoints是指用于提高点云处理性能的高级特征表示；

batch_offsets是指批次偏移，用于在批处理过程中标识不同场景的数据边界；

insts是指实例标签，表示点云数据中每个点所属的实例；

lang_feat是指每个场景下点云数据的文本信息。

将点云数据集中除文本信息（lang_feat）外的其他信息作为点云训练数据集。

在点云训练数据集中，对尺寸为H×W×3的点云数据进行栅格化处理，并利用Open3D对点云场景进行素体化操作，其中，H、W是点云数据的高度、宽度。随机采用平移、旋转、缩放、镜像等方式对点云数据进行增强，以提高后续模型训练的泛化能力。

步骤2，构建跨模态预训练模型，所述跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络。

请参见图2，所述跨模态预训练模型包括稀疏卷积神经网络（Sparse U-net）、预训练编码网络（Decoder）、预测网络（Prediction Head）。

将点云训练数据集分为多个批次，每次向所述稀疏卷积神经网络输入一个批次，稀疏卷积神经网络输出维度为M*D的体素级别的点云特征。将文本信息转换为K*D维度后与体素级别的点云特征进行融合，得到融合点云特征。

所述稀疏卷积神经网络用于图像分割任务，其结构包括一个编码器（下采样）和一个解码器（上采样）。编码器通过多次卷积操作和池化操作进行特征图的特征提取和空间尺寸减小，逐渐降低输入数据的空间分辨率，同时提取高层次的语义信息；解码器通过反卷积操作和跳跃连接操作进行特征图的空间尺寸恢复，逐渐恢复数据的空间分辨率，同时结合编码器输出的特征图进行特征融合。

编码器中的卷积层可以使用如下公式计算特征图：

X_{i+1}=f(W_i*X_i+b_i)

其中，X_i表示输入编码器的特征图，X_{i+1}表示编码器输出的特征图；W_i、b_i分别表示卷积层的权重矩阵和偏置向量；*表示卷积操作；f表示激活函数，如ReLU激活函数。每个卷积层后通常还会添加批量归一化层以提高稀疏卷积神经网络的训练稳定性。

解码器中的反卷积层可以使用如下公式计算特征图：

Z_{i+1} = g(W'_i & Z_i + b'_i)

其中，Z_i表示输入解码器的特征图，Z_{i+1}表示解码器输出的特征图；W'_i 、b'_i分别表示反卷积层的权重矩阵和偏置向量；&表示反卷积操作；g表示激活函数，如ReLU激活函数。

跳跃连接操作将编码器输出的特征图和解码器输出的特征图进行融合，从而保留更多的细节信息，跳跃连接操作可以使用如下公式表示：

C_i = concat(X_{n-i}, Z_i)

融合点云特征通过线性投影获得实例掩码特征，文本信息提取出文本特征，将融合点云特征、实例掩码特征、文本特征三个分支一同输入预训练编码网络。

请继续参见图2，所述预训练编码网络包括自注意力模块（Transformer）、对比性语言图像预训练模块（Contrastive Language-Image Pretraining）。将融合点云特征作为被查询的向量K和查询得到的值V输入所述自注意力模块。将文本特征输入所述对比性语言图像预训练模块，对文本特征进行编码提取、采样以及随机删除来防止过拟合，生成要查询的信息Q一同输入所述自注意力模块。

所述对比性语言图像预训练模块是一个联合学习视觉的文本表示的模型，通过对大量的图片和文本进行对比学习，从而实现图像和文本之间的映射。对比性语言图像预训练模块包括一个图像编码器和一个文本编码器，采用编解码结构，给定一个文本信息，文本编码器先将文本特征转换为单词或字词的向量表示，然后将这些向量作为要查询的信息Q输入自注意力模块。

文本编码器最终将文本特征转换为一个高维的向量表示，该向量表示包含了文本信息的语义信息。在对比性语言图像预训练模块中，文本编码器的输出与图像编码器的输出在同一个空间中，通过最大化文本特征和相关图像之间的相似度，同时最小化文本特征与非相关图像之间的相似度，对比性语言图像预训练模块能够学习到图像与文本之间的跨模态联合表示。这个过程可以通过对比损失函数来实现：

表示温度参数，N表示批次数量。

所述自注意力模块对K、V、Q进行交叉注意力机制的融合，再通过自注意力和归一化得到查询的向量值。所述自注意力模块的关键部分是自注意力机制，由多个自注意力层和前馈全连接层组成，自注意力层计算方法如下：

首先，将输入的融合点云特征和文本特征分别映射到查询的信息Q、被查询的向量K、查询得到的值V，这些映射可通过下式表示：

Q = W_q * T + b_q

K = W_k * P + b_k

V = W_v * P + b_v

其中，T是输入的文本特征，P是融合点云特征，W_q、W_k、W_v为权重矩阵，b_q、b_k、b_v为偏置向量。

自注意力模块在处理时，通过查询矩阵之间的点积，然后进行缩放和归一化处理，计算注意力权重矩阵A：

经过多个自注意力层和前馈全连接层后，输出查询的向量值，可以用来预测注意力掩码、预测掩码、预测得分、预测分类，其中对预测掩码通过sigmoid函数进行二值化处理：

M = sigmoid(W_m * Q+ b_m)

其中，M是预测掩码；W_m、b_m分别为权重矩阵和偏置向量。

预测得分和预测分类可以通过前馈全连接层进行计算：

S = W_s * Q+ b_s

C = W_c * Q+ b_c

其中，S是预测得分，C是预测分类；W_s 、W_c为权重矩阵； b_s、b_c

为偏置向量。

为了捕捉多尺度的特征，改进总损失函数通过多尺度融合损失鼓励自注意力模块在不同的抽象层次上融合文本特征与融合点云特征。这种多尺度策略有助于自注意力模块捕捉到更丰富的上下文信息，提高特征表示的表达能力。本方案设计一种名为 "多模态融合自适应损失函数”的创新总损失函数，用于监督文本特征和融合点云特征在自注意力模块中的融合情况，从而提高自注意力模块在多模态任务上的性能。该总损失函数引入了一种可解释性损失，以监督自注意力模块在融合过程中保留原始模态的可解释性，通过对融合特征应用可解释性约束，例如激活映射（Activation Map）或注意力权重的稀疏性。

多模态融合自适应损失函数为：

其中L_all为多模态融合自适应损失函数，即总损失函数；α、β、γ分别是语义一致性损失、多尺度融合损失和可解释性损失的权重系数，可通过交叉验证来调整，以平衡总损失函数中的各个部分。

请继续参见图2，自注意力模块向预测网络输出查询的向量值，通过预测网络生成预测注意力掩码、预测掩码、预测得分、预测分类，其中预测注意力掩码在下一次训练时输入所述自注意力模块。在预测分类时提供一个实例分类，防止预测的背景点过多影响反向传播。

使用匈牙利算法结合实例掩码特征和预测注意力掩码进行二分匹配，使得实例掩码特征和预测注意力掩码之间的距离最小，这样，可以得到最佳的预测掩码、预测得分、预测分类，获取预测得分最高的前k个实例作为结果。

步骤3，使用点云训练数据集对所述跨模态预训练模型进行训练，当跨模态预训练模型收敛到设定值后，得到训练后的跨模态预训练模型。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：所述步骤1具体包括以下步骤：获取若干场景下的点云数据，进行预处理，生成点云数据集，所述点云数据集中包含的信息为：

其中，scan_IDs指场景的ID，用于唯一标识一个场景；

spatial_shape指离散体素空间的形状，表示体素网格的尺寸；

feats指点云数据的特征，包括点的位置、颜色、法向量；

superpoints指用于提高点云处理性能的高级特征表示；

insts指实例标签，表示点云数据中每个点所属的实例；

lang_feat指每个场景下点云数据的文本信息；

3.根据权利要求1所述的基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：所述步骤2中，将所述点云训练数据集输入稀疏卷积神经网络，得到体素级别的点云特征的步骤，包括：

X_{i+1}=f(W_i*X_i+b_i)

解码器中的反卷积层计算特征图：

Z_{i+1} = g(W'_i & Z_i + b'_i)

解码器中的跳跃连接操作融合特征图：

C_i = concat(X_{n-i}, Z_i)

4.根据权利要求1所述的基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：所述步骤2中，对融合点云特征进行线性投影得到实例掩码特征，对文本信息提取出文本特征，将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络，得到查询的向量值的步骤，包括：

Q = W_q * T + b_q

K = W_k * P + b_k

V = W_v * P + b_v

5.根据权利要求4所述的基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：所述对比性语言图像预训练模块包括图像编码器、文本编码器，通过图像编码器和文本编码器最大化文本特征与相关图像之间的相似度，最小化文本特征与非相关图像之间的相似度；

所述对比性语言图像预训练模块的损失函数为：

表示温度参数，N表示批次数量。

6.根据权利要求5所述的基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：所述预训练编码网络的总损失函数为：

7.根据权利要求4所述的基于对比性语言图像预训练技术的点云实例分割方法，其特征在于：所述步骤2中，将查询的向量值输入所述预测网络，得到分割的实例结果的步骤，包括：

M = sigmoid(W_m * Q+ b_m)

其中，M是预测掩码；W_m、b_m分别为权重矩阵和偏置向量；

计算预测得分和预测分类：

S = W_s * Q+ b_s

C = W_c * Q+ b_c