CN116152267A - 基于对比性语言图像预训练技术的点云实例分割方法 - Google Patents

基于对比性语言图像预训练技术的点云实例分割方法 Download PDF

Info

Publication number
CN116152267A
CN116152267A CN202310448684.0A CN202310448684A CN116152267A CN 116152267 A CN116152267 A CN 116152267A CN 202310448684 A CN202310448684 A CN 202310448684A CN 116152267 A CN116152267 A CN 116152267A
Authority
CN
China
Prior art keywords
point cloud
training
text
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310448684.0A
Other languages
English (en)
Other versions
CN116152267B (zh
Inventor
潘磊
栾五洋
田俊
郑远
傅强
张永
王艾
赵枳晴
李俊辉
王梦琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation Flight University of China
Original Assignee
Civil Aviation Flight University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation Flight University of China filed Critical Civil Aviation Flight University of China
Priority to CN202310448684.0A priority Critical patent/CN116152267B/zh
Publication of CN116152267A publication Critical patent/CN116152267A/zh
Application granted granted Critical
Publication of CN116152267B publication Critical patent/CN116152267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于对比性语言图像预训练技术的点云实例分割方法,包括步骤:获取点云数据,进行预处理后,得到文本信息、点云训练数据集;构建跨模态预训练模型,跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络;将点云训练数据集输入稀疏卷积神经网络,得到体素级别的点云特征;将文本信息与体素级别的点云特征进行融合,得到融合点云特征;对融合点云特征进行线性投影得到实例掩码特征,对文本信息提取出文本特征,将融合点云特征、实例掩码特征、文本特征输入预训练编码网络,得到查询的向量值;将查询的向量值输入预测网络,得到分割的实例结果。本发明在将融合点云特征和文本特征整合在一起,能够更好地捕获这两类信息。

Description

基于对比性语言图像预训练技术的点云实例分割方法
技术领域
本发明涉及图像处理和计算机视觉技术领域,特别涉及一种基于对比性语言图像预训练技术的点云实例分割方法。
背景技术
三维实例点云分割是计算机视觉领域中的一个重要任务,目的是将三维空间中的点云数据划分为各个实例对象。近年来,随着传感器技术的发展以及三维数据在各个领域的广泛应用,如自动驾驶、机器人导航、智能监控等,三维实例点云分割技术越来越受到关注。有效的实例点云分割算法可以为这些应用提供更加准确和可靠的场景解析,从而提高任务的执行效率。
传统的三维实例点云分割方法主要基于几何特征和拓扑关系进行分割,这些方法通常依赖于手工设计的特征提取器和启发式分割策略,因此在处理复杂场景和多样化对象时,分割效果受到限制。近年来,随着深度学习技术的发展,许多基于深度神经网络的三维实例点云分割方法被提出。这些方法能够学习到更为丰富和高层次的特征表示,从而提高分割性能。然而,这些方法仍然面临一些挑战,例如如何有效的处理大规模、无序的点云数据,以及如何捕捉到点云中的多尺度信息和长距离依赖关系。一些方法尝试引入卷积神经网络来处理点云数据,但直接将二维卷积迁移到三维空间可能会导致计算复杂度的显著增加以及细节丢失。另一些方法则专注于解决点云分割中的某些特定问题,例如噪声抑制、遮挡处理等,但忽略了问题间的相关性。
早期的三维实例点云分割方法主要依赖于基于几何特征和拓扑关系的策略。几何特征方法通过分析点云数据的局部几个属性来划分实例,虽然在一定程度上可以提高分割精度,但由于缺乏对全局信息的考虑,容易导致分割结果的不稳定和不准确。拓扑关系方法主要基于点云数据的连接性进行分割,但在处理复杂结构和密集场景时,往往会受到噪声和遮挡的影像。
事实上,三维实例点云分割涉及到的特征信息包括局部几何、全局拓扑以及实例语义等多个层次,这些特征之间并非完全独立。例如,全局拓扑信息有助于识别连通的实例,而局部几何信息则有助于恢复实例边界。因此,在设计三维实例点云分割方法时,需要充分考虑这些特征之间的相互关系和影响。
发明内容
本发明的目的在于改善现有技术中所存在的不足,提供一种基于对比性语言图像预训练技术的点云实例分割方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
基于对比性语言图像预训练技术的点云实例分割方法,包括以下步骤:
步骤1,获取点云数据,进行预处理后,得到文本信息、点云训练数据集;
步骤2,构建跨模态预训练模型,所述跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络;将所述点云训练数据集输入稀疏卷积神经网络,得到体素级别的点云特征;将所述文本信息与体素级别的点云特征进行融合,得到融合点云特征;对融合点云特征进行线性投影得到实例掩码特征,对文本信息提取出文本特征,将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络,得到查询的向量值;将查询的向量值输入所述预测网络,得到分割的实例结果;
步骤3,使用点云训练数据集对所述跨模态预训练模型进行训练,当跨模态预训练模型收敛到设定值后,得到训练后的跨模态预训练模型;
步骤4,将实时捕获的点云数据输入跨模态预训练模型,得到点云数据的实例结果。
所述步骤1具体包括以下步骤:获取若干场景下的点云数据,进行预处理,生成点云数据集,所述点云数据集中包含的信息为:
{scan_IDs,voxel_coords,p2v_map,v2p_map,spatial_shape,feats,superpoints,batch_offsets,insts,lang_feat}
其中,scan_IDs指场景的ID,用于唯一标识一个场景;
voxel_coords指体素坐标,表示点云数据在离散体素空间中的坐标;
p2v_map指点云数据到体素的映射,用于将原始点云数据中的点映射到对应的体素中;
v2p_map指体素到点云数据的映射,用于将体素中的点映射到对应的原始点云数据中;
spatial_shape指离散体素空间的形状,表示体素网格的尺寸;
feats指点云数据的特征,包括点的位置、颜色、法向量;
superpoints指用于提高点云处理性能的高级特征表示;
batch_offsets指批次偏移,用于在批处理过程中标识不同场景的数据边界;
insts指实例标签,表示点云数据中每个点所属的实例;
lang_feat指每个场景下点云数据的文本信息;
将点云数据集中除文本信息外的其他信息作为点云训练数据集。
所述步骤2中,将所述点云训练数据集输入稀疏卷积神经网络,得到体素级别的点云特征的步骤,包括:
所述稀疏卷积神经网络包括编码器、解码器,编码器中的卷积层计算特征图:
X_{i+1}=f(W_i*X_i+b_i)
其中,X_i表示输入编码器的特征图,X_{i+1}表示编码器输出的特征图;W_i、b_i分别表示卷积层的权重矩阵和偏置向量;*表示卷积操作;f表示激活函数;
解码器中的反卷积层计算特征图:
Z_{i+1} = g(W'_i &Z_i + b'_i)
其中,Z_i表示输入解码器的特征图,Z_{i+1}表示解码器输出的特征图;W'_i 、b'_i分别表示反卷积层的权重矩阵和偏置向量;&表示反卷积操作;g表示激活函数;
解码器中的跳跃连接操作融合特征图:
C_i = concat(X_{n-i}, Z_i)
其中,C_i表示融合后的特征图;concat表示特征图的拼接操作;X_{n-i}表示编码器第n-i层输出的特征图;Z_i表示解码器第i层输出的特征图。
所述步骤2中,对融合点云特征进行线性投影得到实例掩码特征,对文本信息提取出文本特征,将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络,得到查询的向量值的步骤,包括:
所述预训练编码网络包括自注意力模块、对比性语言图像预训练模块;
将融合点云特征作为被查询的向量K和查询得到的值V输入所述自注意力模块;
将文本特征输入所述对比性语言图像预训练模块,对文本特征进行编码提取、采样以及随机删除来防止过拟合,生成要查询的信息Q输入所述自注意力模块;
组注意力模块将文本特征映射到查询的信息Q,将融合点云特征映射到被查询的向量K、查询得到的值V:
Q = W_q * T + b_q
K = W_k * P + b_k
V = W_v * P + b_v
其中,T是输入的文本特征,P是融合点云特征,W_q、W_k、W_v为权重矩阵,b_q、b_k、b_v为偏置向量;
查询矩阵之间的点积,进行缩放和归一化处理,计算注意力权重矩阵A:
Figure SMS_1
其中,d_k是被查询的向量K的维度;T表示转置;softmax用于归一化处理;sqrt表示根号。
所述对比性语言图像预训练模块包括图像编码器、文本编码器,通过图像编码器和文本编码器最大化文本特征与相关图像之间的相似度,最小化文本特征与非相关图像之间的相似度;
所述对比性语言图像预训练模块的损失函数为:
Figure SMS_2
其中,x_i表示文本编码器输出的文本向量,y_i表示图像编码器输出的与x_i相关的图像向量,y_j表示图像编码器输出的与x_i非相关的图像向量;sim( )表示计算两个向量之间的点积相似度;
Figure SMS_3
表示温度参数,N表示批次数量。
所述预训练编码网络的总损失函数为:
Figure SMS_4
其中,F_t为经过自注意力模块处理的文本特征,F_p为经过自注意力模块处理的融合点云特征;I为文本特征和融合点云特征的互信息,用于计算语义一致性损失;L_sc(I)是语义一致性损失;L_mf(K, F_t, F_p)是多尺度融合损失,基于自注意力模块中的总层数K以及处理后的文本特征F_t和融合点云特征F_p确定;
S是可解释性约束,如激活映射或注意力权重的稀疏性;L_int(S,F_t,F_p)是可解释性损失,基于可解释性约束S以及处理后的文本特征F_t和融合点云特征F_p确定;
其中Lall为总损失函数;α、β、γ分别为语义一致性损失、多尺度融合损失和可解释性损失的权重系数。
所述步骤2中,将查询的向量值输入所述预测网络,得到分割的实例结果的步骤,包括:
使用查询的向量值得到预测注意力掩码、预测掩码、预测得分、预测分类,其中对预测掩码通过sigmoid函数进行二值化处理:
M = sigmoid(W_m * Q+ b_m)
其中,M是预测掩码;W_m、b_m分别为权重矩阵和偏置向量;
计算预测得分和预测分类:
S = W_s * Q+ b_s
C = W_c * Q+ b_c
其中,S是预测得分,C是预测分类;W_s 、W_c为权重矩阵; b_s、b_c为偏置向量;
使用匈牙利算法结合实例掩码特征和预测注意力掩码进行二分匹配,使得实例掩码特征和预测注意力掩码之间的距离最小,得到最佳的预测掩码、预测得分、预测分类,获取预测得分最高的前k个实例作为结果输出。
与现有技术相比,本发明的有益效果:
本发明在全分辨率上提取点云数据的融合点云特征,并在空间域上获取文本特征,通过将这两类特征整合在一起,共同进行分割,能够更好地捕获这两类信息,并在分割过程中学习两类特征之间的关系,本能够更好地提取细节特征、文本特征并实现协同分割。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例对点云数据进行预处理的示意图;
图2为本发明实施例跨模态预训练模型的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外,术语“相连”、“连接”等可以是元件之间直接相连,也可以是经由其他元件的间接相连。
实施例:
本发明通过下述技术方案实现,如图1所示,一种基于对比性语言图像预训练技术的点云实例分割方法,包括以下步骤:
步骤1,获取点云数据,进行预处理后,得到文本信息、点云训练数据集。
请参见图1,获取1500个场景下的点云数据,进行预处理,生成点云数据集,所述点云数据集中包含的信息有:
{scan_IDs,voxel_coords,p2v_map,v2p_map,spatial_shape,feats,superpoints,batch_offsets,insts,lang_feat}
其中,scan_IDs是指场景的ID,用于唯一标识一个场景;
voxel_coords是指体素坐标,表示点云数据在离散体素空间中的坐标;
p2v_map是指点云数据到体素的映射,用于将原始点云数据中的点映射到对应的体素中;
v2p_map是指体素到点云数据的映射,用于将体素中的点映射到对应的原始点云数据中;
spatial_shape是指离散体素空间的形状,表示体素网格的尺寸;
feats是指点云数据的特征,包括点的位置、颜色、法向量等;
superpoints是指用于提高点云处理性能的高级特征表示;
batch_offsets是指批次偏移,用于在批处理过程中标识不同场景的数据边界;
insts是指实例标签,表示点云数据中每个点所属的实例;
lang_feat是指每个场景下点云数据的文本信息。
将点云数据集中除文本信息(lang_feat)外的其他信息作为点云训练数据集。
在点云训练数据集中,对尺寸为H×W×3的点云数据进行栅格化处理,并利用Open3D对点云场景进行素体化操作,其中,H、W是点云数据的高度、宽度。随机采用平移、旋转、缩放、镜像等方式对点云数据进行增强,以提高后续模型训练的泛化能力。
步骤2,构建跨模态预训练模型,所述跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络。
请参见图2,所述跨模态预训练模型包括稀疏卷积神经网络(Sparse U-net)、预训练编码网络(Decoder)、预测网络(Prediction Head)。
将点云训练数据集分为多个批次,每次向所述稀疏卷积神经网络输入一个批次,稀疏卷积神经网络输出维度为M*D的体素级别的点云特征。将文本信息转换为K*D维度后与体素级别的点云特征进行融合,得到融合点云特征。
所述稀疏卷积神经网络用于图像分割任务,其结构包括一个编码器(下采样)和一个解码器(上采样)。编码器通过多次卷积操作和池化操作进行特征图的特征提取和空间尺寸减小,逐渐降低输入数据的空间分辨率,同时提取高层次的语义信息;解码器通过反卷积操作和跳跃连接操作进行特征图的空间尺寸恢复,逐渐恢复数据的空间分辨率,同时结合编码器输出的特征图进行特征融合。
编码器中的卷积层可以使用如下公式计算特征图:
X_{i+1}=f(W_i*X_i+b_i)
其中,X_i表示输入编码器的特征图,X_{i+1}表示编码器输出的特征图;W_i、b_i分别表示卷积层的权重矩阵和偏置向量;*表示卷积操作;f表示激活函数,如ReLU激活函数。每个卷积层后通常还会添加批量归一化层以提高稀疏卷积神经网络的训练稳定性。
解码器中的反卷积层可以使用如下公式计算特征图:
Z_{i+1} = g(W'_i & Z_i + b'_i)
其中,Z_i表示输入解码器的特征图,Z_{i+1}表示解码器输出的特征图;W'_i 、b'_i分别表示反卷积层的权重矩阵和偏置向量;&表示反卷积操作;g表示激活函数,如ReLU激活函数。
跳跃连接操作将编码器输出的特征图和解码器输出的特征图进行融合,从而保留更多的细节信息,跳跃连接操作可以使用如下公式表示:
C_i = concat(X_{n-i}, Z_i)
其中,C_i表示融合后的特征图;concat表示特征图的拼接操作;X_{n-i}表示编码器第n-i层输出的特征图;Z_i表示解码器第i层输出的特征图。
融合点云特征通过线性投影获得实例掩码特征,文本信息提取出文本特征,将融合点云特征、实例掩码特征、文本特征三个分支一同输入预训练编码网络。
请继续参见图2,所述预训练编码网络包括自注意力模块(Transformer)、对比性语言图像预训练模块(Contrastive Language-Image Pretraining)。将融合点云特征作为被查询的向量K和查询得到的值V输入所述自注意力模块。将文本特征输入所述对比性语言图像预训练模块,对文本特征进行编码提取、采样以及随机删除来防止过拟合,生成要查询的信息Q一同输入所述自注意力模块。
所述对比性语言图像预训练模块是一个联合学习视觉的文本表示的模型,通过对大量的图片和文本进行对比学习,从而实现图像和文本之间的映射。对比性语言图像预训练模块包括一个图像编码器和一个文本编码器,采用编解码结构,给定一个文本信息,文本编码器先将文本特征转换为单词或字词的向量表示,然后将这些向量作为要查询的信息Q输入自注意力模块。
文本编码器最终将文本特征转换为一个高维的向量表示,该向量表示包含了文本信息的语义信息。在对比性语言图像预训练模块中,文本编码器的输出与图像编码器的输出在同一个空间中,通过最大化文本特征和相关图像之间的相似度,同时最小化文本特征与非相关图像之间的相似度,对比性语言图像预训练模块能够学习到图像与文本之间的跨模态联合表示。这个过程可以通过对比损失函数来实现:
Figure SMS_5
其中,x_i表示文本编码器输出的文本向量,y_i表示图像编码器输出的与x_i相关的图像向量,y_j表示图像编码器输出的与x_i非相关的图像向量;sim( )表示计算两个向量之间的点积相似度;
Figure SMS_6
表示温度参数,N表示批次数量。
所述自注意力模块对K、V、Q进行交叉注意力机制的融合,再通过自注意力和归一化得到查询的向量值。所述自注意力模块的关键部分是自注意力机制,由多个自注意力层和前馈全连接层组成,自注意力层计算方法如下:
首先,将输入的融合点云特征和文本特征分别映射到查询的信息Q、被查询的向量K、查询得到的值V,这些映射可通过下式表示:
Q = W_q * T + b_q
K = W_k * P + b_k
V = W_v * P + b_v
其中,T是输入的文本特征,P是融合点云特征,W_q、W_k、W_v为权重矩阵,b_q、b_k、b_v为偏置向量。
自注意力模块在处理时,通过查询矩阵之间的点积,然后进行缩放和归一化处理,计算注意力权重矩阵A:
Figure SMS_7
其中,d_k是被查询的向量K的维度;T表示转置;softmax用于归一化处理;sqrt表示根号。
经过多个自注意力层和前馈全连接层后,输出查询的向量值,可以用来预测注意力掩码、预测掩码、预测得分、预测分类,其中对预测掩码通过sigmoid函数进行二值化处理:
M = sigmoid(W_m * Q+ b_m)
其中,M是预测掩码;W_m、b_m分别为权重矩阵和偏置向量。
预测得分和预测分类可以通过前馈全连接层进行计算:
S = W_s * Q+ b_s
C = W_c * Q+ b_c
其中,S是预测得分,C是预测分类;W_s 、W_c为权重矩阵; b_s、b_c
为偏置向量。
为了捕捉多尺度的特征,改进总损失函数通过多尺度融合损失鼓励自注意力模块在不同的抽象层次上融合文本特征与融合点云特征。这种多尺度策略有助于自注意力模块捕捉到更丰富的上下文信息,提高特征表示的表达能力。本方案设计一种名为 "多模态融合自适应损失函数”的创新总损失函数,用于监督文本特征和融合点云特征在自注意力模块中的融合情况,从而提高自注意力模块在多模态任务上的性能。该总损失函数引入了一种可解释性损失,以监督自注意力模块在融合过程中保留原始模态的可解释性,通过对融合特征应用可解释性约束,例如激活映射(Activation Map)或注意力权重的稀疏性。
多模态融合自适应损失函数为:
Figure SMS_8
其中,F_t为经过自注意力模块处理的文本特征,F_p为经过自注意力模块处理的融合点云特征;I为文本特征和融合点云特征的互信息,用于计算语义一致性损失;L_sc(I)是语义一致性损失;L_mf(K, F_t, F_p)是多尺度融合损失,基于自注意力模块中的总层数K以及处理后的文本特征F_t和融合点云特征F_p确定;
S是可解释性约束,如激活映射或注意力权重的稀疏性;L_int(S,F_t,F_p)是可解释性损失,基于可解释性约束S以及处理后的文本特征F_t和融合点云特征F_p确定;
其中Lall为多模态融合自适应损失函数,即总损失函数;α、β、γ分别是语义一致性损失、多尺度融合损失和可解释性损失的权重系数,可通过交叉验证来调整,以平衡总损失函数中的各个部分。
请继续参见图2,自注意力模块向预测网络输出查询的向量值,通过预测网络生成预测注意力掩码、预测掩码、预测得分、预测分类,其中预测注意力掩码在下一次训练时输入所述自注意力模块。在预测分类时提供一个实例分类,防止预测的背景点过多影响反向传播。
使用匈牙利算法结合实例掩码特征和预测注意力掩码进行二分匹配,使得实例掩码特征和预测注意力掩码之间的距离最小,这样,可以得到最佳的预测掩码、预测得分、预测分类,获取预测得分最高的前k个实例作为结果。
步骤3,使用点云训练数据集对所述跨模态预训练模型进行训练,当跨模态预训练模型收敛到设定值后,得到训练后的跨模态预训练模型。
步骤4,将实时捕获的点云数据输入跨模态预训练模型,得到点云数据的实例结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:包括以下步骤:
步骤1,获取点云数据,进行预处理后,得到文本信息、点云训练数据集;
步骤2,构建跨模态预训练模型,所述跨模态预训练模型包括稀疏卷积神经网络、预训练编码网络、预测网络;将所述点云训练数据集输入稀疏卷积神经网络,得到体素级别的点云特征;将所述文本信息与体素级别的点云特征进行融合,得到融合点云特征;对融合点云特征进行线性投影得到实例掩码特征,对文本信息提取出文本特征,将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络,得到查询的向量值;将查询的向量值输入所述预测网络,得到分割的实例结果;
步骤3,使用点云训练数据集对所述跨模态预训练模型进行训练,当跨模态预训练模型收敛到设定值后,得到训练后的跨模态预训练模型;
步骤4,将实时捕获的点云数据输入跨模态预训练模型,得到点云数据的实例结果。
2.根据权利要求1所述的基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:所述步骤1具体包括以下步骤:获取若干场景下的点云数据,进行预处理,生成点云数据集,所述点云数据集中包含的信息为:
{scan_IDs,voxel_coords,p2v_map,v2p_map,spatial_shape,feats,superpoints,batch_offsets,insts,lang_feat}
其中,scan_IDs指场景的ID,用于唯一标识一个场景;
voxel_coords指体素坐标,表示点云数据在离散体素空间中的坐标;
p2v_map指点云数据到体素的映射,用于将原始点云数据中的点映射到对应的体素中;
v2p_map指体素到点云数据的映射,用于将体素中的点映射到对应的原始点云数据中;
spatial_shape指离散体素空间的形状,表示体素网格的尺寸;
feats指点云数据的特征,包括点的位置、颜色、法向量;
superpoints指用于提高点云处理性能的高级特征表示;
batch_offsets指批次偏移,用于在批处理过程中标识不同场景的数据边界;
insts指实例标签,表示点云数据中每个点所属的实例;
lang_feat指每个场景下点云数据的文本信息;
将点云数据集中除文本信息外的其他信息作为点云训练数据集。
3.根据权利要求1所述的基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:所述步骤2中,将所述点云训练数据集输入稀疏卷积神经网络,得到体素级别的点云特征的步骤,包括:
所述稀疏卷积神经网络包括编码器、解码器,编码器中的卷积层计算特征图:
X_{i+1}=f(W_i*X_i+b_i)
其中,X_i表示输入编码器的特征图,X_{i+1}表示编码器输出的特征图;W_i、b_i分别表示卷积层的权重矩阵和偏置向量;*表示卷积操作;f表示激活函数;
解码器中的反卷积层计算特征图:
Z_{i+1} = g(W'_i & Z_i + b'_i)
其中,Z_i表示输入解码器的特征图,Z_{i+1}表示解码器输出的特征图;W'_i 、b'_i分别表示反卷积层的权重矩阵和偏置向量;&表示反卷积操作;g表示激活函数;
解码器中的跳跃连接操作融合特征图:
C_i = concat(X_{n-i}, Z_i)
其中,C_i表示融合后的特征图;concat表示特征图的拼接操作;X_{n-i}表示编码器第n-i层输出的特征图;Z_i表示解码器第i层输出的特征图。
4.根据权利要求1所述的基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:所述步骤2中,对融合点云特征进行线性投影得到实例掩码特征,对文本信息提取出文本特征,将融合点云特征、实例掩码特征、文本特征输入所述预训练编码网络,得到查询的向量值的步骤,包括:
所述预训练编码网络包括自注意力模块、对比性语言图像预训练模块;
将融合点云特征作为被查询的向量K和查询得到的值V输入所述自注意力模块;
将文本特征输入所述对比性语言图像预训练模块,对文本特征进行编码提取、采样以及随机删除来防止过拟合,生成要查询的信息Q输入所述自注意力模块;
组注意力模块将文本特征映射到查询的信息Q,将融合点云特征映射到被查询的向量K、查询得到的值V:
Q = W_q * T + b_q
K = W_k * P + b_k
V = W_v * P + b_v
其中,T是输入的文本特征,P是融合点云特征,W_q、W_k、W_v为权重矩阵,b_q、b_k、b_v为偏置向量;
查询矩阵之间的点积,进行缩放和归一化处理,计算注意力权重矩阵A:
Figure QLYQS_1
其中,d_k是被查询的向量K的维度;T表示转置;softmax用于归一化处理;sqrt表示根号。
5.根据权利要求4所述的基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:所述对比性语言图像预训练模块包括图像编码器、文本编码器,通过图像编码器和文本编码器最大化文本特征与相关图像之间的相似度,最小化文本特征与非相关图像之间的相似度;
所述对比性语言图像预训练模块的损失函数为:
Figure QLYQS_2
其中,x_i表示文本编码器输出的文本向量,y_i表示图像编码器输出的与x_i相关的图像向量,y_j表示图像编码器输出的与x_i非相关的图像向量;sim( )表示计算两个向量之间的点积相似度;
Figure QLYQS_3
表示温度参数,N表示批次数量。
6.根据权利要求5所述的基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:所述预训练编码网络的总损失函数为:
Figure QLYQS_4
其中,F_t为经过自注意力模块处理的文本特征,F_p为经过自注意力模块处理的融合点云特征;I为文本特征和融合点云特征的互信息,用于计算语义一致性损失;L_sc(I)是语义一致性损失;L_mf(K, F_t, F_p)是多尺度融合损失,基于自注意力模块中的总层数K以及处理后的文本特征F_t和融合点云特征F_p确定;
S是可解释性约束,如激活映射或注意力权重的稀疏性;L_int(S,F_t,F_p)是可解释性损失,基于可解释性约束S以及处理后的文本特征F_t和融合点云特征F_p确定;
其中Lall为总损失函数;α、β、γ分别为语义一致性损失、多尺度融合损失和可解释性损失的权重系数。
7.根据权利要求4所述的基于对比性语言图像预训练技术的点云实例分割方法,其特征在于:所述步骤2中,将查询的向量值输入所述预测网络,得到分割的实例结果的步骤,包括:
使用查询的向量值得到预测注意力掩码、预测掩码、预测得分、预测分类,其中对预测掩码通过sigmoid函数进行二值化处理:
M = sigmoid(W_m * Q+ b_m)
其中,M是预测掩码;W_m、b_m分别为权重矩阵和偏置向量;
计算预测得分和预测分类:
S = W_s * Q+ b_s
C = W_c * Q+ b_c
其中,S是预测得分,C是预测分类;W_s 、W_c为权重矩阵; b_s、b_c为偏置向量;
使用匈牙利算法结合实例掩码特征和预测注意力掩码进行二分匹配,使得实例掩码特征和预测注意力掩码之间的距离最小,得到最佳的预测掩码、预测得分、预测分类,获取预测得分最高的前k个实例作为结果输出。
CN202310448684.0A 2023-04-24 2023-04-24 基于对比性语言图像预训练技术的点云实例分割方法 Active CN116152267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310448684.0A CN116152267B (zh) 2023-04-24 2023-04-24 基于对比性语言图像预训练技术的点云实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310448684.0A CN116152267B (zh) 2023-04-24 2023-04-24 基于对比性语言图像预训练技术的点云实例分割方法

Publications (2)

Publication Number Publication Date
CN116152267A true CN116152267A (zh) 2023-05-23
CN116152267B CN116152267B (zh) 2023-07-04

Family

ID=86356533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310448684.0A Active CN116152267B (zh) 2023-04-24 2023-04-24 基于对比性语言图像预训练技术的点云实例分割方法

Country Status (1)

Country Link
CN (1) CN116152267B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630633A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116721221A (zh) * 2023-08-08 2023-09-08 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN116740300A (zh) * 2023-06-16 2023-09-12 广东工业大学 一种基于多模态的素体与纹理融合家具模型重建方法
CN117014633A (zh) * 2023-10-07 2023-11-07 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117274388A (zh) * 2023-10-17 2023-12-22 四川大学 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
CN117315030A (zh) * 2023-10-18 2023-12-29 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及系统
CN117392386A (zh) * 2023-10-13 2024-01-12 浙江省测绘科学技术研究院 基于实例分割的超边掩码生成网络的分类训练方法及装置
CN117436443A (zh) * 2023-12-19 2024-01-23 苏州元脑智能科技有限公司 模型构建方法、文本生成方法、装置、设备及介质
CN117576786A (zh) * 2024-01-16 2024-02-20 北京大学深圳研究生院 基于视觉语言模型的三维人体行为识别网络训练方法
CN117634486A (zh) * 2024-01-26 2024-03-01 厦门大学 一种基于文本信息的指向性3d实例分割方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3767521A1 (en) * 2019-07-15 2021-01-20 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
CN114119615A (zh) * 2021-10-15 2022-03-01 浙江工业大学 一种融合空间注意力和自注意变换网络的雷达分割方法
CN114638954A (zh) * 2022-02-22 2022-06-17 深圳元戎启行科技有限公司 点云分割模型的训练方法、点云数据分割方法及相关装置
CN115375781A (zh) * 2022-07-20 2022-11-22 华为技术有限公司 一种数据处理方法及其装置
US20230035475A1 (en) * 2021-07-16 2023-02-02 Huawei Technologies Co., Ltd. Methods and systems for semantic segmentation of a point cloud
RU2791587C1 (ru) * 2022-05-18 2023-03-10 Самсунг Электроникс Ко., Лтд. Способ обеспечения компьютерного зрения
CN115984564A (zh) * 2023-01-09 2023-04-18 北京数字绿土科技股份有限公司 一种基于体素聚类和稀疏卷积的点云语义分割方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3767521A1 (en) * 2019-07-15 2021-01-20 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
US20230035475A1 (en) * 2021-07-16 2023-02-02 Huawei Technologies Co., Ltd. Methods and systems for semantic segmentation of a point cloud
CN114119615A (zh) * 2021-10-15 2022-03-01 浙江工业大学 一种融合空间注意力和自注意变换网络的雷达分割方法
CN114638954A (zh) * 2022-02-22 2022-06-17 深圳元戎启行科技有限公司 点云分割模型的训练方法、点云数据分割方法及相关装置
RU2791587C1 (ru) * 2022-05-18 2023-03-10 Самсунг Электроникс Ко., Лтд. Способ обеспечения компьютерного зрения
CN115375781A (zh) * 2022-07-20 2022-11-22 华为技术有限公司 一种数据处理方法及其装置
CN115984564A (zh) * 2023-01-09 2023-04-18 北京数字绿土科技股份有限公司 一种基于体素聚类和稀疏卷积的点云语义分割方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾军华;李炜;董永峰;: "基于点云数据的分割方法综述", 燕山大学学报, no. 02 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740300A (zh) * 2023-06-16 2023-09-12 广东工业大学 一种基于多模态的素体与纹理融合家具模型重建方法
CN116740300B (zh) * 2023-06-16 2024-05-03 广东工业大学 一种基于多模态的素体与纹理融合家具模型重建方法
CN116630633B (zh) * 2023-07-26 2023-11-07 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116630633A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116721221B (zh) * 2023-08-08 2024-01-12 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN116721221A (zh) * 2023-08-08 2023-09-08 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN117014633A (zh) * 2023-10-07 2023-11-07 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117014633B (zh) * 2023-10-07 2024-04-05 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117392386A (zh) * 2023-10-13 2024-01-12 浙江省测绘科学技术研究院 基于实例分割的超边掩码生成网络的分类训练方法及装置
CN117392386B (zh) * 2023-10-13 2024-05-10 浙江省测绘科学技术研究院 基于实例分割的超边掩码生成网络的分类训练方法及装置
CN117274388A (zh) * 2023-10-17 2023-12-22 四川大学 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
CN117274388B (zh) * 2023-10-17 2024-04-12 四川大学 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
CN117315030A (zh) * 2023-10-18 2023-12-29 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及系统
CN117315030B (zh) * 2023-10-18 2024-04-16 四川大学 基于渐进式点云-文本匹配的三维视觉定位方法及系统
CN117436443A (zh) * 2023-12-19 2024-01-23 苏州元脑智能科技有限公司 模型构建方法、文本生成方法、装置、设备及介质
CN117436443B (zh) * 2023-12-19 2024-03-15 苏州元脑智能科技有限公司 模型构建方法、文本生成方法、装置、设备及介质
CN117576786A (zh) * 2024-01-16 2024-02-20 北京大学深圳研究生院 基于视觉语言模型的三维人体行为识别网络训练方法
CN117576786B (zh) * 2024-01-16 2024-04-16 北京大学深圳研究生院 基于视觉语言模型的三维人体行为识别网络训练方法
CN117634486A (zh) * 2024-01-26 2024-03-01 厦门大学 一种基于文本信息的指向性3d实例分割方法
CN117634486B (zh) * 2024-01-26 2024-05-31 厦门大学 一种基于文本信息的指向性3d实例分割方法

Also Published As

Publication number Publication date
CN116152267B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN116152267B (zh) 基于对比性语言图像预训练技术的点云实例分割方法
Ricci et al. Monocular depth estimation using multi-scale continuous CRFs as sequential deep networks
Kozerawski et al. Clear: Cumulative learning for one-shot one-class image recognition
CN111444889A (zh) 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
Gong et al. Advanced image and video processing using MATLAB
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN116152611B (zh) 一种多级多尺度点云补全方法、系统、设备及存储介质
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
Thilahar et al. Fuzzy neuro-genetic approach for feature selection and image classification in augmented reality systems
Mandelli et al. CAD 3D Model classification by Graph Neural Networks: A new approach based on STEP format
CN115908697A (zh) 基于点云概率分布学习的生成模型及其方法
CN115995040A (zh) 一种基于多尺度网络的sar图像小样本目标识别方法
CN112365456B (zh) 基于三维点云数据的变电站设备分类方法
Zhang et al. Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition
CN114743123A (zh) 一种基于隐函数三维表示和图神经网络的场景理解方法
Lang et al. Adaptivity of conditional random field based outdoor point cloud classification
Lü et al. Tree Detection Algorithm Based on Embedded YOLO Lightweight Network
Memon et al. Invariant Loop Closure Detection Using Step-Wise Learning With Controlling Embeddings of Landmarks
Zhang et al. Uncovering Hidden Connections: Iterative Tracking and Reasoning for Video-grounded Dialog
Liu et al. Deep learning-based point cloud analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant