CN116051830A

CN116051830A - 一种面向跨模态数据融合的对比语义分割方法

Info

Publication number: CN116051830A
Application number: CN202211643372.7A
Authority: CN
Inventors: 闫志远; 容雪娥; 尹文昕; 毛秀华; 吴有明; 戴威; 孙超
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-02
Anticipated expiration: 2042-12-20
Also published as: CN116051830B

Abstract

本申请涉及语义分割技术领域，特别是涉及一种面向跨模态数据融合的对比语义分割方法。该方法包括：S100，获取RGB‑D图像对A＝(a₁,a₂,…,a_M)，a_m为第m个RGB‑D图像对，a_m＝(a_m,1,a_m,2)；S200，利用A对神经网络模型进行训练，M的大小为对所述神经网络模型训练时小批量的大小，所述神经网络模型包括编码器和解码器，所述编码器用于对a_m,1和a_m,2进行特征提取，获取a_m,1对应的特征图F_m,1和a_m,2对应的特征图F_m,2；所述神经网络模型的损失L包括第一损失L₁、第二损失L₂和第三损失L₃。本发明提高了模型对图像的语义分割能力。

Description

一种面向跨模态数据融合的对比语义分割方法

技术领域

本发明涉及语义分割技术领域，特别是涉及一种面向跨模态数据融合的对比语义分割方法。

背景技术

当前，语义分割算法的本质是通过深度神经网络模型将图像像素映射到一个高度非线性的特征空间，且一般只考虑单一模态的数据特性。然而，单一模态的数据提供的信息源有限(例如，RGB图像只有颜色信息而没有空间结构信息)，且现有算法大多只关注于局部上下文信息(也即单个图像内的像素之间的位置和语义依赖性)，这导致深度神经网络模型并没有充分学习到现有的数据信息，存在对现有的数据信息利用的不充分问题，进而限制了语义分割模型对图像的语义分割能力。

发明内容

本发明目的在于，提供一种面向跨模态数据融合的对比语义分割方法，提高了模型对图像的语义分割能力。

根据本发明，提供了一种面向跨模态数据融合的对比语义分割方法，包括以下步骤：

S100，获取RGB-D图像对A＝(a₁,a₂,…,a_M)，a_m为第m个RGB-D图像对，m的取值范围为1到M，M为A包括RGB-D图像对的数量；a_m＝(a_m,1,a_m,2)，a_m,1为a_m中的RGB图像，a_m,2为a_m中的深度图像，a_m,1和a_m,2为同一场景对应的RGB图像和深度图像。

S200，利用A对神经网络模型进行训练，M的大小为对所述神经网络模型训练时小批量的大小，所述神经网络模型包括编码器和解码器，所述编码器用于对a_m,1和a_m,2进行特征提取，获取a_m,1对应的特征图F_m,1和a_m,2对应的特征图F_m,2；所述解码器用于对F_m,1和F_m,2进行解码操作和进行语义分割。

所述神经网络模型的损失L包括第一损失L₁、第二损失L₂和第三损失L₃，L₁与

和

正相关，

为F_RGB中与特征点i属于同一类别的特征点集合，F_RGB为A中RGB图像经过编码器进行特征提取获取的特征图，

为

中特征点的数量，

为F_RGB中与特征点i不属于同一类别的特征点的集合，f_i为F_RGB中特征点i对应的特征，f_i∈R^C，R为实数集，C为特征的通道维度，f_i ⁺和f_i ^-分别为f_i对应的正样本和负样本，τ为温度系数；

为F_D中与特征点j属于同一类别的特征点的集合，F_D为A中深度图像经过编码器进行特征提取获取的特征图，

为

中特征点的数量，

为F_D中与特征点j不属于同一类别的特征点的集合，f_j为F_D中特征点j对应的特征，f_j∈R^C，f_j ⁺和f_j ^-分别为f_j对应的正样本和负样本；L₂与

和

正相关，q_i为

中所有特征点的平均，r_h,i为F_RGB中属于第h个第一异类类别的特征点的平均，所述第一异类类别为不与特征点i属于同一类别的类别，H为F_RGB中第一异类类别的数量；q_j为

中所有特征点的平均，r_t,j为F_D中属于第t个第二异类类别的特征点的平均，所述第二异类类别为不与特征点j属于同一类别的类别，T为F_D中第二异类类别的数量；L₃与

和

负相关，||f_i||、||f_k||、||f_j||和||f_l||分别为f_i、f_k、f_j和f_l的模，f_k为特征点i所在特征图上的其他特征点，f_l为特征点j所在特征图上的其他特征点。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的方法可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明利用RGB-D图像对训练集对神经网络模型进行训练，通过利用训练集中跨图像的特征点-特征点的对应关系(在损失L₁中体现)、特征点-特征区域的对应关系(在损失L₂中体现)来学习一个结构化的特征空间，使得类内更紧凑，类间更可分，改善了现有算法存在的数据模态单一问题以及对数据信息利用不充分的问题，充分挖局了数据本身存在的价值信息；并通过寻找到RGB图像和深度图像之间的共性，利用损失L₃来解决由于RGB图像和深度图像分别表示不同模态的信息导致的模态不匹配的问题。本发明通过对跨模态的数据的融合，实现了多种异质信息的互补，通过损失L₁和损失L₂拉近了属于同一语义类的像素嵌入，通过损失L₃桥接了两模态之间的鸿沟，进而提高了模型对图像的语义分割能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向跨模态数据融合的对比语义分割方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明，提供了一种面向跨模态数据融合的对比语义分割方法，如图1所示，包括以下步骤：

应当理解的是，RGB图像只有对应拍摄场景的颜色信息，而没有对应拍摄场景的空间结构信息；深度图像虽然没有对应拍摄场景的颜色信息，但是有对应拍摄场景的空间结构信息。本发明中A中的每一RGB-D图像对对应的是同一场景，每一RGB-D图像对中RGB图像中像素点与深度图像中对应像素点的类别相同，例如，某一RGB-D图像对中RGB图像中的中心像素点对应的是猫类别，那么该RGB-D图像对中深度图像中的中心像素点对应的也是猫类别。

本发明利用编码器无针对性地实现了对RGB图像和深度图像的特征提取，得到了不同模态(即RGB图像和深度图像)的特征图。可选的，编码器采用主流分割算法常用的ResNet、Inception或DenseNet；解码器采用PSPNet或DeepLab V3。上述类型的编码器和解码器的结构为现有技术，将RGB图像或深度图像输入到编码器之后得到对应的特征图的过程也为现有技术，此处不再赘述。

本发明中神经网络模型的损失L包括第一损失L₁、第二损失L₂和第三损失L₃，可选的，L＝L₁+L₂+L₃。

根据本发明，第一损失L₁与

和

正相关，

为

中特征点的数量，

为

中特征点的数量，

为F_D中与特征点j不属于同一类别的特征点的集合，f_j为F_D中特征点j对应的特征，f_j∈R^C，f_j ⁺和f_j ^-分别为f_j对应的正样本和负样本。

本发明中第一损失L₁为特征点-特征点的对比损失；其中，对于RGB图像对应的特征图上的特征点i，设置f_i的正样本f_i ⁺为与特征点i属于同一类别的特征点，本发明中设置的正样本并不局限于特征点i所在特征图，而是将A包括的RGB图像对应的特征图中与特征点i属于同一类别的特征点均作为f_i的正样本；同样的，本发明设置特征点i的特征f_i对应的负样本f_i ^-为不与特征点i属于同一类别的特征点，本发明中设置的负样本并不局限于特征点i所在特征图，而是将A包括的RGB图像对应的特征图中不与特征点i属于同一类别的特征点均作为f_i的负样本。对于深度图像对应的特征图上的特征点j，关于f_j的正样本和负样本的设置原则相同，此处不再赘述。本发明设置第一损失L₁时将正样本和负样本的选择扩展到了小批量(mini batch)的训练过程，有效利用了同模态的小批量的训练集的全局上下文信息(跨图像的像素之间的语义相关性)，能够从整体的角度对学习的特征空间进行约束。

优选的，L₁符合如下关系：

其中，|F_RGB|为F_RGB含有的特征点的数量，|F_D|为F_D含有的特征点的数量。

根据本发明，L₂与

和

正相关，q_i为

中所有特征点的平均，r_t,j为F_D中属于第t个第二异类类别的特征点的平均，所述第二异类类别为不与特征点j属于同一类别的类别，T为F_D中第二异类类别的数量。

本发明中第二损失L₂为特征点-特征区域的对比损失；其中，对于RGB图像对应的特征图上的特征点i，设置f_i的正样本为A包括的RGB图像对应的特征图中与特征点i属于同一类别的特征点的均值，设置f_i的负样本为A包括的RGB图像对应的特征图中异类类别的特征点的均值；同样的，对于深度图像对应的特征图上的特征点j，设置f_j的正样本为A包括的深度图像对应的特征图中与特征点j属于同一类别的特征点的均值，设置f_j的负样本为A包括的深度图像对应的特征图中异类类别的特征点的均值；本发明设置第二损失L₂时也将正样本和负样本的选择扩展到了小批量的训练过程中，进一步有效利用了同模态的小批量的训练集的全局上下文信息(跨图像的像素之间的语义相关性)，进一步从整体的角度对学习的特征空间进行约束。

优选的，L₂符合如下关系：

根据本发明，L₃与

和

由于RGB图像和深度图像分别表示不同模态的信息，简单的特征拼接会引入模态不匹配的问题；本发明中通过寻找两种模态之间的共性，即无论是RGB图像对应的特征图，还是深度图像对应的特征图，同一特征图中的特征点之间的相似性较大；由此，本发明设置第三损失L₃来桥接两模态之间的鸿沟，并采用余弦相似度来保证两种模态对应的损失的值域范围一致。

优选的，L₃符合如下关系：

其中，|F_m,1|为F_m,1包含的特征点的数量，|F_m,2|为F_m,2包含的特征点的数量。

本领域技术人员知悉，现有技术中任何对神经网络模型进行训练的方法均落入本发明的保护范围。根据本发明，训练完成后的神经网络模型的分割能力较强，且既可以较好地适用于RGB图像的语义分割任务，也可以较好地适用于深度图像的语义分割任务。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种面向跨模态数据融合的对比语义分割方法，其特征在于，包括以下步骤：

S100，获取RGB-D图像对A＝(a₁,a₂,…,a_M)，a_m为第m个RGB-D图像对，m的取值范围为1到M，M为A包括RGB-D图像对的数量；a_m＝(a_m,1,a_m,2)，a_m,1为a_m中的RGB图像，a_m,2为a_m中的深度图像，a_m,1和a_m,2为同一场景对应的RGB图像和深度图像；

S200，利用A对神经网络模型进行训练，M的大小为对所述神经网络模型训练时小批量的大小，所述神经网络模型包括编码器和解码器，所述编码器用于对a_m,1和a_m,2进行特征提取，获取a_m,1对应的特征图F_m,1和a_m,2对应的特征图F_m,2；所述解码器用于对F_m,1和F_m,2进行解码操作和进行语义分割；