CN113239749A

CN113239749A - 一种基于多模态联合学习的跨域点云语义分割方法

Info

Publication number: CN113239749A
Application number: CN202110457258.4A
Authority: CN
Inventors: 雷印杰; 彭铎
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-08-10
Anticipated expiration: 2041-04-27
Also published as: CN113239749B

Abstract

本发明提供一种基于多模态联合学习的跨域点云语义分割方法，属于计算机视觉技术领域，按步骤将源域的2D图像和3D点云分别送至2D和3D神经网络中提取特征，再将源域2D特征与3D特征送入跨模态特征互学习模块，将目标域的2D图像和3D点云分别送至2D和3D神经网络中提取特征；将目标域2D特征与3D特征送入跨模态特征互学习模块；将源域的输出特征送入分类器，并将分类结果与标签值计算损失，最后依据损失值训练网络；保存训练模型，即可得应用于目标域场景进行语义分割，本发明利用多模态数据集之间的联合学习，同时设计“稀疏到稠密”的特征匹配结构，实现两种异构特征之间充分的信息交换，以提升网络的跨域分割性能。

Description

一种基于多模态联合学习的跨域点云语义分割方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于多模态联合学习的跨域点云语义分割方法。

背景技术

跨域语义分割是指计算机通过对源域语义知识的总结提炼来实现对目标域的可视化分割。近些年来，随着人工智能的不断发展，基于深度学习的语义分割技术开始广泛应用到卫星遥感、辅助医疗和交通运输等各个方面，其中，无人驾驶是一个热门研究方向，也是未来车辆发展的必然趋势。作为无人车驾驶的核心算法技术，语义分割可以将车载摄像头，或者激光雷达获取的图像进行分割归类，以帮助车辆自动避让行人和车辆等障碍。随着深度学习的发展，基于卷积神经网络的语义分割性能趋于完善，但是由于训练图像(源域)和应用的图像(目标域)的数据分布不一致，导致训练数据集上表现优异的模型在其他场景中应用时效能并不理想。对此，科研人员提出了大量基于深度学习的人工智能方法，来应对跨域后语义分割的效能衰减问题，然而现有的方法都是建立在单一模态下，没有考虑到利用多模态之间的互补性。并且，由于传感器成本的降低，目前自动驾驶数据集例如nuScenes，A2D2，Semantic KITTI都是2D数据(RGB图像)和3D数据(Lidar点云)同时采集。

发明内容

本发明的主要目的在于提供一种基于多模态联合学习的跨域点云语义分割方法，利用多模态数据(2D和3D)之间的互补性，通过联合学习使得深度学习模型具有可观的跨域分割性能，可以有效解决背景技术中提到的问题。

为实现上述目的，本发明采取的技术方案为：

一种基于多模态联合学习的跨域点云语义分割方法，该方法主要包括以下步骤：

S1、将源域的2D图像和3D点云分别送至2D和3D神经网络中提取特征，在输出层分别得到稠密的2D特征图和稀疏的3D特征向量；

S2、将源域2D特征与3D特征送入跨模态特征互学习模块，进行“稀疏到稠密”的动态特征匹配及信息交换；

S3、将目标域的2D图像和3D点云分别送至2D和3D神经网络中提取特征，在输出层分别得到稠密的2D特征图和稀疏的3D特征向量；

S4、将目标域2D特征与3D特征送入跨模态特征互学习模块，进行“稀疏到稠密”的动态特征匹配及信息交换；

S5、将源域的输出特征送入分类器，并将分类结果与标签值计算损失，最后依据损失值训练网络；

S6、保存训练模型，即可得应用于目标域场景进行语义分割。

优选的，所述S2和S4中需要借助3D点云到2D图像的映射坐标完成特征的匹配。

优选的，所述S1和S3中，网络模型为深度卷积神经网络U-net(Resnet34)作为2D网络，SparseConvNet作为3D网络，源域和目标域的网络是共享参数的。

与现有技术相比，本发明具有如下有益效果：

1.鲁棒性好，模型可以充分利用多模态之间的故互补性来保证跨域分割的稳定性能；比如有些场景3DLidar点云跨域表现好，而有些场景RGB图像表现好，在利用多模态特征联合学习后，可以普遍适用于多种真实场景。

2.精度高，在使用多模态数据联合学习后，2D网络在USA到Singapore、Day到Night和A2D2到Semantic KITTI三种跨域语义分割设定上分别达到了63.4，49.5和46.3的mIoU；3D网络在USA到Singapore、Day到Night和A2D2到Semantic KITTI三种跨域语义分割设定上分别达到了55.6，48.2和50.7的mIoU。

3.发展前景好，网络不依赖任何知识迁移手段，只凭借数据2D和3D模态之间的互相学习来提升跨域分割的鲁棒性，能够满足未来更高标准的跨域分割研发需求。

附图说明

图1为本发明的流程示意图；

图2为本发明的点云补全网络结构示意图；

图3为本发明的在不同物体上的补全效果图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1-3所示:一种基于多模态联合学习的跨域点云语义分割方法，包括以下步骤：

在本实施例中，S2和S4中首先对稠密的2D特征进行卷积，获得池化时每个特征元素对应的池化kernel的偏移量：

特征P_2D的池化偏移O＝f_3x3(P_2D),O∈H×W×2N (1)

其中，O是偏移图，O_i,j代表第i行第j列的元素，长度为2N；N为kernel包含的元素个数；2N代表kernel内每个元素的x和y方向偏移量。

在本实施例中，S2和S4中对获得了偏移后的2D特征图按照偏移进行可变最大池化和最小池化，获得每个池化区域的上确界a和下确界b:

其中，max和min是对集合当中元素取最大值和最小值。通过上述方法，获得池化后的特征图。注意，池化后的特征图尺寸仍为H×W×F，F为特征图的通道数量，每个元素都是通过原特征图上进行了可变池化后获得的。之后，按照3D点云到2D图像的映射坐标在池化后的特征图上进行采样，得到与3D点云相同特征数量的稀疏特征图。

在本实施例中，S2和S4中对采样后的2D特征与3D特征进行约束，实现多模态联合学习：

联合学习损失L_std＝KL(Samp(a(P_2D)),P_3D)+KL(Samp(b(P_2D)),P_3D) (4)

其中，a(·)，b(·)分别代表可变池化后的上确界特征图和下确界特征图，Samp(·)代表采样，KL(·,·)为计算两特征之间的KL散度。

需要说明的是，本发明所述的一种基于多模态联合学习的跨域语义分割方法利用2D和3D数据在跨域分割时的互补性，通过多模态联合学习提升跨域分割性能。该方法在特征处理过程中利用可变池化自适应地提取了2D特征图中的关键信息，利用联合学习损失函数同时约束上下确界，以约束2D局部区域当中的所有元素，该方法还充分考虑了3D点云特征的稀疏特性和2D图像特征的稠密特性，实现了可靠的稀疏到稠密的动态特征匹配，在不利用任何知识迁移手段的前提下，拥有了较强的跨域分割性能。

编码过程中，使用了常规的Resnet-101(2D)和SparseConvNet(3D)分别对RGB图像和Lidar点云进行特征提取；网络结构为端到端的“编码-解码”结构，在解码过程中，每个模块接收前一模块的输出作为输入，然后进行最近邻插值，使得特征图尺寸变为输入的2倍，训练过程中我们采用交叉熵损失的函数形式来衡量网络当前的分割效果并惩罚网络权重。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于多模态联合学习的跨域点云语义分割方法，其特征在于：该方法主要包括以下步骤：

2.根据权利要求1所述的一种基于多模态联合学习的跨域点云语义分割方法，其特征在于：所述S2和S4中需要借助3D点云到2D图像的映射坐标完成特征的匹配。

3.根据权利要求1所述的一种基于多模态联合学习的跨域点云语义分割方法，其特征在于：所述S1和S3中，网络模型为深度卷积神经网络U-net(Resnet34)作为2D网络，SparseConvNet作为3D网络，源域和目标域的网络是共享参数的。