CN113239749B - 一种基于多模态联合学习的跨域点云语义分割方法 - Google Patents

一种基于多模态联合学习的跨域点云语义分割方法 Download PDF

Info

Publication number
CN113239749B
CN113239749B CN202110457258.4A CN202110457258A CN113239749B CN 113239749 B CN113239749 B CN 113239749B CN 202110457258 A CN202110457258 A CN 202110457258A CN 113239749 B CN113239749 B CN 113239749B
Authority
CN
China
Prior art keywords
domain
features
point cloud
cross
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110457258.4A
Other languages
English (en)
Other versions
CN113239749A (zh
Inventor
雷印杰
彭铎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110457258.4A priority Critical patent/CN113239749B/zh
Publication of CN113239749A publication Critical patent/CN113239749A/zh
Application granted granted Critical
Publication of CN113239749B publication Critical patent/CN113239749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多模态联合学习的跨域点云语义分割方法,属于计算机视觉技术领域,按步骤将源域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,再将源域2D特征与3D特征送入跨模态特征互学习模块,将目标域的2D图像和3D点云分别送至2D和3D神经网络中提取特征;将目标域2D特征与3D特征送入跨模态特征互学习模块;将源域的输出特征送入分类器,并将分类结果与标签值计算损失,最后依据损失值训练网络;保存训练模型,即可得应用于目标域场景进行语义分割,本发明利用多模态数据集之间的联合学习,同时设计“稀疏到稠密”的特征匹配结构,实现两种异构特征之间充分的信息交换,以提升网络的跨域分割性能。

Description

一种基于多模态联合学习的跨域点云语义分割方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于多模态联合学习的跨域点云语义分割方法。
背景技术
跨域语义分割是指计算机通过对源域语义知识的总结提炼来实现对目标域的可视化分割。近些年来,随着人工智能的不断发展,基于深度学习的语义分割技术开始广泛应用到卫星遥感、辅助医疗和交通运输等各个方面,其中,无人驾驶是一个热门研究方向,也是未来车辆发展的必然趋势。作为无人车驾驶的核心算法技术,语义分割可以将车载摄像头,或者激光雷达获取的图像进行分割归类,以帮助车辆自动避让行人和车辆等障碍。随着深度学习的发展,基于卷积神经网络的语义分割性能趋于完善,但是由于训练图像(源域)和应用的图像(目标域)的数据分布不一致,导致训练数据集上表现优异的模型在其他场景中应用时效能并不理想。对此,科研人员提出了大量基于深度学习的人工智能方法,来应对跨域后语义分割的效能衰减问题,然而现有的方法都是建立在单一模态下,没有考虑到利用多模态之间的互补性。并且,由于传感器成本的降低,目前自动驾驶数据集例如nuScenes,A2D2,Semantic KITTI都是2D数据(RGB图像)和3D数据(Lidar点云)同时采集。
发明内容
本发明的主要目的在于提供一种基于多模态联合学习的跨域点云语义分割方法,利用多模态数据(2D和3D)之间的互补性,通过联合学习使得深度学习模型具有可观的跨域分割性能,可以有效解决背景技术中提到的问题。
为实现上述目的,本发明采取的技术方案为:
一种基于多模态联合学习的跨域点云语义分割方法,该方法主要包括以下步骤:
S1、将源域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,在输出层分别得到稠密的2D特征图和稀疏的3D特征向量;
S2、将源域2D特征与3D特征送入跨模态特征互学习模块,进行“稀疏到稠密”的动态特征匹配及信息交换;
S3、将目标域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,在输出层分别得到稠密的2D特征图和稀疏的3D特征向量;
S4、将目标域2D特征与3D特征送入跨模态特征互学习模块,进行“稀疏到稠密”的动态特征匹配及信息交换;
S5、将源域的输出特征送入分类器,并将分类结果与标签值计算损失,最后依据损失值训练网络;
S6、保存训练模型,即可得应用于目标域场景进行语义分割。
优选的,所述S2和S4中需要借助3D点云到2D图像的映射坐标完成特征的匹配。
优选的,所述S1和S3中,网络模型为深度卷积神经网络U-net(Resnet34)作为2D网络,SparseConvNet作为3D网络,源域和目标域的网络是共享参数的。
与现有技术相比,本发明具有如下有益效果:
1.鲁棒性好,模型可以充分利用多模态之间的故互补性来保证跨域分割的稳定性能;比如有些场景3DLidar点云跨域表现好,而有些场景RGB图像表现好,在利用多模态特征联合学习后,可以普遍适用于多种真实场景。
2.精度高,在使用多模态数据联合学习后,2D网络在USA到Singapore、Day到Night和A2D2到Semantic KITTI三种跨域语义分割设定上分别达到了63.4,49.5和46.3的mIoU;3D网络在USA到Singapore、Day到Night和A2D2到Semantic KITTI三种跨域语义分割设定上分别达到了55.6,48.2和50.7的mIoU。
3.发展前景好,网络不依赖任何知识迁移手段,只凭借数据2D和3D模态之间的互相学习来提升跨域分割的鲁棒性,能够满足未来更高标准的跨域分割研发需求。
附图说明
图1为本发明的流程示意图;
图2为本发明的点云补全网络结构示意图;
图3为本发明的在不同物体上的补全效果图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1-3所示:一种基于多模态联合学习的跨域点云语义分割方法,包括以下步骤:
S1、将源域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,在输出层分别得到稠密的2D特征图和稀疏的3D特征向量;
S2、将源域2D特征与3D特征送入跨模态特征互学习模块,进行“稀疏到稠密”的动态特征匹配及信息交换;
S3、将目标域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,在输出层分别得到稠密的2D特征图和稀疏的3D特征向量;
S4、将目标域2D特征与3D特征送入跨模态特征互学习模块,进行“稀疏到稠密”的动态特征匹配及信息交换;
S5、将源域的输出特征送入分类器,并将分类结果与标签值计算损失,最后依据损失值训练网络;
S6、保存训练模型,即可得应用于目标域场景进行语义分割。
在本实施例中,S2和S4中首先对稠密的2D特征进行卷积,获得池化时每个特征元素对应的池化kernel的偏移量:
特征P2D的池化偏移O=f3x3(P2D),O∈H×W×2N (1)
其中,O是偏移图,Oi,j代表第i行第j列的元素,长度为2N;N为kernel包含的元素个数;2N代表kernel内每个元素的x和y方向偏移量。
在本实施例中,S2和S4中对获得了偏移后的2D特征图按照偏移进行可变最大池化和最小池化,获得每个池化区域的上确界a和下确界b:
Figure BDA0003040912200000041
Figure BDA0003040912200000042
其中,max和min是对集合当中元素取最大值和最小值。通过上述方法,获得池化后的特征图。注意,池化后的特征图尺寸仍为H×W×F,F为特征图的通道数量,每个元素都是通过原特征图上进行了可变池化后获得的。之后,按照3D点云到2D图像的映射坐标在池化后的特征图上进行采样,得到与3D点云相同特征数量的稀疏特征图。
在本实施例中,S2和S4中对采样后的2D特征与3D特征进行约束,实现多模态联合学习:
联合学习损失Lstd=KL(Samp(a(P2D)),P3D)+KL(Samp(b(P2D)),P3D) (4)
其中,a(·),b(·)分别代表可变池化后的上确界特征图和下确界特征图,Samp(·)代表采样,KL(·,·)为计算两特征之间的KL散度。
需要说明的是,本发明所述的一种基于多模态联合学习的跨域语义分割方法利用2D和3D数据在跨域分割时的互补性,通过多模态联合学习提升跨域分割性能。该方法在特征处理过程中利用可变池化自适应地提取了2D特征图中的关键信息,利用联合学习损失函数同时约束上下确界,以约束2D局部区域当中的所有元素,该方法还充分考虑了3D点云特征的稀疏特性和2D图像特征的稠密特性,实现了可靠的稀疏到稠密的动态特征匹配,在不利用任何知识迁移手段的前提下,拥有了较强的跨域分割性能。
编码过程中,使用了常规的Resnet-101(2D)和SparseConvNet(3D)分别对RGB图像和Lidar点云进行特征提取;网络结构为端到端的“编码-解码”结构,在解码过程中,每个模块接收前一模块的输出作为输入,然后进行最近邻插值,使得特征图尺寸变为输入的2倍,训练过程中我们采用交叉熵损失的函数形式来衡量网络当前的分割效果并惩罚网络权重。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.一种基于多模态联合学习的跨域点云语义分割方法,其特征在于:该方法主要包括以下步骤:
S1、将源域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,在输出层分别得到稠密的2D特征图和稀疏的3D特征向量;
S2、将源域2D特征与3D特征送入跨模态特征互学习模块,进行“稀疏到稠密”的动态特征匹配及信息交换;
S3、将目标域的2D图像和3D点云分别送至2D和3D神经网络中提取特征,在输出层分别得到稠密的2D特征图和稀疏的3D特征向量;
S4、将目标域2D特征与3D特征送入跨模态特征互学习模块,进行“稀疏到稠密”的动态特征匹配及信息交换;
S5、将源域的输出特征送入分类器,并将分类结果与标签值计算损失,最后依据损失值训练网络;
S6、保存训练模型,即可得应用于目标域场景进行语义分割;
S2和S4中需要借助3D点云到2D图像的映射坐标完成特征的匹配;
S2和S4中首先对稠密的2D特征进行卷积,获得池化时每个特征元素对应的池化kernel的偏移量:
特征P2D的池化偏移O=f3×3(P2D),O∈H×W×2N(1)
其中,O是偏移图,Oi,j代表第i行第j列的元素,长度为2N;N为kernel包含的元素个数;2N代表kernel内每个元素的x和y方向偏移量;
S2和S4中对获得了偏移后的2D特征图按照偏移进行可变最大池化和最小池化,获得每个池化区域的上确界a和下确界b:
Figure FDA0004055861560000011
Figure FDA0004055861560000012
max和min是对集合当中元素取最大值和最小值,池化后的特征图尺寸仍为H×W×F,F为特征图的通道数量,每个元素都是通过原特征图上进行了可变池化后获得的,之后按照3D点云到2D图像的映射坐标在池化后的特征图上进行采样,得到与3D点云相同特征数量的稀疏特征图;
S2和S4中对采样后的2D特征与3D特征进行约束,实现多模态联合学习:
联合学习损失Lstd=KL(Samp(a(P2D)),P3D)+KL(Samp(b(P2D)),P3D) (4)
其中,a(·),b(·)分别代表可变池化后的上确界特征图和下确界特征图,Samp(·)代表采样,KL(·,·)为计算两特征之间的KL散度。
2.根据权利要求1所述的一种基于多模态联合学习的跨域点云语义分割方法,其特征在于:所述S1和S3中,网络模型为深度卷积神经网络Resnet34作为2D网络,SparseConvNet作为3D网络,源域和目标域的网络是共享参数的。
CN202110457258.4A 2021-04-27 2021-04-27 一种基于多模态联合学习的跨域点云语义分割方法 Active CN113239749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110457258.4A CN113239749B (zh) 2021-04-27 2021-04-27 一种基于多模态联合学习的跨域点云语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110457258.4A CN113239749B (zh) 2021-04-27 2021-04-27 一种基于多模态联合学习的跨域点云语义分割方法

Publications (2)

Publication Number Publication Date
CN113239749A CN113239749A (zh) 2021-08-10
CN113239749B true CN113239749B (zh) 2023-04-07

Family

ID=77129832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110457258.4A Active CN113239749B (zh) 2021-04-27 2021-04-27 一种基于多模态联合学习的跨域点云语义分割方法

Country Status (1)

Country Link
CN (1) CN113239749B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867533B (zh) * 2021-09-30 2023-05-05 中国人民解放军战略支援部队信息工程大学 多脑协同脑机接口系统及基于该系统实现的视频目标检测方法
CN116168046B (zh) * 2023-04-26 2023-08-25 山东省凯麟环保设备股份有限公司 复杂环境下的3d点云语义分割方法、系统、介质及设备
CN117953335A (zh) * 2024-03-27 2024-04-30 中国兵器装备集团自动化研究所有限公司 一种跨域迁移持续学习方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3156942A1 (en) * 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
CN106709481A (zh) * 2017-03-03 2017-05-24 深圳市唯特视科技有限公司 一种基于二维‑三维语义数据集的室内场景理解方法
CN107992850B (zh) * 2017-12-20 2020-01-14 大连理工大学 一种室外场景三维彩色点云分类方法
CN109543601A (zh) * 2018-11-21 2019-03-29 电子科技大学 一种基于多模态深度学习的无人车目标检测方法
CN111160214B (zh) * 2019-12-25 2022-03-15 电子科技大学 一种基于数据融合的3d目标检测方法
CN111339830A (zh) * 2020-01-20 2020-06-26 清华大学 一种基于多模态数据特征的目标分类方法
CN111626217B (zh) * 2020-05-28 2023-08-22 宁波博登智能科技有限公司 一种基于二维图片和三维点云融合的目标检测和追踪方法
CN111723691B (zh) * 2020-06-03 2023-10-17 合肥的卢深视科技有限公司 一种三维人脸识别方法、装置、电子设备及存储介质
CN112102472B (zh) * 2020-09-01 2022-04-29 北京航空航天大学 稀疏三维点云稠密化方法
CN112233124B (zh) * 2020-10-14 2022-05-17 华东交通大学 基于对抗式学习与多模态学习的点云语义分割方法及系统

Also Published As

Publication number Publication date
CN113239749A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113239749B (zh) 一种基于多模态联合学习的跨域点云语义分割方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110706157B (zh) 一种基于身份先验生成对抗网络的人脸超分辨率重建方法
Tang et al. A review of lane detection methods based on deep learning
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN107506711B (zh) 基于卷积神经网络的双目视觉障碍物检测系统及方法
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
Peng et al. Sparse-to-dense feature matching: Intra and inter domain cross-modal learning in domain adaptation for 3d semantic segmentation
CN108682017A (zh) 基于Node2Vec算法的超像素图像边缘检测方法
CN110705344B (zh) 一种基于深度学习的人群计数模型及其实现方法
CN109146001B (zh) 多视角isar图像融合方法
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN113436227A (zh) 一种基于倒残差的孪生网络目标跟踪方法
CN110706239A (zh) 融合全卷积神经网络与改进aspp模块的场景分割方法
Zhang et al. Exploration of deep learning-based multimodal fusion for semantic road scene segmentation
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN113449612A (zh) 一种基于子流型稀疏卷积的三维目标点云识别的方法
CN110751271B (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN113378756B (zh) 一种三维人体语义分割方法、终端设备及存储介质
Wang et al. A survey of 3D point cloud and deep learning-based approaches for scene understanding in autonomous driving
Li et al. Vehicle object detection based on rgb-camera and radar sensor fusion
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN111950476A (zh) 基于深度学习的复杂环境下河道船舶自动识别方法
CN108921852B (zh) 基于视差与平面拟合的双分支室外非结构化地形分割网络
CN112330639A (zh) 一种用于彩色-热红外图像的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant