CN113312983B

CN113312983B - 基于多模态数据融合的语义分割方法、系统、装置及介质

Info

Publication number: CN113312983B
Application number: CN202110498981.7A
Authority: CN
Inventors: 谭明奎; 李蓉; 庄壮伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2023-09-05
Anticipated expiration: 2041-05-08
Also published as: CN113312983A

Abstract

本发明公开了一种基于多模态数据融合的语义分割方法、系统、装置及介质，其中方法包括以下步骤：获取图像数据和激光雷达的点云数据；根据图像数据将点云数据映射到图像空间；将映射后的数据输入语义分割模型进行处理，获得稠密及稀疏的预测结果，实现对点云数据的语义分割。本发明通过融合图像信息和点云信息，能够有效滤除图像中的干扰信息，另外，由于融合了拥有更加稠密纹理、颜色信息的2D图像数据，提高了点云分割结果的准确度，可广泛应用于智能识别技术领域。

Description

基于多模态数据融合的语义分割方法、系统、装置及介质

技术领域

本发明涉及智能识别技术领域，尤其涉及一种基于多模态数据融合的语义分割方法、系统、装置及介质。

背景技术

目前，在自动驾驶和机器人等许多应用中，视觉传感器(如RGB相机)的应用至关重要。从视觉传感器中获取的RGB图像能够提供丰富的纹理、颜色信息，基于视觉传感器的应用能够精确的对物体进行分类。然而，由于视觉传感器容易受到光线的影响，越来越多的自动驾驶车辆加入了更加鲁棒的激光雷达提升感知系统的鲁棒性。相对视觉传感器而言，由激光雷达获取的点云可以提供物体在物理世界中的坐标信息，基于激光雷达的应用对光线的抗干扰能力较强。然而，由于激光雷达得到的点云数据本身缺少稠密的颜色、纹理特征，单纯基于三维点云的感知方法在细粒度语义分割上精度较低。因此，为了结合多种传感器数据的优势，在实际应用中可以考虑同时使用视觉传感器和激光雷达两种数据来进行联合感知。但是，由于视觉传感器与激光雷达所获取的数据之间存在较大的差异，如何融合多种传感器的数据目前仍有待解决。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于多模态数据融合的语义分割方法、系统、装置及介质，以实现通过融合图像信息和点云信息对三维点云预测准确度性能的提升。

本发明所采用的技术方案是：

一种基于多模态数据融合的语义分割方法，包括以下步骤：

获取图像数据和激光雷达的点云数据；

根据图像数据将点云数据映射到图像空间；

将映射后的数据输入语义分割模型进行处理，获得稠密及稀疏的预测结果，实现对点云数据的语义分割。

进一步，所述根据图像数据将点云数据映射到图像空间，包括：

根据对相机和激光雷达进行标定得到的投影矩阵，将点云数据投影到图像空间；

其中，投影后的每个点对应一个五维的特征(d,x,y,z,r)，d表示深度，r表示反射强度；深度d的计算公式为：

x,y,z表示坐标值。

进一步，所述点云语义分割方法还包括对语义分割模型进行训练的步骤，包括：

利用卷积层、批量归一化层、线性整流层和池化层构建双流网络；

在所述双流网络中插入感知损失函数，将感知损失函数与图像预测损失函数、点云预测损失函数构成目标损失函数；

根据所述目标损失函数对所述双流网络进行训练，获得语义分割模型。

进一步，所述利用卷积层、批量归一化层、线性整流层和池化层构建双流网络，包括：

利用卷积层、批量归一化层、线性整流层和池化层，为图像数据和点云数据分别构建基本深度神经网络；

在所述基本深度神经网络中插入融合模块，构建融合点云数据和图像数据的双流网络。

进一步，所述融合模块的表达式为：

其中，σ表示sigmoid函数，表示融合得到的特征，[·；·]表示concatenation操作，f_l(·)和g_l表示卷积操作，⊙表示逐元素的乘法操作。

进一步，所述在所述双流网络中插入感知损失函数，包括：

利用图像分支和点云分支的感知信息差异，在所述双流网络中插入感知损失函数。

进一步，所述目标损失函数的表达式为：

L＝L_foc+λL_lov+γL_per

其中，L_foc为Multi-class focal loss，L_lov为Lov′asz softmax loss，L_per为感知损失函数；λ和γ分别是不同损失函数的权重；

在对网络进行训练的过程中，利用随机梯度下降算法使目标损失函数收敛。

本发明所采用的另一技术方案是：

一种基于多模态数据融合的语义分割系统，包括：

采集模块，用于获取图像数据和激光雷达的点云数据；

映射模块，用于根据图像数据将点云数据映射到图像空间；

分割模块，用于将映射后的数据输入语义分割模型进行处理，获得稠密及稀疏的预测结果，实现对点云数据进行语义分割。

本发明所采用的另一技术方案是：

一种基于多模态数据融合的语义分割装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过融合图像信息和点云信息，能够有效滤除图像中的干扰信息，另外，由于融合了拥有更加稠密纹理、颜色信息的2D图像数据，提高了点云分割结果的准确度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于多模态数据融合的语义分割方法的流程示意图；

图2是本发明实施例中投影方式示意图；

图3是本发明实施例中基于残差的融合模块示意图；

图4是本发明实施例中一种基于多模态数据融合的语义分割系统的结构框图；

图5是本发明实施例中一种基于多模态数据融合的语义分割装置的结构框图；

图6是本发明实施例中一种基于多模态数据融合的语义分割系统的具体结构示意图；

图7是本发明实施例中在SemanticKITTI数据集的可视化结果示意图；

图8是本发明实施例中在nuScenes数据集的可视化结果示意图；

图9是本发明实施例中一种基于多模态数据融合的语义分割方法输入对抗样本时的可视化结果示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种基于多模态数据融合的语义分割方法，包括以下步骤：

S1、获取图像数据和激光雷达的点云数据，根据投影矩阵，对给定的三维点云进行投影，把点云投影到图像空间中。图2展示了投影过程的示意图。

令表示投影过程，其中/>表示对原始点云的/>增加一个全1的维度得到的扩展点云，/>表示从雷达坐标系到相机坐标系的投影矩阵，/>表示对矫正旋转矩阵R⁽⁰⁾∈R^3×3增加一个全1的维度得到的扩展的矫正旋转矩阵，其中R(4,4)＝1。标定矩阵R⁽⁰⁾和T可以通过传感器的定法方法获得。通过上述过程，得到相机坐标系下的点云坐标/>

对于长宽分别为h和w的2D投影目标图像，可以通过和/>获得某个点在2D投影目标图像中的坐标。

在把点云投影到2D投影目标图像中之后，还对每个投影点计算一个额外维度的深度特征

最终，投影在2D投影目标图像中的每个点拥有五个维度的特征(d,x,y,z,r)，其中r表示反射强度。

S2、借助已有的图像预测模型和点云预测模型构建双流网络模型，并在双流网络中插入多个基于残差的融合模块得到目标双流网络。

图3展示了融合模块的示意图。对双流网络来说，可以选择已有的深度神经网络模型分别作为图像分支和点云分支。比如：图像分支可以选择ResNet，点云分支可以选择SalsaNext。

对于融合模块，本方法根据构建基于残差和注意力的融合模块，其中，/>表示融合得到的特征，/>表示点云特征，F_l表示图像特征，[·；·]表示concatenation操作，f_l(·)和g_l表示卷积操作，σ表示sigmoid函数，⊙表示逐元素的乘法操作，l表示获取特征的网络层的标号。在实验中选择把ResNet中不同尺度的特征的第7,15,27,33卷积层特征与在SalsaNext对应尺度的特征的第14,19,24,29卷积层特征进行融合。图3展示了融合模块的示意图。

值得注意的是，融合模块可以添加在任意的网络层之后，但是这样的方式可能会导致网络计算量开销很大。

S3、在构建好的双流网络中插入感知损失函数，与图像预测损失函数和点云预测损失函数共同构成目标损失函数。

以图像分支为例。首先根据算点云分支预测结果的熵。其中，/>表示网络的输出，S表示语义类的数目，用logS来把熵进行归一化。得到熵之后，通过/>算点云分支的置信度。类似的，可以通过C＝1-E计算相机分支的置信度。

接着，根据公式

来衡量自图像分支感知信息的重要性，其中，τ表示置信度阈值，经过实验验证取值为0.7时可以达到比较理想的效果。

定义图像分支的感知损失函数为：

最终，图像分支的损失函数为

其中，表示Lov′aszsoftmax loss，/>表示Multi-classfocalloss。

点云分支的损失函数构造方式和图像分支相似，不再赘述。

其中，总的损失函数包含：点云分支损失函数和图像分支损失函数。点云分支损失函数包括Lov′asz softmax loss，Multi-class focal loss和感知损失函数。图像分支损失函数也包括Lov′asz softmax loss，Multi-class focal loss和感知损失函数。

S4、借助输入数据和目标损失函数对预训练模型进行训练。

可以采用基于ImageNet预训练过的模型来初始化网路的参数。需要注意的是，我们采用了一种混合优化的方式来训练两个不同的分支：使用SGD优化器训练图像分支，使用Adam优化器来优化点云分支。建议使用50个epoch训练网络。使用了2D随机旋转，色彩抖动，和随机剪裁的数据增强方式来防止训练过程过拟合。

S5、训练结束后，剔除图像分支的解码器，得到最终的基于多传感器的场景感知模型。

训练结束之后，可以剔除图像分支的解码器部分。即，在测试阶段的图像分支模型不包括解码器部分。因此可以获得更加轻量的模型，并且对模型的性能没有影响。

S6、使用训练好的模型对输入数据进行预测。

在测试阶段，同时输入一张RGB图像和对应的3D点云，网络输出一个稠密预测O，然后通过到稠密预测结果/>

S7、根据投影关系，从网络输出的稠密预测结果得到稀疏点云的预测结果。

在得到二维的稠密预测结果之后，我们借助透视投影将二维的稠密预测转换到原始的三维点云坐标系中，即三维坐标为(x,y,z)的点将获得它所对应的二维像素(u,v)的预测结果。

其中，稠密的预测结果，指的是一张图片中的每个像素有一个预测值；稀疏的预测结果，指的是一张图片只有部分像素有预测值。

应用本发明实施例所提供的方法，获得待识别的点云数据和图像数据；将点云数据和图像数据输入至利用基于残差的融合模块和基于感知的损失函数所构建的双流网络中；利用所构建目标预测模型的分类器对目标点云数据进行处理，获得预测结果。

获得待识别的点云数据和图像数据，然后将点云数据和图像数据输入至利用基于残差的融合模块和基于感知的损失函数所构建的双流网络中。即该双流网络拥有基于残差的融合模块和基于感知的损失函数。然后利用双流网络的预测能力对目标数据进行预测处理，便可获得目标点云数据的预测结果。由于，目标网络融合了拥有更加稠密纹理、颜色信息的2D图像数据，因而，点云分割结果的准确度会上升。同时，由于采用了投影矩阵把点云数据处理成了可以采用2D卷积处理的形式，因而，网络的计算量可大幅度降低。进一步，由于采用了投影矩阵把点云数据处理成了可以采用2D卷积处理的形式，因而可以将该发明实施例所提供的基于激光雷达及图像信息进行融合的预测方法应用到自动驾驶、机器人等对计算实时性要求很高的产品中。

将上述的点云语义分割方法应用到了自动驾驶语义分割数据集SemanticKITTI上，得到的语义分割结果精度如表1和表2所示；表2为SemanticKITTI validation set上的结果，其中，L表示基于点云的方法，L+C表示基于融合的方法，*表示我们自己复现的结果。表1为nuScenes validation set上的结果，在点云密度更加稀疏因此更具有挑战性的nuScenes数据集上，与其他方法相比，本方法的达到了目前的最好性能，具体数值对比结果如表2所示。

表1

Method	RangeNet++	PolarNet	Salsanext	Cylinder3D	Ours
						barrier	66.0	74.7	74.8	76.4	74.1
bicycle	21.3	28.2	34.1	40.3	46.6
						bus	77.2	85.3	85.9	91.3	89.8
car	80.9	90.9	88.4	93.8	92.1
						construction	30.2	35.1	42.2	51.3	57.0
motorcycle	66.8	77.5	72.4	78.0	77.7
						pedestrian	69.6	71.3	72.2	78.9	80.9
traffic-cone	52.1	58.8	63.1	64.9	70.9
						trailer	54.2	57.4	61.3	62.1	64.6
truck	72.3	76.1	76.5	84.4	82.9
						driveable	94.1	96.5	96.0	96.8	95.5
other-flat	66.6	71.1	70.8	71.6	73.3
						sidewalk	63.5	74.7	71.2	76.4	73.6
terrain	70.1	74.0	71.5	75.4	74.8
						manmade	83.1	87.3	86.7	90.5	89.4
vegetation	79.8	85.7	84.4	87.4	87.7
						mloU	65.5	71.0	72.2	76.1	76.9

表2

Method	RandLANet	RangeNet++	SequeezeSegV2	SequeezeSegV3	SalsaNext	MinkowskiNet	SPVNAs	Cylinder3D	PointPainting＊	RGBAL＊	ours
												Input	L	L	L	L	L	L	L	L	L+C	L+C	L+C
car	92.0	89.4	82.7	87.1	90.5	95.0	96.5	96.4	94.7	87.3	95.4
												bicycle	8.0	26.5	15.1	34.3	44.6	23.9	44.8	61.5	17.7	36.1	47.8
motorcycle	12.8	48.4	22.7	48.6	49.6	50.4	63.1	78.2	35.0	26.4	62.9
												truck	74.8	33.9	25.6	47.5	86.3	55.3	59.9	66.3	28.8	64.6	68.4
other-vehicle	46.7	26.7	26.9	47.1	54.6	45.9	64.3	69.8	55.0	54.6	75.2
												person	52.3	54.8	22.9	58.1	74.0	65.6	72.0	80.8	59.4	58.1	78.9
bicyclist	46.0	69.4	44.5	53.8	81.4	82.2	86.0	93.3	63.6	72.7	71.6
												motorcyclist	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
road	93.4	92.9	92.7	95.3	93.4	94.3	93.9	94.9	95.3	95.1	96.4
												parking	32.7	37.0	39.7	43.1	40.6	43.7	42.4	41.5	39.9	45.6	43.5
sidewalk	73.4	69.9	70.7	78.2	69.1	76.4	75.9	78.0	77.6	77.5	80.5
												other-ground	0.1	0.0	0.1	0.3	0.0	0.0	0.0	1.4	0.4	0.8	0.1
building	84.0	83.4	71.6	78.9	84.6	87.9	88.8	87.5	87.5	78.9	88.7
												fence	43.5	51.0	37.0	53.2	53.0	57.6	59.1	50.0	55.1	53.4	60.1
vegetation	83.7	83.3	74.6	82.3	83.6	87.4	88.0	86.7	87.7	84.3	88.6
												trunk	57.3	54.0	35.8	55.5	64.3	67.7	67.5	72.2	67.0	61.7	72.7
terrain	73.1	68.1	68.1	70.4	64.2	71.5	73.0	68.8	72.9	72.9	75.3
												pole	48.0	49.8	21.8	46.3	54.4	63.5	63.5	63.0	61.8	56.1	65.5
traffic-sign	27.3	34.0	22.2	33.2	39.8	43.6	44.3	42.1	36.5	41.5	43.0
												mloU(％)	50.0	51.2	40.8	53.3	59.4	58.5	62.3	64.9	54.5	56.2	63.9

为了进一步说明本方法的有效性，下图展示了可视化结果。

在图7中，我们提供了关于SemanticKITTI数据集的可视化结果。从结果中可以看出，我们的方法对RGB图像中光线的变化是鲁棒的，例如树木的阴影和建筑表面的曝光。

我们在图8中提供了nuScenes数据集的可视化结果。从结果中可以看出，我们的方法在更具挑战性的夜间场景和更稀疏的点云场景下依然能达到不错的效果。如图8中第5-8行所示，在夜间RGB图像大部分信息缺失的情况下，我们的方法仍然表现良好。这些结果表明，我们的方法可以解决不同光照条件下的分割问题，并且对更稀疏的点云输入仍然具有良好的适用性。

为了验证本方法面对对抗性样本时的鲁棒性，我们把汽车、交通标志、自行车作为噪声插入到RGB图像中，同时保持点云不变。图9展示了输入对抗性样本时本方法的结果，从结果来看，本方法减少了图像中的大部分噪声，并且相比完全基于图像的方法(FCN)很容易受到RGB图像中所插入的噪声的干扰，本方法对对抗性样本的鲁棒性更强。需要说明的是，在训练过程中没有使用任何对抗训练方法。

如图4所示，本实施例还提供一种基于多模态数据融合的语义分割系统，包括：

采集模块，用于获取图像数据和激光雷达的点云数据；

映射模块，用于根据图像数据将点云数据映射到图像空间；

本实施例的一种基于多模态数据融合的语义分割系统，可执行本发明方法实施例所提供的一种基于多模态数据融合的语义分割方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

如图5所示，本实施例还提供一种基于多模态数据融合的语义分割装置，包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述一种基于多模态数据融合的语义分割方法的步骤。

具体的，请参考图6，为本实施例提供的基于深度神经网络模型的图像识别设备的具体结构示意图，该基于深度神经网络模型的图像识别设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)(例如，一个或一个以上处理器)和存储器，一个或一个以上存储应用程序或数据的存储介质(例如一个或一个以上海量存储设备)。其中，存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器可以设置为与存储介质通信，在基于深度神经网络模型的图像识别设备上执行存储介质中的一系列指令操作。

基于深度神经网络模型的图像识别设备还可以包括一个或一个以上电源，一个或一个以上有线或无线网络接口，一个或一个以上输入输出接口，和/或，一个或一个以上操作系统。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的基于深度神经网络模型的图像识别方法中的步骤可以由基于深度神经网络模型的图像识别设备的结构实现。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于多模态数据融合的语义分割方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于多模态数据融合的语义分割方法，其特征在于，包括以下步骤：

获取图像数据和激光雷达的点云数据；

根据图像数据将点云数据映射到图像空间；

将映射后的数据输入语义分割模型进行处理，获得稠密及稀疏的预测结果，

实现对点云数据的语义分割；

所述点云语义分割方法还包括对语义分割模型进行训练的步骤，包括：

在所述双流网络中插入感知损失函数，将感知损失函数与Multi-class focalloss、Lov′asz softmax loss构成目标损失函数；

根据所述目标损失函数对所述双流网络进行训练，获得语义分割模型；

所述利用卷积层、批量归一化层、线性整流层和池化层构建双流网络，包括：

在所述基本深度神经网络中插入融合模块，构建融合点云数据和图像数据的双流网络；

所述融合模块的表达式为：

其中，σ表示sigmoid函数，表示融合得到的特征，[·；·]表示concatenation操作，f_l(·)和g_l表示卷积操作，⊙表示逐元素的乘法操作；

所述目标损失函数的表达式为：

2.根据权利要求1所述的一种基于多模态数据融合的语义分割方法，其特征在于，所述根据图像数据将点云数据映射到图像空间，包括：

其中，投影后的每个点对应一个五维的特征(d,x,y,z,r)，d表示深度，r表示反射强度；

深度d的计算公式为：

x,y,z表示坐标值。

3.根据权利要求1所述的一种基于多模态数据融合的语义分割方法，其特征在于，所述在所述双流网络中插入感知损失函数，包括：

4.一种基于多模态数据融合的语义分割系统，其特征在于，包括：

采集模块，用于获取图像数据和激光雷达的点云数据；

映射模块，用于根据图像数据将点云数据映射到图像空间；

分割模块，用于将映射后的数据输入语义分割模型进行处理，获得稠密及稀疏的预测结果，实现对点云数据进行语义分割；

所述融合模块的表达式为：

所述目标损失函数的表达式为：

5.一种基于多模态数据融合的语义分割装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-3任一项所述方法。

6.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-3任一项所述方法。