CN116258859A

CN116258859A - 语义分割方法、装置、电子设备及存储介质

Info

Publication number: CN116258859A
Application number: CN202310257179.8A
Authority: CN
Inventors: 李军; 王瑞博; 黄琴; 王彤; 张松; 严玮
Original assignee: Zero Beam Technology Co ltd
Current assignee: Zero Beam Technology Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-13

Abstract

本申请提供了一种语义分割方法、装置、电子设备及存储介质，包括根据目标图像中各检测点的位置信息和目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和目标图像的三维场景的密度特征；利用各检测点的颜色特征和目标图像的三维场景的密度特征，优化各检测点的中间特征，获得各检测点的优化特征；根据各检测点的优化特征，对目标图像执行语义分割，获得目标图像的语义分割结果。借此，本申请可有效提高语义分割结果的准确性。

Description

语义分割方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种语义分割方法、装置、电子设备及存储介质。

背景技术

语义分割是自动驾驶领域中一项非常重要的机器感知任务。在自动驾驶应用中，许多具有显式语义信息的下游任务能够显著提高目标检测任务的性能。但与目标检测任务不同，语义分割以目标物体的轮廓为边界，从而识别图像或视频中存在的物体及其位置。

当前的语义分割算法，大多依赖于海量的精确像素级标注的训练图像，其通常需要耗费大量的人力标注时间成本。此外，虽然这些网络架构可融合多个层级的信息，从而同时保留高级语义信息和低级高频细节，但是这种融合机制在解决层级处理过程中的歧义性方面，并非是最佳方案。例如，针对图像中由于两个或多个物体共址而导致的遮挡区域，如果早期层级的特征中混入了所有共址物体的信息，那么这些歧义性可能会在整个层级中传播，从而导致错误边界，并导致语义分割准确性的下降。

有鉴于此，亟需一种可提高准确性的语义分割处理技术。

发明内容

有鉴于此，本申请实施例提供了一种语义分割方法、装置、电子设备及存储介质，以致解决现有技术中语义分割结果准确性不高的问题。

根据本申请实施例的第一方面，提供了一种语义分割方法，包括：根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征；利用各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征；根据各检测点的优化特征，对所述目标图像执行语义分割，获得所述目标图像的语义分割结果。

根据本申请实施例的第二方面，提供了一种语义分割装置，包括：预测单元，用于根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征；优化单元，用于利用各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征；语义分割单元，用于根据各检测点的优化特征，对所述目标图像执行语义分割，获得所述目标图像的语义分割结果。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述第一方面所述的语义分割方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时，可实现上述第一方面所述的语义分割方法。

借由上述各实施例的技术方案，本申请通过预测目标图像中各检测点的中间特征、颜色特征以及目标图像对应的三维场景的密度特征，并利用各检测点的颜色特征和密度特征针对各检测点的中间特征执行优化，借以提高目标图像的语义分割结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示例性实施例的语义分割方法的处理流程图。

图2为本申请另一示例性实施例的语义分割方法的处理流程图。

图3为本申请另一示例性实施例的语义分割方法的处理流程图。

图4为本申请另一示例性实施例的语义分割方法的处理流程图。

图5为本申请示例性实施例的语义分割装置的处理流程图。

图6为本申请示例性实施例的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合其余附图对本申请实施例提供的语义分割方法、装置、电子设备和存储介质进行详细说明。

语义分割是自动驾驶领域中一项非常重要的机器感知任务，近年来深度学习技术的快速发展，为语义分割在自动驾驶中的准确应用带来了可能。深度学习技术主要利用深度神经网络基于大量具有像素级标签的图像数据进行训练，以监督学习场景的语义信息。全卷积网络(fully convolutional networks,FCN)是当前主流的可将卷积神经网络(CNN)用于端到端的语义分割任务的语义分割网络，其可接受任意大小的输入图像，使用卷积层学习特征图，然后使用反卷积层对最后一个卷积层的特征图进行反卷积，并与对应卷积层的特征图相加得到上采样结果，通过重复这一过程，使其恢复到输入图像的相同尺寸，从而进行稠密预测。此外，SegNet通过编码器-解码器架构可以实现类似的想法，但与FCN不同的是，SegNet的解码器网络对来自对应编码器网络池化层的特征图进行上采样，从而保留深层网络中的空间信息细节。然而，这些神经网络架构依赖于图像的下采样，而分辨率的损失会严重损害最后的模型预测结果，因此一些研究工作更多关注于多尺度的语义分割。例如，U-Net提出了一种U型网络架构，可将来自不同初始网络层的特征图进行上采样和拼接，从而用于后续的网络层输入。PSPNet使用残差神经网络(Residual Networks，ResNet)和空洞网络从输入图像中抽取多个特征模式，然后这些特征图被输入金字塔池化模块中用于区分不同尺度的模式，接着对这些输出模式进行上采样并与初始特征图进行拼接用于捕获局部和全局上下文信息。Mask-RCNN借鉴优秀的目标检测模型Faster R-CNN的结构，并在此基础上增加了二值语义分支用于目标分割。DeepLab使用空洞卷积来扩充感受野，从而减少由池化等操作带来的分辨率损失。

然而，上述语义分割算法，大多依赖于海量的精确像素级标注的训练图像，这通常需要耗费大量的人力标注成本。此外，虽然这些网络架构可融合多个层级的信息，以同时保留高级语义信息和低级高频细节，但是这种融合机制可能在解决层级处理过程中的歧义性方面并非最佳方案。例如，在两个或多个物体共址的遮挡区域，如果早期层级的特征混入了所有共址物体的信息，那么这些歧义性可能会在整个层级中传播从而导致错误边界，并导致语义分割结果准确性的下降。

有鉴于此，本申请提供一种语义分割方法，利用最新的神经辐射场技术构建对自动驾驶场景的空间理解，可以显著降低模型对训练数据语义标签的标注密度和准确度的依赖，同时3D场景理解能力也有助于模型对目标物体的几何理解和语义分割的准确度，利用本申请的语义分割技术，可以显著降低对于自动驾驶路采集数据的语义标注时间，降低模型训练成本。

以下将结合各附图详细描述本申请的各实施方案。

参考图1，其示出了本申请示例性实施例的语义分割方法的处理流程图，其主要包括以下处理步骤：

步骤102，根据目标图像中各检测点的位置信息和目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和目标图像对应的三维场景的密度特征。

可选地，目标图像可包括从目标视频中抽取的多个连续的视频帧。

可选地，本实施例的方法可利用语义推理模型来执行。

于本实施例中，所述语义推理模型可包括但不限于语义神经辐射场。其中，所述语义神经辐射场是通过对原始神经辐射场进行扩展，将与视角无关的语义网络头添加到原始NeRF中而获得。

可选地，可根据目标图像中各检测点的位置信息，执行基础语义推理和密度推理，获得目标图像中各检测点的中间特征(亦可称为基础语义特征)和目标图像显示的三维场景的密度特征(参考下述公式1)，并根据目标图像中各检测点的中间特征和目标图像的位姿信息，执行颜色推理，获得目标图像中各检测点的颜色特征(参考下述公式2)：

c(p，d)＝F_C(γ(d)，f(p)) (公式2)

其中，σ表示目标图像对应的三维场景的密度特征，f(p)表示检测点p的中间特征，

表示语义推理模型中用于执行基础语义推理和密度推理的基础网络，γ(p)表示检测点p的位置信息，c(p，d)表示检测点p的颜色特征，γ(d)表示目标图像的位姿信息，F_C表示语义推理模型中用于执行颜色推理的颜色推理网络。

于本实施例中，基础网络

可包括8层，每层的宽度可为设置256。

于本实施例中，颜色推理网络可包括3至4层，每层宽度的宽度可设置为128。

可选地，可根据目标图像中各检测点的位置信息和目标图像的位姿信息执行编码操作，获得目标图像中各检测点的位置编码和目标图像的位姿编码，并根据目标图像中各检测点的位置编码和目标图像的位姿编码执行预测，获得各检测点的中间特征、颜色特征和目标图像对应的三维场景的密度特征。

具体地，为了使网络能够尽可能拟合出高频细节，可在将目标图像中各检测点的位置信息和目标图像的位姿信息输入映射网络(例如，多层感知机)之前，对其进行位置编码操作，获得各检测点的位置编码和目标图像的位姿编码。

可选地，可通过将目标图像中各检测点的三维坐标参数和用于捕获目标图像的拍摄设备的位姿参数，映射至高维的正弦余弦空间，获得目标图像中各检测点的位置编码以及目标图像的位姿编码。

于本实施例中，可利用编码换算公式(参考下述公式3)，执行三维坐标参数和位姿参数的编码操作：

γ(x)＝((sin(2⁰πx)，cos(2⁰πx)，...，sin(2^H-1πx)，cos(2^H-1πx))) (公式3)

于上述公式3中，在对各检测点的三维坐标参数进行位置编码时(即x＝p)，可将H值设置为10，在针对目标图像的位姿参数进行位置编码时(即x＝d)，可将上述公式中的H设置为4。

步骤104，利用各检测点的颜色特征和目标图像对应的三维场景的密度特征，优化各检测点的中间特征，获得各检测点的优化特征。

于本实施例中，可利用语义优化公式(参考下述公式4)，根据各检测点的颜色特征和目标图像对应的三维场景的密度特征，对各检测点的中间特征(基础语义特征)执行优化处理，获得各检测点的优化特征(亦可称为优化语义特征)。

s(p)＝F_s(f(p)) (公式4)

其中，s(p)表示检测点p的优化特征，F_s表示语义推理模型中用于执行优化处理的语义优化网络，f(p)表示检测点p的中间特征。

于本实施例中，语义优化网络可包括3至4层，每层的宽度可设置为128。

步骤S106，根据各检测点的优化特征，对目标图像执行语义分割，获得目标图像的语义分割结果。

综上所述，本实施例通过预测目标图像中各检测点的中间特征、颜色特征和目标图像对应的三维场景的密度特征，并利用各检测点的颜色特征和三维场景的密度特征，对各检测点的中间特征执行优化，借以提高目标图像的语义分割结果的准确性。

此外，本实施例也可在执行步骤S102之前，对目标图像所表征的三维场景进行区域划分，确定三维场景中的前景区域和背景区域，通过对前景区域中的各前景检测点和背景区域中的各背景检测点分别执行预测，以根据各前景检测点的优化特征与各背景检测点的优化特征的融合结果，对目标图像执行语义分割，获得目标图像的语义分割结果。

其中，由于前景区域中的各前景检测点可与语义神经辐射场中的原始神经辐射场的有界假设很好的进行匹配，因此，针对前景区域中的各前景检测点无需执行任何的额外处理。而对于背景区域中的各背景检测点的位置参数，则需执行数值归一化处理，以使其能够与原始神经辐射场的有界假设进行匹配。

具体地，可将目标图像表征的三维场景进行前景区域和背景区域的划分，获得对应于前景区域的内部单位球和对应于背景区域的外部体积。示例性地，所述外部体积可表示为覆盖内部单位球的一个倒置球体。

可将外部体积中的任意一个背景检测点的位置点(x，y，z，Φ)转换为新的四元组：(x′，y′，z′，1/Φ)。

其中，

且其中，x^′2+y^′2+z^′2＝1，向量(x，y，z)和单位向量(x′，y′，z′)的方向一致，1/Φ表示沿内部单位球的球外的Φ·(x′，y′，z′)方向的倒置半径，(x′，y′，z′)∈[-1,1]，1/Φ∈[0,1]。

借由上述的四元组转换处理，可使背景区域中的各背景检测点的位置参数与原始神经辐射场的有界假设相匹配，以供语义神经辐射场对背景区域中的各背景检测点执行预测。

此外，上述针对前景区域中的各前景检测点和背景区域中的各背景检测点所执行的预测处理，可参考上述步骤S102至步骤S104的描述内容予以实现，本申请对此不再赘述。

综上所述，本公开实施例通过引入两个相似的神经网络分别表征场景中的前景区域和背景区域，通过有机融合两个区域中各检测点的特征预测结果，能够显著提高语义神经辐射场对于三维场景的几何理解和合成质量，因此，本方案提出的语义分割处理，尤其适用于自动驾驶的应用场景，可有效提高自动驾驶的安全性。

图2为本申请另一示例性实施例的语义分割方法的处理流程图。本实施例主要示出了用于执行上述步骤102和步骤104的语义推理模型的训练方案，其主要包括以下步骤：

步骤S202，利用待训练的语义推理模型，对样本图像的各目标采样点执行颜色预测和语义预测，获得各目标采样点的颜色预测输出和语义预测输出。

可选地，可通过从用于捕获样本图像的相机的相机中心(camera center)，向样本图像中的每一个像素点投射一条光线，获得对应于各像素点的各投射光线。

可选地，可对每一条投射光线进行均匀采样，获得每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，并根据每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，确定每一条投射光线对应投射的像素点的粗颜色累积值和粗语义预测概率。

可选地，可根据每一条投射光线上的各目标采样点的粗颜色预测输出、粗语义预测输出、体积渲染权重，对每一条投射光线上的各目标采样点进行重要性采样，获得每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出，并根据每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出，确定每一条投射光线对应投射的像素点的精细颜色累积值和精细语义预测概率。

可选地，语义推理模型可包括粗采样网络和精细采样网络。

可选地，可利用粗采样网络对每一条投射光线进行均匀采样，获得每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，并基于粗采样网络的预测输出，进一步利用精细采样网络根据每一条投射光线上的各目标采样点的粗颜色预测输出、粗语义预测输出、体积渲染权重，对每一条投射光线上的各目标采样点进行重要性采样，获得每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出。

请参考图3，其示出了本申请的样本图像中各目标采样点以及各目标采样点的体积渲染权重的获取方案实施例，其主要包括以下处理步骤：

步骤S302，沿各投射光线进行均匀采样，获得样本图像的各目标采样点。

于本实施例中，各目标采样点可表示为下述公式5：

r(i)＝o+t_id_r (公式5)

其中，r(i)表示沿着第r条投射光线采集的第i个目标采样点，o表示设备中心点(也可称为相机中心)，d_r表示第r条投射光线的方向向量，t_i表示第i个目标采样点沿第r条投射光线的采样距离。

需说明的是，本申请所指的相机中心是指相机坐标系的中心点，其为相机在出厂时自带的相机内参。

步骤S304，利用光线终止概率转换公式，根据各目标采样点的密度值和距离值，确定各目标采样点的光线终止概率值。

于本实施例中，光线终止概率转换公式可表示为下述公式6：

o_i＝1-exp(-σ_iδ_i) (公式6)

其中，o_i表示第i个目标采样点的光线终止概率值，σ_i表示根据目标图像对应的三维场景的密度特征所确定的第i个目标采样点的密度值，δ_i＝t_i+1-t_i，用于表示相邻的第i+1个目标采样点与第i个目标采样点之间的距离值。

步骤S306，利用体积渲染权重公式，根据各目标采样点的光线终止概率值，确定各目标采样点的体积渲染权重。

于本实施例中，体积渲染权重公式可表示为下述公式7：

其中，w_i表示第i个目标采样点的体积渲染权重，o_j表示第j个目标采样点的光线终止概率值。

步骤S204，根据各目标采样点的颜色标签信息和颜色预测输出，获得待训练的语义推理模型的颜色预测损失值，并根据各目标采样点的语义标签信息和语义预测输出，获得待训练的语义推理模型的语义预测损失值。

可选地，可利用颜色损失计算公式，根据每一条投射光线对应投射的像素点的粗颜色累积值、精细颜色累积值、颜色累积真值，获得语义推理模型的颜色预测损失值。

于本实施例中，颜色预测损失值可表示为下述公式8：

其中，L_c表示待训练的语义推理模型的颜色预测损失值，r表示第r条投射光线，R表示投射光线的总数，

表示第r条投射光线对应投射的像素点的粗颜色累积值，所述

表示第r条投射光线对应投射的像素点的精细颜色累积值，C(r)表示第r条投射光线对应投射的像素点的颜色累积真值。

具体地，可使用体积渲染公式，对第r条投射光线上的各目标采样点的粗颜色预测输出或精细颜色预测输出进行累积后，获得第r条投射光线对应投射的像素点的粗颜色累积值或精细颜色累积值。

于本实施例中，可利用下述公式9和公式10，获得粗颜色累积值和精细颜色累积值：

其中，cc_i表示第r条投射光线上的第i个目标采样点的粗颜色预测输出，w_ci表示第i个目标采样点对应于粗采样网络的体积渲染权重，c_fi表示第r条投射光线上的第i个目标采样点的精细颜色预测输出，w_fi表示第i个目标采样点对应于精细采样网络的体积渲染权重，N_c为粗采样网络所预测的各投射光线上的目标采样点的总数，N_c+N_f为精细采样网络所预测的各投射光线上的目标采样点的总数，[u，v]表示第r条投射光线对应投射的像素点的坐标信息。

上述公式9中的w_ci和公式10中的w_fi，均可通过上述公式6和公式7来获得，不同之处在于，在计算w_ci的过程中，N_c个目标采样点是通过均匀采样获得的，即这N_c个目标采样点是均匀分布的，因此，δ_i为常数值；在计算w_fi的过程中，由于N_f个目标采样点是通过重要性采样获得的，使得N_c+N_f个目标采样点并不是均匀分布的，因此，δ_i不是一个常数值。

可选地，可利用下述公式11，对N_c个目标采样点的体积渲染权重w_ci进行归一化处理，获得归一化权重值，并提供精细采样网络基于此归一化权重值，进行重要性采样，获得N_f个目标采样点，并将N_c个目标采样点和N_f个目标采样点一并送入精细采样网络中执行预测。

可选地，可利用语义损失计算公式，根据各目标采样点的粗语义预测输出、精细语义预测输出、语义标签信息，获得语义推理模型的语义预测损失值。

于本实施例中，语义损失计算公式表示为下述公式12：

其中，L_s表示待训练的语义推理模型的语义预测损失值，r表示第r条投射光线，R表示投射光线的总数，S^l(r)表示第r条投射光线对应投射的像素点属于第l个语义标签类别的语义标签概率，L语义标签类别的总类别数，

表示第r条投射光线对应投射的像素点属于第l个语义标签类别的粗语义预测概率，

表示第r条投射光线对应投射的像素点属于第l个语义标签类别的精细语义预测概率。

具体地，可使用体积渲染公式，对第r条投射光线上的各目标采样点的粗语义预测输出或精细语义预测输出进行累积后，获得第r条投射光线对应投射的像素点的粗语义预测概率或精细语义预测概率。

于本实施例中，粗语义预测概率

和精细语义预测概率

的获取方式，与上述的粗颜色累积值

和精细颜色累积值

的获取方式基本相同，可参考上述公式9和公式10的相关描述内容，此处将不再予以赘述。

步骤S206，判断模型损失值是否满足预设收敛条件，若满足，执行步骤S208，若不满足，执行步骤S202。

可选地，可利用粗损失值换算公式(参考下述公式13)，根据语义推理模型的颜色预测损失值和语义预测损失值，确定待训练的语义推理模型的模型损失值。

L＝L_C+λL_s (公式13)

其中，L表示语义推理模型的模型损失值，L_C表示颜色预测损失值，L_s表示语义预测损失值，λ为权重值。

可选地，可当模型损失值的更新趋于稳定时(例如，更新后的模型损失值与更新前的模型损失值之间的差值小于预设差值时)，可获得待训练的语义推理模型的模型损失值满足预设收敛条件的判断结果。

可选地，可通过随机梯度下降(stochastic gradient descent)等优化方法反向传播模型损失值(颜色损失和语义损失)，以从头训练整个语义推理模型。

步骤S208，获得语义推理模型。

综上所示，本实施例采用改进的语义神经辐射场的网络架构，可在稀疏语义信息监督下，输出更加符合场景几何的语义标注，可显著降低模型对训练数据语义标签的标注密度和准确度的依赖，并有助提升模型对于目标物体的几何理解和语义分割的准确度。

图4为本申请另一示例性实施例的语义分割方法的处理流程图。本实施例可作为上述图2的替换实施例予以执行，其主要包括以下步骤：

步骤S402，利用待训练的语义推理模型，对样本图像的各目标采样点执行颜色预测、语义预测、深度预测，获得各目标采样点的颜色预测输出、语义预测输出、深度预测输出。

可选地，语义推理模型可包括粗采样网络和精细采样网络。

可选地，可利用所述粗采样网络对每一条投射光线进行均匀采样，获得每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出、粗深度预测输出，并利用所述精细采样网络根据每一条投射光线上的各目标采样点的粗颜色预测输出、粗语义预测输出、体积渲染权重，对每一条投射光线上的各目标采样点进行重要性采样，获得每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出、精细深度预测输出。

步骤S404，根据各目标采样点的颜色标签信息和颜色预测输出，获得待训练的语义推理模型的颜色预测损失值，根据各目标采样点的语义标签信息和语义预测输出，获得待训练的语义推理模型的语义预测损失值，并根据各目标采样点的深度标签信息和深度预测输出，获得待训练的语义推理模型的深度预测损失值。

针对本步骤中的颜色预测损失值、语义预测损失值的计算方式，可参考前述步骤S204的描述内容，此外，上述深度预测损失值的获取原理与颜色预测损失值、语义预测损失值的基本相同，亦可参考前述步骤S204的描述内容，在此不予赘述。

步骤S406，判断语义推理模型的模型损失值是否满足预设收敛条件，若满足，执行步骤S408，若不满足，执行步骤S402。

可选地，可利用精细损失值换算公式(参考下述公式14)，根据语义推理模型的颜色预测损失值、语义预测损失值、深度预测损失值，确定语义推理模型的模型损失值。

L＝L_C+λ_sL_s+λ_dL_d (公式14)

其中，L表示语义推理模型的模型损失值，L_C表示颜色预测损失值，λ_s表示颜色预测损失权重值，L_s表示语义预测损失值，λ_d表示深度预测损失权重值，L_d表示深度预测损失值。

步骤S408，获得语义推理模型。

综上所述，本实施例通过进一步针对各目标采样点的深度值进行预测，以结合语义推理模型的颜色预测损失值、语义预测损失值、深度预测损失值执行模型训练，可以进一步提高模型预测的鲁棒性，提升模型预测结果的准确性。

此外，本实施例通过对各投射光线进行均匀采样，获得均匀分布的各目标采样点后，再利用体积渲染权重所对应的概率分布，针对各目标采样点进行更高效且更精细的重要性采样，不仅可降低语义推理模型的训练时间成本，亦可提高模型的训练效果。

具体地，由于在模型训练过程中，每一个采样点都需要一次MLP查询，因此，对于整幅高清的样本图像而言，若沿各投射光线进行均匀采样，会产生大量的采样点，此会大大增加模型的训练时间。再者，均匀分布的采样点往往会丢失大量的关键空间信息，导致模型的训练效果较差。有鉴于此，本申请通过对均匀采样的各采样点进行更高效且更精细的重要性采样，不仅可大幅减少模型的训练时间亦可同时提供模型的训练效果。

本申请另一实施例还提供一种场景重建方法，包括：获取待重建图像；利用上述任意一个实施例所述的语义分割方法，对待重建图像执行语义分割，获得待重建图像的语义分割结果，并基于待重建图像的语义分割结果，对待重建图像对应的原始场景执行场景重建，获得待重建图像的重建场景。

综上所述，利用本实施例提供的场景重建方法，能够提高场景重建结果的准确性与可靠性，尤其适用于汽车自动驾驶领域，可提高汽车自动驾驶的安全性。

图5示出了本申请示例性实施例的语义分割装置的结构框图。如图所示，本实施例的语义分割装置500主要包括预测单元502、优化单元504、语义分割单元506。

预测单元502，用于根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征。

优化单元504，用于利用各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征。

语义分割单元506，用于根据各检测点的优化特征，对所述目标图像执行语义分割，获得所述目标图像的语义分割结果。

可选地，预测单元502还用于：根据所述目标图像中各检测点的位置信息，执行基础语义推理和密度推理，获得所述目标图像中各检测点的中间特征和所述目标图像对应的三维场景的密度特征；根据所述目标图像中各检测点的中间特征和所述目标图像的位姿信息，执行颜色推理，获得所述目标图像中各检测点的颜色特征。

可选地，预测单元502还用于：通过将所述目标图像中各检测点的三维坐标参数和用于捕获所述目标图像的拍摄设备的位姿参数，映射至高维的正弦余弦空间，获得所述目标图像中各检测点的位置信息以及所述目标图像的位姿信息。

可选地，预测单元502还用于：利用语义推理模型(未示出)，根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征。

可选地，优化单元504还用于：利用语义推理模型(未示出)，根据各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征。

可选地，语义分割装置500还包括训练单元(未示出)，用于训练所述语义推理模型，其包括：执行预测步骤，利用待训练的语义推理模型，对样本图像的各目标采样点执行颜色预测和语义预测，获得各目标采样点的颜色预测输出和语义预测输出；执行损失计算步骤，根据各目标采样点的颜色标签信息和颜色预测输出，获得所述待训练的语义推理模型的颜色预测损失值，并根据各目标采样点的语义标签信息和语义预测输出，获得所述待训练的语义推理模型的语义预测损失值；基于由所述颜色预测损失值和所述语义预测损失值所确定的模型损失值，重复执行所述预测步骤，直至所述模型损失值满足预设收敛条件，以获得所述语义推理模型。

可选地，所述训练单元还用于：确定用于捕获所述样本图像的捕获设备的设备中心点；根据由所述设备中心点向所述样本图像的各像素点投射的各投射光线，确定每一条投射光线上的多个目标采样点；对每一条投射光线进行均匀采样，获得每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，并根据每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，确定每一条投射光线对应投射的像素点的粗颜色累积值和粗语义预测概率；根据每一条投射光线上的各目标采样点的粗颜色预测输出、粗语义预测输出、体积渲染权重，对每一条投射光线上的各目标采样点进行重要性采样，获得每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出，并根据每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出，确定每一条投射光线对应投射的像素点的精细颜色累积值和精细语义预测概率。

可选地，所述训练单元还用于：利用光线终止概率转换公式，根据各目标采样点的密度值和距离值，确定各目标采样点的光线终止概率值；利用体积渲染权重公式，根据各目标采样点的光线终止概率值，确定各目标采样点的体积渲染权重；

可选地，所述光线终止概率转换公式表示为：

o_i＝1-exp(-σ_iδ_i)

所述体积渲染权重公式表示为：

其中，所述o_i表示第i个目标采样点的光线终止概率值，所述σ_i表示第i个目标采样点的密度值，所述δ_i＝t_i+1-t_i，用于表示相邻的第i+1个目标采样点与第i个目标采样点之间的距离值，所述w_i表示第i个目标采样点的体积渲染权重，所述o_j表示第j个目标采样点的光线终止概率值。

可选地，所述语义推理模型包括粗采样网络和精细采样网络。

可选地，所述训练单元还用于：利用所述粗采样网络对每一条投射光线上进行均匀采样，获得每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出；利用所述精细采样网络根据每一条投射光线上的各目标采样点的粗颜色预测输出、粗语义预测输出、体积渲染权重，对每一条投射光线上的各目标采样点进行重要性采样，获得每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出。

可选地，所述训练单元还用于：利用颜色损失计算公式，根据每一条投射光线对应投射的像素点的粗颜色累积值、精细颜色累积值、颜色累积真值，获得待训练的语义推理模型的颜色预测损失值；利用语义损失计算公式，根据每一条投射光线对应投射的像素点的粗语义预测概率、精细语义预测概率、语义标签概率，获得待训练的语义推理模型的语义预测损失值；

所述颜色损失计算公式表示为：

其中，所述L_c表示待训练的语义推理模型的颜色预测损失值，所述r表示第r条投射光线，所述R表示投射光线的总数，所述

表示第r条投射光线对应投射的像素点的粗颜色累积值，所述

表示第r条投射光线对应投射的像素点的精细颜色累积值，所述C(r)表示第r条投射光线对应投射的像素点的颜色累积真值；

所述语义损失计算公式表示为：

其中，所述L_s表示待训练的语义推理模型的语义预测损失值，所述r表示第r条投射光线，所述R表示投射光线的总数，所述S^l(r)表示第r条投射光线对应投射的像素点属于第l个语义标签类别的语义标签概率，所述L语义标签类别的总类别数，所述

表示第r条投射光线对应投射的像素点属于第l个语义标签类别的粗语义预测概率，所述

可选地，所述训练单元还用于：执行预测步骤，利用待训练的语义推理模型，对样本图像的各目标采样点执行颜色预测、语义预测、深度预测，获得各目标采样点的颜色预测输出、语义预测输出、深度预测输出；损失计算步骤，根据各目标采样点的颜色标签信息和颜色预测输出，获得所述待训练的语义推理模型的颜色预测损失值，根据各目标采样点的语义标签信息和语义预测输出，获得所述待训练的语义推理模型的语义预测损失值，并根据各目标采样点的深度标签信息和深度预测输出，获得所述待训练的语义推理模型的深度预测损失值；基于由所述颜色预测损失值、所述语义预测损失值、所述深度预测损失值所确定的模型损失值，重复执行所述预测步骤，直至所述模型损失值满足预设收敛条件，以获得所述语义推理模型。

本发明实施例提供的语义分割装置500与本发明各实施例提供的语义分割方法相对应，其他描述均可参照对本发明实施例提供的语义分割方法的描述，此处不再赘述。

本发明另一实施例提供了一种场景重建装置，包括：获取单元，用于获取待重建图像；场景重建单元，用于利用上述任意一个实施例所述的语义分割方法或利用上述实施例所述的语义分割装置，对待重建图像执行语义分割，获得待重建图像的语义分割结果，并基于待重建图像的语义分割结果，对待重建图像对应的原始场景执行场景重建，获得待重建图像的重建场景。

本发明另一实施例提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信。

图6为本发明示例性实施例的电子设备的结构框图，如图6所示，本实施例的电子设备600，其可包括处理器(processer)602、通信接口(communication interface)604、存储器(memory)606。

处理器602、通信接口604、以及存储器606可通过通信总线608完成相互间的通信。

通信接口604用于与其它电子设备如终端设备或服务器进行通信。

处理器602，用于执行计算机程序610，具体可以执行上述各方法实施例中的相关步骤，亦即，执行如上述各实施例所述的语义分割方法中的各步骤。

具体地，计算机程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可以是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放计算机程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

本发明另一实施例提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时，可实现上述各实施例所述的语义分割方法。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的语义分割方法。此外，当通用计算机访问用于实现在此示出的语义分割方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的语义分割方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

需要说明的是，虽然结合附图对本申请的具体实施例进行了详细的描述，但不应理解为对本申请的保护范围的限定。在权利要求书所描述的范围内，本领域技术人员不经创造性劳动即可作出的各种修改和变形仍属于本申请的保护范围。

本申请实施例的示例旨在简明地说明本申请实施例的技术特点，使得本领域技术人员能够直观了解本申请实施例的技术特点，并不作为本申请实施例的不当限定。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语义分割方法，其特征在于，包括：

根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征；

利用各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征；

根据各检测点的优化特征，对所述目标图像执行语义分割，获得所述目标图像的语义分割结果。

2.根据权利要求1所述的方法，其特征在于，所述根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征，包括：

根据所述目标图像中各检测点的位置信息，执行基础语义推理和密度推理，获得所述目标图像中各检测点的中间特征和所述目标图像对应的三维场景的密度特征；

根据所述目标图像中各检测点的中间特征和所述目标图像的位姿信息，执行颜色推理，获得所述目标图像中各检测点的颜色特征。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过将所述目标图像中各检测点的三维坐标参数和用于捕获所述目标图像的拍摄设备的位姿参数，映射至高维的正弦余弦空间，获得所述目标图像中各检测点的位置信息以及所述目标图像的位姿信息。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法包括：

利用语义推理模型，根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征，并利用各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征，

其中，所述语义推理模型包括语义神经辐射场。

5.根据权利要求4所述的方法，其特征在于，所述语义推理模型通过以下方式训练：

预测步骤，利用待训练的语义推理模型，对样本图像的各目标采样点执行颜色预测和语义预测，获得各目标采样点的颜色预测输出和语义预测输出；

损失计算步骤，根据各目标采样点的颜色标签信息和颜色预测输出，获得所述待训练的语义推理模型的颜色预测损失值，并根据各目标采样点的语义标签信息和语义预测输出，获得所述待训练的语义推理模型的语义预测损失值；

基于由所述颜色预测损失值和所述语义预测损失值所确定的模型损失值，重复执行所述预测步骤，直至所述模型损失值满足预设收敛条件，以获得所述语义推理模型。

6.根据权利要求5所述的方法，其特征在于，所述预测步骤包括：

确定用于捕获所述样本图像的捕获设备的设备中心点；

根据由所述设备中心点向所述样本图像的各像素点投射的各投射光线，确定每一条投射光线上的多个目标采样点；

对每一条投射光线进行均匀采样，获得每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，并根据每一条投射光线上的各目标采样点的粗颜色预测输出和粗语义预测输出，确定每一条投射光线对应投射的像素点的粗颜色累积值和粗语义预测概率；

根据每一条投射光线上的各目标采样点的粗颜色预测输出、粗语义预测输出、体积渲染权重，对每一条投射光线上的各目标采样点进行重要性采样，获得每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出，并根据每一条投射光线上的各目标采样点的精细颜色预测输出和精细语义预测输出，确定每一条投射光线对应投射的像素点的精细颜色累积值和精细语义预测概率。

7.根据权利要求4所述的方法，其特征在于，所述语义推理模型通过以下方式训练：

预测步骤，利用待训练的语义推理模型，对样本图像的各目标采样点执行颜色预测、语义预测、深度预测，获得各目标采样点的颜色预测输出、语义预测输出、深度预测输出；

损失计算步骤，根据各目标采样点的颜色标签信息和颜色预测输出，获得所述待训练的语义推理模型的颜色预测损失值，根据各目标采样点的语义标签信息和语义预测输出，获得所述待训练的语义推理模型的语义预测损失值，并根据各目标采样点的深度标签信息和深度预测输出，获得所述待训练的语义推理模型的深度预测损失值；

基于由所述颜色预测损失值、所述语义预测损失值、所述深度预测损失值所确定的模型损失值，重复执行所述预测步骤，直至所述模型损失值满足预设收敛条件，以获得所述语义推理模型。

8.一种语义分割装置，其特征在于，包括：

预测单元，用于根据目标图像中各检测点的位置信息和所述目标图像的位姿信息执行预测，获得各检测点的中间特征、颜色特征和所述目标图像对应的三维场景的密度特征；

优化单元，用于利用各检测点的颜色特征和所述密度特征，优化各检测点的中间特征，获得各检测点的优化特征；

语义分割单元，用于根据各检测点的优化特征，对所述目标图像执行语义分割，获得所述目标图像的语义分割结果。

9.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至7中任一项所述的语义分割方法对应的操作。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时，可实现如权利要求1至7中任一所述的语义分割方法。