CN116912488A

CN116912488A - 基于多目相机的三维全景分割方法及装置

Info

Publication number: CN116912488A
Application number: CN202310706587.7A
Authority: CN
Inventors: 张兆翔; 王宇琪; 陈韫韬; 廖星宇
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-20
Anticipated expiration: 2043-06-14
Also published as: CN116912488B

Abstract

本发明涉及计算机视觉技术领域，提供一种基于多目相机的三维全景分割方法及装置，该方法获取多目相机采集的多个当前帧图像；将多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将时序融合结果进行上采样，得到上采样结果，由体素解码模块对上采样结果进行解码，得到并输出全景分割结果。该方法可以得到稠密的三维全景分割结果，实现精细的语义理解。

Description

基于多目相机的三维全景分割方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多目相机的三维全景分割方法及装置。

背景技术

三维感知技术在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用。三维感知技术中的三维全景分割将目标检测任务和语义分割任务统一起来，实现全面的场景感知与理解。

现有的三维全景分割方法都是依赖激光雷达的点云数据作为输入，输出的是稀疏的三维全景分割结果。并且，由于点云数据缺乏表观信息，难以实现精细的语义理解。

因此，现亟需提供一种基于多目相机的三维全景分割方法。

发明内容

本发明提供一种基于多目相机的三维全景分割方法及装置，用以解决现有技术中存在的缺陷。

本发明提供一种基于多目相机的三维全景分割方法，包括：

获取多目相机采集的多个当前帧图像；

将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；

其中，所述三维全景分割模型基于携带有全景分割标签的多组历史帧图像序列训练得到。

根据本发明提供的一种基于多目相机的三维全景分割方法，所述全景分割结果包括三维目标检测结果和三维语义分割结果；

所述体素解码模块具体用于：

基于多层感知器结构的语义分割头，对所述上采样结果进行解码，得到所述三维语义分割结果；

确定所述上采样结果中的前景体素特征，并将所述前景体素特征进行池化得到鸟瞰图特征，基于目标检测头对所述鸟瞰图特征进行解码，得到所述三维目标检测结果。

根据本发明提供的一种基于多目相机的三维全景分割方法，所述体素解码模块还具体用于：

基于所述三维目标检测结果，对所述三维语义分割结果进行修正。

根据本发明提供的一种基于多目相机的三维全景分割方法，所述三维全景分割模型基于如下步骤训练得到：

将所述多组历史帧图像序列输入至初始全景分割模型，得到所述初始全景分割模型输出的每组历史帧图像序列中当前历史帧图像的初始全景分割结果；

基于所述初始全景分割结果与所述当前历史帧图像的全景分割标签，计算目标损失函数的取值，并基于所述目标损失函数的取值，对所述初始全景分割模型的结构参数进行迭代更新，得到所述三维全景分割模型；

其中，所述目标损失函数包括目标检测损失和语义分割损失，所述目标检测损失包括分类损失和回归损失，所述语义分割损失包括体素类别损失、非空体素类别损失和前景背景体素分类损失。

根据本发明提供的一种基于多目相机的三维全景分割方法，所述视图编码模块，具体用于：

确定三维的体素查询；

基于相机投影关系，将所述体素查询的坐标投影至每个当前帧图像，并基于可形变注意力机制，查询每个当前帧图像上的多尺度图像特征对应的所述三维体素特征。

根据本发明提供的一种基于多目相机的三维全景分割方法，所述视图编码模块包括依次连接的体素自注意力层、第一Add&Norm层、体素交叉注意力层、第二Add&Norm层、前向传播层和第三Add&Norm层。

根据本发明提供的一种基于多目相机的三维全景分割方法，所述体素上采样模块具体用于：

使用三维反卷积结构，将所述时序融合结果进行上采样，得到所述上采样结果。

本发明还提供一种基于多目相机的三维全景分割装置，包括：

图像获取模块，用于获取多目相机采集的多个当前帧图像；

全景分割模块，用于将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的基于多目相机的三维全景分割方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的基于多目相机的三维全景分割方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的基于多目相机的三维全景分割方法。

本发明提供的基于多目相机的三维全景分割方法及装置，该方法首先获取多目相机采集的多个当前帧图像；然后将多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将时序融合结果进行上采样，得到上采样结果，由体素解码模块对上采样结果进行解码，得到并输出全景分割结果。该方法通过三维全景分割模型通过提取当前帧图像的多尺度图像特征，可以实现对任意分辨率下的当前帧图像的三维全景分割。而且，该三维全景分割模型将二维图形特征转换为三维体素特征，进而可以确定稠密的三维全景分割结果，实现精细的语义理解，使三维全景分割结果更加准确可靠。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于多目相机的三维全景分割方法的流程示意图之一；

图2是本发明提供的基于多目相机的三维全景分割方法中三维全景分割模型的结构示意图；

图3是本发明提供的基于多目相机的三维全景分割方法中三维全景分割模型的视图编码模块的结构示意图；

图4是本发明提供的基于多目相机的三维全景分割方法的流程示意图之二；

图5是本发明提供的基于多目相机的三维全景分割装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

由于现有的三维全景分割方法都是依赖激光雷达的点云数据作为输入，输出的是稀疏的三维全景分割结果。并且，由于点云数据缺乏表观信息，难以实现精细的语义理解。

因此，基于多目相机的三维全景分割具有重要意义，并具有广泛的应用前景。多目相机可以捕捉丰富的颜色和表观信息，适合于场景的语义理解。并且，任意的三维空间位置都可以利用相机的投影关系，对应到二维图像上获取信息，因此可以实现稠密的三维全景分割。

目前，基于多目相机的三维目标检测方法已经取得了较大进展，其性能已经接近基于激光雷达的三维目标检测方法。但是在全景分割方面，尚未出现基于多目相机的方法。其困难在于，从二维图像恢复场景的三维结构信息是一项具有挑战性的任务，过去采用了基于鸟瞰图特征的方法，但这种方法损失了高度信息，难以恢复精细的三维语义信息。基于此，本发明实施例中提供了一种基于多目相机的三维全景分割方法。

图1为本发明实施例中提供的一种基于多目相机的三维全景分割方法的流程示意图，如图1所示，该方法包括：

S1，获取多目相机采集的多个当前帧图像；

S2，将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；

具体地，本发明实施例中提供的基于多目相机的三维全景分割方法，其执行主体为基于多目相机的三维全景分割装置，该装置可以配置于计算机内，该计算机可以为本地计算机或云计算机，本地计算机可以是电脑、平板等，此处不作具体限定。该基于多目相机的三维全景分割方法可以应用于车辆自动驾驶等领域。

首先执行步骤S1，获取多目相机采集的多个当前帧图像。多目相机是指分布于多个方位的相机，多目相机可以从不同角度拍摄视频。每个视频中当前时刻的图像即为当前帧图像，因此当前帧图像的个数与相机的个数相同，且一一对应。多目相机可以拍摄彩色视频，进而多个当前帧图像也可以为RGB图像。多目相机可以均是通用摄像头，也可以是工业相机，此处不作具体限定。

特别地，若该基于多目相机的三维全景分割方法应用于车辆自动驾驶领域，则多目相机可以分别安装于车辆的不同方位，以从不同角度拍摄车辆周围环境的视频。

然后执行步骤S2，将多个当前帧图像输入至三维全景分割模型，利用三维全景分割模型得到全景分割结果。

该三维全景分割模型可以是深度神经网络模型。如图2所示，三维全景分割模型包括依次连接的图像编码模块、视图编码模块、时序编码模块、体素上采样模块和体素解码模块。

图像编码模块可以采用骨干网络(Backbone)实现，骨干网络包括但不限于残差卷积网络和特征金字塔网络等。图像编码模块用于提取每个当前帧图像的多尺度图像特征。图像特征的尺度可以包括多个，例如可以包括四个尺度，即每个当前帧图像均包括四个尺度的图像特征。

可以理解的是，图像特征的尺度是以当前帧图像的尺度为参考确定的尺度，均为当前帧图像的尺度的缩放比例。若相机共有n目，则共有N个当前帧图像，其中第i(1≤i≤N)个当前帧图像的多尺度图像特征可以表示为F_N，N个当前帧图像的多尺度图像特征可以表示为{F₁，...，F_N}。此处，每个当前帧图像的多尺度图像特征均为二维图像特征。

视图编码模块可以基于三维的体素查询进行构造，并利用相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征其中t表示当前时刻，H表示三维体素特征的长度，W表示三维体素特征的宽度，Z表示三维体素特征的高度。

时序编码模块可以将多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果。此处，该基于多目相机的三维全景分割方法可以实时进行，多目相机采集的历史帧图像的三维体素特征可以通过前一时刻的三维全景分割流程确定，因此对于当前时刻的三维全景分割流程来说是已知的。

三维体素特征的融合可以包括将历史帧图像的三维体素特征对齐到当前帧图像中的体素位置，并将对齐的三维体素特征进行合并，将合并结果经过一组三维卷积后即可得到时序融合结果。若该基于多目相机的三维全景分割方法应用于车辆自动驾驶领域，上述对齐方式可以采用三维网格的时序对齐方式，利用车辆运动计算当前帧图像中的网格点在历史帧图像的网格点位置，使用网格采样的方式将历史帧图像的三维体素特征转换到当前帧图像中的体素位置。

历史帧图像的三维体素特征可以表示为[Q_t-a，...，Q_t-1]，t-1表示当前时刻的前一时刻，Q_t-1表示t-1时刻的三维体素特征，t-a表示当前时刻前的第a个时刻，Q_t-a表示t-a时刻的三维体素特征。其中，a为正整数。

将历史帧图像的三维体素特征对齐到当前帧图像中的体素位置，可以表示为[Q_t-a→t，...，Q_t-1→t]，最终得到的时序融合结果可以表示为其中，D表示时序融合结果的特征维度。

体素上采样模块可以将时序融合结果Q_f进行上采样，得到上采样结果该上采样结果为高分辨率的三维体素特征。其中，H^′表示上采样结果的长度，W^′表示上采样结果的宽度，Z^′表示上采样结果的高度，D^′表示上采样结果的特征维度。

由此可知，该三维全景分割模型可以通过图像编码模块、视图编码模块及时序编码模块实现粗粒度的三维体素特征的提取，结合体素上采样模块可以实现细粒度的三维体素特征的提取。

体素解码模块可以对上采样结果进行解码，得到并输出全景分割结果。该全景分割结果可以是当前帧图像中各目标所属的类别，各目标所属的类别可以包括车辆自动驾驶领域中车辆周围环境中的树木、道路、动物、行人、建筑物、其他车辆等。其中，解码过程可以通过解码器结构实现，此处不作具体限定。

本发明实施例中采用的三维全景分割模型可以利用携带有全景分割标签的多组历史帧图像序列，对初始全景分割模型进行训练得到。每组历史帧图像序列是指一目相机在一段时间内拍摄得到的图像按时间顺序排列得到。历史帧图像序列的组数与相机的目数相同，且各组历史帧图像序列与各目相机一一对应。

若有N目相机，则共有N组历史帧图像序列，N组历史帧图像序列可以共同表示为{I_t0,…,I_t0-a}，t0表示历史帧图像序列中的当前历史时刻，t0-a表示历史帧图像序列中的当前历史时刻前的第a个时刻。包含N目相机在t0时刻采集的N帧图像。

此处，全景分割标签作为监督信号，可以通过人工标注得到。

在对初始全景分割模型进行训练时，可以将多组历史帧图像序列输入至初始全景分割模型，得到初始全景分割模型输出的每组历史帧图像序列中当前历史帧图像的初始全景分割结果；

基于初始全景分割结果与当前历史帧图像的全景分割标签，计算目标损失函数的取值，并基于目标损失函数的取值，对初始全景分割模型的结构参数进行迭代更新，直至达到预设迭代次数或目标损失函数收敛，则确定此时的初始全景分割模型为三维全景分割模型。其中，采用的目标损失函数可以根据实际需求进行选取，此处不作具体限定。

本发明实施例中提供的基于多目相机的三维全景分割方法，首先获取多目相机采集的多个当前帧图像；然后将多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将时序融合结果进行上采样，得到上采样结果，由体素解码模块对上采样结果进行解码，得到并输出全景分割结果。该方法通过三维全景分割模型通过提取当前帧图像的多尺度图像特征，可以实现对任意分辨率下的当前帧图像的三维全景分割。而且，该三维全景分割模型将二维图形特征转换为三维体素特征，进而可以确定稠密的三维全景分割结果，实现精细的语义理解，使三维全景分割结果更加准确可靠。

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割方法，所述全景分割结果包括三维目标检测结果和三维语义分割结果；

所述体素解码模块具体用于：

具体地，全景分割结果可以包括三维目标检测结果和三维语义分割结果，三维目标检测结果为当前帧图像中各目标对应的检测框及各检测框对应的目标类别，三维语义分割结果可以是当前帧图像中各体素对应的语义类别。

进而，体素解码模块可以包括语义分割头和目标检测头，语义分割头可以是多层感知器结构，通过语义分割头对上采样结果进行解码，可以得到三维语义分割结果。

在确定三维目标检测结果时，可以先确定上采样结果中的前景体素特征，该前景体素特征可以通过体素筛选得到，并将前景体素特征进行池化得到鸟瞰图特征，此后通过基于查询实现的目标检测头对鸟瞰图特征进行解码，即可得到三维目标检测结果。

在此基础上，全景分割标签可以包括三维目标检测框标签和三维体素语义标签，多组历史帧图像序列中每个三维体素均可以对应有三维目标检测框标签和三维体素语义标签。

三维目标检测框标签可以表示为N_t0∈{v₀，v₁，...，v_p-1}，p为当前历史帧图像中的目标数量，v_p-1表示第p个目标的检测框标签，可以包括检测框中心位置、目标尺寸、目标移动速度和目标类别等信息。

三维体素语义标签可以表示为Y_t∈{ω₀，ω₁，...，ω_C-1}^H×W×Z，c表示多组历史帧图像序列中所有目标所属的类别总数，ω_C-1表示第C个类别编码。

此处，三维目标检测框标签可以直接通过标注软件实现，三维目标检测框标签可以包括目标检测框的中心位置、目标尺寸以及目标移动速度等信息。三维体素语义标签可以通过雷达点云的语义分割标注体素化得到，当一个体素内拥有多个语义类别的雷达点时，可以选择最多雷达点的语义类别作为当前体素的语义标签。本发明实施例中的三维体素语义标签，为三维体素的稠密的语义标签，既可以使用单帧稀疏点云来获取，还可以使用多帧点云或者从运动恢复结构(Sfm)的方式获取。

本发明实施例中，由于全景分割结果包括三维目标检测结果和三维语义分割结果，将全景分割任务分为目标检测任务和语义分割任务，并将目标检测任务和语义分割任务通过三维体素进行统一，可以实现基于多目相机的三维全景分割任务的快速执行，并可以实现稠密的三维全景分割，具有广泛的应用前景，可以接近基于激光雷达的三维语义分割、全景分割的方法性能。

在上述实施例的基础上，所述体素解码模块还具体用于：

具体地，体素解码模块中，在通过目标检测头得到当前帧图像的三维目标检测结果以及通过语义分割头得到三维语义分割结果之后，可以利用三维目标检测结果，对三维语义分割结果进行修正，即将检测框中各体素的语义类别替换为检测框对应的目标类别，如此可以避免出现体素级分类误差。

在上述实施例的基础上，所述三维全景分割模型基于如下步骤训练得到：

具体地，在对初始全景分割模型进行训练时，由于初始全景分割模型与三维全景分割模型的结构相同，仅仅是结构参数不同。在初始全景分割模型和三维全景分割模型均包含目标检测头和语义分割头的情况下，采用的目标损失函数可以包括目标检测损失和语义分割损失/>表示为：

目标检测损失包括分类损失/>和回归损失/>表示为：

语义分割损失包括体素类别损失/>非空体素类别损失/>和前景背景体素分类损失/>可以表示为：

其中，分类损失可以通过焦点损失函数计算，回归损失/>可以通过L1平滑损失函数计算。体素类别损失/>用于监督所有体素类别，非空体素类别损失/>用于监督除空类别之外的体素类别，前景背景体素分类损失/>是一个二分类的焦点损失函数，用于区分前景目标体素和背景体素。λ₁、λ₂、λ₃、λ₄、λ₅分别为加权系数，为常数。

除此之外，语义分割损失还可以采用交叉熵损失函数、Dice损失函数等。

本发明实施例中，采用目标损失函数，对初始全景分割模型进行训练，可以使训练得到的三维全景分割模型的性能更优。

在上述实施例的基础上，所述视图编码模块，具体用于：

确定三维的体素查询；

具体地，视图编码模块可以先确定三维的体素查询，该体素查询是查询q的组合，即有q∈Q，查询q是一个特征向量，具有可学习的参数。也就是说，体素查询是包含有不确定参数的三维体素特征，通过不断学习确定出最终的参数取值，即可确定三维体素特征。体素查询的坐标(i,j,k)对应着三维空间下的位置(x_i,y_j,z_k)。

基于三维的体素查询，利用相机投影关系将体素查询对应的三维空间下的位置(x_i,y_j,z_k)投影到每个当前帧图像上，并使用可形变注意力机制来查询每个当前帧图像上的多尺度图像特征对应的三维体素特征Q_t。

如图3所示，在上述实施例的基础上，所述视图编码模块包括依次连接的体素自注意力层、第一Add&Norm层、体素交叉注意力层、第二Add&Norm层、前向传播层和第三Add&Norm层。

具体地，体素交叉注意力(VCA)层，定义为：

其中，v为q能够投影到的相机的总数，M为F_n中的特征点总数，为q与F_n之间的转换关系集，/>为可形变交叉注意力特征。

体素自注意力(VSA)层，其定义为：

其中，为q与Q之间的转换关系集，/>为可形变自注意力特征。

在上述实施例的基础上，所述体素上采样模块具体用于：

具体地，体素上采样模块可以依次使用两层三维反卷积结构，将时序融合结果进行上采样，得到上采样结果，如此可以使上采样结果具有高分辨率，进而使得到的全景分割结果更加准确，精度更高。

如图4所示，在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割方法整体包括：

获取多目相机采集的多个当前帧图像，并通过三维全景分割模型中的图像编码模块提取每个当前帧图像的多尺度图像特征。

通过视图编码模块结合体素查询将每个当前帧图像的多尺度图像特征转换为三维体素特征。

通过时序编码模块将历史帧图像的三维体素特征与当前帧图像的三维体素特征进行对齐并融合，得到时序融合结果。

通过体素上采样模块将该时序融合结果进行上采样，得到上采样结果，通过体素解码模块对上采样结果进行处理。

第一方面直接将上采样结果通过语义分割头得到三维语义分割结果；第二方面，将上采样结果通过体素筛选并进行池化后通过目标检测头得到三维目标检测结果；第三方面，利用目标检测头得到的检测框的类别对语义分割头得到的语义类别进行修正，得到修正后的三维语义分割结果。

综上所述，本发明实施例中提供了一种基于多目相机的三维全景分割方法，旨在实现对场景的全面感知和理解。该方法仅依赖多目相机采集得到的多个当前帧图像作为输入，通过三维全景分割模型对多个当前帧图像进行处理，实现三维目标检测任务和三维语义分割任务的统一。该方法可以实现三维场景的全景分割，与基于激光雷达的三维全景分割方法相比，可以实现任意分辨率下的稠密语义预测，具有广泛的应用前景。

如图5所示，在上述实施例的基础上，本发明实施例中提供了一种基于多目相机的三维全景分割装置，包括：

图像获取模块51，用于获取多目相机采集的多个当前帧图像；

全景分割模块52，用于将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割装置，所述全景分割结果包括三维目标检测结果和三维语义分割结果；

所述体素解码模块具体用于：

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割装置，所述体素解码模块还具体用于：

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割装置，还包括训练模块，用于：

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割装置，所述视图编码模块，具体用于：

确定三维的体素查询；

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割装置，所述视图编码模块包括依次连接的体素自注意力层、第一Add&Norm层、体素交叉注意力层、第二Add&Norm层、前向传播层和第三Add&Norm层。

在上述实施例的基础上，本发明实施例中提供的基于多目相机的三维全景分割装置，所述体素上采样模块具体用于：

具体地，本发明实施例中提供的基于多目相机的三维全景分割装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(Processor)610、通信接口(Communications Interface)620、存储器(Memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各实施例中提供的基于多目相机的三维全景分割方法，该方法包括：获取多目相机采集的多个当前帧图像；将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；其中，所述三维全景分割模型基于携带有全景分割标签的多组历史帧图像序列训练得到。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的基于多目相机的三维全景分割方法，该方法包括：获取多目相机采集的多个当前帧图像；将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；其中，所述三维全景分割模型基于携带有全景分割标签的多组历史帧图像序列训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的基于多目相机的三维全景分割方法，该方法包括：获取多目相机采集的多个当前帧图像；将所述多个当前帧图像输入至三维全景分割模型，由图像编码模块提取每个当前帧图像的多尺度图像特征，由视图编码模块基于相机投影关系，将每个当前帧图像的多尺度图像特征转换为三维体素特征，由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合，得到时序融合结果，由体素上采样模块将所述时序融合结果进行上采样，得到上采样结果，由体素解码模块对所述上采样结果进行解码，得到并输出全景分割结果；其中，所述三维全景分割模型基于携带有全景分割标签的多组历史帧图像序列训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多目相机的三维全景分割方法，其特征在于，包括：

获取多目相机采集的多个当前帧图像；

2.根据权利要求1所述的基于多目相机的三维全景分割方法，其特征在于，所述全景分割结果包括三维目标检测结果和三维语义分割结果；

所述体素解码模块具体用于：

3.根据权利要求2所述的基于多目相机的三维全景分割方法，其特征在于，所述体素解码模块还具体用于：

4.根据权利要求2所述的基于多目相机的三维全景分割方法，其特征在于，所述三维全景分割模型基于如下步骤训练得到：

5.根据权利要求1-4中任一项所述的基于多目相机的三维全景分割方法，其特征在于，所述视图编码模块，具体用于：

确定三维的体素查询；

6.根据权利要求1-4中任一项所述的基于多目相机的三维全景分割方法，其特征在于，所述视图编码模块包括依次连接的体素自注意力层、第一Add&Norm层、体素交叉注意力层、第二Add&Norm层、前向传播层和第三Add&Norm层。

7.根据权利要求1-4中任一项所述的基于多目相机的三维全景分割方法，其特征在于，所述体素上采样模块具体用于：

8.一种基于多目相机的三维全景分割装置，其特征在于，包括：

图像获取模块，用于获取多目相机采集的多个当前帧图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的基于多目相机的三维全景分割方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于多目相机的三维全景分割方法。