CN111462311A

CN111462311A - 全景图生成方法及装置、存储介质

Info

Publication number: CN111462311A
Application number: CN202010245783.5A
Authority: CN
Inventors: 肖春霞; 罗飞; 李远珍; 李检娇; 周力恒
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111462311B

Abstract

本公开提供了一种全景图生成方法及装置、存储介质，其中，该方法包括：获取与目标场景对应的多张场景图像；将所述多张场景图像输入预先训练好的目标神经网络，由所述目标神经网络根据所述多张场景图像生成柱面全景图像之后，根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像；其中，所述柱面全景图像用于表征所述目标场景所包括的物体的不同深度信息；根据所述全景颜色图像和所述全景深度图像，生成所述目标场景对应的三维全景图像。本公开通过深度神经网络，可以学习场景图像中的特征，场景图像的数目即使较少，也可以得到较为准确的三维全景图像，在节约了内存的同时，实现了对目标场景进行三维重构的目的，可用性高。

Description

全景图生成方法及装置、存储介质

技术领域

本公开涉及图像处理领域，尤其涉及全景图生成方法及装置、存储介质。

背景技术

目前，全景图像在军事、教育、虚拟现实和增强现实等领域中有很重要的研究和应用价值。全景图像的生成是指将一组具有重叠区域的场景图像拼接为一幅包含整个场景信息的全景图像。根据全景图像是否包含场景的深度信息，可以把全景图像分为2D(2Dimension，二维)全景图像和3D(三维)全景图像。3D全景图像包含场景的深度信息，更具有立体感知效应，更具有应用价值。

通过三维重构方法可以展现整个场景的深度信息，但是所需要的图像数量比较多。并且对于一些高光区域，弱纹理区域重构结果含有误差。三维重构占用内存多，很难达到实时的效果，很难迁移到移动设备上。

发明内容

有鉴于此，本公开提供了一种全景图生成方法及装置、存储介质，以解决相关技术中的不足。

根据本公开实施例的第一方面，提供一种全景图生成方法，所述方法包括：

获取与目标场景对应的多张场景图像；

将所述多张场景图像输入预先训练好的目标神经网络，由所述目标神经网络根据所述多张场景图像生成柱面全景图像之后，根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像；其中，所述柱面全景图像用于表征所述目标场景所包括的物体的不同深度信息；

根据所述全景颜色图像和所述全景深度图像，生成所述目标场景对应的三维全景图像。

可选地，所述根据所述多张场景图像生成柱面全景图像，包括：

根据所述多张场景图像，建立三维柱坐标系；

将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像。

可选地，所述根据所述多张场景图像，建立三维柱坐标系，包括：

对所述多张场景图像中每张场景图像进行特征提取，得到多张特征图；

根据所述多张特征图，确定相机在拍摄所述每张场景图像时对应的相机位姿；

根据拍摄所述每张场景图像时对应的所述相机位姿，拟合得到相机对所述目标场景进行拍摄时的运动轨迹；其中，所述运动轨迹与目标图形所包括的弧线重叠；

将所述目标图形的中心位置作为三维柱坐标系的中心位置，在三维空间中建立所述三维柱坐标系。

可选地，所述将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像，包括：

根据所述柱面全景图像对应的预设尺寸，确定将所述三维柱坐标系中的三维柱坐标点映射为二维坐标点的第一映射关系；

根据所述第一映射关系，根据反向投影方式，确定将所述二维坐标点映射为所述三维柱坐标点的第二映射关系；

根据所述第二映射关系，将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像。

可选地，所述柱面全景图像包括不同深度值对应的柱面图；所述根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像，包括：

根据所述不同深度值对应的柱面图，分别确定所述不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像；

根据所述不同深度值对应的所述深度概率图像，确定所述目标场景对应的所述全景深度图像；

根据所述不同深度值对应的所述深度概率图、以及所述不同深度值对应的全景颜色图像，确定所述目标场景对应的所述全景颜色图像。

可选地，所述根据所述不同深度值对应的柱面图，分别确定所述不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像，包括：

将所述不同深度值对应的柱面图输入预先训练好的深度预测子网络，得到所述不同深度值对应的所述深度概率图像；

将所述不同深度值对应的柱面图输入预先训练好的颜色预测子网络，得到所述不同深度值对应的全景颜色图像。

可选地，所述根据所述不同深度值对应的所述深度概率图，生成所述目标场景对应的所述全景深度图像，包括：

确定所述不同深度值对应的深度概率图的期望值，得到所述目标场景对应的所述全景深度图像。

可选地，所述根据所述不同深度值对应的所述深度概率图、以及所述不同深度值对应的全景颜色图，生成所述目标场景对应的所述全景颜色图像，包括：

对所述不同深度值对应的所述深度概率图和所述不同深度值对应的全景颜色图进行加权求和，得到所述目标场景对应的所述全景颜色图像。

可选地，所述方法还包括：

根据获取的当前场景的多张样本颜色图像和多张样本深度图像，确定样本全景颜色图像和样本全景深度图像；

将所述多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络。

可选地，所述将所述多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络，包括：

将所述多张样本颜色图像输入所述预设神经网络，由所述预设神经网络根据所述多张样本颜色图像生成备选柱面全景图像之后，根据所述备选柱面全景图像，生成所述当前场景对应的备选全景颜色图像和备选全景深度图像；

确定所述备选全景颜色图像与所述样本全景颜色图像之间的第一误差，以及所述备选全景深度图像与所述样本全景深度图像之间的第二误差；

将所述第一误差和所述第二误差的和值作为损失函数，根据预设的初始学习率，迭代更新所述预设神经网络所包括的至少一层的网络参数；

在迭代更新次数达到预设迭代次数的情况下，得到训练完成的所述目标神经网络。

根据本公开实施例的第二方面，提供一种全景图生成装置，所述装置包括：

图像获取模块，被配置为获取与目标场景对应的多张场景图像；

第一生成模块，被配置为将所述多张场景图像输入预先训练好的目标神经网络，由所述目标神经网络根据所述多张场景图像生成柱面全景图像之后，根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像；其中，所述柱面全景图像用于表征所述目标场景所包括的物体的不同深度信息；

第二生成模块，被配置为根据所述全景颜色图像和所述全景深度图像，生成所述目标场景对应的三维全景图像。

可选地，所述第一生成模块包括：

坐标系建立子模块，被配置为根据所述多张场景图像，建立三维柱坐标系；

映射子模块，被配置为将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像。

可选地，所述坐标系建立子模块包括：

特征提取单元，被配置为对所述多张场景图像中每张场景图像进行特征提取，得到多张特征图；

位姿确定单元，被配置为根据所述多张特征图，确定相机在拍摄所述每张场景图像时对应的相机位姿；

运动轨迹拟合单元，被配置为根据拍摄所述每张场景图像时对应的所述相机位姿，拟合得到相机对所述目标场景进行拍摄时的运动轨迹；其中，所述运动轨迹与目标图形所包括的弧线重叠；

坐标系建立单元，被配置为将所述目标图形的中心位置作为三维柱坐标系的中心位置，在三维空间中建立所述三维柱坐标系。

可选地，所述映射子模块包括：

第一确定单元，被配置为根据所述柱面全景图像对应的预设尺寸，确定将所述三维柱坐标系中的三维柱坐标点映射为二维坐标点的第一映射关系；

第二确定单元，被配置为根据所述第一映射关系，根据反向投影方式，确定将所述二维坐标点映射为所述三维柱坐标点的第二映射关系；

映射单元，被配置为根据所述第二映射关系，将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像。

可选地，所述柱面全景图像包括不同深度值对应的柱面图；所述第一生成模块包括：

第一确定子模块，被配置为根据所述不同深度值对应的柱面图，分别确定所述不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像；

第二确定子模块，被配置为根据所述不同深度值对应的所述深度概率图像，确定所述目标场景对应的所述全景深度图像；

第三确定子模块，被配置为根据所述不同深度值对应的所述深度概率图、以及所述不同深度值对应的全景颜色图像，确定所述目标场景对应的所述全景颜色图像。

可选地，所述第一确定子模块包括：

第三确定单元，被配置为将所述不同深度值对应的柱面图输入预先训练好的深度预测子网络，得到所述不同深度值对应的所述深度概率图像；

第四确定单元，被配置为将所述不同深度值对应的柱面图输入预先训练好的颜色预测子网络，得到所述不同深度值对应的全景颜色图像。

可选地，所述第二确定子模块包括：

第五确定单元，被配置为确定所述不同深度值对应的深度概率图的期望值，得到所述目标场景对应的所述全景深度图像。

可选地，所述第三确定子模块包括：

第六确定单元，被配置为对所述不同深度值对应的所述深度概率图和所述不同深度值对应的全景颜色图进行加权求和，得到所述目标场景对应的所述全景颜色图像。

可选地，所述装置还包括：

样本图像确定模块，被配置为根据获取的当前场景的多张样本颜色图像和多张样本深度图像，确定样本全景颜色图像和样本全景深度图像；

训练模块，被配置为将所述多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络。

可选地，所述训练模块包括：

图像生成子模块，被配置为将所述多张样本颜色图像输入所述预设神经网络，由所述预设神经网络根据所述多张样本颜色图像生成备选柱面全景图像之后，根据所述备选柱面全景图像，生成所述当前场景对应的备选全景颜色图像和备选全景深度图像；

误差确定子模块，被配置为确定所述备选全景颜色图像与所述样本全景颜色图像之间的第一误差，以及所述备选全景深度图像与所述样本全景深度图像之间的第二误差；

更新子模块，被配置为将所述第一误差和所述第二误差的和值作为损失函数，根据预设的初始学习率，迭代更新所述预设神经网络所包括的至少一层的网络参数；

第四确定子模块，被配置为在迭代更新次数达到预设迭代次数的情况下，得到训练完成的所述目标神经网络。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面任一所述的全景图生成方法。

根据本公开实施例的第四方面，提供一种全景图生成装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取与目标场景对应的多张场景图像；

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，可以通过目标神经网络学习场景图像中的特征，得到用于表征所述目标场景所包括的物体的不同深度信息的柱面全景图像，进一步地，根据柱面全景图像生成目标场景对应的全景颜色图像和全景深度图像，最终生成目标场景对应的三维全景图像。通过深度神经网络，可以学习场景图像中的特征，场景图像的数目即使较少，也可以得到较为准确的三维全景图像，在节约了内存的同时，实现了对目标场景进行三维重构的目的，可用性高。

本公开实施例中，可以先根据多张场景图像，建立三维柱坐标系，将多张场景图像中每张场景图像所包括的每个像素点映射到三维柱坐标系中，得到所述柱面全景图像，从而可以通过柱面全景图像来表征目标场景所包括的物体的不同深度信息，实现简便，可用性高。

本公开实施例中，可以对多张场景图像中每张场景图像进行特征提取，从而得到多张特征图，根据多张特征图，分别确定相机在拍摄每张场景图像时对应的相机位姿，进而拟合得到相机对所述目标场景进行拍摄时的运动轨迹。该云端轨迹与目标图形所包括的弧线重叠。将目标图形的中心位置作为柱坐标系的中心位置，在三维空间中建立三维柱坐标系。本公开通过拟合得到的相机的运动轨迹，来建立三维柱坐标系，以便后续可以在三维柱坐标系中生成柱面全景图像，可用性高。

本公开实施例中，可以根据柱面全景图像对应的预设尺寸，确定将三维柱坐标系中的三维柱坐标点映射为二维坐标点的第一映射关系，根据第一映射关系，可以采用反向投影方式，确定将所述二维坐标点映射为所述三维柱坐标点的第二映射关系。根据第二映射关系，就可以将多张场景图像中每张场景图像所包括的每个像素点映射到该三维柱坐标系中，得到所述柱面全景图像。本公开通过反向投影，将多张场景图像中每张场景图像所包括的每个像素点映射到所述柱坐标系中，得到所述柱面全景图像，实现简便，可用性高。

本公开实施例中，柱面全景图像包括了不同深度值对应的柱面图，可以根据这些柱面图，分别确定不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像，从而得到目标场景对应的全景深度图像和全景颜色图像，实现简便，可用性高。

本公开实施例中，可以根据获取的当前场景的多张样本颜色图像和多张样本深度图像，确定样本全景颜色图像和样本全景深度图像，进一步地，将多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络。通过上述方式可以训练得到目标神经网络，后续需要生成三维全景图像时，可以直接将获取到的与目标场景对应的多张场景图像输入该目标神经网络，由目标神经网络学习多张场景图像中的图像特征，生成目标场景对应的全景颜色图像和全景深度图像，在节约了内存的同时，实现了对目标场景进行三维重构的目的，可用性高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种全景图生成方法流程图；

图2是本公开根据一示例性实施例示出的一种柱面全景图像示意图；

图3是本公开根据一示例性实施例示出的另一种全景图生成方法流程图；

图4是本公开根据一示例性实施例示出的另一种全景图生成方法流程图；

图5是本公开根据一示例性实施例示出的一种特征提取子网络的结构示意图；

图6本公开根据一示例性实施例示出的一种拟合运动轨迹的场景示意图；

图7是本公开根据一示例性实施例示出的另一种全景图生成方法流程图；

图8是本公开根据一示例性实施例示出的一种柱坐标系示意图；

图9是本公开根据一示例性实施例示出的另一种全景图生成方法流程图；

图10是本公开根据一示例性实施例示出的一种深度预测子网络的结构示意图；

图11是本公开根据一示例性实施例示出的一种颜色预测子网络的结构示意图；

图12A是本公开根据一示例性实施例示出的一种预设神经网络的结构示意图；

图12B是本公开根据一示例性实施例示出的一种对预设神经网络进行训练的流程示意图；

图13是本公开根据一示例性实施例示出的一种全景图生成装置框图；

图14是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图15是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图16是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图17是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图18是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图19是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图20是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图21是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图22是本公开根据一示例性实施例示出的另一种全景图生成装置框图；

图23是本公开根据一示例性实施例示出的一种用于全景图生成装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

相关技术中，可以基于传统几何方法生成3D全景图像。首先用相机对当前场景拍摄一组颜色图像和深度图像，从而估计出相机参数。其中，相机参数包括相机的内参和外参。

其中，相机的内参指的可以是用于反映相机自身特性的参数，可以包括但不限于以下至少一项：u₀、v₀、S_x、S_y、f和r。其中，u₀和v₀分别表示像素坐标系的原点和相机所在的相机坐标系的原点之间相差的横向和纵向像素数目，以像素为单位。S_x和S_y是每单位长度包括的像素数目，单位长度可以为毫米。f是相机的焦距。r由于图像畸变造成的像素点距离成像仪中心的距离值。一般情况下，相机的内参一旦确定，不会由于相机运动而发生改变。

相机的外参可以用来衡量相机的位姿，包括但不限于旋转矩阵R和平移矩阵t。其中，旋转矩阵R是处于世界坐标系的坐标点转换到相机坐标系的情况下分别相对于x、y、z三个坐标轴的旋转角度参数，平移矩阵t是在处于世界坐标系的坐标点转换到相机坐标系的情况下原点的平移参数。

在确定了相机参数后，可以根据相机参数，通过相机拍摄的当前场景的颜色图像和深度图像，把每张图像映射到三维空间得到天空盒，天空盒是应用于当前场景的背景来显示当前场景的纹理的封闭空间。通过对天空盒的渲染可以得到中心全景图像，中心全景图像是分别以每张颜色图像或深度图像为中心得到的当前场景的全景图像。再根据深度约束和颜色约束，把所有的中心全景图像拼接为一幅全景图像，分别得到全景颜色图像和全景深度图像。最后通过三角网格化，将全景颜色图像和全景深度图像映射到三维空间，得到最终的三维全景图像。

如果拍摄的场景图像数目较多，那么在进行三维重构时，会占用大量内存，很难迁移到移动设备上。但是如果拍摄的场景图像的数目较少，在对相机的外参，即位姿进行估计时就会有误差，使得单张图像转换为全景图像也有一定误差，最终得到的全景图像精确度较差。

为了解决上述问题，本公开实施例提供了一种全景图生成方法，可以用于终端，该终端可以是大型的不便移动的终端，例如云端服务器，或者该终端也可以是移动终端，例如智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。如图1所示，图1是根据一示例性实施例示出的一种全景图生成方法，包括以下步骤：

在步骤101中，获取与目标场景对应的多张场景图像。

在本公开实施例中，目标场景可以是需要进行三维重构的场景，包括但不限于室内或室外的场景。通过移动的相机可以拍摄该目标场景的多张场景图像，其中，该相机可以是单目相机(具备一个摄像头的相机)。

在步骤102中，将所述多张场景图像输入预先训练好的目标神经网络，由所述目标神经网络根据所述多张场景图像生成柱面全景图像之后，根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像。

在本公开实施例中，由于单目相机不能确定目标场景所包括的物体与相机之间的距离，即无法确定物体的深度信息，如果需要进行三维重建，可以将多张场景图像输入目标神经网络，由目标神经网络根据多张场景图像，学习场景图像的图像特征，从而生成表征目标场景所包括的物体的不同深度信息的柱面全景图像。再根据柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像。即使场景图像的数目不多，也可以得到较为准确的目标场景对应的全景颜色图像和全景深度图像。

其中，目标神经网络可以是预设神经网络经过训练后得到的深度神经网络，训练的过程后续将进行介绍。

柱面全景图像是把整个目标场景看作是由多个具有共同中心的不同半径的柱面图所构成的全景图像，目标场景所包括的物体可以位于不同深度的柱面图上。因此，通过柱面全景图像就可以表征目标场景所包括的物体的不同深度信息，例如图2所示。

在步骤103中，根据所述全景颜色图像和所述全景深度图像，生成所述目标场景对应的三维全景图像。

在本公开实施例中，可以采用三角网格化方式，将全景颜色图像和所述全景深度图像映射到三维空间中，并通过OpenGL(Open Graphics Library，开放图形库)进行显示，从而得到目标场景对应的三维全景图像。其中，三角网格化方式就是将二维图像上的像素点映射到给定的三维空间中，包括但不限于uniform(统一)参数化方法、shape preserve(形状保持)参数化方法等。

上述实施例中，可以通过目标神经网络学习场景图像中的特征，得到用于表征所述目标场景所包括的物体的不同深度信息的柱面全景图像，进一步地，根据柱面全景图像生成目标场景对应的全景颜色图像和全景深度图像，最终生成目标场景对应的三维全景图像。通过深度神经网络，可以学习场景图像中的特征，场景图像的数目即使较少，也可以得到较为准确的三维全景图像，在节约了内存的同时，实现了对目标场景进行三维重构的目的，可用性高。

在一可选实施例中，如图3所示，图3是在前述图2所示实施例的基础上示出的另一种全景图生成方法，步骤102中，目标神经网络根据所述多张场景图像生成柱面全景图像的过程，可以包括：

在步骤102-1中，根据所述多张场景图像，建立三维柱坐标系。

在本公开实施例中，可以根据相机在运动过程中拍摄的目标场景的多张场景图像，拟合得到相机的运动轨迹，相机的运动轨迹可以与目标图形所包括的弧线重叠，该目标图形的中心位置可以作为三维柱坐标系的中心位置，从而在三维空间中建立该三维柱坐标系。在本公开实施例中，三维柱坐标系中心也就是世界坐标系中心。

其中，目标图形可以是圆形或接近圆形的图形，例如椭圆形，这样可以直接将圆形的圆心作为三维柱坐标系的中心位置。

在步骤102-2中，将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述柱坐标系中，得到所述柱面全景图像。

在本公开实施例中，如果全景柱面图像的尺寸已知，例如长度(最大深度值)和高度已经确定，那么可以将不同深度值的柱面图上的三维柱坐标点转换为三维直角坐标点，三维直角坐标点又可以投影到二维图像平面上，得到一个二维坐标点，通过上述过程可以确定将三维柱坐标点映射为二维坐标点的第一映射关系。

根据反向投影方式，可以确定将一个二维坐标点映射到该三维柱坐标系中得到三维柱坐标点时的第二映射关系。

根据第二映射关系，就可以将所述多张场景图像中每张二维的场景图像所包括的每个像素点映射到三维的所述柱坐标系中，得到所述柱面全景图像。

上述实施例中，可以先根据多张场景图像，建立三维柱坐标系，将多张场景图像中每张场景图像所包括的每个像素点映射到三维柱坐标系中，得到所述柱面全景图像，从而可以通过柱面全景图像来表征目标场景所包括的物体的不同深度信息，实现简便，可用性高。

在一可选实施例中，如图4所示，图4是在前述图3所示实施例的基础上示出的另一种全景图生成方法，步骤102-1可以包括：

在步骤102-11中，对所述多张场景图像中每张场景图像进行特征提取，得到多张特征图。

在本公开实施例中，可以通过包括至少一个卷积层的特征提取子网络提取每张场景图像的图像特征，得到多张特征图。其中，图像特征可以包括颜色特征、纹理特征、形状特征等。颜色特征是一种全局特征，描述了图像所对应的对象的表面颜色属性，纹理特征也是一种全局特征，它描述了图像所对应对象的表面纹理属性，形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对对象的外边界，而图像的区域特征则关系到图像区域的形状。

在本公开实施例中，包括至少一个卷积层的神经网络例如图5所示，卷积层的数目可以为正整数，本公开中可以为8。

在步骤102-12中，根据所述多张特征图，确定相机在拍摄所述每张场景图像时对应的相机位姿。

在本公开实施例中，根据多张特征图，可以采用例如SFM(Structure FromMotion，运动恢复结构)算法确定相机在拍摄每张场景图像时对应的相机位姿，相机位姿可以用旋转矩阵R和平移矩阵t表示。

在步骤102-13中，根据拍摄所述每张场景图像时对应的所述相机位姿，拟合得到相机对所述目标场景进行拍摄时的运动轨迹。

在本公开实施例中，运动轨迹可以与目标图形所包括的弧线重叠，目标图形可以是圆形或类似圆形的图形。例如图6所示，相机在拍摄目标场景的多张场景图像时，位于图6中三角形所指示的位置，拟合运动轨迹后，可以确定该相机沿着圆形的弧线进行移动。

在步骤102-14中，将所述目标图形的中心位置作为三维柱坐标系的中心位置，在三维空间中建立所述三维柱坐标系。

在本公开实施例中，目标图形为圆形或椭圆形，则圆心位置就是三维柱坐标系的中心位置。在确定了三维柱坐标系的中心位置后，可以在三维空间中，建立起三维柱坐标系。

上述实施例中，可以对多张场景图像中每张场景图像进行特征提取，从而得到多张特征图，根据多张特征图，分别确定相机在拍摄每张场景图像时对应的相机位姿，进而拟合得到相机对所述目标场景进行拍摄时的运动轨迹。该云端轨迹与目标图形所包括的弧线重叠。将目标图形的中心位置作为柱坐标系的中心位置，在三维空间中建立三维柱坐标系。本公开通过拟合得到的相机的运动轨迹，来建立三维柱坐标系，以便后续可以在三维柱坐标系中生成柱面全景图像，可用性高。

在一可选实施例中，如图7所示，图7是在前述图3所示实施例的基础上示出的另一种全景图生成方法，步骤102-2可以包括：

在步骤102-21中，根据所述柱面全景图像对应的预设尺寸，确定将所述三维柱坐标系中的三维柱坐标点映射为二维坐标点的第一映射关系。

在本公开实施例中，首先根据预设的柱面全景图像的长度(长度柱面全景图像的最大深度值)和高度，在不同深度值对应的柱面图上的任意一个三维柱坐标点可以通过以下公式1转换为三维直角系中的三维直角坐标点：

其中，三维柱坐标可以通过r，

z表示，例如图8所示，r为柱坐标系中心O到柱坐标点M在平面xOy上的投影M’的距离，r∈[0,+∞)，

是从z轴正方向来看自x轴按逆时针方向转到OM’所得到的角度值，

z是圆柱高度，z∈R，R为实数集合。三维直角坐标用X，Y，Z表示。

进一步地，三维直角坐标点可以通过公式2投影到二维平面，得到二维坐标点：

其中，二维坐标可以用u，v表示，K是相机内参，R是选择矩阵，t是平移矩阵。

因此，通过公式1和公式2可以得到第一映射关系，第一映射关系可以将三维柱坐标点映射为二维坐标点。

在步骤102-22中，根据所述第一映射关系，根据反向投影方式，确定将所述二维坐标点映射为所述三维柱坐标点的第二映射关系。

在本公开实施例中，通过反向投影，可以将所述二维坐标点映射为所述三维柱坐标点，得到第二映射关系。

在步骤102-23中，根据所述第二映射关系，将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述柱坐标系中，得到所述柱面全景图像。

在本公开实施例中，在得到第二映射关系后，可以将每张场景图像所包括的每个像素点映射到所述柱坐标系中，即将二维坐标点映射到三维柱坐标系中，从而得到所述柱面全景图像。

上述实施例中，可以根据柱面全景图像对应的预设尺寸，确定将三维柱坐标系中的三维柱坐标点映射为二维坐标点的第一映射关系，根据第一映射关系，可以采用反向投影方式，确定将所述二维坐标点映射为所述三维柱坐标点的第二映射关系。根据第二映射关系，就可以将多张场景图像中每张场景图像所包括的每个像素点映射到该三维柱坐标系中，得到所述柱面全景图像。本公开通过反向投影，将多张场景图像中每张场景图像所包括的每个像素点映射到所述柱坐标系中，得到所述柱面全景图像，实现简便，可用性高。

在一可选实施例中，如图9所示，图9是在前述图1所示实施例的基础上示出的另一种全景图生成方法，步骤102中，目标神经网络根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像的过程，可以包括：

在步骤102-3中，根据所述不同深度值对应的柱面图，分别确定所述不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像。

在本公开实施例中，由于柱面全景图像包括不同深度值对应的柱面图，可以将不同深度值对应的柱面图输入预先训练好的深度预测子网络，得到所述不同深度值对应的所述深度概率图像。其中，深度预测子网络可以例如图10所示。

同样地，还可以将不同深度值对应的柱面图输入预先训练好的颜色预测子网络，例如图11所示，得到所述不同深度值对应的所述全景深度图像。

在步骤102-4中，根据所述不同深度值对应的所述深度概率图像，确定所述目标场景对应的所述全景深度图像。

在本公开实施例中，可以通过公式3，确定所述不同深度值对应的深度概率图的期望值，从而得到目标场景对应的所述全景深度图像。

其中，D是目标场景对应的所述全景深度图像，r是深度值，P_r是深度值r所对应的深度概率图像。

本公开先确定不同深度值对应的深度概率图，再确定不同深度值对应的深度概率图的期望值，从而得到目标场景对应的所述全景深度图像，可以确保得到的目标场景对应的所述全景深度图像的连续性。

在步骤102-5中，根据所述不同深度值对应的所述深度概率图、以及所述不同深度值对应的全景颜色图像，确定所述目标场景对应的所述全景颜色图像。

在本公开实施例中，不同深度值对应不同的全景颜色图像，通过将不同深度值对应的所述深度概率图与不同深度值对应的全景颜色图像进行加权求和，可以得到目标场景对应的所述全景颜色图像，如公式4所示。

其中，A是目标场景对应的所述全景颜色图像，r是深度值，P_r是深度值r所对应的深度概率图像，I_r是深度值r所对应的全景颜色图像。

上述实施例中，通过对将不同深度值对应的所述深度概率图与不同深度值对应的全景颜色图像进行加权求和，得到目标场景对应的全景颜色图像，提高了全景颜色图像的准确性，进一步地提高了最终生成的三维全景图像的准确性。

在一可选实施例中，目标神经网络是基于对预设神经网络进行训练后得到的，预设神经网络的网络结构如图12A所示，训练过程如图12B所示，包括以下步骤：

在步骤201中，根据获取的当前场景的多张样本颜色图像和多张样本深度图像，确定样本全景颜色图像和样本全景深度图像。

在本公开实施例中，可以通过例如Kinect相机获取室内和室外多个不同场景下的颜色图像和深度图像。将获取到的当前场景的多张颜色图像和多张深度图像作为样本颜色图像和样本深度图像。

进一步地，基于多张样本颜色图像和多张样本深度图像，采用相关技术中的天空盒渲染方式，可以得到当前场景对应的全景颜色图像和全景深度图像，将其作为图12A中的样本全景颜色图像

和样本全景深度图像

在步骤202中，将所述多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络。

在本公开实施例中，可以将所述多张样本颜色图像{I_i},i＝1,2,...,n作为预设神经网络的输入值，预设神经网络通过包括至少一个卷积层的特征提取子网络CNN1，提取多张样本颜色图像的图像特征，得到多张特征图W_i。

然后预设神经网络根据所述多张特征图W_i，确定相机在拍摄所述每张样本颜色图像时对应的相机位姿，拟合得到相机对不同场景进行拍摄时的运动轨迹。将所述运动轨迹对应的目标图形的中心位置作为三维柱坐标系的中心位置，在三维空间中建立三维柱坐标系。进一步地，根据将二维坐标点映射为三维柱坐标点的第二映射关系，将多张样本颜色图像中每张样本颜色图像所包括的每个像素点映射到三维柱坐标系中，得到对应的备选柱面全景图像M。

预设神经网络根据备选柱面全景图像M，通过预先训练好的深度预测子网络CNN2得到不同深度值r对应的全景深度概率图像P_r，通过预先训练好的颜色预测子网络CNN3得到不同深度值r对应的全景颜色图像I_r。对不同深度值r对应的全景深度概率图像P_r求期望值，得到备选全景深度图像D。将不同深度值r对应的全景深度概率图像P_r和全景颜色图像I_r加权求和，得到备选全景颜色图像A。

在本公开实施例中，可以分别确定预设神经网络输出的备选全景颜色图像A与样本全景颜色图像

之间的第一误差L_I，以及备选全景深度图像D与样本全景深度图像

之间的第二误差L_d。

在本公开实施例中，确定损失函数为第一误差L_I和第二误差L_d的和值，即损失函数为L_loss＝L_I+L_d。

采用TensorFlow(张量流)网络训练方法，用随机梯度下降算法优化器，根据预设的初始学习率，对预设神经网络进行训练，迭代更新所述预设神经网络所包括的至少一层的网络参数，让损失函数最小。

初始学习率可以为0.0001，在迭代更新次数达到预设迭代次数的情况下，得到训练完成的目标神经网络。

上述实施例中，可以根据获取的当前场景的多张样本颜色图像和多张样本深度图像，确定样本全景颜色图像和样本全景深度图像，进一步地，将多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络。通过上述方式可以训练得到目标神经网络，后续需要生成三维全景图像时，可以直接将获取到的与目标场景对应的多张场景图像输入该目标神经网络，由目标神经网络学习多张场景图像中的图像特征，生成目标场景对应的全景颜色图像和全景深度图像，在节约了内存的同时，实现了对目标场景进行三维重构的目的，可用性高。

在一可选实施例中，也可以先根据第二误差L_d对预设神经网络中分支1的网络参数进行迭代更新，在达到一个预设迭代更新次数之后，再根据第一误差L_I对预设神经网络中分支2的网络参数进行迭代更新，同样在达到另一个预设迭代更新次数之后，可以得到目标神经网络。或者在对分支2的网络参数进行迭代更新之后，再对整个预设神经网络再次进行迭代更新，得到目标神经网络。

上述实施例中，可以分别对预设神经网络的不同分支进行训练，实现简便，可用性高。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图13所示，图13是本公开根据一示例性实施例示出的一种全景图生成装置框图，所述装置包括：

图像获取模块310，被配置为获取与目标场景对应的多张场景图像；

第一生成模块320，被配置为将所述多张场景图像输入预先训练好的目标神经网络，由所述目标神经网络根据所述多张场景图像生成柱面全景图像之后，根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像；其中，所述柱面全景图像用于表征所述目标场景所包括的物体的不同深度信息；

第二生成模块330，被配置为根据所述全景颜色图像和所述全景深度图像，生成所述目标场景对应的三维全景图像。

如图14所示，图14本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图13实施例的基础上，所述第一生成模块320包括：

坐标系建立子模块321，被配置为根据所述多张场景图像，建立三维柱坐标系；

映射子模块322，被配置为将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像。

如图15所示，图15本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图14实施例的基础上，所述坐标系建立子模块321包括：

特征提取单元3211，被配置为对所述多张场景图像中每张场景图像进行特征提取，得到多张特征图；

位姿确定单元3212，被配置为根据所述多张特征图，确定相机在拍摄所述每张场景图像时对应的相机位姿；

运动轨迹拟合单元3213，被配置为根据拍摄所述每张场景图像时对应的所述相机位姿，拟合得到相机对所述目标场景进行拍摄时的运动轨迹；其中，所述运动轨迹与目标图形所包括的弧线重叠；

坐标系建立单元3214，被配置为将所述目标图形的中心位置作为三维柱坐标系的中心位置，在三维空间中建立所述三维柱坐标系。

如图16所示，图16本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图14实施例的基础上，所述映射子模块322包括：

第一确定单元3221，被配置为根据所述柱面全景图像对应的预设尺寸，确定将所述三维柱坐标系中的三维柱坐标点映射为二维坐标点的第一映射关系；

第二确定单元3222，被配置为根据所述第一映射关系，根据反向投影方式，确定将所述二维坐标点映射为所述三维柱坐标点的第二映射关系；

映射单元3223，被配置为根据所述第二映射关系，将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像。

所述柱面全景图像包括不同深度值对应的柱面图，如图17所示，图17本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图13实施例的基础上，所述第一生成模块320包括：

第一确定子模块323，被配置为根据所述不同深度值对应的柱面图，分别确定所述不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像；

第二确定子模块324，被配置为根据所述不同深度值对应的所述深度概率图像，确定所述目标场景对应的所述全景深度图像；

第三确定子模块325，被配置为根据所述不同深度值对应的所述深度概率图、以及所述不同深度值对应的全景颜色图像，确定所述目标场景对应的所述全景颜色图像。

如图18所示，图18本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图17实施例的基础上，所述第一确定子模块323包括：

第三确定单元3231，被配置为将所述不同深度值对应的柱面图输入预先训练好的深度预测子网络，得到所述不同深度值对应的所述深度概率图像；

第四确定单元3232，被配置为将所述不同深度值对应的柱面图输入预先训练好的颜色预测子网络，得到所述不同深度值对应的全景颜色图像。

如图19所示，图19本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图17实施例的基础上，所述第二确定子模块324包括：

第五确定单元3241，被配置为确定所述不同深度值对应的深度概率图的期望值，得到所述目标场景对应的所述全景深度图像。

如图20所示，图20本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图17实施例的基础上，所述第三确定子模块325包括：

第六确定单元3251，被配置为对所述不同深度值对应的所述深度概率图和所述不同深度值对应的全景颜色图进行加权求和，得到所述目标场景对应的所述全景颜色图像。

如图21所示，图21本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图13实施例的基础上，所述装置还包括：

样本图像确定模块340，被配置为根据获取的当前场景的多张样本颜色图像和多张样本深度图像，确定样本全景颜色图像和样本全景深度图像；

训练模块350，被配置为将所述多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络。

如图22所示，图22本公开根据一示例性实施例示出的另一种全景图生成装置框图，该实施例在前述图21实施例的基础上，所述训练模块350包括：

图像生成子模块351，被配置为将所述多张样本颜色图像输入所述预设神经网络，由所述预设神经网络根据所述多张样本颜色图像生成备选柱面全景图像之后，根据所述备选柱面全景图像，生成所述当前场景对应的备选全景颜色图像和备选全景深度图像；

误差确定子模块352，被配置为确定所述备选全景颜色图像与所述样本全景颜色图像之间的第一误差，以及所述备选全景深度图像与所述样本全景深度图像之间的第二误差；

更新子模块353，被配置为将所述第一误差和所述第二误差的和值作为损失函数，根据预设的初始学习率，迭代更新所述预设神经网络所包括的至少一层的网络参数；

第四确定子模块354，被配置为在迭代更新次数达到预设迭代次数的情况下，得到训练完成的所述目标神经网络。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的全景图生成方法。

相应的，本公开还提供一种全景图生成装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取与目标场景对应的多张场景图像；

图23是根据一示例性实施例示出的一种电子设备2300的框图。例如电子设备2300可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、车载终端等终端。

参照图23，电子设备2300可以包括以下一个或多个组件：处理组件2302，存储器2304，电源组件2306，多媒体组件2308，音频组件2310，输入/输出(I/O)接口2312，传感器组件2316，以及通信组件2318。

处理组件2302通常控制电子设备2300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件2302可以包括一个或多个处理器2320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件2302可以包括一个或多个模块，便于处理组件2302和其他组件之间的交互。例如，处理组件2302可以包括多媒体模块，以方便多媒体组件2308和处理组件2302之间的交互。又如，处理组件2302可以从存储器读取可执行指令，以实现上述各实施例提供的一种全景图生成方法的步骤。

存储器2304被配置为存储各种类型的数据以支持在电子设备2300的操作。这些数据的示例包括用于在电子设备2300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器2304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件2306为电子设备2300的各种组件提供电力。电源组件2306可以包括电源管理系统，一个或多个电源，及其他与为电子设备2300生成、管理和分配电力相关联的组件。

多媒体组件2308包括在所述电子设备2300和用户之间的提供一个输出接口的显示屏。在一些实施例中，多媒体组件2308包括一个前置摄像头和/或后置摄像头。当电子设备2300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件2310被配置为输出和/或输入音频信号。例如，音频组件2310包括一个麦克风(MIC)，当电子设备2300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器2304或经由通信组件2318发送。在一些实施例中，音频组件2310还包括一个扬声器，用于输出音频信号。

I/O接口2312为处理组件2302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件2316包括一个或多个传感器，用于为电子设备2300提供各个方面的状态评估。例如，传感器组件2316可以检测到电子设备2300的打开/关闭状态，组件的相对定位，例如所述组件为电子设备2300的显示器和小键盘，传感器组件2316还可以检测电子设备2300或电子设备2300一个组件的位置改变，用户与电子设备2300接触的存在或不存在，电子设备2300方位或加速/减速和电子设备2300的温度变化。传感器组件2316可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件2316还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件2316还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件2318被配置为便于电子设备2300和其他设备之间有线或无线方式的通信。电子设备2300可以接入基于通信标准的无线网络，如Wi-Fi，2G，3G，4G或5G，或它们的组合。在一个示例性实施例中，通信组件2318经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件2318还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备2300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性机器可读存储介质，例如包括指令的存储器2304，上述指令可由电子设备2300的处理器2320执行以完成上述无线充电方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种全景图生成方法，其特征在于，所述方法包括：

获取与目标场景对应的多张场景图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多张场景图像生成柱面全景图像，包括：

根据所述多张场景图像，建立三维柱坐标系；

3.根据权利要求2所述的方法，其特征在于，所述根据所述多张场景图像，建立三维柱坐标系，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述多张场景图像中每张场景图像所包括的每个像素点映射到所述三维柱坐标系中，得到所述柱面全景图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述柱面全景图像包括不同深度值对应的柱面图；所述根据所述柱面全景图像，生成所述目标场景对应的全景颜色图像和全景深度图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述不同深度值对应的柱面图，分别确定所述不同深度值对应的深度概率图像、以及所述不同深度值对应的全景颜色图像，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述不同深度值对应的所述深度概率图，生成所述目标场景对应的所述全景深度图像，包括：

8.根据权利要求5所述的方法，其特征在于，所述根据所述不同深度值对应的所述深度概率图、以及所述不同深度值对应的全景颜色图，生成所述目标场景对应的所述全景颜色图像，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述多张样本颜色图像作为预设神经网络的输入值，以所述样本全景颜色图像和样本全景深度图像作为监督，对所述预设神经网络进行训练，训练完成后，得到所述目标神经网络，包括：

11.一种全景图生成装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述第一生成模块包括：

13.根据权利要求12所述的装置，其特征在于，所述坐标系建立子模块包括：

14.根据权利要求12所述的装置，其特征在于，所述映射子模块包括：

15.根据权利要求11所述的装置，其特征在于，所述柱面全景图像包括不同深度值对应的柱面图；所述第一生成模块包括：

16.根据权利要求15所述的装置，其特征在于，所述第一确定子模块包括：

17.根据权利要求15所述的装置，其特征在于，所述第二确定子模块包括：

18.根据权利要求15所述的装置，其特征在于，所述第三确定子模块包括：

19.根据权利要求11所述的装置，其特征在于，所述装置还包括：

20.根据权利要求19所述的装置，其特征在于，所述训练模块包括：

21.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-10任一所述的全景图生成方法。

22.一种全景图生成装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取与目标场景对应的多张场景图像；