CN115619986A

CN115619986A - 场景漫游方法、装置、设备和介质

Info

Publication number: CN115619986A
Application number: CN202211216867.1A
Authority: CN
Inventors: 王香伟; 孟庆月; 刘星; 张晋川; 赵晨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-17
Anticipated expiration: 2042-09-30
Also published as: CN115619986B

Abstract

本公开提供了一种场景漫游方法、装置、设备、介质和程序产品，涉及人工智能技术领域，尤其涉及增强现实、虚拟现实、计算机视觉、深度学习等技术领域，可应用于元宇宙或智慧城市等场景。具体实现方案为：根据场景的全景图像和场景中的对象数据，确定全景图像在全景相机视角下的多个对象平面区域，其中，场景中包括对象，对象具有多个平面；根据全景图像的全景相机位姿、新视角相机位姿和多个对象平面区域的平面方程，计算多个对象平面区域在新视角相对于全景相机视角的映射矩阵；根据映射矩阵获取新视角下各个像素点在全景相机视角下对应的像素值，并根据所述像素值生成所述场景在所述新视角下的图像。本公开可以依据稀疏的全景图像进行场景漫游。

Description

场景漫游方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及增强现实、虚拟现实、计算机视觉、深度学习等技术领域，可应用于元宇宙或智慧城市等场景，具体涉及一种场景漫游方法、装置、设备、介质和程序产品。

背景技术

全景漫游是指在由全景图像构建的全景空间里进行切换，以全新的视角、身临其境般的直观感受来全方位展示不同场景的新技术。用户可通过触摸、鼠标或键盘等方式进行控制，以不同视角观察全景，使其感到就像漫游在真实的场景当中一样。

然而，由于场景的全景图像数据比较稀疏，基于现有方案都无法更好地实现任意视角的场景漫游。

发明内容

本公开提供了一种场景漫游方法、装置、设备、介质和程序产品。

根据本公开的一方面，提供了一种场景漫游方法，包括：

根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个对象平面区域，其中，所述场景中包括对象，所述对象具有多个平面；

根据所述全景图像的全景相机位姿、新视角相机位姿和所述多个对象平面区域的平面方程，计算所述多个对象平面区域在所述新视角相对于所述全景相机视角的映射矩阵；

根据所述映射矩阵获取所述新视角下各个像素点在所述全景相机视角下对应的像素值，并根据所述像素值生成所述场景在所述新视角下的图像。

根据本公开的另一方面，提供了一种场景漫游装置，包括：

平面区域关联模块，用于根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个对象平面区域，其中，所述场景中包括对象，所述对象具有多个平面；

映射矩阵计算模块，用于根据所述全景图像的全景相机位姿、新视角相机位姿和所述多个对象平面区域的平面方程，计算所述多个对象平面区域在所述新视角相对于所述全景相机视角的映射矩阵；

像素值填充模块，用于根据所述映射矩阵获取所述新视角下各个像素点在所述全景相机视角下对应的像素值，并根据所述像素值生成所述场景在所述新视角下的图像。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所述的场景漫游方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开任意实施例所述的场景漫游方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例所述的场景漫游方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种场景漫游方法的示意图；

图2是根据本公开实施例的一种场景漫游方法的示意图；

图3是根据本公开实施例的一种场景漫游方法的示意图；

图4是根据本公开实施例的一种场景漫游方法的示意图；

图5a是根据本公开实施例的区域掩码归属示意图；

图5b是根据本公开实施例的视角生成示意图；

图6是根据本公开实施例的一种场景漫游装置的结构示意图；

图7是用来实现本公开实施例的场景漫游方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的场景漫游方法的流程示意图，本实施例可适用于在任意视角实现场景漫游的情况，例如街景漫游，涉及人工智能技术领域，尤其涉及增强现实、虚拟现实、计算机视觉、深度学习等技术领域，可应用于元宇宙或智慧城市等场景。该方法可由一种场景漫游装置来执行，该装置采用软件和/或硬件的方式实现，优选是配置于电子设备中，例如等。如图1所示，该方法具体包括如下：

S101、根据场景的全景图像和场景中的对象数据，确定全景图像在全景相机视角下的多个对象平面区域，其中，场景中包括对象，对象具有多个平面。

S102、根据全景图像的全景相机位姿、新视角相机位姿和多个对象平面区域的平面方程，计算多个对象平面区域在新视角相对于全景相机视角的映射矩阵。

S103、根据映射矩阵获取新视角下各个像素点在全景相机视角下对应的像素值，并根据像素值生成场景在新视角下的图像。

其中，场景例如可以是需要构建三维全景的任意场景，例如，场景可以是街景，相应的，场景中的对象则为街景中出现的楼块；场景还可以是室内空间，相应的，场景中的对象则为室内陈列的家具。

对象是立体的，具有多个平面。对于同一个场景，当视角不同时，所看到的场景中的对象也不同，具体体现在不同视角下对象的各个平面所呈现出的空间深度、位置和姿态等信息均不相同。因此，为了实现场景漫游，需要确定新视角下各个像素点的像素值，由这些像素值对新视角下的图像进行填充，从而呈现出新视角下各个对象的“样子”。

首先，通过S101，确定全景图像在全景相机视角下的多个对象平面区域。其中，全景图像可以包括预先获取的该场景在不同的全景相机的视角下拍摄的全景图，数量可以包括多个。对象数据例如可以通过卫星获取，属于2D数据，包括对象的位姿信息以及对象各个平面的平面方程。本公开实施例需要对每一个全景图像进行处理，依据全景图像和对象数据确定各个全景图像在其全景相机视角下的多个对象平面区域，也即不同的全景相机视角下所看到的各个对象平面区域。这里需要说明的是，在根据全景图像和对象数据确定多个对象平面区域之前，需要先对全景图像位姿和对象位姿进行对齐统一，以提升方法的精确度。

然后，通过S102，计算多个对象平面区域在新视角相对于全景相机视角的映射矩阵。其中，映射矩阵可以根据全景图像的全景相机位姿、新视角相机位姿和多个对象平面区域的平面方程来进行计算。多个对象平面区域的平面方程表示该对象平面在全景图像中的位置和姿态，新视角相机位姿和全景相机位姿分别表示新视角和全景相机视角的平移和旋转参数，映射矩阵能够表示同一个平面以及同一个平面上的任意一个像素点在新视角相对于全景相机视角的映射关系。需要说明的是，本公开实施例对如何获取平面在不同视角下的映射关系不做任何限定，可以利用已知的计算机视觉或机器学习等技术来实现。

最后，通过S103，根据映射矩阵获取新视角下各个像素点在全景相机视角下对应的像素值，并根据像素值生成场景在新视角下的图像。也即，对于新视角下需要做像素值填充的每个像素点，将该像素点的位置通过映射矩阵确定其在全景相机视角下的映射点，然后根据该映射点的像素值对该像素点进行像素值填充，当所有像素点填充完毕，即可生成场景在新视角下的图像。

需要说明的是，当场景的全景图像数据比较稀疏时，无法准确获取各个像素点的深度信息，因此，基于现有的nerf(一种深度渲染方法)或传统三维重建方案都无法更好地实现任意视角的场景漫游。

然而，在本公开实施例的技术方案中，首先获取全景图像在全景相机视角下的多个对象平面区域，然后计算多个对象平面区域在新视角相对于全景相机视角的映射矩阵，使得可以根据该映射矩阵对新视角下各个像素点向全景图像视角下全景图像的像素点进行映射，最后根据全景图像中映射的像素点的像素值来填充新视角的像素点，生成场景在新视角下的图像，完成任意视角的漫游。在此过程中，本公开实施例无需依据像素点在不同视角下的深度信息来进行重建，只需根据平面区域间的映射关系即可实现漫游，因此，即使在场景的全景图像稀疏的情况下，也能实现任意视角漫游。

图2是根据本公开实施例的场景漫游方法的流程示意图，本实施例在上述实施例的基础上进一步进行优化，对如何确定多个对象平面区域作出详细描述。如图2所示，该方法具体包括如下：

S201、根据场景的全景图像和场景中的对象数据，确定全景图像在全景相机视角下的多个候选对象平面区域。

S202、对全景图像进行图像分割，得到对象分割区域、天空区域和地面区域。

S203、将多个候选对象平面区域的掩码分别与对象分割区域的掩码求交集，根据交集的结果确定多个对象平面区域，以及每个对象平面区域的掩码。

S204、根据全景图像的全景相机位姿、新视角相机位姿和多个对象平面区域、天空区域和地面区域的平面方程，计算多个对象平面区域、天空区域和地面区域在新视角相对于全景相机视角的映射矩阵。

S205、根据映射矩阵获取新视角下各个像素点在全景相机视角下对应的像素值，并根据像素值生成场景在新视角下的图像。

由于现实中的场景除了包括对象外，还包括天空、地面和不需要进行重建的其他部分。因此，本公开实施例中为了重建出更加真实的场景，还需要考虑全景图像中的天空和地面。

具体的，先通过S201确定多个候选对象平面区域，然后通过S202对全景图像进行分割，得到对象分割区域、天空区域和地面区域，接下来通过S203将多个候选对象平面区域的掩码分别与对象分割区域的掩码求交集，由于经过图像分割得到的对象分割区域中不会包含天空、地面或其他不需要进行重建的部分，因此，通过求交集，就可以从多个候选对象平面区域中将其中可能存在的天空、地面或其他不需要进行重建的部分去除，而交集后得到的掩码就是最终多个对象平面区域的掩码，也就是每个对象平面区域在全景相机视角内所占的区域。由此可以提升方法的准确度。其中，对全景图像进行图像分割，可以采用现有技术中的任一种图像语义分割方法实现，本公开实施例对此不作任何限定。

在得到全景图像在全景相机视角下的多个候选对象平面区域之后，结合对象数据以及天空和地面的图像特点，即可确定每个对象平面区域、天空区域和地面区域的平面方程，然后根据全景图像的全景相机位姿、新视角相机位姿和多个对象平面区域、天空区域和地面区域的平面方程，计算多个对象平面区域、天空区域和地面区域在新视角相对于全景相机视角的映射矩阵。最后根据映射矩阵获取新视角下各个像素点在全景相机视角下对应的像素值，并根据像素值生成场景在新视角下的图像，新视角下的图像中包括经重建得到的新视角下的对象以及天空和地面。

在一种实施方式中，根据场景的全景图像和场景中的对象数据，确定全景图像在全景相机视角下的多个候选对象平面区域，可以通过如下步骤实现，包括：在全景图像对应的第一全景球上，以第一全景球的中心点为第一原点，构造从第一原点指向第一全景球赤道上的点的多条第一水平射线；对多条第一水平射线执行如下操作，确定全景图像在全景相机视角下的多个候选对象平面区域：

将任意第一水平射线作为当前第一水平射线，根据对象数据，确定与当前第一水平射线具有第一个正向交点的当前对象平面；确定第一全景球上与第一个正向交点经度相同的像素点集；将第一个正向交点与像素点集构成的区域与当前对象平面绑定，得到当前候选对象平面区域。

具体的，第一全景球是在全景图像的视角下所对应的全景球。由于对象数据并不是在全景图像的相机视角下拍摄的，是通过卫星获取到的2D俯视图的数据，因此，本公开实施例为了确定全景图像在全景相机视角下的多个候选对象平面区域，先在第一全景球上构造多条第一水平射线，然后针对每条第一水平射线，确定与其存在最近的第一个正向交点的对象平面，并将该对象平面与对应的第一水平射线绑定，将该对象平面定义为该第一水平射线所在的对象。接着，将第一全景球上与该第一正向交点经度相同的像素点集也与该对象平面绑定，即将该第一个正向交点与像素点集构成的区域与该对象平面绑定，即可得到对应的候选对象平面区域。由此，对每条第一水平射线均实施如上操作，即可得到全景图像在全景相机视角下的多个候选对象平面区域。

图5a是根据本公开实施例的区域掩码归属示意图。从图中可以看出，以对象为街景中的楼块为例，一方面，对全景图像进行图像分割，可以得到楼块分割区域、天空区域、地面区域和其他区域，其中，其他区域并非街景漫游中需要重建的对象，因此可不做考虑。另一方面，根据全景图像、楼块信息和相机位姿进行楼块关联，即在全景图像对应的全景球上构建多条水平射线，针对每条水平射线确定与之出现第一个最近的正向交点的楼块平面，并将该楼块平面定义为该水平射线所在的楼块；然后确定楼块水平区间，即全景球上与该第一个最近的正向交点同经度的像素点集所构成的区域，并将该区域与该楼块平面绑定，得到候选楼块平面区域。接着，将多个候选楼块平面区域的掩码分别与楼块分割区域的掩码求交集，根据交集的结果确定多个楼块平面区域，以及每个楼块平面区域的掩码，即通过楼块区域拆分得到楼块子区域。楼块子区域与天空区域和地面区域一起作为最终得到的各个平面区域。

本公开实施例的技术方案，通过在全景球上构建水平射线的方式确定全景图像的全景相机视角下的平面区域，并通过全景图像的语义分割得到对象分割区域，将平面区域与对象分割区域的掩码求交集，从而去除对象平面区域中天空和地面的部分，得到对象平面区域更加准确的掩码，为接下来的图像重建提供更加准确的数据基础，继而提高任意视角的场景漫游的真实度。

图3是根据本公开实施例的场景漫游方法的流程示意图，本实施例在上述实施例的基础上进一步进行优化，对如何计算映射矩阵进行详细描述。如图3所示，该方法具体包括如下：

S301、根据场景的全景图像和场景中的对象数据，确定全景图像在全景相机视角下的多个候选对象平面区域。

S302、对全景图像进行图像分割，得到对象分割区域、天空区域和地面区域。

S303、将多个候选对象平面区域的掩码分别与对象分割区域的掩码求交集，根据交集的结果确定多个对象平面区域，以及每个对象平面区域的掩码。

S304、根据全景图像和对象数据，获取多个对象平面区域、天空区域和地面区域各自的平面方程所表征的参数化向量。

S305、根据全景图像的全景相机位姿、新视角相机位姿和参数化向量，计算基于目标平面诱导的新视角相机位姿相对于全景相机位姿的单应矩阵，其中，目标平面包括多个对象平面区域、天空区域和地面区域中的任意平面。

S306、根据单应矩阵和新视角的相机参数，计算目标平面在新视角相机位姿下的图像与在全景相机位姿下的图像的映射矩阵。

S307、根据映射矩阵获取新视角下各个像素点在全景相机视角下对应的像素值，并根据像素值生成场景在新视角下的图像。

具体的，本公开实施例是通过获取不同视角之间平面与平面之间的映射关系来实现任意视角漫游的。因此需要获取多个对象平面区域、天空区域和地面区域各自的平面方程及其所表征的参数化向量。首先，对象的各个面在世界坐标系下的平面线方程可以表示为ax+by+d＝0，而在对象与地面垂直的假设下，即可根据平面线方程确定对象各个面的平面方程为ax+by+0z+d＝0，x、y、z表示平面上像素点的坐标，d表示平面到当前视角相机的距离。该平面方程所表征的参数化向量为[a,b,0,d]，其中，参数a、b、d可根据对象数据来确定。相应的，地面的平面方程所表征的参数化向量为[0,0,1,h]，h为摄像头距离地面的高度；天空为无穷远平面，因此其平面方程所表征的参数化向量为[0,0,0,1]。

单应矩阵可以表示平面在新视角相机位姿相对于全景相机位姿的映射关系。单应矩阵可由如下公式表示：H＝R–t*n^T/h；其中，H表示单应矩阵，R表示新视角相机位姿相对于全景相机位姿的旋转矩阵，t表示新视角相机位姿相对于全景相机位姿的平移矩阵，n^T表示n的转置，n和h分别表示目标平面在新视角相机位姿下的法相参数和距离参数。同时，由于计算H所需的n和h是目标平面在新视角相机位姿下的法相参数和距离参数，但是已知数据是世界坐标系下的对象数据，因此，需要根据目标平面在世界坐标系下的平面参数化进行转化，从而得到新视角位姿下的平面参数化数据，继而确定n和h。公式表达如下：P_n＝T_n^T*P_w，其中，T_n表示新视角相机位姿，T_n^T表示新视角相机位姿的转置，P_w表示目标平面在全景相机位姿下的参数化向量。

单应矩阵描述的是一种参数化的映射关系，在计算出单应矩阵之后，还需要确定不同视角下图像到图像之间的映射关系。即根据单应矩阵和新视角的相机参数，计算目标平面在新视角相机位姿下的图像与在全景相机位姿下的图像的映射矩阵。具体的，计算图像到图像的映射方程可表示为H_i＝Pano(H*K_n)，其中，K_n为新视角的相机内参，Pano表示全景图的成像方程，通过Pano(H*K_n)，即可获取到图像到图像的映射方程，根据映射方程即可获取映射矩阵。

本公开实施例的技术方案，首先获取全景图像在全景相机视角下的多个对象平面区域，然后通过单应矩阵来计算多个对象平面区域、天空区域和地面区域分别在新视角相对于全景相机视角的映射矩阵，使得可以根据该映射矩阵对新视角下各个像素点向全景图像视角下全景图像的像素点进行映射，最后根据全景图像中映射的像素点的像素值来填充新视角的像素点，生成场景在新视角下的图像，完成任意视角的漫游。在此过程中，本公开实施例无需依据像素点在不同视角下的深度信息来进行重建，只需根据平面区域间的映射关系即可实现漫游，因此，即使在场景的全景图像稀疏的情况下，也能实现任意视角漫游。

图4是根据本公开实施例的场景漫游方法的流程示意图，本实施例在上述实施例的基础上进一步进行优化，对如何确定新视角下各个像素点的像素值进行详细描述。如图4所示，该方法具体包括如下：

S401、根据场景的全景图像和场景中的对象数据，确定全景图像在全景相机视角下的多个候选对象平面区域。

S402、对全景图像进行图像分割，得到对象分割区域、天空区域和地面区域。

S403、将多个候选对象平面区域的掩码分别与对象分割区域的掩码求交集，根据交集的结果确定多个对象平面区域，以及每个对象平面区域的掩码。

S404、根据全景图像的全景相机位姿、新视角相机位姿和多个对象平面区域、天空区域和地面区域的平面方程，计算多个对象平面区域、天空区域和地面区域在新视角相对于全景相机视角的映射矩阵。

S405、根据多个对象平面区域、天空区域和地面区域各自的映射矩阵，计算新视角下各个像素点的位置在全景相机视角下对应的至少一个映射位置。

S406、从至少一个映射位置中确定各个像素点的目标映射位置，其中，目标映射位置位于作为计算依据的目标映射矩阵所对应的目标平面区域的掩码内，目标平面区域包括多个对象平面区域、天空区域或地面区域中的任意平面区域。

S407、根据各个像素点的目标映射位置在目标平面区域的映射像素点的像素值，生成场景在新视角下的图像。

本公开实施例是从新视角向全景图像的全景相机视角进行映射。首先，根据多个对象平面区域、天空区域和地面区域各自的映射矩阵，计算新视角下各个像素点的位置在全景相机视角下对应的至少一个映射位置。其中，在映射时，可能会出现一个像素点在全景相机视角下对应不止一个映射点的情况。为了准确获取各像素点在在全景相机视角下的映射位置，本公开实施例通过判断该映射位置是否落在相应的平面区域来确定。具体的，从至少一个映射位置中确定各个像素点的目标映射位置，其中，目标映射位置位于作为计算依据的目标映射矩阵所对应的目标平面区域的掩码内，目标平面区域包括多个对象平面区域、天空区域或地面区域中的任意平面区域。例如，像素点A对应有多个目标映射位置，其中的目标映射位置A是依据目标映射矩阵A计算出的，而目标映射矩阵A是目标平面区域A在不同视角下的映射矩阵，那么，判断目标映射位置A的坐标是否落在目标平面区域A的掩码内，如果判断为是，则表示可以将目标映射位置A作为接下来确定像素值的依据，反之则不作为依据。

接下来根据各个像素点的目标映射位置在目标平面区域的映射像素点的像素值，生成场景在新视角下的图像。在一种实施方式中，为了避免目标映射位置的坐标并非整数而无法确定准确像素值的情况发生，本公开实施例中获取各个像素点的目标映射位置在目标平面区域的映射像素点周围各像素点的像素值均值，然后根据各个像素点对应的像素值均值生成场景在新视角下的图像。

由于全景图像的数量为多个，不同的全景图像中可能会看到同一个对象的同一个面，因此，还可能出现各个像素点对应的目标映射位置不唯一的情况。因此，为了进一步从中确定正确的目标映射位置，本公开实施例获取作为每个目标映射位置各自计算依据的目标映射矩阵所对应的目标平面区域，并获取每个目标平面区域在新视角下对应的新视角平面区域，然后，根据每个新视角平面区域在新视角下的空间深度，从不唯一的各个目标映射位置中选择最终的目标映射位置，作为填充目标像素点的像素值的填充依据。具体的，当有像素点对应的目标映射位置不唯一时，表示该像素点在不止一个全景图像中都存在对应的映射点，但是在新视角下又只能有这一个像素点，那么这就表明这些存在映射点的多个全景图像中的平面区域在新视角下存在相互遮挡的情况。于是，需要从这些平面区域在新视角下的空间深度中选择最近的一个平面区域，然后将依据该平面区域的目标映射矩阵计算出来的目标映射位置作为填充该像素点的像素值的填充依据。

在一种实施方式中，根据每个新视角平面区域在新视角下的空间深度，从不唯一的各个目标映射位置中选择最终的目标映射位置，作为填充目标像素点的像素值的填充依据，可以包括：在新视角对应的第二全景球上，以第二全景球的中心点为第二原点，构造从第二原点指向第二全景球赤道上的点的多条第二水平射线；获取每个新视角平面区域与多条第二水平射线的第一个正向交点；选择第一个正向交点在第二全景球中的空间深度最近的新视角平面区域作为目标新视角平面区域；将目标新视角平面区域在全景相机视角下对应的目标平面区域上的目标映射位置，作为填充目标像素点的像素值的填充依据。由此，通过构建全景球水平射线的方式来确定出现第一个正向交点的新视角平面区域，然后依据第一个正向交点的空间深度进行选择。

图5b是根据本公开实施例的视角生成示意图，以对象为街景中的楼块为例，先根据参考视角位姿(即全景相机视角位姿)、新视角位姿和各平面方程计算楼块、天空和地面的各个平面区域从新视角到参考视角的映射矩阵，然后根据该映射矩阵计算新视角下各个像素点在参考视角下的映射点，根据该映射点周围像素点的像素值均值对新视角下各个像素点的像素值进行填充。并且在此过程中通过判断映射点是否落在区域掩码内，来确定准确的映射点，同时在出现多个映射位置时也能基于空间深度进行遮掩判断，进一步确定准确的映射点，从而得到真实的新视角图像。

本公开实施例的技术方案，无需依据像素点在不同视角下的深度信息来进行重建，只需根据平面区域间的映射关系即可实现漫游，因此，即使在场景的全景图像稀疏的情况下，也能实现任意视角漫游。同时，在根据映射点的像素值生成新视角图像的过程中，可以准确获取这些映射点的目标映射位置，并在出现重叠时，也能根据平面区域在新视角下的空间深度来进行选择，提高了获取映射点的正确性和准确度，继而提升场景漫游的真实性。

图6是根据本公开实施例的场景漫游装置的结构示意图，本实施例可适用于在任意视角实现场景漫游的情况，例如街景漫游，涉及人工智能技术领域，尤其涉及增强现实、虚拟现实、计算机视觉、深度学习等技术领域，可应用于元宇宙或智慧城市等场景。该装置可实现本公开任意实施例所述的场景漫游方法。如图6所示，该装置600具体包括：

平面区域关联模块601，用于根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个对象平面区域，其中，所述场景中包括对象，所述对象具有多个平面；

映射矩阵计算模块602，用于根据所述全景图像的全景相机位姿、新视角相机位姿和所述多个对象平面区域的平面方程，计算所述多个对象平面区域在所述新视角相对于所述全景相机视角的映射矩阵；

像素值填充模块603，用于根据所述映射矩阵获取所述新视角下各个像素点在所述全景相机视角下对应的像素值，并根据所述像素值生成所述场景在所述新视角下的图像。

可选的，平面区域关联模块601包括：

候选对象平面区域确定单元，用于根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个候选对象平面区域；

图像分割单元，用于对所述全景图像进行图像分割，得到对象分割区域、天空区域和地面区域；

对象平面区域确定单元，用于将所述多个候选对象平面区域的掩码分别与所述对象分割区域的掩码求交集，根据所述交集的结果确定所述多个对象平面区域，以及每个所述对象平面区域的掩码。

可选的，候选对象平面区域确定单元包括：

水平射线构造子单元，用于在所述全景图像对应的第一全景球上，以所述第一全景球的中心点为第一原点，构造从所述第一原点指向所述第一全景球赤道上的点的多条第一水平射线；

候选对象平面区域确定子单元，用于对所述多条第一水平射线执行如下操作，确定所述全景图像在所述全景相机视角下的多个候选对象平面区域：

将任意第一水平射线作为当前第一水平射线，根据所述对象数据，确定与所述当前第一水平射线具有第一个正向交点的当前对象平面；

确定所述第一全景球上与所述第一个正向交点经度相同的像素点集；

将所述第一个正向交点与所述像素点集构成的区域与所述当前对象平面绑定，得到当前候选对象平面区域。

可选的，映射矩阵计算模块602具体用于：

根据所述全景图像的全景相机位姿、新视角相机位姿和所述多个对象平面区域、天空区域和地面区域的平面方程，计算所述多个对象平面区域、天空区域和地面区域在所述新视角相对于所述全景相机视角的映射矩阵。

可选的，映射矩阵计算模块602包括：

参数化向量获取单元，用于根据所述全景图像和所述对象数据，获取所述多个对象平面区域、天空区域和地面区域各自的平面方程所表征的参数化向量；

单应矩阵计算单元，用于根据所述全景图像的全景相机位姿、新视角相机位姿和所述参数化向量，计算基于目标平面诱导的所述新视角相机位姿相对于所述全景相机位姿的单应矩阵，其中，所述目标平面包括所述多个对象平面区域、天空区域和地面区域中的任意平面；

映射矩阵计算单元，用于根据所述单应矩阵和所述新视角的相机参数，计算所述目标平面在所述新视角相机位姿下的图像与在所述全景相机位姿下的图像的映射矩阵。

可选的，所述单应矩阵由如下公式表示：H＝R–t*n^T/h；

其中，H表示单应矩阵，R表示新视角相机位姿相对于全景相机位姿的旋转矩阵，t表示新视角相机位姿相对于全景相机位姿的平移矩阵，n^T表示n的转置，n和h分别表示目标平面在新视角相机位姿下的法相参数和距离参数。

可选的，所述目标平面在所述新视角相机位姿下表示为P_n，并且P_n＝T_n^T*P_w；

其中，T_n表示新视角相机位姿，T_n^T表示新视角相机位姿的转置，P_w表示目标平面在全景相机位姿下的参数化向量。

可选的，像素值填充模块603包括：

映射位置计算单元，用于根据所述多个对象平面区域、天空区域和地面区域各自的映射矩阵，计算所述新视角下各个像素点的位置在所述全景相机视角下对应的至少一个映射位置；

目标映射位置确定单元，用于从所述至少一个映射位置中确定所述各个像素点的目标映射位置，其中，所述目标映射位置位于作为计算依据的目标映射矩阵所对应的目标平面区域的掩码内，所述目标平面区域包括所述多个对象平面区域、天空区域或地面区域中的任意平面区域；

图像生成单元，用于根据所述各个像素点的目标映射位置在所述目标平面区域的映射像素点的像素值，生成所述场景在所述新视角下的图像。

可选的，所述图像生成单元包括：

像素值均值获取子单元，用于获取所述各个像素点的目标映射位置在所述目标平面区域的映射像素点周围各像素点的像素值均值；

图像生成子单元，用于根据所述各个像素点对应的像素值均值生成所述场景在所述新视角下的图像。

可选的，所述全景图像的数量为多个；相应的，像素值填充模块603还包括遮挡处理单元，具体用于：

如果所述各个像素点中的任意目标像素点的目标映射位置不唯一，则获取作为每个目标映射位置各自计算依据的目标映射矩阵所对应的目标平面区域；

获取所述每个目标平面区域在所述新视角下对应的新视角平面区域；

根据所述每个新视角平面区域在所述新视角下的空间深度，从所述不唯一的各个目标映射位置中选择最终的目标映射位置，作为填充所述目标像素点的像素值的填充依据。

可选的，所述遮挡处理单元还用于：

在所述新视角对应的第二全景球上，以所述第二全景球的中心点为第二原点，构造从所述第二原点指向所述第二全景球赤道上的点的多条第二水平射线；

获取所述每个新视角平面区域与所述多条第二水平射线的第一个正向交点；

选择所述第一个正向交点在所述第二全景球中的空间深度最近的新视角平面区域作为目标新视角平面区域；

将所述目标新视角平面区域在所述全景相机视角下对应的目标平面区域上的目标映射位置，作为填充所述目标像素点的像素值的填充依据。

可选的，所述场景包括街景，所述对象包括楼块。

上述产品可执行本公开任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如场景漫游方法。例如，在一些实施例中，场景漫游方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的场景漫游方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行场景漫游方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种场景漫游方法，包括：

2.根据权利要求1所述的方法，其中，所述根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个对象平面区域，包括：

根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个候选对象平面区域；

对所述全景图像进行图像分割，得到对象分割区域、天空区域和地面区域；

将所述多个候选对象平面区域的掩码分别与所述对象分割区域的掩码求交集，根据所述交集的结果确定所述多个对象平面区域，以及每个所述对象平面区域的掩码。

3.根据权利要求2所述的方法，其中，所述根据场景的全景图像和所述场景中的对象数据，确定所述全景图像在全景相机视角下的多个候选对象平面区域，包括：

在所述全景图像对应的第一全景球上，以所述第一全景球的中心点为第一原点，构造从所述第一原点指向所述第一全景球赤道上的点的多条第一水平射线；

对所述多条第一水平射线执行如下操作，确定所述全景图像在所述全景相机视角下的多个候选对象平面区域：

4.根据权利要求2所述的方法，其中，所述根据所述全景图像的全景相机位姿、新视角相机位姿和所述多个对象平面区域的平面方程，计算所述多个对象平面区域在所述新视角相对于所述全景相机视角的映射矩阵，包括：

5.根据权利要求4所述的方法，其中，所述根据所述全景图像的全景相机位姿、新视角相机位姿和所述多个对象平面区域、天空区域和地面区域的平面方程，计算所述多个对象平面区域、天空区域和地面区域在所述新视角相对于所述全景相机视角的映射矩阵，包括：

根据所述全景图像和所述对象数据，获取所述多个对象平面区域、天空区域和地面区域各自的平面方程所表征的参数化向量；

根据所述全景图像的全景相机位姿、新视角相机位姿和所述参数化向量，计算基于目标平面诱导的所述新视角相机位姿相对于所述全景相机位姿的单应矩阵，其中，所述目标平面包括所述多个对象平面区域、天空区域和地面区域中的任意平面；

根据所述单应矩阵和所述新视角的相机参数，计算所述目标平面在所述新视角相机位姿下的图像与在所述全景相机位姿下的图像的映射矩阵。

6.根据权利要求5所述的方法，其中，所述单应矩阵由如下公式表示：H＝R–t*n^^T/h；

其中，H表示单应矩阵，R表示新视角相机位姿相对于全景相机位姿的旋转矩阵，t表示新视角相机位姿相对于全景相机位姿的平移矩阵，n^^T表示n的转置，n和h分别表示目标平面在新视角相机位姿下的法相参数和距离参数。

7.根据权利要求6所述的方法，其中，所述目标平面在所述新视角相机位姿下表示为P_n，并且P_n＝T_n^^T*P_w；

其中，T_n表示新视角相机位姿，T_n^^T表示新视角相机位姿的转置，P_w表示目标平面在全景相机位姿下的参数化向量。

8.根据权利要求2所述的方法，其中，所述根据所述映射矩阵获取所述新视角下各个像素点在所述全景相机视角下对应的像素值，并根据所述像素值生成所述场景在所述新视角下的图像，包括：

根据所述多个对象平面区域、天空区域和地面区域各自的映射矩阵，计算所述新视角下各个像素点的位置在所述全景相机视角下对应的至少一个映射位置；

从所述至少一个映射位置中确定所述各个像素点的目标映射位置，其中，所述目标映射位置位于作为计算依据的目标映射矩阵所对应的目标平面区域的掩码内，所述目标平面区域包括所述多个对象平面区域、天空区域或地面区域中的任意平面区域；

根据所述各个像素点的目标映射位置在所述目标平面区域的映射像素点的像素值，生成所述场景在所述新视角下的图像。

9.根据权利要求8所述的方法，其中，所述根据所述各个像素点的目标映射位置在所述目标平面区域的映射像素点的像素值，生成所述场景在所述新视角下的图像，包括：

获取所述各个像素点的目标映射位置在所述目标平面区域的映射像素点周围各像素点的像素值均值；

根据所述各个像素点对应的像素值均值生成所述场景在所述新视角下的图像。

10.根据权利要求8所述的方法，其中，所述全景图像的数量为多个；相应的，所述根据所述映射矩阵获取所述新视角下各个像素点在所述全景相机视角下对应的像素值，并根据所述像素值生成所述场景在所述新视角下的图像，还包括：

11.根据权利要求10所述的方法，其中，所述根据所述每个新视角平面区域在所述新视角下的空间深度，从所述不唯一的各个目标映射位置中选择最终的目标映射位置，作为填充所述目标像素点的像素值的填充依据，包括：

12.根据权利要求1所述的方法，其中，所述场景包括街景，所述对象包括楼块。

13.一种场景漫游装置，包括：

14.根据权利要求13所述的装置，其中，所述平面区域关联模块，包括：

15.根据权利要求14所述的装置，其中，所述候选对象平面区域确定单元，包括：

16.根据权利要求14所述的装置，其中，所述映射矩阵计算模块具体用于：

17.根据权利要求16所述的装置，其中，所述映射矩阵计算模块，包括：

18.根据权利要求17所述的装置，其中，所述单应矩阵由如下公式表示：H＝R–t*n^T/h；

19.根据权利要求18所述的装置，其中，所述目标平面在所述新视角相机位姿下表示为P_n，并且P_n＝T_n^T*P_w；

20.根据权利要求14所述的装置，其中，所述像素值填充模块，包括：

21.根据权利要求20所述的装置，其中，所述图像生成单元，包括：

22.根据权利要求20所述的装置，其中，所述全景图像的数量为多个；相应的，所述像素值填充模块还包括遮挡处理单元，所述遮挡处理单元具体用于：

23.根据权利要求22所述的装置，其中，所述遮挡处理单元还用于：

24.根据权利要求13所述的装置，其中，所述场景包括街景，所述对象包括楼块。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的场景漫游方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的场景漫游方法。

27.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1-12中任一项所述的场景漫游方法。