CN113140034A

CN113140034A - 基于房间布局的全景新视角生成方法、装置、设备和介质

Info

Publication number: CN113140034A
Application number: CN202110461514.7A
Authority: CN
Inventors: 高盛华; 许家乐
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-20
Anticipated expiration: 2041-04-27
Also published as: CN113140034B

Abstract

本申请提供的一种基于房间布局的全景新视角生成方法、装置、设备和介质，通过获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。本申请可以实现全景新视角的生成，能够较好地保持房间布局结构，具有更好的图像质量，并且性能优于现有的方法。

Description

基于房间布局的全景新视角生成方法、装置、设备和介质

技术领域

本发明涉及场景新视角生成技术领域，特别是涉及一种基于房间布局的全景新视角生成方法、装置、设备和介质。

背景技术

现有的新视角生成方法往往基于深度学习，并且可分为以下几类：第一类方法思路较为简单，它将新视角生成直接看作图像生成问题，训练神经网络使用常规的透视图像作为输入，直接输出新视角图像。而，由于透视图像视野范围的有限性，新视角的生成只能限制在一个相对较小的视角变化范围内，缺少原视角与新视角之间的关系，并在变化幅度很大时性能下降严重，这类方法效果较差。第二类方法则更进一步，首先使用神经网络估计出原视角与新视角之间的像素对应关系，例如外观流(appearance flow)等，然后使用该关系对原图像进行像素重新排列，从而间接完成新视角图像的生成，但是其仅有二维空间的对应关系，而缺少3D空间的关联关系。第三类方法则采用“建模——渲染”框架，首先使用输入图像显式地对场景进行建模，然后在新视角下渲染场景模型来生成图像，场景的建模可以使用光场、点云、深度分层图像、多平面图像等来实现。由于具备对场景进行建模的能力，这类方法的效果最好，也是目前研究的主流。

通常对一张室内场景的全景图像来生成该场景在新视角下的全景图像，需要将较大的视角变化考虑在内，当视角变化较大时，由于新视角中在原视角下不可见的区域较大，因此很难保证生成图像的质量。

为此，本申请则基于第三类方法来解决这一问题。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于房间布局的全景新视角生成方法、装置、设备和介质，以解决现有全景新视角生成的问题。

为实现上述目的及其他相关目的，本申请提供一种基于房间布局的全景新视角生成方法，所述方法包括：获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

于本申请的一实施例中，所述将原视角特征图F_s转换为新视角特征图F_t，包括：依据原视角像素坐标求出其对应的原视角球面坐标；从深度图D_s得到该像素对应的点与相机的距离，以此将原视角球面坐标转换为空间坐标；将空间坐标减去相机位移，得到新视角下的空间坐标；将新视角下的空间坐标转换为新视角下的球面坐标，并将球面坐标变换为新视角图像的像素坐标；基于原视角图像像素与新视角图像像素的对应关系，将原视角特征图F_s中的像素重新排列，以得到新视角特征图F_t。

于本申请的一实施例中，所述将原视角下的房间布局L_s转换为新视角下的房间布局L_t，包括：假设相机离地面的高度为h，(φ_s，u，θ_s，u)和(φ_s，l，θ_s，l)分别表示在同一条墙壁交线上的上下两个墙角的球面坐标，则这一对墙角的深度值可以使用以下公式得到：

得出各墙角的深度值后，基于新视角特征图的视角转换过程，以得到房间布局的视角转换过程。

于本申请的一实施例中，所述方法包括：为了处理多个原视角像素对应同一个新视角像素的情况，采用软z-缓存来处理冲突：

其中，d_max＝10，是一个预先定义的最大深度值；∈是一个很小的常数，用于保证数值稳定。

于本申请的一实施例中，所述原视角特征图F_s和深度图D_s的训练函数如下：

其中，

是图像重建损失，

是感知损失，

是风格损失，

是对抗损失，

是房间布局损失。

于本申请的一实施例中，所述方法包括：在将原视角特征图F_s转换为新视角特征图F_t时，使用双线性插值在(u_t，v_t)周围相邻的4个像素上进行插值，每个原视角像素会对4个新视角像素产生影响。

于本申请的一实施例中，所述方法包括：在将原视角特征图F_s转换为新视角特征图F_t之前，将原视角特征图F_s上采样为原来的至少2倍，以增加其像素密度，使其能对应到更多的新视角像素，从而有效减小新视角特征图上的空洞区域。

为实现上述目的及其他相关目的，本申请提供一种基于房间布局的全景新视角生成装置，所述装置包括：获取模块，用于获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；处理模块，用于指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

为实现上述目的及其他相关目的，本申请提供一种计算机设备，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如上所述的方法。

为实现上述目的及其他相关目的，本申请提供一种计算机可读存储介质，存储有计算机指令，所述计算机指令被运行时执行如上所述的方法。

综上所述，本申请的一种基于房间布局的全景新视角生成方法、装置、设备和介质，通过获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

具有以下有益效果：

本申请可以实现全景新视角的生成，能够较好地保持房间布局结构，具有更好的图像质量，并且性能优于现有的方法。

附图说明

图1显示为本申请于一实施例中基于房间布局的全景新视角生成方法的流程示意图。

图2显示为本申请于一实施例中网络模型整体框架的流程示意图。

图3显示为本申请于一实施例中上采样操作的效果示意图。

图4显示为本申请于一实施例中多个视角生成方法可视化结果的对比示意图。

图5显示为本申请于一实施例中基于房间布局的全景新视角生成装置的模块示意图。

图6显示为本申请于一实施例中计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，但其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本申请范围的范围内，可以言及到第二部分、成分、区域、层或段。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

现有的场景新视角生成方法都使用常规的透视图像作为输入和输出。然而，由于透视图像视野范围的有限性，新视角的生成只能限制在一个相对较小的视角变化范围内，并在变化幅度很大时性能下降严重。

本申请提出了一种单张基于全景图像的新视角生成方法，目的是给定某个场景的一张或多张图像，来生成该场景在其他视角下的图像。它以单张室内全景图作为输入，并生成360°的新视角图像。相较于传统方法，本申请提出的方法可以处理视角变化非常剧烈的情况。为了实现全景新视角的生成，本申请首先估计出原视角全景图像的特征图与深度图，以及房间布局。然后，本申请将这些信息通过几何变换关系转换到新视角下，并以新视角下的房间布局作为结构先验来指导新视角图像的生成。对于室内场景来说，房间布局是一个很强的结构性约束，因此对于生成的新视角图像能起到很好的指导和约束作用，使其看起来更加真实。在数据集上的实验结果表明，本申请提出的方法可以实现全景新视角的生成，并且性能优于现有的方法。

如图1所示，展示为本申请一实施例中的基于房间布局的全景新视角生成方法的流程示意图。如图所示，所述方法包括：

步骤S101：获取一原始全景图像I_s∈R^H×W×3，使用一卷积神经网络提取出原视角特征图F_s∈R^H×W×C和深度图D_s∈R^H×W×1；并使用另一卷积神经网络估计室内场景的房间布局L_s∈R^N×2。

其中，R表示实数域，H表示高度，W表示宽度，C表示信道数。例如，I_s为包含高度宽度的实数张量数据矩阵。室内场景的房间布局L_s∈R^N×2，即房间各墙角(即墙壁交线与地板平面和天花板平面的交点)在输入的原始全景图像I_s中对应的像素坐标，其中，N是墙角的个数。

简单来说，首先获取一室内全景图像作为输入，一方面通过卷积神经网络提取原视角的特征图和深度图，另一方面在通过另一卷积神经网络估计出室内场景的房间布局。

需要说明的是，提取原视角特征图和深度图的卷积神经网络和估计室内场景的房间布局的神经网络均采用视觉处理领域常用的RESnet网络。

还需说明的是，本申请采用已有数据集进行模型训练，即所获取的原始全景图像，提供有不同视角的图像。例如，使用卷积神经网络估计室内场景的房间布局，便通过Structured数据集中选取的经过预训练的全景图像，其经过卷积神经网络可得到一墙角地图(Corner map)和一边界地图(Edge map)，可参见图2所示的网络模型整体框架的流程示意图。

于本申请一实施例中，针对原视角特征图F_s和深度图D_s的训练函数如下：

其中，

是图像重建损失，

是感知损失，

是风格损失，

是对抗损失，

是房间布局损失，目的是使生成的新视角图像I_t保持正确的房间布局。

于多个实施方案中，为了实现本发明，本申请提供以下方案：

使用Adam优化器进行训练，并将参数设为β₁＝0.9，β₂＝0.999，批量大小设为4，学习率设为0.0001。在训练时，首先训练深度估计的卷积神经网络和房间布局估计的卷积神经网络30个epoch使其收敛。然后将其权重固定，训练剩余模型50个epoch，并在第30个epoch之后将学习率降低为原来的1/10。

步骤S102：指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t。

于本申请一实施例中，所述将原视角特征图F_s转换为新视角特征图F_t，包括：

当给定原视角图像中的像素坐标(u_s，v_s)，其对应的新视角图像像素坐标可以按照如下过程求出：

首先求出原视角像素坐标(u_s，v_s)对应的原视角球面坐标(φ_s，θ_s)：

其中，φ_s，θ_s分别表示球面坐标的经纬度。

从深度图D_s可以得到该像素对应的点与相机的距离d(即深度)，因此可以将原视角球面坐标(φ_s，θ_s)转换为空间坐标(x_s，y_s，z_s)：

将空间坐标(x_s，y_s，z_s)减去相机位移t＝[t_x，t_y，t_z]^T，可以得到新视角下的空间坐标(x_t，y_t，z_t)：

然后，将新视角下的空间坐标(x_t，y_t，z_t)转换为新视角下的球面坐标(φ_t，θ_t)：

最后，将球面坐标(φ_t，θ_t)变换为新视角图像的像素坐标(u_t，v_t)：

这样，便得到了原视角图像像素(u_s，v_s)所对应的新视角图像像素(u_t，v_t)。通过这种像素对应关系，可以将原视角特征图F_s中的像素重新排列，以得到新视角特征图F_t。

进一步地，本申请还可将原视角下的房间布局L_s转换为新视角下的房间布局L_t，以指导新视角图像的生成，房间布局的视角转换过程与特征图类似，但墙角的深度不能直接从深度图D_s中得到，因为它们有可能会被前景物体所遮挡。

假设相机离地面的高度为h，(φ_s，u，θ_s，u)和(φ_s，l，θ_s，l)表示在同一条墙壁交线上的上下两个墙角的球面坐标，则这一对墙角的深度值可以使用以下公式得到：

得出各墙角的深度值后，基于新视角特征图的视角转换过程，以得到房间布局的视角转换过程，房间布局的视角转换过程与特征图的视角转换过程完全相同。

于本申请一实施例中，为了处理多个原视角像素对应为同一个新视角像素的情况，采用软z-缓存来处理冲突：

于本申请一实施例中，在原视角特征图F_s转换为新视角特征图F_t时，每个原视角像素坐标(u_s，v_s)经过转换后得到的新视角像素坐标(u_t，v_t)往往都不是整数，因此需要使用双线性插值在(u_t，v_t)周围相邻的4个像素上进行插值，即每个原视角像素会对4个新视角像素产生影响。

如果某个新视角像素没有任何一个原视角像素与其对应，则该新视角像素会成为空洞。如果新视角特征图F_t的像素空洞区域过大，会大大增加新视角图像生成的难度。因此，本申请在将原视角特征图F_s转换为新视角特征图F_t之前，首先将原视角特征图F_s上采样为原来的至少2倍，以增加其像素密度，使其能对应到更多的新视角像素，从而有效减小新视角特征图F_t上的空洞区域。

由于特征图难以可视化，本申请直接对原视角图像进行视角转换，并进行可视化。如图3所示，展示为本申请一实施例中上采样操作的效果示意图。从图3中可以看出，例如，相较于不进行上采样，将原视角上采样为原来的2倍，可以将新视角的像素缺失率从45.81％降低至27.37％，将原视角上采样为原来的4倍，可以将新视角的像素缺失率从45.81％降低至18.03％。

步骤S103：将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

需要说明的是，生成新视角图像I_t的神经网络采用视觉处理领域常用的Unet网络。所述信道维度上的连接，即相当于将新视角特征图F_t和新视角下的房间布局L_t进行拼接，例如，新视角特征图F_t有64个信道，新视角下的房间布局L_t有64个信道，二者通过信道维度上的连接后，得到128个信道的新视角图像I_t。

于本申请一实施例中，为了验证本申请的有效性，本申请分别在两个数据集上进行实验，一个简单集(easy set)和一个困难集(hard set)。简单集中的视角移动距离范围为0.2-0.3m，困难集中的视角移动范围为1.0-2.0m，并将本申请所述方法与2种最新的基于单张输入图像的新视角生成方法Synsin和MPI进行比较。

由于Synsin的深度估计网络是端到端(end-to-end)进行训练的，为了公平起见，本申请还尝试使用真实的深度图来监督深度估计网络的训练(supervised by GT depth)。除此之外，为了比较Synsin以及本申请所述方法的性能上限，本申请还尝试将真实的深度图作为模型的输入(GT depth as input)进行了测试。更进一步，还尝试了将真实的房间布局也作为本申请的模型的输入(GT depth&GT layout as input)。而对于基于多平面图像的方法MPI，分别将其多平面图像的层数设置为32、64与128，来测试其性能。实验结果如下表所示：

表1多个视角生成方法对比结果

实验采用3个指标进行评价：PSNR(Peak Signal-to-Noise Ratio)表示峰值信噪比，其值越高表示生成图像与真实图像越相似；SSIM(Structural SIMilarity)表示结构相似性，其值越高表示生成图像与真实图像的亮度、对比度、结构等越相似；LPIPS(LearnedPerceptual Image Patch Similarity)表示感知相似度，其值越低表示生成图像与真实图像的高层特征越近似。实验结果表明，本发明的全景新视角生成质量要优于现有技术。

承上数据集上的实验结果，图4为对应的可视化结果，如图呈现的可视化结果可知，相较于现有方法，本申请生成的全景新视角图像能够较好地保持房间布局结构，具有更好的图像质量。

如图5所示，展示为本申请于一实施例中的基于房间布局的全景新视角生成装置的模块示意图。如图所示，所述装置500包括：

获取模块501，用于获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；

处理模块502，用于指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请所述方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

还需要说明的是，应理解以上装置500的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块5022可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块502的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)；或，一个或多个微处理器(digital signal processor，简称DSP)；或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等；再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器；再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图6所示，展示为本申请于一实施例中的计算机设备的结构示意图。如图所示，所述计算机设备600包括：存储器601、及处理器602；所述存储器601用于存储计算机指令；所述处理器602运行计算机指令实现如图1所述的方法。

在一些实施例中，所述计算机设备600中的所述存储器601的数量均可以是一或多个，所述处理器602的数量均可以是一或多个，而图6中均以一个为例。

于本申请一实施例中，所述计算机设备600中的处理器602会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器601中，并由处理器602来运行存储在存储器601中的应用程序，从而实现如图1所述的方法。

所述存储器601可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器601存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器602可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中，所述计算机设备600的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图6中将各种总线都成为总线系统。

于本申请的一实施例中，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所述的方法。

在任何可能的技术细节结合层面，本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

综上所述，本申请提供的一种基于房间布局的全景新视角生成方法、装置、设备和介质，通过获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于房间布局的全景新视角生成方法，其特征在于，所述方法包括：

获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；

指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；

将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

2.根据权利要求1所述的方法，其特征在于，所述将原视角特征图F_s转换为新视角特征图F_t，包括：

依据原视角像素坐标求出其对应的原视角球面坐标；

从深度图D_s得到该像素对应的点与相机的距离，以此将原视角球面坐标转换为空间坐标；

将空间坐标减去相机位移，得到新视角下的空间坐标；

将新视角下的空间坐标转换为新视角下的球面坐标，并将球面坐标变换为新视角图像的像素坐标；

基于原视角图像像素与新视角图像像素的对应关系，将原视角特征图F_s中的像素重新排列，以得到新视角特征图F_t。

3.根据权利要求2所述的方法，其特征在于，所述将原视角下的房间布局L_s转换为新视角下的房间布局L_t，包括：

假设相机离地面的高度为h，(φ_s,u,θ_s,u)和(φ_s,l,θ_s,l)分别表示在同一条墙壁交线上的上下两个墙角的球面坐标，则这一对墙角的深度值可以使用以下公式得到：

4.根据权利要求1所述的方法，其特征在于，所述方法包括：

为了处理多个原视角像素对应同一个新视角像素的情况，采用软z-缓存来处理冲突：

5.根据权利要求1所述的方法，其特征在于，所述原视角特征图F_s和深度图D_s的训练函数如下：

其中，

是图像重建损失，

是感知损失，

是风格损失，

是对抗损失，

是房间布局损失。

6.根据权利要求1所述的方法，其特征在于，所述方法包括：

在将原视角特征图F_s转换为新视角特征图F_t时，使用双线性插值在(u_t,v_t)周围相邻的4个像素上进行插值，每个原视角像素会对4个新视角像素产生影响。

7.根据权利要求6所述的方法，其特征在于，所述方法包括：

在将原视角特征图F_s转换为新视角特征图F_t之前，将原视角特征图F_s上采样为原来的至少2倍，以增加其像素密度，使其能对应到更多的新视角像素，从而有效减小新视角特征图上的空洞区域。

8.一种基于房间布局的全景新视角生成装置，其特征在于，所述装置包括：

获取模块，用于获取一原始全景图像I_s，使用一卷积神经网络提取出原视角特征图F_s和深度图D_s；并使用另一卷积神经网络估计室内场景的房间布局L_s；

处理模块，用于指定该原始全景图像一新视角，利用深度图D_s计算新视角与原视角之间的像素对应关系，从而将原视角特征图F_s转换为新视角特征图F_t，以及将原视角下的房间布局L_s转换为新视角下的房间布局L_t；将新视角特征图F_t和新视角下的房间布局L_t在信道维度上进行连接，并输入到一个卷积神经网络中生成新视角图像I_t。

9.一种计算机设备，其特征在于，所述设备包括：存储器、及处理器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机指令，所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。