CN114241052B

CN114241052B - 基于布局图的多物体场景新视角图像生成方法及系统

Info

Publication number: CN114241052B
Application number: CN202111616064.0A
Authority: CN
Inventors: 高小天; 毛志文; 倪勇; 胡伏原; 金凯
Original assignee: Jiangsu Beisiwang Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Jiangsu Beisiwang Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2023-09-08
Anticipated expiration: 2041-12-27
Also published as: CN114241052A

Abstract

本发明涉及一种基于布局图的多物体场景新视角图像生成方法，包括将多个图像的布局图输入至布局图预测器，获得新视角下的布局图；输入多个图像，对图像中的每个对象实例进行采样，并将其与相机位姿矩阵沿通道方向连接构建输入张量，将构建的张量输入至像素预测器，获得新视角下的各个物体的图像；将新视角下的布局图和新视角下的各个物体的图像输入至场景生成器中，各个物体的图像依次经过编码器和融合器，得到一个包含所有物体信息的融合特征，通过解码器生成场景图像。本发明通过场景的布局图信息指导网络生成场景图像，不依赖输入图像的深度图，生成的图像更加清晰真实，解决了现有生成图像中精度较低和准确度较低的问题。

Description

基于布局图的多物体场景新视角图像生成方法及系统

技术领域

本发明涉及图像处理技术领域，尤其是指一种基于布局图的多物体场景新视角图像生成方法及系统。

背景技术

新视角图像生成(Novel View Synthesis,NVS)任务是在给定多幅输入图像和对应相机位姿情况下，生成物体或场景任意视角的图像。该任务在虚拟现实技术、机器人技术，静态图像动画制作等方面有着广泛的应用。因其避免了在生成任意视角图像过程中构建复杂三维模型，提升了生成效率。

此前，新视角图像生成方法主要有以下三种：1)基于像素映射的方法，其本质是根据目标相机和输入相机的相对位姿关系，将输入图像的像素根据坐标的关系映射到目标视图中，但是这种方法需要用到一定的先验知识，如物体的形状等，并且训练出的模型不具备泛化能力，只能用于单一物体的数据集。2)基于生成对抗网络的方法，其虽然引入了一种横向生成路径保证了嵌入空间的完整性，提高了模型的泛化能力，但是在实际应用中，其对复杂场景的新视角图像生成准确度有限。3)基于先验知识的方法，此方法引入物体或场景的先验知识(如场景的深度图，物体的几何先验等)与输入图像结合，通过网络生成新视角图像，但是类似深度图等先验信息往往受各种条件的约束，难以获取，并且深度图信息只包括场景中物体的空间位置，无法辨识出场景中物体的类别，因此生成图像的对象布局容易产生混乱,生成的对象细节不足。

近年来，基于布局图(layout)的生成模型因为其可以更明确地表示出场景信息而受到极大的关注。布局图是图像生成过程中非常重要的概念，布局图信息包含场景中的物体类别和空间位置信息，是图像强有力的结构化表示。与其他场景先验信息相比，布局图最大的特点是可以描述复杂场景中各个物体的类别和空间位置。因此基于布局图先验的生成网络有望解决生成图像中精度较低和准确度较低的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于布局图的多物体场景新视角图像生成方法及系统，在不依赖标签的情况下获取点云特征和图像特征，极大程度降低了3D目标检测对语义标签的依赖，并且显著提高了检测精度，使得目标检测的准确度和适用性得到了进一步的提高。

为解决上述技术问题，本发明提供一种基于布局图的多物体场景新视角图像生成方法，包括以下步骤：

S1：将多个图像的布局图输入至布局图预测器，获得新视角下的布局图；

S2：输入多个图像，对所述图像中的每个对象实例进行采样，并将其与相机位姿矩阵沿通道方向连接构建输入张量，将构建的张量输入至像素预测器，获得新视角下的各个物体的图像；

S3：将所述新视角下的布局图和所述新视角下的各个物体的图像输入至场景生成器中，各个物体的图像依次经过编码器和融合器，得到一个包含所有物体信息的融合特征，通过解码器生成场景图像。

在本发明的一个实施例中，在S2中，获得新视角下的各个物体的图像的方法包括。

S2.1：将输入的图像按照对应布局图中的边界框信息构建不同物体的对象集合，对象集合与相机位姿矩阵通过concat操作得到输入矩阵；

S2.2：将每个图像的输入矩阵输入至像素预测器中生成目标视角下的预测图像；

S2.3：将生成的所有预测图像聚合生成目标图像，获得目标视角下的各个物体的图像。

在本发明的一个实施例中，在S2.1中，构建输入矩阵的方法包括：

将输入视角的相机位姿进行矢量化处理，得到矢量数据；

计算输入视角的相机位姿和目标位姿之间的差值,将差值输入像素预测器网络，沿着空间维度平铺所述差值，获得输入的位姿张量，同时根据获取的边界框对输入的图像进行裁剪，基于物体类别获取多组图像，并使用双线性插值调整多组图像的大小使其适合像素预测器的输入维度；

将输入的位姿张量沿着通道数连接到裁剪得到的图像,获得输入张量。

在本发明的一个实施例中，在S2.2中，将每个图像的输入矩阵输入至像素预测器中生成目标视角下的预测图像的方法包括：

所述目标视角下的预测图像的计算公式为s.t.T＝I_s ⁱ+P_input，式中，P()表示像素预测器，/>表示裁剪后的图像，P_input表示输入的位姿张量，/>表示预测图像。

在本发明的一个实施例中，在S3中，将经过像素预测器获得的物体的图像与边界框构建对象特征，并将对象类别进行编码获得类别编码，将类别编码与对象特征进行串联并填充在边界框内。

在本发明的一个实施例中，在S3中，在所述解码器之后部署多层卷积长短时记忆网络，利用所述多层卷积长短时记忆网络融合采样得到的对象特征，并输出融合后的隐藏布局图,其中所述隐藏布局图包含所有对象的位置、类别和特征信息。

此外，本发明还提供一种基于布局图的多物体场景新视角图像生成系统，包括：

布局图预测模块，所述布局图预测模块用于将多个图像的布局图输入至布局图预测器，获得新视角下的布局图；

像素预测模块，输入多个图像，所述像素预测模块用于对所述图像中的每个对象实例进行采样，并将其与相机位姿矩阵沿通道方向连接构建输入张量，将构建的张量输入至像素预测器，获得新视角下的各个物体的图像；

场景图像生成模块，所述场景图像生成模块用于将所述新视角下的布局图和所述新视角下的各个物体的图像输入至场景生成器中，各个物体的图像依次经过编码器和融合器，得到一个包含所有物体信息的融合特征，通过解码器生成场景图像。

在本发明的一个实施例中，所述像素预测模块包括：

输入矩阵构建子模块，所述输入矩阵构建子模块用于将输入的图像按照对应布局图中的边界框信息构建不同物体的对象集合，对象集合与相机位姿矩阵通过concat操作得到输入矩阵；

预测图像生成子模块，所述预测图像生成子模块用于将每个图像的输入矩阵输入至像素预测器中生成目标视角下的预测图像；

图像聚合子模块，所述图像聚合子模块用于将生成的所有预测图像聚合生成目标图像，获得目标视角下的各个物体的图像。

在本发明的一个实施例中，所述输入矩阵构建子模块包括：

矢量处理单元，所述矢量处理单元用于将输入视角的相机位姿进行矢量化处理，得到矢量数据；

位姿张量计算单元，所述位姿张量计算单元用于计算输入视角的相机位姿和目标位姿之间的差值,将差值输入像素预测器网络，沿着空间维度平铺所述差值，获得输入的位姿张量，同时根据获取的边界框对输入的图像进行裁剪，基于物体类别获取多组图像，并使用双线性插值调整多组图像的大小使其适合像素预测器的输入维度；

输入张量获得单元，所述输入张量获得单元用于将输入的位姿张量沿着通道数连接到裁剪得到的图像,获得输入张量。

在本发明的一个实施例中，所述场景生成器包括：

多层卷积长短时记忆网络，其部署在所述解码器之后，利用所述多层卷积长短时记忆网络融合采样得到的对象特征，并输出融合后的隐藏布局图,其中所述隐藏布局图包含所有对象的位置、类别和特征信息。

本发明的上述技术方案相比现有技术具有以下优点：

本发明提供一种基于布局图的多物体场景新视角图像生成方法及系统，其通过场景的布局图信息指导网络生成场景图像，不依赖输入图像的深度图，很好的恢复了物体与物体和物体与背景之间的关系，生成的图像更加清晰真实，解决了现有生成图像中精度较低和准确度较低的问题。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明基于布局图的多物体场景新视角图像生成方法的流程示意图。

图2是对抗网络的示意图。

图3是本发明基于布局图的多物体场景新视角图像生成方法的框架图。

图4是本发明像素预测器网络示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

下面首先对生成对抗网络进行说明。

生成对抗网络是一种深度学习模型，其最大的特点是引入了对抗机制。对抗的双方分别由生成器网络(Generator)和鉴别器网络(Discriminator)组成，如图2所示。

生成器网络学习真实的数据分布，鉴别器网络判断输入数据是来自真实数据还是生成器网络生成的数据。在训练中，生成器网络G输入服从先验分布的随机噪声z，生成一个类似真实训练样本的数据；鉴别器网络D是一个二分类器，用于估计样本来自训练数据而非生成数据的概率，根据输出的概率值区分输入对象是真实图像还是生成图像。生成器网络G和鉴别器网络D的训练是一个极大极小博弈，定义为：

其中，E(*)表示分布函数的期望值，P_data(x)表示真实样本的分布，p_z(z)表示定义在低维的噪声分布，D(x)表示鉴别模型的输出结果，G(z)表示将输入的噪声z映射成数据。该模型可看成一个零和博弈问题，在真实训练过程中，我们往往希望鉴别器的效果要更好一些，这样可以监督生成器的效果，如果鉴别器效果较差，把生成的假数据判定为真实数据，那么整体的效果会较差，在训练过程中，一般会先多次训练鉴别器，再训练生成器。

实施例一

请参阅图1、3和4所示，本实施例提供一种基于布局图的多物体场景新视角图像生成方法，包括以下步骤：

在本发明公开的一种基于布局图的多物体场景新视角图像生成方法中，上述S1和S2可以同时进行。

在本发明公开的一种基于布局图的多物体场景新视角图像生成方法中，本发明提供一种基于布局图的多物体场景新视角图像生成方法，其首先获得新视角下的布局图和各个物体的图像，然后将布局图和图像输入至场景生成器中生成包含所有物体信息的场景图像，解决了现有生成图像中精度较低和准确度较低的问题。

在本发明公开的一种基于布局图的多物体场景新视角图像生成方法中，对于上述实施方式的S1，其包括如下小步骤：

S1.1:多个图像中的物体边界框坐标映射到同一世界坐标系中，对同一物体的边界框中心坐标使用最小二乘法拟合轨迹方程；

S1.2:修正因物体间的遮挡现象导致的轨迹和边界框误差；

S1.3:将新视角和原视角的相机位姿关系与拟合出的轨迹方程结合，计算出新视角下的物体对应的边界框。

在S1.1中，借助相机标定，同一物体在相机移动拍摄的过程中，可以看作是沿着一个椭圆的轨迹运动的，对单物体假设其初始轨迹为：

Ax²+By²+Cxy+Dx+Ey+F＝0 (2)

式中，A，B，C，D，E，F是椭圆的参数。

在S1.2中，提出一种迭代计算的修正方法。首先，计算边界框中心坐标和轨迹曲线之间的最短距离d，将其与设置的阈值比较，判定出需要修正的边界框中心坐标。需要修正的坐标每次以的步长向轨迹曲线逼近，然后，每一次更新后的坐标中心点，计算与上一次边界框四个顶点坐标的距离，以最大值为约束，对边界框进行扩充，得到更新后的边界框。最后，更新的坐标重复上述的操作，进行迭代训练，得到d_min最优解。其中目标函数d_min表示如下：

其中f_x，f_y是椭圆轨迹上的点集合。

在S1.3中，将拟合出的轨迹曲线分为左右两个部分，左右两个部分的椭圆轨迹上，物体中心坐标的值与物体边界框的宽高分别呈规律分布，即对象坐标越接近椭圆的下半圆时，表示对象距离拍摄的位置越近，对象的边界框越大，反之，边界框越小。为了计算出场景在新视角下的布局图信息，将修正后的边界框与相机位姿信息通过坐标系转换的方法，构建两者之间的关系，表示如下，

式中，y为映射到同一世界坐标系后，物体边界框的y轴坐标，w,h分别表示边界框的宽和高，解出其参数k₁，b₁，k₂，b₂，利用新视角处的相机位姿对应坐标计算出新视角下物体对应的边界框。

在本发明公开的一种基于布局图的多物体场景新视角图像生成方法中，对于上述实施方式的S2，其包括如下小步骤：

在S2.1中，在构建输入矩阵中，首先将输入视角的相机位姿进行矢量化处理，得到矢量数据；然后计算输入视角的相机位姿和目标位姿之间的差值,将差值输入像素预测器网络，沿着空间维度平铺所述差值，获得输入的位姿张量，同时根据获取的边界框对输入的图像进行裁剪，基于物体类别获取多组图像，并使用双线性插值调整多组图像的大小使其适合像素预测器的输入维度；最后将输入的位姿张量沿着通道数连接到裁剪得到的图像,获得输入张量。

在S2.2中，所述目标视角下的预测图像的计算公式为：

s.t.T＝I_s ⁱ+P_input (5)

式中，P()表示像素预测器，表示裁剪后的图像，P_input表示输入的位姿张量，/>表示预测图像。

在S2.3中，目标图像I_target通过所有预测图像聚合生成，像素生成器被训练成最小化以下等式：

在本发明公开的一种基于布局图的多物体场景新视角图像生成方法中，对于上述实施方式的S3，将经过像素预测器获得的物体的图像与边界框构建对象特征，并将对象类别进行编码获得类别编码，将类别编码与对象特征进行串联并填充在边界框内：

式中，表示矢量连接算，/>表示将对象信息复制到边界框内。

在本发明公开的一种基于布局图的多物体场景新视角图像生成方法中，对于上述实施方式的S3，为了将所有对象实例编码在期望的位置，在场景生成器中的解码器之后部署多层卷积长短时记忆网络，利用所述多层卷积长短时记忆网络融合采样得到的对象特征，并输出融合后的隐藏布局图,其中所述隐藏布局图包含所有对象的位置、类别和特征信息。隐藏布局图输入解码器生成目标图像。

本发明通过场景的布局图信息指导网络生成场景图像，不依赖输入图像的深度图，很好的恢复了物体与物体和物体与背景之间的关系，生成的图像更加清晰真实。

实施例二

下面对本发明实施例二公开的一种基于布局图的多物体场景新视角图像生成系统进行介绍，下文描述的一种基于布局图的多物体场景新视角图像生成系统与上文描述的一种基于布局图的多物体场景新视角图像生成方法可相互对应参照。

本发明实施例二公开了一种基于布局图的多物体场景新视角图像生成系统，包括：

在本发明公开的一种基于布局图的多物体场景新视角图像生成系统中，所述像素预测模块包括：

在本发明公开的一种基于布局图的多物体场景新视角图像生成系统中，所述输入矩阵构建子模块包括：

在本发明公开的一种基于布局图的多物体场景新视角图像生成系统中，所述场景生成器包括：

本实施例的基于布局图的多物体场景新视角图像生成系统用于实现前述的基于布局图的多物体场景新视角图像生成方法，因此该系统的具体实施方式可见前文中的基于布局图的多物体场景新视角图像生成方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于布局图的多物体场景新视角图像生成系统用于实现前述的基于布局图的多物体场景新视角图像生成方法，因此其作用与上述方法的作用相对应，这里不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于布局图的多物体场景新视角图像生成方法，其特征在于，包括以下步骤：

S3：将所述新视角下的布局图和所述新视角下的各个物体的图像输入至场景生成器中，各个物体的图像依次经过编码器和融合器，得到一个包含所有物体信息的融合特征，通过解码器生成场景图像；

在S2中，获得新视角下的各个物体的图像的方法包括：

S2.3：将生成的所有预测图像聚合生成目标图像，获得目标视角下的各个物体的图像；

在S2.1中，构建输入矩阵的方法包括：

将输入视角的相机位姿进行矢量化处理，得到矢量数据；

2.根据权利要求1所述的基于布局图的多物体场景新视角图像生成方法，其特征在于：在S2.2中，将每个图像的输入矩阵输入至像素预测器中生成目标视角下的预测图像的方法包括：

所述目标视角下的预测图像的计算公式为，式中，/>表示像素预测器，/>表示裁剪后的图像，/>表示输入的位姿张量，/>表示预测图像。

3.根据权利要求1所述的基于布局图的多物体场景新视角图像生成方法，其特征在于：在S3中，将经过像素预测器获得的物体的图像与边界框构建对象特征，并将对象类别进行编码获得类别编码，将类别编码与对象特征进行串联并填充在边界框内。

4.根据权利要求3所述的基于布局图的多物体场景新视角图像生成方法，其特征在于：在S3中，在所述解码器之后部署多层卷积长短时记忆网络，利用所述多层卷积长短时记忆网络融合采样得到的对象特征，并输出融合后的隐藏布局图,其中所述隐藏布局图包含所有对象的位置、类别和特征信息。

5.一种基于布局图的多物体场景新视角图像生成系统，其特征在于，包括：

场景图像生成模块，所述场景图像生成模块用于将所述新视角下的布局图和所述新视角下的各个物体的图像输入至场景生成器中，各个物体的图像依次经过编码器和融合器，得到一个包含所有物体信息的融合特征，通过解码器生成场景图像；

所述像素预测模块包括：

图像聚合子模块，所述图像聚合子模块用于将生成的所有预测图像聚合生成目标图像，获得目标视角下的各个物体的图像；

所述输入矩阵构建子模块包括：

6.根据权利要求5所述的基于布局图的多物体场景新视角图像生成系统，其特征在于：所述场景生成器包括：