CN118429198A

CN118429198A - 光场图像的合成方法、装置、电子设备及存储介质

Info

Publication number: CN118429198A
Application number: CN202410376017.0A
Authority: CN
Inventors: 邢树军; 胡玄斌; 于迅博; 沈圣; 张泷; 高鑫; 李宁驰; 颜玢玢; 桑新柱
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-08-02

Abstract

本发明提供一种光场图像的合成方法、装置、电子设备及存储介质，该方法包括：获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。通过训练的生成式对抗网络可得到多视点风格化图像集，进而可得到兼顾风格化和三维一致性的光场图像。

Description

光场图像的合成方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种光场图像的合成方法、装置、电子设备及存储介质。

背景技术

光场图像可以记录光线的方向信息和空间位置信息。光场图像在3D重建和虚拟现实等应用中有广泛的应用前景。光场图像通常可以由场景中获取的多视点图像经过合成后得到，多视点图像是在场景中从多个不同视角获取的图像，每个视点的图像都提供了场景的一个独特视角。

在光场图像中，光场记录了光线在三维空间中的传播方向，因此可以从不同视角合成光场图像。光场图像的一致性要求从不同视角合成的图像在内容、结构和视觉上保持连贯和一致，以便能够准确地反映真实场景的三维信息。在合成光场图像前，可以先对多视点图像进行风格化处理。风格化处理是指对图像或图像中的目标进行特效处理，以赋予图像或图像中的目标特定的艺术风格或视觉效果。

现有的方法基于多视点图像合成光场图像时，无法在对多视点图像进行风格化处理的同时实现光场图像较高的三维一致性，因此，采用现有方法合成的光场图像无法兼顾风格化和三维一致性。

发明内容

本发明提供一种光场图像的合成方法、装置、电子设备及存储介质，用以解决现有技术在合成光场图像时无法兼顾风格化和三维一致性的缺陷，以实现合成光场图像时能兼顾风格化和三维一致性的目的。

本发明提供一种光场图像的合成方法，包括：

获取三维场景的至少一帧二维图像；

针对各所述二维图像，将所述二维图像输入生成式对抗网络中，得到多视点风格化图像集，所述多视点风格化图像集包括与所述二维图像对应的多个不同视角的风格化图像，所述生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，所述训练集包括至少一个训练图像，所述验证集包括与所述训练图像对应的验证图像，所述验证图像为对所述训练图像进行三维一致性风格化处理后得到的；

基于各所述二维图像对应的多视点风格化图像集进行图像合成，得到所述三维场景的光场图像。

根据本发明提供的一种光场图像的合成方法，所述将所述二维图像输入生成式对抗网络中，得到多视点风格化图像集，包括：

对所述二维图像进行前景和背景的实例分割，得到所述前景对应的第一像素区域和所述背景对应的第二像素区域；

将所述第一像素区域和所述第二像素区域输入所述生成式对抗网络中，通过所述生成式对抗网络中的渲染模块对所述第一像素区域进行风格化处理，得到风格化第一像素区域；

将所述风格化第一像素区域和所述第二像素区域进行合并，生成所述风格化图像；

基于多个不同视角的所述风格化图像，得到所述多视点风格化图像集。

根据本发明提供的一种光场图像的合成方法，所述将所述风格化第一像素区域和所述第二像素区域进行合并，生成所述风格化图像，包括：

提取所述风格化第一像素区域中表征前景风格的风格信息；

将所述风格信息迁移到所述第二像素区域中，得到风格化第二像素区域；

将所述风格化第一像素区域和所述风格化第二像素区域进行合并，生成所述风格化图像。

根据本发明提供的一种光场图像的合成方法，所述基于多个不同视角的所述风格化图像，得到所述多视点风格化图像集，包括：

分别对各所述风格化图像中的像素点进行几何校正和像素级对齐处理，得到各所述风格化图像对应的一致性风格化图像；

将各所述一致性风格化图像确定为所述多视点风格化图像集中的图像。

根据本发明提供的一种光场图像的合成方法，所述生成式对抗网络为基于如下方法训练得到的：

针对各所述训练图像，将所述训练图像输入所述初始生成式对抗网络的生成器中，得到与所述训练图像对应的至少一个生成图像；

针对各所述生成图像，将所述生成图像、所述训练图像以及与所述训练图像对应的验证图像均输入所述初始生成式对抗网络的鉴别器中，得到所述生成图像对应的过拟合结果；

基于各所述训练图像对应的过拟合结果，确定所述生成器和所述鉴别器的模型参数，得到所述生成式对抗网络。

根据本发明提供的一种光场图像的合成方法，所述将所述生成图像、所述训练图像以及与所述训练图像对应的验证图像均输入所述初始生成式对抗网络的鉴别器中，得到所述生成图像对应的过拟合结果，包括：

将所述生成图像、所述训练图像以及与所述训练图像对应的验证图像均输入所述鉴别器中，通过如下的公式(1)计算得到所述生成图像对应的过拟合结果：

其中，D_train表示所述鉴别器对所述训练图像的输出，D_validation表示所述鉴别器对所述验证图像的输出，D_generated表示所述鉴别器对所述生成图像的输出，表示对应的输出在N个连续minibatch上的均值，r_v表示过拟合结果，r_v＝0表示没有过拟合，r_v＝1表示过拟合。

根据本发明提供的一种光场图像的合成方法，所述获取三维场景的至少一帧二维图像，包括：

在所述三维场景为真实三维场景的情况下，获取对所述真实三维场景进行图像采集得到的至少一帧视差图，各所述视差图为基于一组相机阵列记录不同角度的场景信息而得到的图像，将各所述视差图确定为所述二维图像；和/或，

在所述三维场景为虚拟三维场景的情况下，获取对所述虚拟三维场景进行图像采集得到的至少一帧虚拟图，各所述虚拟图为基于虚拟相机记录不同角度的场景信息而得到的图像，将各所述虚拟图确定为所述二维图像。

本发明还提供一种光场图像的合成装置，包括：

获取模块，用于获取三维场景的至少一帧二维图像；

处理模块，用于针对各所述二维图像，将所述二维图像输入生成式对抗网络中，得到多视点风格化图像集，所述多视点风格化图像集包括与所述二维图像对应的多个不同视角的风格化图像，所述生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，所述训练集包括至少一个训练图像，所述验证集包括与所述训练图像对应的验证图像，所述验证图像为对所述训练图像进行三维一致性风格化处理后得到的；

合成模块，用于基于各所述二维图像对应的多视点风格化图像集进行图像合成，得到所述三维场景的光场图像。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述光场图像的合成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述光场图像的合成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述光场图像的合成方法。

本发明提供一种光场图像的合成方法、装置、电子设备及存储介质，该方法通过获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。由于，生成式对抗网络包括生成器和鉴别器，生成器致力于生成尽可能逼真的图像，而鉴别器则努力区分真实图像和生成图像，这种竞争机制使得训练得到的生成式对抗网络能够不断优化生成的图像质量，使其与真实图像更为接近。本发明训练的生成式对抗网络是基于训练集和验证集进行训练得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的，因此，将获取的至少一帧二维图像输入训练的生成式对抗网络中，可以得到兼顾了风格化和三维一致性的多视点风格化图像集，基于该多视点风格化图像集中多个不同视角的风格化图像进行图像合成时，可以得到兼顾了风格化和三维一致性的光场图像。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的光场图像的合成方法的流程示意图；

图2是本发明实施例提供的光栅式光场显示设备的结构示意图；

图3是本发明实施例提供的光栅式光场显示设备的参数示意图；

图4是本发明实施例提供的合成光场图像的流程框图；

图5是本发明实施例提供的光场图像的合成装置的结构示意图；

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明中为描述的对象所编序号本身，例如“第一”，“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

光场通讯是一种基于光场技术的通信方式，能够传输具有三维深度感的图像和视频。通过捕捉和传输光场信息，光场通讯系统可以提供更加逼真和沉浸式的观看体验。在光场通讯中，风格化是一项重要的技术要求。例如，对人像的风格化是对图像中的人像进行艺术化处理，以赋予其特定的风格和效果。这样的处理可以增强光场通讯体验，使接收方在观看光场图像时获得更加丰富和个性化的视觉感受。

本申请的发明人发现，在光场通讯系统中实现图像风格化并保证三维一致性存在一定的困难。在多视点图像的生成和光场图像的合成过程中，若要实现风格化，需要对人像等需要风格化的目标进行目标确定、风格化处理和背景处理等步骤，并且还需要将风格化后的多视点图像进行光场图像合成，以实现在观看合成的光场图像时保持三维一致性和真实感。经过风格化处理后的多视点图像进行光场图像合成时，难以保持三维一致性，导致合成的光场图像较难兼顾风格化和三维一致性。因此，本发明旨在提供一种在光场通讯背景下实现兼顾风格化和三维一致性的光场图像合成方法。

基于此，本发明实施例提供一种光场图像的合成方法，该方法通过获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。由于，生成式对抗网络包括生成器和鉴别器，生成器致力于生成尽可能逼真的图像，而鉴别器则努力区分真实图像和生成图像，这种竞争机制使得训练得到的生成式对抗网络能够不断优化生成的图像质量，使其与真实图像更为接近。本发明训练的生成式对抗网络是基于训练集和验证集进行训练得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的，因此，将获取的至少一帧二维图像输入训练的生成式对抗网络中，可以得到兼顾了风格化和三维一致性的多视点风格化图像集，基于该多视点风格化图像集中多个不同视角的风格化图像进行图像合成时，可以得到兼顾了风格化和三维一致性的光场图像。

下面结合图1至图4对本发明实施例提供的光场图像的合成方法进行描述。图1是本发明实施例提供的光场图像的合成方法的流程示意图，本发明实施例提供的光场图像的合成方法可适用于对多种场景下的二维图像进行风格化光场图像合成，得到风格化且三维一致性较高的光场图像。本方法的执行主体可以是平板电脑、手机、计算机、服务器、服务器集群或专门设计的光场图像的合成设备等电子设备，也可以是设置在该电子设备中的光场图像的合成装置，该光场图像的合成装置可以通过软件、硬件或两者的结合来实现。如图1所示，该光场图像的合成方法包括步骤110至步骤130。

步骤110，获取三维场景的至少一帧二维图像。

在本步骤中，三维场景可以是任意形式的三维场景，例如可以是真实世界的三维场景，也可以是仿真模拟的三维场景。通过图像采集设备对三维场景进行图像采集，可以得到至少一帧二维图像，也可以通过仿真相机获取仿真模拟三维场景的二维图像。获取的二维图像可以是红绿蓝(Red Green Blue，RGB)三通道的RGB彩色图像。

步骤120，针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的。

在本步骤中，生成式对抗网络(Generative Adversarial Networks，GAN)是基于训练集和验证集对初始生成式对抗网络进行训练后得到的网络模型。

示例性的，初始生成式对抗网络包括生成器和鉴别器，生成器致力于生成尽可能逼真的图像，而鉴别器则努力区分真实图像和生成图像，这种竞争机制使得训练得到的生成式对抗网络能够不断优化生成的图像质量，使其与真实图像更为接近。训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的。

基于训练集和验证集对初始生成式对抗网络进行训练后，使得初始生成式对抗网络能学习到如何生成兼顾风格化和三维一致性的多视点风格化图像集的经验，从而可以在应用时，针对输入的单帧二维图像或多帧二维图形，能生成兼顾风格化和三维一致性的多视点风格化图像集。

其中，多视点风格化图像集可以理解为包括了多帧多视点风格化图像的图像集合，多视点风格化图像是基于输入的二维图像进行风格化处理以及多视角处理后得到的多个图像，即与该二维图像对应的多个不同视角的风格化图像。

步骤130，基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。

在本步骤中，可以通过现有的多视点图像合成的方法，将各二维图像对应的多视点风格化图像集进行图像合成，以得到三维场景的光场图像。

例如，通过加权平均法和拉普拉斯金字塔融合等像素级的融合策略实现不同视点的图像信息融合以生成光场图像。在生成光场图像时可以利用多视点图像中的角度和深度信息，重建出光场数据。可选地，可以对合成的光场图像进行图像后处理，如色调映射和对比度增强等，以提升视觉效果。具体实现时，可以根据应用场景、硬件条件和数据特性的不同而适应性确定图像合成的方式。

本发明实施例提供的光场图像的合成方法，该方法通过获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。由于，生成式对抗网络包括生成器和鉴别器，生成器致力于生成尽可能逼真的图像，而鉴别器则努力区分真实图像和生成图像，这种竞争机制使得训练得到的生成式对抗网络能够不断优化生成的图像质量，使其与真实图像更为接近。本发明训练的生成式对抗网络是基于训练集和验证集进行训练得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的，因此，将获取的至少一帧二维图像输入训练的生成式对抗网络中，可以得到兼顾了风格化和三维一致性的多视点风格化图像集，基于该多视点风格化图像集中多个不同视角的风格化图像进行图像合成时，可以得到兼顾了风格化和三维一致性的光场图像。

在实际应用中，对图像进行风格化处理时主要是对图像中的人像、动物、卡通或其他目标进行风格化，因此，为了能对目标进行快速、准确、高质量的风格化处理，可以先对二维图像进行前景和背景的实例分割，前景即需要风格化的目标，针对前景进行风格化处理，以提高图像风格化处理的效率和质量。

在一实施例中，将二维图像输入生成式对抗网络中，得到多视点风格化图像集时，具体可以通过如下方式实现：

对二维图像进行前景和背景的实例分割，得到前景对应的第一像素区域和背景对应的第二像素区域；将第一像素区域和第二像素区域输入生成式对抗网络中，通过生成式对抗网络中的渲染模块对第一像素区域进行风格化处理，得到风格化第一像素区域；将风格化第一像素区域和第二像素区域进行合并，生成风格化图像；基于多个不同视角的风格化图像，得到多视点风格化图像集。

具体地，前景可以包括人像、动物和卡通等图像中的目标对象，背景可以理解为二维图像中除前景之外的部分。将前景与背景进行准确分离，可以为后续的风格化处理提供清晰的前景掩码，更好地实现光场图像的三维一致性及风格化。

例如，可以使用实例分割网络，对图像中的前景进行准确的分割，其中，实例分割网络例如可以是训练后的YOLO系列的网络模型等。在训练实例分割网络时，通过使用已标注的数据集训练模型，将预处理后的图像输入训练好的实例分割网络进行前向推理，以获取每个像素点的分割结果。最后的后处理步骤可以进一步提升分割的准确性和质量，例如去除噪声、填充空洞和边缘平滑等后处理操作。

示例性的，可以利用图形处理器(Graphic Processing Unit，GPU)的强大并行计算能力，在拍摄二维图像后，使用VGGNet、ResNet等骨干网络提取图像特征，根据灰度、彩色、几何形状等特征把图像划分成若干个互不相交的区域，在图像中对目标检测出目标的位置和类别，然后对所选定区域位置打上标签进行实例分割，最后输出实例分割结果，即可得到第一像素区域和第二像素区域。可选地，可以充分利用GPU并行计算能力，以接近实时的速度处理大型的3D光场数据，实现实时的人像风格化和光场图像合成。

示例性的，生成式对抗网络中可以包括用于风格化处理的渲染模块，通过渲染模块可以对目标对象进行风格化处理。

以人像为前景，对风格化处理进行举例。人像风格化处理是对提取的人像区域进行风格化处理，包括但不限于色彩调整、纹理增强和特效添加等。通过对提取的人像区域进行艺术化处理，赋予其特定的风格和效果，以增强通信体验和个性化感受。风格化处理包括素描肖像风格化，卡通形象(动画)风格化，油画风格化等。其中，素描肖像风格的重点在于保持人脸的轮廓和重要五官信息，去掉无关的颜色，纹理等内容，模仿素描风格，相对比较严肃。卡通形象(动画)风格的重点在于简洁，统一的颜色和纹理风格，对五官进行适当的美化，比如对眼睛、鼻子等进行调整。油画风格的重点则在于渲染有艺术感染力的颜色和纹理，对整体内容的改变较大。风格化通常可以使用数学来描述，例如通过格拉姆矩阵(GramMatrix)表示如下：

该矩阵的定义为，n维欧氏空间中任意k个向量的内积所组成的矩阵。

示例性的，在得到风格化第一像素区域后，可以将风格化第一像素区域和第二像素区域进行合并，以生成风格化图像，进而可以基于多个不同视角的风格化图像，得到多视点风格化图像集。

在本实施例中，通过对二维图像进行前景和背景的实例分割，可以对前景的像素区域进行快速、准确、高质量的风格化处理，能提高风格化处理的效率和质量。

在实际应用中，将风格化后的前景粘贴到背景上，可以生成一张具有艺术风格的风格化图像，但此时前景和背景会存在色彩、光照等统计信息不一致的问题，导致整张风格化图像看起来不真实、不和谐。因此需要将风格化图像中第一像素区域的纹理、笔触、图案和颜色等风格信息迁移到背景对应的第二像素区域中，以使风格化图像中前景和后景各像素区域的风格保持一致。

在一实施例中，将风格化第一像素区域和第二像素区域进行合并，生成风格化图像时，具体可以通过如下方式实现：

提取风格化第一像素区域中表征前景风格的风格信息；将风格信息迁移到第二像素区域中，得到风格化第二像素区域；将风格化第一像素区域和风格化第二像素区域进行合并，生成风格化图像。

具体地，可以通过频域上的快速傅里叶变换(Fast Fourier Transform，FFT)提取风格化第一像素区域中表征前景风格的风格信息，风格信息包括但不限于纹理、笔触、图案和颜色等。

例如，可以通过包括一个双域生成器和一个双域判别器的双域风格图像和谐化网络，提取风格化第一像素区域中表征前景风格的风格信息，并将该风格信息迁移到第二像素区域中，得到风格化第二像素区域，完成对合成图片的和谐化处理，提升生成的风格化图像整体的风格化质量。

在本实施例中，通过提取风格化第一像素区域中表征前景风格的风格信息；将风格信息迁移到第二像素区域中，得到风格化第二像素区域；将风格化第一像素区域和风格化第二像素区域进行合并，生成风格化图像。基于此，可以避免仅对前景对应的第一像素区域进行风格化处理而导致的风格化图像整体的风格不统一的问题，防止将风格化第一像素区域和第二像素区域直接进行合并时，前景区域和后景区域之间的过渡区域可能出现过渡不自然的现象。因此，通过本实施例的方法可以提高风格化图像的整体风格化质量。

示例性的，为了进一步提高光场图像的三维一致性，可以对多视点风格化图像集中的各风格化图像进行像素点级别的三维位置对齐处理，以在合成光场图像前校准各像素点的位置。

在一实施例中，基于多个不同视角的风格化图像，得到多视点风格化图像集时，具体可以通过如下方式实现：

分别对各风格化图像中的像素点进行几何校正和像素级对齐处理，得到各风格化图像对应的一致性风格化图像；将各一致性风格化图像确定为多视点风格化图像集中的图像。

具体地，像素点几何校正主要是消除由于相机位置、镜头畸变等因素导致的图像几何失真。例如可以通过相机标定、畸变校正和透视变换等方式进行几何校正。

示例性的，进行像素级对齐时，可以通过特征点检测与匹配、变换模型估计以及图像重采样与对齐的方式进行对齐。例如，使用特征点检测算法，如尺度不变特征变换(ScaleInvariant Feature Transform，SIFT)、加速鲁棒特征提取(Speeded Up RobustFeatures，SURF)等，从每个视点的图像中提取特征点，并通过匹配算法找到不同图像之间的对应点。根据匹配的特征点对，设置变换模型，如仿射变换、单应性变换等，以描述不同图像之间的几何关系。应用设置的变换模型，对其中一个多视点图像进行重采样和变换，使其与另一个多视点图像在像素级别上对齐。

示例性的，从不同角度合成的风格化图像可以确定多视点风格化图像集，各多视点风格化图像的每个视角，都提供了对场景的独特观察视角，以捕捉更多的人像深度和细节信息。将不同视角下的图像进行合成，生成在光场通讯下的光场图像，并可以在光场显示器上展示出实时动态的风格化后的光场图像。

在本实施例中，基于多个不同视角的风格化图像，得到多视点风格化图像集时，分别对各风格化图像中的像素点进行几何校正和像素级对齐处理，得到各风格化图像对应的一致性风格化图像；将各一致性风格化图像确定为多视点风格化图像集中的图像。基于此，可以通过对图像进行几何校正和像素级的对齐，以确保前景和背景的各像素点在不同视角之间的一致性，消除视差和不一致的问题，能进一步提升合成的光场图像的三维一致性。

在一实施例中，生成式对抗网络为基于如下方法训练得到的：

针对各训练图像，将训练图像输入初始生成式对抗网络的生成器中，得到与训练图像对应的至少一个生成图像；针对各生成图像，将生成图像、训练图像以及与训练图像对应的验证图像均输入初始生成式对抗网络的鉴别器中，得到生成图像对应的过拟合结果；基于各训练图像对应的过拟合结果，确定生成器和鉴别器的模型参数，得到生成式对抗网络。

具体地，初始生成式对抗网络可以是高效几何感知的三维生成式对抗网络(Efficient Geometry-aware 3D，EG3D)模型。EG3D模型是一种可用于生成高质量三维图像的深度学习模型，它结合了生成式对抗网络GAN和三维几何感知技术，能够生成具有逼真细节和高度真实感的三维图像。EG3D模型的显隐混合神经网络架构包括一个以StyleGAN2为基础的特征生成器和映射网络，一个轻量级的特征解码器，一个神经渲染模块和一个可以识别位置的StyleGAN2鉴别器。其中渲染模块中的风格化处理包括色彩调整、纹理增强和特效添加等步骤，使得图像在保持深度和立体感的同时具有艺术上的吸引力和观赏性。

示例性的，在训练过程中，可以通过视差估计模块进行视差估计以得到同一物体在图像中的位置偏移。基于光场数据的视差估计旨在确定不同视角图像之间的视差值，即相邻视角下同一物体在图像中的位置偏移。这可以通过分析不同视角下物体的位移、纹理信息和亮度变化来实现，用于实现光场通讯中的位置关系的准确性。进一步地，可以通过深度图生成模块生成深度图。基于视差图，可以生成场景的深度图，即每个像素点的深度值。深度图表示场景中物体的远近关系，用于描述物体在三维空间中的位置。可选地，可以设置为较小的视差值对应于较远的物体，较大的视差值对应于较近的物体，用于确保合成三维图像的深度关系的准确性。

在一实施例中，可以将生成图像、训练图像以及与训练图像对应的验证图像均输入鉴别器中，通过如下的公式(1)计算得到生成图像对应的过拟合结果：

其中，D_train表示鉴别器对训练图像的输出，D_validation表示鉴别器对验证图像的输出，D_generated表示鉴别器对生成图像的输出，表示对应的输出在N个连续minibatch上的均值，r_v表示过拟合结果，r_v＝0表示没有过拟合，r_v＝1表示过拟合。

具体地，基于生成器和鉴别器对接收到的多视点图像进行处理，可以提高图像的三维一致性。鉴别器可以实现鉴别反馈的效果，鉴别反馈是实现光场图像较高三维一致性的关键环节。鉴别反馈旨在对多视点图像中的生成图像与真实图像进行fid计算，以保持合成的光场图像在观看时的三维一致性。得到生成图像后，将经过人像风格化处理和背景处理的图像数据进行多视点图像合成，生成具有三维一致性的光场图像。在合成过程中，需要考虑人像与背景之间的平滑过渡，保持整体图像的自然感和真实感。通过鉴别反馈器后，可以使合成的光场图像在观看时保持三维一致性，确保人像与背景的合成结果符合视觉感知和真实场景的要求。渲染图像的具体方法和算法可以根据实际应用的需求进行选择和调整，以获得最佳的处理结果。

示例性的，针对训练集、验证集和生成图像，分别用D_train、D_validation和D_generated表示训练集、验证集和生成图像的鉴别器输出，并用表示它们在N个连续minibatch上的均值。在实践应用中，可以使用N＝4，对应于4×64＝256张生成图像，通过上述的公式(1)，可以确定各生成图像对应的过拟合结果。

示例性的，基于各训练图像对应的过拟合结果，确定生成器和鉴别器的模型参数时，可以是根据过拟合结果在所有结果中占的比例，确定初始生成式对抗网络是否需要继续训练。例如，当过拟合结果在所有结果中占的比例小于阈值时，可以确定不需要继续进行训练，将此事生成器和鉴别器的模型参数确定为最终训练后的参数即可得到生成式对抗网络。

在本实施例中，针对各训练图像，将训练图像输入初始生成式对抗网络的生成器中，得到与训练图像对应的至少一个生成图像；针对各生成图像，将生成图像、训练图像以及与训练图像对应的验证图像均输入初始生成式对抗网络的鉴别器中，得到生成图像对应的过拟合结果；基于各训练图像对应的过拟合结果，确定生成器和鉴别器的模型参数，得到生成式对抗网络。基于此，可以有效训练得到生成式对抗网络，提高模型训练的效率。

在实际应用中，光场通讯的场景有些是针对真实世界的真实三维场景，有些是针对虚拟世界的虚拟三维场景，针对不同的场景可以通过不同的方式获取三维场景的至少一帧二维图像。

在一实施例中，获取三维场景的至少一帧二维图像时，具体可以通过如下方式实现：

在三维场景为真实三维场景的情况下，获取对真实三维场景进行图像采集得到的至少一帧视差图，各视差图为基于一组相机阵列记录不同角度的场景信息而得到的图像，将各视差图确定为二维图像；和/或，在三维场景为虚拟三维场景的情况下，获取对虚拟三维场景进行图像采集得到的至少一帧虚拟图，各虚拟图为基于虚拟相机记录不同角度的场景信息而得到的图像，将各虚拟图确定为二维图像。

具体地，对真实三维场景获取二维图像时，是指对现实世界中的三维场景利用一组相机阵列记录其不同角度的信息，将每个角度采集到的图像称为一幅视差图。相机阵列包括彩色相机阵列、深度相机阵列、光场相机阵列等。对虚拟三维场景获取二维图像时，是在建模软件中利用虚拟相机阵列对计算机3D模型或场景进行多角度拍摄的过程，由于虚拟相机采集没有相机尺寸的约束，因此相机间距可以无限小。建模软件包括3DS MAX、MAYA、Unity 3D、Blender等。获取二维图像的过程涉及利用多个摄像机同时记录场景中的光线传播和交互，以获取更全面、立体的数据，从而实现对场景的深度、形状和光照等方面的详尽记录。

示例性的，执行主体的电子设备可以包括图像采集模块，用于获取二维图像。例如，图像采集模块可对真实场景进行图像采集，也可对虚拟场景进行图像采集。图像采集模块为三维显示设备提供立体信息的数据来源，表现为使用一组相机阵列采集场景的多角度三维信息。

示例性的，数码相机可以是主镜头捕捉光线，聚焦在镜头后的感光平面上，再通过数码相机成像元件转化为数字图像信号。深度相机可以是一种利用红外光或其他技术实现深度感知的相机，可以通过测量光线从物体表面反射回来所需的时间来计算出物体的距离，从而实现对三维场景的深度识别。深度相机一般与数码相机配合使用。光场相机可以是一种基于光场传感器的相机，可通过同时记录一个场景中多个方向的光线信息，实现对景深、视角和焦距的后期调整，从而提高图像的灵活性和可编辑性。可选地，可选用数码相机对真实三维场景进行采集，如手机摄像头等。

在本实施例中，针对真实三维场景和虚拟三维场景，分别通过不同的方式可以获取至少一帧二维图像，以获得光场图像合成的必要素材，基于此，可以提高本发明的适用能力，扩大应用场景的范围。

示例性的，可以基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。

具体地，将经过人像风格化处理和背景处理的图像数据进行多视点图像合成，可生成三维光场图像。将经过人像风格化处理和背景处理的图像数据作为输入，这些图像数据包含了经过风格化处理的人像区域和经过背景处理的背景区域。使用光栅式光场显示设备的编码算法进行合成，最后在设备上进行显示。

图2是本发明实施例提供的光栅式光场显示设备的结构示意图，如图2所示，光栅式光场显示设备包括LCD或LED显示面板、透明垫以及圆柱形光栅。不同的视点1、视点2、视点3和视点4通过圆柱形光栅可以观察到2D LED面板上显示的信息。图3是本发明实施例提供的光栅式光场显示设备的参数示意图，如图3所示，以屏幕左上角为坐标原点(0,0)，光栅式光场显示设备的参数图3中所示。可以通过如下的公式(2)计算视点数N_kl：

其中，(k,l)为子像素索引；α为倾角；D_x为水平狭缝周期内的视点数；N_tot为总视点数；k_off为子像素左上角点到(0,0)点的水平距离。

在已知子像素索引(k,l)的情况下，可以通过倾角α、水平狭缝周期内视点数D_x、总视点数N_tot以及k_off计算得到相应的视点数N_kl。这里的V_shift值可以应用于人眼跟踪的立体显示。可选地，为改善显示效果,可以引入加权编码操作，即在一个子像素内根据不同的比例混合多个视点的信息。基于此，可以根据视角合成得到的多视点图像，生成最终的光场图像，并可以通过光栅式光场显示设备显示该光场图像，以表示场景中的光线传播和视角变化，实现三维信息显示和更丰富的观看体验。

下面，再以一个具体的实现方式对本发明的方法进行描述。图4是本发明实施例提供的合成光场图像的流程框图，如图4所示，通过一组相机阵列采集真实或虚拟的三维场景的光场信息，获取至少一帧二维图像。使用少量二维图像生成各个角度的风格化图像，以赋予图像艺术风格，即基于二维图像生成多视点风格图像集。使用GAN网络中的鉴别反馈器，通过损失函数的约束进行损失(loss)计算并反馈，让网络学习生成和谐化图片，得到风格化和三维一致性较高的多视点风格图像。最终，可以基于风格化和三维一致性更高的多视点风格图像合成光场图像。

示例性的，本方法的执行主体可以包括图像采集模块、人像分割模块、风格化处理模块、背景处理模块和多视点图像合成模块等。首先，通过图像采集模块获取至少一帧二维图像，再通过人像分割模块将二维图像中的人物与背景进行准确分离，为后续的风格化处理提供精确的区域。然后，通过风格化处理模块对人像进行风格化处理，包括色彩调整、纹理增强和特效添加，以增强图像的艺术感和个性化效果。接着，通过背景处理模块处理背景的风格化以及进行背景合成，确保合成图像的真实感和视觉一致性。最后，通过多视点图像合成模块，将风格化的人像与合成的背景进行融合，实现光场系统中观看时的三维一致性。

本发明实施例提供的光场图像的合成方法，包含一整套针对于光场风格化的分割、风格化、仿真与显示等方法，通过对三维光场中的人像风格化，可以以接近实时的速度实现人像风格化和三维图像合成。该方法在光场通信系统中能够实现高质量、实时的三维风格化效果，为光场通信系统的应用提供了一种有效的解决方案，并提供了一种新的方法思路。

举例来说，可以使用相机拍摄人像，设置均匀柔和的光照环境，在距离1.5米远的平面上摆放至少1台相机，总摆放长度为2.5米，输出单视点图像分辨率为2560×1440。利用GPU的强大并行计算能力，在拍摄人像后，将前景人物与背景的像素识别出来并作分类，进行准确分离。使用单张或少量2D单视点图像来生成各个角度的风格化图像。图像生成网络根据输入的人像和背景进行深度学习，使用GAN网络进行图像生成和图像判别，交替迭代训练生成图像，根据输入的相机位置参数，每隔10度，生成一张2D人像图片，为后续3维图像合成做准备。通过损失函数的约束，使GAN网络学习生成三维一致性的图片。基于GAN网络的鉴别反馈器，对前一步生成的多视点的2D图像进行loss值计算，并反馈到图像生成网络中，动态调整生成网络的学习策略，以获得具有三维一致性的图像。上述的鉴别反馈器即生成式对抗网络的鉴别器。将生成的三维一致的多视点2D图像按照光场合成算法合成光场图像，并在65寸柱透镜光栅三维显示器上显示，观看者在距离显示器2米距离的位置上在以显示器中心为基准左右横移距离各不超过1.25米，前后移动不超过0.5米，可以看到合成后的三维一致的光场图像。通过本发明方法能够对接收到的多视点图像进行人像风格化处理，并在多视点图像合成过程中保证生成的光场图像在观看时保持真实感和三维一致性。

下面对本发明实施例提供的光场图像的合成装置进行描述，下文描述的光场图像的合成装置与上文描述的光场图像的合成方法可相互对应参照。

图5是本发明实施例提供的光场图像的合成装置的结构示意图，参照图5所示，光场图像的合成装置500包括：

获取模块510，用于获取三维场景的至少一帧二维图像；

处理模块520，用于针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；

合成模块530，用于基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。

在一种示例实施例中，处理模块520具体用于：

对二维图像进行前景和背景的实例分割，得到前景对应的第一像素区域和背景对应的第二像素区域；

将第一像素区域和第二像素区域输入生成式对抗网络中，通过生成式对抗网络中的渲染模块对第一像素区域进行风格化处理，得到风格化第一像素区域；

将风格化第一像素区域和第二像素区域进行合并，生成风格化图像；

基于多个不同视角的风格化图像，得到多视点风格化图像集。

在一种示例实施例中，处理模块520具体用于：

提取风格化第一像素区域中表征前景风格的风格信息；

将风格信息迁移到第二像素区域中，得到风格化第二像素区域；

将风格化第一像素区域和风格化第二像素区域进行合并，生成风格化图像。

在一种示例实施例中，处理模块520具体用于：

分别对各风格化图像中的像素点进行几何校正和像素级对齐处理，得到各风格化图像对应的一致性风格化图像；

将各一致性风格化图像确定为多视点风格化图像集中的图像。

在一种示例实施例中，生成式对抗网络为基于如下方法训练得到的：

针对各训练图像，将训练图像输入初始生成式对抗网络的生成器中，得到与训练图像对应的至少一个生成图像；

针对各生成图像，将生成图像、训练图像以及与训练图像对应的验证图像均输入初始生成式对抗网络的鉴别器中，得到生成图像对应的过拟合结果；

基于各训练图像对应的过拟合结果，确定生成器和鉴别器的模型参数，得到生成式对抗网络。

在一种示例实施例中，将生成图像、训练图像以及与训练图像对应的验证图像均输入鉴别器中，通过如下的公式(1)计算得到生成图像对应的过拟合结果：

在一种示例实施例中，获取模块510具体用于：

在三维场景为真实三维场景的情况下，获取对真实三维场景进行图像采集得到的至少一帧视差图，各视差图为基于一组相机阵列记录不同角度的场景信息而得到的图像，将各视差图确定为二维图像；和/或，

在三维场景为虚拟三维场景的情况下，获取对虚拟三维场景进行图像采集得到的至少一帧虚拟图，各虚拟图为基于虚拟相机记录不同角度的场景信息而得到的图像，将各虚拟图确定为二维图像。

本实施例的装置，可以用于执行光场图像的合成方法侧实施例中任一实施例的方法，其具体实现过程与技术效果与光场图像的合成方法侧实施例中类似，具体可以参见光场图像的合成方法侧实施例中的详细介绍，此处不再赘述。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行光场图像的合成方法，该方法包括：获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的光场图像的合成方法，该方法包括：获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的光场图像的合成方法，该方法包括：获取三维场景的至少一帧二维图像；针对各二维图像，将二维图像输入生成式对抗网络中，得到多视点风格化图像集，多视点风格化图像集包括与二维图像对应的多个不同视角的风格化图像，生成式对抗网络为基于训练集和验证集对初始生成式对抗网络进行训练后得到的，训练集包括至少一个训练图像，验证集包括与训练图像对应的验证图像，验证图像为对训练图像进行三维一致性风格化处理后得到的；基于各二维图像对应的多视点风格化图像集进行图像合成，得到三维场景的光场图像。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种光场图像的合成方法，其特征在于，包括：

获取三维场景的至少一帧二维图像；

2.根据权利要求1所述的光场图像的合成方法，其特征在于，所述将所述二维图像输入生成式对抗网络中，得到多视点风格化图像集，包括：

3.根据权利要求2所述的光场图像的合成方法，其特征在于，所述将所述风格化第一像素区域和所述第二像素区域进行合并，生成所述风格化图像，包括：

提取所述风格化第一像素区域中表征前景风格的风格信息；

4.根据权利要求2所述的光场图像的合成方法，其特征在于，所述基于多个不同视角的所述风格化图像，得到所述多视点风格化图像集，包括：

5.根据权利要求1-4任一项所述的光场图像的合成方法，其特征在于，所述生成式对抗网络为基于如下方法训练得到的：

6.根据权利要求5所述的光场图像的合成方法，其特征在于，所述将所述生成图像、所述训练图像以及与所述训练图像对应的验证图像均输入所述初始生成式对抗网络的鉴别器中，得到所述生成图像对应的过拟合结果，包括：

7.根据权利要求1-4任一项所述的光场图像的合成方法，其特征在于，所述获取三维场景的至少一帧二维图像，包括：

8.一种光场图像的合成装置，其特征在于，包括：

获取模块，用于获取三维场景的至少一帧二维图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述光场图像的合成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述光场图像的合成方法。