CN116863069A

CN116863069A - 三维光场人脸内容生成方法、电子设备及存储介质

Info

Publication number: CN116863069A
Application number: CN202310677632.0A
Authority: CN
Inventors: 于迅博; 邢树军; 黄子毅; 高鑫; 陈硕; 桑新柱; 颜玢玢
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-10-10

Abstract

本发明提供一种三维光场人脸内容生成方法、电子设备及存储介质，其中三维光场人脸内容生成方法，包括：获取目标人脸图像；将目标人脸图像输入至目标三维人脸生成网络模型，确定目标人脸图像对应的目标三维人脸模型；对目标三维人脸模型进行多视角采样，并基于多视角采样结果和目标人脸图像，确定目标超分辨率人脸图像；对目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容；其中，目标三维人脸生成网络模型是基于不同视角下拍摄的不同样本人脸图像训练得到的。本发明既能准确显示三维光场人脸内容，也能够在不降低三维光场人脸内容质量的前提下满足用户对于三维光场人脸内容的显示需求。

Description

三维光场人脸内容生成方法、电子设备及存储介质

技术领域

本发明涉及人脸图像处理技术领域，尤其涉及一种三维光场人脸内容生成方法、电子设备及存储介质。

背景技术

随着计算机科学和显示技术的不断发展，三维人脸显示技术由于能够给人一种身临其境的感觉，成为了目前显示领域最前沿、最热门的高新技术，并且为了提高三维人脸显示的多样性和丰富性，也可以将三维人脸图像在光场中显示。因此，如何生成能在光场中显示的三维光场人脸内容就显得尤为重要。

相关技术中，通常是先使用大量不同视角的光场相机采集大量的人脸图像，再针对采集的大量人脸图像输入光场后进行三维光场人脸内容显示。

然而，当光场相机的数量有限时，只能采集个别视角下的人脸图像，将稀疏视角下采集的人脸图像输入光场后，既不能显示准确的三维光场人脸内容，也不能满足用户对于三维光场人脸内容的显示需求。

发明内容

本发明提供一种三维光场人脸内容生成方法、电子设备及存储介质，用以解决现有技术中将稀疏视角采集的人脸图像输入光场后，既不能显示准确的三维光场人脸内容，也不能满足用户对于三维光场人脸内容的显示需求的缺陷，通过针对稀疏视角采集的人脸图像先生成三维人脸模型、再对三维人脸模型进行多视角采集、后对基于多视角采集结果和人脸图像确定的超分辨率图像进行三维光场图像编码的方式的方式，不仅实现了在采集设备有限时也能够获取到多视角人脸图像的目的，大幅降低了多视角采集人脸图像的难度和设备复杂度，而且也能准确显示三维光场人脸内容，从而能够在不降低三维光场人脸内容质量的前提下满足用户对于三维光场人脸内容的显示需求。

本发明提供一种三维光场人脸内容生成方法，包括：

获取目标人脸图像；

将所述目标人脸图像输入至目标三维人脸生成网络模型，确定所述目标人脸图像对应的目标三维人脸模型；

对所述目标三维人脸模型进行多视角采样，并基于多视角采样结果和所述目标人脸图像，确定目标超分辨率人脸图像；

对所述目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容；

其中，所述目标三维人脸生成网络模型是基于不同视角下拍摄的不同样本人脸图像训练得到的。

根据本发明提供的一种三维光场人脸内容生成方法，所述目标三维人脸生成网络模型包括目标三维处理网络和目标体渲染神经网络，所述将所述目标人脸图像输入至目标三维人脸生成网络模型，确定所述目标人脸图像对应的目标三维人脸模型，包括：

将所述目标人脸图像输入至所述目标三维处理网络，确定所述目标人脸图像对应的目标三维表达结果；

将所述目标三维表达结果输入至所述目标体渲染神经网络，确定所述目标三维人脸模型。

根据本发明提供的一种三维光场人脸内容生成方法，所述目标三维处理网络包括目标StyleGAN生成器网络和目标三维表达网络，所述将所述目标人脸图像输入至所述目标三维处理网络，确定所述目标人脸图像对应的目标三维表达结果，包括：

将所述目标人脸图像输入至所述目标StyleGAN生成器网络，确定所述目标人脸图像的目标人脸特征图和目标视角信息；

将所述目标人脸特征图和所述目标视角信息输入至所述目标三维表达网络，确定所述目标人脸图像对应的目标三维表达结果。

根据本发明提供的一种三维光场人脸内容生成方法，所述对所述目标三维人脸模型进行多视角采样，并基于多视角采样结果和所述目标人脸图像，确定目标超分辨率人脸图像，包括：

对所述目标三维人脸模型进行多视角采样，确定多个目标低分辨率人脸图像；

基于预设人脸先验信息和所述目标人脸图像，对所述多个目标低分辨率人脸图像分别进行人脸特征提取；

基于人脸特征提取结果，生成所述目标超分辨率人脸图像。

根据本发明提供的一种三维光场人脸内容生成方法，所述方法还包括：

将所述目标三维光场人脸内容发送至光场显示设备，所述光场显示设备用于基于预设分辨率、预设视角和预设显示模式显示所述目标三维光场人脸内容。

根据本发明提供的一种三维光场人脸内容生成方法，所述目标三维人脸生成网络模型的训练过程包括：

获取样本人脸图像集，所述样本人脸图像集包括不同视角下拍摄的不同样本人脸图像；

基于所述样本人脸图像集，对初始三维人脸生成网络模型进行训练，确定所述目标三维人脸生成网络模型；

其中，所述初始三维人脸生成网络模型包括初始StyleGAN生成器网络、初始三维表达网络、初始体渲染神经网络、噪声添加网络和鉴别器网络。

根据本发明提供的一种三维光场人脸内容生成方法，所述基于所述样本人脸图像集，对初始三维人脸生成网络模型进行训练，确定所述目标三维人脸生成网络模型，包括：

使用所述样本人脸图像集，对所述初始三维人脸生成网络模型进行训练，获取预设次数训练后的中间三维人脸生成网络模型的模型损失；

基于所述模型损失与预设模型损失的匹配成功结果，确定所述目标三维人脸生成网络模型。

根据本发明提供的一种三维光场人脸内容生成方法，所述使用所述样本人脸图像集，对所述初始三维人脸生成网络模型进行训练，获取预设次数训练后的中间三维人脸生成网络模型的模型损失，包括：

针对每次训练，将对应样本人脸图像输入至前次训练后的中间StyleGAN生成器网络中，确定所述对应样本人脸图像的样本人脸特征图和样本视角信息；

将所述样本人脸特征图和所述样本视角信息输入至前次训练后的中间三维表达网络中，确定所述对应样本人脸图像的样本三维表达结果；

将所述样本三维表达结果输入至前次训练后的中间体渲染神经网络中，确定与所述对应样本人脸图像对应的样本三维人脸模型；

将所述对应样本人脸图像输入至噪声添加网络中，确定样本加噪人脸图像；

将所述对应样本人脸图像和所述样本加噪人脸图像输入至鉴别器网络中，并基于所述鉴别器网络输出的鉴别结果和所述样本三维人脸模型，确定本次训练后的中间三维人脸生成网络模型的模型损失。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述三维光场人脸内容生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述三维光场人脸内容生成方法。

本发明提供的三维光场人脸内容生成方法、电子设备及存储介质，其中三维光场人脸内容生成方法，其中三维光场人脸内容生成方法，电子设备首先将获取的目标人脸图像入至目标三维人脸生成网络模型，确定目标人脸图像对应的目标三维人脸模型；再对目标三维人脸模型进行多视角采样，并基于多视角采样结果和所述目标人脸图像，确定目标超分辨率人脸图像；然后，对目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容。由于，目标三维人脸生成网络模型是基于不同视角下拍摄的不同样本人脸图像训练得到的，因此通过针对稀疏视角采集的人脸图像先生成三维人脸模型、再对三维人脸模型进行多视角采集、后对基于多视角采集结果和人脸图像确定的超分辨率图像进行三维光场图像编码的方式的方式，不仅实现了在采集设备有限时也能够获取到多视角人脸图像的目的，大幅降低了多视角采集人脸图像的难度和设备复杂度，而且也能准确显示三维光场人脸内容，从而能够在不降低三维光场人脸内容质量的前提下满足用户对于三维光场人脸内容的显示需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的三维光场人脸内容生成方法的流程示意图；

图2是本发明提供的体渲染过程示意图；

图3是本发明提供的三维光场人脸内容生成装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着计算机科学和显示技术的不断发展，三维人脸显示技术由于能够给人一种身临其境的感觉，成为了目前显示领域最前沿、最热门的高新技术，并且为了提高三维人脸显示的多样性和丰富性，也可以将三维人脸图像在光场中显示。此时，三维光场人脸内容的生成成为了一个关键问题。一般的采样方式需要较为密集的采集设备(比如需要大量不同视角的光场相机)，因而存在多视角采样困难大、设备复杂，所需存储空间大的问题。

然而，当光场相机的数量有限时，只能采集个别视角下的人脸图像，将稀疏视角下采集的人脸图像输入光场后，既不能显示准确的三维光场人脸内容，也不能满足用户对于三维光场人脸内容的显示需求，三维光场人脸内容显示效果不佳。

为解决上述技术问题，本发明提供一种三维光场人脸内容生成方法、电子设备及存储介质。下面结合图1-图4描述本发明的本发明提供的三维光场人脸内容生成方法、电子设备及存储介质，其中三维光场人脸内容生成方法的执行主体可以为电子设备，电子设备可以为个人计算机(Personal Computer，PC)、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它设备。本发明对电子设备的具体形式不作限定。

需要说明的是，下述方法实施例的执行主体可以是上述电子设备的部分或者全部。并且，下述方法实施例以执行主体为电子设备为例进行说明。

图1为本发明提供的三维光场人脸内容生成方法的流程示意图，如图1所示，该三维光场人脸内容生成方法，包括以下步骤：

步骤110、获取目标人脸图像。

其中，目标人脸图像可以为清楚显示脸颊、额头、眉毛、嘴巴、眼睛和鼻子的高分辨率人脸图像。

具体的，电子设备获取目标人脸图像，可以先指示人脸图像采集设备启动人脸图像采集、后接收人脸图像采集设备反馈的方式获取目标人脸图像。此处的人脸图像采集设备可以为能够采集指定视角下人脸图像的设备，比如光场相机或摄像头等。

需要说明的是，电子设备获取目标人脸图像，还可以从预先存储的人脸图像集或者云端数据库中选取目标人脸图像。此处对电子设备获取目标人脸图像的方式不作具体限定。

步骤120、将目标人脸图像输入至目标三维人脸生成网络模型，确定目标人脸图像对应的目标三维人脸模型。

其中，目标三维人脸生成网络模型是基于不同视角下拍摄的不同样本人脸图像训练得到的。

具体的，为了在目标人脸图像数量稀疏的情况下获取目标三维光场人脸内容，本发明通过预先训练好的目标三维人脸生成网络模型确定与目标人脸图像对应的目标三维人脸模型，以便于后续通过多视角采样此目标三维人脸模型的方式能获取大量不同视角下的人脸图像，以此解决现有需要使用大量不同视角的光场相机采集人脸图像所导致的多视角采样困难大、设备复杂高以及所需存储空间大的问题。

步骤130、对目标三维人脸模型进行多视角采样，并基于多视角采样结果和目标人脸图像，确定目标超分辨率人脸图像。

具体的，电子设备可以按照预先设定的视角采样数，对目标三维人脸模型进行多视角采样，此处视角采样数可以为60个以上；相应的，多视角采样结果可以为60个以上不同视角下的人脸图像。

由于多视角采样所得的人脸图像很大程度上为低分辨率图像，很难提取到面部轮廓、眼睛和嘴唇等其它有效的人脸特征，因此，此处可以结合目标人脸图像这一高分辨率人脸图像和多视角采样所得的多个低分辨率人脸图像进行对比学习，以提取到全面且丰富的有效人脸特征，从而基于提取的有效人脸特征生成目标超分辨率人脸图像。

步骤140、对目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容。

其中，三维光场图像编码的作用是生成适用于三维显示的光场编码人脸图像。

具体的，电子设备对目标超分辨率人脸图像进行三维光场图像编码，可以根据三维显示设备对视角数量的要求，生成相应数量的视角图像，并从生成的各视角图像中分别提取特定像素，然后按照三维显示设备预先存储的像素排列方式排列各特定像素，从而生成目标三维光场人脸内容。

本发明提供的三维光场人脸内容生成方法，电子设备首先将获取的目标人脸图像入至目标三维人脸生成网络模型，确定目标人脸图像对应的目标三维人脸模型；再对目标三维人脸模型进行多视角采样，并基于多视角采样结果和所述目标人脸图像，确定目标超分辨率人脸图像；然后，对目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容。由于，目标三维人脸生成网络模型是基于不同视角下拍摄的不同样本人脸图像训练得到的，因此通过针对稀疏视角采集的人脸图像先生成三维人脸模型、再对三维人脸模型进行多视角采集、后对基于多视角采集结果和人脸图像确定的超分辨率图像进行三维光场图像编码的方式的方式，不仅实现了在采集设备有限时也能够获取到多视角人脸图像的目的，大幅降低了多视角采集人脸图像的难度和设备复杂度，而且也能准确显示三维光场人脸内容，从而能够在不降低三维光场人脸内容质量的前提下满足用户对于三维光场人脸内容的显示需求。

可以理解的是，在目标三维人脸生成网络模型包括目标三维处理网络和目标体渲染神经网络的情况下，步骤120的具体实现过程可以包括：

首先，将目标人脸图像输入至目标三维处理网络，确定目标人脸图像对应的目标三维表达结果；再进一步将目标三维表达结果输入至目标体渲染神经网络，确定目标三维人脸模型。

具体的，电子设备针对获取的目标人脸图像，可以将此目标人脸图像输入至目标三维处理网络中，此目标三维处理网络可以用于对目标人脸图像中脸颊、额头、眉毛、嘴巴、眼睛和鼻子等其它高分辨率人脸特征进行三维表达，以此得到目标人脸图像对应的目标三维表达结果。此时，电子设备再将此目标三维表达结果输入至目标体渲染神经网络中进行体渲染，从而得到目标三维人脸模型。

需要说明的是，渲染可以说是图形学中的核心，计算机图形学的目的是让电子设备模拟出一个真实的世界，渲染是将此虚拟出来的世界投影成图像。体渲染是渲染的一种实现方式。

参照图2所示的体渲染过程示意图，目标体渲染神经网络的体渲染方式可以对单根光线建模，当光线与其他物体发生碰撞时，会发生以下几种情况：吸收、放射、外散射、内散射；其中吸收指的是光子被粒子吸收，会导致入射光的辐射强度减弱；放射指的是物体本身可能发光，进一步增大辐射强度；外散射指的是光子在撞击到粒子后，可能会发生弹射，导致方向发生偏移，会减弱入射光强度；内散射指的是其他方向的光子在撞到粒子后，可能和当前方向上的光子重合，从而增强当前光路上的辐射强度。本发明在目标体渲染神经网络中对这几种情况都做了数学上的建模。

本发明提供的三维光场人脸内容生成方法，电子设备通过将目标人脸图像依次输入至目标三维处理网络和目标体渲染神经网络的方式，确定目标人脸图像对应的目标三维人脸模型，以此实现二维人脸图像到三维人脸模型的转换目的，避免了现有需要使用大量不同视角的光场相机采集人脸图像所导致的多视角采样困难大、设备复杂高以及所需存储空间大的问题，从而为后续电子设备确定多视角人脸图像提供充分依据。

可以理解的是，在目标三维处理网络包括目标StyleGAN生成器网络和目标三维表达网络的情况下，将目标人脸图像输入至目标三维处理网络，确定目标人脸图像对应的目标三维表达结果，其具体实现过程可以包括：

首先，将目标人脸图像输入至目标StyleGAN生成器网络，确定目标人脸图像的目标人脸特征图和目标视角信息；再进一步将目标人脸特征图和目标视角信息输入至目标三维表达网络，确定目标人脸图像对应的目标三维表达结果。

具体的，电子设备针对获取的目标人脸图像，可以将此目标人脸图像输入至目标StyleGAN生成器网络中，此目标StyleGAN生成器网络可以用于对目标人脸图像进行特征提取和视角估计，以此得到目标人脸图像的目标人脸特征图和目标视角信息；此时，再将目标人脸特征图和目标视角信息输入至目标三维表达网络中，此目标三维表达网络可以用于基于目标视角信息对目标人脸特征图进行三维表达。以此确定目标人脸图像对应的目标三维表达结果。

需要说明的是，目标StyleGAN生成器网络可以包括目标映射网络和目标位置判断网络，目标映射网络可以用于对目标人脸图像进行特征提取，以此得到目标人脸图像的目标人脸特征图；目标位置判断网络可以用于对目标人脸图像的采集视角进行估计，以此得到目标人脸图像的目标视角信息。

此外还需要说明的是，目标三维表达网络可以将目标人脸特征图这一特征向量进行三维编码，此处的三维编码方法可以使用tri-plane方法，tri-plane方法可以将特征向量表达为三个维度并建立立体坐标系后，再将特征向量中每个值在xOy、yOz、xOz三个平面上的投影来表达一个位置。之后再经过一个单层网络，以此方式得到颜色(RGB)和体密度，此处的RGB包括红色(Red，R)、绿色(Green，G)和蓝色(Blue，B)。之后将目标三维表达结果输入目标体渲染神经网络即可得到所对应的目标三维人脸模型。此外，三维编码方法还可以使用MVSNeRF方法和Mip-NeRF方法等其它处理方法，MVSNeRF方法可以通过更稀疏的视角对三维场景进行重建，符合目标三维表达网络需求。

本发明提供的三维光场人脸内容生成方法，电子设备通过将目标人脸图像依次输入至目标StyleGAN生成器网络、目标三维表达网络和目标三维表达网络的方式，确定目标人脸图像对应的目标三维人脸模型。以此结合目标视角信息对目标人脸特征图进行三维表达能够有效提高目标三维表达结果的准确性和可靠性。

可以理解的是，步骤130的具体实现过程可以包括：

首先，对目标三维人脸模型进行多视角采样，确定多个目标低分辨率人脸图像；再进一步基于预设人脸先验信息和目标人脸图像，对多个目标低分辨率人脸图像分别进行人脸特征提取；然后，基于人脸特征提取结果，生成目标超分辨率人脸图像。

其中，预设人脸先验信息可以包括但不限定面部轮廓、眼镜和嘴唇等有效的人脸特征信息。

具体的，电子设备对目标三维人脸模型进行多视角采样后，可以得到多个目标低分辨率人脸图像，再将此多个目标低分辨率人脸图像、预先人脸先验信息以及目标人脸图像输入至基于先验的光场超分辨率增强网络中，基于先验的光场超分辨率增强网络可以用于基于预设人脸先验信息从多个目标低分辨率人脸图像中提取人脸特征，并通过对目标人脸图像和每个目标低分辨率人脸图像进行对比学习的方式对从对应目标低分辨率图像中提取的人脸特征进行信息补充和图像增强后生成目标超分辨率人脸图像。以此实现基于人脸特征提取结果，生成目标超分辨率人脸图像的目的。

需要说明的是，光场超分辨率技术是一种可以在摄像头的成像面上捕获到比传统方法更高分辨率图像的新兴技术，且可以在不增加硬件成本和功耗的情况下提高图像质量。光场超分辨率技术的基本思想是通过使用特定的算法和数学模型，将多个低分辨率图像合成为一个高分辨率图像，光场超分辨率技术的原理类似于超分辨率图像重建技术，但是它使用了一种新型的成像技术，即光场成像技术，该技术可以捕获到更多的图像信息。

光场成像技术是一种将三维物体的所有信息都捕获下来的成像技术；传统的成像技术只能捕获到物体的二维信息，而光场成像技术可以捕获到每个像素点的方向和位置信息；通过这种技术可以获取到更多的图像信息，从而为超分辨率提供了更多的数据支持。

基于此，本发明使用基于先验的光场超分辨率增强网络生成目标超分辨率人脸图像，此处基于先验的光场超分辨率增强网络含有一种基于人脸先验知识的超分辨率增强算法，该基于人脸先验知识的超分辨率增强算法通过对人脸特征的分析和提取，将超分辨率问题转化为一个更加简单的问题。该基于先验的光场超分辨率增强网络可以通过对目标人脸图像这一高分辨率人脸图像和对应的目标低分辨率人脸图像进行对比学习，提高生成高质量超分辨率图像的能力。

需要说明的是，基于先验的光场超分辨率增强网络的关键在于如何从人脸特征中提取有效信息。一些研究人员提出了一些有效的特征，例如面部轮廓、眼睛、嘴唇等，这些特征对人脸识别和超分辨率都非常重要。此外，该基于先验的光场超分辨率增强网络还可以通过机器学习方法，例如深度学习、卷积神经网络等，自动地学习有效的特征，并用于生成高质量超分辨率图像。

还需要说明的是，基于先验的光场超分辨率增强网络在实际应用中非常有用。例如，在视频监控系统中，低分辨率图像是一个普遍的问题，因此需要将低分辨率图像转化为高分辨率图像，以提高识别的准确率。在人脸识别和图像增强等领域中，基于先验的光场超分辨率增强网络也有广泛的应用。通过使用基于先验的光场超分辨率增强网络，可以获得更加清晰、细节更加丰富的图像，提高图像的质量和分辨率。近年来，随着深度学习算法的快速发展，光场超分辨率技术得到了进一步的发展。人们可以使用卷积神经网络和其他深度学习算法来学习和提取图像中的特征，从而提高超分辨率的准确性和效率，基于人脸先验的超分辨率模块可以有效提高运算速率和质量。

本发明提供的三维光场人脸内容生成方法，电子设备通过基于预设人脸先验信息和目标人脸图像信息，对多视角采样所得的多个目标低分辨率人脸图像分别进行人脸特征提取的方式，实现基于人脸特征提取结果生成更加图像质量更加清晰、图像细节更加丰富的目标超分辨率人脸图像，从而为后续生成可靠且准确的目标三维光场人脸内容提供可靠保障。

可以理解的是，本发明提供的三维光场人脸内容生成方法还可以包括：

将目标三维光场人脸内容发送至光场显示设备，光场显示设备用于基于预设分辨率、预设视角和预设显示模式显示目标三维光场人脸内容。

具体的，当光场显示设备具体为光栅三维(Three Dimensions，3D)显示器时，光栅3D显示器可以基于预设分辨率、预设视角和预设显示模式，将目标三维光场人脸内容显示在光栅3D显示器中的二维(Two Dimensions，2D)显示面板上，通过光栅的控光作用，目标三维光场人脸内容中像素发出的光线会在空间中形成不同的视点显示区域，观看者左、右眼处在不同视角区域内时，将看到具有立体效果的图像。当光场显示设备为集成成像3D显示器时，三维光场图像编码的方法可以采用二次拍摄法、多层合成法、视点合成法和反向追踪合成法中的其中一个。此处不作具体限定。

本发明提供的三维光场人脸内容生成方法，电子设备通过指示光场显示设备基于预设分辨率、预设视角和预设显示模式显示目标三维光场人脸内的方式，提高了显示目标三维光场人脸内容的效果，从而确保在不降低三维光场人脸内容质量的前提下满足用户对于三维光场人脸内容的显示需求。

可以理解的是，目标三维人脸生成网络模型的训练过程具体包括：

首先，获取样本人脸图像集，样本人脸图像集包括不同视角下拍摄的不同样本人脸图像；再进一步基于样本人脸图像集，对初始三维人脸生成网络模型进行训练，确定目标三维人脸生成网络模型。

其中，初始三维人脸生成网络模型包括初始StyleGAN生成器网络、初始三维表达网络、初始体渲染神经网络、噪声添加网络和鉴别器网络。并且，样本人脸图像集中可以含有少量样本人脸图像，比如样本人脸图像的数量可以为3～5个；每个样本人脸图像均可以为清楚显示脸颊、额头、眉毛、嘴巴、眼睛和鼻子的高分辨率人脸图像。

具体的，电子设备获取样本人脸图像集，可以基于预设数量需求指示对应人脸图像采集设备启动人脸图像采集，并分别接收对应人脸图像反馈的方式获取样本人脸图像集。比如，当预设数量需求为3时，可以启动3个不同视角的人脸图像采集设备获取含有3个样本人脸图像的样本人脸图像集；当预设数量需求为5时，可以启动5个不同视角的人脸图像采集设备获取含有5个样本人脸图像的样本人脸图像集；此处不作具体限定。每个人脸图像采集设备可以为能够采集指定视角下人脸图像的设备，比如光场相机或摄像头等。

需要说明的是，电子设备获取样本人脸图像集，还可以从预先存储的人脸图像集或者云端数据库中选取不同视角下拍摄的不同样本人脸图像。此处对电子设备获取样本人脸图像集的方式不作具体限定。

此外，需要说明的是，初始三维人脸生成网络模型包括初始StyleGAN生成器网络、初始三维表达网络、噪声添加网络和鉴别器网络，初始StyleGAN生成器网络由初始映射网络和初始位置判断网络串联组成；基于样本人脸图像集对初始三维人脸生成网络模型进行训练，比如可以设定训练轮数，通过样本人脸图像集对初始三维人脸生成网络模型进行设定训练轮数的训练后，可以将当前训练后的输出图像发送至客户端，以通过客户端对应用户确定输出图像的清晰度是否满足实际需求。

当电子设备接收到客户端反馈的包括当前图像的图像清晰度符合要求的第一反馈信息时停止训练，可以基于输出图像对应的人脸生成网络模型确定目标三维人脸生成网络模型；反之，当电子设备接收到客户端反馈的包括当前图像的图像清晰图不符合要求和训练轮数调整数值的第二反馈信息时，可以对样本人脸图像集中的样本人脸图像顺序进行调整，将输出图像对应的人脸生成网络模型作为新的人脸生成网络模型，然后再根据调整后的样本人脸图像集和训练轮数调整数值对新的人脸生成网络模型进行训练轮数调整数值的轮数训练；直至接收到客户端反馈的第一反馈信息时停止训练，并基于训练停止时训练好的目标StyleGAN生成器网络、目标三维表达网络和目标体渲染神经网络确定目标三维人脸生成网络模型，也即目标三维人脸生成网络模型包括依次串联的目标StyleGAN生成器网络、目标三维表达网络和目标体渲染神经网络。

本发明提供的三维光场人脸内容生成方法，电子设备通过样本人脸图像集对含有初始StyleGAN生成器网络、初始三维表达网络、初始体渲染神经网络、噪声添加网络和鉴别器网络的初始三维人脸生成网络模型进行训练的方式，确定目标三维人脸生成网络模型，以此实现根据样本人脸图像集训练初始三维人脸生成网络模型的目的，提高了训练过程的稳定性和可靠性。

可以理解的是，基于样本人脸图像集，对初始三维人脸生成网络模型进行训练，确定目标三维人脸生成网络模型，其具体过程可以包括：

首先，使用样本人脸图像集，对初始三维人脸生成网络模型进行训练，获取预设次数训练后的中间三维人脸生成网络模型的模型损失；再进一步基于预设次数训练后的中间三维人脸生成网络模型的模型损失与预设模型损失的匹配成功结果，确定目标三维人脸生成网络模型。

具体的，电子设备根据样本人脸图像集对初始三维人脸生成网络模型进行训练，可以是根据样本人脸图像集对初始三维人脸生成网络模型进行预设次数的迭代训练，以得到经过预设次数的迭代训练后的中间三维人脸生成网络模型以及中间三维人脸生成网络模型的模型损失。其中，中间神经网络可以包括对初始三维人脸生成网络模型进行预设次数的迭代训练后的网络模型。此时，电子设备将中间三维人脸生成网络模型的模型损失与预设模型损失进行匹配且匹配成功时，则停止训练，并基于停止训练时对应的中间三维人脸生成网络模型确定目标三维人脸生成网络模型。

需要说明的是，电子设备确定该中间三维人脸生成网络模型的模型损失与预设模型损失匹配失败时，可以对样本人脸图像集中的样本人脸图像顺序进行调整，和/或对预设训练次数进行调整，并根据调整后的样本人脸图像集和/或调整后的训练次数，将匹配失败时对应的中间三维人脸生成网络模型作为新的初始三维人脸生成网络模型进行训练；直至得到目标三维人脸生成网络模型。

本发明提供的三维光场人脸内容生成方法，电子设备通过根据样本人脸图像集对初始三维人脸生成网络模型进行预设次数训练后得到的中间三维人脸生成网络模型的模型损失，基于中间三维人脸生成网络模型确定目标三维人脸生成网络模型。以此提高了训练网络模型准确性，同时也提高了目标三维人脸生成网络模型的可靠性。

可以理解的是，使用样本人脸图像集，对初始三维人脸生成网络模型进行训练，获取预设次数训练后的中间三维人脸生成网络模型的模型损失，其具体实现过程可以包括：

针对每次训练，将对应样本人脸图像输入至前次训练后的中间StyleGAN生成器网络中，确定对应样本人脸图像的样本人脸特征图和样本视角信息；进一步的，将样本人脸特征图和样本视角信息输入至前次训练后的中间三维表达网络中，确定对应样本人脸图像的样本三维表达结果；再将样本三维表达结果输入至前次训练后的中间体渲染神经网络中，确定与对应样本人脸图像对应的样本三维人脸模型；然后，将对应样本人脸图像输入至噪声添加网络中，确定样本加噪人脸图像；最后，将对应样本人脸图像和样本加噪人脸图像输入至鉴别器网络中，并基于鉴别器网络输出的鉴别结果和样本三维人脸模型，确定本次训练后的中间三维人脸生成网络模型的模型损失。

具体的，针对每次训练，将对应样本人脸图像输入至前次训练后的中间StyleGAN生成器网络中进行特征提取以及针对此对应样本人脸图像进行采集视角估计，从而得到此对应样本人脸图像的样本人脸特征图和样本视角信息；将样本人脸特征图和样本视角信息输入至前次训练后的中间三维表达网络中，以便于基于样本视角信息对样本人脸特征图进行三维表达，从而得到样本三维表达结果；将样本三维表达结果输入至前次训练后的中间体渲染神经网络中进行体渲染，得到样本三维人脸模型；此处的体渲染过程可以基于instant-ngp算法进行多分辨率哈希编码，以此加速体渲染的过程。

进一步的，将对应样本人脸图像输入至噪声添加网络中进行高斯白噪声的添加操作，确定样本加噪人脸图像；此处添加高斯白噪声的目的是为了降低生成的样本加噪人脸图像的人脸细节，如发丝等部分的复杂度，以便于后期处理；将对应样本人脸图像和样本加噪人脸图像输入至鉴别器网络中进行鉴别，并基于鉴别器网络输出的鉴别结果和样本三维人脸模型，确定本次训练后的中间三维人脸生成网络模型的模型损失，比如基于对应样本人脸图像和样本加噪人脸图像之间的差异度以及样本三维人脸模型的清晰度计算本次训练后的中间三维人脸生成网络模型的模型损失。

需要说明的是，由于现有的StyleGAN生成器网络是NVIDIA提出的生成网络，可以用于对输入的两张或多张图像的特征进行融合。在前人工作基础上，StyleGAN生成器网络可以通过分别修改每一层级的输入，在不影响其他层级的情况下，来控制该层级所表示的视觉特征，这些特征可分为粗特征(如姿势、脸型等)和细特征(如瞳色、发色等)。其一般流程为：

1、先将一组随机生成的遵从高斯分布的随机向量进行正则化，随后输入映射网络，得到一组新的权重向量。映射网络的目的是将随机向量转化为有意义的向量，用于表示训练数据的普遍规律，例如用在人脸的生成中就可以表示训练数据中普遍为长发还是短发，肤色普遍为白色、黑色还是黄色；此处新的权重向量则可以分别表示粗特征(如姿势、脸型等)和细特征(如瞳色、发色等)；此处的映射网络一般是由8层全连接层所组成，特征向量和权重向量一般为1*512的数组。

2、然后进行图像的合成，首先形成4*4*512的矩阵，4*4代表图像像素，512代表权重向量各个维度对这个图像每个像素的影响，这里将粗特征的权重调大后对该矩阵进行卷积，然后转为维度为4*4*3的RGB图像；随后通过上采样的方式，得到8*8的矩阵和图像，并随之降低粗特征的权重，提高细特征的权重，并进行卷积操作，如此下去不断进行直到图像达到预想的分辨率。

3、将生成图像输入鉴别器中，与训练数据进行对比，并随之更新映射网络，经过不断地迭代优化后即可得到风格融合后的图像。

还需要说明的是，本发明在现有的StyleGAN生成器网络基础上，通过在StyleGAN生成器网络和鉴别器网络之间添加体渲染神经网络和噪声添加网络的方式，构建初始三维人脸生成网络模型；以便于经过训练确定能够生成单张人脸图像的三维光场人脸内容的目的。

还需要说明的是，在实际应用中，有多种处理方式可以加速训练并提高图像质量。例如，NVIDIA提出通过降低输出分辨率来减少训练时间，以及使用超分辨率模块加速低分辨率图像的处理。新加坡国立大学则采用对低分辨率图像加入噪声的方法，以使学习到的图像特征更自然，并通过超分辨率模块对采样后的多视角图像进行处理。这种方法不仅减少了超分辨率模块的使用，而且提高了图像的质量，同时缩短了训练时间。基于此，本发明进行的操作是对低分辨率人脸图像加入噪声，这样的目的是为了让网络模型学习到的细节图像特征变得模糊，让图像看起来更自然。同时与加入噪声前的图像进行联和，保证网络学习的质量。这里因为噪声是对每个像素单独进行处理，所以不会完全改变加噪后图像。这里因为没有了每次迭代都要使用的光场超分辨率增强网络，所以对比其他方法能够使训练时间得到缩减。同时为了保证最终输出图像的质量，不仅通过添加噪声的方式对样本人脸图像进行了处理，后续又设置了光场超分辨率增强网络对采样后的多视角人脸图像进行了处理。

下面对本发明提供的三维光场人脸内容生成装置进行描述，下文描述的三维光场人脸内容生成装置与上文描述的三维光场人脸内容生成方法可相互对应参照。

参照图3，为本发明提供的三维光场人脸内容生成装置的结构示意图，如图3所示，该三维光场人脸内容生成装置300，可以包括：

人脸图像获取单元310，用于获取目标人脸图像；

人脸模型确定单元320，用于将目标人脸图像输入至目标三维人脸生成网络模型，确定目标人脸图像对应的目标三维人脸模型；

超分辨图像确定单元330，用于对目标三维人脸模型进行多视角采样，并基于多视角采样结果和目标人脸图像，确定目标超分辨率人脸图像；

人脸内容生成单元340，用于对目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容；

可以理解的是，人脸模型确定单元320，具体可以用于将目标人脸图像输入至目标三维处理网络，确定目标人脸图像对应的目标三维表达结果；将目标三维表达结果输入至目标体渲染神经网络，确定目标三维人脸模型。

可以理解的是，人脸模型确定单元320，具体还可以用于将目标人脸图像输入至目标StyleGAN生成器网络，确定目标人脸图像的目标人脸特征图和目标视角信息；将目标人脸特征图和目标视角信息输入至目标三维表达网络，确定目标人脸图像对应的目标三维表达结果。

可以理解的是，超分辨图像确定单元330，具体可以用于对目标三维人脸模型进行多视角采样，确定多个目标低分辨率人脸图像；基于预设人脸先验信息和目标人脸图像，对多个目标低分辨率人脸图像分别进行人脸特征提取；基于人脸特征提取结果，生成目标超分辨率人脸图像。

可以理解的是，本发明提供的三维光场人脸内容生成装置还可以包括内容显示单元，用于将目标三维光场人脸内容发送至光场显示设备，光场显示设备用于基于预设分辨率、预设视角和预设显示模式显示目标三维光场人脸内容。

可以理解的是，本发明提供的三维光场人脸内容生成装置还可以包括模型训练单元，用于获取样本人脸图像集，样本人脸图像集包括不同视角下拍摄的不同样本人脸图像；基于样本人脸图像集，对初始三维人脸生成网络模型进行训练，确定目标三维人脸生成网络模型；其中，初始三维人脸生成网络模型包括初始StyleGAN生成器网络、初始三维表达网络、初始体渲染神经网络、噪声添加网络和鉴别器网络。

可以理解的是，模型训练单元，具体还可以用于使用样本人脸图像集，对初始三维人脸生成网络模型进行训练，获取预设次数训练后的中间三维人脸生成网络模型的模型损失；基于模型损失与预设模型损失的匹配成功结果，确定目标三维人脸生成网络模型。

可以理解的是，模型训练单元，具体还可以用于针对每次训练，将对应样本人脸图像输入至前次训练后的中间StyleGAN生成器网络中，确定对应样本人脸图像的样本人脸特征图和样本视角信息；将样本人脸特征图和样本视角信息输入至前次训练后的中间三维表达网络中，确定对应样本人脸图像的样本三维表达结果；将样本三维表达结果输入至前次训练后的中间体渲染神经网络中，确定与对应样本人脸图像对应的样本三维人脸模型；将对应样本人脸图像输入至噪声添加网络中，确定样本加噪人脸图像；将对应样本人脸图像和样本加噪人脸图像输入至鉴别器网络中，并基于鉴别器网络输出的鉴别结果和样本三维人脸模型，确定本次训练后的中间三维人脸生成网络模型的模型损失。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备400可以包括：处理器(processor)410、通信接口(CommunicationsInterface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行三维光场人脸内容生成方法，该方法包括：

获取目标人脸图像；

将目标人脸图像输入至目标三维人脸生成网络模型，确定目标人脸图像对应的目标三维人脸模型；

对目标三维人脸模型进行多视角采样，并基于多视角采样结果和目标人脸图像，确定目标超分辨率人脸图像；

对目标超分辨率人脸图像进行三维光场图像编码，生成目标三维光场人脸内容；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的三维光场人脸内容生成方法，该方法包括：

获取目标人脸图像；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的三维光场人脸内容生成方法，该方法包括：

获取目标人脸图像；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维光场人脸内容生成方法，其特征在于，包括：

获取目标人脸图像；

2.根据权利要求1所述的三维光场人脸内容生成方法，其特征在于，所述目标三维人脸生成网络模型包括目标三维处理网络和目标体渲染神经网络，所述将所述目标人脸图像输入至目标三维人脸生成网络模型，确定所述目标人脸图像对应的目标三维人脸模型，包括：

3.根据权利要求2所述的三维光场人脸内容生成方法，其特征在于，所述目标三维处理网络包括目标StyleGAN生成器网络和目标三维表达网络，所述将所述目标人脸图像输入至所述目标三维处理网络，确定所述目标人脸图像对应的目标三维表达结果，包括：

4.根据权利要求1至3任一项所述的三维光场人脸内容生成方法，其特征在于，所述对所述目标三维人脸模型进行多视角采样，并基于多视角采样结果和所述目标人脸图像，确定目标超分辨率人脸图像，包括：

基于人脸特征提取结果，生成所述目标超分辨率人脸图像。

5.根据权利要求1至3任一项所述的三维光场人脸内容生成方法，其特征在于，所述方法还包括：

6.根据权利要求1至3任一项所述的三维光场人脸内容生成方法，其特征在于，所述目标三维人脸生成网络模型的训练过程包括：

7.根据权利要求6所述的三维光场人脸内容生成方法，其特征在于，所述基于所述样本人脸图像集，对初始三维人脸生成网络模型进行训练，确定所述目标三维人脸生成网络模型，包括：

8.根据权利要求7所述的三维光场人脸内容生成方法，其特征在于，所述使用所述样本人脸图像集，对所述初始三维人脸生成网络模型进行训练，获取预设次数训练后的中间三维人脸生成网络模型的模型损失，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述三维光场人脸内容生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述三维光场人脸内容生成方法。