CN115131492A

CN115131492A - 目标对象的重光照方法、装置及存储介质和背景替换方法

Info

Publication number: CN115131492A
Application number: CN202210382240.7A
Authority: CN
Inventors: 葛志鹏; 汪铖杰; 葛彦昊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-09-30

Abstract

目标对象的重光照方法、装置、电子设备及计算机可读存储介质和背景替换方法，涉及计算机视觉和人工智能。包括：获取包含目标对象的第一图像和包含目标环境图的第二图像；将之输入预训练的神经网络照射图子网以获取用于描绘目标对象在目标环境图光照环境中的显示状态的第三图像的照射图的预估值；再通过预训练的神经网络渲染子网获取第三图像，根据第三图像生成目标对象的重光照图像。神经网络照射图子网被训练为用于借助第一分解策略进行本征分解，神经网络渲染子网被训练为用于借助第一分解策略进行本征分解得和借助预设的，与第一分解策略对应于共同本征值分解方式的第一合成策略，根据本征图像进行图像合成。实现了根据单张图片进行重光照。

Description

目标对象的重光照方法、装置及存储介质和背景替换方法

技术领域

本申请涉及计算机视觉和人工智能技术领域，具体而言，本申请涉及一种目标对象的重光照方法、装置、电子设备、计算机可读存储介质及计算机程序产品和目标对象的背景替换方法、。

背景技术

目标对象的重光照指的是给定含有目标对象(例如人像)的图片和目标光照场景(例如指定的背景或者光源等)，利用计算机视觉技术进行图像处理，进行光线合成，得到目标对象在目标光照场景下的图片。这项技术对于虚拟现实、增强现实应用以及电影制作等泛娱乐场景都至关重要，在照片处理、视频会议等领域也有广泛的应用。

相关技术中进行重光照的方式主要分为两类：一种是基于物理渲染方法的光线合成技术，另一种是基于神经网络的光线合成技术。

基于物理渲染方法的技术，追求对输入照片的物理真实进行提取，即精确地分解出与物理真实对应的解耦，分离出哪些是目标对象自身的特性，哪些是环境的影响，再根据分离出的目标对象自身的特性，进行目标光照场景下的重光照合成。因为要对物理真实进行分解，这通常须结合目标物体的深度信息，根据深度相机的照片采样来实现，当目标物体的相关源数据不完善时，合成效果不理想，并且容易受深度噪声的影响。

基于神经网络的光线合成技术主要依赖于风格变换生成技术，利用隐式编码，生成一些保留输入图片中目标对象的原有属性，比如人像的几何、身份特征等，改变场景中的光照属性的图片，这类方法一般是无监督的，但是可控性比较差。目前的基于神经网络的光线合成仅能在特定约束条件的场景下取得较好结果，而对于真实环境中复杂的光照合成效果欠佳，合成结果的真实感也有待提高。

发明内容

本申请实施例的目的旨在一定程度上解决上述技术问题中的至少一个方面，提供基于对目标对象的普通图片，进行复杂光照环境下的重照明的解决方案。

根据本申请实施例的第一方面，提供了一种目标对象的重光照的方法，该方法包括：

获取包含目标对象的第一图像和包含目标环境图的第二图像；

进行照射图预估，具体包括：将第一图像和第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值，其中，第三图像用于描绘目标对象在目标环境图光照环境中的显示状态，神经网络照射图子网被训练为用于借助第一分解策略对第一图像进行本征分解，并根据本征分解的结果生成第三图像的照射图的预估值；

进行照射图引导下的渲染，具体包括将第一图像、第二图像和第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像，其中，神经网络渲染子网被训练为用于借助第一分解策略对第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据目标对象的反照图和第三图像的照射图生成第三图像，其中，第一合成策略与第一分解策略为对应于共同本征值分解方式的共轭策略；以及

根据神经网络渲染子网输出的第三图像生成目标对象的重光照图像并进行输出。

根据本申请的第二方面，提供了一种目标对象的背景替换方法，该方法包括：

获取包含目标对象的第一图像；

获取包含目标背景图的第二图像；

获取目标背景图中的目标环境图；

使用根据本申请第一方面的目标对象重光照方法，基于第一图像和目标环境图，获取目标对象在目标环境图下的重光照图像；

根据重光照图像和第二图像，得到目标对象的背景替换为目标背景图的图像。

根据本申请的第三方面，提供了另一种目标对象的背景替换方法，其特征在于，包括：

获取包含目标对象的第一视频；

获取包含目标背景图的第二图像；

获取目标背景图中的目标环境图；

根据第一视频，获取包含目标对象的图像构成的第一图像集合；

使用根据本申请第一方面的目标对象重光照方法，根据第一图像集合和目标环境图，获取第一图像集合中的各个图像对应的目标对象在目标环境图下的重光照图像集合；以及

根据重光照图像集合、第一视频和第二图像，生成对应第一视频中的目标对象的背景替换为目标背景图的第三视频；

或者，目标对象的背景替换方法包括：

获取包含目标对象的第一图像；

获取包含目标背景图的第二视频；

获取目标背景图中的目标环境图；

根据第二视频，获取包含目标环境图的图像构成的第二图像集合；

使用根据本申请第一方面的目标对象重光照方法，根据第一图像和第二图像集合，获取目标对象在第二图像集合中的各个图像对应的目标环境图下的重光照图像集合；以及

根据重光照图像集合、第一图像和第二视频，生成对应目标对象置于第二视频的目标背景图中的第三视频。

根据本申请实施例的第四方面，提供了一种目标对象的重光照的装置，该装置包括：

输入获取模块，用于获取包含目标对象的第一图像和包含目标环境图的第二图像；

照射图预估模块，用于进行照射图预估，具体用于将第一图像和第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值，其中，第三图像用于描绘目标对象在目标环境图光照环境中的显示状态，神经网络照射图子网被训练为用于借助第一分解策略对第一图像进行本征分解，并根据本征分解的结果生成第三图像的照射图的预估值；

渲染模块，用于进行照射图引导下的渲染，具体用于将第一图像、第二图像和第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像，其中，神经网络渲染子网被训练为用于借助第一分解策略对第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据目标对象的反照图和第三图像的照射图生成第三图像，其中，第一合成策略与第一分解策略为对应于共同本征值分解方式的共轭策略；以及

图像输出模块，用于根据神经网络渲染子网输出的第三图像生成目标对象的重光照图像并进行输出。

根据本申请实施例的第五方面，提供了一种电子设备，该电子设备包括：

存储器、处理器及存储在存储器上的计算机程序，其中，处理器执行计算机程序以实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时，实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

根据本申请实施例的第七方面，提供了一种计算机程序产品计算机程序被处理器执行时，实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

可以基于含目标对象的RGB图像进行目标对象的重光照，不依赖于深度信息，和/或光场数据；

并且基于神经网络渲染，而非物理渲染输出重光照后合成的图像，避免了由误差累积造成的光线一致性减弱，输出的合成图像真实感好；

支持任意环境光照贴图作为输入，对室外场景下的人像泛化性强；

神经网络训练完成后，在使用阶段计算量较小，算法是轻量级的，可以部署在移动端。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为根据本申请实施例的目标对象重光照方法的方法架构示意图；

图2为根据本发明实施例的目标对象的重光照方法的流程示意图；

图3为根据本发明实施例的神经网络照射图子网的训练数据集生成方法流程示意图；

图4为根据本发明实施例的神经网络渲染子网的训练过程的示意图；

图5为根据本发明实施例的目标对象的背景替换方法的流程示意图；

图6为根据本发明实施例的又一目标对象的背景替换方法的流程示意图；

图7为根据本发明实施例的再一目标对象的背景替换方法的流程示意图；

图8为根据本发明实施例的目标对象的重光照装置的结构示意图；

图9为根据本发明实施例的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，为了方便描述和理解，对本公开中涉及的一些技术名词进行简单介绍。要说明的是，以下名词介绍的内容仅仅是为了本公开的理解方便而作的说明，而不构成对其含义的限制性定义表达。除非有特别说明，对于本领域公知的技术名词，其含义遵从本领域公认的理解。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

重照明(relighting)，是指将第一图像中的目标物体，根据指定的光照条件，例如给出第二图像的场景的光照环境，重新进行光线合成的过程。其目的是使合成的结果中，呈现出与目标对象真实的置于指定的光照环境下一致的显示效果。

环境光贴图(ambient map)，在重照明过程中，指定光照条件的一种方式，环境光贴图以图像的形式，表达出目标场景的光照环境。

本征分解(Intrinsic decomposition)，根据含有目标和物体和环境场景的原始图像计算其本征图像(intrinsic image)的求解过程，其中，本征图像一般包括反照图(albedoimage)和照射图(shadingimage)。照射图(也简称为shading)表示图像本征分解的结果中，主要用于表征环境光线作用的部分，一般由场景中的各种光照和物体的几何形状构成，反映了场景中各个位置的光照信息。反照图(也简称为albedo)表示图像本征分解的结果中，主要用于表征目标物体自身特性的部分，即目标物体在无色均匀光照下的颜色和表面材质属性。

可微分渲染(Differentiable Rendering)，相关技术中的一种图像合成的渲染方式，用于根据给定的二维图像进行逆向绘制(Inverse Rendering)，获得生成这张图像所需的3D场景信息，例如3D几何，灯光，材质，视角中的一种或多种。

3DDFA：3D Dense Face Alignment，三维稠密人脸对齐，相关技术中的一种端到端的单视图人脸3D重建模型，是一种参数化的人脸模型。

D3DFR，Accurate 3D Face Reconstruction，精准三维人脸重建，相关技术中的一种参数化的人脸模型。

AlbedoMM，Morphable Face Albedo Model，可变形人脸反照模型，相关技术中的一种人脸反照图模型。

接下来对本申请的发明构思进行简要说明。本征分解的思想可以追溯到10世纪埃及物理学家阿尔哈曾(Alhazen)的观点：“人的眼睛能够感知到的只是光的强度和颜色，其他信息都是通过洞察、推理、识别等方法来获取的”，本征分解的概念在1978年被正式提出。在现代数字图像处理和计算机视觉的方法中，重照明的基本思路是：将与物体的物理真实对应的albedo置于目标环境中，进行物理渲染合成重照明图像。基于此，相关领域技术人员的一向以来的共同认知是，本征分解的结果越接近物理真实，渲染得到的重照明图像品质越好。并且相关技术中的物理渲染器，也均被设计为只有根据接近物理真实的本征分解得到的albedo，才能获得好的渲染效果。

然而，在目前的技术条件下，想获取接近物理真实的本征分解，对于原始数据的要求非常苛刻。例如，需基于目标物体的深度图像，或是需要目标物体在给定参考光照环境中的多张图片进行信息融合。而对于原始数据只有目标物体的单张二维RGB图片这种最常见的情形，则很难据此计算出接近物理真实的本征分解，故而重光照的效果非常不理想。

而相关技术中基于神经网络的重光照方法，也是基于物理渲染类似的思路，试图通过神经网络来学习接近物理真实的本征分解的方式，或者是通过神经网络来学习目标环境的光场信息。再根据分解的结果，通过学习与物理渲染器类似的方式进行渲染。目前能够达到较好效果的只是在特定约束条件下进行重照明，例如环境光是给定角度的光源照射，且环境背景是简单的空旷空间。而受限于建模思路和对训练和输入数据的高要求，目前基于神经网络的重光照方法尚无法根据复杂的现实光照环境进行重照明。并且，受限于关于目标对象的相关groundtruth的缺失等训练数据集的获取问题，现有基于神经网络的重光照方法，模型大多是完全无监督训练的，这也使得其可控性较差。

本申请的发明人发现，相关技术中重光照对与物理真实一致的本征分解的依赖，其实并非必要。人眼对图像的感知其本质是视觉细胞对入射光线的应激与人脑对应激信号综合处理的综合结果，而非物理真实；各种电子图像显示装置的图像呈现，同样也是通过显像装置发出的色彩和光强的组合，亦非物理真实。如果能使得对原始图像的本征分解和目标环境的光线合成，能够基于相同分解策略的分解和对应的合成策略，则合成的重光照图像也可以获得较好的合成效果。

基于上述发现，发明人创造性地提出了一种通过其它形式的本征分解来进行重光照，并使得含原始图像的本征分解和目标图像的图像合成的过程依据相同的分解方式的技术构思，同时设计了用以实现这一构思的神经网络模型和特别设计的训练数据来训练所述神经网络模型，使得本征分解的过程摆脱了对目标物体原始图像精确深度信息和纹理信息的输入依赖，转而通过神经网络模型识别以为用，并取得了良好的效果。

要说明的是，本申请中，本征分解可以采取其广义的解释，即对原始图像进行本征分解获得本征图像的方式不是唯一的，任何由原始图像按照一定策略分解而成，并可以逆向合成原始图像的albedo和shading的组合，均可以视为本征图像，而不一定局限于与物理真实严格对应的那一种分解方式。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请的第一方面的实施例提供了一种目标对象的重光照方法。参见图1、图2，图1为根据本申请实施例的目标对象重光照方法的方法架构示意图；图2为根据本发明实施例的目标对象的重光照方法的流程示意图。

根据本申请实施例的目标对象重光照方法，包括神经网络的预训练和使用训练好的神经网络两个方面。其中，在大部分的应用场景下，神经网络的预训练可以在服务器端，或者是由提供相关服务或者软件产品的供应商预先完成。而在客户端仅仅执行使用神经网络计算重光照图像的步骤，且执行计算重光照图像时可以与服务器端通信，也可以离线完成。

根据本申请实施例的目标对象重光照方法，通过将包含目标对象的第一图像和包含目标环境图的第二图像输入预训练的神经网络照射图子网以获取用于描绘目标对象在目标环境图光照环境中的显示状态的第三图像的照射图的预估值；再通过预训练的神经网络渲染子网获取第三图像，根据第三图像生成目标对象的重光照图像。具体包括以下步骤S110到S140。

在步骤S110，获取包含目标对象的第一图像和包含目标环境图的第二图像。

其中，包含目标对象的原始图像可以是仅仅包含目标对象所在的区域，也可以是包含目标对象及目标对象周边一定范围的图像，此时，可经过图像处理获取仅仅包含目标对象所在的区域的图像以便于简化运算。对于目标对象所在区域的获取，可以基于相关技术中的语义分割算法自动实现，也可以根据需要手动输入。为了描述方便，本申请中，第一图像可以是原始图像，也可以是经预处理后，仅仅包含目标对象所在范围的区域的图像，这两种情况下，均可以通过相应的神经网络训练来实现本申请的重光照方法。

第二图像可以是单纯的光照环境图，也可以是真实环境的照片图像等。目标环境图可以是第二图像本身，也可以是根据使用需求，在第二图像中截取相应尺度的局部图像作为目标环境图。对于第一图像和第二图像的获取顺序，本实施例并无限制，二者可以按照任意顺序进行获取。

在步骤S120，进行照射图预估，具体包括：将第一图像和第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值，其中，第三图像用于描绘目标对象在目标环境图光照环境中的显示状态，神经网络照射图子网被训练为用于借助第一分解策略对第一图像进行本征分解，并根据本征分解的结果生成第三图像的照射图的预估值。

其中，在网络结构上，相关技术中用于图像处理的各种神经网络结构，例如，各种常用CNN(卷积神经网络)结构的深度神经网络模型，只要运算精度足够，均可用于本申请实施例的神经网络照射图子网，本申请对此不作限制。

为了将神经网络照射图子网训练为借助第一分解策略对第一图像进行本征分解，一种实现的方式是根据满足第一分解策略的数据集，通过有监督训练完成。而高质量的训练数据集对于取得更好的合成效果尤其重要。关于训练数据集的构造，将在后文结合图3进一步说明。

在步骤S130，进行照射图引导下的渲染，具体包括将第一图像、第二图像和第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像，其中，神经网络渲染子网被训练为用于借助第一分解策略对第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据目标对象的反照图和第三图像的照射图生成第三图像，其中，第一合成策略与第一分解策略为对应于共同本征值分解方式的共轭策略。

其中，在网络结构上，相关技术中用于图像处理的各种神经网络结构，例如，各种常用CNN(卷积神经网络)结构的深度神经网络模型，只要运算精度足够，均可用于本申请实施例的神经网络渲染子网，如U-net，ResNet等，本申请对此不作限制。为了将神经网络渲染子网训练为神经网络渲染子网被训练为用于借助第一分解策略对第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据目标对象的反照图和第三图像的照射图生成第三图像，可以使用有监督训练和无监督训练相结合的训练方式，从而在保证模型精度的同时，提高模型的泛化能力，神经网络渲染子网的训练数据集和具体的训练方法，将在后文结合图4进一步说明。

在步骤S140，根据神经网络渲染子网输出的第三图像生成目标对象的重光照图像并进行输出。

当目标环境图是第二图像的全部时，第三图像即对应于重光照图像的全部范围，可作为目标对象的重光照图像进行输出。当目标环境图不是第二图像的全部时，可将根据目标对象所在的区域和目标环境图生成的第三图像，与第二图像中目标环境图所在区域之外的图像部分进行拼接，生成目标对象的重光照图像。

应理解的是，在当前的科学和技术发展阶段，人工神经网络是作为一个整体工作来实现输入与输出之间的数据关系的，神经网络的中间层数据不一定对应有可描述的明确的物理意义。同时，在神经网络的功能描述中，为了便于读者理解神经网络的整体功能，有时会对功能采用分步骤的描述方式。分步骤的描述方式也并不意味着每个步骤对应的数据结果一定会在神经网络的中间变量或者输出中显式呈现，即神经网络对于“步骤”的执行是隐式的，步骤的顺序和执行方式不必与神经网络的具体计算一一对应。

根据本申请实施例的目标对象重光照方法，可以基于含目标对象的RGB图像进行目标对象的重光照，不依赖于深度信息，和/或光场数据。并且基于神经网络渲染，而非物理渲染输出重光照后合成的图像，避免了由深度误差累积造成的光线一致性减弱，且输出的合成图像真实感好。支持任意环境光照贴图作为输入，对室外场景下的人像泛化性强。本申请提供的方法可支持复杂光照下的光线合成，对于给定的任意环境光HDR贴图，都能得到稳定、一致且真实的合成结果，当然对方向光的输入，也可转化为环境光HDR贴图，从而利用本申请提供的方法得到对应的输出。

并且，可以看出，神经网络训练完成后，本申请的方法在使用阶段，仅需进行数量非常少的神经网络计算，计算量较小，算法是轻量级，不需要强大的服务器级别的算力支持，可以部署在移动端或个人电脑，以及可以支持离线应用。这使得使本申请的方法能够更方便的应用于移动端多种APP或者是个人电脑的相关应用软件。例如，应用于图片处理APP或软件，实现照片等图像的光线合成、背景替换；应用于社交或者办公类APP或软件，进行视频对话、视频会议等的背景替换；应用于AR、VR类的APP或软件，进行目标场景的置入等等。

虽然本申请的方法可以不依赖于基于物理真实的本征分解，但是不同本征分解策略的选择，也会对神经网络的训练过程，以及输出的重光照图像精度和真实感产生一定程度的影响。

在一些实施例中，在进行照射图预估步骤和进行照射图引导下的渲染步骤中，借助第一分解策略对第一图像进行本征分解，可以包括：获取目标对象的主体的三维参数化模型；以及根据目标对象的主体的三维参数化模型，对第一图像进行本征分解，得到目标对象的反照图。

其中，获取目标物体的三维参数化模型，可以通过识别目标物体的种类，或者是基于关于目标物体种类的输入信息等方式。例如，对于最常见的人像重照明情况，可以获取和使用各种相关技术的人脸三维参数化模型。而对于常见种类的目标物体，则可以通过语义分析等方式根据第一图像获取目标物体的种类。

基于三维参数化模型进行本征分解，可以使本征分解相对更容易获得，这对于训练数据集的生成更为有利。同时，由于三维参数化模型借鉴了关于目标物体的先验知识，也使得对目标物体的三维重建准确度大大提高。最终体现在重光照合成图像上，表现为更好的合成效果。

对神经网络照射图子网而言，第一分解策略的实现可以通过使用与第一分解策略对应的数据集进行训练来实现。要说明的是，训练后的神经网络照射图子网在数据处理过程中，并不需要在其中间变量中显式呈现的本征分解结果，而仅仅是在输出中对第三图像的照射图进行预估。

参见图3，图3为根据本发明实施例的神经网络照射图子网的训练数据集生成方法流程示意图。

具体而言，用于神经网络照射图子网的第一预设数据集的每条记录可以包括：含有目标对象的第一参考图像、含有已知参数的环境图的第二参考图像、描绘目标对象在已知参数的环境图内的显示状态的第三参考图像，以及第三参考图像的照射图。

其中，第一数据集中每条记录的生成方法可以包括步骤S201到S205。

在步骤S121，根据第一参考图像进行目标对象的主体的参数化重建，得到目标对象主体的三维参数化模型。其中，目标对象的主体的参数化重建可以借助于关于目标主体的先验知识，以提高参数化模型的建模准确度。例如，目标对象是人脸、车辆、可以识别的特定物体等情况下，可以根据已有的关于这些目标对象的三维形态信息，或者是已有的三维模型，来进行三维参数化重建。

在步骤S122，根据三维参数化模型对第一参考图像进行本征分解，得到第一参考图像的反照图粗估值。相比于直接根据二维图片进行本征分解，三维参数化模型由于引入了关于目标对象三维几何的知识，在此约束下，可以使本征分解更容易获得良好的结果。

例如，可以通过对第一参考图像进行本征分解得到对应的深度图、材质和法向量贴图等，进而得到第一参考图像的反照图粗估值。

在步骤S123，通过可微分渲染器对第一参考图像的反照图进行迭代优化，得到修正后的第一参考图像的返照图精确值。通过可微分渲染器，利用

在步骤S124，根据第一参考图像的返照图精确值和第二参考图像进行离线渲染，得到第三参考图像。

训练数据集中的第二参考图像，可以通过在环境光贴图数据集中随机采样来获得，以实现训练数据的多样性和随机性，从而使训练好的模型具有更好的泛化能力。

在步骤S125，根据第三参考图像和第一参考图像的反照图的精确值，计算第三参考图像的照射图。

神经网络照射图子网的训练过程则可包括：根据预设的第一损失函数进行残差计算，以迭代更新神经网络照射图子网的模型参数，直到模型收敛。其中，训练损失函数L_shading如下所示：

它由两部分组成，一部分是逐像素的L1监督损失，记为L_{s_pix}，另一部分是高维特征的L2监督损失，记为L_{s_per}，L2监督损失中的高维特征，可由预训练的vgg网络提供。

作为最常见的实施场景之一，在一些实施例中，目标对象是肖像，目标对象的主体为人脸。此时，步骤S121，根据第一参考图像进行目标对象的主体的参数化重建，得到目标对象主体的三维参数化模型，和步骤S122，根据三维参数化模型对第一参考图像进行本征分解，得到第一参考图像的反照图粗估值可以实现为：

获取人脸的三维参数化模型，并根据人脸的三维参数化模型获取目标对象的三维重建结果，其中，人脸的三维参数化模型包括人脸的形状参数和表情参数，且形状参数和表情参数对应拓扑一致的网格模型，在一些实施例中，人脸的三维参数化模型可包括3DDFA或者D3DFR模型。重建后的参数化人脸模型经过相机坐标系的变化可得到对应的深度图。

根据目标对象的三维重建结果对第一图像进行本征分解，得到目标对象的反照图，可采用AlbedoMM模型对第一图像进行本征分解，得到第一图像的反照图。其中，可以根据AlbedoMM模型得到人脸的diffuse(漫反射)分量和specular(镜面反射)分量，并进一步通过残差演算出roughness(粗糙度)分量。再进一步通过可微分渲染器进行逐像素迭代优化，精修得到最终的本征分解结果。

如此生成的第一训练数据集，可以获得高保真的复杂光线条件下的人像合成图片数据，由于是采用按照预定的第一分解策略生成的Albedo图像，来生成的第三参考图像，所以在利用第一训练数据集进行反向的本征分解训练时，也将会使训练后的神经网络学习到如何利用第一分解策略进行本征分解得到shading图。并且，由于shading图反映的是光影信息，不依赖于目标物体的材质，因此，包含第一参考图像、第二参考图像和第三参考图像及其照射图信息的数据集条目即可以实现神经网络照射图子网的有监督训练。

完成神经网络照射图子网的训练之后，可以进一步进行神经网络渲染子网的训练。神经网络渲染子网可采用与照射图子网相同的训练数据来源进行有监督训练，以及根据来自另外数据集的野生数据进行无监督训练相结合的方式。如此，有监督训练有助于学习与第一分解策略对应的第一合成策略，而无监督训练部分则可用来提供更好的泛化能力。

记神经网络渲染子网的训练数据集为第二预设数据集，其中第二预设数据集的每条记录包括：含有目标对象的第一参考图像、含有目标环境图的第二参考图像、描绘目标对象在目标环境图内的显示状态的第三参考图像，以及神经网络照射图子网根据第一参考图像和第二参考图像获得的第三参考图像的照射图的估计值；并且，第二数据集包括根据第一预设数据集的记录条目生成的第一类记录条目，以及根据第一预设数据之外的其它数据集生成的第二类记录条目。

参见图4，图4为根据本发明实施例的神经网络渲染子网的训练过程的示意图。不论第一类还是第二类条目的数据在训练时，均是首先读取数据集条目中的第一参考图像、第二参考图像，作为第一图像和第二图像，并以第三参考图像作为第三图像。

首先将第一图像和第二图像输入神经网络照射图子网，得到第三图像的照射图的预估值。然后将第一图像和照射图的预估值输入神经渲染子网，获得重光照图像的估计值，并根据重光照图像的估计值，计算光照环境的估计值。并通过第二损失函数根据误差的反向传播来更新神经网络渲染子网的模型参数，直至模型收敛。

其中第二损失函数可包括：逐像素的L1监督损失和高维特征的L2监督损失，还可包括真伪对抗损失，以及光照一致性损失中的至少一项。

例如，第二损失函数L_relit可以设置为：

其中，L1监督损失L_{r_pix}和高维特征的L2监督损失L_{r_per}与神经网络照射图子网训练中的定义类似，可以参见上文的相关描述。L1监督损失和高维特征的L2监督损失主要用于防止模型训练过程中的异常结果。

真伪对抗损失L_{g_adv}用于表征模型的输出图像被真伪判别器判定为真实结果的概率分布。例如，可令真伪判别器接受输出的重光照图像估计值，产生一个标签，该标签为1则为真实，为0则假，真伪对抗损失的目的设置为使得该标签为1，即尽量趋近于真实分布。其中，真伪判别器根据输出图像或者输出图像的灰度图对输出图像是否为真实进行判定。实验结果显示，根据灰度图进行真伪判定时，可以获得准确的判别结果。真伪判别器可以由单独的GAN(生成对抗神经网络)来实现。例如可采用WGAN(WassersteinGAN)来实现。并且真伪判别器可与神经网络渲染子网同步训练。

光照一致性损失L_lc则用于表征第二图像的环境光照与基于神经网络渲染子网的输出图像估计的环境光照之间的一致性程度。该损失使得光照估计网络的输出与神经渲染子网络的输入光照一致，使得渲染网络能够保留输入的光照信息。

参数u2,u3分别为真伪对抗损失L_{g_adv}和光照一致性损失L_lc对应的系数，可以根据需要选定。

本实施例的第二损失函数的构造，是针对渲染子网的特定训练数据集构成和使用目的而专门设计的，可以结合有监督和无监督训练两方面的特征，达到更好的训练效果。

在第二损失函数的四个构成项目中，L1监督损失L_{r_pix}和高维特征的L2监督损失L_{r_per}可根据照射图的预估值和重光照图像的估计值进行计算。真伪对抗损失可根据对重光照图像的真伪判别实现。光照一致性损失则可根据光照环境的估计值与第二图像的比较来求得。

其中，对于第一类条目中的数据，可计算第二损失函数计算全部四项，对于第二类条目中的数据，由于没有监督数据的作为真实值(groundtruth)来参考，因此，L1监督损失L_{r_pix}和高维特征的L2监督损失L_{r_per}可以不进行计算，视为系数为0。当然，本领域技术人员也可使用其它无监督训练的思路，根据需要设计损失函数其它的表达方式。

本申请的目标物体重光照方法可应用于图片处理APP或软件，实现照片等图像的光线合成、背景替换；应用于社交或者办公类APP或软件，进行视频对话、视频会议等的背景替换；应用于AR、VR类的APP或软件，进行目标场景的置入，以及用于电影、动画游戏制作等等。根据本发明的实施例同时也提供了根据目标物体重光照方法来进行背景替换的各种场景下的具体实现方法。

对于单独的图像，对目标主体的重光照结果可以用于照片换背景、头像换背景等需求场景，也可以进一步用于视频中单独视频帧的背景替换。

本申请的第二方面的实施例提供了一种基于目标物体重照明进行背景替换的方法。参见图5，图5为根据本发明实施例的目标对象的背景替换方法的流程示意图。

根据本申请实施例的背景替换方法包括步骤S210到步骤S250。

在步骤S210，获取包含目标对象的第一图像。

在步骤S220，获取包含目标背景图的第二图像。

其中，对于步骤S210和S220的顺序并无限制。第一图像和第二图像可以根据APP或软件使用时的输入来提供或指定。例如，在图像处理软件或APP的GUI(图形用户界面)中，可以设置第一图像输入按钮图标和/或第二图像输入按钮图标，当其被点击后，弹出供用户选择或上传第一图像和/或第二图像的窗口。

在步骤S230，获取目标背景图中的目标环境图。在一些实施例中，软件或APP使用者拥有和使用的原始图片往往是照片等包括较大的背景范围的形式，而目标对象的尺度会对应于目标背景的一部分，因此需确定目标对象具体的置入位置。例如，将人像置入一幅风景画中，此时，人像置入风景画不同位置时，将对应不同的光照情况，因此需要确定具体的置入位置，即目标背景图中的目标环境图。

显然，对于本实施例的方法，第一图像、第二图像的获取顺序对方法的实现并无影响，二者可以任意交换。

在步骤S240，使用目标对象重光照方法，基于第一图像和目标环境图，获取目标对象在目标环境图下的重光照图像。

在步骤S250，根据重光照图像和第二图像，得到目标对象的背景替换为目标背景图的图像。

除本申请重光照方法的相关有益效果之外，本实施例的背景替换方法，可以实现根据任意来源的第一图像和目标对象图像信息，如普通的人像照片，获得目标对象在任意给定的目标背景环境下的合成图片。而相关类似应用中，大多仅仅支持软件给定背景(意味着确定的已知光照参数)或者是简单纯色平面直射光背景(确定的已知光照参数中一个极简的特例)。故此，根据本申请实施例的背景替换方法可以提供更大的背景替换自由度，并且在任意背景下均能生成良好的合成图像。

除对静态图片的背景替换之外，本申请第三方面的实施例还提供了基于视频进行背景替换的方法。参见图6和图7，图6示出了根据目标对象的动态视频，将含目标对象的动态视频的背景替换为目标背景的方法，图7示出了根据拍摄的环境背景的环境动态视频，将目标对象置入环境动态视频的方法。

图6为根据本发明实施例的又一目标对象的背景替换方法的流程示意图。其中，目标对象的背景替换包括步骤S310到S360。

在步骤S310，获取包含目标对象的第一视频。

在步骤S320，获取包含目标背景图的第二图像。

其中，对于步骤S310和S320的顺序并无限制。第一视频和第二图像可以根据APP或软件使用时的输入来提供或指定。例如，在图像处理软件或APP的GUI(图形用户界面)中，可以设置第一视频输入按钮图标和/或第二图像输入按钮图标，当其被点击后，弹出供用户选择或上传第一视频和/或第二图像的窗口。

在步骤S330，获取目标背景图中的目标环境图。在一些实施例中，软件或APP使用者拥有和使用的原始图片往往是照片等包括较大的背景范围的形式，而目标对象的尺度会对应于目标背景的一部分，因此需确定目标对象具体的置入位置。例如，将人像置入一幅风景画中，此时，人像置入风景画不同位置时，将对应不同的光照情况，因此需要确定具体的置入位置，即目标背景图中的目标环境图。

在步骤S340，根据第一视频，获取包含目标对象的图像构成的第一图像集合。视频一般是由多个视频帧构成，视频的背景替换，一般可通过对每个视频帧的背景进行替换，再根据替换后的视频帧生成新的合成视频的方式进行。即，将第一视频进行拆帧，以拆分后的视频帧图像构成第一图像集合。

在步骤S350，使用根据本申请实施例的方法，根据第一图像集合和目标环境图，获取第一图像集合中的各个图像对应的目标对象在目标环境图下的重光照图像集合。

在步骤S360，根据重光照图像集合、第一视频和第二图像，生成对应第一视频中的目标对象的背景替换为目标背景图的第三视频。

本实施例的方法可以由个人电脑或者移动终端等实现，也可以与服务器端交互共同实现。对于视频会议、AR、VR等应用时，如果涉及客户端软件与服务器的信息交互，可以将视频拆帧和视频帧图像的背景替换工作放到服务器端以加快处理速度。例如在视频会议中，使用者可用个人电脑或者移动终端采集作为目标对象的视频，并选择指定的第二图像，将二者上传到服务器。而服务器完成第三视频的合成后，发送给对应的指定接收方和/或者反馈给使用者。

除本申请重光照方法的相关有益效果之外，本实施例的背景替换方法，可以实现根据任意来源的第一视频和目标对象图像信息，获得目标对象在任意给定的目标背景环境下的合成视频，能满足直播、视频会议等应用需求中对于背景丰富化的需求，且背景替换的计算量较小，使得视频的整体背景替换速度快，效果好，能满足各类实时的应用需求。

图7为根据本发明实施例的再一目标对象的背景替换方法的流程示意图，其中，目标对象的背景替换包括步骤S410到S460。

在步骤S410，获取包含目标对象的第一图像。

在步骤S420，获取包含目标背景图的第二视频。

其中，对于步骤S410和S420的顺序并无限制。第一图像和第二视频可以根据APP或软件使用时的输入来提供或指定。例如，在图像处理软件或APP的GUI(图形用户界面)中，可以设置第一图像输入按钮图标和/或第二视频输入按钮图标，当其被点击后，弹出供用户选择或上传第一图像和/或第二视频的窗口。

在步骤S430，获取目标背景图中的目标环境图。本实施例的一个应用场景是将目标对象置于动态的背景视频中，例如用于增强现实等。其中，背景视频往往包括较大的背景范围的形式，而目标对象的尺度会对应于目标背景的一部分，因此需确定目标对象具体的置入位置。

在步骤S440，根据第二视频，获取包含目标环境图的图像构成的第二图像集合。视频一般是由多个视频帧构成，视频的背景替换，一般可通过对每个视频帧的背景进行替换，再根据替换后的视频帧生成新的合成视频的方式进行。即，将第二视频进行拆帧，以拆分后的视频帧图像构成第二图像集合。

在步骤S450，使用根据本发明实施例的方法，根据第一图像和第二图像集合，获取目标对象在第二图像集合中的各个图像对应的目标环境图下的重光照图像集合。

在步骤S460，根据重光照图像集合、第一图像和第二视频，生成对应目标对象置于第二视频的目标背景图中的第三视频。

本实施例的方法还可以将第一图像替换为含有目标对象的第一图像集合，其中第一图像集合具有与第二图像集合对应的图片数量，按照第一图像集合和第二图像集合的顺序，依次合成目标对象在第二视频的不同时间点的帧图像。从而实现动态的目标主体在动态的背景视频中的置入。

除本申请重光照方法的相关有益效果之外，本实施例的背景替换方法，还可以实现根据任意来源的含有目标对象的第一图像和或者第一视频以及作为背景的第二视频，获得目标对象置于目标背景动态环境下的合成视频，能满足直播、视频会议、VR、AR等应用需求中对于背景丰富化的需求，且背景替换的计算量较小，使得视频的整体背景替换速度快，效果好，能满足各类实时的应用需求。

要说明的是，基于本申请的目标物体重光照方法实现的目标物体的背景替换方法，还具有与本申请的目标物体重光照方法类似的有益效果，在此不再赘述。

根据本申请的实施例还提供了一种目标对象的重光照装置，图8为根据本发明实施例的目标对象的重光照装置的结构示意图。

其中，目标对象的重光照装置100包括：

输入获取模块110，用于获取包含目标对象的第一图像和包含目标环境图的第二图像；

照射图预估模块120，用于执行照射图预估，具体用于将第一图像和第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值，其中，第三图像用于描绘目标对象在目标环境图光照环境中的显示状态，神经网络照射图子网被训练为用于借助第一分解策略对第一图像进行本征分解，并根据本征分解的结果生成第三图像的照射图的预估值；

渲染模块130，用于执行照射图引导下的渲染，具体用于将第一图像、第二图像和第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像，其中，神经网络渲染子网被训练为用于借助第一分解策略对第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据目标对象的反照图和第三图像的照射图生成第三图像，其中，第一合成策略与第一分解策略为对应于共同本征值分解方式的共轭策略；以及

图像输出模块140，用于根据神经网络渲染子网输出的第三图像生成目标对象的重光照图像并进行输出。

在一些实施例中，在进行照射图预估步骤和进行照射图引导下的渲染步骤中，借助第一分解策略对第一图像进行本征分解，包括：

获取目标对象的主体的三维参数化模型；以及

根据目标对象的主体的三维参数化模型，对第一图像进行本征分解，得到目标对象的反照图。

在一些实施例中，执行照射图预估，将第一图像和第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值的步骤中，神经网络照射图子网是根据第一预设数据集进行有监督训练的，其中：

第一预设数据集的每条记录包括：含有目标对象的第一参考图像、含有已知参数的环境图的第二参考图像、描绘目标对象在已知参数的环境图内的显示状态的第三参考图像，以及第三参考图像的照射图；

神经网络照射图子网的训练过程具体包括：根据预设的第一损失函数进行残差计算，以迭代更新神经网络照射图子网的模型参数，直到模型收敛。

并且，第一数据集中每条记录按照如下方式生成：

根据第一参考图像进行目标对象的主体的参数化重建，得到目标对象主体的三维参数化模型；

根据三维参数化模型对第一参考图像进行本征分解，得到第一参考图像的反照图粗估值；

通过可微分渲染器对第一参考图像的反照图进行迭代优化，得到修正后的第一参考图像的返照图精确值；

根据第一参考图像的返照图精确值和第二参考图像进行离线渲染，得到第三参考图像；以及

根据第三参考图像和第一参考图像的反照图的精确值，计算第三参考图像的照射图。

在一些实施例中，进行照射图引导下的渲染，将第一图像、第二图像和第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像的步骤中，神经网络渲染子网是根据第二预设数据集进行训练的，其中：

第二预设数据集的每条记录包括：含有目标对象的第一参考图像、含有目标环境图的第二参考图像、描绘目标对象在目标环境图内的显示状态的第三参考图像，以及神经网络照射图子网根据第一参考图像和第二参考图像获得的第三参考图像的照射图的估计值；并且，第二数据集包括根据第一预设数据集的记录条目生成的第一类记录条目，以及根据第一预设数据之外的其它数据集生成的第二类记录条目；

神经网络照射图子网的训练过程具体包括：根据第一类记录条目进行有监督训练，以及根据第二类条目进行无监督训练，根据预设的第二损失函数进行残差计算，以迭代更新神经网络渲染子网的模型参数，直至模型收敛。

在一些实施例中，根据预设的第二损失函数进行残差计算，以迭代更新神经网络渲染子网的模型参数，直至模型收敛步骤中，

第二损失函数包括：逐像素的L1监督损失和高维特征的L2监督损失，还包括真伪对抗损失，以及光照一致性损失中的至少一项，其中，

真伪对抗损失用于表征模型的输出图像被真伪判别器判定为真实结果的概率分布；

光照一致性损失用于表征第二图像的环境光照与基于神经网络渲染子网的输出图像估计的环境光照之间的一致性程度。

在一些实施例中，真伪对抗损失表征模型的输出图像被真伪判别器判定为真实结果的概率分布，其中，真伪判别器可以根据输出图像的灰度图对输出图像是否为真实进行判定。

在一些实施例中，目标对象为肖像，目标对象的主体为人脸。

在一些实施例中，进行照射图预估步骤和进行照射图引导下的渲染步骤中，借助第一分解策略对第一图像进行本征分解，包括：

获取人脸的三维参数化模型，并根据人脸的三维参数化模型获取目标对象的三维重建结果，其中，人脸的三维参数化模型包括人脸的形状参数和表情参数，且形状参数和表情参数对应拓扑一致的网格模型；

根据目标对象的三维重建结果对第一图像进行本征分解，得到目标对象的反照图。

在一些实施例中，获取人脸的三维参数化模型，并根据人脸的三维参数化模型获取目标对象的三维重建结果，其中，人脸的三维参数化模型包括三维稠密人脸对齐模型或者精准三维人脸重建模型；和/或

根据目标对象的三维重建结果对第一图像进行本征分解得到目标对象的反照图，包括：根据目标对象的三维重建结果，采用AlbedoMM模型(可变形人脸反照模型)对第一图像进行本征分解，得到第一图像的反照图。

根据本申请实施例的目标对象的重光照装置能够取得与相应的目标对象的重光照方法类似的有益效果，在此不再赘述。具体细节可参见方法部分相关实施例的描述。

本申请实施例中还提供了一种电子设备(计算机装置/设备/系统)，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

根据本申请实施例的电子设备能够取得与相应的标对象的重光照方法类似的有益效果，在此不再赘述。具体细节可参见方法部分相关实施例的描述。

在一个可选实施例中提供了一种电子设备，如图9所示，图9所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

其中，电子设备包括但不限于：个人计算机、移动通信终端、服务器、可穿戴设备、虚拟现实设备、游戏机等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，实现根据本申请第一方面实施例的目标对象的重光照方法的步骤、实现本根据申请第二方面的目标对象背景替换方法的步骤，或者实现根据本申请第三方面的背景替换方法的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种目标对象的重光照方法，其特征在于，包括：

进行照射图预估，具体包括：将所述第一图像和所述第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值，其中，所述第三图像用于描绘所述目标对象在所述目标环境图光照环境中的显示状态，所述神经网络照射图子网被训练为用于借助第一分解策略对所述第一图像进行本征分解，并根据所述本征分解的结果生成所述第三图像的照射图的预估值；

进行照射图引导下的渲染，具体包括将所述第一图像、第二图像和所述第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像，其中，所述神经网络渲染子网被训练为用于借助所述第一分解策略对所述第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据所述目标对象的反照图和所述第三图像的照射图生成所述第三图像，其中，所述第一合成策略与所述第一分解策略为对应于共同本征值分解方式的共轭策略；以及

根据所述神经网络渲染子网输出的第三图像生成所述目标对象的重光照图像并进行输出。

2.根据权利要求1所述的目标对象的重光照方法，其特征在于，在所述进行照射图预估步骤和所述进行照射图引导下的渲染步骤中，所述借助所述第一分解策略对所述第一图像进行本征分解，包括：

获取所述目标对象的主体的三维参数化模型；以及

根据所述目标对象的主体的三维参数化模型，对所述第一图像进行本征分解，得到所述目标对象的反照图。

3.根据权利要求1所述的目标对象的重光照方法，其特征在于，所述进行照射图预估，将所述第一图像和所述第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值的步骤中，所述神经网络照射图子网是根据第一预设数据集进行有监督训练的，其中：

所述第一预设数据集的每条记录包括：含有目标对象的第一参考图像、含有已知参数的环境图的第二参考图像、描绘所述目标对象在所述已知参数的环境图内的显示状态的第三参考图像，以及所述第三参考图像的照射图；

所述神经网络照射图子网的训练过程具体包括：根据预设的第一损失函数进行残差计算，以迭代更新神经网络照射图子网的模型参数，直到模型收敛；

并且，所述第一数据集中每条记录按照如下方式生成：

根据所述第一参考图像进行所述目标对象的主体的参数化重建，得到目标对象主体的三维参数化模型；

根据所述三维参数化模型对所述第一参考图像进行本征分解，得到所述第一参考图像的反照图粗估值；

通过可微分渲染器对所述第一参考图像的反照图进行迭代优化，得到修正后的第一参考图像的返照图精确值；

根据所述第一参考图像的返照图精确值和所述第二参考图像进行离线渲染，得到所述第三参考图像；以及

根据所述第三参考图像和所述第一参考图像的反照图的精确值，计算所述第三参考图像的照射图。

4.根据权利要求1所述的目标对象的重光照方法，其特征在于，所述进行照射图引导下的渲染，将所述第一图像、第二图像和所述第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像的步骤中，所述神经网络渲染子网是根据第二预设数据集进行训练的，其中：

所述第二预设数据集的每条记录包括：含有目标对象的第一参考图像、含有目标环境图的第二参考图像、描绘所述目标对象在所述目标环境图内的显示状态的第三参考图像，以及所述神经网络照射图子网根据所述第一参考图像和第二参考图像获得的所述第三参考图像的照射图的估计值；并且，所述第二数据集包括根据第一预设数据集的记录条目生成的第一类记录条目，以及根据第一预设数据之外的其它数据集生成的第二类记录条目；

所述神经网络渲染子网的训练过程具体包括：根据所述第一类记录条目进行有监督训练，以及根据所述第二类条目进行无监督训练，根据预设的第二损失函数进行残差计算，以迭代更新所述神经网络渲染子网的模型参数，直至模型收敛。

5.根据权利要求4所述的目标对象的重光照方法，其特征在于，所述根据预设的第二损失函数进行残差计算，以迭代更新所述神经网络渲染子网的模型参数，直至模型收敛的步骤中，

所述第二损失函数包括：逐像素的L1监督损失和高维特征的L2监督损失，还包括真伪对抗损失和光照一致性损失中的至少一项，其中，

所述真伪对抗损失表征模型的输出图像被真伪判别器判定为真实结果的概率分布；

所述光照一致性损失表征所述第二图像的环境光照与基于所述神经网络渲染子网的输出图像估计的环境光照之间的一致性程度。

6.根据权利要求5所述的目标对象的重光照方法，其特征在于，所述真伪对抗损失表征模型的输出图像被真伪判别器判定为真实结果的概率分布，其中，所述真伪判别器根据所述输出图像的灰度图对所述输出图像是否为真实进行判定。

7.根据权利要求1-6中任意一项所述的目标对象的重光照方法，其特征在于：

所述目标对象为肖像，所述目标对象的主体为人脸。

8.根据权利要求7所述的目标对象的重光照方法，其特征在于，所述进行照射图预估步骤和所述进行照射图引导下的渲染步骤中，所述借助所述第一分解策略对所述第一图像进行本征分解，包括：

获取人脸的三维参数化模型，并根据所述人脸的三维参数化模型获取所述目标对象的三维重建结果，其中，所述人脸的三维参数化模型包括人脸的形状参数和表情参数，且所述形状参数和表情参数对应拓扑一致的网格模型；

根据所述目标对象的三维重建结果对所述第一图像进行本征分解，得到所述目标对象的反照图。

9.根据权利要求8所述的目标对象的重光照方法，其特征在于，

所述获取人脸的三维参数化模型，并根据所述人脸的三维参数化模型获取所述目标对象的三维重建结果，其中，所述人脸的三维参数化模型包括三维稠密人脸对齐模型或者精准三维人脸重建模型；和/或

所述根据所述目标对象的三维重建结果对所述第一图像进行本征分解得到所述目标对象的反照图，包括：根据所述目标对象的三维重建结果，采用可变形人脸反照模型对所述第一图像进行本征分解，得到所述第一图像的反照图。

10.一种目标对象的背景替换方法，其特征在于，包括：

获取包含目标对象的第一图像；

获取包含目标背景图的第二图像；

获取所述目标背景图中的目标环境图；

使用根据权利要求1-9任意一项所述的方法，基于所述第一图像和所述目标环境图，获取所述目标对象在所述目标环境图下的重光照图像；

根据所述重光照图像和所述第二图像，得到目标对象的背景替换为所述目标背景图的图像。

11.一种目标对象的背景替换方法，其特征在于，包括：

获取包含目标对象的第一视频；

获取包含目标背景图的第二图像；

获取所述目标背景图中的目标环境图；

根据所述第一视频，获取包含所述目标对象的图像构成的第一图像集合；

使用根据权利要求1-9任意一项所述的方法，根据所述第一图像集合和所述目标环境图，获取所述第一图像集合中的各个图像对应的所述目标对象在所述目标环境图下的重光照图像集合；以及

根据所述重光照图像集合、所述第一视频和所述第二图像，生成对应所述第一视频中的所述目标对象的背景替换为所述目标背景图的第三视频；

或者，所述目标对象的背景替换方法包括：

获取包含目标对象的第一图像；

获取包含目标背景图的第二视频；

获取所述目标背景图中的目标环境图；

根据所述第二视频，获取包含所述目标环境图的图像构成的第二图像集合；

使用根据权利要求1-9任意一项所述的方法，根据所述第一图像和所述第二图像集合，获取所述目标对象在所述第二图像集合中的各个图像对应的所述目标环境图下的重光照图像集合；以及

根据所述重光照图像集合、所述第一图像和所述第二视频，生成对应所述目标对象置于所述第二视频的目标背景图中的第三视频。

12.一种目标对象的重光照装置，其特征在于，包括：

照射图预估模块，用于执行照射图预估，具体用于将所述第一图像和所述第二图像输入预训练的神经网络照射图子网并获取其输出的第三图像的照射图的预估值，其中，所述第三图像用于描绘所述目标对象在所述目标环境图光照环境中的显示状态，所述神经网络照射图子网被训练为用于借助第一分解策略对所述第一图像进行本征分解，并根据所述本征分解的结果生成所述第三图像的照射图的预估值；

渲染模块，用于执行照射图引导下的渲染，具体用于将所述第一图像、第二图像和所述第三图像的照射图的预估值输入预训练的神经网络渲染子网并获取其输出的第三图像，其中，所述神经网络渲染子网被训练为用于借助所述第一分解策略对所述第一图像进行本征分解得到目标对象的反照图，并借助预设的第一合成策略根据所述目标对象的反照图和所述第三图像的照射图生成所述第三图像，其中，所述第一合成策略与所述第一分解策略为对应于共同本征值分解方式的共轭策略；以及

图像输出模块，用于根据所述神经网络渲染子网输出的第三图像生成所述目标对象的重光照图像并进行输出。

13.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-9任一项所述的目标对象的重光照方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的目标对象的重光照方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的目标对象的重光照方法的步骤。