CN114119849A

CN114119849A - 三维场景渲染方法、设备以及存储介质

Info

Publication number: CN114119849A
Application number: CN202210080688.3A
Authority: CN
Inventors: 李玉洁; 付欢; 蔡博文; 章坚; 罗鸿城; 王家明; 黄锦池; 赵斌强; 贾荣飞; 汤兴
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-03-01
Anticipated expiration: 2042-01-24
Also published as: CN114119849B; WO2023138471A1

Abstract

本申请实施例提供一种三维场景渲染方法、设备以及存储介质。在本申请实施例中，获取目标物体对应的显式三维模型和隐式三维表征模型，一方面基于显式三维模型对目标物体进行三维场景渲染，可以得到真实光照信息，一方面基于隐式三维表征模型针对目标物体进行视图合成，得到纹理信息更优质的视角图像；之后将真实光照信息迁移到视角图像上，实现基于显式三维模型的场景渲染与基于隐式三维表征模型的视图合成的结合，进而得到最终二维场景图像。其中，将基于显式三维模型的场景渲染与基于隐式三维表征模型的视图合成相结合，提高场景图像的质量，降低图像的失真度，充分发挥隐式3D表征的优势。

Description

三维场景渲染方法、设备以及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种三维场景渲染方法、设备以及存储介质。

背景技术

新视角合成技术是指针对一个三维场景，使用该三维场景的已有图像生成任意视角下的高真实感图像的技术。新视角合成依赖三维场景精确的几何结构，但是，由于现实世界中的三维场景比较复杂，很难获得三维场景精确的几何结构，这导致新视角合成技术从理论到落地实施较为困难。

于是，业界提出了神经辐射场（Neural Radiance Field，NERF）算法，该算法利用全连接网络来表示三维场景，其输入是一个连续的5维坐标：空间位置（x，y，z）和视角方向（θ，ϕ），其输出是该空间位置处的体积密度和视角相关的颜色信息；进一步结合立体渲染（volume rendering）技术，可以将输出的颜色信息和体积密度投影到2D图像上，从而实现逼真的新视图合成。

然而，基于NERF的隐式3D表征并不能应用于传统的渲染管线之中，因此不能像传统的显式3D模型那样实现3D模型在不同三维场景渲染中的落地应用，如何在三维场景渲染中发挥隐式3D表征的优势成为亟需解决的问题。

发明内容

本申请的多个方面提供一种三维场景渲染方法、设备以及存储介质，用以提高三维场景渲染中基于隐式3D表征渲染出的场景图像的质量，降低图像的失真度，充分发挥隐式3D表征的优势。

本申请实施例提供一种图像生成方法，包括：根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景，显式三维模型在目标三维场景中对应第一相机位姿；对目标三维场景进行基于物理的渲染，至少得到初始二维场景图像和包括第一光照信息的第一光照图像，第一光照信息反映显式三维模型与目标三维场景之间的光照关系；根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像，第一视角图像具有第二光照信息；将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

本申请实施例还提供一种计算机设备，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行图像生成方法。

本申请实施例还提供一种存储有计算机程序的计算机存储介质当所述计算机程序被处理器执行时，致使所述处理器能够实现图像生成方法。

在本申请实施例中，获取目标物体对应的显式三维模型和隐式三维表征模型，一方面基于显式三维模型对目标物体进行三维场景渲染，可以得到真实光照信息，一方面基于隐式三维表征模型针对目标物体进行视图合成，得到纹理信息更优质的视角图像；之后将真实光照信息迁移到视角图像上，实现基于显式三维模型的场景渲染与基于隐式三维表征模型的视图合成的结合，进而得到最终二维场景图像。其中，将基于显式三维模型的场景渲染与基于隐式三维表征模型的视图合成相结合，既能保证二维场景图像上物体纹理信息的质量，也能保证物体具有逼真的光照信息，提高场景图像的质量，降低图像的失真度，充分发挥隐式3D表征的优势。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的图像生成方法所适用的一种系统架构图；

图2为本申请实施例提供的一种图像生成方法的流程示意图；

图3为本申请实施例提供的一种光照迁移模型训练方法的流程示意图；

图4为本申请实施例提供的一种示例性图像生成方法所适用的应用场景图；

图5为本申请实施例提供的一种三维模型重建方法的流程示意图；

图6为示例性的视线从相机光心发射到物体空间的示意图；

图7为示例性的视线穿过目标物体表面点的示意图；

图8为示例性的一种三维模型重建方法所适用的应用场景图；

图9为示例性的随机视线生成示意图；

图10为本申请实施例提供的一种图像生成装置的结构示意图；

图11为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有技术面临的隐式3D表征无法在三维场景中落地应用的技术问题，在本申请实施例中，获取目标物体对应的显式三维模型和隐式三维表征模型，一方面基于显式三维模型对目标物体进行三维场景渲染，可以得到真实光照信息，一方面基于隐式三维表征模型针对目标物体进行视图合成，得到纹理信息更优质的视角图像；之后将真实光照信息迁移到视角图像上，实现基于显式三维模型的场景渲染与基于隐式三维表征模型的视图合成的结合，进而得到最终二维场景图像。其中，将基于显式三维模型的场景渲染与基于隐式三维表征模型的视图合成相结合，既能保证二维场景图像上物体纹理信息的质量，也能保证物体具有逼真的光照信息，提高场景图像的质量，降低图像的失真度，充分发挥隐式3D表征的优势。

图1为本申请实施例提供的图像生成方法所适用的一种系统架构图。如图1所示，该系统可以包括拍摄设备10和图像生成装置20。可选的，拍摄设备10可以通过有线网络、或者无线网络与图像生成装置20进行交互。例如，有线网络可以包括同轴电缆、双绞线和光纤等，无线网络可以是2G网络、3G网络、4G网络或者5G网络、无线保真(Wireless Fidelity，简称WIFI)网络等。本申请对交互的具体类型或者具体形式并不做限定，只要其能够实现拍摄设备10与图像生成装置20进行交互的功能即可。应当理解的是，图1中的拍摄设备10、图像生成装置20的数量仅仅是示意性的。实际应用中，可以根据实际需求部署任意数量的拍摄设备10、图像生成装置20。

本实施例对拍摄设备10不做限制，拍摄设备10例如可以是但不限于：相机、具有图像采集功能的手机、平板电脑、可穿戴式智能设备、智能家居设备等，图1中的拍摄设备10以相机为例示出。

在本申请实施例中，图像生成装置20可以是终端设备或者服务器，图1中的图像生成装置20以服务器为例示出。其中，终端设备可以是硬件也可以是软件。当终端设备为硬件时，终端设备例如为手机、平板电脑、台式计算机、可穿戴式智能设备、智能家居设备等。当终端设备为软件时，其可以安装在上述列举的硬件设备中，此时，终端设备例如为多个软件模块或单个软件模块等，本申请实施例并不限制。服务器可以是硬件也可以是软件。当服务器为硬件时，该服务器为单个服务器或多个服务器组成的分布式服务器集群。当服务器为软件时，可以为多个软件模块或单个软件模块等，本申请实施例并不限制。

在全景显示、自动化建模、3D商品展示、新视角图像合成、三维场景渲染等多种应用场景中，都需要目标物体的三维模型。其中，三维场景渲染是指将包含目标物体的三维场景转化为一幅二维场景图像的过程，三维场景中需要使用目标物体的显式三维模型。为此，需要对目标物体进行三维重建。在对目标物体进行三维重建之前，首先利用拍摄设备10对处于真实世界中的目标物体从不同拍摄角度进行拍摄，得到该目标物体的多张物体图像或者得到该目标物体的一段视频，从视频中提取包含该目标物体的多张物体图像。进一步可选的，为了能够准确重建出目标物体的三维模型，进而提高基于三维模型的三维场景渲染效果，可以采用绕目标物体360度的环绕方式进行拍摄，得到目标物体的多张图像。其中，目标物体可以是任意物体，例如为鞋子、桌子、椅子、帽子、衣柜、苹果等等。

如图1中①所示，在拍摄到目标物体的多张物体图像之后，将多张物体图像上传至图像生成装置20。如图1中②所示，图像生成装置20将多张物体图像作为多张原始图像，以多张原始图像为基础执行三维重建任务，得到目标物体的显式三维模型和对目标物体进行隐式三维3D表达的目标隐式三维表征模型（图1中未示出）。可选地，在本申请实施例中，可以将基于神经网络的三维重建和传统的三维重建进行融合，通过同一三维重建任务同时得到目标物体的显式三维模型和目标隐式三维表征模型。关于图像生成装置20以多张原始图像为基础执行三维重建任务得到显式三维模型和目标隐式三维表征模型的实现方式可参见后文介绍。

图像生成装置20除了执行针对目标物体的三维重建任务，还可以执行针对目标物体的三维场景创建任务。具体的，图像生成装置20获取初始三维场景，并将目标物体的显式三维模型添加至初始三维场景中，以创建出包含目标物体的显式三维模型的目标三维场景。其中，初始三维场景可以是基于三维软件建模得到真实场景或虚拟场景的三维模型，或者是基于图像的建模和绘制(Image-Based Modeling and Rendering，IBMR)方法建模得到真实场景或虚拟场景的三维模型。需要说明的是，目标三维场景与初始三维场景的类型相同，相对于初始三维模型的区别在于：增加了目标物体的显式三维模型。

进一步的，图像生成装置20还可以对目标三维场景执行基于物理的渲染（Physically Based Rendering，PBR）任务，基于物理的渲染指的是基于真实世界中光照的物理特性而建立的一种光照算法。其中，对目标三维场景进行物理渲染至少可以得到以下信息：渲染出的初始二维场景图像、包括第一光照信息的第一光照图像、第一掩码图以及深度图像。初始二维场景图像中包括目标三维场景中存在的目标物体、其它物体以及背景信息等。第一光照信息是能够反映目标物体与目标三维场景之间存在的光照关系的光照信息。其中，第一掩码图中感兴趣区域的像素点的像素值为255，第一掩码图中非感兴趣区域的像素点的像素值为0，图1所示的第一掩码图中白色区域为感兴趣区域，图1所示的第一掩码图中黑色区域为非感兴趣区域。进一步，对第一掩码图进行取反，可以得到第二掩码图。其中，第二掩码图中感兴趣区域的像素点的像素值为255，第二掩码图中非感兴趣区域的像素点的像素值为0，图1所示的第二掩码图中白色区域为感兴趣区域，图1所示的第二掩码图中黑色区域为非感兴趣区域。第一掩码图用于抠图，第二掩码图用于贴图，具体可在后续使用中体现。

进一步的，图像生成装置20还可以基于目标物体对应的目标隐式三维表征模型执行神经渲染(Neural Rendering，NR)任务。其中，神经渲染结果包括但不限于：目标物体的第一视角图像。进一步的，图像生成装置20可利用光照迁移技术，将第一光照图像中的第一光照信息和第一视角图像融合到初始二维场景图像中，得到目标二维场景图像，致使目标二维场景图像中既能保留第一视角图像中目标物体的纹理信息，又能保留第一光照图像中的第一光照信息，最终有利于提高场景图像的质量，降低图像的失真度。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图2为本申请实施例提供的一种图像生成方法的流程示意图。该方法可由图像生成装置执行，该装置可以由软件和/或硬件的方式实现，并一般可以集成在终端设备或服务器中。如图2所示，该方法可以包括以下步骤：

201、根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景，显式三维模型在目标三维场景中对应第一相机位姿。

202、对目标三维场景进行基于物理的渲染，至少得到初始二维场景图像和包括第一光照信息的第一光照图像，第一光照信息反映显式三维模型与目标三维场景之间的光照关系。

203、根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像，第一视角图像具有第二光照信息。

204、将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

在本实施例中，目标物体对应的显式三维模型可以通过基于目标物体的多张原始图像执行三维重建任务获得。关于基于目标物体的多张原始图像执行三维重建任务参见后文内容。

在本实施例中，对图像生成装置获取需要搭配目标物体的显式三维模型的初始三维场景的方式不做限制。例如，用户可以基于自身需求选择任一对真实场景或虚拟场景进行三维建模得到的三维场景作为初始三维场景，并将按需选择的初始三维场景提供给图像生成装置。又例如，图像生成装置提供包括多个已有三维场景的三维场景库，图像生成装置基于用户对三维场景库中已有三维场景的选择指令，获取用户选择的已有三维场景作为初始三维场景。又例如，图像生成装置可以基于目标物体的至少一种属性信息自动从三维场景库中获取已有三维场景作为初始三维场景。

进一步可选的，为了更为准确地获取与目标物体更为搭配的初始三维场景，图像生成装置可以对显式三维模型进行渲染，得到目标物体对应的正面图像；根据正面图像，确定目标物体的至少一种属性信息；根据至少一种属性信息，从三维场景库中获取初始三维场景。

值得注意的是，目标物体对应的正面图像反映的是目标物体的正面特征，目标物体的正面特征能够较好地刻画目标物体的特点，于是，基于图像识别技术对正面图像进行识别，可以准确获取到目标物体的至少一种属性信息。至少一种属性信息例如包括但不限于目标物体的颜色特征、形状特征、纹理特征、物体类别等等。

本实施例对根据至少一种属性信息，从三维场景库中获取初始三维场景的方式不做限制。下面介绍几种可选的获取方式：

方式1：可以从三维场景库中获取与至少一种属性信息适配的已有三维场景，作为初始三维场景。例如，基于目标物体的至少一种属性信息表征目标物体是黄色木质家具，则选择初始三维场景可以是房屋的三维立体空间。例如，基于目标物体的至少一种属性信息表征目标物体是卫浴产品，则选择初始三维场景可以是卫生间的三维模型。

方式2：将显式三维模型作为种子模型，根据至少一种属性信息，从已有物体模型中获取与显式三维模型适配的其它物体模型；根据显式三维模型和其它物体模型生成局部场景信息；从三维场景库中获取与局部场景信息适配的已有三维场景，作为初始三维场景。

例如，基于目标物体的至少一种属性信息表征目标物体是黄色木质椅子，则适配的其它物体模型可以是桌子的三维模型、茶几的三维模型、床的三维模型。根据黄色木质椅子的显式三维模型、桌子的三维模型、茶几的三维模型、床的三维模型创建局部的三维场景，获取局部场景信息，局部场景信息例如包括哪些三维模型和各个三维模型在已创建的局部的三维场景中的布局信息等等。基于局部场景信息从三维场景库选择适配的房屋的三维立体空间作为初始三维场景。

在本实施例中，图像生成装置基于用户期望的目标物体与初始三维场景的场景搭配需求信息，将目标物体对应的显式三维模型添加至初始三维场景中，以得到包含显式三维模型的目标三维场景。其中，场景搭配需求信息主要描述用户期望的目标物体添加到初始三维场景之后的布局信息，据此也可以确定目标物体在初始三维场景中的位置、朝向和缩放比例等信息。作为一种示例，图像生成装置可以根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例的一种实现方式是：在图形用户界面上展示初始三维场景，响应图形用户界面上的配置操作，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例。

实际应用中，用户可以直接在图形用户界面展示的初始三维场景中进行点击、拖动等来配置位置、朝向和缩放比例。或者，图形用户界面可以提供位置控件、朝向控件或缩放比例设置控件等配置控件，通过这些配置控件设置位置、朝向和缩放比例等布局信息。当然，上述两种方式也可以结合，例如，位置和朝向可以通过在初始三维场景中进行操作完成，缩放比例通过缩放比例设置控件进行配置。

进一步可选的，为了增加目标三维场景的真实感和搭配效果，根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景的一种实现方式是：根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例；根据位置、朝向和缩放比例，将显式三维模型添加至初始三维场景中，得到中间三维场景；对中间三维场景的布局和/或其对应的第三相机位姿进行调整，得到目标三维场景。在得到目标三维场景的情况下，目标三维场景会具有第一相机位姿，相应地，目标物体的显式三维模型在目标三维场景下会对应第一相机位姿。在此说明，在不对中间三维场景进行相机位姿调整的情况下，第一相机位姿与第三相机位姿相同；在对中间三维场景进行位姿调整的情况下，第一相机位姿不同于第三相机位姿，所述第三相机位姿是中间三维场景具有的相机位姿，即是进行相机位姿调整之前的相机位姿，第一相机位姿是进行相机位姿调整之后的相机位姿。其中，第一相机位姿用于描述从用户角度看向整个目标三维场景的视角信息，第三相机位姿用于描述从用户角度看向整个中间三维场景的视角信息。

在本实施例中，在生成包含显式三维模型的目标三维场景之后，对目标三维场景进行基于物理的渲染，获取目标三维场景的物理渲染结果。其中，对目标三维场景进行物理渲染至少可以得到以下信息：渲染出的初始二维场景图像、包括第一光照信息的第一光照图像、第一掩码图和深度图像。其中，第一光照图像记录的第一光照信息用于描述目标物体与目标三维场景之间存在的光照关系，具体包括但不限于：环境光的光照强度、光颜色（Color）、光照方向、颜色色温（Color Temperature）等等。

在本实施例中，根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型进行神经渲染，获得神经渲染结果，其中，神经渲染结果包括但不限于：目标物体对应的具有第二光照信息的第一视角图像。

考虑到目标三维场景所在相机坐标系和世界坐标系可能有所不同，于是，进一步可选的，为了提高神经渲染的渲染效果，根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像的一种实现方式是：根据显式三维模型在世界坐标系下的初始位姿和其在目标三维场景中的最终位姿，将第一相机位姿转换为世界坐标系下的第二相机位姿；根据第二相机位姿和显式三维模型进行渲染生成多条目标视线，并获取多条目标视线上空间点的空间坐标和视角信息；将多条目标视线上空间点的空间坐标和视角信息输入目标隐式三维表征模型进行视图合成，得到第一视角图像。

值得说明的是，基于根据显式三维模型在世界坐标系下的初始位姿和其在目标三维场景中的最终位姿，可以得到显式三维模型的位姿变化信息，基于该位姿变化信息可以得到目标三维场景所在相机坐标系和世界坐标系之间的坐标系变换矩阵。利用坐标系变换矩阵将第一相机位姿转换为世界坐标系下的第二相机位姿。

在本实施例中，根据第二相机位姿和显式三维模型进行渲染生成多条目标视线，并获取多条目标视线上空间点的空间坐标和视角信息的一种可选实现方式是：根据第二相机位姿对显式三维模型进行光栅化渲染，得到显式三维模型上位于第二相机位姿对应视野范围内的目标表面点及其颜色信息，目标表面点的颜色信息表示该目标表面点对应视线的平均视角信息；针对任一目标表面点，获取第二相机位姿对应的相机光心到目标表面点的目标视线上空间点的空间坐标，并将目标表面点的颜色信息转换为其所表示的平均视角信息作为目标视线上空间点的视角信息。

在本实施例中，将多条目标视线上空间点的空间坐标和视角信息输入目标隐式三维表征模型进行视图合成，得到第一视角图像的一种可选实现方式是：将目标视线对应的视角信息和目标视线上空间点的空间坐标输入目标隐式三维表征模型，得到目标视线上各个空间点的颜色信息和体积密度；采用立体渲染技术，通过目标视线上各个空间点的体积密度，对每条目标视线上各个空间点的颜色信息进行积分得到目标视线穿过的目标表面点的颜色信息；之后，根据目标表面点的空间坐标和颜色信息可以渲染出第一视角图像，第一视角图像包含目标物体，且是2D图像。值得注意的是，目标表面点的数量为多个。

在本实施例中，在对目标三维场景进行基于物理的渲染和对目标物体进行神经渲染之后，基于光照迁移技术处理物理渲染结果和神经渲染结果，得到目标二维场景图像。具体而言，可基于光照迁移技术，将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。下面介绍几种可选的实现方式。

作为一种示例，图像生成装置将初始二维场景图像和第一掩码图进行运算，得到去除感兴趣区域的初始二维场景图像，也即抠掉目标物体的初始二维场景图像。接着，图像生成装置利用基于光照迁移技术，将第一光照图像中的第一光照信息和第一视角图像进行融合，得到中间二维场景图像。接着，图像生成装置将中间二维场景图像和第二掩码图进行运算，得到去除感兴趣区域的中间二维场景图像，也即仅仅保留目标物体的中间二维场景图像。接着，将抠掉目标物体的初始二维场景图像和仅仅保留目标物体的中间二维场景图像进行图像融合处理，得到目标二维场景图像。

作为另一种示例，图像生成装置基于光照迁移技术，可以首先将第一光照图像中的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像；接着将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

在该方式中，可以从第一光照图像获取属于目标物体的第一光照信息，将属于目标物体的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像。基于目标物体在初始二维场景图像中的布局信息，将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，图像生成装置在对目标三维场景进行渲染过程中，获取显式三维模型对应的深度图像和第一掩码图像；相应地，图像生成装置将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像时，具体用于：根据深度图像和第一掩码图像，将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

具体而言，图像生成装置将初始二维场景图像和第一掩码图像进行运算，得到去除感兴趣区域的初始二维场景图像，也即抠掉目标物体的初始二维场景图像，这里体现了第一掩码图像的抠图作用。接着，图像生成装置利用基于光照迁移技术，将第一光照图像中的第一光照信息和第一视角图像进行融合，得到中间二维场景图像。接着，图像生成装置将中间二维场景图像和第二掩码图像进行运算，得到去除感兴趣区域的中间二维场景图像，也即仅仅保留目标物体的中间二维场景图像；第二掩码图像是对第一掩码图像取反后得到的掩码图像。接着，将抠掉目标物体的初始二维场景图像和仅仅保留目标物体的中间二维场景图像进行图像融合处理，得到目标二维场景图像，这里体现了第二掩码图像的贴图作用，即通过第二掩码图像将第一视角图像中目标物体的纹理信息添加到了目标二维场景图像中。进一步，在得到目标二维场景图像时，还可以考虑深度图像体现出的目标物体的深度信息，该深度信息可以协助确定目标物体在目标二维场景图像中的位置。更进一步，在目标物体为多个的情况下，根据深度图像体现出的多个目标物体之间在目标三维场景中的远近关系，调整不同目标物体在目标二维场景图像中的相对位置关系。

本申请实施例提供的图像生成方法，将基于显式三维模型的渲染与基于隐式三维表征模型的视图合成相结合，具体是将三维场景下真实渲染图的光照信息迁移到神经渲染得到的视角图像之上，进而基于带有真实光照信息的视角图像得到三维场景对应的二维场景图像，既能保证二维场景图像上物体结构纹理的质量，也能合成逼真的光照，避免图像失真，充分发挥隐式3D表征的优势。

进一步可选的，为了保持目标二维场景图像中的目标物体和其他物体之间的光照一致性，可基于光照迁移技术将第一光照图像中的第一光照信息迁移到第一视角图像上得到具有第一光照信息的第二视角图像。进一步，可以训练一个光照迁移模型进行光照迁移。作为一种示例，光照迁移模型的模型结构至少包括依次级联的光照解耦网络和光照融合网络。参见图3对光照迁移模型的训练过程进行介绍，如图3所示，训练过程可以包括以下步骤：

301、根据纹理图集和样本物体的显式三维模型，构造多组训练样本，每组训练样本至少包括具有第二样本光照信息的样本视角图像、包括第一样本光照信息的样本光照图像、具有第一样本光照信息的预期视角图像以及样本视角图像对应的预期反射颜色图像和预期漫反射颜色图像。

具体而言，在构建训练样本阶段，可以获取多个样本物体的显式三维模型，并利用纹理图集中的纹理图对各个显示三维模型进行纹理贴图处理，得到多个纹理贴图后的显式三维模型。针对每个纹理贴图后的显式三维模型，将其添加至选定的三维场景中，得到第一样本三维场景；对第一样本三维场景中添加第一样本光照信息，并对添加第一样本光照信息的第一样本三维场景进行基于物理的渲染，得到包含第一光照信息的渲染结果图像，对该渲染结果图像进行分割可得到包含第一样本光照信息的预期视角图像；对第一样本三维场景中添加第二样本光照信息，并对添加第二样本光照信息的第一样本三维场景进行基于物理的渲染，得到包含第二光照信息的渲染结果图像，对渲染结果图像进行分割可得到包含第二光照信息的样本视角图像。另外，将未添加纹理贴图的显式三维模型加入顶点随机噪声，得到加入顶点随机噪声的显式三维模型，并将加入顶点随机噪声的显式三维模型添加至选定的三维场景中，得到第二样本三维场景；对第二样本三维场景添加第一光照信息之后进行基于物理的渲染，至少可得到包含第一样本光照信息的样本光照信息。进一步，在对添加第一样本光照信息的第一样本三维场景进行基于物理的渲染的过程中还可以得到反射颜色图像和漫反射颜色图像，并将得到的反射颜色图像和漫反射颜色图像分别作为预期反射颜色图像和预期漫反射颜色图像。值得说明的是，第一样本光照信息是指渲染三维场景所对应的光照信息；第二样本光照信息是指不同于第一样本光照信息的任意光照信息。

302、根据多组训练样本中的样本视角图像、预期反射颜色图像和预期漫反射颜色图像进行第一阶段的模型训练，得到光照解耦网络。

具体而言，光照解耦网络用于对视角图像进行光照解耦，以将视角图像中的光照信息从视角图像中剥离，得到不带光照信息的中间态图像，中间态图像包括视角图像对应的反射颜色图像和漫反射颜色图像。于是，在迭代训练光照解耦网络时，针对每一轮训练，将样本视角图像输入至光照解耦网络中，获取光照解耦网络输出的样本反射颜色图像和样本漫反射颜色图像，根据样本反射颜色图像和预期反射颜色图像之间的误差信息、样本漫反射颜色图像和预期漫反射颜色图像之间的误差信息计算本轮训练的损失函数，若本轮训练的损失函数满足迭代结束条件，停止迭代训练，若本轮训练的损失函数不满足迭代结束条件，继续迭代训练。

303、根据多组训练样本中的样本光照图像、预期视角图像以及光照解耦网络输出的样本反射颜色图像和样本漫反射颜色图像进行第二阶段的模型训练，得到与光照解耦网络级联的光照融合网络。

具体而言，在迭代训练光照融合网络时，针对每一轮训练，将一个样本视角图像对应的样本反射颜色图像、样本漫反射颜色图像和样本光照图像输入至光照融合网络，得到光照融合网络输出的具有第一样本光照信息的视角图像；根据光照融合网络输出的具有第一样本光照信息的视角图像和预期视角图像之间的误差信息计算本轮训练的损失函数，若本轮训练的损失函数满足迭代结束条件，停止迭代训练，若本轮训练的损失函数不满足迭代结束条件，继续迭代训练。

在此说明，针对任一组训练样本，上述第一阶段和第二阶段是连续执行的，即在每一轮训练中，会依次对光照解耦网络和光照融合网络进行训练，光照解耦网络和光照融合网络是联合训练的，不是单独独立训练的。

在本实施例中，上述损失函数采用多种损失函数，多种损失函数包括但不限于交叉熵损失函数、均方误差损失函数和感知损失函数。

基于上述光照迁移模型，将第一光照图像中的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像的一种实现方式是：将第一光照图像和第一视角图像输入光照迁移模型中，利用光照迁移模型中的光照解耦网络将第二光照信息从第一视角图像中剥离，得到不带光照信息的第一中间态图像；利用光照迁移模型中的光照融合网络将第一光照图像中的第一光照信息与第一中间态图像进行融合，得到具有第一光照信息的第二视角图像。

在本实施例中，光照解耦网络采用编码器和解码器结构，则利用光照迁移模型中的光照解耦网络将第二光照信息从第一视角图像中剥离，得到不带光照信息的第一中间态图像的一种实现方式是：将第一视角图像输入光照解耦网络的编码器，对第一视角图像进行编码得到第一图像特征；将第一图像特征输入至光照解耦网络的第一解码器和第二解码器分别对第一图像特征进行解码，得到第一视角图像对应的反射颜色图像和漫反射颜色图像作为第一中间态图像。其中，第一解码器的解码结果得到第一视角图像对应的反射颜色图像，第二解码器的解码结果得到第一视角图像对应的漫反射颜色图像。

在本实施例中，光照融合网络采用编码器和解码器结构，则利用光照迁移模型中的光照融合网络将第一光照图像中的第一光照信息与第一中间态图像进行融合，得到具有第一光照信息的第二视角图像的一种实现方式是：将反射颜色图像、漫反射颜色图像和第一光照图像输入光照融合网络中的编码器进行编码，得到第二图像特征；将第二图像特征分别输入光照融合网络中的第一解码器和第二解码器，得到颜色残差和光照残差；根据反射颜色图像、漫反射颜色图像和颜色残差生成不带光照信息的第二中间态图像，根据第一光照图像和光照残差得到第二光照图像；将第二中间态图像与第二光照图像进行融合，得到具有第一光照信息的第二视角图像。

在本实施例中，颜色残差用于对第一视角图像的颜色信息进行修正，光照残差用于对第一视角图像的光照信息进行修正，基于颜色残差和光照残差进行处理得到的第二视角图像与融合该第二视角图像的目标二维场景图像之间可以保持更好地光照一致性，且第二视角图像能够更加清晰地反映目标物体的颜色信息、纹理信息等信息，光照信息更加真实。

为了便于理解，结合图4进行说明。实际应用中，基于目标物体的多张原始图像进行三维重建，可以得到目标物体的显式三维模型和目标隐式三维表征模型（图4中未示出）。基于目标物体对应的目标隐式三维表征模型执行基于神经渲染NR任务，得到目标物体在一个全新的渲染视角下的第一视角图像。同时，创建包括目标物体的显式三维模型的目标三维场景，对目标三维场景执行基于物理的渲染PBR任务，至少得到第一光照图像，其中，图4中的Shading(S′)是指第一光照图像。在获取到第一视角图像和第一光照图像之后，将第一视角图像输入至光照解耦网络，光照解耦网络中的编码器对第一视角图像进行编码，得到第一图像特征；光照解耦网络中的解码器对第一图像特征进行解码，输出第一中间态图像，第一中间态图像包括反射颜色图像、漫反射颜色图像，其中，图4中的Reflection(R)是指反射颜色图像，图4中的Diffuse(D)是指漫反射颜色图像。将第一中间态图像和第一光照图像输入至光照融合网络的编码器中进行编码，得到第二图像特征；将第二图像特征输入光照融合网络中的第一解码器中进行解码，得到颜色残差，图4中的Residual Effect(α)是指颜色残差；将第二图像特征输入光照融合网络中的第二解码器中进行解码，得到光照残差，图4中的Shading Residual (S_r′)是指光照残差。根据反射颜色图像、漫反射颜色图像和颜色残差生成不带光照信息的第二中间态图像，图4中“D+R+α”表征的是根据反射颜色图像、漫反射颜色图像和颜色残差生成不带光照信息的第二中间态图像（图4中未示出）。D表征漫反射颜色图像，R表征反射颜色图像，α表征颜色残差。根据第一光照图像和光照残差得到第二光照图像，图4中“S′+S_r′”表征的是根据第一光照图像和光照残差得到第二光照图像（图4中未示出），S′表征第一光照图像，S_r′表征光照残差。

将第二中间态图像与第二光照图像进行融合，得到具有第一光照信息的第二视角图像。图4中“（D+R+α）^.（S′+S_r′）”表征的是将第二中间态图像与第二光照图像进行融合。

在本申请实施例中，并不限定目标隐式三维表征模型的生成方式。在一可选实施例中，可以基于多张原始图像进行三维重建得到目标隐式三维表征模型。具体地，在获取到目标物体的多张原始图像之后，分别计算每张原始图像对应的相机位姿，根据每张原始图像对应的相机位姿和相机内参等数据确定相机在拍摄每张原始图像时发射出来的多条第一视线以及每条第一视线的视角信息。在每条第一视线上进行空间点采样，得到多个空间点。应理解，从同一条第一视线上采样得到的空间点的视角信息均是该第一视线的视角信息。在得到多个空间点之后，利用多个空间点的空间坐标及其视角信息进行基于神经网络的三维重建，该过程可以是不断进行模型训练的过程，但不限于此，最终可得到目标隐式三维表征模型。进一步，还可以根据多张原始图像，构建目标物体对应的显式三维模型，显式三维模型包括目标物体上表面点及其颜色信息。

在另一可选实施例中，可以采用图5的三维重建方法获取目标物体对应的显式三维模型和对目标物体进行隐式三维3D表达的目标隐式三维表征模型。下面结合图5对针对目标物体的三维模型重建方法进行说明。参见图5，该三维模型重建方法可以包括以下步骤：

501、根据包含目标物体的多张原始图像进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式三维表征模型，目标物体上的表面点与对应原始图像中的像素点对应，且与拍摄到该像素点的第一视线对应。

502、根据初始隐式三维表征模型和多张原始图像，构建目标物体对应的显式三维模型，显式三维模型包括目标物体上表面点的颜色信息，每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的。

503、随机生成显式三维模型上表面点对应的第二视线，并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息。

504、根据第二视线对应的平均视角信息和第二视线上空间点的空间坐标，基于初始隐式三维表征模型进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的目标隐式三维表征模型。

在本实施例中，为了更好地保留物体的纹理信息，提高三维重建的模型质量，采用基于神经网络的三维重建方式，并利用最终得到的目标隐式3D表征模型对目标物体进行三维表达。在此过程中，进一步融合了传统的三维重建过程。也就是说，在本申请实施例中，以基于神经网络的三维重建为主，并融合了传统的三维重建，简称为对目标物体进行三维重建。

在本实施例中，在对目标物体进行三维重建之前，获取包含目标物体的多张原始图像，以便基于包含目标物体的原始图像进行基于神经网络的三维重建。可选地，可以对处于真实世界中的目标物体从不同拍摄角度进行拍摄，得到包含该目标物体的多张原始图像或者得到该目标物体对应的视频，从视频中提取包含该目标物体的多张原始图像。进一步可选的，为了能够准确重建出目标物体的三维模型，进而提高基于三维模型的图像渲染质量，可以采用绕目标物体360度的环绕方式进行拍摄，得到目标物体的多张原始图像。需要说明的是，不同原始图像对应不同的相机位姿，相机位姿包括拍摄设备在拍摄图像时的位置和姿态。其中，本实施例对拍摄设备不做限制，拍摄设备例如可以是但不限于：相机、具有拍摄功能的手机、平板电脑、可穿戴设备等。

在本实施例中，将真实的拍摄设备在对处于真实世界中的目标物体进行拍摄时，从真实的拍摄设备的相机光心发射出去穿过物体空间的视线称作为第一视线，该第一视线可以认为是真实的拍摄设备发射出的实际视线，一条第一视线从拍摄设备的相机光心发射出来穿过所拍摄图像的各个像素点对应的物体空间。以图6为例，拍摄椅子图像I₁的相机1和拍摄椅子图像I₂的相机2是真实相机，从真实相机的光心发射出的视线（图6中的实线）是第一视线，也即视线r1和视线r2均是第一视线。在图6中，拍摄椅子图像I₃的相机3是假设出来的虚拟相机（图6中虚线框内的相机），从虚拟相机的光心发射发出的视线（图6中带箭头的虚线）是虚拟视线，也即视线r3是虚拟视线。

需要说明的是，对于一张原始图像上的每个像素点都会对应一条第一视线，相应地，样本图像中的像素点是由第一视线射到目标物体的一个表面点上成像得到的，该第一视线也就是拍摄到该像素点的视线。由此可知，目标物体上的表面点与像素点以及拍摄到该像素点的第一视线之间存在对应关系。每张原始图像中的不同像素点与目标物体上的不同表面点对应，不同表面点对应不同的第一视线，也就是说，每张原始图像中的各像素点都会与穿过目标物体上与其对应的表面点的第一视线对应，不同像素点会与穿过不同表面点的第一视线对应。另外，因为不同样本图像对应的相机位姿不同，所以不同样本图像中的像素点可能对应目标物体上不同的表面点。对两张样本图像而言，其中可能有部分像素点对应相同的表面点，也可能所有像素点均对应不同的表面点。

在本实施例中，首先，利用多张原始图像进行基于神经网络的三维重建，得到初始隐式三维表征模型。初始隐式三维表征模型能够对目标物体进行隐式三维表达，例如可以表达目标物体的形状、纹理、材质等多个维度的物体信息。在本实施例中，初始隐式三维表征模型是一个全连接神经网络，全连接神经网络又称多层感知器（(Multi-LayerPerceptron，MLP）。该初始隐式三维表征模型基于输入的空间点的空间坐标和视角信息，分别预测空间点的体积密度和颜色信息。其中，初始隐式三维表征模型可以表达为：

σ，c=F(d，x)……(1)

其中，x=(x,y,z)，x记为空间点的空间坐标(x,y,z)；d=(θ,φ)，d=(θ,φ)记为空间点的视角信息(θ,φ)，θ为方位角，φ为仰角。c=(r,g,b)，c记为空间点的颜色信息(r,g,b)，r是指红色（Red，R），g是指绿色（Green，G），b是指蓝色（Blue，B）。σ记为空间点的体积密度。

实际应用中，初始隐式三维表征模型包括用于预测σ体积密度的Fσ网络和用于预测c颜色信息的Fc网络。于是，初始隐式三维表征模型可以进一步表达为：

Fσ：x→（σ，f）……(2)

Fc：（d，f）→c……(3)

值得注意的是，Fσ网络输入的是空间点的空间坐标x，输出的是空间点的体积密度和中间特征f。Fc网络输入的是中间特征f和空间点的视角信息d，输入的是空间点的颜色信息RGB值。也就是说，体积密度只和空间坐标x有关，颜色信息RGB值和空间坐标及视角信息相关。

在本实施例中，在获取到目标物体的多张原始图像之后，分别计算每张原始图像对应的相机位姿，根据每张原始图像对应的相机位姿和相机内参等数据确定相机在拍摄每张原始图像时发射出来的多条第一视线以及每条第一视线的视角信息。在每条第一视线上进行采样，得到多个空间点。例如，图7中视线r1的四个圆点是在视线r1上采样的4个空间点，视线r1的箭头所指方向是视线r1的视角信息，也是在视线r1上采样的4个空间点的视角信息。在得到多个空间点之后，利用多个空间点的空间坐标及其视角信息进行基于神经网络的三维重建，该过程可以是分批多次执行的过程，最终可得到初始隐式3D表征模型。需要说明的是，该分分批多次执行的三维重建过程可以是模型训练过程，但不限于此。具体地，可以采用不断迭代的方式进行基于神经网络的三维重建，例如每次可以随机选择k张原始图像，从k张原始图像中随机选择大小为m*n的图像块，利用k个图像块中各像素点对应的第一视线上空间点的空间坐标和视角信息进行基于神经网络的三维重建（或模型训练），直到三维重建过程的损失函数符合设定要求时终止三维重建过程。其中，k是大于或等于1的自然数，且k小于或等于原始图像的总数；m、n是大于或等于1的自然数，m、n分别表示图像块在横向和纵向维度上的像素数，m小于或等于原始图像的宽度（宽度维度对应横向），n小于或等于原始图像的长度（长度维度对应纵向），m和n可以相同，也可以不同。可选地，可以采用等间隔方式在每条第一视线上采样多个空间点，即任意两个相邻空间点之间的采样间隔是相同的。也可以采用不同采样间隔在每条第一视线上采样多个空间点，采样间隔的大小不做限定。

进一步可选的，可以采用SLAM(simultaneous localization and mapping，即时定位与地图构建)算法来更加准确计算每张原始图像对应的相机位姿。具体的，SLAM算法在计算相机位姿时，首先提取每张原始图像的特征点，接着，建立相邻两张原始图像的特征点之间的匹配关系，根据相邻两张原始图像的特征点之间的匹配关系计算相邻两张原始图像之间的相对相机位姿。根据两两原始图像之间的相对相机位姿计算每张原始图像对应的相机位姿。

在本实施例中，在得到对目标物体进行隐式三维表达的初始隐式三维表征模型之后，根据初始隐式三维表征模型和多张原始图像，可以构建目标物体对应的显式三维模型。

在本实施例中，显式三维模型可以是指能够反映目标物体的表面特征且能够对目标物体进行显式三维表示的Mesh（网格）模型，该显式三维模型包括目标物体的表面点及每个表面点的空间坐标和颜色信息。这些表面点可形成显式三维模型中的三角面和顶点，显式三维模型具体包括多个三角面和顶点，顶点的属性信息包括顶点的空间坐标、颜色信息、材质信息以及其它纹理信息等。顶点是表面点，每个三角面也包括多个表面点，其中，三角面上除作为顶点的表面点之外的其它表面点的空间坐标和颜色信息可由其所属三角面上的三个顶点的空间坐标和颜色信息进行插值计算得到。

在本实施例中，显式三维模型上每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的，表示该表面点对应的任何视线对应的平均视角信息。换而言之，显式三维模型上每个表面点的颜色信息并不是目标物体在光线照射下产生的真实颜色信息，而是与该表面点对应的各条第一视线的平均视角信息具有映射关系的颜色信息。

在一可选实现方式中，根据初始隐式3D表征模型和多张原始图像，构建目标物体对应的显式三维模型，包括：根据多张原始图像的图像特征，确定目标物体对应的空间范围；基于空间范围和初始隐式3D表征模型生成目标物体对应的初始三维模型，初始三维模型包括目标物体上的表面点；针对任一表面点，将该表面点对应的至少一条第一视线的视角信息的平均值转换为该表面点的颜色信息，以得到显式三维模型。

在本实施例中，可以采用诸如运动恢复结构（Structure from Motion，SfM）算法处理多张原始图像的图像特征，以估计出目标物体对应的稀疏3D点位置，目标物体对应的稀疏3D点位置可以帮助确定目标物体在世界坐标系中的空间范围。该空间范围可以是具有长、宽和高的空间范围，例如可以是正方体空间或长方体空间，但不限于此。

进一步可选的，上述基于空间范围和初始隐式三维表征模型生成目标物体对应的初始三维模型的一种实施方式是：基于空间范围和初始隐式三维表征模型生成目标物体对应的标量场数据，标量场数据包括多个体积元素（Volume Pixel），可简称为体素；对多个体积元素进行三角面解析，得到初始三维模型包含的多个三角面、多个三角面上的多个顶点及其空间坐标，多个三角面和多个顶点用于限定初始三维模型包含的各表面点。

进一步可选的，上述空间范围为具有长宽高的长方体空间，则上述基于空间范围和初始隐式三维表征模型生成目标物体对应的标量场数据的一种实施方式是：对长方体空间在长宽高三个维度上分别进行采样得到多个目标空间点，每个维度上采样到的目标空间点的数量相同，且在同一维度上是等间隔采样的，其中，相邻8个目标空间点形成一个体积元素；将多个目标空间点的空间坐标输入初始隐式三维表征模型，得到多个目标空间点的体积密度；体积元素和体积元素包含的目标空间点的体积密度形成标量场数据。

具体而言，在目标物体对应的空间范围内在长宽高三个维度上分别按照等间隔采样方式进行空间点采样，得到多个目标空间点；多个目标空间点可形成多个小立方体，其中一个小立方体即为一个体积元素；针对每个小立方体，将该小立方体上的空间点的空间坐标输入初始隐式三维表征模型中，得到这些目标空间点的体积密度，体积元素和体积元素包含的目标空间点的体积密度构成标量场数据；基于体积元素包含的目标空间点的体积密度，利用Marching cube（移动立方体）算法对体积元素进行三角面解析，得到初始三维模型包含的三角面、三角面上的顶点及其空间坐标，其中，三角面包括多个表面点，顶点也是表面点。根据三角面和顶点可以确定初始三维模型包含的各表面点。其中，Marching Cube算法会逐个处理三维标量场中的体素（也即体积元素），分离出与等值面相交的体素，采用插值计算出等值面与立方体边的交点；根据立方体每一顶点与等值面的相对位置，将等值面与立方体边的交点按一定方式连接生成三角面，作为等值面在该立方体内的一个逼近表示；进而，在得到所有三角面之后，这些三角面相互衔接可形成目标物体对应的初始三维模型。需要说明的是，上述等间隔采样是指在同一维度上进行等间隔采样，即在长宽高中任一维度上进行空间点采样使用的采样间隔相同，但是，在不同维度上的采样间隔可以不同，当然也可以相同。例如，在该空间范围为长方体的情况下，在长这一维度上采样间隔为1，在宽这一维度上的采样间隔为0.5，在高这一维度上的采样间隔为0.8，以保证在三个维度上采样出相同数量的目标空间点。又例如，在空间范围为正方体的情况下，长宽高三个维度上的采样间隔可以均为1，以保证在三个维度上采样出相同数量的目标空间点。

在本实施例中，在得到初始三维模型之后，针对初始三维模型上每个表面点，根据该表面点对应的至少一条第一视线的视角信息确定该表面点的颜色信息。在确定出初始三维模型上每个表面点的颜色信息后，将已经确定出各个表面点的颜色信息的初始三维模型称作为显式三维模型。其中，表面点的颜色信息可采用采用下述方式确定的：

针对任一表面点，从不同相机位姿对应的第一视线中，确定该表面点对应的至少一条第一视线，需要说明的是，同一表面点在同一相机位姿下只会有一条第一视线对应该表面点，但是，在采用不同相机位姿拍摄多张原始图像过程中，同一表面点通常会被两个或两个以上的相机位姿拍摄到，也就是说通常会有两条或两条以上来自不同相机位姿下的第一视线对应同一表面点，但是也会存在特殊情况，即某个表面点仅在一个相机位姿下被拍摄到，即只有一条第一视线对应该表面点。进一步，计算该表面点对应的至少一条第一视线的视角信息的平均值，将该平均值转换为该表面点的颜色信息进行保存。

进一步可选的，为了便于快速获取表面点对应的第一视线的视角信息，还可以生成每张原始图像对应的视角预存图，所述视角预存图中存储有该张原始图像中各像素点对应的第一视线的视角信息。值得注意的是，基于拍摄原始图像的相机位姿和相机内参，不难确定从拍摄原始图像时的光心位置出射并穿过原始图像的像素点对应的表面点的第一视线的直线方程信息，基于第一视线的直线方程信息根据几何原理可以快速获知第一视线的视角信息。

假设图像记为I，其对应的视角预存图记为R(I)。每张图像I与其视角预存图R(I)的图像尺寸大小相同，图像I与其视角预存图R(I)中的像素点具有一一对应关系，视角预存图R(I)中记录的是图像I中各像素点对应的第一视线的视角信息。应理解，第一视线从拍摄图像I时的相机光心位置出射并穿过图像I的像素点对应的目标物体上的表面点。为了便于理解，以图8为例进行说明，图8示出两张图像仅仅是示例性说明，将多张图像中的第i张图像记为I_i，图像I_i对应的视角预存图记为R(I_i)，R(I_i)中记录的是图像I_i中各像素点对应的第一视线的视角信息。将多张图像中的第j张图像记为I_j，图像I_j对应的视角预存图记为R(I_j)，R(I_j)中记录的是图像I_j中各像素点对应的第一视线的视角信息，其中，i，j为正整数，

相应地，针对任一表面点，将该表面点对应的至少一条第一视线的视角信息的平均值转换为表面点的颜色信息，以得到显式三维模型，包括：针对任一表面点，根据多张原始图像对应的相机位姿，结合初始三维模型，从多张原始图像中确定包含该表面点对应的目标像素点的至少一张目标原始图像；将至少一张目标原始图像对应的视角预存图中存储的该目标像素点对应的第一视线的视角信息的平均值转换为该表面点的颜色信息。

具体而言，多张原始图像对应不同的相机位姿，不同相机位姿对应不同的视角范围，落在视角范围内的任一表面点的图像数据可被采集到，进而在采集到的原始图像中包括与该表面点对应的目标像素点。为了便于理解，针对任一表面点，将该表面点对应的像素点称为目标像素点，并将多张原始图像中包含该表面点对应的目标像素点的原始图像称作目标原始图像；针对任一原始图像，基于原始图像的相机位姿和相机内参可以确定该相机位姿对应的视角范围。从初始三维模型获取任一表面点的空间坐标，若任一表面点的空间坐标落在相机位姿对应的视角范围内，则该相机位姿下拍摄到的原始图像为任一表面点对应的目标原始图像。若任一表面点的空间坐标未落在相机位姿对应的视角范围内，则该相机位姿下拍摄到的原始图像不是任一表面点对应的目标原始图像。

对任一表面点，在确定包含该表面点对应的目标像素点的至少一张目标原始图像之后，根据目标像素点在各张目标原始图像中的图像位置，查询各张目标原始图像对应的视角预存图对应图像位置上记录的第一视线的视角信息，获取目标像素点对应的第一视线的视角信息，并对这些目标像素点对应的第一视线的视角信息进行求平均值，得到该表面点对应的平均视角信息，以及采用视角信息与颜色信息的映射关系将该表面点对应的平均视角信息转化为该表面点的颜色信息。

进一步可选的，为了更加准确地获取目标物体上的每个表面点的平均视角信息，针对任一表面点V，确定包括表面点V的多张目标原始图像，依次将表面点V在目标原始图像中的图像坐标和目标原始图像中的目标像素点对应的第一视线的视角信息进行相乘，得到多个乘积，基于多个乘积得到表面点V对应的平均视角信息

。进一步，参见下述公式（4），可以对多个乘积进行求平均得到表面点V对应的平均视角信息

。

作为一种示例，针对任一表面点V，可以按照公式（4）计算表面点V对应的平均视角信息

：

(4)

其中，V_UV(I_i)可以按照公式（5）计算：

(5)

其中，V_UV(I_i)是表面点V在图像I_i中的图像坐标，在计算V_UV(I_i)的公式中，V带入的是表面点V在世界坐标系中的空间坐标（x,y,z），K是已知的相机内参，Z是V的深度信息。T_W2C(I_i)表示的是图像I_i对应的相机坐标系与世界坐标系的变换矩阵。应理解，不同的图像的相机位姿不同，故不同的图像对应的相机坐标系也不同。

值得注意的是，L是指拍摄到表面点V的原始图像的数量。例如，拍摄目标物体得到的20张原始图像，其中，有5张原始图像包括表面点V，则L的取值为5。

在本实施例中，在得到目标物体的初始隐式3D表征模型和显式三维模型之后，还可以随机生成显式三维模型上各表面点对应的不同于第一视线的虚拟视线，为了便于理解，将随机生成的虚拟视线称作为第二视线，应理解，相对于真实相机发射出的第一视线来说，第二视线是假设的虚拟相机发射出的虚拟视线。可选地，针对显式三维模型任一表面点，可以随机生成该表面点对应的第二视线，并根据该表面点的颜色信息生成该表面点对应的第二视线对应的平均视角信息。

在本实施例中，针对显式三维模型上任一表面点，可以以该表面点对应的第一视线为参考视线，在该参考视线一定范围内随机生成该表面点对应的第二视线。值得注意的是，若该表面点出现在不同相机位姿下的多张原始图像中，可以针对每个相机位姿下的该表面点均随机生成其对应的第二视线。简单来说，对任一表面点，可以根据该表面点对应的第一视线随机生成该表面点对应的第二视线。

进一步可选的，根据该表面点对应的第一视线随机生成该表面点对应的第二视线包括：根据该表面点的空间坐标和该表面点对应的第一视线的视角信息，随机生成一条经过该表面点且不同于该表面点对应的第一视线的视线作为第二视线。

具体而言，根据该表面点的空间坐标和该目标像素点对应的第一视线的视角信息，确定候选空间范围；在该候选空间范围中，随机生成一条经过该表面点且不同于该目标像素点对应的第一视线的视线作为第二视线。其中，候选空间范围可以是任意形状的空间范围。可选的，候选空间范围是以表面点的空间坐标为圆点，以穿过目标像素点对应的第一视线为中心线的椎体空间范围。在确定候选空间范围时，可以是第二视线与穿过表面点的第一视线之间的夹角范围为[-η,η]度。其中，η例如为30度。

以图9为例，图9中的圆锥体以OV为中心线，以椅子的表面点5为圆锥圆点。O是发射第一视线的真实相机的光心位置，O′是发射第二视线的虚拟相机的光心位置，OV是第一视线，O′V是随机生成的第二视线，在圆锥体内所有O′V视线（图8中浅颜色的带箭头的射线）与OV之间的夹角范围为[-30，30]度。

进一步可选的，可以预先生成每张原始图像对应的深度预存图，以便基于深度预存图快速获取表面点的空间坐标，进而提高随机生成第二视线的效率。其中，每张原始图像对应的深度预存图中存储有该张原始图像中各像素点对应表面点的深度信息。基于此，针对任一表面点，根据该表面点对应的第一视线随机生成该表面点对应的第二视线的一种可选实现方式为：针对任一表面点，根据该多张原始图像对应的相机位姿，结合该显式三维模型，从该多张原始图像中确定包含该表面点对应的目标像素点的至少一张目标原始图像；针对每张目标原始图像，根据该目标原始图像对应的深度预存图中存储的该目标像素点对应表面点的深度信息，计算该表面点的空间坐标，根据该表面点的空间坐标和该目标像素点对应的第一视线的视角信息，随机生成一条经过该表面点且不同于该目标像素点对应的第一视线的视线作为第二视线。

关于从多张原始图像中选择任一表面点对应的至少一张目标原始图像的方式可以参见前述内容，在此不再赘述。需要说明的是，在上述过程中，可以再次执行从多张原始图像中选择任一表面点的至少一张目标原始图像的操作，也可以不再执行，而是在上文执行该操作时记录表面点与目标原始图像之间的对应关系，基于该对应关系直接获取任一表面点对应的至少一张目标原始图像。

在从深度预存图得到表面点的深度信息之后，基于穿过表面点的直线方程可以获取表面点的空间坐标。以图7为例，假设第一视线为视线r1，视线r1击中椅子上的表面点V，表面点V到光心位置O之间的距离（深度信息）记为t_z，将t_z带入直线方程r=O+td中，在已知光心位置O的空间坐标和视线r1的视角信息的情况下，可以计算出表面点V的空间坐标。

下面介绍几种可选的深度预存图生成方式。

方式1：针对每张原始图像中的任一像素点，针对该像素点对应的第一视线上的任一空间点，根据空间点之间的采样间距、该空间点的体积密度、深度信息以及该空间点之前其它空间点的体积密度，计算该空间点到该像素点对应的第一视线对应的相机光心的深度信息；对该像素点对应的第一视线上多个空间点到相机光心的深度信息进行加权平均，得到该像素点对应表面点到相机光心的深度信息；根据每张原始图像中各像素点对应表面点到相机光心的深度信息，生成每张原始图像对应的深度预存图。

值得注意的是，可以在获取到初始隐式三维表征模型之后开始采用方式1生成深度预存图，或者在构建显式三维模型之前或之后采用方式1生成深度预存图，本实施例对此不做限制。

具体而言，假设第一视线的直线方程记为r=O+td。O是第一视线对应的光心位置，d是第一视线的视角信息，t是第一视线上的某个空间点的深度信息，t反映的是第一视线上的某个空间点与光心位置O之间距离。在第一视线上采样N个目标空间点，N为大于1的正整数，针对第i个目标空间点，i为1至N之间的正整数，记第i个目标空间点对应的采样间距为δ_i、记第i个目标空间点对应的体积密度为σ_i、记第i个目标空间点对应的深度信息为t_i、记前i-1个目标空间点的累加体积密度为T_i，记第一视线穿过的表面点到相机光心的深度信息记为t_z，t_z可以按照公式（6）计算：

(6)

其中，δ_i=t_i+1-t_i，t_i可以通过第i个目标空间点的空间坐标和光心位置O的空间坐标之差得到。

方式2：

针对每张原始图像，利用该张原始图像对应的相机位姿对该显式三维模型进行光栅化渲染，得到该张原始图像中各像素点对应表面点到相机光心的深度信息；根据该张原始图像中各像素点对应表面点到相机光心的深度信息，生成该张原始图像对应的深度预存图。值得注意的是，在获取到显式三维模型之后再开始采用方式2生成深度预存图。

在本实施例中，采用上述实施例的方法，可以针对多张原始图像中各像素点对应的表面点分别随机生成第二视线，即可得到随机产生多条第二视线，并得到多条第二视线对应的平均视角信息，进一步可以利用多条第二视线对应的平均视角信息和多条第二视线上空间点的空间坐标，继续基于初始隐式3D表征模型进行基于神经网络的三维重建（或模型训练），得到目标隐式3D表征模型。例如，图3中视线r3可以视为随机生成的第二视线，视线r3上的圆点是多个空间点。需要说明的是，可以在对初始隐式3D表征模型进行训练之前预先采用上述方式产生所有的第二视线及其对应的平均视角信息，之后再采用多轮迭代的方式，每次使用其中部分第二视线对应的平均视角信息和部分第二视线上空间点的空间坐标，继续在初始隐式3D表征模型的基础上进行三维重建（或模型训练），直到得到三维重建的损失函数符合要求的目标隐式3D表征模型为止。或者，也可以在每次迭代过程中，实时采用上述方式产生本轮迭代所需的第二视线及其对应的平均视角信息，并基于实时产生的第二视线对应的平均视角信息和实时产生的第二视线上空间点的空间坐标，继续在初始隐式3D表征模型的基础上进行三维重建（或模型训练），直到得到三维重建的损失函数符合要求的目标隐式3D表征模型为止。

值得注意的是，针对同一表面点对应的多条第二视线，多条第二视线的视角信息均相同，均为根据该表面点对应的第一视线的视角信息计算得到的平均视角信息

。这样，在初始隐式3D表征模型基础上继续进行三维重建的过程，针对第二视线上的任一空间点，该空间点的颜色信息可以表达为：c=Fc（

,Fσ（x）），其中，Fσ（x）表示的是用于预测σ体积密度的Fσ网络基于第二视线上的空间点的空间坐标输出该空间点对应的中间特征。也即第二视线上的任一空间点的颜色信息是基于平均视角信息

和Fσ（x）得到的。

值得注意的是，在三维重建过程中，依次利用每条第二视线对应的平均视角信息和第二视线上空间点的空间坐标在该初始隐式3D表征模型的基础上继续进行三维重建，在每次利用上一批次的第二视线对应的平均视角信息和上一批次的第二视线上空间点的空间坐标执行一次重建操作后，采用立体渲染技术，利用预测出的上一批次中各条第二视线上各个空间点的体积密度分别对各条第二视线上各个空间点的RGB颜色信息进行积分，得到上一批次中各条第二视线对应的像素点的预测RGB颜色信息；基于上一批次中各条第二视线对应的像素点的预测RGB颜色信息与各条第二视线对应的像素点的实际RGB颜色信息（这里的实际RGB颜色信息是指相应样本图像中该像素点的颜色信息）计算损失函数，若损失函数收敛，至此完成三维重建（或模型训练）过程，若损失函数未收敛，则调整模型参数，并利用下一批次第二视线对应的平均视角信息和下一批次第二视线上空间点的空间坐标继续迭代训练，直至损失函数收敛。

在此对立体渲染技术进行简单说明，针对视线r，在视线r上采样N个空间点，N为大于1的正整数，针对第i个目标空间点，i为1至N之间的正整数，记第i个目标空间点对应的采样间距为δ_i、记第i个目标空间点对应的体积密度为σ_i、记第i个目标空间点对应的深度信息为t_i、记前i-1个目标空间点的累加体积密度为T_i，记视线r的颜色为

，

也即视线r的颜色对应像素点的颜色信息，其中，δ_i=t_i+1-t_i，t_i的取值范围在预设的数值区间[t_n，t_f]内，数值t_n和数值t_f与目标物体的空间范围相关，也即目标物体的空间围在[t_n，t_f]内。于是，视线 r的颜色可以按照公式(6)表达为：

(6)

其中，T_i可以按照公式（7）计算：

(7)

其中，j是1至i-1之间的正整数。

本申请实施例提供的三维模型重建方法，以包含目标物体的多张原始图像为基础分别进行基于神经网络的三维重建和传统的三维重建，得到初始隐式三维表征模型和显式三维模型；基于显式三维模型进行随机视线和平均视角的生成，基于随机视线和平均视角在初始隐式3D表征模型的基础上继续进行基于神经网络的三维重建，得到目标隐式3D表征模型。其中，初始隐式3D表征模型和目标隐式3D表征模型都是对目标物体进行隐式三维表示的神经网络模型。在三维重建过程中，通过产生随机视线并以随机视线对应的平均视角信息代替其真实视角信息的方式，利用随机视线及其对应的平均视角信息增强视线数据，基于增强后的视线数据继续进行基于神经网络的三维重建，可以得到对视线具有较强鲁棒性的隐式3D表征模型，大大提升基于该隐式3D表征模型合成不同视角图像时的鲁棒性。

在一可选实施例中，可以面向用户提供一种基于神经网络的三维重建服务，该服务可以部署在服务端，服务端可以在云端，在实现形态上可以是云端服务器、虚拟机、容器等；当然，服务端也可以采用传统服务器实现，对此不做限定。该服务面向用户提供人机交互界面，该人机交互界面可以是web界面或命令窗等。用户可以通过该服务提供的人机交互界面使用该服务，例如通过该人机交互界面向服务端提交原始图像或待渲染视角图像对应的目标相机位姿，并且可通过人机交互界面展示目标物体对应的显式三维模型或渲染出的视角图像等。

在一可选实施例中，用户在其使用的终端设备上展示基于神经网络的三维重建服务对应的人机交互界面，用户通过该人机交互界面进行图像上传或图像拍摄，以提交进行三维重建所需的包含目标物体的多张原始图像。基于此，响应于人机交互界面上的图像上传操作或图像拍摄操作，获取包含目标物体的多张原始图像；之后，执行三维重建过程，该过程如图5所示，在此不再赘述。

进一步，在得到目标隐式3D表征模型之后，还可以在人机交互界面上输出已得到目标隐式3D表征模型的消息，以通知用户可以基于该目标隐式3D表征模型进行新视角图像的合成；或者，也可以在人机交互界面上输出显式三维模型，以供用户基于该显式三维模型和目标隐式3D表征模型进行场景搭配或全景展示。以场景搭配为例，用户可以在该人机交互界面上选择初始三维场景，通过拖拽等操作将目标物体对应的显式三维模型添加到初始三维场景，并对添加显式三维模型的初始三维场景进行布局和相机位姿的调整，得到包含该显式三维模型的目标三维场景；之后，响应用户在人机交互界面上的提交操作，一方面对目标三维场景进行基于物理的渲染，至少得到初始二维场景图像和包括第一光照信息的第一光照图像；另一方面利用目标物体对应的目标隐式三维表征模型生成目标物体对应的具有第二光照信息的第一视角图像；将第一光照图像中的第一光照信息和第一视角图像融合至所述初始二维场景图像中所述目标物体所在的图像区域，得到目标二维场景图像。关于各步骤的详细实现可参见前述实施例，在此不再赘述。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤201至步骤204的执行主体可以为设备A；又比如，步骤201和202的执行主体可以为设备A，步骤203和步骤204的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如201、202等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图10为本申请实施例提供的一种图像生成装置的结构示意图。如图10所示，该装置可以包括：生成模块101、物理渲染模块102、神经渲染模块103和光照迁移模块104。

生成模块101，用于根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景，显式三维模型在目标三维场景中对应第一相机位姿；

物理渲染模块102，用于对目标三维场景进行基于物理的渲染，至少得到初始二维场景图像和包括第一光照信息的第一光照图像，第一光照信息反映显式三维模型与目标三维场景之间的光照关系；

神经渲染模块103，用于根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像，第一视角图像具有第二光照信息；

光照迁移模块104，用于将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，神经渲染模块103根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像时，具体用于：根据显式三维模型在世界坐标系下的初始位姿和其在目标三维场景中的最终位姿，将第一相机位姿转换为世界坐标系下的第二相机位姿；根据第二相机位姿和显式三维模型进行渲染生成多条目标视线，并获取多条目标视线上空间点的空间坐标和视角信息；将多条目标视线上空间点的空间坐标和视角信息输入目标隐式三维表征模型进行视图合成，得到第一视角图像。

进一步可选的，神经渲染模块103根据第二相机位姿和显式三维模型进行渲染生成多条目标视线，并获取多条目标视线上空间点的空间坐标和视角信息时，具体用于：根据第二相机位姿对显式三维模型进行光栅化渲染，得到显式三维模型上位于第二相机位姿对应视野范围内的目标表面点及其颜色信息，目标表面点的颜色信息表示该目标表面点对应视线的平均视角信息；针对任一目标表面点，获取第二相机位姿对应的相机光心到目标表面点的目标视线上空间点的空间坐标，并将目标表面点的颜色信息转换为其所表示的平均视角信息作为目标视线上空间点的视角信息。

进一步可选的，神经渲染模块103还用于：根据包含目标物体的多张原始图像进行基于神经网络的三维重建，得到初始隐式3D表征模型，所述目标物体上的表面点与对应原始图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；根据所述初始隐式3D表征模型和所述多张原始图像，构建显式三维模型，所述显式三维模型包括所述目标物体上表面点的颜色信息，每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的；随机生成所述显式三维模型上表面点对应的第二视线，并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息；根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标，基于所述初始隐式3D表征模型进行基于神经网络的三维重建，得到目标隐式3D表征模型。

进一步可选的，光照迁移模块104将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像时，具体用于：将第一光照图像中的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像；将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，光照迁移模块104将第一光照图像中的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像时，具体用于：将第一光照图像和第一视角图像输入光照迁移模型中，利用光照迁移模型中的光照解耦网络将第二光照信息从第一视角图像中剥离，得到不带光照信息的第一中间态图像；利用光照迁移模型中的光照融合网络将第一光照图像中的第一光照信息与第一中间态图像进行融合，得到具有第一光照信息的第二视角图像。

进一步可选的，光照迁移模块104利用光照迁移模型中的光照解耦网络将第二光照信息从第一视角图像中剥离，得到不带光照信息的第一中间态图像时，具体用于：将第一视角图像输入光照解耦网络的编码器，对第一视角图像进行编码得到第一图像特征；将第一图像特征输入至光照解耦网络的解码器的第一解码器和第二解码器，分别对第一图像特征进行解码，得到第一视角图像对应的反射颜色图像和漫反射颜色图像作为第一中间态图像。

进一步可选的，光照迁移模块104利用光照迁移模型中的光照融合网络将第一光照图像中的第一光照信息与第一中间态图像进行融合，得到具有第一光照信息的第二视角图像时，具体用于：将反射颜色图像、漫反射颜色图像和第一光照图像输入光照融合网络中的编码器进行编码，得到第二图像特征；将第二图像特征分别输入光照融合网络中的第一解码器和第二解码器，得到颜色残差和光照残差；

根据反射颜色图像、漫反射颜色图像和颜色残差生成不带光照信息的第二中间态图像，根据第一光照图像和光照残差得到第二光照图像；将第二中间态图像与第二光照图像进行融合，得到具有第一光照信息的第二视角图像。

进一步可选的，物理渲染模块102还用于：在对目标三维场景进行渲染过程中，获取显式三维模型对应的深度图像和掩码图像；

相应地，光照迁移模块104将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像时，具体用于：

根据深度图像和掩码图像，将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，光照迁移模块104，还用于：根据纹理图集和样本物体的显式三维模型，构造多组训练样本，每组训练样本至少包括具有第二样本光照信息的样本视角图像、包括第一样本光照信息的样本光照图像、具有第一样本光照信息的预期视角图像以及样本视角图像对应的预期反射颜色图像和预期漫反射颜色图像；根据多组训练样本中的样本视角图像、预期反射颜色图像和预期漫反射颜色图像进行第一阶段的模型训练，得到光照解耦网络；根据多组训练样本中的样本光照图像、预期视角图像、以及光照解耦网络输出的样本反射颜色图像和样本漫反射颜色图像预期进行第二阶段的模型训练，得到与光照解耦网络级联的光照融合网络。

进一步可选的，生成模块101根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景时，具体用于：根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例；根据位置、朝向和缩放比例，将显式三维模型添加至初始三维场景中，得到中间三维场景；对中间三维场景的布局和/或其对应的第三相机位姿进行调整，得到目标三维场景。

进一步可选的，生成模块101根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例时，具体用于：在图形用户界面上展示初始三维场景，响应图形用户界面上的配置操作，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例。

进一步可选的，在根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例之前，生成模块101还用于：对显式三维模型进行渲染，得到目标物体对应的正面图像；根据正面图像，确定目标物体的至少一种属性信息；根据至少一种属性信息，从三维场景库中获取初始三维场景。

进一步可选的，生成模块101根据至少一种属性信息，从三维场景库中获取初始三维场景时，具体用于：从三维场景库中获取与至少一种属性信息适配的已有三维场景，作为初始三维场景；或者，将显式三维模型作为种子模型，根据至少一种属性信息，从已有物体模型中获取与显式三维模型适配的其它物体模型；根据显式三维模型和其它物体模型生成局部场景信息；从三维场景库中获取与局部场景信息适配的已有三维场景，作为初始三维场景。

关于图10所示的装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11为本申请实施例提供的一种计算机设备的结构示意图。参见图11，该计算机设备包括：存储器111和处理器112。

存储器111，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器111可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器112，与存储器111耦合，用于执行存储器111中的计算机程序，以用于：根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景，显式三维模型在目标三维场景中对应第一相机位姿；对目标三维场景进行基于物理的渲染，至少得到初始二维场景图像和包括第一光照信息的第一光照图像，第一光照信息反映显式三维模型与目标三维场景之间的光照关系；根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像，第一视角图像具有第二光照信息；将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，处理器112根据第一相机位姿，利用目标物体对应的目标隐式三维表征模型生成目标物体对应的第一视角图像时，具体用于：根据显式三维模型在世界坐标系下的初始位姿和其在目标三维场景中的最终位姿，将第一相机位姿转换为世界坐标系下的第二相机位姿；根据第二相机位姿和显式三维模型进行渲染生成多条目标视线，并获取多条目标视线上空间点的空间坐标和视角信息；将多条目标视线上空间点的空间坐标和视角信息输入目标隐式三维表征模型进行视图合成，得到第一视角图像。

进一步可选的，处理器112根据第二相机位姿和显式三维模型进行渲染生成多条目标视线，并获取多条目标视线上空间点的空间坐标和视角信息时，具体用于：根据第二相机位姿对显式三维模型进行光栅化渲染，得到显式三维模型上位于第二相机位姿对应视野范围内的目标表面点及其颜色信息，目标表面点的颜色信息表示该目标表面点对应视线的平均视角信息；针对任一目标表面点，获取第二相机位姿对应的相机光心到目标表面点的目标视线上空间点的空间坐标，并将目标表面点的颜色信息转换为其所表示的平均视角信息作为目标视线上空间点的视角信息。

进一步可选的，处理器112，还用于：根据包含目标物体的多张原始图像进行基于神经网络的三维重建，得到初始隐式3D表征模型，所述目标物体上的表面点与对应原始图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；根据所述初始隐式3D表征模型和所述多张原始图像，构建显式三维模型，所述显式三维模型包括所述目标物体上表面点的颜色信息，每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的；随机生成所述显式三维模型上表面点对应的第二视线，并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息；根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标，基于所述初始隐式3D表征模型进行基于神经网络的三维重建，得到目标隐式3D表征模型。

进一步可选的，处理器112将第一光照图像中的第一光照信息和第一视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像时，具体用于：将第一光照图像中的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像；将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，处理器112将第一光照图像中的第一光照信息迁移至第一视角图像中，得到具有第一光照信息的第二视角图像时，具体用于：将第一光照图像和第一视角图像输入光照迁移模型中，利用光照迁移模型中的光照解耦网络将第二光照信息从第一视角图像中剥离，得到不带光照信息的第一中间态图像；利用光照迁移模型中的光照融合网络将第一光照图像中的第一光照信息与第一中间态图像进行融合，得到具有第一光照信息的第二视角图像。

进一步可选的，处理器112利用光照迁移模型中的光照解耦网络将第二光照信息从第一视角图像中剥离，得到不带光照信息的第一中间态图像时，具体用于：将第一视角图像输入光照解耦网络的编码器，对第一视角图像进行编码得到第一图像特征；将第一图像特征输入至光照解耦网络的第一解码器和第二解码器，分别对第一图像特征进行解码，得到第一视角图像对应的反射颜色图像和漫反射颜色图像作为第一中间态图像。

进一步可选的，处理器112利用光照迁移模型中的光照融合网络将第一光照图像中的第一光照信息与第一中间态图像进行融合，得到具有第一光照信息的第二视角图像时，具体用于：将反射颜色图像、漫反射颜色图像和第一光照图像输入光照融合网络中的编码器进行编码，得到第二图像特征；将第二图像特征分别输入光照融合网络中的第一解码器和第二解码器，得到颜色残差和光照残差；根据反射颜色图像、漫反射颜色图像和颜色残差生成不带光照信息的第二中间态图像，根据第一光照图像和光照残差得到第二光照图像；将第二中间态图像与第二光照图像进行融合，得到具有第一光照信息的第二视角图像。

进一步可选的，处理器112，还用于：在对目标三维场景进行渲染过程中，获取显式三维模型对应的深度图像和掩码图像；

相应地，处理器112将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像时，具体用于：根据深度图像和掩码图像，将第二视角图像融合至初始二维场景图像中目标物体所在的图像区域，得到目标二维场景图像。

进一步可选的，处理器112，还用于：根据纹理图集和样本物体的显式三维模型，构造多组训练样本，每组训练样本至少包括具有第二样本光照信息的样本视角图像、包括第一样本光照信息的样本光照图像、具有第一样本光照信息的预期视角图像以及样本视角图像对应的预期反射颜色图像和预期漫反射颜色图像；根据多组训练样本中的样本视角图像、预期反射颜色图像和预期漫反射颜色图像进行第一阶段的模型训练，得到光照解耦网络；根据多组训练样本中的样本光照图像、预期视角图像以及光照解耦网络输出的样本反射颜色图像和样本漫反射颜色图像预期进行第二阶段的模型训练，得到与光照解耦网络级联的光照融合网络。

进一步可选的，处理器112根据目标物体对应的显式三维模型和初始三维场景，生成包含显式三维模型的目标三维场景时，具体用于：根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例；根据位置、朝向和缩放比例，将显式三维模型添加至初始三维场景中，得到中间三维场景；对中间三维场景的布局和/或其对应的第三相机位姿进行调整，得到目标三维场景。

进一步可选的，处理器112根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例时，具体用于：

在图形用户界面上展示初始三维场景，响应图形用户界面上的配置操作，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例。

进一步可选的，根据场景搭配需求信息，获取显式三维模型在初始三维场景中的位置、朝向和缩放比例之前，处理器112还用于：对显式三维模型进行渲染，得到目标物体对应的正面图像；根据正面图像，确定目标物体的至少一种属性信息；根据至少一种属性信息，从三维场景库中获取初始三维场景。

进一步可选的，处理器112根据至少一种属性信息，从三维场景库中获取初始三维场景时，具体用于：从三维场景库中获取与至少一种属性信息适配的已有三维场景，作为初始三维场景；或者，将显式三维模型作为种子模型，根据至少一种属性信息，从已有物体模型中获取与显式三维模型适配的其它物体模型；根据显式三维模型和其它物体模型生成局部场景信息；从三维场景库中获取与局部场景信息适配的已有三维场景，作为初始三维场景。

进一步，如图11所示，该计算机设备还包括：通信组件113、显示器114、电源组件115、音频组件116等其它组件。图11中仅示意性给出部分组件，并不意味着计算机设备只包括图11所示组件。另外，图11中虚线框内的组件为可选组件，而非必选组件，具体可视排产设备的产品形态而定。本实施例的计算机设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图11中虚线框内的组件；若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图11中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算机设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中可由计算机设备执行的各步骤。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像生成方法，其特征在于，包括：

根据目标物体对应的显式三维模型和初始三维场景，生成包含所述显式三维模型的目标三维场景，所述显式三维模型在所述目标三维场景中对应第一相机位姿；

对所述目标三维场景进行基于物理的渲染，至少得到初始二维场景图像和包括第一光照信息的第一光照图像，所述第一光照信息反映所述显式三维模型与所述目标三维场景之间的光照关系；

根据所述第一相机位姿，利用所述目标物体对应的目标隐式三维表征模型生成所述目标物体对应的第一视角图像，所述第一视角图像具有第二光照信息；

将所述第一光照图像中的第一光照信息和所述第一视角图像融合至所述初始二维场景图像中所述目标物体所在的图像区域，得到目标二维场景图像。

2.根据权利要求1所述的方法，其特征在于，根据所述第一相机位姿，利用所述目标物体对应的目标隐式三维表征模型生成所述目标物体对应的第一视角图像，包括：

根据所述显式三维模型在世界坐标系下的初始位姿和其在所述目标三维场景中的最终位姿，将所述第一相机位姿转换为世界坐标系下的第二相机位姿；

根据所述第二相机位姿和所述显式三维模型进行渲染生成多条目标视线，并获取所述多条目标视线上空间点的空间坐标和视角信息；

将所述多条目标视线上空间点的空间坐标和视角信息输入所述目标隐式三维表征模型进行视图合成，得到所述第一视角图像。

3.根据权利要求2所述的方法，其特征在于，根据所述第二相机位姿和所述显式三维模型进行渲染生成多条目标视线，并获取所述多条目标视线上空间点的空间坐标和视角信息，包括：

根据所述第二相机位姿对所述显式三维模型进行光栅化渲染，得到所述显式三维模型上位于所述第二相机位姿对应视野范围内的目标表面点及其颜色信息，所述目标表面点的颜色信息表示该目标表面点对应视线的平均视角信息；

针对任一目标表面点，获取所述第二相机位姿对应的相机光心到所述目标表面点的目标视线上空间点的空间坐标，并将所述目标表面点的颜色信息转换为其所表示的平均视角信息作为所述目标视线上空间点的视角信息。

4.根据权利要求3所述的方法，其特征在于，还包括：

根据包含所述目标物体的多张原始图像进行基于神经网络的三维重建，得到初始隐式三维表征模型，所述目标物体上的表面点与对应原始图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；

根据所述初始隐式三维表征模型和所述多张原始图像，构建显式三维模型，所述显式三维模型包括所述目标物体上表面点的颜色信息，每个表面点的颜色信息是根据该表面点对应的第一视线的平均视角信息确定的；

随机生成所述显式三维模型上表面点对应的第二视线，并根据每个表面点的颜色信息分别生成每个表面点对应的第二视线对应的平均视角信息；

根据所述第二视线对应的平均视角信息和所述第二视线上空间点的空间坐标，基于所述初始隐式3D表征模型进行基于神经网络的三维重建，得到目标隐式3D表征模型。

5.根据权利要求1所述的方法，其特征在于，将所述第一光照图像中的第一光照信息和所述第一视角图像融合至所述初始二维场景图像中所述目标物体所在的图像区域，得到目标二维场景图像，包括：

将所述第一光照图像中的第一光照信息迁移至所述第一视角图像中，得到具有所述第一光照信息的第二视角图像；

将所述第二视角图像融合至所述初始二维场景图像中所述目标物体所在的图像区域，得到目标二维场景图像。

6.根据权利要求5所述的方法，其特征在于，将所述第一光照图像中的第一光照信息迁移至所述第一视角图像中，得到具有所述第一光照信息的第二视角图像，包括：

将所述第一光照图像和所述第一视角图像输入光照迁移模型中，利用所述光照迁移模型中的光照解耦网络将所述第二光照信息从所述第一视角图像中剥离，得到不带光照信息的第一中间态图像；

利用所述光照迁移模型中的光照融合网络将所述第一光照图像中的第一光照信息与所述第一中间态图像进行融合，得到具有所述第一光照信息的第二视角图像。

7.根据权利要求6所述的方法，其特征在于，利用所述光照迁移模型中的光照解耦网络将所述第二光照信息从所述第一视角图像中剥离，得到不带光照信息的第一中间态图像，包括：

将所述第一视角图像输入所述光照解耦网络的编码器，对所述第一视角图像进行编码得到第一图像特征；

将所述第一图像特征输入至所述光照解耦网络的第一解码器和第二解码器，分别对所述第一图像特征进行解码，得到所述第一视角图像对应的反射颜色图像和漫反射颜色图像作为所述第一中间态图像。

8.根据权利要求7所述的方法，其特征在于，利用所述光照迁移模型中的光照融合网络将所述第一光照图像中的第一光照信息与所述第一中间态图像进行融合，得到具有所述第一光照信息的第二视角图像，包括：

将所述反射颜色图像、所述漫反射颜色图像和所述第一光照图像输入所述光照融合网络中的编码器进行编码，得到第二图像特征；

将所述第二图像特征分别输入所述光照融合网络中的第一解码器和第二解码器，得到颜色残差和光照残差；

根据所述反射颜色图像、所述漫反射颜色图像和所述颜色残差生成不带光照信息的第二中间态图像，根据所述第一光照图像和所述光照残差得到第二光照图像；

将所述第二中间态图像与所述第二光照图像进行融合，得到具有所述第一光照信息的第二视角图像。

9.根据权利要求5所述的方法，其特征在于，还包括：在对所述目标三维场景进行渲染过程中，获取所述显式三维模型对应的深度图像和掩码图像；

相应地，将所述第二视角图像融合至所述初始二维场景图像中所述目标物体所在的图像区域，得到目标二维场景图像，包括：

根据所述深度图像和掩码图像，将所述第二视角图像融合至所述初始二维场景图像中所述目标物体所在的图像区域，得到目标二维场景图像。

10.根据权利要求6所述的方法，其特征在于，还包括：

根据纹理图集和样本物体的显式三维模型，构造多组训练样本，每组训练样本至少包括具有第二样本光照信息的样本视角图像、包括第一样本光照信息的样本光照图像、具有第一样本光照信息的预期视角图像以及所述样本视角图像对应的预期反射颜色图像和预期漫反射颜色图像；

根据所述多组训练样本中的样本视角图像、预期反射颜色图像和预期漫反射颜色图像进行第一阶段的模型训练，得到光照解耦网络；

根据所述多组训练样本中的样本光照图像、预期视角图像以及所述光照解耦网络输出的样本反射颜色图像和样本漫反射颜色图像进行第二阶段的模型训练，得到与所述光照解耦网络级联的光照融合网络。

11.根据权利要求1-10任一项所述的方法，其特征在于，根据目标物体对应的显式三维模型和初始三维场景，生成包含所述显式三维模型的目标三维场景，包括：

根据场景搭配需求信息，获取所述显式三维模型在所述初始三维场景中的位置、朝向和缩放比例；

根据所述位置、朝向和缩放比例，将所述显式三维模型添加至所述初始三维场景中，得到中间三维场景；

对所述中间三维场景的布局和/或其对应的第三相机位姿进行调整，得到所述目标三维场景。

12.根据权利要求11所述的方法，其特征在于，根据场景搭配需求信息，获取所述显式三维模型在所述初始三维场景中的位置、朝向和缩放比例，包括：

在图形用户界面上展示所述初始三维场景，响应所述图形用户界面上的配置操作，获取所述显式三维模型在所述初始三维场景中的位置、朝向和缩放比例。

13.根据权利要求11所述的方法，其特征在于，在根据场景搭配需求信息，获取所述显式三维模型在所述初始三维场景中的位置、朝向和缩放比例之前，还包括：

对所述显式三维模型进行渲染，得到所述目标物体对应的正面图像；

根据所述正面图像，确定所述目标物体的至少一种属性信息；

根据所述至少一种属性信息，从三维场景库中获取所述初始三维场景。

14.根据权利要求13所述的方法，其特征在于，根据所述至少一种属性信息，从三维场景库中获取所述初始三维场景，包括：

从三维场景库中获取与所述至少一种属性信息适配的已有三维场景，作为所述初始三维场景；

或者

将所述显式三维模型作为种子模型，根据所述至少一种属性信息，从已有物体模型中获取与所述显式三维模型适配的其它物体模型；根据所述显式三维模型和所述其它物体模型生成局部场景信息；从三维场景库中获取与所述局部场景信息适配的已有三维场景，作为所述初始三维场景。

15.一种计算机设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-14任一项所述方法中的步骤。

16.一种存储有计算机程序的计算机存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-14任一项所述方法中的步骤。