CN115100339A

CN115100339A - 图像生成方法、装置、电子设备和存储介质

Info

Publication number: CN115100339A
Application number: CN202210683212.9A
Authority: CN
Inventors: 陈睿智; 刘星
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-23
Anticipated expiration: 2042-06-15
Also published as: CN115100339B

Abstract

本公开提供了一种图像生成方法、装置，涉及人工智能领域，具体涉及增强现实、虚拟现实、计算机视觉和深度学习等技术领域，可应用于元宇宙等场景。图像生成方法的具体实现方案为：根据针对场景的神经辐射场所输出的场景数据，生成场景的三维场景模型；根据目标对象的三维对象模型和三维场景模型，生成包含三维对象模型的三维场景信息；根据场景数据和目标视角，确定三维场景信息中三维对象模型的环境光信息；以及根据场景数据、环境光信息和三维场景信息进行图像渲染，生成目标视角的目标图像，其中，目标图像包括目标对象和场景。

Description

图像生成方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及增强现实、虚拟现实、计算机视觉以及深度学习等技术领域，可应用于元宇宙等场景。

背景技术

随着计算机技术和网络技术的发展，图像渲染技术及通过与神经网络整合来对图像渲染技术进行了改进的神经渲染(neural rendering)技术得到快速发展。图像渲染技术旨在根据三维模型生成二维图像，以给用户带来更接近于现实世界的视觉感受，在图像渲染之前，需要对实体所在场景进行形状和纹理的重建。

发明内容

本公开旨在提供一种降低计算量并提高渲染效果的图像生成方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种图像生成方法，包括：根据针对场景的神经辐射场所输出的场景数据，生成场景的三维场景模型；根据目标对象的三维对象模型和三维场景模型，生成包含三维对象模型的三维场景信息；根据场景数据和目标视角，确定三维场景信息中三维对象模型的环境光信息；以及根据场景数据、环境光信息和三维场景信息进行图像渲染，生成针对目标视角的目标图像，其中，目标图像包括目标对象和场景。

根据本公开的另一个方面，提供了一种图像生成装置，包括：模型生成模块，用于根据针对场景的神经辐射场所输出的场景数据，生成场景的三维场景模型；场景生成模块，用于根据目标对象的三维对象模型和三维场景模型，生成包含三维对象模型的三维场景信息；环境光确定模块，用于根据场景数据和目标视角，确定三维场景信息中三维对象模型的环境光信息；图像生成模块，用于根据场景数据、环境光信息和三维场景信息进行图像渲染，生成针对目标视角的目标图像，其中，目标图像包括目标对象和场景。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的图像生成方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的图像生成方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的图像生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的图像生成方法和装置的应用场景示意图；

图2是根据本公开实施例的图像生成方法的流程示意图；

图3是根据本公开实施例的确定在三维场景信息中三维对象模型的环境光信息的原理示意图；

图4是根据本公开实施例的确定表面顶点的法向量的原理示意图；

图5是根据本公开实施例的构建神经辐射场的原理示意图；

图6是根据本公开实施例的图像生成装置的结构框图；以及

图7是用来实施本公开实施例的图像生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下先对本公开所采用的专业术语进行如下解释：

神经渲染，是深度网络合成图像的各类方法的总称，各类神经渲染的目标是实现图像渲染中建模和渲染的全部或部分的功能。

神经辐射场，Neural Radiance Fields，简称为NeRF，是一种利用多目图像重建三维场景的技术。NeRF使用一组多目图，通过优化一个潜在连续的体素场景方程来得到一个完整的三维场景。具体地，基于NeRF的渲染首先根据场景不同视角的图像学习到场景表征，再由表征生成任意指定角度的图像，该NeRF支持视频合成。

图像渲染，是将三维的光能传递处理转换为一个二维图像的过程。图像渲染中要完成的工作为：对三维模型几何变换、投影变换、透视变换和窗口剪裁，再根据获取的材质与光影信息，生成图像。

基于多分辨率哈希编码的即时神经图形基元技术，Instant Neural GraphicsPrimitives with a Multiresolution Hash Encoding，简称为Instant-ngp，该技术主要用于解决NeRF在对全连接神经网络进行参数化时的效率问题。该技术提出一种编码方式，可以使用一个较小规模的网络来实现NeRF同时不会产生精度的损失。该较小规模的网络由特征向量的多分辨率哈希表实现增强，基于随机梯度下降执行优化。该技术可以将ReNF的训练以小时计的时间开销提升到秒级。

光线追踪，又称光线跟踪，是一种基于几何光学的通用技术，该技术通过追踪与光学表面发生交互作用的光线，可以得到光线经过路径的模型。光线跟踪方法沿着到达视点的光线的反方向跟踪，经过屏幕上每一个像素，找出与视线相交的物体表面点P0，并继续跟踪以找出影响P0点光强的所有光源，从而算出P0点上精确的光线强度。

法向量，空间解析几何的一个概念，垂直于平面的直线所表示的向量为该平面的法向量。

Mesh，是多边形网格，是计算机图形学中用于对各种不规则物体建模的一种数据结构，在多边形网格的面片中三角面片是被分割的最小单位，因三角面片表示比较简单、灵活且拓扑描述方便，所以被广泛使用，Mesh常常指代三角面片。

几何变换，又称空间变换，是图形处理的一个方面，是各种图形处理算法的基础，该几何变换可以将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置，其实质是改变像素的空间位置，估算新空间位置上的像素值。几何变换算法一般包括空间变换运算和插值算法。其中，空间变换运算可以涉及平移、缩放、旋转。平移就是将图像中的点按照指定的平移量水平或者垂直移动。缩放是指图像大小按照指定的比率放大或者缩小。旋转是指图像围绕某一指定点旋转一定的角度。

同步定位与地图构建技术，Simultaneous Localization and Mapping，简称为SLAM，该技术所解决的问题可以描述为：机器人在未知环境中从一个未知位置开始移动，在移动过程中根据位置和地图进行自身定位，同时在自身定位的基础上构造增量式地图，实现机器人的自主定位和导航。

可视化管线，用于获取或创建数据、处理数据以及把数据写入文件或者把数据传递给渲染引擎进行现实的结构。

以下将结合图1对本公开提供的图像生成方法和装置的应用场景进行描述。

图1是根据本公开实施例的图像生成方法和装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

在该应用场景100中，电子设备110例如可以对目标场景进行三维重建，并将重建得到的三维场景模型与预先输入的目标对象的三维模型101进行融合并对融合后三维模型进行渲染处理，得到渲染后的图像102，以此达到增强现实或虚拟现实的效果。

在一实施例中，电子设备110例如可以采用SLAM技术来对目标场景进行三维重建。该三维重建的过程需要对目标场景进行形状和纹理重建，需要依赖大量的计算来建图。在完成目标场景的三维重建后，可以将三维模型101放置到三维重建所得到的目标场景中，并通过图像渲染来得到任意视角的图像，该图像中包括目标场景和目标对象。

在一实施例中，电子设备110可以采用神经渲染技术来实现三维模型的重建和图像的渲染，以提高重建的三维模型的逼真度，降低可视化管线的实现成本。该神经渲染技术可以基于一组场景的环拍图片，从任意新的角度渲染出场景的图像，同时生成场景重建的网格和纹理图。

例如，电子设备110可以采用基于神经辐射场的场景建模技术来对目标场景进行三维建模。示例性地，电子设备110可以基于针对场景的神经辐射场130来生成目标场景的三维场景模型。随后，再将三维模型101放置到三维场景模型中，并通过图像渲染来得到任意视角的图像。

其中，神经辐射场可以根据目标场景的不同视角的图像，采用一个多层感知器神经网络来隐式地学习目标场景的静态3D结构，以得到目标场景的隐式表示。其中，能够隐式表示目标场景的神经辐射场即为针对场景的神经辐射场130。电子设备110可以根据该隐式表示，构建得到目标场景的显示三维模型。

在一实施例中，针对场景的神经辐射场130例如可以由服务器120根据目标场景的不同视角的图像构建得到。该服务器120可以通过网络与电子设备110通信连接，网络可以包括有线或无线通信链路。例如，服务器120可以响应于接收到电子设备110发送的获取请求，将构建得到的神经辐射场130发送给电子设备110。

在一实施例中，针对场景的神经辐射场130例如也可以由电子设备110根据目标场景的不同视角的图像构建得到。

在一实施例中，电子设备110例如还可以将目标对象的三维模型101通过网络发送给服务器120，由服务器120处理得到渲染后的图像102。该服务器120可以将渲染后的图像102发送给电子设备110，以供电子设备显示。

需要说明的是，本公开提供的图像生成方法可以由电子设备110或者服务器120执行，也可以部分操作由电子设备110执行，部分操作由服务器120执行。相应地，本公开提供的图像生成装置可以设置在电子设备110或者服务器120中，也可以部分功能模块设置于电子设备110中，部分功能模块设置于服务器120中。

应该理解，图1中的电子设备110、三维模型101、图像102和服务器120的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110、三维模型101、图像102和服务器120。

以下将结合图1，通过图2～图5对本公开提供的图像生成方法进行详细描述。

图2是根据本公开实施例的图像生成方法的流程示意图。

如图2所示，该实施例的图像生成方法200可以包括操作S210～操作S240。

在操作S210，根据针对场景的神经辐射场所输出的场景数据，生成场景的三维场景模型。

根据本公开的实施例，针对场景的神经辐射场可以是根据场景的多个不同视角的场景图像训练得到的。具体训练原理可以参见后文描述，在此不再详述。针对场景的神经辐射场输出的场景数据可以对场景进行隐式三维表达，例如可以表达场景的形状、纹理、材质等信息。该场景数据例如可以包括目标场景的多个表面顶点的颜色数据、体积密度、纹理信息和位置信息等。多个表面顶点的位置例如可以由多个表面顶点在世界坐标系下的坐标值来表示。

生成的三维场景模型可以理解为场景的显式三维模型，三维场景模型指能够反映场景的表面特征且能够对场景进行显式三维表示的Mesh模型。三维场景模型包括场景的表面点及每个表面点的空间坐标和颜色数据。场景的表面点可以形成三维场景模型中的三角面和表面顶点。具体地，该三维场景模型可以包括多个三角面和多个表面顶点，表面顶点的属性信息包括表面顶点的空间坐标、颜色数据、材质数据以及其他纹理信息等。三角面上除作为顶点的表面顶点之外的其他表面点的空间坐标和颜色数据可由其所属三角面上的三个顶点的空间坐标和颜色数据进行差值计算得到。

根据本公开的实施例，可以根据场景数据，采用等值面提取(Marching Cubes，MC)算法来生成场景的三维场景模型。例如，该实施例可以先根据多张不同视角下的场景图像的图像特征，确定场景对应的空间范围。随后基于空间范围和场景数据生成场景的三维场景模型。其中，可以采用运动恢复结构(Structure from Motion，SfM)算法处理图像特征，从而估计出场景对应的稀疏3D点位置，从而基于该稀疏3D点位置确定场景在世界坐标系中的空间范围。该实施例可以对空间范围在长宽高三个维度上分别进行采样，从而得到多个目标空间点。相邻8个目标空间点可以形成一个体积元素。神经辐射场输出的场景数据可以包括该多个目标空间点的颜色数据和体积密度。基于每个体积元素包含的目标空间点的体积密度，利用Marching Cubes算法可以逐个处理体积元素，分离出与等值面相交的体素，采用插值计算出等值面与体积元素的边的交点。随后根据体积元素每一顶点与等值面的相对位置，将等值面与体积元素的边的交点按一定方式连接生成三角面，作为等值面在该体积元素内的一个逼近表示。在得到所有三角面之后，通过将这些三角面相互衔接，并根据场景数据为三角面上每个表面顶点添加颜色数据，即可得到三维场景模型。可以理解的是，上述生成三维场景模型的方法仅作为示例以利于理解本公开，本公开对此不做限定。

在操作S220，根据目标对象的三维对象模型和三维场景模型，生成包含三维对象模型的三维场景信息。

根据本公开的实施例，可以将三维对象模型根据预定缩放比例和旋转角度添加在三维场景模型的预定位置处，从而得到三维场景信息。该三维场景信息可以表示三维场景模型和三维对象模型，以及三维场景模型和三维对象模型之间的相位位置信息等。

其中，预定缩放比例、旋转角度和预定位置可以借助三维动画工具玛雅(Maya)等来设定。或者，也可以先采用预定变换矩阵来对三维对象模型进行模型变换，得到变换后模型。随后将变换后模型叠加至三维场景模型中，即可得到三维场景信息。其中，对于三维场景，预定变换矩阵可以为4*4的变换矩阵T，该预定变换矩阵是根据预定缩放比例、预定旋转角度和预定平移距离等确定的。通过该方式，可以实现三维对象模型和三维场景模型的对齐，以使得最终渲染得到的目标图像更为美观且符合实际需求。

在操作S230，根据场景数据和目标视角，确定三维场景信息中三维对象模型的环境光信息。

根据本公开的实施例，可以将三维场景模型中各个表面顶点作为光源，采用光线追踪法来确定对三维对象模型中每个表面顶点的渲染结果会产生影响的目标光源及目标光源的颜色数据，并将该目标光源的位置及目标光源的颜色数据作为环境光信息。其中，目标视角例如可以由俯仰角pitch、横滚角roll和偏航角yaw来表示。

在操作S240，根据场景数据、环境光信息和三维场景信息进行图像渲染，生成针对目标视角的目标图像。

根据本公开的实施例，操作S230和操作S240例如可以采用神经渲染的方式来渲染得到目标视角下的目标图像。在操作S230中，神经渲染的着色器Shader可以在采用光线追踪法追踪到三维场景模型的贴图时，将追踪光线与贴图的交点处的颜色数据作为发光光源的颜色数据，并基于发光光源的颜色数据、场景数据中交点的位置和三维场景信息进行图像渲染。例如可以采用图像渲染流水线来计算动画和光影交互，实现图像渲染。

其中，图像渲染流水线可以分为六个阶段：顶点着色阶段、形状装配阶段、几何着色阶段、光栅化阶段、片段着色阶段和测试与混合。其中，顶点着色阶段中，输入包括顶点数据，该顶点数据是一系列表面顶点的集合。顶点着色阶段中，针对每个顶点调用一次Shader，实现顶点的空间变换、顶点着色等功能，Shader是可编程的。形状装配阶段中，将顶点着色阶段输出的所有顶点数据作为输入，并将所有顶点装配成指定图元的形状，图元(Primitive)用于表示如何渲染顶点数据。几何着色阶段中，以图元形式的一系列顶点的集合作为输入，通过产生新顶点构造出新的图元或者对图元进行着色。在光栅化阶段中，将图元映射为屏幕上的相应像素，生成片段，片段包括渲染一个像素所需要的所有数据。在片段着色阶段中，对输入的片段进行裁切，以丢弃超出目标视角的所有像素，提升渲染效率。在测试与混合阶段中，会检测片段对应的深度值，根据该深度值确定像素位于其他物体的前面还是后面，并决定是否应该丢弃该像素。另外，该测试与混合阶段还会检查物体的透明度，并根据透明度对物体和场景进行混合。

本公开实施例的图像生成方法，通过借由神经辐射场来生成场景的三维场景模型，相较于采用SLAM技术构建场景的三维模型的技术方案，可以降低计算成本。再者，本公开实施例的图像生成方法，通过借助场景数据来确定三维对象模型的环境光信息，并基于该环境光信息进行目标视角下图像的渲染，可以使得生成的目标图像中目标对象与场景的融合效果更好，从而提高生成的目标图像的逼真度。

图3是根据本公开实施例的确定在三维场景信息中三维对象模型的环境光信息的原理示意图。

根据本公开的实施例，如图3所示，该实施例300在确定环境光信息时，例如可以先基于三维场景信息和目标视角，采用光线追踪法确定三维场景模型中与三维对象模型的第一表面顶点对应的第二表面顶点。其中，第一表面顶点例如可以为在目标视角下能够看到的三维对象模型320的表面点，例如，第一表面顶点包括表面点321。例如，三维场景模型310中，与表面点321对应的第二表面顶点为场景的表面点311。例如，可以根据目标视角下经过表面点321的第一光线301的反射光线302定位到表面点311。第一光线301与反射光线302相对于表面点321的法线彼此对称。如此，该实施例可以将表面点311作为表面点321的一个光源。如此，通过光线追踪法，可以得到目标视角所能看到的每个第一表面顶点的所有光源。该实施例可以将该所有光源的光照值相叠加得到的光照值，作为该每个第一表面顶点的环境光信息。

在一实施例中，还可以根据三维场景模型先确定对应表面点321的表面点311的法向量。随后，根据该法向量和表面点311的颜色数据，来确定作用于表面点321的光源的光照值。这是考虑到场景中表面点311作为光源时，出射的光的光照效果会受该出射的光的角度的影响，即场景中表面点311出射的光线中射入表面点321的目标光线的光照值受目标光线与表面点311的法线方向之间的夹角的影响。例如，设定与反射光线302相反的入射光线与表面点311的法线之间的夹角为θ_1，表面点311的颜色数据为C_1，则表面点311作为光源提供的光照值I_1＝C_1*cos(θ_1)。

其中，三维场景模型中表面点的法向量例如可以根据构成三维场景模型的多个多边形网格中，以该表面点为顶点的目标网格的法向量来确定。例如，可以将以表面点为顶点的多个目标网格的法向量的平均值，作为该表面点的法向量，该法向量可以表示该表面点的法线的方向。基于该表面点的法向量和与反射光线302相反的入射光线的方向向量的点积，即可计算得到θ_1的余弦值。可以理解的是，在多边形网格为三角网格时，多边形网格的法向量的计算可以参见下文描述，在此不再详述。

在一实施例中，例如可以将表面点321反射的光照值作为表面点321的环境光信息。设定射入表面点321的光线仅包括表面点311出射的光线，则表面点321反射的光照值I_2＝I_1*cos(θ_2)*kd，其中，θ_2为射入表面点321的光线与表面点321的法线方向之间的夹角。基于该表面点321的法向量和与反射光线302相反的入射光线的方向向量的点积，即可计算得到θ_2的余弦值。在图像渲染过程中，该实施例可以根据表面点321反射的光照值I_2与表面点321的颜色数据的乘积，对表面点321进行着色。

本公开实施例通过在确定环境光信息时考虑第二表面顶点的法向量，可以提高确定的环境光信息的精度，使得渲染时对目标对象的着色与场景更为匹配，利于提高渲染得到的目标图像的逼真度。

图4是根据本公开实施例的确定表面顶点的法向量的原理示意图。

如图4所示，在实施例400所呈现的三角网格模型中，表面顶点401为六个三角网格410～460的共同顶点。在确定表面顶点401的法向量时，该实施例400可以先确定六个三角网格410～460中每个三角网格的法向量，最后，将六个三角网格的法向量单位化后所得到的六个单位化向量的均值，作为该表面顶点401的法向量。

其中，针对六个三角网格410～460中的每个三角网格，可以根据该每个三角网格的三个顶点的坐标值，来确定该每个三角网格的法向量。例如，对于三角网格440，三角网格440的三个顶点分别为点A、点B和点C，在确定点C的法向量时，计算得到的三角网格440的法向量可以由(A-C)所表示向量与由(B-C)所表示向量之间的叉乘结果表示。其中，(A-C)所表示向量即为A点的坐标值与C点的坐标值相减所得到的向量。

根据本公开的实施例，在基于针对场景的神经辐射场所输出的场景数据生成三维场景模型之前，可以先构建针对场景的神经辐射场。

根据本公开的实施例，神经辐射场可以是根据场景的多个视角的图像及该多个视角构建的。例如，可以采用图像采集设备采集目标场景的多个视角下的图像，得到多个场景图像，并建立得到的场景图像与采集视角所对应的相机位姿之间的映射关系，得到针对多个视角的多个映射关系。该实施例可以根据该多个映射关系来构建针对目标场景的神经辐射场。

例如，该实施例在构建针对目标场景的神经辐射场时，可以先根据每个映射关系中的相机位姿，对该每个映射关系中的图像进行采样，根据采样得到的图像中像素点的位置及该像素点的深度可以得到一个三维采样点。例如可以针对每个映射关系得到多个三维采样点，该多个三维采样点可以构成针对一个场景图像的一组三维采样点。其中，相机位姿例如可以由相机的俯仰角、横滚角和偏航角来表示，每个采样点可以由该每个采样点在世界坐标系中的坐标值来表示。如此，该实施例可以根据针对多个场景图像的多组三维采样点和与多个场景图像分别具有映射关系的多个相机位姿来构建神经辐射场。

具体地，该实施例可以根据多组三维采样点的坐标值和多个相机位姿信息构建训练数据，得到多个训练数据。每个训练数据包括多组数据，每组数据包括一个三维采样点的坐标值和对应的一个相机位姿信息。每个训练数据中多组数据包括的相机位姿信息相同。相机位姿信息可以包括上文描述的俯仰角的角度、横滚角的角度和偏航角的角度，该相机位姿信息可以作为视角信息。例如，设定一个采样点的坐标值可以表示为(x，y，z)，相机位姿信息可以表示为(pitch，roll，yaw)，则一组数据可以表示为(x，y，z，pitch，roll，yaw)。该实施例可以将多个训练数据输入初始神经辐射场，由初始神经辐射场输出颜色数据和体积密度。随后根据该颜色数据和体积密度，利用体素渲染技术可以得到与训练数据中的多个相机位置信息对应的多个视角的图像。随后，该实施例可以根据通过体素渲染技术得到的多个视角的图像分别与多个视角下采集的场景图像进行比较，从而确定初始神经辐射场的损失。以最小化损失为目标调整初始神经辐射场的网络参数，完成一个轮次的训练。该实施例可以对神经辐射场进行多个轮次的训练，直至损失收敛，并将完成多个轮次训练后得到的神经辐射场作为针对场景的神经辐射场。其中，初始神经辐射场中的网络参数可以根据经验设定。

根据本公开的实施例，神经辐射场例如可以由若干层(例如10层)的全连接神经网络构成，其中，前8层全连接神经网络的输入为三维采样点的坐标值，输出为该三维采样点的体积密度和一个中间特征向量。将该中间特征向量和相机位姿信息拼接后输入最后2层的全连接神经网络，该最后2层的全连接神经网络输出的数据即为该三维采样点在相机位姿信息对应的视角下的颜色数据。可以理解的是，该神经辐射场的结构仅作为示例以利于理解本公开，本公开对此不做限定。

图5是根据本公开实施例的构建神经辐射场的原理示意图。

在一实施例中，相机位姿信息例如可以根据采集的场景图像来确定，而非直接获取，以此可以降低对采集场景图像的图像采集设备的硬件要求，并提高确定的相机位姿信息的精度。

例如，如图5所示，在实施例500中，若采集得到场景图像51_1～场景图像51_N共计N个场景图像，该实施例可以先根据该N个场景图像中在采集顺序上相邻的两个场景图像，确定针对N个场景图像的N个相机位姿信息。

例如，该实施例可以采用SLAM技术来更加准确计算每个场景图像对应的相机位姿。具体的，SLAM计算在计算相机位姿时，首先提取每个场景图像的特征点，接着，建立相邻两个场景图像的特征点之间的匹配关系，根据相邻两个场景图像的特征点之间的匹配关系计算相邻两个原始图像之间的相对相机位姿。根据两两场景图像之间的相对相机位姿计算每个场景图像对应的相机位姿。例如，针对场景图像51_1，提取得到的特征点为第一特征点52_1，确定的相机位姿为第一相机位姿53_1。针对场景图像51_N，提取得到的特征点为第N特征点52_N，确定的相机位姿为第N相机位姿53_N。可以理解的是，在采用SLAM技术确定针对N个场景图像的相机位姿之前，可以预先得到相机的初始位姿。

根据本公开的实施例，在采集多个场景图像时，可以在采集过程中使图像采集设备在不同的高度围绕场景中心拍摄，以使得采集得到的N个场景图像覆盖更广的视角，如此利于提高构建得到的针对场景的神经辐射场的表达能力。再者，在采集过程中，在移动图像采集设备以采集不同视角的场景图像时，例如可以缓慢的移动图像采集设备，以使得相邻的两次采集过程中图像采集设备的采集视野具有一定的重合率，以此利于神经辐射场学习到更为准确的隐式三维模型。例如，在采集的多个场景图像中，针对在采集顺序上相邻的两个场景图像的两个视野之间的重合率大于等于重合率下限值。该下限值例如可以为30％等根据实际需求设定的值。在该实施例中，为了避免因视野重合率过高而带来的非必要的资源浪费，还可以为两个视野之间的重合率设置预定上限值，即两个视野之间的重合率应小于等于预定上限值。该预定上限值例如可以为80％等根据实际需求设定的值，本公开对此不做限定。

在一实施例中，在图像采集设备采集场景图像的过程中，例如还可以采用缓慢旋转同时前后移动图像采集设备的方式来采集场景图像。以此尽可能减小在采集顺序上相邻的两个场景图像之间的角度差异，利于提高根据场景图像确定的相机位姿的精度。

根据本公开的实施例，在采用SLAM技术确定每个场景图像的相机位姿信息时，例如可以先采用深度特征提取(Deep Feature Extractor)算法来提取每个场景图像的特征图，以期构建在采集顺序上相邻的两个场景图像之间更加稠密可靠的特征点的映射关系，利于提高确定的相机位姿的精度，并利于提高神经辐射场的精度，提高渲染的精细度。在得到每个场景图像的特征图后，SLAM技术例如可以基于在采集顺序上相邻的两个场景图像的两个特征图来建立两个场景图像的特征点之间的匹配关系。

其中，深度特征提取算法例如可以采用卷积神经网络VGG 16模型或者VGG 19模型等，本公开对此不做限定。

根据本公开的实施例，如图5所示，在得到N个场景图像的N个相机位姿后，该实施例可以采用如上文描述的方法构建训练数据，得到训练数据541～训练数据54N等至少N个训练数据。随后，根据至少N个训练数据，采用上文描述的方法训练初始神经辐射场550，得到针对场景的神经辐射场。

根据本公开的实施例，在训练初始神经辐射场时，例如可以以上文描述的多组三维采样点和多个相机位姿信息作为训练数据，即基于N个训练数据，采用Instant-NGP技术来对初始神经辐射场进行训练，以大幅减少训练神经辐射场所需的时长。

例如，计算机图形基元(Computer graphics primitives)可以由参数化外观(parameterize appearance)的数学函数表示。数学表示的质量和性能特征对于视觉保真度至关重要。Instant-NGP技术希望该数学函数的表示能够保持快速和紧凑，同时捕获高频和局部的细节。由多层感知器(MLPs)表示的函数，用作神经图形基元，已证明符合这些标准(不同程度)。Instant-NGP技术的重要点是将神经辐射场的输入映射到高维空间的编码，这是从紧凑模型中提取近似高质量的关键。这些编码中最理想的数据是可训练的、针对特定任务的数据，该些数据承担了很大一部分的学习任务，这使得可以使用更小、更高效的MLPs成为可能。然而，该些数据依赖于启发式和结构修改(如剪枝、分裂或合并)，这可能会使训练过程复杂化，若将训练方法限制为特定的任务，可能会限制图形处理器的性能。这是因为控制流(control flow)和指针追逐(pointer chasing)非常昂贵。Instant-NGP技术通过多分辨率哈希编码(multiresolution hash encoding)来解决这些问题，如此，该技术是自适应的和高效的，独立的任务。该技术只由两个值配置一一参数的数量T和预期的最佳分辨率。与任务无关的自适应性和效率的关键是哈希表的多分辨率层次结构(multiresolutionhierarchy)。

其中，为了实现自适应，Instant-NGP技术将一串网格映射到相应的固定大小的特征向量数组。在粗分辨率下，从网格点到数组条目有一个1：1的映射。在精细分辨率下，数组被视为一个哈希表，并使用空间哈希函数进行索引，其中多个网格点为每个数组条目起别名。这种哈希碰撞导致碰撞训练梯度达到平均水平，这意味着最大的梯度(例如那些与损失函数最相关的梯度)将占主导地位。因此，哈希表自动对具有最重要精细细节的稀疏区域进行优先考虑。与之前的工作不同，在训练期间的任何时候都不需要对数据结构进行结构性更新。

其中，为了实现高效性，Instant-NGP技术的哈希表查找的复杂度为O(1)，不需要控制流。这可以很好地映射到图形处理器，避免了树形遍历中固有的执行分歧和串行指针追逐(serial pointer-chasing)，从而可以并行查询所有分辨率的哈希表。

根据本公开的实施例，在得到针对场景的神经辐射场后，可以根据神经辐射场输出的场景数据来构建得到场景的三维场景模型。在构建得到三维场景模型后，即可根据任意视角的虚拟光源的信息来渲染得到该任意视角下的场景图像。示例性地，在得到三维场景信息的情况下，神经渲染技术则可以基于任意视角的虚拟光源的信息确定三维对象模型的环境光信息，并基于环境光信息、三维场景信息和场景数据渲染得到该任意视角下的图像。

本公开提供的方法通过借助神经辐射场强大的重建能力和图像渲染能力，可以将神经渲染的优势与传统的计算机图形技术的优势相结合，实现真实场景中超写实渲染的增强效果，且可以显著简化图像的生成流水线，降低图像生成的成本，能够为传统的特效生产流水线及新型的增强现实、虚拟现实技术注入新的活力。

基于本公开提供的图像生成方法，本公开还提供了一种图像生成装置，以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的图像生成装置的结构框图。

如图6所示，该实施例的图像生成装置600可以包括模型生成模块610、场景生成模块620、环境光确定模块630和图像生成模块640。

模型生成模块610用于根据针对场景的神经辐射场所输出的场景数据，生成场景的三维场景模型。在一实施例中，模型生成模块610可以用于执行上文描述的操作S210，在此不再赘述。

场景生成模块620用于根据目标对象的三维对象模型和三维场景模型，生成包含三维对象模型的三维场景信息。在一实施例中，场景生成模块620可以用于执行上文描述的操作S220，在此不再赘述。

环境光确定模块630用于根据场景数据和目标视角，确定三维场景信息中三维对象模型的环境光信息。在一实施例中，环境光确定模块630可以用于执行上文描述的操作S230，在此不再赘述。

图像生成模块640用于根据场景数据、环境光信息和三维场景信息进行图像渲染，生成针对目标视角的目标图像。其中，目标图像包括目标对象和场景。在一实施例中，图像生成模块640可以用于执行上文描述的操作S240，在此不再赘述。

根据本公开的实施例，场景数据包括三维场景模型中多个表面顶点各自的颜色数据。上述环境光确定模块630可以包括顶点确定子模块、法向量确定子模块和环境光确定子模块。顶点确定子模块用于基于三维场景信息和目标视角，采用光线追踪法确定三维场景模型中与三维对象模型的第一表面顶点对应的第二表面顶点。法向量确定子模块用于根据三维场景模型，确定第二表面顶点的法向量。环境光确定子模块用于根据第二表面顶点的法向量和第二表面顶点的颜色数据，确定第一表面顶点的环境光信息。

根据本公开的实施例，上述图像生成装置600还可以包括辐射场构建模块，用于根据场景的多个场景图像，构建针对场景的神经辐射场。该辐射场构建模块例如可以包括位姿确定子模块和辐射场构建子模块。位姿确定子模块用于根据多个场景图像，确定针对多个场景图像中每个场景图像的相机位姿信息。辐射场构建子模块用于根据多个场景图像和针对多个场景图像的多个相机位姿信息，构建针对场景的神经辐射场。

根据本公开的实施例，上述位姿确定子模块可以包括特征提取单元和位姿确定单元。特征提取单元用于采用深度特征提取算法提取每个场景图像的特征图。位姿确定单元用于根据多个场景图像中在采集顺序上相邻的两个场景图像的两个特征图之间的映射关系，确定针对每个场景图像的相机位姿信息。

根据本公开的实施例，上述辐射场构建子模块可以包括采样单元和训练单元。采样单元用于针对每个场景图像，根据针对每个场景图像的相机位姿信息对每个场景图像进行采样，得到针对每个场景图像的一组三维采样点。训练单元用于以针对多个场景图像的多组三维采样点的坐标值和多个相机位姿信息作为训练数据训练初始神经辐射场，得到针对场景的神经辐射场。

根据本公开的实施例，上述训练单元用于以多组三维采样点和多个相机位姿信息作为训练数据，采用基于多分辨率哈希编码的即时神经图形基元技术对初始神经辐射场进行训练，得到针对场景的神经辐射场。

根据本公开的实施例，上述多个场景图像中针对在采集顺序上相邻的两个场景图像的两个视野之间的重合率大于等于重合率下限值，且小于等于重合率上限值。

根据本公开的实施例，上述模型生成模块610可以用于根据场景数据，采用等值面提取算法生成场景的三维场景模型；其中，三维场景模型由多个多边形网格拼接形成。上述法向量确定子模块可以包括目标网格确定单元和法向量确定单元。目标网格确定单元用于确定多个多边形网格中以第二表面顶点为顶点的目标网格。法向量确定单元用于根据目标网格的法向量，确定第二表面顶点的法向量。

根据本公开的实施例，上述场景生成模块620可以包括变换子模块和模型叠加子模块。变换子模块用于采用预定变换矩阵对三维对象模型进行模型变换，得到变换后模型。模型叠加子模块用于将变换后模型叠加至三维场景模型中，得到三维场景信息。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开实施例的图像生成方法的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图像生成方法。例如，在一些实施例中，图像生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图像生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像生成方法，包括：

根据针对场景的神经辐射场所输出的场景数据，生成所述场景的三维场景模型；

根据目标对象的三维对象模型和所述三维场景模型，生成包含所述三维对象模型的三维场景信息；

根据所述场景数据和目标视角，确定所述三维场景信息中所述三维对象模型的环境光信息；以及

根据所述场景数据、所述环境光信息和所述三维场景信息进行图像渲染，生成针对所述目标视角的目标图像，

其中，所述目标图像包括所述目标对象和所述场景。

2.根据权利要求1所述的方法，其中，所述场景数据包括所述三维场景模型中多个表面顶点各自的颜色数据；所述根据所述场景数据和目标视角，确定所述三维场景信息中所述三维对象模型的环境光信息包括：

基于所述三维场景信息和所述目标视角，采用光线追踪法确定所述三维场景模型中与所述三维对象模型的第一表面顶点对应的第二表面顶点；

根据所述三维场景模型，确定所述第二表面顶点的法向量；以及

根据所述第二表面顶点的法向量和所述第二表面顶点的颜色数据，确定所述第一表面顶点的环境光信息。

3.根据权利要求1所述的方法，还包括通过以下方式来根据所述场景的多个场景图像，构建针对所述场景的神经辐射场：

根据所述多个场景图像，确定针对所述多个场景图像中每个场景图像的相机位姿信息；以及

根据所述多个场景图像和针对所述多个场景图像的多个相机位姿信息，构建针对所述场景的神经辐射场。

4.根据权利要求3所述的方法，其中，所述根据所述多个场景图像，确定针对所述多个场景图像中每个场景图像的相机位姿信息包括：

采用深度特征提取算法提取所述每个场景图像的特征图；以及

根据所述多个场景图像中在采集顺序上相邻的两个场景图像的两个特征图之间的映射关系，确定针对所述每个场景图像的相机位姿信息。

5.根据权利要求3所述的方法，其中，所述根据所述多个场景图像和针对所述多个场景图像的多个相机位姿信息，构建针对所述场景的神经辐射场包括：

针对所述每个场景图像，根据针对所述每个场景图像的相机位姿信息对所述每个场景图像进行采样，得到针对所述每个场景图像的一组三维采样点；以及

以针对所述多个场景图像的多组三维采样点的坐标值和多个相机位姿信息作为训练数据训练初始神经辐射场，得到针对所述场景的神经辐射场。

6.根据权利要求5所述的方法，其中，所述以针对所述多个场景图像的所述多组三维采样点和多个所述相机位姿信息作为训练数据训练初始神经辐射场，得到针对所述场景的神经辐射场包括：

以所述多组三维采样点和所述多个相机位姿信息作为训练数据，采用基于多分辨率哈希编码的即时神经图形基元技术对所述初始神经辐射场进行训练，得到针对所述场景的神经辐射场。

7.根据权利要求3所述的方法，其中，所述多个场景图像中针对在采集顺序上相邻的两个场景图像的两个视野之间的重合率大于等于重合率下限值，且小于等于重合率上限值。

8.根据权利要求2所述的方法，其中：

所述根据针对场景的神经辐射场所输出的场景数据，生成所述场景的三维场景模型包括：根据所述场景数据，采用等值面提取算法生成所述场景的三维场景模型；其中，所述三维场景模型由多个多边形网格拼接形成；

所述根据所述三维场景模型，确定所述第二表面顶点的法向量包括：

确定所述多个多边形网格中以所述第二表面顶点为顶点的目标网格；以及

根据所述目标网格的法向量，确定所述第二表面顶点的法向量。

9.根据权利要求1所述的方法，其中，所述根据目标对象的三维对象模型和所述三维场景模型，生成包含所述三维对象模型的三维场景信息包括：

采用预定变换矩阵对所述三维对象模型进行模型变换，得到变换后模型；以及

将所述变换后模型叠加至所述三维场景模型中，得到所述三维场景信息。

10.一种图像生成装置，包括：

模型生成模块，用于根据针对场景的神经辐射场所输出的场景数据，生成所述场景的三维场景模型；

场景生成模块，用于根据目标对象的三维对象模型和所述三维场景模型，生成包含所述三维对象模型的三维场景信息；

环境光确定模块，用于根据所述场景数据和目标视角，确定所述三维场景信息中所述三维对象模型的环境光信息；以及

图像生成模块，用于根据所述场景数据、所述环境光信息和所述三维场景信息进行图像渲染，生成针对所述目标视角的目标图像，

其中，所述目标图像包括所述目标对象和所述场景。

11.根据权利要求10所述的装置，其中，所述场景数据包括所述三维场景模型中多个表面顶点各自的颜色数据；所述环境光确定模块包括：

顶点确定子模块，用于基于所述三维场景信息和所述目标视角，采用光线追踪法确定所述三维场景模型中与所述三维对象模型的第一表面顶点对应的第二表面顶点；

法向量确定子模块，用于根据所述三维场景模型，确定所述第二表面顶点的法向量；以及

环境光确定子模块，用于根据所述第二表面顶点的法向量和所述第二表面顶点的颜色数据，确定所述第一表面顶点的环境光信息。

12.根据权利要求10所述的装置，还包括辐射场构建模块，用于根据所述场景的多个场景图像，构建针对所述场景的神经辐射场；所述辐射场构建模块包括：

位姿确定子模块，用于根据所述多个场景图像，确定针对所述多个场景图像中每个场景图像的相机位姿信息；以及

辐射场构建子模块，用于根据所述多个场景图像和针对所述多个场景图像的多个相机位姿信息，构建针对所述场景的神经辐射场。

13.根据权利要求12所述的装置，其中，所述位姿确定子模块包括：

特征提取单元，用于采用深度特征提取算法提取所述每个场景图像的特征图；以及

位姿确定单元，用于根据所述多个场景图像中在采集顺序上相邻的两个场景图像的两个特征图之间的映射关系，确定针对所述每个场景图像的相机位姿信息。

14.根据权利要求12所述的装置，其中，所述辐射场构建子模块包括：

采样单元，用于针对所述每个场景图像，根据针对所述每个场景图像的相机位姿信息对所述每个场景图像进行采样，得到针对所述每个场景图像的一组三维采样点；以及

训练单元，用于以针对所述多个场景图像的多组三维采样点的坐标值和多个相机位姿信息作为训练数据训练初始神经辐射场，得到针对所述场景的神经辐射场。

15.根据权利要求14所述的装置，其中，所述训练单元用于：

16.根据权利要求12所述的装置，其中，所述多个场景图像中针对在采集顺序上相邻的两个场景图像的两个视野之间的重合率大于等于重合率下限值，且小于等于重合率上限值。

17.根据权利要求11所述的装置，其中：

所述模型生成模块用于：根据所述场景数据，采用等值面提取算法生成针对所述场景的三维场景模型；其中，所述三维场景模型由多个多边形网格拼接形成；

所述法向量确定子模块包括：

目标网格确定单元，用于确定所述多个多边形网格中以所述第二表面顶点为顶点的目标网格；以及

法向量确定单元，用于根据所述目标网格的法向量，确定所述第二表面顶点的法向量。

18.根据权利要求10所述的装置，其中，所述场景生成模块包括：

变换子模块，用于采用预定变换矩阵对所述三维对象模型进行模型变换，得到变换后模型；以及

模型叠加子模块，用于将所述变换后模型叠加至所述三维场景模型中，得到所述三维场景信息。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1～9中任一项所述方法的步骤。