CN117611765A

CN117611765A - 虚拟场景模型的生成方法、装置、存储介质及电子设备

Info

Publication number: CN117611765A
Application number: CN202311425578.7A
Authority: CN
Inventors: 李昊鑫; 刘宁; 侯杰虎; 李谣顺
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-27

Abstract

本公开涉及一种虚拟场景模型的生成方法、装置、存储介质及电子设备，该方法包括：基于物理场景的多个子区域，对物理场景的场景图像进行分区采集，以生成多个子区域分别对应的多个子图像数据，分别获取多个子图像数据的目标参数，根据多个子图像数据和多个子图像数据的目标参数，训练隐式重建模型，以生成多个子区域分别对应的多个网格面模型，基于多个子图像数据的目标参数，对多个网格面模型进行对齐，生成物理场景的虚拟场景模型。从而通过分区重建的方式对较大场景进行三维重建，减轻显存开销，同时避免了数据空间过大带来的不收敛问题，使虚拟场景模型中的网格面模型具有较高的细节还原度，得到完整度和逼真度较高的虚拟场景模型。

Description

虚拟场景模型的生成方法、装置、存储介质及电子设备

技术领域

本公开涉及三维重建技术领域，具体地，涉及一种虚拟场景模型的生成方法、装置、存储介质及电子设备。

背景技术

相关技术中，三维重建技术主要目是利用传感器数据进行处理，获得拍摄场景的三维模型，并用于下游任务。传统基于视觉的三维重建技术，具有较低的拍摄成本，且技术处理流程比较成熟，重建的贴图模型在主流的渲染引擎里也有很好的支持。与此同时基于纯视觉的三维重建，仍然难以处理室内弱文理、复杂细节场景，产生的三维模型的细腻度和逼真程度较差。

随着最近深度学习技术的发展，基于神经辐射场技术的渲染和重建技术表现出了巨大潜力，仅仅拍摄图像序列，进行处理并训练神经网络，就可以重建出拍摄对象的mesh(网格面)模型，且细节还原度较高。当前基于神经渲染的重建方案，大多数用于重建小物体或小面积室内场景，并取得了不错的效果。但是重建室内较大场景时，需要对不同区域和不同位置为场景图像进行充分拍摄，保证场景的大多数细节都被覆盖，这种图像数量较多且拍摄局部细节较多时，神经网络的参数量将难以拟合所有图像数据，此外采用较大参数的神经网络，将极大提升显存开销，增加训练成本，同时也会面临数据空间过大带来的不收敛问题。

发明内容

本公开的目的是提供一种虚拟场景模型的生成方法、装置、存储介质及电子设备，以解决相关技术中较大场景的三维重建效果较差的技术问题。

为了实现上述目的，本公开的第一方面，提供一种虚拟场景模型的生成方法，所述方法包括：

基于物理场景的多个子区域，对所述物理场景的场景图像进行分区采集，以生成所述多个子区域分别对应的多个子图像数据；

分别获取所述多个子图像数据的目标参数，任一所述子图像数据的目标参数包括：相机参数、位姿参数和稀疏地图点参数中的至少一种；

根据所述多个子图像数据和所述多个子图像数据的目标参数，训练隐式重建模型，以生成所述多个子区域分别对应的多个网格面模型；

基于所述多个子图像数据的目标参数，对所述多个网格面模型进行对齐，生成所述物理场景的虚拟场景模型。

可选地，所述分别获取所述多个子图像数据的目标参数，包括：

对第一子图像数据进行运动结构恢复SFM计算，以生成所述第一子图像数据的目标参数，所述第一子图像数据为第一子区域对应的子图像数据，所述第一子区域为所述多个子区域中的任一子区域。

可选地，所述基于所述多个子图像数据的目标参数，对所述多个网格面模型进行对齐，生成所述物理场景的虚拟场景模型，包括：

根据第二子区域的第二稀疏地图点参数和第三子区域的第三稀疏地图点参数，对第二子图像数据和第三子图像数据进行双向暴力匹配，以确定所述第二子区域和所述第三子区域的匹配地图点对，所述第二子区域和所述第三子区域为所述多个子区域中的任意相邻子区域；

确定所述匹配地图点对的3D坐标位置信息；

根据所述3D坐标位置信息，确定所述第二子区域和所述第三子区域之间的相对尺度；

根据所述相对尺度，确定所述第二子区域和所述第三子区域之间的相对位姿；

根据所述相对尺度和所述相对位姿变换，对所述第二子区域的第二网格面模型和所述第三子区域的第三网格面模型进行对齐；

基于对齐的所述多个网格面模型，生成所述虚拟场景模型。

可选地，所述根据所述相对尺度和所述相对位姿，对所述第二子区域的第二网格面模型和所述第三子区域的第三网格面模型进行对齐，包括：

根据所述相对尺度对所述第三网格面模型进行尺度变换，生成目标第三网格面模型；

根据所述相对位姿，对所述目标第三网格面模型进行位姿变换，生成对齐后的所述第三网格面模型。

可选地，所述对第二子图像数据和第三子图像数据进行双向暴力匹配，确定所述第二子区域和所述第三子区域的匹配地图点对，包括：

在确定所述第二子图像数据和所述第三子图像数据满足预设匹配条件的情况下，根据所述第二稀疏地图点参数和所述第三稀疏地图点参数，确定匹配的多个目标稀疏地图点；

从所述多个目标稀疏地图点中确定匹配频次达到设定阈值的稀疏地图点为所述匹配地图点对。

将对齐的所述多个网格面模型投影至渲染成像空间中，以生成初始渲染模型；

根据所述初始渲染模型的目标位姿，通过神经渲染模型确定所述初始渲染模型中各个像素点的颜色参数；

根据所述颜色参数对所述初始渲染模型进行渲染，生成所述虚拟场景模型。

可选地，所述方法还包括：

根据神经渲染模型确定所述虚拟场景模型的颜色贴图和特征向量；

将所述虚拟场景模型、所述颜色贴图和所述特征向量导入渲染引擎进行显示。

根据本公开实施例的第二方面，提供一种虚拟场景模型的生成装置，所述装置包括：

第一生成模块，用于基于物理场景的多个子区域，对所述物理场景的场景图像进行分区采集，以生成所述多个子区域分别对应的多个子图像数据；

获取模块，用于分别获取所述多个子图像数据的目标参数，任一所述子图像数据的目标参数包括：相机参数、位姿参数和稀疏地图点参数中的至少一种；

第二生成模块，用于根据所述多个子图像数据和所述多个子图像数据的目标参数，训练隐式重建模型，以生成所述多个子区域分别对应的多个网格面模型；

执行模块，用于基于所述多个子图像数据的目标参数，对所述多个网格面模型进行对齐，生成所述物理场景的虚拟场景模型。

根据本公开实施例的第三方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面中任一项所述虚拟场景模型的生成方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面中任一项所述虚拟场景模型的生成方法的步骤。

通过上述技术方案，基于物理场景的多个子区域，对物理场景的场景图像进行分区采集，以生成多个子区域分别对应的多个子图像数据，分别获取多个子图像数据的目标参数，任一子图像数据的目标参数包括：相机参数、位姿参数和稀疏地图点参数中的至少一种，根据多个子图像数据和多个子图像数据的目标参数，训练隐式重建模型，以生成多个子区域分别对应的多个网格面模型，基于多个子图像数据的目标参数，对多个网格面模型进行对齐，生成物理场景的虚拟场景模型。从而通过分区重建的方式对较大场景进行三维重建，减轻显存开销，同时避免了数据空间过大带来的不收敛问题，使虚拟场景模型中的网格面模型具有较高的细节还原度，得到完整度和逼真度较高的虚拟场景模型。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种虚拟场景模型的生成方法的流程图。

图2是根据一示例性实施例示出的另一种虚拟场景模型的生成方法的流程图。

图3是根据一示例性实施例提出的又一种虚拟场景模型的生成方法的流程图。

图4是根据一示例性实施例示出的一种虚拟场景模型的生成装置的框图。

图5是根据一示例性实施例示出的一种电子设备500的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

图1是根据一示例性实施例示出的一种虚拟场景模型的生成方法的流程图，如图1所示，该方法包括以下步骤。

步骤S11，基于物理场景的多个子区域，对物理场景的场景图像进行分区采集，以生成多个子区域分别对应的多个子图像数据。

示例的，对本实施例的适用场景进行说明，本提案用于对较大场景进行三维重建，通过传感器(包括：深度相机，摄像设备等)对该较大场景进行扫描，从而采集该较大场景中的场景图像信息，基于该场景图像信息对较大场景在物理环境中的场景内容进行建模，从而在虚拟三维空间中生成该较大场景对应的虚拟场景模型。其中，对较大场景的场景尺度范围不做限制，例如，可以定义整体空间范围尺度大于10m的场景为较大场景。

本实施例中针对较大场景进行三维重建，通常情况下较大场景所对应的场景图像数量角度且拍摄局部细节较多，单个神经网络的参数量将难以拟合所有图像数据，且在采用单个神经网络对较大场景进行三维重建时，需要采用较大参数的神经网络，将极大提升显存的开销，增加训练成本，同时也会面临数据空间较大带来的神经网络不收敛的问题。因此，本实施例中将较大场景采用预设规则划分为多个子区域，对各个子区域分别采用神经网络进行三维重建生成各个子区域的网格面模型，再对各子区域的网格面模型进行对齐，从而生成该较大场景对应的虚拟场景模型。其中，对该较大场景可以对照着物理环境中的划分规则，采用人工划分的方式进行划分，示例的，该较大场景为家庭场景，在家庭场景下可以将该物理环境划分为客厅空间、卧室空间、厨房空间、卫生间空间和书房空间，通过人工的方式基于物理环境的不同功能，对该物理环境进行区域划分，生成多个子区域。

示例的，还可以按照场景位置的独立性和图像覆盖量进行划分，保证每个子区域尽量具有一定的独立性，同时使得各子区域要包含一些过渡区域的图像，这样临近的子区域之间存在具有公共视角的图像。一些子区域较大或因场景丰富而存在较多图像时，可按上述原则拆分为若干子区域，能够降低训练时重建模型的学习难度，此外部分区域可能存在视角覆盖不足的情况，采用二次拍摄并作为单独子区域对待，无需整体重新拍摄，降低了拍摄数据的难度。示例的，还可以按照预设固定空间网格，将所在空间网格范围内的相机光心对应的区域，作为一个子区域，例如，以3m×3m×3m的固定空间网络逐步对物理场景进行划分，生成多个子区域。

对各个子区域的场景图像进行分区采集，本实施例中主要采用相机等摄像装置进行分区数据拍摄。拍摄设备无限制，诸如利用手机、单反等获取各个子区域的RGB图像。需要说明的是，在待重建场景下，需要充分拍摄各个区域不同角度和不同位置下的图片，从而满足视角的多样性，利于进行三维重建。此外本提案中还可以支持RGBD传感器，获得彩色图像的深度图，或者利用深度估计模型，对拍摄的RGB图像进行深度图提取。利用depth(深度)信息来提升重建模型的质量。需要说明的是，为提高物理场景对应虚拟场景模型的连贯性，在对各个子区域的场景图像进行分区采集的过程中，需要对各个子区域之间的中间区域进行采集，保证各个子区域具有一定的独立性的生成各个子区域的子图像数据，同时使各个子区域的子图像数据中包括过渡区域的图像，得到存在公共视角的图像。

步骤S12，分别获取多个子图像数据的目标参数，任一子图像数据的目标参数包括：相机参数、位姿参数和稀疏地图点参数中的至少一种。

示例的，本实施例中确定各个子区域的子图像数据后，确定各帧子图像的目标参数。对于任一子区域，为使子图像数据能够反映该子区域的全貌，在进行图像采集时，会采集该子区域不同角度，不同相机深度和不同方位上的多帧子图像，作为该子图像数据，从而基于该多帧子图像来反映该子区域上物理环境的全貌。其中，对任一子图像数据进行识别，确定在拍摄该子图像数据时的相机参数、位姿参数和稀疏地图点参数。本实施例中可以采用图像识别模型，对同一子区域中的子图像数据进行识别，来确定该子图像数据的目标参数。其中，目标参数可以包括：在采集该子图像数据时的相机参数、位姿参数和稀疏地图点参数。

可选地，在一些实施方式中，上述步骤S102，包括：

对第一子图像数据进行运动结构恢复SFM计算，以生成第一子图像数据的目标参数，第一子图像数据为第一子区域对应的子图像数据，第一子区域为多个子区域中的任一子区域。

示例的，本实施例中可以对各个子图像数据进行SFM计算，生成该子图像数据的目标参数，相机位姿估计。基于子区域中的子图像数据，SFM通过分析该子图像数据中的特征点的位置和运动信息，估计相机在三维空间中的姿态和运动轨迹，包括相机的旋转矩阵和平移向量，用于描述拍摄过程中相机在不同时间或位置下的姿态变化。SFM还可以通过观察不同视角下的图像，并利用特征点的匹配关系，推导出这些特征点对应的三维空间位置。通过将不同视角下的特征点进行三角化，可以生成一个稠密或稀疏的三维点云，表示场景的形状和结构。通过SFM计算还可以估计相机的内部参数(如焦距、主点位置等)和外部参数(相机的位姿和方向)。

本实施例中，对子图像数据进行SFM计算，得到的相机位姿和三维点云，可以在三维空间中进行可视化和交互操作，这样可以实现虚拟相机漫游、场景重建、虚拟现实等应用。

步骤S13，根据多个子图像数据和多个子图像数据的目标参数，训练隐式重建模型，以生成多个子区域分别对应的多个网格面模型。

示例的，本实施例中将各个子区域对应的子图像数据，以及上述步骤中确定的各个子图像数据的目标参数，输入至隐式重建模型中，基于神经渲染的隐式重建模型，确定各个子区域的网格面模型。示例的，本实施例中隐式重建模型可以采用neus模型、volsdf模型等，对此本提案不做限定。其中的隐式重建模型是一种用于生成模型的机器学习方法，在该模型中通过输入的子图像数据以及对应的目标参数数据来学习数据生成的潜在规律，而无需显式建模的生成过程。与显式建模方法(如：生成对抗网络或变分自编码器)不同，隐式重建模型更加注重对数据分布的建模，而不是直接对生成过程进行建模，隐式重建模型通过生成对抗网络(GAN)来进行对抗训练，GAN由一个生成器网络和一个判别器网络组成，通过对抗训练的方式来学习数据的分布。利用隐式重建模型中的生成器来生成逼真的样本，而判别器则试图区分生成的样本和真实的样本之间的差距。通过反复迭代训练，生成器和判别器相互博弈，最终生成器可以学习到生成逼真的样本。示例的，在隐式重建模型中除了生成对抗网络，还存在其他的隐式重建模型方法，如自编码器、生成流等。这些方法都是通过对数据的重建来学习数据的潜在分布。本实施例中通过隐式重建模型确定子区域中各个物体的潜在分布，基于该潜在分布生成子区域的网格面模型。

步骤S14，基于多个子图像数据的目标参数，对多个网格面模型进行对齐，生成物理场景的虚拟场景模型。

示例的，在对各个子区域对应的子图像数据进行图像采集时，采集设备的拍摄角度不同，则基于该子图像数据生成的网格面模型的展示角度不同，因此，通过上述步骤生成各个子区域对应的多个网格面模型后，需要基于某一子区域的网格面模型，对其他子区域的网格面模型进行对齐，以保证各个网格面模型的位姿和大小比例统一。其中，各个网格面模型的对齐过程包括网格面模型的尺度对齐和位姿对齐。示例的，本实施例中可以按照图像采集的先后顺序对子区域进行编号，并以第一子区域为基准，根据第一子区域与其他子区域之间的相对尺度和相对位姿，对其他子区域的网格面模型进行调整，使其他子区域中的网格面模型基于第一子区域的网格面模型进行对齐。根据对齐后的网格面模型，生成物理场景的虚拟场景模型。

可选地，在一些实施方式中，上述步骤S14，包括：

将对齐的多个网格面模型投影至渲染成像空间中，以生成初始渲染模型；

根据初始渲染模型的目标位姿，通过神经渲染模型确定初始渲染模型中各个像素点的颜色参数；

根据颜色参数对初始渲染模型进行渲染，生成虚拟场景模型。

示例的，本实施例中可以基于可微渲染的mesh烘焙，对网格面模型进行渲染，示例的，采用隐式重建的模型也能渲染出特定角度下的图像，但是无法导入主流的渲染引擎，且速度很慢，应用受限。因此，本实施例中采用类似nerf2mesh烘焙方案，对网格面模型进行渲染。示例的，利用每帧图像和位姿，将网格面模型投影到渲染成像空间，并插值出每个像素的三维坐标后，结合当前位姿的朝向，采用神经渲染模型估计每个像素的颜色，得到渲染图像，基于渲染图像，生成虚拟场景模型。

可选地，在一些实施方式中，上述步骤S14之后，该方法还包括：

根据神经渲染模型确定虚拟场景模型的颜色贴图和特征向量；

将虚拟场景模型、颜色贴图和特征向量导入渲染引擎进行显示。

示例的，本实施例中将网格面模型的顶点进行展UV，得到贴图三角形和uv坐标，利用训练好多神经渲染模型计算各个贴图三角形中各像素位置的颜色值和特征向量，最后将虚拟场景模型、颜色贴图和特征向量导入渲染引擎中进行显示。

图2是根据一示例性实施例示出的另一种虚拟场景模型的生成方法的流程图，如图2所示，在一些实施方式中，上述步骤S14包括以下步骤。

步骤S141，根据第二子区域的第二稀疏地图点参数和第三子区域的第三稀疏地图点参数，对第二子图像数据和第三子图像数据进行双向暴力匹配，以确定第二子区域和第三子区域的匹配地图点对，第二子区域和第三子区域为多个子区域中的任意相邻子区域。

示例的，本实施例中对于任意相邻的第二子区域和第三子区域，通过上述步骤确定第二子区域的第二目标参数，第三子区域的第三目标参数后，根据第二目标参数中的第二稀疏地图点参数，以及第三目标参数中的第三稀疏地图点参数，对第二子图像数据和第三子图像数据进行双向暴力匹配，确定第二子图像数据和第三子图像数据中相互匹配的匹配地图点对。其中，双向暴力匹配(Bidirectional Brute-Force Matching)是一种特征点匹配算法，常用于计算机视觉中的特征匹配任务，它是暴力匹配(Brute-Force Matching)算法的一种改进算法。双向暴力匹配算法通过引入双向匹配来减少计算量，它首先从第二子图像数据中第二稀疏地图点参数开始，计算其与第三子图像数据中第三稀疏地图点之间的距离，并在第三稀疏地图点中找到最近的匹配点。然后，反过来从第三子图像数据中的该匹配点开始，计算其与第二子图像数据中其他第二稀疏地图点参数之间的距离，并在第二子图像数据中找到最近的匹配点。最后，通过比较两个方向上的最近匹配点，确定最终的匹配结果，生成匹配地图点对。本实施例中采用双向暴力匹配算法简单且易于实现，适用于小规模的特征匹配任务的特点，来对相邻子区域之间的子图像数据进行匹配，来确定相邻子区域之间的匹配地图点对。

示例的，取相邻区域i和区域j。取区域i的稀疏地图点M_i{P₁,P₂,P₃,…P_k}，区域j的稀疏地图点M_j{P₁,P₂,P₃,…P_k}，根据稀疏地图点M_i和M_j，确定区域i和区域j的特征向量，对特征向量进行双向暴力匹配。在满足条件的匹配结果中，按匹配频次取最高的点作为区域i和区域j之间的匹配地图点。

可选地，在一些实施方式中，上述步骤S141，包括：

在确定第二子图像数据和第三子图像数据满足预设匹配条件的情况下，根据第二稀疏地图点参数和第三稀疏地图点参数，确定匹配的多个目标稀疏地图点；

从多个目标稀疏地图点中确定匹配频次达到设定阈值的稀疏地图点为匹配地图点对。

示例的，本实施例中在对第二子图像数据和第三子图像数据中的稀疏地图点进行双向暴力匹配的过程中，需要对匹配结果进行判断，若确定第二子图像数据和第三子图像数据满足匹配条件，则根据第二稀疏地图点参数和第三稀疏地图点参数，确定匹配的多个目标稀疏地图点。若不满足该匹配条件，则放弃此次匹配。从多个目标稀疏地图点中确定匹配频次达到设定阈值的稀疏地图点为匹配地图点对。

步骤S142，确定匹配地图点对的3D坐标位置信息。

示例的，本实施例中可以建立3D坐标系，确定匹配地图点的目标参数，根据目标参数确定各个匹配地图点在3D坐标系中的位置，根据该位置确定各个匹配地图点对的3D坐标位置信息。

步骤S143，根据3D坐标位置信息，确定第二子区域和第三子区域之间的相对尺度。

第二子区域和第三子区域的匹配地图点是物理环境中的同一点，只是基于第二子区域中子图像数据的采集尺度和采集位姿，与第三子区域中子图像数据的采集尺度和采集位姿的不同，在第二子区域和第三子区域中的呈现方式不同。因此，可以基于匹配地图点在预设3D坐标系中的3D坐标位置信息，确定第二子区域和第三子区域之间的相对尺度。

步骤S144，根据相对尺度，确定第二子区域和第三子区域之间的相对位姿。

示例的，通过上述步骤确定第二子区域和第三子区域之间的相对尺度后，根据相对尺度确定第二子区域和第三子区域之间的相对位姿。

步骤S145，根据相对尺度和相对位姿变换，对第二子区域的第二网格面模型和第三子区域的第三网格面模型进行对齐。

根据相对尺度和相对位姿，对第二子区域的第二网格面模型和第三子区域的第三网格面模型进行对齐。示例的，本实施例中通过上述步骤确定多个子区域中，相邻子区域之间的多个相对尺度和多个相对位姿。并以其中任意子区域为基准，通过该多个相对尺度和多个相对位姿，逐步对其他子区域的网格面模型进行对齐。示例的，以1，2，3，4，5，6的子区域为例，可以以3区域为基准，根据各个区域之间的相对尺度和相对位姿，逐步对齐2-1区域的网格面模型和4-5-6区域的网格面模型。

可选地，在一些实施方式中，上述步骤S145，包括：

根据相对尺度对第三网格面模型进行尺度变换，生成目标第三网格面模型；

根据相对位姿，对目标第三网格面模型进行位姿变换，生成对齐后的第三网格面模型。

示例的，本实施例中以第二子区域为基准，对第三子区域的第三网格面模型进行调整。通过相对尺度对第三网格面模型的尺度进行变换，生成目标第三网格面模型，在根据相对位姿对目标第三网格面模型进行位姿变换，生成对齐后的第三网格面模型。

可以理解的是，本实施例中还可以以其他子区域作为基准，使其他子区域的网格面模型根据相对尺度和相对位姿，进行尺度调整和位姿调整，从而获得对齐后的网格面模型。

步骤S146，基于对齐的多个网格面模型，生成虚拟场景模型。

示例的，本实施例中根据上述步骤生成的对齐的多个网格面模型，生成物理环境对应的虚拟场景模型。

通过上述方式，对子区域的网格面模型进行尺度对齐和位姿对齐，从而使各个子区域的网格面模型实现统一，生成物理环境的虚拟场景模型。

图3是根据一示例性实施例提出的又一种虚拟场景模型的生成方法的流程图，如图3所示，该方法包括以下步骤。

步骤S21，拍摄目标场景，得到图像数据。

主要进行数据拍摄。拍摄设备无限制，诸如利用手机、单反等获取RGB图像，在待重建场景下，尽可能充分拍摄各个区域不同角度和不同位置下的图片，满足视角的多样性。此外本方案也支持RGBD传感器，获得彩色图像的深度图，或者利用深度估计模型，对拍摄的RGB图像进行深度图提取。利用depth(深度)信息可以提升重建模型的质量。

步骤S22，对图像数据进行子区域划分，训练各子区域的隐式重建模型。

对数据进行处理并训练隐式重建模型。首先需要对拍摄的数据，按照场景位置的独立性和图像覆盖量进行划分，保证每个子区域尽量具有一定的独立性，同时使得各子区域要包含一些过渡区域的图像，这样临近的子区域之间存在具有公共视角的图像。一些子区域较大或因场景丰富而存在较多图像时，可按上述原则拆分为若干子区域，能够降低训练时重建模型的学习难度，此外部分区域可能存在视角覆盖不足的情况，采用二次拍摄并作为单独子区域对待，无需整体重新拍摄，降低了拍摄数据的难度。子区域的划分方式，可以人工参与，也可以将所有图像计算位姿后，按照固定空间网格大小，将所在空间网格范围内的相机光心对应的图像，为一个子区域。将图像数据划分为各个子区域后，分别进行sfm(Structure from Motion，基于各种收集到的无序图片进行三维重建的离线算法)计算，求出相机参数、位姿及稀疏地图点等信息。接下来利用每个子区域的图像，以及sfm的结果，训练基于神经渲染的隐式重建模型，得到每个子区域的mesh模型。这里基于神经渲染的隐式重建模型，可以采用neus、volsdf等业界主流方案，不做限制。

步骤S23，利用各区域的预处理数据，进行尺度和位姿对齐。

对各个子区域进行对齐。这里拿到各个子区域的sfm计算结果，即相机参数K、每帧的位姿T以及稀疏地图点M，其中每个地图点包含了点在子地图的位置，以及关联的2d图像角点p和角点特征f。针对所有子区域的sfm信息，分别取两个子区域的稀疏地图点进行匹配。例如：取区域i的稀疏地图点M_i{P1,P2,...Pn}和区域j的稀疏地图点M_j{P1,P2,...Pk}，每个地图点P关联s个角点特征，为Pf_s，将M_i的所有地图点Pn的特征向量Pf_s，和M_j的地图点的特征向量进行双向暴力匹配，在满足条件的匹配结果中，每个M_i中的Pk包含多组特征向量，可能匹配多个M_j中的Pk，按频次取最高的点即可。若匹配的多个M_j中的Pk都不重复，放弃此匹配。得到地图M_i和M_j的匹配地图点对之后,根据匹配点的3d点坐标位置可计算地图M_i和M_j之间的相对尺度λ_ij，接着利用ICP(Iterative Closest Point，最近点搜索法)算法，可以计算出M_i和M_j之间的相对位姿变换T_ij。

步骤S24，基于各子区域的相对尺度和位姿，对齐各区域的mesh模型。

进行各子区域的位姿对齐和mesh模型对齐。按第三步依次计算完邻近子区域的相对尺度λ_ij和相对位姿变换T_ij后，固定第一个区域的尺度，依次向后传播，更新其他子区域的尺度，完成个子区域尺度对齐。

接着固定第一个区域的位姿T1，依次取后续两两相邻子区域的相对位姿变换T_ij，计算出在T1坐标系下的各个子区域的绝对位姿T_1_i，从而实现子区域之间的位姿对齐。类似的，固定第一个区域mesh的顶点位置，并将后续各子区域mesh对齐尺度之后，接着将各mesh的顶点位置，按照T_1_i相对位姿变换到同一个坐标系下，形成一个mesh，最后对mesh进行简单处理，合并mesh较近的顶点，得到整个场景下的mesh模型。

步骤S25，利用可微渲染技术对模型进行颜色烘焙训练，导出整体模型和颜色特征。

进行基于可微渲染的mesh烘焙。采用隐式重建的模型也能渲染出特定角度下的图像，但是无法导入主流的渲染引擎，且速度很慢，应用受限。这里采用当下成熟的类似nerf2mesh烘焙方案，具体思路为：利用每帧图像和位姿，将mesh投影到渲染成像空间，并插值出每个像素的三维坐标后，结合当前位姿的朝向，采用神经渲染模型估计每个像素的颜色，得到渲染图像后，和原始图像建立监督，训练神经渲染模型。

训练结束后，将mesh的顶点进行展UV，得到贴图三角形和uv坐标，利用训练好多神经渲染模型计算各个贴图三角形中各像素位置的颜色值，以及特征向量。最后保存整个场景的mesh模型，颜色贴图、特征图，以及方向感知机。

步骤S26，导入渲染引擎，进行后续应用。

得到的模型结果数据，可在主流的渲染引擎里导入，实现不同观察角度下逼真的渲染效果，为后续应用提供了保障。

通过上述方式，本方案提出的面向室内大场景下的三维重建方法，利用分区域的方式分别训练隐式重建模型，克服了单个神经网络参数容量的限制，同时降低了训练的困难度，同时经过模型拼接对齐后的烘焙渲染，支持主流渲染引擎，渲染时模型具有较高的完整度和逼真度，提现了本方案在室内大场景重建的优势。

图4是根据一示例性实施例示出的一种虚拟场景模型的生成装置的框图，如图4所示，该装置100包括：第一生成模块110、获取模块120、第二生成模块130和执行模块140。

第一生成模块110，用于基于物理场景的多个子区域，对物理场景的场景图像进行分区采集，以生成多个子区域分别对应的多个子图像数据。

获取模块120，用于分别获取多个子图像数据的目标参数，任一子图像数据的目标参数包括：相机参数、位姿参数和稀疏地图点参数中的至少一种。

第二生成模块130，用于根据多个子图像数据和多个子图像数据的目标参数，训练隐式重建模型，以生成多个子区域分别对应的多个网格面模型。

执行模块140，用于基于多个子图像数据的目标参数，对多个网格面模型进行对齐，生成物理场景的虚拟场景模型。

可选地，获取模块120用于：

可选地，执行模块140，包括：

第一确定子模块，用于根据第二子区域的第二稀疏地图点参数和第三子区域的第三稀疏地图点参数，对第二子图像数据和第三子图像数据进行双向暴力匹配，以确定第二子区域和第三子区域的匹配地图点对，第二子区域和第三子区域为多个子区域中的任意相邻子区域；

第二确定子模块，用于确定匹配地图点对的3D坐标位置信息；

第三确定子模块，用于根据3D坐标位置信息，确定第二子区域和第三子区域之间的相对尺度；

第四确定子模块，用于根据相对尺度，确定第二子区域和第三子区域之间的相对位姿；

执行子模块，用于根据相对尺度和相对位姿变换，对第二子区域的第二网格面模型和第三子区域的第三网格面模型进行对齐；

生成子模块，用于基于对齐的多个网格面模型，生成虚拟场景模型。

可选地，执行子模块，用于：

可选地，第一确定子模块，用于：

可选地，执行模块，用于：

可选地，该装置100还包括显示模块，该显示模块用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的虚拟场景模型的生成方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的虚拟场景模型的生成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的虚拟场景模型的生成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的虚拟场景模型的生成方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的虚拟场景模型的生成方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种虚拟场景模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分别获取所述多个子图像数据的目标参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个子图像数据的目标参数，对所述多个网格面模型进行对齐，生成所述物理场景的虚拟场景模型，包括：

确定所述匹配地图点对的3D坐标位置信息；

基于对齐的所述多个网格面模型，生成所述虚拟场景模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述相对尺度和所述相对位姿，对所述第二子区域的第二网格面模型和所述第三子区域的第三网格面模型进行对齐，包括：

5.根据权利要求3所述的方法，其特征在于，所述对第二子图像数据和第三子图像数据进行双向暴力匹配，确定所述第二子区域和所述第三子区域的匹配地图点对，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个子图像数据的目标参数，对所述多个网格面模型进行对齐，生成所述物理场景的虚拟场景模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种虚拟场景模型的生成装置，其特征在于，所述装置包括：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述虚拟场景模型的生成方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述虚拟场景模型的生成方法的步骤。