CN115223028B

CN115223028B - 场景重建及模型训练方法、装置、设备、介质及程序产品

Info

Publication number: CN115223028B
Application number: CN202210620500.XA
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2024-03-29
Anticipated expiration: 2042-06-02
Also published as: CN115223028A

Abstract

本说明书实施例公开了一种场景重建及模型训练方法、装置、设备、介质及程序产品。其中，该方法包括：先获取图像采集设备对目标场景拍摄得到的第i张图像，将第i张图像输入强化学习模型中，输出目标场景的采集指导结果，强化学习模型由多个场景各自对应的目标采集数据进行训练得到，目标采集数据包括场景对应满足预设要求的多张目标图像，然后在采集指导结果不为采集结束的情况下，基于采集指导结果获取目标场景的第i+1张图像，随后将i更新为i+1，并再次执行将第i张图像输入强化学习模型中，输出目标场景的采集指导结果的步骤，直至强化学习模型输出的采集指导结果为采集结束，从而基于获取的目标场景的所有图像获取目标场景的重建结果。

Description

场景重建及模型训练方法、装置、设备、介质及程序产品

技术领域

本说明书涉及数字化技术领域，尤其涉及一种场景重建及模型训练方法、装置、设备、介质及程序产品。

背景技术

近年来，由于互联网及相关技术的发展成熟，线上技术迎来高速扩张。人们越来越倾向于将各类生产和生活从线下迁移到线上。而要将线下搬迁到线上，最关键的就是各类场景的数字化，即将线下的各种场景、店铺等在数字世界中重建并展示出来。

目前，场景数字化(又称为场景重建)方法可以被分为两大类。第一类是基于专业采集设备的场景数字化方法。这类方法一般需要专业的采集设备，通过对目标场景进行详细的采集和扫描，将扫描得到的数据上传到云端，使用专用的算法进行场景重建，并将重建的结果在数字世界展示出来。第二类则是基于通用采集设备的场景数字化方法。这类方法一般需要使用手机或者通用摄像头等通用采集设备采集大量的图像，然后通过例如NeRF等模型进行训练，最后利用训练好的模型进行场景重建和数字世界的展示。

发明内容

本说明书实施例提供了一种场景重建及模型训练方法、装置、设备、介质及程序产品，通过已训练的强化学习模型指导用户采集符合要求的场景数据进行场景重建，使用户能够及时拍摄关键帧，让用户采集的过程更加人性化、具有更强地可操作性，大大降低了场景重建时对采集人员的经验要求以及对采集设备的专业要求，提升了采集效率以及场景重建的效率，进而提高了场景重建的重建效果。上述技术方案如下：

第一方面，本说明书实施例提供了一种场景重建方法，包括：

获取目标场景的第i张图像；上述第i张图像为基于图像采集设备对上述目标场景进行拍摄得到；上述i为正整数；

将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果；上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到；上述目标采集数据包括上述场景对应的多张目标图像，上述多张目标图像满足预设要求；

在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像；

将上述i更新为i+1，并再次执行上述将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果的步骤，直至上述强化学习模型输出的上述采集指导结果为采集结束；

在上述采集指导结果为采集结束的情况下，基于获取的上述目标场景的所有图像获取上述目标场景对应的重建结果。

在一种可能的实现方式中，上述获取目标场景的第i张图像，包括：

在上述i大于1的情况下，基于目标场景的第i-1张图像输入强化学习模型后输出的采集指导结果获取上述目标场景的第i张图像。

在一种可能的实现方式中，上述将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果，包括：

将上述第i张图像输入强化学习模型中，在上述第i张图像满足预设条件的情况下，输出上述目标场景的采集指导结果。

在一种可能的实现方式中，上述获取目标场景的第i张图像之后，上述在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像之前，上述方法还包括：

将上述第i张图像输入强化学习模型中，在上述第i张图像不满足预设条件的情况下，输出上述第i张图像的重新采集指导结果；上述重新采集结果包括重新采集上述第i张图像时，上述图像采集设备的位置指导信息以及旋转角度指导信息；

基于上述第i张图像的重新采集指导结果重新获取上述目标场景的第i张图像；

再次执行将上述第i张图像输入上述强化学习模型中的步骤，直至上述第i张图像满足预设条件时输出上述目标场景的采集指导结果。

在一种可能的实现方式中，上述图像采集设备包括显示屏；

上述将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果之后，上述在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像之前，上述方法还包括：

在上述显示屏展示上述采集指导结果。

在一种可能的实现方式中，在上述采集指导结果不为采集结束的情况下，上述采集指导结果包括采集指导信息；上述采集指导信息包括采集上述目标场景的第i+1张图像时，上述图像采集设备的位置指导信息以及旋转角度指导信息。

在一种可能的实现方式中，上述旋转角度指导信息包括上述图像采集设备待旋转的目标角度；上述目标角度包括以下至少一项：目标俯仰角度、目标横滚角度以及目标航向角度。

在一种可能的实现方式中，上述采集指导结果包括剩余待采集的上述目标场景的图像的数量。

在一种可能的实现方式中，上述在上述采集指导结果为采集结束的情况下，基于获取的上述目标场景的所有图像获取上述目标场景对应的重建结果，包括：

在上述采集指导结果为采集结束的情况下，将获取的上述目标场景的所有满足预设条件的图像上传至云端；

获取上述云端基于上述目标场景的所有满足预设条件的图像进行场景重建后得到的上述目标场景对应的重建结果。

第二方面，本说明书实施例提供了一种强化学习模型训练方法，包括：

获取多个场景各自对应的目标采集数据；上述目标采集数据包括基于图像采集设备采集的上述场景对应的多张目标图像，上述多张目标图像满足预设要求；

将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果；上述i为正整数；

在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型；

将上述场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果；

将上述i更新为i+1，并再次执行在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型的步骤，直至上述第i张目标图像对应的损失结果满足预设损失条件。

在一种可能的实现方式中，上述i＝1；上述将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果之后，上述在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型之前，上述方法还包括：

在上述第i张目标图像对应的损失结果满足预设损失条件的情况下，将上述场景对应的第i+1张目标图像输入上述强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果；

将上述i更新为i+1。

在一种可能的实现方式中，上述i为大于1的整数；上述将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果之后，上述方法还包括：

在上述第i张目标图像对应的损失结果满足预设损失条件的情况下，确定上述强化学习模型已收敛，并结束上述强化学习模型的训练。

在一种可能的实现方式中，上述预测采集指导结果包括上述图像采集设备的预测位置指导信息以及预测旋转角度指导信息；上述预测位置指导信息用于指示上述图像采集设备的预测采集位置；上述预测旋转角度指导信息用于指示上述图像采集设备的预测采集旋转角度。

在一种可能的实现方式中，上述损失结果包括角度损失信息和位置损失信息；上述角度损失信息用于表征目标图像对应的上述预测采集旋转角度与上述目标图像对应的目标采集旋转角度之间的差距；上述目标采集旋转角度用于表征采集上述目标图像时，上述图像采集设备所处的旋转角度；上述位置损失信息用于表征上述目标图像对应的上述预测采集位置与上述目标图像对应的目标采集位置之间的差距；上述目标采集位置用于表征采集上述目标图像时，上述图像采集设备所处的位置。

在一种可能的实现方式中，上述预测采集旋转角度以及上述目标采集旋转角度均包括以下至少一项：俯仰角度、横滚角度以及航向角度。

在一种可能的实现方式中，上述预测采集指导结果包括剩余待采集的上述场景的目标图像的预测数量。

在一种可能的实现方式中，上述损失结果包括剩余数量损失信息；上述剩余数量损失信息用于表征采集完当前目标图像后，剩余待采集的上述场景的目标图像的预测数量与将上述当前目标图像输入上述强化学习模型后，上述场景对应的多张目标图像中剩余未输入上述强化学习模型的目标图像的目标数量之间的差距。

在一种可能的实现方式中，上述获取多个场景各自对应的目标采集数据，包括：

获取多个场景各自对应的采集数据；上述采集数据包括基于图像采集设备采集的上述场景对应的多张图像；

对多个场景各自对应的采集数据分别进行预处理，得到上述多个场景各自对应的目标采集数据。

在一种可能的实现方式中，上述预处理包括：

对上述采集数据中的每张图像进行质量评估，得到上述每张图像对应的质量评估结果；

基于上述质量评估结果滤除上述采集数据中的不满足预设质量要求的图像，得到上述多个场景各自对应的目标采集数据。

在一种可能的实现方式中，上述预处理还包括：估计上述目标采集数据中每张目标图像对应的上述图像采集设备的目标采集旋转角度和目标采集位置。

第三方面，本说明书实施例提供了一种场景重建装置，包括：

第一获取模块，用于获取目标场景的第i张图像；上述第i张图像为基于图像采集设备对上述目标场景进行拍摄得到；上述i为正整数；

第一采集指导模块，用于将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果；上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到；上述目标采集数据包括上述场景对应的多张目标图像，上述多张目标图像满足预设要求；

第二获取模块，用于在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像；

更新模块，用于将上述i更新为i+1，并再次执行上述将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果的步骤，直至上述强化学习模型输出的上述采集指导结果为采集结束；

第三获取模块，用于在上述采集指导结果为采集结束的情况下，基于获取的上述目标场景的所有图像获取上述目标场景对应的重建结果。

在一种可能的实现方式中，上述第一获取模块具体用于：

在一种可能的实现方式中，上述第一采集指导模块具体用于：

在一种可能的实现方式中，上述装置还包括：

第二采集指导模块，用于将上述第i张图像输入强化学习模型中，在上述第i张图像不满足预设条件的情况下，输出上述第i张图像的重新采集指导结果；上述重新采集结果包括重新采集上述第i张图像时，上述图像采集设备的位置指导信息以及旋转角度指导信息；

上述第一获取模块还用于：基于上述第i张图像的重新采集指导结果重新获取上述目标场景的第i张图像；

上述第一采集指导模块还用于：再次执行将上述第i张图像输入上述强化学习模型中的步骤，直至上述第i张图像满足预设条件时输出上述目标场景的采集指导结果。

在一种可能的实现方式中，上述图像采集设备包括显示屏；

上述装置还包括：

展示模块，用于在上述显示屏展示上述采集指导结果。

在一种可能的实现方式中，上述第三获取模块包括：

传输单元，用于在上述采集指导结果为采集结束的情况下，将获取的上述目标场景的所有满足预设条件的图像上传至云端；

获取单元，用于获取上述云端基于上述目标场景的所有满足预设条件的图像进行场景重建后得到的上述目标场景对应的重建结果。

第四方面，本说明书实施例提供了一种强化学习模型训练装置，包括：

第一获取模块，用于获取多个场景各自对应的目标采集数据；上述目标采集数据包括基于图像采集设备采集的上述场景对应的多张目标图像，上述多张目标图像满足预设要求；

第一强化学习模块，用于将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果；上述i为正整数；

第一更新模块，用于在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型；

第二强化学习模块，用于将上述场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果；

第二更新模块，用于将上述i更新为i+1，并再次执行在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型的步骤，直至上述第i张目标图像对应的损失结果满足预设损失条件。

在一种可能的实现方式中，上述i＝1；上述装置还包括：

第三强化学习模块，用于在上述第i张目标图像对应的损失结果满足预设损失条件的情况下，将上述场景对应的第i+1张目标图像输入上述强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果；

上述第二更新模块具体用于：将上述i更新为i+1。

在一种可能的实现方式中，上述i为大于1的整数；上述装置还包括：

确定模块，用于在上述第i张目标图像对应的损失结果满足预设损失条件的情况下，确定上述强化学习模型已收敛，并结束上述强化学习模型的训练。

在一种可能的实现方式中，上述第一获取模块包括：

获取单元，用于获取多个场景各自对应的采集数据；上述采集数据包括基于图像采集设备采集的上述场景对应的多张图像；

预处理单元，用于对多个场景各自对应的采集数据分别进行预处理，得到上述多个场景各自对应的目标采集数据。

在一种可能的实现方式中，上述预处理单元包括：

质量评估子单元，用于对上述采集数据中的每张图像进行质量评估，得到上述每张图像对应的质量评估结果；

滤除子单元，用于基于上述质量评估结果滤除上述采集数据中的不满足预设质量要求的图像，得到上述多个场景各自对应的目标采集数据。

在一种可能的实现方式中，上述预处理单元还包括：

估计子单元，用于估计上述目标采集数据中每张目标图像对应的上述图像采集设备的目标采集旋转角度和目标采集位置。

第五方面，本说明书实施例提供了一种电子设备，包括：处理器以及存储器；

上述处理器与上述存储器相连；

上述存储器，用于存储可执行程序代码；

上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序，以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

第六方面，本说明书实施例提供了一种计算机存储介质，上述计算机存储介质存储有多条指令，上述指令适于由处理器加载并执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

第七方面，本说明书实施例提供了一种包含指令的计算机程序产品，当上述计算机程序产品在计算机或处理器上运行时，使得上述计算机或上述处理器执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

本说明书实施例，通过先获取图像采集设备对目标场景拍摄得到的第i张图像，并将第i张图像输入强化学习模型中，输出目标场景的采集指导结果，强化学习模型由多个场景各自对应的目标采集数据进行训练得到，目标采集数据包括场景对应的满足预设要求的多张目标图像，然后在采集指导结果不为采集结束的情况下，基于采集指导结果获取目标场景的第i+1张图像，随后将i更新为i+1，并再次执行将第i张图像输入强化学习模型中，输出目标场景的采集指导结果的步骤，直至强化学习模型输出的采集指导结果为采集结束，从而基于获取的目标场景的所有图像获取目标场景对应的重建结果，实现指导用户采集符合要求的场景数据进行场景重建，使用户能够及时拍摄关键帧，让用户采集的过程更加人性化、具有更强地可操作性，大大降低了场景重建时对采集人员的经验要求以及对采集设备的专业要求，提升了采集效率以及场景重建的效率，进而提高了场景重建的重建效果。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一示例性实施例提供的一种场景重建系统的架构示意图；

图2为本说明书一示例性实施例提供的一种场景重建方法的流程示意图；

图3为本说明书一示例性实施例提供的一种采集指导信息的展示示意图；

图4为本说明书一示例性实施例提供的一种达到目标角度和目标位置的示意图；

图5为本说明书一示例性实施例提供的一种采集结束的展示示意图；

图6为本说明书一示例性实施例提供的另一种场景重建方法的流程示意图；

图7为本说明书一示例性实施例提供的一种重新采集指导结果的展示示意图；

图8为本说明书一示例性实施例提供的一种强化学习模型训练方法的流程示意图；

图9为本说明书一示例性实施例提供的一种获取目标采集数据的实现过程示意图；

图10为本说明书一示例性实施例提供的一种场景重建装置的结构示意图；

图11为本说明书一示例性实施例提供的一种强化学习模型训练装置的结构示意图；

图12为本说明书一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述。

本说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

请参考图1，图1为本说明书一示例性实施例提供的一种场景重建系统的架构示意图。如图1所示，场景重建系统可以包括：图像采集设备110和服务器120。其中：

图像采集设备110可以是安装有用户版软件和摄像头的手机、平板电脑、笔记本电脑等设备，也可以是相机等，本申请实施例对此不作限定。用户可以使用图像采集设备110采集目标场景的图像。同时，图像采集设备110还可以建立与网络之间的数据关系，并通过该网络和服务器120建立数据连接关系，例如发送目标场景的图像、接收目标场景的采集指导结果等。图像采集设备110包括显示屏，当其获取到目标场景的采集指导结果后，还可以在显示屏展示上述采集指导结果，以指导用户进行目标场景的图像采集。

服务器120可以是能提供多种场景重建的服务器，可以通过网络接收图像采集设备110发送的目标场景的图像等数据，并将目标场景的图像输入强化学习模型中，输出目标场景的采集指导结果，上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到，上述目标采集数据包括场景对应的满足预设要求的多张目标图像，并在采集指导结果为采集结束的情况下，基于接收的目标场景的所有图像对目标场景进行重建，得到对应的重建结果。服务器120还可以给图像采集设备110发送目标场景的采集指导结果等，以供图像采集设备110对应的用户(采集人员)能够根据采集指导结果高效地采集重建目标场景时所需的目标场景的图像。服务器120可以但不限于是硬件服务器、虚拟服务器、云服务器等。

上述场景重建不限于上述服务器120执行，还可以由上述图像采集设备110单独执行。即上述图像采集设备110可以采集目标场景的第i张图像，并将第i张图像输入强化学习模型中，输出目标场景的采集指导结果，上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到，上述目标采集数据包括场景对应的满足预设要求的多张目标图像，在采集指导结果不为采集结束的情况下，基于采集指导结果继续采集目标场景的第i+1张图像，将i更新为i+1，并再次执行将第i张图像输入强化学习模型中，输出目标场景的采集指导结果的步骤，直至强化学习模型输出的采集指导结果为采集结束，在采集指导结果为采集结束的情况下，基于采集的目标场景的所有图像对目标场景进行重建，得到对应的重建结果。本说明书实施例对此不作具体限定，以下实施例全部以由图像采集设备110执行上述场景重建为例进行说明。

网络可以是在服务器120和图像采集设备110之间提供通信链路的介质，也可以是包含网络设备和传输介质的互联网，不限于此。传输介质可以是有线链路(例如但不限于，同轴电缆、光纤和数字用户线路(digital subscriber line，DSL)等)或无线链路(例如但不限于，无线上网(wireless fidelity，WIFI)、蓝牙和移动设备网络等)。

可以理解地，图1所示的场景重建系统中的图像采集设备110和服务器120的数目仅作为示例，在具体实现中，该场景重建系统中可以包含任意数目的图像采集设备和服务器。本说明书实施例对此不作具体限定。例如但不限于，图像采集设备110可以是多个图像采集设备组成的图像采集设备集群，服务器120可以是多个服务器组成的服务器集群。

示例性地，当目标场景过大时，可以将目标场景划分为多个区域，通过多个图像采集设备分别同时对目标场景的各个区域进行拍摄以采集目标场景重建时所需要的图像，然后由服务器120通过强化学习模型根据多个图像采集设备采集的图像分别向多个图像采集设备发送相对应的采集指导结果，以及融合多个图像采集设备采集的图像对目标场景进行重建，以提高重建目标场景的效率。

目前，相关技术中的场景重建方法可以包括两大类。第一类基于专业采集设备的场景重建方法，需要专业的采集设备，采集门槛高，难以规模化；第二类基于通用采集设备的场景重建方法，其重建的质量对于采集数据(图像)的数量和质量有较大的依赖性，因此采集的流程耗费较长，并需要依赖采集人员一定的经验才能达到场景重建的要求。为了解决上述相关技术中的问题，提升场景重建时数据的采集效率，降低对采集数据数量、质量和经验的要求，提高场景重建的效率和场景效果，接下来结合图1，介绍本说明书实施例提供的场景重建方法。具体请参考图2，其为本说明书一示例性实施例提供的一种场景重建方法的流程示意图。如图2所示，该场景重建方法包括以下几个步骤：

S202，获取目标场景的第i张图像。

具体地，当用户想要在数字世界中重建线下的现实世界中的目标场景时，可以通过图像采集设备对目标场景进行拍摄，以得到目标场景的图像。上述第i张图像可以为基于图像采集设备对目标场景进行第i次拍摄得到的图像，也可以为基于图像采集设备对目标场景进行拍摄得到的第i张满足预设条件的图像等，本说明书实施例对此不作限定。上述i为正整数。上述目标场景可以为现实世界中的店铺、花园、街道等，本说明书实施例对此不作限定。为了提高用于重建目标场景的图像质量，实现更准确高效地采集指导以及提高场景重建的效率和准确率，上述第i张图像需要满足的预设条件可以是图像中未出现曝光、遮挡以及模糊等影响图像质量的情况，也可以是图像对应的质量分数大于或等于预设分数等，本说明书实施例对此不作限定。上述预设分数可以为90分、95分等，本说明书对此不作限定。

可选地，当i＝1即用户使用图像采集设备第一次采集目标场景的图像或者采集目标场景的第一张满足预设条件的图像时，图像采集设备可以处于现实世界目标场景中的任意位置进行采集，以及图像采集设备的对应采集角度也可以是任意角度，本说明书实施例对此不作限定。

示例性地，当用户使用图像采集设备第一次采集的目标场景的图像出现曝光的情况时，由于第一次采集的图像并不满足预设条件，用户第二次进行采集时即用户需要再次采集目标场景的第一张满足预设条件的图像时，图像采集设备可以处于第一次采集时的位置以及角度进行采集，也可以处于现实世界目标场景中的任意位置以及任意角度进行采集。

可选地，在所述i大于1的情况下，即在获取目标场景的第i张图像之前，已经存在目标场景的第i-1张图像被输入S204中的强化学习模型，并得到目标场景的第i张图像的采集指导结果时，可以基于目标场景的第i-1张图像输入强化学习模型后输出的采集指导结果获取目标场景的第i张图像。上述第i张图像的采集指导结果中包括采集目标场景的第i张图像时，图像采集设备的位置指导信息以及旋转角度指导信息。位置指导信息包括图像采集设备待达到的目标采集位置。角度旋转角度指导信息包括图像采集设备待旋转的目标角度。即用户可以根据上述位置指导信息以及旋转角度指导信息将图像采集设备移动到现实世界目标场景中的目标采集位置以及将图像采集设备旋转至目标角度之后，再对目标场景进行拍摄，以获得目标场景的第i张图像。

S204，将第i张图像输入强化学习模型中，输出目标场景的采集指导结果。

具体地，具体地，当获取到目标场景的第i张图像后，可以直接将第i张图像输入强化学习模型中，从而输出目标场景的采集指导结果。上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到。上述目标采集数据包括场景对应的多张目标图像。为了让强化学习模型能够进行更准确高效地采集指导，提高场景重建的效率和准确率，上述多张目标图像需要满足预设要求，上述预设要求包括但不限于多张目标图像中拍摄的场景的角度并集大于或等于预设角度范围，上述预设角度范围可以为上述场景的360度视角，即上次场景的所有角度，也可以为上述场景的350度视角等，从而降低对采集人员的经验要求以及图像采集设备的专业要求，降低场景重建过程中图像采集的门槛，提高场景重建过程中图像采集的效率。

可选地，上述目标场景的采集指导结果可以包括剩余待采集的目标场景的图像的数量。即当采集完目标场景的第i张图像后，要实现理想的目标场景重建还需要采集的目标场景的图像的数量。上述剩余待采集的目标场景的图像的数量可以为0或大于0的任意整数等，强化学习模型能够依据实际已采集的目标场景图像的情况进行输出。当上述剩余待采集的目标场景的图像数量为0时，即代表采集结束。

可选地，当获取到目标场景的第i张图像之后，可以先判断第i张图像是否满足预设条件，即第i张图像中是否未出现曝光、遮挡以及模糊等影响图像质量的情况，或第i张图像对应的质量分数是否大于或等于预设分数等，若第i张图像满足预设条件，则将第i张图像输入强化学习模型中，从而输出目标场景的采集指导结果。此时，当i＞1时，该采集指导结果可能为采集结束，也可能为目标场景的第i+1张图像的采集指导结果。上述第i+1张图像的采集指导结果包括采集指导信息，即采集第i+1张图像时，图像采集设备的位置指导信息以及旋转角度指导信息。上述位置指导信息用于指示采集目标场景的第i+1张图像时在现实世界的目标场景中所处的目标采集位置，上述旋转角度信息用于指示采集目标场景的第i+1张图像时，图像采集设备待旋转的目标角度。上述目标角度包括以下至少一种：目标横滚角度、目标俯仰角度、目标航向角度。

S206，判断采集指导结果是否为采集结束。

具体地，可以直接根据强化学习模型输出的采集指导结果中是否包括下一张图像的采集指导信息判断采集指导结果是否为采集结束。

可选地，可以根据采集指导结果中包括的剩余待采集的目标场景的图像的数量来判断采集指导结果是否为采集结束。

S208，若否，则基于采集指导结果获取目标场景的第i+1张图像。

具体地，若采集指导结果不为采集结束，即采集指导结果中包括下一张图像的采集指导信息或采集指导结果中包括的剩余待采集的目标场景的图像数量不为0，则可以根据采集指导结果中的采集指导信息将图像采集设备移动到目标采集位置以及旋转至目标角度后，图像采集设备可以自动开始采集目标场景的第i+1张图像或者提示用户可以开始采集目标场景的第i+1张图像，并在接收到用户触发的采集指令之后，拍摄目标场景的第i+1张图像。上述采集指导信息包括采集目标场景的第i+1张图像时，图像采集设备的位置指导信息以及旋转角度指导信息。上述旋转角度指导信息包括图像采集设备待旋转的目标角度，上述目标角度包括以下至少一项：目标俯仰角度、目标横滚角度以及目标航向角度。

可选地，图像采集设备包括显示屏。将目标场景的第i张图像输入强化学习模型中，输出目标场景的采集指导结果之后，图像采集设备还可以在显示屏展示上述采集指导结果，从而降低场景重建时，对采集人员的经验要求和对采集设备的专业要求，通过在采集场景的图像时为采集人员提供一定的采集指导，使采集人员即使使用普通的图像采集设备或者没有采集经验也能够根据采集指导结果高效地采集到场景重建时所需要的图像，进而也提高了场景重建的效率和重建效果。

示例性地，当获取完目标场景的第i张图像之后，图像采集设备可以在显示屏显示如图3所示第i+1张图像的采集指导结果。为了让用户(采集人员)能够更直观地知道应该如何转动图像采集设备去采集目标场景的第i+1张图像，可以先以第一次采集目标场景的图像时图像采集设备所处目标场景中的位置或任意目标场景中的位置为原点建立三维世界坐标系，并在显示屏中通过箭头310指导用户应该如何将图像采集设备转动至目标俯仰角度以及展示目标俯仰角度为0度，即不需要绕X轴进行顺时针旋转，通过箭头320指导用户应该如何将图像采集设备转动至目标航向角度以及展示目标航向角度为0度，即不需要绕Y轴进行顺时针旋转，以及通过箭头330指导用户应该如何将图像采集设备转动至目标横滚角度以及展示目标横滚角度为10度，即需要绕Z轴顺时针旋转10度。

示例性地，为了让用户(采集人员)能够更直观地知道应该如何移动图像采集设备去采集目标场景的第i+1张图像，如图3所示，还可以在显示屏显示目前图像采集设备所处的位置340以及采集目标场景的第i+1张图像时，图像采集设备在现实世界的目标场景中所处的目标采集位置350，并可以通过箭头实时指示图像采集设备的移动路径，以使用户能够更直观地了解到图像采集设备的移动情况，从而使图像采集设备能够更高效地采集到目标场景的图像。

示例性地，当目标场景的采集指导结果包括的剩余待采集的目标场景的图像数量为4时，为了让用户能够更直观地了解到还需要采集多少张目标场景的图像，如图3所示，还可以在显示屏显示待采集图像数量360。

示例性地，当图像采集设备已被移动至采集指导结果中的目标采集位置以及旋转至指导结果中的目标采集角度之后，如图4所示，可以在显示屏显示采集提示信息410，即提醒用户图像采集设备已到达了目标采集位置和目标旋转角度，可以在此处进行拍摄等。当用户看到采集提示信息410后，可以通过点击图像采集设备上的采集控件420进行目标场景的图像的采集。

S210，将i更新为i+1。

具体地，在基于采集指导结果获取到目标场景的第i张图像之后，可以直接将i更新为i+1，并再次执行S204，将第i张图像输入强化学习模型中，输出目标场景的采集指导结果的步骤，直至强化学习模型输出的采集指导结果为采集结束。即在获取到目标场景的下一张图像之后，可以将获取到的下一张图像输入继续输入强化学习模型，从而再次得到强化学习模型输出的采集指导结果，若该采集指导结果不为采集结束，又可以根据采集指导结果再次获取目标场景的下下一张图像，依次循环，直至采集结束。

可选地，在基于采集指导结果获取到目标场景的第i+1张图像之后，还可以先判断第i+1张图像是否满足预设条件。若满足预设条件，则将i更新为i+1；若不满足预设条件，则再次基于上述采集指导结果获取目标场景的第i+1张图像，直至第i+1张图像满足预设条件后，才将i更新为i+1，并再次执行S204，将第i张图像输入强化学习模型中，输出目标场景的采集指导结果的步骤，直至强化学习模型输出的采集指导结果为采集结束。

S212，若是，则基于获取的目标场景的所有图像获取目标场景对应的重建结果。

具体地，若采集指导结果为采集结束，即采集指导结果中不包括下一张图像的采集指导信息或采集指导结果中包括的剩余待采集的目标场景的图像数量为0，则可以将获取的目标场景的所有满足预设条件的图像全部输入场景重建模型中，从而输出目标场景对应的数字化目标场景(重建结果)。上述场景重建模型可以为NeRF模型等能够进行场景重建的模型，本说明书实施例对此不作限定。

可选地，若采集结束后，图像采集设备也可以将获取的目标场景的所有满足预设条件的图像上传至云端(服务器)，然后由服务器根据上述所有满足预设条件的图像对目标场景进行重建，得到目标场景对应的数字化目标场景(重建结果)，并通过网络将上述数字化目标场景发送至图像采集设备。图像采集设备通过网络获取到上述数字化目标场景后，可以在显示屏进行展示，以供用户线上进行查看是目标场景的各个角度。

示例性地，当采集指导结果为采集结束时，如图5所示，可以在显示屏显示待采集图像数量510为0，或者与采集结束相关的信息520，以提示用户目标场景的图像已经采集结束，可以开始去基于获取的目标场景的所有图像进行目标场景重建结果。当用户想要根据获取的目标场景的所有图像重建目标场景或想要查看目标场景的重建结果时，可以通过但不限于点击如图5所示的确定控件530，以触发目标场景的重建或者触发图像采集设备获取目标场景的重建结果，并在显示屏进行展示，以使用户既能够直观体验到目标场景的图像采集过程到重建目标场景的过程的转变，又能够在显示屏中查看数字化目标场景的各个角度。

本说明书实施例通过先获取图像采集设备对目标场景拍摄得到的第i张图像，并将第i张图像输入强化学习模型中，输出目标场景的采集指导结果，强化学习模型由多个场景各自对应的目标采集数据进行训练得到，目标采集数据包括场景对应的满足预设要求的多张目标图像，然后在采集指导结果不为采集结束的情况下，基于采集指导结果获取目标场景的第i+1张图像，随后将i更新为i+1，并再次执行将第i张图像输入强化学习模型中，输出目标场景的采集指导结果的步骤，直至强化学习模型输出的采集指导结果为采集结束，从而基于获取的目标场景的所有图像获取目标场景对应的重建结果，实现指导用户采集符合要求的场景数据进行场景重建，使用户能够及时拍摄关键帧，让用户采集的过程更加人性化、具有更强地可操作性，大大降低了场景重建时对采集人员的经验要求以及对采集设备的专业要求，提升了采集效率以及场景重建的效率，进而提高了场景重建的重建效果。

为了尽可能提高场景重建的效率和准确率，需要对采集的目标场景的图像进行一定的筛选，只保留下满足预设条件的目标场景的图像进行重建，以降低对采集数据数量和经验的要求，本说明书实施例提供了的另一种场景重建方法。如图6所示，该场景重建方法包括以下几个步骤：

S602，获取目标场景的第i张图像。

具体地，S602与S202一致，此处不再赘述。

S604，将第i张图像输入强化学习模型中。

具体地，当获取到第i张图像后，可以直接将第i张图像输入至强化学习模型中。上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到。上述述目标采集数据包括每个场景对应的多张目标图像，上述多张目标图像满足预设要求。上述预设要求包括多张目标图像中拍摄的场景的角度并集大于或等于预设角度范围，上述预设角度范围可以为上述场景的360度视角，即上次场景的所有角度，也可以为上述场景的350度视角等，本申请实施例对此不作限定。

S606，在第i张图像不满足预设条件的情况下，输出第i张图像的重新采集指导结果。

具体地，为了实现更好地场景重建效果，提高场景重建的效率和准确率，第i张图像输入强化学习模型后，当强化学习模型检测到第i张图像不满足预设条件时，将会输出第i张图像的重新采集指导结果。上述预设条件可以为第i张图像中未出现曝光、遮挡以及模糊等影响图像质量的情况，也可以为第i张图像对应的质量分数大于或等于预设分数等，本申请实施例对此不作限定。上述预设分数可以为99分、80分等，本说明书对此不作限定。上述重新采集结果包括重新采集第i张图像时，图像采集设备的位置指导信息以及旋转角度指导信息。上述旋转角度指导信息包括图像采集设备待旋转的目标采集角度。上述目标采集角度包括以下至少一项：目标俯仰角度、目标横滚角度以及目标航向角度。

可选地，当i＝1时，目标场景的第一张图像输入强化学习模型后，若检测到第一张图像不满足预设条件，则强化学习模型可以输出重新采集指导结果。上述重新采集指导结果中包括重新采集提示信息，用于指示采集人员需要重新采集目标场景的第一张图像。此时，图像采集设备可以基于第一次采集时的位置和角度进行重新采集，也可以基于其它任意位置和任意角度重新采集目标场景的第一张图像，本说明书实施例对此不作限定。

示例性地，当强化学习模型检测到第i张图像不满足预设条件时，将会输出第i张图像的重新采集指导结果。图像采集设备得到上述第i张图像的重新采集指导结果之后，可以在显示屏显示如图7所示的第i张图像的重新采集指导结果710，从而在提高采集效率，降低对采集设备的专业要求以及采集人员的经验要求的同时，还能够让采集人员直观地了解到采集的图像是否满足预设条件，提升用于重建的目标场景的图像质量，提高场景重建的效率和准确率。

S608，基于第i张图像的重新采集指导结果重新获取目标场景的第i张图像。

具体地，当第i张图像不满足预设条件时，可以将其删除，并根据重新采集指导结果，在图像采集设备被移动到位置指导信息中的目标采集位置以及被旋转至目标采集角度之后，重新获取目标场景的第i张图像，并再次执行S604，将第i张图像输入强化学习模型中的步骤，直至第i张图像满足预设条件时输出目标场景的第i+1张图像的采集指导结果。当i＞1时，上述第i张图像的重新采集指导结果为将第i-1张图像输入强化学习模型后，强化学习模型输出的第i张图像的采集指导结果。

可选地，当i＝1时，图像采集设备可以基于第一次采集时的位置和角度进行重新采集，也可以基于其它任意位置和任意角度重新采集目标场景的第一张图像，本说明书实施例对此不作限定。

S610，在第i张图像满足预设条件的情况下，输出目标场景的采集指导结果。

具体地，将第i张图像输入强化学习模型后，若强化学习模型检测到其满足预设条件，则输出目标场景的采集指导结果。

可选地，当i＞1时，上述采集指导结果可能为采集结束，即不需要再采集目标场景的图像，可以开始基于已采集的目标场景的图像进行目标场景的重建。

可选地，在采集指导结果不为采集结束的情况下，上述采集指导结果可能包括第i+1张图像的采集指导信息。上述采集指导信息包括采集目标场景的第i+1张图像时，图像采集设备的位置指导信息以及旋转角度指导信息。上旋转角度指导信息包括图像采集设备采集第i+1张图像时，待旋转的目标角度，上述目标角度包括以下至少一项：目标俯仰角度、目标横滚角度以及目标航向角度。

可选地，上述采集指导结果还可以包括采集完目标场景的第i张图像之后，剩余待采集的目标场景的图像的数量。

S612，判断采集指导结果是否为采集结束。

具体地，S612与S206一致，此处不再赘述。

S614，若否，则基于采集指导结果获取目标场景的第i+1张图像。

具体地，S614与S208一致，此处不再赘述。

S616，将i更新为i+1。

具体地，S616与S210一致，此处不再赘述。

S618，若是，则基于获取的目标场景的所有图像获取目标场景对应的重建结果。

具体地，S618与S212一致，此处不再赘述。

本说明书实施例将获取的目标场景的第i张图像输入强化学习模型中，通过在第i张图像不满足预设条件的情况下，使强化学习模型输出第i张图像的重新采集指导结果，并基于第i张图像的重新采集指导结果重新获取目标场景的第i张图像，直至在第i张图像满足预设条件的情况下，使强化学习模型输出目标场景的采集指导结果，然后在判断采集指导结果是否为采集结束；若否，则基于采集指导结果获取目标场景的第i+1张图像，并将i更新为i+1；若是，则基于获取的目标场景的所有图像获取目标场景对应的重建结果，从而实现对采集的目标场景的图像进行一定的筛选，只保留下满足预设条件的目标场景的图像进行重建，在降低场景重建时对采集人员的经验要求以及对采集设备的专业要求的同时，还降低了对采集数据数量要求，进一步提高了采集效率以及场景重建的效率和准确率。

请参考图8，其为本说明书一示例性实施例提供的一种强化学习模型训练方法的流程示意图。如图8所示，该强化学习模型训练方法包括以下几个步骤：

S802，获取多个场景各自对应的目标采集数据。

具体地，目标采集数据包括基于图像采集设备采集的场景对应的多张目标图像。为了让强化学习模型实现更准确高效地采集指导效果，提高场景重建的效率和准确率，多张目标图像需要满足预设要求。上述预设要求包括多张目标图像中拍摄的场景角度并集大于或等于预设角度范围，上述预设角度范围可以为上述场景的360度视角，即上次场景的所有角度，也可以为上述场景的350度视角等，本申请实施例对此不作限定。

可选地，为了实现更好地场景重建效果，提高场景重建的效率和准确率，上述预设要求还可以包括多张目标均为满足预设条件的图像，上述预设条件可以为图像中未出现曝光、遮挡以及模糊等影响图像质量的情况，或图像对应的质量分数大于或等于预设分数等，本申请实施例对此不作限定。

可以理解地，多张目标图像中拍摄的场景角度并集越大，每张目标图像对应的质量分数越高，基于多张目标图像进行训练得到的强化学习模型的指导效果就越好，最后进行场景重建后得到的重建结果也就越准确。

可以理解地，为了确保每个场景对应的多张目标图像尽可能满足预设要求，在训练强化学习模型时需要通过普通的图像采集设备(例如但不限于手机、平板、等)尽可能采集每个场景的各个不同角度的多张图像，或者直接通过专业的图像采集设备直接去采集各个场景的多张目标图像。

可选地，如图9所示，获取目标采集数据的实现过程还可以包括以下几个步骤：

S902，获取多个场景各自对应的采集数据。

具体地，采集数据包括基于图像采集设备采集的场景对应的多张图像。即可以通过图像采集设备对多个场景各自对应的各个角度进行拍摄，得到多个场景各自对应的多张图像。上述每个场景的多张图像拍摄的场景角度并集大于或等于预设角度范围，上述预设角度范围可以为上述场景的360度视角，即上次场景的所有角度，也可以为上述场景的350度视角等，本申请实施例对此不作限定。

S904，对多个场景各自对应的采集数据分别进行预处理，得到多个场景各自对应的目标采集数据。

具体地，在获取到多个场景各自对应的多张图像之后，为了得到满足预设要求的目标图像，可以分别对每个场景的多张图像进行预处理。

可选地，上述预处理包括对采集数据中的每张图像进行质量评估，得到每张图像对应的质量评估结果。上述质量评估结果包括每个图像对应的质量分数，用于表征图像的质量。即获取到多个场景各自对应的多张图像之后，可以将每个场景的多张图像输入到质量评估模型中，从而输出每张图像对应的质量分数。上述质量评估模型由多张已知质量分数的图像进行训练得到。在得到每张图像对应的质量评估结果之后，可以基于质量评估结果滤除采集数据中的不满足预设质量要求的图像，得到多个场景各自对应的目标采集数据。即得到的目标采集数据中的多张目标图像均满足预设质量要求，上述预设质量要求可以为图像中未出现曝光、遮挡以及模糊等影响图像质量的情况，或图像对应的质量分数大于或等于预设分数等，本申请实施例对此不作限定。

可选地，因为强化学习模型需要能够预测出采集场景的下一张图像时，图像采集设备对应的位置和旋转角度，以及场景重建的过程中可能需要每张图像对应的图像采集设备的位置和旋转角度，所以上述预处理还可以包括：估计目标采集数据中每张目标图像对应的图像采集设备的目标采集旋转角度和目标采集位置。上述目标采集旋转角度包括以下至少一种：目标俯仰角度、目标横滚角度、目标航向角度。

S804，将场景对应的第i张目标图像输入强化学习模型中，输出场景对应的第i+1张目标图像的预测采集指导结果以及第i张目标图像对应的损失结果。

具体地，为了使强化学习模型能够无监督的学习到场景重建时所需的目标图像对应的采集过程，可以先将上述多张目标图像按照采集时的顺序进行排序，然后依次输入至原始的强化学习模型中，让强化学习模型依次学习目标图像的目标采集位置以及目标采集旋转角度，直至强化学习模型收敛。

具体地，当i＝1时，S804中的强化学习模型为未进行更新过的初始的强化学习模型。上述损失结果仅包括剩余数量损失信息。上述剩余数量损失信息用于表征采集完当前目标图像后，剩余待采集的场景的目标图像的预测数量与将当前目标图像输入强化学习模型后，场景对应的多张目标图像中剩余未输入强化学习模型的目标图像的目标数量之间的差距。当i>1时，S804中的强化学习模型为基于第i-1张目标图像对应的损失结果进行更新后的强化学习模型。

具体地，将场景对应的第i张目标图像输入强化学习模型后，强化学习模型将会输出场景对应的第i+1张目标图像的预测采集指导结果以及第i张图像对应的损失结果。上述i为正整数。

可选地，上述预测采集指导结果包括图像采集设备的预测位置指导信息以及预测旋转角度指导信息。上述预测位置指导信息用于指示图像采集设备的预测采集位置。上述预测旋转角度指导信息用于指示图像采集设备的预测采集旋转角度。

进一步地，上述损失结果包括角度损失信息和位置损失信息。上述角度损失信息用于表征目标图像对应的预测采集旋转角度与目标图像对应的目标采集旋转角度之间的差距。上述目标采集旋转角度用于表征采集目标图像时，图像采集设备所处的旋转角度。上述位置损失信息用于表征目标图像对应的预测采集位置与目标图像对应的目标采集位置之间的差距。上述目标采集位置用于表征采集目标图像时，图像采集设备所处的位置。

进一步地，上述预测采集旋转角度以及所述目标采集旋转角度均包括以下至少一项：俯仰角度、横滚角度以及航向角度。

示例性地，进行场景图像采集时，若想要强化学习模型能够预测出较准确地图像采集设备的俯仰角度和横滚角度，则需要通过将目标图像对应的目标采集旋转角度中的目标俯仰角度和目标横滚角度计算输入强化学习模型的图像对应的损失结果对上述强化学习模型进行更新。

可选地，上述预测采集指导结果还可以包括剩余待采集的场景的目标图像的预测数量。

进一步地，上述损失结果还可以包括剩余数量损失信息。上述剩余数量损失信息用于表征采集完当前目标图像后，剩余待采集的场景的目标图像的预测数量与将当前目标图像输入强化学习模型后，场景对应的多张目标图像中剩余未输入强化学习模型的目标图像的目标数量之间的差距。

S806，判断第i张目标图像对应的损失结果是否满足预设损失条件。

可选地，上述损失结果包括角度损失信息和位置损失信息时，上述预设损失条件可以包括角度损失信息中预测采集旋转角度与目标采集旋转角度之间的差距即角度损失值在预设角度损失范围内，且位置损失信息中的预测采集位置与目标采集位置之间的差距即位置损失值在预设位置损失范围内。上述预设角度损失范围可以为大于-1度，且小于1度等，上述预设位置损失范围可以为大于会等于0，且小于1cm等，本说明书实施例对此不作限定。

可选地，上述损失结果包括角度损失信息和位置损失信息时，上述预设损失条件也包括角度损失信息中预测采集旋转角度与目标采集旋转角度之间的差距即角度损失值以及位置损失信息中的预测采集位置与目标采集位置之间的差距即位置损失值按照预设权重进行加权求和之后得到的指导损失值小于或等于预设指导损失阈值。

可选地，当损失结果还包括剩余数量损失信息时，上述预设损失条件还可以包括为预测数量与目标数量之间的差距在预设差距范围内。上述预设差距范围可以为大于或等于0，且小于或等于2等，本说明书实施例对此不作限定。

S808，若否，则基于第i张目标图像对应的损失结果更新强化学习模型。

具体地，若第i张目标图像对应的损失结果不满足预设损失条件，当i＝1时，可以基于第i张目标图像对应的损失结果对未进行更新过的初始的强化学习模型的参数进行更新；当i>1时，可以基于第i张目标图像对应的损失结果对已经基于第i-1张目标图像对应的损失结果更新后的强化学习模型再次进行更新。

S810，将场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出场景对应的第i+2张目标图像的预测采集指导结果以及第i+1张目标图像对应的损失结果。

具体地，在基于第i张目标图像对应的损失结果更新强化学习模型之后，可以将场景对应的第i+1张目标图像输入更新后的强化学习模型中，从而输出场景对应的第i+2张目标图像的预测采集指导结果以及第i+1张目标图像对应的损失结果。

可选地，当将场景对应的第i+1张目标图像输入更新后的强化学习模型后，也可能输出采集结束以及第i+1张目标图像对应的损失结果。此时，第i+1张目标图像对应的损失结果仅包括剩余数量损失信息。

S812，将i更新为i+1。

具体地，将场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出场景对应的第i+2张目标图像的预测采集指导结果以及第i+1张目标图像对应的损失结果之后，可以将i更新为i+1，并再次执行S806，判断第i张目标图像对应的损失结果是否满足预设损失条件的步骤，直至第i张目标图像对应的损失结果满足预设损失条件或者场景对应的多张目标图像均已输入强化学习模型中。

S814，若是，则确定强化学习模型已收敛，并结束强化学习模型的训练。

具体地，i为大于1的整数，若第i张目标图像对应的损失结果满足预设损失条件，例如但不限于可以是多个场景中已经存在一个场景的第i张目标图像对应的损失结果满足预设损失条件时，或者多个场景中每个场景的第i张目标图像对应的损失结果均满足预设损失条件时，则可以确定该强化学习模型已收敛，并结束强化学习模型的训练。

可以理解地，不同场景对应满足预设损失条件的的损失结果的第i张目标图像中i的取值可以相同，也可以不同，本说明书实施例对此不作限定。

可选地，i＝1时，由于第1张目标图像对应的损失结果仅包括剩余数量损失信息，为了确保强化学习模型的准确率和学习效果，在第i张目标图像对应的损失结果满足预设损失条件的情况下，还需要将场景对应的第i+1张目标图像输入强化学习模型中，输出场景对应的第i+2张目标图像的预测采集指导结果以及第i+1张目标图像对应的损失结果，并将i更新为i+1，再次执行S806，判断第i张目标图像对应的损失结果是否满足预设损失条件的步骤，直至确定强化学习模型已收敛，并结束强化学习模型的训练。

本说明书实施例通过获取多个场景各自对应的目标采集数据；目标采集数据包括基于图像采集设备采集的场景对应满足预设要求的多张目标图像；将场景对应的第i张目标图像输入强化学习模型中，输出场景对应的第i+1张目标图像的预测采集指导结果以及第i张目标图像对应的损失结果，i为正整数；在第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于第i张目标图像对应的损失结果更新强化学习模型；将场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出场景对应的第i+2张目标图像的预测采集指导结果以及第i+1张目标图像对应的损失结果，将i更新为i+1，并再次执行在第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于第i张目标图像对应的损失结果更新强化学习模型的步骤，直至第i张目标图像对应的损失结果满足预设损失条件，从而既提高了强化学习模型输出采集指导结果的准确率，又能够通过训练的强化学习模型指导用户采集符合要求的场景数据进行场景重建，使用户能够及时拍摄关键帧，让用户采集的过程更加人性化、具有更强地可操作性，大大降低了场景重建时对采集人员的经验要求以及对采集设备的专业要求，提升了采集效率以及场景重建的效率，进而提高了场景重建的重建效果

请参考图10，图10为本说明书一示例性实施例提供的一种场景重建装置。该场景重建装置1000包括：

第一获取模块1010，用于获取目标场景的第i张图像；上述第i张图像为基于图像采集设备对上述目标场景进行拍摄得到；上述i为正整数；

第一采集指导模块1020，用于将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果；上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到；上述目标采集数据包括上述场景对应的多张目标图像，上述多张目标图像满足预设要求；

第二获取模块1030，用于在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像；

更新模块1040，用于将上述i更新为i+1，并再次执行上述将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果的步骤，直至上述强化学习模型输出的上述采集指导结果为采集结束；

第三获取模块1050，用于在上述采集指导结果为采集结束的情况下，基于获取的上述目标场景的所有图像获取上述目标场景对应的重建结果。

在一种可能的实现方式中，上述第一获取模块1010具体用于：

在一种可能的实现方式中，上述第一采集指导模块1020具体用于：

在一种可能的实现方式中，上述场景重建装置1000还包括：

上述第一获取模块1010还用于：基于上述第i张图像的重新采集指导结果重新获取上述目标场景的第i张图像；

上述第一采集指导模块1020还用于：再次执行将上述第i张图像输入上述强化学习模型中的步骤，直至上述第i张图像满足预设条件时输出上述目标场景的采集指导结果。

在一种可能的实现方式中，上述图像采集设备包括显示屏；

上述场景重建装置1000还包括：

展示模块，用于在上述显示屏展示上述采集指导结果。

在一种可能的实现方式中，上述第三获取模块1050包括：

上述场景重建装置中各模块的划分仅用于举例说明，在其他实施例中，可将场景重建装置按照需要划分为不同的模块，以完成上述场景重建装置的全部或部分功能。本说明书实施例中提供的场景重建装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的场景重建方法的全部或部分步骤。

请参考图11，图11为本说明书一示例性实施例提供的一种强化学习模型训练装置的结构示意图。如图11所示，该强化学习模型训练装置1100包括：

第一获取模块1110，用于获取多个场景各自对应的目标采集数据；上述目标采集数据包括基于图像采集设备采集的上述场景对应的多张目标图像，上述多张目标图像满足预设要求；

第一强化学习模块1120，用于将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果；上述i为正整数；

第一更新模块1130，用于在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型；

第二强化学习模块1140，用于将上述场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果；

第二更新模块1150，用于将上述i更新为i+1，并再次执行在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型的步骤，直至上述第i张目标图像对应的损失结果满足预设损失条件。

在一种可能的实现方式中，上述i＝1；上述强化学习模型训练装置1100还包括：

上述第二更新模块1150具体用于：将上述i更新为i+1。

在一种可能的实现方式中，上述i为大于1的整数；上述强化学习模型训练装置1100还包括：

在一种可能的实现方式中，上述第一获取模块1110包括：

在一种可能的实现方式中，上述预处理单元包括：

在一种可能的实现方式中，上述预处理单元还包括：

上述强化学习模型训练装置中各模块的划分仅用于举例说明，在其他实施例中，可将强化学习模型训练装置按照需要划分为不同的模块，以完成上述强化学习模型训练装置的全部或部分功能。本说明书实施例中提供的强化学习模型训练装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的强化学习模型训练方法的全部或部分步骤。

请参阅图12，图12为本说明书一示例性实施例提供的一种电子设备的结构示意图。如图12所示，该电子设备1200可以包括：至少一个处理器1210、至少一个通信总线1220、用户接口1230、至少一个网络接口1240、存储器1250。其中，通信总线1220可用于实现上述各个组件的连接通信。

其中，用户接口1230可以包括显示屏(Display)和摄像头(Camera)，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口1240可选的可以包括蓝牙模块、近场通信(Near FieldCommunication，NFC)模块、无线保真(Wireless Fidelity，Wi-Fi)模块等。

其中，处理器1210可以包括一个或者多个处理核心。处理器1210利用各种接口和线路连接整个电子设备1200内的各个部分，通过运行或执行存储在存储器1250内的指令、程序、代码集或指令集，以及调用存储在存储器1250内的数据，执行路由电子设备1200的各种功能和处理数据。可选的，处理器1210可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1210可集成处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1210中，单独通过一块芯片进行实现。

其中，存储器1250可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器1250包括非瞬时性计算机可读介质。存储器1250可用于存储指令、程序、代码、代码集或指令集。存储器1250可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如获取功能、采集指导功能、更新功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1250可选的还可以是至少一个位于远离前述处理器1210的存储装置。如图12所示，作为一种计算机存储介质的存储器1250中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

在一些可能的实施例中，电子设备1200可以是前述场景重建装置，在图12所示的电子设备1200中，用户接口1230主要用于为用户提供输入的接口，例如不但限于场景重建装置上的按键等，获取用户触发的指令；而处理器1210可以用于调用存储器1250中存储的程序指令，并具体执行以下操作：

获取目标场景的第i张图像；上述第i张图像为基于图像采集设备对上述目标场景进行拍摄得到；上述i为正整数。

将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果；上述强化学习模型由多个场景各自对应的目标采集数据进行训练得到；上述目标采集数据包括上述场景对应的多张目标图像，上述多张目标图像满足预设要求。

在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像。

将上述i更新为i+1，并再次执行上述将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果的步骤，直至上述强化学习模型输出的上述采集指导结果为采集结束。

在一些可能的实施例中，上述处理器1210获取目标场景的第i张图像时，具体用于执行：

在一些可能的实施例中，上述处理器1210将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果时，具体用于执行：

在一些可能的实施例中，上述处理器1210执行获取目标场景的第i张图像之后，执行在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像之前，还执行：

将上述第i张图像输入强化学习模型中，在上述第i张图像不满足预设条件的情况下，输出上述第i张图像的重新采集指导结果；上述重新采集结果包括重新采集上述第i张图像时，上述图像采集设备的位置指导信息以及旋转角度指导信息。

基于上述第i张图像的重新采集指导结果重新获取上述目标场景的第i张图像。

在一些可能的实施例中，上述图像采集设备包括显示屏；

上述处理器1210执行将上述第i张图像输入强化学习模型中，输出上述目标场景的采集指导结果之后，执行在上述采集指导结果不为采集结束的情况下，基于上述采集指导结果获取上述目标场景的第i+1张图像之前，还执行：

在上述显示屏展示上述采集指导结果。

在一些可能的实施例中，在上述采集指导结果不为采集结束的情况下，上述采集指导结果包括采集指导信息；上述采集指导信息包括采集上述目标场景的第i+1张图像时，上述图像采集设备的位置指导信息以及旋转角度指导信息。

在一些可能的实施例中，上述旋转角度指导信息包括上述图像采集设备待旋转的目标角度；上述目标角度包括以下至少一项：目标俯仰角度、目标横滚角度以及目标航向角度。

在一些可能的实施例中，上述采集指导结果包括剩余待采集的上述目标场景的图像的数量。

在一些可能的实施例中，上述处理器1210在上述采集指导结果为采集结束的情况下，基于获取的上述目标场景的所有图像获取上述目标场景对应的重建结果时，具体用于执行：

在上述采集指导结果为采集结束的情况下，将获取的上述目标场景的所有满足预设条件的图像上传至云端。

在一些可能的实施例中，电子设备1200可以是前述强化学习模型训练装置，上述处理器1210具体还执行：

获取多个场景各自对应的目标采集数据；上述目标采集数据包括基于图像采集设备采集的上述场景对应的多张目标图像，上述多张目标图像满足预设要求。

将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果；上述i为正整数。

在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型。

将上述场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果。

在一些可能的实施例中，上述i＝1；上述处理器1210将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果之后，执行在上述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于上述第i张目标图像对应的损失结果更新上述强化学习模型之前，还执行：

在上述第i张目标图像对应的损失结果满足预设损失条件的情况下，将上述场景对应的第i+1张目标图像输入上述强化学习模型中，输出上述场景对应的第i+2张目标图像的预测采集指导结果以及上述第i+1张目标图像对应的损失结果。

将上述i更新为i+1。

在一些可能的实施例中，上述i为大于1的整数；上述处理器1210将上述场景对应的第i张目标图像输入强化学习模型中，输出上述场景对应的第i+1张目标图像的预测采集指导结果以及上述第i张目标图像对应的损失结果之后，还执行：

在一些可能的实施例中，上述预测采集指导结果包括上述图像采集设备的预测位置指导信息以及预测旋转角度指导信息；上述预测位置指导信息用于指示上述图像采集设备的预测采集位置；上述预测旋转角度指导信息用于指示上述图像采集设备的预测采集旋转角度。

在一些可能的实施例中，上述损失结果包括角度损失信息和位置损失信息；上述角度损失信息用于表征目标图像对应的上述预测采集旋转角度与上述目标图像对应的目标采集旋转角度之间的差距；上述目标采集旋转角度用于表征采集上述目标图像时，上述图像采集设备所处的旋转角度；上述位置损失信息用于表征上述目标图像对应的上述预测采集位置与上述目标图像对应的目标采集位置之间的差距；上述目标采集位置用于表征采集上述目标图像时，上述图像采集设备所处的位置。

在一些可能的实施例中，上述预测采集旋转角度以及上述目标采集旋转角度均包括以下至少一项：俯仰角度、横滚角度以及航向角度。

在一些可能的实施例中，上述预测采集指导结果包括剩余待采集的上述场景的目标图像的预测数量。

在一些可能的实施例中，上述损失结果包括剩余数量损失信息；上述剩余数量损失信息用于表征采集完当前目标图像后，剩余待采集的上述场景的目标图像的预测数量与将上述当前目标图像输入上述强化学习模型后，上述场景对应的多张目标图像中剩余未输入上述强化学习模型的目标图像的目标数量之间的差距。

在一些可能的实施例中，上述处理器1210获取多个场景各自对应的目标采集数据时，具体用于执行：

获取多个场景各自对应的采集数据；上述采集数据包括基于图像采集设备采集的上述场景对应的多张图像。

在一些可能的实施例中，上述处理器1210对多个场景各自对应的采集数据分别进行预处理，得到上述多个场景各自对应的目标采集数据时，具体用于执行：

对上述采集数据中的每张图像进行质量评估，得到上述每张图像对应的质量评估结果。

估计上述目标采集数据中每张目标图像对应的上述图像采集设备的目标采集旋转角度和目标采集位置。

本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中的一个或多个步骤。上述场景重建装置或强化学习模型训练装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本说明书的优选实施例方式进行描述，并非对本说明书的范围进行限定，在不脱离本说明书的设计精神的前提下，本领域普通技术人员对本说明书的技术方案作出的各种变形及改进，均应落入权利要求书确定的保护范围内。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种场景重建方法，所述方法包括：

获取目标场景的第i张图像；所述第i张图像为基于图像采集设备对所述目标场景进行拍摄得到；所述i为正整数；

将所述第i张图像输入强化学习模型中，输出所述目标场景的采集指导结果；所述强化学习模型由多个场景各自对应的目标采集数据进行训练得到；所述目标采集数据包括所述场景对应的多张目标图像，所述多张目标图像满足预设角度要求；

根据所述采集指导结果中是否包括下一张图像的采集指导信息或所述采集指导结果中包括的剩余待采集的目标场景的图像的数量，判断所述采集指导结果是否为采集结束；

在所述采集指导结果不为采集结束的情况下，基于所述采集指导结果获取所述目标场景的第i+1张图像；在所述采集指导结果不为采集结束的情况下，所述采集指导结果包括采集指导信息；所述采集指导信息包括采集所述目标场景的第i+1张图像时，所述图像采集设备的位置指导信息以及旋转角度指导信息；

将所述i更新为i+1，并再次执行所述将所述第i张图像输入强化学习模型中，输出所述目标场景的采集指导结果的步骤，直至所述强化学习模型输出的所述采集指导结果为采集结束；

在所述采集指导结果为采集结束的情况下，基于获取的所述目标场景的所有图像获取所述目标场景对应的重建结果。

2.如权利要求1所述的方法，所述获取目标场景的第i张图像，包括：

在所述i大于1的情况下，基于目标场景的第i-1张图像输入强化学习模型后输出的采集指导结果获取所述目标场景的第i张图像。

3.如权利要求1所述的方法，所述将所述第i张图像输入强化学习模型中，输出所述目标场景的采集指导结果，包括：

将所述第i张图像输入强化学习模型中，在所述第i张图像满足预设质量条件的情况下，输出所述目标场景的采集指导结果。

4.如权利要求1所述的方法，所述获取目标场景的第i张图像之后，所述在所述采集指导结果不为采集结束的情况下，基于所述采集指导结果获取所述目标场景的第i+1张图像之前，所述方法还包括：

将所述第i张图像输入强化学习模型中，在所述第i张图像不满足预设质量条件的情况下，输出所述第i张图像的重新采集指导结果；所述重新采集结果包括重新采集所述第i张图像时，所述图像采集设备的位置指导信息以及旋转角度指导信息；

基于所述第i张图像的重新采集指导结果重新获取所述目标场景的第i张图像；

再次执行将所述第i张图像输入所述强化学习模型中的步骤，直至所述第i张图像满足预设质量条件时输出所述目标场景的采集指导结果。

5.如权利要求1所述的方法，所述图像采集设备包括显示屏；

所述将所述第i张图像输入强化学习模型中，输出所述目标场景的采集指导结果之后，所述在所述采集指导结果不为采集结束的情况下，基于所述采集指导结果获取所述目标场景的第i+1张图像之前，所述方法还包括：

在所述显示屏展示所述采集指导结果。

6.如权利要求4所述的方法，所述旋转角度指导信息包括所述图像采集设备待旋转的目标角度；所述目标角度包括以下至少一项：目标俯仰角度、目标横滚角度以及目标航向角度。

7.如权利要求1-5任一项所述的方法，所述采集指导结果包括剩余待采集的所述目标场景的图像的数量。

8.如权利要求1所述的方法，所述在所述采集指导结果为采集结束的情况下，基于获取的所述目标场景的所有图像获取所述目标场景对应的重建结果，包括：

在所述采集指导结果为采集结束的情况下，将获取的所述目标场景的所有满足预设质量条件的图像上传至云端；

获取所述云端基于所述目标场景的所有满足预设质量条件的图像进行场景重建后得到的所述目标场景对应的重建结果。

9.一种强化学习模型训练方法，所述方法包括：

获取多个场景各自对应的目标采集数据；所述目标采集数据包括基于图像采集设备采集的所述场景对应的多张目标图像，所述多张目标图像满足预设角度要求；

将所述场景对应的第i张目标图像输入强化学习模型中，输出所述场景对应的第i+1张目标图像的预测采集指导结果以及所述第i张目标图像对应的损失结果；所述i为正整数；所述预测采集指导结果包括所述图像采集设备的预测位置指导信息以及预测旋转角度指导信息；所述预测位置指导信息用于指示所述图像采集设备的预测采集位置；所述预测旋转角度指导信息用于指示所述图像采集设备的预测采集旋转角度；

在所述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于所述第i张目标图像对应的损失结果更新所述强化学习模型；

将所述场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出所述场景对应的第i+2张目标图像的预测采集指导结果以及所述第i+1张目标图像对应的损失结果；

将所述i更新为i+1，并再次执行在所述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于所述第i张目标图像对应的损失结果更新所述强化学习模型的步骤，直至所述第i张目标图像对应的损失结果满足预设损失条件。

10.如权利要求9所述的方法，所述i=1；所述将所述场景对应的第i张目标图像输入强化学习模型中，输出所述场景对应的第i+1张目标图像的预测采集指导结果以及所述第i张目标图像对应的损失结果之后，所述在所述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于所述第i张目标图像对应的损失结果更新所述强化学习模型之前，所述方法还包括：

在所述第i张目标图像对应的损失结果满足预设损失条件的情况下，将所述场景对应的第i+1张目标图像输入所述强化学习模型中，输出所述场景对应的第i+2张目标图像的预测采集指导结果以及所述第i+1张目标图像对应的损失结果；

将所述i更新为i+1。

11.如权利要求9所述的方法，所述i为大于1的整数；所述将所述场景对应的第i张目标图像输入强化学习模型中，输出所述场景对应的第i+1张目标图像的预测采集指导结果以及所述第i张目标图像对应的损失结果之后，所述方法还包括：

在所述第i张目标图像对应的损失结果满足预设损失条件的情况下，确定所述强化学习模型已收敛，并结束所述强化学习模型的训练。

12.如权利要求9所述的方法，所述损失结果包括角度损失信息和位置损失信息；所述角度损失信息用于表征目标图像对应的所述预测采集旋转角度与所述目标图像对应的目标采集旋转角度之间的差距；所述目标采集旋转角度用于表征采集所述目标图像时，所述图像采集设备所处的旋转角度；所述位置损失信息用于表征所述目标图像对应的所述预测采集位置与所述目标图像对应的目标采集位置之间的差距；所述目标采集位置用于表征采集所述目标图像时，所述图像采集设备所处的位置。

13.如权利要求12所述的方法，所述预测采集旋转角度以及所述目标采集旋转角度均包括以下至少一项：俯仰角度、横滚角度以及航向角度。

14.如权利要求9-13任一项所述的方法，所述预测采集指导结果包括剩余待采集的所述场景的目标图像的预测数量。

15.如权利要求14所述的方法，所述损失结果包括剩余数量损失信息；所述剩余数量损失信息用于表征采集完当前目标图像后，剩余待采集的所述场景的目标图像的预测数量与将所述当前目标图像输入所述强化学习模型后，所述场景对应的多张目标图像中剩余未输入所述强化学习模型的目标图像的目标数量之间的差距。

16.如权利要求9所述的方法，所述获取多个场景各自对应的目标采集数据，包括：

获取多个场景各自对应的采集数据；所述采集数据包括基于图像采集设备采集的所述场景对应的多张图像；

对所述多个场景各自对应的采集数据分别进行预处理，得到所述多个场景各自对应的目标采集数据。

17.如权利要求16所述的方法，所述预处理包括：

对所述采集数据中的每张图像进行质量评估，得到所述每张图像对应的质量评估结果；

基于所述质量评估结果滤除所述采集数据中的不满足预设质量要求的图像，得到所述多个场景各自对应的目标采集数据。

18.如权利要求16或17所述的方法，所述预处理还包括：估计所述目标采集数据中每张目标图像对应的所述图像采集设备的目标采集旋转角度和目标采集位置。

19.一种场景重建装置，所述装置包括：

第一获取模块，用于获取目标场景的第i张图像；所述第i张图像为基于图像采集设备对所述目标场景进行拍摄得到；所述i为正整数；

第一采集指导模块，用于将所述第i张图像输入强化学习模型中，输出所述目标场景的采集指导结果；所述强化学习模型由多个场景各自对应的目标采集数据进行训练得到；所述目标采集数据包括所述场景对应的多张目标图像，所述多张目标图像满足预设角度要求；

判断模块，用于根据所述采集指导结果中是否包括下一张图像的采集指导信息或所述采集指导结果中包括的剩余待采集的目标场景的图像的数量，判断所述采集指导结果是否为采集结束；

第二获取模块，用于在所述采集指导结果不为采集结束的情况下，基于所述采集指导结果获取所述目标场景的第i+1张图像；在所述采集指导结果不为采集结束的情况下，所述采集指导结果包括采集指导信息；所述采集指导信息包括采集所述目标场景的第i+1张图像时，所述图像采集设备的位置指导信息以及旋转角度指导信息；

更新模块，用于将所述i更新为i+1，并再次执行所述将所述第i张图像输入强化学习模型中，输出所述目标场景的采集指导结果的步骤，直至所述强化学习模型输出的所述采集指导结果为采集结束；

第三获取模块，用于在所述采集指导结果不为采集结束的情况下，基于获取的所述目标场景的所有图像获取所述目标场景对应的重建结果。

20.一种强化学习模型训练装置，所述装置包括：

第一获取模块，用于获取多个场景各自对应的目标采集数据；所述目标采集数据包括基于图像采集设备采集的所述场景对应的多张目标图像，所述多张目标图像满足预设角度要求；

第一强化学习模块，用于将所述场景对应的第i张目标图像输入强化学习模型中，输出所述场景对应的第i+1张目标图像的预测采集指导结果以及所述第i张目标图像对应的损失结果；所述i为正整数；所述预测采集指导结果包括所述图像采集设备的预测位置指导信息以及预测旋转角度指导信息；所述预测位置指导信息用于指示所述图像采集设备的预测采集位置；所述预测旋转角度指导信息用于指示所述图像采集设备的预测采集旋转角度；

第一更新模块，用于在所述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于所述第i张目标图像对应的损失结果更新所述强化学习模型；

第二强化学习模块，用于将所述场景对应的第i+1张目标图像输入更新后的强化学习模型中，输出所述场景对应的第i+2张目标图像的预测采集指导结果以及所述第i+1张目标图像对应的损失结果；

第二更新模块，用于将所述i更新为i+1，并再次执行在所述第i张目标图像对应的损失结果不满足预设损失条件的情况下，基于所述第i张目标图像对应的损失结果更新所述强化学习模型的步骤，直至所述第i张目标图像对应的损失结果满足预设损失条件。

21.一种电子设备，包括：处理器和存储器；

所述处理器与所述存储器相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-8或9-18任一项所述的方法。

22.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-8或9-18任一项的方法步骤。

23.一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或所述处理器执行如权利要求1-8或9-18任一项所述的方法。