CN112750203B

CN112750203B - 模型重建方法、装置、设备及存储介质

Info

Publication number: CN112750203B
Application number: CN202110079514.0A
Authority: CN
Inventors: 罗琳捷; 刘晶; 陈志立; 王国晖; 杨骁�; 杨建朝; 连晓晨
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-10-31
Anticipated expiration: 2041-01-21
Also published as: CN112750203A

Abstract

提供的是一种模型重建方法、装置、设备及存储介质。一种渐进式大规模模型重建方法包括：获取目标场景的第一图像集；获取所述目标场景的第二图像集；基于所述第一图像集构建所述目标场景的初始模型；以及基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型，其中，所述第一图像集包括从所述目标场景的多个角度采集的多个图像，并且所述第一图像集中的每个图像包含采集所述每个图像时采集地点的地理位置信息。

Description

模型重建方法、装置、设备及存储介质

技术领域

本申请涉及模型重建，尤其涉及渐进式大规模模型重建方法、装置、设备及存储介质。

背景技术

现实世界对象的三维重建是计算机视觉、计算机图形学以及虚拟现实等领域中的共性科学问题和核心技术，也是科研前沿热点问题。基于图像的三维重建方法，通过预先采集场景或对象的图像序列，依据二维图像信息重建场景或对象模型。该方法代价低廉，数据源的获取简单，硬件依赖性小，并且随着所获取图像的分辨率的提高，基于图像的三维重建算法在重建质量、稳健性以及计算效率等方面都取得了很多新的进展。运动恢复结构方法(Structure From Motion，SFM)就是一种利用图像序列信息，恢复相机运动参数与场景的结构信息的重建方法，它以序列图像为输入，输出图像特征点、匹配结果、相机参数以及稀疏的3D点云重建模型。

现有的SFM方法通常采用增量式的重建方法，即在选取了初始化图像对之后再一张一张地添加新的图像对重建的模型进行补充和修正，直到所有的图像被用作重建为止。这样的方法有以下几个缺点：

1.重建的结果对于初始化图像对的选取十分敏感，若初始化图像对选取不佳很可能导致重建失败或者没有办法用到绝大多数的输入图像。这种情况下需要重新初始化，导致重建的成功率低，需要多次初始化才有可能成功重建。

2.由于图像数据分布和质量的问题，这种重建方法经常每次只能利用一部分图像进行重建，导致原本连续的场景被分割成若干独立的模型。

3.基于图像的SFM重建方法无法恢复场景真实的尺寸。

发明内容

鉴于上述问题，本公开提出了一种渐进式大规模模型重建方法，该方法先基于专门采集的数据构建完整的初始模型，再利用大量第二图像集对初始模型进行细化，从而可以提高大规模模型重建的成功率、效率和效果。

在一个代表性方面，所公开的技术可用于提供一种模型重建方法，包括：获取目标场景的第一图像集；获取所述目标场景的第二图像集；基于所述第一图像集构建所述目标场景的初始模型；以及基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型,其中，所述第一图像集包括从所述目标场景的多个角度采集的多个图像，并且所述第一图像集中的每个图像包含采集所述每个图像时采集地点的地理位置信息。

根据本公开的一些实施例，所述获取目标场景的第一图像集包括：以所述目标场景的中心为圆心，在所述目标场景周围分别设定第一圆弧、第二圆弧和第三圆弧；分别在所述第一圆弧、所述第二圆弧和所述第三圆弧上确定第一基本采集点、第二基本采集点和第三基本采集点；分别以所述第一基本采集点、第二基本采集点和第三基本采集点为起始点，以固定的角度间隔捕获所述目标场景的多个图像。

根据本公开的一些实施例，所述第一圆弧、所述第二圆弧和所述第三圆弧的半径分别为R1、R2和R3，并且其中，R1<R2<R3。

根据本公开的一些实施例，所述第一圆弧、所述第二圆弧和所述第三圆弧的对应角度在0°至360°之间，并且其中，所述第一圆弧、所述第二圆弧和所述第三圆弧的所述对应角度相等。

根据本公开的一些实施例，所述第一基本采集点、所述第三基本采集点和所述圆心位于同一直线上，并且其中，所述第二基本采集点与所述直线偏离所述固定的角度间隔的一半。

根据本公开的一些实施例，所述第一图像集内嵌采集地点的GPS信息，并且取决于所述目标场景的大小，所述第一图像集的数目在300到1000的范围内。

根据本公开的一些实施例，所述获取所述目标场景的第二图像集包括：在视频库中检索与所述目标场景相对应的视频集合；对所述视频集合中的每个视频进行帧抽取；将所述抽取的帧中的每一个输入神经网络进行目标识别，如果识别出该帧中存在所述目标场景，则将该帧存储为所述目标场景的第二图像集中的一个。

根据本公开的一些实施例，基于关键词在所述视频库中检索与所述目标场景相对应的视频集合，并且其中，所述关键词包括所述目标场景的名称、缩写、别称、特征描述中的至少一个。所述视频库为网络视频库或本地存储的视频库。根据预定的帧速率对所述视频集合中的每个视频进行帧抽取，并且其中，所述第二图像集的数目在500到2000的范围内。

根据本公开的一些实施例，所述基于所述第一图像集构建所述目标场景的初始模型包括：基于所述第一图像集对所述目标场景进行重建；以及基于所述第一图像集的所述内嵌GPS信息，恢复所述目标场景的真实尺寸。

根据本公开的一些实施例，基于所述第一图像集对所述目标场景进行重建包括以下步骤：i.提取所述第一图像集的每一个的特征点；ii.对所述第一图像集中的所有图像进行特征点匹配；iii.根据特征点匹配的结果计算所述第一图像集中的每一个在全局坐标系下的旋转值和平移量；iv.利用所述旋转量和平移量进行目标场景重建。

根据本公开的一些实施例，基于所述第一图像集的内嵌GPS信息，恢复所述目标场景的真实尺寸包括：通过将所述GPS信息转换成目标单位，获得每个第一图像集的位置信息；利用所述位置信息将初始模型与所述第一图像集的位置进行对齐；根据对齐的初始模型获取所述目标场景的所述真实尺寸。

根据本公开的一些实施例，基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型包括：把所述第二图像集中的每个图像定位到所述初始模型中；将所述第二图像集中的每个图像的特征点加入所述初始模型中；以及优化所述添加特征点之后的初始模型，以得到所述目标场景的目标模型。

在另一代表性方面，所公开的技术可用于提供一种模型重建装置，包括：第一图像集获取模块，其被配置为获取目标场景的第一图像集；第二图像集获取模块，其被配置为获取所述目标场景的第二图像集；初始模型构建模块，其被配置为基于所述第一图像集构建所述目标场景的初始模型；以及模型细化模块，其被配置为基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型,其中，所述第一图像集包括从所述目标场景的多个角度采集的多个图像，并且所述第一图像集中的每个图像包含采集所述每个图像时采集地点的地理位置信息。

在又一代表性方面，所公开的技术可用于提供一种用于模型重建的系统，包括终端和数据服务器，其中，所述终端被配置为：将请求数据发送给所述数据服务器；所述数据服务器被配置为：响应于所述请求数据，根据所述请求数据中的检索参数，确定与目标场景相对应的视频集合，并将所述视频集发送给所述终端，其中，所述视频集合包括多个视频；所述终端还被配置为：获取目标场景的第一图像集；基于所述视频集合获取所述目标场景的第二图像集；基于所述第一图像集构建所述目标场景的初始模型；以及基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型,其中，所述第一图像集包括从所述目标场景的多个角度采集的多个图像，并且所述第一图像集中的每个图像包含采集所述每个图像时采集地点的地理位置信息。

在又一代表性方面，公开了一种配置或可操作以执行上述方法的设备。该设备可以包括被编程为实现该方法的处理器。

在又一代表性方面，上述方法以处理器可执行代码的形式体现并存储在计算机可读程序介质中。

在附图、说明书和权利要求中更详细地描述了所公开技术的上述和其他方面和特征。

附图说明

图1示出了根据本公开原理的实施例的模型重建方法的流程图。

图2示出了根据本公开原理的实施例的获取目标场景的第一图像集的示意图。

图3示出了根据本公开原理的实施例的典型的基于运动恢复结构(SFM)的结构重建的功能性框图。

图4A示出了根据本公开原理的实施例的增量式SFM的示意图。

图4B示出了根据本公开原理的实施例的序列式SFM的示意图。

图5示出了根据本公开原理的实施例的基于第一图像集对目标场景进行重建的示例性流程图。

图6示出了根据本公开原理的实施例的基于第一图像集的内嵌GPS信息恢复所述目标场景的真实尺寸的示例性流程图。

图7示出了根据本公开原理的实施例的获取目标场景的第二图像集的示例性流程图。

图8示出了根据本公开原理的实施例的基于第二图像集对初始模型进行细化以得到目标场景的目标模型的示例性流程图。

图9示出了根据本公开原理的实施例的模型重建装置的功能性框图。

图10示出了根据本公开原理的实施例的用于模型重建的系统的示意图。

图11示出了根据本公开原理的实施例的用于模型重建的设备的示意图。

图12示出了根据本公开原理的实施例的非暂时性计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的一些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反地，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解的是，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施例可以包括其它的步骤和/或省略某些步骤。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

应当理解的是，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

自从计算机视觉成为一门独立的学科以来，图像的三维重建(即从二维图像恢复场景三维结构)始终是计算机视觉研究中的一个经典和基础问题。近年来，随着图像采集设备的不断进步，使用数码相机、街景车、无人机等设备可以方便的获取海量高分辨率图像数据，如何通过这些图像数据构建我们身边的三维世界日益成为许多领域的迫切需求。因此，在理论和应用层面，基于图像的三维重建这一经典问题都日益成为计算机视觉研究者的关注热点。

在基于图像的三维重建中，针对大规模场景的三维重建又是重中之重。对于规模较小的对象，例如日常生活中使用的电脑、汽车等，仅需要数张不同视角的二维图像就能够实现快速的三维重建。然而，对于规模较大的对象，例如地标性建筑、历史古迹(诸如故宫、天坛)等，其覆盖范围广、结构复杂、体积庞大，对其进行三维重建往往需要成千上万的多视角图像，并且需要复杂的计算，这对于原始图像的采集和算法都提出了很高的要求。

本公开的实施例提供了一种模型重建方法。图1示出了根据本公开原理的实施例的模型重建方法的流程图。

如图1所示，根据本公开的实施例的模型重建方法包括以下步骤：

步骤S101：获取目标场景的第一图像集；

步骤S102：获取所述目标场景的第二图像集；

步骤S103：基于所述第一图像集构建所述目标场景的初始模型；以及

步骤S104：基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型。

如本领域技术人员所熟知的，运动恢复结构方法(Structure From Motion，SFM)是进行三维重建的常用方法，其主要基于多视觉几何原理，用于从运动中实现3D重建，也就是从无时间序列的2D图像中推算三维信息，是计算机视觉学科的重要分支，并广泛应用于AR/VR，自动驾驶等领域。该方法利用图像序列信息，恢复相机运动参数与场景的结构信息，以序列图像为输入，输出图像特征点、匹配结果、相机参数以及稀疏的3D点云重建模型。

在步骤S101中，获取的目标场景的第一图像集，以便利用SFM方法构建目标场景的初始模型(S103)。

术语“第一图像集”是相对于本文中的“第二图像集”而言的，“第一图像集”是指应用特定的采集方法，针对目标场景专门捕获的图像。相比之下，本申请中的“第二图像集”可以指用其它途径获得的图像，包括但不限于从社交网络中获取的图像、从网络视频库中获取的图像、或者从本地数据库中获取的图像。“第二图像集”的拍摄方式不受限制，可以是游客针对目标场景的某个角度拍摄的特写图像，可以是航拍爱好者利用无人机在空中俯瞰目标场景时拍摄的图像，也可以是城市宣传视频中专业拍摄的视频等。

图2示出了步骤S101中获取目标场景的第一图像集的示意图。

在本实施例中，将目标场景1示出为一座古建筑(例如，天坛)。应当理解的是，该场景1仅仅是示例性的，根据需要可以选择其他场景作为三维重建的对象。该对象可以是对称的、不对称的、形状规则的、形状任意的、大型的、中型的或者小型的。

根据本公开原理的实施例，为了针对目标场景1获取第一图像集，可以以场景1的中心为圆心，在场景1周围分别设定三条圆弧，可以将这三条圆弧分别记为第一圆弧、第二圆弧和第三圆弧。所述第一圆弧、第二圆弧和第三圆弧分别表示围绕场景1的近距离圆弧、中等距离圆弧和远距离圆弧。

根据本公开原理的实施例，可以根据实际情况选择这三个圆弧的所在位置和覆盖范围。例如，可以将第一圆弧的半径R1选择为能够在第一圆弧上捕获到场景1的细节结构的尺寸，细节结构包括但不限于场景1的墙壁中的浮雕、瓦片的构造等。类似地，可以将第二圆弧的半径R2选择为能够在第二圆弧上恰好捕获到场景1的全貌。依次类推，可以将第三圆弧的半径R3选择为能够在第三圆弧上捕获到场景1周围的全景图像。其中，R1<R2<R3，并且R1、R2和R3的选取还取决于场景1周围的地形情况，以及相机的参数(如焦距)等。通过设定这三条圆弧，可以从不同的距离捕获场景1的图像，以这种方式，既能够得到具有场景细节的图像，又能得到能观察到场景全貌的图像，有利于在三维重建的过程中在确保场景整体还原度较高的情况下，提供额外的清晰度。

应当注意的是，尽管图2示出了围绕场景1的三个不同半径的360°的圆弧，但这仅仅是示意性的。本领域技术人员可以根据需要选择其他的图像采集路线，例如，圆弧不必是标准的圆弧，可以根据采集地点的地貌选择为适合形状的曲线。圆弧也不一定是360°的，可以根据需要将其选择为其他的度数，例如180°，240°等。例如，在希望准确构建场景正面(例如，布达拉宫)、或者场景正面结构复杂但场景背面结构简单的情况下，可以适当地缩小圆弧覆盖的范围，以将图像采集的重点放在希望准确构建或结构复杂的方向上。同样地，设定三条圆弧也是示例性的，可以根据需要适当地增加或减少圆弧的数量。此外，图2所示的第一圆弧、第二圆弧第三圆弧的对应角度是相等的，即360°，也可以根据需要将其设置为不相等。

在设定了如图2所示的第一圆弧、第二圆弧和第三圆弧后，分别在第一圆弧、第二圆弧和第三圆弧上确定第一基本采集点A0、第二基本采集点B0和第三基本采集点C0。其中，第一基本采集点A0、第二基本采集点B0和第三基本采集点C0分别表示在每个对应圆弧上采集专门图像的起始点。然后，分别以第一基本采集点A0、第二基本采集点B0和第三基本采集点C0为起始点，在逆时针方向上以固定的角度间隔(在图1中为120°)捕获目标场景1的多个图像的序列，多个图像分别对应于在采集点A0-A2、B0-B2、C0-C2上捕获的9个图像。在图2所示的示例中，第一基本采集点A0、第三基本采集点C0和场景1的中心位于同一直线上，并且第二基本采集点B0与所述直线偏离固定的角度间隔的一半(在图2中为60°)。如此以交错地方式布置采集点是为了捕获更多角度的图像，以便在三维重建中能够精确建模。

应当理解的是，图2所示的采集点A0-A2、B0-B2、C0-C2和120°的角度间隔仅仅是为了便于描述，在实际情况中，按照该方式采集的图像的数目可能远远大于9，例如，在300到1000的范围内；按照该方式采集的角度间隔也可能远远小于120°，例如，在需要针对一个圆弧捕获1000个图像的情况下，应当将角度间隔设置为等于360°/1000。此外，尽管图2示出了采集点A0-A2、B0-B2、C0-C2分别对应于相等的角度间隔，但是可以根据需要将不同圆弧的角度间隔设置为不相等。例如，对于近距离的第一圆弧，可以设置较大的角度间隔，以捕获较少的图像；而对于远距离的第三圆弧，可以设置较小的角度间隔，以捕获较多的图像。此外，尽管图2示出了在逆时针方向上捕获三个圆弧上的多个角度的图像的序列，但这仅仅是示例而非限制，本领域技术人员可以根据实际情况选择以顺时针方向捕获三个圆弧上的多个图像，也可以在不同的圆弧上选择不同的路线方向。

本公开的实施例提供的获取目标场景的第一图像集的处理可以基于三个基本采集点分别在近距离、中等距离、远距离采集目标场景的第一图像集的序列，使用该图像序列进行三维重建，可以改善建模效果；另外，由于采集得到的地标数据是有序的，与使用任意获取或采集得到的混乱无序的地标数据相比，使用该有序的地标数据进行三维重建，可以提高建模效率。

此外，根据本公开原理的实施例采集到的第一图像集内嵌采集地点的GPS信息，即采集地点的经度、维度和海拔高度。该信息可进一步用于获取目标场景的真实尺寸，将在下面的描述中做出详细介绍。

如上所述，在步骤S103中，该方法基于在步骤S101中获得的第一图像集构建目标场景的初始模型。

图3示出了根据本公开原理的实施例的典型的基于运动恢复结构(SFM)的结构重建的功能性框图。SFM是估计相机参数及三维点位置的典型方法。一个基本的SFM流程可以描述为：针对每张二维图片检测特征点(feature point)，也就是所谓的“特征提取”。然后对每对图片中的特征点进行匹配，找出二维对应关系，只保留满足几何约束的匹配；通过分解基本矩阵来恢复相机的固有参数(intrinsic parameter)和外部参数(extrinsicparameter)，从而获得相机的姿势信息；通过三角化得到三维场景结构，然后使用光束平差法(Bundle Adjustment)进行非线性优化以得到目标场景的三维模型数据。

在SFM中，我们通过匹配特征点、几何约束、三角化可以恢复出相机姿态(R，T)与三维物点坐标(用X表示)，其中，R表示相机的旋转量，T表示相机的平移量，这两个数据是我们通过观测到的像点坐标(用Z表示)求得的。但是实际情况中往往存在大量的噪声，点与点不是精确地对应甚至出现一些错误匹配。这就导致我们预测求出的R，T，X存在误差，我们需要在已知的观测值下找到一个方法能够调整优化我们求出的R，T，X使得尽可能的靠近真实值。

光束平差法是典型的用于优化R，T，X使其尽可能的靠近真实值的方法。对于场景中任意三维点P，由从每个视图所对应的相机的光心发射出来并经过图像中P对应的像素后的光线，都将交于P这一点，对于所有三维点，则形成相当多的光束(bundle)；实际过程中由于噪声等存在，每条光线几乎不可能汇聚与一点，因此在求解过程中，需要不断对待求信息进行调整(adjustment)，来使得最终光线能交于点P。

现有的SFM方法通常采用增量式的重建方法，即，在选取了初始化图像对之后再一张一张地添加新的图像对重建的模型进行补充和修正，直到所有的图像被用作重建为止。增量式SFM首先使用尺寸不变特征变换(SIFT)特征检测器提取特征点并计算特征点对应的描述子(descriptor)，然后使用近似最近邻搜索算法(ANN，approximate nearestneighbor)方法进行匹配，低于某个匹配数阈值的匹配对将会被移除。对于保留下来的匹配对，使用随机抽样一致性算法(RANSAC，Random Sample Consensus)和八点法来估计基本矩阵，在估计基本矩阵时被判定为外点(outlier)的匹配被看作是错误的匹配而被移除。满足以上几何约束的匹配对将被合并。然后通过一张一张添加新的图像的方式来恢复场景结构。图4A示出了根据本公开原理的实施例的增量式SFM的示意图。

在图4A中，首先选取第1个图像和第2个图像作为初始匹配对，然后通过一张一张添加新的图像直到第n个图像(n为正整数)来恢复场景结构。

增量式SFM的关键是要选择一对好的初始匹配对，一对好的初始匹配对应该满足以下条件：

(1)足够多的匹配点；

(2)宽基线。

然后，增量式地增加图像，估计相机的固有参数和外部参数，并由三角化得到三维点坐标，然后使用光束平差法进行优化。

增量式SFM优势是，系统对于特征匹配以及外极几何关系的外点比较鲁棒，重建场景精度高；标定过程中通过RANSAC不断过滤外点；光束平差不断地优化场景结构。但是，增量式SFM也存在明显的缺点，即，对初始图像对选择及相机的添加顺序极为敏感；存在场景漂移，尤其在大场景重建时累计误差容易导致重建的失败。另外，反复的光束平差需要大量的计算时间。

针对以上问题，本申请在步骤S103中，采用序列式SFM方法而不是增量式SFM方法来构建目标场景的初始模型。

图4B示出了根据本公开原理的实施例的序列式SFM的示意图。如图4B所示，和增量式SFM不同，序列式SFM方法估计所有相机(对应于第1个图像直至第n个图像)的旋转矩阵和位置并三角化初始场景点，而不需要选取初始匹配对。此外，序列式SFM方法将误差均匀分布在外极几何图上，并不会引入累计误差，也不需要考虑初始图像和图像添加顺序的问题，这对于大规模场景的重建来说是非常有利的。此外，序列式SFM仅执行一次光束平差，相对于增量式SFM重建效率要高出许多。

图5示出了根据本公开原理的实施例的基于第一图像集利用序列式SFM对目标场景进行重建的示例性流程图。具体地，利用序列式SFM对目标场景进行重建包括以下步骤：

S501：提取第一图像集的每一个的特征点；

S502：对第一图像集中的所有图像进行特征点匹配；

S503：根据特征点匹配的结果计算第一图像集中的每一个在全局坐标系下的旋转值和平移量；

S504：利用旋转量和平移量进行目标场景重建。

其中，第一图像集是指在图1所示的流程步骤S101中采集的目标场景的多个图像的序列。其包括围绕目标场景的三个圆弧上的多个位置处采集的多个不同视角的图像。取决于场景的尺寸和具体结构，其数量可以是几个、几十个、几百个甚至几千个。

至此，我们已经基于专门获取的目标场景的图像获得了目标场景的初始模型。然而，普通的SFM重建方法无法获得目标场景的真实尺寸。即，尽管我们获得了目标场景的初始模型，但是该模型仅仅是处于相对位置处的三维点坐标的集合，如果要精确度量获得的模型，我们还需要恢复目标场景的真实尺寸。

图6示出了基于第一图像集的内嵌GPS信息恢复目标场景的真实尺寸的示例性流程图。

如前所述，第一图像集不仅包括目标场景的图像，还包括了每个图像所对应的采集点的GPS信息，例如采集地点的经度、维度和海拔信息。根据该GPS信息，可以用图6所示的步骤计算目标场景的真实尺寸：

S601：通过将所述GPS信息转换成目标单位，获得每个第一图像集的位置信息；

S602：利用所述位置信息将初始模型与所述第一图像集的位置进行对齐；

S603：根据对齐的初始模型获取所述目标场景的所述真实尺寸。

在一些实施例中，可以利用第一图像集的内嵌的GPS信息恢复场景的真实尺寸。通过把GPS转换成目标单位(例如米)，可以获得每个图像大致的位置信息。利用每张图像的位置信息，可以求出一个相似变换(similarity transformation)，把重建好的初始模型和图像的位置对齐，从而恢复场景(重建模型)的真实尺寸。这一步可以利用COLMAP的geo-registration功能。

到此为止，我们已经基于第一图像集、利用序列化SFM方法重建了目标场景的初始模型，并且基于内嵌的GPS信息恢复了场景的真实尺寸。然而，在序列式SFM中，我们用来做重建的点是由特征匹配提供的，序列式SFM获得特征点的方式决定了它生成的点云仍然是稀疏的，它不可能直接生成密集点云，以这样的方式得到的点的密集程度无法展示处接近原图的清晰度。为了提高初始模型的还原程度，并增加清晰度，我们还需要对初始模型进行细化。

回到图1，我们不仅获取了目标场景的第一图像集，还在步骤S102中获取目标场景的第二图像集，以便基于第二图像集对初始模型进行细化，以得到所述目标场景的目标模型(S104)。

如上所述，术语“第二图像集”是相对于先前所述的“第一图像集”而言的。相比于“第一图像集”，“第二图像集”不指定应用特定的采集方法，其可以指用任意方法获得的图像，包括但不限于从社交网络中获取的图像、从网络视频库中获取的图像、或者从本地数据库中获取的图像。“第二图像集”的拍摄方式不受限制，可以是游客针对目标场景的某个角度拍摄的特写图像，可以是航拍爱好者利用无人机在空中俯瞰目标场景时拍摄的图像，也可以是城市宣传视频中专业拍摄的视频等。基于“第二图像集”的以上特性，我们可以从现有的数据库(例如，网络短视频库、摄影图库、个人相册、社交平台上的分享图片或视频等)中获取大量的、多角度的、对应于各种拍摄条件的目标场景的图像，而不需要耗费大量的人力和物力进行现场拍摄。

在三维重建过程中，获取图像是一项耗时耗力的工作。然而，重建初始模型需要我们获得全面的、序列化的、多角度的图像，否则目标场景的初始模型将偏离实际。然而，在获得了目标场景的初始模型后，针对初始模型的细化和细化，并不需要如上所述的序列化的、全面的、多角度的专门图像，仅仅依靠现有的图像数据库(例如，网络短视频库、摄影图库、个人相册、社交平台上的分享图片或视频等)就能满足细化初始模型的需求。因此，在本实施例中，我们利用图2所示的方法获得了大量的专门采集的多角度图像，并基于这些图像重建了目标场景的三维模型之后，考虑到网络或本地数据库中存在大量的关于目标场景(例如，故宫，长城，天坛等)的短视频或航拍图像，其不仅角度丰富，还涵盖了在各种季节、天气、光线下拍摄的目标场景的图像。为了对初始模型进行细化，可以考虑从网络或其它视频库获取多个关于目标场景的图像，进而利用这些图像来进一步还原目标场景。

如图7所示，获取目标场景的第二图像集包括以下步骤：

S701：在视频库中检索与所述目标场景相对应的视频集合；

S702：对所述视频集合中的每个视频进行帧抽取；

S703：将所述抽取的帧中的每一个输入神经网络进行目标识别；

S704：存在目标场景？

S705：将该帧存储为所述目标场景的第二图像集中的一个。

首先，在步骤S701中，针对特定的数据库(例如，网络短视频库、摄影图库、个人相册、社交平台上的分享图片或视频等)，检索与目标场景相对应的视频集合。

然后，在步骤S702中，在检索到与目标场景相对应的视频集合之后，针对检索到的视频集合中的每个视频进行帧抽取。

然后，在步骤S703中，针对所抽取的每个帧进行目标识别，以确定所抽取的帧中是否包括目标场景的图像，例如，在本实施例中，目标可以是天坛。例如，可以通过熟知的神经网络模型来进行该步骤的目标识别。

如果识别出该帧中存在所述目标场景(S704中的是)，则将该帧存储为所述目标场景的第二图像集中的一个，否则(S704中的否)，进行到下一帧继续进行目标识别。

根据一些实施例，本申请中的视频库可以包括网络视频的集合(例如，社交网络中的短视频)、本地数据库中的视频等。可以基于关键词在视频库中检索与目标场景相对应的视频集合，例如，关键词包括目标场景的名称、缩写、别称、特征描述等。此外，可以根据预定的帧速率对所述视频集合中的每个视频进行帧抽取，例如，帧速率可以为10帧/秒、2帧/秒等，具体可取决于视频中目标场景的运动速度，也就是拍摄该视频时相机相对于目标场景的移动速度。根据实际情况，可以获取多个第二图像集，其数目可在500到2000的范围内。此外，其角度可覆盖包围目标场景的球体的全角度、或包围目标场景的半球的全角度等，具体取决于目标场景的具体结构。

此外，可以使用公知的神经网络(例如，CNN,RNN等)对目标场景进行识别，以筛选出包含目标场景的图像。

在获取了多个目标场景的第二图像集之后，可以基于第二图像集对初始模型进行细化。对初始模型的细化例如包括对目标场景的细节特征的补充、对目标场景的轮廓曲线的优化、对目标场景的颜色的矫正、对目标场景的遮挡部分的还原等。由于第二图像集的丰富性(例如，多种角度，多种拍摄条件，多种相机参数)，可以利用这些图像增强初始模型的各种细节，以得到清晰的、逼真的、色彩还原度高的最终模型。

图8示出了根据本公开原理的实施例的基于第二图像集对初始模型进行细化以得到目标场景的目标模型的示例性流程图。基于第二图像集对初始模型进行细化包括以下步骤：

S801：利用N点透视(PNP，Perspective-N-Point)算法把所述第二图像集中的每个图像定位到所述初始模型中；

S802：将所述第二图像集中的每个图像的特征点加入所述初始模型中；以及

S803：利用光束平差法优化所述添加特征点之后的初始模型，以得到所述目标场景的目标模型。

PNP算法是求解3D-2D点对运动的方法。简单来说，就是在已知N个三维空间点坐标(相对于某个指定的坐标系)及其二维投影位置的情况下，估计相机的姿势(即相机在该坐标系下的姿态)。例如，在一个图像中，如果知道其中至少四个图像中确定的点在3D空间下的相对坐标位置，我们就可以估计出相机相对于这些点的姿态，或者说估计出这些3D点在相机坐标系下姿态。

在本实施例中，可以在第二图像集(2D)和重建的初始模型(3D)之间找出N(N>3)个匹配点，然后基于N个匹配点估计该第二图像集所对应的相机的姿势(R，T)，其中，R表示相机的旋转量，T表示相机的平移量，进而基于相机的姿势将第二图像集的其余特征点都添加初始模型中，以便对初始模型中的各个位置处的细节进行精细化。

然后，利用光束平差法优化添加特征点之后的模型，以得到目标场景的目标模型。这里的光束平差法类似于上文关于图3所述的光束平差法。

本公开的实施例还提供了一种模型重建装置。图9示出了根据本公开原理的实施例的模型重建装置900的功能性框图。如图9所示，模型重建装置900包括第一图像集获取模块901、第二图像集获取模块902、初始模型构建模块903和模型细化模块904。这些模块可以通过软件、硬件、固件或它们的任意组合实现，例如，可以实现为图像获取电路、任意图像获取电路、初始模型构建电路和模型细化电路。

在本公开的实施例中，第一图像集获取模块901被配置为获取目标场景的第一图像集。例如，第一图像集获取模块901可以实现为单独的相机(诸如立体相机、红外相机等)，第一图像集获取模块901也可以集成在各种电子终端中，包括但不限于手机、平板电脑、无人机、导航仪等。例如，第一图像集获取模块901可以具有GPS定位功能，其在捕获的图像信息中包括捕获该图像的所在位置的GPS信息，例如，经度、纬度、海拔等。

在本公开的实施例中，第二图像集获取模块902被配置为获取目标场景的第二图像集。例如，第二图像集获取模块902可以实现为单独的终端(例如，手机，平板电脑等)，第二图像集获取模块902也可以集成在服务器等中，或者作为计算机可执行程序存储在非暂时性计算机可读介质上。

在本公开的实施例中，初始模型构建模块903被配置为基于第一图像集构建目标场景的初始模型；并且模型细化模块904被配置为基于第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型。例如，初始模型构建模块903和模型细化模块904可以作为单独的计算机可执行程序存储在非暂时性计算机可读介质上，也可以初始模型构建电路和模型细化电路，或者以固件的形式实施在现场可编程门阵列(FPGA)或专用集成电路(ASIC)中。

在本公开的实施例中，第一图像集获取模块901、第二图像集获取模块902、初始模型构建模块903和模型细化模块904被配置为执行与图1、图5-9所述的类似处理，在此不再赘述。

应当理解的是，本公开的实施例中，模型重建装置900还可以包括更多的模块，而不限于上述第一图像集获取模块901、第二图像集获取模块902、初始模型构建模块903和模型细化模块904。例如，模型重建装置900可以包括通信模块，以与服务器或其它设备进行有线或无线通信。例如，模型重建装置900还可以包括输入/输出模块，以例如接收用户的关键词的输入，从而在网络上搜索与该关键词相对应的目标场景的任意图像。例如，模型重建装置900也可以包括传感器模块，其可集成运动传感器、高度计、GPS等，从而感测模型重建装置900的运动、高度、位置等信息。这可以根据实际需求而定，本公开的实施例对此不作限制。

本公开的实施例还提供了一种模型重建系统。图10示出了根据本公开原理的实施例的用于模型重建的系统1000的示意图。如图10所示，系统1000包括终端1010和数据服务器1020。并且终端1010和数据服务器1020通过网络彼此连接。终端1010被配置为将请求数据发送给数据服务器1020。数据服务器1020被配置为：响应于所述请求数据，根据所述请求数据中的检索参数，确定与目标场景相对应的视频集合，并将所述视频集发送给所述终端1010，其中，所述视频集合包括多个视频。

例如，终端1010还被配置为获取目标场景的第一图像集；基于所述视频集合获取所述目标场景的第二图像集；基于所述第一图像集构建所述目标场景的初始模型；以及基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型。

例如，终端1010和数据服务器1020被配置执行图1、5-9所述的类似处理，在此不再赘述。

例如，在一个示例中，模型重建系统1000包括的终端1010可以实现为客户端(例如手机1010-1、电脑1010-2等)，数据服务器1020可以实现为服务端(例如，服务器)。

例如，在一个示例中，如图10所示，模型重建系统1000除了包括终端1010和数据服务器1020以外，还可以包括存储有视频数据库的数据库服务器1030。数据库服务器1030与数据服务器1020信号连接，被配置为响应于数据服务器1020的请求信息，将视频数据库中、与请求信息对应的数据返回给数据服务器1020。需要说明的是，在数据采集系统100不包括数据库服务器1030时，视频数据库中的数据可以直接存储在数据服务器1020上或存储在另行提供的其他存储设备中，也可以由数据服务器1020自行建立视频数据库，然后存储在数据服务器1020上或存储在另行提供的其他存储设备中，本公开的实施例对此不做具体限制。

本公开的实施例还提供了一种模型重建设备。图11示出了根据本公开原理的实施例的用于模型重建的设备1100的示意图。

如图11所示，根据本实施例的模型重建设备1100包括处理器1110、存储部分1120、通信部分1130、输入/输出部分1140、显示部分1150、传感器部分1160和音频输出部分1170，这些部分耦接到I/O接口1180上。

处理器1110是诸如微处理器的程序控制设备，例如，其根据安装在模型重建设备1100中的程序进行操作。存储部分1120例如是存储元件，诸如ROM或RAM等。将由处理器1110等执行的程序存储在存储部分1120中。通信部分1130例如是通信接口，诸如无线LAN模块。输入/输出部分1140例如是输入/输出端口，诸如HDMI(注册商标)(高清多媒体接口)端口、USB(通用串行总线)端口或AUX(辅助)端口。显示部分1150例如是显示器，诸如液晶显示器或有机EL(电致发光)显示器。传感器部分1160例如包括诸如相机、惯性传感器(IMU(惯性测量单元))、磁强计(即，方向传感器)和GPS(全球定位系统)模块的传感器。例如，包括在传感器部分1160中的相机以预定的帧速率捕获图像。此外，包括在传感器部分1160中的磁强计以预定的帧速率向处理器1110输出指示模型重建设备1100所朝向的方向的数据。此外，包括在传感器部分1160中的惯性传感器以预定的帧速率向处理器1110输出指示模型重建设备1100的加速度、旋转量、移动量等的数据。此外，包括在传感器部分1160中的GPS模块以预定的帧速率向处理器1110输出指示模型重建设备1100的纬度和经度的数据。音频输出部分1170例如是耳机、扬声器等，并且输出由音频数据等表示的音频。

图11所示的模型重建设备1100可用于实现本申请公开的模型重建方法。例如，根据本公开的实施例，图1所示的模型重建方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包括用于执行上述模型重建方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1130从网络上被下载和安装，或者从存储部分1120安装。在该计算机程序被模型重建设备1100执行时，可以执行本公开实施例提供的模型重建方法中限定的功能。该模型重建方法已在上文中结合附图做出了详细描述，在此不再赘述。

本公开的实施例还提供一种非暂时性计算机可读存储介质，图12示出了根据本公开原理的实施例的计算机可读存储介质1200的示意图。其中，计算机可读存储介质1200上存储有计算机程序指令1201，其中，计算机程序指令1201被处理器执行时执行本公开实施例提供的模型重建方法。

在上述描述中，已经基于实施例描述了本发明。本实施例仅是说明性的，并且本领域技术人员应当理解，可以以各种方式修改本实施例的构成元素和处理的组合，并且这种修改也在本发明的范围内。

Claims

1.一种模型重建方法，包括：

获取目标场景的第一图像集；

获取所述目标场景的第二图像集；

基于所述第一图像集构建所述目标场景的初始模型；以及

基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型，

其中，所述第一图像集包括从所述目标场景的多个角度采集的多个图像，并且所述第一图像集中的每个图像包含采集所述每个图像时采集地点的地理位置信息，

其中，所述获取目标场景的第一图像集包括：

以所述目标场景的中心为圆心，在所述目标场景周围分别设定第一圆弧、第二圆弧和第三圆弧；

分别在所述第一圆弧、所述第二圆弧和所述第三圆弧上确定第一基本采集点、第二基本采集点和第三基本采集点；

分别以所述第一基本采集点、第二基本采集点和第三基本采集点为起始点，以固定的角度间隔捕获所述目标场景的多个图像，并且

其中，所述第一圆弧、所述第二圆弧和所述第三圆弧的半径分别为R1、R2和R3，并且其中，R1<R2<R3。

2.根据权利要求1所述的模型重建方法，其中，所述第一圆弧、所述第二圆弧和所述第三圆弧的对应角度在0°至360°之间，并且其中，所述第一圆弧、所述第二圆弧和所述第三圆弧的所述对应角度相等。

3.根据权利要求1所述的模型重建方法，其中，所述第一基本采集点、所述第三基本采集点和所述圆心位于同一直线上，并且其中，所述第二基本采集点与所述直线偏离所述固定的角度间隔的一半。

4.根据权利要求1所述的模型重建方法，其中，所述第一图像集内嵌采集地点的GPS信息，并且取决于所述目标场景的大小，所述第一图像集的数目在300到1000的范围内。

5.根据权利要求1所述的模型重建方法，其中，所述获取所述目标场景的第二图像集包括：

在视频库中检索与所述目标场景相对应的视频集合；

对所述视频集合中的每个视频进行帧抽取；

将所述抽取的帧中的每一个输入神经网络进行目标识别，如果识别出该帧中存在所述目标场景，则将该帧存储为所述目标场景的第二图像集中的一个。

6.根据权利要求5所述的模型重建方法，其中，基于关键词在所述视频库中检索与所述目标场景相对应的视频集合，并且其中，所述关键词包括所述目标场景的名称、缩写、别称、特征描述中的至少一个。

7.根据权利要求5所述的模型重建方法，其中，所述第二图像集的数目在500到2000的范围内。

8.根据权利要求4所述的模型重建方法，其中，所述基于所述第一图像集构建所述目标场景的初始模型包括：

提取所述第一图像集的每一个的特征点；

对所述第一图像集中的所有图像进行特征点匹配；

根据特征点匹配的结果计算所述第一图像集中的每一个在全局坐标系下的旋转量和平移量；

利用所述旋转量和平移量进行目标场景重建；以及

基于所述第一图像集的所述GPS信息，恢复所述目标场景的真实尺寸。

9.据权利要求8所述的模型重建方法，其中，基于所述第一图像集的所述GPS信息，恢复所述目标场景的真实尺寸包括：

通过将所述GPS信息转换成目标单位，获得每个第一图像集的位置信息；

利用所述位置信息将初始模型与所述第一图像集的位置进行对齐；

根据对齐的初始模型获取所述目标场景的所述真实尺寸。

10.根据权利要求1所述的模型重建方法，其中，基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型包括：

将所述第二图像集中的每个图像定位到所述初始模型中；

将所述第二图像集中的每个图像的特征点加入所述初始模型中；以及

优化添加特征点之后的初始模型，以得到所述目标场景的目标模型。

11.一种模型重建装置，包括：

第一图像集获取模块，其被配置为获取目标场景的第一图像集；

第二图像集获取模块，其被配置为获取所述目标场景的第二图像集；

初始模型构建模块，其被配置为基于所述第一图像集构建所述目标场景的初始模型；以及

模型细化模块，其被配置为基于所述第二图像集对所述初始模型进行细化，以得到所述目标场景的目标模型，

其中，所述获取目标场景的第一图像集包括：

12.一种用于模型重建的设备，包括：

处理器；

存储器，存储有一个或多个计算机程序模块；

其中，所述一个或多个计算机程序模块被配置为当由所述处理器运行时，执行权利要求1-10中任一项所述的模型重建方法。

13.一种非暂时性计算机可读存储介质，其上存储有计算机指令，其中，所述计算机指令被处理器执行时执行权利要求1-10中任一项所述的模型重建方法。