CN112767484A

CN112767484A - 定位模型的融合方法、定位方法、电子装置

Info

Publication number: CN112767484A
Application number: CN202110096257.1A
Authority: CN
Inventors: 陈志立; 罗琳捷; 刘晶
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-07
Anticipated expiration: 2041-01-25
Also published as: CN112767484B

Abstract

一种定位模型的融合方法、定位方法、电子装置及非瞬时性存储介质。该定位模型的融合方法包括：获取目标物体的第一定位模型和第二定位模型，其中，第一定位模型基于目标物体的多幅第一图像重建得到，第二定位模型基于目标物体的多幅第二图像重建得到，该多幅第一图像对应于第一定义域，该多幅第二图像对应于第二定义域，且第一定义域与第二定义域不交叠；获取目标物体的N幅第三图像，其中，N为大于或等于1的整数，该N幅第三图像对应于第三定义域，第三定义域与第一定义域交叠，且第三定义域与第二定义域交叠；以及基于该N幅第三图像，对第一定位模型和第二定位模型进行融合，以得到目标物体的融合定位模型。

Description

定位模型的融合方法、定位方法、电子装置

技术领域

本公开的实施例涉及一种定位模型的融合方法、定位方法、电子装置及非瞬时性存储介质。

背景技术

基于图像的定位方法可以通过查询图像(例如用户拍摄的地标建筑的照片)进行相对于已知场景(例如包括上述地标建筑的场景)的三维定位。与常用的GPS(GlobalPositioning System，全球定位系统)等定位方法相比，基于图像的定位方法可以提供更高的定位精度，也可以更好地应用于增强现实(Augmented Reality，AR)和3D互动等领域。

为了实施基于图像的定位方法，需要预先对场景进行基于图像的三维重建，得到场景的定位模型(例如三维点云模型)。通常，定位模型越完备，基于图像的定位方法的实用性越高。

发明内容

本公开至少一个实施例提供一种定位模型的融合方法，包括：获取目标物体的第一定位模型和第二定位模型，其中，所述第一定位模型基于所述目标物体的多幅第一图像重建得到，所述第二定位模型基于所述目标物体的多幅第二图像重建得到，所述多幅第一图像对应于第一定义域，所述多幅第二图像对应于第二定义域，且所述第一定义域与所述第二定义域不交叠；获取所述目标物体的N幅第三图像，其中，N为大于或等于1的整数，所述N幅第三图像对应于第三定义域，所述第三定义域与所述第一定义域交叠，且所述第三定义域与所述第二定义域交叠；以及基于所述N幅第三图像，对所述第一定位模型和所述第二定位模型进行融合，以得到所述目标物体的融合定位模型。

例如，在本公开的一些实施例提供的融合方法中，基于所述N幅第三图像，对所述第一定位模型和所述第二定位模型进行融合，以得到所述目标物体的融合定位模型，包括：基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系；以及基于所述第一定位模型和所述第二定位模型之间的几何变换关系，对所述第一定位模型和所述第二定位模型进行融合，以得到所述目标物体的融合定位模型。

例如，在本公开的一些实施例提供的融合方法中，N>1，所述N幅第三图像形成为图像序列，基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系，包括：基于所述第一定位模型，对所述图像序列中的至少一幅第三图像进行定位，以确定所述图像序列中能被定位的一幅第三图像作为第一定位图像，并获取所述第一定位图像相对于所述第一定位模型的相机外参；基于所述第二定位模型，对所述图像序列中的至少一幅第三图像进行定位，以确定所述图像序列中能被定位的一幅第三图像作为第二定位图像，并获取所述第二定位图像相对于所述第二定位模型的相机外参，其中，所述第一定位图像不同于所述第二定位图像；基于所述图像序列，确定所述第一定位图像和所述第二定位图像之间的相机变换参数；以及基于所述第一定位图像相对于所述第一定位模型的相机外参、所述第二定位图像相对于所述第二定位模型的相机外参以及所述第一定位图像和所述第二定位图像之间的相机变换参数，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

例如，在本公开的一些实施例提供的融合方法中，N＝1，基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系，包括：基于所述第一定位模型，对所述一幅第三图像进行定位，以获取所述一幅第三图像相对于所述第一定位模型的相机外参；基于所述第二定位模型，对所述一幅第三图像进行定位，以获取所述一幅第三图像相对于所述第二定位模型的相机外参；以及基于所述一幅第三图像相对于所述第一定位模型的相机外参和所述一幅第三图像相对于所述第二定位模型的相机外参，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

例如，在本公开的一些实施例提供的融合方法中，N>1，所述N幅第三图像形成为图像序列，基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系，包括：对所述多幅第一图像中的至少一幅第一图像与所述图像序列中的至少一幅第三图像进行特征匹配，以确定能成功进行特征匹配的一幅第一图像和一幅第三图像分别作为第一匹配图像和第二匹配图像，并确定所述第一匹配图像相对于所述第一定位模型的相机外参以及所述第一匹配图像和所述第二匹配图像之间的相机变换参数；对所述多幅第二图像中的至少一幅第二图像与所述图像序列中的至少一幅第三图像进行特征匹配，以确定能成功进行特征匹配的一幅第二图像和一幅第三图像分别作为第三匹配图像和第四匹配图像，并确定所述第三匹配图像相对于所述第二定位模型的相机外参以及所述第三匹配图像和所述第四匹配图像之间的相机变换参数，其中，所述第二匹配图像不同于所述第四匹配图像；基于所述图像序列，确定所述第二匹配图像和所述第四匹配图像之间的相机变换参数；以及基于所述第一匹配图像相对于所述第一定位模型的相机外参、所述第一匹配图像和所述第二匹配图像之间的相机变换参数、所述第三匹配图像相对于所述第二定位模型的相机外参、所述第三匹配图像和所述第四匹配图像之间的相机变换参数以及所述第二匹配图像和所述第四匹配图像之间的相机变换参数，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

例如，在本公开的一些实施例提供的融合方法中，N＝1，基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系，包括：对所述多幅第一图像中的至少一幅第一图像与所述一幅第三图像进行特征匹配，以确定能与所述一幅第三图像成功进行特征匹配的一幅第一图像作为第五匹配图像，并确定所述第五匹配图像相对于所述第一定位模型的相机外参以及所述第五匹配图像和所述一幅第三图像之间的相机变换参数；对所述多幅第二图像中的至少一幅第二图像与所述一幅第三图像进行特征匹配，以确定能与所述一幅第三图像成功进行特征匹配的一幅第二图像作为第六匹配图像，并确定所述第六匹配图像相对于所述第二定位模型的相机外参以及所述第六匹配图像和所述一幅第三图像之间的相机变换参数；以及基于所述第五匹配图像相对于所述第一定位模型的相机外参、所述第五匹配图像和所述一幅第三图像之间的相机变换参数、所述第六匹配图像相对于所述第二定位模型的相机外参以及所述第六匹配图像和所述一幅第三图像之间的相机变换参数，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

例如，在本公开的一些实施例提供的融合方法中，N>1，所述N幅第三图像形成为图像序列，所述第一定位模型和所述第二定位模型均属于三维点云模型，基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系，包括：基于所述图像序列构建第三定位模型，其中，所述第三定位模型属于三维点云模型；对所述第三定位模型和所述第一定位模型进行点云配准，以确定所述第三定位模型和所述第一定位模型之间的几何变换关系；对所述第三定位模型和所述第二定位模型进行点云配准，以确定所述第三定位模型和所述第二定位模型之间的几何变换关系；以及基于所述第三定位模型和所述第一定位模型之间的几何变换关系以及所述第三定位模型和所述第二定位模型之间的几何变换关系，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

例如，本公开的一些实施例提供的融合方法，还包括：将所述N幅第三图像的特征点加入所述目标物体的所述融合定位模型。

例如，在本公开的一些实施例提供的融合方法中，所述第一定义域、所述第二定义域和所述第三定义域均属于时间域。

例如，在本公开的一些实施例提供的融合方法中，所述目标物体的所述N幅第三图像通过延时摄影拍摄得到。

例如，在本公开的一些实施例提供的融合方法中，所述第一定义域、所述第二定义域和所述第三定义域均属于距离域。

例如，在本公开的一些实施例提供的融合方法中，所述目标物体的所述N幅第三图像通过无人机拍摄得到。

例如，在本公开的一些实施例提供的融合方法中，所述第一定义域、所述第二定义域和所述第三定义域均属于角度域。

本公开至少一个实施例还提供一种定位方法，包括：获取目标物体的查询图像；以及，基于根据本公开任一实施例提供的融合方法得到的所述目标物体的所述融合定位模型，对所述目标物体的查询图像进行定位。

本公开至少一个实施例还提供一种电子设备，包括：存储器，用于非暂时性存储计算机可读指令；以及处理器，用于运行所述计算机可读指令，其中，所述计算机可读指令被所述处理器运行时，执行本公开任一实施例提供的融合方法，或者执行本公开任一实施例提供的定位方法。

本公开至少一个实施例还提供一种非瞬时性存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行本公开任一实施例提供的融合方法的指令，或者执行本公开任一实施例提供的定位方法的指令。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开至少一个实施例提供的一种定位模型的融合方法的流程图；

图2A为本公开一些实施例提供的一种融合情形的原理示意图；

图2B为本公开一些实施例提供的另一种融合情形的原理示意图；

图2C为本公开一些实施例提供的再一种融合情形的原理示意图；

图3为本公开一些实施例提供的一种对应于图1所示的融合方法的步骤S30的示意性流程图；

图4为本公开一些实施例提供的另一种对应于图1所示的融合方法的步骤S30的示意性流程图；

图5为本公开至少一个实施例提供的一种定位方法的流程图；

图6为本公开至少一个实施例提供的一种电子设备的示意性框图；以及

图7为本公开至少一个实施例提供的一种非瞬时性存储介质的示意图。

具体实施方式

为了使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时，该部件在每个附图中由相同或类似的参考标号表示。

通常，可以采用运动恢复结构(Structure From Motion，SFM)算法对目标物体(例如，地标建筑)进行基于图像的三维重建，以得到目标物体的定位模型(例如三维点云模型)。SFM算法是一种基于收集到的各种关于目标物体的无序图片进行三维重建的算法。例如，SFM算法可以包括以下步骤(1)-(6)：

(1)特征提取。例如，一般可以采用尺度不变特征变换(Scale-Invariant FeatureTransform，SIFT)算法、加速稳健特征(Speeded Up Robust Features，SURF)、ORB(Oriented FAST and Rotated BRIEF)算法或AKAZE算法等特征提取算法进行特征提取，以提取各个图像中物体的特征点。

(2)特征匹配。例如，一般可以采用暴力(Brute-Force)匹配或K最近邻(K-NearestNeighbor，KNN)算法等特征匹配算法对图像两两之间进行特征匹配，以确定特征点匹配个数达到要求的图像匹配对，进而生成轨迹(track)列表，即同名点的图像集合。由于进行特征匹配时可能存在错误匹配的情形，因此通常需要对上述得到的图像匹配对进行筛选。例如，可以采用随机抽样一致性(RANdom SAmple Consensus，RANSAC)算法等估算基本矩阵(Fundamental Matrix，简称F矩阵)，以把多幅图像中都出现的共同特征点(即同名点)连接起来以形成轨迹。

(3)确定初始化图像对。例如，可以按照两幅图像中的特征点匹配个数不少于某一阈值即为初选化图像对，也可以利用两个图像变换之间的单应性模型来确定初始化图像对。由于初始化图像对有时并不可靠，所以需要使用几何约束(例如，对极几何)检测其可靠性。

(4)初始化图像对的相对定向。例如，首先可以根据RANSAC算法和八点算法计算本征矩阵(Essential Matrix，简称E矩阵)，然后可以通过对本征矩阵进行奇异值分解(Singular Value Decomposition，SVD)确定初始化图像对中的两个图像对应的视角之间的运动，即旋转矩阵R和平移向量(或者摄像机中心坐标向量)T，同时还可以进行畸变校正，最后可以根据R、T和校正后的每一对匹配点的坐标使用直接线性变换(Direct LinearTransform，DLT)算法或三角测距法等计算出三维点信息，从而构成三维点云(稀疏点云)。例如，旋转矩阵R和平移向量T构成的矩阵[R T]称为旋转平移矩阵，可以用于表征相机外参或相机变换参数。

(5)光束法平差(Bundle Adjustment，BA)。例如，光束法平差是一个非线性优化的过程，目的是使重建误差降低到最小，通过调整三维点的旋转平移矩阵及三维点信息使反向投影误差最小。例如，光束法平差还是一个迭代的过程，在一次迭代过后，将所有三维点反向投影到相应图像的像素坐标并分别与初始坐标比对，如果大于某一阈值，则应将其从track列表中去掉，如果某一track中的图像数目已小于2个，则将该track也整个去掉，一直优化到没有三维点需要被去掉为止。

(6)加入更多图像，不断完善三维点云。例如，以第三幅图像为例，根据之前得到的三维点云以及第三幅图像与前两幅图像(即初始化图像对包括的第一幅图像和第二幅图像)的track关系，可以计算第三幅图像的R、T，进而可以计算出更多的三维点信息，将这些三维点融入之前得到的三维点云并进行光束法平差，即可不断完善三维点云。

需要说明的是，由于图像数据分布和质量的问题，上述SFM算法经常每次只能利用一部分图像进行三维重建，导致得到的往往是若干独立的定位模型，而非一个统一的完备的定位模型。与统一的完备的定位模型相比，这些相对独立的定位模型的实用性较低。

例如，在图像数据主要包括地标建筑的白天图像(即在白天拍摄得到的地标建筑的图像)和夜晚图像(即在夜晚拍摄得到的地标建筑的图像)而缺乏黄昏图像(忽略其他因素的影响，即假定其他影响因素基本相同或相近)的情况下，采用上述SFM算法基于该图像数据进行三维重建很可能得到两个定位模型，即白天图像对应的白天定位模型和夜晚图像对应的夜晚定位模型；然而，白天定位模型往往只适用于在白天拍摄的查询图像的三维定位，夜晚定位模型往往只适用于在夜晚拍摄的查询图像的三维定位，因此二者的实用性均受到了限制。在此情况下，需要一个统一的完备的定位模型，其既可以适用于在白天拍摄的查询图像的三维定位，又可以适用于在夜晚拍摄的查询图像的三维定位，以提高定位模型的实用性。

又例如，在图像数据主要包括地标建筑的近景图像和远景图像而缺乏中景图像(忽略其他因素的影响，即假定其他影响因素基本相同或相近)的情况下，采用上述SFM算法基于该图像数据进行三维重建也很可能得到两个定位模型，即近景图像对应的近景定位模型和远景图像对应的远景定位模型；然而，近景定位模型往往只适用于近景的查询图像的三维定位，远景定位模型往往只适用于远景的查询图像的三维定位，因此二者的实用性均受到了限制。在此情况下，也需要一个统一的完备的定位模型，其既可以适用于近景的查询图像的三维定位，又可以适用于远景的查询图像的三维定位，以提高定位模型的实用性。

再例如，在图像数据主要包括地标建筑的正面图像和背面图像而缺乏侧面图像(忽略其他因素的影响，即假定其他影响因素基本相同或相近)的情况下，采用上述SFM算法基于该图像数据进行三维重建也很可能得到两个定位模型，即正面图像对应的正面定位模型和背面图像对应的背面定位模型；然而，正面定位模型往往只适用于正面的查询图像的三维定位，背面定位模型往往只适用于背面的查询图像的三维定位，因此二者的实用性均受到了限制。在此情况下，也需要一个统一的完备的定位模型，其既可以适用于正面的查询图像的三维定位，又可以适用于背面的查询图像的三维定位，以提高定位模型的实用性。

本公开至少一个实施例提供一种定位模型的融合方法。该融合方法包括：获取目标物体的第一定位模型和第二定位模型，其中，第一定位模型基于目标物体的多幅第一图像重建得到，第二定位模型基于目标物体的多幅第二图像重建得到，该多幅第一图像对应于第一定义域，该多幅第二图像对应于第二定义域，且第一定义域与第二定义域不交叠；获取目标物体的N幅第三图像，其中，N为大于或等于1的整数，该N幅第三图像对应于第三定义域，第三定义域与第一定义域交叠，且第三定义域与第二定义域交叠；以及基于该N幅第三图像，对第一定位模型和第二定位模型进行融合，以得到目标物体的融合定位模型。

本公开的一些实施例还提供对应于上述融合方法的定位方法、电子装置以及非瞬时性存储介质。

本公开的实施例提供的定位模型的融合方法，可以基于目标物体的N幅第三图像的衔接和过渡作用，将相对独立的第一定位模型和第二定位模型进行融合，以得到统一的融合定位模型；与第一定位模型和第二定位模型单独相比，融合定位模型具有更高的实用性。

需要说明的是，在本公开中，“定义域”表征对应于“定义域”的图像集合在某一或某些影响因素的维度上的取值范围。对于一个定义域对应的一个图像集合，在该图像集合包括多幅图像的情况下，该图像集合中的任一幅图像可以与该图像集合中的至少另一幅图像成功进行特征匹配(特征点匹配个数达到要求)。同时，若一幅图像能与该图像集合中的任一幅图像成功进行特征匹配，则该幅图像可以加入该图像集合，即该幅图像也对应于该定义域；否则，该幅图像不能加入该图像集合，即该幅图像不对应于该定义域。对于两个定义域，若二者不交叠，则两个定义域之一对应的图像集合中的任一幅图像与两个定义域之另一对应的图像集合中的任一幅图像无法成功进行特征匹配(特征点匹配个数达不到要求)；若二者交叠，则两个定义域之一对应的图像集合中至少存在某一幅图像可以与两个定义域之另一对应的图像集合中存在的某一幅图像成功进行特征匹配。另外，在本公开的实施例中，“定位模型”可以泛指以目标物体为主体的场景的定位模型。

下面结合附图对本公开的一些实施例及其示例进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1为本公开至少一个实施例提供的一种定位模型的融合方法的流程图，图2A-2C分别为本公开的实施例提供的三种融合情形的原理示意图。以下，结合图2A-2C所示的三种融合情形，对图1所示的融合方法进行详细说明。应当理解的是，图2A-2C所示的三种融合情形不应视作对本公开的实施例提供的融合方法的适用范围的限制。

例如，如图1所示，该融合方法包括步骤S10至步骤S30。

步骤S10：获取目标物体的第一定位模型和第二定位模型，其中，第一定位模型基于目标物体的多幅第一图像重建得到，第二定位模型基于目标物体的多幅第二图像重建得到，该多幅第一图像对应于第一定义域，该多幅第二图像对应于第二定义域，且第一定义域与第二定义域不交叠。

例如，目标物体可以为地标建筑或者其他具有代表性且容易识别的物体，本公开的实施例包括但不限于此。例如，地标建筑通常是某一场景中最具代表性且最容易识别的建筑物，某一场景的定位模型通常围绕场景中的地标建筑进行重建得到。因此，在本公开的实施例中，地标建筑的定位模型也可以表征地标建筑所处场景的定位模型。例如，地标建筑通常具有丰富且独特的视觉特征以及合适的观察区域。需要说明的是，虽然本公开的实施例(例如，图2A-2C所示的实施例等)均以目标物体为地标建筑进行说明，但不应视作对本公开的限制。

例如，在一些实施例中，如图2A所示，第一定义域D1和第二定义域D2均属于时间域，且第一定义域D1与第二定义域D2不交叠。例如，在一些示例中，第一定义域D1对应的多幅第一图像均是在白天(或者白天的某一时间段)拍摄地标建筑得到的，而第二定义域D2对应的多幅第二图像均是在夜晚(或者夜晚的某一时间段)拍摄地标建筑得到的；由于白天和夜晚的光线条件(包括环境光线和地标建筑本身的灯光效果)差别较大，在白天拍摄的第一图像和在夜晚拍摄的第二图像的特征点往往不同，以致在白天拍摄的第一图像和在夜晚拍摄的第二图像之间很可能无法成功进行特征匹配，因此，基于第一定义域D1对应的多幅第一图像和第二定义域D2对应的多幅第二图像进行重建，往往会得到两个独立的定位模型，即第一定位模型(例如，白天定位模型)和第二定位模型(例如，夜晚定位模型)。

应当理解的是，在上述示例中，第一定义域D1和第二定义域D2不交叠的本质原因在于光线条件的不同导致的特征点的区别；由于环境光线(例如，太阳光)通常无法人为控制而地标建筑本身的灯光效果通常也无法为用户所控制，光线条件的不同往往体现在拍摄时间上的不同，因此，在图2A所示的实施例中，第一定义域D1和第二定义域D2均被定义为时间域，且二者在时间轴上不交叠。例如，在图2A所示的实施例中，第一定义域可以为白天的某一时间段(可以不是同一天的白天，只要光线条件大致相当即可)，第二定义域可以为夜晚的某一时间段(可以不是同一天的夜晚，只要光线条件大致相当即可)。还应当理解的是，在图2A所示的实施例中，仅考虑单一因素(即拍摄时间)的影响，而忽略其他因素(例如，相机相对于地标建筑的拍摄距离和拍摄角度等)的影响(即假定其他影响因素基本相同或相近)。

例如，在另一些实施例中，如图2B所示，第一定义域D1和第二定义域D2均属于距离域，且第一定义域D1与第二定义域D2不交叠。例如，在一些示例中，第一定义域D1对应的多幅第一图像均属于近景图像(即相机相对于地标建筑的拍摄距离较近)，而第二定义域D2对应的多幅第二图像均属于远景图像(即相机相对于地标建筑的拍摄距离较远)；由于近景图像和远景图像的特征点区别较大(例如，具有不同的特征点和/或同名点的描述子差别较大)，近景的第一图像和远景的第二图像之间很可能无法成功进行特征匹配，因此，基于第一定义域D1对应的多幅第一图像和第二定义域D2对应的多幅第二图像进行重建，也往往会得到两个独立的定位模型，即第一定位模型(例如，近景定位模型)和第二定位模型(例如，远景定位模型)。应当理解的是，在上述示例中，第一定义域D1和第二定义域D2不交叠的本质原因在于拍摄距离的不同导致的特征点的差异；由于地标建筑在近景图像上占图像画面的比例相对较大，而地标建筑在远景图像上占图像画面的比例相对较小，因此，从近景图像和远景图像上提取的特征点往往不同(即使对于同名点，描述子也常常具有较大差别)。因此，在图2B所示的实施例中，第一定义域D1和第二定义域D2均被定义为距离域，且二者在距离轴上不交叠。例如，在图2B所示的实施例中，第一定义域可以为与地标建筑相距较近的一个观察区域范围，第二定义域可以为与地标建筑相距较远的一个观察区域范围。还应当理解的是，在图2B所示的实施例中，仅考虑单一因素(即相机相对于地标建筑的拍摄距离)的影响，而忽略其他因素(例如，拍摄时间和相机相对于地标建筑的拍摄角度等)的影响(即假定其他影响因素基本相同或相近)。

例如，在再一些实施例中，如图2C所示，第一定义域D1和第二定义域D2均属于角度域，且第一定义域D1与第二定义域D2不交叠。例如，在一些示例中，第一定义域D1对应的多幅第一图像均属于地标建筑的正面图像(即相机视角位于地标建筑的正面)，而第二定义域D2对应的多幅第二图像均属于地标建筑的背面图像(即相机视角位于地标建筑的背面)；由于正面图像和背面图像的特征点的不同，地标建筑正面的第一图像和地标建筑背面的第二图像之间通常无法成功进行特征匹配，因此，基于第一定义域D1对应的多幅第一图像和第二定义域D2对应的多幅第二图像进行重建，也往往会得到两个独立的定位模型，即第一定位模型(例如，正面定位模型)和第二定位模型(例如，背面定位模型)。应当理解的是，在上述示例中，第一定义域D1和第二定义域D2不交叠的本质原因在于地标建筑的正面和背面的结构差异导致的特征点的区别。因此，在图2C所示的实施例中，第一定义域D1和第二定义域D2均被定义为角度域，且二者在圆周方向上不交叠。例如，在图2C所示的实施例中，第一定义域可以为以地标建筑为圆心的一个圆心角对应的观察区域范围，第二定义域可以为以地标建筑为圆心的另一个圆心角对应的观察区域范围，其中，两个圆心角之间不交叠。还应当理解的是，在图2C所示的实施例中，仅考虑单一因素(即相机相对于地标建筑的拍摄角度)的影响，而忽略其他因素(例如，拍摄时间和相机相对于地标建筑的拍摄距离等)的影响(即假定其他影响因素基本相同或相近)。

步骤S20：获取目标物体的N幅第三图像，其中，N为大于或等于1的整数，该N幅第三图像对应于第三定义域，第三定义域与第一定义域交叠，且第三定义域与第二定义域交叠。

例如，在图2A所示的实施例中，与第一定义域D1和第二定义域D2类似，第三定义域D3也属于时间域。如图2A所示，在时间轴上，第三定义域D3与第一定义域D1交叠，且第三定义域D3与第二定义域D2交叠，即第三定义域D3在第一定义域D1和第二定义域D2之间起到过渡和衔接的作用。例如，在一些示例中，可以通过延时(time lapse)摄影拍摄得到地标建筑的多帧图像，并从该多帧图像中选择N帧作为步骤S20中的N幅第三图像。

例如，在N>1的情况下，第三定义域D3对应的N幅第三图像形成为图像序列(例如，按延时摄影过程中的拍摄先后顺序形成图像序列)，该图像序列中任意相邻的两幅第三图像之间均可以成功进行特征匹配；同时，该图像序列中至少存在一幅第三图像(例如，第一幅第三图像)可以与第一定义域D1对应的至少一幅第一图像成功进行特征匹配，且该图像序列中至少存在另一幅第三图像(例如，最后一幅第三图像，即第N幅第三图像)可以与第二定义域D2对应的至少一幅第二图像成功进行特征匹配。例如，在N＝1的情况下，第三定义域D3对应的N幅第三图像仅包括一幅第三图像，该幅第三图像不仅可以与第一定义域D1对应的多幅第一图像中的至少一幅第一图像成功进行特征匹配，还可以与第二定义域D2对应的多幅第二图像中的至少一幅第二图像成功进行特征匹配。

应当理解的是，在图2A所示的实施例中，第三定义域D3对应的N幅第三图像呈现出了光线条件从第一定义域D1到第二定义域D2的渐变过程。还应当理解的是，步骤S20中的N幅第三图像的获取方法不限于延时摄影，还可以采用其他任意合适的方法，只要获得的N幅第三图像能够使第三定义域D3在第一定义域D1和第二定义域D2之间起到过渡和衔接的作用(例如，呈现出光线条件从第一定义域D1到第二定义域D2的渐变过程)即可。例如，在一些示例中，第一定义域D1对应的多幅第一图像均是在白天(或者白天的某一时间段)拍摄地标建筑得到的，第二定义域D2对应的多幅第二图像均是在夜晚(或者夜晚的某一时间段)拍摄地标建筑得到的，第三定义域D3中的N幅第三图像均是在黄昏(或者黄昏的某一时间段)拍摄地标建筑得到的，且第三定义域D3中的N幅第三图像呈现出了光线条件从白天到夜晚的渐变过程。

例如，在图2B所示的实施例中，与第一定义域D1和第二定义域D2类似，第三定义域D3也属于距离域。如图2B所示，在距离轴上，第三定义域D3与第一定义域D1交叠，且第三定义域D3与第二定义域D2交叠，即第三定义域D3在第一定义域D1和第二定义域D2之间起到过渡和衔接的作用。例如，在一些示例中，可以通过无人机由近及远(或者由远及近)地拍摄得到地标建筑的多帧图像，并从该多帧图像中选择N帧作为步骤S20中的N幅第三图像。

例如，在N>1的情况下，第三定义域D3对应的N幅第三图像形成为图像序列(例如，按无人机拍摄过程中的拍摄先后顺序形成图像序列)，该图像序列中任意相邻的两幅第三图像之间均可以成功进行特征匹配；同时，该图像序列中至少存在一幅第三图像(例如，第一幅第三图像)可以与第一定义域D1对应的多幅第一图像中的至少一幅第一图像成功进行特征匹配，且该图像序列中至少存在另一幅第三图像(例如，最后一幅第三图像，即第N幅第三图像)可以与第二定义域D2对应的多幅第二图像中的至少一幅第二图像成功进行特征匹配。例如，在N＝1的情况下，第三定义域D3对应的N幅第三图像仅包括一幅第三图像，该幅第三图像不仅可以与第一定义域D1对应的多幅第一图像中的至少一幅第一图像成功进行特征匹配，还可以与第二定义域D2对应的多幅第二图像中的至少一幅第二图像成功进行特征匹配。

应当理解的是，在图2B所示的实施例中，第三定义域D3对应的N幅第三图像呈现出了特征点(尤其是同名点)从第一定义域D1到第二定义域D2的渐变过程。还应当理解的是，步骤S20中的N幅第三图像的获取方法不限于无人机拍摄，还可以采用其他任意合适的方法，只要获得的N幅第三图像能够使第三定义域D3在第一定义域D1和第二定义域D2之间起到过渡和衔接的作用(例如，呈现出第一定义域D1和第二定义域D2之间的特征点的渐变过程)即可。例如，在一些示例中，第一定义域D1对应的多幅第一图像均属于近景图像，第二定义域D2对应的多幅第二图像均属于远景图像，第三定义域D3对应的N幅第三图像均属于中景图像，且第三定义域D3对应的N幅第三图像呈现出了特征点从近景到远景的渐变过程。

例如，在图2C所示的实施例中，与第一定义域D1和第二定义域D2类似，第三定义域D3/D3’也属于角度域。如图2C所示，在圆周方向上，第三定义域D3/D3’与第一定义域D1交叠，且第三定义域D3/D3’与第二定义域D2交叠，即第三定义域D3/D3’在第一定义域D1和第二定义域D2之间起到过渡和衔接的作用。例如，在一些示例中，可以通过无人机围绕地标建筑逆时针(或者顺时针)地拍摄得到地标建筑的多帧图像，并从该多帧图像中选择N帧作为步骤S20中的N幅第三图像。

应当理解的是，在图2C所示的实施例中，第三定义域D3对应的N幅第三图像补充了地标建筑在第一定义域D1和第二定义域D2之间的角度范围的特征点，从而可以建立第一定义域D1的特征点和第二定义域D2的特征点之间的联系。还应当理解的是，步骤S20中的N幅第三图像的获取方法不限于无人机拍摄，还可以采用其他任意合适的方法，只要获得的N幅第三图像能够使第三定义域D3在第一定义域D1和第二定义域D2之间起到过渡和衔接的作用(例如，补充第一定义域D1和第二定义域D2之间的角度范围的特征点使得可以建立第一定义域D1的特征点和第二定义域D2的特征点之间的联系)即可。

例如，在一些示例中，第一定义域D1对应的多幅第一图像均属于正面图像，第二定义域D2对应的多幅第二图像均属于背面图像，第三定义域D3对应的N幅第三图像均属于侧面图像，且第三定义域D3对应的N幅第三图像的特征点可以分别与第一定义域D1对应的图像和第二定义域D2对应的图像(第一图像和第二图像)的特征点建立联系。

步骤S30：基于该N幅第三图像，对第一定位模型和第二定位模型进行融合，以得到目标物体的融合定位模型。

例如，在一些实施例中，如图3所示，步骤S30可以包括以下步骤S100至步骤S200。

步骤S100：基于该N幅第三图像，确定第一定位模型和第二定位模型之间的几何变换关系。

例如，在图2A-2C所示的实施例中，在N>1(即N幅第三图像形成为图像序列)的情况下，步骤S100可以包括以下步骤S101至步骤S104。

步骤S101：基于第一定位模型，对图像序列(即N幅第三图像)中的至少一幅第三图像进行定位，以确定图像序列中能被定位的一幅第三图像作为第一定位图像，并获取第一定位图像相对于第一定位模型的相机外参；

步骤S102：基于第二定位模型，对图像序列中的至少一幅第三图像进行定位，以确定图像序列中能被定位的一幅第三图像作为第二定位图像，并获取第二定位图像相对于第二定位模型的相机外参，其中，第一定位图像不同于第二定位图像；

步骤S103：基于图像序列，确定第一定位图像和第二定位图像之间的相机变换参数；以及

步骤S104：基于第一定位图像相对于第一定位模型的相机外参、第二定位图像相对于第二定位模型的相机外参以及第一定位图像和第二定位图像之间的相机变换参数，确定第一定位模型和第二定位模型之间的几何变换关系。

例如，在步骤S101中，可以选取一幅第三图像作为查询图像；对查询图像进行特征提取，以得到查询图像的特征点；将查询图像的特征点与第一定位模型的三维点进行特征匹配；若能成功进行特征匹配，则将当前的查询图像确定为第一定位图像，若不能成功进行特征匹配，则选取另一幅第三图像作为查询图像，并重复上述操作，直到确定第一定位图像为止；根据查询图像的特征点与第一定位模型的三维点的匹配关系，可以采用例如透视n点(Perspective-n-Point，PnP)算法等估计第一定位图像的相机位姿，即确定第一定位图像相对于第一定位模型的相机外参。应当理解的是，步骤S102中的操作可以参考步骤S101中的操作，在此不再重复赘述。

例如，在步骤S103中，由于图像序列中任意相邻的两幅第三图像之间均可以成功进行特征匹配，从而，可以参考前述SFM算法中的步骤(4)确定图像序列中任意相邻的两幅第三图像之间的相机变换参数；进而，可以根据第一定位图像和第二定位图像以及二者之间的第三图像(如有)中所有相邻的两幅图像之间的相机变换参数，确定第一定位图像和第二定位图像(均位于图像序列中)之间的相机变换参数，例如，在一些示例中，在图像序列中，第一定位图像和第二定位图像之间还具有一幅第三图像(以下描述为中间第三图像)，即在图像序列中，第一定位图像和第二定位图像不相邻，此时，确定第一定位图像和中间第三图像之间的相机变换参数，以及中间第三图像和第二定位图像之间的相机变换参数，然后，基于第一定位图像和中间第三图像之间的相机变换参数，以及中间第三图像和第二定位图像之间的相机变换参数，确定第一定位图像和第二定位图像之间的相机变换参数。

应当理解的是，在步骤S103中，也可以通过提取第一定位图像和第二定位图像的同名点，并根据同名点估算第一定位图像和第二定位图像之间的相机变换参数(可以参考前述SFM算法的相关描述以及三维重建领域的相关技术，在此不再赘述)。

例如，在步骤S104中，第一定位图像相对于第一定位模型的相机外参可以包括第一旋转矩阵R1，第二定位图像相对于第二定位模型的相机外参可以包括第二旋转矩阵R2，第一定位图像和第二定位图像之间的相机变换参数(即第二定位图像相对于第一定位图像的相机外参)可以包括第三旋转矩阵R3，从而，第一定位模型和第二定位模型之间的几何变换关系可以表示为：若使用矩阵R3*R1(其中，“*”表示矩阵乘法)对第一定位模型进行旋转变换以及使用矩阵R2对第二定位模型进行旋转变换，则只需对旋转变换后的两个定位模型进行平移操作使二者的中心重合，即可实现这两个定位模型的配准。应当理解的是，此处的旋转变换的方式是示例性的，本公开的实施例包括但不限于此；例如，在一些示例中，也可以使用矩阵R1对第一定位模型进行旋转变换，同时使用矩阵(R3)^-1*R2(其中，(R3)^-1表示矩阵R3的逆矩阵)对第二定位模型进行旋转变换。

例如，在图2A-2C所示的实施例中，在N＝1(即第三定义域D3中仅包括一幅第三图像)的情况下，步骤S100可以包括以下步骤S111至步骤S113。

步骤S111：基于第一定位模型，对该幅第三图像(即第三定义域D3中仅包括的一幅第三图像)进行定位，以获取该幅第三图像相对于第一定位模型的相机外参；

步骤S112：基于第二定位模型，对该幅第三图像进行定位，以获取该幅第三图像相对于第二定位模型的相机外参；以及

步骤S113：基于该幅第三图像相对于第一定位模型的相机外参和该幅第三图像相对于第二定位模型的相机外参，确定第一定位模型和第二定位模型之间的几何变换关系。

应当理解的是，在图2A-2C所示的实施例中，N＝1的情形可以视为对应于N>1的情形的特例(第一定位图像和第二定位图像为同一幅图像，即第三定义域D3中仅包括的一幅第三图像)。此处，步骤S111、步骤S112、步骤S113可以分别对应于步骤S101、步骤S102、步骤S104(将第三定义域D3中仅包括的一幅第三图像同时视为第一定位图像和第二定位图像)；同时，由于第一定位图像与第二定位图像为同一幅图像，步骤S103可以省略，步骤S104也可以相应转换为步骤S113。因此，步骤S111、步骤S112、步骤S113的实现方式和过程可以对应参考步骤S101、步骤S102、步骤S104(将第一定位图像和第二定位图像之间的相机变换参数包括的旋转矩阵R3设置为单位矩阵即可)的相关描述，在此不再重复赘述。

又例如，在图2A-2C所示的实施例中，在N>1(即N幅第三图像形成为图像序列)的情况下，步骤S100可以包括以下步骤S121至步骤S124。

步骤S121：对多幅第一图像中的至少一幅第一图像与图像序列中的至少一幅第三图像进行特征匹配，以确定能成功进行特征匹配的一幅第一图像和一幅第三图像分别作为第一匹配图像和第二匹配图像，并确定第一匹配图像相对于第一定位模型的相机外参以及第一匹配图像和第二匹配图像之间的相机变换参数；

步骤S122：对多幅第二图像中的至少一幅第二图像与图像序列中的至少一幅第三图像进行特征匹配，以确定能成功进行特征匹配的一幅第二图像和一幅第三图像分别作为第三匹配图像和第四匹配图像，并确定第三匹配图像相对于第二定位模型的相机外参以及第三匹配图像和第四匹配图像之间的相机变换参数，其中，第二匹配图像不同于第四匹配图像；

步骤S123：基于图像序列，确定第二匹配图像和第四匹配图像之间的相机变换参数；以及

步骤S124：基于第一匹配图像相对于第一定位模型的相机外参、第一匹配图像和第二匹配图像之间的相机变换参数、第三匹配图像相对于第二定位模型的相机外参、第三匹配图像和第四匹配图像之间的相机变换参数以及第二匹配图像和第四匹配图像之间的相机变换参数，确定第一定位模型和第二定位模型之间的几何变换关系。

例如，步骤S121和步骤S122中的特征匹配操作可以参考前述SFM算法中的步骤(2)的相关描述，步骤S121和步骤S122中的确定相机外参的操作可以参考前述步骤S101中的相关描述，步骤S121和步骤S122中的确定相机变换参数的操作可以参考前述SFM算法中的步骤(4)的相关描述，在此均不再赘述。

例如，步骤S123的操作与步骤S103的操作基本相同，只要将第二匹配图像和第四定位图像分别视为第一定位图像和第二定位图像即可。因此，步骤S123的操作可以参考前述步骤S103的相关描述，在此亦不再赘述。

例如，在步骤S124中，第一匹配图像相对于第一定位模型的相机外参可以包括第四旋转矩阵R4，第一匹配图像和第二匹配图像之间的相机变换参数(即第二匹配图像相对于第一匹配图像的相机外参)可以包括第五旋转矩阵R5，第三匹配图像相对于第二定位模型的相机外参可以包括第六旋转矩阵R6，第三匹配图像和第四匹配图像之间的相机变换参数(即第四匹配图像相对于第三匹配图像的相机外参)可以包括第七旋转矩阵R7，第二匹配图像和第四匹配图像之间的相机变换参数(即第四匹配图像相对于第二匹配图像的相机外参)可以包括第八旋转矩阵R8，从而，第一定位模型和第二定位模型之间的几何变换关系可以表示为：若使用矩阵R8*R5*R4(其中，“*”表示矩阵乘法)对第一定位模型进行旋转变换以及使用矩阵R7*R6对第二定位模型进行旋转变换，则只需对旋转变换后的两个定位模型进行平移操作使二者的中心重合，即可实现这两个定位模型的配准。应当理解的是，此处的旋转变换的方式是示例性的，本公开的实施例包括但不限于此；例如，在一些示例中，也可以使用矩阵R5*R4对第一定位模型进行旋转变换，同时使用矩阵(R8)^-1*R7*R6(其中，(R8)^-1表示矩阵R8的逆矩阵)对第二定位模型进行旋转变换。

又例如，在图2A-2C所示的实施例中，在N＝1(即第三定义域D3中仅包括一幅第三图像)的情况下，步骤S100可以包括以下步骤S131至步骤S133。

步骤S131：对多幅第一图像中的至少一幅第一图像与该幅第三图像(即第三定义域D3中仅包括的一幅第三图像)进行特征匹配，以确定能与该幅第三图像成功进行特征匹配的一幅第一图像作为第五匹配图像，并确定第五匹配图像相对于第一定位模型的相机外参以及第五匹配图像和该幅第三图像之间的相机变换参数；

步骤S132：对多幅第二图像中的至少一幅第二图像与该幅第三图像进行特征匹配，以确定能与该幅第三图像成功进行特征匹配的一幅第二图像作为第六匹配图像，并确定第六匹配图像相对于第二定位模型的相机外参以及第六匹配图像和该幅第三图像之间的相机变换参数；以及

步骤S133：基于第五匹配图像相对于第一定位模型的相机外参、第五匹配图像和该幅第三图像之间的相机变换参数、第六匹配图像相对于第二定位模型的相机外参以及第六匹配图像和该幅第三图像之间的相机变换参数，确定第一定位模型和第二定位模型之间的几何变换关系。

应当理解的是，在图2A-2C所示的实施例中，N＝1的情形可以视为对应于N>1的情形的特例(第二匹配图像和第四匹配图像为同一幅图像，即第三定义域D3中仅包括的一幅第三图像)。此处，步骤S131、步骤S132、步骤S133可以分别对应于步骤S121、步骤S122、步骤S124(将第三定义域D3中仅包括的一幅第三图像同时视为第二匹配图像和第四匹配图像，将第五匹配图像视为第一匹配图像，将第六匹配图像视为第三匹配图像)；同时，由于第二匹配图像与第四匹配图像为同一幅图像，步骤S123可以省略，步骤S124也可以相应转换为步骤S123。因此，步骤S131、步骤S132、步骤S133的实现方式和过程可以对应参考步骤S121、步骤S122、步骤S124(将第二匹配图像和第四匹配图像之间的相机变换参数包括的旋转矩阵R8设置为单位矩阵即可)的相关描述，在此不再重复赘述。

再例如，在图2A-2C所示的实施例中，在N>1(即N幅第三图像形成为图像序列)且第一定位模型和第二定位模型均属于三维点云模型的情况下，步骤S100可以包括以下步骤S141至步骤S144。

步骤S141：基于图像序列构建第三定位模型，其中，第三定位模型属于三维点云模型；

步骤S142：对第三定位模型和第一定位模型进行点云配准，以确定第三定位模型和第一定位模型之间的几何变换关系；

步骤S143：对第三定位模型和第二定位模型进行点云配准，以确定第三定位模型和第二定位模型之间的几何变换关系；以及

步骤S144：基于第三定位模型和第一定位模型之间的几何变换关系以及第三定位模型和第二定位模型之间的几何变换关系，确定第一定位模型和第二定位模型之间的几何变换关系。

例如，在步骤S141中，可以采用SFM算法(参考前述SFM算法的相关描述)对图像序列进行三维重建，以得到第三定位模型。当然，也可以采用其他常用的三维重建算法实现步骤S141中的三维重建过程，本公开的实施例对此不作限制。

例如，对于两个三维点云模型而言，配准的目的在于找到一个最优的几何变换(即确定两个三维点云模型之间的几何变换关系)使得两个三维点云模型的数据在同一坐标系下最大程度的对齐融合。例如，通常可以采用迭代最近点(Iterative Closest Point，ICP)算法等对两个三维点云模型进行配准。也就是说，步骤S142和步骤S143均可以采用迭代最近点算法等实现。

例如，在步骤S142中，可以确定一个如下所述的旋转矩阵R9。若使用矩阵R9对第一定位模型进行旋转变换，则旋转变换后的第一定位模型可以和第三定位模型位于同一坐标系下，且只需对二者进行平移操作使第三定位模型和旋转变换后的第一定位模型的中心重合，即可实现这两个定位模型的配准。

同样地，例如，在步骤S143中，可以确定一个如下所述的旋转矩阵R10。若使用矩阵R10对第二定位模型进行旋转变换，则旋转变换后的第二定位模型可以和第三定位模型位于同一坐标系下，且只需对二者进行平移操作使第三定位模型和旋转变换后的第二定位模型的中心重合，即可实现这两个定位模型的配准。

例如，在步骤S144中，第一定位模型和第二定位模型之间的几何变换关系可以表示为：若使用矩阵R9对第一定位模型进行旋转变换以及使用矩阵R10对第二定位模型进行旋转变换，则只需对旋转变换后的两个定位模型进行平移操作使二者的中心重合，即可实现这两个定位模型的配准。

步骤S200：基于第一定位模型和第二定位模型之间的几何变换关系，对第一定位模型和第二定位模型进行融合，以得到目标物体的融合定位模型。

例如，在步骤S200中，基于步骤S100中确定的第一定位模型和第二定位模型之间的几何变换关系，可以通过前述的旋转变换操作将第一定位模型和第二定位模型统一到一个全局坐标系中；在该全局坐标系中对第一定位模型和第二定位模型之一进行平移操作以使第一定位模型和第二定位模型的共同特征点(该共同特征点为三维点且对应于第一定位图像和第二定位图像的同名点)重合，即可实现这两个定位模型的配准(共同特征点重合时，定位模型的中心也重合)；随后，可以对配准的第一定位模型和第二定位模型的共同特征点进行合并，以得到融合定位模型。例如，在通过步骤S200得到融合定位模型之后，还可以对融合定位模型进行光束法平差，以对融合定位模型进行优化。

应当理解的是，在图2A-2C所示的实施例中(尤其是图2C所示的实施例中)，第一定位模型和第二定位模型本身可能并不具备共同特征点，在此情况下，可以将第一定位图像和第二定位图像以及二者之间的第三图像(如有)的特征点分别加入第一定位模型和第二定位模型(例如，可以参考前述SFM算法的步骤(6)的相关描述)，以确保可以基于共同特征点实现这两个定位模型的配准。

例如，在图2A所示的实施例中，示例性地，第一定位模型可以为白天定位模型，第二定位模型为可以为夜晚定位模型，在此情况下，融合定位模型可以包括白天定位模型的特征点和夜晚定位模型的特征点，从而融合定位模型既可以适用于在白天拍摄的查询图像的三维定位，又可以适用于在夜晚拍摄的查询图像的三维定位。

例如，在图2B所示的实施例中，示例性地，第一定位模型可以为近景定位模型，第二定位模型为可以为远景定位模型，在此情况下，融合定位模型可以包括近景定位模型的特征点和远景定位模型的特征点，从而融合定位模型既可以适用于近景的查询图像的三维定位，又可以适用于远景的查询图像的三维定位。

例如，在图2C所示的实施例中，示例性地，第一定位模型可以为正面定位模型，第二定位模型为可以为背面定位模型，在此情况下，融合定位模型可以包括正面定位模型的特征点和远景定位模型的特征点，从而融合定位模型既可以适用于在正面拍摄的查询图像的三维定位，又可以适用于在背面拍摄的查询图像的三维定位。

例如，在一些实施例中，如图4所示，在前述步骤S100和步骤S200的基础上，步骤S30还可以包括步骤S300：将N幅第三图像的特征点加入融合定位模型。

例如，步骤S300的操作可以参考前述SFM算法的步骤(6)的相关描述，在此不再赘述。当然，在步骤S300之后，还可以再次对融合定位模型进行光束法平差，以对融合定位模型进行进一步优化。

例如，在图2A所示的实施例中，示例性地，第一定位模型为白天定位模型，第二定位模型为夜晚定位模型，N幅第三图像均为黄昏图像；在此情况下，将N幅第三图像的特征点加入融合定位模型之后，融合定位模型还可以包括黄昏图像的特征点，从而融合定位模型还可以进一步适用于在黄昏拍摄的查询图像的三维定位。

例如，在图2B所示的实施例中，示例性地，第一定位模型为近景定位模型，第二定位模型为远景定位模型，N幅第三图像均为中景图像；在此情况下，将N幅第三图像的特征点加入融合定位模型之后，融合定位模型还可以包括中景图像的特征点，从而融合定位模型还可以进一步适用于中景的查询图像的三维定位。

例如，在图2C所示的实施例中，示例性地，第一定位模型为正面定位模型，第二定位模型为背面定位模型，N幅第三图像均为侧面图像；在此情况下，将N幅第三图像的特征点加入融合定位模型之后，融合定位模型还可以包括侧面图像的特征点，从而融合定位模型还可以进一步适用于侧面的查询图像的三维定位。

需要说明的是，虽然图2A-2C所示的实施例均只考虑了单一因素导致的第一定位模型和第二定位模型无法直接融合的问题，但是本领域技术人员应当理解，本公开的实施例提供的融合方法可以应对多维度因素导致的第一定位模型和第二定位模型无法直接融合的问题。例如，在一些实施例中，第一定位模型为白天的近景定位模型，第二定位模型为夜晚的远景定位模型，即第一定位模型和第二定位模型无法直接融合是由于两个维度的因素(拍摄时间和相机相对于地标建筑的拍摄距离)导致的；在此情况下，N幅第三图像例如可以划分为两个图像子序列，其中，一个图像子序列包括在白天由近及远拍摄的近、中、远景图像(例如，采用无人机拍摄得到)，另一个图像子序列包括从白天到黄昏到夜晚的远景图像(例如，采用延时摄影拍摄得到)，从而，该N幅第三图像可以在第一定位模型和第二定位模型之间起到过渡和衔接的作用，进而，可以采用本公开的实施例提供的融合方法对第一定位模型和第二定位模型融合以得到融合定位模型。应当理解的是，上述两个维度的因素是示例性的，本公开的实施例包括但不限于此。还应当理解的是，即使第一定位模型和第二定位模型无法直接融合是由于更多维度(例如，三个或三个以上)的因素导致的，也仍然可以采用本公开的实施例提供的融合方法对第一定位模型和第二定位模型融合，只要获取的N幅第三图像可以在第一定位模型和第二定位模型之间起到过渡和衔接的作用即可。

需要说明的是，在本公开的实施例中，上述定位模型的融合方法的流程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行。虽然上文描述的定位模型的融合方法的流程包括特定顺序出现的多个操作，但是应该清楚地了解，多个操作的顺序并不受限制。上文描述的定位模型的融合方法可以执行一次，也可以按照预定条件执行多次。

需要说明的是，在本公开的实施例中，上述融合方法可以采用软件、硬件、固件或其任意组合等方式实现，从而执行相应的处理过程。

本公开至少一个实施例还提供一种定位方法。图5为本公开至少一个实施例提供的一种定位方法的流程图。例如，该定位方法可以应用于智能手机、平板电脑等电子设备。例如，该电子设备可以包括处理器和存储器。例如，处理器可以包括中央处理单元(CentralProcessing Unit，CPU)和/或图形处理单元(Graphics Processing Unit，GPU)等；存储器可以包括易失性存储器(例如，随机存取存储器(RAM)等)和/或非易失性存储器(例如只读存储器(Read Only Memory，ROM)等)。例如，存储器上存储有代码或指令，通过运行这些代码或指令，可以实现本公开的实施例提供的定位方法。

例如，如图5所示，该定位方法包括步骤S40至步骤S50。

步骤S40：获取目标物体的查询图像；

步骤S50：基于根据本公开任一实施例提供的定位模型的融合方法得到的目标物体的融合定位模型，对目标物体的查询图像进行定位。

例如，在步骤S40中，查询图像可以包括通过电子设备自带的摄像头(例如，智能手机的摄像头、平板电脑的摄像头等)或外接的摄像头(例如，网络摄像头等)拍摄目标物体(例如，地标建筑或者以地标建筑为主体的场景)而采集得到的照片，本公开的实施例对此不作限制。

例如，步骤S50中的融合定位模型可以预先存储在电子设备的存储器中，电子设备通过处理器执行步骤S50时可以调用该融合定位模型。例如，在步骤S50中，可以先提取查询图像的特征点；然后，将查询图像的特征点与融合定位模型的三维点进行特征匹配，以寻找查询图像的特征点与融合定位模型的三维点的匹配关系；最后，根据查询图像的特征点与融合定位模型的三维点的匹配关系，采用例如透视n点(Perspective-n-Point，PnP)算法等对查询图像进行定位(例如，估计查询图像的相机位姿等)。

例如，在一些实施例中，可以将融合定位模型内置于某一应用软件(APP)中；在用户使用该应用软件拍摄地标建筑时，可以基于应用软件内置的融合定位模型对地标建筑进行检测并对用户进行定位(确定用户所持电子设备的相机位姿)，同时结合轻量级渲染引擎，轻快便捷的实现各种随相机位姿变化的AR特效，从而为用户提供优质的地标AR特效体验。

需要说明的是，在本公开的实施例中，上述定位算法可以采用软件、硬件、固件或其任意组合等方式实现，从而执行相应的处理过程。

本公开的实施例提供的定位方法的技术效果可以参考前述实施例中关于定位模型的融合方法的技术效果的相应描述，在此不再重复赘述。

本公开至少一个实施例还提供一种电子设备。图6为本公开至少一个实施例提供的一种电子设备的示意性框图。例如，如图6所示，该电子设备100包括存储器110和处理器120。

例如，存储器110用于非暂时性存储计算机可读指令，处理器120用于运行该计算机可读指令。例如，该计算机可读指令被处理器120运行时，执行本公开任一实施例提供的融合方法，或者执行本公开任一实施例提供的定位方法。

例如，存储器110和处理器120之间可以直接或间接地互相通信。例如，在一些示例中，如图6所示，该电子设备100还可以包括系统总线130，存储器110和处理器120之间可以通过系统总线130互相通信，例如，处理器120可以通过系统总线130访问存储器110。例如，在另一些示例中，存储器110和处理器120等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。

例如，处理器120可以控制电子设备中的其它组件以执行期望的功能。处理器120可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上，或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。

例如，存储器110可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。

例如，在存储器110上可以存储一个或多个计算机指令，处理器120可以运行所述计算机指令，以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如第一定位模型、第二定位模型、N幅第三图像、融合定位模型以及应用程序使用和/或产生的各种数据等。

例如，存储器110存储的一些计算机指令被处理器120执行时可以执行根据上文所述的融合方法中的一个或多个步骤。例如，存储器110存储的另一些计算机指令被处理器120执行时可以执行根据上文所述的定位方法中的一个或多个步骤。

例如，如图6所示，电子设备100还可以包括允许外部设备与电子设备100进行通信的输入接口140。例如，输入接口140可被用于从外部计算机设备、从用户等处接收指令。电子设备100还可以包括使电子设备100和一个或多个外部设备相互连接的输出接口150。例如，电子设备100可以通过输出接口150输出融合定位模型等。通过输入接口140和输出接口150与电子设备100通信的外部设备可被包括在提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与电子设备100交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语义、视觉、触摸、手势、以及机器智能等。

例如，在一些实施例中，该电子设备100还可以包括用于采集图像的摄像头。

另外，电子设备100尽管在图6中被示出为单个系统，但可以理解，电子设备100也可以是分布式系统，还可以布置为云设施(包括公有云或私有云)。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由电子设备100执行的任务。

例如，关于融合方法的实现过程的详细说明可以参考上述融合方法的实施例中的相关描述，关于定位方法的实现过程的详细说明可以参考上述定位方法的实施例中的相关描述，重复之处在此不再赘述。

例如，在一些示例中，该电子设备可以包括但不限于智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、可穿戴设备等。

需要说明的是，本公开的实施例提供的电子设备是示例性的，而非限制性的，根据实际应用需要，该电子设备还可以包括其他常规部件或结构，例如，为实现电子设备的必要功能，本领域技术人员可以根据具体应用场景设置其他的常规部件或结构，本公开的实施例对此不作限制。

本公开的实施例提供的电子设备的技术效果可以参考上述实施例中关于的融合方法和定位方法的相应描述，在此不再赘述。

本公开至少一个实施例还提供一种非瞬时性存储介质。图7为本公开一个实施例提供的一种非瞬时性存储介质的示意图。例如，如图7所示，该非瞬时性存储介质200非暂时性地存储计算机可读指令201，当非暂时性计算机可读指令201由计算机(包括处理器)执行时，可以执行本公开任一实施例提供的融合方法的指令，或者可以执行公开任一实施例提供的定位方法的指令。

例如，在非瞬时性存储介质200上可以存储一个或多个计算机指令。非瞬时性存储介质200上存储的一些计算机指令可以是例如用于实现上述融合方法中的一个或多个步骤的指令，非瞬时性存储介质200上存储的另一些计算机指令可以是例如用于实现上述定位方法中的一个或多个步骤的指令。

例如，非瞬时性存储介质可以包括智能手机的存储部件、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。

本公开的实施例提供的非瞬时性存储介质的技术效果可以参考上述实施例中关于融合方法和定位方法的相应描述，在此不再赘述。

对于本公开，有以下几点需要说明：

(1)本公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种定位模型的融合方法，包括：

获取目标物体的第一定位模型和第二定位模型，其中，所述第一定位模型基于所述目标物体的多幅第一图像重建得到，所述第二定位模型基于所述目标物体的多幅第二图像重建得到，所述多幅第一图像对应于第一定义域，所述多幅第二图像对应于第二定义域，且所述第一定义域与所述第二定义域不交叠；

获取所述目标物体的N幅第三图像，其中，N为大于或等于1的整数，所述N幅第三图像对应于第三定义域，所述第三定义域与所述第一定义域交叠，且所述第三定义域与所述第二定义域交叠；以及

基于所述N幅第三图像，对所述第一定位模型和所述第二定位模型进行融合，以得到所述目标物体的融合定位模型。

2.根据权利要求1所述的融合方法，其中，基于所述N幅第三图像，对所述第一定位模型和所述第二定位模型进行融合，以得到所述目标物体的融合定位模型，包括：

基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系；以及

基于所述第一定位模型和所述第二定位模型之间的几何变换关系，对所述第一定位模型和所述第二定位模型进行融合，以得到所述目标物体的融合定位模型。

3.根据权利要求2所述的融合方法，其中，N>1，所述N幅第三图像形成为图像序列，

基于所述N幅第三图像，确定所述第一定位模型和所述第二定位模型之间的几何变换关系，包括：

基于所述第一定位模型，对所述图像序列中的至少一幅第三图像进行定位，以确定所述图像序列中能被定位的一幅第三图像作为第一定位图像，并获取所述第一定位图像相对于所述第一定位模型的相机外参；

基于所述第二定位模型，对所述图像序列中的至少一幅第三图像进行定位，以确定所述图像序列中能被定位的一幅第三图像作为第二定位图像，并获取所述第二定位图像相对于所述第二定位模型的相机外参，其中，所述第一定位图像不同于所述第二定位图像；

基于所述图像序列，确定所述第一定位图像和所述第二定位图像之间的相机变换参数；以及

基于所述第一定位图像相对于所述第一定位模型的相机外参、所述第二定位图像相对于所述第二定位模型的相机外参以及所述第一定位图像和所述第二定位图像之间的相机变换参数，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

4.根据权利要求2所述的融合方法，其中，N＝1，

基于所述第一定位模型，对所述一幅第三图像进行定位，以获取所述一幅第三图像相对于所述第一定位模型的相机外参；

基于所述第二定位模型，对所述一幅第三图像进行定位，以获取所述一幅第三图像相对于所述第二定位模型的相机外参；以及

基于所述一幅第三图像相对于所述第一定位模型的相机外参和所述一幅第三图像相对于所述第二定位模型的相机外参，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

5.根据权利要求2所述的融合方法，其中，N>1，所述N幅第三图像形成为图像序列，

对所述多幅第一图像中的至少一幅第一图像与所述图像序列中的至少一幅第三图像进行特征匹配，以确定能成功进行特征匹配的一幅第一图像和一幅第三图像分别作为第一匹配图像和第二匹配图像，并确定所述第一匹配图像相对于所述第一定位模型的相机外参以及所述第一匹配图像和所述第二匹配图像之间的相机变换参数；

对所述多幅第二图像中的至少一幅第二图像与所述图像序列中的至少一幅第三图像进行特征匹配，以确定能成功进行特征匹配的一幅第二图像和一幅第三图像分别作为第三匹配图像和第四匹配图像，并确定所述第三匹配图像相对于所述第二定位模型的相机外参以及所述第三匹配图像和所述第四匹配图像之间的相机变换参数，其中，所述第二匹配图像不同于所述第四匹配图像；

基于所述图像序列，确定所述第二匹配图像和所述第四匹配图像之间的相机变换参数；以及

基于所述第一匹配图像相对于所述第一定位模型的相机外参、所述第一匹配图像和所述第二匹配图像之间的相机变换参数、所述第三匹配图像相对于所述第二定位模型的相机外参、所述第三匹配图像和所述第四匹配图像之间的相机变换参数以及所述第二匹配图像和所述第四匹配图像之间的相机变换参数，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

6.根据权利要求2所述的融合方法，其中，N＝1，

对所述多幅第一图像中的至少一幅第一图像与所述一幅第三图像进行特征匹配，以确定能与所述一幅第三图像成功进行特征匹配的一幅第一图像作为第五匹配图像，并确定所述第五匹配图像相对于所述第一定位模型的相机外参以及所述第五匹配图像和所述一幅第三图像之间的相机变换参数；

对所述多幅第二图像中的至少一幅第二图像与所述一幅第三图像进行特征匹配，以确定能与所述一幅第三图像成功进行特征匹配的一幅第二图像作为第六匹配图像，并确定所述第六匹配图像相对于所述第二定位模型的相机外参以及所述第六匹配图像和所述一幅第三图像之间的相机变换参数；以及

基于所述第五匹配图像相对于所述第一定位模型的相机外参、所述第五匹配图像和所述一幅第三图像之间的相机变换参数、所述第六匹配图像相对于所述第二定位模型的相机外参以及所述第六匹配图像和所述一幅第三图像之间的相机变换参数，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

7.根据权利要求2所述的融合方法，其中，N>1，所述N幅第三图像形成为图像序列，所述第一定位模型和所述第二定位模型均属于三维点云模型，

基于所述图像序列构建第三定位模型，其中，所述第三定位模型属于三维点云模型；

对所述第三定位模型和所述第一定位模型进行点云配准，以确定所述第三定位模型和所述第一定位模型之间的几何变换关系；

对所述第三定位模型和所述第二定位模型进行点云配准，以确定所述第三定位模型和所述第二定位模型之间的几何变换关系；以及

基于所述第三定位模型和所述第一定位模型之间的几何变换关系以及所述第三定位模型和所述第二定位模型之间的几何变换关系，确定所述第一定位模型和所述第二定位模型之间的几何变换关系。

8.根据权利要求1-7任一项所述的融合方法，还包括：

将所述N幅第三图像的特征点加入所述目标物体的所述融合定位模型。

9.根据权利要求1-7任一项所述的融合方法，其中，所述第一定义域、所述第二定义域和所述第三定义域均属于时间域。

10.根据权利要求9所述的融合方法，其中，所述目标物体的所述N幅第三图像通过延时摄影拍摄得到。

11.根据权利要求1-7任一项所述的融合方法，其中，所述第一定义域、所述第二定义域和所述第三定义域均属于距离域。

12.根据权利要求11所述的融合方法，其中，所述目标物体的所述N幅第三图像通过无人机拍摄得到。

13.根据权利要求1-7任一项所述的融合方法，其中，所述第一定义域、所述第二定义域和所述第三定义域均属于角度域。

14.根据权利要求13所述的融合方法，其中，所述目标物体的所述N幅第三图像通过无人机拍摄得到。

15.一种定位方法，包括：

获取目标物体的查询图像；以及，

基于根据权利要求1-14任一项所述的融合方法得到的所述目标物体的所述融合定位模型，对所述目标物体的查询图像进行定位。

16.一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行根据权利要求1-14任一项所述的融合方法，或者执行根据权利要求15所述的定位方法。

17.一种非瞬时性存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行根据权利要求1-14任一项所述的融合方法的指令，或者执行根据权利要求15所述的定位方法的指令。