CN115222602B

CN115222602B - 图像拼接方法、装置、设备及存储介质

Info

Publication number: CN115222602B
Application number: CN202210975531.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Chengshi Wanglin Information Technology Co Ltd
Current assignee: Beijing Chengshi Wanglin Information Technology Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2023-06-16
Anticipated expiration: 2042-08-15
Also published as: CN115222602A

Abstract

本申请实施例提供一种图像拼接方法、装置、设备及存储介质。在本申请实施例中，对在采集点位的不同拍摄角度采集的实景图像，从中确定存在拼接关系的多组实景图像对，对所述多组实景图像对进行基于特征点对的图像拼接；在拼接过程中，对于特征相似度或者位姿匹配度小于对应阈值的第一实景图像对，采用基于三维点云数据集的图像拼接，具体地，对该第一实景图像对进行三维重建得到两个三维点云数据集；通过位姿校准后的两个三维点云数据集的位姿信息，对该第一实景图像对进行图像拼接。整个过程中，对于第一实景图像对采用基于三维点云数据集的图像拼接，提高了图像拼接的准确率。

Description

图像拼接方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种图像拼接方法、装置、设备及存储介质。

背景技术

图像拼接是将两幅或者多幅相互具有重叠部分的照片拼接成具有超宽视角的全景图像的过程。目前，根据两张图像中像素特征值，对两张图像进行特征提取和特征匹配，得到两张图像的匹配点对，根据匹配点对对两张图像的共有区域进行融合，以实现两张图像的拼接。然而，在拼接过程中，两张图像的共有区域缺少足够的特征点时，会导致图像拼接的准确率较低，影响图像拼接的结果。

发明内容

本申请的多个方面提供一种图像拼接方法、装置、设备及存储介质，用以提高图像拼接的准确率。

本申请实施例提供一种图像拼接方法，包括：获取目标空间对象的多张实景图像，多张实景图像是在目标空间对象的采集点位上从多个拍摄角度拍摄得到的；根据多个拍摄角度，确定多张实景图像中存在拼接关系的多组实景图像对，并对多组实景图像对进行基于特征点对的图像拼接；在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；针对第一实景图像对，根据第一实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。

本申请实施例还提供一种图像拼接装置，包括：获取模块、确定模块、拼接模块、识别模块、重建模块和配准模块；获取模块，用于获取目标空间对象的多张实景图像，多张实景图像是在目标空间对象的采集点位上从多个拍摄角度拍摄得到的；确定模块，用于根据多个拍摄角度，确定多张实景图像中存在拼接关系的多组实景图像对；拼接模块，用于对多组实景图像对进行基于特征点对的图像拼接；识别模块，用于在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；重建模块，用于针对第一实景图像对，根据第一实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；配准模块，用于根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；拼接模块，还用于根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。

本申请实施例还提供一种图像拼接设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以实现本申请实施例提供的图像拼接方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的图像拼接方法中的步骤。

在本申请实施例中，对在采集点位的不同拍摄角度采集的实景图像，从中确定存在拼接关系的多组实景图像对，对多组实景图像对进行基于特征点对的图像拼接；在拼接过程中，对于特征相似度或者位姿匹配度小于对应阈值的第一实景图像对，采用基于三维点云数据集的图像拼接，具体地，对该第一实景图像对进行三维重建得到两个三维点云数据集；通过位姿校准后的两个三维点云数据集的位姿信息，对该第一实景图像对进行图像拼接。整个过程中，对于第一实景图像对采用基于三维点云数据集的图像拼接，提高了图像拼接的准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的图像拼接方法的流程示意图；

图2为本申请示例性实施例提供的图像拼接装置的结构示意图；

图3为本申请示例性实施例提供的图像拼接设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有技术图像拼接准确率低的问题，在本申请实施例中，对在采集点位的不同拍摄角度采集的实景图像，从中确定存在拼接关系的多组实景图像对，对多组实景图像对进行基于特征点对的图像拼接；在拼接过程中，对于特征相似度或者位姿匹配度小于对应阈值的第一实景图像对，采用基于三维点云数据集的图像拼接，具体地，对该第一实景图像对进行三维重建得到两个三维点云数据集；通过位姿校准后的两个三维点云数据集的位姿信息，对该第一实景图像对进行图像拼接。整个过程中，对于第一实景图像对采用基于三维点云数据集的图像拼接，提高了图像拼接的准确率。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种图像拼接方法的流程示意图。如图1所示，该方法包括：

101、获取目标空间对象的多张实景图像，多张实景图像是在目标空间对象的采集点位上从多个拍摄角度拍摄得到的；

102、根据多个拍摄角度，确定多张实景图像中存在拼接关系的多组实景图像对，并对多组实景图像对进行基于特征点对的图像拼接；

103、在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；

104、针对第一实景图像对，根据目标实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；

105、根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；

106、根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。

在本实施例中，目标物理空间指的是特定的空间区域，该空间区域中包含多个空间对象，换句话说，多个空间对象组成了目标物理空间。例如，目标物理空间是指一套住房，住房中包括的多个空间对象可以是厨房、卧室、客厅或卫生间等。可以在每个空间对象中设置一个或多个采集点位，具体采集点位的数量可视空间对象的大小或者形状而定。下面以多个空间对象中的目标空间对象为例进行后续说明，目标空间对象可以是目标物理空间中的任意一个空间对象。

在本实施例中，可以在目标空间对象的采集点位上采集实景图像，对于每个采集点位可以在不同的拍摄角度拍摄多张实景图像。例如，可以在采集点位的水平方向上旋转一周，每隔90度采集一张实景图像，得到在该采集点位采集到的4张实景图像。例如，可以在采集点位的水平方向上旋转一周，每隔30度在仰角45度以及俯角45方向上采集一张实景图像，总共在该采集点位上可以采集24张实景图像。其中，仰角是向上拍摄时，拍摄方向与水平方向的夹角，俯角是向下拍摄时拍摄方向与水平方向的夹角。

其中，根据拍摄实景图像的多个拍摄角度，确定在采集点位采集的多张实景图像中存在拼接关系的多组实景图像对。例如，在采集点位的水平方向上旋转一周，每隔90度采集一次实景图像，在0度采集的实景图像与在90度采集的实景图像之间存在拼接关系，可以组成一组实景图像对；在90度采集的实景图像与在270采集的实景图像之间存在拼接关系，可以组成一组实景图像对。又例如，在可以在采集点位的水平方向上旋转一周，每隔30度在仰角45度以及俯角45方向上采集一张实景图像，对于在水平方向上0度以及竖直方向上仰角45度采集的实景图像，与在水平方向上0度以及竖直方向上俯角45度采集的实景图像之间存在拼接关系，可以组成一组实景图像对。

在本实施例中，可以对存在拼接关系的多组实景图像对进行基于特征点对的图像拼接，其中，基于特征点对的图像拼接指的是根据每组实景图像对中两张实景图像中的特征点，对两张实景图像进行拼接的过程。其中，特征点是实景图像中具有代表性的点，例如，图像中的角点或边缘点，这些点不会随着图片的平移、缩放或者旋转发生变化，特征点可以是基于加速分割测试的特征(Features from Accelerated Segment Test，FAST)或者快速特征点提取和描述算法(Oriented FAST and Rotated BRIEF，ORB)特征。每个特征点对中包含两个特征点，分别来自实景图像对中的两张实景图像，每组实景图像对可以对应有多个特征点对。

在本实施例中，每组实景图像对中的两张实景图像之间具有特征相似度，该特征相似度用于体现两张实景图像中特征的相似性，例如，特征相似度可以通过每组实景图像对中的两张实景图像中特征点的数量来体现，或者两张实景图像包含的共视区域的面积来体现，对此不做限定。每组实景图像对中的两张实景图像之间还具有位姿匹配度，该位姿匹配度用于体现两张实景图像位姿配准的准确率，位姿匹配度可以通过两张实景图像中相应特征点的误差来体现，或者通过两张实景图像中对应区域的灰度信息的误差来体现，对此不做限定。

在本实施例中，在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对。例如，从多组实景图像对中识别出特征相似度小于特征相似度阈值的第一实景图像对，或者，从多组实景图像对中识别出位姿匹配度小于位姿匹配度阈值的第一实景图像对。其中，特征相似度阈值可以是70％、90％或95％等，位姿匹配度阈值可以是80％、96％或99％等。

在本实施例中，若第一实景图像对的特征相似度小于特征相似度阈值，或者第一实景图像对的位姿匹配度小于位姿匹配度阈值，则表示基于特征点对对该第一实景图像对中的两张实景图像进行图像拼接，得到的图像拼接结果准确率较低，拼接效果较差。在这种情况下，可以基于第一实景图像对中的两张实景图像生成两个三维点云数据集，对两个三维点云数据集进行位姿校准，基于校准后的位姿信息，对第一实景图像对中的两张实景图像进行图像拼接，提高第一实景图像对的图像拼接准确率。

具体地，可以针对该第一实景图像对，根据目标实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；例如，可以以其中一个三维点云数据集对应的位姿信息为基准，采用迭代最近点(Iterative Closest Point，ICP)算法或者正态分布转换(NormalDistributions Transform，NDT)算法，对另一个三维点云数据集对应的位姿信息进行校准，得到两个三维点云数据集之间的相对位姿信息；根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。例如，可以直接将两个三维点云数据集之间的相对位姿信息作为第一实景图像对中两张实景图像之间的相对位姿信息，基于该相对位姿信息，对第一实景图像对中两张实景图像进行图像拼接。又例如，可以通过两个三维点云数据集之间的相对位姿信息，对进行基于特征点对的图像拼接得到的两张实景图像之间的相对位姿信息进行修正，例如，修正可以是取平均或者加权平均等，对此不做限定；基于修正的相对位姿信息，对第一实景图像对中两张实景图像进行图像拼接。

其中，在对多组实景图像对进行基于特征点对的图像拼接过程中，对于每个实景图像对中的两张实景图像，两张实景图像是摄像头在两个视角下采集的图像，两张实景图像的特征点之间的本质矩阵可以体现两张实景图像之间的相对位姿信息，即通过两张实景图像之间的本质矩阵可以计算两张实景图像之间的相对位姿信息，如旋转矩阵(R)和平移矩阵(T)。由于两张实景图像处于同一个平面上，则进一步可以计算两张图像之间的单应矩阵，单应矩阵用于体现同一个平面的点在不同实景图像之间的关系，也就是说，基于单应矩阵计算两张实景图像之间的相对位姿信息。

在一可选实施例中，可以根据每组实景图像对对应的特征点对的数量，确定每组实景图像对的特征相似度。具体地，可以对每组实景图像对进行特征提取和特征匹配，得到每组实景图像对对应的特征点对；其中，特征提取是指每张实景图像中提取特征点(如，角点或边缘点)等。在对每张实景图像进行特征提取之后，可以通过数学向量对特征点进行描述，得到特征点对应的特征向量，特征匹配是指对不同实景图像中的特征点进行匹配，例如，计算不同实景图像中特征点对应的特征向量之间的距离信息(如，欧式距离、汉明距离或余弦距离等)。对于每组实景图像对中不同实景图像的特征点，若两个特征点之间的距离小于设定距离阈值，则来自不同实景图像的两个特征点作为特征点对。

其中，每组实景图像对对应的特征点对的数量并不确定，具体视每组实景图像对中两张实景图像之间共视区域的大小而定。若实景图像对对应的特征点对的数量较少，则可以认为特征相似度较低，基于较少的特征点对进行图像拼接，图像拼接结果的准确率较低，则可以将特征点对的数量小于设定数量阈值的每组实景图像对，作为特征相似度低于对应阈值的第一实景图像对。

在一可选实施例中，在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，表示可以基于特征点对进行图像拼接，根据每组实景图像对对应的特征点对，确定实景图像对中两张实景图像之间的相对位姿信息。例如，基于特征点对的图像拼接可以是实现为采用随机抽样一致算法(RANdom SAmple Consensus，RANSAC)确定实景图像对中两张实景图像之间的相对位姿信息；基于该相对位姿信息进行图像拼接。其中，对于从实景图像对包含的两张实景图像中提取出来的特征点对，RANSAC算法假设提取出来的特征点对可能包含正确数据(称为内点)，也可能包含异常数据(称为外点)，RANSAC算法会随机从实景图像对对应的特征点对中抽取一部分作为内点，基于抽取的内点估计实景图像对中两张实景图像之间的相对位姿信息；通过估算得到的相对位姿信息对所有特征点对进行测试，测试特征点对是否符合估测的相对位姿信息；若特征点对通过测试，则将该特征点对作为内点；若特征点对不通过测试，则将该特征点对作为外点；在内点数量不足的情况下(如内点数量未超过设定的内点数量阈值)，则重新抽取特征点对作为内点，开始新一轮的估算相对位姿信息。

其中，在内点数量不足的情况下，表明估算出的相对位姿信息无法满足大部分的特征点对，则根据每组实景图像对对应的特征点对，确定该组中两张实景图像之间特征点的误差；将该特征点的误差大于或等于设定误差阈值的每组实景图像对作为位姿匹配度小于对应阈值的第一实景图像对。针对第一实景图像对根据目标实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。

可选地，在内点数量足够多的情况下(例如，内点数量超过设定的内点数量阈值)，认为上述估算的相对位姿信息是合理的，则可以将特征点的误差小于设定误差阈值的每组实景图像对作为位姿匹配度大于或等于对应阈值的第二实景图像对，针对第二实景图像对，通过该足够多数量的内点重新估算相对位姿信息，并将该重新估算的相对位姿信息，作为第二实景图像对中两张实景图像之间的相对位姿信息，并基于该相对位姿信息对第二实景图像对进行图像拼接。

需要说明的是，针对在同一采集点位上存在拼接关系的多组实景图像对，对于第一实景图像对进行基于特征点对的图像拼接，对于第二实景图像对进行基于三维点云数据集的图像拼接，两种拼接方法结合，一方面在特征相似度较低或者位姿匹配度较低的情况下，进行基于三维点云数据集的图像拼接可以提高图像拼接的准确率，另一方面，在特征相似度较高或者位姿匹配度较高的情况下，进行基于特征点对的图像拼接可以提高图像拼接的效率。

在本实施例中，并不限定针对第一实景图像对，根据第一实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集的实施方式。下面进行举例说明。

在一可选实施例中，针对第一实景图像对，根据该第一实景图像对中的每张实景图像的投影信息，确定每张实景图像的深度信息，其中，可以将每张实景图像输入至深度学习模型中，对每张实景图像进行投影，例如，等矩形投影或立方投影等，根据每张实景图像的投影信息，预测每张实景图像的对应的深度图，该深度图可以体现每张实景图像的深度信息；其中，深度学习模型可以包含但不限于：bifuse模型或者OmniFusion模型，其中，bifuse是一种通过两种投影融合方式进行单目360度全景深度估计的模型；OmniFusion是一种用于解决球面失真的360度单目深度估计方法。

bifuse模型的工作原理主要包括：bifuse模型包含两条分支，一个分支是等矩形投影，另一分支是立方投影，每个分支都遵循编码器-解码器(Encoder-Decoder)结构，两个分支分别将实景图像的等矩形投影和立方投影作为输入，预测实景图像对应的深度图，其中，两个分支每2层通过一个融合模块进行特征的融合，每个分支输出各自的深度图后，将立方投影分支对应的深度图转换为等矩形对应的深度图，并将转换后的深度图与等矩形投影分支输出的深度图通过卷积网络进行融合，得到最终预测的深度图，该深度图中可以体现实景图像的深度信息。

在本实施例中，可以根据每张实景图像的深度信息，结合摄像头坐标系与世界坐标系的转换关系，对每张实景图像进行三维点云重建，得到每张实景图像对应的三维点云数据集。例如，根据每张实景图像的深度信息，将图像坐标系中的二维点转换至摄像头坐标系；根据摄像头坐标系与世界坐标系的转换关系，将摄像头坐标系下的二维点转换成世界坐标下的三维点，以实现对每张实景图像进行三维点云重建，得到每张实景图像对应的三维点云数据集。

在另一可选实施例中，采集实景图像的摄像头实现为双目相机，或者深度相机，则可以根据相机的内参和外参，确定实景图像的深度信息，基于该深度信息对实景图像进行三维重建，得到每张实景图像对应的三维点云数据集。在本实施例中，并不限定根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息的实施方式，下面进行举例说明。

在一可选实施例中，以其中一个三维点云数据集对应的位姿信息为基准，采用粗匹配与精匹配结合的方式，对另一个三维点云数据集对应的位姿信息进行校准，得到两个三维点云数据集之间的相对位姿信息。其中，粗匹配的方式可以是快速点特征直方图(FastPoint Feature Histograms，FPFH)，精匹配的方式可以是迭代最近点(Iterative ClosestPoint，ICP)算法或者正态分布转换(Normal Distributions Transform，NDT)算法等。

在另一可选实施例中，在采用粗匹配与精匹配结合的方式进行位姿配准之前，可以通过人工手动编辑的方式，对第一实景图像对中的两个三维点云数据集的初始位姿信息进行修正，基于修正后的位姿信息，进行位姿配准，得到两个三维点云数据集的相对位姿信息，可以提高位姿配准的准确率。

考虑到对三维点云数据集进行编辑操作，以实现对三维点云数据集的位姿进行调整，需要在终端设备上展示第一实景图像对中包含的两张实景图像对应的两个三维点云数据集，三维点云数据集中三维点的数量较大，并且终端设备还需要支持用户手动对三维点云数据集执行编辑操作，这就对终端设备的性能要求较高，否则可能会出现卡顿的现象。

考虑到终端设备的普适性，可以将每个三维点云数据集映射为二维点云图像，将二维点云图像展示在终端设备上，基于终端设备的显示屏对二维点云图像执行编辑操作，编辑操作可以包含但不限于：缩放、平移或旋转等；基于该编辑操作，对二维点云图像对应的三维点云数据集的位姿信息进行修正。其中，终端设备可以对每个三维点云数据集对应的二维点云图像进行渲染绘制并展示在显示屏上，不用通过开放图形库(Open GraphicsLibrary，OpenGL)对三维点云数据集中的每个三维点云数据逐一渲染绘制，提升了渲染效率，降低了对终端设备性能的要求，减少了编辑过程中的卡顿，提升了用户体验。其中，OpenGL是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API)。其中，关于将三维点云数据集映射为二维点云图像的方法，可参见后续实施例，在此在不赘述。

具体地，在任一二维点云图像被编辑的情况下，可以根据该任一二维点云图像的编辑操作的编辑参数，对该任一二维点云图像对应的第一三维点云数据集的位姿信息进行修正。其中，编辑参数可以包含但不限于：缩放比例、旋转角度或平移距离中的至少一种。可选地，若在终端设备上执行上述操作，则可以将两个三维点云数据集对应的两张二维点云图像展示在终端设备上，在任一二维点云图像被编辑的情况下，可响应于对该任一二维点云图像的编辑操作，根据编辑操作的编辑参数，对该任一二维点云图像对应的第一三维点云数据集的位姿信息进行修正。若在服务端设备上执行上述操作，则可以将两个三维点云数据集对应的两张二维点云图像提供给终端设备，将该两张二维点云图像展示在终端设备上，在任一二维点云图像被编辑的情况下，终端设备响应于对该任一二维点云图像的编辑操作，将编辑操作对应的编辑参数提供给服务端设备，服务端设备根据该任一二维点云图像的编辑操作的编辑参数，对该任一二维点云图像对应的第一三维点云数据集的位姿信息进行修正。

其中，可以对两张二维点云图像均执行编辑操作，对两张二维点云图像对应的两个三维点云数据集的位姿信息进行修正，得到每个三维点云数据集的修正后的位姿信息；也可以对其中一张二维点云图像执行编辑操作，对该二维点云图像对应的三维点云数据集的位姿信息进行修正，对于没有执行编辑操作的二维点云图像，该二维点云图像对应的三维点云数据集的位姿信息不变。基于此，可以根据两个三维点云数据集修正后的位姿信息进行位姿配准，得到两个三维点云数据集之间的相对位姿信息。其中，进行位姿配准的方式，可以粗匹配与精匹配结合的方式。

在一可选实施例中，根据两个三维点云数据集修正后的位姿信息进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；基于该相对位姿信息，计算两个三维点云数据集之间的点云误差，若点云误差大于设定的点云误差阈值，则认为两个三维点云数据集之间的位姿匹配度较低，无法基于该相对位姿信息对两个第一三维点云数据集对应的两张实景图像进行拼接。基于此，还可以获取其它模块提供的第一实景图像对中包含的两张实景图像各自的位姿信息；其它模块可以包含但不限于：全球定位系统(GlobalPositioningSystem，GPS)定位模块、无线保真(Wireless Fidelity，WIFI)模块或即时定位与地图构建(Simultaneous Localization And Mapping，SLAM)模块。基于两张实景图像各自的位姿信息，确定两张实景图像对应的两个三维点云数据集之间的第二相对位姿信息，例如，基于两张实景图像各自的位姿信息进行图像配准，得到两张实景图像之间的相对位姿信息，将两张实景图像之间的相对位姿信息作为两个三维点云数据集之间的第二相对位姿信息；根据两个三维点云数据集之间的点云误差函数，从第一相对位姿信息和第二相对位姿信息中选择待配准位姿信息；例如，可以是分别根据第一相对位姿信息和第二相对位姿信息计算两个三维点云数据集之间的点云误差函数，得到第一点云误差和第二点云误差，从中选择误差较小的点云误差，将该较小的点云误差对应的相对位姿信息作为待配准位姿信息；根据待配准位姿信息，对两个第一三维点云数据集对应的两张实景图像进行拼接。

需要说明的是，本申请实施例提供的图像拼接方法可以在终端设备上执行，还可以在也可以在服务端设备上执行。其中，其它模块可以是终端设备上的模块，也可以是其它设备上的模块，例如支架或云台设备。若图像拼接方法在服务端设备上执行，则终端设备可以将在目标空间对象的采集点位上从多个拍摄角度采集的多张实景图像发送给服务端设备，进一步，其它模块采集的实景图像的位姿信息也可以通过终端设备发送给服务端设备。

在一可选实施例中，在对每组实景图像对进行拼接之后，还可以根据在采集点位上采集实景图像的多个拍摄角度，将图像拼接后的多组实景图像对投影至球面坐标系上，得到目标空间对象在该采集点位对应的球面全景图；根据球面坐标系与平面坐标系的转换关系，将球面全景图展开为目标空间对象在该采集点位对应的平面全景图。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤103的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤103的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图2为本申请示例性实施例提供的一种图像拼接装置的结构示意图，如图2所示，该图像拼接装置包括：获取模块21、确定模块22、拼接模块23、识别模块24、重建模块25和配准模块26；

获取模块21，用于获取目标空间对象的多张实景图像，多张实景图像是在目标空间对象的采集点位上从多个拍摄角度拍摄得到的；

确定模块22，用于根据多个拍摄角度，确定多张实景图像中存在拼接关系的多组实景图像对；拼接模块23，用于对多组实景图像对进行基于特征点对的图像拼接；

识别模块24，用于在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；

重建模块25，用于针对第一实景图像对，根据第一实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；

配准模块26，用于根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；

拼接模块23，还用于根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。

在一可选实施例中，图像拼接装置还包括：处理模块；处理模块用于：对每组实景图像对进行特征提取和特征匹配，得到每组实景图像对对应的特征点对；将特征点对的数量小于设定数量阈值的每组实景图像对，作为特征相似度低于对应阈值的第一实景图像对。

在一可选实施例中，确定模块还用于：在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，则根据每组实景图像对对应的特征点对，确定该组中两张实景图像之间特征点的误差；处理模块还用于：将该特征点的误差大于或等于设定误差阈值的每组实景图像对作为位姿匹配度小于对应阈值的第一实景图像对。

在一可选实施例中，处理模块还用于：在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，将特征点的误差小于设定误差阈值的每组实景图像对作为位姿匹配度大于或等于对应阈值的第二实景图像对。

在一可选实施例中，重建模块具体用于：针对第一实景图像对，根据该第一实景图像对中的每张实景图像的投影信息，预测每张实景图像的深度信息；根据每张实景图像的深度信息，结合摄像头坐标系与世界坐标系的转换关系，对每张实景图像进行三维点云重建，得到每张实景图像对应的三维点云数据集。

在一可选实施例中，配准模块具体用于：两个三维点云数据集可被映射为两张二维点云图像，每张二维点云图像能够被执行编辑操作；根据对任一二维点云图像的编辑操作的编辑参数，对任一二维点云图像对应的三维点云数据集的初始位姿信息进行修正；根据两个三维点云数据集修正后的位姿信息进行位姿配准，得到两个三维点云数据集之间的相对位姿信息。

在一可选实施例中，图像拼接装置还包括：选择模块；获取模块，还用于获取其它模块提供的第一实景图像对中包含的两张实景图像各自的位姿信息；其它模块包括以下至少一种：全球定位系统(GPS)定位模块、无线保真(WIFI)模块或即时定位与地图构建(SLAM)模块；确定模块，还用于：基于两张实景图像各自的位姿信息，确定两张实景图像对应的两个三维点云数据集之间的第二相对位姿信息；选择模块，用于根据两个三维点云数据集之间的点云误差函数，从第一相对位姿信息和第二相对位姿信息中选择待配准位姿信息；拼接模块，还用于：根据待配准位姿信息，对两个第一三维点云数据集对应的两张实景图像进行拼接。

在一可选实施例中，处理模块，还用于：根据多个拍摄角度，将图像拼接后的多组实景图像对投影至球面坐标系上，得到目标空间对象在该采集点位对应的球面全景图；根据球面坐标系与平面坐标系的转换关系，将球面全景图展开为目标空间对象在该采集点位对应的平面全景图。

本申请实施例的图像拼接装置，对在采集点位的不同拍摄角度采集的实景图像，从中确定存在拼接关系的多组实景图像对，对多组实景图像对进行基于特征点对的图像拼接；在拼接过程中，对于特征相似度或者位姿匹配度小于对应阈值的第一实景图像对，采用基于三维点云数据集的图像拼接，具体地，对该第一实景图像对进行三维重建得到两个三维点云数据集；通过位姿校准后的两个三维点云数据集的位姿信息，对该第一实景图像对进行图像拼接。整个过程中，对于第一实景图像对采用基于三维点云数据集的图像拼接，提高了图像拼接的准确率。

图3为本申请示例性实施例提供的一种图像拼接设备的结构示意图。如图所示，该图像拼接设备包括：存储器34和处理器35。

存储器34，用于存储计算机程序，并可被配置为存储其它各种数据以支持在图像拼接设备上的操作。这些数据的示例包括用于在图像拼接设备上操作的任何应用程序或方法的指令。

存储器34可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器35，与存储器34耦合，用于执行存储器34中的计算机程序，以用于：获取目标空间对象的多张实景图像，多张实景图像是在目标空间对象的采集点位上从多个拍摄角度拍摄得到的；根据多个拍摄角度，确定多张实景图像中存在拼接关系的多组实景图像对，并对多组实景图像对进行基于特征点对的图像拼接；在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；针对第一实景图像对，根据第一实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集；根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息；根据两个三维点云数据集之间的相对位姿信息，对两个三维点云数据集对应的两张实景图像进行拼接。

在一可选实施例中，处理器35还用于：对每组实景图像对进行特征提取和特征匹配，得到每组实景图像对对应的特征点对；将特征点对的数量小于设定数量阈值的每组实景图像对，作为特征相似度低于对应阈值的第一实景图像对。

在一可选实施例中，处理器35还用于：在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，则根据每组实景图像对对应的特征点对，确定该组中两张实景图像之间特征点的误差；将该特征点的误差大于或等于设定误差阈值的每组实景图像对作为位姿匹配度小于对应阈值的第一实景图像对。

在一可选实施例中，处理器35还用于：在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，将特征点的误差小于设定误差阈值的每组实景图像对作为位姿匹配度大于或等于对应阈值的第二实景图像对。

在一可选实施例中，处理器35在针对第一实景图像对，根据第一实景图像对中两张实景图像的深度信息，分别对两张实景图像进行三维点云重建，得到两个三维点云数据集时，具体用于：针对第一实景图像对，根据该第一实景图像对中的每张实景图像的投影信息，预测每张实景图像的深度信息；根据每张实景图像的深度信息，结合摄像头坐标系与世界坐标系的转换关系，对每张实景图像进行三维点云重建，得到每张实景图像对应的三维点云数据集。

在一可选实施例中，处理器35在根据两个三维点云数据集的初始位姿信息，对两个三维点云数据集进行位姿配准，得到两个三维点云数据集之间的相对位姿信息时，具体用于：两个三维点云数据集可被映射为两张二维点云图像，每张二维点云图像能够被执行编辑操作；根据对任一二维点云图像的编辑操作的编辑参数，对任一二维点云图像对应的三维点云数据集的初始位姿信息进行修正；根据两个三维点云数据集修正后的位姿信息进行位姿配准，得到两个三维点云数据集之间的相对位姿信息。

在一可选实施例中，处理器35还用于：获取其它模块提供的第一实景图像对中包含的两张实景图像各自的位姿信息；其它模块包括以下至少一种：全球定位系统(GPS)定位模块、无线保真(WIFI)模块或即时定位与地图构建(SLAM)模块；基于两张实景图像各自的位姿信息，确定两张实景图像对应的两个三维点云数据集之间的第二相对位姿信息；根据两个三维点云数据集之间的点云误差函数，从第一相对位姿信息和第二相对位姿信息中选择待配准位姿信息；根据待配准位姿信息，对两个第一三维点云数据集对应的两张实景图像进行拼接。

在一可选实施例中，处理器35还用于：根据多个拍摄角度，将图像拼接后的多组实景图像对投影至球面坐标系上，得到目标空间对象在该采集点位对应的球面全景图；根据球面坐标系与平面坐标系的转换关系，将球面全景图展开为目标空间对象在该采集点位对应的平面全景图。

本申请实施例的图像拼接设备，对在采集点位的不同拍摄角度采集的实景图像，从中确定存在拼接关系的多组实景图像对，对多组实景图像对进行基于特征点对的图像拼接；在拼接过程中，对于特征相似度或者位姿匹配度小于对应阈值的第一实景图像对，采用基于三维点云数据集的图像拼接，具体地，对该第一实景图像对进行三维重建得到两个三维点云数据集；通过位姿校准后的两个三维点云数据集的位姿信息，对该第一实景图像对进行图像拼接。整个过程中，对于第一实景图像对采用基于三维点云数据集的图像拼接，提高了图像拼接的准确率。

进一步，如图3所示，该图像拼接设备还包括：通信组件36、显示器37、电源组件38、音频组件39等其它组件。图3中仅示意性给出部分组件，并不意味着图像拼接设备只包括图3所示组件。需要说明的是，图3中虚线框内的组件为可选组件，而非必选组件，具体可视图像拼接设备的产品形态而定。

本实施例的图像拼接设备可以实现为台式电脑、笔记本电脑或智能手机等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的图像拼接设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图3中虚线框内的组件；若本实施例的图像拼接设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图3中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现本申请实施例提供的图像拼接方法中的各步骤。

上述图3中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图3中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述图3中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图3中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像拼接方法，其特征在于，包括：

获取目标空间对象的多张实景图像，所述多张实景图像是在所述目标空间对象的采集点位上从多个拍摄角度拍摄得到的；

根据所述多个拍摄角度，确定所述多张实景图像中存在拼接关系的多组实景图像对，并对所述多组实景图像对进行基于特征点对的图像拼接；

在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从所述多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；

针对第一实景图像对，根据所述第一实景图像对中两张实景图像的深度信息，分别对所述两张实景图像进行三维点云重建，得到两个三维点云数据集；

根据所述两个三维点云数据集的初始位姿信息，对所述两个三维点云数据集进行位姿配准，得到所述两个三维点云数据集之间的相对位姿信息；

根据所述两个三维点云数据集之间的相对位姿信息，对所述两个三维点云数据集对应的两张实景图像进行拼接。

2.根据权利要求1所述的方法，其特征在于，还包括：

对每组实景图像对进行特征提取和特征匹配，得到每组实景图像对对应的特征点对；

将特征点对的数量小于设定数量阈值的每组实景图像对，作为特征相似度低于对应阈值的第一实景图像对。

3.根据权利要求2所述的方法，其特征在于，还包括：

在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，则根据每组实景图像对对应的特征点对，确定该组中两张实景图像之间特征点的误差；将该特征点的误差大于或等于设定误差阈值的每组实景图像对作为位姿匹配度小于对应阈值的第一实景图像对。

4.根据权利要求3所述的方法，其特征在于，还包括：

在实景图像对对应的特征点对的数量大于或等于设定数量阈值的情况下，将特征点的误差小于设定误差阈值的每组实景图像对作为位姿匹配度大于或等于对应阈值的第二实景图像对。

5.根据权利要求1所述的方法，其特征在于，针对第一实景图像对，根据所述第一实景图像对中两张实景图像的深度信息，分别对所述两张实景图像进行三维点云重建，得到两个三维点云数据集，包括：

针对第一实景图像对，根据该第一实景图像对中的每张实景图像的投影信息，预测所述每张实景图像的深度信息；

根据所述每张实景图像的深度信息，结合摄像头坐标系与世界坐标系的转换关系，对所述每张实景图像进行三维点云重建，得到每张实景图像对应的三维点云数据集。

6.根据权利要求1所述的方法，其特征在于，根据所述两个三维点云数据集的初始位姿信息，对所述两个三维点云数据集进行位姿配准，得到所述两个三维点云数据集之间的相对位姿信息，包括：

所述两个三维点云数据集能够被映射为两张二维点云图像，每张二维点云图像能够被执行编辑操作；

根据对任一二维点云图像的编辑操作的编辑参数，对所述任一二维点云图像对应的三维点云数据集的初始位姿信息进行修正；

根据所述两个三维点云数据集修正后的位姿信息进行位姿配准，得到所述两个三维点云数据集之间的第一相对位姿信息。

7.根据权利要求6所述的方法，其特征在于，还包括：

获取其它模块提供的所述第一实景图像对中包含的两张实景图像各自的位姿信息；其它模块包括以下至少一种：全球定位系统(GPS)定位模块、无线保真(WIFI)模块或即时定位与地图构建(SLAM)模块；

基于所述两张实景图像各自的位姿信息，确定所述两张实景图像对应的两个三维点云数据集之间的第二相对位姿信息；

根据所述两个三维点云数据集之间的点云误差函数，从所述第一相对位姿信息和所述第二相对位姿信息中选择待配准位姿信息；

根据所述待配准位姿信息，对所述两个三维点云数据集对应的两张实景图像进行拼接。

8.根据权利要求1所述的方法，其特征在于，还包括：

根据所述多个拍摄角度，将图像拼接后的多组实景图像对投影至球面坐标系上，得到所述目标空间对象在该采集点位对应的球面全景图；

根据所述球面坐标系与平面坐标系的转换关系，将所述球面全景图展开为所述目标空间对象在该采集点位对应的平面全景图。

9.一种图像拼接装置，其特征在于，包括：获取模块、确定模块、拼接模块、识别模块、重建模块和配准模块；

所述获取模块，用于获取目标空间对象的多张实景图像，所述多张实景图像是在所述目标空间对象的采集点位上从多个拍摄角度拍摄得到的；

所述确定模块，用于根据所述多个拍摄角度，确定所述多张实景图像中存在拼接关系的多组实景图像对；所述拼接模块，用于对所述多组实景图像对进行基于特征点对的图像拼接；

所述识别模块，用于在进行基于特征点对的图像拼接过程中，根据每组实景图像对之间的特征点对，从所述多组实景图像对中识别出特征相似度或者位姿匹配度小于对应阈值的第一实景图像对；

所述重建模块，用于针对第一实景图像对，根据所述第一实景图像对中两张实景图像的深度信息，分别对所述两张实景图像进行三维点云重建，得到两个三维点云数据集；

所述配准模块，用于根据所述两个三维点云数据集的初始位姿信息，对所述两个三维点云数据集进行位姿配准，得到所述两个三维点云数据集之间的相对位姿信息；

所述拼接模块，还用于根据所述两个三维点云数据集之间的相对位姿信息，对所述两个三维点云数据集对应的两张实景图像进行拼接。

10.一种图像拼接设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，与所述存储器耦合，用于执行所述计算机程序，以实现权利要求1-8任一项所述方法中的步骤。

11.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-8任一项所述方法中的步骤。