CN111612842B

CN111612842B - 生成位姿估计模型的方法和装置

Info

Publication number: CN111612842B
Application number: CN202010476399.6A
Authority: CN
Inventors: 刘程林
Original assignee: You Can See Beijing Technology Co ltd AS
Current assignee: You Can See Beijing Technology Co ltd AS
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-08-18
Anticipated expiration: 2040-05-29
Also published as: CN111612842A

Abstract

本公开实施例公开了一种生成位姿估计模型的方法和装置，其中，该方法包括：获取训练样本集合；对于训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息；将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练得到位姿估计模型。本公开实施例可以使训练得到的位姿估计模型准确地估计出两个拍摄点的相机的相对位姿，并准确地确定两组点云是否可拼接，有助于提高点云拼接的精确性。

Description

生成位姿估计模型的方法和装置

技术领域

本公开涉及计算机技术领域，尤其是一种生成位姿估计模型的方法、装置，相机位姿估计方法、装置，以及计算机可读存储介质及电子设备。

背景技术

房屋的重建是由多个点位的局部点云模型拼接并融合得到整个房屋的三维点云模型的过程。这一过程最重要的就是求取相邻拍摄点位之间相对位姿(包括角度旋转(rotation，R)和位置平移(transform，T)。目前常用的方法仍然是人机交互的方案，即摄影师手动拖动拍摄到的两个点位的点云模块进行拼接得到初始位姿，然后通过IterativeClosest Point(ICP)算法对两块点云位姿进行精调，从而得到最终位姿。这一方案最主要的问题就是依赖人工进行位姿的初始获取。这一过程比较费时，并且人力成本太高。

对该问题进行技术抽象，就是同一相机在不同位置对同一场景进行图像采集，通过两次采集到的图像推断两次采集时相机相对位置变化。简单来说就是通过两幅相关图像估计摄像机相对位姿。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种生成位姿估计模型的方法、装置，相机位姿估计方法、装置，以及计算机可读存储介质及电子设备。

本公开的实施例提供了一种生成位姿估计模型的方法，该方法包括：获取训练样本集合，其中，训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数；对于训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息；将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练初始模型，并将训练后的初始模型确定为位姿估计模型。

在一些实施例中，在获取训练样本集合之前，方法还包括：获取预设的至少两个拍摄点位中的每个拍摄点位对应的全景图；将全景图进行两两组合，得到至少一对全景图；获取预设的至少一对全景图中的每对全景图对应的预设相机位姿参数；将至少一对全景图中的每对全景图和对应的预设相机位姿参数确定为训练样本。

在一些实施例中，确定该训练样本是否满足预设条件包括：获取该训练样本中的两个全景图分别对应的深度图；基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；确定该训练样本对应的两组点云数据的重合度，如果重合度大于或等于预设重合度阈值，以及该训练样本包括的两个全景图分别对应的拍摄点位彼此处于另一全景图对应的拍摄点位的拍摄范围内，确定满足预设条件。

在一些实施例中，确定该训练样本对应的两组点云数据的重合度，包括：对该训练样本对应的两组点云数据进行点云配准，得到相机位姿参数的变化值；基于变化值，得到两组点云数据的重合度。

在一些实施例中，训练初始模型，包括：利用确定两组点云数据是否可拼接的第一损失函数和确定相机位姿参数的第二损失函数，对初始模型进行训练。

根据本公开实施例的另一个方面，提供了一种相机位姿估计方法，该方法包括：获取两个全景图；将两个全景图输入预先训练的位姿估计模型，得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数，其中，位姿估计模型预先根据上述生成位姿估计模型的方法任一实施例训练得到。

在一些实施例中，在得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数之后，方法还包括：响应于确定建议信息表征两个全景图可拼接，获取两个全景图分别对应的深度图；基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；利用相机位姿参数，对所得到两组点云数据进行点云配准，得到配准后相机位姿参数；基于配准后相机位姿参数，对两组点云数据进行拼接，得到三维空间点云模型。

根据本公开实施例的另一个方面，提供了一种生成位姿估计模型的装置，该装置包括：第一获取模块，用于获取训练样本集合，其中，训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数；第一确定模块，用于对于训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息；训练模块，用于将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练初始模型，并将训练后的初始模型确定为位姿估计模型。

在一些实施例中，该装置还包括：第二获取模块，用于获取预设的至少两个拍摄点位中的每个拍摄点位对应的全景图；组合模块，用于将全景图进行两两组合，得到至少一对全景图；第三获取模块，用于获取预设的至少一对全景图中的每对全景图对应的预设相机位姿参数；第二确定模块，用于将至少一对全景图中的每对全景图和对应的预设相机位姿参数确定为训练样本。

在一些实施例中，第一确定模块包括：获取单元，用于获取该训练样本中的两个全景图分别对应的深度图；第一确定单元，用于基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；第二确定单元，用于确定该训练样本对应的两组点云数据的重合度，如果重合度大于或等于预设重合度阈值，以及该训练样本包括的两个全景图分别对应的拍摄点位彼此处于另一全景图对应的拍摄点位的拍摄范围内，确定满足预设条件。

在一些实施例中，第二确定单元包括：配准子单元，用于对该训练样本对应的两组点云数据进行点云配准，得到相机位姿参数的变化值；确定子单元，用于基于变化值，得到两组点云数据的重合度。

在一些实施例中，训练模块进一步用于：利用确定两组点云数据是否可拼接的第一损失函数和确定相机位姿参数的第二损失函数，对初始模型进行训练。

根据本公开实施例的另一个方面，提供了一种相机位姿估计装置，该装置包括：第一获取模块，用于获取两个全景图；第一确定模块，用于将两个全景图输入预先训练的位姿估计模型，得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数，其中，位姿估计模型预先根据上述生成位姿估计模型的方法训练得到。

在一些实施例中，该装置还包括：第二获取模块，用于响应于确定建议信息表征两个全景图可拼接，获取两个全景图分别对应的深度图；第二确定模块，用于基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；配准模块，用于利用相机位姿参数，对所得到两组点云数据进行点云配准，得到配准后相机位姿参数；拼接模块，用于基于配准后相机位姿参数，对两组点云数据进行拼接，得到三维空间点云模型。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述生成位姿估计模型的方法或相机位姿估计方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述生成位姿估计模型的方法或相机位姿估计方法。

基于本公开上述实施例提供的生成位姿估计模型的方法、装置，相机位姿估计方法、装置，以及计算机可读存储介质及电子设备，通过对训练样本集合进行分组，即分为点云可拼接的样本和点云不可拼接的样本，再利用分组后的训练样本集合进行训练，得到位姿估计模型，从而可以使训练得到的位姿估计模型可以准确地估计出两个拍摄点的相机的相对位姿，并准确地确定两组点云是否可拼接，有助于提高点云拼接的精确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的生成位姿估计模型的方法的流程示意图。

图3是本公开的实施例的生成位姿估计模型的方法的生成标注信息的一个示意图。

图4是本公开一示例性实施例提供的相机位姿估计方法的流程示意图。

图5是本公开一示例性实施例提供的生成位姿估计模型的装置的结构示意图。

图6是本公开另一示例性实施例提供的生成位姿估计模型的装置的结构示意图。

图7是本公开一示例性实施例提供的相机位姿估计装置的结构示意图。

图8是本公开另一示例性实施例提供的相机位姿估计装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

为了估计两个相机的相对位姿，目前常见的方案是通过提取特征点，建立描述子，特征匹配，最后求解相对位姿。这一算法需要提取特征点并建立描述子，前段耗时比较多，并且受环境影响较大，比如室内空间中大量重复纹理带来不稳定匹配。

示例性系统

图1示出了可以应用本公开的实施例的生成位姿估计模型的方法或生成位姿估计模型的装置，以及相机位姿估计方法或相机位姿估计装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如三维模型类应用、房屋服务类应用等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如利用终端设备101上传的训练样本进行模型训练，或利用终端设备101上传的全景图进行相机位姿估计的后台服务器。后台服务器可以进行模型训练，得到位姿估计模型，或利用位姿估计模型进行位姿估计。

需要说明的是，本公开的实施例所提供的生成位姿估计模型的方法或相机位姿估计方法可以由服务器103执行，也可以由终端设备101执行，相应地，生成位姿估计模型的装置或相机位姿估计装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在训练样本或进行位姿估计的全景图不需要从远程获取的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的生成位姿估计模型的方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取训练样本集合。

在本实施例中，电子设备可以从远程或从本地获取训练样本集合。其中，训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数。上述两个全景图为位于两个拍摄点的相机拍摄得到的全景图。该相机可以为各种类型的相机，例如可以为深度相机，可以拍摄得到彩色图像，也可以拍摄得到深度图像。上述预设相机位姿参数可以是技术人员预先设置的。预设相机位姿参数表征的两个相机的相对位姿为实际的真实相对位姿，可以用来在训练模型时作为估计相机位姿参数的基准。通常，相机位姿参数可以包括角度旋转(rotation，R)和位置平移(transform，T)，用于表征两个相机的拍摄方向的角度差和两个相机之间的距离。

步骤202，对于训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息。

在本实施例中，对于训练样本集合中的每个训练样本，电子设备可以确定该训练样本是否满足预设条件。其中，预设条件可以是预先设置的、表征上述两个拍摄点分别对应的点云数据是否可拼接的条件。作为示例，预设条件可以是：拍摄训练样本包括的两个全景图的两个拍摄点之间的距离处于预设的距离范围内。当满足预设条件时，表示两个拍摄点的距离较近，在这两个拍摄点得到的点云数据的重合度较大，这两组点云数据可以拼接得到一个三维点云模型。

如果满足上述预设条件，电子设备可以生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足上述预设条件，电子设备可以生成表征该训练样本对应的点云数据不可拼接的标注信息。标注信息可以为各种形式，作为示例，数字“1”可以为表征点云数据可拼接的标注信息，数字“0”可以为表征点云数据不可拼接的标注信息。

步骤203，将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练初始模型，并将训练后的初始模型确定为位姿估计模型。

在本实施例中，电子设备可以将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练初始模型，并将训练后的初始模型确定为位姿估计模型。训练得到的位姿估计模型可以根据两个全景图进行位姿估计，生成表征两个拍摄点之间的位姿关系的相机位姿参数和表征两个从这两个拍摄点得到的点云数据是否可拼接的建议信息。

上述电子设备可以利用机器学习方法，将步骤201获取到的训练样本集合中的训练样本包括的两个全景图作为输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为期望输出，对初始模型(例如包括卷积神经网络、分类器等)进行训练，针对每次训练输入的两个全景图，可以得到实际输出。模型对输入的两个全景图进行特征提取，得到两个全景图分别对应的特征图(feature map)，再对特征图进行逐点匹配，根据匹配点计算相机位姿参数和表征两组点云是否可拼接的概率。

电子设备可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始模型的参数，将每次调整参数后得到的模型作为下次训练的初始模型，并在满足预设的训练结束条件的情况下，结束训练，从而训练得到语音识别模型。需要说明的是，这里预设的训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长；训练次数超过预设次数；利用预设的损失函数(例如包括交叉熵损失函数、L1损失函数等)计算所得的损失值小于预设损失值阈值。

在一些可选的实现方式中，在训练时，可以利用确定两组点云数据是否可拼接的第一损失函数和确定相机位姿参数的第二损失函数，对初始模型进行训练。其中，第一损失函数可以为用于分类的损失函数，例如，交叉熵损失函数等。第二损失函数可以为回归损失函数(例如L1损失函数，L2损失函数等)。作为示例，可以采用如下损失函数进行训练：

Loss＝w1×Lc+w2×L1(R)+w3×L1(T)

其中，w1，w2，w3为待训练的超参数，Lc为用于确定是否可拼接的交叉熵损失函数，L1(R)为用于确定角度旋转参数R的损失函数，L1(T)为用于确定位置平移参数T的损失函数。模型的训练过程是一个最优解求解过程，其中，最优解通过数据标注的方式给出，即上述标注信息和预设相机位姿参数。模型向最优解拟合的过程主要是通过误差最小化(通过上述Loss体现)的办法迭代进行。Loss函数可以计算模型的输出与期望之间的差值，并通过反向传播算法将该差值传导到神经网络中的每一个神经元之间的连接上，传导到每一个连接上的差值信号代表该连接对于整体误差的贡献率。然后利用梯度下降算法对神经网络中的原有权重进行更新修改。

本实现方式通过设置第一损失函数和第二损失函数，可以在训练神经网络时，有针对性地对网络中用于确定是否可拼接的权重参数和用于确定相机位姿参数的权重参数进行优化，提高模型训练的准确性。

在一些可选的实现方式中，在步骤201之前，还可以包括如下步骤：

步骤一，获取预设的至少两个拍摄点位中的每个拍摄点位对应的全景图。通常，上述各个拍摄点可以位于一个或多个房间内，全景图即为房间全景图。其中，拍摄全景图的方法是目前的公知技术，这里不再赘述。

步骤二，将全景图进行两两组合，得到至少一对全景图。例如，全景图包括A、B、C三个，则可以得到三对全景图，包括AB、AC、BC。

步骤三，获取预设的至少一对全景图中的每对全景图对应的预设相机位姿参数。其中，预设相机位姿参数可以是技术人员预先设置的。

步骤四，将至少一对全景图中的每对全景图和对应的预设相机位姿参数确定为训练样本。

本实现方式通过在预设的拍摄点位拍摄全景图并两两组合得到训练样本，可以便于对训练样本进行调整以及标注，提高模型训练的效率。

在一些可选的实现方式中，步骤202中，对于训练样本集合中的每个训练样本，电子设备可以按照如下步骤确定该训练样本是否满足预设条件：

首先，获取该训练样本中的两个全景图分别对应的深度图。其中，深度图可以是在拍摄两个全景图的拍摄点，利用深度相机拍摄得到的。深度图中的每个像素对应于被拍摄的点与深度相机的距离。需要说明的是，拍摄全景图的相机和深度相机可以为同一设备，也可以为设置在同一拍摄点的不同设备。

然后，基于每个深度图对应的相机参数，确定每个深度图对应的点云数据。通常，根据深度图得到点云数据的过程，类似相机成像过程。相机参数包括焦距、主点位置、图像尺寸等。通过针孔成像过程的原理，得到深度图中的各个像素对应的空间位置(即三维坐标系中的x，y，z坐标)。需要说明的是，利用深度图确定点云数据是目前广泛使用的公知技术，这里不再赘述。

最后，确定该训练样本对应的两组点云数据的重合度，如果重合度大于或等于预设重合度阈值，以及该训练样本包括的两个全景图分别对应的拍摄点位彼此处于另一全景图对应的拍摄点位的拍摄范围内(即两相机彼此可见)，确定满足预设条件。当满足上述预设条件时，表示两个拍摄点的距离较近，且两个相机的位姿接近，可以对两组点云数据进行拼接。通常，如果两个拍摄点位相距很远，即使彼此可见，他们之间的图像重合信息很少，并且存在较大畸变可能性，二者的点云数据也可能完全不重合(例如两相机距离大于深度相机点云采集范围的极限时，点云不重合)。此时，两组点云数据不可拼接。

上述重合度可以按照各种方式确定，例如，可以根据两组点云数据中的每个点的坐标进行统计，确定离群点的数量，将除离群点的数量以外的点的数量占所有点的数量的比例作为重合度。

本实现方式，通过设置预设条件，可以准确地确定两个全景图对应的点云数据是否可拼接，提高训练样本标注的准确性，有助于提高模型训练的准确性。

在一些可选的实现方式中，对于训练样本集合中的每个训练样本，电子设备可以按照如下步骤确定该训练样本对应的两组点云数据的重合度：

首先，对该训练样本对应的两组点云数据进行点云配准，得到相机位姿参数的变化值。其中，点云配准是通过将两组点云数据经过旋转、平移，使其逐渐接近的过程。点云配准完成后，可以得到相机位姿参数(包括R、T)的变化值。

可选的，进行点云配准的算法可以包括但不限于以下至少一种：ICP(IterativeClosest Point，最近点迭代)算法、NDT(正态分布变换，Normal DistributionsTransform)等。作为示例，ICP算法可以对两组点云数据进行匹配。匹配之前的相机位姿参数以R、T表示，经过计算后，可以得到更精确的位姿R’、T’。

ICP算法的作用类似于两个点云的吸附过程，如果两个点云初始位姿下重合度较高，那么它们再经过ICP之后，位姿不会发生较大变化，那么R、T和R’、T’非常接近甚至相等。如果两个点云初始位姿重合度非常低，那么经过ICP之后，它们的位姿会发生较大变化，甚至是随机变化，那么R、T和R’、T’在ICP操作前后差异会很大。

然后，基于变化值，得到两组点云数据的重合度。具体地，当变化值越大，表示两组点云数据的重合度越低，当变化值越小，表示两组点云数据的重合度越高。电子设备可以根据变化值，得到可量化的重合度值，例如，变化值的倒数可以作为重合度值。

参见图3，图3是根据本公开的实施例的生成位姿估计模型的方法的生成标注信息的一个示意图。如图3所示，训练样本集合301包括多对全景图，每对全景图对应于预设相机位姿参数RT，电子设备可以确定出每对全景图对应的两组点云数据302，利用ICP算法进行点云配准，可以确定每两组点云数据对应的RT的变化是否过大，如果过大，则生成表征点云数据不可拼接的标注信息(例如数字0)，否则，生成表征点云数据可拼接的标注信息(例如数字1)。

本公开的上述实施例提供的方法，通过对训练样本集合进行分组，即分为点云可拼接的样本和点云不可拼接的样本，再利用分组后的训练样本集合进行训练，得到位姿估计模型，从而可以使训练得到的位姿估计模型可以准确地估计出两个拍摄点的相机的相对位姿，并准确地确定两组点云是否可拼接，有助于提高点云拼接的精确性。

进一步参考图4，示出了相机位姿估计方法的一个实施例的流程示意图。如图4所示，相机位姿估计方法可以包括如下步骤：

步骤401，获取两个全景图。

在本实施例中，电子设备可以从远程或从本地获取两个全景图。其中，两个全景图可以为设置在不同的两个拍摄点位的相机拍摄的全景图。全景图可以为各种格式，且全景图可以为彩色或黑白等各种类型。

步骤402，将两个全景图输入预先训练的位姿估计模型，得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数。

在本实施例中，电子设备可以将两个全景图输入预先训练的位姿估计模型，得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数。其中，位姿估计模型预先根据上述图2对应实施例描述的方法训练得到。

其中，建议信息可以为各种形式，例如，包括但不限于以下至少一种：数字、符号、文字等。当建议信息表征全景图可拼接时，表示两个全景图分别对应的点云数据可以进行拼接，以得到一个三维点云模型。

在一些可选的实现方式中，在上述步骤402之后，电子设备还可以执行如下步骤：

首先，响应于确定建议信息表征两个全景图可拼接，获取两个全景图分别对应的深度图。其中，深度图可以是在拍摄两个全景图的拍摄点，利用深度相机拍摄得到的。深度图中的每个像素的颜色值用于表征被拍摄的点与深度相机的距离。需要说明的是，拍摄全景图的相机和深度相机可以为同一设备，也可以为设置在同一拍摄点的不同设备。

然后，基于每个深度图对应的相机参数，确定每个深度图对应的点云数据。其中，本步骤与上述图2对应实施例中的可选实施例描述的确定深度图对应的点云数据的方法相同，这里不再赘述。

再然后，利用相机位姿参数，对所得到两组点云数据进行点云配准，得到配准后相机位姿参数。其中，进行点云配准的算法可以包括但不限于以下至少一种：ICP(IterativeClosest Point，最近点迭代)算法、NDT(正态分布变换，Normal DistributionsTransform)等。作为示例，ICP算法可以对两组点云数据进行匹配。匹配之前的相机位姿参数以R、T表示，经过计算后，可以得到更精确的位姿R’、T’。

最后，基于配准后相机位姿参数，对两组点云数据进行拼接，得到三维空间点云模型。其中，利用相机位姿参数进行点云拼接的方法是目前广泛使用的公知技术，这里不再赘述。本实现方式通过生成两个全景图分别对应的点云数据，对点云数据进行点云配准，得到更精确的相机位姿参数，从而可以利用模型估计出较准确的相机位姿参数的基础上，进一步得到更精确的相机位姿参数，同时提高点云拼接的精确性。

本公开的上述实施例提供的相机位姿估计方法，通过使用预先训练好的位姿估计模型，可以提高确定输入的两个全景图对应的点云数据是否可拼接的准确性，以及提高估计相机位姿参数的准确性。

示例性装置

图5是本公开一示例性实施例提供的生成位姿估计模型的装置的结构示意图。本实施例可应用在电子设备上，如图5所示，生成位姿估计模型的装置包括：第一获取模块501，用于获取训练样本集合，其中，训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数；第一确定模块502，用于对于训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息；训练模块503，用于将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练初始模型，并将训练后的初始模型确定为位姿估计模型。

在本实施例中，第一获取模块501可以从远程或从本地获取训练样本集合。其中，训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数。上述两个全景图为位于两个拍摄点的相机拍摄得到的全景图。该相机可以为各种类型的相机，例如可以为深度相机，可以拍摄得到彩色图像，也可以拍摄得到深度图像。上述预设相机位姿参数可以是技术人员预先设置的。预设相机位姿参数表征的两个相机的相对位姿为实际的真实相对位姿，可以用来在训练模型时作为估计相机位姿参数的基准。通常，相机位姿参数可以包括角度旋转(rotation，R)和位置平移(transform，T)，用于表征两个相机的拍摄方向的角度差和两个相机之间的距离。

在本实施例中，对于训练样本集合中的每个训练样本，第一确定模块502可以确定该训练样本是否满足预设条件。其中，预设条件可以是预先设置的、表征上述两个拍摄点分别对应的点云数据是否可拼接的条件。作为示例，预设条件可以是：拍摄训练样本包括的两个全景图的两个拍摄点之间的距离处于预设的距离范围内。当满足预设条件时，表示两个拍摄点的距离较近，在这两个拍摄点得到的点云数据的重合度较大，这两组点云数据可以拼接得到一个三维点云模型。

如果满足上述预设条件，第一确定模块502可以生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足上述预设条件，第一确定模块502可以生成表征该训练样本对应的点云数据不可拼接的标注信息。标注信息可以为各种形式，作为示例，数字“1”可以为表征点云数据可拼接的标注信息，数字“0”可以为表征点云数据不可拼接的标注信息。

在本实施例中，训练模块503可以将训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为初始模型的期望输出，训练初始模型，并将训练后的初始模型确定为位姿估计模型。训练得到的位姿估计模型可以根据两个全景图进行位姿估计，生成表征两个拍摄点之间的位姿关系的相机位姿参数和表征两个从这两个拍摄点得到的点云数据是否可拼接的建议信息。

上述训练模块503可以利用机器学习方法，将第一获取模块501获取到的训练样本集合中的训练样本包括的两个全景图作为输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为期望输出，对初始模型(例如包括卷积神经网络、分类器等)进行训练，针对每次训练输入的两个全景图，可以得到实际输出。模型对输入的两个全景图进行特征提取，得到两个全景图分别对应的特征图(feature map)，再对特征图进行逐点匹配，根据匹配点计算相机位姿参数和表征两组点云是否可拼接的概率。

训练模块503可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始模型的参数，将每次调整参数后得到的模型作为下次训练的初始模型，并在满足预设的训练结束条件的情况下，结束训练，从而训练得到语音识别模型。需要说明的是，这里预设的训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长；训练次数超过预设次数；利用预设的损失函数(例如包括交叉熵损失函数、L1损失函数等)计算所得的损失值小于预设损失值阈值。

参照图6，图6是本公开另一示例性实施例提供的生成位姿估计模型的装置的结构示意图。

在一些可选的实现方式中，该装置还可以包括：第二获取模块504，用于获取预设的至少两个拍摄点位中的每个拍摄点位对应的全景图；组合模块505，用于将全景图进行两两组合，得到至少一对全景图；第三获取模块506，用于获取预设的至少一对全景图中的每对全景图对应的预设相机位姿参数；第二确定模块507，用于将至少一对全景图中的每对全景图和对应的预设相机位姿参数确定为训练样本。

在一些可选的实现方式中，第一确定模块502可以包括：获取单元5021，用于获取该训练样本中的两个全景图分别对应的深度图；第一确定单元5022，用于基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；第二确定单元5023，用于确定该训练样本对应的两组点云数据的重合度，如果重合度大于或等于预设重合度阈值，以及该训练样本包括的两个全景图分别对应的拍摄点位彼此处于另一全景图对应的拍摄点位的拍摄范围内，确定满足预设条件。

在一些可选的实现方式中，第二确定单元5023可以包括：配准子单元50231，用于对该训练样本对应的两组点云数据进行点云配准，得到相机位姿参数的变化值；确定子单元50232，用于基于变化值，得到两组点云数据的重合度。

在一些可选的实现方式中，上述训练模块503可以进一步用于：利用确定两组点云数据是否可拼接的第一损失函数和确定相机位姿参数的第二损失函数，对初始模型进行训练。

本公开上述实施例提供的生成位姿估计模型的装置，通过对训练样本集合进行分组，即分为点云可拼接的样本和点云不可拼接的样本，再利用分组后的训练样本集合进行训练，得到位姿估计模型，从而可以使训练得到的位姿估计模型可以准确地估计出两个拍摄点的相机的相对位姿，并准确地确定两组点云是否可拼接，有助于提高点云拼接的精确性。

图7是本公开一示例性实施例提供的相机位姿估计装置的结构示意图。本实施例可应用在电子设备上，如图7所示，相机位姿估计装置包括：第一获取模块701，用于获取两个全景图；第一确定模块702，用于将两个全景图输入预先训练的位姿估计模型，得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数，其中，位姿估计模型预先根据上述生成位姿估计模型的方法训练得到。

在本实施例中，第一获取模块701可以从远程或从本地获取两个全景图。其中，两个全景图可以为设置在不同的两个拍摄点位的相机拍摄的全景图。全景图可以为各种格式，且全景图可以为彩色或黑白等各种类型。

在本实施例中，第一确定模块702可以将两个全景图输入预先训练的位姿估计模型，得到表征两个全景图是否可拼接的建议信息和表征两个全景图分别对应的相机之间的位姿关系的相机位姿参数。其中，位姿估计模型预先根据上述图2对应实施例描述的方法训练得到。

参照图8，图8是本公开另一示例性实施例提供的相机位姿估计装置的结构示意图。

在一些可选的实现方式中，该装置还可以包括：第二获取模块703，用于响应于确定建议信息表征两个全景图可拼接，获取两个全景图分别对应的深度图；第二确定模块704，用于基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；配准模块705，用于利用相机位姿参数，对所得到两组点云数据进行点云配准，得到配准后相机位姿参数；拼接模块706，用于基于配准后相机位姿参数，对两组点云数据进行拼接，得到三维空间点云模型。

本公开上述实施例提供的相机位姿估计装置，通过使用预先训练好的位姿估计模型，可以提高确定输入的两个全景图对应的点云数据是否可拼接的准确性，以及提高估计相机位姿参数的准确性。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备900包括一个或多个处理器901和存储器902。

处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备900中的其他组件以执行期望的功能。

存储器902可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器901可以运行程序指令，以实现上文的本公开的各个实施例的生成位姿估计模型的方法或相机位姿估计方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如全景图、深度图等各种内容。

在一个示例中，电子设备900还可以包括：输入装置903和输出装置904，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置903可以是相机、鼠标、键盘等设备，用于输入图像等信息。在该电子设备是单机设备时，该输入装置903可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的图像等信息。

该输出装置904可以向外部输出各种信息，包括相机位姿参数等。该输出设备904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备900中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备900还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的生成位姿估计模型的方法或相机位姿估计方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的生成位姿估计模型的方法或相机位姿估计方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种生成位姿估计模型的方法，包括：

获取训练样本集合，其中，所述训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数；

对于所述训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息；

将所述训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为所述初始模型的期望输出，训练所述初始模型，并将训练后的初始模型确定为位姿估计模型；

在所述获取训练样本集合之前，所述方法还包括：

获取预设的至少两个拍摄点位中的每个拍摄点位对应的全景图；

将所述全景图进行两两组合，得到至少一对全景图；

获取预设的所述至少一对全景图中的每对全景图对应的预设相机位姿参数；

将所述至少一对全景图中的每对全景图和对应的预设相机位姿参数确定为训练样本。

2.根据权利要求1所述的方法，其中，所述确定该训练样本是否满足预设条件包括：

获取该训练样本中的两个全景图分别对应的深度图；

基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；

确定该训练样本对应的两组点云数据的重合度，如果所述重合度大于或等于预设重合度阈值，以及该训练样本包括的两个全景图分别对应的拍摄点位彼此处于另一全景图对应的拍摄点位的拍摄范围内，确定满足所述预设条件。

3.根据权利要求2所述的方法，其中，所述确定该训练样本对应的两组点云数据的重合度，包括：

对该训练样本对应的两组点云数据进行点云配准，得到相机位姿参数的变化值；

基于所述变化值，得到两组点云数据的重合度。

4.根据权利要求1-3之一所述的方法，其中，所述训练所述初始模型，包括：

利用确定两组点云数据是否可拼接的第一损失函数和确定相机位姿参数的第二损失函数，对所述初始模型进行训练。

5.一种相机位姿估计方法，包括：

获取在不同点位拍摄的两个全景图；

将所述两个全景图输入预先训练的位姿估计模型，得到表征所述两个全景图是否可拼接的建议信息和表征所述两个全景图分别对应的相机之间的位姿关系的相机位姿参数，其中，所述位姿估计模型预先根据权利要求1-4之一所述的方法训练得到。

6.根据权利要求5所述的方法，其中，在所述得到表征所述两个全景图是否可拼接的建议信息和表征所述两个全景图分别对应的相机之间的位姿关系的相机位姿参数之后，所述方法还包括：

响应于确定所述建议信息表征所述两个全景图可拼接，获取所述两个全景图分别对应的深度图；

利用所述相机位姿参数，对所得到两组点云数据进行点云配准，得到配准后相机位姿参数；

基于所述配准后相机位姿参数，对所述两组点云数据进行拼接，得到三维空间点云模型。

7.一种生成位姿估计模型的装置，包括：

第一获取模块，用于获取训练样本集合，其中，所述训练样本集合中的每个训练样本包括两个全景图和对应的预设相机位姿参数；

第一确定模块，用于对于所述训练样本集合中的每个训练样本，确定该训练样本是否满足预设条件，如果满足，生成表征该训练样本对应的点云数据可拼接的标注信息，如果不满足，生成表征该训练样本对应的点云数据不可拼接的标注信息；

训练模块，用于将所述训练样本集合中的训练样本包括的两个全景图作为初始模型的输入，将与输入的两个全景图对应的预设相机位姿参数和标注信息作为所述初始模型的期望输出，训练所述初始模型，并将训练后的初始模型确定为位姿估计模型；

所述装置还包括：

第二获取模块，用于获取预设的至少两个拍摄点位中的每个拍摄点位对应的全景图；

组合模块，用于将所述全景图进行两两组合，得到至少一对全景图；

第三获取模块，用于获取预设的所述至少一对全景图中的每对全景图对应的预设相机位姿参数；

第二确定模块，用于将所述至少一对全景图中的每对全景图和对应的预设相机位姿参数确定为训练样本。

8.根据权利要求7所述的装置，其中，所述第一确定模块包括：

获取单元，用于获取该训练样本中的两个全景图分别对应的深度图；

第一确定单元，用于基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；

第二确定单元，用于确定该训练样本对应的两组点云数据的重合度，如果所述重合度大于或等于预设重合度阈值，以及该训练样本包括的两个全景图分别对应的拍摄点位彼此处于另一全景图对应的拍摄点位的拍摄范围内，确定满足所述预设条件。

9.根据权利要求8所述的装置，其中，所述第二确定单元包括：

配准子单元，用于对该训练样本对应的两组点云数据进行点云配准，得到相机位姿参数的变化值；

确定子单元，用于基于所述变化值，得到两组点云数据的重合度。

10.根据权利要求7-9之一所述的装置，其中，所述训练模块进一步用于：

11.一种相机位姿估计装置，包括：

第一获取模块，用于获取两个全景图；

第一确定模块，用于将所述两个全景图输入预先训练的位姿估计模型，得到表征所述两个全景图是否可拼接的建议信息和表征所述两个全景图分别对应的相机之间的位姿关系的相机位姿参数，其中，所述位姿估计模型预先根据权利要求1-4之一所述的方法训练得到。

12.根据权利要求11所述的装置，其中，所述装置还包括：

第二获取模块，用于响应于确定所述建议信息表征所述两个全景图可拼接，获取所述两个全景图分别对应的深度图；

第二确定模块，用于基于每个深度图对应的相机参数，确定每个深度图对应的点云数据；

配准模块，用于利用所述相机位姿参数，对所得到两组点云数据进行点云配准，得到配准后相机位姿参数；

拼接模块，用于基于所述配准后相机位姿参数，对所述两组点云数据进行拼接，得到三维空间点云模型。

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

14.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的方法。