CN113706543A

CN113706543A - 一种三维位姿的构建方法、设备及存储介质

Info

Publication number: CN113706543A
Application number: CN202110950899.3A
Authority: CN
Inventors: 蔡东阳; 王再冉; 郭小燕
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-26

Abstract

本公开关于一种三维位姿的构建方法、设备及存储介质，涉及图像处理领域。本公开实施例至少解决相关技术中，预测建筑的三维位姿的效果鲁棒性较差的问题。该方法包括：获取待构建图像的图像数据，待构建图像包括待构建建筑；将待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据；目标分割数据包括至少一个平面上的像素点的二维坐标，至少一个平面为在待构建图像上待构建建筑的平面，目标法向数据包括待构建图像上的像素点对应的法向量；基于目标分割数据以及目标法向数据，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到待构建建筑的三维位姿。

Description

一种三维位姿的构建方法、设备及存储介质

技术领域

本公开涉及计算机领域，尤其涉及一种三维位姿的构建方法、设备以及存储介质。

背景技术

随着科技的不断发展和互联网的普及，在一些虚拟现实场景任务中，可以构建二维图像中建筑的三维位姿。具体的，电子设备在获取包括建筑的二维图像之后，获取建筑在二维图像上的角点的二维坐标，进而根据训练好的热图(heatmap)模型，以及二维图像在三维坐标系中的投影关系，预测二维图像中每个角点坐标在三维坐标系中对应的三维坐标，这样，即可以确定建筑的三维位姿。

但是，在上述构建三维位姿的过程中，由于仅通过二维图像上可以识别到的角点对建筑进行三维位姿的预测，很大程度上只能够反映建筑在三维坐标系中的轮廓，这就导致建筑的三维位姿的预测效果不连续，鲁棒性较差。

发明内容

本公开提供一种三维位姿的构建方法、设备及存储介质，以至少解决相关技术中，预测建筑的三维位姿的效果鲁棒性较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种三维位姿的构建方法，包括：获取待构建图像的图像数据，待构建图像包括待构建建筑；将待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据；目标分割数据包括至少一个平面上的像素点的二维坐标，至少一个平面为在待构建图像上待构建建筑的平面，目标法向数据包括待构建图像上的像素点对应的法向量；基于目标分割数据以及目标法向数据，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到待构建建筑的三维位姿。

可选的，上述三维位姿的构建方法，还包括：将获取到的训练样本输入初始分割模型，以训练得到分割模型；训练样本包括多个样本图像的图像数据，以及每个样本图像的样本分割数据和样本法向数据；样本分割数据用于标识每个样本图像所包括的建筑的平面上的样本像素点，样本法向数据用于标识样本像素点在对应平面上的法向量。

可选的，上述三维位姿的构建方法，还包括：获取每个样本图像中建筑的角点在每个样本图像上对应的二维坐标；基于每个样本图像中建筑的角点对应的二维坐标以及预设的投影关系，确定每个样本图像中建筑的角点在三维坐标系中对应的三维坐标；投影关系包括每个样本图像所在的二维坐标系与三维坐标系之间的投影关系；基于每个样本图像中建筑的角点在三维坐标系中对应的三维坐标，确定每个样本图像中建筑的平面法向量，并基于确定到每个样本图像中建筑的平面法向量，确定每个样本图像对应的样本法向数据；每个样本图像中建筑的平面法向量为每个样本图像中的建筑在每个样本图像上的至少一个平面的法向量。

可选的，上述“将获取到的训练样本输入初始分割模型，以训练得到分割模型”，包括：将每个样本图像的图像数据输入初始分割模型中，以分别确定每个样本图像的分割损失以及法向损失；分割损失用于反映每个样本图像的预测分割数据与每个样本图像的样本分割数据之间的误差，法向损失用于反映每个样本图像的预测法向数据与每个样本图像的样本法向数据之间的误差；基于确定到的分割损失及法向损失，更新得到初始分割模型，以训练得到分割模型。

可选的，上述三维位姿的构建方法，还包括：分割损失包括至少一个中间分割损失之和；至少一个中间分割损失为初始分割模型的中间层输出的中间分割数据与每个样本图像的样本分割数据之间的误差；或者，分割损失包括输出分割损失；输出分割损失为初始分割模型输出的预测分割数据与每个样本图像的样本分割数据之间的误差；或者，分割损失包括至少一个中间分割损失与输出分割损失之和。

可选的，上述三维位姿的构建方法，还包括：法向损失包括至少一个中间法向损失之和；至少一个中间法向损失为初始分割模型的中间层输出的中间法向数据与每个样本图像的样本法向数据之间的误差；或者，法向损失包括输出法向损失；输出法向损失为初始法向模型输出的预测法向数据与每个样本图像的样本法向数据之间的误差；或者，法向损失包括至少一个中间法向损失与输出法向损失之和。

可选的，上述三维位姿的构建方法，还包括：目标分割数据为将分割模型输出的分割数据进行平滑处理后得到的，目标法向数据为将分割模型输出的法向数据进行平滑处理后得到的。

可选的，上述“基于目标分割数据以及目标法向数据，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到待构建建筑的三维位姿”，包括：基于预设的采样算法，从目标法向数据中确定目标法向量；目标法向量包括待构建建筑在待构建图像上的像素点对应的法向量；基于目标分割数据以及目标法向量，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标。

根据本公开实施例的第二方面，提供一种电子设备，包括获取单元、预测单元以及确定单元；获取单元，用于获取待构建图像的图像数据，待构建图像包括待构建建筑；预测单元，用于将获取单元获取到的待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据；目标分割数据包括至少一个平面上的像素点的二维坐标，至少一个平面为在待构建图像上待构建建筑的平面，目标法向数据包括待构建图像上的像素点对应的法向量；确定单元，用于基于目标分割数据以及目标法向数据，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到待构建建筑的三维位姿。

可选的，上述电子设备还包括训练单元；训练单元，用于将获取到的训练样本输入初始分割模型，以训练得到分割模型；训练样本包括多个样本图像的图像数据，以及每个样本图像的样本分割数据和样本法向数据；样本分割数据用于标识每个样本图像所包括的建筑的平面上的样本像素点，样本法向数据用于标识样本像素点在对应平面上的法向量。

可选的，上述获取单元具体还用于：获取每个样本图像中建筑的角点在每个样本图像上对应的二维坐标；基于每个样本图像中建筑的角点对应的二维坐标以及预设的投影关系，确定每个样本图像中建筑的角点在三维坐标系中对应的三维坐标；投影关系包括每个样本图像所在的二维坐标系与三维坐标系之间的投影关系；基于每个样本图像中建筑的角点在三维坐标系中对应的三维坐标，确定每个样本图像中建筑的平面法向量，并基于确定到每个样本图像中建筑的平面法向量，确定每个样本图像对应的样本法向数据；每个样本图像中建筑的平面法向量为每个样本图像中的建筑在每个样本图像上的至少一个平面的法向量。

可选的，上述训练单元，具体用于：将每个样本图像的图像数据输入初始分割模型中，以分别确定每个样本图像的分割损失以及法向损失；分割损失用于反映每个样本图像的预测分割数据与每个样本图像的样本分割数据之间的误差，法向损失用于反映每个样本图像的预测法向数据与每个样本图像的样本法向数据之间的误差；基于确定到的分割损失及法向损失，更新得到初始分割模型，以训练得到分割模型。

可选的，上述电子设备中，分割损失包括至少一个中间分割损失之和；至少一个中间分割损失为初始分割模型的中间层输出的中间分割数据与每个样本图像的样本分割数据之间的误差；或者，分割损失包括输出分割损失；输出分割损失为初始分割模型输出的预测分割数据与每个样本图像的样本分割数据之间的误差；或者，分割损失包括至少一个中间分割损失与输出分割损失之和。

可选的，上述电子设备中，法向损失包括至少一个中间法向损失之和；至少一个中间法向损失为初始分割模型的中间层输出的中间法向数据与每个样本图像的样本法向数据之间的误差；或者，法向损失包括输出法向损失；输出法向损失为初始法向模型输出的预测法向数据与每个样本图像的样本法向数据之间的误差；或者，法向损失包括至少一个中间法向损失与输出法向损失之和。

可选的，上述电子设备中，目标分割数据为将分割模型输出的分割数据进行平滑处理后得到的，目标法向数据为将分割模型输出的法向数据进行平滑处理后得到的。

可选的，上述确定单元，具体用于：基于预设的采样算法，从目标法向数据中确定目标法向量；目标法向量包括待构建建筑在待构建图像上的像素点对应的法向量；基于目标分割数据以及目标法向量，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器、用于存储处理器可执行的指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所提供的三维位姿的构建方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括指令，当指令由处理器执行时，使得处理器执行如第一方面提供的三维位姿的构建方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括指令，当指令由处理器执行时，使得处理器执行如第一方面提供的三维位姿的构建方法。

本公开提供的技术方案至少带来以下有益效果：通过预先训练好的分割模型，能够对二维的待构建图像的图像数据进行处理，以得到待构建图像中的待构建建筑的每个平面的像素点的二维坐标，以及每个像素点对应的法向量，即可以进一步的确定待构建建筑在待构建图像上每个像素点在三维坐标系中对应的三维坐标，这样一来，基于待构建建筑在待构建上的像素点确定得到的三维位姿粒度小，具有较好的连续性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多三维位姿构建系统的结构示意图；

图2是根据一示例性实施例示出的一种三维位姿的构建方法的流程示意图之一；

图3是根据一示例性实施例示出的一种待构建图像的示意图；

图4是根据一示例性实施例示出的一种分割模型的结构示意图；

图5是根据一示例性实施例示出的一种三维位姿的构建方法的流程示意图之二；

图6是根据一示例性实施例示出的一种三维位姿的构建方法的流程示意图之三；

图7是根据一示例性实施例示出的一种三维位姿的构建方法的流程示意图之四；

图8是根据一示例性实施例示出的一种三维位姿的构建方法的流程示意图之五；

图9是根据一示例性实施例示出的一种电子设备的结构示意图之一；

图10是根据一示例性实施例示出的一种电子设备的结构示意图之二。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

本公开实施例提供的三维位姿的构建方法可以适用于三维位姿构建系统。图1示出了该三维位姿构建系统的一种结构示意图。如图1所示，三维位姿构建系统10用于识别二维图像中的建筑，并构建建筑的三维位姿。三维位姿构建系统10包括电子设备11以及拍摄装置12。电子设备11与拍摄装置12连接。电子设备11与拍摄装置12之间可以采用有线方式连接，也可以采用无线方式连接，本公开实施例对此不作限定。

电子设备11可以用于接收拍摄装置12采集并发送的二维图像，例如，电子设备11可以用于接收拍摄装置12采集到的包括建筑的二维图像，并识别二维图像中的建筑，并进一步的确定建筑上每个像素点在三维坐标中对应的三维坐标，以确定该建筑的三维位姿。

拍摄装置12可以用于采集并拍摄生成二维图像。例如，拍摄装置12可以为单目相机。

在本公开实施例涉及的第一种场景下，上述三维位姿构建系统10中的拍摄装置12可以为具有拍摄功能以及发送功能的设备，在这种情况下，电子设备11可以是一台用于构建建筑的三维位姿的服务器，也可以是由多台服务器组成的服务器集群，还可以是一个云计算服务中心。

在本公开实施例涉及的第二种场景下，上述三维位姿构建系统10中的拍摄装置12可以为执行拍摄、采集二维图像的装置或者元件，电子设备11可以为用户的个人终端，例如手机、平板电脑、掌上电脑、个人计算机(Personal Computer，PC)、可穿戴设备、智能电视等。

需要说明的，在上述第二种场景下，电子设备11和拍摄装置12可以为相互独立的设备，也可以集成于同一设备中，本公开对此不作具体限定。

当电子设备11和拍摄装置12集成于同一设备时，电子设备11和拍摄装置12之间的通信方式为该设备内部模块之间的通信。这种情况下，二者之间的通信流程与“电子设备11和拍摄装置12之间相互独立的情况下，二者之间的通信流程”相同。

在本公开提供的以下实施例中，本公开以电子设备11和拍摄装置12相互独立设置为例进行说明。

下面结合附图，对本公开实施例提供的三维位姿的构建方法进行描述。

如图2所示，本公开实施例提供的三维位姿的构建方法包括下述S201-S203。

S201、电子设备获取待构建图像的图像数据。

其中，待构建图像包括待构建建筑。待构建图像的图像数据包括待构建图像的图像特征，用于反映待构建图像上像素点的颜色特征、纹理特征、形状特征和空间关系特征。

作为一种可能的实现方式，电子设备接收拍摄装置或者其他类似设备发送的原始图像，并对该原始图像进行关键物识别，以确定该原始图像中是否包括待构建建筑。进一步的，电子设备在确定该原始图像中包括待构建图像的情况下，确定该原始图像为待构建图像，并进一步的获取待构建图像的图像数据。

需要说明的，原始图像为二维图像，且该二维图像中不包括深度信息。

作为另外一种可能的实现方式，电子设备接收拍摄装置或者其他类似设备发送的原始图像，并对该原始图像进行关键物识别，以确定该原始图像中是否包括待构建建筑。进一步的，电子设备在确定该原始图像中包括待构建图像的情况下，对原始图像进行裁剪，以得到一张裁剪图像，并将裁剪图像确定为待构建图像。进一步的，电子设备可以获取待构建图像的图像数据。

其中，裁剪图像为基于待构建建筑的轮廓裁剪的矩形图像。

需要说明的，电子设备对原始图像进行裁剪，可以将原始图像输入到预设的检测模型中，由检测模型确定原始图像的检测框，进一步的，电子设备根据得到的检测框对原始图像进行裁剪。

示例性的，图3示出了一种待构建图像的示意图。如图3所示，待构建图像中还包括背景信息，背景信息与待构建建筑共同组成待构建图像。待构建建筑为一个长方体或者正方体的建筑，在待构建图像中能够呈现待构建建筑的至少一个平面。例如，待构建图像中可以包括待构建建筑的主视面，也可以包括待构建建筑的主视面以及侧视面(如图3所示)，还可以包括待构建建筑的主视面、侧视面以及俯视面。

S202、电子设备将待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据。

其中，目标分割数据包括至少一个平面上的像素点的二维坐标，至少一个平面为在待构建图像上待构建建筑的平面，目标法向数据包括待构建图像上的像素点对应的法向量。

作为一种可能的实现方式，电子设备将待构建图像的图像数据输入训练好的分割模型，并将预先训练好的分割模型输出的分割数据确定为目标分割数据，以及，将预先训练好的分割模型输出的法向数据确定为目标法向数据。

分割模型用于对输入的图像数据进行处理，一次输出与图像数据对应的分割数据以及法向数据。

图4示出了一种分割模型的结构示意图。如图4所示，分割模型具体可以为Unet结构，包括输入层、输出层、至少一个下采样层、全局优化层以及至少一个上采样层(图4中仅示例性的给出了3个下采样层以及3个上采样层，在实际应用中，可以存在更多或者更少的下采样层以及上采样层)。其中，至少一个下采样层与至少一个上采样层的数量相同。

输入层用于输入待构建图像的图像数据。输出层用于输出分割数据以及法向数据。下采样层用于对输入的待构建图像的图像数据进行缩小，以获取待构建图像的不同层次的全局信息。全局优化层用于对全局信息中的每个像素点的位置进行遍历，以确定待构建图像中像素点的相关性。上采样层用于对全局优化层输出的分割数据以及法向数据进行放大，以得到不同层次的局部信息。

示例性的，全局优化层可以为非局部nonlocal处理层，其满足以下公式一：

其中，y_i为全局信息中第i个像素点的相关度值，i、j为为全局信息中的任意两个像素点，x_i为第i个像素点的特征向量，x_j为第j个像素点的特征向量，f(x_i，x_j)用于计算第i个像素点与第j个像素点之间的相关性，g(x_j)用于将第j个像素点映射为一个特征向量。

在将一个二维图像输入分割模型之后，分割模型会按照次序输出一个分割数据以及一个法向数据。

本公开实施例涉及的分割数据，包括了一个二维图像上的像素点的二维坐标，以及每个像素点归属于二维图像上的建筑的平面的标识。例如，对于二维图像包括的背景区域上的像素点，其不在建筑的任意一个平面上，则该像素点在分割数据中对应的建筑的平面的标识为0。对于二维图像中建筑的第一个平面的像素点，其在分割数据中对应的建筑的平面的标识为1。对于二维图像中建筑的第二个平面的像素点，其在分割数据中对应的建筑的平面的标识为2。

本公开实施例涉及的法向数据，包括了一个建筑的任意一个平面上的每个像素点在三维坐标系中对应的法向量，法向量用于指示每个像素点，垂直于该平面的方向。法向数据在三维坐标系中，可以理解为二维图像上的像素点所在的平面的法线，在三维坐标系的三个方向(X/Y/Z)上的分量。具体的，法向量的表示方式可以为三维坐标系中两个点的三维坐标。例如，对于任意一个二维图像中建筑的平面上的像素点(x1，y1)，其在三维坐标系中的三维坐标为(X1，Y1，Z1)，那么其对应的法向量可以为[(X1，Y1，Z1),(X2，Y2，Z2)]。其中，三维坐标(X2，Y2，Z2)为该像素点的法线方向上的点。

S203、电子设备基于目标分割数据以及目标法向数据，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到待构建建筑的三维位姿。

作为一种可能的实现方式，电子设备在确定目标分割数据以及目标法向数据之后，根据目标分割数据中待构建建筑的平面上的像素点的二维坐标以及每个像素点对应的法向量，确定建筑的每个平面上的像素点在三维坐标系中的三维坐标，进而可以得到待构建建筑的三维位姿。

在一种设计中，为了能够训练得到分割模型，如图5所示，本公开实施例提供的三维位姿的构建方法，还包括下述S301-S302。

S301、电子设备获取训练样本。

其中，训练样本包括多个样本图像的图像数据，以及每个样本图像的样本分割数据和样本法向数据。

需要说明的，一个样本图像中可以包括一个建筑，也可以包括多个建筑。样本分割数据用于标识每个样本图像所包括的建筑的平面上的像素点，样本法向数据用于标识像素点在对应平面上的法向量。

作为一种可能的实现方式，电子设备在获取多个样本图像之后，获取多个样本图像的图像数据，以及每个样本图像的样本分割数据和样本法向数据。

电子设备具体获取样本图像的实现方式，具体可以参照本公开实施例在S201中获取待构建图像的具体描述，不同之处在于，获取的图像不同，但对图像进行处理的步骤是相同的，此步不再进行赘述。

需要说明的，样本分割数据用于指示样本图像上每个像素点所在的平面的标识，在训练样本收集的过程中，每个样本图像的样本分割数据采用人工标注的方法，对建筑上的像素点所在的平面的标识进行标注。基于此，每个样本图像上的建筑的所有的角点的二维坐标，都是由人工标注的。

对于每个样本图像的样本法向数据，电子设备将样本图像映射在三维坐标系中，进一步基于人工对样本图像上建筑的角点(以长方体建筑为例，具有8个角点)的二维坐标的标注，以及样本图像在三维坐标系中的投影关系，确定每个角点在三维坐标系中的三维坐标。进而根据确定到的角点的三维坐标，确定建筑在样本图像上的像素点在三维坐标系中的法向量。

此步骤中确定样本图像的样本法向数据的具体实现方式，可以参照本公开实施例的后续描述，此处不再进行赘述。

S302、电子设备将获取到的训练样本输入初始分割模型，以训练得到分割模型。

作为一种可能的实现方式，电子设备将获取到的训练样本输入到初始分割模型中，以对初始分割模型进行迭代训练，以得到分割模型。

需要说明的，初始分割模型为初始的分割模型，其架构与训练好的分割模型相同，不同之处在于模型中每个卷积层的模型参数不同。在初始分割模型中，每个卷积层的模型参数为初始参数。

例如，电子设备将第一个样本图像的图像数据输入到初始分割模型，然后基于初始分割模型输出数据，对初始分割模型中的模型参数进行更新，以得到第一中间分割模型。进一步的，电子设备将第二个样本图像的图像数据输入第一中间分割模型，然后基于第一中间分割模型输出的数据，对第一中间分割模型进行更新。这样一直向后迭代训练，直到某个中间分割模型输出的结果与训练样本中的结果的误差小于预设阈值的情况下，即可确定该中间分割模型为训练好的分割模型。

上述实施例提供的技术方案至少具有以下有益效果：采用上述训练样本对初始分割模型进行迭代训练，能够保证训练结果(预先训练好的分割模型)的真实性以及准确性。

在一种设计中，在分割模型的训练过程中，为了能够获取样本图像的样本法向数据，如图6所示，本公开实施例提供的S301中获取每个样本图像的样本法向数据的步骤，具体包括以下S3011-S3014。

S3011、电子设备获取每个样本图像中建筑的角点在每个样本图像上对应的二维坐标。

作为一种可能的实现方式，电子设备基于人工的标注，获取每个样本图像中建筑的角点在第一历史图像上对应的二维坐标。

需要说明的，此步骤中建筑的角点在每个样本图像上对应的二维坐标为建筑的所有角点的二维坐标。

S3012、电子设备基于每个样本图像中建筑的角点对应的二维坐标以及预设的投影关系，确定每个样本图像中建筑的角点在三维坐标系中对应的三维坐标。

其中，投影关系包括每个样本图像所在的二维坐标系与三维坐标系之间的投影关系。

作为一种可能的实现方式，电子设备将每个样本图像映射在三维坐标系中，根据拍摄装置的内参，以及预设的投影原理，确定每个样本图像所在的二维坐标系与三维坐标系之间的投影关系。进一步的，电子设备根据确定到的投影关系以及角点对应的二维坐标，计算角点在三维坐标系中对应的三维坐标。

在一些实施例中，电子设备可以根据拍摄装置例如手机或者是单目相机直接读取到拍摄装置的内参。示例性的，拍摄装置的内参可以为60°。

以建筑为长方体为例，在此步骤中，电子设备可以获取到长方体建筑的8个角点在三维坐标系中的三维坐标。

此步骤中电子设备根据拍摄装置的内参以及预设的投影原理，确定每个样本图像所在的二维坐标系与三维坐标系之间的投影关系的实现方式，具体可以参照现有技术，此处不再进行赘述。

S3013、电子设备基于每个样本图像中建筑的角点在三维坐标系中对应的三维坐标，确定每个样本图像中建筑的平面法向量。

其中，每个样本图像中建筑的平面法向量为每个样本图像中的建筑在每个样本图像上的至少一个平面的法向量。

作为一种可能的实现方式，电子设备基于确定到的三维坐标，分别确定建筑的平面在三维坐标系中的位置，进而根据建筑的平面在三维坐标系中的位置，确定每个平面在三维坐标系中的平面法向量。

需要说明的，本公开实施例中涉及的平面法向量，具体用于标识一个平面的法线上的方向，可以以三维坐标的形式表达，具体可以参照本公开实施实例中上述S202中一个像素点的额法向量的数据格式，此处不再进行赘述。

S3014、电子设备基于确定到每个样本图像中建筑的平面法向量，确定每个样本图像对应的历史法向数据。

作为一种可能的实现方式，电子设备将确定到的建筑上每个平面的法向量，以及建筑上每个平面上的像素点在三维坐标系中的位置，确定建筑上每个平面的像素点的法向量。进一步的，电子设备间确定到的建筑上的所有平面上的像素点的法向量进行合并，以得到每个样本图像对应的历史法向数据。

上述实施例提供的技术方案至少具有以下有益效果：在确定训练样本的过程中，能够基于二维坐标系与三维坐标系之间的投影关系，进一步确定训练样本中的法向数据，无需由人工对样本进行标注，能够节省人员消耗。

在一种设计中，为了能够对初始分割模型进行迭代训练，以训练得到分割模型，如图7所示，本公开实施例提供的S302中，利用样本图像对初始分割模型训练更新的步骤，具体可以包括下述S3021-S3022。

S3021、电子设备将每个样本图像的图像数据输入初始分割模型中，以分别确定每个样本图像的分割损失以及法向损失。

其中，分割损失用于反映每个样本图像的预测分割数据与每个样本图像的样本分割数据之间的误差，法向损失用于反映每个样本图像的预测法向数据与每个样本图像的样本法向数据之间的误差。

作为一种可能的实现方式，电子设备将每个样本图像依次输入到初始分割模型中，以得到初始分割模型输出的预测分割数据以及预测法向数据。进一步的，电子设备根据获取到的预测分割数据与样本图像的样本分割数据，计算分割损失，以及，电子设备根据获取到预测法向数据与样本图像的样本法向数据，计算法向损失。

作为另外一种可能的实现方式，电子设备获取初始分割模型的的至少一个上采样层输出的中间分割数据以及中间法向数据。进一步的，电子设备根据获取到的中间分割数据以及样本图像的样本分割数据，计算分割损失，以及，电子设备根据获取到的中间法向数据以及样本图像的样本法向数据，计算法向损失。

需要说明的，上述预测法向数据为初始分割模型预测得到的法向数据，上述预测分割数据为初始分割模型预测得到的分割数据。

以下，结合图4，示出了本公开实施例中计算分割损失的多种实现方式：

一、本公开实施例中涉及的分割损失包括至少一个中间分割损失之和。

其中，至少一个中间分割损失为初始分割模型的中间层输出的中间分割数据与每个样本图像的样本分割数据之间的误差。上述中间层即为初始分割模型中的上采样层。

在这种情况下，示例性的，如图4所示，电子设备分别获取第一上采样层、第二上采样层以及第三上采样层输出的中间分割数据，并将获取到的中间分割数据分别与每个样本图像的样本分割数据进行对比，以分别得到每个上采样层的中间分割损失。进一步的，电子设备确定得到的中间分割损失之和为分割损失。

二、本公开实施例中涉及的分割损失包括输出分割损失。

其中，输出分割损失为初始分割模型输出的预测分割数据与每个样本图像的历史分割数据之间的误差。

在这种情况下，如图4所示，电子设备获取分割模型的输出层输出的预测分割数据，并将获取到的预测分割数据与每个样本图像的历史分割数据进行对比，以得到初始分割模型的分割损失。

三、分割损失包括至少一个中间分割损失与输出分割损失之和。

在这种情况下，如图4所示，电子设备分别获取至少一个中间分割损失，以及输出分割损失，并将至少一个中间分割损失与输出分割损失之和确定为分割损失。

此步骤中电子设备获取至少一个中间分割损失的实现方式，可以参照上述第一种情况的具体描述，此处不再进行赘述。此步骤中电子设备获取输出分割损失的实现方式，具体可以参照上述第二种情况的具体描述，此处不再进行赘述。

需要说明的，在上述三种情况下，电子设备在确定至少一个中间分割损失以及输出分割损失的过程中，需要将卷积层输出的中间分割数据或者输出分割数据与样本分割数据进行对比，具体可以采用交叉熵方法计算损失。

上述实施例提供的技术方案至少具有以下有益效果：在计算初始分割模型的损失的过程中，为了保证性分割模型中所有卷积层的模型参数的迭代优化，采用每个卷积层以及输出层的输出结果作为计算损失的依据，能够保证训练得到的分割模型输出的分割数据更加准确。

以下，结合图4，示出了本公开实施例中计算法向损失的多种实现方式：

一、本公开实施例中涉及的法向损失包括至少一个中间法向损失之和。

其中，至少一个中间法向损失为法向模型的中间层输出的中间法向数据与每个样本图像的样本法向数据之间的误差。上述中间层即为初始分割模型中的上采样层。

在这种情况下，示例性的，如图4所示，电子设备分别获取第一上采样层、第二上采样层以及第三上采样层输出的中间法向数据，并将获取到的中间法向数据分别与每个样本图像的样本法向数据进行对比，以分别得到每个上采样层的中间法向损失。进一步的，电子设备确定得到的中间法向损失之和为法向损失。

二、本公开实施例中涉及的法向损失包括输出法向损失。

其中，输出法向损失为法向模型输出的预测法向数据与每个样本图像的样本法向数据之间的误差。

在这种情况下，如图4所示，电子设备获取初始分割模型的输出层输出的预测法向数据，并将获取到的预测法向数据与每个样本图像的历史法向数据进行对比，以得到初始分割模型的法向损失。

三、法向损失包括至少一个中间法向损失与输出法向损失之和。

在这种情况下，如图4所示，电子设备分别获取至少一个中间法向损失，以及输出法向损失，并将至少一个中间法向损失与输出法向损失之和确定为法向损失。

此步骤中电子设备获取至少一个中间法向损失的实现方式，可以参照上述第一种情况的具体描述，此处不再进行赘述。此步骤中电子设备获取输出法向损失的实现方式，具体可以参照上述第二种情况的具体描述，此处不再进行赘述。

需要说明的，在上述三种情况下，电子设备在确定至少一个中间法向损失以及输出法向损失的过程中，需要将卷积层输出的中间法向数据或者输出法向数据与历史法向数据进行对比，具体可以采用均方误差的方法计算损失。

上述实施例提供的技术方案至少具有以下有益效果：在计算初始分割模型的损失的过程中，为了保证性分割模型中所有卷积层的模型参数的迭代优化，采用每个卷积层以及输出层的输出结果作为计算损失的依据，能够保证训练得到的分割模型输出的法向数据更加准确。

S3022、电子设备基于确定到的分割损失及法向损失，更新得到初始分割模型，以训练得到分割模型。

作为一种可能的实现方式，电子设备可以采用Adam优化算法对分割模型进行反向传播以及迭代优化，具体的，电子设备判断分割损失与法向损失的和，是否大于预设阈值。

若分割损失与法向损失之和大于预设阈值，则表明初始分割模型欠拟合，在这种情况下，电子设备对初始分割模型中的模型参数进行更新，以得到新的初始分割模型，并根据新的样本，重新对新的初始分割模型进行训练，直至得到训练好的分割模型。

若分割损失与法向损失之和小于或者等于预设阈值，则表明初始分割模型拟合，即分割模型训练完成，电子设备确定该初始分割模型为训练好的分割模型。

上述实施例提供的技术方案至少具有以下有益效果：通过将初始分割数据的损失与法向数据的损失相结合的方式，对分割模型进行反向传播及迭代优化，能够保证优化得到的分割模型可以同时兼顾分割数据以及法向数据的准确性。

在一种设计中，为了能够基于训练好的分割模型预测得到目标分割数据以及目标法向数据，如图8所示，本公开实施实例提供的S202，具体包括下述S2021。

S2021、电子设备将待构建图像的图像数据输入分割模型，以获取目标分割数据以及目标法向数据。

其中，目标分割数据为分割模型输出的分割数据，目标法向数据为分割模型输出的法向数据。或者，目标分割数据为将分割模型输出的分割数据进行平滑处理后得到的，目标法向数据为将分割模型输出的法向数据进行平滑处理后得到的。

作为一种可能的实现方式，电子设备将待构建图像的图像数据输入分割模型，将分割模型输出的分割数据确定为目标分割数据，以及，将分割模型输出的法向数据确定为目标法向数据。

作为另外一种可能的实现方式，电子设备将待构建图像的图像数据输入分割模型，将分割模型输出的分割数据以及法向数据分别进行平滑处理。进一步的，电子设备将平滑处理后的分割数据确定为目标分割数据，以及，将平滑处理处理后的法向数据确定为目标法向数据。

在实际应用过程中，上述平滑处理可以采用拉普拉斯滤波的处理方式。

上述实施例提供的技术方案至少具有以下有益效果：通过对分割模型输出的分割数据以及法向数据的平滑处理，能够使得后续构建得到的三维位姿的边缘具有更好的平滑性。

在一种设计中，为了保证建筑的三维位姿构建的准确性，减少处理图像数据消耗的资源，如图8所示，本公开实施例提供的S203，具体可以包括下述S2031-S2032。

S2031、电子设备基于预设的采样算法，从目标法向数据中确定目标法向量。

其中，目标法向量包括待构建建筑在待构建图像上的像素点对应的法向量。

作为一种可能的实现方式，电子设备将目标法向数据输入到预设的采样算法，以确定目标法向数据中的无用数据以及目标法向量。

需要说明的，目标法向数据中的无用数据包括待构建图像中，除待构建建筑之外的背景区域内的像素点对应的法向量。

在一些实施例中，上述预设的采样算法可以为随机抽样一致算法(random sampleconsensus，RANSAC)。基于RANSAC算法得到的外点(outlier)为偏离集群的点，用于表示目标法向数据中的无用数据，去除外点之后，剩余的内点(inlier)即用于表示目标法向数据的目标法向量。

S2032、电子设备基于目标分割数据以及目标法向量，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标。

作为一种可能的实现方式，电子设备在确定目标法向量之后，根据目标分割数据中待构建建筑的平面上的像素点的二维坐标以及待构建上每个像素点对应的法向量，确定建筑的每个平面上的像素点在三维坐标系中的三维坐标，进而可以得到待构建建筑的三维位姿。

上述实施例提供的技术方案至少具有以下有益效果：通过采样算法将目标法向数据中的无用数据剔除，只保留有用的目标法向量，能够减少在后续构建三维位姿的过程中，对图像数据进行处理的计算资源，同时也能够保证构建得到三维位姿更加准确、真实。

另外，本公开还提供一种电子设备，用于执行本公开实施例提供的三维位姿的构建方法，以解决现有技术中预测建筑的三维位姿的效果鲁棒性较差的问题。参照图9所示，该电子设备40包括获取单元401、预测单元402以及确定单元403。

获取单元401，用于获取待构建图像的图像数据，待构建图像包括待构建建筑。例如，结合图2，获取单元401可以用于执行S201。

预测单元402，用于将获取单元401获取到的待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据。目标分割数据包括至少一个平面上的像素点的二维坐标，至少一个平面为在待构建图像上待构建建筑的平面，目标法向数据包括待构建图像上的像素点对应的法向量。例如，结合图2，预测单元402可以用于执行S202。

确定单元403，用于基于目标分割数据以及目标法向数据，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到待构建建筑的三维位姿。例如，结合图2，确定单元403可以用于执行S203。

可选的，如图9所示，本公开实施例提供的电子设备还包括训练单元404。

训练单元404，用于将获取到的训练样本输入初始分割模型，以训练得到分割模型。训练样本包括多个样本图像的图像数据，以及每个样本图像的样本分割数据和样本法向数据。样本分割数据用于标识每个样本图像所包括的建筑的平面上的样本像素点，样本法向数据用于标识样本像素点在对应平面上的法向量。例如，结合图5，训练单元404可以用于执行S302。

可选的，如图9所示，本公开实施例提供的获取单元401，具体还用于：

获取每个样本图像中建筑的角点在每个样本图像上对应的二维坐标。例如，结合图6，获取单元401可以用于执行S3011。

基于每个样本图像中建筑的角点对应的二维坐标以及预设的投影关系，确定每个样本图像中建筑的角点在三维坐标系中对应的三维坐标。投影关系包括每个样本图像所在的二维坐标系与三维坐标系之间的投影关系。例如，结合图6，获取单元401可以用于执行S3012。

基于每个样本图像中建筑的角点在三维坐标系中对应的三维坐标，确定每个样本图像中建筑的平面法向量，并基于确定到每个样本图像中建筑的平面法向量，确定每个样本图像对应的样本法向数据。每个样本图像中建筑的平面法向量为每个样本图像中的建筑在每个样本图像上的至少一个平面的法向量。例如，结合图6，获取单元401可以用于执行S3013-S3014。

可选的，如图9所示，本公开实施例提供的训练单元404，具体用于：

将每个样本图像的图像数据输入初始分割模型中，以分别确定每个样本图像的分割损失以及法向损失。分割损失用于反映每个样本图像的预测分割数据与每个样本图像的样本分割数据之间的误差，法向损失用于反映每个样本图像的预测法向数据与每个样本图像的样本法向数据之间的误差。例如，结合图7，训练单元404可以用于执行S3021。

基于确定到的分割损失及法向损失，更新得到初始分割模型，以训练得到分割模型。例如，结合图7，训练单元404可以用于执行S3022。

可选的，如图9所示，本公开实施例提供的分割损失包括至少一个中间分割损失之和。至少一个中间分割损失为初始分割模型的中间层输出的中间分割数据与每个样本图像的样本分割数据之间的误差。

或者，

分割损失包括输出分割损失。输出分割损失为初始分割模型输出的预测分割数据与每个样本图像的样本分割数据之间的误差。

或者，

分割损失包括至少一个中间分割损失与输出分割损失之和。

可选的，如图9所示，本公开实施例提供的法向损失包括至少一个中间法向损失之和。至少一个中间法向损失为初始分割模型的中间层输出的中间法向数据与每个样本图像的样本法向数据之间的误差。

或者，

法向损失包括输出法向损失。输出法向损失为初始法向模型输出的预测法向数据与每个样本图像的样本法向数据之间的误差。

或者，

法向损失包括至少一个中间法向损失与输出法向损失之和。

可选的，如图9所示，本公开实施例提供的目标分割数据为将分割模型输出的分割数据进行平滑处理后得到的，目标法向数据为将分割模型输出的法向数据进行平滑处理后得到的。

可选的，如图9所示，本公开实施例提供的确定单元403，具体用于：

基于预设的采样算法，从目标法向数据中确定目标法向量。目标法向量包括待构建建筑在待构建图像上的像素点对应的法向量。例如，结合图8，确定单元403可以用于执行S2031。

基于目标分割数据以及目标法向量，确定至少一个平面上的像素点在三维坐标系中对应的三维坐标。例如，结合图8，确定单元403可以用于执行S2032。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是本公开提供的另一种电子设备的结构示意图。如图10，该电子设备50可以包括至少一个处理器501以及用于存储处理器可执行指令的存储器503。其中，处理器501被配置为执行存储器503中的指令，以实现上述实施例中的三维位姿的构建方法。

另外，电子设备50还可以包括通信总线502以及至少一个通信接口504。

处理器501可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线502可包括一通路，在上述组件之间传送信息。

通信接口504，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器503可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器503用于存储执行本公开方案的指令，并由处理器501来控制执行。处理器501用于执行存储器503中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器501可以包括一个或多个CPU，例如图10中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备50可以包括多个处理器，例如图10中的处理器501和处理器507。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备50还可以包括输出设备505和输入设备506。输出设备505和处理器501通信，可以以多种方式来显示信息。例如，输出设备505可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备506和处理器501通信，可以以多种方式接受用户的输入。例如，输入设备506可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图10中示出的结构并不构成对电子设备50的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的三维位姿的构建方法。

另外，本公开还提供一种计算机程序产品，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的三维位姿的构建方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种三维位姿的构建方法，其特征在于，包括：

获取待构建图像的图像数据，所述待构建图像包括待构建建筑；

将所述待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据；所述目标分割数据包括至少一个平面上的像素点的二维坐标，所述至少一个平面为在所述待构建图像上所述待构建建筑的平面，所述目标法向数据包括所述待构建图像上的像素点对应的法向量；

基于所述目标分割数据以及所述目标法向数据，确定所述至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到所述待构建建筑的三维位姿。

2.根据权利要求1所述的三维位姿的构建方法，其特征在于，所述方法还包括：

将获取到的训练样本输入初始分割模型，以训练得到所述分割模型；所述训练样本包括多个样本图像的图像数据，以及每个样本图像的样本分割数据和样本法向数据；所述样本分割数据用于标识所述每个样本图像所包括的建筑的平面上的样本像素点，所述样本法向数据用于标识所述样本像素点在对应平面上的法向量。

3.根据权利要求2所述的三维位姿的构建方法，其特征在于，所述方法还包括：

获取所述每个样本图像中建筑的角点在所述每个样本图像上对应的二维坐标；

基于所述每个样本图像中建筑的角点对应的二维坐标以及预设的投影关系，确定所述每个样本图像中建筑的角点在所述三维坐标系中对应的三维坐标；所述投影关系包括所述每个样本图像所在的二维坐标系与所述三维坐标系之间的投影关系；

基于所述每个样本图像中建筑的角点在所述三维坐标系中对应的三维坐标，确定所述每个样本图像中建筑的平面法向量，并基于确定到所述每个样本图像中建筑的平面法向量，确定所述每个样本图像对应的样本法向数据；所述每个样本图像中建筑的平面法向量为所述每个样本图像中的建筑在所述每个样本图像上的至少一个平面的法向量。

4.根据权利要求2所述的三维位姿的构建方法，其特征在于，所述将获取到的训练样本输入初始分割模型，以训练得到所述分割模型，包括：

将所述每个样本图像的图像数据输入所述初始分割模型中，以分别确定所述每个样本图像的分割损失以及法向损失；所述分割损失用于反映所述每个样本图像的预测分割数据与所述每个样本图像的所述样本分割数据之间的误差，所述法向损失用于反映所述每个样本图像的预测法向数据与所述每个样本图像的所述样本法向数据之间的误差；

基于确定到的所述分割损失及所述法向损失，更新得到所述初始分割模型，以训练得到所述分割模型。

5.根据权利要求4所述的三维位姿的构建方法，其特征在于，

所述分割损失包括至少一个中间分割损失之和；所述至少一个中间分割损失为所述初始分割模型的中间层输出的中间分割数据与所述每个样本图像的所述样本分割数据之间的误差；

或者，

所述分割损失包括输出分割损失；所述输出分割损失为所述初始分割模型输出的所述预测分割数据与所述每个样本图像的所述样本分割数据之间的误差；

或者，

所述分割损失包括所述至少一个中间分割损失与所述输出分割损失之和。

6.根据权利要求4所述的三维位姿的构建方法，其特征在于，

所述法向损失包括至少一个中间法向损失之和；所述至少一个中间法向损失为所述初始分割模型的中间层输出的中间法向数据与所述每个样本图像的样本法向数据之间的误差；

或者，

所述法向损失包括输出法向损失；所述输出法向损失为所述初始法向模型输出的预测法向数据与所述每个样本图像的样本法向数据之间的误差；

或者，

所述法向损失包括所述至少一个中间法向损失与所述输出法向损失之和。

7.一种电子设备，其特征在于，包括获取单元、预测单元以及确定单元；

所述获取单元，用于获取待构建图像的图像数据，所述待构建图像包括待构建建筑；

所述预测单元，用于将所述获取单元获取到的所述待构建图像的图像数据输入到预先训练好的分割模型，预测得到目标分割数据以及目标法向数据；所述目标分割数据包括至少一个平面上的像素点的二维坐标，所述至少一个平面为在所述待构建图像上所述待构建建筑的平面，所述目标法向数据包括所述待构建图像上的像素点对应的法向量；

所述确定单元，用于基于所述目标分割数据以及所述目标法向数据，确定所述至少一个平面上的像素点在三维坐标系中对应的三维坐标，以得到所述待构建建筑的三维位姿。

8.一种电子设备，其特征在于，包括：处理器、用于存储所述处理器可执行的指令的存储器；其中，所述处理器被配置为执行指令，以实现所述权利要求1-6中任一项所述的三维位姿的构建方法。

9.一种计算机可读存储介质，其特征在于，包括指令，当所述指令由处理器执行时，使得所述处理器执行如权利要求1-6中任一项所述的三维位姿的构建方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任一项所述的三维位姿的构建方法。