CN117893692B

CN117893692B - 一种基于对称视图的三维重建方法、装置及存储介质

Info

Publication number: CN117893692B
Application number: CN202410281175.8A
Authority: CN
Inventors: 王宏升; 林峰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-05-28
Anticipated expiration: 2044-03-12
Also published as: CN117893692A

Abstract

本说明书公开了一种基于对称视图的三维重建方法、装置及存储介质，在本说明书提供的方法中，生成模型包括编码层、生成层、聚合层和渲染层，确定第一初始模型在第一视图的相机坐标系的各坐标面上的第一投影特征，第二初始模型在第二视图的相机坐标系的各坐标面上的第二投影特征，对各第一投影特征和各第二投影特征进行空间对齐，确定全局特征，将全局特征输入渲染层，得到三维模型。这样，通过将各第一投影特征和各第二投影特征进行空间对齐，可得到包含重建目标物全局三维空间信息的全局特征，根据全局特征可渲染出重建目标物的三维模型，不需要不同视角视图的重叠部分进行空间对齐，减少了三维重建所需的视图数量，提高了三维重建效率。

Description

一种基于对称视图的三维重建方法、装置及存储介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种基于对称视图的三维重建方法、装置及存储介质。

背景技术

三维重建在影视制作、游戏设计和产品设计等领域应用广泛，建模目标包括游戏角色、道具和场景等等。

目前，通常以重建目标物的多个视角的图像作为输入，通过渲染器根据各视角图像的重叠部分将各视角的建模目标在三维空间中进行定位，使各视角图像中该重建目标物一致的部分在三维空间中实现空间对齐，进而渲染出该建模目标的三维模型。由于需要根据各视角的重叠部分进行定位，所以，在目前的三维重建方法中，要求输入至少三个视角的图像，且输入的图像视角越多，三维重建的准确性也会越高。

但是，在实际的应用场景中，三维重建是从绘制建模目标的设计图开始的，如果想要获取准确性高的三维模型，就需要绘制重建目标物多个视角的设计图，耗费大量时间，导致三维重建的效率低下。因此，本说明书提供一种基于对称视图的三维重建方法。

发明内容

本说明书提供一种基于对称视图的三维重建方法、装置、存储介质及电子设备，以至少部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种基于对称视图的三维重建方法，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，包括：

获取对称采集的重建目标物的第一视图和第二视图，将所述第一视图和所述第二视图，输入所述编码层，确定所述第一视图的第一初始特征，以及所述第二视图的第二初始特征；

将所述第一初始特征和第一噪声向量，输入所述生成层，得到所述第一视图对应的第一初始模型，将所述第二初始特征和第二噪声向量，输入所述生成层，得到所述第二视图对应的第二初始模型；

确定所述第一初始模型在所述第一视图的相机坐标系的各坐标面上的第一投影特征，确定所述第二初始模型在所述第二视图的相机坐标系的各坐标面上的第二投影特征；

对各第一投影特征和各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征；

将所述标准坐标系中的各第一投影特征和各第二投影特征，输入所述聚合层，对所述标准坐标系中的各第一投影特征进行求和，得到第一局部特征，对所述标准坐标系中的各第二投影特征进行求和，得到第二局部特征，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征；

将所述全局特征输入所述渲染层，得到所述重建目标物的三维模型。

可选地，所述生成层包含多个卷积子层；

将所述第一初始特征和第一噪声向量，输入所述生成层，得到所述第一视图对应的第一初始模型，将所述第二初始特征和第二噪声向量，输入所述生成层，得到所述第二视图对应的第二初始模型，具体包括：

将所述第一初始特征和第一噪声向量，输入所述生成层的各卷积子层，确定所述各卷积子层得到的第一生成特征，将各第一生成特征进行拼接，得到所述第一初始模型；

将所述第二初始特征和第二噪声向量，依次输入所述生成层的各卷积子层，确定所述各卷积子层得到的第二生成特征，将各第二生成特征进行拼接，得到所述第二初始模型。

可选地，对各第一投影特征进行求和，得到第一局部特征，对各第二投影特征进行求和，得到第二局部特征，具体包括：

分别对所述各第一投影特征进行上采样，确定各第一增强特征，对所述各第一增强特征进行求和，得到第一局部特征；

分别对所述各第二投影特征进行上采样，确定各第二增强特征，对所述各第二增强特征进行求和，得到第二局部特征。

可选地，对各第一投影特征和各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征，具体包括：

以所述第一视图的相机坐标系为标准坐标系，将所述各第一投影特征在所述第一视图的相机坐标系的坐标，作为所述各第一投影特征在所述标准坐标系的坐标；

根据所述第一视图与所述第二视图的对称关系，将所述各第二投影特征在所述第二视图的相机坐标系的坐标进行变换，确定所述各第二投影特征在所述标准坐标系的坐标。

可选地，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征，具体包括：

将所述第一局部特征和所述第二局部特征进行求和，确定全局特征。

将所述第一局部特征与所述第二局部特征进行拼接，得到拼接特征，确定所述拼接特征的键向量和值向量；

将所述第一视图的相机参数以及所述第二视图的相机参数，输入所述聚合层，将所述第一视图的相机参数和所述第二视图的相机参数进行拼接，得到方向特征，确定所述方向特征的查询向量；

根据所述拼接特征的键向量和值向量，以及所述方向特征的查询向量，确定全局特征。

可选地，待训练的生成模型至少包括编码层、生成层、聚合层、渲染层和鉴别层，所述鉴别层包含三个鉴别器，所述生成模型的训练方法如下：

获取对称采集的样本目标物的第一样本视图和第二样本视图，并确定所述样本目标物前后视角标准视图和标准掩膜，作为标注；

通过所述待训练的生成模型的编码层、生成层、聚合层、渲染层，执行上述基于对称视图的三维重建方法，得到所述样本目标物对应的三维模型；

确定所述三维模型前后视角的生成视图和生成掩膜，分别对各生成视图进行上采样，得到各增强视图，分别对各掩膜视图进行上采样，确定各增强掩膜；

针对每个视角，将该视角的生成视图与标准视图，输入第一鉴别器，确定该视角的第一生成得分和第一标准得分，将该视角的增强视图与标准视图，输入第二鉴别器，确定该视角的第二生成得分和第二标准得分，将该视角的增强掩膜和标准掩膜，输入第三鉴别器，确定该视角的第三生成得分和第三标准得分；

根据各视角的第一生成得分、第二生成得分和第三生成得分，确定总生成损失，根据所述总生成损失，训练所述生成层，根据各视角的所述第一生成得分、所述第二生成得分、所述第三生成得分、所述第一标准得分、所述第二标准得分和所述第三标准得分，确定总鉴别损失，根据所述总鉴别损失，训练鉴别层。

本说明书提供了一种基于对称视图的三维重建装置，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，所述装置包括：

获取模块，获取对称采集的建模目标物的第一视图和第二视图，将所述第一视图和所述第二视图，分别输入所述编码层，确定所述第一视图的第一初始特征，以及所述第二视图的第二初始特征；

生成模块，将所述第一初始特征和第一噪声向量，输入所述生成层，得到所述第一视图对应的第一初始模型，将所述第二初始特征和第二噪声向量，输入所述生成层，得到所述第二视图对应的第二初始模型；

投影模块，确定所述第一初始模型在所述第一视图的相机坐标系的各坐标面上的第一投影特征，确定所述第二初始模型在所述第二视图的相机坐标系的各坐标面上的第二投影特征；

空间对齐模块，对各第一投影特征和各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征；

聚合模块，将所述标准坐标系中的各第一投影特征和各第二投影特征，输入所述聚合层，对所述标准坐标系中的各第一投影特征进行求和，得到第一局部特征，对所述标准坐标系中的各第二投影特征进行求和，得到第二局部特征，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征；

渲染模块，将所述全局特征输入所述渲染层，得到所述建模目标物的三维模型。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于对称视图的三维重建方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于对称视图的三维重建方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的基于对称视图的三维重建方法中，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，确定第一初始模型在第一视图的相机坐标系的各坐标面上的第一投影特征，以及第二初始模型在第二视图的相机坐标系的各坐标面上的第二投影特征，对各第一投影特征和各第二投影特征进行空间对齐，在聚合层，确定全局特征，将全局特征输入渲染层，得到三维模型。这样，通过将各第一投影特征和各第二投影特征进行空间对齐，可得到包含重建目标物全局三维空间信息的全局特征，根据全局特征可渲染出重建目标物的三维模型，不再需要不同视角视图的重叠部分进行空间对齐，减少了三维重建所需的视图数量，提高了三维重建效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种基于对称视图的三维重建方法的流程示意图；

图2为本说明书提供的一种生成模型的结构示意图；

图3为本说明书中提供的生成层生成第一初始模型的过程示意图；

图4为本说明书实施例中提供的一种人物形象前视图对应的第一初始模型的投影示意图；

图5为本说明书实施例中提供的一种人物形象后视图对应的第二初始模型的投影示意图；

图6为本说明书中提供的一种鉴别层的结构示意图；

图7为本说明书提供的一种基于对称视图的三维重建装置的示意图；

图8为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种基于对称视图的三维重建方法的流程示意图，具体包括以下步骤：

S100：获取对称采集的建模目标物的第一视图和第二视图，将所述第一视图和所述第二视图，输入所述编码层，确定所述第一视图的第一初始特征，以及所述第二视图的第二初始特征。

在本说明书中，用于基于对称视图进行三维重建的设备可以是服务器，也可以是诸如台式电脑、笔记本电脑等电子设备。为了便于描述，下面仅以服务器为执行主体，对本说明书提供的基于对称视图的三维重建方法进行说明。

图2为本说明书提供的一种生成模型的结构示意图，两个虚线框中的步骤独立进行。如图2所示，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层。

服务器获取对称采集的建模目标物的第一视图和第二视图。为了更好的识别对称视图中所包含的建模目标物的特征，得到逼真的三维模型，服务器需要先通过编码层对第一视图和第二视图进行特征提取。

具体的，服务器将第一视图和第二视图，分别输入编码层，确定第一视图的第一初始特征，以及第二视图的第二初始特征。

在本说明书的一个或多个实施例中，编码层可以仅包含一个编码网络，也可以包含两个编码网络，本说明书不作具体限制。即，服务器可以将第一视图与第二视图依次输入编码层，先后得到第一初始特征和第二初始特征。也可以将第一视图与第二视图分别输入编码层的两个编码网络，同时得到第一初始特征和第二初始特征。其中，两个编码网络的网络结构可以相同，也可以不相同，本说明书对此不作限制。

以人物形象的三维重建任务为例，若输入的对称视图该人物形象的前视图和后视图，考虑到人物前视图的纹理为丰富，人物后视图的纹理较为平滑的特点，可将前视图输入高频特征敏感的编码网络，如残差网络（Residual Network，ResNet），得到前视图对应的第一初始特征，将后视图输入低频特征敏感的编码网络，如池化注意力变压器（PoolingAttention Transformer，PAT），得到后视图对应的第二初始特征。这样，针对不同视角的视图特点采用不同的编码网络，可以提取到得到更加准确的特征，使最后得到的三维模型也更加准确。

S102：将所述第一初始特征和第一噪声向量，输入所述生成层，得到所述第一视图对应的第一初始模型，将所述第二初始特征和第二噪声向量，输入所述生成层，得到所述第二视图对应的第二初始模型。

首先，服务器从指定分布进行随机采样，得到第一噪声向量，将第一初始特征和该第一噪声向量输入生成层，得到第一视图对应的第一初始模型。然后，服务器从指定分布进行随机采样，得到第二噪声向量，将第二初始特征和该第二噪声向量输入生成层，得到第二视图对应的第二初始模型。

本说明书对指定分布的具体形式不作限制，可以采用标准高斯分布、均匀分布等随机变量分布，例如，符合标准高斯分布的噪声可以利用函数生成，符合均匀分布的噪声可以利用/>函数生成，其中，/>表示生成噪声的维度为/>。

第一初始模型与第二生成模型的获取过程一致，仅以第一初始模型的获取为例，对生成层的作用进行说明。

图3为本说明书中提供的生成层生成第一初始模型的过程示意图，如图3所示，生成层包含多个卷积子层。服务器将第一初始特征和第一噪声向量，输入生成层的各卷积层，确定各卷积层得到的第一生成特征，将各第一生成特征进行拼接，得到第一初始模型。

在生成层，第一初始特征作为生成条件约束，对第一噪声向量进行卷积，在各卷积层得到的第一生成特征包含了不同程度的三维空间信息，为了综合各卷积层获取到的三维空间信息，对各第一生成特征进行拼接，得到第一初始模型。如，以y表示第一初始特征，以x表示第一噪声向量，以G表示生成层，则第一初始模型可表示为。第一初始模型是第一视图的三维形象，包含了从第一视图提取到的全部三维空间信息。

由于输入的第一噪声向量是从一个指定分布中采样得到的，而第一初始模型并不服从该指定分布，为防止直接将第一噪声向量从指定分布变换到非指定分布得到的第一初始模型的准确性不高，服务器可以在生成层设置映射子层。通过映射子层，打乱第一噪声向量原本的分布，将第一噪声向量映射到一个任意的分布，再对第一噪声向量进行卷积，得到各卷积层的第一生成特征。

另外，还可以在每个卷积层输入额外的噪声向量，增强对各卷积层的第一生成特征的细节影响，使各卷积层提取到的第一生成特征包含不同的细节信息，如，头发长短、头发颜色、胡须等，增强各卷积层的第一生成特征的可解释性。

S104：确定所述第一初始模型在所述第一视图的相机坐标系的各坐标面上的第一投影特征，确定所述第二初始模型在所述第二视图的相机坐标系的各坐标面上的第二投影特征。

第一初始模型与第二初始模型均为建模目标物的360°的三维形象，第一初始模型仅根据第一视图的三维空间信息生成，第二初始模型仅根据第二视图的三维空间信息生成。但是，因为仅依靠一个视图无法获得全部360°视角的三维空间信息，所以在第一初始模型中，第一视图所呈现视角的三维空间信息比较准确，在第二初始模型中，第二视图所呈现视角的三维空间信息较为准确。需要融合从第一视图好第二视图中获得的三维空间信息，才能得到在全部空间视角都准确的三维形象。

以人物形象的三维重建任务为例，若输入的对称视图该人物形象的前视图和后视图，则根据前视图得到的第一初始模型中，前视视角的三维形象比较准确，根据后视图得到的第二初始模型中，后视视角的三维人物形象比较准确。需要将第一初始模型与第二初始模型，进行融合，才能得到360°视角的三维空间信息，得到360°视角都准确的三维人物形象。

而两个视图的三维空间信息在融合时，需要对第一初始模型与第二初始模型中相同语义的特征元素进行融合，才能保证两个视图之间的语义一致性，最终得到准确性高的三维模型。但是，第一初始模型是依据第一视图得到的三维形象，第二初始模型是依据第二视图得到的三维形象，第一初始模型与第二初始模型都是对于同一个建模目标物的三维形象，因为两个视图中不存在重叠部分，所以，在第一初始模型中对于第二视图所呈现视角进行描述的三维形象，与第二初始模型中对于第二视图所呈现视角进行描述的三维形象可能存在差异。虽然第一初始模型与第二初始模型中均存在对于第二视图所呈现视角进行描述的三维形象，但是由于差异的存在，第一初始模型与第二初始模型中相同语义的特征元素的确定较为困难。

所以，服务器将第一视图的相机坐标系的三个坐标面，作为第一初始模型的投影特征平面，确定第一初始模型在第一视图的相机坐标系的各坐标面上的第一投影特征。将第二视图的相机坐标系的三个坐标面，作为第二初始模型的投影特征平面，确定第二初始模型在第二视图的相机坐标系的各坐标面上的第二投影特征。

后续，服务器可针对各第一投影特征与各第二投影特征进行融合操作。各第一投影特征与各第二投影特征均为二维的特征，因为第一初始模型与第二初始模型均是对于同一建模目标物的三维形象，即使在三维空间中差异较大，不容易在第一初始模型与第二初始模型中确定相同语义的特征元素，但是通过投影的操作，将三维形象中表征三维语义的特征转化为二维形象中表征二维语义的特征，缩小了第一初始模型与第二初始模型的差异，在融合时更能保证两视角间的语义一致性。

另外，虽然通过投影降低了特征本身表征的语义的空间维度，但是由于投影特征平面为相机坐标系的三个两两正交的坐标面，在将表征三维语义的特征转化为表征二维语义的特征的同时，通过坐标面的空间结构，保存了第一初始模型和第二初始模型中的三维空间信息，将原本存在于三维形象中的三维空间信息转换到三个坐标面组成的特征平面中。

S106：对各第一投影特征和各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征。

服务器在将各第一投影特征与各第二投影特征进行融合时，还需要统一各第一投影特征和各第二投影特征所在的坐标系，在同一个坐标系，即同一个空间尺度下进行融合操作才有意义。

所以，服务器需要对各第一投影特征和所述各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征。

具体的，服务器以第一视图的相机坐标系为标准坐标系，将各第一投影特征在第一视图的相机坐标系的坐标，作为各第一投影特征在标准坐标系的坐标，根据第一视图与第二视图的对称关系，对各第二投影特征在第二视图的相机坐标系的坐标进行变换，确定各第二投影特征在标准坐标系的坐标。

例如，第一视图与第二视图分别为一个人物形象的前视图与后视图，图4为本说明书实施例中提供的一种人物形象前视图对应的第一初始模型的投影示意图，箭头表示投影方向。如图4所示，在前视图的相机坐标系中，以竖直向上方向为y轴正方向，以人物面向的方向为z轴正方向，以人物左手方向为x轴正方向。图5为本说明书实施例中提供的一种人物形象后视图对应的第二初始模型的投影示意图，箭头表示投影方向。如图5所示，在后视图的相机坐标系中，以竖直向上方向为y轴正方向，以人物面向的方向为z轴负方向，以人物左手方向为x轴负方向。那么，以前视图的相机坐标系为标准坐标系时，需要将后视图的相机坐标系中的xOz坐标面，绕y轴旋转180°。

在标准坐标系中，同一坐标位置对应的第一投影特征中的特征元素与第二投影特征中的特征元素，具有相同的语义，保证了后续特征融合时的语义一致性。

当然，服务器也可以将第二视图的相机坐标系作为标准坐标系，根据第一视图与第二视图的对称关系，将第一视图的相机坐标系进行旋转，使各第一投影特征和所述各第二投影特征实现空间对齐。或者服务器预设一个标准坐标系，该标准坐标系不同于第一视图的相机坐标系，也不同于第二视图的相机坐标系，在空间对齐时，将第一视图的相机坐标系和第二视图的相机坐标系同时进行旋转，与标准坐标系对齐。对于标准坐标系的选择，本说明书不作限制。

S108：将所述标准坐标系中的各第一投影特征和各第二投影特征，输入所述聚合层，对所述标准坐标系中的各第一投影特征进行求和，得到第一局部特征，对所述标准坐标系中的各第二投影特征进行求和，得到第二局部特征，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征。

如图2所示，服务器将各第一投影特征和各第二投影特征，输入聚合层，对标准坐标系中的各第一投影特征进行求和，得到第一局部特征，对标准坐标系中的各第二投影特征进行求和，得到第二局部特征。

每一个特征平面上的投影特征，都代表了一个投影方向的三维空间信息，各投影特征求和，即将各投影方向的三维空间信息融合，就代表了完整的建模目标物的三维空间信息。但是，由于第一局部特征是仅根据第一视图获得的三维空间信息，第二局部特征是仅根据第二视图获得三维空间信息，第一局部特征或第二局部特征中，都只有部分三维空间信息的描述是准确的。

服务器将第一局部特征和第二局部特征进行融合，确定全局特征。该全局特征是结合了第一视图的三维空间信息与第二视图的三维空间信息后，得到的建模目标物的准确的三维空间信息。

本说明书对第一局部特征与第二局部特征的融合方式，不作限制。服务器可以将第一局部特征和第二局部特征进行求和，确定全局特征。也可以通过注意力机制确定第一局部特征和第二局部特征的合成权重，根据合成权重，对第一局部特征和第二局部特征进行加权求和，确定全局特征。

S110：将所述全局特征输入所述渲染层，得到所述建模目标物的三维模型。

通过上述步骤得到的全局特征包含了建模目标物全部的三维空间信息，服务器只需将全局特征输入渲染器，即可得到建模目标物的三维模型。

在本说明书提供的基于对称视图的三维重建方法中，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，确定第一初始模型在第一视图的相机坐标系的各坐标面上的第一投影特征，以及第二初始模型在第二视图的相机坐标系的各坐标面上的第二投影特征，对各第一投影特征和各第二投影特征进行空间对齐，在聚合层，确定全局特征，将全局特征输入渲染层，得到三维模型。这样，通过将各第一投影特征和各第二投影特征进行空间对齐，可得到包含建模目标物全局三维空间信息的全局特征，根据全局特征可渲染出建模目标物的三维模型，不再需要不同视角视图的重叠部分进行空间对齐，减少了三维重建所需的视图数量，提高了三维重建效率。

上述步骤S108中，为了提高各第一投影特征和各第二投影特征的分辨率，使得最终渲染出的三维模型更加清晰。服务器可以分别对各第一投影特征进行上采样，确定各第一增强特征，对各第一增强特征进行求和，得到第一局部特征。分别对各第二投影特征进行上采样，确定各第二增强特征，对各第二增强特征进行求和，得到第二局部特征。

其中，上采样的方式可以为双线性插值、最近邻差值等等，本说明书对此不作限制。

由于，在第一局部特征中，对于第一视图所呈现视角的特征的描述比较准确，在第二局部特征中，对于第二视图所呈现视角的特征的描述比较准确。所以，可以根据第一视图和第二视图的相机参数，确定第一局部特征和第二局部特征所包含的特征元素的空间位置，在融合第一视图中所呈现视角的特征时，对属于第一局部特征的特征元素赋予较大的权重，在融合第二视图中所呈现视角的特征时，对属于第二局部特征的特征元素赋予较大的权重。这样，可以更好的保留第一局部特征与第二局部特征中准确的部分，得到更加准确的全局特征，后续根据全局特征进行渲染得到的三维模型也更加准确。

具体的，服务器将第一局部特征与第二局部特征进行拼接，得到拼接特征，并确定拼接特征的键向量和值向量。然后，服务器将第一视图的相机参数和第二视图的相机参数，输入聚合层，并将第一视图的相机参数与第二视图的相机参数拼接，得到方向特征，确定方向特征的查询向量。服务器根据拼接特征的键向量和值向量，以及方向特征的查询向量，确定全局特征。

全局特征可根据如下公式确定：

其中，F表示全局特征，Q表示方向特征的查询向量，表示拼接特征的键向量的转置，V表示拼接特征的值向量，d表示K的维度，/>是激活函数。

上述内容介绍了基于对称视图的三维重建方法，下面将介绍用于三维重建的生成模型的训练方法，待训练的生成模型至少包括编码层、生成层、聚合层、渲染层和鉴别层，鉴别层包含三个鉴别器。

首先，服务器获取对称采集的样本目标物的第一样本视图和第二样本视图，并确定该样本目标物前后视角的标准视图和标准掩膜，作为标注。

其次，通过待训练的生成模型的编码层、生成层、聚合层、渲染层，执行上述基于对称视图的三维重建方法，得到所述样本目标物对应的三维模型。得到三维模型的具体过程，可参考上述S100~S110相应内容的说明，本说明书在此不做赘述。

再次，服务器确定该三维模型前后视角的生成视图和生成掩膜，分别对各生成视图进行上采样，得到各增强视图，分别对各生成掩膜进行上采样，确定各增强掩膜。

本说明书中的鉴别层采用三鉴别器结构，从生成视图、增强视图与增强掩膜三个方面对重建得到的三维模型的准确性进行约束，可使得到三维模型的准确性更高。图6为本说明书中提供的一种鉴别层的结构示意图，其中，表示第一鉴别器，/>表示第二鉴别器，表示第三鉴别器。

如图6所示，针对每个视角，将该视角的生成视图与标准视图，输入第一鉴别器，确定该视角的第一生成得分和第一标准得分，将该视角的增强视图与标准视图，输入第二鉴别器，确定该视角的第二生成得分和第二标准得分，将该视角的增强掩膜和标准掩膜，输入第三鉴别器，确定该视角的第三生成得分和第三标准得分。

然后，服务器根据各视角的第一生成得分、第二生成得分和第三生成得分，确定总生成损失。具体的，服务器根据各第一生成得分，确定第一生成损失，根据各第二生成得分，确定第二生成损失，根据各第三生成得分，确定第三生成损失。根据第一生成损失、第二生成损失和第三生成损失，确定总生成损失。

具体的，总生成损失可根据下式确定：

其中，N表示视角数，表示第一鉴别器，/>表示第二鉴别器，/>表示第三鉴别器，表示第n个视角的生成视图的第一生成得分，/>表示第n个视角的增强视图的第二生成得分，/>表示第n个视角的增强掩膜的第三生成得分。/>表示第一生成损失，/>表示第二生成损失，/>表示第三生成损失，/>表示总生成损失。

并且，服务器根据各视角的第一生成得分、第二生成得分、第三生成得分、第一标准得分、第二标准得分和第三标准得分，确定鉴别损失。具体的，服务器根据各第一生成得分与各第一标准得分，确定第一鉴别损失，根据各第二生成得分与各第二鉴别得分，确定第二鉴别损失，根据各第三生成得分与各第三鉴别得分，确定第三鉴别损失。根据第一鉴别损失、第二鉴别损失和第三鉴别损失，确定总鉴别损失。

具体的，总鉴别损失可根据下式确定：

其中，表示第n个视角的标准视图的第一标准得分，/>表示第n个视角的增强视图的第一标准得分，/>表示第n个视角的增强掩膜的第三标准得分。/>表示第一生成损失，/>表示第二生成损失，/>表示第三生成损失，/>表示总生成损失。

生成视图、增强视图与标准视图均为RGB图，生成视图与增强视图，都是与标准视图进行比较，确定生成视图的生成得分，以及增强视图的生成得分，生成视图的生成得分用于评估低分辨率时的三维模型的颜色准确度，增强视图的生成得分用于评估高分辨率时三维模型的颜色准确度。生成掩膜代表了该三维模型的形状，用于评估生成的三维模型的形状准确度。

但是，考虑到在该三维模型的分辨率较低时，获取到的该三维模型的生成掩膜的分辨率也会较低，一般标准掩膜的分辨率较高，为防止因为分辨率原因影响对三维模型的形状评估，服务器对该三维模型的生成掩膜进行上采样，得到分辨率高的增强掩膜，再根据增强掩膜与标准掩膜的差异，确定第三生成得分与第三标准得分。

为了进一步增强生成的三维模型的准确性，可以选取更多视角的标准视图和标准掩膜，作为标注。如选取前后左右四个视角的标准视图和标准掩膜，作为标注，相应的，在得到该目标物的三维模型后，也要确定该三维模型前后左右四个视角的生成视图与生成掩膜，用于确定总生成损失和总鉴别损失。

服务器以总生成损失最小为目标，训练生成层，以总鉴别损失最大为目标，训练鉴别层，并根据第一鉴别损失，训练第一鉴别器，根据第二鉴别损失，训练第二鉴别器，根据第三鉴别损失，训练第三鉴别器。

在模型的训练过程中，交替训练生成层和鉴别层，如，针对每一轮训练过程，固定生成层参数，根据该轮训练过程的鉴别损失，调节鉴别层参数，在该轮训练过程的下一轮训练过程，固定鉴别层参数，根据该轮训练过程的下一轮训练过程的生成损失，调节生成层参数。直至，生成损失与鉴别损失趋于一致，生成模型训练完成。

以上是本说明书提供的基于对称视图的三维重建方法，基于同样的思路，本说明书还提供了相应的基于对称视图的三维重建装置，如图7所示。

图7为本说明书提供的一种基于对称视图的三维重建装置示意图，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，具体包括：

获取模块200，获取对称采集的建模目标物的第一视图和第二视图，将所述第一视图和所述第二视图，分别输入所述编码层，确定所述第一视图的第一初始特征，以及所述第二视图的第二初始特征；

生成模块202，将所述第一初始特征和第一噪声向量，输入所述生成层，得到所述第一视图对应的第一初始模型，将所述第二初始特征和第二噪声向量，输入所述生成层，得到所述第二视图对应的第二初始模型；

投影模块204，确定所述第一初始模型在所述第一视图的相机坐标系的各坐标面上的第一投影特征，确定所述第二初始模型在所述第二视图的相机坐标系的各坐标面上的第二投影特征；

空间对齐模块206，对各第一投影特征和各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征；

聚合模块208，将所述标准坐标系中的各第一投影特征和各第二投影特征，输入所述聚合层，对所述标准坐标系中的各第一投影特征进行求和，得到第一局部特征，对所述标准坐标系中的各第二投影特征进行求和，得到第二局部特征，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征；

渲染模块210，将所述全局特征输入所述渲染层，得到所述建模目标物的三维模型。

可选地，所述生成模块202，所述生成层包含多个卷积子层，具体用于将所述第一初始特征和第一噪声向量，输入所述生成层的各卷积子层，确定所述各卷积子层得到的第一生成特征，将各第一生成特征进行拼接，得到所述第一初始模型，将所述第二初始特征和第二噪声向量，依次输入所述生成层的各卷积子层，确定所述各卷积子层得到的第二生成特征，将各第二生成特征进行拼接，得到所述第二初始模型。

可选地，所述聚合模块208，具体用于分别对所述各第一投影特征进行上采样，确定各第一增强特征，对所述各第一增强特征进行求和，得到第一局部特征，分别对所述各第二投影特征进行上采样，确定各第二增强特征，对所述各第二增强特征进行求和，得到第二局部特征。

可选地，所述空间对齐模块206，具体用于以所述第一视图的相机坐标系为标准坐标系，将所述各第一投影特征在所述第一视图的相机坐标系的坐标，作为所述各第一投影特征在所述标准坐标系的坐标，根据所述第一视图与所述第二视图的对称关系，将所述各第二投影特征在所述第二视图的相机坐标系的坐标进行变换，确定所述各第二投影特征在所述标准坐标系的坐标。

可选地，所述聚合模块208，具体用于将所述第一局部特征和所述第二局部特征进行求和，确定全局特征。

可选地，所述聚合模块208，具体用于将所述第一局部特征与所述第二局部特征进行拼接，得到拼接特征，确定所述拼接特征的键向量和值向量，将所述第一视图的相机参数以及所述第二视图的相机参数，输入所述聚合层，将所述第一视图的相机参数和所述第二视图的相机参数进行拼接，得到方向特征，确定所述方向特征的查询向量，根据所述拼接特征的键向量和值向量，以及所述方向特征的查询向量，确定全局特征。

可选地，所述装置还包括训练模块212，待训练的生成模型至少包括编码层、生成层、聚合层、渲染层和鉴别层，所述鉴别层包含三个鉴别器，具体用于获取对称采集的样本目标物的第一样本视图和第二样本视图，并确定所述样本目标物前后视角标准视图和标准掩膜，作为标注；

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的基于对称视图的三维重建方法。

本说明书还提供了图8所示的电子设备的示意结构图。如图8所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的基于对称视图的三维重建方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于对称视图的三维重建方法，其特征在于，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，所述生成层包含多个卷积子层，所述方法包括：

将所述第一初始特征和第一噪声向量，输入所述生成层的各卷积子层，确定所述各卷积子层得到的第一生成特征，将各第一生成特征进行拼接，得到第一初始模型；将所述第二初始特征和第二噪声向量，依次输入所述生成层的各卷积子层，确定所述各卷积子层得到的第二生成特征，将各第二生成特征进行拼接，得到第二初始模型；

2.如权利要求1所述的方法，其特征在于，对各第一投影特征进行求和，得到第一局部特征，对各第二投影特征进行求和，得到第二局部特征，具体包括：

3.如权利要求1所述的方法，其特征在于，对各第一投影特征和各第二投影特征进行空间对齐，确定标准坐标系中的各第一投影特征和各第二投影特征，具体包括：

4.如权利要求1所述的方法，其特征在于，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征，具体包括：

5.如权利要求1所述的方法，其特征在于，将所述第一局部特征和所述第二局部特征进行融合，确定全局特征，具体包括：

6.如权利要求1所述的方法，其特征在于，待训练的生成模型至少包括编码层、生成层、聚合层、渲染层和鉴别层，所述鉴别层包含三个鉴别器，所述生成模型的训练方法如下：

通过所述待训练的生成模型的编码层、生成层、聚合层、渲染层，执行权利要求1~5任一项所述的方法，得到所述样本目标物对应的三维模型；

7.一种基于对称视图的三维重建装置，其特征在于，用于三维重建的生成模型至少包括编码层、生成层、聚合层和渲染层，所述生成层包含多个卷积子层，所述装置包括：

生成模块，将所述第一初始特征和第一噪声向量，输入所述生成层的各卷积子层，确定所述各卷积子层得到的第一生成特征，将各第一生成特征进行拼接，得到第一初始模型；将所述第二初始特征和第二噪声向量，依次输入所述生成层的各卷积子层，确定所述各卷积子层得到的第二生成特征，将各第二生成特征进行拼接，得到第二初始模型；

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。